期殊抓取的原始頁面并不能直接用于查詢排名,需要對其進行一定的處理。 這個處理的過程稱為預處理,搜索引繁預處理的環節是在后臺提前完成的,用戶搜索時感覺不到這個過程。搜索引擎預處理共分為六步。視索引擎須處理。涉及到網站優化中的多個環節,因此,掌握搜索引擎預處理的原理,可以更快速地理解網站優化的各個因素。
(1)提取文字
現在的搜索引擎還是以文字內容為基礎,從網頁文件中去除標簽、程序,提取出可以用于排名的網頁文字內容。
同時,需要注意,在優化網站時,頁面內容盡量以文字為主,方便蜘蛛提取用于排名的內容。
(2)中文分詞
搜索引擎將抓取到的頁面中的文字提取出來后,需要對提取出的文字進行拆分重組,這個過程稱為中文分詞。
英文等語言,單詞與單詞之間有空格作為天然分隔,搜索引擎索引程序可以直接把句子劃分為單詞的結合。而中文,詞與詞之間沒有任何分隔符,一個句子中的所有字和詞都是連在起的。 搜索引擎必須首先分辨哪幾個字組成一個詞, 哪些字本身就是一個詞。
進行中文分詞時,首先要把網頁中提取的文字按照詞組進行劃分,比如“連衣裙批發”可以分詞為“連衣裙”“批發”“連衣裙批發”。
在分詞時,對內容沒有任何影響卻大量出現的詞會被搜索引擎自動過濾,如的、地、得、啊、哦、呀、不但、而且等。
搜索引擎對頁面的分詞取決于詞庫的規模、準確性和分詞算法的好壞,而不是取決于頁面本身如何,因此SEO人員對于分詞所能做的很少。唯一能做的是在頁面上用某種形式提示搜索引擎,某幾個字應該被當做一個詞處理,尤其是可能產生歧義的時候,比如在頁面標題處出現關鍵詞,或者使用標簽強調關鍵詞。
(3)去除重復頁面
將分詞后的頁面進行對比,去除重復內容的頁面。
同一篇文章經常會重復出現在不同網站及同一個網站的不同網址上,搜索引擎并不喜歡這種重復性的內容。用戶搜索時,如果在搜索結果頁排名靠前的位置看到的都是來自不同網站的同一篇文章,用戶體驗就會很差。對于搜索引擎而言,更傾向于網站更新高質量的原創內容,這樣做符合搜索引擎的基本原則。
搜索引擎傾向于原創,因此,SEO人員應該知道簡單地增加“的”“地”“得”、調換段落順序這種所謂的偽原創,并不能逃過搜索引擎的去重算法。優化網站時,更新高質量的內容才是真理。
(4)計算網頁重要度
搜素引擎會根據網頁的被指向鏈接數及頁面的原創性兩個因素綜合判斷,計算出頁面的重要程度。
因此,為網站增加指向鏈接、提高頁面的原創度,是SEO人員應該重視的內容。
(5)建立索引
建立索引,是建立關鍵詞與
網站建設頁之間的對應關系。建立索引的大好處在于可以快速獲取對應的數據。簡單來說,搜索一個關鍵詞后,搜索引擎能夠在很短的時間內將所有相關的內容進行展現,依靠的就是提前對頁面建立了索引。
當前名稱:搜索引擎的預處理
網站URL:http://m.newbst.com/news33/145533.html
成都網站建設公司_創新互聯,為您提供網站內鏈、小程序開發、云服務器、網站設計公司、品牌網站建設、定制開發
廣告
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源:
創新互聯