在一般的搜索引擎架構中,網(wǎng)頁去重一般在Spider抓取部分就存在了,“去重”步驟在整個搜索引擎架構中實施得越早,越可以節(jié)約后續(xù)處理系統(tǒng)的資源使用。搜索引擎一般會對已經(jīng)抓取過的重復頁面進行歸類處理,比如,判斷某個站點是否包含大量的重復頁面,或者該站點是否完全采集其他站點的內(nèi)容等,以決定以后對該站點的抓取情況或是否直接屏蔽抓取。
去重的工作一般會在分詞之后和索引之前進行(也有可能在分詞之前),搜索引擎會在頁面已經(jīng)分出的關鍵詞中,提取部分具有代表性的關鍵詞,然后計算這些關鍵詞的“指紋”。每一個網(wǎng)頁都會有個這樣的特征指紋,當新抓取的網(wǎng)頁的關鍵詞指紋和已索引網(wǎng)頁的關鍵詞指紋有重合時,那么該新網(wǎng)頁就可能會被搜索引擎視為重復內(nèi)容而放棄索引。
實際工作中的搜索引擎,不僅僅使用分詞步驟所分出的有意義的關鍵詞,還會使用連續(xù)切割的方式提取關鍵詞,并進行指紋計算。連續(xù)切割的方式提取關鍵詞,并進行指紋計算,連切割就是以單個字向后移動的方式進行切割就是單個字向后移動的方式進行切詞,比如,“百度開始打擊買賣鏈接”會被切成“百度開”“度開始”“開始打”“始打擊”“打擊買”“擊買賣”“買賣鏈”“賣鏈接”。然后從這些詞中提取部分關鍵詞進行指紋計算,參與是否重復內(nèi)容的對比。這只是搜索引擎識別重復網(wǎng)頁的基本算法,還有很多其他對付重復網(wǎng)頁的算法。
因此網(wǎng)絡上流行的大部分偽原創(chuàng)工具,不是不能欺騙搜索引擎,就是把內(nèi)容做的鬼都讀不通,所以理論上使用普通偽原創(chuàng)工具不能得到搜索引擎的正常收錄和排名。但是由于百度并不是對所有的重復頁面都直接拋棄不索引,而是會根據(jù)重復網(wǎng)頁所在網(wǎng)站的權重適當放寬索引標準,這樣使得部分作弊者有機可乘,利用網(wǎng)站的高權重,大量采集其他站點的內(nèi)容獲取搜索流量。不過自2012年6月份以來,百度搜索多次升級算法,對采集重復信息、垃圾頁面進行了多次重復級的打擊。所以SEO在面對網(wǎng)站內(nèi)容時,不應該再以偽原創(chuàng)的角度去建設,而需要以對用戶有用的角度去建設,雖然后者的內(nèi)容不一定全部是原創(chuàng),一般如果網(wǎng)站權重沒有大問題,都會得到健康的發(fā)展。關于原創(chuàng)問題,本書后續(xù)會在第12章進行詳細討論。
另外,不僅僅是搜索引擎需要“網(wǎng)頁去重”,自己
做網(wǎng)站也需要對站內(nèi)頁面進行去重。比如分類信息、B2B平臺等UGC類的網(wǎng)站,如果不加以限制,用戶所發(fā)布的信息必然會有大量的重復,這樣不僅在SEO方面表現(xiàn)不好,站內(nèi)用戶體驗也會降低很多。有如SEO人員在設計流量產(chǎn)品常見的一般為以“聚合”為基礎的索引頁、專題頁或目錄頁,“聚合”就必須有核心詞,不加以過濾,海量核心詞所擴展出來的頁面就可能會有大量重復,從而導致該產(chǎn)品效果不佳,甚至會因此被搜索引擎降權。
“去重”算法的大概原理一般就是如上所述,有興趣的朋友可以了解一下I-Match、Shingle、SimHash及余弦去重具體算法。搜索引擎在做“網(wǎng)頁去重”工作之前首先要分析網(wǎng)頁,內(nèi)容周圍的“噪聲”對去重結果多少會有影響,做這部分工作時只對內(nèi)容部分操作就可以了,相對來說會簡單很多,并且可以很有效地輔助產(chǎn)出高質量的“SEO產(chǎn)品”。作為SEO人員只要了解實現(xiàn)原理就可以了,具體在產(chǎn)品中的應用,需要技術人員來實現(xiàn)。此外還涉及效率、資源需求等問題,并且根據(jù)實際情況“去重”工作也可以在多個環(huán)節(jié)進行(比如對核心詞的分詞環(huán)節(jié)),SEO人員只要稍微了解一些原理,能夠為技術人員建議幾個方向就很不錯了(技術人員并不是萬能的,也有不熟悉、不擅長的領域,在特定時刻也需要別人提供思路)。如果SEO人員能在這些方面和技術人員進行深入的交流,技術人員也會對SEO另眼相看,至少不會再認為“SEO人員就只會修改標題、改鏈接、改文字之類‘無聊’的需求”了。
總結:在次感謝痞子瑞的怎么好的書本,妮子在SEO思維中,找到新的知識,去重,指紋原理。希望兄弟姐妹們可以去看看這本書,今天給大家分享一部分吧!往后的日子,看到好的知識點,會繼續(xù)和大家分享了。
網(wǎng)站名稱:關于百度去重原理的最新定義
網(wǎng)站路徑:http://m.newbst.com/news31/122331.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供App設計、定制開發(fā)、網(wǎng)站維護、小程序開發(fā)、網(wǎng)站排名、搜索引擎優(yōu)化
廣告
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源:
創(chuàng)新互聯(lián)