由于Spider(搜索引擎蜘蛛)所要抓取的網頁太多,如果只有單一的一個Spider進行抓取作業,那么將需要非常巨大的計算能力,同時也會消耗更多的抓取時間。這里就引入了分布式計算的概念,把龐大的抓取作業任務分割成很多較小的部分,使用大量合理計算能力的服務器來承載這個任務,以完成對全互聯網網頁的快速抓取。現在大型搜索引擎都會使用分布式計算,同樣Spider也會使用分布式計算,可以稱這種Spider為分布式Spider,它遵循了分布式計算的主要規則,根據這些規則也可以解釋現在站長和SEO人員關心的“降權蜘蛛”問題。
分布式計算有很多種計算方式,這里簡單介紹Spider應有的分布式抓取策略。涉及分布式計算,也就涉及任務分發機制。整個分布式Spider系統需要保證所有Spidei?之間不會有重復抓取的情況發生,也就是要為各個Spider分配好抓取范圍。當一個Spider發現一個新的URL時,會判斷該URL是否在自己的抓取范圍之內,如果在自己的抓取范圍之內,就會把該URL放到自己待抓取URL隊列中;如果不在自己的抓取范圍之內,就會把該URL提交給上級服務器,由上級服務器分發給相應的Spider,并加入到該Spider的待抓取URL列表中。
要確保所有Spider的作業不重復,就要求每個Spider都有自己的抓取范圍,也就是說每個Spider都會只抓取指定類型的網頁。這里就要看搜索引擎是如何對網頁進行分類的了,常規網頁的分類方法有三種,第一種是按照優秀站點、普通站點、垃圾站點、降權站點和屏蔽(被K)站點等站點質量等級分類;第二種是按照網站首頁、網站目錄頁、網站內容頁、網站專題頁、視頻、圖片、新聞、行業資料、其他類型的網絡文件(PDF、Word、Excel等)等網頁類型分類;第三種是按照站點或網頁內容所在行業分類。在真正的Spider系統設計中,為了減少搜索引擎和被抓取站點服務器之間的握手次數(影響抓取效率的重要因素),站點級別相關的分類應該是被優先使用的。
Spider會嚴格按照自己的作業任務進行作業,由以上分類可以看出,對于大部分中小網站一般都會有一個固定的Spider進行抓取,所以很多站長和SEO人員在分析網站日志時所發現的百度Spider經常都是同一IP段的,但是不同網站之間發現的Spider的IP段并不同。理論上,如果參與研究的站點比較多,類型比較豐富,就可以比較容易地分辨出百度Spider的任務分發模式,這樣通過分析日志中百度來訪Spider的IP就可以判斷出自己的站點在百度搜索眼中是什么樣的。
針對第一種分類方式,就可能出現某一IP段的Spider只抓取權重高的網站,某一IP段的Spider只抓取已被搜索引擎降權或者屏蔽的網站。如果真的是采用這種任務分發方式,那么網絡上所傳的“降權蜘蛛”就可能存在。不過并不是因為這個Spider的到來使得網站降權或者屏蔽,而是因為該網站已經被百度降權或者屏蔽,百度服務器才會把對該站點的抓取任務分發給這個Spider。如果百度使用這種分布式的Spicier,那么網絡上對百度Spider各IP段特性的總結也是比較有意義的,不過不可全信,因為百度不可能只使用一種任務分發模式。這也可以成為站長和SEO人員的研究方向,即使可能最終一無所獲。因為搜索引擎對網站和網頁的分類有太多緯度了,新抓取和再次抓取所使用的緯度就可能不同,很可能各個緯度都是綜合使用的。
如圖所示為某網友對百度Spider所使用的IP的分析,有興趣的朋友可以百度搜索一下“百度蜘蛛IP段詳解”,有不少類似的總結,看看就好,不可以絕對當真。
SEOER對百度Spider的分析
網站名稱:分布式Spider和“降權蜘蛛”
分享網址:http://m.newbst.com/news/81292.html
成都網站建設公司_創新互聯,為您提供網站改版、網站建設、企業網站制作、小程序開發、外貿網站建設、標簽優化
廣告
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源:
創新互聯