各搜索引擎蜘蛛介紹，搜索引擎蜘蛛爬取網站，抓取數據的規則

2022-11-18 分類：網站建設

各搜索引擎蜘蛛介紹，搜索引擎蜘蛛爬取網站，抓取數據的規則

1、百度蜘蛛：BaiduSpider

常見的Baiduspider和Baiduspider-image（抓取圖片）

百度公司還有其它幾個蜘蛛：Baiduspider-video（抓取視頻）、Baiduspider-news（抓取新聞）、Baiduspider-mobile（抓取wap），都不常見

百度蜘蛛爬蟲UA：

PC端：Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

移動端：Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

圖片：“Baiduspider-image+(+http://www.baidu.com/search/spider.htm)”

2、谷歌蜘蛛：Googlebot

有人說谷歌蜘蛛是GoogleBot，官方谷歌蜘蛛最新名稱為Googlebot，還發現了Googlebot-Mobile，看名字是應該是抓取wap內容的

谷歌蜘蛛爬蟲UA：“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

3、360蜘蛛：360Spider

它是一個十分“勤奮抓爬”的蜘蛛

360蜘蛛爬蟲UA：

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);

4、搜狗蜘蛛：Sogou News Spider

搜狗公司還有其它幾個蜘蛛：Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider，冬鏡在日志中只發現了常見的Sogou News Spider。（參考大神百度的robots文件，搜狗蜘蛛名稱可以用Sogou概括，但有沒有用就不知道了.）

搜狗蜘蛛爬蟲UA：

“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”

5、必應蜘蛛：bingbot

必應蜘蛛爬蟲UA：

“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”

6、SOSO蜘蛛：Sosospider

騰訊已玩死，交給搜狗公司了

soso蜘蛛爬蟲UA：“Sosospider+(+http://help.soso.com/webspider.htm)”

7、雅虎蜘蛛：Yahoo! Slurp China（雅虎中國）或Yahoo! Slurp（雅虎英文）

雅虎蜘蛛爬蟲UA：

雅虎中國：“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”

雅虎英文：“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”

8、MSN蜘蛛：msnbot，msnbot-media

重慶SEO好像只見到msnbot-media在狂爬……

MSN蜘蛛爬蟲UA：*msnbot/1.0 (+http://search.msn.com/msnbot.htm”)

其它還有一搜蜘蛛：YisouSpider、Alexa蜘蛛：ia_archiver、宜搜蜘蛛：EasouSpider、即刻蜘蛛：JikeSpider，以及還有YandexBot、AhrefsBot和ezooms.bot等這些蜘蛛，據說這幾個國外的蜘蛛都不咋好

各搜索引擎蜘蛛介紹

搜索引擎蜘蛛是搜索引擎的一個自動程序。它的作用是訪問互聯網上的網頁、圖片、視頻等內容，建立索引數據庫，使用戶能在搜索引擎中搜索到您網站的網頁、圖片、視頻等內容。

一般用法為“ spider+URL”，后面的URL(網址)是搜索引擎的痕跡，如果要查看某搜索引擎是否來爬取過你們的網站，可查看服務器的日志里是否有該URL,同時還能查看來的時間、頻率等…

1、百度蜘蛛：可以根據服務器的負載能力調節訪問密度，大大降低服務器的服務壓力。根據以往的經驗百度蜘蛛通常會過度重復地抓取同樣的頁面，導致其他頁面無法被抓取到而不能被收錄。這種情況可以采取 robots協議的方法來調節。

2、谷歌蜘蛛：谷歌蜘蛛屬于比較活躍的網站掃描工具，其間隔28天左右就派出“蜘蛛”檢索有更新或者有修改的網頁。與百度蜘蛛大的不同點是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。

3、雅虎中國蜘蛛：如果某個網站在谷歌網站下沒有很好的收錄，在雅虎下也不會有很好的收錄和爬行。雅虎蜘蛛的數量龐大，但平均的效率不是很高，相應的搜索結果質量不高。

4、微軟必應蜘蛛：必應與雅虎有著深度的合作關系，所以基本運行模式和雅虎蜘蛛差不多。

搜索引擎蜘蛛爬取網站

搜索引擎蜘蛛的抓取規則，如下四點提供參考：

1、搜索引擎蜘蛛要能看到鏈接文字

這個是搜索引擎蜘蛛爬行時能夠檢索到的文字，如果文字或鏈接是通過JavaScript調用，蜘蛛是檢索不到的。頁面的文字內容中主要內容位置越靠前越有利，例如產品名稱放到頁面越靠前的位置，對該頁面產品關鍵詞的排名越有利。

2、搜索引擎蜘蛛能爬行未經 nofollow處理過的鏈接

這一項列出的是搜索引擎蜘蛛能夠檢索到鏈接，蜘蛛能夠通過這些鏈接訪問網站其他頁面，越靠前的鏈接，被蜘蛛爬行的幾率就越大，被搜索引擎收錄的可能性越高。

3、搜索引擎蜘蛛能發現圖片鏈接并能閱讀到這些圖片所包含的含義

這里主要展示該頁面被搜索引擎蜘蛛和國際W3C標準化監測器所檢索到的圖片，搜索引擎能夠根據圖片at="" 去判斷該圖片的類型，性質和主題，對于判斷該圖片鏈接的頁面的主題有巨大幫助，能有效提高商品展示頁的搜索引擎排名根據W3C標準，頁面上所有圖片都必須添加alt="" 圖片注釋，網站Logo使用網站名稱加簡短描述，商品圖片使用商品名稱，網頁框架圖片留空。

4、搜索引擎蜘蛛能很好地識別HTML代碼

模擬搜索引擎蜘蛛爬行該頁面時，獲得的“最簡化代碼->是指過濾css， JavaScript后的代碼”，由此可以看出減少代碼空行，換行，空格等多余代碼空間非常重要。

5、搜狗蜘蛛：搜狗蜘蛛的爬取速度比較快，抓取的數量比起速度來說稍微少點。大的特點是不抓取 robot. text文件。

6、搜搜蜘蛛：搜搜早期是運用谷歌的搜索技術，谷歌有收錄，搜搜肯定也會收錄。2011年搜搜已經宣布采用自己的獨立搜索技術，但搜搜蜘蛛的特性和谷歌蜘蛛的特點還是有著相似的地方。

8、有道蜘蛛：和其他搜索引擎蜘蛛一樣，凡是高權重網站的鏈接一般都能將其收錄。爬行原理也是通過鏈接之間的爬行。

網頁標題：各搜索引擎蜘蛛介紹，搜索引擎蜘蛛爬取網站，抓取數據的規則
URL地址：http://m.newbst.com/news38/214938.html

成都網站建設公司_創新互聯，為您提供服務器托管、網站建設、品牌網站制作、App開發、網頁設計公司、手機網站建設