2024-04-07 分類: 網站建設
YandexBot 是俄羅斯搜索引擎 Yandex 的網絡爬蟲,用于索引網頁內容,從而幫助 Yandex 的搜索引擎提供相關的搜索結果。它是 Yandex 服務的重要組成部分,負責收集和分析互聯網上的數據,以提供準確和及時的搜索結果。
對于網站管理員和開發者來說,了解YandexBot的工作原理和如何與其交互是非常重要的。例如,通過配置網站的 robots.txt 文件,可以告訴 YandexBot 哪些頁面可以被索引,哪些頁面應該被排除。這有助于網站管理員更好地控制其在 Yandex 搜索引擎中的表現。
此外,了解 YandexBot 的訪問模式也有助于識別潛在的惡意行為或濫用情況。如果發現 YandexBot 的訪問模式異常,如頻繁訪問或請求大量數據,可能需要進行進一步的調查以確保網站的安全和穩定。
總之,YandexBot 是 Yandex 搜索引擎的重要組成部分,對于網站管理員和開發者來說,了解其工作原理和如何與其交互是非常重要的。
我們經常會受到大量的 YandexBot 訪問,我們知道 YandexBot 是 Yandex 的搜索引擎的爬蟲。
大量的 YandexBot 訪問,不僅給服務器造成了非常大的壓力,同時也會使正常訪客訪問網站變慢,影響體驗。
基于以上原因,我們不得不限制 YandexBot 的訪問,但是需要注意的一點:限制 Yandex 訪問會損失 Yandex 帶給我們的流量,由于限制了 Yandex 的爬蟲索引我們的網站,所以當用戶在 Yandex 搜索我們網站的主題詞時,不會有任何展示,所以也不會給我們帶來任何流量。
如果 Yandex 沒有給我們帶來任何訪客,那我們就屏蔽它吧!
Yandex 支持具有高級功能的 Robots Exclusion 協議。
當抓取一個網站時,Yandex 機器人會加載 robots.txt 文件。如果對該文件的最新請求顯示某個網站頁面或部分被禁止,機器人就不會索引它們。
Yandex robots.txt 文件的要求
Yandex 機器人可以正確處理 robots.txt,但是需要滿足以下要求:
文件大小不超過 500KB。
它是一個名為 "robots "的TXT文件, robots.txt。
該文件位于網站的根目錄中。
該文件可供機器人使用:托管網站的服務器以 HTTP 代碼回應,狀態為 200 OK。檢查服務器的響應
如果文件不符合要求,該網站被認為是開放索引的,也就是 Yandex 搜索引擎可以任意訪問網頁內容。
Yandex 支持從位于一個網站的 robots.txt 文件重定向到位于另一個網站的文件。在這種情況下,目標文件中的指令被考慮在內。這種重定向在移動網站時可能很有用。
Yandex 訪問 robots.txt 的一些規則
在 robots.txt 文件中,機器人會檢查以 User-agent: 開頭的記錄,并尋找字符 Yandex(大小寫不重要)或 *。如果 User-agent: Yandex 字符串被檢測到,User-agent: * 字符串會被忽略。如果 User-agent: Yandex和 User-agent: * 字符串未被發現,機器人將被視為具有無限的訪問權限。
你可以為 Yandex 機器人輸入單獨的指令。
例如下面的一些示例:
User-agent: YandexBot # 用于索引爬蟲的寫法
Disallow: /*id=
User-agent: Yandex # 將會對所有 YandexBot 起效
Disallow: /*sid= # 除了主要的索引機器人
User-agent: * # 對 YandexBot 不會起作用
Disallow: /cgi-bin
根據標準,你應該在每個 User-agent 指令前插入一個空行。#字符指定了注釋。在這個字符之后的所有內容,直到第一個換行,都將被忽略。
robots.txt Disallow 與 Allow 指令
Disallow 指令,使用此指令禁止索引站點部分或單個頁面。例子:
包含機密數據的頁面。
帶有站點搜索結果的頁面。
網站流量統計。
重復頁面。
各種日志。
數據庫服務頁面。
下面是 Disallow 指令的示例:
User-agent: Yandex
Disallow: / # 禁止對整個網站進行抓取
User-agent: Yandex
Disallow: /catalogue # 禁止抓取以 /catalogue 開頭的頁面。
User-agent: Yandex
Disallow: /page? # 禁止抓取含有參數的 URL 的頁面
robots.txt Allow 指令
該指令允許索引站點部分或單個頁面。下面是示例:
User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# 禁止索引任何頁面,除了以'/cgi-bin'開頭的網頁
User-agent: Yandex
Allow: /file.xml
# 允許索引 file.xml 文件
robots.txt 組合指令
相應的用戶代理塊中的 Allow 和 Disallow 指令會根據 URL 前綴長度(從最短到最長)進行排序,并按順序應用。如果有幾個指令與一個特定的網站頁面相匹配,機器人會選擇排序列表中的最后一個指令。這樣,robots.txt 文件中指令的順序就不會影響機器人使用它們的方式。
# robots.txt 文件示例:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog
User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# 禁止索引以 '/catalog' 開頭的頁面
IP 地址屏蔽
我們通過 list crawlers YandexBot 查看到 YandexBot 的 IP 地址,我們直接將這些 IP 加入到黑名單里就可以了,我以 Ubuntu 操作系統為例,如何將 IP 加入到防火墻的黑名單里面:
sudo iptables -A INPUT -s 213.180.203.82 -j DROP
上面的 IP 地址就是我們通過 list crawlers YandexBot 頁面查詢到的 IP ,直接一個一個的 IP 輸入就可以了,一個一行。
好處:直接且迅速。
缺點:可能漏掉一些 YandexBot 的 IP 地址。
通過 User-agent 屏蔽 YandexBot
通過我的這一篇文章:yandex bot user agent,我們可以看到每個 YandexBot 的具體 User-agent,我們在 Nginx 里面可以這樣屏蔽具體的 User-agent:
if ($http_user_agent ~* "Yandex")
{
return 403;
}
這樣我們就可以通過 User-agent 屏蔽 YandexBot 的目的了。
優點:可以迅速直接的屏蔽 YandexBot。
通過 robots.txt 屏蔽 YandexBot
前面文章我已經具體介紹過如何通過 robots.txt 屏蔽 YandexBot 了,在此不多說,需要的可以看這篇文章:block yandex bot
優點:符合官方的規范要求。
缺點:Yandex 的有些爬蟲并不遵守 robots.txt 協議,使用 robots.txt 協議也就無法屏蔽了。
總結
這篇文章使用了三種方式屏蔽 YandexBot,并且介紹了優缺點,總有一種方法適合你。如夠你的網站市場在俄羅斯千萬不要把它給屏蔽了。
網站欄目:YandexBot是什么搜索引擎蜘蛛
當前地址:http://m.newbst.com/news18/322668.html
成都網站建設公司_創新互聯,為您提供網站內鏈、App開發、用戶體驗、搜索引擎優化、移動網站建設、域名注冊
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯
猜你還喜歡下面的內容