免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

YandexBot是什么搜索引擎蜘蛛

2024-04-07    分類: 網站建設

YandexBot 是俄羅斯搜索引擎 Yandex 的網絡爬蟲,用于索引網頁內容,從而幫助 Yandex 的搜索引擎提供相關的搜索結果。它是 Yandex 服務的重要組成部分,負責收集和分析互聯網上的數據,以提供準確和及時的搜索結果。

對于網站管理員和開發者來說,了解YandexBot的工作原理和如何與其交互是非常重要的。例如,通過配置網站的 robots.txt 文件,可以告訴 YandexBot 哪些頁面可以被索引,哪些頁面應該被排除。這有助于網站管理員更好地控制其在 Yandex 搜索引擎中的表現。

此外,了解 YandexBot 的訪問模式也有助于識別潛在的惡意行為或濫用情況。如果發現 YandexBot 的訪問模式異常,如頻繁訪問或請求大量數據,可能需要進行進一步的調查以確保網站的安全和穩定。

總之,YandexBot 是 Yandex 搜索引擎的重要組成部分,對于網站管理員和開發者來說,了解其工作原理和如何與其交互是非常重要的。

我們經常會受到大量的 YandexBot 訪問,我們知道 YandexBot 是 Yandex 的搜索引擎的爬蟲。

大量的 YandexBot 訪問,不僅給服務器造成了非常大的壓力,同時也會使正常訪客訪問網站變慢,影響體驗。

基于以上原因,我們不得不限制 YandexBot 的訪問,但是需要注意的一點:限制 Yandex 訪問會損失 Yandex 帶給我們的流量,由于限制了 Yandex 的爬蟲索引我們的網站,所以當用戶在 Yandex 搜索我們網站的主題詞時,不會有任何展示,所以也不會給我們帶來任何流量。

如果 Yandex 沒有給我們帶來任何訪客,那我們就屏蔽它吧!

Yandex 支持具有高級功能的 Robots Exclusion 協議。

當抓取一個網站時,Yandex 機器人會加載 robots.txt 文件。如果對該文件的最新請求顯示某個網站頁面或部分被禁止,機器人就不會索引它們。

Yandex robots.txt 文件的要求

Yandex 機器人可以正確處理 robots.txt,但是需要滿足以下要求:

文件大小不超過 500KB。

它是一個名為 "robots "的TXT文件, robots.txt。

該文件位于網站的根目錄中。

該文件可供機器人使用:托管網站的服務器以 HTTP 代碼回應,狀態為 200 OK。檢查服務器的響應

如果文件不符合要求,該網站被認為是開放索引的,也就是 Yandex 搜索引擎可以任意訪問網頁內容。

Yandex 支持從位于一個網站的 robots.txt 文件重定向到位于另一個網站的文件。在這種情況下,目標文件中的指令被考慮在內。這種重定向在移動網站時可能很有用。

Yandex 訪問 robots.txt 的一些規則

在 robots.txt 文件中,機器人會檢查以 User-agent: 開頭的記錄,并尋找字符 Yandex(大小寫不重要)或 *。如果 User-agent: Yandex 字符串被檢測到,User-agent: * 字符串會被忽略。如果 User-agent: Yandex和 User-agent: * 字符串未被發現,機器人將被視為具有無限的訪問權限。

你可以為 Yandex 機器人輸入單獨的指令。

例如下面的一些示例:

User-agent: YandexBot # 用于索引爬蟲的寫法

Disallow: /*id=

User-agent: Yandex # 將會對所有 YandexBot 起效

Disallow: /*sid= # 除了主要的索引機器人

User-agent: * # 對 YandexBot 不會起作用

Disallow: /cgi-bin 

根據標準,你應該在每個 User-agent 指令前插入一個空行。#字符指定了注釋。在這個字符之后的所有內容,直到第一個換行,都將被忽略。

robots.txt Disallow 與 Allow 指令

Disallow 指令,使用此指令禁止索引站點部分或單個頁面。例子:

包含機密數據的頁面。

帶有站點搜索結果的頁面。

網站流量統計。

重復頁面。

各種日志。

數據庫服務頁面。

下面是 Disallow 指令的示例:

User-agent: Yandex

Disallow: / # 禁止對整個網站進行抓取

User-agent: Yandex

Disallow: /catalogue # 禁止抓取以 /catalogue 開頭的頁面。

User-agent: Yandex

Disallow: /page? # 禁止抓取含有參數的 URL 的頁面

robots.txt Allow 指令

該指令允許索引站點部分或單個頁面。下面是示例:

User-agent: Yandex

Allow: /cgi-bin

Disallow: /

# 禁止索引任何頁面,除了以'/cgi-bin'開頭的網頁

User-agent: Yandex

Allow: /file.xml

# 允許索引 file.xml 文件

robots.txt 組合指令

相應的用戶代理塊中的 Allow 和 Disallow 指令會根據 URL 前綴長度(從最短到最長)進行排序,并按順序應用。如果有幾個指令與一個特定的網站頁面相匹配,機器人會選擇排序列表中的最后一個指令。這樣,robots.txt 文件中指令的順序就不會影響機器人使用它們的方式。

# robots.txt 文件示例:

User-agent: Yandex

Allow: /

Allow: /catalog/auto

Disallow: /catalog


User-agent: Yandex

Allow: /

Disallow: /catalog

Allow: /catalog/auto

# 禁止索引以 '/catalog' 開頭的頁面

IP 地址屏蔽
我們通過 list crawlers YandexBot 查看到 YandexBot 的 IP 地址,我們直接將這些 IP 加入到黑名單里就可以了,我以 Ubuntu 操作系統為例,如何將 IP 加入到防火墻的黑名單里面:

sudo iptables -A INPUT -s 213.180.203.82 -j DROP

上面的 IP 地址就是我們通過 list crawlers YandexBot 頁面查詢到的 IP ,直接一個一個的 IP 輸入就可以了,一個一行。

好處:直接且迅速。

缺點:可能漏掉一些 YandexBot 的 IP 地址。

通過 User-agent 屏蔽 YandexBot

通過我的這一篇文章:yandex bot user agent,我們可以看到每個 YandexBot 的具體 User-agent,我們在 Nginx 里面可以這樣屏蔽具體的 User-agent:

if ($http_user_agent ~* "Yandex") 

    return 403; 
}
這樣我們就可以通過 User-agent 屏蔽 YandexBot 的目的了。

優點:可以迅速直接的屏蔽 YandexBot。

通過 robots.txt 屏蔽 YandexBot

前面文章我已經具體介紹過如何通過 robots.txt 屏蔽 YandexBot 了,在此不多說,需要的可以看這篇文章:block yandex bot

優點:符合官方的規范要求。

缺點:Yandex 的有些爬蟲并不遵守 robots.txt 協議,使用 robots.txt 協議也就無法屏蔽了。

總結

這篇文章使用了三種方式屏蔽 YandexBot,并且介紹了優缺點,總有一種方法適合你。如夠你的網站市場在俄羅斯千萬不要把它給屏蔽了。

網站欄目:YandexBot是什么搜索引擎蜘蛛
當前地址:http://m.newbst.com/news18/322668.html

成都網站建設公司_創新互聯,為您提供網站內鏈App開發用戶體驗搜索引擎優化移動網站建設域名注冊

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

綿陽服務器托管