免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

網站robots.txt文件的制作及使用

2022-06-01    分類: 網站建設

網站robots.txt文件的制作及使用

Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。

robots.txt文件是一個文本文件,使用任何一個常見的文本編輯器,比如Windows系統自帶的Notepad,就可以創建和編輯它robots.txt是一個協議,而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。

當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。百度官方建議,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。

如果將網站視為酒店里的一個房間,robots.txt就是主人在房間門口懸掛的“請勿打擾”或“歡迎打掃”的提示牌。這個文件告訴來訪的搜索引擎哪些房間可以進入和參觀,哪些房間因為存放貴重物品,或可能涉及住戶及訪客的隱私而不對搜索引擎開放。但robots.txt不是命令,也不是防火墻,如同守門人無法阻止竊賊等惡意闖入者。

大家都知道,robots.txt文件在網站優化時,是一個很重步驟,正確的寫好我們的robots.txt有利于我們的優化,首先我們要知道它是一種協議,也可以說是爬蟲協議、機器人協議。它的作用就是告訴搜索引擎蜘蛛我們的網站那些頁面可以被抓取,那些不可以抓取,所以這步對SEO網站優化很重要,但這一步也是要非常認真的寫,一旦寫錯,那對自己網站會很嚴重,比如一個目錄寫錯了,那么會導致這個目錄里的東西不被抓取,所以我們必須要了解我們網站的架構,每個目錄我們都要知道它是什么意思,這樣有利于我們寫好robots.txt協議,在沒有搞懂自己網站的架構之前,最好不要去寫robots.txt。先搞懂再說。下面我就來講講制作方法及怎么去使用:

大家首先要知道兩個標簽,Allow和Disallow,一個是允許,一個是不允許,它的作用相比大家也都能理解。大家一定不要搞混了,還有一個符號:* 這個符號代表:所有的意思。

User-agent: *

Disallow:

或者

User-agent: *

Allow:

如果我想屏蔽搜搜的蜘蛛來抓取,

User-agent: sosospider

Disallow: /

大家可以發現這個屏蔽蜘蛛跟上面允許相比只是多了一個“/”,其含義是完全不一樣的,所以在書寫的時候要千萬注意,可不能因為多寫個斜杠屏蔽了蜘蛛自己卻不知道。還有就是在user-agent:后邊不屑固定蜘蛛名稱跟的如果是“*”表示是針對所有蜘蛛的。

我們要禁止網站那個目錄文件不允許搜索引擎蜘蛛來抓取:

User-agent: *

Disallow: /目錄/。

如果是阻止抓取某目錄的話目錄名字一定要注意“/”,不帶“/”表示的是阻止訪問這個目錄頁面和目錄下的頁面,而帶上“/”則表示進阻止目錄下的內容頁面,這兩點要分清楚。如果是想屏蔽多個目錄就需要采用的。

如果是阻止蜘蛛訪問某一類型的文件,例如阻止抓取.jpg格式的圖片可以設置成:

User-agent: *

Disallow: .jpg$

假如我網站很多頁面后綴帶有?號的目錄,怎么來寫呢!我們可以這樣寫;

User-agent: *

Disallow: /*?

最后大家,寫robots.txt的時候,一定要分清字母的大小寫,還要robots.txt寫好都是放到網站根目錄下面。大家對網站robots.txt文件的制作已經了解了嗎?

網站題目:網站robots.txt文件的制作及使用
分享URL:http://m.newbst.com/news14/162114.html

成都網站建設公司_創新互聯,為您提供虛擬主機動態網站定制網站建站公司品牌網站設計關鍵詞優化

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

成都網頁設計公司