2023-05-03 分類: 網站建設
一、站內優化
Robot.txt用法詳解及robot.txt問題匯總
(1)為什么設置Robots.txt?
在進行SEO操作的時候,我們需要告訴搜索引擎哪些頁面重要哪些頁面不重要,重要的頁面讓蜘蛛進行抓取,不重要的頁面進行屏蔽可以減少網站服務器的負擔。
(2)一些常見的問題和知識點
蜘蛛在發現一個網站的時候,是抓取網站的Robots.txt文件(當然官方上是這么說的,有時候也會出現不遵守的情況);
建議所有的網站都要設置Robots.txt文件,如果你認為網站上所有內容都是重要的,你可以建立一個空的robots.txt文件;
(3)在robots.txt文件中設置網站地圖
你可以在robots.txt中添加網站的地圖,告訴蜘蛛網站地圖所在的地址。
(4)Robots.txt的順序
在蜘蛛協議中,Disallow與Allow是有順序的,這是一個非常重要的問題,如果設置錯誤可能會導致抓取錯誤。
引擎蜘蛛程序會根據個匹配成功的Allow或Disallow行確定是否訪問某個URL,一個例子可以讓你更清楚明白:
User-agent:*2.Allow:/seojc/bbs3.Disallow:/seojc/這個情況下,蜘蛛/seojc/bbs目錄可以正常抓取,但/seojc/目錄的文件無法抓取。通過這種方式可以允許蜘蛛訪問特定目錄中的部分url。
我們對調下位置觀察一下。
User-agent:*2.Disallow:/根目錄下的文件夾/3.Allow:/seojc/bbs/seojc/目錄出現在行,禁止抓取目錄下的所有文件,那么第二行的Allow就無效,因為行中已經禁止抓取seojc目錄下的所有文件,而bbs目錄正好位于seowhy目錄下。因此匹配不成功。
(5)Robots.txt路徑問題
在蜘蛛協議中,Allow和Disallow后面可以跟兩種路徑形式,即鏈接、相對鏈接。鏈接就是完整的URL形式,而相對鏈接只針對根目錄。這是記住。
(6)斜杠問題
Disallow:/seojc表示禁止抓取seoic這個目錄下的所有文件,如:seojc.1.html、seojc/rmjc.php都不允許抓取;
Disallow:/seojc/表示禁止抓取seojc這個目錄下的文件,即允許抓取seojc.1.html,但是不允許抓取seojc/rmjc.php。
網站名稱:Robot.txt用法詳解及robot.txt問題匯總
文章分享:http://m.newbst.com/news17/257867.html
成都網站建設公司_創新互聯,為您提供云服務器、網頁設計公司、網站導航、電子商務、軟件開發、外貿建站
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯
猜你還喜歡下面的內容