2022-12-20 分類: 網站建設
高頻率發布原創內容的網站很容易遭到虛假百度蜘蛛的攻擊,以竊取網站原創內容!那么怎么分辨真假百度蜘蛛呢?分辨后又怎么去禁止虛假百度蜘蛛偷取網站內容呢?
一、什么是假蜘蛛?
搜索引擎爬蟲我們稱之為蜘蛛,假蜘蛛即偽裝成搜索引擎的爬蟲。目的就是掩人耳目的去爬取采集網站的內容。
普通的爬蟲很容易被站點發現屏蔽,對于搜索引擎蜘蛛站點都是沒什么警惕心,希望多來抓取可以有效增加收錄量和速度。
二、如何鑒別假蜘蛛
網站日志會記錄所有訪問ip的請求頭即user-agent,通過修改蜘蛛的請求頭為搜索引擎公布的蜘蛛的UA名。
因此,我們光看日志是無法直接辨別真假蜘蛛的。大多數搜索引擎都是ip反查,比如我們通過windows電腦cmd中使用nslookp反查蜘蛛的ip能夠獲取到對應搜索引擎解析的為真蜘蛛,在這種方法下假蜘蛛無法遁形。
但是問題是如果不能事實鑒別假蜘蛛,內容被采集走了在屏蔽也失去了意義。
三、如何防止假蜘蛛抓取內容?
1、添加蜘蛛白名單
有些蜘蛛無法支持反查,我們可以把這類蜘蛛的ip段添加白名單,同時我們對于網站反查到的蜘蛛ip經過人工確定之后,也同樣加入白名單。可以防止程序出錯時誤屏蔽蜘蛛,以及加快程序的響應速度。
2、原創保護防采集
對于其他的爬蟲我們還是需要去檢測同一個ip是否有大段時間大量訪問的行為,對于異常ip我們可以使用驗證碼等方式驗證,這也是基于我們擁有了通過ip鑒別蜘蛛的前提下,可以避免誤傷搜索引擎的抓取任務采集。
只要你的內容可以顯示就可以有辦法采集,要想完全避免是不可能的,是雙方之間的一場博弈。
以上就是《[SEO優化]如何防止假蜘蛛抓取內容?》的全部內容,僅供站長朋友們互動交流學習,SEO優化是一個需要堅持的過程,希望大家一起共同進步。
當前題目:網站建設,[SEO優化]如何防止假蜘蛛抓取內容?
鏈接分享:http://m.newbst.com/news42/224292.html
網站建設、網絡推廣公司-創新互聯,是專注品牌與效果的網站制作,網絡營銷seo公司;服務項目有網站建設等
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯
猜你還喜歡下面的內容