網站優化之防止網站被采集

2016-08-09 分類：網站建設

采集就是使用程序通過自動化操作復制數據。
首先說明，只要是能讓瀏覽器訪問的，就沒有不能采集的。
但是可以通過一定的手段讓采集變得非常麻煩，進而在大量數據的情況下延遲采集完成時間，加大采集難度。
一般的情況略過不說，幾種情況比較特別的：
1、驗證來路，cookie，session這些，比如PHP可以用fsockopen自定義HTTPHeader，基本上這些方法沒什么效果。
2、限速，限制某段時間內打開頁面數量。這個只是推遲了下，大部分時間效果一般。比如某站限制一分鐘之內只能打開30個網頁，頁面大小平均30K，則用迅雷批量下載就OK了，設置限速為2K，一覺醒來什么都好了。這個方法效果也基本沒有。
3、比較特別的方法，設置一個數量級的閥值，達到這樣數量后，必須驗證方能繼續，比如打開10個頁面需要輸入驗證碼，這個時候只需要保證驗證碼不可識別，分配一個session，以后的瀏覽過程中用session保證用戶合法性，這樣不影響后續訪問，同時可以有效防止采集。
4、第三條對蜘蛛是致命的，此時可通過手機蜘蛛IP段，放行，其它的按照嚴格規則來。
5、3+4真是無敵的嗎?遠非可以高枕無憂，比如此站有10萬個頁面，則設置100個代理，在閥值前循環使用代理，這樣實際上繞過了3的限制。
6、還有別的辦法嗎?不能，因為你的網站能用瀏覽器打開。

本文名稱：網站優化之防止網站被采集
網頁地址：http://m.newbst.com/news19/41719.html

成都網站建設公司_創新互聯，為您提供微信公眾號、網站設計、網站策劃、建站公司、品牌網站建設、定制開發

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

網站優化之防止網站被采集