網站日志怎么看?怎么用?有什么規則?
我們提供的服務有:網站制作、做網站、微信公眾號開發、網站優化、網站認證、黃島ssl等。為上1000+企事業單位解決了網站和推廣的問題。提供周到的售前咨詢和貼心的售后服務,是有科學管理、有技術的黃島網站制作公司
怎么看:
首選對日志的各部份含意要清楚。 推薦一款在線分析工具http://www.loghao.com(本人下載log文件DW下人工分析對比親測,非常準確的工具,為開發者點32個贊!!)
怎么用:
會看了,就要通過日志的記錄,來修正網站的問題,使網站更被引擎喜歡。
有什么規則:
引擎有不同IP段的抓取蜘蛛:
1、不同內容的抓取蜘蛛
2、權重頁的抓取蜘蛛、低權重頁的抓取蜘蛛
3、不同頁面的抓取蜘蛛
4、對新站的抓取蜘蛛
5、將要K站的、進沙盒的抓取蜘蛛
7、高頻率(每天更新)的抓取蜘蛛
8、新站點或出現異常的站點蜘蛛
9、不間斷巡邏的蜘蛛 210.72.225.* (它是我們通常理解的引擎蜘蛛抓取網站的情況,我以前總以為百度就有一人蜘蛛,每天
不停的進出各種網站,其實,這只是一個常運轉的程序)
10、用戶的訪問IP
還包括了進入網站的位置、以及用戶搜索時網站被展現且用戶點擊進入、以及在搜索圖片時的進入位置。進入時間、
等等(下文詳解,這里主要闡述不同IP對網站有不同意義,不僅僅要看301、200、304、404等因為,日志的信息量很大)
如果我們知道這以上內容,甚至更多時,我們就可以通過日志,來知道:引擎只派123.125.71.*來處理低權重的網頁。常常這個
IP段的蜘蛛訪問后會返回 304 。304是指網頁沒有變化。哪么,是不是通過這一點,我們知道了兩個問題:第一要更新這個網頁
。第二這個網頁權重不高,要做內外錨文本?(注意每一條日志里除了對首頁的抓取外,都明確的記錄了對哪一頁的返回信息)
等等IP段的蜘蛛和返回碼,以及記錄的被訪問的網頁,這有助于我們更善網頁。日志就是這么用的。
請認真閱讀以下內容:以便大家更好的研究日志。
不同IP段蜘蛛的含意一:
121.14.89.* 這個ip段作為度過新站考察期。
123.125.68.* 這個蜘蛛經常來,別的來的少,表示網站可能要進入沙盒了,或被者降權。
220.181.7.* 123.125.66.* 代表百度蜘蛛IP造訪,準備抓取你東西。
220.181.68.* 每天這個IP 段只增不減很有可能進沙盒或K站。
203.208.60.* 這個ip段出現在新站及站點有不正常現象后。
210.72.225.* 這個ip段不間斷巡邏各站。
二:
123.125.71.* 抓取內頁收錄的,權重較低,爬過此段的內頁文章不會很快放出來,因不是原創或采集文章
三:
125.90.88.* 四川茂名市電信也屬于百度蜘蛛IP 主要造成成分,是新上線站較多,還有使用過站長工具,或SEO綜合檢測造成的。
四:
220.181段屬于權重IP段此段爬過的文章或首頁基本24小時放出來。
220.181.108.75重點抓取更新文章的內頁達到90%,8%抓取首頁,2%其他。權重IP 段,爬過的文章或首頁基本24小時放出來。
220.181.108.77 專用抓首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.80專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.83專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.86專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.89專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.91屬于綜合的,主要抓取首頁和內頁或其他,屬于權重IP 段,爬過的文章或首頁基本24小時放出來。
220.181.108.92 同上98%抓取首頁,可能還會抓取其他 (不是指內頁)
220.181.108.94專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.95這個是百度抓取首頁的專用IP,如是220.181.108段的話,基本來說你的網站會天天隔夜快照
220.181.108.97專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
五:
注===以上IP尾數還有很多,但段位一樣的123.125.71.*段IP 代表抓取內頁收錄的權重比較低.可能由于你采集文章或拼文章暫時被收錄但不放出來.(意思也就是說待定)。
220.181.108.*段IP主要是抓取首頁占80%,內頁占30%,這此爬過的文章或首頁。
六:
所謂盡信書不如無書,以上只能當作參考,不能完全照搬;如果還看到一些不知名的類似百度IP蜘蛛的話,可能是一些(站長工具)的模擬蜘蛛IP。
網站日志中返回代碼的含義
一: 1xx (臨時響應)表示臨時響應并需要請求者繼續執行操作的狀態代碼。
100 (繼續) 請求者應當繼續提出請求。 服務器返回此代碼表示已收到請求的第一部
分,正在等待其余部分。
101 (切換協議) 請求者已要求服務器切換協議,服務器已確認并準備切換。
二:2xx (成功)表示成功處理了請求的狀態代碼。
200 (成功) 服務器已成功處理了請求。 通常,這表示服務器提供了請求的網頁。
201 (已創建) 請求成功并且服務器創建了新的資源。
202 (已接受) 服務器已接受請求,但尚未處理。
203 (非授權信息) 服務器已成功處理了請求,但返回的信息可能來自另一來源。
204 (無內容) 服務器成功處理了請求,但沒有返回任何內容。
205 (重置內容) 服務器成功處理了請求,但沒有返回任何內容。
206 (部分內容) 服務器成功處理了部分 GET 請求。
三:3xx (重定向) 表示要完成請求,需要進一步操作。通常,這些狀態代碼用來重定向。
300 (多種選擇)針對請求,服務器可執行多種操作。服務器可根據請求者(useragent) 選擇一項操作,或提供操作列表供請求者選擇。
301 (永久移動) 請求的網頁已永久移動到新位置。服務器返回此響應(對 GET或HEAD 請求的響應)時,會自動將請求者轉到新位置。
302 (臨時移動) 服務器目前從不同位置的網頁響應請求,但請求者應繼續使用原有位置來進行以后的請求。
303 (查看其他位置) 請求者應當對不同的位置使用單獨的 GET 請求來檢索響應時,服務器返回此代碼。
304 (未修改) 自從上次請求后,請求的網頁未修改過。 服務器返回此響應時,不會返回網頁內容。
305 (使用代理) 請求者只能使用代理訪問請求的網頁。 如果服務器返回此響應,還表示請求者應使用代理。
307 (臨時重定向) 服務器目前從不同位置的網頁響應請求,但請求者應繼續使用原有位置來進行以后的請求。
四:4xx (請求錯誤) 這些狀態代碼表示請求可能出錯,妨礙了服務器的處理。
400 (錯誤請求) 服務器不理解請求的語法。
401 (未授權) 請求要求身份驗證。 對于需要登錄的網頁,服務器可能返回此響應。
403 (禁止) 服務器拒絕請求。
404 (未找到) 服務器找不到請求的網頁。
405 (方法禁用) 禁用請求中指定的方法。
406 (不接受) 無法使用請求的內容特性響應請求的網頁。
407 (需要代理授權) 此狀態代碼與 401(未授權)類似,但指定請求者應當授權使用代理。408 (請求超時) 服務器等候請求時發生超時。
409 (沖突) 服務器在完成請求時發生沖突。 服務器必須在響應中包含有關沖突的信息。
410 (已刪除) 如果請求的資源已永久刪除,服務器就會返回此響應。
411 (需要有效長度) 服務器不接受不含有效內容長度標頭字段的請求。
412 (未滿足前提條件) 服務器未滿足請求者在請求中設置的其中一個前提條件。
413 (請求實體過大) 服務器無法處理請求,因為請求實體過大,超出服務器的處理能力。
414 (請求的 URI 過長) 請求的 URI(通常為網址)過長,服務器無法處理。
415 (不支持的媒體類型) 請求的格式不受請求頁面的支持。
416 (請求范圍不符合要求) 如果頁面無法提供請求的范圍,則服務器會返回此狀態代碼。
417 (未滿足期望值) 服務器未滿足”期望”請求標頭字段的要求。
五:5xx (服務器錯誤)這些狀態代碼表示服務器在嘗試處理請求時發生內部錯誤。 這些錯誤可能是服務器本身的錯誤,而不是請求出錯。
500 (服務器內部錯誤) 服務器遇到錯誤,無法完成請求。
501 (尚未實施) 服務器不具備完成請求的功能。 例如,服務器無法識別請求方法時可能會返回此代碼。
502 (錯誤網關) 服務器作為網關或代理,從上游服務器收到無效響應。
503 (服務不可用) 服務器目前無法使用(由于超載或停機維護)。 通常,這只是暫時狀態。
504 (網關超時) 服務器作為網關或代理,但是沒有及時從上游服務器收到請求。
505 (HTTP 版本不受支持) 服務器不支持請求中所用的 HTTP 協議版本。
日志分析
從網站上下載下的網站日志,在txt文本中就可以看到以下數據:
117.26.203.167 – – [02/May/2011:01:57:44 -0700] “GET/index.php HTTP/1.1” 500 19967 “-” “Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)”
分析:
117.26.203.167 訪問ip
02/May/2011:01:57:44 -0700 訪問日期 -時區
GET/index.php HTTP/1.1 根據HTTP/1.1 協議 抓取(域名下)/index.php 這個頁面(GET表示服務器動作)
500 服務器響應狀態碼
服務器響應狀態碼通常狀態碼有以下幾種:200,301,302,304,404,500等。200代表用戶成功的獲取到了所請求的文件,如果是搜索引擎,則證明蜘蛛在這次爬行中順利的發現了一些新的內容。而301則代表用戶所訪問的某個頁面url已經做了301重定向(永久性)處理,302則是暫時性重定向。404則代表所訪問的頁面已經不存在了,或者說訪問的url根本就是個錯誤的。500則是服務器的錯誤。
19967 表示抓取了19967個字節
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar 表示訪問者使用火狐瀏覽器及Alexa Toolbar 等訪問端信息
如果你的日志里格式不是如此,則代表日志格式設置不同。
很多日志里可以看到 200 0 0和200 0 64 則都代表正常抓取。
抓取頻率是通過查看每日的日志里百度蜘蛛抓取次數來獲知。抓取頻率并沒有一個規范的時間表或頻率數字,我們一般通過多日的日志對比來判斷。
當然,我們希望百度蜘蛛每日抓取的次數越多越好。
當前文章:SEO優化日常-網站日志怎么看?怎么用?有什么規則?
標題網址:http://m.newbst.com/article32/hghpc.html
成都網站建設公司_創新互聯,為您提供App開發、搜索引擎優化、標簽優化、網站收錄、建站公司、移動網站建設
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯