2021-09-17 分類: 網(wǎng)站建設
第一步、抓取
百度蜘蛛或baiduspider就是百度的一個程序,他的工作就是搜集互聯(lián)網(wǎng)上,搜索引擎會通過復雜的計算,來決定對哪些網(wǎng)站進行頁面抓取,以及抓取的頻率和內容。而且搜索引擎在計算過程中會參考你網(wǎng)站的歷史表現(xiàn)記錄。比如更新時間,內容質量,是否有對用戶不友好的設置等。當你的網(wǎng)站產(chǎn)生新的頁面的時候,百度蜘蛛會通過互聯(lián)網(wǎng)上的鏈接指向進行訪問和抓取,如果你沒有設置任何外部鏈接指向網(wǎng)站中的新增內容,那么百度蜘蛛就不會及時的進行抓取。對于已經(jīng)被抓取過的頁面內容,搜索引擎會對抓取的頁面進行記錄,并根據(jù)這些頁面對用戶的重要程度計算出不同頻率的抓取更新工作。但是需要注意的是,有些抓取軟件為了達到某種目的而偽裝成各種蜘蛛對網(wǎng)站進行抓取,如果你在網(wǎng)站日志中發(fā)現(xiàn)這種情況,要學會判斷蜘蛛的真?zhèn)蝸聿扇〈胧乐咕W(wǎng)站的正常運行受到影響。
第二步、過濾
在百度抓取回來的頁面中,不是所有的頁面都是對用戶有用的,比如一些明顯欺騙用戶的頁面,死鏈接,空白頁,抄襲內容等。這些頁面對于用戶來說都是沒有意義的,因此百度會自動對這些內容頁面進行過濾,刪除那些低質量的網(wǎng)頁,網(wǎng)百度收錄的頁面盡可能的是對用戶有效的。這樣才能保證百度給用戶展示的頁面都是優(yōu)質的頁面。提升他自己的用戶體驗。
第三步、建立索引
搜索引擎會對蜘蛛抓取回來的頁面內容進行逐一標記和識別,將這些標記進行存儲為結構化數(shù)據(jù),比如頁面的基本title信息,tag,discripition,keywords,網(wǎng)頁外鏈描述,抓取記錄等一系列內容。以便在用戶搜索的時候提供最匹配的內容頁面。
第四步、輸出結果
當用戶在搜索框輸入關鍵詞的時候,百度會對其進行復雜的算法,并更具分析結果,在索引庫中尋找最為匹配的一系列網(wǎng)頁。按照用戶的需求強弱和網(wǎng)頁的質量來進行打分,而最終根據(jù)分數(shù)進行排列,來展現(xiàn)最優(yōu)質的內容給用戶。我們從搜索引擎的工作原理不難發(fā)現(xiàn),只有您網(wǎng)站上的內容能給用戶帶來更好的體驗,才能得到搜索引擎的親睞,所以內容是否對用戶有價值是我們終究要考慮的一個問題。
當前文章:從“搜索引擎的工作原理”看SEO該怎么做
文章路徑:http://m.newbst.com/news41/127091.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供云服務器、全網(wǎng)營銷推廣、小程序開發(fā)、電子商務、微信小程序、標簽優(yōu)化
聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內容