免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

搜索引擎核心算法

2016-10-14    分類: 網站建設

外鏈是搜索引擎算法中,判斷網站權重高低的重要指標,當用戶在搜索框中輸入關鍵時,搜索引擎面對大量擁有相同內容的網頁,首先需要解決的就是,通過哪些參數覺得網頁排名的高低。今天,筆者就簡單介紹外鏈建設中,比較有名的核心算法:PageRank 算法、Hilltop 算法、Direct Hit 算法。

第一種算法、PageRank 算法

1998 年,Sergey Brin 和 Lawrence Page 提出了 PageRank 算法。該算法基于“從許多優質的網頁鏈接過來的網頁,必定還是優質網頁”的回歸關系,來判定網頁的重要性。該算法認為從網頁 A 導向網頁 B 的鏈接可以看作是頁面 A 對頁面 B 的支持投票,根據這個投票數來判斷頁面的重要性。當然,不僅僅只看投票數,還要對投票的頁面進行重要性分析,越是重要的頁面所投票的評價也就越高。根據這樣的分析,得到了高評價的重要頁面會被給予較高的 PageRank 值,在檢索結果內的名次也會提高。PageRank 是基于對“使用復雜的算法而得到的鏈接構造” 的分析,從而得出的各網頁本身的特性。

分析:PageRank 算法的優點在于它對互聯網上的網頁給出了一個全局的重要性排序,并且算法的計算過程是可以離線完成的,這樣有利于迅速響應用戶的請求。不過,其缺點在于主題無關性,沒有區分頁面內的導航鏈接、廣告鏈接和功能鏈接等,容易對廣告頁面有過高評價;另外,PageRank 算法的另一弊端是,舊的頁面等級會比新頁面高,因為新頁面,即使是非常好的頁面,也不會有很多鏈接,除非他是一個站點的子站點。這就是 PageRank 需要多項算法結合的原因。

第二種算法、Hilltop 算法

HillTop,是一項搜索引擎結果排序的專利,是 Google 的一個工程師 Bharat 在 2001 年獲得的專利。HillTop 算法的指導思想和 PageRank 是一致的,即都通過反向鏈接的數量和質量來確定搜索結果的排序權重。但 HillTop 認為只計算來自具有相同主題的相關文檔鏈接對于搜索者的價值會更大,即主題相關網頁之間的鏈接對于權重計算的貢獻比主題不相關的鏈接價值要更高。在 1999-2000 年,當這個算法被 Bharat 與其他 Google 開發人員開發出來的時候,他們稱這種對主題有影響的文檔為“專家”文檔,而只有從這些專家文檔頁面到目標文檔的鏈接決定了被鏈接網頁“權重得分”的主要部分。

Hilltop 算法的過程:首先計算查詢主題最相關的“專家”資源列表;其次在選中的“專家”集中識別相關的鏈接,并追蹤它們以識別相關的網頁目標;然后將目標根據非關聯的指向它們的“專家”數量和相關性排序。由此,目標網頁的得分反映了關于查詢主題的最中立的專家的集體觀點。如果這樣的專家池不存在,Hilltop 不會給出結果。

從 Hilltop 算法過程可見,該算法包括兩個主要的方面:尋找專家;目標排序。通過對搜索引擎抓取的網頁進行預處理,找出專家頁面。對于一個關鍵詞的查詢,首先在專家中查找,并排序返回結果。

權威頁面是對于一個查詢主題來說最好的專家指向的頁面。專家也有可能在更寬泛的領域或其它領域的主題上也是專家。在專家頁面中只有一部分鏈接與主題相關。因此,把查詢主題的專家中相關的外向鏈接合并,以找到查詢主題相關頁面高度認可的頁面。

從排名在前的匹配專家頁面和相聯系的匹配信息中選擇專家頁面中一個超鏈接的子集。尤其選擇那些與所有的查詢相關的鏈接。基于這些選中的鏈接找出一個它們的目標子集作為查詢主題最相關的網頁。這個目標子集包含至少被兩個非親屬的專家頁面鏈接到的網頁。目標集根據指向它們的專家的綜合成績來排序。

Hilltop 在應用中還存在一些不足。專家頁面的搜索和確定對算法起關鍵作用,專家頁面的質量決定了算法的準確性;而專家頁面的質量和公平性在一定程度上難以保證。Hiltop 忽略了大多數非專家頁面的影響。在 Hiltop 的原型系統中,專家頁面只占到整個頁面的 1.79%,不能全面代表整個互聯網。

Hiltop 算法在無法得到足夠的專家頁面子集時(少于兩個專家頁面),返回為空,即 Hiltop 適合于對查詢排序進行求精,而不能覆蓋。這意味著 Hilltop 可以與某個頁面排序算法結合,提高精度,而不適合作為一個獨立的頁面排序算法。Hilltop 中根據查詢主題從專家頁面集合中選取與主題相關的子集也是在線運行的,這與前面提到的 HITS 算法一樣會影響查詢響應時間。隨著專家頁面集合的增大,算法的可伸縮性存在不足之處。

分析:HITS 算法的優點在于它能更好地描述互聯網的組織特點,由于它只是對互聯網中的很小的一個子集進行分析,所以它需要的迭代次數更少,收斂速度更快,減少了時間復雜度。

但 HITS 算法也存在如下缺點:中心網頁之間的相互引用以增加其網頁評價,當一個網站上的多篇網頁指向一個相同的鏈接,或者一個網頁指向另一個網站上的多個文件時會引起評分的不正常增加,這會導致易受“垃圾鏈接”的影響;網頁中存在自動生成的鏈接;

主題漂移,在鄰接圖中經常包括一些和搜索主題無關的鏈接,如果這些鏈接自身也是中心網頁或權威網頁就會引起主題漂移:對于每個不同的查詢算法都需要重新運行一次來獲取結果。這使得它不可能用于實時系統,因為對于上千萬次的并發查詢這樣的開銷實在太大。

第三種算法、Direct Hit 算法

與前面的算法相比,Ask Jeeves 公司的 Direct Hit 算法是一種注重信息的質量和用戶反饋的排序方法。它的基本思想是,搜索引擎將查詢的結果返回給用戶,并跟蹤用戶在檢索結果中的點擊。如果返回結果中排名靠前的網頁被用戶點擊后,瀏覽時間較短,用戶又重新返回點擊其它的檢索結果,那么可以認為其相關度較差,系統將降低該網頁的相關性。另一方面,如果網頁被用戶點擊打開進行瀏覽,并且瀏覽的時間較長,那么該網頁的受歡迎程度就高,相應地,系統將增加該網頁的相關度。可以看出,在這種方法中,相關度在不停地變化,對于同一個詞在不同的時間進行檢索,得到結果集合的排序也有可能不同,它是一種動態排序。

分析:該算法的優點是能夠節省大量時間,因為用戶閱讀的是從搜索結果中篩選出來的更加符合要求的結果。同時,這種算法直接融入用戶的反饋信息,能夠保證頁面的質量。

然而,統計表明,Direct Hit 算法只適合于檢索關鍵詞較少的情況,因為它實際上并沒有進行排序,而是一種篩選和抽取,在檢索數據庫很大、關鍵詞很多的時候,返回的搜索結果成千上萬,用戶不可能一一審閱。因此,這種方式也不能作為主要的排序算法來使用,而是一種很好的輔助排序算法,目前在許多搜索引擎當中仍然在使用。

其實對于網頁的搜索排名,都是多種算法綜合作用的結果,簡單分析上面的三種算法,Pagerank 可以給網站上的所有網頁給予一個重要性的排序,但是沒有針對性、相關性,而且現在 PR 值作弊已經到了一個泛濫的地步,所以 PR 就網頁排名的重要性已經大為下降;

Hilltop 算法的提出,對于廣大站長做外部鏈接建設,將起到指導作用。在 Hilltop 算法中,每個領域都會有若干專家頁面,如果搜索相關關鍵詞,搜索引擎首先會從專家頁面查找,如果匹配度不夠,再從專家頁面鏈接的下一級頁面查找,以此類推。

Direct Hit 算法可以作為 Hilltop 和 pagerank 很好的補充,Direct Hit 更多的是,考慮了用戶體驗的影響,對搜索結果的質量,進行實時的更新,一個最符合搜索用戶要求的頁面,應該是用戶從搜索框中點擊頁面鏈接開始,用戶瀏覽網站超過一定時間,則被認為結果頁面,更符合用戶搜索的要求,長期有效的點擊,頁面在搜索引擎中排名,就會有相應的提高。

通過以上三種算法,就可以明白,無論是做外鏈還是網站內容建設,首先需要考慮的就是相關性,在外鏈建設中,要努力尋找主題相關中,權威度高的網站,軟文、友情鏈接等,都可以看作是這些網站,對你的支持,同時,注意網站的跳出率和瀏覽時間,時刻反饋用戶數據,對一些重點頁面,用戶點擊量較高的頁面,做好相關性推薦,引導用戶點擊更多的頁面。

分享題目:搜索引擎核心算法
文章位置:http://m.newbst.com/news/47086.html

成都網站建設公司_創新互聯,為您提供App開發搜索引擎優化網站改版全網營銷推廣網站策劃微信公眾號

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

小程序開發