搜索引擎工作原理，順義SEO公司告訴你

2015-10-02 分類：網站建設

搜索引擎的核心技術架構，大體包括以下三塊，第一，是蜘蛛/爬蟲技術；第二，是索引技術；第三是查詢展現的技術；當然，我不是搜索引擎的架構師，我只能用比較粗淺的方式來做一個結構的切分。那么我們該怎么更好的理解呢，下面就由順義seo公司來給我們講解吧！

1、蜘蛛，也叫爬蟲，是將互聯網的信息，抓取并存儲的一種技術實現。

搜索引擎的信息收錄，很多不明所以的人會有很多誤解，以為是付費收錄，或者有什么其他特殊的提交技巧，其實并不是，搜索引擎通過互聯網一些公開知名的網站，抓取內容，并分析其中的鏈接，然后有選擇的抓取鏈接里的內容，然后再分析其中的鏈接，以此類推，通過有限的入口，基于彼此鏈接，形成強大的信息抓取能力。

有些搜索引擎本身也有鏈接提交入口，但基本上，不是主要的收錄入口，不過作為創業者，建議了解一下相關信息，百度，google都有站長平臺和管理后臺，這里很多內容是需要非常非常認真的對待的。

反過來說，在這樣的原理下，一個網站，只有被其他網站所鏈接，才有機會被搜索引擎抓取。如果這個網站沒有外部鏈接，或者外部鏈接在搜索引擎中被認為是垃圾或無效鏈接，那么搜索引擎可能就不抓取他的頁面。

2、索引系統

蜘蛛抓取的是網頁的內容，那么要想讓用戶快速的通過關鍵詞搜索到這個網頁，就必須對網頁做關鍵詞的索引，從而提升查詢效率，簡單說就是，把網頁的每個關鍵詞提取出來，并針對這些關鍵詞在網頁中的出現頻率，位置，特殊標記等諸多因素，給予不同的權值標定，然后，存儲到索引庫中。

索引系統除了分詞之外，還有一些要點，比如實時索引，因為一次索引庫的更新是個大動靜，一般網站運營者知道，自己網站內容更新后，需要等索引庫下一次更新才能看到效果，而且索引庫針對不同權重的網站內容，更新的頻次也不太一樣。但諸如一些高優先的資訊網站，以及新聞搜索，索引庫是可以做到近似實時索引的，所以我們在新聞搜索里，幾分鐘前的信息就已經可以搜索到了。

3、查詢展現

用戶在瀏覽器或者在手機客戶端輸入一個關鍵詞，或者幾個關鍵詞，甚至一句話，這個在服務端，應答程序獲取后處理步驟如下

第一步，會檢查最近時間有沒有人搜索過同樣的關鍵詞，如果存在這樣的緩存，最快的處理是將這塊緩存提供給你，這樣查詢效率高，對后端負載壓力最低。

第二步，發現這個輸入查詢最近沒有搜索，或者有其他條件的原因必須更新結果，那么會將這個用戶輸入的詞，進行分詞，沒錯，如果不止一個關鍵詞，或者是一句話的情況下，應答程序會又一次分詞，將搜索的查詢拆成幾個不同的關鍵詞。

第三步，將切分后的關鍵詞分發到查詢系統中，查詢系統會去索引庫查詢，索引庫是個龐大的分布式系統，先分析這個關鍵詞屬于哪一塊哪一臺服務器，索引是一種有序的數據組合，我們用可以用近似二分法的方式思考，不管數據規模多大，你用二分法去查找一個結果，查詢頻次是log2(N)，這個就保證了海量數據下，查詢一個關鍵詞是非常快非常快的。當然，實際情況會比二分法復雜很多，這樣說比較容易理解而已，再復雜些不是我不告訴大家，是我自己都不是很清楚呢。

第四步，不同關鍵詞的查詢結果（只是按權值排序的部分頂部結果，絕對不是全部結果），基于權值倒序，會再匯總在一起，然后把共同命中的部分反饋回來，并做最后的權值排序。

記住，搜索引擎絕對不會返回所有結果，這個開銷誰都受不了，百度也不行，google也不行，翻頁都是有限制的。

再記住，如果你多個關鍵詞里有多個不同品類冷門詞，搜索引擎有可能會舍棄其中一個冷門詞，因為匯總數據很可能不包含共同結果。搜索技術不要神話，這樣的范例偶爾會出現。

這是三大部分，多說一點，其實還有第四部分。

用戶點擊行為采集和反饋部分

基于用戶的翻頁，點擊分布，對搜索結果的優劣做判定，并對權值做調整，但這個早期搜索引擎是沒有的，后面才有，所以暫時不列為必備的三大塊。

此外，一些對搜索優化的機器學習策略，對易混詞識別，同音詞識別等等，相當部分也都基于用戶行為反饋進行，這是后話，這里不展開。

關于第四部分，點擊提權，我說這個詞價值千金，我猜很多人并沒理解。沒理解就好，要不我要被一些同行罵死了。

以上是單指搜索引擎的工作原理，和一些技術邏輯，當然，只是入門級的解讀，畢竟再深入就不是我能講解的了。

當前標題：搜索引擎工作原理，順義SEO公司告訴你
URL網址：http://m.newbst.com/news44/27544.html

成都網站建設公司_創新互聯，為您提供商城網站、關鍵詞優化、響應式網站、云服務器、靜態網站、營銷型網站建設

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

搜索引擎工作原理，順義SEO公司告訴你