2015-10-02 分類: 網站建設
搜索引擎的核心技術架構,大體包括以下三塊,第一,是蜘蛛/爬蟲技術;第二,是索引技術;第三是查詢展現的技術;當然,我不是搜索引擎的架構師,我只能用比較粗淺的方式來做一個結構的切分。那么我們該怎么更好的理解呢,下面就由順義seo公司來給我們講解吧!
1、 蜘蛛,也叫爬蟲,是將互聯網的信息,抓取并存儲的一種技術實現。
搜索引擎的信息收錄,很多不明所以的人會有很多誤解,以為是付費收錄,或者有什么其他特殊的提交技巧,其實并不是,搜索引擎通過互聯網一些公開知名的網站,抓取內容,并分析其中的鏈接,然后有選擇的抓取鏈接里的內容,然后再分析其中的鏈接,以此類推,通過有限的入口,基于彼此鏈接,形成強大的信息抓取能力。
有些搜索引擎本身也有鏈接提交入口,但基本上,不是主要的收錄入口,不過作為創業者,建議了解一下相關信息,百度,google都有站長平臺和管理后臺,這里很多內容是需要非常非常認真的對待的。
反過來說,在這樣的原理下,一個網站,只有被其他網站所鏈接,才有機會被搜索引擎抓取。如果這個網站沒有外部鏈接,或者外部鏈接在搜索引擎中被認為是垃圾或無效鏈接,那么搜索引擎可能就不抓取他的頁面。
2、索引系統
蜘蛛抓取的是網頁的內容,那么要想讓用戶快速的通過關鍵詞搜索到這個網頁,就必須對網頁做關鍵詞的索引,從而提升查詢效率,簡單說就是,把網頁的每個關鍵詞提取出來,并針對這些關鍵詞在網頁中的出現頻率,位置,特殊標記等諸多因素,給予不同的權值標定,然后,存儲到索引庫中。
索引系統除了分詞之外,還有一些要點,比如實時索引,因為一次索引庫的更新是個大動靜,一般網站運營者知道,自己網站內容更新后,需要等索引庫下一次更新才能看到效果,而且索引庫針對不同權重的網站內容,更新的頻次也不太一樣。但諸如一些高優先的資訊網站,以及新聞搜索,索引庫是可以做到近似實時索引的,所以我們在新聞搜索里,幾分鐘前的信息就已經可以搜索到了。
3、查詢展現
用戶在瀏覽器或者在手機客戶端輸入一個關鍵詞,或者幾個關鍵詞,甚至一句話,這個在服務端,應答程序獲取后處理步驟如下
第一步,會檢查最近時間有沒有人搜索過同樣的關鍵詞,如果存在這樣的緩存,最快的處理是將這塊緩存提供給你,這樣查詢效率高,對后端負載壓力最低。
第二步,發現這個輸入查詢最近沒有搜索,或者有其他條件的原因必須更新結果,那么會將這個用戶輸入的詞,進行分詞,沒錯,如果不止一個關鍵詞,或者是一句話的情況下,應答程序會又一次分詞,將搜索的查詢拆成幾個不同的關鍵詞。
第三步,將切分后的關鍵詞分發到查詢系統中,查詢系統會去索引庫查詢,索引庫是個龐大的分布式系統,先分析這個關鍵詞屬于哪一塊哪一臺服務器,索引是一種有序的數據組合,我們用可以用近似二分法的方式思考,不管數據規模多大,你用二分法去查找一個結果,查詢頻次是log2(N),這個就保證了海量數據下,查詢一個關鍵詞是非常快非常快的。當然,實際情況會比二分法復雜很多,這樣說比較容易理解而已,再復雜些不是我不告訴大家,是我自己都不是很清楚呢。
第四步,不同關鍵詞的查詢結果(只是按權值排序的部分頂部結果,絕對不是全部結果),基于權值倒序,會再匯總在一起,然后把共同命中的部分反饋回來,并做最后的權值排序。
記住,搜索引擎絕對不會返回所有結果,這個開銷誰都受不了,百度也不行,google也不行,翻頁都是有限制的。
再記住,如果你多個關鍵詞里有多個不同品類冷門詞,搜索引擎有可能會舍棄其中一個冷門詞,因為匯總數據很可能不包含共同結果。搜索技術不要神話,這樣的范例偶爾會出現。
這是三大部分,多說一點,其實還有第四部分。
用戶點擊行為采集和反饋部分
基于用戶的翻頁,點擊分布,對搜索結果的優劣做判定,并對權值做調整,但這個早期搜索引擎是沒有的,后面才有,所以暫時不列為必備的三大塊。
此外,一些對搜索優化的機器學習策略,對易混詞識別,同音詞識別等等,相當部分也都基于用戶行為反饋進行,這是后話,這里不展開。
關于第四部分,點擊提權,我說這個詞價值千金,我猜很多人并沒理解。沒理解就好,要不我要被一些同行罵死了。
以上是單指搜索引擎的工作原理,和一些技術邏輯,當然,只是入門級的解讀,畢竟再深入就不是我能講解的了。
當前標題:搜索引擎工作原理,順義SEO公司告訴你
URL網址:http://m.newbst.com/news44/27544.html
成都網站建設公司_創新互聯,為您提供商城網站、關鍵詞優化、響應式網站、云服務器、靜態網站、營銷型網站建設
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯
猜你還喜歡下面的內容