第一、首先分詞:分詞是一大特色,無論我們輸入的是長句子或者是短語,搜索引擎都會把這些詞語進行切分,將這些搜索的字符串切分成以詞為基礎的關鍵詞組合。只要這樣,才能更好的通過自己已經預處理后的數據庫進行查詢和比對,把所有符合這些詞的也沒列舉返回給用戶。這個分詞和頁面分詞的原理有些類似。
第二、去停止詞:我們在搜索時候帶有很多的主觀性,很多時候把口語話的一些詞語都用在了搜索詞上,但這次詞往往對要搜索的內容沒有實質性的幫助,但我們已經養成了輸入這些詞的習慣,所以搜索引擎必須要能去停止詞,程度上保證搜索的準確率以及相關性。
第三、指令的處理:平時我們在搜索時會輸入多個詞語,其實默認的情況下,搜索引擎把多個默認的詞語都按照“與”來進行詞語。比如你搜索“網站”時,引擎會默認我們輸入的“減網站”來進行處理,單獨包含“減肥”或者“網站”的內容理論上將不會返回,但實際情況往往也會出現單獨包含一個詞語的網站。另外,還要處理各種高級搜索指令的詞語,比如加號減號等。
第四、錯誤矯正:很多時候我們輸入都會存在錯誤的問題,拼音本來諧音就比較多,輸錯也實屬正常,但如果搜索引擎不進行糾錯的話,就會返回很多我們不希望看到的結果。所以,有時候我們即使輸入的全拼,搜索引擎也會根據這個來提示正確的中文。
第五、分類對待:不同詞語一般是不同對待的,這是搜索引擎的一個特色功能。比如我們搜索一般性的關鍵詞,返回的一般以網頁居多,而當我們搜索一個明星的名字,則會出現很多新聞網絡營銷、視頻、圖片等綜合的搜索結果。所以,搜索引擎要根據用戶的需求去進行判斷
當前題目:五個方面淺析如何處理搜索詞
鏈接URL:http://m.newbst.com/news18/287568.html
成都網站建設公司_創新互聯,為您提供網站策劃、電子商務、網站設計、品牌網站建設、App開發、軟件開發
廣告
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源:
創新互聯