2014-03-07 分類: 搜索引擎優化
以上“搜索引擎優化原理網頁蜘蛛”詳細介紹了蜘蛛的分類、抓取條目、抓取策略和更新策略。搜索引擎把頁面抓回,下一步是對頁面內容進行分析,主要包括確定頁面類型、提取頁面主題、去除頁面噪聲、去除停止詞、中文分詞、注冊統計、重新建立關鍵詞索引庫。
判斷頁面是普通頁面還是PDF、WPS、PPT、TXT等特殊頁面;區分文本、圖片、視頻等內容形式,識別頁面網站論壇、商場、視頻站、文本站等。
目前,搜索引擎基本不識別JS、AJAX、flash、圖像、視頻、幀和iframe框架結構的內容,主要是通過文本關鍵字抓取文本處理和搜索信息。提取網頁級的特征內容,如標題、關鍵字、主題等。這些特征在網頁內容相關性中占很高的比例。在正常情況下,它還指示網頁的主題。
剔除無關廣告、登錄框、版權公告等雜音內容,提取主題內容。這一部分不是很嚴謹,而且各個搜索引擎的處理也不一樣。一般推薦內容、錨文本、導航等還是很有價值的。
分詞是中文搜索引擎中一個獨特的步驟。搜索引擎需要識別哪些詞可以組合成詞。每個搜索引擎都有自己龐大的詞庫。根據詞庫匹配,對網頁內容進行分段,如“旅游景點推薦”可分為“旅游/景區/推薦”或“旅游景點/景區推薦”等結果。漢語分詞主要有兩種方法:基于詞典的匹配和基于統計的分詞。他們各有利弊。在實際應用中,他們混合使用了這種方法,不僅快速有效,而且可以識別新詞,消除歧義。
百度搜索引擎可以使用快照頁面查看輸入文本分為哪些關鍵字,如下所示
分詞的目的是理解網頁的內容。停止詞如“de”、“de”、“ah”和“Ba”將首先刪除,使頁面文本的主題內容更加突出。當然,虛詞也不是絕對的,比如以“啊”為主題介紹單詞的發音、意義、用法等新華字典頁面,“啊”是主題關鍵詞。關鍵詞排名優化是不斷跟蹤和分析搜索引擎條目和歷史數據。
分詞后,搜索引擎會統計每個單詞出現在頁面上的次數并計算密度,這樣搜索引擎就能識別出頁面內容的相關性。建議關鍵詞布局密度在2%-8%之間,過低容易被認定為相關性低的主題內容,過高則可能被認定為關鍵詞堆積,容易受到處罰。
內容相關性:除了網頁標題、關鍵字、deion和單詞密度外,H標記(H1標記也很重,一般用于文章標題,H2、H3標記也稍有效果,一般用于分段主題,H4之后就不起作用了),而用粗體標簽標注的內容顯然會比其他普通內容受到更多關注。此外,核心關鍵字出現在頁面的前面比后面好。錨文本鏈接相關性作為重要數據進行收集和分析。
搜索引擎喜歡原創內容,不喜歡很多重復的內容頁面。完成上述步驟后,他們可以識別頁面的內容功能并重新重復內容頁面。
經過上述處理,記錄了頁面關鍵字集,記錄了詞頻、位置、格式(H標簽、粗體、錨文本)等權重因子。搜索引擎創建頁面和關鍵字表的索引結構。該指標有兩種結構:正向指標結構和反向指標結構。在前向索引結構中,每個文件對應一個文件ID,文件的內容表示為一組關鍵字。
搜索引擎的用戶按關鍵字進行搜索,正索引不利于查詢效率,搜索引擎會把正索引變成倒索引。倒排索引結構是關鍵字到文件集的映射。用戶將僅檢索索引頁。
包含:只要能被搜索引擎蜘蛛抓取,經過分析,有價值的頁面就會被包含進去。
索引:搜索引擎已經包含了頁面,并且認為用戶有意義的會議內容,可能會創建索引,可能會有流量。網站優化排名優化是基于網頁已被索引。
仙女工作室提醒大家,只要網站結構清晰,內容有價值,并且網站定期更新,那么站長平臺提交鏈接和外發鏈接,以提高搜索引擎對網站的收藏量和索引量,在2-7天內對主頁進行SEO優化是非常有可能的。
百度蜘蛛抓取多少頁面并不是最重要的,重要的是建立了多少頁面的索引庫。搜索引擎的索引數據庫是分層的。高質量的網頁將被分配到重要的索引數據庫中,普通網頁將保留在普通數據庫中,較差的網頁將被分配到低級數據庫中作為補充材料。目前,60%的檢索需求只能通過使用重要的索引庫來滿足,這也是一些網站的館藏量過高,但流量不理想的原因。
進入高質量索引庫的前提是對用戶的價值。包括但不限于:
事實上,互聯網上的大多數網站根本不被百度收錄。并不是百度沒有找到他們,而是在建立數據庫之前的篩選過程被過濾掉了。
新聞標題:搜索引擎優化搜索引擎內容處理與索引
URL網址:http://m.newbst.com/news/6497.html
網站建設、網絡推廣公司-創新互聯,是專注品牌與效果的網站制作,網絡營銷seo公司;服務項目有網站營銷、搜索引擎優化等
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯
猜你還喜歡下面的內容