免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

SEO答疑之-搜索引擎的抓取、索引到搜索結(jié)果展現(xiàn)的步驟

搜索引擎從用戶搜索到最終搜索結(jié)果展現(xiàn)的步驟是(以百度為例):
抓取,百度都不知道你的網(wǎng)站,如何讓你有排名呢?所以要讓百度知道你,就要先通過(guò)抓取這個(gè)步驟;
過(guò)濾,過(guò)濾掉低質(zhì)量的頁(yè)面內(nèi)容;
索引,只有合格的頁(yè)面才會(huì)被存儲(chǔ);
處理,對(duì)搜索詞進(jìn)行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動(dòng)整合搜索,判斷是否有拼寫錯(cuò)誤或錯(cuò)別字等情況。
排名,將高質(zhì)量的頁(yè)面展現(xiàn)給用戶;

創(chuàng)新互聯(lián)公司專注于浦東企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè)公司,商城系統(tǒng)網(wǎng)站開發(fā)。浦東網(wǎng)站建設(shè)公司,為浦東等地區(qū)提供建站服務(wù)。全流程按需網(wǎng)站開發(fā),專業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,創(chuàng)新互聯(lián)公司專業(yè)和態(tài)度為您提供的服務(wù)

蜘蛛(Spider):
被搜索引擎派出能在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁(yè)并抓取的程序稱為蜘蛛,其從已知的數(shù)據(jù)庫(kù)出發(fā),像正常用戶的瀏覽器一樣訪問(wèn)這些網(wǎng)頁(yè),并跟蹤網(wǎng)頁(yè)中的鏈接,訪問(wèn)更多的網(wǎng)頁(yè),這個(gè)過(guò)程就叫爬行;
蜘蛛對(duì)一個(gè)站點(diǎn)的遍歷抓取策略分深度優(yōu)先和廣度優(yōu)先兩種。

spider抓取的基本過(guò)程:

根據(jù)爬取目標(biāo)和范圍,可分為

批量性爬蟲:明確的抓取目標(biāo)和范圍,達(dá)到即停止;

增量型爬蟲:應(yīng)對(duì)網(wǎng)頁(yè)不斷更新的狀態(tài),爬蟲需要及時(shí)反應(yīng),通用商業(yè)引擎一般都是這類;

垂直型爬蟲:只針對(duì)某個(gè)特定領(lǐng)域的爬蟲,根據(jù)主題過(guò)濾;

百度官方 spider抓取過(guò)程中的策略

1、抓取友好性,同一個(gè)站點(diǎn)在一段時(shí)間內(nèi)的抓取頻率和一段時(shí)間內(nèi)的抓取流量都不同,即錯(cuò)開正常用戶訪問(wèn)高峰不斷的調(diào)整,避免程度過(guò)大影響被抓網(wǎng)站的正常用戶訪問(wèn)行為。

2、常用抓取返回碼,如503,404,403,301等;

3、多種url重定向的識(shí)別,如http 30x、meta refresh重定向和js重定向,Canonical標(biāo)簽也可看做變相的重定向;

4、抓取優(yōu)先級(jí)調(diào)配,如深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、pr優(yōu)先策略、反鏈策略、大站優(yōu)先策略等;

5、重復(fù)url的過(guò)濾,包括url歸一化識(shí)別,例如一個(gè)url中包含大量無(wú)效參數(shù)而實(shí)際是同一個(gè)頁(yè)面;

6、暗網(wǎng)數(shù)據(jù)的獲取,搜索引擎暫時(shí)無(wú)法抓取到的數(shù)據(jù),如存在于網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中,或由于網(wǎng)絡(luò)環(huán)境、網(wǎng)站本身不符合規(guī)范、孤島等問(wèn)題而造成的無(wú)法被抓取,如百度的“阿拉丁”計(jì)劃;

7、抓取反作弊,抓取過(guò)程中往往會(huì)遇到所謂抓取黑洞或者面臨大量低質(zhì)量頁(yè)面的困擾,這就要求抓取系統(tǒng)中同樣需要設(shè)計(jì)一套完善的抓取反作弊系統(tǒng)。如分析url特征、分析頁(yè)面大小及內(nèi)容、分析站點(diǎn)規(guī)模對(duì)應(yīng)抓取規(guī)模等;

spider感興趣的頁(yè)面有3類:
1.從未抓取過(guò)的新頁(yè)面。
2.抓取過(guò)但內(nèi)容有改動(dòng)的頁(yè)面。
3.抓取過(guò)但現(xiàn)在已刪除的頁(yè)面。

蜘蛛不能/不喜歡抓取的內(nèi)容:
1.被robot屏蔽的頁(yè)面;
2.圖片、視頻和flash里的內(nèi)容;
3.Js、iframe框架、table嵌套;
4.蜘蛛被服務(wù)器端屏蔽;
5.孤島頁(yè)面(無(wú)任何導(dǎo)入鏈接);
6.登錄后才能獲取的內(nèi)容;

四種近似重復(fù)網(wǎng)頁(yè)類型:
1.完全重復(fù)頁(yè)面:在內(nèi)容和布局格式上毫無(wú)區(qū)別;
2.內(nèi)容重復(fù)頁(yè)面:內(nèi)容相同,但布局格式不同;
3.布局重復(fù)頁(yè)面:有部分重要的內(nèi)容相同,并且布局格式相同;
4.部分重復(fù)頁(yè)面有部分重要內(nèi)容相同,但布局格式不同;

典型的網(wǎng)頁(yè)去重算法:特征抽取、文檔指紋生成、相似性計(jì)算

低質(zhì)量的內(nèi)容頁(yè)面:
1.多個(gè)URL地址指向同一網(wǎng)頁(yè)以及鏡像站點(diǎn),如帶www和不帶www的同時(shí)解析到一個(gè)網(wǎng)站;
2.網(wǎng)頁(yè)內(nèi)容重復(fù)或近似重復(fù),如采集內(nèi)容,文不對(duì)題或垃圾信息;
沒(méi)有豐富的內(nèi)容,如純圖片頁(yè)面或頁(yè)面內(nèi)容搜索引擎識(shí)別不了;

過(guò)濾-重復(fù)文檔的處理方式:
1.低質(zhì)量?jī)?nèi)容予以刪除
2.高質(zhì)量重復(fù)文檔分組并優(yōu)先展示(重復(fù)性高表示受歡迎)

網(wǎng)站欄目:SEO答疑之-搜索引擎的抓取、索引到搜索結(jié)果展現(xiàn)的步驟
分享鏈接:http://m.newbst.com/article28/ssjp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設(shè)、手機(jī)網(wǎng)站建設(shè)定制網(wǎng)站外貿(mào)建站、電子商務(wù)外貿(mào)網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司