湖北網(wǎng)頁(yè)設(shè)計(jì)www.juchi.cc 分段簽吅名算fǎ
這種算fǎ是按照一定的規(guī)則把網(wǎng)頁(yè)切成N段,對(duì)每一段進(jìn)行簽吅名,形成每一段的信息指紋。如果這N個(gè)信息指紋里面有M個(gè)相同時(shí)(m是系統(tǒng)定義的闕值),則認(rèn)為兩者是復(fù)制網(wǎng)頁(yè)。
這種算fǎ對(duì)于小規(guī)模的判斷復(fù)制網(wǎng)頁(yè)是很好的一種算fǎ,但是對(duì)于像Gооgle這樣海量的搜索引擎來(lái)說(shuō),算fǎ的復(fù)雜度相當(dāng)高。把網(wǎng)站里面共同的部分如導(dǎo)航條、logo、版泉等信息(這些稱(chēng)之為網(wǎng)頁(yè)的“噪音”)過(guò)濾掉后剩下的文本。
基于關(guān)鍵詞的復(fù)制網(wǎng)頁(yè)算fǎ
像Gооgle這類(lèi)搜索引擎,他在抓取網(wǎng)頁(yè)的時(shí)候都會(huì)記下以下網(wǎng)頁(yè)信息:
1、網(wǎng)頁(yè)中吅出現(xiàn)的關(guān)鍵詞(中文分詞技術(shù))以及每個(gè)關(guān)鍵詞的泉重(關(guān)鍵詞密度)。
2、提取meta
descrīption或者每個(gè)網(wǎng)頁(yè)的512個(gè)字節(jié)的有效文吅字。
關(guān)于第2點(diǎn),baidu和Gооgle有所不同,Gооgle是提取你的meta
descrīption,如果沒(méi)有查詢(xún)關(guān)鍵字相關(guān)的512個(gè)字節(jié),而百度是直接提取后者。湖北網(wǎng)頁(yè)設(shè)計(jì)www.juchi.cc提醒這一點(diǎn)大家使用過(guò)的都有所體會(huì)。
關(guān)于我們 | 友情鏈接 | 網(wǎng)站地圖 | 聯(lián)系我們 | 最新產(chǎn)品
浙江民營(yíng)企業(yè)網(wǎng) www.pjxktv.com 版權(quán)所有 2002-2010
浙ICP備11047537號(hào)-1