亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向聚焦的Web網(wǎng)頁獲取和信息抽取方法與流程

文檔序號:11691067閱讀:296來源:國知局
面向聚焦的Web網(wǎng)頁獲取和信息抽取方法與流程

本發(fā)明涉及一種面向聚焦的web網(wǎng)頁獲取和信息抽取方法。



背景技術(shù):

信息抽取能準確而高效的從網(wǎng)頁中抽取用戶感興趣的信息,不僅可以方便用戶對信息的查找,而且可以為文本處理技術(shù)的研究提供方便的數(shù)據(jù)清洗服務(wù)。聚焦爬蟲作為信息抽取的數(shù)據(jù)來源,聚焦爬蟲的設(shè)計顯得尤為重要?,F(xiàn)有的對聚焦爬蟲的研究主要從三個方面進行分析:分析網(wǎng)頁內(nèi)容、分析鏈接拓撲結(jié)構(gòu)和分析url。分析網(wǎng)頁內(nèi)容和分析鏈接拓撲結(jié)構(gòu)的方法都需要下載網(wǎng)頁,導(dǎo)致速度較慢。分析url的方法根據(jù)url的相似性指導(dǎo)爬蟲的執(zhí)行,不需要下載過多主題無關(guān)的網(wǎng)頁,大大提高爬蟲的效率。然而由于web網(wǎng)頁的海量性和異構(gòu)性,聚焦爬蟲面臨著速度和適應(yīng)性的問題。

傳統(tǒng)的web信息抽取技術(shù)有基于規(guī)則的方法、基于統(tǒng)計的方法和基于本體的方法。這三種方法各有優(yōu)缺點。web信息抽取面臨的問題主要包括以下方面。

(1)面對成百上千億的網(wǎng)頁數(shù)量,自動高效地從海量web信息中抽取目標信息是一大難點。

(2)web網(wǎng)頁的呈現(xiàn)方式多種多樣,來自不同網(wǎng)站的網(wǎng)頁之間信息的呈現(xiàn)形式差異性更大,網(wǎng)頁的異構(gòu)性給web信息抽取帶來了巨大的挑戰(zhàn)。

(3)由于動態(tài)網(wǎng)頁技術(shù)的廣泛應(yīng)用,網(wǎng)頁的樣式和布局隨時可能改變,網(wǎng)頁的這種動態(tài)性增加了web信息抽取的難度。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于提供一種面向聚焦的web網(wǎng)頁獲取和信息抽取方法,在海量的web信息中,在用戶提供少量稀疏樣本的情況下,快速獲取主題結(jié)構(gòu)相似的網(wǎng)頁,并在此基礎(chǔ)上抽取用戶感興趣的信息,為普通用戶提供方便可用的web信息抽取服務(wù)以及為信息抽取技術(shù)提供語料庫。

為達到以上目的,本發(fā)明的構(gòu)思是:首先創(chuàng)建一個基于url結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲。url在一定程度上反映了網(wǎng)頁結(jié)構(gòu)和分類的情況,從url相似性出發(fā),實現(xiàn)了url相似性的計算方法和非監(jiān)督的權(quán)重調(diào)節(jié)機制來擬合url對網(wǎng)頁分類的反映情況,從而能夠提高爬蟲的效率。然后可以利用基于視覺單位的web網(wǎng)頁信息抽取技術(shù)在新聞領(lǐng)域進行信息抽取。所謂視覺單位是指新聞網(wǎng)頁中排版風(fēng)格統(tǒng)一的模塊。由于建模的web信息抽取方法很難做到較好的適應(yīng)性,因此可以考慮數(shù)據(jù)驅(qū)動的web網(wǎng)頁信息抽取,利用增量聚類方法對網(wǎng)頁信息進行抽取。大致思想為:首先利用聚類算法將訓(xùn)練樣本分為多個類別,然后將候選信息節(jié)點與這些類對比,如果可以找到與自身匹配的類,那么此候選信息被選中,作為目標信息輸出。

根據(jù)上述發(fā)明構(gòu)思,本發(fā)明采用如下技術(shù)方案:

一種面向聚焦的web網(wǎng)頁獲取和信息抽取方法,具體操作步驟如下:

a.創(chuàng)建一個基于url結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲,以url相似度作為網(wǎng)頁相似度的依據(jù)來指導(dǎo)爬蟲的搜索行為,通過分析url各個元素的特征,分別比較url中各個元素的相似程度來衡量兩個url是否相似;

b.在新聞領(lǐng)域采取基于視覺單位的web網(wǎng)頁信息抽取技術(shù),根據(jù)視覺特征和文本特征自頂向下尋找dom樹的最小視覺單位,獲得多個視覺單位后,通過分析目標信息區(qū)別于非目標信息的特征檢測找出目標信息所在的視覺塊;

c.利用基于增量聚類的非模型web網(wǎng)頁信息抽取方法以獲得較好的適應(yīng)性。

所述步驟a包括:

a-1.分解url結(jié)構(gòu)并將其向量化;

a-2.計算網(wǎng)頁的相似度;

a-3.對不同url元素賦予不同的權(quán)重,根據(jù)數(shù)據(jù)的更新不斷調(diào)節(jié)權(quán)重,元素的取值種類越少,此元素越是代表著網(wǎng)頁的粗分類;url元素所在位置的取值越多,代表網(wǎng)頁分類粒度越細,權(quán)重越高的元素代表網(wǎng)頁分類粒度越粗。

所述步驟a-1的具體實現(xiàn)方法如下:

基本url元素分解為服務(wù)器名稱、目錄和文件名稱;例如,url:htttp://edition.cnn.com//2014/06/06/sport/football/world-cup-franck-ribery-injured-france/index.html?hpt=isp_c2,其服務(wù)器名稱是edition.cnn.com,向量化后為{edition,cnn,edition.cnn.com},第一維表示子領(lǐng)域名稱,第二維表示主領(lǐng)域名稱,第三維表示服務(wù)器的名稱;url目錄以“/”分割,目錄2014/06/06由于表示時間,多個子目錄作為一個子目錄描述,將其向量化后為{2014/06/06,digital},目錄sport向量化后為{sport,string},其中第一維表示該子目錄本身,第二維表示子目錄的取值類型,string、digital、mix分別表示字母型、數(shù)字型、混合型;其他目錄類似地進行向量化;文件名稱為“index.html?hpt=isp_c2”,向量化后為{index,html,yes,index.html,string,yes},文件名稱特征使用一個六維向量表示,第一維表示文件名稱中點前綴字符,第二維表示點后綴字符,第三維表示文件名稱中是否有點號:yes表示有點號,no表示無點號,當(dāng)文件名稱中沒有點號的時候,文件名稱特征向量的點前綴和點后綴取值為0,第四維表示文件名稱,第五維表示結(jié)尾字符串類型,最后一維表示是否有結(jié)尾參數(shù)。

所述步驟a-2的具體實現(xiàn)方法如下:

網(wǎng)頁的相似度由三個方面來判斷,分別是數(shù)據(jù)源相似性、領(lǐng)域相似性和布局相似性;數(shù)據(jù)源相似性指服務(wù)器名稱是否相似,領(lǐng)域相似性指網(wǎng)頁是否相似,布局相似性指網(wǎng)頁的布局是否相似,主要通過url中的文件名稱和目錄深度判斷,由于向量的元素都是字符串類型的,我們采用字符串的編輯距離來計算兩個向量的相似度;字符串的編輯距離,是指兩個字串之間,由一個轉(zhuǎn)成另一個所需的最少編輯操作次數(shù);許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符;使用ed(s1,s2)表示字符串s1和字符串s2的編輯距離,向量v和向量w的相似度為:

式中vi和wi分別是向量v和w的第i個元素,n表示向量的大小;s(v,w)表示向量v、w之間的相似度,l為字符串長度計算函數(shù),l(vi)表示向量的第i個元素vi的字符長度;max(l(vi),l(wi))表示求l(vi)和l(wi)中的最大值;

網(wǎng)頁相似度計算的具體步驟如下:

a-2-1.數(shù)據(jù)源相似度計算:根據(jù)式(1)中兩個向量相似度的計算方法計算數(shù)據(jù)源相似度s(dn1,dn2),dn1和dn2分別表示兩個服務(wù)器名稱的向量;

a-2-2.領(lǐng)域相似度計算:計算公式如下:

式中,s(d1,d2)表示領(lǐng)域相似度,s(subd1j,subd2j)為兩個子目錄的相似度,subd1j和subd2j分別表示兩個url中第j級子目錄的向量,j的取值從1開始,1表示最左邊的目錄,m表示兩個url中目錄深度最小值;wj為每個子目錄相似度的權(quán)重;

a-2-3.布局相似度的計算:公式如下:

st=wfs(f1,f2)+wddsdd

st表示兩個url的布局相似性,s(f1,f2)代表兩個url的文件名稱相似度,f1,f2分別表示兩個url的文件名稱向量,sdd表示目錄深度相似度,目錄深度相同取值為1,否則為0;wf,wdd分別為文件名稱和目錄深度在布局相似度計算中的權(quán)重;

a-2-4.url相似度計算:計算公式如下:

sm=wdns(dn1,dn2)+wds(d1,d2)+wtst

其中wdn+wd+wt=1,wd=∑wj,wt=wf+wdd

其中wdn,wd,wt分別表示數(shù)據(jù)源相似性、領(lǐng)域相似性和布局相似性在url相似度計算中的權(quán)重,其中wd為多級子目錄權(quán)重wj的總和。

所述步驟b包括:

b-1.利用dom識別網(wǎng)頁中的視覺單位:dom是w3c組織推薦的處理可擴展標記語言的標準編程接口,html文檔中的所有成分解析為dom后組成了一個節(jié)點樹,視覺單位的識別就是根據(jù)網(wǎng)頁的視覺特征將這些信息塊分割開,最終找到dom樹中表示這些信息塊的最小子樹;

b-2.從視覺單位中選取包含新聞?wù)牡哪繕艘曈X塊,即對新聞?wù)倪M行抽?。粚σ曈X單位定義了如下特征:

定義1,面積占比定義:指視覺單位面積與整個網(wǎng)頁面積的比值;視覺單位面積越大,該視覺單位包含正文的可能性越大;計算方法如下:

其中a(vu)表示該視覺單位的面積,a(page)表示整個網(wǎng)頁的面積,sa為面積占比;顯然,該信息塊面積越大,sa的值越大,包含正文的概率也就越大;

定義2,標點符號定義:視覺單位中是否包含句子結(jié)束符號,如果包含結(jié)束標點符號特征值為1用sp表示,否則為0;鏈接文本中一般不包含句子結(jié)束標點,而正文文本中基本上都包含;

定義3,鏈接文本密度定義:視覺單位中包含的鏈接文本長度與總文本長度的比值;計算方法如下:

其中l(wèi)(text)表示視覺單位中文本的長度,l(linktext)表示鏈接文本的長度,sld為鏈接文本密度;鏈接文本所占的比例越大,sld的值就越大,該視覺單位為正文部分的可能性越小;

定義4,文本密度定義:視覺單位中包含的非鏈接文本長度與總文本長度的比值;計算方法如下:

其中l(wèi)(nohyperlinktext)表示非鏈接文本的長度,std為文本密度;非鏈接文本所占的比例越大,std的值就越大,該信息塊為正文部分的可能性越大;

定義5,文本長度定義:視覺單位中包含的文本長度;計算方法如下:

其中min(l)表示視覺單位中包含的文本長度的最小值,max(l)為最大值,l(text)為當(dāng)前視覺單位包含的文本長度,sl為相對文本長度;

根據(jù)以上定義,視覺單位(vu)的得分為:

score(vu)=wasa+wpsp–wldsld+wtdstd+wlsl

wa+wp+wld+wtd+wl=1

score(vu)表示視覺單位的得分,wa,wp,wld,wtd,wl分別為視覺單位面積、標點符號、鏈接文本密度、文本密度和文本長度特征的權(quán)重;通過對每個視覺單位打分,篩選出得分最高的視覺單位,認為是正文部分。

所述步驟c包括:

c-1.所述增量聚類方法的前提和假設(shè)為需要聚類的數(shù)據(jù)類型有限,簡化增量聚類的復(fù)雜性,在數(shù)據(jù)類別有限的情況下,新數(shù)據(jù)加入時能夠簡化聚類結(jié)構(gòu)變化的判斷方法,只需考慮新加入的點是否屬于已有的簇,如果屬于則將此數(shù)據(jù)歸入所屬的簇中,聚類中心不變,如果不屬于則將其存儲起來,待數(shù)量達到一定值時重新將所有數(shù)據(jù)做聚類;由于數(shù)據(jù)類型的有限性,隨著數(shù)據(jù)的不斷增加,需要重新聚類的情況會越來越少;

c-2.利用有限增量聚類方法對網(wǎng)頁新聞網(wǎng)頁進行聚類,采用的聚類方法是kmeans方法;

c-3.將新聞網(wǎng)頁特征化,并與步驟c-2得到的聚類中心對比,最后得到包含正文的domnode,信息抽取結(jié)束。

所述步驟c-2包括兩個主要內(nèi)容,kmeans方法k值的確定以及增量聚類方法的具體實現(xiàn);

c-2-1.k值的確定基于全局和局部穩(wěn)定度的評價;全局穩(wěn)定度用來衡量聚類結(jié)果簇間的相似程度,一個較好的聚類結(jié)果應(yīng)該具有較大簇間距離;局部穩(wěn)定度用來衡量聚類結(jié)果簇內(nèi)是否緊湊;為了計算全局和局部穩(wěn)定度,定義了如下幾個指標:

定義6,簇內(nèi)平均距離定義:簇內(nèi)平均距離是指每個空間點到聚類中心的距離的平均;假設(shè)n個空間對象被聚類為k個簇,使用歐幾里得距離計算簇內(nèi)平均距離:

其中是簇內(nèi)平均距離,p表示空間對象,mi為簇ci的均值即簇的聚類中心,ni表示ci所包含的對象數(shù)量;

定義7,簇間平均距離定義:簇間平均距離是指所有聚類中心的平均距離;假設(shè)n個空間對象被聚類為k個簇,簇間平均距離為:

其中表示簇間平均距離,mi和mj分別是簇ci和cj的均值;

定義8,簇密度定義:簇密度是指簇內(nèi)包含的空間對象數(shù)與簇內(nèi)平均距離的比值;假設(shè)n個空間對象被聚類為k個簇,簇密度的值為:

其中,fi為ci的簇密度,ni和的含義如前所述,表示所有簇的平均密度;

聚類效果的評價從兩個方面進行:一是,從全局的角度考察,一個較好的聚類具有簇間低耦合的特點,用簇間平均距離與聚類個數(shù)的比值來衡量;二是,從局部的角度考慮,簇內(nèi)是否緊湊,用簇的平均密度來衡量;簇的平均密度越大說明單位距離內(nèi)簇包含的空間點越多,局部也就越穩(wěn)定;

用s表示全局穩(wěn)定度,計算方法如下:

在衡量聚類是否有效時,既要保證局部穩(wěn)定又要保證聚類全局穩(wěn)定,因此聚類有效性函數(shù)k取使function值最大的k值;

c-2-2.增量聚類方法的具體實現(xiàn)方法如下:

定義9,隸屬度定義:假設(shè)n個空間對象被聚類為k個簇,定義空間對象p屬于簇ci的隸屬度為ci的簇內(nèi)平均距離與對象p到ci聚類中心距離的比值:

其中γi為p到簇ci的隸屬度,表示ci的簇內(nèi)平均距離,mi表示ci的聚類中心;從上式知,當(dāng)p與簇ci的距離大于時,p應(yīng)該不屬于ci,此時γi的取值小于0.5;當(dāng)γi的取值大于等于0.5時,p與ci的距離越小,γi的取值就越大,p屬于ci的可能性也越大;

增量的聚類方法過程如下:

c-2-2-1.設(shè)置增量樣本緩沖區(qū)存放待聚類的樣本;

c-2-2-2.每新來一個樣本,將其放入緩沖區(qū)中;

c-2-2-3.檢測緩沖區(qū),當(dāng)緩沖區(qū)樣本數(shù)量大于一定值時,對緩沖區(qū)中每個樣本計算γi,如果存在任一個簇γi值大于等于0.5,將當(dāng)前樣本加入γi值最大的簇,該簇的聚類中心不變,并將樣本從緩沖區(qū)中刪除,否則不做任何動作;

c-2-2-4.當(dāng)緩沖區(qū)中所有的樣本都不能被歸入到已有簇時,將所有樣本重新做一次聚類;

步驟c-2-2-3中提到的簇的聚類中心不變是為了防止新加入的對象改變聚類結(jié)構(gòu),對于新加入的數(shù)據(jù),不屬于已有聚類的樣本放在緩沖區(qū)中,這種樣本屬于新的簇,等數(shù)量達到一定量后,再將所有數(shù)據(jù)重新聚類一次,達到一次全部調(diào)整的效果。

本發(fā)明的方法,與現(xiàn)有技術(shù)相比,具有以下突出的實質(zhì)性特點和顯著優(yōu)點:

一、基于url結(jié)構(gòu)過濾的非監(jiān)督聚焦爬蟲相較于基于內(nèi)容的聚焦爬蟲,可以達到更高的收獲率和執(zhí)行效率,相較于基于url分析的爬蟲,本發(fā)明在不需要用戶提供樣本的同時,可以達到同樣的效果。

二、基于視覺特征的網(wǎng)頁分割算法都部分依賴于html標簽,本發(fā)明提出的基于視覺單位的新聞?wù)某槿》椒?,其中視覺單位識別時所用的規(guī)則獨立于html標簽。

三、本發(fā)明提出的基于增量聚類的非模型web信息抽取方法是一種數(shù)據(jù)驅(qū)動的方法,不需要構(gòu)建抽取模型,通過數(shù)據(jù)的對比就可以準確抽取出目標信息,該方法克服了傳統(tǒng)網(wǎng)頁信息抽取中針對不同的網(wǎng)站制作不同的包裝器的缺點,提高了抽取方法的適應(yīng)能力。

附圖說明

圖1為非監(jiān)督的權(quán)重調(diào)節(jié)機制的權(quán)重調(diào)節(jié)過程圖。

圖2為視覺單位識別過程圖。

圖3為基于增量聚類的非模型信息抽取方法的新聞?wù)某槿∵^程圖。

具體實施方式

以下結(jié)合附圖對本發(fā)明的具體實施做進一步詳細說明。

圖1展示了基于url結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲對url中各元素權(quán)重的調(diào)節(jié)過程。權(quán)重的計算過程如下。

a.權(quán)重初始化,為每個url元素權(quán)重設(shè)定初始值。

b.根據(jù)設(shè)定的權(quán)重計算url的相似度,并指導(dǎo)爬蟲的執(zhí)行。

c.在獲得一定量的url數(shù)據(jù)后,對權(quán)重進行更新,回到步驟2.

步驟a的實現(xiàn)方法如下。

首先為每個url元素權(quán)重設(shè)定初始值,獲得一定量url數(shù)據(jù)用于統(tǒng)計url元素的權(quán)重。初始值的設(shè)定遵循元素位置越往左越能代表網(wǎng)頁粗分類的大致規(guī)律,其值為:

其中k表示url中子目錄的個數(shù),w0位服務(wù)器名稱的權(quán)重,w1到wk依次為url中子目錄的權(quán)重。權(quán)重參數(shù)wf、wdd和wt的初始值根據(jù)經(jīng)驗值給出。

步驟c是權(quán)重更新機制,具體的操作方法如下。

獲得一定量數(shù)據(jù)后,將統(tǒng)計每個元素出現(xiàn)的頻率記為word_pv。當(dāng)word_pv小于γ時舍棄。統(tǒng)計每個元素的權(quán)重為:

其中word_pvj是指大于γ的詞的頻率,i,k的含義如前所述,n表示第i個元素所在位置上詞頻大于γ的詞數(shù),num(url)表示爬蟲獲取的url總數(shù)。權(quán)重更新完成后將所有權(quán)重歸一化,用于url相似度的計算。

從公式中可以看出,當(dāng)越多的高頻詞出現(xiàn)在元素位置上的時候,此元素的權(quán)重值就越大,代表此元素代表網(wǎng)頁的分類粒度越粗。

圖2是視覺單位識別的流程圖。其具體步驟如下。

a.通過爬蟲獲得web網(wǎng)頁上的網(wǎng)頁數(shù)據(jù)。

b.通過網(wǎng)頁解析獲得web網(wǎng)頁中最大的dom節(jié)點。

c.判斷該節(jié)點是否可分割,判斷的方法由網(wǎng)頁的分割規(guī)則確定。

d.如果不可再分,將其存入視覺單位庫。

e.如果可分則獲得其孩子節(jié)點繼續(xù)以上過程,直到?jīng)]有不可分割的dom節(jié)點為止。

其中節(jié)點的分為文本節(jié)點和連接節(jié)點,分別定義如下。

定義10文本節(jié)點定義:定義dom樹節(jié)點中的文本節(jié)點為非鏈接文本長度與文本長度比值(即文本密度)大于一定閾值a的dom節(jié)點。如果一個dom樹節(jié)點的所有孩子節(jié)點都是文本節(jié)點,則此dom樹節(jié)點也是文本節(jié)點。

定義11鏈接節(jié)點定義:鏈接節(jié)點是指錨文本密度超過一定閾值β的dom節(jié)點,其中錨文本密度是指鏈接文本與節(jié)點中所有文本的比值。如果一個dom樹節(jié)點的所有孩子節(jié)點都是鏈接節(jié)點,則此dom樹節(jié)點也是鏈接節(jié)點。

本發(fā)明中的文本節(jié)點和鏈接節(jié)點的定義獨立于html標簽,有利于提高網(wǎng)頁正文抽取系統(tǒng)的通用性。

步驟c涉及的分割規(guī)則如下:

規(guī)則1:如果當(dāng)前dom節(jié)點的文本長度為0,則刪除此節(jié)點。

規(guī)則2:dom節(jié)點的背景顏色:如果當(dāng)前節(jié)點的孩子節(jié)點中有一個節(jié)點的背景顏色與其他節(jié)點背景顏色不同,那么將分割該dom節(jié)點。

規(guī)則3:節(jié)點字體顏色:如果當(dāng)前節(jié)點的孩子節(jié)點中有一個節(jié)點的字體顏色與其它節(jié)點不同,那么將分割該dom節(jié)點。

規(guī)則4:如果當(dāng)前節(jié)點的孩子節(jié)點都是文本節(jié)點,則不再分割此節(jié)點。

規(guī)則5:如果當(dāng)前節(jié)點的孩子節(jié)點都是鏈接節(jié)點,則不再分割此節(jié)點。

圖3是利用增量聚類的非模型信息抽取方法對新聞?wù)倪M行抽取的流程圖,具體的實現(xiàn)步驟如下。

由圖可知,其過程分為聚類和正文抽取兩個階段。聚類階段的具體步驟如下。

a.從新聞網(wǎng)頁中獲取訓(xùn)練樣本。

b.將訓(xùn)練樣本進行特征化表示。

c.利用特征化表示后的訓(xùn)練樣本進行kmeans聚類并得到聚類中心。

其中在特征化的過程中,考慮了新聞?wù)牡?個特征:

(1)文本長度,即dom樹節(jié)點內(nèi)包含的文本字符串長度。新聞網(wǎng)站中,根據(jù)新聞類型的不同新聞?wù)牟糠钟虚L有短。

(2)平均段落文本長度,即正文文本長度與段落個數(shù)的比值。一般,不同類型的新聞網(wǎng)頁,不同的作者,新聞?wù)牟糠侄温淦骄谋鹃L度也不同。同時,此特征還可以區(qū)分新聞?wù)牟糠趾陀脩粼u論信息,用戶評論信息的平均文本長度一般較短。

(3)鏈接文本長度,指dom樹節(jié)點中包含的超鏈接中錨文本的長度,主要用來區(qū)分正文部分與導(dǎo)航欄、推薦閱讀等信息。

(4)圖片個數(shù),此特征表示dom樹節(jié)點中包含的圖片個數(shù),在新聞網(wǎng)站中,不同類型的新聞?wù)牟糠职瑘D片的個數(shù)也是不同的。

(5)句號個數(shù),指dom樹節(jié)點中文本包含的句號個數(shù)。在新聞?wù)某槿∵^程中,一些短新聞容易和一些包含少量文字的非正文節(jié)點混淆,利用句號個數(shù)這一特征在一定程度上可以區(qū)分這種情況。

本發(fā)明采用以上這五個特征來量化網(wǎng)頁總dom樹節(jié)點。然后利用kmeans算法將其聚類。

正文抽取階段的具體步驟如下。

a.對獲得的新聞網(wǎng)頁進行預(yù)處理。將網(wǎng)頁中與新聞?wù)臎]有關(guān)系的dom樹節(jié)點去掉,如腳本標簽。根據(jù)超鏈接個數(shù)所占比例刪除一些只包含超鏈接的節(jié)點。經(jīng)過網(wǎng)頁預(yù)處理后刪除一些候選節(jié)點。

b.將網(wǎng)頁特征化。將候選節(jié)點按照上述五個特征計算特征值,用向量的形式表示。

c.將特征向量與聚類過程得到的聚類中心進行對比,得到包含正文的dom節(jié)點。

其中步驟c的具體實現(xiàn)方法如下。

c-1.依次計算每個候選節(jié)點pj到簇cj的隸屬度γij,(i為從1到k的整數(shù),j為1到m的整數(shù)),選取γij的最大值γj_max。當(dāng)γj_max大于或等于0.5時將此候選節(jié)點和γj_max加入到集合d中。當(dāng)γj_max小于0.5時舍棄該候選節(jié)點。

c-2.將集合d中的候選節(jié)點按照隸屬度排序,取隸屬度最大的節(jié)點。

c-3.判斷按隸屬度排序后的節(jié)點序列是否前一個節(jié)點為后一個節(jié)點的父節(jié)點,即是否依次嵌套,找到最小的嵌套點作為正文節(jié)點輸出。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1