面向聚焦的Web網(wǎng)頁獲取和信息抽取方法與流程

文檔序號：11691067閱讀：296來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種面向聚焦的web網(wǎng)頁獲取和信息抽取方法。

背景技術(shù)：

信息抽取能準確而高效的從網(wǎng)頁中抽取用戶感興趣的信息，不僅可以方便用戶對信息的查找，而且可以為文本處理技術(shù)的研究提供方便的數(shù)據(jù)清洗服務(wù)。聚焦爬蟲作為信息抽取的數(shù)據(jù)來源，聚焦爬蟲的設(shè)計顯得尤為重要?，F(xiàn)有的對聚焦爬蟲的研究主要從三個方面進行分析：分析網(wǎng)頁內(nèi)容、分析鏈接拓撲結(jié)構(gòu)和分析url。分析網(wǎng)頁內(nèi)容和分析鏈接拓撲結(jié)構(gòu)的方法都需要下載網(wǎng)頁，導(dǎo)致速度較慢。分析url的方法根據(jù)url的相似性指導(dǎo)爬蟲的執(zhí)行，不需要下載過多主題無關(guān)的網(wǎng)頁，大大提高爬蟲的效率。然而由于web網(wǎng)頁的海量性和異構(gòu)性，聚焦爬蟲面臨著速度和適應(yīng)性的問題。

傳統(tǒng)的web信息抽取技術(shù)有基于規(guī)則的方法、基于統(tǒng)計的方法和基于本體的方法。這三種方法各有優(yōu)缺點。web信息抽取面臨的問題主要包括以下方面。

(1)面對成百上千億的網(wǎng)頁數(shù)量，自動高效地從海量web信息中抽取目標信息是一大難點。

(2)web網(wǎng)頁的呈現(xiàn)方式多種多樣，來自不同網(wǎng)站的網(wǎng)頁之間信息的呈現(xiàn)形式差異性更大，網(wǎng)頁的異構(gòu)性給web信息抽取帶來了巨大的挑戰(zhàn)。

(3)由于動態(tài)網(wǎng)頁技術(shù)的廣泛應(yīng)用，網(wǎng)頁的樣式和布局隨時可能改變，網(wǎng)頁的這種動態(tài)性增加了web信息抽取的難度。

技術(shù)實現(xiàn)要素：

本發(fā)明的目的在于提供一種面向聚焦的web網(wǎng)頁獲取和信息抽取方法，在海量的web信息中，在用戶提供少量稀疏樣本的情況下，快速獲取主題結(jié)構(gòu)相似的網(wǎng)頁，并在此基礎(chǔ)上抽取用戶感興趣的信息，為普通用戶提供方便可用的web信息抽取服務(wù)以及為信息抽取技術(shù)提供語料庫。

為達到以上目的，本發(fā)明的構(gòu)思是：首先創(chuàng)建一個基于url結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲。url在一定程度上反映了網(wǎng)頁結(jié)構(gòu)和分類的情況，從url相似性出發(fā)，實現(xiàn)了url相似性的計算方法和非監(jiān)督的權(quán)重調(diào)節(jié)機制來擬合url對網(wǎng)頁分類的反映情況，從而能夠提高爬蟲的效率。然后可以利用基于視覺單位的web網(wǎng)頁信息抽取技術(shù)在新聞領(lǐng)域進行信息抽取。所謂視覺單位是指新聞網(wǎng)頁中排版風(fēng)格統(tǒng)一的模塊。由于建模的web信息抽取方法很難做到較好的適應(yīng)性，因此可以考慮數(shù)據(jù)驅(qū)動的web網(wǎng)頁信息抽取，利用增量聚類方法對網(wǎng)頁信息進行抽取。大致思想為：首先利用聚類算法將訓(xùn)練樣本分為多個類別，然后將候選信息節(jié)點與這些類對比，如果可以找到與自身匹配的類，那么此候選信息被選中，作為目標信息輸出。

根據(jù)上述發(fā)明構(gòu)思，本發(fā)明采用如下技術(shù)方案：

一種面向聚焦的web網(wǎng)頁獲取和信息抽取方法，具體操作步驟如下：

a.創(chuàng)建一個基于url結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲，以url相似度作為網(wǎng)頁相似度的依據(jù)來指導(dǎo)爬蟲的搜索行為，通過分析url各個元素的特征，分別比較url中各個元素的相似程度來衡量兩個url是否相似；

b.在新聞領(lǐng)域采取基于視覺單位的web網(wǎng)頁信息抽取技術(shù)，根據(jù)視覺特征和文本特征自頂向下尋找dom樹的最小視覺單位，獲得多個視覺單位后，通過分析目標信息區(qū)別于非目標信息的特征檢測找出目標信息所在的視覺塊；

c.利用基于增量聚類的非模型web網(wǎng)頁信息抽取方法以獲得較好的適應(yīng)性。

所述步驟a包括：

a-1.分解url結(jié)構(gòu)并將其向量化；

a-2.計算網(wǎng)頁的相似度；

a-3.對不同url元素賦予不同的權(quán)重，根據(jù)數(shù)據(jù)的更新不斷調(diào)節(jié)權(quán)重，元素的取值種類越少，此元素越是代表著網(wǎng)頁的粗分類；url元素所在位置的取值越多，代表網(wǎng)頁分類粒度越細，權(quán)重越高的元素代表網(wǎng)頁分類粒度越粗。

所述步驟a-1的具體實現(xiàn)方法如下：

基本url元素分解為服務(wù)器名稱、目錄和文件名稱；例如，url：htttp://edition.cnn.com//2014/06/06/sport/football/world-cup-franck-ribery-injured-france/index.html？hpt＝isp_c2，其服務(wù)器名稱是edition.cnn.com，向量化后為{edition,cnn,edition.cnn.com}，第一維表示子領(lǐng)域名稱，第二維表示主領(lǐng)域名稱，第三維表示服務(wù)器的名稱；url目錄以“/”分割，目錄2014/06/06由于表示時間，多個子目錄作為一個子目錄描述，將其向量化后為{2014/06/06,digital}，目錄sport向量化后為{sport,string}，其中第一維表示該子目錄本身，第二維表示子目錄的取值類型，string、digital、mix分別表示字母型、數(shù)字型、混合型；其他目錄類似地進行向量化；文件名稱為“index.html？hpt＝isp_c2”，向量化后為{index,html,yes,index.html,string,yes}，文件名稱特征使用一個六維向量表示，第一維表示文件名稱中點前綴字符，第二維表示點后綴字符，第三維表示文件名稱中是否有點號：yes表示有點號，no表示無點號，當(dāng)文件名稱中沒有點號的時候，文件名稱特征向量的點前綴和點后綴取值為0，第四維表示文件名稱，第五維表示結(jié)尾字符串類型，最后一維表示是否有結(jié)尾參數(shù)。

所述步驟a-2的具體實現(xiàn)方法如下：

網(wǎng)頁的相似度由三個方面來判斷，分別是數(shù)據(jù)源相似性、領(lǐng)域相似性和布局相似性；數(shù)據(jù)源相似性指服務(wù)器名稱是否相似，領(lǐng)域相似性指網(wǎng)頁是否相似，布局相似性指網(wǎng)頁的布局是否相似，主要通過url中的文件名稱和目錄深度判斷，由于向量的元素都是字符串類型的，我們采用字符串的編輯距離來計算兩個向量的相似度；字符串的編輯距離，是指兩個字串之間，由一個轉(zhuǎn)成另一個所需的最少編輯操作次數(shù)；許可的編輯操作包括將一個字符替換成另一個字符，插入一個字符，刪除一個字符；使用ed(s1,s2)表示字符串s1和字符串s2的編輯距離，向量v和向量w的相似度為：

式中vi和wi分別是向量v和w的第i個元素，n表示向量的大小；s(v,w)表示向量v、w之間的相似度，l為字符串長度計算函數(shù)，l(vi)表示向量的第i個元素vi的字符長度；max(l(vi),l(wi))表示求l(vi)和l(wi)中的最大值；

網(wǎng)頁相似度計算的具體步驟如下：

a-2-1.數(shù)據(jù)源相似度計算：根據(jù)式(1)中兩個向量相似度的計算方法計算數(shù)據(jù)源相似度s(dn1,dn2),dn1和dn2分別表示兩個服務(wù)器名稱的向量；

a-2-2.領(lǐng)域相似度計算：計算公式如下：

式中，s(d1,d2)表示領(lǐng)域相似度，s(subd1j,subd2j)為兩個子目錄的相似度，subd1j和subd2j分別表示兩個url中第j級子目錄的向量，j的取值從1開始，1表示最左邊的目錄，m表示兩個url中目錄深度最小值；wj為每個子目錄相似度的權(quán)重；

a-2-3.布局相似度的計算：公式如下：

st＝wfs(f1,f2)+wddsdd

st表示兩個url的布局相似性，s(f1,f2)代表兩個url的文件名稱相似度，f1,f2分別表示兩個url的文件名稱向量，sdd表示目錄深度相似度，目錄深度相同取值為1，否則為0；wf,wdd分別為文件名稱和目錄深度在布局相似度計算中的權(quán)重；

a-2-4.url相似度計算：計算公式如下：

sm＝wdns(dn1,dn2)+wds(d1,d2)+wtst

其中wdn+wd+wt＝1,wd＝∑wj,wt＝wf+wdd

其中wdn,wd,wt分別表示數(shù)據(jù)源相似性、領(lǐng)域相似性和布局相似性在url相似度計算中的權(quán)重，其中wd為多級子目錄權(quán)重wj的總和。

所述步驟b包括：

b-1.利用dom識別網(wǎng)頁中的視覺單位：dom是w3c組織推薦的處理可擴展標記語言的標準編程接口，html文檔中的所有成分解析為dom后組成了一個節(jié)點樹，視覺單位的識別就是根據(jù)網(wǎng)頁的視覺特征將這些信息塊分割開，最終找到dom樹中表示這些信息塊的最小子樹；

b-2.從視覺單位中選取包含新聞?wù)牡哪繕艘曈X塊，即對新聞?wù)倪M行抽?。粚σ曈X單位定義了如下特征：

定義1，面積占比定義：指視覺單位面積與整個網(wǎng)頁面積的比值；視覺單位面積越大，該視覺單位包含正文的可能性越大；計算方法如下：

其中a(vu)表示該視覺單位的面積，a(page)表示整個網(wǎng)頁的面積，sa為面積占比；顯然，該信息塊面積越大，sa的值越大，包含正文的概率也就越大；

定義2，標點符號定義：視覺單位中是否包含句子結(jié)束符號，如果包含結(jié)束標點符號特征值為1用sp表示，否則為0；鏈接文本中一般不包含句子結(jié)束標點，而正文文本中基本上都包含；

定義3，鏈接文本密度定義：視覺單位中包含的鏈接文本長度與總文本長度的比值；計算方法如下：

其中l(wèi)(text)表示視覺單位中文本的長度，l(linktext)表示鏈接文本的長度，sld為鏈接文本密度；鏈接文本所占的比例越大，sld的值就越大，該視覺單位為正文部分的可能性越小；

定義4，文本密度定義：視覺單位中包含的非鏈接文本長度與總文本長度的比值；計算方法如下：

其中l(wèi)(nohyperlinktext)表示非鏈接文本的長度，std為文本密度；非鏈接文本所占的比例越大，std的值就越大，該信息塊為正文部分的可能性越大；

定義5，文本長度定義：視覺單位中包含的文本長度；計算方法如下：

其中min(l)表示視覺單位中包含的文本長度的最小值，max(l)為最大值，l(text)為當(dāng)前視覺單位包含的文本長度，sl為相對文本長度；

根據(jù)以上定義，視覺單位(vu)的得分為：

score(vu)＝wasa+wpsp–wldsld+wtdstd+wlsl

wa+wp+wld+wtd+wl＝1

score(vu)表示視覺單位的得分，wa，wp，wld，wtd，wl分別為視覺單位面積、標點符號、鏈接文本密度、文本密度和文本長度特征的權(quán)重；通過對每個視覺單位打分，篩選出得分最高的視覺單位，認為是正文部分。

所述步驟c包括：

c-1.所述增量聚類方法的前提和假設(shè)為需要聚類的數(shù)據(jù)類型有限，簡化增量聚類的復(fù)雜性，在數(shù)據(jù)類別有限的情況下，新數(shù)據(jù)加入時能夠簡化聚類結(jié)構(gòu)變化的判斷方法，只需考慮新加入的點是否屬于已有的簇，如果屬于則將此數(shù)據(jù)歸入所屬的簇中，聚類中心不變，如果不屬于則將其存儲起來，待數(shù)量達到一定值時重新將所有數(shù)據(jù)做聚類；由于數(shù)據(jù)類型的有限性，隨著數(shù)據(jù)的不斷增加，需要重新聚類的情況會越來越少；

c-2.利用有限增量聚類方法對網(wǎng)頁新聞網(wǎng)頁進行聚類，采用的聚類方法是kmeans方法；

c-3.將新聞網(wǎng)頁特征化，并與步驟c-2得到的聚類中心對比，最后得到包含正文的domnode，信息抽取結(jié)束。

所述步驟c-2包括兩個主要內(nèi)容，kmeans方法k值的確定以及增量聚類方法的具體實現(xiàn)；

c-2-1.k值的確定基于全局和局部穩(wěn)定度的評價；全局穩(wěn)定度用來衡量聚類結(jié)果簇間的相似程度，一個較好的聚類結(jié)果應(yīng)該具有較大簇間距離；局部穩(wěn)定度用來衡量聚類結(jié)果簇內(nèi)是否緊湊；為了計算全局和局部穩(wěn)定度，定義了如下幾個指標：

定義6，簇內(nèi)平均距離定義：簇內(nèi)平均距離是指每個空間點到聚類中心的距離的平均；假設(shè)n個空間對象被聚類為k個簇，使用歐幾里得距離計算簇內(nèi)平均距離：

其中是簇內(nèi)平均距離，p表示空間對象，mi為簇ci的均值即簇的聚類中心，ni表示ci所包含的對象數(shù)量；

定義7，簇間平均距離定義：簇間平均距離是指所有聚類中心的平均距離；假設(shè)n個空間對象被聚類為k個簇，簇間平均距離為：

其中表示簇間平均距離，mi和mj分別是簇ci和cj的均值；

定義8，簇密度定義：簇密度是指簇內(nèi)包含的空間對象數(shù)與簇內(nèi)平均距離的比值；假設(shè)n個空間對象被聚類為k個簇，簇密度的值為：

其中，fi為ci的簇密度，ni和的含義如前所述，表示所有簇的平均密度；

聚類效果的評價從兩個方面進行：一是，從全局的角度考察，一個較好的聚類具有簇間低耦合的特點，用簇間平均距離與聚類個數(shù)的比值來衡量；二是，從局部的角度考慮，簇內(nèi)是否緊湊，用簇的平均密度來衡量；簇的平均密度越大說明單位距離內(nèi)簇包含的空間點越多，局部也就越穩(wěn)定；

用s表示全局穩(wěn)定度，計算方法如下：

在衡量聚類是否有效時，既要保證局部穩(wěn)定又要保證聚類全局穩(wěn)定，因此聚類有效性函數(shù)k取使function值最大的k值；

c-2-2.增量聚類方法的具體實現(xiàn)方法如下：

定義9，隸屬度定義：假設(shè)n個空間對象被聚類為k個簇，定義空間對象p屬于簇ci的隸屬度為ci的簇內(nèi)平均距離與對象p到ci聚類中心距離的比值：

其中γi為p到簇ci的隸屬度，表示ci的簇內(nèi)平均距離，mi表示ci的聚類中心；從上式知，當(dāng)p與簇ci的距離大于時，p應(yīng)該不屬于ci，此時γi的取值小于0.5；當(dāng)γi的取值大于等于0.5時，p與ci的距離越小，γi的取值就越大，p屬于ci的可能性也越大；

增量的聚類方法過程如下：

c-2-2-1.設(shè)置增量樣本緩沖區(qū)存放待聚類的樣本；

c-2-2-2.每新來一個樣本，將其放入緩沖區(qū)中；

c-2-2-3.檢測緩沖區(qū)，當(dāng)緩沖區(qū)樣本數(shù)量大于一定值時，對緩沖區(qū)中每個樣本計算γi，如果存在任一個簇γi值大于等于0.5，將當(dāng)前樣本加入γi值最大的簇，該簇的聚類中心不變，并將樣本從緩沖區(qū)中刪除，否則不做任何動作；

c-2-2-4.當(dāng)緩沖區(qū)中所有的樣本都不能被歸入到已有簇時，將所有樣本重新做一次聚類；

步驟c-2-2-3中提到的簇的聚類中心不變是為了防止新加入的對象改變聚類結(jié)構(gòu)，對于新加入的數(shù)據(jù)，不屬于已有聚類的樣本放在緩沖區(qū)中，這種樣本屬于新的簇，等數(shù)量達到一定量后，再將所有數(shù)據(jù)重新聚類一次，達到一次全部調(diào)整的效果。

本發(fā)明的方法，與現(xiàn)有技術(shù)相比，具有以下突出的實質(zhì)性特點和顯著優(yōu)點：

一、基于url結(jié)構(gòu)過濾的非監(jiān)督聚焦爬蟲相較于基于內(nèi)容的聚焦爬蟲，可以達到更高的收獲率和執(zhí)行效率，相較于基于url分析的爬蟲，本發(fā)明在不需要用戶提供樣本的同時，可以達到同樣的效果。

二、基于視覺特征的網(wǎng)頁分割算法都部分依賴于html標簽，本發(fā)明提出的基于視覺單位的新聞?wù)某槿》椒?，其中視覺單位識別時所用的規(guī)則獨立于html標簽。

三、本發(fā)明提出的基于增量聚類的非模型web信息抽取方法是一種數(shù)據(jù)驅(qū)動的方法，不需要構(gòu)建抽取模型，通過數(shù)據(jù)的對比就可以準確抽取出目標信息，該方法克服了傳統(tǒng)網(wǎng)頁信息抽取中針對不同的網(wǎng)站制作不同的包裝器的缺點，提高了抽取方法的適應(yīng)能力。

附圖說明

圖1為非監(jiān)督的權(quán)重調(diào)節(jié)機制的權(quán)重調(diào)節(jié)過程圖。

圖2為視覺單位識別過程圖。

圖3為基于增量聚類的非模型信息抽取方法的新聞?wù)某槿∵^程圖。

具體實施方式

以下結(jié)合附圖對本發(fā)明的具體實施做進一步詳細說明。

圖1展示了基于url結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲對url中各元素權(quán)重的調(diào)節(jié)過程。權(quán)重的計算過程如下。

a.權(quán)重初始化，為每個url元素權(quán)重設(shè)定初始值。

b.根據(jù)設(shè)定的權(quán)重計算url的相似度，并指導(dǎo)爬蟲的執(zhí)行。

c.在獲得一定量的url數(shù)據(jù)后，對權(quán)重進行更新，回到步驟2.

步驟a的實現(xiàn)方法如下。

首先為每個url元素權(quán)重設(shè)定初始值，獲得一定量url數(shù)據(jù)用于統(tǒng)計url元素的權(quán)重。初始值的設(shè)定遵循元素位置越往左越能代表網(wǎng)頁粗分類的大致規(guī)律，其值為：

其中k表示url中子目錄的個數(shù)，w0位服務(wù)器名稱的權(quán)重，w1到wk依次為url中子目錄的權(quán)重。權(quán)重參數(shù)wf、wdd和wt的初始值根據(jù)經(jīng)驗值給出。

步驟c是權(quán)重更新機制，具體的操作方法如下。

獲得一定量數(shù)據(jù)后，將統(tǒng)計每個元素出現(xiàn)的頻率記為word_pv。當(dāng)word_pv小于γ時舍棄。統(tǒng)計每個元素的權(quán)重為:

其中word_pvj是指大于γ的詞的頻率，i，k的含義如前所述，n表示第i個元素所在位置上詞頻大于γ的詞數(shù)，num(url)表示爬蟲獲取的url總數(shù)。權(quán)重更新完成后將所有權(quán)重歸一化，用于url相似度的計算。

從公式中可以看出，當(dāng)越多的高頻詞出現(xiàn)在元素位置上的時候，此元素的權(quán)重值就越大，代表此元素代表網(wǎng)頁的分類粒度越粗。

圖2是視覺單位識別的流程圖。其具體步驟如下。

a.通過爬蟲獲得web網(wǎng)頁上的網(wǎng)頁數(shù)據(jù)。

b.通過網(wǎng)頁解析獲得web網(wǎng)頁中最大的dom節(jié)點。

c.判斷該節(jié)點是否可分割，判斷的方法由網(wǎng)頁的分割規(guī)則確定。

d.如果不可再分，將其存入視覺單位庫。

e.如果可分則獲得其孩子節(jié)點繼續(xù)以上過程，直到?jīng)]有不可分割的dom節(jié)點為止。

其中節(jié)點的分為文本節(jié)點和連接節(jié)點，分別定義如下。

定義10文本節(jié)點定義：定義dom樹節(jié)點中的文本節(jié)點為非鏈接文本長度與文本長度比值(即文本密度)大于一定閾值a的dom節(jié)點。如果一個dom樹節(jié)點的所有孩子節(jié)點都是文本節(jié)點，則此dom樹節(jié)點也是文本節(jié)點。

定義11鏈接節(jié)點定義：鏈接節(jié)點是指錨文本密度超過一定閾值β的dom節(jié)點，其中錨文本密度是指鏈接文本與節(jié)點中所有文本的比值。如果一個dom樹節(jié)點的所有孩子節(jié)點都是鏈接節(jié)點，則此dom樹節(jié)點也是鏈接節(jié)點。

本發(fā)明中的文本節(jié)點和鏈接節(jié)點的定義獨立于html標簽，有利于提高網(wǎng)頁正文抽取系統(tǒng)的通用性。

步驟c涉及的分割規(guī)則如下：

規(guī)則1：如果當(dāng)前dom節(jié)點的文本長度為0，則刪除此節(jié)點。

規(guī)則2：dom節(jié)點的背景顏色：如果當(dāng)前節(jié)點的孩子節(jié)點中有一個節(jié)點的背景顏色與其他節(jié)點背景顏色不同，那么將分割該dom節(jié)點。

規(guī)則3：節(jié)點字體顏色：如果當(dāng)前節(jié)點的孩子節(jié)點中有一個節(jié)點的字體顏色與其它節(jié)點不同，那么將分割該dom節(jié)點。

規(guī)則4：如果當(dāng)前節(jié)點的孩子節(jié)點都是文本節(jié)點，則不再分割此節(jié)點。

規(guī)則5：如果當(dāng)前節(jié)點的孩子節(jié)點都是鏈接節(jié)點，則不再分割此節(jié)點。

圖3是利用增量聚類的非模型信息抽取方法對新聞?wù)倪M行抽取的流程圖，具體的實現(xiàn)步驟如下。

由圖可知，其過程分為聚類和正文抽取兩個階段。聚類階段的具體步驟如下。

a.從新聞網(wǎng)頁中獲取訓(xùn)練樣本。

b.將訓(xùn)練樣本進行特征化表示。

c.利用特征化表示后的訓(xùn)練樣本進行kmeans聚類并得到聚類中心。

其中在特征化的過程中，考慮了新聞?wù)牡?個特征：

(1)文本長度，即dom樹節(jié)點內(nèi)包含的文本字符串長度。新聞網(wǎng)站中，根據(jù)新聞類型的不同新聞?wù)牟糠钟虚L有短。

(2)平均段落文本長度，即正文文本長度與段落個數(shù)的比值。一般，不同類型的新聞網(wǎng)頁，不同的作者，新聞?wù)牟糠侄温淦骄谋鹃L度也不同。同時，此特征還可以區(qū)分新聞?wù)牟糠趾陀脩粼u論信息，用戶評論信息的平均文本長度一般較短。

(3)鏈接文本長度，指dom樹節(jié)點中包含的超鏈接中錨文本的長度，主要用來區(qū)分正文部分與導(dǎo)航欄、推薦閱讀等信息。

(4)圖片個數(shù)，此特征表示dom樹節(jié)點中包含的圖片個數(shù)，在新聞網(wǎng)站中，不同類型的新聞?wù)牟糠职瑘D片的個數(shù)也是不同的。

(5)句號個數(shù)，指dom樹節(jié)點中文本包含的句號個數(shù)。在新聞?wù)某槿∵^程中，一些短新聞容易和一些包含少量文字的非正文節(jié)點混淆，利用句號個數(shù)這一特征在一定程度上可以區(qū)分這種情況。

本發(fā)明采用以上這五個特征來量化網(wǎng)頁總dom樹節(jié)點。然后利用kmeans算法將其聚類。

正文抽取階段的具體步驟如下。

a.對獲得的新聞網(wǎng)頁進行預(yù)處理。將網(wǎng)頁中與新聞?wù)臎]有關(guān)系的dom樹節(jié)點去掉，如腳本標簽。根據(jù)超鏈接個數(shù)所占比例刪除一些只包含超鏈接的節(jié)點。經(jīng)過網(wǎng)頁預(yù)處理后刪除一些候選節(jié)點。

b.將網(wǎng)頁特征化。將候選節(jié)點按照上述五個特征計算特征值，用向量的形式表示。

c.將特征向量與聚類過程得到的聚類中心進行對比，得到包含正文的dom節(jié)點。

其中步驟c的具體實現(xiàn)方法如下。

c-1.依次計算每個候選節(jié)點pj到簇cj的隸屬度γij,(i為從1到k的整數(shù)，j為1到m的整數(shù))，選取γij的最大值γj_max。當(dāng)γj_max大于或等于0.5時將此候選節(jié)點和γj_max加入到集合d中。當(dāng)γj_max小于0.5時舍棄該候選節(jié)點。

c-2.將集合d中的候選節(jié)點按照隸屬度排序，取隸屬度最大的節(jié)點。

c-3.判斷按隸屬度排序后的節(jié)點序列是否前一個節(jié)點為后一個節(jié)點的父節(jié)點，即是否依次嵌套，找到最小的嵌套點作為正文節(jié)點輸出。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱文浩;金鑫;姚滕俊;陳潔;胡冠男
技術(shù)所有人：上海大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

網(wǎng)頁信息抽取相關(guān)技術(shù)

網(wǎng)頁結(jié)構(gòu)化信息抽取相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向聚焦的Web網(wǎng)頁獲取和信息抽取方法與流程