亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

特定類型信息文件的識別方法和裝置的制作方法

文檔序號:6400604閱讀:256來源:國知局
專利名稱:特定類型信息文件的識別方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種特定類型信息文件的識別方法和裝置。
背景技術(shù)
信息的存儲通常是以文件的形式存在,并以文件形式進(jìn)行歸檔,同樣地,廣泛存在于互聯(lián)網(wǎng)上的信息也是以WEB文件形式進(jìn)行發(fā)布和傳輸。隨著互聯(lián)網(wǎng)的快速發(fā)展,WEB文件的信息量已經(jīng)越來越龐大,并占據(jù)著重要的分量,這使得互聯(lián)網(wǎng)上的信息處理技術(shù)如WEB文件歸類、檢索等的重要性顯得更為突出。伴隨著網(wǎng)絡(luò)的高速發(fā)展,用戶對網(wǎng)上信息的需求也日益趨于多樣化。通常,以字符串匹配的搜索方法可以很好地滿足用戶對精細(xì)信息的查詢要求。然而對某些以信息類型為特征的文件群分類或識別,效果卻不盡人意。
在網(wǎng)絡(luò)高速發(fā)展的今天,WEB頁面所承載的信息已高度的集成化,其內(nèi)容表現(xiàn)的越來越復(fù)雜和多樣化。如超鏈接信息、超媒體信息等許多信息內(nèi)容已經(jīng)成為WEB頁面不可或缺的一部分。這在一定程度上很好地增加了傳遞的信息量并改善了用戶接口,但另一方面也導(dǎo)致了WEB頁面結(jié)構(gòu)的復(fù)雜化。使得WEB信息出現(xiàn)了多種不同主題,增加了主信息內(nèi)容的噪聲。目前,許多從事于WEB信息處理的研究人員也提出了多種WEB信息分塊的方法來企圖準(zhǔn)確理解并提取出主要信息,如Ziv Bar-Yossef and Sridhar Rajagopalan 2002.TemplateDetection via Data Mining and its Applications.In Proceedings ofthe WWW2002,May 7-11,2002,Honolulu,Hawaii,USA.
Shian-Hua Lin,Jan-Ming Ho 2002.Discovering InformativeContent Blocks from Web Documents.SIGKDD’02,July 23-26,2002,Edmonton,Alberta,Canada.
我們知道,WEB信息是利用HTML描述語言對WEB上所承載的信息進(jìn)行組織表示,并利用WEB瀏覽器對其進(jìn)行解釋顯示給終端用戶。從表面上看,這種信息流是一種線性的文本信息流,而實(shí)際上,該WEB信息流具有一定的組織結(jié)構(gòu)。對WEB信息進(jìn)行處理首先就要對WEB文件的組成結(jié)構(gòu)進(jìn)行分析,這也是WEB頁面信息處理的一個關(guān)鍵技術(shù)。WEB頁面利用HTML描述語言對網(wǎng)頁內(nèi)容進(jìn)行組織,其信息結(jié)構(gòu)可以映射為一棵以HTMLTag和WEB文本信息為節(jié)點(diǎn)的文檔DOM(Document Object Model)樹?,F(xiàn)有的瀏覽器也是通過分析出WEB的DOM樹結(jié)構(gòu),并在這個基礎(chǔ)上對WEB進(jìn)行顯示。WEB頁面上的文本信息通過HTML定義的Tag與要傳遞的信息有機(jī)地組織在一起。我們也可以通過分析Tag的功能屬性對WEB信息結(jié)構(gòu)樹進(jìn)行處理。(Ziv Bar-Yossef 2002)提出的是一種利用相對簡單的啟發(fā)式網(wǎng)頁分塊方法,該方法利用DOM樹及HTML Tag標(biāo)記的不同屬性把網(wǎng)頁的內(nèi)容按照信息的語義連貫性對WEB頁面進(jìn)行區(qū)域劃分,以達(dá)到不同主題信息分割的目的。(Shian-Hua Lin 2002)提出了用HTML中的Tag標(biāo)記如<Table>等制表符號對WEB頁面的信息塊進(jìn)行偵測分割。可見以上的兩種方法都是利用HTML Tag標(biāo)記的不同屬性對WEB頁面進(jìn)行分割,以期提取出用戶感興趣的信息內(nèi)容。

發(fā)明內(nèi)容
為了解決上述的以信息類型為特征的文件群分類與識別的問題,本發(fā)明提供了一種特定類型信息文件的識別方法和裝置,其能對從因特網(wǎng)中收集的WEB頁面或存儲在其它相關(guān)存儲器中的文件群進(jìn)行基于文件類型的識別??紤]到同類型文件本身擁有排它屬性,可以有效地用在文件的類型識別中,本發(fā)明對輸入的文件群進(jìn)行分組,這同時達(dá)到一個文件樣本預(yù)分類的目的,從而為提高系統(tǒng)的識別精度打下基礎(chǔ)。
根據(jù)本發(fā)明的一個方面,提供了一種文件識別裝置,其包括文件分組部,其把識別對象的文件群按照URL、作者名稱等不同觀點(diǎn)進(jìn)行文件類型分類,根據(jù)不同的文件屬性進(jìn)行分組,使得后續(xù)的識別模塊可以很好地根據(jù)各個分組的文件特性進(jìn)行識別,該分組部同時起到了樣本預(yù)分類的目的,提高了系統(tǒng)最終的識別精度;文件類型識別部,其根據(jù)WEB頁面的內(nèi)在DOM結(jié)構(gòu)及HTML Tag屬性對文件進(jìn)行主信息塊提取,并可以進(jìn)行歌詞、日記、BBS等特定信息類型判別,該部根據(jù)上述類型等特定信息本身所具有排它特征,如利用關(guān)鍵字特征、標(biāo)點(diǎn)符號特征、文檔結(jié)構(gòu)特征、文檔內(nèi)容的重復(fù)出現(xiàn)等相關(guān)特定對文件類型進(jìn)行識別;文件類型識別修正部,其從全組文件識別精度的大局出發(fā),結(jié)合每個離散的文件識別結(jié)果,側(cè)重考慮本組所有文件的整體識別準(zhǔn)確率,對本組的所有文件識別結(jié)果進(jìn)行修正,從而到達(dá)提高所有文件的整體識別精度的目的。
優(yōu)選地,在本發(fā)明的文件識別裝置中,文件類型識別部包括一個主信息塊抽取部,其去除文件中與文件本身無關(guān)的噪音部分,只抽取出主要部分。
優(yōu)選地,在本發(fā)明的文件識別裝置中,文件類型識別修正部統(tǒng)計當(dāng)前文件子分組的每個文件識別結(jié)果,把當(dāng)前文件子分組視為一個整體,計算該文件子分組中被識別為正例的文件個數(shù)與當(dāng)前文件子分組的文件個數(shù)的比值,并根據(jù)先驗(yàn)閾值判定當(dāng)前文件子分組。
根據(jù)本發(fā)明的另一個方面,提供了一種文件識別方法,用于對從因特網(wǎng)中收集的web頁面或存儲在其它存儲裝置中的文件群進(jìn)行特定信息類型的識別,該方法包括以下步驟按照特定的觀點(diǎn)對待識別的文件群進(jìn)行文件類型分類;根據(jù)所述特定信息類型所特有的特征識別文件的類型;從全組文件識別精度的大局出發(fā),對各個文件識別結(jié)果進(jìn)行修正。
優(yōu)選地,在本發(fā)明的文件識別方法中,識別文件類型的步驟還包括一個主信息塊抽取步驟,其中去除文件中與文件本身無關(guān)的噪音部分,只抽取出主要部分。
優(yōu)選地,在本發(fā)明的文件識別方法中,在所述的修正步驟中,統(tǒng)計當(dāng)前文件子分組的每個文件識別結(jié)果,把當(dāng)前文件子分組視為一個整體,計算該文件子分組中被識別為正例的文件個數(shù)與當(dāng)前文件子分組的文件個數(shù)的比值,并根據(jù)先驗(yàn)閾值判定當(dāng)前文件子分組。


圖1表示特定類型信息文件的識別裝置結(jié)構(gòu)圖;圖2表示文件類型識別部的結(jié)構(gòu)圖;圖3表示文件類型識別部中的文件子分組模板信息提取部的實(shí)現(xiàn)結(jié)構(gòu)圖;圖4表示文件類型識別部的文件子分組模板信息提取部中的網(wǎng)頁分析過程圖;圖5表示一個網(wǎng)頁文件的DOM樹圖例;圖6表示子分組模板信息提取單元的實(shí)現(xiàn)流程圖;圖7表示文件類型識別部中的文件主信息塊提取部的實(shí)現(xiàn)結(jié)構(gòu)圖;圖8表示子分組文件主信息塊提取的實(shí)現(xiàn)流程圖;圖9表示文件類型識別部中的文件主信息塊識別部的實(shí)現(xiàn)結(jié)構(gòu)圖;具體實(shí)施方式
下面參照附圖,以歌詞網(wǎng)頁的識別為例,對本發(fā)明的特定類型信息文件識別裝置和該裝置中采用的識別方法的實(shí)施例進(jìn)行說明。圖1是本發(fā)明的文件識別裝置的簡要結(jié)構(gòu)示意圖。本發(fā)明的文件識別裝置由輸入數(shù)據(jù)和輸出數(shù)據(jù)以及以下3個主要部分組成包括(1)文件分組部;(2)文件類型識別部;(3)文件類型識別修正部。下面,分別對其進(jìn)行詳細(xì)說明。
本發(fā)明的識別裝置的輸入數(shù)據(jù)是從因特網(wǎng)中收集的WEB頁面或存儲在其它相關(guān)存儲器中的文件群。輸出數(shù)據(jù)為通過本識別裝置處理后的兩種文件分類集合,即正例識別結(jié)果集合和反例識別結(jié)果集合。正例識別結(jié)果為通過本系統(tǒng)進(jìn)行識別的某一特定信息類型,如本實(shí)施例中被識別為歌詞網(wǎng)頁這一特定信息類型的文件;反例識別結(jié)果為被系統(tǒng)識別為非該特定信息類型的識別結(jié)果,如本實(shí)施例中被識別為非歌詞網(wǎng)頁這一特定信息類型的文件。
(1)文件分組部。
該部首先對從因特網(wǎng)中收集的WEB頁面或存儲在其它相關(guān)存儲器中的文件群,按照URL、作者名稱等不同觀點(diǎn)對輸入文件群進(jìn)行文件類型分類。
在以往的大多系統(tǒng)實(shí)現(xiàn)中,每個需要識別的文件,對識別系統(tǒng)來說都是地位平等的不同個體,系統(tǒng)只是根據(jù)相同的方法和資源對每個個體進(jìn)行同一流程的識別判定,這從系統(tǒng)建模的角度上來講是完全合理的,對每個需要識別的文件來講也是平等的。然而,在實(shí)際應(yīng)用中的文件之間有一定的聯(lián)系,并能夠通過某一特定的文件屬性表現(xiàn)出,然而上述的系統(tǒng)卻不能很好的利用這一特性。本文件分組部就是基于這一考慮,通過文件的某一特性如URL、作者名稱等不同觀點(diǎn)對文件群進(jìn)行分類,并以每一分類重新作為系統(tǒng)的輸入數(shù)據(jù)。這就使得各個孤立的文件個體能夠很好地建立聯(lián)系,同時也使得系統(tǒng)能夠根據(jù)每個分組的共同屬性加于識別。
本文件分組部從整個系統(tǒng)識別功能的角度講,可以看成是對系統(tǒng)輸入樣本的一次樣本預(yù)分類。這對系統(tǒng)最后的整體識別精度的提高有很大的幫助。
(2)文件類型識別部。
在本發(fā)明的文件類型識別部中,充分利用了DOM樹的結(jié)構(gòu)信息和HTML Tag標(biāo)記的屬性,對復(fù)雜的WEB頁面進(jìn)行主信息塊提取,在此,本發(fā)明使用一種基于網(wǎng)頁模板信息的網(wǎng)頁主信息塊提取方法,達(dá)到盡量排除WEB主信息識別的噪聲干擾,提高了系統(tǒng)識別精度。
該部根據(jù)WEB頁面的內(nèi)在DOM結(jié)構(gòu)及HTML Tag屬性提取出文件的主信息塊,并利用該主信息內(nèi)容對文件進(jìn)行歌詞信息這一特定信息類型進(jìn)行判別。然后利用歌詞信息這一特定類型信息本身所具有的排它特征,如利用關(guān)鍵字特征、標(biāo)點(diǎn)符號特征、文檔結(jié)構(gòu)特征、文檔內(nèi)容的重復(fù)出現(xiàn)等相關(guān)特征,對文件類型進(jìn)行識別。
圖2中描述的是文件類型識別部的具體功能實(shí)現(xiàn),其輸入為文件分組部根據(jù)URL等不同觀點(diǎn)對文件群分類后的文件分組,具體可以分為三個主要子部件,分別為文件子分組模板信息提取部、文件主信息塊提取部和文件主信息塊類型識別部。文件子分組模板信息提取部的功能是通過文件子分組的模板學(xué)習(xí)集,通過對其HTML結(jié)構(gòu)文檔的分析,提取出網(wǎng)頁的模板信息。文件主信息塊提取部的主要功能是利用文件子分組模板信息提取部提取出的文件子分組模板信息對文件子分組中的每個文件進(jìn)行主信息提取,該部能夠去除網(wǎng)頁中的大量噪聲信息,對下面的文件類型識別提供了可靠的保證。同時該部在實(shí)現(xiàn)中可以利用多線程技術(shù)進(jìn)行并發(fā)處理來提高系統(tǒng)運(yùn)行的速度。文件主信息塊類型識別部的功能是根據(jù)歌詞網(wǎng)頁這一特定信息類型的排它屬性,如利用關(guān)鍵字特征、標(biāo)點(diǎn)符號特征、文檔結(jié)構(gòu)特征、文檔內(nèi)容的重復(fù)出現(xiàn)等相關(guān)特征,對文件類型進(jìn)行識別,其輸入為從每個文件中提取出的主信息內(nèi)容。
圖3描述的是文件子分組模板信息提取部的內(nèi)部功能實(shí)現(xiàn)。其輸入數(shù)據(jù)為經(jīng)過文件分組部分類后的文件子分組中的模板信息提取訓(xùn)練集。該部主要實(shí)現(xiàn)了文件子分組的模板信息提取,其主要部件包括文件DOM樹表示單元、DOM樹葉節(jié)點(diǎn)信息塊合并單元、DOM樹信息塊數(shù)據(jù)結(jié)構(gòu)(信息塊Table)表示單元、信息塊字符串相似度計算單元以及模板信息塊提取單元等5部分。
1.文件DOM樹表示單元的實(shí)現(xiàn)是網(wǎng)頁信息處理技術(shù)中的一個關(guān)鍵技術(shù),它實(shí)現(xiàn)了網(wǎng)頁文件源代碼的線性流到網(wǎng)頁文件的DOM樹結(jié)構(gòu)的對應(yīng),同時為以下的文件結(jié)構(gòu)分析創(chuàng)造了條件。我們知道,網(wǎng)頁文件是利用HTML描述語言對網(wǎng)頁文件所要傳遞的信息內(nèi)容進(jìn)行格式化顯示,其包括了HTML Tag信息、注釋信息和網(wǎng)頁所要傳遞的主信息三個部分,其中注釋信息對我們的結(jié)構(gòu)分析沒有作用,而Tag信息卻蘊(yùn)藏著豐富的文件結(jié)構(gòu)信息,網(wǎng)頁所要傳遞的信息在DOM樹上通常是以樹葉的形式出現(xiàn)且其節(jié)點(diǎn)屬性為文本屬性。圖4描述了一個網(wǎng)頁的分析過程,文件流流入文件信息Token流部,根據(jù)不同的屬性將被劃分為以上所述三種類型信息,且每一種信息都稱為一個Token流。這樣一個網(wǎng)頁文件將被視為是由一系列的Token流串聯(lián)而成。這些Token信息流將流入HTML分析部。該部利用W3C組織發(fā)布的HTML版本標(biāo)準(zhǔn),根據(jù)各Tag的屬性對Token信息流進(jìn)行分析,最后得到一棵與該網(wǎng)頁相對應(yīng)的DOM樹。圖5所示的是一個網(wǎng)頁文件的DOM樹圖例,其中TEXT節(jié)點(diǎn)表示的是網(wǎng)頁所要傳遞的主信息文本節(jié)點(diǎn),其它節(jié)點(diǎn)為HTML的Tag標(biāo)記,線段表示兩個節(jié)點(diǎn)之間的父子關(guān)系。
2.DOM樹葉節(jié)點(diǎn)信息塊合并單元實(shí)現(xiàn)了網(wǎng)頁內(nèi)不同信息的信息塊劃界定位。網(wǎng)頁文件的HTML源文件是在經(jīng)過瀏覽器的解釋后顯示給用戶的。從顯示的效果上看,信息的組織具有一定的結(jié)構(gòu)性,不同的文本信息在網(wǎng)頁的不同位置存在著一定聚合性,即以不同的信息塊的形式出現(xiàn)。然而在網(wǎng)頁文件的DOM樹上這些相應(yīng)的節(jié)點(diǎn)也是有一定的關(guān)聯(lián),該信息塊合并單元通過如下的方法很好地實(shí)現(xiàn)了信息塊的合并。
為了通過HTML DOM樹找出信息塊之間的相互關(guān)系,我們首先必須對DOM樹進(jìn)行預(yù)處理,同時舍去跟我們研究不相干的信息節(jié)點(diǎn),如script節(jié)點(diǎn),同時對感興趣的節(jié)點(diǎn)進(jìn)行標(biāo)注。以下為信息塊合并的方法a)定義算法中用到的相關(guān)符號信息符號N表示DOM樹中的一個節(jié)點(diǎn);符號DN表示該節(jié)點(diǎn)不是一個文本信息節(jié)點(diǎn),但是在DOM樹中卻是以樹葉節(jié)點(diǎn)的形式出現(xiàn);符號LN表示該節(jié)點(diǎn)是一個DOM樹中的葉子節(jié)點(diǎn),同時該節(jié)點(diǎn)又是一個文本節(jié)點(diǎn)b)以深度優(yōu)先的后根順序遍歷整個網(wǎng)頁DOM樹,并以如下方法檢查每個節(jié)點(diǎn)第一步(a).如果當(dāng)前節(jié)點(diǎn)N不是DOM樹中的一個葉子節(jié)點(diǎn),則什么也不做,檢查下一個節(jié)點(diǎn);(b).如果當(dāng)前節(jié)點(diǎn)是DOM樹中的一個LN節(jié)點(diǎn),則刪除該節(jié)點(diǎn),并檢查下一個節(jié)點(diǎn);到這里,所有的DN節(jié)點(diǎn)將被全部去掉。
第二步(a).如果當(dāng)前節(jié)點(diǎn)N是一個葉子節(jié)點(diǎn),則什么也不做,檢查下一個節(jié)點(diǎn);
(b).如果節(jié)點(diǎn)當(dāng)前節(jié)點(diǎn)N的父節(jié)點(diǎn)只有一個兒子節(jié)點(diǎn)而且當(dāng)前節(jié)點(diǎn)N只有一個葉子節(jié)點(diǎn),那么1).刪除當(dāng)前節(jié)點(diǎn)N;2).令當(dāng)前節(jié)點(diǎn)N的兒子節(jié)點(diǎn)為當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)的兒子節(jié)點(diǎn),并順序地排列在其它兄弟節(jié)點(diǎn)的后面;3).繼續(xù)遍歷整棵樹的其它節(jié)點(diǎn);在刪除了樹中的不合理節(jié)點(diǎn)后,我們就可以得到一棵相對比較簡潔的網(wǎng)頁DOM樹。這時,如果將不同子樹的所有葉子節(jié)點(diǎn)的內(nèi)容串聯(lián)起來的話,我們將看到每一個字符串即代表一個信息串,也就是所述的網(wǎng)頁信息塊。
3.DOM樹信息塊數(shù)據(jù)結(jié)構(gòu)表示為網(wǎng)頁信息節(jié)點(diǎn)合并后的網(wǎng)頁信息塊數(shù)據(jù)結(jié)構(gòu)表示。經(jīng)過DOM樹葉節(jié)點(diǎn)信息塊合并單元的處理后,網(wǎng)頁信息被劃分為不同的信息塊。為了之后的模板信息塊的提取,把處理后的DOM樹信息內(nèi)容拷貝到DOM樹信息塊數(shù)據(jù)結(jié)構(gòu)中。該結(jié)構(gòu)為一個鏈表結(jié)構(gòu),鏈表中的每個節(jié)點(diǎn)存儲著網(wǎng)頁的一個信息塊內(nèi)容,其內(nèi)容為將處理后的DOM樹中的對應(yīng)信息塊子樹中的所有葉子節(jié)點(diǎn)按照從左到右的順序串聯(lián)拷貝到鏈表節(jié)點(diǎn)中。
4.信息塊字符串相似度計算單元完成兩個字符串的相似度計算。字符串的相似度定義為,兩個被計算的字符串的相似程度,并利用一個值范圍為
區(qū)間的double型變量表示其相似程度,0表示這兩個字符串為不相關(guān),1表示這兩個字符串完全相同。在該計算單元中,我們通過計算兩個字符串的編輯距離來完成相似度計算。我們分別定義三個字符的編輯操作插入、刪除、對換。并令這三種操作的操作函數(shù)代價都為1。再利用動態(tài)規(guī)劃的方法計算其相似度值。
5.模板信息塊的提取單元實(shí)現(xiàn)對網(wǎng)頁訓(xùn)練集(兩個具有代表性的網(wǎng)頁文件)的模板信息提取。在經(jīng)過上述幾個單元的處理后,將得到訓(xùn)練集網(wǎng)頁對應(yīng)的DOM樹信息塊數(shù)據(jù)結(jié)構(gòu)(如圖6中的兩個輸入鏈表Table_1和Table_2)。其詳細(xì)的算法如圖6所示。經(jīng)過該算法的處理后,將得到一個當(dāng)前文件群分組部的網(wǎng)頁模板信息。
圖7描述的是文件主信息塊提取部的內(nèi)部功能實(shí)現(xiàn)。其輸入數(shù)據(jù)為從該子文件分組中提取出的模板信息和當(dāng)前即將被識別的網(wǎng)頁信息。該部主要實(shí)現(xiàn)了當(dāng)前網(wǎng)頁的主信息提取,其主要部件包括當(dāng)前網(wǎng)頁文件DOM樹表示單元、當(dāng)前網(wǎng)頁文件DOM樹葉節(jié)點(diǎn)信息塊合并單元、當(dāng)前網(wǎng)頁文件信息塊表示單元、信息塊字符串相似度計算單元、以及網(wǎng)頁主信息塊提取單元等5部分。
1.當(dāng)前網(wǎng)頁文件DOM樹表示單元。具體算法同“文件子分組模板信息提取部”的“文件DOM樹表示單元”。
2.當(dāng)前網(wǎng)頁文件DOM樹葉節(jié)點(diǎn)信息塊合并單元。具體算法同“文件子分組模板信息提取部”的“DOM樹葉節(jié)點(diǎn)信息塊合并單元”。
3.當(dāng)前網(wǎng)頁文件信息塊表示單元。其具體算法同“文件子分組模板信息提取部”的“DOM樹信息塊數(shù)據(jù)結(jié)構(gòu)表示單元”。
4.信息塊字符串相似度計算單元。具體算法同“文件子分組模板信息提取部”的“信息塊字符串相似度計算單元”。
5.網(wǎng)頁主信息塊提取單元。實(shí)現(xiàn)對網(wǎng)頁信息的主信息塊提取。在經(jīng)過上述幾個單元的處理后,將得到當(dāng)前網(wǎng)頁對應(yīng)的DOM樹信息塊數(shù)據(jù)結(jié)構(gòu)(如圖8中的輸入鏈表Web_Table),并利用當(dāng)前文件子分組的模板信息(如圖8中的輸入鏈表Template_Table)。其詳細(xì)的算法如圖8所示。經(jīng)過該算法的處理后,將得到當(dāng)前網(wǎng)頁文件的主信息塊信息。
圖9描述的是文件主信息塊識別部的內(nèi)部功能實(shí)現(xiàn)。其輸入數(shù)據(jù)為網(wǎng)頁的主信息塊。該部主要實(shí)現(xiàn)了利用多種方法對網(wǎng)頁主信息塊的識別,其主要包括利用關(guān)鍵字/反關(guān)鍵字屏蔽匹配的特征信息識別部、信息塊鏈接特征提取部、信息塊行分段特征信息提取部、信息塊文本重復(fù)特征信息提取部、信息塊文本標(biāo)點(diǎn)特征信息提取部、信息塊文本長度特征信息提取部和綜合判定部等7個子部分。其中前面的6個子部分分別從信息塊中提取不同的特征信息,并把提取出的信息放到特征信息變量中。綜合判定部將利用該特征信息變量值對信息塊進(jìn)行判定,并給出對本網(wǎng)頁的最終判定結(jié)果。
利用關(guān)鍵字/反關(guān)鍵字屏蔽匹配的特征信息識別部。利用關(guān)鍵字特征對主信息塊進(jìn)行搜索匹配,并計算出該網(wǎng)頁的關(guān)鍵字得分值,存放在特征信息變量中。通過構(gòu)造三個向量Tc、Tf和Tw,其中,Tc為關(guān)鍵詞向量,Tf為關(guān)鍵詞在當(dāng)前主信息塊中的出現(xiàn)頻率向量,Tw為關(guān)鍵詞權(quán)值向量。在對每個主信息塊的搜索匹配后,我們將得到當(dāng)前的Tf值,并計算出這三個向量的內(nèi)積Tc·Tf·Tw,即當(dāng)前網(wǎng)頁主信息塊的特征詞得分值。并把該值存放到特征信息變量中,等待進(jìn)一步判定。
上述關(guān)鍵詞搜索匹配,利用的是字符串的完全匹配技術(shù)。這就容易忽視了當(dāng)所匹配的信息恰好是非關(guān)鍵詞信息的“字符串子集”,且非特征詞信息又是表達(dá)另一個語義情況下的錯誤累計。“反關(guān)鍵字屏蔽算法”的提出就是為了解決該問題,即通過預(yù)先匹配可能出現(xiàn)的該類非關(guān)鍵詞信息,然后再利用“關(guān)鍵詞匹配算法”進(jìn)行匹配處理。
信息塊鏈接特征提取部,該部實(shí)現(xiàn)對主信息塊的鏈表的統(tǒng)計分析。在該部中,通過統(tǒng)計鏈接文本的長度,和當(dāng)前主信息塊的文本長度。并計算該比值,并把統(tǒng)計的結(jié)果存儲到特征信息變量中,等待進(jìn)一步判定。
信息塊行分段特征信息提取部,該部實(shí)現(xiàn)對主信息塊的行分段信息進(jìn)行統(tǒng)計。通過統(tǒng)計每行中的子分段個數(shù),并求出當(dāng)前主信息塊的行平均分段數(shù),并把該信息存儲到特征信息變量中,等待進(jìn)一步判定。其中,行子分段定義為文本信息被空格或多個空格隔開的字符段。
信息塊文本重復(fù)特征信息提取部,該部實(shí)現(xiàn)對主信息塊的文本重復(fù)進(jìn)行統(tǒng)計。首先,以行為單位對當(dāng)前主信息塊中的所有行按文本內(nèi)容進(jìn)行排序。其次,從第一行開始,依次計算每相鄰兩個行文本內(nèi)容的相似度,并把計算的結(jié)果存儲到對應(yīng)的臨時變量中。最后,統(tǒng)計所有大于閾值的行信息相似度值個數(shù),并把這個信息存儲到特征信息變量中,等待進(jìn)一步判定。
信息塊文本標(biāo)點(diǎn)特征信息提取部,該部完成對主信息塊的標(biāo)點(diǎn)特征信息進(jìn)行統(tǒng)計。統(tǒng)計當(dāng)前主信息塊內(nèi)容中的預(yù)定義的標(biāo)點(diǎn)符號。并把該信息存儲到特征信息變量中,等待進(jìn)一步判定。
信息塊文本長度特征信息提取部,該部完成對主信息塊文本長度的統(tǒng)計,并把該特征信息變量中,等待進(jìn)一步判定。
綜合判定部,該部完成對存儲在特征信息變量中的參數(shù)值進(jìn)行綜合判定。該部分別對關(guān)鍵詞特征信息、信息塊鏈接特征、信息塊行分段特征信息、信息塊文本重復(fù)特征信息、信息塊文本標(biāo)點(diǎn)特征信息和信息塊文本長度特征信息定義三個代表三種性能等級的參數(shù),如下所示

我們可以根據(jù)先驗(yàn)閾值信息分別對上述6個信息量進(jìn)行選擇,并利用啟發(fā)式規(guī)則對主信息塊的類型進(jìn)行判定。在我們的系統(tǒng)實(shí)現(xiàn)中,使用了如下的啟發(fā)式規(guī)則

凡是當(dāng)前主信息塊識別的“特征信息變量”符合上述規(guī)則的文件將被視為正例識別結(jié)果,否則為反例識別結(jié)果。
(3)文件類型識別修正部該部從同一組中各個文件識別結(jié)果的全體出發(fā),結(jié)合每個離散的文件識別結(jié)果,側(cè)重考慮本組所有文件的整體識別準(zhǔn)確率,對本組的所有文件識別結(jié)果進(jìn)行修正。其特征在于統(tǒng)計當(dāng)前文件子分組每個文件識別結(jié)果,把當(dāng)前文件子分組視為一個整體,計算該文件子分組的“正例識別率”,即被識別為正例的文件個數(shù)與當(dāng)前文件子分組的文件個數(shù)的比值,并根據(jù)先驗(yàn)閾值判定當(dāng)前文件子分組。
以上結(jié)合歌詞網(wǎng)頁的識別對本發(fā)明的識別裝置和識別方法的一個實(shí)施例進(jìn)行了說明,但很顯然本發(fā)明并不限于歌詞網(wǎng)頁的識別,而是可以應(yīng)用于各種類型的信息文件。另外,以上描述的各種細(xì)節(jié)只是示例性的,用于幫助更好地理解本發(fā)明,在本發(fā)明的范圍之內(nèi)可以對本發(fā)明的識別裝置和識別方法進(jìn)行各種改進(jìn)和變化。
權(quán)利要求
1.一種文件識別裝置,用于對從因特網(wǎng)中收集的web頁面或存儲在其它存儲裝置中的文件群進(jìn)行特定信息類型的識別,該裝置包括文件分組部,其按照特定的觀點(diǎn)對待識別的文件群進(jìn)行文件類型分類;文件類型識別部,其根據(jù)所述特定信息類型所特有的特征識別文件的類型;以及文件類型識別修正部,其從全組文件識別精度的大局出發(fā),對各個文件識別結(jié)果進(jìn)行修正。
2.根據(jù)權(quán)利要求1所述的文件識別裝置,其中所述文件類型識別部包括一個主信息塊抽取部,其去除文件中與文件本身無關(guān)的噪音部分,只抽取出主要部分。
3.根據(jù)權(quán)利要求1所述的文件識別裝置,其中所述的文件類型識別修正部統(tǒng)計當(dāng)前文件子分組的每個文件識別結(jié)果,把當(dāng)前文件子分組視為一個整體,計算該文件子分組中被識別為正例的文件個數(shù)與當(dāng)前文件子分組的文件個數(shù)的比值,并根據(jù)先驗(yàn)閾值判定當(dāng)前文件子分組。
4.一種文件識別方法,用于對從因特網(wǎng)中收集的web頁面或存儲在其它存儲裝置中的文件群進(jìn)行特定信息類型的識別,該方法包括以下步驟按照特定的觀點(diǎn)對待識別的文件群進(jìn)行文件類型分類;根據(jù)所述特定信息類型所特有的特征識別文件的類型;從全組文件識別精度的大局出發(fā),對各個文件識別結(jié)果進(jìn)行修正。
5.根據(jù)權(quán)利要求4所述的文件識別方法,其中所述識別文件類型的步驟還包括一個主信息塊抽取步驟,其中去除文件中與文件本身無關(guān)的噪音部分,只抽取出主要部分。
6.根據(jù)權(quán)利要求4所述的文件識別方法,其中在所述的修正步驟中,統(tǒng)計當(dāng)前文件子分組的每個文件識別結(jié)果,把當(dāng)前文件子分組視為一個整體,計算該文件子分組中被識別為正例的文件個數(shù)與當(dāng)前文件子分組的文件個數(shù)的比值,并根據(jù)先驗(yàn)閾值判定當(dāng)前文件子分組。
全文摘要
提供了一種文件識別裝置和方法,用于對從因特網(wǎng)中收集的web頁面或存儲在其它存儲裝置中的文件群進(jìn)行特定信息類型的識別,本發(fā)明的裝置包括文件分組部,其按照特定的觀點(diǎn)對待識別的文件群進(jìn)行文件類型分類;文件類型識別部,其根據(jù)所述特定信息類型所特有的特征識別文件的類型;以及文件類型識別修正部,其從全組文件識別精度的大局出發(fā),對各個文件識別結(jié)果進(jìn)行修正。本發(fā)明的裝置和方法可以對各種類型的信息進(jìn)行識別,并可以實(shí)現(xiàn)非常好的識別精度。
文檔編號G06F17/30GK1702651SQ20041003835
公開日2005年11月30日 申請日期2004年5月24日 優(yōu)先權(quán)日2004年5月24日
發(fā)明者王主龍, 于浩, 西野文人 申請人:富士通株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1