一種電子文檔的元信息提取方法

文檔序號(hào)：6535796閱讀：268來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種電子文檔的元信息提取方法
【專利摘要】本發(fā)明公開了一種電子文檔的元信息提取方法，屬于計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】。本方法采用模塊化的理念將文檔信息提取的過程分為三個(gè)部分：文檔格式解析模塊、文檔信息優(yōu)化模塊和文檔信息解析模塊，然后使用一種統(tǒng)一的文檔信息格式將三個(gè)模塊聯(lián)系起來。通過這樣的設(shè)計(jì)使得添加一種格式支持以及增加信息提取類型變得簡單方便，只需關(guān)注自身的實(shí)現(xiàn)卻可以享受到已有其他模塊帶來的便利。與此同時(shí)不同的提取方法和格式支持可以快速自由地配置，這對(duì)于個(gè)性化系統(tǒng)定制和升級(jí)維護(hù)都有很大的幫助。
【專利說明】一種電子文檔的元信息提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種電子文檔的元信息提取方法，屬于計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步，大量的圖書、雜志、報(bào)刊、報(bào)告，手冊(cè)等文檔都越來越多地用電子格式進(jìn)行存儲(chǔ)和傳播，因而對(duì)于這些電子文檔的管理成為了一個(gè)重要工作。為了方便檢索和閱讀，人們一般都將這些文檔中的一些重要信息提取出來作為索引存儲(chǔ)，這些信息一般都描述了該文檔的領(lǐng)域、主題等高度概括性的信息，一般稱之為元信息。然而，當(dāng)前電子文檔的格式多種多樣(常用的如D0C、roF、HTML)，即使同一種格式的標(biāo)準(zhǔn)也并不統(tǒng)一，比如HTML文檔雖有W3C標(biāo)準(zhǔn)，但是不同的瀏覽器兼容的格式是有差異的。與此同時(shí)，不同的應(yīng)用和領(lǐng)域?qū)ξ臋n信息提取的要求也是不同的，假如現(xiàn)在有M種文檔格式和N種提取要求，那么就需要實(shí)現(xiàn)M*N種文檔信息提取器來滿足所有的需求，這將會(huì)進(jìn)行大量的重復(fù)性勞動(dòng)。正因如此，設(shè)計(jì)一種能夠避免這樣重復(fù)勞動(dòng)的模式顯得十分的重要。
[0003]當(dāng)前常見的文檔格式都有許多解析器的實(shí)現(xiàn)，比如解析TOF的iText、pdfBox，解析 HTML+CSS 的 WebkitJridentJ^Zi1 Office 文檔系列的 MS0fficeAP1、P0I 等等。這些成熟的實(shí)現(xiàn)都可以復(fù)用到系統(tǒng)中來。
[0004]當(dāng)前抽取文檔信息的方法同樣有很多，有基于統(tǒng)計(jì)的方法，也有基于規(guī)則的，還有基于視覺布局的，這些方法同樣可以應(yīng)用到系統(tǒng)中來。
[0005]現(xiàn)有的解決系統(tǒng)復(fù)雜度的方法是將所有格式的文檔轉(zhuǎn)換成純文本，然后再進(jìn)行下一步的處理。但是這樣的處理將丟失大量有利于后期處理分析的文檔結(jié)構(gòu)化信息，使得接下來的處理的復(fù)雜度大大增加。

【發(fā)明內(nèi)容】
`
[0006]本發(fā)明的目的是簡化和改善多格式文檔中元信息的提取。盡可能地復(fù)用已有的提取方法，避免為新添一種文檔格式而花費(fèi)大量的時(shí)間來做重復(fù)的工作，同時(shí)可以快速自由地配置不同的提取方法。
[0007]為實(shí)現(xiàn)上述目的，本發(fā)明所采用的技術(shù)方案如下:
[0008]采用模塊化的理念將文檔信息提取的過程分為三個(gè)部分:文檔格式解析模塊、文檔信息優(yōu)化模塊和文檔信息解析模塊，然后使用一種統(tǒng)一的文檔信息格式將三個(gè)模塊聯(lián)系起來。
[0009]一個(gè)統(tǒng)一文檔由O個(gè)或I個(gè)或多個(gè)信息聚合組成。信息聚合指:一個(gè)信息聚合塊是由I個(gè)或多個(gè)信息塊組成；或同一個(gè)信息聚合內(nèi)的信息塊視覺位置相鄰；或不同信息聚合內(nèi)的信息塊視覺位置不相鄰。本技術(shù)方案中，信息塊由I個(gè)或多個(gè)字符組成；每個(gè)信息塊是一個(gè)四元組:
[0010]Block = {content, bound, font, next}
[0011]其中，content是/[目息塊的字符串；bound是該/[目息塊的邊界范圍；font是該/[目息塊的字體信息，包括字體族、類型、字號(hào)、顏色；next是與該信息塊相鄰的下一個(gè)信息塊，不存在時(shí)為空。不同行的內(nèi)容處于不同的信息塊中；同一行相鄰的信息塊的font屬性不同；同一行相鄰的信息塊視覺位置也相鄰；信息塊的邊界區(qū)域只包含文本內(nèi)容。
[0012]一種電子文檔的元信息提取方法實(shí)現(xiàn)步驟:
[0013]步驟一、進(jìn)行文檔格式解析:利用文檔格式解析器將不同格式的文檔解析成統(tǒng)一的文檔信息格式，得到的統(tǒng)一文檔中的每一信息聚合有且只有一個(gè)信息塊；對(duì)于不同的文檔格式可以有不同的實(shí)現(xiàn)，對(duì)于同一種文檔格式也可以有不同的實(shí)現(xiàn)；
[0014]步驟二、進(jìn)行文檔信息優(yōu)化:
[0015]步驟一得到的統(tǒng)一文檔信息經(jīng)過多個(gè)串聯(lián)的信息優(yōu)化器進(jìn)行優(yōu)化，每個(gè)優(yōu)化器的輸入和輸出都米用統(tǒng)一文檔信息格式；把輸入的統(tǒng)一文檔中的信息聚合經(jīng)過模板匹配、粗粒度聚合等合適的方法合并或者消除得到新的統(tǒng)一文檔；
[0016]步驟三、文檔信息提取:
[0017]根據(jù)提取需要采用聚合順序和位置信息判斷等合適的方法識(shí)別出統(tǒng)一文檔中需要的信息聚合，然后將其內(nèi)容的部分或全部提取出來；對(duì)于提取不同的信息可以有不同的實(shí)現(xiàn)，對(duì)于提取相同的信息也可以有不同的實(shí)現(xiàn)。
[0018]有益效果
[0019]利用該模型構(gòu)建的文檔信息提取系統(tǒng)具有良好的可擴(kuò)展性和可配置性。為系統(tǒng)增加一種支持的文檔格式通常只需要實(shí)現(xiàn)一個(gè)該格式的文檔格式解析器即可，之后便可享受到已有的優(yōu)化方法和信息提取方法提取特定的信息。反過來，為系統(tǒng)增加一種提取信息的類型只要實(shí)現(xiàn)一個(gè)提取該信息的提取器即可，之后便可以對(duì)所以系統(tǒng)支持的文檔格式進(jìn)行優(yōu)化并提取相應(yīng)的信息。同樣的，增加文檔信息優(yōu)化器也不會(huì)影響到文檔格式和信息提取的類型的支持。同時(shí)，對(duì)于文檔格式解析器、信息優(yōu)化器和信息提取器的選擇和組合可以自由的進(jìn)行，這對(duì)于個(gè)性化系統(tǒng)定制和升級(jí)維護(hù)都有很大的幫助。
【專利附圖】

【附圖說明】
[0020]圖1為系統(tǒng)框架圖
[0021]圖2為文檔的轉(zhuǎn)換流程
[0022]圖3為優(yōu)化器組織
[0023]圖4為文檔格式解析結(jié)果
[0024]圖5為文檔信息優(yōu)化結(jié)果
【具體實(shí)施方式】
[0025]下面結(jié)合實(shí)施例對(duì)本發(fā)明做進(jìn)一步說明。
[0026]假定需要處理的文檔是AnenhancedACOalgorithmtoselectfeaturesfortext categorizationanditsparalIelization, ExpertSystemswithAppIicat ions39 (2012) 5861 - 5871.文檔格式為H)F，需要提取的信息為作者和標(biāo)題。提取流程如圖1所示；
[0027]根據(jù)步驟一進(jìn)行文檔格式解析；文檔轉(zhuǎn)化流程如圖2所示，得到的統(tǒng)一文檔如下，參照?qǐng)D4。信息塊如下:[0028]Blockl:
[0029]> Content:ExpertSystemswithApplications39 (2012)5861 - 5871
[0030]> Bound:449，95，363，23
[0031]> Font: Times，Normal，8px，black
[0032]> Next: Block2
[0033]Block2:
[0034]> Content:C ontentslistsavaiIableatSciVerseScienceDirect
[0035]> Bound:438, 151，394，21
[0036]> Font:Arial, Normal, Ilpxj black
[0037]> Next:Block3
[0038]Block3:
[0039]Content:ExpertSystemswithApplications
[0040]> Bound:391，199，483，38
[0041]> Font: Times，Normal，19px, black
[0042]> Next:Block4
[0043]Block4:
[0044]> Content:journalhomepage:www.elsevier.com/locate/eswa
[0045]> Bound: 379，263，506，23
[0046]> FontiCalibrijNormalj Ilpxj black
[0047]> Next: Block5
[0048]Block5:
[0049]^ Content:AnenhancedACOalgorithmtoselectfeaturesfortextcategorization
[0050]、Bound:81，366，915，34
[0051]、Font:Calibrij Normal, 17px, black
[0052]> Next:Block6
[0053]Block6:
[0054]> Content:anditsparallelization
[0055]> Bound:81，404，292，34
[0056]、Font:Calibrij Normal, 17px, black
[0057]> Next: Block7
[0058]Block7:
[0059]、Content:M.JanakiMeenaj K.R.Chandranj A.Karthikj A.VijaySamuel
[0060]> Bound:81，452，686，30[0061]> Font:Helvetica, Normal, 15px, black
[0062]> Next:Block8
[0063]Block8:
[0064]> Content:DepartmentofCSEjPSGCoIIegeofTechnology, Coimbatore, TamilNadu641004，India
[0065]> Bound:87，494，535，19
[0066]> Font:Times，Italic，8px，black
[0067]> Next: Block9
[0068]Block9:
[0069]> Content:DepartmentofITjPSGColIegeofTechnologyj Coimbatore, TamilNadu641004，India
[0070]> Bound:87, 511，524，19
[0071]> Font:Times，Italic, 8px, black
[0072]>Next:無
[0073]Document:
[0074]Clusterl {Blockl}
[0075]Cluster2 {Block2}
[0076]Cluster3 {Block3}
[0077]Cluster4 {Block4}
[0078]Cluster5 {Block5}
[0079]Cluster6 {Block6}
[0080]Cluster7 {Block7}
[0081 ]Cluster8 {Block8}
[0082]Cluster9 {Block9}
[0083]根據(jù)步驟二進(jìn)行文檔信息優(yōu)化，優(yōu)化器如圖3所示，得到優(yōu)化后的文檔信息如下，參照?qǐng)D5。
[0084]Document:
[0085]Clusterl {Blockl}
[0086]Cluster2 {Block2}
[0087]Cluster3 {Block3}
[0088]Cluster4 {Block4}
[0089]Cluster5 {Block5，Block6}
[0090]Cluster6 {Block7}
[0091]Cluster7 {Block8，Block9}
[0092]根據(jù)步驟三提取文檔信息，識(shí)別標(biāo)題所在聚合為Cluster5，作者在Cluster6，最終信息提取如下:
[0093]標(biāo)題:AnenhancedACOalgorithmtoseIectfeaturesfortextcategorizationanditsparallelization
[0094]作者:Μ.JanakiMeenaj K.R.Chandranj A.Karthikj A.Vi jaySamuel。
【權(quán)利要求】
1.一種電子文檔的元信息提取方法，其特征在于: 步驟一、進(jìn)行文檔格式解析:利用文檔格式解析器將不同格式的文檔解析成統(tǒng)一的文檔信息格式，得到的統(tǒng)一文檔中的每一信息聚合有且只有一個(gè)信息塊；對(duì)于不同的文檔格式可以有不同的實(shí)現(xiàn)，對(duì)于同一種文檔格式也可以有不同的實(shí)現(xiàn)；步驟二、進(jìn)行文檔信息優(yōu)化:步驟一得到的統(tǒng)一文檔信息經(jīng)過多個(gè)串聯(lián)的信息優(yōu)化器進(jìn)行優(yōu)化，每個(gè)優(yōu)化器的輸入和輸出都采用統(tǒng)一文檔信息格式；把輸入的統(tǒng)一文檔中的信息聚合經(jīng)過模板匹配、粗粒度聚合等合適的方法合并或者消除得到新的統(tǒng)一文檔；步驟三、文檔信息提取:根據(jù)提取需要采用聚合順序和位置信息判斷等合適的方法識(shí)別出統(tǒng)一文檔中需要的信息聚合，然后將其內(nèi)容的部分或全部提取出來；對(duì)于提取不同的信息可以有不同的實(shí)現(xiàn)，對(duì)于提取相同的信息也可以有不同的實(shí)現(xiàn)。
【文檔編號(hào)】G06F17/30GK103744983SQ201410017927
【公開日】2014年4月23日申請(qǐng)日期:2014年1月15日優(yōu)先權(quán)日:2014年1月15日
【發(fā)明者】馮沖, 李侃, 黃河燕, 史樹敏, 陳嘉駿申請(qǐng)人:北京理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮沖;李侃;黃河燕;史樹敏;陳嘉駿
技術(shù)所有人：北京理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

辦公電子文檔管理方法相關(guān)技術(shù)

電子文檔相關(guān)技術(shù)

電子文檔安全管理系統(tǒng)相關(guān)技術(shù)

電子文檔管理軟件相關(guān)技術(shù)

電子文檔管理制度相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種電子文檔的元信息提取方法