專利名稱:用于提取文檔結(jié)構(gòu)的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)字出版領(lǐng)域,具體而言,涉及用于提取文檔結(jié)構(gòu)的方法和裝置。
背景技術(shù):
在傳統(tǒng)出版領(lǐng)域,書籍、報(bào)刊的文檔格式只是為了滿足傳統(tǒng)印刷的需求,對(duì)于內(nèi)容的描述局限于文字、圖形、圖像的輪廓、顔色、位置等視覺要素,沒有構(gòu)建文檔的邏輯內(nèi)容和內(nèi)在關(guān)系。在數(shù)字出版領(lǐng)域,對(duì)文檔的邏輯內(nèi)容、關(guān)聯(lián)關(guān)系、內(nèi)容的顆粒度更為關(guān)注,對(duì)文檔進(jìn)行結(jié)構(gòu)化加工是進(jìn)行數(shù)字內(nèi)容再利用的前提條件。目前,對(duì)文檔內(nèi)容結(jié)構(gòu)化加工的方法主要采用手動(dòng)加工,加工人員根據(jù)預(yù)先定義的規(guī)則,肉眼識(shí)別文檔中符合規(guī)則的文檔內(nèi)容,手工填寫到自定義的表單中。這種操作方式效率較低,工作量大,而且容易出錯(cuò)。
還有ー種解決方案是采用計(jì)算機(jī)執(zhí)行預(yù)設(shè)的匹配規(guī)則識(shí)別文檔結(jié)構(gòu)。發(fā)明人發(fā)現(xiàn),由于現(xiàn)存的常用文檔格式較多,目前的解決方案是對(duì)多不同的文檔格式采用不同的加エ方法和系統(tǒng),操作比較繁瑣。
發(fā)明內(nèi)容
本發(fā)明g在提供一種用于提取文檔結(jié)構(gòu)的方法和裝置,以解決相關(guān)技術(shù)操作比較繁瑣的問題。在本發(fā)明的實(shí)施例中,提供了一種用于提取文檔結(jié)構(gòu)的方法,包括獲取文檔的對(duì)象;將對(duì)象轉(zhuǎn)換為預(yù)定義的標(biāo)準(zhǔn)格式;識(shí)別和標(biāo)注標(biāo)準(zhǔn)格式的對(duì)象內(nèi)的各個(gè)項(xiàng);提取所匹配的各個(gè)項(xiàng)的內(nèi)容,以組織成關(guān)于文檔的結(jié)構(gòu)化數(shù)據(jù)。在本發(fā)明的實(shí)施例中,提供了一種用于提取文檔結(jié)構(gòu)的裝置,包括獲取模塊,用于獲取文檔的對(duì)象;轉(zhuǎn)換模塊,用于將對(duì)象轉(zhuǎn)換為預(yù)定義的標(biāo)準(zhǔn)格式;標(biāo)引模塊,用于識(shí)別和標(biāo)注標(biāo)準(zhǔn)格式的對(duì)象內(nèi)的各個(gè)項(xiàng);提取模塊,用于提取所匹配的各個(gè)項(xiàng)的內(nèi)容,以組織成關(guān)于文檔的結(jié)構(gòu)化數(shù)據(jù)。本發(fā)明上述實(shí)施例的用于提取文檔結(jié)構(gòu)的方法和裝置,因?yàn)轭A(yù)先統(tǒng)ー了對(duì)象的格式,所以可以執(zhí)行數(shù)據(jù)項(xiàng)的自動(dòng)識(shí)別,解決了相關(guān)技術(shù)操作比較繁瑣的問題,達(dá)到了提高提取文檔結(jié)構(gòu)的效率的效果。
此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)ー步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中圖I示出了根據(jù)本發(fā)明實(shí)施例的用于提取文檔結(jié)構(gòu)的方法的流程圖;圖2示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的用于提取文檔結(jié)構(gòu)的方法的流程圖;圖3示出了根據(jù)本發(fā)明實(shí)施例的用于提取文檔結(jié)構(gòu)的裝置的示意圖。
具體實(shí)施例方式下面將參考附圖并結(jié)合實(shí)施例,來詳細(xì)說明本發(fā)明。圖I示出了根據(jù)本發(fā)明實(shí)施例的用于提取文檔結(jié)構(gòu)的方法的流程圖,包括步驟S10,獲取文檔的對(duì)象;步驟S20,將對(duì)象轉(zhuǎn)換為預(yù)定義的標(biāo)準(zhǔn)格式;步驟S30,識(shí)別和標(biāo)注標(biāo)準(zhǔn)格式的對(duì)象內(nèi)的各個(gè)項(xiàng);步驟S40,提取所匹配的各個(gè)項(xiàng)的內(nèi)容,以組織成關(guān)于文檔的結(jié)構(gòu)化數(shù)據(jù)。常用的電子文檔有HF、WORD等各種格式,現(xiàn)有的文檔結(jié)構(gòu)識(shí)別技術(shù)不能同時(shí)識(shí) 別不同格式的文檔中的對(duì)象,因此只能對(duì)多不同的文檔格式采用不同的加工方法和系統(tǒng),操作比較繁瑣,工作量大,容易出錯(cuò)。而本實(shí)施例中,因?yàn)轭A(yù)先統(tǒng)ー了對(duì)象的格式,在定義統(tǒng)一的輸出格式的基礎(chǔ)上,將文檔的加工過程規(guī)范化,經(jīng)過多個(gè)環(huán)節(jié)的處理,達(dá)到使用同一種工具和系統(tǒng)即可對(duì)多種格式的文檔進(jìn)行結(jié)構(gòu)化,提高了加工速度,規(guī)范了輸出文檔格式,而且減少了人為出錯(cuò)。優(yōu)選地,步驟SlO包括獲取文檔內(nèi)部嵌入的對(duì)象和文檔外部鏈接的對(duì)象。現(xiàn)有的文檔格式比較復(fù)雜,不僅將對(duì)象嵌入在文檔中,還可以在文檔中僅僅包含對(duì)象的鏈接地址。本優(yōu)選實(shí)施例通過獲取文檔內(nèi)部嵌入的對(duì)象和文檔外部鏈接的對(duì)象,從而可以確保不遺漏對(duì)象。優(yōu)選地,步驟S20包括使用預(yù)設(shè)的匹配規(guī)則匹配標(biāo)準(zhǔn)格式的對(duì)象,以識(shí)別符合匹配規(guī)則的各個(gè)項(xiàng);按照預(yù)設(shè)的標(biāo)引規(guī)則對(duì)各個(gè)項(xiàng)予以相應(yīng)地標(biāo)注。通過設(shè)置匹配規(guī)則和標(biāo)弓I規(guī)則,從而可以很容易地通過計(jì)算機(jī)編程來執(zhí)行這些規(guī)則,使得操作自動(dòng)化。優(yōu)選地,步驟S20還包括提供界面以接受對(duì)標(biāo)注的修改。因?yàn)槲臋n內(nèi)容的高度復(fù)雜,所以計(jì)算機(jī)自動(dòng)識(shí)別和標(biāo)注的內(nèi)容有可能不準(zhǔn)確,本優(yōu)選實(shí)施例通過提供人機(jī)交互的界面,可以人工地修正錯(cuò)誤,予以補(bǔ)充。優(yōu)選地,采用標(biāo)簽和/或內(nèi)容控件進(jìn)行標(biāo)注。這是比較常用的標(biāo)注方式,容易實(shí)現(xiàn)。優(yōu)選地,采用XML格式定義匹配規(guī)則和標(biāo)引規(guī)則。XML是標(biāo)準(zhǔn)的結(jié)構(gòu)化語言,用于定義匹配規(guī)則和標(biāo)引規(guī)則比較容易實(shí)現(xiàn)。優(yōu)選地,本方法還包括預(yù)先將文檔的版本轉(zhuǎn)換為設(shè)置的版本。目前,即使是同一格式的文檔,往往因?yàn)榘姹镜牟煌矔?huì)導(dǎo)致不能處理。例如WORD 2003和WORD 2007就有較大的區(qū)別。通常各種軟件的版本是向上兼容的,即高版本可以兼容低版本。因此可以預(yù)先將所有不同格式的文檔的版本都統(tǒng)ー轉(zhuǎn)換為該格式的最高版本。優(yōu)選地,對(duì)象包括以下至少之ー字符、圖形、圖像、公式和表格。這些都是常用的對(duì)象,本優(yōu)選實(shí)施例通過處理這些對(duì)象,可以應(yīng)用于絕大多數(shù)場(chǎng)景。圖2示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的用于提取文檔結(jié)構(gòu)的方法的流程圖,包括以下步驟(I)對(duì)待加工的文檔進(jìn)行預(yù)處理,包括收集文檔中的字符、圖形、圖像、公式、表格等文檔內(nèi)部嵌入的對(duì)象數(shù)據(jù)和文檔外部鏈接的對(duì)象數(shù)據(jù),分類編號(hào)存儲(chǔ);還可以對(duì)文檔的版本進(jìn)行歸一化處理,將同一類型文檔的不同版本處理為同一版本,例如,常用的辦公軟件,由于軟件版本不同,其生成的文檔的版本也不相同,為了簡(jiǎn)化處理,將低版本的文檔轉(zhuǎn)換為高版本的文檔。(2)對(duì)文檔預(yù)處理后的數(shù)據(jù)進(jìn)行規(guī)范化處理,包括將不同數(shù)據(jù)標(biāo)準(zhǔn)的文字、圖形、公式、表格等對(duì)象數(shù)據(jù)轉(zhuǎn)換為預(yù)定義的標(biāo)準(zhǔn)格式的數(shù)據(jù);該標(biāo)準(zhǔn)格式、自動(dòng)標(biāo)引裝置中的標(biāo)弓I規(guī)則以及導(dǎo)出裝置的結(jié)果文件的格式采用XML格式定義。(3)對(duì)預(yù)處理后的文檔數(shù)據(jù)進(jìn)行自動(dòng)識(shí)別,包括識(shí)別文檔的特有元素,如目錄、版心、頁眉、頁腳、標(biāo)題、腳注、尾注、頁碼等內(nèi)容。(4)對(duì)自動(dòng)識(shí)別后的文檔數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)引,即按照預(yù)先制定的標(biāo)引規(guī)則,對(duì)文檔中符合規(guī)則的數(shù)據(jù)進(jìn)行標(biāo)記;對(duì)文檔進(jìn)行自動(dòng)標(biāo)引的裝置可采用標(biāo)簽和內(nèi)容控件進(jìn)行標(biāo)記。該標(biāo)引規(guī)則可采用XML格式定義。 (5)對(duì)自動(dòng)識(shí)別處理后的數(shù)據(jù)進(jìn)行交互標(biāo)引加工,即提供交互界面,修改自動(dòng)標(biāo)引中因規(guī)則的ニ義性造成的不符合要求的標(biāo)引結(jié)果,以及給文檔增加文檔自身內(nèi)容以外的附
屬數(shù)據(jù)。(6)對(duì)數(shù)據(jù)進(jìn)行抽取導(dǎo)出,即抽取標(biāo)引的數(shù)據(jù)和附屬數(shù)據(jù),導(dǎo)出生成預(yù)定義的結(jié)果文件。該結(jié)果文件的格式可采用XML格式定義。本優(yōu)選實(shí)施例在定義統(tǒng)一的輸出格式的基礎(chǔ)上,將文檔的加工過程規(guī)范化,經(jīng)過多個(gè)環(huán)節(jié)的處理(包括預(yù)處理、規(guī)范化、自動(dòng)識(shí)別、自動(dòng)標(biāo)引、交互標(biāo)引、抽取導(dǎo)出等環(huán)節(jié)),達(dá)到使用同一種工具和系統(tǒng)即可對(duì)多種格式的文檔進(jìn)行結(jié)構(gòu)化,提高了加工速度,規(guī)范了輸出文檔格式。圖3示出了根據(jù)本發(fā)明實(shí)施例的用于提取文檔結(jié)構(gòu)的裝置的示意圖,包括獲取模塊10,用于獲取文檔的對(duì)象;轉(zhuǎn)換模塊20,用于將對(duì)象轉(zhuǎn)換為預(yù)定義的標(biāo)準(zhǔn)格式;標(biāo)引模塊30,用于識(shí)別和標(biāo)注標(biāo)準(zhǔn)格式的對(duì)象內(nèi)的各個(gè)項(xiàng);提取模塊40,用于提取所匹配的各個(gè)項(xiàng)的內(nèi)容,以組織成關(guān)于文檔的結(jié)構(gòu)化數(shù)據(jù)。本裝置可對(duì)多種格式的文檔進(jìn)行結(jié)構(gòu)化,提高了加工速度,規(guī)范了輸出文檔格式,而且減少了人為出錯(cuò)。優(yōu)選地,獲取模塊10獲取文檔內(nèi)部嵌入的對(duì)象和文檔外部鏈接的對(duì)象。本優(yōu)選實(shí)施例可以確保不遺漏對(duì)象。從以上的描述中可以看出,本發(fā)明上述的實(shí)施例達(dá)到使用同一種工具和系統(tǒng)即可對(duì)多種格式的文檔進(jìn)行結(jié)構(gòu)化,提高了加工速度,規(guī)范了輸出文檔格式,減少了人為出錯(cuò)。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種用于提取文檔結(jié)構(gòu)的方法,其特征在于,包括 獲取文檔的對(duì)象; 將所述對(duì)象轉(zhuǎn)換為預(yù)定義的標(biāo)準(zhǔn)格式; 識(shí)別和標(biāo)注所述標(biāo)準(zhǔn)格式的對(duì)象內(nèi)的各個(gè)項(xiàng); 提取所匹配的各個(gè)項(xiàng)的內(nèi)容,以組織成關(guān)于所述文檔的結(jié)構(gòu)化數(shù)據(jù)。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,獲取文檔的對(duì)象包括 獲取所述文檔內(nèi)部嵌入的對(duì)象和所述文檔外部鏈接的對(duì)象。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,識(shí)別和標(biāo)注所述標(biāo)準(zhǔn)格式的對(duì)象內(nèi)的各個(gè)項(xiàng)包括 使用預(yù)設(shè)的匹配規(guī)則匹配所述標(biāo)準(zhǔn)格式的對(duì)象,以識(shí)別符合所述匹配規(guī)則的所述各個(gè)項(xiàng); 按照預(yù)設(shè)的標(biāo)引規(guī)則對(duì)所述各個(gè)項(xiàng)予以相應(yīng)地標(biāo)注。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,識(shí)別和標(biāo)注所述標(biāo)準(zhǔn)格式的對(duì)象內(nèi)的各個(gè)項(xiàng)還包括 提供界面以接受對(duì)所述標(biāo)注的修改。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,采用標(biāo)簽和/或內(nèi)容控件進(jìn)行標(biāo)注。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,采用XML格式定義所述匹配規(guī)則和所述標(biāo)引規(guī)則。
7.根據(jù)權(quán)利要求I所述的方法,其特征在于,還包括 預(yù)先將所述文檔的版本轉(zhuǎn)換為設(shè)置的版本。
8.根據(jù)權(quán)利要求I至7任一項(xiàng)所述的方法,其特征在于,所述對(duì)象包括以下至少之一字符、圖形、圖像、公式和表格。
9.一種用于提取文檔結(jié)構(gòu)的裝置,其特征在于,包括 獲取模塊,用于獲取文檔的對(duì)象; 轉(zhuǎn)換模塊,用于將所述對(duì)象轉(zhuǎn)換為預(yù)定義的標(biāo)準(zhǔn)格式; 標(biāo)引模塊,用于識(shí)別和標(biāo)注所述標(biāo)準(zhǔn)格式的對(duì)象內(nèi)的各個(gè)項(xiàng); 提取模塊,用于提取所匹配的各個(gè)項(xiàng)的內(nèi)容,以組織成關(guān)于所述文檔的結(jié)構(gòu)化數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述獲取模塊獲取所述文檔內(nèi)部嵌入的對(duì)象和所述文檔外部鏈接的對(duì)象。
全文摘要
本發(fā)明提供了一種用于提取文檔結(jié)構(gòu)的方法,包括獲取文檔的對(duì)象;將對(duì)象轉(zhuǎn)換為預(yù)定義的標(biāo)準(zhǔn)格式;識(shí)別和標(biāo)注標(biāo)準(zhǔn)格式的對(duì)象內(nèi)的各個(gè)項(xiàng);提取所匹配的各個(gè)項(xiàng)的內(nèi)容,以組織成關(guān)于文檔的結(jié)構(gòu)化數(shù)據(jù)。本發(fā)明還提供了一種用于提取文檔結(jié)構(gòu)的裝置,包括獲取模塊,用于獲取文檔的對(duì)象;轉(zhuǎn)換模塊,用于將對(duì)象轉(zhuǎn)換為預(yù)定義的標(biāo)準(zhǔn)格式;標(biāo)引模塊,用于識(shí)別和標(biāo)注標(biāo)準(zhǔn)格式的對(duì)象內(nèi)的各個(gè)項(xiàng);提取模塊,用于提取所匹配的各個(gè)項(xiàng)的內(nèi)容,以組織成關(guān)于文檔的結(jié)構(gòu)化數(shù)據(jù)。本發(fā)明達(dá)到了提高提取文檔結(jié)構(gòu)的效率的效果。
文檔編號(hào)G06F17/27GK102855243SQ20111017997
公開日2013年1月2日 申請(qǐng)日期2011年6月28日 優(yōu)先權(quán)日2011年6月28日
發(fā)明者曲剛 申請(qǐng)人:北大方正集團(tuán)有限公司, 北京北大方正電子有限公司