專利名稱:一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息識別與提取的技術(shù)領(lǐng)域,具體涉及一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法及系統(tǒng)。
背景技術(shù):
報(bào)刊的文章加工成數(shù)據(jù)庫形式時,需要一些基本的元數(shù)據(jù)信息,以便進(jìn)行檢索和進(jìn)行信息復(fù)用。
報(bào)刊排版完成后最終的定稿版面文件中,文章的元數(shù)據(jù)(作者、來源、體裁等信息)已經(jīng)丟失,或只是以文字的形式存在,不能識別是哪種類型的元數(shù)據(jù)。當(dāng)對版面文件進(jìn)行標(biāo)引和再加工時,需要重新獲取這些信息。
這些元數(shù)據(jù)信息,往往在文章正文中存在,放置在整篇文章的特定位置,或通過特殊標(biāo)記標(biāo)出。目前,不同報(bào)社或是不同版面的文章,排版格式多樣化。文章的作者、標(biāo)題等元數(shù)據(jù)信息在文章本身中的位置及前后標(biāo)志,與排版員的操作習(xí)慣及版面樣式有很大的關(guān)聯(lián)性。但是,對于同一報(bào)社的同一排版員所排的文章來說,這些信息是有一定的規(guī)律的。
現(xiàn)有技術(shù)中,標(biāo)引員在標(biāo)引文章時,需要對文章的內(nèi)容進(jìn)行閱讀分析,根據(jù)內(nèi)容及語義等信息,從中提取自己所需的標(biāo)引項(xiàng)元數(shù)據(jù), 一般是重新錄入這些元數(shù)據(jù)信息,或從版面文件中手工復(fù)制粘貼已經(jīng)存在的文字信息。由于理解及體力等原因的限制,勢必會出現(xiàn)正確性及速度上的降低,因此處理效率低,且容易出錯。在對大量歷史報(bào)刊數(shù)據(jù)進(jìn)行加工時,需要的加工成本會更加高。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中所存在的缺陷,本發(fā)明的目的在于提供一種高效的、低成本的基于文字流的文章元數(shù)據(jù)信息自動抽取方法及系統(tǒng)。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案是 一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法,包括以下步驟
(1) 編寫配置文件及腳本文件,將不同刊物的配置文件及腳本文件放入該刊物的配置目錄下;
(2) 加載配置文件,系統(tǒng)讀取每個刊物的配置文件,根據(jù)配置文件中記錄的信息,獲得腳本文件的路徑及相關(guān)腳本函數(shù)信息;
(3) 加載腳本內(nèi)容到引擎系統(tǒng)將腳本文件中的腳本函數(shù)內(nèi)容讀取到腳本引擎中并加以解析;
(4) 通過界面進(jìn)行提取操作通過界面操作,將待抽取的文章內(nèi)容以文字流的形式傳給腳本文件中的正則表達(dá)式模板,進(jìn)行信息提??;
(5) 正則表達(dá)式匹配系統(tǒng)調(diào)用相關(guān)腳本函數(shù),接收傳入的文字流,根據(jù)事先設(shè)置的抽取級別或閾值,調(diào)用不同的正則表達(dá)式模板對文字流進(jìn)行篩選與匹配,獲取結(jié)果以文字流形式進(jìn)行保存;
(6) 返回匹配結(jié)果并給與提示腳本文件將匹配的結(jié)果元數(shù)據(jù)以文字流形式返回系統(tǒng),系統(tǒng)通過在界面上設(shè)置特殊標(biāo)志,給與用戶提示,方便用戶進(jìn)行人工驗(yàn)證。
進(jìn)一步,所述的配置文件是Xml格式的,所述的腳本文件是JavaScript腳本文件。
進(jìn)一步,步驟(1)中,每個刊物擁有一個Xml配置文件,該文件中的配置列表的每個配置項(xiàng)包含所用JS腳本文件的路徑,JS腳本函數(shù)的名稱,在系統(tǒng)中的操作描述信息。
對于不同的刊物配置不同的Js腳本文件,對于公用的功能,提取為通用的JS腳本文件。
根據(jù)元數(shù)據(jù)信息的特征規(guī)律,編寫匹配嚴(yán)格程度不同的正則表達(dá)式
1)對于特征標(biāo)記明顯,位置固定的元數(shù)據(jù)信息,編寫匹配嚴(yán)格程度高的
6正貝據(jù)達(dá)式;
2) 對于特征信息一般,但是出現(xiàn)頻率較高的元數(shù)據(jù)信息,編寫匹配嚴(yán)格程度中等的正則表達(dá)式;
3) 對于特征信息不明顯或是雜亂的元數(shù)據(jù)信息,編寫匹配嚴(yán)格程度低的正則表達(dá)式。
進(jìn)一步,步驟(1)中,根據(jù)匹配嚴(yán)格程度的不同,將正則表達(dá)式進(jìn)行分組,匹配時會自動根據(jù)輸入的閾值按相應(yīng)的匹配嚴(yán)格程度進(jìn)行篩選。
歩驟(1)中,對于格式特征相對固定的元數(shù)據(jù),編寫算法相對固定的模板,如果想擴(kuò)大元數(shù)據(jù)提取的范圍,則對模板進(jìn)行簡單的關(guān)鍵詞擴(kuò)充。
歩驟(1)中,根據(jù)刊物排版的規(guī)律自行地對匹配模板添加相應(yīng)的關(guān)鍵字,或是設(shè)置相應(yīng)的提取等級。
進(jìn)一歩,步驟(4)中,系統(tǒng)根據(jù)刊物配置初始化提取界面菜單,用戶通過界面進(jìn)行單獨(dú)提取或是批量提取。
歩驟(4)中,系統(tǒng)根據(jù)刊物的配置信息設(shè)置不同的提取級別界面。
進(jìn)一歩,歩驟(5)中,利用VC通過腳本接口調(diào)用JavaScript正則表達(dá)式模板對文字流進(jìn)行篩選和匹配,返回匹配結(jié)果并給與用戶提示,提取后的結(jié)果在界面上會以特殊顏色進(jìn)行標(biāo)記,以方便用戶進(jìn)行人工驗(yàn)證。
一種基于文字流的文章元數(shù)據(jù)信息自動抽取系統(tǒng),包括以下裝置
(1) 配置文件及腳本文件編寫裝置用于編寫配置文件及腳本文件并將不同刊物的配置文件及腳本文件放入該刊物的配置目錄下;
(2) 配置文件加載裝置用于加載配置文件,系統(tǒng)讀取每個刊物的配置文件,根據(jù)配置文件中記錄的信息,獲得腳本文件的路徑及相關(guān)腳本函數(shù)信息;
(3) 加載腳本內(nèi)容到引擎的裝置用于將腳本文件中的腳本函數(shù)內(nèi)容讀取到腳本引擎中并加以解析;(4) 提取裝置用于通過界面操作,將待抽取的文章內(nèi)容以文字流的形式傳給腳本文件中的正則表達(dá)式模板,進(jìn)行信息提??;
(5) 正則表達(dá)式匹配裝置用于調(diào)用相關(guān)腳本函數(shù),接收傳入的文字流,根據(jù)事先設(shè)置的抽取級別或閾值,調(diào)用不同的正則表達(dá)式模板對文字流進(jìn)行篩選與匹配,獲取結(jié)果以文字流形式進(jìn)行保存;
(6) 匹配結(jié)果返回裝置用于將腳本文件匹配的結(jié)果元數(shù)據(jù)以文字流形
式返回系統(tǒng),系統(tǒng)通過在界面上設(shè)置特殊標(biāo)志,給與用戶提示,方便用戶進(jìn)行人工驗(yàn)證。
本發(fā)明的效果在于,采用本發(fā)明所述的方法及系統(tǒng),具有以下一些優(yōu)勢:
1. 腳本對正則表達(dá)式支持良好,且便于修改,可以被靈活調(diào)用和修改。
2. 根據(jù)信息規(guī)律進(jìn)行提取,減少人工操作量,加快標(biāo)引速度。
3. 可以設(shè)置提取等級,匹配模板根據(jù)閾值進(jìn)行信息篩選過濾。
4. 不同刊物可以根據(jù)其自身的排版規(guī)律進(jìn)行單獨(dú)的提取設(shè)置。匹配模
板修改簡單,只需根據(jù)報(bào)社自身的規(guī)律加入相應(yīng)的關(guān)鍵詞即可。
5. 多種刊物可以共享通用的提取設(shè)置,最大程度上實(shí)現(xiàn)算法的公用。
6. 可以全文匹配或是文章首尾匹配。
本發(fā)明之所以具有上述顯著效果,原因在于本發(fā)明根據(jù)所提取文章中
某些信息出現(xiàn)的特征規(guī)律,編寫一定的匹配模板,利用程序的方式對文章的文字流進(jìn)行元數(shù)據(jù)信息的篩選與過濾,可以得到與人工方式操作基本一致的結(jié)果。而且匹配模板還可以自定義關(guān)鍵字,這樣提取出的結(jié)果也會避免因標(biāo)引人員理解不同而造成的結(jié)果上的差異。本發(fā)明也正是利用正則表達(dá)式技術(shù),針對刊物的排版規(guī)律進(jìn)行元數(shù)據(jù)信息的匹配和自動提取,只需簡單的人工驗(yàn)證準(zhǔn)確性,加快了信息提取速度。
圖1是本發(fā)明所述方法的流程圖。
具體實(shí)施方式
下面結(jié)合說明書附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一步的描述。一種基于文字流的文章元數(shù)據(jù)信息自動抽取系統(tǒng),包括以下裝置
(1) 配置文件及腳本文件編寫裝置用于編寫配置文件及腳本文件并將不同刊物的配置文件及腳本文件放入該刊物的配置目錄下;
(2) 配置文件加載裝置用于加載配置文件,系統(tǒng)讀取每個刊物的配置文件,根據(jù)配置文件中記錄的信息,獲得腳本文件的路徑及相關(guān)腳本函數(shù)信息;
(3) 加載腳本內(nèi)容到引擎的裝置用于將腳本文件中的腳本函數(shù)內(nèi)容讀取到腳本引擎中并加以解析;
(4) 提取裝置用于通過界面操作,將待抽取的文章內(nèi)容以文字流的形式傳給腳本文件中的正則表達(dá)式模板,進(jìn)行信息提??;
(5) 正則表達(dá)式匹配裝置用于調(diào)用相關(guān)腳本函數(shù),接收傳入的文字流,根據(jù)事先設(shè)置的抽取級別或閾值,調(diào)用不同的正則表達(dá)式模板對文字流進(jìn)行篩選與匹配,獲取結(jié)果以文字流形式進(jìn)行保存;
(6) 匹配結(jié)果返回裝置用于將腳本文件匹配的結(jié)果元數(shù)據(jù)以文字流形式返回系統(tǒng),系統(tǒng)通過在界面上設(shè)置特殊標(biāo)志,給與用戶提示,方便用戶進(jìn)行人工驗(yàn)證。
如圖1所示, 一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法,包括以下歩驟
1.編寫Xml配置文件及Js (JavaScript)腳本文件,將不同刊物的Xml配置文件及Js腳本文件放入該刊物的配置目錄下,Sll。
配置文件可以由多種編程語言來編寫,本實(shí)施列中,采用Xml語言編寫配置文件,每個刊物擁有一個Xml配置文件,該文件中的配置列表的每個配置項(xiàng)包含所用JS腳本文件的路徑,JS腳本函數(shù)的名稱,在系統(tǒng)中的操作描述等信息。對于不同層次的信息(刊物信息,刊期信息,版面信息,稿件信息),可以分別配置相應(yīng)的配置項(xiàng)。
對于不同的刊物,我們配置不同的Js腳本文件,對于公用的一些功能,可以提取為通用的JS腳本文件。本實(shí)施例中,根據(jù)文章元數(shù)據(jù)在文字流中的特征信息,采用JavaScript語言編寫JS腳本文件中的JS腳本函數(shù)(也可以采用其他的語言來編寫),腳本函數(shù)中包含不同格式的正則表達(dá)式模板,每個正則表達(dá)式模板由一系列相關(guān)正則表達(dá)式組合而成,JavaScript語言編寫簡單,對正則表達(dá)式支持良好,可以方便的與VC進(jìn)行調(diào)用。
具體來說,本實(shí)施例根據(jù)元數(shù)據(jù)信息的特征規(guī)律,編寫了以下匹配嚴(yán)格程度不同的正則表達(dá)式
1) 對于特征標(biāo)記明顯,位置固定的元數(shù)據(jù)信息,可以編寫較為嚴(yán)格的匹配,比如以"記者,通訊員,攝影"等詞語為起始或結(jié)束標(biāo)志的,后續(xù)或前綴的詞語有很大可能性是元數(shù)據(jù)"記者"。
2) 對于特征信息一般,但是出現(xiàn)頻率較高的元數(shù)據(jù)信息,可以適當(dāng)?shù)慕档推ヅ鋰?yán)格程度。比如以簡稱"/文,/攝"等詞語為結(jié)束標(biāo)志的,后續(xù)詞語一般為所需元數(shù)據(jù),雖然特征不如第一類明顯,但是報(bào)社排版時出現(xiàn)的頻率比較高,可以適當(dāng)降低匹配的嚴(yán)格程度。
3) 對于特征信息不太明顯或是比較雜亂的元數(shù)據(jù)信息,可以根據(jù)具體情況設(shè)置較低的匹配的嚴(yán)格程度。比如以特殊字符"參,固"為標(biāo)志,特征不足以判斷后續(xù)詞語是否為所需元數(shù)據(jù),但是有一定的可能性,這類信息可以根據(jù)報(bào)社排版的具體情況適當(dāng)安排嚴(yán)格程度。
另外,本實(shí)施例中,根據(jù)匹配嚴(yán)格程度的不同,將正則表達(dá)式進(jìn)行分組,匹配時會自動根據(jù)輸入的閾值按相應(yīng)的匹配嚴(yán)格程度進(jìn)行篩選。嚴(yán)格程度高,則提取結(jié)果準(zhǔn)確,但是會導(dǎo)致部分信息完全被過濾,從而提取結(jié)果為空。如果降低嚴(yán)格程度,則因過濾而損失的信息會減少,但是結(jié)果正確性也會相應(yīng)的降低。
對于格式特征相對固定的元數(shù)據(jù),可以編寫算法相對固定的模板,只需對模板進(jìn)行簡單的關(guān)鍵詞擴(kuò)充,即可擴(kuò)大元數(shù)據(jù)提取的范圍。
2.加載Xml配置文件,系統(tǒng)讀取每個刊物的Xml配置文件,根據(jù)Xml配置文件中記錄的信息,獲得Js腳本文件的路徑及相關(guān)Js腳本函數(shù)信息,S12。
103. 加載腳本內(nèi)容到引擎系統(tǒng)將Js腳本文件中的腳本函數(shù)內(nèi)容讀取到 腳本引擎中并加以解析,S13。
4. 通過界面進(jìn)行提取操作系統(tǒng)根據(jù)刊物的配置信息設(shè)置不同的提取級 別界面,通過界面操作,將待抽取的文章內(nèi)容以文字流的形式傳給腳本文件 中的正則表達(dá)式模板,進(jìn)行信息提取,S14。
系統(tǒng)根據(jù)刊物配置初始化提取界面菜單,用戶可以通過界面進(jìn)行單獨(dú)提 取或是批量提取。
使用時可以根據(jù)刊物排版的規(guī)律自行的對匹配模板添加相應(yīng)的關(guān)鍵字, 或是設(shè)置相應(yīng)的提取等級,即可實(shí)現(xiàn)元數(shù)據(jù)的自動抽取。
5. 正則表達(dá)式匹配系統(tǒng)調(diào)用相關(guān)腳本函數(shù),接收傳入的文字流,根據(jù) 事先設(shè)置的抽取級別或閾值,調(diào)用不同的正則表達(dá)式模板對文字流進(jìn)行篩選
與匹配,獲取結(jié)果以文字流形式進(jìn)行保存,S15。
本實(shí)施例中,利用VC通過腳本接口調(diào)用JavaScript正則表達(dá)式模板對文 字流進(jìn)行篩選和匹配,返回匹配結(jié)果并給與用戶提示。
6. 返回匹配結(jié)果并給與提示腳本文件將匹配的結(jié)果元數(shù)據(jù)以文字流形 式返回系統(tǒng),系統(tǒng)通過在界面上設(shè)置特殊標(biāo)志,給與用戶提示,方便用戶進(jìn) 行人工驗(yàn)證,S16。
由于算法存在一定的誤判性,對于抽取的結(jié)果,我們通過特殊標(biāo)記展現(xiàn)給 用戶,用戶可以方便的進(jìn)行人工校驗(yàn)。
本發(fā)明所述的方法及系統(tǒng)并不限于具體實(shí)施方式
中所述的實(shí)施例,本領(lǐng) 域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實(shí)施方式,同樣屬于本發(fā)明的 技術(shù)創(chuàng)新范圍。
權(quán)利要求
1.一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法,包括以下步驟(1)編寫配置文件及腳本文件,將不同刊物的配置文件及腳本文件放入該刊物的配置目錄下;(2)加載配置文件,系統(tǒng)讀取每個刊物的配置文件,根據(jù)配置文件中記錄的信息,獲得腳本文件的路徑及相關(guān)腳本函數(shù)信息;(3)加載腳本內(nèi)容到引擎系統(tǒng)將腳本文件中的腳本函數(shù)內(nèi)容讀取到腳本引擎中并加以解析;(4)通過界面進(jìn)行提取操作通過界面操作,將待抽取的文章內(nèi)容以文字流的形式傳給腳本文件中的正則表達(dá)式模板,進(jìn)行信息提??;(5)正則表達(dá)式匹配系統(tǒng)調(diào)用相關(guān)腳本函數(shù),接收傳入的文字流,根據(jù)事先設(shè)置的抽取級別或閾值,調(diào)用不同的正則表達(dá)式模板對文字流進(jìn)行篩選與匹配,獲取結(jié)果以文字流形式進(jìn)行保存;(6)返回匹配結(jié)果并給與提示腳本文件將匹配的結(jié)果元數(shù)據(jù)以文字流形式返回系統(tǒng),系統(tǒng)通過在界面上設(shè)置特殊標(biāo)志,給與用戶提示,方便用戶進(jìn)行人工驗(yàn)證。
2. 如權(quán)利要求1所述的一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法,其特征是所述的配置文件是Xml格式的,所述的腳本文件是JavaScript腳本文件。
3. 如權(quán)利要求2所述的一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法,其特征是步驟(1)中,每個刊物擁有一個Xml配置文件,該文件中的配置列表的每個配置項(xiàng)包含所用JS腳本文件的路徑,JS腳本函數(shù)的名稱,在系統(tǒng)中的操作描述信息。
4. 如權(quán)利要求3所述的一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法,其特征是歩驟(1)中,對于不同的刊物配置不同的Js腳本文件,對于公用的功能,提取為通用的JS腳本文件。
5. 如權(quán)利要求4所述的一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法,其特征是步驟(1)中,根據(jù)元數(shù)據(jù)信息的特征規(guī)律,編寫匹配嚴(yán)格程度不同的正則表達(dá)式1) 對于特征標(biāo)記明顯,位置固定的元數(shù)據(jù)信息,編寫匹配嚴(yán)格程度高的正則表達(dá)式;2) 對于特征信息一般,但是出現(xiàn)頻率較高的元數(shù)據(jù)信息,編寫匹配嚴(yán)格程度中等的正則表達(dá)式;3) 對于特征信息不明顯或是雜亂的元數(shù)據(jù)信息,編寫匹配嚴(yán)格程度低的正則表達(dá)式。
6. 如權(quán)利要求5所述的一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法,其特征是歩驟(1)中,根據(jù)匹配嚴(yán)格程度的不同,將正則表達(dá)式進(jìn)行分組,匹配時會自動根據(jù)輸入的閾值按相應(yīng)的匹配嚴(yán)格程度進(jìn)行篩選。
7. 如權(quán)利要求6所述的一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法,其特征是步驟(1)中,對于格式特征相對固定的元數(shù)據(jù),編寫算法相對固定的模板,如果想擴(kuò)大元數(shù)據(jù)提取的范圍,則對模板進(jìn)行簡單的關(guān)鍵詞擴(kuò)充。
8. 如權(quán)利要求6所述的一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法,其特征是步驟(1)中,根據(jù)刊物排版的規(guī)律自行地對匹配模板添加相應(yīng)的關(guān)鍵字,或是設(shè)置相應(yīng)的提取等級。
9. 如權(quán)利要求1至8之一所述的一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法,其特征是歩驟(4)中,系統(tǒng)根據(jù)刊物配置初始化提取界面菜單,用戶通過界面進(jìn)行單獨(dú)提取或是批量提取。
10. 如權(quán)利要求9所述的一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法,其特征是步驟(4)中,系統(tǒng)根據(jù)刊物的配置信息設(shè)置不同的提取級別界面。
11. 如權(quán)利要求1至8之一所述的一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法,其特征是歩驟(5)中,利用VC通過腳本接口調(diào)用JavaScript正則表達(dá)式模板對文字流進(jìn)行篩選和匹配,返回匹配結(jié)果并給與用戶提示,提取后的結(jié)果在界面上會以特殊顏色進(jìn)行標(biāo)記,以方便用戶進(jìn)行人工驗(yàn)證。
12. —種基于文字流的文章元數(shù)據(jù)信息自動抽取系統(tǒng),包括以下裝置(1) 配置文件及腳本文件編寫裝置用于編寫配置文件及腳本文件并將不同刊物的配置文件及腳本文件放入該刊物的配置目錄下;(2) 配置文件加載裝置用于加載配置文件,系統(tǒng)讀取每個刊物的配置文件,根據(jù)配置文件中記錄的信息,獲得腳本文件的路徑及相關(guān)腳本函數(shù)信息;(3) 加載腳本內(nèi)容到引擎的裝置用于將腳本文件中的腳本函數(shù)內(nèi)容讀取到腳本引擎中并加以解析;(4) 提取裝置用于通過界面操作,將待抽取的文章內(nèi)容以文字流的形式傳給腳本文件中的正則表達(dá)式模板,進(jìn)行信息提?。?5) 正則表達(dá)式匹配裝置用于調(diào)用相關(guān)腳本函數(shù),接收傳入的文字流,根據(jù)事先設(shè)置的抽取級別或閾值,調(diào)用不同的正則表達(dá)式模板對文字流進(jìn)行篩選與匹配,獲取結(jié)果以文字流形式進(jìn)行保存;(6) 匹配結(jié)果返回裝置用于將腳本文件匹配的結(jié)果元數(shù)據(jù)以文字流形式返回系統(tǒng),系統(tǒng)通過在界面上設(shè)置特殊標(biāo)志,給與用戶提示,方便用戶進(jìn)行人工驗(yàn)證。
13.如權(quán)利要求12所述的一種基于文字流的文章元數(shù)據(jù)信息自動抽取系統(tǒng),其特征在于所述的配置文件是Xml格式的,所述的腳本文件是JavaScript腳本文件。
全文摘要
本發(fā)明涉及一種基于文字流的文章元數(shù)據(jù)信息自動抽取方法及系統(tǒng),屬于信息識別與提取的技術(shù)領(lǐng)域?,F(xiàn)有技術(shù)中,一般是重新錄入這些元數(shù)據(jù)信息,或從版面文件中手工復(fù)制粘貼已經(jīng)存在的文字信息,處理效率低,且容易出錯。本發(fā)明所述的方法及系統(tǒng)根據(jù)元數(shù)據(jù)在文字流中的特征信息,采用正則表達(dá)式模板匹配的方式抽取文章元數(shù)據(jù)。采用本發(fā)明所述的方法及系統(tǒng),針對刊物的排版規(guī)律進(jìn)行元數(shù)據(jù)信息的匹配和自動提取,只需簡單的人工驗(yàn)證準(zhǔn)確性,加快了信息提取速度。
文檔編號G06F17/30GK101673256SQ20081011983
公開日2010年3月17日 申請日期2008年9月11日 優(yōu)先權(quán)日2008年9月11日
發(fā)明者任大勇, 興 朱, 寧 董 申請人:北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司