一種文件信息的提取方法
【專利摘要】本發(fā)明提供一種文件信息的提取方法,包括:依次以段落方式獲取文件信息;查找所述段落內(nèi)是否包括至少一個(gè)標(biāo)識(shí)字符;如果查找到所述標(biāo)識(shí)字符,則將所述段落作為信息塊的起始段。通過對(duì)文件信息的所述至少一個(gè)標(biāo)識(shí)符進(jìn)行識(shí)別,能夠快速而準(zhǔn)確從文件信息中切割出需要的信息塊。因?yàn)椴恍枰獙?duì)文件內(nèi)容中的公式、表格和/或圖片等信息進(jìn)行識(shí)別,所以該方法還適用于包含公式等信息的文件,擴(kuò)大了該方法的適用范圍。本方法結(jié)合支持向量機(jī)和淺層句法分析,在進(jìn)行初步識(shí)別之后,還可對(duì)錯(cuò)誤結(jié)果進(jìn)行修正,提高了識(shí)別的正確率。
【專利說明】一種文件信息的提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息識(shí)別【技術(shù)領(lǐng)域】,具體地講,本發(fā)明涉及一種文件信息的提取方法?!颈尘凹夹g(shù)】
[0002]由于互聯(lián)網(wǎng)的普及發(fā)展,現(xiàn)在可以從互聯(lián)網(wǎng)上查找大量的信息,通過利用查找的信息自動(dòng)構(gòu)建一個(gè)滿足要求的信息庫,可使建立信息庫的工作更加自動(dòng)化。這種方法尤其適合試卷信息的處理。如何將大量的試卷信息進(jìn)行識(shí)別,并利用識(shí)別后的試題信息自動(dòng)完成試題庫的初始化工作,是試題庫系統(tǒng)建設(shè)中的一個(gè)關(guān)鍵步驟,也是計(jì)算機(jī)輔助教學(xué)中一個(gè)重要的研究課題。
[0003]傳統(tǒng)的試題庫構(gòu)建工作是通過人工手動(dòng)操作,將試題依次錄入到數(shù)據(jù)庫中。這種方法浪費(fèi)人力資源,效率低下,并且在錄入過程中容易出現(xiàn)差錯(cuò)。目前有關(guān)試題庫的自動(dòng)構(gòu)建主要有以下三種代表性的方法。
[0004]第一種,基于開源語法分析器(AnotherTool for Language Recognition,ANTLR)的試卷識(shí)別方法。該方法利用語言識(shí)別工具ANTLR構(gòu)造出詞法、語法分析器。通過將試卷內(nèi)容作為源代碼,利用詞法、語法、語義分析來對(duì)試卷文本進(jìn)行驗(yàn)證和識(shí)別,生成試卷的抽象語法樹,并在樹遍歷過程中報(bào)告出相應(yīng)的語法、語義錯(cuò)誤,生成試卷模型。雖然這種方法相對(duì)于傳統(tǒng)的試卷識(shí)別方法(人工手動(dòng)錄入)提高了工作效率,但是,這種方法由于將試卷中內(nèi)容看成源代碼,因此只能針對(duì)不含公式、表格和/或圖片的純文本形式的試卷。并且進(jìn)行試卷識(shí)別前,需要一定的人工預(yù)處理。
[0005]第二種,基于自動(dòng)機(jī)的試卷識(shí)別方法。該方法利用淺層句法分析的原理構(gòu)建自動(dòng)機(jī)的模型,即根據(jù)系統(tǒng)預(yù)先定義的識(shí)別規(guī)則,利用語塊識(shí)別程序,對(duì)大規(guī)模試卷文本進(jìn)行識(shí)另O,查找試卷文本結(jié)構(gòu)及各試卷中試題的屬性,依次將識(shí)別的各屬性值實(shí)時(shí)寫入數(shù)據(jù)庫,完成試題庫的初始化工作。但這種方法只能識(shí)別純文本信息的試卷,仍然無法識(shí)別包含圖片、公式等信息內(nèi)容的非純文本格式的試卷,并且還需要一定的人工預(yù)處理工作,例如需要將試卷格式設(shè)為系統(tǒng)規(guī)定的格式。并且由于自動(dòng)機(jī)是根據(jù)事先設(shè)定的規(guī)則進(jìn)行識(shí)別,因此在試卷識(shí)別時(shí),需要對(duì)試題的開始位置、結(jié)束位置或分值、答案的位置等進(jìn)行特殊標(biāo)識(shí)。
[0006]第三種,基于支持向量機(jī)的試卷識(shí)別方法。該方法將試題文本進(jìn)行向量化,求解試卷特征字符的向量劃分,然后依據(jù)此劃分對(duì)試卷文本塊進(jìn)行識(shí)別。該方法可以實(shí)現(xiàn)非純文本文件的識(shí)別,但識(shí)別結(jié)果存在一定的誤差,且目前只實(shí)現(xiàn)了選擇題題型的處理,不具有通用性。
[0007]如何實(shí)現(xiàn)對(duì)以試卷信息為代表的文件信息的自動(dòng)快速提取,是一個(gè)亟待解決的問題。
【發(fā)明內(nèi)容】
[0008]有鑒于此,本發(fā)明的主要目的是提供一種文件信息的提取方法,該方法包括:依次以段落方式獲取文件信息;查找所述段落內(nèi)是否包括至少一個(gè)標(biāo)識(shí)字符;如果查找到所述標(biāo)識(shí)字符,則將所述段落作為信息塊的起始段。
[0009]其中,所述提取方法還包括:在查找所述至少一個(gè)標(biāo)識(shí)字符之前,先獲取所述段落的特征值;其中,所述查找所述段落內(nèi)是否包括至少一個(gè)標(biāo)識(shí)字符包括根據(jù)預(yù)設(shè)的第一規(guī)則和所述特征值的位置,查找所述段落內(nèi)的至少一個(gè)標(biāo)識(shí)字符。
[0010]其中,所述根據(jù)預(yù)設(shè)的第一規(guī)則和所述特征值的位置,查找所述段落內(nèi)的至少一個(gè)標(biāo)識(shí)字符之后還包括:根據(jù)預(yù)設(shè)的第二規(guī)則,對(duì)所述至少一個(gè)標(biāo)識(shí)字符進(jìn)行判斷;如果所述至少一個(gè)標(biāo)識(shí)字符符合所述第二規(guī)則,則確定所述至少一個(gè)標(biāo)識(shí)字符為正確標(biāo)識(shí)字符,否則,確定所述至少一個(gè)標(biāo)識(shí)字符為錯(cuò)誤標(biāo)識(shí)字符。
[0011]其中,所述信息塊內(nèi)容包括公式、表格和/或圖片的內(nèi)容信息。
[0012]其中,所述文件信息存儲(chǔ)為Word文件。
[0013]其中,所述文件信息為試卷信息,所述至少一個(gè)標(biāo)識(shí)字符為所述試卷內(nèi)的題序號(hào)。
[0014]其中,所述方法還包括:在查找所述段落內(nèi)的至少一個(gè)題序號(hào)之前,先獲取所述段落的題型信息;其中,所述查找所述段落內(nèi)是否包括至少一個(gè)題序號(hào)包括根據(jù)預(yù)設(shè)的第一規(guī)則和所述題型信息的位置,查找所述段落內(nèi)的至少一個(gè)題序號(hào)。
[0015]其中,所述根據(jù)預(yù)設(shè)的第一規(guī)則和所述題型信息的位置,查找所述段落內(nèi)的至少一個(gè)題序號(hào)之后還包括:根據(jù)預(yù)設(shè)的第二規(guī)則,對(duì)所述至少一個(gè)題序號(hào)進(jìn)行判斷;如果所述至少一個(gè)題序號(hào)符合所述第二規(guī)則,則確定所述題序號(hào)為正確題序號(hào),否則,確定所述題序號(hào)為錯(cuò)誤的題序號(hào)。
[0016]其中,所述第一規(guī)則利用支持向量機(jī)原理。
[0017]其中,所述第二規(guī)則利用淺層句法分析原理。
[0018]通過對(duì)文件信息的所述至少一個(gè)標(biāo)識(shí)符進(jìn)行識(shí)別,能夠快速而準(zhǔn)確從文件信息中切割出需要的信息塊。因?yàn)椴恍枰獙?duì)文件內(nèi)容中的公式、表格和/或圖片等信息進(jìn)行識(shí)別,所以該方法還適用于包含公式等信息的文件,擴(kuò)大了該方法的適用范圍。本方法結(jié)合支持向量機(jī)和淺層句法分析,在進(jìn)行初步識(shí)別之后,還可對(duì)錯(cuò)誤結(jié)果進(jìn)行修正,提高了識(shí)別的正確率。
[0019]該方法針對(duì)大量的Word試卷信息,通過識(shí)別試卷信息中的題序號(hào),能夠快速準(zhǔn)確地從試卷信息中切割出需要試題的題干信息,提高了建立試題庫的速度。由于只需要對(duì)試卷信息中的題型信息以及題序號(hào)進(jìn)行識(shí)別,因此試題的信息可包括公式等非純文本信息,使試題庫的建立更加便捷高效。本方法結(jié)合支持向量機(jī)和淺層句法分析,在對(duì)題序號(hào)進(jìn)行初步識(shí)別之后,還可對(duì)錯(cuò)誤的識(shí)別結(jié)果進(jìn)行修正,提高了題序號(hào)識(shí)別的正確率。
【專利附圖】
【附圖說明】
[0020]圖1為本發(fā)明提供的一種文件信息的提取方法實(shí)施例的流程示意圖;
[0021 ] 圖2為圖1所示實(shí)施例的具體示例的流程圖;
[0022]圖3為本發(fā)明實(shí)施例中利用第一規(guī)則進(jìn)行識(shí)別的識(shí)別結(jié)果示意圖;
[0023]圖4為本發(fā)明實(shí)施例中利用第二規(guī)則構(gòu)建自動(dòng)機(jī)的識(shí)別狀態(tài)示意圖;
[0024]圖5為本發(fā)明實(shí)施例中利用第二規(guī)則進(jìn)行識(shí)別的識(shí)別結(jié)果示意圖。
【具體實(shí)施方式】[0025]下面將結(jié)合附圖,對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)的說明。
[0026]本實(shí)施例以Word試卷信息為示例說明本發(fā)明提供的信息提取方法,本發(fā)明的方法適用的文件信息是信息內(nèi)容的首部包括標(biāo)識(shí)字符的任何文件信息,標(biāo)識(shí)字符包括各種純文本信息,不止局限于數(shù)字信息。另外,由于不需要對(duì)文件信息內(nèi)容中的公式、表格和/或圖片等信息進(jìn)行識(shí)別,所述Word試卷信息中可包括公式、表格和/或圖片的內(nèi)容信息。
[0027]參見圖1和圖2,該方法包括以下步驟:
[0028]101:依次以段落方式獲取文件信息;
[0029]通常Word試卷信息是由標(biāo)題、題型以及試題信息組成,標(biāo)題用于描述試題性質(zhì)的信息,例如某年級(jí)某階段某科目的考試題目等信息。題型用于描述試題的類別信息,試題的類別信息可包括選擇題、填空題、簡答題等題型,試題部分可分為題序號(hào)和題干信息。利用本發(fā)明提供的方法,將Word試卷中的題干信息提取出來,并依次將它們存入數(shù)據(jù)庫。
[0030]102:查找所述段落內(nèi)的至少一個(gè)標(biāo)識(shí)字符;
[0031]本方法是以段落為單位,進(jìn)行識(shí)別提取的,通過依次讀取Word文件信息段落并定位出該段落信息中用數(shù)字和/或字符表示的題序號(hào),通過該試題的題序號(hào)及其下一試題的題序號(hào)可定位出該試題在Word中的起始位置,從而將Word試卷信息進(jìn)行了分類,由此提取出試題信息,即完成了 Word試卷信息的提取。
[0032]由于本發(fā)明提供的方法只需識(shí)別出題序號(hào),因此識(shí)別信息較少,使試題的信息識(shí)別更加簡便快速。
[0033]本發(fā)明方法適用于在首部包括有標(biāo)識(shí)字符的文件信息,通過對(duì)文件信息中表示特殊意義字符(標(biāo)識(shí)字符)的定位,即可找到所需要的信息,完成對(duì)該文件信息的識(shí)別提取。例如,標(biāo)識(shí)字符為文件信息中的各條信息前的標(biāo)號(hào),該標(biāo)識(shí)字符可為數(shù)字、字母或其他設(shè)置的文本信息以及這些信息的組合,在本示例中為試題前的序號(hào),即題序號(hào)。
[0034]優(yōu)選地,通過將題型信息(特征值)與該段落內(nèi)容進(jìn)行匹配,找到可以匹配的題型信息,該題型信息即為該段落的特征值,通過找到段落中的題型信息位置,就可以定位首個(gè)題序號(hào)的位置,例如,在題型信息后面,緊接著的試題1,其中數(shù)字I即是題序號(hào),題型信息可以包括選擇題、填空題、簡答題等各種題型,在文件信息中,其可以為預(yù)先設(shè)置的各種特征值,例如,特征值為“對(duì)汽車尾氣處理意見如下:”,而下面緊隨的各條意見首部字符,例如,為數(shù)字,字符及/或其組合即是該段落的標(biāo)識(shí)字符。
[0035]本發(fā)明提供的方法僅需找到這些標(biāo)識(shí)字符,即可完成信息的識(shí)別。本示例利用支持向量機(jī)(Support Vector Machine, SVM)構(gòu)建超平面對(duì)樣本集進(jìn)行分類,得到段落中的題序號(hào),將待識(shí)別的試卷中的內(nèi)容分為兩大類——題序號(hào)和題干,利用SVM的原理識(shí)別出題序號(hào)和題干。
[0036]為了便于描述本發(fā)明,給出了如下定義:
[0037]題序號(hào)QN =Word試題中標(biāo)志著每題起點(diǎn)的數(shù)字
[0038]題干中的數(shù)字NQ:出現(xiàn)在試題題目中的數(shù)字。
[0039]標(biāo)桿符號(hào)P:位于每個(gè)題型下第一個(gè)題題序號(hào)右邊的一個(gè)元素。
[0040]已知訓(xùn)練樣本K:由每個(gè)題型下第一個(gè)題序號(hào)以及其P組成。
[0041]未知樣本UK:由試卷中NQ組成。
[0042]判別符號(hào)T:于每個(gè)題型下第一個(gè)題題序號(hào)左邊的所有元素。[0043]上下文題序號(hào):識(shí)別出的上一道題的題序號(hào),S e K|s e UK。
[0044]采用六元組來描述樣本
[0045]TN = {x, y, value, sentence, index, digit},
[0046]其中:TN代表試卷中的訓(xùn)練樣本,
[0047]X表示TN在Word試卷中的相對(duì)向量;
[0048]y表示TN所屬類別,如果TN屬于QN,則y=l,否則y=_l,
[0049]Value 表示 TN 的值;
[0050]Sentence表示TN所在的段落;
[0051]index 表不 TN 位于 Sentence 的位置;
[0052]digit表示TN的位數(shù),如果TN是數(shù)字,則digit是該數(shù)字的位數(shù),如果不是,則是
1
[0053]其中,為了樣本的定位,需要確定出X的向量,因此在進(jìn)行識(shí)別前需要確認(rèn)坐標(biāo)原點(diǎn),由于Microsoft Office Word中不含有坐標(biāo)系,為了求得試卷中內(nèi)容的坐標(biāo),采用.Net技術(shù)提供的函數(shù),分別求出試卷內(nèi)容相對(duì)于Word文檔左上角的橫縱坐標(biāo),即將Word頁的左上角頁面視為坐標(biāo)原點(diǎn)。
[0054]同理,對(duì)文件信息的標(biāo)識(shí) 字符可以利用各種已知的方法獲得標(biāo)識(shí)字符的向量坐標(biāo),也可編寫函數(shù)求得標(biāo)識(shí)字符的向量坐標(biāo)。
[0055]SVM可以由已知的訓(xùn)練樣本集,建立一個(gè)超平面,該平面能夠?qū)⒂?xùn)練集分類并且對(duì)于新的樣本輸入,可由決策函數(shù)判斷其所屬類別。
[0056]利用下面公式對(duì)未知樣本進(jìn)行訓(xùn)練,以確定樣本的分類,從而得到標(biāo)識(shí)字符,即Word試卷的題序號(hào)。
[0057]./'(-V) = sgn(g(.v)) = sgn(之.ν:α * (χ..v) + b * +義),()< X <b* (公式 I)
[0058]由于不同題型下,題序號(hào)的表示形式可能不同,因此,本系統(tǒng)采用以不同題型為一個(gè)識(shí)別單位,即遇到新題型或者到達(dá)試卷結(jié)尾時(shí),對(duì)上一種題型中的內(nèi)容進(jìn)行識(shí)別。有些時(shí)候可能一種題型下面只含有I個(gè)數(shù)字,因此,我們只需解決2個(gè)變量的最優(yōu)化問題即可,即求解a i和Ct2的值的值。
[0059]在進(jìn)行試卷識(shí)別之前,系統(tǒng)需要對(duì)SMO算法中的一些參數(shù)進(jìn)行預(yù)設(shè)定。在此,需要設(shè)定的參數(shù)有C、tol和Maxpasses。其中C是懲罰參數(shù),tol是容忍極限值,Maxpasses是迭代次數(shù)。
[0060]由于已知訓(xùn)練集中只含有兩個(gè)已知量,迭代次數(shù)Maxpasses的值選取2就足夠。tol是誤差能夠容忍的范圍,選取過大達(dá)不到預(yù)期效果,這里選擇0.01。C表明對(duì)這個(gè)點(diǎn)的舍棄值,C越大表明越不想放棄這個(gè)點(diǎn)、邊界縮小,而題序號(hào)和題干之間的距離小,通過測(cè)試發(fā)現(xiàn)當(dāng)C達(dá)到某一數(shù)值后對(duì)識(shí)別結(jié)果沒有影響,因此,C選取I。
[0061]其識(shí)別規(guī)則(第一規(guī)則)定義如下:
[0062](I)記錄每個(gè)題型下所有數(shù)字以及第一題右邊元素的位置。其中,令第一題題序號(hào)QN的決策函數(shù)f (χ)值為1,令該題右邊元素P的決策函數(shù)f (χ)值為-1,它們?yōu)镵,其余數(shù)字只記錄其坐標(biāo),作為UK。
[0063](2)利用系統(tǒng)產(chǎn)生的隨機(jī)數(shù)初始化向量權(quán)重Cii,并計(jì)算偏移b。[0064](3)初始化誤差項(xiàng)
[0065]Ei = f (Xi) -Yi (公式 2)
[0066]其中
[0067]
【權(quán)利要求】
1.一種文件信息的提取方法,其特征在于,該方法包括: 依次以段落方式獲取文件信息; 查找所述段落內(nèi)是否包括至少一個(gè)標(biāo)識(shí)字符; 如果查找到所述標(biāo)識(shí)字符,則將所述段落作為信息塊的起始段。
2.根據(jù)權(quán)利要求1所述的提取方法,其特征在于,所述提取方法還包括: 在查找所述至少一個(gè)標(biāo)識(shí)字符之前,先獲取所述段落的特征值; 其中,所述查找所述段落內(nèi)是否包括至少一個(gè)標(biāo)識(shí)字符包括根據(jù)預(yù)設(shè)的第一規(guī)則和所述特征值的位置,查找所述段落內(nèi)的至少一個(gè)標(biāo)識(shí)字符。
3.根據(jù)權(quán)利要求2所述的提取方法,其特征在于,所述根據(jù)預(yù)設(shè)的第一規(guī)則和所述特征值的位置,查找所述段落內(nèi)的至少一個(gè)標(biāo)識(shí)字符之后還包括: 根據(jù)預(yù)設(shè)的第二規(guī)則,對(duì)所述至少一個(gè)標(biāo)識(shí)字符進(jìn)行判斷; 如果所述至少一個(gè)標(biāo)識(shí)字符符合所述第二規(guī)則,則確定所述至少一個(gè)標(biāo)識(shí)字符為正確標(biāo)識(shí)字符,否則,確定所述至少一個(gè)標(biāo)識(shí)字符為錯(cuò)誤標(biāo)識(shí)字符。
4.根據(jù)權(quán)利要求1所述的提取方法,其特征在于,所述信息塊內(nèi)容包括公式、表格和/或圖片的內(nèi)容信息。
5.根據(jù)權(quán)利要求1所述的提取方法,其特征在于,所述文件信息存儲(chǔ)為Word文件。
6.根據(jù)權(quán)利要求5所述的提取方法,其特征在于,所述文件信息為試卷信息,所述至少一個(gè)標(biāo)識(shí)字符為所述試卷內(nèi)的題序號(hào)。
7.根據(jù)權(quán)利要求5或6所述的提取方法,其特征在于,所述方法還包括: 在查找所述段落內(nèi)的至少一個(gè)題序號(hào)之前,先獲取所述段落的題型信息; 其中,所述查找所述段落內(nèi)是否包括至少一個(gè)題序號(hào)包括根據(jù)預(yù)設(shè)的第一規(guī)則和所述題型信息的位置,查找所述段落內(nèi)的至少一個(gè)題序號(hào)。
8.根據(jù)權(quán)利要求7所述的提取方法,其特征在于,所述根據(jù)預(yù)設(shè)的第一規(guī)則和所述題型信息的位置,查找所述段落內(nèi)的至少一個(gè)題序號(hào)之后還包括: 根據(jù)預(yù)設(shè)的第二規(guī)則,對(duì)所述至少一個(gè)題序號(hào)進(jìn)行判斷; 如果所述至少一個(gè)題序號(hào)符合所述第二規(guī)則,則確定所述題序號(hào)為正確題序號(hào),否則,確定所述題序號(hào)為錯(cuò)誤的題序號(hào)。
9.根據(jù)權(quán)利要求2所述的提取方法,其特征在于,所述第一規(guī)則利用支持向量機(jī)原理。
10.根據(jù)權(quán)利要求3所述的提取方法,其特征在于,所述第二規(guī)則利用淺層句法分析原理。
【文檔編號(hào)】G06F17/30GK103500216SQ201310462931
【公開日】2014年1月8日 申請(qǐng)日期:2013年9月30日 優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】李冬梅, 覃延, 黃安坤 申請(qǐng)人:北京林業(yè)大學(xué)