一種文件信息的提取方法

文檔序號(hào)：6514527閱讀：238來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文件信息的提取方法
【專利摘要】本發(fā)明提供一種文件信息的提取方法，包括：依次以段落方式獲取文件信息；查找所述段落內(nèi)是否包括至少一個(gè)標(biāo)識(shí)字符；如果查找到所述標(biāo)識(shí)字符，則將所述段落作為信息塊的起始段。通過對(duì)文件信息的所述至少一個(gè)標(biāo)識(shí)符進(jìn)行識(shí)別，能夠快速而準(zhǔn)確從文件信息中切割出需要的信息塊。因?yàn)椴恍枰獙?duì)文件內(nèi)容中的公式、表格和/或圖片等信息進(jìn)行識(shí)別，所以該方法還適用于包含公式等信息的文件，擴(kuò)大了該方法的適用范圍。本方法結(jié)合支持向量機(jī)和淺層句法分析，在進(jìn)行初步識(shí)別之后，還可對(duì)錯(cuò)誤結(jié)果進(jìn)行修正，提高了識(shí)別的正確率。
【專利說明】一種文件信息的提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息識(shí)別【技術(shù)領(lǐng)域】，具體地講，本發(fā)明涉及一種文件信息的提取方法?！颈尘凹夹g(shù)】
[0002]由于互聯(lián)網(wǎng)的普及發(fā)展，現(xiàn)在可以從互聯(lián)網(wǎng)上查找大量的信息，通過利用查找的信息自動(dòng)構(gòu)建一個(gè)滿足要求的信息庫，可使建立信息庫的工作更加自動(dòng)化。這種方法尤其適合試卷信息的處理。如何將大量的試卷信息進(jìn)行識(shí)別，并利用識(shí)別后的試題信息自動(dòng)完成試題庫的初始化工作，是試題庫系統(tǒng)建設(shè)中的一個(gè)關(guān)鍵步驟，也是計(jì)算機(jī)輔助教學(xué)中一個(gè)重要的研究課題。
[0003]傳統(tǒng)的試題庫構(gòu)建工作是通過人工手動(dòng)操作，將試題依次錄入到數(shù)據(jù)庫中。這種方法浪費(fèi)人力資源，效率低下，并且在錄入過程中容易出現(xiàn)差錯(cuò)。目前有關(guān)試題庫的自動(dòng)構(gòu)建主要有以下三種代表性的方法。
[0004]第一種，基于開源語法分析器(AnotherTool for Language Recognition,ANTLR)的試卷識(shí)別方法。該方法利用語言識(shí)別工具ANTLR構(gòu)造出詞法、語法分析器。通過將試卷內(nèi)容作為源代碼，利用詞法、語法、語義分析來對(duì)試卷文本進(jìn)行驗(yàn)證和識(shí)別，生成試卷的抽象語法樹，并在樹遍歷過程中報(bào)告出相應(yīng)的語法、語義錯(cuò)誤，生成試卷模型。雖然這種方法相對(duì)于傳統(tǒng)的試卷識(shí)別方法(人工手動(dòng)錄入)提高了工作效率，但是，這種方法由于將試卷中內(nèi)容看成源代碼，因此只能針對(duì)不含公式、表格和/或圖片的純文本形式的試卷。并且進(jìn)行試卷識(shí)別前，需要一定的人工預(yù)處理。
[0005]第二種，基于自動(dòng)機(jī)的試卷識(shí)別方法。該方法利用淺層句法分析的原理構(gòu)建自動(dòng)機(jī)的模型，即根據(jù)系統(tǒng)預(yù)先定義的識(shí)別規(guī)則，利用語塊識(shí)別程序，對(duì)大規(guī)模試卷文本進(jìn)行識(shí)另O，查找試卷文本結(jié)構(gòu)及各試卷中試題的屬性，依次將識(shí)別的各屬性值實(shí)時(shí)寫入數(shù)據(jù)庫，完成試題庫的初始化工作。但這種方法只能識(shí)別純文本信息的試卷，仍然無法識(shí)別包含圖片、公式等信息內(nèi)容的非純文本格式的試卷，并且還需要一定的人工預(yù)處理工作，例如需要將試卷格式設(shè)為系統(tǒng)規(guī)定的格式。并且由于自動(dòng)機(jī)是根據(jù)事先設(shè)定的規(guī)則進(jìn)行識(shí)別，因此在試卷識(shí)別時(shí)，需要對(duì)試題的開始位置、結(jié)束位置或分值、答案的位置等進(jìn)行特殊標(biāo)識(shí)。
[0006]第三種，基于支持向量機(jī)的試卷識(shí)別方法。該方法將試題文本進(jìn)行向量化，求解試卷特征字符的向量劃分，然后依據(jù)此劃分對(duì)試卷文本塊進(jìn)行識(shí)別。該方法可以實(shí)現(xiàn)非純文本文件的識(shí)別，但識(shí)別結(jié)果存在一定的誤差，且目前只實(shí)現(xiàn)了選擇題題型的處理，不具有通用性。
[0007]如何實(shí)現(xiàn)對(duì)以試卷信息為代表的文件信息的自動(dòng)快速提取，是一個(gè)亟待解決的問題。

【發(fā)明內(nèi)容】

[0008]有鑒于此，本發(fā)明的主要目的是提供一種文件信息的提取方法，該方法包括:依次以段落方式獲取文件信息；查找所述段落內(nèi)是否包括至少一個(gè)標(biāo)識(shí)字符；如果查找到所述標(biāo)識(shí)字符，則將所述段落作為信息塊的起始段。
[0009]其中，所述提取方法還包括:在查找所述至少一個(gè)標(biāo)識(shí)字符之前，先獲取所述段落的特征值；其中，所述查找所述段落內(nèi)是否包括至少一個(gè)標(biāo)識(shí)字符包括根據(jù)預(yù)設(shè)的第一規(guī)則和所述特征值的位置，查找所述段落內(nèi)的至少一個(gè)標(biāo)識(shí)字符。
[0010]其中，所述根據(jù)預(yù)設(shè)的第一規(guī)則和所述特征值的位置，查找所述段落內(nèi)的至少一個(gè)標(biāo)識(shí)字符之后還包括:根據(jù)預(yù)設(shè)的第二規(guī)則，對(duì)所述至少一個(gè)標(biāo)識(shí)字符進(jìn)行判斷；如果所述至少一個(gè)標(biāo)識(shí)字符符合所述第二規(guī)則，則確定所述至少一個(gè)標(biāo)識(shí)字符為正確標(biāo)識(shí)字符，否則，確定所述至少一個(gè)標(biāo)識(shí)字符為錯(cuò)誤標(biāo)識(shí)字符。
[0011]其中，所述信息塊內(nèi)容包括公式、表格和/或圖片的內(nèi)容信息。
[0012]其中，所述文件信息存儲(chǔ)為Word文件。
[0013]其中，所述文件信息為試卷信息，所述至少一個(gè)標(biāo)識(shí)字符為所述試卷內(nèi)的題序號(hào)。
[0014]其中，所述方法還包括:在查找所述段落內(nèi)的至少一個(gè)題序號(hào)之前，先獲取所述段落的題型信息；其中，所述查找所述段落內(nèi)是否包括至少一個(gè)題序號(hào)包括根據(jù)預(yù)設(shè)的第一規(guī)則和所述題型信息的位置，查找所述段落內(nèi)的至少一個(gè)題序號(hào)。
[0015]其中，所述根據(jù)預(yù)設(shè)的第一規(guī)則和所述題型信息的位置，查找所述段落內(nèi)的至少一個(gè)題序號(hào)之后還包括:根據(jù)預(yù)設(shè)的第二規(guī)則，對(duì)所述至少一個(gè)題序號(hào)進(jìn)行判斷；如果所述至少一個(gè)題序號(hào)符合所述第二規(guī)則，則確定所述題序號(hào)為正確題序號(hào)，否則，確定所述題序號(hào)為錯(cuò)誤的題序號(hào)。
[0016]其中，所述第一規(guī)則利用支持向量機(jī)原理。
[0017]其中，所述第二規(guī)則利用淺層句法分析原理。
[0018]通過對(duì)文件信息的所述至少一個(gè)標(biāo)識(shí)符進(jìn)行識(shí)別，能夠快速而準(zhǔn)確從文件信息中切割出需要的信息塊。因?yàn)椴恍枰獙?duì)文件內(nèi)容中的公式、表格和/或圖片等信息進(jìn)行識(shí)別，所以該方法還適用于包含公式等信息的文件，擴(kuò)大了該方法的適用范圍。本方法結(jié)合支持向量機(jī)和淺層句法分析，在進(jìn)行初步識(shí)別之后，還可對(duì)錯(cuò)誤結(jié)果進(jìn)行修正，提高了識(shí)別的正確率。
[0019]該方法針對(duì)大量的Word試卷信息，通過識(shí)別試卷信息中的題序號(hào)，能夠快速準(zhǔn)確地從試卷信息中切割出需要試題的題干信息，提高了建立試題庫的速度。由于只需要對(duì)試卷信息中的題型信息以及題序號(hào)進(jìn)行識(shí)別，因此試題的信息可包括公式等非純文本信息，使試題庫的建立更加便捷高效。本方法結(jié)合支持向量機(jī)和淺層句法分析，在對(duì)題序號(hào)進(jìn)行初步識(shí)別之后，還可對(duì)錯(cuò)誤的識(shí)別結(jié)果進(jìn)行修正，提高了題序號(hào)識(shí)別的正確率。
【專利附圖】

【附圖說明】
[0020]圖1為本發(fā)明提供的一種文件信息的提取方法實(shí)施例的流程示意圖；
[0021 ] 圖2為圖1所示實(shí)施例的具體示例的流程圖；
[0022]圖3為本發(fā)明實(shí)施例中利用第一規(guī)則進(jìn)行識(shí)別的識(shí)別結(jié)果示意圖；
[0023]圖4為本發(fā)明實(shí)施例中利用第二規(guī)則構(gòu)建自動(dòng)機(jī)的識(shí)別狀態(tài)示意圖；
[0024]圖5為本發(fā)明實(shí)施例中利用第二規(guī)則進(jìn)行識(shí)別的識(shí)別結(jié)果示意圖。
【具體實(shí)施方式】[0025]下面將結(jié)合附圖，對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)的說明。
[0026]本實(shí)施例以Word試卷信息為示例說明本發(fā)明提供的信息提取方法，本發(fā)明的方法適用的文件信息是信息內(nèi)容的首部包括標(biāo)識(shí)字符的任何文件信息，標(biāo)識(shí)字符包括各種純文本信息，不止局限于數(shù)字信息。另外，由于不需要對(duì)文件信息內(nèi)容中的公式、表格和/或圖片等信息進(jìn)行識(shí)別，所述Word試卷信息中可包括公式、表格和/或圖片的內(nèi)容信息。
[0027]參見圖1和圖2，該方法包括以下步驟:
[0028]101:依次以段落方式獲取文件信息；
[0029]通常Word試卷信息是由標(biāo)題、題型以及試題信息組成，標(biāo)題用于描述試題性質(zhì)的信息，例如某年級(jí)某階段某科目的考試題目等信息。題型用于描述試題的類別信息，試題的類別信息可包括選擇題、填空題、簡答題等題型，試題部分可分為題序號(hào)和題干信息。利用本發(fā)明提供的方法，將Word試卷中的題干信息提取出來，并依次將它們存入數(shù)據(jù)庫。
[0030]102:查找所述段落內(nèi)的至少一個(gè)標(biāo)識(shí)字符；
[0031]本方法是以段落為單位，進(jìn)行識(shí)別提取的，通過依次讀取Word文件信息段落并定位出該段落信息中用數(shù)字和/或字符表示的題序號(hào)，通過該試題的題序號(hào)及其下一試題的題序號(hào)可定位出該試題在Word中的起始位置，從而將Word試卷信息進(jìn)行了分類，由此提取出試題信息，即完成了 Word試卷信息的提取。
[0032]由于本發(fā)明提供的方法只需識(shí)別出題序號(hào)，因此識(shí)別信息較少，使試題的信息識(shí)別更加簡便快速。
[0033]本發(fā)明方法適用于在首部包括有標(biāo)識(shí)字符的文件信息，通過對(duì)文件信息中表示特殊意義字符(標(biāo)識(shí)字符)的定位，即可找到所需要的信息，完成對(duì)該文件信息的識(shí)別提取。例如，標(biāo)識(shí)字符為文件信息中的各條信息前的標(biāo)號(hào)，該標(biāo)識(shí)字符可為數(shù)字、字母或其他設(shè)置的文本信息以及這些信息的組合，在本示例中為試題前的序號(hào)，即題序號(hào)。
[0034]優(yōu)選地，通過將題型信息(特征值)與該段落內(nèi)容進(jìn)行匹配，找到可以匹配的題型信息，該題型信息即為該段落的特征值，通過找到段落中的題型信息位置，就可以定位首個(gè)題序號(hào)的位置，例如，在題型信息后面，緊接著的試題1，其中數(shù)字I即是題序號(hào)，題型信息可以包括選擇題、填空題、簡答題等各種題型，在文件信息中，其可以為預(yù)先設(shè)置的各種特征值，例如，特征值為“對(duì)汽車尾氣處理意見如下:”，而下面緊隨的各條意見首部字符，例如，為數(shù)字，字符及/或其組合即是該段落的標(biāo)識(shí)字符。
[0035]本發(fā)明提供的方法僅需找到這些標(biāo)識(shí)字符，即可完成信息的識(shí)別。本示例利用支持向量機(jī)(Support Vector Machine, SVM)構(gòu)建超平面對(duì)樣本集進(jìn)行分類,得到段落中的題序號(hào)，將待識(shí)別的試卷中的內(nèi)容分為兩大類——題序號(hào)和題干，利用SVM的原理識(shí)別出題序號(hào)和題干。
[0036]為了便于描述本發(fā)明，給出了如下定義:
[0037]題序號(hào)QN =Word試題中標(biāo)志著每題起點(diǎn)的數(shù)字
[0038]題干中的數(shù)字NQ:出現(xiàn)在試題題目中的數(shù)字。
[0039]標(biāo)桿符號(hào)P:位于每個(gè)題型下第一個(gè)題題序號(hào)右邊的一個(gè)元素。
[0040]已知訓(xùn)練樣本K:由每個(gè)題型下第一個(gè)題序號(hào)以及其P組成。
[0041]未知樣本UK:由試卷中NQ組成。
[0042]判別符號(hào)T:于每個(gè)題型下第一個(gè)題題序號(hào)左邊的所有元素。[0043]上下文題序號(hào):識(shí)別出的上一道題的題序號(hào)，S e K|s e UK。
[0044]采用六元組來描述樣本
[0045]TN = {x, y, value, sentence, index, digit}，
[0046]其中:TN代表試卷中的訓(xùn)練樣本，
[0047]X表示TN在Word試卷中的相對(duì)向量；
[0048]y表示TN所屬類別，如果TN屬于QN,則y=l,否則y=_l,
[0049]Value 表示 TN 的值；
[0050]Sentence表示TN所在的段落；
[0051]index 表不 TN 位于 Sentence 的位置；
[0052]digit表示TN的位數(shù)，如果TN是數(shù)字，則digit是該數(shù)字的位數(shù)，如果不是，則是
1
[0053]其中，為了樣本的定位，需要確定出X的向量，因此在進(jìn)行識(shí)別前需要確認(rèn)坐標(biāo)原點(diǎn)，由于Microsoft Office Word中不含有坐標(biāo)系，為了求得試卷中內(nèi)容的坐標(biāo),采用.Net技術(shù)提供的函數(shù)，分別求出試卷內(nèi)容相對(duì)于Word文檔左上角的橫縱坐標(biāo)，即將Word頁的左上角頁面視為坐標(biāo)原點(diǎn)。
[0054]同理，對(duì)文件信息的標(biāo)識(shí) 字符可以利用各種已知的方法獲得標(biāo)識(shí)字符的向量坐標(biāo)，也可編寫函數(shù)求得標(biāo)識(shí)字符的向量坐標(biāo)。
[0055]SVM可以由已知的訓(xùn)練樣本集，建立一個(gè)超平面，該平面能夠?qū)⒂?xùn)練集分類并且對(duì)于新的樣本輸入，可由決策函數(shù)判斷其所屬類別。
[0056]利用下面公式對(duì)未知樣本進(jìn)行訓(xùn)練，以確定樣本的分類，從而得到標(biāo)識(shí)字符，即Word試卷的題序號(hào)。
[0057]./'(-V) = sgn(g(.v)) = sgn(之.ν:α * (χ..v) + b * +義),()< X <b* (公式 I)
[0058]由于不同題型下，題序號(hào)的表示形式可能不同，因此，本系統(tǒng)采用以不同題型為一個(gè)識(shí)別單位，即遇到新題型或者到達(dá)試卷結(jié)尾時(shí)，對(duì)上一種題型中的內(nèi)容進(jìn)行識(shí)別。有些時(shí)候可能一種題型下面只含有I個(gè)數(shù)字，因此，我們只需解決2個(gè)變量的最優(yōu)化問題即可，即求解a i和Ct2的值的值。
[0059]在進(jìn)行試卷識(shí)別之前，系統(tǒng)需要對(duì)SMO算法中的一些參數(shù)進(jìn)行預(yù)設(shè)定。在此，需要設(shè)定的參數(shù)有C、tol和Maxpasses。其中C是懲罰參數(shù)，tol是容忍極限值，Maxpasses是迭代次數(shù)。
[0060]由于已知訓(xùn)練集中只含有兩個(gè)已知量，迭代次數(shù)Maxpasses的值選取2就足夠。tol是誤差能夠容忍的范圍，選取過大達(dá)不到預(yù)期效果，這里選擇0.01。C表明對(duì)這個(gè)點(diǎn)的舍棄值，C越大表明越不想放棄這個(gè)點(diǎn)、邊界縮小，而題序號(hào)和題干之間的距離小，通過測(cè)試發(fā)現(xiàn)當(dāng)C達(dá)到某一數(shù)值后對(duì)識(shí)別結(jié)果沒有影響，因此，C選取I。
[0061]其識(shí)別規(guī)則(第一規(guī)則)定義如下:
[0062](I)記錄每個(gè)題型下所有數(shù)字以及第一題右邊元素的位置。其中，令第一題題序號(hào)QN的決策函數(shù)f (χ)值為1，令該題右邊元素P的決策函數(shù)f (χ)值為-1，它們?yōu)镵,其余數(shù)字只記錄其坐標(biāo)，作為UK。
[0063](2)利用系統(tǒng)產(chǎn)生的隨機(jī)數(shù)初始化向量權(quán)重Cii，并計(jì)算偏移b。[0064](3)初始化誤差項(xiàng)
[0065]Ei = f (Xi) -Yi (公式 2)
[0066]其中
[0067]
【權(quán)利要求】
1.一種文件信息的提取方法，其特征在于，該方法包括: 依次以段落方式獲取文件信息；查找所述段落內(nèi)是否包括至少一個(gè)標(biāo)識(shí)字符；如果查找到所述標(biāo)識(shí)字符，則將所述段落作為信息塊的起始段。
2.根據(jù)權(quán)利要求1所述的提取方法，其特征在于，所述提取方法還包括: 在查找所述至少一個(gè)標(biāo)識(shí)字符之前，先獲取所述段落的特征值；其中，所述查找所述段落內(nèi)是否包括至少一個(gè)標(biāo)識(shí)字符包括根據(jù)預(yù)設(shè)的第一規(guī)則和所述特征值的位置，查找所述段落內(nèi)的至少一個(gè)標(biāo)識(shí)字符。
3.根據(jù)權(quán)利要求2所述的提取方法，其特征在于，所述根據(jù)預(yù)設(shè)的第一規(guī)則和所述特征值的位置，查找所述段落內(nèi)的至少一個(gè)標(biāo)識(shí)字符之后還包括: 根據(jù)預(yù)設(shè)的第二規(guī)則，對(duì)所述至少一個(gè)標(biāo)識(shí)字符進(jìn)行判斷；如果所述至少一個(gè)標(biāo)識(shí)字符符合所述第二規(guī)則，則確定所述至少一個(gè)標(biāo)識(shí)字符為正確標(biāo)識(shí)字符，否則，確定所述至少一個(gè)標(biāo)識(shí)字符為錯(cuò)誤標(biāo)識(shí)字符。
4.根據(jù)權(quán)利要求1所述的提取方法，其特征在于，所述信息塊內(nèi)容包括公式、表格和/或圖片的內(nèi)容信息。
5.根據(jù)權(quán)利要求1所述的提取方法，其特征在于，所述文件信息存儲(chǔ)為Word文件。
6.根據(jù)權(quán)利要求5所述的提取方法，其特征在于，所述文件信息為試卷信息，所述至少一個(gè)標(biāo)識(shí)字符為所述試卷內(nèi)的題序號(hào)。
7.根據(jù)權(quán)利要求5或6所述的提取方法，其特征在于，所述方法還包括: 在查找所述段落內(nèi)的至少一個(gè)題序號(hào)之前，先獲取所述段落的題型信息；其中，所述查找所述段落內(nèi)是否包括至少一個(gè)題序號(hào)包括根據(jù)預(yù)設(shè)的第一規(guī)則和所述題型信息的位置，查找所述段落內(nèi)的至少一個(gè)題序號(hào)。
8.根據(jù)權(quán)利要求7所述的提取方法，其特征在于，所述根據(jù)預(yù)設(shè)的第一規(guī)則和所述題型信息的位置，查找所述段落內(nèi)的至少一個(gè)題序號(hào)之后還包括: 根據(jù)預(yù)設(shè)的第二規(guī)則，對(duì)所述至少一個(gè)題序號(hào)進(jìn)行判斷；如果所述至少一個(gè)題序號(hào)符合所述第二規(guī)則，則確定所述題序號(hào)為正確題序號(hào)，否則，確定所述題序號(hào)為錯(cuò)誤的題序號(hào)。
9.根據(jù)權(quán)利要求2所述的提取方法，其特征在于，所述第一規(guī)則利用支持向量機(jī)原理。
10.根據(jù)權(quán)利要求3所述的提取方法，其特征在于，所述第二規(guī)則利用淺層句法分析原理。
【文檔編號(hào)】G06F17/30GK103500216SQ201310462931
【公開日】2014年1月8日申請(qǐng)日期:2013年9月30日優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】李冬梅, 覃延, 黃安坤申請(qǐng)人:北京林業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李冬梅;覃延;黃安坤
技術(shù)所有人：北京林業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種基于多相機(jī)的快速反射繪制方法
上一篇：一種新聞文本情緒傾向分析方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文件信息的提取方法