亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

提取文檔中內(nèi)容的方法和裝置的制作方法

文檔序號:6432335閱讀:209來源:國知局
專利名稱:提取文檔中內(nèi)容的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)字排版領(lǐng)域,具體而言,涉及一種提取文檔中內(nèi)容的方法和裝置。
背景技術(shù)
在教育體系中,隨著計(jì)算機(jī)、互聯(lián)網(wǎng)的發(fā)展,越來越多的教育形式通過網(wǎng)絡(luò)和電子形式應(yīng)用到用戶,用戶可以足不出戶,就可體驗(yàn)到網(wǎng)絡(luò)的教學(xué),如學(xué)習(xí)各類課程、在線測試
坐寸ο互聯(lián)網(wǎng)的教育體系,為滿足大量用戶通過計(jì)算機(jī)連接互聯(lián)網(wǎng),并可進(jìn)行在線測試。需要制作電子試題庫,電子試題庫內(nèi)存儲大量的電子試題,這些電子試題文檔錄入以后,用戶可通過互聯(lián)網(wǎng)進(jìn)行在線測試,但一套試題經(jīng)過使用后,就不在有保密性,需要修改試題。試題的修改都是在部分修改,以提高試題的重復(fù)利用及制作的效率。試題文檔通常存儲在數(shù)據(jù)庫中,對于當(dāng)前海量的非結(jié)構(gòu)化試題,現(xiàn)有的錄入過程,是通過用戶使用計(jì)算機(jī)錄入試題。發(fā)明人發(fā)現(xiàn),試題的數(shù)據(jù)量比較多,由于非結(jié)構(gòu)化的試題文件只能采用人工錄入的方式錄入,由于存在無法將數(shù)據(jù)文檔實(shí)現(xiàn)結(jié)構(gòu)化錄入的問題,導(dǎo)致在錄入過程、以及后續(xù)的提取、修改試題的部分內(nèi)容困難,用戶存在錄入時(shí)間長、后期修改過程復(fù)雜。

發(fā)明內(nèi)容
本發(fā)明旨在提供一種提取文檔中內(nèi)容的方法和裝置,以解決無法將數(shù)據(jù)文檔實(shí)現(xiàn)結(jié)構(gòu)化錄入的問題。在本發(fā)明的實(shí)施例中,提供了一種提取文檔中內(nèi)容的方法。包括遍歷多個(gè)正則表達(dá)式以匹配試題文檔中的字符;匹配到與當(dāng)前所述正則表達(dá)式中的字符串相同的字符后,提取所述字符之后至與下一個(gè)所述正則表達(dá)式中字符串相匹配的字符之前的字符;存儲所述提取的字符和所述當(dāng)前正則表達(dá)式相對應(yīng)類別的信息。進(jìn)一步地,所述提取之前,還包括建立匹配表,所述匹配表中存儲有所述各個(gè)正則表達(dá)式及其相對應(yīng)類別的信息。進(jìn)一步地,所述類別的信息包括以下至少一個(gè)題目、題干、答案、解析或選項(xiàng)。進(jìn)一步地,所述存儲之前包括在所述類別的信息之間建立從屬關(guān)系。進(jìn)一步地,所述存儲的過程包括將所述題目作為父節(jié)點(diǎn)存儲,同時(shí)存儲對應(yīng)的標(biāo)識、及提取的字符;將所述題干、答案、選項(xiàng)、解析中的至少一個(gè)作為子節(jié)點(diǎn),并存儲所述子節(jié)點(diǎn)對應(yīng)的標(biāo)識、其對應(yīng)提取的字符、及其父節(jié)點(diǎn)標(biāo)識。進(jìn)一步地,所述父節(jié)點(diǎn)、相關(guān)聯(lián)的子節(jié)點(diǎn)、及其對應(yīng)標(biāo)識和提取的字符作為一條記錄,所述記錄存儲到數(shù)據(jù)庫中。進(jìn)一步地,還包括在所述存儲過程中,將音頻、視頻或圖片作為主節(jié)點(diǎn)的屬性數(shù)據(jù)一同存儲。在本發(fā)明的實(shí)施例中,還提供了一種提取文檔中內(nèi)容的裝置,包括匹配單元,用于遍歷多個(gè)正則表達(dá)式以匹配試題文檔中的字符;提取單元,用于匹配到與當(dāng)前所述正則表達(dá)式中的字符串相同的字符后,提取所述字符之后至與下一個(gè)所述正則表達(dá)式中字符串相匹配的字符之前的字符;存儲單元,用于存儲所述提取的字符和所述當(dāng)前正則表達(dá)式相對應(yīng)類別的信息。進(jìn)一步地,節(jié)點(diǎn)關(guān)系單元,用于通過存儲單元將所述題目作為父節(jié)點(diǎn)存儲,同時(shí)存儲對應(yīng)的標(biāo)識、及提取的字符;將所述題干、答案、選項(xiàng)、解析中的至少一個(gè)作為子節(jié)點(diǎn),并存儲所述子節(jié)點(diǎn)對應(yīng)的標(biāo)識、其對應(yīng)提取的字符、及其父節(jié)點(diǎn)標(biāo)識。進(jìn)一步地,屬性單元,用于在所述存儲過程中,將音頻、視頻或圖片作為主節(jié)點(diǎn)的屬性數(shù)據(jù)一同存儲。從以上的描述中可以看出,本發(fā)明上述的實(shí)施例實(shí)現(xiàn)了如下技術(shù)效果可快速將試題類文檔結(jié)構(gòu)化,并提取各部分內(nèi)容存入數(shù)據(jù)庫中。從而便于試題類文檔的后續(xù)的修改、試題產(chǎn)品的制作等。提高了試題的再利用率,結(jié)構(gòu)化的數(shù)據(jù)采用XML格式,對題干、選項(xiàng)、答案線、答案、解析等進(jìn)行詳細(xì)劃分,這樣對這些試題提取或者組卷的時(shí)候可以任意的組合、修改、樣式套用。在不改變原有文件內(nèi)容的情況下,打破了以往按照固定結(jié)構(gòu)進(jìn)行數(shù)據(jù)錄入的模式。另外,可以隨時(shí)選擇試題進(jìn)行多渠道的發(fā)布。比如試卷打印,教材出版,網(wǎng)頁展示,手機(jī)閱讀等。不論紙面出版還是各種電子設(shè)備和瀏覽器需要的數(shù)據(jù)格式都是不同的。發(fā)布的內(nèi)容也可有多種形式,可滿足考生和教師的試卷不完全相同的,教師的試卷中帶有試題的答案和解析。


此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中圖I示出了實(shí)施例一的流程圖;圖2示出了實(shí)施例二的流程圖;圖3示出了實(shí)施例二中存儲過程的流程圖;圖4示出了實(shí)施例三的裝置結(jié)構(gòu)框圖。
具體實(shí)施例方式下面將參考附圖并結(jié)合實(shí)施例,來詳細(xì)說明本發(fā)明。本發(fā)明實(shí)施例,通過正則表達(dá)式遍歷試題文檔中的內(nèi)容,以將試題文檔結(jié)構(gòu)化,并提取里面的內(nèi)容。參見圖1,包括以下步驟Sll :遍歷多個(gè)正則表達(dá)式以匹配試題文檔中的字符;可預(yù)先定義多個(gè)正則表達(dá)式,例如,定義數(shù)字型字符串,以匹配題干的開始處。通常題干的開始處為數(shù)字和空格或數(shù)字和特定字符等形式,特定字符如字符”或“、”等,通過這些字符,可快速匹配到題干的開始位置。選項(xiàng)通常以字母開始,或通過字母與特定字符結(jié)合,如將字母置于圓括號“O”中,或字母后添加空格等。另外,除了標(biāo)準(zhǔn)的正則表達(dá)式以夕卜,還可以支持根據(jù)文字的格式、樣式來匹配。例如〈識別標(biāo)志>〈忽略題號value = " True " />
例如〈識別標(biāo)志>〈忽略題號value = " True " />〈包含選項(xiàng)中的字母和符號value= " True" />< 試題 value = " \d+[\. . ] " display ="數(shù)字 + 點(diǎn)(例:1· , 2. , 3· ) " />〈子試題value = " [(G\d+[))]〃 display = "數(shù)字 + 括號(例(1), (2),⑶)"/>< 選項(xiàng) value = " [ABCDEF] [\. . ] " display = " A. , B. , C. , D. , E. , F. " />< 答案 value ="答案"display ="答案"/>< 解析 value ="解析"display ="解析"/>〈答案線value="文字下劃線"display ="文字下劃線"/>〈內(nèi)部序號value="數(shù)字+文字下劃線"display ="數(shù)字+文字下劃線"/></識別標(biāo)志>S12 :匹配到與當(dāng)前所述正則表達(dá)式中的字符串相同的字符后,提取所述字符之后至與下一個(gè)所述正則表達(dá)式中字符串相匹配的字符之前的字符;例如在試題文檔中存在以下字符I.將10米長的鐵絲平均分為5段,每段_米。(A) 2 米(B) I. 5 米(C) 2. 5 米(D) 3 米答案A2 米。解析10米除以5,等于2米。通過預(yù)先定義的正則表達(dá)式,在試題文檔的起始位置,首先會匹配字符串“I. ”以表明匹配到題干,在后續(xù)的匹配過程中,又會匹配到字符串“㈧”,以表明匹配到選項(xiàng)。提取從字符串“I. ”開始至與下一個(gè)正則表達(dá)式中字符串相匹配的字符“ (A) ”之前的字符,即字符內(nèi)容“將10米長的鐵絲平均分為5段,每段_米?!薄亩崛〉筋}干內(nèi)容。進(jìn)而還可通過正則表達(dá)式匹配到選項(xiàng)、答案等內(nèi)容。S13:存儲所述提取的字符和所述當(dāng)前正則表達(dá)式相對應(yīng)類別的信息。每個(gè)正則表達(dá)式都會具有一個(gè)類別,例如題目、題干、選項(xiàng)、答案或解析等,這些類別信息會隨匹配后,提取到的字符一同存儲。通過上述的過程,可將試題文檔結(jié)構(gòu)化處理,以便存儲到數(shù)據(jù)庫中。便于后續(xù)的錄入過程、以及提取、修改試題的部分內(nèi)容,可提高錄入速度、后續(xù)的試題修改、制作過程。上面詳細(xì)說明了實(shí)施例一,將這些試題結(jié)構(gòu)后,存儲到數(shù)據(jù)庫時(shí),可將每道題作為一條記錄存儲,雖然作為一條記錄存儲,但每道題中結(jié)構(gòu)化時(shí)提取的各部分字符,會通過其對應(yīng)的類別信息建立從屬關(guān)系,以便于后續(xù)提取字符內(nèi)容,組建試題時(shí),避免出現(xiàn)錯(cuò)誤的對應(yīng)關(guān)系,如題干與答案、選項(xiàng)、解析之間。下面通過實(shí)施例二詳細(xì)說明該過程。參見圖2,包括以下步驟S21 :遍歷多個(gè)正則表達(dá)式以匹配試題文檔中的字符;優(yōu)選地,為便于遍歷過程,可將多個(gè)正則表達(dá)式以表的形式建立,并將每條正則表達(dá)式與其對應(yīng)的類別信息存儲在匹配表中。S22 :匹配到與當(dāng)前所述正則表達(dá)式中的字符串相同的字符后,提取所述字符之后至與下一個(gè)所述正則表達(dá)式中字符串相匹配的字符之前的字符;
S23:將試題文檔中提取的字符和當(dāng)前正則表達(dá)式相對應(yīng)類別的信息按照從屬關(guān)系存儲到數(shù)據(jù)庫中;由于試題文檔中的題干、答案、解析等各項(xiàng)類別信息之間具有從屬關(guān)系,例如■ 答案、解析、選項(xiàng)等均從屬與題干這個(gè)類別信息。在存儲時(shí),按照以下步驟存儲,參見圖3,包括S31 :為每個(gè)類別信息賦予一個(gè)標(biāo)識。類別信息可以包括題干、答案、選項(xiàng)或解析等,該標(biāo)識也可以存儲在匹配表中。S32:將每道題的題干作為父節(jié)點(diǎn),將其它的類別信息作為其歸屬的子節(jié)點(diǎn)。每個(gè)子節(jié)點(diǎn)在存儲時(shí),與對應(yīng)提取的字符一起存儲的同時(shí),還需要存儲其父節(jié)點(diǎn)的標(biāo)識,即題干的標(biāo)識,以建立相互的從屬關(guān)系。S33:所述父節(jié)點(diǎn)、相關(guān)聯(lián)的子節(jié)點(diǎn)、及其對應(yīng)標(biāo)識和提取的字符作為一條記錄,所述記錄存儲到數(shù)據(jù)庫中。在存儲試題類文檔時(shí),可將建立了從屬關(guān)系的父節(jié)點(diǎn)、子節(jié)點(diǎn)及相應(yīng)的提取的字符一同作為一條記錄存儲。同時(shí)也存儲的各個(gè)節(jié)點(diǎn)之間關(guān)聯(lián)其父節(jié)點(diǎn)的標(biāo)識。存儲時(shí),可將提取的內(nèi)容轉(zhuǎn)換成XML格式存儲。例如轉(zhuǎn)換后的XML格式的文檔如下
<ROOT>
〈Element name="試卷主標(biāo)題">
〈Attributes〉
<Attr name="tqlD" value="說明-l"/>
<Attr name="outputlMG" value="false"/>
<Attr name="parentlD" value=""/>
〈/Attributes〉
<XHTM L>單選題——難題——掌握1</XHTM L>
<OOXML>ooxml\c2bb42e6-c9al-4309-a419-c8ce9351213e.xml</OOXML>
</Element>
〈Element name="題目">
<Attributes>
<Attr name="tqlD" value="2"/>
<Attr name="outputlMG" value="false"/>
<Attr name="parentlD" value=··說明-l"/>
</Attributes>
<父町1/11>把48米長的鐵絲,要平均截成若干段,每段長8米,需截_次 。</XHTML>
<OOXML>ooxml\e84b8d9e-cbdl-43el-8c84-8b227acf26a6.xml</OOXML>
</Element>
<Element name="選項(xiàng)-A">·
〈Attributes〉
<Attr name="tqlD" value="3"/>
<Attr name="outputlMG" value="false"/>
<Attr name="parentlD" value="2"/>
〈/Attributes〉
<XHTML>6</XHTML>
<OOXML>ooxml\aa4be5dl-0383-46ff-86f2-ac0f850c67ac.xml</OOXML>
</Element>
<Element name="選項(xiàng)-B">
〈Attributes〉
<Attr name="tqlD" value="4"/>
<Attr name="outputlMG" value="false"/>
<Attr name="parentlD" value="2"/>
〈/Attributes〉
<XHTML>3</XHTML>
<OOXML>ooxml\eOf25781-dd6f-4139-8456-858eae5937ad.xml</OOXML>
</Element>
<Element name="選項(xiàng)-C">
<Attributes>
<Attr name="tqlD" value="5"/>
<Attr name="outputlMG" value="false"/>
<Attr name="parentlD" value="2"/>
〈/Attributes〉
<XHTML>5</XHTML>
<OOXML>ooxml\d3e38a42-c585-46cf-8c2f-2e3f4b7cl57a.xml</OOXML>
</Element>
〈Element name=11 選項(xiàng)-D">
〈Attributes〉
<Attr name="tqlD" value="6"/>
<Attr name="outputlMG" value="false"/>
<Attr name="parentlD" value="2"/>
〈/Attributes〉
<XHTML>4</XHTML>
<OOXML>ooxml\2bcOclca-6707-4b47-bfec-dlbe2155eOe7.xml</OOXML>
</Element>
〈Element name="答案·_>
<Attributes>
<Attr name="tqlD" value="7"/>
<Attr name="outputlMG" value="false"/>
<Attr name="parentlD" value="2"/>
々Attributes〉
<XHTML>C</XHTML>

<OOXML>ooxml\76755889-8bc7-451c-9ea6-9096bOe51el7.xml</OOXML>
</Element>
〈Element name="解析">
<Attributes>
<Attr name="tqlD" value="8"/>
<Attr name="outputlMG" value="false"/>
<Attr name="parentlD" value="27>
〈/Attributes〉
<XHTML>48 =6(段)6 - 1=5(次)答需截5次</XHTML> <OOXML>ooxml\793ed23d-fl68-4df6-all0-cl9160e7beb9.xml</OOXML> </Element>
</ROOT>特別是父節(jié)點(diǎn),還可增加其屬性,并將該屬性的數(shù)據(jù)一同存儲。例如在父節(jié)點(diǎn)的屬性中存儲相關(guān)的音頻、視頻、圖片等文件。這些文件可用于顯示和題干相關(guān)的內(nèi)容。上述過程中,用戶還可自定義正則表達(dá)式,以便添加新的匹配規(guī)則,將試題類文檔結(jié)構(gòu)化。經(jīng)過上述結(jié)構(gòu)化處理后,試題類文檔可快速結(jié)構(gòu)化并錄入到數(shù)據(jù)庫中,并且試題類數(shù)據(jù)反復(fù)利用,用戶可將存儲到數(shù)據(jù)庫中的試題文檔修改部分內(nèi)容,并重新組合。上面詳細(xì)說明了本發(fā)明的方法,本發(fā)明還提供一種裝置,該裝置可采用芯片的形式嵌入在集成電路中,下面通過實(shí)施例三詳細(xì)說明本發(fā)明的一種優(yōu)選實(shí)現(xiàn)方式,參見圖4,該裝置包括匹配單元41,用于遍歷多個(gè)正則表達(dá)式以匹配試題文檔中的字符;提取單元42,用于當(dāng)匹配單元41匹配到與當(dāng)前所述正則表達(dá)式中的字符串相同的字符后,提取所述字符之后至與下一個(gè)所述正則表達(dá)式中字符串相匹配的字符之前的字符;存儲單元43,用于存儲所述提取單元42所述提取的字符和所述當(dāng)前正則表達(dá)式相對應(yīng)類別的信息。該裝置還包括節(jié)點(diǎn)關(guān)系單元44,用于通過存儲單元43將所述題目作為父節(jié)點(diǎn)存儲,同時(shí)存儲對應(yīng)的標(biāo)識、及提取的字符;將所述題干、答案、選項(xiàng)、解析中的至少一個(gè)作為子節(jié)點(diǎn),并存儲所述子節(jié)點(diǎn)對應(yīng)的標(biāo)識、其對應(yīng)提取的字符、及其父節(jié)點(diǎn)標(biāo)識。該裝置還包括屬性單元45,用于在所述存儲存儲單元43過程中,將音頻、視頻或圖片作為主節(jié)點(diǎn)的屬性數(shù)據(jù)一同存儲。從以上的描述中可以看出,本發(fā)明上述的實(shí)施例實(shí)現(xiàn)了如下技術(shù)效果可快速將試題類文檔結(jié)構(gòu)化,并提取各部分內(nèi)容存入數(shù)據(jù)庫中。從而便于試題類文檔的后續(xù)的修改、試題產(chǎn)品的制作等。提高了試題的再利用率結(jié)構(gòu)化的數(shù)據(jù)采用XML格式,對題干、選項(xiàng)、答案線、答案、解析等進(jìn)行詳細(xì)劃分,這樣對這些試題提取或者組卷的時(shí)候可以任意的組合、修改、樣式套用。在不改變原有文件內(nèi)容的情況下,打破了以往按照固定結(jié)構(gòu)進(jìn)行數(shù)據(jù)錄入的模式。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而可以將它們存儲在存儲裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種提取文檔中內(nèi)容的方法,其特征在于,包括 遍歷多個(gè)正則表達(dá)式以匹配試題文檔中的字符; 匹配到與當(dāng)前所述正則表達(dá)式中的字符串相同的字符后,提取所述字符之后至與下一個(gè)所述正則表達(dá)式中字符串相匹配的字符之前的字符; 存儲所述提取的字符和所述當(dāng)前正則表達(dá)式相對應(yīng)類別的信息。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述提取之前,還包括 建立匹配表,所述匹配表中存儲有所述各個(gè)正則表達(dá)式及其相對應(yīng)類別的信息。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述類別的信息包括以下至少一個(gè) 題目、題干、答案、解析或選項(xiàng)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述存儲之前包括在所述類別的信息之間建立從屬關(guān)系。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述存儲的過程包括 將所述題目作為父節(jié)點(diǎn)存儲,同時(shí)存儲對應(yīng)的標(biāo)識、及提取的字符; 將所述題干、答案、選項(xiàng)、解析中的至少一個(gè)作為子節(jié)點(diǎn),并存儲所述子節(jié)點(diǎn)對應(yīng)的標(biāo)識、其對應(yīng)提取的字符、及其父節(jié)點(diǎn)標(biāo)識。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述父節(jié)點(diǎn)、相關(guān)聯(lián)的子節(jié)點(diǎn)、及其對應(yīng)標(biāo)識和提取的字符作為一條記錄,所述記錄存儲到數(shù)據(jù)庫中。
7.根據(jù)權(quán)利要求5或6所述的方法,其特征在于,還包括在所述存儲過程中,將音頻、視頻或圖片作為主節(jié)點(diǎn)的屬性數(shù)據(jù)一同存儲。
8.一種提取文檔中內(nèi)容的裝置,其特征在于,包括 匹配單元,用于遍歷多個(gè)正則表達(dá)式以匹配試題文檔中的字符; 提取單元,用于匹配到與當(dāng)前所述正則表達(dá)式中的字符串相同的字符后,提取所述字符之后至與下一個(gè)所述正則表達(dá)式中字符串相匹配的字符之前的字符; 存儲單元,用于存儲所述提取的字符和所述當(dāng)前正則表達(dá)式相對應(yīng)類別的信息。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括 節(jié)點(diǎn)關(guān)系單元,用于通過存儲單元將所述題目作為父節(jié)點(diǎn)存儲,同時(shí)存儲對應(yīng)的標(biāo)識、及提取的字符; 將所述題干、答案、選項(xiàng)、解析中的至少一個(gè)作為子節(jié)點(diǎn),并存儲所述子節(jié)點(diǎn)對應(yīng)的標(biāo)識、其對應(yīng)提取的字符、及其父節(jié)點(diǎn)標(biāo)識。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括 屬性單元,用于在所述存儲過程中,將音頻、視頻或圖片作為主節(jié)點(diǎn)的屬性數(shù)據(jù)一同存儲。
全文摘要
本發(fā)明提供了一種提取文檔中內(nèi)容的方法和裝置,本發(fā)明的方法包括遍歷多個(gè)正則表達(dá)式以匹配試題文檔中的字符;匹配到與當(dāng)前所述正則表達(dá)式中的字符串相同的字符后,提取所述字符之后至與下一個(gè)所述正則表達(dá)式中字符串相匹配的字符之前的字符;存儲所述提取的字符和所述當(dāng)前正則表達(dá)式相對應(yīng)類別的信息。可快速將試題類文檔結(jié)構(gòu)化,并提取各部分內(nèi)容存入數(shù)據(jù)庫中。從而便于試題類文檔的后續(xù)的修改、試題產(chǎn)品的制作等。提高了試題的再利用率,結(jié)構(gòu)化的數(shù)據(jù)采用XML格式,在不改變原有文件內(nèi)容的情況下,打破了以往按照固定結(jié)構(gòu)進(jìn)行數(shù)據(jù)錄入的模式。
文檔編號G06F17/30GK102982027SQ201110259119
公開日2013年3月20日 申請日期2011年9月2日 優(yōu)先權(quán)日2011年9月2日
發(fā)明者宋娟, 李少明, 翟因?yàn)?申請人:北大方正集團(tuán)有限公司, 北京北大方正電子有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1