亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于提取文檔結(jié)構(gòu)的方法和裝置的制作方法

文檔序號:6337982閱讀:192來源:國知局
專利名稱:用于提取文檔結(jié)構(gòu)的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及印刷前計算機(jī)排版領(lǐng)域,具體而言,涉及用于提取文檔結(jié)構(gòu)的方法和
直O(jiān)
背景技術(shù)
目前,文檔內(nèi)容信息提取主要分為兩種提取方式一種是簡單文本信息提?。涣硗庖环N是按照文檔段落樣式結(jié)構(gòu)進(jìn)行提取。前者只是簡單地對符合匹配規(guī)則的信息進(jìn)行文本提取,這些信息只反映了規(guī)則匹配基本要求,而不能反映這些命中信息在文檔中所處的位置或結(jié)構(gòu)。后者則可以反映命中信息在文檔中所處的結(jié)構(gòu)層次。一篇普通文檔結(jié)構(gòu)一般包括篇-章-節(jié)-段,這些主要通過識別文檔中的邏輯元素,如標(biāo)題、作者、章、節(jié)、段落、頁碼、圖表標(biāo)題等來完成,目前按照文檔結(jié)構(gòu)提取信息的方式就是按照這四種結(jié)構(gòu)劃分提取粒度,進(jìn)行不同層次內(nèi)容的規(guī)則匹配。這樣做的好處是提取過程清晰,規(guī)則匹配效率高,提高了規(guī)則匹配命中率。但是,當(dāng)提取粒度達(dá)到段層次時,提取方式轉(zhuǎn)化為使用普通文本信息提取的提取方式,雖然在大多數(shù)情況下,在段這個粒度按照這個方式提取可以滿足要求,但是對于辭書 (例如字典、詞典、百科全書)這種特殊的文檔結(jié)構(gòu),是以條目為主體,全面系統(tǒng)地介紹知識,這類書的重要信息都囊括在段內(nèi),段內(nèi)一般存在詞頭、音標(biāo)、例句等結(jié)構(gòu)。如圖1所示, 是辭書的一種典型詞條,包含詞頭、音標(biāo)、多個釋義和例句等。該詞條是辭書中的一個段落, 現(xiàn)有技術(shù)用普通文本信息提取這樣的規(guī)則匹配時總不免導(dǎo)致盲目的暴力匹配情況,在效率上不可取。

發(fā)明內(nèi)容
本發(fā)明旨在提供一種用于提取文檔結(jié)構(gòu)的方法和裝置,以解決現(xiàn)有技術(shù)將辭書段匹配為普通文本效率較低的問題。在本發(fā)明的實施例中,提供了一種用于提取文檔結(jié)構(gòu)的方法,包括獲取辭書的段;使用樹規(guī)則匹配段,以定位到段內(nèi)的各個項;提取所匹配的各個項的內(nèi)容,以組織成關(guān)于段的結(jié)構(gòu)化數(shù)據(jù)。在本發(fā)明的實施例中,提供了一種用于提取文檔結(jié)構(gòu)的裝置,包括獲取模塊,用于獲取辭書的段;匹配模塊,使用樹規(guī)則匹配段,以定位到段內(nèi)的各個項;提取模塊,用于提取所匹配的各個項的內(nèi)容,以組織成關(guān)于段的結(jié)構(gòu)化數(shù)據(jù)。本發(fā)明上述實施例的用于提取文檔結(jié)構(gòu)的方法和裝置因為使用樹規(guī)則匹配辭書段,所以克服了現(xiàn)有技術(shù)將辭書段匹配為普通文本效率較低的問題,達(dá)到了將辭書段高效地轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的效果。


此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中圖1示出了一個辭書段;圖2示出了根據(jù)本發(fā)明實施例的用于提取文檔結(jié)構(gòu)的方法的流程圖;圖3示出了根據(jù)本發(fā)明優(yōu)選實施例的二分迭代匹配最小單元樹的示意圖;圖4示出了根據(jù)本發(fā)明優(yōu)選實施例的二分迭代法進(jìn)行匹配的流程圖;圖5示出了根據(jù)本發(fā)明實施例的用于提取文檔結(jié)構(gòu)的裝置的示意圖。
具體實施例方式下面將參考附圖并結(jié)合實施例,來詳細(xì)說明本發(fā)明。圖2示出了根據(jù)本發(fā)明實施例的用于提取文檔結(jié)構(gòu)的方法的流程圖,包括步驟S10,獲取辭書的段;步驟S20,使用樹規(guī)則匹配段,以定位到段內(nèi)的各個項;步驟S30,提取所匹配的各個項的內(nèi)容,以組織成關(guān)于段的結(jié)構(gòu)化數(shù)據(jù)。現(xiàn)有技術(shù)用普通文本信息提取這樣的規(guī)則匹配時總不免導(dǎo)致盲目的暴力匹配情況,而本實施例中采用規(guī)則樹來匹配辭書段,所以提高了匹配辭書段的效率,從而可以高效率地將辭書段轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。優(yōu)選地,本方法還包括分析辭書關(guān)于條目的體例;創(chuàng)建樹規(guī)則,樹規(guī)則包括多個子規(guī)則,每個子規(guī)則包括體例關(guān)于條目中的一個項的定義,各個子規(guī)則相互之間的從屬關(guān)系和兄弟關(guān)系對應(yīng)于條目中各個項之間的關(guān)系,項的定義包括項的正則表達(dá)式、文本格式和/或排版效果。規(guī)則(條件)可以是文本格式,也可以是正則表達(dá)式包括文本關(guān)鍵字(詞)、特殊符號等,還可以是排版效果;對于滿足規(guī)則(條件)的內(nèi)容可能是提取特征的開始,也可能是提取特征的結(jié)尾,根據(jù)提取特征位置關(guān)系設(shè)置,規(guī)則(條件)設(shè)置有是否包含該內(nèi)容、是否重復(fù)等選項;對象化的內(nèi)容資源沒有任何形式的硬性規(guī)定,可以是內(nèi)存中一塊對象數(shù)據(jù), 也可以從外部文件中讀取。體例又可稱之為凡例,例如經(jīng)過分析后,某個字典的凡例總結(jié)如下條目釋義中, 屬于方言的標(biāo)注〈方〉,屬于古代用法的標(biāo)注〈古〉,屬于書面用語的標(biāo)注〈書〉,屬于口語用法的標(biāo)注< 口 >,屬于外來詞的標(biāo)注(外),屬于引申義的標(biāo)注(引)。觀察圖1可以看出,辭書段與普通的文字段有較大的區(qū)別。辭書段的內(nèi)容遵守一定的體例,辭書的各個段落通常在內(nèi)容上、排版效果上是相類似的。本優(yōu)選實施例根據(jù)這些段落的體例來創(chuàng)建樹規(guī)則, 從而可以很好地適應(yīng)辭書段的特點,有利于提取結(jié)構(gòu)化內(nèi)容。優(yōu)選地,采用二分迭代法以使用樹規(guī)則匹配段。二分迭代法比較簡單,很容易通過計算機(jī)編程實現(xiàn)。優(yōu)選地,采用二分迭代法以使用樹規(guī)則匹配段包括從段的起始位置開始,按照樹規(guī)則中各個子規(guī)則的兄弟順序,逐個使用各個子規(guī)則匹配段,其中,如果當(dāng)前子規(guī)則匹配成功,則對匹配成功的內(nèi)容繼續(xù)使用匹配成功的子規(guī)則的孩子子規(guī)則進(jìn)行匹配,其中,按照各個孩子子規(guī)則的兄弟順序繼續(xù)執(zhí)行匹配,直到匹配到最底層的孩子規(guī)則;如果當(dāng)前子規(guī)則匹配不成功,則使用當(dāng)前子規(guī)則的下一個兄弟子規(guī)則繼續(xù)執(zhí)行匹配,直到匹配到最后一個子規(guī)則。
匹配規(guī)則是自定義的,規(guī)則的結(jié)構(gòu)化體現(xiàn)在規(guī)則的上下級細(xì)化上,以樹形結(jié)構(gòu)串聯(lián),下級規(guī)則是對上級規(guī)則的補(bǔ)充,即下級規(guī)則是對上級規(guī)則匹配后結(jié)果的再提取。圖3示出了根據(jù)本發(fā)明優(yōu)選實施例的二分迭代匹配最小單元樹的示意圖,匹配的過程是一個成功與不成功的動態(tài)迭代過程,具體體現(xiàn)可以用二分迭代匹配樹(如圖3)描述,其中S為匹配資源,R為匹配規(guī)則,Ml為R匹配結(jié)果,A2為R匹配不成功的結(jié)果,RC為 R下級規(guī)則,RB為R平級右兄弟規(guī)則。圖4示出了根據(jù)本發(fā)明優(yōu)選實施例的二分迭代法進(jìn)行匹配的流程圖。匹配提取項內(nèi)容,可以理解為對辭書段進(jìn)行拆分,在計算機(jī)編程上,上述過程描述如下(1)用R規(guī)則(即樹規(guī)則)匹配待匹配的對象化內(nèi)容資源塊A(即辭書段);(2)判斷是否匹配成功;(4)若匹配不成功,判斷規(guī)則R的相鄰右兄弟規(guī)則RB是否存在;(5)如果(1)中規(guī)則R的相鄰右兄弟規(guī)則RB存在,則把規(guī)則更新到相鄰右兄弟規(guī)則RB,待匹配的對象化內(nèi)容資源A不變,然后回到步驟(1);(6)如果(1)中規(guī)則的相鄰右兄弟規(guī)則RB不存在,則待匹配的對象化內(nèi)容資源的拆分就到此結(jié)束;(3)若匹配成功,把(1)中待匹配的對象化內(nèi)容資源塊分割成兩塊,一塊是匹配到的內(nèi)容資源塊Ml和匹配不成功的內(nèi)容資源塊A2 ;將(1)中的規(guī)則分成兩個區(qū)域孩子規(guī)則集RC和相鄰右兄弟規(guī)則RB ;(7)判斷孩子規(guī)則集RC是否存在;(8)如果存在,將(3)中分割得到的Ml對象內(nèi)容資源進(jìn)行進(jìn)一步提取,賦值給A, 將孩子規(guī)則集RC賦值給R,用(3)中產(chǎn)生的孩子規(guī)則集RC進(jìn)行匹配拆分,此時進(jìn)入到步驟 ⑴中;(9)如果孩子規(guī)則集RC不存在,則對Ml的拆分就結(jié)束了 ;(10)判斷(3)中產(chǎn)生的對象化內(nèi)容資源A2、相鄰右兄弟RB是否存在;(11)如果存在,將(3)中分割得到的A2對象內(nèi)容資源進(jìn)行進(jìn)一步提取,賦值給A, 將相鄰右兄弟規(guī)則RB賦值給R,用( 中產(chǎn)生的相鄰右兄弟規(guī)則RB進(jìn)行匹配拆分,此時進(jìn)入到步驟(1)中;(12)如果對象化內(nèi)容資源A2、相鄰右兄弟RB不存在,則A2的拆分結(jié)束。上述步驟中,分割產(chǎn)生新的內(nèi)容保留原有內(nèi)容的任何信息,新內(nèi)容也是對象化內(nèi)容,記錄新內(nèi)容在原始內(nèi)容中的開始和結(jié)束位置。為后續(xù)分割塊提供方便,也為提取到標(biāo)簽定位提高效率,免去因查找引起定位不準(zhǔn)確、影響效率等問題。對新的對象化的內(nèi)容資源進(jìn)一步分割提取。段內(nèi)識別是采取使用規(guī)則(條件)來對整個對象化內(nèi)容資源進(jìn)行順序分割, 在一段范圍內(nèi)提取多個標(biāo)簽。 優(yōu)選地,樹規(guī)則包括詞條、詞頭、音標(biāo)、釋義、詞性、義項、語體、義、例證、例和比
喻,其中,詞頭、音標(biāo)和釋義是詞條的孩子子規(guī)則,詞性、義項和比喻是釋義的孩子子規(guī)則, 語體、義和例證是義項的孩子子規(guī)則,例是例證的孩子子規(guī)則,詞頭、音標(biāo)和釋義相互之間是兄弟子規(guī)則,詞性、義項和比喻相互之間是兄弟子規(guī)則,語體、義和例證相互之間是兄弟子規(guī)則。該樹規(guī)則顯然可以很好地適用于詞典類辭書。常見的辭書還有百科全書等,本發(fā)明顯然不限定于詞典類的樹規(guī)則,還可以針對其他辭書創(chuàng)建相應(yīng)的樹規(guī)則。
優(yōu)選地,使用上述的樹規(guī)則匹配段包括(a)使用詞條的定義匹配段,如果段具有詞條的排版效果,則匹配成功;(b)使用詞頭的定義匹配詞條匹配成功的段;(c)在匹配不成功的內(nèi)容中,依次使用音標(biāo)的定義和釋義的定義進(jìn)行匹配;(d)在釋義的定義匹配成功的內(nèi)容中,依次使用詞性的定義、義項的定義和比喻的定義進(jìn)行匹配;(e)在義項的定義匹配成功的內(nèi)容中,依次使用語體的定義、義的定義和例證的定義進(jìn)行匹配;(f)在例證的定義匹配成功的內(nèi)容中,使用例的定義進(jìn)行匹配。對于圖1的辭書段,該優(yōu)選實施例具體步驟包括(a)先提取詞條,不同詞條間具有相同字體信息;(b)接著在匹配不成功的對象化內(nèi)容資源中提取詞頭,詞頭具有相同的字體信息,是提取特征的開始;(C)接著在匹配不成功的對象化內(nèi)容資源中提取音標(biāo),音標(biāo)具有相同的文本格式;(d)接著在匹配不成功的對象化內(nèi)容資源中提取釋義,釋義分成若干點進(jìn)行闡述,此時通過序號 ΘΘΘΘΘ 進(jìn)行重復(fù)分割匹配,該步驟使用二分迭代匹配樹進(jìn)行匹配,匹配成功的內(nèi)容資源塊用孩子規(guī)則進(jìn)行匹配,匹配不成功就用兄弟規(guī)則繼續(xù)匹配;(e)在(d)中拆分得到釋義對象化內(nèi)容中進(jìn)一步拆分詞性、義項、比喻;(f)在(e)中拆分得到義項中進(jìn)一步拆分語體、義、例證; (g)在(f)中拆分得到例證中有多個例子時進(jìn)一步分割拆分例。因此建立對象化內(nèi)容的分割和提取條件及其與結(jié)構(gòu)化關(guān)鍵字的對應(yīng)關(guān)系、提取規(guī)則間的層級關(guān)系可以用一個xml文件表示。按照提取的內(nèi)容不斷細(xì)化反解的原則,先對對象化內(nèi)容資源進(jìn)行拆分、標(biāo)志,形成片段化的內(nèi)容資源,再對片段化的內(nèi)容資源進(jìn)一步分割提取。系統(tǒng)自動提取內(nèi)容形成結(jié)構(gòu)化內(nèi)容。提取的結(jié)構(gòu)化內(nèi)容符合XML標(biāo)準(zhǔn)規(guī)范。具體如下<根節(jié)點><字體規(guī)則字體名=〃黑體〃字號=〃 14.00〃提取為=〃詞條〃 /><字體規(guī)則字體名=〃黑體〃字號=〃 14.00〃內(nèi)容開始=〃 true"包含內(nèi)容 ="true"提取為=〃詞頭〃 />〈文本樣式規(guī)則表達(dá)式=〃音標(biāo)樣式〃包含內(nèi)容=〃true “提取為=〃音
標(biāo)"/>〈文本規(guī)則表達(dá)式間隔分割塊"包含內(nèi)容 ="false"重復(fù)=〃 true"提取為=〃釋義〃 />〈文本規(guī)則表達(dá)式二"過濾[ΟΘ€) ΘΦ ]"包含內(nèi)容="true" 提取為="“/>〈文本規(guī)則表達(dá)式=〃所有詞性的范圍〃內(nèi)容的開始=〃true “包含內(nèi)容
>
開始到 間的內(nèi)容或到結(jié)尾分割〃包含內(nèi)容=〃 true"
="true"提取為=〃詞性"〈文本規(guī)則表達(dá)式= 提取為="義項"/>〈文本規(guī)則表達(dá)式= ="語體"/>〈文本規(guī)則表達(dá)式= ="義"/>〈文本規(guī)則表達(dá)式
開始出現(xiàn)在 間的內(nèi)容〃包含內(nèi)容=〃 true"提取為 []前的內(nèi)容或到結(jié)尾"包含內(nèi)容="true"提取為 []到結(jié)尾的內(nèi)容〃包含內(nèi)容=〃 true"提取為=〃例證〃 />〈文本規(guī)則表達(dá)式=〃過濾〃包含內(nèi)容=〃true"提取為=〃 “/>〈文本規(guī)則表達(dá)式=〃I間隔分割塊〃包含內(nèi)容=〃 true"重復(fù)=〃 true"提取為="例"/>〈匹配到段尾表達(dá)式=〃只有一個例內(nèi)容到結(jié)束〃包含內(nèi)容=〃true"提取為 ="例〃 />〈文本規(guī)則表達(dá)式=〃 到結(jié)尾的內(nèi)容〃包含內(nèi)容=〃 true “提取為=〃比
喻"/>〈匹配到段尾表達(dá)式=〃當(dāng)前位置段尾內(nèi)容〃包含內(nèi)容=〃 true"提取為=〃 釋義"/>〈文本規(guī)則表達(dá)式=〃所有詞性的范圍〃內(nèi)容的開始=〃 true “包含內(nèi)容 ="true"提取為=〃詞性〃 />〈文本規(guī)則表達(dá)式=〃開始到 間的內(nèi)容或到結(jié)尾分割〃包含內(nèi)容=〃 true" 提取為="義項"/>〈文本規(guī)則表達(dá)式=〃開始出現(xiàn)在 間的內(nèi)容〃包含內(nèi)容=〃 true"提取為=〃語體〃 />〈文本規(guī)則表達(dá)式=〃[]前的內(nèi)容或到結(jié)尾〃包含內(nèi)容=〃 true" 提取為=〃義〃 />〈文本規(guī)則表達(dá)式=〃[]到結(jié)尾的內(nèi)容〃包含內(nèi)容=〃 true"提取為 =〃例證〃 />〈文本規(guī)則表達(dá)式=〃過濾〃包含內(nèi)容=〃true"提取為=〃 “/>〈文本規(guī)則表達(dá)式=〃I間隔分割塊〃包含內(nèi)容=〃 true"重復(fù)=〃 true"提取為="例"/>〈匹配到段尾表達(dá)式=〃只有一個例內(nèi)容到結(jié)束〃包含內(nèi)容=〃true"提取為 ="例〃 /></根節(jié)點> 優(yōu)選地,使用XML文件保存樹規(guī)則。XML是通用的結(jié)構(gòu)化語言,適合處理該樹規(guī)則。 以圖1為例詞頭、音標(biāo)、詞性、每一個釋義、義項,例句、語體等都希望能體現(xiàn)出來,可以把希望拆分的結(jié)果用一個ml文件表示如下<Book xml space = 〃 preserve" title= 〃奪詞條〃 >〈詞條〉<詞頭 > 奪</詞頭>〈音標(biāo) >du </音標(biāo)〉〈釋義 > <詞性> _ </詞性>< 義項 >〈義〉強(qiáng)?。粨?lt;/義〉〈例證 > :< 例 > 掠 I </例>〈例〉巧取豪 I </例〉說明書6/7頁⑶ 102486787 八〔0082〕〈例〉從歹徒手里 過兇器V例〉
〔0083〕〈丨例證〉
〔0084〕〈丨義項〉
〔0085〕〈比喻〉0強(qiáng)詞 理?!碔比喻〉
〔0086〕V 釋義〉
〔0087〕〈釋義〉@
〔0088〕〈詞性〉V詞性〉
〔0089〕〈義項〉
^00903〈義〉爭先取到〈丨義〉
〔0091〕〈例證〉〈例〉 冠|〈丨例〉
〔0092〕〈例〉 紅旗。V例〉
〔0093〕〈丨例證〉
〔0094〕〈丨義項〉
〔0095〕V 釋義〉
〔0096〕〈釋義〉@
〔0097〕〈義項〉
〔0098〕〈義〉勝過;壓倒〈I義〉
〔0099〕〈例證〉〈例〉巧 天工|〈丨例〉
〔0100〕〈例〉先聲 人。V例〉
〔0101〕V 例證〉
〔0102〕V 義項〉
〔0103〕V 釋義〉
〔0104〕〈釋義〉0
〔0105〕〈義項〉
〔0106〕〈義〉使失去V義〉
〔0107〕〈例證〉〈例〉剝 ?!簇?br> 〔0108〕V 例證〉
〔0109〕V 義項〉
〔0110〕^ 釋義〉
〔0川]〈釋義
〔0112〕〈義項〉
〔0113〕〈語體X書乂/語體〉
〔0114〕〈義〉失去V義〉
〔0115〕〈例證〉〈例〉勿 農(nóng)時?!?例〉
〔0116〕V 例證〉
〔0117〕“義項〉
〔0118〕V 釋義〉
〔0119〕〈7 詞條〉
</Book>圖5示出了根據(jù)本發(fā)明實施例的用于提取文檔結(jié)構(gòu)的裝置的示意圖,包括獲取模塊10,用于獲取辭書的段;匹配模塊20,使用樹規(guī)則匹配段,以定位到段內(nèi)的各個項;提取模塊30,用于提取所匹配的各個項的內(nèi)容,以組織成關(guān)于段的結(jié)構(gòu)化數(shù)據(jù)。本裝置可以高效率地將辭書段轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。優(yōu)選地,本裝置還包括分析模塊,用于分析辭書關(guān)于條目的體例;創(chuàng)建模塊,用于創(chuàng)建樹規(guī)則,樹規(guī)則包括多個子規(guī)則,每個子規(guī)則包括體例關(guān)于條目中的一個項的定義, 各個子規(guī)則相互之間的從屬關(guān)系和兄弟關(guān)系對應(yīng)于條目中各個項之間的關(guān)系,項的定義包括項的正則表達(dá)式、文本格式和/或排版效果。本優(yōu)選實施例可以很好地適應(yīng)辭書段的特點,有利于提取結(jié)構(gòu)化內(nèi)容。優(yōu)選地,匹配模塊采用二分迭代法以使用樹規(guī)則匹配段。二分迭代法比較簡單,很容易通過計算機(jī)編程實現(xiàn)。從以上的描述中可以看出,在本發(fā)明中,辭書段已經(jīng)不是最小的提取粒度,本發(fā)明在段內(nèi)重新劃分樣式結(jié)構(gòu),并按照這些結(jié)構(gòu)來劃分提取粒度,從而可以獲得有意義的信息。 本發(fā)明能夠有效利用規(guī)則細(xì)化方式對匹配對象辭書段進(jìn)行不同程度地提取,提高了提取命中率,可以滿足高效,準(zhǔn)確的辭書段內(nèi)內(nèi)容提取需求。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種用于提取文檔結(jié)構(gòu)的方法,其特征在于,包括獲取辭書的段;使用樹規(guī)則匹配所述段,以定位到所述段內(nèi)的各個項;提取所匹配的各個項的內(nèi)容,以組織成關(guān)于所述段的結(jié)構(gòu)化數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括分析所述辭書關(guān)于條目的體例;創(chuàng)建所述樹規(guī)則,所述樹規(guī)則包括多個子規(guī)則,每個所述子規(guī)則包括所述體例關(guān)于條目中的一個項的定義,各個所述子規(guī)則相互之間的從屬關(guān)系和兄弟關(guān)系對應(yīng)于所述條目中各個項之間的關(guān)系,所述項的定義包括項的正則表達(dá)式、文本格式和/或排版效果。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,采用二分迭代法以使用所述樹規(guī)則匹配所述段。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,采用二分迭代法以使用所述樹規(guī)則匹配所述段包括從所述段的起始位置開始,按照所述樹規(guī)則中各個子規(guī)則的兄弟順序,逐個使用各個子規(guī)則匹配所述段,其中,如果當(dāng)前子規(guī)則匹配成功,則對匹配成功的內(nèi)容繼續(xù)使用所述匹配成功的子規(guī)則的孩子子規(guī)則進(jìn)行匹配,其中,按照各個孩子子規(guī)則的兄弟順序繼續(xù)執(zhí)行匹配,直到匹配到最底層的孩子規(guī)則;如果當(dāng)前子規(guī)則匹配不成功,則使用當(dāng)前子規(guī)則的下一個兄弟子規(guī)則繼續(xù)執(zhí)行匹配, 直到匹配到最后一個子規(guī)則。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述樹規(guī)則包括詞條、詞頭、音標(biāo)、釋義、詞性、義項、語體、義、例證、例和比喻,其中,詞頭、音標(biāo)和釋義是詞條的孩子子規(guī)則,詞性、義項和比喻是釋義的孩子子規(guī)則,語體、義和例證是義項的孩子子規(guī)則,例是例證的孩子子規(guī)則,詞頭、音標(biāo)和釋義相互之間是兄弟子規(guī)則,詞性、義項和比喻相互之間是兄弟子規(guī)則,語體、義和例證相互之間是兄弟子規(guī)則。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,使用樹規(guī)則匹配所述段包括(a)使用詞條的定義匹配所述段,如果所述段具有所述詞條的排版效果,則匹配成功;(b)使用詞頭的定義匹配所述詞條匹配成功的段;(c)在匹配不成功的內(nèi)容中,依次使用音標(biāo)的定義和釋義的定義進(jìn)行匹配;(d)在釋義的定義匹配成功的內(nèi)容中,依次使用詞性的定義、義項的定義和比喻的定義進(jìn)行匹配;(e)在義項的定義匹配成功的內(nèi)容中,依次使用語體的定義、義的定義和例證的定義進(jìn)行匹配;(f)在例證的定義匹配成功的內(nèi)容中,使用例的定義進(jìn)行匹配。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,使用XML文件保存所述樹規(guī)則。
8.一種用于提取文檔結(jié)構(gòu)的裝置,其特征在于,包括獲取模塊,用于獲取辭書的段;匹配模塊,使用樹規(guī)則匹配所述段,以定位到所述段內(nèi)的各個項;提取模塊,用于提取所匹配的各個項的內(nèi)容,以組織成關(guān)于所述段的結(jié)構(gòu)化數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括 分析模塊,用于分析所述辭書關(guān)于條目的體例;創(chuàng)建模塊,用于創(chuàng)建所述樹規(guī)則,所述樹規(guī)則包括多個子規(guī)則,每個所述子規(guī)則包括所述體例關(guān)于條目中的一個項的定義,各個所述子規(guī)則相互之間的從屬關(guān)系和兄弟關(guān)系對應(yīng)于所述條目中各個項之間的關(guān)系,所述項的定義包括項的正則表達(dá)式、文本格式和/或排版效果。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述匹配模塊采用二分迭代法以使用所述樹規(guī)則匹配所述段。
全文摘要
本發(fā)明提供了一種用于提取文檔結(jié)構(gòu)的方法,包括獲取辭書的段;使用樹規(guī)則匹配段,以定位到段內(nèi)的各個項;提取所匹配的各個項的內(nèi)容,以組織成關(guān)于段的結(jié)構(gòu)化數(shù)據(jù)。本發(fā)明還提供了一種用于提取文檔結(jié)構(gòu)的裝置,包括獲取模塊,用于獲取辭書的段;匹配模塊,使用樹規(guī)則匹配段,以定位到段內(nèi)的各個項;提取模塊,用于提取所匹配的各個項的內(nèi)容,以組織成關(guān)于段的結(jié)構(gòu)化數(shù)據(jù)。本發(fā)明可以將辭書段高效地轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。
文檔編號G06F17/27GK102486787SQ20101057813
公開日2012年6月6日 申請日期2010年12月2日 優(yōu)先權(quán)日2010年12月2日
發(fā)明者余忠華, 曾建英, 繆萍 申請人:北京北大方正電子有限公司, 北大方正集團(tuán)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1