專利名稱:一種基于歷史信息的自然語言層次句法分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種對自然語言進(jìn)行句法分析的方法,通過層次分析實現(xiàn)復(fù)雜 組塊識別,屬于計算語言學(xué)中的自然語言處理領(lǐng)域。
背景技術(shù):
句法分析(Syntactic parsing)是自然語言處理的 一個基本問題,同時也 是公認(rèn)的一個研究難題。它的任務(wù)是根據(jù)給定的語法,自動推導(dǎo)出句子的語法 結(jié)構(gòu),即句子所包含的句法單位以及這些句法單位之間的關(guān)系。句法分析的目 的主要有兩個 一個是確定句子所包含的"譜系"結(jié)構(gòu);另一個是確定句子的 組成成份之間的關(guān)系。通常,其輸入為單個句子,即單詞之間的線性次序,而 輸出則為一個非線性的數(shù)據(jù)結(jié)構(gòu),如短語結(jié)構(gòu)樹(如句法樹)或有向無環(huán)圖(如 依存關(guān)系圖)等。
句法分析結(jié)果的好壞直接影響到對自然語言句子的解釋和理解。也就是 說,句法分析是保證各種應(yīng)用系統(tǒng)能夠在內(nèi)容層面上處理自然語言的核心技 術(shù)。作為機(jī)器翻譯、信息檢索、信息抽取、語音識別以及語料自動處理等眾多 語言處理的基石,句法分析有著舉足輕重的地位。在另一方面,句法分析中所 使用的技術(shù)還可以用于解決生物信息學(xué)領(lǐng)域,諸如RNA分子結(jié)構(gòu)探測等與句 法分析相似的問題。此外,語言是思維的載體,對自然語言句法分析的研究有 助于研究人類思維的本質(zhì)。因此,自然語言句法分析技術(shù)的研究具有重要的理 論意義和實用價值。
目前,主要的句法分析模型可以概括為以下三類
1.基于概率上下文無關(guān)文法的句法分析模型
概率上下文無關(guān)文法(Probabilistic Context Free Grammar,簡稱PCFG) 是最早也是最常用的句法分析模型,它是一個為規(guī)則增添了概率的簡單CFG, 指明了不同重寫規(guī)則的可能性大小。利用PCFG,可以通過計算分析樹中所使 用到的規(guī)則的概率的乘積值作為分析樹的概率值。PCFG對于樹結(jié)構(gòu)來說是最簡單、最自然的概率模型,其數(shù)學(xué)背景很容易理解。但傳統(tǒng)PCFG的最大局 限是基于一些非實際成立的上下文無關(guān)獨立性條件,以及給定的文法不能覆蓋 所有語言現(xiàn)象,因此,得到的句法分析結(jié)果也往往不盡人意。為放寬PCFG 所做的獨立性假設(shè)條件,很多研究者轉(zhuǎn)向研究詞匯化的概率上下文無關(guān)文法。
2. 基于詞匯化的概率上下文無關(guān)文法的句法分析模型
詞匯化PCFG指在句法分析樹中,每個非終極符都與某個單詞(也可稱為 此非終極符的中心詞,可以包括其詞性)相關(guān)聯(lián)。Collins實現(xiàn)了基于中心詞 驅(qū)動的統(tǒng)計句法分析模型,與前者的最大不同是后者是中心詞驅(qū)動的模型,每 個推導(dǎo)規(guī)則(最底層規(guī)則除外)的右部分為中心非終極符、左右修飾符三部分, 左右修飾符概率的計算是基于中心非終極符為條件的。為解決數(shù)據(jù)稀疏問題, 對詞匯化上下文無關(guān)規(guī)則進(jìn)行分解,并在計算概率時采用回退平滑技術(shù),很好 地解決了 PCFG的覆蓋率問題。但由于句子的表達(dá)實際上是與上下文相關(guān)的, 因此,上述方法的結(jié)果仍不盡人意。
3. 基于歷史信息的句法分析模型
顧名思義,在基于歷史信息的句法分析模型中,需要依據(jù)前面已做的"決 策"信息,即歷史信息,來預(yù)測下一步行動。Ratnaparkhi將句法樹的建立轉(zhuǎn) 化為一個自底向上的決策系列問題,系統(tǒng)由三大功能模塊組成詞性標(biāo)記模塊、 組塊識別模塊和基于組塊分析結(jié)果的句法樹構(gòu)建模塊。依據(jù)各個子模塊中所采 取不同的"決策行為",所利用的上下文信息包括前后兩單元基本信息和前面 兩單元的決策信息等等,并通過釆用最大熵模型進(jìn)行參數(shù)學(xué)習(xí)。
目前,由于起步較晚、樹庫資源缺乏等原因,中文句法分析技術(shù)遠(yuǎn)不如英 文句法分析的發(fā)展。己有的中文句法分析器并不能滿足上層應(yīng)用的需要,中文 句法分析已成為了制約中文信息處理進(jìn)一步發(fā)展的瓶頸。以中文語義作用標(biāo)注 (SRL, Semantic Role Labeling)為例,基于正確的中文句法分析結(jié)果,中 文SRL的性能Fl值達(dá)93%,基于中文自動句法分析模型的輸出結(jié)果,得到 的中文SRL精確率為63%,兩者相差髙達(dá)30%。
因此,尋求新的自然語言的句法分析方法,使之適用于包括中文在內(nèi)的各 種自然語言,提髙句法分析的準(zhǔn)確度,是信息處理技術(shù)發(fā)展的需要。本發(fā)明目的是提供一種基于歷史信息的自然語言層次句法分析方法,以較 準(zhǔn)確地實現(xiàn)句法樹的構(gòu)建,達(dá)到較好的分析性能。
為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是 一種基于歷史信息的自然語 言層次句法分析方法,對已完成分詞的句子,首先將各個詞看成是初始組塊, 采用分層方式,根據(jù)上下文信息進(jìn)行組塊識別,將可以組合的組塊構(gòu)成新的組 塊,獲得中間結(jié)果,對中間結(jié)果重復(fù)根據(jù)上下文信息進(jìn)行組塊識別及組合,直 至只包含一個組塊為止,該組塊為句法樹的根結(jié)點,由此獲得表達(dá)自然語言的 句法樹。
上文中,當(dāng)待處理的句子是中文句子時,通常先要進(jìn)行分詞;如果待處理 的句子是英文等有單詞分隔的句子,或者是分好詞的中文句子時,則可以直接 進(jìn)行句法分析處理。
上述技術(shù)方案中,所述組塊識別及組合的方法是,采用BIESO標(biāo)記方法, 對某一組塊類別X, B-X表示開始新的組塊X, I-X表示合并至前一組塊,E-X 表示結(jié)束前一組塊,S-X表示單獨構(gòu)成組塊X, O表示保持不變,根據(jù)句法分 析的特征模板結(jié)合上下文特征,通過訓(xùn)練過程和分析過程,釆用分類器實現(xiàn)組 塊的識別和組合。 一旦對某個中間結(jié)果內(nèi)的各個組塊標(biāo)記完畢,則調(diào)用組塊合 并程序?qū)⒔M塊進(jìn)行合并。例如,假設(shè)某中間結(jié)果為"NP(他)VC(是)NP(—位 學(xué)生)PU(。)",并且各組合的標(biāo)記依次為"0 B-VP E-VP 0",則合并后的結(jié) 果為"NP(他)VP(是一位學(xué)生)PU(。)"。
其中,所述句法分析的特征模板包括
cons(ii):第ii棵樹的中心詞、成分標(biāo)記以及決策標(biāo)記的聯(lián)合信息,當(dāng)n20 時,決策標(biāo)記省略
cons(n":第n棵樹的中心詞的詞性、成分標(biāo)記以及決策標(biāo)記的聯(lián)合信息, 當(dāng)n20時,決策標(biāo)記省略;
COnS(n**):第n棵樹的成分標(biāo)記以及決策標(biāo)記的聯(lián)合信息,當(dāng)iiW時, 決策標(biāo)記省略;
所述上下文特征包括下列5類
第l類cons(n), cons(n", cons(n**),其中誦2Sn^3共18個;第2類cons(m, n), cons(m*, n), cons(m, n*), cons(m*, n*), cons(m", n), cons(m**, n*), cons(m*, n**), cons(m, n**), cons(m**, n**), 其中(m,n)-(-l, 0) or (0, l)共18個;
第3類cons(O, m, n), cons(O, m*, n*), cons(O, m*, n), cons(O, m, n*), cons(0*, m*, n*), (m, n)= (1, 2), (-2, -1) or (-1, 1), and cons(l, 2, 3), cons(l*, 2*, 3*), cons(l", 2", 3**), cons(2*, 3*, 4", cons(2", 3", 4")共20個;
第4類cons(O, 1, 2, 3), cons(O, 1*, 2*, 3*), cons(0*, 1*, 2*, 3*), cons(l*, 2*, 3*, 4*), cons(l", 2", 3**, 4*"共5個;
第5類cons(0*, 1*, 2*, 3*, 4*), cons(O", 1**, 2", 3", 4*"共2個。
上述技術(shù)方案中,所述訓(xùn)練過程是,將特征模板和上下文特征信息輸入分 類器中,構(gòu)建用于層次句法分析的分類器,從樹庫中提取詞性標(biāo)記訓(xùn)練語料、 基本短語識別訓(xùn)練語料和層次句法分析訓(xùn)練語料,采用最大熵模型,依次對詞 性標(biāo)記訓(xùn)練語料、基本短語識別訓(xùn)練語料和層次句法分析訓(xùn)練語料進(jìn)行訓(xùn)練, 得到最大熵模型文件;
其中,所述層次句法分析訓(xùn)練語料的提取方法是,將訓(xùn)練集中的句法樹進(jìn) 行預(yù)處理,轉(zhuǎn)換為層次句法樹,自底向上,從層次句法樹的基本短語識別結(jié)果 開始,根據(jù)特征模板,分別為每個組塊抽取上下文特征,并得到組塊的類別標(biāo) 記;每個組塊的上下文特征和組塊類別標(biāo)記共同構(gòu)成一個訓(xùn)練樣例;向上遞推 一層,同樣為各組塊抽取上下文特征和組塊的標(biāo)記類別;此過程直至產(chǎn)生根結(jié) 點為止;
所述分析過程是,對待分析的句子,用層次分析的方法,反復(fù)調(diào)用訓(xùn)練過 的分類器,進(jìn)行組塊的合并,直至實現(xiàn)整個句法樹的結(jié)果輸出。 上述技術(shù)方案中,所述的分層組塊識別及組合方法包括
(1) 詞性標(biāo)記對給定句子進(jìn)行詞性標(biāo)注,保留前N種最優(yōu)的詞性標(biāo)記系 列結(jié)果
(2) 基本短語識別分別對步驟(l)的N種詞性標(biāo)記系列結(jié)果,進(jìn)行基本短 語識別,最后保留前N種最優(yōu)的基本短語識別結(jié)果;
(3) 層次句法分析以步驟(2)的N種基本短語識別結(jié)果為輸入,最終輸出 最優(yōu)的層次句法樹結(jié)果,根據(jù)最優(yōu)層次句法樹,消除層次樹中的重復(fù)結(jié)點得到最終的句法樹輸出結(jié)果;
其中,N取10 20的整數(shù)。N值過大,解析過程中將保留太多的無用的 中間結(jié)果,增加系統(tǒng)開銷;而N值過小,則可能會丟失一些正確的中間結(jié)果。
優(yōu)選的技術(shù)方案,所述N為20。
句法分析是自然語言處理的一個基本問題。它指的是根據(jù)給定的語法,自 動推導(dǎo)出句子的語法結(jié)構(gòu),即句子所包含的句法單位和這些句法單位之間的關(guān) 系。句法分析的首要問題是歧義,即使對于一個很短的句子,構(gòu)建出的符合語 法規(guī)則的句法樹仍可以有成百上千種,很難判斷哪棵候選句法樹是正確的或最 優(yōu)的。因此,句法分析需要解決的兩個關(guān)鍵子問題l)怎樣表示一棵樹;2)怎 樣對每棵句法樹打分。
目前,大多數(shù)基于統(tǒng)計的句法分析器試圖將一棵句法樹表示為一系列的決 策,并為每個決策賦予概率值或分值,最后將各決策分值乘積作為整個句法樹 的分值。例如在概率上下文無關(guān)文法(Probabilistic Context Free Grammar, PCFG)模型中,句法樹通常表示為一系列的上下文無關(guān)的產(chǎn)生式(即文法規(guī) 則);各個產(chǎn)生式的概率累積作為整棵句法樹的概率。
本方案以另一種方式來解決上述兩個關(guān)鍵問題一_基于歷史信息的層次 句法分析方法給定包含多個組塊的中間結(jié)果(最初,每個詞可看作一個中間 結(jié)果),判斷哪些組塊能夠構(gòu)成新的組塊,這樣便得到了新的中間結(jié)果,新的 結(jié)果往往較原中間結(jié)果含有較少組塊;基于新產(chǎn)生的中間結(jié)果,重復(fù)上述步驟 直至中間結(jié)果中只包含一個組塊為止,此組塊即句法樹的根結(jié)點。每棵句法樹 的分值都為每層決策分值的乘積。
上述技術(shù)方案既采用了基于歷史信息、以動態(tài)的方式獲取可利用的上下文 信息,利用機(jī)器學(xué)習(xí)的方法(如最大熵、SVM等),正確、可靠地預(yù)測下一個 決策,實現(xiàn)了句法樹的生成。
由于上述技術(shù)方案運用,本發(fā)明與現(xiàn)有技術(shù)相比具有下列優(yōu)點
1.本發(fā)明提出了一個基于歷史信息的層次句法分析方法,該方法視句法 樹的構(gòu)建為一個層次處理遞進(jìn)的過程,在每層處理過程中,優(yōu)先識別出容易識 別的組塊,這樣就能提供更豐富的上下文信息進(jìn)行復(fù)雜組塊識別;未被合并的 組塊和新識別產(chǎn)生的組塊共同構(gòu)成下步處理的輸入,重復(fù)此過程直至識別出根結(jié)點。在生成某新組塊之前,其所有兒子結(jié)點必須已經(jīng)生成;低層的組塊總是 預(yù)先生成,這樣更能提髙決策預(yù)測的正確率,從而提髙了句法分析的性能。
2.實驗證明,本發(fā)明的方法簡單有效,在句法分析性能方面優(yōu)于目前現(xiàn) 有的基于歷史信息的方法另外,此方法的性能雖略遜色于基于中心詞驅(qū)動的 統(tǒng)計句法分析模型,但其效率遠(yuǎn)髙于后者,兩者的時間復(fù)雜度分別為O(n"和 0(n5),體現(xiàn)了本方案的快速有效性。
附圖1為本發(fā)明實施例一中執(zhí)行流程示意圖
附圖2為本發(fā)明實施例二中在層次句法分析過程中,根據(jù)當(dāng)前組塊的上下 文和預(yù)先制定的特征模板,得到的上下文特征的示意
附圖3為本發(fā)明實施例二中采用的堆數(shù)組數(shù)據(jù)示意圖。
具體實施方式
下面結(jié)合附圖及實施例對本發(fā)明作進(jìn)一步描述
實施例一參見附圖l所示, 一種基于歷史信息的層次句法分析,對于任 意一個需要處理的句子,執(zhí)行以下的步驟
① 若句子為中文,并且未進(jìn)行分詞,則調(diào)用分詞模塊對句子進(jìn)行分詞;若 句子為英文,或已經(jīng)分好詞的中文,則跳過此步;
② 調(diào)用詞性標(biāo)注模塊,即對句子中的各個詞求其詞性;保留前K種最優(yōu) 的標(biāo)注結(jié)果;
③ 分別就前K種最優(yōu)的詞性標(biāo)注結(jié)果,進(jìn)行基本短語識別;最終保留前K 種最優(yōu)的基本短語識別結(jié)果;
④ 根據(jù)每個基本短語識別結(jié)果中的組塊的個數(shù),分別將其存入對應(yīng)的數(shù)組 單元中,例如,如果基本短語識別結(jié)果中包含有m個組塊,則將其存入數(shù)組單 元heap[m]中。heap[m]是一個堆結(jié)構(gòu),其存放的是長度為m(即包括m個組塊) 的中間結(jié)果;
for i = n to 2 do⑥/*11為句子單詞數(shù)*/
⑥for j = 1 to lheap[i]l do⑦⑧/*|heap[i] |為堆heap[i]中的中間結(jié)果個數(shù)*/
⑦ 對heap[i][j]中各個組塊求標(biāo)記(即前面提到的BIES0),合并后 保留前K個最優(yōu)結(jié)果;
⑧ for k = 1 to K do⑨
◎ 根據(jù)合并后中間結(jié)果的組塊個數(shù),將其插入相應(yīng)heap單元中,
如長度為m,則插入heap[m]中。顯然此時m《i;
⑩返回heap[l][l]作為句子的最優(yōu)句法分析結(jié)果。 其中,K的優(yōu)選值為20。
本發(fā)明執(zhí)行流程是按如圖1方式實現(xiàn)對句子進(jìn)行句法分析的,圖中包括分 詞、詞性標(biāo)注、基本短語識別和層次句法分析模塊;各模塊的任務(wù)相對獨立, 前一個模塊的輸入作為下模塊的輸入。為實現(xiàn)各個模塊,需要從樹庫中分別抽 取出分詞訓(xùn)練文件、詞性標(biāo)注訓(xùn)練文件、基本短語識別訓(xùn)練文件和層次句法分 析訓(xùn)練文件,爾后采用某種機(jī)器學(xué)習(xí)的方法,如SVM、最大熵等進(jìn)行訓(xùn)練, 得到模型文件,最后采用適當(dāng)?shù)乃阉魉惴▽崿F(xiàn)各模塊功能。
實施例二參見附圖2所示,在得到某中間層次分析結(jié)果后,根據(jù)預(yù)先制 定的特征模板,從左至右依次為各個組塊單元抽取上下文特征,用于預(yù)測其標(biāo) 注
從圖2看到,當(dāng)前得到的中間結(jié)果為"(NP(布什JV及))(PP(于—P昨夭—NT 下午—NT)) (PP(自—P南京—NR)) (VV(抵達(dá)—(NP(J:獰—iV及))(PU(。 一PU))",其中括號內(nèi)的斜體標(biāo)記的詞為本組塊的中心詞,例如組塊"(PP(房—i> 南京—NR))"的中心詞為"自"。并且已經(jīng)對前三個單元組塊"(NP(布什—AW)) (PP(于—/ 昨天_>^下午一NT)) (PP(自—P南京—NR))"做出了決策,分別是 "O"、 "O"和"O"; —下步是預(yù)測第四個組塊"(VV(抵達(dá)—的決策。 決策預(yù)測的依據(jù)是當(dāng)前組塊的上下文信息,為此,根據(jù)特征模板,從當(dāng)前組塊 的左邊第2個窗口至右邊第3個窗口抽取出特征。特征分為l元、2元、3元、 4元和5元特征。
圖3表示的是在層次句法分析中采取的堆數(shù)組數(shù)據(jù)結(jié)構(gòu),整個層次句法分 析的過程也即是維護(hù)和填充此數(shù)據(jù)結(jié)構(gòu)的一個過程。堆數(shù)組的大小為n,即句 子中單詞的個數(shù),這是因為,在分析過程中,任何一個中間結(jié)果所包含的組塊數(shù)必定小于或等于n。堆heap[i]存放的是長度為i的中間結(jié)果,并且會按照中 間結(jié)果概率值從大到小進(jìn)行排序。如在圖1中所示,基本短語識別模塊輸出的 最優(yōu)K個結(jié)果將分別根據(jù)其包含的組塊個數(shù)添加到相應(yīng)的堆中,即如果基本 短語識別結(jié)果中包含i個組塊,則將其添加到堆heap[i]中。
在層次分析算法中,將按照從商至低(從n到2, n指句子包含的單詞數(shù))、 從左至右(從l至k,k指堆中元素的個數(shù))的順序逐個處理中間結(jié)果heap[i[j, 即對heap[i[j]中的每個組塊預(yù)測其決策。對前K種預(yù)測結(jié)果,分別調(diào)用組塊 合并程序,即根據(jù)預(yù)測的組塊決策,判斷哪些組塊合并生成新的組塊;顯然, 新得到的中間結(jié)果中,組塊的個數(shù)必定小于或等于原中間結(jié)果的個數(shù),并且新 中間結(jié)果的概率值必定小于原中間結(jié)果的概率值,那么,新中間結(jié)果在堆中的 位置要么在原中間結(jié)果的右方,要么在原中間結(jié)果的左方。于是,算法只要嚴(yán) 格按照從高至低、從左至右的順序,必定能處理堆數(shù)組數(shù)據(jù)結(jié)構(gòu)中的每一個中 間結(jié)果。堆heap[l中記錄的是最終結(jié)果,因為,此時所以組塊已合并為一個 結(jié)點,即句法樹的根結(jié)果。因此,heap[l[l被作為最優(yōu)的句法樹輸出。為提 髙算法的效率,排除小概率結(jié)果,本方案固定堆的大小為常數(shù)K。
權(quán)利要求
1. 一種基于歷史信息的自然語言層次句法分析方法,其特征在于對已完成分詞的句子,首先將各個詞看成是初始組塊,采用分層方式,根據(jù)上下文信息進(jìn)行組塊識別,將可以組合的組塊構(gòu)成新的組塊,獲得中間結(jié)果,對中間結(jié)果重復(fù)根據(jù)上下文信息進(jìn)行組塊識別及組合,直至只包含一個組塊為止,該組塊為句法樹的根結(jié)點,由此獲得表達(dá)自然語言的句法樹。
2. 根據(jù)權(quán)利要求1所述的自然語言層次句法分析方法,其特征在于所 述組塊識別及組合的方法是,采用BIESO標(biāo)記方法,對某一組塊類別X, B-X 表示開始新的組塊X, I-X表示合并至前一組塊,E-X表示結(jié)束前一組塊,S-X 表示單獨構(gòu)成組塊X, O表示保持不變,根據(jù)句法分析的特征模板結(jié)合上下文 特征,通過訓(xùn)練過程和分析過程,采用分類器實現(xiàn)組塊的識別和組合。
3. 根據(jù)權(quán)利要求2所述的自然語言層次句法分析方法,其特征在于所 述句法分析的特征模板包括cons(n):第n棵樹的中心詞、成分標(biāo)記以及決策標(biāo)記的聯(lián)合信息,當(dāng)iiW 時,決策標(biāo)記省略;COnS(n*):第n棵樹的中心詞的詞性、成分標(biāo)記以及決策標(biāo)記的聯(lián)合信息, 當(dāng)i^O時,決策標(biāo)記省略COns(n**):第n棵樹的成分標(biāo)記以及決策標(biāo)記的聯(lián)合信息,當(dāng)i^O時, 決策標(biāo)記省略;所述上下文特征包括下列5類第l類cons(n), cons(n*), cons(n"),其中-25n53共18個;第2類cons(m, n), cons(m*, n), cons(m, n*), cons(m*, n*), cons(m", n), cons(m**, n", cons(m*, n**), cons(m, n**), cons(m**, n**),其中(m,n"(-l, 0) or (0, l)共18個;第3類cons(O, m, n), cons(O, m*, n*), cons(O, m*, n), cons(O, m, n*), cons(0*, m*, n*), (m, n)= (1, 2), (-2, -1) or (-1, 1), and cons(l, 2, 3), cons(l*, 2*, 3*), cons(l", 2**, 3*", cons(2*, 3*, 4*), cons(2**, 3**, 4**)共20個;第4類cons(O, 1, 2, 3), cons(O, 1*, 2*, 3*), cons(0*, 1*, 2*, 3*), cons(l*, 2*, 3*, 4*), cons(l", 2**, 3**, 4*"共5個;第5類cons(0*, 1*, 2*, 3*, 4*), cons(0", 1**, 2**, 3**, 4**)共2個。
4. 根據(jù)權(quán)利要求2所述的自然語言層次句法分析方法,其特征在于所述訓(xùn)練過程是,將特征模板和上下文特征信息輸入分類器中,構(gòu)建用于層次句 法分析的分類器,從樹庫中提取詞性標(biāo)記訓(xùn)練語料、基本短語識別訓(xùn)練語料和 層次句法分析訓(xùn)練語料,采用最大熵模型,依次對詞性標(biāo)記訓(xùn)練語料、基本短 語識別訓(xùn)練語料和層次句法分析訓(xùn)練語料進(jìn)行訓(xùn)練,得到最大熵模型文件;其中,所述層次句法分析訓(xùn)練語料的提取方法是,將訓(xùn)練集中的句法樹進(jìn) 行預(yù)處理,轉(zhuǎn)換為層次句法樹,自底向上,從層次句法樹的基本短語識別結(jié)果 開始,根據(jù)特征模板,分別為每個組塊抽取上下文特征,并得到組塊的類別標(biāo) 記;每個組塊的上下文特征和組塊類別標(biāo)記共同構(gòu)成一個訓(xùn)練樣例;向上遞推 一層,同樣為各組塊抽取上下文特征和組塊的標(biāo)記類別;此過程直至產(chǎn)生根結(jié) 點為止;所述分析過程是,對待分析的句子,用層次分析的方法,反復(fù)調(diào)用訓(xùn)練過 的分類器,進(jìn)行組塊的合并,直至實現(xiàn)整個句法樹的結(jié)果輸出。
5. 根據(jù)權(quán)利要求1所述的自然語言層次句法分析方法,其特征在于所 述的分層組塊識別及組合方法包括(1) 詞性標(biāo)記對給定句子進(jìn)行詞性標(biāo)注,保留前N種最優(yōu)的詞性標(biāo)記系 列結(jié)果;(2) 基本短語識別分別對步驟(l)的N種詞性標(biāo)記系列結(jié)果,進(jìn)行基本短 語識別,最后保留前N種最優(yōu)的基本短語識別結(jié)果;(3) 層次句法分析以步驟(2)的N種基本短語識別結(jié)果為輸入,最終輸出 最優(yōu)的層次句法樹結(jié)果,根據(jù)最優(yōu)層次句法樹,消除層次樹中的重復(fù)結(jié)點得到 最終的句法樹輸出結(jié)果其中,N取10 20的整數(shù)。
6. 根據(jù)權(quán)利要求5所述的自然語言層次句法分析方法,其特征在于所 述N為20。
全文摘要
本發(fā)明公開了一種基于歷史信息的自然語言層次句法分析方法,其特征在于對已完成分詞的句子,首先將各個詞看成是初始組塊,采用分層方式,根據(jù)上下文信息進(jìn)行組塊識別,將可以組合的組塊構(gòu)成新的組塊,獲得中間結(jié)果,對中間結(jié)果重復(fù)根據(jù)上下文信息進(jìn)行組塊識別及組合,直至只包含一個組塊為止,該組塊為句法樹的根結(jié)點,由此獲得表達(dá)自然語言的句法樹。本發(fā)明在每層處理過程中,優(yōu)先識別出容易識別的組塊,能提供更豐富的上下文信息進(jìn)行復(fù)雜組塊識別,提高決策預(yù)測的正確率,從而提高了句法分析的性能。
文檔編號G06F17/27GK101446941SQ20081024360
公開日2009年6月3日 申請日期2008年12月10日 優(yōu)先權(quán)日2008年12月10日
發(fā)明者周國棟, 芳 孔, 朱巧明, 李軍輝, 李培峰, 王紅玲, 錢培德, 錢龍華 申請人:蘇州大學(xué)