一種基于歷史信息的自然語言層次句法分析方法

文檔序號：6472027閱讀：216來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于歷史信息的自然語言層次句法分析方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種對自然語言進(jìn)行句法分析的方法，通過層次分析實現(xiàn)復(fù)雜組塊識別，屬于計算語言學(xué)中的自然語言處理領(lǐng)域。
背景技術(shù)：
句法分析(Syntactic parsing)是自然語言處理的一個基本問題，同時也是公認(rèn)的一個研究難題。它的任務(wù)是根據(jù)給定的語法，自動推導(dǎo)出句子的語法結(jié)構(gòu)，即句子所包含的句法單位以及這些句法單位之間的關(guān)系。句法分析的目的主要有兩個一個是確定句子所包含的"譜系"結(jié)構(gòu)；另一個是確定句子的組成成份之間的關(guān)系。通常，其輸入為單個句子，即單詞之間的線性次序，而輸出則為一個非線性的數(shù)據(jù)結(jié)構(gòu)，如短語結(jié)構(gòu)樹(如句法樹)或有向無環(huán)圖(如依存關(guān)系圖)等。
句法分析結(jié)果的好壞直接影響到對自然語言句子的解釋和理解。也就是說，句法分析是保證各種應(yīng)用系統(tǒng)能夠在內(nèi)容層面上處理自然語言的核心技術(shù)。作為機(jī)器翻譯、信息檢索、信息抽取、語音識別以及語料自動處理等眾多語言處理的基石，句法分析有著舉足輕重的地位。在另一方面，句法分析中所使用的技術(shù)還可以用于解決生物信息學(xué)領(lǐng)域，諸如RNA分子結(jié)構(gòu)探測等與句法分析相似的問題。此外，語言是思維的載體，對自然語言句法分析的研究有助于研究人類思維的本質(zhì)。因此，自然語言句法分析技術(shù)的研究具有重要的理論意義和實用價值。
目前，主要的句法分析模型可以概括為以下三類
1.基于概率上下文無關(guān)文法的句法分析模型
概率上下文無關(guān)文法(Probabilistic Context Free Grammar,簡稱PCFG) 是最早也是最常用的句法分析模型，它是一個為規(guī)則增添了概率的簡單CFG, 指明了不同重寫規(guī)則的可能性大小。利用PCFG，可以通過計算分析樹中所使用到的規(guī)則的概率的乘積值作為分析樹的概率值。PCFG對于樹結(jié)構(gòu)來說是最簡單、最自然的概率模型，其數(shù)學(xué)背景很容易理解。但傳統(tǒng)PCFG的最大局限是基于一些非實際成立的上下文無關(guān)獨立性條件，以及給定的文法不能覆蓋所有語言現(xiàn)象，因此，得到的句法分析結(jié)果也往往不盡人意。為放寬PCFG 所做的獨立性假設(shè)條件，很多研究者轉(zhuǎn)向研究詞匯化的概率上下文無關(guān)文法。
2. 基于詞匯化的概率上下文無關(guān)文法的句法分析模型
詞匯化PCFG指在句法分析樹中，每個非終極符都與某個單詞(也可稱為此非終極符的中心詞，可以包括其詞性)相關(guān)聯(lián)。Collins實現(xiàn)了基于中心詞驅(qū)動的統(tǒng)計句法分析模型，與前者的最大不同是后者是中心詞驅(qū)動的模型，每個推導(dǎo)規(guī)則(最底層規(guī)則除外)的右部分為中心非終極符、左右修飾符三部分，左右修飾符概率的計算是基于中心非終極符為條件的。為解決數(shù)據(jù)稀疏問題，對詞匯化上下文無關(guān)規(guī)則進(jìn)行分解，并在計算概率時采用回退平滑技術(shù)，很好地解決了 PCFG的覆蓋率問題。但由于句子的表達(dá)實際上是與上下文相關(guān)的，因此，上述方法的結(jié)果仍不盡人意。
3. 基于歷史信息的句法分析模型
顧名思義，在基于歷史信息的句法分析模型中，需要依據(jù)前面已做的"決策"信息，即歷史信息，來預(yù)測下一步行動。Ratnaparkhi將句法樹的建立轉(zhuǎn) 化為一個自底向上的決策系列問題，系統(tǒng)由三大功能模塊組成詞性標(biāo)記模塊、組塊識別模塊和基于組塊分析結(jié)果的句法樹構(gòu)建模塊。依據(jù)各個子模塊中所采取不同的"決策行為"，所利用的上下文信息包括前后兩單元基本信息和前面兩單元的決策信息等等，并通過釆用最大熵模型進(jìn)行參數(shù)學(xué)習(xí)。
目前，由于起步較晚、樹庫資源缺乏等原因，中文句法分析技術(shù)遠(yuǎn)不如英文句法分析的發(fā)展。己有的中文句法分析器并不能滿足上層應(yīng)用的需要，中文句法分析已成為了制約中文信息處理進(jìn)一步發(fā)展的瓶頸。以中文語義作用標(biāo)注 (SRL, Semantic Role Labeling)為例，基于正確的中文句法分析結(jié)果，中文SRL的性能Fl值達(dá)93%,基于中文自動句法分析模型的輸出結(jié)果，得到的中文SRL精確率為63%，兩者相差髙達(dá)30%。
因此，尋求新的自然語言的句法分析方法，使之適用于包括中文在內(nèi)的各種自然語言，提髙句法分析的準(zhǔn)確度，是信息處理技術(shù)發(fā)展的需要。本發(fā)明目的是提供一種基于歷史信息的自然語言層次句法分析方法，以較準(zhǔn)確地實現(xiàn)句法樹的構(gòu)建，達(dá)到較好的分析性能。
為達(dá)到上述目的，本發(fā)明采用的技術(shù)方案是一種基于歷史信息的自然語言層次句法分析方法，對已完成分詞的句子，首先將各個詞看成是初始組塊，采用分層方式，根據(jù)上下文信息進(jìn)行組塊識別，將可以組合的組塊構(gòu)成新的組塊，獲得中間結(jié)果，對中間結(jié)果重復(fù)根據(jù)上下文信息進(jìn)行組塊識別及組合，直至只包含一個組塊為止，該組塊為句法樹的根結(jié)點，由此獲得表達(dá)自然語言的句法樹。
上文中，當(dāng)待處理的句子是中文句子時，通常先要進(jìn)行分詞；如果待處理的句子是英文等有單詞分隔的句子，或者是分好詞的中文句子時，則可以直接進(jìn)行句法分析處理。
上述技術(shù)方案中，所述組塊識別及組合的方法是，采用BIESO標(biāo)記方法，對某一組塊類別X， B-X表示開始新的組塊X, I-X表示合并至前一組塊，E-X 表示結(jié)束前一組塊，S-X表示單獨構(gòu)成組塊X, O表示保持不變，根據(jù)句法分析的特征模板結(jié)合上下文特征，通過訓(xùn)練過程和分析過程，釆用分類器實現(xiàn)組塊的識別和組合。一旦對某個中間結(jié)果內(nèi)的各個組塊標(biāo)記完畢，則調(diào)用組塊合并程序?qū)⒔M塊進(jìn)行合并。例如，假設(shè)某中間結(jié)果為"NP(他)VC(是)NP(—位學(xué)生)PU(。)"，并且各組合的標(biāo)記依次為"0 B-VP E-VP 0",則合并后的結(jié) 果為"NP(他)VP(是一位學(xué)生)PU(。)"。
其中，所述句法分析的特征模板包括
cons(ii):第ii棵樹的中心詞、成分標(biāo)記以及決策標(biāo)記的聯(lián)合信息，當(dāng)n20 時，決策標(biāo)記省略
cons(n":第n棵樹的中心詞的詞性、成分標(biāo)記以及決策標(biāo)記的聯(lián)合信息，當(dāng)n20時，決策標(biāo)記省略；
COnS(n**):第n棵樹的成分標(biāo)記以及決策標(biāo)記的聯(lián)合信息，當(dāng)iiW時，決策標(biāo)記省略；
所述上下文特征包括下列5類
第l類cons(n)， cons(n"， cons(n**)，其中誦2Sn^3共18個；第2類cons(m， n)， cons(m*， n)， cons(m， n*)， cons(m*， n*)， cons(m"， n), cons(m**， n*)， cons(m*， n**)， cons(m， n**)， cons(m**， n**)，其中(m，n)-(-l， 0) or (0， l)共18個;
第3類cons(O， m， n)， cons(O， m*， n*)， cons(O， m*， n)， cons(O， m, n*)， cons(0*， m*， n*)， (m， n)= (1， 2)， (-2， -1) or (-1， 1)， and cons(l， 2， 3)， cons(l*， 2*， 3*)， cons(l"， 2", 3**)， cons(2*, 3*， 4"， cons(2"， 3"， 4")共20個；
第4類cons(O， 1， 2， 3)， cons(O， 1*， 2*， 3*)， cons(0*， 1*, 2*， 3*)， cons(l*， 2*， 3*， 4*)， cons(l", 2"， 3**， 4*"共5個；
第5類cons(0*， 1*， 2*， 3*， 4*)， cons(O"， 1**， 2"， 3"， 4*"共2個。
上述技術(shù)方案中，所述訓(xùn)練過程是，將特征模板和上下文特征信息輸入分類器中，構(gòu)建用于層次句法分析的分類器，從樹庫中提取詞性標(biāo)記訓(xùn)練語料、基本短語識別訓(xùn)練語料和層次句法分析訓(xùn)練語料，采用最大熵模型，依次對詞性標(biāo)記訓(xùn)練語料、基本短語識別訓(xùn)練語料和層次句法分析訓(xùn)練語料進(jìn)行訓(xùn)練，得到最大熵模型文件；
其中，所述層次句法分析訓(xùn)練語料的提取方法是，將訓(xùn)練集中的句法樹進(jìn) 行預(yù)處理，轉(zhuǎn)換為層次句法樹，自底向上，從層次句法樹的基本短語識別結(jié)果開始，根據(jù)特征模板，分別為每個組塊抽取上下文特征，并得到組塊的類別標(biāo) 記；每個組塊的上下文特征和組塊類別標(biāo)記共同構(gòu)成一個訓(xùn)練樣例；向上遞推一層，同樣為各組塊抽取上下文特征和組塊的標(biāo)記類別；此過程直至產(chǎn)生根結(jié) 點為止；
所述分析過程是，對待分析的句子，用層次分析的方法，反復(fù)調(diào)用訓(xùn)練過的分類器，進(jìn)行組塊的合并，直至實現(xiàn)整個句法樹的結(jié)果輸出。上述技術(shù)方案中，所述的分層組塊識別及組合方法包括
(1) 詞性標(biāo)記對給定句子進(jìn)行詞性標(biāo)注，保留前N種最優(yōu)的詞性標(biāo)記系列結(jié)果
(2) 基本短語識別分別對步驟(l)的N種詞性標(biāo)記系列結(jié)果，進(jìn)行基本短語識別，最后保留前N種最優(yōu)的基本短語識別結(jié)果；
(3) 層次句法分析以步驟(2)的N種基本短語識別結(jié)果為輸入，最終輸出最優(yōu)的層次句法樹結(jié)果，根據(jù)最優(yōu)層次句法樹，消除層次樹中的重復(fù)結(jié)點得到最終的句法樹輸出結(jié)果；
其中，N取10 20的整數(shù)。N值過大，解析過程中將保留太多的無用的中間結(jié)果，增加系統(tǒng)開銷；而N值過小，則可能會丟失一些正確的中間結(jié)果。
優(yōu)選的技術(shù)方案，所述N為20。
句法分析是自然語言處理的一個基本問題。它指的是根據(jù)給定的語法，自動推導(dǎo)出句子的語法結(jié)構(gòu)，即句子所包含的句法單位和這些句法單位之間的關(guān) 系。句法分析的首要問題是歧義，即使對于一個很短的句子，構(gòu)建出的符合語法規(guī)則的句法樹仍可以有成百上千種，很難判斷哪棵候選句法樹是正確的或最優(yōu)的。因此，句法分析需要解決的兩個關(guān)鍵子問題l)怎樣表示一棵樹；2)怎樣對每棵句法樹打分。
目前，大多數(shù)基于統(tǒng)計的句法分析器試圖將一棵句法樹表示為一系列的決策，并為每個決策賦予概率值或分值，最后將各決策分值乘積作為整個句法樹的分值。例如在概率上下文無關(guān)文法(Probabilistic Context Free Grammar, PCFG)模型中，句法樹通常表示為一系列的上下文無關(guān)的產(chǎn)生式(即文法規(guī) 則)；各個產(chǎn)生式的概率累積作為整棵句法樹的概率。
本方案以另一種方式來解決上述兩個關(guān)鍵問題一_基于歷史信息的層次句法分析方法給定包含多個組塊的中間結(jié)果(最初，每個詞可看作一個中間結(jié)果)，判斷哪些組塊能夠構(gòu)成新的組塊，這樣便得到了新的中間結(jié)果，新的結(jié)果往往較原中間結(jié)果含有較少組塊；基于新產(chǎn)生的中間結(jié)果，重復(fù)上述步驟直至中間結(jié)果中只包含一個組塊為止，此組塊即句法樹的根結(jié)點。每棵句法樹的分值都為每層決策分值的乘積。
上述技術(shù)方案既采用了基于歷史信息、以動態(tài)的方式獲取可利用的上下文信息，利用機(jī)器學(xué)習(xí)的方法(如最大熵、SVM等)，正確、可靠地預(yù)測下一個決策，實現(xiàn)了句法樹的生成。
由于上述技術(shù)方案運用，本發(fā)明與現(xiàn)有技術(shù)相比具有下列優(yōu)點
1.本發(fā)明提出了一個基于歷史信息的層次句法分析方法，該方法視句法樹的構(gòu)建為一個層次處理遞進(jìn)的過程，在每層處理過程中，優(yōu)先識別出容易識別的組塊，這樣就能提供更豐富的上下文信息進(jìn)行復(fù)雜組塊識別；未被合并的組塊和新識別產(chǎn)生的組塊共同構(gòu)成下步處理的輸入，重復(fù)此過程直至識別出根結(jié)點。在生成某新組塊之前，其所有兒子結(jié)點必須已經(jīng)生成；低層的組塊總是預(yù)先生成，這樣更能提髙決策預(yù)測的正確率，從而提髙了句法分析的性能。
2.實驗證明，本發(fā)明的方法簡單有效，在句法分析性能方面優(yōu)于目前現(xiàn) 有的基于歷史信息的方法另外，此方法的性能雖略遜色于基于中心詞驅(qū)動的統(tǒng)計句法分析模型，但其效率遠(yuǎn)髙于后者，兩者的時間復(fù)雜度分別為O(n"和 0(n5),體現(xiàn)了本方案的快速有效性。

附圖1為本發(fā)明實施例一中執(zhí)行流程示意圖
附圖2為本發(fā)明實施例二中在層次句法分析過程中，根據(jù)當(dāng)前組塊的上下文和預(yù)先制定的特征模板，得到的上下文特征的示意
附圖3為本發(fā)明實施例二中采用的堆數(shù)組數(shù)據(jù)示意圖。
具體實施方式
下面結(jié)合附圖及實施例對本發(fā)明作進(jìn)一步描述
實施例一參見附圖l所示，一種基于歷史信息的層次句法分析，對于任意一個需要處理的句子，執(zhí)行以下的步驟
① 若句子為中文，并且未進(jìn)行分詞，則調(diào)用分詞模塊對句子進(jìn)行分詞；若句子為英文，或已經(jīng)分好詞的中文，則跳過此步；
② 調(diào)用詞性標(biāo)注模塊，即對句子中的各個詞求其詞性；保留前K種最優(yōu) 的標(biāo)注結(jié)果；
③ 分別就前K種最優(yōu)的詞性標(biāo)注結(jié)果，進(jìn)行基本短語識別；最終保留前K 種最優(yōu)的基本短語識別結(jié)果；
④ 根據(jù)每個基本短語識別結(jié)果中的組塊的個數(shù)，分別將其存入對應(yīng)的數(shù)組單元中，例如，如果基本短語識別結(jié)果中包含有m個組塊，則將其存入數(shù)組單元heap[m]中。heap[m]是一個堆結(jié)構(gòu)，其存放的是長度為m(即包括m個組塊) 的中間結(jié)果；
for i = n to 2 do⑥/*11為句子單詞數(shù)*/
⑥for j = 1 to lheap[i]l do⑦⑧/*|heap[i] |為堆heap[i]中的中間結(jié)果個數(shù)*/
⑦ 對heap[i][j]中各個組塊求標(biāo)記(即前面提到的BIES0)，合并后保留前K個最優(yōu)結(jié)果；
⑧ for k = 1 to K do⑨
◎ 根據(jù)合并后中間結(jié)果的組塊個數(shù)，將其插入相應(yīng)heap單元中，
如長度為m，則插入heap[m]中。顯然此時m《i;
⑩返回heap[l][l]作為句子的最優(yōu)句法分析結(jié)果。其中，K的優(yōu)選值為20。
本發(fā)明執(zhí)行流程是按如圖1方式實現(xiàn)對句子進(jìn)行句法分析的，圖中包括分詞、詞性標(biāo)注、基本短語識別和層次句法分析模塊；各模塊的任務(wù)相對獨立，前一個模塊的輸入作為下模塊的輸入。為實現(xiàn)各個模塊，需要從樹庫中分別抽取出分詞訓(xùn)練文件、詞性標(biāo)注訓(xùn)練文件、基本短語識別訓(xùn)練文件和層次句法分析訓(xùn)練文件，爾后采用某種機(jī)器學(xué)習(xí)的方法，如SVM、最大熵等進(jìn)行訓(xùn)練，得到模型文件，最后采用適當(dāng)?shù)乃阉魉惴▽崿F(xiàn)各模塊功能。
實施例二參見附圖2所示，在得到某中間層次分析結(jié)果后，根據(jù)預(yù)先制定的特征模板，從左至右依次為各個組塊單元抽取上下文特征，用于預(yù)測其標(biāo) 注
從圖2看到，當(dāng)前得到的中間結(jié)果為"(NP(布什JV及))(PP(于—P昨夭—NT 下午—NT)) (PP(自—P南京—NR)) (VV(抵達(dá)—(NP(J:獰—iV及))(PU(。一PU))"，其中括號內(nèi)的斜體標(biāo)記的詞為本組塊的中心詞，例如組塊"(PP(房—i> 南京—NR))"的中心詞為"自"。并且已經(jīng)對前三個單元組塊"(NP(布什—AW)) (PP(于—/ 昨天_>^下午一NT)) (PP(自—P南京—NR))"做出了決策，分別是 "O"、 "O"和"O"; —下步是預(yù)測第四個組塊"(VV(抵達(dá)—的決策。決策預(yù)測的依據(jù)是當(dāng)前組塊的上下文信息，為此，根據(jù)特征模板，從當(dāng)前組塊的左邊第2個窗口至右邊第3個窗口抽取出特征。特征分為l元、2元、3元、 4元和5元特征。
圖3表示的是在層次句法分析中采取的堆數(shù)組數(shù)據(jù)結(jié)構(gòu)，整個層次句法分析的過程也即是維護(hù)和填充此數(shù)據(jù)結(jié)構(gòu)的一個過程。堆數(shù)組的大小為n,即句子中單詞的個數(shù)，這是因為，在分析過程中，任何一個中間結(jié)果所包含的組塊數(shù)必定小于或等于n。堆heap[i]存放的是長度為i的中間結(jié)果，并且會按照中間結(jié)果概率值從大到小進(jìn)行排序。如在圖1中所示，基本短語識別模塊輸出的最優(yōu)K個結(jié)果將分別根據(jù)其包含的組塊個數(shù)添加到相應(yīng)的堆中，即如果基本短語識別結(jié)果中包含i個組塊，則將其添加到堆heap[i]中。
在層次分析算法中，將按照從商至低(從n到2， n指句子包含的單詞數(shù))、從左至右(從l至k，k指堆中元素的個數(shù))的順序逐個處理中間結(jié)果heap[i[j，即對heap[i[j]中的每個組塊預(yù)測其決策。對前K種預(yù)測結(jié)果，分別調(diào)用組塊合并程序，即根據(jù)預(yù)測的組塊決策，判斷哪些組塊合并生成新的組塊；顯然，新得到的中間結(jié)果中，組塊的個數(shù)必定小于或等于原中間結(jié)果的個數(shù)，并且新中間結(jié)果的概率值必定小于原中間結(jié)果的概率值，那么，新中間結(jié)果在堆中的位置要么在原中間結(jié)果的右方，要么在原中間結(jié)果的左方。于是，算法只要嚴(yán) 格按照從高至低、從左至右的順序，必定能處理堆數(shù)組數(shù)據(jù)結(jié)構(gòu)中的每一個中間結(jié)果。堆heap[l中記錄的是最終結(jié)果，因為，此時所以組塊已合并為一個結(jié)點，即句法樹的根結(jié)果。因此，heap[l[l被作為最優(yōu)的句法樹輸出。為提髙算法的效率，排除小概率結(jié)果，本方案固定堆的大小為常數(shù)K。
權(quán)利要求
1. 一種基于歷史信息的自然語言層次句法分析方法，其特征在于對已完成分詞的句子，首先將各個詞看成是初始組塊，采用分層方式，根據(jù)上下文信息進(jìn)行組塊識別，將可以組合的組塊構(gòu)成新的組塊，獲得中間結(jié)果，對中間結(jié)果重復(fù)根據(jù)上下文信息進(jìn)行組塊識別及組合，直至只包含一個組塊為止，該組塊為句法樹的根結(jié)點，由此獲得表達(dá)自然語言的句法樹。
2. 根據(jù)權(quán)利要求1所述的自然語言層次句法分析方法，其特征在于所述組塊識別及組合的方法是，采用BIESO標(biāo)記方法，對某一組塊類別X， B-X 表示開始新的組塊X, I-X表示合并至前一組塊，E-X表示結(jié)束前一組塊，S-X 表示單獨構(gòu)成組塊X， O表示保持不變，根據(jù)句法分析的特征模板結(jié)合上下文特征，通過訓(xùn)練過程和分析過程，采用分類器實現(xiàn)組塊的識別和組合。
3. 根據(jù)權(quán)利要求2所述的自然語言層次句法分析方法，其特征在于所述句法分析的特征模板包括cons(n):第n棵樹的中心詞、成分標(biāo)記以及決策標(biāo)記的聯(lián)合信息，當(dāng)iiW 時，決策標(biāo)記省略；COnS(n*):第n棵樹的中心詞的詞性、成分標(biāo)記以及決策標(biāo)記的聯(lián)合信息，當(dāng)i^O時，決策標(biāo)記省略COns(n**):第n棵樹的成分標(biāo)記以及決策標(biāo)記的聯(lián)合信息，當(dāng)i^O時，決策標(biāo)記省略；所述上下文特征包括下列5類第l類cons(n)， cons(n*)， cons(n")，其中-25n53共18個；第2類cons(m， n)， cons(m*， n)， cons(m， n*)， cons(m*， n*)， cons(m"， n), cons(m**， n"， cons(m*， n**)， cons(m, n**)， cons(m**， n**)，其中(m，n"(-l， 0) or (0， l)共18個；第3類cons(O， m， n)， cons(O， m*， n*)， cons(O， m*， n)， cons(O， m， n*)， cons(0*， m*， n*)， (m， n)= (1， 2)， (-2， -1) or (-1， 1)， and cons(l， 2， 3)， cons(l*， 2*， 3*)， cons(l"， 2**, 3*", cons(2*， 3*， 4*)， cons(2**， 3**， 4**)共20個；第4類cons(O， 1， 2， 3)， cons(O， 1*， 2*， 3*)， cons(0*， 1*， 2*， 3*)， cons(l*， 2*， 3*， 4*)， cons(l"， 2**， 3**， 4*"共5個；第5類cons(0*， 1*， 2*， 3*， 4*)， cons(0"， 1**， 2**， 3**， 4**)共2個。
4. 根據(jù)權(quán)利要求2所述的自然語言層次句法分析方法，其特征在于所述訓(xùn)練過程是，將特征模板和上下文特征信息輸入分類器中，構(gòu)建用于層次句法分析的分類器，從樹庫中提取詞性標(biāo)記訓(xùn)練語料、基本短語識別訓(xùn)練語料和層次句法分析訓(xùn)練語料，采用最大熵模型，依次對詞性標(biāo)記訓(xùn)練語料、基本短語識別訓(xùn)練語料和層次句法分析訓(xùn)練語料進(jìn)行訓(xùn)練，得到最大熵模型文件；其中，所述層次句法分析訓(xùn)練語料的提取方法是，將訓(xùn)練集中的句法樹進(jìn) 行預(yù)處理，轉(zhuǎn)換為層次句法樹，自底向上，從層次句法樹的基本短語識別結(jié)果開始，根據(jù)特征模板，分別為每個組塊抽取上下文特征，并得到組塊的類別標(biāo) 記；每個組塊的上下文特征和組塊類別標(biāo)記共同構(gòu)成一個訓(xùn)練樣例；向上遞推一層，同樣為各組塊抽取上下文特征和組塊的標(biāo)記類別；此過程直至產(chǎn)生根結(jié) 點為止；所述分析過程是，對待分析的句子，用層次分析的方法，反復(fù)調(diào)用訓(xùn)練過的分類器，進(jìn)行組塊的合并，直至實現(xiàn)整個句法樹的結(jié)果輸出。
5. 根據(jù)權(quán)利要求1所述的自然語言層次句法分析方法，其特征在于所述的分層組塊識別及組合方法包括(1) 詞性標(biāo)記對給定句子進(jìn)行詞性標(biāo)注，保留前N種最優(yōu)的詞性標(biāo)記系列結(jié)果；(2) 基本短語識別分別對步驟(l)的N種詞性標(biāo)記系列結(jié)果，進(jìn)行基本短語識別，最后保留前N種最優(yōu)的基本短語識別結(jié)果；(3) 層次句法分析以步驟(2)的N種基本短語識別結(jié)果為輸入，最終輸出最優(yōu)的層次句法樹結(jié)果，根據(jù)最優(yōu)層次句法樹，消除層次樹中的重復(fù)結(jié)點得到最終的句法樹輸出結(jié)果其中，N取10 20的整數(shù)。
6. 根據(jù)權(quán)利要求5所述的自然語言層次句法分析方法，其特征在于所述N為20。
全文摘要
本發(fā)明公開了一種基于歷史信息的自然語言層次句法分析方法，其特征在于對已完成分詞的句子，首先將各個詞看成是初始組塊，采用分層方式，根據(jù)上下文信息進(jìn)行組塊識別，將可以組合的組塊構(gòu)成新的組塊，獲得中間結(jié)果，對中間結(jié)果重復(fù)根據(jù)上下文信息進(jìn)行組塊識別及組合，直至只包含一個組塊為止，該組塊為句法樹的根結(jié)點，由此獲得表達(dá)自然語言的句法樹。本發(fā)明在每層處理過程中，優(yōu)先識別出容易識別的組塊，能提供更豐富的上下文信息進(jìn)行復(fù)雜組塊識別，提高決策預(yù)測的正確率，從而提高了句法分析的性能。
文檔編號G06F17/27GK101446941SQ20081024360
公開日2009年6月3日申請日期2008年12月10日優(yōu)先權(quán)日2008年12月10日
發(fā)明者周國棟, 芳孔, 朱巧明, 李軍輝, 李培峰, 王紅玲, 錢培德, 錢龍華申請人:蘇州大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱巧明;周國棟;李培峰;李軍輝;錢龍華;孔芳;王紅玲;錢培德
技術(shù)所有人：蘇州大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于歷史信息的自然語言層次句法分析方法