專利名稱::一種自然語言句子的語義角色標注方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種對自然語言的語義分析的方法,尤其涉及一種對自然語言句子的語義角色進行分析和標注的方法,屬于計算語言學(xué)中的自然語言處理領(lǐng)域。
背景技術(shù):
:語義分析是自然語言處理的一個關(guān)鍵問題。作為目前的熱點研究課題之一,語義角色標注(SemanticRoleLabeling,SRL)是淺層語義分析(ShallowSemanticParsing)的一種,其實質(zhì)是在句子級別進行淺層的語義分析。所謂語義角色標注,就是對于給定句子,對句中的每個謂詞標注出句中的相應(yīng)語義成分,并作相應(yīng)的語義標記,如施事、受事、工具或附加語等。SRL能應(yīng)用于問答系統(tǒng)、信息抽取、文本摘要、文本蘊含等領(lǐng)域,具有廣泛的應(yīng)用前景?;跈C器學(xué)習(xí)的語義角色標注通??煞譃樗膫€階段a)預(yù)處理,通常過濾掉不可能成為語義角色的句法成分;b)語義成分識別,識別出哪些標注單元是某一目標謂詞的語義角色;c)語義角色分類,為識別語義成分的單元進行語義角色的分類;d)后處理,對標注的語義角色進行全局優(yōu)化,確定合理的角色組合。其中,識別和分類階段一般使用局部推導(dǎo)。所謂局部推導(dǎo)是指獨立決定句中每個成分的語義標簽,而不依賴于其他成分的標注,這樣訓(xùn)練得到的模型稱為局部模型。相應(yīng)地,全局推導(dǎo)一般發(fā)生在后處理階段。所謂全局推導(dǎo)是指在局部推導(dǎo)的基礎(chǔ)上,考慮各成分標簽之間的依賴關(guān)系,通過全局模型集成相關(guān)硬限制和軟約束條件,從而得到合理的語義角色組合。通常,合理地集成局部模型和全局模型,能大大提髙系統(tǒng)的性能和健壯性。局部模型的學(xué)習(xí)方法通常可分為兩類基于特征向量的方法和基于核函數(shù)的方法。從目前而言,基于特征向量的方法,取得了較大的成功,速度和性能都大大優(yōu)于基于核函數(shù)的方法?;谔卣飨蛄康姆椒ㄐ枰藶槎x大量具有區(qū)分度的特征模板,然后根據(jù)此模板將每個實例轉(zhuǎn)化為特征向量進行學(xué)習(xí)或預(yù)測操作。目前主要集中于特征工程和機器學(xué)習(xí)模型的研究。但由于基于特征向量的方法僅僅反映了待標注單元的局部信息,不能很好地反映全局信息和結(jié)構(gòu)化句法信息,因此人們探索基于核函數(shù)的方法進行語義角色標注?;诤撕瘮?shù)的方法的基本思想是將低維線性不可分問題映射到髙維空間,使之成為線性可分問題。通常這種映射可以通過計算核函數(shù)隱式達到,從而降低時間和空間復(fù)雜性。核函數(shù)能很好的融入支持向量機、感知器等學(xué)習(xí)算法,因而引起了人們廣泛的興趣。自然語言處理任務(wù)包括詞性標注、句法分析、語義分析、信息抽取等,通常是按序進行的,即后一項任務(wù)在前一項任務(wù)的基礎(chǔ)上進行,例如語義角色分析通常要基于句法分析的結(jié)果。句法分析(SyntacticParsing)是自然語言處理的一個基本問題和關(guān)鍵技術(shù)。它的任務(wù)是根據(jù)給定的語法,自動推導(dǎo)出句子的語法結(jié)構(gòu),即句子所包含的句法單位以及這些句法單位之間的關(guān)系。句法分析的目的主要有兩個一個是確定句子所包含的"譜系"結(jié)構(gòu);另一個是確定句子的組成成份之間的關(guān)系。通常,輸入一個句子,即單詞之間的線性次序,輸出一個非線性的數(shù)據(jù)結(jié)構(gòu),如短語結(jié)構(gòu)樹(如句法樹)或有向無環(huán)圖(如依存關(guān)系圖)等。因此,現(xiàn)有技術(shù)中,總是首先進行句法分析,獲得句法樹,然后在句法樹的基礎(chǔ)上,進行語義分析,包括進行句子的語義角色標。這樣的做法會帶來一系列問題,其一,前項任務(wù)在進行時,無法考慮到后面任務(wù)的具體需求而不能滿足需求,通常句法分析面向后續(xù)的多個任務(wù),因此輸出結(jié)果比較通用,而語義角色標注除需要這些通用信息外,還可能需要一些特定的信息,如句法樹或其子樹的概率信息等,這些信息句法分析系統(tǒng)通常比較欠缺其二,后項任務(wù)的性能受到前面任務(wù)性能的制約,句法分析結(jié)果的好壞會直接影響到語義角色標注的性能。現(xiàn)有的研究表明,在英文手工句法樹和自動句法樹上進行的語義角色標注,其性能(Fl值)相差I(lǐng)O個百分點,而基于中文手工句法樹和自動句法樹上進行的語義角色標注,其F1值相差甚至達30個百分點。
發(fā)明內(nèi)容本發(fā)明目的是本發(fā)明的目的是提供一種有效的句子的語義角色標注方法,通過建立聯(lián)合推導(dǎo)模型,減少自動句法分析結(jié)果對語義角色標注性能的影響,從而解決基于自動句法分析的語義角色標注方法性能較差的問題。為達到上述目的,本發(fā)明采用的技術(shù)方案是一種自然語言句子的語義角色標注方法,采用聯(lián)合學(xué)習(xí)模型,同時實現(xiàn)中文句法分析和語義角色標注,包括如下步驟(l)生成語義角色標注模型生成訓(xùn)練文件從標注語料庫中,根據(jù)下表中的特征抽取特征,生成所需的訓(xùn)練文件;<table>tableseeoriginaldocumentpage6</column></row><table>模型生成利用訓(xùn)練文件對最大熵分類器模型進行訓(xùn)練,得到語義角色標注模型文件;該模型可經(jīng)過足夠的標注語料訓(xùn)練學(xué)習(xí)后得到,使用該模型能夠有效地識別出句子中給定謂詞的語義角色。(2)生成聯(lián)合學(xué)習(xí)模型在現(xiàn)有句法分析模型中,基于詞匯化PCFG的句法分析模型雖然能夠取得較好的性能,但執(zhí)行效率過低,時間復(fù)雜度為0(ns);與此相比,基于歷史信息的句法分析模型,按照從左至右的方式進行制定決策,僅需遍歷一次,此方法由于只需一次從左至右遍歷,故執(zhí)行效率較髙,但缺點是,在作決策時僅使用到當前位置前面的組塊信息,且父結(jié)點通常早于其子結(jié)點生成,在子結(jié)點未全部生成的情況下,根據(jù)所處的上下文信息做出的預(yù)測并不可靠,這樣勢必造成性能的下降。例如,基于圖l所示的基本短語識別結(jié)果,要得到正確句法分析結(jié)果,則前四個決策必須是{StartS和No、StartVP和Noh即為組塊NP(I)生成父親結(jié)點NP和為組塊VBD(saw)生成父親結(jié)點VP,并且此時新生成的父親結(jié)點NP和VP的其他兒子結(jié)點一概不知,即父親結(jié)點的僅在其第一個兒子生成的情況下產(chǎn)生,這在現(xiàn)實情況下往往很難做到這一點。相反,當所有兒子結(jié)點已形成的情況下,預(yù)測其父結(jié)點則相對更加容易和可靠?;诖?,本發(fā)明使用了一種基于歷史信息的層次句法分析模型,此模型能夠綜合以上兩種模型的優(yōu)點,以較小時間復(fù)雜度取得較好的性能。其基本思想是在每層處理過程中,優(yōu)先識別出容易識別的組塊,這樣就能提供更豐富的上下文信息進行復(fù)雜組塊識別;未被合并的組塊和新識別產(chǎn)生的組塊共同構(gòu)成下步處理的輸入,重復(fù)此過程直至識別出根結(jié)點。其過程是一個層次處理的遞歸過程,結(jié)束條件是在某層處理時,所有的組塊合并為一個新的組塊,即句法樹根結(jié)點。完整的句法分析過程可分為詞性標注、基本組塊識別和句法分析。句法分析模型的作用是在基本組塊識別的基礎(chǔ)上,預(yù)測各個組塊下一步的決策,得到正確的句法分析結(jié)果。生成模型常用的特征模版有第n棵樹的中心詞及詞性,當前句法成分標記及決策標記,當前成分的上下文特征等(包括1元、2元、3元等信息)。在層次句法分析模型基礎(chǔ)上,融入語義角色標注信息,可得到本發(fā)明的聯(lián)合學(xué)習(xí)模型,實現(xiàn)句法分析與語義角色標注的聯(lián)合學(xué)習(xí)。提出的聯(lián)合模型基于以下觀察謂詞W的角色成分通常是其兄弟結(jié)點,或其祖先結(jié)點的兄弟結(jié)點,實際上此原則也被廣泛應(yīng)用于語義角色標注的剪枝策略?;诖嗽瓌t提出的聯(lián)合模型由兩部分組成句法樹構(gòu)建部分和角色標注部分,每當句法樹構(gòu)建部分生成一個新的目標動詞的祖先結(jié)點時,便調(diào)用語義角色標注模型,判斷并標注祖先結(jié)點的其他兒子結(jié)點與目標動詞之間的語義角色關(guān)系,同時增加其他語義相關(guān)的信息,使之影響句法樹的構(gòu)建。由于句法樹的構(gòu)建始終處在變化中,并且這種變化的主要影響因素是語義信息,而語義角色標注模型的輸入就是當前構(gòu)建的句法樹,因此輸出的語義角色也在不斷調(diào)整,句法分析和角色標注是相互影響的。具體描述如下給定謂詞w,每當新生成一個w的祖先結(jié)點node時,調(diào)用語義角色標注模型,判斷node的子結(jié)點與謂詞w的語義角色關(guān)系。圖2給出了一個英文句子的句法分析和語義角色標注聯(lián)合學(xué)習(xí)實例示意圖。對圖2.a中的中間結(jié)果1,目標謂詞為VBD(closed),在識別出其父結(jié)點VP后,如圖2.b所示,調(diào)用語義角色標注模型,判斷其兄弟結(jié)點PP(at2569.26)與動詞VBD(closed)的語義角色關(guān)系,如圖2.C所示;緊接著,當VP結(jié)點合并到節(jié)點S后,調(diào)用語義角色標注模型,判斷VP的兄弟結(jié)點NP(TheDowJonesindustrials)與謂詞VBD(closed)的語義角色關(guān)系。在調(diào)用語義角色標注模型,判斷當前結(jié)點與謂詞之間的語義角色關(guān)系時,如果得到的角色LI為非空,即當前結(jié)點是謂詞的某個語義角色,則將該角色的概率值增加到系統(tǒng)概率中,如公式(l)所示prob(T)=prob(T)*prob(Ll)(1)T*=argmax(Prob(T))(2)其中,prob(T)是當前生成樹T句法分析的概率,prob(Ll)是當前結(jié)點被標注為LI的概率。而句法分析模型的目標則是尋找最優(yōu)句法樹T*,這里T*滿足公式(2)。除了語義角色這個信息,在句法分析模型中還增加其他語義相關(guān)信息,以進一步提髙語義信息的作用。由此,生成聯(lián)合學(xué)習(xí)模型的方法是,提取訓(xùn)練語料從樹庫中,提取出句法分析訓(xùn)練語料,句法分析的訓(xùn)練事件中包含語義特征;生成訓(xùn)練文件在句法分析模型常用特征基礎(chǔ)上,添加語義特征,生成訓(xùn)練文件所述句法分析模型常用特征由下表表示:_第n棵樹的中心詞、成分標記和決策標記第n棵樹的中心詞詞性、成分標記和決策標記_第n棵樹的成分標記和決策標記—第n棵樹的上下文特征(l元、2元、3元、4元等)所述語義特征由下表表示:<table>tableseeoriginaldocumentpage8</column></row><table>語義特征的獲取采用步驟(l)的語義角色標注模型實現(xiàn);模型生成利用訓(xùn)練文件對最大熵分類器模型進行訓(xùn)練,得到聯(lián)合學(xué)習(xí)模型文件;(3)詞性標記調(diào)用詞性標記模塊,對給定句子進行詞性標注,保留前N種最優(yōu)的詞性標記系列結(jié)果;(4)基本短語識別調(diào)用基本短語識別模塊,分別對步驟(3)輸出的N種詞性標記結(jié)果,進行基本短語識別,最后保留前N種最優(yōu)的基本短語識別結(jié)果(5)句法分析調(diào)用聯(lián)合學(xué)習(xí)模型,以步驟(4)輸出的N種基本短語識別結(jié)果作為輸入,輸出最優(yōu)的句法分析結(jié)果和語義角色標注結(jié)果;其中,N為1020的整數(shù),N值過大,解析過程中將保留太多的無用的中間結(jié)果,增加系統(tǒng)開銷;而N值過小,則可能會丟失一些正確的中間結(jié)果。由于上述技術(shù)方案運用,本發(fā)明與現(xiàn)有技術(shù)相比具有下列優(yōu)點本發(fā)明通過聯(lián)合模型的使用,能夠同時輸出一個句子的句法分析結(jié)果和給定謂詞的語義角色標注結(jié)果。在聯(lián)合學(xué)習(xí)模型中,由于句法分析模型中增加了語義信息,使得訓(xùn)練出來的模型更適合于語義角色標注任務(wù),因此由此模型輸出的語義角色標注性能更髙。同時聯(lián)合模型輸出的句法分析結(jié)果同單個句法分析模型的結(jié)果相比,兩者性能不會有很大差別,甚至由于語義信息的加入,還能夠提髙句法分析的性能。圖1是句子"Isawthemanwiththebook"的基本短語識別結(jié)果。圖2是句法分析和語義角色標注聯(lián)合學(xué)習(xí)實例示意圖。其中句子為TheDowJonesindustrialsclosedat2569.26。圖3是實施例中中文句子"中美在滬簽訂協(xié)議"的聯(lián)合模型的輸出結(jié)果。具體實施方式下面結(jié)合附圖及實施例對本發(fā)明作進一步描述實施例將對語義角色的標注任務(wù)轉(zhuǎn)換為分類問題,采用最大熵分類器進行訓(xùn)練,得到語義角色標注模型。對句法分析任務(wù),分為詞性標記子任務(wù)、基本短語識別子任務(wù)和層次句法分析子任務(wù),詞性標記和基本短語識別子任務(wù)采用現(xiàn)有句法分析軟件中的成熟模塊完成在句法分析時,調(diào)用語義角色標注模型,得到語義角色信息,將基本短語識別結(jié)果和語義信息作為輸入,輸出最優(yōu)的句法分析結(jié)果和語義角色標注結(jié)果。語義角色標注模型的生成生成訓(xùn)練文件從標注語料庫中,根據(jù)表1中的特征抽取特征,生成所需的訓(xùn)練文件;模型生成采用最大熵模型,對訓(xùn)練文件進行訓(xùn)練,得到語義角色標注模型.-表1位置路徑中心詞及其詞性謂詞子類框架句法成分類型句法成分首詞和尾詞句法成分左兄弟結(jié)點類型謂詞語法框架動詞類別句法成分前一個詞句法成分父親結(jié)點類型壓縮路徑句法成分是否有右兄弟結(jié)點句法成分左兄弟結(jié)點中心詞類型修改的路徑路徑中是否存在根結(jié)點聯(lián)合學(xué)習(xí)模型的生成提取訓(xùn)練語料從樹庫中,提取出層次句法分析訓(xùn)練語料;生成訓(xùn)練文件采用最大熵模型,根據(jù)句法分析模型常用特征(表3)再加上語義特征(表2),生成訓(xùn)練所需的特征文件模型生成采用最大熵模型,對訓(xùn)練文件進行訓(xùn)練,得到聯(lián)合學(xué)習(xí)模型:表2謂詞當前謂語動詞本身謂詞類別謂詞所屬的動詞類別路徑當前句法成分到謂詞的路徑謂詞角色調(diào)用語義角色標注模型識別出的謂詞語義角色表3第n棵樹的中心詞、成分標記和決策標記第n棵樹的中心詞詞性、成分標記和決策標記第n棵樹的成分標記和決策標記10第n棵樹的上下文特征_對待分析的句子,依次進行詞性標記調(diào)用詞性標記模塊,對給定句子進行詞性標注,保留前N種最優(yōu)的詞性標記系列結(jié)果基本短語識別調(diào)用基本短語識別模塊,進行基本短語識別,最后保留前N種最優(yōu)的基本短語識別結(jié)果;句法分析調(diào)用聯(lián)合學(xué)習(xí)模型,以3.2的N種基本短語識別結(jié)果作為輸入,輸出最優(yōu)的句法分析結(jié)果和語義角色標注結(jié)果。圖3是中文句子"中美在滬簽訂協(xié)議"的聯(lián)合模型的輸出結(jié)果。其中畫圏的結(jié)點在生成時,需要調(diào)用語義角色標注模型,判斷這個結(jié)點的子結(jié)點與謂詞結(jié)點(簽訂)之間的語義關(guān)系。圖中的每條邊上的說明是句法分析的具體步驟。描述如下(1)對基本短語NP(中美)標記其為IP成分的開始,即標記為"S—IP(2)判斷該短語是否結(jié)束,如為否,記為"NO"(3)對基本短語P(在)標記為PP成分的開始("S—PP")(4)短語未結(jié)束識別,記為"NO"(5)對基本短語NP(滬)標記為PP成分的繼續(xù)("J.pp")(6)短語識別結(jié)束,記為"YES",形成句法成分PP;(7)對成分PP標記為VP成分的開始("S一VP")(8)短語未結(jié)束識別,記為"NO"(9)對基本短語W(簽訂)標記為VP成分的開始("S—VP")(10)短語未結(jié)束識別,記為"NO"(11)對基本短語NP(協(xié)議)標記為VP成分的繼續(xù)("J一VP")(12)短語識別結(jié)束,記為"YES",形成句法成分VP;由于VP是謂語動詞W(簽訂)的父結(jié)點,因此調(diào)用語義角色標注模型,判斷該結(jié)點的另一孩子結(jié)點NP(協(xié)議)與謂詞結(jié)點W(簽訂)之間的關(guān)系,得出NP(協(xié)議)是W的A1角色,修改當前句法分析的概率。(13)對成分VP標記為另一VP成分的繼續(xù)("J—VP")(14)短語識別結(jié)束,記為"YES",形成句法成分VP;由于VP是謂語動詞W(簽訂)的祖先結(jié)點,因此調(diào)用語義角色標注模型,判斷該結(jié)點的另一孩子結(jié)點PP與謂詞結(jié)點W之間的關(guān)系,得出PP是W的AM-LOC角色,修改當前句法分析的概率。(15)對成分VP標記為IP成分的繼續(xù)("J_IP")(16)短語識別結(jié)束,記為"YES",形成句法成分IP;由于IP是謂語動詞W(簽訂)的祖先結(jié)點,因此調(diào)用語義角色標注模型,判斷該結(jié)點的另一孩子結(jié)點NP(中美)與謂詞結(jié)點W之間的關(guān)系,得出NP是W的AO角色,修改當前句法分析的概率。權(quán)利要求1.一種自然語言句子的語義角色標注方法,其特征在于采用聯(lián)合學(xué)習(xí)模型,同時實現(xiàn)中文句法分析和語義角色標注,包括如下步驟(1)生成語義角色標注模型生成訓(xùn)練文件從標注語料庫中,根據(jù)下表中的特征抽取特征,生成所需的訓(xùn)練文件;位置路徑中心詞及其詞性謂詞子類框架句法成分類型句法成分首詞和尾詞句法成分左兄弟結(jié)點類型謂詞語法框架動詞類別句法成分前一個詞句法成分父親結(jié)點類型壓縮路徑句法成分是否有右兄弟結(jié)點句法成分左兄弟結(jié)點中心詞類型修改的路徑路徑中是否存在根結(jié)點模型生成利用訓(xùn)練文件對最大熵分類器模型進行訓(xùn)練,得到語義角色標注模型文件;(2)生成聯(lián)合學(xué)習(xí)模型提取訓(xùn)練語料從樹庫中,提取出句法分析訓(xùn)練語料,句法分析的訓(xùn)練事件中包含語義特征;生成訓(xùn)練文件在句法分析模型常用特征基礎(chǔ)上,添加語義特征,生成訓(xùn)練文件;所述句法分析模型常用特征由下表表示第n棵樹的中心詞、成分標記和決策標記第n棵樹的中心詞詞性、成分標記和決策標記第n棵樹的成分標記和決策標記第n棵樹的上下文特征所述語義特征由下表表示謂詞當前謂語動詞本身謂詞類別謂詞所屬的動詞類別路徑當前句法成分到謂詞的路徑謂詞角色調(diào)用語義角色標注模型識別出的謂詞語義角色語義特征的獲取采用步驟(1)的語義角色標注模型實現(xiàn);模型生成利用訓(xùn)練文件對最大熵分類器模型進行訓(xùn)練,得到聯(lián)合學(xué)習(xí)模型文件;(3)詞性標記調(diào)用詞性標記模塊,對給定句子進行詞性標注,保留前N種最優(yōu)的詞性標記系列結(jié)果;(4)基本短語識別調(diào)用基本短語識別模塊,分別對步驟(3)輸出的N種詞性標記結(jié)果,進行基本短語識別,最后保留前N種最優(yōu)的基本短語識別結(jié)果;(5)句法分析調(diào)用聯(lián)合學(xué)習(xí)模型,以步驟(4)輸出的N種基本短語識別結(jié)果作為輸入,輸出最優(yōu)的句法分析結(jié)果和語義角色標注結(jié)果;其中,N為10~20的整數(shù)。全文摘要本發(fā)明公開了一種自然語言句子的語義角色標注方法,其特征在于采用聯(lián)合學(xué)習(xí)模型,同時實現(xiàn)中文句法分析和語義角色標注。本發(fā)明通過聯(lián)合模型的使用,能夠同時輸出一個句子的句法分析結(jié)果和給定謂詞的語義角色標注結(jié)果。在聯(lián)合學(xué)習(xí)模型中,由于句法分析模型中增加了語義信息,使得訓(xùn)練出來的模型更適合于語義角色標注任務(wù),因此由此模型輸出的語義角色標注性能更高。同時聯(lián)合模型輸出的句法分析結(jié)果同單個句法分析模型的結(jié)果相比,兩者性能不會有很大差別,甚至由于語義信息的加入,還能夠提高句法分析的性能。文檔編號G06F17/27GK101446942SQ20081024360公開日2009年6月3日申請日期2008年12月10日優(yōu)先權(quán)日2008年12月10日發(fā)明者周國棟,芳孔,朱巧明,李培峰,王紅玲,錢培德,錢龍華申請人:蘇州大學(xué)