專(zhuān)利名稱(chēng):一種雙語(yǔ)聯(lián)合語(yǔ)義角色的標(biāo)注方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,是一種在雙語(yǔ)平行句子對(duì)上將源語(yǔ)言句子和 目標(biāo)語(yǔ)言句子聯(lián)合起來(lái)做語(yǔ)義角色標(biāo)注的方法。
背景技術(shù):
語(yǔ)義角色標(biāo)注是一種淺層語(yǔ)義分析技術(shù),它的目標(biāo)是找出一個(gè)句子中的謂詞的各 個(gè)論元,并為這些論元加上表示其角色的標(biāo)簽。一個(gè)例子如下所示外商投資企業(yè) 成為 中國(guó)外貿(mào)投資增長(zhǎng)點(diǎn)[ AO] [Pred] [Al]在上面的例子中,“成為”是謂詞;“外商投資企業(yè)”是“成為”這個(gè)動(dòng)作的施事者, 從而是“成為,,的一個(gè)論元,其角色標(biāo)簽是AO ;“中國(guó)外貿(mào)投資增長(zhǎng)點(diǎn),,是“成為,,這個(gè)動(dòng)作 的受事者,從而是“成為”的另一個(gè)論元,其角色標(biāo)簽是Al。目前廣泛使用的一個(gè)語(yǔ)義角色 標(biāo)注體系是命題庫(kù)(PropBank)的標(biāo)注體系,關(guān)于這個(gè)標(biāo)注體系的具體說(shuō)明可以參考文獻(xiàn)Martha Palmer,Daniel Gildea,and Paul Kingsbury. 2005. The Proposition Bank :An Annotated Corpus of Semantic Roles. Computational Linguistics,31(1) :71_106.。 所述標(biāo)注體系定義了一套通用的標(biāo)簽集,所述標(biāo)簽集中有A0、A1、A2、A3、A4、A5這六個(gè)關(guān)鍵 語(yǔ)義角色標(biāo)簽,以及以AM開(kāi)頭的許多附屬性語(yǔ)義角色標(biāo)簽,如AM-TMP,AM-ADV等。對(duì)于一 個(gè)謂詞,不同的語(yǔ)義角色表示不同的含義。例如語(yǔ)義角色AO表示謂詞所代表的動(dòng)作的施事 者,而語(yǔ)義角色Al則表示謂詞所代表的動(dòng)作的受事者。從上述的例子我們可以看出,語(yǔ)義 角色標(biāo)注能夠提取出一個(gè)句子的謂詞-論元結(jié)構(gòu),從而反映出這個(gè)句子的語(yǔ)義框架。如果 語(yǔ)義角色標(biāo)注能夠做好,將能極大地提高包括信息檢索與抽取、機(jī)器翻譯、自動(dòng)文摘在內(nèi)的 多項(xiàng)技術(shù)的水平。我們稱(chēng)對(duì)雙語(yǔ)平行句子對(duì)進(jìn)行語(yǔ)義角色標(biāo)注為雙語(yǔ)的語(yǔ)義角色標(biāo)注。雙語(yǔ)的語(yǔ)義 角色標(biāo)注有著重要的應(yīng)用領(lǐng)域,例如機(jī)器翻譯。近幾年來(lái),許多研究者對(duì)多種語(yǔ)言的語(yǔ)義角 色標(biāo)注進(jìn)行了大量的研究。但是卻沒(méi)有人提出一個(gè)有效地進(jìn)行雙語(yǔ)的語(yǔ)義角色標(biāo)注的方 法。由于英語(yǔ)有著較為豐富的語(yǔ)義角色標(biāo)注語(yǔ)料庫(kù),而德語(yǔ)卻缺乏這樣的語(yǔ)料庫(kù),所以有學(xué) 者曾經(jīng)提出一種利用英德平行語(yǔ)料庫(kù)來(lái)自動(dòng)生成一些德語(yǔ)語(yǔ)義角色標(biāo)注語(yǔ)料的方法。這種 方法只在英語(yǔ)端作語(yǔ)義角色標(biāo)注,然后利用詞對(duì)齊將英語(yǔ)端的結(jié)果映射到德語(yǔ)端。這種方 法簡(jiǎn)單地將英語(yǔ)端的結(jié)果映射到德語(yǔ)端,忽視了兩種語(yǔ)言的差異性,因而在德語(yǔ)端得到的 語(yǔ)義角色標(biāo)注結(jié)果很差。所以這種方法無(wú)法解決雙語(yǔ)的語(yǔ)義角色標(biāo)注問(wèn)題。對(duì)于雙語(yǔ)的語(yǔ) 義角色標(biāo)注,另外一種傳統(tǒng)的方法是在源語(yǔ)言端和目標(biāo)語(yǔ)言端分別進(jìn)行單語(yǔ)的語(yǔ)義角色標(biāo) 注。但是,這種方法沒(méi)有挖掘和利用雙語(yǔ)句子對(duì)所包含的語(yǔ)義上的深層信息,而只將其視為 兩種不同語(yǔ)言各自的語(yǔ)義角色標(biāo)注問(wèn)題。由于目前單語(yǔ)的語(yǔ)義角色標(biāo)注的準(zhǔn)確率都不高, 上述的傳統(tǒng)的方法很難在源語(yǔ)言端和目標(biāo)語(yǔ)言端同時(shí)獲得準(zhǔn)確的語(yǔ)義角色標(biāo)注結(jié)果。
發(fā)明內(nèi)容
針對(duì)傳統(tǒng)方法的缺陷,本發(fā)明的目的在于利用雙語(yǔ)之間論元結(jié)構(gòu)的一致性來(lái)提高 語(yǔ)義角色標(biāo)注的準(zhǔn)確率,并且同時(shí)對(duì)齊源語(yǔ)言端和目標(biāo)語(yǔ)言端的論元。為了實(shí)現(xiàn)所述目的,本發(fā)明提供一種雙語(yǔ)聯(lián)合語(yǔ)義角色的標(biāo)注方法,所述方法的 步驟如下步驟1 對(duì)雙語(yǔ)句子對(duì)進(jìn)行分詞、詞性標(biāo)注和自動(dòng)詞對(duì)齊,并找出雙語(yǔ)句子對(duì)中包 含的謂詞對(duì);步驟2 針對(duì)所述的謂詞對(duì),利用單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)為每一個(gè)謂詞生成多個(gè) 語(yǔ)義角色標(biāo)注結(jié)果,從而得到多個(gè)初始候選論元;步驟3 將所述初始候選論元進(jìn)行合并,得到正式候選論元;步驟4:針對(duì)所述正式候選論元,利用雙語(yǔ)聯(lián)合推斷模型同時(shí)生成雙語(yǔ)句子對(duì)的 語(yǔ)義角色標(biāo)注結(jié)果。優(yōu)選實(shí)施例,逐個(gè)考察雙語(yǔ)句子對(duì)中自動(dòng)對(duì)齊的詞對(duì),如果自動(dòng)對(duì)齊的詞對(duì)中的 兩個(gè)詞都是動(dòng)詞,則認(rèn)為這一對(duì)詞是一個(gè)謂詞對(duì);從雙語(yǔ)句子對(duì)中找出所有這樣的謂詞對(duì)。優(yōu)選實(shí)施例,所述生成多個(gè)語(yǔ)義角色標(biāo)注結(jié)果的具體步驟如下步驟21 對(duì)雙語(yǔ)句子對(duì)中的每一個(gè)句子,使用句法分析器生成多個(gè)句法分析結(jié)果;步驟22 將所述的每一個(gè)句法分析結(jié)果輸入給單語(yǔ)的語(yǔ)義角色標(biāo)注系統(tǒng),從而得 到一個(gè)語(yǔ)義角色標(biāo)注結(jié)果,所述語(yǔ)義角色標(biāo)注結(jié)果中的每一個(gè)論元都是一個(gè)初始候選論兀。優(yōu)選實(shí)施例,所述對(duì)初始候選論元進(jìn)行合并是將具有相同位置和標(biāo)簽的初始候選 論元合并成一個(gè)正式候選論元。優(yōu)選實(shí)施例,所述雙語(yǔ)聯(lián)合推斷模型同時(shí)考慮了三個(gè)相互關(guān)聯(lián)的因素;這三個(gè)因 素是源語(yǔ)言端語(yǔ)義角色標(biāo)注的正確性,目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注的正確性,以及源語(yǔ)言端 和目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注結(jié)果之間論元對(duì)齊的合理性。優(yōu)選實(shí)施例,在分別考慮源語(yǔ)言端和目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注的正確性時(shí),雙語(yǔ) 聯(lián)合推斷模型的目標(biāo)是使標(biāo)注正確的論元的個(gè)數(shù)的數(shù)學(xué)期望最大;雙語(yǔ)聯(lián)合推斷模型的約 束條件包括以下兩類(lèi)1)關(guān)鍵語(yǔ)義角色不重復(fù)對(duì)于六種關(guān)鍵語(yǔ)義角色類(lèi)型AO A5,不能有重復(fù)的論 元;2)論元位置不重疊一個(gè)句子中的任何兩個(gè)論元在位置上不能重疊。優(yōu)選實(shí)施例,為了衡量源語(yǔ)言端和目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注結(jié)果之間論元對(duì)齊的 合理性,使用了一個(gè)對(duì)數(shù)線性模型來(lái)計(jì)算對(duì)齊兩個(gè)論元的概率;對(duì)于任意給定的一個(gè)源語(yǔ) 言端的論元和一個(gè)目標(biāo)語(yǔ)言端的論元,所述對(duì)數(shù)線性模型能計(jì)算出這兩個(gè)論元對(duì)齊的概 率;所述對(duì)數(shù)線性模型使用的特征有1)詞對(duì)齊特征所述詞對(duì)齊特征定義為兩個(gè)論元所包含的詞互相對(duì)齊的杰卡德 相似度(Jaccard)系數(shù);2)中心詞對(duì)齊特征將兩個(gè)論元的中心詞是否對(duì)齊作為一個(gè)特征;3)兩個(gè)論元的語(yǔ)義角色標(biāo)簽;4)謂詞對(duì),即源語(yǔ)言端的謂詞和目標(biāo)語(yǔ)言端的謂詞。
優(yōu)選實(shí)施例,在考慮源語(yǔ)言端和目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注結(jié)果之間論元對(duì)齊的合 理性時(shí),雙語(yǔ)聯(lián)合推斷模型的目標(biāo)是使正確對(duì)齊的論元的個(gè)數(shù)的數(shù)學(xué)期望最大;雙語(yǔ)聯(lián)合 推斷模型的約束條件包括以下三類(lèi)1)與雙語(yǔ)的語(yǔ)義角色標(biāo)注的結(jié)果相容所述條件要求被對(duì)齊的候選論元必須是 出現(xiàn)在最終雙語(yǔ)語(yǔ)義角色標(biāo)注結(jié)果中的論元;2) 一對(duì)多的個(gè)數(shù)限制每個(gè)論元至多只能和三個(gè)論元對(duì)齊;3)論元對(duì)齊的完備性源語(yǔ)言端的每個(gè)論元必須至少和一個(gè)目標(biāo)語(yǔ)言端的論元 對(duì)齊;同樣,目標(biāo)語(yǔ)言端的每個(gè)論元必須至少和一個(gè)源語(yǔ)言端的論元對(duì)齊;同時(shí),所述約束 又是一種軟約束,即允許違背上述的論元對(duì)齊的完備性要求,但對(duì)于違背的情況加以懲罰, 違背越多懲罰就越大。本發(fā)明的積極效果由于雙語(yǔ)平行句子對(duì)是互為翻譯的一對(duì)句子,因而它們?cè)谡Z(yǔ) 義上是等價(jià)的。這種語(yǔ)義等價(jià)關(guān)系意味著雙語(yǔ)平行句子對(duì)應(yīng)當(dāng)具有一致的謂詞_論元結(jié) 構(gòu)。即對(duì)于互為翻譯的一對(duì)謂詞,其論元結(jié)構(gòu)應(yīng)當(dāng)是一致的。這種論元結(jié)構(gòu)的一致性可以 指導(dǎo)我們找到更好的語(yǔ)義角色標(biāo)注結(jié)果。本發(fā)明能夠利用雙語(yǔ)間論元結(jié)構(gòu)的一致性來(lái)指導(dǎo) 雙語(yǔ)的語(yǔ)義角色標(biāo)注。目前效果最好的語(yǔ)義角色標(biāo)注方法是單語(yǔ)融合的方法。我們?cè)谥杏?平行命題庫(kù)(PropBank)上的進(jìn)行了實(shí)驗(yàn)。利用本發(fā)明,中文和英文的語(yǔ)義角色標(biāo)注結(jié)果的 Fl值分別達(dá)到了 80. 06%和81. 12%,比單語(yǔ)融合的方法分別提高了 2. 05和1. 71個(gè)百分 點(diǎn)。這充分證明了本方法的有效性和優(yōu)越性。
圖Ia和圖Ib是一個(gè)典型的取自漢_英平行命題庫(kù)(PropBank)中的例子;圖2是本發(fā)明的系統(tǒng)框架以及工作流程具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明作具體說(shuō)明。應(yīng)該指出,所描述的實(shí)例僅僅視為說(shuō)明的目 的,而不是對(duì)本發(fā)明的限制。本發(fā)明所有代碼實(shí)現(xiàn)都是用Python 2. 6語(yǔ)言完成的,開(kāi)發(fā)平臺(tái)是Ubimtu Linux 9. 04。由于Python代碼運(yùn)行于Python虛擬機(jī)上,具有跨平臺(tái)的能力,因此所述的實(shí)現(xiàn)也可 以運(yùn)行于Windows操作系統(tǒng)上。本發(fā)明的基本思想是利用雙語(yǔ)間論元結(jié)構(gòu)的一致性來(lái)指導(dǎo)雙語(yǔ)的語(yǔ)義角色標(biāo)注。 例如,圖Ia和圖Ib是一個(gè)典型的取自漢-英平行命題庫(kù)(PropBank)中的例子。在圖Ia 中,語(yǔ)義角色標(biāo)注的結(jié)果是由單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)給出的。英語(yǔ)端的語(yǔ)義角色標(biāo)注的結(jié) 果是正確的。漢語(yǔ)端標(biāo)記為“R1”的那一行的結(jié)果是正確的;而標(biāo)記為“R2”的那一行的結(jié)果 是錯(cuò)誤的。所述漢語(yǔ)端正確結(jié)果的論元結(jié)構(gòu)與英語(yǔ)端正確結(jié)果的論元結(jié)構(gòu)是一致的;而所 述漢語(yǔ)端錯(cuò)誤結(jié)果的論元結(jié)構(gòu)與英語(yǔ)端正確結(jié)果的論元結(jié)構(gòu)不一致。在這個(gè)例子中,因?yàn)?漢語(yǔ)端的AM-TMP論元嵌入到了一個(gè)不連續(xù)的Al論元之中,所以漢語(yǔ)端的正確結(jié)果比英語(yǔ) 端的更難得到。而論元結(jié)構(gòu)的一致性可以指導(dǎo)我們選出漢語(yǔ)端正確的語(yǔ)義角色標(biāo)注結(jié)果。 而附圖Ib給出了英語(yǔ)端和漢語(yǔ)端正確的語(yǔ)義角色標(biāo)注結(jié)果之間的合理的論元對(duì)齊。附圖 Ib表明雙語(yǔ)句子對(duì)之間一致的論元結(jié)構(gòu)可以通過(guò)它們之間合理的論元對(duì)齊反映出來(lái)。
本發(fā)明提出了一個(gè)聯(lián)合推斷模型來(lái)進(jìn)行雙語(yǔ)的語(yǔ)義角色標(biāo)注。本發(fā)明的系統(tǒng)框架 結(jié)構(gòu)如圖2所示。下面我們以漢_英平行句子對(duì)作為實(shí)施例來(lái)詳細(xì)闡述本發(fā)明的原理與實(shí) 現(xiàn)方法。1.對(duì)雙語(yǔ)句子對(duì)進(jìn)行分詞、詞性標(biāo)注和自動(dòng)詞對(duì)齊,并找出雙語(yǔ)句子對(duì)中包含的 謂詞對(duì)。
具體實(shí)施方式
如下對(duì)雙語(yǔ)句子對(duì)中的源語(yǔ)言和目標(biāo)語(yǔ)言句子進(jìn)行自動(dòng)分詞,得到源語(yǔ)言端和目標(biāo)語(yǔ) 言端的分詞結(jié)果。如果源語(yǔ)言或目標(biāo)語(yǔ)言中不包含漢語(yǔ),則不需要進(jìn)行分詞。如果源語(yǔ)言 或目標(biāo)語(yǔ)言中包含漢語(yǔ),則需要用對(duì)漢語(yǔ)進(jìn)行分詞。對(duì)漢語(yǔ)進(jìn)行分詞的方法有很多種。在 本文的實(shí)施例中我們以開(kāi)源的斯坦福中文分詞工具(Stanford Chinese Word Segmenter) 對(duì)漢語(yǔ)進(jìn)行分詞。斯坦福中文分詞工具一個(gè)常用的開(kāi)源中文分詞工具。斯坦福中文分詞工 具可以在以下網(wǎng)址免費(fèi)下載http//nip. Stanford, edu/software/seRmenter. shtml得到所述的源語(yǔ)言端和目標(biāo)語(yǔ)言端的分詞結(jié)果之后,分別對(duì)源語(yǔ)言端和目標(biāo)語(yǔ)言 端的分詞結(jié)果進(jìn)行詞性標(biāo)注,得到源語(yǔ)言端和目標(biāo)語(yǔ)言端的詞性標(biāo)注結(jié)果。進(jìn)行詞性標(biāo)注 的方法有很多種。在本文的實(shí)施例中我們用開(kāi)源的斯坦福詞性標(biāo)注工具(Stanford POS Tagger)來(lái)對(duì)漢語(yǔ)和英語(yǔ)進(jìn)行詞性標(biāo)注。斯坦福詞性標(biāo)注工具是一個(gè)常用的開(kāi)源詞性標(biāo)注 工具,可以在以下網(wǎng)址免費(fèi)下載http//nip. Stanford, edu/software/taRRer. shtml得到所述的源語(yǔ)言端和目標(biāo)語(yǔ)言端的分詞結(jié)果之后,需要對(duì)雙語(yǔ)句子對(duì)自動(dòng)進(jìn)行 詞對(duì)齊。自動(dòng)進(jìn)行詞對(duì)齊的方法有多種。在本文的實(shí)施例中我們使用GIZA++工具對(duì)漢-英 句子對(duì)進(jìn)行詞對(duì)齊,得到漢_英自動(dòng)詞對(duì)齊結(jié)果。GIZA++是一個(gè)常用的開(kāi)源詞對(duì)齊工具。 GIZA++可以在以下網(wǎng)址免費(fèi)下載http://fioch. com/GIZA++. html。在使用GIZA++時(shí)要選 擇其中的intersection啟發(fā)式策略來(lái)得到詞對(duì)齊結(jié)果,因?yàn)檫@樣做可以得到準(zhǔn)確率很高 的詞對(duì)齊結(jié)果。利用所述的源語(yǔ)言端和目標(biāo)語(yǔ)言端的詞性標(biāo)注結(jié)果和詞對(duì)齊結(jié)果,逐個(gè)考察雙語(yǔ) 句子對(duì)中自動(dòng)對(duì)齊的詞對(duì),如果自動(dòng)對(duì)齊的詞對(duì)中的兩個(gè)詞都是動(dòng)詞,則認(rèn)為這一對(duì)詞是 一個(gè)謂詞對(duì)。從雙語(yǔ)句子對(duì)中找出所有這樣的謂詞對(duì)。2.針對(duì)所述步驟1中得到的謂詞對(duì),利用單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)為每一個(gè)謂詞生 成多個(gè)語(yǔ)義角色標(biāo)注結(jié)果,從而得到多個(gè)初始候選論元;具體實(shí)施方式
如下如圖2所示,針對(duì)所述步驟1中所得到的雙語(yǔ)句子對(duì)中的謂詞對(duì),我們需要用 單語(yǔ)的語(yǔ)義角色標(biāo)注系統(tǒng)為每個(gè)謂詞生成多個(gè)語(yǔ)義角色標(biāo)注結(jié)果。單語(yǔ)的語(yǔ)義角色標(biāo) 注系統(tǒng)有許多種。在本文的實(shí)施例中,根據(jù)文獻(xiàn)Nianwen Xue. 2008. Labeling Chinese Predicates with Semantic Roles. Computational Linguistics, 34 (2) :225_255.所描 述的方法,我們實(shí)現(xiàn)了一個(gè)基于最大熵分類(lèi)器的單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)。所述的基于最大 熵分類(lèi)器的單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)以短語(yǔ)結(jié)構(gòu)句法樹(shù)作為輸入,輸出單語(yǔ)語(yǔ)義角色標(biāo)注結(jié) 果。當(dāng)使用所述的基于最大熵分類(lèi)器的單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)做漢語(yǔ)的語(yǔ)義角色標(biāo)注時(shí), 使用的特征與文獻(xiàn)Nianwen Xue. 2008. Labeling Chinese Predicates with Semantic Roles. Computational Linguistics, 34 (2) :225_255.中使用的特征一致。當(dāng)使用所述的 基于最大熵分類(lèi)器的單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)做英語(yǔ)的語(yǔ)義角色標(biāo)注時(shí),使用的特征與文獻(xiàn)Sameer S. Pradhan, Wayne Ward, James H.Martin. 2008. Towards Robust Semantic Role Labeling. Computational Linguistics, 34 (2) :289_310.中使用的特征一致。在本文的 實(shí)施例中,我們使用了開(kāi)源的最大熵工具包來(lái)實(shí)現(xiàn)所述的基于最大熵分類(lèi)器的單語(yǔ)語(yǔ)義角 色標(biāo)注系統(tǒng)。所述開(kāi)源的最大熵工具包可以在以下網(wǎng)址免費(fèi)下載http://homepages, inf. ed. ac. uk/lzhang 10/maxent toolkit, html所述開(kāi)源的最大熵工具包的使用方法可參考所述開(kāi)源的最大熵工具包中的說(shuō)明 文件。對(duì)于每一個(gè)論元,所述最大熵分類(lèi)器都能輸出一個(gè)分類(lèi)概率,我們就用這個(gè)分類(lèi) 概率作為所述論元的概率。如附表1所示,單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)輸出結(jié)果中的每一個(gè)論 元都有三個(gè)屬性論元在句子中的位置loc,所述位置表示為它的第一個(gè)和最后一個(gè)詞的 詞號(hào);論元的語(yǔ)義角色1 ;以及論元的概率P。這樣,單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)輸出結(jié)果中的每 一個(gè)初始候選論元都是一個(gè)三元組(loc,l,p)。例如附表1中的AO論元就是((0,2),A0, 0. 94)。附表1句子論元Ioc1ρ
外商投資企業(yè)成為中國(guó)外貿(mào)重要增長(zhǎng)點(diǎn) [ AO ] [Pred] [Al]
(0,2)(4,7)
AOAl
0. 940. 92為了給每個(gè)句子生成多個(gè)候選結(jié)果,我們使用多個(gè)句法分析結(jié)果作為單語(yǔ)語(yǔ)義角 色標(biāo)注系統(tǒng)的輸入。進(jìn)行句法分析有多種方法。在本文的實(shí)施例中我們使用了三個(gè)不同的 句法分析器=Berkeley句法分析器,Bikel句法分析器,和Stanford句法分析器。在本文的 實(shí)施例中我們使用的句法分析結(jié)果有Berkeley句法分析器的3_best輸出,以及Bikel句 法分析器和Stanford句法分析器的各自的l_best輸出。這樣,對(duì)每個(gè)句子我們都得到5 個(gè)句法分析結(jié)果,將這些結(jié)果輸入到單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)中就能得到5個(gè)語(yǔ)義角色標(biāo)注 結(jié)果。這些語(yǔ)義角色標(biāo)注結(jié)果中的每一個(gè)論元都是一個(gè)初始候選論元。3.將所述初始候選論元進(jìn)行合并,得到正式候選論元。
具體實(shí)施方式
如下找出所有初始候選論元中具有相同位置和標(biāo)簽的初始候選論元;然后將這些初始 候選論元合并成一個(gè)正式候選論元。合并后得到的正式候選論元的位置和標(biāo)簽與被合并的 初始候選論元相同,而所述正式候選論元的概率是所有被合并的初始候選論元的概率的平 均值。經(jīng)過(guò)合并之后,對(duì)于一個(gè)正式候選論元(loc,1,P),我們稱(chēng)P為將標(biāo)簽1賦予位置 Ioc的概率。4.針對(duì)所述正式候選論元,利用雙語(yǔ)聯(lián)合推斷模型同時(shí)生成雙語(yǔ)句子對(duì)的語(yǔ)義角 色標(biāo)注結(jié)果。
具體實(shí)施方式
如下符號(hào)說(shuō)明本文中所用的數(shù)學(xué)符號(hào)比較多,為了便于比較,附表2中列出了出現(xiàn)次數(shù)較多的 一些符號(hào)及其含義。對(duì)于附表2中未列出的數(shù)學(xué)符號(hào),本文在它們出現(xiàn)的地方也給出了說(shuō) 明。附表2 雙語(yǔ)聯(lián)合推斷模型同時(shí)考慮了三個(gè)相互關(guān)聯(lián)的因素源語(yǔ)言端語(yǔ)義角色標(biāo)注的正 確性,目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注的正確性,以及源語(yǔ)言端和目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注結(jié)果 之間論元對(duì)齊的合理性。因此雙語(yǔ)聯(lián)合推斷模型可以從概念上分為三個(gè)組成部分源語(yǔ)言 部分,目標(biāo)語(yǔ)言部分,以及論元對(duì)齊部分。雙語(yǔ)聯(lián)合推斷模型的目標(biāo)函數(shù)是三個(gè)子目標(biāo)的加 權(quán)和 其中,Os和Ot分別代表了源語(yǔ)言端和目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注的正確性;0a代表 了源語(yǔ)言端和目標(biāo)語(yǔ)言端的語(yǔ)義角色標(biāo)注結(jié)果之間論元對(duì)齊的合理性;0S、Ot和Oa的具體 定義將在后面介紹;λ i和λ 2是相應(yīng)于Ot和Oa的權(quán)值,我們根據(jù)經(jīng)驗(yàn)令λ i = 1. 02,λ 2 = 1. 21。4. 1源語(yǔ)言部分源語(yǔ)言部分要提高源語(yǔ)言端語(yǔ)義角色標(biāo)注的正確性。而這等同于一個(gè)單語(yǔ)語(yǔ)義角 色標(biāo)注的融合問(wèn)題。如附表2所示,1^表示源語(yǔ)言語(yǔ)義角色標(biāo)簽的類(lèi)別數(shù),我們記源語(yǔ)言端的語(yǔ)義角色 標(biāo)簽集為仄…,孓},其中/f /丨分別表示源語(yǔ)言的六個(gè)關(guān)鍵語(yǔ)義角色標(biāo)簽AO Α5。在 源語(yǔ)言端所有的正式候選論元中,一共包含Ns個(gè)不同的位置{/θ<,···,/θ£^}。而將語(yǔ)義角 色標(biāo)簽巧賦予位置/ocf的概率是; =_,此處表示源語(yǔ)言端正式候選論元中的第i個(gè)位置,
表示源語(yǔ)言標(biāo)簽集中的第個(gè)j標(biāo)簽。定義整數(shù)變量Xij為 式(1)中源語(yǔ)言部分的子目標(biāo)Os是使源語(yǔ)言端標(biāo)注正確的論元的個(gè)數(shù)的數(shù)學(xué)期 望最大 其中Ts是一個(gè)常數(shù)閾值,我們根據(jù)經(jīng)驗(yàn)令Ts = 0. 15。加入Ts的目的是過(guò)濾掉概 率太小的源語(yǔ)言端的正式候選論元。源語(yǔ)言部分的約束條件包括以下兩類(lèi)1)關(guān)鍵語(yǔ)義角色不重復(fù)對(duì)于六種關(guān)鍵語(yǔ)義角色類(lèi)型AO A5,不能有重復(fù)的論兀。2)論元位置不重疊一個(gè)句子中的任何兩個(gè)論元在位置上不能重疊。其實(shí)還有一個(gè)隱含的約束,即對(duì)源語(yǔ)言端的每一個(gè)位置只能賦予一個(gè)語(yǔ)義角色標(biāo) 簽,所述隱含的約束可以表示成式(3) 式(4)表示的是上述的關(guān)鍵語(yǔ)義角色不重復(fù)約束Vl < 7 < 6 < 1(4)
i=l對(duì)源語(yǔ)言端的一個(gè)位置,令Ci表示集合{/θ<,.·.,/θ^}中除本身之外與 /ocf重疊的位置的下標(biāo)集,那么上述的論元位置不重疊約束可以表示為式(5)
10 其中M表示一個(gè)充分大的常數(shù),M只要比正式候選論元的個(gè)數(shù)大就可以了,我們將 M取為500。4.2目標(biāo)語(yǔ)言部分目標(biāo)語(yǔ)言部分和上述的源語(yǔ)言部分在原理上是完全相同的,只是數(shù)學(xué)表示符號(hào)不 同,我們?cè)诖私o出其數(shù)學(xué)表示。如附表2所示,Lt表示目標(biāo)語(yǔ)言語(yǔ)義角色標(biāo)簽的類(lèi)別數(shù),我們記目標(biāo)語(yǔ)言端的語(yǔ)義 角色標(biāo)簽集為仏},其中Z丨 Z丨分別表示目標(biāo)語(yǔ)言的六個(gè)關(guān)鍵語(yǔ)義角色標(biāo)簽Α0 Α5。在目標(biāo)語(yǔ)言端所有的正式候選論元中,一共包含Nt個(gè)不同的位置{/0<,.··,/0 ^}。而 將語(yǔ)義角色標(biāo)簽G賦予位置的概率是/^,此處表示目標(biāo)語(yǔ)言端正式候選論元中的 第k個(gè)位置,/;表示目標(biāo)語(yǔ)言標(biāo)簽集中的第個(gè)j標(biāo)簽。定義整數(shù)變量ykj為
,,J1虓將語(yǔ)義角色標(biāo)簽C賦予位置M 、[O其他、‘“式(1)中目標(biāo)語(yǔ)言部分的子目標(biāo)Ot是使目標(biāo)語(yǔ)言端標(biāo)注正確的論元的個(gè)數(shù)的數(shù) 學(xué)期望最大 其中Tt是一個(gè)常數(shù)閾值,我們根據(jù)經(jīng)驗(yàn)令Tt = 0. 26。加入Tt的目的是過(guò)濾掉概 率太小的目標(biāo)語(yǔ)言端的正式候選論元。一個(gè)隱含的約束是對(duì)目標(biāo)語(yǔ)言端的每一個(gè)位置只能賦予一個(gè)語(yǔ)義角色標(biāo)簽,所述
隱含的約束可以表示成式(7) 式(8)表示的是目標(biāo)語(yǔ)言端的關(guān)鍵語(yǔ)義角色不重復(fù)約束 式(9)表示的是目標(biāo)語(yǔ)言端的論元位置不重疊約束(9) 其中Ck表示中除丨本身之外與/oc丨重疊的位置的下標(biāo)集,常數(shù)M 取為500。4. 3論元對(duì)齊部分論元對(duì)齊部分是聯(lián)合推斷模型的核心部分。論元對(duì)齊部分將從雙語(yǔ)候選語(yǔ)義角色標(biāo)注結(jié)果中選出論元對(duì)齊更合理的結(jié)果。對(duì)于一個(gè)源語(yǔ)言端的論元argf =(/θ<,Γ)和一個(gè)目標(biāo)語(yǔ)言端的論元
arg[ = (IoctkJt),令zik為如下整數(shù)變量 我們用;^表示與Wgl對(duì)齊的概率,即
我們稱(chēng)乂為arg/與
對(duì)齊的概率。4. 3. 1論元對(duì)齊概率模型我們建立了一個(gè)論元對(duì)齊概率模型來(lái)計(jì)算argf與argi對(duì)齊的概率/?二。所述模型 是一個(gè)對(duì)數(shù)線性模型。令(s,t)表示一個(gè)雙語(yǔ)句子對(duì),wa表示(s,t)上的詞對(duì)齊。所述 對(duì)數(shù)線性模型定義了變量Zik在給定五元組
的條件下的概率分 布 其中φ (tup)代表特征向量,w是與特征向量Φ (tup)相應(yīng)的特征權(quán)值向量,wT表 示W(wǎng)的轉(zhuǎn)置。有了這個(gè)模型,;^就可以如下計(jì)算了 上述論元對(duì)齊概率模型使用的特征有1)詞對(duì)齊特征。詞對(duì)齊特征定義為兩個(gè)論元所包含的詞互相對(duì)齊的杰卡德相似度 系數(shù)(Jaccard Similarity coefficient)。計(jì)算杰卡德相似度系數(shù)時(shí)要進(jìn)行雙向計(jì)算,并 取兩個(gè)方向結(jié)果的平均值作為特征。詞對(duì)齊特征的具體計(jì)算方法可以參考文獻(xiàn)Sebastian Pado, and Mirella Lapata. 2009. Cross-lingual Annotation Projection of Semantic Roles. Journal of Artificial Intelligence Research, 36 :307_340·2)中心詞對(duì)齊特征。將兩個(gè)論元的中心詞是否對(duì)齊作為一個(gè)特征。3)兩個(gè)論元的語(yǔ)義角色標(biāo)簽。4)謂詞對(duì)。即源語(yǔ)言端的謂詞和目標(biāo)語(yǔ)言端的謂詞。為了研究實(shí)際語(yǔ)料中論元對(duì)齊的情況,同時(shí)為了給論元對(duì)齊概率模型提供訓(xùn)練 數(shù)據(jù)。我們手工為漢_英平行命題庫(kù)(PropBank)中的60個(gè)文件(chtb_0121. fid至 chtb_0180. fid)做了論元對(duì)齊。我們用這些手工對(duì)齊的數(shù)據(jù)來(lái)訓(xùn)練上述論元對(duì)齊概率模 型。從模型的類(lèi)別上看,所述對(duì)齊概率模型是一個(gè)對(duì)數(shù)線形模型。實(shí)現(xiàn)對(duì)數(shù)線性模型的方 法有多種。在本文的實(shí)施例中,我們用開(kāi)源的最大熵工具包來(lái)實(shí)現(xiàn)論元對(duì)齊概率模型。所 述開(kāi)源的最大熵工具包可以在以下網(wǎng)址免費(fèi)下載http://homepaRes. inf. ed. ac. uk/lzhanRlO/maxenttoolkit. html 對(duì)齊概率模型 具體的訓(xùn)練與計(jì)算方法可以參考所述最大熵工具包中的說(shuō)明。4. 3. 2論元對(duì)齊模型式(1)中論元對(duì)齊部分的子目標(biāo)Oa使正確對(duì)齊的論元個(gè)數(shù)的數(shù)學(xué)期望最大
12
其中Ta是一個(gè)常數(shù)閾值,我們根據(jù)經(jīng)驗(yàn)令Ta = 0. 42,加入Ta的目的是過(guò)濾掉概率 太小的論元對(duì)齊;而則是根據(jù)4. 3. 1部分所述的方法計(jì)算出來(lái)的。Oa能反映源語(yǔ)言端和目標(biāo)語(yǔ)言端論元結(jié)構(gòu)的一致性。Oa的值越大,表明源語(yǔ)言端 和目標(biāo)語(yǔ)言端的論元對(duì)齊得越好,從而源語(yǔ)言端和目標(biāo)語(yǔ)言端的論元結(jié)構(gòu)越一致。論元對(duì)齊部分的約束條件包括以下三類(lèi)1)與雙語(yǔ)的語(yǔ)義角色標(biāo)注的結(jié)果相容所述條件要求被對(duì)齊的候選論元必須是 出現(xiàn)在最終雙語(yǔ)語(yǔ)義角色標(biāo)注結(jié)果中的論元。2) 一對(duì)多的個(gè)數(shù)限制每個(gè)論元至多只能和三個(gè)論元對(duì)齊。3)論元對(duì)齊的完備性源語(yǔ)言端的每個(gè)論元必須至少和一個(gè)目標(biāo)語(yǔ)言端的論元 對(duì)齊;同樣,目標(biāo)語(yǔ)言端的每個(gè)論元必須至少和一個(gè)源語(yǔ)言端的論元對(duì)齊;同時(shí),所述約束 又是一種軟約束,即允許違背上述的論元對(duì)齊的完備性要求,但對(duì)于違背的情況加以懲罰, 違背越多懲罰就越大。所述與雙語(yǔ)的語(yǔ)義角色標(biāo)注的結(jié)果相容約束,是將雙語(yǔ)語(yǔ)義角色標(biāo)注結(jié)果與論元 對(duì)齊合理地整合在一起的一個(gè)必要條件。所述與雙語(yǔ)的語(yǔ)義角色標(biāo)注的結(jié)果相容約束條件 可以用式(11)、(12)來(lái)表示 所述一對(duì)多的個(gè)數(shù)限制約束來(lái)源于我們?cè)谑止?duì)齊的語(yǔ)料上的觀察結(jié)果。在手工
對(duì)齊的語(yǔ)料上,我們發(fā)現(xiàn)沒(méi)有任何一個(gè)論元和三個(gè)以上的論元對(duì)齊。所述一對(duì)多的個(gè)數(shù)限
制約束條件可以用式(13)、(14)來(lái)表示 所述論元對(duì)齊的完備性約束則來(lái)源于雙語(yǔ)句子對(duì)在語(yǔ)義上的等價(jià)性。盡管所述論 元對(duì)齊的完備性約束在理論上是合理的,但在實(shí)際中所述論元對(duì)齊的完備性約束并不總是 成立。我們?cè)谑止?biāo)注語(yǔ)料上發(fā)現(xiàn)雙語(yǔ)句子對(duì)中的一些論元有時(shí)在另一端并沒(méi)有可以對(duì)齊 的論元。因此將所述論元對(duì)齊的完備性約束作為一個(gè)軟約束對(duì)待更符合實(shí)際情況。所述論 元對(duì)齊的完備性約束的具體實(shí)施方式
如下如果一個(gè)論元沒(méi)有與另一端的任何一個(gè)論元對(duì)齊,我們就稱(chēng)它與NUL對(duì)齊。定義 如下整數(shù)變量
<與·對(duì)齊 Io 其他對(duì)于任何一個(gè)與NUL對(duì)齊的論元我們?cè)谀繕?biāo)函數(shù)中施加一個(gè)懲罰λ3。這樣,式 (10)中的子目標(biāo)Oa就變成了式(15)的形式 式(15)中的Ta是一個(gè)常數(shù)閾值,我們根據(jù)經(jīng)驗(yàn)令Ta = 0.42;式(15)中的入3是 違背了論元對(duì)齊的完備性要求所受到的懲罰因子,我們根據(jù)經(jīng)驗(yàn)令λ3 = 0. 15。為了使Zi,■和ζ·』與原有的變量zik相容,必須引入式(16-19)所表示的約束 4. 4雙語(yǔ)聯(lián)合推斷模型總結(jié)至此,我們給出了雙語(yǔ)聯(lián)合推斷模型。從數(shù)學(xué)模型的類(lèi)別上看,所述雙語(yǔ)聯(lián)合推斷 模型是一個(gè)整數(shù)線性規(guī)劃模型。所述雙語(yǔ)聯(lián)合推斷模型的目標(biāo)函數(shù)由式(1,2,6,15)所定 義。所述雙語(yǔ)聯(lián)合推斷模型的約束條件由式(3-5,7-9,11-14,16-19)所定義。所述雙語(yǔ) 聯(lián)合推斷模型的整數(shù)變量包含三類(lèi)第一類(lèi)整數(shù)變量是Xij (1彡i彡Ns,1彡j彡Ls),第一 類(lèi)整數(shù)變量的解給出了源語(yǔ)言端語(yǔ)義角色標(biāo)注的結(jié)果;第二類(lèi)整數(shù)變量是yw(l ^ k ^ Nt,
j ^ Lt),第二類(lèi)整數(shù)變量的解給出了目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注的結(jié)果;第三類(lèi)整數(shù)變 量是zik(l彡i彡Ns,1彡k彡Nt),Zi,冊(cè)L(1彡i彡Ns),zm,k(l彡k彡Nt),第三類(lèi)整數(shù)變量 的解給出了源語(yǔ)言端和目標(biāo)語(yǔ)言端的語(yǔ)義角色標(biāo)注結(jié)果之間的論元對(duì)齊。建立起所述雙語(yǔ)聯(lián)合推斷模型后,我們需要求解所述雙語(yǔ)聯(lián)合推斷模型。所述雙 語(yǔ)聯(lián)合推斷模型是一個(gè)整數(shù)線性規(guī)劃模型,而求解整數(shù)線性規(guī)劃的方法有多種。在本文的 實(shí)施例中,我們采用了開(kāi)源工具包lpsolve來(lái)在程序中描述并求解所述雙語(yǔ)聯(lián)合推斷模 型。lpsolve是一個(gè)常用的描述并求解整數(shù)線性規(guī)劃模型的開(kāi)源工具包。所述開(kāi)源工具 包Iosolve可從以下網(wǎng)址免費(fèi)下載http://lpsolve. sourceforge.net/。所述開(kāi)源工具包 Ipsolve的具體使用方法請(qǐng)參考lpsolve工具包中的說(shuō)明文件。5、實(shí)驗(yàn)設(shè)置在實(shí)驗(yàn)中我們使用了 Linguistic Data Consortium(LDC)的 OntoNotes Release 3. O語(yǔ)料中所包含的漢-英Xinhua News數(shù)據(jù)。這部分?jǐn)?shù)據(jù)是由325個(gè)文件(chtb_0001. fid至chtb_0325. fid)所組成的漢-英平行命題庫(kù)(PropBank)。在這個(gè)漢-英平行命題庫(kù)(PropBank)中,由于英語(yǔ)端只標(biāo)注了動(dòng)詞性謂詞的語(yǔ)義角色,所以我們只考慮動(dòng)詞性謂 詞的語(yǔ)義角色標(biāo)柱。我們使用了 GIZA++工具來(lái)做雙語(yǔ)的詞對(duì)齊。為了生成較好的詞對(duì)齊結(jié)果,我們除 了使用上述漢-英平行命題庫(kù)(PropBank)中包含的句子對(duì)之外,還使用了額外的4,500K 漢-英句子對(duì)來(lái)生成詞對(duì)齊。在分別生成了兩個(gè)方向的詞對(duì)齊結(jié)果之后,我們采用了 intersection的啟發(fā)式規(guī)則來(lái)得到最終的詞對(duì)齊結(jié)果。我們使用漢-英平行命題庫(kù)(PropBank)中的80個(gè)文件(chtb_0001. fid至 chtb_0080. fid)作為測(cè)試集,40 個(gè)文件(chtb_0081. fid 至 chtb_0120. fid)作為開(kāi)發(fā)集。 盡管本發(fā)明中的雙語(yǔ)聯(lián)合推斷模型不需要訓(xùn)練,但是雙語(yǔ)聯(lián)合推斷模型要用到論元對(duì)齊 概率模型,而論元對(duì)齊概率模型需要訓(xùn)練。所以我們用手工標(biāo)注了論元對(duì)齊的60個(gè)文件 (chtb_0121. fid至chtb_0180. fid)作為論元對(duì)齊概率模型的訓(xùn)練數(shù)據(jù)。由于自動(dòng)詞對(duì) 齊的效果在一對(duì)多的漢-英句子對(duì)上很差,所以我們?cè)谏鲜龅臄?shù)據(jù)集中只包含了一對(duì)一的 漢-英句子對(duì)。對(duì)于步驟2中所描述的單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng),我們單獨(dú)進(jìn)行了訓(xùn)練。對(duì)于漢語(yǔ) 的語(yǔ)義角色標(biāo)注系統(tǒng),我們用漢語(yǔ)命題庫(kù)(PropBank)中的608個(gè)文件(chtb_0121. fid至 chtb_0885. fid)作為訓(xùn)練集。由于Xinhua News和WSJ是不同的領(lǐng)域,所以英語(yǔ)的語(yǔ)義 角色標(biāo)注系統(tǒng)不僅使用了英語(yǔ)命題庫(kù)(PropBank)中的WSJ Sections 02 21作為訓(xùn)練 數(shù)據(jù),還使用了漢-英平行命題庫(kù)(PropBank)中英語(yǔ)端的205個(gè)文件(chtb_0121. fid至 chtb_0325. fid)作為訓(xùn)練數(shù)據(jù)。6、實(shí)驗(yàn)結(jié)果附表3列出了在步驟2中所述的單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)產(chǎn)生的各個(gè)候選語(yǔ)義角色 標(biāo)注結(jié)果。在附表3中,Outl 0ut3是利用Berkeley句法分析器的3_best輸出分別作 為單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)的輸入,所分別得到的語(yǔ)義角色標(biāo)注結(jié)果,0ut4和0ut5是分別用 Stanford句法分析器和Bikel句法分析器的l_best輸出作為單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)的輸 入,所得到的語(yǔ)義角色標(biāo)注結(jié)果。附表3.單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)在測(cè)試集上的多個(gè)結(jié)果 本實(shí)驗(yàn)的對(duì)比系統(tǒng)是文獻(xiàn)[Mihai Surdeanu, Llu ‘ is arquez, XavierCarreras, and Pere R. Comas.2007. Combination Strategies for Semantic Role Labeling. Journal of Artificial Intelligence Research CJAIR),29 :105—151.巾白勺I 語(yǔ)語(yǔ)義角色融合系統(tǒng)。所述對(duì)比系統(tǒng)也代表了目前語(yǔ)義角色標(biāo)注的最高水平。本發(fā)明和上 述對(duì)比系統(tǒng)在測(cè)試集上的結(jié)果如附表4所示。在附表4中,我們用MonoCmb來(lái)表示上述的 對(duì)比系統(tǒng),用Joint來(lái)表示本發(fā)明的系統(tǒng)。附表4.本發(fā)明Joint與單語(yǔ)融合系統(tǒng)MonoCmb在測(cè)試集上的結(jié)果 從附表3和附表4可以看出,本實(shí)驗(yàn)的對(duì)比系統(tǒng)MonoCmb的結(jié)果的Fl值在漢語(yǔ) 上和英語(yǔ)上分別比最好的單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)的結(jié)果高出了 2. 32和2. 49個(gè)百分點(diǎn)。 這說(shuō)明本實(shí)驗(yàn)的對(duì)比系統(tǒng)MonoCmb確實(shí)具有先進(jìn)的性能,不容易被超過(guò)。即便如此,附表 4中的結(jié)果顯示本發(fā)明的系統(tǒng)Joint不論在漢語(yǔ)和英語(yǔ)上都較大幅度地超過(guò)了對(duì)比系統(tǒng) MonoCmb。本發(fā)明的結(jié)果的Fl值在漢語(yǔ)和英語(yǔ)上分別比對(duì)比系統(tǒng)MonoCmb高出了 2. 05和 1.71個(gè)百分點(diǎn)。在英語(yǔ)上,本發(fā)明的結(jié)果的Fl值達(dá)到了 81. 12%,這和目前文獻(xiàn)中最好的 英語(yǔ)語(yǔ)義角色標(biāo)注的結(jié)果相當(dāng)。而在漢語(yǔ)上,本發(fā)明的結(jié)果的Fl值達(dá)到了 80. 06%。據(jù)我 們所知,本發(fā)明在漢語(yǔ)上的這個(gè)結(jié)果超過(guò)了目前所有文獻(xiàn)中所報(bào)告過(guò)的漢語(yǔ)語(yǔ)義角色標(biāo)注 的最好結(jié)果。由于本發(fā)明的方法不是針對(duì)兩種特定的語(yǔ)言而提出的,所以本發(fā)明的方法具有普 遍的適用性。本發(fā)明雖然只在漢語(yǔ)和英語(yǔ)兩種語(yǔ)言上進(jìn)行了實(shí)驗(yàn),但本發(fā)明同時(shí)也適用于 其它語(yǔ)言,如日語(yǔ)、阿拉伯語(yǔ)、法語(yǔ)、德語(yǔ)。以上所述,僅為本發(fā)明中的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任 何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在 本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書(shū)的保護(hù)范圍為準(zhǔn)。
1權(quán)利要求
一種雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的方法,其特征在于步驟1對(duì)雙語(yǔ)句子對(duì)進(jìn)行分詞、詞性標(biāo)注和自動(dòng)詞對(duì)齊,并找出雙語(yǔ)句子對(duì)中包含的謂詞對(duì);步驟2針對(duì)所述的謂詞對(duì),利用單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)為每一個(gè)謂詞生成多個(gè)語(yǔ)義角色標(biāo)注結(jié)果,從而得到多個(gè)初始候選論元;步驟3將所述初始候選論元進(jìn)行合并,得到正式候選論元;步驟4針對(duì)所述正式候選論元,利用雙語(yǔ)聯(lián)合推斷模型同時(shí)生成雙語(yǔ)句子對(duì)的語(yǔ)義角色標(biāo)注結(jié)果。
2.根據(jù)權(quán)利要求1所述的雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的方法,其特征在于逐個(gè)考察雙語(yǔ) 句子對(duì)中自動(dòng)對(duì)齊的詞對(duì),如果自動(dòng)對(duì)齊的詞對(duì)中的兩個(gè)詞都是動(dòng)詞,則認(rèn)為這一對(duì)詞是 一個(gè)謂詞對(duì);從雙語(yǔ)句子對(duì)中找出所有這樣的謂詞對(duì)。
3.根據(jù)權(quán)利要求1所述的雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的方法,其特征在于所述生成多個(gè) 語(yǔ)義角色標(biāo)注結(jié)果的具體步驟如下步驟21 對(duì)雙語(yǔ)句子對(duì)中的每一個(gè)句子,使用句法分析器生成多個(gè)句法分析結(jié)果;步驟22 將所述的每一個(gè)句法分析結(jié)果輸入給單語(yǔ)的語(yǔ)義角色標(biāo)注系統(tǒng),從而得到一 個(gè)語(yǔ)義角色標(biāo)注結(jié)果,所述語(yǔ)義角色標(biāo)注結(jié)果中的每一個(gè)論元都是一個(gè)初始候選論元。
4.根據(jù)權(quán)利要求1所述的雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的方法,其特征在于所述對(duì)初始候 選論元進(jìn)行合并是將具有相同位置和標(biāo)簽的初始候選論元合并成一個(gè)正式候選論元。
5.根據(jù)權(quán)利要求1所述的雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注方法,其特征在于所述雙語(yǔ)聯(lián)合 推斷模型同時(shí)考慮了三個(gè)相互關(guān)聯(lián)的因素;這三個(gè)因素是源語(yǔ)言端語(yǔ)義角色標(biāo)注的正確 性,目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注的正確性,以及源語(yǔ)言端和目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注結(jié)果之 間論元對(duì)齊的合理性。
6.根據(jù)權(quán)利要求5所述的雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的方法,其特征在于在分別考慮源 語(yǔ)言端和目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注的正確性時(shí),雙語(yǔ)聯(lián)合推斷模型的目標(biāo)是使標(biāo)注正確的 論元的個(gè)數(shù)的數(shù)學(xué)期望最大;雙語(yǔ)聯(lián)合推斷模型的約束條件包括以下兩類(lèi)1)關(guān)鍵語(yǔ)義角色不重復(fù)對(duì)于六種關(guān)鍵語(yǔ)義角色類(lèi)型AO A5,不能有重復(fù)的論元;2)論元位置不重疊一個(gè)句子中的任何兩個(gè)論元在位置上不能重疊。
7.根據(jù)權(quán)利要求5所述的雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的方法,其特征在于為了衡量源語(yǔ) 言端和目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注結(jié)果之間論元對(duì)齊的合理性,使用了一個(gè)對(duì)數(shù)線性模型 來(lái)計(jì)算對(duì)齊兩個(gè)論元的概率;對(duì)于任意給定的一個(gè)源語(yǔ)言端的論元和一個(gè)目標(biāo)語(yǔ)言端的 論元,所述對(duì)數(shù)線性模型能計(jì)算出這兩個(gè)論元對(duì)齊的概率;所述對(duì)數(shù)線性模型使用的特征 有1)詞對(duì)齊特征所述詞對(duì)齊特征定義為兩個(gè)論元所包含的詞互相對(duì)齊的杰卡德相似 & (Jaccard) ;2)中心詞對(duì)齊特征將兩個(gè)論元的中心詞是否對(duì)齊作為一個(gè)特征;3)兩個(gè)論元的語(yǔ)義角色標(biāo)簽;4)謂詞對(duì),即源語(yǔ)言端的謂詞和目標(biāo)語(yǔ)言端的謂詞。
8.根據(jù)權(quán)利要求5所述的雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的方法,其特征在于在考慮源語(yǔ)言 端和目標(biāo)語(yǔ)言端語(yǔ)義角色標(biāo)注結(jié)果之間論元對(duì)齊的合理性時(shí),雙語(yǔ)聯(lián)合推斷模型的目標(biāo)是使正確對(duì)齊的論元的個(gè)數(shù)的數(shù)學(xué)期望最大;雙語(yǔ)聯(lián)合推斷模型的約束條件包括以下三類(lèi)1)與雙語(yǔ)的語(yǔ)義角色標(biāo)注的結(jié)果相容所述條件要求被對(duì)齊的候選論元必須是出現(xiàn) 在最終雙語(yǔ)語(yǔ)義角色標(biāo)注結(jié)果中的論元;2)一對(duì)多的個(gè)數(shù)限制每個(gè)論元至多只能和三個(gè)論元對(duì)齊;3)論元對(duì)齊的完備性源語(yǔ)言端的每個(gè)論元必須至少和一個(gè)目標(biāo)語(yǔ)言端的論元對(duì)齊; 同樣,目標(biāo)語(yǔ)言端的每個(gè)論元必須至少和一個(gè)源語(yǔ)言端的論元對(duì)齊;同時(shí),所述約束又是一 種軟約束,即允許違背上述的論元對(duì)齊的完備性要求,但對(duì)于違背的情況加以懲罰,違背越 多懲罰就越大。
全文摘要
本發(fā)明是一種雙語(yǔ)聯(lián)合語(yǔ)義角色的標(biāo)注方法,所述方法是一種在雙語(yǔ)平行句子對(duì)上將源語(yǔ)言句子和目標(biāo)語(yǔ)言句子聯(lián)合起來(lái)做語(yǔ)義角色標(biāo)注的方法,步驟1對(duì)雙語(yǔ)句子對(duì)進(jìn)行分詞、詞性標(biāo)注和自動(dòng)詞對(duì)齊,并找出雙語(yǔ)句子對(duì)中包含的謂詞對(duì);步驟2針對(duì)所述的謂詞對(duì),利用單語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)為每一個(gè)謂詞生成多個(gè)語(yǔ)義角色標(biāo)注結(jié)果,從而得到多個(gè)初始候選論元;步驟3將所述初始候選論元進(jìn)行合并,得到正式候選論元;步驟4針對(duì)所述正式候選論元,利用雙語(yǔ)聯(lián)合推斷模型同時(shí)生成雙語(yǔ)句子對(duì)的語(yǔ)義角色標(biāo)注結(jié)果。在漢-英平行命題庫(kù)(PropBank)上驗(yàn)證了本發(fā)明方法的有效性。
文檔編號(hào)G06F17/27GK101908042SQ201010248198
公開(kāi)日2010年12月8日 申請(qǐng)日期2010年8月9日 優(yōu)先權(quán)日2010年8月9日
發(fā)明者宗成慶, 莊濤 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所