一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法
【專利摘要】本發(fā)明公開了一種基于雙語協(xié)同訓(xùn)練的命名實體的識別方法,屬于計算機(jī)科學(xué)中的自然語言處理【技術(shù)領(lǐng)域】。把平行的漢語句子和英語句子這兩個數(shù)據(jù)集看作為一個數(shù)據(jù)集的兩個不同的視圖進(jìn)行雙語協(xié)同訓(xùn)練。在投射過程中使用一個對數(shù)線性模型修正投射標(biāo)記,在利用模型對未見示例進(jìn)行預(yù)測時引入命名實體雙語對齊標(biāo)注一致率作為標(biāo)記置信度估計的衡量指標(biāo)。本方法對比現(xiàn)有技術(shù),降低了命名實體識別的領(lǐng)域依賴性,融合了雙語識別的優(yōu)勢,解決了單語識別中的部分識別歧義問題,尤其適合用于大規(guī)模語料的雙語命名實體同步識別。
【專利說明】—種基于協(xié)同訓(xùn)練的雙語命名實體識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種雙語命名實體的識別方法,尤其適用于作為機(jī)器翻譯的前期處理,對大規(guī)??珙I(lǐng)域的雙語語料進(jìn)行命名實體的識別,屬于計算機(jī)科學(xué)中的自然語言處理(NLP)【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]命名實體是唯一個體的專有名稱。命名實體識別是自然語言處理領(lǐng)域中的一個重要基礎(chǔ)技術(shù)難題,已經(jīng)成為跨語言信息檢索以及機(jī)器翻譯等多語言信息處理領(lǐng)域的技術(shù)瓶頸之一。
[0003]目前,研究人員已經(jīng)開發(fā)了很多模型用于命名實體識別。其中,由于基于規(guī)則的方法不利于在不同種類語言之間推廣,近些年來,基于統(tǒng)計的方法受到了廣泛關(guān)注。在統(tǒng)計方法中,有監(jiān)督學(xué)習(xí)方法在命名實體識別任務(wù)中有良好的表現(xiàn),但是它有兩個不足之處:其一,該方法需要大量的已標(biāo)注數(shù)據(jù)保證學(xué)習(xí)的準(zhǔn)確性,因此不適于那些資源相對貧乏的語言;其二,當(dāng)已有的標(biāo)注數(shù)據(jù)與待判定的數(shù)據(jù)不屬于同一個領(lǐng)域時,有監(jiān)督學(xué)習(xí)方法的性能會明顯下降。而無監(jiān)督的方法性能則不盡人意。改進(jìn)這些不足的方法就是結(jié)合少量標(biāo)注語料和大量的未標(biāo)注語料,采用基于半監(jiān)督學(xué)習(xí)的協(xié)同訓(xùn)練方法。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是為了克服現(xiàn)有技術(shù)在解決大規(guī)??珙I(lǐng)域語料中雙語命名實體識別中的不足,提出一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法。
[0005]本發(fā)明所采用的技術(shù)方案是:將平行的漢英雙語句子這兩個數(shù)據(jù)集,看作一個數(shù)據(jù)集的兩個不同的視圖進(jìn)行雙語協(xié)同訓(xùn)練。在漢英兩端,分別在少量的標(biāo)注數(shù)據(jù)上進(jìn)行初始標(biāo)注模型訓(xùn)練,產(chǎn)生兩個初始序列標(biāo)注模型。利用訓(xùn)練好的初始序列標(biāo)注模型對跨領(lǐng)域的小部分未標(biāo)注語料進(jìn)行命名實體標(biāo)注,然后把標(biāo)注結(jié)果投射到對應(yīng)的另一語言端。在投射過程中使用一個對數(shù)線性模型,融合單語句法特征和雙語對齊特征對投射標(biāo)記進(jìn)行修正,從而降低標(biāo)記示例錯誤標(biāo)注的可能性,減少另外一個序列標(biāo)注模型的噪音引入,進(jìn)而提高協(xié)同訓(xùn)練的質(zhì)量。在利用序列標(biāo)注模型對未見示例進(jìn)行預(yù)測時,引入命名實體雙語對齊標(biāo)注一致率作為標(biāo)記置信度估計的衡量指標(biāo),隱式估計標(biāo)記置信度,把在未標(biāo)注樣本中雙語對齊標(biāo)注一致率最高的標(biāo)注集合作為另一端的增量標(biāo)注,由此擺脫了對小樣本標(biāo)記數(shù)據(jù)的依賴,提高了算法的泛化能力,從而提高命名實體的跨領(lǐng)域識別能力。
[0006]為使命名實體雙語協(xié)同識別任務(wù)順利進(jìn)行,本方法將采用三個步驟,分別是:標(biāo)注模型初始化、雙語協(xié)同訓(xùn)練、雙語命名實體標(biāo)注。如圖1所示,具體實現(xiàn)過程如下:
[0007]步驟一、初始化序列標(biāo)注模型,在漢英句子級別對齊的若干已標(biāo)注語料集合上分別訓(xùn)練初始序列標(biāo)注模型。其中,序列標(biāo)注模型可以選用條件隨機(jī)場(CRF)、最大熵等。
[0008]步驟二、如圖2所示,從漢英句子級別對齊的未標(biāo)注語料集合中抽取若干對齊的
句子,利用序列標(biāo)注模型對雙語句子分別標(biāo)注,形成(&,&);計算雙語標(biāo)注一致率,初始化標(biāo)注語料增量集合為空。
[0009]所述雙語標(biāo)注一致率是指在少量的雙語未標(biāo)注語料上,用序列標(biāo)注模型標(biāo)注后的對齊字詞的標(biāo)注一致比例。
[0010]所述標(biāo)注語料增量集合是指在完成一次協(xié)同訓(xùn)練時,作為標(biāo)注語料添加到另一個模型的自動標(biāo)注語料。
[0011]具體的,隨機(jī)從中抽取10%的句對,形成(心,厶),依據(jù)詞對齊從^到it
進(jìn)行標(biāo)注投射。首先對從源語言到目標(biāo)語言的命名實體投射區(qū)域進(jìn)行擴(kuò)展,使之容納更多的目標(biāo)語言命名實體假設(shè)。然后融合目標(biāo)語言命名實體的單語特征和雙語命名實體的對齊特征,建立一個對數(shù)線性模型對投射結(jié)果進(jìn)行修正。修正后的結(jié)果作為標(biāo)注語料增量,重新進(jìn)行模型訓(xùn)練。訓(xùn)練后的模型再次對(仄,(7/)進(jìn)行標(biāo)注,重新計算雙語標(biāo)注一致率,如此循環(huán)10次,最后把雙語標(biāo)注一致率最高時對應(yīng)的標(biāo)注語料增量作為本次協(xié)同訓(xùn)練的源語言端標(biāo)注語料增量。同樣的方法尋找目標(biāo)語言端的增量標(biāo)注語料。
[0012]所述命名實體的單語特征是指單語端命名實體的邊界組合特征,主要用于保障協(xié)同訓(xùn)練中增量標(biāo)記語料符合命名實體的特征。
[0013]所述雙語命名實體的對齊特征是指雙語命名實體的一致性,充分利用了雙語的識別互補(bǔ)性。
[0014]步驟三、循環(huán)執(zhí)行步驟二,通過在開發(fā)集上實驗,直至算法收斂。循環(huán)結(jié)束后,最終產(chǎn)生兩個雙語序列標(biāo)注模型,即訓(xùn)練好的雙語命名實體識別模型。然后對大規(guī)模的跨領(lǐng)域的雙語語料進(jìn)行命名實體的識別,進(jìn)一步構(gòu)建命名實體詞典;也可以直接對待翻譯的單語句子進(jìn)行命名實體的識別,提高機(jī)器翻譯的質(zhì)量。
[0015]有益效果
[0016]本發(fā)明通過在命名實體的序列標(biāo)注模型的訓(xùn)練過程中引入了協(xié)同訓(xùn)練的思想,利用雙語命名實體識別的互補(bǔ)性和命名實體的可互譯性,進(jìn)行識別模型的協(xié)同訓(xùn)練。本方法對比現(xiàn)有技術(shù),能夠?qū)崿F(xiàn)雙語命名實體的識別互補(bǔ),提高在大規(guī)??珙I(lǐng)域語料中命名實體的識別正確率和召回率;有效減少命名實體識別對標(biāo)注語料的領(lǐng)域依賴,使模型具有更強(qiáng)的泛化能力;本發(fā)明同時產(chǎn)生雙語命名實體識別模型,協(xié)同訓(xùn)練的引入使命名實體雙語識別一致性提高,有助于進(jìn)一步命名實體詞典的構(gòu)建。綜合上述,本發(fā)明尤其適合用于大規(guī)??珙I(lǐng)域的語料中雙語命名實體的一致識別。
【專利附圖】
【附圖說明】
[0017]圖1為本發(fā)明方法的流程示意圖;
[0018]圖2為本發(fā)明方法中協(xié)同訓(xùn)練過程的流程示意圖。
【具體實施方式】
[0019]下面結(jié)合附圖對本發(fā)明的【具體實施方式】做進(jìn)一步詳細(xì)說明。
[0020]一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法,包括以下步驟:
[0021]步驟一、初始化雙語序列標(biāo)注模型,在漢英句子級別對齊的已標(biāo)注語料集合Ls、Lt上分別訓(xùn)練漢英序列標(biāo)注模型:Cmodel (s)和Cmodel (t)。標(biāo)注語料中共標(biāo)注了三種命名實體,分別是PER (人名)、LOC (地名)和ORG (組織機(jī)構(gòu)名)。選用了 BIO標(biāo)注集合,所有字詞共有7種標(biāo)注:B-PER、1-PER、B-L0C、1-L0C、B-0RG、1-ORG和O。漢語選用了單一字特征、單一詞特征、2-3個位置的字或者詞組合特征;英語選用了詞、詞性、詞首字母大小寫特征組合模版。
[0022]步驟二、從漢英句子級別對齊的未標(biāo)注語料集合Us和Ut中抽取1000個對齊的句子,分別利用序列標(biāo)注模型Cmodel (s)和Cmodel (t)進(jìn)行標(biāo)注,形成仏和?τ汁算雙語標(biāo)
注一致率 conformity_ration,初始化
【權(quán)利要求】
1.一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法,其特征在于包括以下步驟: 步驟一、初始化標(biāo)注模型;在2000句已標(biāo)注命名實體的雙語語料上,分別訓(xùn)練漢英命名實體初始標(biāo)注模型; 步驟二、在漢英句子級別對齊的未標(biāo)注命名實體語料上,利用10倍交叉選擇增量標(biāo)注,進(jìn)行雙語協(xié)同訓(xùn)練;具體過程如下: 首先,從漢英句子級別對齊的未標(biāo)注命名實體語料集合中隨機(jī)抽取1000個對齊的句子,表示為(GO),利用步驟一得到的標(biāo)注模型,對雙語句子分別進(jìn)行命名實體標(biāo)注;計算(L:.s.X./)雙語標(biāo)注一致率,初始化標(biāo)注語料增量集合為空; 然后,隨機(jī)從(仏,疥)中抽取10%的句對,形成(厶,--),依據(jù)詞對齊從到進(jìn)行標(biāo)注投射,并對投射命名實體標(biāo)注區(qū)域進(jìn)行擴(kuò)展,使之容納更多的目標(biāo)語言命名實體假設(shè),每個命名實體投射假設(shè)與源語言命名實體組成一個雙語命名實體假設(shè);之后,融合目標(biāo)語言命名實體的單語特征和雙語命名實體的對齊特征,對投射結(jié)果進(jìn)行修正,將修正后的結(jié)果作為目標(biāo)語言端標(biāo)注語料增量石;在
2.如權(quán)利要求1所述的一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法,其特征在于,計算(仏,歷)雙語標(biāo)注一致率的方法如下: 設(shè)(?Ζν,?Μ雙語標(biāo)注一致率為,conformity_ration
3.如權(quán)利要求1所述的一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法,其特征在于所述步驟二中,對投射命名實體標(biāo)注區(qū)域進(jìn)行擴(kuò)展的方法如下: 首先對從源語言到目標(biāo)語言的命名實體投射區(qū)域進(jìn)行擴(kuò)展,使之容納更多的目標(biāo)語言命名實體假設(shè),每個命名實體投射假設(shè)與源語言命名實體組成一個雙語命名實體假設(shè);Ls中任意一個命名實體表示為ΕΛΤ--,通過詞投射得到目標(biāo)語言端連續(xù)的且包含投射中心詞的中心詞塊作為最小候選區(qū)域DVTej,把包含所有投射詞的投射區(qū)域^兩端分別向外擴(kuò)展4個詞作為最大候選區(qū)域; 在目標(biāo)語言端,建立一個滑動窗,從最小候選區(qū)域出發(fā),不斷向句子任意一側(cè)擴(kuò)充詞,直至達(dá)到最大候選區(qū)域邊界為止,從而擴(kuò)展產(chǎn)生一系列的目標(biāo)語言端候選命名實體假設(shè);每個目標(biāo)語言端命名實體假設(shè)與組合,形成一個雙語命名實體假設(shè),表示為Hk ={ΕΝΤν.ΕΝΤ^)。
4.如權(quán)利要求1所述的一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法,其特征在于所述步驟二中,融合目標(biāo)語言命名實體的單語特征和雙語命名實體的對齊特征,并對投射結(jié)果進(jìn)行修正的方法如下: 通過構(gòu)造一個對數(shù)線性模型,融合目標(biāo)語言命名實體的句法置信度和雙語命名實體的對齊置信度,對所有的雙語命名實體假設(shè)綜合打分; 為確保目標(biāo)語言端命名實體投射滿足命名實體的句法特征,選用左右邊界分布概率作為目標(biāo)語言的命名實體句法置信度;邊界分布概率包含左邊界二元詞性共現(xiàn)頻率和右邊界二元詞性共現(xiàn)頻率;左邊界二元詞性共現(xiàn)頻率定義如公式⑵所示:
5.如權(quán)利要求4所述的一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法,其特征在于,所述貪心搜索過程為: 首先,初始化該最優(yōu)雙語命名實體假設(shè)集合為空; 然后,根據(jù)
【文檔編號】G06F17/28GK103853710SQ201310593746
【公開日】2014年6月11日 申請日期:2013年11月21日 優(yōu)先權(quán)日:2013年11月21日
【發(fā)明者】黃河燕, 史樹敏, 李業(yè)剛 申請人:北京理工大學(xué)