一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法

文檔序號：6520106閱讀：447來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法
【專利摘要】本發(fā)明公開了一種基于雙語協(xié)同訓(xùn)練的命名實體的識別方法，屬于計算機(jī)科學(xué)中的自然語言處理【技術(shù)領(lǐng)域】。把平行的漢語句子和英語句子這兩個數(shù)據(jù)集看作為一個數(shù)據(jù)集的兩個不同的視圖進(jìn)行雙語協(xié)同訓(xùn)練。在投射過程中使用一個對數(shù)線性模型修正投射標(biāo)記，在利用模型對未見示例進(jìn)行預(yù)測時引入命名實體雙語對齊標(biāo)注一致率作為標(biāo)記置信度估計的衡量指標(biāo)。本方法對比現(xiàn)有技術(shù)，降低了命名實體識別的領(lǐng)域依賴性，融合了雙語識別的優(yōu)勢，解決了單語識別中的部分識別歧義問題，尤其適合用于大規(guī)模語料的雙語命名實體同步識別。
【專利說明】—種基于協(xié)同訓(xùn)練的雙語命名實體識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種雙語命名實體的識別方法，尤其適用于作為機(jī)器翻譯的前期處理，對大規(guī)?？珙I(lǐng)域的雙語語料進(jìn)行命名實體的識別，屬于計算機(jī)科學(xué)中的自然語言處理(NLP)【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]命名實體是唯一個體的專有名稱。命名實體識別是自然語言處理領(lǐng)域中的一個重要基礎(chǔ)技術(shù)難題，已經(jīng)成為跨語言信息檢索以及機(jī)器翻譯等多語言信息處理領(lǐng)域的技術(shù)瓶頸之一。
[0003]目前，研究人員已經(jīng)開發(fā)了很多模型用于命名實體識別。其中，由于基于規(guī)則的方法不利于在不同種類語言之間推廣，近些年來，基于統(tǒng)計的方法受到了廣泛關(guān)注。在統(tǒng)計方法中，有監(jiān)督學(xué)習(xí)方法在命名實體識別任務(wù)中有良好的表現(xiàn)，但是它有兩個不足之處:其一，該方法需要大量的已標(biāo)注數(shù)據(jù)保證學(xué)習(xí)的準(zhǔn)確性，因此不適于那些資源相對貧乏的語言；其二，當(dāng)已有的標(biāo)注數(shù)據(jù)與待判定的數(shù)據(jù)不屬于同一個領(lǐng)域時，有監(jiān)督學(xué)習(xí)方法的性能會明顯下降。而無監(jiān)督的方法性能則不盡人意。改進(jìn)這些不足的方法就是結(jié)合少量標(biāo)注語料和大量的未標(biāo)注語料，采用基于半監(jiān)督學(xué)習(xí)的協(xié)同訓(xùn)練方法。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的是為了克服現(xiàn)有技術(shù)在解決大規(guī)?？珙I(lǐng)域語料中雙語命名實體識別中的不足，提出一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法。
[0005]本發(fā)明所采用的技術(shù)方案是:將平行的漢英雙語句子這兩個數(shù)據(jù)集，看作一個數(shù)據(jù)集的兩個不同的視圖進(jìn)行雙語協(xié)同訓(xùn)練。在漢英兩端，分別在少量的標(biāo)注數(shù)據(jù)上進(jìn)行初始標(biāo)注模型訓(xùn)練，產(chǎn)生兩個初始序列標(biāo)注模型。利用訓(xùn)練好的初始序列標(biāo)注模型對跨領(lǐng)域的小部分未標(biāo)注語料進(jìn)行命名實體標(biāo)注，然后把標(biāo)注結(jié)果投射到對應(yīng)的另一語言端。在投射過程中使用一個對數(shù)線性模型，融合單語句法特征和雙語對齊特征對投射標(biāo)記進(jìn)行修正，從而降低標(biāo)記示例錯誤標(biāo)注的可能性，減少另外一個序列標(biāo)注模型的噪音引入，進(jìn)而提高協(xié)同訓(xùn)練的質(zhì)量。在利用序列標(biāo)注模型對未見示例進(jìn)行預(yù)測時，引入命名實體雙語對齊標(biāo)注一致率作為標(biāo)記置信度估計的衡量指標(biāo)，隱式估計標(biāo)記置信度，把在未標(biāo)注樣本中雙語對齊標(biāo)注一致率最高的標(biāo)注集合作為另一端的增量標(biāo)注，由此擺脫了對小樣本標(biāo)記數(shù)據(jù)的依賴，提高了算法的泛化能力，從而提高命名實體的跨領(lǐng)域識別能力。
[0006]為使命名實體雙語協(xié)同識別任務(wù)順利進(jìn)行，本方法將采用三個步驟，分別是:標(biāo)注模型初始化、雙語協(xié)同訓(xùn)練、雙語命名實體標(biāo)注。如圖1所示，具體實現(xiàn)過程如下:
[0007]步驟一、初始化序列標(biāo)注模型，在漢英句子級別對齊的若干已標(biāo)注語料集合上分別訓(xùn)練初始序列標(biāo)注模型。其中，序列標(biāo)注模型可以選用條件隨機(jī)場(CRF)、最大熵等。
[0008]步驟二、如圖2所示，從漢英句子級別對齊的未標(biāo)注語料集合中抽取若干對齊的
句子，利用序列標(biāo)注模型對雙語句子分別標(biāo)注，形成(&，&)；計算雙語標(biāo)注一致率，初始化標(biāo)注語料增量集合為空。
[0009]所述雙語標(biāo)注一致率是指在少量的雙語未標(biāo)注語料上，用序列標(biāo)注模型標(biāo)注后的對齊字詞的標(biāo)注一致比例。
[0010]所述標(biāo)注語料增量集合是指在完成一次協(xié)同訓(xùn)練時，作為標(biāo)注語料添加到另一個模型的自動標(biāo)注語料。
[0011]具體的，隨機(jī)從中抽取10%的句對，形成(心，厶)，依據(jù)詞對齊從^到it
進(jìn)行標(biāo)注投射。首先對從源語言到目標(biāo)語言的命名實體投射區(qū)域進(jìn)行擴(kuò)展，使之容納更多的目標(biāo)語言命名實體假設(shè)。然后融合目標(biāo)語言命名實體的單語特征和雙語命名實體的對齊特征，建立一個對數(shù)線性模型對投射結(jié)果進(jìn)行修正。修正后的結(jié)果作為標(biāo)注語料增量，重新進(jìn)行模型訓(xùn)練。訓(xùn)練后的模型再次對(仄，(7/)進(jìn)行標(biāo)注，重新計算雙語標(biāo)注一致率，如此循環(huán)10次，最后把雙語標(biāo)注一致率最高時對應(yīng)的標(biāo)注語料增量作為本次協(xié)同訓(xùn)練的源語言端標(biāo)注語料增量。同樣的方法尋找目標(biāo)語言端的增量標(biāo)注語料。
[0012]所述命名實體的單語特征是指單語端命名實體的邊界組合特征，主要用于保障協(xié)同訓(xùn)練中增量標(biāo)記語料符合命名實體的特征。
[0013]所述雙語命名實體的對齊特征是指雙語命名實體的一致性，充分利用了雙語的識別互補(bǔ)性。
[0014]步驟三、循環(huán)執(zhí)行步驟二，通過在開發(fā)集上實驗，直至算法收斂。循環(huán)結(jié)束后，最終產(chǎn)生兩個雙語序列標(biāo)注模型，即訓(xùn)練好的雙語命名實體識別模型。然后對大規(guī)模的跨領(lǐng)域的雙語語料進(jìn)行命名實體的識別，進(jìn)一步構(gòu)建命名實體詞典；也可以直接對待翻譯的單語句子進(jìn)行命名實體的識別，提高機(jī)器翻譯的質(zhì)量。
[0015]有益效果
[0016]本發(fā)明通過在命名實體的序列標(biāo)注模型的訓(xùn)練過程中引入了協(xié)同訓(xùn)練的思想，利用雙語命名實體識別的互補(bǔ)性和命名實體的可互譯性，進(jìn)行識別模型的協(xié)同訓(xùn)練。本方法對比現(xiàn)有技術(shù)，能夠?qū)崿F(xiàn)雙語命名實體的識別互補(bǔ)，提高在大規(guī)?？珙I(lǐng)域語料中命名實體的識別正確率和召回率；有效減少命名實體識別對標(biāo)注語料的領(lǐng)域依賴，使模型具有更強(qiáng)的泛化能力；本發(fā)明同時產(chǎn)生雙語命名實體識別模型，協(xié)同訓(xùn)練的引入使命名實體雙語識別一致性提高，有助于進(jìn)一步命名實體詞典的構(gòu)建。綜合上述，本發(fā)明尤其適合用于大規(guī)?？珙I(lǐng)域的語料中雙語命名實體的一致識別。
【專利附圖】

【附圖說明】
[0017]圖1為本發(fā)明方法的流程示意圖；
[0018]圖2為本發(fā)明方法中協(xié)同訓(xùn)練過程的流程示意圖。
【具體實施方式】
[0019]下面結(jié)合附圖對本發(fā)明的【具體實施方式】做進(jìn)一步詳細(xì)說明。
[0020]一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法，包括以下步驟:
[0021]步驟一、初始化雙語序列標(biāo)注模型，在漢英句子級別對齊的已標(biāo)注語料集合Ls、Lt上分別訓(xùn)練漢英序列標(biāo)注模型:Cmodel (s)和Cmodel (t)。標(biāo)注語料中共標(biāo)注了三種命名實體，分別是PER (人名)、LOC (地名)和ORG (組織機(jī)構(gòu)名)。選用了 BIO標(biāo)注集合，所有字詞共有7種標(biāo)注:B-PER、1-PER、B-L0C、1-L0C、B-0RG、1-ORG和O。漢語選用了單一字特征、單一詞特征、2-3個位置的字或者詞組合特征；英語選用了詞、詞性、詞首字母大小寫特征組合模版。
[0022]步驟二、從漢英句子級別對齊的未標(biāo)注語料集合Us和Ut中抽取1000個對齊的句子，分別利用序列標(biāo)注模型Cmodel (s)和Cmodel (t)進(jìn)行標(biāo)注，形成仏和?τ汁算雙語標(biāo)
注一致率 conformity_ration,初始化
【權(quán)利要求】
1.一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法，其特征在于包括以下步驟: 步驟一、初始化標(biāo)注模型；在2000句已標(biāo)注命名實體的雙語語料上,分別訓(xùn)練漢英命名實體初始標(biāo)注模型；步驟二、在漢英句子級別對齊的未標(biāo)注命名實體語料上，利用10倍交叉選擇增量標(biāo)注，進(jìn)行雙語協(xié)同訓(xùn)練；具體過程如下: 首先，從漢英句子級別對齊的未標(biāo)注命名實體語料集合中隨機(jī)抽取1000個對齊的句子，表示為(GO)，利用步驟一得到的標(biāo)注模型，對雙語句子分別進(jìn)行命名實體標(biāo)注；計算(L:.s.X./)雙語標(biāo)注一致率,初始化標(biāo)注語料增量集合為空；然后，隨機(jī)從(仏，疥)中抽取10%的句對，形成(厶，--)，依據(jù)詞對齊從到進(jìn)行標(biāo)注投射，并對投射命名實體標(biāo)注區(qū)域進(jìn)行擴(kuò)展，使之容納更多的目標(biāo)語言命名實體假設(shè)，每個命名實體投射假設(shè)與源語言命名實體組成一個雙語命名實體假設(shè)；之后，融合目標(biāo)語言命名實體的單語特征和雙語命名實體的對齊特征，對投射結(jié)果進(jìn)行修正，將修正后的結(jié)果作為目標(biāo)語言端標(biāo)注語料增量石；在
2.如權(quán)利要求1所述的一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法，其特征在于，計算(仏,歷)雙語標(biāo)注一致率的方法如下: 設(shè)(?Ζν,?Μ雙語標(biāo)注一致率為，conformity_ration
3.如權(quán)利要求1所述的一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法，其特征在于所述步驟二中，對投射命名實體標(biāo)注區(qū)域進(jìn)行擴(kuò)展的方法如下: 首先對從源語言到目標(biāo)語言的命名實體投射區(qū)域進(jìn)行擴(kuò)展，使之容納更多的目標(biāo)語言命名實體假設(shè)，每個命名實體投射假設(shè)與源語言命名實體組成一個雙語命名實體假設(shè)；Ls中任意一個命名實體表示為ΕΛΤ--，通過詞投射得到目標(biāo)語言端連續(xù)的且包含投射中心詞的中心詞塊作為最小候選區(qū)域DVTej，把包含所有投射詞的投射區(qū)域^兩端分別向外擴(kuò)展4個詞作為最大候選區(qū)域；在目標(biāo)語言端，建立一個滑動窗，從最小候選區(qū)域出發(fā)，不斷向句子任意一側(cè)擴(kuò)充詞，直至達(dá)到最大候選區(qū)域邊界為止，從而擴(kuò)展產(chǎn)生一系列的目標(biāo)語言端候選命名實體假設(shè)；每個目標(biāo)語言端命名實體假設(shè)與組合，形成一個雙語命名實體假設(shè)，表示為Hk ={ΕΝΤν.ΕΝΤ^)。
4.如權(quán)利要求1所述的一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法，其特征在于所述步驟二中，融合目標(biāo)語言命名實體的單語特征和雙語命名實體的對齊特征，并對投射結(jié)果進(jìn)行修正的方法如下: 通過構(gòu)造一個對數(shù)線性模型，融合目標(biāo)語言命名實體的句法置信度和雙語命名實體的對齊置信度，對所有的雙語命名實體假設(shè)綜合打分；為確保目標(biāo)語言端命名實體投射滿足命名實體的句法特征，選用左右邊界分布概率作為目標(biāo)語言的命名實體句法置信度；邊界分布概率包含左邊界二元詞性共現(xiàn)頻率和右邊界二元詞性共現(xiàn)頻率；左邊界二元詞性共現(xiàn)頻率定義如公式⑵所示:
5.如權(quán)利要求4所述的一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法，其特征在于，所述貪心搜索過程為: 首先，初始化該最優(yōu)雙語命名實體假設(shè)集合為空；然后，根據(jù)
【文檔編號】G06F17/28GK103853710SQ201310593746
【公開日】2014年6月11日申請日期:2013年11月21日優(yōu)先權(quán)日:2013年11月21日
【發(fā)明者】黃河燕, 史樹敏, 李業(yè)剛申請人:北京理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃河燕;史樹敏;李業(yè)剛
技術(shù)所有人：北京理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

命名實體識別相關(guān)技術(shù)

中文命名實體識別相關(guān)技術(shù)

命名實體識別工具相關(guān)技術(shù)

中文命名實體識別工具相關(guān)技術(shù)

命名實體識別算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于協(xié)同訓(xùn)練的雙語命名實體識別方法