維吾爾語句子邊界識(shí)別方法
【專利摘要】本發(fā)明公開了維吾爾語句子邊界識(shí)別方法,1.提出維吾爾語句子識(shí)別中無歧義標(biāo)點(diǎn)符號(hào)的識(shí)別規(guī)則;2.提出維吾爾語段落分類算法,有效減少統(tǒng)計(jì)空間的規(guī)模,迅速提高效率;3.使用統(tǒng)計(jì)學(xué)建立維吾爾語句子邊界識(shí)別特征空間,高效的識(shí)別維吾爾語句子中歧義標(biāo)點(diǎn)符號(hào);4.針對(duì)無差別語料均實(shí)現(xiàn)高性能的維吾爾語句子邊界識(shí)別。本發(fā)明有效地提高了句子邊界識(shí)別的準(zhǔn)確率,為后續(xù)詞性標(biāo)注和句法分析等自然語言處理工作提供基礎(chǔ)分析服務(wù)。
【專利說明】維吾爾語句子邊界識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語言信息處理技術(shù),特別是維吾爾語句子邊界識(shí)別方法。
【背景技術(shù)】
[0002]隨著Internet技術(shù)的迅速發(fā)展,各類信息聚增,網(wǎng)上每天都有海量信息在生成,存儲(chǔ)和傳播,人類面臨前所未有的信息膨脹。自然語言處理技術(shù)在處理大量網(wǎng)絡(luò)信息文本中的廣泛應(yīng)用,自動(dòng)、高效的維吾爾文文本分析技術(shù)成為了對(duì)信息進(jìn)行處理與理解的關(guān)鍵技術(shù),對(duì)于語言信息處理領(lǐng)域及其相關(guān)應(yīng)用領(lǐng)域的研究具有重要的理論意義和應(yīng)用價(jià)值。
[0003]英語、漢語、阿拉伯語等大語種的大規(guī)模自然語言文本的獲取技術(shù)、機(jī)器學(xué)習(xí)方法和模型、以及語料庫語言學(xué)的逐漸發(fā)展和成熟,使得人們可以獲得大量的帶標(biāo)注的文本和相關(guān)數(shù)據(jù),并能夠利用機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)分析算法,對(duì)文本進(jìn)行高度自動(dòng)化的處理和標(biāo)注。
[0004]近年來,隨著少數(shù)民族信息化領(lǐng)域的發(fā)展,維吾爾語分析在語言信息處理領(lǐng)域也成為熱點(diǎn),但維吾爾語的自然語言處理的技術(shù)由于起步較晚,研究人員規(guī)模不大等原因,在研究方法和處理性能等方面一直處于初級(jí)階段,尚未成熟的維吾爾語分析技術(shù)嚴(yán)重地阻礙了句法分析、語義分析、漢維機(jī)器翻譯、信息檢索、語音合成、語音識(shí)別等智能系統(tǒng)的研究與開發(fā)。
[0005]在英語、土耳其語和維吾爾語等語言中,句子邊界的識(shí)別是詞性標(biāo)注、句法分析、機(jī)器翻譯等自然語言處理系統(tǒng)首要解決的基礎(chǔ)問題,涉及到句子的范圍,即句子的正確劃分。一般,通過簡單地使用;!?”等符號(hào)進(jìn)行句子邊界識(shí)別也能得到85%-95%的準(zhǔn)確率。但是,按照自然語言處理的錯(cuò)誤放大原理,自然語言處理中處于最低層的句子邊界識(shí)別算法的性能直接影響下一步分析的準(zhǔn)確率,而且影響比較大。
[0006]國外一些學(xué)者通過長期研究英語特征,已經(jīng)建立了一些英語句子邊界識(shí)別的模型和方法,但是這些模型不能直接用于維吾爾語句子邊界識(shí)別任務(wù)中,原因在于這兩種語言產(chǎn)生句子邊界的歧義不同,消除歧義的對(duì)象不同和對(duì)識(shí)別有貢獻(xiàn)的特征存在較大的區(qū)別
坐寸ο
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于提供一種維吾爾語句子邊界識(shí)別方法,有效地提高了句子邊界識(shí)別的準(zhǔn)確率,為后續(xù)詞性標(biāo)注和句法分析等自然語言處理工作提供基礎(chǔ)分析服務(wù)。
[0008]本發(fā)明的目的是這樣實(shí)現(xiàn)的:一種維吾爾語句子邊界識(shí)別方法,1.提出維吾爾語句子識(shí)別中無歧義標(biāo)點(diǎn)符號(hào)的識(shí)別規(guī)則;2.提出維吾爾語段落分類算法,有效減少統(tǒng)計(jì)空間的規(guī)模,迅速提高效率;3.使用統(tǒng)計(jì)學(xué)建立維吾爾語句子邊界識(shí)別特征空間,高效的識(shí)別維吾爾語句子中歧義標(biāo)點(diǎn)符號(hào);4.針對(duì)無差別語料均實(shí)現(xiàn)高性能的維吾爾語句子邊界識(shí)別。
[0009]本發(fā)明涉及維吾爾語文本中句子邊界的識(shí)別,屬于自然語言處理中的基于語料庫的機(jī)器翻譯【技術(shù)領(lǐng)域】;在目前市場上,這種能夠綜合維吾爾語詞形、詞的長度、詞的字符串類型、音節(jié)等信息,高效識(shí)別維吾爾語句子邊界的方法典尚屬首例。
[0010]本發(fā)明綜合了維吾爾語詞形、詞的長度、詞的字符串類型、音節(jié)方面的特征,適用于維吾爾語語料的初級(jí)處理,有效地提高了句子邊界識(shí)別的準(zhǔn)確率,為后續(xù)詞性標(biāo)注和句法分析等自然語言處理工作提供基礎(chǔ)分析服務(wù),為維吾爾語信息化打下了堅(jiān)實(shí)的基礎(chǔ)。
[0011]本發(fā)明的有益效果是:高處理能力和魯棒性的維吾爾語句子邊界識(shí)別系統(tǒng)為后續(xù)詞性標(biāo)注和句法分析等自然語言處理工作提供基礎(chǔ)分析服務(wù),極大的促進(jìn)了維吾爾語詞法分析、句法分析、語義分析、漢維機(jī)器翻譯、信息檢索、語音合成、語音識(shí)別等智能系統(tǒng)的研究與開發(fā),為維吾爾語信息化打下了堅(jiān)實(shí)的基礎(chǔ)。
[0012]本發(fā)明鑒于維吾爾語句子中標(biāo)點(diǎn)符號(hào)的特征及基于規(guī)則的句子邊界識(shí)別方法的不足,提出了最大熵模型和規(guī)則相結(jié)合的句子邊界識(shí)別方法。該方法綜合了維吾爾語詞形、詞的長度、詞的字符串類型、音節(jié)方面的特征,適用于維吾爾語語料的初級(jí)處理,有效地提高了句子邊界識(shí)別的準(zhǔn)確率,為后續(xù)詞性標(biāo)注和句法分析等自然語言處理工作提供基礎(chǔ)分析服務(wù)。
【專利附圖】
【附圖說明】
[0013]下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說明。
[0014]圖1是本發(fā)明的流程圖。
【具體實(shí)施方式】
[0015]一種維吾爾語句子邊界識(shí)別方法,1.提出維吾爾語句子識(shí)別中無歧義標(biāo)點(diǎn)符號(hào)的識(shí)別規(guī)則;2.提出維吾爾語段落分類算法,有效減少統(tǒng)計(jì)空間的規(guī)模,迅速提高效率;3.使用統(tǒng)計(jì)學(xué)建立維吾爾語句子邊界識(shí)別特征空間,高效的識(shí)別維吾爾語句子中歧義標(biāo)點(diǎn)符號(hào);4.針對(duì)無差別語料均實(shí)現(xiàn)高性能的維吾爾語句子邊界識(shí)別。
[0016]如圖1所示,本發(fā)明涉及的流程及功能模塊為:段落分類規(guī)則庫、測試語料庫、段落分類器、句子邊界識(shí)別規(guī)則庫,訓(xùn)練語料庫、最大熵模型模塊。主要流程包括:首先,在規(guī)則庫支持下,將維吾爾文文本通過段落分類器劃分為無歧義段落和有歧義段落;其次,針對(duì)無歧義段落,使用句子邊界識(shí)別規(guī)則庫對(duì)該段落內(nèi)的句子進(jìn)行識(shí)別劃分;然后,使用劃分結(jié)果作為訓(xùn)練語料庫,訓(xùn)練最大熵模型;最后,使用訓(xùn)練所得的參數(shù)使用最大熵模型對(duì)有歧義段落進(jìn)行句子邊界識(shí)別劃分。
[0017]本發(fā)明統(tǒng)計(jì)與規(guī)則結(jié)合的維吾爾語句子邊界識(shí)別系統(tǒng)中段落分類算法的步驟如下:
[0018]S1:從文本中讀入一個(gè)段落;
[0019]S2:判斷當(dāng)前段落是否包含任何有歧義符號(hào),若不包含,則轉(zhuǎn)到S7,若包含轉(zhuǎn)到S3 ;
[0020]S2:若包含冒號(hào),則轉(zhuǎn)到S6,若包含省略號(hào),轉(zhuǎn)到S4,若包含句號(hào),轉(zhuǎn)到S5 ;
[0021]S4:若冒號(hào)在段落內(nèi)出現(xiàn),則轉(zhuǎn)到S6,若冒號(hào)出現(xiàn)在段落尾處,則轉(zhuǎn)到S7 ;
[0022]S5:若當(dāng)前段落中包含兩個(gè)句號(hào)之間出現(xiàn)的單詞或非句子邊界符號(hào)數(shù)量大于2的句號(hào),則轉(zhuǎn)到S7,否則轉(zhuǎn)到S6 ;
[0023]S6:把當(dāng)前段落加入有歧義段落組,轉(zhuǎn)到SI ;[0024]S7:把當(dāng)前段落加入無歧義段落組,轉(zhuǎn)到SI ;
[0025]如下表1是本發(fā)明統(tǒng)計(jì)與規(guī)則結(jié)合的維吾爾語句子邊界識(shí)別系統(tǒng)中最大熵模型下的句子邊界識(shí)別特征空間。
[0026]表1
[0027]
【權(quán)利要求】
1.一種維吾爾語句子邊界識(shí)別方法,其特征是:1.提出維吾爾語句子識(shí)別中無歧義標(biāo)點(diǎn)符號(hào)的識(shí)別規(guī)則;2.提出維吾爾語段落分類算法,有效減少統(tǒng)計(jì)空間的規(guī)模,迅速提高效率;3.使用統(tǒng)計(jì)學(xué)建立維吾爾語句子邊界識(shí)別特征空間,高效的識(shí)別維吾爾語句子中歧義標(biāo)點(diǎn)符號(hào);4.針 對(duì)無差別語料均實(shí)現(xiàn)高性能的維吾爾語句子邊界識(shí)別。
【文檔編號(hào)】G06F17/27GK103902524SQ201210579930
【公開日】2014年7月2日 申請(qǐng)日期:2012年12月28日 優(yōu)先權(quán)日:2012年12月28日
【發(fā)明者】尼加提·納吉米, 買合木提·買買提, 帕肉克·司地克, 馬斌 申請(qǐng)人:新疆電力信息通信有限責(zé)任公司