維吾爾語句子邊界識(shí)別方法

文檔序號(hào)：6493963閱讀：353來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

維吾爾語句子邊界識(shí)別方法
【專利摘要】本發(fā)明公開了維吾爾語句子邊界識(shí)別方法，1.提出維吾爾語句子識(shí)別中無歧義標(biāo)點(diǎn)符號(hào)的識(shí)別規(guī)則；2.提出維吾爾語段落分類算法，有效減少統(tǒng)計(jì)空間的規(guī)模，迅速提高效率；3．使用統(tǒng)計(jì)學(xué)建立維吾爾語句子邊界識(shí)別特征空間，高效的識(shí)別維吾爾語句子中歧義標(biāo)點(diǎn)符號(hào)；4.針對(duì)無差別語料均實(shí)現(xiàn)高性能的維吾爾語句子邊界識(shí)別。本發(fā)明有效地提高了句子邊界識(shí)別的準(zhǔn)確率，為后續(xù)詞性標(biāo)注和句法分析等自然語言處理工作提供基礎(chǔ)分析服務(wù)。
【專利說明】維吾爾語句子邊界識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語言信息處理技術(shù)，特別是維吾爾語句子邊界識(shí)別方法。
【背景技術(shù)】
[0002]隨著Internet技術(shù)的迅速發(fā)展，各類信息聚增，網(wǎng)上每天都有海量信息在生成，存儲(chǔ)和傳播，人類面臨前所未有的信息膨脹。自然語言處理技術(shù)在處理大量網(wǎng)絡(luò)信息文本中的廣泛應(yīng)用，自動(dòng)、高效的維吾爾文文本分析技術(shù)成為了對(duì)信息進(jìn)行處理與理解的關(guān)鍵技術(shù)，對(duì)于語言信息處理領(lǐng)域及其相關(guān)應(yīng)用領(lǐng)域的研究具有重要的理論意義和應(yīng)用價(jià)值。
[0003]英語、漢語、阿拉伯語等大語種的大規(guī)模自然語言文本的獲取技術(shù)、機(jī)器學(xué)習(xí)方法和模型、以及語料庫語言學(xué)的逐漸發(fā)展和成熟，使得人們可以獲得大量的帶標(biāo)注的文本和相關(guān)數(shù)據(jù)，并能夠利用機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)分析算法，對(duì)文本進(jìn)行高度自動(dòng)化的處理和標(biāo)注。
[0004]近年來，隨著少數(shù)民族信息化領(lǐng)域的發(fā)展，維吾爾語分析在語言信息處理領(lǐng)域也成為熱點(diǎn)，但維吾爾語的自然語言處理的技術(shù)由于起步較晚，研究人員規(guī)模不大等原因，在研究方法和處理性能等方面一直處于初級(jí)階段，尚未成熟的維吾爾語分析技術(shù)嚴(yán)重地阻礙了句法分析、語義分析、漢維機(jī)器翻譯、信息檢索、語音合成、語音識(shí)別等智能系統(tǒng)的研究與開發(fā)。
[0005]在英語、土耳其語和維吾爾語等語言中，句子邊界的識(shí)別是詞性標(biāo)注、句法分析、機(jī)器翻譯等自然語言處理系統(tǒng)首要解決的基礎(chǔ)問題，涉及到句子的范圍，即句子的正確劃分。一般，通過簡單地使用；！？”等符號(hào)進(jìn)行句子邊界識(shí)別也能得到85%-95%的準(zhǔn)確率。但是，按照自然語言處理的錯(cuò)誤放大原理，自然語言處理中處于最低層的句子邊界識(shí)別算法的性能直接影響下一步分析的準(zhǔn)確率，而且影響比較大。
[0006]國外一些學(xué)者通過長期研究英語特征，已經(jīng)建立了一些英語句子邊界識(shí)別的模型和方法，但是這些模型不能直接用于維吾爾語句子邊界識(shí)別任務(wù)中，原因在于這兩種語言產(chǎn)生句子邊界的歧義不同，消除歧義的對(duì)象不同和對(duì)識(shí)別有貢獻(xiàn)的特征存在較大的區(qū)別
坐寸ο

【發(fā)明內(nèi)容】

[0007]本發(fā)明的目的在于提供一種維吾爾語句子邊界識(shí)別方法，有效地提高了句子邊界識(shí)別的準(zhǔn)確率，為后續(xù)詞性標(biāo)注和句法分析等自然語言處理工作提供基礎(chǔ)分析服務(wù)。
[0008]本發(fā)明的目的是這樣實(shí)現(xiàn)的:一種維吾爾語句子邊界識(shí)別方法，1.提出維吾爾語句子識(shí)別中無歧義標(biāo)點(diǎn)符號(hào)的識(shí)別規(guī)則；2.提出維吾爾語段落分類算法，有效減少統(tǒng)計(jì)空間的規(guī)模，迅速提高效率；3.使用統(tǒng)計(jì)學(xué)建立維吾爾語句子邊界識(shí)別特征空間，高效的識(shí)別維吾爾語句子中歧義標(biāo)點(diǎn)符號(hào)；4.針對(duì)無差別語料均實(shí)現(xiàn)高性能的維吾爾語句子邊界識(shí)別。
[0009]本發(fā)明涉及維吾爾語文本中句子邊界的識(shí)別，屬于自然語言處理中的基于語料庫的機(jī)器翻譯【技術(shù)領(lǐng)域】；在目前市場上，這種能夠綜合維吾爾語詞形、詞的長度、詞的字符串類型、音節(jié)等信息，高效識(shí)別維吾爾語句子邊界的方法典尚屬首例。
[0010]本發(fā)明綜合了維吾爾語詞形、詞的長度、詞的字符串類型、音節(jié)方面的特征，適用于維吾爾語語料的初級(jí)處理，有效地提高了句子邊界識(shí)別的準(zhǔn)確率，為后續(xù)詞性標(biāo)注和句法分析等自然語言處理工作提供基礎(chǔ)分析服務(wù)，為維吾爾語信息化打下了堅(jiān)實(shí)的基礎(chǔ)。
[0011]本發(fā)明的有益效果是:高處理能力和魯棒性的維吾爾語句子邊界識(shí)別系統(tǒng)為后續(xù)詞性標(biāo)注和句法分析等自然語言處理工作提供基礎(chǔ)分析服務(wù)，極大的促進(jìn)了維吾爾語詞法分析、句法分析、語義分析、漢維機(jī)器翻譯、信息檢索、語音合成、語音識(shí)別等智能系統(tǒng)的研究與開發(fā)，為維吾爾語信息化打下了堅(jiān)實(shí)的基礎(chǔ)。
[0012]本發(fā)明鑒于維吾爾語句子中標(biāo)點(diǎn)符號(hào)的特征及基于規(guī)則的句子邊界識(shí)別方法的不足，提出了最大熵模型和規(guī)則相結(jié)合的句子邊界識(shí)別方法。該方法綜合了維吾爾語詞形、詞的長度、詞的字符串類型、音節(jié)方面的特征，適用于維吾爾語語料的初級(jí)處理，有效地提高了句子邊界識(shí)別的準(zhǔn)確率，為后續(xù)詞性標(biāo)注和句法分析等自然語言處理工作提供基礎(chǔ)分析服務(wù)。
【專利附圖】

【附圖說明】
[0013]下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說明。
[0014]圖1是本發(fā)明的流程圖。
【具體實(shí)施方式】
[0015]一種維吾爾語句子邊界識(shí)別方法，1.提出維吾爾語句子識(shí)別中無歧義標(biāo)點(diǎn)符號(hào)的識(shí)別規(guī)則；2.提出維吾爾語段落分類算法，有效減少統(tǒng)計(jì)空間的規(guī)模，迅速提高效率；3.使用統(tǒng)計(jì)學(xué)建立維吾爾語句子邊界識(shí)別特征空間，高效的識(shí)別維吾爾語句子中歧義標(biāo)點(diǎn)符號(hào)；4.針對(duì)無差別語料均實(shí)現(xiàn)高性能的維吾爾語句子邊界識(shí)別。
[0016]如圖1所示，本發(fā)明涉及的流程及功能模塊為:段落分類規(guī)則庫、測試語料庫、段落分類器、句子邊界識(shí)別規(guī)則庫，訓(xùn)練語料庫、最大熵模型模塊。主要流程包括:首先，在規(guī)則庫支持下，將維吾爾文文本通過段落分類器劃分為無歧義段落和有歧義段落；其次，針對(duì)無歧義段落，使用句子邊界識(shí)別規(guī)則庫對(duì)該段落內(nèi)的句子進(jìn)行識(shí)別劃分；然后，使用劃分結(jié)果作為訓(xùn)練語料庫，訓(xùn)練最大熵模型；最后，使用訓(xùn)練所得的參數(shù)使用最大熵模型對(duì)有歧義段落進(jìn)行句子邊界識(shí)別劃分。
[0017]本發(fā)明統(tǒng)計(jì)與規(guī)則結(jié)合的維吾爾語句子邊界識(shí)別系統(tǒng)中段落分類算法的步驟如下:
[0018]S1:從文本中讀入一個(gè)段落；
[0019]S2:判斷當(dāng)前段落是否包含任何有歧義符號(hào)，若不包含，則轉(zhuǎn)到S7，若包含轉(zhuǎn)到S3 ；
[0020]S2:若包含冒號(hào)，則轉(zhuǎn)到S6，若包含省略號(hào)，轉(zhuǎn)到S4，若包含句號(hào)，轉(zhuǎn)到S5 ；
[0021]S4:若冒號(hào)在段落內(nèi)出現(xiàn)，則轉(zhuǎn)到S6，若冒號(hào)出現(xiàn)在段落尾處，則轉(zhuǎn)到S7 ；
[0022]S5:若當(dāng)前段落中包含兩個(gè)句號(hào)之間出現(xiàn)的單詞或非句子邊界符號(hào)數(shù)量大于2的句號(hào)，則轉(zhuǎn)到S7，否則轉(zhuǎn)到S6 ；
[0023]S6:把當(dāng)前段落加入有歧義段落組，轉(zhuǎn)到SI ；[0024]S7:把當(dāng)前段落加入無歧義段落組，轉(zhuǎn)到SI ；
[0025]如下表1是本發(fā)明統(tǒng)計(jì)與規(guī)則結(jié)合的維吾爾語句子邊界識(shí)別系統(tǒng)中最大熵模型下的句子邊界識(shí)別特征空間。
[0026]表1
[0027]
【權(quán)利要求】
1.一種維吾爾語句子邊界識(shí)別方法，其特征是:1.提出維吾爾語句子識(shí)別中無歧義標(biāo)點(diǎn)符號(hào)的識(shí)別規(guī)則；2.提出維吾爾語段落分類算法，有效減少統(tǒng)計(jì)空間的規(guī)模，迅速提高效率；3.使用統(tǒng)計(jì)學(xué)建立維吾爾語句子邊界識(shí)別特征空間，高效的識(shí)別維吾爾語句子中歧義標(biāo)點(diǎn)符號(hào)；4.針對(duì)無差別語料均實(shí)現(xiàn)高性能的維吾爾語句子邊界識(shí)別。
【文檔編號(hào)】G06F17/27GK103902524SQ201210579930
【公開日】2014年7月2日申請(qǐng)日期:2012年12月28日優(yōu)先權(quán)日:2012年12月28日
【發(fā)明者】尼加提·納吉米, 買合木提·買買提, 帕肉克·司地克, 馬斌申請(qǐng)人:新疆電力信息通信有限責(zé)任公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：尼加提·納吉米;買合木提·買買提;帕肉克·司地克;馬斌
技術(shù)所有人：新疆電力信息通信有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：維吾爾語詞性標(biāo)注方法
上一篇：用于三維顯示和交互的設(shè)備和方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

維吾爾語相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

維吾爾語句子邊界識(shí)別方法