亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于字形相似度的Unicode傳統(tǒng)蒙文規(guī)范化方法與流程

文檔序號:12157739閱讀:1215來源:國知局

本發(fā)明涉及文本規(guī)范化、傳統(tǒng)蒙文編碼等領(lǐng)域,尤其是涉及對因傳統(tǒng)蒙文Unicode編碼中同形字符存在不同內(nèi)碼而產(chǎn)生的同形詞進行規(guī)范化的方法。



背景技術(shù):

傳統(tǒng)蒙文的Unicode編碼中,字符按其對應的字母進行編碼,同一字形的字符可能對應不同的碼位。例如,字母a在詞首、詞中和詞尾對應不同的字形,但均對應同一編碼(U+1820);盡管字母o和字母u在詞尾時的字形相同,但二者是不同編碼(U+1823和U+1824)。這一編碼原則導致Unicode編碼的傳統(tǒng)蒙文中,某一詞形可能存在多種不同的內(nèi)碼。例如,傳統(tǒng)蒙文中的(“蒙古”)一詞,在收集的互聯(lián)網(wǎng)語料中發(fā)現(xiàn),其內(nèi)碼可能是“U+182e U+1823U+1829 U+182d U+1823 U+182f(monggol)”,也可能是“U+182e U+1824 U+1829 U+182d U+1824 U+182f(munggul)”,或是“U+182e U+1824 U+1829 U+182d U+180b U+1824 U+182f(mungg1ul)”,甚至是“U+182e U+1823 U+1829 U+182d U+182b U+1824 U+182f(mongg1ul)”。這些不同的編碼序列對應的傳統(tǒng)蒙文詞形完全相同,但只有monggol是正確的拼寫。在用戶輸入傳統(tǒng)蒙文文本的過程中,流行的輸入法無法保證用戶輸入的傳統(tǒng)蒙文單詞均具有正確的內(nèi)碼。同時,從早期非Unicode編碼的傳統(tǒng)蒙文文本轉(zhuǎn)換到Unicode編碼的過程中也存在引入錯誤內(nèi)碼的可能。因此,目前互聯(lián)網(wǎng)上Unicode編碼的傳統(tǒng)蒙文文本中,存在大量錯誤的同形詞。計算機程序通常僅根據(jù)內(nèi)碼而非詞形來處理傳統(tǒng)蒙文文本,因此同形詞通常被當作兩個不同的詞語對待,致使搜索引擎難以有效地進行傳統(tǒng)蒙文的信息檢索,機器翻譯等領(lǐng)域的統(tǒng)計方法在傳統(tǒng)蒙文文本上存在嚴重的數(shù)據(jù)稀疏問題。

因此需要用于將Unicode編碼的傳統(tǒng)蒙文文本中的錯誤同形詞替換為正確內(nèi)碼的傳統(tǒng)蒙文規(guī)范化方法。目前尚無相關(guān)技術(shù)專利。廉冰(廉冰.基于有限狀態(tài)自動機的蒙古文同形詞校對方法的研究[D].內(nèi)蒙古大學,2014)提出了一種基于字符替換規(guī)則的傳統(tǒng)蒙文同形詞校對方法,該方法依賴于基于詞典構(gòu)造的傳統(tǒng)蒙文詞法分析器,難以正確處理互聯(lián)網(wǎng)文本中可能出現(xiàn)的詞典外的傳統(tǒng)蒙文詞語。安波等(安波,諾明花,吳健,等.傳統(tǒng)蒙古文“同形不同碼”問題研究[J].信息技術(shù)與標準化,2015年第Z1期)注意到了傳統(tǒng)蒙文同形不同碼的問題,但不針對Unicode傳統(tǒng)蒙文編碼,其同形詞表構(gòu)造算法受限于語料庫的規(guī)模,無法收錄語料庫中未出現(xiàn)的同形詞。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于解決由Unicode傳統(tǒng)蒙文同形詞導致的問題并克服已有方法的不足,提供基于字形相似度的Unicode傳統(tǒng)蒙文規(guī)范化方法。

本發(fā)明包括以下步驟:

1)接收Unicode編碼的傳統(tǒng)蒙文文本;

2)遍歷輸入文本中的每個詞語,將Unicode傳統(tǒng)蒙文同形詞表收錄的詞語均替換為其所在等價類的規(guī)范編碼形式;

3)輸出替換后的傳統(tǒng)蒙文文本。

在步驟2)中,所述Unicode傳統(tǒng)蒙文同形詞表的生成方法如下:

(1)利用Unicode編碼的傳統(tǒng)蒙文語料庫統(tǒng)計Unicode傳統(tǒng)蒙文詞匯表;

(2)從Unicode傳統(tǒng)蒙文詞匯表中選取一詞,利用Unicode傳統(tǒng)蒙文同形字母表為當前詞生成所有可能具有相同詞形的詞,并通過圖像匹配篩選出詞形相同的同形詞;

(3)對于當前詞的各個同形詞,若當前詞與該同形詞二者均不屬于任何等價類,則將這兩個詞放入一個新的等價類;若二者中有且僅有一者屬于某一等價類,則將另一者歸入該等價類;若二者分屬不同的等價類,則將二者所屬等價類合并;

(4)重復步驟(2)直到Unicode傳統(tǒng)蒙文詞匯表中的所有詞均已被處理;

(5)在各個等價類中分別選出一個規(guī)范的編碼形式;

(6)輸出所有等價類即為Unicode傳統(tǒng)蒙文同形詞表。

在步驟2)第(2)部分中,所述Unicode傳統(tǒng)蒙文同形字母表包括以下22條同形替換規(guī)則:

(1)U+1820(a)可以被替換為U+1821(e);

(2)U+1821(e)可以被替換為U+1820(a);

(3)U+1823(o)可以被替換為U+1824(u);

(4)U+1823(o)可以被替換為U+1825(oe);

(5)U+1823(o)可以被替換為U+1826(ue);

(6)U+1824(u)可以被替換為U+1823(o);

(7)U+1824(u)可以被替換為U+1825(oe);

(8)U+1824(u)可以被替換為U+1826(ue);

(9)U+1825(oe)可以被替換為U+1823(o);

(10)U+1825(oe)可以被替換為U+1824(u);

(11)U+1825(oe)可以被替換為U+1826(ue);

(12)U+1826(ue)可以被替換為U+1823(o);

(13)U+1826(ue)可以被替換為U+1824(u);

(14)U+1826(ue)可以被替換為U+1825(oe);

(15)U+180b(FVS1)可以被替換為空;

(16)U+180c(FVS2)可以被替換為空;

(17)U+180d(FVS3)可以被替換為空;

(18)U+1829(ng)可以被替換為U+1828U+182d(n+g);

(19)U+183c(h)可以被替換為U+183d(g);

(20)U+183d(g)可以被替換為U+183c(h);

(21)U+1833(d)可以被替換為U+1832(t);

(22)U+1832(t)可以被替換為U+1833(d)。

本發(fā)明提供一個Unicode傳統(tǒng)蒙文同形字母表、一種根據(jù)同形字母表生成Unicode傳統(tǒng)蒙文同形詞表的方法和一種根據(jù)同形詞表進行傳統(tǒng)蒙文文本規(guī)范化的方法。

本發(fā)明具有以下有益效果:

1、利用歸納總結(jié)的Unicode傳統(tǒng)蒙文同形字母表,采用等價類方法生成Unicode傳統(tǒng)蒙文同形詞表,確保了未在語料中出現(xiàn)的同形詞能被有效收錄,從而得到更為全面的同形詞表,使文本規(guī)范化的結(jié)果更為準確;

2、采用本發(fā)明對目前互聯(lián)網(wǎng)上的傳統(tǒng)蒙文網(wǎng)頁進行規(guī)范化,有利于提高蒙文搜索引擎的檢出率;

3、本發(fā)明有利于降低統(tǒng)計模型的稀疏性,提高基于統(tǒng)計方法的蒙文信息處理技術(shù)的效果,如在蒙文到其它語言的機器翻譯系統(tǒng)中,采用本發(fā)明對訓練語料和待譯文本進行規(guī)范化,有利于提高翻譯質(zhì)量。

具體實施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施方式僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

實施例1

本實施例中所述Unicode傳統(tǒng)蒙文同形詞表生成方法,包括以下步驟:

S1,利用Unicode編碼的傳統(tǒng)蒙文語料庫統(tǒng)計Unicode傳統(tǒng)蒙文詞匯表。

其中,本實施例采用一個規(guī)模為1.5億詞的Unicode編碼的傳統(tǒng)蒙文互聯(lián)網(wǎng)語料(http://cloudtranslation.cc/corpus_minority.html)。

S2,從Unicode傳統(tǒng)蒙文詞匯表中選取一詞,利用Unicode傳統(tǒng)蒙文同形字母表為當前詞生成所有可能具有相同詞形的詞,并通過圖像匹配篩選出詞形相同的同形詞。

其中,Unicode傳統(tǒng)蒙文同形字母表包括22條同形替換規(guī)則:

(1)U+1820(a)可以被替換為U+1821(e);

(2)U+1821(e)可以被替換為U+1820(a);

(3)U+1823(o)可以被替換為U+1824(u);

(4)U+1823(o)可以被替換為U+1825(oe);

(5)U+1823(o)可以被替換為U+1826(ue);

(6)U+1824(u)可以被替換為U+1823(o);

(7)U+1824(u)可以被替換為U+1825(oe);

(8)U+1824(u)可以被替換為U+1826(ue);

(9)U+1825(oe)可以被替換為U+1823(o);

(10)U+1825(oe)可以被替換為U+1824(u);

(11)U+1825(oe)可以被替換為U+1826(ue);

(12)U+1826(ue)可以被替換為U+1823(o);

(13)U+1826(ue)可以被替換為U+1824(u);

(14)U+1826(ue)可以被替換為U+1825(oe);

(15)U+180B(FVS1)可以被替換為空;

(16)U+180C(FVS2)可以被替換為空;

(17)U+180D(FVS3)可以被替換為空;

(18)U+1829(ng)可以被替換為U+1828U+182d(n+g);

(19)U+183c(h)可以被替換為U+183d(g);

(20)U+183d(g)可以被替換為U+183c(h);

(21)U+1833(d)可以被替換為U+1832(t);

(22)U+1832(t)可以被替換為U+1833(d)。

優(yōu)選地,詞形比較可以采用微軟Windows操作系統(tǒng)的文本顯示引擎,根據(jù)詞的編碼序列生成某一Unicode傳統(tǒng)蒙文字體(如Mongolian Baiti)下的字形圖像,利用圖像匹配算法計算兩個詞形間的相似度,當相似度大于某一較高的閾值時則認為兩個詞具有相同的詞形。

S3,對于當前詞的各個同形詞,若當前詞與該同形詞二者均不屬于任何等價類,則將這兩個詞放入一個新的等價類;若二者中有且僅有一者屬于某一等價類,則將另一者歸入該等價類;若二者分屬不同的等價類,則將二者所屬等價類合并。

S4,重復S2,直到Unicode傳統(tǒng)蒙文詞匯表中的所有詞均已被處理。

S5,在各個等價類中分別選出一個規(guī)范的編碼形式。

優(yōu)選地,步驟S5可先利用計算機程序根據(jù)語料庫詞頻統(tǒng)計,對每個等價類中的各編碼按頻率從高到低排序,然后由傳統(tǒng)蒙文的專業(yè)人員從中選出規(guī)范編碼。

S6,輸出所有等價類即為Unicode傳統(tǒng)蒙文同形詞表。

本實施例中,輸出的Unicode傳統(tǒng)蒙文同形詞表共包括84611個等價類,遠超出已有方法所得到的同形詞表的規(guī)模。

實施例2

本實施例中所述蒙文搜索引擎系統(tǒng),采用基于字形相似度的Unicode編碼的傳統(tǒng)蒙文規(guī)范化方法,其中Unicode傳統(tǒng)蒙文同形詞表采用實施例1所述包括84611個等價類的同形詞表。

具體地,采用基于字形相似度的Unicode編碼的傳統(tǒng)蒙文規(guī)范化方法,對爬蟲爬取的傳統(tǒng)蒙文網(wǎng)頁和用戶輸入的查詢請求均進行規(guī)范化處理。

為驗證本發(fā)明技術(shù)方案的有效性,進行了相關(guān)的對比實驗。實驗中采用“site:”指令將搜索引擎檢索范圍限定在“www.mgyxw.net”和“mgl.nmg.gov.cn”兩個蒙文網(wǎng)站。搜索引擎根據(jù)查詢請求檢出的匹配條目數(shù)如表1所示。

表1

實驗結(jié)果表明,采用本發(fā)明技術(shù)方案能有效提高蒙文搜索引擎的檢出率。

實施例3

本實施例中所述傳統(tǒng)蒙文到漢語的統(tǒng)計機器翻譯系統(tǒng),采用基于字形相似度的Unicode編碼的傳統(tǒng)蒙文規(guī)范化方法,其中Unicode傳統(tǒng)蒙文同形詞表采用實施例1所述包括84611個等價類的同形詞表。

具體地,采用基于字形相似度的Unicode編碼的傳統(tǒng)蒙文規(guī)范化方法,對訓練數(shù)據(jù)和用戶輸入的待譯文本均進行規(guī)范化處理。

為驗證本發(fā)明技術(shù)方案的有效性,進行了相關(guān)的對比實驗。實驗采用一個基于短語的統(tǒng)計機器翻譯系統(tǒng)(http://cloudtranslation.cc/mt),訓練語料為中國的法律文本和政府工作報告,包括59000對平行句對,測試語料包括政府工作報告(266句)、領(lǐng)導人講話(122句)和法律文本(123句),僅提供一個參考譯文。實驗采用BLEU-4作為衡量譯文質(zhì)量的標準。實驗結(jié)果如表2所示。

表2

實驗結(jié)果表明,采用本發(fā)明技術(shù)方案能有效提高蒙文機器翻譯的譯文質(zhì)量。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1