亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法

文檔序號(hào):6538198閱讀:1875來源:國(guó)知局
西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法
【專利摘要】本發(fā)明提供一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,該方法包括以下步驟:首先,將西里爾蒙古文文本進(jìn)行預(yù)處理,并將西里爾蒙古文劃分為集內(nèi)詞和未登陸詞;其次,將所述集內(nèi)詞采用基于規(guī)則轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換,將所述未登陸詞采用基于聯(lián)合序列模型的轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換;再次,將集內(nèi)詞和未登錄詞的轉(zhuǎn)換結(jié)果合并在一起,然后對(duì)于西里爾蒙古文到傳統(tǒng)蒙古文的一對(duì)多對(duì)應(yīng)的單詞將采用語言模型選擇最后轉(zhuǎn)換結(jié)果;最后完成轉(zhuǎn)換。本發(fā)明可以將任意西里爾蒙古文文本轉(zhuǎn)換成傳統(tǒng)蒙古文文本,并且對(duì)未登錄詞和西里爾蒙古文到傳統(tǒng)蒙古文的一對(duì)多對(duì)應(yīng)單詞可以進(jìn)行高準(zhǔn)確率的轉(zhuǎn)換。
【專利說明】西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語言的轉(zhuǎn)換方法,尤其涉及一種從西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法。
【背景技術(shù)】
[0002]蒙古文是一個(gè)跨多國(guó)、多地區(qū)的語言,在世界上有廣泛影響,使用者分布在中國(guó)、蒙古國(guó)和俄羅斯聯(lián)邦等國(guó)家,尤其是中國(guó)和蒙古國(guó)使用的蒙古語言文字是“語同文不同”,即語言相同,文字不同。在中國(guó)使用的蒙古文叫“傳統(tǒng)蒙古文”,在蒙古國(guó)使用的蒙古文叫“西里爾蒙古文”。
[0003]隨著中國(guó)和蒙古國(guó)兩國(guó)之間的文化、教育和經(jīng)濟(jì)的交流與合作不斷深入,兩國(guó)之間的文字轉(zhuǎn)換工作也變的極其重要。西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換工作會(huì)給兩國(guó)蒙古族同胞的交流帶來更多的便利,并且對(duì)蒙古族的科學(xué),文化和教育發(fā)展同樣具有重要的意義。
[0004]傳統(tǒng)蒙古文和西里爾蒙古文之間有不可分割的聯(lián)系,但二者之間有一定的區(qū)別:
[0005](I)傳統(tǒng)蒙古文有35個(gè)字母,其中包含8個(gè)元音字母和27個(gè)輔音字母。西里爾蒙古文也有35個(gè)字母,其中包含13個(gè)元音字母,20個(gè)輔音字母,硬化字母和軟化字母各一個(gè)。
[0006](2)西里爾蒙古文字母區(qū)分大小寫,而傳統(tǒng)蒙古文字母不區(qū)分大小寫。西里爾蒙古文字母的大寫用法跟英語相似。傳統(tǒng)蒙古文字母不區(qū)分大小寫,并且每個(gè)字母在詞中變化有很多,單詞中字母在上、中、下位置不同將導(dǎo)致寫法也不相同。
[0007](3)西里爾蒙古文和傳統(tǒng)蒙古文書寫方向不同。西里爾蒙古文采用的是從左到右的書序,從上到下的行序,而傳統(tǒng)蒙古文采用從上到下的書序,從左到右的行序。
[0008](4)西里爾蒙古文和傳統(tǒng)蒙古文的書面語和口語的差別程度并不相同。西里爾蒙古文中的書面語和口語基本保持一致,口語中怎么發(fā)音就基本上怎么拼寫,而傳統(tǒng)蒙古文的書面語與口語不是一一對(duì)應(yīng)的,書面語轉(zhuǎn)口語時(shí)會(huì)出現(xiàn)元音和輔音的脫落、增加和變換等現(xiàn)象。
[0009]現(xiàn)有的西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換技術(shù)有基于詞典的轉(zhuǎn)換方法和基于規(guī)則的轉(zhuǎn)換方法?,F(xiàn)有的基于詞典的轉(zhuǎn)換方法直接采用對(duì)照詞典進(jìn)行轉(zhuǎn)換?,F(xiàn)有的基于規(guī)則的轉(zhuǎn)換方法首先對(duì)輸入的西里爾蒙古文單詞在詞干對(duì)照詞典中進(jìn)行查找,若存在該詞則轉(zhuǎn)換為對(duì)應(yīng)的傳統(tǒng)蒙古文單詞,轉(zhuǎn)換完成,若不存在該詞則通過西里爾蒙古文的詞綴切分規(guī)則進(jìn)行詞綴切分,如果切分正確,則把切分后所得到的詞干與詞綴分別通過詞干對(duì)照詞典和詞綴對(duì)照詞典進(jìn)行查找對(duì)應(yīng)的傳統(tǒng)蒙古文詞干和詞綴,然后根據(jù)傳統(tǒng)蒙古文的詞綴合成規(guī)則合成傳統(tǒng)蒙古文單詞,轉(zhuǎn)換完成,如果切分失敗則轉(zhuǎn)換失敗。
[0010]然而,傳統(tǒng)蒙古文是通過詞根綴接多個(gè)后綴的方式生成新詞的,按照這種生成方式,可以構(gòu)成大規(guī)模的蒙古文單詞,詞典一般很難全部包含?;谝?guī)則的方法很難歸納出所有的轉(zhuǎn)換規(guī)則,而且相當(dāng)一部分單詞并不遵循轉(zhuǎn)換規(guī)則。并且,西里爾蒙古文中的部分單詞會(huì)對(duì)應(yīng)多個(gè)傳統(tǒng)蒙古文單詞,基于詞典和基于規(guī)則的方法無法解決對(duì)這類單詞的轉(zhuǎn)換。所以,基于詞典和基于規(guī)則的方法有較大的局限性,從而不能夠解決西里爾蒙古文到傳統(tǒng)蒙古文工作中存在的一些關(guān)鍵問題,如西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換時(shí)的未登錄詞的轉(zhuǎn)換及一對(duì)多對(duì)應(yīng)單詞的轉(zhuǎn)換等。

【發(fā)明內(nèi)容】

[0011]本發(fā)明實(shí)施例的目的在于提供一種將西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,旨在解決西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換時(shí)的未登錄詞的轉(zhuǎn)換及一對(duì)多對(duì)應(yīng)單詞的轉(zhuǎn)換等問題。
[0012]本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的,一種將西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,該方法包括以下步驟:
[0013]一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,包括以下步驟:
[0014]步驟一,將西里爾蒙古文進(jìn)行預(yù)處理,并將西里爾蒙古文劃分為集內(nèi)詞和未登陸詞;
[0015]步驟二,將所述集內(nèi)詞采用基于規(guī)則轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換;
[0016]步驟三,將所述未登陸詞采用基于聯(lián)合序列模型的轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換;
[0017]步驟四,將集內(nèi)詞和未登錄詞的轉(zhuǎn)換結(jié)果合并在一起,然后對(duì)于西里爾蒙古文到傳統(tǒng)蒙古文一對(duì)多對(duì)應(yīng)的單詞將采用語言模型選擇最后轉(zhuǎn)換結(jié)果;
[0018]步驟五,完成轉(zhuǎn)換。
[0019]進(jìn)一步地,所述的一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,在步驟一中,所述預(yù)處理包括對(duì)西里爾蒙古文文本進(jìn)行分句處理,數(shù)字和特殊符號(hào)等非西里爾蒙古文字母的判斷,西里爾蒙古文大寫字母的轉(zhuǎn)換,采用西里爾蒙古文詞干庫和構(gòu)形后綴庫對(duì)西里爾蒙古文進(jìn)行切分和判斷,并將西里爾蒙古文劃分成集內(nèi)詞和未登錄詞。
[0020]進(jìn)一步地,所述的一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,在步驟三中,采用基于聯(lián)合序列模型的轉(zhuǎn)換方法,該方法包括以下步驟:
[0021]步驟一,由一個(gè)或多個(gè)西里爾蒙古文和傳統(tǒng)蒙古文對(duì)應(yīng)的字母作為一個(gè)聯(lián)合多兀,并米用EM (Expectation-Maximization Algorithm)算法對(duì)模型進(jìn)行估計(jì);
[0022]步驟二,對(duì)模型進(jìn)行平滑和裁剪處理;
[0023]步驟三,采用Viterbi算法進(jìn)行解碼。
[0024]本發(fā)明可以將任意西里爾蒙古文文本轉(zhuǎn)換成傳統(tǒng)蒙古文文本,并且對(duì)未登錄詞和西里爾蒙古文到傳統(tǒng)蒙古文的一對(duì)多對(duì)應(yīng)單詞可以進(jìn)行高準(zhǔn)確率的轉(zhuǎn)換。
【專利附圖】

【附圖說明】
[0025]圖1為本發(fā)明語言轉(zhuǎn)化流程圖;
[0026]圖2為采用西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換當(dāng)中的集內(nèi)詞轉(zhuǎn)換示例圖;
[0027]圖3西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換示例圖。
【具體實(shí)施方式】
[0028]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明中的附圖,對(duì)本發(fā)明中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0029]圖1為本發(fā)明語言轉(zhuǎn)化流程圖,如圖1所示,本發(fā)明提供一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,包括以下步驟:
[0030]步驟一,將西里爾蒙古文進(jìn)行預(yù)處理,包括對(duì)文本進(jìn)行分句處理,數(shù)字和特殊符號(hào)等非西里爾蒙古文字母的判斷,西里爾蒙古文大寫字母的轉(zhuǎn)換,采用西里爾蒙古文詞干庫和構(gòu)形后綴庫對(duì)西里爾蒙古文進(jìn)行切分和判斷,并將西里爾蒙古文劃分成集內(nèi)詞和未登錄
ο
[0031]步驟二,將所述集內(nèi)詞采用基于規(guī)則轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換;
[0032]步驟三,將所述未登陸詞采用基于聯(lián)合序列模型的轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換;
[0033]步驟四,將集內(nèi)詞和未登錄詞的轉(zhuǎn)換結(jié)果合并在一起,然后對(duì)于西里爾蒙古文到傳統(tǒng)蒙古文一對(duì)多對(duì)應(yīng)的單詞將采用語言模型選擇最后轉(zhuǎn)換結(jié)果;
[0034]步驟五,完成轉(zhuǎn)換。
[0035]其中,集內(nèi)詞采用基于規(guī)則的轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換,附圖2為西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換當(dāng)中的集內(nèi)詞轉(zhuǎn)換示例圖。該方法包括以下步驟:
[0036]步驟一,結(jié)合西 里爾蒙古文和傳統(tǒng)蒙古文元音和諧規(guī)律、元音生成和脫落規(guī)律等蒙古文構(gòu)詞規(guī)則,設(shè)計(jì)西里爾蒙古文和傳統(tǒng)蒙古文詞干和構(gòu)形后綴連接規(guī)則庫;
[0037]步驟二,對(duì)西里爾蒙古文集內(nèi)詞進(jìn)行詞干和構(gòu)形后綴的切分;
[0038]步驟三,采用西里爾蒙古文和傳統(tǒng)蒙古文對(duì)應(yīng)的詞干庫和構(gòu)形后綴庫,將西里爾蒙古文詞干和后綴轉(zhuǎn)換成傳統(tǒng)蒙古文詞干和后綴;
[0039]步驟四,利用規(guī)則庫將傳統(tǒng)蒙古文詞干和后綴進(jìn)行合并,構(gòu)成傳統(tǒng)蒙古文單詞。
[0040]對(duì)于采用基于規(guī)則無法轉(zhuǎn)換的詞,我們稱之為未登錄詞。我們采用基于聯(lián)合序列模型的方法轉(zhuǎn)換這些未登錄詞。聯(lián)合序列模型的基本思想是輸入和輸出序列共同可以生成包含輸入和輸出符號(hào)的聯(lián)合單位的共同序列。簡(jiǎn)單情況下,每個(gè)單位帶有零或一個(gè)輸入符號(hào)和零或一個(gè)輸出符號(hào)。這相當(dāng)于有限狀態(tài)轉(zhuǎn)換器的傳統(tǒng)定義。這種可以由多個(gè)輸入和輸出符號(hào)組成的單位稱之為聯(lián)合多元(Joint Multigram)。本發(fā)明將西里爾蒙古文字母和傳統(tǒng)蒙古文字母序列分成相等的段數(shù),這樣的分組稱為聯(lián)合分割。聯(lián)合分割中的對(duì)齊項(xiàng)是可以交換使用的。我們將這特殊的對(duì)齊類型稱為“m-to-n”對(duì)齊。對(duì)于一個(gè)給定的西里爾蒙古文和傳統(tǒng)蒙古文字母串對(duì),分割聯(lián)合多元的結(jié)果不是唯一的。對(duì)于可能有歧義的m-to-n對(duì)齊,我們可以對(duì)輸入的字母串進(jìn)行自由的組合。本發(fā)明的模型估計(jì)采用了 EM算法,用EM算法訓(xùn)練模型時(shí),很可能會(huì)出現(xiàn)過擬合現(xiàn)象,并且在預(yù)測(cè)未出現(xiàn)的數(shù)據(jù)時(shí)效果不佳。同樣,從訓(xùn)練樣本中分析得到的一些單調(diào)初始化的聯(lián)合多元會(huì)達(dá)到某個(gè)概率聚集,而只有其中的小部分將有助于“正確”的模型估計(jì)。這兩個(gè)問題分別會(huì)通過裁剪和平滑進(jìn)行處理。解碼算法采用了 Viterbi算法。
[0041]基于聯(lián)合序列模型的轉(zhuǎn)換方法包括以下步驟:
[0042]步驟一,建立西里爾蒙古文和傳統(tǒng)蒙古文對(duì)照單詞訓(xùn)練庫;
[0043]步驟二,由一個(gè)或多個(gè)西里爾蒙古文字母和傳統(tǒng)蒙古文字母作為一個(gè)聯(lián)合多元,并采用EM算法對(duì)模型進(jìn)行估計(jì);[0044]步驟三,對(duì)模型進(jìn)行平滑和裁剪處理;
[0045]步驟四,采用Viterbi算法進(jìn)行解碼。
[0046]集內(nèi)詞和未登錄詞轉(zhuǎn)換完后,對(duì)轉(zhuǎn)換結(jié)果進(jìn)行合并,并對(duì)于西里爾蒙古文對(duì)應(yīng)多個(gè)傳統(tǒng)蒙古文的單詞將采用語言模型進(jìn)行最優(yōu)轉(zhuǎn)換結(jié)果的選擇。例如,西里爾蒙古文句
子 “ Tanaw a μ a P τΘβπιηηηηy xaMraajrxaap HBcaHIO M.”轉(zhuǎn)換成傳統(tǒng)蒙古文時(shí),西里爾蒙古文單詞“aMap”和“ ΙΟΜ”對(duì)應(yīng)多個(gè)傳統(tǒng)蒙古文單詞,圖3西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換示例圖,如圖3所示,轉(zhuǎn)換后的傳統(tǒng)蒙古文采用了拉丁方式進(jìn)行了轉(zhuǎn)寫。圖中可看出西里爾蒙古文單詞“ a μ a P”可以轉(zhuǎn)換成4個(gè)傳統(tǒng)蒙古文,西里爾蒙古文單詞“ ιοΜ”可以轉(zhuǎn)換成2個(gè)傳統(tǒng)蒙古文。粗線路徑表示正確轉(zhuǎn)換結(jié)果,正確結(jié)果為g w6K*“ ” ,對(duì)應(yīng)的拉丁轉(zhuǎn)寫為“tan_v amvr tobsin-1
hamagalahv-bar yabvgsan yvm?!?。
[0047]所述采用語言模型選擇最優(yōu)的傳統(tǒng)蒙古文候選結(jié)果采用下式:
【權(quán)利要求】
1.一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,其特征在于,包括以下步驟: 步驟一,將西里爾蒙古文進(jìn)行預(yù)處理,并將西里爾蒙古文劃分為集內(nèi)詞和未登陸詞; 步驟二,將所述集內(nèi)詞采用基于規(guī)則轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換; 步驟三,將所述未登陸詞采用基于聯(lián)合序列模型的轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換; 步驟四,將集內(nèi)詞和未登錄詞的轉(zhuǎn)換結(jié)果合并在一起,然后對(duì)于西里爾蒙古文到傳統(tǒng)蒙古文一對(duì)多對(duì)應(yīng)的單詞將采用語言模型選擇最后轉(zhuǎn)換結(jié)果; 步驟五,完成轉(zhuǎn)換。
2.如權(quán)利要求1所述的一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,其特征在于,在步驟一中,所述預(yù)處理包括對(duì)西里爾蒙古文文本進(jìn)行分句處理,數(shù)字和特殊符號(hào)等非西里爾蒙古文字母的判斷,西里爾蒙古文大寫字母的轉(zhuǎn)換,采用西里爾蒙古文詞干庫和構(gòu)形后綴庫對(duì)西里爾蒙古文進(jìn)行切分和判斷,并將西里爾蒙古文劃分成集內(nèi)詞和未登錄詞。
3.如權(quán)利要求1所述的一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,其特征在于,在步驟三中,采用基于聯(lián)合序列模型的轉(zhuǎn)換方法,該方法包括以下步驟: 步驟一,由一個(gè)或多個(gè)西里爾蒙古文和傳統(tǒng)蒙古文對(duì)應(yīng)的字母作為一個(gè)聯(lián)合多元,并采用EM算法對(duì)模型進(jìn)行估計(jì); 步驟二,對(duì)模型進(jìn)行平滑和裁剪處理; 步驟三,采用Viterbi算法進(jìn)行解碼。
【文檔編號(hào)】G06F17/28GK103810161SQ201410058055
【公開日】2014年5月21日 申請(qǐng)日期:2014年2月21日 優(yōu)先權(quán)日:2014年2月21日
【發(fā)明者】飛龍, 高光來, 侯宏旭, 王洪偉, 鮑玉來 申請(qǐng)人:飛龍
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1