應用電費自助繳費終端維吾爾文翻譯引擎的方法
【專利摘要】本發(fā)明公開了應用電費自助繳費終端維吾爾文翻譯引擎的方法,1、從自助繳費終端選擇顯示類型如漢文、維吾爾文;2、若選擇漢文,則無需進行機器翻譯;若選擇維吾爾文,則啟動翻譯引擎對數(shù)據(jù)庫里的信息進行翻譯,并顯示在終端界面上。本發(fā)明大大減少人工互譯漢文-維吾爾文的成本和時間。
【專利說明】 應用電費自助繳費終端維吾爾文翻譯引擎的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語言翻譯技術(shù),特別是應用電費自助繳費終端維吾爾文翻譯引擎的方法。
【背景技術(shù)】
[0002]機器翻譯的研究歷史可以追溯到20世紀三四十年代。20世紀30年代初,法國科學家G.B.阿爾楚尼提出了用機器來進行翻譯的想法。1933年,蘇聯(lián)發(fā)明家Π.Π.特羅揚斯基設計了把一種語言翻譯成另一種語言的機器,并在同年9月5日登記了他的發(fā)明;但是,由于30年代技術(shù)水平還很低,他的翻譯機沒有制成。1946年,第一臺現(xiàn)代電子計算機ENIAC誕生,隨后不久,信息論的先驅(qū)、美國科學家W.Weaver和英國工程師A.D.Booth在討論電子計算機的應用范圍時,于1947年提出了利用計算機進行語言自動翻譯的想法。1949年,W.Weaver發(fā)表《翻譯備忘錄》,正式提出機器翻譯的思想。走過六十年的風風雨雨,機器翻譯經(jīng)歷了一條曲折而漫長的發(fā)展道路。
[0003]隨著Internet的普遍應用,世界經(jīng)濟一體化進程的加速以及國際社會交流的日漸頻繁,傳統(tǒng)的人工作業(yè)的方式已經(jīng)遠遠不能滿足迅猛增長的翻譯需求,人們對于機器翻譯的需求空前增長,機器翻譯迎來了一個新的發(fā)展機遇。國際性的關(guān)于機器翻譯研究的會議頻繁召開,相繼推出了一系列機器翻譯軟件,例如“google”、“yahoo”、“百度”。
[0004]上世界90年代,在國外對翻譯引擎的研究和工作展開得比較多,研究成果廣泛地應用到各個行業(yè)和日常生活中。在國內(nèi),針對漢語的自然語言處理研究中已經(jīng)一部分工作涉及計算機和嵌入式系統(tǒng)中進行機器翻譯。在新疆維吾爾自治區(qū),由于地理和其他原因,信息化的起步開始得較晚,這方面的需求也沒有明顯地體現(xiàn)出來。本世紀初十年,該地區(qū)的信息化加快,各個行業(yè)中自然語言處理的需求非常緊急。目前為止,沒有進行過關(guān)于實時機器翻譯的研究,更沒有事實應用的現(xiàn)象。此工作的基礎是基于統(tǒng)計的漢哈機器翻譯。該工作還需要建立電力相關(guān)的平行語料庫。這些基礎工作在翻譯引擎中應用。翻譯引擎的設計中,首先用GIZA++對平行語料庫進行對接,第二步利用IBM模型制造翻譯模型。第三步通過Moses譯碼機輸出結(jié)果。
[0005]新疆維吾爾自治區(qū)是多民族居住的地區(qū),隨著社會向信息化社會發(fā)展,在西部大開發(fā)的推進下,基于少數(shù)民族文的IT行業(yè)進入快速發(fā)展的時期。在新疆維吾爾自治區(qū)電力系統(tǒng)中用電用戶的分布比較廣,13個地州公司,89個縣公司、營業(yè)區(qū),業(yè)務覆蓋用戶數(shù)約378萬戶,電力自助繳費終端的應用很大程度上減少了電力公司收電費成本。但是由于新疆是中國多民族多語言的省區(qū),漢族與維族各占40%,剩下20%是其他民族,使用語言有漢語、維吾爾語、哈薩克語等,其中吐魯番、哈密、阿克蘇、巴州、疆南、和田六地州是居住少數(shù)民族同志較多的地區(qū),大部分的少數(shù)民族同志不會漢語,使電力自助繳費終端的推廣受到阻礙。多語種(維哈柯)自助繳費終端來說,疆內(nèi)有建設銀行等銀行業(yè)有了初步的推廣應用,但目前的電力行業(yè)還是以漢語版本為主,沒有提供具有本地化支持的自助繳費終端。目前為止,新疆維吾爾自治區(qū)電力行業(yè)中還沒有漢語-維吾爾語自助繳費終端,一部分原因歸于嵌入式系統(tǒng)中進行機器翻譯的研究還不夠深入,對信息的實時翻譯準確率得不到保證。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于提供一種應用電費自助繳費終端維吾爾文翻譯引擎的方法,大大減少人工互譯漢文-維吾爾文的成本和時間。
[0007]本發(fā)明的目的是這樣實現(xiàn)的:一種應用電費自助繳費終端維吾爾文翻譯引擎的方法,1、從自助繳費終端選擇顯示類型如漢文、維吾爾文;2、若選擇漢文,則無需進行機器翻譯;若選擇維吾爾文,則啟動翻譯引擎對數(shù)據(jù)庫里的信息進行翻譯,并顯示在終端界面上。
[0008]本發(fā)明在新疆維吾爾自治區(qū)范圍內(nèi),少數(shù)民族語言的電表,哈漢雙語營銷系統(tǒng)已經(jīng)開始推廣和應用。該工作是少數(shù)民族語言電力業(yè)務標準化的有效保障,該系統(tǒng)可以適應到其他少數(shù)民族語言,比如維吾爾語,柯爾克孜語等等。在新疆維吾爾自治區(qū)范圍內(nèi),少數(shù)民族語言的電表,哈漢雙語營銷系統(tǒng)已經(jīng)開始推廣和應用。本發(fā)明是少數(shù)民族語言電力業(yè)務標準化的有效保障,本發(fā)明使用詞典和雙語實例庫,對基于實例的機器翻譯技術(shù)進行研究,面向電力行業(yè)自助終端的機器翻譯引擎。本發(fā)明應用廣泛,可對給予的維吾爾文字資料進行詞法分析,分詞,根據(jù)預料的知識進行翻譯,并輸出結(jié)果,其應用范圍是電力行業(yè)自助繳費終端信息,大大減少人工互譯漢文-維吾爾文的成本和時間。
【專利附圖】
【附圖說明】
[0009]下面將結(jié)合附圖對本發(fā)明作進一步說明。
[0010]圖1為本發(fā)明的工作流程圖;
圖2為本發(fā)明翻譯模型形成的工作流程圖。
【具體實施方式】
[0011]一種應用電費自助繳費終端維吾爾文翻譯引擎的方法,如圖1所示,1、從自助繳費終端選擇顯示類型如漢文、維吾爾文;2、若選擇漢文,則無需進行機器翻譯;若選擇維吾爾文,則啟動翻譯引擎對數(shù)據(jù)庫里的信息進行翻譯,并顯示在終端界面上。
[0012]如圖2所示:本發(fā)明的翻譯模型的形成包括訓練模型和基于統(tǒng)計翻譯模型的翻譯部分。
[0013]訓練模型:①建立大量的維吾爾文語料庫。②對已建立的維吾爾文語料庫,在SRILM算法的基礎上建立維吾爾語的語言模型。③需要大量的平行語料庫來訓練翻譯模型,該發(fā)明中的資料均來自于新疆維吾爾自治區(qū)電力系統(tǒng)中的相關(guān)規(guī)則,電力系統(tǒng)中發(fā)表的文檔和法律條款,這些資料都是以漢哈文對齊的,具體如下所示:
科學用電常識安全用電常識節(jié)約用電常識電網(wǎng)調(diào)度管理條例電力設施保護條例中華人民共和國電力法電力供應與使用條例電網(wǎng)調(diào)度管理條例電力設施保護條例漢哈專用名詞辭典國家電網(wǎng)公司供電服務“十項承諾”
漢哈專用名詞辭典國家電網(wǎng)公司供電服務“十項承諾”
上述全部文字資料通過人工對接,用于訓練。
[0014]④對平行語料庫進行基于Mkcls算法的單詞分類。⑤用GIZA++實現(xiàn)了 IBM模型Γ5的所有代碼,在生成源語言語目標語言之間翻譯概率的同時,產(chǎn)生了翻譯模型。
[0015]翻譯部分:①從漢文數(shù)據(jù)庫提取相應的漢文信息。②對漢文進行詞法分析。③通過Moses譯碼機實現(xiàn)漢-哈翻譯,并顯示維吾爾文的翻譯結(jié)果。
【權(quán)利要求】
1.一種應用電費自助繳費終端維吾爾文翻譯引擎的方法,其特征在于:1、從自助繳費 終端選擇顯示類型如漢文、維吾爾文;2、若選擇漢文,則無需進行機器翻譯;若選擇維吾爾 文,則啟動翻譯引擎對數(shù)據(jù)庫里的信息進行翻譯,并顯示在終端界面上。
【文檔編號】G06F3/0481GK104298420SQ201310740830
【公開日】2015年1月21日 申請日期:2013年12月29日 優(yōu)先權(quán)日:2013年12月29日
【發(fā)明者】阿布都哈力力·阿布都熱依木, 塔拉甫·加盤, 鐘方偉 申請人:新疆信息產(chǎn)業(yè)有限責任公司