亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

漢哈電子辭典及其自動轉(zhuǎn)譯漢哈語的方法

文檔序號:6442078閱讀:2390來源:國知局
專利名稱:漢哈電子辭典及其自動轉(zhuǎn)譯漢哈語的方法
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器翻譯語言技術(shù)領(lǐng)域,涉及利用計(jì)算機(jī)軟硬件使?jié)h語和哈薩克語相互轉(zhuǎn)譯的語言轉(zhuǎn)換技術(shù),特別是漢哈電子辭典及其自動轉(zhuǎn)譯漢哈語的方法。
背景技術(shù)
在社會信息化的當(dāng)代,人們對各類語種信息獲取、查詢、翻譯提出了更快、更高的要求,隨之而研制開發(fā)了各類電子辭典產(chǎn)品,大到含幾十萬詞條、上萬個(gè)媒體素材的電子多媒體百科全書,小到含幾千詞條的掌上快譯通,受到廣大用戶歡迎,電子辭典被作為學(xué)習(xí)語言、翻譯和快速查詢的輔助工具。在國外機(jī)器翻譯系統(tǒng)和自然語言處理系統(tǒng)的實(shí)用化進(jìn)程中,機(jī)器辭典已儼然成為開發(fā)的焦點(diǎn),越來越多的語言翻譯技術(shù)專家把機(jī)器辭典的規(guī)模和質(zhì)量看作是決定機(jī)器翻譯系統(tǒng)和自然語言處理系統(tǒng)成敗的關(guān)鍵,早在1986年日本通產(chǎn)省就出資I億美元支持電子辭典(EDR)的一個(gè)9年的開發(fā)計(jì)劃,歐共體也資助多項(xiàng)機(jī)器辭典的研究課題,其中包括 ACQUILEX (The Acquisition of Lexical Knowledge)課題,其目標(biāo)是通過多部機(jī)器可讀辭典MRD (Machine Reading Dictionary)來自動獲取詞匯知識,以便建立支持自然語言處理的多語種詞匯知識庫LKB (Lexical Knowledge Base),在此基礎(chǔ)上所開發(fā)的各語種的多部大型機(jī)器辭典,其種類包括基本辭典、術(shù)語辭典、搭配辭典、概念分類辭典、概念描寫辭典、語法辭典等。目前,產(chǎn)品化的電子辭典種類繁多,如不列顛百科全書、柯普頓百科全書、ENCARTA等。在我國,涉及機(jī)器翻譯辭典方面的研究則始于二十世紀(jì)50、60年代,在改革開放之后得到了充分重視,二十世紀(jì)80年代后期,中文信息處理領(lǐng)域的專家開始了對機(jī)器辭典的研究,二十世紀(jì)90年代初,面向信息處理的機(jī)器辭典的研究正式列入國家七五、八五、九五計(jì)劃,開展了諸如《信息處理用現(xiàn)代漢語詞匯研究》、《基于配價(jià)的漢語語義辭典》、《現(xiàn)代漢語語法信息辭典》等基礎(chǔ)性研究課題,在此基礎(chǔ)上開發(fā)了《中國大百科全書》、《金山詞霸》、《東方大典》等較成熟的信息產(chǎn)品,受到了廣大用戶的歡迎。近年來,隨著少數(shù)民族文字信息化領(lǐng)域的持續(xù)快速發(fā)展,在我國新疆,有關(guān)少數(shù)民族語言的電子辭典也有了比較大的發(fā)展,但大多數(shù)以現(xiàn)有普通的漢維電子辭典為主,并沒有滿足更廣大用戶的實(shí)際需求,更多支持少數(shù)民族語言翻譯技術(shù)的水平存在著較大的缺陷。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種漢哈電子辭典,其結(jié)構(gòu)合理,通用性強(qiáng)。本發(fā)明的目的是這樣實(shí)現(xiàn)的:一種漢哈電子辭典,由語種識別模塊、檢索模塊、檢索組合輸出模塊、顯示模塊、語音識別模塊和語音輸出模塊組成,語種識別模塊通過其相應(yīng)接口連接顯示模塊的接口和檢索模塊的接口,檢索模塊通過其輸出端接口對應(yīng)連接檢索組合輸出模塊的輸入端接口,檢索組合輸出模塊的輸出端接口對應(yīng)連接語音識別模塊的輸入端接口,語音識別模塊通過其輸出端接口連接語音輸出模塊的輸入端接口。
本發(fā)明的目的還在于提供一種漢哈電子辭典自動轉(zhuǎn)譯漢哈語的方法,改變原先傳統(tǒng)、普通漢語與哈薩克語互譯的辭典技術(shù),提高漢語和哈薩克語相互轉(zhuǎn)譯的效率,改進(jìn)對漢語文字、哈薩克語文字進(jìn)行語音放送的性能(哈薩克語簡稱為哈語或哈文)。本發(fā)明的目的是這樣實(shí)現(xiàn)的:一種漢哈電子辭典自動轉(zhuǎn)譯漢哈語的方法,其按序處理的步驟如下:
(I )由顯示模塊顯示所輸入的文字,構(gòu)建取詞窗口,語種識別模塊利用取詞窗口通過屏幕取詞的方法,獲取與顯示模塊顯示的所輸入文字相對應(yīng)的輸入字符編碼區(qū)域,將所輸入的文字與被存儲的UNICODE標(biāo)準(zhǔn)編碼字符集(通用字符集:Universal Multiple-OctetCoded Character Set)中的編碼字符相比對,判斷所輸入文字的語種是漢語或哈語,再把已被識別出語種的所輸入文字傳至檢索模塊;
(II )檢索模塊獲取檢索方式將被識別出語種的所輸入文字與在寄存于存儲器的基礎(chǔ)語料庫中并列存儲的漢-哈語料庫和哈-漢語料庫中所存儲的字符進(jìn)行比對,以從基礎(chǔ)語料庫中檢索出與被識別出語種的所輸入文字的字符相同或相對應(yīng)的字符組合,確認(rèn)被識別出語種的所輸入文字是已被存儲在基礎(chǔ)語料庫中的已知單字或單詞,或進(jìn)一步主動完整漢語單字組合或單詞字母組合,若不能從漢-哈語料庫和哈-漢語料庫中檢索出與所輸入文字相同或相對應(yīng)的字符組合-漢語單字或哈語單詞,則檢索模塊判斷被識別出語種的所輸入文字是未知的,不能被語種識別模塊確認(rèn)、接收;
(III)語種識別模塊接收檢索模塊所檢索出的字符組合,并從基礎(chǔ)語料庫所存儲的漢-哈語料庫和哈-漢語料庫中調(diào)出與由檢索模塊所檢索出的字符組合意思對應(yīng)的且不同于所輸入文字語種的另一語種字符組合-轉(zhuǎn)譯成漢語單字、漢語單詞或哈語單詞,再把所輸入文字和/或由語種識別模塊從基礎(chǔ)語料庫中所調(diào)出的與所輸入文字意思相對應(yīng)的另一語種字符組合通過檢索模塊或直接傳至檢索組合輸出模塊;
(IV )檢索組合輸出模塊根據(jù)所輸入文字和/或由語種識別模塊從基礎(chǔ)語料庫中所調(diào)出的與所輸入文字意思相對應(yīng)的另一語種字符組合,從基礎(chǔ)語料庫中并列存儲的漢-漢語料庫和哈-哈語料庫中獲取用于解釋被檢索模塊檢索出的字符組合的意思的漢語解釋語句,根據(jù)斯拉夫文哈語文字與阿拉伯文哈語文字映射表,獲取與上述另一語種字符組合意思對應(yīng)的以斯拉夫字母或阿拉伯字母表達(dá)的哈語解釋語句,相應(yīng)對由語種識別模塊從基礎(chǔ)語料庫中所調(diào)出的字符組合的意思進(jìn)行解釋,檢索組合輸出模塊再將其所檢索出的解釋語句輸出至語音識別模塊;
(V )當(dāng)語音識別模塊判斷其所接收的解釋語句為漢語解釋語句時(shí),語音識別模塊用寄存于存儲器內(nèi)的語音數(shù)據(jù)庫所存儲的真人漢語語音庫,相應(yīng)逐一對其所接收的漢語解釋語句中的每一漢語單字按照漢語發(fā)音語序進(jìn)行語音匹配,再將暫存有與其所接收漢語解釋語句中的漢語單字按序相匹配的漢語發(fā)音信號依次傳至語音輸出模塊,對應(yīng)于漢語解釋語句中每一漢語單字的漢語發(fā)音信號被語音輸出模塊逐一按序檢測、讀取后,由語音輸出模塊中的揚(yáng)聲器依次發(fā)出與其所接收漢語解釋語句中的每一漢語單字對應(yīng)的漢語語音;當(dāng)語音識別模塊判斷其所接收的解釋語句為哈語解釋語句且其所接收的哈語解釋語句是以阿拉伯字母或斯拉夫字母表達(dá)的哈語單詞時(shí),語音識別模塊用語音數(shù)據(jù)庫中所存儲的真人哈語語音庫,相應(yīng)逐一對其所接收的哈語解釋語句的每一哈語單詞按照哈語發(fā)音語序進(jìn)行語音匹配,再將暫存有與其所接收哈語解釋語句中的哈語單詞按序相匹配的哈語發(fā)音信號依次傳至語音輸出模塊,對應(yīng)于其所接收哈語解釋語句中每一哈語單詞的哈語發(fā)音信號被語音輸出模塊逐一按序檢測、讀取后,由語音輸出模塊中的揚(yáng)聲器依次發(fā)出與哈語解釋語句中每一哈語單詞相匹配的哈語語音;若語音識別模塊判斷其所接收的解釋語句為哈語解釋語句,但不能對該哈語解釋語句進(jìn)行語音匹配時(shí),則推定該哈語解釋語句是以阿拉伯字母或斯拉夫字母表達(dá)的哈語文本,并調(diào)用語音數(shù)據(jù)庫中所存儲的合成哈語語音庫對哈語文本進(jìn)行基于音節(jié)的語音合成,通過哈語語句單詞與音節(jié)切分法相應(yīng)將哈語文本切分成已知存儲于合成語音庫中的哈語單詞,再用真人哈語語音庫和/或合成哈語語音庫,相應(yīng)逐一對該哈語文本的每一哈語單詞按照哈語發(fā)音語序進(jìn)行語音匹配,將暫存有與哈語文本被按序所切分成的哈語單詞相匹配的哈語發(fā)音信號依次傳至語音輸出模塊,哈語發(fā)音信號被語音輸出模塊逐一按序檢測、讀取后,由語音輸出模塊中的揚(yáng)聲器依次發(fā)出與哈語文本中每一哈語單詞相匹配的哈語語音。本發(fā)明是基于計(jì)算語言學(xué)、人類文化學(xué)、社會學(xué)、語用學(xué)、翻譯學(xué)及計(jì)算機(jī)信息處理科學(xué)技術(shù)的漢哈語雙向多媒體電子辭典,基于UNICODE國際標(biāo)準(zhǔn)的漢哈雙語編碼格式,以實(shí)現(xiàn)漢哈、哈漢雙向單詞輸入功能、漢哈單詞與文本朗讀功能,具有在不同操作系統(tǒng)下利用屏幕取詞法獲取漢哈字符的功能和對國內(nèi)外哈薩克文字編碼進(jìn)行轉(zhuǎn)換的功能,也具有漢哈語言的多語種界面,對漢哈單詞快速檢索、模糊檢索,可直接輸入哈薩克文,對辭典詞庫進(jìn)行管理,附帶辭典設(shè)置、辭典工具、辭典附錄、在線升級等功能。本發(fā)明提供哈薩克語阿拉伯文字輸入法,但不依賴其它哈薩克(語)文輸入法,提高了可用性,提供屏幕取詞漢哈雙向?qū)崟r(shí)翻譯,為使用漢語、哈薩克語的用戶帶來了方便,提供漢哈單詞和短語的標(biāo)準(zhǔn)朗誦,是學(xué)習(xí)漢語、哈薩克語的有力工具,具有海量哈薩克文語料庫和單詞、短語解釋功能以及哈薩克語斯拉夫文字(哈薩克斯坦)和哈薩克語阿拉伯文字(中國新疆)之間的轉(zhuǎn)換顯示功能,方便其它講非哈薩克語的人員學(xué)習(xí)哈薩克族語言、哈薩克民族歷史、風(fēng)俗習(xí)慣,為其它講非哈薩克語的人員了解新疆和哈薩克斯坦地理信息和區(qū)域、風(fēng)貌提供了大量實(shí)例。本發(fā)明解決了所有以哈薩克語言為母語的國內(nèi)外哈薩克人民難于獲取現(xiàn)代知識和日常生活中的語言障礙問題,使國內(nèi)外哈薩克語學(xué)習(xí)者能快速翻譯進(jìn)而獲取各種信息,不僅方便哈薩克人民學(xué)習(xí)漢語,而且方便漢族同志和外國人學(xué)習(xí)哈薩克語,是哈薩克語、漢語使用者學(xué)習(xí)漢語、哈語翻 譯工具,對提高哈薩克人民的漢語說寫水平有著深遠(yuǎn)的意義 ’另一方面對將來漢哈(語)機(jī)器翻譯辭典庫建設(shè),對烏(烏孜別克文)漢、土(土耳其文)漢雙向電子辭典及輔助機(jī)器翻譯系統(tǒng)的開發(fā)打下了堅(jiān)實(shí)的基礎(chǔ)。本發(fā)明的技術(shù)特點(diǎn)是:①提供漢語、哈薩克語之間的單詞翻譯服務(wù),在本發(fā)明的漢哈電子辭典中輸入上述任意一種語言單詞可以獲得其在另外一種語言中的釋義提供支持國際UNICODE標(biāo)準(zhǔn)的哈薩克文組件式輸入法,即用戶沒有安裝任何哈語輸入法時(shí),本辭典仍然可以正確輸入標(biāo)準(zhǔn)的哈語單詞在當(dāng)前主流的Windows系列操作系統(tǒng)(WindowsXP\ffindows Server\ffindows Vista\ffindows 7)中,可實(shí)現(xiàn)對哈語進(jìn)行屏幕取詞的功能;④使用統(tǒng)計(jì)學(xué)和語音學(xué)以實(shí)現(xiàn)對哈語單詞和文本的朗讀功能,語音朗讀標(biāo)準(zhǔn)、清晰,具有較先進(jìn)的技術(shù)特色;⑤提供辭典在線升級、辭典設(shè)置、辭典工具、辭典附錄等附加功能,可根據(jù)用戶的需要進(jìn)行設(shè)置提供友好的多語種辭典界面,通過人性化的設(shè)置獲得不同語言的辭典界面和方向;⑦實(shí)現(xiàn)對輸入文字語言自動識別的功能,分析所輸入文字,自動對所輸入文字進(jìn)行語種判斷,并對其進(jìn)行單詞翻譯;⑧漢哈詞庫內(nèi)收集有將近25萬條詞匯,同時(shí)建立了真人語音庫和基于音節(jié)切分技術(shù)的語音朗讀合成庫;⑨實(shí)現(xiàn)哈薩克語斯拉夫文字(哈薩克斯坦)和哈薩克語阿拉伯文字(中國新疆)之間的轉(zhuǎn)換顯示功能,即在釋義窗口中同時(shí)顯示上述兩種文字形式,從而有效地拓寬本發(fā)明的使用范圍。本發(fā)明的電子詞典其結(jié)構(gòu)合理,通用性強(qiáng),其方法改變原先傳統(tǒng)、普通漢語與哈薩克語互譯的辭典技術(shù),提高漢語和哈薩克語相互轉(zhuǎn)譯的效率,改進(jìn)對漢語文字、哈薩克語文字進(jìn)行語音放送的性能。


附圖是本發(fā)明的模塊連接示意圖及其自動轉(zhuǎn)譯漢哈語的方法的總流程示意圖。
具體實(shí)施例方式一種漢哈電子辭典,如附圖所示,由語種識別模塊2、檢索模塊3、檢索組合輸出模塊4、顯示模塊1、語音識別模塊5和語音輸出模塊6組成,語種識別模塊2通過其相應(yīng)接口連接顯示模塊I的接口和檢索模塊3的接口,檢索模塊3通過其輸出端接口對應(yīng)連接檢索組合輸出模塊4的輸入端接口,檢索組合輸出模塊4的輸出端接口對應(yīng)連接語音識別模塊5的輸入端接口,語音識別模塊5通過其輸出端接口連接語音輸出模塊6的輸入端接口。一種漢哈電子辭典自動轉(zhuǎn)譯漢哈語的方法,如附圖所示,其按序處理的步驟如下:
(I )由顯示模塊I顯示(由鍵盤)所輸入的文字,依次使所輸入文字混合編排和圖文混合排版,構(gòu)建取詞窗口,語種識別模塊2利用取詞窗口通過屏幕取詞的方法,獲取與顯示模塊I顯示的所輸入文字相對應(yīng)的輸入字符編碼區(qū)域,將所輸入的文字與被存儲的UNICODE 標(biāo)準(zhǔn)編碼字符集(通用字符集!Universal Multiple-Octet Coded CharacterSet)中的編碼字符相比對,判斷所輸入文字的語種是漢語或哈語,再把已被識別出語種的所輸入文字傳至檢索模塊3 ;注:若語種識別模塊2判斷出其接收到的所輸入文字是漢語拼音文字,則先將所輸入漢語拼音文字的字母組合與寄存于存儲器內(nèi)的基礎(chǔ)語料庫(取詞數(shù)據(jù)庫)中的拼音語料庫的所有字母組合逐一比對(若所輸入漢語拼音文字的字母組合與拼音語料庫所存儲的所有字母組合不相同或不對應(yīng),則不能從拼音語料庫中獲取與所輸入漢語拼音文字發(fā)音相同的漢語單字,若所輸入漢語拼音文字的字母組合與拼音語料庫所存儲的某一字母組合相同或相對應(yīng),則能從拼音語料庫中獲取與所輸入漢語拼音發(fā)音文字對應(yīng)的漢語單字),以獲取與所輸入漢語拼音文字發(fā)音相同的漢語單字,即從拼音語料庫中調(diào)出羅列有與上述漢語拼音文字發(fā)音相同的候選漢語單字的列表,用戶從該列表中選擇某一候選漢語單字,將與漢語拼音文字發(fā)音相同的某一候選漢語單字傳輸至顯示模塊1,由顯示模塊I顯示該某一候選漢語單字,再將與漢語拼音文字發(fā)音相同的漢語單字傳送至檢索模塊3,所述的拼音語料庫存儲有與各個(gè)漢語拼音組合字符發(fā)音相同的漢語單字(索引)、漢語單詞(索引),若語種識別模塊2判斷出其直接接收到的所輸入文字是漢語文字,則直接將該漢語文字傳輸至檢索模塊3 ;
(II )檢索模塊3獲取檢索方式將被識別出語種的所輸入文字與在寄存于存儲器的基礎(chǔ)語料庫中并列存儲的漢-哈語料庫和哈-漢語料庫中所存儲的字符進(jìn)行比對(所述的字符為漢語單字或哈語單詞),以從基礎(chǔ)語料庫中檢索出與被識別出語種的所輸入文字的字符相同或相對應(yīng)的字符組合,確認(rèn)被識別出語種的所輸入文字是已被存儲在基礎(chǔ)語料庫中的已知單字或單詞,或進(jìn)一步主動完整漢語單字組合或單詞字母組合,若不能從漢-哈語料庫和哈-漢語料庫中檢索出與所輸入文字相同或相對應(yīng)的字符組合-漢語單字或哈語單詞,則檢索模塊3判斷被識別出語種的所輸入文字是未知的,不能被語種識別模塊2確認(rèn)、接收,所述的漢-哈語料庫存儲有與各個(gè)漢語單字或漢語單詞匯所對應(yīng)的哈語單詞,所述的哈-漢語料庫存儲有與各個(gè)哈語單詞所對應(yīng)的漢語單字或漢語單詞;
(III)語種識別模塊2接收檢索模塊3所檢索出的字符組合,并從基礎(chǔ)語料庫所存儲的漢-哈語料庫和哈-漢語料庫中調(diào)出與由檢索模塊3所檢索出的字符組合意思對應(yīng)的且不同于所輸入文字語種的另一語種字符組合-轉(zhuǎn)譯成漢語單字、漢語單詞或哈語單詞,即將哈語單詞轉(zhuǎn)譯成漢語單字或漢語單詞,或?qū)h語單字或漢語單詞轉(zhuǎn)譯成哈語單詞,再把所輸入文字和/或由語種識別模塊2從基礎(chǔ)語料庫中所調(diào)出的與所輸入文字意思相對應(yīng)的另一語種字符組合通過檢索模塊3或直接傳至檢索組合輸出模塊4 ;
(IV)檢索組合輸出模塊4根據(jù)所輸入文字和/或由語種識別模塊2從基礎(chǔ)語料庫中所調(diào)出的與所輸入文字意思相對應(yīng)的另一語種字符組合,從基礎(chǔ)語料庫中并列存儲的漢-漢語料庫和哈-哈語料庫中獲取用于解釋被檢索模塊3檢索出的字符組合的意思的漢語解釋語句,根據(jù)斯拉夫文哈語文字與阿拉伯文哈語文字映射表,獲取與上述另一語種字符組合意思對應(yīng)的以斯拉夫字母或阿拉伯字母表達(dá)的哈語解釋語句(進(jìn)行文本轉(zhuǎn)換處理),用上述某一語種文字所作出的解釋語句必是用所輸入文字所屬語種的文字作出的解釋語句,相應(yīng)對由語種識別模塊2從基礎(chǔ)語料庫中所調(diào)出的字符組合的意思進(jìn)行解釋(如對某一哈語單詞用與其意思對應(yīng)的漢語解釋語句進(jìn)行解釋,或者對某一漢語單字或單詞用與其意思對應(yīng)的以阿拉伯字母或斯拉夫字母表達(dá)的哈語解釋語句進(jìn)行解釋,或者對某一哈語單詞用與其意思對應(yīng)的以阿拉伯字母或斯拉夫字母表達(dá)的哈語解釋語句進(jìn)行解釋,或者對某一漢語單字或單詞用與其意思對應(yīng)的漢語解釋語句進(jìn)行解釋),檢索組合輸出模塊4再將其所檢索出的解釋語句(漢語解釋語句和哈語解釋語句)輸出至語音識別模塊5;例如,所述的漢-漢語料庫存儲有對每個(gè)漢語單字或單詞作出解釋的漢語詞句,所述的哈-哈語料庫存儲有對每個(gè)哈語單詞作出解釋的哈語詞句;
(V )當(dāng)語音識別模塊5判斷其所接收的解釋語句為漢語解釋語句時(shí),語音識別模塊5用寄存于存儲器內(nèi)的語音數(shù)據(jù)庫所存儲的真人漢語語音庫,相應(yīng)逐一對其所接收的漢語解釋語句中的每一漢語單字按照漢語發(fā)音語序進(jìn)行語音匹配,再將暫存有與其所接收漢語解釋語句中的漢語單字按序相匹配的漢語發(fā)音信號依次傳至語音輸出模塊6,對應(yīng)于漢語解釋語句中每一漢語單字的漢語發(fā)音信號被語音輸出模塊6逐一按序檢測、讀取后,由語音輸出模塊6中的揚(yáng)聲器依次發(fā)出與其所接收漢語解釋語句中的每一漢語單字對應(yīng)的漢語語音;
當(dāng)語音識別模塊5判斷其所接收的解釋語句為哈語解釋語句且其所接收的哈語解釋語句是以阿拉伯字母或斯拉夫字母表達(dá)的哈語單詞時(shí),語音識別模塊5用語音數(shù)據(jù)庫中所存儲的真人哈語語音庫,相應(yīng)逐一對其所接收的哈語解釋語句的每一哈語單詞按照哈語發(fā)音語序進(jìn)行語音匹配,再將暫存有與其所接收哈語解釋語句中的哈語單詞按序相匹配的哈語發(fā)音信號依次傳至語音輸出模塊6,對應(yīng)于其所接收哈語解釋語句中每一哈語單詞的哈語發(fā)音信號被語音輸出模塊6逐一按序檢測、讀取后,由語音輸出模塊6中的揚(yáng)聲器依次發(fā)出與哈語解釋語句中每一哈語單詞相匹配的哈語語音;若語音識別模塊5判斷其所接收的解釋語句為哈語解釋語句,但不能對該哈語解釋語句進(jìn)行語音匹配時(shí),則推定該哈語解釋語句是以阿拉伯字母或斯拉夫字母表達(dá)的哈語文本(即轉(zhuǎn)入文本處理),并調(diào)用語音數(shù)據(jù)庫中所存儲的合成哈語語音庫對哈語文本進(jìn)行基于音節(jié)的語音合成,通過哈語語句單詞與音節(jié)切分法相應(yīng)將哈語文本切分成已知存儲于合成語音庫中的哈語單詞,再用真人哈語語音庫和/或合成哈語語音庫,相應(yīng)逐一對該哈語文本的每一哈語單詞按照哈語發(fā)音語序進(jìn)行語音匹配,將暫存有與哈語文本被按序所切分成的哈語單詞相匹配的哈語發(fā)音信號依次傳至語音輸出模塊6,哈語發(fā)音信號被語音輸出模塊6逐一按序檢測、讀取后,由語音輸出模塊6中的揚(yáng)聲器依次發(fā)出與哈語文本中每一哈語單詞相匹配的哈語語音。所述的檢索方式為首部檢索方式、尾部檢索方式或包含檢索方式;首部檢索方式為:A、檢索模塊(3)從左向右按序逐一錄入所輸入文字中的每個(gè)字符,B、將基礎(chǔ)語料庫(漢-哈語料庫和哈-漢語語料庫)中所存儲的字符組合數(shù)據(jù)與被錄入的所輸入文字字符組合相比對,若能從基礎(chǔ)語料庫中搜索出與被錄入的文字字符組合相同的字符,則停止檢索,即完成精確匹配出所輸入文字的工作;若不能通過首部檢索方式從基礎(chǔ)語料庫中搜索出與所輸入文字相同的字符組合,則采用如下的尾部檢索方式繼續(xù)檢索所輸入的文字;
尾部檢索方式為:①檢索模塊(3)從右向左(按照人面對的左邊、右邊)按序逐一錄入所輸入文字中的每個(gè)字符,②同上述首部檢索方式的步驟B;若不能通過首部檢索方式從基礎(chǔ)語料庫中搜索出與所輸入文字相同的字符,則采用如下的包含檢索方式繼續(xù)檢索所輸入的文字;
包含檢索方式為從任意方向匹配所輸入文字的字符組合的檢索方式,包括上述首部檢索方式與尾部檢索方式,檢索模塊3通過該包含檢索方式從基礎(chǔ)語料庫中搜索出與所輸入文字相同的字符,最終完成精確匹配所輸入文字的工作。本發(fā)明的檢索流程涉及語種識別模塊2、檢索模塊3、檢索組合輸出模塊4和基礎(chǔ)語料庫,其主要流程為:1)首先,用戶通過漢語或哈語輸入法輸入漢語文字或哈語文字,輸入所需要查詢的文字,通過輸入數(shù)據(jù)的UNICODE編碼,判斷所輸入文字(源語言單詞或文本)的語種(漢語或哈薩克語);2)根據(jù)用戶設(shè)置的檢索方式判斷所輸入文字的語種,檢索模塊3檢索出與所輸入文字(源語言單詞或文本)匹配的漢語和/或哈語單詞、文本;3)根據(jù)檢索模塊3對所輸入文字檢索的結(jié)果,從基礎(chǔ)語料庫中匹配出與所輸入文字相同或相應(yīng)的漢語單詞和/或哈語單詞意思相同的漢語解釋例句和哈語解釋例句,并組合生成需要輸出的數(shù)據(jù)。本發(fā)明屏幕取詞、翻譯流程涉及語種識別模塊2、顯示模塊1、檢索模塊3和取詞數(shù)據(jù)庫(基礎(chǔ)語料庫),其主要流程為:1)用戶輸入文字(需要翻譯的單詞、文本);2)語種識別模塊2通過輸入數(shù)據(jù)的UNICODE編碼判斷上述所輸入文字(源語言單詞或文本)的語種(漢語或哈薩克語);3)根據(jù)語種識別模塊2對所輸入文字判斷出的不同語種,檢索模塊3從取詞漢語庫或取詞哈語詞庫(漢-哈語料庫和/或哈-漢語料庫)中獲取與所輸入文字相匹配的單詞、文本;4)依據(jù)檢索模塊3對所輸入文字最終匹配的結(jié)果,顯示模塊I通過文本混合排版技術(shù)和圖文混合排版技術(shù),構(gòu)建屏幕取詞翻譯界面,顯示最終翻譯結(jié)果(漢語詞句或哈語詞句)。本發(fā)明語音朗誦的流程涉及語種識別模塊2、語音輸出模塊6、檢索組合輸出模塊4和語音數(shù)據(jù)庫,其主要流程為:1)語種識別模塊2對其接收到檢索組合輸出模塊4所發(fā)出的漢語、哈語解釋語句(在屏幕取詞環(huán)節(jié)中所輸入的文字)進(jìn)行語種判斷,如果所輸入的解釋語句是漢語詞句,則從真人漢語語音庫匹配所輸入的漢語單字,如果所輸入的解釋語句是哈語詞句,則繼續(xù)判斷語種識別模塊2所接收的哈語解釋語句是否為哈語單詞,若是所輸入的文字為哈語單詞,則直接從真人哈語語音庫匹配出相同或相應(yīng)的哈語單詞,若語音輸出模塊6找不到匹配的哈語單詞,則將其轉(zhuǎn)入文本處理過程,即如果所輸入的解釋語句是哈語文本,則利用哈語語句音節(jié)切分技術(shù),將哈語文本按照哈語語言特點(diǎn)切分為哈語單詞,并將哈語文本中的哈語單詞按照哈語的特點(diǎn)切分為音節(jié),從合成哈語語音庫匹配出哈語文本每一哈語單詞的所有音節(jié),最終組成完整的哈語語音文本;2)通過計(jì)算機(jī)語音設(shè)備檢測,對上述哈語文本進(jìn)行讀取并輸出、播放。使用者通過鍵盤輸入方式在屏幕顯示的輸入框中輸入待查詢的文字(源語言單詞或文本),所輸入的文字經(jīng)過語種識別環(huán)節(jié)被識別出語言種類(漢語或哈語)后,由檢索模塊3利用拼音檢索法、首部檢索法、尾部檢索法、包含檢索法和精確匹配檢索法中的任意一種方法,對所輸入的文字與拼音語料庫、漢哈語料庫、哈漢語料庫的單詞進(jìn)行匹配,從基礎(chǔ)語料庫中檢索出與上述所輸入文字相對應(yīng)或相同的待翻譯的單詞,然后根據(jù)檢索模塊3從基礎(chǔ)語料庫中所檢索出的待翻譯的單詞,檢索組合輸出模塊4獲取與所述待翻譯的單詞意思相對應(yīng)的漢語解釋語句和哈語解釋語句,再通過文本混合排版技術(shù)、圖文混合排版技術(shù)進(jìn)行編輯,將翻譯的漢語解釋語句或哈語解釋語句組合成為輸出的文字?jǐn)?shù)據(jù),顯示在(屏幕)結(jié)果顯示區(qū)域內(nèi)。使用者通過光標(biāo)定位方式所輸入的待翻譯解釋的文字(單詞或文本),所輸入的文字在經(jīng)過語種識別環(huán)節(jié)后,語種識別模塊2再從常用取詞漢語庫和常用取詞哈語庫(漢-哈語料庫和/或哈-漢語料庫)中檢索出與所輸入的文字(目標(biāo)語言或源語言單詞或文本)意思相同或相對應(yīng)的另一語種單詞(翻譯數(shù)據(jù)),再通過文本混合排版技術(shù)、圖文混合排版技術(shù)將翻譯數(shù)據(jù)(結(jié)果)組合成為輸出數(shù)據(jù),并以動態(tài)方式構(gòu)建符合輸出數(shù)據(jù)大小的顯示界面,顯示最終翻譯結(jié)果。使用者輸入文字(源語言單詞或文本)后,所輸入文字經(jīng)過語種識別環(huán)節(jié)、單詞檢索確認(rèn)環(huán)節(jié)、漢語和哈語轉(zhuǎn)譯環(huán)節(jié)、哈語音節(jié)單詞切分環(huán)節(jié)等后,再調(diào)用真人漢語語音庫、真人哈語語音庫和合成哈語語音庫,將所輸入文字生成相應(yīng)的漢語或哈語語音文件,語音識別模塊5 (語音檢測設(shè)備)讀取上述所輸入的文字,并通過其揚(yáng)聲器依次按音節(jié)發(fā)出所輸入文字的語音。
權(quán)利要求
1.一種漢哈電子辭典,其特征是:由語種識別模塊(2)、檢索模塊(3)、檢索組合輸出模塊(4)、顯示模塊(1)、語音識別模塊(5)和語音輸出模塊(6)組成,語種識別模塊(2)通過其相應(yīng)接口連接顯示模塊(1)的接口和檢索模塊(3)的接口,檢索模塊(3)通過其輸出端接口對應(yīng)連接檢索組合輸出模塊(4)的輸入端接口,檢索組合輸出模塊(4)的輸出端接口對應(yīng)連接語音識別模塊(5)的輸入端接口,語音識別模塊(5)通過其輸出端接口連接語音輸出模塊(6)的輸入端接口。
2.一種漢哈電子辭典自動轉(zhuǎn)譯漢哈語的方法,其按序處理的步驟如下: ( )由顯示模塊(I)顯示所輸入的文字,構(gòu)建取詞窗口,語種識別模塊(2)利用取詞窗口通過屏幕取詞的方法,獲取與顯示模塊(I)顯示的所輸入文字相對應(yīng)的輸入字符編碼區(qū)域,將所輸入的文字與被存儲的UNICODE標(biāo)準(zhǔn)編碼字符集中的編碼字符相比對,判斷所輸入文字的語種是漢語或哈語,再把已被識別出語種的所輸入文字傳至檢索模塊(3); (II )檢索模塊(3)獲取檢索方式將被識別出語種的所輸入文字與在寄存于存儲器的基礎(chǔ)語料庫中并列存儲的漢-哈語料庫和哈-漢語料庫中所存儲的字符進(jìn)行比對,以從基礎(chǔ)語料庫中檢索出與被識別出語種的所輸入文字的字符相同或相對應(yīng)的字符組合,確認(rèn)被識別出語種的所輸入文字是已被存儲在基礎(chǔ)語料庫中的已知單字或單詞,或進(jìn)一步主動完整漢語單字組合或單詞字母組合,若不能從漢-哈語料庫和哈-漢語料庫中檢索出與所輸入文字相同或相對應(yīng)的字符組合-漢語單字或哈語單詞,則檢索模塊(3)判斷被識別出語種的所輸入文字是未知的,不能被語種識別模塊(2)確認(rèn)、接收; (III)語種識別模塊(2)接收檢索模塊(3)所檢索出的字符組合,并從基礎(chǔ)語料庫所存儲的漢-哈語料庫和哈-漢語料庫中調(diào)出與由檢索模塊(3)所檢索出的字符組合意思對應(yīng)的且不同于所輸入文字語種的另一語種字符組合-轉(zhuǎn)譯成漢語單字、漢語單詞或哈語單詞,再把所輸入文字和/或由語種識別模塊(2)從基礎(chǔ)語料庫中所調(diào)出的與所輸入文字意思相對應(yīng)的另一語種字符組合通過檢索模塊(3)或直接傳至檢索組合輸出模塊(4); (IV )檢索組合輸出模塊(4)根據(jù)所輸入文字和/或由語種識別模塊(2)從基礎(chǔ)語料庫中所調(diào)出的與所輸入文字意思相對應(yīng)的另一語種字符組合,從基礎(chǔ)語料庫中并列存儲的漢-漢語料庫和哈-哈語料庫中獲取用于解釋被檢索模塊(3)檢索出的字符組合的意思的漢語解釋語句,根據(jù)斯拉夫文哈語文字與阿拉伯文哈語文字映射表,獲取與上述另一語種字符組合意思對應(yīng)的以斯拉夫字母或阿拉伯字母表達(dá)的哈語解釋語句,相應(yīng)對由語種識別模塊(2)從基礎(chǔ)語料庫中所調(diào)出的字符組合的意思進(jìn)行解釋,檢索組合輸出模塊(4)再將其所檢索出的解釋語句輸出至語音識別模塊(5); (V )當(dāng)語音識別模塊(5)判斷其所接收的解釋語句為漢語解釋語句時(shí),語音識別模塊(5)用寄存于存儲器內(nèi)的語音數(shù)據(jù)庫所存儲的真人漢語語音庫,相應(yīng)逐一對其所接收的漢語解釋語句中的每一漢語單字按照漢語發(fā)音語序進(jìn)行語音匹配,再將暫存有與其所接收漢語解釋語句中的漢語單字按序相匹配的漢語發(fā)音信號依次傳至語音輸出模塊¢),對應(yīng)于漢語解釋語句中每一漢語單字的漢語發(fā)音信號被語音輸出模塊(6)逐一按序檢測、讀取后,由語音輸出模塊出)中的揚(yáng)聲器依次發(fā)出與其所接收漢語解釋語句中的每一漢語單字對應(yīng)的漢語語音; 當(dāng)語音識別模塊(5)判斷其所接收的解釋語句為哈語解釋語句且其所接收的哈語解釋語句是以阿拉伯字母或斯拉夫字母表達(dá)的哈語單詞時(shí),語音識別模塊(5)用語音數(shù)據(jù)庫中所存儲的真人哈語語音庫,相應(yīng)逐一對其所接收的哈語解釋語句的每一哈語單詞按照哈語發(fā)音語序進(jìn)行語音匹配,再將暫存有與其所接收哈語解釋語句中的哈語單詞按序相匹配的哈語發(fā)音信號依次傳至語音輸出模塊¢),對應(yīng)于其所接收哈語解釋語句中每一哈語單詞的哈語發(fā)音信號被語音輸出模塊(6)逐一按序檢測、讀取后,由語音輸出模塊(6)中的揚(yáng)聲器依次發(fā)出與哈語解釋語句中每一哈語單詞相匹配的哈語語音;若語音識別模塊(5)判斷其所接收的解釋語句為哈語解釋語句,但不能對該哈語解釋語句進(jìn)行語音匹配時(shí),則推定該哈語解釋語句是以阿拉伯字母或斯拉夫字母表達(dá)的哈語文本,并調(diào)用語音數(shù)據(jù)庫中所存儲的合成哈語語音庫對哈語文本進(jìn)行基于音節(jié)的語音合成,通過哈語語句單詞與音節(jié)切分法相應(yīng)將哈語文本切分成已知存儲于合成語音庫中的哈語單詞,再用真人哈語語音庫和/或合成哈語語音庫,相應(yīng)逐一對該哈語文本的每一哈語單詞按照哈語發(fā)音語序進(jìn)行語音匹配,將暫存有與哈語文本被按序所切分成的哈語單詞相匹配的哈語發(fā)音信號依次傳至語音輸出模塊 (6),哈語發(fā)音信號被語音輸出模塊(6)逐一按序檢測、讀取后,由語音輸出模塊(6)中的揚(yáng)聲器依次發(fā)出與哈語文本中每一哈語單詞相匹配的哈語語音。
3.根據(jù)權(quán)利要求2所述的漢哈電子辭典自動轉(zhuǎn)譯漢哈語的方法,其特征是:所述的檢索方式為首部檢索方式、尾部檢索方式或包含檢索方式; 首部檢索方式為:A、檢索模塊(3)從左向右按序逐一錄入所輸入文字中的每個(gè)字符,B、將基礎(chǔ)語料庫中所存儲的字符組合數(shù)據(jù)與被錄入的所輸入文字字符組合相比對,若能從基礎(chǔ)語料庫中搜索出與被錄入的文字字符組合相同的字符,則停止檢索,即完成精確匹配出所輸入文字的工作;若不能通過首部檢索方式從基礎(chǔ)語料庫中搜索出與所輸入文字相同的字符組合,則采用如下的尾部檢索方式繼續(xù)檢索所輸入的文字; 尾部檢索方式為:①檢索模塊(3)從右向左(按照人面對的左邊、右邊)按序逐一錄入所輸入文字中的每個(gè)字符,②同上述首部檢索方式的步驟B;若不能通過首部檢索方式從基礎(chǔ)語料庫中搜索出與所輸入文字相同的字符,則采用如下的包含檢索方式繼續(xù)檢索所輸入的文字; 包含檢索方式為從任意方向匹配所輸入文字的字符組合的檢索方式,包括上述首部檢索方式與尾部檢索方式。
全文摘要
本發(fā)明公開了一種漢哈電子辭典及其自動轉(zhuǎn)譯漢哈語的方法,具有語種識別模塊、檢索模塊、檢索組合輸出模塊、顯示模塊、語音識別模塊和語音輸出模塊;所輸入的文字被識別出語言種類后,由檢索模塊對所輸入文字與基礎(chǔ)語料庫中的單詞進(jìn)行匹配,然后根據(jù)檢索模塊從基礎(chǔ)語料庫中所檢索出的待翻譯的單詞,語音識別模塊再對由檢索組合輸出模塊獲取的與所述待翻譯的單詞意思相對應(yīng)的漢語解釋語句和哈語解釋語句(經(jīng)音節(jié)切分環(huán)節(jié))進(jìn)行有效識別,再調(diào)用真人語音庫或合成哈語語音庫,語音識別模塊讀取上述所輸入的文字,并通過語音識別模塊的揚(yáng)聲器依次發(fā)出所輸入文字的語音。本發(fā)明的電子詞典結(jié)構(gòu)合理,其方法改變原先漢哈語互譯的辭典技術(shù),提高漢哈語之間的相互轉(zhuǎn)譯效率,改進(jìn)對漢哈語文字進(jìn)行語音放送的性能。
文檔編號G06F17/28GK103164397SQ201110426749
公開日2013年6月19日 申請日期2011年12月19日 優(yōu)先權(quán)日2011年12月19日
發(fā)明者尼加提·納吉米, 買合木提·買買提, 帕肉克·司地克, 馬斌 申請人:新疆信息產(chǎn)業(yè)有限責(zé)任公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1