專利名稱:文字語音互轉(zhuǎn)裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別和語音合成技術(shù);尤其涉及利用關(guān)鍵字識別與模糊匹配相結(jié)合實現(xiàn)語音識別和語音合成的集成技術(shù)。
背景技術(shù):
語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域的十大重要的科技發(fā)展技術(shù)之一。Intel的摩爾曾指出,語音技術(shù)將是影響未來科技發(fā)展最關(guān)鍵的技術(shù)。在信息技術(shù)時代,信息化社會對信息新技術(shù)的應(yīng)用顯得尤為迫切,許多技術(shù)已經(jīng)走入人們的生活,給人類的生活帶來極大的便利。語音識別作為人與機(jī)器間最自然、最具人性化的交流方式,受到人們極大的期待。在本發(fā)明提出之前,國內(nèi)外有很多公司和學(xué)術(shù)機(jī)構(gòu)都在從事這方面的研究;目前,IBM擁有全球領(lǐng)先的語音識別技術(shù)。許多現(xiàn)今廣泛使用的語音識別技術(shù)是由IBM首先提出的。另外,Intel,Philips等公司也正在相應(yīng)領(lǐng)域內(nèi)進(jìn)行語音技術(shù)研究。國內(nèi)漢王公司、科大迅飛和海爾等公司也在從事語音技術(shù)的研究與開發(fā)。
目前,語音技術(shù)在實際應(yīng)用中面臨三大難題首先是方言或口音會降低語音識別率,而對于擁有八大方言區(qū)的中文來說,應(yīng)用的難度會更大。
其次是背景噪音,人多的公共場所巨大的噪音將破壞原始語音的頻譜,或者把原始語音部分全部掩蓋掉,造成識別率下降;第三是“口語”的問題,用戶以跟人交談的方式來進(jìn)行語音輸入時,口語的語法不規(guī)范和語序不正常的特點(diǎn)會給語義的分析和理解帶來困難。
因此,雖然世界各國都加快了語音技術(shù)應(yīng)用系統(tǒng)的研發(fā),并已有一些使用語音系統(tǒng)投入使用,但大部分產(chǎn)品只能在實驗室環(huán)境中才能表現(xiàn)出較好和較穩(wěn)定的語音識別性能,而真正投入市場作為民用的語音產(chǎn)品數(shù)量很少。目前,嵌入式系統(tǒng)語音技術(shù)處于剛剛起步階段,而且由于語音技術(shù)的復(fù)雜性,目前的語音產(chǎn)品都是單一的語音合成,或者單一的語音識別產(chǎn)品,沒有將兩者結(jié)合在一起的產(chǎn)品問世,同時由于漢語發(fā)聲和結(jié)構(gòu)的制約,目前國內(nèi)外尚沒有成熟的漢語語音產(chǎn)品。
發(fā)明內(nèi)容
本發(fā)明的目的就在于克服現(xiàn)有技術(shù)存在的缺點(diǎn)和不足,而提供一種文字語音互轉(zhuǎn)裝置?!拔淖终Z音互轉(zhuǎn)”就是將語音合成(文字語音轉(zhuǎn)換)功能和語音識別(語音文字轉(zhuǎn)換)功能集成于一個裝置內(nèi),能夠同時實現(xiàn)文字、語音的雙向輸入和雙向輸出。
本發(fā)明的目的是這樣實現(xiàn)的在總結(jié)國內(nèi)外經(jīng)驗的基礎(chǔ)上,擬將漢語語音合成模塊,漢語語音識別模塊,以及語料庫整合在一個系統(tǒng)中,實現(xiàn)語音輸入,語音輸出,文字輸入,文字輸出的交互使用。擬采用將關(guān)鍵詞識別,模糊匹配,并結(jié)合自適應(yīng)語音集訓(xùn)練的方法,增強(qiáng)系統(tǒng)語音識別的魯棒性、抗噪性和可擴(kuò)展性,提高識別速度,達(dá)到理想的語音識別效果。
如圖1,本裝置由手寫屏1、麥克風(fēng)2、前置功率放大器3、模數(shù)轉(zhuǎn)換器4、主控系統(tǒng)5、存儲系統(tǒng)6、數(shù)模轉(zhuǎn)換器7、后置功率放大器8、音頻輸出器9、電子顯示屏10組成;所述的主控系統(tǒng)5包括中央處理器5A、語音合成模塊5B、語音識別模塊5C;所述的存儲系統(tǒng)6包括存儲器6A、語音合成模型庫6B、語音識別模型庫6C;①手寫屏1、前置功率放大器3、模數(shù)轉(zhuǎn)換器4、主控系統(tǒng)5、數(shù)模轉(zhuǎn)換器7、后置功率放大器8、音頻輸出器9依次連通,主控系統(tǒng)5和存儲系統(tǒng)6相互連通,語音合成模塊5B和語音合成模型庫6相互調(diào)用,實現(xiàn)文字語音轉(zhuǎn)換;②麥克風(fēng)2、前置功率放大器3、模數(shù)轉(zhuǎn)換器4、主控系統(tǒng)5、電子顯示屏10連接依次連通,主控系統(tǒng)5和存儲系統(tǒng)6相互連通,語音識別模塊5C和語音識別模型庫6C相互調(diào)用,實現(xiàn)語音文字轉(zhuǎn)換;所述的語音合成模塊5B是將輸入的文字信息轉(zhuǎn)換成對應(yīng)的語音信息輸出;所述的語音識別模塊5C是利用關(guān)鍵字識別與模糊匹配的方法將輸入的語音信息轉(zhuǎn)換成對應(yīng)的文字信息輸出;所述的語音合成模型庫6B是存放用于語音合成的語音音節(jié)波形編碼、音律信息、匹配規(guī)則的庫;所述的語音識別模型庫6C是一種能夠自適應(yīng)生成關(guān)鍵字語音特征的庫,該庫還存放用于語音識別的文本數(shù)據(jù)、關(guān)鍵字匹配規(guī)則、語義模糊匹配規(guī)則。
本裝置的工作原理是1、文字語音轉(zhuǎn)換通過電子手寫屏1捕捉到的漢字,經(jīng)拾文模塊(包括手寫屏1、前置功率放大器3和模數(shù)轉(zhuǎn)換器4)獲得的文字?jǐn)?shù)據(jù),交由主控系統(tǒng)5中的語音合成模塊5B進(jìn)行文字語音轉(zhuǎn)換,根據(jù)語音合成模型庫6B的匹配規(guī)則,轉(zhuǎn)換為相應(yīng)的數(shù)字語音,再通過數(shù)模轉(zhuǎn)換器8,轉(zhuǎn)換為模擬語音信號,又經(jīng)過后置功率放大器8進(jìn)行功率放大后,再送到音頻輸出器9,輸出相應(yīng)的語音信號。
2、語音文字轉(zhuǎn)換通過麥克風(fēng)2輸入的模擬語音信號,經(jīng)拾音模塊(即麥克風(fēng)2、前置功率放大器3和模數(shù)轉(zhuǎn)換器4)獲得的語音數(shù)據(jù),交由主控系統(tǒng)5中的語音識別模塊5C進(jìn)行語音文字轉(zhuǎn)換,根據(jù)語音識別模型庫6C的匹配規(guī)則,轉(zhuǎn)換為與語音信號匹配的文字,再由電子顯示屏10輸出。
本裝置的操作步驟在手寫屏1上輸入文字,輸入完成后,點(diǎn)擊“確定”。該裝置會自動念出輸入的文字串。
對著麥克風(fēng)說話,最后說“完成”。該裝置會將輸入的語音轉(zhuǎn)換為相應(yīng)的文字,在電子顯示屏10上顯示。
本發(fā)明有下列優(yōu)點(diǎn)和積極效果1、語音合成效果好本發(fā)明是在總結(jié)國內(nèi)外本技術(shù)領(lǐng)域的先進(jìn)經(jīng)驗和教訓(xùn)后,在語音合成技術(shù)上,采用了目前被廣泛使用、并被證明是行之有效的方法波形拼接法。在其基礎(chǔ)上,輔以隱馬爾可夫模型進(jìn)行選音工作,從而達(dá)到準(zhǔn)確率高,音質(zhì)好的語音合成效果。
2、語音識別效果好在語音識別的實現(xiàn)上,我們采用識別語句中的關(guān)鍵詞,再使用模糊匹配,多層定位,和回溯篩選的方法,得出整個語句的內(nèi)容,再配合語義分析等輔助手段實現(xiàn)高識別率。由于關(guān)鍵詞識別速度較快,而模糊匹配的方法對噪聲的適應(yīng)性好,且多層定位和回溯篩選可以有效地降低誤識率,因此,將這幾種方法結(jié)合在一起進(jìn)行語音識別,能有效的提高系統(tǒng)的語音識別能力。
3、整體性和實用性好借助先進(jìn)的電子技術(shù),將本發(fā)明集成在微型電路板上,再輔以手寫屏1、麥克風(fēng)2、音頻輸出器9、電子顯示屏10等高級嵌入式電子設(shè)備,實現(xiàn)語音技術(shù)的整體化和實用化,使用和攜帶方便。
4、用途廣泛本發(fā)明主要用于語音短信輸入方式和作為聽障人與健全人交流的輔助設(shè)備等。
圖1—本發(fā)明組成框圖;圖2—語音合成模塊流程圖;圖3—語音識別模塊流程圖;圖4—語音合成模型庫流工作程圖;圖5—語音識別模型庫工作流程圖;圖6—關(guān)鍵字最優(yōu)模型數(shù)據(jù)建庫流程圖。
其中1—手寫屏;2—麥克風(fēng);3—前置功率放大器;4—模數(shù)轉(zhuǎn)換器;5—主控系統(tǒng),5A—中央處理器,5B—語音合成模塊,5C—語音識別模塊;6—存儲系統(tǒng),6A—存儲器,6B—語音合成模型庫,6C—語音識別模型庫;7—數(shù)模轉(zhuǎn)換器;8—后置功率放大器;9—音頻輸出器;10—電子顯示屏。
具體實施例方式
下面結(jié)合附圖進(jìn)一步說明。
一、本裝置的硬件配置所述的手寫屏1其典型產(chǎn)品是Acer(宏基)TravelMate;所述的麥克風(fēng)2其典型產(chǎn)品是索尼ECM-MS908C;所述的前置功率放大器3其典型產(chǎn)品是STA5150;所述的模數(shù)轉(zhuǎn)換器4其典型產(chǎn)品是ADS527X;所述的中央處理器5A其典型產(chǎn)品是ISP1160/01;所述的存儲器6A—其典型產(chǎn)品是Am29SL800D;所述的數(shù)模轉(zhuǎn)換器7其典型產(chǎn)品是CS434X;所述的后置功率放大器8其典型產(chǎn)品是STA5150;所述的音頻輸出器9其典型產(chǎn)品是微型揚(yáng)聲器;所述的電子顯示屏10其典型產(chǎn)品是液晶或LED顯示屏。
二、本裝置的軟件1、語音合成模塊5B的工作流程如圖2,語音合成模塊5B的流程是輸入文字a→語音合成模型庫6B→波形編碼匹配c(匹配成功)→輸出語音c;波形編碼匹配c(匹配失敗)→(重新)輸入文字a。
語音合成模塊5B是采用有調(diào)音節(jié)作為合成單元;在語音合成模型庫6B中存放著所有音節(jié)的波形編碼,然后根據(jù)每個輸入文字a的拼音、聲調(diào)、停頓等音律信息,從語音合成模型庫6B中挑選出合適的波形編碼,然后拼接起來成為輸出語音c。
2、語音識別模塊5C的工作流程如圖3,語音識別模塊5C的工作流程是輸入語音串d→提取特征矢量e→語音識別模型庫6C→關(guān)鍵字匹配f(匹配成功)→語義模糊匹配g(匹配成功)→輸出文字;關(guān)鍵字匹配f(匹配失敗)→(重新)輸入語音串d;語義模糊匹配g(匹配失敗)→(重新)輸入語音串d。
首先需要針對本發(fā)明所涉及的特定領(lǐng)域的關(guān)鍵詞和非關(guān)鍵詞作統(tǒng)計及定義,并建立關(guān)鍵詞與非關(guān)鍵詞模型;然后,針對這一領(lǐng)域的句型進(jìn)行分析,并建立多重關(guān)鍵詞語法規(guī)則,然后利用關(guān)鍵詞語法規(guī)則篩選可能的關(guān)鍵詞,再為每個關(guān)鍵字建立最優(yōu)隱馬爾可夫模型。
然后把輸入語音串d的音節(jié)作為識別單元,利用美爾倒譜公式計算音節(jié)單元的美爾倒譜參數(shù)、一階差分美爾倒譜參數(shù),然后結(jié)合音節(jié)的基音周期,形成3維語音特征矢量。再利用隱馬爾可夫計算公式,得到每個多維特征矢量與每個關(guān)鍵字最優(yōu)隱馬爾可夫模型的吻合概率,選取吻合概率最高的關(guān)鍵字模型作為該特征矢量的語音輸出結(jié)果。再利用模糊匹配技術(shù),通過對語音串中所包含的關(guān)鍵字集,得到該語音串的完整語義,再根據(jù)語義轉(zhuǎn)換為相應(yīng)的文字輸出。
3、語音合成模型庫6B的工作流程如圖4,語音合成模型庫6B的工作流程是(文字輸入端)文字匹配i→文本數(shù)據(jù)j→波形編碼匹配規(guī)則k→波形編碼數(shù)據(jù)1(語音輸出端)。
4、語音識別模型庫6C的工作流程如圖5,語音識別模型庫6C的流程是(語音輸入端)關(guān)鍵子識別規(guī)則m→關(guān)鍵字最優(yōu)模型數(shù)據(jù)n→語義模糊匹配o→文本數(shù)據(jù)p(文字輸出端)。
5、關(guān)鍵字最優(yōu)模型數(shù)據(jù)n建庫的工作流程如圖6,關(guān)鍵字最優(yōu)模型數(shù)據(jù)n建庫的工作流程是初始關(guān)鍵字語料q→庫中是否存在該語料(存在)→系統(tǒng)提示該關(guān)鍵字模型已存;庫中是否存在該語料(不存在)→二元文法語音模型建模s→模型訓(xùn)練u→關(guān)鍵字最優(yōu)模型數(shù)據(jù)v。
首先在語音識別模型庫6C中查詢錄入的初始關(guān)鍵字語料是否已經(jīng)存在其最優(yōu)訓(xùn)練模型,如果已經(jīng)存在,則系統(tǒng)提示“已存在”;若系統(tǒng)未提示“已存在”,則利用二元文法語音模型(bigram)對該關(guān)鍵字語料建模,并要求多次錄入,對該模型進(jìn)行訓(xùn)練,直到得到系統(tǒng)認(rèn)定的該關(guān)鍵字最優(yōu)模型數(shù)據(jù),則把該模型數(shù)據(jù)存入語音識別模型庫6C中。
三、實施要點(diǎn)1、上述的語音合成模型庫6B和語音識別模型庫6C合稱語音庫。
在語音庫的實現(xiàn)中,我們采用bigram數(shù)學(xué)模型對語料轉(zhuǎn)換過程進(jìn)行訓(xùn)練,訓(xùn)練的方法是將實地使用者之間的對話語音數(shù)據(jù)轉(zhuǎn)換成文字之后,進(jìn)行bigram語言模型的建立。其建立的公式如下所示P(W0|Wn)Πi=1nP(Wi|Wi-1)]]>其中,(W0,...,Wn)是組成一個句子的字符串,而P(Wi|Wi-1)是表示W(wǎng)i跟著Wi-1出現(xiàn)的概率。借助這個統(tǒng)計的公式,可以求出字與字之間的相關(guān)的概率,概率越大表示在一個句子當(dāng)中,連續(xù)出現(xiàn)的可能性越大,因此可以用來斷詞、配詞。同時該庫還具有數(shù)據(jù)導(dǎo)入,導(dǎo)出功能,可以實現(xiàn)語料的共享和語音庫的升級功能。
綜上所述,本庫是通過智能識別,動態(tài)配詞技術(shù),幫助用戶自錄語料,從而建立完成的語音庫。
這樣,語音庫本身就具有動態(tài)性,對進(jìn)入語音庫中進(jìn)行匹配的語音樣本,可以智能、動態(tài)地在語音庫中進(jìn)行搜索匹配,從而達(dá)到穩(wěn)定、快速、準(zhǔn)確地匹配輸出工作。
2、在語音合成模塊5B的實現(xiàn)中,本發(fā)明在語音合成模型庫6B中存放著所有音節(jié)的波形編碼。在此,本發(fā)明為這些波形編碼創(chuàng)建了索引文件,記錄每個音節(jié)的起始位置和長度。根據(jù)每個輸入漢字的拼音、聲調(diào)、停頓等音律信息,從語音數(shù)據(jù)庫中挑選出合適的波形編碼,然后拼接起來成為輸出語音。建立索引可以提高模型庫查找數(shù)據(jù)的準(zhǔn)確性,提高查找速度。
3、在語音識別模塊5C的實現(xiàn)中,本發(fā)明采用關(guān)鍵字識別,遞歸篩選,語義模糊匹配的方式進(jìn)行語音識別。通過對語音交流場景的調(diào)查和分析,一般交流的語言中通常包含了兩部分的信息一是所想表達(dá)的目的,例如是要對于地點(diǎn)詢問的回答、問候、對于尋求幫助的回答等等;二是句子中所包含的關(guān)鍵特征,例如航空路、中山公園、星期五、300元等等。而為了獲得整句中的這兩項信息,對每個句子進(jìn)行二重處理。也就是,先找出其目的類別(SORT),再找出其內(nèi)涵的關(guān)鍵特征。
根據(jù)所收集的語庫進(jìn)行分析,交流目的可分成五類(1)問候“您好,很高興見到你?!?
(2)地點(diǎn)詢問回答“中山公園在解放大道101號?!?3)行車路線解釋“從這里到中山公園你可以坐703路公汽。”(4)價格詢問回答“這個手機(jī)1000元?”(5)肯定/否定語氣“不是的?!薄笆堑??!倍鴽Q定整句是屬于哪一個SORT的方法,有以下判斷方法a)若輸入的句型有(1)、(2)、(3)、(4)、(5)的特征,則其SORT就分別是(1)、(2)、(3)、(4)、(5)。
b)若句子中只含關(guān)鍵特征,就內(nèi)定它的SORT為(2)。
c)如果這次輸入與上次含有相同的關(guān)鍵特征,但SORT值不同,是為了訂正,取它的SORT為(3)。
d)其余無法得知的,SORT為(1)。
在收集SORT句型時,盡量保持完整,但仍然有些句型可能只是類似,所以在判斷SORT時,不能只進(jìn)行單純的對比。例如“從這里到中山公園可以坐703路公汽”是SORT的“行車路線解釋句型”,而用戶在實際使用時說的可能是“703路公汽可以到中山公園”并不完全相同。在這里可以用一種模糊匹配的概念來做SORT確認(rèn)。像上面“從這里到XXX可以坐XXX”和“XXX路公汽可以到XXX”相似度很大,所以雖然SORT中沒有“XXX路公汽可以到XXX”,但它的SORT內(nèi)定它為“行車路線解釋句型”。針對輸入句與數(shù)據(jù)庫之間關(guān)鍵特征對比方面,不但采用模糊匹配法,還加入了“相似詞”對比方法。例如在數(shù)據(jù)庫中有“703路公汽”,但是用戶也可能說“703路”,所以“703路公汽”這個關(guān)鍵詞的特征和相似詞“703路”都可以認(rèn)為是成功匹配的關(guān)鍵詞特征。所以在系統(tǒng)中,定制許多同本領(lǐng)域相關(guān)的相似詞,用來加大對配對的適應(yīng)性,最終達(dá)到目的。通過這樣的關(guān)鍵詞識別和模糊匹配,就可以快速而準(zhǔn)確地確定整個語音串的內(nèi)容。
四、用途1、本裝置可作為聽障人出行時,與其他人交流的輔助設(shè)備。由于聽障人與健全人之間的交流方式的不同,他們之間很難溝通,但是使用本裝置后,聽障人在出行時,攜帶本裝置,在需要問路、詢問時間等情況下,可以使用該裝置的語音合成功能,將要問的問題,通過手寫轉(zhuǎn)換成語音輸出,健全人聽到后,對著該裝置說出相應(yīng)的回答,本裝置再將語音回答轉(zhuǎn)換成文字,在液晶屏上顯示,這樣聽障人和健全人就能自如的交流了。
目前聽障殘疾人出行難的問題,一直受到社會各界的關(guān)注,該裝置成功地解決了聽障人與其他人的交流障礙,這樣就使聽障人走向社會、融入社會成為可能。也為構(gòu)建和諧社會作出了積極的貢獻(xiàn)。因此,本發(fā)明具有較大的社會效益。
2、本裝置還可以用于手機(jī)短信的編輯,即使用裝置中的語音識別功能,用戶只需對著手機(jī)說出要發(fā)送的短信內(nèi)容,系統(tǒng)識別語音后,將其轉(zhuǎn)換為文字信息。這樣既縮短了編輯短信的時間,又使那些不會熟練使用手機(jī)輸入法的用戶提供了方便、快捷的短信編輯方式。手機(jī)短信本身就具有極大的經(jīng)濟(jì)效益,本裝置方便了短信的編輯,使那些不熟悉手機(jī)按鍵輸入法的用戶可以輕松自如的編輯短信,勢必大大增加用戶發(fā)送短信的數(shù)量。因此,本發(fā)明具有較大的經(jīng)濟(jì)效益。
權(quán)利要求
1.一種文字語音互轉(zhuǎn)裝置,其特征在于由手寫屏(1)、麥克風(fēng)(2)、前置功率放大器(3)、模數(shù)轉(zhuǎn)換器(4)、主控系統(tǒng)(5)、存儲系統(tǒng)(6)、數(shù)模轉(zhuǎn)換器(7)、后置功率放大器(8)、音頻輸出器(9)、電子顯示屏(10)組成;其中的主控系統(tǒng)(5)包括中央處理器(5A)、語音合成模塊(5B)、語音識別模塊(5C);其中的存儲系統(tǒng)(6)包括存儲器(6A)、語音合成模型庫(6B)、語音識別模型庫(6C);①手寫屏(1)、前置功率放大器(3)、模數(shù)轉(zhuǎn)換器(4)、主控系統(tǒng)(5)、數(shù)模轉(zhuǎn)換器(7)、后置功率放大器(8)、音頻輸出器(9)依次連通,主控系統(tǒng)(5)和存儲系統(tǒng)(6)相互連通,語音合成模塊(5B)和語音合成模型庫(6)相互調(diào)用,實現(xiàn)文字語音轉(zhuǎn)換;②麥克風(fēng)(2)、前置功率放大器(3)、模數(shù)轉(zhuǎn)換器(4)、主控系統(tǒng)(5)、電子顯示屏(10)依次連通,主控系統(tǒng)(5)和存儲系統(tǒng)(6)相互連通,語音識別模塊(5C)和語音識別模型庫(6C)相互調(diào)用,實現(xiàn)語音文字轉(zhuǎn)換;所述的語音合成模塊(5B)是將輸入的文字信息轉(zhuǎn)換成對應(yīng)的語音信息輸出;所述的語音識別模塊(5C)是利用關(guān)鍵字識別與模糊匹配的方法將輸入的語音信息轉(zhuǎn)換成對應(yīng)的文字信息輸出;所述的語音合成模型庫(6B)是存放用于語音合成的語音音節(jié)波形編碼、音律信息、匹配規(guī)則的庫;所述的語音識別模型庫(6C)是一種能夠自適應(yīng)生成關(guān)鍵字語音特征的庫,該庫還存放用于語音識別的文本數(shù)據(jù)、關(guān)鍵字匹配規(guī)則、語義模糊匹配規(guī)則。
2.按權(quán)利要求1所述的一種文字語音互轉(zhuǎn)裝置,其特征在于語音合成模塊(5B)的工作流程依次是輸入文字(a),語音合成模型庫(6B),波形編碼匹配(b),當(dāng)匹配成功時則輸出語音(c);波形編碼匹配(b),當(dāng)匹配失敗時則重新輸入文字(a)。
3.按權(quán)利要求1所述的一種文字語音互轉(zhuǎn)裝置,其特征在于語音識別模塊(5C)的工作流程依次是輸入語音串(d),提取特征矢量(e),語音識別模型庫(6C),關(guān)鍵字匹配(f),當(dāng)匹配成功時則語義模糊匹配(g),當(dāng)匹配成功時則輸出文字(h);關(guān)鍵字匹配(f),當(dāng)匹配失敗時則重新輸入語音串(d);語義模糊匹配(g),當(dāng)匹配失敗時則重新輸入語音串(d)。
4.按權(quán)利要求1所述的一種文字語音互轉(zhuǎn)裝置,其特征在于語音合成模型庫(6B)的工作流程依次是文字匹配(I),文本數(shù)據(jù)(j),波形編碼匹配規(guī)則(k),波形編碼數(shù)據(jù)(l)。
5.按權(quán)利要求1所述的一種文字語音互轉(zhuǎn)裝置,其特征在于語音識別模型庫(6C)的工作流程依次是關(guān)鍵子識別規(guī)則(m),關(guān)鍵字最優(yōu)模型數(shù)據(jù)(n),語義模糊匹配(o),文本數(shù)據(jù)(p)。
6.按權(quán)利要求5所述的語音識別模型庫(6C),其特征在于關(guān)鍵字最優(yōu)模型數(shù)據(jù)(n)建庫的工作流程依次是初始關(guān)鍵字語料(q),當(dāng)庫中存在該語料時系統(tǒng)提示該關(guān)鍵字模型已存(t);當(dāng)庫中不存在該語料時,二元文法語音模型建模(s),模型訓(xùn)練(u),關(guān)鍵字最優(yōu)模型數(shù)據(jù)(v)。
全文摘要
本發(fā)明公開了一種文字語音互轉(zhuǎn)裝置;涉及一種利用關(guān)鍵字識別與模糊匹配相結(jié)合實現(xiàn)語音識別和語音合成的集成技術(shù)。①手寫屏1、前置功率放大器3、模數(shù)轉(zhuǎn)換器4、主控系統(tǒng)5、數(shù)模轉(zhuǎn)換器7、后置功率放大器8、音頻輸出器9依次連通,主控系統(tǒng)5和存儲系統(tǒng)6相互連通,語音合成模塊5B和語音合成模型庫6相互調(diào)用,實現(xiàn)文字語音轉(zhuǎn)換;②麥克風(fēng)2、前置功率放大器3、模數(shù)轉(zhuǎn)換器4、主控系統(tǒng)5、電子顯示屏10依次連通,主控系統(tǒng)5和存儲系統(tǒng)6相互連通,語音識別模塊5C和語音識別模型庫6C相互調(diào)用,實現(xiàn)語音文字轉(zhuǎn)換。本發(fā)明語音合成、語音識別的整體性、實用性好,主要用于語音短信輸入方式和作為聽障人與健全人交流的輔助設(shè)備等。
文檔編號G10L15/00GK1737902SQ20051001942
公開日2006年2月22日 申請日期2005年9月12日 優(yōu)先權(quán)日2005年9月12日
發(fā)明者周運(yùn)南, 羅健, 盧耀素, 謝守芳, 康宏燦, 周新南 申請人:周運(yùn)南