文字語音互轉(zhuǎn)裝置的制作方法

文檔序號：2820206閱讀：608來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：文字語音互轉(zhuǎn)裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音識別和語音合成技術(shù)；尤其涉及利用關(guān)鍵字識別與模糊匹配相結(jié)合實現(xiàn)語音識別和語音合成的集成技術(shù)。
背景技術(shù)：
語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域的十大重要的科技發(fā)展技術(shù)之一。Intel的摩爾曾指出，語音技術(shù)將是影響未來科技發(fā)展最關(guān)鍵的技術(shù)。在信息技術(shù)時代，信息化社會對信息新技術(shù)的應(yīng)用顯得尤為迫切，許多技術(shù)已經(jīng)走入人們的生活，給人類的生活帶來極大的便利。語音識別作為人與機(jī)器間最自然、最具人性化的交流方式，受到人們極大的期待。在本發(fā)明提出之前，國內(nèi)外有很多公司和學(xué)術(shù)機(jī)構(gòu)都在從事這方面的研究；目前，IBM擁有全球領(lǐng)先的語音識別技術(shù)。許多現(xiàn)今廣泛使用的語音識別技術(shù)是由IBM首先提出的。另外，Intel，Philips等公司也正在相應(yīng)領(lǐng)域內(nèi)進(jìn)行語音技術(shù)研究。國內(nèi)漢王公司、科大迅飛和海爾等公司也在從事語音技術(shù)的研究與開發(fā)。
目前，語音技術(shù)在實際應(yīng)用中面臨三大難題首先是方言或口音會降低語音識別率，而對于擁有八大方言區(qū)的中文來說，應(yīng)用的難度會更大。
其次是背景噪音，人多的公共場所巨大的噪音將破壞原始語音的頻譜，或者把原始語音部分全部掩蓋掉，造成識別率下降；第三是“口語”的問題，用戶以跟人交談的方式來進(jìn)行語音輸入時，口語的語法不規(guī)范和語序不正常的特點(diǎn)會給語義的分析和理解帶來困難。
因此，雖然世界各國都加快了語音技術(shù)應(yīng)用系統(tǒng)的研發(fā)，并已有一些使用語音系統(tǒng)投入使用，但大部分產(chǎn)品只能在實驗室環(huán)境中才能表現(xiàn)出較好和較穩(wěn)定的語音識別性能，而真正投入市場作為民用的語音產(chǎn)品數(shù)量很少。目前，嵌入式系統(tǒng)語音技術(shù)處于剛剛起步階段，而且由于語音技術(shù)的復(fù)雜性，目前的語音產(chǎn)品都是單一的語音合成，或者單一的語音識別產(chǎn)品，沒有將兩者結(jié)合在一起的產(chǎn)品問世，同時由于漢語發(fā)聲和結(jié)構(gòu)的制約，目前國內(nèi)外尚沒有成熟的漢語語音產(chǎn)品。

發(fā)明內(nèi)容
本發(fā)明的目的就在于克服現(xiàn)有技術(shù)存在的缺點(diǎn)和不足，而提供一種文字語音互轉(zhuǎn)裝置?！拔淖终Z音互轉(zhuǎn)”就是將語音合成(文字語音轉(zhuǎn)換)功能和語音識別(語音文字轉(zhuǎn)換)功能集成于一個裝置內(nèi)，能夠同時實現(xiàn)文字、語音的雙向輸入和雙向輸出。
本發(fā)明的目的是這樣實現(xiàn)的在總結(jié)國內(nèi)外經(jīng)驗的基礎(chǔ)上，擬將漢語語音合成模塊，漢語語音識別模塊，以及語料庫整合在一個系統(tǒng)中，實現(xiàn)語音輸入，語音輸出，文字輸入，文字輸出的交互使用。擬采用將關(guān)鍵詞識別，模糊匹配，并結(jié)合自適應(yīng)語音集訓(xùn)練的方法，增強(qiáng)系統(tǒng)語音識別的魯棒性、抗噪性和可擴(kuò)展性，提高識別速度，達(dá)到理想的語音識別效果。
如圖1，本裝置由手寫屏1、麥克風(fēng)2、前置功率放大器3、模數(shù)轉(zhuǎn)換器4、主控系統(tǒng)5、存儲系統(tǒng)6、數(shù)模轉(zhuǎn)換器7、后置功率放大器8、音頻輸出器9、電子顯示屏10組成；所述的主控系統(tǒng)5包括中央處理器5A、語音合成模塊5B、語音識別模塊5C；所述的存儲系統(tǒng)6包括存儲器6A、語音合成模型庫6B、語音識別模型庫6C；①手寫屏1、前置功率放大器3、模數(shù)轉(zhuǎn)換器4、主控系統(tǒng)5、數(shù)模轉(zhuǎn)換器7、后置功率放大器8、音頻輸出器9依次連通，主控系統(tǒng)5和存儲系統(tǒng)6相互連通，語音合成模塊5B和語音合成模型庫6相互調(diào)用，實現(xiàn)文字語音轉(zhuǎn)換；②麥克風(fēng)2、前置功率放大器3、模數(shù)轉(zhuǎn)換器4、主控系統(tǒng)5、電子顯示屏10連接依次連通，主控系統(tǒng)5和存儲系統(tǒng)6相互連通，語音識別模塊5C和語音識別模型庫6C相互調(diào)用，實現(xiàn)語音文字轉(zhuǎn)換；所述的語音合成模塊5B是將輸入的文字信息轉(zhuǎn)換成對應(yīng)的語音信息輸出；所述的語音識別模塊5C是利用關(guān)鍵字識別與模糊匹配的方法將輸入的語音信息轉(zhuǎn)換成對應(yīng)的文字信息輸出；所述的語音合成模型庫6B是存放用于語音合成的語音音節(jié)波形編碼、音律信息、匹配規(guī)則的庫；所述的語音識別模型庫6C是一種能夠自適應(yīng)生成關(guān)鍵字語音特征的庫，該庫還存放用于語音識別的文本數(shù)據(jù)、關(guān)鍵字匹配規(guī)則、語義模糊匹配規(guī)則。
本裝置的工作原理是1、文字語音轉(zhuǎn)換通過電子手寫屏1捕捉到的漢字，經(jīng)拾文模塊(包括手寫屏1、前置功率放大器3和模數(shù)轉(zhuǎn)換器4)獲得的文字?jǐn)?shù)據(jù)，交由主控系統(tǒng)5中的語音合成模塊5B進(jìn)行文字語音轉(zhuǎn)換，根據(jù)語音合成模型庫6B的匹配規(guī)則，轉(zhuǎn)換為相應(yīng)的數(shù)字語音，再通過數(shù)模轉(zhuǎn)換器8，轉(zhuǎn)換為模擬語音信號，又經(jīng)過后置功率放大器8進(jìn)行功率放大后，再送到音頻輸出器9，輸出相應(yīng)的語音信號。
2、語音文字轉(zhuǎn)換通過麥克風(fēng)2輸入的模擬語音信號，經(jīng)拾音模塊(即麥克風(fēng)2、前置功率放大器3和模數(shù)轉(zhuǎn)換器4)獲得的語音數(shù)據(jù)，交由主控系統(tǒng)5中的語音識別模塊5C進(jìn)行語音文字轉(zhuǎn)換，根據(jù)語音識別模型庫6C的匹配規(guī)則，轉(zhuǎn)換為與語音信號匹配的文字，再由電子顯示屏10輸出。
本裝置的操作步驟在手寫屏1上輸入文字，輸入完成后，點(diǎn)擊“確定”。該裝置會自動念出輸入的文字串。
對著麥克風(fēng)說話，最后說“完成”。該裝置會將輸入的語音轉(zhuǎn)換為相應(yīng)的文字，在電子顯示屏10上顯示。
本發(fā)明有下列優(yōu)點(diǎn)和積極效果1、語音合成效果好本發(fā)明是在總結(jié)國內(nèi)外本技術(shù)領(lǐng)域的先進(jìn)經(jīng)驗和教訓(xùn)后，在語音合成技術(shù)上，采用了目前被廣泛使用、并被證明是行之有效的方法波形拼接法。在其基礎(chǔ)上，輔以隱馬爾可夫模型進(jìn)行選音工作，從而達(dá)到準(zhǔn)確率高，音質(zhì)好的語音合成效果。
2、語音識別效果好在語音識別的實現(xiàn)上，我們采用識別語句中的關(guān)鍵詞，再使用模糊匹配，多層定位，和回溯篩選的方法，得出整個語句的內(nèi)容，再配合語義分析等輔助手段實現(xiàn)高識別率。由于關(guān)鍵詞識別速度較快，而模糊匹配的方法對噪聲的適應(yīng)性好，且多層定位和回溯篩選可以有效地降低誤識率，因此，將這幾種方法結(jié)合在一起進(jìn)行語音識別，能有效的提高系統(tǒng)的語音識別能力。
3、整體性和實用性好借助先進(jìn)的電子技術(shù)，將本發(fā)明集成在微型電路板上，再輔以手寫屏1、麥克風(fēng)2、音頻輸出器9、電子顯示屏10等高級嵌入式電子設(shè)備，實現(xiàn)語音技術(shù)的整體化和實用化，使用和攜帶方便。
4、用途廣泛本發(fā)明主要用于語音短信輸入方式和作為聽障人與健全人交流的輔助設(shè)備等。

圖1—本發(fā)明組成框圖；圖2—語音合成模塊流程圖；圖3—語音識別模塊流程圖；圖4—語音合成模型庫流工作程圖；圖5—語音識別模型庫工作流程圖；圖6—關(guān)鍵字最優(yōu)模型數(shù)據(jù)建庫流程圖。
其中1—手寫屏；2—麥克風(fēng)；3—前置功率放大器；4—模數(shù)轉(zhuǎn)換器；5—主控系統(tǒng)，5A—中央處理器，5B—語音合成模塊，5C—語音識別模塊；6—存儲系統(tǒng)，6A—存儲器，6B—語音合成模型庫，6C—語音識別模型庫；7—數(shù)模轉(zhuǎn)換器；8—后置功率放大器；9—音頻輸出器；10—電子顯示屏。
具體實施例方式
下面結(jié)合附圖進(jìn)一步說明。
一、本裝置的硬件配置所述的手寫屏1其典型產(chǎn)品是Acer(宏基)TravelMate；所述的麥克風(fēng)2其典型產(chǎn)品是索尼ECM-MS908C；所述的前置功率放大器3其典型產(chǎn)品是STA5150；所述的模數(shù)轉(zhuǎn)換器4其典型產(chǎn)品是ADS527X；所述的中央處理器5A其典型產(chǎn)品是ISP1160/01；所述的存儲器6A—其典型產(chǎn)品是Am29SL800D；所述的數(shù)模轉(zhuǎn)換器7其典型產(chǎn)品是CS434X；所述的后置功率放大器8其典型產(chǎn)品是STA5150；所述的音頻輸出器9其典型產(chǎn)品是微型揚(yáng)聲器；所述的電子顯示屏10其典型產(chǎn)品是液晶或LED顯示屏。
二、本裝置的軟件1、語音合成模塊5B的工作流程如圖2，語音合成模塊5B的流程是輸入文字a→語音合成模型庫6B→波形編碼匹配c(匹配成功)→輸出語音c；波形編碼匹配c(匹配失敗)→(重新)輸入文字a。
語音合成模塊5B是采用有調(diào)音節(jié)作為合成單元；在語音合成模型庫6B中存放著所有音節(jié)的波形編碼，然后根據(jù)每個輸入文字a的拼音、聲調(diào)、停頓等音律信息，從語音合成模型庫6B中挑選出合適的波形編碼，然后拼接起來成為輸出語音c。
2、語音識別模塊5C的工作流程如圖3，語音識別模塊5C的工作流程是輸入語音串d→提取特征矢量e→語音識別模型庫6C→關(guān)鍵字匹配f(匹配成功)→語義模糊匹配g(匹配成功)→輸出文字；關(guān)鍵字匹配f(匹配失敗)→(重新)輸入語音串d；語義模糊匹配g(匹配失敗)→(重新)輸入語音串d。
首先需要針對本發(fā)明所涉及的特定領(lǐng)域的關(guān)鍵詞和非關(guān)鍵詞作統(tǒng)計及定義，并建立關(guān)鍵詞與非關(guān)鍵詞模型；然后，針對這一領(lǐng)域的句型進(jìn)行分析，并建立多重關(guān)鍵詞語法規(guī)則，然后利用關(guān)鍵詞語法規(guī)則篩選可能的關(guān)鍵詞，再為每個關(guān)鍵字建立最優(yōu)隱馬爾可夫模型。
然后把輸入語音串d的音節(jié)作為識別單元，利用美爾倒譜公式計算音節(jié)單元的美爾倒譜參數(shù)、一階差分美爾倒譜參數(shù)，然后結(jié)合音節(jié)的基音周期，形成3維語音特征矢量。再利用隱馬爾可夫計算公式，得到每個多維特征矢量與每個關(guān)鍵字最優(yōu)隱馬爾可夫模型的吻合概率，選取吻合概率最高的關(guān)鍵字模型作為該特征矢量的語音輸出結(jié)果。再利用模糊匹配技術(shù)，通過對語音串中所包含的關(guān)鍵字集，得到該語音串的完整語義，再根據(jù)語義轉(zhuǎn)換為相應(yīng)的文字輸出。
3、語音合成模型庫6B的工作流程如圖4，語音合成模型庫6B的工作流程是(文字輸入端)文字匹配i→文本數(shù)據(jù)j→波形編碼匹配規(guī)則k→波形編碼數(shù)據(jù)1(語音輸出端)。
4、語音識別模型庫6C的工作流程如圖5，語音識別模型庫6C的流程是(語音輸入端)關(guān)鍵子識別規(guī)則m→關(guān)鍵字最優(yōu)模型數(shù)據(jù)n→語義模糊匹配o→文本數(shù)據(jù)p(文字輸出端)。
5、關(guān)鍵字最優(yōu)模型數(shù)據(jù)n建庫的工作流程如圖6，關(guān)鍵字最優(yōu)模型數(shù)據(jù)n建庫的工作流程是初始關(guān)鍵字語料q→庫中是否存在該語料(存在)→系統(tǒng)提示該關(guān)鍵字模型已存；庫中是否存在該語料(不存在)→二元文法語音模型建模s→模型訓(xùn)練u→關(guān)鍵字最優(yōu)模型數(shù)據(jù)v。
首先在語音識別模型庫6C中查詢錄入的初始關(guān)鍵字語料是否已經(jīng)存在其最優(yōu)訓(xùn)練模型，如果已經(jīng)存在，則系統(tǒng)提示“已存在”；若系統(tǒng)未提示“已存在”，則利用二元文法語音模型(bigram)對該關(guān)鍵字語料建模，并要求多次錄入，對該模型進(jìn)行訓(xùn)練，直到得到系統(tǒng)認(rèn)定的該關(guān)鍵字最優(yōu)模型數(shù)據(jù)，則把該模型數(shù)據(jù)存入語音識別模型庫6C中。
三、實施要點(diǎn)1、上述的語音合成模型庫6B和語音識別模型庫6C合稱語音庫。
在語音庫的實現(xiàn)中，我們采用bigram數(shù)學(xué)模型對語料轉(zhuǎn)換過程進(jìn)行訓(xùn)練，訓(xùn)練的方法是將實地使用者之間的對話語音數(shù)據(jù)轉(zhuǎn)換成文字之后，進(jìn)行bigram語言模型的建立。其建立的公式如下所示P(W0|Wn)Πi=1nP(Wi|Wi-1)]]>其中，(W0，...，Wn)是組成一個句子的字符串，而P(Wi|Wi-1)是表示W(wǎng)i跟著Wi-1出現(xiàn)的概率。借助這個統(tǒng)計的公式，可以求出字與字之間的相關(guān)的概率，概率越大表示在一個句子當(dāng)中，連續(xù)出現(xiàn)的可能性越大，因此可以用來斷詞、配詞。同時該庫還具有數(shù)據(jù)導(dǎo)入，導(dǎo)出功能，可以實現(xiàn)語料的共享和語音庫的升級功能。
綜上所述，本庫是通過智能識別，動態(tài)配詞技術(shù)，幫助用戶自錄語料，從而建立完成的語音庫。
這樣，語音庫本身就具有動態(tài)性，對進(jìn)入語音庫中進(jìn)行匹配的語音樣本，可以智能、動態(tài)地在語音庫中進(jìn)行搜索匹配，從而達(dá)到穩(wěn)定、快速、準(zhǔn)確地匹配輸出工作。
2、在語音合成模塊5B的實現(xiàn)中，本發(fā)明在語音合成模型庫6B中存放著所有音節(jié)的波形編碼。在此，本發(fā)明為這些波形編碼創(chuàng)建了索引文件，記錄每個音節(jié)的起始位置和長度。根據(jù)每個輸入漢字的拼音、聲調(diào)、停頓等音律信息，從語音數(shù)據(jù)庫中挑選出合適的波形編碼，然后拼接起來成為輸出語音。建立索引可以提高模型庫查找數(shù)據(jù)的準(zhǔn)確性，提高查找速度。
3、在語音識別模塊5C的實現(xiàn)中，本發(fā)明采用關(guān)鍵字識別，遞歸篩選，語義模糊匹配的方式進(jìn)行語音識別。通過對語音交流場景的調(diào)查和分析，一般交流的語言中通常包含了兩部分的信息一是所想表達(dá)的目的，例如是要對于地點(diǎn)詢問的回答、問候、對于尋求幫助的回答等等；二是句子中所包含的關(guān)鍵特征，例如航空路、中山公園、星期五、300元等等。而為了獲得整句中的這兩項信息，對每個句子進(jìn)行二重處理。也就是，先找出其目的類別(SORT)，再找出其內(nèi)涵的關(guān)鍵特征。
根據(jù)所收集的語庫進(jìn)行分析，交流目的可分成五類(1)問候“您好，很高興見到你?！?
(2)地點(diǎn)詢問回答“中山公園在解放大道101號?！?3)行車路線解釋“從這里到中山公園你可以坐703路公汽。”(4)價格詢問回答“這個手機(jī)1000元？”(5)肯定/否定語氣“不是的?！薄笆堑??！倍鴽Q定整句是屬于哪一個SORT的方法，有以下判斷方法a)若輸入的句型有(1)、(2)、(3)、(4)、(5)的特征，則其SORT就分別是(1)、(2)、(3)、(4)、(5)。
b)若句子中只含關(guān)鍵特征，就內(nèi)定它的SORT為(2)。
c)如果這次輸入與上次含有相同的關(guān)鍵特征，但SORT值不同，是為了訂正，取它的SORT為(3)。
d)其余無法得知的，SORT為(1)。
在收集SORT句型時，盡量保持完整，但仍然有些句型可能只是類似，所以在判斷SORT時，不能只進(jìn)行單純的對比。例如“從這里到中山公園可以坐703路公汽”是SORT的“行車路線解釋句型”，而用戶在實際使用時說的可能是“703路公汽可以到中山公園”并不完全相同。在這里可以用一種模糊匹配的概念來做SORT確認(rèn)。像上面“從這里到XXX可以坐XXX”和“XXX路公汽可以到XXX”相似度很大，所以雖然SORT中沒有“XXX路公汽可以到XXX”，但它的SORT內(nèi)定它為“行車路線解釋句型”。針對輸入句與數(shù)據(jù)庫之間關(guān)鍵特征對比方面，不但采用模糊匹配法，還加入了“相似詞”對比方法。例如在數(shù)據(jù)庫中有“703路公汽”，但是用戶也可能說“703路”，所以“703路公汽”這個關(guān)鍵詞的特征和相似詞“703路”都可以認(rèn)為是成功匹配的關(guān)鍵詞特征。所以在系統(tǒng)中，定制許多同本領(lǐng)域相關(guān)的相似詞，用來加大對配對的適應(yīng)性，最終達(dá)到目的。通過這樣的關(guān)鍵詞識別和模糊匹配，就可以快速而準(zhǔn)確地確定整個語音串的內(nèi)容。
四、用途1、本裝置可作為聽障人出行時，與其他人交流的輔助設(shè)備。由于聽障人與健全人之間的交流方式的不同，他們之間很難溝通，但是使用本裝置后，聽障人在出行時，攜帶本裝置，在需要問路、詢問時間等情況下，可以使用該裝置的語音合成功能，將要問的問題，通過手寫轉(zhuǎn)換成語音輸出，健全人聽到后，對著該裝置說出相應(yīng)的回答，本裝置再將語音回答轉(zhuǎn)換成文字，在液晶屏上顯示，這樣聽障人和健全人就能自如的交流了。
目前聽障殘疾人出行難的問題，一直受到社會各界的關(guān)注，該裝置成功地解決了聽障人與其他人的交流障礙，這樣就使聽障人走向社會、融入社會成為可能。也為構(gòu)建和諧社會作出了積極的貢獻(xiàn)。因此，本發(fā)明具有較大的社會效益。
2、本裝置還可以用于手機(jī)短信的編輯，即使用裝置中的語音識別功能，用戶只需對著手機(jī)說出要發(fā)送的短信內(nèi)容，系統(tǒng)識別語音后，將其轉(zhuǎn)換為文字信息。這樣既縮短了編輯短信的時間，又使那些不會熟練使用手機(jī)輸入法的用戶提供了方便、快捷的短信編輯方式。手機(jī)短信本身就具有極大的經(jīng)濟(jì)效益，本裝置方便了短信的編輯，使那些不熟悉手機(jī)按鍵輸入法的用戶可以輕松自如的編輯短信，勢必大大增加用戶發(fā)送短信的數(shù)量。因此，本發(fā)明具有較大的經(jīng)濟(jì)效益。
權(quán)利要求
1.一種文字語音互轉(zhuǎn)裝置，其特征在于由手寫屏(1)、麥克風(fēng)(2)、前置功率放大器(3)、模數(shù)轉(zhuǎn)換器(4)、主控系統(tǒng)(5)、存儲系統(tǒng)(6)、數(shù)模轉(zhuǎn)換器(7)、后置功率放大器(8)、音頻輸出器(9)、電子顯示屏(10)組成；其中的主控系統(tǒng)(5)包括中央處理器(5A)、語音合成模塊(5B)、語音識別模塊(5C)；其中的存儲系統(tǒng)(6)包括存儲器(6A)、語音合成模型庫(6B)、語音識別模型庫(6C)；①手寫屏(1)、前置功率放大器(3)、模數(shù)轉(zhuǎn)換器(4)、主控系統(tǒng)(5)、數(shù)模轉(zhuǎn)換器(7)、后置功率放大器(8)、音頻輸出器(9)依次連通，主控系統(tǒng)(5)和存儲系統(tǒng)(6)相互連通，語音合成模塊(5B)和語音合成模型庫(6)相互調(diào)用，實現(xiàn)文字語音轉(zhuǎn)換；②麥克風(fēng)(2)、前置功率放大器(3)、模數(shù)轉(zhuǎn)換器(4)、主控系統(tǒng)(5)、電子顯示屏(10)依次連通，主控系統(tǒng)(5)和存儲系統(tǒng)(6)相互連通，語音識別模塊(5C)和語音識別模型庫(6C)相互調(diào)用，實現(xiàn)語音文字轉(zhuǎn)換；所述的語音合成模塊(5B)是將輸入的文字信息轉(zhuǎn)換成對應(yīng)的語音信息輸出；所述的語音識別模塊(5C)是利用關(guān)鍵字識別與模糊匹配的方法將輸入的語音信息轉(zhuǎn)換成對應(yīng)的文字信息輸出；所述的語音合成模型庫(6B)是存放用于語音合成的語音音節(jié)波形編碼、音律信息、匹配規(guī)則的庫；所述的語音識別模型庫(6C)是一種能夠自適應(yīng)生成關(guān)鍵字語音特征的庫，該庫還存放用于語音識別的文本數(shù)據(jù)、關(guān)鍵字匹配規(guī)則、語義模糊匹配規(guī)則。
2.按權(quán)利要求1所述的一種文字語音互轉(zhuǎn)裝置，其特征在于語音合成模塊(5B)的工作流程依次是輸入文字(a)，語音合成模型庫(6B)，波形編碼匹配(b)，當(dāng)匹配成功時則輸出語音(c)；波形編碼匹配(b)，當(dāng)匹配失敗時則重新輸入文字(a)。
3.按權(quán)利要求1所述的一種文字語音互轉(zhuǎn)裝置，其特征在于語音識別模塊(5C)的工作流程依次是輸入語音串(d)，提取特征矢量(e)，語音識別模型庫(6C)，關(guān)鍵字匹配(f)，當(dāng)匹配成功時則語義模糊匹配(g)，當(dāng)匹配成功時則輸出文字(h)；關(guān)鍵字匹配(f)，當(dāng)匹配失敗時則重新輸入語音串(d)；語義模糊匹配(g)，當(dāng)匹配失敗時則重新輸入語音串(d)。
4.按權(quán)利要求1所述的一種文字語音互轉(zhuǎn)裝置，其特征在于語音合成模型庫(6B)的工作流程依次是文字匹配(I)，文本數(shù)據(jù)(j)，波形編碼匹配規(guī)則(k)，波形編碼數(shù)據(jù)(l)。
5.按權(quán)利要求1所述的一種文字語音互轉(zhuǎn)裝置，其特征在于語音識別模型庫(6C)的工作流程依次是關(guān)鍵子識別規(guī)則(m)，關(guān)鍵字最優(yōu)模型數(shù)據(jù)(n)，語義模糊匹配(o)，文本數(shù)據(jù)(p)。
6.按權(quán)利要求5所述的語音識別模型庫(6C)，其特征在于關(guān)鍵字最優(yōu)模型數(shù)據(jù)(n)建庫的工作流程依次是初始關(guān)鍵字語料(q)，當(dāng)庫中存在該語料時系統(tǒng)提示該關(guān)鍵字模型已存(t)；當(dāng)庫中不存在該語料時，二元文法語音模型建模(s)，模型訓(xùn)練(u)，關(guān)鍵字最優(yōu)模型數(shù)據(jù)(v)。
全文摘要
本發(fā)明公開了一種文字語音互轉(zhuǎn)裝置；涉及一種利用關(guān)鍵字識別與模糊匹配相結(jié)合實現(xiàn)語音識別和語音合成的集成技術(shù)。①手寫屏1、前置功率放大器3、模數(shù)轉(zhuǎn)換器4、主控系統(tǒng)5、數(shù)模轉(zhuǎn)換器7、后置功率放大器8、音頻輸出器9依次連通，主控系統(tǒng)5和存儲系統(tǒng)6相互連通，語音合成模塊5B和語音合成模型庫6相互調(diào)用，實現(xiàn)文字語音轉(zhuǎn)換；②麥克風(fēng)2、前置功率放大器3、模數(shù)轉(zhuǎn)換器4、主控系統(tǒng)5、電子顯示屏10依次連通，主控系統(tǒng)5和存儲系統(tǒng)6相互連通，語音識別模塊5C和語音識別模型庫6C相互調(diào)用，實現(xiàn)語音文字轉(zhuǎn)換。本發(fā)明語音合成、語音識別的整體性、實用性好，主要用于語音短信輸入方式和作為聽障人與健全人交流的輔助設(shè)備等。
文檔編號G10L15/00GK1737902SQ20051001942
公開日2006年2月22日申請日期2005年9月12日優(yōu)先權(quán)日2005年9月12日
發(fā)明者周運(yùn)南, 羅健, 盧耀素, 謝守芳, 康宏燦, 周新南申請人:周運(yùn)南

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周運(yùn)南;羅健;盧耀素;謝守芳;康宏燦;周新南
技術(shù)所有人：周運(yùn)南
我是此專利的發(fā)明人

上一篇：客觀音質(zhì)評價中基于噪聲掩蔽門限算法的巴克譜失真測度方法
上一篇：樂器光引導(dǎo)演奏裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文字語音互轉(zhuǎn)裝置的制作方法