專利名稱:一種嵌入式語音交互裝置及交互方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音處理領(lǐng)域,特別涉及一種具有嵌入式結(jié)構(gòu)的語音交互裝置及交互方法。
背景技術(shù):
目前基于語音處理技術(shù)的消費類電子產(chǎn)品在市場上大為流行,從自身角度大致可以分為以下幾種類型(1)主動型,即用戶利用語音控制被控對象,讓被控對象產(chǎn)生各種響應(yīng),如聲控玩具,語音撥號等;(2)被動型,即將語音事先錄制好存儲在內(nèi)存中,用戶通過一些非語音觸發(fā)讓產(chǎn)品發(fā)出預(yù)期的語音,如電子語音圖書等;(3)交互型,即產(chǎn)品和用戶之間可以進(jìn)行簡單的交流,如互動玩具等。對于前兩種類型,語音的流程都是單向的,已不能滿足人們?nèi)找嬖鲩L的物質(zhì)精神追求。雖然目前語音交互型產(chǎn)品也有在市場上出現(xiàn),但是其交互的方式、場合和可靠性等均受到很大的限制。
目前,大多數(shù)語音交互產(chǎn)品在硬件上都是基于專用的語音識別芯片,其內(nèi)核是MCU(單片機(jī))或DSP(數(shù)字信號中央處理器),其實是將從麥克風(fēng)輸入的聲音信號(模擬信號)經(jīng)過片內(nèi)的ADC模塊采樣編碼,然后通過其內(nèi)部中央處理器處理,(就是指MCU或DSP)與事先錄制好的語音信息(通常是壓縮編碼后的語音信息)匹配,再將壓縮編碼后的語音信息通過片內(nèi)的DAC模塊經(jīng)過外置的揚聲器輸出,其結(jié)構(gòu)如圖1所示。但是由于語音內(nèi)容是事先錄制好的,內(nèi)容有限,用戶更新困難,而且語音識別的字?jǐn)?shù)也因為硬件而受限,一般是6~10字。
發(fā)明內(nèi)容
本發(fā)明的目的在于,克服現(xiàn)有技術(shù)的不足,提出一種通用性較強的基于嵌入式中央處理器的智能語音交互裝置及其交互方法。
為實現(xiàn)上述發(fā)明目的,本發(fā)明提供的嵌入式語音交互裝置,如圖3所示,包括電源、時鐘發(fā)生器,其特征在于,還包括中央處理器、音頻編解碼芯片、FLASH存儲器、靜態(tài)存儲器;所述的FLASH存儲器是一種存儲有固化的語音識別模塊、語音庫模塊和語音合成模塊的只讀存儲器;所述中央處理器分別與所述的音頻編解碼芯片、所述的FLASH存儲器、所述的靜態(tài)存儲器、所述電源和所述時鐘發(fā)生器相連;所述靜態(tài)存儲器與所述的時鐘發(fā)生器相連。
上述技術(shù)方案中,所述的中央處理器采用嵌入式處理器;或者由相互連接的北橋芯片組和通用CPU組成。
上述技術(shù)方案中,所述的語音識別模塊是一種將數(shù)字聲音信號轉(zhuǎn)化為相應(yīng)的自然語言文本的數(shù)據(jù)處理模塊。語音識別模塊的處理過程為語音識別模塊是從數(shù)字聲音信號的語音波形中提取隨時間變化的語音特征序列,然后與聲學(xué)模型進(jìn)行模式匹配,對匹配后的結(jié)果進(jìn)行語法語義分析,轉(zhuǎn)變成相應(yīng)的自然語言文本。
上述技術(shù)方案中,所述的語音庫模塊是一種對輸入的自然語言文本進(jìn)行模糊匹配,從而查找到相應(yīng)的應(yīng)答文本的數(shù)據(jù)處理模塊。語音庫模塊的處理過程為首先根據(jù)關(guān)鍵詞詞典和知識庫詞典進(jìn)行智能分詞,分析出各種分詞情形,然后對查詢文法庫進(jìn)行模糊匹配,找到對應(yīng)文法,然后利用知識庫API函數(shù),從后臺知識庫中得到符合需求的知識文本,并將該知識文本作為應(yīng)答文本。
上述技術(shù)方案中,所述的語音合成模塊是一種將自然語言文本轉(zhuǎn)化為數(shù)字聲音信號的數(shù)據(jù)處理模塊。
上述技術(shù)方案中,還包括與中央處理器相連接的異步串行口。
上述技術(shù)方案中,還包括與中央處理器相連接的USB接口,所述的USB接口同時與時鐘發(fā)生器相連。
上述技術(shù)方案中,還包括與音頻編解碼芯片相連的聲音輸入器和/或聲音輸出器。
上述技術(shù)方案中,還包括與中央處理器相連的JTAG接口。JTAG(Joint Test Action Group,中文譯名為聯(lián)合測試行動小組)是一種國際標(biāo)準(zhǔn)測試協(xié)議(IEEE 1149.1兼容),主要用于芯片內(nèi)部測試?,F(xiàn)在多數(shù)的高級器件都支持JTAG協(xié)議,如DSP、FPGA器件等。標(biāo)準(zhǔn)的JTAG接口是4線TMS、TCK、TDI、TDO,分別為模式選擇、時鐘、數(shù)據(jù)輸入和數(shù)據(jù)輸出線。
為實現(xiàn)上述發(fā)明目的,本發(fā)明提供的嵌入式語音交互方法,其特征在于,包括如下步驟1)系統(tǒng)啟動后,通過中央處理器的控制,把存儲在FLASH存儲器中的語音識別模塊、語音庫模塊和語音合成模塊加載到靜態(tài)存儲器中;2)用戶通過聲音輸入器把模擬聲音信號輸入到音頻編解碼芯片,音頻編解碼芯片通過模數(shù)轉(zhuǎn)換,量化編碼將模擬聲音信號轉(zhuǎn)換成數(shù)字聲音信號;3)通過中央處理器的控制,將數(shù)字聲音信號傳送到中央處理器,同時中央處理器調(diào)用靜態(tài)存儲器中的語音識別模塊;4)語音識別模塊對數(shù)字聲音信號進(jìn)行解析,得出該數(shù)字聲音信號所對應(yīng)的自然語言文本,然后中央處理器釋放語音識別模塊并接著調(diào)用靜態(tài)存儲器中的語音庫模塊;5)自然語言文本通過語音庫模塊的處理,在語音庫中查找到應(yīng)答文本,然后中央處理器釋放語音庫模塊并調(diào)用靜態(tài)存儲器中的語音合成模塊;6)應(yīng)答文本經(jīng)過語音合成模塊的處理,得到具有語音波形的應(yīng)答數(shù)字聲音信號;7)通過中央處理器控制,將應(yīng)答數(shù)字聲音信號輸入到音頻編解碼芯片進(jìn)行數(shù)模轉(zhuǎn)換和混聲音質(zhì)處理,轉(zhuǎn)換成擬人聲音信號;8)擬人聲音信號通過聲音輸出器向外輸出。
上述技術(shù)方案中,所述步驟4)中,語音識別模塊的處理過程為語音識別模塊是從數(shù)字聲音信號的語音波形中提取隨時間變化的語音特征序列,然后與聲學(xué)模型進(jìn)行模式匹配,對匹配后的結(jié)果進(jìn)行語法語義分析,轉(zhuǎn)變成相應(yīng)的自然語言文本。
上述技術(shù)方案中,所述步驟5)中,語音庫模塊的處理過程為首先根據(jù)關(guān)鍵詞詞典和知識庫詞典進(jìn)行智能分詞,分析出各種分詞情形,然后對查詢文法庫進(jìn)行模糊匹配,找到對應(yīng)文法,然后利用知識庫API函數(shù),從后臺知識庫中得到符合需求的知識文本,并將該知識文本作為應(yīng)答文本。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(1)本發(fā)明可以作為一種通用的智能語音交互平臺,可以應(yīng)用到語音交互的不同場合,如語音交互玩具,人機(jī)對話系統(tǒng)等等,通用性更強,實用性更強。
(2)本發(fā)明容易擴(kuò)展其他功能,如藍(lán)牙接口,紅外接口,無線傳輸,遠(yuǎn)程控制等等。
(3)本發(fā)明采用Linux操作系統(tǒng),可移植性強。
(4)本發(fā)明采用軟件語音識別,不同于以往的語音交互系統(tǒng)所采用的硬件語音識別,識別率更高、數(shù)據(jù)處理速度快、識別詞表更大。
圖1是一種現(xiàn)有語音交互系統(tǒng)的示意2是本發(fā)明的信號處理流程3是本發(fā)明的嵌入式語音交互裝置的示意4是本發(fā)明的嵌入式語音交互裝置一個實施例的示意圖
具體實施例方式
本發(fā)明提出了一種基于嵌入式的智能語音交互裝置,該裝置硬件上以嵌入式中央處理器為核心,軟件上采用語音識別、語音合成、語音壓縮編解碼、回聲消除等技術(shù),同時外加強大的語音庫,該語音庫可以實現(xiàn)語音識別錯誤糾正,采用先進(jìn)的搜索算法和模糊匹配技術(shù)。由于采用嵌入式中央處理器,保持其低成本、低功耗、小體積、高可靠性等優(yōu)點,并可以在此基礎(chǔ)上擴(kuò)展其他功能,可擴(kuò)展性強;軟件語音識別將聲音信號轉(zhuǎn)化為文本內(nèi)容,再由軟件語音合成將文本內(nèi)容轉(zhuǎn)化為聲音輸出,由于語音庫僅僅是文本內(nèi)容(包括日常對話,故事,兒歌,自然知識,人文地理知識,社會知識),大大減小內(nèi)存占用,提高語音庫容量,另外軟件語音識別的識別字?jǐn)?shù)也比硬件強,一般在10字以上。而且用戶更新容易,只需按一定格式編寫文本內(nèi)容,通過USB接口就可以下載更新。
下面結(jié)合附圖和優(yōu)選實施例對本發(fā)明作進(jìn)一步地描述。
實施例1本實施例提供的嵌入式語音交互裝置包括龍芯CPU、北橋芯片組、Flash存儲器、靜態(tài)存儲器(SDRAM)、USB、SD(SMART CARD)卡、異步串行口、音頻編解碼芯片、時鐘發(fā)生器、聲音輸入器、聲音輸出器以及電源。
如圖4所示,電源提供各部分正常工作所需的電壓,分別有5V、3.3V、1.8V,與各部分相應(yīng)的電源引腳相連;龍芯CPU與北橋芯片組相連,調(diào)試時通過JTAG與開發(fā)系統(tǒng)相連;Flash存儲器的控制信號連到北橋芯片組,數(shù)據(jù)信號分別連到北橋芯片組和龍芯CPU;靜態(tài)存儲器的控制信號連到北橋芯片組,數(shù)據(jù)信號分別連到北橋芯片組和龍芯CPU;USB的控制信號和數(shù)據(jù)信號連到北橋芯片組;SD(SMART CARD)卡的控制信號連到北橋芯片組,數(shù)據(jù)信號分別連到北橋芯片組和龍芯CPU;異步串行口的接收信號和發(fā)送信號接到北橋芯片組,音頻編解碼芯片與北橋芯片組相連;時鐘發(fā)生器連到龍芯CPU、靜態(tài)存儲器和USB控制器;聲音輸入器和聲音輸出器均連到音頻編解碼芯片。
嵌入式智能語音交互裝置硬件上是以龍芯CPU和北橋芯片組為核心的體系結(jié)構(gòu),外部只需接電源模塊、Flash、SDRAM、音頻編解碼芯片、麥克風(fēng)和揚聲器等即可構(gòu)成完整系統(tǒng)應(yīng)用。另外為了傳輸數(shù)據(jù)方便,還可接USB接口,外接SMART CARD以增大數(shù)據(jù)存儲量。
龍芯CPU是一款基于MIPS(Microprocessor without interlockedpiped stages),其機(jī)制是盡量利用軟件辦法避免流水線中的數(shù)據(jù)相關(guān)問題,采用精簡指令系統(tǒng)計算結(jié)構(gòu)(RISC)來設(shè)計芯片。和英特爾采用的復(fù)雜指令系統(tǒng)計算結(jié)構(gòu)(CISC)相比,RISC具有設(shè)計更簡單、設(shè)計周期更短等優(yōu)點。本實施例所采用的龍芯CPU在同頻率情況下具有低功耗(5~7W)、低成本、高速處理能力(800MHz)等優(yōu)點,而現(xiàn)有的以MCU為核心的語音交互系統(tǒng)處理速度一般在50MHz左右,以DSP為核心的語音交互系統(tǒng)處理速度一般在200MHz左右。
本實施例中的龍芯CPU僅僅是微中央處理器內(nèi)核,其外圍接口控制器集中在北橋芯片組。北橋芯片組集成內(nèi)存控制模塊、音頻控制模塊、GPIO控制模塊、USB控制器、IIS控制模塊、并口控制模塊等,以供嵌入式系統(tǒng)應(yīng)用選配。本實施例用到的北橋芯片組資源有內(nèi)存控制模塊、音頻控制模塊、USB控制器。
電源電路提供各部分正常工作所需的電壓,由于在嵌入式系統(tǒng)中追求低功耗,因此可以選用線性電源,充分利用其電路簡單、外圍器件少,輸出精度高,有很好的負(fù)載曲線的優(yōu)點。
SDRAM具有容量大,存取速度快,成本低的特點,主要用來存放執(zhí)行代碼和變量,是系統(tǒng)啟動之后主要進(jìn)行存取操作的存儲器。由于SDRAM需要定時刷新以保持存儲的數(shù)據(jù),因而要求微中央處理器具有刷新控制邏輯,或在系統(tǒng)中另外加入刷新控制邏輯電路。在北橋芯片組具有獨立的SDRAM刷新控制邏輯,可以方便與SDRAM接口。龍芯一號CPU支持的SDRAM小于256MB。
Flash存儲器是一種在系統(tǒng)上進(jìn)行電擦寫,掉電后信息不丟失的存儲器,具有低功耗、大容量、擦寫速度快、可整片或分扇區(qū)在系統(tǒng)編程(燒寫)、擦除等特點,并且可由內(nèi)部嵌入的算法完成對芯片的操作。Flash是系統(tǒng)工作時必需的芯片,用來存放程序代碼、常量表以及一些在系統(tǒng)掉電后需要保存的用戶數(shù)據(jù)等。本實施例中Flash存儲器用來存放嵌入式操作系統(tǒng)、語音識別模塊、語音庫模塊和語音合成模塊。
USB可以用來傳輸數(shù)據(jù),更新數(shù)據(jù)庫內(nèi)容;音頻編解碼芯片是嵌入式智能語音交互裝置的IO,主要完成語音信號采樣,編碼,濾波等,通過外接麥克風(fēng)和揚聲器可以實現(xiàn)語音輸入和語音輸出。
操作系統(tǒng)的選擇。龍芯CPU支持最新版本的Linux、VxWorks,Windows CE等操作系統(tǒng)。本實施例選用的是Linux操作系統(tǒng),由于Linux的內(nèi)核精簡而高效,針對不同的實際需求,可將內(nèi)核功能進(jìn)行適當(dāng)?shù)丶舨?,Linux內(nèi)核可以減少到100KB以下,減少了對硬件資源的消耗,操作系統(tǒng)內(nèi)核和應(yīng)用程序都是開放源碼的,而且Linux操作系統(tǒng)性能比Windows操作系統(tǒng)性能更優(yōu)越。另外,可以避免支付Windows產(chǎn)品的版稅。
本實施例中,北橋芯片組采用ALTERA公司的Cyclone系列FPGA芯片EP2C20F484C8;音頻編解碼芯片采用REALTEK公司的ALC203;FLASH存儲器采用SST公司的SST39VF04070-4C;靜態(tài)存儲器采用SUMSUNG公司的K4D263238E-6C36;電源使用穩(wěn)壓電源(AMS)LT1117-3.3;時鐘發(fā)生器使用外部12MHz晶振;聲音輸入器使用信噪比-58dB的駐極體麥克風(fēng);聲音輸出器采用8歐0.5瓦揚聲器;FLASH存儲器中的語音識別模塊是一種將數(shù)字聲音信號轉(zhuǎn)化為相應(yīng)的自然語言文本的數(shù)據(jù)處理模塊。本實施例中,語音識別模塊采用科大訊飛2004內(nèi)核,并對之進(jìn)行優(yōu)化,兒童語言實際識別率可達(dá)到80%左右。
語音庫模塊是一種對輸入的自然語言文本進(jìn)行模糊匹配,從而查找到相應(yīng)的應(yīng)答文本的數(shù)據(jù)處理模塊。本實施例中,語音庫模塊采用中國科學(xué)院計算技術(shù)研究所研發(fā)的語音庫,參見2002年7月3日申請的申請?zhí)枮?2140287.6的中國專利申請(公開號為CN1466367)通用的移動人知交互系統(tǒng)及方法。
語音合成模塊是一種將自然語言文本轉(zhuǎn)化為數(shù)字聲音信號的數(shù)據(jù)處理模塊。本實施例中,語音合成模塊采用科大訊飛的開發(fā)包InterSound 3.0。
另外,本實施例中的龍芯CPU和北橋芯片組也可以使用ARM嵌入式處理器代替,由于ARM嵌入式處理器內(nèi)部集成了內(nèi)存控制模塊、IIC控制模塊、GPIO控制模塊、USB控制器、IIS控制模塊,因此不需要再外接北橋芯片組。
工作流程如圖2所示,整個系統(tǒng)工作過程如下1、系統(tǒng)啟動后,通過北橋芯片組控制,把存儲在FLASH的程序加載到SDRAM中,包括將語音識別模塊、語音庫模塊和語音合成模塊加載到SDRAM中。
2、用戶把聲音信號從聲音輸入器輸入到音頻編解碼芯片,音頻編解碼芯片把用戶輸入的聲音信號通過模數(shù)轉(zhuǎn)換,量化編碼轉(zhuǎn)換成數(shù)字聲音信號。
3、經(jīng)過音頻編解碼芯片處理后的數(shù)字聲音信號,通過北橋芯片組控制,使數(shù)字聲音信號傳送到龍芯CPU,同時龍芯CPU調(diào)用SDRAM中語音識別模塊。
4、數(shù)字聲音信號經(jīng)過語音識別模塊處理,語音識別模塊實際上是從語音波形中提取隨時間變化的語音特征序列,與聲學(xué)模型進(jìn)行模式匹配,對匹配后的結(jié)果進(jìn)行語法語義分析,轉(zhuǎn)變成相應(yīng)的文字,于是此時數(shù)字聲音信號轉(zhuǎn)變成自然語言文本,同時龍芯CPU釋放語音識別模塊并接著調(diào)用SDRAM中語音庫模塊。
5、語音識別模塊識別后的自然語言文本通過語音庫模塊處理,其過程是首先根據(jù)關(guān)鍵詞詞典(即事先已錄入的關(guān)鍵詞的集合)和知識庫詞典(即事先已錄入的常用詞語集合)進(jìn)行智能分詞,分析出所有可能的分詞情形,然后對文法庫(即事先已錄入的語法與句型的集合)進(jìn)行模糊匹配,找到對應(yīng)文法,然后利用知識庫API函數(shù),從知識庫辭典中得到符合需求的知識文本。同時龍芯CPU釋放語音庫模塊并調(diào)用SDRAM中語音合成模塊。
6、語音庫模塊處理后的知識文本經(jīng)過語音合成處理,其過程是語音識別的逆過程,通過合成技術(shù)將文本信息轉(zhuǎn)變成具有語音波形的數(shù)字信號。
7、通過北橋芯片組控制,將具有語音波形的數(shù)字信號輸入到音頻編解碼芯片進(jìn)行數(shù)模轉(zhuǎn)換和混聲音質(zhì)處理,轉(zhuǎn)換成擬人聲音信號。
8、擬人聲音信號通過聲音輸出器向外輸出。
權(quán)利要求
1.一種嵌入式語音交互裝置,包括電源、時鐘發(fā)生器,其特征在于,還包括中央處理器、音頻編解碼芯片、FLASH存儲器、靜態(tài)存儲器;所述的FLASH存儲器是一種存儲有固化的語音識別模塊、語音庫模塊和語音合成模塊的只讀存儲器;所述中央處理器分別與所述的音頻編解碼芯片、所述的FLASH存儲器、所述的靜態(tài)存儲器、所述電源和所述時鐘發(fā)生器電連接;所述靜態(tài)存儲器與所述的時鐘發(fā)生器電連接。
2.按權(quán)利要求1所述的嵌入式語音交互裝置,其特征在于,所述的中央處理器采用嵌入式處理器;或者由相互連接的北橋芯片組和通用CPU組成。
3.按權(quán)利要求1所述的嵌入式語音交互裝置,其特征在于,還包括與中央處理器電連接的USB接口,所述的USB接口同時與時鐘發(fā)生器電連接。
4.按權(quán)利要求1所述的嵌入式語音交互裝置,其特征在于,還包括與中央處理器電連接的JTAG接口。
5.按權(quán)利要求1所述的嵌入式語音交互裝置,其特征在于,還包括與音頻編解碼芯片電連接的聲音輸入器和/或聲音輸出器。
6.按權(quán)利要求1所述的嵌入式語音交互裝置,其特征在于,還包括與中央處理器電連接的異步串行口。
7.按權(quán)利要求1、2、3、4、5或6所述的嵌入式語音交互裝置,其特征在于,所述的語音識別模塊是一種將數(shù)字聲音信號轉(zhuǎn)化為相應(yīng)的自然語言文本的數(shù)據(jù)處理模塊。
8.按權(quán)利要求1、2、3、4、5或6所述的嵌入式語音交互裝置,其特征在于,所述的語音庫模塊是一種對輸入的自然語言文本進(jìn)行模糊匹配,從而查找到相應(yīng)的應(yīng)答文本的數(shù)據(jù)處理模塊。
9.按權(quán)利要求1、2、3、4、5或6所述的嵌入式語音交互裝置,其特征在于,所述的語音合成模塊是一種將自然語言文本轉(zhuǎn)化為數(shù)字聲音信號的數(shù)據(jù)處理模塊。
10.一種嵌入式語音交互方法,其特征在于,包括如下步驟1)系統(tǒng)啟動后,通過中央處理器的控制,把存儲在FLASH存儲器中的語音識別模塊、語音庫模塊和語音合成模塊加載到靜態(tài)存儲器中;2)用戶通過聲音輸入器把模擬聲音信號輸入到音頻編解碼芯片,音頻編解碼芯片通過模數(shù)轉(zhuǎn)換,量化編碼將模擬聲音信號轉(zhuǎn)換成數(shù)字聲音信號;3)通過中央處理器的控制,將數(shù)字聲音信號傳送到中央處理器,同時中央處理器調(diào)用靜態(tài)存儲器中的語音識別模塊;4)語音識別模塊對數(shù)字聲音信號進(jìn)行解析,得出該數(shù)字聲音信號所對應(yīng)的自然語言文本,然后中央處理器釋放語音識別模塊并接著調(diào)用靜態(tài)存儲器中的語音庫模塊;5)自然語言文本通過語音庫模塊的處理,在語音庫中查找到應(yīng)答文本,然后中央處理器釋放語音庫模塊并調(diào)用靜態(tài)存儲器中的語音合成模塊;6)應(yīng)答文本經(jīng)過語音合成模塊的處理,得到具有語音波形的應(yīng)答數(shù)字聲音信號;7)通過中央處理器控制,將應(yīng)答數(shù)字聲音信號輸入到音頻編解碼芯片進(jìn)行數(shù)模轉(zhuǎn)換和混聲音質(zhì)處理,轉(zhuǎn)換成擬人聲音信號;8)擬人聲音信號通過聲音輸出器向外輸出。
11.按權(quán)利要求10所述的嵌入式語音交互方法,其特征在于,所述步驟4)中,語音識別模塊的處理過程為語音識別模塊是從數(shù)字聲音信號的語音波形中提取隨時間變化的語音特征序列,然后與聲學(xué)模型進(jìn)行模式匹配,對匹配后的結(jié)果進(jìn)行語法語義分析,轉(zhuǎn)變成相應(yīng)的自然語言文本。
12.按權(quán)利要求10所述的嵌入式語音交互方法,其特征在于,所述步驟5)中,語音庫模塊的處理過程為首先根據(jù)該語音庫模塊中的關(guān)鍵詞詞典和知識庫詞典進(jìn)行智能分詞,分析出各種分詞情形,然后對查詢文法庫進(jìn)行模糊匹配,找到對應(yīng)文法,然后利用知識庫API函數(shù),從知識庫詞典中得到符合需求的知識文本,并將該知識文本作為應(yīng)答文本。
全文摘要
本發(fā)明涉及一種具有嵌入式結(jié)構(gòu)的語音交互裝置及交互方法,該交互裝置包括電源、時鐘發(fā)生器,中央處理器、音頻編解碼芯片、FLASH存儲器、靜態(tài)存儲器;所述的FLASH存儲器是一種存儲有固化的語音識別模塊、語音庫模塊和語音合成模塊的只讀存儲器。本發(fā)明的交互方法包括如下步驟加載語音識別模塊、語音庫模塊和語音合成模塊到靜態(tài)存儲器中;模數(shù)轉(zhuǎn)換,量化編碼;調(diào)用語音識別模塊;調(diào)用語音庫模塊;調(diào)用語音合成模塊;得到具有語音波形的應(yīng)答數(shù)字聲音信號;數(shù)模轉(zhuǎn)換和混聲音質(zhì)處理;擬人聲音信號輸出。與現(xiàn)有技術(shù)相比,本發(fā)明的通用性更強,實用性更強,識別率更高,識別詞表更大;同時具有高速處理能力、低功耗、低成本、易于擴(kuò)展、可移植性強等優(yōu)點。
文檔編號G10L13/00GK101017428SQ20061016954
公開日2007年8月15日 申請日期2006年12月22日 優(yōu)先權(quán)日2006年12月22日
發(fā)明者沈煌輝, 鄭為民 申請人:廣東電子工業(yè)研究院有限公司