專利名稱:通用語音控制指令產生器的制作方法
技術領域:
本發(fā)明涉及一種使機器能執(zhí)行人的自然語言指令,實現(xiàn)機器智能化的通用語音控制指令產生器。
目前現(xiàn)有的技術中,利用語音識別技術實現(xiàn)人的自然語言與機器對話,即人機對話,使機器能聽懂人的語音指令并且去正確執(zhí)行人所發(fā)出的指令,近幾年已有相當?shù)倪M展,使機器智能化的程度有相當迅速的提高,在語音識別技術方法方面多種算法正進入實用階段,例如,美國摩托羅拉公司申請的美國專利US08/254,844,US08/413,146,荷蘭菲利浦電子公司申請的歐洲專利EP95021139.3等,都提供了諸如利用神經網絡、隱馬爾可夫等語音識別算法。但上述技術中,沒有實現(xiàn)機器智能化的語音控制指令產生器的硬件設計。
本發(fā)明的目的是提供一種通用性強、結構精小、低成本、可采用不同語音識別算法的語音控制指令產生器。
本發(fā)明由閃速存儲器(I)、閃速存儲器(II)、模數(shù)和數(shù)模轉換器(A/D和D/A)、液晶顯示器(LCD)、受話器、揚聲器(或耳機)、鍵盤和電源等部件組成,其特征是還設置了數(shù)字信號處理器(DSP)和微處理(MPU),數(shù)字信號處理器通過串行口與模數(shù)和數(shù)模轉換器連接,微處理器與數(shù)字信號處理器通過串行接口相連接,鍵盤、液晶顯示器和接口電路直接與微處理器連接,受話器、揚聲器則連接在模數(shù)和數(shù)模轉換器上。
本發(fā)明通用語音控制指令產生器,采用了微處理器(MPU)和數(shù)字信號處理器(DSP)雙CPU協(xié)調工作的方式,解決了MPU和DSP的通訊接口,給出了MPU與DSP通訊專用命令;使MPU同時還完成了鍵盤接口、LCD接口、外界接口、電源管理和看門狗的功能,實現(xiàn)了系統(tǒng)最小化;由閃速存儲器(I)存儲語音識別算法的程序代碼和初始化數(shù)據(jù),可選用不同算法而無需更改硬件結構;除LCD、鍵盤、受話器、揚聲器(或耳機)使用中安裝于機器面板上外,其余硬件可集成于一個4×7cm的印制板上;輸出控制指令最大條數(shù)為28=256條。由于本發(fā)明通用語音控制指令產生器通用性強、結構精小、低成本、高識別率,故可廣泛應用于需要使用人的自然語音控制機器,使機器設備智能化的場合,例如,生產用機器設備、家用電器設備、通訊設備、交通運載工具、儀器設備。
下面結合附圖和具體實施方式
對本發(fā)明做進一步說明。
圖1為通用語音控制指令產生器組成圖;圖2為通用語音控制指令產生器電路圖;圖3為微處理器SMC88308與數(shù)字信號處理芯片ADSP2186之間實現(xiàn)通信的流程圖;圖4為通用語音控制指令產生器的軟件總空流程圖;圖5為識別模塊流程圖;圖6為管理模塊流程圖;圖7為訓練模塊流程圖。
如附圖所示,本發(fā)明的通用語音控制指令產生器由數(shù)字信號處理器(DSP)1、微處理器(MPU)2、閃速存儲器(I)3、閃速存儲器(II)4、A/D和D/A變換器5、液晶顯示器(LCD)6、受話器7、揚聲器8(或耳機)、鍵盤和電源管理裝置等組成。受話器7接受指令發(fā)出者的語音指令,每個指令為一個詞組,多個指令為多個詞組。模擬語音指令通過A/D變換器轉換為數(shù)字信息輸入到DSP1中進行處理,語音回報通過D/A變換器轉換為模擬信息送至揚聲器8(或耳機)報告給指令發(fā)出者,以便給指令發(fā)出者以提示語句或確認發(fā)出的指令。數(shù)字信號處理器(DSP)1為語音識別的核心部件,完成語音識別和語音壓縮等算法,它通過數(shù)據(jù)總線和地址總線與閃速存儲器(I)3和(II)4直接連接,通過數(shù)據(jù)總線和A/D和D/A變換器5連接;閃速存儲器(I)3用于存儲所選用語音識別算法的程序代碼和初始化數(shù)據(jù);閃速存儲器(II)4用于存儲經過訓練的語音控制指令樣本。微處理器(MPU)2與數(shù)字信號處理器(DSP)1實現(xiàn)雙CPU工作,MPU與DSP通過串行接口相連接,按本發(fā)明設計的專門指令通訊和運行;MPU可直接與鍵盤、液晶顯示玻璃片和接口電路直接連接,內部包含看門狗電路功能。液晶顯示器(LCD)6用于顯示提示語句。電源管理裝置用于節(jié)省DSP耗電的管理。4×4的鍵盤用于在訓練與管理過程中的命令輸入??刂浦噶钶敵鲋镣獠渴芸貙ο?,在8比特位的情況下,控制指令最大條數(shù)為28=256條。
圖1清楚地說明了通用語音控制指令產生器的組成和各組成部分之間的連接關系,其中的LCD顯示器6實際為液晶玻璃片,不含驅動芯片。由圖2可見,本發(fā)明通用語音控制指令產生器主要由五個芯片組成,系統(tǒng)非常簡單。這五個芯片是(1)U1,ADSP2186,數(shù)字信號處理(DSP)1芯片,時鐘16.67M,33MIPS,一個指令周期為30n`s,內部含8K字程序存儲器和8K字數(shù)據(jù)存儲器,用于語音識別算法和語音壓縮算法的實現(xiàn);(2)U3,AT29C020,閃速存儲器(I)3,用于存儲程序代碼和初始化數(shù)據(jù);(3)U2,AT29C020,閃速存儲器(II)4,用于存儲語音命令模板;(4)U5,AD73311,A/D和D/A轉換芯片5,16位D/A和A/D,內含增益控制,它把由J052送入的由麥克風獲得的模擬語音信號數(shù)字化,然后通過DR信號線送入ADSP2186的串行口,它還可把從ADSP2186輸出的串行數(shù)據(jù)從DT信號線接收進來,然后進行D/A變換,通過CON2連接到喇叭8還原為聲音;(5)U7,SMC88308,為EPSON公司的8位單片機,其特點是內含8K BYTE的ROM和256K BYTE的RAM,用于固化用戶程序;內含LCD驅動電路,可直接驅動液晶片,省去了外部的液晶驅動電路;內含看門狗定時器,省去了外部的對應電路;輸入輸出口非常豐富,可直接與鍵盤矩陣相連而無需額外的鍵盤編碼電路,還可直接輸出命令對應的編碼,控制外部電路;內含串行接口,通過SIN,SOUT等信號線可與DSP芯片直接通訊;此外它還有電源電壓監(jiān)控電路,便于對電源進行管理等等。因此MPU與DSP配合使用是本發(fā)明的主要特色,它使得整個系統(tǒng)得到最大限度的簡化,不僅最大限度的減少了系統(tǒng)的面積,降低了成本,還提高了系統(tǒng)的可靠性;此外MPU與DSP分工合作,DSP主要實現(xiàn)語音識別功能和語音壓縮回放功能,其他功能則由MPU完成,這樣最大限度的減少DSP的使用時間,從而減少整個系統(tǒng)的功耗,因為DSP的功耗大,而MPU的功耗很小,從而使本發(fā)明還可應用于使用電池的便攜式產品。(6)U6,MC7805,為穩(wěn)壓芯片,為系統(tǒng)提供穩(wěn)定的電源VCC;(7)U8,MAX705,這里用來產生上電復位信號RESET;此外J5為鍵盤與MPU的連接口,J4為系統(tǒng)與液晶玻璃片的連接口,J105為系統(tǒng)與仿真器的接口,J6為指令編碼輸出口。
MPU與DSP之間進行串行通訊,其數(shù)據(jù)傳送過程如圖3所示。MPU通過發(fā)出專門設計的命令控制DSP的操作并返回所需的數(shù)據(jù)。三組主要命令如下1.訓練命令
2.識別命令
3.管理命令
通用語音控制指令產生器的軟件總控流程圖如圖4所示?,F(xiàn)結合該流程圖說明本通用語音控制發(fā)生器的工作過程。系統(tǒng)啟動后,等待鍵盤命令,可分別進入三種模式,即識別模式和訓練模式及管理模式。若進入識別模式,則通過串行口發(fā)出命令,使ADSP2186啟動語音識別程序,進行語音識別的操作,然后把識別的結果,即識別出來的命令的編碼等信息返回SMC88308,并送去顯示,具體過程如圖5所示;若進入訓練模式,則通過串行口發(fā)出命令,使ADSP2186啟動訓練程序,進行語音命令的訓練操作,中間需要輸入命令的編碼,并通過串行口傳遞數(shù)據(jù),具體過程參見圖6;若進入管理模式,則通過串行口發(fā)出命令,使ADSP2186啟動管理程序,進行相應的管理操作,并返回有關數(shù)據(jù),參見圖7。
圖5為語音識別的流程圖。由圖可見,語音識別的過程首先進行語音檢測,判斷是否有語音輸入;若有則對該語音進行特征提取,即提取輸入語音的MFCC參數(shù);參數(shù)提取后進行參數(shù)比較,即把輸入語音的特征參數(shù)與存儲在閃存中的語音命令的特征參數(shù)(即模板)進行比較,確定是否與其中的某個模板匹配,這里有兩種情況,第一中情況是完全匹配,則被匹配的模板即為輸入的語音命令,這時候匹配模板對應的編碼即為輸入語音命令的編碼,通過串行口送回MPU;第二種情況是不完全匹配,這時候找到三個最接近的語音命令模板,并把它們的語音分別回放,讓使用者判斷,若其中有一個是輸入的語音命令,則由用戶確認后,把其語音編碼返回MPU;若三個都不是輸入的語音命令,則提示讓用戶從新輸入一次語音命令,重復上述的語音識別過程,直到識別出結果。
圖6為管理程序的流程圖,它根據(jù)用戶鍵入的鍵盤命令,進行模板查找,模板刪除,回放命令詞,回放系統(tǒng)詞和錄制系統(tǒng)詞的操作。
圖7為語音命令訓練程序流程圖。語音命令訓練的過程首先是語音檢測,即判斷是否有語音輸入;判斷到有語音輸入后,對該語音進行兩方面的處理,一是提取該語音的特征,即計算其MFCC參數(shù),二是對該語音數(shù)據(jù)進行壓縮編碼;然后把已記錄的語音回放讓用戶判斷,若用戶鍵入信息表示不滿意語音命令的質量,則重復以上操作,若用戶鍵入信息表示滿意語音命令的質量,則提示用戶鍵入語音命令的編碼,然后把輸入的語音命令的特征參數(shù)(即模板)和壓縮后的語音命令及其編碼存入閃速存儲器中,這時候完成了一次訓練的操作。
權利要求
1.一種通用語音控制指令產生器,包括有閃速存儲器(I)3、閃速存儲器(II)4、模數(shù)和數(shù)模轉換器(A/D和D/A)5、液晶顯示器(LCD)6、受話器7、揚聲器(或耳機)8、鍵盤和電源等部件,其特征是還設置了數(shù)字信號處理器(DSP)1和微處理器(MPU)2,數(shù)字信號處理器1通過串行口與模數(shù)和數(shù)模轉換器5連接,微處理器2與數(shù)字信號處理器1通過串行接口相連接,鍵盤、液晶顯示器6及接口電路直接與微處理器2連接,受話器7和揚聲器8則連接在模數(shù)和數(shù)模轉換器5上。
全文摘要
本發(fā)明涉及一種使機器能執(zhí)行人的自然語言指令、實現(xiàn)機器智能化的通用語音控制指令產生器,由數(shù)字信號處理器(DSP)、微處理器(MPU)、閃速存儲器(Ⅰ)、閃速存儲器(Ⅱ)、A-D和D-A變換器、液晶顯示器(LCD)、受話器、揚聲器(或耳機)、鍵盤和電源管理裝置等組成,采用雙CPU工作,最大輸出指令條數(shù)為文檔編號G06F3/16GK1241746SQ9911610
公開日2000年1月19日 申請日期1999年3月31日 優(yōu)先權日1999年3月31日
發(fā)明者江太輝, 張歆奕, 宋國棟, 張有為 申請人:五邑大學