專利名稱:移動通信終端上用于語音識別的基帶調制解調器及其方法
技術領域:
本發(fā)明涉及一種用于語音識別的基帶調制解調器和方法,特別是涉及一種用于語音識別的基帶調制解調器和方法以及使用該基帶調制解調器和方法的移動通信終端。雖然本發(fā)明適用于廣泛的應用范圍,但是它特別用于保護高速的語音識別。
有關技術的描述通常,傳統(tǒng)的基帶調制解調器包括一個音頻編解碼器。當傳統(tǒng)的語音識別技術應用到移動通信終端上時,通常對話音通信的話音編碼和話音識別使用相同的采樣率。使用相同的采樣率是因為很少有能夠支持16kHz輸入的麥克風的基帶調制解調器,大多數(shù)基帶調制解調器在取得PCM(脈沖編碼調制)數(shù)據(jù)方面都有困難。
圖1是一個舉例說明傳統(tǒng)基帶調制解調器的方框圖。圖2是一個舉例說明使用圖1中示范的基帶調制解調器的傳統(tǒng)語音識別方法的流程圖。
參考圖1,一個傳統(tǒng)的基帶調制解調器包括音頻編解碼器13、語音編碼器15和處理器17。一旦從麥克風收到一個話音信號,音頻編解碼器13就以規(guī)定的采樣率對話音信號執(zhí)行調制。例如,以8kHz的采樣率對話音信號執(zhí)行PCM(脈沖編碼調制)。
語音編碼器15對音頻編解碼器13的輸出執(zhí)行話音編碼。例如,執(zhí)行QCELP(Qualcomm碼激勵線性預測)或EVRC(增強型可變速率編碼)。
處理器17對語音編碼器15的輸出執(zhí)行語音識別。特別地,處理器17解碼話音編碼后的數(shù)據(jù),然后從解碼的數(shù)據(jù)中提取特征向量。處理器17通過將提取的特征向量應用到先前準備的語音識別算法中來執(zhí)行語音識別。優(yōu)選地,處理器17包括一個MPU(微處理器)或DSP(數(shù)字信號處理器)。另一方面,如果該話音信號是用于話音通信的,處理器17使用卷積碼或者turbo碼對語音編碼器15的輸出執(zhí)行信道編碼。
參考圖2解釋按照以上說明的結構的傳統(tǒng)語音識別方法。
一旦從麥克風收到一個話音信號,傳統(tǒng)的基帶調制解調器就以規(guī)定的采樣率對話音信號執(zhí)行調制(S12)。例如,以8kHz的采樣率對輸入的話音信號執(zhí)行PCM(脈沖編碼調制)。
然后對調制的話音信號執(zhí)行話音編碼(S14)。例如使用QCELP(Qualcomm碼激勵線性預測)或EVRC(增強的速率可變編碼)用于話音編碼。
在MPU(微處理器)或者DSP(數(shù)字信號處理器)中對話音編碼后的信號執(zhí)行語音識別。對于語音識別,解碼話音編碼的數(shù)據(jù)(S16),并且從解碼的數(shù)據(jù)中提取特征向量(s18)。然后將提取的特征向量應用到語音識別算法中(S20)。
在傳統(tǒng)方法中,用于調制的采樣率被設置為8kHz。這是因為通過使用低于4kHz的話音元件便可以提供可識別質量的語音音級。
然而,當在移動通信終端中依照傳統(tǒng)方法執(zhí)行語音識別時,使用依照話音通信采樣的數(shù)據(jù)處理。因此,傳統(tǒng)方法不能保證產(chǎn)生令人滿意的語音識別率。此外,在傳統(tǒng)方法中,如在圖2舉例說明的那樣執(zhí)行不必要的話音編碼和解碼。
選擇性地,在移動通信終端中可以包括一個用于語音識別的數(shù)字信號處理芯片或語音識別芯片。但是,這增加了終端的成本。
在一些傳統(tǒng)的基帶調制解調器中,已經(jīng)使用例如DTW(動態(tài)時間偏差)這樣的方法用于語音識別。因為依照話音通信采樣處理數(shù)據(jù),這種方法不能保證令人滿意的語音識別率。在傳統(tǒng)的語音識別方法中,或者會增加基帶調制解調器中提供的音頻編解碼器的采樣率,或者通過硬件無法實現(xiàn)特征向量的提取。
還存在另一種傳統(tǒng)的語音識別方法。在這種方法中,在基帶調制解調器的外部安裝一個具有用于語音識別的采樣率的分離的音頻編解碼器??墒?,對應的硬件實現(xiàn)非常復雜。
執(zhí)行語音識別的傳統(tǒng)移動通信終端不能通過從語音識別中分離話音通信來調節(jié)基帶調制解調器的采樣率。此外,傳統(tǒng)的基帶調制解調器取得PCM(脈沖編碼調制)數(shù)據(jù)具有困難。
因此,需要一種可以執(zhí)行語音識別和話音通信的設備和方法,這樣對語音識別使用一種優(yōu)化的采樣率來保證令人滿意的語音識別率,而不必執(zhí)行不必要的話音編碼和解碼。本發(fā)明解決了這些和其他的需要。
發(fā)明概述在接下來的描述中將闡述本發(fā)明的特征和優(yōu)點,其中部分地將從描述中顯而易見,或者可以通過實踐本發(fā)明來獲悉。通過在撰寫的說明書和權利要求以及附圖中特別指出的結構將獲得和實現(xiàn)本發(fā)明的目的和其他優(yōu)點。
本發(fā)明針對一種用于語音識別的基帶調制解調器與方法和一種使用該基帶調制解調器和方法的移動通信終端。通過使用可變采樣率,使用一種優(yōu)化的用于語音識別的速率以便保護高速率的語音識別。
在本發(fā)明的一方面,提供一個基帶調制解調器。基帶調制解調器包括一個使用第一群率和第二采樣率的其中一個用于調制話音信號的音頻編解碼器、用于語音識別的裝置和用于語音編碼的裝置。音頻編解碼器使用第一采樣率編碼話音信號,如果話音信號是一個話音命令,語音識別裝置則對編碼的話音信號執(zhí)行語音識別,音頻編解碼器使用第二采樣率編碼話音信號,如果該話音信號是話音通信,語音編碼裝置則對編碼的話音信號執(zhí)行話音編碼。
優(yōu)選地,語音識別裝置包括一個用于從編碼的話音信號中提取一個或者多個特征向量的特征向量提取塊和一個用于使用提取的特征向量執(zhí)行語音識別的語音識別塊。設想在語音識別塊中包括一個用于存儲從編碼的話音信號中提取的特征向量的緩存器。
設想提供緩存器以用于存儲編碼的話音信號,例如往復式的緩存器。優(yōu)選地,特征向量提取塊從存儲在緩存器的數(shù)據(jù)中提取特征向量。
優(yōu)選地,用硬件實現(xiàn)特征向量提取塊。替換地,可以用軟件實現(xiàn)特征向量提取塊。
優(yōu)選地,基帶調制解調器包括一個確定話音信號是話音命令還是話音通信的控制器。如果話音信號是話音命令,控制器接通特征向量提取塊和語音識別塊的寄存器的電源,如果話音信號是話音通信,控制器斷開特征向量提取塊和語音識別塊的寄存器的電源??刂破鞔_定音頻編解碼器使用的采樣率。
優(yōu)選地,語音編碼裝置包括一個用于話音編碼已編碼話音信號的語音編碼器。設想優(yōu)化用于話音通信的第二采樣率,例如8kHz。
優(yōu)選地,優(yōu)化用于語音識別的第一采樣率。設想第一采樣率在大約12kHz到大約32kHz的范圍內,例如16kHz。
優(yōu)選地,音頻編解碼器對話音信號執(zhí)行脈沖編碼調制。優(yōu)選地,在移動通信終端中實現(xiàn)基帶調制解調器。
在本發(fā)明的另一個方面中,提供一個移動通信終端。移動通信終端包括一個用于使用第一采樣率和第二采樣率其中一個調制話音信號的音頻編解碼器、一個用于從調制的話音信號中提取一個或者多個特征向量的特征向量提取塊、一個用于使用提取的特征向量執(zhí)行語音識別的語音識別塊和一個用于話音編碼已調制的話音信號的語音編碼器。如果話音信號是話音命令,音頻編解碼器使用第一采樣率編碼話音信號,如果話音信號是話音通信,音頻編解碼器使用第二采樣率編碼話音信號。
設想提供一種例如往復式緩存器這樣的緩存器用于存儲編碼的話音信號。進一步設想移動終端包括一個用于存儲從調制的話音信號中提取的特征向量的緩存器。
優(yōu)選地,用硬件實現(xiàn)特征向量提取塊。替換地,可以用軟件實現(xiàn)特征向量提取塊。
優(yōu)選地,移動通信終端包括一個例如依照用戶選擇確定話音信號是話音命令還是話音通信的控制器。如果話音信號是話音命令,控制器接通特征向量提取塊和語音識別塊的寄存器的電源,如果話音信號是話音通信,控制器斷開特征向量提取塊和語音識別塊的寄存器的電源。控制器確定音頻編解碼器使用的采樣率。
優(yōu)選地,優(yōu)化用于話音通信的第二采樣率。設想第二采樣率為8kHz。
優(yōu)選地,優(yōu)化用于語音識別的第一采樣率。設想第一采樣率在大約12kHz到大約32kHz的范圍內,例如16kHz。
在本發(fā)明的另一個方面,提供一種在基帶調制解調器執(zhí)行語音識別和話音通信的方法。該方法包括確定話音信號是話音命令還是話音通信,如果話音信號被確定是語音命令,則使用第一采樣率調制話音信號并對調制的話音信號執(zhí)行語音識別,如果話音信號被確定是話音通信,則使用第二采樣率調制話音信號并對調制的話音信號執(zhí)行語音編碼。
優(yōu)選地,通過從調制的話音信號中提取一個或者多個特征向量和使用提取的特征向量執(zhí)行語音識別來執(zhí)行語音識別。設想提取的特征向量存儲在緩存器中。
設想調制的話音信號可以存儲在緩存器中。優(yōu)選地,從存儲在緩存器的數(shù)據(jù)中提取特征向量。
優(yōu)選地,用硬件實現(xiàn)特征向量提取塊。替換地,可以用軟件實現(xiàn)特征向量提取塊。
優(yōu)選地,依照用戶選擇執(zhí)行確定話音信號是話音命令還是話音通信。設想可以控制特征向量提取塊和語音識別塊的激活,這樣如果話音信號是話音命令,則激活特征向量提取塊和語音識別塊,如果話音信號是話音通信,則禁用特征向量提取塊和語音識別塊。優(yōu)選地,如果話音信號是話音命令,則接通特征向量提取塊和語音識別塊的寄存器的電源,如果話音信號是話音通信,則斷開寄存器的電源。
設想用優(yōu)化的用于語音識別的第一采樣率調制話音信號。設想第一采樣率在大約12kHz到大約32kHz的范圍內,例如16kHz。
設想用優(yōu)化的用于話音通信的第二采樣率調制話音信號。優(yōu)選地,使用8kHz的速率。
優(yōu)選地,對話音信號執(zhí)行脈沖編碼調制。優(yōu)選地,在移動通信終端中實現(xiàn)基帶調制解調器。
在接下來的描述中將闡述本發(fā)明的附加的特點和優(yōu)點,其中部分地將從描述中顯而易見,或者可以通過實踐本發(fā)明來獲悉。應該理解,本發(fā)明的以上概述和下文的詳細描述兩者都是示例性的和說明性的,意圖提供對所要求發(fā)明的更進一步說明。
那些本領域的技術人員通過下文參考附圖詳細描述的實施例,能容易地理解這些和其他的實施例,本發(fā)明不局限于公開的任何特別的實施例。
圖的簡要描述所包含的附圖用于提供對本發(fā)明更進一步的理解,并且附圖被合并以及組成說明書的一部分,附圖舉例說明本發(fā)明的實施例,并與描述一起解釋本發(fā)明的原理。此外,在不同圖形中用相同編號表示的本發(fā)明的元件和方面表示在一個或者多個實施例中相同的、等效的或者類似的特征、元件或方面。
圖1是一個舉例說明傳統(tǒng)基帶調制解調器的方框圖。
圖2是使用圖1中說明的基帶調制解調器的傳統(tǒng)語音識別方法的流程圖。
圖3是依照本發(fā)明的一個實施例的基帶調制解調器的方框圖。
圖4是依照本發(fā)明的一個實施例的語音識別方法的流程圖。
優(yōu)選實施例的詳細描述本發(fā)明涉及一種用于語音識別的基帶調制解調器和方法,以及一種使用該基帶調制解調器和方法的移動通信終端。雖然舉例說明本發(fā)明是移動通信設備,但期望在希望使用優(yōu)化的采樣率執(zhí)行語音識別和話音通信的任何時候可以使用本發(fā)明,以便保護高速率的語音識別。
現(xiàn)在詳細參考本發(fā)明的優(yōu)選實施例,在附圖中舉例說明本發(fā)明的實例。只要可能,在整個圖畫中使用相同的參考編號表示相同的或者類似的部分。
參考圖3解釋依據(jù)本發(fā)明優(yōu)選實施例的用于語音識別的基帶調制解調器和使用該基帶調制解調器的移動通信終端。圖3是舉例說明依照本發(fā)明實施例的基帶調制解調器的方框圖,其中優(yōu)選地在移動通信終端中提供基帶調制解調器。參考圖3,基帶調制解調器包括音頻編解碼器22、控制器27、語音編碼器28、特征向量提取塊24、多個緩存器23和25以及語音識別塊26。
當從麥克風收到一個話音信號時,音頻編解碼器22就以選擇的采樣率對輸入的話音信號執(zhí)行調制。麥克風將用戶話音轉換成為電信號。特別地,音頻編解碼器22以選擇的采樣率對話音信號執(zhí)行PCM(脈沖編碼調制)。
音頻編解碼器22依照話音信號是對應用于語音識別的信號還是用于話音通信的信號來改變采樣率,以執(zhí)行PCM。特別地,音頻編解碼器22將大約8kHz的采樣率應用到對用于話音通信的話音信號執(zhí)行的PCM中。另一方面,音頻編解碼器22將12~32kHz的采樣率應用到對用于語音識別的話音信號執(zhí)行的PCM中。
優(yōu)選地,音頻編解碼器22將161kHz的采樣率應用到對用于語音識別的信號執(zhí)行的PCM中。這是因為眾所周知16kHz的采樣率增強語音識別速率。
用戶選擇一種應用以識別話音信號是對應用于語音識別的信號還是對應用于話音通信的信號。特別地,如果用戶選擇用于話音通信的應用,則其后由音頻編解碼器22收到的信號對應用于話音通信的話音信號。特別地,如果用戶選擇用于語音識別的應用,則其后由音頻編解碼器22收到的信號對應于用于語音識別的話音信號。
在本發(fā)明中,通過確定用戶選擇的應用類型,控制器27激活用于話音通信的信號傳遞路徑或者用于語音識別的信號傳遞路徑。特別地,控制器27激活或者禁用用于語音識別的信號傳遞路徑的元件23、24和25。
如果用戶選擇用于語音識別的應用,控制器27激活用于語音識別的信號傳遞路徑的元件23、24和25。如果用戶沒有選擇用于語音識別的應用,控制器27禁用用于語音識別的信號傳遞路徑的元件23、24和25以促使音頻編解碼器22的輸出被傳遞到語音編碼器28。
此外,控制器27控制音頻編解碼器22的采樣率。特別地,依照用戶選擇的應用類型,控制器27可以確定音頻編解碼器22收到的信號是用于話音通信還是語音識別??刂破?7音頻編解碼器22使用用于每種應用類型的采樣率執(zhí)行PCM。
控制器27的控制操作實例解釋如下。一旦用戶選擇了語音識別的應用,以便執(zhí)行例如自動撥號、菜單選擇或者名稱尋呼,控制器27接通用于語音識別模式的基帶調制解調器的特別寄存器的電源??刂破?7將音頻編解碼器22的采樣率設置為語音識別的采樣率,例如16kHz。然后控制器27接通用于語音識別模式的基帶調制解調器中的部分的電源,特別是緩存器23、特征向量提取塊24和特征向量緩存器25。
總之,控制器27改變音頻編解碼器22使用的采樣率,并依照用戶選擇的應用確定傳遞音頻編解碼器22輸出的路徑。
在語音識別的信號傳遞路徑中,緩存器23的輸出提供到特征提取塊24的輸入。緩存器23存儲用于語音識別的話音信號(PCM數(shù)據(jù))。優(yōu)選地,緩存器23是一個往復式緩沖存儲器。
特別地,該往復式緩沖存儲器使用雙緩沖結構。在被分成兩個存儲區(qū)的雙緩沖結構中,兩個存儲區(qū)的其中一個存儲區(qū)存儲數(shù)據(jù),而另一個存儲區(qū)輸出在前一個存儲區(qū)中存儲的數(shù)據(jù)。優(yōu)選地,本發(fā)明使用雙緩沖結構或者包括配置為環(huán)狀的至少三個分離的存儲區(qū)的結構。此外,緩存器23包括20~40ms的緩存器。
特征向量提取塊24從緩存器23收到PCM數(shù)據(jù),從收到的PCM數(shù)據(jù)中提取特征向量。特征向量提取塊24采用MFCC(mel-頻率cepstral系數(shù))、PLP(感性線性預測)、LPC(線性預測編碼)或者LPCC(線性預測cepstral系數(shù))。特征向量緩存器25存儲從特征向量提取塊24提取的特征向量。在本發(fā)明中,特征向量被以20~40ms的短時單元重復地提取,提取的特征向量以陣列的形式被存儲在特征向量緩存器25中。
通常,當提取特征向量時,應該處理濾波器組、過濾、FFT(快速傅里葉變換)、DCT(離散余弦變換)和IFFT(快速傅里葉逆變換)。因此,提取特征向量需要大量操作,特征向量提取過程具有很強的重復性。
優(yōu)選地,本發(fā)明用硬件實現(xiàn)特征向量提取塊24??墒牵梢杂密浖崿F(xiàn)特征向量提取塊。
語音識別塊26使用特征向量緩存器25中存儲的特征向量執(zhí)行語音識別。優(yōu)選地,語音識別塊26包括具備語音識別算法的MPU(微處理器)或者DSP(數(shù)字信號處理器)。
語音識別算法的可變性非常高。依照訓練文件和參數(shù)可能存在定點實施的差異。使用對應維特比譯碼、語言模型或者增強算法的語法的部分。因此,經(jīng)由上述的MPU或者DSP來實現(xiàn)語音識別算法中定點實施或者算法增強的部分。
此外,在本發(fā)明中可以經(jīng)由MPU或者DSP來執(zhí)行語音識別的噪聲消除。優(yōu)選地,經(jīng)由MPU或者DSP來執(zhí)行噪聲消除。
語音編碼器28對音頻編解碼器22的輸出(使用8kHz采樣率的PCM數(shù)據(jù))執(zhí)行用于話音通信的語音編碼。特別地,如果收到用于話音通信的話音信號,語音編碼器28使用QCELP(Qualcomm碼激勵線性預測)、EVRC(增強的速率可變編碼)、VSELP(矢量和激勵線性預測)或者RPF-LTP(殘余脈沖激勵/長期預報)執(zhí)行話音編碼。使用卷積碼或者turbo代碼對語音編碼器28的輸出執(zhí)行信道編碼。在完成信道編碼后執(zhí)行無線電調制。
圖4舉例說明依照本發(fā)明執(zhí)行語音識別的方法。該方法包括收到話音信號(S100)、確定該話音信號是話音命令還是話音通信(S102)、或者使用優(yōu)化的用于語音識別的速率調制話音信號(S104)并存儲調制的話音信號(S106)、從調制的話音信號提取特征向量(S108)、存儲提取的特征向量(S110)和使用提取的特征向量執(zhí)行語音識別(S112)或者使用優(yōu)化的用于話音通信的速率調制話音信號(S114)并話音編碼調制的話音信號(S116)。
優(yōu)選地,用硬件實現(xiàn)從調制的話音信號中提取特征向量(S108)。替換地,用軟件實現(xiàn)從調制的話音信號中提取特征向量(S108)。
優(yōu)選地,依照用戶選擇的應用類型執(zhí)行確定話音信號是話音命令還是話音通信(S102)。優(yōu)選地,執(zhí)行話音信號的脈沖編碼調制。
優(yōu)選地,通過控制與特征向量提取和語音識別有關的特殊寄存器來執(zhí)行兩個路徑(S104-S112和S114-S116)其中一個的選擇。特別地,如果確定話音信號是話音命令(S102),通過接通電源來激活與特征向量提取和語音識別有關的寄存器,如果確定話音信號是話音通信,通過斷開電源以將其禁用。
如果確定話音信號是話音命令(S102),則使用大約12kHz到大約32kHz的速率來調制話音信號,優(yōu)選為16kHz。如果確定話音信號是話音通信(S102),優(yōu)選地使用8kHz的速率來調制話音信號。
優(yōu)選地,當制造移動通信終端時,基帶調制解調器作為一個內部元件包含在移動通信終端里。替換地,基帶調制解調器可以以一個組合成為移動通信終端層一部分的獨立模塊實現(xiàn)。因此,很清楚本發(fā)明的范圍覆蓋上述替換中的兩種情況。
該本發(fā)明提供幾個效果或者優(yōu)點。第一,因為在執(zhí)行調制時音頻編解碼器使用了適合語音識別的采樣率,這樣可以提高語音識別的速率。第二,通過用硬件實現(xiàn)特征向量提取,本發(fā)明可以減少語音識別處理單元的大量操作和減少功耗。第三,通過在語音識別算法中使用MPU或者DSP來實現(xiàn)定點實施或者算法增強,本發(fā)明便于依照未來的需要進行擴充。
對那些本領域熟練的技術人員來說顯而易見的是,不偏離本發(fā)明的精神或者范圍可在其內進行多種修改和變化。如此,本發(fā)明意味著如果該發(fā)明的修改和變化在附加的權利要求和這些權利要求的等效范圍之內,則本發(fā)明覆蓋這些修改和變化。
上述實施例和優(yōu)點僅僅是示例性的,不應被看作為限制本發(fā)明。本教導可以容易地應用到其他類型的設備中。本發(fā)明的描述是用作說明性的,而不是限制權利要求的范圍。對于本領域的熟練人員,許多替換、修改和變化都是顯而易見的。在權利要求中,裝置+功能的條款是用來覆蓋這里描述的執(zhí)行敘述的功能的結構,不僅是結構等效而且是等效結構。
權利要求
1.一種基帶調制解調器,包括用于使用第一采樣率和第二采樣率的其中一個調制話音信號的音頻編解碼器;語音識別裝置;以及語音編碼裝置,其中如果話音信號是話音命令,音頻編解碼器使用第一采樣率編碼話音信號,語音識別裝置對編碼的話音信號執(zhí)行語音識別,如果話音信號是話音通信,音頻編解碼器使用第二采樣率編碼話音信號,語音編碼裝置對編碼的話音信號執(zhí)行語音編碼。
2.如權利要求1所述基帶調制解調器,其特征在于,語音識別裝置還包括用于從編碼的話音信號中提取至少一個特征向量的特征向量提取塊;以及用于使用通過特征向量提取塊提取的至少一個特征向量來執(zhí)行語音識別的語音識別塊。
3.如權利要求2所述基帶調制解調器,其特征在于,語音識別裝置還包括用于存儲編碼的話音信號的緩存器。
4.如權利要求3所述基帶調制解調器,其特征在于,特征向量提取塊還用于從存儲在緩存器的數(shù)據(jù)中提取至少一個特征向量。
5.如權利要求3所述基帶調制解調器,其特征在于,緩存器包括往復式緩沖存儲器。
6.如權利要求2所述基帶調制解調器,其特征在于,語音識別裝置還包括用于存儲從編碼的話音信號中提取的至少一個特征向量的緩存器。
7.如權利要求2所述基帶調制解調器,其特征在于,用硬件實現(xiàn)特征向量提取塊。
8.如權利要求2所述基帶調制解調器,其特征在于,用軟件實現(xiàn)特征向量提取塊。
9.如權利要求2所述基帶調制解調器,其特征在于,還包括用于確定話音信號是話音命令和話音通信其中一個的控制器,如果話音信號是話音命令,控制器接通特征向量提取塊和語音識別塊的寄存器的電源,如果話音信號是話音通信,控制器斷開特征向量提取塊和語音識別塊的寄存器的電源。
10.如權利要求1所述基帶調制解調器,其特征在于,語音編碼裝置還包括用于對編碼的話音信號進行話音編碼的語音編碼器。
11.如權利要求1所述基帶調制解調器,其特征在于,還包括用于確定話音信號是話音命令和話音通信其中一個的控制器。
12.如權利要求11所述基帶調制解調器,其特征在于,控制器還用于根據(jù)確定結果確定音頻編解碼器所使用的采樣率。
13.如權利要求11所述基帶調制解調器,其特征在于,控制器還用于根據(jù)確定結果控制語音識別裝置的激活,如果話音信號是話音命令,則激活語音識別裝置,如果話音信號是話音通信,則禁用語音識別裝置。
14.如權利要求13所述基帶調制解調器,其特征在于,如果話音信號是話音命令,控制器還用于接通特征向量提取塊和語音識別塊的寄存器的電源,如果話音信號是話音通信,控制器斷開特征向量提取塊和語音識別塊的寄存器的電源。
15.如權利要求1所述基帶調制解調器,其特征在于,優(yōu)化用于語音識別的第一采樣率。
16.如權利要求15所述基帶調制解調器,其特征在于,第一采樣率在大約12kHz到大約32kHz的范圍內。
17.如權利要求16所述基帶調制解調器,其特征在于,第一采樣率大約為16kHz。
18.如權利要求1所述基帶調制解調器,其特征在于,優(yōu)化用于話音通信的第二采樣率。
19.如權利要求18所述基帶調制解調器,其特征在于,第二采樣率大約為8kHz。
20.如權利要求1所述基帶調制解調器,其特征在于,音頻編解碼器還用于對話音信號執(zhí)行脈沖編碼調制。
21.如權利要求1所述基帶調制解調器,其特征在于,在移動通信終端中實現(xiàn)基帶調制解調器。
22.一種移動通信終端,包括用于使用第一采樣率和第二采樣率的其中一個調制話音信號的音頻編解碼器;用于從調制的話音信號中提取至少一個特征向量的特征向量提取塊;用于使用至少一個通過特征向量提取塊提取的特征向量執(zhí)行語音識別的語音識別塊;和用于對調制的話音信號進行話音編碼的語音編碼器,其中,如果話音信號是話音命令,音頻編解碼器使用第一采樣率編碼話音信號,如果話音信號是話音通信,音頻編解碼器使用第二采樣率編碼話音信號。
23.如權利要求22所述移動通信終端,其特征在于,還包括用于存儲編碼的話音信號的緩存器。
24.如權利要求23所述移動通信終端,其特征在于,緩存器包括往復式緩沖存儲器。
25.如權利要求22所述移動通信終端,其特征在于,還包括用于存儲從調制的話音信號中提取的至少一個特征向量的緩存器。
26.如權利要求22所述移動通信終端,其特征在于,還包括用于確定話音信號是話音命令和話音通信其中一個的控制器。
27.如權利要求26所述移動通信終端,其特征在于,控制器還用于根據(jù)用戶的選擇而確定話音信號是話音命令和話音通信的其中一個。
28.如權利要求27所述移動通信終端,其特征在于,控制器還用于根據(jù)確定結果確定音頻編解碼器使用的采樣率。
29.如權利要求27所述移動通信終端,其特征在于,控制器還用于控制特征向量提取塊和語音識別塊的激活,如果話音信號是話音命令,則激活特征向量提取塊和語音識別塊,如果話音信號是話音通信,則禁用特征向量提取塊和語音識別塊。
30.如權利要求29所述移動通信終端,其特征在于,如果話音信號是話音命令,控制器還用于接通特征向量提取塊和語音識別塊的寄存器的電源,如果話音信號是話音通信,控制器斷開特征向量提取塊和語音識別塊的寄存器的電源。
31.如權利要求22所述移動通信終端,其特征在于,優(yōu)化用于語音識別的第一采樣率。
32.如權利要求31所述移動通信終端,其特征在于,第一采樣率在大約12kHz到大約32kHz的范圍內。
33.如權利要求31所述移動通信終端,其特征在于,第一采樣率大約為16kHz。
34.如權利要求22所述移動通信終端,其特征在于,優(yōu)化用于話音通信的第二采樣率。
35.如權利要求34所述移動通信終端,其特征在于,第二采樣率大約為8kHz。
36.如權利要求34所述移動通信終端,其特征在于,用硬件實現(xiàn)特征向量提取塊。
37.如權利要求22所述移動通信終端,其特征在于,用軟件實現(xiàn)特征向量提取塊。
38.如權利要求22所述移動通信終端,其特征在于,音頻編解碼器還用于對話音信號執(zhí)行脈沖編碼調制。
39.一種在基帶調制解調器中執(zhí)行語音識別和語音通信的方法,所述方法包括確定話音信號是話音命令和話音通信的其中一個;以及如果確定話音信號是話音命令,則使用第一采樣率調制話音信號并對調制的話音信號執(zhí)行語音識別,如果確定話音信號是話音通信,則使用第二采樣率調制話音信號并對調制的話音信號執(zhí)行話音編碼。
40.如權利要求39所述方法,其特征在于,對調制的話音信號執(zhí)行語音識別包括從調制的話音信號中提取至少一個特征向量;以及使用至少一個特征向量執(zhí)行語音識別。
41.如權利要求40所述方法,其特征在于,對調制的話音信號執(zhí)行語音識別還包括在緩存器中存儲調制的話音信號;和從存儲在緩存器的數(shù)據(jù)中提取至少一個特征向量。
42.如權利要求40所述方法,其特征在于,對調制的話音信號執(zhí)行語音識別還包括在緩存器中存儲從調制的話音信號中提取的至少一個特征向量。
43.如權利要求40所述方法,其特征在于,用硬件實現(xiàn)從調制的話音信號中提取至少一個特征向量。
44.如權利要求40所述方法,其特征在于,用軟件實現(xiàn)從調制的話音信號中提取至少一個特征向量。
45.如權利要求39所述方法,其特征在于,還包括根據(jù)用戶選擇確定話音信號是話音命令和話音通信的其中一個。
46.如權利要求39所述方法,其特征在于,還包括控制特征向量提取塊和語音識別塊的激活,如果話音信號是話音命令,則激活特征向量提取塊和語音識別塊,如果話音信號是話音通信,則禁用特征向量提取塊和語音識別塊。
47.如權利要求46所述方法,其特征在于,還包括如果話音信號是話音命令,接通特征向量提取塊和語音識別塊的寄存器的電源,如果話音信號是話音通信,斷開特征向量提取塊和語音識別塊的寄存器的電源。
48.如權利要求39所述方法,其特征在于,還包括使用優(yōu)化的用于語音識別的第一采樣率調制話音信號。
49.如權利要求48所述方法,其特征在于,還包括使用在大約12kHz到大約32kHz的范圍之間的第一采樣率調制話音信號。
50.如權利要求48所述方法,其特征在于,還包括使用大約為16kHz的第一采樣率調制話音信號。
51.如權利要求39所述方法,其特征在于,還包括使用優(yōu)化的用于話音通信的第二采樣率調制話音信號。
52.如權利要求51所述方法,其特征在于,還包括使用大約8kHz的第二采樣率調制話音信號。
53.如權利要求39所述方法,其特征在于,還包括對話音信號執(zhí)行脈沖編碼調制。
54.如權利要求39所述方法,其特征在于,在移動通信終端中實現(xiàn)基帶調制解調器。
全文摘要
公開一種用于語音識別的基帶調制解調器和方法,以及一種使用這種基帶調制解調器和方法的移動通信終端。通過選擇用于語音識別的采樣率來增加語音識別率,可以用硬件實現(xiàn)語音識別處理的部分。本發(fā)明包括一個音頻編解碼器,該編解碼器使用語音識別的采樣率或者話音通信的采樣率來調制收到的話音信號。當話音信號被確定為話音命令時,特征向量提取塊從調制的話音信號中提取一個或者多個特征向量,語音識別塊使用提取的特征向量執(zhí)行語音識別。當話音信號被確定為話音通信時,語音編碼器對音頻編解碼器的輸出進行語音編碼。
文檔編號G10L19/12GK1797542SQ20051012491
公開日2006年7月5日 申請日期2005年9月7日 優(yōu)先權日2004年9月7日
發(fā)明者金燦佑 申請人:Lg電子株式會社