專利名稱:一種語音識別系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別技術(shù)領(lǐng)域,特別涉及一種語音識別系統(tǒng)和方法。
背景技術(shù):
目前多種智能音視頻設(shè)備都添加了語音識別功能。圖I是現(xiàn)有的一種音視頻設(shè)備的組成結(jié)構(gòu)的示意圖。如圖I所示,該音視頻設(shè)備包括麥克風(fēng)陣列101、音頻編碼電路102、攝像頭103、視頻處理電路104、主控集成電路105、系統(tǒng)主控微控制單元(系統(tǒng)主控MCU)106、揚聲器107及顯示屏108。其中,麥克風(fēng)陣列101負(fù)責(zé)語音信號的拾取并轉(zhuǎn)換成模擬音頻信號后輸出給音頻編碼電路102,音頻編碼電路102將從麥克風(fēng)陣列101接收的模擬音頻信號進行數(shù)字編碼,
然后輸出給主控集成電路105 ;攝像頭103用于捕獲視頻信號并輸出給視頻處理電路104,視頻處理電路104用于對攝像頭103輸出的信號進行編碼處理后輸出給主控集成電路105 ;主控集成電路105匯集視頻信號和音頻信號后,合成音視頻數(shù)據(jù)流輸出給系統(tǒng)主控微控制單元106。系統(tǒng)主控微控制單元106為該音視頻設(shè)備的核心器件,負(fù)責(zé)音視頻數(shù)據(jù)鏈路的管理。從系統(tǒng)主控微控制單元106輸出的音頻信號通過音頻揚聲器107變成聲音信號,從系統(tǒng)主控微控制單元106.輸出的視頻信號通過顯示屏108進行顯示。此外,圖I所示的音視頻設(shè)備還包括作為外圍接口的USB接口和負(fù)責(zé)整個系統(tǒng)的穩(wěn)定供電的電源電路等,這里不再贅述。在現(xiàn)有的如圖I所示的具有語音識別功能的音視頻設(shè)備中,不論采用全指向麥克風(fēng)陣列還是采用單指向麥克風(fēng)音陣列,都有一定的識別距離,所以只能進行近距離語音識別,而對遠距離語音無能為力。
發(fā)明內(nèi)容
本發(fā)明提供了一種語音識別系統(tǒng)和方法,以解決只有麥克風(fēng)陣列作為音頻輸入的語音識別系統(tǒng)無法對遠距離語音進行識別的問題。為達到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的本發(fā)明公開了一種語音識別系統(tǒng),包括麥克風(fēng)陣列、音頻編碼電路、主控集成電路、藍牙接收模塊和藍牙發(fā)射模塊,其中麥克風(fēng)陣列,用于接收語音信號并轉(zhuǎn)換成模擬音頻信號后輸出給音頻編碼電路;音頻編碼電路,用于將所接收的模擬音頻信號轉(zhuǎn)換成數(shù)字音頻信號后輸出給主控集成電路;藍牙發(fā)射模塊,用于接收語音信號并轉(zhuǎn)換成數(shù)字音頻信號后通過藍牙方式發(fā)送給藍牙接收模塊;藍牙接收模塊,用于將所接收的數(shù)字音頻信號發(fā)送給主控集成電路;主控集成電路,用于選擇接收來自音頻編碼電路的數(shù)字音頻信號或來自藍牙接收模塊的數(shù)字音頻信號進行語音識別處理。
在上述語音識別系統(tǒng)中,具有一個藍牙接收模塊和一個以上的藍牙發(fā)射模塊。在上述語音識別系統(tǒng)中,所述主控集成電路具有按鍵,所述主控集成電路根據(jù)用戶對該按鍵的操作選擇來自音頻編碼電路的數(shù)字音頻信號或來自藍牙接收模塊的數(shù)字音頻信號進行語音識別處理。上述語音識別系統(tǒng)還包括系統(tǒng)主控微控制單元,用于接收來自主控集成電路的音頻數(shù)據(jù)流;該系統(tǒng)主控微控制單元具有按鍵,該系統(tǒng)主控微控制單元根據(jù)用戶對該按鍵的操作向主控集成電路發(fā)送選擇來自音頻編碼電路的數(shù)字音 頻信號的指令或選擇來自藍牙接收模塊的數(shù)字音頻信號的指令;主控集成電路根據(jù)系統(tǒng)主控微控制單元的指令選擇來自音頻編碼電路的數(shù)字音頻信號或來自藍牙接收模塊的數(shù)字音頻信號進行語音識別處理。本發(fā)明還公開了一種語音識別的方法,該方法包括通過麥克風(fēng)陣列接收語音信號并轉(zhuǎn)換成模擬音頻信號,然后將該模擬音頻信號轉(zhuǎn)換成數(shù)字音頻信號,得到第一路數(shù)字音頻信號;通過藍牙音頻鏈路接收語音信號并轉(zhuǎn)換成數(shù)字音頻信號,得到第二路數(shù)字音頻信號;選擇第一路數(shù)字音頻信號或第二路數(shù)字音頻信號進行語音識別處理。在上述方法中,所述藍牙音頻鏈路包括藍牙發(fā)射模塊和藍牙接收模塊;所述通過藍牙音頻鏈路接收語音信號并轉(zhuǎn)換成數(shù)字音頻信號包括通過藍牙發(fā)射模塊接收語音信號并轉(zhuǎn)換成數(shù)字音頻信號后發(fā)送給藍牙接收模塊,藍牙接收模塊將所接收的數(shù)字音頻信號作為所述第二路數(shù)字音頻信號輸出。所述藍牙音頻鏈路包括一個以上的藍牙發(fā)射模塊和一個藍牙接收模塊。在上述方法中,所述選擇第一路數(shù)字音頻信號或第二路數(shù)字音頻信號進行語音識別處理包括根據(jù)用戶的按鍵操作選擇第一路數(shù)字音頻信號或第二路數(shù)字音頻信號,對并所選擇的數(shù)字音頻信號進行語音識別處理。由上述可見,在本發(fā)明的方案中,由于語音識別系統(tǒng)包括麥克風(fēng)陣列鏈路和藍牙鏈路兩路語音輸入鏈路,在進行語音識別時在兩路鏈路中進行選擇,其中的藍牙鏈路可以實現(xiàn)遠距離語音的接收,因此可以對遠距離的語音進行識別。
圖I是現(xiàn)有的一種音視頻設(shè)備的組成結(jié)構(gòu)的示意圖;圖2為本發(fā)明實施例中的包含語音識別系統(tǒng)的音視頻設(shè)備的組成結(jié)構(gòu)的示意圖。
具體實施例方式本發(fā)明中,通過麥克風(fēng)陣列接收語音信號并轉(zhuǎn)換成模擬音頻信號,然后將該模擬音頻信號轉(zhuǎn)換成數(shù)字音頻信號,得到第一路數(shù)字音頻信號;并且通過藍牙音頻鏈路接收語音信號并轉(zhuǎn)換成數(shù)字音頻信號,得到第二路數(shù)字音頻信號;然后選擇第一路數(shù)字音頻信號或第二路數(shù)字音頻信號進行語音識別處理。這樣,對于較近的一些語音可以通過麥克風(fēng)陣列進行拾取,而對于較遠局域的語音,則可以通過的藍牙鏈路實現(xiàn)接收,因此解決了只有麥克風(fēng)陣列作為音頻輸入的語音識別系統(tǒng)無法對遠距離語音進行識別的問題。為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細描述。圖2為本發(fā)明實施例中的包含語音識別系統(tǒng)的音視頻設(shè)備的組成結(jié)構(gòu)的示意圖。如圖2所示,該系統(tǒng)包括麥克風(fēng)陣列101、音頻編碼電路102、攝像頭103、視頻處理電路104、主控集成電路205、系統(tǒng)主控微控制單元206、揚聲器107、顯示屏108、藍牙接收模塊201和藍牙發(fā)射模塊202。這里藍牙發(fā)射模塊202的個數(shù)為一個或多個,圖2中示意出了多個藍牙發(fā)射模塊202。另外由于本發(fā)明的實施例中對主控集成電路和系統(tǒng)主控微控制單元的功能都進行了改進,因此采用了與圖I中不同的附圖標(biāo)記。其中,麥克風(fēng)陣列101,用于接收語音信號并轉(zhuǎn)換成模擬音頻信號后輸出給音頻編碼電路102。音頻編碼電路102,用于將所接收的模擬音頻信號轉(zhuǎn)換成數(shù)字音頻信號后輸出給主控集成電路205。攝像頭103用于捕獲視頻信號并輸出給視頻處理電路104,視頻處理電路104用于對攝像頭103輸出的信號進行編碼處理后輸出給主控集成電路205 ;·藍牙發(fā)射模塊202,用于接收語音信號并轉(zhuǎn)換成數(shù)字音頻信號后通過藍牙方式發(fā)送給藍牙接收模塊201 ;藍牙接收模塊201,用于將所接收的數(shù)字音頻信號發(fā)送給主控集成電路205 ;主控集成電路205,用于選擇來自音頻編碼電路102的數(shù)字音頻信號或來自藍牙接收模塊201的數(shù)字音頻信號進行語音識別處理。即主控集成電路205先在來自音頻編碼電路102的數(shù)字音頻信號和來自藍牙接收模塊102的數(shù)字音頻信號之間進行選擇,然后將選擇的數(shù)字音頻信號與來自視頻處理電路104的數(shù)字視頻信號匯集,合成音視頻數(shù)據(jù)流后輸出給系統(tǒng)主控微控制單元206。系統(tǒng)主控微控制單元206負(fù)責(zé)音視頻數(shù)據(jù)鏈路的管理。從系統(tǒng)主控微控制單元206輸出的音頻信號通過音頻揚聲器107變成聲音信號,從系統(tǒng)主控微控制單元206輸出的視頻信號通過顯示屏108進行顯示??梢姡趫D2所示的實施例中有兩條音頻輸入鏈路,分別為麥克風(fēng)陣列音頻鏈路和藍牙音頻鏈路。其中,麥克風(fēng)陣列音頻鏈路包括麥克風(fēng)陣列101和音頻編碼電路102,麥克風(fēng)陣列101接收語音信號并轉(zhuǎn)換成模擬音頻信號后輸出給音頻編碼電路102,音頻編碼電路102將所接收的模擬音頻信號轉(zhuǎn)換成數(shù)字音頻信號后作為第一路數(shù)字音頻信號輸出給主控集成電路205。藍牙音頻鏈路包括藍牙發(fā)射模塊202和藍牙接收模塊201 ;通過藍牙發(fā)射模塊202接收語音信號并轉(zhuǎn)換成數(shù)字音頻信號后發(fā)送給藍牙接收模塊201,藍牙接收模塊201將所接收的數(shù)字音頻信號作為第二路數(shù)字音頻信號輸出給主控集成電路205。主控集成電路205在第一路數(shù)字音頻信號和第二路數(shù)字音頻信號之間進行選擇。在本法明的上述實施中,保留了麥克風(fēng)陣列,以實現(xiàn)近距離的語音識別。在此基礎(chǔ)上增加了藍牙語音輸入方式,以實現(xiàn)遠程語音識別。藍牙傳輸技術(shù)支持一對多的通信,即可以設(shè)置一個藍牙接收模塊和多個的藍牙發(fā)射模塊。實踐中可以根據(jù)需要配備多個藍牙發(fā)射模塊,以實現(xiàn)多點語音識別。由于用藍牙方式可以遠距離傳輸信號,故本系統(tǒng)可以進行遠程語音識別。在本發(fā)明的實施例中,可以通過按鍵控制主控集成電路205的對數(shù)字音頻信號的選擇。
例如,可以在主控集成電路205上設(shè)置一個按鍵式的控制端,主控集成電路205根據(jù)用戶對該按鍵的操作選擇來自音頻編碼電路102的數(shù)字音頻信號或來自藍牙接收模塊201的數(shù)字音頻信號進行語音識別處理。或者,也可以在系統(tǒng)主控微控制單元206上設(shè)置按鍵式的控制端,系統(tǒng)主控微控制單元206根據(jù)用戶對該按鍵的操作向主控集成電路205發(fā)送選擇來自音頻編碼電路102的數(shù)字音頻信號的指令或選擇來自藍牙接收模塊201的數(shù)字音頻信號的指令;主控集成電路205根據(jù)系統(tǒng)主控微控制單元206的指令選擇來自音頻編碼電路102的數(shù)字音頻信號或來自藍牙接收模塊201的數(shù)字音頻信號進行語音識別處理。本發(fā)明實施例中對系統(tǒng)主控微控制單元的改進也正是在于此。綜上所述,在本發(fā)明的方案中,由于語音識別系統(tǒng)包括麥克風(fēng)陣列鏈路和藍牙鏈路兩路語音輸入鏈路,在進行語音識別時在兩路鏈路中進行選擇,其中的藍牙鏈路可以實現(xiàn)遠距離語音的接收以及實現(xiàn)多點語音控制,因此可以對多個遠距離的語音進行識別,使用戶更好的體會語音識別的優(yōu)越性。 以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內(nèi)。
權(quán)利要求
1.一種語音識別系統(tǒng),其特征在于,包括麥克風(fēng)陣列、音頻編碼電路、主控集成電路、藍牙接收模塊和藍牙發(fā)射模塊,其中 麥克風(fēng)陣列,用于接收語音信號并轉(zhuǎn)換成模擬音頻信號后輸出給音頻編碼電路; 音頻編碼電路,用于將所接收的模擬音頻信號轉(zhuǎn)換成數(shù)字音頻信號后輸出給主控集成電路; 藍牙發(fā)射模塊,用于接收語音信號并轉(zhuǎn)換成數(shù)字音頻信號后通過藍牙方式發(fā)送給藍牙接收模塊; 藍牙接收模塊,用于將所接收的數(shù)字音頻信號發(fā)送給主控集成電路; 主控集成電路,用于選擇來自音頻編碼電路的數(shù)字音頻信號或來自藍牙接收模塊的數(shù)字音頻信號進行語音識別處理。
2.根據(jù)權(quán)利要求I所述的語音識別系統(tǒng),其特征在于該系統(tǒng)具有一個藍牙接收模塊和一個以上的藍牙發(fā)射模塊。
3.根據(jù)權(quán)利要求I或2所述的語音識別系統(tǒng),其特征在于,所述主控集成電路具有按鍵,所述主控集成電路根據(jù)用戶對該按鍵的操作選擇來自音頻編碼電路的數(shù)字音頻信號或來自藍牙接收模塊的數(shù)字音頻信號進行語音識別處理。
4.根據(jù)權(quán)利要求I或2所述的語音識別系統(tǒng),其特征在于,該語音識別系統(tǒng)還包括系統(tǒng)主控微控制單元,用于接收來自主控集成電路的音頻數(shù)據(jù)流; 該系統(tǒng)主控微控制單元具有按鍵,該系統(tǒng)主控微控制單元根據(jù)用戶對該按鍵的操作向主控集成電路發(fā)送選擇來自音頻編碼電路的數(shù)字音頻信號的指令或選擇來自藍牙接收模塊的數(shù)字音頻信號的指令; 主控集成電路根據(jù)系統(tǒng)主控微控制單元的指令選擇來自音頻編碼電路的數(shù)字音頻信號或來自藍牙接收模塊的數(shù)字音頻信號進行語音識別處理。
5.一種語音識別的方法,其特征在于,該方法包括 通過麥克風(fēng)陣列接收語音信號并轉(zhuǎn)換成模擬音頻信號,然后將該模擬音頻信號轉(zhuǎn)換成數(shù)字音頻信號,得到第一路數(shù)字音頻信號; 通過藍牙音頻鏈路接收語音信號并轉(zhuǎn)換成數(shù)字音頻信號,得到第二路數(shù)字音頻信號; 選擇第一路數(shù)字音頻信號或第二路數(shù)字音頻信號進行語音識別處理。
6.根據(jù)權(quán)利要求5所述的語音識別方法,其特征在于,所述藍牙音頻鏈路包括藍牙發(fā)射模塊和藍牙接收模塊; 所述通過藍牙音頻鏈路接收語音信號并轉(zhuǎn)換成數(shù)字音頻信號包括通過藍牙發(fā)射模塊接收語音信號并轉(zhuǎn)換成數(shù)字音頻信號后發(fā)送給藍牙接收模塊,藍牙接收模塊將所接收的數(shù)字音頻信號作為所述第二路數(shù)字音頻信號輸出。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述藍牙音頻鏈路包括一個以上的藍牙發(fā)射模塊和一個藍牙接收模塊。
8.根據(jù)權(quán)利要求5或6所述的語音識別方法,其特征在于,所述選擇對第一路數(shù)字音頻信號或二路數(shù)字音頻信號進行語音識別處理包括 根據(jù)用戶的按鍵操作選擇第一路數(shù)字音頻信號或第二路數(shù)字音頻信號,并對所選擇的數(shù)字音頻信號進行語音識別處理。
全文摘要
本發(fā)明公開了一種語音識別系統(tǒng)和方法。其中語音識別系統(tǒng)包括麥克風(fēng)陣列,接收語音信號并轉(zhuǎn)換成模擬音頻信號后輸出給音頻編碼電路;音頻編碼電路,用于將所接收的模擬音頻信號轉(zhuǎn)換成數(shù)字音頻信號后輸出給主控集成電路;藍牙發(fā)射模塊,用于接收語音信號并轉(zhuǎn)換成數(shù)字音頻信號后通過藍牙方式發(fā)送給藍牙接收模塊;藍牙接收模塊,用于將所接收的數(shù)字音頻信號發(fā)送給主控集成電路;主控集成電路,用于選擇來自音頻編碼電路的數(shù)字音頻信號或來自藍牙接收模塊的數(shù)字音頻信號進行語音識別處理。本發(fā)明的技術(shù)方案解決了只有麥克風(fēng)陣列作為音頻輸入的語音識別系統(tǒng)無法對遠距離語音進行識別的問題。
文檔編號G10L15/02GK102820032SQ201210290828
公開日2012年12月12日 申請日期2012年8月15日 優(yōu)先權(quán)日2012年8月15日
發(fā)明者王平平, 郄勇 申請人:歌爾聲學(xué)股份有限公司