本公開涉及用于改進語音識別性能的聲學模型的動態(tài)切換。
背景技術(shù):
車載用戶體驗可通過改進用戶如何經(jīng)由語音與他們的車輛進行交互而被改善。就此而言,期望改進車輛自動語音識別(asr)系統(tǒng)的能力,以在車輛在變化的操作狀況下運行時始終如一地識別語音命令。
傳統(tǒng)的聲學模型是靜態(tài)的,并且在各種操作狀況下被訓練(各種操作狀況被認為對于asr使用情形是典型的)。對于車輛,典型的操作狀況包括車輛在停車場怠速、車輛在高速公路上關(guān)窗行駛、車輛在高速公路上開窗行駛等。車輛的構(gòu)造(諸如,車廂中的絕緣量、車輛的燃料經(jīng)濟性結(jié)構(gòu)特性等)也被考慮進去。典型的操作狀況具有明顯地不同的背景噪聲水平,這在構(gòu)建靜態(tài)聲學模型中內(nèi)在地提出了挑戰(zhàn)。因此,單一的靜態(tài)聲學模型無法在變化的操作狀況下很好地工作。
倫巴效應(lombardeffect)是人類對于周圍環(huán)境噪聲的響應,其中,揚聲器作為補償機制而發(fā)出更大的聲音。除了在語音的輸出音量上增大的倫巴效應之外,語音的頻譜密度朝向更高的頻率偏移且音素的持續(xù)時間增加。頻譜上的這些變化比信噪比上的降低對語音識別引擎提出了更多的挑戰(zhàn)。因此,存在的問題在于:穩(wěn)健的聲學模型針對中性(neutral)(非倫巴)語音和噪聲(倫巴)語音兩者同樣很好地執(zhí)行,而不管頻譜上的變化如何。
技術(shù)實現(xiàn)要素:
一種用于車輛的自動語音識別系統(tǒng)包括控制器。所述控制器被配置為:基于車輛的車廂中的周圍環(huán)境噪聲和車輛的操作參數(shù)來從聲學模型庫中選擇聲學模型。所述控制器還被配置為:將選擇的聲學模型應用于含噪語音,以改進對所述含噪語音的識別。
所述自動語音識別系統(tǒng)還可包括:車廂噪聲麥克風,被配置為檢測車輛的車廂中的周圍環(huán)境噪聲。所述控制器可與所述車廂噪聲麥克風進行通信,以接收指示車輛的車廂中的周圍環(huán)境噪聲的信息。
所述控制器可與車輛的控制器局域網(wǎng)(can)總線進行通信,以獲取指示車輛的操作參數(shù)的信息。指示車輛的操作參數(shù)的信息可包括指示車輛發(fā)動機每分鐘轉(zhuǎn)數(shù)、車輛速度和車輛暖通空調(diào)(hvac)設置的信息。
所述控制器還可被配置為:通過以下處理來選擇聲學模型:首先基于車輛的車廂中的周圍環(huán)境噪聲來從所述聲學模型庫中選擇聲學模型的子集,隨后基于車輛的操作參數(shù)來從所述聲學模型的子集中選擇聲學模型。
所述控制器可與車輛的用戶穿戴的可穿戴裝置進行通信,以從所述可穿戴裝置獲取情境信息。所述控制器還可被配置為:基于車輛的車廂中的周圍環(huán)境噪聲、車輛的操作參數(shù)和所述情境信息來從所述聲學模型庫中選擇聲學模型。
所述控制器可與車輛的車廂中的用戶麥克風進行通信,以接收所述含噪語音。
聲學模型可以是倫巴效應聲學模型。
所述控制器還可被配置為:基于車輛的車廂中的周圍環(huán)境噪聲和車輛的操作參數(shù)來估計所述含噪語音的倫巴效應,并且基于估計的倫巴效應來從所述聲學模型庫中選擇聲學模型。
所述控制器還可被配置為:基于車輛的車廂中的周圍環(huán)境噪聲的分貝水平和頻譜分析來估計所述含噪語音的倫巴效應成分,基于車輛的操作參數(shù)來估計所述含噪語音的倫巴效應成分,并且基于估計的倫巴效應成分來從所述聲學模型庫中選擇聲學模型。
一種用于車輛的自動語音識別方法包括:基于車輛的車廂中的周圍環(huán)境噪聲和車輛的操作參數(shù)來從聲學模型庫中選擇聲學模型。所述方法還包括:將選擇的聲學模型應用于含噪語音,以改進對所述含噪語音的識別。
根據(jù)本發(fā)明的一個實施例,所述自動語音識別方法還包括:從多個車廂噪聲麥克風接收指示車輛的車廂中的周圍環(huán)境噪聲的信息。
根據(jù)本發(fā)明的一個實施例,所述自動語音識別方法還包括:從車輛的控制器局域網(wǎng)(can)總線接收指示車輛的操作參數(shù)的信息。
根據(jù)本發(fā)明的一個實施例,所述自動語音識別方法還包括:通過以下處理來選擇聲學模型:首選基于車輛的車廂中的周圍環(huán)境噪聲來從所述聲學模型庫中選擇聲學模型子集,然后基于車輛的操作參數(shù)來從所述聲學模型子集中選擇聲學模型。
根據(jù)本發(fā)明的一個實施例,所述自動語音識別方法還包括:從車輛的用戶穿戴的可穿戴裝置接收情境信息;進一步基于所述情境信息來選擇聲學模型。
根據(jù)本發(fā)明的一個實施例,所述自動語音識別方法還包括:從車輛的車廂中的用戶麥克風接收所述含噪語音。
根據(jù)本發(fā)明的一個實施例,所述自動語音識別方法還包括:從所述用戶麥克風接收指示車輛的車廂中的周圍環(huán)境噪聲的信息。
根據(jù)本發(fā)明的一個實施例,所述自動語音識別方法還包括:基于車輛的車廂中的周圍環(huán)境噪聲和車輛的操作參數(shù)來估計所述含噪語音的倫巴效應;基于估計的倫巴效應來從所述聲學模型庫中選擇聲學模型。
根據(jù)本發(fā)明的一個實施例,所述自動語音識別方法還包括:基于車輛的車廂中的周圍環(huán)境噪聲的分貝水平和頻譜分析來估計所述含噪語音的倫巴效應成分;基于車輛的操作參數(shù)來估計所述含噪語音的倫巴效應成分;基于估計的倫巴效應成分來從所述聲學模型庫中選擇聲學模型。
附圖說明
圖1示出了用于在車輛中使用的自動語音識別(asr)系統(tǒng)的框圖;
圖2示出了描述asr系統(tǒng)的噪聲量化操作和聲學模型識別操作的框圖;
圖3示出了描述asr系統(tǒng)的聲學模型選擇操作以及將選擇的聲學模型用于語音識別的操作的框圖。
具體實施方式
在此公開本發(fā)明的具體實施例;然而,應理解的是,所公開的實施例僅為本發(fā)明的示例,其中,本發(fā)明可以以多種替代形式來實現(xiàn)。附圖無需按比例繪制;可夸大或最小化一些特征以示出特定組件的細節(jié)。因此,在此所公開的具體結(jié)構(gòu)和功能細節(jié)不應被解釋為具有限制性,而僅僅作為用于教導本領(lǐng)域技術(shù)人員以多種形式利用本發(fā)明的代表性基礎(chǔ)。
本公開提供自動語音識別(asr)系統(tǒng)和方法,所述系統(tǒng)和方法采用倫巴效應聲學模型(“聲學模型”)的動態(tài)切換,以改進語音識別性能。asr系統(tǒng)和方法利用在被用于將噪聲類型與頻譜內(nèi)容的變化相關(guān)聯(lián)的倫巴效應上收集的數(shù)據(jù),以適當?shù)卣{(diào)節(jié)純凈語音和含噪語音兩者。
如上面在背景技術(shù)部分中所指出的,不管語音頻譜上的變化如何,使得穩(wěn)健的聲學模型針對中性(非倫巴)語音和噪聲(倫巴)語音兩者同樣很好地執(zhí)行,這是個問題。為了解決該問題,本公開針對車輛提供的asr系統(tǒng)和方法采用這樣一種架構(gòu),所述架構(gòu)通過考慮來自車輛中的車廂噪聲的各種輸入來估計倫巴效應的影響。按照這種方式,asr系統(tǒng)和方法實際上可動態(tài)地切換到從預先建立的聲學模型庫中選擇的聲學模型,其中,針對這種狀況以最佳方式對該聲學模型庫進行訓練以與各種類型的含噪語音(中性語音除外)進行最優(yōu)匹配。
由于嵌入式平臺現(xiàn)在包括具有大量隨機存取存儲器(ram)的圖形處理單元(gpu)以用于大規(guī)模并行處理能力,所以將多個聲學模型放入單個車輛系統(tǒng)是可行的。本公開的asr系統(tǒng)和方法從放入車輛系統(tǒng)中的預先訓練的聲學模型庫中動態(tài)地選擇適當?shù)穆晫W模型,作為車輛參數(shù)和周圍環(huán)境噪聲的函數(shù)。
本公開提供的asr系統(tǒng)和方法涉及少數(shù)聲學模型按照實驗室設置來進行訓練,在該實驗室設置中,資源可用于捕獲重要的使用情形。隨后實現(xiàn)函數(shù)以將給定噪聲關(guān)聯(lián)到最佳表示的聲學模型。噪聲通過若干不同信息進行量化,這些信息包括但不限于:指示車輛參數(shù)的信息(諸如,來自車輛的控制器局域網(wǎng)(can)總線的關(guān)于車輛速度、發(fā)動機每分鐘轉(zhuǎn)數(shù)和暖通空調(diào)(hvac)設置的信息);指示車廂噪聲的信息(諸如,來自進行被動噪聲分析的車廂噪聲麥克風的信息);和/或可穿戴裝置提供的情境信息(contextualinformation)。
作為示例,本公開的車輛中的asr系統(tǒng)和方法使用車廂噪聲分貝水平/頻譜分析來預篩選從預先訓練的聲學模型庫中選擇的聲學模型。因為用于發(fā)動機噪聲的聲學模型可能由于噪聲的頻譜性質(zhì)而與用于hvac的聲學模型不同,所以asr系統(tǒng)和方法隨后使用諸如發(fā)動機每分鐘轉(zhuǎn)數(shù)和hvac設置的車輛參數(shù)來進一步減少(paredown)選擇。一旦最具代表性的聲學模型被識別出,則asr系統(tǒng)和方法就使用該最具代表性的聲學模型來完成語音識別。這種動態(tài)切換也可被用于負責不同的揚聲器。
現(xiàn)參照圖1,示出了用于在車輛中使用的自動語音識別(asr)系統(tǒng)10的框圖。asr系統(tǒng)10包括控制器12??刂破?2與車輛的車廂中的用戶麥克風14進行通信。用戶麥克風14被配置為檢測車輛的車廂中的用戶說出的語音(例如,命令)。用戶麥克風14向控制器12提供指示語音的電信號。在車輛的正常實際操作狀況下,車廂中存在一定量的噪聲。因此,用戶麥克風14檢測到的語音是含噪語音。如在圖1中所指示的,用戶麥克風14因此向控制器12提供指示含噪語音的電信號16。
控制器12還與一個或更多個車廂噪聲麥克風18進行通信。車廂噪聲麥克風18位于車廂內(nèi)的各種位置并且被配置為檢測車廂中的噪聲。車廂噪聲麥克風18向控制器12提供指示車廂噪聲的電信號20。
控制器12還與車輛的can總線22進行通信。指示車輛參數(shù)的電信號在can總線22上被傳送。控制器12從can總線22接收指示車輛參數(shù)(諸如,車輛速度、發(fā)動機每分鐘轉(zhuǎn)數(shù)和hvac設置)的電信號24。
控制器12還與用戶穿戴的可穿戴裝置26進行通信??刂破?2從可穿戴裝置26接收指示情境信息的電信號28。
控制器12包括用于執(zhí)行噪聲量化操作的處理器級30(用短語“噪聲量化”標出)。處理器級30從車廂噪聲麥克風18接收指示車廂噪聲的電信號20,從can總線22接收指示車輛參數(shù)的電信號24,從可穿戴裝置26接收指示情境信息的電信號28。處理器級30處理電信號20、24和28,以量化存在于車輛車廂中的噪聲。處理器級30產(chǎn)生指示量化的噪聲的電信號32。
按照這種方式,處理器級30通過若干不同信息對噪聲進行量化,這些信息包括來自進行被動噪聲分析的車廂噪聲麥克風18的指示車輛車廂噪聲的信息、來自can總線22的指示車輛參數(shù)(諸如,車輛速度、發(fā)動機每分鐘轉(zhuǎn)數(shù)和hvac設置)的信息和/或來自可穿戴裝置26的情境信息。量化的噪聲代表倫巴效應的影響。因此,處理器級30通過考慮關(guān)于車輛中的車廂噪聲的各種輸入(即,檢測到的車廂噪聲、車輛參數(shù)和情境信息),來估計倫巴效應的影響。
控制器12還包括用于執(zhí)行最優(yōu)聲學模型選擇操作的處理器級34(用短語“選擇最優(yōu)的聲學模型”標出)。處理器級34可訪問預先建立的聲學模型庫36(在圖3中示出的)。庫36包含放入單個車輛系統(tǒng)中的多個聲學模型。庫36的聲學模型通過按照實驗室設置進行訓練而被預先建立,以捕獲重要的使用情形。因此,庫36中的每個聲學模型與使用情形中的相應一個使用情形對應。
處理器級34從處理器級30接收指示量化的噪聲的電信號32。處理器級34從庫36中選擇聲學模型中的一個作為量化的噪聲的函數(shù)。該函數(shù)將給定的噪聲關(guān)聯(lián)到最佳表示的聲學模型。也就是說,處理器級34從庫36中選擇相對于庫36中的其他聲學模型最佳對應于量化的噪聲的聲學模型。由于被量化的噪聲,處理器級34選擇的聲學模型是被最佳訓練以適應嘈雜的含噪語音的聲學模型。按照這種方式,處理器級34從聲學模型庫36中動態(tài)地選擇適當?shù)穆晫W模型作為車輛參數(shù)和周圍環(huán)境噪聲的函數(shù)。處理器級34輸出指示選擇的聲學模型的電信號38。
控制器12還包括用于利用選擇的聲學模型處理含噪語音的處理器級40(用短語“將選擇的聲學模型應用于噪音語音”標出)。處理器級40從用戶麥克風14接收指示含噪語音的電信號16,并且從處理器級34接收指示選擇的聲學模型的電信號38。處理器級40將選擇的聲學模型應用于含噪語音,以改進對含噪語音的識別并輸出指示含噪語音的電信號42。
asr系統(tǒng)10的接收器44(用短語“識別語音”標出)接收指示語音的電信號42。接收器44將語音與命令的列表等進行比較,以便識別語音,隨后對識別出的語音進行相應地操作。
如所描述的,控制器12連同用戶麥克風14、車廂噪聲麥克風18、can總線22和可穿戴裝置26一起提供了動態(tài)切換聲學模型系統(tǒng)??刂破?2基于各種輸入來量化噪聲,基于量化的噪聲來選擇聲學模型,并將選擇的聲學模型應用于含噪語音,以改進對含噪語音的識別??刂破?2連續(xù)地執(zhí)行該操作,使得當噪聲改變時,控制器選擇最適合于改變的噪聲的某個其他聲學模型,隨后將該選擇的聲學模型應用于含噪語音,以改進對含噪語音的識別。按照這種方式,控制器12采用聲學模型的動態(tài)切換來改進語音識別性能。
在變型中,用戶麥克風14檢測車廂中的周圍環(huán)境噪聲,并將指示檢測到的周圍環(huán)境噪聲的信息傳送到控制器12。按照這種方式,用戶麥克風14除了檢測車廂中的用戶說出的語音之外,用戶麥克風14還用作被配置為檢測車廂中的周圍環(huán)境噪聲的車廂噪聲麥克風。因此,當沒有車廂麥克風可用于捕獲車廂中的周圍環(huán)境噪聲時,用戶麥克風14可用于捕獲車廂中的周圍環(huán)境噪聲。
現(xiàn)在參照圖2,并繼續(xù)參照圖1,示出了描述asr系統(tǒng)10的噪聲量化操作和聲學模型識別操作的框圖。如上所述,asr系統(tǒng)10的控制器12的處理器級30用于執(zhí)行噪聲量化操作。如在圖2中示出的,處理器級30包括第一處理器子級30a和第二處理器子級32b。第一處理器子級30a從can總線22接收指示車輛參數(shù)的電信號24,第二處理器子級32b從車廂噪聲麥克風18接收指示車廂噪聲的電信號20。
第一處理器子級30a(用短語“噪聲估計函數(shù)”標出)用于基于車輛參數(shù)估計倫巴效應。第一處理器子級30a產(chǎn)生指示基于車輛參數(shù)的估計的倫巴效應的電信號32a。第二處理器子級30b(用短語“車廂噪聲頻譜分析”標出)產(chǎn)生指示基于車廂噪聲的估計的倫巴效應的電信號32b。彼此結(jié)合的電信號32a和32b指示量化的噪聲環(huán)境,該量化的噪聲環(huán)境是處理器級30的噪聲量化操作的總輸出。
控制器12的處理器級34(在圖2中用短語“識別最優(yōu)聲學模型”標出)接收指示基于車輛參數(shù)的估計的倫巴效應的電信號32a以及基于車廂噪聲的估計的倫巴效應的電信號32b。處理器級34從庫36(在圖3中示出)中選擇聲學模型中的一個,作為基于車輛參數(shù)和車廂噪聲的估計的倫巴效應的函數(shù)。更一般地,處理器級34基于量化的噪聲從庫36中選擇聲學模型中的一個。按照這種方式,處理器級34從庫36中選擇與量化的噪聲最佳對應的聲學模型。
處理器級34輸出指示哪個聲學模型已被選擇的電校準信號46。參照圖3,處理器級34將電校準信號46提供給庫36,以便控制器12的處理器級40訪問選擇的聲學模型。處理器級40隨后將選擇的聲學模型應用于含噪語音。
在變型中,處理器級34從庫36中選擇聲學模型的操作包括:處理器級34根據(jù)基于車廂噪聲的估計的倫巴效應來預篩選聲學模型,以獲取候選聲學模型的子集,隨后進一步根據(jù)基于車輛參數(shù)的估計的倫巴效應來減少候選聲學模型的子集,以從候選聲學模型的子集中選擇最合適的聲學模型。作為示例,處理器級34根據(jù)電信號32b使用車廂噪聲分貝水平/頻譜分析信息來預篩選從庫36中選擇的聲學模型。處理器級34隨后根據(jù)電信號32a使用車輛參數(shù)信息(諸如,發(fā)動機每分鐘轉(zhuǎn)數(shù)和hvac設置)來進一步減少選擇。由于用于發(fā)動機噪聲的聲學模型可能因噪聲的頻譜性質(zhì)而與用于hvac噪聲的聲學模型不同,所以處理器級34以這種方式來進一步減少選擇。
如描述的,圖2連同圖3一起示出了asr系統(tǒng)10首先量化噪聲,隨后使用查找表類型函數(shù)來識別庫36中的最優(yōu)聲學模型。
圖3中示出的庫36中的聲學模型用通用標號48標出。聲學模型48用短語am“x”來表示,其中,“x”是唯一標識碼。作為示例,聲學模型“am5”48a是通過電校準信號46而被識別為由控制器12的處理器級34選擇的聲學模型的聲學模型。
圖3的框圖描述了asr系統(tǒng)10的聲學模型選擇操作以及將選擇的聲學模型用于語音識別的操作。在操作中,處理器級34向庫36輸出指示選擇的聲學模型的電校準信號46。進而,處理器級40訪問選擇的聲學模型,并將選擇的聲學模型應用于含噪語音,以便識別含噪語音。
圖3示出了具有在車輛中可用的n個聲學模型的庫36的asr系統(tǒng)10,并且示出了asr系統(tǒng)10如何選擇由電校準信號46指定的聲學模型中的一個(例如,聲學模型48a)并將選擇的聲學模型應用于含噪語音。如在此描述的,選擇的聲學模型完全取決于噪聲分析。
盡管上面描述了示例性實施例,但并不意在這些實施例描述了本發(fā)明的所有可能形式。更確切地,說明書中使用的詞語為描述性詞語而非限制性詞語,并且應理解的是,可在不脫離本發(fā)明的精神和范圍的情況下做出各種改變。此外,可組合各種實現(xiàn)的實施例的特征以形成本發(fā)明的進一步的實施例。