聲學(xué)脈沖響應(yīng)模擬的制作方法
【專利說明】
【背景技術(shù)】
[0001]在汽車車廂中可以設(shè)置語音識別系統(tǒng)和/或免提呼叫系統(tǒng)。然而,由于車輛環(huán)境的極其嘈雜性質(zhì),在車輛中實(shí)現(xiàn)良好的語音識別和/或良好的免提電話通話質(zhì)量可能是有問題的。噪音源包括由風(fēng)、機(jī)械和結(jié)構(gòu)部件、輪胎、乘客、發(fā)動(dòng)機(jī)、排氣裝置、暖通空調(diào)(HVAC)空氣壓力等產(chǎn)生的聲音。車廂音響效果也影響語音識別和免提通話質(zhì)量。車輛內(nèi)部材料、幾何形狀等,將對用戶的聲音到負(fù)責(zé)語音識別和/或免提電話呼叫任務(wù)的免提麥克風(fēng)的傳播有影響。
[0002]語音識別引擎的訓(xùn)練和評估或者免提通話質(zhì)量的評估的傳統(tǒng)的方法包括在各種測試條件下在各種路面上駕駛車輛。在免提麥克風(fēng)的輸出端錄制嵌入在各種車輛背景聲音中的人的話音。這些錄制然后用于隨后的語音識別或用于免提電話通話評估。這種傳統(tǒng)的方法是非常耗費(fèi)時(shí)間、邏輯困難、昂貴的,并且充滿實(shí)驗(yàn)可變性。
【附圖說明】
[0003]圖1是用于生成車輛語音文件的第一示例性系統(tǒng)的框圖;
[0004]圖2是用于生成車輛語音文件的第二示例性系統(tǒng)的框圖;
[0005]圖3是用于生成車輛語音文件的第三示例性系統(tǒng)的框圖;
[0006]圖4是說明用于生成語音文件的示例性程序的程序流程圖。
【具體實(shí)施方式】
[0007]這里公開了包括生成在語音識別訓(xùn)練和/或評估、免提麥克風(fēng)評估等中使用的語音文件的車輛車廂聲學(xué)脈沖響應(yīng)的有利系統(tǒng)和方法。目前公開的主題有利地消除了對車輛的長期或持續(xù)使用的需求,因?yàn)檐囕v僅需要背景噪音條件和車廂脈沖響應(yīng)的總體上一次性錄制。在那之后,車輛是沒有必要的。車廂脈沖響應(yīng)以及通常也錄制的背景噪音,可以與話音相結(jié)合,話音可以在實(shí)驗(yàn)室環(huán)境中實(shí)時(shí)提供,和/或來自預(yù)錄的數(shù)據(jù)庫。公開的系統(tǒng)和方法也有潛力生成大的語音數(shù)據(jù)庫,大的語音數(shù)據(jù)庫可以用于包括自動(dòng)語音識別引擎的訓(xùn)練的許多目的。
[0008]圖1是用于生成車輛語音文件36的第一示例性系統(tǒng)10的框圖。系統(tǒng)10包括用于生成車輛背景聲音的子系統(tǒng)11。車輛聲音數(shù)據(jù)庫12存儲從車輛錄制的聲音。例如,可以根據(jù)例如不同的路面、不同的速度、不同的環(huán)境條件等這樣的各種參數(shù)在試車跑道上駕駛車輛。例如使用位于車輛車廂中的一個(gè)或多個(gè)位置處的具有麥克風(fēng)的錄制裝置,可以錄制聲音文件以用于這樣的參數(shù)的各種排列,并且聲音文件存儲在數(shù)據(jù)庫12中。
[0009]可以以已知的方式設(shè)置房間均衡器14,以根據(jù)設(shè)置有揚(yáng)聲器16的房間、實(shí)驗(yàn)室等的聲學(xué)特性來調(diào)整從聲音數(shù)據(jù)庫12中的文件提供的聲音。使用均衡器14的目的是使來自揚(yáng)聲器16的聲音具有相同或相似的頻譜形狀,頻譜形狀是當(dāng)數(shù)據(jù)庫12中的錄制的聲音根據(jù)錄制聲音用的參數(shù)提供到車輛中的免提麥克風(fēng)時(shí)數(shù)據(jù)庫12中的錄制的聲音的頻率應(yīng)該具有的頻譜形狀。例如,可以根據(jù)房間的已知特性調(diào)節(jié)均衡器14,并且僅當(dāng)房間配置一一即房間音響效果一一改變時(shí),重新調(diào)整均衡器14??蛇x地,通過監(jiān)控到麥克風(fēng)28的輸入并且根據(jù)這個(gè)輸入來調(diào)整均衡器14以相對于在房間中播放的來自揚(yáng)聲器16的聲音在麥克風(fēng)28處提供平坦的頻率響應(yīng),可以實(shí)時(shí)或?qū)嵸|(zhì)上實(shí)時(shí)地控制均衡器14。進(jìn)一步可選地,房間、實(shí)驗(yàn)室等的聲學(xué)脈沖響應(yīng)可以被測量,并且可以與數(shù)據(jù)庫12中的車輛聲音卷積。
[0010]揚(yáng)聲器16用于播放來自數(shù)據(jù)庫12的聲音。注意,為了便于描述和說明,圖1中包括并且在本說明書中涉及一個(gè)揚(yáng)聲器16,但是子系統(tǒng)11可以包括位于房間、實(shí)驗(yàn)室等中不同位置處的多個(gè)揚(yáng)聲器16。此外,應(yīng)當(dāng)理解的是,針對房間中不同位置處的不同的揚(yáng)聲器16,可以不同地調(diào)整均衡器14。
[0011]系統(tǒng)10進(jìn)一步地包括用于模擬車輛乘員語音一一即用于提供一個(gè)或多個(gè)話音的子系統(tǒng)17。比如已知的,麥克風(fēng)28接收通過揚(yáng)聲器16以及頭部和軀干模擬器(HATS) 26播放的聲音。子系統(tǒng)17進(jìn)一步地包括錄制的話音數(shù)據(jù)庫18,錄制的話音數(shù)據(jù)庫18包括根據(jù)在寂靜、非混響的環(huán)境中的人類說話者的話音錄制的一個(gè)或多個(gè)聲音文件。例如,數(shù)據(jù)庫18中的聲音文件可以包括到免提電話系統(tǒng)的命令、用于語音識別訓(xùn)練的樣本話音等。聲音文件從錄制的話音數(shù)據(jù)庫18提供到HATS 26。提供HATS均衡器20和房間均衡器22以在聲音從HATS 26輸出之前調(diào)整來自錄制的話音數(shù)據(jù)庫18的聲音文件。使用除房間均衡器22之外的HATS均衡器20的目的是當(dāng)聲音從HATS 26輸出時(shí)防止來自數(shù)據(jù)庫18的話音被HATS 26頻譜地改變。房間均衡器22與房間均衡器14不同,因?yàn)榉块g均衡器22將提供從HATS 口到麥克風(fēng)的平坦的頻率響應(yīng),而房間均衡器14提供從揚(yáng)聲器16到麥克風(fēng)的平坦頻率響應(yīng)。
[0012]此外,具有處理器和存儲器的計(jì)算裝置可以使用存儲的車輛聲學(xué)脈沖響應(yīng)24來調(diào)整來自錄制的話音數(shù)據(jù)庫18的聲音。也就是說,脈沖響應(yīng)24可以與均衡的錄制的話音卷積以在麥克風(fēng)28處生成來自HATS 26的具有頻譜整形和由于車輛車廂音響效果而將存在的混響的話音??梢砸砸阎姆绞綔y量聲學(xué)脈沖響應(yīng)24,并且,如已知的,聲學(xué)脈沖響應(yīng)24描述聲學(xué)空間或隔聲罩的聲學(xué)特性。
[0013]如上所述,一旦通過均衡器20、22并且根據(jù)車輛脈沖響應(yīng)24處理來自數(shù)據(jù)庫18的聲音,并且也如上所述,當(dāng)來自車輛聲音數(shù)據(jù)庫12的、由均衡器14處理的聲音是通過揚(yáng)聲器16播放時(shí),HATS 26可以用于向麥克風(fēng)28提供錄制的話音,從而產(chǎn)生包括由揚(yáng)聲器16產(chǎn)生的車輛聲音的輸出聲音30。輸出聲音30可以提供給計(jì)算機(jī)32,即具有處理器和存儲器的裝置,存儲由處理器可執(zhí)行的指令的存儲器用于執(zhí)行包括在這里描述的步驟的各種步驟。計(jì)算機(jī)32可以使用輸出聲音30來生成一個(gè)或多個(gè)語音文件36。
[0014]此外,除使通過麥克風(fēng)28接收的聲音簡單地?cái)?shù)字化為比如WAV(聲音資源文件)文件諸如此類的聲音文件之外,計(jì)算機(jī)32可以執(zhí)行附加處理。例如,當(dāng)生成語音文件或文件36的目的是評估車輛中的免提麥克風(fēng)時(shí),在生成語音文件或文件36期間,免提麥克風(fēng)脈沖響應(yīng)34可以應(yīng)用于輸出聲音30。如上所述,比如麥克風(fēng)脈沖響應(yīng)34這樣的聲學(xué)脈沖響應(yīng)是已知的,而且可以與輸出聲音30卷積以生成語音文件36。
[0015]可以以各種方式使用語音文件36以評估免提通話質(zhì)量或自動(dòng)語音識別系統(tǒng)的性能。例如,通過將語音文件36應(yīng)用于產(chǎn)生藍(lán)牙輸出信號諸如此類的免提電話處理系統(tǒng),可以評估免提通話質(zhì)量。這個(gè)藍(lán)牙輸出信號連同來自話音數(shù)據(jù)庫18的語音文件以及輸出聲音30,為歐洲電信標(biāo)準(zhǔn)協(xié)會(ETSI)標(biāo)準(zhǔn)EG 202396-3和TS 103106的執(zhí)行提供必要的信號。其他免提通話質(zhì)量措施也可以與這些信號一起使用。此外,來自藍(lán)牙輸出、聲音輸出30或語音文件36的語音數(shù)據(jù)可以供應(yīng)給自動(dòng)語音識別引擎,以用受車輛背景噪音、車輛音響效果、免提麥克風(fēng)頻率響應(yīng)和藍(lán)牙處理影響的語音話音來評估語音識別引擎的性能。語音文件也可以用于自動(dòng)語音識別引擎的訓(xùn)練。
[0016]圖2是用于生成車輛語音文件36的第二示例性系統(tǒng)10’的框圖。代替HATS 26,系統(tǒng)10’利用人類測試者38向麥克風(fēng)28提供話音。因此,系統(tǒng)10’的背景聲音模擬子系統(tǒng)11’省略在系統(tǒng)10的子系統(tǒng)11中看到的房間均衡器14和揚(yáng)聲器16。相反,在系統(tǒng)10’中,聲音從車輛聲音數(shù)據(jù)庫12直接提供到可以由測試者38戴著的耳機(jī)40。向耳機(jī)40提供車輛聲音的目的是應(yīng)對所謂的倫巴效應(yīng)(Lombard effect),即其中人類可以調(diào)整音量和/或語音的音調(diào)以補(bǔ)償背景噪音的現(xiàn)象。
[0017]此外,系統(tǒng)10’的語音模擬子系統(tǒng)17’省略錄制的話音數(shù)據(jù)庫18連同均衡器20、22,因?yàn)樵捯羰怯蓽y試者38提供給“近距離”麥克風(fēng)28,因此不需要來自數(shù)據(jù)庫18的話音。(注意,可以包括從背景聲音數(shù)據(jù)庫12提供到耳機(jī)40的聲音的耳機(jī)均衡從而為耳機(jī)提供平坦的頻率響應(yīng)。)。與系統(tǒng)10不同,在系統(tǒng)10’中,麥克風(fēng)28位于足夠靠近說話者的位置,因此不需要系統(tǒng)10中包括的均衡器22。相反,根據(jù)從測試者38接收到的語音,從麥克風(fēng)28提供輸出聲音30。然后,計(jì)算機(jī)32可以將聲音30與車輛脈沖響應(yīng)34卷積。然后將卷積的話音添加到來自車輛聲音數(shù)據(jù)庫12的車輛背景噪音中。其結(jié)果然后與免提麥克風(fēng)響應(yīng)34卷積以生成一個(gè)或多個(gè)語音文件36,語音文件36已經(jīng)被強(qiáng)加免提麥克風(fēng)、車輛音響效果和車輛背景噪音的影響。
[0018]比如關(guān)于系統(tǒng)10描述的那些這樣的輸出信號也可用于系統(tǒng)10’中的免提通話質(zhì)量和語音識別評估。系統(tǒng)10’的麥克風(fēng)28輸出總體上相當(dāng)于系統(tǒng)10的話音數(shù)據(jù)庫18中存儲的數(shù)據(jù)。與車輛脈沖響應(yīng)24外加來自車輛聲音數(shù)據(jù)庫12的車輛背景噪音卷積的輸出聲音30可以提供與來自系統(tǒng)10的輸出聲音30的那些信號總體上等效的信號。最后,語音文件36到產(chǎn)生藍(lán)牙輸出信號諸如此類的免提電話處理系統(tǒng)的應(yīng)用將為免提通話質(zhì)量評估提供必要的信號。此外,來自藍(lán)牙輸出、輸出聲音30或語音文件36的語音數(shù)據(jù)可以供應(yīng)給自動(dòng)語音識別引擎,以用受車輛背景噪音、車輛音響效果、免提麥克風(fēng)頻率響應(yīng)和藍(lán)牙處理影響的語音話音來評估語音識別引擎的性能。語音文件也可以用于自動(dòng)語音識別引擎的訓(xùn)練。
[0019]圖3是用于生成車輛語音文件36的第三示例性系統(tǒng)10”的框圖。系統(tǒng)10”省略HATS 26和人類測試者38兩者。以與上面關(guān)于系統(tǒng)10’討論的子系統(tǒng)11’相似的方式提供背景聲音模擬子系統(tǒng)11”。然而,在系統(tǒng)10”中,系統(tǒng)17”與其他變體不同之處在于錄制的話音18與車輛脈沖響應(yīng)卷積并且直接提供給計(jì)算機(jī)32。在計(jì)算機(jī)32中,將卷積的話音添加到來自車輛聲音數(shù)據(jù)庫12的車輛背景噪音中。產(chǎn)生的聲音進(jìn)一步地與免提麥克風(fēng)脈沖響應(yīng)卷積。計(jì)算機(jī)32從而生成一個(gè)或多個(gè)語音文件36,語音文件36已經(jīng)被強(qiáng)加