音頻分類器的制作方法

文檔序號(hào)：11136042閱讀：348來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及音頻分類器和音頻分類的領(lǐng)域。具體來說(但不排除其它)，本發(fā)明涉及包括音頻分類器的話音辨識(shí)系統(tǒng)。

背景技術(shù)：

話音控制是用于多種計(jì)算裝置應(yīng)用的研究和開發(fā)的重要領(lǐng)域，例如用于移動(dòng)電信裝置中的話音辨識(shí)功能的實(shí)施。早期話音辨識(shí)系統(tǒng)嘗試通過分析聲波包絡(luò)等等來辨識(shí)話音命令。話音辨識(shí)的更為新近的發(fā)展包括以與人類如何辨識(shí)語音類似的方式解譯用詞和語法的系統(tǒng)。此些話音辨識(shí)系統(tǒng)已被證明是用于提供自然語言用戶接口的更精確和有效的機(jī)制。

許多話音辨識(shí)系統(tǒng)中遇到的困難是，話音辨識(shí)功能性對(duì)于在使用時(shí)裝置的處理能力和功率消耗有顯著需求。這些需求對(duì)于其中處理功率和電池容量通常受約束的移動(dòng)計(jì)算裝置來說可能成問題。對(duì)于一些應(yīng)用，需要在“始終開啟”模式中提供話音辨識(shí)以便提供改進(jìn)的用戶體驗(yàn)。然而，與話音辨識(shí)系統(tǒng)的需求相關(guān)聯(lián)的問題因持續(xù)提供話音辨識(shí)功能性而加劇。

用于減少話音辨識(shí)系統(tǒng)的處理開銷和功率消耗的選擇包括實(shí)施關(guān)鍵字檢測器，其中僅檢測到特定關(guān)鍵字時(shí)起始話音辨識(shí)；或需要用戶在交互之前按壓按鈕。然而，這些解決方案需要用戶修改其行為以便起始話音辨識(shí)且因此中斷了用戶體驗(yàn)。

揚(yáng)聲器驗(yàn)證系統(tǒng)遭受與話音辨識(shí)系統(tǒng)相同的問題，因?yàn)樵摀P(yáng)聲器驗(yàn)證系統(tǒng)也可需要顯著處理能力，這就是為何該揚(yáng)聲器驗(yàn)證系統(tǒng)可主要由應(yīng)用處理器(application processor，AP)支持，該應(yīng)用處理器通常包括在例如使用10到20MHz微控制器以及ARM架構(gòu)的高端裝置中。

技術(shù)實(shí)現(xiàn)要素：

根據(jù)本發(fā)明的第一方面，提供一種音頻分類器，該音頻分類器包括：第一處理器，該第一處理器具有硬連線邏輯，該硬連線邏輯被配置成接收音頻信號(hào)且從該音頻信號(hào)檢測音頻活動(dòng)；以及

第二處理器，該第二處理器具有可重新配置的邏輯，該可重新配置的邏輯被配置成響應(yīng)于第一處理器檢測音頻活動(dòng)而將該音頻信號(hào)分類為一類型的音頻信號(hào)。

本發(fā)明使得能夠以計(jì)算上有效且功率有效的方式分類音頻活動(dòng)。該分類可提供為針對(duì)音頻辨識(shí)系統(tǒng)的觸發(fā)，代替于例如使用關(guān)鍵字或用戶按壓按鈕，且因此實(shí)現(xiàn)激活音頻辨識(shí)系統(tǒng)的改進(jìn)的方法。

第二處理器的可重新配置的邏輯可被配置成結(jié)合軟件或固件執(zhí)行該分類。第二處理器可具有第一級(jí)。第二處理器可具有第二級(jí)。第二處理器的第一級(jí)可由與第二處理器的第二級(jí)分離的處理單元提供。第二處理單元的第一級(jí)可被配置成結(jié)合同件執(zhí)行分類。第二處理單元的第二級(jí)可被配置成結(jié)合軟件執(zhí)行分類。

第二處理器的可重新配置的邏輯可為話音活動(dòng)檢測器。第二處理單元的第二級(jí)可為話音活動(dòng)檢測器。第二處理器的可重新配置的邏輯可被配置成將音頻分類為語音或非語音。

第一處理器的硬連線邏輯可被配置成將與音頻信號(hào)相關(guān)聯(lián)的一個(gè)或多個(gè)量度提供到第二處理器。該量度可包括在一時(shí)間間隔內(nèi)音頻信號(hào)的平均背景電平。第一處理器的硬連線邏輯可被配置成確定音頻信號(hào)的能量以便檢測音頻活動(dòng)。第一處理器的硬連線邏輯可被配置成對(duì)模擬音頻信號(hào)操作。

第二處理器可包括模/數(shù)轉(zhuǎn)換器，該模/數(shù)轉(zhuǎn)換器被配置成使模擬音頻信號(hào)數(shù)字化。第二處理器的第一級(jí)可包括模/數(shù)轉(zhuǎn)換器，該模/數(shù)轉(zhuǎn)換器被配置成使模擬音頻信號(hào)數(shù)字化。第二處理器可為混合信號(hào)處理器。可重新配置的邏輯可被配置成將經(jīng)數(shù)字化的音頻信號(hào)分類。

第二處理器的可重新配置的邏輯可被配置成確定音頻信號(hào)的一個(gè)或多個(gè)特征，且根據(jù)該一個(gè)或多個(gè)特征將音頻信號(hào)分類。第二處理器的第二級(jí)可被配置成確定音頻信號(hào)的一個(gè)或多個(gè)特征，且根據(jù)該一個(gè)或多個(gè)特征將音頻信號(hào)分類。該一個(gè)或多個(gè)特征可專門包括：音調(diào)功率比；短期能量；波峰因數(shù)；以及0交叉速率。

第二處理器的第一級(jí)可被配置成將與音頻信號(hào)相關(guān)聯(lián)的一個(gè)或多個(gè)量度提供到第二處理器的第二級(jí)。該一個(gè)或多個(gè)量度可包括在一時(shí)間間隔內(nèi)音頻信號(hào)的平均背景電平。第一處理器可被配置成確定音頻信號(hào)的能量以便檢測音頻活動(dòng)。第一處理器可被配置成對(duì)模擬音頻信號(hào)操作。

還公開一種音頻分類器，該音頻分類器包括處理器，該處理器具有硬連線邏輯，該硬連線邏輯被配置成接收音頻信號(hào)和從音頻信號(hào)檢測音頻活動(dòng)。該音頻分類器可另外包括本文中所公開的特征中的任一個(gè)特征。

根據(jù)另外的方面，提供一種音頻辨識(shí)系統(tǒng)，該音頻辨識(shí)系統(tǒng)包括：

音頻分類器；以及

音頻辨識(shí)單元，該音頻辨識(shí)單元被配置成響應(yīng)于第二處理器將音頻分類為特定類型音頻信號(hào)而從音頻信號(hào)確定一個(gè)或多個(gè)音頻片段。

音頻辨識(shí)系統(tǒng)可為話音辨識(shí)系統(tǒng)。音頻辨識(shí)單元可為話音辨識(shí)單元，該話音辨識(shí)單元被配置成響應(yīng)于第二處理器將音頻信號(hào)分類為話音信號(hào)而從音頻信號(hào)確定一個(gè)或多個(gè)詞。音頻辨識(shí)系統(tǒng)可為音樂辨識(shí)系統(tǒng)。音頻辨識(shí)單元可為音樂辨識(shí)單元，該音樂辨識(shí)單元被配置成響應(yīng)于第二處理器將音頻信號(hào)分類為音樂而從音頻信號(hào)確定一首音樂的標(biāo)識(shí)。

根據(jù)另外的方面，提供一種移動(dòng)計(jì)算裝置，該移動(dòng)計(jì)算裝置包括話音辨識(shí)系統(tǒng)或音頻分類器。

附圖說明

現(xiàn)將僅借助于實(shí)例且參看附圖描述本發(fā)明的一個(gè)或多個(gè)實(shí)施例，附圖中：

圖1示出音頻分類器的框圖；

圖2示出音頻辨識(shí)系統(tǒng)的框圖；

圖3示出另一音頻分類器的框圖；

圖4示出另外的音頻分類器的框圖；

圖5示出由音頻分類器的第二處理器(例如參看圖4描述)使用軟件執(zhí)行的過程的框圖；

圖6a到6d示出音頻信號(hào)的特征；

圖7a和7b示出使用不同特征閾值歸類的音頻信號(hào)；

圖8示出音頻辨識(shí)系統(tǒng)的架構(gòu)的框圖；

圖9a和9b示出說明圖8的音頻辨識(shí)系統(tǒng)的性能的圖表；以及

圖10示出說明圖8的音頻辨識(shí)系統(tǒng)的性能的圖表。

具體實(shí)施方式

圖1示出音頻分類器100的示意性表示。音頻分類器100包括第一處理器102和第二處理器104。第一處理器具有硬連線邏輯，該硬連線邏輯被配置成接收音頻信號(hào)106和從音頻信號(hào)106檢測音頻活動(dòng)。硬連線邏輯由特定電路布置提供。第二處理器104具有可重新配置的邏輯，該可重新配置的邏輯被配置成響應(yīng)于第一處理器檢測音頻活動(dòng)而將音頻信號(hào)的分類提供為一類型的音頻信號(hào)。該可重新配置的邏輯可基于軟件或固件指令設(shè)定。第一處理器提供關(guān)于有用音頻信號(hào)是否在低功率消耗的情況下存在的粗略指南。第二處理器確認(rèn)可以較高功率消耗為代價(jià)的音頻活動(dòng)的存在。音頻分類器100可因此被認(rèn)為提供低功率激活編解碼器。

音頻分類器100可提供為音頻辨識(shí)系統(tǒng)的前端，例如語音/揚(yáng)聲器辨識(shí)、揚(yáng)聲器驗(yàn)證或話音命令，以便通過僅向音頻辨識(shí)系統(tǒng)饋送有用的音頻幀而整體上減少系統(tǒng)的功率消耗。有用的音頻幀可由看起來類似語音信號(hào)(在話音辨識(shí)的情況下)的音頻區(qū)段提供，且可濾除任何其它種類的信號(hào)(包括背景語音信號(hào)的背景噪聲)。此編解碼器實(shí)現(xiàn)智能電話、平板計(jì)算機(jī)或可穿戴設(shè)備上的計(jì)算和功率有效的“始終開啟”收聽模式，而不會(huì)約束用戶通過例如按壓按鈕與其移動(dòng)裝置交互。

圖2示出用于移動(dòng)計(jì)算裝置的音頻辨識(shí)系統(tǒng)250的示意圖。音頻辨識(shí)系統(tǒng)250包括麥克風(fēng)252、類似于參看圖1描述的音頻分類器的音頻分類器200，和音頻辨識(shí)單元254。音頻辨識(shí)單元254被配置成響應(yīng)于音頻分類器200的第二處理器204將音頻信號(hào)206分類為特定類型的音頻信號(hào)而從音頻信號(hào)206確定一個(gè)或多個(gè)音頻片段。

舉例來說，音頻辨識(shí)系統(tǒng)250可提供話音辨識(shí)系統(tǒng)。在話音辨識(shí)系統(tǒng)中，第二處理器204的可重新配置的邏輯向話音活動(dòng)檢測器提供第二處理器204的可重新配置的邏輯，該可重新配置的邏輯被配置成將音頻信號(hào)206分類為語音或非語音。音頻辨識(shí)單元254提供話音辨識(shí)單元，該話音辨識(shí)單元被配置成響應(yīng)于第二處理器204將音頻信號(hào)206分類為話音信號(hào)而從音頻信號(hào)206確定一個(gè)或多個(gè)詞?？商鎿Q的是，音頻片段可為例如音樂的片段。

音頻分類器200可提供為可與語音辨識(shí)系統(tǒng)分離的獨(dú)立單元。由此，音頻分類器可與現(xiàn)有語音/揚(yáng)聲器辨識(shí)引擎組合以便改進(jìn)該音頻分類器的效率。音頻分類器的實(shí)施方案不必考慮由語音辨識(shí)系統(tǒng)的辨識(shí)引擎使用的技術(shù)/類型的算法，且因此可具備多種不同類型的音頻辨識(shí)系統(tǒng)。然而，音頻分類器的特定實(shí)施方案可適于與特定辨識(shí)引擎一起工作以便改進(jìn)總體性能。舉例來說，一些話音辨識(shí)系統(tǒng)具有其自身的話音檢測器，該話音檢測器由辨識(shí)引擎驅(qū)動(dòng)以避免遺漏有用語音的一部分。音頻分類器可因此基于關(guān)于音頻辨識(shí)引擎的特定實(shí)施方案的先驗(yàn)信息來配置，音頻分類器希望與該音頻辨識(shí)引擎一起使用以便利用由辨識(shí)引擎計(jì)算的信息。舉例來說，一些音頻辨識(shí)引擎可將“辨識(shí)待決”信號(hào)發(fā)送到音頻分類器以便迫使該音頻分類器將傳入信號(hào)分類為語音片段。換句話說，此音頻辨識(shí)引擎驅(qū)動(dòng)音頻分類器使得該音頻分類器保持活躍且向辨識(shí)引擎饋送麥克風(fēng)信號(hào)。

圖3示出另一音頻分類器300的示意性表示。音頻分類器300包括第一處理器302、第二處理器304和麥克風(fēng)352，該麥克風(fēng)352用于提供模擬音頻信號(hào)306a。

該第一處理器類似于先前參看圖1和2描述的第一處理器。該第一處理器具有硬連線邏輯，該硬連線邏輯被配置成接收模擬音頻信號(hào)306a，且通過確定模擬音頻信號(hào)的能量以便檢測用于計(jì)算噪聲背景形狀的長期(大于一秒或幾秒)估計(jì)值的音頻活動(dòng)來從模擬音頻信號(hào)306a檢測音頻活動(dòng)。

在此實(shí)例中的第二處理器304的可重新配置的邏輯具有第一級(jí)和第二級(jí)。每一級(jí)可由不同協(xié)處理器提供。第一級(jí)被配置成解譯固件指令308，且第二級(jí)被配置成解譯軟件310。以此方式，第二處理器304結(jié)合固件指令308和軟件指令310執(zhí)行分類?？商鎿Q的是，第二處理器可被配置成僅使用軟件指令執(zhí)行該分類。

模/數(shù)轉(zhuǎn)換器由作用于固件指令308的第二處理器304提供?？商鎿Q的是，模/數(shù)轉(zhuǎn)換器可由第一處理器302的硬件提供。模/數(shù)轉(zhuǎn)換器被配置成數(shù)字化模擬音頻信號(hào)306a且提供數(shù)字音頻信號(hào)306b。

第二處理器304的可重新配置的邏輯被配置成使用軟件指令310確定數(shù)字音頻信號(hào)306b的一個(gè)或多個(gè)特征，且根據(jù)該一個(gè)或多個(gè)特征將該經(jīng)數(shù)字化的音頻信號(hào)306b分類。該一個(gè)或多個(gè)特征可專門包括：音調(diào)功率比；短期能量；波峰因數(shù)；以及0交叉速率。

因此，所提出的解決方案拆分成兩個(gè)級(jí)：第一級(jí)，即模擬處理器302以及第二級(jí)，即數(shù)字處理器304。第一級(jí)在使用時(shí)與第二處理器304相比具有較低復(fù)雜性和功率消耗。

圖4更詳細(xì)地示出類似于先前參看圖3描述的音頻分類器的另一音頻分類器400的框圖。音頻分類器400可提供有效的低功率激活編解碼器以及模/數(shù)(analogue-to-digital，A/D)轉(zhuǎn)換器架構(gòu)(低電壓)和低復(fù)雜性話音活動(dòng)檢測器(voice activity detector，VAD)協(xié)處理器。

音頻分類器400操作所基于的原理如下：

1.由麥克風(fēng)452所拾取的模擬音頻信號(hào)406a由第一處理器402的硬件檢測器監(jiān)視，該硬件檢測器以例如16kHz的低取樣速率執(zhí)行包絡(luò)檢測。

2.一旦由第一處理器402檢測到音頻信號(hào)406a中的電平改變，就改變第二處理器404的音頻取樣速率以遞送較高信噪比。使用固件指令操作FIFO緩沖器以緩沖接下來的樣本達(dá)300ms或200與300ms之間。在此實(shí)例中，F(xiàn)IFO緩沖器具有16kHz的取樣速率和16位的分辨率，且由在8MHz下操作的數(shù)字信號(hào)處理器實(shí)施。固件前端：

a.在200ms分析窗口內(nèi)緩沖16kHz音頻樣本

b.使用包絡(luò)檢測通過以1ms到100ms的范圍內(nèi)的不同時(shí)間常數(shù)對(duì)輸入信號(hào)的能量濾波來確認(rèn)分析窗口內(nèi)信號(hào)的能量顯著(高于能量閾值)。在分析窗口的周期內(nèi)將短期與長期估計(jì)器之間的差積分以便決定拒絕音頻緩沖器還是繼續(xù)軟件VAD及其頻譜分析。

c.調(diào)整由硬件協(xié)處理器或第一處理器402提供的能量檢測器的增益和檢測閾值412。以此方式，第二處理器404被配置成將與模擬音頻信號(hào)406a相關(guān)聯(lián)的一個(gè)或多個(gè)量度412提供到第一處理器402。

3.話音活動(dòng)檢測器由第二處理器404的軟件指令410提供以便再處理200ms緩沖器并確認(rèn)音頻活動(dòng)(例如語音)存在與否。話音活動(dòng)檢測器能夠利用由第二處理器404使用固件指令408計(jì)算的背景噪聲411的估計(jì)值。

可基于青少年和成年人對(duì)移動(dòng)裝置的典型日常使用實(shí)現(xiàn)由音頻分類器的一些實(shí)施方案提供的效率節(jié)省。第一處理器采取音頻活動(dòng)所處的閾值可根據(jù)用戶的簡檔或用戶的類別來沒定，以便改進(jìn)音頻分類器的效率和輸出準(zhǔn)確性。

圖5示出由第二處理器的軟件指令提供的實(shí)例話音活動(dòng)檢測器(voice activity detector，VAD)500的框圖。下文使用Matlab記法提供VAD 500的實(shí)例算法。

VAD 500通過將數(shù)字音頻信號(hào)506b拆分522為32ms的幀(16kHz下)而開始，其中不存在分析窗口且無重疊。

VAD 500從每一幀提取524一個(gè)或多個(gè)測得的特征。優(yōu)選地，提取至少3個(gè)特征以便提供適當(dāng)穩(wěn)健的分類。分類的準(zhǔn)確性根據(jù)所使用的特征的數(shù)目增加。然而，話音活動(dòng)檢測器的計(jì)算復(fù)雜性也根據(jù)所使用的特征的數(shù)目增加。

對(duì)于每一傳入幀，在16ms的子幀上計(jì)算三個(gè)短期特征。已經(jīng)發(fā)現(xiàn)相對(duì)于不同噪聲條件特別有利并且還限制軟件復(fù)雜性的特征為：

1.短期能量：用于語音/安靜檢測。然而，此特征在有噪聲的條件下(尤其在較低信噪比條件下)損失其效率。短期能量是針對(duì)信號(hào)的每一幀t計(jì)算的能量E的簡單短時(shí)測量值。

其中L為包括樣本n的幀大小。此處，為減小復(fù)雜性起見，不在麥克風(fēng)信號(hào)x上應(yīng)用分析窗口，且不存在連續(xù)幀之間的重疊。

2.頻譜波峰因數(shù)是有聲/無聲/安靜檢測的良好特征。此特征可在有限頻率范圍內(nèi)而非在輸入信號(hào)的完整頻譜上計(jì)算。頻譜波峰因數(shù)可從短時(shí)傅里葉變換(STFT)計(jì)算，且針對(duì)聲音的每一短時(shí)幀計(jì)算。頻譜波峰因數(shù)是STFT的峰值量值與STFT量值的總和的比率

其中M_t[n]是幀t和頻率區(qū)間n處傅里葉變換的量值。

3.音調(diào)功率比：其已發(fā)現(xiàn)是除先前兩個(gè)特征之外的真正可辨別的特征。通過計(jì)算音調(diào)分量的功率k與所有分量的總功率n的比率來獲得音調(diào)功率比?？赏ㄟ^保持STFT的僅頻率分量具有高于閾值G_T的其平方量值來進(jìn)行音調(diào)分量的功率的估計(jì)。

其中V＝{k，|M_t[k]|²＞G_T}

且，任選地：

4.0交叉速率：時(shí)域音頻信號(hào)在正與負(fù)之間改變的速率。0交叉速率可使用以下公式計(jì)算：

通常，盡管頻譜波峰因數(shù)和音調(diào)功率比提供互補(bǔ)信息，但這些特征的計(jì)算是基于共同量，且因此可通過利用共同量減少確定兩個(gè)特征的過程中的計(jì)算量。

以上四個(gè)特征(短期能量、頻譜波峰因數(shù)、音調(diào)功率比、0交叉比率)的組合已發(fā)現(xiàn)對(duì)于多種日?；顒?dòng)是有利的，且可提供功率消耗與分類準(zhǔn)確性之間的可接受的折衷。下文參看圖6a到6d描述組合特征以提供“多邊決策”的實(shí)例。

圖6a到6d示出與在12dB SNR處在購物中心記錄的音頻信號(hào)600相關(guān)聯(lián)的以上特征1到3的實(shí)例波譜。

圖6a示出音頻信號(hào)600相對(duì)于時(shí)間的正規(guī)化的振幅。音頻信號(hào)600具有由安靜(非語音)周期604分隔開的語音周期602。

圖6b示出音頻信號(hào)600隨著時(shí)間而變的短期能量606。圖6b中還示出用于分類語音602和非語音604的周期的短期能量閾值608。

圖6c示出音頻信號(hào)600隨著時(shí)間而變的頻譜波峰610。圖6c中還示出用于分類語音602和非語音604的周期的閾值水平612。

圖6d示出音頻信號(hào)隨著時(shí)間而變的音調(diào)功率比614。

如從圖6b到6d清楚的是，個(gè)別地獲得的特征中的每一個(gè)特征提供音頻信號(hào)在特定時(shí)間包括語音602還是非語音604的合理的估計(jì)值。通過組合這些特征，可提供穩(wěn)健的分類方案。舉例來說，如果特征的一個(gè)以上特征滿足預(yù)定閾值，那么軟件可將音頻幀分類為語音幀。此分類可被稱為多邊決策。

兩組閾值可用于短期能量和音調(diào)功率比。該閾值可變化以便相對(duì)于LPAM提供的噪聲電平估計(jì)值和全局可調(diào)諧閾值調(diào)整VAD的靈敏度。對(duì)于每一新的子幀，將短期能量值與全局閾值和噪聲電平估計(jì)值的總和進(jìn)行比較。目標(biāo)是根據(jù)背景噪聲條件和用戶的位置實(shí)現(xiàn)算法的自我調(diào)整。實(shí)際上，麥克風(fēng)上的語音電平取決于例如用戶接近還是遠(yuǎn)離裝置等因素而不同。不同組的閾值之間的切換在短期能量閾值上可見，尤其是在我們查看不存在語音的時(shí)間周期時(shí)?？商鎿Q的是，可使用具有短期特征的固定閾值。

返回到圖5，通過將經(jīng)提取特征524與閾值528比較來作出VAD決策526。使用經(jīng)提取特征524的閾值528的調(diào)適是必需的，以便跟蹤聲學(xué)環(huán)境中的時(shí)變改變。如果語音周期不當(dāng)?shù)胤诸悶樵肼曋芷冢敲撮撝档墓烙?jì)將被破壞。此破壞可影響音頻信號(hào)506b的后續(xù)幀522的分類。在一些應(yīng)用(例如一些移動(dòng)應(yīng)用)中，錯(cuò)分類可能尤其重要，因?yàn)橥ㄟ^觸發(fā)話音辨識(shí)應(yīng)用損耗能量，然而語音元素的遺漏導(dǎo)致話音辨識(shí)信息的損失。可根據(jù)針對(duì)特定應(yīng)用的要求沒定用于各種特征的閾值水平。舉例來說，在其中初級(jí)目標(biāo)是最小化功率消耗的應(yīng)用中，可能優(yōu)選的是潛在地?fù)p失某一有用信號(hào)以避免浪費(fèi)功率和分析安靜周期?？商鎿Q的是，在其中音頻信號(hào)中有用信息的損失并不可接受的應(yīng)用中，可通過分析安靜周期來進(jìn)行折衷。

圖7a示出相對(duì)于時(shí)間的音頻信號(hào)700，連同已經(jīng)識(shí)別為語音702a的周期的指示，其中該特征的閾值已經(jīng)設(shè)定使得不必要的分析時(shí)間最小化，以損耗一些有用語音703為代價(jià)。

圖7b示出相對(duì)于時(shí)間的音頻信號(hào)700，連同已經(jīng)識(shí)別為語音702b的周期的指示，其中該特征的閾值已經(jīng)設(shè)定使得無信息損耗，以分析安靜周期704b為代價(jià)。

返回到圖5，為確保VAD的平穩(wěn)行為，通過考慮過往決策的歷史獲得32ms時(shí)間幀上的基于幀的決策，且該決策由釋放時(shí)間控制校正。實(shí)際上，對(duì)于32ms的每一幀，我們獲得來自16ms信號(hào)分析的兩個(gè)決策。塊526影響16ms時(shí)間幀上的基于幀的決策。此對(duì)應(yīng)于多邊決策部分。

VAD校正塊530可基于決策歷史和釋放時(shí)間修改音頻分類器輸出的最后決策。最后10個(gè)決策可存儲(chǔ)在緩沖器中，這意味著最后160ms用于確認(rèn)當(dāng)前幀中的語音存在。一旦已確認(rèn)當(dāng)前幀中的語音存在，釋放時(shí)間就逆向觸發(fā)以便確保系統(tǒng)將不會(huì)抑制有用語音的一部分。

圖8示出用于話音辨識(shí)系統(tǒng)800的實(shí)例架構(gòu)。話音辨識(shí)系統(tǒng)800包括智能音頻放大器801和多核心處理器850。智能音頻放大器具有低功率音頻監(jiān)視(1ow power audio monitoring，LPAM)單元802，該低功率音頻監(jiān)視單元802可在硬件和固件中實(shí)施且對(duì)應(yīng)于參看先前實(shí)例描述的第一處理器和第二處理器的第一級(jí)。低功率音頻監(jiān)視單元802從麥克風(fēng)852接收音頻信號(hào)806，且將檢測到的音頻提供到緩沖器804，用于緩沖200ms樣本。200ms樣本包括檢測到的音頻/話音活動(dòng)，且使用例如串行端口接口從緩沖器404傳遞到多核心處理器850。多核心處理器可具備ARM架構(gòu)。實(shí)例處理器包括Cortex A57。多核心處理器850具有音頻集線器852和應(yīng)用處理器854。音頻集線器提供始終開啟關(guān)鍵字檢測檢驗(yàn)，且包括3秒緩沖器。音頻集線器850可提供參看先前實(shí)例描述的第二處理器的第二級(jí)的功能性。由此，在此實(shí)例中，第二處理器的第一級(jí)由與第二處理器的第二級(jí)分離的處理單元提供。應(yīng)用處理器854可被配置成運(yùn)行話音或音樂辨識(shí)軟件。

圖9a和9b示出說明圖8的音頻辨識(shí)系統(tǒng)的性能的圖表。圖9a示出針對(duì)包括音頻辨識(shí)系統(tǒng)的移動(dòng)裝置的實(shí)例日常使用案例中的時(shí)間分布的餅圖。裝置花費(fèi)當(dāng)天的50％在噪聲環(huán)境中，當(dāng)天的33％在安靜環(huán)境中，以及當(dāng)天的17％收聽話音。圖9b示出歸于第一處理器的硬連線邏輯(0.14mW的功率消耗)、解譯固件指令的第二處理器的第一級(jí)(0.85mW的功率消耗)和第二處理器的第二級(jí)(1mW或更大的功率消耗)的裝置能量消耗的比例。

圖10還示出說明各種使用條件中圖8的音頻辨識(shí)系統(tǒng)的性能的圖表。針對(duì)多種條件提供總功率消耗(以毫瓦計(jì))：安靜(0.21mW)、辦公室(0.46mW)、客廳(0.46mW)、繁忙街道(0.50mW)、體育場(0.67mW)、音樂會(huì)(1.00mW)。針對(duì)每一條件示出每一過程消耗的總功率消耗的比例。從圖10中的水平軸移開，示出功率消耗的塊以如下次序布置：第一處理器(硬連線邏輯-HWED)、第二處理器的第一級(jí)(固件邏輯-FWED)、第二處理器的第二級(jí)(軟件邏輯-VAD)和應(yīng)用處理器上運(yùn)行的話音辨識(shí)軟件(AP)。在具有高信噪比的安靜條件中，所消耗功率的大部分是由第一處理器消耗，但所消耗功率的總量為低。相比而言，在具有低信噪比的有噪聲條件中，所消耗功率的較大比例是由后續(xù)級(jí)(例如由第二處理器或話音辨識(shí)過程提供的功能)消耗，且所消耗功率的總量較大。

話音辨識(shí)系統(tǒng)可被配置成提供功能性，例如：

·話音激活，比如‘OK GOOGLE^TM，

·涵蓋兩個(gè)技術(shù)的話音命令

○基于關(guān)鍵字，比如‘CALL HOME’、‘STOP MUSIC’等

○基于自然語言，比如‘CALL MY WIFE’、‘SEND TEXT MESSAGE TO MY WIFE′S MOBILE THAT I WILL BE LATE’

具體來說，話音辨識(shí)系統(tǒng)可用于提供：

話音喚醒，始終開啟話音觸發(fā)：麥克風(fēng)打開且安靜地等待檢測到關(guān)鍵詞(或有用語音)?？墒褂蒙锝y(tǒng)計(jì)驗(yàn)證，可隨后執(zhí)行情緒的檢測、語言的檢測。所提議的音頻前端繼續(xù)饋送應(yīng)用處理器上運(yùn)行的算法直至用戶停止說話為止。

音樂傳感器，‘始終開啟Shazam’：一個(gè)麥克風(fēng)打開，搜索重復(fù)頻譜和節(jié)拍型式。一旦檢測到音樂或歌手話音，就啟動(dòng)網(wǎng)絡(luò)應(yīng)用以用于媒體相關(guān)數(shù)據(jù)交換(音樂文件、音樂會(huì)門票、用戶歸檔等)

元數(shù)據(jù)促成因素：處理麥克風(fēng)信號(hào)以提取待在與其它傳感器的傳感器集線器中合并的信息。在此情況下，辨識(shí)引擎不僅用于分析語音信號(hào)，而且用于分析任何相關(guān)環(huán)境聲音源。在此情況下，可不需要第二處理器的第二級(jí)。因此，用于辨識(shí)引擎的喚醒信號(hào)依賴于例如參看圖8描述的低功率音頻監(jiān)視(low power audio monitoring，LPAM)單元，來檢測背景噪聲的能量變化且將該能量變化報(bào)告給應(yīng)用處理器。由此，可考慮第二處理器的第一級(jí)來通過提供能級(jí)而分類音頻信號(hào)。由LPAM濾波的麥克風(fēng)信號(hào)接著可由應(yīng)用處理器處理以獲得聲音源方向、房間大小估計(jì)量、背景噪聲電平，或執(zhí)行用于上下文感知的音頻圖案辨識(shí)。使用案例實(shí)例包括在驅(qū)動(dòng)車輛之后停止引擎，且通知應(yīng)用處理器來自該應(yīng)用處理器的周圍環(huán)境(例如車庫、人員密集場所或警報(bào)器)的新背景噪聲。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3