專利名稱:基于多個話音活動檢測器的話音活動檢測的制作方法
技術(shù)領(lǐng)域:
本發(fā)明大體上涉及語音處理,且更具體地說,涉及話音活動檢測。
背景技術(shù):
話音活動檢測(VAD)是用于語音處理中的技術(shù),其中在音頻信號(其也可含有音樂、噪聲或其它聲音)的若干部分中檢測人類語音(話音)的存在或不存在。VAD的主要用途是在話音譯碼和語音辨識中。VAD可促進語音處理,且還可用以在非語音區(qū)段期間去活一些進程其可避免對靜默的不必要譯碼/發(fā)射,從而節(jié)約計算和網(wǎng)絡(luò)帶寬。VAD是用于多種基于語音的應(yīng)用的一種重要啟用技術(shù)。習慣上,通常在單個裝置 (例如通信手持機)中從輸入音頻信號本地估計VAD信息。話音通信系統(tǒng)中的VAD應(yīng)能夠在存在非常不同類型的聲學背景噪聲的情況下檢測話音。檢測有噪聲環(huán)境中的話音的一個困難是有時遇到的非常低的信噪比(SNR)。在這些情形中,通常難以使用已知VAD技術(shù)來區(qū)分話音與噪聲或其它聲音。
發(fā)明內(nèi)容
本文所揭示的技術(shù)改進VAD,以便增強語音處理,例如話音譯碼。所揭示的VAD技術(shù)改進話音檢測的準確性和可靠性,且因此改進取決于VAD的功能,例如噪聲減少、回音消除、速率譯碼等。通過使用可從一個或一個以上單獨裝置提供的VAD信息來實現(xiàn)VAD改進??墒褂枚鄠€麥克風或提供較準確VAD的其它傳感器形態(tài)來產(chǎn)生VAD信息。VAD信息來自可彼此連接的多個裝置。根據(jù)一個方面,一種話音活動檢測(VAD)方法包含從包含于裝置中的第一話音活動檢測器接收第一 VAD信號;從不包含于所述裝置中的第二話音活動檢測器接收第二VAD信號;將所述第一和第二 VAD信號組合成VAD輸出信號;以及基于所述VAD輸出信號檢測話音活動。根據(jù)另一方面,一種系統(tǒng)包含;包含于裝置中的第一話音活動檢測器,其經(jīng)配置以產(chǎn)生第一 VAD信號;不包含于所述裝置中的第二話音活動檢測器,其經(jīng)配置以產(chǎn)生第二 VAD信號;以及控制邏輯,其與所述第一和第二話音活動檢測器組合,所述控制邏輯經(jīng)配置以將所述第一和第二 VAD信號組合成VAD輸出信號。根據(jù)另一方面,一種系統(tǒng)包含用于檢測第一位置處的話音活動的第一裝置;用于檢測第二位置處的話音活動的第二裝置;以及用于將來自所述第一和第二裝置的輸出組合成VAD信號的裝置。根據(jù)另一方面,一種計算機可讀媒體包含可由一個或一個以上處理器執(zhí)行的一組指令,所述計算機可讀媒體包含用于從包含于裝置中的第一話音活動檢測器接收第一VAD信號的代碼;用于從不包含于所述裝置中的第二話音活動檢測器接收第二 VAD信號的代碼;以及用于將所述第一和第二 VAD信號組合成VAD輸出信號的代碼。所屬領(lǐng)域的技術(shù)人員在審查以下圖以及詳細描述后將明白或變得明白其它方面、特征和優(yōu)點。希望所有此些額外特征、方面和優(yōu)點均包含在本描述內(nèi),且受所附權(quán)利要求書保護。
將理解,圖式僅用于說明目的。此外,圖中的組件不一定是按比例繪制的,而是將重點放在說明本文所述技術(shù)的原理上。在圖中,相同參考標號在不同視圖中始終表示對應(yīng)部分。圖I是示范性話音活動檢測(VAD)系統(tǒng)的圖。圖2是說明使用圖I的系統(tǒng)來檢測話音活動的方法的流程圖。圖3是展示作為圖I中所示的外部VAD處的SNR的函數(shù)的VAD信號加權(quán)因子的示范性曲線圖。
圖4是展示作為圖I中所示的內(nèi)部VAD處的SNR的函數(shù)的VAD信號加權(quán)因子的示范性曲線圖。圖5是展示包含VAD系統(tǒng)的示范性頭戴式耳機/手持機組合的圖。圖6是展示包含于圖5的頭戴式耳機和手持機中的某些組件的框圖。圖7是展示圖6中所示的手持機處理器的某些組件的框圖。
具體實施例方式參考且并入有圖式的以下詳細描述描述并說明ー個或ー個以上具體實施例。提供這些實施例不是為了限制,而是僅為了示范和教示,以充分的細節(jié)來展示并描述這些實施例,以使所屬領(lǐng)域的技術(shù)人員能夠?qū)嵺`所主張的內(nèi)容。因此,為了簡明起見,描述可省略所屬領(lǐng)域的技術(shù)人員已知的某些信息。詞語“示范性”在本發(fā)明中始終用以表示“充當實例、個例或說明”。不必將本文中描述為“示范性”的任何東西解釋為與其它方法或特征相比為優(yōu)選或有利的。在常規(guī)語音處理系統(tǒng)中,通常從例如麥克風信號(例如手機的麥克風信號)等音頻輸入信號估計話音活動檢測(VAD)。VAD是例如聲碼器和語音辨識裝置等許多語音處理裝置中的重要功能。如本文所掲示,話音活動檢測器位于可連接到主要裝置(例如、計算機、手機、其它手持式裝置等)的単獨裝置中。在主要裝置內(nèi),可進ー步處理來自單獨裝置的VAD信息,且語音處理發(fā)生。舉例來說,藍牙頭戴式耳機可連接到手機。手機中的聲碼器可包含VAD算法,其正常使用手機的麥克風輸入信號。當藍牙頭戴式耳機有效地連接到手機吋,藍牙頭戴式耳機的麥克風信號由VAD算法使用,而不是或結(jié)合手機的麥克風信號如果藍牙頭戴式耳機使用額外信息(例如多個麥克風、骨傳導(dǎo)或皮膚振動麥克風,或電磁(EM)多普勒雷達信號)來準確地估計用戶(目標)的VAD,那么此外部VAD信息也用于手機的聲碼器中,以改進聲碼器的性能。外部VAD信息可用以控制聲碼器功能,例如噪聲估計更新、回音消除(EC)、速率控制等。外部VAD信號可為從頭戴式耳機到手持機的I位信號,且可編碼到發(fā)射到手持機的音頻信號中,或可作為標頭信息嵌入到藍牙包中。接收手持機經(jīng)配置以解碼此外部VAD信號,且接著將其用于聲碼器中。
對于骨傳導(dǎo)和皮膚振動麥克風,當用戶講話時,用戶的皮膚和顱骨振動,且麥克風將皮膚振動轉(zhuǎn)換為模擬電信號。骨傳導(dǎo)和皮膚振動麥克風在有噪聲環(huán)境中提供優(yōu)點,因為話音信號不是像在使用常規(guī)麥克風的其它頭戴式耳機中那樣,從嘴部穿過空氣到達頭戴式耳機。因此,有效地將環(huán)境造成從傳遞到手持機的音頻信號中去除。對于使用聲學多普勒雷達裝置進行的話音活動檢測,使用傳感器來檢測說話者嘴部的動態(tài)狀態(tài)。在操作頻率下,背景噪聲大大衰減,從而使裝置變得在大多數(shù)操作條件下對外部聲學噪聲穩(wěn)健。不同于其它非聲學傳感器(例如骨傳導(dǎo)和皮膚振動傳感器),雷達裝置無需用膠帶粘貼或附接到說話者,使得其在大多數(shù)情形中更可接受。在外部VAD信號為藍牙(BT)包的I位旗標的情況下,I位旗標可包含在存取碼的尾部或每一藍牙包標頭中的類型字段中?;蛘撸琁位VAD旗標可包含在藍牙包的有效負載部分的指定位置中。在任一情況下,VAD信號為包含在每一 BT包中的單一位旗標。當旗標被設(shè)定時,其指示藍牙包包含由外部VAD檢測的話音。當VAD旗標未設(shè)定時,話音不存在于藍牙包的音頻有效負載中。發(fā)送嵌入BT標頭中的僅一個I位旗標提供離散信號(每塊或BT包I個位)??商娲厥褂镁哂卸鄠€位的旗標或表示外部VAD信號的多個旗標。 外部VAD減少傳統(tǒng)VAD中常常經(jīng)歷的語音處理錯誤,尤其是在低信噪比(SNR)情形中、在不穩(wěn)定噪聲和競爭話音情況下,以及在可能存在話音的其它情況下。另外,可識別目標話音,且外部VAD能夠提供目標話音活動的可靠估計??墒褂幂^可靠且準確的VAD來改進以下語音處理功能噪聲減少(NR),即對于較可靠的VAD,可在非話音區(qū)段中執(zhí)行較高NR ;話音和非話音區(qū)段估計;回音消除(EC),改進的雙重檢測方案;以及速率譯碼改進,其允許較積極的速率譯碼方案(針對非話音區(qū)段的較低速率)。圖I為示范性話音活動檢測系統(tǒng)10的圖。系統(tǒng)10包含裝置12,以及外部話音活動檢測器(VAD) 14,其連接到聲學傳感器,例如一個或一個以上麥克風16。與外部VAD 14相關(guān)聯(lián)的聲學傳感器可或者或另外包含一個或一個以上骨傳導(dǎo)或皮膚振動麥克風,或電磁(EM)多普勒雷達裝置,或此些傳感器和/或麥克風的任何合適組合。裝置12包含內(nèi)部話音活動檢測器(VAD) 18、控制邏輯20、語音處理器22(例如聲碼器)、一個或一個以上麥克風24,以及傳感器26。裝置12可為經(jīng)配置以執(zhí)行本文所揭示的功能的任何合適電子裝置,例如計算機、膝上型計算機、通信裝置(例如電話、蜂窩式電話)、個人數(shù)字助理(PDA)、游戲裝置等。內(nèi)部VAD 18可為實施VAD算法的任何合適裝置,且可集成為語音處理器22的部分??刂七壿?0響應(yīng)來自外部VAD 14、內(nèi)部VAD 18以及傳感器26的VAD信號。傳感器26感測環(huán)境操作條件,基于此些條件將輸入提供給控制邏輯20,所述輸入用以確定由控制邏輯20產(chǎn)生的VAD輸出信號。傳感器26可輸出控制輸入,其基于一個或一個以上環(huán)境操作條件,例如環(huán)境噪聲電平,例如在裝置12處且/或接近外部VAD14或在外部VAD 14處測得的信噪比(SNR)。傳感器26可包含麥克風16、24中的一者或兩者。外部VAD 14位于裝置12外部,且產(chǎn)生外部VAD信號,其由控制邏輯20接收。外部VAD 14可為實施VAD算法的任何合適裝置。外部VAD 14可包含于單獨裝置中,例如頭戴式耳機、揚聲器電話、車載套件等。外部VAD 14和裝置12可使用任何合適的通信媒體和協(xié)議彼此通信。外部VAD 14與裝置12之間的連接可為有線連接或無線連接,例如射頻(RF)或紅外線(IR)鏈接,例如藍牙鏈接,如由在WWW. bluetooth, com處可用的藍牙規(guī)范所定義。可將外部VAD信號編碼在傳送到裝置12的音頻數(shù)據(jù)中,或外部VAD信號可為包含在音頻包(例如藍牙包)中的旗標,如上文所述??刂七壿?0可將外部和內(nèi)部VAD信號組合成VAD輸出信號??刂七壿?0可通過使用基于來自傳感器26的環(huán)境輸入的加權(quán)因子對VAD信號中的每ー者進行加權(quán)來組合輸入VAD信號。下文結(jié)合圖3和4來描述可使用的加權(quán)因子和方法的ー些實例??苫赩AD輸出信號檢測話音活動。在圖I所示的實例中,將VAD輸出信號提供給語音處理器22,其將VAD輸出信號與閾值進行比較,以確定話音是否存在于正由語音處理器22處理的音頻信號中。語音處理器22可為依靠話音活動檢測的任何類型的語音處理組件,例如聲碼器。舉例來說,語音處理器22可為增強型可變速率編解碼器(EVRC),例如“用于寬帶擴頻數(shù)字系統(tǒng)的增強型可變速率編解碼器,語音服務(wù)選項3 (Bnhanced Variable Rate Codec, SpeechService Option 3for Wideband Spread Spectrum Digital Systems)”或 2004 年 4 月的第 3GPP2 C. S0014-A 期 3GPP2 中所指定的 EVRC。 內(nèi)部VAD 18和外部VAD 14所使用的VAD算法可為(例如)所屬領(lǐng)域的技術(shù)人員當前已知的任何合適VAD算法。舉例來說,可使用基于能量的VAD算法。這種類型的VAD算法計算信號能量,且將信號能量等級與閾值進行比較以確定話音活動。還可使用零交點計數(shù)型VAD算法。這種類型的VAD算法通過在輸入音頻信號從正波動到負且反之亦然時對每幀的零交點的數(shù)目進行計數(shù)來確定話音的存在??墒褂昧憬稽c的某一閾值來指示話音活動。并且,可使用音高估計和檢測算法以及VAD算法來檢測話音活動,所述VAD算法計算共振峰和/或倒譜系數(shù)以指示話音的存在。內(nèi)部VAD 18和外部VAD 14可替代地/另外使用其它VAD算法或上述VAD算法的任何合適組合。圖2是說明使用圖I的系統(tǒng)10來檢測話音活動的方法的流程圖100。在決策框102中,進行檢查以確定外部VAD(例如,外部VAD 14)是否可用。如果不可用,那么方法進行到框110,其中基于從內(nèi)部VAD(例如,內(nèi)部VAD 18)輸出的VAD信號來檢測話音。如果外部VAD可用,那么方法進行到框104。在框104中,確定外部VAD的功能。外部VAD的功能是基于外部VAD所使用的聲學傳感器的類型,例如骨傳導(dǎo)麥克風、音頻麥克風、皮膚振動傳感器、麥克風陣列、多普勒雷達裝置,或前述各項的任何合適組合。在框106中,確定環(huán)境操作條件。所述條件可包含在外部VAD或裝置附近或在外部VAD或裝置處的環(huán)境條件。舉例來說,所述操作條件可包含在外部VAD和/或裝置的位置處測得的背景噪聲。所述操作條件還可包含在外部VAD、裝置或兩者位置處測得的信噪比(SNR)?;诃h(huán)境操作條件,控制邏輯可確定在確定VAD輸出信號時僅使用來自外部VAD的VAD信號(框108),僅使用來自內(nèi)部VAD的VAD信號(框110),或使用外部和內(nèi)部VAD信號兩者(框112到116)。如果僅使用外部VAD信號,那么僅基于外部VAD信號檢測話音信號(框108)。如果僅使用內(nèi)部VAD信號,那么僅基于內(nèi)部VAD信號檢測話音信號(框110)。如果操作條件認可使用內(nèi)部和外部VAD信號兩者,例如在內(nèi)部VAD位置處存在相對較大量的環(huán)境背景噪聲的情況下,那么估計外部VAD信號的置信度(框112),且還估計內(nèi)部VAD信號的置信度(框114)??衫缤ㄟ^確定分別作為每一 VAD位置處的測得SNR或另一環(huán)境條件的函數(shù)的每一 VAD信號的加權(quán)因子(例如,概率值)來計算置信等級。接著可例如通過使VAD信號分別乘以概率值以獲得對應(yīng)的置信等級,來將概率值作為加權(quán)值應(yīng)用于相應(yīng)的VAD信號。每一概率值可為介于零與一之間的值。圖3到4展示描繪概率值與在每一位置處測得的SNR之間的示范性關(guān)系的曲線圖。加權(quán)因子還可基于環(huán)境條件而不是SNR。在框116中,控制邏輯基于經(jīng)組合的外部和內(nèi)部VAD信號來檢測話音活動。經(jīng)組合的VAD信號可為經(jīng)加權(quán)的外部和內(nèi)部VAD信號的總和,例如Y=P1*V1+P2*V2,等式 I其中,Y = VAD輸出信號,P1 =外部概率 值,V1 =外部VAD信號,P2 =內(nèi)部概率值,且V2 =內(nèi)部VAD信號。等式I中的每一項PfV1和P2*V2表示一置信等級。在一些情況下,外部和內(nèi)部概率值Pi、P2各自在0到I的范圍內(nèi),且另外可要求概率值的總和為值一。將VAD輸出信號與閾值進行比較,以確定音頻信號中是否存在話音活動。如果VAD輸出信號超過(例如)閾值,那么音頻信號中存在話音。相反,例如,如果VAD輸出信號小于或等于閾值,那么音頻信號中不存在話音??墒褂闷渌撝当容^。可使用的另一示范性加權(quán)公式表達為Y=P^V1+(I-P) *V2,等式 2其中P為P1或P2。通過將值指派給P,獲得值(I-P),作為用于V2的剩余加權(quán)因子以計算Y。圖3是展示實例外部VAD信號加權(quán)因子P1與在圖I中所示的外部VAD 14處測得的環(huán)境操作條件(即SNR,n)之間的示范性關(guān)系的曲線圖200。在垂直軸上表示測得SNR,且在水平軸上表示概率值。通常,在此實例中,SNR具有與外部VAD信號加權(quán)因子的直接關(guān)系,即隨著SNR增加,加權(quán)因子通常增加,且相反,隨著SNR減小,加權(quán)因子也減小。圖4是展示實例內(nèi)部VAD信號加權(quán)因子P2與在圖I中所示的內(nèi)部VAD 18處測得的環(huán)境操作條件(即SNR,n)之間的示范性關(guān)系的曲線圖300。在垂直軸上表示測得SNR,且在水平軸上表示概率值。通常,在此實例中,SNR具有與內(nèi)部VAD信號加權(quán)因子的直接關(guān)系,即隨著SNR增加,加權(quán)因子通常增加,且相反,隨著SNR減小,加權(quán)因子也減小。曲線圖200、300僅展示一組實例關(guān)系。針對外部或內(nèi)部VAD可使用不同概率函數(shù)。盡管圖3到4說明加權(quán)因子與測得環(huán)境操作條件(例如,SNR)之間的大體反曲關(guān)系,但可使用其它關(guān)系(例如線性關(guān)系)來從測得環(huán)境條件得出加權(quán)因子。在其中外部和內(nèi)部VAD加權(quán)因子相關(guān)的情形中(例如在以上等式2中給出),一個曲線圖可用于說明環(huán)境操作條件與加權(quán)因子之間的關(guān)系,且可直接計算其它權(quán)重因子的值。舉例來說,使用等式2,可從I-P計算第二加權(quán)因子。通常P1與己之間的關(guān)系反映對哪一 VAD更可靠地確定話音活動的估計(內(nèi)部VAD或外部VAD)。這主要取決于VAD的特性。舉例來說,對于可取決于麥克風輸入信號的內(nèi)部VAD,內(nèi)部VAD信號的可靠性高度取決于裝置處的測得SNR,且圖4的曲線圖可適用。然而,在外部裝置(例如,無線頭戴式耳機)處,可使用骨傳導(dǎo)麥克風。當使用骨傳導(dǎo)麥克風時,外部VAD信號的可靠性例如并不一定取決于SNR,而是取決于骨傳導(dǎo)傳感器觸碰用戶的皮膚區(qū)域的準確性以及檢測振動和骨傳導(dǎo)的準確性。在此情況下,外部加權(quán)因子P1將不一定是SNR的函數(shù),如圖3中所示,而是骨傳導(dǎo)傳感器與用戶皮膚的接觸的等級。傳感器觸碰用戶皮膚越多,P1的值越大。在組合例如位于外部裝置(例如頭戴式耳機)中的骨傳導(dǎo)傳感器與例如位于主要裝置(例如手持機)中的音頻麥克風的系統(tǒng)中,P1可與環(huán)境操作條件有關(guān),使得P1(用于外部骨傳導(dǎo)傳感器)取決于外部裝置的可用性和磨損,其中傳感器觸碰或在ー些使用情況下不觸碰用戶的皮膚。可基于依據(jù)內(nèi)部和/或外部VAD的操作的歷史數(shù)據(jù)和/或統(tǒng)計而估計此條件。用于內(nèi)部VAD信號的P2可基于測得SNR。上文所述的加權(quán)因子和概率值(包含曲線圖200、300中所說明的那些)可存儲在查找表中。圖5是展示包含并入有VAD系統(tǒng)10的功能性的頭戴式耳機402和手持機404的示范性頭戴式耳機/手持機組合400的圖。圖I的系統(tǒng)10可用于至少若干不同操作情形 中。在圖5中所示的實例中,VAD系統(tǒng)10的功能并入400頭戴式耳機/手持機組合中,如本文在下文更詳細地描述。在此環(huán)境中,在頭戴式耳機402中測量外部VAD信息。此測量可來自額外麥克風、下巴振動麥克風/傳感器,或電磁(EM),例如多普勒雷達傳感器,其中的任一者均包含在頭戴式耳機402中。接著以ニ進制或連續(xù)信號形式將此外部VAD信息作為外部VAD信號發(fā)送到頭戴式耳機404??蓪⑼獠縑AD信息編碼到音頻數(shù)據(jù)流中或嵌入到所發(fā)送的包的標頭中。接著在手持機404中解碼VAD信息,并將其用于進ー步處理,特別是為了改進聲碼器(例如EVRC)的性能。藍牙無線鏈接優(yōu)選在頭戴式耳機402與手持機404之間使用。在其中外部VAD信號包含于包標頭中的配置中,外部VAD信號為藍牙(BT)包的I位旗標,所述I位旗標可包含在存取碼的尾部或每ー藍牙包標頭中的類型字段中?;蛘?,I位VAD旗標可包含在藍牙包的有效負載部分的指定位置中。在任ー情況下,VAD信號為包含在每ー BT包中的單一位旗標。當旗標被設(shè)定時,其指示藍牙包包含由外部VAD檢測的話音。當VAD旗標未設(shè)定時,話音不存在于藍牙包的音頻有效負載中。發(fā)送嵌入BT標頭中的僅ー個I位旗標提供離散信號(每塊或BT包I個位)??商娲厥褂镁哂卸鄠€位的旗標或表示外部VAD信號的多個旗標??墒褂萌魏魏线m音頻加水印技術(shù)將連續(xù)VAD信號編碼到音頻流中。使用音頻加水印,將VAD信號調(diào)制到不可聽范圍中的音頻數(shù)據(jù)上,例如調(diào)制到極低頻率VAD信號中或高頻VAD信號中??赏ㄟ^以下步驟來實施音頻加水印在外部裝置(例如,頭戴式耳機)中添加音頻加水印預(yù)處理,其對連續(xù)VAD信號進行編碼;且還在主要裝置(例如,手持機)中添加音頻加水印后處理,其解碼音頻數(shù)據(jù)以從音頻數(shù)據(jù)提取連續(xù)VAD信號。手持機404可為便攜式無線通信裝置,例如蜂窩式電話、游戲裝置或PDA,包含次要無線通信接ロ,優(yōu)選為藍牙接ロ。頭戴式耳機402為無線頭戴式耳機,優(yōu)選為藍牙頭戴式耳機。頭戴式耳機402和手持機404經(jīng)由短程無線鏈接(例如藍牙)彼此通信。經(jīng)數(shù)字化的音頻可使用常規(guī)藍牙概況(例如HSP)和協(xié)議(如由藍牙規(guī)范定義)在頭戴式耳機402與手持機404之間傳送,其中在ー些配置中可修改藍牙包標頭以包含外部VAD旗標。圖6是展示包含于圖5的頭戴式耳機402和手持機404中的某些組件的框圖。頭戴式耳機402包含ー個或ー個以上麥克風406、麥克風預(yù)處理器408、外部VAD410以及無線接口 412。無線接口 412包含收發(fā)器416。麥克風預(yù)處理器408經(jīng)配置以處理從麥克風406接收到的電子信號。麥克風預(yù)處理器408可包含模/數(shù)轉(zhuǎn)換器(ADC)以及其它模擬和數(shù)字處理電路。ADC將來自麥克風406的模擬信號轉(zhuǎn)換成數(shù)字信號。這些數(shù)字信號接著可由無線接口 412處理??墒褂蒙虡I(yè)可購得的硬件、軟件、固件或其任一合適組合來實施麥克風預(yù)處理器408。頭戴式耳機402還可或替代地包含一個或一個以上下巴或皮膚振動傳感器和/或電磁(EM),例如多普勒雷達傳感器,用于檢測話音活動。代替于或結(jié)合麥克風信號(麥克2信號)將這些傳感器的輸出提供給外部VAD 410。如果需要,那么無線接口 412提供與手持機404和其它裝置的雙向無線通信。優(yōu)選的是,無線接口 412包含商業(yè)可購得的藍牙模塊,其提供由以下各項組成的至少一藍牙核
心系統(tǒng)藍牙RF收發(fā)器、基帶處理器、協(xié)議棧,以及用于將所述模塊鏈接到頭戴式耳機402中的控制器(例如處理器414)的硬件和軟件接口。盡管可結(jié)合頭戴式耳機402使用任何合適的無線技術(shù),但收發(fā)器416優(yōu)選為藍牙收發(fā)器。無線接口 412可由頭戴式耳機控制器(例如,處理器414)控制。外部VAD 410可由執(zhí)行軟件代碼的處理器414實施。外部VAD 410可為實施VAD算法(包含本文所述的VAD算法中的任一者)的任何合適裝置。外部VAD 410基于來自麥克風406或其它傳感器的輸入而輸出外部VAD信號。如上文所述,接著通過處理器414將外部VAD信號作為單一位旗標嵌入到藍牙音頻包標頭中。在頭戴式耳機/手持機系統(tǒng)的替代配置中,處理器414使用音頻加水印算法將VAD信號編碼在數(shù)字化的麥克2信號上。無線接口 412經(jīng)由藍牙無線鏈接在藍牙音頻包中將數(shù)字化的麥克2信號和外部VAD信號傳送到手持機404的無線接口 428。處理器414可為任何合適計算裝置,例如微處理器(例如ARM7)、數(shù)字信號處理器(DSP)、一個或一個以上專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)、復(fù)雜可編程邏輯裝置(CPLD)、離散邏輯,或其任一合適組合。手持機404包含一個或一個以上麥克風418、麥克風預(yù)處理器420、內(nèi)部VAD 422、控制邏輯424、聲碼器426以及無線接口 428。無線接口 428包含收發(fā)器432。如果需要,那么無線接口 428提供與頭戴式耳機402和其它裝置的雙向無線通信。優(yōu)選的是,無線接口 428包含商業(yè)可購得的藍牙模塊,其提供由以下各項組成的至少一藍牙核心系統(tǒng)藍牙RF收發(fā)器、基帶處理器、協(xié)議棧,以及用于將所述模塊連接到手持機404中的控制器(例如處理器430)的硬件和軟件接口。盡管可結(jié)合手持機404使用任何合適的無線技術(shù),但收發(fā)器432優(yōu)選為藍牙收發(fā)器。無線接口 428可由手持機控制器(例如,處理器430)控制。內(nèi)部VAD 422、控制邏輯424和聲碼器426可由執(zhí)行軟件代碼的處理器430實施。處理器430可為任何合適計算裝置,例如微處理器(例如ARM7)、數(shù)字信號處理器(DSP)、一個或一個以上專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)、復(fù)雜可編程邏輯裝置(CPLD)、離散邏輯,或其任一合適組合。控制邏輯424響應(yīng)來自外部VAD 410和內(nèi)部VAD 422的VAD信號,以及來自頭戴式耳機麥克風406的經(jīng)數(shù)字化麥克風信號(麥克2信號)和來自手持機麥克風418的經(jīng)數(shù)字化麥克風信號(麥克I信號)。控制邏輯424輸出VAD輸出信號,其被提供給聲碼器426??刂七壿?24可通過對外部和內(nèi)部VAD信號進行加權(quán)來組合外部和內(nèi)部VAD信號以產(chǎn)生VAD輸出信號??扇绫疚脑谏衔乃鰣?zhí)行VAD信號的加權(quán),且應(yīng)用于姆ー VAD信號的加權(quán)因子可基于由包含于手持機404或頭戴式耳機402中的ー個或ー個以上傳感器(未圖示)測量的環(huán)境操作條件,如本文在上文所述。聲碼器426基于VAD輸出信號而檢測話音活動。可在逐包基礎(chǔ)上針對姆一音頻包確定話音活動。將VAD輸出信號提供給聲碼器426,其將VAD輸出信號與閾值進行比較,以確定正由聲碼器426處理的音頻信號(包)中是否存在話音??刂七壿?24還將來自麥克風406、418的經(jīng)數(shù)字化音頻信號(麥克I和麥克2信號)提供給聲碼器426以供處理和編碼。聲碼器426可依據(jù)哪一麥克風406、418當前正用以接收語音而選擇要處理哪一麥克風信號。經(jīng)編碼的語音(話音)信號由聲碼器426輸出。聲碼器426可實施任何合適的話音譯碼算法,包含但不限于由3GPP2指定的EVRC。接著可使用WffAN接ロ 630將經(jīng)編碼的語音發(fā)射到WWAN。手持機404還包含無線廣域網(wǎng)(WffAN)接ロ 630,其包括與WffAN(例如蜂窩式網(wǎng)絡(luò)) 通信所必需的整個物理接ロ。WWAN接ロ 630包含無線收發(fā)器,其經(jīng)配置以與WffAN中的基站交換無線信號。WffAN接ロ 630與WffAN交換無線信號,以促進經(jīng)由WffAN到所連接裝置的話音呼叫和數(shù)據(jù)傳送。所連接裝置可為另ー WWAN終端、陸線電話或網(wǎng)絡(luò)服務(wù)實體,例如話音郵箱服務(wù)器、因特網(wǎng)服務(wù)器等。合適的無線通信網(wǎng)絡(luò)的實例包含(但不限干)基于碼分多址(CDMA)的網(wǎng)絡(luò)、WCDMA、GSM、UTMS、AMPS、PHS 網(wǎng)絡(luò)等。圖7是展示圖6中所示的手持機處理器430的某些組件的框圖。處理器430包含連接到存儲器502的微處理器(uP) 500。存儲器502存儲控制邏輯程序504、聲碼器程序506以及內(nèi)部VAD程序508??刂七壿嫵绦?04包含軟件/固件代碼,其在由uP 500執(zhí)行時提供控制邏輯424的功能性。聲碼器程序506包含軟件/固件代碼,其在由uP 500執(zhí)行時提供聲碼器426的功能性。內(nèi)部VAD程序508包含軟件/固件代碼,其在由uP 500執(zhí)行時提供內(nèi)部VAD 422的功能性。盡管說明為單獨程序,但控制邏輯程序504、聲碼器程序506以及內(nèi)部VAD程序508可組合為ー個或ー個以上程序。存儲器502和微處理器500可耦合在一起,且在共用總線上通信。存儲器502和微處理器500可集成到單個芯片上,或它們可為單獨組件或集成和離散組件的任一合適組合。另外,可替代地使用其它處理器-存儲器架構(gòu),例如多處理器和/或多存儲器布置。微處理器500可為任何合適處理器或控制器,例如ARM7、DSP、ー個或ー個以上專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)、復(fù)雜可編程邏輯裝置(CPLD)、離散邏輯,或其任一合適組合?;蛘?,可使用具有多個處理器的多處理器架構(gòu)(例如,微處理器-DSP組合)來實施手持機404中的處理器430。在示范性多處理器架構(gòu)中,可對DSP進行編程以提供音頻處理的至少ー些處理,例如內(nèi)部VAD 422、控制邏輯424和聲碼器426的功能,且可對微處理器進行編程以控制手持機404的總體操作。存儲器502可為用于存儲編程代碼和/或數(shù)據(jù)內(nèi)容的任何合適存儲器裝置,例如快閃存儲器、RAM、ROM、PROM等。VAD系統(tǒng)10還可用于其它系統(tǒng)中,例如手持機-車載套件中。在此情形中,車載套件中所使用的多個麥克風允許準確地估計源定位和方向性信息??墒褂么诵畔硪种圃肼暬虿幌胍男盘?。此信息還可用于估計外部VAD信號??蓪⒋送獠縑AD信號發(fā)送到手持機,手持機接著使用額外VAD信息來增強手持機的聲碼器性能。其中可使用VAD系統(tǒng)10的另一操作情形為會議呼叫揚聲器電話-手持機組合。在此情況下,外部VAD裝置包含于揚聲器電話裝置中,所述揚聲器電話裝置有線或無線連接到手持機。揚聲器電話裝置可使用多個麥克風來估計所關(guān)注話音源的VAD。可將源VAD信號發(fā)送到手持機,手持機接著使用額外VAD信息來增強手持機的聲碼器性能。本文所述的系統(tǒng)、裝置、頭戴式耳機、手持機及其相應(yīng)組件的功能性,以及方法步驟和框可實施于硬件、軟件、固件或其任一合適組合中。軟件/固件可為具有可由一個或一個以上數(shù)字電路(例如微處理器、DSP、嵌入式控制器或知識產(chǎn)權(quán)(IP)核心)執(zhí)行的指令集(例如,代碼段)的程序。如果實施于軟件/固件中,那么可將功能作為一個或一個以上計算機可讀媒體上的指令或代碼而加以存儲或傳輸。計算機可讀媒體包含計算機存儲媒體與通信媒體兩者,所述通信媒體包含促進計算機程序從一處到另一處的傳送的任何媒體。存儲媒體可為可由計算機存取的任何可用媒體。作為實例(而非限制),此計算機可讀媒體可包含RAM、ROM、EEPROM、CD-ROM或其它光盤存儲裝置、磁盤存儲裝置或其它磁性存儲裝置, 或可用于運載或存儲呈指令或數(shù)據(jù)結(jié)構(gòu)的形式的所要程序代碼且可由計算機存取的任何其它媒體。同樣,嚴格地說,可將任何連接稱作計算機可讀媒體。舉例來說,如果使用同軸電纜、光纖電纜、雙絞線、數(shù)字訂戶線(DSL)或例如紅外線、無線電及微波等無線技術(shù)從網(wǎng)站、服務(wù)器或其它遠程源傳輸軟件,那么同軸電纜、光纖電纜、雙絞線、DSL或例如紅外線、無線電及微波等無線技術(shù)包含于媒體的定義中。如本文中所使用,磁盤及光盤包含壓縮光盤(CD)、激光光盤、光學光盤、數(shù)字多功能光盤(DVD)、軟磁盤及藍光光盤,其中磁盤通常以磁性方式再現(xiàn)數(shù)據(jù),而光盤使用激光以光學方式再現(xiàn)數(shù)據(jù)。以上各項的組合也應(yīng)包含在計算機可讀媒體的范圍內(nèi)。已描述某些實施例。然而,對這些實施例的各種修改是可能的,且本文所呈現(xiàn)的原理也可適用于其它實施例。舉例來說,本文所揭示的原理可適用于其它裝置,例如包含個人數(shù)字助理(PDA)的無線裝置、個人計算機、立體聲系統(tǒng)、視頻游戲等。并且,本文所揭示的原理可適用于有線頭戴式耳機,其中頭戴式耳機與另一裝置之間的通信鏈路是電線,而不是無線鏈路。另外,在不脫離所附權(quán)利要求書的范圍的情況下,可在不同于具體揭示的那些布置的布置中實施各種組件和/或方法步驟/框。所屬領(lǐng)域的技術(shù)人員鑒于這些教示將容易想到其它實施例和修改。因此,在結(jié)合以上說明書和附圖來看時,所附權(quán)利要求書意在涵蓋所有此些實施例和修改。
權(quán)利要求
1.一種話音活動檢測VAD的方法,其包括 從包含于裝置中的第一話音活動檢測器接收第一 VAD信號; 從不包含于所述裝置中的第二話音活動檢測器接收第二 VAD信號; 將所述第一和第二 VAD信號組合成VAD輸出信號;以及 基于所述VAD輸出信號檢測話音活動。
2.根據(jù)權(quán)利要求I所述的方法,其進一步包括 基于環(huán)境條件對所述第一 VAD信號進行加權(quán)。
3.根據(jù)權(quán)利要求2所述的方法,其中所述環(huán)境條件包含在所述裝置處測得的信噪比SNR。
4.根據(jù)權(quán)利要求I所述的方法,其進一步包括 基于環(huán)境條件對所述第二 VAD信號進行加權(quán)。
5.根據(jù)權(quán)利要求4所述的方法,其中所述環(huán)境條件包含在包含所述第二話音活動檢測器的外部裝置處測得的信噪比SNR。
6.根據(jù)權(quán)利要求I所述的方法,其進一步包括 確定所述第二話音活動檢測器的功能。
7.根據(jù)權(quán)利要求6所述的方法,其中所述第二話音活動檢測器的所述功能是基于骨傳導(dǎo)麥克風、音頻麥克風、皮膚振動傳感器、麥克風陣列或雷達信號。
8.根據(jù)權(quán)利要求I所述的方法,其進一步包括 經(jīng)由無線鏈路發(fā)射所述第二 VAD信號。
9.根據(jù)權(quán)利要求8所述的方法,其中所述無線鏈路為藍牙無線鏈路。
10.一種話音活動檢測VAD的方法,其包括 提供第一裝置和第二裝置,每一裝置經(jīng)配置以借助于無線鏈路彼此通信; 確定所述第二裝置中的VAD信號; 在所述第二裝置處,基于所述VAD信號設(shè)定旗標,所述旗標包含于含有數(shù)字化音頻的包中; 借助于所述無線鏈路將所述包從第二裝置發(fā)射到所述第一裝置;以及 基于包含于所述包中的所述旗標而檢測所述第一裝置處的話音活動。
11.根據(jù)權(quán)利要求10所述的方法,其中所述旗標為包含于藍牙包標頭中的一位值。
12.—種系統(tǒng),其包括 包含于裝置中的第一話音活動檢測器,其經(jīng)配置以產(chǎn)生第一話音活動檢測VAD信號;不包含于所述裝置中的第二話音活動檢測器,其經(jīng)配置以產(chǎn)生第二話音活動檢測VAD信號;以及 控制邏輯,其與所述第一和第二話音活動檢測器通信,所述控制邏輯經(jīng)配置以將所述第一和第二 VAD信號組合成VAD輸出信號。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其進一步包括 處理器,其接收所述VAD輸出信號。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中所述處理器包含聲碼器。
15.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述裝置為無線手持機。
16.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述第二話音活動檢測器包含于與所述裝置通信的頭戴式耳機中。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其中所述頭戴式耳機為無線頭戴式耳機。
18.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述第二VAD信號是作為包含于藍牙標頭中的單一位值發(fā)射到所述控制邏輯。
19.根據(jù)權(quán)利要求13所述的系統(tǒng),其中所述控制邏輯包含在所述裝置中。
20.—種系統(tǒng),其包括 用于檢測第一位置處的話音活動的第一裝置; 用于檢測第二位置處的話音活動的第二裝置;以及 用于將來自所述第一和第二裝置的輸出組合成話音活動檢測VAD輸出信號的裝置。
21.根據(jù)權(quán)利要求20所述的系統(tǒng),其進一步包括 用于接收所述VAD輸出信號的處理器裝置。
22.根據(jù)權(quán)利要求20所述的系統(tǒng),其中所述第一裝置包含于無線手持機中。
23.根據(jù)權(quán)利要求20所述的系統(tǒng),其中所述第二裝置包含于與裝置通信的頭戴式耳機中。
24.根據(jù)權(quán)利要求23所述的系統(tǒng),其中所述頭戴式耳機為無線頭戴式耳機。
25.根據(jù)權(quán)利要求20所述的系統(tǒng),其進一步包括用于將來自所述第一和第二裝置的VAD信號作為包含于藍牙標頭中的單一位值發(fā)射到所述組合裝置的裝置。
26.根據(jù)權(quán)利要求20所述的系統(tǒng),其中所述組合裝置包含于所述第一位置處。
27.一種包含可由一個或一個以上處理器執(zhí)行的一組指令的計算機可讀媒體,其包括 用于從包含于裝置中的第一話音活動檢測器接收第一 VAD信號的代碼; 用于從不包含于所述裝置中的第二話音活動檢測器接收第二 VAD信號的代碼;以及 用于將所述第一和第二 VAD信號組合成VAD輸出信號的代碼。
28.根據(jù)權(quán)利要求27所述的計算機可讀媒體,其進一步包括 用于基于所述VAD輸出信號檢測話音活動的代碼。
29.根據(jù)權(quán)利要求27所述的計算機可讀媒體,其進一步包括 用于基于環(huán)境條件對所述第一 VAD信號進行加權(quán)的代碼。
30.根據(jù)權(quán)利要求29所述的計算機可讀媒體,其中所述環(huán)境條件包含在所述裝置處測得的信噪比SNR。
31.根據(jù)權(quán)利要求27所述的計算機可讀媒體,其進一步包括 用于基于環(huán)境條件對所述第二 VAD信號進行加權(quán)的代碼。
32.根據(jù)權(quán)利要求31所述的計算機可讀媒體,其中所述環(huán)境條件包含在包含所述第二話音活動檢測器的外部裝置處測得的信噪比SNR。
全文摘要
一種話音活動檢測VAD系統(tǒng)包含第一話音活動檢測器、第二話音活動檢測器和控制邏輯。所述第一話音活動檢測器包含于裝置中,且產(chǎn)生第一VAD信號。所述第二話音活動檢測器位于所述裝置外部,且產(chǎn)生第二VAD信號。所述控制邏輯將所述第一和第二VAD信號組合成VAD輸出信號。可基于所述VAD輸出信號檢測話音活動??蓪⑺龅诙AD信號表示為包含于含有數(shù)字化音頻的包中的旗標??山?jīng)由無線鏈路將所述包從所述位于外部的VAD發(fā)射到所述裝置。
文檔編號G10L11/02GK102770909SQ201080064720
公開日2012年11月7日 申請日期2010年12月14日 優(yōu)先權(quán)日2010年2月24日
發(fā)明者太元·李 申請人:高通股份有限公司