使用Turbo型VAD的會議混音的制作方法
【專利摘要】一種會議混音器(102)包括單元(104),其被配置為接收多個輸入流;頻譜語音活動檢測(VAD)單元(136),其被配置為針對每個輸入流生成并輸出頻譜VAD判定,所述頻譜VAD判定指示包含數(shù)據(jù)分組的幀是否是語音;Turbo型VAD單元(110),其被配置為生成并輸出Turbo型VAD判定,所述Turbo型VAD判定針對包含數(shù)組分組的幀指示哪個輸入流是激活的,所述Turbo型VAD判定是基于頻譜VAD判定和基于功率的判定,所述基于功率的判定指示包含數(shù)據(jù)分組的幀的估計的瞬時功率級別是否大于功率閾值;以及有限狀態(tài)機(FSM)單元(114),其被配置為基于多個Turbo型VAD判定選擇將哪些輸入流作為激活流輸出,該Turbo型VAD判定部分基于FSM所提供的反饋。
【專利說明】使用Turbo型VAD的會議混音
[0001]相關(guān)申請的交叉引用
[0002]本申請要求于2011年9月28日提交的美國臨時專利申請第61/540,123號以及于2012年3月6日提交的美國臨時專利申請第61/607,356號的優(yōu)先級,這兩篇文獻(xiàn)的公開內(nèi)容全文并入于此以作參考。
【技術(shù)領(lǐng)域】
[0003]當(dāng)前公開內(nèi)容涉及語音通信,并且更具體地涉及會議混音技術(shù)。
【背景技術(shù)】
[0004]這里提供的背景描述用于一般性呈現(xiàn)公開內(nèi)容的背景的目的。在背景部分中所描述的范圍內(nèi),當(dāng)前名義發(fā)明人的工作和描述的各個方面可能并不適用為申請時的現(xiàn)有技術(shù),它們既不直接地也不暗示地被承認(rèn)為針對本申請公開內(nèi)容的現(xiàn)有技術(shù)。
[0005]會議呼叫技術(shù)使得多個參與者或與會人能夠通過網(wǎng)絡(luò)互相通信。各種當(dāng)前使用的會議呼叫技術(shù)采用了通過互聯(lián)網(wǎng)語音傳輸協(xié)議(VoIP),VoIP使用互聯(lián)網(wǎng)協(xié)議(IP)以使得能夠通過網(wǎng)絡(luò)(例如,互聯(lián)網(wǎng))進(jìn)行通信。會議呼叫設(shè)備通常使用會議混音器,會議混音器被配置為接收并處理來自每個與會人的音頻信號,并基于會議混音算法向每個與會人輸出適當(dāng)?shù)男盘枴?br>
[0006]會議混音器的設(shè)計面臨著各種挑戰(zhàn),包括:避免把降低會議質(zhì)量的背景噪音當(dāng)作語音信號、當(dāng)多個與會人同時說話時管理多重會話時段、即便在受到之前未激活與會人的打斷的情況下仍然保持會議的自然流暢、以及保持與會人之間的平滑轉(zhuǎn)換,這避免會話從一個與會人轉(zhuǎn)到另一個與會人時會話的夾斷(clipping off)。
【發(fā)明內(nèi)容】
[0007]本公開內(nèi)容的一個或多個實施例涉及改進(jìn)的會議混音的方法和設(shè)備。
[0008]根據(jù)一個實施例的會議混音器使用了基于時間級別標(biāo)準(zhǔn)(Time-Levelcriterion)的變化的混音算法。在一個實施例中,可以使用標(biāo)準(zhǔn)的VoIP模塊以及一些專用模塊。根據(jù)一個實施例的混音算法可以獲得常規(guī)會議混音器無法獲得的一種或多種有利的優(yōu)點,包括例如在各種噪音條件下支持高質(zhì)量會議呼叫的能力、低處理延遲、實現(xiàn)簡單、以及對計算資源的合理要求。根據(jù)一個實施例的混音算法可以使用簡單的構(gòu)件塊以保證簡化和最小的處理延遲。根據(jù)實施例,鋪設(shè)于該混音算法的創(chuàng)建中的閉環(huán)反饋提供了噪音排斥并保證了高質(zhì)量。
[0009]應(yīng)當(dāng)理解,當(dāng)然,一些實施例的混音算法并不要求實現(xiàn)這些優(yōu)點。
[0010]根據(jù)一個實施例,提供了一種會議混音器,包括:輸入流接收單元,被配置為從相應(yīng)的與會議混音器相連接的多個與會人接收數(shù)據(jù)分組的多個輸入流;頻譜語音活動檢測(VAD)單元,被配置為針對每個所述輸入流生成并輸出頻譜VAD判定,所述頻譜VAD判定指示包含數(shù)據(jù)分組的幀是否是語音;Turbo型VAD單元,被配置為生成并輸出Turbo型VAD判定,所述Turbo型VAD判定為包含數(shù)組分組的幀指示哪個輸入流是激活的,所述Turbo型VAD判定基于每個述輸入流的頻譜VAD判定和基于功率的判定,所述基于功率的判定指示包含數(shù)據(jù)分組的幀的估計瞬時功率級別是否大于每個輸入流的功率閾值;以及有限狀態(tài)機(FSM)單元,被配置為基于與輸入流中的多個幀相對應(yīng)的多個Turbo型VAD判定而選擇將哪些輸入流作為激活流輸出。
[0011]根據(jù)一個實施例,Turbo型VAD單元包括:功率估計單元,被配置為針對每個輸入流估計幀的瞬時功率級別;比較單元,被配置為針對每個輸入流對幀的估計瞬時功率級別與功率閾值進(jìn)行比較,并且基于所述比較結(jié)果輸出所述基于功率的判定,其中所述功率閾值指示語音數(shù)據(jù)的最小功率級別;頻譜VAD單元,被配置為針對每個輸入流輸出所述頻譜VAD判定;以及乘法器,被配置為針對每個輸入流將基于功率的判定和頻譜VAD判定相乘以生成Turbo型VAD判定。
[0012]根據(jù)一個實施例,頻譜VAD單元被部署于Turbo型VAD單元內(nèi)。
[0013]根據(jù)一個實施例,頻譜VAD單元包括按照ITU-T G.729附錄B推薦所實施的VAD單元。
[0014]根據(jù)一個實施例,會議混音器進(jìn)一步包括:語音監(jiān)控單元,被配置為針對每個所述輸入流估計輸入流的平均語音功率級別和平均噪音功率級別,并且基于所估計的平均語音功率級別和所估計的平均噪音功率級別的加權(quán)平均生成功率閾值。
[0015]根據(jù)一個實施例,F(xiàn)SM單元被配置為針對每個輸入流,生成基于Turbo型VAD判定的活動比率,所述活動比率指示輸入流是語音數(shù)據(jù)的可能性。
[0016]根據(jù)一個實施例,F(xiàn)SM單元生成活動比率使得所生成的活動比率包括O和I之間的數(shù)值,其中數(shù)值“O”指示輸入流中完全沒有語音數(shù)據(jù),以及其中隨著輸入流中的語音數(shù)據(jù)的量的增加,所述數(shù)值逼近于數(shù)值“ I ”。
[0017]根據(jù)一個實施例,F(xiàn)SM單元進(jìn)一步被配置為針對每個輸入流,生成指示輸入流的當(dāng)前狀態(tài)的狀態(tài)信息,所述當(dāng)前狀態(tài)指示輸入流當(dāng)前是否攜帶語音數(shù)據(jù),并且將狀態(tài)信息反饋給語音監(jiān)控單元反饋狀態(tài)信息,以及語音監(jiān)控單元進(jìn)一步被配置為至少部分基于從FSM單元反饋的狀態(tài)信息估計輸入流的平均語音功率級別和平均噪音功率級別。
[0018]根據(jù)一個實施例,所述FSM單元生成所述狀態(tài)信息以指示所述輸入流中的以下當(dāng)前狀態(tài)之一:(a)激活狀態(tài),其指示所述輸入流當(dāng)前正攜帶語音數(shù)據(jù),(b)未激活狀態(tài),其指示所述輸入流當(dāng)前未攜帶任何語音數(shù)據(jù),(C)漸強狀態(tài),其指示所述輸入流正在從所述未激活狀態(tài)轉(zhuǎn)變?yōu)樗黾せ顮顟B(tài),以及(d)漸弱狀態(tài),其指示所述輸入流正在從所述激活狀態(tài)轉(zhuǎn)變?yōu)樗鑫醇せ顮顟B(tài)。
[0019]根據(jù)一個實施例,會議混音器進(jìn)一步包括增益控制單元,其被配置為針對每個輸入流,基于所述輸入流的所述估計的平均語音功率級別和所述輸入流的所述估計的平均噪音功率級別來調(diào)整增益。
[0020]根據(jù)一個實施例,會議混音器進(jìn)一步包括噪音抑制器,其被配置為針對每個輸入流,基于所述輸入流的所述估計的平均語音功率級別和所述輸入流的所述估計的平均噪音功率級別來抑制噪音。
[0021]根據(jù)一個實施例,一種會議混音器的方法,包括從相對應(yīng)的多個與會人接收數(shù)據(jù)分組的多個輸入流;針對所述輸入流的每個輸入流生成并且輸出頻譜VAD判定,所述頻譜VAD判定指示包含數(shù)據(jù)分組的幀是否是語音;生成并且輸出Turbo型VAD判定,所述Turbo型VAD判定針對包含數(shù)據(jù)分組的幀指示哪個輸入流是激活的,所述Turbo型VAD判定的所述生成和輸出是基于每個所述輸入流的所述頻譜VAD判定和基于功率的判定,所述基于功率的判定指示幀的估計的瞬時功率級別是否大于每個所述輸入流的功率閾值;以及基于與所述輸入流中的多個幀相對應(yīng)的多個所述Turbo型VAD判定,而選擇將哪些輸入流作為激活流輸出。
[0022]根據(jù)一個實施例,該方法進(jìn)一步包括,為針對每個所述輸入流,估計幀的所述瞬時功率級別;針對每個所述輸入流,比較所述幀的所估計的瞬時功率級別與所述功率閾值,所述功率閾值指示語音數(shù)據(jù)的最小功率級別,并且基于所述比較的結(jié)果輸出所述基于功率的判定;針對每個輸入流,輸出所述頻譜VAD判定;以及針對每個輸入流,將所述基于功率的判定和所述頻譜VAD判定相乘以生成所述Turbo型VAD判定。
[0023]根據(jù)一個實施例,頻譜VAD判定的生成和輸出包括,使用部署于用于生成所述Turbo型VAD判定的Turbo型VAD單元內(nèi)的頻譜VAD單元來生成和輸出所述頻譜VAD判定。
[0024]根據(jù)一個實施例,所述頻譜VAD判定的所述生成和輸出包括,使用按照ITU-TG.729附錄B的推薦所實施的VAD單元來生成和輸出所述頻譜VAD判定。
[0025]根據(jù)一個實施例,該方法進(jìn)一步包括針對每個所述輸入流,估計所述輸入流的平均語音功率級別和平均噪音功率級別,并且基于所估計的平均語音功率級別和所估計的平均噪音功率級別的加權(quán)平均來生成所述功率閾值。
[0026]根據(jù)一個實施例,該方法進(jìn)一步包括針對每個所述輸入流,生成基于所述Turbo型VAD判定的活動比率,所述活動比率指示所述輸入流是語音數(shù)據(jù)的可能性。
[0027]根據(jù)一個實施例,其中所述活動比率的所述生成,包括生成所述活動比率使得所生成的活動比率包括O和I之間的數(shù)值,其中所述數(shù)值“O”指示所述輸入流中完全沒有語音數(shù)據(jù),并且其中隨著所述輸入流中的所述語音數(shù)據(jù)的量的增加,所述數(shù)值逼近于數(shù)值“ I ”。
[0028]根據(jù)一個實施例,該方法進(jìn)一步包括針對每個輸入流,生成指示所述輸入流的當(dāng)前狀態(tài)的狀態(tài)信息,所述當(dāng)前狀態(tài)指示所述輸入流當(dāng)前是否攜帶語音數(shù)據(jù),并且反饋所述狀態(tài)信息,以及基于所述狀態(tài)信息的反饋,估計所述輸入流的所述平均語音功率級別和所述平均噪音功率級別。
[0029]根據(jù)一個實施例,所述狀態(tài)信息的所述生成包括,生成所述狀態(tài)信息以指示所述輸入流的以下當(dāng)前狀態(tài)之一:(a)激活狀態(tài),其指示所述輸入流當(dāng)前正攜帶語音數(shù)據(jù),(b)未激活狀態(tài),其指示所述輸入流當(dāng)前未攜帶任何語音數(shù)據(jù),(C)漸強狀態(tài),其指示所述輸入流正在從所述未激活狀態(tài)轉(zhuǎn)變?yōu)樗黾せ顮顟B(tài),以及(d)漸弱狀態(tài),其指示所述輸入流正在從所述激活狀態(tài)轉(zhuǎn)變?yōu)樗鑫醇せ顮顟B(tài)。
【專利附圖】
【附圖說明】
[0030]圖1是示出根據(jù)一個實施例的會議混音器的框圖;
[0031]圖2是示出根據(jù)一個實施例的有限狀態(tài)機(FSM)單元所使用的算法的狀態(tài)圖;
[0032]圖3是示出根據(jù)一個實施例的分?jǐn)?shù)、活動比率和當(dāng)前狀態(tài)之間關(guān)系的圖形;
[0033]圖4是示出根據(jù)一個實施例的會議混音方法的流程圖;
[0034]圖5是示出根據(jù)另一個實施例的會議混音方法的流程圖;以及[0035]圖6是示出根據(jù)又一個實施例的會議混音方法的流程圖。
【具體實施方式】
[0036]下面將參考附圖對實施例進(jìn)行更加詳細(xì)地描述。接下來的詳細(xì)描述被提供用于幫助讀者對被描述的系統(tǒng)、設(shè)備和/或方法獲得全面的理解。相應(yīng)地,本領(lǐng)域技術(shù)人員將有啟示獲得在此描述的設(shè)備、系統(tǒng)和/或方法的等效物、修改以及各種變化。同樣地,出于增加清楚表述以及簡潔的目的,可以省略公知功能和結(jié)構(gòu)的描述。
[0037]以及,描述中所使用的術(shù)語旨在描述實施例。單數(shù)形式的表達(dá)包括復(fù)數(shù)形式的含義且決不意味著限制性的,除非有明確相反的指示。在本說明書中,表述“包含”、“包括”旨在指定特性、數(shù)字、步驟、元件和操作、部件或者及其組合,并且不應(yīng)解釋為排除其他特性、數(shù)字、步驟、操作、元件、部分或者其組合中的一個或多個的存在或可能。
[0038]圖1是示出根據(jù)一個實施例的會議混音器102的框圖。如圖1所示,會議混音器102通過網(wǎng)絡(luò)101與多個與會人連接,該多個與會人包括與會人100-1、與會人100-2、與會人100-3、并且一直到與會人100-n?;煲羝?02的位置相對于與會人100是靈活的。例如,會議混音器102與與會人相關(guān)的網(wǎng)關(guān)或其它網(wǎng)絡(luò)切換設(shè)備相關(guān)聯(lián)。在一個不例中,一個與會人200的設(shè)備被耦合到網(wǎng)關(guān)/網(wǎng)絡(luò)設(shè)備,而其他與會人通過互聯(lián)網(wǎng)耦合。可替換地,會議混音器102被居中定位,而所有與會人通過互聯(lián)網(wǎng)連接耦合到該會議混音器102。
[0039]網(wǎng)絡(luò)101是通信網(wǎng)絡(luò)或者各種通信網(wǎng)絡(luò)的組合。例如,在一個實施例中,網(wǎng)絡(luò)101是分組交換網(wǎng)絡(luò),比如基于IP的全球互聯(lián)網(wǎng),并且網(wǎng)絡(luò)101可以進(jìn)一步包含用于訪問網(wǎng)絡(luò)的實體,比如互聯(lián)網(wǎng)服務(wù)提供商(ISP)。省略對各種涉及連接到互聯(lián)網(wǎng)的實體的詳細(xì)描述以免模糊本公開內(nèi)容的教導(dǎo)。
[0040]與會人100-1使用會議呼叫通信設(shè)備、例如個人電腦、電話、或其它類型的能夠與其他與會人100-2到100-n進(jìn)行通信的電子設(shè)備。與會人100-1的會議呼叫通信設(shè)備一般包括數(shù)個用于參與會議呼叫的部件,例如用于將與會人100-1的語音數(shù)據(jù)經(jīng)由會議混音器102輸入到其他與會人100-2到100-n的麥克風(fēng),以及用于將語音數(shù)據(jù)從從一個或多個其它與會人100-2到100-n經(jīng)由會議混音器102傳輸?shù)膿P聲器。與會人100-1的會議呼叫通信設(shè)備可以發(fā)生變化,例如,如果混音器102與網(wǎng)關(guān)或其他網(wǎng)絡(luò)切換設(shè)備相關(guān)聯(lián)以及與會人200之一耦合到該網(wǎng)關(guān)/網(wǎng)絡(luò)設(shè)備,則與會人將具有將該與會人與會議混音器102相連接的附加連接設(shè)備。
[0041]如圖1所示,當(dāng)與會人100-1期望參與會議呼叫時,與會人100-1向他或她的會議呼叫通信設(shè)備說話,從而將語音數(shù)據(jù)的輸入流I1通過網(wǎng)絡(luò)101傳送給會議混音器102。與會人100-1的輸入流I1包括對應(yīng)于與會人100-1的語音數(shù)據(jù)的數(shù)據(jù)分組。該數(shù)據(jù)分組被布置在幀k,k+1, k+2內(nèi),這些幀是數(shù)字?jǐn)?shù)據(jù)傳送單元。圖1圖示與會人100-1,100-2,100-3和100-n分別向會議混音器102輸入輸入流11;12,13,和14。這些輸入流中的一些輸入流可以由與會人通信的實際語音數(shù)據(jù)組成,而這些輸入流中的其他輸入流可以由非語音數(shù)據(jù),諸如由與會人所處環(huán)境產(chǎn)生的背景噪音組成。
[0042]對比常規(guī)會議混音器,這些常規(guī)會議混音器難以從語音數(shù)據(jù)中區(qū)分不需要的非語音數(shù)據(jù)(例如,背景噪音),該會議混音器102被配置為從會議中有效的過濾不需要的非語音數(shù)據(jù)。此外,會議混音器102實現(xiàn)了對常規(guī)會議混音器的多種改進(jìn),包括當(dāng)多個與會人同時說話時對多重會話時段進(jìn)行充分管理、承認(rèn)未激活與會人對討論的打斷以保持會議的自然流暢、以及保持與會人間的順暢過渡。為了實現(xiàn)這些和/或其它相對于常規(guī)會議混音器的優(yōu)點,根據(jù)實施例會議混音器102應(yīng)用了一個創(chuàng)新組件,其被稱為Turbo語音活動檢測(VAD)單元110,也被稱作Turbo-VAD單元,它生成Turbo-VAD判定,該判定被用于支持快速閾值調(diào)整和在噪音條件下保持高質(zhì)量會議呼叫。
[0043]應(yīng)當(dāng)注意常規(guī)VAD技術(shù)本質(zhì)上傾向于語音判定,換句話說,傾向于將聲音判定為語音,即便這個聲音不是與會人的真實語音數(shù)據(jù)。這是因為常規(guī)VAD技術(shù)的主要功能是在不造成語音退化的情況下,減少點對點VoIP呼叫的帶寬。然而,在會議呼叫中這種傾向是不合需要的,因為來自一個與會人的未被偵測到的噪音可能會與另一個與會人的語音混在一起,或者甚至更糟,將語音一起遮蓋住。因此,常規(guī)VAD技術(shù)一般不被視為適合于會議呼叫混音。Turbo型VAD單元110采用了修改后的適合會議呼叫混音的VAD技術(shù),將在下文中被詳細(xì)描述。
[0044]為了保持會議混音器使用的混音算法的靈活性,針對算法只定義了少數(shù)外部輸入。圖1中示出了根據(jù)一個實施例的主輸入,并且將在下文對其進(jìn)行詳細(xì)描述。下文描述的單元的實現(xiàn)可以在保持同樣的端口的同時改變。
[0045]在一個實施例中,會議混音器102包括輸入流接收單元104、增益控制單元106、語音監(jiān)控單元108、Turbo型VAD單元110、噪音抑制單元112、有限狀態(tài)機(FSM)單元114、分?jǐn)?shù)計算單元116、混音單元118、系數(shù)計算單元120、舒適噪音生成單元122、輸出流傳輸單元124、以及舒適噪音傳輸單元126。這些組件如圖1所示,被耦合在一起。
[0046]輸入流接收單元104是被配置為接收從與會人100-1,100-2,100-3和100_n各自傳輸?shù)妮斎肓鱅1,12,I3,和I4的組件。在一個實施例中,輸入流接收單元104是被配置為接收數(shù)字信號、并起到作為與會人100-1,100-2,100-3和100-n與會議混音器102之間端口的作用的組件。在一個實施例中,輸入流接收單元104是用軟件實現(xiàn)的邏輯塊。輸入流可以源自在網(wǎng)絡(luò)的VoIP電話等。在一個實施例中,輸入流接收單元104接收來自對應(yīng)的連接到會議混音器102的多個與會人的多個數(shù)據(jù)分組的輸入流。
[0047]語音監(jiān)控單元108包括語音功率估計單元128、噪音功率估計單元130、和閾值生成單元132。
[0048]在一個實施例中,語音功率估計單元128和噪音功率估計單元130根據(jù)FSMl 14的狀態(tài),持續(xù)地測量輸入流的平均語音和噪音功率。這些測量被Turbo型VAD單元使用,并用于增益控制單元106和噪音抑制單元112 (如果啟用)的激活。更具體的說,如圖1所示,語音功率估計單元128和噪音功率估計單元130被連接至輸入流接收單元104以接收輸入流信息。而且,語音功率估計單元128和噪音功率估計單元130也被連接至有限狀態(tài)機單元114以接收狀態(tài)信息,并基于所接收的狀態(tài)信息計算輸入流的平均語音和噪音功率。
[0049]在一個實施例中,語音功率估計單元128和噪音功率估計單元130根據(jù)系統(tǒng)狀態(tài)被激活并且使用自回歸計算。語音功率估計單元128有一個滲漏屬性,其被配置用于避免死鎖(該死鎖例如可能由被頻譜VAD單元136錯誤歸類為語音的非常密集的噪音所引起)。估計方案通過下面的等式I給出(其中k表示幀索引,以及Pk表示幀k的功率):
[0050]等式1:
[0051]'(1- CVOice) * Voice _Estk_! + Cvoice * Pk,狀態(tài)=激活
Voice_EstIc =< (1- ζleakage) * Voice—Estk— i,狀態(tài)=未激活
^ Voice_Estk~ I,其它
[0052]
^(1 - ζ noise) * Noise _Estk i +ζ noise* Pk ,狀態(tài)=未激活
Noise _Estk = <
、Noise_Estk— I,其它
[0053]如等式I所示,取決于從FSM單元114傳輸?shù)臓顟B(tài)信息是否指示“激活”狀態(tài)、“未激活”狀態(tài)、或另 一個狀態(tài)(比如從激活到未激活的轉(zhuǎn)變狀態(tài),或者反之亦然),使用三個方程式中的一個來計算給定幀k的平均語音功率估計。同樣,取決于從FSM單元114傳輸?shù)臓顟B(tài)信息是否指示“未激活”狀態(tài)或其它狀態(tài)(比如轉(zhuǎn)變狀態(tài)),使用兩個方程式之一來計算給定幀k的平均噪音功率估計。
[0054]在一個實施例中,平均噪音和語音功率估計被初始化的值為_40dBm。這個數(shù)值相對較低,因此在頻譜VAD單元136不正確地指示語音的情況下,系統(tǒng)將只在輸入真實語音時進(jìn)行適配。
[0055]系數(shù)ζ 應(yīng)當(dāng)?兩足以下關(guān)系:ζ leakage〈〈 ^ Voice ^ ζ noise〈〈 ^ power2〈 ^ power I °
原因是語音和噪音估計表示被用于閾值和增益控制的長期級別(1-10秒)。另一方面,功率估計被用于每一幀的活動判定,并且因此表示瞬時功率級別(50-100ms)。
[0056]閾值生成單元132基于由語音功率估計單元128和噪音功率估計單元130分別計算的平均語音和噪音功率估計生成功率閾值,并將生成的功率閾值傳輸?shù)絋urbo型VAD單元110中的比較單元138。在一個實施例中,功率閾值被計算為噪音和語音功率級別(以dBm為單位)的加權(quán)平均值,并且有一些修改-該閾值被保持在-40到-20dBm之間并且不低于(Voice_Estk-10dB)的值??商鎿Q地,可以其它任何合適的方式計算功率閾值。功率閾值被Turbo型VAD單元110用作語音數(shù)據(jù)的最小功率級別的指示器,這將在后面解釋。
[0057]在一個實施例中,Turbo型VAD單元110使用閉環(huán)反饋方案生成Turbo型VAD判定以支持快速閾值調(diào)整,并保證在噪音條件下的高質(zhì)量會議呼叫。Turbo型VAD判定以逐幀為基礎(chǔ)指示給定幀是否為“激活”(也被稱為“發(fā)聲”),換句話說,幀是否是語音數(shù)據(jù),或者為“未激活”(也被稱為“無發(fā)聲”),換句話說,幀是否是非語音數(shù)據(jù)。
[0058]Turbo型VAD單元110包括瞬時功率估計單元134、頻譜VAD單元136、比較單元138、和乘法器140。
[0059]在一個實施例中,瞬時功率估計單元134估計輸入流在瞬時的(即逐幀)基礎(chǔ)上的平均功率。給定幀的瞬時功率包括來自給定幀的語音數(shù)據(jù)和非語音數(shù)據(jù)(例如,背景噪音)的功率兩者,換句話說,總體功率。在一個實施例中,瞬時功率估計單元134按照下面的等式2 (k表示幀索引,Pk表示幀k的功率,Power_Estk表示步驟k的平均功率估計)估計平均瞬時功率:
[0060]等式2:
[0061]
【權(quán)利要求】
1.一種會議混音器,包括: 輸入流接收單元,被配置為從相對應(yīng)的與所述會議混音器相連接的多個與會人接收數(shù)據(jù)分組的多個輸入流; 頻譜語音活動檢測(VAD)單元,被配置為針對每個所述輸入流生成并輸出頻譜VAD判定,所述頻譜VAD判定指示包含數(shù)據(jù)分組的幀是否是語音; Turbo型VAD單兀,被配置為生成并輸出Turbo型VAD判定,所述Turbo型VAD判定為包含數(shù)組分組的幀指示哪些所述輸入流是激活的,所述Turbo型VAD判定基于每個所述輸入流的所述頻譜VAD判定和基于功率的判定,所述基于功率的判定指示包含數(shù)據(jù)分組的幀的估計瞬時功率級別是否大于每個所述輸入流的功率閾值;以及 有限狀態(tài)機(FSM)單元,被配置為基于與所述輸入流中的多個幀相對應(yīng)的多個所述Turbo型VAD判定選擇將哪些所述輸入流作為激活流輸出。
2.根據(jù)權(quán)利要求1所述的會議混音器,其中,所述Turbo型VAD單元包括: 功率估計單元,被配置為針對每個所述輸入流估計幀的瞬時功率級別; 比較單元,被配置為針對每個所述輸入流對所述幀的估計瞬時功率級別與所述功率閾值進(jìn)行比較,并且基于所述比較的結(jié)果輸出所述基于功率的判定,其中所述功率閾值指示語音數(shù)據(jù)的最小功率級別; 所述頻譜VAD單元,被配置為針對每個所述輸入流輸出所述頻譜VAD判定;以及乘法器,被配置為針對每個所述輸入流將所述基于功率的判定和所述頻譜VAD判定相乘以生成所述Turbo型VAD判定。
3.根據(jù)權(quán)利要求1所述的會議混音器,其中,所述頻譜VAD單元被部署于所述Turbo型VAD單元內(nèi)。
4.根據(jù)權(quán)利要求1所述的會議混音器,其中,所述頻譜VAD單元包括按照ITU-TG.729附錄B推薦所實施的VAD單元。
5.根據(jù)權(quán)利要求1所述的會議混音器,進(jìn)一步包括: 語音監(jiān)控單元,被配置為針對每個所述輸入流估計所述輸入流的平均語音功率級別和平均噪音功率級別,并且基于所估計的平均語音功率級別和所估計的平均噪音功率級別的加權(quán)平均生成所述功率閾值。
6.根據(jù)權(quán)利要求5所述的會議混音器,其中,所述FSM單元被配置為針對每個所述輸入流,基于所述Turbo型VAD判定生成活動比率,所述活動比率指示所述輸入流是語音數(shù)據(jù)的可能性。
7.根據(jù)權(quán)利要求6所述的會議混音器,其中,所述FSM單元生成所述活動比率,使得所生成的活動比率包括O和I之間的數(shù)值,其中數(shù)值“O”指示所述輸入流中完全沒有語音數(shù)據(jù),以及其中隨著所述輸入流中的所述語音數(shù)據(jù)的量的增加,所述數(shù)值逼近于數(shù)值“ I ”。
8.根據(jù)權(quán)利要求7所述的會議混音器,其中, 所述FSM單元進(jìn)一步被配置為針對每個所述輸入流,生成指示所述輸入流的當(dāng)前狀態(tài)的狀態(tài)信息并且將所述狀態(tài)信息反饋給所述語音監(jiān)控單元,所述當(dāng)前狀態(tài)指示所述輸入流當(dāng)前是否攜帶語音數(shù)據(jù),以及 所述語音監(jiān)控單元進(jìn)一步被配置為基于從所述FSM單元反饋的所述狀態(tài)信息估計所述輸入流的所述平均語音功率級別和所述平均噪音功率級別。
9.根據(jù)權(quán)利要求8所述的會議混音器,其中,所述FSM單元生成所述狀態(tài)信息以指示所述輸入流的以下當(dāng)前狀態(tài)之一:(a)激活狀態(tài),其指示所述輸入流當(dāng)前正攜帶語音數(shù)據(jù),(b)未激活狀態(tài),其指示所述輸入流當(dāng)前未攜帶任何語音數(shù)據(jù),(C)漸強狀態(tài),其指示所述輸入流正在從所述未激活狀態(tài)轉(zhuǎn)變?yōu)樗黾せ顮顟B(tài),以及(d)漸弱狀態(tài),其指示所述輸入流正在從所述激活狀態(tài)轉(zhuǎn)變?yōu)樗鑫醇せ顮顟B(tài)。
10.根據(jù)權(quán)利要求5所述的會議混音器,還包括:增益控制單元,其被配置為針對每個所述輸入流,基于所述輸入流的所估計的平均語音功率級別和所述輸入流的所估計的平均噪音功率級別來調(diào)整增益。
11.根據(jù)權(quán)利要求5所述的會議混音器,還包括:噪音抑制器,其被配置為針對每個所述輸入流,基于所述輸入流的所估計的平均語音功率級別和所述輸入流的所估計的平均噪音功率級別來抑制噪音。
12.—種會議混音的方法,包括: 從相對應(yīng)的多個與會人接收數(shù)據(jù)分組的多個輸入流; 針對每個所述輸入流生成并且輸出頻譜VAD判定,所述頻譜VAD判定指示包含數(shù)據(jù)分組的幀是否是語首; 生成并且輸出Turbo型VAD判定,所述Turbo型VAD判定針對包含數(shù)據(jù)的幀指示哪些輸入流是激活的,所述Turbo型VAD判定的所述生成和輸出是基于每個所述輸入流的所述頻譜VAD判定和基于功率的判定,所述基于功率的判定指示幀的估計的瞬時功率級別是否大于每個所述輸入流的功率閾值;以及 基于與所述輸入流中的多個幀相對應(yīng)的多個所述Turbo型VAD判定,選擇將哪些所述輸入流作為激活流輸出。
13.根據(jù)權(quán)利要求12所述的方法,還包括: 針對每個所述輸入流,估計幀的所述瞬時功率級別; 針對每個所述輸入流,比較所述幀的所估計的瞬時功率級別與所述功率閾值,并且基于所述比較的結(jié)果輸出所述基于功率的判定,所述功率閾值指示語音數(shù)據(jù)的最小功率級別; 針對每個所述輸入流,輸出所述頻譜VAD判定;以及 針對每個所述輸入流,將所述基于功率的判定和所述頻譜VAD判定相乘以生成所述Turbo型VAD判定。
14.根據(jù)權(quán)利要求12所述的方法,其中,所述頻譜VAD判定的所述生成和輸出包括,使用部署于用于生成所述Turbo型VAD判定的Turbo型VAD單元內(nèi)的頻譜VAD單元來生成和輸出所述頻譜VAD判定。
15.根據(jù)權(quán)利要求12所述的方法,其中,所述頻譜VAD判定的所述生成和輸出包括,使用按照ITU-T G.729附錄B的推薦所實施的VAD單元來生成和輸出所述頻譜VAD判定。
16.根據(jù)權(quán)利要求12所述的方法,還包括: 針對每個所述輸入流,估計所述輸入流的平均語音功率級別和平均噪音功率級別,并且基于所估計的平均語音功率級別和所估計的平均噪音功率級別的加權(quán)平均來生成所述功率閾值。
17.根據(jù)權(quán)利要求16所述的方法,還包括:針對每個所述輸入流,生成基于所述Turbo型VAD判定的活動比率,所述活動比率指示所述輸入流是語音數(shù)據(jù)的可能性。
18.根據(jù)權(quán)利要求17所述的方法,其中所述活動比率的所述生成包括生成所述活動比率,使得所生成的活動比率包括O和I之間的數(shù)值,其中所述數(shù)值“O”指示所述輸入流中完全沒有語音數(shù)據(jù),并且其中隨著所述輸入流中的所述語音數(shù)據(jù)的量的增加,所述數(shù)值逼近于數(shù)值“1”。
19.根據(jù)權(quán)利要求18所述的方法,還包括: 針對每個所述輸入流,生成指示所述輸入流的當(dāng)前狀態(tài)的狀態(tài)信息并且反饋所述狀態(tài)信息,所述當(dāng)前狀態(tài)指示所述輸入流當(dāng)前是否攜帶語音數(shù)據(jù),以及 基于所述狀態(tài)信息的反饋,估計所述輸入流的所述平均語音功率級別和所述平均噪音功率級別。
20.根據(jù)權(quán)利要求19所述的方法,其中,所述狀態(tài)信息的所述生成包括,生成所述狀態(tài)信息以指示所述輸入流的以下當(dāng)前狀態(tài)之一:(a)激活狀態(tài),其指示所述輸入流當(dāng)前正攜帶語音數(shù)據(jù),(b)未激活狀態(tài),其指示所述輸入流當(dāng)前未攜帶任何語音數(shù)據(jù),(c)漸強狀態(tài),其指示所述輸入流正在從所述未激活狀態(tài)轉(zhuǎn)變?yōu)樗黾せ顮顟B(tài),以及(d)漸弱狀態(tài),其指示所述輸入流正在從所述激活狀態(tài)轉(zhuǎn)變?yōu)樗鑫醇せ顮顟B(tài)。
【文檔編號】H04M3/42GK103931166SQ201280047507
【公開日】2014年7月16日 申請日期:2012年9月27日 優(yōu)先權(quán)日:2011年9月28日
【發(fā)明者】A·普洛特尼科夫, T·卡達(dá)肖夫, M·科瓦倫科 申請人:馬維爾國際貿(mào)易有限公司