91中的預先確定的波束形成樣式。系統(tǒng)存儲器103是非易失性、非短暫性存儲器。
[0037]在一些實施例中,噪聲抑制器170可以從緩沖器133接收緩沖的語音信號118,并且向語音識別引擎180和/或一個或多個語音收發(fā)信機104提供噪聲抑制的語音信號157。在一些實施例中,可以不使用且可以不存在語音識別引擎180。也就是說,在一些實施例中,如果裝置100并入的設備采用互聯(lián)網協(xié)議語音(VoIP)系統(tǒng),則噪聲抑制的語音信號157可以通過有線或無線電信通道或通過有線或無線網絡連接僅提供給一個或多個語音收發(fā)信機104。在具有語音識別引擎180的實施例中,語音識別引擎180可以操作地耦合到系統(tǒng)控件101,系統(tǒng)控件101可以是任何類型的語音可控系統(tǒng)控件,取決于裝置100并入的設備,諸如但不限于,移動電話的語音控制撥號器、視頻記錄系統(tǒng)控件、移動電話的應用控件、智能電話、平板電腦、筆記本電腦、車內控制系統(tǒng)等,或任何其他類型的語音可控系統(tǒng)控件。然而,系統(tǒng)控件101可以不存在于所有實施例。語音識別引擎包括識別人的語音的基本語音識別(VR)邏輯
181。在一些實施例中,語音識別引擎180可以另外地或替代地包括被訓練成識別諸如特定用戶的語音的特定人的語音的說話者辨識語音識別邏輯(S1-VRH82。
[0038]由波束形成器控制器190發(fā)送的控制信號163可以調用VR邏輯181或S1-VR邏輯
182。響應于控制信號163指令,VR邏輯181或S1-VR邏輯182將讀取緩沖的噪聲信號117或緩沖的語音信號118中的一個或兩者。語音識別引擎180將向波束形成器控制器190提供每個短語或單詞組具有對應的語音置信度量的語音至文本流,作為識別的人類語音的可能性或特定用戶的語音的可能性(如果已經調用S1-VR邏輯182)的指示(S卩,置信得分)。圖1示出這個指示作為語音置信度量159。在語音識別引擎180還用作裝置100的控制功能的一些實施例中,語音識別引擎180還可以響應于語音信號157上或緩沖的語音信號118上接收到的檢測的命令字,命令短語或其它語音(諸如用于語音至文本應用)向系統(tǒng)控件101發(fā)送控制信號 165。
[0039]在各種實施例中,波束形成器控制器190是可操作以監(jiān)視對語音信號135和噪聲信號136提供各種條件指示的各種控制信號。響應于所述條件,波束形成器控制器190可操作來調整波束形成器130,以改變波束形成方向性。例如,波束形成器控制器190嘗試調整波束形成器131,直到語音信號135基本上是用戶的語音。此外,波束形成器控制器190嘗試調整波束形成器132,直到噪聲信號136被聯(lián)接到用戶的聲學環(huán)境的噪聲和聲音而不是用戶的語音,諸如一個或多個干擾機語音或其他環(huán)境背景噪聲。
[0040]在一些實施例中,在一些情況下,形成單一的波束形成可能足夠。例如,對于給定應用或對于給定的聲學環(huán)境,通過使用VAD、VR邏輯181或S1-VR邏輯182(即,經過訓練的VR)以形成語音波束形成通道連同使用噪聲抑制器可以提供足夠的保真度和去噪聲。此外,對于給定應用或對于給定的聲學環(huán)境,使用已訓練的VR以基本上消除用戶的語音并使用噪聲抑制器的噪聲波束形成通道也可以提供足夠的保真度和去噪。
[0041]在一些實施例中,波束形成器控制器190可操作以配置麥克風組110,這可以通過控制麥克風配置邏輯120根據(jù)由設備方位檢測器105檢測到的設備方位或其它條件打開或關閉麥克風來實現(xiàn)。在一些實施例中,波束形成器控制器190可以生成語音或噪聲信號路徑的隨機波束形成,其中,適當?shù)男盘柭窂浇M件檢查每個的結果。在其他實施例中,波束形成器控制器190可以使得虛擬麥克風波束形成改變,使得波束形成平移或掃描音頻環(huán)境,直到獲得期望的條件。在另外的其它實施例中,波束形成器控制器190可以使用系統(tǒng)存儲器103中存儲的波束形成樣式數(shù)據(jù)庫191中存儲的預先確定的波束形成樣式配置波束形成器130。在另外的其它實施例中,波束形成器131和波束形成器132可以是自適應波束形成器,所述自適應波束形成器可操以確定組合麥克風組110的麥克風輸出所需要的幅度和相位系數(shù),以便在期望的方向上引導光束或空(null)。在各種實施例中,波束形成器控制器190可操作并且可以監(jiān)視來自任何下列分量任意組合的控制信號,諸如從能量估計器141接收到的控制信號111、來自能量估計器142的控制信號115、來自VAD 151的控制信號123、來自VAD 152的控制信號125、來自噪聲估計器161的控制信號145、和/或來自噪聲估計器162的控制信號147。波束形成器控制器190還可以從語音識別引擎180接收語音置信度量159。在本文描述的特定條件下,波束形成器可操作向噪聲抑制器170發(fā)送控制信號155來調用噪聲抑制。在一些實施例中,波束形成器控制器190可以被集成到波束形成器130中,使得波束形成器130包括波束形成器控制器的所有特征。
[0042]所公開的實施例采用VAD151和VAD 152以從噪聲區(qū)分語音活動(反之亦然),并相應地向波束形成器控制器190發(fā)送相應控制信號123和125。實施例還利用噪聲估計器161和噪聲估計器162,以確定如果不能從信號正確地區(qū)別語音何時啟用或禁用降噪。
[0043]波束形成器190基于由能量估計器141和能量估計器142檢測到的能量水平,如通過VAD 151或VAD 152以及噪聲估計器161和162確定的語音活動,相應地調整波束形成器131和波束形成器132的波束形成方向性。也就是說,如果檢測到的能量水平超過閾值,則VAD查找語音。如果沒有檢測到語音,則波束形成器190可以調整相應波束形成樣式。如果檢測到語音,則噪聲估計器確定是否需要噪聲抑制或者信號本身足夠。如果需要噪聲抑制,則波束形成器190可以發(fā)送控制信號155以激活噪聲抑制器170并且由語音識別引擎180來執(zhí)行對語音信號157的語音置信度量測試。
[0044]因此,能量估計器141和142可操作,以檢測與可以作為接收到的音頻信號中存在語音的指示的基線的偏差,或辨識波束形成器131和132在主導能量源(可能是主背景噪聲)的方向上是否具有它們相應波束形成的高靈敏度部分。如果檢測到這樣的偏差,則能量估計器141可以發(fā)送控制信號119來激活VAD 151,以確定語音實際上是否存在于接收到的音頻信號。超過閾值的短期偏差也可以將發(fā)送控制信號109調用到緩沖器133來調用緩沖信號。
[0045]根據(jù)圖2的流程圖可以理解裝置100的操作的示例方法。操作放入方法開始于操作塊201,其中,裝置100使用波束形成來創(chuàng)建至少兩個虛擬麥克風。一個虛擬麥克風用于用戶的語音,并且另一個虛擬麥克風用于噪聲。例如,如圖1所示,波束形成器131輸出虛擬麥克風語音信號135,并且波束形成器132輸出虛擬麥克風噪聲信號136。在操作塊203,波束形成器控制器190調整波束形成的一個或兩個,以定位主導能量方向。例如,在一些實施例中,能量估計器141可以檢測能量水平高于閾值,并相應地將控制信號111發(fā)送到波束形成器190以向波束形成器控制器190通知已經檢測到高能量水平。然而,在不需要能量估計器141的實施例中,VAD 151用于首先檢測語音活動。此外,在一些實施例中,可以使用超時定時器,使得如果在給定的時間段內能量估計器沒有檢測到能量,則波束形成器控制器190可以進行到改變波束形成,以便搜索主導能量源,例如,通過采用自適應波束形成器來確定幅度和相位系數(shù)來朝向主導能量源引導光束或空。在操作的示例中,可以在用戶的語音的方向上引導一個波束形成,以形成虛擬麥克風語音通道,并且可以在用戶的語音的方向上引導空,以形成虛擬麥克風噪聲通道。
[0046]用于差分雙麥克風陣列的聲學教材波束樣式包括雙向、超心形和心形的形狀,它的極性樣式具有無限的深度空。在典型的物理系統(tǒng)中,麥克風信號之間的相位和幅度失配受各種因素影響,諸如硬件、A/D轉換精度、時鐘局限性等。麥克風和其周圍結構之間的物理間隔距離進一步減小這些空的深度。在典型實現(xiàn)的寬頻帶信號系統(tǒng)中,心形樣式的空深度可以是低至1dB或高達36dB。因此,如果空僅朝向存在的干擾機講話者或噪聲源,則該噪聲源或干擾機的預期衰減可以至少是10至12dB。注意,使用完美匹配的麥克風和信號處理通道,衰減可以高得多。如果存在面向多個方向的多個干擾機講話者或噪聲源,則只用一個可引導空可實現(xiàn)的最大衰減將小于這個10至12dB的值。在一個實施例中,為了形成噪聲波束,波束形成器控制器(190)可以在期望的語音引導空。期望的語音將被衰減上述量,因此噪聲波束將基本上是噪聲。在另一個實施例中,為了形成語音波束,波束形成器控制器(190)可以在干擾機講話者源處引導空。然后,得到的信號將基本上是語音,僅具有干擾信號的一小部分,因為它衰減了上述量。在又一個實施例中,在擴散聲場的情況下,波束形成器控制器(190)可以在期望講話者的方向上定向超心形波束形成,從而形成信號,由于相對于全向麥克風波束樣式的_6dB隨機能量效率,該信號基本上是語音。
[0047]在操作塊205,波束形成器控制器190調整至少一個波束形式,直到基于語音活動檢測和/或語音識別置信度量的驗證在至少一個語音虛擬麥克風信號上辨識了語音。在一個示例中,VAD 151或VAD 152將被調用,以確定語音是否存在于信號中。例如,如果VAD 151在信號中沒有檢測到語音,則VAD 151可以向波束形成器控制器190發(fā)送控制信號123以指示波束形成器控制器190應該重新適應,或通過相應地改變波束形成以某種其它方式繼續(xù)搜索語音。
[0048]在操作塊207,波束形成器控制器190調整至少第二波束形成,直到在至少一個噪聲虛擬麥克風信號中辨識了干擾機語音或背景噪聲。例如,在一個實施例中,VAD 152可以用于確定語音是否存在于噪聲信號136中。在一些實施例中,對于VAD 152檢測到語音存在的情況,VAD 152可以向波束形成控制器190發(fā)送控制信號125來調用語音識別引擎180的使用,以進一步精煉語音檢測。例如,波束形成器控制器190可以向語音識別引擎180發(fā)送控制信號163來命令S1-VR182邏輯分析緩沖的噪聲信號117,并確定檢測到任何語音是否是用戶的語音。如果基于返回到波束形成器控制器190的語音置信度量159檢測到用戶的語音,則波束形成器控制器190可以改變波束形成來尋找另一個主導能量源(S卩,繼續(xù)搜索噪聲)。如果S1-VR 182邏輯沒有檢測到用戶的語音,則在一些實施例中,VAD 152檢測到的語音活動可以被假定為干擾機語音(即,噪聲源)。此外,如果語音活動檢測器VAD152沒有檢測到語音,則控制信號125可以向波束形成器控制器190指示在噪聲信號136中僅檢測到背景噪聲,并且因此,在任一上述示例情況下,搜索噪聲源(環(huán)境噪聲,干擾機語音,或兩者)成功。
[0049]在操作塊209,第一和第二虛擬麥克風信號被發(fā)送到雙輸入噪聲抑制器。在特定條件下,虛擬麥克風輸出將