自適應(yīng)波束形成器、旁瓣抑制器、自動語音通信設(shè)備的制作方法

文檔序號：2829012閱讀：272來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：自適應(yīng)波束形成器、旁瓣抑制器、自動語音通信設(shè)備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種自適應(yīng)波束形成器單元和包括該自適應(yīng)波束形成器的旁瓣抑制器。
本發(fā)明還涉及包括該自適應(yīng)波束形成器或者旁瓣抑制器的自動語音通信系統(tǒng)、便攜的語音通信設(shè)備、聲音控制單元和用以跟蹤音頻產(chǎn)生物體的跟蹤設(shè)備。
本發(fā)明還涉及一種包括該聲音控制單元的消費(fèi)裝置。
本發(fā)明還涉及一種自適應(yīng)波束形成或者旁瓣抑制的方法和包含該方法的代碼的計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù)：
如在第一段中所述的旁瓣抑制器和包含的波束形成器的一個(gè)實(shí)施例，可以從出版物“C.Fancourt and L.ParraThe generalized sidelobe decorrelator.Proceedings of the IEEE Workshop on applications of signal processing to audio andacoustics 2001.”中得知。設(shè)計(jì)波束形成器和旁瓣抑制器用來鎖定一個(gè)期望的聲音源，即，產(chǎn)生占主導(dǎo)地位的對應(yīng)于來自期望源的聲音的輸出音頻信號，同時(shí)盡可能多地避免來自其它源的聲音(稱為噪聲)。旁瓣抑制器包括自適應(yīng)波束形成器，它被設(shè)置為處理來自麥克風(fēng)陣列的信號，該旁瓣抑制器的波束形成器濾波器可以被最優(yōu)化，使得這些濾波器表示期望的音頻從期望的音頻源到每一個(gè)麥克風(fēng)的路徑的反向(即期望的音頻通過例如在不同的表面反射出來最終從不同的方向進(jìn)入到特定的麥克風(fēng)而被改變)。通過合并濾波后的信號，波束形成器有效地實(shí)現(xiàn)一個(gè)對方向敏感的模式，該模式在期望聲音源的方向上具有一個(gè)高靈敏度的波瓣。例如對于純粹延時(shí)的濾波器，波束形成器實(shí)現(xiàn)一個(gè)具有一個(gè)主瓣和多個(gè)旁瓣的sin(x)/x模式。然而，該靈敏性模式帶來的問題在于來自其它源的聲音也可以被采集到。例如，噪聲源可能位于其中一個(gè)旁瓣的方向上。為了解決這個(gè)問題，旁瓣抑制器還包括自適應(yīng)噪聲消除步驟。通過麥克風(fēng)測量，通過從噪聲參考信號中阻止期望的聲音成分來計(jì)算噪聲參考信號，即，例如確定旁瓣中的噪聲。通過自適應(yīng)濾波器的方法，從這些噪聲測量中估計(jì)有多少噪聲源從該波瓣模式中朝著期望的聲音泄漏。最后，從由主瓣采集的信號中減去該噪聲，剩下的作為最后的音頻信號主要僅僅為期望的聲音。如果方向模式是對應(yīng)于該最優(yōu)的旁瓣抑制器計(jì)算出來的，那么這個(gè)模式包括一個(gè)朝著期望的聲音源的主瓣，和在噪聲源方向上的零值。
使用現(xiàn)有技術(shù)的旁瓣抑制器和波束形成器存在著許多問題，導(dǎo)致這一事實(shí)實(shí)際上它們經(jīng)常不像它們理想應(yīng)該的那樣工作。特別地，優(yōu)良的旁瓣抑制器或者波束形成器，對于在期望的聲音源和/或噪聲源的方向是變化的環(huán)境下，是特別難以設(shè)計(jì)的，因此，對于這種情況，在一個(gè)相對短的時(shí)間間隔，濾波器可能必須重新調(diào)整。然而這種情況是非常普遍的，例如在試圖跟蹤在房間內(nèi)到處移動的說話人的電話會議系統(tǒng)中，或者在對著整合在移動電話中的旁瓣抑制器說話的人連同移動電話在變化的環(huán)境中到處移動的系統(tǒng)中，例如遇到的自動車載電話套件。
沒有預(yù)先出版的歐洲申請03104334.2描述了一種波束形成器/旁瓣抑制器濾波器優(yōu)化技術(shù)來消除這兩種問題。第一，大量的不相關(guān)噪聲(理論上對應(yīng)于無限源)的存在，例如在車載應(yīng)用中的風(fēng)。該申請解決的第二問題是阻止引入相當(dāng)多的“語音泄漏”到噪聲的測量中，這發(fā)生在如果例如波束形成器主瓣從它的最優(yōu)的方向朝著期望的聲音源和干擾聲音源之間的方向移動時(shí)。由于干擾聲音源在每一個(gè)麥克風(fēng)中引入相關(guān)的信號成分(例如相互之間純粹的延時(shí)成分)，因此以下也將其稱作相關(guān)噪聲。
03104334.2中單獨(dú)為了處理不相關(guān)噪聲和語音泄漏而設(shè)計(jì)的波束形成器傍瓣抑制器，不能夠在相關(guān)噪聲即干擾聲音源存在時(shí)準(zhǔn)確地工作，該干擾聲音源例如風(fēng)扇或者從旁經(jīng)過的摩托車。
由于在來自期望聲音源的聲音(例如接近終端的說話者)和形成相關(guān)噪聲源的干擾聲音之間不必然存在物理差異，因此，該系統(tǒng)可能會偏離到噪聲源上，而不能鎖定到說話者或者保持鎖定說話者，例如，如果在一個(gè)時(shí)間段內(nèi)噪聲源具有比期望的聲音源更大的幅度時(shí)就會這樣，而該現(xiàn)象發(fā)生在例如當(dāng)靠近終端的說話人的說話聲音比較輕且有聲音較大的卡車從旁經(jīng)過時(shí)。特別地，使用經(jīng)過許多處理步驟后得到的純凈信號來自適應(yīng)調(diào)節(jié)其濾波器的旁瓣抑制器，盡管能夠得到一個(gè)最優(yōu)濾波器的優(yōu)良的估計(jì)，但是它容易脫離其最優(yōu)狀態(tài)，然后難以使系統(tǒng)回到最優(yōu)狀態(tài)，特別是在大幅度相關(guān)噪聲存在時(shí)。

發(fā)明內(nèi)容
本發(fā)明的首要目標(biāo)在于提供一種自適應(yīng)波束形成器單元，該單元對于相關(guān)噪聲的影響，即，一個(gè)非期望的第二聲音源，具有一定的魯棒性。
該首要目標(biāo)的實(shí)現(xiàn)在于按照本發(fā)明的一種自適應(yīng)波束形成器單元包括-濾波求和波束形成器，被設(shè)置為處理來自各自的麥克風(fēng)陣列的輸入音頻信號，并且，還被設(shè)置為通過對輸入音頻信號的第一個(gè)使用第一自適應(yīng)濾波器濾波，對輸入音頻信號的第二個(gè)使用第二自適應(yīng)濾波器，生成占主導(dǎo)地位的對應(yīng)于來自期望音頻源的聲音的第一音頻信號作為輸出，分別使用第一步長和第二步長自適應(yīng)調(diào)節(jié)第一濾波器和第二濾波器的系數(shù)；-噪聲測度導(dǎo)出裝置，被設(shè)置為從輸入音頻信號導(dǎo)出第一噪聲測度和第二噪聲測度；-更新單元，被設(shè)置為利用等式確定第一和第二步長，該等式對于第一步長，其分母中包含第一噪聲測度，對于第二步長，其分母中包含第二噪聲測度。
該波束形成器和噪聲測度可通過03104334.2獲得，而本波束形成器使用新的更新策略，用以增加抗來自干擾聲音源的相關(guān)噪聲的魯棒性。
噪聲導(dǎo)出裝置對麥克風(fēng)信號優(yōu)選地應(yīng)用自適應(yīng)濾波，例如，阻止矩陣(ablocking matrix)可以用來消除對期望音頻(例如，語音)的估計(jì)，由此生成好的噪聲測度，該期望音頻估計(jì)是在特定的濾波器路徑采集到的，也就是通過特定的麥克風(fēng)從總的采集到的信號中選出來的。
通過為每一個(gè)濾波器的更新單元部分提供它自己的噪聲測度，并導(dǎo)出瞬間的與噪聲量成反比的更新步長，使得該濾波器對于噪聲特別不敏感。如果存在占主導(dǎo)地位的期望音頻，則最好設(shè)置較大的步長，使得濾波器可以跟蹤移動的期望源。如果存在大量的噪聲，則分母變大，產(chǎn)生較小的更新步長，所以濾波器有效地凍結(jié)，幾乎不對有害的噪聲的影響產(chǎn)生反應(yīng)。特別地，如果濾波器對于期望源、空間特性、麥克風(fēng)位置等被最優(yōu)化，則濾波器使用小的更新步長就可以在很大程度上保持在最優(yōu)的設(shè)置。
在自適應(yīng)波束形成器單元的優(yōu)選實(shí)施例中，噪聲測度導(dǎo)出裝置被設(shè)置為，通過從第一麥克風(fēng)采集到的期望音頻源中減去期望的聲音測度，從而從第一輸入音頻信號中導(dǎo)出第一噪聲測度；通過從第二麥克風(fēng)采集到的期望音頻源中減去第二期望的聲音測度，從而從第二輸入音頻信號中導(dǎo)出第二噪聲測度。
理想地，由對應(yīng)于特定的波束形成器濾波器的麥克風(fēng)實(shí)際采集到的噪聲被應(yīng)用在自適應(yīng)步長等式中。如果存在例如兩個(gè)噪聲源——風(fēng)扇和摩托車——則每個(gè)麥克風(fēng)都將采集到一個(gè)總的噪聲信號，它們是來自兩個(gè)源的聲音的組合，由于這里麥克風(fēng)信號是相關(guān)的，因此由每一個(gè)噪聲源引入的子信號的相關(guān)可以確定。由于濾波器更新等式一般包含期望音頻測度和整個(gè)噪聲干擾測度的內(nèi)積，后者可以使濾波器遠(yuǎn)離它們的最優(yōu)設(shè)置，特別是當(dāng)它比較大時(shí)。因此，應(yīng)該完全正確地計(jì)算出該總噪聲。
該自適應(yīng)波束形成器單元實(shí)施例的一個(gè)特殊的實(shí)現(xiàn)形式使用等式來獲得步長，該步長等于αm[f,t]=βPzz[f,t]/(Pzz[f,t]+γPxmxm[f,t]),]]>其中m是索引，指示使用得到的步長αm來自適應(yīng)調(diào)節(jié)哪個(gè)濾波器(f1(-t)，f2(-t))，f表示頻率，t表示時(shí)刻，z表示第一音頻信號，xm分別是第一和第二噪聲測度，在本實(shí)施例中，即由對應(yīng)的第m個(gè)麥克風(fēng)采集到的噪聲測度，該噪聲測度是由從麥克風(fēng)輸入音頻信號um中減去期望的音頻得到的，P..表示用來得到信號(.表示同它的下標(biāo)指示的)功率的等式，β和γ是預(yù)先確定的常數(shù)。本領(lǐng)域技術(shù)人員可以認(rèn)識到，有一些功率測度可供選擇，典型的一個(gè)是，例如，在一段時(shí)間內(nèi)信號平方的積分。
但是，在另一個(gè)實(shí)施例中，第一噪聲測度和第二噪聲測度由輸入音頻信號的各自的線性組合來確定。
相關(guān)噪聲的有害的行為可以通過，例如，使步長等式的分母依賴于所有噪聲源的和來克服?；蛘撸谕纛l(一般是語音)的線性組合一被消除的麥克風(fēng)信號，可以從自適應(yīng)噪聲估計(jì)器得到，該估計(jì)器具有作為輸出的每一個(gè)噪聲源單獨(dú)的測度(一個(gè)是風(fēng)扇噪聲的測度，另一個(gè)是摩托車噪聲的測度，等)。然后，這些噪聲測度可以用作分母，或者加到已經(jīng)出現(xiàn)在更新步長等式的分母上的噪聲測度上。在許多情況下，這會比當(dāng)如上所述使用在特定濾波器信道中的整個(gè)噪聲的測度時(shí)具有某種程度的更小的魯棒性更新行為。
自適應(yīng)波束形成器也可以包含在旁瓣抑制器拓?fù)渲校撏負(fù)溥M(jìn)一步包括-自適應(yīng)噪聲估計(jì)器，被設(shè)置為利用第二組自適應(yīng)濾波器，對從輸入音頻信號導(dǎo)出的第一和第二噪聲測度進(jìn)行濾波，產(chǎn)生估計(jì)的噪聲信號；-減法器，被設(shè)置為從第一音頻信號中減去估計(jì)的噪聲信號，得到無噪聲的第二音頻信號；-可選的更新單元，被設(shè)置為利用等式確定第一和第二步長，該等式包括第二音頻信號的幅度測度，并且，該等式對于第一步長，其分母中包含第一噪聲測度，對于第二步長，其分母中包含第二噪聲測度。
旁瓣抑制器允許產(chǎn)生更加純凈的期望音頻信號—第二音頻信號—和對噪聲的更加純凈的測度(即，信號更大程度上僅僅對應(yīng)于實(shí)際采集到的噪聲，和盡可能少的仍然保留其中的期望音頻的殘余)。該拓?fù)洚a(chǎn)生比使用上面的波束形成器單元更好的優(yōu)化結(jié)果，但是，一般來說不僅具有優(yōu)化的波束形成器濾波器，而且還有語音阻止矩陣和噪聲估計(jì)器的濾波器的旁瓣抑制器，對于噪聲更加敏感，使得該新的更新策略非常重要。本領(lǐng)域技術(shù)人員可以由非預(yù)先公布的歐洲申請?zhí)枮?3104334.2的專利申請中得知，如何優(yōu)化阻止矩陣和與波束形成器的濾波器相關(guān)的噪聲估計(jì)器濾波器。
旁瓣抑制器的實(shí)例性實(shí)施例通過使用等式得到步長，可基于第二音頻信號來實(shí)現(xiàn)更新，該步長等于αm[f,t]=βPrr[f,t]/(Prr[f,t]+γPvmvm[f,t]),]]>其中m是索引，指示使用得到的步長大小αm來自適應(yīng)調(diào)節(jié)哪個(gè)濾波器(f1(-t)，f2(-t))，f表示頻率，t表示時(shí)刻，r是第二音頻信號，Vm是由對應(yīng)的第m個(gè)麥克風(fēng)采集到的噪聲測度，無噪的第二音頻信號(r)作為期望音頻的測度被減去了，P表示用來得到信號功率的等式，β和γ是預(yù)先確定的常數(shù)。
這又是一個(gè)優(yōu)化等式，該優(yōu)化等式對于每一個(gè)單獨(dú)的濾波信道使用噪聲測度Vm(對于這個(gè)旁瓣抑制器更新拓?fù)?，噪聲測度一對一地對應(yīng)于波束形成器單元更新的測度Xm)。
自適應(yīng)波束形成器或者旁瓣抑制器的實(shí)施例包括一個(gè)縮放因子確定單元，被設(shè)置為確定單獨(dú)的縮放因子來縮放波束形成器的第一濾波器和第二濾波器的步長，縮放因子基于語音泄漏和/或不相關(guān)的噪聲的量來確定。
將對于相關(guān)噪聲具有魯棒性的本更新方案與對于其他非理想類型具有魯棒性的方案結(jié)合起來是有益的，其中，對于其他非理想類型的魯棒的方案例如在03104334.2所披露的方案。如果波束形成器/旁瓣抑制器是接近最優(yōu)的，則本自適應(yīng)步長確定方案可確定正確的步長。但是，如果濾波器對于最優(yōu)有稍許偏離(或者至少趨向于偏離最優(yōu))，則目前的方案不會工作得很好，但是03104334.2中步長的確定方法可以用來使濾波器回到它們最優(yōu)的設(shè)置。
將自適應(yīng)波束形成器或者旁瓣抑制器設(shè)置為從基于音頻的說話者跟蹤器和/或基于視頻的說話者跟蹤器接收位置數(shù)據(jù)也是有益的。其中，基于音頻的說話者跟蹤器被配置為基于說話者的聲音確定說話者在空間中的位置，基于視頻的說話者跟蹤器被配置為基于拍攝的圖像確定說話者在空間中的位置。其中，第一濾波器和第二濾波器的系數(shù)基于位置來確定，該位置由基于音頻的說話者跟蹤器和/或基于視頻的說話者跟蹤器來確定。
如果存在許多大功率的聲音源，即使結(jié)合上面兩種更新方案，使濾波器收斂于它們的最優(yōu)點(diǎn)也可能是困難?？梢允褂脛e的設(shè)備來幫助該系統(tǒng)，例如，基于視頻的說話者跟蹤器可以在拍攝的圖像中使用圖像處理軟件來檢測對應(yīng)于說話者的臉譜，基于此，濾波器的系數(shù)重新初始化，使得主瓣至少稍許地更加指向說話者的臉譜的空間位置。
自適應(yīng)波束形成器和旁瓣抑制器一般被應(yīng)用在各種類型的(例如，一般是自動的)語音通信系統(tǒng)中，例如包含安排在一個(gè)桌子上的小的群體實(shí)現(xiàn)遠(yuǎn)程電信會議，或者汽車套件(分布在汽車?yán)锩娴柠溈孙L(fēng))。波束形成器單元或者旁瓣抑制器也可以包含在一個(gè)便攜式的語音通信設(shè)備中，例如移動電話、個(gè)人數(shù)字助手、口述裝置或者其他具有類似通信能力的設(shè)備。該自適應(yīng)波束形成器/旁瓣抑制器優(yōu)點(diǎn)還在于聲音控制裝置，例如，電視機(jī)的遙控器，或者個(gè)人電腦上的語音轉(zhuǎn)文本系統(tǒng)，為了提高這些裝置的語音識別能力，對于這些設(shè)備，噪聲是一個(gè)重要的問題。其他設(shè)備可以是各種消費(fèi)設(shè)備、電梯或者智能房間的組成部分、安全系統(tǒng)(例如依賴于聲音識別的系統(tǒng))、消費(fèi)交互終端等。
該系統(tǒng)也用于跟蹤設(shè)備中，一般用于安全應(yīng)用，或者為了某些目的而監(jiān)控用戶的行為的應(yīng)用。例如，一個(gè)例子可以是基于夜賊的特征噪音而對其進(jìn)行放大的照相機(jī)。
自適應(yīng)波束形成的相應(yīng)的方法包括a)使用第一自適應(yīng)濾波器(f1(-t))對來自第一麥克風(fēng)的第一輸入音頻信號進(jìn)行濾波，使用第二自適應(yīng)濾波器(f2(-t))對來自第二麥克風(fēng)的第二輸入音頻信號進(jìn)行濾波，對濾波后的輸入音頻信號求和，產(chǎn)生占主導(dǎo)地位的對應(yīng)于來自期望音頻源的的聲音的第一音頻信號；b)從輸入音頻信號導(dǎo)出第一噪聲測度和第二噪聲測度；
c)使用第一步長(α1)和第二步長(α2)分別自適應(yīng)調(diào)節(jié)第一濾波器(f1(-t))和第二濾波器(f2(-t)的系數(shù)，該步長來自一個(gè)等式，該等式對于第一步長(α1)，其分母中包括第一噪聲測度(x1)，對于第二步長(α2)，其分母中包括第二噪聲測度(x2)，這些也被揭示。

根據(jù)本發(fā)明，參照下文描述的執(zhí)行方式、實(shí)施例以及附圖，波束形成器和旁瓣抑制器的這些和其他的方面將是明顯的，該附圖只不過作為不受限制的特殊的圖來舉例說明更加一般的概念。
附圖中圖1示意性地示出了基于第一音頻信號，對應(yīng)比例等式的旁瓣抑制器的實(shí)施例；圖2示意性地示出了基于第二音頻信號，對應(yīng)比例等式的旁瓣抑制器的實(shí)施例；圖3示意性地示出了一種視頻會議的應(yīng)用。
具體實(shí)施例方式
在圖1中，來自期望聲音源160和可能同樣來自一個(gè)或者多個(gè)非期望的噪聲源161(噪聲不應(yīng)該理解為只有隨機(jī)信號例如電子熱噪聲，而是任何非期望/干擾的音頻信號)的聲音，其傳播到至少有兩個(gè)麥克風(fēng)101、103的陣列。由這些麥克風(fēng)輸出的信號u1，u2被第一組各自的波束形成器107的濾波器f1(-t)，f2(-t)濾波，該濾波器的系數(shù)—一般是每一個(gè)頻率帶一個(gè)系數(shù)—能夠隨著空間變化的條件自適應(yīng)調(diào)整，例如移動的期望聲音源160。各自的濾波器輸出的結(jié)果信號被加法器110相加，生成第一音頻信號z。理想地，濾波器表示朝向特定麥克風(fēng)的期望信號的逆路徑，因此用第一濾波器f1(-t)對第一麥克風(fēng)信號u1濾波，理想準(zhǔn)確地獲得期望聲音。因此，如果濾波器能夠很好地自適應(yīng)，則第一音頻信號z就是對期望信號的良好的近似。但是，由于麥克風(fēng)也采集噪聲，第一音頻信號z不可避免地也包含噪聲。麥克風(fēng)信號u1，u2也用來產(chǎn)生噪聲測度x1，x2。為了獲得僅僅代表噪聲的信號(數(shù)學(xué)上稱正交于期望音頻信號)，通過各自的減法器115，121從麥克風(fēng)信號u1，u2減去期望信號。所說的阻止矩陣111對第一音頻信號z再應(yīng)用聲音傳播路徑濾波器f1，f2，來獲得由麥克風(fēng)采集的期望聲音的估計(jì)。因此波束形成器107和阻止矩陣的濾波器除了時(shí)間反轉(zhuǎn)以外完全相同。自適應(yīng)噪聲估計(jì)器150基于被看作從每一個(gè)麥克風(fēng)獲得的噪聲測度x1，x2，...，來估計(jì)有多少噪聲被波束形成器的指向期望源的主瓣或者波瓣模式的指向期望聲音的另一部分(例如該模式的旁瓣)采集，從而估計(jì)第一音頻信號z中的噪聲的貢獻(xiàn)度。另外噪聲估計(jì)器150必須使用第二組自適應(yīng)濾波器g1，其也與波束形成器濾波器f1(-t)，f2(-t)相關(guān)。由于在使用第二濾波器g1之前對噪聲測度x1，x2之一的數(shù)學(xué)上的依賴(存在僅僅兩個(gè)麥克風(fēng)測度，導(dǎo)致期望音頻信號為第一音頻信號z和兩個(gè)噪聲測度x1，x2)，因此，如在03104334.2中揭露的，可以應(yīng)用維數(shù)降低。
最后，減法器142被包括進(jìn)來，用來從第一音頻信號z中減去估計(jì)的噪聲信號y，減法器142和噪聲估計(jì)器150共同組成噪聲抑制器，產(chǎn)生相對無噪的第二音頻信號r。優(yōu)選地，使用延時(shí)單元141來產(chǎn)生對應(yīng)于噪聲信號y的時(shí)間抽樣的正確的時(shí)間抽樣(或者相似的等同物)。
上面描述的系統(tǒng)是現(xiàn)有技術(shù)已知的旁瓣抑制器。
波束形成器濾波器(以及優(yōu)選地，所有的相關(guān)的濾波器，例如，阻止矩陣濾波器和噪聲估計(jì)濾波器)使用更新單元117，123朝著它們瞬時(shí)的最佳更新。
對于現(xiàn)有技術(shù)的波束形成器的一個(gè)典型的更新規(guī)則是，采用第一音頻信號z和各自的噪聲測度作為輸入，為一個(gè)特定的頻率范圍或者頻帶附近的頻率f計(jì)算新的濾波器系數(shù)的值F(f,t+1)=F(f,t)+αPzz[f,t]z*[f,t]x[f,t]---[Eq.1]]]>在這個(gè)等式中，F(xiàn)是對于特定的頻率范圍分別在離散時(shí)間t、t+1上的特定的濾波器系數(shù)，α是一個(gè)常數(shù)，Pzz[f，t]是第一音頻信號功率的測量值，x為各自的噪聲測度(例如，x1對應(yīng)于第一濾波器f1(-t)，是由第一麥克風(fēng)101采集到的噪聲的測度，在第一波束形成器信道中被進(jìn)一步處理，一般地，通過對由第一麥克風(fēng)101實(shí)際采集到的第一輸入音頻信號減去也是由第一麥克風(fēng)采集的期望音頻信號的估計(jì)來獲得)，星花代表復(fù)數(shù)的共軛。因此，如果噪聲近似正交于期望的第一音頻信號z，正如在旁瓣抑制器是最優(yōu)時(shí)所應(yīng)該的那樣，則濾波器系數(shù)幾乎不被更新，如果存在臨時(shí)的無噪聲，則會出現(xiàn)相同的情況。結(jié)果由更新單元獲得的新的系數(shù)被復(fù)制到各自的濾波器，例如，波束形成器濾波器f1(-t)，f2(-t)。
用來更新第二組濾波器g1的噪聲抑制器更新單元159，現(xiàn)有技術(shù)的一個(gè)典型的更新規(guī)則是G(f,t+1)=F(f,t)+αPyy[f,t]r*[f,t]x[f,t]---[Eq.2]]]>其中，r是第二音頻信號，Pyy[f，t]是噪聲信號y的功率測度。
根據(jù)本發(fā)明，對于波束形成器濾波器的每一個(gè)更新等式[Eq.1]使用最優(yōu)的步長代替固定步長α，根據(jù)在特定信道中采集的相關(guān)噪聲的量確定最優(yōu)步長。
理論上，當(dāng)濾波器被最優(yōu)化時(shí)，可以導(dǎo)出波束形成器的特定的第m個(gè)濾波器的性能測度為Qm[f,t]≈2αPzz[f,t]γPxmxm[f,t]---[Eq.3]]]>其中α是更新步長，γ是常數(shù)，例如近似等于麥克風(fēng)的數(shù)目。步長的減小導(dǎo)致性能的提高，另一方面，如果采集的噪聲的功率增加，性能就會降低。
此外，更新等式1可以在概念上/近似地理解為包含以下貢獻(xiàn) 可以假定，在最優(yōu)的條件下，第一個(gè)采集到的相關(guān)噪聲項(xiàng)nc與期望音頻λs(λ是比例常數(shù)，由于期望音頻測度z是不精確的，而是仍然包含其他的因素)相比是可以忽略的。μ是另一個(gè)常數(shù)，表示噪聲測度中的語音泄漏。由于阻止矩陣濾波器是最優(yōu)的，因此假定在最優(yōu)的條件下語音泄漏也是可以忽略的。因此通過近似分析，可以看出濾波器具有隨相關(guān)噪聲的量線性發(fā)散的傾向。
提出的解決方法是用相關(guān)噪聲的幅度測度除步長α，特別是功率測度。在后者的情況下，第二功率超過了在分子上的線性相關(guān)噪聲值，即，噪聲的幅度越大，更新越不敏感。但是精確的相關(guān)噪聲是不知道的，所以需要使用噪聲的測度或者相關(guān)性。在噪聲估計(jì)器150之前的噪聲測度xi是良好的測度，它是通過減去期望音頻的測度得到的，例如，從每一個(gè)各自的輸入音頻信號ui減去第一音頻信號z。
優(yōu)選地，魯棒的更新步長由以下式子決定αm[f,t]=βPzz[f,t]/(Pzz[f,t]+γPxmxm[f,t])---[Eq.5],]]>
其中m是索引，指示使用得到的步長αm自適應(yīng)調(diào)節(jié)哪一個(gè)濾波器(f1(-t)，f2(-t)，f表示頻率，t表示時(shí)刻，z是第一音頻信號，xm是由對應(yīng)的第m個(gè)麥克風(fēng)采集到的噪聲的測度，期望音頻被從麥克風(fēng)輸入音頻信號um中減去，P表示用來得到信號功率的等式，β和γ是預(yù)先確定的常數(shù)。
當(dāng)濾波器接近最優(yōu)時(shí)，即使存在很強(qiáng)的干擾噪聲源，使用上述更新規(guī)則的波束形成器仍然能夠很好地工作。但是，可以通過增加幫助朝著最優(yōu)點(diǎn)收斂的部件進(jìn)行改進(jìn)該系統(tǒng)。因此，波束形成器可以與基于視頻的說話者跟蹤器274合作，該跟蹤器被設(shè)置為從由照相機(jī)272拍攝的圖像中確定期望聲音源的位置。在期望音頻是語音的情況下，人臉檢測可以用來識別一個(gè)或者更多的說話者，該人臉識別可以通過圖像處理(例如膚色檢測、眼睛檢測、人臉幾何確認(rèn)等)的現(xiàn)有技術(shù)得到。嘴唇跟蹤(例如使用蛇行技術(shù)—一種數(shù)學(xué)曲線跟蹤技術(shù))也可以用來檢測是否這個(gè)人真的在說話，或者來自例如無線電的語音是否檢測到。
通過圖像處理，可以獲得粗略的或者更加準(zhǔn)確的位置估計(jì)，該位置估計(jì)被傳輸給波束形成器。波束形成器基于位置估計(jì)重新確定它的系數(shù)。例如，可以包括一個(gè)查找表，對于多個(gè)位置對應(yīng)更加優(yōu)化的起始系數(shù)?？臻g的預(yù)先知識可能被使用。粗略的定位算法簡單地確定說話者在圖像中間的哪一邊，然后重新初始化波束形成器的主瓣分別朝著右邊或者左邊。更復(fù)雜的圖像分析可以更加準(zhǔn)確地確定說話者的位置，例如當(dāng)使用兩個(gè)照相機(jī)得到的圖像時(shí)，在3維空間中確定位置。通過繪制人臉模型，說話者頭部的位置也可以被確定(存在基于關(guān)鍵點(diǎn)例如眼睛的幾何性的簡單算法)。最后，如果存在空間信息，可以利用對特定空間的傳輸函數(shù)有關(guān)的頭部的更加準(zhǔn)確的系數(shù)來重新確定濾波器。
附加地或任選地，基于音頻的說話者跟蹤器270可以被連接到或者包含在含有根據(jù)本發(fā)明的波束形成器的裝置之中。該跟蹤器270可以例如使用對采集到的輸入音頻信號(u1，u2，...)的相關(guān)分析來確定對應(yīng)于出現(xiàn)在周圍的音頻源的候選方向，如在WO 00/28740中所述的。高級版本可以基于語音分析(例如女聲的共振峰與男聲的共振峰是不同頻率的)進(jìn)一步確定說話者是誰，重新定位主瓣到對應(yīng)于確認(rèn)的特定說話者的方向上。
一般地，這個(gè)方向確定僅僅是“最初”完成的，然后波束形成器/旁瓣抑制器使用上面的自適應(yīng)算法獨(dú)立地進(jìn)行微調(diào)。如果微調(diào)的方向仍然移出了預(yù)先確定的準(zhǔn)確的可靠角度，該跟蹤器將重新初始化濾波器。
兩個(gè)估計(jì)都可以按照預(yù)先確定的結(jié)合算法結(jié)合起來。
圖2顯示了旁瓣抑制器200的拓?fù)洌脕碜鳛榈诙纛l信號r的函數(shù)，完成波束形成器/阻止濾波器(在這個(gè)例子中，三個(gè)濾波器f1(-t)，f2(-t)，f3(-t)，f1，f2，f3)的更新。所以，第二波束形成器更新單元219，215，211被示意性的示于前面描述的現(xiàn)有技術(shù)的旁瓣抑制器部分的上方。第二波束形成器更新單元219，215，211具有近似構(gòu)造的一組第二噪聲測度v1、v2、v3作為第二輸入，該噪聲測度是由各自的減法器產(chǎn)生的，例如減法器227使用第一阻止濾波器f1從第一麥克風(fēng)信號u1減去對第二音頻信號r濾波后的信號，等等。
可以在數(shù)學(xué)上證明，與eq.1相似，基本的更新規(guī)則可以被聰明地選擇為F(f,t+1)=F(f,t)+αPrr[f,t]r*[f,t]v[f,t]---[Eq.6],]]>其中，r是第二音頻信號，v是與特定的要更新的波束形成器濾波器相對應(yīng)的第二噪聲測度v1，v2，v3的其中之一，，Prr[f]是第二音頻信號r的功率的測度。
對于第二更新拓?fù)?，相關(guān)噪聲魯棒的更新步長等式可以與Eq.5相類似地得到αm[f,t]=βPrr[f,t]/(Prr[f,t]+γPvmvm[f,t])---[Eq.7]]]>在該情況下，除了根據(jù)本發(fā)明在步長等式的分母上使用對應(yīng)的噪聲測度vm，還使用第二音頻信號r(其中的噪聲被清除得更加徹底，即，對真實(shí)語音更好的估計(jì))?？梢酝ㄟ^對該拓?fù)淙サ艚频仁?省略法之間的第一項(xiàng)中的nc這一項(xiàng)(只保留λs)來看出這樣做的原因。
旁瓣抑制器也可以與縮放因子確定單元250相結(jié)合，例如，在03104334.2中所披露的(雖然沒有示出，但是近似地，波束形成器的濾波器也可以獨(dú)自地使用可由03104334.2獲知的縮放因子確定單元250來調(diào)節(jié))。該縮放因子確定單元250為波束形成器(如果需要應(yīng)用，阻止矩陣和噪聲抑制器的)所有的濾波器導(dǎo)出一個(gè)單一的縮放因子。由于存在大量的不相關(guān)噪聲或者語音泄漏，波束形成器或者旁瓣抑制器收斂困難，所以，對于這些情況設(shè)置小的步長，即使當(dāng)所有的濾波器接近最優(yōu)點(diǎn)時(shí)。這兩個(gè)更新策略共同產(chǎn)生一個(gè)更加魯棒的系統(tǒng)。
在圖3中，顯示了一種視頻會議應(yīng)用，例如對于家庭的或者專業(yè)的應(yīng)用。在該情況下，自動語音通信設(shè)備301是一個(gè)具有電話功能的外殼，還具有例如兩個(gè)用來采集聲音的麥克風(fēng)303，305(例如對于桌子周圍的四個(gè)說話者，四個(gè)麥克風(fēng)可以設(shè)置在十字拓?fù)渲?。接近終端的說話者106與遠(yuǎn)離終端的說話者360通信。理想地，即使是在存在噪聲源的情況下，說話者160希望可以在自由地走動時(shí)使波束形成器/旁瓣抑制器始終保持鎖定他。他也可以在聲音控制單元中使用波束形成器/旁瓣抑制器，例如去控制消費(fèi)裝置350的行為，例如個(gè)人電腦、電視機(jī)、家庭應(yīng)用例如中央暖氣系統(tǒng)等，那么該設(shè)施特別包含多個(gè)麥克風(fēng)和本發(fā)明。更加便宜的設(shè)備可以從包含聲音控制單元的家庭中心計(jì)算機(jī)得到命令。
使用者160也具有可攜帶的語音通信設(shè)備370，該設(shè)備具有集成了波束形成器單元或者旁瓣抑制器的麥克風(fēng)371和372。將來，會議系統(tǒng)可以從一體化的系統(tǒng)方案向無線系統(tǒng)過渡，在無線系統(tǒng)中，參與者具有他個(gè)人的例如安置在他的衣服上或者懸掛在他的脖子上的移動設(shè)備。
公開的算法組件實(shí)際上可以(全部或者部分)用硬件(例如，專用集成電路的部分)來實(shí)現(xiàn)，或者作為可運(yùn)行在專用數(shù)字信號處理器、普通的處理器等上的軟件來實(shí)現(xiàn)。
在計(jì)算機(jī)程序產(chǎn)品可以被理解的條件下，任何命令啟動處理器集合的物理實(shí)現(xiàn)—普通的或者特殊的目的—在經(jīng)過一系列載入步驟使命令進(jìn)入處理器之后，都可以使處理器執(zhí)行發(fā)明的任意特征功能。特別地，計(jì)算機(jī)程序產(chǎn)品可以作為包括例如盤或者磁帶的載體中的數(shù)據(jù)、存儲器中的數(shù)據(jù)、通過網(wǎng)絡(luò)連接—有線的或無線的—傳播的數(shù)據(jù)、或者紙上的程序代碼來實(shí)現(xiàn)。除了程序代碼外，程序需要的特征數(shù)據(jù)也可以具體體現(xiàn)為計(jì)算機(jī)編程產(chǎn)品。
應(yīng)該注意到上面提到的實(shí)施例的解釋沒有限制本發(fā)明。除了如權(quán)利要求中結(jié)合的本發(fā)明元件的結(jié)合外，其他的元件的結(jié)合也是可能的。任意的元件結(jié)合可以在一個(gè)單獨(dú)的專一的元件中實(shí)現(xiàn)。
權(quán)利要求圓括號內(nèi)的任何標(biāo)記都不能限制該權(quán)利要求。單詞“包括”不排除沒有列在權(quán)利要求中的元素或者方面。在元素前的單詞“一個(gè)”不排除多個(gè)此類元素的出現(xiàn)。
權(quán)利要求
1.一種自適應(yīng)波束形成器單元(191)，包括濾波求和波束形成器(107)，被設(shè)置為處理來自各個(gè)麥克風(fēng)(101，103)陣列的輸入音頻信號(u1，u2)，并且，還被設(shè)置為通過對輸入音頻信號的第一個(gè)(u1)使用第一自適應(yīng)濾波器(f1(-t))濾波，對輸入音頻信號的第二個(gè)(u2)使用第二自適應(yīng)濾波器(f2(-t))濾波，生成占主導(dǎo)地位的對應(yīng)于來自期望音頻源(160)的聲音的第—音頻信號(z)作為輸出，分別使用第一步長(α1)和第二步長(α2)自適應(yīng)調(diào)節(jié)第一濾波器(f1(-t))和第二濾波器(f2(-t))的系數(shù)；噪聲測度導(dǎo)出裝置(111)，被設(shè)置為從輸入音頻信號(u1，u2)導(dǎo)出第一噪聲測度(x1)和第二噪聲測度(x2)；以及更新單元(192)，被設(shè)置為利用等式確定第一和第二步長(α1，α2)，該等式對于第一步長(α1)，其分母中包含第一噪聲測度(x1)，對于第二步長(α2)，其分母中包含第二噪聲測度(x2)。
2.如權(quán)利要求1所述的自適應(yīng)波束形成器單元(191)，其中，噪聲測度導(dǎo)出裝置(111)被設(shè)置為通過從第一麥克風(fēng)(101)采集到的期望音頻源中減去期望的聲音測度(m1)，從而從第一輸入音頻信號(u1)中導(dǎo)出第一噪聲測度(x1)；通過從第二麥克風(fēng)(103)采集到的期望音頻源中減去聲音的第二期望的聲音測度(m2)，從而從第二輸入音頻信號(u2)中導(dǎo)出第二噪聲測度(x2)。
3.如權(quán)利要求2所述的自適應(yīng)波束形成器單元(191)，其中用來獲得第一和第二步長(α1和α2)的等式等于αm[f,t]=βPzz[f,t]/(Pzz[f,t]+γPxmxm[f,t]),]]>其中m是索引，指示使用得到的步長αm來自適應(yīng)調(diào)節(jié)哪個(gè)濾波器(f1(-t)，f2(-t))，f表示頻率，t表示時(shí)刻，z表示第一音頻信號，xm分別是第一和第二噪聲測度，Pss表示用來得到由它的下標(biāo)s表示的信號的功率的等式，β和γ是預(yù)先確定的常數(shù)。
4.如權(quán)利要求1所述的自適應(yīng)波束形成器單元(191)，其中第一噪聲測度(x1)和第二噪聲測度(x2)由輸入音頻信號(u1，u2)的各自的線性組合來確定。
5.一種旁瓣抑制器(200)，包括如權(quán)利要求1所述的濾波求和波束形成器(107)；自適應(yīng)噪聲估計(jì)器(150)，被設(shè)置為利用第二組自適應(yīng)濾波器(g1，g2)，對從輸入音頻信號(u1，u2)導(dǎo)出的第一和第二噪聲測度(x1，x2)進(jìn)行濾波，從而導(dǎo)出估計(jì)的噪聲信號(y)；減法器(142)，被設(shè)置為從第—音頻信號(z)中減去估計(jì)的噪聲信號(y)，得到無噪的第二音頻信號(r)；以及可選的更新單元(292)，被設(shè)置為利用等式確定第一和第二步長(α1，α2)，該等式包括第二音頻信號(r)的幅度測度，并且，該等式對于第一步長(α1)，其分母中包含第一噪聲測度(x1)，對于第二步長(α2)，其分母中包含第二噪聲測度(x2)。
6.如權(quán)利要求5所述的旁瓣抑制器(200)，其中獲得步長的等式等于αm=βPrr[f,t]/(Prr[f,t]+γPvmvm[f,t]),]]>其中m是索引，指示使用得到的步長大小αm來自適應(yīng)調(diào)節(jié)哪個(gè)濾波器(f1(-t)，f2(-t))，f表示頻率，t表示時(shí)刻，r是第二音頻信號，vm是由對應(yīng)的第m個(gè)麥克風(fēng)采集到的噪聲測度，無噪的第二音頻信號(r)作為從期望的音頻源獲得的聲音的測度被從各自輸入信號(u1，u2)中減去以得到噪聲測度vm，P表示用來得到信號功率的等式，β和γ是預(yù)先確定的常數(shù)。
7.如權(quán)利要求1所述的自適應(yīng)波束形成器單元(191)，其包括縮放因子確定單元(250)，被設(shè)置為確定單一的縮放因子(S)用來縮放波束形成器(107)的第一濾波器(f1(-t))和第二濾波器(f2(-t))的步長(α1和α2)，縮放因子(S)基于語音泄漏和/或不相關(guān)噪聲的量被確定。
8.如權(quán)利要求5所述的旁瓣抑制器(200)，其包括縮放因子確定單元(250)，被設(shè)置為確定單一的縮放因子(S)用來縮放波束形成器(107)的第一濾波器(f1(-t))和第二濾波器(f2(-t))的步長(α1和α2)，縮放因子(S)基于語音泄漏和/或不相關(guān)噪聲的量被確定。
9.如權(quán)利要求1所述的自適應(yīng)波束形成器單元(191)，其被設(shè)置為從基于音頻的說話者跟蹤器(270)和/或基于視頻的說話者跟蹤(274)接收位置數(shù)據(jù)，其中基于音頻的說話者跟蹤器被配置為基于說話者的聲音確定說話者在空間中的位置，基于視頻的說話者跟蹤器被配置為基于拍攝的圖像確定說話者在空間中的位置，其中第一濾波器(f1(-t))和第二濾波器(f2(-t))的系數(shù)初始基于位置被確定，該位置由基于音頻的說話者跟蹤器(270)和/或基于視頻的說話者跟蹤器(274)來確定。
10.一種自動語音通信系統(tǒng)(301，303，305)，其包括如權(quán)利要求1所述的自適應(yīng)波束形成器單元(191)或者如權(quán)利要求5所述的旁瓣抑制器(200)。
11.一種可便攜的語音通信設(shè)備(370)，包括至少兩個(gè)麥克風(fēng)(371，372)，用來生成輸入音頻信號(u1，u2)，并且還包括如權(quán)利要求1所述的自適應(yīng)波束形成單元(191)或者如權(quán)利要求5中所述的旁瓣抑制器(200)，用來處理輸入音頻信號(u1，u2)。
12.一種聲音控制單元，其包括如權(quán)利要求1所述的自適應(yīng)波束形成器單元(191)，或者如權(quán)利要求5中所述的旁瓣抑制器(200)，并且還包括語音分析裝置，用來識別語音命令。
13.一種消費(fèi)裝置(350)，包括如權(quán)利要求12所述的聲音控制單元。
14.一種自適應(yīng)波束形成的方法，包括a)使用第一自適應(yīng)濾波器(f1(-t))對來自第一麥克風(fēng)(101)的第一輸入音頻信號(u1)進(jìn)行濾波，使用第二自適應(yīng)濾波器(f2(-t))對來自第二麥克風(fēng)(103)的第二輸入音頻信號(u2)進(jìn)行濾波，對濾波后的輸入音頻信號求和，產(chǎn)生占主導(dǎo)地位的對應(yīng)于來自期望音頻源(160)的聲音的第一音頻信號(z)；b)從輸入音頻信號(u1，u2)導(dǎo)出第一噪聲測度(x1)和第二噪聲測度(x2)；并且c)使用第一步長(α1)和第二步長(α2)分別自適應(yīng)調(diào)節(jié)第一濾波器(f1(-t))和第二濾波器(f2(-t))的系數(shù)，該步長從一個(gè)等式得到，該等式對于第一步長(α1)，其分母中包括第一噪聲測度(x1)，對于第二步長(α2)，其分母中包括第二噪聲測度(x2)。
15.一種包括能使處理器執(zhí)行權(quán)利要求14所述方法的代碼的計(jì)算機(jī)程序產(chǎn)品。
全文摘要
自適應(yīng)波束形成器單元(191)包括濾波求和波束形成器(107)，被設(shè)置為處理來自各自麥克風(fēng)(101，103)陣列的輸入音頻信號(u1，u2)，并且，還被設(shè)置為通過對輸入音頻信號的第一個(gè)(u1)使用第一自適應(yīng)濾波器(f1(－t))濾波，對輸入音頻信號的第二個(gè)(u2)使用第二自適應(yīng)濾波器(f2(－t))濾波，生成占主導(dǎo)地位的對應(yīng)于來自期望音頻源(160)的聲音的第一音頻信號(z)作為輸出，分別使用第一步長(a1)和第二步長(x2)自適應(yīng)調(diào)節(jié)第一濾波器(f1(－t))和第二濾波器(f2(－t))的系數(shù)；噪聲測度導(dǎo)出裝置(111)，被設(shè)置為從輸入音頻信號(u1，u2)導(dǎo)出第一噪聲測度(x1)和第二噪聲測度(x2)；和更新單元(192)，被設(shè)置為利用等式確定第一和第二步長(a1，(x2)，該等式對于第一步長(a1)，其分母中包含第一噪聲測度(x1)，對于第二步長(a2)，其分母中包含第二噪聲測度(x2)。這使得該波束形成器對于相關(guān)的音頻干擾的影響具有相對的魯棒性。該波束形成器也可以結(jié)合到一個(gè)旁瓣抑制拓?fù)渲?，生成清除了更多噪聲的期望聲音的估?jì)，它可以被用于相關(guān)的、更加先進(jìn)的自適應(yīng)濾波器(f1(－t)，f2(－t))的更新。這樣的波束形成器應(yīng)用在自動語音通信系統(tǒng)中通常是有益的。
文檔編號G10K11/34GK1947171SQ200580013338
公開日2007年4月11日申請日期2005年4月20日優(yōu)先權(quán)日2004年4月28日
發(fā)明者B·E·薩羅克哈, C·P·詹塞申請人:皇家飛利浦電子股份有限公司

完整全部詳細(xì)技術(shù)資料下載