專利名稱:多傳感器語音增強的方法和裝置的制作方法
技術領域:
本發(fā)明涉及降噪,尤其涉及從語音信號中去除噪聲。
背景技術:
在語音識別和語音傳輸中的一個常見問題是加性噪聲對語音信號的破壞。更具體地,由于另一揚聲器的語音造成的破壞被證明是難以檢測和/或糾正的。
近來,開發(fā)了一種試圖使用諸如骨導麥克風等備選的傳感器和氣導麥克風的組合來去除噪聲的系統(tǒng)。該系統(tǒng)使用以下三個訓練信道來訓練有噪聲的備選傳感器訓練信號、有噪聲的氣導麥克風訓練信號和干凈的氣導麥克風訓練信號。每個信號都被轉(zhuǎn)化至特征域中。有噪聲的備選傳感器信號和有噪聲的氣導麥克風信號的特征被組合成表示有噪聲的信號的單個向量。干凈的氣導麥克風信號的特征形成單個干凈向量。這些向量而后用來訓練有噪聲的向量和干凈向量間的映射。一旦訓練后,該映射被應用于由有噪聲的備選傳感器測試信號和有噪聲的氣導麥克風測試信號的組合所形成的有噪聲的向量。該映射產(chǎn)生干凈信號向量。
當測試信號的噪聲條件與訓練信號的噪聲條件不匹配時,該系統(tǒng)不是最優(yōu)的,因為該映射是為訓練信號的噪聲條件而設計的。
發(fā)明內(nèi)容
一種方法和裝置使用備選傳感器信號和氣導麥克風信號來確定對備選傳感器的信道響應。該信道響應而后用于使用備選傳感器信號的至少一部分來估算干凈語音值。
圖1是其中可實現(xiàn)本發(fā)明的一個計算環(huán)境的框圖。
圖2是其中可實現(xiàn)本發(fā)明的另一計算環(huán)境的框圖。
圖3是本發(fā)明的通用語音處理系統(tǒng)的框圖。
圖4是本發(fā)明的一個實施例中增強語音的系統(tǒng)的框圖。
圖5是本發(fā)明的一個實施例中增強語音的流程圖。
圖6是本發(fā)明的另一實施例中增強語音的流程圖。
圖7是本發(fā)明的又一實施例中增強語音的流程圖。
具體實施例方式
圖1示出了可在其上實現(xiàn)本發(fā)明的合適的計算系統(tǒng)環(huán)境100的示例。計算環(huán)境100僅僅是合適的計算環(huán)境的一個示例,并不旨在對本發(fā)明的使用范圍或功能提出任何限制。也不應該把計算環(huán)境100解釋為對在示例性操作環(huán)境100中示出的任一組件或其組合有任何依賴或要求。
本發(fā)明可用眾多其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置來操作。適合在本發(fā)明中使用的公知的計算系統(tǒng)、環(huán)境和/或配置的示例包括,但不限于,個人計算機、服務器計算機、手持或膝上型設備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、可編程消費者電子產(chǎn)品、網(wǎng)絡PC、小型機、大型機、電話系統(tǒng)、包含上述系統(tǒng)或設備中的任一個的分布式計算機環(huán)境等。
本發(fā)明可在諸如由計算機執(zhí)行的程序模塊等的計算機可執(zhí)行指令通用語境下描述。一般而言,程序模塊包括例程、程序、對象、組件、數(shù)據(jù)結(jié)構等,它們執(zhí)行特定任務或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型。本發(fā)明也可以在分布式計算環(huán)境下實現(xiàn),其中任務由通過通信網(wǎng)絡連接的遠程處理設備執(zhí)行。在分布式計算環(huán)境中,程序模塊可以位于包括存儲器存儲設備在內(nèi)的本地和遠程計算機存儲介質(zhì)中。
參考圖1,用于實現(xiàn)本發(fā)明的示例性系統(tǒng)100包括計算機110形式的通用計算設備。計算機110的組件包括,但不限于,處理單元120、系統(tǒng)存儲器130和將包括系統(tǒng)存儲器在內(nèi)的各種系統(tǒng)組件耦合至處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是若干類型的總線結(jié)構中的任一種,包括存儲器總線或存儲器控制器、外圍總線和使用多種總線體系結(jié)構中的任一種的局部總線。作為示例,而非限制,這樣的體系結(jié)構包括工業(yè)標準體系結(jié)構(ISA)總線、微信道體系結(jié)構(MCA)總線、增強的ISA(EISA)總線、視頻電子技術標準協(xié)會(VESA)局部總線和外圍部件互連(PCI)總線(也被稱為Mezzanine總線)。
計算機110通常包括各種計算機可讀介質(zhì)。計算機可讀介質(zhì)可以是能夠被計算機110訪問到的任何可用介質(zhì),且包括易失性和非易失性介質(zhì)、可移動和不可移動介質(zhì)。作為示例,而非限制,計算機可讀介質(zhì)可以包括計算機存儲介質(zhì)和通信介質(zhì)。計算機存儲介質(zhì)包括以任何方法或技術實現(xiàn)的用于存儲諸如計算機可讀指令、數(shù)據(jù)結(jié)構、程序模塊或其它數(shù)據(jù)等信息的易失性和非易失性、可移動和不可移動介質(zhì)。計算機存儲介質(zhì)包括,但不限于,RAM、ROM、EEPROM、閃存或其它存儲器技術,CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲,磁帶盒、磁帶、磁盤存儲或其它磁性存儲設備、或能用于存儲所需信息且可以由計算機100訪問的任何其它介質(zhì)。通信介質(zhì)通常具體化為諸如載波或其它傳輸機制等已調(diào)制數(shù)據(jù)信號中的計算機可讀指令、數(shù)據(jù)結(jié)構、程序模塊或其它數(shù)據(jù),且包括任何信息傳遞介質(zhì)。術語“已調(diào)制數(shù)據(jù)信號”指的是一種信號,其一個或多個特征以在信號中編碼信息的方式被設定或更改。作為示例,而非限制,通信介質(zhì)包括有線介質(zhì),諸如有線網(wǎng)絡或直接線連接,和無線介質(zhì),諸如聲學、RF、紅外線和其它無線介質(zhì)。上述中任何的組合也應包括在計算機可讀介質(zhì)范圍之內(nèi)。
系統(tǒng)存儲器130包括易失性或非易失性存儲器形式的計算機存儲介質(zhì),諸如只讀存儲器(ROM)131和隨機存取存儲器(RAM)132?;据斎?輸出系統(tǒng)133(BIOS)包含有助于諸如啟動時在計算機110中的元件之間傳遞信息的基本例程,它通常存儲在ROM131中。RAM132通常包含處理單元120可以立即訪問和/或目前正在操作的數(shù)據(jù)和/或程序模塊。作為示例,而非限制,圖2示出了操作系統(tǒng)134、應用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計算機110也可以包括其它可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)。僅作為示例,圖1示出了從不可移動、非易失性磁介質(zhì)中讀取或向其寫入的硬盤驅(qū)動器141,從可移動、非易失性磁盤152中讀取或向其寫入的磁盤驅(qū)動器151,和從諸如CD ROM或其它光學介質(zhì)等可移動、非易失性光盤156中讀取或向其寫入的光盤驅(qū)動器155??梢栽谑纠圆僮鳝h(huán)境下使用的其它可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)包括,但不限于,盒式磁帶、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等。硬盤驅(qū)動器141通常由不可移動存儲器接口,諸如接口140連接至系統(tǒng)總線121,磁盤驅(qū)動器151和光盤驅(qū)動器155通常由可移動存儲器接口,諸如接口150連接至系統(tǒng)總線121。
以上描述和在圖1中示出的驅(qū)動器及其相關聯(lián)的計算機存儲介質(zhì)為計算機110提供了對計算機可讀指令、數(shù)據(jù)結(jié)構、程序模塊和其它數(shù)據(jù)的存儲。例如,在圖1中,硬盤驅(qū)動器141被示為存儲操作系統(tǒng)144、應用程序145、其它程序模塊146和程序數(shù)據(jù)147。注意到這些組件可以與操作系統(tǒng)134、應用程序135、其它程序模塊136和程序數(shù)據(jù)137相同或不同。操作系統(tǒng)144、應用程序145、其它程序模塊146和程序數(shù)據(jù)147在這里被標注了不同的標號是為了說明至少它們是不同的副本。
用戶可以通過輸入設備,諸如鍵盤162、麥克風163和定點設備161(通常指鼠標、跟蹤球或觸摸墊)向計算機110輸入命令和信息。其它輸入設備(未示出)可以包括操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀等。這些和其它輸入設備通常由耦合至系統(tǒng)總線的用戶輸入接口160連接至處理單元120,但也可以由其它接口或總線結(jié)構,諸如并行端口、游戲端口或通用串行總線(USB)連接。監(jiān)視器191或其它類型的顯示設備也經(jīng)由一接口,諸如視頻接口190,連接至系統(tǒng)總線121。除監(jiān)視器以外,計算機也可以包括其它外圍輸出設備,諸如揚聲器197和打印機196,它們可以通過輸出外圍接口195連接。
計算機110可使用至一個或多個遠程計算機,諸如遠程計算機180的邏輯連接在網(wǎng)絡化環(huán)境下操作。遠程計算機180可以是個人計算機、手持式設備、服務器、路由器、網(wǎng)絡PC、對等設備或其它常見網(wǎng)絡節(jié)點,且通常包括上文相對于計算機110所描述的許多或所有元件。圖1中所示邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但也可以包括其它網(wǎng)絡。這樣的網(wǎng)絡環(huán)境在辦公室、企業(yè)范圍計算機網(wǎng)絡、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見的。
當在LAN網(wǎng)絡環(huán)境中使用時,計算機110通過網(wǎng)絡接口或適配器170連接至LAN171。當在WAN網(wǎng)絡環(huán)境中使用時,計算機110通常包括調(diào)制解調(diào)器172或用于通過諸如因特網(wǎng)等WAN173建立通信的其它裝置。調(diào)制解調(diào)器172可以是內(nèi)部的或外部的,可以通過用戶輸入接口160或其它合適的機制連接至系統(tǒng)總線121。在網(wǎng)絡化環(huán)境中,相對于計算機110所描述的程序模塊或其部分可以存儲在遠程存儲器存儲設備中。作為示例,而非限制,圖1示出了遠程應用程序185駐留在存儲器設備181上??梢岳斫猓镜木W(wǎng)絡連接是示例性的,且可以使用在計算機之間建立通信鏈路的其它手段。
圖2是移動設備200的框圖,它是一個示例性計算環(huán)境。移動設備200包括微處理器202、存儲器204、輸入/輸出(I/O)組件206和用于同遠程計算機或其它移動設備通信的通信接口208。在一個實施例中,上述組件為相互通信而通過合適的總線210被耦合在一起。
存儲器204被實現(xiàn)為諸如帶有電池備用模塊(未示出)的隨機存取存儲器(RAM)等的非易失性電子存儲器,以使當移動設備200的總電源被關閉時,存儲在存儲器204中的信息也不會丟失。存儲器204的一部分較佳地被分配為用于程序執(zhí)行的可尋址存儲器,而存儲器204的另一部分較佳地用于存儲,諸如模擬在硬盤驅(qū)動器上的存儲。
存儲器204包括操作系統(tǒng)212、應用程序214和對象存儲216。在操作期間,操作系統(tǒng)212較佳地由處理器202從存儲器204處執(zhí)行。在一個較佳的實施例中,操作系統(tǒng)212是可從微軟公司購買的WINDOWSCE操作系統(tǒng)。操作系統(tǒng)212較佳地是為移動設備所設計的,且實現(xiàn)可由應用程序214通過一組所展現(xiàn)的應用程序編程接口和方法來使用的數(shù)據(jù)庫特征。對象存儲216中的對象由應用程序214和操作系統(tǒng)212至少部分地響應于對所展現(xiàn)的應用程序編程接口和方法的調(diào)用來維護。
通信接口208表示允許移動設備200發(fā)送和接收信息的眾多設備和技術。僅舉幾個示例,這些設備包括有線和無線調(diào)制解調(diào)器、衛(wèi)星接收器和廣播調(diào)諧器。移動設備200也能夠被直接連接至計算機以與其交換數(shù)據(jù)。在這些情況下,通信接口208能夠是紅外線收發(fā)器或者串行或并行通信連接,上述所有都能夠傳輸流信息。
輸入/輸出組件206包括各種輸入設備,諸如觸敏屏幕、按鈕、滾輪和麥克風,還包括各種輸出設備,包括音頻發(fā)生器、振動設備和顯示器。以上列出的設備僅作為示例,且不需在移動設備200上全部存在。另外,其它輸入/輸出設備可以在本發(fā)明的范圍內(nèi)被附加至移動設備200或與其一同出現(xiàn)。
圖3提供了本發(fā)明實施例的基本框圖。圖3中,說話者300生成語音信號302(X),該信號由氣導麥克風304和備選傳感器306檢測。備選傳感器的示例包括測量用戶喉部振動的喉部麥克風、位于或接近用戶面部骨骼或顱骨(諸如頜骨)的或在用戶耳朵中,傳感與用戶生成的語音相對應的顱骨或頜骨的振動的骨導傳感器。氣導麥克風304是常用于將音頻空氣波轉(zhuǎn)換成電信號的麥克風類型。
氣導麥克風304還接收由一個或多個噪聲源310生成的環(huán)境噪聲308(U)和由背景說話者314生成背景語音312(V)。取決于備選傳感器的類型和背景語音的級別,背景語音312也可以由備選傳感器306檢測。然而,在本發(fā)明的實施例中,備選傳感器306通常對環(huán)境噪聲和背景語音不如氣導麥克風304敏感。這樣,由備選傳感器306生成的備選傳感器信號316(B)一般比由氣導麥克風304所生成的氣導麥克風信號318(Y)包含更少的噪聲。盡管備選傳感器306對環(huán)境噪聲較不敏感,但它的確生成某些傳感器噪聲320(W)。
從說話者300至備選傳感器信號316的路徑能夠被建模為擁有信道響應H的信道。從背景說話者314至備選傳感器信號316的路徑能夠被建模為擁有信道響應G的信道。
備選傳感器信號316(B)和氣導麥克風信號318(Y)被提供給干凈信號估算器322,它估算干凈信號324,并且在某些實施例中估算背景語音信號326。干凈信號估算324被提供給語音處理328。干凈信號估算324可以是經(jīng)濾波的時域信號或傅里葉變換向量。如果干凈信號估算324是時域信號,則語音處理328可以采用收聽器、語音編碼系統(tǒng)或語音識別系統(tǒng)的形式。如果干凈信號估算324是傅里葉變換向量,則語音處理328通??梢允钦Z音識別系統(tǒng),或包含傅里葉反變換用于將傅里葉變換向量轉(zhuǎn)換為波形。
在直接濾波增強322中,備選傳感器信號316和麥克風信號318被轉(zhuǎn)換到用于估算干凈語音的頻域。如圖4所示,備選傳感器信號316和氣導麥克風信號318分別被提供給模-數(shù)轉(zhuǎn)換器404和414,用于生成一數(shù)字值序列,這些數(shù)字值分別由幀構造器406和416組合成值的幀。在一個實施例中,模-數(shù)轉(zhuǎn)換器404和414以16kHz和每個樣值16比特對模擬信號進行采樣,從而創(chuàng)建了每秒32千字節(jié)的語音數(shù)據(jù),且?guī)瑯嬙炱?06和416每10毫秒分別創(chuàng)建一個包含20毫秒數(shù)據(jù)的新幀。
由幀構造器406和416提供的每一各自的數(shù)據(jù)幀分別使用快速傅里葉變換(FFT)408和418轉(zhuǎn)換到頻域。
備選傳感器信號和氣導麥克風信號的頻域值被提供給干凈信號估算器420,它使用該頻域值來估算干凈語音信號324,并在某些實施例中估算背景語音信號326。
在某些實施例中,干凈語音信號324和背景語音信號326使用快速傅里葉反變換422和424轉(zhuǎn)換回時域。這樣創(chuàng)建了干凈語音信號324和背景語音信號326的時域形式。
本發(fā)明提供了用于估算干凈語音信號324的直接濾波技術。在直接濾波中,備選傳感器306的信道響應的最大似然估計是通過最小化與該信道響應相關的函數(shù)來確定的。這些估算而后被用來通過最小化與干凈語音信號相關的函數(shù)來確定干凈語音信號的最大似然估計。
在本發(fā)明的一個實施例中,與由被選傳感器所檢測的背景語音相對應的信道響應G被認為是零,且背景語音和環(huán)境噪聲被結(jié)合在一起形成單個噪聲項。這能夠獲得在干凈語音信號和氣導麥克風信號及備選傳感器信號之間的模型y(t)=x(t)+z(t)公式1b(t)=h(t)*x(t)+w(t) 公式2其中,y(t)是氣導麥克風信號,b(t)是備選傳感器信號,x(t)是干凈語音信號,z(t)是包括背景語音和環(huán)境噪聲的組合噪聲信號,w(t)是備選傳感器噪聲,h(t)是對與備選傳感器相關聯(lián)的干凈語音信號的信道響應。從而,在公式2中,備選傳感器信號被建模為干凈語音的經(jīng)濾波形式,其中濾波器擁有脈沖響應h(t)。
在頻域中,公式1和公式2可以被表達成Yt(k)=Xt(k)+Zt(k) 公式3Bt(k)=Ht(k)Xt(k)+Wt(k)公式4其中,記法Yt(k)表示以時間t為中心的一個信號幀的第k個頻率分量。這個記法適用于Xt(k),Zt(k),Ht(k),Wt(k)和Bt(k)。在以下描述中,對頻率分量k的引用為清楚起見而被省略。但是,本領域的技術人員應該認識到,下文執(zhí)行的計算是在每個頻率分量的基礎上執(zhí)行的。
在該實施例中,噪聲Zt和Wt的實部和虛部被建模為獨立的零均值高斯型,使得Zt=N(O,σz2)]]>公式5Wt=N(O,σw2)]]>公式6其中,σz2是噪聲Zt的方差,σw2是噪聲Wt的方差。
Ht也被建模為高斯型,使得Ht=N(H0,σH2)]]>公式7其中,H0是信道響應的均值,σH2是信道響應的方差。
給定這些模型參數(shù),干凈語音值Xt和信道響應值Ht的概率由條件概率描述
p(Xt,Ht|Yt,Bt,H0σz2,σw2,σH2)]]>公式8它與下述成比例p(Yt,Bt|Xt,Ht,σz2σw2)p(Ht|H0,σH2)p(Xt)]]>公式9它等價于p(Yt|Xt,σz2)p(Bt|Xt,Ht,σw2)p(Ht|H0,σH2)p(Xt)]]>公式10在一個實施例中,信道響應的先驗概率p(Ht|H0,σH2),和干凈語音信號的先驗概率p(Xt)被忽略,且剩下的概率被作為高斯分布處理。使用這些簡化,公式10變?yōu)?(2π)2σz2σw2exp[-12σz2|Yt-Xt|2-12σw2|Bt-Bt-Xt|2]]]>公式11從而,話語的最大似然估計Ht,Xt是通過把公式11在該話語中的所有時間幀T上的指數(shù)項最小化來確定的。這樣,該最大似然估計通過最小化以下公式來給出F=Σt=1T(12σz2|Yt-Xt|2+12σw2|Bt-YtXt|2)]]>公式12因為公式12是相對于兩個變量Ht,Xt來最小化的,因此相對于每個變量的偏導可以被用來確定使該函數(shù)最小化的變量的值。特別地,∂F∂Xt=0]]>時可以得到Xt=1σw2+σz2|Ht|2(σw2Yt+σz2Ht*Bt)]]>公式13其中,Ht*表示Ht的復共軛,而|Ht|表示Ht的復值的幅度。
將Xt的該值代入公式12,令偏導∂F∂Ht=0,]]>且然后假定H在所有時間幀T上是常數(shù),得到H的解H=Σt=1T(σz2|Bt|2-σw2|Yt|2)±(Σt=1T(σz2|Bt|2-σw2|Yt|2))2+4σz2σw2|Σt=1TBt*Yt|22σz2Σt=1TBt*Yt]]>公式14在公式14中,對H的估算需要對最后T幀的多個求和,其形式為S(T)=Σt=1Tst]]>公式15其中,st為(σz2|Bt|2-σw2|Yt|2)或Bt*Yt。
由上述公式,第一幀(t=1)與最后一幀(t=T)同樣重要。然而,在其它實施例中,較佳的是在對H的估算中讓最近的幀比較早的幀起更大的作用。為達到該目的的一種技術是“指數(shù)衰退(exponential aging)”,其中公式15中的求和被替代為S(T)=Σt=1TcT-tst]]>公式16其中,c≤1。如果c=1,那么公式16等價于公式15。如果c<1,那么最后一幀的權重為1,最后一幀的前一幀由c加權(即,它起的作用比最后一幀小),且第一幀由cT-1加權(即,它起的作用遠小于最后一幀)。舉一個例子。令c=0.99且T=100,那么第一幀的權重僅為0.9999=0.37。
在一個實施例中,公式16被遞歸地估算為S(T)=cS′(T-1)+sT公式17因為公式17自動地給舊的數(shù)據(jù)分配更小的權重,因此不需要使用固定窗長度,且最后T幀的數(shù)據(jù)不需存儲在存儲器中。相反,只有前一幀的S(T-1)的值需要被存儲。
使用公式17,公式14變?yōu)镠T=J(T)+(J(T))2+4σz2σw2|K(T)|22σz2K(T)]]>公式18其中J(T)=cJ(T-1)+(σz2|BT|2-σw2|YT|2)]]>公式19K(T)=cK(T-1)+BT*YT]]>公式20公式19和20中的c的值為用于計算J(T)和K(T)當前值的過去的幀的數(shù)目提供了有效長度。特別地,有效長度由以下公式給出L(T)=Σt=1TcT-t=Σi=0T-1ci=1-cT1-c]]>公式21漸近的有效長度為L=linT→∞L(T)=11-c]]>公式22或等價地,c=L-1L]]>公式23這樣,使用公式23,c能夠被設置以便在公式18中得到不同的有效長度。例如,為得到200幀的有效長度,c被設為c=199200=0.995]]>公式24一旦使用公式14估算了H,它可以被用于代替公式13中所有的Ht,以便確定在每個時間幀t時Xt的單獨值。可選地,公式18可以用于估算在每個時間幀t時的Ht。在每個時間幀時的Ht的值而后被用在公式13中來確定Xt。
圖5提供了本發(fā)明的一方法的流程圖,它使用公式13和14來估算話語的干凈語音值。
在步驟500處,氣導麥克風信號和備選傳感器信號的幀的頻率分量在整段話語上捕捉。
在步驟502處,氣導麥克風噪聲的方差σz2和被選傳感器噪聲的方差σw2分別從氣導麥克風信號和備選傳感器信號的幀確定,這些幀在早先說話者不發(fā)聲的時段的話語中捕捉。
因為備選傳感器噪聲的能量比由備選傳感器信號捕捉到的語音信號的能量小得多,因此本方法通過識別備選傳感器信號的低能量段來確定說話者何時不發(fā)聲。在其它實施例中,已知的語音檢測技術可以應用于氣導語音信號,以識別說話者何時發(fā)聲。在說話者被認為不在發(fā)聲時,Xt被假定為零,且來自氣導麥克風或備選傳感器的任何信號被認為是噪聲。這些噪聲值的樣本從非語音的幀中收集,且用于估算在氣導麥克風信號和備選傳感器信號中的噪聲的方差。
在步驟504處,通過使用上述公式14,使用在話語的所有幀上的備選傳感器信號和氣導麥克風信號的值來確定H的值。在步驟506處,使用上述公式13,該H的值與每一時間幀上的個別氣導麥克風信號和備選傳感器信號的值一起用來確定每一時間幀上的增強的或經(jīng)降噪的語音值。
在其它實施例中,使用公式18為每一幀確定Ht,而不是使用公式14使用話語中的所有幀來確定單個H值。然后使用上述公式13,使用Ht的值來計算該幀的Xt。
在本發(fā)明的第二實施例中,備選傳感器對背景語音的信道響應被認為是非零的。在該實施例中,氣導麥克風信號和備選傳感器信號被建模為Yt(k)=Xt(k)+Vt(k)+Ut(k) 公式25Bt(k)=Ht(k)Xt(k)+Gt(k)Vt(k)+Wt(k) 公式26其中,噪聲Zt(k)被分成背景語音Vt(k)和環(huán)境噪聲Ut(k),且對背景語音的備選傳感器信道響應是非零值Gt(k)。
在該實施例中,對干凈語音Xt的先驗知識仍舊被忽略。作以下假定,干凈語音Xt的最大似然性能夠通過最小化下述目標函數(shù)來找到F=1σw2|Bt-HtXt-GtVt|2+1σu2|Yt-Xt-Vt|2+1σv2|Vt|2]]>公式27這就得到以下干凈語音的公式Xt=(σw2+σu2Ht*Gt)Yt+[(σu2+σu2)Ht*-σv2Gt*](Bt-GtYt)σv2|Ht-Gt|2+σw2+σu2|Ht|2]]>公式28為了解出公式28,方差σw2,σu2和σv2以及信道響應值Ht和Gt必須已知。圖6提供了用于識別這些值和用于確定每一幀的增強的語音值的流程圖。
在步驟600處,話語的幀在用戶不發(fā)聲和沒有背景語音的時候被識別。這些幀而后用于分別確定備選傳感器和氣導麥克風的方差σw2和σu2。
為識別用戶不發(fā)聲時的那些幀,可檢查備選傳感器信號。因為備選傳感器信號為背景語音產(chǎn)生的信號值遠小于為噪聲產(chǎn)生的信號值,則如果備選傳感器信號的能量較低,可以假定說話者不在發(fā)聲。在基于備選信號識別的幀中,能夠向氣導麥克風信號應用語音檢測算法。該語音檢測系統(tǒng)可以檢測當用戶不發(fā)聲時在氣導麥克風信號中是否存在背景語音。這樣的語音檢測算法在本領域中是公知的,且包括諸如音調(diào)跟蹤系統(tǒng)等系統(tǒng)。
當確定了與氣導麥克風和備選傳感器相關聯(lián)的噪聲的方差后,圖6所示的方法繼續(xù)前進至步驟602處,在這里識別出用戶不發(fā)聲但是存在背景語音的幀。這些幀使用上述相同的技術來識別,但只是選擇當用戶不發(fā)聲時包含背景語音的那些幀。對用戶不發(fā)聲時包含背景語音的那些幀,可以假定背景語音遠大于環(huán)境噪聲。由此,在那些幀期間氣導麥克風信號的任何方差被認為是由背景語音引起的。結(jié)果,方差σv2能夠由從用戶不發(fā)聲但存在背景語音的那些幀期間氣導麥克風信號的值來直接設定。
在步驟604處,所識別的用戶不發(fā)聲但存在背景語音的幀用于估算背景語音的備選傳感器信道響應G。具體地,G被確定為G=Σt=1D(σu2|Bt|2-σw2|Yt|2)±(Σt=1D(σu2|Bt|2-σw2|Yt|2))2+4σu2σw2|Σt=1DBt*Yt|22σu2Σt=1DBt*Yt]]>公式29其中,D是用戶不發(fā)聲但存在背景語音的幀的數(shù)目。在公式29中,可以假定G在話語的所有幀上保持不變,從而不再依賴于時間幀t。
在步驟606處,對背景語音的備選傳感器信道響應G的值用于確定對干凈語音信號的備選傳感器信道響應。具體地,H如下計算H=G+Σt=1T(σv2|Bt-GYt|2-σw2|Yt|2)±(Σt=1T(σv2|Bt-GYt|2-σw2|Yt|2))2+4σv2σw2|Σt=1T(Bt-GYt)*Yt|22σv2Σt=1T(Bt-GYt)*Yt]]>公式30在公式30中,在T上的求和可以用上文結(jié)合公式15-24討論的遞歸指數(shù)衰減計算來代替。
當在步驟606處確定H之后,公式28可以用來確定所有幀的干凈語音值。在使用公式28時,Ht和Gt分別用獨立值H和G代替。另外,在某些實施例中,公式28中的Bt-GYt項用 來代替,因為發(fā)現(xiàn)難以準確地確定背景語音及其對備選傳感器的泄漏之間的相位差。
如果在公式30中使用該遞歸指數(shù)衰減計算來代替求和,則可以對每一時間幀確定單獨的Ht值,且可將該值用作公式28中的Ht。
在上述實施例的進一步擴展中,有可能提供對每一時間幀上的背景語音信號的估算。具體地,一旦確定了干凈語音值,每一時間幀上的背景語音值可以被確定為Vt=1σw2+H*Gu2[σw2Yt+σu2H*Bt-(σw2+|H|2σu2)Xt]]]>公式31該可任選步驟在圖6中的步驟610處示出。
在上述實施例中,備選傳感器對干凈信號的信道響應的先驗知識被忽略。在其它實施例中,如果提供了該先驗知識,則它能夠用來生成對每一時間幀Ht上的信道響應的估算,并用來確定干凈語音值Xt。
在該實施例中,對背景語音噪聲的信道響應再次被假定為零。從而,氣導信號和備選傳感器信號的模型與在上述公式3和4中所示的模型相同。
用于估算每一時間幀上的干凈語音值和信道響應Ht的公式通過最小化以下目標函數(shù)來確定-12σz2|Yt-Xt|2-12σw2|Bt-HtXt|2-12σH2|Ht-H0|2]]>公式32通過獨立地對Xt和Ht兩個變量取偏導并令結(jié)果等于零,該目標函數(shù)對于Xt和Ht被最小化。這提供了下述Xt和Ht的公式
Xt=1σw2+σv2|Ht|2(σw2Yt+σv2Ht*Bt)]]>公式33Ht=1σw2+σH2|Xt|2(σH2BtXt*+σw2H0)]]>公式34其中,H0和σH2分別是備選傳感器對干凈語音信號的信道響應的先驗模型的均值和方差。因為Xt的公式包含Ht,而Ht的公式包含變量Xt,因此公式33和34必須使用迭代的方式解出。圖7提供了實現(xiàn)這樣一種迭代的流程圖。
在圖7的步驟700處,確定信道響應的先驗模型的參數(shù)。在步驟702處,確定對Xt的估算。該估算能夠通過使用上述忽略信道響應的先驗模型的早先的任何實施例來確定。在步驟704處,先驗模型的參數(shù)和對Xt的初始估算用于使用公式34來確定Ht。Ht而后在步驟706處用于使用公式33更新干凈語音值。在步驟708處,該過程確定是否需要更多的迭代。如果需要更多的迭代,則該過程回到步驟704處,并使用在步驟706處確定的所更新的Xt值來更新Ht值。重復步驟704和706,直到在步驟708處不需要更多的迭代,此時該過程在步驟710處結(jié)束。
盡管本發(fā)明是參考具體實施例而描述的,然而本領域的技術人員可以認識到,可以在形式和細節(jié)上進行修改而不背離本發(fā)明的精神和范圍。
權利要求
1.一種確定對表示經(jīng)降噪的語音信號的一部分的經(jīng)降噪的值的估算的方法,所述方法包括使用除氣導麥克風外的備選傳感器生成一備選傳感器信號;生成一氣導麥克風信號;使用所述備選傳感器信號和所述氣導麥克風信號來估算所述備選傳感器的信道響應值;以及使用所述信道響應來估算所述經(jīng)降噪的值。
2.如權利要求1所述方法,其特征在于,估算信道響應值包括找出一目標函數(shù)的極值。
3.如權利要求1所述方法,其特征在于,估算信道響應值包括,將所述備選傳感器信號建模為干凈語音信號與所述信道響應卷積,并將結(jié)果與一噪聲項相加。
4.如權利要求1所述方法,其特征在于,所述信道響應包括對干凈語音信號的信道響應。
5.如權利要求4所述方法,其特征在于,還包括確定所述備選傳感器對背景語音信號的信道響應。
6.如權利要求5所述方法,其特征在于,使用所述信道響應來估算所述經(jīng)降噪的值包括,使用對所述干凈語音信號的信道響應和對所述背景語音信號的信道響應來估算所述經(jīng)降噪的值。
7.如權利要求1所述方法,其特征在于,還包括使用所述經(jīng)降噪的值的估算來估算背景語音信號的值。
8.如權利要求1所述方法,其特征在于,估算信道響應值包括,使用所述備選傳感器信號和所述氣導麥克風信號的幀序列來估算對所述幀序列中的幀的單個信道響應值。
9.如權利要求8所述方法,其特征在于,使用所述信道響應來估算經(jīng)降噪的值包括為所述幀序列中的每一幀估算一單獨的經(jīng)降噪的值。
10.如權利要求1所述方法,其特征在于,估算信道響應值包括,通過向在當前幀中的備選傳感器信號和氣導麥克風信號分配比前一幀中的備選傳感器信號和氣導麥克風信號更大的權重,來估算當前幀的值。
11.一種計算機可讀介質(zhì),含有用于執(zhí)行以下步驟的計算機可執(zhí)行指令使用一備選傳感器信號和一氣導麥克風信號來確定一備選傳感器的信道響應;以及使用所述信道響應,以使用所述備選傳感器信號的至少一部分估算一干凈語音值。
12.如權利要求11所述的計算機可讀介質(zhì),其特征在于,確定信道響應包括,確定對所述備選傳感器信號和所述氣導麥克風信號的幀序列的單個信道響應。
13.如果權利要求11所述的計算機可讀介質(zhì),其特征在于,所述信道響應包括對干凈語音信號的信道響應。
14.如果權利要求13所述的計算機可讀介質(zhì),其特征在于,還包括確定對背景語音信號的信道響應。
15.如果權利要求14所述的計算機可讀介質(zhì),其特征在于,還包括使用對所述背景語音信號的信道響應以及對所述干凈語音信號的信道響應來估算所述干凈語音值。
16.如果權利要求11所述的計算機可讀介質(zhì),其特征在于,還包括使用所述干凈語音值來估算背景語音值。
17.一種識別干凈語音信號的方法,所述方法包括估算描述一備選傳感器信號中的噪聲的噪聲參數(shù);使用所述噪聲參數(shù)來估算對一備選傳感器的信道響應;以及使用所述信道響應來估算所述干凈語音信號的值。
18.如權利要求17所述的方法,其特征在于,估算噪聲參數(shù)包括,使用所述備選傳感器信號來識別用戶不發(fā)聲的時段。
19.如權利要求18所述的方法,其特征在于,還包括在一氣導麥克風信號中與用戶不發(fā)聲時段相關聯(lián)的部分上執(zhí)行語音檢測,以識別無語音時段和背景語音時段。
20.如權利要求19所述的方法,其特征在于,還包括使用所述備選傳感器信號中與無語音時段相關聯(lián)的部分來估算所述噪聲參數(shù)。
21.如權利要求20所述的方法,其特征在于,還包括使用所述無語音時段來估算描述所述氣導麥克風信號中的噪聲的噪聲參數(shù)。
22.如權利要求20所述的方法,其特征在于,還包括使用所述備選傳感器信號中與背景語音時段相關聯(lián)的部分來估算對背景語音的信道響應。
23.如權利要求22所述的方法,其特征在于,還包括使用對背景語音的信道響應來估算干凈語音。
24.如權利要求17所述的方法,其特征在于,還包括確定對背景語音值的估算。
25.如權利要求24所述的方法,其特征在于,確定對背景語音值的估算包括,使用對所述干凈語音值的估算來估算所述背景語音值。
26.如權利要求17所述的方法,其特征在于,還包括使用所述信道響應的先驗模型來估算所述干凈語音值。
全文摘要
一種方法和裝置使用備選傳感器信號和氣導麥克風信號來確定對備選傳感器的信道響應。該信道響應而后用于使用備選傳感器信號的至少一部分來估算干凈語音值。
文檔編號G10L15/20GK1750123SQ200510092458
公開日2006年3月22日 申請日期2005年8月17日 優(yōu)先權日2004年9月17日
發(fā)明者A·阿瑟洛, J·G·德羅坡, 黃學東, 張正友, 劉自成 申請人:微軟公司