專(zhuān)利名稱(chēng):移動(dòng)設(shè)備上多傳感語(yǔ)音增強(qiáng)的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及降噪,尤其涉及從由移動(dòng)手持式設(shè)備接收的語(yǔ)音信號(hào)中移除噪聲。
背景技術(shù):
諸如移動(dòng)電話(huà)和個(gè)人數(shù)字助理等提供電話(huà)功能或接受語(yǔ)音輸入的移動(dòng)手持式設(shè)備通常在諸如繁忙的街道、餐館、機(jī)場(chǎng)和汽車(chē)等不利的噪聲環(huán)境中使用。這些環(huán)境中強(qiáng)大的環(huán)境噪聲使用戶(hù)的語(yǔ)音變得模糊,并且很難理解一個(gè)人在說(shuō)什么。
盡管開(kāi)發(fā)了試圖基于噪聲模型移除噪聲的噪聲濾除系統(tǒng),然而這些系統(tǒng)尚不能移除所有的噪聲。具體地,許多這樣的系統(tǒng)發(fā)現(xiàn)很難移除在背景中包括其它人的說(shuō)話(huà)的噪聲。其一個(gè)原因是這些系統(tǒng)及其難以(如果不是不可能的話(huà))確定由麥克風(fēng)接收的語(yǔ)音信號(hào)是來(lái)自除使用該移動(dòng)設(shè)備的人之外的其他人。
對(duì)于電話(huà)頭戴式耳機(jī),它通過(guò)環(huán)繞在用戶(hù)頭部或耳朵的周?chē)ㄎ辉谟脩?hù)的頭部,開(kāi)發(fā)了通過(guò)依賴(lài)于頭戴式耳機(jī)中的附加類(lèi)型的傳感器來(lái)提供更健壯的噪聲濾除系統(tǒng)。在一個(gè)示例中,一骨導(dǎo)傳感器被放置在頭戴式耳機(jī)的一端,并由頭戴式耳機(jī)的彈力擠壓到與覆蓋用戶(hù)頭蓋骨、耳朵或下顎骨的皮膚接觸。該骨導(dǎo)傳感器檢測(cè)頭蓋骨、耳朵或下顎骨中在用戶(hù)說(shuō)話(huà)時(shí)引起的振動(dòng)。使用來(lái)自骨導(dǎo)傳感器的信號(hào),該系統(tǒng)能夠更好地識(shí)別用戶(hù)何時(shí)在說(shuō)話(huà),并且結(jié)果能夠更好地濾除語(yǔ)音信號(hào)中的噪聲。
盡管這一系統(tǒng)對(duì)頭戴式耳機(jī)能夠起較好的作用,其中,骨導(dǎo)傳感器和用戶(hù)之間的接觸由頭戴式耳機(jī)的機(jī)械設(shè)計(jì)來(lái)維護(hù),然而這些系統(tǒng)不能直接用于手持式移動(dòng)設(shè)備,因?yàn)橛脩?hù)很難將骨導(dǎo)傳感器維持在正確的位置,并且這些系統(tǒng)未考慮骨導(dǎo)傳感器可能無(wú)法保持在正確的位置。
發(fā)明內(nèi)容
提供了一種移動(dòng)設(shè)備,包括可由用戶(hù)的手指或大拇指操縱的數(shù)字輸入,以及一氣導(dǎo)麥克風(fēng)和提供指示語(yǔ)音的備選傳感器信號(hào)的備選傳感器。在某些實(shí)施例中,移動(dòng)設(shè)備也包括一鄰近傳感器,它提供指示從移動(dòng)設(shè)備到對(duì)象的鄰近性的信號(hào)。在某些實(shí)施例中,來(lái)自氣導(dǎo)麥克風(fēng)的信號(hào)、備選傳感器信號(hào)以及鄰近信號(hào)用于形成對(duì)干凈語(yǔ)音值的估算。在另外的實(shí)施例中,基于干凈信號(hào)值中的噪聲量,通過(guò)移動(dòng)設(shè)備中的揚(yáng)聲器產(chǎn)生聲音。在其它實(shí)施例中,通過(guò)揚(yáng)聲器產(chǎn)生的聲音基于鄰近傳感器信號(hào)。
圖1是本發(fā)明的一個(gè)實(shí)施例的透視圖。
圖2在用戶(hù)頭部的左側(cè)的位置上示出了圖1的電話(huà)。
圖3在用戶(hù)頭部的右側(cè)的位置上示出了圖1的電話(huà)。
圖4是骨導(dǎo)麥克風(fēng)的框圖。
圖5是本發(fā)明的一個(gè)替換實(shí)施例的透視圖。
圖6是本發(fā)明的一個(gè)實(shí)施例中的備選骨導(dǎo)麥克風(fēng)的橫截面。
圖7是本發(fā)明的一個(gè)實(shí)施例中的移動(dòng)設(shè)備的框圖。
圖8是本發(fā)明的通用語(yǔ)音處理系統(tǒng)的框圖。
圖9是本發(fā)明的一個(gè)實(shí)施例中用于訓(xùn)練降噪?yún)?shù)的框圖。
圖10是使用圖9的系統(tǒng)訓(xùn)練降噪?yún)?shù)的流程圖。
圖11是本發(fā)明的一個(gè)實(shí)施例中從噪聲測(cè)試語(yǔ)音信號(hào)中標(biāo)識(shí)出干凈語(yǔ)音信號(hào)的估算的系統(tǒng)的框圖。
圖12是使用圖11的系統(tǒng)標(biāo)識(shí)干凈語(yǔ)音信號(hào)的估算的方法的流程圖。
圖13是標(biāo)識(shí)干凈語(yǔ)音信號(hào)的估算的替換系統(tǒng)的框圖。
圖14是標(biāo)識(shí)干凈語(yǔ)音信號(hào)的估算的第二替換系統(tǒng)的框圖。
圖15是使用圖14的系統(tǒng)標(biāo)識(shí)干凈語(yǔ)音信號(hào)估算的方法的流程圖。
圖16是本發(fā)明的移動(dòng)設(shè)備的另一實(shí)施例的透視圖。
具體實(shí)施例方式
本發(fā)明的實(shí)施例提供了一種手持式移動(dòng)設(shè)備,它包含可用于語(yǔ)音檢測(cè)和噪聲濾除的氣導(dǎo)麥克風(fēng)以及備選傳感器。圖1提供了一個(gè)示例實(shí)施例,其中,手持式移動(dòng)設(shè)備是移動(dòng)電話(huà)100。移動(dòng)電話(huà)100包括鍵區(qū)102、顯示屏104、光標(biāo)控制106、氣導(dǎo)麥克風(fēng)108、揚(yáng)聲器110、兩個(gè)骨導(dǎo)麥克風(fēng)112和114以及可任選的鄰近傳感器116。
觸摸墊102允許用戶(hù)將數(shù)字和字母輸入到移動(dòng)電話(huà)中。在其它實(shí)施例中,觸摸墊102與顯示屏104以觸摸屏的形式組合。光標(biāo)控制106允許用戶(hù)加亮并選擇顯示屏104上的信息,并滾動(dòng)通過(guò)大于顯示屏104的圖像和頁(yè)面。
如圖2和3所示,當(dāng)移動(dòng)電話(huà)100被防止在標(biāo)準(zhǔn)位置用于通過(guò)電話(huà)對(duì)話(huà)時(shí),揚(yáng)聲器110位于用戶(hù)左耳200或右耳300的附近,并且氣導(dǎo)麥克風(fēng)108位于用戶(hù)口部202的附近。當(dāng)電話(huà)位于用戶(hù)的左耳時(shí),如圖2所示,骨導(dǎo)麥克風(fēng)114接觸用戶(hù)的頭蓋骨或耳朵,并產(chǎn)生可用于從由氣導(dǎo)麥克風(fēng)108接收的語(yǔ)音信號(hào)中移除噪聲的備選傳感器信號(hào)。當(dāng)電話(huà)位于用戶(hù)的右耳時(shí),如圖3所示,骨導(dǎo)麥克風(fēng)112接觸用戶(hù)的頭蓋骨或耳朵,并產(chǎn)生可用于從語(yǔ)音信號(hào)中移除噪聲的備選傳感器信號(hào)。
可任選鄰近傳感器116指示電話(huà)與用戶(hù)如何接近。如下文進(jìn)一步討論的,該信息用于對(duì)骨導(dǎo)麥克風(fēng)在產(chǎn)生干凈語(yǔ)音值時(shí)的貢獻(xiàn)進(jìn)行加權(quán)。一般而言,如果鄰近檢測(cè)器檢測(cè)到電話(huà)就在用戶(hù)旁邊,則骨導(dǎo)麥克風(fēng)信號(hào)被賦予比遠(yuǎn)離用戶(hù)某一距離時(shí)更大的權(quán)值。這一調(diào)整反映了這樣一個(gè)事實(shí)當(dāng)骨導(dǎo)麥克風(fēng)與用戶(hù)接觸時(shí),其信號(hào)更能夠表示用戶(hù)正在說(shuō)話(huà)。當(dāng)它遠(yuǎn)離用戶(hù)時(shí),它更可疑地為環(huán)境噪聲。鄰近傳感器在本發(fā)明的實(shí)施例中使用,因?yàn)橛脩?hù)不總是將電話(huà)壓向其頭部。
圖4示出了本發(fā)明的骨導(dǎo)傳感器400的一個(gè)實(shí)施例。在傳感器400中,一軟彈性橋402黏附在正常的氣導(dǎo)麥克風(fēng)406的橫隔膜404上。該軟橋402將來(lái)自用戶(hù)的皮膚接觸408的振動(dòng)直接傳導(dǎo)到麥克風(fēng)406的橫隔膜。橫隔膜404的移動(dòng)由麥克風(fēng)406中的轉(zhuǎn)換器轉(zhuǎn)換成電信號(hào)。
圖5提供了本發(fā)明的手持式移動(dòng)設(shè)備的一個(gè)替換移動(dòng)電話(huà)實(shí)施例500。移動(dòng)電話(huà)500包括鍵區(qū)502、顯示屏504、光標(biāo)控制506、氣導(dǎo)麥克風(fēng)508、揚(yáng)聲器510和組合的骨導(dǎo)麥克風(fēng)和鄰近傳感器512。
如圖6的橫截面中所示的,組合的骨導(dǎo)麥克風(fēng)和鄰近傳感器512包括一軟的、填充了介質(zhì)(用液體或彈性體)襯墊600,它具有外表面602,它被設(shè)計(jì)成當(dāng)用戶(hù)將電話(huà)緊貼在耳朵上時(shí)與用戶(hù)接觸。襯墊600形成了為來(lái)自揚(yáng)聲器的聲音提供了通路的開(kāi)口周?chē)沫h(huán),揚(yáng)聲器位于該開(kāi)口中或直接在電話(huà)500內(nèi)位于開(kāi)口之下。襯墊600不限于這一形狀,可對(duì)該襯墊使用任何形狀。然而,一般而言,如果襯墊600包括揚(yáng)聲器501的左邊和右邊部分,則它是較佳的,使得襯墊的至少一個(gè)部分與用戶(hù)接觸,而無(wú)論用戶(hù)的哪一耳朵在電話(huà)旁邊。襯墊的該部分可以是外部連續(xù)的,或可以是外部分離的,但是在電話(huà)內(nèi)流暢地連接在一起。
電子壓力轉(zhuǎn)換器604液壓地連接到襯墊600中的液體或彈性體中,并將襯墊600中的液體的壓力轉(zhuǎn)換成導(dǎo)體606上的電信號(hào)。電子壓力轉(zhuǎn)換器604的示例包括基于MEMS的轉(zhuǎn)換器。一般而言,壓力轉(zhuǎn)換器604應(yīng)當(dāng)具有高頻響應(yīng)。
導(dǎo)線(xiàn)606上的電信號(hào)包括兩個(gè)分量DC分量和AC分量。DC分量提供了鄰近傳感器信號(hào),因?yàn)楫?dāng)電話(huà)被壓向用戶(hù)的耳朵時(shí),襯墊600內(nèi)的靜壓將高于電話(huà)遠(yuǎn)離用戶(hù)的耳朵某一距離時(shí)的靜壓。電信號(hào)的AC分量提供了骨導(dǎo)麥克風(fēng)信號(hào),因?yàn)橛脩?hù)頭蓋骨、下顎或耳朵的骨頭中的振動(dòng)引起襯墊600中的壓力波動(dòng),它們由壓力轉(zhuǎn)換器604轉(zhuǎn)換成AC電信號(hào)。在一個(gè)實(shí)施例中,將濾波器應(yīng)用到電信號(hào),以允許信號(hào)的DC分量和高于最小頻率的AC能夠通過(guò)。
盡管上文描述了骨導(dǎo)傳感器的這兩個(gè)示例,然而骨導(dǎo)傳感器的其它形式也處于本發(fā)明的范圍之內(nèi)。
圖7所示是本發(fā)明的一個(gè)實(shí)施例中移動(dòng)設(shè)備700的框圖。移動(dòng)設(shè)備700包括微處理器702、存儲(chǔ)器704、輸入/輸出(I/O)接口706和用于與遠(yuǎn)程計(jì)算機(jī)、通信網(wǎng)絡(luò)或其它移動(dòng)設(shè)備通信的通信接口708。在一個(gè)實(shí)施例中,上述組件被耦合在一起,用于通過(guò)合適的總線(xiàn)710彼此通信。
存儲(chǔ)器704可以被實(shí)現(xiàn)為非易失電子存儲(chǔ)器,如具有電池備份模塊(未示出)的隨機(jī)存取存儲(chǔ)器(RAM),使得當(dāng)移動(dòng)設(shè)備700的總電源被關(guān)閉時(shí),儲(chǔ)存在存儲(chǔ)器704中的信息也不會(huì)丟失?;蛘?,存儲(chǔ)器704的所有或部分可以是易失或非易失可移動(dòng)存儲(chǔ)器。存儲(chǔ)器704的一部分較佳地被分配為用于程序執(zhí)行的可尋址存儲(chǔ)器,而存儲(chǔ)器704的另一部分較佳地用于存儲(chǔ),如模擬盤(pán)驅(qū)動(dòng)器上的存儲(chǔ)。
存儲(chǔ)器704包括操作系統(tǒng)712、應(yīng)用程序714以及對(duì)象存儲(chǔ)716。在操作過(guò)程中,操作系統(tǒng)712較佳地由處理器702從存儲(chǔ)器704中執(zhí)行。在一個(gè)較佳實(shí)施例中,操作系統(tǒng)712是可從微軟公司購(gòu)買(mǎi)的WINDOWS CE品牌的操作系統(tǒng)。操作系統(tǒng)712較佳地被設(shè)計(jì)成用于移動(dòng)設(shè)備,并實(shí)現(xiàn)可由應(yīng)用程序714通過(guò)一組展現(xiàn)的應(yīng)用編程接口和方法來(lái)使用的數(shù)據(jù)庫(kù)特征。對(duì)象存儲(chǔ)716中的對(duì)象由應(yīng)用程序714和操作系統(tǒng)712至少部分地響應(yīng)于對(duì)所展現(xiàn)的應(yīng)用編程接口和方法的調(diào)用來(lái)維護(hù)。
通信接口708表示允許移動(dòng)設(shè)備700發(fā)送和接收信息的多種設(shè)備和技術(shù)。在移動(dòng)電話(huà)環(huán)境中,通信接口708代表了蜂窩電話(huà)網(wǎng)絡(luò)接口,它與蜂窩電話(huà)網(wǎng)絡(luò)通信以允許呼叫可被放置或接收??赡苡赏ㄐ沤涌?08表示的其它設(shè)備包括有線(xiàn)和無(wú)線(xiàn)調(diào)制解調(diào)器、衛(wèi)星接收器和廣播調(diào)諧器,此處僅舉幾個(gè)例子。移動(dòng)設(shè)備700也可直接連接到計(jì)算機(jī)上,以與其交換數(shù)據(jù)。在這些情況下,通信接口708可以是紅外收發(fā)器或串行或并行通信連接,所有這些都能夠發(fā)送流信息。
由處理器702執(zhí)行來(lái)實(shí)現(xiàn)本發(fā)明的計(jì)算機(jī)可執(zhí)行指令可以?xún)?chǔ)存在存儲(chǔ)器704中,或通過(guò)通信接口708接收。這些指令在計(jì)算機(jī)可讀介質(zhì)中找到,包括但不限于計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。
計(jì)算機(jī)存儲(chǔ)介質(zhì)包括以用于儲(chǔ)存諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的任一方法或技術(shù)實(shí)現(xiàn)的易失和非易失,可移動(dòng)和不可移動(dòng)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于,RAM、ROM、EEPROM、閃存或其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字多功能盤(pán)(DVD)或其它光盤(pán)存儲(chǔ)、磁盒、磁帶、磁盤(pán)存儲(chǔ)或其它磁存儲(chǔ)設(shè)備、或可以用來(lái)儲(chǔ)存所期望的信息并可訪(fǎng)問(wèn)的任一其它介質(zhì)。
通信介質(zhì)通常在諸如載波或其它傳輸機(jī)制的已調(diào)制數(shù)據(jù)信號(hào)中包含計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并包括任一信息傳送介質(zhì)。術(shù)語(yǔ)“已調(diào)制數(shù)據(jù)信號(hào)”指以對(duì)信號(hào)中的信息進(jìn)行編碼的方式設(shè)置或改變其一個(gè)或多個(gè)特征的信號(hào)。作為示例而非局限,通信介質(zhì)包括有線(xiàn)介質(zhì),如有線(xiàn)網(wǎng)絡(luò)或直接連線(xiàn)連接,以及無(wú)線(xiàn)介質(zhì),如聲學(xué)、RF、紅外和其它無(wú)線(xiàn)介質(zhì)。上述任一的組合也應(yīng)當(dāng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍之內(nèi)。
輸入/輸出接口706表示到包括揚(yáng)聲器、數(shù)字輸入732(如一個(gè)或一組按鈕、觸摸屏、跟蹤球、鼠標(biāo)墊、滾軸或這些組件的組合,它們可由用戶(hù)的大拇指或手指操縱)、顯示屏734、氣導(dǎo)麥克風(fēng)736、備選傳感器738、備選傳感器740和鄰近傳感器742的輸入和輸出設(shè)備的集合的接口。在一個(gè)實(shí)施例中,備選傳感器738和740是骨導(dǎo)麥克風(fēng)。上文列出的設(shè)備作為示例,不需要在移動(dòng)設(shè)備700中都存在。此外,在至少一個(gè)實(shí)施例中,備選傳感器和鄰近傳感器被組合成單個(gè)傳感器,它提供鄰近傳感器信號(hào)和備選傳感器信號(hào)。這些信號(hào)可被放置在單獨(dú)的導(dǎo)線(xiàn)上,或可以是單個(gè)導(dǎo)線(xiàn)上的信號(hào)的分量。另外,在本發(fā)明的范圍之內(nèi),其它輸入/輸出設(shè)備可以附加到移動(dòng)設(shè)備700或在其中找到。
圖8提供了本發(fā)明的實(shí)施例的語(yǔ)音處理系統(tǒng)的基本框圖。在圖8中,說(shuō)話(huà)者800生成語(yǔ)音信號(hào)802,它由氣導(dǎo)麥克風(fēng)804以及備選傳感器806和備選傳感器807之一或兩者檢測(cè)。備選傳感器的一個(gè)示例是骨導(dǎo)傳感器,它位于用戶(hù)的臉部或頭蓋骨(如顎骨)上,或與其相鄰,或在用戶(hù)的耳朵上,并傳感對(duì)應(yīng)于由用戶(hù)生成的語(yǔ)音的耳朵、頭骨或顎骨的振動(dòng)。備選傳感器的另一示例是紅外傳感器,它被瞄準(zhǔn)并檢測(cè)用戶(hù)的口部運(yùn)動(dòng)。注意,在某些實(shí)施例中,僅存在一個(gè)備選傳感器。氣導(dǎo)麥克風(fēng)804是常用于將音頻空氣波轉(zhuǎn)換成電信號(hào)的麥克風(fēng)的類(lèi)型。
氣導(dǎo)麥克風(fēng)804也接收由一個(gè)或多個(gè)噪聲源810生成的噪聲808。根據(jù)備選傳感器的類(lèi)型和噪聲級(jí)別,噪聲808也可由備選傳感器806和807檢測(cè)。然而,在本發(fā)明的實(shí)施例中,備選傳感器806和807通常比氣導(dǎo)麥克風(fēng)804對(duì)環(huán)境噪聲更不敏感。由此,由備選傳感器806和807分別生成的備選傳感器信號(hào)812和813一般比由氣導(dǎo)麥克風(fēng)804生成的氣導(dǎo)麥克風(fēng)信號(hào)814包括更少的噪聲。
如果有兩個(gè)備選傳感器,如兩個(gè)骨導(dǎo)傳感器,則傳感器信號(hào)812和813可任選地被提供給比較/選擇單元815。比較/選擇單元815比較這兩個(gè)信號(hào)的強(qiáng)度,并選擇較強(qiáng)的信號(hào)作為其輸出817。較弱的信號(hào)不被傳遞用于進(jìn)一步處理。對(duì)于移動(dòng)電話(huà)環(huán)境,如圖1-3的移動(dòng)電話(huà),比較/選擇單元815通常選擇由與用戶(hù)皮膚接觸的骨導(dǎo)傳感器生成的信號(hào)。由此,在圖2中,來(lái)自骨導(dǎo)傳感器114的信號(hào)將被選中,而在圖3中,來(lái)自骨導(dǎo)傳感器112的信號(hào)將被選中。
備選傳感器信號(hào)817和氣導(dǎo)麥克風(fēng)信號(hào)814被提供給干凈信號(hào)估算器816,它通過(guò)下文詳細(xì)描述的過(guò)程估算干凈信號(hào)818??扇芜x地,干凈信號(hào)估算器816也接收來(lái)自鄰近傳感器832的鄰近信號(hào)830,它用于估算干凈信號(hào)818。如上所述,在某些實(shí)施例中,鄰近傳感器可以與備選傳感器信號(hào)相組合。干凈信號(hào)估算818被提供給語(yǔ)音處理820。干凈語(yǔ)音信號(hào)818可以是經(jīng)濾波的時(shí)域信號(hào)或特征域矢量。如果干凈信號(hào)估算818是時(shí)域信號(hào),則語(yǔ)音處理820可采用收聽(tīng)者、蜂窩電話(huà)發(fā)送器、語(yǔ)音編碼系統(tǒng)或語(yǔ)音識(shí)別系統(tǒng)的形式。如果干凈語(yǔ)音信號(hào)818是特征域矢量,則語(yǔ)音處理820通常是語(yǔ)音識(shí)別系統(tǒng)。
干凈信號(hào)估算器816也產(chǎn)生噪聲估算819,它指示干凈語(yǔ)音信號(hào)818中估算的噪聲。噪聲估算819被提供給側(cè)音生成器821,它基于噪聲估算819生成通過(guò)移動(dòng)設(shè)備的揚(yáng)聲器的音調(diào)。具體地,當(dāng)噪聲估算819提高時(shí),側(cè)音生成器812提高了側(cè)音的音量。
側(cè)音向用戶(hù)提供了反饋,指示用戶(hù)是否將移動(dòng)設(shè)備保持在最佳的位置,以充分利用備選傳感器。例如,如果用戶(hù)未將骨導(dǎo)傳感器壓緊其頭部,則干凈信號(hào)估算器將接收到較差的備選傳感器信號(hào),并且由于較差的備選傳感器信號(hào)會(huì)產(chǎn)生含噪聲的干凈信號(hào)818。這會(huì)導(dǎo)致較響的側(cè)音。當(dāng)用戶(hù)將骨導(dǎo)傳感器與其頭部接觸時(shí),備選傳感器信號(hào)將得到改善,由此降低了干凈信號(hào)818中的噪聲,并降低了側(cè)音的音量。由此,用戶(hù)可基于側(cè)音中的反饋快速地了解如何握住電話(huà)以最好地降低干凈信號(hào)中的噪聲。
在一個(gè)替換實(shí)施例中,側(cè)音是基于來(lái)自鄰近傳感器32的鄰近傳感器信號(hào)803生成的。當(dāng)鄰近傳感器指示電話(huà)接觸或極接近用戶(hù)的頭部時(shí),側(cè)音音量較低。當(dāng)鄰近傳感器指示電話(huà)遠(yuǎn)離用戶(hù)的頭部時(shí),側(cè)音將更響。
本發(fā)明使用若干方法和系統(tǒng),以利用氣導(dǎo)麥克風(fēng)814、備選傳感器信號(hào)817和可任選鄰近傳感器信號(hào)830估算干凈信號(hào)。一種系統(tǒng)使用立體聲訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練備選傳感器信號(hào)的糾正矢量。當(dāng)這些糾正矢量稍后被添加到測(cè)試備選傳感器矢量時(shí),它們提供干凈信號(hào)矢量的估算。本系統(tǒng)的一個(gè)進(jìn)一步擴(kuò)展是首先跟蹤時(shí)變失真,然后將該信息結(jié)合到糾正矢量的計(jì)算和干凈信號(hào)的估算中。
第二種系統(tǒng)提供了由糾正矢量生成的干凈信號(hào)估算和通過(guò)從氣導(dǎo)信號(hào)中減去氣導(dǎo)測(cè)試信號(hào)中的當(dāng)前噪聲的估算形成的估算之間的內(nèi)插。第三種系統(tǒng)使用備選傳感器信號(hào)來(lái)估算語(yǔ)音信號(hào)的基音,然后使用所估算的基音來(lái)標(biāo)識(shí)干凈語(yǔ)音信號(hào)的估算。這些系統(tǒng)的每一個(gè)在下文單獨(dú)地討論。
訓(xùn)練立體聲糾正矢量圖9和10提供了本發(fā)明的兩個(gè)實(shí)施例的訓(xùn)練立體聲糾正矢量的框圖和流程圖,它們依賴(lài)于糾正矢量來(lái)生成干凈信號(hào)的估算。
標(biāo)識(shí)糾正矢量的方法在圖10的步驟1000開(kāi)始,其中,將“干凈”氣導(dǎo)麥克風(fēng)信號(hào)轉(zhuǎn)換成特征矢量序列。為此,圖9的說(shuō)話(huà)者900對(duì)氣導(dǎo)麥克風(fēng)910說(shuō)話(huà),后者將音頻波轉(zhuǎn)換成電信號(hào)。電信號(hào)然后由模-數(shù)轉(zhuǎn)換器914采樣,以生成數(shù)字值序列,它們由幀構(gòu)造器916組合成值的幀。在一個(gè)實(shí)施例中,A-D轉(zhuǎn)換器914以16kHz和每樣值16比特對(duì)模擬信號(hào)進(jìn)行采樣,由此創(chuàng)建了每秒32千字節(jié)的語(yǔ)音數(shù)據(jù),并且?guī)瑯?gòu)造器916每10毫秒創(chuàng)建包括25毫秒數(shù)據(jù)的新幀。
由幀構(gòu)造器916提供的每一數(shù)據(jù)幀由特征提取器918轉(zhuǎn)換成特征矢量。在一個(gè)實(shí)施例中,特征提取器918形成倒譜特征。這類(lèi)特征的示例包括LPC導(dǎo)出的倒譜和梅爾(Mel)頻率倒譜系數(shù)??捎糜诒景l(fā)明的其它可能的矢量提取模塊的示例包括用于執(zhí)行線(xiàn)性預(yù)測(cè)編碼(LPC)、感知線(xiàn)性預(yù)測(cè)(PLP)以及聽(tīng)覺(jué)模型特征提取的模塊。注意,本發(fā)明不限于這些特征提取模塊,在本發(fā)明的環(huán)境中也可使用其它模塊。
在圖10的步驟1002,將備選傳感器信號(hào)轉(zhuǎn)換成特征矢量。盡管步驟1002的轉(zhuǎn)換被示出為在步驟1000的轉(zhuǎn)換之后發(fā)生,然而在本發(fā)明中,轉(zhuǎn)換的任一部分可以在步驟1000之前、期間或之后發(fā)生。步驟1002的轉(zhuǎn)換通過(guò)類(lèi)似于上文相對(duì)于步驟1000所描述的過(guò)程來(lái)執(zhí)行。
在圖9的實(shí)施例中,該過(guò)程在備選傳感器902和903檢測(cè)到與說(shuō)話(huà)者900的語(yǔ)音產(chǎn)生相關(guān)聯(lián)的物理事件開(kāi)始,如骨振動(dòng)或面部運(yùn)動(dòng)。由于備選傳感器902和903在移動(dòng)設(shè)備上相互隔開(kāi),它們不會(huì)檢測(cè)到關(guān)于語(yǔ)音產(chǎn)生的相同的值。備選傳感器902和903將物理事件轉(zhuǎn)換成模擬電信號(hào)。這些電信號(hào)被提供給比較/選擇單元904,它標(biāo)識(shí)這兩個(gè)信號(hào)中較強(qiáng)的一個(gè),并在其輸出提供較強(qiáng)的信號(hào)。注意,在某些實(shí)施例中,僅使用一個(gè)備選傳感器。在這一情況下,比較/選擇單元904不存在。
所選擇的模擬信號(hào)由模-數(shù)轉(zhuǎn)換器905采樣。A/D轉(zhuǎn)換器905的采樣特征與上文相對(duì)于A/D轉(zhuǎn)換器914所描述的相同。由A/D轉(zhuǎn)換器905提供的樣值由幀構(gòu)造器906收集成幀,后者以類(lèi)似于幀構(gòu)造器916的方式運(yùn)作。樣值幀然后由特征提取器908轉(zhuǎn)換成特征矢量,后者使用與特征提取器918相同的特征提取方法。
備選傳感器信號(hào)和氣導(dǎo)信號(hào)的特征矢量被提供給圖9中的降噪訓(xùn)練器902。在圖10的步驟1004,降噪訓(xùn)練器920將備選傳感器信號(hào)的特征矢量組合成混合分量。這一組合可通過(guò)使用最大似然性訓(xùn)練技術(shù)將類(lèi)似的特征矢量組合在一起來(lái)完成,或通過(guò)將表示語(yǔ)音信號(hào)的時(shí)間部分的特征矢量組合在一起完成。本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,可使用組合特征矢量的其它技術(shù),并且上文列出的兩個(gè)技術(shù)僅作為示例來(lái)提供。
在圖10的步驟1008,降噪訓(xùn)練器902然后確定每一混合分量s的糾正矢量rs。在一個(gè)實(shí)施例中,每一混合分量的糾正矢量使用最大似然性標(biāo)準(zhǔn)來(lái)確定。在這一技術(shù)中,糾正矢量計(jì)算如下rs=Σtp(s|bt)(xt-bt)Σtp(s|bt)]]>公式1其中xt是幀t的氣導(dǎo)矢量值,bt是幀t的備選傳感器矢量值。在公式1中p(s|bt)=p(bt|s)p(s)Σsp(bt|s)p(s)]]>公式2其中,p(s)僅是多個(gè)混合分量中的一個(gè),p(bt|s)被模型化為高斯分布p(bt|s)=N(bt;μb,Γb)公式3它具有均值μb和方差Γb,它們使用期望值最大化(EM)算法來(lái)訓(xùn)練,其中,每一次迭代包括以下步驟γs(t)=p(s|bt) 公式4μs=Σtγs(t)btΣtγs(t)]]>公式5Γs=Σtγs(t)(bt-μs)(bt-μs)TΣtγs(t)]]>公式6
公式4是EM算法中的E步驟,它使用先前估算的參數(shù)。公式5和公式6是M步驟,它使用E步驟的結(jié)果更新參數(shù)。
該算法的E步驟和M步驟反復(fù),直到確定了模型參數(shù)的穩(wěn)定值。這些參數(shù)然后用于評(píng)估公式1,以形成糾正矢量。糾正矢量和模型參數(shù)然后被儲(chǔ)存在降噪?yún)?shù)存儲(chǔ)922中。
在步驟1008對(duì)每一混合分量確定了糾正矢量之后,訓(xùn)練本發(fā)明的降噪系統(tǒng)的過(guò)程完成。一旦對(duì)每一混合分量確定了糾正矢量,該矢量可在本發(fā)明的降噪技術(shù)中使用。下文討論使用就糾正矢量的兩個(gè)單獨(dú)的降噪技術(shù)。
使用糾正矢量和噪聲估算的降噪基于糾正矢量和噪聲估算降低含噪聲的語(yǔ)音信號(hào)中的噪聲的系統(tǒng)和方法分別在圖11的框圖和圖12的流程圖中示出。
在步驟1200,由氣導(dǎo)麥克風(fēng)1104檢測(cè)的測(cè)試信號(hào)被轉(zhuǎn)換成特征矢量。由麥克風(fēng)1104接收的音頻測(cè)試信號(hào)包括來(lái)自說(shuō)話(huà)者1100的語(yǔ)音和來(lái)自一個(gè)或多個(gè)噪聲源1102的加性噪聲。由麥克風(fēng)1104檢測(cè)到的音頻測(cè)試信號(hào)被轉(zhuǎn)換成電信號(hào),它被提供給模-數(shù)轉(zhuǎn)換器1106。
A-D轉(zhuǎn)換器1106將來(lái)自麥克風(fēng)1104的模擬信號(hào)轉(zhuǎn)換成一系列數(shù)字值。在若干實(shí)施例中,A-D轉(zhuǎn)換器1106以16kHz和每樣值16比特對(duì)模擬信號(hào)進(jìn)行采樣,由此創(chuàng)建了每秒32千字節(jié)的語(yǔ)音數(shù)據(jù)。這些數(shù)字值被提供給幀構(gòu)造器1108,在一個(gè)實(shí)施例中,幀構(gòu)造器1108將值組合成25毫秒的幀,其起始處相隔10毫秒。
由幀構(gòu)造器1108創(chuàng)建的數(shù)據(jù)幀被提供給特征提取器1110,它從每一幀中提取特征。在一個(gè)實(shí)施例中,該特征提取器不同于用于訓(xùn)練糾正矢量的特征提取器908和918。具體地,在這一實(shí)施例中,特征提取器1110產(chǎn)生功率譜值而非倒譜值。所提取的特征被提供給干凈信號(hào)估算器1122、語(yǔ)音檢測(cè)單元1126和噪聲模型訓(xùn)練器1124。
在步驟1202,與說(shuō)話(huà)者1100的語(yǔ)音產(chǎn)生相關(guān)聯(lián)的物理事件,如骨振動(dòng)或面部運(yùn)動(dòng)被轉(zhuǎn)換成特征矢量。盡管在圖12中被示出為單獨(dú)的步驟,然而本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,該步驟可以與步驟1200同時(shí)完成。在步驟1202中,由備選傳感器1112和1114之一或兩者檢測(cè)物理事件。備選傳感器1112和1114基于物理事件生成模擬電信號(hào)。模擬信號(hào)被提供給比較和選擇單元1115,它選擇較大幅度的信號(hào)作為其輸出。注意,在某些實(shí)施例中,僅提供了一個(gè)備選傳感器。在這一實(shí)施例中,比較和選擇單元1115是不需要的。
所選擇的模擬信號(hào)由模-數(shù)轉(zhuǎn)換器1116轉(zhuǎn)換成數(shù)字信號(hào),并且所得的數(shù)字樣值由幀構(gòu)造器1118組合成幀。在一個(gè)實(shí)施例中,模-數(shù)轉(zhuǎn)換器1116和幀構(gòu)造器1118以類(lèi)似于模-數(shù)轉(zhuǎn)換器1106和幀構(gòu)造器1108的方式運(yùn)作。
數(shù)字值的幀被提供給特征提取器1120,它使用用于訓(xùn)練糾正矢量的相同的特征提取技術(shù)。如上所述,這類(lèi)特征提取模塊的示例包括用于執(zhí)行線(xiàn)性預(yù)測(cè)編碼(LPC)、LPC導(dǎo)出倒譜、感知線(xiàn)性預(yù)測(cè)(PLP)、聽(tīng)覺(jué)模型特征提取以及梅爾頻率倒譜系數(shù)(MFCC)特征提取的模塊。然而,在許多實(shí)施例中,使用了產(chǎn)生倒譜特征的特征提取技術(shù)。
特征提取模塊產(chǎn)生特征矢量流,其每一個(gè)都與語(yǔ)音信號(hào)的一個(gè)單獨(dú)幀相關(guān)聯(lián)。該特征矢量流被提供給干凈信號(hào)估算器1122。
來(lái)自幀構(gòu)造器1118的值幀也被提供給特征提取器1121,在一個(gè)實(shí)施例中,特征提取器1121提取每一幀的能量。每一幀的能量值被提供給語(yǔ)音檢測(cè)單元1126。
在步驟1204,語(yǔ)音檢測(cè)單元1126使用備選傳感器信號(hào)的能量特征來(lái)確定何時(shí)可能存在語(yǔ)音。該信息被傳遞到噪聲模型訓(xùn)練器1124,在步驟1206,它試圖在沒(méi)有語(yǔ)音的時(shí)間段中對(duì)噪聲建模。
在一個(gè)實(shí)施例中,語(yǔ)音檢測(cè)單元1126首先搜索幀能量值序列以找出能量中的峰值。它然后搜索峰值之后的谷值。該谷值的能量被稱(chēng)為能量分隔符d。為確定幀是否包含語(yǔ)音,然后確定幀能量e與能量分隔符d之間的比值k,如下k=e/d。然后確定該幀的語(yǔ)音置信度q,如下q=0:k>1k-1α-1:1≤k≤α1:k>α]]>公式7其中,α定義了兩種狀態(tài)之間的轉(zhuǎn)移,在一個(gè)實(shí)施例中被設(shè)為2。最后,將其5個(gè)相鄰幀(包括其本身)的平均置信度值用作該幀的最終置信度值。
在一個(gè)實(shí)施例中,使用固定的閾值來(lái)確定是否存在語(yǔ)音,使得如果置信度值超過(guò)閾值,則該幀被認(rèn)為包含語(yǔ)音,如果置信度值不超過(guò)閾值,則該幀被認(rèn)為包含非語(yǔ)音。在一個(gè)實(shí)施例中,使用了0.1的閾值。
對(duì)于由語(yǔ)音檢測(cè)單元1126檢測(cè)的每一非語(yǔ)音幀,噪聲模型訓(xùn)練器1124在步驟1206更新噪聲模型1125。在一個(gè)實(shí)施例中,噪聲模型1125是高斯模型,它具有均值μn和方差∑n。該模型基于非語(yǔ)音的最近幀的移動(dòng)窗。用于從窗中的非語(yǔ)音幀中確定均值和方差的技術(shù)在本領(lǐng)域中是眾所周知的。
參數(shù)存儲(chǔ)922中的糾正矢量和模型參數(shù)以及噪聲模型1125,連同備選傳感器的特征矢量b和含噪聲的氣導(dǎo)麥克風(fēng)信號(hào)的特征矢量Sy一起被提供給干凈信號(hào)估算器1122。在步驟1208,干凈信號(hào)估算器1122基于備選傳感器特征矢量、糾正矢量和備選傳感器的模型參數(shù)估算干凈語(yǔ)音信號(hào)的初始值。具體地,干凈信號(hào)的備選傳感器估算計(jì)算如下x^=b+Σsp(s|b)rs]]>公式8其中,是倒譜域中的干凈信號(hào)估算,b是備選傳感器特征矢量,p(s|b)是使用上文的公式2來(lái)確定的,rs是混合分量s的糾正矢量。由此,公式8中的干凈信號(hào)估算通過(guò)將備選傳感器特征矢量添加到糾正矢量的加權(quán)和來(lái)形成,其中,加權(quán)基于給定備選傳感器特征矢量時(shí)混合分量的概率。
在步驟1210,通過(guò)將初始備選傳感器干凈語(yǔ)言估算與從含噪聲的氣導(dǎo)麥克風(fēng)矢量和噪聲模型中形成的干凈語(yǔ)音估算相組合,初始備選傳感器干凈語(yǔ)音估算被凈化。這得到一經(jīng)凈化的干凈語(yǔ)音估算1128。為將初始干凈信號(hào)估算的倒譜值與含噪聲的氣導(dǎo)麥克風(fēng)的功率譜特征矢量相組合,使用以下公式將倒譜值轉(zhuǎn)換成功率譜域S^x|b=eC-1x^]]>公式9其中,C-1是離散余弦反變換, 是基于備選傳感器的干凈語(yǔ)音的功率譜估算。
一旦已將來(lái)自備選傳感器的初始干凈信號(hào)估算放入功率譜域中,它可與含噪聲的氣導(dǎo)麥克風(fēng)矢量和噪聲模型相組合,如下S^x=(Σn-1+Σx|b-1)-1[Σn-1(Sy-μn)+Σx|b-1S^x|b]]]>公式10其中, 是功率譜域中經(jīng)凈化的干凈信號(hào)估算,Sy是含噪聲的氣導(dǎo)麥克風(fēng)特征矢量,(μn,∑n)是先驗(yàn)噪聲模型(見(jiàn)1124)的均值和協(xié)方差, 是基于備選傳感器的初始干凈信號(hào)估算,∑x|b是給定備選傳感器的測(cè)量時(shí)干凈信號(hào)的條件概率分布的協(xié)方差矩陣。∑x|b可被計(jì)算如下。設(shè)J表示公式9的右側(cè)的函數(shù)的雅各比行列式。設(shè)∑是的協(xié)方差矩陣,則 的協(xié)方差為∑x|b=J∑JT公式11在一簡(jiǎn)化的實(shí)施例中,公式10被重寫(xiě)成以下公式S^x=α(f)(Sy-μn)+(1-α(f))S^x|b]]>公式12
其中,α(f)是時(shí)間和頻帶的函數(shù)。例如,如果備選傳感器的頻帶達(dá)3KHz,對(duì)低于3KHz的頻帶選擇α(f)為0。基本上,對(duì)于低頻帶,來(lái)自備選傳感器的初始干凈信號(hào)估算是可信的。
對(duì)于高頻帶,來(lái)自備選傳感器的初始干凈信號(hào)估算并不可靠。直觀上,當(dāng)在當(dāng)前幀上頻帶的噪聲較小時(shí),選擇較大的α(f),使得對(duì)這一頻帶可從氣導(dǎo)麥克風(fēng)中取出更多的信息。否則,通過(guò)選擇較小的α(f)使用來(lái)自備選傳感器的更多的信息。在一個(gè)實(shí)施例中,使用來(lái)自備選傳感器的初始干凈信號(hào)估算的能量來(lái)確定每一頻帶的噪聲級(jí)別。設(shè)E(f)表示頻帶f的能量。設(shè)M=MaxfE(f),作為f的函數(shù),α(f)被定義如下α(f)=E(f)M:f≥4Kf-3K1Kα(4K):3K<f<4K0:f≤3K]]>公式13其中,使用了線(xiàn)性?xún)?nèi)插從3K過(guò)渡到4K,以確保α(f)的平滑性。
在一個(gè)實(shí)施例中,移動(dòng)設(shè)備與用戶(hù)頭部的鄰近性被結(jié)合到α(f)的確定中。具體地,如果鄰近傳感器832產(chǎn)生最大距離值D和當(dāng)前距離值d,則公式13可被修改為α(f)=βE(f)M+(1-β)dD:f≥4Kf-3K1Kα(4K):3K<f<4K0:f≤3K]]>公式14其中,β在0到1之間,并基于哪一矢量、能量或鄰近性被認(rèn)為能夠提供氣導(dǎo)麥克風(fēng)的噪聲模型或備選傳感器的糾正矢量將提供干凈信號(hào)的最佳估算的最佳指示來(lái)選擇。
如果β被設(shè)為0,則α(f)不再是頻率相關(guān)的,并簡(jiǎn)單地變?yōu)?amp;alpha;=dD]]>公式15功率譜域中經(jīng)凈化的干凈信號(hào)估算可用于構(gòu)造維納(Wiener)濾波器,以對(duì)含噪聲的氣導(dǎo)麥克風(fēng)信號(hào)進(jìn)行濾波。具體地,設(shè)置維納濾波器h,使得H=S^xSy]]>公式16該濾波器然后可被應(yīng)用于時(shí)域含噪聲的氣導(dǎo)麥克風(fēng)信號(hào),以產(chǎn)生經(jīng)降噪的或干凈的時(shí)域信號(hào)。經(jīng)降噪的信號(hào)可被提供給收聽(tīng)者或可應(yīng)用于語(yǔ)音識(shí)別器。
注意,公式12提供了經(jīng)凈化的干凈信號(hào)估算,它是兩個(gè)因子的加權(quán)和,其中一個(gè)是來(lái)自備選傳感器的干凈信號(hào)估算。該加權(quán)和可被擴(kuò)充以包括附加備選傳感器的附加因子。由此,可使用一個(gè)以上備選傳感器來(lái)生成干凈信號(hào)的獨(dú)立估算。這多個(gè)估算然后可使用公式12來(lái)組合。
在一個(gè)實(shí)施例中,經(jīng)凈化的干凈信號(hào)估算中的噪聲也被估算。在一個(gè)實(shí)施例中,該噪聲被認(rèn)為是0均值的高斯型,其協(xié)方差被確定如下Σx=(Σn-1+Σx|b-1)-1=ΣnΣx|b/(Σn+Σx|b)]]>其中,∑n是氣導(dǎo)麥克風(fēng)中的噪聲的方差,∑x|b是來(lái)自備選傳感器的估算中的噪聲的方差。具體地,如果備選傳感器不與皮膚表面較好地接觸,則∑x|b較大。接觸的程度可通過(guò)使用附加鄰近傳感器或分析備選傳感器來(lái)測(cè)量。對(duì)于后者,觀察到如果接觸良好,則備選傳感器幾乎不產(chǎn)生高頻響應(yīng)(大于4KHz),則用低頻能量(小于3KHz)與高頻能量之比來(lái)測(cè)量接觸。該比值越高,接觸越好。
在某些實(shí)施例中,干凈信號(hào)估算中的噪聲用于生成如上文相對(duì)于圖6所描述的側(cè)音。當(dāng)經(jīng)凈化的干凈信號(hào)估算中的噪聲增加時(shí),側(cè)音的音量也提高,以鼓勵(lì)用戶(hù)將備選傳感器放置在更好的位置,使得增強(qiáng)處理得以改進(jìn)。例如,側(cè)音鼓勵(lì)用戶(hù)將骨導(dǎo)傳感器壓向其頭部,使得增強(qiáng)處理得以改進(jìn)。
使用糾正矢量而沒(méi)有噪聲估算的降噪圖13提供了本發(fā)明中估算干凈語(yǔ)音值的替換系統(tǒng)的框圖。圖13的系統(tǒng)類(lèi)似于圖11的系統(tǒng),除干凈語(yǔ)音值的估算在不需要?dú)鈱?dǎo)麥克風(fēng)或噪聲模型的情況下形成之外。
在圖13中,與產(chǎn)生語(yǔ)音的說(shuō)話(huà)者1300相關(guān)聯(lián)的物理事件由備選傳感器1302、模-數(shù)轉(zhuǎn)換器1304、幀構(gòu)造器1306和特征提取器1308以與上述圖11的備選傳感器1114、模-數(shù)轉(zhuǎn)換器1116、幀構(gòu)造器1117和特征提取器1118相似的方式轉(zhuǎn)換成特征矢量。注意,盡管在圖13中僅示出了一個(gè)備選傳感器,然而如圖11中一樣,可使用附加的備選傳感器,外加圖11中討論的比較和選擇單元。
來(lái)自特征提取器1308的特征矢量以及降噪?yún)?shù)922被提供給干凈信號(hào)估算器1310,它使用上文的公式8和9確定干凈信號(hào)值 的估算。
功率譜域中干凈信號(hào)估算 可用于構(gòu)造維納濾波器,以對(duì)含噪聲的氣導(dǎo)麥克風(fēng)信號(hào)進(jìn)行濾波。具體地,設(shè)置維納濾波器H,使得
H=S^x|bSy]]>公式17該濾波器可被應(yīng)用于時(shí)域含噪聲的氣導(dǎo)麥克風(fēng)信號(hào),以產(chǎn)生經(jīng)降噪的或干凈信號(hào)。經(jīng)降噪的信號(hào)可被提供給收聽(tīng)者或被應(yīng)用于語(yǔ)音識(shí)別器。
或者,公式8中計(jì)算的倒譜域中的干凈信號(hào)估算可被直接應(yīng)用于語(yǔ)音識(shí)別系統(tǒng)。
使用基音跟蹤的降噪生成干凈語(yǔ)音信號(hào)估算的一個(gè)替換技術(shù)在圖14的框圖和圖15的流程圖中示出。具體地,圖14和15的實(shí)施例通過(guò)使用備選傳感器然后使用基音將含噪聲的氣導(dǎo)麥克風(fēng)信號(hào)分解成諧波分量和隨機(jī)分量,來(lái)標(biāo)識(shí)語(yǔ)音信號(hào)的基音,從而確定了干凈信號(hào)估算。由此,含噪聲的信號(hào)被表示為y=y(tǒng)h+yr公式18其中,y是含噪聲的信號(hào),yh是諧波分量,yr是隨機(jī)分量。使用諧波分量和隨機(jī)分量的加權(quán)和來(lái)形成表示經(jīng)降噪的語(yǔ)音信號(hào)的經(jīng)降噪的特征矢量。
在一個(gè)實(shí)施例中,諧波分量被模型化為諧波上相關(guān)的正弦和,使得yh=Σk=1Kαkcos(kω0t)+bksin(kω0t)]]>公式19其中,ω0是基頻或基音頻率,K是信號(hào)中的諧波總數(shù)。
由此,為標(biāo)識(shí)諧波分量,必須確定基音頻率和幅度參數(shù){a1a2…akb1b2…bk}的估算。
在步驟1500,收集含噪聲的語(yǔ)音信號(hào),并將其轉(zhuǎn)換成數(shù)字樣值。為此,氣導(dǎo)麥克風(fēng)1404將來(lái)自說(shuō)話(huà)者1400和一個(gè)或多個(gè)加性噪聲源1402的音頻波轉(zhuǎn)換成電信號(hào)。電信號(hào)然后由模-數(shù)轉(zhuǎn)換器1406轉(zhuǎn)換,以生成一數(shù)字值序列。在一個(gè)實(shí)施例中,A-D轉(zhuǎn)換器1406以16kHz和每樣值16比特對(duì)模擬信號(hào)進(jìn)行采樣,由此創(chuàng)建了每秒32千字節(jié)的語(yǔ)音數(shù)據(jù)。在步驟1502,數(shù)字樣值由幀構(gòu)造器1408組合成幀。在一個(gè)實(shí)施例中,幀構(gòu)造器1408每10毫秒創(chuàng)建包括25毫秒數(shù)據(jù)的新幀。
在步驟1504,與語(yǔ)音產(chǎn)生相關(guān)聯(lián)的物理事件由備選傳感器1444檢測(cè)。在本實(shí)施例中,能夠檢測(cè)諧波分量的備選傳感器,如骨導(dǎo)傳感器最適合用作備選傳感器1444。注意,盡管步驟1504被示出為與步驟1500分離,然而本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,這些步驟可以同時(shí)執(zhí)行。另外,盡管在圖14中僅示出了一個(gè)備選傳感器,然而可如圖11中一樣使用附加的備選傳感器,外加圖11中所述的比較和選擇單元。
由備選傳感器1444生成的模擬信號(hào)由模-數(shù)轉(zhuǎn)換器1446轉(zhuǎn)換成數(shù)字樣值。數(shù)字樣值然后在步驟1506由幀構(gòu)造器1448組合成幀。
在步驟1508,備選傳感器信號(hào)的幀由基音跟蹤器1450用于標(biāo)識(shí)語(yǔ)音的基音頻率或基頻。
可使用多種可用基音跟蹤系統(tǒng)的任一種來(lái)確定基音頻率的估算。在許多這樣的系統(tǒng)中,候選基音用于標(biāo)識(shí)備選傳感器信號(hào)的片斷中心之間的間隔。對(duì)于每一候選基音,確定連續(xù)的語(yǔ)音片斷之間的相關(guān)。一般而言,提供最佳相關(guān)的候選基音是該幀的基音頻率。在某些系統(tǒng)中,使用附加信息來(lái)凈化基音選擇,如信號(hào)的能量和/或期望基音跟蹤。
給定來(lái)自基音跟蹤器1450的基音的估算,在步驟1510,氣導(dǎo)信號(hào)矢量可被分解成諧波分量和隨機(jī)分量。為此,公式19被重寫(xiě)為y=Ab公式20其中,y是含噪聲的語(yǔ)音信號(hào)的N個(gè)樣值的矢量,A是N×2K矩陣,由以下公式給出A=[AcosAsin]公式21其元素為Acos(k,t)=cos(kω0t)Asin(k,t)=sin(kω0t) 公式22并且b是2K×1的矢量,由以下公式給出bT=[a1a2…akb1b2…bk] 公式23則振幅系數(shù)的最小二乘解為=(ATA)-1ATy 公式24使用,含噪聲的語(yǔ)音信號(hào)的諧波分量的估算可以確定如下yh=A公式25隨機(jī)分量的估算則被計(jì)算如下yr=y(tǒng)-yh公式26由此,使用上述公式20-26,諧波分解單元1410能夠產(chǎn)生諧波分量樣值1412的矢量yh和隨機(jī)分量樣值的矢量yr。
在將幀的樣值分解成諧波和隨機(jī)樣值之后,在步驟1512對(duì)諧波分量確定一比例縮放參數(shù)或權(quán)值。該比例縮放參數(shù)被用作經(jīng)降噪的語(yǔ)音信號(hào)的計(jì)算的一部分,如下文進(jìn)一步討論的。在一個(gè)實(shí)施例中,比例縮放參數(shù)計(jì)算如下
αh=Σiyh(i)2Σiy(i)2]]>公式27其中,ah是比例縮放參數(shù),yh(i)是諧波分量樣值矢量yh中的第i個(gè)樣值,y(i)是該幀的含噪聲的語(yǔ)音信號(hào)的第i個(gè)樣值。在公式27中,分子是諧波分量的每一樣值的能量之和,分母是含噪聲的語(yǔ)音信號(hào)的每一樣值的能量之和。由此,比例縮放參數(shù)是該幀的諧波能量與該幀的總能量之比。
在替換實(shí)施例中,比例縮放參數(shù)使用概率有聲-無(wú)聲檢測(cè)單元來(lái)設(shè)置。這一單元提供了語(yǔ)音的特定幀為有聲而非無(wú)聲的概率,這意味著該幀中的聲帶共振。幀來(lái)自語(yǔ)音的有聲區(qū)域的概率可直接用作比例縮放參數(shù)。
在確定了比例縮放參數(shù)之后,或正在被確定時(shí),在步驟1514確定諧波分量樣值矢量和隨機(jī)分量樣值矢量的梅爾頻譜。這涉及令每一樣值矢量通過(guò)一離散傅立葉變換(DFT),以產(chǎn)生諧波分量頻率值矢量1422和隨機(jī)分量頻率值矢量1420。由頻率值矢量表示的功率譜然后由梅爾加權(quán)單元1424使用沿梅爾標(biāo)度應(yīng)用的一系列三角加權(quán)函數(shù)來(lái)平滑。這可得到諧波分量梅爾頻譜矢量1428Yh和隨機(jī)分量梅爾頻譜矢量1426Yr。
在步驟1516,將諧波分量和隨機(jī)分量的梅爾頻譜組合成加權(quán)和,以形成經(jīng)降噪的梅爾頻譜估算。這一步驟由加權(quán)和計(jì)算器1430使用以上確定的比例縮放因子在以下公式中執(zhí)行X^(t)=αh(t)Yh(t)+αrYr(t)]]>公式28其中, 是經(jīng)降噪的梅爾頻譜的估算,Yh(t)是諧波分量梅爾頻譜,Yr(t)是隨機(jī)分量梅爾頻譜,ah(t)是以上確定的比例縮放因子,ar是隨機(jī)分量的固定的比例縮放因子,在一個(gè)實(shí)施例中,它被設(shè)為1,時(shí)間下標(biāo)t用于強(qiáng)調(diào)諧波分量的比例縮放因子是對(duì)每一幀確定的,而隨機(jī)分量的比例縮放因子保持不變。注意,在其它實(shí)施例中,隨機(jī)分量的比例縮放因子可對(duì)每一幀確定。
在步驟1516計(jì)算了經(jīng)降噪的梅爾頻譜之后,確定梅爾頻譜的對(duì)數(shù)1432,然后在步驟1518將其應(yīng)用于離散余弦變換1434。這產(chǎn)生了梅爾頻率倒譜系統(tǒng)(MFCC)特征矢量1436,它表示經(jīng)降噪的語(yǔ)音信號(hào)。
對(duì)含噪聲的信號(hào)的每一幀產(chǎn)生一單獨(dú)的經(jīng)降噪的MFCC特征矢量。這些特征矢量可用于任何期望的目的,包括語(yǔ)音增強(qiáng)和語(yǔ)音識(shí)別。對(duì)于語(yǔ)音增強(qiáng),MFCC特征矢量可被轉(zhuǎn)換到功率譜域,并可用含噪聲的氣導(dǎo)信號(hào)來(lái)形成維納濾波器。
盡管特別參照使用骨導(dǎo)傳感器作為備選傳感器來(lái)討論本發(fā)明,然而可使用其它備選傳感器。例如,在圖16中,本發(fā)明的移動(dòng)設(shè)備使用紅外傳感器1600,它一般瞄準(zhǔn)用戶(hù)的臉部,尤其是口部,并生成指示用戶(hù)的面部運(yùn)動(dòng)中對(duì)應(yīng)于語(yǔ)音的變化。由紅外傳感器1600生成的信號(hào)可用作上述技術(shù)中的備選傳感器信號(hào)。
盡管參考特定的實(shí)施例描述了本發(fā)明,然而本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,可以在不脫離本發(fā)明的精神和范圍的情況下在形式和細(xì)節(jié)上作出改變。
權(quán)利要求
1.一種移動(dòng)手持式設(shè)備,其特征在于,包括一氣導(dǎo)麥克風(fēng),它將聲波轉(zhuǎn)換成電子麥克風(fēng)信號(hào);一備選傳感器,它提供指示語(yǔ)音的電子備選傳感器信號(hào);以及一處理器,它使用所述麥克風(fēng)信號(hào)和所述備選傳感器信號(hào)來(lái)估算干凈語(yǔ)音值。
2.如權(quán)利要求1所述的移動(dòng)手持式設(shè)備,其特征在于,所述備選傳感器包括骨導(dǎo)傳感器。
3.如權(quán)利要求1所述的移動(dòng)手持式設(shè)備,其特征在于,它還包括第二備選傳感器,它提供第二備選傳感器信號(hào)。
4.如權(quán)利要求3所述的移動(dòng)手持式設(shè)備,其特征在于,所述備選傳感器和所述第二備選傳感器包括骨導(dǎo)傳感器。
5.如權(quán)利要求4所述的移動(dòng)手持式設(shè)備,其特征在于,所述移動(dòng)手持式設(shè)備具有左側(cè)以及所述左側(cè)對(duì)面的右側(cè),并且其中,所述備選傳感器位于所述左側(cè)附近,而所述第二備選傳感器位于所述右側(cè)附近。
6.如權(quán)利要求3所述的移動(dòng)手持式設(shè)備,其特征在于,它還包括一選擇單元,它選擇所述備選傳感器信號(hào)和所述第二備選傳感器信號(hào)之一。
7.如權(quán)利要求6所述的移動(dòng)手持式設(shè)備,其特征在于,所述選擇單元基于所述備選傳感器信號(hào)和所述第二備選傳感器信號(hào)的幅度,選擇所述備選傳感器信號(hào)和所述第二備選傳感器信號(hào)之一。
8.如權(quán)利要求1所述的移動(dòng)手持式設(shè)備,其特征在于,它還包括一揚(yáng)聲器,它基于所述干凈語(yǔ)音值中的噪聲的量生成聲音。
9.如權(quán)利要求1所述的移動(dòng)手持式設(shè)備,其特征在于,它還包括一鄰近傳感器,它產(chǎn)生指示所述移動(dòng)手持式設(shè)備和對(duì)象之間的距離的鄰近信號(hào)。
10.如權(quán)利要求9所述的移動(dòng)手持式設(shè)備,其特征在于,所述處理器基于所述麥克風(fēng)信號(hào)、所述備選傳感器信號(hào)和所述鄰近信號(hào)確定所述干凈語(yǔ)音值。
11.如權(quán)利要求10所述的移動(dòng)手持式設(shè)備,其特征在于,所述處理器通過(guò)以下過(guò)程確定所述干凈語(yǔ)音值基于所述麥克風(fēng)信號(hào)確定對(duì)所述干凈信號(hào)值的麥克風(fēng)作用;基于所述備選傳感器信號(hào)確定對(duì)所述干凈語(yǔ)音值的備選傳感器作用;以及基于所述鄰近信號(hào)對(duì)所述麥克風(fēng)作用和所述備選傳感器作用加權(quán)。
12.如權(quán)利要求9所述的移動(dòng)手持式設(shè)備,其特征在于,它還包括一揚(yáng)聲器,它基于所述鄰近信號(hào)生成聲音。
13.如權(quán)利要求1所述的移動(dòng)手持式設(shè)備,其特征在于,所述備選傳感器包括一壓力轉(zhuǎn)換器,它液壓地耦合至一用介質(zhì)填充的襯墊。
14.如權(quán)利要求13所述的移動(dòng)手持式設(shè)備,其特征在于,所述移動(dòng)手持式設(shè)備具有左側(cè)和所述左側(cè)對(duì)面的右側(cè),并且其中,所述襯墊具有所述左側(cè)上的第一部分和所述右側(cè)上的第二部分。
15.如權(quán)利要求13所述的移動(dòng)手持式設(shè)備,其特征在于,所述備選傳感器還提供一鄰近信號(hào)。
16.如權(quán)利要求15所述的移動(dòng)手持式設(shè)備,其特征在于,所述鄰近信號(hào)包括由所述壓力轉(zhuǎn)換器產(chǎn)生的電信號(hào)的DC分量。
17.如權(quán)利要求16所述的移動(dòng)手持式設(shè)備,其特征在于,所述備選傳感器信號(hào)包括由所述壓力轉(zhuǎn)換器產(chǎn)生的電信號(hào)的AC分量。
18.如權(quán)利要求1所述的移動(dòng)手持式設(shè)備,其特征在于,所述備選傳感器包括紅外傳感器。
19.一種移動(dòng)設(shè)備,其特征在于,包括一氣導(dǎo)麥克風(fēng),它將聲波轉(zhuǎn)換成電子麥克風(fēng)信號(hào);一備選傳感器,它提供指示語(yǔ)音的電子備選傳感器信號(hào);以及一鄰近傳感器,它提供指示從所述移動(dòng)設(shè)備到對(duì)象的距離的電子鄰近信號(hào)。
20.如權(quán)利要求19所述的移動(dòng)設(shè)備,其特征在于,所述移動(dòng)設(shè)備使用所述麥克風(fēng)信號(hào)、所述備選傳感器信號(hào)和所述鄰近信號(hào)以從所述麥克風(fēng)信號(hào)中移除噪聲,并由此產(chǎn)生一增強(qiáng)的干凈語(yǔ)音信號(hào)。
21.如權(quán)利要求20所述的移動(dòng)設(shè)備,其特征在于,它還包括一揚(yáng)聲器,它基于所述增強(qiáng)的干凈語(yǔ)音信號(hào)中的噪聲級(jí)別的估算生成聲音。
22.如權(quán)利要求20所述的移動(dòng)設(shè)備,其特征在于,所述移動(dòng)設(shè)備通過(guò)使用所述鄰近信號(hào)來(lái)加權(quán)對(duì)從所述備選傳感器信號(hào)形成的增強(qiáng)的干凈語(yǔ)音信號(hào)的作用,來(lái)產(chǎn)生所述增強(qiáng)的干凈語(yǔ)音信號(hào)。
23.如權(quán)利要求22所述的移動(dòng)設(shè)備,其特征在于,加權(quán)所述作用包括當(dāng)所述鄰近信號(hào)指示所述移動(dòng)設(shè)備遠(yuǎn)離對(duì)象時(shí),給予所述作用較小的權(quán)值。
24.如權(quán)利要求19所述的移動(dòng)設(shè)備,其特征在于,它還包括一揚(yáng)聲器,它基于所述鄰近信號(hào)產(chǎn)生聲音。
25.如權(quán)利要求24所述的移動(dòng)設(shè)備,其特征在于,當(dāng)所述鄰近信號(hào)指示所述移動(dòng)設(shè)備和對(duì)象之間的距離增加時(shí),所述聲音的音量提高。
26.如權(quán)利要求19所述的移動(dòng)設(shè)備,其特征在于,所述備選傳感器信號(hào)和所述鄰近傳感器信號(hào)是由單個(gè)傳感器產(chǎn)生的。
27.如權(quán)利要求26所述的移動(dòng)設(shè)備,其特征在于,所述單個(gè)傳感器包括一壓力轉(zhuǎn)換器,它提供一電信號(hào),所述電信號(hào)具有表示所述鄰近信號(hào)的DC分量和表示所述備選傳感器信號(hào)的AC分量。
28.一種移動(dòng)設(shè)備中的方法,其特征在于,所述方法包括接收一氣導(dǎo)麥克風(fēng)信號(hào);接收一指示語(yǔ)音的備選傳感器信號(hào);基于所述氣導(dǎo)麥克風(fēng)信號(hào)和所述備選傳感器信號(hào)估算一增強(qiáng)的干凈語(yǔ)音值;估算所述增強(qiáng)的干凈語(yǔ)音值中的噪聲;以及使用所述噪聲的估算來(lái)通過(guò)所述移動(dòng)設(shè)備中的揚(yáng)聲器生成聲音。
29.如權(quán)利要求28所述的方法,其特征在于,當(dāng)所述噪聲的估算增大時(shí),所述聲音的音量提高。
30.如權(quán)利要求28所述的方法,其特征在于,它還包括接收一指示所述移動(dòng)設(shè)備和對(duì)象之間的距離的鄰近傳感器信號(hào),并在估算所述增強(qiáng)的干凈語(yǔ)音值時(shí)使用所述鄰近傳感器信號(hào)。
31.如權(quán)利要求30所述的方法,其特征在于,使用所述鄰近傳感器信號(hào)包括基于所述鄰近傳感器信號(hào)對(duì)從所述備選傳感器信號(hào)中導(dǎo)出的增強(qiáng)的干凈語(yǔ)音值的作用加權(quán)。
32.如權(quán)利要求31所述的方法,其特征在于,對(duì)作用加權(quán)包括當(dāng)所述鄰近傳感器信號(hào)指示所述移動(dòng)設(shè)備接近對(duì)象時(shí),對(duì)從所述備選傳感器信號(hào)中導(dǎo)出的作用給予更大的權(quán)值。
33.如權(quán)利要求32所述的方法,其特征在于,所述對(duì)象是用戶(hù)頭部。
全文摘要
提供了一種移動(dòng)設(shè)備,它包括一可由用戶(hù)的手指或大拇指操縱的數(shù)字輸入、一氣導(dǎo)麥克風(fēng)和一提供指示語(yǔ)音的備選傳感器信號(hào)的備選傳感器。在某些實(shí)施例中,該移動(dòng)設(shè)備也包括一鄰近傳感器,它提供指示從移動(dòng)設(shè)備到對(duì)象的距離的鄰近信號(hào)。在某些實(shí)施例中,來(lái)自氣導(dǎo)麥克風(fēng)的信號(hào)、備選傳感器信號(hào)和鄰近信號(hào)用于形成干凈語(yǔ)音值的估算。在另外的實(shí)施例中,基于干凈語(yǔ)音值中的噪聲的量產(chǎn)生通過(guò)移動(dòng)設(shè)備中的揚(yáng)聲器的聲音。在其它實(shí)施例中,通過(guò)揚(yáng)聲器產(chǎn)生的信號(hào)基于鄰近傳感器信號(hào)。
文檔編號(hào)H04R1/02GK1662018SQ20051005287
公開(kāi)日2005年8月31日 申請(qǐng)日期2005年2月24日 優(yōu)先權(quán)日2004年2月24日
發(fā)明者M·J·辛克萊爾, 黃學(xué)東, 張正友 申請(qǐng)人:微軟公司