專利名稱:使用頻率-幅度-調(diào)制-編碼策略改善音頻信號的人工耳蝸與裝置/方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于改善聲音信號的裝置和方法,更具體地說,涉及從聲音信號中提取幅度變化和頻率變化,并使用這些提取的變化來提供高質(zhì)量音頻信號的裝置和方法,本發(fā)明可用于聽覺修復(fù)(auditoryprostheses)以及電信設(shè)備中。
背景技術(shù):
所有聲音的特征都在于幅度和頻率的變化。人類和許多哺乳動(dòng)物的聽覺系統(tǒng)都對幅度和頻率的變化敏感。在迄今可用的人工耳蝸技術(shù)中,只對幅度變化進(jìn)行了提取和編碼。
現(xiàn)有技術(shù)的人工耳蝸通常使用了兩種類型的聲音編碼策略。在一種類型中,只提取幅度調(diào)制,并對固定速率的載波進(jìn)行調(diào)制??蓞⒁奧ilson等人的“Better Speech Recognition With Cochlear Implants”,Nature(使用人工耳蝸的更好的語音識別《自然》雜志),1991 Jul18;352(6332)236-8。在另一類型中,將濾波后的原始模擬波形(包括幅度、頻率調(diào)制和許多其它分量)直接送到電極,以激勵(lì)神經(jīng)細(xì)胞。參見Eddington等人的“Auditory Prostheses Research With MultipleChannel Intracochlear Stimulation In Man(使用人體多通道耳蝸內(nèi)激勵(lì)的聽覺修復(fù)研究)”,Ann Otol Rhinol Laryngol,1978,87(8 Pt 2),1-39。
也有人在人工耳蝸中試圖對基頻(Fo)進(jìn)行編碼。參見Geurts L和Wouters J.的“Coding Of The Fundamental Frequency In ContinuousInterleaved Sampling Processors for cochlear Implants”,J.Acoust.Soc.Am.(在人工耳蝸的連續(xù)交織采樣處理器中對基頻進(jìn)行編碼《美國聲學(xué)協(xié)會雜志》),2001 Feb;109(2)713-26;Faulkner A.,Rosen S.和SmithC.的“Effects Of The Salience Of Pitch And Periodicity Information OnThe Intelligibility Of Four-Channel Vocoded SpeechImplications ForCochlear Implants”,J.Acoust.Soc.Am.(基于四通道聲碼器語音清晰度的基音和周期性信息的顯著效果人工耳蝸的推斷《美國聲學(xué)協(xié)會雜志》),2000 Oct;108(4)1877-87。
在音頻壓縮中,近來有一些使用幅度和頻率調(diào)制來編碼語音的研究。參見Potaminanos A和Maragos P.的“Speech Analysis And SynthesisUsing An AM-FM Modulation Model”,Speech Communication(使用AM-FM調(diào)制模型的語音分析和合成《語音通信》),199928,195-209。他們的研究通常用于在或接近共振峰頻率處提取和追蹤頻率調(diào)制,該頻率調(diào)制獨(dú)立地變化并且必須在傳輸期間進(jìn)行編碼。本策略將只提取和編碼在窄帶的固定中心頻率上的頻率調(diào)制,該頻率調(diào)制在編碼器和解碼器中都是先驗(yàn)知識,并且不需要被傳輸。
在人工耳蝸中,對幅度調(diào)制(單獨(dú))或模擬波形進(jìn)行編碼。其中之一提供了太少的不可辨別的信息(在僅用AM時(shí)),而另一個(gè)則提供了太多的不可辨別的信息。在音頻編碼中,除了掩碼(masking)之外,通常是從語音產(chǎn)生角度和和少許感覺信息出發(fā)來考慮編碼策略的。
雖然在基本聽覺研究中存在非常多的有關(guān)頻率調(diào)制的知識;但只針對人工耳蝸(或任何其它神經(jīng)修復(fù)設(shè)備)中頻率調(diào)制進(jìn)行編碼以及將其用于音頻壓縮中做了很少的工作或者沒有做什么工作。
發(fā)明內(nèi)容
本發(fā)明使用頻率-幅度-調(diào)制-編碼(FAME)來為人工耳蝸用戶改善聲音感覺的質(zhì)量,并且用于壓縮音頻信號,以便可以通過窄帶傳輸信道實(shí)現(xiàn)寬帶音質(zhì)。
FAME策略提取重要的信息(幅度和頻率的變化)并且能夠使用窄帶的容量來提供寬帶(即,高質(zhì)量)音頻信號,該策略可用于聽覺修復(fù)和電信。
在人工耳蝸中,寬帶音頻信號首先被分成若干窄帶。從每個(gè)頻帶中單獨(dú)地提取出頻率和幅度調(diào)制,然后通過濾波和壓縮進(jìn)行處理,以產(chǎn)生頻率和幅度調(diào)制的信號,該信號適合于人工耳蝸使用者的感覺能力或傳輸信道的帶寬限制??墒褂锰厥忸l帶的頻率和幅度調(diào)制來直接激勵(lì)植入到人的頭部中的電極,或者重新合成以恢復(fù)原始音頻信號。
在音頻編碼中,對10,000-10,300Hz的信號進(jìn)行編碼是很具挑戰(zhàn)性的,但是對以該頻率為中心的變化(300Hz)進(jìn)行編碼就容易得多。由于幅度和頻率變化是獨(dú)立的,并且包含時(shí)間信息,F(xiàn)AME策略實(shí)質(zhì)上將一個(gè)3維(幅度、頻率和時(shí)間)編碼問題轉(zhuǎn)化成了一個(gè)2維問題。
基頻編碼策略和本發(fā)明的FAME策略的差別在于在基頻編碼策略中,只使用基頻在某些或全部頻帶上對載波進(jìn)行調(diào)制;而在根據(jù)本發(fā)明的FAME的應(yīng)用中,將提取特殊頻帶的頻率調(diào)制(可能攜帶或不攜帶基頻信息)并將其用于對相應(yīng)頻帶中的載波頻率進(jìn)行調(diào)制。
頻率-幅度-調(diào)制-編碼(FAME)策略的目標(biāo)是改善對音樂、音調(diào)語言語音以及多講話者背景中的語音(“雞尾酒會效應(yīng)”)的感知。也可以使用相同的策略來壓縮用于所有通信用途的音頻信號,包括有線或無線和因特網(wǎng)信號傳輸、存儲和音頻信息的恢復(fù)。
圖1是表示FAME策略的聲激勵(lì)的流程圖。
圖2是示出在人工耳蝸中實(shí)現(xiàn)FAME策略的方法的流程圖。
圖3是示出使用FAME來對一般音頻信號進(jìn)行編碼的方法的流程圖。
圖4是根據(jù)本發(fā)明用于處理聲音的方法的流程圖,其中結(jié)合了本發(fā)明的最新算法。
圖4A是圖4的原始聲音圖(幅度--時(shí)間)。
圖4B是圖4的聲音在進(jìn)行了“預(yù)加重”和“4-24巴特沃茲帶通濾波器”步驟之后的信道圖(幅度--時(shí)間)。
圖4C是圖4方法中的AM包絡(luò)的4信道圖(幅度--時(shí)間)。
圖4D是如圖4所示的本發(fā)明的FAME算法應(yīng)用和處理步驟所產(chǎn)生的FM信號的信道圖(頻率--時(shí)間)。
具體實(shí)施例方式
圖1示出了FAME策略的聲激勵(lì)。首先將寬帶信號(語音、音樂或任何其它音頻信號)進(jìn)行處理,以使其具有一個(gè)理想的帶寬和頻譜形狀,例如20-20000Hz和對于語音進(jìn)行頻譜平滑(flattening)處理。然后將預(yù)處理的音頻信號濾波成N個(gè)窄頻帶。N將基于最優(yōu)識別和壓縮來確定。將對窄帶信號(僅以頻帶1為例)進(jìn)行幅度和頻率調(diào)制的并行提取。幅度調(diào)制可以通過如圖所示的簡單整流和低通濾波或數(shù)字希爾伯特變換來提取。頻率調(diào)制可以通過計(jì)算微細(xì)結(jié)構(gòu)(finestructure)的瞬時(shí)相位角(頻率)或窄帶信號的過零點(diǎn)來提取。FM可具有一個(gè)寬的瞬時(shí)頻率范圍,將根據(jù)正常聽覺和人工耳蝸收聽者的感覺評估(perceptual evaluations)來濾波和/或壓縮。在本發(fā)明的實(shí)現(xiàn)中,只有300Hz的FM范圍被用于對與分析帶通濾波器的中心頻率(fcl)相等的正弦頻率進(jìn)行調(diào)制。注意到,F(xiàn)M改變了該載波的頻率,但是沒有改變生成波形的幅度。然后,將提取的時(shí)域包絡(luò)(temporalenvelope)[A1(t)]幅度調(diào)制到FM載波,從而生成特定頻帶的頻率-幅度-調(diào)制波形。這些來自所有N個(gè)頻帶的波形將被相加,以產(chǎn)生FAME策略的聲激勵(lì)。
圖2示出了在人工耳蝸中FAME策略的執(zhí)行過程。所有的初始處理步驟都與聲激勵(lì)(圖1)中相同,除了在這個(gè)例子中載波包括雙相脈沖之外。這些脈沖首先進(jìn)行頻率調(diào)制,以使相互的脈沖間隔根據(jù)頻率調(diào)制(慢-快-慢)模式變化。如本發(fā)明情況,將對FM脈沖序列(pulse train)進(jìn)行幅度調(diào)制。因?yàn)楦杏X的位置基音(place pitch)主要是由耳蝸內(nèi)的電極位置來進(jìn)行編碼的,載波的中心頻率可以是窄帶的中心頻率(fcn)或者是固定速率(例如1000Hz)的脈沖序列??商鎿Q地,只對FM進(jìn)行幅度調(diào)制,以產(chǎn)生最終的頻率-幅度-調(diào)制脈沖。為了避免電極之間的脈沖交疊,脈沖的具體位置將是變化的,以形成非同時(shí)的電極間激勵(lì)。將開發(fā)一種算法來將由于每個(gè)電極信道內(nèi)以及所有信道間的脈沖位置的微小變化而造成的FM的變化最小化。圖4的流程圖中示出了一個(gè)這種算法的實(shí)例。
圖3示出了使用FAME對一般音頻信號進(jìn)行編碼。對特殊頻帶FM和AM進(jìn)行提取和壓縮,以通過有線或無線信道進(jìn)行編碼傳輸。因?yàn)樵诰幋a和解碼端,中心頻率都已知,所以它們不需要被傳輸。傳輸?shù)腇M和AM將被恢復(fù)和合成,以重新獲得原始的音頻信號。對于每個(gè)信道,AM將需要200比特/秒(8比特×25Hz),F(xiàn)M將需要300比特/秒(1比特過零點(diǎn)×300Hz),從而需要總共500比特/秒。因?yàn)?-10信道可足夠提供高質(zhì)量音頻信號,通信信道的寬范圍內(nèi)可以使用總計(jì)4.8k比特/秒。
本發(fā)明(即,使用FAME策略)的人工耳蝸和音頻壓縮系統(tǒng)相比僅對幅度調(diào)制進(jìn)行編碼的現(xiàn)有技術(shù)策略提供了相當(dāng)大的改善。對幅度調(diào)制進(jìn)行編碼的策略雖然提供噪聲環(huán)境中的良好語音識別,并不適于處理噪聲環(huán)境中語音、音樂感覺和音調(diào)語言感知。另一方面,模擬波形理論上包含所有幅度和頻率調(diào)制,但是人工耳蝸的使用者并不能以未經(jīng)處理的方式得到關(guān)于這些調(diào)制的信息。因此,F(xiàn)AME策略對于人工耳蝸和音頻信號的應(yīng)用具有十分顯著和創(chuàng)造性的進(jìn)步。
圖4-4D示出了本發(fā)明方法的例子,其中對聲音(圖4A)進(jìn)行處理以產(chǎn)生AM(包絡(luò))信號(圖4C)和FM信號(圖4D),這是通過使用根據(jù)本發(fā)明的FAME算法的FAME策略而實(shí)現(xiàn)的。
權(quán)利要求
1.一種用于改善經(jīng)過數(shù)字處理的模擬聲音信號的聲音質(zhì)量的方法,所述方法包括步驟a)提取所述模擬聲音信號的至少一個(gè)窄帶的幅度調(diào)制和頻率調(diào)制;和b)對在步驟(a)中提取的調(diào)制進(jìn)行濾波和壓縮,以產(chǎn)生被數(shù)字化處理的幅度調(diào)制的和頻率調(diào)制的聲音信號,從而提供類似于所述模擬聲音信號的聲音信號。
2.如權(quán)利要求1所述的方法,其中,所述方法用于改善具有人工耳蝸的人所感覺到的聲音質(zhì)量,并且所述方法還包括步驟c)通過特殊頻帶的頻率和幅度調(diào)制來激勵(lì)所述人工耳蝸的電極。
3.如權(quán)利要求1所述的方法,其中,所述方法用于從幅度和頻率調(diào)制的窄帶傳輸恢復(fù)所述模擬聲音信號的寬帶質(zhì)量,且所述方法還包括步驟c)重新合成所述幅度和頻率調(diào)制,以產(chǎn)生感覺上與所述模擬聲音信號相似的聲音信號。
4.如權(quán)利要求1所述的方法,還包括步驟將所述模擬聲音信號劃分成至少一個(gè)窄帶聲音信號。
5.如權(quán)利要求1所述的方法,其中,所述提取幅度調(diào)制的步驟包括對所述模擬聲音信號的窄帶進(jìn)行整流和低通濾波的步驟。
6.如權(quán)利要求1所述的方法,其中,所述提取頻率調(diào)制的步驟包括在聲音信號的幅度大致為零的區(qū)域計(jì)算所述模擬聲音信號的窄帶的瞬時(shí)相位角的步驟。
7.如權(quán)利要求1所述的方法,其中,步驟(b)包括將從步驟(a)提取的時(shí)域包絡(luò)的幅度調(diào)制到頻率調(diào)制載波上以產(chǎn)生特殊頻帶頻率-幅度調(diào)制波形的步驟。
8.如權(quán)利要求7所述的方法,其中,對提取的時(shí)域包絡(luò)的幅度進(jìn)行調(diào)制的步驟包括計(jì)算第一時(shí)間點(diǎn)的第一幅度的平方與第二時(shí)間點(diǎn)的第二幅度的平方的和的平方根的步驟。
9.如權(quán)利要求7所述的方法,還包括步驟將來自多個(gè)窄帶的聲音波形求和以產(chǎn)生聲音激勵(lì)。
10.如權(quán)利要求6所述的方法,其中,所述方法包括在第一時(shí)間測量第一幅度和在第二時(shí)間測量第二幅度,并計(jì)算所述第二幅度和所述第一幅度的商的反正切。
11.一種人工耳蝸,其包括至少一個(gè)電極,其被構(gòu)造成可位于患者的耳蝸中;和聲音信號編碼器,其與至少一個(gè)電極相連以激勵(lì)所述電極,所述聲音信號編碼器通過下面的操作來對聲音信號進(jìn)行編碼(a)提取模擬聲音信號的至少一個(gè)窄帶的幅度和頻率調(diào)制;和(b)對在步驟(a)中提取的調(diào)制進(jìn)行濾波和壓縮以產(chǎn)生幅度和頻率調(diào)制的聲音信號,該幅度和頻率調(diào)制的聲音信號用于激勵(lì)所述人工耳蝸的所述至少一個(gè)電極。
12.如權(quán)利要求11所述的人工耳蝸,包括頻率調(diào)制器,其對聲音信號的頻率進(jìn)行調(diào)制,以使所述聲音信號的脈沖間隔根據(jù)頻率調(diào)制模式而變化。
13.如權(quán)利要求11所述的人工耳蝸,包括幅度調(diào)制器。
14.如權(quán)利要求11所述的人工耳蝸,包括多個(gè)電極。
15.如權(quán)利要求14所述的人工耳蝸,包括脈沖控制器,其控制由所述信號編碼器產(chǎn)生的頻率-幅度-調(diào)制脈沖的定位以減少所述多個(gè)電極上的同時(shí)激勵(lì)。
16.一種音頻信號壓縮系統(tǒng),其包括至少一個(gè)傳輸器,其構(gòu)成用于接收音頻信號;多個(gè)數(shù)據(jù)通信信道;至少一個(gè)接收器,其與所述至少一個(gè)傳輸器在所述多個(gè)數(shù)據(jù)通信信道上通信相連;和音頻信號編碼器,其通過下面的步驟來對音頻信號進(jìn)行編碼(a)提取模擬聲音信號的至少一個(gè)窄帶的幅度和頻率調(diào)制;和(b)對步驟(a)中提取的所述調(diào)制進(jìn)行濾波和壓縮以產(chǎn)生幅度和頻率調(diào)制的聲音信號,所述幅度和頻率調(diào)制聲音信號在所述數(shù)據(jù)通信信道上傳輸?shù)剿鲋辽僖粋€(gè)接收器。
17.如權(quán)利要求16所述的系統(tǒng),其中,所述數(shù)據(jù)通信信道是無線信道。
18.如權(quán)利要求16所述的系統(tǒng),其中,所述接收器配置用來恢復(fù)和合成所述幅度和頻率調(diào)制信號,以產(chǎn)生聲音類似于所述傳輸器所接收的所述音頻信號的音頻信號。
19.如權(quán)利要求16所述的系統(tǒng),其中,所述傳輸器壓縮所述音頻信號,以使信號信息以不大于大約5k比特/秒的速率在所述數(shù)據(jù)通信信道上傳輸。
20.如權(quán)利要求16所述的系統(tǒng),其中,所述傳輸器傳輸不含有所述音頻信號的中心頻率信息的信號信息。
全文摘要
本發(fā)明公開一種用于改善經(jīng)過數(shù)字處理的音頻信號的聲音質(zhì)量的方法,該方法包括如下步驟從音頻信號的一個(gè)或多個(gè)窄帶中提取幅度和頻率調(diào)制,對這些調(diào)制進(jìn)行濾波和壓縮,以產(chǎn)生經(jīng)數(shù)字化處理的幅度和頻率調(diào)制的音頻信號,從而提供類似于原始音頻信號的聲音信號。本方法可用于聽覺修復(fù)和電信系統(tǒng)中。
文檔編號H04H20/48GK1561587SQ02819349
公開日2005年1月5日 申請日期2002年8月27日 優(yōu)先權(quán)日2001年8月27日
發(fā)明者曾凡鋼, 聶開寶 申請人:加利福尼亞大學(xué)董事會