基于帶限正交分量的聲音編碼方法和系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明涉及一種基于帶限正交分量的聲音編碼方法及系統(tǒng),該方法用于生成人工耳蝸電極的輸入信號(hào),所述方法包含:步驟101)將麥克風(fēng)采集到的音頻信號(hào)進(jìn)行分頻帶處理,得到各分頻帶信號(hào)xk(t);步驟102)將分頻帶處理后的信號(hào)xk(t)進(jìn)行正交相干解調(diào),得到兩個(gè)帶限正交分量uk(t)和vk(t);步驟103)根據(jù)兩個(gè)帶限正交分量計(jì)算得到xk(t)的包絡(luò)信號(hào)mk,0(t);步驟104)按照一定的組合方式組合uk(t)和vk(t),將組合結(jié)果作為小幅震蕩與mk,0(t)相加,得到刺激信號(hào)幅度mk(t);步驟105)將所得刺激信號(hào)幅度mk(t)按照人工耳蝸植入者的每個(gè)電極通道的感音閾值進(jìn)行非線(xiàn)性動(dòng)態(tài)范圍壓縮,得到m'k(t);步驟106)將m'k(t)調(diào)制脈沖串后發(fā)送到人工耳蝸電極上去。
【專(zhuān)利說(shuō)明】基于帶限正交分量的聲音編碼方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明提出了基于帶限正交分量聲音編碼方法和系統(tǒng),適用于人工耳蝸等采用分 頻帶方式的電刺激聽(tīng)覺(jué)輔助設(shè)備,具體涉及一種基于帶限正交分量的聲音編碼方法和系 統(tǒng)。
【背景技術(shù)】
[0002] 聲碼器模型為音頻編碼中的經(jīng)典模型,為了在有限的通信帶寬范圍內(nèi)傳輸語(yǔ)音信 號(hào),聲碼器模型將語(yǔ)音信號(hào)進(jìn)行分頻帶處理,并提取出每個(gè)頻帶輸出信號(hào)的包絡(luò),將各個(gè)頻 帶的包絡(luò)信號(hào)和檢測(cè)到的音高信息、清濁信息通過(guò)通信線(xiàn)路進(jìn)行傳輸,這樣可以降低數(shù)據(jù) 帶寬。
[0003] 聲碼器模型還被用于語(yǔ)音合成、樂(lè)器音合成。另外,有研究表明,僅利用很小數(shù)量 的分頻帶數(shù)的包絡(luò)信息就可以有效的傳達(dá)語(yǔ)義。該模型被廣泛的應(yīng)用于人工耳蝸信號(hào)處理 策略中來(lái)。例如連續(xù)間隔采樣策略(Continuous Interleaved Sampling, CIS),該策略為目 前人工耳蝸產(chǎn)品所采用的主流策略。
[0004] CIS的主要操作流程為:首先將麥克風(fēng)采集到的音頻信號(hào)進(jìn)行分頻帶處理,然后 提取各個(gè)頻帶輸出信號(hào)的包絡(luò)信號(hào),再根據(jù)聽(tīng)力師預(yù)先測(cè)得的人工耳蝸植入者的各個(gè)電極 的有效感知范圍(即最小感知閾值和最大感受門(mén)限)進(jìn)行非線(xiàn)性動(dòng)態(tài)范圍壓縮,最后調(diào)制電 脈沖序列并送至各個(gè)電極。
[0005] 從以上流程可以看出,各個(gè)頻帶中僅保留包絡(luò)信息,其他信息被拋棄掉了。有研究 表明,在安靜環(huán)境下植入者利用以上類(lèi)型的策略已經(jīng)可以獲得良好的言語(yǔ)識(shí)別率,但對(duì)于 聲調(diào)、首樂(lè)等的感知還有待提1?,另外在噪聲環(huán)境下的感知效果也有待提1?。
[0006] 針對(duì)上述存在問(wèn)題,研究者們開(kāi)始考慮將上面流程中"拋棄"掉的部分重新找回 來(lái),加入到電刺激信號(hào)中,這部分信號(hào)通常被稱(chēng)為"精細(xì)結(jié)構(gòu)"。這類(lèi)研究的基本假設(shè)模型為 "包絡(luò)-精細(xì)結(jié)構(gòu)(Envelope-Fine Structure, EF)"模型或稱(chēng)為"幅度調(diào)制-頻率調(diào)制"模 型。該模型中將第k個(gè)頻帶輸出的信號(hào)xk(t)分解為x k(t) =mk(t) ?(^⑴。其中mk(t)為 包絡(luò),ck(t)為精細(xì)結(jié)構(gòu)。
[0007] 在帶通語(yǔ)音信號(hào)分解研究中,除了"包絡(luò)-精細(xì)結(jié)構(gòu)"模型外還有一種經(jīng)典的模型 為 Rosen 提出的"包絡(luò)-周期性-精細(xì)結(jié)構(gòu)(Envelpe-Periodicity-Fine Structure, EPF)" 模型。EPF模型采用整流對(duì)帶通語(yǔ)音信號(hào)進(jìn)行處理,然后對(duì)每個(gè)頻帶的整流輸出分別提取 0-50Hz,50-500HZ,>500Hz的部分分別作為包絡(luò)、周期性和精細(xì)結(jié)構(gòu)。
[0008] 根據(jù)心理聲學(xué)理論可知,電刺激聽(tīng)覺(jué)感知與聲刺激聽(tīng)覺(jué)感知有顯著的差異,電刺 激聽(tīng)覺(jué)在信號(hào)表達(dá)上試圖模擬聲刺激聽(tīng)覺(jué),但由于目前對(duì)于人類(lèi)聽(tīng)覺(jué)系統(tǒng)的認(rèn)識(shí)離完美還 有很大距離,電刺激聽(tīng)覺(jué)的時(shí)頻分析能力遠(yuǎn)不及正常聽(tīng)力者的聲刺激聽(tīng)覺(jué)感知。在現(xiàn)有人 工耳蝸技術(shù)中,位置理論和時(shí)間理論就體現(xiàn)得更為直接?;啄ど喜煌恢脤?duì)應(yīng)不同的感 音頻率,然而同一個(gè)電極上的刺激幅度的起伏也會(huì)帶給植入者以頻率信息。
[0009] 人工耳蝸信號(hào)處理策略中常采用類(lèi)似的方法取得包絡(luò)信息,只是其中的低通濾波 截止頻率可以根據(jù)實(shí)際情況進(jìn)行選擇。另外一種方法就是采用希爾伯特變換取得帶通信號(hào) 的希爾伯特包絡(luò)。
[0010]另外,利用EF模型,研究者們建議將精細(xì)結(jié)構(gòu)信息增加到電刺激信號(hào)中來(lái),以增 強(qiáng)植入者在噪聲環(huán)境下的聽(tīng)音效果。也已經(jīng)有研究者開(kāi)始嘗試。
[0011] 這些嘗試中,典型的思想是將帶通信號(hào)xk(t)建模為準(zhǔn)正弦振蕩形式:
[0012]
【權(quán)利要求】
1. 一種基于帶限正交分量的聲音編碼方法,該方法用于生成人工耳蝸電極的輸入信 號(hào),所述方法包含: 步驟101)將麥克風(fēng)采集到的音頻信號(hào)x(t)進(jìn)行分頻帶處理,得到各分頻帶信號(hào) xk(t),其中,k的取值范圍為" 1-K"且κ的取值為根據(jù)當(dāng)前應(yīng)用設(shè)定的分頻帶數(shù)目,Xk⑴的 頻率范圍為[f;k-B/2, f;k+B/2],f;k為第k個(gè)頻帶的中心頻率,B表示當(dāng)前頻帶的帶寬; 步驟102)將分頻帶處理后的信號(hào)xk(t)進(jìn)行正交相干解調(diào),得到兩個(gè)帶限正交分量 uk(t)和 vk(t); 步驟103)基于兩個(gè)帶限正交分量得到包絡(luò)!,具體計(jì)算公式為:
步驟104)按照一定的組合方式組合uk (t)和vk (t),所述組合方式的基本原則為組合 結(jié)果小于包絡(luò)πιΜ (t),且該組合與當(dāng)前時(shí)刻的輸入信號(hào)xk(t)相關(guān);將組合結(jié)果作為小幅震 蕩與包絡(luò)%(|(〇相加,得到刺激信號(hào)幅度m k(t); 步驟105)將所得刺激信號(hào)幅度mk(t)按照人工耳蝸植入者的每個(gè)電極通道的感音閾 值進(jìn)行非線(xiàn)性動(dòng)態(tài)范圍壓縮,得到m'k(t); 步驟106)將m'k(t)調(diào)制脈沖串后發(fā)送到人工耳蝸電極上去。
2. 根據(jù)權(quán)利要求1所述的基于帶限正交分量的聲音編碼方法,其特征在于,所述步驟 102)進(jìn)一步包含: 首先,將分頻帶信號(hào)xk(t)與相乘; 然后,通過(guò)低通濾波器得到uk(t)+ivk(t),它的實(shí)部uk(t)和虛部v k(t)為兩個(gè)帶限正 交分量;其中,低通濾波器的截止頻率在(B/2,2f;k-B/2)范圍中進(jìn)行選取。
3. 根據(jù)權(quán)利要求1所述的基于帶限正交分量的聲音編碼方法,其特征在于,所述一定 的組合方式具體包含: 組合方式一:
,其中α的取值范圍為(0.5, 1]; 組合方式二,
其中β的取值范圍為(〇, 2]; 其中,上述組合方式中的兩個(gè)參數(shù)α和β都是用于調(diào)節(jié)包絡(luò)&(|(〇振蕩的幅度。
4. 根據(jù)權(quán)利要求1所述的基于帶限正交分量的聲音編碼方法,其特征在于,所述包絡(luò) 的提取采用整流加低通濾波的方法或解析信號(hào)幅度法獲取。
5. -種基于帶限正交分量的聲音編碼系統(tǒng),其特征在于,所述系統(tǒng)包含: 若干帶通濾波器,用于將麥克風(fēng)采集到的音頻信號(hào)x(t)進(jìn)行分頻帶處理,得到若干分 頻帶信號(hào)xk(t),其中,k的取值范圍為1-K且K的取值為根據(jù)當(dāng)前應(yīng)用所設(shè)定的分頻帶數(shù) 目,x k(t)的頻率范圍為[?·Λ-Β/2,?·Λ+Β/2],f;k為第k個(gè)頻帶的中心頻率,B表示當(dāng)前頻帶 的帶寬; 刺激幅度獲取模塊,用于將分頻帶處理后的信號(hào)xk(t)進(jìn)行正交相干解調(diào),得到兩個(gè)帶 限正交分量Uk(t)和vk(t);基于兩個(gè)帶限正交分量得到包絡(luò)
并在此 基礎(chǔ)上增加依賴(lài)于uk(t)和vk(t)變化的小幅震蕩,獲取刺激信號(hào)幅度mk(t); 其中,按照一定的組合方式組合uk(t)和vk(t),所述組合方式的基本原則為在包絡(luò) 的基礎(chǔ)上增加小振幅的振蕩,且該振蕩與當(dāng)前時(shí)刻的輸入信號(hào)相關(guān); 非線(xiàn)性動(dòng)態(tài)范圍壓縮模塊,用于將所得mk(t)按照人工耳蝸植入者的每個(gè)電極通道的 感音閾值進(jìn)行非線(xiàn)性動(dòng)態(tài)范圍壓縮,得到m'k(t);和 調(diào)制編碼模塊,用于將所述m'k(t)調(diào)制脈沖串后發(fā)送到人工耳蝸電極上去。
6. 根據(jù)權(quán)利要求5所述的基于帶限正交分量的聲音編碼系統(tǒng),其特征在于,所述刺激 幅度獲取1?塊進(jìn)一步包含: 第一處理子模塊,用于將各分頻信號(hào)Xk(t)相乘; 低通濾波器,用于對(duì)第一處理子模塊輸出的信號(hào)進(jìn)行低通濾波得到uk(t)+ivk(t), 它的實(shí)部Uk(t)和虛部vk(t)為兩個(gè)帶限正交分量;其中,低通濾波器的截止頻率方位在 (B/2, 2fck-B/2)范圍中進(jìn)行選?。? 組合模塊,用于將低通濾波器輸出的兩個(gè)正交分量按照一定的組合方式組合以得到每 個(gè)頻帶最終的刺激幅度信息mk(t);和 刺激幅度生成模塊,用于基于低通濾波器輸出的兩個(gè)帶限正交分量獲得包絡(luò)信號(hào) ^ (t),并在此基礎(chǔ)上增加小幅振蕩得到刺激信號(hào)幅度mk (t)。
7. 根據(jù)權(quán)利要求5所述的基于帶限正交分量的聲音編碼系統(tǒng),其特征在于,所述組合 模塊采用如下的組合方式: 組合方式一:
,其中α的取值范圍為(0.5, 1];
組合方式二, 其中β的取值范圍為(〇, 2] , 其中,上述組合方式中的兩個(gè)參數(shù)α和β都是用于調(diào)節(jié)該振蕩的幅度,兩個(gè)參數(shù)越大 則幅度調(diào)制深度越深。
8. 根據(jù)權(quán)利要求5所述的基于帶限正交分量的聲音編碼系統(tǒng),其特征在于,所述包絡(luò) 的提取可采用整流加低通濾波的方法或解析信號(hào)幅度法獲取。
【文檔編號(hào)】A61F11/04GK104123947SQ201310152857
【公開(kāi)日】2014年10月29日 申請(qǐng)日期:2013年4月27日 優(yōu)先權(quán)日:2013年4月27日
【發(fā)明者】馮海泓, 孟慶林, 趙建平, 原猛, 陳友元 申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所