一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法
【專利摘要】一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法,其特征在于:所述方法通過(guò)在頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波,具體步驟為:1)通過(guò)POLQA處理參考信號(hào)和劣化信號(hào),然后所述參考信號(hào)和劣化信號(hào)進(jìn)入核心模型;2)在所述核心模型中的頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波,再進(jìn)行聽覺變換,使提取的聽覺頻譜更接近人耳聽覺感受;3)通過(guò)聽覺變換后,再進(jìn)行干擾分析,分析所述劣化信號(hào)相對(duì)所述參考信號(hào)的失真,得出客觀評(píng)價(jià)MOS分。與其它方法相比,本發(fā)明有效地提高了客觀評(píng)價(jià)結(jié)果與主觀評(píng)價(jià)結(jié)果的相關(guān)度。
【專利說(shuō)明】一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音信號(hào)處理【技術(shù)領(lǐng)域】,具體為一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法。
【背景技術(shù)】
[0002]語(yǔ)音質(zhì)量評(píng)價(jià)從評(píng)價(jià)主體上講可分為兩大類:主觀評(píng)價(jià)和客觀評(píng)價(jià)。
[0003]主觀評(píng)價(jià)是以人為主體來(lái)評(píng)價(jià)語(yǔ)音的質(zhì)量,該方式雖較為繁雜,但由于人是語(yǔ)音的最終接受者,因此這種評(píng)價(jià)是語(yǔ)音質(zhì)量的真實(shí)反映。1996年ITU組織提出的平均意見得分(MOS)是一種廣泛使用的主觀評(píng)價(jià)方法,用測(cè)試者的平均意見分來(lái)直觀地反映人對(duì)語(yǔ)音質(zhì)量的感覺。主觀評(píng)價(jià)的優(yōu)點(diǎn)是符合人對(duì)語(yǔ)音質(zhì)量的感覺,缺點(diǎn)是費(fèi)時(shí)費(fèi)力費(fèi)錢,且靈活性不夠,重復(fù)性和穩(wěn)定性較差,受人的主觀影響較大等。
[0004]為了克服主觀評(píng)價(jià)的缺點(diǎn),人們開始研宄語(yǔ)音質(zhì)量客觀評(píng)價(jià)方法。研宄語(yǔ)音質(zhì)量客觀評(píng)價(jià)的目的不是要用客觀評(píng)價(jià)來(lái)完全替代主觀評(píng)價(jià),而是使客觀評(píng)價(jià)成為一種既方便快捷又能夠準(zhǔn)確預(yù)測(cè)出主觀評(píng)價(jià)值的語(yǔ)音質(zhì)量評(píng)價(jià)手段。語(yǔ)音質(zhì)量客觀評(píng)價(jià)從評(píng)價(jià)方法上可分為侵入式(intrusive)和非侵入式(non-1ntrusive)。侵入式的評(píng)價(jià)通常也被稱為雙端或基于輸入-輸出的評(píng)價(jià),它是以語(yǔ)音系統(tǒng)的輸入信號(hào)和輸出信號(hào)之間的誤差大小來(lái)判斷語(yǔ)音質(zhì)量的好壞,通過(guò)提取兩端語(yǔ)音信號(hào)的特征參量來(lái)建立評(píng)價(jià)模型。非侵入式的評(píng)價(jià)也被稱為單端或基于輸出的評(píng)價(jià),它僅根據(jù)語(yǔ)音系統(tǒng)的輸出信號(hào)來(lái)進(jìn)行質(zhì)量評(píng)價(jià)。
[0005]ITU-T在2001年發(fā)布的P.862感知評(píng)估通話質(zhì)量測(cè)量PESQ (PerceptualEvaluationofSpeechQualityAnalysis)是當(dāng)前性能很高的語(yǔ)音質(zhì)量客觀評(píng)價(jià)方法,能夠較好地識(shí)別通信時(shí)延、環(huán)境噪聲和錯(cuò)誤,但其是基于Bark譜的感知模型,運(yùn)算復(fù)雜度較高,不利于實(shí)時(shí)評(píng)價(jià)語(yǔ)音質(zhì)量。由于PESQ測(cè)試標(biāo)準(zhǔn)的局限性,ITU-T于2011年提出了 P.863P0LQA(PerceptualObjectiveListeningQualityAnalysis)作為下一代語(yǔ)音質(zhì)量測(cè)試技術(shù),是對(duì)P.862的改進(jìn)??捎糜诠潭娫捑W(wǎng)絡(luò)包括LTE在內(nèi)的移動(dòng)網(wǎng)絡(luò)及IP電話網(wǎng)絡(luò)。
[0006]人耳生理學(xué)研宄表明,人耳聽覺系統(tǒng)主要由外耳、中耳和內(nèi)耳構(gòu)成。語(yǔ)音信號(hào)在聽覺系統(tǒng)中,依次通過(guò)外耳、中耳和內(nèi)耳,在經(jīng)過(guò)耳蝸基底膜的頻帶分解作用后,沿聽覺通路進(jìn)入聽覺中樞系統(tǒng)。在整個(gè)聽覺系統(tǒng)中,耳蝸是非常重要的核心部件。當(dāng)外界的語(yǔ)音信號(hào)傳入到耳蝸基底膜之后,基底膜將產(chǎn)生以行波傳遞形式的振動(dòng),且基底膜振動(dòng)的聽覺響應(yīng)與受刺激的語(yǔ)音信號(hào)頻率有關(guān);基底膜的這種頻率分解作用是人耳聽覺系統(tǒng)進(jìn)行聲音信號(hào)處理的重要環(huán)節(jié)。在語(yǔ)音識(shí)別中,通常采用一組相互交疊的帶通濾波器組模擬實(shí)現(xiàn)耳蝸基底膜的頻率分解作用,本發(fā)明采用Ga_atone濾波器組實(shí)現(xiàn)耳蝸模型。
[0007]Gammatone濾波器具有尖銳的頻率選擇特性,濾波器邊沿的衰減很緩慢,有效地避免了相鄰頻帶間的能量泄露,這些幅頻響應(yīng)特性與人耳蝸基底膜的濾波特性是一致的,也補(bǔ)償了不同的人發(fā)同一音時(shí)共振峰的偏移對(duì)語(yǔ)音特征參數(shù)提取的影響;同時(shí)該濾波器只需要較少的參數(shù)就能很好地模擬聽覺實(shí)驗(yàn)中的生理數(shù)據(jù),便于進(jìn)行濾波器性能分析和聽覺模型的實(shí)現(xiàn)。
【發(fā)明內(nèi)容】
[0008]本申請(qǐng)的目的在于克服現(xiàn)有技術(shù)的不足,提供一種使用Gammatone濾波器組對(duì)耳蝸基底膜進(jìn)行仿真,通過(guò)引入ITU-T P.863P0LQA,提出一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法。
[0009]為了達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案:
[0010]一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法,其特征在于:所述方法通過(guò)在頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波,具體步驟為:
[0011]I)通過(guò)POLQA處理參考信號(hào)和劣化信號(hào),然后所述參考信號(hào)和劣化信號(hào)進(jìn)入核心豐旲型;
[0012]2)在所述核心模型中的頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波,再進(jìn)行聽覺變換,使提取的聽覺頻譜更接近人耳聽覺感受;
[0013]3)通過(guò)聽覺變換后,再進(jìn)行干擾分析,分析所述劣化信號(hào)相對(duì)所述參考信號(hào)的失真,得出客觀評(píng)價(jià)MOS分。
[0014]進(jìn)一步,所述Ga_atone濾波器是一個(gè)標(biāo)準(zhǔn)的耳蝸聽覺濾波器,濾波器的時(shí)域脈沖響應(yīng)為:
[0015]g(t) = Bntn_1e_2llBt cos (2 π f0t+ Φ)u (t)(I)
[0016]其中:t< O 時(shí) u (t) = 0,t > O 時(shí) u (t) = I ;參數(shù) B = Id1ERB (f0),ERB (f0)為Gammatone濾波器的等價(jià)矩形帶寬,所述等價(jià)矩形帶寬(ERB):對(duì)于同樣的白噪聲輸入,和指定的濾波器通過(guò)一樣能量的矩形濾波器的寬度,所述等價(jià)矩形帶寬同Ga_atone濾波器中心頻率fQ的關(guān)系是ERB (f 0) = 24.7+0.108f0o
[0017]進(jìn)一步,所述參數(shù)優(yōu)先Id1= 1.019,η = 4。
[0018]進(jìn)一步,所述將Gammatone濾波器的時(shí)域脈沖響應(yīng)進(jìn)行Fourier變換,可得到Gammatone濾波器的時(shí)域脈沖響應(yīng)的頻率響應(yīng)特性,所述時(shí)域波形是一個(gè)振動(dòng)頻率等于其中心頻率、振動(dòng)包絡(luò)為Ga_a函數(shù)曲線的波形;中心頻率越高,達(dá)到最大振幅所需要的時(shí)間τ也越短。
[0019]進(jìn)一步,所述最大幅度出現(xiàn)在中心頻率位置的帶通濾波器,不同中心頻率的Gammatone濾波器具有不同的帶寬,帶通濾波器中心頻率兩側(cè)都具有較陡的邊沿。
[0020]進(jìn)一步,所述POLQA處理的步驟如下:
[0021]I)將參考信號(hào)和劣化信號(hào)的時(shí)間對(duì)齊,以確保接下來(lái)在核心模型中的處理是基于兩個(gè)信號(hào)在相同的語(yǔ)音段的準(zhǔn)確比較;
[0022]2)在進(jìn)行時(shí)間對(duì)齊之后,如果檢測(cè)到兩個(gè)信號(hào)的采樣率不同,則減小較高采樣率的信號(hào)的采樣率,直到達(dá)到允許的采樣率差;
[0023]3)在信號(hào)對(duì)齊步驟后,所述參考信號(hào)和劣化信號(hào)進(jìn)入POLQA的核心模型,所述參考信號(hào)和劣化信號(hào)被轉(zhuǎn)換成接近人耳聽覺特性的語(yǔ)音內(nèi)部表現(xiàn)形式,在此基礎(chǔ)上分析所述參考信號(hào)和劣化信號(hào)的差異。
[0024]進(jìn)一步,所述POLQA的核心模型處理流程如下:
[0025]I)電平調(diào)整與IRS濾波,將所述參考信號(hào)和劣化信號(hào)調(diào)整到恒定、統(tǒng)一的電平上,使用IRS濾波器來(lái)對(duì)原始語(yǔ)音信號(hào)及輸出語(yǔ)音信號(hào)進(jìn)行濾波,所述濾波的頻響特性曲線在小于300Hz以及大于3.4kHz附近時(shí)有3dB的衰減,話音通帶為300Hz?3.4kHz ;
[0026]2)聽覺變換,所述聽覺變換是一個(gè)生理聲學(xué)模型,把信號(hào)變換到時(shí)頻可感知的響
[0027]度表達(dá),包括以下步驟:
[0028](a)巴克譜,對(duì)語(yǔ)音信號(hào)漢明加窗后,用FFT計(jì)算每幀的瞬時(shí)功率譜,再將功率譜變換為Bark尺度上的能量譜;
[0029](b)頻率均衡,計(jì)算有效話音幀的平均巴克譜值,通過(guò)參考話音和失真話音間的比率就給出傳輸函數(shù)估計(jì),參考話音使用傳輸函數(shù)估計(jì)值補(bǔ)償?shù)胶褪д嬖捯粝喈?dāng),補(bǔ)償最多不超過(guò)正負(fù)20dB ;
[0030](c)增益變化均衡,參考信號(hào)和失真信號(hào)的可聽功率之間的比值用于標(biāo)識(shí)增益變化,此比值通過(guò)一階低通濾波器濾波,失真信號(hào)乘以這個(gè)功率比,補(bǔ)償?shù)胶蛥⒖夹盘?hào)相當(dāng);
[0031](d)響度映射。通過(guò)一個(gè)與頻率相關(guān)的聽覺門限和指數(shù)變換,將巴克譜映射到響度級(jí)。在每一時(shí)頻單元給出感受到的響度;
[0032]3)擾動(dòng)處理和認(rèn)知模型,基于音調(diào)響度時(shí)間表達(dá)式,計(jì)算出兩個(gè)指示參考信號(hào)與劣化信號(hào)差別的參數(shù),一個(gè)是擾動(dòng)密度,由參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)的差別得到;另一個(gè)是增加的擾動(dòng)密度,當(dāng)劣化信號(hào)的功率密度大于參考信號(hào)的功率密度時(shí),參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)被優(yōu)化。
[0033]進(jìn)一步,所述參考信號(hào)和劣化信號(hào)在20— 16000Hz范圍內(nèi)的頻率可以劃分為24個(gè)臨界帶,一個(gè)臨界帶的單位用巴克(Bark)表示。
[0034]本發(fā)明具有以下優(yōu)點(diǎn):
[0035]I)通過(guò)使用Gammatone濾波器組對(duì)耳蝸基底膜進(jìn)行仿真,提出了一種更加符合人耳聽覺感知特性的語(yǔ)音質(zhì)量評(píng)價(jià)方法,與其它方法相比,本發(fā)明有效地提高了客觀評(píng)價(jià)結(jié)果與主觀評(píng)價(jià)結(jié)果的相關(guān)度;
[0036]2)利用Gammatone濾波器具有尖銳的頻率選擇特性,濾波器邊沿的衰減很緩慢,有效地避免了相鄰頻帶間的能量泄露,這些幅頻響應(yīng)特性與人耳蝸基底膜的濾波特性是一致的,也補(bǔ)償了不同的人發(fā)同一音時(shí)共振峰的偏移對(duì)語(yǔ)音特征參數(shù)提取的影響;同時(shí)該濾波器只需要較少的參數(shù)就能很好地模擬聽覺實(shí)驗(yàn)中的生理數(shù)據(jù),便于進(jìn)行濾波器性能分析和聽覺模型的實(shí)現(xiàn);
[0037]3)通過(guò)POLQA的核心模型中的頻譜映射為巴克譜模塊對(duì)語(yǔ)音進(jìn)行臨界頻帶分析處理,有效的將語(yǔ)音頻譜轉(zhuǎn)換成聽覺頻譜。
【專利附圖】
【附圖說(shuō)明】
[0038]圖1a不同中心頻率下的Gammatone濾波器的脈沖響應(yīng)時(shí)域波形
[0039]圖1b不同中心頻率下的Gammatone濾波器的幅頻響應(yīng)曲線
[0040]圖2為POLQA的示意圖。
[0041]圖3為POLQA的核心模型框圖。
[0042]圖4為IRS濾波器的頻響特性曲線。
[0043]圖5為基于Gammatone濾波器組的POLQA語(yǔ)音質(zhì)量評(píng)估方法原理框圖。
【具體實(shí)施方式】
[0044]1、Gammatone 濾波器
[0045]Gammatone濾波器是一個(gè)標(biāo)準(zhǔn)的耳蝸聽覺濾波器,濾波器的時(shí)域脈沖響應(yīng)為:
[0046]g(t) = Bntn_1e_2llBt cos (2 π f0t+ Φ) u (t)(I)
[0047]其中:t<0時(shí) u(t) = 03>0時(shí)11(0 =1;參數(shù) B = Id1ERB (f0),ERB (f0)為Ga_atone濾波器的等價(jià)矩形帶寬(等價(jià)矩形帶寬:對(duì)于同樣的白噪聲輸入,和指定的濾波器通過(guò)一樣能量的矩形濾波器的寬度,簡(jiǎn)稱ERB),它同Gammatone濾波器中心頻率fQ的關(guān)系是ERB (? = 24.7+0.108&,參數(shù)Id1= 1.019是為了讓函數(shù)更好地與生理數(shù)據(jù)相符而引入的參數(shù);n為濾波器的階數(shù),通過(guò)研宄表明η = 4的Gammatone濾波器就能很好地模擬基底膜的濾波特性;參數(shù)Φ為濾波器的初始相位。
[0048]將Gammatone濾波器的時(shí)域脈沖響應(yīng)進(jìn)行Fourier變換,即可得到Gammatone濾波器的時(shí)域脈沖響應(yīng)的頻率響應(yīng)特性。不同中心頻率f(!下的4階Ga_atone濾波器的脈沖響應(yīng)時(shí)域波形如圖1a所示,對(duì)應(yīng)的幅頻響應(yīng)曲線如圖1b所示。其中圖1a的虛線表示Gammatone濾波器的脈沖響應(yīng)時(shí)域波形的包絡(luò),τ的值表示t = O到振動(dòng)包絡(luò)達(dá)到最大值所需要的時(shí)間;圖1b的幅頻響應(yīng)曲線采用的是對(duì)數(shù)頻率橫坐標(biāo)。
[0049]觀察圖1a可發(fā)現(xiàn)Gammatone濾波器的脈沖響應(yīng)時(shí)域波形具有以下特征:時(shí)域波形是一個(gè)振動(dòng)頻率等于其中心頻率、振動(dòng)包絡(luò)為Gamma函數(shù)曲線的波形;中心頻率越高,達(dá)到最大振幅(即最大包絡(luò))所需要的時(shí)間τ也越短。這些時(shí)域波形特征與聽神經(jīng)的生理學(xué)沖激響應(yīng)數(shù)據(jù)的特性是非常一致的。觀察圖1b可發(fā)現(xiàn)幅頻響應(yīng)曲線具有以下特征:最大幅度出現(xiàn)在中心頻率位置的帶通濾波器,不同中心頻率的Ga_atone濾波器具有不同的帶寬;帶通濾波器中心頻率兩側(cè)都具有較陡的邊沿,表明Ga_atone濾波器具有尖銳的頻率選擇特性。這些幅頻響應(yīng)特征與基底膜的濾波特性是一致的。
[0050]2、POLQA
[0051]POLQA(Perceptual Objective Listening Quality Analysis)是 ITU-T 于 2011年提出的P.863標(biāo)準(zhǔn),在P.862的基礎(chǔ)上,POLQA計(jì)算模型完成了時(shí)域同步、幅值同步、頻率規(guī)整、響度壓縮等步驟,并考慮了人耳響度感受對(duì)評(píng)估結(jié)果的影響。通過(guò)頻率指標(biāo)、噪聲指標(biāo)、室內(nèi)混響指標(biāo),以及時(shí)間、響度和聲調(diào)在聽覺中的差別指標(biāo)綜合評(píng)估得出MOS分值,其示意圖如圖2所示。
[0052]POLQA處理的第一步是參考信號(hào)和劣化信號(hào)的時(shí)間對(duì)齊,以確保接下來(lái)在核心模型中的處理是基于兩個(gè)信號(hào)在相同的語(yǔ)音段的準(zhǔn)確比較。
[0053]在進(jìn)行時(shí)間對(duì)齊之后,如果檢測(cè)到兩個(gè)信號(hào)的采樣率不同,則減小較高采樣率的信號(hào)的采樣率,直到達(dá)到允許的采樣率差。
[0054]在信號(hào)對(duì)齊步驟后,參考信號(hào)和劣化信號(hào)進(jìn)入POLQA的核心模型。這兩個(gè)信號(hào)被轉(zhuǎn)換成接近人耳聽覺特性的語(yǔ)音內(nèi)部表現(xiàn)形式,在此基礎(chǔ)上分析兩個(gè)信號(hào)的差異。POLQA的核心模型框圖如圖3所示。
[0055](I)電平調(diào)整與IRS濾波
[0056]不同語(yǔ)音系統(tǒng)的增益差別是很大的,當(dāng)原始語(yǔ)音參考信號(hào)通過(guò)通信系統(tǒng)后,信號(hào)電平發(fā)生了變化。為了便于語(yǔ)音信號(hào)的比較,要將它們調(diào)整到恒定、統(tǒng)一的電平上。感知模型必須考慮人聽到的實(shí)際聲音,所以使用IRS濾波器,起到一個(gè)模擬電話手柄的作用。
[0057]IRS濾波器的頻響特性曲線如圖4所示。使用IRS濾波器來(lái)對(duì)原始語(yǔ)音信號(hào)及輸出語(yǔ)音信號(hào)進(jìn)行濾波,較好地模擬了通用電話手柄的聽筒的頻響特性。它的頻響特性曲線在小于300Hz以及大于3.4kHz附近時(shí)有3dB的衰減,話音通帶為300Hz?3.4kHz。
[0058]⑵聽覺變換
[0059]聽覺變換是一個(gè)生理聲學(xué)模型,它把信號(hào)變換到時(shí)頻可感知的響度表達(dá),包括以下步驟:
[0060](a)巴克譜。對(duì)語(yǔ)音信號(hào)漢明加窗后,用FFT計(jì)算每幀的瞬時(shí)功率譜,再將功率譜變換為Bark尺度上的能量譜。
[0061](b)頻率均衡。計(jì)算有效話音幀的平均巴克譜值。通過(guò)參考話音和失真話音間的比率就給出傳輸函數(shù)估計(jì)。參考話音使用傳輸函數(shù)估計(jì)值補(bǔ)償?shù)胶褪д嬖捯粝喈?dāng),補(bǔ)償最多不超過(guò)正負(fù)20dB。
[0062](c)增益變化均衡。參考信號(hào)和失真信號(hào)的可聽功率之間的比值用于標(biāo)識(shí)增益變化。此比值通過(guò)一階低通濾波器濾波,失真信號(hào)乘以這個(gè)功率比,補(bǔ)償?shù)胶蛥⒖夹盘?hào)相當(dāng)。
[0063](d)響度映射。通過(guò)一個(gè)與頻率相關(guān)的聽覺門限和指數(shù)變換,將巴克譜映射到響度級(jí)。在每一時(shí)頻單元給出感受到的響度。
[0064](3)擾動(dòng)處理和認(rèn)知模型
[0065]基于音調(diào)響度時(shí)間表達(dá)式,可以計(jì)算出兩個(gè)指示參考信號(hào)與劣化信號(hào)差別的參數(shù),一個(gè)是擾動(dòng)密度,由參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)的差別得到;另一個(gè)是增加的擾動(dòng)密度,當(dāng)劣化信號(hào)的功率密度大于參考信號(hào)的功率密度時(shí),參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)被優(yōu)化。
[0066]認(rèn)知模型中會(huì)計(jì)算六個(gè)質(zhì)量指標(biāo),分別為:FREQ、NOISE、REVERB和在音調(diào)響度時(shí)間域描述內(nèi)部差異的三個(gè)指標(biāo)。這六個(gè)指標(biāo)聯(lián)合得到客觀質(zhì)量MOS分。
[0067]POLQA的核心模型中的頻譜映射為巴克譜模塊對(duì)語(yǔ)音進(jìn)行臨界頻帶分析處理,是將語(yǔ)音頻譜轉(zhuǎn)換成聽覺頻譜的重要環(huán)節(jié)之一。
[0068]當(dāng)兩個(gè)響度不同的聲音作用于人耳時(shí),由于頻率不同人耳的感知會(huì)產(chǎn)生一種現(xiàn)象,即響度較高的頻率成分的存在會(huì)影響對(duì)響度較低的頻率成分的感受,使其變得不易察覺,這種現(xiàn)象稱為掩蔽效應(yīng)。為了描述這種掩蔽效應(yīng)引入了臨界頻帶的概念。臨界頻帶是一個(gè)描述聽覺感受特性的重要概念。
[0069]耳蝸基底膜的一個(gè)重要功能就是頻率分解,不同的頻率在沿基底膜的不同位置集中響應(yīng),臨界頻帶也可定義為:一個(gè)給定的正弦純音在基底膜上能夠產(chǎn)生諧振反應(yīng)的那一部分。在20— 16000Hz范圍內(nèi)的頻率可以劃分為24個(gè)臨界帶,一個(gè)臨界帶的單位用巴克(Bark)表示。
[0070]3、基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法
[0071]人耳聽覺系統(tǒng)對(duì)聲音信號(hào)的感知具有掩蔽效應(yīng),為使評(píng)價(jià)結(jié)果更接近人耳主觀感受,在頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波,則基于Gammatone濾波器組的POLQA語(yǔ)音質(zhì)量評(píng)估方法原理框圖如圖5所示。具體步驟為:
[0072]I)參考信號(hào)和劣化信號(hào)進(jìn)行時(shí)間對(duì)齊,然后進(jìn)入核心模型進(jìn)行聽覺變換。
[0073]2)在核心模型中的頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波,使提取的聽覺頻譜更接近人耳聽覺感受。
[0074]3)聽覺變換后,進(jìn)行干擾分析,分析劣化信號(hào)相對(duì)參考信號(hào)的失真,得出客觀評(píng)價(jià)MOS 分。
[0075]其中,Gammatone濾波器是一個(gè)標(biāo)準(zhǔn)的耳蝸聽覺濾波器,濾波器的時(shí)域脈沖響應(yīng)為:
[0076]g(t) = Bntn_1e_2llBt cos (2 π f0t+ Φ) u (t)(I)
[0077]其中:t<0時(shí) u(t) = 03>0時(shí)11(0 =1;參數(shù) B = Id1ERB (f0),ERB (f0)為Gammatone濾波器的等價(jià)矩形帶寬,所述等價(jià)矩形帶寬(ERB):對(duì)于同樣的白噪聲輸入,和指定的濾波器通過(guò)一樣能量的矩形濾波器的寬度,所述等價(jià)矩形帶寬同Ga_atone濾波器中心頻率fQ的關(guān)系是ERB(f Q) = 24.7+0.108f0o所述參數(shù)優(yōu)先b1= 1.019,η = 4。
[0078]將Gammatone濾波器的時(shí)域脈沖響應(yīng)進(jìn)行Fourier變換,可得到Gammatone濾波器的時(shí)域脈沖響應(yīng)的頻率響應(yīng)特性,所述時(shí)域波形是一個(gè)振動(dòng)頻率等于其中心頻率、振動(dòng)包絡(luò)為Ga_a函數(shù)曲線的波形;中心頻率越高,達(dá)到最大振幅所需要的時(shí)間τ也越短。
[0079]最大幅度出現(xiàn)在中心頻率位置的帶通濾波器,不同中心頻率的Gammatone濾波器具有不同的帶寬,帶通濾波器中心頻率兩側(cè)都具有較陡的邊沿。
[0080]POLQA處理的步驟如下:
[0081]I)將參考信號(hào)和劣化信號(hào)的時(shí)間對(duì)齊,以確保接下來(lái)在核心模型中的處理是基于兩個(gè)信號(hào)在相同的語(yǔ)音段的準(zhǔn)確比較;
[0082]2)在進(jìn)行時(shí)間對(duì)齊之后,如果檢測(cè)到兩個(gè)信號(hào)的采樣率不同,則減小較高采樣率的信號(hào)的采樣率,直到達(dá)到允許的采樣率差;
[0083]3)在信號(hào)對(duì)齊步驟后,所述參考信號(hào)和劣化信號(hào)進(jìn)入POLQA的核心模型,所述參考信號(hào)和劣化信號(hào)被轉(zhuǎn)換成接近人耳聽覺特性的語(yǔ)音內(nèi)部表現(xiàn)形式,在此基礎(chǔ)上分析所述參考信號(hào)和劣化信號(hào)的差異。
[0084]POLQA的核心模型處理流程如下:
[0085]I)電平調(diào)整與IRS濾波,將所述參考信號(hào)和劣化信號(hào)調(diào)整到恒定、統(tǒng)一的電平上,使用IRS濾波器來(lái)對(duì)原始語(yǔ)音信號(hào)及輸出語(yǔ)音信號(hào)進(jìn)行濾波,所述濾波的頻響特性曲線在小于300Hz以及大于3.4kHz附近時(shí)有3dB的衰減,話音通帶為300Hz?3.4kHz ;
[0086]2)聽覺變換,所述聽覺變換是一個(gè)生理聲學(xué)模型,把信號(hào)變換到時(shí)頻可感知的響度表達(dá),包括以下步驟:
[0087](a)巴克譜,對(duì)語(yǔ)音信號(hào)漢明加窗后,用FFT計(jì)算每幀的瞬時(shí)功率譜,再將功率譜變換為Bark尺度上的能量譜;
[0088](b)頻率均衡,計(jì)算有效話音幀的平均巴克譜值,通過(guò)參考話音和失真話音間的比率就給出傳輸函數(shù)估計(jì),參考話音使用傳輸函數(shù)估計(jì)值補(bǔ)償?shù)胶褪д嬖捯粝喈?dāng),補(bǔ)償最多不超過(guò)正負(fù)20dB ;
[0089](c)增益變化均衡,參考信號(hào)和失真信號(hào)的可聽功率之間的比值用于標(biāo)識(shí)增益變化,此比值通過(guò)一階低通濾波器濾波,失真信號(hào)乘以這個(gè)功率比,補(bǔ)償?shù)胶蛥⒖夹盘?hào)相當(dāng);
[0090](d)響度映射。通過(guò)一個(gè)與頻率相關(guān)的聽覺門限和指數(shù)變換,將巴克譜映射到響度級(jí)。在每一時(shí)頻單元給出感受到的響度;
[0091]3)擾動(dòng)處理和認(rèn)知模型,基于音調(diào)響度時(shí)間表達(dá)式,計(jì)算出兩個(gè)指示參考信號(hào)與劣化信號(hào)差別的參數(shù),一個(gè)是擾動(dòng)密度,由參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)的差別得到;另一個(gè)是增加的擾動(dòng)密度,當(dāng)劣化信號(hào)的功率密度大于參考信號(hào)的功率密度時(shí),參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)被優(yōu)化。
[0092]上述參考信號(hào)和劣化信號(hào)在20— 16000Hz范圍內(nèi)的頻率可以劃分為24個(gè)臨界帶,一個(gè)臨界帶的單位用巴克(Bark)表示。
[0093]雖然上面的舉例了一些特定實(shí)施例來(lái)說(shuō)明和描述本發(fā)明,但并不意味著本發(fā)明僅局限于其中的各種細(xì)節(jié)。相反地,在等價(jià)于權(quán)利要求書的范疇和范圍內(nèi)可以不偏離本發(fā)明精神地在各種細(xì)節(jié)上做出各種修改。
【權(quán)利要求】
1.一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法,其特征在于:所述方法通過(guò)在頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波,具體步驟為: 1)通過(guò)POLQA處理參考信號(hào)和劣化信號(hào),然后所述參考信號(hào)和劣化信號(hào)進(jìn)入核心模型; 2)在所述核心模型中的頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波,再進(jìn)行聽覺變換,使提取的聽覺頻譜更接近人耳聽覺感受; 3)通過(guò)聽覺變換后,再進(jìn)行干擾分析,分析所述劣化信號(hào)相對(duì)所述參考信號(hào)的失真,得出客觀評(píng)價(jià)MOS分。
2.根據(jù)權(quán)利要求1所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法,其特征在于:所述Ga_atone濾波器是一個(gè)標(biāo)準(zhǔn)的耳蝸聽覺濾波器,濾波器的時(shí)域脈沖響應(yīng)為:
g(t) = Bntn-1e-2 "Bt cos (2 τι f0t+ Φ) u (t)(I)
其中:t < 0 時(shí) u (t) = 0,t > 0 時(shí) u (t) = I ;參數(shù) B = Id1ERB (f0),ERB (f0)為 Gammatone濾波器的等價(jià)矩形帶寬,所述等價(jià)矩形帶寬(ERB):對(duì)于同樣的白噪聲輸入,和指定的濾波器通過(guò)一樣能量的矩形濾波器的寬度,所述等價(jià)矩形帶寬同Ga_atone濾波器中心頻率fQ的關(guān)系是 ERB (f。)= 24.7+0.108f0o
3.根據(jù)權(quán)利要求2所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法,其特征在于:所述參數(shù)優(yōu)先h= 1.019,η = 4。
4.根據(jù)權(quán)利要求3所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法,其特征在于:所述將Gammatone濾波器的時(shí)域脈沖響應(yīng)進(jìn)行Fourier變換,可得到Gammatone濾波器的時(shí)域脈沖響應(yīng)的頻率響應(yīng)特性,所述時(shí)域波形是一個(gè)振動(dòng)頻率等于其中心頻率、振動(dòng)包絡(luò)為Ga_a函數(shù)曲線的波形;中心頻率越高,達(dá)到最大振幅所需要的時(shí)間τ也越短。
5.根據(jù)權(quán)利要求4所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法,其特征在于:所述最大幅度出現(xiàn)在中心頻率位置的帶通濾波器,不同中心頻率的Ga_atone濾波器具有不同的帶寬,帶通濾波器中心頻率兩側(cè)都具有較陡的邊沿。
6.根據(jù)權(quán)利要求1所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法,其特征在于:所述POLQA處理的步驟如下: 1)將參考信號(hào)和劣化信號(hào)的時(shí)間對(duì)齊,以確保接下來(lái)在核心模型中的處理是基于兩個(gè)信號(hào)在相同的語(yǔ)音段的準(zhǔn)確比較; 2)在進(jìn)行時(shí)間對(duì)齊之后,如果檢測(cè)到兩個(gè)信號(hào)的采樣率不同,則減小較高采樣率的信號(hào)的采樣率,直到達(dá)到允許的采樣率差; 3)在信號(hào)對(duì)齊步驟后,所述參考信號(hào)和劣化信號(hào)進(jìn)入POLQA的核心模型,所述參考信號(hào)和劣化信號(hào)被轉(zhuǎn)換成接近人耳聽覺特性的語(yǔ)音內(nèi)部表現(xiàn)形式,在此基礎(chǔ)上分析所述參考信號(hào)和劣化信號(hào)的差異。
7.根據(jù)權(quán)利要求6所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法,其特征在于:所述POLQA的核心模型處理流程如下: 1)電平調(diào)整與IRS濾波,將所述參考信號(hào)和劣化信號(hào)調(diào)整到恒定、統(tǒng)一的電平上,使用IRS濾波器來(lái)對(duì)原始語(yǔ)音信號(hào)及輸出語(yǔ)音信號(hào)進(jìn)行濾波,所述濾波的頻響特性曲線在小于300Hz以及大于3.4kHz附近時(shí)有3dB的衰減,話音通帶為300Hz?3.4kHz ; 2)聽覺變換,所述聽覺變換是一個(gè)生理聲學(xué)模型,把信號(hào)變換到時(shí)頻可感知的響度表達(dá),包括以下步驟: (a)巴克譜,對(duì)語(yǔ)音信號(hào)漢明加窗后,用FFT計(jì)算每幀的瞬時(shí)功率譜,再將功率譜變換為Bark尺度上的能量譜; (b)頻率均衡,計(jì)算有效話音幀的平均巴克譜值,通過(guò)參考話音和失真話音間的比率就給出傳輸函數(shù)估計(jì),參考話音使用傳輸函數(shù)估計(jì)值補(bǔ)償?shù)胶褪д嬖捯粝喈?dāng),補(bǔ)償最多不超過(guò)正負(fù)20dB ; (c)增益變化均衡,參考信號(hào)和失真信號(hào)的可聽功率之間的比值用于標(biāo)識(shí)增益變化,此比值通過(guò)一階低通濾波器濾波,失真信號(hào)乘以這個(gè)功率比,補(bǔ)償?shù)胶蛥⒖夹盘?hào)相當(dāng); (d)響度映射。通過(guò)一個(gè)與頻率相關(guān)的聽覺門限和指數(shù)變換,將巴克譜映射到響度級(jí)。在每一時(shí)頻單元給出感受到的響度; 3)擾動(dòng)處理和認(rèn)知模型,基于音調(diào)響度時(shí)間表達(dá)式,計(jì)算出兩個(gè)指示參考信號(hào)與劣化信號(hào)差別的參數(shù),一個(gè)是擾動(dòng)密度,由參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)的差別得到;另一個(gè)是增加的擾動(dòng)密度,當(dāng)劣化信號(hào)的功率密度大于參考信號(hào)的功率密度時(shí),參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)被優(yōu)化。
8.根據(jù)權(quán)利要求7所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法,其特征在于:所述參考信號(hào)和劣化信號(hào)在20— 16000Hz范圍內(nèi)的頻率可以劃分為24個(gè)臨界帶,一個(gè)臨界帶的單位用巴克(Bark)表示。
【文檔編號(hào)】G10L25/60GK104485114SQ201410696773
【公開日】2015年4月1日 申請(qǐng)日期:2014年11月27日 優(yōu)先權(quán)日:2014年11月27日
【發(fā)明者】李慶生, 劉良江, 卞昕, 柏文琦, 周鑫, 彭正梁, 徐昱 申請(qǐng)人:湖南省計(jì)量檢測(cè)研究院, 中國(guó)計(jì)量科學(xué)研究院