一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法

文檔序號(hào)：2828057閱讀：779來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法
【專利摘要】一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法，其特征在于：所述方法通過(guò)在頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波，具體步驟為：1)通過(guò)POLQA處理參考信號(hào)和劣化信號(hào)，然后所述參考信號(hào)和劣化信號(hào)進(jìn)入核心模型；2)在所述核心模型中的頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波，再進(jìn)行聽覺變換，使提取的聽覺頻譜更接近人耳聽覺感受；3)通過(guò)聽覺變換后，再進(jìn)行干擾分析，分析所述劣化信號(hào)相對(duì)所述參考信號(hào)的失真，得出客觀評(píng)價(jià)MOS分。與其它方法相比，本發(fā)明有效地提高了客觀評(píng)價(jià)結(jié)果與主觀評(píng)價(jià)結(jié)果的相關(guān)度。
【專利說(shuō)明】一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音信號(hào)處理【技術(shù)領(lǐng)域】，具體為一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法。

【背景技術(shù)】
[0002]語(yǔ)音質(zhì)量評(píng)價(jià)從評(píng)價(jià)主體上講可分為兩大類:主觀評(píng)價(jià)和客觀評(píng)價(jià)。
[0003]主觀評(píng)價(jià)是以人為主體來(lái)評(píng)價(jià)語(yǔ)音的質(zhì)量，該方式雖較為繁雜，但由于人是語(yǔ)音的最終接受者，因此這種評(píng)價(jià)是語(yǔ)音質(zhì)量的真實(shí)反映。1996年ITU組織提出的平均意見得分(MOS)是一種廣泛使用的主觀評(píng)價(jià)方法，用測(cè)試者的平均意見分來(lái)直觀地反映人對(duì)語(yǔ)音質(zhì)量的感覺。主觀評(píng)價(jià)的優(yōu)點(diǎn)是符合人對(duì)語(yǔ)音質(zhì)量的感覺，缺點(diǎn)是費(fèi)時(shí)費(fèi)力費(fèi)錢，且靈活性不夠，重復(fù)性和穩(wěn)定性較差，受人的主觀影響較大等。
[0004]為了克服主觀評(píng)價(jià)的缺點(diǎn)，人們開始研宄語(yǔ)音質(zhì)量客觀評(píng)價(jià)方法。研宄語(yǔ)音質(zhì)量客觀評(píng)價(jià)的目的不是要用客觀評(píng)價(jià)來(lái)完全替代主觀評(píng)價(jià)，而是使客觀評(píng)價(jià)成為一種既方便快捷又能夠準(zhǔn)確預(yù)測(cè)出主觀評(píng)價(jià)值的語(yǔ)音質(zhì)量評(píng)價(jià)手段。語(yǔ)音質(zhì)量客觀評(píng)價(jià)從評(píng)價(jià)方法上可分為侵入式(intrusive)和非侵入式(non-1ntrusive)。侵入式的評(píng)價(jià)通常也被稱為雙端或基于輸入-輸出的評(píng)價(jià)，它是以語(yǔ)音系統(tǒng)的輸入信號(hào)和輸出信號(hào)之間的誤差大小來(lái)判斷語(yǔ)音質(zhì)量的好壞，通過(guò)提取兩端語(yǔ)音信號(hào)的特征參量來(lái)建立評(píng)價(jià)模型。非侵入式的評(píng)價(jià)也被稱為單端或基于輸出的評(píng)價(jià)，它僅根據(jù)語(yǔ)音系統(tǒng)的輸出信號(hào)來(lái)進(jìn)行質(zhì)量評(píng)價(jià)。
[0005]ITU-T在2001年發(fā)布的P.862感知評(píng)估通話質(zhì)量測(cè)量PESQ (PerceptualEvaluationofSpeechQualityAnalysis)是當(dāng)前性能很高的語(yǔ)音質(zhì)量客觀評(píng)價(jià)方法，能夠較好地識(shí)別通信時(shí)延、環(huán)境噪聲和錯(cuò)誤，但其是基于Bark譜的感知模型，運(yùn)算復(fù)雜度較高，不利于實(shí)時(shí)評(píng)價(jià)語(yǔ)音質(zhì)量。由于PESQ測(cè)試標(biāo)準(zhǔn)的局限性，ITU-T于2011年提出了 P.863P0LQA(PerceptualObjectiveListeningQualityAnalysis)作為下一代語(yǔ)音質(zhì)量測(cè)試技術(shù)，是對(duì)P.862的改進(jìn)?？捎糜诠潭娫捑W(wǎng)絡(luò)包括LTE在內(nèi)的移動(dòng)網(wǎng)絡(luò)及IP電話網(wǎng)絡(luò)。
[0006]人耳生理學(xué)研宄表明，人耳聽覺系統(tǒng)主要由外耳、中耳和內(nèi)耳構(gòu)成。語(yǔ)音信號(hào)在聽覺系統(tǒng)中，依次通過(guò)外耳、中耳和內(nèi)耳，在經(jīng)過(guò)耳蝸基底膜的頻帶分解作用后，沿聽覺通路進(jìn)入聽覺中樞系統(tǒng)。在整個(gè)聽覺系統(tǒng)中，耳蝸是非常重要的核心部件。當(dāng)外界的語(yǔ)音信號(hào)傳入到耳蝸基底膜之后，基底膜將產(chǎn)生以行波傳遞形式的振動(dòng)，且基底膜振動(dòng)的聽覺響應(yīng)與受刺激的語(yǔ)音信號(hào)頻率有關(guān)；基底膜的這種頻率分解作用是人耳聽覺系統(tǒng)進(jìn)行聲音信號(hào)處理的重要環(huán)節(jié)。在語(yǔ)音識(shí)別中，通常采用一組相互交疊的帶通濾波器組模擬實(shí)現(xiàn)耳蝸基底膜的頻率分解作用，本發(fā)明采用Ga_atone濾波器組實(shí)現(xiàn)耳蝸模型。
[0007]Gammatone濾波器具有尖銳的頻率選擇特性，濾波器邊沿的衰減很緩慢，有效地避免了相鄰頻帶間的能量泄露，這些幅頻響應(yīng)特性與人耳蝸基底膜的濾波特性是一致的，也補(bǔ)償了不同的人發(fā)同一音時(shí)共振峰的偏移對(duì)語(yǔ)音特征參數(shù)提取的影響；同時(shí)該濾波器只需要較少的參數(shù)就能很好地模擬聽覺實(shí)驗(yàn)中的生理數(shù)據(jù)，便于進(jìn)行濾波器性能分析和聽覺模型的實(shí)現(xiàn)。

【發(fā)明內(nèi)容】

[0008]本申請(qǐng)的目的在于克服現(xiàn)有技術(shù)的不足，提供一種使用Gammatone濾波器組對(duì)耳蝸基底膜進(jìn)行仿真，通過(guò)引入ITU-T P.863P0LQA，提出一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法。
[0009]為了達(dá)到上述目的，本發(fā)明采用以下技術(shù)方案:
[0010]一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法，其特征在于:所述方法通過(guò)在頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波，具體步驟為:
[0011]I)通過(guò)POLQA處理參考信號(hào)和劣化信號(hào)，然后所述參考信號(hào)和劣化信號(hào)進(jìn)入核心豐旲型；
[0012]2)在所述核心模型中的頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波，再進(jìn)行聽覺變換，使提取的聽覺頻譜更接近人耳聽覺感受；
[0013]3)通過(guò)聽覺變換后，再進(jìn)行干擾分析，分析所述劣化信號(hào)相對(duì)所述參考信號(hào)的失真，得出客觀評(píng)價(jià)MOS分。
[0014]進(jìn)一步，所述Ga_atone濾波器是一個(gè)標(biāo)準(zhǔn)的耳蝸聽覺濾波器，濾波器的時(shí)域脈沖響應(yīng)為:
[0015]g(t) = Bntn_1e_2llBt cos (2 π f0t+ Φ)u (t)(I)
[0016]其中:t< O 時(shí) u (t) = 0，t > O 時(shí) u (t) = I ;參數(shù) B = Id1ERB (f0)，ERB (f0)為Gammatone濾波器的等價(jià)矩形帶寬，所述等價(jià)矩形帶寬(ERB):對(duì)于同樣的白噪聲輸入，和指定的濾波器通過(guò)一樣能量的矩形濾波器的寬度，所述等價(jià)矩形帶寬同Ga_atone濾波器中心頻率fQ的關(guān)系是ERB (f 0) = 24.7+0.108f0o
[0017]進(jìn)一步，所述參數(shù)優(yōu)先Id1= 1.019，η = 4。
[0018]進(jìn)一步，所述將Gammatone濾波器的時(shí)域脈沖響應(yīng)進(jìn)行Fourier變換，可得到Gammatone濾波器的時(shí)域脈沖響應(yīng)的頻率響應(yīng)特性，所述時(shí)域波形是一個(gè)振動(dòng)頻率等于其中心頻率、振動(dòng)包絡(luò)為Ga_a函數(shù)曲線的波形；中心頻率越高，達(dá)到最大振幅所需要的時(shí)間τ也越短。
[0019]進(jìn)一步，所述最大幅度出現(xiàn)在中心頻率位置的帶通濾波器，不同中心頻率的Gammatone濾波器具有不同的帶寬，帶通濾波器中心頻率兩側(cè)都具有較陡的邊沿。
[0020]進(jìn)一步，所述POLQA處理的步驟如下:
[0021]I)將參考信號(hào)和劣化信號(hào)的時(shí)間對(duì)齊，以確保接下來(lái)在核心模型中的處理是基于兩個(gè)信號(hào)在相同的語(yǔ)音段的準(zhǔn)確比較；
[0022]2)在進(jìn)行時(shí)間對(duì)齊之后，如果檢測(cè)到兩個(gè)信號(hào)的采樣率不同，則減小較高采樣率的信號(hào)的采樣率，直到達(dá)到允許的采樣率差；
[0023]3)在信號(hào)對(duì)齊步驟后，所述參考信號(hào)和劣化信號(hào)進(jìn)入POLQA的核心模型，所述參考信號(hào)和劣化信號(hào)被轉(zhuǎn)換成接近人耳聽覺特性的語(yǔ)音內(nèi)部表現(xiàn)形式，在此基礎(chǔ)上分析所述參考信號(hào)和劣化信號(hào)的差異。
[0024]進(jìn)一步，所述POLQA的核心模型處理流程如下:
[0025]I)電平調(diào)整與IRS濾波，將所述參考信號(hào)和劣化信號(hào)調(diào)整到恒定、統(tǒng)一的電平上，使用IRS濾波器來(lái)對(duì)原始語(yǔ)音信號(hào)及輸出語(yǔ)音信號(hào)進(jìn)行濾波，所述濾波的頻響特性曲線在小于300Hz以及大于3.4kHz附近時(shí)有3dB的衰減，話音通帶為300Hz?3.4kHz ；
[0026]2)聽覺變換，所述聽覺變換是一個(gè)生理聲學(xué)模型，把信號(hào)變換到時(shí)頻可感知的響
[0027]度表達(dá)，包括以下步驟:
[0028](a)巴克譜，對(duì)語(yǔ)音信號(hào)漢明加窗后，用FFT計(jì)算每幀的瞬時(shí)功率譜，再將功率譜變換為Bark尺度上的能量譜；
[0029](b)頻率均衡，計(jì)算有效話音幀的平均巴克譜值，通過(guò)參考話音和失真話音間的比率就給出傳輸函數(shù)估計(jì)，參考話音使用傳輸函數(shù)估計(jì)值補(bǔ)償?shù)胶褪д嬖捯粝喈?dāng)，補(bǔ)償最多不超過(guò)正負(fù)20dB ；
[0030](c)增益變化均衡，參考信號(hào)和失真信號(hào)的可聽功率之間的比值用于標(biāo)識(shí)增益變化，此比值通過(guò)一階低通濾波器濾波，失真信號(hào)乘以這個(gè)功率比，補(bǔ)償?shù)胶蛥⒖夹盘?hào)相當(dāng)；
[0031](d)響度映射。通過(guò)一個(gè)與頻率相關(guān)的聽覺門限和指數(shù)變換，將巴克譜映射到響度級(jí)。在每一時(shí)頻單元給出感受到的響度；
[0032]3)擾動(dòng)處理和認(rèn)知模型，基于音調(diào)響度時(shí)間表達(dá)式，計(jì)算出兩個(gè)指示參考信號(hào)與劣化信號(hào)差別的參數(shù)，一個(gè)是擾動(dòng)密度，由參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)的差別得到；另一個(gè)是增加的擾動(dòng)密度，當(dāng)劣化信號(hào)的功率密度大于參考信號(hào)的功率密度時(shí)，參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)被優(yōu)化。
[0033]進(jìn)一步，所述參考信號(hào)和劣化信號(hào)在20— 16000Hz范圍內(nèi)的頻率可以劃分為24個(gè)臨界帶，一個(gè)臨界帶的單位用巴克(Bark)表示。
[0034]本發(fā)明具有以下優(yōu)點(diǎn):
[0035]I)通過(guò)使用Gammatone濾波器組對(duì)耳蝸基底膜進(jìn)行仿真，提出了一種更加符合人耳聽覺感知特性的語(yǔ)音質(zhì)量評(píng)價(jià)方法，與其它方法相比，本發(fā)明有效地提高了客觀評(píng)價(jià)結(jié)果與主觀評(píng)價(jià)結(jié)果的相關(guān)度；
[0036]2)利用Gammatone濾波器具有尖銳的頻率選擇特性，濾波器邊沿的衰減很緩慢，有效地避免了相鄰頻帶間的能量泄露，這些幅頻響應(yīng)特性與人耳蝸基底膜的濾波特性是一致的，也補(bǔ)償了不同的人發(fā)同一音時(shí)共振峰的偏移對(duì)語(yǔ)音特征參數(shù)提取的影響；同時(shí)該濾波器只需要較少的參數(shù)就能很好地模擬聽覺實(shí)驗(yàn)中的生理數(shù)據(jù)，便于進(jìn)行濾波器性能分析和聽覺模型的實(shí)現(xiàn)；
[0037]3)通過(guò)POLQA的核心模型中的頻譜映射為巴克譜模塊對(duì)語(yǔ)音進(jìn)行臨界頻帶分析處理，有效的將語(yǔ)音頻譜轉(zhuǎn)換成聽覺頻譜。

【專利附圖】

【附圖說(shuō)明】
[0038]圖1a不同中心頻率下的Gammatone濾波器的脈沖響應(yīng)時(shí)域波形
[0039]圖1b不同中心頻率下的Gammatone濾波器的幅頻響應(yīng)曲線
[0040]圖2為POLQA的示意圖。
[0041]圖3為POLQA的核心模型框圖。
[0042]圖4為IRS濾波器的頻響特性曲線。
[0043]圖5為基于Gammatone濾波器組的POLQA語(yǔ)音質(zhì)量評(píng)估方法原理框圖。

【具體實(shí)施方式】
[0044]1、Gammatone 濾波器
[0045]Gammatone濾波器是一個(gè)標(biāo)準(zhǔn)的耳蝸聽覺濾波器，濾波器的時(shí)域脈沖響應(yīng)為:
[0046]g(t) = Bntn_1e_2llBt cos (2 π f0t+ Φ) u (t)(I)
[0047]其中:t<0時(shí) u(t) = 03>0時(shí)11(0 =1;參數(shù) B = Id1ERB (f0)，ERB (f0)為Ga_atone濾波器的等價(jià)矩形帶寬(等價(jià)矩形帶寬:對(duì)于同樣的白噪聲輸入，和指定的濾波器通過(guò)一樣能量的矩形濾波器的寬度，簡(jiǎn)稱ERB)，它同Gammatone濾波器中心頻率fQ的關(guān)系是ERB (? = 24.7+0.108&，參數(shù)Id1= 1.019是為了讓函數(shù)更好地與生理數(shù)據(jù)相符而引入的參數(shù)；n為濾波器的階數(shù)，通過(guò)研宄表明η = 4的Gammatone濾波器就能很好地模擬基底膜的濾波特性；參數(shù)Φ為濾波器的初始相位。
[0048]將Gammatone濾波器的時(shí)域脈沖響應(yīng)進(jìn)行Fourier變換，即可得到Gammatone濾波器的時(shí)域脈沖響應(yīng)的頻率響應(yīng)特性。不同中心頻率f(!下的4階Ga_atone濾波器的脈沖響應(yīng)時(shí)域波形如圖1a所示，對(duì)應(yīng)的幅頻響應(yīng)曲線如圖1b所示。其中圖1a的虛線表示Gammatone濾波器的脈沖響應(yīng)時(shí)域波形的包絡(luò)，τ的值表示t = O到振動(dòng)包絡(luò)達(dá)到最大值所需要的時(shí)間；圖1b的幅頻響應(yīng)曲線采用的是對(duì)數(shù)頻率橫坐標(biāo)。
[0049]觀察圖1a可發(fā)現(xiàn)Gammatone濾波器的脈沖響應(yīng)時(shí)域波形具有以下特征:時(shí)域波形是一個(gè)振動(dòng)頻率等于其中心頻率、振動(dòng)包絡(luò)為Gamma函數(shù)曲線的波形；中心頻率越高，達(dá)到最大振幅(即最大包絡(luò))所需要的時(shí)間τ也越短。這些時(shí)域波形特征與聽神經(jīng)的生理學(xué)沖激響應(yīng)數(shù)據(jù)的特性是非常一致的。觀察圖1b可發(fā)現(xiàn)幅頻響應(yīng)曲線具有以下特征:最大幅度出現(xiàn)在中心頻率位置的帶通濾波器，不同中心頻率的Ga_atone濾波器具有不同的帶寬；帶通濾波器中心頻率兩側(cè)都具有較陡的邊沿，表明Ga_atone濾波器具有尖銳的頻率選擇特性。這些幅頻響應(yīng)特征與基底膜的濾波特性是一致的。
[0050]2、POLQA
[0051]POLQA(Perceptual Objective Listening Quality Analysis)是 ITU-T 于 2011年提出的P.863標(biāo)準(zhǔn)，在P.862的基礎(chǔ)上，POLQA計(jì)算模型完成了時(shí)域同步、幅值同步、頻率規(guī)整、響度壓縮等步驟，并考慮了人耳響度感受對(duì)評(píng)估結(jié)果的影響。通過(guò)頻率指標(biāo)、噪聲指標(biāo)、室內(nèi)混響指標(biāo)，以及時(shí)間、響度和聲調(diào)在聽覺中的差別指標(biāo)綜合評(píng)估得出MOS分值，其示意圖如圖2所示。
[0052]POLQA處理的第一步是參考信號(hào)和劣化信號(hào)的時(shí)間對(duì)齊，以確保接下來(lái)在核心模型中的處理是基于兩個(gè)信號(hào)在相同的語(yǔ)音段的準(zhǔn)確比較。
[0053]在進(jìn)行時(shí)間對(duì)齊之后，如果檢測(cè)到兩個(gè)信號(hào)的采樣率不同，則減小較高采樣率的信號(hào)的采樣率，直到達(dá)到允許的采樣率差。
[0054]在信號(hào)對(duì)齊步驟后，參考信號(hào)和劣化信號(hào)進(jìn)入POLQA的核心模型。這兩個(gè)信號(hào)被轉(zhuǎn)換成接近人耳聽覺特性的語(yǔ)音內(nèi)部表現(xiàn)形式，在此基礎(chǔ)上分析兩個(gè)信號(hào)的差異。POLQA的核心模型框圖如圖3所示。
[0055](I)電平調(diào)整與IRS濾波
[0056]不同語(yǔ)音系統(tǒng)的增益差別是很大的，當(dāng)原始語(yǔ)音參考信號(hào)通過(guò)通信系統(tǒng)后，信號(hào)電平發(fā)生了變化。為了便于語(yǔ)音信號(hào)的比較，要將它們調(diào)整到恒定、統(tǒng)一的電平上。感知模型必須考慮人聽到的實(shí)際聲音，所以使用IRS濾波器，起到一個(gè)模擬電話手柄的作用。
[0057]IRS濾波器的頻響特性曲線如圖4所示。使用IRS濾波器來(lái)對(duì)原始語(yǔ)音信號(hào)及輸出語(yǔ)音信號(hào)進(jìn)行濾波，較好地模擬了通用電話手柄的聽筒的頻響特性。它的頻響特性曲線在小于300Hz以及大于3.4kHz附近時(shí)有3dB的衰減，話音通帶為300Hz?3.4kHz。
[0058]⑵聽覺變換
[0059]聽覺變換是一個(gè)生理聲學(xué)模型，它把信號(hào)變換到時(shí)頻可感知的響度表達(dá)，包括以下步驟:
[0060](a)巴克譜。對(duì)語(yǔ)音信號(hào)漢明加窗后，用FFT計(jì)算每幀的瞬時(shí)功率譜，再將功率譜變換為Bark尺度上的能量譜。
[0061](b)頻率均衡。計(jì)算有效話音幀的平均巴克譜值。通過(guò)參考話音和失真話音間的比率就給出傳輸函數(shù)估計(jì)。參考話音使用傳輸函數(shù)估計(jì)值補(bǔ)償?shù)胶褪д嬖捯粝喈?dāng)，補(bǔ)償最多不超過(guò)正負(fù)20dB。
[0062](c)增益變化均衡。參考信號(hào)和失真信號(hào)的可聽功率之間的比值用于標(biāo)識(shí)增益變化。此比值通過(guò)一階低通濾波器濾波，失真信號(hào)乘以這個(gè)功率比，補(bǔ)償?shù)胶蛥⒖夹盘?hào)相當(dāng)。
[0063](d)響度映射。通過(guò)一個(gè)與頻率相關(guān)的聽覺門限和指數(shù)變換，將巴克譜映射到響度級(jí)。在每一時(shí)頻單元給出感受到的響度。
[0064](3)擾動(dòng)處理和認(rèn)知模型
[0065]基于音調(diào)響度時(shí)間表達(dá)式，可以計(jì)算出兩個(gè)指示參考信號(hào)與劣化信號(hào)差別的參數(shù)，一個(gè)是擾動(dòng)密度，由參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)的差別得到；另一個(gè)是增加的擾動(dòng)密度，當(dāng)劣化信號(hào)的功率密度大于參考信號(hào)的功率密度時(shí)，參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)被優(yōu)化。
[0066]認(rèn)知模型中會(huì)計(jì)算六個(gè)質(zhì)量指標(biāo)，分別為:FREQ、NOISE、REVERB和在音調(diào)響度時(shí)間域描述內(nèi)部差異的三個(gè)指標(biāo)。這六個(gè)指標(biāo)聯(lián)合得到客觀質(zhì)量MOS分。
[0067]POLQA的核心模型中的頻譜映射為巴克譜模塊對(duì)語(yǔ)音進(jìn)行臨界頻帶分析處理，是將語(yǔ)音頻譜轉(zhuǎn)換成聽覺頻譜的重要環(huán)節(jié)之一。
[0068]當(dāng)兩個(gè)響度不同的聲音作用于人耳時(shí)，由于頻率不同人耳的感知會(huì)產(chǎn)生一種現(xiàn)象，即響度較高的頻率成分的存在會(huì)影響對(duì)響度較低的頻率成分的感受，使其變得不易察覺，這種現(xiàn)象稱為掩蔽效應(yīng)。為了描述這種掩蔽效應(yīng)引入了臨界頻帶的概念。臨界頻帶是一個(gè)描述聽覺感受特性的重要概念。
[0069]耳蝸基底膜的一個(gè)重要功能就是頻率分解，不同的頻率在沿基底膜的不同位置集中響應(yīng)，臨界頻帶也可定義為:一個(gè)給定的正弦純音在基底膜上能夠產(chǎn)生諧振反應(yīng)的那一部分。在20— 16000Hz范圍內(nèi)的頻率可以劃分為24個(gè)臨界帶，一個(gè)臨界帶的單位用巴克(Bark)表示。
[0070]3、基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法
[0071]人耳聽覺系統(tǒng)對(duì)聲音信號(hào)的感知具有掩蔽效應(yīng)，為使評(píng)價(jià)結(jié)果更接近人耳主觀感受，在頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波，則基于Gammatone濾波器組的POLQA語(yǔ)音質(zhì)量評(píng)估方法原理框圖如圖5所示。具體步驟為:
[0072]I)參考信號(hào)和劣化信號(hào)進(jìn)行時(shí)間對(duì)齊，然后進(jìn)入核心模型進(jìn)行聽覺變換。
[0073]2)在核心模型中的頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波，使提取的聽覺頻譜更接近人耳聽覺感受。
[0074]3)聽覺變換后，進(jìn)行干擾分析，分析劣化信號(hào)相對(duì)參考信號(hào)的失真，得出客觀評(píng)價(jià)MOS 分。
[0075]其中，Gammatone濾波器是一個(gè)標(biāo)準(zhǔn)的耳蝸聽覺濾波器，濾波器的時(shí)域脈沖響應(yīng)為:
[0076]g(t) = Bntn_1e_2llBt cos (2 π f0t+ Φ) u (t)(I)
[0077]其中:t<0時(shí) u(t) = 03>0時(shí)11(0 =1;參數(shù) B = Id1ERB (f0)，ERB (f0)為Gammatone濾波器的等價(jià)矩形帶寬，所述等價(jià)矩形帶寬(ERB):對(duì)于同樣的白噪聲輸入，和指定的濾波器通過(guò)一樣能量的矩形濾波器的寬度，所述等價(jià)矩形帶寬同Ga_atone濾波器中心頻率fQ的關(guān)系是ERB(f Q) = 24.7+0.108f0o所述參數(shù)優(yōu)先b1= 1.019，η = 4。
[0078]將Gammatone濾波器的時(shí)域脈沖響應(yīng)進(jìn)行Fourier變換，可得到Gammatone濾波器的時(shí)域脈沖響應(yīng)的頻率響應(yīng)特性，所述時(shí)域波形是一個(gè)振動(dòng)頻率等于其中心頻率、振動(dòng)包絡(luò)為Ga_a函數(shù)曲線的波形；中心頻率越高，達(dá)到最大振幅所需要的時(shí)間τ也越短。
[0079]最大幅度出現(xiàn)在中心頻率位置的帶通濾波器，不同中心頻率的Gammatone濾波器具有不同的帶寬，帶通濾波器中心頻率兩側(cè)都具有較陡的邊沿。
[0080]POLQA處理的步驟如下:
[0081]I)將參考信號(hào)和劣化信號(hào)的時(shí)間對(duì)齊，以確保接下來(lái)在核心模型中的處理是基于兩個(gè)信號(hào)在相同的語(yǔ)音段的準(zhǔn)確比較；
[0082]2)在進(jìn)行時(shí)間對(duì)齊之后，如果檢測(cè)到兩個(gè)信號(hào)的采樣率不同，則減小較高采樣率的信號(hào)的采樣率，直到達(dá)到允許的采樣率差；
[0083]3)在信號(hào)對(duì)齊步驟后，所述參考信號(hào)和劣化信號(hào)進(jìn)入POLQA的核心模型，所述參考信號(hào)和劣化信號(hào)被轉(zhuǎn)換成接近人耳聽覺特性的語(yǔ)音內(nèi)部表現(xiàn)形式，在此基礎(chǔ)上分析所述參考信號(hào)和劣化信號(hào)的差異。
[0084]POLQA的核心模型處理流程如下:
[0085]I)電平調(diào)整與IRS濾波，將所述參考信號(hào)和劣化信號(hào)調(diào)整到恒定、統(tǒng)一的電平上，使用IRS濾波器來(lái)對(duì)原始語(yǔ)音信號(hào)及輸出語(yǔ)音信號(hào)進(jìn)行濾波，所述濾波的頻響特性曲線在小于300Hz以及大于3.4kHz附近時(shí)有3dB的衰減，話音通帶為300Hz?3.4kHz ；
[0086]2)聽覺變換，所述聽覺變換是一個(gè)生理聲學(xué)模型，把信號(hào)變換到時(shí)頻可感知的響度表達(dá)，包括以下步驟:
[0087](a)巴克譜，對(duì)語(yǔ)音信號(hào)漢明加窗后，用FFT計(jì)算每幀的瞬時(shí)功率譜，再將功率譜變換為Bark尺度上的能量譜；
[0088](b)頻率均衡，計(jì)算有效話音幀的平均巴克譜值，通過(guò)參考話音和失真話音間的比率就給出傳輸函數(shù)估計(jì)，參考話音使用傳輸函數(shù)估計(jì)值補(bǔ)償?shù)胶褪д嬖捯粝喈?dāng)，補(bǔ)償最多不超過(guò)正負(fù)20dB ；
[0089](c)增益變化均衡，參考信號(hào)和失真信號(hào)的可聽功率之間的比值用于標(biāo)識(shí)增益變化，此比值通過(guò)一階低通濾波器濾波，失真信號(hào)乘以這個(gè)功率比，補(bǔ)償?shù)胶蛥⒖夹盘?hào)相當(dāng)；
[0090](d)響度映射。通過(guò)一個(gè)與頻率相關(guān)的聽覺門限和指數(shù)變換，將巴克譜映射到響度級(jí)。在每一時(shí)頻單元給出感受到的響度；
[0091]3)擾動(dòng)處理和認(rèn)知模型，基于音調(diào)響度時(shí)間表達(dá)式，計(jì)算出兩個(gè)指示參考信號(hào)與劣化信號(hào)差別的參數(shù)，一個(gè)是擾動(dòng)密度，由參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)的差別得到；另一個(gè)是增加的擾動(dòng)密度，當(dāng)劣化信號(hào)的功率密度大于參考信號(hào)的功率密度時(shí)，參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)被優(yōu)化。
[0092]上述參考信號(hào)和劣化信號(hào)在20— 16000Hz范圍內(nèi)的頻率可以劃分為24個(gè)臨界帶，一個(gè)臨界帶的單位用巴克(Bark)表示。
[0093]雖然上面的舉例了一些特定實(shí)施例來(lái)說(shuō)明和描述本發(fā)明，但并不意味著本發(fā)明僅局限于其中的各種細(xì)節(jié)。相反地，在等價(jià)于權(quán)利要求書的范疇和范圍內(nèi)可以不偏離本發(fā)明精神地在各種細(xì)節(jié)上做出各種修改。
【權(quán)利要求】
1.一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法，其特征在于:所述方法通過(guò)在頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波，具體步驟為: 1)通過(guò)POLQA處理參考信號(hào)和劣化信號(hào)，然后所述參考信號(hào)和劣化信號(hào)進(jìn)入核心模型； 2)在所述核心模型中的頻譜映射為巴克譜模塊加入Gammatone濾波器組進(jìn)行濾波，再進(jìn)行聽覺變換，使提取的聽覺頻譜更接近人耳聽覺感受； 3)通過(guò)聽覺變換后，再進(jìn)行干擾分析，分析所述劣化信號(hào)相對(duì)所述參考信號(hào)的失真，得出客觀評(píng)價(jià)MOS分。
2.根據(jù)權(quán)利要求1所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法，其特征在于:所述Ga_atone濾波器是一個(gè)標(biāo)準(zhǔn)的耳蝸聽覺濾波器，濾波器的時(shí)域脈沖響應(yīng)為:
g(t) = Bntn-1e-2 "Bt cos (2 τι f0t+ Φ) u (t)(I)
其中:t < 0 時(shí) u (t) = 0，t > 0 時(shí) u (t) = I ;參數(shù) B = Id1ERB (f0)，ERB (f0)為 Gammatone濾波器的等價(jià)矩形帶寬，所述等價(jià)矩形帶寬(ERB):對(duì)于同樣的白噪聲輸入，和指定的濾波器通過(guò)一樣能量的矩形濾波器的寬度，所述等價(jià)矩形帶寬同Ga_atone濾波器中心頻率fQ的關(guān)系是 ERB (f。)= 24.7+0.108f0o
3.根據(jù)權(quán)利要求2所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法，其特征在于:所述參數(shù)優(yōu)先h= 1.019，η = 4。
4.根據(jù)權(quán)利要求3所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法，其特征在于:所述將Gammatone濾波器的時(shí)域脈沖響應(yīng)進(jìn)行Fourier變換，可得到Gammatone濾波器的時(shí)域脈沖響應(yīng)的頻率響應(yīng)特性，所述時(shí)域波形是一個(gè)振動(dòng)頻率等于其中心頻率、振動(dòng)包絡(luò)為Ga_a函數(shù)曲線的波形；中心頻率越高，達(dá)到最大振幅所需要的時(shí)間τ也越短。
5.根據(jù)權(quán)利要求4所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法，其特征在于:所述最大幅度出現(xiàn)在中心頻率位置的帶通濾波器，不同中心頻率的Ga_atone濾波器具有不同的帶寬，帶通濾波器中心頻率兩側(cè)都具有較陡的邊沿。
6.根據(jù)權(quán)利要求1所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法，其特征在于:所述POLQA處理的步驟如下: 1)將參考信號(hào)和劣化信號(hào)的時(shí)間對(duì)齊，以確保接下來(lái)在核心模型中的處理是基于兩個(gè)信號(hào)在相同的語(yǔ)音段的準(zhǔn)確比較； 2)在進(jìn)行時(shí)間對(duì)齊之后，如果檢測(cè)到兩個(gè)信號(hào)的采樣率不同，則減小較高采樣率的信號(hào)的采樣率，直到達(dá)到允許的采樣率差； 3)在信號(hào)對(duì)齊步驟后，所述參考信號(hào)和劣化信號(hào)進(jìn)入POLQA的核心模型，所述參考信號(hào)和劣化信號(hào)被轉(zhuǎn)換成接近人耳聽覺特性的語(yǔ)音內(nèi)部表現(xiàn)形式，在此基礎(chǔ)上分析所述參考信號(hào)和劣化信號(hào)的差異。
7.根據(jù)權(quán)利要求6所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法，其特征在于:所述POLQA的核心模型處理流程如下: 1)電平調(diào)整與IRS濾波，將所述參考信號(hào)和劣化信號(hào)調(diào)整到恒定、統(tǒng)一的電平上，使用IRS濾波器來(lái)對(duì)原始語(yǔ)音信號(hào)及輸出語(yǔ)音信號(hào)進(jìn)行濾波，所述濾波的頻響特性曲線在小于300Hz以及大于3.4kHz附近時(shí)有3dB的衰減，話音通帶為300Hz?3.4kHz ； 2)聽覺變換，所述聽覺變換是一個(gè)生理聲學(xué)模型，把信號(hào)變換到時(shí)頻可感知的響度表達(dá)，包括以下步驟: (a)巴克譜，對(duì)語(yǔ)音信號(hào)漢明加窗后，用FFT計(jì)算每幀的瞬時(shí)功率譜，再將功率譜變換為Bark尺度上的能量譜； (b)頻率均衡，計(jì)算有效話音幀的平均巴克譜值，通過(guò)參考話音和失真話音間的比率就給出傳輸函數(shù)估計(jì)，參考話音使用傳輸函數(shù)估計(jì)值補(bǔ)償?shù)胶褪д嬖捯粝喈?dāng)，補(bǔ)償最多不超過(guò)正負(fù)20dB ； (c)增益變化均衡，參考信號(hào)和失真信號(hào)的可聽功率之間的比值用于標(biāo)識(shí)增益變化，此比值通過(guò)一階低通濾波器濾波，失真信號(hào)乘以這個(gè)功率比，補(bǔ)償?shù)胶蛥⒖夹盘?hào)相當(dāng)； (d)響度映射。通過(guò)一個(gè)與頻率相關(guān)的聽覺門限和指數(shù)變換，將巴克譜映射到響度級(jí)。在每一時(shí)頻單元給出感受到的響度； 3)擾動(dòng)處理和認(rèn)知模型，基于音調(diào)響度時(shí)間表達(dá)式，計(jì)算出兩個(gè)指示參考信號(hào)與劣化信號(hào)差別的參數(shù)，一個(gè)是擾動(dòng)密度，由參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)的差別得到；另一個(gè)是增加的擾動(dòng)密度，當(dāng)劣化信號(hào)的功率密度大于參考信號(hào)的功率密度時(shí)，參考信號(hào)與劣化信號(hào)音調(diào)響度時(shí)間函數(shù)被優(yōu)化。
8.根據(jù)權(quán)利要求7所述的一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法，其特征在于:所述參考信號(hào)和劣化信號(hào)在20— 16000Hz范圍內(nèi)的頻率可以劃分為24個(gè)臨界帶，一個(gè)臨界帶的單位用巴克(Bark)表示。
【文檔編號(hào)】G10L25/60GK104485114SQ201410696773
【公開日】2015年4月1日申請(qǐng)日期:2014年11月27日優(yōu)先權(quán)日:2014年11月27日
【發(fā)明者】李慶生, 劉良江, 卞昕, 柏文琦, 周鑫, 彭正梁, 徐昱申請(qǐng)人:湖南省計(jì)量檢測(cè)研究院, 中國(guó)計(jì)量科學(xué)研究院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李慶生;劉良江;卞昕;柏文琦;周鑫;彭正梁;徐昱;
技術(shù)所有人：湖南省計(jì)量檢測(cè)研究院;中國(guó)計(jì)量科學(xué)研究院;
我是此專利的發(fā)明人

上一篇：用于公交車車門的蜂鳴器的制造方法
上一篇：一種基于輸出的客觀語(yǔ)音質(zhì)量評(píng)估的方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

聽覺感知相關(guān)技術(shù)

人耳的聽覺特性相關(guān)技術(shù)

人耳聽覺特性相關(guān)技術(shù)

聽覺特性相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于聽覺感知特性的語(yǔ)音質(zhì)量客觀評(píng)估的方法