語(yǔ)音質(zhì)量評(píng)估的方法和裝置制造方法

文檔序號(hào)：2825477閱讀：331來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語(yǔ)音質(zhì)量評(píng)估的方法和裝置制造方法
【專利摘要】語(yǔ)音質(zhì)量評(píng)估的方法包括：對(duì)語(yǔ)音信號(hào)進(jìn)行人耳聽覺建模處理，得到第一信號(hào)；對(duì)第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析，得到第二信號(hào)；基于第二信號(hào)進(jìn)行特征提取和分析，獲得針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。通過上述技術(shù)方案，可以解決語(yǔ)音質(zhì)量評(píng)估的準(zhǔn)確性不高的問題，其中通過人耳聽覺建模處理，再將待測(cè)信號(hào)通過變換為表示可變分辨率的時(shí)間-頻率信號(hào)，通過進(jìn)一步分析可變分辨率的時(shí)間-頻率信號(hào)，提取信號(hào)對(duì)應(yīng)的特征，做進(jìn)一步分析，最終獲得較高準(zhǔn)確性的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
【專利說明】語(yǔ)音質(zhì)量評(píng)估的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻【技術(shù)領(lǐng)域】，更具體地涉及語(yǔ)音質(zhì)量評(píng)估的方法和裝置。
【背景技術(shù)】
[0002]在音頻技術(shù)研究領(lǐng)域，主觀測(cè)試是一個(gè)重要的環(huán)節(jié)。遵照業(yè)界準(zhǔn)則(例如=ITU-TP.800)，通過組織若干測(cè)試人員，對(duì)一系列音頻序列進(jìn)行測(cè)聽；最后，統(tǒng)計(jì)測(cè)試人員對(duì)質(zhì)量的高低的平均趨勢(shì)，一般表示為MOS (英文為Mean Opinion Score)分,分?jǐn)?shù)的高或低，反映相關(guān)音頻技術(shù)的好與壞。
[0003]然而，主觀測(cè)試存在實(shí)驗(yàn)周期長(zhǎng)、經(jīng)濟(jì)成本高的不足；在一個(gè)音頻算法研究的中間階段，大批量地組織主觀測(cè)試不現(xiàn)實(shí)。因此，研究客觀測(cè)試工具的意義就變得非常明顯了。從方法論的角度，客觀測(cè)試工具通過數(shù)學(xué)、信號(hào)處理等方法，抽象出一個(gè)打分系統(tǒng)，輸出質(zhì)量評(píng)估結(jié)果，相對(duì)的，輸出表示為MOS-LQO (英文為MOS-Listening Quality Objective)。
[0004]到目前為止，業(yè)界已經(jīng)出現(xiàn)了不少候選的客觀評(píng)估工具。從客觀質(zhì)量評(píng)估工具的分類看，我們可以簡(jiǎn)單分為兩類:侵入式和非侵入式。一般現(xiàn)有網(wǎng)絡(luò)中，由于各種條件約束，參考信號(hào)是很難獲得的。因此，非侵入式模型的訴求更為強(qiáng)烈，且技術(shù)難度更大。
[0005]現(xiàn)有技術(shù)中非侵入式信號(hào)域模型ITU-T P.563的建模方法基于口腔發(fā)聲機(jī)理,而所謂的語(yǔ)音質(zhì)量評(píng)估是一個(gè)聽覺系統(tǒng)感知的過程，與上述空腔發(fā)生機(jī)理差別較大。此外，一般的口腔發(fā)聲機(jī)理均是做了大量的假設(shè)和簡(jiǎn)化，普遍意義上的應(yīng)用存在不準(zhǔn)確性。因此，使用該非侵入式信號(hào)域模型提供的方法確定的語(yǔ)音質(zhì)量評(píng)估的準(zhǔn)確性不高。

【發(fā)明內(nèi)容】

[0006]有鑒于此，本發(fā)明實(shí)施例提供了語(yǔ)音質(zhì)量評(píng)估的方法和裝置，以解決語(yǔ)音質(zhì)量評(píng)估的準(zhǔn)確性不高的問題。
[0007]第一方面，提供了一種語(yǔ)音質(zhì)量評(píng)估的方法，包括:對(duì)語(yǔ)音信號(hào)進(jìn)行人耳聽覺建模處理，得到第一信號(hào)；對(duì)第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析，得到第二信號(hào)；基于第二信號(hào)進(jìn)行特征提取和分析，獲得針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0008]在第一種可能的實(shí)現(xiàn)方式中，將語(yǔ)音信號(hào)通過符合人耳聽覺特性的帶通濾波器組，獲取N個(gè)子帶信號(hào)，N為帶通濾波器通道數(shù)，且為正整數(shù)；針對(duì)每一個(gè)子帶信號(hào)計(jì)算時(shí)域包絡(luò)，獲得第一信號(hào)。
[0009]結(jié)合第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式，在第二種可能的實(shí)現(xiàn)方式中，對(duì)每一個(gè)第一信號(hào)進(jìn)行L階離散小波變換，并從L階離散小波變化所獲得的小波信號(hào)中選擇M個(gè)小波信號(hào)作為第二信號(hào)，其中L、M分別為正整數(shù)，基于語(yǔ)音信號(hào)的采樣率和質(zhì)量評(píng)估分析所需的頻率分辨率確定L的取值；通過L和質(zhì)量評(píng)估分析中設(shè)定的頻率分析范圍確定M的取值。
[0010]結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式中，在第三種可能的實(shí)現(xiàn)方式中，當(dāng)語(yǔ)音信號(hào)的采樣率為16KHZ且頻率分辨率為O至15.625Hz時(shí)，設(shè)定的頻率分析范圍為O至500Hz時(shí)，對(duì)每一個(gè)第一信號(hào)進(jìn)行9階離散小波變換，從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇6個(gè)小波信號(hào)作為第二信號(hào)；或當(dāng)語(yǔ)音信號(hào)的采樣率為8KHz且頻率分辨率為O至15.625Hz時(shí)，設(shè)定的頻率分析范圍為O至250Hz時(shí)，對(duì)每一個(gè)第一信號(hào)進(jìn)行8階離散小波變換，從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇5個(gè)小波信號(hào)作為第二信號(hào)。結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式中，在第四種可能的實(shí)現(xiàn)方式中，獲得N個(gè)子帶信號(hào)的M*N個(gè)小波信號(hào)后，從M*N個(gè)小波信號(hào)中選擇全部或多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析；其中，N為正整數(shù)。
[0011]結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方式中，在第五種可能的實(shí)現(xiàn)方式中，當(dāng)N=30，從M*N個(gè)小波信號(hào)中選擇多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析時(shí)，多個(gè)小波信號(hào)為以下N個(gè)子帶的第K個(gè)子帶的下述小波信號(hào):k〈=16時(shí)，選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào)；17〈=k〈=20時(shí)，選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào)；21〈=k〈=30時(shí)，選擇頻率范圍最多到500Hz的全部6個(gè)小波信號(hào)。
[0012]結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方式中，在第六種可能的實(shí)現(xiàn)方式中，當(dāng)N=18，從M*N個(gè)小波信號(hào)中選擇多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析時(shí)，多個(gè)小波信號(hào)為以下N個(gè)子帶的第K個(gè)子帶的下述小波信號(hào):k〈=16時(shí)，選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào)；17〈=k〈=18時(shí)，選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào)。
[0013]結(jié)合第一方面或第一方面的上述任一可能的實(shí)現(xiàn)方式中，在第七種可能的實(shí)現(xiàn)方式中，對(duì)第二信號(hào)中的每一個(gè)小波信號(hào)計(jì)算平均能量作為特征量；將所有的特征量組合成一個(gè)多維的特征向量，針對(duì)特征向量，進(jìn)行失真檢測(cè)和質(zhì)量預(yù)測(cè)后，獲得針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0014]結(jié)合第一方面的第七種可能的實(shí)現(xiàn)方式中，在第八種可能的實(shí)現(xiàn)方式中，對(duì)針對(duì)語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果與至少一個(gè)針對(duì)先前的語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果計(jì)算平均值，獲得綜合語(yǔ)音質(zhì)量評(píng)估結(jié)果。
[0015]結(jié)合第一方面或第一方面的上述任一可能的實(shí)現(xiàn)方式中，在第九種可能的實(shí)現(xiàn)方式中，將不同采樣速率的一個(gè)或多個(gè)語(yǔ)音信號(hào)通過重采樣處理獲得同一采樣率的語(yǔ)音信號(hào)。
[0016]第二方面，提供了一種語(yǔ)音質(zhì)量評(píng)估的裝置，包括第一獲取單元、第二獲取單元和特征提取和分析單元，其中第一獲取單元，用于對(duì)語(yǔ)音信號(hào)進(jìn)行人耳聽覺建模處理，得到第一信號(hào)并發(fā)送到第二獲取單元；第二獲取單元，用于接收第一獲取單元發(fā)送的第一信號(hào)，對(duì)第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析，得到第二信號(hào)并發(fā)送到特征提取和分析單元；特征提取和分析單元，用于接收第二獲取單元發(fā)送的第二信號(hào)，基于第二信號(hào)進(jìn)行特征提取和分析，獲得針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0017]在第一種可能的實(shí)現(xiàn)方式中，第一獲取單元具體包括濾波器組和時(shí)域包絡(luò)模塊:濾波模塊，用于將語(yǔ)音信號(hào)通過符合人耳聽覺特性的帶通濾波器組，獲取N個(gè)子帶信號(hào)并發(fā)送到時(shí)域包絡(luò)模塊，N為帶通濾波器通道數(shù)，且為正整數(shù)；時(shí)域包絡(luò)模塊，用于接收濾波模塊發(fā)送的N個(gè)子帶信號(hào)，針對(duì)每一個(gè)子帶信號(hào)計(jì)算時(shí)域包絡(luò)，獲得第一信號(hào)。
[0018]結(jié)合第二方面或第二方面的第一種可能的實(shí)現(xiàn)方式，在第二種可能的實(shí)現(xiàn)方式中，第二獲取單元具體用于:對(duì)每一個(gè)第一信號(hào)進(jìn)行L階離散小波變換，并從L階離散小波變換所獲得的小波信號(hào)中選擇M個(gè)小波信號(hào)作為第二信號(hào)，其中L、M分別為正整數(shù)，基于語(yǔ)音信號(hào)的采樣率和質(zhì)量評(píng)估分析所需的頻率分辨率確定L的取值；通過L和質(zhì)量評(píng)估分析中設(shè)定的頻率分析范圍確定M的取值。
[0019]結(jié)合第二方面的第二種可能的實(shí)現(xiàn)方式中，在第三種可能的實(shí)現(xiàn)方式中，第二獲取單元具體用于:當(dāng)語(yǔ)音信號(hào)的采樣率為16KHz且頻率分辨率為O至15.625Hz時(shí)，設(shè)定的頻率分析范圍為O至500Hz時(shí),對(duì)每一個(gè)第一信號(hào)進(jìn)行9階離散小波變換，從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇6個(gè)小波信號(hào)作為第二信號(hào)；或當(dāng)語(yǔ)音信號(hào)的采樣率為SKHz且頻率分辨率為O至15.625Hz時(shí)，設(shè)定的頻率分析范圍為O至250Hz時(shí)，對(duì)每一個(gè)第一信號(hào)進(jìn)行8階離散小波變換，從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇5個(gè)小波信號(hào)作為第二信號(hào)。
[0020]結(jié)合第二方面的第三種可能的實(shí)現(xiàn)方式中，在第四種可能的實(shí)現(xiàn)方式中，特征提取和分析單元具體包括選擇模塊:獲得N個(gè)子帶信號(hào)的M*N個(gè)小波信號(hào)后，從M*N個(gè)小波信號(hào)中選擇全部或多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析；其中N為正整數(shù)。
[0021]結(jié)合第二方面的第四種可能的實(shí)現(xiàn)方式中，在第五種可能的實(shí)現(xiàn)方式中，當(dāng)N=30時(shí)，選擇模塊具體用于選擇以下多個(gè)小波信號(hào):k〈=16時(shí)，選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào)；17〈=k〈=20時(shí)，選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào)；21〈=k〈=30時(shí)，選擇頻率范圍最多到500Hz的全部6個(gè)小波信號(hào)。
[0022]結(jié)合第二方面的第四種可能的實(shí)現(xiàn)方式中，在第六種可能的實(shí)現(xiàn)方式中，當(dāng)N=IS時(shí)，選擇模塊具體用于選擇以下多個(gè)小波信號(hào):k〈=16時(shí)，選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào)；17〈=k〈=18時(shí)，選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào)。
[0023]結(jié)合第二方面或第二方面的上述任一可能的實(shí)現(xiàn)方式中，在第七種可能的實(shí)現(xiàn)方式中，特征提取和分析單元還包括特征量模塊和評(píng)估模塊包括:特征量模塊用于對(duì)第二信號(hào)中的每一個(gè)小波信號(hào)計(jì)算平均能量作為特征量發(fā)送到預(yù)測(cè)模塊；評(píng)估模塊用于接收特征量模塊發(fā)送的特征量，將所有的特征量組合成一個(gè)多維的特征向量，針對(duì)特征向量，進(jìn)行失真檢測(cè)和質(zhì)量預(yù)測(cè)后，獲得針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0024]結(jié)合第二方面的第七種可能的實(shí)現(xiàn)方式中，在第八種可能的實(shí)現(xiàn)方式中，評(píng)估模塊還用于:對(duì)針對(duì)語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果與至少一個(gè)針對(duì)先前的語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果計(jì)算平均值，獲得綜合語(yǔ)音質(zhì)量評(píng)估結(jié)果。
[0025]結(jié)合第二方面或第二方面的上述任一可能的實(shí)現(xiàn)方式中，在第九種可能的實(shí)現(xiàn)方式中，裝置還包括重采樣單元:重采樣單元，用于將各種采樣速率的語(yǔ)音信號(hào)通過重采樣處理獲得同一采樣率的語(yǔ)音信號(hào)。
[0026]通過上述技術(shù)方案，通過人耳濾波器組處理，再將待測(cè)信號(hào)通過變換為表示可變分辨率的時(shí)間-頻率信號(hào)，通過進(jìn)一步分析可變分辨率的時(shí)間-頻率信號(hào)，提取信號(hào)對(duì)應(yīng)的特征，做進(jìn)一步分析，最終獲得較高準(zhǔn)確性的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
【專利附圖】

【附圖說明】
[0027]為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案，下面將對(duì)本發(fā)明實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面所描述的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。[0028]圖1是現(xiàn)有技術(shù)的語(yǔ)音通信流程的示意圖。
[0029]圖2是現(xiàn)有技術(shù)的語(yǔ)音評(píng)估模型的示意框圖。
[0030]圖3是本發(fā)明實(shí)施例1的語(yǔ)音質(zhì)量評(píng)估的方法的示意流程圖。
[0031]圖4A至圖4C是現(xiàn)有技術(shù)的三種信號(hào)處理的工具的示意圖。
[0032]圖5A和圖5B是小波變換中尺度與時(shí)間-頻率分辨率的關(guān)系。
[0033]圖6A和圖6B分別是小波分級(jí)的信號(hào)表不和小波樹。
[0034]圖7是本發(fā)明實(shí)施例2的語(yǔ)音質(zhì)量評(píng)估的方法的示意流程圖。
[0035]圖8是本發(fā)明實(shí)施例3的針對(duì)16KHz采樣率的人耳濾波器組進(jìn)行帶通濾波后的信號(hào)不意圖。
[0036]圖9A至圖9B分別是一個(gè)語(yǔ)音信號(hào)在第8子帶的信號(hào)和對(duì)應(yīng)的時(shí)域包絡(luò)的波形圖。
[0037]圖1OA和圖1OB分別是針對(duì)16kHz采樣的語(yǔ)音信號(hào)和針對(duì)8kHz采樣的語(yǔ)音信號(hào)的離散小波變換的示意帶通范圍。
[0038]圖11是本發(fā)明實(shí)施例4的針對(duì)SKHz采樣率的人耳濾波器組進(jìn)行帶通濾波后的信號(hào)不意圖。
[0039]圖12是本發(fā)明實(shí)施例7的語(yǔ)音質(zhì)量評(píng)估的裝置的示意框圖。
[0040]圖13是本發(fā)明實(shí)施例8的語(yǔ)音質(zhì)量評(píng)估的裝置的示意框圖。
[0041]圖14是本發(fā)明實(shí)施例9的語(yǔ)音質(zhì)量評(píng)估的裝置的示意框圖。
【具體實(shí)施方式】
[0042]下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例是本發(fā)明的一部分實(shí)施例，而不是全部實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例，都應(yīng)屬于本發(fā)明保護(hù)的范圍。
[0043]圖1是現(xiàn)有技術(shù)的語(yǔ)音通信流程的示意圖。
[0044]在主叫方，我們將編碼前的信號(hào)定義為參考信號(hào)SltefIl，考慮到編碼、以及后續(xù)傳輸對(duì)語(yǔ)音質(zhì)量的負(fù)面影響，Sltef—般是整個(gè)流程中的最優(yōu)質(zhì)量。對(duì)應(yīng)地，我們定義經(jīng)過解碼后的信號(hào)定義為接收信號(hào)SDeg12，一般地，SDeg質(zhì)量次于SKef。從Sltef分析到SDeg，質(zhì)量下降的主要因素包括:編碼和傳輸。
[0045]圖2是現(xiàn)有技術(shù)的語(yǔ)音評(píng)估模型的示意框圖。
[0046]侵入式評(píng)估模型中，根據(jù)SltefIUSltegU進(jìn)行侵入式評(píng)估13，輸出語(yǔ)音質(zhì)量評(píng)估的結(jié)果 15，即 M0S_LQ0。
[0047]非侵入式評(píng)估模型中，根據(jù)SDeg12進(jìn)行非侵入式評(píng)估14，輸出語(yǔ)音質(zhì)量評(píng)估的結(jié)果 15，即 M0S_LQ0。
[0048]在非侵入式評(píng)估模型，我們可以進(jìn)一步將模型細(xì)分成兩類:參數(shù)域模型和信號(hào)域模型。信號(hào)域模型容易理解，即將采集的Slleg直接進(jìn)行質(zhì)量評(píng)估，獲得MOS分反映出質(zhì)量。這種建模方法，相當(dāng)于設(shè)計(jì)一個(gè)符合人耳聽覺系統(tǒng)的模型，通過信號(hào)處理等方法進(jìn)行質(zhì)量評(píng)估。另一方面，參數(shù)域模型的建模方法完全不同:既然編碼和傳輸是質(zhì)量下降的主要原因，我們將反映編碼和傳輸若干物理指標(biāo)提取出來，通過訓(xùn)練，獲得一個(gè)數(shù)學(xué)解析式；用該數(shù)學(xué)解析式，預(yù)測(cè)出MOS分來反映質(zhì)量。經(jīng)典的參數(shù)域模型有ITU-T G.107(俗稱e-model)。其中，物理指標(biāo)包括但不限于:編碼器、編碼速率、網(wǎng)絡(luò)丟包率、網(wǎng)絡(luò)延時(shí)等。一般地，信號(hào)域模型基于人的聽覺系統(tǒng)建模，更接近于現(xiàn)實(shí)，準(zhǔn)確率更高；對(duì)應(yīng)地，信號(hào)域模型涉及大量的信號(hào)處理及其它計(jì)算，復(fù)雜度比參考域模型高很多。
[0049]本發(fā)明涉及非侵入式信號(hào)域模型，與非侵入式信號(hào)域模型ITU-T P.563的工作原理不同的是，圍繞人耳聽覺感知建模，所獲得的語(yǔ)音質(zhì)量評(píng)估的準(zhǔn)確性更高。典型的應(yīng)用場(chǎng)景包括終端側(cè)和網(wǎng)絡(luò)側(cè)的語(yǔ)音質(zhì)量檢測(cè)。
[0050]本發(fā)明實(shí)施例所涉及的技術(shù)主要是通過分析語(yǔ)音信號(hào)，預(yù)測(cè)出人的主觀體驗(yàn)。一種應(yīng)用場(chǎng)景例如將使用本發(fā)明實(shí)施例技術(shù)方案的裝置嵌入到移動(dòng)電話中、或移動(dòng)電話使用本發(fā)明實(shí)施例的技術(shù)方案，對(duì)通話中的語(yǔ)音質(zhì)量進(jìn)行評(píng)估。具體地，對(duì)于通話中的一側(cè)移動(dòng)電話，其接收到碼流后通過解碼，可以重構(gòu)出語(yǔ)音文件；將該語(yǔ)音文件作為本發(fā)明實(shí)施例的輸入的語(yǔ)音信號(hào)，可以獲得接收到的語(yǔ)音的質(zhì)量；該語(yǔ)音質(zhì)量基本反映出用戶真實(shí)聽到的語(yǔ)音質(zhì)量。因此，通過在移動(dòng)電話中使用本發(fā)明實(shí)施例所涉及的技術(shù)方案，可以有效地評(píng)估出人的主觀感受。
[0051]此外一般地，語(yǔ)音數(shù)據(jù)需要通過網(wǎng)絡(luò)中的若干節(jié)點(diǎn)后，才能傳遞到接收方。由于一些因素影響，在經(jīng)過網(wǎng)絡(luò)傳遞后，語(yǔ)音質(zhì)量有可能下降。因此，檢測(cè)網(wǎng)絡(luò)側(cè)各節(jié)點(diǎn)的語(yǔ)音質(zhì)量是非常有意義的。然而，現(xiàn)有很多方法更多地反映了傳輸層面的質(zhì)量，并不一一對(duì)應(yīng)于人的真實(shí)感受。因此，可以考慮將本發(fā)明實(shí)施例所述的技術(shù)方案應(yīng)用到各網(wǎng)絡(luò)節(jié)點(diǎn)，同步地進(jìn)行質(zhì)量預(yù)測(cè)，找到質(zhì)量瓶頸。例如:對(duì)于任意網(wǎng)絡(luò)結(jié)果，我們通過分析碼流，選擇特定的解碼器，對(duì)碼流進(jìn)行本地解碼，重構(gòu)出語(yǔ)音文件；將該語(yǔ)音文件作為本發(fā)明實(shí)施例的輸入的語(yǔ)音信號(hào)，可以獲得該節(jié)點(diǎn)的語(yǔ)音質(zhì)量；通過對(duì)比不同節(jié)點(diǎn)的語(yǔ)音質(zhì)量，我們可以定位出質(zhì)量需要改進(jìn)的節(jié)點(diǎn)。因此，此應(yīng)用對(duì)于運(yùn)營(yíng)商進(jìn)行網(wǎng)優(yōu)可以起到重要的輔助作用。
[0052]圖3是本發(fā)明實(shí)施例1的語(yǔ)音質(zhì)量評(píng)估的方法的示意流程圖。
[0053]S31，對(duì)語(yǔ)音信號(hào)進(jìn)行人耳聽覺建模處理，得到第一信號(hào)。
[0054]一般語(yǔ)音質(zhì)量評(píng)估是實(shí)時(shí)的，每接收到一個(gè)時(shí)間分段的語(yǔ)音信號(hào)就進(jìn)行語(yǔ)音質(zhì)量評(píng)估的流程處理。這里的語(yǔ)音信號(hào)可以是以幀為單位，即接收到一個(gè)語(yǔ)音信號(hào)幀就進(jìn)行語(yǔ)音質(zhì)量評(píng)估的流程，此處語(yǔ)音信號(hào)幀代表的是一定時(shí)長(zhǎng)的語(yǔ)音信號(hào)，其時(shí)長(zhǎng)可以由用戶根據(jù)需要設(shè)定。
[0055]人耳聽覺系統(tǒng)對(duì)聲音的頻率范圍具有選擇性，因此，對(duì)不同頻率范圍內(nèi)的信號(hào)分別進(jìn)行分析是一種更加高效的方式。一般地，人們引入人耳聽覺建模處理實(shí)現(xiàn)上述流程。本文中的人耳聽見建模處理指從語(yǔ)音信號(hào)分解出符合人耳聽覺特性的多個(gè)子帶信號(hào)，并計(jì)算每個(gè)子帶的特征值，得到第一信號(hào)。
[0056]S32，針對(duì)第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析，得到第二信號(hào)。
[0057]舉例來說，通過頻域分析，我們可以大致區(qū)分出男聲或女聲。此外，一些特征在時(shí)間上存在一定的連續(xù)性?；蛘撸恍┨厥獾男盘?hào)，比如:突然的非自然停頓，只出現(xiàn)在一瞬間
坐寸ο
[0058]因此，從更為合理的角度，如果我們基于聽覺感知建模，最好能夠使用兼顧時(shí)域-頻域的方法，以更加符合實(shí)際的聽覺感知流程。此處使用的可變分辨率的時(shí)間-頻率分析突出了人耳聽到的聲音在特定時(shí)刻在大腦聽覺系統(tǒng)中產(chǎn)生響應(yīng)應(yīng)該是時(shí)域和頻域信息同時(shí)作用的結(jié)果。
[0059]S33，基于第二信號(hào)進(jìn)行特征提取和分析，獲得針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0060]由于前一步驟中第二信號(hào)是一個(gè)時(shí)間-頻率信息，基于時(shí)頻的表示方法，提取對(duì)應(yīng)的特征，進(jìn)而獲得語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0061]另一個(gè)實(shí)施例里，語(yǔ)音質(zhì)量評(píng)估方法還包括:
[0062]對(duì)針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果與至少一個(gè)針對(duì)歷史語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果計(jì)算平均值，獲得綜合語(yǔ)音質(zhì)量評(píng)估結(jié)果；所述歷史語(yǔ)音信號(hào)為所述語(yǔ)音信號(hào)之前的語(yǔ)音信號(hào)，每一個(gè)歷史語(yǔ)音信號(hào)與所述語(yǔ)音信號(hào)時(shí)長(zhǎng)相同。
[0063]一般語(yǔ)音質(zhì)量評(píng)估是實(shí)時(shí)的，每接收到一個(gè)時(shí)間分段的語(yǔ)音信號(hào)就進(jìn)行語(yǔ)音質(zhì)量評(píng)估的流程處理。對(duì)于當(dāng)前時(shí)間分段的語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果，可以看成是短時(shí)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果；將該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果與至少一個(gè)針對(duì)歷史語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果計(jì)算平均值得到的結(jié)果，考慮了一段時(shí)間的各個(gè)語(yǔ)音評(píng)估質(zhì)量結(jié)果，可以看成是綜合語(yǔ)音質(zhì)量評(píng)估結(jié)果或者長(zhǎng)時(shí)語(yǔ)音質(zhì)量評(píng)估結(jié)果。
[0064]本發(fā)明實(shí)施例提供的語(yǔ)音質(zhì)量評(píng)估的方法通過人耳聽覺建模處理，再將待測(cè)信號(hào)通過變換為表示可變分辨率的時(shí)間-頻率信號(hào),通過進(jìn)一步分析可變分辨率的時(shí)間-頻率信號(hào)，提取信號(hào)對(duì)應(yīng)的特征，做進(jìn)一步分析，最終獲得較高準(zhǔn)確性的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0065]圖4A至圖4C是現(xiàn)有技術(shù)的三種信號(hào)處理的工具的示意圖。其中圖4A是傅里葉變換，圖4B是短時(shí)傅里葉變換(STFT)，圖4C是小波變換。
[0066]根據(jù)Hisenberg不確定性原理，做信號(hào)分析時(shí)，我們無法同時(shí)獲得高分辨率的時(shí)間分辨率和頻率分辨率，只能獲得一個(gè)折衷。在實(shí)際應(yīng)用中，一般是通過(加一個(gè)時(shí)間窗)截?cái)嘈盘?hào)后進(jìn)行處理。當(dāng)時(shí)間窗比較窄時(shí)，時(shí)間分辨率高、頻率分辨率低；當(dāng)時(shí)間窗比較寬時(shí)，時(shí)間分辨率低、頻率分辨率高。
[0067]然而，在實(shí)際應(yīng)用中，自適應(yīng)的分辨率是非常重要的需求。比如說:在語(yǔ)音通信中，信號(hào)的特征變化呈多樣性:平穩(wěn)的濁音信號(hào)需要高頻率分辨率進(jìn)行細(xì)節(jié)分析；突變的大能量信號(hào)發(fā)生在瞬間，需要高時(shí)間分辨率進(jìn)行細(xì)節(jié)分析。
[0068]傅里葉變換是信號(hào)處理最經(jīng)典的一個(gè)工具，其將時(shí)域信號(hào)映射到頻域后進(jìn)行分析；然而，傅里葉變換的變換的時(shí)間分辨率是不可變的，對(duì)于突變信號(hào)無法準(zhǔn)確定位，簡(jiǎn)言之，傅里葉變換是一種純頻域處理方法。
[0069]短時(shí)傅里葉變換被引入，其實(shí)質(zhì)是在做傅里葉變換前，加一個(gè)時(shí)間窗(一般時(shí)間跨度較短)。當(dāng)明確突變信號(hào)的時(shí)間分辨率需求時(shí)，選擇重寫長(zhǎng)度的短時(shí)傅里葉變換，可以獲得滿意的效果。然而，短時(shí)傅里葉變換的窗長(zhǎng)一旦確定，無法更改，缺乏自適應(yīng)性或可變性。
[0070]小波變換可通過設(shè)定尺度(英文為scale)，確定時(shí)間-頻率分辨率。每一個(gè)尺度對(duì)應(yīng)著待定的時(shí)間-頻率分辨率的折衷。因此，通過變化尺度，可自適應(yīng)地獲得合適的時(shí)間-頻率分辨率，換言之，能夠根據(jù)實(shí)際情況，在時(shí)間分辨率和頻域分辨率間取得一個(gè)適宜的折衷，以進(jìn)行其他后續(xù)的處理，參見圖5。
[0071]圖5A和圖5B是小波變換中尺度與時(shí)間-頻率分辨率的關(guān)系。從圖5A中可以獲知，同一信號(hào)51選擇低尺度的時(shí)間-頻率分辨率，小波52被壓縮，可以用于反映快速變換的細(xì)節(jié)。從圖5B可以獲知，同一信號(hào)51選擇高尺度的時(shí)間-頻率分辨率，小波52被伸展，可以用于反映慢速變化，例如粗糙特征等。
[0072]通過圖5A和圖5B的分析，我們將小波變換的這一同時(shí)兼顧時(shí)域和頻域的特性創(chuàng)造性的應(yīng)用到語(yǔ)音質(zhì)量評(píng)估的方法中，符合聽覺感知流程，且提高了語(yǔ)音質(zhì)量評(píng)估的準(zhǔn)確性。
[0073]在實(shí)際的計(jì)算機(jī)應(yīng)用中，我們會(huì)通過迭代的方法(例如:尺度遵守2η的關(guān)系進(jìn)行迭代)，反復(fù)的進(jìn)行時(shí)間-頻率分辨率的調(diào)整，直到滿意為止。這就是多分辨分析。圖6Α和圖6Β分別是小波分級(jí)的信號(hào)表示和小波樹。圖6Α是小波分解的信號(hào)表示。在小波應(yīng)用中，多分辨分析可以用所謂的小波樹(英文為Wavelet Tree)表不,參考圖6B。
[0074]在小波樹中，每一個(gè)節(jié)點(diǎn)均可以通過同一個(gè)QMF (英文為QuadratureMirrorFilter,中文為共扼鏡像濾波器)濾波器組(由一個(gè)低通濾波器L和高通濾波器H組成)，分解成下一個(gè)尺度的分量。例如，輸入為S，經(jīng)過QMF分解后，分別獲得估計(jì)部分(低通后)cAl和細(xì)節(jié)部分cDl (高通后)。采用同樣的方式，cAl可以進(jìn)一步分解成cA2和cD2。因此，通過上述的迭代流程，我們可以自適應(yīng)的獲得任意時(shí)間-分辨率的信號(hào)，此信號(hào)包含了當(dāng)前尺度下的時(shí)間和頻率的信息，可以用來分析該尺度下的時(shí)間信息和頻率信息。
[0075]按前文所述，本發(fā)明提出基于時(shí)間-頻率分析的非侵入式信號(hào)域質(zhì)量評(píng)估系統(tǒng)。具體地，將通過聲學(xué)系統(tǒng)模型的信號(hào)進(jìn)行小波變換，獲得一系列的小波信號(hào)。對(duì)小波信號(hào)提取出對(duì)應(yīng)的特征值，并將提取出的特征值組合成一個(gè)多維矢量，也稱為特征向量。對(duì)特征向量做進(jìn)一步計(jì)算，獲得語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0076]圖7是本發(fā)明實(shí)施例2的語(yǔ)音質(zhì)量評(píng)估的方法的示意流程圖，包括以下內(nèi)容。
[0077]S71，對(duì)輸入的語(yǔ)音信號(hào)，進(jìn)行預(yù)處理。
[0078]預(yù)處理屬公知技術(shù)，該預(yù)處理過程可以包括但不限于對(duì)語(yǔ)音信號(hào)進(jìn)行歸一化。該步驟為可選步驟。
[0079]S72，對(duì)預(yù)處理后的語(yǔ)音信號(hào)，進(jìn)行人耳聽覺建模處理，獲取第一信號(hào)。
[0080]一個(gè)實(shí)施例中，該人耳聽覺建模處理包括將語(yǔ)音信號(hào)通過符合人耳聽覺特性的帶通濾波器組，分解出N (N為正整數(shù))個(gè)子帶信號(hào)，N等于帶通濾波器通道數(shù)；每一個(gè)子帶信號(hào)計(jì)算時(shí)域包絡(luò)，作為第一信號(hào)。圖8是本發(fā)明實(shí)施例3的針對(duì)16KHz采樣率的人耳濾波器組進(jìn)行帶通濾波后的信號(hào)示意圖。根據(jù)相關(guān)心理聽覺研究，反映語(yǔ)音質(zhì)量最關(guān)鍵因素是可懂度；而時(shí)域包絡(luò)可以反映可懂度相關(guān)信息；一個(gè)實(shí)施例中，對(duì)每一個(gè)子帶信號(hào)計(jì)算時(shí)域包絡(luò)，作為第一信號(hào)。當(dāng)然，作為其他實(shí)施例，可以直接分析每一個(gè)子帶信號(hào)得到第一信號(hào)。
[0081]可以使用人耳濾波器來分解子帶信號(hào)。人耳濾波器組為一種特殊的帶通濾波組，其對(duì)語(yǔ)音信號(hào)進(jìn)行非均勻的分帶。因此，輸入的聲音信號(hào)通過人耳濾波器處理，可以輸出不同頻率范圍內(nèi)的子帶信號(hào)；我們可以進(jìn)一步對(duì)上述子帶信號(hào)進(jìn)行處理得到第一信號(hào)。人耳濾波器組可以有不同的數(shù)字濾波器的實(shí)現(xiàn)方式，例如，可以采用Ga_aton濾波器組。
[0082]S73，基于第一信號(hào)，通過多分辨分析生成第二信號(hào)；對(duì)第二信號(hào)進(jìn)行特征提取和分析獲得特征向量。
[0083]具體地，對(duì)N個(gè)子帶信號(hào)的每一個(gè)的時(shí)域包絡(luò)進(jìn)行L階離散小波變換(L為正整數(shù))，并從L階離散小波變換所獲得的小波信號(hào)中選擇M (M為正整數(shù))個(gè)小波信號(hào)作為第二信號(hào)。L是小波變換的分解級(jí)數(shù)，取決與輸入的語(yǔ)音信號(hào)的采樣率和質(zhì)量評(píng)估分析所需的頻率分辨率。所需的頻率分辨率是頻率分辨率的精細(xì)程度的要求。M為從每一個(gè)帶通濾波器通道中選擇的小波信號(hào)的個(gè)數(shù)，通過L和質(zhì)量評(píng)估分析中設(shè)定的頻率分析范圍可以確定M的取值。
[0084]小波變換后,可以使用所有的小波信號(hào)，也就是M*N個(gè)小波信號(hào)，也可以從所有的小波中選取部分用于后續(xù)的特征提取和分析。兩者不同之處在于參與處理的小波信號(hào)越多，計(jì)算越復(fù)雜。
[0085]對(duì)第二信號(hào)中的每一個(gè)小波信號(hào)計(jì)算其平均能量作為特征量。最后，將所有的特征量合并為一個(gè)統(tǒng)一的多維特征向量。
[0086]針對(duì)N、L和M的不同取值，本發(fā)明實(shí)施例可以支持多種采樣率的語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估，為日后不斷提高采樣率的語(yǔ)音信號(hào)的質(zhì)量評(píng)估提供了靈活性。下面，分別以16KHz采樣率的語(yǔ)音信號(hào)和8KHz采樣率的語(yǔ)音信號(hào)為例，說明本發(fā)明實(shí)施例的語(yǔ)音質(zhì)量評(píng)估的方法。
[0087]接下來說明本發(fā)明的實(shí)施例3，其中語(yǔ)音信號(hào)的采樣率為16KHz。
[0088]對(duì)于一個(gè)采樣率為16kHz的語(yǔ)音信號(hào)，在步驟S72可以定義一個(gè)具有30個(gè)子帶的濾波器組。因此，輸入信號(hào)可以分離成30個(gè)子帶信號(hào)，此時(shí)N=30。N可以根據(jù)需要改變，例如將信號(hào)處理得更精細(xì)且不考慮復(fù)雜度，也可以設(shè)計(jì)一個(gè)N為60的人耳濾波器組。因此，此處選擇N為30，僅是舉例，是本發(fā)明實(shí)施例的一個(gè)優(yōu)選值。
[0089]對(duì)于第k子帶的子帶信號(hào)Sk (η)，計(jì)算其對(duì)應(yīng)的時(shí)域包絡(luò)，獲取對(duì)應(yīng)的第一信號(hào):
[0091]其中
【權(quán)利要求】
1.一種語(yǔ)音質(zhì)量評(píng)估的方法，其特征在于，包括: 將語(yǔ)音信號(hào)通過人耳聽覺建模處理，得到第一信號(hào)；對(duì)所述第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析，得到第二信號(hào)；基于所述第二信號(hào)進(jìn)行特征提取和分析，獲得針對(duì)所述語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果O
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，將語(yǔ)音信號(hào)通過人耳聽覺建模處理，得到第一信號(hào)，包括: 將所述語(yǔ)音信號(hào)通過符合人耳聽覺特性的帶通濾波器組，獲取N個(gè)子帶信號(hào)，N為帶通濾波器通道數(shù)，且為正整數(shù)；針對(duì)每一個(gè)所述子帶信號(hào)計(jì)算時(shí)域包絡(luò)，獲得所述第一信號(hào)。
3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，對(duì)所述第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析，得到第二信號(hào)，包括: 對(duì)每一個(gè)所述第一信號(hào)進(jìn)行L階離散小波變換，并從L階離散小波變換所獲得的小波信號(hào)中選擇M個(gè)小波信號(hào)作為第二信號(hào)，其中 L、M分別為正整數(shù)，基于語(yǔ)音信號(hào)的采樣率和質(zhì)量評(píng)估分析所需的頻率分辨率確定L的取值；通過L和質(zhì)量評(píng)估分析中設(shè)定的頻率分析范圍確定M的取值。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述對(duì)每一個(gè)所述第一信號(hào)進(jìn)行L階離散小波變換，并從L階離散小波變化所獲得的小波信號(hào)中選擇M個(gè)小波信號(hào)作為第二信號(hào)，包括: 當(dāng)所述語(yǔ)音信號(hào)的采樣率為16KHz且所述頻率分辨率為O至15.625Hz時(shí)，所述設(shè)定的頻率分析范圍為O至500Hz時(shí),對(duì)每一個(gè)所述第一信號(hào)進(jìn)行9階離散小波變換,從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇6個(gè)小波信號(hào)作為第二信號(hào)；或當(dāng)所述語(yǔ)音信號(hào)的采樣率為8KHz且所述頻率分辨率為O至15.625Hz時(shí)，所述設(shè)定的頻率分析范圍為O至250Hz時(shí)，對(duì)每一個(gè)所述第一信號(hào)進(jìn)行8階離散小波變換，從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇5個(gè)小波信號(hào)作為第二信號(hào)。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述基于所述第二信號(hào)進(jìn)行特征提取和分析包括: 獲得N個(gè)子帶信號(hào)的M*N個(gè)小波信號(hào)后，從所述M*N個(gè)小波信號(hào)中選擇全部或多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析；其中，N為正整數(shù)。
6.根據(jù)權(quán)利要求5所述的方法，其特征在于，當(dāng)N=30，從所述M*N個(gè)小波信號(hào)中選擇多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析時(shí)，所述多個(gè)小波信號(hào)為以下N個(gè)子帶的第K個(gè)子帶的下述小波信號(hào): k〈=16時(shí)，選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào)； 17〈=k〈=20時(shí)，選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào)； 21〈=k〈=30時(shí)，選擇頻率范圍最多到500Hz的全部6個(gè)小波信號(hào)。
7.根據(jù)權(quán)利要求5所述的方法，其特征在于，當(dāng)N=18，從所述M*N個(gè)小波信號(hào)中選擇多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析時(shí)，所述多個(gè)小波信號(hào)包括以下N個(gè)子帶的第K個(gè)子帶的下述小波信號(hào): k〈=16時(shí)，選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào)；17〈=k〈=18時(shí)，選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào)。
8.根據(jù)權(quán)利要求3至7任一所述的方法，其特征在于，所述基于所述第二信號(hào)進(jìn)行特征提取和分析，獲得語(yǔ)音質(zhì)量評(píng)估的結(jié)果，包括: 對(duì)所述第二信號(hào)中的每一個(gè)小波信號(hào)計(jì)算平均能量作為特征量；將所有的所述特征量組合成一個(gè)多維的特征向量，針對(duì)所述特征向量，進(jìn)行失真檢測(cè)和質(zhì)量預(yù)測(cè)后，獲得針對(duì)所述語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
9.根據(jù)權(quán)利要求3至8任一所述的方法，其特征在于，還包括: 對(duì)針對(duì)所述語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果與至少一個(gè)針對(duì)先前的語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果計(jì)算平均值，獲得綜合語(yǔ)音質(zhì)量評(píng)估結(jié)果。
10.根據(jù)權(quán)利要求1至9任一所述的方法，其特征在于，在進(jìn)行人耳聽覺建模處理前，所述方法還包括: 將各種采樣速率的語(yǔ)音信號(hào)通過重采樣處理獲得同一采樣率的所述語(yǔ)音信號(hào)。
11.一種語(yǔ)音質(zhì)量評(píng)估的裝置，其特征在于，包括第一獲取單元、第二獲取單元和特征提取和分析單元: 所述第一獲取單元，用于將語(yǔ)音信號(hào)通過人耳聽覺建模處理，得到第一信號(hào)并發(fā)送到所述第二獲取單元；所述第二獲取單元，用于接收所述第一獲取單元發(fā)送的所述第一信號(hào)，對(duì)所述第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析，得到第二信號(hào)并發(fā)送到所述特征提取和分析單元；所述特征提取和分析單元，用于接收所述第二獲取單元發(fā)送的所述第二信號(hào)，基于所述第二信號(hào)進(jìn)行特征提取和分析，獲得針對(duì)所述語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
12.根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述第一獲取單元具體包括濾波器組和時(shí)域包絡(luò)模塊: 所述濾波模塊，用于將所述語(yǔ)音信號(hào)通過符合人耳聽覺特性的帶通濾波器組，獲取N個(gè)子帶信號(hào)并發(fā)送到所述時(shí)域包絡(luò)模塊，N為帶通濾波器通道數(shù)，且為正整數(shù)；所述時(shí)域包絡(luò)模塊，用于接收所述濾波模塊發(fā)送的所述N個(gè)子帶信號(hào)，針對(duì)每一個(gè)所述子帶信號(hào)計(jì)算時(shí)域包絡(luò)，獲得所述第一信號(hào)。
13.根據(jù)權(quán)利要求11或12所述的裝置，其特征在于，所述第二獲取單元具體用于: 對(duì)每一個(gè)所述第一信號(hào)進(jìn)行L階離散小波變換，并從L階離散小波變換所獲得的小波信號(hào)中選擇M個(gè)小波信號(hào)作為第二信號(hào)，其中 L、M分別為正整數(shù)，基于語(yǔ)音信號(hào)的采樣率和質(zhì)量評(píng)估分析所需的頻率分辨率確定L的取值；通過L和質(zhì)量評(píng)估分析中設(shè)定的頻率分析范圍確定M的取值。
14.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述第二獲取單元具體用于: 當(dāng)所述語(yǔ)音信號(hào)的采樣率為16KHz且所述頻率分辨率為O至15.625Hz時(shí)，所述設(shè)定的頻率分析范圍為O至500Hz時(shí),對(duì)每一個(gè)所述第一信號(hào)進(jìn)行9階離散小波變換；從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇6個(gè)小波信號(hào)作為第二信號(hào)，或當(dāng)所述語(yǔ)音信號(hào)的采樣率為8KHz且所述頻率分辨率為O至15.625Hz時(shí)，所述設(shè)定的頻率分析范圍為O至250Hz時(shí)，對(duì)每一個(gè)所述第一信號(hào)進(jìn)行8階離散小波變換；從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇5個(gè)小波信號(hào)作為第二信號(hào)。
15.根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述特征提取和分析單元具體包括選擇豐吳塊: 獲得N個(gè)子帶信號(hào)的M*N個(gè)小波信號(hào)后，從所述M*N個(gè)小波信號(hào)中選擇全部或多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析；其中N為正整數(shù)。
16.根據(jù)權(quán)利要求15所述的裝置，其特征在于，當(dāng)N=30時(shí)，所述選擇模塊具體用于選擇以下多個(gè)小波信號(hào): k〈=16時(shí)，選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào)； 17〈=k〈=20時(shí)，選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào)； 21〈=k〈=30時(shí)，選擇頻率范圍最多到500Hz的全部6個(gè)小波信號(hào)。
17.根據(jù)權(quán)利要求15所述的裝置，其特征在于，當(dāng)N=IS時(shí)所述選擇模塊具體用于選擇以下多個(gè)小波信號(hào): k〈=16時(shí)，選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào)； 17〈=k〈=18時(shí)，選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào)。
18.根據(jù)權(quán)利要求13至17任一所述的裝置，其特征在于，所述特征提取和分析單元還包括特征量模塊和評(píng)估模塊: 所述特征量模塊，用于對(duì)所述第二信號(hào)中的每一個(gè)小波信號(hào)計(jì)算平均能量作為特征量發(fā)送到所述預(yù)測(cè)模塊；所述評(píng)估模塊，用于接收所述特征量模塊發(fā)送的所述特征量，將所有的所述特征量組合成一個(gè)多維的特征向量，針對(duì)所述特征向量，進(jìn)行失真檢測(cè)和質(zhì)量預(yù)測(cè)后，獲得針對(duì)所述語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
19.根據(jù)權(quán)利要求13至18任一所述的裝置，其特征在于，所述評(píng)估模塊還用于: 對(duì)針對(duì)所述語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果與至少一個(gè)針對(duì)先前的語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果計(jì)算平均值，獲得綜合語(yǔ)音質(zhì)量評(píng)估結(jié)果。
20.根據(jù)權(quán)利要求11至19任一所述的裝置，其特征在于，所述裝置還包括重采樣單元: 所述重采樣單元，用于將各種采樣速率的語(yǔ)音信號(hào)通過重采樣處理獲得同一采樣率的所述語(yǔ)音信號(hào)。
【文檔編號(hào)】G10L15/02GK103730131SQ201210387204
【公開日】2014年4月16日申請(qǐng)日期:2012年10月12日優(yōu)先權(quán)日:2012年10月12日
【發(fā)明者】肖瑋申請(qǐng)人:華為技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載