語(yǔ)音質(zhì)量評(píng)估的方法和裝置制造方法
【專利摘要】語(yǔ)音質(zhì)量評(píng)估的方法包括:對(duì)語(yǔ)音信號(hào)進(jìn)行人耳聽覺建模處理,得到第一信號(hào);對(duì)第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析,得到第二信號(hào);基于第二信號(hào)進(jìn)行特征提取和分析,獲得針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。通過上述技術(shù)方案,可以解決語(yǔ)音質(zhì)量評(píng)估的準(zhǔn)確性不高的問題,其中通過人耳聽覺建模處理,再將待測(cè)信號(hào)通過變換為表示可變分辨率的時(shí)間-頻率信號(hào),通過進(jìn)一步分析可變分辨率的時(shí)間-頻率信號(hào),提取信號(hào)對(duì)應(yīng)的特征,做進(jìn)一步分析,最終獲得較高準(zhǔn)確性的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
【專利說明】語(yǔ)音質(zhì)量評(píng)估的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻【技術(shù)領(lǐng)域】,更具體地涉及語(yǔ)音質(zhì)量評(píng)估的方法和裝置。
【背景技術(shù)】
[0002]在音頻技術(shù)研究領(lǐng)域,主觀測(cè)試是一個(gè)重要的環(huán)節(jié)。遵照業(yè)界準(zhǔn)則(例如=ITU-TP.800),通過組織若干測(cè)試人員,對(duì)一系列音頻序列進(jìn)行測(cè)聽;最后,統(tǒng)計(jì)測(cè)試人員對(duì)質(zhì)量的高低的平均趨勢(shì),一般表示為MOS (英文為Mean Opinion Score)分,分?jǐn)?shù)的高或低,反映相關(guān)音頻技術(shù)的好與壞。
[0003]然而,主觀測(cè)試存在實(shí)驗(yàn)周期長(zhǎng)、經(jīng)濟(jì)成本高的不足;在一個(gè)音頻算法研究的中間階段,大批量地組織主觀測(cè)試不現(xiàn)實(shí)。因此,研究客觀測(cè)試工具的意義就變得非常明顯了。從方法論的角度,客觀測(cè)試工具通過數(shù)學(xué)、信號(hào)處理等方法,抽象出一個(gè)打分系統(tǒng),輸出質(zhì)量評(píng)估結(jié)果,相對(duì)的,輸出表示為MOS-LQO (英文為MOS-Listening Quality Objective)。
[0004]到目前為止,業(yè)界已經(jīng)出現(xiàn)了不少候選的客觀評(píng)估工具。從客觀質(zhì)量評(píng)估工具的分類看,我們可以簡(jiǎn)單分為兩類:侵入式和非侵入式。一般現(xiàn)有網(wǎng)絡(luò)中,由于各種條件約束,參考信號(hào)是很難獲得的。因此,非侵入式模型的訴求更為強(qiáng)烈,且技術(shù)難度更大。
[0005]現(xiàn)有技術(shù)中非侵入式信號(hào)域模型ITU-T P.563的建模方法基于口腔發(fā)聲機(jī)理,而所謂的語(yǔ)音質(zhì)量評(píng)估是一個(gè)聽覺系統(tǒng)感知的過程,與上述空腔發(fā)生機(jī)理差別較大。此外,一般的口腔發(fā)聲機(jī)理均是做了大量的假設(shè)和簡(jiǎn)化,普遍意義上的應(yīng)用存在不準(zhǔn)確性。因此,使用該非侵入式信號(hào)域模型提供的方法確定的語(yǔ)音質(zhì)量評(píng)估的準(zhǔn)確性不高。
【發(fā)明內(nèi)容】
[0006]有鑒于此,本發(fā)明實(shí)施例提供了語(yǔ)音質(zhì)量評(píng)估的方法和裝置,以解決語(yǔ)音質(zhì)量評(píng)估的準(zhǔn)確性不高的問題。
[0007]第一方面,提供了一種語(yǔ)音質(zhì)量評(píng)估的方法,包括:對(duì)語(yǔ)音信號(hào)進(jìn)行人耳聽覺建模處理,得到第一信號(hào);對(duì)第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析,得到第二信號(hào);基于第二信號(hào)進(jìn)行特征提取和分析,獲得針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0008]在第一種可能的實(shí)現(xiàn)方式中,將語(yǔ)音信號(hào)通過符合人耳聽覺特性的帶通濾波器組,獲取N個(gè)子帶信號(hào),N為帶通濾波器通道數(shù),且為正整數(shù);針對(duì)每一個(gè)子帶信號(hào)計(jì)算時(shí)域包絡(luò),獲得第一信號(hào)。
[0009]結(jié)合第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式,在第二種可能的實(shí)現(xiàn)方式中,對(duì)每一個(gè)第一信號(hào)進(jìn)行L階離散小波變換,并從L階離散小波變化所獲得的小波信號(hào)中選擇M個(gè)小波信號(hào)作為第二信號(hào),其中L、M分別為正整數(shù),基于語(yǔ)音信號(hào)的采樣率和質(zhì)量評(píng)估分析所需的頻率分辨率確定L的取值;通過L和質(zhì)量評(píng)估分析中設(shè)定的頻率分析范圍確定M的取值。
[0010]結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式中,在第三種可能的實(shí)現(xiàn)方式中,當(dāng)語(yǔ)音信號(hào)的采樣率為16KHZ且頻率分辨率為O至15.625Hz時(shí),設(shè)定的頻率分析范圍為O至500Hz時(shí),對(duì)每一個(gè)第一信號(hào)進(jìn)行9階離散小波變換,從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇6個(gè)小波信號(hào)作為第二信號(hào);或當(dāng)語(yǔ)音信號(hào)的采樣率為8KHz且頻率分辨率為O至15.625Hz時(shí),設(shè)定的頻率分析范圍為O至250Hz時(shí),對(duì)每一個(gè)第一信號(hào)進(jìn)行8階離散小波變換,從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇5個(gè)小波信號(hào)作為第二信號(hào)。結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式中,在第四種可能的實(shí)現(xiàn)方式中,獲得N個(gè)子帶信號(hào)的M*N個(gè)小波信號(hào)后,從M*N個(gè)小波信號(hào)中選擇全部或多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析;其中,N為正整數(shù)。
[0011]結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方式中,在第五種可能的實(shí)現(xiàn)方式中,當(dāng)N=30,從M*N個(gè)小波信號(hào)中選擇多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析時(shí),多個(gè)小波信號(hào)為以下N個(gè)子帶的第K個(gè)子帶的下述小波信號(hào):k〈=16時(shí),選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào);17〈=k〈=20時(shí),選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào);21〈=k〈=30時(shí),選擇頻率范圍最多到500Hz的全部6個(gè)小波信號(hào)。
[0012]結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方式中,在第六種可能的實(shí)現(xiàn)方式中,當(dāng)N=18,從M*N個(gè)小波信號(hào)中選擇多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析時(shí),多個(gè)小波信號(hào)為以下N個(gè)子帶的第K個(gè)子帶的下述小波信號(hào):k〈=16時(shí),選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào);17〈=k〈=18時(shí),選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào)。
[0013]結(jié)合第一方面或第一方面的上述任一可能的實(shí)現(xiàn)方式中,在第七種可能的實(shí)現(xiàn)方式中,對(duì)第二信號(hào)中的每一個(gè)小波信號(hào)計(jì)算平均能量作為特征量;將所有的特征量組合成一個(gè)多維的特征向量,針對(duì)特征向量,進(jìn)行失真檢測(cè)和質(zhì)量預(yù)測(cè)后,獲得針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0014]結(jié)合第一方面的第七種可能的實(shí)現(xiàn)方式中,在第八種可能的實(shí)現(xiàn)方式中,對(duì)針對(duì)語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果與至少一個(gè)針對(duì)先前的語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果計(jì)算平均值,獲得綜合語(yǔ)音質(zhì)量評(píng)估結(jié)果。
[0015]結(jié)合第一方面或第一方面的上述任一可能的實(shí)現(xiàn)方式中,在第九種可能的實(shí)現(xiàn)方式中,將不同采樣速率的一個(gè)或多個(gè)語(yǔ)音信號(hào)通過重采樣處理獲得同一采樣率的語(yǔ)音信號(hào)。
[0016]第二方面,提供了一種語(yǔ)音質(zhì)量評(píng)估的裝置,包括第一獲取單元、第二獲取單元和特征提取和分析單元,其中第一獲取單元,用于對(duì)語(yǔ)音信號(hào)進(jìn)行人耳聽覺建模處理,得到第一信號(hào)并發(fā)送到第二獲取單元;第二獲取單元,用于接收第一獲取單元發(fā)送的第一信號(hào),對(duì)第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析,得到第二信號(hào)并發(fā)送到特征提取和分析單元;特征提取和分析單元,用于接收第二獲取單元發(fā)送的第二信號(hào),基于第二信號(hào)進(jìn)行特征提取和分析,獲得針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0017]在第一種可能的實(shí)現(xiàn)方式中,第一獲取單元具體包括濾波器組和時(shí)域包絡(luò)模塊:濾波模塊,用于將語(yǔ)音信號(hào)通過符合人耳聽覺特性的帶通濾波器組,獲取N個(gè)子帶信號(hào)并發(fā)送到時(shí)域包絡(luò)模塊,N為帶通濾波器通道數(shù),且為正整數(shù);時(shí)域包絡(luò)模塊,用于接收濾波模塊發(fā)送的N個(gè)子帶信號(hào),針對(duì)每一個(gè)子帶信號(hào)計(jì)算時(shí)域包絡(luò),獲得第一信號(hào)。
[0018]結(jié)合第二方面或第二方面的第一種可能的實(shí)現(xiàn)方式,在第二種可能的實(shí)現(xiàn)方式中,第二獲取單元具體用于:對(duì)每一個(gè)第一信號(hào)進(jìn)行L階離散小波變換,并從L階離散小波變換所獲得的小波信號(hào)中選擇M個(gè)小波信號(hào)作為第二信號(hào),其中L、M分別為正整數(shù),基于語(yǔ)音信號(hào)的采樣率和質(zhì)量評(píng)估分析所需的頻率分辨率確定L的取值;通過L和質(zhì)量評(píng)估分析中設(shè)定的頻率分析范圍確定M的取值。
[0019]結(jié)合第二方面的第二種可能的實(shí)現(xiàn)方式中,在第三種可能的實(shí)現(xiàn)方式中,第二獲取單元具體用于:當(dāng)語(yǔ)音信號(hào)的采樣率為16KHz且頻率分辨率為O至15.625Hz時(shí),設(shè)定的頻率分析范圍為O至500Hz時(shí),對(duì)每一個(gè)第一信號(hào)進(jìn)行9階離散小波變換,從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇6個(gè)小波信號(hào)作為第二信號(hào);或當(dāng)語(yǔ)音信號(hào)的采樣率為SKHz且頻率分辨率為O至15.625Hz時(shí),設(shè)定的頻率分析范圍為O至250Hz時(shí),對(duì)每一個(gè)第一信號(hào)進(jìn)行8階離散小波變換,從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇5個(gè)小波信號(hào)作為第二信號(hào)。
[0020]結(jié)合第二方面的第三種可能的實(shí)現(xiàn)方式中,在第四種可能的實(shí)現(xiàn)方式中,特征提取和分析單元具體包括選擇模塊:獲得N個(gè)子帶信號(hào)的M*N個(gè)小波信號(hào)后,從M*N個(gè)小波信號(hào)中選擇全部或多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析;其中N為正整數(shù)。
[0021]結(jié)合第二方面的第四種可能的實(shí)現(xiàn)方式中,在第五種可能的實(shí)現(xiàn)方式中,當(dāng)N=30時(shí),選擇模塊具體用于選擇以下多個(gè)小波信號(hào):k〈=16時(shí),選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào);17〈=k〈=20時(shí),選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào);21〈=k〈=30時(shí),選擇頻率范圍最多到500Hz的全部6個(gè)小波信號(hào)。
[0022]結(jié)合第二方面的第四種可能的實(shí)現(xiàn)方式中,在第六種可能的實(shí)現(xiàn)方式中,當(dāng)N=IS時(shí),選擇模塊具體用于選擇以下多個(gè)小波信號(hào):k〈=16時(shí),選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào);17〈=k〈=18時(shí),選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào)。
[0023]結(jié)合第二方面或第二方面的上述任一可能的實(shí)現(xiàn)方式中,在第七種可能的實(shí)現(xiàn)方式中,特征提取和分析單元還包括特征量模塊和評(píng)估模塊包括:特征量模塊用于對(duì)第二信號(hào)中的每一個(gè)小波信號(hào)計(jì)算平均能量作為特征量發(fā)送到預(yù)測(cè)模塊;評(píng)估模塊用于接收特征量模塊發(fā)送的特征量,將所有的特征量組合成一個(gè)多維的特征向量,針對(duì)特征向量,進(jìn)行失真檢測(cè)和質(zhì)量預(yù)測(cè)后,獲得針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0024]結(jié)合第二方面的第七種可能的實(shí)現(xiàn)方式中,在第八種可能的實(shí)現(xiàn)方式中,評(píng)估模塊還用于:對(duì)針對(duì)語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果與至少一個(gè)針對(duì)先前的語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果計(jì)算平均值,獲得綜合語(yǔ)音質(zhì)量評(píng)估結(jié)果。
[0025]結(jié)合第二方面或第二方面的上述任一可能的實(shí)現(xiàn)方式中,在第九種可能的實(shí)現(xiàn)方式中,裝置還包括重采樣單元:重采樣單元,用于將各種采樣速率的語(yǔ)音信號(hào)通過重采樣處理獲得同一采樣率的語(yǔ)音信號(hào)。
[0026]通過上述技術(shù)方案,通過人耳濾波器組處理,再將待測(cè)信號(hào)通過變換為表示可變分辨率的時(shí)間-頻率信號(hào),通過進(jìn)一步分析可變分辨率的時(shí)間-頻率信號(hào),提取信號(hào)對(duì)應(yīng)的特征,做進(jìn)一步分析,最終獲得較高準(zhǔn)確性的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
【專利附圖】
【附圖說明】
[0027]為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)本發(fā)明實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面所描述的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0028]圖1是現(xiàn)有技術(shù)的語(yǔ)音通信流程的示意圖。
[0029]圖2是現(xiàn)有技術(shù)的語(yǔ)音評(píng)估模型的示意框圖。
[0030]圖3是本發(fā)明實(shí)施例1的語(yǔ)音質(zhì)量評(píng)估的方法的示意流程圖。
[0031]圖4A至圖4C是現(xiàn)有技術(shù)的三種信號(hào)處理的工具的示意圖。
[0032]圖5A和圖5B是小波變換中尺度與時(shí)間-頻率分辨率的關(guān)系。
[0033]圖6A和圖6B分別是小波分級(jí)的信號(hào)表不和小波樹。
[0034]圖7是本發(fā)明實(shí)施例2的語(yǔ)音質(zhì)量評(píng)估的方法的示意流程圖。
[0035]圖8是本發(fā)明實(shí)施例3的針對(duì)16KHz采樣率的人耳濾波器組進(jìn)行帶通濾波后的信號(hào)不意圖。
[0036]圖9A至圖9B分別是一個(gè)語(yǔ)音信號(hào)在第8子帶的信號(hào)和對(duì)應(yīng)的時(shí)域包絡(luò)的波形圖。
[0037]圖1OA和圖1OB分別是針對(duì)16kHz采樣的語(yǔ)音信號(hào)和針對(duì)8kHz采樣的語(yǔ)音信號(hào)的離散小波變換的示意帶通范圍。
[0038]圖11是本發(fā)明實(shí)施例4的針對(duì)SKHz采樣率的人耳濾波器組進(jìn)行帶通濾波后的信號(hào)不意圖。
[0039]圖12是本發(fā)明實(shí)施例7的語(yǔ)音質(zhì)量評(píng)估的裝置的示意框圖。
[0040]圖13是本發(fā)明實(shí)施例8的語(yǔ)音質(zhì)量評(píng)估的裝置的示意框圖。
[0041]圖14是本發(fā)明實(shí)施例9的語(yǔ)音質(zhì)量評(píng)估的裝置的示意框圖。
【具體實(shí)施方式】
[0042]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明的一部分實(shí)施例,而不是全部實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都應(yīng)屬于本發(fā)明保護(hù)的范圍。
[0043]圖1是現(xiàn)有技術(shù)的語(yǔ)音通信流程的示意圖。
[0044]在主叫方,我們將編碼前的信號(hào)定義為參考信號(hào)SltefIl,考慮到編碼、以及后續(xù)傳輸對(duì)語(yǔ)音質(zhì)量的負(fù)面影響,Sltef—般是整個(gè)流程中的最優(yōu)質(zhì)量。對(duì)應(yīng)地,我們定義經(jīng)過解碼后的信號(hào)定義為接收信號(hào)SDeg12,一般地,SDeg質(zhì)量次于SKef。從Sltef分析到SDeg,質(zhì)量下降的主要因素包括:編碼和傳輸。
[0045]圖2是現(xiàn)有技術(shù)的語(yǔ)音評(píng)估模型的示意框圖。
[0046]侵入式評(píng)估模型中,根據(jù)SltefIUSltegU進(jìn)行侵入式評(píng)估13,輸出語(yǔ)音質(zhì)量評(píng)估的結(jié)果 15,即 M0S_LQ0。
[0047]非侵入式評(píng)估模型中,根據(jù)SDeg12進(jìn)行非侵入式評(píng)估14,輸出語(yǔ)音質(zhì)量評(píng)估的結(jié)果 15,即 M0S_LQ0。
[0048]在非侵入式評(píng)估模型,我們可以進(jìn)一步將模型細(xì)分成兩類:參數(shù)域模型和信號(hào)域模型。信號(hào)域模型容易理解,即將采集的Slleg直接進(jìn)行質(zhì)量評(píng)估,獲得MOS分反映出質(zhì)量。這種建模方法,相當(dāng)于設(shè)計(jì)一個(gè)符合人耳聽覺系統(tǒng)的模型,通過信號(hào)處理等方法進(jìn)行質(zhì)量評(píng)估。另一方面,參數(shù)域模型的建模方法完全不同:既然編碼和傳輸是質(zhì)量下降的主要原因,我們將反映編碼和傳輸若干物理指標(biāo)提取出來,通過訓(xùn)練,獲得一個(gè)數(shù)學(xué)解析式;用該數(shù)學(xué)解析式,預(yù)測(cè)出MOS分來反映質(zhì)量。經(jīng)典的參數(shù)域模型有ITU-T G.107(俗稱e-model)。其中,物理指標(biāo)包括但不限于:編碼器、編碼速率、網(wǎng)絡(luò)丟包率、網(wǎng)絡(luò)延時(shí)等。一般地,信號(hào)域模型基于人的聽覺系統(tǒng)建模,更接近于現(xiàn)實(shí),準(zhǔn)確率更高;對(duì)應(yīng)地,信號(hào)域模型涉及大量的信號(hào)處理及其它計(jì)算,復(fù)雜度比參考域模型高很多。
[0049]本發(fā)明涉及非侵入式信號(hào)域模型,與非侵入式信號(hào)域模型ITU-T P.563的工作原理不同的是,圍繞人耳聽覺感知建模,所獲得的語(yǔ)音質(zhì)量評(píng)估的準(zhǔn)確性更高。典型的應(yīng)用場(chǎng)景包括終端側(cè)和網(wǎng)絡(luò)側(cè)的語(yǔ)音質(zhì)量檢測(cè)。
[0050]本發(fā)明實(shí)施例所涉及的技術(shù)主要是通過分析語(yǔ)音信號(hào),預(yù)測(cè)出人的主觀體驗(yàn)。一種應(yīng)用場(chǎng)景例如將使用本發(fā)明實(shí)施例技術(shù)方案的裝置嵌入到移動(dòng)電話中、或移動(dòng)電話使用本發(fā)明實(shí)施例的技術(shù)方案,對(duì)通話中的語(yǔ)音質(zhì)量進(jìn)行評(píng)估。具體地,對(duì)于通話中的一側(cè)移動(dòng)電話,其接收到碼流后通過解碼,可以重構(gòu)出語(yǔ)音文件;將該語(yǔ)音文件作為本發(fā)明實(shí)施例的輸入的語(yǔ)音信號(hào),可以獲得接收到的語(yǔ)音的質(zhì)量;該語(yǔ)音質(zhì)量基本反映出用戶真實(shí)聽到的語(yǔ)音質(zhì)量。因此,通過在移動(dòng)電話中使用本發(fā)明實(shí)施例所涉及的技術(shù)方案,可以有效地評(píng)估出人的主觀感受。
[0051]此外一般地,語(yǔ)音數(shù)據(jù)需要通過網(wǎng)絡(luò)中的若干節(jié)點(diǎn)后,才能傳遞到接收方。由于一些因素影響,在經(jīng)過網(wǎng)絡(luò)傳遞后,語(yǔ)音質(zhì)量有可能下降。因此,檢測(cè)網(wǎng)絡(luò)側(cè)各節(jié)點(diǎn)的語(yǔ)音質(zhì)量是非常有意義的。然而,現(xiàn)有很多方法更多地反映了傳輸層面的質(zhì)量,并不一一對(duì)應(yīng)于人的真實(shí)感受。因此,可以考慮將本發(fā)明實(shí)施例所述的技術(shù)方案應(yīng)用到各網(wǎng)絡(luò)節(jié)點(diǎn),同步地進(jìn)行質(zhì)量預(yù)測(cè),找到質(zhì)量瓶頸。例如:對(duì)于任意網(wǎng)絡(luò)結(jié)果,我們通過分析碼流,選擇特定的解碼器,對(duì)碼流進(jìn)行本地解碼,重構(gòu)出語(yǔ)音文件;將該語(yǔ)音文件作為本發(fā)明實(shí)施例的輸入的語(yǔ)音信號(hào),可以獲得該節(jié)點(diǎn)的語(yǔ)音質(zhì)量;通過對(duì)比不同節(jié)點(diǎn)的語(yǔ)音質(zhì)量,我們可以定位出質(zhì)量需要改進(jìn)的節(jié)點(diǎn)。因此,此應(yīng)用對(duì)于運(yùn)營(yíng)商進(jìn)行網(wǎng)優(yōu)可以起到重要的輔助作用。
[0052]圖3是本發(fā)明實(shí)施例1的語(yǔ)音質(zhì)量評(píng)估的方法的示意流程圖。
[0053]S31,對(duì)語(yǔ)音信號(hào)進(jìn)行人耳聽覺建模處理,得到第一信號(hào)。
[0054]一般語(yǔ)音質(zhì)量評(píng)估是實(shí)時(shí)的,每接收到一個(gè)時(shí)間分段的語(yǔ)音信號(hào)就進(jìn)行語(yǔ)音質(zhì)量評(píng)估的流程處理。這里的語(yǔ)音信號(hào)可以是以幀為單位,即接收到一個(gè)語(yǔ)音信號(hào)幀就進(jìn)行語(yǔ)音質(zhì)量評(píng)估的流程,此處語(yǔ)音信號(hào)幀代表的是一定時(shí)長(zhǎng)的語(yǔ)音信號(hào),其時(shí)長(zhǎng)可以由用戶根據(jù)需要設(shè)定。
[0055]人耳聽覺系統(tǒng)對(duì)聲音的頻率范圍具有選擇性,因此,對(duì)不同頻率范圍內(nèi)的信號(hào)分別進(jìn)行分析是一種更加高效的方式。一般地,人們引入人耳聽覺建模處理實(shí)現(xiàn)上述流程。本文中的人耳聽見建模處理指從語(yǔ)音信號(hào)分解出符合人耳聽覺特性的多個(gè)子帶信號(hào),并計(jì)算每個(gè)子帶的特征值,得到第一信號(hào)。
[0056]S32,針對(duì)第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析,得到第二信號(hào)。
[0057]舉例來說,通過頻域分析,我們可以大致區(qū)分出男聲或女聲。此外,一些特征在時(shí)間上存在一定的連續(xù)性?;蛘撸恍┨厥獾男盘?hào),比如:突然的非自然停頓,只出現(xiàn)在一瞬間
坐寸ο
[0058]因此,從更為合理的角度,如果我們基于聽覺感知建模,最好能夠使用兼顧時(shí)域-頻域的方法,以更加符合實(shí)際的聽覺感知流程。此處使用的可變分辨率的時(shí)間-頻率分析突出了人耳聽到的聲音在特定時(shí)刻在大腦聽覺系統(tǒng)中產(chǎn)生響應(yīng)應(yīng)該是時(shí)域和頻域信息同時(shí)作用的結(jié)果。
[0059]S33,基于第二信號(hào)進(jìn)行特征提取和分析,獲得針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0060]由于前一步驟中第二信號(hào)是一個(gè)時(shí)間-頻率信息,基于時(shí)頻的表示方法,提取對(duì)應(yīng)的特征,進(jìn)而獲得語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0061]另一個(gè)實(shí)施例里,語(yǔ)音質(zhì)量評(píng)估方法還包括:
[0062]對(duì)針對(duì)該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果與至少一個(gè)針對(duì)歷史語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果計(jì)算平均值,獲得綜合語(yǔ)音質(zhì)量評(píng)估結(jié)果;所述歷史語(yǔ)音信號(hào)為所述語(yǔ)音信號(hào)之前的語(yǔ)音信號(hào),每一個(gè)歷史語(yǔ)音信號(hào)與所述語(yǔ)音信號(hào)時(shí)長(zhǎng)相同。
[0063]一般語(yǔ)音質(zhì)量評(píng)估是實(shí)時(shí)的,每接收到一個(gè)時(shí)間分段的語(yǔ)音信號(hào)就進(jìn)行語(yǔ)音質(zhì)量評(píng)估的流程處理。對(duì)于當(dāng)前時(shí)間分段的語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果,可以看成是短時(shí)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果;將該語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果與至少一個(gè)針對(duì)歷史語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果計(jì)算平均值得到的結(jié)果,考慮了一段時(shí)間的各個(gè)語(yǔ)音評(píng)估質(zhì)量結(jié)果,可以看成是綜合語(yǔ)音質(zhì)量評(píng)估結(jié)果或者長(zhǎng)時(shí)語(yǔ)音質(zhì)量評(píng)估結(jié)果。
[0064]本發(fā)明實(shí)施例提供的語(yǔ)音質(zhì)量評(píng)估的方法通過人耳聽覺建模處理,再將待測(cè)信號(hào)通過變換為表示可變分辨率的時(shí)間-頻率信號(hào),通過進(jìn)一步分析可變分辨率的時(shí)間-頻率信號(hào),提取信號(hào)對(duì)應(yīng)的特征,做進(jìn)一步分析,最終獲得較高準(zhǔn)確性的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0065]圖4A至圖4C是現(xiàn)有技術(shù)的三種信號(hào)處理的工具的示意圖。其中圖4A是傅里葉變換,圖4B是短時(shí)傅里葉變換(STFT),圖4C是小波變換。
[0066]根據(jù)Hisenberg不確定性原理,做信號(hào)分析時(shí),我們無法同時(shí)獲得高分辨率的時(shí)間分辨率和頻率分辨率,只能獲得一個(gè)折衷。在實(shí)際應(yīng)用中,一般是通過(加一個(gè)時(shí)間窗)截?cái)嘈盘?hào)后進(jìn)行處理。當(dāng)時(shí)間窗比較窄時(shí),時(shí)間分辨率高、頻率分辨率低;當(dāng)時(shí)間窗比較寬時(shí),時(shí)間分辨率低、頻率分辨率高。
[0067]然而,在實(shí)際應(yīng)用中,自適應(yīng)的分辨率是非常重要的需求。比如說:在語(yǔ)音通信中,信號(hào)的特征變化呈多樣性:平穩(wěn)的濁音信號(hào)需要高頻率分辨率進(jìn)行細(xì)節(jié)分析;突變的大能量信號(hào)發(fā)生在瞬間,需要高時(shí)間分辨率進(jìn)行細(xì)節(jié)分析。
[0068]傅里葉變換是信號(hào)處理最經(jīng)典的一個(gè)工具,其將時(shí)域信號(hào)映射到頻域后進(jìn)行分析;然而,傅里葉變換的變換的時(shí)間分辨率是不可變的,對(duì)于突變信號(hào)無法準(zhǔn)確定位,簡(jiǎn)言之,傅里葉變換是一種純頻域處理方法。
[0069]短時(shí)傅里葉變換被引入,其實(shí)質(zhì)是在做傅里葉變換前,加一個(gè)時(shí)間窗(一般時(shí)間跨度較短)。當(dāng)明確突變信號(hào)的時(shí)間分辨率需求時(shí),選擇重寫長(zhǎng)度的短時(shí)傅里葉變換,可以獲得滿意的效果。然而,短時(shí)傅里葉變換的窗長(zhǎng)一旦確定,無法更改,缺乏自適應(yīng)性或可變性。
[0070]小波變換可通過設(shè)定尺度(英文為scale),確定時(shí)間-頻率分辨率。每一個(gè)尺度對(duì)應(yīng)著待定的時(shí)間-頻率分辨率的折衷。因此,通過變化尺度,可自適應(yīng)地獲得合適的時(shí)間-頻率分辨率,換言之,能夠根據(jù)實(shí)際情況,在時(shí)間分辨率和頻域分辨率間取得一個(gè)適宜的折衷,以進(jìn)行其他后續(xù)的處理,參見圖5。
[0071]圖5A和圖5B是小波變換中尺度與時(shí)間-頻率分辨率的關(guān)系。從圖5A中可以獲知,同一信號(hào)51選擇低尺度的時(shí)間-頻率分辨率,小波52被壓縮,可以用于反映快速變換的細(xì)節(jié)。從圖5B可以獲知,同一信號(hào)51選擇高尺度的時(shí)間-頻率分辨率,小波52被伸展,可以用于反映慢速變化,例如粗糙特征等。
[0072]通過圖5A和圖5B的分析,我們將小波變換的這一同時(shí)兼顧時(shí)域和頻域的特性創(chuàng)造性的應(yīng)用到語(yǔ)音質(zhì)量評(píng)估的方法中,符合聽覺感知流程,且提高了語(yǔ)音質(zhì)量評(píng)估的準(zhǔn)確性。
[0073]在實(shí)際的計(jì)算機(jī)應(yīng)用中,我們會(huì)通過迭代的方法(例如:尺度遵守2η的關(guān)系進(jìn)行迭代),反復(fù)的進(jìn)行時(shí)間-頻率分辨率的調(diào)整,直到滿意為止。這就是多分辨分析。圖6Α和圖6Β分別是小波分級(jí)的信號(hào)表示和小波樹。圖6Α是小波分解的信號(hào)表示。在小波應(yīng)用中,多分辨分析可以用所謂的小波樹(英文為Wavelet Tree)表不,參考圖6B。
[0074]在小波樹中,每一個(gè)節(jié)點(diǎn)均可以通過同一個(gè)QMF (英文為QuadratureMirrorFilter,中文為共扼鏡像濾波器)濾波器組(由一個(gè)低通濾波器L和高通濾波器H組成),分解成下一個(gè)尺度的分量。例如,輸入為S,經(jīng)過QMF分解后,分別獲得估計(jì)部分(低通后)cAl和細(xì)節(jié)部分cDl (高通后)。采用同樣的方式,cAl可以進(jìn)一步分解成cA2和cD2。因此,通過上述的迭代流程,我們可以自適應(yīng)的獲得任意時(shí)間-分辨率的信號(hào),此信號(hào)包含了當(dāng)前尺度下的時(shí)間和頻率的信息,可以用來分析該尺度下的時(shí)間信息和頻率信息。
[0075]按前文所述,本發(fā)明提出基于時(shí)間-頻率分析的非侵入式信號(hào)域質(zhì)量評(píng)估系統(tǒng)。具體地,將通過聲學(xué)系統(tǒng)模型的信號(hào)進(jìn)行小波變換,獲得一系列的小波信號(hào)。對(duì)小波信號(hào)提取出對(duì)應(yīng)的特征值,并將提取出的特征值組合成一個(gè)多維矢量,也稱為特征向量。對(duì)特征向量做進(jìn)一步計(jì)算,獲得語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
[0076]圖7是本發(fā)明實(shí)施例2的語(yǔ)音質(zhì)量評(píng)估的方法的示意流程圖,包括以下內(nèi)容。
[0077]S71,對(duì)輸入的語(yǔ)音信號(hào),進(jìn)行預(yù)處理。
[0078]預(yù)處理屬公知技術(shù),該預(yù)處理過程可以包括但不限于對(duì)語(yǔ)音信號(hào)進(jìn)行歸一化。該步驟為可選步驟。
[0079]S72,對(duì)預(yù)處理后的語(yǔ)音信號(hào),進(jìn)行人耳聽覺建模處理,獲取第一信號(hào)。
[0080]一個(gè)實(shí)施例中,該人耳聽覺建模處理包括將語(yǔ)音信號(hào)通過符合人耳聽覺特性的帶通濾波器組,分解出N (N為正整數(shù))個(gè)子帶信號(hào),N等于帶通濾波器通道數(shù);每一個(gè)子帶信號(hào)計(jì)算時(shí)域包絡(luò),作為第一信號(hào)。圖8是本發(fā)明實(shí)施例3的針對(duì)16KHz采樣率的人耳濾波器組進(jìn)行帶通濾波后的信號(hào)示意圖。根據(jù)相關(guān)心理聽覺研究,反映語(yǔ)音質(zhì)量最關(guān)鍵因素是可懂度;而時(shí)域包絡(luò)可以反映可懂度相關(guān)信息;一個(gè)實(shí)施例中,對(duì)每一個(gè)子帶信號(hào)計(jì)算時(shí)域包絡(luò),作為第一信號(hào)。當(dāng)然,作為其他實(shí)施例,可以直接分析每一個(gè)子帶信號(hào)得到第一信號(hào)。
[0081]可以使用人耳濾波器來分解子帶信號(hào)。人耳濾波器組為一種特殊的帶通濾波組,其對(duì)語(yǔ)音信號(hào)進(jìn)行非均勻的分帶。因此,輸入的聲音信號(hào)通過人耳濾波器處理,可以輸出不同頻率范圍內(nèi)的子帶信號(hào);我們可以進(jìn)一步對(duì)上述子帶信號(hào)進(jìn)行處理得到第一信號(hào)。人耳濾波器組可以有不同的數(shù)字濾波器的實(shí)現(xiàn)方式,例如,可以采用Ga_aton濾波器組。
[0082]S73,基于第一信號(hào),通過多分辨分析生成第二信號(hào);對(duì)第二信號(hào)進(jìn)行特征提取和分析獲得特征向量。
[0083]具體地,對(duì)N個(gè)子帶信號(hào)的每一個(gè)的時(shí)域包絡(luò)進(jìn)行L階離散小波變換(L為正整數(shù)),并從L階離散小波變換所獲得的小波信號(hào)中選擇M (M為正整數(shù))個(gè)小波信號(hào)作為第二信號(hào)。L是小波變換的分解級(jí)數(shù),取決與輸入的語(yǔ)音信號(hào)的采樣率和質(zhì)量評(píng)估分析所需的頻率分辨率。所需的頻率分辨率是頻率分辨率的精細(xì)程度的要求。M為從每一個(gè)帶通濾波器通道中選擇的小波信號(hào)的個(gè)數(shù),通過L和質(zhì)量評(píng)估分析中設(shè)定的頻率分析范圍可以確定M的取值。
[0084]小波變換后,可以使用所有的小波信號(hào),也就是M*N個(gè)小波信號(hào),也可以從所有的小波中選取部分用于后續(xù)的特征提取和分析。兩者不同之處在于參與處理的小波信號(hào)越多,計(jì)算越復(fù)雜。
[0085]對(duì)第二信號(hào)中的每一個(gè)小波信號(hào)計(jì)算其平均能量作為特征量。最后,將所有的特征量合并為一個(gè)統(tǒng)一的多維特征向量。
[0086]針對(duì)N、L和M的不同取值,本發(fā)明實(shí)施例可以支持多種采樣率的語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估,為日后不斷提高采樣率的語(yǔ)音信號(hào)的質(zhì)量評(píng)估提供了靈活性。下面,分別以16KHz采樣率的語(yǔ)音信號(hào)和8KHz采樣率的語(yǔ)音信號(hào)為例,說明本發(fā)明實(shí)施例的語(yǔ)音質(zhì)量評(píng)估的方法。
[0087]接下來說明本發(fā)明的實(shí)施例3,其中語(yǔ)音信號(hào)的采樣率為16KHz。
[0088]對(duì)于一個(gè)采樣率為16kHz的語(yǔ)音信號(hào),在步驟S72可以定義一個(gè)具有30個(gè)子帶的濾波器組。因此,輸入信號(hào)可以分離成30個(gè)子帶信號(hào),此時(shí)N=30。N可以根據(jù)需要改變,例如將信號(hào)處理得更精細(xì)且不考慮復(fù)雜度,也可以設(shè)計(jì)一個(gè)N為60的人耳濾波器組。因此,此處選擇N為30,僅是舉例,是本發(fā)明實(shí)施例的一個(gè)優(yōu)選值。
[0089]對(duì)于第k子帶的子帶信號(hào)Sk (η),計(jì)算其對(duì)應(yīng)的時(shí)域包絡(luò),獲取對(duì)應(yīng)的第一信號(hào):
[0091]其中
【權(quán)利要求】
1.一種語(yǔ)音質(zhì)量評(píng)估的方法,其特征在于,包括: 將語(yǔ)音信號(hào)通過人耳聽覺建模處理,得到第一信號(hào); 對(duì)所述第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析,得到第二信號(hào); 基于所述第二信號(hào)進(jìn)行特征提取和分析,獲得針對(duì)所述語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果O
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,將語(yǔ)音信號(hào)通過人耳聽覺建模處理,得到第一信號(hào),包括: 將所述語(yǔ)音信號(hào)通過符合人耳聽覺特性的帶通濾波器組,獲取N個(gè)子帶信號(hào),N為帶通濾波器通道數(shù),且為正整數(shù); 針對(duì)每一個(gè)所述子帶信號(hào)計(jì)算時(shí)域包絡(luò),獲得所述第一信號(hào)。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,對(duì)所述第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析,得到第二信號(hào),包括: 對(duì)每一個(gè)所述第一信號(hào)進(jìn)行L階離散小波變換,并從L階離散小波變換所獲得的小波信號(hào)中選擇M個(gè)小波信號(hào)作為第二信號(hào),其中 L、M分別為正整數(shù),基于語(yǔ)音信號(hào)的采樣率和質(zhì)量評(píng)估分析所需的頻率分辨率確定L的取值;通過L和質(zhì)量評(píng)估分析中設(shè)定的頻率分析范圍確定M的取值。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對(duì)每一個(gè)所述第一信號(hào)進(jìn)行L階離散小波變換,并從L階離散小波變化所獲得的小波信號(hào)中選擇M個(gè)小波信號(hào)作為第二信號(hào),包括: 當(dāng)所述語(yǔ)音信號(hào)的采樣率為16KHz且所述頻率分辨率為O至15.625Hz時(shí),所述設(shè)定的頻率分析范圍為O至500Hz時(shí),對(duì)每一個(gè)所述第一信號(hào)進(jìn)行9階離散小波變換,從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇6個(gè)小波信號(hào)作為第二信號(hào);或 當(dāng)所述語(yǔ)音信號(hào)的采樣率為8KHz且所述頻率分辨率為O至15.625Hz時(shí),所述設(shè)定的頻率分析范圍為O至250Hz時(shí),對(duì)每一個(gè)所述第一信號(hào)進(jìn)行8階離散小波變換,從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇5個(gè)小波信號(hào)作為第二信號(hào)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于所述第二信號(hào)進(jìn)行特征提取和分析包括: 獲得N個(gè)子帶信號(hào)的M*N個(gè)小波信號(hào)后,從所述M*N個(gè)小波信號(hào)中選擇全部或多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析;其中,N為正整數(shù)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,當(dāng)N=30,從所述M*N個(gè)小波信號(hào)中選擇多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析時(shí),所述多個(gè)小波信號(hào)為以下N個(gè)子帶的第K個(gè)子帶的下述小波信號(hào): k〈=16時(shí),選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào); 17〈=k〈=20時(shí),選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào); 21〈=k〈=30時(shí),選擇頻率范圍最多到500Hz的全部6個(gè)小波信號(hào)。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,當(dāng)N=18,從所述M*N個(gè)小波信號(hào)中選擇多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析時(shí),所述多個(gè)小波信號(hào)包括以下N個(gè)子帶的第K個(gè)子帶的下述小波信號(hào): k〈=16時(shí),選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào);17〈=k〈=18時(shí),選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào)。
8.根據(jù)權(quán)利要求3至7任一所述的方法,其特征在于,所述基于所述第二信號(hào)進(jìn)行特征提取和分析,獲得語(yǔ)音質(zhì)量評(píng)估的結(jié)果,包括: 對(duì)所述第二信號(hào)中的每一個(gè)小波信號(hào)計(jì)算平均能量作為特征量; 將所有的所述特征量組合成一個(gè)多維的特征向量,針對(duì)所述特征向量,進(jìn)行失真檢測(cè)和質(zhì)量預(yù)測(cè)后,獲得針對(duì)所述語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
9.根據(jù)權(quán)利要求3至8任一所述的方法,其特征在于,還包括: 對(duì)針對(duì)所述語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果與至少一個(gè)針對(duì)先前的語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果計(jì)算平均值,獲得綜合語(yǔ)音質(zhì)量評(píng)估結(jié)果。
10.根據(jù)權(quán)利要求1至9任一所述的方法,其特征在于,在進(jìn)行人耳聽覺建模處理前,所述方法還包括: 將各種采樣速率的語(yǔ)音信號(hào)通過重采樣處理獲得同一采樣率的所述語(yǔ)音信號(hào)。
11.一種語(yǔ)音質(zhì)量評(píng)估的裝置,其特征在于,包括第一獲取單元、第二獲取單元和特征提取和分析單元: 所述第一獲取單元,用于將語(yǔ)音信號(hào)通過人耳聽覺建模處理,得到第一信號(hào)并發(fā)送到所述第二獲取單元; 所述第二獲取單元,用于接收所述第一獲取單元發(fā)送的所述第一信號(hào),對(duì)所述第一信號(hào)進(jìn)行可變分辨率的時(shí)間-頻率分析,得到第二信號(hào)并發(fā)送到所述特征提取和分析單元;所述特征提取 和分析單元,用于接收所述第二獲取單元發(fā)送的所述第二信號(hào),基于所述第二信號(hào)進(jìn)行特征提取和分析,獲得針對(duì)所述語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第一獲取單元具體包括濾波器組和時(shí)域包絡(luò)模塊: 所述濾波模塊,用于將所述語(yǔ)音信號(hào)通過符合人耳聽覺特性的帶通濾波器組,獲取N個(gè)子帶信號(hào)并發(fā)送到所述時(shí)域包絡(luò)模塊,N為帶通濾波器通道數(shù),且為正整數(shù); 所述時(shí)域包絡(luò)模塊,用于接收所述濾波模塊發(fā)送的所述N個(gè)子帶信號(hào),針對(duì)每一個(gè)所述子帶信號(hào)計(jì)算時(shí)域包絡(luò),獲得所述第一信號(hào)。
13.根據(jù)權(quán)利要求11或12所述的裝置,其特征在于,所述第二獲取單元具體用于: 對(duì)每一個(gè)所述第一信號(hào)進(jìn)行L階離散小波變換,并從L階離散小波變換所獲得的小波信號(hào)中選擇M個(gè)小波信號(hào)作為第二信號(hào),其中 L、M分別為正整數(shù),基于語(yǔ)音信號(hào)的采樣率和質(zhì)量評(píng)估分析所需的頻率分辨率確定L的取值;通過L和質(zhì)量評(píng)估分析中設(shè)定的頻率分析范圍確定M的取值。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述第二獲取單元具體用于: 當(dāng)所述語(yǔ)音信號(hào)的采樣率為16KHz且所述頻率分辨率為O至15.625Hz時(shí),所述設(shè)定的頻率分析范圍為O至500Hz時(shí),對(duì)每一個(gè)所述第一信號(hào)進(jìn)行9階離散小波變換;從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇6個(gè)小波信號(hào)作為第二信號(hào),或 當(dāng)所述語(yǔ)音信號(hào)的采樣率為8KHz且所述頻率分辨率為O至15.625Hz時(shí),所述設(shè)定的頻率分析范圍為O至250Hz時(shí),對(duì)每一個(gè)所述第一信號(hào)進(jìn)行8階離散小波變換;從每一個(gè)第一信號(hào)獲得的小波信號(hào)中選擇5個(gè)小波信號(hào)作為第二信號(hào)。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述特征提取和分析單元具體包括選擇豐吳塊: 獲得N個(gè)子帶信號(hào)的M*N個(gè)小波信號(hào)后,從所述M*N個(gè)小波信號(hào)中選擇全部或多個(gè)小波信號(hào)用于進(jìn)行特征提取和分析;其中N為正整數(shù)。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,當(dāng)N=30時(shí),所述選擇模塊具體用于選擇以下多個(gè)小波信號(hào): k〈=16時(shí),選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào); 17〈=k〈=20時(shí),選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào); 21〈=k〈=30時(shí),選擇頻率范圍最多到500Hz的全部6個(gè)小波信號(hào)。
17.根據(jù)權(quán)利要求15所述的裝置,其特征在于,當(dāng)N=IS時(shí)所述選擇模塊具體用于選擇以下多個(gè)小波信號(hào): k〈=16時(shí),選擇頻率范圍最多到125Hz的4個(gè)小波信號(hào); 17〈=k〈=18時(shí),選擇頻率范圍最多到250Hz的5個(gè)小波信號(hào)。
18.根據(jù)權(quán)利要求13至17任一所述的裝置,其特征在于,所述特征提取和分析單元還包括特征量模塊和評(píng)估模塊: 所述特征量模塊,用于對(duì)所述第二信號(hào)中的每一個(gè)小波信號(hào)計(jì)算平均能量作為特征量發(fā)送到所述預(yù)測(cè)模塊; 所述評(píng)估模塊,用于接收所述特征量模塊發(fā)送的所述特征量,將所有的所述特征量組合成一個(gè)多維的特征向量,針對(duì)所述特征向量,進(jìn)行失真檢測(cè)和質(zhì)量預(yù)測(cè)后,獲得針對(duì)所述語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果。
19.根據(jù)權(quán)利要求13至18任一所述的裝置,其特征在于,所述評(píng)估模塊還用于: 對(duì)針對(duì)所述語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果與至少一個(gè)針對(duì)先前的語(yǔ)音信號(hào)的語(yǔ)音質(zhì)量評(píng)估的結(jié)果計(jì)算平均值,獲得綜合語(yǔ)音質(zhì)量評(píng)估結(jié)果。
20.根據(jù)權(quán)利要求11至19任一所述的裝置,其特征在于,所述裝置還包括重采樣單元: 所述重采樣單元,用于將各種采樣速率的語(yǔ)音信號(hào)通過重采樣處理獲得同一采樣率的所述語(yǔ)音信號(hào)。
【文檔編號(hào)】G10L15/02GK103730131SQ201210387204
【公開日】2014年4月16日 申請(qǐng)日期:2012年10月12日 優(yōu)先權(quán)日:2012年10月12日
【發(fā)明者】肖瑋 申請(qǐng)人:華為技術(shù)有限公司