亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于輸出的客觀語音質(zhì)量的評估方法與流程

文檔序號:12036195閱讀:250來源:國知局

本發(fā)明涉及語音信號處理技術(shù)領(lǐng)域,特別地,涉及一種基于輸出的客觀語音質(zhì)量的評估方法。



背景技術(shù):

語音質(zhì)量客觀評價是指用機(jī)器自動判別語音質(zhì)量,按是否需要使用輸入語音的角度可分為兩類:基于輸入-輸出方式的客觀評價和基于輸出方式的客觀評價。

在許多領(lǐng)域,如無線移動通信、航天航海以及現(xiàn)代軍事等,往往要求評價方法具有較高的靈活性、實時性和通用性,而且在得不到原始輸入語音信號情況下也要能對語音質(zhì)量進(jìn)行評估,基于輸入-輸出的方式的客觀評價中往往很難獲取對應(yīng)的原始語音,語音存儲等方面的代價更大,在這些應(yīng)用場景下存在著一定的弊端。

基于輸出的客觀語音質(zhì)量評估方法的一般過程為計算評價語音的某種特征參數(shù),并與通過特定模型學(xué)習(xí)歸納后參考語音的特征參數(shù)進(jìn)行一致性計算,最終映射得到主觀mos分的估計值。在這個過程中,特征參數(shù)、訓(xùn)練模型以及mos分映射方法的選擇是至關(guān)重要的,它影響著評估系統(tǒng)的性能。由于人耳對聲音的感知特性符合巴克臨界頻帶,因此在特征參數(shù)提取時需要實現(xiàn)線性頻率和彎折頻率轉(zhuǎn)換。同時,在無線通信這類應(yīng)用中,除了從語音本身分析外,還需要考慮信道質(zhì)量等外在因素對語音質(zhì)量的影響。

因此,設(shè)計一種能夠用來客觀評價編碼或經(jīng)信道傳輸后的語音質(zhì)量的評估方法具有重要意義。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于提供一種基于輸出的客觀語音質(zhì)量評估的方法??紤]到人耳對頻率的聽覺特性,同時兼顧語音信號的倒譜分析,采用梅爾頻率倒譜系數(shù)(mel-frequencycepstralcoefficients,mfcc)描述語音特征。通過結(jié)合梅爾頻率倒譜系數(shù)和gmm-hmm訓(xùn)練模型得到語音客觀失真值,同時將信道影響通過誤碼率指標(biāo)引入客觀測度中,然后建立主觀mos分和客觀測度之間的映射關(guān)系,得到對主觀mos分的預(yù)測模型,從而可以用來客觀評價編碼或經(jīng)信道傳輸后的語音質(zhì)量。詳情如下:

一種基于輸出的客觀語音質(zhì)量的評估方法,包括以下步驟:

計算經(jīng)過系統(tǒng)傳輸后的失真語音的梅爾頻率倒譜系數(shù);獲得符合人耳聽覺特性的參考模型;

將失真語音的梅爾頻率倒譜系數(shù)與符合人耳聽覺特性的參考模型進(jìn)行一致性量度計算;在原始語音中插入一段序列,計算在經(jīng)過系統(tǒng)傳輸后的失真語音中提取出來該序列的誤碼率;

根據(jù)一致性量度和誤碼率建立主觀mos分和一致性測度之間的映射關(guān)系,得到對待評價語音mos分的客觀預(yù)測模型,通過所述客觀預(yù)測模型進(jìn)行語音質(zhì)量的客觀評價。

以上技術(shù)方案中優(yōu)選的,所述梅爾頻率倒譜系數(shù)的計算過程包括預(yù)處理、fft變換、mel頻率濾波以及離散余弦變換四個步驟。

以上技術(shù)方案中優(yōu)選的,所述預(yù)處理具體包括以下步驟:

步驟1.1、預(yù)加重,具體是:使用具有6db/倍頻程的提升高頻特性的數(shù)字濾波器來實現(xiàn)預(yù)加重,其傳遞函數(shù)為表達(dá)式1):

h(z)=1-μz-11);

其中:μ為預(yù)加重系數(shù),其取值為0.9-1.0;

步驟1.2、端點檢測,具體是:通過設(shè)定短時能量和短時過零率的門限來進(jìn)行,設(shè)某個長度為n的短時語音信號為x(m),其短時能量e用表達(dá)式2)計算:

其短時過零率z用表達(dá)式3)計算:

其中,sgn[]是符號函數(shù),即:

步驟1.3、分幀和加窗,具體是:所述分幀是將語音劃分為一個個幀,每一幀的長度為10-30ms;所述加窗是采用hamming窗對每一幀信號進(jìn)行加窗。

以上技術(shù)方案中優(yōu)選的,所述加窗的具體過程是:設(shè)幀信號為x(n),窗函數(shù)為w(n),則加窗后的信號y(n)為表達(dá)式4):

y(n)=x(n)w(n),0≤n≤n-14);

其中,n為每幀的取樣點數(shù),w(n)的表達(dá)式為w(n)=0.54-0.46cos[2πn/(n-1)],0≤n≤n-1。

以上技術(shù)方案中優(yōu)選的,所述mel頻率濾波具體是:將經(jīng)過fft處理的離散頻譜用序列三角濾波器進(jìn)行濾波處理,得到一組系數(shù)ml、m2、……;該濾波器組的個數(shù)p由信號的截止頻率決定,所有濾波器總體上覆蓋從0hz到nyquist頻率,即采樣率的二分之一;mi由表達(dá)式5)計算得到:

其中:

f[i]是三角濾波器的中心頻率,滿足:mel(f[i+1])-mel(f[i])=mel(f[i])-mel(f[i-1]);x(k)為幀信號x(n)經(jīng)fft處理后的離散頻譜。

以上技術(shù)方案中優(yōu)選的,所述離散余弦變換具體是:將經(jīng)過mel頻率濾波的mel頻譜變換到時域,得到mel頻率倒譜系數(shù),其由表達(dá)式6)計算得到:

其中:mfcc(i)為mel頻率倒譜系數(shù),n為每幀取樣點數(shù),p為濾波器組的個數(shù)。

以上技術(shù)方案中優(yōu)選的,獲得符合人耳聽覺特性的參考模型詳細(xì)過程如下:

設(shè)觀測的特征向量序列為o=o1,o2,…,ot,該序列的狀態(tài)模型序列為s=s1,s2,…,sn,則該序列的hmm模型表示為表達(dá)式7):

λ=(π,a,b)7);

其中,π={πi=p(s1=i),i=1,2,…,n}為初始狀態(tài)概率矢量;a={aij}為狀態(tài)間跳轉(zhuǎn)的轉(zhuǎn)移概率矩陣,aij為從狀態(tài)i跳轉(zhuǎn)到狀態(tài)j的概率;b={bi(ot)=p(ot|st=i),2≤i≤n-1}為狀態(tài)的輸出概率分布集;

對連續(xù)hmm模型,觀測序列為連續(xù)信號,其與狀態(tài)j對應(yīng)的信號空間用m個混合高斯密度函數(shù)的和來表示,如表達(dá)式8)和表達(dá)式9)下:

其中,cjk表示狀態(tài)j的第k個高斯混合密度函數(shù)的系數(shù);μjk是高斯密度函數(shù)的均值向量;cjk為協(xié)方差矩陣,d為觀測序列o的維數(shù);hmm參數(shù)由觀測序列o=o1,o2,…,ot估計得到,估計的目標(biāo)是使模型與訓(xùn)練數(shù)據(jù)的似然函數(shù)p(o|λ)最大化來估計最新的λ,即使

所述似然函數(shù)p(o|λ)的前向概率計算公式如表達(dá)式10):

其中:α1(i)=πbi(o1),1≤i≤n;

所述似然函數(shù)p(o|λ)的后向概率計算公式如表達(dá)式11):

其中:βt(i)=1,1≤i≤n;

對給定觀測序列o=o1,o2,…,ot通過重估計得到最新的λ,在此定義ξt(i,j)為t時刻狀態(tài)為si且t+1時刻狀態(tài)為sj的概率,由表達(dá)式12)得到:

在給定模型λ和觀測序列o的條件下,狀態(tài)si在時刻t的后驗概率為表達(dá)式13):

由此,hmm參數(shù)λ重估計如下:

在t時刻狀態(tài)j第k個高斯混合分量的參數(shù)cjk,μjk和cjk由表達(dá)式14)、15)以及16)重新估計:

其中,γt(j,k)表示在t時刻狀態(tài)j第k個高斯混合分量的概率,可由下式得到:

以上技術(shù)方案中優(yōu)選的,一致性量度的計算方法具體是:采用表達(dá)式17)進(jìn)行計算:

其中:x1,...,xn是失真語音的梅爾頻率倒譜系數(shù)向量,n是向量個數(shù),c是失真語音與模型的一致性量度。

以上技術(shù)方案中優(yōu)選的,所述誤碼率的計算過程如下:

步驟a、產(chǎn)生一個pn序列,并與一個混沌序列相乘,混沌序列的產(chǎn)生由logistic映射產(chǎn)生,logistic映射定義如下:

xk+1=μxk(1-xk)

其中,0≤μ≤4稱為分枝參數(shù),xk∈(0,1),當(dāng)3.5699456…<μ≤4時,logistic映射工作于混沌態(tài),即初始條件在logistic映射下產(chǎn)生的的序列{xk;k=0,1,2,3…}是非周期的、不收斂的并對初始值非常敏感;生成監(jiān)測序列的具體步驟如下:

步驟a1、首先產(chǎn)生實數(shù)值序列,并選取序列中某個位置開始的長度為監(jiān)測序列大小的一段;

步驟a2、將實數(shù)值序列變?yōu)槎敌蛄校和ㄟ^定義一個閾值γ,由實數(shù)值序列得到:

二值混沌序列即為{γ(xk);k=0,1,2,3…};

步驟a3、將二值混沌序列與一個pn序列相乘,即可得到監(jiān)測序列;

步驟b、為監(jiān)測序列插入同步碼,逐幀將后面所嵌入的監(jiān)測序列提取出來;

步驟c、將插入同步碼的監(jiān)測序列在小波域中嵌入語音信號中,具體過程如下:

步驟c1、選取daubechies10小波作為小波函數(shù);

步驟c2、對語音信號進(jìn)行分幀處理,每幀的大小為1152個采樣點,并對每幀信號進(jìn)行3層小波變換;

步驟c3、對小波系數(shù)進(jìn)行量化,并對監(jiān)測序列進(jìn)行調(diào)制,從而將監(jiān)測序列嵌入語音信號中,設(shè)待量化的系數(shù)為f,嵌入的監(jiān)測序列的bit為w,量化步長為δ,量化后含有監(jiān)測序列信息的系數(shù)為f'具體步驟為:

對f取模及取整操作,當(dāng)f>0時,設(shè)n=m%2,則:

當(dāng)f<0時,設(shè)n=m%2,n=w,則:

根據(jù)上述公式一幀一幀將監(jiān)測序列嵌入到語音信號中;

步驟c4、將嵌入監(jiān)測序列的信號變換回時域信號;

步驟d、接收到的語音中提取出嵌入的監(jiān)測序列,并計算誤碼率,具體提取的過程包括以下步驟:

步驟d1、在語音信號中搜索同步碼,具體是:設(shè)需要搜索的信號長度為l,則l的長度應(yīng)當(dāng)大于兩個同步碼的長度和一個完整的監(jiān)測序列長度的總和;設(shè)信號的起始搜索點為i=1,如果信號的樣本值均在900-1100的范圍內(nèi),則認(rèn)為搜尋到了可能的同步碼,利用預(yù)設(shè)的同步碼進(jìn)行比較;如果確定為同步碼,則i點即為監(jiān)測序列的起始位置,否則令i=i+l;

步驟d2、從找到的起始點開始,對語音信號進(jìn)行離散小波變換;

步驟d3、對小波分解后的系數(shù)f作與嵌入時相逆的操作,即:f>0時,設(shè)w=m%2;f<0時,設(shè)w=m%2;

從而可以提取出二進(jìn)制監(jiān)測序列;

步驟d4、比較提取出的監(jiān)測序列和嵌入的監(jiān)測序列,通過表達(dá)式18)計算誤碼率:

其中seqsend、seqreceive和seqlength分別表示發(fā)送監(jiān)測序列、接收監(jiān)測序列和序列長度;hammingweight(·)表示求序列的漢明權(quán)重,xor表示異或操作。

以上技術(shù)方案中優(yōu)選的,所述映射關(guān)系通過表達(dá)式19)獲得:

式中:f(·)為多元非線性回歸模型;ci是第i種參數(shù)的一致性量度;n為語音特征參數(shù)的個數(shù);是c1,...,cn通過f(·)預(yù)測出的客觀mos評分。

應(yīng)用本發(fā)明的技術(shù)方案,效果是:

1、采用mfcc逼近mel頻率刻度,從而拉伸語音的低頻信息和壓制高頻信息,它可用于語音魯棒性分析和語音識別,抑制依賴于說話人的特征,保留語音段的語言學(xué)的質(zhì)量。

2、本發(fā)明建立主觀mos分和客觀測度以及信道質(zhì)量之間的映射關(guān)系,得到對主觀mos分的預(yù)測模型,使得分更接近主觀質(zhì)量。

3、本發(fā)明方法步驟精簡,使用方便,且能夠有效地客觀評估語音的質(zhì)量,不依賴主觀評價。

除了上面所描述的目的、特征和優(yōu)點之外,本發(fā)明還有其它的目的、特征和優(yōu)點。下面將參照附圖,對本發(fā)明作進(jìn)一步詳細(xì)的說明。

附圖說明

構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:

圖1是實施例1中基于輸出的客觀語音質(zhì)量的評估方法的結(jié)構(gòu)原理示意圖。

具體實施方式

以下結(jié)合附圖對本發(fā)明的實施例進(jìn)行詳細(xì)說明,但是本發(fā)明可以根據(jù)權(quán)利要求限定和覆蓋的多種不同方式實施。

實施例1:

一種基于輸出的客觀語音質(zhì)量的評估方法,詳見圖1,具體包括:計算經(jīng)過系統(tǒng)傳輸后的失真語音的梅爾頻率倒譜系數(shù)(將原始語音經(jīng)過系統(tǒng)傳輸后得到失真語音;計算梅爾頻率倒譜系數(shù)的過程即為mfcc參數(shù)提取過程);獲得符合人耳聽覺特性的參考模型(先提取參考語音的mfcc參數(shù),再獲取gmm-hmm模型);將失真語音的梅爾頻率倒譜系數(shù)與符合人耳聽覺特性的參考模型進(jìn)行一致性量度計算(即一致性計算);在原始語音中插入一段序列,計算在經(jīng)過系統(tǒng)傳輸后的失真語音中提取出來該序列的誤碼率;根據(jù)一致性量度和誤碼率建立主觀mos分和一致性測度之間的映射關(guān)系(即圖1中的mos分映射),得到對待評價語音mos分的客觀預(yù)測模型,通過所述客觀預(yù)測模型進(jìn)行語音質(zhì)量的客觀評價(此處是通過映射的mod分和主觀mos分之間的相關(guān)程度和偏離誤差作為評價標(biāo)準(zhǔn))。評價語音為itu語音庫(國際電信聯(lián)盟語音庫),詳情如下:

梅爾頻率倒譜系數(shù)的計算過程包括預(yù)處理、fft(快速傅里葉變換)變換、mel頻率濾波以及離散余弦變換四個步驟,具體是:

所述預(yù)處理具體包括以下步驟:

步驟1.1、預(yù)加重,具體是:使用具有6db/倍頻程的提升高頻特性的數(shù)字濾波器來實現(xiàn)預(yù)加重,其傳遞函數(shù)為表達(dá)式1):

h(z)=1-μz-11);

其中:μ為預(yù)加重系數(shù),其取值為0.9-1.0(此處取0.95);

步驟1.2、端點檢測,具體是:通過設(shè)定短時能量和短時過零率的門限來進(jìn)行,設(shè)某個長度為n的短時語音信號為x(m),其短時能量e用表達(dá)式2)計算:

其短時過零率z用表達(dá)式3)計算:

其中,sgn[]是符號函數(shù),即:

步驟1.3、分幀和加窗,具體是:為了能夠采用平穩(wěn)過程的分析方法進(jìn)行分析,將語音劃分為一個個幀,每一幀的長度為10-30ms;同時,為了減小語音幀的截斷效應(yīng),采用hamming窗(哈明窗)對每一幀信號進(jìn)行加窗,具體是:

設(shè)幀信號為x(n),窗函數(shù)為w(n),則加窗后的信號y(n)為表達(dá)式4):

y(n)=x(n)w(n),0≤n≤n-14);

其中,n為每幀的取樣點數(shù),w(n)的表達(dá)式為w(n)=0.54-0.46cos[2πn/(n-1)],0≤n≤n-1。

所述mel頻率濾波具體是:將經(jīng)過fft處理的離散頻譜用序列三角濾波器進(jìn)行濾波處理,得到一組系數(shù)ml、m2、……;該濾波器組的個數(shù)p由信號的截止頻率決定,所有濾波器總體上覆蓋從0hz到nyquist頻率(奈奎斯特頻率),即采樣率的二分之一;mi由表達(dá)式5)計算得到:

其中:

f[i]是三角濾波器的中心頻率,滿足:mel(f[i+1])-mel(f[i])=mel(f[i])-mel(f[i-1])。

由于mel頻譜系數(shù)都是實數(shù),可以通過離散余弦變換將其變換到時域。所述離散余弦變換具體是:將經(jīng)過mel頻率濾波的mel頻譜變換到時域,得到mel頻率倒譜系數(shù),其由表達(dá)式6)計算得到:

其中:mfcc(i)為mel頻率倒譜系數(shù),n為每幀取樣點數(shù),p為濾波器組的個數(shù)。

獲得符合人耳聽覺特性的參考模型詳細(xì)過程如下:

基于gmm-hmm的語音建模和訓(xùn)練,設(shè)觀測的特征向量序列為o=o1,o2,…,ot,該序列的狀態(tài)模型序列為s=s1,s2,…,sn,則該序列的hmm模型(隱馬爾可夫模型)表示為表達(dá)式7):

λ=(π,a,b)7);

其中,π={πi=p(s1=i),i=1,2,…,n}為初始狀態(tài)概率矢量;a={aij}為狀態(tài)間跳轉(zhuǎn)的轉(zhuǎn)移概率矩陣,aij為從狀態(tài)i跳轉(zhuǎn)到狀態(tài)j的概率;b={bi(ot)=p(ot|st=i),2≤i≤n-1}為狀態(tài)的輸出概率分布集;

對連續(xù)hmm模型,觀測序列為連續(xù)信號,其與狀態(tài)j對應(yīng)的信號空間用m個混合高斯密度函數(shù)的和來表示,如表達(dá)式8)和表達(dá)式9)下:

其中,cjk表示狀態(tài)j的第k個高斯混合密度函數(shù)的系數(shù);μjk是高斯密度函數(shù)的均值向量;cjk為協(xié)方差矩陣,d為觀測序列o的維數(shù);hmm參數(shù)由觀測序列o=o1,o2,…,ot估計得到,估計的目標(biāo)是使模型與訓(xùn)練數(shù)據(jù)的似然函數(shù)p(o|λ)最大化來估計最新的λ,即使這可以采用em算法(最大期望算法)來實現(xiàn),所述em算法包含兩部分:前向后向概率計算和hmm參數(shù)及高斯混合參數(shù)的再估計,如下:

所述似然函數(shù)p(o|λ)的前向概率計算公式如表達(dá)式10):

其中:α1(i)=πbi(o1),1≤i≤n;

所述似然函數(shù)p(o|λ)的后向概率計算公式如表達(dá)式11):

其中:βt(i)=1,1≤i≤n;

對給定觀測序列o=o1,o2,…,ot通過重估計得到最新的λ,在此定義ξt(i,j)為t時刻狀態(tài)為si且t+1時刻狀態(tài)為sj的概率,由表達(dá)式12)得到:

在給定模型λ和觀測序列o的條件下,狀態(tài)si在時刻t的后驗概率為表達(dá)式13):

由此,hmm參數(shù)λ重估計如下:

在t時刻狀態(tài)j第k個高斯混合分量的參數(shù)cjk、μjk和cjk由表達(dá)式14)、15)以及16)重新估計:

其中,γt(j,k)表示在t時刻狀態(tài)j第k個高斯混合分量的概率,可由下式得到:

一致性量度的計算方法具體是:建模后,失真語音的梅爾頻率倒譜系數(shù)與所述參考模型進(jìn)行一致性量度采用表達(dá)式17)進(jìn)行計算:

其中:x1,...,xn是失真語音的梅爾頻率倒譜系數(shù)(mfcc)向量,n是向量個數(shù),c是失真語音與模型的一致性量度。

所述誤碼率的計算過程如下:

步驟a、產(chǎn)生一個pn序列,并與一個混沌序列相乘,混沌序列的產(chǎn)生由logistic映射產(chǎn)生,logistic映射定義如下:

xk+1=μxk(1-xk)

其中,0≤μ≤4稱為分枝參數(shù),xk∈(0,1),當(dāng)3.5699456…<μ≤4時,logistic映射工作于混沌態(tài),即初始條件在logistic映射下產(chǎn)生的的序列{xk;k=0,1,2,3…}是非周期的、不收斂的并對初始值非常敏感;生成監(jiān)測序列的具體步驟如下:

步驟a1、首先產(chǎn)生實數(shù)值序列,并選取序列中某個位置開始的長度為監(jiān)測序列大小的一段;

步驟a2、將實數(shù)值序列變?yōu)槎敌蛄校和ㄟ^定義一個閾值γ,由實數(shù)值序列得到:

二值混沌序列即為{γ(xk);k=0,1,2,3…};

步驟a3、將二值混沌序列與一個pn序列(偽噪聲序列)相乘,即可得監(jiān)測序列;

步驟b、為監(jiān)測序列插入同步碼,逐幀將后面所嵌入的監(jiān)測序列提取出來,具體是:為監(jiān)測序列插入同步碼,插入同步碼的目的是為了防止音頻經(jīng)過信道的衰減后,接收端難以提取出監(jiān)測序列;我們使用的同步碼為16個比特位,為了能夠準(zhǔn)確地定位同步碼,我們采取的方法是在語音信號的時域中嵌入同步碼,具體實現(xiàn)方法為將監(jiān)測序列前的16個采樣點的振幅定為1000,這樣在接收端提取監(jiān)測序列的過程中,如果出現(xiàn)起點不同步的情況,則可以利用連續(xù)16個樣本值在900~1100的采樣點,以搜尋同步碼的方式來快速找出水印的起始樣本位置,如此,即可逐幀將后面所嵌入的監(jiān)測序列提取出來;

步驟c、將插入同步碼的監(jiān)測序列在小波域中嵌入語音信號中,選擇在小波域中嵌入的原因是變換域中嵌入監(jiān)測序列具有更好的隱蔽性,不會對原始語音造成人耳可以辨別的影響。將序列在小波域中嵌入語音的具體過程如下:

步驟c1、由于使用不同的小波基分析同一個問題會產(chǎn)生不同的結(jié)果,因此,需要根據(jù)分析的問題選擇合適的小波基,此處選取daubechies10小波作為小波函數(shù);

步驟c2、對語音信號進(jìn)行分幀處理,每幀的大小為1152個采樣點,并對每幀信號進(jìn)行3層小波變換;考慮到人耳的聽覺特性,此處選擇在高頻段嵌入序列;

步驟c3、對小波系數(shù)進(jìn)行量化,并對監(jiān)測序列進(jìn)行調(diào)制,從而將監(jiān)測序列嵌入語音信號中,設(shè)待量化的系數(shù)為f,嵌入的監(jiān)測序列的bit為w,量化步長為δ,量化后含有監(jiān)測序列信息的系數(shù)為f'具體步驟為:首先對f取模及取整操作,當(dāng)f>0時,設(shè)n=m%2,則:

當(dāng)f<0時,設(shè)n=m%2,n=w,則:

根據(jù)上述公式可以一幀一幀將監(jiān)測序列嵌入到語音信號中。

步驟c4、將嵌入監(jiān)測序列的信號變換回時域信號;

步驟d、接收到的語音中提取出嵌入的監(jiān)測序列,并計算誤碼率,詳情是:監(jiān)測序列的提取是嵌入的逆過程,因此用到的小波函數(shù)和小波分解的級數(shù)都保持不變,具體提取的過程包括以下步驟:

步驟d1、在語音信號中搜索同步碼,具體是:設(shè)需要搜索的信號長度為l,則l的長度應(yīng)當(dāng)大于兩個同步碼的長度和一個完整的監(jiān)測序列長度的總和。設(shè)信號的起始搜索點為i=1,如果信號的樣本值均在900-1100的范圍內(nèi),則認(rèn)為搜尋到了可能的同步碼,利用預(yù)設(shè)的同步碼進(jìn)行比較;如果確定為同步碼,則i點即為監(jiān)測序列的起始位置,否則令i=i+l;

步驟d2、從找到的起始點開始,對語音信號進(jìn)行離散小波變換;

步驟d3、對小波分解后的系數(shù)f作與嵌入時相逆的操作,即:

f>0時,設(shè)w=m%2;

f<0時,設(shè)w=m%2;

從而可以提取出二進(jìn)制監(jiān)測序列;

步驟d4、比較提取出的監(jiān)測序列和嵌入的監(jiān)測序列,通過表達(dá)式18)計算誤碼率(誤碼率作為語音質(zhì)量評估的一個客觀測度):

其中seqsend、seqreceive和seqlength分別表示發(fā)送監(jiān)測序列、接收監(jiān)測序列和序列長度;hammingweight(·)表示求序列的漢明權(quán)重,xor表示異或操作。

在計算出各種失真條件下語音的參數(shù)一致性量度之后,可以用一種函數(shù)映射關(guān)系來表示參數(shù)一致性量度與客觀之間的關(guān)系,即所述映射關(guān)系通過表達(dá)式19)獲得:

式中:f(·)為預(yù)測函數(shù)(它可以是線性或非線性回歸關(guān)系,也可以是多項式擬合關(guān)系,在本專利實施例中,為了得到更精確的預(yù)測mos值,此處優(yōu)選多元非線性回歸模型);ci是第i種參數(shù)的一致性量度;n為語音特征參數(shù)的個數(shù);是c1,...,cn通過f(·)預(yù)測出的客觀mos評分。誤碼率越大,說明信道中干擾越強(qiáng),傳輸過程中帶來的語音損傷也相應(yīng)也大,對應(yīng)的值越小,語音的質(zhì)量越差。

下面從相關(guān)度、偏離誤差來衡量語音質(zhì)量評估算法的性能。相關(guān)度主要反映語音質(zhì)量評估算法通過失真映射獲得預(yù)測mos分的映射關(guān)系是否合理,一般用算法映射的mos分與已知的主觀mos值之間的相關(guān)程度和偏離誤差作為評價標(biāo)準(zhǔn)。

相關(guān)系數(shù)ρ和用標(biāo)準(zhǔn)估計偏差σ通過表達(dá)式20)和表達(dá)式21)獲得:

其中:moso(i)是第i個語音的預(yù)測mos值,moss(i)是已知的mos分,n是總的語音對的數(shù)目,表示預(yù)測mos值的均值,表示mos分的均值。

相關(guān)系數(shù)ρ越接近1,預(yù)測mos值越接近真實mos值;偏離誤差σ越小,則預(yù)測誤差越小,算法的性能越好。

本實施例1的評估方法與國際電信聯(lián)盟itup.563客觀評價方法(itu-tp.563)的性能對比結(jié)果詳見表1。

從表1中可以看出,本發(fā)明方法(實施例1)相對于itu-tp.563算法性能上有了一定程度的提高,主觀mos分的平均相關(guān)度ρ較高,估計偏差σ較低,因此,本發(fā)明方法具有有效性和可行性。

表1本發(fā)明方法(實施例1)和itu-tp.563分別對語音進(jìn)行處理的性能比較表

以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1