專利名稱:節(jié)目制作中的說話人聲音自動跟蹤變調(diào)系統(tǒng)和方法
技術領域:
本發(fā)明與影視節(jié)目制作中改變指定人的說話聲音特征,使指定人不能從聲音角度被識別的系統(tǒng)有關。
背景技術:
在影視節(jié)目(如新聞、訪談等)中,很多說話人不愿意暴露自己的真實身份,為了保護說話人,需要在后期制作時進行技術處理打上馬賽克,背對鏡頭,或者把人的臉放到陰影下等,使觀眾甚至認識他的人也無法從外表判斷出他是誰,這在一定程度上達到了預期的目的。但是,對于熟悉說話人的觀眾,即使看不到說話人的臉,只要能聽到說話人的聲音,也會判斷出說話人的身份。所以,只針對圖像的保護處理,并不能真正的保護說話人的身份。
目前,說話人聲音保護的編輯工作都是基于專業(yè)硬件調(diào)音臺及人工操作的方法,而且受到了很大的限制,例如(1)現(xiàn)場錄音條件下,不能針對多個說話人聲音混在一起時僅針對指定說話人聲音進行實時變調(diào)處理。比如外景拍攝采訪節(jié)目時,目前所能達到的是對所有的錄制聲音進行變調(diào),包括主持人的聲音,顯然這是不符合要求的。
(2)后期制作中,對指定說話人聲音段變調(diào),需要首先手工標注說話人聲音段起始和結(jié)束位置,這個工作量非常巨大。
(3)人工標注聲音的起始和結(jié)束位置過程中,人工的方法通常不能做到一個最佳的標注,特別是在采訪者和受訪者的說話聲音之間的間隔很小的情況下。為了逼近這個最佳標注,編輯者通常要反復聽聲音段,反復修改標注位置,可想而知,這種工作量有多么巨大。
(4)另外目前的硬件變調(diào)處理方法一般不能做到變調(diào)而不變長,對聲音文件變調(diào)的同時也改變了聲音文件的長度,通常會引起視頻文件中聲音和畫面的不同步,給編輯工作帶來很大的不方便。
通過以上四點可以看出,目前的聲音保護技術是不靈活的,編輯音頻文件時工作量是巨大的,如果要處理大量的音頻文件,需要大量的人力和時間,給節(jié)目的制作帶來了巨大的困難。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種能自動對指定的一個或多個說話人聲音變調(diào)、編輯、合成音頻文件,聲音保護技術靈活、方便,制作成本低的聲音自動跟蹤變調(diào)系統(tǒng)及其方法。
本發(fā)明是這樣實現(xiàn)的節(jié)目制作中的說話人聲音自動跟蹤變調(diào)系統(tǒng),包括聲音采集單元(11),采集指定說話人的聲音片斷和待處理聲音;聲學模型設立單元(12),從采集的指定說話人聲音片斷提取聲音特征矢量并求解最佳參數(shù)作為聲學模型;聲音過濾分割單元(13),將待處理聲音過濾分割成說話音和非說話音;聲音存貯單元(14),存貯聲學模型、非說話音和非指定說話人聲音;聲音特征矢量提取單元(15),從說話音中提取聲音特征矢量;說話音相似匹配過濾單元(16),將說話音的聲音特征矢量與存儲器中的聲學模型的聲音特征矢量比較,匹配的則過濾出為指定說話人聲音,不匹配的非指定說話人聲音存儲待后合成;聲音變調(diào)單元(17),將指定說話人聲音變調(diào);聲音拼接單元(18),將變調(diào)后的說話人聲音與未變調(diào)的其它聲音按聲音在時間上的先后順序拼接成處理后的聲音。
2、根據(jù)權利要求1所述的系統(tǒng),其特征在于所述的聲音變調(diào)單元包括特征矢量提取單元(121),提取輸入聲音的特片系數(shù)作為特征矢量聲學模型創(chuàng)建單元(122),對特征矢量的各分量的特征進行初始化,并對初始化參數(shù)進行多次重估和迭代,直到收斂為最佳聲音特征矢量即聲學模型。
3、根據(jù)權利要求1所述的系統(tǒng),其特征在于所述聲音過濾分割單元包括靜音過濾單元(131),過濾出靜音段;環(huán)境音過濾單元(132),過濾出環(huán)境音。
4、根據(jù)權利要求1所述的系統(tǒng),其特征在于所述聲音變調(diào)單元包括音頻幀選取單元(171),選取一個最佳的幀長度,把指定說話人聲音分成一系列與量佳幀長度等長的音頻幀;音頻幀重采樣單元(172),將音頻幀改變長度,從而改變頻譜;相鄰音頻幀拼接單元(173),將改變語調(diào)后的音頻幀拼接成完整的說話人聲音輸出。
5、根據(jù)權利要求1所述的系統(tǒng),其特征在于系統(tǒng)由N個指定說話人聲音自動跟蹤變調(diào)系統(tǒng)串行組成,上一個系統(tǒng)的聲音拼接單元的輸出接下一個系統(tǒng)的聲音采集單元的輸入。
6、節(jié)目制作中的說話人聲音自動跟蹤變調(diào)方法,包括如下步驟(1)建立說話人聲學模型,從采集的指定說話人的聲音片斷中,聲學模型設立單元提取聲音特征矢量求解最佳參數(shù)作為聲學模型并存貯,(2)聲音過濾分割,由聲音過濾分割單元將采集的待處理聲音過濾分割成說話音和非說話音,將非說話音存貯,(3)提取說話音中的各個說話人的聲音特征矢量,由聲音特征矢量提取單元提取說話音中的各說話人聲音的特征矢量,(4)從說話音中過濾出指定說話人聲音,由說話音相似匹配過濾單元將當前說話人的聲音特征矢量與存儲的指定說話人聲學模型,相似匹配過濾出指定說話人聲音,將非指定說話人聲音存貯,(5)將過濾出的指定說話人聲音變調(diào),由聲音變調(diào)單元將指定說話人聲音變調(diào)。
(6)各種聲音拼接,由聲音拼接單元將變調(diào)后的說話人聲音與未變調(diào)的分割過濾出的其它保持不變的聲音根據(jù)這些聲音段在采集的待處理聲音中的先后位置關系依次排列拼接成完整的等長的處理后的聲音。
7、根據(jù)權利要求6所述的方法,其特征在于步驟(4)所說的相似匹配是計算當前說話人聲音特征矢量與聲學模型相似概率,當計算出的匹配相似度大于選定值時,則表示當前說話人聲音為指定說話人聲音,否則不是指定說話人聲音。
8、根據(jù)權利要求7所述的方法,其特征在于將各個說話人聲音特征矢量分為重疊的幾部分,在每部分中,當前幀的判斷以前面各幀的判斷結(jié)果作為參考,計算該部分中那個人發(fā)的語音幀數(shù)與總幀數(shù)的比值最大,且大于選定值,就認定該部分是指定說話人人發(fā)出的語音。
9、根據(jù)權利要求6所述的方法,其特征在于步驟(5)包括如下步驟a.選取聲音處理幀的幀長和起始位置;b.通過限帶插值法重采樣;c.用最大互相關系數(shù)法尋找最佳匹配區(qū);d.將最佳匹配區(qū)與前面已處理幀的談入淡出區(qū)加權疊加。
10、根據(jù)權利要求6所述的方法,其特征在于由N個指定說話人聲音自動跟蹤變調(diào)系統(tǒng)串行組成,上一個系統(tǒng)的最終輸入聲音作為下一個系統(tǒng)的待處理聲音輸入,在每個系統(tǒng)中,針對當前系統(tǒng)指定的說話人事音建立聲音學模型,完成步驟(1)-(6)的整個過程。
本發(fā)明的說話人聲音識別跟蹤是基于文本無關的方法,這種方法只與說話人聲音的生物特征相關,與說話的內(nèi)容無關,脫離了語音文本識別繁重計算量的束縛。本發(fā)明中,用于識別跟蹤的GMM模型完全脫離了文本的束縛,即根據(jù)說話人聲音的生物特征創(chuàng)建了指定說話人的GMM聲學模型,在實際跟蹤識別中,無論說話人說什么內(nèi)容,都可以準確地跟蹤說話人。
而且本系統(tǒng)在對聲音變調(diào)的時候,不會改變說話人聲音的語速和持續(xù)時間,不會影響采訪節(jié)目播放的聲音效果。同時該系統(tǒng)能夠滿足現(xiàn)場實時的自動變調(diào)或者后期超實時的變調(diào)處理兩種需求。另外系統(tǒng)識別跟蹤時能精確的標注說話人聲音的起始和結(jié)束段,克服了人工標注的不準確。
聲音變調(diào)子單元中,變調(diào)前后的音頻數(shù)據(jù)樣點數(shù)完全一樣,保證了說話人語速及聲音持續(xù)時間不變;變調(diào)后的聲音頻譜特征與原有聲音相差很大,人耳朵無法從變調(diào)后的聲音識別出說話人,而且變調(diào)后的聲音質(zhì)量很好,沒有引入任何噪聲??傊?,本發(fā)明的變調(diào)既達到了說話人不能從聲音角度被識別身份的目的,也確保了節(jié)目播放的聲音質(zhì)量。
圖1為本發(fā)明的系統(tǒng)框圖。
圖2為聲學模型設立單元框圖。
圖3為聲音過濾分割單元框圖。
圖4為聲音變調(diào)單元框圖。
圖5為本發(fā)明的方法流程圖。
圖6為有多個指定說話人的系統(tǒng)框圖。
具體實施例方式
本發(fā)明包括如下步驟1,說話人聲學模型建立實施方法是人工選定一段說話人的聲音,輸入到說話人選定及建模系統(tǒng)中,根據(jù)聲音提取其特征矢量。利用提取出來的特征矢量,創(chuàng)建反映當前說話人說話特征的聲學模型。為保證所建立的聲學模型的效果,本發(fā)明在具體實施時要求初始選定的說話人聲音片斷持續(xù)時間大于一定時間(一般要求大于5秒)。
1.1說話人聲音特征矢量提取特征矢量提取即提取聲音中表征說話人的基本特征,此特征應能有效地區(qū)分不同的說話人,且對同一說話人的聲音變化保持相對穩(wěn)定。在音頻識別中,最常用的特征矢量的是LPCC(Linear PredictionCepstrucm Coefficient)倒譜系數(shù)和MFCC(Mel-frequency CepstrumCoefficients)系數(shù)。本發(fā)明以MFCC系數(shù)的提取為例,詳細說明特征矢量提取的方法。
MFCC特征矢量的提取步驟分為(1)對輸入聲音進行快速傅立葉變換(FFT)。
(2)取傅立葉變換后頻域數(shù)據(jù)模的平方為X(k),k為所對應的頻率。
(3)對X(k)進行三角濾波。
X(k)經(jīng)過三角濾波后得到一組系數(shù)m1,m2,...,mp(p為三角濾波器的個數(shù)),mi(i=1,2,..,,p)的計算公式為mi=ln[Σk=0Ni-1X(k)*Hi(k)]]]>Ni為第i個三角濾波器的采樣點數(shù),Hi(k)是三角濾波器頻率響應函數(shù)。
(4)利用余弦變換求倒譜系數(shù)Ci(i=1,2,...,n)其中,n為倒譜系數(shù)的維數(shù)。P為三角濾波器個數(shù)。
{Ci}i=1,2,..,12即為所求的MFCC特征矢量,本發(fā)明中取三角濾波器個數(shù)P=16,倒譜系數(shù)的維數(shù)n=12。
1.2說話人聲學模型創(chuàng)建說話人聲學模型通常有兩種統(tǒng)計模型,一種是隱馬爾可夫模型,一種是高斯混合模型(GMM模型)。隱馬爾可夫模型是用于文本有關的聲學模型,高斯混合模型用于文本無關的聲學模型。本發(fā)明以GMM模型為例詳細說明說話人聲學模型的建立過程。
說話人GMM聲學模型創(chuàng)建過程是利用上面提取的說話人聲音特征矢量,并根據(jù)GMM算法,求解最佳模型參數(shù)的過程,即用最佳的聲學模型參數(shù)代表說話人的聲學特征。
GMM模型是多個高斯分量的加權和,它的模型參數(shù)包括高斯分量衡權值(Pi)、高斯分量的均值矢量 、高斯分量的協(xié)方差矩陣(∑i),本發(fā)明中的協(xié)方差矩陣為對角矩陣。說話人GMM聲學模型創(chuàng)建分為模型參數(shù)初始化階段、模型參數(shù)優(yōu)化階段。
1.2.1聲學模型參數(shù)初始化說話人GMM聲學模型由M(本發(fā)明中取的高斯模型維數(shù)M=32)個高斯分量組成,對模型參數(shù)初始化過程就是對各高斯分量的權值、各高斯分量的均值矢量、各高斯分量的協(xié)方差矩陣初始化。
(1)權值Pi(i=1,2,...,M)初始化Pi=1M,i=1,2,...,M]]>(2)均值矢量 (i=1,2,...,M)初始化從說話人聲音中提取了多個特征矢量,隨機的選M個特征矢量作為GMM模型均值矢量 (i=1,2,...,M)的初始值。
(3)協(xié)方差矩陣∑i(i=1,2,...,M)初始化初始矩陣選為單位矩陣,1,0,0,...,00,1,0,...,0.......0,0,...,0,1.]]>GMM聲學模型(λ)則可以表示為λ={pi,μρi,Σi},i=1,2,...,M]]>1.2.2聲學模型參數(shù)重估為使聲學模型(λ)最好的表示說話人聲音的特性,需要對初始設置的聲學模型(λ)中的各參數(shù)(各高斯分量的權值Pi、各高斯分量的均值矢量 各高斯分量的協(xié)方差矩陣∑i,i=1,2,...,M)進行重估。經(jīng)過重估后的新模型參數(shù)再作為當前參數(shù)進行下一次的重估,這樣不停迭代直到模型收斂。本發(fā)明采用的重估方法是EM(expectation-maximization)方法。從說話人聲音X中提取了T個M(M=12)維的MFCC特征矢量 (t=1,2,…,T),其中T為輸入聲音以40ms為一幀,分成的幀的數(shù)目。則說話人聲音可表示為X={xρ1,xρ2,...,xρT},]]>參數(shù)重估表達式為(1)各高斯分量的權值Pi重估p‾i=1TΣt=1Tp(i|xρt,λ),i=1,2,...,M]]>(2)均值 的重估ρμi=Σt=1Tp(i|xρt,λ)xρtΣt=1Tp(i|xρt,λ),i=1,2,...,M]]>(3)協(xié)方差矩陣的重估σ‾i2=Σt=1Tp(i|xρt,λ)xt2Σt=1Tp(i|xρt,λ)-μ‾i2,i=1,2,...,M]]>
其中, 為第i高斯分量的協(xié)方差矩陣∑i, 為第i高斯分量的均值矢量, 是 在模型λ第i個高斯分量中的概率, 的表達式為p(i|xρt,λ)=pibi(xρt)Σk=1Mpkbk(xρt)]]>式中,pi是GMM聲紋模型中上一次重估后的第i個高斯分量的權值,bi(xρt)=1(2π)D/2|Σi|1/2exp{-12(xρt-μρi)′Σi-1(xρt-μρi)},i=1,2,...,M]]>式中,D是特征矢量 的維數(shù), 為受訪者聲學模型第i個高斯分量重估前的均值矢量;∑i為受訪者聲學模型第i個高斯分量重估前的協(xié)方差矩陣。
這樣,就得到了新的模型參數(shù)λ‾={p‾i,ρμi,Σi}(i=1,2,...,M)]]>(4)計算X在重估前的模型(λ)中的概率p(X|λ),同時計算X在量估后的模型(λ)中的概率p(X|λ),其中,p(X|λ)=Πt=1Tp(xρt|λ)]]>式中,p(xρt|λ)=Σi=1Mpibi(xρt)]]>其中, 的表達式見1.2.2節(jié),p(X|λ)計算方法與同p(X|λ)相同。當p(X|λ)≥p(X|λ),則λ代替λ作為下一次重估的當前參數(shù),從步驟1開始,反復迭代,直到p(X|λ)<p(X|λ)為止,則模型創(chuàng)建完成。p(X|λ)計算方與同p(X|λ),2.說話人聲音識別跟蹤子待處理的聲音,通過聲音過濾及分割處理,在一定程序上區(qū)分出說話聲和非說話聲,即如果輸入聲音段為非說話在聲(如靜音或者環(huán)境音),則該段聲音肯定不是指定說話人聲音,不需要對該段聲音進行識別跟蹤。反之,則提取當前聲音段的特征矢量。把提取的特征矢量與創(chuàng)建好的指定說話人聲學模型進行相似匹配,如果匹配成功,則當前聲音段則為指定說話人的聲音。
2.1待識別聲音預過濾用戶在使用系統(tǒng)時,利用聲音過濾及分割處理,區(qū)分出說話音和非說話音。
也即非說話音不作為后面聲音跟蹤的輸入,從而提高說話人聲音識別跟蹤的準確度。
聲音過濾及分割的方法是根據(jù)聲音數(shù)據(jù),計算聲音的一些特征參數(shù),從而區(qū)分出聲音的類別。其中常用的特征參數(shù)有短時平均能量、過零率協(xié)方差、基本頻率能量比、過零率周期等。下面利用這些特征參數(shù),以靜音、普通其它環(huán)境音的過濾方法為例進行詳細說明。
2.1.1靜音過濾短時平均能量是指在一個短時音頻幀內(nèi)采樣點所聚集的平均能量,對于靜音,短時平均能量非常小,基本接近零,所以通過計算短時平均能量可以過濾出靜音段,計算方法如下。
假定一段連續(xù)音頻流x得到K個采樣點,這K個采樣點被分割成疊加率為50%的M個短時幀,每個短時幀和窗口函數(shù)大小假定為N,對于第m個實時幀,其短時平均能量計算公式為Em=1NΣm[x(n)w(n-m)]2]]>其中,x(n)表示第m個短時幀中第n個采樣值,w(n)是長度為N的窗口函數(shù)。
2.1.2其它環(huán)境音過濾環(huán)境音的過濾方法是通過計算聲音的過零率協(xié)方差和基本頻率能量比率來實現(xiàn)的。對于普通的對話,過零率變化很大,其過零率協(xié)方差也就大。并且聲音能量主要集中在200HZ-3.4KHZ之間,所以其基本頻率能量也就大。
過零率協(xié)方差的計算式為Cov=Σi=1NE(xi-u)2]]>其中,N為音頻幀窗口的個數(shù);xi為每個音頻幀窗口的過零率;u為所有音頻幀窗口的過零率數(shù)學期望;E(·)為數(shù)學期望運算符基本頻率能量計算式為BT_Ratio=Σj=1TΣk=11500xj(k)2Σj=1TΣi=1nxj(i)2]]>其中,T表示聲音的時間長度;n表示頻譜分析時得到的頻率范圍;xj(k)表示在時間j頻率范圍在基本頻率以內(nèi)的聲音能量;xj(i)表示在時間j所有頻率帶的能量。
2.2待識別聲音特征提取本發(fā)明提取的聲學特征矢量計算方法見1.1節(jié)。
2.3待識別聲音中說話人聲音識別跟蹤2.3.1相似概率計算方法說話人聲音跟蹤的目的是把整個節(jié)目中關于指定說話人的聲音段標注出來,其具體實施步驟是把2.2節(jié)提取的待識別聲音的特征矢量與創(chuàng)建好了的指定說話人的聲學模型進行相似匹配,計算特征矢量與指定說話人聲學模型匹配相似概率。
特征矢量與說話人聲學模型(λ)匹配相似概率計算式為p(xρ|λ)=Σi=1Mpibi(xρ)]]>式中, 是D維的待識別聲音的特征矢量;pi(i=1,2,...,M)為說話人聲學模型高斯分量的權值
bi(xρ)=1(2π)D/2|Σi|1/2exp{-12(xρ-μρi)′Σi-1(xρ-μρi)}]]>式中, 為說話人聲學模型第i個高斯分量的均值矢量;∑i為說話人聲學模型第i個高斯分量協(xié)方差矩陣。
當計算出的匹配相似度大于一定閾值時,則表示當前聲音為指定說話人的聲音,反之則當前聲音不是指定說話人的聲音。下面將對匹配相似度閾值的選取進行詳細的討論。
2.3.2相似概率閾值的選取對于開集說話人識別,普通的做法是采用一個公共的閾值來確定接受還是拒絕當前的話者,然而這種固定閾值決策方法風險性大,效果不理想。
本發(fā)明的話者決策方法是采用一種自適應的方法,根據(jù)GMM算法訓練出一個當前說話人的相似概率閾值,其具體做法是首先用一段話者音頻(≥5秒)建立一個GMM模型。利用2.3.1節(jié)匹配概率計算公式,計算出這段話者音頻的每一幀與話者模型的匹配概率Pi(i=1,2,…N,N為當前音頻的幀數(shù)),通過實驗發(fā)現(xiàn)這些相似度概率服從正態(tài)分布,計算出這N個相似概率的均值u和標準差σ,99%以上的概率值都落入?yún)^(qū)間(u-3σ,u+3σ),取u-3σ作為當前說話人的相似度閾值。
另外因為單獨的一幀音頻在進行識別時,可能會被誤判,這樣就會對最終的識別產(chǎn)生影響。為了使這種誤判的可能性降低到幾乎為零,需要對識別概率相似度進行優(yōu)化。
假設有一個待檢測語音段,它的各個矢量分別為 把這些特征矢量分為重疊的幾部分,分法如下Segment1 Segment2 我們以每一部分作為判斷的基本單元,即被認為是一個獨立的測試音。在每一基本單元中,當前幀的判斷以前面各幀的判斷結(jié)果作為參考,最后計算該基本單元中哪個人發(fā)的語音幀數(shù)與總幀數(shù)的比值最大,且大于當前話者的相似概率閾值,就認為該單元是此人發(fā)出的語音。
采用上述方法,我們對超過100多個說話人聲音進行識別跟蹤測試,無一出現(xiàn)誤識別誤跟蹤的現(xiàn)象。
3.說話人聲音變調(diào)子系統(tǒng)目前的聲音變調(diào)方法比較多,應用的比較多的方法有相位合成、時域基音同步交疊相加法、頻域基音同步交疊相加法)、波形相似法。各種方法都有各自的優(yōu)缺點,本發(fā)明以波形相似法為例詳細說明聲音變調(diào)的實現(xiàn)過程。
把識別跟蹤成功得到的說話人聲音段輸入到說話人聲音變調(diào)子系統(tǒng)中,對聲音進行變調(diào)處理,其具體實施步驟包括選取聲音處理幀、聲音幀的重采樣、相鄰聲音幀的拼接。
說話人聲音變調(diào)子系統(tǒng)框圖如附圖(4)所示。
3.1選取最佳音頻幀選取聲音處理幀主要包括幀長的選擇和處理幀起始位置的選擇,從而實現(xiàn)效果最佳的變調(diào)處理。
3.1.1幀長的選擇幀長是影響變調(diào)效果的一個重要因素,如果幀長選擇的太小,低頻部分就會失真,如果幀長選擇過大又會引入不連續(xù)的回聲,尤其在升調(diào)處理的時候更為明顯。經(jīng)過大量的測試,具體實施時幀長選擇40ms(如果一段聲音的采樣頻率為fs,那么一幀所包含的樣點數(shù)為N=fs*40*0.001)比較合適。
3.1.2音頻幀起始位置的選擇在選擇下一步要處理的幀時,不能任意從原始聲音段中選取,因為考慮到要保持變調(diào)前后聲音時間長度不變,也就是樣點個數(shù)不變,選取的每幀起點位置應由與前面已經(jīng)輸出幀的最后一點垂直對應的原始聲音坐標點位置決定。
3.2音頻幀重采樣通過重采樣使聲音的頻譜收縮或擴展,從而達到變調(diào)的效果。離散信號的重采樣方法有很多種,例如,拉格朗日插值、三次樣條插值、貝塞爾樣條插值等,這些方法多用在圖形學等其它領域,對于音頻領域卻不理想,因為它們在改變聲調(diào)的同時會引入噪聲或金屬音,影響了觀眾的聽覺效果。因此我們采取限帶插值法,該方法完全基于香農(nóng)(Shannon)采樣定理,插值后不會降低音頻的質(zhì)量。
限帶插值法公式如下y(t)=Σi=0hendx(n-i)[h(l+iL)+ηh‾(l+iL)]+Σi=0hendx(n+1+i)[h(l+iL)+ηh‾(l+iL)]]]>其中,h(l)=h(l+1)-h(l);y(t)表示插入的數(shù)據(jù),t表示插入點的坐標;x(n)表示原始信號的第n個數(shù)據(jù);h(l)表示低通濾波響應系數(shù),h end表示低通濾波響應系數(shù)總個數(shù)的一半,L表示采樣點的間隔;η表示重采樣系數(shù),即變調(diào)系數(shù);3.3相鄰音頻幀的拼接為保證語速和聲音持續(xù)時間不變,當處理完一幀數(shù)據(jù)后,需要與前面處理過的數(shù)據(jù)進行拼接,形成完整的一段聲音。但是,僅僅簡單的將當前幀與前面處理幀疊加拼接,往往會帶來相位的不連續(xù),從而影響聲音質(zhì)量。所以,我們在拼接時,首先要在當前幀的搜索區(qū)域中尋找與前面已處理幀的淡入淡出區(qū)域最相似的匹配區(qū),然后對二者進行淡入淡出加權疊加,使兩幀的連接處平滑,保證波形的相似和相位的連續(xù),不會破壞聲音內(nèi)容,不會引入噪聲。
相鄰幀拼接主要包括尋找最佳匹配區(qū)和淡入淡出加權疊加兩部分。
3.3.1尋找最佳匹配區(qū)尋找最佳匹配區(qū)的方法一般有最大互相關系數(shù)法、最大歸一化互相關系數(shù)法、最小平均幅度差系數(shù)法三種,本發(fā)明在具體實施時選用的是最大互相關系數(shù)法。
計算方法如下Cc(k)=Σn=0N-1x1(n)×x2(k+n),k=0,1,2KL-1]]>其中,x1(n)是淡入淡出區(qū)的第n個數(shù)據(jù),x2(k+n)是搜索區(qū)的第k個匹配區(qū)中第n個數(shù)據(jù),N表示淡入淡出區(qū)域的長度,L表示搜索區(qū)域的長度;k是匹配區(qū)起始點的位置。使Cc最大的k值就是最佳匹配區(qū)的起始點位置。
雖然該方法計算量比最小平均幅度差系數(shù)法偏大,但是尋找結(jié)果最為精確,而且我們用CPU的多媒體指令集編寫該算法,使變調(diào)處理速度達到了超實時的運算效率。
3.3.2淡入淡出加權疊加淡入淡出加權疊加中用到的是海明(Hamming)窗,Hamming窗函數(shù)表示如下W(n)0.54-0.46*cos(2πn/(N-1))n=0~N-10others]]>其中,N為Hamming窗的采樣點數(shù)。
拼接區(qū)加權疊加公式如下Cross(n)=x1(n)×W(n)+x2(n)×W(n+N2),0≤n≤N-1]]>其中,Cross(n)是拼接區(qū)第n個數(shù)據(jù),x1(n)是淡入淡出區(qū)的第n個數(shù)據(jù),x2(n)是最佳匹配區(qū)的第n個數(shù)據(jù)。
完成上述操作后,繼續(xù)選定下一幀從3.1開始循環(huán)處理。
4、聲音拼接通過系統(tǒng)的識別跟蹤及變調(diào)處理后,輸入聲音拼接單元的聲音包括保持不變的聲音段、識別跟蹤成功并變調(diào)后的聲音段。根據(jù)這些聲音段在輸入的待處理聲音中的先后位置關系,依次的拼接排列在一起。從而實現(xiàn)輸入聲音與輸出聲音的等長。
5、多個說話人聲音自動跟蹤變調(diào)以上各子系統(tǒng)的說明都是針對某一個指定說話人聲音識別跟蹤變調(diào)。然而在實際就用中,通常事先指定幾個說話人聲音,在識別跟蹤過程中,對幾個說話人聲音都需要做變調(diào)處理。所以本發(fā)明中多個說話人聲音自動跟蹤變調(diào)系統(tǒng)就是針對這種情況而設計的。
該系統(tǒng)的實現(xiàn)方法是系統(tǒng)由N個說話人聲音跟蹤變調(diào)系統(tǒng)串行組成,上一個系統(tǒng)的聲音輸出作為下一個系統(tǒng)的聲音輸入。在每個系統(tǒng)中,針對當前系統(tǒng)對應的說話人聲音建立相應的聲學模型,并利用聲學模型對當前指定說話人的聲音進行跟蹤變調(diào)處理,然后把處理完成的聲音輸入到下一個系統(tǒng)中。下一個系統(tǒng)則用同樣的方法對另外一個指定的說話人聲音進行跟蹤變調(diào)處理。從復此操作,直到所有指定說話人聲音跟蹤變調(diào)處理完成。系統(tǒng)串行的數(shù)目N由用戶決定,比如需要對3個不同的說話人進行跟蹤變調(diào)處理,則N=3。
權利要求
1.節(jié)目制作中的說話人聲音自動跟蹤變調(diào)系統(tǒng),包括聲音采集單元(11),采集指定說話人的聲音片斷和待處理聲音;聲學模型設立單元(12),從采集的指定說話人聲音片斷提取聲音特征矢量并求解最佳參數(shù)作為聲學模型;聲音過濾分割單元(13),將待處理聲音過濾分割成說話音和非說話音;聲音存貯單元(14),存貯聲學模型、非說話音和非指定說話人聲音;聲音特征矢量提取單元(15),從說話音中提取聲音特征矢量;說話音相似匹配過濾單元(16),將說話音的聲音特征矢量與存儲器中的聲學模型的聲音特征矢量比較,匹配的則過濾出為指定說話人聲音,不匹配的非指定說話人聲音存儲待后合成;聲音變調(diào)單元(17),將指定說話人聲音變調(diào);聲音拼接單元(18),將變調(diào)后的說話人聲音與未變調(diào)的其它聲音按聲音在時間上的先后順序拼接成處理后的聲音。
2.根據(jù)權利要求1所述的系統(tǒng),其特征在于所述的聲音變調(diào)單元包括特征矢量提取單元(121),提取輸入聲音的特片系數(shù)作為特征矢量聲學模型創(chuàng)建單元(122),對特征矢量的各分量的特征進行初始化,并對初始化參數(shù)進行多次重估和迭代,直到收斂為最佳聲音特征矢量即聲學模型。
3.根據(jù)權利要求1所述的系統(tǒng),其特征在于所述聲音過濾分割單元包括靜音過濾單元(131),過濾出靜音段;環(huán)境音過濾單元(132),過濾出環(huán)境音。
4.根據(jù)權利要求1所述的系統(tǒng),其特征在于所述聲音變調(diào)單元包括音頻幀選取單元(171),選取一個最佳的幀長度,把指定說話人聲音分成一系列與量佳幀長度等長的音頻幀;音頻幀重采樣單元(172),將音頻幀改變長度,從而改變頻譜;相鄰音頻幀拼接單元(173),將改變語調(diào)后的音頻幀拼接成完整的說話人聲音輸出。
5.根據(jù)權利要求1所述的系統(tǒng),其特征在于系統(tǒng)由N個指定說話人聲音自動跟蹤變調(diào)系統(tǒng)串行組成,上一個系統(tǒng)的聲音拼接單元的輸出接下一個系統(tǒng)的聲音采集單元的輸入。
6.節(jié)目制作中的說話人聲音自動跟蹤變調(diào)方法,包括如下步驟(1)建立說話人聲學模型,從采集的指定說話人的聲音片斷中,聲學模型設立單元提取聲音特征矢量求解最佳參數(shù)作為聲學模型并存貯,(2)聲音過濾分割,由聲音過濾分割單元將采集的待處理聲音過濾分割成說話音和非說話音,將非說話音存貯,(3)提取說話音中的各個說話人的聲音特征矢量,由聲音特征矢量提取單元提取說話音中的各說話人聲音的特征矢量,(4)從說話音中過濾出指定說話人聲音,由說話音相似匹配過濾單元將當前說話人的聲音特征矢量與存儲的指定說話人聲學模型,相似匹配過濾出指定說話人聲音,將非指定說話人聲音存貯,(5)將過濾出的指定說話人聲音變調(diào),由聲音變調(diào)單元將指定說話人聲音變調(diào)。(6)各種聲音拼接,由聲音拼接單元將變調(diào)后的說話人聲音與未變調(diào)的分割過濾出的其它保持不變的聲音根據(jù)這些聲音段在采集的待處理聲音中的先后位置關系依次排列拼接成完整的等長的處理后的聲音。
7.根據(jù)權利要求6所述的方法,其特征在于步驟(4)所說的相似匹配是計算當前說話人聲音特征矢量與聲學模型相似概率,當計算出的匹配相似度大于選定值時,則表示當前說話人聲音為指定說話人聲音,否則不是指定說話人聲音。
8.根據(jù)權利要求7所述的方法,其特征在于將各個說話人聲音特征矢量分為重疊的幾部分,在每部分中,當前幀的判斷以前面各幀的判斷結(jié)果作為參考,計算該部分中那個人發(fā)的語音幀數(shù)與總幀數(shù)的比值最大,且大于選定值,就認定該部分是指定說話人人發(fā)出的語音。
9.根據(jù)權利要求6所述的方法,其特征在于步驟(5)包括如下步驟a.選取聲音處理幀的幀長和起始位置;b.通過限帶插值法重采樣;c.用最大互相關系數(shù)法尋找最佳匹配區(qū);d.將最佳匹配區(qū)與前面已處理幀的談入淡出區(qū)加權疊加。
10.根據(jù)權利要求6所述的方法,其特征在于由N個指定說話人聲音自動跟蹤變調(diào)系統(tǒng)串行組成,上一個系統(tǒng)的最終輸入聲音作為下一個系統(tǒng)的待處理聲音輸入,在每個系統(tǒng)中,針對當前系統(tǒng)指定的說話人事音建立聲音學模型,完成步驟(1)-(6)的整個過程。
全文摘要
本發(fā)明節(jié)目制作中的說話人聲音自動跟蹤變調(diào)系統(tǒng)和方法,包括聲音采集單元(11),采集指定說話人的聲音片斷和待處理聲音;聲學模型設立單元(12),從采集的指定說話人聲音片斷求解最佳參數(shù)作為聲學模型;聲音過濾分割單元(13),將待處理聲音過濾分割成說話音和非說話音;聲音存貯單元(14),存貯聲學模型、非說話音和非指定說話人聲音;聲音特征矢量提取單元(15),從說話音中提取聲音特征矢量;說話音相似匹配過濾單元(16),將說話音的聲音特征矢量與存儲器中的聲學模型的聲音特征矢量比較。聲音變調(diào)單元(17),將指定說話人聲音變調(diào);聲音拼接單元(18),將變調(diào)后的說話人聲音與未變調(diào)的其它聲音按聲音在時間上的先后順序拼接成處理后的聲音。
文檔編號G10L15/00GK1967657SQ20051002209
公開日2007年5月23日 申請日期2005年11月18日 優(yōu)先權日2005年11月18日
發(fā)明者歐陽睿章, 潘巧海, 龔俊杰 申請人:成都索貝數(shù)碼科技股份有限公司