本發(fā)明涉及一種自匹配top-n音頻事件識別信道自適應(yīng)方法,從應(yīng)用場景的角度講,屬于音頻事件識別技術(shù)領(lǐng)域;從技術(shù)實現(xiàn)的角度來講,亦屬于計算機科學(xué)與音頻處理技術(shù)領(lǐng)域。
背景技術(shù):
音頻事件識別系統(tǒng)在實際應(yīng)用中經(jīng)常由于錄制環(huán)境、采集設(shè)備、編碼方式的不同而產(chǎn)生信道失配問題,較為常見的一類是編碼差異引入的信道失配,信道自適應(yīng)方法是對信道失配中發(fā)生畸變的特征參數(shù)進行修正,從而更加準確的反應(yīng)原始語音的特征信息,信道自適應(yīng)通??煞譃樘卣饔蜃赃m應(yīng)、模型域自適應(yīng)和得分域自適應(yīng),可以選擇其中一個或多個進行自適應(yīng)。
特征域自適應(yīng)是目前應(yīng)用最廣泛的信道自適應(yīng)方法。特征域信道自適應(yīng)方法可分為信道線性自適應(yīng)和信道非線性自適應(yīng),基于信道線性自適應(yīng)的方法一般較多而且效果比較好,通常為音頻識別系統(tǒng)的標準配置。其中較為典型的信道線性自適應(yīng)方法和信道非線性自適應(yīng)方法有:
1.倒譜均值減
倒譜均值減是一種廣泛應(yīng)用于語音識別中去除信道卷積噪聲的方法,該方法的本質(zhì)是把頻域上的卷積噪聲變換成倒譜域上的加性噪聲,當在倒譜域的倒譜參數(shù)上減去均值時,就可以去除卷積噪聲,在信道畸變模型為線性特性時該性能尤為突出。但是如果語音時長較短或語音段較干凈,使用倒譜均值減方法效果就會不明顯,甚至有可能導(dǎo)致系統(tǒng)性能下降。而且當信道畸變?yōu)榉蔷€性失真的時候,倒譜均值減的有效性也會受到一定限制。
2.倒譜均值方差規(guī)整
倒譜方差規(guī)整進一步對倒譜域特征參數(shù)的方差進行規(guī)整。倒譜均值減和倒譜方差規(guī)整合在一起,稱為倒譜均值方差規(guī)整。倒譜均值方差規(guī)整思路和實現(xiàn)方式簡單,在語音識別方面取得了較好的成效,但是對于非線性失真的信道畸變效果不是非常明顯。
3.矢量泰勒級數(shù)
矢量泰勒級數(shù)是一種相對比較實用的特征補償方法,一般是通過一個顯式的模型來描述帶噪語音信號的產(chǎn)生,如果純凈語音和噪聲分別服從高斯混合模型和單一高斯分布,利用矢量泰勒展開級數(shù)方法對非線性環(huán)境模型進行線性化,保證含噪語音也服從高斯混合模型,假設(shè)訓(xùn)練以及測試語音信號均平穩(wěn),利用最大期望算法估計環(huán)境噪聲統(tǒng)計量,最后利用最小均方誤差準則估計出純凈語音特征。矢量泰勒級數(shù)算法具有良好的抗噪性能,但是該方法一般都是離線完成并且用到的高斯混合模型一般為128甚至更高,不僅迭代次數(shù)多而且計算量大,一般很難滿足實時性要求。需要對經(jīng)典算法進行改進來提升其運算效率和實時性。
4.特征映射
特征映射方法基于gmm-ubm模型,由說話人模型合成方法發(fā)展而來,該方法的目的是將信道相關(guān)的語音特征映射到一個信道無關(guān)的空間中,利用信道無關(guān)的特征向量進行模型訓(xùn)練和識別。主要過程包括兩個方面:信道模型訓(xùn)練和特征變換。特征映射方法是目前應(yīng)用最廣泛的信道自適應(yīng)方法之一,作用在特征域,具有很高的靈活性和便捷性。
綜上所述,現(xiàn)有的特征映射方法在特征變換時只就得分最大的高斯分量進行自適應(yīng),當m為高斯分量個數(shù),會遺漏其余m-1個高斯分量所包含的信道信息,而且最大得分對于不同高斯數(shù)目的信道模型往往不同,泛化性一般較差。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是為解決不同k值信道模型下高斯分量個數(shù)top-n的選擇性問題和覆蓋信道信息不均勻的問題,提出一種自匹配top-n高斯分量的音頻事件信道自適應(yīng)方法。
本發(fā)明的設(shè)計原理為:本發(fā)明首先進行數(shù)據(jù)預(yù)處理,預(yù)處理過程包括量化、采樣、預(yù)加重和加窗,然后進行特征提取,也就是對所需音頻底層特征參數(shù)進行抽取,之后進行特征向量生成,也就是對提取的特征幀序列按照段長和段移進行壓縮得到段向量,接下來是特征映射,特征映射是將信道相關(guān)特征段向量映射為信道無關(guān)特征段向量的過程,特征映射fm模塊可分為fm訓(xùn)練和fm使用兩個部分,最后進行模型訓(xùn)練和識別。
本發(fā)明的技術(shù)方案是通過如下步驟實現(xiàn)的:
步驟1,音頻識別的預(yù)處理過程主要包括預(yù)加重、分幀、加窗。在特征提取之前一般要對原始語音信號進行預(yù)加重處理,提升高頻部分譜值用一階數(shù)字濾波器來實現(xiàn),之后需要進行分幀,分幀可采用連續(xù)分段或交疊分段方法,但多采用交疊分段以保證相鄰幀之間的平滑性和連貫性,最后進行加窗以減小語音幀的截斷效應(yīng),降低語音幀兩端的變化坡度,需要選取合適的窗口長度。
步驟2,采用mfcc進行語音特征提取,將時域信號做fft變換,之后對它的對數(shù)能量譜依照mel刻度分布的三角濾波器組做卷積,計算每個濾波器組輸出的對數(shù)能量,再對濾波器組的輸出向量做離散余弦變換。
步驟3,在完成特征參數(shù)提取后,進行特征向量生成。將連續(xù)n幀特征向量的每一維特征相加計算其均值或方差,提取幀特征的共性,弱化幀特征的差異性,相鄰片段間一般有n-m幀的交疊為了提高過渡的平滑性。
步驟4,基于自匹配top-n高斯分量加權(quán)映射規(guī)則的特征映射。將來自不同信道的特征通過某種方式映射到同一個與信道無關(guān)的特征空間上,用于解決在實際音頻事件識別系統(tǒng)中因為訓(xùn)練條件和測試條件不一致導(dǎo)致識別性能下降的問題。具體實現(xiàn)方法為:
步驟4.1,使用來自各類信道的數(shù)據(jù)訓(xùn)練得到一個與信道無關(guān)的ubm模型(wi,ui,δi),其中wi表示第i個高斯概率密度函數(shù)的權(quán)重,ui表示均值,δi表示方差。
步驟4.2,根據(jù)特定的信道情況選擇相對應(yīng)的訓(xùn)練數(shù)據(jù),然后利用各個信道的訓(xùn)練特征數(shù)據(jù)逐一應(yīng)用map方法自適應(yīng)出該特定信道下的gmm模型,用(wia,uia,δia)表示在信道a條件下的gmm模型。
步驟4.3,利用整個識別系統(tǒng)信道相關(guān)的訓(xùn)練和測試特征向量進行信道模型判定,首先提取出輸入數(shù)據(jù)的特征參數(shù),然后根據(jù)對數(shù)似然度的大小判定該數(shù)據(jù)從屬的信道,我們假設(shè)該條數(shù)據(jù)屬于自信道a。
步驟4.4,采用自匹配top-n高斯分量加權(quán)的映射規(guī)則進行特征變換,根據(jù)來源于信道a的測試數(shù)據(jù)的每一幀特征矢量,在信道a的高斯混合模型的數(shù)量m個高斯分量中選出排名得分前n的高斯分量n(uka,δka)(n<m,k=1,2,...,n),設(shè)定得分閾值為ε(0<ε<1),具體n的個數(shù)是利用得分閾值自匹配得到的,當?shù)梅智皀的高斯分量的分數(shù)加和達到閾值ε時,則取該n值作為自匹配top-n高斯分量加權(quán)映射的個數(shù):
在n選定之后,分別逐一計算top-n個高斯分量在特征變換時的方差δka和均值uka對應(yīng)的權(quán)重βk,而且需要滿足
把線性加權(quán)之后的ubm和信道a條件下的gmm的基準均值和方差分別記為uk*、δk*、uka*、δka*。得到自匹配top-n高斯分量加權(quán)特征映射公式:
步驟5,利用信道無關(guān)特征向量對整個音頻事件進行模型的訓(xùn)練及識別。有益效果
相比于歸一基準得分最大的方法,本發(fā)明不會遺漏剩下的m-1個高斯分量所包含的信道信息。
相比于top-1高斯分量特征映射方法和固定top-n高斯分量加權(quán)的特征映射方法,本發(fā)明有更好的應(yīng)用性和信道自適應(yīng)性能,可為網(wǎng)絡(luò)傳輸編碼差異影響下的音頻事件識別提供一種更好的信道自適應(yīng)方法。
附圖說明
圖1為本發(fā)明的音頻事件識別系統(tǒng)原理框圖;
圖2為三種信道失配下不同k值的信道識別率;
圖3為失配1不同k值top-1和自匹配top-n方法信道自適應(yīng)性能;
圖4為失配2不同k值top-1和自匹配top-n方法信道自適應(yīng)性能;
圖5失配3不同k值top-1和自匹配top-n方法信道自適應(yīng)性能。
具體實施方式
為了更好的說明本發(fā)明的目的和優(yōu)點,下面結(jié)合實施例對本發(fā)明方法的實施方式做進一步詳細說明。
音頻事件數(shù)據(jù)選擇槍聲集作為輸入,設(shè)計并部署3項測試:(1)基準系統(tǒng)參數(shù)選取信道匹配實驗及信道失配性能對比實驗;(2)top-1高斯分量特征映射方法信道自適應(yīng)性能測試實驗;(3)自匹配top-n高斯分量加權(quán)特征映射方法實驗。
下面將對上述3個測試流程逐一進行說明,所有測試均在同一臺計算機上完成,具體配置為:intel雙核cpu(主頻2.93ghz),4.00gb內(nèi)存,windows7操作系統(tǒng)。
1.基準系統(tǒng)信道匹配及信道失配性能對比實驗
先用信道匹配數(shù)據(jù)也就是某個信道的訓(xùn)練數(shù)據(jù)和該信道的測試數(shù)據(jù)對基準系統(tǒng)在信道匹配條件下的識別準確率進行測試,例如信道1的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),然后用信道失配數(shù)據(jù),主要包括三種失配情況,分別是信道1的訓(xùn)練數(shù)據(jù)和信道2、3、4的測試數(shù)據(jù),分別測試基準系統(tǒng)在這三種信道失配情況下的識別準確率。通過綜合考慮系統(tǒng)的時間復(fù)雜度、識別率以及操作是否簡單等因素,決定選取13維mfcc+2維energy、13維+2維一階差分、13維+2維二階差分共45維音頻特征作為音頻事件識別系統(tǒng)實驗的基準特征。
2.top-1高斯分量特征映射方法實驗
2.1top-1高斯分量特征映射方法信道自適應(yīng)性能實驗
首先設(shè)置不同的k值,k即為ubm-gmm信道模型中高斯分量的個數(shù),分別使用ubm-gmm訓(xùn)練信道模型,進行模型判斷,之后利用top-1高斯分量特征映射方法進行特征映射,最后采用adaboost對槍聲集進行訓(xùn)練和識別,其中k值分別取4、8、16、32、64、128、256、512和1024,圖2給出三種信道失配情況下不同k值的系統(tǒng)信道識別率。
2.2不同top-n高斯分量的信道信息得分及其對應(yīng)的信道自適應(yīng)性能實驗
首先取信道2下的一個測試文件,其中特征提取為許多幀數(shù)據(jù){x1,x2,…xn},在進行正確的信道判定之后,計算在信道2模型下的前十幀數(shù)據(jù)的各個高斯分量概率輸出得分,列舉出得分最高的前六的概率輸出。如表1所示,高斯分量個數(shù)k取64。
表1測試幀數(shù)據(jù)屬于該信道模型下各高斯分量的得分
當k=64時,測試在失配1條件下top-1到top-6不同高斯分量加權(quán)映射下的系統(tǒng)識別性能,結(jié)果如表2所示。
表2失配1同一k值下不同top-n高斯分量方法的信道自適應(yīng)性能
3.自匹配top-n高斯分量加權(quán)特征映射方法實驗。
基準系統(tǒng)在實驗1的三種信道失配條件下,分別利用自匹配top-n高斯分量加權(quán)特征映射方法對不同k值信道模型下的信道失配自適應(yīng)性能進行測試,基準系統(tǒng)的參數(shù)配置參考top-1高斯分量特征映射方法實驗,之后和top-1高斯分量特征映射方法信道自適應(yīng)性能進行對比。自匹配top-n高斯分量加權(quán)的特征映射方法,采用得分閾值法為每幀特征數(shù)據(jù)進行自匹配,匹配出對應(yīng)的特征映射高斯分量個數(shù)n。設(shè)置實驗閾值ε=0.99999。
測試結(jié)果
對于測試(1),基準系統(tǒng)一般在信道匹配的條件下有較好的識別性能,不管在哪種信道失配條件下,受信道失配的影響很大,系統(tǒng)的識別性能都急劇下降,由此可以得出信道失配自適應(yīng)的必要性。
對于測試(2),當k值取4、8、16、32時,系統(tǒng)的識別準確率呈提升趨勢,但是當k=64時,系統(tǒng)的準確率開始下降,主要原因是訓(xùn)練樣本相對較少,從而導(dǎo)致k值比較高時建立的模型不夠精確。總的來說,top-1高斯分量特征映射方法的信道補償效果比較好,甚至在k值合適的情況下能夠達到或超過信道匹配時的系統(tǒng)識別準確率。
固定top-n高斯分量加權(quán)特征映射方法相對于top-1高斯分量特征映射方法的信道自適應(yīng)性能稍微好一些,原因是幀數(shù)據(jù)在特征空間中的分布一般由多個高斯分量共同決定,雖然多個高斯分量覆蓋信道信息更廣,但是隨著k值的增加,固定top-n個高斯分量的輸出得分會降低,包含的信道信息也會減少,而且top-n個數(shù)的選取也不能很好的適應(yīng)不同k值的信道模型,而自匹配top-n高斯分量加權(quán)的特征映射方法不僅避免了上述問題還可保持相當?shù)男诺姥a償能力。
對于測試(3),自匹配top-n高斯分量加權(quán)特征映射方法能解決不同信道模型下高斯分量個數(shù)top-n的選擇性問題,而且平均2.0%的片段f值提升及1.36%的時長f值提升,獲得比top-1以及固定top-n高斯分量加權(quán)特征映射方法更好的信道自適應(yīng)性能。
本發(fā)明提出一種自匹配top-n高斯分量的音頻事件信道自適應(yīng)方法。在音頻事件信道失配識別過程中,自匹配top-n高斯分量加權(quán)的特征映射方法可以解決不同k值信道模型下高斯分量個數(shù)top-n如何選擇和覆蓋信道信息不均勻的問題,應(yīng)用性和信道自適應(yīng)性能比top-1高斯分量特征映射方法和固定top-n高斯分量加權(quán)的特征映射方法更好,可為網(wǎng)絡(luò)傳輸編碼差異影響下的音頻事件識別提供一種較好的信道自適應(yīng)方法。