一種基于計算聽覺場景分析的單通道語音盲分離方法
【專利摘要】本發(fā)明涉及一種基于計算聽覺場景分析的單通道語音盲分離方法,所述方法包括如下步驟:步驟一、對輸入的混疊語音進行前端處理;步驟二、對經(jīng)過步驟一處理的混疊語音進行聽覺特征提?。徊襟E三、對經(jīng)過步驟二處理的混疊語音基于諧波特性進行聽覺分割;步驟四、對經(jīng)過步驟三處理的混疊語音基于能量特征進行聽覺重組;步驟五、對經(jīng)過步驟四處理的混疊語音進行目標(biāo)語音重構(gòu)。本發(fā)明在噪聲存在的情況下,可以很好地解決單通道混疊語音分離問題,分離的語音可以應(yīng)用于語音識別的前端,在人工智能、語音通信,聲音信號增強領(lǐng)域都將有著廣闊的應(yīng)用前景。
【專利說明】一種基于計算聽覺場景分析的單通道語音盲分離方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于計算聽覺場景分析的單通道語音盲分離方法,屬于語音信號處理領(lǐng)域。
【背景技術(shù)】
[0002]語音信號處理是近年來信號處理中最引人注目的研究領(lǐng)域之一,在語音信號處理領(lǐng)域,ー個重要的問題是如何從未知信號隨機混合得到的混疊語音中分離出原始語音,混疊語音分離在噪聲消除、語音合成、語音通信等方面有重要的研究意義和實用價值。由于混疊語音在時域和頻域的重疊性,常用的語音增強方法難以實現(xiàn)語音分離。目前,混疊語音分離最常采用的方法是盲源分離方法即獨立分量分析方法,但獨立分量分析方法有一些假設(shè)條件,例如要求觀測信號的個數(shù)大于或等于源信號的個數(shù)、假定沒有噪聲等,這些條件限制了盲源分離的應(yīng)用,因此,盲源分離不能應(yīng)用于源信號個數(shù)大于觀測信號個數(shù)的單通道混疊語音分離問題,尤其是在噪聲存在的情況下,盲源分離方法應(yīng)用于混疊語音分離效果明顯惡化。
[0003]人工智能領(lǐng)域的發(fā)展需要新一代計算機的人機接ロ能自如地用語言和人類交流。語音和人類的聽覺系統(tǒng)是密切相關(guān)的,在研究語音信號本身的特性及其處理方法的同吋,研究人類聽覺系統(tǒng)感知語音信息的機理將能進ー步促進語音信號處理的研究。事實上,人類聽覺系統(tǒng)對語音信號的感知能力大大地超過了目前的信號處理水平,由于人的聽覺系統(tǒng)是ー個很強大的音頻信號處理器,特別是在強噪聲干擾下,人類能有選擇地聽取所需的內(nèi)容,能夠從雜亂的聲音信號中分辨并跟蹤其感興趣的某一路目標(biāo)信號,感知其相關(guān)信息,即所謂的“雞尾酒會效應(yīng)”。利用聽覺感知的研究成果建立模型,并用計算機來實現(xiàn)它,使聽覺場景分析應(yīng)用到機器智能中,讓機器具有智能的聽覺,這就是計算聽覺場景分析。用計算聽覺場景分析方法進行混疊語音信號分離,不僅符合人的感知特性,而且不受盲源分離方法的那些假設(shè)條件限制。計算聽覺場景分析從心理模型的角度,把聽覺組織過程看作是ー個具有層次性的加工過程,豐富了聽覺組織的理論,聽覺場景分析還用生態(tài)學(xué)的觀點來分析聽覺組織過程,從而增加了理論的外部效應(yīng),使之更加易于實際應(yīng)用。計算聽覺場景分析由于其不需要假設(shè)信號的統(tǒng)計特性和單通道條件下的可實現(xiàn)性,所以特別適合應(yīng)用于噪聲存在時的單通道混疊語音分離問題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是克服現(xiàn)有技術(shù)的缺點,解決如何從存在噪聲的單通道混疊語音中分離出目標(biāo)語音的方法,提出一種基于能量和諧波特性的計算聽覺場景分析單通道混疊語音分離方法。
[0005]本發(fā)明提出一種基于計算聽覺場景分析的單通道語音盲分離方法,其特征在于:
[0006]所述方法包括如下步驟:
[0007]步驟一、對輸入的混疊語音進行前端處理;[0008]步驟二、對經(jīng)過步驟ー處理的混疊語音進行聽覺特征提??;
[0009]步驟三、對經(jīng)過步驟二處理的混疊語音基于諧波特性進行聽覺分割;
[0010]步驟四、對經(jīng)過步驟三處理的混疊語音基于能量特征進行聽覺重組;
[0011]步驟五、對經(jīng)過步驟四處理的混疊語音進行目標(biāo)語音重構(gòu)。
[0012]進ー步地,步驟一中:所述前端處理是將輸入的混合時域信號轉(zhuǎn)化成相應(yīng)的時頻域表示形式;根據(jù)人耳的感知機理,將輸入混合聲音信號通過128個信道的Gammatone濾波器組進行帶通濾波,該濾波器的中心頻率按照等距寬(Equivalent RectangularBandwidth,ERB)在80~5kHz之間準(zhǔn)對數(shù)分布;將時頻分解后的姆一個Gammatone濾波器的輸出送入Meddis內(nèi)耳毛細胞模型;得到神經(jīng)發(fā)放率;然后,在時域上對每個毛細胞的輸出以幀長20ms,50%重疊為幀移進行分幀處理;將輸入的混合語音信號分解成為一系列時頻單元,即T-F単元;同時,為了高頻部分的特征提取和聽覺重組,對毛細胞輸出進行半波整流和低通濾波,從而得到每個通道的包絡(luò)特征。
[0013]進ー步地,步驟二中:經(jīng)過前端處理過程,混合語音信號在時域和頻域上被分解成一系列的T-F単元,在每個T-F単元中,計算下列特征函數(shù):自相關(guān)函數(shù)(Ah)、包絡(luò)自相關(guān)函數(shù)(AE)、主基音周期(P(m))、相鄰信道互相關(guān)(CH)、相鄰信道包絡(luò)互相關(guān)(CE),式(4)、式
(5)、式(6)、式(7、式⑶為其計算公式:
【權(quán)利要求】
1.一種基于計算聽覺場景分析的單通道語音盲分離方法,其特征在于: 所述方法包括如下步驟: 步驟一、對輸入的混疊語音進行前端處理; 步驟二、對經(jīng)過步驟ー處理的混疊語音進行聽覺特征提取; 步驟三、對經(jīng)過步驟二處理的混疊語音基于諧波特性進行聽覺分割; 步驟四、對經(jīng)過步驟三處理的混疊語音基于能量特征進行聽覺重組; 步驟五、對經(jīng)過步驟四處理的混疊語音進行目標(biāo)語音重構(gòu)。
2.如權(quán)利要求1所述的ー種基于計算聽覺場景分析的單通道語音盲分離方法,其特征在于: 步驟一中:所述前端處理是將輸入的混合時域信號轉(zhuǎn)化成相應(yīng)的時頻域表示形式;根據(jù)人耳的感知機理,將輸入混合聲音信號通過128個信道的Gammatone濾波器組進行帶通濾波,該濾波器的中心頻率按照等距寬(Equivalent Rectangular Bandwidth, ERB)在80~5kHz之間準(zhǔn)對數(shù)分布;將時頻分解后的姆ー個Gammatone濾波器的輸出送入Meddis內(nèi)耳毛細胞模型;得到神經(jīng)發(fā)放率;然后,在時域上對每個毛細胞的輸出以幀長20mS,50%重疊為幀移進行分幀處理;將輸入的混合語音信號分解成為一系列時頻單元,即T-F単元;同時,為了高頻部分的特征提取和聽覺重組,對毛細胞輸出進行半波整流和低通濾波,從而得到每個通道的包絡(luò)特征。
3.如權(quán)利要求1或2所述的ー種基于計算聽覺場景分析的單通道語音盲分離方法,其特征在于: 步驟二中:經(jīng)過前端處理過程,混合語音信號在時域和頻域上被分解成一系列的T-F単元,在每個T-F単元中,計算下列特征函數(shù):自相關(guān)函數(shù)(AH)、包絡(luò)自相關(guān)函數(shù)(AE)、主基音周期(P(m))、相鄰信道互相關(guān)(CH)、相鄰信道包絡(luò)互相關(guān)(CE),式(4)、式(5)、式(6)、式(7、式(8)為其計算公式:
4.如權(quán)利要求3所述的ー種基于計算聽覺場景分析的單通道語音盲分離方法,其特征在于: 步驟三中:根據(jù)聽覺特征提取的提取特征,混合語音信號經(jīng)過聽覺前端處理后的那些T-F単元,合并成對應(yīng)的聽覺片段;在時頻域中,屬于某一個聲源的連續(xù)T-F単元的片段區(qū)域,定義為段,它是介于時頻単元和語音聽覺流的中間表示; (1)類型"1"聽覺片段 對于頻率信道上的兩個相鄰T-F単元u(c,m),u(c+l, m),如果其相鄰信道互相關(guān)(CH)滿足式(9),則將這兩個T-F単元都標(biāo)記為"1";
5.如權(quán)利要求4所述的ー種基于計算聽覺場景分析的單通道語音盲分離方法,其特征在于: 步驟四中:將上ー階段來自同一個聲源的那些聽覺片段分別重組到對應(yīng)的目標(biāo)語音流和干擾噪聲流中,從而實現(xiàn)目標(biāo)語音分離; (I)T-F單元標(biāo)記 對于類型"1"聽覺片段中的T-F単元,利用該T-F単元的自相關(guān)函數(shù)和目標(biāo)語音基音頻率來刻畫諧波關(guān)系,即周期性準(zhǔn)則;如果片段"1"中的時頻單元u(c,m)滿足:AH\c,m,P\m)) >Q
6.如權(quán)利要求5所述的ー種基于計算聽覺場景分析的單通道語音盲分離方法,其特征在于: 步驟五中:利用二值模和Gammatone濾波器結(jié)構(gòu)來合成目標(biāo)語音信號的時域波形圖,從而實現(xiàn)語音信號的分離;目標(biāo)語音重構(gòu)的具體步驟如下: (1)各個Ga_atone濾波器信道的輸出信號先進行時間反轉(zhuǎn),并將其結(jié)果再次送入Gammatone 濾波器; (2)由于濾波器頻率信道間存在相位延遲,需要將上ー階段每個濾波輸出的信號再一次時間反轉(zhuǎn),來消除濾波器本身的時延; (3)利用每幀20ms, 幀移10ms的分幀原則,采用升余弦函數(shù)作為窗函數(shù),對各個濾波信道的輸出信號分幀處理; (4)以ニ值模為權(quán)值,即權(quán)值1和0,在頻率軸上對T-F單元濾波響應(yīng)進行加權(quán)求和,其輸出結(jié)果即為重構(gòu)后的目標(biāo)語音信號。
【文檔編號】G10L21/0272GK103456312SQ201310384413
【公開日】2013年12月18日 申請日期:2013年8月29日 優(yōu)先權(quán)日:2013年8月29日
【發(fā)明者】李鴻燕, 賈海蓉, 張雪英, 任光龍, 屈俊玲 申請人:太原理工大學(xué)