本發(fā)明屬于語音信號的處理,本發(fā)明涉及一種基于低秩分解和圖正則化的多說話人語音分離方法及系統(tǒng)。適用于復雜環(huán)境中的多說話人語音分離應用,如雞尾酒會效應、遠場語音識別、實時語音分離系統(tǒng)等。
背景技術(shù):
1、隨著智能語音設(shè)備的普及以及語音交互系統(tǒng)的廣泛應用,語音信號處理技術(shù)已成為人工智能領(lǐng)域的核心研究方向之一。在現(xiàn)實生活中,語音信號往往處于復雜的聲學環(huán)境中,存在多種噪聲干擾以及多個說話人同時講話的情況。這類場景下,如何有效分離出不同說話人的語音成為了語音信號處理中的一個關(guān)鍵問題,尤其是在“雞尾酒會效應”中,即多個說話人同時講話的環(huán)境下進行語音分離。
2、傳統(tǒng)的語音分離方法主要依賴于基于濾波器組和盲源分離技術(shù)(blind?sourceseparation,bss),如獨立分量分析(independent?component?analysis,ica)或非負矩陣分解(non-negative?matrix?factorization,nmf)。這些方法在處理單一聲源時效果較好,但在多聲源、噪聲環(huán)境下表現(xiàn)較差。此外,隨著深度學習的興起,基于神經(jīng)網(wǎng)絡(luò)的方法也被應用于語音分離任務中,例如時間頻率掩碼(time-frequency?masking)和深度分離網(wǎng)絡(luò)(deep?separation?networks)。然而,這些方法通常需要大量的訓練數(shù)據(jù),并且在面對動態(tài)噪聲環(huán)境或多說話人時存在性能瓶頸。
3、研究發(fā)現(xiàn),語音信號在時頻域中具有較強的結(jié)構(gòu)性,尤其是單個說話人的語音特征通??梢酝ㄟ^較低維度的子空間進行表示,這意味著其特征矩陣具有低秩特性。同時,不同頻率成分之間存在相關(guān)性和冗余性,這些信息可以通過圖結(jié)構(gòu)來捕捉?;谶@一特點,近年來的研究逐漸將低秩分解與圖學習方法結(jié)合,通過低秩分解提取語音的主要成分,并利用圖正則化技術(shù)在頻率和時間維度上保持特征矩陣的平滑性。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于低秩分解和圖正則化的多說話人語音分離方法及系統(tǒng),結(jié)合低秩特性和圖正則化,使特征矩陣在復雜環(huán)境(如噪聲和多說話人環(huán)境)下保持平滑和一致性,不僅能夠有效分離多說話人的語音,還具有較強的抗噪性和魯棒性。
2、實現(xiàn)本發(fā)明目的的技術(shù)解決方案為:
3、一種基于低秩分解和圖正則化的多說話人語音分離方法,包括以下步驟:
4、s01:對混合語音信號進行采樣并對采樣信號進行短時傅里葉變換,得到時頻域復數(shù)矩陣;
5、s02:將復數(shù)矩陣的幅度譜作為特征矩陣;
6、s03:利用低秩矩陣分解特征矩陣得到各個說話人的特征矩陣,建立優(yōu)化目標函數(shù),在每個說話人的低秩特征矩陣上應用圖正則化;
7、s04:迭代優(yōu)化得到每個說話人的特征矩陣,得到各個說話人的語音信號。
8、優(yōu)選的技術(shù)方案中,步驟s01中時頻域復數(shù)矩陣為:
9、
10、其中,f是頻率,t是時間窗的中心,w[n-t]是窗口函數(shù),用于局部化時間窗內(nèi)的信號,y[n]是混合語音信號第n個采樣點,n是每個時間窗內(nèi)的采樣點數(shù),即窗口長度,復數(shù)矩陣d(f,t)的行對應頻率f,列對應時間窗。
11、優(yōu)選的技術(shù)方案中,步驟s02將復數(shù)矩陣的幅度譜作為特征矩陣包括:
12、計算復數(shù)矩陣d(f,t)的幅度譜:
13、
14、其中,和分別為d(f,t)的實部與虛部,|d(f,t)|的維度為m×t,m為頻率分量的數(shù)量,t是時間窗的數(shù)量;
15、特征矩陣y(f,t)=|d(f,t)|。
16、優(yōu)選的技術(shù)方案中,步驟s03中建立優(yōu)化目標函數(shù)為:
17、
18、其中,k為說話人的總數(shù),xk為第k個說話人對應的低秩特征矩陣,y為特征矩陣,是矩陣的弗羅比尼烏斯范數(shù),||xk||*是核范數(shù),λ1為低秩正則化參數(shù)。
19、優(yōu)選的技術(shù)方案中,步驟s03中在每個說話人的低秩特征矩陣上應用圖正則化為:
20、
21、其中,tr(·)表示矩陣的跡,λs表示第s個尺度上的權(quán)重參數(shù),s尺度的數(shù)量,ls為每個尺度s上的圖拉普拉斯矩陣。
22、優(yōu)選的技術(shù)方案中,每個尺度s上的圖拉普拉斯矩陣為:
23、ls=ds-ws
24、其中,ds為度矩陣,度矩陣ds的對角元素表示節(jié)點i的度,
25、ns是第s個尺度下的節(jié)點數(shù),為尺度s對應的加權(quán)鄰接矩陣ws的元素,為尺度s的節(jié)點i和j之間的邊權(quán)重。
26、優(yōu)選的技術(shù)方案中,步驟s04中通過交替乘子法迭代優(yōu)化得到每個說話人的特征矩陣,具體的步驟為:
27、s41:固定其他說話人的特征矩陣,更新當前說話人的特征矩陣;
28、s42:在不同尺度上重新計算圖拉普拉斯矩陣ls,并在多個尺度上應用正則化;
29、s43:循環(huán)迭代,直至損失函數(shù)收斂。
30、本發(fā)明還公開了一種基于低秩分解和圖正則化的多說話人語音分離系統(tǒng),包括:
31、采樣變換模塊,對混合語音信號進行采樣并對采樣信號進行短時傅里葉變換,得到時頻域復數(shù)矩陣;
32、特征矩陣提取模塊,將復數(shù)矩陣的幅度譜作為特征矩陣;
33、低秩分解和圖正則化模塊,利用低秩矩陣分解特征矩陣得到各個說話人的特征矩陣,建立優(yōu)化目標函數(shù),在每個說話人的低秩特征矩陣上應用圖正則化;
34、迭代優(yōu)化模塊,迭代優(yōu)化得到每個說話人的特征矩陣,得到各個說話人的語音信號。
35、優(yōu)選的技術(shù)方案中,所述低秩分解和圖正則化模塊中建立優(yōu)化目標函數(shù)為:
36、
37、其中,k為說話人的總數(shù),xk為第k個說話人對應的低秩特征矩陣,y為特征矩陣,是矩陣的弗羅比尼烏斯范數(shù),||xk||*是核范數(shù),λ1為低秩正則化參數(shù)。
38、本發(fā)明又公開了一種計算機存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被執(zhí)行時實現(xiàn)上述的基于低秩分解和圖正則化的多說話人語音分離方法。
39、本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點為:
40、1、高魯棒性:結(jié)合低秩特性和圖正則化,使特征矩陣在復雜環(huán)境(如噪聲和多說話人環(huán)境)下保持平滑和一致性。通過結(jié)合低秩分解和圖正則化,可以實現(xiàn)高效的語音分離。
41、1、適應性強:該方法可適應不同數(shù)量的說話人和多種環(huán)境噪聲,通過調(diào)整參數(shù)來優(yōu)化分離效果。
42、3、實時處理能力:通過迭代優(yōu)化方法(如admm),實現(xiàn)準實時的語音分離處理。
1.一種基于低秩分解和圖正則化的多說話人語音分離方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于低秩分解和圖正則化的多說話人語音分離方法,其特征在于,步驟s01中時頻域復數(shù)矩陣為:
3.根據(jù)權(quán)利要求2所述的基于低秩分解和圖正則化的多說話人語音分離方法,其特征在于,步驟s02將復數(shù)矩陣的幅度譜作為特征矩陣包括:
4.根據(jù)權(quán)利要求1所述的基于低秩分解和圖正則化的多說話人語音分離方法,其特征在于,步驟s03中建立優(yōu)化目標函數(shù)為:
5.根據(jù)權(quán)利要求4所述的基于低秩分解和圖正則化的多說話人語音分離方法,其特征在于,步驟s03中在每個說話人的低秩特征矩陣上應用圖正則化為:
6.根據(jù)權(quán)利要求5所述的基于低秩分解和圖正則化的多說話人語音分離方法,其特征在于,每個尺度s上的圖拉普拉斯矩陣為:
7.根據(jù)權(quán)利要求6所述的基于低秩分解和圖正則化的多說話人語音分離方法,其特征在于,步驟s04中通過交替乘子法迭代優(yōu)化得到每個說話人的特征矩陣,具體的步驟為:
8.一種基于低秩分解和圖正則化的多說話人語音分離系統(tǒng),其特征在于,包括:
9.根據(jù)權(quán)利要求8所述的基于低秩分解和圖正則化的多說話人語音分離系統(tǒng),其特征在于,所述低秩分解和圖正則化模塊中建立優(yōu)化目標函數(shù)為:
10.一種計算機存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被執(zhí)行時實現(xiàn)權(quán)利要求1-7所述的基于低秩分解和圖正則化的多說話人語音分離方法。