專利名稱:用于分析音源壓縮表示的聲音信號的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于分析聲音信號的方法和設(shè)備。
背景技術(shù):
更具體而言,對聲音信號的分析需要能夠表示音源。通過高斯型曲線(“高斯型曲線混合模型,Gaussian Mixture Model”或簡寫為GMM)的混合表示音源是表示音源聲學(xué)或聲音本身的有效途徑。根據(jù)該技術(shù),音源被通過預(yù)定數(shù)量的高斯型曲線的加權(quán)總和在預(yù)定尺寸的聲學(xué)參考空間中所表示。
當有大量數(shù)據(jù)可用時,并且對于模型參數(shù)的存儲或?qū)@些大量參數(shù)計算的執(zhí)行沒有物理限制時,這種類型的表示是很準確的。
現(xiàn)在,在實踐中,為了在IT系統(tǒng)內(nèi)表示音源,眾所周知音源談話的時間很短,且這些表示所需的存儲器的空間很大,同時計算這些參數(shù)所需的時間很長。
因此尋找一種可以在極大地減少所需參數(shù)數(shù)量的音源表示的同時保持其正確性能的方式是很重要的。該性能是指那些不能被識別是否屬于音源的聲音序列相對于聲音序列總量的錯誤率。
已經(jīng)有人提出了這方面的解決方案,更具體而言,是在D.E.Sturim、D.A.Reynolds、E.Singer和J.P.Campbell所著的文獻“SPEAKERINDEXING IN LARGE AUDIO DATA BASES USING ANCHORMODELS”中所提出的。特別地,作者建議不是以一種在聲學(xué)參考空間中的獨立方式表示音源,而是代之以一種相對于參考音源的表示的預(yù)定集合的相對方式——也稱作錨標模型(anchor models),對于該模型GMM-UBM(UBM代表“通用背景模型,Universal Background Model”)模型是可用的。通過歐氏距離計算一音源與參考音源之間的近似程度。這極大地減少了計算負載,但是性能仍然受限而且不充分。
發(fā)明內(nèi)容
考慮到上述問題,本發(fā)明的一個目的是通過相對于參考音源的一預(yù)定集合表示音源來分析聲音信號,其與使用GMM-UBM模型的表示相比,減少了參數(shù)數(shù)量從而減少了實時應(yīng)用的計算負荷,并具有可以接受的性能。
于是,也就可以,例如,執(zhí)行以音源為關(guān)鍵字的大型數(shù)據(jù)庫音頻文件的索引。
這樣,根據(jù)本發(fā)明的一個方面,提出了一種分析音源(λ)的聲音信號的方法,其使用概率密度表示在預(yù)定模型中的音源(λ)的聲音表示和在所述預(yù)定模型中的數(shù)量為E的參考音源的聲音表示的預(yù)定集合之間的相似度(resemblances),而且該概率密度被分析以便由此推導(dǎo)出有關(guān)聲音信號的信息。
這使得在縮短所需要的計算時間、減小所需要的存儲空間的同時,可以極大地減少所使用參數(shù)的數(shù)量并且允許實現(xiàn)該方法的設(shè)備能夠?qū)崟r工作。
在一個優(yōu)選實施例中,將維度為D、使用M高斯型曲線混合模型的獨立模型(GMM)作為預(yù)定模型,對于該模型音源(λ)通過如下參數(shù)集合所表示,包括用于所述獨立模型(GMM)中的高斯型曲線混合模型的加權(quán)系數(shù)(αi,i=1~M)、維度為D的均值向量(μi,i=1~M),以及維度為D×D的協(xié)方差矩陣(Σi,i=1~M)。
在一個優(yōu)選的實施例中,在音源(λ)的所述聲音信號的表示和參考音源的聲音表示的預(yù)定集合之間的相似度的概率密度由維度為E的均值向量(μλ)和維度為E×E的協(xié)方差矩陣(Σλ)的高斯分布(Ψ(μλ,Σλ))表示,該等均值向量(μλ)和協(xié)方差矩陣(Σλ)是在與E個參考音源的預(yù)定集合相似度的空間中估算的。
在一個優(yōu)選實施例中,作為維度為E的均值向量(μλ)和相對于E個參考音源的音源(λ)的相似度的協(xié)方差矩陣(Σλ)的函數(shù)(function),我們定義了相對于E個參考音源的音源(λ)的相似度(Ψ(μλ,Σλ)),而對于音源(λ),存在Nλ個由相對于E個參考音源的預(yù)定集合的相似度的空間的Nλ個矢量所表示的聲音信號片段。
在一個優(yōu)選實施例中,另外還引入先驗(Priori)信息到相對于E個參考音源的相似度 的概率密度中。
在一個優(yōu)選實施例中,音源(λ)的協(xié)方差矩陣與所述音源(Σ~λ=Σ~)]]>無關(guān)。
根據(jù)本發(fā)明的另一個方面,發(fā)明人提出了一種用于分析音源(λ)的聲音信號的系統(tǒng),包括數(shù)據(jù)庫,其中存儲了E個參考音源的聲音信號的預(yù)定集合和他們在預(yù)定模型中的相關(guān)聲音表示,以及音頻檔案數(shù)據(jù)庫,其特征在于,它包括用在音源(λ)的聲音表示和E個參考音源的聲音表示的預(yù)定集合之間相似度的矢量表示的聲音信號分析裝置。
在一個優(yōu)選實施例中,數(shù)據(jù)庫也存儲通過所述分析裝置所進行的聲音信號分析。
本發(fā)明可以應(yīng)用于音頻文件的檢索,然而也可以考慮用于其他應(yīng)用中,例如音源聲學(xué)識別或音源身份驗證。
通過閱讀說明書的下述部分,本發(fā)明的其他目的、特征和優(yōu)點將更加清楚,其給出并非限制本發(fā)明內(nèi)容的實施例,并提供了對使用音頻文件檢索的方法的有關(guān)應(yīng)用的附圖的參考描述。
該圖描述了根據(jù)本發(fā)明關(guān)于音頻數(shù)據(jù)庫檢索方面的系統(tǒng)的一個應(yīng)用。當然,本發(fā)明也可以應(yīng)用于音源的聲學(xué)識別或音源的身份驗證,也就是說,在通常的方式下,用于有關(guān)音源在聲學(xué)信號方面的信息識別。該系統(tǒng)包括一個用于接收音源聲音數(shù)據(jù)的裝置,例如一個擴音器(mike)1,通過有線或無線連接2連接到記錄裝置3,其由音源λ發(fā)出請求并且包括一聲音信號集合。記錄裝置3通過連接4連接到存儲裝置5,并且通過連接6連接到針對上述請求的聲學(xué)處理裝置7。這些聲學(xué)處理裝置通過用于表示音源λ的GMM模型將音源λ的聲音信號轉(zhuǎn)換成為維度為D的聲學(xué)空間表示。
根據(jù)如下等式,通過M高斯型曲線的加權(quán)總和定義了上述表示p(x|λ)=Σi=1Mαibi(x)---(1)bi(x)=1(2π)D/2·|Σi|1/2×exp[-12t(x-μi)Σi-1(x-μi)]---(2)Σi=1Mαi=1---(3)]]>
其中D是獨立GMM模型聲學(xué)空間的維度;x是維度為D的聲學(xué)矢量,即,獨立GMM模型中音源λ的聲音信號序列的cepstral系數(shù)的矢量;M表示獨立GMM模型的高斯型曲線的數(shù)量,通常是數(shù)值處于16和1024之間的2的乘方;bi(x)表示通過維度為D的均值向量μi和維度為D×D的協(xié)方差矩陣Σi予以參數(shù)化的高斯型曲線密度,其中i=1~D,以及αi表示獨立GMM模型中高斯型曲線混合模型的加權(quán)系數(shù),其中i=1~D。
用于對請求進行處理的聲學(xué)處理裝置7通過連接8連接到分析裝置9。該等分析裝置9能夠通過概率密度矢量表示音源,該概率密度矢量表示被選擇的GMM模型中的所述音源的聲音表示和被選擇的GMM模型中E個參考音源的聲音表示之間的相似度。此外,該分析裝置9還能執(zhí)行用于驗證和/或識別音源的測試。
為了執(zhí)行上述測試,分析裝置進行概率密度矢量,即在音源和參考音源之間的相似度,的公式化。
這要求通過下列等式的方式描述音源λ的信號的一個單個片段x的相關(guān)表示 其中wλ是該表示空間中與表示片段x的E個參考音源的預(yù)定集合相似度的空間的矢量; 是通過通用模型標準化的概率或概率密度,表示存在參考音源λj時,音源λ的聲音信號片段的聲學(xué)表示Xλ的相似度;TX是語音(speech)片段x的幀或聲學(xué)矢量的數(shù)量;p(xλ|λj)表示存在參考音源λj時,音源λ的聲音信號片段的聲學(xué)表示Xλ的相似度的概率;p(xλ|λUBM)是在UBM領(lǐng)域的模型中,表示音源λ的聲音信號片段的聲學(xué)表示Xλ的相似度的概率;M是相對GMM模型的高斯型曲線的數(shù)量,通常是數(shù)值處于16和1024之間的2的乘方;D是獨立GMM模型聲學(xué)空間的維度;Xλ是維度為D的聲學(xué)矢量,即獨立GMM模型中音源λ的聲音信號序列的cepstral系數(shù)的矢量;bk(x)表示通過維度為D的均值向量μK和維度為D×D的協(xié)方差矩陣ΣK參數(shù)化的高斯型曲線密度,其中k=1~D;αK表示,獨立GMM模型中高斯型曲線混合模型的加權(quán)系數(shù),其中i=1~D。
基于音源λ的語音(speech)Xj(j=1,...,Nλ)的片段的表示W(wǎng)j,音源λ通過高斯分布ψ表示,其參數(shù)μλ和Σλ由下列關(guān)系式定義μλ={μiλ}i=1,...,Ewithμiλ=1NλΣj=1Nλp~(xjλ|λ‾i)---(8)Σλ={Σii′λ}i,i′=1,...,EwithΣii′λ=1NλΣj=1Nλ(p~(xjλ|λ‾i)-μiλ)(p~(xjλ|λi′)-μi′λ)---(9)]]>其中,μiλ表示相對于E個參考音源的音源λ的相似度Ψ(μλ,Σλ)的維度為E的均值向量的μλ的組成,并且Σiiλ表示相對于E音源的音源λ的相似度Ψ(μλ,Σλ)的維度為E×E的協(xié)方差矩陣Σλ的組成。
分析裝置9通過連接10連接到訓(xùn)練裝置11,使得對被選擇的GMM模型中的E個參考音源的以維度為D的矢量形式的聲音表式的計算成為可能。訓(xùn)練裝置11通過連接12連接到數(shù)據(jù)庫13,該數(shù)據(jù)庫13包括音源的預(yù)定集合的聲音信號以及在參考GMM模型中他們的相關(guān)聲音表示。該數(shù)據(jù)庫也可以存儲初始音源,而不是所述E個參考音源,的聲音信號的分析結(jié)果。數(shù)據(jù)庫13通過連接14連接到分析裝置9,并通過連接15連接到聲學(xué)處理裝置7。
該系統(tǒng)還包括數(shù)據(jù)庫16,通過連接17連接到聲學(xué)處理裝置7,并通過連接18連接到分析裝置9。數(shù)據(jù)庫16包括聲音條目形式的音頻檔案,以及被選擇的GMM模型中的相關(guān)聲音表示。數(shù)據(jù)庫16也能存儲通過分析裝置9計算的音頻條目的相關(guān)表示。該訓(xùn)練裝置11還通過連接19連接到聲學(xué)處理裝置7。
圖1是本發(fā)明所提供的用于分析音源壓縮表示的聲音信號的系統(tǒng)的示意圖。
具體實施例方式
下面將描述該系統(tǒng)操作方式的例子,由于使用的參數(shù)的數(shù)量相對于GMM模型大大地減少,并由于可以脫機執(zhí)行多個步驟,因此該系統(tǒng)可以實時運作。
訓(xùn)練模塊11將借助于存儲在數(shù)據(jù)庫13中的這些E個參考音源的聲音信號以及聲學(xué)處理裝置7來確定E個參考音源在參考GMM模型中的表示,其根據(jù)上述的關(guān)系(1)至(3)完成該確定過程。E個參考音源的集合將表示新的聲學(xué)表示空間。在該GMM模型中的E個參考音源的表示存儲在存儲器中,例如數(shù)據(jù)庫13。所有這些可以脫機執(zhí)行。
當音源λ的聲音數(shù)據(jù)被接收時,例如通過擴音器1被接收,該等數(shù)據(jù)通過連接2傳送到記錄裝置3,而裝置3能借助于連接4將這些數(shù)據(jù)存儲到存儲裝置5中。記錄裝置3通過連接6將該等記錄傳送至聲學(xué)處理裝置7。聲學(xué)處理裝置7如之前提到的關(guān)系(1)至(3)描述的那樣計算在預(yù)定GMM模型中的音源的聲音表示。
此外,聲學(xué)處理裝置7已經(jīng)計算了S個測試音源的集合的聲音表示以及在預(yù)定GMM模型中的T個音源的集合的聲音表示,例如以脫機的方式計算。這些集合是有區(qū)別的。這些表示存儲于數(shù)據(jù)庫13中。分析裝置9計算S個音源的聲音表示以及相對于E個參考音源的T個音源的聲音表示,例如以脫機方式計算。如前所描述的,該表示是相對于這些E個參考音源的矢量表示。分析裝置9也執(zhí)行S個音源的聲音表示以及相對于E個參考音源的T個音源的聲音表示,以及音頻基礎(chǔ)的音源的條目的聲音表示,例如脫機執(zhí)行。該表示是相對于這些參考音源的矢量表示。
處理裝置7將預(yù)定GMM模型中的音源λ的聲音表示傳送至分析裝置9,其計算音源λ的聲音表示。該表示是一個通過與E個參考音源相似度的概率密度的表示。其通過借助于T個音源的聲音表示的方式引入先驗信息來計算的。特別地,通過利用該先驗信息,使其可能保持可靠的估算,即使當可利用的音源λ的語音(speech)片段很少。先驗信息借助于下列等式引入μ‾λ=N0μ0+NλμλN0+Nλ---(10)W=w1spk_1...wN1spk_1...w1spk_T...wNTspk_T---(11)]]>其中μλ相對于E個參考音源的音源λ的相似度Ψ(μλ,Σλ)的維度為E的均值向量;Nλ音源λ的聲音信號片段的數(shù)量,由與E個參考音源的預(yù)定集合的相似度的空間的nλ矢量表示;WT個音源spk_i的集合的所有原始數(shù)據(jù)的矩陣,它的列是表示聲音信號片段的維度為E的矢量,而該等聲音信號由E個參考音源的預(yù)定集合的相似度的空間矢量表示,其中每個音源spk_i具有ni個聲音片段,其特征在于它的維度為E的均值向量μ0,以及它的維度為E×E的協(xié)方差矩陣Σ0,其中i=1~T; 隨著先驗信息的引用,相對于E個參考音源的音源λ的相似度的維度為E的均值向量;Σλ隨著先驗信息的引用,相對于E個參考音源的音源λ的相似度的維度為E×E的協(xié)方差矩陣。
此外,有可能對每個音源采用單個協(xié)方差矩陣,由此使得脫機地正交化所述矩陣成為可能,并且隨后采用對角協(xié)方差矩陣執(zhí)行概率密度的計算。在這種情況下,根據(jù)下列關(guān)系式定義該單個的協(xié)方差矩陣Σ~ii′=1N0Σs=iTΣj∈Is(Wij-W‾is)(Wi′j-W‾i′s)---(12)W‾is=1NTΣj∈IsWij---(13)]]>其中W是T個音源spk_i的集合的所有原始數(shù)據(jù)的矩陣,它的列是表示聲音信號片段的維度為E的矢量,該聲音信號由E個參考音源的預(yù)定集合的相似度的空間的矢量表示,每個音源spk_i具有ni個聲音片段,其特征在于它的維度為E的均值向量μ0,和它的維度為E×E的協(xié)方差矩陣Σ0,其中i=1~T。
接下來,分析裝置9將通過音源識別和/或驗證的測試,比較請求的聲音表示和基礎(chǔ)條目的聲音表示。音源識別測試包括對該測試片段wx和音頻基礎(chǔ)條目的表示的集合之間的相似性的度量的計算。被識別的音源對應(yīng)于從S個音源的集合中得出最大相似性分值的音源,即λ^=argmaxλp(wx|μ~λ,Σ~λ)---(14)]]>音源驗證測試包括計算測試片段wx的矢量和音頻基礎(chǔ)條目的表示的集合之間的相似性的分值,其通過采用一先驗信息的表示的似然性(likelihood)分值進行標準化。如果該分值超過預(yù)定給出的閾值則該片段即通過驗證,所述分值由下列關(guān)系式給出score=p(wx|μ~λ,Σ~λ)p(wx|μ0,Σ0)---(15)]]>每次,在一個基礎(chǔ)條目中音源λ被識別出,該條目借助于信息被檢索,使得確定該音源λ在該音頻條目中交談成為可能。
本發(fā)明還可以用于其他運用,例如音源識別或音源鑒定。
由于大幅度削減了表示音源所需的參數(shù)的數(shù)量使得只需要更少的基本操作,該音源的壓縮表示使得可以極大地減少計算成本。
例如,對于音源所請求的長度為4秒鐘的語音,即250幀,對于維度為27的一個GMM模型,采用16個高斯型曲線,基本操作的數(shù)量減少了540倍(factor),因此極大地縮短了計算時間。此外,用于存儲音源表示的存儲空間也相對地減少了。
因此本發(fā)明使得極大地縮短計算時間和減少存儲音源的聲音表示的存儲空間的情況下分析音源的聲音信號成為可能。
權(quán)利要求
1.一種分析音源(λ)的聲音信號的方法,其特征在于,其使用概率密度,表示在預(yù)定模型中的音源(λ)的聲音表示和在所述預(yù)定模型中的數(shù)量為E個的參考音源的聲音表示的預(yù)定集合之間的相似度,且該概率密度被分析以便由此推導(dǎo)出有關(guān)聲音信號的信息。
2.如權(quán)利要求1所述的方法,其特征在于,把維度為D、使用M高斯型曲線混合模型的獨立模型(GMM)作為預(yù)定模型,該模型通過如下參數(shù)集合表示音源(λ),包括用于所述獨立模型(GMM)中的高斯型曲線混合模型的加權(quán)系數(shù)(αi,i=1~M)、維度為D的均值向量(μi,i=1~M),以及維度為D×D的協(xié)方差矩陣(∑i,i=1~M)。
3.如權(quán)利要求2所述的方法,其特征在于,在所述的音源(λ)的聲音信號的表示和參考音源的聲音表示的預(yù)定集合之間的相似度的概率密度是通過維度為E的均值向量(μλ)和維度為E×E的協(xié)方差矩陣(∑λ)的高斯分布(ψ(μλ,∑λ))表示的,均值向量(μλ)和協(xié)方差矩陣(∑λ)是在E個參考音源的預(yù)定集合相似度的空間中估算的。
4.如權(quán)利要求3所述的方法,其特征在于,相對于E個參考音源的音源(λ)的相似度(ψ(μλ,∑λ))被定義,作為維度為E的均值向量(μλ)和相對于E個參考音源的音源(λ)的相似度的協(xié)方差矩陣(∑λ)的函數(shù),其中,對于音源(λ)存在Nλ個相對于E個參考音源的預(yù)定集合的相似度的空間的Nλ矢量所表示的聲音信號的片段。
5.如權(quán)利要求4所述的方法,其特征在于,進一步地,一先驗信息被引入到相對于E個參考音源的相似度 的概率密度中。
6.如權(quán)利要求5所述的方法,其特征在于,音源(λ)的協(xié)方差矩陣與所述音源(Σ~λ=Σ~]]>)無關(guān)。
7.一種用于分析音源(λ)的聲音信號的系統(tǒng),包括數(shù)據(jù)庫,存儲音源預(yù)定集合的聲音信號以及他們在預(yù)定模型中通過高斯型曲線混合的相關(guān)聲音表示,以及,音頻檔案數(shù)據(jù)庫,其特征在于,其包括使用在音源(λ)的聲音表示和E個參考音源的聲音表示的預(yù)定集合之間相似度的矢量表示的聲音信號分析裝置。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,數(shù)據(jù)庫還存儲由所述分析裝置執(zhí)行的聲音信號分析。
9.如權(quán)利要求1至6中的任一權(quán)利要求所述的方法,其用于音頻文件的檢索。
10.如權(quán)利要求1至6中的任一權(quán)利要求的方法,其用于音源的識別。
11.如權(quán)利要求1至6中的任一權(quán)利要求所述的方法,其用于音源的驗證。
全文摘要
本發(fā)明涉及一種用于分析音源(λ)的聲音信號的方法,其中,使用了概率密度,其表示在預(yù)定模型中的音源(λ)的聲音表示和在所述預(yù)定模型中的一定數(shù)量(E)個參考音源的聲音表示的預(yù)定集合之間的相似度,并因此使用該概率密度以便預(yù)測有關(guān)聲音信號的信息。
文檔編號G10L17/06GK1802695SQ03826741
公開日2006年7月12日 申請日期2003年7月1日 優(yōu)先權(quán)日2003年7月1日
發(fā)明者亞辛·馬米, 德爾菲娜·沙萊 申請人:法國電信