專利名稱:音頻編輯系統(tǒng)和音頻編輯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻聚類技術(shù)領(lǐng)域,特別涉及一種音頻編輯系統(tǒng)和音頻編輯方法。
背景技術(shù):
說話人聚類是聚類技術(shù)在語音信號(hào)處理方面的一個(gè)具體應(yīng)用,其目的是通過對語音段進(jìn)行分類,使得每一類只包含同一個(gè)說話人數(shù)據(jù),并且同一說話人的數(shù)據(jù)都被歸并到同一類中,從而獲取說話人的特定信息。從應(yīng)用角度講,說話人聚類技術(shù)可以應(yīng)用于音頻信息管理,檢索等領(lǐng)域。它有助于在會(huì)議,語音郵箱、講座以及新聞廣播節(jié)目的音頻流中實(shí)現(xiàn)說話人跟蹤,從而實(shí)現(xiàn)對音頻數(shù)據(jù)的結(jié)構(gòu)化分析,理解和管理。特別的,聚類算法對語音識(shí)別系統(tǒng)也有非常重要的實(shí)用價(jià)值,當(dāng)今幾乎所有的自動(dòng)語音識(shí)別系統(tǒng)都采用了自適應(yīng)技術(shù),而聚類算法的好壞將直接影響說話人自適應(yīng)的性能。對一個(gè)說話人聚類系統(tǒng)來說,最為關(guān)鍵的一個(gè)步驟是對音頻數(shù)據(jù)進(jìn)行說話人的分割,只有分割的正確,才能使得后端的聚類性能有所保障。針對不同的聚類系統(tǒng)架構(gòu),有兩種典型的說話人分割技術(shù)首先,對分步分割聚類系統(tǒng)來說,以非專利文獻(xiàn)1為代表,首先通過音頻距離計(jì)算的方法將音頻流進(jìn)行說話人切分,之后再將分散的語音段落進(jìn)行歸并, 實(shí)現(xiàn)聚類的目的;其次,對同步分割聚類系統(tǒng)來說,以非專利文獻(xiàn)2系統(tǒng)作為代表,一般為基于模型的方法,在分割的同時(shí)完成了聚類。這兩種框架各有優(yōu)缺點(diǎn),前者在聚類過程中不加修正地繼承了分割步驟的錯(cuò)誤,由于距離測算的方法有一定局限性,會(huì)產(chǎn)生錯(cuò)誤的累積; 而后者由于大多使用的為隱馬爾科夫模型,模型的初始化通過對音頻數(shù)據(jù)直接進(jìn)行等分來進(jìn)行,初始引入的誤差較大,給模型的收斂速度帶來一定的問題,同時(shí)由于隱馬爾科夫模型基于幀進(jìn)行分類的特點(diǎn),在進(jìn)行切分的時(shí)候不加限制會(huì)引入一定的誤差,一般的做法是對每一個(gè)隱馬爾科夫模型的停駐時(shí)間加一定的時(shí)長限制,這種做法給系統(tǒng)的靈活性帶來了很大的局限。非專禾0 文獻(xiàn) 1 :Dan Istrate, Corinne Fredouille, Sylvain Meignier. NIST RT' 05S evaluation-Pre-processing techniques and Speaker Diarization on Multiple Microphone meetings. Machine Learning for Multimodal Interaction. 2006非專利文獻(xiàn) 2 :Fredouille, C. and Senay, G. , Technical improvements of the e-hmm based speaker diarization system for meeting records,Machine Learning for Multimodal Interaction,200
發(fā)明內(nèi)容
為了克服所述現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種結(jié)合距離測算,說話人聚類以及模型分割三種技術(shù)的說話人分割框架。本發(fā)明的目的是通過距離測算得到音頻流的初始切分信息;利用說話人聚類技術(shù)得到說話人種子數(shù)據(jù)類,并訓(xùn)練相應(yīng)的說話人隱馬爾科夫模型;同時(shí),利用初始切分得到的片段數(shù)目控制了隱馬爾克夫模型的搜索空間構(gòu)造,在切分過程中迭代更新模型,從而提高說話人分割的性能。
為了實(shí)現(xiàn)所述目的,本發(fā)明提供了一種音頻編輯系統(tǒng),包括讀取裝置,將音頻流讀取到所述音頻編輯系統(tǒng)中;初始切分裝置,將由所述讀取裝置讀取的音頻流初始切分為多個(gè)不同的片段;音頻聚類裝置,基于層次聚類的算法,對由所述初始切分裝置初始切分的多個(gè)片段進(jìn)行有監(jiān)督聚類,將屬于同一性質(zhì)的片段聚成一個(gè)類別;重新切分裝置,利用所述音頻聚類裝置聚類的結(jié)果,訓(xùn)練得到每個(gè)類別相應(yīng)的隱馬爾科夫模型,并對所述音頻流進(jìn)行維特比對齊切分,得到按類別切分后的音頻流。另外,本發(fā)明提供了一種音頻編輯系統(tǒng),包括讀取裝置,將多個(gè)聲道的音頻流讀取到所述音頻編輯系統(tǒng)中;多個(gè)初始切分裝置,分別將由所述讀取裝置讀取的來自多個(gè)聲道的音頻流初始切分為多個(gè)不同的段落;多聲道融合裝置,對所述多個(gè)初始切分裝置的切分點(diǎn)進(jìn)行綜合,并從每兩個(gè)相鄰的切分點(diǎn)之間選擇最優(yōu)的聲道的音頻流,從而得到多個(gè)初始切分片段,并且將得到的所述多個(gè)初始切分片段融合形成統(tǒng)一音頻數(shù)據(jù)文件;音頻聚類裝置,基于層次聚類的算法,對所述多個(gè)初始切分片段進(jìn)行有監(jiān)督聚類, 將屬于同一性質(zhì)的初始切分片段聚成一個(gè)類別;重新切分裝置,利用所述音頻聚類裝置聚類的結(jié)果,訓(xùn)練得到每個(gè)類別相應(yīng)的隱馬爾科夫模型,并對所述統(tǒng)一音頻文件進(jìn)行維特比對齊切分,得到按類別切分后的音頻流。為了實(shí)現(xiàn)所述目的,一種音頻編輯系統(tǒng)中的音頻編輯方法,包括讀取步驟,將音頻流讀取到所述音頻編輯系統(tǒng)中;初始切分步驟,將由所述讀取步驟讀取的音頻流初始切分為多個(gè)不同的片段;音頻聚類步驟,基于層次聚類的算法,對由所述初始切分步驟初始切分的多個(gè)片段進(jìn)行有監(jiān)督聚類,將屬于同一性質(zhì)的片段聚成一個(gè)類別;重新切分步驟,利用所述音頻聚類步驟聚類的結(jié)果,訓(xùn)練得到每個(gè)類別相應(yīng)的隱馬爾科夫模型,并對所述音頻流進(jìn)行維特比對齊切分,得到按類別切分后的音頻流。另外,本發(fā)明提供了一種音頻編輯系統(tǒng)中的音頻編輯方法,包括讀取步驟,將多個(gè)聲道的音頻流讀取到所述音頻編輯系統(tǒng)中;切分步驟,分別將所述多個(gè)聲道的音頻流初始切分為多個(gè)不同的段落;多聲道融合步驟,對在所述切分步驟中得到的切分點(diǎn)進(jìn)行綜合,并從每兩個(gè)相鄰的切分點(diǎn)之間選擇最優(yōu)的聲道的音頻流,從而得到多個(gè)初始切分片段,并且將得到的所述多個(gè)初始切分片段融合形成統(tǒng)一音頻數(shù)據(jù)文件;音頻聚類步驟,基于層次聚類的算法,對所述多個(gè)初始切分片段進(jìn)行有監(jiān)督聚類, 將屬于同一性質(zhì)的初始切分片段聚成一個(gè)類別;重新切分步驟,利用所述音頻聚類步驟中聚類的結(jié)果,訓(xùn)練得到每個(gè)類別相應(yīng)的隱馬爾科夫模型,并對所述統(tǒng)一音頻文件進(jìn)行維特比對齊切分,得到按類別切分后的音頻流。本發(fā)明的優(yōu)點(diǎn)是,利用了多麥克的信道信息相融合獲得更加完備的說話人切分信息;同時(shí),利用距離測算的方法,得到了音頻流中潛在的音頻性質(zhì)轉(zhuǎn)折點(diǎn),并獲得了潛在的音頻段落數(shù)目,利用該數(shù)字控制隱馬爾科夫模型搜索空間的循環(huán)單元的循環(huán)次數(shù),相比給隱馬爾科夫模型增加時(shí)長限制的做法,提供了更大的靈活性;利用說話人聚類技術(shù),首先通過有監(jiān)督聚類控制聚類深度,得到了說話人的種子數(shù)據(jù)類別,相比較通過數(shù)據(jù)均分作為模型初始化數(shù)據(jù)的做法來說,模型的誤差更小,收斂速度更快,分割也將更為準(zhǔn)確。另外,本發(fā)明結(jié)合了分步聚類中的距離計(jì)算和同步聚類中的模型分割兩種技術(shù),并利用測試數(shù)據(jù)本身訓(xùn)練更新模型,數(shù)據(jù)依賴性小,可作為一種應(yīng)用于說話人聚類系統(tǒng)中的通用技術(shù)。
圖1是本發(fā)明的說話人聚類系統(tǒng)的方框圖;圖2是本發(fā)明的模型分割部分搜索空間示意圖;圖3是本發(fā)明的說話人聚類系統(tǒng)中的段落切分器的方框圖;圖4是本發(fā)明的距離測算分段器處理流程示意圖;圖5是合并層次聚類算法的流程示意圖;圖6是本發(fā)明的多麥克信道融合器框架示意圖;圖7是本發(fā)明的信道切分信息融合方案示意圖;圖8是本發(fā)明的隱馬爾科夫模型重分割器的流程示意圖。
具體實(shí)施例方式下面結(jié)合具體實(shí)施例和附圖對本發(fā)明進(jìn)行詳細(xì)描述。在下面的說明中為了說明的方便而劃分為多個(gè)實(shí)施例,但各個(gè)實(shí)施例只是例示,本領(lǐng)域的技術(shù)人員應(yīng)該理解各種變形例、修正例、代替例、置換例等。為了促進(jìn)發(fā)明的理解而使用具體的數(shù)值例子進(jìn)行了說明,但沒有特別說明的情況下,那些數(shù)值只是一個(gè)例子,可使用適當(dāng)?shù)娜魏沃怠榱舜龠M(jìn)發(fā)明的理解而使用具體的數(shù)學(xué)式進(jìn)行了說明,但沒有特別說明的情況下,那些數(shù)學(xué)式只是一個(gè)例子, 可使用適當(dāng)?shù)娜魏螖?shù)學(xué)式。各個(gè)實(shí)施例的區(qū)分對于本發(fā)明并不是本質(zhì)性的,可適當(dāng)?shù)亟M合在各個(gè)實(shí)施例中說明的事項(xiàng)。為了便于說明,本發(fā)明的實(shí)施例的裝置使用功能性的框圖進(jìn)行了說明,但那樣的裝置可以由硬件、軟件或者它們的組合來實(shí)現(xiàn)。本發(fā)明并不限定于所述的實(shí)施例,各種變形例、修正例、代替例、置換例等包含在本發(fā)明中而不脫離本發(fā)明的精神。另外,在下面的描述中主要以在語音分割領(lǐng)域的應(yīng)用為例來說明本發(fā)明,但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)明白,在相似的音頻領(lǐng)域中,可以對語音以外的任何對象應(yīng)用本發(fā)明而不應(yīng)限定在本發(fā)明所舉出的實(shí)施例的范圍。因此,在下文中主要作為說話人聚類系統(tǒng)對本發(fā)明的音頻編輯系統(tǒng)進(jìn)行說明。圖1是本發(fā)明的說話人聚類系統(tǒng)的方框圖,如圖1所示,說話人聚類系統(tǒng)10包括多個(gè)麥克1 N、與多個(gè)麥克分別對應(yīng)的多個(gè)段落切分器101-1 101-N、多麥克信道融合器102、語音非語音判別器103、說話人聚類器104、模型重分割器105、說話人聚類器106。其中,多個(gè)段落切分器101-1 101-N中包括音頻特征提取器1011-1 1011 N、以及距離測算分段器1012-1 1012 N。另外,以下如不特別指定,凡存在多個(gè)具有相同功能的器件的情況下,僅就一個(gè)進(jìn)行說明。下面,作為麥克1、段落切分器101、音頻特征提取器1011 和距離測算分段器1012來進(jìn)行說明。下面,就說話人聚類系統(tǒng)10的進(jìn)行具體說明。作為說話人聚類系統(tǒng)10的典型的應(yīng)用例子,可以將其設(shè)置在會(huì)議室中。在應(yīng)用說話人聚類系統(tǒng)10的情況下,通常在希望進(jìn)行音頻采樣的環(huán)境,比如會(huì)議室中,在規(guī)定的位置或不固定的位置上設(shè)置多個(gè)麥克,以同時(shí)對環(huán)境音進(jìn)行采樣,并將有待處理的由多個(gè)麥克分別錄制的音頻數(shù)據(jù)送入后級(jí)的各個(gè)部分進(jìn)行處理。在此,作為本申請的說話人聚類系統(tǒng)10不是必須包括麥克1 N,其也可以代替麥克1 N而設(shè)置讀取裝置(圖中未示出), 并通過讀取裝置將保存在記錄介質(zhì)中的事先以相同方式錄制的多聲道的音頻數(shù)據(jù)讀取到本發(fā)明的說話人聚類系統(tǒng)中來進(jìn)行同樣的處理。當(dāng)然,在本實(shí)施例中,設(shè)置多個(gè)麥克1 N, 采用多個(gè)聲道的音頻數(shù)據(jù)的目的,在于通過從多個(gè)聲道的音頻數(shù)據(jù)中進(jìn)行選優(yōu)、綜合,從而提高后續(xù)的音頻處理的可靠性和效率性。換言之,例如在空間比較小的環(huán)境中,或者考慮到成本等諸多因素,在實(shí)際使用中也可以僅僅采用一個(gè)聲道的音頻數(shù)據(jù)來進(jìn)行音頻處理,這是本領(lǐng)域技術(shù)人員能夠理解的。通過多個(gè)麥克1 N采樣的音頻流被輸入到段落切分器101中。在段落切分器 101中,將來自麥克1的音頻流初始切分為多個(gè)不同的段落。作為段落切分器101只要能夠?qū)⒁纛l流切分成多個(gè)不同的段落,則可以采用各種不同的算法或方式。本發(fā)明中采用的是基于MFCC音頻特征,通過測算滑動(dòng)窗間距離來進(jìn)行的。首先,(1)將每一個(gè)麥克錄制的音頻數(shù)據(jù)輸入段落切分器101中的音頻特征提取器 1011,進(jìn)行預(yù)處理,包括分幀處理。在本實(shí)施例中,預(yù)處理主要采用如下流程2-1)通過預(yù)加重進(jìn)行高頻提升預(yù)加重濾波器是:Η(ζ) = 1-α z-1,其中α = 0· 98。2-2)將數(shù)據(jù)進(jìn)行分幀處理取幀長25ms、幀間重疊15ms,可根據(jù)需要適當(dāng)調(diào)整;2-3)加窗處理窗函數(shù)采用常用的hamming窗函數(shù) w{n) = 0.54 - 0.46 cos(-)
N - \其中,0彡η彡N-I,η代表采樣點(diǎn)數(shù)目。隨后提取MFCC (Mel倒譜系數(shù)),參數(shù)特征提取方法(參見“Reynolds,D. A. and Rose, R. C. , Robust text-independent speaker identification using Gaussian mixture speaker models,IEEE transactions on Speech and Audio Processing,1995"), 為增加特征的魯棒性,對特征進(jìn)行倒譜均值,方差規(guī)整技術(shù)處理。(2)將由音頻特征提取器1011處理后的每一個(gè)音頻數(shù)據(jù)對應(yīng)的特征數(shù)據(jù)輸入連接在音頻特征提取器1011后級(jí)的距離測算分段器1012,尋找其內(nèi)部的音頻性質(zhì)轉(zhuǎn)變點(diǎn),如圖4所示,在本實(shí)施例中,主要采用如下流程2-1)首先為切分過程中,先對輸入音頻信號(hào)提取12維MFCC特征,幀長為25ms, 然后對特征進(jìn)行加窗,每窗窗長為50幀,假設(shè)窗內(nèi)的特征矢量服從高斯分布Ν(μ1;Σ D和 Ν(μ2,Σ 2),計(jì)算兩窗之間的Miattachayya距離,如式(I)0由此我們可以得到一系列的窗間距離點(diǎn),例如根據(jù)“Lu,L. and Zhang,H. J. ,Speaker change detection and tracking in real-time news broadcasting analysis,Proceedings of the tenth ACM international conference on Multimedia, 2006"中提出的選擇變化點(diǎn)的準(zhǔn)則,我們對輸入的音頻文件進(jìn)行切分。
權(quán)利要求
1.一種音頻編輯系統(tǒng),包括讀取裝置,將音頻流讀取到所述音頻編輯系統(tǒng)中;初始切分裝置,將由所述讀取裝置讀取的音頻流初始切分為多個(gè)不同的片段; 音頻聚類裝置,基于層次聚類的算法,對由所述初始切分裝置初始切分的多個(gè)片段進(jìn)行有監(jiān)督聚類,將屬于同一性質(zhì)的片段聚成一個(gè)類別;重新切分裝置,利用所述音頻聚類裝置聚類的結(jié)果,訓(xùn)練得到每個(gè)類別相應(yīng)的隱馬爾科夫模型,并對所述音頻流進(jìn)行維特比對齊切分,得到按類別切分后的音頻流。
2.如權(quán)利要求1所述的音頻編輯系統(tǒng),其中, 所述初始切分裝置包括音頻特征提取裝置,用于從前向后順序地對所述音頻流進(jìn)行加窗,并提取窗內(nèi)音頻信號(hào)的特征信息;以及距離測算分段器,用于通過從前向后順序的分別對來自所述音頻特征提取裝置的所述特征信息進(jìn)行加滑動(dòng)窗,計(jì)算相鄰窗內(nèi)的音頻距離,從而按音頻流音頻性質(zhì)轉(zhuǎn)折點(diǎn)將音頻流切分為多個(gè)段落。
3.如權(quán)利要求2所述的音頻編輯系統(tǒng),其中, 將小于Is的片段平均分給上下兩個(gè)相鄰的段落。
4.如權(quán)利要求1所述的音頻編輯系統(tǒng),其中,還包括音頻有效性判別器,用于對在所述初始切分裝置中得到的多個(gè)片段分別判別其是否為有效音頻,并刪除被判斷為無效音頻的片段,所述音頻聚類裝置對所述音頻有效性判別器進(jìn)行刪除后剩余的片段進(jìn)行所述有監(jiān)督聚類。
5.如權(quán)利要求4所述的音頻編輯系統(tǒng),其中, 所述無效音頻為空白音頻或噪聲音頻。
6.如權(quán)利要求1所述的音頻編輯系統(tǒng),其中,還包括重新聚類裝置,對所述重新切分裝置切分后的所述音頻流進(jìn)行無監(jiān)督聚類。
7.一種音頻編輯系統(tǒng),包括讀取裝置,將多個(gè)聲道的音頻流讀取到所述音頻編輯系統(tǒng)中; 多個(gè)初始切分裝置,分別將由所述讀取裝置讀取的來自多個(gè)聲道的音頻流初始切分為多個(gè)不同的段落;多聲道融合裝置,對所述多個(gè)初始切分裝置的切分點(diǎn)進(jìn)行綜合,并從每兩個(gè)相鄰的切分點(diǎn)之間選擇最優(yōu)的聲道的音頻流,從而得到多個(gè)初始切分片段,并且將得到的所述多個(gè)初始切分片段融合形成統(tǒng)一音頻數(shù)據(jù)文件;音頻聚類裝置,基于層次聚類的算法,對所述多個(gè)初始切分片段進(jìn)行有監(jiān)督聚類,將屬于同一性質(zhì)的初始切分片段聚成一個(gè)類別;重新切分裝置,利用所述音頻聚類裝置聚類的結(jié)果,訓(xùn)練得到每個(gè)類別相應(yīng)的隱馬爾科夫模型,并對所述統(tǒng)一音頻文件進(jìn)行維特比對齊切分,得到按類別切分后的音頻流。
8.如權(quán)利要求7所述的音頻編輯系統(tǒng),其中, 所述多個(gè)初始切分裝置的每個(gè)包括音頻特征提取裝置,用于從前向后順序地對所述音頻流進(jìn)行加窗,并提取窗內(nèi)音頻信號(hào)的特征信息;以及距離測算分段器,用于通過從前向后順序的分別對來自所述音頻特征提取裝置的所述特征信息進(jìn)行加滑動(dòng)窗,計(jì)算相鄰窗內(nèi)的音頻距離,從而按音頻流音頻性質(zhì)轉(zhuǎn)折點(diǎn)將音頻流切分為多個(gè)段落。
9.如權(quán)利要求8所述的音頻編輯系統(tǒng),其中, 將小于Is的片段平均分給上下兩個(gè)相鄰的段落。
10.如權(quán)利要求7所述的音頻編輯系統(tǒng),其中,還包括音頻有效性判別器,用于對在所述多聲道融合裝置中得到的所述多個(gè)初始切分片段分別判別其是否為有效音頻,并刪除被判斷為無效音頻的初始切分片段,所述音頻聚類裝置對所述音頻有效性判別器進(jìn)行刪除后剩余的初始切分片段進(jìn)行所述有監(jiān)督聚類。
11.如權(quán)利要求10所述的音頻編輯系統(tǒng),其中, 所述無效音頻為空白音頻或噪聲音頻。
12.如權(quán)利要求7所述的音頻編輯系統(tǒng),其中,還包括重新聚類裝置,對所述重新切分裝置切分后的所述音頻流進(jìn)行無監(jiān)督聚類。
13.一種音頻編輯系統(tǒng)中的音頻編輯方法,包括 讀取步驟,將音頻流讀取到所述音頻編輯系統(tǒng)中;初始切分步驟,將由所述讀取步驟讀取的音頻流初始切分為多個(gè)不同的片段; 音頻聚類步驟,基于層次聚類的算法,對由所述初始切分步驟初始切分的多個(gè)片段進(jìn)行有監(jiān)督聚類,將屬于同一性質(zhì)的片段聚成一個(gè)類別;重新切分步驟,利用所述音頻聚類步驟聚類的結(jié)果,訓(xùn)練得到每個(gè)類別相應(yīng)的隱馬爾科夫模型,并對所述音頻流進(jìn)行維特比對齊切分,得到按類別切分后的音頻流。
14.一種音頻編輯系統(tǒng)中的音頻編輯方法,包括讀取步驟,將多個(gè)聲道的音頻流讀取到所述音頻編輯系統(tǒng)中; 切分步驟,分別將所述多個(gè)聲道的音頻流初始切分為多個(gè)不同的段落; 多聲道融合步驟,對在所述切分步驟中得到的切分點(diǎn)進(jìn)行綜合,并從每兩個(gè)相鄰的切分點(diǎn)之間選擇最優(yōu)的聲道的音頻流,從而得到多個(gè)初始切分片段,并且將得到的所述多個(gè)初始切分片段融合形成統(tǒng)一音頻數(shù)據(jù)文件;音頻聚類步驟,基于層次聚類的算法,對所述多個(gè)初始切分片段進(jìn)行有監(jiān)督聚類,將屬于同一性質(zhì)的初始切分片段聚成一個(gè)類別;重新切分步驟,利用所述音頻聚類步驟中聚類的結(jié)果,訓(xùn)練得到每個(gè)類別相應(yīng)的隱馬爾科夫模型,并對所述統(tǒng)一音頻文件進(jìn)行維特比對齊切分,得到按類別切分后的音頻流。
全文摘要
音頻編輯系統(tǒng)包括多個(gè)初始切分裝置,分別將來自多個(gè)聲道的音頻流初始切分為多個(gè)不同的段落;多聲道融合裝置,對多個(gè)初始切分裝置的切分點(diǎn)進(jìn)行綜合,并從每兩個(gè)相鄰的切分點(diǎn)之間選擇最優(yōu)的聲道的音頻流,從而得到多個(gè)初始切分片段,并且將得到的多個(gè)初始切分片段融合形成統(tǒng)一音頻數(shù)據(jù)文件;音頻聚類裝置,基于層次聚類的算法,對多個(gè)初始切分片段進(jìn)行有監(jiān)督聚類,將屬于同一性質(zhì)的初始切分片段聚成一個(gè)類別;重新切分裝置,利用音頻聚類裝置聚類的結(jié)果,訓(xùn)練得到每個(gè)類別相應(yīng)的隱馬爾科夫模型,并對統(tǒng)一音頻文件進(jìn)行維特比對齊切分,得到重新切分后的音頻流。通過以上高精度的說話人切分系統(tǒng),能夠提高最終說話人聚類的準(zhǔn)確性。
文檔編號(hào)G10L15/14GK102543080SQ20101061416
公開日2012年7月4日 申請日期2010年12月24日 優(yōu)先權(quán)日2010年12月24日
發(fā)明者劉昆, 盧鯉, 吳偉國, 趙慶衛(wèi), 顏永紅 申請人:中國科學(xué)院聲學(xué)研究所, 索尼公司