亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語(yǔ)音分割的方法及裝置與流程

文檔序號(hào):12475849閱讀:664來源:國(guó)知局
語(yǔ)音分割的方法及裝置與流程

本發(fā)明涉及語(yǔ)音處理技術(shù)領(lǐng)域,尤其涉及一種語(yǔ)音分割的方法及裝置。



背景技術(shù):

目前,呼叫中心接收到的語(yǔ)音很多都混雜有多人的語(yǔ)音,這時(shí)需要先對(duì)語(yǔ)音進(jìn)行語(yǔ)音分割(speaker diarization),才能進(jìn)一步對(duì)目標(biāo)語(yǔ)音進(jìn)行語(yǔ)音分析。語(yǔ)音分割是指:在語(yǔ)音處理領(lǐng)域,當(dāng)多個(gè)說話人的語(yǔ)音被合并錄在一個(gè)聲道中時(shí),把信號(hào)中每個(gè)說話人的語(yǔ)音分別進(jìn)行提取。傳統(tǒng)的語(yǔ)音分割技術(shù)是基于全局背景模型和高斯混合模型進(jìn)行分割,由于技術(shù)的限制,這種語(yǔ)音分割的方法分割的精度并不高,特別是對(duì)于對(duì)話交替頻繁、以及有交疊的對(duì)話分割效果差。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種語(yǔ)音分割的方法及裝置,旨在有效提高語(yǔ)音分割的精度。

為實(shí)現(xiàn)上述目的,本發(fā)明提供一種語(yǔ)音分割的方法,其特征在于,所述語(yǔ)音分割的方法包括:

S1,自動(dòng)應(yīng)答系統(tǒng)在接收到終端發(fā)送的混合語(yǔ)音時(shí),將所述混合語(yǔ)音分割成多個(gè)短語(yǔ)音段,并對(duì)各短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說話人標(biāo)識(shí);

S2,利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界,以分割出各說話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段。

優(yōu)選地,所述步驟S1包括:

S11,獲取所述混合語(yǔ)音中的靜音段,去除所述混合語(yǔ)音中的靜音段,以根據(jù)所述靜音段對(duì)所述混合語(yǔ)音進(jìn)行分割,得到分割后的長(zhǎng)語(yǔ)音段;

S12,對(duì)所述長(zhǎng)語(yǔ)音段進(jìn)行分幀,以提取每一長(zhǎng)語(yǔ)音段的聲學(xué)特征;

S13,對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,根據(jù)KL距離分析結(jié)果對(duì)所述語(yǔ)音段進(jìn)行切分,得到切分后的短語(yǔ)音段;

S14,利用高斯混合模型對(duì)各短語(yǔ)音段進(jìn)行語(yǔ)音聚類,并對(duì)同一語(yǔ)音類的短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說話人標(biāo)識(shí)。

優(yōu)選地,所述步驟S13包括:

對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,對(duì)時(shí)長(zhǎng)大于預(yù)設(shè)時(shí)間閾值的長(zhǎng)語(yǔ)音段在KL距離的最大值處進(jìn)行切分,得到切分后的短語(yǔ)音段。

優(yōu)選地,所述步驟S2包括:

S21,利用所述時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型提取表征說話人身份特征的預(yù)設(shè)類型向量;

S22,基于所述預(yù)設(shè)類型向量計(jì)算每一語(yǔ)音幀屬于對(duì)應(yīng)的說話人的最大后驗(yàn)概率;

S23,基于所述最大后驗(yàn)概率并利用預(yù)定算法調(diào)整該說話人的混合高斯模型;

S24,基于調(diào)整后的混合高斯模型獲取每一語(yǔ)音幀對(duì)應(yīng)的概率最大的說話人,并根據(jù)概率最大的說話人與語(yǔ)音幀的概率關(guān)系調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界;

S25,迭代更新所述聲紋模型n次,每次更新所述聲紋模型時(shí)迭代m次所述混合高斯模型,以得到各說話人對(duì)應(yīng)的有效語(yǔ)音段,n及m均為大于1的正整數(shù)。

優(yōu)選地,所述步驟S2之后還包括:

基于所述有效語(yǔ)音段獲取對(duì)應(yīng)的應(yīng)答內(nèi)容,并將所述應(yīng)答內(nèi)容反饋給所述終端。

為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種語(yǔ)音分割的裝置,所述語(yǔ)音分割的裝置包括:

分割模塊,用于在接收到終端發(fā)送的混合語(yǔ)音時(shí),將所述混合語(yǔ)音分割成多個(gè)短語(yǔ)音段,并對(duì)各短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說話人標(biāo)識(shí);

調(diào)整模塊,用于利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界,以分割出各說話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段。

優(yōu)選地,所述分割模塊包括:

去除單元,用于獲取所述混合語(yǔ)音中的靜音段,去除所述混合語(yǔ)音中的靜音段,以根據(jù)所述靜音段對(duì)所述混合語(yǔ)音進(jìn)行分割,得到分割后的長(zhǎng)語(yǔ)音段;

分幀單元,用于對(duì)所述長(zhǎng)語(yǔ)音段進(jìn)行分幀,以提取每一長(zhǎng)語(yǔ)音段的聲學(xué)特征;

切分單元,用于對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,根據(jù)KL距離分析結(jié)果對(duì)所述語(yǔ)音段進(jìn)行切分,得到切分后的短語(yǔ)音段;

聚類單元,用于利用高斯混合模型對(duì)各短語(yǔ)音段進(jìn)行語(yǔ)音聚類,并對(duì)同一語(yǔ)音類的短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說話人標(biāo)識(shí)。

優(yōu)選地,所述切分單元具體用于對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,對(duì)時(shí)長(zhǎng)大于預(yù)設(shè)時(shí)間閾值的長(zhǎng)語(yǔ)音段在KL距離的最大值處進(jìn)行切分,得到切分后的短語(yǔ)音段。

優(yōu)選地,所述調(diào)整模塊包括:

建模單元,用于利用所述時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型提取表征說話人身份特征的預(yù)設(shè)類型向量;

計(jì)算單元,用于基于所述預(yù)設(shè)類型向量計(jì)算每一語(yǔ)音幀屬于對(duì)應(yīng)的說話人的最大后驗(yàn)概率;

第一調(diào)整單元,用于基于所述最大后驗(yàn)概率并利用預(yù)定算法調(diào)整該說話人的混合高斯模型;

第二調(diào)整單元,用于基于調(diào)整后的混合高斯模型獲取每一語(yǔ)音幀對(duì)應(yīng)的概率最大的說話人,并根據(jù)概率最大的說話人與語(yǔ)音幀的概率關(guān)系調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界;

迭代單元,用于迭代更新所述聲紋模型n次,每次更新所述聲紋模型時(shí)迭代m次所述混合高斯模型,以得到各說話人對(duì)應(yīng)的有效語(yǔ)音段,n及m均為大于1的正整數(shù)。

優(yōu)選地,所述語(yǔ)音分割的裝置還包括:反饋模塊,用于基于所述有效語(yǔ)音段獲取對(duì)應(yīng)的應(yīng)答內(nèi)容,并將所述應(yīng)答內(nèi)容反饋給所述終端。

本發(fā)明的有益效果是:本發(fā)明首先將混合語(yǔ)音進(jìn)行分割,分割成多個(gè)短語(yǔ)音段,每一短語(yǔ)音段對(duì)應(yīng)標(biāo)識(shí)一個(gè)說話人,利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各短語(yǔ)音段建立聲紋模型,由于利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)建立的聲紋模型能夠關(guān)聯(lián)說話人跨時(shí)間點(diǎn)的聲音信息,因此基于該聲紋模型實(shí)現(xiàn)對(duì)短語(yǔ)音段的分割邊界的調(diào)整,能夠有效提高語(yǔ)音分割的精度,特別是對(duì)于對(duì)話交替頻繁、以及有交疊的語(yǔ)音,語(yǔ)音分割的效果較好。

附圖說明

圖1為本發(fā)明語(yǔ)音分割的方法一實(shí)施例的流程示意圖;

圖2為圖1所示步驟S1的細(xì)化流程示意圖;

圖3為圖1所示步驟S2的細(xì)化流程示意圖;

圖4為本發(fā)明語(yǔ)音分割的裝置一實(shí)施例的結(jié)構(gòu)示意圖;

圖5為圖4所示分割模塊的結(jié)構(gòu)示意圖;

圖6為圖4所示調(diào)整模塊的結(jié)構(gòu)示意圖。

具體實(shí)施方式

以下結(jié)合附圖對(duì)本發(fā)明的原理和特征進(jìn)行描述,所舉實(shí)例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。

如圖1所示,圖1為本發(fā)明語(yǔ)音分割的方法一實(shí)施例的流程示意圖,該語(yǔ)音分割的方法包括以下步驟:

步驟S1,自動(dòng)應(yīng)答系統(tǒng)在接收到終端發(fā)送的混合語(yǔ)音時(shí),將所述混合語(yǔ)音分割成多個(gè)短語(yǔ)音段,并對(duì)各短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說話人標(biāo)識(shí);

本實(shí)施例中可應(yīng)用于呼叫中心的自動(dòng)應(yīng)答系統(tǒng)中,例如保險(xiǎn)呼叫中心的自動(dòng)應(yīng)答系統(tǒng)、各種客服呼叫中心的自動(dòng)應(yīng)答系統(tǒng)等等。自動(dòng)應(yīng)答系統(tǒng)接收到終端發(fā)送的原始的混合語(yǔ)音,該混合語(yǔ)音中混合有多種不同的聲源產(chǎn)生的聲音,例如有多人說話混合的聲音,多人說話的聲音與其他噪聲混合的聲音等等。

本實(shí)施例可以利用預(yù)定的方法將混合語(yǔ)音分割成多個(gè)短語(yǔ)音段,例如可以利用高斯混合模型(Gaussian Mixture Model,GMM)將混合語(yǔ)音分割成多個(gè)短語(yǔ)音段,當(dāng)然,也可以利用其他傳統(tǒng)的方法將混合語(yǔ)音分割成多個(gè)短語(yǔ)音段。

其中,經(jīng)本實(shí)施例的語(yǔ)音分割后,每一短語(yǔ)音段應(yīng)只對(duì)應(yīng)一說話人,不同的短語(yǔ)音段中可能有多個(gè)短語(yǔ)音段屬于同一個(gè)說話人,將同一個(gè)說話人的不同短語(yǔ)音段進(jìn)行相同的標(biāo)識(shí)。

步驟S2,利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界,以分割出各說話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段。

本實(shí)施例中,時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)模型(Long-Short Term Memory,LSTM)擁有遞歸神經(jīng)網(wǎng)絡(luò)在傳統(tǒng)前向反饋神經(jīng)網(wǎng)絡(luò)中引入的定向循環(huán),用以處理層間輸入前后、層內(nèi)輸出前后的關(guān)聯(lián)。用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)在語(yǔ)音序列上建模,可以得到跨越時(shí)間點(diǎn)的語(yǔ)音信號(hào)特征,可以用于對(duì)關(guān)聯(lián)信息處于任何長(zhǎng)度、任何位置的語(yǔ)音序列進(jìn)行處理。時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)模型通過神經(jīng)網(wǎng)絡(luò)層內(nèi)設(shè)計(jì)多個(gè)交互層,可以記憶到更遠(yuǎn)時(shí)間節(jié)點(diǎn)上的信息,在時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)模型中用“忘記門層”丟棄與識(shí)別任務(wù)不相關(guān)的信息,接著用“輸入門層”決定需要更新的狀態(tài),最后確定需要輸出的狀態(tài)并處理輸出。

本實(shí)施例對(duì)于各說話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段,利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)建立聲紋模型,通過該聲紋模型可以得到說話人跨越時(shí)間點(diǎn)的聲音信息,基于這些聲音信息可以調(diào)整混合語(yǔ)音中對(duì)應(yīng)的分割邊界,以對(duì)每一說話人對(duì)應(yīng)的所有短語(yǔ)音段調(diào)整其分割邊界,最終分割出各說話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段,該有效語(yǔ)音段可以看作對(duì)應(yīng)的說話人的完整語(yǔ)音。

與現(xiàn)有技術(shù)相比,本實(shí)施例首先將混合語(yǔ)音進(jìn)行分割,分割成多個(gè)短語(yǔ)音段,每一短語(yǔ)音段對(duì)應(yīng)標(biāo)識(shí)一個(gè)說話人,利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各短語(yǔ)音段建立聲紋模型,由于利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)建立的聲紋模型能夠關(guān)聯(lián)說話人跨時(shí)間點(diǎn)的聲音信息,因此基于該聲紋模型實(shí)現(xiàn)對(duì)短語(yǔ)音段的分割邊界的調(diào)整,能夠有效提高語(yǔ)音分割的精度,特別是對(duì)于對(duì)話交替頻繁、以及有交疊的語(yǔ)音,語(yǔ)音分割的效果較好。

在一優(yōu)選的實(shí)施例中,如圖2所示,在上述圖1的實(shí)施例的基礎(chǔ)上,上述步驟S1包括:

步驟S11,獲取所述混合語(yǔ)音中的靜音段,去除所述混合語(yǔ)音中的靜音段,以根據(jù)所述靜音段對(duì)所述混合語(yǔ)音進(jìn)行分割,得到分割后的長(zhǎng)語(yǔ)音段;

步驟S12,對(duì)所述長(zhǎng)語(yǔ)音段進(jìn)行分幀,以提取每一長(zhǎng)語(yǔ)音段的聲學(xué)特征;

步驟S13,對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,根據(jù)KL距離分析結(jié)果對(duì)所述語(yǔ)音段進(jìn)行切分,得到切分后的短語(yǔ)音段,

步驟S14,利用高斯混合模型對(duì)各短語(yǔ)音段進(jìn)行語(yǔ)音聚類,并對(duì)同一語(yǔ)音類的短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說話人標(biāo)識(shí)。

本實(shí)施例中,首先根據(jù)靜音進(jìn)行初步分割:確定混合語(yǔ)音中的靜音段,將確定的靜音段從混合語(yǔ)音中去除,以實(shí)現(xiàn)將混合語(yǔ)音根據(jù)靜音段進(jìn)行分割,靜音段是通過對(duì)混合語(yǔ)音的短時(shí)語(yǔ)音能量和短時(shí)過零率的分析來確定的。

去除靜音段后,首先假設(shè)在整個(gè)混合語(yǔ)音中,每人每次講話時(shí)長(zhǎng)為固定閾值Tu,若某段語(yǔ)音大于該時(shí)長(zhǎng),則可能多人說話,若小于該時(shí)長(zhǎng),則更可能只有一個(gè)人說話,基于這種假設(shè),可以對(duì)靜音分割后的每個(gè)長(zhǎng)語(yǔ)音段的時(shí)長(zhǎng)大于固定閾值Tu的語(yǔ)音段的聲學(xué)特征進(jìn)行幀間KL距離分析。當(dāng)然,也可以對(duì)所有的長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行幀間KL距離分析。具體地,對(duì)得到的長(zhǎng)語(yǔ)音段進(jìn)行分幀,以得到每一長(zhǎng)語(yǔ)音段的語(yǔ)音幀,提取語(yǔ)音幀的聲學(xué)特征,對(duì)所有長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離(也即相對(duì)熵)分析,其中,聲學(xué)特征包括但不限定于線性預(yù)測(cè)系數(shù)、倒頻譜系數(shù)MFCC、平均過零率、短時(shí)頻譜、共振峰頻率及帶寬。

其中,KL距離分析的含義是對(duì)于兩個(gè)離散型的聲學(xué)特征概率分布集合P={p1,p2,…,pn}和Q={q1,q2,…,qn},P和Q間的KL距離:當(dāng)KL距離越大時(shí),PQ兩者差異越大,即PQ這兩個(gè)集合來自兩個(gè)不同人的語(yǔ)音。優(yōu)選地,對(duì)時(shí)長(zhǎng)大于預(yù)設(shè)時(shí)間閾值的長(zhǎng)語(yǔ)音段在KL的最大值處進(jìn)行切分,以提高語(yǔ)音分割的精度。

長(zhǎng)語(yǔ)音段經(jīng)過切分后得到短語(yǔ)音段,短語(yǔ)音段的數(shù)量大于長(zhǎng)語(yǔ)音段的數(shù)量。然后進(jìn)行短語(yǔ)音段聚類:對(duì)切分后的短語(yǔ)音段進(jìn)行聚類,以將所有短語(yǔ)音段聚為多個(gè)語(yǔ)音類,并為各個(gè)短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說話人標(biāo)識(shí),其中,屬于同一語(yǔ)音類的短語(yǔ)音段標(biāo)注相同的說話人標(biāo)識(shí),不屬于同一語(yǔ)音類的短語(yǔ)音段標(biāo)注不同的說話人標(biāo)識(shí)。聚類方法是:采用K個(gè)成分的高斯混合模型擬合每段短語(yǔ)音段,以均值作為特征向量,使用k-means聚類方法把所有短語(yǔ)音段聚為多類。

在一優(yōu)選的實(shí)施例中,如圖3所示,在上述的實(shí)施例的基礎(chǔ)上,上述步驟S2包括:

步驟S21,利用所述時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型提取表征說話人身份特征的預(yù)設(shè)類型向量;

步驟S22,基于所述預(yù)設(shè)類型向量計(jì)算每一語(yǔ)音幀屬于對(duì)應(yīng)的說話人的最大后驗(yàn)概率;

步驟S23,基于所述最大后驗(yàn)概率并利用預(yù)定算法調(diào)整該說話人的混合高斯模型;

步驟S24,基于調(diào)整后的混合高斯模型獲取每一語(yǔ)音幀對(duì)應(yīng)的概率最大的說話人,并根據(jù)概率最大的說話人與語(yǔ)音幀的概率關(guān)系調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界;

步驟S25,迭代更新所述聲紋模型n次,每次更新所述聲紋模型時(shí)迭代m次所述混合高斯模型,以得到各說話人對(duì)應(yīng)的有效語(yǔ)音段,n及m均為大于1的正整數(shù)。

本實(shí)施例中,利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型提取表征說話人身份特征的預(yù)設(shè)類型向量,優(yōu)選地,該預(yù)設(shè)類型向量為i-vector向量,i-vector向量是反映說話人聲學(xué)差異的一個(gè)重要特征。

在整個(gè)混合語(yǔ)音中,根據(jù)預(yù)設(shè)類型向量計(jì)算每一語(yǔ)音幀屬于某一說話人的最大后驗(yàn)概率,利用計(jì)算最大后驗(yàn)概率,在混合語(yǔ)音中通過預(yù)設(shè)算法重新調(diào)整說話人的混合高斯模型,例如,通過Baum-Welch算法重新調(diào)整說話人的混合高斯模型,該混合高斯模型為k(一般為3-5個(gè))個(gè)高斯模型的集合。利用重新調(diào)整后的混合高斯模型尋找每一語(yǔ)音幀概率最大的說話人。根據(jù)語(yǔ)音幀與尋找到的該說話人的概率關(guān)系調(diào)整混合語(yǔ)音的分割邊界,例如將分割邊界向前微調(diào)或者向后微調(diào)。最后,迭代更新上述聲紋模型n次,每次更新聲紋模型時(shí)迭代m次混合高斯模型,以得到各個(gè)說話人對(duì)應(yīng)的有效語(yǔ)音段,n及m均為大于1的正整數(shù)。

本實(shí)施例借助深度學(xué)習(xí)的時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)建立聲紋模型,用各說話人聲紋對(duì)應(yīng)的身份特征對(duì)應(yīng)各語(yǔ)音幀以計(jì)算語(yǔ)音幀屬于某一說話人的概率,基于該概率修正模型,最終調(diào)整語(yǔ)音分割的邊界,可以有效提高說話人語(yǔ)音分割的精度,降低錯(cuò)誤率,且可擴(kuò)展性好。

在一優(yōu)選的實(shí)施例中,在上述的實(shí)施例的基礎(chǔ)上,該方法在上述步驟S2之后還包括:基于所述有效語(yǔ)音段獲取對(duì)應(yīng)的應(yīng)答內(nèi)容,并將所述應(yīng)答內(nèi)容反饋給所述終端。

本實(shí)施例中,自動(dòng)應(yīng)答系統(tǒng)關(guān)聯(lián)對(duì)應(yīng)的應(yīng)答庫(kù),該應(yīng)答庫(kù)中存儲(chǔ)有不同的問題對(duì)應(yīng)的應(yīng)答內(nèi)容,自動(dòng)應(yīng)答系統(tǒng)在接收到終端發(fā)送的混合語(yǔ)音后,將其分割為說話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段,從這些有效語(yǔ)音段中獲取與該自動(dòng)應(yīng)答系統(tǒng)有關(guān)問題的一個(gè)有效語(yǔ)音段,針對(duì)該有效語(yǔ)音段在應(yīng)答庫(kù)中進(jìn)行匹配,并將匹配得到的應(yīng)答內(nèi)容反饋給終端。

如圖4所示,圖4為本發(fā)明語(yǔ)音分割的裝置一實(shí)施例的結(jié)構(gòu)示意圖,該語(yǔ)音分割的裝置包括:

分割模塊101,用于在接收到終端發(fā)送的混合語(yǔ)音時(shí),將所述混合語(yǔ)音分割成多個(gè)短語(yǔ)音段,并對(duì)各短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說話人標(biāo)識(shí);

本實(shí)施例的語(yǔ)音分割的裝置中包括自動(dòng)應(yīng)答系統(tǒng),例如保險(xiǎn)呼叫中心的自動(dòng)應(yīng)答系統(tǒng)、各種客服呼叫中心的自動(dòng)應(yīng)答系統(tǒng)等等。自動(dòng)應(yīng)答系統(tǒng)接收到終端發(fā)送的原始的混合語(yǔ)音,該混合語(yǔ)音中混合有多種不同的聲源產(chǎn)生的聲音,例如有多人說話混合的聲音,多人說話的聲音與其他噪聲混合的聲音等等。

本實(shí)施例可以利用預(yù)定的方法將混合語(yǔ)音分割成多個(gè)短語(yǔ)音段,例如可以利用高斯混合模型(Gaussian Mixture Model,GMM)將混合語(yǔ)音分割成多個(gè)短語(yǔ)音段,當(dāng)然,也可以利用其他傳統(tǒng)的方法將混合語(yǔ)音分割成多個(gè)短語(yǔ)音段。

其中,經(jīng)本實(shí)施例的語(yǔ)音分割后,每一短語(yǔ)音段應(yīng)只對(duì)應(yīng)一說話人,不同的短語(yǔ)音段中可能有多個(gè)短語(yǔ)音段屬于同一個(gè)說話人,將同一個(gè)說話人的不同短語(yǔ)音段進(jìn)行相同的標(biāo)識(shí)。

調(diào)整模塊102,用于利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界,以分割出各說話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段。

本實(shí)施例中,時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)模型(Long-Short Term Memory,LSTM)擁有遞歸神經(jīng)網(wǎng)絡(luò)在傳統(tǒng)前向反饋神經(jīng)網(wǎng)絡(luò)中引入的定向循環(huán),用以處理層間輸入前后、層內(nèi)輸出前后的關(guān)聯(lián)。用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)在語(yǔ)音序列上建模,可以得到跨越時(shí)間點(diǎn)的語(yǔ)音信號(hào)特征,可以用于對(duì)關(guān)聯(lián)信息處于任何長(zhǎng)度、任何位置的語(yǔ)音序列進(jìn)行處理。時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)模型通過神經(jīng)網(wǎng)絡(luò)層內(nèi)設(shè)計(jì)多個(gè)交互層,可以記憶到更遠(yuǎn)時(shí)間節(jié)點(diǎn)上的信息,在時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)模型中用“忘記門層”丟棄與識(shí)別任務(wù)不相關(guān)的信息,接著用“輸入門層”決定需要更新的狀態(tài),最后確定需要輸出的狀態(tài)并處理輸出。

本實(shí)施例對(duì)于各說話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段,利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)建立聲紋模型,通過該聲紋模型可以得到說話人跨越時(shí)間點(diǎn)的聲音信息,基于這些聲音信息可以調(diào)整混合語(yǔ)音中對(duì)應(yīng)的分割邊界,以對(duì)每一說話人對(duì)應(yīng)的所有短語(yǔ)音段調(diào)整其分割邊界,最終分割出各說話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段,該有效語(yǔ)音段可以看作對(duì)應(yīng)的說話人的完整語(yǔ)音。

在一優(yōu)選的實(shí)施例中,如圖5所示,在上述圖4的實(shí)施例的基礎(chǔ)上,上述分割模塊101包括:

去除單元1011,用于獲取所述混合語(yǔ)音中的靜音段,去除所述混合語(yǔ)音中的靜音段,以根據(jù)所述靜音段對(duì)所述混合語(yǔ)音進(jìn)行分割,得到分割后的長(zhǎng)語(yǔ)音段;

分幀單元1012,用于對(duì)所述長(zhǎng)語(yǔ)音段進(jìn)行分幀,以提取每一長(zhǎng)語(yǔ)音段的聲學(xué)特征;

切分單元1013,用于對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,根據(jù)KL距離分析結(jié)果對(duì)所述語(yǔ)音段進(jìn)行切分,得到切分后的短語(yǔ)音段;

聚類單元1014,用于利用高斯混合模型對(duì)各短語(yǔ)音段進(jìn)行語(yǔ)音聚類,并對(duì)同一語(yǔ)音類的短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說話人標(biāo)識(shí)。

本實(shí)施例中,首先根據(jù)靜音進(jìn)行初步分割:確定混合語(yǔ)音中的靜音段,將確定的靜音段從混合語(yǔ)音中去除,以實(shí)現(xiàn)將混合語(yǔ)音根據(jù)靜音段進(jìn)行分割,靜音段是通過對(duì)混合語(yǔ)音的短時(shí)語(yǔ)音能量和短時(shí)過零率的分析來確定的。

去除靜音段后,首先假設(shè)在整個(gè)混合語(yǔ)音中,每人每次講話時(shí)長(zhǎng)為固定閾值Tu,若某段語(yǔ)音大于該時(shí)長(zhǎng),則可能多人說話,若小于該時(shí)長(zhǎng),則更可能只有一個(gè)人說話,基于這種假設(shè),可以對(duì)靜音分割后的每個(gè)長(zhǎng)語(yǔ)音段的時(shí)長(zhǎng)大于固定閾值Tu的語(yǔ)音段的聲學(xué)特征進(jìn)行幀間KL距離分析。當(dāng)然,也可以對(duì)所有的長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行幀間KL距離分析。具體地,對(duì)得到的長(zhǎng)語(yǔ)音段進(jìn)行分幀,以得到每一長(zhǎng)語(yǔ)音段的語(yǔ)音幀,提取語(yǔ)音幀的聲學(xué)特征,對(duì)所有長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離(也即相對(duì)熵)分析,其中,聲學(xué)特征包括但不限定于線性預(yù)測(cè)系數(shù)、倒頻譜系數(shù)MFCC、平均過零率、短時(shí)頻譜、共振峰頻率及帶寬。

其中,KL距離分析的含義是對(duì)于兩個(gè)離散型的聲學(xué)特征概率分布集合P={p1,p2,…,pn}和Q={q1,q2,…,qn},P和Q間的KL距離:當(dāng)KL距離越大時(shí),PQ兩者差異越大,即PQ這兩個(gè)集合來自兩個(gè)不同人的語(yǔ)音。優(yōu)選地,對(duì)時(shí)長(zhǎng)大于預(yù)設(shè)時(shí)間閾值的長(zhǎng)語(yǔ)音段在KL的最大值處進(jìn)行切分,以提高語(yǔ)音分割的精度。

長(zhǎng)語(yǔ)音段經(jīng)過切分后得到短語(yǔ)音段,短語(yǔ)音段的數(shù)量大于長(zhǎng)語(yǔ)音段的數(shù)量。然后進(jìn)行短語(yǔ)音段聚類:對(duì)切分后的短語(yǔ)音段進(jìn)行聚類,以將所有短語(yǔ)音段聚為多個(gè)語(yǔ)音類,并為各個(gè)短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說話人標(biāo)識(shí),其中,屬于同一語(yǔ)音類的短語(yǔ)音段標(biāo)注相同的說話人標(biāo)識(shí),不屬于同一語(yǔ)音類的短語(yǔ)音段標(biāo)注不同的說話人標(biāo)識(shí)。聚類方法是:采用K個(gè)成分的高斯混合模型擬合每段短語(yǔ)音段,以均值作為特征向量,使用k-means聚類方法把所有短語(yǔ)音段聚為多類。

在一優(yōu)選的實(shí)施例中,如圖6所示,在上述實(shí)施例的基礎(chǔ)上,上述調(diào)整模塊102包括:

建模單元1021,用于利用所述時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型提取表征說話人身份特征的預(yù)設(shè)類型向量;

計(jì)算單元1022,用于基于所述預(yù)設(shè)類型向量計(jì)算每一語(yǔ)音幀屬于對(duì)應(yīng)的說話人的最大后驗(yàn)概率;

第一調(diào)整單元1023,用于基于所述最大后驗(yàn)概率并利用預(yù)定算法調(diào)整該說話人的混合高斯模型;

第二調(diào)整單元1024,用于基于調(diào)整后的混合高斯模型獲取每一語(yǔ)音幀對(duì)應(yīng)的概率最大的說話人,并根據(jù)概率最大的說話人與語(yǔ)音幀的概率關(guān)系調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界;

迭代單元1025,用于迭代更新所述聲紋模型n次,每次更新所述聲紋模型時(shí)迭代m次所述混合高斯模型,以得到各說話人對(duì)應(yīng)的有效語(yǔ)音段,n及m均為大于1的正整數(shù)。

本實(shí)施例中,利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型提取表征說話人身份特征的預(yù)設(shè)類型向量,優(yōu)選地,該預(yù)設(shè)類型向量為i-vector向量,i-vector向量是反映說話人聲學(xué)差異的一個(gè)重要特征。

在整個(gè)混合語(yǔ)音中,根據(jù)預(yù)設(shè)類型向量計(jì)算每一語(yǔ)音幀屬于某一說話人的最大后驗(yàn)概率,利用計(jì)算最大后驗(yàn)概率,在混合語(yǔ)音中通過預(yù)設(shè)算法重新調(diào)整說話人的混合高斯模型,例如,通過Baum-Welch算法重新調(diào)整說話人的混合高斯模型,該混合高斯模型為k(一般為3-5個(gè))個(gè)高斯模型的集合。利用重新調(diào)整后的混合高斯模型尋找每一語(yǔ)音幀概率最大的說話人。根據(jù)語(yǔ)音幀與尋找到的該說話人的概率關(guān)系調(diào)整混合語(yǔ)音的分割邊界,例如將分割邊界向前微調(diào)或者向后微調(diào)。最后,迭代更新上述聲紋模型n次,每次更新聲紋模型時(shí)迭代m次混合高斯模型,以得到各個(gè)說話人對(duì)應(yīng)的有效語(yǔ)音段,n及m均為大于1的正整數(shù)。

本實(shí)施例借助深度學(xué)習(xí)的時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)建立聲紋模型,用各說話人聲紋對(duì)應(yīng)的身份特征對(duì)應(yīng)各語(yǔ)音幀以計(jì)算語(yǔ)音幀屬于某一說話人的概率,基于該概率修正模型,最終調(diào)整語(yǔ)音分割的邊界,可以有效提高說話人語(yǔ)音分割的精度,降低錯(cuò)誤率,且可擴(kuò)展性好。

在一優(yōu)選的實(shí)施例中,在上述的實(shí)施例的基礎(chǔ)上,所述語(yǔ)音分割的裝置還包括:反饋模塊,用于基于所述有效語(yǔ)音段獲取對(duì)應(yīng)的應(yīng)答內(nèi)容,并將所述應(yīng)答內(nèi)容反饋給所述終端。

本實(shí)施例中,自動(dòng)應(yīng)答系統(tǒng)關(guān)聯(lián)對(duì)應(yīng)的應(yīng)答庫(kù),該應(yīng)答庫(kù)中存儲(chǔ)有不同的問題對(duì)應(yīng)的應(yīng)答內(nèi)容,自動(dòng)應(yīng)答系統(tǒng)在接收到終端發(fā)送的混合語(yǔ)音后,將其分割為說話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段,從這些有效語(yǔ)音段中獲取與該自動(dòng)應(yīng)答系統(tǒng)有關(guān)問題的一個(gè)有效語(yǔ)音段,針對(duì)該有效語(yǔ)音段在應(yīng)答庫(kù)中進(jìn)行匹配,并將匹配得到的應(yīng)答內(nèi)容反饋給終端。

以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1