1.一種語(yǔ)音分割的方法,其特征在于,所述語(yǔ)音分割的方法包括:
S1,自動(dòng)應(yīng)答系統(tǒng)在接收到終端發(fā)送的混合語(yǔ)音時(shí),將所述混合語(yǔ)音分割成多個(gè)短語(yǔ)音段,并對(duì)各短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說(shuō)話人標(biāo)識(shí);
S2,利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界,以分割出各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段。
2.根據(jù)權(quán)利要求1所述的語(yǔ)音分割的方法,其特征在于,所述步驟S1包括:
S11,獲取所述混合語(yǔ)音中的靜音段,去除所述混合語(yǔ)音中的靜音段,以根據(jù)所述靜音段對(duì)所述混合語(yǔ)音進(jìn)行分割,得到分割后的長(zhǎng)語(yǔ)音段;
S12,對(duì)所述長(zhǎng)語(yǔ)音段進(jìn)行分幀,以提取每一長(zhǎng)語(yǔ)音段的聲學(xué)特征;
S13,對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,根據(jù)KL距離分析結(jié)果對(duì)所述語(yǔ)音段進(jìn)行切分,得到切分后的短語(yǔ)音段;
S14,利用高斯混合模型對(duì)各短語(yǔ)音段進(jìn)行語(yǔ)音聚類,并對(duì)同一語(yǔ)音類的短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說(shuō)話人標(biāo)識(shí)。
3.根據(jù)權(quán)利要求2所述的語(yǔ)音分割的方法,其特征在于,所述步驟S13包括:
對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,對(duì)時(shí)長(zhǎng)大于預(yù)設(shè)時(shí)間閾值的長(zhǎng)語(yǔ)音段在KL距離的最大值處進(jìn)行切分,得到切分后的短語(yǔ)音段。
4.根據(jù)權(quán)利要求2或3所述的語(yǔ)音分割的方法,其特征在于,所述步驟S2包括:
S21,利用所述時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型提取表征說(shuō)話人身份特征的預(yù)設(shè)類型向量;
S22,基于所述預(yù)設(shè)類型向量計(jì)算每一語(yǔ)音幀屬于對(duì)應(yīng)的說(shuō)話人的最大后驗(yàn)概率;
S23,基于所述最大后驗(yàn)概率并利用預(yù)定算法調(diào)整該說(shuō)話人的混合高斯模型;
S24,基于調(diào)整后的混合高斯模型獲取每一語(yǔ)音幀對(duì)應(yīng)的概率最大的說(shuō)話人,并根據(jù)概率最大的說(shuō)話人與語(yǔ)音幀的概率關(guān)系調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界;
S25,迭代更新所述聲紋模型n次,每次更新所述聲紋模型時(shí)迭代m次所述混合高斯模型,以得到各說(shuō)話人對(duì)應(yīng)的有效語(yǔ)音段,n及m均為大于1的正整數(shù)。
5.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的語(yǔ)音分割的方法,其特征在于,所述步驟S2之后還包括:
基于所述有效語(yǔ)音段獲取對(duì)應(yīng)的應(yīng)答內(nèi)容,并將所述應(yīng)答內(nèi)容反饋給所述終端。
6.一種語(yǔ)音分割的裝置,其特征在于,所述語(yǔ)音分割的裝置包括:
分割模塊,用于在接收到終端發(fā)送的混合語(yǔ)音時(shí),將所述混合語(yǔ)音分割成多個(gè)短語(yǔ)音段,并對(duì)各短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說(shuō)話人標(biāo)識(shí);
調(diào)整模塊,用于利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界,以分割出各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段。
7.根據(jù)權(quán)利要求6所述的語(yǔ)音分割的裝置,其特征在于,所述分割模塊包括:
去除單元,用于獲取所述混合語(yǔ)音中的靜音段,去除所述混合語(yǔ)音中的靜音段,以根據(jù)所述靜音段對(duì)所述混合語(yǔ)音進(jìn)行分割,得到分割后的長(zhǎng)語(yǔ)音段;
分幀單元,用于對(duì)所述長(zhǎng)語(yǔ)音段進(jìn)行分幀,以提取每一長(zhǎng)語(yǔ)音段的聲學(xué)特征;
切分單元,用于對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,根據(jù)KL距離分析結(jié)果對(duì)所述語(yǔ)音段進(jìn)行切分,得到切分后的短語(yǔ)音段;
聚類單元,用于利用高斯混合模型對(duì)各短語(yǔ)音段進(jìn)行語(yǔ)音聚類,并對(duì)同一語(yǔ)音類的短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說(shuō)話人標(biāo)識(shí)。
8.根據(jù)權(quán)利要求7所述的語(yǔ)音分割的裝置,其特征在于,所述切分單元具體用于對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,對(duì)時(shí)長(zhǎng)大于預(yù)設(shè)時(shí)間閾值的長(zhǎng)語(yǔ)音段在KL距離的最大值處進(jìn)行切分,得到切分后的短語(yǔ)音段。
9.根據(jù)權(quán)利要求7或8所述的語(yǔ)音分割的裝置,其特征在于,所述調(diào)整模塊包括:
建模單元,用于利用所述時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型提取表征說(shuō)話人身份特征的預(yù)設(shè)類型向量;
計(jì)算單元,用于基于所述預(yù)設(shè)類型向量計(jì)算每一語(yǔ)音幀屬于對(duì)應(yīng)的說(shuō)話人的最大后驗(yàn)概率;
第一調(diào)整單元,用于基于所述最大后驗(yàn)概率并利用預(yù)定算法調(diào)整該說(shuō)話人的混合高斯模型;
第二調(diào)整單元,用于基于調(diào)整后的混合高斯模型獲取每一語(yǔ)音幀對(duì)應(yīng)的概率最大的說(shuō)話人,并根據(jù)概率最大的說(shuō)話人與語(yǔ)音幀的概率關(guān)系調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界;
迭代單元,用于迭代更新所述聲紋模型n次,每次更新所述聲紋模型時(shí)迭代m次所述混合高斯模型,以得到各說(shuō)話人對(duì)應(yīng)的有效語(yǔ)音段,n及m均為大于1的正整數(shù)。
10.根據(jù)權(quán)利要求6至8任一項(xiàng)所述的語(yǔ)音分割的裝置,其特征在于,所述語(yǔ)音分割的裝置還包括:反饋模塊,用于基于所述有效語(yǔ)音段獲取對(duì)應(yīng)的應(yīng)答內(nèi)容,并將所述應(yīng)答內(nèi)容反饋給所述終端。