語(yǔ)音分割的方法及裝置與流程

文檔序號(hào)：12475849閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>語(yǔ)音分割的方法及裝置與流程

技術(shù)特征：

1.一種語(yǔ)音分割的方法，其特征在于，所述語(yǔ)音分割的方法包括：

S1，自動(dòng)應(yīng)答系統(tǒng)在接收到終端發(fā)送的混合語(yǔ)音時(shí)，將所述混合語(yǔ)音分割成多個(gè)短語(yǔ)音段，并對(duì)各短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說(shuō)話人標(biāo)識(shí)；

S2，利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型，基于所述聲紋模型調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界，以分割出各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段。

2.根據(jù)權(quán)利要求1所述的語(yǔ)音分割的方法，其特征在于，所述步驟S1包括：

S11，獲取所述混合語(yǔ)音中的靜音段，去除所述混合語(yǔ)音中的靜音段，以根據(jù)所述靜音段對(duì)所述混合語(yǔ)音進(jìn)行分割，得到分割后的長(zhǎng)語(yǔ)音段；

S12，對(duì)所述長(zhǎng)語(yǔ)音段進(jìn)行分幀，以提取每一長(zhǎng)語(yǔ)音段的聲學(xué)特征；

S13，對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析，根據(jù)KL距離分析結(jié)果對(duì)所述語(yǔ)音段進(jìn)行切分，得到切分后的短語(yǔ)音段；

S14，利用高斯混合模型對(duì)各短語(yǔ)音段進(jìn)行語(yǔ)音聚類，并對(duì)同一語(yǔ)音類的短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說(shuō)話人標(biāo)識(shí)。

3.根據(jù)權(quán)利要求2所述的語(yǔ)音分割的方法，其特征在于，所述步驟S13包括：

對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析，對(duì)時(shí)長(zhǎng)大于預(yù)設(shè)時(shí)間閾值的長(zhǎng)語(yǔ)音段在KL距離的最大值處進(jìn)行切分，得到切分后的短語(yǔ)音段。

4.根據(jù)權(quán)利要求2或3所述的語(yǔ)音分割的方法，其特征在于，所述步驟S2包括：

S21，利用所述時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型，基于所述聲紋模型提取表征說(shuō)話人身份特征的預(yù)設(shè)類型向量；

S22，基于所述預(yù)設(shè)類型向量計(jì)算每一語(yǔ)音幀屬于對(duì)應(yīng)的說(shuō)話人的最大后驗(yàn)概率；

S23，基于所述最大后驗(yàn)概率并利用預(yù)定算法調(diào)整該說(shuō)話人的混合高斯模型；

S24，基于調(diào)整后的混合高斯模型獲取每一語(yǔ)音幀對(duì)應(yīng)的概率最大的說(shuō)話人，并根據(jù)概率最大的說(shuō)話人與語(yǔ)音幀的概率關(guān)系調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界；

S25，迭代更新所述聲紋模型n次，每次更新所述聲紋模型時(shí)迭代m次所述混合高斯模型，以得到各說(shuō)話人對(duì)應(yīng)的有效語(yǔ)音段，n及m均為大于1的正整數(shù)。

5.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的語(yǔ)音分割的方法，其特征在于，所述步驟S2之后還包括：

基于所述有效語(yǔ)音段獲取對(duì)應(yīng)的應(yīng)答內(nèi)容，并將所述應(yīng)答內(nèi)容反饋給所述終端。

6.一種語(yǔ)音分割的裝置，其特征在于，所述語(yǔ)音分割的裝置包括：

分割模塊，用于在接收到終端發(fā)送的混合語(yǔ)音時(shí)，將所述混合語(yǔ)音分割成多個(gè)短語(yǔ)音段，并對(duì)各短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說(shuō)話人標(biāo)識(shí)；

調(diào)整模塊，用于利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型，基于所述聲紋模型調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界，以分割出各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段。

7.根據(jù)權(quán)利要求6所述的語(yǔ)音分割的裝置，其特征在于，所述分割模塊包括：

去除單元，用于獲取所述混合語(yǔ)音中的靜音段，去除所述混合語(yǔ)音中的靜音段，以根據(jù)所述靜音段對(duì)所述混合語(yǔ)音進(jìn)行分割，得到分割后的長(zhǎng)語(yǔ)音段；

分幀單元，用于對(duì)所述長(zhǎng)語(yǔ)音段進(jìn)行分幀，以提取每一長(zhǎng)語(yǔ)音段的聲學(xué)特征；

切分單元，用于對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析，根據(jù)KL距離分析結(jié)果對(duì)所述語(yǔ)音段進(jìn)行切分，得到切分后的短語(yǔ)音段；

聚類單元，用于利用高斯混合模型對(duì)各短語(yǔ)音段進(jìn)行語(yǔ)音聚類，并對(duì)同一語(yǔ)音類的短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說(shuō)話人標(biāo)識(shí)。

8.根據(jù)權(quán)利要求7所述的語(yǔ)音分割的裝置，其特征在于，所述切分單元具體用于對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析，對(duì)時(shí)長(zhǎng)大于預(yù)設(shè)時(shí)間閾值的長(zhǎng)語(yǔ)音段在KL距離的最大值處進(jìn)行切分，得到切分后的短語(yǔ)音段。

9.根據(jù)權(quán)利要求7或8所述的語(yǔ)音分割的裝置，其特征在于，所述調(diào)整模塊包括：

建模單元，用于利用所述時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型，基于所述聲紋模型提取表征說(shuō)話人身份特征的預(yù)設(shè)類型向量；

計(jì)算單元，用于基于所述預(yù)設(shè)類型向量計(jì)算每一語(yǔ)音幀屬于對(duì)應(yīng)的說(shuō)話人的最大后驗(yàn)概率；

第一調(diào)整單元，用于基于所述最大后驗(yàn)概率并利用預(yù)定算法調(diào)整該說(shuō)話人的混合高斯模型；

第二調(diào)整單元，用于基于調(diào)整后的混合高斯模型獲取每一語(yǔ)音幀對(duì)應(yīng)的概率最大的說(shuō)話人，并根據(jù)概率最大的說(shuō)話人與語(yǔ)音幀的概率關(guān)系調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界；

迭代單元，用于迭代更新所述聲紋模型n次，每次更新所述聲紋模型時(shí)迭代m次所述混合高斯模型，以得到各說(shuō)話人對(duì)應(yīng)的有效語(yǔ)音段，n及m均為大于1的正整數(shù)。

10.根據(jù)權(quán)利要求6至8任一項(xiàng)所述的語(yǔ)音分割的裝置，其特征在于，所述語(yǔ)音分割的裝置還包括：反饋模塊，用于基于所述有效語(yǔ)音段獲取對(duì)應(yīng)的應(yīng)答內(nèi)容，并將所述應(yīng)答內(nèi)容反饋給所述終端。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)音報(bào)警裝置相關(guān)技術(shù)

隔爆型語(yǔ)音報(bào)警裝置相關(guān)技術(shù)

電梯語(yǔ)音報(bào)站裝置相關(guān)技術(shù)

智能語(yǔ)音交互體驗(yàn)裝置相關(guān)技術(shù)

聲光語(yǔ)音信號(hào)裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語(yǔ)音分割的方法及裝置與流程