亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語(yǔ)音分割的方法及裝置與流程

文檔序號(hào):12475849閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.一種語(yǔ)音分割的方法,其特征在于,所述語(yǔ)音分割的方法包括:

S1,自動(dòng)應(yīng)答系統(tǒng)在接收到終端發(fā)送的混合語(yǔ)音時(shí),將所述混合語(yǔ)音分割成多個(gè)短語(yǔ)音段,并對(duì)各短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說(shuō)話人標(biāo)識(shí);

S2,利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界,以分割出各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段。

2.根據(jù)權(quán)利要求1所述的語(yǔ)音分割的方法,其特征在于,所述步驟S1包括:

S11,獲取所述混合語(yǔ)音中的靜音段,去除所述混合語(yǔ)音中的靜音段,以根據(jù)所述靜音段對(duì)所述混合語(yǔ)音進(jìn)行分割,得到分割后的長(zhǎng)語(yǔ)音段;

S12,對(duì)所述長(zhǎng)語(yǔ)音段進(jìn)行分幀,以提取每一長(zhǎng)語(yǔ)音段的聲學(xué)特征;

S13,對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,根據(jù)KL距離分析結(jié)果對(duì)所述語(yǔ)音段進(jìn)行切分,得到切分后的短語(yǔ)音段;

S14,利用高斯混合模型對(duì)各短語(yǔ)音段進(jìn)行語(yǔ)音聚類,并對(duì)同一語(yǔ)音類的短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說(shuō)話人標(biāo)識(shí)。

3.根據(jù)權(quán)利要求2所述的語(yǔ)音分割的方法,其特征在于,所述步驟S13包括:

對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,對(duì)時(shí)長(zhǎng)大于預(yù)設(shè)時(shí)間閾值的長(zhǎng)語(yǔ)音段在KL距離的最大值處進(jìn)行切分,得到切分后的短語(yǔ)音段。

4.根據(jù)權(quán)利要求2或3所述的語(yǔ)音分割的方法,其特征在于,所述步驟S2包括:

S21,利用所述時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型提取表征說(shuō)話人身份特征的預(yù)設(shè)類型向量;

S22,基于所述預(yù)設(shè)類型向量計(jì)算每一語(yǔ)音幀屬于對(duì)應(yīng)的說(shuō)話人的最大后驗(yàn)概率;

S23,基于所述最大后驗(yàn)概率并利用預(yù)定算法調(diào)整該說(shuō)話人的混合高斯模型;

S24,基于調(diào)整后的混合高斯模型獲取每一語(yǔ)音幀對(duì)應(yīng)的概率最大的說(shuō)話人,并根據(jù)概率最大的說(shuō)話人與語(yǔ)音幀的概率關(guān)系調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界;

S25,迭代更新所述聲紋模型n次,每次更新所述聲紋模型時(shí)迭代m次所述混合高斯模型,以得到各說(shuō)話人對(duì)應(yīng)的有效語(yǔ)音段,n及m均為大于1的正整數(shù)。

5.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的語(yǔ)音分割的方法,其特征在于,所述步驟S2之后還包括:

基于所述有效語(yǔ)音段獲取對(duì)應(yīng)的應(yīng)答內(nèi)容,并將所述應(yīng)答內(nèi)容反饋給所述終端。

6.一種語(yǔ)音分割的裝置,其特征在于,所述語(yǔ)音分割的裝置包括:

分割模塊,用于在接收到終端發(fā)送的混合語(yǔ)音時(shí),將所述混合語(yǔ)音分割成多個(gè)短語(yǔ)音段,并對(duì)各短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說(shuō)話人標(biāo)識(shí);

調(diào)整模塊,用于利用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界,以分割出各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的有效語(yǔ)音段。

7.根據(jù)權(quán)利要求6所述的語(yǔ)音分割的裝置,其特征在于,所述分割模塊包括:

去除單元,用于獲取所述混合語(yǔ)音中的靜音段,去除所述混合語(yǔ)音中的靜音段,以根據(jù)所述靜音段對(duì)所述混合語(yǔ)音進(jìn)行分割,得到分割后的長(zhǎng)語(yǔ)音段;

分幀單元,用于對(duì)所述長(zhǎng)語(yǔ)音段進(jìn)行分幀,以提取每一長(zhǎng)語(yǔ)音段的聲學(xué)特征;

切分單元,用于對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,根據(jù)KL距離分析結(jié)果對(duì)所述語(yǔ)音段進(jìn)行切分,得到切分后的短語(yǔ)音段;

聚類單元,用于利用高斯混合模型對(duì)各短語(yǔ)音段進(jìn)行語(yǔ)音聚類,并對(duì)同一語(yǔ)音類的短語(yǔ)音段標(biāo)注對(duì)應(yīng)的說(shuō)話人標(biāo)識(shí)。

8.根據(jù)權(quán)利要求7所述的語(yǔ)音分割的裝置,其特征在于,所述切分單元具體用于對(duì)每一長(zhǎng)語(yǔ)音段的聲學(xué)特征進(jìn)行KL距離分析,對(duì)時(shí)長(zhǎng)大于預(yù)設(shè)時(shí)間閾值的長(zhǎng)語(yǔ)音段在KL距離的最大值處進(jìn)行切分,得到切分后的短語(yǔ)音段。

9.根據(jù)權(quán)利要求7或8所述的語(yǔ)音分割的裝置,其特征在于,所述調(diào)整模塊包括:

建模單元,用于利用所述時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)對(duì)各說(shuō)話人標(biāo)識(shí)對(duì)應(yīng)的短語(yǔ)音段建立聲紋模型,基于所述聲紋模型提取表征說(shuō)話人身份特征的預(yù)設(shè)類型向量;

計(jì)算單元,用于基于所述預(yù)設(shè)類型向量計(jì)算每一語(yǔ)音幀屬于對(duì)應(yīng)的說(shuō)話人的最大后驗(yàn)概率;

第一調(diào)整單元,用于基于所述最大后驗(yàn)概率并利用預(yù)定算法調(diào)整該說(shuō)話人的混合高斯模型;

第二調(diào)整單元,用于基于調(diào)整后的混合高斯模型獲取每一語(yǔ)音幀對(duì)應(yīng)的概率最大的說(shuō)話人,并根據(jù)概率最大的說(shuō)話人與語(yǔ)音幀的概率關(guān)系調(diào)整所述混合語(yǔ)音中對(duì)應(yīng)的分割邊界;

迭代單元,用于迭代更新所述聲紋模型n次,每次更新所述聲紋模型時(shí)迭代m次所述混合高斯模型,以得到各說(shuō)話人對(duì)應(yīng)的有效語(yǔ)音段,n及m均為大于1的正整數(shù)。

10.根據(jù)權(quán)利要求6至8任一項(xiàng)所述的語(yǔ)音分割的裝置,其特征在于,所述語(yǔ)音分割的裝置還包括:反饋模塊,用于基于所述有效語(yǔ)音段獲取對(duì)應(yīng)的應(yīng)答內(nèi)容,并將所述應(yīng)答內(nèi)容反饋給所述終端。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1