語(yǔ)音識(shí)別方法及裝置與流程

文檔序號(hào)：12724072閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>語(yǔ)音識(shí)別方法及裝置與流程

技術(shù)特征：

1.一種語(yǔ)音識(shí)別方法，其特征在于，包括步驟：

獲取待識(shí)別的語(yǔ)音信號(hào)的特征分類(lèi)結(jié)果；所述特征分類(lèi)結(jié)果包含用于描述各語(yǔ)音信號(hào)幀的發(fā)音特征的發(fā)音以及各語(yǔ)音信號(hào)幀映射到對(duì)應(yīng)的發(fā)音的概率；

基于所述特征分類(lèi)結(jié)果所含的概率，對(duì)所述特征分類(lèi)結(jié)果所含的發(fā)音進(jìn)行過(guò)濾；

基于過(guò)濾后的特征分類(lèi)結(jié)果識(shí)別所述語(yǔ)音信號(hào)。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述特征分類(lèi)結(jié)果所含的概率，對(duì)所述特征分類(lèi)結(jié)果所含的發(fā)音進(jìn)行過(guò)濾，包括：

判斷任一語(yǔ)音信號(hào)幀映射到對(duì)應(yīng)的發(fā)音的概率是否滿足預(yù)定過(guò)濾規(guī)則；

如果所述對(duì)應(yīng)的發(fā)音滿足預(yù)定過(guò)濾規(guī)則，對(duì)所述對(duì)應(yīng)的發(fā)音進(jìn)行濾掉。

3.根據(jù)權(quán)利要求2所述的方法，其特征在于：

如果任一語(yǔ)音信號(hào)幀映射到對(duì)應(yīng)的發(fā)音的概率，與該語(yǔ)音信號(hào)幀的最大映射概率之間的概率差，在預(yù)定的差值范圍內(nèi)，則確定所述對(duì)應(yīng)的發(fā)音滿足預(yù)定過(guò)濾規(guī)則；

如果任一語(yǔ)音信號(hào)幀映射到對(duì)應(yīng)的發(fā)音的概率，小于該語(yǔ)音信號(hào)幀映射到預(yù)定數(shù)目的發(fā)音中各發(fā)音的概率，則確定所述對(duì)應(yīng)的發(fā)音滿足預(yù)定過(guò)濾規(guī)則。

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述預(yù)定數(shù)目為以下任一：

該幀語(yǔ)音信號(hào)幀對(duì)應(yīng)的發(fā)音中被保留在特征分類(lèi)結(jié)果內(nèi)的發(fā)音的數(shù)量；

預(yù)定的比例閾值與該幀語(yǔ)音信號(hào)幀對(duì)應(yīng)的發(fā)音的總數(shù)目的乘積。

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述特征分類(lèi)結(jié)果所含的概率，對(duì)所述特征分類(lèi)結(jié)果所含的發(fā)音進(jìn)行過(guò)濾，包括：

獲取任一語(yǔ)音信號(hào)幀映射到各發(fā)音的概率的直方圖分布；

獲取與所述直方圖分布對(duì)應(yīng)的束寬；

將概率分布在所述束寬之外的發(fā)音，確定為滿足預(yù)定過(guò)濾規(guī)則的發(fā)音；

將滿足預(yù)定過(guò)濾規(guī)則的發(fā)音，從所述特征分類(lèi)結(jié)果所含的發(fā)音中刪除。

6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的方法，其特征在于，所述基于所述特征分類(lèi)結(jié)果所含的概率，對(duì)所述特征分類(lèi)結(jié)果所含的發(fā)音進(jìn)行過(guò)濾，包括：

如果任一語(yǔ)音信號(hào)幀映射到對(duì)應(yīng)的發(fā)音的概率滿足預(yù)定過(guò)濾規(guī)則，將該發(fā)音確定為候選發(fā)音；

如果該語(yǔ)音信號(hào)幀的預(yù)定幀數(shù)的相鄰語(yǔ)音信號(hào)幀中的任一幀，映射到該候選發(fā)音的概率滿足預(yù)定過(guò)濾規(guī)則，則將該候選發(fā)音從所述特征分類(lèi)結(jié)果所含的發(fā)音中刪除；

如果該語(yǔ)音信號(hào)幀的預(yù)定幀數(shù)的相鄰語(yǔ)音信號(hào)幀，映射到該候選發(fā)音的概率均不滿足預(yù)定過(guò)濾規(guī)則，則將該候選發(fā)音保留在所述特征分類(lèi)結(jié)果所含的發(fā)音中。

7.一種語(yǔ)音識(shí)別裝置，其特征在于，包括：

分類(lèi)結(jié)果獲取模塊，用于獲取待識(shí)別的語(yǔ)音信號(hào)的特征分類(lèi)結(jié)果；所述特征分類(lèi)結(jié)果包含用于描述各語(yǔ)音信號(hào)幀的發(fā)音特征的發(fā)音以及各語(yǔ)音信號(hào)幀映射到對(duì)應(yīng)的發(fā)音的概率；

發(fā)音過(guò)濾模塊，用于基于所述特征分類(lèi)結(jié)果所含的概率，對(duì)所述特征分類(lèi)結(jié)果所含的發(fā)音進(jìn)行過(guò)濾；

語(yǔ)音識(shí)別模塊，用于基于過(guò)濾后的特征分類(lèi)結(jié)果識(shí)別所述語(yǔ)音信號(hào)。

8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述發(fā)音過(guò)濾模塊還包括：

第一過(guò)濾模塊，用于在任一語(yǔ)音信號(hào)幀映射到對(duì)應(yīng)的發(fā)音的概率，與該語(yǔ)音信號(hào)幀的最大映射概率之間的概率差，在預(yù)定的差值范圍內(nèi)時(shí)，對(duì)所述對(duì)應(yīng)的發(fā)音進(jìn)行過(guò)濾；

第二過(guò)濾模塊，用于在任一語(yǔ)音信號(hào)幀映射到對(duì)應(yīng)的發(fā)音的概率，小于該語(yǔ)音信號(hào)幀映射到預(yù)定數(shù)目的發(fā)音中各發(fā)音的概率時(shí)，對(duì)所述對(duì)應(yīng)的發(fā)音進(jìn)行過(guò)濾。

9.根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述發(fā)音過(guò)濾模塊包括：

概率分布模塊，用于獲取任一語(yǔ)音信號(hào)幀映射到各發(fā)音的概率的直方圖分布；

束寬確定模塊，用于獲取與所述直方圖分布對(duì)應(yīng)的束寬；

發(fā)音確定模塊，用于將概率分布在所述束寬之外的發(fā)音，確定為滿足所述預(yù)定過(guò)濾規(guī)則的發(fā)音；

發(fā)音刪除模塊，用于將滿足所述預(yù)定過(guò)濾規(guī)則的發(fā)音從所述特征分類(lèi)結(jié)果所含的發(fā)音中刪除。

10.根據(jù)權(quán)利要求7至9中任一項(xiàng)所述的裝置，其特征在于，所述發(fā)音過(guò)濾模塊包括：

候選發(fā)音確定模塊，用于在任一語(yǔ)音信號(hào)幀映射到對(duì)應(yīng)的發(fā)音的概率滿足預(yù)定過(guò)濾規(guī)則時(shí)，將該發(fā)音確定為候選發(fā)音；

候選發(fā)音刪除模塊，用于在該語(yǔ)音信號(hào)幀的預(yù)定幀數(shù)的相鄰語(yǔ)音信號(hào)幀中的任一幀，映射到該候選發(fā)音的概率滿足預(yù)定過(guò)濾規(guī)則時(shí)，將該候選發(fā)音從所述特征分類(lèi)結(jié)果所含的發(fā)音中刪除；

候選發(fā)音保留模塊，用于在該語(yǔ)音信號(hào)幀的預(yù)定幀數(shù)的相鄰語(yǔ)音信號(hào)幀，映射到該候選發(fā)音的概率均不滿足預(yù)定過(guò)濾規(guī)則時(shí)，將該候選發(fā)音保留在所述特征分類(lèi)結(jié)果所含的發(fā)音中。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)