一種兒童機器人用的語音識別裝置的制作方法

文檔序號：12475838閱讀：257來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及機器人的技術(shù)領(lǐng)域，尤其涉及一種兒童機器人用的語音識別裝置。

背景技術(shù)：

隨著智能移動終端技術(shù)和語音交互技術(shù)高速發(fā)展，以及語音交互技術(shù)在智能移動終端的廣泛應(yīng)用，使得智能移動終端具備語音交互功能。通常的語音交互技術(shù)中，由于受到采集難易程度和采集成本等不同因素影響，使得已知語料庫中是以采集較為方便的成人語料為主，兒童語料占據(jù)比例小。但是，與成年人相比，兒童的發(fā)音有著聲道長度短、發(fā)音速度變化大以及無意義語氣詞較多等特點，因此，采用上述已知語料庫的語音識別系統(tǒng)對兒童語音的針對性不足，對成年人的語音進行語音識別處理的準(zhǔn)確度要高于兒童的。

技術(shù)實現(xiàn)要素：

本發(fā)明主要解決的技術(shù)問題是提供一種兒童機器人用的語音識別裝置，適用于兒童機器人，對兒童所發(fā)出的語音進行識別，識別后發(fā)出正確的語音并通知執(zhí)行相關(guān)的動作，合理高效地提高了對兒童語音的識別率，達到對兒童語音針對性更強，語音識別率更高，識別結(jié)果更加準(zhǔn)確的有益效果。

為解決上述技術(shù)問題，本發(fā)明采用的一個技術(shù)方案是：提供了一種兒童機器人用的語音識別裝置，包括語音采集端、語音發(fā)送端、語音語料庫、提取處理器、識別分析儀以及同步模塊，所述的語音采集端與語音語料庫相連接，所述的語音語料庫分別與提取處理器和識別分析儀相連接，所述的語音語料庫通過相連接的提取處理器和識別分析儀與同步模塊連接在一起，所述的語音語料庫通過相連接的提取處理器和識別分析儀與同步模塊連接在一起，所述的語音發(fā)送端與同步模塊相連接。

在本發(fā)明一個較佳實施例中，所述的兒童機器人用的語音識別裝置還包括語言模型，所述的語音語料庫通過語言模型與識別分析儀相連接。

在本發(fā)明一個較佳實施例中，所述的兒童機器人用的語音識別裝置還包括語言模型和聲學(xué)模型，所述的語音語料庫通過語言模型與識別分析儀相連接；所述的語音語料庫通過聲學(xué)模型與提取處理器相連接。

在本發(fā)明一個較佳實施例中，所述的聲學(xué)模型通過隱馬爾科夫模型對語音語料庫內(nèi)的聲學(xué)特征進行建模。

在本發(fā)明一個較佳實施例中，所述的聲學(xué)模型中還設(shè)置有靜音模型和語氣詞模型。

在本發(fā)明一個較佳實施例中，所述的靜音模型采用64個高斯混合模型進行描述聲韻母的HMM的每個狀態(tài)。

在本發(fā)明一個較佳實施例中，所述的語氣詞模型采用多個語氣詞共建立一個模型或者對每個語氣詞分別建立一個模型。

在本發(fā)明一個較佳實施例中，所述的語言模型采用 N-gram 的統(tǒng)計語言模型。

在本發(fā)明一個較佳實施例中，所述的語音語料庫包括成人的語音語料和兒童的語音語料。

在本發(fā)明一個較佳實施例中，所述的兒童機器人用的語音識別裝置還包括執(zhí)行組件，所述的執(zhí)行組件與語音發(fā)送端相連接。

本發(fā)明的有益效果是：本發(fā)明的兒童機器人用的語音識別裝置，適用于兒童機器人，對兒童所發(fā)出的語音進行識別，識別后發(fā)出正確的語音并通知執(zhí)行相關(guān)的動作，合理高效地提高了對兒童語音的識別率，達到對兒童語音針對性更強，語音識別率更高，識別結(jié)果更加準(zhǔn)確的有益效果。

附圖說明

為了更清楚地說明本發(fā)明實施例中的技術(shù)方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其它的附圖，其中：

圖1 是本發(fā)明兒童機器人用的語音識別裝置的一較佳實施例的結(jié)構(gòu)示意圖。

具體實施方式

下面將對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述，顯然，所描述的實施例僅是本發(fā)明的一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例，都屬于本發(fā)明保護的范圍。

如圖1所示，本發(fā)明實施例包括：

一種兒童機器人用的語音識別裝置，包括語音采集端、語音發(fā)送端、語音語料庫、提取處理器、識別分析儀以及同步模塊，所述的語音采集端與語音語料庫相連接，所述的語音語料庫分別與提取處理器和識別分析儀相連接，所述的語音語料庫通過相連接的提取處理器和識別分析儀與同步模塊連接在一起，所述的語音語料庫通過相連接的提取處理器和識別分析儀與同步模塊連接在一起，所述的語音發(fā)送端與同步模塊相連接。

上述中，所述的兒童機器人用的語音識別裝置還包括語言模型和聲學(xué)模型，所述的語音語料庫通過語言模型與識別分析儀相連接；所述的語音語料庫通過聲學(xué)模型與提取處理器相連接。

其中，所述的語音語料庫包括成人的語音語料和兒童的語音語料；所述的聲學(xué)模型通過隱馬爾科夫模型對語音語料庫內(nèi)的聲學(xué)特征進行建模；語言模型均采用 N-gram 的統(tǒng)計語言模型。

通過已知的語音語料庫分別建立聲學(xué)模型和語言模型；接收兒童的語音信號，并對語音信號進行前端處理；對經(jīng)過前端處理的語音信號進行特征提取處理，以獲取語音信號的聲學(xué)特征；提取聲學(xué)特征后再進行識別分析處理，通過聲學(xué)模型和語言模型對語音信號的聲學(xué)特征進行解碼搜索，再進行識別分析處理以獲得識別文本，同步校正后發(fā)出對應(yīng)的語音信號，并通知兒童機器人執(zhí)行相關(guān)的動作。

其中，通過語音語料庫建立聲學(xué)模型包括：對所述語音語料庫中的全部語音語料進行特征提取處理，并在所述特征提取處理過程中加入聲道長度歸一化技術(shù)，以獲得所述全部語音語料的聲學(xué)特征；根據(jù)所述全部語音語料的聲學(xué)特征進行建模，以獲得所述聲學(xué)模型。

需要說明的是，本實施例中的聲學(xué)模型除了常用的中文聲韻母模型的配置方式，還可以加入下文將要描述的靜音模型和語氣詞模型?，F(xiàn)對本實施例中的靜音模型以及語氣詞模型進行分別介紹。

由于兒童發(fā)音語速變化大，并且兒童的語音信息中可能出現(xiàn)會說說停停的問題，因此，需要在聲學(xué)模型的設(shè)置中加入靜音模型，來識別兒童語音中可能出現(xiàn)大段靜音的情況。本發(fā)明實施例中，在建立聲學(xué)模型時，需要對不同的發(fā)音建立單獨的模型。以中文為例，需要對66個聲韻母單獨建立HMM模型。并且，本發(fā)明實施例能夠進一步增大靜音模型的描述精度。例如，在通常的聲音模型中，采用32個高斯混合模型（Gassion Mixture Model，以下簡稱GMM）進行描述聲韻母的HMM的每個狀態(tài)，則在建立本發(fā)明實施例中的靜音模型時，可以將GMM的采用個數(shù)提升為至少采用64個。本發(fā)明實施例中，針對兒童發(fā)音速度變化大、容易出現(xiàn)大段靜音的發(fā)音特點，在建立的聲音模型中添加靜音模型，提高對兒童語音信息的識別率，合理高效地增大對兒童語音信息識別的準(zhǔn)確性。

另外，本發(fā)明實施例建立的聲學(xué)模型中還可以添加語氣詞模型。由于兒童發(fā)音時經(jīng)常會出現(xiàn)無意義的語氣詞，例如“嗯”、“啊”、“哦”，等，因此，為提高對兒童語音信息的識別率，在聲學(xué)模型的設(shè)置中加入語氣詞模型，單獨對語氣詞建立數(shù)學(xué)模型。優(yōu)選地，本發(fā)明實施例中，可以在訓(xùn)練語料不足的情況下，對“嗯”、“啊”、“哦”等多個語氣詞共建立一個模型，還可以在訓(xùn)練語料多的情況下，對每個語氣詞分別建立一個模型。本發(fā)明實施例中，針對兒童無意義的語氣詞較多的發(fā)音特點，在聲學(xué)模型的建立中，添加語氣詞模型，進一步提高對兒童語音的識別率，增大識別的準(zhǔn)確性。

建立語言模型時，為生成語言模型，通常需要大量的文本語料對各個字詞之間的N-gram進行統(tǒng)計。因此，現(xiàn)有技術(shù)中，建立模型所采用的語音語料庫越接近兒童的發(fā)音方式，識別性能就越好。但是，兒童發(fā)音與成人發(fā)音存在巨大的差異，而大部分的語音語料庫以成人文本語料為主。因此，語音語料庫并不能夠準(zhǔn)確地描述或者涵蓋兒童的發(fā)音方式。

為取得能夠準(zhǔn)確描述或者涵蓋兒童的發(fā)音方式的語音語料庫，本發(fā)明實施例對語音語料庫進行變形處理。在對語音語料庫進行變形處理時，考慮到兒童的性格和/或天性和/或本能，設(shè)置適合兒童的發(fā)音方式的預(yù)設(shè)變性規(guī)則。

例如，由于兒童的天性或者本能為兒童喜歡對看見和/或聽見和/或聞見和/ 或通過其他感官接觸到的事物進行異想天開的聯(lián)想，導(dǎo)致兒童的發(fā)音方式容易出現(xiàn)如下發(fā)音特點：

同一個詞可能會多次重復(fù)。例如“蘋果好吃”會說成“蘋果蘋果好吃”；詞尾的字也可能會重復(fù)，例如“蘋果好吃”會說成“蘋果果好吃”，或“蘋果好吃吃”等；無意義的助聲詞增多，例如“蘋果好吃”會說出“蘋果、嗯、好吃”，或“蘋、啊、果、好吃”等。

本實施例中，對待變形文本語料進行變形處理時，首先對待變形文本語料中所有的語句進行分詞處理。即，將完整的語句變成獨立的詞。例如“今天媽媽買的蘋果真好吃”分詞后變成“今天媽媽買的蘋果真好吃”。

其次，在經(jīng)過分詞處理的待變形文本語料中，隨機選擇至少一個詞進行重復(fù)處理。本發(fā)明實施例中，對經(jīng)過分詞處理的待變形文本語料中隨機選擇的至少一個詞進行的重復(fù)處理，可以是根據(jù)兒童發(fā)音方式對待變形文本語料進行的任意重復(fù)處理操作。優(yōu)選地，本實施例中，根據(jù)兒童發(fā)音方式中常見的情況，選取三種重復(fù)處理操作，即詞重復(fù)處理、詞尾重復(fù)處理以及助聲詞增多處理。在對待變形文本語料進行分詞處理之后，本實施例能夠選取上述三種重復(fù)處理操作中的一種或者多種對待變形語料進行變性。并且，本實施例中，若選取三種重復(fù)處理操作中的多種對待變形語料進行變形，則本實施例對執(zhí)行不同重復(fù)處理的順序不加限定。

因此，針對兒童的發(fā)音特點，本發(fā)明實施例對語音語料庫的文本進行變形處理，并通過變形的語音語料庫建立更加準(zhǔn)確的語音模型以增加對兒童語音識別的準(zhǔn)確性。

綜上所述，本發(fā)明的兒童機器人用的語音識別裝置，適用于兒童機器人，對兒童所發(fā)出的語音進行識別，識別后發(fā)出正確的語音并通知執(zhí)行相關(guān)的動作，合理高效地提高了對兒童語音的識別率，達到對兒童語音針對性更強，語音識別率更高，識別結(jié)果更加準(zhǔn)確的有益效果。

以上所述僅為本發(fā)明的實施例，并非因此限制本發(fā)明的專利范圍，凡是利用本發(fā)明說明書內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換，或直接或間接運用在其它相關(guān)的技術(shù)領(lǐng)域，均同理包括在本發(fā)明的專利保護范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3