語音控制方法和裝置與流程

文檔序號(hào)：11991143閱讀：189來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請(qǐng)涉及語音識(shí)別領(lǐng)域，更具體地，涉及一種語音控制方法和裝置。

背景技術(shù)：
現(xiàn)在，語音控制已經(jīng)廣泛地應(yīng)用于便攜式終端（諸如，智能電話、平板電腦、個(gè)人數(shù)字助理（PDA）等）或其它電子裝置，具體地，在現(xiàn)有的基于遠(yuǎn)程服務(wù)器的語音控制方法中，便攜式終端將用戶輸入的語音信息無線發(fā)送到遠(yuǎn)程服務(wù)器，遠(yuǎn)程服務(wù)器處理語音信息并將處理結(jié)果發(fā)送到便攜式終端，隨后便攜式終端根據(jù)所述處理結(jié)果執(zhí)行相應(yīng)的操作。然而，上述現(xiàn)有的基于遠(yuǎn)程服務(wù)器的語音控制方法僅僅在無線信號(hào)區(qū)域適用，對(duì)輸入語音信息的用戶的輸入次數(shù)有一定的要求，并且不能夠?qū)μ囟☉?yīng)用和菜單顯示頁面進(jìn)行定位以及通過藍(lán)牙耳機(jī)對(duì)便攜式終端進(jìn)行語音控制。

技術(shù)實(shí)現(xiàn)要素：
本發(fā)明在于提供一種語音控制方法，包括：選擇進(jìn)入語音訓(xùn)練模式或語音識(shí)別模式；當(dāng)選擇進(jìn)入語音訓(xùn)練模式時(shí)，將用戶輸入的語音信息以及相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中；以及當(dāng)選擇進(jìn)入語音識(shí)別模式時(shí)，將用戶輸入的語音信息與樣本庫中的語音信息進(jìn)行匹配，并執(zhí)行與匹配的樣本庫中的語音信息相應(yīng)的功能。所述功能可以是執(zhí)行特定應(yīng)用、定位到特定應(yīng)用的快捷方式、定位到特定菜單界面或菜單項(xiàng)。將用戶輸入的語音信息以及相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中的步驟可包括：提取用戶輸入的語音信息的特征矢量；對(duì)語音信息的特征矢量進(jìn)行離散隱馬爾科夫建模（DHMM）以獲得語音信息的DHMM模型；將語音信息的DHMM模型與用戶選擇的相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中。將用戶輸入的語音信息與樣本庫中的語音信息進(jìn)行匹配并執(zhí)行與匹配的樣本庫中的語音信息相應(yīng)的功能的步驟可包括：提取用戶輸入的語音信息的特征矢量；通過使用維特比（Viterbi）識(shí)別算法將語音信息的特征矢量與樣本庫中的語音信息的DHMM模型進(jìn)行匹配；執(zhí)行與匹配的語音信息的DHMM模型相應(yīng)的功能。語音信息的特征矢量可以是語音信息的音調(diào)（Mel）頻率倒譜系數(shù)（MFCC）。一種語音控制裝置，包括：模式選擇單元，選擇進(jìn)入語音訓(xùn)練模式或語音識(shí)別模式；語音訓(xùn)練單元，當(dāng)選擇進(jìn)入語音訓(xùn)練模式時(shí)，將用戶輸入的語音信息以及相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中；語音識(shí)別單元，當(dāng)選擇進(jìn)入語音識(shí)別模式時(shí)，將用戶輸入的語音信息與樣本庫中的語音信息進(jìn)行匹配，并執(zhí)行與匹配的樣本庫中的語音信息相應(yīng)的功能。所述功能可以是執(zhí)行特定應(yīng)用、定位到特定應(yīng)用的快捷方式、定位到特定菜單界面或菜單項(xiàng)。語音訓(xùn)練單元還可提取用戶輸入的語音信息的特征矢量，對(duì)語音信息的特征矢量進(jìn)行離散隱馬爾科夫建模（DHMM）以獲得語音信息的DHMM模型，并將語音信息的DHMM模型與用戶選擇的相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中。語音識(shí)別單元還可提取用戶輸入的語音信息的特征矢量，通過使用維特比（Viterbi）識(shí)別算法將語音信息的特征矢量與樣本庫中的語音信息的DHMM模型進(jìn)行匹配，并執(zhí)行與匹配的語音信息的DHMM模型相應(yīng)的功能。語音信息的特征矢量可以是語音信息的音調(diào)（Mel）頻率倒譜系數(shù)（MFCC）。將在接下來的描述中部分闡述本發(fā)明另外的方面和/或優(yōu)點(diǎn)，還有一部分通過描述將是清楚的，或者可以經(jīng)過本發(fā)明的實(shí)施而得知。附圖說明通過下面結(jié)合附圖進(jìn)行的描述，本發(fā)明的上述和其它目的和特點(diǎn)將會(huì)變得更加清楚，其中：圖1是示出根據(jù)本發(fā)明示例性實(shí)施例的語音控制方法的流程圖；圖2是示出根據(jù)本發(fā)明示例性實(shí)施例的語音控制裝置的框圖。具體實(shí)施方式現(xiàn)在，詳細(xì)描述本發(fā)明的示例性實(shí)施例，其示例在附圖中表示，其中，相同的標(biāo)號(hào)始終表示相同的部件。圖1是示出根據(jù)本發(fā)明示例性實(shí)施例的語音控制方法的流程圖。參照?qǐng)D1，在步驟S110，啟動(dòng)語音識(shí)別。這里，可由用戶通過操作便攜式終端或輸入特定語音命令來啟動(dòng)語音識(shí)別。在步驟S120，選擇進(jìn)入語音訓(xùn)練模式或語音識(shí)別模式。如果選擇進(jìn)入語音訓(xùn)練模式，則在步驟S130，將用戶輸入的語音信息以及相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中，這里，用戶輸入的語音信息可由便攜式終端接收。此外，僅作為示例，所述功能可以是執(zhí)行特定應(yīng)用、定位到特定應(yīng)用的快捷方式或者定位到特定菜單界面或菜單項(xiàng)。更具體地，步驟S130可進(jìn)一步包括：在步驟S131，提取用戶輸入的語音信息的特征矢量，這里，僅作為示例，可提取語音信息的音調(diào)（Mel）頻率倒譜系數(shù)（MFCC）作為特征矢量；在步驟S132，對(duì)語音信息的特征矢量進(jìn)行離散隱馬爾科夫建模（DHMM）以獲得語音信息的DHMM模型；在步驟S133，將語音信息的DHMM模型與用戶選擇的相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中。此外，僅作為示例，可針對(duì)不同用戶輸入的語音信息分別進(jìn)行訓(xùn)練，從而能夠識(shí)別不同用戶輸入的語音信息并進(jìn)而提取特征矢量。如果選擇進(jìn)入語音識(shí)別模式，則在步驟S140，將用戶輸入的語音信息與樣本庫中的語音信息進(jìn)行匹配，并執(zhí)行與匹配的語音信息相應(yīng)的功能，這里，用戶輸入的語音信息可由便攜式終端接收。更具體地，步驟S140可進(jìn)一步包括：在步驟S141，提取用戶輸入的語音信息的特征矢量，這里，僅作為示例，可提取語音信息的Mel頻率倒譜系數(shù)（MFCC）作為特征矢量；在步驟S142，通過使用維特比（Viterbi）識(shí)別算法將語音信息的特征矢量與樣本庫中的語音信息的DHMM模型進(jìn)行匹配；在步驟S143，執(zhí)行與匹配的語音信息的DHMM模型相應(yīng)的功能。此外，如果在步驟S142中經(jīng)過預(yù)定時(shí)間之后仍沒有匹配到與語音信息的特征矢量相匹配的DHMM模型，則可停止執(zhí)行步驟S142。此外，在接收用戶輸入的語音信息之前，可預(yù)先選擇麥克風(fēng)類型，（諸如耳機(jī)麥克風(fēng)，系統(tǒng)自帶麥克風(fēng)或者其它麥克風(fēng)等）并設(shè)置麥克風(fēng)（諸如調(diào)節(jié)麥克風(fēng)的音量大小等）；在對(duì)用戶輸入的語音信息進(jìn)行特征提取之前，還可對(duì)特征信息進(jìn)行預(yù)處理，包括但不限于功率放大、自增益控制和低通濾波等，在此不再贅述。圖2是示出根據(jù)本發(fā)明示例性實(shí)施例的語音控制裝置的框圖。參照?qǐng)D1，根據(jù)本發(fā)明示例性實(shí)施例的語音控制裝置可包括模式選擇單元210、語音訓(xùn)練單元220和語音識(shí)別單元230。此外，根據(jù)本發(fā)明示例性實(shí)施例的語音控制裝置可包括在便攜式終端中。模式選擇單元210用于選擇進(jìn)入語音訓(xùn)練模式或語音識(shí)別模式。如果選擇進(jìn)入語音訓(xùn)練模式，則語音訓(xùn)練單元220將用戶輸入的語音信息以及相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中，這里，用戶輸入的語音信息可由便攜式終端接收。此外，僅作為示例，所述功能可以是執(zhí)行特定應(yīng)用、定位到特定應(yīng)用的快捷方式、定位到特定菜單界面或菜單項(xiàng)，并且所述樣本庫可被存儲(chǔ)在便攜式終端中。更具體地，語音訓(xùn)練單元220可進(jìn)一步包括：特征矢量提取單元221，提取用戶輸入的語音信息的特征矢量，這里，僅作為示例，可提取語音信息的Mel頻率倒譜系數(shù)（MFCC）作為特征矢量；離散隱馬爾科夫建模（DHMM）單元222，對(duì)語音信息的特征矢量進(jìn)行DHMM以獲得語音信息的DHMM模型，其中，語音信息的DHMM模型與用戶選擇的相應(yīng)的功能被相關(guān)聯(lián)地存儲(chǔ)在樣本庫中。此外，僅作為示例，語音訓(xùn)練單元220可針對(duì)不同用戶輸入的語音信息分別進(jìn)行訓(xùn)練，從而能夠識(shí)別不同用戶輸入的語音信息并進(jìn)而提取特征矢量。如果選擇進(jìn)入語音識(shí)別模式，則語音識(shí)別單元230將用戶輸入的語音信息與樣本庫中的語音信息進(jìn)行匹配，并執(zhí)行與匹配的樣本庫中的語音信息相應(yīng)的功能，這里，用戶輸入的語音信息可由便攜式終端接收。更具體地，語音識(shí)別單元230可進(jìn)一步包括：特征矢量提取單元231，提取用戶輸入的語音信息的特征矢量，這里，僅作為示例，可提取語音信息的Mel頻率倒譜系數(shù)（MFCC）作為特征矢量；匹配單元232，通過使用維特比（Viterbi）識(shí)別算法將語音信息的特征矢量與樣本庫中的語音信息的DHMM模型進(jìn)行匹配；功能執(zhí)行單元233，執(zhí)行與匹配的語音信息的DHMM模型相應(yīng)的功能。此外，如果經(jīng)過預(yù)定時(shí)間之后匹配單元232仍沒有匹配到與語音信息的特征矢量相匹配的DHMM模型，則匹配單元232可停止執(zhí)行匹配操作。應(yīng)該了解，上述各個(gè)單元可以由軟件構(gòu)成，也可以由硬件構(gòu)成，在由硬件構(gòu)成的情況下，可由系統(tǒng)級(jí)芯片（SoC）來實(shí)現(xiàn)上述各個(gè)單元，在此不再贅述。根據(jù)本發(fā)明的示例性實(shí)施例，便攜式終端能夠迅速定位到特定菜單或者特定應(yīng)用并進(jìn)而進(jìn)行操作，從而避免了在便攜式終端的眾多應(yīng)用中尋找期望的菜單或者應(yīng)用，尤其可避免當(dāng)常用的菜單或應(yīng)用在最后一個(gè)顯示界面時(shí)，要跳過前面的眾多顯示界面的麻煩，提高了用戶體驗(yàn)；此外，由于可將樣本庫存儲(chǔ)在便攜式終端中，故可以不需要連接到互聯(lián)網(wǎng)即可進(jìn)行上述語音識(shí)別操作，提高了用戶的便利性。雖然已經(jīng)參照特定示例性實(shí)施例示出和描述了本發(fā)明，但是本領(lǐng)域的技術(shù)人員將理解，在不脫離范圍由權(quán)利要求及其等同物限定的本發(fā)明的精神和范圍的情況下可作出形式和細(xì)節(jié)上的各種改變。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3