本申請(qǐng)涉及語音識(shí)別領(lǐng)域,更具體地,涉及一種語音控制方法和裝置。
背景技術(shù):現(xiàn)在,語音控制已經(jīng)廣泛地應(yīng)用于便攜式終端(諸如,智能電話、平板電腦、個(gè)人數(shù)字助理(PDA)等)或其它電子裝置,具體地,在現(xiàn)有的基于遠(yuǎn)程服務(wù)器的語音控制方法中,便攜式終端將用戶輸入的語音信息無線發(fā)送到遠(yuǎn)程服務(wù)器,遠(yuǎn)程服務(wù)器處理語音信息并將處理結(jié)果發(fā)送到便攜式終端,隨后便攜式終端根據(jù)所述處理結(jié)果執(zhí)行相應(yīng)的操作。然而,上述現(xiàn)有的基于遠(yuǎn)程服務(wù)器的語音控制方法僅僅在無線信號(hào)區(qū)域適用,對(duì)輸入語音信息的用戶的輸入次數(shù)有一定的要求,并且不能夠?qū)μ囟☉?yīng)用和菜單顯示頁面進(jìn)行定位以及通過藍(lán)牙耳機(jī)對(duì)便攜式終端進(jìn)行語音控制。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明在于提供一種語音控制方法,包括:選擇進(jìn)入語音訓(xùn)練模式或語音識(shí)別模式;當(dāng)選擇進(jìn)入語音訓(xùn)練模式時(shí),將用戶輸入的語音信息以及相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中;以及當(dāng)選擇進(jìn)入語音識(shí)別模式時(shí),將用戶輸入的語音信息與樣本庫中的語音信息進(jìn)行匹配,并執(zhí)行與匹配的樣本庫中的語音信息相應(yīng)的功能。所述功能可以是執(zhí)行特定應(yīng)用、定位到特定應(yīng)用的快捷方式、定位到特定菜單界面或菜單項(xiàng)。將用戶輸入的語音信息以及相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中的步驟可包括:提取用戶輸入的語音信息的特征矢量;對(duì)語音信息的特征矢量進(jìn)行離散隱馬爾科夫建模(DHMM)以獲得語音信息的DHMM模型;將語音信息的DHMM模型與用戶選擇的相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中。將用戶輸入的語音信息與樣本庫中的語音信息進(jìn)行匹配并執(zhí)行與匹配的樣本庫中的語音信息相應(yīng)的功能的步驟可包括:提取用戶輸入的語音信息的特征矢量;通過使用維特比(Viterbi)識(shí)別算法將語音信息的特征矢量與樣本庫中的語音信息的DHMM模型進(jìn)行匹配;執(zhí)行與匹配的語音信息的DHMM模型相應(yīng)的功能。語音信息的特征矢量可以是語音信息的音調(diào)(Mel)頻率倒譜系數(shù)(MFCC)。一種語音控制裝置,包括:模式選擇單元,選擇進(jìn)入語音訓(xùn)練模式或語音識(shí)別模式;語音訓(xùn)練單元,當(dāng)選擇進(jìn)入語音訓(xùn)練模式時(shí),將用戶輸入的語音信息以及相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中;語音識(shí)別單元,當(dāng)選擇進(jìn)入語音識(shí)別模式時(shí),將用戶輸入的語音信息與樣本庫中的語音信息進(jìn)行匹配,并執(zhí)行與匹配的樣本庫中的語音信息相應(yīng)的功能。所述功能可以是執(zhí)行特定應(yīng)用、定位到特定應(yīng)用的快捷方式、定位到特定菜單界面或菜單項(xiàng)。語音訓(xùn)練單元還可提取用戶輸入的語音信息的特征矢量,對(duì)語音信息的特征矢量進(jìn)行離散隱馬爾科夫建模(DHMM)以獲得語音信息的DHMM模型,并將語音信息的DHMM模型與用戶選擇的相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中。語音識(shí)別單元還可提取用戶輸入的語音信息的特征矢量,通過使用維特比(Viterbi)識(shí)別算法將語音信息的特征矢量與樣本庫中的語音信息的DHMM模型進(jìn)行匹配,并執(zhí)行與匹配的語音信息的DHMM模型相應(yīng)的功能。語音信息的特征矢量可以是語音信息的音調(diào)(Mel)頻率倒譜系數(shù)(MFCC)。將在接下來的描述中部分闡述本發(fā)明另外的方面和/或優(yōu)點(diǎn),還有一部分通過描述將是清楚的,或者可以經(jīng)過本發(fā)明的實(shí)施而得知。附圖說明通過下面結(jié)合附圖進(jìn)行的描述,本發(fā)明的上述和其它目的和特點(diǎn)將會(huì)變得更加清楚,其中:圖1是示出根據(jù)本發(fā)明示例性實(shí)施例的語音控制方法的流程圖;圖2是示出根據(jù)本發(fā)明示例性實(shí)施例的語音控制裝置的框圖。具體實(shí)施方式現(xiàn)在,詳細(xì)描述本發(fā)明的示例性實(shí)施例,其示例在附圖中表示,其中,相同的標(biāo)號(hào)始終表示相同的部件。圖1是示出根據(jù)本發(fā)明示例性實(shí)施例的語音控制方法的流程圖。參照?qǐng)D1,在步驟S110,啟動(dòng)語音識(shí)別。這里,可由用戶通過操作便攜式終端或輸入特定語音命令來啟動(dòng)語音識(shí)別。在步驟S120,選擇進(jìn)入語音訓(xùn)練模式或語音識(shí)別模式。如果選擇進(jìn)入語音訓(xùn)練模式,則在步驟S130,將用戶輸入的語音信息以及相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中,這里,用戶輸入的語音信息可由便攜式終端接收。此外,僅作為示例,所述功能可以是執(zhí)行特定應(yīng)用、定位到特定應(yīng)用的快捷方式或者定位到特定菜單界面或菜單項(xiàng)。更具體地,步驟S130可進(jìn)一步包括:在步驟S131,提取用戶輸入的語音信息的特征矢量,這里,僅作為示例,可提取語音信息的音調(diào)(Mel)頻率倒譜系數(shù)(MFCC)作為特征矢量;在步驟S132,對(duì)語音信息的特征矢量進(jìn)行離散隱馬爾科夫建模(DHMM)以獲得語音信息的DHMM模型;在步驟S133,將語音信息的DHMM模型與用戶選擇的相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中。此外,僅作為示例,可針對(duì)不同用戶輸入的語音信息分別進(jìn)行訓(xùn)練,從而能夠識(shí)別不同用戶輸入的語音信息并進(jìn)而提取特征矢量。如果選擇進(jìn)入語音識(shí)別模式,則在步驟S140,將用戶輸入的語音信息與樣本庫中的語音信息進(jìn)行匹配,并執(zhí)行與匹配的語音信息相應(yīng)的功能,這里,用戶輸入的語音信息可由便攜式終端接收。更具體地,步驟S140可進(jìn)一步包括:在步驟S141,提取用戶輸入的語音信息的特征矢量,這里,僅作為示例,可提取語音信息的Mel頻率倒譜系數(shù)(MFCC)作為特征矢量;在步驟S142,通過使用維特比(Viterbi)識(shí)別算法將語音信息的特征矢量與樣本庫中的語音信息的DHMM模型進(jìn)行匹配;在步驟S143,執(zhí)行與匹配的語音信息的DHMM模型相應(yīng)的功能。此外,如果在步驟S142中經(jīng)過預(yù)定時(shí)間之后仍沒有匹配到與語音信息的特征矢量相匹配的DHMM模型,則可停止執(zhí)行步驟S142。此外,在接收用戶輸入的語音信息之前,可預(yù)先選擇麥克風(fēng)類型,(諸如耳機(jī)麥克風(fēng),系統(tǒng)自帶麥克風(fēng)或者其它麥克風(fēng)等)并設(shè)置麥克風(fēng)(諸如調(diào)節(jié)麥克風(fēng)的音量大小等);在對(duì)用戶輸入的語音信息進(jìn)行特征提取之前,還可對(duì)特征信息進(jìn)行預(yù)處理,包括但不限于功率放大、自增益控制和低通濾波等,在此不再贅述。圖2是示出根據(jù)本發(fā)明示例性實(shí)施例的語音控制裝置的框圖。參照?qǐng)D1,根據(jù)本發(fā)明示例性實(shí)施例的語音控制裝置可包括模式選擇單元210、語音訓(xùn)練單元220和語音識(shí)別單元230。此外,根據(jù)本發(fā)明示例性實(shí)施例的語音控制裝置可包括在便攜式終端中。模式選擇單元210用于選擇進(jìn)入語音訓(xùn)練模式或語音識(shí)別模式。如果選擇進(jìn)入語音訓(xùn)練模式,則語音訓(xùn)練單元220將用戶輸入的語音信息以及相應(yīng)的功能相關(guān)聯(lián)地存儲(chǔ)在樣本庫中,這里,用戶輸入的語音信息可由便攜式終端接收。此外,僅作為示例,所述功能可以是執(zhí)行特定應(yīng)用、定位到特定應(yīng)用的快捷方式、定位到特定菜單界面或菜單項(xiàng),并且所述樣本庫可被存儲(chǔ)在便攜式終端中。更具體地,語音訓(xùn)練單元220可進(jìn)一步包括:特征矢量提取單元221,提取用戶輸入的語音信息的特征矢量,這里,僅作為示例,可提取語音信息的Mel頻率倒譜系數(shù)(MFCC)作為特征矢量;離散隱馬爾科夫建模(DHMM)單元222,對(duì)語音信息的特征矢量進(jìn)行DHMM以獲得語音信息的DHMM模型,其中,語音信息的DHMM模型與用戶選擇的相應(yīng)的功能被相關(guān)聯(lián)地存儲(chǔ)在樣本庫中。此外,僅作為示例,語音訓(xùn)練單元220可針對(duì)不同用戶輸入的語音信息分別進(jìn)行訓(xùn)練,從而能夠識(shí)別不同用戶輸入的語音信息并進(jìn)而提取特征矢量。如果選擇進(jìn)入語音識(shí)別模式,則語音識(shí)別單元230將用戶輸入的語音信息與樣本庫中的語音信息進(jìn)行匹配,并執(zhí)行與匹配的樣本庫中的語音信息相應(yīng)的功能,這里,用戶輸入的語音信息可由便攜式終端接收。更具體地,語音識(shí)別單元230可進(jìn)一步包括:特征矢量提取單元231,提取用戶輸入的語音信息的特征矢量,這里,僅作為示例,可提取語音信息的Mel頻率倒譜系數(shù)(MFCC)作為特征矢量;匹配單元232,通過使用維特比(Viterbi)識(shí)別算法將語音信息的特征矢量與樣本庫中的語音信息的DHMM模型進(jìn)行匹配;功能執(zhí)行單元233,執(zhí)行與匹配的語音信息的DHMM模型相應(yīng)的功能。此外,如果經(jīng)過預(yù)定時(shí)間之后匹配單元232仍沒有匹配到與語音信息的特征矢量相匹配的DHMM模型,則匹配單元232可停止執(zhí)行匹配操作。應(yīng)該了解,上述各個(gè)單元可以由軟件構(gòu)成,也可以由硬件構(gòu)成,在由硬件構(gòu)成的情況下,可由系統(tǒng)級(jí)芯片(SoC)來實(shí)現(xiàn)上述各個(gè)單元,在此不再贅述。根據(jù)本發(fā)明的示例性實(shí)施例,便攜式終端能夠迅速定位到特定菜單或者特定應(yīng)用并進(jìn)而進(jìn)行操作,從而避免了在便攜式終端的眾多應(yīng)用中尋找期望的菜單或者應(yīng)用,尤其可避免當(dāng)常用的菜單或應(yīng)用在最后一個(gè)顯示界面時(shí),要跳過前面的眾多顯示界面的麻煩,提高了用戶體驗(yàn);此外,由于可將樣本庫存儲(chǔ)在便攜式終端中,故可以不需要連接到互聯(lián)網(wǎng)即可進(jìn)行上述語音識(shí)別操作,提高了用戶的便利性。雖然已經(jīng)參照特定示例性實(shí)施例示出和描述了本發(fā)明,但是本領(lǐng)域的技術(shù)人員將理解,在不脫離范圍由權(quán)利要求及其等同物限定的本發(fā)明的精神和范圍的情況下可作出形式和細(xì)節(jié)上的各種改變。