一種語(yǔ)音控制方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音技術(shù),尤其涉及一種語(yǔ)音控制方法及裝置。
【背景技術(shù)】
[0002]本申請(qǐng)發(fā)明人在實(shí)現(xiàn)本申請(qǐng)實(shí)施例技術(shù)方案的過(guò)程中,至少發(fā)現(xiàn)現(xiàn)有技術(shù)中存在如下技術(shù)問(wèn)題:
[0003]以可視通訊場(chǎng)景為例,隨著語(yǔ)音識(shí)別技術(shù)在市場(chǎng)上大規(guī)模的應(yīng)用,用戶對(duì)通過(guò)語(yǔ)音發(fā)出控制命令,來(lái)代替人工操作控制命令的需求日益增強(qiáng),目前在可視通訊領(lǐng)域中,控制方案都功能單一,且都是建立在簡(jiǎn)單的人工操作基礎(chǔ)上,不具備新穎的實(shí)用功能,缺乏創(chuàng)新性,對(duì)于這個(gè)問(wèn)題,現(xiàn)有技術(shù)并未存在有效的解決方案。
【發(fā)明內(nèi)容】
[0004]為解決現(xiàn)有技術(shù)存在的問(wèn)題,本發(fā)明實(shí)施例希望提供一種一種語(yǔ)音控制方法及,能通過(guò)語(yǔ)音發(fā)出控制命令,便于用戶操作,將用戶的雙手解放出來(lái)。
[0005]一種語(yǔ)音控制方法,所述方法包括:
[0006]觸發(fā)用戶操作后獲取語(yǔ)音數(shù)據(jù);
[0007]對(duì)所述語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,按照預(yù)定方式進(jìn)行關(guān)鍵字匹配,從所述語(yǔ)音數(shù)據(jù)中得到識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù);
[0008]觸發(fā)關(guān)鍵字控制命令的發(fā)送,將所述識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)作為控制命令對(duì)所述用戶操作進(jìn)行響應(yīng),來(lái)實(shí)現(xiàn)語(yǔ)音控制。
[0009]優(yōu)選地,所述對(duì)所述語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,按照預(yù)定方式進(jìn)行關(guān)鍵字匹配,從所述語(yǔ)音數(shù)據(jù)中得到識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù),包括:
[0010]基于隱馬爾科夫模型HMM建模的預(yù)定方式進(jìn)行關(guān)鍵字匹配時(shí),所述語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別所提取的聲學(xué)特征參數(shù)為MFCC特征參數(shù),將識(shí)別結(jié)果作為關(guān)鍵字匹配的參考基準(zhǔn),得到識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)。
[0011]優(yōu)選地,所述方法還包括:得到識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)后,基于最短距離的預(yù)定方式進(jìn)行關(guān)鍵字匹配優(yōu)化處理。
[0012]優(yōu)選地,所述基于最短距離的預(yù)定方式進(jìn)行關(guān)鍵字匹配優(yōu)化處理,包括:
[0013]建立關(guān)鍵字?jǐn)?shù)據(jù)語(yǔ)音庫(kù);
[0014]提取所述識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)的聲學(xué)特征參數(shù)為MFCC特征參數(shù),并使用矢量量化(VQ)進(jìn)行所述關(guān)鍵字?jǐn)?shù)據(jù)語(yǔ)音庫(kù)中的數(shù)據(jù)聚類,得到每個(gè)類內(nèi)的代表矢量;
[0015]根據(jù)每個(gè)類內(nèi)的代表矢量得到所述及識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)的MFCC特征參數(shù)與每個(gè)類內(nèi)的代表矢量的最短距離;
[0016]所述最短距離與經(jīng)驗(yàn)閾值匹配成功時(shí)得到關(guān)鍵字匹配優(yōu)化處理后識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)。
[0017]優(yōu)選地,所述方法還包括:
[0018]通過(guò)對(duì)關(guān)鍵字?jǐn)?shù)據(jù)的能量信息對(duì)比,判斷控制命令是否執(zhí)行完畢,若執(zhí)行完畢,則結(jié)束當(dāng)前關(guān)鍵字匹配,重新對(duì)所述語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別。
[0019]優(yōu)選地,所述關(guān)鍵字?jǐn)?shù)據(jù)包括:呼入、呼出、接聽、掛斷中至少一個(gè)基本控制命令信肩、O
[0020]一種語(yǔ)音控制裝置,所述裝置包括:
[0021]語(yǔ)音獲取單元,用于觸發(fā)用戶操作后獲取語(yǔ)音數(shù)據(jù);
[0022]關(guān)鍵字識(shí)別單元,用于對(duì)所述語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,按照預(yù)定方式進(jìn)行關(guān)鍵字匹配,從所述語(yǔ)音數(shù)據(jù)中得到識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù);
[0023]語(yǔ)音控制單元,用于觸發(fā)關(guān)鍵字控制命令的發(fā)送,將所述識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)作為控制命令對(duì)所述用戶操作進(jìn)行響應(yīng),來(lái)實(shí)現(xiàn)語(yǔ)音控制。
[0024]優(yōu)選地,所述關(guān)鍵字識(shí)別單元,進(jìn)一步用于基于隱馬爾科夫模型HMM建模的預(yù)定方式進(jìn)行關(guān)鍵字匹配時(shí),所述語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別所提取的聲學(xué)特征參數(shù)為MFCC特征參數(shù),將識(shí)別結(jié)果作為關(guān)鍵字匹配的參考基準(zhǔn),得到識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)。
[0025]優(yōu)選地,所述關(guān)鍵字識(shí)別單元,進(jìn)一步用于得到識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)后,基于最短距離的預(yù)定方式進(jìn)行關(guān)鍵字匹配優(yōu)化處理。
[0026]優(yōu)選地,所述關(guān)鍵字識(shí)別單元,進(jìn)一步用于基于最短距離的預(yù)定方式進(jìn)行關(guān)鍵字匹配優(yōu)化處理的情況下,建立關(guān)鍵字?jǐn)?shù)據(jù)語(yǔ)音庫(kù);提取所述識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)的聲學(xué)特征參數(shù)為MFCC特征參數(shù),并使用矢量量化(VQ)進(jìn)行所述關(guān)鍵字?jǐn)?shù)據(jù)語(yǔ)音庫(kù)中的數(shù)據(jù)聚類,得到每個(gè)類內(nèi)的代表矢量;根據(jù)每個(gè)類內(nèi)的代表矢量得到所述及識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)的MFCC特征參數(shù)與每個(gè)類內(nèi)的代表矢量的最短距離;所述最短距離與經(jīng)驗(yàn)閾值匹配成功時(shí)得到關(guān)鍵字匹配優(yōu)化處理后識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)。
[0027]優(yōu)選地,所述關(guān)鍵字識(shí)別單元,進(jìn)一步用于通過(guò)對(duì)關(guān)鍵字?jǐn)?shù)據(jù)的能量信息對(duì)比,判斷控制命令是否執(zhí)行完畢,若執(zhí)行完畢,則結(jié)束當(dāng)前關(guān)鍵字匹配,重新對(duì)所述語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別。
[0028]優(yōu)選地,所述關(guān)鍵字?jǐn)?shù)據(jù)包括:呼入、呼出、接聽、掛斷中至少一個(gè)基本控制命令信肩、O
[0029]本發(fā)明實(shí)施例的方法包括:觸發(fā)用戶操作后獲取語(yǔ)音數(shù)據(jù);對(duì)所述語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,按照預(yù)定方式進(jìn)行關(guān)鍵字匹配,從所述語(yǔ)音數(shù)據(jù)中得到識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù);觸發(fā)關(guān)鍵字控制命令的發(fā)送,將所述識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)作為控制命令對(duì)所述用戶操作進(jìn)行響應(yīng),來(lái)實(shí)現(xiàn)語(yǔ)音控制。由于能通過(guò)識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)觸發(fā)關(guān)鍵字控制命令的發(fā)送,對(duì)所述用戶操作進(jìn)行響應(yīng),來(lái)實(shí)現(xiàn)語(yǔ)音控制,因此,采用本發(fā)明實(shí)施例控制命令的自動(dòng)匹配發(fā)出代替了現(xiàn)有的用戶手工操作,便于用戶操作,將用戶的雙手解放出來(lái)。
【附圖說(shuō)明】
[0030]圖1為本發(fā)明實(shí)施例的方法流程圖;
[0031]圖2為本發(fā)明實(shí)施例的裝置結(jié)構(gòu)圖;
[0032]圖3為本發(fā)明實(shí)施例一應(yīng)用場(chǎng)景的流程圖;
[0033]圖4為本發(fā)明實(shí)施例矢量量化例子的示意圖;
[0034]圖5-7為本發(fā)明實(shí)施例一應(yīng)用場(chǎng)景的裝置基本模塊運(yùn)行的實(shí)現(xiàn)流程圖。
【具體實(shí)施方式】
[0035]下面結(jié)合附圖對(duì)技術(shù)方案的實(shí)施作進(jìn)一步的詳細(xì)描述。
[0036]本發(fā)明實(shí)施例的方案是一種應(yīng)用語(yǔ)音識(shí)別技術(shù)進(jìn)行關(guān)鍵字識(shí)別進(jìn)而實(shí)現(xiàn)語(yǔ)音控制的方案,可以用于可視通訊系統(tǒng)、終端設(shè)備間通話和互發(fā)短信等各個(gè)應(yīng)用場(chǎng)景,通過(guò)語(yǔ)音數(shù)據(jù)關(guān)鍵字的識(shí)別得到自動(dòng)匹配的控制命令,代替目前的人工控制,本發(fā)明實(shí)施例作為一種輔助手段使得用戶能進(jìn)行更為人性化的各種控制操作。
[0037]本發(fā)明實(shí)施例的語(yǔ)音控制方法,如圖1所示,包括:
[0038]步驟101、觸發(fā)用戶操作后獲取語(yǔ)音數(shù)據(jù)。
[0039]步驟102、對(duì)所述語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,按照預(yù)定方式進(jìn)行關(guān)鍵字匹配,從所述語(yǔ)音數(shù)據(jù)中得到識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)。
[0040]步驟103、觸發(fā)關(guān)鍵字控制命令的發(fā)送,將所述識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)作為控制命令對(duì)所述用戶操作進(jìn)行響應(yīng),來(lái)實(shí)現(xiàn)語(yǔ)音控制。
[0041]這里,所述關(guān)鍵字?jǐn)?shù)據(jù)包括:呼入、呼出、接聽、掛斷中至少一個(gè)基本控制命令信肩、O
[0042]這里,步驟102對(duì)所述語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,按照預(yù)定方式進(jìn)行關(guān)鍵字匹配,如果從所述語(yǔ)音數(shù)據(jù)中得到識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù),則可以執(zhí)行步驟103,如果不匹配,無(wú)法得到識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù),則可以將語(yǔ)音數(shù)據(jù)作為普通數(shù)據(jù)發(fā)送。
[0043]本發(fā)明實(shí)施例的語(yǔ)音控制裝置,如圖2所示,包括:
[0044]語(yǔ)音獲取單元11,用于觸發(fā)用戶操作后獲取語(yǔ)音數(shù)據(jù)。關(guān)鍵字識(shí)別單元12,用于對(duì)所述語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,按照預(yù)定方式進(jìn)行關(guān)鍵字匹配,從所述語(yǔ)音數(shù)據(jù)中得到識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)。語(yǔ)音控制單元13,用于觸發(fā)關(guān)鍵字控制命令的發(fā)送,將所述識(shí)別出的關(guān)鍵字?jǐn)?shù)據(jù)作為控制命令對(duì)所述用戶操作進(jìn)行響應(yīng),來(lái)實(shí)現(xiàn)語(yǔ)音控制。
[0045]本發(fā)明實(shí)施例可以用于可視通訊系統(tǒng)、終端設(shè)備間通話和互發(fā)短信等各個(gè)應(yīng)用場(chǎng)景,以下以可視通訊應(yīng)用場(chǎng)景進(jìn)行具體闡述。
[0046]如圖3所示,本發(fā)明實(shí)施例在可視通訊應(yīng)用場(chǎng)景中,包括以下步驟:
[0047]步驟201、用戶觸發(fā)可視通訊操作后獲取語(yǔ)音數(shù)據(jù)。
[0048]步驟202、對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行關(guān)鍵字匹配識(shí)別,如果匹配,則執(zhí)行步驟203,否則,執(zhí)行步驟204。
[0049]步驟203、響應(yīng)用戶操作,發(fā)出關(guān)鍵字控制命令,實(shí)現(xiàn)可視通訊操作中的語(yǔ)音控制。
[0050]步驟204、RTP數(shù)據(jù)包發(fā)送。
[0051]這里需要指出的是,本發(fā)明實(shí)施例主要在將RTP語(yǔ)音數(shù)據(jù)包發(fā)送之前,嵌入了語(yǔ)音