一種語音命令識(shí)別方法和裝置制造方法
【專利摘要】本發(fā)明實(shí)施方式提出一種語音命令識(shí)別方法和裝置。方法包括:獲取廣義背景模型,并基于用戶的注冊(cè)語音獲取用戶的聲紋模型;接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋特征、所述廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶;當(dāng)確定所述語音源自所述用戶時(shí),識(shí)別所述語音中的命令詞。本發(fā)明實(shí)施方式可以基于注冊(cè)用戶的聲紋模型確定語音是否源自注冊(cè)用戶,從而提高安全性。
【專利說明】一種語音命令識(shí)別方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施方式涉及自動(dòng)語音識(shí)別(ASR,Automatic Speech Recognition)技術(shù) 領(lǐng)域,更具體地,涉及一種語音命令識(shí)別方法和裝置。
【背景技術(shù)】
[0002] 自動(dòng)語音識(shí)別技術(shù)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入字符 的一項(xiàng)技術(shù)。語音識(shí)別具有復(fù)雜的處理流程,主要包括模型訓(xùn)練、解碼網(wǎng)絡(luò)構(gòu)建以及解碼等 過程。
[0003] 語音命令識(shí)別技術(shù)是自動(dòng)語音識(shí)別技術(shù)的一項(xiàng)具體應(yīng)用,其主要功能是用戶不必 利用鍵盤、鼠標(biāo)、觸摸屏等輸入設(shè)備,只要說出命令詞的語音,則語音命令識(shí)別系統(tǒng)會(huì)自動(dòng) 識(shí)別出該語音對(duì)應(yīng)的字符串,如果該字符串為命令詞對(duì)應(yīng)的字符串,則觸發(fā)對(duì)應(yīng)的操作。然 而,目前語音命令識(shí)別系統(tǒng)通常并不對(duì)用戶進(jìn)行區(qū)分,這會(huì)帶來顯著的安全性問題。
[0004] 例如目前的語音喚醒系統(tǒng)就是一種典型的語音命令識(shí)別系統(tǒng),用戶可以說出喚醒 命令,系統(tǒng)識(shí)別用戶說出的語音,如果識(shí)別出是喚醒命令則喚醒(即啟動(dòng))對(duì)應(yīng)的設(shè)備,否則 不喚醒對(duì)應(yīng)的設(shè)備。語音命令識(shí)別系統(tǒng)的評(píng)測(cè)標(biāo)準(zhǔn)通常包括誤識(shí)率和拒認(rèn)率兩個(gè)部分。誤 識(shí)率指用戶未發(fā)出語音命令,但系統(tǒng)卻錯(cuò)誤的觸發(fā)了該命令對(duì)應(yīng)的操作。拒認(rèn)率指用戶發(fā) 出了語音命令,但系統(tǒng)卻沒有反應(yīng),即沒有觸發(fā)該命令對(duì)應(yīng)的操作。誤識(shí)率和拒認(rèn)率越低, 證明語音命令識(shí)別系統(tǒng)越穩(wěn)定。
[0005] 當(dāng)前已公開的這些技術(shù)中,存在這樣的問題,當(dāng)其他人發(fā)出相應(yīng)的命令時(shí),由于喚 醒系統(tǒng)本身不具有識(shí)別用戶身份的能力,所以用戶自己的系統(tǒng)也會(huì)被喚醒,這就大大增加 了用戶使用時(shí)的風(fēng)險(xiǎn)。由于每個(gè)人的聲音都具有唯一性,通過聲紋識(shí)別來確認(rèn)用戶身份具 有其獨(dú)特的優(yōu)越性,也只有這種方式才能真正實(shí)現(xiàn)喚醒者的不可替代性,即使其他人故意 要喚醒系統(tǒng),系統(tǒng)也可以判斷不是用戶本人而拒絕被喚醒。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實(shí)施方式提出一種語音命令識(shí)別方法,以提高安全性。
[0007] 本發(fā)明實(shí)施方式提出一種語音命令識(shí)別裝置,以提高安全性。
[0008] 本發(fā)明實(shí)施方式的技術(shù)方案如下:
[0009] -種語音命令識(shí)別方法,該方法包括:
[0010] 獲取廣義背景模型,并基于用戶的注冊(cè)語音獲取用戶的聲紋模型;
[0011] 接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋特征、所述廣義背景 模型和所述用戶聲紋模型確定該語音是否源自所述用戶;
[0012] 當(dāng)確定所述語音源自所述用戶時(shí),識(shí)別所述語音中的命令詞。
[0013] 一種語音命令識(shí)別裝置,其特征在于,包括模型獲取單元、用戶識(shí)別單元和命令詞 識(shí)別單元,其中 :
[0014] 模型獲取單元,用于獲取廣義背景模型,并基于用戶的注冊(cè)語音獲取用戶的聲紋 模型;
[0015] 用戶識(shí)別單元,用于接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋 特征、所述廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶;
[0016] 命令詞識(shí)別單元,用于當(dāng)確定所述語音源自所述用戶時(shí),識(shí)別所述語音中的命令 。
[0017] 從上述技術(shù)方案可以看出,在本發(fā)明實(shí)施方式中,獲取廣義背景模型,并基于用戶 的注冊(cè)語音獲取用戶的聲紋模型;接收語音,提取所述語音的聲紋特征,并基于所述語音的 聲紋特征、所述廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶;當(dāng)確定 所述語音源自所述用戶時(shí),識(shí)別所述語音中的命令詞。應(yīng)用本發(fā)明實(shí)施方式之后,可以基于 注冊(cè)用戶的聲紋模型確定語音是否源自注冊(cè)用戶,從而提高了安全性。
[0018] 而且,在語音喚醒應(yīng)用中,本發(fā)明實(shí)施方式可以將使用聲紋識(shí)別的方式來確認(rèn)用 戶的身份,可保證系統(tǒng)只能由用戶本身喚醒。
【專利附圖】
【附圖說明】
[0019] 圖1為根據(jù)本發(fā)明實(shí)施方式語音命令識(shí)別方法流程圖;
[0020] 圖2為根據(jù)本發(fā)明實(shí)施方式的用戶聲紋注冊(cè)流程圖;
[0021] 圖3為根據(jù)本發(fā)明實(shí)施方式的基于用戶語音的語音喚醒流程圖;
[0022] 圖4為根據(jù)本發(fā)明實(shí)施方式的語音命令識(shí)別裝置結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0023] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步 的詳細(xì)描述。
[0024] 由于每個(gè)人的聲音都具有唯一性,通過聲紋識(shí)別來確認(rèn)用戶身份具有其獨(dú)特的優(yōu) 越性。比如,聲紋識(shí)別來確認(rèn)用戶身份可以真正實(shí)現(xiàn)喚醒者的不可替代性,即使其他人故意 要喚醒系統(tǒng),系統(tǒng)也可以判斷不是用戶本人而拒絕被喚醒。
[0025] 聲紋識(shí)別也稱為說話人識(shí)別。聲紋識(shí)別包括文本相關(guān)(Text-D印endent)和文本 無關(guān)(Text-Independent)兩種。與文本有關(guān)的聲紋識(shí)別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā) 音,每個(gè)人的聲紋模型逐個(gè)被精確地建立,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá) 到較好的識(shí)別效果。文本無關(guān)的說話人識(shí)別由于不需要存儲(chǔ)特定的文本密碼,而直接使用 說話人的語音作為密碼,可以廣泛的應(yīng)用在互聯(lián)網(wǎng)用戶身份認(rèn)證等安全領(lǐng)域。
[0026] 本發(fā)明實(shí)施方式可以適用于針對(duì)文本有關(guān)以及文本無關(guān)的應(yīng)用,尤其適用于針對(duì) 文本有關(guān)的應(yīng)用,比如語音喚醒應(yīng)用。
[0027] 圖1為根據(jù)本發(fā)明實(shí)施方式語音命令識(shí)別方法流程圖。
[0028] 如圖1所示,該方法包括:
[0029] 步驟101 :獲取廣義背景模型,并基于用戶的注冊(cè)語音獲取用戶的聲紋模型。
[0030] 可以利用包含大量說話人的語音數(shù)據(jù)訓(xùn)練一個(gè)說話人無關(guān)的廣義背景模型 (Universal Background Model, UBM),然后利用可以獲得的少量當(dāng)前說話人的語音數(shù) 據(jù),通過最大后驗(yàn)概率(Maximum A Posteriori, MAP)或者最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR)等準(zhǔn)則,訓(xùn)練得到說話人的模型,以作為用戶的聲 紋模型。
[0031] 在一個(gè)實(shí)施方式中:
[0032] 可以使用大量語音數(shù)據(jù)訓(xùn)練出一個(gè)基于混合高斯模型(GMM)的廣義背景模型 (UBM)。另外,還可以通過麥克風(fēng)等語音采集設(shè)備采集用戶口述命令詞的注冊(cè)語音;再?gòu)淖?冊(cè)語音中提取用戶語音特征;并利用所述用戶語音特征通過最大后驗(yàn)自適應(yīng)方式在所述廣 義背景模型上自適應(yīng)獲取該用戶的混合高斯模型,以作為所述用戶的聲紋模型。
[0033] 通過注冊(cè)用戶的聲音(聲紋),可以便于后續(xù)過程中對(duì)語音進(jìn)行鑒定,以確定所檢 測(cè)的語音是否由注冊(cè)用戶所發(fā)出。
[0034] 步驟102 :接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋特征、所 述廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶。
[0035] 在做說話人身份判決的時(shí)候,分別針對(duì)待測(cè)試語音數(shù)據(jù)計(jì)算說話人對(duì)應(yīng)的GMM模 型和UBM模型似然度,并通過對(duì)數(shù)似然比(Logistic Likelihood Ratio, LLR)這個(gè)度量來 計(jì)算最終的得分。對(duì)于說話人確認(rèn)任務(wù)來說,通過比較與預(yù)先設(shè)定的一個(gè)門限(Threshold) 的關(guān)系,來進(jìn)行判決,而對(duì)于說話人識(shí)別來說,模型得分高的則為說話人識(shí)別結(jié)果。
[0036] 在用戶完成語音注冊(cè)后,就具有了識(shí)別該用戶的能力。在實(shí)際應(yīng)用中,用戶說出其 對(duì)應(yīng)的文字密碼的語音,使用該語音與用戶之前注冊(cè)的聲紋模型進(jìn)行比對(duì),即可判定是否 是之前注冊(cè)的用戶所發(fā)出的命令。
[0037] 在一個(gè)實(shí)施方式中:
[0038] 在這里,可以確定所述聲紋特征與用戶聲紋模型的相似度以及所述聲紋特征與廣 義背景模型的相似度;當(dāng)所述聲紋特征與用戶聲紋模型的相似度和所述聲紋特征與廣義背 景模型的相似度之間的差值大于預(yù)先設(shè)定的門限值時(shí),確定該語音源自所述用戶。
[0039] 具體流程如下:首先對(duì)輸入的語音進(jìn)行聲紋特征的提取,然后使用該特征序列與 目標(biāo)人的聲紋模型和廣義背景模型(UBM)進(jìn)行相似度得分的計(jì)算,一般采用log似然比得 分,即目標(biāo)人模型上的似然值與UBM上的似然值的差值Score :
[0040] 似肝=+(k)g M A' -丨廠(義1.其中底數(shù)示范性為e ;
[0041] 其中:
[0042] X為測(cè)試的語音特征,T為語音特征的幀數(shù),λ spk為目標(biāo)說話人模型,λ ubm為UBM 模型;Ρ(χΓ)是特征序列X與模型'的相似度,由計(jì)算混合高斯模型的似然度函數(shù)得出。
[0043] 當(dāng)Score得分大于設(shè)定的閾值的時(shí)候,可以判定用戶為注冊(cè)時(shí)的用戶,即合法用 戶。當(dāng)Score得分小于設(shè)定的閾值的時(shí)候,判定為非法用戶,拒絕進(jìn)一步的處理,返回錄音 階段。
[0044] 步驟103 :當(dāng)確定所述語音源自所述用戶時(shí),識(shí)別所述語音中的命令詞。
[0045] 在這里,當(dāng)確定所述語音源自所述用戶時(shí),可以基于多種實(shí)施方式來識(shí)別所述語 音中的命令詞。
[0046] 比如:
[0047] 第一步驟,對(duì)語音進(jìn)行低于指定精度的聲學(xué)模型訓(xùn)練計(jì)算,得到背景聲學(xué)模型,該 背景聲學(xué)模型是音素精度較低的聲學(xué)模型。
[0048] 第二步驟,對(duì)語音進(jìn)行高于指定精度的聲學(xué)模型訓(xùn)練計(jì)算,得到前景聲學(xué)模型,該 前景聲學(xué)模型是音素精度很高的聲學(xué)模型,目的是為了提高對(duì)命令詞語音的識(shí)別精度。
[0049] 當(dāng)然,上述第一步驟和第二步驟并不一定嚴(yán)格按照先后順序,也可以同時(shí)進(jìn)行,或 者第二步驟先執(zhí)行。
[0050] 第三步驟,依據(jù)所述前景聲學(xué)模型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),其中包括:從所 述前景聲學(xué)模型中選擇命令詞包含的音素,利用選出的音素構(gòu)建所述命令詞對(duì)應(yīng)的解碼路 徑,依據(jù)所述背景聲學(xué)模型的音素構(gòu)建對(duì)應(yīng)的解碼路徑。
[0051 ] 第四步驟,依據(jù)所述解碼網(wǎng)絡(luò)對(duì)輸入的語音進(jìn)行解碼。
[0052] 第五步驟,在語音結(jié)束后判斷解碼結(jié)果是否為指定命令詞的字符串,在解碼結(jié)果 為指定命令詞的字符串時(shí)觸發(fā)該命令詞對(duì)應(yīng)的操作。
[0053] 例如,本發(fā)明可以應(yīng)用在語音喚醒系統(tǒng)中,假設(shè)喚醒命令為"微信秘書",當(dāng)用戶說 出"微信秘書"的語音時(shí),系統(tǒng)會(huì)自動(dòng)識(shí)別出該語音的字符串"微信秘書",從而喚醒"微信秘 書"這個(gè)功能。
[0054] 所述聲學(xué)模型是語音識(shí)別系統(tǒng)中最為重要的部分之一,目前的主流語音識(shí)別系統(tǒng) 多采用隱馬爾科夫模型(HMM,Hidden Markov Model)進(jìn)行建模,隱馬爾可夫模型是統(tǒng)計(jì)模 型,它用來描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過程。在隱馬爾可夫模型中,狀態(tài)并不是 直接可見的,但受狀態(tài)影響的某些變量則是可見的。在聲學(xué)模型中描述了語音與音素的對(duì) 應(yīng)概率。所述音素是根據(jù)語音的自然屬性劃分出來的最小語音單位。從聲學(xué)性質(zhì)來看,音 素是從音質(zhì)角度劃分出來的最小語音單位;從生理性質(zhì)來看,一個(gè)發(fā)音動(dòng)作形成一個(gè)音素。
[0055] 本發(fā)明中所述聲學(xué)模型訓(xùn)練計(jì)算的具體計(jì)算方法可以采用現(xiàn)有的成熟的訓(xùn)練計(jì) 算方法,例如可以使用HTK的工具和流程,對(duì)語音進(jìn)行聲學(xué)模型訓(xùn)練計(jì)算得到對(duì)應(yīng)的聲學(xué) 模型。其中:
[0056] 第一步驟中,所述對(duì)語音進(jìn)行低于指定精度的聲學(xué)模型訓(xùn)練計(jì)算的過程中,需要 使用盡可能多的語音數(shù)據(jù),為了能夠低于指定的精度,其中具體包括:用于描述音素的混合 高斯模型(GMM,Gaussian mixture model)中的高斯數(shù)量B需要低于指定值,例如在本發(fā)明 的優(yōu)選實(shí)施例中,所述B可以為4或8。所述高斯混合模型可以有效地提取語音信號(hào)中的說 話人特征、剔除語義等冗余信息,從而較充分地反映說話人個(gè)性特征的統(tǒng)計(jì)分布,是目前語 音識(shí)別的主流技術(shù)。
[0057] 第二步驟中,所述對(duì)語音進(jìn)行高于指定精度的聲學(xué)模型訓(xùn)練計(jì)算的過程中,需要 使用盡可能多的語音數(shù)據(jù),為了能夠高于指定的精度,其中具體包括:用于描述音素的混合 高斯模型中的高斯數(shù)量Q高于指定值,且所述Q需要大于B,例如在本發(fā)明的優(yōu)選實(shí)施中,所 述Q需要遠(yuǎn)大于B,例如所述Q為16或32或32以上的值。
[0058] 在一種具體實(shí)施例中,第一步驟中所述對(duì)語音進(jìn)行低于指定精度的聲學(xué)模型訓(xùn)練 計(jì)算,得到背景聲學(xué)模型,可以用精度較低的單音素(monophone)進(jìn)行訓(xùn)練計(jì)算,也可以用 精度較高的三音素(triphone)進(jìn)行訓(xùn)練計(jì)算,但是需要對(duì)三音素進(jìn)行聚類處理。
[0059] 例如第一步驟具體可以為:對(duì)語音進(jìn)行單音素的聲學(xué)模型訓(xùn)練計(jì)算,將得到的單 音素聲學(xué)模型作為背景聲學(xué)模型。其中,用于描述所述單音素的GMM中的高斯數(shù)量B需要 低于指定值,例如在本發(fā)明的優(yōu)選實(shí)施例中,所述B可以為4或8。
[0060] 或者第一步驟具體可以為:對(duì)語音進(jìn)行三音素的聲學(xué)模型訓(xùn)練計(jì)算,得到三音素 聲學(xué)模型,對(duì)該三音素聲學(xué)模型中的三音素進(jìn)行聚類,將聚類后的三音素聲學(xué)模型作為背 景聲學(xué)模型。其中,用于描述所述三音素的GMM中的高斯數(shù)量B需要低于指定值,例如在本 發(fā)明的優(yōu)選實(shí)施例中,所述B可以為4或8。
[0061] 在一種具體實(shí)施例中,第二步驟中所述對(duì)語音進(jìn)行高于指定精度的聲學(xué)模型訓(xùn) 練計(jì)算,得到前景聲學(xué)模型,可以用精度較高的三音素進(jìn)行訓(xùn)練計(jì)算;也可以用精度較低 的單音素進(jìn)行訓(xùn)練計(jì)算,但是這些單音素序列需要是增強(qiáng)的隱馬爾可夫模型(HMM,Hidden Markov Model)序列,例如用于描述這些單音素的GMM中的高斯數(shù)量要為很高的值,通常為 32或更高的值。
[0062] 例如第二步驟具體可以為:對(duì)語音進(jìn)行三音素的聲學(xué)模型訓(xùn)練,得到三音素聲學(xué) 模型,其中用于描述該三音素的GMM的高斯數(shù)量Q需要高于指定值,例如在本發(fā)明的優(yōu)選實(shí) 施例中,所述Q為16或32或32以上的值。之后利用命令詞對(duì)應(yīng)的語音對(duì)得到的三音素聲 學(xué)模型進(jìn)行自適應(yīng)計(jì)算,將經(jīng)過自適應(yīng)計(jì)算后的三音素聲學(xué)模型作為前景聲學(xué)模型。
[0063] 或者第二步驟具體也可以為:對(duì)語音進(jìn)行單音素的聲學(xué)模型訓(xùn)練計(jì)算,得到單音 素聲學(xué)模型,其中用于描述單音素的GMM中的高斯數(shù)量Q高于指定高值,例如Q為32或更 高的值,之后利用命令詞對(duì)應(yīng)的語音對(duì)得到的單音素聲學(xué)模型進(jìn)行自適應(yīng)計(jì)算,將經(jīng)過自 適應(yīng)計(jì)算后的單音素聲學(xué)模型作為背景聲學(xué)模型。
[0064] 在這里,當(dāng)確定所述語音源自所述用戶時(shí),可以基于多種方式來識(shí)別語音中的命 令詞。
[0065] 在一個(gè)實(shí)施方式中:
[0066] 對(duì)語音進(jìn)行低于指定精度的聲學(xué)模型訓(xùn)練計(jì)算,得到背景聲學(xué)模型;
[0067] 對(duì)語音進(jìn)行高于指定精度的聲學(xué)模型訓(xùn)練計(jì)算,得到前景聲學(xué)模型;
[0068] 依據(jù)所述前景聲學(xué)模型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),其中包括:從所述前景聲 學(xué)模型中選擇命令詞包含的音素,利用選出的音素構(gòu)建所述命令詞對(duì)應(yīng)的解碼路徑,依據(jù) 所述背景聲學(xué)模型的音素構(gòu)建對(duì)應(yīng)的解碼路徑;
[0069] 依據(jù)所述解碼網(wǎng)絡(luò)對(duì)輸入的語音進(jìn)行解碼,在語音結(jié)束后判斷解碼結(jié)果是否為指 定命令詞的字符串,在解碼結(jié)果為指定命令詞的字符串時(shí)觸發(fā)該命令詞對(duì)應(yīng)的操作。
[0070] 在一個(gè)實(shí)施方式中:
[0071] 所述對(duì)語音進(jìn)行低于指定精度的聲學(xué)模型訓(xùn)練計(jì)算的過程中,具體包括:用于描 述音素的混合高斯模型中的高斯數(shù)量B低于指定值;
[0072] 所述對(duì)語音進(jìn)行高于指定精度的聲學(xué)模型訓(xùn)練計(jì)算的過程中,具體包括:用于描 述音素的混合高斯模型中的高斯數(shù)量Q高于指定值,且所述Q大于B。
[0073] 在一個(gè)實(shí)施方式中:
[0074] 對(duì)語音進(jìn)行低于指定精度的聲學(xué)模型訓(xùn)練計(jì)算,得到背景聲學(xué)模型,具體為:
[0075] 對(duì)語音進(jìn)行單音素的聲學(xué)模型訓(xùn)練計(jì)算,將得到的單音素聲學(xué)模型作為背景聲學(xué) 模型;
[0076] 或者,對(duì)語音進(jìn)行三音素的聲學(xué)模型訓(xùn)練計(jì)算,得到三音素聲學(xué)模型,對(duì)該三音素 聲學(xué)模型中的三音素進(jìn)行聚類,將聚類后的三音素聲學(xué)模型作為背景聲學(xué)模型。
[0077] 在一個(gè)實(shí)施方式中:
[0078] 對(duì)語音進(jìn)行高于指定精度的聲學(xué)模型訓(xùn)練計(jì)算,得到前景聲學(xué)模型,具體為:
[0079] 對(duì)語音進(jìn)行三音素的聲學(xué)模型訓(xùn)練,利用命令詞對(duì)應(yīng)的語音對(duì)得到的三音素聲學(xué) 模型進(jìn)行自適應(yīng)計(jì)算,將經(jīng)過自適應(yīng)計(jì)算后的三音素聲學(xué)模型作為前景聲學(xué)模型;
[0080] 對(duì)語音進(jìn)行單音素的聲學(xué)模型訓(xùn)練計(jì)算,其中用于描述單音素的混合高斯模型中 的高斯數(shù)量高于指定高值,利用命令詞對(duì)應(yīng)的語音對(duì)得到的單音素聲學(xué)模型進(jìn)行自適應(yīng)計(jì) 算,將經(jīng)過自適應(yīng)計(jì)算后的單音素聲學(xué)模型作為背景聲學(xué)模型。
[0081] 在一個(gè)實(shí)施方式中:
[0082] 依據(jù)所述前景聲學(xué)模型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),具體包括:
[0083] 從所述前景聲學(xué)模型中選擇各個(gè)命令詞包含的音素;針對(duì)每一命令詞,利用選出 的該命令詞包含的音素構(gòu)建該命令詞對(duì)應(yīng)的一條解碼路徑;
[0084] 依據(jù)所述背景聲學(xué)模型的所有音素構(gòu)建對(duì)應(yīng)的解碼路徑。
[0085] 優(yōu)選地,在接收語音與提取所述語音的聲紋特征之間,對(duì)所述語音執(zhí)行語音活動(dòng) 檢測(cè),而且當(dāng)確定所述語音中包含人類語音后,才提取所述語音的聲紋特征。
[0086] 圖2為根據(jù)本發(fā)明實(shí)施方式的用戶聲紋注冊(cè)流程圖。
[0087] 如圖2所示,該流程包括:
[0088] 步驟201 :采集用戶口述命令詞的注冊(cè)語音。
[0089] 步驟202 :從注冊(cè)語音中提取用戶語音特征。
[0090] 步驟203 :利用所述用戶語音特征通過最大后驗(yàn)自適應(yīng)方式在所述廣義背景模型 上自適應(yīng)獲取該用戶的混合高斯模型,以作為所述用戶的聲紋模型。
[0091] 具體地,在用戶進(jìn)行聲紋注冊(cè)的時(shí)候,用戶首先在設(shè)備上說出命令詞。比如,在喚 醒應(yīng)用中,文字密碼就是命令詞本身。設(shè)備通過麥克風(fēng)采集該用戶說出喚醒命令詞時(shí)的語 音,然后本地或通過后臺(tái)服務(wù)器進(jìn)行與命令詞相關(guān)的聲紋模型訓(xùn)練。比如,首先將設(shè)備麥克 風(fēng)采集的語音數(shù)據(jù)壓縮后通過網(wǎng)絡(luò)傳遞給后臺(tái)服務(wù)器,后臺(tái)服務(wù)器獲得設(shè)備所傳的語音數(shù) 據(jù)后,提取說話人以及命令詞相關(guān)的信息特征(如mfcc,lpcc等語音特征),然后使用語音特 征序列進(jìn)行聲紋模型的訓(xùn)練,包括:首先使用大量語音數(shù)據(jù)訓(xùn)練一個(gè)基于GMM模型的廣義 背景模型,隨后使用用戶的語音特征通過最大后驗(yàn)自適應(yīng)的方式在UBM模型上自適應(yīng)得到 該用戶的GMM模型。
[0092] 在得到廣義背景模型和該用戶的GMM模型后,將這兩個(gè)模型通過網(wǎng)絡(luò)等傳輸方式 發(fā)到設(shè)備中,即完成了聲紋的注冊(cè)。這里,聲紋模型的訓(xùn)練可以是在云端的服務(wù)器上,也可 以在設(shè)備本地進(jìn)行。
[0093] 可以將本發(fā)明應(yīng)用到多種應(yīng)用環(huán)境中,比如系統(tǒng)喚醒應(yīng)用。通過使用聲紋識(shí)別的 方式來代替確認(rèn)用戶的身份,可保證系統(tǒng)只能由用戶本身喚醒,從而提高了系統(tǒng)的安全性。
[0094] 圖3為根據(jù)本發(fā)明實(shí)施方式的基于用戶語音的語音喚醒流程圖。
[0095] 在系統(tǒng)喚醒應(yīng)用中,可以首先提示用戶注冊(cè)語音,注冊(cè)語音包含喚醒命令詞,再基 于注冊(cè)語音獲取用戶的聲紋模型。注冊(cè)完成后,當(dāng)用戶在使用時(shí),由語音活動(dòng)檢測(cè)(VAD)模 塊負(fù)責(zé)檢測(cè)從話筒中輸入的語音是否包含人說話的部分。如果包含,那么就將語音信號(hào)送 入說話人識(shí)別模塊,由說話人識(shí)別模塊檢測(cè)是否是用戶本人發(fā)出的命令。如果是用戶本人 發(fā)出的命令,那么再將語音信號(hào)送入命令識(shí)別模塊,判斷用戶是否要喚醒系統(tǒng)。
[0096] 基于本發(fā)明實(shí)施方式可以識(shí)別多個(gè)命令詞,并可以將這些命令詞做進(jìn)一步的應(yīng) 用,比如去打電話、發(fā)短信等等,而不僅僅是喚醒系統(tǒng)這一種功能。
[0097] 基于上述分析,本發(fā)明實(shí)施方式還提出了一種語音命令識(shí)別裝置。
[0098] 圖4為根據(jù)本發(fā)明實(shí)施方式的語音命令識(shí)別裝置結(jié)構(gòu)圖。
[0099] 如圖4所示,該裝置包括模型獲取單元401、用戶識(shí)別單元402和命令詞識(shí)別單元 403,其中:
[0100] 模型獲取單元401,用于獲取廣義背景模型,并基于用戶的注冊(cè)語音獲取用戶的聲 紋模型;
[0101] 用戶識(shí)別單元402,用于接收語音,提取所述語音的聲紋特征,并基于所述語音的 聲紋特征、所述廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶;
[0102] 命令詞識(shí)別單元403,用于當(dāng)確定所述語音源自所述用戶時(shí),識(shí)別所述語音中的命 令詞。
[0103] 在一個(gè)實(shí)施方式中:
[0104] 用戶識(shí)別單元402,用于確定所述聲紋特征與用戶聲紋模型的相似度以及所述聲 紋特征與廣義背景模型的相似度;當(dāng)所述聲紋特征與用戶聲紋模型的相似度和所述聲紋特 征與廣義背景模型的相似度之間的差值大于預(yù)先設(shè)定的門限值時(shí),確定該語音源自注冊(cè)用 戶。
[0105] 在一個(gè)實(shí)施方式中:
[0106] 模型獲取單元401,用于采集用戶口述命令詞的注冊(cè)語音;從所述注冊(cè)語音中提 取用戶語音特征;利用所述用戶語音特征通過最大后驗(yàn)自適應(yīng)方式在所述廣義背景模型上 自適應(yīng)獲取該用戶的混合高斯模型,以作為所述用戶的聲紋模型。
[0107] 在一個(gè)實(shí)施方式中:
[0108] 命令詞識(shí)別單元403,用于對(duì)語音進(jìn)行低于指定精度的聲學(xué)模型訓(xùn)練計(jì)算,得到背 景聲學(xué)模型;對(duì)語音進(jìn)行高于指定精度的聲學(xué)模型訓(xùn)練計(jì)算,得到前景聲學(xué)模型;依據(jù)所 述前景聲學(xué)模型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),其中包括:從所述前景聲學(xué)模型中選擇命 令詞包含的音素,利用選出的音素構(gòu)建所述命令詞對(duì)應(yīng)的解碼路徑,依據(jù)所述背景聲學(xué)模 型的音素構(gòu)建對(duì)應(yīng)的解碼路徑;依據(jù)所述解碼網(wǎng)絡(luò)對(duì)輸入的語音進(jìn)行解碼,在語音結(jié)束后 判斷解碼結(jié)果是否為指定命令詞的字符串,在解碼結(jié)果為指定命令詞的字符串時(shí)觸發(fā)該命 令詞對(duì)應(yīng)的操作。
[0109] 在一個(gè)實(shí)施方式中:
[0110] 所述對(duì)語音進(jìn)行低于指定精度的聲學(xué)模型訓(xùn)練計(jì)算的過程中,具體包括:用于描 述音素的混合高斯模型中的高斯數(shù)量B低于指定值;
[0111] 所述對(duì)語音進(jìn)行高于指定精度的聲學(xué)模型訓(xùn)練計(jì)算的過程中,具體包括:用于描 述音素的混合高斯模型中的高斯數(shù)量Q高于指定值,且所述Q大于B。
[0112] 在一個(gè)實(shí)施方式中:
[0113] 命令詞識(shí)別單元403,用于:
[0114] 對(duì)語音進(jìn)行單音素的聲學(xué)模型訓(xùn)練計(jì)算,將得到的單音素聲學(xué)模型作為背景聲學(xué) 模型;
[0115] 或者,對(duì)語音進(jìn)行三音素的聲學(xué)模型訓(xùn)練計(jì)算,得到三音素聲學(xué)模型,對(duì)該三音素 聲學(xué)模型中的三音素進(jìn)行聚類,將聚類后的三音素聲學(xué)模型作為背景聲學(xué)模型。
[0116] 在一個(gè)實(shí)施方式中:
[0117] 命令詞識(shí)別單元403,用于:
[0118] 對(duì)語音進(jìn)行三音素的聲學(xué)模型訓(xùn)練,利用命令詞對(duì)應(yīng)的語音對(duì)得到的三音素聲學(xué) 模型進(jìn)行自適應(yīng)計(jì)算,將經(jīng)過自適應(yīng)計(jì)算后的三音素聲學(xué)模型作為前景聲學(xué)模型;
[0119] 對(duì)語音進(jìn)行單音素的聲學(xué)模型訓(xùn)練計(jì)算,其中用于描述單音素的混合高斯模型中 的高斯數(shù)量高于指定高值,利用命令詞對(duì)應(yīng)的語音對(duì)得到的單音素聲學(xué)模型進(jìn)行自適應(yīng)計(jì) 算,將經(jīng)過自適應(yīng)計(jì)算后的單音素聲學(xué)模型作為背景聲學(xué)模型。
[0120] 在一個(gè)實(shí)施方式中:
[0121] 命令詞識(shí)別單元403,用于從所述前景聲學(xué)模型中選擇各個(gè)命令詞包含的音素; 針對(duì)每一命令詞,利用選出的該命令詞包含的音素構(gòu)建該命令詞對(duì)應(yīng)的一條解碼路徑;依 據(jù)所述背景聲學(xué)模型的所有音素構(gòu)建對(duì)應(yīng)的解碼路徑。
[0122] 在一個(gè)實(shí)施方式中:
[0123] 進(jìn)一步包括語音活動(dòng)檢測(cè)單元(未示出);
[0124] 所述語音活動(dòng)檢測(cè)單元,用于對(duì)所述語音執(zhí)行語音活動(dòng)檢測(cè),而且只有當(dāng)確定所 述語音中包含人類語音后,所述用戶識(shí)別單元才提取所述語音的聲紋特征。
[0125] 可以將圖1所示方法集成到各種網(wǎng)絡(luò)的硬件實(shí)體當(dāng)中。比如,可以將語音命令識(shí) 別方法集成到:功能手機(jī)、智能手機(jī)、掌上電腦、個(gè)人電腦(PC)、平板電腦或個(gè)人數(shù)字助理 (PDA),等等設(shè)備之中。
[0126] 實(shí)際上,可以通過多種形式來具體實(shí)施本發(fā)明實(shí)施方式所提出的語音命令識(shí)別方 法。比如,可以遵循一定規(guī)范的應(yīng)用程序接口,將語音命令識(shí)別方法編寫為安裝到自然語 言處理服務(wù)器中的插件程序,也可以將其封裝為應(yīng)用程序以供用戶自行下載使用。當(dāng)編寫 為插件程序時(shí),可以將其實(shí)施為OCX、dll、cab等多種插件形式。也可以通過Flash插件、 RealPlayer插件、MMS插件、MI五線譜插件、ActiveX插件等具體技術(shù)來實(shí)施本發(fā)明實(shí)施方 式所提出的語音命令識(shí)別方法。
[0127] 可以通過指令或指令集存儲(chǔ)的儲(chǔ)存方式將本發(fā)明實(shí)施方式所提出的語音命令識(shí) 別方法存儲(chǔ)在各種存儲(chǔ)介質(zhì)上。這些存儲(chǔ)介質(zhì)包括但是不局限于:軟盤、光盤、DVD、硬盤、閃 存、U盤、CF卡、SD卡、MMC卡、SM卡、記憶棒(Memory Stick)、xD卡等。
[0128] 另外,還可以將本發(fā)明實(shí)施方式所提出的語音命令識(shí)別方法應(yīng)用到基于閃存 (Nand flash)的存儲(chǔ)介質(zhì)中,比如U盤、CF卡、SD卡、SDHC卡、MMC卡、SM卡、記憶棒、xD卡 等。
[0129] 綜上所述,在本發(fā)明實(shí)施方式中,獲取廣義背景模型,并基于用戶的注冊(cè)語音獲取 用戶的聲紋模型;接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋特征、所述 廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶;當(dāng)確定所述語音源自所 述用戶時(shí),識(shí)別所述語音中的命令詞。應(yīng)用本發(fā)明實(shí)施方式之后,可以基于注冊(cè)用戶的聲紋 模型確定語音是否源自注冊(cè)用戶,從而提高了安全性。
[0130] 而且,在語音喚醒應(yīng)用中,本發(fā)明實(shí)施方式可以將使用聲紋識(shí)別的方式來確認(rèn)用 戶的身份,可保證系統(tǒng)只能由用戶本身喚醒。
[0131] 以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在 本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù) 范圍之內(nèi)。
【權(quán)利要求】
1. 一種語音命令識(shí)別方法,其特征在于,該方法包括: 獲取廣義背景模型,并基于用戶的注冊(cè)語音獲取用戶的聲紋模型; 接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋特征、所述廣義背景模型 和所述用戶聲紋模型確定該語音是否源自所述用戶; 當(dāng)確定所述語音源自所述用戶時(shí),識(shí)別所述語音中的命令詞。
2. 根據(jù)權(quán)利要求1所述的語音命令識(shí)別方法,其特征在于,所述基于語音的聲紋特征、 廣義背景模型和用戶聲紋模型確定該語音是否源自所述用戶包括: 確定所述聲紋特征與用戶聲紋模型的相似度以及所述聲紋特征與廣義背景模型的相 似度; 當(dāng)所述聲紋特征與用戶聲紋模型的相似度和所述聲紋特征與廣義背景模型的相似度 之間的差值大于預(yù)先設(shè)定的門限值時(shí),確定該語音源自所述用戶。
3. 根據(jù)權(quán)利要求1所述的語音命令識(shí)別方法,其特征在于,所述基于用戶的注冊(cè)語音 獲取用戶的聲紋模型包括: 采集用戶口述命令詞的注冊(cè)語音; 從所述注冊(cè)語音中提取用戶語音特征; 利用所述用戶語音特征通過最大后驗(yàn)自適應(yīng)方式在所述廣義背景模型上自適應(yīng)獲取 該用戶的混合高斯模型,以作為所述用戶的聲紋模型。
4. 根據(jù)權(quán)利要求1所述的語音命令識(shí)別方法,其特征在于,所述識(shí)別所述語音中的命 令詞包括: 對(duì)語音進(jìn)行低于指定精度的聲學(xué)模型訓(xùn)練計(jì)算,得到背景聲學(xué)模型; 對(duì)語音進(jìn)行高于指定精度的聲學(xué)模型訓(xùn)練計(jì)算,得到前景聲學(xué)模型; 依據(jù)所述前景聲學(xué)模型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),其中包括:從所述前景聲學(xué)模 型中選擇命令詞包含的音素,利用選出的音素構(gòu)建所述命令詞對(duì)應(yīng)的解碼路徑,依據(jù)所述 背景聲學(xué)模型的音素構(gòu)建對(duì)應(yīng)的解碼路徑; 依據(jù)所述解碼網(wǎng)絡(luò)對(duì)輸入的語音進(jìn)行解碼,在語音結(jié)束后判斷解碼結(jié)果是否為指定命 令詞的字符串,在解碼結(jié)果為指定命令詞的字符串時(shí)觸發(fā)該命令詞對(duì)應(yīng)的操作。
5. 根據(jù)權(quán)利要求4所述的語音命令識(shí)別方法,其特征在于,所述對(duì)語音進(jìn)行低于指定 精度的聲學(xué)模型訓(xùn)練計(jì)算的過程中,具體包括:用于描述音素的混合高斯模型中的高斯數(shù) 量B低于指定值; 所述對(duì)語音進(jìn)行高于指定精度的聲學(xué)模型訓(xùn)練計(jì)算的過程中,具體包括:用于描述音 素的混合高斯模型中的高斯數(shù)量Q高于指定值,且所述Q大于B。
6. 根據(jù)權(quán)利要求4所述的語音命令識(shí)別方法,其特征在于,所述對(duì)語音進(jìn)行低于指定 精度的聲學(xué)模型訓(xùn)練計(jì)算,得到背景聲學(xué)模型,具體為: 對(duì)語音進(jìn)行單音素的聲學(xué)模型訓(xùn)練計(jì)算,將得到的單音素聲學(xué)模型作為背景聲學(xué)模 型; 或者,對(duì)語音進(jìn)行三音素的聲學(xué)模型訓(xùn)練計(jì)算,得到三音素聲學(xué)模型,對(duì)該三音素聲學(xué) 模型中的三音素進(jìn)行聚類,將聚類后的三音素聲學(xué)模型作為背景聲學(xué)模型。
7. 根據(jù)權(quán)利要求4所述的語音命令識(shí)別方法,其特征在于,所述對(duì)語音進(jìn)行高于指定 精度的聲學(xué)模型訓(xùn)練計(jì)算,得到前景聲學(xué)模型,具體為: 對(duì)語音進(jìn)行三音素的聲學(xué)模型訓(xùn)練,利用命令詞對(duì)應(yīng)的語音對(duì)得到的三音素聲學(xué)模型 進(jìn)行自適應(yīng)計(jì)算,將經(jīng)過自適應(yīng)計(jì)算后的三音素聲學(xué)模型作為前景聲學(xué)模型; 對(duì)語音進(jìn)行單音素的聲學(xué)模型訓(xùn)練計(jì)算,其中用于描述單音素的混合高斯模型中的高 斯數(shù)量高于指定高值,利用命令詞對(duì)應(yīng)的語音對(duì)得到的單音素聲學(xué)模型進(jìn)行自適應(yīng)計(jì)算, 將經(jīng)過自適應(yīng)計(jì)算后的單音素聲學(xué)模型作為背景聲學(xué)模型。
8. 根據(jù)權(quán)利要求4所述的語音命令識(shí)別方法,其特征在于,所述依據(jù)所述前景聲學(xué)模 型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),具體包括: 從所述前景聲學(xué)模型中選擇各個(gè)命令詞包含的音素;針對(duì)每一命令詞,利用選出的該 命令詞包含的音素構(gòu)建該命令詞對(duì)應(yīng)的一條解碼路徑; 依據(jù)所述背景聲學(xué)模型的所有音素構(gòu)建對(duì)應(yīng)的解碼路徑。
9. 根據(jù)權(quán)利要求1-8中任一項(xiàng)所述的語音命令識(shí)別方法,其特征在于,該方法進(jìn)一步 包括: 在接收語音與提取所述語音的聲紋特征之間,對(duì)所述語音執(zhí)行語音活動(dòng)檢測(cè),而且當(dāng) 確定所述語音中包含人類語音后,才提取所述語音的聲紋特征。
10. -種語音命令識(shí)別裝置,其特征在于,包括模型獲取單元、用戶識(shí)別單元和命令詞 識(shí)別單元,其中 : 模型獲取單元,用于獲取廣義背景模型,并基于用戶的注冊(cè)語音獲取用戶的聲紋模 型; 用戶識(shí)別單元,用于接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋特 征、所述廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶; 命令詞識(shí)別單元,用于當(dāng)確定所述語音源自所述用戶時(shí),識(shí)別所述語音中的命令詞。
11. 根據(jù)權(quán)利要求10所述的語音命令識(shí)別裝置,其特征在于, 用戶識(shí)別單元,用于確定所述聲紋特征與用戶聲紋模型的相似度以及所述聲紋特征與 廣義背景模型的相似度;當(dāng)所述聲紋特征與用戶聲紋模型的相似度和所述聲紋特征與廣義 背景模型的相似度之間的差值大于預(yù)先設(shè)定的門限值時(shí),確定該語音源自注冊(cè)用戶。
12. 根據(jù)權(quán)利要求10所述的語音命令識(shí)別裝置,其特征在于, 模型獲取單元,用于采集用戶口述命令詞的注冊(cè)語音;從所述注冊(cè)語音中提取用戶語 音特征;利用所述用戶語音特征通過最大后驗(yàn)自適應(yīng)方式在所述廣義背景模型上自適應(yīng)獲 取該用戶的混合高斯模型,以作為所述用戶的聲紋模型。
13. 根據(jù)權(quán)利要求10所述的語音命令識(shí)別裝置,其特征在于, 命令詞識(shí)別單元,用于對(duì)語音進(jìn)行低于指定精度的聲學(xué)模型訓(xùn)練計(jì)算,得到背景聲學(xué) 模型;對(duì)語音進(jìn)行高于指定精度的聲學(xué)模型訓(xùn)練計(jì)算,得到前景聲學(xué)模型;依據(jù)所述前景 聲學(xué)模型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),其中包括:從所述前景聲學(xué)模型中選擇命令詞包 含的音素,利用選出的音素構(gòu)建所述命令詞對(duì)應(yīng)的解碼路徑,依據(jù)所述背景聲學(xué)模型的音 素構(gòu)建對(duì)應(yīng)的解碼路徑;依據(jù)所述解碼網(wǎng)絡(luò)對(duì)輸入的語音進(jìn)行解碼,在語音結(jié)束后判斷解 碼結(jié)果是否為指定命令詞的字符串,在解碼結(jié)果為指定命令詞的字符串時(shí)觸發(fā)該命令詞對(duì) 應(yīng)的操作。
14. 根據(jù)權(quán)利要求13所述的語音命令識(shí)別裝置,其特征在于, 所述對(duì)語音進(jìn)行低于指定精度的聲學(xué)模型訓(xùn)練計(jì)算的過程中,具體包括:用于描述音 素的混合高斯模型中的高斯數(shù)量B低于指定值; 所述對(duì)語音進(jìn)行高于指定精度的聲學(xué)模型訓(xùn)練計(jì)算的過程中,具體包括:用于描述音 素的混合高斯模型中的高斯數(shù)量Q高于指定值,且所述Q大于B。
15. 根據(jù)權(quán)利要求13所述的語音命令識(shí)別裝置,其特征在于, 命令詞識(shí)別單元,用于: 對(duì)語音進(jìn)行單音素的聲學(xué)模型訓(xùn)練計(jì)算,將得到的單音素聲學(xué)模型作為背景聲學(xué)模 型; 或者,對(duì)語音進(jìn)行三音素的聲學(xué)模型訓(xùn)練計(jì)算,得到三音素聲學(xué)模型,對(duì)該三音素聲學(xué) 模型中的三音素進(jìn)行聚類,將聚類后的三音素聲學(xué)模型作為背景聲學(xué)模型。
16. 根據(jù)權(quán)利要求13所述的語音命令識(shí)別裝置,其特征在于, 命令詞識(shí)別單元,用于: 對(duì)語音進(jìn)行三音素的聲學(xué)模型訓(xùn)練,利用命令詞對(duì)應(yīng)的語音對(duì)得到的三音素聲學(xué)模型 進(jìn)行自適應(yīng)計(jì)算,將經(jīng)過自適應(yīng)計(jì)算后的三音素聲學(xué)模型作為前景聲學(xué)模型; 對(duì)語音進(jìn)行單音素的聲學(xué)模型訓(xùn)練計(jì)算,其中用于描述單音素的混合高斯模型中的高 斯數(shù)量高于指定高值,利用命令詞對(duì)應(yīng)的語音對(duì)得到的單音素聲學(xué)模型進(jìn)行自適應(yīng)計(jì)算, 將經(jīng)過自適應(yīng)計(jì)算后的單音素聲學(xué)模型作為背景聲學(xué)模型。
17. 根據(jù)權(quán)利要求13所述的語音命令識(shí)別裝置,其特征在于, 命令詞識(shí)別單元,用于從所述前景聲學(xué)模型中選擇各個(gè)命令詞包含的音素;針對(duì)每一 命令詞,利用選出的該命令詞包含的音素構(gòu)建該命令詞對(duì)應(yīng)的一條解碼路徑;依據(jù)所述背 景聲學(xué)模型的所有音素構(gòu)建對(duì)應(yīng)的解碼路徑。
18. 根據(jù)權(quán)利要求10-17中任一項(xiàng)所述的語音命令識(shí)別裝置,其特征在于,進(jìn)一步包括 語音活動(dòng)檢測(cè)單元; 所述語音活動(dòng)檢測(cè)單元,用于對(duì)所述語音執(zhí)行語音活動(dòng)檢測(cè),而且只有當(dāng)確定所述語 音中包含人類語音后,所述用戶識(shí)別單元才提取所述語音的聲紋特征。
【文檔編號(hào)】G10L15/02GK104143326SQ201310645815
【公開日】2014年11月12日 申請(qǐng)日期:2013年12月3日 優(yōu)先權(quán)日:2013年12月3日
【發(fā)明者】岳帥, 張翔, 盧鯉, 饒豐, 王爾玉, 劉海波, 陳波, 劉薦, 李露 申請(qǐng)人:騰訊科技(深圳)有限公司