一種基于決策層融合的音視頻關(guān)鍵詞識別方法
【專利摘要】本發(fā)明涉及一種基于決策層融合的音視頻關(guān)鍵詞識別方法,其主要包括以下步驟:1)錄制關(guān)鍵詞音視頻,得到關(guān)鍵詞和非關(guān)鍵詞的語音聲學(xué)特征向量序列和視覺特征向量序列,并據(jù)此訓(xùn)練關(guān)鍵詞和非關(guān)鍵詞的聲學(xué)模板和視覺模板;2)根據(jù)不同聲學(xué)噪聲環(huán)境下的音視頻,得到聲學(xué)似然度和視覺似然度,并據(jù)此得到聲學(xué)模態(tài)可靠度、視覺模態(tài)可靠度和最優(yōu)權(quán)重,并據(jù)此訓(xùn)練人工神經(jīng)網(wǎng)絡(luò);3)根據(jù)聲學(xué)模板和視覺模板、人工神經(jīng)網(wǎng)絡(luò),對待測音視頻進(jìn)行并行的基于聲學(xué)和視覺雙模態(tài)的二次關(guān)鍵詞識別。本發(fā)明將聲學(xué)作用和視覺作用在決策層進(jìn)行融合,對待測音視頻進(jìn)行并行的基于雙模態(tài)的二次關(guān)鍵詞識別,充分利用聲學(xué)噪聲環(huán)境下視覺信息的貢獻(xiàn),提高識別性能。
【專利說明】一種基于決策層融合的音視頻關(guān)鍵詞識別方法【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于信息【技術(shù)領(lǐng)域】,涉及一種應(yīng)用在人機(jī)交互領(lǐng)域的音視頻處理技術(shù),尤其涉及一種基于決策層融合的音視頻關(guān)鍵詞識別方法。
【背景技術(shù)】
[0002]作為連續(xù)語音識別的一個(gè)重要分支,關(guān)鍵詞識別技術(shù)目的在于檢測出連續(xù)無限制語音流中預(yù)先設(shè)定的關(guān)鍵詞。由于不需要對完整的語音流進(jìn)行解碼,關(guān)鍵詞識別相比于連續(xù)語音識別更加靈活,十分適用于某些特定的應(yīng)用領(lǐng)域,如國防監(jiān)聽,人機(jī)交互,音頻文檔檢索等。為了提高語音識別系統(tǒng)在噪聲環(huán)境下的魯棒性,近年來,音視頻語音識別技術(shù)將聲學(xué)和視覺信息融合來對語音進(jìn)行識別,成為熱門研究方向?;旧?,音視頻關(guān)鍵詞識別技術(shù)的研究主要集中在三個(gè)方面:視覺特征的選取、關(guān)鍵詞識別方法以及音視頻信息的融合策略。
[0003]目前用于音視頻語音識別的視覺特征主要有三種:表觀特征,形狀特征以及混合特征?;诒碛^特征的方法提取整個(gè)感興趣的圖像區(qū)域或者經(jīng)過處理后的變換域圖像的像素特征,不會丟失有用的視覺信息,而且不需要復(fù)雜的嘴唇輪廓跟蹤算法,實(shí)現(xiàn)起來比較簡單,因此廣泛應(yīng)用于音視頻語音識別中。但是目前大多數(shù)表觀特征提取方法主要從全局角度考慮嘴部區(qū)域的特征,忽略了描述時(shí)域和空域局部變化的局部信息,而這些局部信息是至關(guān)重要的。
[0004]現(xiàn)有的關(guān)鍵詞識別方法有三大類:基于垃圾模型的方法,基于詞格的方法以及基于大詞匯量連續(xù)語音 識別的方法?;谝粢曨l融合的關(guān)鍵詞識別系統(tǒng)大多應(yīng)用于面對面人機(jī)交互的場景,對實(shí)時(shí)性要求比較高,而且需要對視覺特征和聲學(xué)特征在特征層進(jìn)行融合或者為視覺部分單獨(dú)訓(xùn)練一個(gè)識別器,因此基于垃圾模型的關(guān)鍵詞識別方法更加適用。
[0005]音視頻的融合策略主要指的是聲學(xué)信號的作用和視覺的作用在哪個(gè)層次進(jìn)行融合和以什么方式融合,這會直接影響音視頻融合后的識別性能。目前普遍采用的音視頻的融合層次主要有兩種:特征層融合以及決策層融合。特征層融合直接將聲學(xué)特征和視覺特征以幀為單位拼接形成一個(gè)組合特征矢量,然后再輸入一個(gè)分類器進(jìn)行識別。這種融合層次無法解決不同聲學(xué)信噪比環(huán)境下的視覺和聲學(xué)的貢獻(xiàn)分配問題。決策層融合將聲學(xué)信號和視覺信號分開進(jìn)行處理,因此噪聲環(huán)境下,決策層融合更容易生成用于結(jié)合聲學(xué)模態(tài)和視覺模態(tài)貢獻(xiàn)的自適應(yīng)權(quán)重,以獲得最優(yōu)的結(jié)合效果。
[0006]綜上所述,目前基于音視頻融合的關(guān)鍵詞識別技術(shù)主要采用表觀特征作為視覺特征,而現(xiàn)有的表觀特征提取方法主要從全局角度考慮嘴部區(qū)域的特征,忽略了描述時(shí)域和空域局部變化的局部信息,而這些局部信息是至關(guān)重要的。此外,音視頻的融合策略采用特征層融合,這種方法需要更多的訓(xùn)練數(shù)據(jù)來充分訓(xùn)練一個(gè)分類器,而且無法解決不同聲學(xué)信噪比環(huán)境下的視覺和聲學(xué)的貢獻(xiàn)分配問題,影響了識別性能。
【發(fā)明內(nèi)容】
[0007]本發(fā)明考慮發(fā)音過程中嘴部區(qū)域的局部變化信息,提出了一種有效的描述時(shí)域和空域局部變化的視覺表觀特征參數(shù)。本發(fā)明考慮音視頻融合關(guān)鍵詞識別中,不同聲學(xué)信噪比環(huán)境下視覺和聲學(xué)信息的作用不同,提出了一種基于決策層的自適應(yīng)加權(quán)融合方法。在不同噪聲環(huán)境下,采用自適應(yīng)權(quán)重有效地結(jié)合視覺信息和聲學(xué)信息的作用,提高識別性能。其中,自適應(yīng)權(quán)重通過人工神經(jīng)網(wǎng)絡(luò)生成。本發(fā)明考慮基于決策層的融合方式中,傳統(tǒng)的先聲學(xué)后視覺的級聯(lián)識別結(jié)果受到聲學(xué)噪聲的嚴(yán)重影響,提出了一種并行的基于雙模態(tài)的兩階段關(guān)鍵詞識別方法,將音視頻識別結(jié)果在決策層融合,充分利用聲學(xué)噪聲環(huán)境下視覺信息的貢獻(xiàn),從而提聞識別性能。
[0008]一種基于決策層融合的音視頻關(guān)鍵詞識別方法,包括如下步驟:
[0009]I)錄制關(guān)鍵詞音視頻,標(biāo)注出所述詞音視頻中關(guān)鍵詞和非關(guān)鍵詞語音的起止時(shí)間點(diǎn),根據(jù)所述關(guān)鍵詞和非關(guān)鍵詞語音的起止時(shí)間點(diǎn)提取所述關(guān)鍵詞和所述非關(guān)鍵詞的語音聲學(xué)特征向量序列和視覺特征向量序列,根據(jù)所述關(guān)鍵詞和所述非關(guān)鍵詞的語音聲學(xué)特征向量序列和視覺特征向量序列訓(xùn)練得到所述關(guān)鍵詞和所述非關(guān)鍵詞的聲學(xué)模板和視覺模板;
[0010]2)根據(jù)不同聲學(xué)噪聲環(huán)境下的音視頻,得到聲學(xué)似然度和視覺似然度;根據(jù)所述聲學(xué)似然度和所述視覺似然度得到聲學(xué)模態(tài)可靠度、視覺模態(tài)可靠度;根據(jù)所述聲學(xué)模態(tài)可靠度和所述視覺模態(tài)可靠度得到最優(yōu)權(quán)重;根據(jù)所述聲學(xué)模態(tài)可靠度、所述視覺模態(tài)可靠度和所述最優(yōu)權(quán)重訓(xùn)練人工神經(jīng)網(wǎng)絡(luò);
[0011]3)根據(jù)步驟I)所述聲學(xué)模板和所述視覺模板、步驟2)所述人工神經(jīng)網(wǎng)絡(luò),對待測音視頻進(jìn)行并行的基于聲學(xué)和視覺雙模態(tài)的二次關(guān)鍵詞識別。
[0012]更進(jìn)一步地,步驟I)包含如下步驟:
[0013]1-1)根據(jù)包含關(guān)鍵詞的抄本同步錄制音視頻,得到多個(gè)完整的語音段和視頻段;
[0014]1-2)標(biāo)注出步驟1-1)中所述語音段中關(guān)鍵詞和非關(guān)鍵詞語音的起止時(shí)間點(diǎn);
[0015]1-3)根據(jù)步驟1-2)中所述關(guān)鍵詞語音的起止時(shí)間點(diǎn),分幀、加窗后提取所述關(guān)鍵詞的語音聲學(xué)特征向量序列和視覺特征向量序列;根據(jù)步驟1-2)中所述非關(guān)鍵詞語音的起止時(shí)間點(diǎn),分幀、加窗后提取所述非關(guān)鍵詞的語音聲學(xué)特征向量序列和視覺特征向量序列;
[0016]1-4)根據(jù)步驟1-3)中所述關(guān)鍵詞語音的聲學(xué)特征向量序列和視覺特征向量序列,采用Baum-welch算法訓(xùn)練所述關(guān)鍵詞的聲學(xué)模板和視覺模板;根據(jù)步驟1_3)中所述非關(guān)鍵詞語音的聲學(xué)特征向量序列和視覺特征向量序列,采用Baumielch算法訓(xùn)練所述非關(guān)鍵詞的聲學(xué)模板和視覺模板。
[0017]更進(jìn)一步地,步驟2)包含如下步驟:
[0018]2-1)根據(jù)已標(biāo)注關(guān)鍵詞的不同噪聲環(huán)境下的音視頻段,提取所述音視頻段的聲學(xué)特征向量序列和視覺特征向量序列;
[0019]2-2)將步驟2-1)中所述聲學(xué)特征向量序列與步驟1-4)中所有關(guān)鍵詞的聲學(xué)模板進(jìn)行匹配,得到聲學(xué)似然度;將步驟2-1)中所述視覺特征向量序列與步驟1-4)中所有關(guān)鍵詞的視覺模板進(jìn)行匹配,得到視覺似然度;
[0020]2-3)根據(jù)步驟2-2)中所述聲學(xué)似然度和所述視覺似然度,得到聲學(xué)模態(tài)可靠度和視覺模態(tài)可靠度;[0021]2-4)根據(jù)步驟2-3)中所述聲學(xué)模態(tài)可靠度和所述視覺模態(tài)可靠度得到最優(yōu)權(quán)重;
[0022]2-5)根據(jù)步驟2-3)中所述聲學(xué)模態(tài)可靠度和所述視覺模態(tài)可靠度以及步驟2_4)中所述最優(yōu)權(quán)重,訓(xùn)練人工神經(jīng)網(wǎng)絡(luò);
[0023]更進(jìn)一步地,步驟3)包括如下步驟:
[0024]3-1)對待測音視頻段進(jìn)行音視頻特征提取,得到所述待測音視頻段的聲學(xué)特征向量序列和視覺特征向量序列;
[0025]3-2)根據(jù)所述待測音視頻的語音段,得到聲學(xué)關(guān)鍵詞候選和聲學(xué)似然度,根據(jù)所述聲學(xué)關(guān)鍵詞候選對應(yīng)的視頻段與步驟1-4)中相應(yīng)視覺關(guān)鍵詞模板進(jìn)行匹配,得到視覺似然度;根據(jù)步驟3-1)中所述待測音視頻的視頻段,得到視覺關(guān)鍵詞候選和視覺似然度,根據(jù)所述視覺關(guān)鍵詞候選對應(yīng)的語音段與步驟1-4)中相應(yīng)聲學(xué)關(guān)鍵詞模板進(jìn)行匹配,得到聲學(xué)似然度;
[0026]3-3)根據(jù)步驟3-2)中所述聲學(xué)關(guān)鍵詞候選,計(jì)算出聲學(xué)模態(tài)可靠度和視覺模態(tài)可靠度,根據(jù)步驟2)中所述的人工神經(jīng)網(wǎng)絡(luò)計(jì)算出最優(yōu)權(quán)重;采用步驟3-2)中所述視覺關(guān)鍵詞候選,計(jì)算出聲學(xué)模態(tài)可靠度和視覺模態(tài)可靠度,采用步驟2)中所述的人工神經(jīng)網(wǎng)絡(luò)計(jì)算出最優(yōu)權(quán)重;
[0027]3-4)根據(jù)步驟3-2)中所述聲學(xué)關(guān)鍵詞候選的聲學(xué)似然度和視覺似然度、步驟
3-3)中所述的最優(yōu)權(quán)重,得到聲學(xué)關(guān)鍵詞候選的融合似然度;根據(jù)步驟3-2)中所述視覺關(guān)鍵詞候選的視覺似然度和聲學(xué)似然度、步驟3-3)所述的最優(yōu)權(quán)重,得到視覺關(guān)鍵詞候選的融合似然度;
[0028]3-5)對步驟3-2)中的所述聲學(xué)關(guān)鍵詞候選和視覺關(guān)鍵詞候選進(jìn)行拒識,得到拒識后的識別結(jié)果;
[0029]3-6)對步驟3-5)中的所述拒識后的識別結(jié)果進(jìn)行重疊關(guān)鍵詞的選擇,完成識別。
[0030]更進(jìn)一步,根據(jù)不同任務(wù)定義關(guān)鍵詞表,設(shè)計(jì)包含關(guān)鍵詞的錄制抄本。
[0031]更進(jìn)一步,步驟1-3)中所述對加窗、分幀方式中,分幀函數(shù)為:
[0032]xk (n) =w (n) s (Nk+n)n=0, 1...N_1; k=0, 1...L_1
[0033]其中N為幀長,L為幀數(shù),w (n)為窗函數(shù),所述w (η)為漢明窗:
[0034]
【權(quán)利要求】
1.一種基于決策層融合的音視頻關(guān)鍵詞識別方法,包括如下步驟: 1)錄制關(guān)鍵詞音視頻,標(biāo)注出所述詞音視頻中關(guān)鍵詞和非關(guān)鍵詞語音的起止時(shí)間點(diǎn),根據(jù)所述關(guān)鍵詞和非關(guān)鍵詞語音的起止時(shí)間點(diǎn)提取所述關(guān)鍵詞和所述非關(guān)鍵詞的語音聲學(xué)特征向量序列和視覺特征向量序列,根據(jù)所述關(guān)鍵詞和所述非關(guān)鍵詞的語音聲學(xué)特征向量序列和視覺特征向量序列訓(xùn)練所述關(guān)鍵詞和所述非關(guān)鍵詞的聲學(xué)模板和視覺模板; 2)根據(jù)不同聲學(xué)噪聲環(huán)境下的音視頻,得到聲學(xué)似然度和視覺似然度;根據(jù)所述聲學(xué)似然度和所述視覺似然度得到聲學(xué)模態(tài)可靠度、視覺模態(tài)可靠度;根據(jù)所述聲學(xué)模態(tài)可靠度和所述視覺模態(tài)可靠度得到最優(yōu)權(quán)重;根據(jù)所述聲學(xué)模態(tài)可靠度、所述視覺模態(tài)可靠度和所述最優(yōu)權(quán)重訓(xùn)練人工神經(jīng)網(wǎng)絡(luò); 3)根據(jù)步驟I)所述聲學(xué)模板和所述視覺模板、步驟2)所述人工神經(jīng)網(wǎng)絡(luò),對待測音視頻進(jìn)行并行的基于聲學(xué)和視覺雙模態(tài)的二次關(guān)鍵詞識別。
2.如權(quán)利要求1所述的基于決策層融合的音視頻關(guān)鍵詞識別方法,其特征在于,步驟1)包含如下步驟: 1-1)根據(jù)包含關(guān)鍵詞的抄本同步錄制音視頻,得到多個(gè)完整的語音段和視頻段; 1-2)標(biāo)注出步驟1-1)中所述語音段中關(guān)鍵詞和非關(guān)鍵詞語音的起止時(shí)間點(diǎn); 1-3)根據(jù)步驟1-2)中所述關(guān)鍵詞和非關(guān)鍵詞語音的起止時(shí)間點(diǎn),分幀、加窗后提取所述關(guān)鍵詞和所述非關(guān) 鍵詞的語音聲學(xué)特征向量序列和視覺特征向量序列; 1-4)根據(jù)步驟1-3)中所述關(guān)鍵詞和所述非關(guān)鍵詞的語音聲學(xué)特征向量序列和視覺特征向量序列,訓(xùn)練所述關(guān)鍵詞和所述非關(guān)鍵詞的聲學(xué)模板和視覺模板。
3.如權(quán)利要求2所述的基于決策層融合的音視頻關(guān)鍵詞識別方法,其特征在于,步驟2)包含如下步驟: 2-1)根據(jù)已標(biāo)注關(guān)鍵詞的不同噪聲環(huán)境下的音視頻段,提取所述音視頻段的聲學(xué)特征向量序列和視覺特征向量序列; 2-2)將步驟2-1)中所述聲學(xué)特征向量序列與步驟1-4)中所有關(guān)鍵詞的聲學(xué)模板進(jìn)行匹配,得到聲學(xué)似然度;將步驟2-1)中所述視覺特征向量序列與步驟1-4)中所有關(guān)鍵詞的視覺模板進(jìn)行匹配,得到視覺似然度; 2-3)根據(jù)步驟2-2)中所述聲學(xué)似然度和所述視覺似然度,得到聲學(xué)模態(tài)可靠度和視覺模態(tài)可靠度; 2-4)根據(jù)步驟2-3)中所述聲學(xué)模態(tài)可靠度和所述視覺模態(tài)可靠度得到最優(yōu)權(quán)重; 2-5)根據(jù)步驟2-3)中所述聲學(xué)模態(tài)可靠度和所述視覺模態(tài)可靠度以及步驟2-4)中所述最優(yōu)權(quán)重,訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)。
4.如權(quán)利要求3所述的基于決策層融合的音視頻關(guān)鍵詞識別方法,其特征在于,步驟3)包括如下步驟: 3-1)對待測音視頻段進(jìn)行音視頻特征提取,得到所述待測音視頻段的聲學(xué)特征向量序列和視覺特征向量序列; 3-2)根據(jù)所述待測音視頻的語音段,得到聲學(xué)關(guān)鍵詞候選和聲學(xué)似然度,根據(jù)所述聲學(xué)關(guān)鍵詞候選對應(yīng)的視頻段與步驟1-4)中相應(yīng)視覺關(guān)鍵詞模板進(jìn)行匹配,得到視覺似然度;根據(jù)步驟3-1)中所述待測音視頻的視頻段,得到視覺關(guān)鍵詞候選和視覺似然度,根據(jù)所述視覺關(guān)鍵詞候選對應(yīng)的語音段與步驟1-4)中相應(yīng)聲學(xué)關(guān)鍵詞模板進(jìn)行匹配,得到聲學(xué)似然度; 3-3)根據(jù)步驟3-2)中所述聲學(xué)關(guān)鍵詞候選,計(jì)算出聲學(xué)模態(tài)可靠度和視覺模態(tài)可靠度,采用步驟2)中所述的人工神經(jīng)網(wǎng)絡(luò)計(jì)算出最優(yōu)權(quán)重;根據(jù)步驟3-2)中所述視覺關(guān)鍵詞候選,計(jì)算出聲學(xué)模態(tài)可靠度和視覺模態(tài)可靠度,采用步驟2)中所述的人工神經(jīng)網(wǎng)絡(luò)計(jì)算出最優(yōu)權(quán)重; 3-4)根據(jù)步驟3-2)中所述聲學(xué)關(guān)鍵詞候選的聲學(xué)似然度和視覺似然度、步驟3-3)中所述的最優(yōu)權(quán)重,得到聲學(xué)關(guān)鍵詞候選的融合似然度;根據(jù)步驟3-2)中所述視覺關(guān)鍵詞候選的視覺似然度和聲學(xué)似然度、步驟3-3)所述的最優(yōu)權(quán)重,得到視覺關(guān)鍵詞候選的融合似然度; 3-5)對步驟3-2)中的所述聲學(xué)關(guān)鍵詞候選和視覺關(guān)鍵詞候選進(jìn)行拒識,得到拒識后的識別結(jié)果; 3-6)對步驟3-5)中的所述拒識后的識別結(jié)果進(jìn)行重疊關(guān)鍵詞的選擇,完成識別。
5.如權(quán)利要求2所述的基于決策層融合的音視頻關(guān)鍵詞識別方法,其特征在于,步驟1-4)中所述聲學(xué)模板是隱馬爾科夫HMM模板;步驟1-4)中所述視覺模板是隱馬爾科夫HMM模板。
6.如權(quán)利要求3所述的基于決策層融合的音視頻關(guān)鍵詞識別方法,其特征在于,步驟2-2)中所述聲學(xué)特征向量序列和視覺特征向量序列對于對應(yīng)的聲學(xué)模板和視覺模板的似然度的計(jì)算公式為:
7.如權(quán)利要求3所述的基于決策層融合的音視頻關(guān)鍵詞識別方法,其特征在于,步驟2-3)中所述聲學(xué)模態(tài)可靠度和所述視覺模態(tài)可靠度的計(jì)算公式為:
8.如權(quán)利要求3所述的基于決策層融合的音視頻關(guān)鍵詞識別方法,其特征在于,步驟2-4)中所述最優(yōu)權(quán)重的線性加權(quán)公式為:
9.如權(quán)利要求1所述的基于決策層融合的音視頻關(guān)鍵詞識別方法,其特征在于,步驟3)中的所述二次關(guān)鍵詞識別方法采用包括關(guān)鍵詞搜索和關(guān)鍵詞確認(rèn)兩個(gè)階段的基于垃圾模板的方法。
10.如權(quán)利要求4所述的基于決策層融合的音視頻關(guān)鍵詞識別方法,其特征在于,步驟3-5)中所述拒識方法是基于對數(shù)似然差的方法,判斷方法為: 當(dāng)
【文檔編號】G06F17/30GK103943107SQ201410133414
【公開日】2014年7月23日 申請日期:2014年4月3日 優(yōu)先權(quán)日:2014年4月3日
【發(fā)明者】劉宏, 范婷, 吳平平 申請人:北京大學(xué)深圳研究生院