亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

關(guān)鍵詞識(shí)別方法及裝置與流程

文檔序號(hào):12806166閱讀:540來(lái)源:國(guó)知局
關(guān)鍵詞識(shí)別方法及裝置與流程

本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,特別是涉及一種關(guān)鍵詞識(shí)別方法及裝置。



背景技術(shù):

語(yǔ)音識(shí)別是機(jī)器通過(guò)識(shí)別和理解過(guò)程將人的語(yǔ)音轉(zhuǎn)換為對(duì)應(yīng)的文本或指令的技術(shù)。作為語(yǔ)音識(shí)別領(lǐng)域的一個(gè)重要分支,關(guān)鍵詞(isolatedwordrecognition,iwr)識(shí)別在通信、消費(fèi)電子、自助服務(wù)、辦公自動(dòng)化等領(lǐng)域得到了廣泛的應(yīng)用。

現(xiàn)有技術(shù)中,一般采用隱馬爾可夫模型(hiddenmarkovmodel,hmm)hiddenmarkovmodels(hmms)及其對(duì)應(yīng)的參數(shù),或者關(guān)鍵詞識(shí)別系統(tǒng)(kws)進(jìn)行關(guān)鍵詞識(shí)別。

但是,現(xiàn)有技術(shù)中關(guān)鍵詞識(shí)別方法需要建立對(duì)應(yīng)的模型,并需要對(duì)應(yīng)的翻譯操作訓(xùn)練模型參數(shù),存在著計(jì)算量大且識(shí)別準(zhǔn)確率低的問(wèn)題。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例解決的問(wèn)題是提高關(guān)鍵詞識(shí)別的準(zhǔn)確率,并節(jié)約計(jì)算資源。

為解決上述問(wèn)題,本發(fā)明實(shí)施例提供了一種關(guān)鍵詞識(shí)別方法,所述關(guān)鍵詞識(shí)別方法包括:

將獲取的待識(shí)別聲音數(shù)據(jù)劃分為多個(gè)重疊的聲音幀;

對(duì)劃分得到的多個(gè)聲音幀的聲音信號(hào)分別進(jìn)行快速傅立葉變換運(yùn)算,得到對(duì)應(yīng)的頻譜能量;

將各個(gè)聲音幀對(duì)應(yīng)的頻譜能量轉(zhuǎn)換為梅爾頻率下的頻譜能量,并計(jì)算對(duì)應(yīng)的mfcc參數(shù);

根據(jù)各個(gè)聲音幀對(duì)應(yīng)的mfcc參數(shù),分別計(jì)算得到所述待識(shí)別聲音數(shù)據(jù)與預(yù)設(shè)的多個(gè)參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值;

當(dāng)確定所述待識(shí)別聲音數(shù)據(jù)與當(dāng)前參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值的均值小于預(yù)設(shè)的閾值時(shí),將當(dāng)前參考模板中的關(guān)鍵詞作為識(shí)別結(jié)果。

可選地,在所述待識(shí)別聲音數(shù)據(jù)的頻譜能量大于預(yù)設(shè)的能量閾值時(shí),執(zhí)行所述將各個(gè)聲音幀對(duì)應(yīng)的頻譜能量轉(zhuǎn)換為梅爾頻率下的頻譜能量,并計(jì)算對(duì)應(yīng)的mfcc參數(shù)的操作。

可選地,所述預(yù)設(shè)的閾值與所述待識(shí)別聲音數(shù)據(jù)的噪音水平相關(guān)聯(lián)。

可選地,所述待識(shí)別聲音數(shù)據(jù)的噪音水平包括低噪音水平、中等噪音水平和高噪音水平,其中:

當(dāng)p≥p1時(shí),確定所述待識(shí)別聲音數(shù)據(jù)具有低噪音水平,p表示所述待識(shí)別聲音數(shù)據(jù)對(duì)應(yīng)的絕對(duì)幅值,p1為預(yù)設(shè)的第一閾值;

當(dāng)p2≥p>p1時(shí),確定所述待識(shí)別聲音數(shù)據(jù)具有中等噪音水平,p2為預(yù)設(shè)的第二閾值,且p1>p2;

當(dāng)p<p2時(shí),確定所述待識(shí)別聲音數(shù)據(jù)具有高噪音水平。

可選地,p1等于0.8,p2等于0.45。

可選地,所述參考模板中包括瞬態(tài)噪聲、靜態(tài)噪聲和特定人的豐富的語(yǔ)音內(nèi)容的信息。

本發(fā)明實(shí)施例還提供了一種關(guān)鍵詞識(shí)別裝置,所述裝置包括:

分幀處理單元,適于將獲取的待識(shí)別的聲音數(shù)據(jù)劃分為多個(gè)重疊的聲音幀;

頻域轉(zhuǎn)換單元,適于對(duì)劃分得到的多個(gè)聲音幀的聲音信號(hào)分別進(jìn)行快速傅立葉變換運(yùn)算,得到對(duì)應(yīng)的頻譜能量;

第一計(jì)算單元,適于將各個(gè)聲音幀對(duì)應(yīng)的頻譜能量轉(zhuǎn)換為梅爾頻率下的頻譜能量,并計(jì)算對(duì)應(yīng)的mfcc參數(shù);

第二計(jì)算單元,適于根據(jù)各個(gè)聲音幀對(duì)應(yīng)的mfcc參數(shù),分別計(jì)算得到所述待識(shí)別聲音數(shù)據(jù)與預(yù)設(shè)的多個(gè)參考模板之間的dtw距離中值、歐氏距離 中值和互相關(guān)距離中值;

判斷單元,適于判斷當(dāng)前聲音幀與當(dāng)前參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值三者的均值是否小于預(yù)設(shè)的閾值;

關(guān)鍵詞識(shí)別單元,適于當(dāng)確定所述待識(shí)別聲音數(shù)據(jù)與當(dāng)前參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值的均值小于預(yù)設(shè)的閾值時(shí),將當(dāng)前參考模板中的關(guān)鍵詞作為識(shí)別結(jié)果。

可選地,還包括觸發(fā)單元,所述觸發(fā)單元適于在所述待識(shí)別聲音數(shù)據(jù)的頻譜能量大于預(yù)設(shè)的能量閾值時(shí),觸發(fā)所述第一計(jì)算單元執(zhí)行所述將各個(gè)聲音幀對(duì)應(yīng)的頻譜能量轉(zhuǎn)換為梅爾頻率下的頻譜能量,并計(jì)算對(duì)應(yīng)的mfcc參數(shù)的操作。

可選地,所述預(yù)設(shè)的閾值與所述待識(shí)別聲音數(shù)據(jù)的噪音水平相關(guān)聯(lián)。

可選地,所述待識(shí)別聲音數(shù)據(jù)的噪音水平包括低噪音水平、中等噪音水平和高噪音水平,其中:

當(dāng)p≥p1時(shí),確定所述待識(shí)別聲音數(shù)據(jù)具有低噪音水平,p表示所述待識(shí)別聲音數(shù)據(jù)對(duì)應(yīng)的絕對(duì)幅值,p1為預(yù)設(shè)的第一閾值;

當(dāng)p2≥p>p1時(shí),確定所述待識(shí)別聲音數(shù)據(jù)具有中等噪音水平,p2為預(yù)設(shè)的第二閾值,且p1>p2;

當(dāng)p<p2時(shí),確定所述待識(shí)別聲音數(shù)據(jù)具有高噪音水平。

可選地,p1等于0.8,p2等于0.45。

可選地,所述參考模板中包括瞬態(tài)噪聲、靜態(tài)噪聲和特定人的豐富的語(yǔ)音內(nèi)容的信息。

與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案具有以下的優(yōu)點(diǎn):

上述的方案,通過(guò)基于對(duì)應(yīng)mfcc參數(shù)計(jì)算得到的待識(shí)別聲音數(shù)據(jù)與參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值的均值與預(yù)設(shè)的閾值進(jìn)行比較,來(lái)確定聲音幀中是否包括關(guān)鍵詞,而無(wú)需建立對(duì)應(yīng)的數(shù)學(xué)識(shí)別模型,也不需要對(duì)關(guān)鍵詞進(jìn)行相應(yīng)的翻譯,因此,可以節(jié)關(guān)鍵詞識(shí)別的的計(jì)算資源,并可以提高關(guān)鍵詞識(shí)別的準(zhǔn)確率。

進(jìn)一步地,當(dāng)待識(shí)別聲音數(shù)據(jù)的頻譜能量大于預(yù)設(shè)的能量閾值時(shí),才對(duì)對(duì)應(yīng)的待識(shí)別聲音數(shù)據(jù)進(jìn)行關(guān)鍵詞識(shí)別,反之,則不對(duì)待識(shí)別聲音數(shù)據(jù)進(jìn)行關(guān)鍵詞識(shí)別,因此,可以進(jìn)一步節(jié)約計(jì)算資源,并提高關(guān)鍵詞識(shí)別的速度。

進(jìn)一步地,在錄制對(duì)應(yīng)的參考模板時(shí),所述參考模板中包括瞬態(tài)噪聲、靜態(tài)噪聲和特定人的豐富的語(yǔ)音內(nèi)容的信息,使得參考模板可以與對(duì)應(yīng)的特定人的語(yǔ)音和語(yǔ)音所屬環(huán)境進(jìn)行較為準(zhǔn)確地記錄,因此,可以進(jìn)一步提高關(guān)鍵詞識(shí)別的準(zhǔn)確性。

附圖說(shuō)明

圖1是本發(fā)明實(shí)施例中的一種關(guān)鍵詞識(shí)別方法的流程圖;

圖2是本發(fā)明實(shí)施例中的另一種關(guān)鍵詞識(shí)別方法的流程圖;

圖3是本發(fā)明實(shí)施例中的一種關(guān)鍵詞識(shí)別裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為解決現(xiàn)有技術(shù)中存在的上述問(wèn)題,本發(fā)明實(shí)施例采用的技術(shù)方案通過(guò)在確定待識(shí)別聲音數(shù)據(jù)與參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值的均值與預(yù)設(shè)的閾值進(jìn)行比較,來(lái)確定聲音幀中是否包括關(guān)鍵詞,可以節(jié)關(guān)鍵詞識(shí)別的計(jì)算資源,并可以提高關(guān)鍵詞識(shí)別的準(zhǔn)確率。

為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更為明顯易懂,下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施例做詳細(xì)的說(shuō)明。

圖1示出了本發(fā)明實(shí)施例中的一種關(guān)鍵詞識(shí)別方法的流程圖。如圖1所示的關(guān)鍵詞識(shí)別方法,可以包括如下步驟:

步驟s101:將獲取的待識(shí)別聲音數(shù)據(jù)劃分為多個(gè)重疊的聲音幀。

在具體實(shí)施中,各個(gè)聲音幀之間的重疊部分的大小可以根據(jù)實(shí)際的需要進(jìn)行設(shè)置。例如,當(dāng)各個(gè)聲音幀的長(zhǎng)度為32ms時(shí),相鄰聲音幀之間的重疊部分的大小可以為16ms。

步驟s102:對(duì)劃分得到的多個(gè)聲音幀的聲音信號(hào)分別進(jìn)行快速傅立葉變換運(yùn)算,得到對(duì)應(yīng)的頻譜能量。

在具體實(shí)施中,劃分得到的多個(gè)聲音信號(hào)為時(shí)域的聲音信號(hào),通過(guò)快速傅立葉變換運(yùn)算(fft),可以將時(shí)域的聲音信號(hào)轉(zhuǎn)換為頻域的聲音信號(hào)。

步驟s103:將各個(gè)聲音幀對(duì)應(yīng)的頻譜能量轉(zhuǎn)換為梅爾頻率下的頻譜能量,并計(jì)算對(duì)應(yīng)的mfcc參數(shù)。

在具體實(shí)施中,經(jīng)過(guò)快速傅立葉變換運(yùn)算得到聲音信號(hào)的頻譜能量(功率譜),可以按照預(yù)設(shè)的對(duì)應(yīng)關(guān)系,轉(zhuǎn)換為梅爾頻率下的頻譜能量,并根據(jù)梅爾頻率下的頻譜能量,計(jì)算各個(gè)聲音幀對(duì)應(yīng)的梅爾頻率倒譜系數(shù)(melfrequencycepstrumcoefficient,mfcc)參數(shù)。

步驟s104:根據(jù)各個(gè)聲音幀對(duì)應(yīng)的mfcc參數(shù),分別計(jì)算得到所述待識(shí)別聲音數(shù)據(jù)與預(yù)設(shè)的多個(gè)參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值。

在具體實(shí)施中,預(yù)設(shè)的多個(gè)參考模板中分別包括對(duì)應(yīng)的關(guān)鍵詞的語(yǔ)音內(nèi)容。其中,預(yù)設(shè)的參考模板的數(shù)量可以根據(jù)實(shí)際的需要進(jìn)行設(shè)置,本發(fā)明在此不做限制。

步驟s105:當(dāng)確定所述待識(shí)別聲音數(shù)據(jù)與當(dāng)前參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值的均值小于預(yù)設(shè)的閾值時(shí),將當(dāng)前參考模板中的關(guān)鍵詞作為識(shí)別結(jié)果。

在具體實(shí)施中,通過(guò)對(duì)預(yù)設(shè)的多個(gè)參考模板進(jìn)行遍歷,分別計(jì)算當(dāng)前待識(shí)別聲音數(shù)據(jù)與當(dāng)前參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值,并將當(dāng)前待識(shí)別聲音數(shù)據(jù)與當(dāng)前參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值的均值與預(yù)設(shè)的閾值進(jìn)行比較,當(dāng)確定所述待識(shí)別聲音數(shù)據(jù)與當(dāng)前參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值的均值小于預(yù)設(shè)的閾值時(shí),可以將當(dāng)前參考模板中的關(guān)鍵詞作為識(shí)別結(jié)果;反之,則確定當(dāng)前待識(shí)別的聲音數(shù)據(jù)中不包括當(dāng)前參考模板中的關(guān)鍵詞的語(yǔ)音信息。

下面將結(jié)合圖2對(duì)本發(fā)明實(shí)施例中的關(guān)鍵詞識(shí)別方法做進(jìn)一步詳細(xì)的介紹。

圖2示出了本發(fā)明實(shí)施例中的另一種關(guān)鍵詞識(shí)別方法的流程圖。如圖2 所示的關(guān)鍵詞識(shí)別方法,可以包括如下的步驟:

步驟s201:將獲取的聲音數(shù)據(jù)進(jìn)行重疊分幀,得到對(duì)應(yīng)的多個(gè)聲音幀。

在具體實(shí)施中,首先可以對(duì)所采集的聲音信號(hào)進(jìn)行模數(shù)轉(zhuǎn)換,得到對(duì)應(yīng)的聲音數(shù)據(jù)。接著,可以將對(duì)應(yīng)的聲音數(shù)據(jù)進(jìn)行重疊分幀,得到多個(gè)聲音幀。對(duì)采集的聲音數(shù)據(jù)進(jìn)行分幀,實(shí)質(zhì)是對(duì)聲音數(shù)據(jù)進(jìn)行短時(shí)分析。短時(shí)分析是把聲音信號(hào)分成具有固定周期的時(shí)間短段,每個(gè)時(shí)間短段是相對(duì)固定的持續(xù)聲音片段。其中,相鄰的兩個(gè)聲音幀之間部分重疊,重疊范圍可以根據(jù)實(shí)際情況進(jìn)行選擇。

步驟s202:對(duì)所得到的多個(gè)聲音幀進(jìn)行加窗處理。

在具體實(shí)施中,可以選擇漢明窗、漢寧窗、矩形窗等語(yǔ)音信號(hào)處理常用的窗函數(shù),幀長(zhǎng)選擇為10~40ms,典型值為20ms。其中,對(duì)語(yǔ)音信號(hào)進(jìn)行分幀處理破壞了聲音信號(hào)的自然度,通過(guò)使用聲音幀進(jìn)行加窗和回移處理等,可以解決這個(gè)問(wèn)題。

步驟s203:將經(jīng)過(guò)加窗處理后的聲音幀進(jìn)行快速傅立葉變換運(yùn)算,得到各個(gè)聲音幀對(duì)應(yīng)的頻譜能量的信息。

在具體實(shí)施中,聲音數(shù)據(jù)理論上來(lái)說(shuō)是隨時(shí)間變化的,是一個(gè)非穩(wěn)態(tài)的過(guò)程,不可以直接進(jìn)行頻域的轉(zhuǎn)換。但是,由于對(duì)聲音數(shù)據(jù)進(jìn)行分幀處理(短時(shí)分析),每幀的聲音數(shù)據(jù)可以認(rèn)為是相對(duì)穩(wěn)定的,因而可以對(duì)其應(yīng)用頻域轉(zhuǎn)換。

在具體實(shí)施中,可以采用短時(shí)傅立葉變換(short-timefouriertransform/short-termfouriertransform,stft)對(duì)每幀的聲音數(shù)據(jù)進(jìn)行頻域轉(zhuǎn)換,以得到各個(gè)聲音幀對(duì)應(yīng)的頻譜信息。其中,所得到的頻譜中包括對(duì)應(yīng)的聲音信號(hào)的頻率和能量的關(guān)系。

步驟s204:將各個(gè)聲音幀對(duì)應(yīng)的頻譜能量轉(zhuǎn)換為梅爾頻率下的頻譜能量,并計(jì)算對(duì)應(yīng)的mfcc參數(shù)。

在本發(fā)明一實(shí)施例中,當(dāng)?shù)玫疆?dāng)前待識(shí)別聲音數(shù)據(jù)的多個(gè)聲音幀對(duì)應(yīng)的頻譜能量之后,可以首先判斷當(dāng)前待識(shí)別聲音數(shù)據(jù)的頻譜能量是否大于預(yù)設(shè) 的能量閾值,當(dāng)確定當(dāng)前待識(shí)別聲音數(shù)據(jù)的頻譜能量大于所述能量閾值時(shí),繼續(xù)執(zhí)行步驟s204,否則,確定當(dāng)前待識(shí)別聲音數(shù)據(jù)中不包括關(guān)鍵詞的語(yǔ)音信息,因此,便可以停止對(duì)當(dāng)前待識(shí)別聲音數(shù)據(jù)的后續(xù)處理,以進(jìn)一步節(jié)約計(jì)算資源。

在具體實(shí)施中,可以按照預(yù)設(shè)的對(duì)應(yīng)關(guān)系,將經(jīng)過(guò)fft運(yùn)算得到的頻譜能量轉(zhuǎn)換成為梅爾(mel)頻率下的頻譜能量,并計(jì)算每個(gè)聲音幀對(duì)應(yīng)的mfcc參數(shù),作為每個(gè)聲音幀的特征向量。

步驟s205:根據(jù)各個(gè)聲音幀對(duì)應(yīng)的mfcc參數(shù),計(jì)算得到當(dāng)前聲音幀與預(yù)設(shè)的多個(gè)參考模板中當(dāng)前參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值。

在本發(fā)明一實(shí)施例中,在計(jì)算當(dāng)前待識(shí)別的聲音數(shù)據(jù)與參考模板之間的dtw距離時(shí),當(dāng)前待識(shí)別的聲音數(shù)據(jù)和參考模板分別被劃分成i幀。同時(shí),本申請(qǐng)的發(fā)明人根據(jù)經(jīng)驗(yàn)獲知,在參考模板的錄制過(guò)程中,說(shuō)話者的發(fā)音會(huì)變得亢奮,且語(yǔ)速也比往常要慢。因此,將參考模板劃分為i幀,用于dtw距離計(jì)算的每跳大小為0.1i幀,在計(jì)算得到當(dāng)前待識(shí)別聲音數(shù)據(jù)的i幀與參考模板的i幀的dtw距離之后,將i個(gè)dtw距離的中值作為當(dāng)前待識(shí)別聲音數(shù)據(jù)與對(duì)應(yīng)的參考模板的dtw距離中值。類似地,我們可以得到當(dāng)前待識(shí)別聲音數(shù)據(jù)與對(duì)應(yīng)的參考模板的歐式距離(ed)中值和互相關(guān)距離(cc)距離中值。

步驟s206:判斷待識(shí)別聲音數(shù)據(jù)與當(dāng)前參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值的均值是否小于預(yù)設(shè)的閾值;當(dāng)判斷結(jié)果為是時(shí),可以執(zhí)行步驟s207,反之,則對(duì)預(yù)設(shè)的多個(gè)參考模板中的下一參考模板從步驟s205開(kāi)始執(zhí)行。

在具體實(shí)施中,在計(jì)算得到當(dāng)前待識(shí)別聲音數(shù)據(jù)與參考模板之間的dtw距離中值、歐式距離中值和互相關(guān)距離中值之后,將三者的均值與預(yù)設(shè)的閾值進(jìn)行比較。

在本發(fā)明一實(shí)施例中,所述預(yù)設(shè)的閾值與當(dāng)前待識(shí)別聲音數(shù)據(jù)的噪音水平相關(guān)聯(lián),即不同的噪音水平,對(duì)應(yīng)的預(yù)設(shè)的閾值將會(huì)不同。其中,當(dāng)前待 識(shí)別聲音數(shù)據(jù)的絕對(duì)幅值概率大于當(dāng)p≥p1時(shí),確定所述待識(shí)別聲音數(shù)據(jù)具有低噪音水平,p表示所述待識(shí)別聲音數(shù)據(jù)對(duì)應(yīng)的絕對(duì)幅值,p1為預(yù)設(shè)的第一閾值;p2≥p>p1時(shí),確定所述待識(shí)別聲音數(shù)據(jù)具有中等噪音水平,p2為預(yù)設(shè)的第二閾值,且p1>p2;當(dāng)p<p2時(shí),確定所述待識(shí)別聲音數(shù)據(jù)具有高噪音水平。在本發(fā)明一實(shí)施例中,p1為0.8,p2為0.45。

步驟s207:將當(dāng)前參考模板中的關(guān)鍵詞作為識(shí)別結(jié)果并輸出。

在具體實(shí)施中,當(dāng)確定預(yù)設(shè)的參考模板中的某個(gè)參考模板與當(dāng)前待識(shí)別聲音數(shù)據(jù)之間的dtw距離中值、歐式距離中值和互相關(guān)距離中值的均值小于預(yù)設(shè)的閾值時(shí),可以確定當(dāng)前待識(shí)別聲音數(shù)據(jù)中包括參考模板中的關(guān)鍵詞的語(yǔ)音信息。因此,可以將所述參考模板中的關(guān)鍵詞作為當(dāng)前待識(shí)別聲音數(shù)據(jù)的關(guān)鍵詞識(shí)別結(jié)果并輸出。

在具體實(shí)施中,當(dāng)將上述的關(guān)鍵詞識(shí)別方法應(yīng)用于告警系統(tǒng)中時(shí),在識(shí)別出對(duì)應(yīng)的關(guān)鍵詞時(shí),告警系統(tǒng)可以執(zhí)行告警操作。

這里需要指出的是,在緊急情況或者其他的關(guān)鍵詞應(yīng)用中,單純(如未經(jīng)訓(xùn)練)的用戶可以用于錄制個(gè)性化關(guān)鍵詞。為了確保良好的識(shí)別性能,參考模板變得非常重要。這可以通過(guò)簡(jiǎn)單的核查操作來(lái)確保參考模板的錄制質(zhì)量。

因此,本申請(qǐng)的發(fā)明人提倡三種檢測(cè)因素,即檢測(cè)瞬態(tài)噪聲源(如摔門聲),靜態(tài)噪聲源(如風(fēng)扇或者交通噪聲),且豐富關(guān)鍵詞的發(fā)音內(nèi)容。上述三種因素需要同時(shí)滿足,否則將需要重新錄制關(guān)鍵詞。其中,瞬態(tài)噪聲的檢測(cè),可以使用連續(xù)25ms的聲音幀,且每跳大小為5ms的聲音信號(hào)的能量的絕對(duì)幅值的差異。其中,可以將每5個(gè)聲音幀的絕對(duì)幅值進(jìn)行平均。在靜態(tài)噪聲檢測(cè)時(shí),關(guān)鍵詞的錄制發(fā)生在安靜環(huán)境中預(yù)設(shè)的5s時(shí)間窗內(nèi)。與包括關(guān)鍵詞的聲音數(shù)據(jù)相比,在5s時(shí)間窗內(nèi),不包括關(guān)鍵詞的參考模板的開(kāi)頭和結(jié)尾的信號(hào)能量具有較大的差異。在核查豐富的發(fā)音內(nèi)容時(shí),只有單一元音而沒(méi)有如“啊”之類的輔音的關(guān)鍵詞是被拒絕的,這種拒絕可以基于與關(guān)鍵詞的發(fā)音內(nèi)容相關(guān)的修正過(guò)零率做出。

下面將對(duì)本發(fā)明實(shí)施例中的關(guān)鍵詞識(shí)別方法對(duì)應(yīng)的裝置做進(jìn)一步詳細(xì)的 介紹。

請(qǐng)參見(jiàn)圖3,本發(fā)明實(shí)施例中的關(guān)鍵詞識(shí)別裝置300,可以包括分幀處理單元301、頻域轉(zhuǎn)換單元302、第一計(jì)算單元303、第二計(jì)算單元304、判斷單元305和關(guān)鍵詞識(shí)別單元306,其中:

所述分幀處理單元301,適于將獲取的待識(shí)別的聲音數(shù)據(jù)劃分為多個(gè)重疊的聲音幀;

所述頻域轉(zhuǎn)換單元302,適于對(duì)劃分得到的多個(gè)聲音幀進(jìn)行遍歷,并將遍歷到的當(dāng)前聲音幀的聲音信號(hào)進(jìn)行快速傅立葉變換運(yùn)算,得到對(duì)應(yīng)的頻譜能量;

所述第一計(jì)算單元303,適于將所得到的頻譜能量轉(zhuǎn)換為梅爾頻率下的頻譜能量,并計(jì)算對(duì)應(yīng)的mfcc參數(shù);

在具體實(shí)施中,在所述關(guān)鍵詞識(shí)別裝置300還可以設(shè)置一個(gè)觸發(fā)單元(圖中未示出),該觸發(fā)單元適于在遍歷到的當(dāng)前聲音幀的頻譜能量大于預(yù)設(shè)的能量閾值時(shí),觸發(fā)所述第一計(jì)算單元303執(zhí)行所述將所得到頻譜能量轉(zhuǎn)換為mel頻率下的頻譜能量,并計(jì)算對(duì)應(yīng)的mfcc參數(shù)的操作;

所述第二計(jì)算單元304,適于根據(jù)當(dāng)前聲音幀對(duì)應(yīng)的mfcc參數(shù),分別計(jì)算得到當(dāng)前聲音幀與預(yù)設(shè)的多個(gè)參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值;

所述判斷單元305,適于判斷當(dāng)前聲音幀與參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值的均值是否小于預(yù)設(shè)的閾值;

在具體實(shí)施中,所述預(yù)設(shè)的閾值與當(dāng)前聲音幀的噪音水平相關(guān)聯(lián),其中,當(dāng)p≥p1時(shí),確定當(dāng)前聲音幀具有低噪音水平,p表示當(dāng)前聲音幀對(duì)應(yīng)的絕對(duì)幅值,p1為預(yù)設(shè)的第一閾值;當(dāng)p2≥p>p1時(shí),確定當(dāng)前聲音幀具有中等噪音水平,p2為預(yù)設(shè)的第二閾值,且p1>p2;當(dāng)p<p2時(shí),確定當(dāng)前聲音幀具有高噪音水平。其中,在本發(fā)明一實(shí)施例中,p1等于0.8,p2等于0.45。

在具體實(shí)施中,所述參考模板中包括瞬態(tài)噪聲、靜態(tài)噪聲和特定人的豐富的語(yǔ)音內(nèi)容的信息。

所述關(guān)鍵詞識(shí)別單元306,適于當(dāng)確定當(dāng)前聲音幀與參考模板之間的dtw距離中值、歐氏距離中值和互相關(guān)距離中值的均值小于預(yù)設(shè)的閾值時(shí),將當(dāng)前參考模板中的關(guān)鍵詞作為識(shí)別結(jié)果并輸出。

本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,該程序可以存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可以包括:rom、ram、磁盤或光盤等。

以上對(duì)本發(fā)明實(shí)施例的方法及系統(tǒng)做了詳細(xì)的介紹,本發(fā)明并不限于此。任何本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),均可作各種更動(dòng)與修改,因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以權(quán)利要求所限定的范圍為準(zhǔn)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1