關(guān)鍵詞檢測方法和裝置制造方法
【專利摘要】本申請?zhí)峁┝岁P(guān)鍵詞檢測方法和裝置。其中,該方法包括:使用IPA音素集合和多個不同語種的數(shù)據(jù)訓(xùn)練一個聲學(xué)模型;其中,所述前景模型用于描述關(guān)鍵詞對應(yīng)的音素,所述背景模型用于吸收非關(guān)鍵詞對應(yīng)的音素;利用所述聲學(xué)模型搭建一個對應(yīng)的音素解碼器;采集待檢測的關(guān)鍵詞音頻樣本,利用所述音素解碼器對采集的關(guān)鍵詞音頻樣本進行解碼得到對應(yīng)的關(guān)鍵詞音素序列;利用所述聲學(xué)模型檢測待測音頻,以通過所述聲學(xué)模型中的前景模型吸收所述待檢測音頻中與所述關(guān)鍵詞音素序列描述的音素相同的音素,而通過所述聲學(xué)模型中的背景模型吸收所述待檢測音頻中的非關(guān)鍵詞音素。采用本發(fā)明,能夠提高關(guān)鍵測的檢測的靈活性和廣泛性。
【專利說明】關(guān)鍵詞檢測方法和裝置
【技術(shù)領(lǐng)域】
[0001]本申請涉及互聯(lián)網(wǎng)技術(shù),特別涉及關(guān)鍵詞檢測方法和裝置。
【背景技術(shù)】
[0002]音頻關(guān)鍵詞檢測是語音安全監(jiān)控中的重要一環(huán),其中最大的難點是語言種類較多,而識別引擎往往只能對某一種語言進行較為準確的識別,導(dǎo)致關(guān)鍵詞檢測系統(tǒng)很難普適的對各種語言音頻進行識別。
[0003]基于此,基于音頻樣本的關(guān)鍵詞檢測方法應(yīng)運而生,該方法并不需要具體明確待檢測音頻的語言種類,下面對該基于音頻樣本的關(guān)鍵詞檢測方法進行描述:
[0004]首先,利用任意一種語言的音頻數(shù)據(jù)訓(xùn)練得到音素級后驗概率的神經(jīng)網(wǎng)絡(luò);
[0005]其后,在獲得一個待檢測的關(guān)鍵詞音頻樣本時,利用神經(jīng)網(wǎng)絡(luò)獲取該關(guān)鍵詞音頻樣本對應(yīng)的特征序列,具體就是該關(guān)鍵詞音頻樣本在神經(jīng)網(wǎng)絡(luò)訓(xùn)練時候得到的各個音素上的后驗概率,形成該關(guān)鍵詞音頻樣本的一種表征形式。
[0006]最后,使用滑動窗從特征序列開始逐步向后平移,每一次的平移繼續(xù)使用神經(jīng)網(wǎng)絡(luò)得到每一個滑動窗內(nèi)的特征表征,之后使用動態(tài)時間歸整(DTW:Dynamic Time Warping)算法進行彎曲比對,如果特征表征符合的情況下,則輸出一次關(guān)鍵詞的檢出。
[0007]至此,完成現(xiàn)有基于音頻樣本的關(guān)鍵詞檢測方法的描述。
[0008]上述基于音頻樣本的關(guān)鍵詞檢測方法中,特征層表征、特征序列基于神經(jīng)網(wǎng)絡(luò)提取,具備一定的魯棒性;另外,該方法使用DTW算法配合滑動窗來檢出關(guān)鍵詞,而DTW算法是早期語音識別中使用的一種方案,主要適用于孤立詞語音識別系統(tǒng)中,其核心思想是基于動態(tài)規(guī)劃,對音頻特征在特征層面直接進行比對,因此實現(xiàn)較為簡單,實時率較高。
[0009]但是,由于人在發(fā)聲的時候會隨著年齡,情緒,環(huán)境,健康情況等等外界因素而發(fā)生讀音的改變,因此,DTW算法不具備非常高的魯棒性,往往環(huán)境噪聲就可以導(dǎo)致該關(guān)鍵詞檢測的精確度大幅下降;
[0010]還有,在現(xiàn)有關(guān)鍵詞檢測方法中,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是基于單一語種,如此,當該語種的音頻樣本進行關(guān)鍵詞檢測時會有較好的性能,但是擴充到其他語種之后,由于單一語種的音素集以及數(shù)據(jù)發(fā)音特點限制,在非訓(xùn)練語種的音頻上,難以取得較好的識別性能。
【發(fā)明內(nèi)容】
[0011]本申請?zhí)峁┝岁P(guān)鍵詞檢測方法和裝置,以提聞關(guān)鍵詞的檢測精確度。
[0012]本申請?zhí)峁┑募夹g(shù)方案包括:
[0013]一種關(guān)鍵詞檢測方法,該方法包括:
[0014]使用國際通用音標IPA音素集合和多個不同語種的數(shù)據(jù)訓(xùn)練一個聲學(xué)模型;其中,所述前景模型用于描述關(guān)鍵詞對應(yīng)的音素,所述背景模型用于吸收非關(guān)鍵詞對應(yīng)的音素;
[0015]利用所述聲學(xué)模型搭建一個對應(yīng)的音素解碼器;[0016]采集關(guān)鍵詞音頻樣本,利用所述音素解碼器對采集的關(guān)鍵詞音頻樣本進行解碼得到對應(yīng)的關(guān)鍵詞首素序列;
[0017]利用所述聲學(xué)模型對待檢測音頻進行檢測,以通過所述聲學(xué)模型中的前景模型吸收所述待檢測音頻中與所述關(guān)鍵詞音素序列描述的音素相同的音素部分,而通過所述聲學(xué)模型中的背景模型吸收所述待檢測音頻中的非關(guān)鍵詞音素部分。
[0018]一種關(guān)鍵詞檢測裝置,該裝置包括:
[0019]聲學(xué)模型訓(xùn)練模塊,用于使用國際通用音標IPA音素集合和多個不同語種的數(shù)據(jù)訓(xùn)練一個聲學(xué)模型;其中,所述前景模型用于描述關(guān)鍵詞對應(yīng)的音素,所述背景模型用于吸收非關(guān)鍵詞對應(yīng)的音素;
[0020]音素解碼器模塊,用于利用所述聲學(xué)模型搭建成一個對應(yīng)的音素解碼器;
[0021]關(guān)鍵詞音頻樣本采集模塊,用于采集關(guān)鍵詞音頻樣本,利用所述音素解碼器對采集的關(guān)鍵詞首頻樣本進行解碼得到對應(yīng)的關(guān)鍵詞首素序列;
[0022]關(guān)鍵測檢測模塊,用于利用所述聲學(xué)模型檢測所述待檢測音頻,以通過所述聲學(xué)模型中的前景模型吸收所述待檢測音頻中與所述關(guān)鍵詞音素序列描述的音素相同的音素部分,而通過所述聲學(xué)模型中的背景模型吸收所述待檢測音頻中的非關(guān)鍵詞音素部分。
[0023]由以上技術(shù)方案可以看出,本發(fā)明不再使用DTW算法,而是通過對多個不同語種的數(shù)據(jù)和IPA音素集合訓(xùn)練聲學(xué)模型,該聲學(xué)模型融合各個語種的音素,真正的實現(xiàn)了聲學(xué)模型和語種無關(guān),如此,基于聲學(xué)模型的識別系統(tǒng)進行關(guān)鍵詞的檢測,這相比于單純的DTW算法具有非常大的魯棒性能優(yōu)勢,也能提高關(guān)鍵測的檢測精度。
【專利附圖】
【附圖說明】
[0024]圖1為本發(fā)明實施例提供的方法流程圖;
[0025]圖2為本發(fā)明實施例提供的關(guān)鍵詞檢索模型示意圖;
[0026]圖3為本發(fā)明實施例提供的框架示意圖;
[0027]圖4為本發(fā)明實施例提供的前景模型訓(xùn)練流程圖;
[0028]圖5為本發(fā)明實施例提供的隱馬爾可夫模型結(jié)構(gòu)示意圖;
[0029]圖6為本發(fā)明實施例提供的關(guān)鍵詞音素序列確定流程圖;
[0030]圖7為本發(fā)明實施例提供的PCN線性結(jié)構(gòu)示意圖;
[0031]圖8為本發(fā)明實施例提供的步驟603實現(xiàn)流程圖;
[0032]圖9為本發(fā)明實施例提供的裝置結(jié)構(gòu)圖。
【具體實施方式】
[0033]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細描述。
[0034]本發(fā)明提供的方法在進行關(guān)鍵詞檢測時不再使用DTW算法,而是通過訓(xùn)練聲學(xué)模型,基于聲學(xué)模型的識別系統(tǒng)進行關(guān)鍵詞的檢測,這相比于單純的DTW算法具有非常大的魯棒性能優(yōu)勢。
[0035]下面對本發(fā)明提供的方法進行描述:
[0036]參見圖1,圖1為本發(fā)明實施例提供的方法流程圖。如圖1所示,該流程可包括以下步驟:
[0037]步驟101,使用國際通用音標(IPA)音素集合和多個不同語種的數(shù)據(jù)訓(xùn)練一個聲學(xué)模型;其中,所述前景模型用于描述關(guān)鍵詞對應(yīng)的音素,所述背景模型用于吸收非關(guān)鍵詞對應(yīng)的音素。
[0038]作為本發(fā)明的一個實施例,步驟101中,使用IPA音素集合和多個不同語種的數(shù)據(jù)訓(xùn)練一個聲學(xué)模型可包括:
[0039]采集多個不同語種的音頻數(shù)據(jù)和該音頻數(shù)據(jù)的標注數(shù)據(jù);
[0040]獲取所述多個不同語種中每一語種的音素集合;
[0041]將各個音素集合中的音素映射到IPA音素得到IPA音素映射集合;
[0042]基于采集的各個語種的音頻數(shù)據(jù)、該音頻數(shù)據(jù)的標注數(shù)據(jù)、以及所述IPA音素映射集合訓(xùn)練一個聲學(xué)模型。
[0043]IPA,國際通用且被認為音素覆蓋面最廣泛,基于此,本發(fā)明先將采集的各個音頻數(shù)據(jù)所使用的各個語種比如中文、英語等的音素映射到IPA的音素映射到IPA音素得到IPA音素映射集合(也稱映射后的音素集合),利用該IPA音素映射集合訓(xùn)練聲學(xué)模型,能夠保證訓(xùn)練出的聲學(xué)模型融合各個語種的音素,從而真正的實現(xiàn)聲學(xué)模型和語種無關(guān),便于后續(xù)關(guān)鍵詞的檢測。
[0044]還有,本發(fā)明中,將各個音素集合中的音素映射到IPA音素得到IPA音素映射集合具體實現(xiàn)時可有多種實現(xiàn)方式,下面僅舉出以下三種實現(xiàn)方式。其中,該三種實現(xiàn)方式僅是一種舉例,并非用于限定本發(fā)明:
[0045]方式1:
[0046]本方式I比較簡單,其是基于預(yù)設(shè)定的音素映射規(guī)則的方法實現(xiàn)。其中,音素映射規(guī)則是經(jīng)由語言學(xué)家的研究得到各個語種中音素的發(fā)音規(guī)律,利用該發(fā)音規(guī)律與IPA音素的發(fā)音規(guī)律來建立各個語種中音素與IPA的音素之間的映射關(guān)系?;诖?,本方式I可直接利用該音素映射規(guī)則將各個音素集合中的音素映射到IPA音素得到IPA音素映射集合。
[0047]方式2:
[0048]本方式2是基于數(shù)據(jù)驅(qū)動的方法。其中,基于數(shù)據(jù)驅(qū)動的方法是通過解碼一定數(shù)量的特定語種數(shù)據(jù),得到特定語種的音素和IPA音素的混淆關(guān)系,如果特定語種的一個音素與IPA的一個音素的混淆程度比較大,比如大于第一設(shè)定閾值,則就認為這兩個音素之間具有映射關(guān)系。
[0049]方式3:
[0050]一般來說,基于數(shù)據(jù)驅(qū)動的方法優(yōu)于基于音素映射規(guī)則的方法,因此,作為本發(fā)明的一個實施例,本方式3是上述方式I和方式2的組合,即先基于音素映射規(guī)則初步建立語種的音素與IPA音素的映射關(guān)系,之后再進行數(shù)據(jù)驅(qū)動的方法修正得到的初步映射關(guān)系。
[0051]至此,完成上述三種方式的描述。
[0052]還有,本發(fā)明中,上述如何基于采集的各個語種的音頻數(shù)據(jù)、該音頻數(shù)據(jù)的標注數(shù)據(jù)、以及所述IPA音素映射集合訓(xùn)練一個聲學(xué)模型在下文進行了描述。
[0053]步驟102,利用所述聲學(xué)模型搭建一個對應(yīng)的音素解碼器。
[0054]步驟103,采集關(guān)鍵詞音頻樣本,利用所述音素解碼器對采集的關(guān)鍵詞音頻樣本進行解碼得到對應(yīng)的關(guān)鍵詞音素序列。[0055]作為本發(fā)明的一個實施例,步驟103中,利用所述音素解碼器對采集的關(guān)鍵詞音頻樣本進行解碼得到對應(yīng)的關(guān)鍵詞音素序列具體為:
[0056]識別采集的關(guān)鍵詞音頻樣本的數(shù)量,
[0057]在采集的關(guān)鍵詞音頻樣本的數(shù)量僅為一個時,利用所述音素解碼器對采集的一個關(guān)鍵詞音頻樣本進行解碼,將解碼之后得到的唯一音素系列確定為所述關(guān)鍵詞音素序列;
[0058]在采集的關(guān)鍵詞音頻樣本的數(shù)量大于I時,利用所述音素解碼器對采集的每一個關(guān)鍵詞首頻樣本進行解碼得到每一關(guān)鍵詞首頻樣本對應(yīng)的首素序列,從得到的首素序列中選擇一個作為所述關(guān)鍵詞音素序列。
[0059]至于在所述數(shù)量大于I時,如何從得到的音素序列中選擇一個作為關(guān)鍵詞音素序列這在下文進行了描述,這里暫不贅述。
[0060]步驟104,利用所述聲學(xué)模型對待檢測音頻進行檢測,以通過所述聲學(xué)模型中的前景模型吸收所述待檢測音頻中與所述關(guān)鍵詞音素序列描述的音素相同的音素部分,而通過所述聲學(xué)模型中的背景模型吸收所述待檢測音頻中的非關(guān)鍵詞音素部分。
[0061]作為本發(fā)明的一個實施例,貝1J基于聲學(xué)模型,本發(fā)明構(gòu)建了圖2所不的關(guān)鍵詞檢索模型。如圖2所示,該關(guān)鍵詞檢索模型由前景模型網(wǎng)絡(luò)和背景模型網(wǎng)絡(luò)組成,其中,前景模型網(wǎng)絡(luò)中KW_1至KW_N表示關(guān)鍵詞音素序列,具體由前景模型表征,而背景模型網(wǎng)絡(luò)中FILLER_1至FILLER_N表示背景模型的所有音素,當待檢測音頻進入圖2所示的模型時,包含關(guān)鍵詞的音素會在前景模型網(wǎng)絡(luò)中吸收,而非關(guān)鍵詞部分會被背景模型網(wǎng)絡(luò)吸收,從而實現(xiàn)關(guān)鍵詞的檢出。
[0062]至此,完成圖1所示的流程。對應(yīng)圖1所示的流程,本發(fā)明提供了對應(yīng)的框架示意圖,具體如圖3所示。
[0063]在上面描述中,作為本發(fā)明的一個實施例,基于采集的各個語種的音頻數(shù)據(jù)、該音頻數(shù)據(jù)的標注數(shù)據(jù)、以及所述IPA音素映射集合訓(xùn)練一個聲學(xué)模型可包括:
[0064]對采集的每一語種的音頻數(shù)據(jù)進行特征提取得到對應(yīng)的音頻特征序列;這里,特征提取方式具體實現(xiàn)時可有多種實現(xiàn)形式,比如感知線性預(yù)測數(shù)據(jù)(PLP)、或者為Mel頻率倒譜系數(shù)(MFCC)數(shù)據(jù)等,本發(fā)明并不具體限定;
[0065]從IPA音素映射集合中獲取每一音頻特征序列對應(yīng)的特征音素集合;
[0066]利用特征音素集合、采集的標注數(shù)據(jù)分別訓(xùn)練前景模型和背景模型;
[0067]利用所述前景模型和背景模型組合成所述聲音模型。
[0068]下面對如何訓(xùn)練前景模型和背景模型分別進行重點描述:
[0069]前景模型訓(xùn)練:
[0070]參見圖4,圖4為本發(fā)明實施例提供的前景模型訓(xùn)練流程圖。如圖4所示,該流程可包括以下步驟:
[0071]步驟401,訓(xùn)練種子模型。
[0072]這里,訓(xùn)練種子模型就是為特征音素集合中每一音素的三個狀態(tài)訓(xùn)練最初始的隱馬爾可夫模型(HMM:Hidden Markov Model)。也就是說,執(zhí)行完步驟401,特征音素集合中每一音素就為一個隱馬爾可夫模型,該隱馬爾可夫模型拓撲結(jié)構(gòu)如圖5所示。在圖5中,每一音素其中包含三個狀態(tài),從左向右時序排列,依次為S1、S2、S3。
[0073]在每一個狀態(tài)上,音素的發(fā)射概率是使用混合高斯模型(GMM:Gaussian mixturemodel)進行估計的,其數(shù)學(xué)表達式如下式:
【權(quán)利要求】
1.一種關(guān)鍵詞檢測方法,其特征在于,該方法包括: 使用國際通用音標IPA音素集合和多個不同語種的數(shù)據(jù)訓(xùn)練一個聲學(xué)模型;其中,所述前景模型用于描述關(guān)鍵詞對應(yīng)的音素,所述背景模型用于吸收非關(guān)鍵詞對應(yīng)的音素;利用所述聲學(xué)模型搭建一個對應(yīng)的音素解碼器; 采集關(guān)鍵詞音頻樣本,利用所述音素解碼器對采集的關(guān)鍵詞音頻樣本進行解碼得到對應(yīng)的關(guān)鍵詞首素序列; 利用所述聲學(xué)模型對待檢測音頻進行檢測,以通過所述聲學(xué)模型中的前景模型吸收所述待檢測音頻中與所述關(guān)鍵詞音素序列描述的音素相同的音素部分,而通過所述聲學(xué)模型中的背景模型吸收所述待檢測音頻中的非關(guān)鍵詞音素部分。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用音素解碼器對采集的關(guān)鍵詞音頻樣本進行解碼得到對應(yīng)的關(guān)鍵詞音素序列包括: 識別采集的關(guān)鍵詞音頻樣本的數(shù)量, 在所述數(shù)量僅為一個時,利用所述音素解碼器對采集的一個關(guān)鍵詞音頻樣本進行解碼,將解碼之后得到的唯一音素序列確定為所述關(guān)鍵詞音素序列; 在所述數(shù)量大于I時,利用所述音素解碼器對采集的每一個關(guān)鍵詞音頻樣本進行解碼得到每一關(guān)鍵詞音頻樣本對應(yīng)的音素序列,從得到的音素序列中選擇一個作為所述關(guān)鍵詞音素序列。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述使用國際通用音標IPA音素集合和多個不同語種的數(shù)據(jù)訓(xùn)練一個聲學(xué)模型包括: 采集多個不同語種的音頻數(shù)據(jù)和該音頻數(shù)據(jù)的標注數(shù)據(jù); 獲取所述多個不同語種中每一語種的音素集合; 將各個音素集合中的音素映射到IPA音素得到IPA音素映射集合; 基于采集的各個語種的音頻數(shù)據(jù)、該音頻數(shù)據(jù)的標注數(shù)據(jù)、以及所述IPA音素映射集合訓(xùn)練一個聲學(xué)模型。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將各個音素集合中的音素映射到IPA音素得到IPA音素映射集合包括: 針對各個音素集合中的每一音素,基于預(yù)設(shè)定的音素映射規(guī)則從IPA音素集合中識別出與該音素具有映射關(guān)系的IPA音素,將該識別出的IPA音素記錄至IPA音素映射集合;或者, 針對各個音素集合中的每一音素,計算該音素與任一 IPA音素的混淆度,如果該計算的混淆度大于第一設(shè)定閾值,則確定該音素與該IPA音素具映射關(guān)系,將該IPA音素記錄至IPA音素映射集合;或者, 針對各個音素集合中的每一音素,基于預(yù)設(shè)定的音素映射規(guī)則從IPA音素集合中識別出與該音素具有映射關(guān)系的IPA音素,計算該音素與該識別出的IPA音素的混淆度,如果該計算的混淆度大于第一設(shè)定閾值,則確定該音素與該IPA音素具映射關(guān)系,將該IPA音素記錄至IPA音素映射集合。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于采集的各個語種的音頻數(shù)據(jù)、該音頻數(shù)據(jù)的標注數(shù)據(jù)、以及所述IPA音素映射集合訓(xùn)練一個聲學(xué)模型包括: 對 采集的每一語種的音頻數(shù)據(jù)進行特征提取得到對應(yīng)的音頻特征序列;從IPA音素映射集合中獲取每一音頻特征序列對應(yīng)的特征音素集合; 利用特征音素集合、采集的標注數(shù)據(jù)分別訓(xùn)練前景模型和背景模型; 利用所述前景模型和背景模型組合成所述聲學(xué)模型。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述前景模型通過以下步驟訓(xùn)練: 為特征音素集合中每一音素的三個狀態(tài)訓(xùn)練最初始的隱馬爾可夫模型,并從采集的標注數(shù)據(jù)中獲取與該音素相關(guān)的數(shù)據(jù),利用該獲取的數(shù)據(jù)對最初始的隱馬爾可夫模型進行更新,得到單音素模型; 針對標注音素集合中的每一音素,獲取該音素的上下文音素,得到三音素,所述標注音素集合為標注數(shù)據(jù)對應(yīng)的音素集合; 對獲取的每一三音素的狀態(tài)進行決策樹聚類,對聚類后的三音素進行相應(yīng)參數(shù)的更新之后進行最小音素錯誤MPE鑒別性訓(xùn)練,得到三音素模型; 基于得到的單音素模型和三音素模型訓(xùn)練出所述前景模型。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,該方法進一步包括: 計算任意兩個單音素模型之間的混合高斯模型GMM距離; 比較該計算的GMM距離與第二設(shè)定閾值,如果前者大于后者,則認為該兩個單音素模型對應(yīng)的單音素相似,將相似的單音素聚類在一起并記錄至用于描述相似音素的混淆矩陣。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述背景模型通過以下步驟訓(xùn)練: 利用所述混淆矩陣對所述前景模型中的音素進行處理,以實現(xiàn)同一類的音素用一個對應(yīng)的混淆音素替代,得到混淆音素集合; 通過所述混淆音素集合訓(xùn)練所述背景模型。
9.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述從得到的音素序列中選擇一個作為所述關(guān)鍵詞首素序列包括: 將得到的每一音素序列作為一個音素序列候選; 采用PCN方式將所有音素序列候選組合成PCN線性結(jié)構(gòu),在所述PCN線性結(jié)構(gòu)中,所有音素序列候選中的音素對應(yīng)作為所述PCN線性結(jié)構(gòu)的一條邊,相似的各個音素對應(yīng)的邊歸并至同一個槽,各個槽之間形成了線性連接關(guān)系; 從所述PCN線性結(jié)構(gòu)中選擇出一條路徑,將組成該路徑的各條邊上的音素作為所述關(guān)鍵詞音素序列。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述從PCN線性結(jié)構(gòu)中選擇出一條路徑,將組成該路徑的各個邊對應(yīng)的音素作為關(guān)鍵詞音素序列包括: 計算所述PCN線性結(jié)構(gòu)中每一條邊上的音素在所有音素序列候選中的出現(xiàn)頻率; 遍歷所述PCN線性結(jié)構(gòu)中的每一路徑,利用組成該路徑的各條邊上音素的出現(xiàn)頻率計算該路徑的得分; 將每一路徑的得分從高至低進行排序,選擇前N條路徑作為備選路徑,N大于I ; 利用N條備選路徑分別和所有音素序列候選進行置信度計算,依據(jù)計算結(jié)果選擇一條備選路徑作為關(guān)鍵詞音素序列。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述利用N條備選路徑分別和所有音素序列候選進行置信度計算,依據(jù)計算結(jié)果選擇一條備選路徑作為關(guān)鍵詞音素序列包括:針對每一條備選路徑, 用該備選路徑與每一音素序列候選進行強制對齊來進行置信度計算; 將該備選路徑與所有音素序列候選進行強制對齊后計算的置信度進行平均值運算,將得到的結(jié)果作為該備選路徑對應(yīng)的置信度; 從N條備選路徑對應(yīng)的置信度中選擇取值最大的置性度,將該選擇的置信度對應(yīng)的備選路徑作為所述關(guān)鍵詞音素序列。
12.一種關(guān)鍵詞檢測裝置,其特征在于,該裝置包括: 聲學(xué)模型訓(xùn)練模塊,用于使用國際通用音標IPA音素集合和多個不同語種的數(shù)據(jù)訓(xùn)練一個聲學(xué)模型;其中,所述前景模型用于描述關(guān)鍵詞對應(yīng)的音素,所述背景模型用于吸收非關(guān)鍵詞對應(yīng)的首素; 音素解碼器模塊,用于利用所述聲學(xué)模型搭建成一個對應(yīng)的音素解碼器; 關(guān)鍵詞音頻樣本采集模塊,用于采集關(guān)鍵詞音頻樣本,利用所述音素解碼器對采集的關(guān)鍵詞首頻樣本進行解碼得到對應(yīng)的關(guān)鍵詞首素序列; 關(guān)鍵測檢測模塊,用于利用所述聲學(xué)模型檢測所述待檢測音頻,以通過所述聲學(xué)模型中的前景模型吸收所述待檢測音頻中與所述關(guān)鍵詞音素序列描述的音素相同的音素部分,而通過所述聲學(xué)模型中 的背景模型吸收所述待檢測音頻中的非關(guān)鍵詞音素部分。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述聲學(xué)模型訓(xùn)練模塊包括: 數(shù)據(jù)采集單元,用于采集多個不同語種的音頻數(shù)據(jù)和該音頻數(shù)據(jù)的標注數(shù)據(jù); 獲取單元,用于獲取所述多個不同語種中每一語種的音素集合; 映射單元,用于將各個音素集合中的音素映射到IPA音素得到IPA音素映射集合; 訓(xùn)練單元,用于基于采集的各個語種的音頻數(shù)據(jù)、該音頻數(shù)據(jù)的標注數(shù)據(jù)、以及所述IPA音素映射集合訓(xùn)練一個聲學(xué)模型。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述訓(xùn)練單元包括: 特征提取子單元,用于對采集的每一語種的每一條音頻數(shù)據(jù)進行特征提取得到對應(yīng)的音頻特征序列,從IPA音素映射集合中獲取每一音頻特征序列對應(yīng)的特征音素集合; 訓(xùn)練子單元,用于利用特征音素集合、采集的標注數(shù)據(jù)分別訓(xùn)練前景模型和背景模型,并利用所述前景模型和背景模型組合成所述聲音模型。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述訓(xùn)練子單元通過以下步驟訓(xùn)練前景模型: 為特征音素集合中每一音素的三個狀態(tài)訓(xùn)練最初始的隱馬爾可夫模型,并從采集的標注數(shù)據(jù)中獲取與該音素相關(guān)的數(shù)據(jù),利用該獲取的數(shù)據(jù)對最初始的隱馬爾可夫模型進行更新,得到單音素模型; 針對標注音素集合中的每一音素,獲取該音素的上下文音素,得到三音素,所述標注音素集合為標注數(shù)據(jù)對應(yīng)的音素集合; 對獲取的每一三音素的狀態(tài)進行決策樹聚類,對聚類后的三音素進行相應(yīng)參數(shù)的更新之后進行最小音素錯誤MPE鑒別性訓(xùn)練,得到三音素模型; 基于得到的三音素模型訓(xùn)練出所述前景模型。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述訓(xùn)練子單元進一步計算任意兩個單音素模型之間的混合高斯模型GMM距離;比較該計算的GMM距離與第二設(shè)定閾值,如果前者大于后者,則認為該兩個單音素模型對應(yīng)的單音素相似,將相似的單音素聚類在一起并記錄至用于描述相似音素的混淆矩陣; 所述訓(xùn)練子單元通過以下步驟訓(xùn)練所述背景模型: 利用所述混淆矩陣對所述前景模型中的音素進行處理,以實現(xiàn)同一類的音素用一個對應(yīng)的混淆音素替代,得到混淆音素集合; 通過所述混淆音素集合訓(xùn)練所述背景模型。
17.根據(jù)權(quán)利要求12至16任一所述的裝置,其特征在于,所述關(guān)鍵詞音頻樣本采集模塊包括: 樣本采集單元,用于采集關(guān)鍵詞音頻樣本; 確定單元,用于在所述樣本采集單元采集到的所述關(guān)鍵詞音頻樣本的數(shù)量僅為一個時,利用所述音素解碼器對采集的一個關(guān)鍵詞音頻樣本進行解碼,將解碼之后得到的唯一音素序列確定為所述關(guān)鍵詞音素序列;在所述樣本采集單元采集到的關(guān)鍵詞音頻樣本的數(shù)量大于I時,利用所述音素解碼器對采集的每一個關(guān)鍵詞音頻樣本進行解碼得到每一關(guān)鍵詞音頻樣本對應(yīng)的音素序列,從得到的音素序列中選擇一個作為所述關(guān)鍵詞音素序列。
18.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述確定單元從得到的音素序列中選擇一個作為關(guān)鍵詞音素序列包括: 將得到的每一音素序列作為一個音素序列候選; 采用PCN方式將所有音素序列候選組合成PCN線性結(jié)構(gòu),在所述PCN線性結(jié)構(gòu)中,所有音素序列候選中的音素對應(yīng)作為所述PCN線性結(jié)構(gòu)的一條邊,相似的各個音素對應(yīng)的邊歸并至同一個槽,各個槽之間形成了線性連接關(guān)系; 通過置信度算法從所述PCN線性結(jié)構(gòu)中選擇出一條路徑,將組成該路徑的各條邊上的音素作為所述關(guān)鍵詞音素序列。
【文檔編號】G10L15/18GK103971678SQ201310034769
【公開日】2014年8月6日 申請日期:2013年1月29日 優(yōu)先權(quán)日:2013年1月29日
【發(fā)明者】盧鯉, 張翔, 岳帥, 饒豐, 王爾玉, 李露 申請人:騰訊科技(深圳)有限公司