亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

進(jìn)行語音關(guān)鍵詞檢索的方法及裝置制造方法

文檔序號(hào):2826152閱讀:435來源:國知局
進(jìn)行語音關(guān)鍵詞檢索的方法及裝置制造方法
【專利摘要】本發(fā)明公開了進(jìn)行語音關(guān)鍵詞檢索的方法及裝置,其中,該方法在模型文件中配置至少兩類語種模型,每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼模型;該方法包括:接收待處理語音數(shù)據(jù),對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽??;逐個(gè)采用模型文件中的識(shí)別模型,對(duì)抽取的語音特征進(jìn)行語種匹配,確定出語種匹配率最高的識(shí)別模型;并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模型;采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼,得到解碼后的字詞識(shí)別結(jié)果;將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配,輸出匹配成功的關(guān)鍵詞。本發(fā)明方案能夠支持至少兩種語言的關(guān)鍵詞檢索,節(jié)省成本。
【專利說明】進(jìn)行語音關(guān)鍵詞檢索的方法及裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理技術(shù),尤其涉及進(jìn)行語音關(guān)鍵詞檢索的方法及裝置。

【背景技術(shù)】
[0002] 語音識(shí)別技術(shù)中,常需要對(duì)一段語音進(jìn)行檢索,以確定其是否包含關(guān)注的關(guān)鍵詞。 例如,對(duì)會(huì)議錄音,需要確定其是否為關(guān)于計(jì)算機(jī)的會(huì)議,通過檢索錄音中是否包含"顯示 器"、"鍵盤"等關(guān)鍵詞進(jìn)行確定。
[0003] 語音關(guān)鍵詞檢測的應(yīng)用現(xiàn)在越來越廣泛,但大部分都是針對(duì)普通話或者其他特定 的某一方言進(jìn)行,局限性較大?,F(xiàn)有語音關(guān)鍵詞檢索方案中,只針對(duì)某一類語種進(jìn)行關(guān)鍵詞 檢索,將針對(duì)該語種的檢索算法與語種模型融合在一起,檢測算法負(fù)責(zé)整個(gè)檢索過程,其中 會(huì)調(diào)用語種模型進(jìn)行語種識(shí)別和解碼,解碼后,將判別解碼結(jié)果中是否有關(guān)注的關(guān)鍵詞,如 果有,則輸出相應(yīng)的關(guān)鍵詞;如果語音數(shù)據(jù)不屬于該語種,則無法進(jìn)行識(shí)別,需要采用能識(shí) 別相應(yīng)語種的另一檢測算法對(duì)其重新進(jìn)行關(guān)鍵詞檢索。
[0004] 綜上,現(xiàn)有技術(shù)中,語音關(guān)鍵詞檢索方案只支持某一特定語種的處理,每類語種分 別有各自完整的語音關(guān)鍵詞檢索方案,其局限性很大,且成本較高。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明提供了一種進(jìn)行語音關(guān)鍵詞檢索的方法及裝置,該方法能夠支持至少兩種 語言的關(guān)鍵詞檢索,節(jié)省成本。
[0006] 本發(fā)明提供了一種進(jìn)行語音關(guān)鍵詞檢索的方法及裝置,該裝置能夠支持至少兩種 語言的關(guān)鍵詞檢索,節(jié)省成本。
[0007] -種進(jìn)行語音關(guān)鍵詞檢索的方法,該方法在模型文件中配置至少兩類語種模型, 每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼模型;該方法包括:
[0008] 接收待處理語音數(shù)據(jù),對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽??;
[0009] 逐個(gè)采用模型文件中的識(shí)別模型,對(duì)抽取的語音特征進(jìn)行語種匹配,確定出語種 匹配率最高的識(shí)別模型;并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模型; [0010] 采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼,得到解碼后的字詞識(shí)別結(jié)果; [0011] 將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配,輸出匹配成功的關(guān)鍵詞。 [0012] 較佳地,當(dāng)需要進(jìn)行語種擴(kuò)展時(shí),該方法還包括:
[0013] 訓(xùn)練創(chuàng)建新的識(shí)別模型和解碼模型;
[0014] 在模型文件中增加語種模型,包含創(chuàng)建的識(shí)別模型及對(duì)應(yīng)的解碼模型。
[0015] 較佳地,所述對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取包括:
[0016] 對(duì)待處理語音數(shù)據(jù)進(jìn)行語音波形處理,從語音波形中提取隨時(shí)間變化的語音特征 序列,提取的語音特征具有區(qū)分性。
[0017] 較佳地,所述采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼,包括:
[0018] 采用確定的解碼模型對(duì)抽取的每一幀語音特征在搜索網(wǎng)絡(luò)中搜索最佳匹配路徑, 得到詞網(wǎng),作為解碼后的字詞識(shí)別結(jié)果;所述詞網(wǎng)包含開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn),以及開始節(jié)點(diǎn) 和結(jié)束節(jié)點(diǎn)之間的中間節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表一個(gè)時(shí)間段對(duì)應(yīng)的詞。
[0019] 較佳地,所述將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配,包括:
[0020] 將最佳匹配路徑的詞網(wǎng)進(jìn)行最小錯(cuò)誤的對(duì)齊操作,生成混淆網(wǎng)絡(luò),所述混淆網(wǎng)絡(luò) 按照時(shí)間進(jìn)行排序,給出每個(gè)時(shí)間段的字詞識(shí)別結(jié)果及字詞識(shí)別結(jié)果的概率;
[0021] 將關(guān)鍵詞詞典中的關(guān)鍵詞對(duì)混淆網(wǎng)絡(luò)中的各字詞識(shí)別結(jié)果進(jìn)行匹配,確定出匹配 成功的字詞識(shí)別結(jié)果,作為匹配成功的關(guān)鍵詞。一種進(jìn)行語音關(guān)鍵詞檢索的裝置,該裝置包 括模型文件配置單元、特征抽取單元、語種識(shí)別單元、解碼單元和關(guān)鍵詞搜索單元;
[0022] 所述模型文件配置單元,在模型文件中配置至少兩類語種模型,每類語種模型包 含識(shí)別模型及對(duì)應(yīng)的解碼模型;
[0023] 所述特征抽取單元,接收待處理語音數(shù)據(jù),對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取, 將抽取的語音特征發(fā)送給所述語種識(shí)別單元;
[0024] 所述語種識(shí)別單元,逐個(gè)采用模型文件中的識(shí)別模型,對(duì)抽取的語音特征進(jìn)行語 種匹配,確定出語種匹配率最高的識(shí)別模型;并從語種模型中確定與匹配率最高的識(shí)別模 型對(duì)應(yīng)的解碼模型,將抽取的語音特征發(fā)送給解碼單元;
[0025] 所述解碼單元,采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼,得到解碼后的 字詞識(shí)別結(jié)果,發(fā)送給所述關(guān)鍵詞搜索單元;
[0026] 所述關(guān)鍵詞搜索單元,將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配,輸出 匹配成功的關(guān)鍵詞。
[0027] 較佳地,該裝置還包括語種擴(kuò)展單元,訓(xùn)練創(chuàng)建新的識(shí)別模型和解碼模型,在模型 文件中增加語種模型,包含創(chuàng)建的識(shí)別模型及對(duì)應(yīng)的解碼模型。
[0028] 較佳地,所述特征抽取單元包括特征抽取模塊,對(duì)待處理語音數(shù)據(jù)進(jìn)行語音波形 處理,從語音波形中提取隨時(shí)間變化的語音特征序列,提取的語音特征具有區(qū)分性。
[0029] 較佳地,所述解碼單元包括路徑搜索模塊,對(duì)每一幀語音特征在搜索網(wǎng)絡(luò)中搜索 最佳匹配路徑,得到詞網(wǎng),作為解碼后的字詞識(shí)別結(jié)果;所述詞網(wǎng)包含開始節(jié)點(diǎn)和結(jié)束節(jié) 點(diǎn),以及開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)之間的中間節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表一個(gè)時(shí)間段對(duì)應(yīng)的詞。
[0030] 較佳地,所述關(guān)鍵詞搜索單元包括混淆網(wǎng)絡(luò)生成模塊和關(guān)鍵詞匹配模塊;
[0031] 所述混淆網(wǎng)絡(luò)生成模塊,將最佳匹配路徑的詞網(wǎng)進(jìn)行最小錯(cuò)誤的對(duì)齊操作,生成 混淆網(wǎng)絡(luò),所述混淆網(wǎng)絡(luò)按照時(shí)間進(jìn)行排序,給出每個(gè)時(shí)間段的字詞識(shí)別結(jié)果及字詞識(shí)別 結(jié)果的概率;
[0032] 所述關(guān)鍵詞匹配模塊,將關(guān)鍵詞詞典中的關(guān)鍵詞對(duì)混淆網(wǎng)絡(luò)中的各字詞識(shí)別結(jié)果 進(jìn)行匹配,確定出匹配成功的字詞識(shí)別結(jié)果,作為匹配成功的關(guān)鍵詞。
[0033] 從上述方案可以看出,本發(fā)明中,在模型文件中配置至少兩類語種模型,每類語種 模型包含識(shí)別模型及對(duì)應(yīng)的解碼模型;當(dāng)需要進(jìn)行關(guān)鍵詞檢索時(shí),對(duì)待處理語音數(shù)據(jù)進(jìn)行 語音特征抽取;逐個(gè)采用模型文件中的識(shí)別模型,對(duì)抽取的語音特征進(jìn)行語種匹配,確定出 語種匹配率最高的識(shí)別模型;并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模 型,進(jìn)行解碼后得到解碼后的字詞識(shí)別結(jié)果;將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn) 行匹配,輸出匹配成功的關(guān)鍵詞。采用本發(fā)明方案,根據(jù)實(shí)際需要,可以在模型文件中配置 至少兩類語種模型,實(shí)現(xiàn)在一個(gè)檢索方案中對(duì)兩類以上的語種進(jìn)行關(guān)鍵詞檢索,從而,解決 了現(xiàn)有技術(shù)只支持針對(duì)某一特定語種進(jìn)行處理的缺陷,并且,節(jié)省了成本。

【專利附圖】

【附圖說明】
[0034] 圖1為本發(fā)明進(jìn)行語音關(guān)鍵詞檢索的方法示意性流程圖;
[0035] 圖2為本發(fā)明進(jìn)行語音關(guān)鍵詞檢索的方法流程圖實(shí)例;
[0036] 圖3為本發(fā)明進(jìn)行語音關(guān)鍵詞檢索的裝置結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0037] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面結(jié)合實(shí)施例和附圖,對(duì)本 發(fā)明進(jìn)一步詳細(xì)說明。
[0038] 本發(fā)明設(shè)置模型文件,在模型文件中配置至少兩類語種模型,并基于模型文件進(jìn) 行語音關(guān)鍵詞檢索,以實(shí)現(xiàn)在一個(gè)檢索方案中對(duì)兩類以上語種進(jìn)行處理。
[0039] 參見圖1,為本發(fā)明進(jìn)行語音關(guān)鍵詞檢索的方法示意性流程圖,該方法預(yù)先設(shè)置模 型文件,在模型文件中配置至少兩類語種模型,每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼 模型;每個(gè)識(shí)別模型對(duì)某一特征語種的語音進(jìn)行識(shí)別,確定為本識(shí)別模型支持的語種后,發(fā) 送給與本識(shí)別模型對(duì)應(yīng)的解碼模型進(jìn)行解碼。
[0040] 圖1的流程包括以下步驟:
[0041] 步驟101,接收待處理語音數(shù)據(jù),對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取。
[0042] 實(shí)現(xiàn)時(shí),本步驟具體包括:對(duì)待處理語音數(shù)據(jù)進(jìn)行語音波形處理,從語音波形中提 取隨時(shí)間變化的語音特征序列,提取的語音特征具有區(qū)分性。
[0043] 步驟102,逐個(gè)采用模型文件中的識(shí)別模型,對(duì)抽取的語音特征進(jìn)行語種匹配,確 定出語種匹配率最高的識(shí)別模型;并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解 碼模型。
[0044] 識(shí)別模型用于對(duì)語音進(jìn)行語種識(shí)別,以確定是否為本識(shí)別模型能夠識(shí)別的語種。
[0045] 步驟103,采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼,得到解碼后的字詞識(shí) 別結(jié)果。
[0046] 實(shí)現(xiàn)時(shí),本步驟可具體包括:采用確定的解碼模型對(duì)抽取的每一幀語音特征在搜 索網(wǎng)絡(luò)中搜索最佳匹配路徑,得到最可能的識(shí)別結(jié)果,作為解碼后的識(shí)別結(jié)果,識(shí)別結(jié)果為 至少一個(gè)。
[0047] 所述搜索網(wǎng)絡(luò)具體如加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)(WFST,Weighted Finite State Transducers)搜索網(wǎng)絡(luò),WFST搜索網(wǎng)絡(luò)是一張合成了聲學(xué)模型、語言模型以及詞表的搜索 網(wǎng)絡(luò),解碼模型將依據(jù)該WFST搜索網(wǎng)絡(luò)進(jìn)行解碼計(jì)算,最終輸出經(jīng)過一定裁剪后的詞網(wǎng), 該詞網(wǎng)擁有一個(gè)開始節(jié)點(diǎn)和一個(gè)結(jié)束節(jié)點(diǎn),以及開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)之間的中間節(jié)點(diǎn),每 個(gè)節(jié)點(diǎn)代表某一時(shí)間段可能的詞,從開始節(jié)點(diǎn)到結(jié)束節(jié)點(diǎn)之間有至少一條路徑,每條路徑 代表一個(gè)識(shí)別結(jié)果。
[0048] 例如,某實(shí)例中,從開始節(jié)點(diǎn)到結(jié)束節(jié)點(diǎn)之間有兩條路徑,其中一條路徑有5個(gè)節(jié) 點(diǎn),從開始節(jié)點(diǎn)到結(jié)束節(jié)點(diǎn)的節(jié)點(diǎn)序列對(duì)應(yīng)的詞為'我','們','吃','飯','吧',也就是識(shí)別 結(jié)果為"我們吃飯吧";另一條路徑也有5個(gè)節(jié)點(diǎn),從開始節(jié)點(diǎn)到結(jié)束節(jié)點(diǎn)的節(jié)點(diǎn)序列對(duì)應(yīng) 的詞為'我','們','遲','飯','吧',也就是,另一種識(shí)別結(jié)果為"我們遲飯吧"。
[0049] 步驟104,將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配,輸出匹配成功的關(guān) 鍵詞。
[0050] 如果步驟103得到的字詞識(shí)別結(jié)果,是在搜索網(wǎng)絡(luò)中搜索出的最佳匹配路徑;相 應(yīng)地,本步驟體包括:
[0051] 將最佳匹配路徑的詞網(wǎng)進(jìn)行最小錯(cuò)誤的對(duì)齊操作,生成混淆網(wǎng)絡(luò),所述混淆網(wǎng)絡(luò) 按照時(shí)間進(jìn)行排序,給出每個(gè)時(shí)間段的字詞識(shí)別結(jié)果及字詞識(shí)別結(jié)果的概率;將關(guān)鍵詞詞 典中的關(guān)鍵詞對(duì)混淆網(wǎng)絡(luò)中的各字詞識(shí)別結(jié)果進(jìn)行匹配,確定出匹配成功的字詞識(shí)別結(jié) 果,作為匹配成功的關(guān)鍵詞。
[0052] 最小錯(cuò)誤的對(duì)齊操作為現(xiàn)有技術(shù),該技術(shù)能夠?qū)ψ罴哑ヅ渎窂降脑~網(wǎng)進(jìn)行分析, 確定出某一時(shí)間段可能對(duì)應(yīng)的多種識(shí)別結(jié)果,并能給出各字詞識(shí)別結(jié)果的概率。仍然以前 述"我們吃飯吧"及"我們遲飯吧"的實(shí)例進(jìn)行說明,采用最小錯(cuò)誤的對(duì)其操作之后,確定出 第1、2節(jié)點(diǎn)對(duì)應(yīng)的識(shí)別結(jié)果為'我'、'們';第3節(jié)點(diǎn)對(duì)應(yīng)的識(shí)別結(jié)果為'吃'和'遲',并給 出為'吃'、'遲'的概率;第4、5節(jié)點(diǎn)對(duì)應(yīng)的識(shí)別結(jié)果為'飯'、'吧'。如果開始節(jié)點(diǎn)與結(jié)束節(jié) 點(diǎn)之間只有一條路徑,則無需采用最小錯(cuò)誤對(duì)齊操作進(jìn)行分析處理。
[0053] 關(guān)鍵詞詞典中包含了關(guān)注的關(guān)鍵詞,將關(guān)鍵詞詞典中的所有關(guān)鍵詞分別與各字詞 識(shí)別結(jié)果進(jìn)行匹配,如果相同,則確定為匹配成功的字詞識(shí)別結(jié)果。如果關(guān)鍵詞詞典中包含 "吃飯"、"蔬菜"、"素食",則針對(duì)上述的實(shí)例,匹配后輸出的關(guān)鍵詞為"吃飯"。
[0054] 本發(fā)明中,在模型文件中配置至少兩類語種模型,每類語種模型包含識(shí)別模型及 對(duì)應(yīng)的解碼模型;當(dāng)需要進(jìn)行關(guān)鍵詞檢索時(shí),對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽??;逐個(gè) 采用模型文件中的識(shí)別模型,對(duì)抽取的語音特征進(jìn)行語種匹配,確定出語種匹配率最高的 識(shí)別模型;并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模型,進(jìn)行解碼后得 到解碼后的字詞識(shí)別結(jié)果;將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配,輸出匹配 成功的關(guān)鍵詞。采用本發(fā)明方案,根據(jù)實(shí)際需要,可以在模型文件中配置至少兩類語種模 型,實(shí)現(xiàn)對(duì)兩類以上的語種進(jìn)行關(guān)鍵詞檢索,從而,解決了現(xiàn)有技術(shù)只支持針對(duì)某一特定語 種進(jìn)行處理的缺陷,并且,節(jié)省了成本。
[0055] 現(xiàn)有語音關(guān)鍵詞檢索方案中,只針對(duì)某一類語種進(jìn)行關(guān)鍵詞檢索,具體實(shí)現(xiàn)時(shí),將 針對(duì)該語種的檢測算法和語種模型融合在一起,這樣處理缺乏可擴(kuò)展性,即當(dāng)有其他方言 的需求時(shí)無法動(dòng)態(tài)支持。采用本發(fā)明方案后,當(dāng)需要進(jìn)行語種擴(kuò)展時(shí),訓(xùn)練創(chuàng)建針對(duì)該語種 的識(shí)別模型和解碼模型;在模型文件中增加語種模型,增加的語種模型包含創(chuàng)建的識(shí)別模 型及對(duì)應(yīng)的解碼模型。這樣,后續(xù)便可結(jié)合新增的語種模型進(jìn)行關(guān)鍵詞檢索。
[0056] 下面通過圖2的流程對(duì)本發(fā)明進(jìn)行語音關(guān)鍵詞檢索的方法進(jìn)行實(shí)例說明,模型文 件中已配置了關(guān)于語種A和B的兩類語種模型,每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼 模型,該方法包括以下步驟:
[0057] 步驟201,接收關(guān)于語種C的擴(kuò)展指令。
[0058] 步驟202,訓(xùn)練創(chuàng)建關(guān)于語種C的識(shí)別模型C和解碼模型C,在模型文件中增加語 種模型C,其中包含創(chuàng)建的識(shí)別模型C及解碼模型C。
[0059] 訓(xùn)練關(guān)于某語種的識(shí)別模型和解碼模型,可采用現(xiàn)有方案實(shí)現(xiàn),這里不贅述。
[0060] 步驟203,接收待處理語音數(shù)據(jù),對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取。
[0061] 該過程目的是從語音波形中提取隨時(shí)間變化的語音特征序列,提取的特征參數(shù)能 有效地代表語音特征,具有很好的區(qū)分性,作為后續(xù)處理的基礎(chǔ)數(shù)據(jù)。
[0062] 步驟204,分別采用模型文件中的識(shí)別模型A、識(shí)別模型B和識(shí)別模型C,對(duì)抽取的 語音特征進(jìn)行語種匹配,確定出語種匹配率最高的識(shí)別模型;并從語種模型中確定與匹配 率最高的識(shí)別模型對(duì)應(yīng)的解碼模型。
[0063] 本實(shí)例中,假設(shè)匹配率最高的為識(shí)別模型C,對(duì)應(yīng)著解碼模型C。識(shí)別模型對(duì)語音 特征的識(shí)別,可采用現(xiàn)有方案實(shí)現(xiàn)。
[0064] 步驟205,采用解碼模型C對(duì)抽取的語音特征進(jìn)行解碼,得到解碼后的字詞識(shí)別結(jié) 果。
[0065] 解碼模型,是針對(duì)相應(yīng)語種的語音進(jìn)行解碼過程中使用的模型;解碼模型采用聲 學(xué)模型、語言模型以及詞表組合而成,可對(duì)抽取的語音特征進(jìn)行解析,生成經(jīng)過一定裁剪后 的詞網(wǎng),后續(xù)算法在此搜索網(wǎng)絡(luò)中進(jìn)行計(jì)算以得到最后的關(guān)鍵詞結(jié)果。解碼模型對(duì)語音特 征的解碼,可采用現(xiàn)有方案實(shí)現(xiàn)。
[0066] 步驟206,將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配,輸出匹配成功的關(guān) 鍵詞。
[0067] 本實(shí)例將關(guān)鍵詞檢索的算法與模型分離,從而使動(dòng)態(tài)擴(kuò)展方言支持成為可能。在 需要支持新的方言時(shí),只需要針對(duì)新的方言訓(xùn)練新的模型,并進(jìn)行配置即可支持新的方言 關(guān)鍵詞檢測。相比現(xiàn)有將檢索算法與語種模型高度融合的方案,其擴(kuò)展性是其最大的特點(diǎn), 可以根據(jù)實(shí)際需求靈活增加或者取消對(duì)特定語種的支持,也降低了因需求而不斷升級(jí)的成 本。另外可維護(hù)性也具有一定的優(yōu)勢,將檢測算法與語種模型分離是兩個(gè)部分功能明確,結(jié) 構(gòu)更加清晰,部署相對(duì)也簡單。
[0068] 參見圖3,為本發(fā)明進(jìn)行語音關(guān)鍵詞檢索的裝置結(jié)構(gòu)示意圖,該裝置包括模型文件 配置單元、特征抽取單元、語種識(shí)別單元、解碼單元和關(guān)鍵詞搜索單元;
[0069] 所述模型文件配置單元,在模型文件中配置至少兩類語種模型,每類語種模型包 含識(shí)別模型及對(duì)應(yīng)的解碼模型;
[0070] 所述特征抽取單元,接收待處理語音數(shù)據(jù),對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取, 將抽取的語音特征發(fā)送給所述語種識(shí)別單元;
[0071] 所述語種識(shí)別單元,逐個(gè)采用模型文件中的識(shí)別模型,對(duì)抽取的語音特征進(jìn)行語 種匹配,確定出語種匹配率最高的識(shí)別模型;并從語種模型中確定與匹配率最高的識(shí)別模 型對(duì)應(yīng)的解碼模型,將抽取的語音特征發(fā)送給解碼單元;
[0072] 所述解碼單元,采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼,得到解碼后的 字詞識(shí)別結(jié)果,發(fā)送給所述關(guān)鍵詞搜索單元;
[0073] 所述關(guān)鍵詞搜索單元,將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配,輸出 匹配成功的關(guān)鍵詞。
[0074] 較佳地,該裝置還包括語種擴(kuò)展單元,訓(xùn)練創(chuàng)建新的識(shí)別模型和解碼模型,在模型 文件中增加語種模型,包含創(chuàng)建的識(shí)別模型及對(duì)應(yīng)的解碼模型。
[0075] 較佳地,所述特征抽取單元包括特征抽取模塊,對(duì)待處理語音數(shù)據(jù)進(jìn)行語音波形 處理,從語音波形中提取隨時(shí)間變化的語音特征序列,提取的語音特征具有區(qū)分性。
[0076] 較佳地,所述解碼單元包括路徑搜索模塊,采用確定的解碼模型對(duì)抽取的每一幀 語音特征在搜索網(wǎng)絡(luò)中搜索最佳匹配路徑,得到詞網(wǎng),作為解碼后的字詞識(shí)別結(jié)果;所述詞 網(wǎng)包含開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn),以及開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)之間的中間節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表一 個(gè)時(shí)間段對(duì)應(yīng)的詞。
[0077] 較佳地,所述關(guān)鍵詞搜索單元包括混淆網(wǎng)絡(luò)生成模塊和關(guān)鍵詞匹配模塊;
[0078] 所述混淆網(wǎng)絡(luò)生成模塊,將最佳匹配路徑的詞網(wǎng)進(jìn)行最小錯(cuò)誤的對(duì)齊操作,生成 混淆網(wǎng)絡(luò),所述混淆網(wǎng)絡(luò)按照時(shí)間進(jìn)行排序,給出每個(gè)時(shí)間段的字詞識(shí)別結(jié)果及字詞識(shí)別 結(jié)果的概率;
[0079] 所述關(guān)鍵詞匹配模塊,將關(guān)鍵詞詞典中的關(guān)鍵詞對(duì)混淆網(wǎng)絡(luò)中的各字詞識(shí)別結(jié)果 進(jìn)行匹配,確定出匹配成功的字詞識(shí)別結(jié)果,作為匹配成功的關(guān)鍵詞。
[0080] 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1. 一種進(jìn)行語音關(guān)鍵詞檢索的方法,其特征在于,在模型文件中配置至少兩類語種模 型,每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼模型;該方法包括: 接收待處理語音數(shù)據(jù),對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽?。? 逐個(gè)采用模型文件中的識(shí)別模型,對(duì)抽取的語音特征進(jìn)行語種匹配,確定出語種匹配 率最高的識(shí)別模型;并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模型; 采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼,得到解碼后的字詞識(shí)別結(jié)果; 將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配,輸出匹配成功的關(guān)鍵詞。
2. 如權(quán)利要求1所述的方法,其特征在于,當(dāng)需要進(jìn)行語種擴(kuò)展時(shí),該方法還包括: 訓(xùn)練創(chuàng)建新的識(shí)別模型和解碼模型; 在模型文件中增加語種模型,包含創(chuàng)建的識(shí)別模型及對(duì)應(yīng)的解碼模型。
3. 如權(quán)利要求1所述的方法,其特征在于,所述對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取 包括: 對(duì)待處理語音數(shù)據(jù)進(jìn)行語音波形處理,從語音波形中提取隨時(shí)間變化的語音特征序 列,提取的語音特征具有區(qū)分性。
4. 如權(quán)利要求1、2或3所述的方法,其特征在于,所述采用確定的解碼模型對(duì)抽取的語 音特征進(jìn)行解碼,包括: 采用確定的解碼模型對(duì)抽取的每一幀語音特征在搜索網(wǎng)絡(luò)中搜索最佳匹配路徑,得到 詞網(wǎng),作為解碼后的字詞識(shí)別結(jié)果;所述詞網(wǎng)包含開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn),以及開始節(jié)點(diǎn)和結(jié) 束節(jié)點(diǎn)之間的中間節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表一個(gè)時(shí)間段對(duì)應(yīng)的詞。
5. 如權(quán)利要求4所述的方法,其特征在于,所述將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別 結(jié)果進(jìn)行匹配,包括: 將最佳匹配路徑的詞網(wǎng)進(jìn)行最小錯(cuò)誤的對(duì)齊操作,生成混淆網(wǎng)絡(luò),所述混淆網(wǎng)絡(luò)按照 時(shí)間進(jìn)行排序,給出每個(gè)時(shí)間段的字詞識(shí)別結(jié)果及字詞識(shí)別結(jié)果的概率; 將關(guān)鍵詞詞典中的關(guān)鍵詞對(duì)混淆網(wǎng)絡(luò)中的各字詞識(shí)別結(jié)果進(jìn)行匹配,確定出匹配成功 的字詞識(shí)別結(jié)果,作為匹配成功的關(guān)鍵詞。
6. -種進(jìn)行語音關(guān)鍵詞檢索的裝置,其特征在于,該裝置包括模型文件配置單元、特征 抽取單元、語種識(shí)別單元、解碼單元和關(guān)鍵詞搜索單元; 所述模型文件配置單元,在模型文件中配置至少兩類語種模型,每類語種模型包含識(shí) 別模型及對(duì)應(yīng)的解碼模型; 所述特征抽取單元,接收待處理語音數(shù)據(jù),對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取,將抽 取的語音特征發(fā)送給所述語種識(shí)別單元; 所述語種識(shí)別單元,逐個(gè)采用模型文件中的識(shí)別模型,對(duì)抽取的語音特征進(jìn)行語種匹 配,確定出語種匹配率最高的識(shí)別模型;并從語種模型中確定與匹配率最高的識(shí)別模型對(duì) 應(yīng)的解碼模型,將抽取的語音特征發(fā)送給解碼單元; 所述解碼單元,采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼,得到解碼后的字詞 識(shí)別結(jié)果,發(fā)送給所述關(guān)鍵詞搜索單元; 所述關(guān)鍵詞搜索單元,將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配,輸出匹配 成功的關(guān)鍵詞。
7. 如權(quán)利要求6所述的裝置,其特征在于,該裝置還包括語種擴(kuò)展單元,訓(xùn)練創(chuàng)建新的 識(shí)別模型和解碼模型,在模型文件中增加語種模型,包含創(chuàng)建的識(shí)別模型及對(duì)應(yīng)的解碼模 型。
8. 如權(quán)利要求6所述的裝置,其特征在于,所述特征抽取單元包括特征抽取模塊,對(duì)待 處理語音數(shù)據(jù)進(jìn)行語音波形處理,從語音波形中提取隨時(shí)間變化的語音特征序列,提取的 語音特征具有區(qū)分性。
9. 如權(quán)利要求6、7或8所述的裝置,其特征在于,所述解碼單元包括路徑搜索模塊,對(duì) 每一幀語音特征在搜索網(wǎng)絡(luò)中搜索最佳匹配路徑,得到詞網(wǎng),作為解碼后的字詞識(shí)別結(jié)果; 所述詞網(wǎng)包含開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn),以及開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)之間的中間節(jié)點(diǎn),每個(gè)節(jié)點(diǎn) 代表一個(gè)時(shí)間段對(duì)應(yīng)的詞。
10. 如權(quán)利要求9所述的裝置,其特征在于,所述關(guān)鍵詞搜索單元包括混淆網(wǎng)絡(luò)生成模 塊和關(guān)鍵詞匹配模塊; 所述混淆網(wǎng)絡(luò)生成模塊,將最佳匹配路徑的詞網(wǎng)進(jìn)行最小錯(cuò)誤的對(duì)齊操作,生成混淆 網(wǎng)絡(luò),所述混淆網(wǎng)絡(luò)按照時(shí)間進(jìn)行排序,給出每個(gè)時(shí)間段的字詞識(shí)別結(jié)果及字詞識(shí)別結(jié)果 的概率; 所述關(guān)鍵詞匹配模塊,將關(guān)鍵詞詞典中的關(guān)鍵詞對(duì)混淆網(wǎng)絡(luò)中的各字詞識(shí)別結(jié)果進(jìn)行 匹配,確定出匹配成功的字詞識(shí)別結(jié)果,作為匹配成功的關(guān)鍵詞。
【文檔編號(hào)】G10L15/08GK104143329SQ201310361835
【公開日】2014年11月12日 申請(qǐng)日期:2013年8月19日 優(yōu)先權(quán)日:2013年8月19日
【發(fā)明者】馬建雄, 李露, 盧鯉, 張翔, 岳帥, 饒豐, 王爾玉, 孔令揮 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1