進(jìn)行語音關(guān)鍵詞檢索的方法及裝置制造方法

文檔序號(hào)：2826152閱讀：435來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

進(jìn)行語音關(guān)鍵詞檢索的方法及裝置制造方法
【專利摘要】本發(fā)明公開了進(jìn)行語音關(guān)鍵詞檢索的方法及裝置，其中，該方法在模型文件中配置至少兩類語種模型，每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼模型；該方法包括：接收待處理語音數(shù)據(jù)，對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽??；逐個(gè)采用模型文件中的識(shí)別模型，對(duì)抽取的語音特征進(jìn)行語種匹配，確定出語種匹配率最高的識(shí)別模型；并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模型；采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼，得到解碼后的字詞識(shí)別結(jié)果；將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配，輸出匹配成功的關(guān)鍵詞。本發(fā)明方案能夠支持至少兩種語言的關(guān)鍵詞檢索，節(jié)省成本。
【專利說明】進(jìn)行語音關(guān)鍵詞檢索的方法及裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理技術(shù)，尤其涉及進(jìn)行語音關(guān)鍵詞檢索的方法及裝置。

【背景技術(shù)】
[0002] 語音識(shí)別技術(shù)中，常需要對(duì)一段語音進(jìn)行檢索，以確定其是否包含關(guān)注的關(guān)鍵詞。例如，對(duì)會(huì)議錄音，需要確定其是否為關(guān)于計(jì)算機(jī)的會(huì)議，通過檢索錄音中是否包含"顯示器"、"鍵盤"等關(guān)鍵詞進(jìn)行確定。
[0003] 語音關(guān)鍵詞檢測的應(yīng)用現(xiàn)在越來越廣泛，但大部分都是針對(duì)普通話或者其他特定的某一方言進(jìn)行，局限性較大?，F(xiàn)有語音關(guān)鍵詞檢索方案中，只針對(duì)某一類語種進(jìn)行關(guān)鍵詞檢索，將針對(duì)該語種的檢索算法與語種模型融合在一起，檢測算法負(fù)責(zé)整個(gè)檢索過程，其中會(huì)調(diào)用語種模型進(jìn)行語種識(shí)別和解碼，解碼后，將判別解碼結(jié)果中是否有關(guān)注的關(guān)鍵詞，如果有，則輸出相應(yīng)的關(guān)鍵詞；如果語音數(shù)據(jù)不屬于該語種，則無法進(jìn)行識(shí)別，需要采用能識(shí) 別相應(yīng)語種的另一檢測算法對(duì)其重新進(jìn)行關(guān)鍵詞檢索。
[0004] 綜上，現(xiàn)有技術(shù)中，語音關(guān)鍵詞檢索方案只支持某一特定語種的處理，每類語種分別有各自完整的語音關(guān)鍵詞檢索方案，其局限性很大，且成本較高。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明提供了一種進(jìn)行語音關(guān)鍵詞檢索的方法及裝置，該方法能夠支持至少兩種語言的關(guān)鍵詞檢索，節(jié)省成本。
[0006] 本發(fā)明提供了一種進(jìn)行語音關(guān)鍵詞檢索的方法及裝置，該裝置能夠支持至少兩種語言的關(guān)鍵詞檢索，節(jié)省成本。
[0007] -種進(jìn)行語音關(guān)鍵詞檢索的方法，該方法在模型文件中配置至少兩類語種模型，每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼模型；該方法包括：
[0008] 接收待處理語音數(shù)據(jù)，對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽??；
[0009] 逐個(gè)采用模型文件中的識(shí)別模型，對(duì)抽取的語音特征進(jìn)行語種匹配，確定出語種匹配率最高的識(shí)別模型；并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模型； [0010] 采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼，得到解碼后的字詞識(shí)別結(jié)果； [0011] 將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配，輸出匹配成功的關(guān)鍵詞。 [0012] 較佳地，當(dāng)需要進(jìn)行語種擴(kuò)展時(shí)，該方法還包括：
[0013] 訓(xùn)練創(chuàng)建新的識(shí)別模型和解碼模型；
[0014] 在模型文件中增加語種模型，包含創(chuàng)建的識(shí)別模型及對(duì)應(yīng)的解碼模型。
[0015] 較佳地，所述對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取包括：
[0016] 對(duì)待處理語音數(shù)據(jù)進(jìn)行語音波形處理，從語音波形中提取隨時(shí)間變化的語音特征序列，提取的語音特征具有區(qū)分性。
[0017] 較佳地，所述采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼，包括：
[0018] 采用確定的解碼模型對(duì)抽取的每一幀語音特征在搜索網(wǎng)絡(luò)中搜索最佳匹配路徑，得到詞網(wǎng)，作為解碼后的字詞識(shí)別結(jié)果；所述詞網(wǎng)包含開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)，以及開始節(jié)點(diǎn) 和結(jié)束節(jié)點(diǎn)之間的中間節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)代表一個(gè)時(shí)間段對(duì)應(yīng)的詞。
[0019] 較佳地，所述將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配，包括：
[0020] 將最佳匹配路徑的詞網(wǎng)進(jìn)行最小錯(cuò)誤的對(duì)齊操作，生成混淆網(wǎng)絡(luò)，所述混淆網(wǎng)絡(luò) 按照時(shí)間進(jìn)行排序，給出每個(gè)時(shí)間段的字詞識(shí)別結(jié)果及字詞識(shí)別結(jié)果的概率；
[0021] 將關(guān)鍵詞詞典中的關(guān)鍵詞對(duì)混淆網(wǎng)絡(luò)中的各字詞識(shí)別結(jié)果進(jìn)行匹配，確定出匹配成功的字詞識(shí)別結(jié)果，作為匹配成功的關(guān)鍵詞。一種進(jìn)行語音關(guān)鍵詞檢索的裝置，該裝置包括模型文件配置單元、特征抽取單元、語種識(shí)別單元、解碼單元和關(guān)鍵詞搜索單元；
[0022] 所述模型文件配置單元，在模型文件中配置至少兩類語種模型，每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼模型；
[0023] 所述特征抽取單元，接收待處理語音數(shù)據(jù)，對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取，將抽取的語音特征發(fā)送給所述語種識(shí)別單元；
[0024] 所述語種識(shí)別單元，逐個(gè)采用模型文件中的識(shí)別模型，對(duì)抽取的語音特征進(jìn)行語種匹配，確定出語種匹配率最高的識(shí)別模型；并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模型，將抽取的語音特征發(fā)送給解碼單元；
[0025] 所述解碼單元，采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼，得到解碼后的字詞識(shí)別結(jié)果，發(fā)送給所述關(guān)鍵詞搜索單元；
[0026] 所述關(guān)鍵詞搜索單元，將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配，輸出匹配成功的關(guān)鍵詞。
[0027] 較佳地，該裝置還包括語種擴(kuò)展單元，訓(xùn)練創(chuàng)建新的識(shí)別模型和解碼模型，在模型文件中增加語種模型，包含創(chuàng)建的識(shí)別模型及對(duì)應(yīng)的解碼模型。
[0028] 較佳地，所述特征抽取單元包括特征抽取模塊，對(duì)待處理語音數(shù)據(jù)進(jìn)行語音波形處理，從語音波形中提取隨時(shí)間變化的語音特征序列，提取的語音特征具有區(qū)分性。
[0029] 較佳地，所述解碼單元包括路徑搜索模塊，對(duì)每一幀語音特征在搜索網(wǎng)絡(luò)中搜索最佳匹配路徑，得到詞網(wǎng)，作為解碼后的字詞識(shí)別結(jié)果；所述詞網(wǎng)包含開始節(jié)點(diǎn)和結(jié)束節(jié) 點(diǎn)，以及開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)之間的中間節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)代表一個(gè)時(shí)間段對(duì)應(yīng)的詞。
[0030] 較佳地，所述關(guān)鍵詞搜索單元包括混淆網(wǎng)絡(luò)生成模塊和關(guān)鍵詞匹配模塊；
[0031] 所述混淆網(wǎng)絡(luò)生成模塊，將最佳匹配路徑的詞網(wǎng)進(jìn)行最小錯(cuò)誤的對(duì)齊操作，生成混淆網(wǎng)絡(luò)，所述混淆網(wǎng)絡(luò)按照時(shí)間進(jìn)行排序，給出每個(gè)時(shí)間段的字詞識(shí)別結(jié)果及字詞識(shí)別結(jié)果的概率；
[0032] 所述關(guān)鍵詞匹配模塊，將關(guān)鍵詞詞典中的關(guān)鍵詞對(duì)混淆網(wǎng)絡(luò)中的各字詞識(shí)別結(jié)果進(jìn)行匹配，確定出匹配成功的字詞識(shí)別結(jié)果，作為匹配成功的關(guān)鍵詞。
[0033] 從上述方案可以看出，本發(fā)明中，在模型文件中配置至少兩類語種模型，每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼模型；當(dāng)需要進(jìn)行關(guān)鍵詞檢索時(shí)，對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取；逐個(gè)采用模型文件中的識(shí)別模型，對(duì)抽取的語音特征進(jìn)行語種匹配，確定出語種匹配率最高的識(shí)別模型；并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模型，進(jìn)行解碼后得到解碼后的字詞識(shí)別結(jié)果；將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn) 行匹配，輸出匹配成功的關(guān)鍵詞。采用本發(fā)明方案，根據(jù)實(shí)際需要，可以在模型文件中配置至少兩類語種模型，實(shí)現(xiàn)在一個(gè)檢索方案中對(duì)兩類以上的語種進(jìn)行關(guān)鍵詞檢索，從而，解決了現(xiàn)有技術(shù)只支持針對(duì)某一特定語種進(jìn)行處理的缺陷，并且，節(jié)省了成本。

【專利附圖】

【附圖說明】
[0034] 圖1為本發(fā)明進(jìn)行語音關(guān)鍵詞檢索的方法示意性流程圖；
[0035] 圖2為本發(fā)明進(jìn)行語音關(guān)鍵詞檢索的方法流程圖實(shí)例；
[0036] 圖3為本發(fā)明進(jìn)行語音關(guān)鍵詞檢索的裝置結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0037] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，下面結(jié)合實(shí)施例和附圖，對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。
[0038] 本發(fā)明設(shè)置模型文件，在模型文件中配置至少兩類語種模型，并基于模型文件進(jìn) 行語音關(guān)鍵詞檢索，以實(shí)現(xiàn)在一個(gè)檢索方案中對(duì)兩類以上語種進(jìn)行處理。
[0039] 參見圖1，為本發(fā)明進(jìn)行語音關(guān)鍵詞檢索的方法示意性流程圖，該方法預(yù)先設(shè)置模型文件，在模型文件中配置至少兩類語種模型，每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼模型；每個(gè)識(shí)別模型對(duì)某一特征語種的語音進(jìn)行識(shí)別，確定為本識(shí)別模型支持的語種后，發(fā) 送給與本識(shí)別模型對(duì)應(yīng)的解碼模型進(jìn)行解碼。
[0040] 圖1的流程包括以下步驟：
[0041] 步驟101，接收待處理語音數(shù)據(jù)，對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取。
[0042] 實(shí)現(xiàn)時(shí)，本步驟具體包括：對(duì)待處理語音數(shù)據(jù)進(jìn)行語音波形處理，從語音波形中提取隨時(shí)間變化的語音特征序列，提取的語音特征具有區(qū)分性。
[0043] 步驟102,逐個(gè)采用模型文件中的識(shí)別模型，對(duì)抽取的語音特征進(jìn)行語種匹配，確定出語種匹配率最高的識(shí)別模型；并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模型。
[0044] 識(shí)別模型用于對(duì)語音進(jìn)行語種識(shí)別，以確定是否為本識(shí)別模型能夠識(shí)別的語種。
[0045] 步驟103,采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼，得到解碼后的字詞識(shí) 別結(jié)果。
[0046] 實(shí)現(xiàn)時(shí)，本步驟可具體包括：采用確定的解碼模型對(duì)抽取的每一幀語音特征在搜索網(wǎng)絡(luò)中搜索最佳匹配路徑，得到最可能的識(shí)別結(jié)果，作為解碼后的識(shí)別結(jié)果，識(shí)別結(jié)果為至少一個(gè)。
[0047] 所述搜索網(wǎng)絡(luò)具體如加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)（WFST，Weighted Finite State Transducers)搜索網(wǎng)絡(luò)，WFST搜索網(wǎng)絡(luò)是一張合成了聲學(xué)模型、語言模型以及詞表的搜索網(wǎng)絡(luò)，解碼模型將依據(jù)該WFST搜索網(wǎng)絡(luò)進(jìn)行解碼計(jì)算，最終輸出經(jīng)過一定裁剪后的詞網(wǎng)，該詞網(wǎng)擁有一個(gè)開始節(jié)點(diǎn)和一個(gè)結(jié)束節(jié)點(diǎn)，以及開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)之間的中間節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)代表某一時(shí)間段可能的詞，從開始節(jié)點(diǎn)到結(jié)束節(jié)點(diǎn)之間有至少一條路徑，每條路徑代表一個(gè)識(shí)別結(jié)果。
[0048] 例如，某實(shí)例中，從開始節(jié)點(diǎn)到結(jié)束節(jié)點(diǎn)之間有兩條路徑，其中一條路徑有5個(gè)節(jié) 點(diǎn)，從開始節(jié)點(diǎn)到結(jié)束節(jié)點(diǎn)的節(jié)點(diǎn)序列對(duì)應(yīng)的詞為'我'，'們'，'吃'，'飯'，'吧'，也就是識(shí)別結(jié)果為"我們吃飯吧"；另一條路徑也有5個(gè)節(jié)點(diǎn)，從開始節(jié)點(diǎn)到結(jié)束節(jié)點(diǎn)的節(jié)點(diǎn)序列對(duì)應(yīng) 的詞為'我'，'們'，'遲'，'飯'，'吧'，也就是，另一種識(shí)別結(jié)果為"我們遲飯吧"。
[0049] 步驟104,將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配，輸出匹配成功的關(guān) 鍵詞。
[0050] 如果步驟103得到的字詞識(shí)別結(jié)果，是在搜索網(wǎng)絡(luò)中搜索出的最佳匹配路徑；相應(yīng)地，本步驟體包括：
[0051] 將最佳匹配路徑的詞網(wǎng)進(jìn)行最小錯(cuò)誤的對(duì)齊操作，生成混淆網(wǎng)絡(luò)，所述混淆網(wǎng)絡(luò) 按照時(shí)間進(jìn)行排序，給出每個(gè)時(shí)間段的字詞識(shí)別結(jié)果及字詞識(shí)別結(jié)果的概率；將關(guān)鍵詞詞典中的關(guān)鍵詞對(duì)混淆網(wǎng)絡(luò)中的各字詞識(shí)別結(jié)果進(jìn)行匹配，確定出匹配成功的字詞識(shí)別結(jié) 果，作為匹配成功的關(guān)鍵詞。
[0052] 最小錯(cuò)誤的對(duì)齊操作為現(xiàn)有技術(shù)，該技術(shù)能夠?qū)ψ罴哑ヅ渎窂降脑~網(wǎng)進(jìn)行分析，確定出某一時(shí)間段可能對(duì)應(yīng)的多種識(shí)別結(jié)果，并能給出各字詞識(shí)別結(jié)果的概率。仍然以前述"我們吃飯吧"及"我們遲飯吧"的實(shí)例進(jìn)行說明，采用最小錯(cuò)誤的對(duì)其操作之后，確定出第1、2節(jié)點(diǎn)對(duì)應(yīng)的識(shí)別結(jié)果為'我'、'們'；第3節(jié)點(diǎn)對(duì)應(yīng)的識(shí)別結(jié)果為'吃'和'遲'，并給出為'吃'、'遲'的概率；第4、5節(jié)點(diǎn)對(duì)應(yīng)的識(shí)別結(jié)果為'飯'、'吧'。如果開始節(jié)點(diǎn)與結(jié)束節(jié) 點(diǎn)之間只有一條路徑，則無需采用最小錯(cuò)誤對(duì)齊操作進(jìn)行分析處理。
[0053] 關(guān)鍵詞詞典中包含了關(guān)注的關(guān)鍵詞，將關(guān)鍵詞詞典中的所有關(guān)鍵詞分別與各字詞識(shí)別結(jié)果進(jìn)行匹配，如果相同，則確定為匹配成功的字詞識(shí)別結(jié)果。如果關(guān)鍵詞詞典中包含 "吃飯"、"蔬菜"、"素食"，則針對(duì)上述的實(shí)例，匹配后輸出的關(guān)鍵詞為"吃飯"。
[0054] 本發(fā)明中，在模型文件中配置至少兩類語種模型，每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼模型；當(dāng)需要進(jìn)行關(guān)鍵詞檢索時(shí)，對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽??；逐個(gè) 采用模型文件中的識(shí)別模型，對(duì)抽取的語音特征進(jìn)行語種匹配，確定出語種匹配率最高的識(shí)別模型；并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模型，進(jìn)行解碼后得到解碼后的字詞識(shí)別結(jié)果；將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配，輸出匹配成功的關(guān)鍵詞。采用本發(fā)明方案，根據(jù)實(shí)際需要，可以在模型文件中配置至少兩類語種模型，實(shí)現(xiàn)對(duì)兩類以上的語種進(jìn)行關(guān)鍵詞檢索，從而，解決了現(xiàn)有技術(shù)只支持針對(duì)某一特定語種進(jìn)行處理的缺陷，并且，節(jié)省了成本。
[0055] 現(xiàn)有語音關(guān)鍵詞檢索方案中，只針對(duì)某一類語種進(jìn)行關(guān)鍵詞檢索，具體實(shí)現(xiàn)時(shí)，將針對(duì)該語種的檢測算法和語種模型融合在一起，這樣處理缺乏可擴(kuò)展性，即當(dāng)有其他方言的需求時(shí)無法動(dòng)態(tài)支持。采用本發(fā)明方案后，當(dāng)需要進(jìn)行語種擴(kuò)展時(shí)，訓(xùn)練創(chuàng)建針對(duì)該語種的識(shí)別模型和解碼模型；在模型文件中增加語種模型，增加的語種模型包含創(chuàng)建的識(shí)別模型及對(duì)應(yīng)的解碼模型。這樣，后續(xù)便可結(jié)合新增的語種模型進(jìn)行關(guān)鍵詞檢索。
[0056] 下面通過圖2的流程對(duì)本發(fā)明進(jìn)行語音關(guān)鍵詞檢索的方法進(jìn)行實(shí)例說明，模型文件中已配置了關(guān)于語種A和B的兩類語種模型，每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼模型，該方法包括以下步驟：
[0057] 步驟201，接收關(guān)于語種C的擴(kuò)展指令。
[0058] 步驟202,訓(xùn)練創(chuàng)建關(guān)于語種C的識(shí)別模型C和解碼模型C，在模型文件中增加語種模型C，其中包含創(chuàng)建的識(shí)別模型C及解碼模型C。
[0059] 訓(xùn)練關(guān)于某語種的識(shí)別模型和解碼模型，可采用現(xiàn)有方案實(shí)現(xiàn)，這里不贅述。
[0060] 步驟203,接收待處理語音數(shù)據(jù)，對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取。
[0061] 該過程目的是從語音波形中提取隨時(shí)間變化的語音特征序列，提取的特征參數(shù)能有效地代表語音特征，具有很好的區(qū)分性，作為后續(xù)處理的基礎(chǔ)數(shù)據(jù)。
[0062] 步驟204,分別采用模型文件中的識(shí)別模型A、識(shí)別模型B和識(shí)別模型C，對(duì)抽取的語音特征進(jìn)行語種匹配，確定出語種匹配率最高的識(shí)別模型；并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模型。
[0063] 本實(shí)例中，假設(shè)匹配率最高的為識(shí)別模型C，對(duì)應(yīng)著解碼模型C。識(shí)別模型對(duì)語音特征的識(shí)別，可采用現(xiàn)有方案實(shí)現(xiàn)。
[0064] 步驟205,采用解碼模型C對(duì)抽取的語音特征進(jìn)行解碼，得到解碼后的字詞識(shí)別結(jié) 果。
[0065] 解碼模型，是針對(duì)相應(yīng)語種的語音進(jìn)行解碼過程中使用的模型；解碼模型采用聲學(xué)模型、語言模型以及詞表組合而成，可對(duì)抽取的語音特征進(jìn)行解析，生成經(jīng)過一定裁剪后的詞網(wǎng)，后續(xù)算法在此搜索網(wǎng)絡(luò)中進(jìn)行計(jì)算以得到最后的關(guān)鍵詞結(jié)果。解碼模型對(duì)語音特征的解碼，可采用現(xiàn)有方案實(shí)現(xiàn)。
[0066] 步驟206,將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配，輸出匹配成功的關(guān) 鍵詞。
[0067] 本實(shí)例將關(guān)鍵詞檢索的算法與模型分離，從而使動(dòng)態(tài)擴(kuò)展方言支持成為可能。在需要支持新的方言時(shí)，只需要針對(duì)新的方言訓(xùn)練新的模型，并進(jìn)行配置即可支持新的方言關(guān)鍵詞檢測。相比現(xiàn)有將檢索算法與語種模型高度融合的方案，其擴(kuò)展性是其最大的特點(diǎn)，可以根據(jù)實(shí)際需求靈活增加或者取消對(duì)特定語種的支持，也降低了因需求而不斷升級(jí)的成本。另外可維護(hù)性也具有一定的優(yōu)勢，將檢測算法與語種模型分離是兩個(gè)部分功能明確，結(jié) 構(gòu)更加清晰，部署相對(duì)也簡單。
[0068] 參見圖3,為本發(fā)明進(jìn)行語音關(guān)鍵詞檢索的裝置結(jié)構(gòu)示意圖，該裝置包括模型文件配置單元、特征抽取單元、語種識(shí)別單元、解碼單元和關(guān)鍵詞搜索單元；
[0069] 所述模型文件配置單元，在模型文件中配置至少兩類語種模型，每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼模型；
[0070] 所述特征抽取單元，接收待處理語音數(shù)據(jù)，對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取，將抽取的語音特征發(fā)送給所述語種識(shí)別單元；
[0071] 所述語種識(shí)別單元，逐個(gè)采用模型文件中的識(shí)別模型，對(duì)抽取的語音特征進(jìn)行語種匹配，確定出語種匹配率最高的識(shí)別模型；并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模型，將抽取的語音特征發(fā)送給解碼單元；
[0072] 所述解碼單元，采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼，得到解碼后的字詞識(shí)別結(jié)果，發(fā)送給所述關(guān)鍵詞搜索單元；
[0073] 所述關(guān)鍵詞搜索單元，將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配，輸出匹配成功的關(guān)鍵詞。
[0074] 較佳地，該裝置還包括語種擴(kuò)展單元，訓(xùn)練創(chuàng)建新的識(shí)別模型和解碼模型，在模型文件中增加語種模型，包含創(chuàng)建的識(shí)別模型及對(duì)應(yīng)的解碼模型。
[0075] 較佳地，所述特征抽取單元包括特征抽取模塊，對(duì)待處理語音數(shù)據(jù)進(jìn)行語音波形處理，從語音波形中提取隨時(shí)間變化的語音特征序列，提取的語音特征具有區(qū)分性。
[0076] 較佳地，所述解碼單元包括路徑搜索模塊，采用確定的解碼模型對(duì)抽取的每一幀語音特征在搜索網(wǎng)絡(luò)中搜索最佳匹配路徑，得到詞網(wǎng)，作為解碼后的字詞識(shí)別結(jié)果；所述詞網(wǎng)包含開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)，以及開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)之間的中間節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)代表一個(gè)時(shí)間段對(duì)應(yīng)的詞。
[0077] 較佳地，所述關(guān)鍵詞搜索單元包括混淆網(wǎng)絡(luò)生成模塊和關(guān)鍵詞匹配模塊；
[0078] 所述混淆網(wǎng)絡(luò)生成模塊，將最佳匹配路徑的詞網(wǎng)進(jìn)行最小錯(cuò)誤的對(duì)齊操作，生成混淆網(wǎng)絡(luò)，所述混淆網(wǎng)絡(luò)按照時(shí)間進(jìn)行排序，給出每個(gè)時(shí)間段的字詞識(shí)別結(jié)果及字詞識(shí)別結(jié)果的概率；
[0079] 所述關(guān)鍵詞匹配模塊，將關(guān)鍵詞詞典中的關(guān)鍵詞對(duì)混淆網(wǎng)絡(luò)中的各字詞識(shí)別結(jié)果進(jìn)行匹配，確定出匹配成功的字詞識(shí)別結(jié)果，作為匹配成功的關(guān)鍵詞。
[0080] 以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1. 一種進(jìn)行語音關(guān)鍵詞檢索的方法，其特征在于，在模型文件中配置至少兩類語種模型，每類語種模型包含識(shí)別模型及對(duì)應(yīng)的解碼模型；該方法包括：接收待處理語音數(shù)據(jù)，對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽?。? 逐個(gè)采用模型文件中的識(shí)別模型，對(duì)抽取的語音特征進(jìn)行語種匹配，確定出語種匹配率最高的識(shí)別模型；并從語種模型中確定與匹配率最高的識(shí)別模型對(duì)應(yīng)的解碼模型；采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼，得到解碼后的字詞識(shí)別結(jié)果；將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配，輸出匹配成功的關(guān)鍵詞。
2. 如權(quán)利要求1所述的方法，其特征在于，當(dāng)需要進(jìn)行語種擴(kuò)展時(shí)，該方法還包括：訓(xùn)練創(chuàng)建新的識(shí)別模型和解碼模型；在模型文件中增加語種模型，包含創(chuàng)建的識(shí)別模型及對(duì)應(yīng)的解碼模型。
3. 如權(quán)利要求1所述的方法，其特征在于，所述對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取包括：對(duì)待處理語音數(shù)據(jù)進(jìn)行語音波形處理，從語音波形中提取隨時(shí)間變化的語音特征序列，提取的語音特征具有區(qū)分性。
4. 如權(quán)利要求1、2或3所述的方法，其特征在于，所述采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼，包括：采用確定的解碼模型對(duì)抽取的每一幀語音特征在搜索網(wǎng)絡(luò)中搜索最佳匹配路徑，得到詞網(wǎng)，作為解碼后的字詞識(shí)別結(jié)果；所述詞網(wǎng)包含開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)，以及開始節(jié)點(diǎn)和結(jié) 束節(jié)點(diǎn)之間的中間節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)代表一個(gè)時(shí)間段對(duì)應(yīng)的詞。
5. 如權(quán)利要求4所述的方法，其特征在于，所述將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配，包括：將最佳匹配路徑的詞網(wǎng)進(jìn)行最小錯(cuò)誤的對(duì)齊操作，生成混淆網(wǎng)絡(luò)，所述混淆網(wǎng)絡(luò)按照時(shí)間進(jìn)行排序，給出每個(gè)時(shí)間段的字詞識(shí)別結(jié)果及字詞識(shí)別結(jié)果的概率；將關(guān)鍵詞詞典中的關(guān)鍵詞對(duì)混淆網(wǎng)絡(luò)中的各字詞識(shí)別結(jié)果進(jìn)行匹配，確定出匹配成功的字詞識(shí)別結(jié)果，作為匹配成功的關(guān)鍵詞。
6. -種進(jìn)行語音關(guān)鍵詞檢索的裝置，其特征在于，該裝置包括模型文件配置單元、特征抽取單元、語種識(shí)別單元、解碼單元和關(guān)鍵詞搜索單元；所述模型文件配置單元，在模型文件中配置至少兩類語種模型，每類語種模型包含識(shí) 別模型及對(duì)應(yīng)的解碼模型；所述特征抽取單元，接收待處理語音數(shù)據(jù)，對(duì)待處理語音數(shù)據(jù)進(jìn)行語音特征抽取，將抽取的語音特征發(fā)送給所述語種識(shí)別單元；所述語種識(shí)別單元，逐個(gè)采用模型文件中的識(shí)別模型，對(duì)抽取的語音特征進(jìn)行語種匹配，確定出語種匹配率最高的識(shí)別模型；并從語種模型中確定與匹配率最高的識(shí)別模型對(duì) 應(yīng)的解碼模型，將抽取的語音特征發(fā)送給解碼單元；所述解碼單元，采用確定的解碼模型對(duì)抽取的語音特征進(jìn)行解碼，得到解碼后的字詞識(shí)別結(jié)果，發(fā)送給所述關(guān)鍵詞搜索單元；所述關(guān)鍵詞搜索單元，將關(guān)鍵詞詞典中的關(guān)鍵詞與字詞識(shí)別結(jié)果進(jìn)行匹配，輸出匹配成功的關(guān)鍵詞。
7. 如權(quán)利要求6所述的裝置，其特征在于，該裝置還包括語種擴(kuò)展單元，訓(xùn)練創(chuàng)建新的識(shí)別模型和解碼模型，在模型文件中增加語種模型，包含創(chuàng)建的識(shí)別模型及對(duì)應(yīng)的解碼模型。
8. 如權(quán)利要求6所述的裝置，其特征在于，所述特征抽取單元包括特征抽取模塊，對(duì)待處理語音數(shù)據(jù)進(jìn)行語音波形處理，從語音波形中提取隨時(shí)間變化的語音特征序列，提取的語音特征具有區(qū)分性。
9. 如權(quán)利要求6、7或8所述的裝置，其特征在于，所述解碼單元包括路徑搜索模塊，對(duì) 每一幀語音特征在搜索網(wǎng)絡(luò)中搜索最佳匹配路徑，得到詞網(wǎng)，作為解碼后的字詞識(shí)別結(jié)果；所述詞網(wǎng)包含開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)，以及開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)之間的中間節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn) 代表一個(gè)時(shí)間段對(duì)應(yīng)的詞。
10. 如權(quán)利要求9所述的裝置，其特征在于，所述關(guān)鍵詞搜索單元包括混淆網(wǎng)絡(luò)生成模塊和關(guān)鍵詞匹配模塊；所述混淆網(wǎng)絡(luò)生成模塊，將最佳匹配路徑的詞網(wǎng)進(jìn)行最小錯(cuò)誤的對(duì)齊操作，生成混淆網(wǎng)絡(luò)，所述混淆網(wǎng)絡(luò)按照時(shí)間進(jìn)行排序，給出每個(gè)時(shí)間段的字詞識(shí)別結(jié)果及字詞識(shí)別結(jié)果的概率；所述關(guān)鍵詞匹配模塊，將關(guān)鍵詞詞典中的關(guān)鍵詞對(duì)混淆網(wǎng)絡(luò)中的各字詞識(shí)別結(jié)果進(jìn)行匹配，確定出匹配成功的字詞識(shí)別結(jié)果，作為匹配成功的關(guān)鍵詞。
【文檔編號(hào)】G10L15/08GK104143329SQ201310361835
【公開日】2014年11月12日申請(qǐng)日期:2013年8月19日優(yōu)先權(quán)日:2013年8月19日
【發(fā)明者】馬建雄, 李露, 盧鯉, 張翔, 岳帥, 饒豐, 王爾玉, 孔令揮申請(qǐng)人:騰訊科技（深圳）有限公司

完整全部詳細(xì)技術(shù)資料下載