信息的識別方法和裝置的制作方法

文檔序號：2834977閱讀：192來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：信息的識別方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息技術(shù)領(lǐng)域，尤其涉及一種信息的識別方法和裝置。
背景技術(shù)：
語音識別技術(shù)是一種將人類的語音輸入轉(zhuǎn)換為計算機(jī)指令的一種技術(shù)，使用語音識別技術(shù)可以實現(xiàn)自然的人機(jī)互動。目前，隨著語音識別技術(shù)的發(fā)展，很多終端可以實現(xiàn)語音撥號、語音導(dǎo)航、語音控制、語音檢索、簡單的聽寫錄入等功能。在現(xiàn)有技術(shù)下，終端接收到輸入語音信息后，可以將語音信息通過網(wǎng)絡(luò)發(fā)送至云端服務(wù)器，由云端服務(wù)器完成語音信息的識別。然而，使用云端服務(wù)器識別語音信息，用戶需要將一些個人信息上傳到云端服務(wù)器，從而降低用戶信息的安全性；另外，終端和云端服務(wù)器的交互需要使用網(wǎng)絡(luò)，這增加了語音識別的局限性，而且消耗用戶的網(wǎng)絡(luò)流量，在網(wǎng)絡(luò)擁擠時還會增加語音識別的時延，影響用戶的體驗效果。

發(fā)明內(nèi)容
本發(fā)明實施例提供了一種信息的識別方法和裝置，可以實現(xiàn)終端根據(jù)兩命令詞槽識別文法或多命令詞槽識別文法來對語音信息進(jìn)行命令詞拆分，并根據(jù)拆分后的至少一個命令詞來識別語音信息對應(yīng)的操作指令，提供了一種信息的識別方法，同樣的命令詞數(shù)量可以識別出更多的語音輸入內(nèi)容，提高了用戶的體驗效果。第一方面，本發(fā)明實施例提供了一種信息的識別方法，所述方法包括接收語音信息，從所述語音信息中提取語音特征；將所述語音特征與多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行匹配計算，得到識別結(jié)果，所述識別結(jié)果包括至少一個命令詞以及所述至少一個命令詞對應(yīng)的標(biāo)簽；根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令。在第一種可能的實現(xiàn)方式中，所述將所述語音特征與多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行匹配計算具體包括對所述語音特征與所述多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行音素距離計算，得到距離值；選擇與所述語音特征之間的距離值最小的音素串對應(yīng)的候選文本作為識別結(jié)果。結(jié)合第一方面，在第二種可能的實現(xiàn)方式中，所述根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令具體包括根據(jù)所述至少一個命令詞中所有命令詞對應(yīng)的標(biāo)簽的組合，識別所述語音信息對應(yīng)的操作指令。結(jié)合第一方面，在第三種可能的實現(xiàn)方式中，所述接收語音信息，從所述語音信息中提取語音特征之前，還包括根據(jù)識別文法網(wǎng)絡(luò)，在多個命令詞槽中選擇命令詞生成所述多個候選文本。結(jié)合第一方面的第二種可能的實現(xiàn)方式，在第四種可能的實現(xiàn)方式中，所述根據(jù)所述至少一個命令詞中所有命令詞對應(yīng)的標(biāo)簽的組合，識別所述語音信息對應(yīng)的操作指令包括將所述識別結(jié)果中所述至少一個命令詞中每一個命令詞對應(yīng)的標(biāo)簽進(jìn)行組合，在本地數(shù)據(jù)庫或網(wǎng)絡(luò)服務(wù)器中查詢所述標(biāo)簽的組合對應(yīng)的操作指令。第二方面，本發(fā)明實施例提供了一種信息的識別裝置，所述裝置包括接收單元，用于接收語音信息，從所述語音信息中提取語音特征，將所述語音特征傳輸至匹配單元；匹配單元，用于接收所述接收單元傳輸?shù)乃鑫谋拘畔ⅲ瑢⑺稣Z音特征與多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行匹配計算，得到識別結(jié)果，所述識別結(jié)果包括至少一個命令詞以及所述至少一個命令詞對應(yīng)的標(biāo)簽，將所述標(biāo)簽傳輸至識別單元；識別單元，用于接收所述匹配單元傳輸?shù)乃鰳?biāo)簽，根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令。在第一種可能的實現(xiàn)方式中，所述匹配單元具體用于對所述語音特征與所述多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行音素距離計算，得到距離值；選擇與所述語音特征之間的距離值最小的音素模型對應(yīng)的候選文本作為識別結(jié)果結(jié)合第二方面，在第二種可能的實現(xiàn)方式中，所述至少一個命令詞中的每一個命令詞使用一個標(biāo)簽來標(biāo)識；所述識別單元具體用于根據(jù)所述至少一個命令詞中所有命令詞對應(yīng)的標(biāo)簽的組合，識別所述語音信息對應(yīng)的操作指令。結(jié)合第二方面，在第三種可能的實現(xiàn)方式中，所述裝置還包括生成單元，用于根據(jù)識別文法網(wǎng)絡(luò)，在多個命令詞槽中選擇命令詞生成所述多個候選文本。結(jié)合第二方面或者第二方面的第二種可能的實現(xiàn)方式，在第四種可能的實現(xiàn)方式中，所述識別單元具體用于將所述識別結(jié)果中所述至少一個命令詞中每一個命令詞對應(yīng)的標(biāo)簽進(jìn)行組合，在本地數(shù)據(jù)庫或網(wǎng)絡(luò)服務(wù)器中查詢所述標(biāo)簽的組合對應(yīng)的操作指令本發(fā)明實施例中，終端接收語音信息，從所述語音信息中提取語音特征；將所述語音特征與多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行匹配計算，得到識別結(jié)果，所述識別結(jié)果包括至少一個命令詞以及所述至少一個命令詞對應(yīng)的標(biāo)簽；根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令。由此，終端根據(jù)兩命令詞槽識別文法或多命令詞槽識別文法來對語音信息進(jìn)行命令詞拆分，并根據(jù)拆分后的至少一個命令詞來識別語音信息對應(yīng)的操作指令，提供了一種信息的識別方法，同樣的命令詞數(shù)量可以識別出更多的語音輸入內(nèi)容，提高了用戶的體驗效果。

為了更清楚地說明本發(fā)明實施例中的技術(shù)方案，下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例提供的一種信息的識別方法流程圖；圖2為本發(fā)明實施例提供的一種信息的識別裝置示意圖；圖3為本發(fā)明實施例提供的一種終端示意圖。
具體實施例方式下面通過附圖和實施例，對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
圖1為本發(fā)明實施例提供的一種信息的識別方法流程圖。該實施例的執(zhí)行主體是終端，其中詳細(xì)描述了終端接收到用戶的語音輸入后，識別出操作指令的方法。如圖1所示，該實施例包括以下步驟步驟101，接收語音信息，從所述語音信息中提取語音特征。當(dāng)然，在終端進(jìn)行語音輸入之前，首先根據(jù)接收到的用戶的操作指令，將終端置為語音信息輸入狀態(tài)，運行語音識別引擎。在運行語音識別引擎時，識別文法可以生成候選文本。終端接收到語音信息后,將語音信息轉(zhuǎn)換成數(shù)字信息,并從數(shù)字信息中提取相應(yīng)的語音特征。步驟102，將所述語音特征與多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行匹配計算，得到識別結(jié)果，所述識別結(jié)果包括至少一個命令詞以及所述至少一個命令詞對應(yīng)的標(biāo)簽。為了實現(xiàn)本發(fā)明的技術(shù)方案，在實際應(yīng)用中，終端提供了一種多命令詞槽的識別文法，與現(xiàn)有的“action (動作)+object (對象)”識別文法相比，多命令詞槽的識別文法結(jié)構(gòu)是將act ion部分拆分為不同的部分，通過各部分的不同的組合支持識別更多的語音輸入內(nèi)容，這樣對于相同數(shù)量的語音輸入內(nèi)容，識別文法所需要提供的命令詞數(shù)量可減少。例如，對于用戶常用的命令詞“撥打電話給”，“幫我撥打電話給”，“呼叫”，“幫我呼叫”等語音輸入內(nèi)容中，有一部分內(nèi)容是幾個語音輸入內(nèi)容共有的說法，如“撥打電話給”，“呼叫”。如果采用現(xiàn)有的文法識別結(jié)構(gòu)，“撥打電話給”，“幫我撥打電話給”，“呼叫”，“幫我呼叫”等語音輸入內(nèi)容需要4個命令元素，而如果采用多命令詞槽的識別文法，則可以只需要一個一級命令詞“幫我”，兩個二級命令詞“撥打電話給”、“呼叫”，共需要3個命令詞，節(jié)省了命令詞的數(shù)量，并且多命令詞槽的識別文法維護(hù)和擴(kuò)充更加方便。本發(fā)明實施例提供的識別文法中，可將現(xiàn)有識別文法中的action部分拆分為兩級或者多級，如可拆分為三級，其中一級命令詞可以為修飾命令詞，二級命令詞可以為意愿命令詞，三級命令詞可以為動作命令詞。因此，在運行語音識別引擎時，接收語音輸入之前，本發(fā)明實施例還包括根據(jù)識別文法網(wǎng)絡(luò)，在多命令詞槽中選擇命令詞生成所述多個候選文本。具體地，多命令詞槽的識別文法可以在多個命令詞詞槽中的每個命令詞詞槽中選擇一個命令詞(對于某個命令詞詞槽，也可以一個命令詞都不選擇)，然后將選擇出的命令詞進(jìn)行組合，便得到候選文本。例如，在三級命令詞槽的識別文法中，修飾命令詞槽中有“現(xiàn)在”、“請”兩個個命令詞，意愿命令詞槽中有“幫我”、“我要”兩個命令詞，動作命令詞槽中有“撥打電話給”、“呼叫”兩個命令詞，如果沒有任何約束條件，則識別文法可以構(gòu)造出26個候選文本，分別問“現(xiàn)在”、“請”、“幫我”、“我要”、“現(xiàn)在幫我”、“現(xiàn)在我要”、“請幫我”、“請我要”、“幫我撥打電話給”、“我要撥打電話給”、“幫我呼叫”、“我要呼叫”、“現(xiàn)在撥打電話給”、“現(xiàn)在呼叫”、“請撥打電話給”、“請呼叫”、“現(xiàn)在幫我撥打電話給”、“現(xiàn)在幫我呼叫”、“現(xiàn)在我要撥打電話給”、“現(xiàn)在我要呼叫”、“請幫我撥打電話給”、“請幫我呼叫”、“請我要撥打電話給”、“請我要呼叫”、“撥打電話給”、“呼叫”，當(dāng)然了，為了實現(xiàn)一個完整的操作，候選文本中一般必須包含動作命令詞，如果約束條件為候選文本中必須包含動作命令詞，則即識別文法可以構(gòu)造出18個候選文本，分別為“幫我撥打電話給”、“我要撥打電話給”、“幫我呼叫”、“我要呼叫”、“現(xiàn)在撥打電話給”、“現(xiàn)在呼叫”、“請撥打電話給”、“請呼叫”、“現(xiàn)在幫我撥打電話給”、“現(xiàn)在幫我呼叫”、“現(xiàn)在我要撥打電話給”、“現(xiàn)在我要呼叫”、“請幫我撥打電話給”、“請幫我呼叫”、“請我要撥打電話給”、“請我要呼叫”、“撥打電話給”、“呼叫”。由此，終端可以將根據(jù)多命令詞槽的識別文法構(gòu)造出多個候選文本，通過使用多級命令詞槽的識別文法，在使用相同數(shù)目的命令詞的情況下，可以構(gòu)造的候選文本更多，相應(yīng)地，可以識別的語音輸入內(nèi)容更多。其中，將所述語音特征與多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行匹配計算具體包括對所述語音特征與所述多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行音素距離計算，得到距離值；選擇與所述語音特征之間的距離值最小的音素串對應(yīng)的候選文本作為識別結(jié)果。在語音信息中提取出語音特征后，將語音特征與每一個候選文本的音素串中每一個音素對應(yīng)的音素模型進(jìn)行匹配計算，得到每一個語音特征與每一個音素的距離值，將多個發(fā)音與多個音素模型之間的多個距離值進(jìn)行累計，即可得到對應(yīng)于一個音素串的累計距離值，其中，累計距離值最小的音素串對應(yīng)的候選文本即為識別結(jié)果。具體地，每一個候選文本多對應(yīng)的音素串包括一系列的音素，每個音素對應(yīng)一個音素模型，每個語音特征和所有的音素模型計算都可以得到一個數(shù)值；整個音素串和所述語音特征又得到一個累計的數(shù)值。選擇與所述語音特征之間的累計距離最小的音素串對應(yīng)的候選文本作為識別結(jié)果。例如，對于候選文本“打電話給張三”，對應(yīng)的音素串為“d”，”a”，”d”，”ian”，”h”，”ua，，，”g”，”ei”，”zh”，”ang”，”S”，”an”;將用戶的語音輸入對應(yīng)的每一個語音特征與這些每一個音素對應(yīng)的音素模型進(jìn)行計算，即可得到一個距離值，該值是一個大于等于O的數(shù)。由于音素模型是群體統(tǒng)計特征，用戶的語音特征是個體特征，它們之間會有誤差，這個誤差就成為語音特征和音素模型的距離，把所有的音素的和語音特征的誤差累計，得到的數(shù)值就是這個語音特征和對應(yīng)的候選文本對應(yīng)的音素串的識別距離，距離值越小，誤差就越小，說明該音素串與語音輸入內(nèi)容越匹配，對應(yīng)的候選文本就為識別結(jié)果。其中，識別結(jié)果中包括至少一個命令詞，而且每個命令詞都使用一個標(biāo)簽來標(biāo)識。例如，“我要打電話給張三”包括“我要”、“打電話給”、“張三”中包括兩個命令詞“我要”和“打電話給”，還包括一個聯(lián)系人對象“張三”，其中，“我要”命令詞對應(yīng)的標(biāo)簽是“0001”，通過該標(biāo)簽可以知道該詞是意愿命令詞，“打電話給”命令詞對應(yīng)的標(biāo)簽是“0011”，通過該標(biāo)簽可以知道該語音輸入對應(yīng)的操作是打電話，“張三”對應(yīng)的標(biāo)簽是“ 1000 ”，通過該標(biāo)簽可以確定這個息是聯(lián)系人息。對于上述多命令詞槽的識別文法，終端中也可以不保存，而在需要使用該多命令詞槽的識別文法時，從網(wǎng)絡(luò)服務(wù)器中獲取該識別文法。步驟103，根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令。其中，根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令操作包括在本地數(shù)據(jù)庫或網(wǎng)絡(luò)服務(wù)器中查詢所述標(biāo)簽的組合對應(yīng)的操作指令。根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令具體包括將所述識別結(jié)果中所述至少一個命令詞中每一個命令詞對應(yīng)的標(biāo)簽進(jìn)行組合，在本地數(shù)據(jù)庫或網(wǎng)絡(luò)服務(wù)器中查詢所述標(biāo)簽的組合對應(yīng)的操作指令。具體地，識別文法在生成候選文本時，已經(jīng)確定了候選文本每個部分的內(nèi)容和標(biāo)簽，因此識別結(jié)果中的每個組成部分也已經(jīng)確定了相應(yīng)的標(biāo)簽。終端可以根據(jù)本地數(shù)據(jù)庫或者網(wǎng)絡(luò)服務(wù)器中保存的標(biāo)簽與對應(yīng)的操作指令的映射關(guān)系，確定標(biāo)簽所對應(yīng)的操作指令。本發(fā)明實施例中，終端接收語音信息，從所述語音信息中提取語音特征；將所述語音特征與多個候選文本進(jìn)行匹配計算，得到識別結(jié)果，所述識別結(jié)果包括至少一個命令詞以及所述至少一個命令詞對應(yīng)的標(biāo)簽；根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令。由此，終端根據(jù)兩命令詞槽識別文法或多命令詞槽識別文法來對語音信息進(jìn)行命令詞拆分，并根據(jù)拆分后的至少一個命令詞來識別語音信息對應(yīng)的操作指令，提供了一種信息的識別方法，同樣的命令詞數(shù)量可以識別出更多的語音輸入內(nèi)容，提高了用戶的體驗效果。相應(yīng)地，本發(fā)明實施例還提供了一種信息的識別裝置，圖2為本發(fā)明實施例提供的一種信息的識別裝置示意圖，如圖2所示，本發(fā)明實施例包括以下單元接收單元201，用于接收語音信息，從所述語音信息中提取語音特征，將所述語音特征傳輸至匹配單元。終端接收到語音信息后，將語音信息轉(zhuǎn)換成數(shù)字信息，并從數(shù)字信息中提取相應(yīng)的語音特征。匹配單元202，用于接收所述接收單元傳輸?shù)乃鑫谋拘畔?，將所述語音特征與多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行匹配計算，得到識別結(jié)果，所述識別結(jié)果包括至少一個命令詞以及所述至少一個命令詞對應(yīng)的標(biāo)簽，將所述標(biāo)簽傳輸至識別單元。為了實現(xiàn)本發(fā)明的技術(shù)方案，在實際應(yīng)用中，終端提供了一種多命令詞槽的識別文法，與現(xiàn)有的“action (動作)+object (對象)”識別文法相比，多命令詞槽的識別文法結(jié)構(gòu)是將action部分拆分為不同的部分，通過不同部分的組合支持識別更多的語音輸入內(nèi)容，這樣對于相同數(shù)量的語音輸入內(nèi)容，識別文法所需要提供的命令詞數(shù)量可減少，并且多命令詞槽的識別文法維護(hù)和擴(kuò)充更加方便。本發(fā)明實施例提供的識別文法中，可將現(xiàn)有識別文法中的act ion部分拆分為兩級或者多級，如可拆分為三級，其中一級命令詞可以為修飾命令詞，二級命令詞可以為意愿命令詞，三級命令詞可以為動作命令詞。其中，匹配單元202具體用于對所述語音特征與所述多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行音素距離計算，得到距離值；選擇與所述語音特征之間的距離值最小的音素串對應(yīng)的候選文本作為識別結(jié)果。在語音信息中提取出語音特征后，將語音特征與每一個候選文本的音素串進(jìn)行匹配計算，其中，距離值最小的音素串對應(yīng)的候選文本即為識別結(jié)果。其中，識別結(jié)果中包括至少一個命令詞，而且每個命令詞都使用一個標(biāo)簽來標(biāo)識。例如，“我要打電話給張三”包括“我要”、“打電話給”、“張三”中包括兩個命令詞“我要”和“打電話給”，還包括一個聯(lián)系人對象“張三”，其中，“我要”命令詞對應(yīng)的標(biāo)簽是“ 0001”，通過該標(biāo)簽可以知道該詞是意愿命令詞，“打電話給”命令詞對應(yīng)的標(biāo)簽是“0011”，通過該標(biāo)簽可以知道該語音輸入對應(yīng)的操作時打電話，“張三”對應(yīng)的標(biāo)簽是“ 1000”，通過該標(biāo)簽可以確定這個息是聯(lián)系人息。對于上述多命令詞槽的識別文法，終端中也可以不保存，而在需要使用該多命令詞槽的識別文法時，從網(wǎng)絡(luò)服務(wù)器中獲取該識別文法。識別單元203，用于接收所述匹配單元傳輸?shù)乃鰳?biāo)簽，根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令。其中，識別單元203具體用于根據(jù)所述至少一個命令詞中所有命令詞對應(yīng)的標(biāo)簽的組合，識別所述語音信息對應(yīng)的操作指令。識別單元203具體用于將所述識別結(jié)果中所述至少一個命令詞中每一個命令詞對應(yīng)的標(biāo)簽進(jìn)行組合，在本地數(shù)據(jù)庫或網(wǎng)絡(luò)服務(wù)器中查詢所述標(biāo)簽的組合對應(yīng)的操作指令。具體地，識別文法在生成候選文本時，已經(jīng)確定了候選文本每個部分的內(nèi)容和標(biāo)簽，因此識別結(jié)果中的每個組成部分也已經(jīng)確定了相應(yīng)的標(biāo)簽。終端可以根據(jù)本地數(shù)據(jù)庫或者網(wǎng)絡(luò)服務(wù)器中保存的標(biāo)簽與對應(yīng)的操作指令的映射關(guān)系，確定標(biāo)簽所對應(yīng)的操作指令。優(yōu)選地，本發(fā)明實施例還包括生成單元204，用于根據(jù)識別文法網(wǎng)絡(luò)，在多個命令詞槽中選擇命令詞生成所述多個候選文本。由此，終端可以將根據(jù)多命令詞槽的識別文法構(gòu)造出多個候選文本，通過使用多級命令詞槽的識別文法，在使用相同數(shù)目的命令詞的情況下，可以構(gòu)造的候選文本更多，相應(yīng)地，可以識別的語音輸入內(nèi)容更多。由此，終端根據(jù)兩命令詞槽識別文法或多命令詞槽識別文法來對語音信息進(jìn)行命令詞拆分，并根據(jù)拆分后的至少一個命令詞來識別語音信息對應(yīng)的操作指令，提供了一種信息的識別方法，同樣的命令詞數(shù)量可以識別出更多的語音輸入內(nèi)容，提高了用戶的體驗效果。相應(yīng)地，本發(fā)明實施例還提供了一種終端，圖3為本發(fā)明實施例提供的一種終端示意圖，如圖3所示，本實施例包括網(wǎng)絡(luò)接口 301、處理器302和存儲器303。系統(tǒng)總線304用于連接網(wǎng)絡(luò)接口 301、處理器302和存儲器303。網(wǎng)絡(luò)接口 301用于與其他終端或者網(wǎng)絡(luò)服務(wù)器進(jìn)行通信。存儲器303可以是永久存儲器，例如硬盤驅(qū)動器和閃存，存儲器303中具有識別文法、軟件模塊和設(shè)備驅(qū)動程序。軟件模塊能夠執(zhí)行本發(fā)明上述方法的各種功能模塊；設(shè)備驅(qū)動程序可以是網(wǎng)絡(luò)和接口驅(qū)動程序，識別文法用于生成候選文本并識別出語音輸入內(nèi)容對應(yīng)的識別結(jié)果。在啟動時，識別文法和軟件組件被加載到存儲器303中，然后被處理器302訪問并執(zhí)行如下指令接收語音信息，從所述語音信息中提取語音特征；將所述語音特征與多個候選文本中的每一個候選文本對應(yīng)音素串進(jìn)行匹配計算，得到識別結(jié)果，所述識別結(jié)果包括至少一個命令詞以及所述至少一個命令詞對應(yīng)的標(biāo)簽；根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令。具體地，為了實現(xiàn)本發(fā)明的技術(shù)方案，在終端的存儲器303中可以保存一種多命令詞槽的識別文法，與現(xiàn)有的“action (動作)+object (對象)”識別文法相比，多命令詞槽的識別文法結(jié)構(gòu)是將action部分拆分為不同的部分，通過各部分的不同的組合支持識別更多的語音輸入內(nèi)容，這樣對于相同數(shù)量的語音輸入內(nèi)容，識別文法所需要提供的命令詞數(shù)量可減少。例如，對于用戶常用的命令詞“撥打電話給”，“幫我撥打電話給”，“呼叫”，“幫我呼叫”等語音輸入內(nèi)容中，有一部分內(nèi)容是幾個語音輸入內(nèi)容共有的說法，如“撥打電話給”，“呼叫”。如果采用現(xiàn)有的文法識別結(jié)構(gòu)，“撥打電話給”，“幫我撥打電話給”，“呼叫”，“幫我呼叫”等語音輸入內(nèi)容需要4個命令元素，而如果采用多命令詞槽的識別文法，則可以只需要一個一級命令詞“幫我”，兩個二級命令詞“撥打電話給”、“呼叫”，共需要3個命令詞，節(jié)省了命令詞的數(shù)量，并且多命令詞槽的識別文法維護(hù)和擴(kuò)充更加方便。本發(fā)明實施例提供的識別文法中，可將現(xiàn)有識別文法中的action部分拆分為兩級或者多級，如可拆分為三級，其中一級命令詞可以為修飾命令詞，二級命令詞可以為意愿命令詞，三級命令詞可以為動作命令詞。進(jìn)一步的，處理器302訪問存儲器中的軟件組件后，執(zhí)行將所述文本信息與多個候選文本進(jìn)行匹配計算過程的指令為對所述語音特征與所述多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行音素距離計算，得到距離值；選擇與所述語音特征之間的距離值最小的音素串對應(yīng)的候選文本作為識別結(jié)果。其中，至少一個命令詞中的每一個命令詞使用一個標(biāo)簽來標(biāo)識；進(jìn)一步的，處理器302訪問存儲器中的軟件組件后，執(zhí)行根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令具體包括根據(jù)所述至少一個命令詞中所有命令詞對應(yīng)的標(biāo)簽的組合，識別所述語音信息對應(yīng)的操作指令。進(jìn)一步的，處理器302執(zhí)行根據(jù)所述至少一個命令詞中所有命令詞對應(yīng)的標(biāo)簽的組合，識別所述語音信息對應(yīng)的操作指令的過程包括將所述識別結(jié)果中所述至少一個命令詞中每一個命令詞對應(yīng)的標(biāo)簽進(jìn)行組合，在本地數(shù)據(jù)庫或網(wǎng)絡(luò)服務(wù)器中查詢所述標(biāo)簽的組合對應(yīng)的操作指令。進(jìn)一步的，處理器302在執(zhí)行將所述文本信息與候選文本進(jìn)行匹配計算的操作之前，還可訪問軟件組件，并執(zhí)行以下指令根據(jù)識別文法網(wǎng)絡(luò)，在多個命令詞槽中選擇命令詞生成所述多個候選文本。由此，終端根據(jù)兩命令詞槽識別文法或多命令詞槽識別文法來對語音信息進(jìn)行命令詞拆分，并根據(jù)拆分后的至少一個命令詞來識別語音信息對應(yīng)的操作指令，提供了一種信息的識別方法，同樣的命令詞數(shù)量可以識別出更多的語音輸入內(nèi)容，提高了用戶的體驗效果。專業(yè)人員應(yīng)該還可以進(jìn)一步意識到，結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟，能夠以電子硬件、計算機(jī)軟件或者二者的結(jié)合來實現(xiàn)，為了清楚地說明硬件和軟件的可互換性，在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行，取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能，但是這種實現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。結(jié)合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊，或者二者的結(jié)合來實施。軟件模塊可以置于隨機(jī)存儲器(RAM)、內(nèi)存、只讀存儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。以上所述的具體實施方式
，對本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明，所應(yīng)理解的是，以上所述僅為本發(fā)明的具體實施方式
而已，并不用于限定本發(fā)明的保護(hù)范圍，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種信息的識別方法，其特征在于，所述方法包括: 接收語音信息，從所述語音信息中提取語音特征；將所述語音特征與多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行匹配計算，得到識別結(jié)果，所述識別結(jié)果包括至少一個命令詞以及所述至少一個命令詞對應(yīng)的標(biāo)簽；根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令。
2.根據(jù)權(quán)利要求1所述的信息的識別方法，其特征在于，所述將所述語音特征與多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行匹配計算具體包括: 對所述語音特征與所述多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行音素距離計算，得到距離值；選擇與所述語音特征之間的距離值最小的音素串對應(yīng)的候選文本作為識別結(jié)果。
3.根據(jù)權(quán)利要求1所述的信息的識別方法，其特征在于，所述至少一個命令詞中的每一個命令詞使用一個標(biāo)簽來標(biāo)識；所述根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令具體包括:根據(jù)所述至少一個命令詞中所有命令詞對應(yīng)的標(biāo)簽的組合，識別所述語音信息對應(yīng)的操作指令。
4.根據(jù)權(quán)利要求1所述的信息的識別方法，其特征在于，所述將接收語音信息，從所述語音信息中提取語音特征之前，還包括:根據(jù)識別文法網(wǎng)絡(luò)，在多個命令詞槽中選擇命令詞生成所述多個候選文本。
5.根據(jù)權(quán)利要求3所述的信息的識別方法，其特征在于，所述根據(jù)所述至少一個命令詞中所有命令詞對應(yīng)的標(biāo)簽的組合，識別所述語音信息對應(yīng)的操作指令包括:將所述識別結(jié)果中所述至少一個命令詞中每一個命令詞對應(yīng)的標(biāo)簽進(jìn)行組合，在本地數(shù)據(jù)庫或網(wǎng)絡(luò)服務(wù)器中查詢所述標(biāo)簽的組合對應(yīng)的操作指令。
6.一種信息的識別裝置，其特征在于，所述裝置包括: 接收單元，用于接收語音信息，從所述語音信息中提取語音特征，將所述語音特征傳輸至匹配單元；匹配單元，用于接收所述接收單元傳輸?shù)乃鑫谋拘畔?，將所述語音特征與多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行匹配計算，得到識別結(jié)果，所述識別結(jié)果包括至少一個命令詞以及所述至少一個命令詞對應(yīng)的標(biāo)簽，將所述標(biāo)簽傳輸至識別單元；識別單元，用于接收所述匹配單元傳輸?shù)乃鰳?biāo)簽，根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令。
7.根據(jù)權(quán)利要求6所述的信息的識別裝置，其特征在于，所述匹配單元具體用于: 對所述語音特征與所述多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行音素距離計算，得到距離值；選擇與所述語音特征之間的距離值最小的音素串對應(yīng)的候選文本作為識別結(jié)果。
8.根據(jù)權(quán)利要求6所述的信息的識別裝置，其特征在于，所述至少一個命令詞中的每一個命令詞使用一個標(biāo)簽來標(biāo)識；所述識別單元具體用于:根據(jù)所述至少一個命令詞中所有命令詞對應(yīng)的標(biāo)簽的組合，識別所述語音信息對應(yīng)的操作指令。
9.根據(jù)權(quán)利要求6所述的信息的識別裝置，其特征在于，所述裝置還包括:生成單元，用于根據(jù)識別文法網(wǎng)絡(luò)，在多個命令詞槽中選擇命令詞生成所述多個候選文本。
10.根據(jù)權(quán)利要求8所述的信息的識別裝置，其特征在于，所述識別單元具體用于:將所述識別結(jié)果中所述至少一個命令詞中每一個命令詞對應(yīng)的標(biāo)簽進(jìn)行組合，在本地數(shù)據(jù)庫或網(wǎng)絡(luò)服務(wù)器中查詢所述標(biāo)簽的組合對應(yīng)的操作指令。
全文摘要
本發(fā)明涉及一種信息的識別方法和裝置。該方法包括終端接收語音信息，從所述語音信息中提取語音特征；將所述語音特征與多個候選文本中每一個候選文本對應(yīng)的音素串進(jìn)行匹配計算，得到識別結(jié)果，所述識別結(jié)果包括至少一個命令詞以及所述至少一個命令詞對應(yīng)的標(biāo)簽；根據(jù)所述至少一個命令詞對應(yīng)的標(biāo)簽，識別所述語音信息對應(yīng)的操作指令。本發(fā)明實施例實現(xiàn)了終端將用戶輸入的語音信息對應(yīng)的文本信息識別為操作指令。
文檔編號G10L15/02GK103077714SQ20131003426
公開日2013年5月1日申請日期2013年1月29日優(yōu)先權(quán)日2013年1月29日
發(fā)明者蔣洪睿, 王細(xì)勇, 梁俊斌, 鄭偉軍, 周均揚申請人:華為終端有限公司

完整全部詳細(xì)技術(shù)資料下載