一種實(shí)現(xiàn)語音識別功能的方法

文檔序號：2823527閱讀：249來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種實(shí)現(xiàn)語音識別功能的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種實(shí)現(xiàn)語音識別功能的方法，特別是涉及一種H.248協(xié)議作為控制協(xié)議來實(shí)現(xiàn)語音識別功能的方法。
背景技術(shù)：
語音識別功能指把用戶輸入的語音，按規(guī)定的語法識別，轉(zhuǎn)換成文本。如在某個(gè)交互應(yīng)用中，系統(tǒng)先向用戶播放提示音“你需要水，可樂，還是果汁？”。用戶可以通過語音回答，用戶發(fā)音只能是包括“水，可樂，果汁，不需要”這幾個(gè)關(guān)鍵詞的語音，系統(tǒng)可以對用戶的語音識別，然后向用戶提供選擇的商品。
在固定或者移動網(wǎng)絡(luò)應(yīng)用中，要求用戶輸入時(shí)，一般有以下兩種方法一種方法是用戶輸入DTMF(Dual Tone Multi-Frequency，雙音多頻)音。如在上述的交互應(yīng)用中，當(dāng)用戶輸入1時(shí)，表示選擇“水”；輸入2時(shí)，表示選擇“可樂”；輸入3時(shí)，表示選擇“果汁”，輸入其它鍵，表示“不需要”。這種方法在H.248協(xié)議中已有完善的定義。
另一種方法是用戶直接輸入語音，系統(tǒng)可以將用戶輸入的語音傳輸給另一通話方，或者進(jìn)行錄音，或者進(jìn)行語音識別處理。
通過語音識別處理可以完成和DTMF輸入類似的功能，系統(tǒng)可以根據(jù)用戶的語音來確定用戶的選擇。使用語音識別的優(yōu)點(diǎn)是，用戶可以通過語音直接和系統(tǒng)交互，不需要其它輔助輸入設(shè)備，如用按鍵輸入DTMF，從而簡化了用戶的輸入方式。隨著語音識別技術(shù)的完善，其將成為主流的輸入方式。
H.248協(xié)議中通過包定義了豐富的媒體資源控制方法，例如1.H.248.9協(xié)議高級媒體服務(wù)器包(Advanced Media Server Package)定義的方法有(1)播放語音片段可以按URI(Uniform Resource Identifier，統(tǒng)一資源標(biāo)識)指示語音片斷的位置，可以指示播放語音片斷的重復(fù)次數(shù)、每次播放之間的間隔時(shí)間、音量、速度等參數(shù)；(2)放音收號播放提示音和DTMF(Dual Tone Multi-Frequency，雙音多頻)收號交互進(jìn)行；(3)錄音可返回錄音文件的標(biāo)識或者存放位置。
2.H.248.7協(xié)議定義使用放音標(biāo)識播放錄音的方法；3.H.248.16協(xié)議定義了復(fù)雜的收號操作方法。
但是，在H.248協(xié)議中并未定義上述用戶直接輸入語音的方法，而媒體資源應(yīng)用環(huán)境需要使用語音識別功能，就此，本發(fā)明提供一種通過H.248協(xié)議實(shí)現(xiàn)語音識別功能的方法。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種實(shí)現(xiàn)語音識別功能的方法。
本發(fā)明的實(shí)現(xiàn)語音識別功能的方法，其中，媒體資源控制設(shè)備通過H.248協(xié)議，控制媒體資源處理設(shè)備實(shí)現(xiàn)對用戶輸入語音的識別。該方法包括以下步驟步驟一，媒體資源控制設(shè)備通過定義H.248協(xié)議擴(kuò)展包，在H.248消息中攜帶擴(kuò)展包參數(shù)，指示媒體資源處理設(shè)備執(zhí)行與該參數(shù)相應(yīng)的語音識別處理；步驟二，媒體資源處理設(shè)備根據(jù)上述消息中的參數(shù)調(diào)用語音識別器執(zhí)行語音識別處理；以及步驟三，媒體資源處理設(shè)備在完成語音識別后將識別結(jié)果上報(bào)媒體資源控制設(shè)備。
其中，上述語音至少包括普通語音，該參數(shù)中攜帶有普通語音的識別語法參數(shù)。
當(dāng)上述識別語法參數(shù)為普通語音的識別語法時(shí)，媒體資源處理設(shè)備根據(jù)該語法調(diào)用語音識別器執(zhí)行語音識別。其中，上述識別語法可以為一特定字符串，嵌入在H.248消息中，媒體資源處理設(shè)備接收到此參數(shù)后，直接提取字符串，調(diào)用語音識別器進(jìn)行語音識別。
當(dāng)語音識別語法預(yù)先存儲在媒體資源處理設(shè)備或者外部服務(wù)器上時(shí)，該識別語法參數(shù)為識別語法文件的標(biāo)識和存儲位置信息，媒體資源處理設(shè)備根據(jù)存儲位置信息從本地或者外部服務(wù)器中讀取語法文件后將其放入緩存，然后語音識別器依據(jù)讀取的語法文件進(jìn)行語音識別。
其中，上述的識別語法參數(shù)進(jìn)一步包括進(jìn)行語音識別時(shí)使用的參數(shù)，該參數(shù)包括指示是否僅識別普通語音的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)調(diào)用語音識別器執(zhí)行語音識別。
進(jìn)一步，上述進(jìn)行語音識別時(shí)使用的參數(shù)還包括指示識別時(shí)長的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)確定識別時(shí)間的長短。
進(jìn)一步，上述進(jìn)行語音識別時(shí)使用的參數(shù)還包括指示等待時(shí)長的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)確定等待用戶輸入時(shí)間的長短。
進(jìn)一步，上述進(jìn)行語音識別時(shí)使用的參數(shù)還包括指示識別語種的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)確定進(jìn)行普通語音識別時(shí)采用的語言種類。
進(jìn)一步，上述進(jìn)行語音識別時(shí)使用的參數(shù)還包括指示識別精度的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)確定進(jìn)行普通語音識別時(shí)所要求的識別精度。
進(jìn)一步，所述進(jìn)行語音識別時(shí)使用的參數(shù)還包括指示識別靈敏度的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)確定進(jìn)行普通語音識別時(shí)所要求的識別靈敏度。
進(jìn)一步，上述進(jìn)行語音識別時(shí)使用的參數(shù)還包括指示錄音存放位置的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)從指定位置讀取用戶輸入的錄音。
進(jìn)一步，上述進(jìn)行語音識別時(shí)使用的參數(shù)還包括指示錄音存放位置的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)從指定位置讀取用戶輸入的錄音。
在上述方法中，在步驟二中媒體資源處理設(shè)備調(diào)用語音識別器進(jìn)行語音識別過程中，進(jìn)一步包括步驟21，媒體資源控制設(shè)備指示媒體資源處理設(shè)備檢測語音識別過程中發(fā)生的異常事件。
其中，異常事件包括等待用戶輸入超時(shí)、識別超時(shí)、用戶輸入和語法不匹配、語法文件不存在、語法文件讀取錯(cuò)誤、不能識別、識別錯(cuò)誤、媒體資源處理設(shè)備的軟硬件錯(cuò)誤。
并且，在步驟21之后且在步驟三之前進(jìn)一步包括步驟22，媒體資源處理設(shè)備根據(jù)上述指示對語音識別過程進(jìn)行檢測，并將檢測結(jié)果反饋給媒體資源控制設(shè)備。
進(jìn)一步，進(jìn)行語音識別時(shí)使用的參數(shù)還包括指示語音識別異常時(shí)返回錯(cuò)誤碼的參數(shù)，媒體資源處理設(shè)備在檢測到語音識別過程中發(fā)生的異常事件時(shí)，根據(jù)該參數(shù)將相應(yīng)的錯(cuò)誤碼反饋給媒體資源控制設(shè)備。
與現(xiàn)有技術(shù)相比，本發(fā)明的方法可以在H.248協(xié)議上實(shí)現(xiàn)用戶輸入的普通語音的識別，這樣，用戶可以通過語音直接和系統(tǒng)交互，不需要其它輔助輸入設(shè)備，從而簡化了用戶的輸入方式。

圖1為WCDMA IMS網(wǎng)絡(luò)中，處理媒體資源業(yè)務(wù)的網(wǎng)絡(luò)架構(gòu)。
圖2為在固定軟交換網(wǎng)絡(luò)中，處理媒體資源業(yè)務(wù)的網(wǎng)絡(luò)架構(gòu)。
圖3為本發(fā)明實(shí)現(xiàn)語音識別功能的方法的流程圖。
具體實(shí)施例方式
圖1為WCDMA IMS網(wǎng)絡(luò)中，處理媒體資源業(yè)務(wù)的網(wǎng)絡(luò)架構(gòu)。其中，應(yīng)用服務(wù)器1用于處理各種業(yè)務(wù)，例如對用戶放音、收號、會議、錄音等。業(yè)務(wù)呼叫會話控制設(shè)備2用于處理路由，將應(yīng)用服務(wù)器發(fā)出的消息正確地轉(zhuǎn)發(fā)給媒體資源控制設(shè)備3，或者將媒體資源控制設(shè)備3發(fā)出的消息正確地路由到應(yīng)用服務(wù)器1。媒體資源控制設(shè)備3用于控制媒體資源，其根據(jù)應(yīng)用服務(wù)器1的要求，選擇相應(yīng)的媒體資源處理設(shè)備4并控制媒體資源的處理。媒體資源處理設(shè)備4用于媒體資源的處理，在媒體資源控制設(shè)備3的控制下，完成應(yīng)用服務(wù)器1下發(fā)的媒體資源操作處理。
其中，應(yīng)用服務(wù)器1、業(yè)務(wù)呼叫會話控制設(shè)備2、以及媒體資源控制設(shè)備3之間采用的接口使用SIP協(xié)議和XML協(xié)議，或者是SIP協(xié)議和類似XML的協(xié)議(例如VXML)。媒體資源控制設(shè)備3和媒體資源處理設(shè)備4之間采用的接口為Mp接口，使用H.248協(xié)議。媒體資源處理設(shè)備4的對外接口為Mb接口，一般采用RTP協(xié)議承載用戶媒體流。
圖2為在固定軟交換網(wǎng)絡(luò)中，處理媒體資源業(yè)務(wù)的網(wǎng)絡(luò)架構(gòu)。其中，媒體資源服務(wù)器(Media Resource Server，MRS)相當(dāng)于WCDMA IMS網(wǎng)絡(luò)中的媒體資源控制設(shè)備3和媒體資源處理設(shè)備4的功能，應(yīng)用服務(wù)器相當(dāng)于WCDMA IMS網(wǎng)絡(luò)中的應(yīng)用服務(wù)器1和業(yè)務(wù)呼叫會話控制設(shè)備2的功能，以及軟交換設(shè)備和應(yīng)用服務(wù)器1功能大致相同。
本發(fā)明所提供通過H.248協(xié)議實(shí)現(xiàn)語音識別功能的方法可以應(yīng)用于圖1所示的WCDMA IMS網(wǎng)絡(luò)、以及圖2所示的固定軟交換網(wǎng)絡(luò)中的媒體資源處理。同樣也可以應(yīng)用于其它網(wǎng)絡(luò)，如CDMA網(wǎng)絡(luò)和固定IMS網(wǎng)絡(luò)，其媒體資源應(yīng)用場景的架構(gòu)和業(yè)務(wù)流程和上述WCDMA IMS的基本相同，以及WCDMA、CDMA電路軟交換網(wǎng)絡(luò)，其媒體資源應(yīng)用架構(gòu)和業(yè)務(wù)流程和固定軟交換網(wǎng)絡(luò)基本相同。也就是，本發(fā)明可以應(yīng)用于所有通過H.248協(xié)議控制媒體資源設(shè)備實(shí)現(xiàn)語音識別功能的情況。
以下將以應(yīng)用于WCDMA IMS為例，同時(shí)參考

本發(fā)明所提供的通過H.248協(xié)議實(shí)現(xiàn)語音識別功能的方法。
通常，語音識別包括普通語音的識別和DTMF音的識別，兩者一般是可以同時(shí)發(fā)生的，對DTMF音的識別和普通語音的識別分別使用的是不同的技術(shù)，所需要的控制過程和參數(shù)也有很大差別。由于在H.248協(xié)議中已經(jīng)定義了對于DTMF音的檢測，因此，本發(fā)明重點(diǎn)在于對普通語音的識別，以及對普通語音和DTMF音的同時(shí)識別。
這里，由于本發(fā)明只涉及圖1所示媒體資源控制設(shè)備3和媒體資源處理設(shè)備4之間的處理過程，而其他過程同現(xiàn)有WCDMA IMS網(wǎng)絡(luò)中的處理過程相同，因此，為了簡化而只對媒體資源控制設(shè)備3和媒體資源處理設(shè)備4之間的處理過程進(jìn)行描述。
如圖3所示，為媒體資源控制設(shè)備3和媒體資源處理設(shè)備4進(jìn)行媒體資源的控制和處理的流程圖。
步驟1，媒體資源控制設(shè)備3向媒體資源處理設(shè)備4發(fā)出進(jìn)行語音識別的指示。
具體地，媒體資源控制設(shè)備3通過定義H.248協(xié)議擴(kuò)展包，在H.248消息中攜帶擴(kuò)展包參數(shù)，從而指示媒體資源處理設(shè)備執(zhí)行語音識別。H.248協(xié)議包定義如下包名稱(Package Name)自動語音識別包(ASR package)包標(biāo)識(PackageID) asrp(0x？？)說明(Description) 略，參見以上方案說明版本(Version)1擴(kuò)展(Extends)無1.屬性(Properties)無2.事件(Events)請參閱后述對事件的定義部分。
3、信號(Signals)請參閱后述對信號的定義部分。
4.統(tǒng)計(jì)(Statistics)無5.處理(Procedure)對應(yīng)后述的整個(gè)方案的過程。
這里的語音識別包括普通語音的識別和DTMF音的識別。DTMF的識別語法在H.248協(xié)議中已有定義。普通語音識別需攜帶識別語法，有兩種方法可以攜帶識別語法參數(shù)(1)在H.248消息的參數(shù)中攜帶識別語法識別語法是一個(gè)特定格式的字符串，如#JSGF v1.0；Gramar drink；Public＜returncommands＞＝水|可樂|果汁|不需要該字符串的格式不被處理H.248協(xié)議的功能實(shí)體識別，只是作為一個(gè)串嵌入在H.248消息中。媒體資源處理設(shè)備4接收到此參數(shù)后，可以直接提取字符串并將提取的字符串交給語音識別器處理，其中，該語音識別器可以設(shè)置于媒體資源處理設(shè)備4中，也可以獨(dú)立設(shè)置。
(2)在H.248消息參數(shù)中攜帶語音識別語法文件的標(biāo)識和存儲位置信息語音識別語法可以預(yù)先存儲在媒體資源處理設(shè)備4或者其它外部服務(wù)器上，H.248消息中攜帶該語法文件的標(biāo)識和存儲位置信息。
文件的標(biāo)識可以是符合文件命名規(guī)范的任意字符串；文件的存儲位置信息有三種形式
A.本地可直接存取的文件，如drink.graB.通過file://方式存取的文件，如file://huawei/drink.graC.通過http://方式存取的文件，如http://huawei/drink.gra媒體資源處理設(shè)備4接收到此參數(shù)后，根據(jù)文件的存放位置，先從遠(yuǎn)端服務(wù)器或者本地存儲中讀取語法文件，放入緩存，然后再調(diào)用語音識別器處理。
除了需要在上述的H.248消息中攜帶識別語法或其相關(guān)信息之外，還需要攜帶執(zhí)行語音識別的參數(shù)，這些執(zhí)行語音識別的參數(shù)用于指示媒體資源處理設(shè)備4執(zhí)行相應(yīng)的語音識別功能。這些可攜帶的參數(shù)包括(1)是否同時(shí)識別DTMF音和普通語音在某些應(yīng)用中，只要求用戶輸入普通語音。若此參數(shù)設(shè)置為是，則無論用戶輸入語音或者DTMF音，媒體資源處理設(shè)備4都將進(jìn)行普通語音和DTMF音的識別。
(2)識別時(shí)長該參數(shù)用于指示識別時(shí)間的長短，也就是，用戶開始輸入時(shí)，若在規(guī)定時(shí)長內(nèi)語音的識別沒有完成，則超時(shí)返回。
(3)用戶沒有輸入時(shí)等待時(shí)長該參數(shù)用于指示識別的等待時(shí)間的長短，也就是，在開始執(zhí)行識別時(shí)，定長時(shí)間內(nèi)用戶沒有輸入，則超時(shí)返回。
(4)識別的語言種類該參數(shù)用于指示媒體資源處理設(shè)備進(jìn)行普通語音識別時(shí)所采用的語言的種類，遵從例如RFC3066協(xié)議的定義。
(5)識別的精度要求該參數(shù)表示識別的精度要求，可以用0到100之間的一個(gè)值表示。精度要求越高，耗費(fèi)的處理能力越多，識別時(shí)間也越長。
(6)靈敏度要求該參數(shù)用于表示語音識別所需要的靈敏度，可以采用0到100之間的一個(gè)值表示。靈敏度越高，受背景噪音的影響越大，靈敏度越低，受背景噪音的影響越小。
(7)錄音存放位置在進(jìn)行語音識別時(shí)，可以對用戶的輸入進(jìn)行錄音，并存放在指定的位置。該參數(shù)表示用戶的錄音所存放的位置。
(8)是否預(yù)讀取語法文件當(dāng)識別語法是文件的方式存儲時(shí)，此參數(shù)若設(shè)置為是，則在收到請求時(shí)，媒體資源處理設(shè)備4就從外部的服務(wù)器讀取語法文件，并緩存在本地，否則識別時(shí)再讀取。
(9)語法文件緩存時(shí)長該參數(shù)表示媒體資源處理設(shè)備4對從服務(wù)器讀取的語法文件進(jìn)行緩存所采用的時(shí)間長短，如果超時(shí)，則視為緩存無效。
上述步驟1中所提到的H.248協(xié)議包采用如下定義一.信號(Signal)包括自動語音識別語法文件(ASR Grammar File)信號或者自動語音識別語法串(ASR Grammar String)信號，分別對應(yīng)于上述兩種攜帶識別語法參數(shù)的方法。
(1)自動語音識別語法文件(ASR Grammar File)，用于指示執(zhí)行語音識別功能。
信號名(Signal Name) 自動語音識別語法文件信號標(biāo)識(SignalID)asrgf(0x？？)說明(Description) 執(zhí)行ASR功能信號類型(SignalType) br時(shí)長(Duration)不可用(No Applicable)附加參數(shù)(Additional Parameter)包括I.
參數(shù)名(Parameter Name)語法文件(Garmmar File)參數(shù)標(biāo)識(Parameter ID)gf(0x？？)說明 ASR識別語法文件名和存儲位置類型(Type)字符串(String)是否可選(Optional)否可能取值(Possible Value)合法的文件標(biāo)識和存儲格式默認(rèn)值(Default) 無II.
參數(shù)名識別DTMF(Recognize DTMF)參數(shù)標(biāo)識rd(0x？？)說明是否同時(shí)識別DTMF類型enum是否可選是可能取值是，否默認(rèn)值(Default) 是III.
參數(shù)名等待識別時(shí)間(Wait Recognize Time)參數(shù)標(biāo)識wrt(0x？？)說明等待識別的時(shí)長類型整數(shù)是否可選是可能取值大于0秒默認(rèn)值無IV.
參數(shù)名等待輸入時(shí)間(Wait Input Time)參數(shù)標(biāo)識wit(0x？？)說明等待用戶輸入的時(shí)長類型整數(shù)是否可選是可能取值大于0秒默認(rèn)值無V.
參數(shù)名語言類型(Language Type)參數(shù)標(biāo)識 It(0x？？)說明識別語言種類類型字符串是否可選是可能取值遵從RFC3066協(xié)議默認(rèn)值無VI.
參數(shù)名識別精確度(Recognize Accuracy)參數(shù)標(biāo)識 ra(0x？？)說明識別的精確度要求類型整數(shù)是否可選是可能取值 0～100默認(rèn)值無VII.
參數(shù)名識別靈敏度(Recognize Sensitivity)參數(shù)標(biāo)識 ra(0x？？)說明識別的靈敏度要求類型整數(shù)是否可選是可能取值 0～100默認(rèn)值無
VIII.
參數(shù)名錄音文件(Record File)參數(shù)標(biāo)識rf(0x？？)說明識別語音的錄音存放位置類型字符串是否可選是可能取值合法的URI串或者本地文件名默認(rèn)值無IX.
參數(shù)名預(yù)讀取語法(Prefetch Grammar)參數(shù)標(biāo)識pg(0x？？)說明是否預(yù)讀取語法文件類型enum是否可選是可能取值是，否默認(rèn)值無X.
參數(shù)名緩存時(shí)間(Cache Time)參數(shù)標(biāo)識ct(0x？？)說明語法文件緩存時(shí)長類型整數(shù)是否可選是可能取值大于0秒默認(rèn)值無(2)自動語音識別語法串(ASR Grammar String)，用于指示執(zhí)行語音識別功能信號名自動語音識別語法串信號標(biāo)識 ags(0x？？)說明按語法串執(zhí)行ASR功能信號類型 br時(shí)長不可用附加參數(shù)包括I.
參數(shù)名語法串(Garmmar String)參數(shù)標(biāo)識 gf(0x？？)說明 ASR識別語法類型字符串是否可選否可能取值合法的識別語法默認(rèn)值無II.其它參數(shù)和“自動語音識別語法文件”信號的II、III、IV、V、VI、VII、VIII相同。
步驟2，媒體資源處理設(shè)備4在收到來自媒體資源控制設(shè)備3的語音識別指示時(shí)，進(jìn)行消息確認(rèn)，并將確認(rèn)結(jié)果反饋給媒體資源控制設(shè)備3。進(jìn)一步，媒體資源處理設(shè)備4根據(jù)該消息中的上述參數(shù)執(zhí)行相應(yīng)的處理，例如，是否同時(shí)識別DTMF和普通語音、識別時(shí)長、用戶沒有輸入時(shí)等待時(shí)長、錄音存放位置、是否預(yù)讀取語法文件、語法文件緩存時(shí)長等，并調(diào)用語音識別器對用戶輸入的語音進(jìn)行識別，例如包括識別的語言種類、精度、靈敏度等。
步驟3，媒體資源控制設(shè)備3指示媒體資源處理設(shè)備4檢測語音識別過程中發(fā)生的事件。
步驟4，媒體資源處理設(shè)備4進(jìn)行消息確認(rèn)，并將確認(rèn)結(jié)果反饋給媒體資源控制設(shè)備3。進(jìn)一步，媒體資源處理設(shè)備4對語音識別過程中發(fā)生的事件(Event)進(jìn)行檢測?？赡艿氖录╝.異常情況返回語音識別功能執(zhí)行的錯(cuò)誤碼媒體資源處理設(shè)備4在執(zhí)行語音識別過程中，若產(chǎn)生異常，要向媒體資源控制設(shè)備返回具體的錯(cuò)誤碼。錯(cuò)誤碼的具體值由標(biāo)準(zhǔn)組織統(tǒng)一分配，內(nèi)容包括(1)用戶沒有輸入語音的時(shí)間超過預(yù)定時(shí)間；(2)語音識別時(shí)間超過預(yù)定時(shí)間；(3)用戶輸入語音和識別語法不匹配；(4)語法文件不存在；(5)語法文件讀取錯(cuò)誤；(6)語音識別的語法錯(cuò)誤；(7)不能識別或者識別錯(cuò)誤；(8)媒體資源處理設(shè)備4的硬件錯(cuò)誤；(9)媒體資源處理設(shè)備4的軟件錯(cuò)誤；(10)其它錯(cuò)誤。
b.檢測到用戶開始輸入語音的事件用戶開始輸入語音時(shí)，媒體資源處理設(shè)備4可以把檢測到的用戶輸入的語音類型上報(bào)給媒體資源控制設(shè)備3，輸入類型包括DTMF音，以及普通語音。
在步驟4中，H.248協(xié)議包定義的事件具體表示如下事件(1)自動語音識別失敗(ASR Failure)事件名(Event Name)自動語音識別失敗事件標(biāo)識(EventID) asrfail(0x？？)說明語音識別執(zhí)行失敗，返回錯(cuò)誤碼事件說明參數(shù)(EventDescriptor Parameters) 無檢測到的事件參數(shù)(ObservedEventDescriptor Parameters)I.
參數(shù)名(Parameter Name)返回錯(cuò)誤碼(Return FailureCode)ParameterID(參數(shù)標(biāo)識) rfc(0x？？)
說明錯(cuò)誤碼參數(shù)參數(shù)類型整數(shù)是否可選否可能值以上方案定義的錯(cuò)誤碼默認(rèn)值無(2)自動語音識別完成(ASR Success)事件名(Event Name)自動語音識別完成事件標(biāo)識(EventID) asrsucc(0x？？)說明語音識別執(zhí)行成功，返回識別結(jié)果事件說明參數(shù)(EventDescriptor Parameters) 無檢測到的事件參數(shù)I.
參數(shù)名(Parameter Name)自動語音識別結(jié)果(ASR Result)ParameterID(參數(shù)標(biāo)識) ar(0x？？)說明識別結(jié)果參數(shù)類型字符串是否可選否可能值DTMF串或者語音文本串默認(rèn)值無II.
參數(shù)名(Parameter Name)結(jié)果可信度(Result Reliability)ParameterID(參數(shù)標(biāo)識) rr(0x？？)說明識別結(jié)果可信度參數(shù)類型整數(shù)是否可選是可能值 0～100默認(rèn)值 100(3)檢測到用戶輸入開始識別(ASR Begin)事件名(Event Name) 自動語音識別開始(ASR Begin)事件標(biāo)識(EventID) asrbeg(0x？？)說明語音識別執(zhí)行成功，返回識別結(jié)果事件說明參數(shù)(EventDescriptor Parameters)無檢測到的事件參數(shù)I.
參數(shù)名(Parameter Name) 輸入類型(Input Type)ParameterID(參數(shù)標(biāo)識) it(0x？？)說明用戶的輸入類型DTMF、普通語音參數(shù)類型字符串是否可選否可能值 DTMF，普通語音默認(rèn)值無步驟5，當(dāng)媒體資源處理設(shè)備4按媒體資源控制設(shè)備3指示時(shí)所攜帶的參數(shù)完成語音識別后，將在語音識別過程中檢測到的事件上報(bào)給控制設(shè)備。同時(shí)，將語音識別器返回的識別結(jié)果的可信度上報(bào)媒體資源控制設(shè)備3。
識別結(jié)果是一個(gè)字符串，可能是DTMF串的識別結(jié)果，也能是普通語音的識別的結(jié)果。處理H.248協(xié)議的功能實(shí)體對此串不能識別，返回給媒體資源控制設(shè)備3處理。
步驟6，媒體資源控制設(shè)備3對媒體資源處理設(shè)備4上報(bào)的識別結(jié)果做出確認(rèn)。
通過以上方案，可以在固定或者移動網(wǎng)絡(luò)的媒體資源應(yīng)用中，給用戶提供語音識別相關(guān)的業(yè)務(wù)應(yīng)用。例如，通過采用語音輸入代替按鍵輸入，用戶通過語音就可以完成呼叫、查詢等基本功能。
本發(fā)明實(shí)現(xiàn)語音識別的方法并不限于上述的方案，也可以采用其他的方案，例如，媒體資源控制設(shè)備3可以將上述步驟1和步驟3中的指示同時(shí)發(fā)給媒體資源處理設(shè)備4，此時(shí)，媒體資源處理設(shè)備4可以反饋一個(gè)確認(rèn)消息以及相應(yīng)的處理結(jié)果給媒體資源控制設(shè)備3。
權(quán)利要求
1.一種實(shí)現(xiàn)語音識別功能的方法，其特征在于，媒體資源控制設(shè)備通過H.248協(xié)議，控制媒體資源處理設(shè)備實(shí)現(xiàn)對用戶輸入語音的識別，該方法包括以下步驟步驟一，媒體資源控制設(shè)備通過定義H.248協(xié)議擴(kuò)展包，在H.248消息中攜帶擴(kuò)展包參數(shù)，指示媒體資源處理設(shè)備執(zhí)行與該參數(shù)相應(yīng)的語音識別處理；步驟二，媒體資源處理設(shè)備根據(jù)上述消息中的參數(shù)調(diào)用語音識別器執(zhí)行語音識別處理；以及步驟三，媒體資源處理設(shè)備在完成語音識別后將識別結(jié)果上報(bào)媒體資源控制設(shè)備。
2.如權(quán)利要求1所述的方法，其特征在于，上述語音至少包括普通語音，該參數(shù)中攜帶有普通語音的識別語法參數(shù)。
3.如權(quán)利要求2所述的方法，其特征在于，當(dāng)該識別語法參數(shù)為普通語音的識別語法時(shí)，媒體資源處理設(shè)備根據(jù)該語法調(diào)用語音識別器執(zhí)行語音識別。
4.如權(quán)利要求3所述的方法，其特征在于，該識別語法為一特定字符串，嵌入在H.248消息中，媒體資源處理設(shè)備接收到此參數(shù)后，直接提取字符串，調(diào)用語音識別器進(jìn)行語音識別。
5.如權(quán)利要求3所述的方法，其特征在于，當(dāng)語音識別語法預(yù)先存儲在媒體資源處理設(shè)備或者外部服務(wù)器上時(shí)，該識別語法參數(shù)為識別語法文件的標(biāo)識和存儲位置信息，媒體資源處理設(shè)備根據(jù)存儲位置信息從本地或者外部服務(wù)器中讀取語法文件后將其放入緩存，然后語音識別器依據(jù)讀取的語法文件進(jìn)行語音識別。
6.如權(quán)利要求2所述的方法，其特征在于，所述的識別語法參數(shù)進(jìn)一步包括進(jìn)行語音識別時(shí)使用的參數(shù)，該參數(shù)包括指示是否僅識別普通語音的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)調(diào)用語音識別器執(zhí)行語音識別。
7.如權(quán)利要求6所述的方法，其特征在于，所述進(jìn)行語音識別時(shí)使用的參數(shù)進(jìn)一步包括指示識別時(shí)長的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)確定識別時(shí)間的長短。
8.如權(quán)利要求7所述的方法，其特征在于，所述進(jìn)行語音識別時(shí)使用的參數(shù)進(jìn)一步包括指示等待時(shí)長的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)確定等待用戶輸入時(shí)間的長短。
9.如權(quán)利要求8所述的方法，其特征在于，所述進(jìn)行語音識別時(shí)使用的參數(shù)進(jìn)一步包括指示識別語種的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)確定進(jìn)行普通語音識別時(shí)采用的語言種類。
10.如權(quán)利要求9所述的方法，其特征在于，所述進(jìn)行語音識別時(shí)使用的參數(shù)進(jìn)一步包括指示識別精度的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)確定進(jìn)行普通語音識別時(shí)所要求的識別精度。
11.如權(quán)利要求10所述的方法，其特征在于，所述進(jìn)行語音識別時(shí)使用的參數(shù)進(jìn)一步包括指示識別靈敏度的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)確定進(jìn)行普通語音識別時(shí)所要求的識別靈敏度。
12.如權(quán)利要求11所述的方法，其特征在于，所述進(jìn)行語音識別時(shí)使用的參數(shù)進(jìn)一步包括指示錄音存放位置的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)從指定位置讀取用戶輸入的錄音。
13.如權(quán)利要求12所述的方法，其特征在于，所述進(jìn)行語音識別時(shí)使用的參數(shù)進(jìn)一步包括指示錄音存放位置的參數(shù)，媒體資源處理設(shè)備根據(jù)該參數(shù)從指定位置讀取用戶輸入的錄音。
14.如權(quán)利要求1至13任何一項(xiàng)所述的方法，其特征在于，在步驟二中媒體資源處理設(shè)備調(diào)用語音識別器進(jìn)行語音識別過程中，進(jìn)一步包括步驟21，媒體資源控制設(shè)備指示媒體資源處理設(shè)備檢測語音識別過程中發(fā)生的異常事件。
15.如權(quán)利要求14所述的方法，其特征在于，所述異常事件包括等待用戶輸入超時(shí)、識別超時(shí)、用戶輸入和語法不匹配、語法文件不存在、語法文件讀取錯(cuò)誤、不能識別、識別錯(cuò)誤、媒體資源處理設(shè)備的軟硬件錯(cuò)誤。
16.如權(quán)利要求15所述的方法，其特征在于，在步驟21之后且在步驟三之前進(jìn)一步包括步驟22，媒體資源處理設(shè)備根據(jù)上述指示對語音識別過程進(jìn)行檢測，并將檢測結(jié)果反饋給媒體資源控制設(shè)備。
17.如權(quán)利要求16所述的方法，其特征在于，所述進(jìn)行語音識別時(shí)使用的參數(shù)進(jìn)一步包括指示語音識別異常時(shí)返回錯(cuò)誤碼的參數(shù)，媒體資源處理設(shè)備在檢測到語音識別過程中發(fā)生的異常事件時(shí)，根據(jù)該參數(shù)將相應(yīng)的錯(cuò)誤碼反饋給媒體資源控制設(shè)備。
全文摘要
一種實(shí)現(xiàn)語音識別功能的方法，其中，媒體資源控制設(shè)備通過H.248協(xié)議，控制媒體資源處理設(shè)備實(shí)現(xiàn)對用戶輸入語音的識別。該方法包括以下步驟媒體資源控制設(shè)備通過定義H.248協(xié)議擴(kuò)展包，在H.248消息中攜帶擴(kuò)展包參數(shù)，指示媒體資源處理設(shè)備執(zhí)行與該參數(shù)相應(yīng)的語音識別處理；媒體資源處理設(shè)備根據(jù)上述消息中的參數(shù)調(diào)用語音識別器執(zhí)行語音識別處理；以及，媒體資源處理設(shè)備在完成語音識別后將識別結(jié)果上報(bào)媒體資源控制設(shè)備。該方法可以實(shí)現(xiàn)用戶輸入的普通語音的識別，用戶可以通過語音直接和系統(tǒng)交互，不需要其它輔助輸入設(shè)備，從而簡化了用戶的輸入方式。
文檔編號G10L15/18GK1953054SQ20051011427
公開日2007年4月25日申請日期2005年10月21日優(yōu)先權(quán)日2005年10月21日
發(fā)明者陳誠申請人:華為技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載