專利名稱:一種實(shí)現(xiàn)文語轉(zhuǎn)換功能的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種實(shí)現(xiàn)文語轉(zhuǎn)換功能的方法,特別涉及一種采用H.248協(xié)議作為控制協(xié)議來實(shí)現(xiàn)文語轉(zhuǎn)換功能的方法。
背景技術(shù):
文語轉(zhuǎn)換技術(shù)是一項(xiàng)核心的語音技術(shù)。它將文本信息轉(zhuǎn)換成機(jī)器合成的語音,提供方便的、友好的人機(jī)交互接口。簡單的說就是把一個文本串轉(zhuǎn)換成語音。如輸入文本“你好”,通過文語轉(zhuǎn)換功能處理后,輸出“你好”這句話的語音。
現(xiàn)有網(wǎng)絡(luò)系統(tǒng)中,應(yīng)用服務(wù)器在向用戶放音時,通常有兩種方法第1種方法是直接播放一個錄音。如當(dāng)用戶呼叫一個用戶失敗時,系統(tǒng)會向用戶提示“你呼叫的用戶不在服務(wù)區(qū)”,這段提示音是提前錄制并存儲在服務(wù)器設(shè)備上的。在H.248協(xié)議中已有完善的方法,如H.248.9協(xié)議。
第2種方法是用文語轉(zhuǎn)換功能來實(shí)現(xiàn)。當(dāng)用戶呼叫失敗時,系統(tǒng)把“你呼叫的用戶不在服務(wù)區(qū)”這句文本轉(zhuǎn)換成語音輸出給用戶。
使用文語轉(zhuǎn)換的好處是(1)修改方便,在修改時只需修改文本,不需要重新錄音;(2)可以根據(jù)用戶需求播放更個性化的提示音,如分別用男聲、女聲、中性聲音播放。
上述的第2種方法在H.248協(xié)議中沒有定義,而媒體資源應(yīng)用環(huán)境需要使用文語轉(zhuǎn)換功能,就此,本發(fā)明提出一種通過H.248協(xié)議實(shí)現(xiàn)文語轉(zhuǎn)換功能的方法。
發(fā)明內(nèi)容
本發(fā)明提供一種媒體資源控制設(shè)備通過H.248協(xié)議指示媒體資源處理設(shè)備實(shí)現(xiàn)文語轉(zhuǎn)換功能的方法。
本發(fā)明的實(shí)現(xiàn)文語轉(zhuǎn)換功能的方法,包括以下步驟
步驟一,媒體資源控制設(shè)備通過定義H.248協(xié)議擴(kuò)展包,在H.248消息中攜帶擴(kuò)展包參數(shù),指示媒體資源處理設(shè)備執(zhí)行與該參數(shù)相應(yīng)的文語轉(zhuǎn)換處理;以及步驟二,媒體資源處理設(shè)備根據(jù)上述消息中的參數(shù)調(diào)用文語轉(zhuǎn)換器執(zhí)行文語轉(zhuǎn)換處理,并將文語轉(zhuǎn)換結(jié)果反饋媒體資源控制設(shè)備。
其中,該擴(kuò)展包參數(shù)中攜帶有文本串的相關(guān)信息,媒體資源處理設(shè)備根據(jù)該文本串的相關(guān)信息,調(diào)用文語轉(zhuǎn)換器進(jìn)行文語轉(zhuǎn)換。
上述文本串的相關(guān)信息可以為該文本串本身,其作為能被正確發(fā)音的字符串嵌入在H.248消息中,媒體資源處理設(shè)備接收到該文本串后,直接提取該文本串調(diào)用文語轉(zhuǎn)換器進(jìn)行文語轉(zhuǎn)換。
當(dāng)文本串預(yù)先存儲在媒體資源處理設(shè)備或者外部服務(wù)器上時,上述文本串的相關(guān)信息可以為包括該文本串的標(biāo)識和存儲位置信息的文本文件,媒體資源處理設(shè)備接收到上述文本文件后,根據(jù)其中的存儲位置信息,從本地或者外部服務(wù)器讀取文本串放入緩存,并調(diào)用文語轉(zhuǎn)換器進(jìn)行文語轉(zhuǎn)換。
其中,上述文本串的相關(guān)信息可以包括文本串和另一文本串的文本文件,該文本文件包括該另一文本串的標(biāo)識和存儲位置信息,該文本文件的標(biāo)識和文本串組合成連續(xù)文本串,并在文本文件標(biāo)識前增加關(guān)鍵詞標(biāo)識該組合為一發(fā)音文本文件,媒體資源處理設(shè)備接收到該組合后,首先從本地或者外部服務(wù)器讀取文本串,將其和H.248消息中攜帶的發(fā)音文本串進(jìn)行串接后放入緩存,然后調(diào)用文語轉(zhuǎn)換器進(jìn)行文語轉(zhuǎn)換。
其中,上述文本串的相關(guān)信息可以包括一文本串和一錄音文件的組合,并在文本串前增加關(guān)鍵詞標(biāo)識該組合為一語音文件,媒體資源處理設(shè)備接收到該組合后,首先調(diào)用文語轉(zhuǎn)換器對文本串進(jìn)行文語轉(zhuǎn)換,然后將文語轉(zhuǎn)換后輸出的語音與錄音文件組合一語音片斷。
其中,上述文本串的相關(guān)信息可以為包括一文本文件和一錄音文件的組合,該文本文件包括該另一文本串的標(biāo)識和存儲位置信息,并在該標(biāo)識前增加關(guān)鍵詞標(biāo)識該組合為一語音文件,媒體資源處理設(shè)備接收到該組合后,首先根據(jù)存儲位置信息從本地或者外部服務(wù)器讀取文本串放入緩存,然后調(diào)用文語轉(zhuǎn)換器對讀取的文本串進(jìn)行文語轉(zhuǎn)換,并將文語轉(zhuǎn)換后輸出的語音與錄音文件組合一語音片斷。
在上述方法中,該H.248消息中進(jìn)一步攜帶有文語轉(zhuǎn)換輸出的語音屬性的相關(guān)參數(shù),該相關(guān)參數(shù)包括發(fā)音語言種類、發(fā)音性別、發(fā)音年齡、發(fā)音速度、發(fā)音音量、發(fā)音音調(diào)、特殊文字的發(fā)音方式、停頓、重讀、或者在用戶輸入時是否中止文語轉(zhuǎn)換,媒體資源處理設(shè)備接收到該相關(guān)參數(shù)后調(diào)用文語轉(zhuǎn)換器為輸出的語音設(shè)置相應(yīng)的屬性。
在步驟二媒體資源處理設(shè)備調(diào)用文語轉(zhuǎn)換器執(zhí)行文語轉(zhuǎn)換過程中,上述方法進(jìn)一步包括步驟21,媒體資源控制設(shè)備指示媒體資源處理設(shè)備檢測語音識別過程中發(fā)生的異常事件。
在檢測到異常事件時,媒體資源處理設(shè)備將表示異常事件相應(yīng)的錯誤碼反饋給媒體資源控制設(shè)備。
進(jìn)一步,在步驟二中媒體資源處理設(shè)備調(diào)用文語轉(zhuǎn)換器執(zhí)行文語轉(zhuǎn)換過程中,上述方法還包括步驟22,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程進(jìn)行控制。
在步驟22中,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程的控制可以包括暫時停止對用戶播放文語轉(zhuǎn)換后的語音,以及從上述暫停狀態(tài)恢復(fù)到播放狀態(tài)。
在步驟22中,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程的控制可以包括使播放快進(jìn)或者快退,該快進(jìn)包括快進(jìn)若干字、句子或者段落,或者快進(jìn)若干秒,該快退包括包括快退若干字、句子或者段落,或者快退若干秒。
在步驟22中,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程的控制可以包括重新開始文語轉(zhuǎn)換。
在步驟22中,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程的控制包括用戶中止文語轉(zhuǎn)換。
在步驟22中,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程的控制包括重復(fù)播放當(dāng)前句、段落或者全文,以及對文語轉(zhuǎn)換過程的控制進(jìn)一步包括取消對當(dāng)前句、段落或者全文的重復(fù)播放。
通過本發(fā)明提供的方法,可以在移動或者固網(wǎng)的媒體資源應(yīng)用中,給用戶提供文語轉(zhuǎn)換相關(guān)的業(yè)務(wù)應(yīng)用,如把網(wǎng)頁上的內(nèi)容轉(zhuǎn)成聲音讀給用戶聽。同時,在修改時只需修改文本,不需要重新錄音,并且可以根據(jù)用戶需求播放更個性化的提示音。
圖1為WCDMA IMS網(wǎng)絡(luò)中,處理媒體資源業(yè)務(wù)的網(wǎng)絡(luò)架構(gòu)。
圖2為在固定軟交換網(wǎng)絡(luò)中,處理媒體資源業(yè)務(wù)的網(wǎng)絡(luò)架構(gòu)。
圖3為本發(fā)明實(shí)現(xiàn)文語轉(zhuǎn)換功能的方法的流程圖。
具體實(shí)施例方式
圖1為WCDMA IMS網(wǎng)絡(luò)中,處理媒體資源業(yè)務(wù)的網(wǎng)絡(luò)架構(gòu)。其中,應(yīng)用服務(wù)器1用于處理各種業(yè)務(wù),例如對用戶放音、收號、會議、錄音等。業(yè)務(wù)呼叫會話控制設(shè)備2用于處理路由,將應(yīng)用服務(wù)器發(fā)出的消息正確地轉(zhuǎn)發(fā)給媒體資源控制設(shè)備3,或者將媒體資源控制設(shè)備3發(fā)出的消息正確地路由到應(yīng)用服務(wù)器1。媒體資源控制設(shè)備3用于控制媒體資源,其根據(jù)應(yīng)用服務(wù)器1的要求,選擇相應(yīng)的媒體資源處理設(shè)備4并控制媒體資源的處理。媒體資源處理設(shè)備4用于媒體資源的處理,在媒體資源控制設(shè)備3的控制下,完成應(yīng)用服務(wù)器1下發(fā)的媒體資源操作處理。
其中,應(yīng)用服務(wù)器1、業(yè)務(wù)呼叫會話控制設(shè)備2、以及媒體資源控制設(shè)備3之間采用的接口使用SIP協(xié)議和XML協(xié)議,或者是SIP協(xié)議和類似XML的協(xié)議(例如VXML)。媒體資源控制設(shè)備3和媒體資源處理設(shè)備4之間采用的接口為Mp接口,使用H.248協(xié)議。媒體資源處理設(shè)備4的對外接口為Mb接口,一般采用RTP協(xié)議承載用戶媒體流。
圖2為在固定軟交換網(wǎng)絡(luò)中,處理媒體資源業(yè)務(wù)的網(wǎng)絡(luò)架構(gòu)。其中,媒體資源服務(wù)器(Media Resource Server,MRS)相當(dāng)于WCDMA IMS網(wǎng)絡(luò)中的媒體資源控制設(shè)備3和媒體資源處理設(shè)備4的功能,應(yīng)用服務(wù)器相當(dāng)于WCDMA IMS網(wǎng)絡(luò)中的應(yīng)用服務(wù)器1和業(yè)務(wù)呼叫會話控制設(shè)備2的功能,以及軟交換設(shè)備和應(yīng)用服務(wù)器1功能大致相同。
本發(fā)明所提供通過H.248協(xié)議實(shí)現(xiàn)文語轉(zhuǎn)換功能的方法可以應(yīng)用于圖1所示的WCDMA IMS網(wǎng)絡(luò)、以及圖2所示的固定軟交換網(wǎng)絡(luò)中的媒體資源處理。同樣也可以應(yīng)用于其它網(wǎng)絡(luò),如CDMA網(wǎng)絡(luò)和固定IMS網(wǎng)絡(luò),其媒體資源應(yīng)用場景的架構(gòu)和業(yè)務(wù)流程和上述WCDMA IMS的基本相同,以及WCDMA、CDMA電路軟交換網(wǎng)絡(luò),其媒體資源應(yīng)用架構(gòu)和業(yè)務(wù)流程和固定軟交換網(wǎng)絡(luò)基本相同。也就是,本發(fā)明可以應(yīng)用于所有通過H.248協(xié)議控制媒體資源設(shè)備實(shí)現(xiàn)文語轉(zhuǎn)換功能的情況。
以下將以應(yīng)用于WCDMA IMS為例,同時參考
本發(fā)明所提供的通過H.248協(xié)議實(shí)現(xiàn)文語轉(zhuǎn)換功能的方法。
這里,由于本發(fā)明只涉及圖1所示媒體資源控制設(shè)備3和媒體資源處理設(shè)備4之間的處理過程,而其他過程同現(xiàn)有WCDMA IMS網(wǎng)絡(luò)中的處理過程相同,因此,為了簡化而只對媒體資源控制設(shè)備3和媒體資源處理設(shè)備4之間的處理過程進(jìn)行描述。
如圖3所示,為媒體資源控制設(shè)備3和媒體資源處理設(shè)備4進(jìn)行媒體資源的控制和處理的流程圖。
步驟1,媒體資源控制設(shè)備3向媒體資源處理設(shè)備4發(fā)出進(jìn)行文語轉(zhuǎn)換的指示。
具體地,媒體資源控制設(shè)備3通過定義H.248協(xié)議擴(kuò)展包,在H.248消息中攜帶擴(kuò)展包參數(shù),從而指示媒體資源處理設(shè)備4執(zhí)行文語轉(zhuǎn)換。H.248協(xié)議包定義如下包名稱(Package Name) TTS包(TTS Package)包標(biāo)識(PackageID)ttsp(0x??)說明 略,參見后續(xù)方案的說明版本(Version)1擴(kuò)展(Extends)無1.特性(Properties)無2.事件(Events)參照在后續(xù)“事件”部分中的定義。
3、信號(Signals)參照后續(xù)在“信號”部分的定義。
4.統(tǒng)計(jì)信息(Statistics)無
5.處理(Procedure)對應(yīng)后續(xù)將要描述的流程。
在步驟1中,可以采用多種方式在H.248消息的參數(shù)中攜帶文本串相關(guān)信息(1)在H.248消息的參數(shù)中攜帶文本串文本串是一個能被正確發(fā)音的字符串,如“You are welcome!”該文本串的格式不被處理H.248協(xié)議的功能實(shí)體識別,只是作為一個串嵌入在H.248消息中。媒體資源處理設(shè)備4接收到此參數(shù)后,可以直接提取文本串交給文語轉(zhuǎn)換器處理。
(2)在H.248消息參數(shù)中攜帶文本串文件標(biāo)識和存儲位置信息文本串可以預(yù)先存儲在媒體資源處理設(shè)備4或者外部服務(wù)器上,H.248消息中攜帶該文本串文件的標(biāo)識和存儲位置信息。
文本串文件的標(biāo)識可以是符合文件命名規(guī)范的任意字符串。
文本串文件的存儲位置信息有三種形式I.本地可直接存取的文件,如welcome.txt;II.通過file://方式存取的文件,如file://huawei/welcome.txt;III.通過http://方式存取的文件,如http://huawei/welcome.txt;媒體資源處理設(shè)備接收到此參數(shù)后,根據(jù)文本串文件的存放位置,先從遠(yuǎn)端服務(wù)器或者本地存儲中讀取文本文件,放入緩存,再調(diào)用文語轉(zhuǎn)換器處理。
(3)在H.248消息參數(shù)中同時攜帶文本串和文本文件,文本串和文件組合執(zhí)行把文本文件標(biāo)識和文本串組合成一個連續(xù)文本串,在文本文件標(biāo)識前面增加特殊的關(guān)鍵字,表示引入一個發(fā)音文本文件,而不是直接轉(zhuǎn)換這個文件名,如<importtextfile http://huawei/welcome.txt>
Do you want to play a game?媒體資源處理設(shè)備4接收到發(fā)音文本串和文本串文件的組合執(zhí)行命令后,先進(jìn)行預(yù)處理,從外部服務(wù)器或者在本地讀取文本串文件,并將其和消息中攜帶的發(fā)音文本串連接成為一個串,放入緩存,再調(diào)用文語轉(zhuǎn)換器處理。
(4)指示對一個文本串或者文本文件做文語轉(zhuǎn)換處理后,再和錄音片段組合成另一個語音段在語音文件標(biāo)識前面增加特殊的關(guān)鍵字,表示引入一個語音文件,而不是直接轉(zhuǎn)換這個文件名,如<importaudiofile http://huawei/welcome.g711>
Do you want to play a game?媒體資源處理設(shè)備4接收到文語轉(zhuǎn)換語音和錄音文件的組合執(zhí)行命令后,先進(jìn)行預(yù)處理,從遠(yuǎn)端服務(wù)器或者本地讀取文件,放入緩存;再調(diào)用文語轉(zhuǎn)換器處理文本串,并將文語轉(zhuǎn)換的輸出語音和語音文件組合成一個語音片段。
另外,在步驟1中,進(jìn)一步在H.248消息中攜帶文語轉(zhuǎn)換輸出的語音屬性參數(shù)。在指示媒體資源處理設(shè)備執(zhí)行文語轉(zhuǎn)換時,可攜帶的與發(fā)音有關(guān)的參數(shù)有(1)發(fā)音語言種類可以使用不同的語言種類,遵從RFC3066的定義。
(2)發(fā)音性別可以是男聲、女聲或者中性聲音;(3)發(fā)音年齡可以是孩童聲音、成年人聲音、或者老年聲音;(4)發(fā)音速度發(fā)音速度可以比正常語速更快或者更慢,用百分比表示,-20%表示比正常速度慢20%。
(5)發(fā)音音量發(fā)音音量可以比正常音調(diào)更高或者更低,用百分比表示,-20%表示比正常音調(diào)低20%。
(6)發(fā)音音調(diào)發(fā)音音調(diào)可以比正常音調(diào)更高或者更低,用百分比表示,-20%表示比正常音調(diào)低20%。
(7)特殊文字的發(fā)音方式對文本串中的特殊字規(guī)定發(fā)音方式。如“2005/10/01”的發(fā)音為“2005年10月1日”。
(8)是否停頓和停頓時長、停頓位置停頓的目的是為了符合發(fā)音習(xí)慣,停頓時長是大于0的一個時間值,停頓位置可以有幾種取值在每讀完一句話后停頓,或者在每讀完一段話后停頓。
(9)是否重讀和重讀級別、重讀的位置重讀級別可以是高、中、低三個級別;重讀的位置可以有幾種取值只在全文開始時重讀,每句話的開始都重讀,每段話的開始都重讀等。
(10)是否預(yù)讀取文本文件若指示預(yù)讀取文件,則在接收到命令后,就到遠(yuǎn)程服務(wù)器讀取文件緩存在本地,否則等到命令執(zhí)行時再讀取文件;(11)文件緩存的時長文件讀取到本地后,緩存多長時間后失效。
(12)是否在用戶輸入DTMF或者語音時,中止文語轉(zhuǎn)換。
在文語轉(zhuǎn)換和自動語音/DTMF識別同時進(jìn)行時,文語轉(zhuǎn)換過程中若用戶輸入DTMF或者語音時,文語轉(zhuǎn)換可以中止。
步驟2,媒體資源處理設(shè)備在接收到媒體資源控制設(shè)備的指示后,確認(rèn)該指示,將確認(rèn)信息反饋媒體資源控制設(shè)備,并調(diào)用文語轉(zhuǎn)換器進(jìn)行文語轉(zhuǎn)換,向用戶播放轉(zhuǎn)換后的語音。
具體地,在H.248協(xié)議包中定義了信號(Signal),包括(1)指示播放TTS文件的信號;(2)指示播放TTS串的信號;(3)指示播放TTS串、TTS文件以及語音片斷的信號;(4)指示設(shè)置重音的信號;(5)指示設(shè)置停頓的信號;以及(6)指示特殊字詞的信號,這些信號分別表示如下(1)播放TTS文件(Play TTS File),用于指示執(zhí)行文語轉(zhuǎn)換功能。信號名(Signal Name) 播放TTS文件(P1ay TTS File)
信號標(biāo)識(SignalID) ptf(0x??)說明(Description) 對文本串文件執(zhí)行TTS功能信號類型(SignalType)BR時長(Duration) 不可用(Not Applicable)其附加參數(shù)(Additional Parameter)包括I.
參數(shù)名(Parameter Name) TTS文件參數(shù)標(biāo)識(Parameter ID) tf(0x??)說明TTS文件名和存儲位置類型(Type) 字符串(String)是否可選(Optional) 否可能取值(Possible Value)合法的文件標(biāo)識和存儲格式默認(rèn)值(Default) 無II.
參數(shù)名 語言類型(Language Type)參數(shù)標(biāo)識lt(0x??)說明語言類型類型字符串是否可選否可能值 遵從RFC3066協(xié)議默認(rèn)值 無III.
參數(shù)名 性別(Gender)參數(shù)標(biāo)識ge(0x??)說明發(fā)音性別類型字符串是否可選否可能值 男,女,中性默認(rèn)值 無IV.
參數(shù)名 年齡(Age)參數(shù)標(biāo)識ag(0x??)說明發(fā)音年齡類型字符串是否可選否可能值 孩子,成人,老人默認(rèn)值 無V.
參數(shù)名 速度(Speed)參數(shù)標(biāo)識sp(0x??)說明發(fā)音速度類型整數(shù)是否可選yes可能值 從-100%到100%之間的值默認(rèn)值 無VI.
參數(shù)名 音量(Volume)參數(shù)標(biāo)識vo(0x??)說明發(fā)音音量類型整數(shù)是否可選 是可能值 從-100%到100%之間的值默認(rèn)值 無VII.
參數(shù)名 音調(diào)(Tone)參數(shù)標(biāo)識 to(0x??)說明 發(fā)音音調(diào)類型 整數(shù)是否可選 是可能值 從-100%到100%之間的值默認(rèn)值 無VII.
參數(shù)名 預(yù)讀文件(Prefetch)參數(shù)標(biāo)識 pf(0x??)說明 預(yù)讀取文本串文件類型 enum是否可選 是可能值 是,否默認(rèn)值 是VIII.
參數(shù)名 緩存時間(Cache Time)參數(shù)標(biāo)識 ct(0x??)說明 文件緩存時長類型 整數(shù)是否可選 是可能值 大于0秒默認(rèn)值 無IX.
參數(shù)名 DTMF插入?yún)?shù)標(biāo)識 dbi(0x??)說明 在用戶輸入DTMF時,中止文語轉(zhuǎn)換類型 enum是否可選 是可能值 是,否默認(rèn)值 無X.
參數(shù)名 voice barge in參數(shù)標(biāo)識 vbi(0x??)說明 在用戶輸入者語音時,中止文語轉(zhuǎn)換類型 整數(shù)是否可選 是可能值 大于0秒默認(rèn)值 無(2)播放TTS串(Play TTS String),用于指示對文本串執(zhí)行TTS功能。
信號名稱播放TTS串信號標(biāo)識pts(0x??)說明指示對文本串執(zhí)行TTS功能信號類型BR時長不可用其附加參數(shù)包括I.
參數(shù)名 TTS串(TTS String)參數(shù)標(biāo)識 ts(0x??)說明 可進(jìn)行發(fā)音的文本串類型 字符串是否可選 否可能值 可進(jìn)行發(fā)音的文本串默認(rèn)值 無II.其它參數(shù)和“播放TTS文件”信號的II、III、IV、V、VI、IX、X相同。
(3)播放TTS串、TTS文件以及語音片斷信號名稱 播放組合(Play union)信號標(biāo)識 pu(0x??)說明 播放TTS串、TTS文件、語音片段文件的組合信號類型 BR時長 不可用其附加參數(shù)包括I.
參數(shù)名 TTS和語音片斷參數(shù)標(biāo)識 ta(0x??)說明 播放TTS串、TTS文件、語音片段文件的組合類型 字符串是否可選 No可能值 播放TTS串、TTS文件、語音片段文件的組合默認(rèn)值 無
II.其它參數(shù)和“播放TTS文件”信號的II、III、IV、V、VI、IX、X相同。但I(xiàn)I、III、IV、V、VI參數(shù)只適用于TTS轉(zhuǎn)換過程。
(4)設(shè)置重音(Set Accentuation),用于指示TTS的重讀級別和位置。
信號名稱設(shè)置重讀(Set Accentuation)信號標(biāo)識sa(0x??)說明指示TTS的重讀級別和位置信號類型BR時長 不可用其附加參數(shù)包括I.
參數(shù)名 重讀位置(Accentuation Position)參數(shù)標(biāo)識ap(0x??)說明重讀位置類型字符串是否可選是可能值 開始位置,句子開頭,段落開頭默認(rèn)值 無II.
參數(shù)名 重讀級別(Accentuation Grade)參數(shù)標(biāo)識ag(0x??)說明重讀級別類型字符串是否可選是可能值 高,中,低默認(rèn)值 無
(5)設(shè)置停頓(Set Break),用于指示TTS的停頓位置和時長。
信號名稱 設(shè)置停頓(Set Break)信號標(biāo)識 sb(0x??)說明 指示TTS的停頓位置和時長類型信號 BR時長 不可用其附加參數(shù)包括I.
參數(shù)名 停頓位置(Break Position)參數(shù)標(biāo)識 bp(0x??)說明 停頓位置類型 字符串是否可選 否可能值 句子的結(jié)尾,段落的結(jié)尾默認(rèn)值 無II.
參數(shù)名 停頓時長(Break Time)參數(shù)標(biāo)識 bt(0x??)說明 停頓時長類型 整數(shù)是否可選 yes可能值 大于0毫秒默認(rèn)值 無(6)特殊字詞(Special Words),用于指示TTS對特殊字詞的發(fā)音方法。信號名稱(Signal Name) 特殊字詞信號標(biāo)識(SignalID)sw(0x??)說明 指示TTS對特殊字詞的發(fā)音方法類型信號 BR時長不可用其附加參數(shù)參數(shù)包括I.
參數(shù)名目標(biāo)字詞(Destination Words)參數(shù)標(biāo)識 dw(0x??)說明 文本串中的原始字詞類型 字符串是否可選 是可能值任何默認(rèn)值無II.
參數(shù)名取代發(fā)音(Say As)參數(shù)標(biāo)識 sa(0x??)說明 取代的發(fā)音方法類型 字符串是否可選 是可能值任何默認(rèn)值無步驟3,媒體資源控制設(shè)備3指示媒體資源處理設(shè)備檢測文語轉(zhuǎn)換結(jié)果。
步驟4,媒體資源處理設(shè)備4在接收到該指示之后,確認(rèn)并返回確認(rèn)信息。
步驟5,媒體資源控制設(shè)備3對文語轉(zhuǎn)換過程進(jìn)行控制,該控制包括1、暫停暫時停止對用戶播放轉(zhuǎn)換后的語音;
2、恢復(fù)恢復(fù)以上暫停狀態(tài)到播放狀態(tài);3、快進(jìn)和快進(jìn)到的位置,有多種指示方法(1)快進(jìn)若干個字;(2)快進(jìn)到后面某一句的開始;(3)快進(jìn)到后面某一段開始;(4)快進(jìn)若干秒;(5)快進(jìn)若干語音單位(語音單位由實(shí)現(xiàn)自定義,如10s)。
4、快退和快退的位置,有多種指示方法(1)快退若干個字;(2)快退到前面某一句開始;(3)快退到前面某一段開始;(4)快退若干秒;(5)快退若干語音單位(語音單位由實(shí)現(xiàn)自定義,如10s)。
5、重新開始文語轉(zhuǎn)換;6、文語轉(zhuǎn)換結(jié)束用戶中止7、重復(fù)和重復(fù)的范圍,有多種指示方法(1)重復(fù)當(dāng)前句;(2)重復(fù)當(dāng)前段;(3)重復(fù)全文;8、取消重復(fù)取消上述的重復(fù)播放;9、重新設(shè)置文語轉(zhuǎn)換參數(shù),包括上述的音調(diào)、音量、音速、發(fā)音性別、發(fā)音年齡、重讀位置、停頓位置和時長等參數(shù)。
具體地,在H.248協(xié)議包中的定義為信號包括TTS暫停、(1)TTS暫停(TTS Pause),用于指示暫停TTS。
信號名稱 TTS暫停(TTS pause)信號標(biāo)識 tp(0x??)說明 指示暫停TTS
類型信號 BR時長 不可用附加參數(shù)無(2)TTS恢復(fù)(TTS Resume),用于指示恢復(fù)TTS暫停。
信號名稱 TTS恢復(fù)(TTS Resume)信號標(biāo)識 tr(0x??)說明 指示恢復(fù)TTS暫停類型信號 BR時長不可用附加參數(shù)無(3)TTS跳過字詞(TTS Jump Words),用于指示跳過幾個字后繼續(xù)進(jìn)行。
信號名稱 TTS跳過字詞信號標(biāo)識 tjw(0x??)說明 指示跳到某一個位置繼續(xù)進(jìn)行類型信號 BR時長 不可用附加參數(shù)I.
參數(shù)名 跳過多少(Jump Size)參數(shù)標(biāo)識 js(0x??)說明 跳過的字個數(shù),正表示向后,負(fù)表示向前類型 整數(shù)是否可選 否可能值 任何默認(rèn)值 無(4)TTS跳過句子(TTS Jump Sentences),用于指示跳過幾個句子后繼續(xù)進(jìn)行。
信號名稱 TTS jump sentences信號標(biāo)識 tjs(0x??)說明 指示跳過幾個句子后繼續(xù)進(jìn)行類型信號 BR時長 不可用附加參數(shù)包括I.
參數(shù)名 跳過多少參數(shù)標(biāo)識 js(0x??)說明 跳轉(zhuǎn)的句子個數(shù),正表示向后,負(fù)表示向前類型 整數(shù)是否可選 否可能值 任何默認(rèn)值 無(5)TTS跳過段落(TTS Jump Paragraphs),用于指示跳過幾個段落后繼續(xù)進(jìn)行。
信號名稱 TTS跳過段落信號標(biāo)識 tjp(0x??)說明 指示跳過幾個段落后繼續(xù)進(jìn)行類型信號 BR時長 不可用附加參數(shù)包括I.
參數(shù)名 跳過多少參數(shù)標(biāo)識js(0x??)說明跳轉(zhuǎn)的段落個數(shù),正表示向后,負(fù)表示向前類型整數(shù)是否可選否可能值 任何默認(rèn)值 無(6)TTS跳過秒數(shù)(TTS Jump Seconds),用于指示跳過幾秒的語音后繼續(xù)進(jìn)行。
信號名稱TTS跳過秒數(shù)信號標(biāo)識tjs(0x??)說明指示跳過幾秒語音后繼續(xù)進(jìn)行類型信號BR時長不可用附加參數(shù)包括I.
參數(shù)名 跳過多少參數(shù)標(biāo)識js(0x??)說明跳轉(zhuǎn)的秒數(shù),正表示向后,負(fù)表示向前類型整數(shù)是否可選否可能值 任何默認(rèn)值 無(7)TTS跳過語音單元(TTS Jump Voice Unit),用于指示跳過幾個語音單元后繼續(xù)進(jìn)行。
信號名稱 TTS跳過語音單元信號標(biāo)識 tjvu(0x??)說明 指示跳過幾個語音單元后繼續(xù)進(jìn)行,語音單元大小實(shí)現(xiàn)自定義類型信號 BR時長 不可用附加參數(shù)包括I.
參數(shù)名跳過多少參數(shù)標(biāo)識 js(0x??)說明 跳轉(zhuǎn)的語音單元數(shù),正表示向后,負(fù)表示向前類型 整數(shù)是否可選 否可能值任何默認(rèn)值無(8)TTS重新開始(TTS Restart)信號名稱 TTS重新開始信號標(biāo)識 tr(0x??)說明 TTS重新開始類型信號 BR時長 不可用附加參數(shù)無(9)TTS結(jié)束(TTS End)信號名稱 TTS結(jié)束信號標(biāo)識te(0x??)說明TTS結(jié)束類型信號BR時長不可用附加參數(shù)無(10)TTS重復(fù)(TTS Repeat),指示重復(fù)進(jìn)行TTS的某一段文字。
信號名稱TTS重復(fù)信號標(biāo)識tre(0x??)說明重復(fù)進(jìn)行TTS的某一段文字類型信號BR時長 不可用附加參數(shù)包括I.
參數(shù)名 重復(fù)位置參數(shù)標(biāo)識pos(0x??)說明重復(fù)位置類型字符串是否可選否可能值 當(dāng)前句子,當(dāng)前段落,所有內(nèi)容默認(rèn)值 無是否可選yes可能值 大于0秒步驟6,媒體資源處理設(shè)備4在接收到該指示之后,確認(rèn)并返回確認(rèn)信息。
步驟7,媒體資源處理設(shè)備4將在文語轉(zhuǎn)換過程中檢測到的事件如正常結(jié)束,超時等反饋給媒體資源控制設(shè)備3。
文語轉(zhuǎn)換過程檢測到的事件包括異常情況下的錯誤碼、以及正常轉(zhuǎn)換結(jié)束時描述結(jié)果的參數(shù)。
1、文語轉(zhuǎn)換功能執(zhí)行的錯誤碼媒體資源處理設(shè)備在執(zhí)行文語轉(zhuǎn)換過程中,若產(chǎn)生異常,要向媒體資源控制設(shè)備返回具體的錯誤碼。錯誤碼的具體值由標(biāo)準(zhǔn)組織統(tǒng)一分配,內(nèi)容包括(1)不能識別的單詞或者字;(2)不能發(fā)音的字;(3)文本串文件不存在;(4)文本串文件讀取錯誤;(5)參數(shù)不支持或者錯誤;(6)對文語轉(zhuǎn)換的控制不支持或者錯誤;(7)媒體資源處理設(shè)備硬件錯誤;(8)媒體資源處理設(shè)備軟件錯誤;(9)其它錯誤。
2、文語轉(zhuǎn)換正常結(jié)束后返回的描述結(jié)果的參數(shù)文語轉(zhuǎn)換正常結(jié)束時,可以返回以下信息(1)文語轉(zhuǎn)換過程正常結(jié)束;(2)用戶輸入觸發(fā)文語轉(zhuǎn)換中止用戶輸入中止鍵,用戶輸入DTMF,用戶輸入語音。
(3)統(tǒng)計(jì)信息向用戶播放的文語轉(zhuǎn)換語音時長。
具體如下事件(1)TTS執(zhí)行失敗(TTS Failure)事件名(Event Name) TTS執(zhí)行失敗事件標(biāo)識(EventID) ttsfail(0x??)說明文語轉(zhuǎn)換執(zhí)行失敗,返回錯誤碼事件說明參數(shù)(EventDescriptor Parameters) 無檢測到的事件參數(shù)(ObservedEventDescriptor parameters)包括I.
參數(shù)名 錯誤返回碼(Error Return Code)參數(shù)標(biāo)識erc(0x??)說明錯誤碼參數(shù)參數(shù)類型整數(shù)是否可選否可能值 以上方案定義的錯誤碼默認(rèn)值 無(2)TTS執(zhí)行完成(TTS Success)事件名稱TTS執(zhí)行完成事件標(biāo)識ttssuss(0x??)說明文語轉(zhuǎn)換執(zhí)行完成,返回結(jié)果事件說明參數(shù)無檢測到的事件參數(shù)(ObservedEventDescriptor parameters)包括L.
參數(shù)名 結(jié)束原因(End Cause)參數(shù)標(biāo)識ec(0x??)說明觸發(fā)文語轉(zhuǎn)換結(jié)束的原因類型整數(shù)是否可選是可能值 轉(zhuǎn)換完成,用戶輸入DTMF、用戶輸入語音默認(rèn)值 無II.
參數(shù)名 TTS時間(TTS Time)
參數(shù)標(biāo)識 tt(0x??)說明 執(zhí)行文語轉(zhuǎn)換的時長類型 整數(shù)是否可選 是可能值 大于0秒默認(rèn)值 無步驟8,媒體資源控制設(shè)備3將確認(rèn)消息反饋給媒體資源處理設(shè)備4,文語轉(zhuǎn)換結(jié)束。
通過本發(fā)明提供的方法,可以在移動或者固網(wǎng)的媒體資源應(yīng)用中,給用戶提供文語轉(zhuǎn)換相關(guān)的業(yè)務(wù)應(yīng)用,如把網(wǎng)頁上的內(nèi)容轉(zhuǎn)成聲音讀給用戶聽。同時,在修改時只需修改文本,不需要重新錄音,并且可以根據(jù)用戶需求播放更個性化的提示音。
可以理解的是,本發(fā)明并不限于上述的實(shí)施例,本領(lǐng)域的技術(shù)人員可以在理解本發(fā)明的基礎(chǔ)上進(jìn)行相應(yīng)的變更或者修飾。例如,媒體資源控制設(shè)備3可以同時向媒體資源處理設(shè)備4發(fā)出上述步驟1和步驟3中的指示,并且媒體資源處理設(shè)備4可以同時執(zhí)行步驟2和步驟4中的操作。
權(quán)利要求
1.一種實(shí)現(xiàn)文語轉(zhuǎn)換功能的方法,其特征在于,媒體資源控制設(shè)備通過H.248協(xié)議,控制媒體資源處理設(shè)備實(shí)現(xiàn)文語轉(zhuǎn)換,該方法包括以下步驟步驟一,媒體資源控制設(shè)備通過定義H.248協(xié)議擴(kuò)展包,在H.248消息中攜帶擴(kuò)展包參數(shù),指示媒體資源處理設(shè)備執(zhí)行與該參數(shù)相應(yīng)的文語轉(zhuǎn)換處理;以及步驟二,媒體資源處理設(shè)備根據(jù)上述消息中的參數(shù)調(diào)用文語轉(zhuǎn)換器執(zhí)行文語轉(zhuǎn)換處理,并將文語轉(zhuǎn)換結(jié)果反饋媒體資源控制設(shè)備。
2.如權(quán)利要求1所述的方法,其特征在于,該擴(kuò)展包參數(shù)中攜帶有文本串的相關(guān)信息,媒體資源處理設(shè)備根據(jù)該文本串的相關(guān)信息,調(diào)用文語轉(zhuǎn)換器進(jìn)行文語轉(zhuǎn)換。
3.如權(quán)利要求2所述的方法,其特征在于,上述文本串的相關(guān)信息為該文本串本身,其作為能被正確發(fā)音的字符串嵌入在H.248消息中,媒體資源處理設(shè)備接收到該文本串后,直接提取該文本串調(diào)用文語轉(zhuǎn)換器進(jìn)行文語轉(zhuǎn)換。
4.如權(quán)利要求2所述的方法,其特征在于,當(dāng)文本串預(yù)先存儲在媒體資源處理設(shè)備或者外部服務(wù)器上時,上述文本串的相關(guān)信息為包括該文本串的標(biāo)識和存儲位置信息的文本文件,媒體資源處理設(shè)備接收到上述文本文件后,根據(jù)其中的存儲位置信息,從本地或者外部服務(wù)器讀取文本串放入緩存,并調(diào)用文語轉(zhuǎn)換器進(jìn)行文語轉(zhuǎn)換。
5.如權(quán)利要求2所述的方法,其特征在于,上述文本串的相關(guān)信息包括文本串和另一文本串的文本文件,該文本文件包括該另一文本串的標(biāo)識和存儲位置信息,該文本文件的標(biāo)識和文本串組合成連續(xù)文本串,并在文本文件標(biāo)識前增加關(guān)鍵詞標(biāo)識該組合為一發(fā)音文本文件,媒體資源處理設(shè)備接收到該組合后,首先從本地或者外部服務(wù)器讀取文本串,將其和H.248消息中攜帶的發(fā)音文本串進(jìn)行串接后放入緩存,然后調(diào)用文語轉(zhuǎn)換器進(jìn)行文語轉(zhuǎn)換。
6.如權(quán)利要求2所述的方法,其特征在于,上述文本串的相關(guān)信息包括一文本串和一錄音文件的組合,并在文本串前增加關(guān)鍵詞標(biāo)識該組合為一語音文件,媒體資源處理設(shè)備接收到該組合后,首先調(diào)用文語轉(zhuǎn)換器對文本串進(jìn)行文語轉(zhuǎn)換,然后將文語轉(zhuǎn)換后輸出的語音與錄音文件組合一語音片斷。
7.如權(quán)利要求2所述的方法,其特征在于,上述文本串的相關(guān)信息包括一文本文件和一錄音文件的組合,該文本文件包括該另一文本串的標(biāo)識和存儲位置信息,并在該標(biāo)識前增加關(guān)鍵詞標(biāo)識該組合為一語音文件,媒體資源處理設(shè)備接收到該組合后,首先根據(jù)存儲位置信息從本地或者外部服務(wù)器讀取文本串放入緩存,然后調(diào)用文語轉(zhuǎn)換器對讀取的文本串進(jìn)行文語轉(zhuǎn)換,并將文語轉(zhuǎn)換后輸出的語音與錄音文件組合一語音片斷。
8.如權(quán)利要求2所述的方法,其特征在于,該H.248消息中進(jìn)一步攜帶有文語轉(zhuǎn)換輸出的語音屬性的相關(guān)參數(shù),該相關(guān)參數(shù)包括發(fā)音語言種類、發(fā)音性別、發(fā)音年齡、發(fā)音速度、發(fā)音音量、發(fā)音音調(diào)、特殊文字的發(fā)音方式、停頓、重讀、或者在用戶輸入時是否中止文語轉(zhuǎn)換,媒體資源處理設(shè)備接收到該相關(guān)參數(shù)后調(diào)用文語轉(zhuǎn)換器為輸出的語音設(shè)置相應(yīng)的屬性。
9.如權(quán)利要求1至8任何一項(xiàng)所述的方法,其特征在于,在步驟二中媒體資源處理設(shè)備調(diào)用文語轉(zhuǎn)換器執(zhí)行文語轉(zhuǎn)換過程中,進(jìn)一步包括步驟21,媒體資源控制設(shè)備指示媒體資源處理設(shè)備檢測語音識別過程中發(fā)生的異常事件。
10.如權(quán)利要求9所述的方法,其特征在于,在檢測到異常事件時,媒體資源處理設(shè)備將表示異常事件相應(yīng)的錯誤碼反饋給媒體資源控制設(shè)備。
11.如權(quán)利要求9所述的方法,其特征在于,在步驟二中媒體資源處理設(shè)備調(diào)用文語轉(zhuǎn)換器執(zhí)行文語轉(zhuǎn)換過程中,進(jìn)一步包括步驟22,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程進(jìn)行控制。
12.如權(quán)利要求11所述的方法,其特征在于,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程的控制包括暫時停止對用戶播放文語轉(zhuǎn)換后的語音。
13.如權(quán)利要求12所述的方法,其特征在于,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程的控制進(jìn)一步包括從上述暫停狀態(tài)恢復(fù)到播放狀態(tài)。
14.如權(quán)利要求11所述的方法,其特征在于,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程的控制包括使播放快進(jìn)或者快退,該快進(jìn)包括快進(jìn)若干字、句子或者段落,或者快進(jìn)若干秒,該快退包括包括快退若干字、句子或者段落,或者快退若干秒。
15.如權(quán)利要求11所述的方法,其特征在于,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程的控制包括重新開始文語轉(zhuǎn)換。
16.如權(quán)利要求11所述的方法,其特征在于,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程的控制包括用戶中止文語轉(zhuǎn)換。
17.如權(quán)利要求11所述的方法,其特征在于,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程的控制包括重復(fù)播放當(dāng)前句、段落或者全文。
18.如權(quán)利要求17所述的方法,其特征在于,媒體資源控制設(shè)備對文語轉(zhuǎn)換過程的控制進(jìn)一步包括取消對當(dāng)前句、段落或者全文的重復(fù)播放。
全文摘要
一種實(shí)現(xiàn)文語轉(zhuǎn)換功能的方法,其中,媒體資源控制設(shè)備通過H.248協(xié)議,控制媒體資源處理設(shè)備實(shí)現(xiàn)文語轉(zhuǎn)換。該方法包括以下步驟媒體資源控制設(shè)備通過定義H.248協(xié)議擴(kuò)展包,在H.248消息中攜帶擴(kuò)展包參數(shù),指示媒體資源處理設(shè)備執(zhí)行與該參數(shù)相應(yīng)的文語轉(zhuǎn)換處理;以及,媒體資源處理設(shè)備根據(jù)上述消息中的參數(shù)調(diào)用文語轉(zhuǎn)換器執(zhí)行文語轉(zhuǎn)換處理,并將文語轉(zhuǎn)換結(jié)果反饋媒體資源控制設(shè)備。通過本發(fā)明提供的方法,可以在移動或者固網(wǎng)的媒體資源應(yīng)用中給用戶提供文語轉(zhuǎn)換相關(guān)的業(yè)務(wù)應(yīng)用,同時,在修改時只需修改文本,不需要重新錄音,并且可以根據(jù)用戶需求播放更個性化的提示音。
文檔編號G10L13/04GK1953053SQ20051011427
公開日2007年4月25日 申請日期2005年10月21日 優(yōu)先權(quán)日2005年10月21日
發(fā)明者陳誠 申請人:華為技術(shù)有限公司