專利名稱:通信系統(tǒng)中文本到話音的本地編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及文本到話音的合成,更具體地涉及在使用本地話音編碼(native speech coding)通信系統(tǒng)中的文本到話音的合成。
背景技術(shù):
無線通信系統(tǒng),諸如蜂窩電話,不再僅僅被看作是語音裝置。隨著客戶可用的基于數(shù)據(jù)的無線業(yè)務(wù)的出現(xiàn),對于傳統(tǒng)的蜂窩電話來說就產(chǎn)生了一些嚴(yán)重問題。例如,當(dāng)前蜂窩電話只能在小屏幕上以文本格式提供數(shù)據(jù)業(yè)務(wù)。為了得到數(shù)據(jù)或消息,需要屏幕滾動(dòng)或其他的用戶操作。還有,與陸線系統(tǒng)相比,無線系統(tǒng)具有更高的數(shù)據(jù)誤差率并且受到頻譜約束,這使得向蜂窩用戶提供實(shí)時(shí)流音頻,即實(shí)音頻變得不切實(shí)際。一種解決這些問題的方法是文本到話音的編碼。
把文本轉(zhuǎn)換為話音的處理通常分解為兩個(gè)主要塊文本分析和話音合成。文本分析就是把文本轉(zhuǎn)換為可以被合成的語言描述的一種處理。這種語言描述通常包括要被合成的話音的發(fā)音和確定該話音的語調(diào)(prosody)的其他屬性。這些其他屬性可以包括(1)音節(jié),單詞,詞組和分句界限;(2)音節(jié)重音;(3)話音部分信息;和(4)諸如ToBI標(biāo)記系統(tǒng)所提供的語調(diào)顯式表示,ToBI標(biāo)記系統(tǒng)是本領(lǐng)域公知的,并且在有關(guān)口語處理的第二次國際會議(ICSLP92)TOBI中Silverman等人的文章“A Standard for Lableling English Prosody(一種用于標(biāo)記英語語調(diào)的標(biāo)準(zhǔn))”(1992年10月)中作了進(jìn)一步描述。
在語言描述中包括的話音發(fā)音被描述為一連串語音單位(phoneticunit)。這些語音單位通常是音位或語音(phonics)或音位變形,音位或語音是特殊的物理話音,音位變形是表達(dá)一個(gè)音位的特殊方式。(音位是語言的說話人所察覺的話音)。例如,英語音位“t”可以表達(dá)為后跟一個(gè)爆破音的閉音,聲門塞音,或閃音(flap)。這些中的每一個(gè)都表示不同的音位變形“t”。有時(shí)使用的其他語音單位是半音節(jié)和雙音位。半音節(jié)是半個(gè)音節(jié),而雙音位是兩個(gè)語音序列。
可以使用一個(gè)基于規(guī)則的系統(tǒng)從語音學(xué)中產(chǎn)生話音合成。例如,語音單位對于每個(gè)段類型具有一個(gè)目標(biāo)音位(phenome)聲學(xué)參數(shù)(例如持續(xù)時(shí)間和語調(diào)),并且具有用于使各段之間的參數(shù)轉(zhuǎn)換平滑的規(guī)則。在一種典型的連接系統(tǒng)中,語音成分具有在自然話音中出現(xiàn)的一段的一個(gè)參數(shù)表示,并且連接這些所錄制的段,使用預(yù)定的規(guī)則平滑各段之間的界限。然后為了傳輸,通過一個(gè)聲碼器處理話音。在數(shù)字蜂窩通信裝置中通常使用聲碼器,諸如矢量和或碼激勵(lì)線性預(yù)測(CELP)聲碼器。例如,通過引用包含于此的US專利4,817,157,描述了這樣的一種聲碼器設(shè)備,其被用于其中的全球移動(dòng)通信系統(tǒng)(GSM)。
不幸地是,如在上面描述的文本到話音的處理計(jì)算上復(fù)雜并且量大。例如,在現(xiàn)有的數(shù)字通信系統(tǒng)中,為了把語音質(zhì)量保持在它的最高可能水平上,聲碼器技術(shù)已經(jīng)使用了一個(gè)裝置中的計(jì)算功率極限。但是,在上面描述的文本到話音的處理在除聲碼器處理之外,還需要信號處理。換句話說,把文本轉(zhuǎn)換為聲音、對每個(gè)語音應(yīng)用聲學(xué)參數(shù)、連接以提供有聲信號、以及語音編碼的處理要求比只進(jìn)行語音編碼更多的處理功率。
因此,需要一種改進(jìn)的文本到話音編碼系統(tǒng),其降低要求提供有聲輸出所要求的信號處理量。特別地,能夠使用通信裝置中包含的現(xiàn)有本地話音編碼將是有利的。如果可以使用當(dāng)前的低成本技術(shù)而不需要定制硬件也將是有利的。
圖1表示根據(jù)本發(fā)明的文本到話音系統(tǒng)的流程圖;圖2表示根據(jù)本發(fā)明的文本到語音系統(tǒng)的簡化框圖。
優(yōu)選實(shí)施例的詳細(xì)描述本發(fā)明提供一種改進(jìn)的文本到話音系統(tǒng),其通過利用數(shù)字信號處理器(DSP)和在蜂窩電話中已有的成熟的話音編碼,降低提供語音輸出所要求的信號處理量。特別地,本發(fā)明提供一種系統(tǒng),其使用本地蜂窩話音編碼和通信裝置的現(xiàn)有硬件,把輸入的文本信息轉(zhuǎn)換為語音輸出,而不增加存儲要求或處理功率。
有利地,本發(fā)明利用蜂窩無線電話中的微處理器和DSP之間的現(xiàn)有數(shù)據(jù)接口以及現(xiàn)有的軟件功能。此外,本發(fā)明可以與基于任何文本的數(shù)據(jù)業(yè)務(wù)一起使用,數(shù)據(jù)業(yè)務(wù)例如在全球移動(dòng)通信系統(tǒng)(GSM)中使用的短消息業(yè)務(wù)(SMS)。傳統(tǒng)的蜂窩手機(jī)具有以下適當(dāng)功能(a)從遠(yuǎn)程業(yè)務(wù)提供者取回文本信息的空中接口,(b)把接收到的二進(jìn)制數(shù)據(jù)轉(zhuǎn)換為合適的文本格式的軟件,(c)在輸出裝置播放音頻的音頻服務(wù)軟件,輸出裝置例如是揚(yáng)聲器或耳機(jī),(d)通過數(shù)字信號處理產(chǎn)生人聲音的高效音頻壓縮編碼系統(tǒng),和(e)在微處理器和DSP之間的硬件接口。如本領(lǐng)域已知的,當(dāng)接收一個(gè)基于文本的數(shù)據(jù)消息時(shí),傳統(tǒng)蜂窩手機(jī)將把該信號轉(zhuǎn)換為文本格式(ASCII或統(tǒng)一代碼)。本發(fā)明把該格式化文本串轉(zhuǎn)換為話音。作為選擇,該通信系統(tǒng)的網(wǎng)絡(luò)服務(wù)器可以把該格式化文本串轉(zhuǎn)換為話音并且在一個(gè)語音信道而不是數(shù)據(jù)信道上把該話音傳送到一個(gè)傳統(tǒng)的蜂窩手機(jī)。
圖1和2表示一種根據(jù)本發(fā)明用于把文本轉(zhuǎn)換到話音的方法和系統(tǒng)。在一個(gè)優(yōu)選實(shí)施例中,該文本將被轉(zhuǎn)換為通信系統(tǒng)本地的編碼話音參數(shù),節(jié)省把文本轉(zhuǎn)換為語音以及然后通過一個(gè)聲碼器運(yùn)行語音信號的處理步驟。在本發(fā)明的方法中,第一步驟102包括提供一個(gè)包含編碼話音參數(shù)的代碼表202。這樣的代碼表在本領(lǐng)域是已知的,并且典型地包括碼激勵(lì)線性預(yù)測(CELP)以及其中的矢量和激勵(lì)線性預(yù)測(VSELP)。代碼表202存儲在一個(gè)存儲器中。實(shí)際上,一個(gè)代碼表包含表示關(guān)鍵話音參數(shù)(critical speech parameter)的壓縮音頻數(shù)據(jù)。因此,可以使用這些代碼表編碼并且解碼音頻信息的數(shù)字變換,以便減少提供更高效率的帶寬,而語音質(zhì)量沒有顯著損失。該處理中的下一步驟104是輸入一個(gè)文本消息。優(yōu)選地,該文本消息以一種現(xiàn)有格式被格式化,這種格式能夠被通信系統(tǒng)讀取,而不需要硬件或軟件改變。
接下來的步驟106包括通過音頻服務(wù)器204把該文本消息分為語音。該音頻服務(wù)器204以在該蜂窩手機(jī)的微處理器或DSP中實(shí)現(xiàn),或者可以網(wǎng)絡(luò)服務(wù)器中進(jìn)行。特別地,該文本消息基于一種特定語言的一個(gè)規(guī)則表在一個(gè)音頻服務(wù)器204中進(jìn)行處理,該服務(wù)器204是一個(gè)軟件,該規(guī)則表適合識別那種語言的結(jié)構(gòu)和音位(phenomes)。該音頻服務(wù)器204通過識別空格和標(biāo)點(diǎn)把文本的句子分為單詞,并且進(jìn)一步把單詞分為語音。當(dāng)然,一個(gè)數(shù)據(jù)消息可以包含除了字母之外其它的字符,或可以包含縮寫詞,縮略詞和與正常文本的其他差異。因此,在把文本消息分為句子之前,這些其它的字符或符號,例如“$”,數(shù)字和通用的縮寫詞,將被該音頻服務(wù)器翻譯為他們的相應(yīng)單詞。為了仿真人說話的每個(gè)單詞之間的停頓,在每個(gè)單詞之間插入白噪聲。例如,已經(jīng)發(fā)現(xiàn)15毫秒周期的白噪聲適于分開單詞。
可選地,該文本可以包含特殊字符。特殊字符包括用于編碼話音參數(shù)的修改信息,其中為了提供聽起來更自然的話音信號,在變換(mapping)后,把該修改信息應(yīng)用于編碼話音參數(shù)。例如,可以使用一個(gè)特殊的字符(例如象ASCII符號)來指出一個(gè)單詞的重音或音調(diào)。例如,單詞“manual”可以在文本中表示為“ma’nual”。該音頻服務(wù)器軟件然后可以調(diào)整語音,以便使話音更接近一種自然改變音調(diào)的語音。這種選擇要求文本消息業(yè)務(wù)或音頻服務(wù)器提供這樣的特殊字符。
在語言分析之后,接下來的步驟108包括通過變換單元206對照該代碼表202查找相應(yīng)于來自該音頻服務(wù)器的每個(gè)語音的編碼話音參數(shù),變換每個(gè)語音。特別地,每個(gè)語音變換到一個(gè)相應(yīng)的數(shù)字化語音波形,該波形已經(jīng)以一個(gè)特定蜂窩系統(tǒng)本地的格式進(jìn)行壓縮。例如,如本技術(shù)領(lǐng)域中已知的,在GSM通信系統(tǒng)中,本地格式可以是半速率聲碼器格式。更特別地,每個(gè)語音具有一個(gè)該通信系統(tǒng)本地格式的預(yù)定數(shù)字化波形,該波形預(yù)先存儲在存儲器中。該音頻服務(wù)器204確定一個(gè)語音,并且變換單元206把每個(gè)不同語音和一個(gè)查找表212中的一個(gè)預(yù)定語音的存儲單元索引進(jìn)行匹配,以便指向一個(gè)數(shù)字化波形文件,該文件定義代碼表202的等效的本地編碼話音參數(shù)。優(yōu)選地,使用查找表212,把各個(gè)語音變換到在蜂窩電話聲碼器的現(xiàn)有代碼表中的壓縮和數(shù)字化音頻的存儲位置。對于英語,用GSM語音壓縮算法,查找表的大小可以比一兆字節(jié)稍小。
例如,在英語或類似語言中大約有4119個(gè)可能的語音組合。平均來說,話音的速度大約是200單詞/分鐘(大約是每分鐘500個(gè)語音,每秒6.7個(gè)語音),這樣每個(gè)語音持續(xù)0.15秒。用8kHz的抽樣速率和16-bit的分辨率,大約有2400字節(jié)/語音(0.15秒×8kHz×2字節(jié))。用GSM中所使用的10∶1的聲碼器壓縮,壓縮的數(shù)字化語音大約是240字節(jié)/語音。因此,對于每種具有大約4119語音的語言,查找表的總大小大約是989k字節(jié)。
變換單元(其可以是該音頻服務(wù)器)然后可以使用從文本分為語音學(xué)到的單詞和句子結(jié)構(gòu)的知識,把該語音的數(shù)字化表示以及用于單詞之間的間隔的白噪聲組合為一個(gè)數(shù)據(jù)串。
在接下來的步驟110,相應(yīng)于來自前一個(gè)步驟的每個(gè)語音和適當(dāng)間隔的本地編碼話音參數(shù)隨后在一個(gè)信號處理器208(例如一個(gè)DSP)中進(jìn)行處理,以便向該蜂窩電話手機(jī)的音頻電路210提供解壓縮話音信號,該手機(jī)包括音頻轉(zhuǎn)換器。由于已經(jīng)用本地參數(shù)編碼了語音,因此DSP不需要修改而能正確提供一個(gè)話音信號。為了利用現(xiàn)有的DSP功能,因?yàn)镈SP和它的軟件被設(shè)計(jì)用來解壓縮在現(xiàn)有聲碼器中的特定編碼格式,因此用于話音合成的編碼系統(tǒng)應(yīng)該使用一個(gè)特定蜂窩電話標(biāo)準(zhǔn)。例如,在基于GSM的手機(jī)中,數(shù)字化音頻應(yīng)該以全速率聲碼器編碼格式存儲,并且能夠以半速率聲碼器格式存儲。如果在DSP和微處理器之間的接口共享存儲器,該音頻文件可以直接放入該共享存儲器。一旦句子被組合,將產(chǎn)生一個(gè)中斷,以便觸發(fā)DSP的讀取,然后DSP解壓縮和播放該音頻。如果該接口是串行或并行總線,該壓縮音頻將被存儲在RAM緩沖器中,直到完成句子。在此之后,微處理器將把該數(shù)據(jù)傳送到DSP,以解壓縮和播放。
優(yōu)選地,上面的步驟對于輸入文本中的每個(gè)句子可以被重復(fù)。然而,對于每個(gè)語音它也可以被重復(fù)或一直到可用存儲器的長度。例如,一段、頁或整個(gè)文本可以在被分為語音之前被輸入。在一個(gè)實(shí)施例中,在變換步驟108之后包括一發(fā)射步驟。該發(fā)射步驟包括從一個(gè)網(wǎng)絡(luò)服務(wù)器發(fā)送編碼話音參數(shù)到一個(gè)無線通信裝置,并且其中在該無線通信裝置中執(zhí)行該處理步驟,并且在該網(wǎng)絡(luò)服務(wù)器中執(zhí)行所有這些前面的步驟102-108。但是,在一種優(yōu)選實(shí)施例中,所有的步驟102-110在一無線通信裝置內(nèi)執(zhí)行。該文本消息本身通過一個(gè)網(wǎng)絡(luò)服務(wù)器或另一個(gè)通信服務(wù)器來提供。
不象臺式或膝上型計(jì)算機(jī),蜂窩無線電話是一個(gè)對大小、重量和成本非常敏感的手持裝置。因此,實(shí)現(xiàn)本發(fā)明的文本到話音轉(zhuǎn)換的硬件應(yīng)該使用最小數(shù)量的零件,且應(yīng)該是低成本。語音的查找表應(yīng)該存儲在非易失和高密度的閃存中。因?yàn)殚W存不能隨機(jī)存取,因此語音的數(shù)字?jǐn)?shù)據(jù)在被發(fā)送到DSP之前必須被加載到隨機(jī)存儲器中。最簡單的方法是把整個(gè)查找表變換到該隨機(jī)存儲器,但是對于非常簡單的查找表,這需要至少一兆字節(jié)的存儲器。另一個(gè)選擇是每次從閃存的一個(gè)扇區(qū)加載到該隨機(jī)存儲器,但是這仍然需要64k字節(jié)的額外隨機(jī)存儲器。
為了最小化存儲器要求的目的,可以使用下面的方法(a)在查找表中查找語音的開始和最后地址,(b)在微處理器寄存器中存儲開始和最后地址,(c)使用一個(gè)微處理器寄存器作為計(jì)數(shù)器,在從閃存讀取查找表之前計(jì)數(shù)器設(shè)置為零,對于每個(gè)讀循環(huán)都對該計(jì)數(shù)器加一,(d)以低時(shí)鐘頻率用非同步模式或同步模式從閃存中讀取該查找表,以便該微處理器能夠具有足夠的時(shí)間執(zhí)行讀循環(huán)之間的必須操作,以及(e)通過比較計(jì)數(shù)值和開始地址,使用微處理器寄存器存儲一字節(jié)/字的數(shù)據(jù)。如果計(jì)數(shù)值小于開始地址,返回到前一個(gè)步驟并且從閃存中讀取下一個(gè)字節(jié)/字。如果計(jì)數(shù)值等于或大于開始地址,比較計(jì)數(shù)值和最后地址。如果計(jì)數(shù)值小于最后地址,從微處理器寄存器中把數(shù)據(jù)移入該隨機(jī)存儲器。如果該計(jì)數(shù)值大于最后地址,返回到前一步驟,并且完成對當(dāng)前閃存扇區(qū)的最后的讀取。這樣,隨機(jī)存儲器的要求可以限制到200字節(jié)的大小。從而,對于即使最簡單的蜂窩電話手機(jī)也不需要額外的隨機(jī)存儲器。
在上面的例子中,數(shù)字化語音音頻文件被存儲在閃存中,其可以在一個(gè)扇區(qū)接一個(gè)扇區(qū)的基礎(chǔ)上存取該閃存。但是,加載一個(gè)語音文件的整頁既費(fèi)時(shí)效率又低。一種提高效率的方法是,一旦把一個(gè)存儲器扇區(qū)加載到RAM中,就匹配存儲在同一存儲器扇區(qū)上的所有語音音頻文件。不是對一個(gè)語音加載一個(gè)存儲頁,然后對于下一個(gè)語音加載另一頁,而是可以組合一個(gè)中間陣列,該陣列包括一個(gè)句子中的所有語音的存儲單元。表1表示一個(gè)簡單的語音到存儲單元的查找表。
表1查找表結(jié)構(gòu)
考慮一個(gè)句子,“AB C”,在B和C之間有一個(gè)空格。在一種直接的方法中,頁3加載入RAM中,然后在位置210開始把200個(gè)字節(jié)復(fù)制到一個(gè)存儲緩沖器中。然后加載頁4,在位置1500把180個(gè)字節(jié)復(fù)制到一個(gè)緩沖器中。然后把一個(gè)數(shù)字化白噪聲段復(fù)制到該緩沖器中。之后再加載頁3,在位置1000開始把150個(gè)字節(jié)復(fù)制到該緩沖器中。然后把該文本串轉(zhuǎn)換為音頻。也可以使用一個(gè)間接的方法。該直接和間接方法之間的區(qū)別在于,在直接方法中,軟件不預(yù)先做準(zhǔn)備(look ahead)。因此,在前面的例子,(ABC)中,軟件將加載頁3,查找(locate)并復(fù)制A,然后加載頁4并查找和復(fù)制B,然后再加載頁3并且查找和復(fù)制C,而在間接方法中,軟件將加載頁3并且把A和C復(fù)制到一個(gè)預(yù)先分配的存儲緩沖器中,然后加載頁4并且把B復(fù)制到該緩沖器中。這樣,只需要加載兩頁,節(jié)省時(shí)間和處理器功率。
使用一種中間變換方法,“AB C”被翻譯為一個(gè)存儲單元陣列(memory location array),{3:210:200,4:1500:180,3:1000:150}?;谒蟮目偞笮≈圃煲粋€(gè)存儲數(shù)字化音頻的存儲緩沖器,在這種情況中總的大小是三個(gè)語音的和(200+180+150)加上一個(gè)用于空格的白噪聲段。一旦把頁3加載到存儲器中,就搜索該存儲單元陣列,以便查找所有的音頻文件,在這種情況下是A和C,然后復(fù)制到存儲緩沖器中的相應(yīng)位置。使用該方法,我們可以顯著降低存儲器存儲時(shí)間并提高效率。
實(shí)際上,本發(fā)明使用通信系統(tǒng)中現(xiàn)有的基于文本的消息業(yè)務(wù)。SMS(短消息業(yè)務(wù))是一種在GSM中很普遍的基于文本的消息業(yè)務(wù)。在特定情況下,即駕駛或天太黑而不能閱讀時(shí),非常期望把一個(gè)文本消息轉(zhuǎn)換為話音。此外,所有的當(dāng)前菜單,電話簿和操作提示在當(dāng)前的蜂窩電話中都是文本格式的。對于視力減弱的人,通過這些可視提示進(jìn)行導(dǎo)航是不可能。如上所述的文本到話音(TTS)系統(tǒng)解決了該問題。代替以帶寬加強(qiáng)語音格式發(fā)送數(shù)據(jù)(也可以使用這種方法),本發(fā)明允許使用許多具有低數(shù)據(jù)速率文本格式的通信業(yè)務(wù),例如SMS。使用該方法,有利于以文本形式的實(shí)時(shí)駕駛方向說明、音頻新聞、天氣、位置業(yè)務(wù)、實(shí)時(shí)體育或插播新聞廣播。TTS技術(shù)也為以非常低的成本在蜂窩電話中使用語音游戲應(yīng)用打開了一扇門。
此外,TTS可以用基于文本的消息傳送,從而使用更低帶寬。它不會加重網(wǎng)絡(luò)負(fù)擔(dān)并且加重現(xiàn)有或未來的蜂窩網(wǎng)絡(luò)容量壓力。此外,本發(fā)明允許上層的網(wǎng)絡(luò)操作員用文本消息傳送能力提供廣泛范圍的增值業(yè)務(wù),該能力在他們的網(wǎng)絡(luò)中已經(jīng)存在,而不必購買新帶寬許可和在新設(shè)備上投資。這還可以應(yīng)用于第三方業(yè)務(wù)提供者,在今天和建議的技術(shù)中,在向蜂窩電話用戶提供任何種類的數(shù)據(jù)業(yè)務(wù)時(shí),這些第三方提供者面對甚至比網(wǎng)絡(luò)操作員更高的障礙。由于TTS可以和任何的標(biāo)準(zhǔn)文本通信業(yè)務(wù)一起使用,因此能夠使用文本消息訪問網(wǎng)關(guān)的任何人都可以提供各種業(yè)務(wù)給幾百萬蜂窩電話用戶。隨著技術(shù)和設(shè)備的障礙被消除,許多新的商機(jī)將向獨(dú)立的第三方應(yīng)用提供者敞開。
如現(xiàn)有的移動(dòng)站點(diǎn)(web)應(yīng)用,移動(dòng)TTS應(yīng)用還需要網(wǎng)絡(luò)服務(wù)器支持。該服務(wù)器應(yīng)該基于數(shù)據(jù)通信業(yè)務(wù)量和每個(gè)用戶的費(fèi)用被最佳化。本地服務(wù)器的主要日常成本就是數(shù)據(jù)通信業(yè)務(wù)量。低的數(shù)據(jù)通信業(yè)務(wù)量會降低在投資和日常成本上的服務(wù)器收益。本發(fā)明可以增加低數(shù)據(jù)通信業(yè)務(wù)量并且緩和數(shù)據(jù)通信業(yè)務(wù)量,因?yàn)楫?dāng)數(shù)據(jù)通信業(yè)務(wù)量帶寬不可用時(shí),文本不需要“根據(jù)要求”發(fā)送,而是可以等待更低可用數(shù)據(jù)通信業(yè)務(wù)量的周期。
雖然已經(jīng)在上面的描述和附圖中描述和說明了本發(fā)明,但是應(yīng)該理解,該描述只是通過例子進(jìn)行說明,本領(lǐng)域技術(shù)人員可以進(jìn)行許多改變和修改而不脫離本發(fā)明的范圍。雖然本發(fā)明是在便攜蜂窩無線電話中獲得具體使用,但是本發(fā)明應(yīng)該也可以應(yīng)用于任何通信裝置,包括尋呼機(jī)、電子管理器和計(jì)算機(jī)。本發(fā)明應(yīng)該僅受下面的權(quán)利要求的限制。
權(quán)利要求
1.一種用于在通信系統(tǒng)中把文本轉(zhuǎn)換到話音的方法,該方法包括以下步驟提供包含編碼話音參數(shù)的代碼表;輸入文本消息;把該文本劃分為語音;對照所述代碼表查找相應(yīng)于每個(gè)語音的編碼話音參數(shù),變換每個(gè)語音;和隨后處理從前一個(gè)步驟得到的相應(yīng)于每個(gè)語音的編碼話音參數(shù),以提供話音信號。
2.權(quán)利要求1的方法,其中,劃分步驟包括把所述文本消息劃分為語音、空格和特殊字符。
3.權(quán)利要求2的方法,其中,劃分步驟的特殊字符包括用于該編碼話音參數(shù)的修改信息,其中,在變換步驟之后,進(jìn)一步包括一個(gè)步驟把該修改信息應(yīng)用到該編碼話音參數(shù),以便從該處理步驟中提供聽起來更自然的話音信號。
4.權(quán)利要求1的方法,其中,在提供步驟中,該代碼表包括碼激勵(lì)線性預(yù)測參數(shù)或矢量和激勵(lì)線性預(yù)測參數(shù)中的一個(gè)。
5.權(quán)利要求1的方法,其中,在提供步驟中,該代碼表是在該通信系統(tǒng)中的聲碼器中使用的現(xiàn)有代碼表。
6.權(quán)利要求1的方法,其中,這些步驟在一個(gè)無線通信裝置中執(zhí)行。
7.權(quán)利要求1的方法,其中,在變換步驟之后,進(jìn)一步包括從網(wǎng)絡(luò)服務(wù)器把該編碼話音參數(shù)發(fā)射到無線通信裝置的步驟,并且在所述無線通信裝置中執(zhí)行該處理步驟,并且在該網(wǎng)絡(luò)服務(wù)器中執(zhí)行所有之前的步驟。
全文摘要
一種在通信裝置中把文本轉(zhuǎn)換到話音的方法,包括提供(102)包含編碼話音參數(shù)的代碼表。接下來的步驟包括輸入(104)文本消息到通信裝置中,并且把該文本消息劃分(106)為語音。接下來的步驟包括對照該代碼表變換(108)每個(gè)語音,以查找相應(yīng)于每個(gè)語音的編碼話音參數(shù)。下一個(gè)步驟包括處理(110)相應(yīng)于每個(gè)語音的編碼話音參數(shù),以提供音頻信號。這樣,文本可以直接被變換到一個(gè)聲碼器表,而不需要中間的翻譯步驟。
文檔編號G10L13/08GK1559068SQ02818782
公開日2004年12月29日 申請日期2002年8月23日 優(yōu)先權(quán)日2001年9月25日
發(fā)明者伍濱, 何帆, 伍 濱 申請人:摩托羅拉公司