專利名稱:混合語言文語轉(zhuǎn)換的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總的來說涉及文語轉(zhuǎn)換(TTS)合成。具體的說,本發(fā)明適用于多語言文本合成發(fā)音的字母到語音的轉(zhuǎn)換。
背景技術(shù):
文語(TTS)轉(zhuǎn)換,通常被稱為拼接文語轉(zhuǎn)換合成,允許電子裝置接收輸入文本字符串,并以合成語音的形式提供該字符串的轉(zhuǎn)換的表示。然而,可能需要一種裝置合成來自數(shù)目不定的接收文本字符串的語音,這將導(dǎo)致在提供高質(zhì)量的實際合成語音時出現(xiàn)困難。一個難點是基于在字母到語音轉(zhuǎn)換中,根據(jù)其他相鄰字母以及在要合成的文本段中的位置,相同字母或字母組可能具有不同的發(fā)音以及元音重音/重點。
出現(xiàn)了混合語言TTS合成,并將其應(yīng)用到多個領(lǐng)域,例如呼叫中心和手持裝置等。在下文中,混合語言TTS指的是用于可從文本字符串的分析中識別和檢測兩種或多種語言的語音合成技術(shù)。當(dāng)考慮兩種語言文本字符串的混合語言TTS時,一種包含大部分文本的占有優(yōu)勢的語言通常被稱為主要語言,并且另一種是次要語言。通常,例如亞洲語言(普通話、廣東話、日語、韓語、泰語等)的主要語言和英語混合。
在基于拼接合成的TTS系統(tǒng)中,通過將若干語音段拼接在一起合成話語。雖然將拼接語音合成被認(rèn)為是實現(xiàn)實際混合語言TTS系統(tǒng)的非常有希望的方法,但是識別語音單元、音素以及它們對應(yīng)的聲學(xué)單元還是有問題的。同樣,在每一拼接點或在兩個連續(xù)單元之間的聽覺不連續(xù)性影響了合成的語音質(zhì)量。此外,在每一拼接點的語音平滑濾波以及在兩種語言的合成語音段之間的過渡的平滑濾波也影響了質(zhì)量。
在此包括權(quán)利要求的說明書中,術(shù)語“包括”、“包含”或類似術(shù)語意在表示非獨占的包含,從而包括元素列表的方法或設(shè)備并不僅僅包括這些元素,還包括其他未列出的元素。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,提供了一種用于混合語言文語轉(zhuǎn)換合成的方法,該方法包括接收至少兩種語言的混合語言文本字符串;將文本字符串內(nèi)的文本分離成(i)至少一個基于音節(jié)的字符的字符串,每一字符都表示單一音節(jié);(ii)或至少一個包含一個或多個單詞的單詞符列,這些單詞由字母表的字母形成,至少一些單詞表示多于一個音節(jié);為每一基于音節(jié)的字符指定語音單元;為每一單詞指定音素,一個或多個音素形成單獨的音節(jié);為語音單元和音素選擇單獨的聲學(xué)單元;以及將單獨的聲學(xué)單元拼接具有對應(yīng)于混合語言文本字符串的順序的拼接的有序聲學(xué)單元;以及使用拼接的有序聲學(xué)單元執(zhí)行語音合成。
適當(dāng)?shù)模蛛x的文本還識別兩種語言中的哪一個是文本字符串中的主要語言,哪一個是次要語言。
優(yōu)選的,包含主要語言的文本包括一個或多個偽間隔符(spacer),指示該文本距離次要語言的位置。
適當(dāng)?shù)?,指定語音單元包括通過最大匹配進行分段,進行最大匹配從而詞典內(nèi)的單詞和匹配基于音節(jié)文本段的字符的最大數(shù)目的連續(xù)字符相匹配,該分段提供最大匹配單詞。
優(yōu)選的,指定語音單元包括確定最大匹配單詞的詞組邊界,以識別未用標(biāo)點明確標(biāo)識的自然語音停頓。
適當(dāng)?shù)?,指定語音單元包括為每一字符識別語音單元,這里為最大匹配單詞的每一字符考慮包括的字符。適當(dāng)?shù)模嬖诤兔恳徽Z音單元相關(guān)聯(lián)的韻律信息。
優(yōu)選的,指定音素包括識別一個或多個未用標(biāo)點明確標(biāo)識的自然邊界。適當(dāng)?shù)模鶕?jù)部分言語模式,通過預(yù)測性單詞集束識別自然邊界。優(yōu)選的,使用規(guī)則識別該部分言語模式,規(guī)則包括形容詞+名詞 ->自然邊界;數(shù)字+量詞->自然邊界;動詞+名詞->自然邊界;副詞+動詞->自然邊界;名詞+名詞->自然邊界;數(shù)字+名詞->自然邊界;動詞+動詞->自然邊界;名詞+連詞+名詞 ->自然邊界。以及適當(dāng)?shù)?,指定音素包括將單詞分為形成子單詞序列的子單詞,并識別音節(jié)邊界,由此為單獨的音節(jié)指定一個或多個音素。
識別音節(jié)邊界優(yōu)選的包括將各個子單詞識別為輔音(C);元音(V);以及輔音組(CG)。
適當(dāng)?shù)模R別音節(jié)邊界包括以下規(guī)則VCV->V|CV;VV->V|V;當(dāng)CC不在CG內(nèi)時,VCCV->VC|CV;當(dāng)CC在CG內(nèi)時,VCCV->V|CCV;VCCCV->VC|CCV;VCCCCV->VC|CCCV,其中“|”表示音節(jié)邊界。
優(yōu)選的,在拼接過程中,將聲學(xué)單元插入各個指示文本距離次要語言的位置的偽間隔符。
適當(dāng)?shù)?,拼接的有序聲學(xué)單元經(jīng)歷增強,該增強包括在拼接邊界合并和聲學(xué)單元相關(guān)聯(lián)的激勵信號。
附圖簡要說明為了更易于理解本發(fā)明以及實際應(yīng)用本發(fā)明,現(xiàn)在參考如附圖所示的優(yōu)選實施例在附圖中
圖1是根據(jù)本發(fā)明的電子裝置的示意性框圖;圖2顯示可在圖1的電子裝置上執(zhí)行的用于混合語言文語轉(zhuǎn)換合成的方法的流程圖;以及圖3顯示有向非循環(huán)圖的例子。
具體實施例方式
參考圖1,以無線電話的形式顯示了電子裝置100,其包括由總線103可操作地耦合到用戶接口104的裝置處理器102,用戶接口通常是觸摸屏或作為選擇地是顯示屏以及鍵區(qū)。電子裝置100還具有話語語料庫106,語音合成器110,非易失性存儲器120,只讀存儲器118以及無線通信模塊116,它們都通過總線103可操作地耦合到處理器102。語音合成器110具有和揚聲器112耦合并驅(qū)動揚聲器112的輸出。語料庫106包括單詞或音素的表示以及相關(guān)的經(jīng)過采樣,數(shù)字化和處理的話語波形PUW。換句話說,如下所述,非易失性存儲器120(存儲模塊)用于提供混合語言文語轉(zhuǎn)換(TTS)合成。波形話語語料庫106還包括以韻律特征的音素和重音/重點形式的經(jīng)過采樣和數(shù)字化的話語波形。
正如本領(lǐng)域普通技術(shù)人員所熟知的,射頻通信單元116通常是具有共用天線的組合接收機和發(fā)射機。射頻通信單元116具有經(jīng)射頻放大器耦合到天線的收發(fā)機。該收發(fā)機還和組合的調(diào)制器/解調(diào)器耦合,并且該組合調(diào)制器/解調(diào)器將通信單元116耦合到處理器102。而且,在這個實施例中非易失性存儲器120(存儲模塊)存儲用戶可編程的電話簿數(shù)據(jù)庫Db,并且只讀存儲器118存儲裝置處理器102的操作代碼(OC)。
參考圖2,其顯示了用于混合語言文語轉(zhuǎn)換合成的方法200。在開始步驟210之后,執(zhí)行從存儲器120接收混合語言文本字符串TS的步驟220。混合語言文本字符串TS可能來自由模塊116或任意其它裝置所接收的文本消息。同樣,在這個說明書中所描述的混合語言文本字符串TS通常由至少兩種語言形成,并且通過實例的方式,將在下面說明中文字符和字母表字符的組合;文本字符串TS還可包括數(shù)字0到9和/或標(biāo)點符號。
然后提供分離文本步驟230,用于分離文本字符串內(nèi)的文本為(i)至少一個基于音節(jié)的字符(SBC)的字符串,每一字符表示單一音節(jié);(ii)或至少一個包括一個或多個單詞的單詞符列,在下文中單詞也被稱為單詞字符串(SOW),并且由字母表的字母組成,至少一些單詞表示多于一個音節(jié)。通過本領(lǐng)域普通技術(shù)人員熟知的統(tǒng)一代碼執(zhí)行分離文本步驟230。構(gòu)造統(tǒng)一代碼,從而對英語字符(字母)編碼使得每一字符由0000-007f的數(shù)字表示,并且對漢語字符編碼使得每一字符由4e00-9fa5的數(shù)字存儲。
分離文本步驟還識別文本字符串中的兩種語言中哪一種是主要語言,哪一種是次要語言。在此實施例(英語和漢語混合語言文本)中,這通過對漢語字符和英語單詞計數(shù)來實現(xiàn)。如果漢語字符多于英語單詞,則主要語言是漢語,次要語言是英語。作為選擇地,如果英語單詞多于漢語字符,則主要語言是英語,次要語言是漢語。
為進一步解釋方法200,考慮下面四個句子形式的四個文本字符串。
文本字符串1“英文單詞mention可翻譯成中文的提及”文本字符串2“Watson是一位成功的商人”文本字符串3“大兒子目前住在Chicago”文本字符串4“中國政府決定參加APEC會議”。
在用于上述四個文本字符串的分離文本步驟230之后,有來自主要語言的四個基于音節(jié)的字符串,它們是基于音節(jié)的字符串1(SBC1);“英文單詞BLANK1可翻譯成中文的提及”基于音節(jié)的字符串2(SBC2);“BLANK2是一位成功的商人”基于音節(jié)的字符串3(SBC2);“大兒子目前住在BLANK3”基于音節(jié)的字符串4(SBC2);“中國政府決定參加BLANK4會議”;還有四個來自次要語言的單詞字符串(SOW),每一都包括一個或多個單詞,并且這些表示如下單詞字符串1(SOW1)->BLANK1”mention”單詞字符串2(SOW2)->BLANK2”Watson”單詞字符串3(SOW3)->BLANK3”Chicago”單詞字符串4(SOW4)->BLANK4”APEC”從以上看出,由于漢語字符多于英語單詞,因此主要語言是漢語,次要語言是英語。這是很明顯的,因為英語單詞用基于音節(jié)的字符(SBC)的字符串內(nèi)的空格表示。因此,包含主要語言的文本包括一個或多個指示文本距離次要語言的位置的偽間隔符(空格BLANK1到BLANK4)。
考慮漢語字符是基于音節(jié)的字符的字符串(SBC1-SBC4),方法200執(zhí)行指定步驟(240),用于為每一基于音節(jié)的字符(SBC)指定語音單元。指定步驟實際上可以被分為三個子步驟,它們是(a)文本分析;(b)確定詞組邊界;以及(c)識別語音單元。
子步驟(a)文本分析實際上通過使用單詞詞典執(zhí)行漢語字符的分段和標(biāo)準(zhǔn)化。該詞典包括多于80000個單詞,在表1中顯示了其中的一部分。
表1單詞詞典分段通過最大匹配選擇段(單詞),使得詞典(存儲在存儲器120中)內(nèi)的單詞和最大數(shù)目的連續(xù)字符相匹配,其中最大數(shù)目的連續(xù)字符是和基于音節(jié)的字符(SBC)的文本段相匹配的最大數(shù)目的連續(xù)字符。例如,考慮基于音節(jié)的字符串1(SBC1)“英文單詞BLANK1可翻譯成中文的提及”。分段從第一個字符進行到最后一個字符(句子開始到句子結(jié)束)。因此,分段以如下順序進行在詞典中找到“英”,在詞典中找到“英文”,在詞典中未找到“英文單”。因此第一個段或第一單詞是“英文”。類似的,在詞典中找到“單”,在詞典中找到“單詞”,并且由于下一單詞是空格,那么第二段或第二單詞是“單詞”。跳過空格“BLANK1”(在分段中不分析)。下面,在詞典中找到“可”,在詞典中未找到“可翻”,因此第三段或第三單詞是“可”。類似的,剩余的段或單詞是“翻譯”、“成”、“中文”、“的”以及“提及”。對基于音節(jié)的字符串(SBC2-SBC4)執(zhí)行相同的分段處理,并且提供最大匹配單詞(MMW),這對于本領(lǐng)域普通技術(shù)人員來說是顯而易見的。
標(biāo)準(zhǔn)化對于例如數(shù)字和標(biāo)點符號的特殊字符是有用的。標(biāo)準(zhǔn)化使用規(guī)則來識別特殊字符,這些特殊字符具有特殊的意思,或根據(jù)這些特殊字符的上下文,它們對應(yīng)的語音單元會有所不同。因此,標(biāo)準(zhǔn)化提供來自特殊字符的標(biāo)準(zhǔn)化字符。同樣,由規(guī)則庫實現(xiàn)標(biāo)準(zhǔn)化,部分規(guī)則庫如下所示標(biāo)點符號規(guī)則句號-是句子的結(jié)尾,例如->上海是中國最大的城市之一。
小數(shù)點->標(biāo)準(zhǔn)化為具有發(fā)音“點”,例如->1.234->一點二三四。
URL中的點標(biāo)準(zhǔn)化為具有發(fā)音“點”例如->www.mot.com(www點mot點com,www dot mot dot com)冒號規(guī)則句子暫停,這有Ratio比分是2∶3(應(yīng)當(dāng)被轉(zhuǎn)換為比),時間10:05斜線規(guī)則分?jǐn)?shù)標(biāo)志2/3(三分之二)日期標(biāo)志97/10(九七年十月,October,1997)
逗號規(guī)則數(shù)字標(biāo)識符123,456(十二萬三千四百五十六,one hundred twentythree thousand three hundred fifty six)數(shù)字字符串規(guī)則數(shù)字123456(一二三四五六,one two three four five six)確定詞組邊界的子步驟(b)使用本領(lǐng)域技術(shù)人員公知的最大匹配執(zhí)行預(yù)測性單詞集束(分節(jié)法)。確定詞組邊界的目的是識別最大匹配單詞(MMW)字符串中未用標(biāo)點明確標(biāo)識的自然邊界(自然語音停頓)。預(yù)測性單詞集束是基于部分言語模式的并使用以下規(guī)則形容詞+名詞 ->自然邊界;數(shù)字+量詞->自然邊界;動詞+名詞->自然邊界;副詞+動詞->自然邊界;名詞+名詞->自然邊界;數(shù)字+名詞->自然邊界;動詞+動詞->自然邊界;以及名詞+連詞+名詞 ->自然邊界。
名詞+名詞規(guī)則是遞歸的,從而序列中多于兩個的名詞也提供自然邊界(例如,名詞+名詞+名詞;名詞+名詞+名詞+名詞等)。同樣,動詞+動詞規(guī)則也是遞歸的。
自然邊界標(biāo)識重點和停頓。因此,對于分段的基于音節(jié)的字符串1(SBC1),自然邊界標(biāo)識如下英文單詞名詞+名詞可翻譯成動詞+動詞+動詞中文的提及中名詞+連詞+名詞所以自然邊界(分節(jié)法)是英文單詞|BLANK1|可翻譯成|中文的提及。
其中“|”表示詞組邊界。
此外,SBC2到SBC4的自然邊界(分節(jié)法)是對于SBC2,在分段之后->
BLANK2單是,一位,成功,的,商人在分節(jié)之后->
BLANK2|是|一位成功的商人對于SCB3,在分段之后->
大,兒子,目前,住,在,BLANK3在分節(jié)之后->
大兒子|目前住在|BLANK3對于SCB4,在分段之后->
中國,政府,決定,參加,BLANK4,會議在分節(jié)之后->
中國政府決定|參加|BLANK4會議識別語音單元的子步驟(c)使用來自子步驟(a)和子步驟(b)的結(jié)果來為每一基于音節(jié)的字符識別語音單元,這里為最大匹配單詞的每一基于音節(jié)的字符考慮包括的字符。此子步驟還識別自然停頓和標(biāo)準(zhǔn)化字符的語音單元。
如果存儲在非易失性存儲器120內(nèi)的語音目錄內(nèi)的單元和在韻律位置以及語境信息中的目標(biāo)語音單元匹配,則選擇該單元。例如,對于經(jīng)歷預(yù)測性單詞集束(分節(jié))的文本字符串TS1的例子,其具有被識別為如下的自然邊界英文單詞|BLANK1|可翻譯成|中文的提及,則在表1示出所選的語音單元。在表1中,和韻律位置相關(guān)聯(lián)的數(shù)字影響相關(guān)語音單元的音調(diào)持續(xù)時間(pitch duration)以及能量(例如RMS功率)。在此例子中,數(shù)字0表示該語音單元在句子開頭;數(shù)字1表示語音單元在句子結(jié)尾;數(shù)字2表示語音單元在詞組開頭;數(shù)字3表示語音單元在詞組中間;并且數(shù)字4表示語音單元在詞組結(jié)尾。
表1,用于漢語字符的語音單元和相關(guān)韻律位置的例子在指定步驟(240)之后,方法執(zhí)行選擇步驟(250),用于為語音單元選擇單獨的聲學(xué)單元。(對于基于音節(jié)的語言,例如漢語,識別具有韻律位置和語境信息的語音單元來執(zhí)行單元選擇。
基于語音的語言的單元選擇過程如下所述。在存儲在存儲器120內(nèi)的目錄內(nèi)搜索具有音調(diào)和韻律位置的語音并選擇該聲學(xué)單元。如果沒有找到,本方法放寬韻律位置的條件,并選擇具有相同音調(diào)和不同韻律位置的語音。
現(xiàn)在回到分離文本步驟230,并考慮英文單詞字符串(SOW),在指定步驟(260)處理這些單詞,為每一單詞提供指定的音素,其中一個或多個音素形成單獨的音節(jié)。指定步驟(260)實際上可分為四個子步驟(a)標(biāo)準(zhǔn)化;(b)確定詞組邊界;(c)字母到發(fā)音轉(zhuǎn)換;以及(d)確定音節(jié)邊界。
子步驟(a)執(zhí)行實際上和上面所述相同的標(biāo)準(zhǔn)化,但使用規(guī)則庫中的英文文本。
子步驟(b)通過在中國專利申請?zhí)?3132708.7中描述的過程執(zhí)行確定詞組邊界,在該申請完全包括到該說明書中并作為參考。總之,通過統(tǒng)計分析和從多于90,000個抄本的大訓(xùn)練集中選擇的試探法執(zhí)行詞組邊界的確定。這些試探法存儲在非易失性存儲器120中。詞組邊界的目的是識別未由標(biāo)點明確標(biāo)識的自然邊界(自然語音停頓)。
子步驟(c)的字母到發(fā)音的轉(zhuǎn)換解決了根據(jù)其他相鄰字母以及在要合成的文本段內(nèi)的位置,相同字母或字母組可能具有不同發(fā)音和元音重音/重點這一事實。通過在中國專利申請?zhí)?3132709.5中說明的過程執(zhí)行子步驟(c)的字母到發(fā)音轉(zhuǎn)換,在此說明書中完全包括該專利申請并作為參考。然而,總之,字母到發(fā)音轉(zhuǎn)換包括將單詞分段為子單詞,子單詞形成具有一個或多個包含至少兩個字母的子單詞的子單詞序列。通過分析能夠包括所選單詞的所有可能的子單詞確定該子單詞序列。通過使用有向非循環(huán)圖結(jié)構(gòu)執(zhí)行該分析。
考慮,例如,如果由步驟260處理所選單詞“mention”,則用可能包括選定單詞“mention”的所有可能子單詞構(gòu)造圖3的有向非循環(huán)圖DAG。通過為每一子單詞提供預(yù)定加權(quán)WT,例如,子單詞“ment”、“men”、“tion”具有各自的加權(quán)88,86和204。因此,遍歷DAG,并且選擇具有形成所選單詞的最大組合(總計)加權(quán)WT的子單詞,將其標(biāo)識為如在中國專利申請?zhí)?3132709.5中所述的音素。在單詞“mention”的情況中,將選擇子單詞“men”和“tion”,因此一旦識別了音節(jié)邊界,其后就可以識別這些子單詞的音素。
子步驟(d)使用以下規(guī)則執(zhí)行音節(jié)邊界的識別輔音(C)包括任意下列子單詞TS,b,ch,d,dh,f,g,hh,k,l,m,n,ng,,p,r,s,sh,t,th,v,w,y,z,zh;元音(V)包括任意下列子單詞
aa,ae,ao,aw,ax,ay,eh,er,ey,ih,iy,ow,oy,uh,uw;輔音組(CG)包括任意下列子單詞bl,br,by,dr,dy,fl,fr,fy,gl,gr,gw,gy,kl,kr,kw,ky,ly,my,ny,pl,pr,py,sk,sl,sm,sn,sp,st,tr。
邊界規(guī)則1VCV->V|CV;邊界規(guī)則2VV->V|V;邊界規(guī)則3VCCV->VC|CV,當(dāng)CC不是在CG內(nèi)時;邊界規(guī)則4VCCV->V|CCV,當(dāng)CC在CG內(nèi)時;邊界規(guī)則5VCCCV->VC|CCV;邊界規(guī)則6VCCCCV->VC|CCCV;其中“|”表示音節(jié)邊界。
在子步驟(d)識別音節(jié)邊界之后,為例如“men”和“tion”的這些子單詞識別音素。因此,識別步驟識別包含子單詞的每一單詞的音素,并且,正如本領(lǐng)域技術(shù)人員所熟知的,多于一個的音素可以形成單獨的音節(jié)。例如,對于文本字符串1到文本字符串3的例子,基于自然邊界的標(biāo)識選擇音素和相關(guān)的韻律信息。這樣的音素和韻律信息(韻律位置)顯示在表2中,其中M表示該單詞在句子的開頭或中間(也就是,不是句子的結(jié)尾);F表示該單詞在句子的結(jié)尾(最后位置);O表示該音節(jié)在單詞的開頭或中間(也就是,不是單詞的結(jié)尾);F表示該音節(jié)在單詞的結(jié)尾(最后位置)。
表2,英語文本的音素和相關(guān)韻律位置的例子在指定步驟260之后,提供選擇步驟270,用于基于包括一個或多個音素的可變長度單元(VLU)模型選擇單獨的聲學(xué)單元,盡管用于漢語的聲學(xué)單元由于每一聲學(xué)單元都包括一個音節(jié)而因此長度并不可變。
對于VLU,有5種可能的類型類型1普通輔音+元音,半元音+元音,鼻音+元音。普通輔音包括爆破音,摩擦音,以及齒音等。
類型2類型1+鼻音/半元音。
類型3sub-CV。它是類型1或類型2的一部分。
類型4輔音字首和輔音字首組。輔音字首是用作音節(jié)開頭的輔音,而輔音字首組主要指的是爆破音之后跟隨齒音。(例如s+t)類型5輔音結(jié)尾和輔音結(jié)尾組。
從以上看出,如果一個單詞有兩個連續(xù)的元音或半元音,并且在之前和之后都是元音,在存儲在存儲器120的語音目錄中進行最大匹配。如果沒有匹配,本方法會逐音節(jié)搜索并指定聲學(xué)單元。在此實施例中,總是執(zhí)行最大匹配。這個聲學(xué)單元選擇的目的是減少拼接點,并選擇具有相同或相似韻律約束條件的聲學(xué)單元。
在選擇步驟250和270之后,在拼接步驟275合并產(chǎn)生的聲學(xué)單元,其中將單獨的聲學(xué)單元以對應(yīng)由方法200處理的混合語言文本的順序拼接為有序聲學(xué)單元。在拼接過程中,使用文本字符串1到4的例子,將由VLU(音素)形成的聲學(xué)單元插入到對應(yīng)文本字符串中的各個偽間隔符(BLANK1到BLANK4)中。
在拼接過程中,首先對由聲學(xué)單元識別的參數(shù)比特流進行解碼,形成包含兩個主要分量的幀,這兩個分量是包括每一幀的LSP[i]向量的聲域參數(shù)LSP(線譜對);以及用激勵流Exc[i][j]表示的激勵信號(i是幀索引,j是幀內(nèi)的樣本索引)。還獲得每一幀i的粗略音調(diào)估計OT[i],形成比特流的自適應(yīng)滯后參數(shù)。如本領(lǐng)域技術(shù)人員所熟知的,一個聲學(xué)單元可以包括若干幀。對于每一聲學(xué)單元是逐幀呈現(xiàn)上述三個參數(shù)。同樣,對于各幀,參數(shù)LSP[i]是向量,并包括10個元素,它們的例子有[1227,2027,3884,9108,12892,16454,19866,23019,26304,29553]。此外,參數(shù)Exc[i][j]是包括240個元素的向量,它們的例子有
;參數(shù)OT[i]是在范圍[40,150]內(nèi)的整數(shù),例如78。
下面,在增強步驟280執(zhí)行增強,在此拼接的有序聲學(xué)單元經(jīng)歷增強,其中包括(a)在兩個相鄰聲學(xué)單元的拼接邊界對每一幀的音調(diào)估計OT[i]進行平滑濾波。線性內(nèi)插在邊界的兩個單元的音調(diào)值,以獲得經(jīng)過平滑濾波的新值OT[T](用于在前或在先單元的尾幀)以及OT[Hu](用于下一單元的開始幀);(b)將在兩個相鄰聲學(xué)單元拼接邊界的激勵信號合并。將連續(xù)單元的第一子幀激勵信號和前一單元的最后一個子幀通過三角形窗合并為新的子幀;(c)在相鄰聲學(xué)單元拼接邊界上內(nèi)插LSP[i]向量。通過內(nèi)插前一單元最后一個LSP[I]向量以及后一單元的第一個LSP[I]向量而獲得對應(yīng)于合并的激勵信號的每一LSP[i]向量。從而構(gòu)成級聯(lián)LSP[i]向量序列。
在執(zhí)行語音合成步驟285時,將連續(xù)聲學(xué)單元的拼接的LSP[i]向量序列轉(zhuǎn)換為預(yù)測性系數(shù)a[i][j](i是幀索引,j是預(yù)測順序)。通過將包含OT[T],OT[Hu]等的拼接的經(jīng)過平滑濾波的激勵序列饋入語音合成器110重建平滑濾波,從而通過將預(yù)測性系數(shù)a[i][j]以及相關(guān)的經(jīng)過平滑濾波的激勵序列轉(zhuǎn)換為波形合成語音,將多語言文本字符串TS合成為語音。同樣,正如本領(lǐng)域技術(shù)人員所熟知的,還可以使用元音上的重音(主要,次要或適當(dāng)時沒有重音),通過適當(dāng)?shù)闹匾魪娬{(diào),來提供改進的合成語音質(zhì)量。
在執(zhí)行語音合成285之后,方法200在結(jié)束步驟290終止。很明顯,雖然為舉例和說明的目的將漢語識別為主要語言,英語也可以作為主要語言。當(dāng)英語是主要語言時,英語文本中包括偽單詞間隔符,指示文本距離次要語言(例如漢語)的位置。此外,在拼接過程中,將聲學(xué)單元插入各個指示文本距離次要語言的位置的偽間隔符中。應(yīng)當(dāng)清楚,雖然步驟240和250被描述為在步驟260和270之前,步驟260和270可在步驟240和250之前或同時實施。
有利的,本發(fā)明提供了一種混合語言TTS合成,可用在例如手持或便攜式裝置的電子裝置上,諸如膝上型計算機、個人數(shù)字助理、蜂窩電話以及許多其它裝置。
以上詳細(xì)說明僅提供了優(yōu)選的示例性實施例,并且不意在限定本發(fā)明的范圍、應(yīng)用性或配置。而是,優(yōu)選的示例性實施例的詳細(xì)說明為那些本領(lǐng)域普通技術(shù)人員提供了實施本發(fā)明的優(yōu)選示例性實施例的開放說明。應(yīng)當(dāng)理解,在不脫離如在所附的權(quán)利要求中闡明的本發(fā)明的精神和范圍的情況下,可在元件功能和配置上作出多種改變。
權(quán)利要求
1.一種用于混合語言文語轉(zhuǎn)換合成的方法,該方法包括接收至少兩種語言的混合語言文本字符串;將文本字符串內(nèi)的文本分離成(i)至少一個基于音節(jié)的字符的字符串,每一字符都表示單一音節(jié);(ii)或至少一個包含一個或多個由字母表的字母形成的單詞的單詞符列,至少一些單詞表示多于一個音節(jié);為每一基于音節(jié)的字符指定語音單元;為每一單詞指定音素,一個或多個音素形成單獨的音節(jié);為語音單元和音素選擇單獨的聲學(xué)單元;以及將單獨的聲學(xué)單元拼接為具有對應(yīng)于混合語言文本字符串的順序的拼接的有序聲學(xué)單元;以及使用拼接的有序聲學(xué)單元執(zhí)行語音合成。
2.如權(quán)利要求1的所述方法,其中,分離文本識別兩種語言中的哪一種是文本字符串內(nèi)的主要語言,哪一種是次要語言。
3.如權(quán)利要求1的所述方法,其中,包含主要語言的文本包括一個或多個指示該文本距離次要語言的位置的偽間隔符。
4.如權(quán)利要求1的所述方法,其中,指定語音單元包括通過最大匹配進行分段,進行最大匹配使得詞典內(nèi)的單詞和最大數(shù)目的連續(xù)字符相匹配,并且最大數(shù)目的連續(xù)字符是和基于音節(jié)的字符文本段相匹配的最大數(shù)目連續(xù)字符,該分段提供最大匹配單詞。
5.如權(quán)利要求4的所述方法,其中,指定語音單元包括,確定最大匹配單詞的詞組邊界,以識別未由標(biāo)點明確標(biāo)識的自然語音停頓。
6.如權(quán)利要求5的所述方法,其中,指定語音單元包括,為每一字符識別語音單元,其中為最大匹配單詞的每一字符考慮包括的字符。
7.如權(quán)利要求6的所述方法,其中,存在和每一語音單元相關(guān)聯(lián)的韻律信息。
8.如權(quán)利要求6的所述方法,其中,指定音素包括,識別一個或多個未由標(biāo)點明確標(biāo)識的自然邊界。
9.如權(quán)利要求8的所述方法,其中,通過基于部分言語模式的預(yù)測性單詞集束識別自然邊界。
10.如權(quán)利要求9的所述方法,其中,使用規(guī)則標(biāo)識部分言語模式,這些規(guī)則包括形容詞+名詞->自然邊界;數(shù)字+量詞 ->自然邊界;動詞+名詞 ->自然邊界;副詞+動詞 ->自然邊界;名詞+名詞 ->自然邊界;數(shù)字+名詞 ->自然邊界;動詞+動詞 ->自然邊界;名詞+連詞+名詞 ->自然邊界。
11.如權(quán)利要求8的所述方法,其中,指定音素包括將單詞分段為形成子單詞序列的子單詞,并識別音節(jié)邊界,從而將一個或多個音素指定到單獨的音節(jié)。
12.如權(quán)利要求11的所述方法,其中,識別音節(jié)邊界優(yōu)選的包括,將每一子單詞識別為輔音(C);元音(V);以及輔音組(CG)。
13.如權(quán)利要求11的所述方法,其中識別音節(jié)邊界包括以下規(guī)則VCV->V|CV;VV->V|V;VCCV->VC|CV,當(dāng)CC不是在CG內(nèi)時;VCCV->V|CCV,當(dāng)CC在CG內(nèi)時;VCCCV->VC|CCV;VCCCCV->VC|CCCV;其中“|”代表音節(jié)邊界。
14.如權(quán)利要求1的所述方法,其中,在拼接過程中,將聲學(xué)單元插入各個指示文本距離次要語言的位置的偽間隔符中。
15.如權(quán)利要求11的所述方法,其中,拼接的有序聲學(xué)單元經(jīng)歷增強,該增強包括在拼接邊界將和聲學(xué)單元相關(guān)聯(lián)的激勵信號合并。
全文摘要
一種用于混合語言文語轉(zhuǎn)換合成的方法,包括接收(220)兩種語言的混合語言文本字符串。然后,分離步驟(23)將文本字符串內(nèi)的文本分離為(i)基于語音的字符的字符串,每一字符代表一個單一音節(jié);(ii)或包含一個或多個單詞的單詞字符串,該單詞由字母表的字母形成,并且一些單詞代表多于一個音節(jié)。為每一基于音節(jié)的字符指定語音單元(240),并為每一單詞指定音素(260)。選擇(250,270)、拼接(275)并合成(285)語音單元和音素的單獨的聲學(xué)單元。
文檔編號G06F17/20GK1731510SQ200410055888
公開日2006年2月8日 申請日期2004年8月5日 優(yōu)先權(quán)日2004年8月5日
發(fā)明者岳東劍, 陳桂林, 俞振利, 祖漪清 申請人:摩托羅拉公司