專利名稱::多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)與方法
技術(shù)領(lǐng)域:
:本揭露涉及一種多語(yǔ)言(multi-lingual)的文字轉(zhuǎn)語(yǔ)音(Text-To-Speech,TTS)合成(synthesis)系統(tǒng)與方法。
背景技術(shù):
:在文章或句子中出現(xiàn)多種語(yǔ)言的交錯(cuò)使用是很常見(jiàn)的,例如中文與英文夾雜使用。當(dāng)人們需要將這些文字以語(yǔ)音合成技術(shù)轉(zhuǎn)為聲音吋,依據(jù)使用的情境來(lái)決定如何處理非母語(yǔ)的文字是最佳的。例如有的情境以標(biāo)準(zhǔn)的英文讀出英文單字就已經(jīng)是最好的,有的情境則略帶母語(yǔ)腔調(diào)的方式反而較為自然,例如小說(shuō)電子書(shū)中出現(xiàn)的中英夾雜文句,寫(xiě)給朋友的電子郵件等。目前多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)普遍以多套語(yǔ)言的合成器進(jìn)行切換,所以合成的語(yǔ)音在不同語(yǔ)言區(qū)塊交錯(cuò)吋,常會(huì)出現(xiàn)由不同語(yǔ)者發(fā)音,或是語(yǔ)句韻律中斷而不順暢等情形。多語(yǔ)言語(yǔ)音合成的現(xiàn)有文獻(xiàn)有很多。相關(guān)的文獻(xiàn)例如美國(guó)專利號(hào)US6,141,642揭示的處理多種語(yǔ)言的文字轉(zhuǎn)語(yǔ)音裝置與方法(TTSApparatusandMethodforProcessingMultipleLanguages),此技術(shù)直接以多套語(yǔ)言的合成器來(lái)進(jìn)行切換。有些專利文獻(xiàn)掲示的技術(shù)是直接將非母語(yǔ)音標(biāo)完全對(duì)應(yīng)成母語(yǔ)音標(biāo),沒(méi)有將不同語(yǔ)言的語(yǔ)音模型之間的差異納入考慮。有些專利文獻(xiàn)掲示的技術(shù)則合并不同語(yǔ)言的語(yǔ)音模型中相似的部分,保留相異的部分,而沒(méi)有考慮ロ音權(quán)重的問(wèn)題。有些論文如關(guān)于基于HMM的混合語(yǔ)言(Mixed-language),如中文-英文,的語(yǔ)音合成所掲示的技術(shù)也是沒(méi)有將ロ音權(quán)重納入考慮。有一篇論又〃ForeignAccentsinSyntneticSpeech!DevelopmentandEvaluation“是以不同的音標(biāo)對(duì)應(yīng)的方式來(lái)處理ロ音問(wèn)題。另兩篇論又“Polyglotspeechprosodycontrol“及“Prosodymodificationonmixed-languagespeechsynthesis〃則處理韻律方面的問(wèn)題,也沒(méi)有處理語(yǔ)音模型的部分。而論又"NewapproachtotnepolyglotspeecngenerationbymeansοιanHMM-basedspeakeradaptablesynthesizer"是以語(yǔ)者模型調(diào)適的方式來(lái)建立非母語(yǔ)(non-nativelanguage)的語(yǔ)音模型,但沒(méi)有掲示可控制ロ音的輕重。
發(fā)明內(nèi)容本發(fā)明揭露一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)與方法,所要解決的技術(shù)問(wèn)題在于使第二語(yǔ)言詞匯的發(fā)音與韻律,可以在完全維持其原標(biāo)準(zhǔn)發(fā)音,到完全以第一語(yǔ)言方式發(fā)音的兩種極端范圍中作調(diào)整。在一實(shí)施例中,所揭露的是關(guān)于一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)。此系統(tǒng)包含ー語(yǔ)音模型挑選模塊(speechmodelselectionmodule)、ー語(yǔ)音模型合并模塊(speechmodelcombinationmodule)及一語(yǔ)首合成器(speechsynthesizer)。此語(yǔ)首模型挑選娛塊對(duì)欲合成的含有第二語(yǔ)言的輸入文本(text)及對(duì)應(yīng)此輸入文本第二語(yǔ)言的部分的一第4CN102543069Aニ語(yǔ)言語(yǔ)音単元序列(phoneticunitsequence),在一第二語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第二語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型,再查詢ー第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表,并利用設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù),決定要采用ー轉(zhuǎn)換組合,選擇出一相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列,并在ー第一語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第一語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第一語(yǔ)音模型。此語(yǔ)音模型合并模塊將找出的第二與第一語(yǔ)音模型,依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù),合并成ー合并語(yǔ)音模型,依序處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后,將各合并語(yǔ)音模型依序排列產(chǎn)生ー合并語(yǔ)音模型序列。此合并語(yǔ)音模型序列再套用至此語(yǔ)音合成器,以將輸入的文本合成為帶有第一語(yǔ)言ロ音的第二語(yǔ)言語(yǔ)音(Ll-accentL2speech)。在另ー實(shí)施例中,所揭露的是關(guān)于一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng),此多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)是執(zhí)行于ー計(jì)算機(jī)系統(tǒng)中,此計(jì)算機(jī)系統(tǒng)備有一記憶體裝置,用來(lái)儲(chǔ)存多種語(yǔ)言語(yǔ)音模型庫(kù),至少包括一第一與一第二語(yǔ)言語(yǔ)音模型庫(kù)。此多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)可包含ー處理器,此處理器備有ー語(yǔ)音模型挑選模塊、ー語(yǔ)音模型合并模塊、及ー語(yǔ)音合成器。其中,于ー離線階段吋,建立一語(yǔ)音單元轉(zhuǎn)換表,以提供給此處理器使用。此語(yǔ)音模型挑選模塊對(duì)欲合成的含有第二語(yǔ)言的輸入文本及對(duì)應(yīng)此輸入文本第二語(yǔ)言的部分的一第二語(yǔ)言語(yǔ)音単元序列,在該第二語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第二語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型,再查詢?cè)摰诙Z(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表,并依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù),決定要采用的一轉(zhuǎn)換組合,選擇出一相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列,并在該第一語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第一語(yǔ)言語(yǔ)音單元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第一語(yǔ)音模型。此語(yǔ)音模型合并模塊將找出的第二與第一語(yǔ)音模型,依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù),合并成ー合并語(yǔ)音模型,依序處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后,將各合并語(yǔ)音模型依序排列產(chǎn)生ー合并語(yǔ)音模型序列。此合并語(yǔ)音模型序列再套用至此語(yǔ)音合成器,以將輸入的文本合成為帶有第一語(yǔ)言ロ音的■~-曰1ロ—曰‘ο在又一實(shí)施例中,所揭露的是關(guān)于一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法。此方法是執(zhí)行于ー計(jì)算機(jī)系統(tǒng)中,此計(jì)算機(jī)系統(tǒng)備有一記憶體裝置,用來(lái)儲(chǔ)存多種語(yǔ)言語(yǔ)音模型庫(kù),至少包括一第一與一第二語(yǔ)言語(yǔ)音模型庫(kù)。此方法包含對(duì)欲合成的含有第二語(yǔ)言的輸入文本及對(duì)應(yīng)此輸入文本第二語(yǔ)言的部分的一第二語(yǔ)言語(yǔ)音単元序列,在該第二語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第二語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型后,再查詢ー第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表,并依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù),決定要采用的一轉(zhuǎn)換組合,選擇ー相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列,并在該第一語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第一語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第一語(yǔ)音模型;依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù),將找出的第二與第一語(yǔ)音模型,合并成ー合并語(yǔ)音模型,依序處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后,將各合并語(yǔ)音模型依序排列產(chǎn)生ー合并語(yǔ)音模型序列;以及將此合并語(yǔ)音模型序列套用至ー語(yǔ)音合成器,并將欲合成的輸入文本以此語(yǔ)音合成器合成為帶有第一語(yǔ)言ロ音的一第二語(yǔ)言語(yǔ)音。以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述,但不作為對(duì)本發(fā)明的限定。圖1是ー種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)的ー個(gè)范例示意圖,與所揭露的實(shí)施范例一致;圖2是ー范例示意圖,說(shuō)明語(yǔ)音單元轉(zhuǎn)換表建立模塊如何產(chǎn)生語(yǔ)音單元轉(zhuǎn)換表,與所揭露的實(shí)施范例一致;圖3說(shuō)明動(dòng)態(tài)編程的細(xì)節(jié),與所揭露的實(shí)施范例一致;圖4是ー范例示意圖,說(shuō)明在線階段吋,各模塊的運(yùn)作,與所揭露的實(shí)施范例一致;圖5是ー范例流程圖,說(shuō)明一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法的運(yùn)作,與所揭露的實(shí)施范例一致;圖6是多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)執(zhí)行于ー計(jì)算機(jī)系統(tǒng)中的ー范例示意圖,與所揭露的實(shí)施范例一致。其中,附圖標(biāo)記100多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)101離線階段102在線階段Ll第一語(yǔ)言L2第二語(yǔ)言110語(yǔ)音單元轉(zhuǎn)換表建立模塊112帶有Llロ音的L2語(yǔ)料庫(kù)114Ll語(yǔ)音模型庫(kù)116L2轉(zhuǎn)Ll的語(yǔ)音單元轉(zhuǎn)換表120語(yǔ)音模型挑選模塊122輸入文本及對(duì)應(yīng)文本的語(yǔ)音單元序列126L2語(yǔ)音模型庫(kù)128Ll語(yǔ)音模型庫(kù)130語(yǔ)音模型合并模塊132合并語(yǔ)音模型序列140語(yǔ)音合成器142帶有Llロ音的L2語(yǔ)音150可調(diào)控的ロ音權(quán)重參數(shù)202聲音文件204語(yǔ)音單元序列212自由音節(jié)式語(yǔ)音識(shí)別214音節(jié)識(shí)別結(jié)果216音節(jié)轉(zhuǎn)成語(yǔ)音單元218動(dòng)態(tài)編程300L2轉(zhuǎn)Ll的語(yǔ)音單元轉(zhuǎn)換表的例子511-5133條路徑614第一語(yǔ)言模型616第二語(yǔ)言模型622合并語(yǔ)音模型步驟710準(zhǔn)備帶有第一語(yǔ)言ロ音的一第二語(yǔ)言語(yǔ)料庫(kù)及ー第一語(yǔ)言語(yǔ)音模型庫(kù),來(lái)建構(gòu)ー第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表步驟720對(duì)欲合成的一含有第二語(yǔ)言的輸入文本,及對(duì)應(yīng)輸入文本第二語(yǔ)言的部分的一第二語(yǔ)言語(yǔ)音単元序列,在一第二語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第二語(yǔ)言語(yǔ)音單元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型后,再查詢ー語(yǔ)音單元轉(zhuǎn)換表,并依照設(shè)定的一可調(diào)控的ロ音權(quán)重參數(shù),決定要采用的一轉(zhuǎn)換組合,決定出一相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列,并在ー第一語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第一語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的第一語(yǔ)音模型步驟730依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù),將找出的兩語(yǔ)音模型,合并成一合并語(yǔ)音模型,依序處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后,將各合并語(yǔ)音模型依序排列產(chǎn)生一合并語(yǔ)音模型序列步驟740將此合并語(yǔ)音模型序列套用至ー語(yǔ)音合成器,將欲合成的輸入文本以此語(yǔ)音合成器合成為帶有第一語(yǔ)言ロ音的一第二語(yǔ)言語(yǔ)音800多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)810處理器890記憶體裝置具體實(shí)施例方式下面結(jié)合附圖對(duì)本揭露的結(jié)構(gòu)原理和工作原理作具體的描述本揭露實(shí)施例欲提供一種音韻模型統(tǒng)合的多語(yǔ)言文字轉(zhuǎn)語(yǔ)音合成技木,并且建立一種調(diào)整機(jī)制來(lái)調(diào)整非母語(yǔ)語(yǔ)句所帯的母語(yǔ)ロ音的權(quán)重,讓合成的語(yǔ)音在跨不同語(yǔ)言區(qū)塊時(shí),能因應(yīng)使用的情境來(lái)決定如何處理非母語(yǔ)的文字。讓合成的語(yǔ)音在跨不同語(yǔ)言區(qū)塊時(shí)韻律更加自然,發(fā)音腔調(diào)也更符合多數(shù)人所習(xí)慣的方式。換言之,本揭露實(shí)施例將非母語(yǔ),即第二語(yǔ)言(secondlanguage,L2),的文字轉(zhuǎn)換成帶有母語(yǔ)ロ音,即第一語(yǔ)言(firstIanguagel,Li)ロ音,的L2語(yǔ)音。本揭露實(shí)施例是可用參數(shù)調(diào)整語(yǔ)音單元序列的對(duì)應(yīng)以及語(yǔ)音模型的合井,來(lái)使非母語(yǔ)文字的發(fā)音(pronunciation)與韻律(prosody)可以在兩種極端范圍中作調(diào)整。換句話說(shuō),在完全維持其原標(biāo)準(zhǔn)發(fā)音至完全改成以母語(yǔ)方式發(fā)音之間作調(diào)整。以解決目前合成多語(yǔ)言文字吋,韻律或發(fā)音不自然的問(wèn)題,并且可依照喜好的程度進(jìn)行最佳的調(diào)整。圖1是ー種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)的ー個(gè)范例示意圖,與所揭露的某些實(shí)施范例一致。圖1的范例中,多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)100包含ー語(yǔ)音模型挑選模塊120、ー語(yǔ)音模型合并模塊130及ー語(yǔ)音合成器140。于ー在線(on-line)階段102時(shí),語(yǔ)音模型挑選模塊120對(duì)輸入文本及對(duì)應(yīng)文本的語(yǔ)音單元序列122,在L2語(yǔ)音模型庫(kù)1中,依序找出第二語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的第二語(yǔ)音模型,再查詢ーL2轉(zhuǎn)Ll的語(yǔ)音單元轉(zhuǎn)換表116,并依照設(shè)定的一可調(diào)控的ロ音權(quán)重參數(shù)150,決定要采用的一轉(zhuǎn)換組合,選擇ー相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列,并在Ll語(yǔ)音模型庫(kù)1中,依序找出第一語(yǔ)言語(yǔ)音單元序列中各語(yǔ)音單元所對(duì)應(yīng)的第一語(yǔ)音模型。7語(yǔ)音模型合并模塊130,依照設(shè)定的可調(diào)控的ロ音權(quán)重參數(shù)150,在L2語(yǔ)音模型庫(kù)126中找出的各語(yǔ)音單元所對(duì)應(yīng)的模型(即第二語(yǔ)音模型),及Ll語(yǔ)音模型庫(kù)128中找出的各語(yǔ)音單元所對(duì)應(yīng)的模型(即第一語(yǔ)音模型),依據(jù)采用一轉(zhuǎn)換組合,合并成ー合并語(yǔ)音模型,依序處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后,將各合并語(yǔ)音模型依序排列產(chǎn)生合并語(yǔ)音模型序列132。此合并語(yǔ)音模型序列132再套用至語(yǔ)音合成器140,合成為L(zhǎng)l語(yǔ)音及帶有Llロ音的一L2語(yǔ)音142。多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)100可再包括一語(yǔ)音單元轉(zhuǎn)換表建立模塊110,于ー離線(off-line)階段101吋,語(yǔ)音單元轉(zhuǎn)換表建立模塊110根據(jù)帶有Llロ音的一L2語(yǔ)料庫(kù)112及一Ll語(yǔ)音模型庫(kù)114,產(chǎn)生L2轉(zhuǎn)Ll的語(yǔ)音單元轉(zhuǎn)換表116。在上述中,Ll語(yǔ)音模型庫(kù)114是供語(yǔ)音単元轉(zhuǎn)換表建立模塊110所使用,而Ll語(yǔ)音模型庫(kù)1則供語(yǔ)音模型合并模塊130所使用,兩語(yǔ)音模型庫(kù)114及1可以采用相同的特征參數(shù),也可以采用不同的特征參數(shù),但L2語(yǔ)音模型庫(kù)1采用的參數(shù)與Ll語(yǔ)音模型庫(kù)1是采用相同的特征參數(shù)。欲合成的輸入文本122可以是同時(shí)包含Ll以及L2的文本,例如中英夾雜的句子他今天感覺(jué)很high、Cindy昨天mail給我、這件衣服是M號(hào)的。此時(shí)Ll為中文語(yǔ)言,L2為英語(yǔ),而合成語(yǔ)音在Ll的部分維持正常發(fā)音不變,L2的部分則合成帶有Llロ音的L2語(yǔ)音。輸入文本122也可以是只包含L2的文本,例如合成帶有臺(tái)語(yǔ)ロ音的中文語(yǔ)言,此時(shí)Ll為臺(tái)語(yǔ),L2為中文語(yǔ)言。也就是說(shuō),欲合成的輸入文本122至少含有L2的文本,對(duì)應(yīng)文本的語(yǔ)音単元序列至少含有L2的語(yǔ)音單元序列。圖2是ー范例示意圖,說(shuō)明語(yǔ)音單元轉(zhuǎn)換表建立模塊110如何產(chǎn)生語(yǔ)音単元轉(zhuǎn)換表,與所揭露的某些實(shí)施范例一致。在離線階段吋,如圖2的范例所示,建構(gòu)L2轉(zhuǎn)Ll的語(yǔ)音単元轉(zhuǎn)換表的流程可包含如下(1)準(zhǔn)備帶有Llロ音的L2語(yǔ)料庫(kù)112,此L2語(yǔ)料庫(kù)112包含有多個(gè)聲音文件202以及與聲音文件相對(duì)應(yīng)的多個(gè)語(yǔ)音単元序列204。(2)從L2語(yǔ)料庫(kù)112中挑選出ー個(gè)聲音文件以及與此聲音文件的內(nèi)容相對(duì)應(yīng)的一L2語(yǔ)音單元序列,將此聲音文件以Ll語(yǔ)音模型庫(kù)114來(lái)進(jìn)行自由音節(jié)(freesyllable)式語(yǔ)音識(shí)別212,產(chǎn)生音節(jié)識(shí)別結(jié)果214;關(guān)于音調(diào)(pitch)方面也可采取類似的方式以自由聲調(diào)識(shí)別(freetonerecognition)的結(jié)果作對(duì)應(yīng),也就是說(shuō),也可再包括進(jìn)行ー自由聲調(diào)式識(shí)別來(lái)產(chǎn)生識(shí)別結(jié)果214,此時(shí)結(jié)果為具聲調(diào)的音節(jié)(tonalsyllable)0(3)將Ll語(yǔ)音模型庫(kù)114產(chǎn)生的音節(jié)識(shí)別結(jié)果214,通過(guò)音節(jié)轉(zhuǎn)成語(yǔ)音単元216處理,轉(zhuǎn)成ーLl語(yǔ)音單元序列,(4)將步驟O)的L2語(yǔ)音單元序列及步驟C3)轉(zhuǎn)成的Ll語(yǔ)音單元序列利用動(dòng)態(tài)編程(DynamicProgramming,DP)218來(lái)進(jìn)行語(yǔ)音單元校準(zhǔn)(alignment),完成動(dòng)態(tài)編程后,即可得到ー筆轉(zhuǎn)換組合。也就是說(shuō),利用該動(dòng)態(tài)編程來(lái)找出該L2語(yǔ)音單元序列與該Ll語(yǔ)音單元序列的語(yǔ)音單元對(duì)應(yīng)與轉(zhuǎn)換類型。重復(fù)上述步驟(、(3)、(4)便可得到眾多的轉(zhuǎn)換組合,統(tǒng)計(jì)所得到的眾多轉(zhuǎn)換組合就可完成L2轉(zhuǎn)Ll的語(yǔ)音單元轉(zhuǎn)換表116。此語(yǔ)音単元轉(zhuǎn)換表可包含三種類型的轉(zhuǎn)換,分別為代換(substitution)、插入(insertion)及刪除(deletion),其中代換是一対一的轉(zhuǎn)換,插入是ー對(duì)多的轉(zhuǎn)換,刪除是多對(duì)ー的轉(zhuǎn)換。舉例說(shuō)明,假設(shè)從帶有Ll(中文)ロ音的L2(英文)語(yǔ)料庫(kù)112中ー個(gè)聲音文件為SARS,其L2語(yǔ)音單元序列為Sa:rs(國(guó)際音標(biāo)表示法,語(yǔ)音單元為音素)。而此聲音文件由Ll語(yǔ)音模型庫(kù)114進(jìn)行自由音節(jié)式語(yǔ)音識(shí)別212后,產(chǎn)生其音節(jié)識(shí)別結(jié)果214,經(jīng)音節(jié)轉(zhuǎn)成語(yǔ)音單元216處理后,Ll(中文)語(yǔ)音單元序列例如為“sasi(漢語(yǔ)拼音表示法,語(yǔ)音單元為聲母/韻母)”。將L2語(yǔ)音單元序列“sa:rs”及Ll語(yǔ)音單元序列“sasi”利用動(dòng)態(tài)編程218進(jìn)行語(yǔ)音単元校準(zhǔn)后,例如找到s-s的代換、a:r-a的刪除及sヰsi的插入等轉(zhuǎn)換,此即為得到一筆轉(zhuǎn)換組合。利用動(dòng)態(tài)編程218進(jìn)行語(yǔ)音単元校準(zhǔn)的方法舉例說(shuō)明如下。例如使用五個(gè)狀態(tài)(5-state)的隱馬可夫模型(HMM)來(lái)描述ー個(gè)語(yǔ)音模型,每個(gè)狀態(tài)的特征參數(shù)假設(shè)為梅爾倒頻譜(mel-cepstrum),維度(dimension)假設(shè)為25維,特征參數(shù)各維度的數(shù)值分布為高斯分布(Gaussiandistribution),以高斯密度函數(shù)g(μ,Σ)來(lái)表示,其中μ為平均值向量(維度為25Χ1),Σ為共變異矩陣(維度為25X25),屬于Ll的第一語(yǔ)音模型表示為も(μΣD,屬于L2的第二語(yǔ)音模型表示為&(μ2,Σ2)。在動(dòng)態(tài)編程過(guò)程中,可利用ー種統(tǒng)計(jì)學(xué)上計(jì)算兩離散概率分布之間的距離的巴特查里亞距離(Miattacharyyadistance)來(lái)計(jì)算兩語(yǔ)音模型之間的本地距離,作為動(dòng)態(tài)編程中的本地距離。巴特查里亞距離b如公式⑴所示,權(quán)利要求1.一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng),其特征在干,該系統(tǒng)包含ー語(yǔ)音模型挑選模塊,對(duì)欲合成的-含有一第二語(yǔ)言的輸入文本及對(duì)應(yīng)此輸入文本的該第二語(yǔ)言的部分的一第二語(yǔ)言語(yǔ)音単元序列,在一第二語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第二語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型后,再查詢ー第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表,并利用設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù),決定要采用ー轉(zhuǎn)換組合,選擇出一相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列,并在該第一語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第一語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第一語(yǔ)音模型;ー語(yǔ)音模型合并模塊,將找出的該第二語(yǔ)音模型與該第一語(yǔ)音模型,依照設(shè)定的該至少一可調(diào)控的ロ音權(quán)重參數(shù),合并成ー合并語(yǔ)音模型,依序處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后,將各合并語(yǔ)音模型依序排列產(chǎn)生ー合并語(yǔ)音模型序列;以及ー語(yǔ)音合成器,該合并語(yǔ)音模型序列被套用至該語(yǔ)音合成器,并且該語(yǔ)音合成器將該欲合成的輸入文本合成為帶有第一語(yǔ)言ロ音的一第二語(yǔ)言語(yǔ)音。2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在干,一語(yǔ)音單元轉(zhuǎn)換表建立模塊于一離線階段吋,通過(guò)ー語(yǔ)音単元轉(zhuǎn)換表建立模塊,根據(jù)帶有第一語(yǔ)言ロ音的一第二語(yǔ)言語(yǔ)料庫(kù)及ー第一語(yǔ)言語(yǔ)音模型庫(kù),產(chǎn)生該第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表。3.根據(jù)權(quán)利要求1所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng),其特征在干,該語(yǔ)音模型合并模塊將找出的該第二語(yǔ)音模型與該第一語(yǔ)音模型以ー權(quán)重方式計(jì)算,合并成該合并語(yǔ)音模型。4.根據(jù)權(quán)利要求1所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng),其特征在于,該第二語(yǔ)音模型與該第一語(yǔ)音模型至少包含一聲學(xué)參數(shù)。5.根據(jù)權(quán)利要求1所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng),其特征在于,該第二語(yǔ)音模型與該第一語(yǔ)音模型還包括一音長(zhǎng)參數(shù)及一音調(diào)參數(shù)。6.一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng),執(zhí)行于ー計(jì)算機(jī)系統(tǒng)中,該計(jì)算機(jī)系統(tǒng)備有一記憶體裝置,至少儲(chǔ)存一第一與一第二語(yǔ)言語(yǔ)音模型庫(kù),其特征在于,該文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)包含ー處理器,該處理器備有ー語(yǔ)音模型挑選模塊、ー語(yǔ)音模型合并模塊、及ー語(yǔ)音合成器,該語(yǔ)音模型挑選模塊對(duì)欲合成的一含有第二語(yǔ)言的輸入文本及對(duì)應(yīng)此輸入文本第二語(yǔ)言的部分的一第二語(yǔ)言語(yǔ)音単元序列,在該第二語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第二語(yǔ)言語(yǔ)音單元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型,再查詢ー第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音単元轉(zhuǎn)換表,并利用設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù),決定要采用ー轉(zhuǎn)換組合,選擇出一相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列,并在該第一語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第一語(yǔ)言語(yǔ)音單元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第一語(yǔ)音模型,該語(yǔ)音模型合并模塊將找出的該第二語(yǔ)音模型與該第一語(yǔ)音模型,依照至少一可調(diào)控的ロ音權(quán)重參數(shù),合并成ー合并語(yǔ)音模型,處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后,將各合并語(yǔ)音模型依序排列產(chǎn)生ー合并語(yǔ)音模型序列,該合并語(yǔ)音模型序列再套用至該語(yǔ)音合成器,以合成為帶有第一語(yǔ)言ロ音的第二語(yǔ)7.一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法,執(zhí)行于ー計(jì)算機(jī)系統(tǒng)中,該計(jì)算機(jī)系統(tǒng)備有一記憶體裝置,至少儲(chǔ)存一第一與一第二語(yǔ)言語(yǔ)音模型庫(kù),其特征在干,該方法包含對(duì)欲合成的含有第二語(yǔ)言的輸入文本,利用對(duì)應(yīng)此輸入文本第二語(yǔ)言的部分的一第二語(yǔ)言語(yǔ)音単元序列,在該第二語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第二語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型后,再查詢ー第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表,并依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù),決定要采用的一轉(zhuǎn)換組合,選擇ー相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列,并且在該第一語(yǔ)言語(yǔ)音模型庫(kù)中,依序找出該第一語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第一語(yǔ)音模型;依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù),將該找出的該第二語(yǔ)音模型與該第一語(yǔ)音模型,合并成ー合并語(yǔ)音模型,處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后,將各合并語(yǔ)音模型依序排列產(chǎn)生ー合并語(yǔ)音模型序列;以及將該合并語(yǔ)音模型序列套用至ー語(yǔ)音合成器,并將欲合成的輸入文本以該語(yǔ)音合成器合成為帶有第一語(yǔ)言ロ音的一第二語(yǔ)言語(yǔ)音。8.根據(jù)權(quán)利要求7所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法,該方法還包括建構(gòu)該語(yǔ)音單元轉(zhuǎn)換表,其特征在干從ー帶有第一語(yǔ)言ロ音的第二語(yǔ)言語(yǔ)料庫(kù)中挑選出多個(gè)聲音文件以及與聲音文件相對(duì)應(yīng)的多個(gè)第二語(yǔ)言語(yǔ)音単元序列;對(duì)挑選出的該多個(gè)聲音文件的每一聲音文件,由一第一語(yǔ)言語(yǔ)音模型來(lái)進(jìn)行ー自由音節(jié)式語(yǔ)音識(shí)別,產(chǎn)生ー識(shí)別結(jié)果并將該識(shí)別結(jié)果轉(zhuǎn)成一第一語(yǔ)言語(yǔ)音単元序列,并且將與該聲音文件相對(duì)應(yīng)的一第二語(yǔ)言語(yǔ)音単元序列及轉(zhuǎn)成的該第一語(yǔ)言語(yǔ)音単元序列利用一動(dòng)態(tài)編程來(lái)進(jìn)行語(yǔ)音単元校準(zhǔn),完成該動(dòng)態(tài)編程后,得到一筆轉(zhuǎn)換組合;以及統(tǒng)計(jì)由上述所得到的多筆轉(zhuǎn)換組合,產(chǎn)生該語(yǔ)音單元轉(zhuǎn)換表。9.根據(jù)權(quán)利要求8所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法,其特征在干,該動(dòng)態(tài)編程還包括利用一種統(tǒng)計(jì)學(xué)上計(jì)算兩離散概率分布之間的距離的巴特查里亞距離來(lái)計(jì)算兩語(yǔ)音単元之間的本地距離。10.根據(jù)權(quán)利要求7所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法,其特征在干,該語(yǔ)音單元轉(zhuǎn)換表包含代換、插入、及刪除,共三種類型的轉(zhuǎn)換。11.根據(jù)權(quán)利要求10所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法,其特征在干,代換是ー對(duì)一的轉(zhuǎn)換,插入是一對(duì)多的轉(zhuǎn)換,刪除是多對(duì)ー的轉(zhuǎn)換。12.根據(jù)權(quán)利要求10所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法,其特征在于,該方法利用該動(dòng)態(tài)編程,找出該欲合成的輸入文本的對(duì)應(yīng)語(yǔ)音単元與轉(zhuǎn)換類型。13.根據(jù)權(quán)利要求7所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法,其特征在干,該合并語(yǔ)音模型還包括以一高斯密度函數(shù)表示為gnew(y_,ΣnJ,并以下列的形式來(lái)表達(dá)μnew=w*μi+(l-wフ2Σnew=w*(Σ1+(y1-ynew)2)+(i-w)*(Σ2+(U2-Unew)2)其中,該找出的第一語(yǔ)音模型以高斯密度函數(shù)表示為も(μ”Σi),該找出的第二語(yǔ)音模型以高斯密度函數(shù)表示為&2,Σ2),μ為平均值向量,Σ為共變異矩陣,0≤w≤1。14.根據(jù)權(quán)利要求8所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法,其特征在干,產(chǎn)生該識(shí)別結(jié)果還包括進(jìn)行ー自由聲調(diào)式識(shí)別。全文摘要一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)與方法,將欲合成的文本,通過(guò)一語(yǔ)音模型挑選模塊及一語(yǔ)音模型合并模塊處理,利用一離線階段得到的一語(yǔ)音單元轉(zhuǎn)換表,于一在線階段時(shí),此語(yǔ)音模型挑選模塊,依據(jù)輸入文本及對(duì)應(yīng)文本的語(yǔ)音單元序列,利用設(shè)定的至少一可調(diào)控的口音權(quán)重參數(shù),選擇要采用的一轉(zhuǎn)換組合,找出一第二語(yǔ)音模型及一第一語(yǔ)音模型,此語(yǔ)音模型合并模塊依照設(shè)定的至少一可調(diào)控的口音權(quán)重參數(shù),將找出的兩語(yǔ)音模型合并成一合并語(yǔ)音模型,處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后,產(chǎn)生一對(duì)應(yīng)輸入之語(yǔ)音單元序列的合并語(yǔ)音模型序列,然后利用一語(yǔ)音合成器以及此合并語(yǔ)音模型序列將文本合成帶有第一語(yǔ)言口音的第二語(yǔ)言語(yǔ)音。文檔編號(hào)G10L13/08GK102543069SQ20111003469公開(kāi)日2012年7月4日申請(qǐng)日期2011年1月30日優(yōu)先權(quán)日2010年12月30日發(fā)明者李振宇,涂家章,郭志忠申請(qǐng)人:財(cái)團(tuán)法人工業(yè)技術(shù)研究院