多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)與方法

文檔序號(hào)：2824988閱讀：280來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：：多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)與方法
技術(shù)領(lǐng)域：
：本揭露涉及一種多語(yǔ)言(multi-lingual)的文字轉(zhuǎn)語(yǔ)音(Text-To-Speech，TTS)合成(synthesis)系統(tǒng)與方法。
背景技術(shù)：
：在文章或句子中出現(xiàn)多種語(yǔ)言的交錯(cuò)使用是很常見(jiàn)的，例如中文與英文夾雜使用。當(dāng)人們需要將這些文字以語(yǔ)音合成技術(shù)轉(zhuǎn)為聲音吋，依據(jù)使用的情境來(lái)決定如何處理非母語(yǔ)的文字是最佳的。例如有的情境以標(biāo)準(zhǔn)的英文讀出英文單字就已經(jīng)是最好的，有的情境則略帶母語(yǔ)腔調(diào)的方式反而較為自然，例如小說(shuō)電子書(shū)中出現(xiàn)的中英夾雜文句，寫(xiě)給朋友的電子郵件等。目前多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)普遍以多套語(yǔ)言的合成器進(jìn)行切換，所以合成的語(yǔ)音在不同語(yǔ)言區(qū)塊交錯(cuò)吋，常會(huì)出現(xiàn)由不同語(yǔ)者發(fā)音，或是語(yǔ)句韻律中斷而不順暢等情形。多語(yǔ)言語(yǔ)音合成的現(xiàn)有文獻(xiàn)有很多。相關(guān)的文獻(xiàn)例如美國(guó)專利號(hào)US6，141，642揭示的處理多種語(yǔ)言的文字轉(zhuǎn)語(yǔ)音裝置與方法(TTSApparatusandMethodforProcessingMultipleLanguages)，此技術(shù)直接以多套語(yǔ)言的合成器來(lái)進(jìn)行切換。有些專利文獻(xiàn)掲示的技術(shù)是直接將非母語(yǔ)音標(biāo)完全對(duì)應(yīng)成母語(yǔ)音標(biāo)，沒(méi)有將不同語(yǔ)言的語(yǔ)音模型之間的差異納入考慮。有些專利文獻(xiàn)掲示的技術(shù)則合并不同語(yǔ)言的語(yǔ)音模型中相似的部分，保留相異的部分，而沒(méi)有考慮ロ音權(quán)重的問(wèn)題。有些論文如關(guān)于基于HMM的混合語(yǔ)言(Mixed-language)，如中文-英文，的語(yǔ)音合成所掲示的技術(shù)也是沒(méi)有將ロ音權(quán)重納入考慮。有一篇論又〃ForeignAccentsinSyntneticSpeech!DevelopmentandEvaluation“是以不同的音標(biāo)對(duì)應(yīng)的方式來(lái)處理ロ音問(wèn)題。另兩篇論又“Polyglotspeechprosodycontrol“及“Prosodymodificationonmixed-languagespeechsynthesis〃則處理韻律方面的問(wèn)題，也沒(méi)有處理語(yǔ)音模型的部分。而論又"NewapproachtotnepolyglotspeecngenerationbymeansοιanHMM-basedspeakeradaptablesynthesizer"是以語(yǔ)者模型調(diào)適的方式來(lái)建立非母語(yǔ)(non-nativelanguage)的語(yǔ)音模型，但沒(méi)有掲示可控制ロ音的輕重。
發(fā)明內(nèi)容本發(fā)明揭露一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)與方法，所要解決的技術(shù)問(wèn)題在于使第二語(yǔ)言詞匯的發(fā)音與韻律，可以在完全維持其原標(biāo)準(zhǔn)發(fā)音，到完全以第一語(yǔ)言方式發(fā)音的兩種極端范圍中作調(diào)整。在一實(shí)施例中，所揭露的是關(guān)于一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)。此系統(tǒng)包含ー語(yǔ)音模型挑選模塊(speechmodelselectionmodule)、ー語(yǔ)音模型合并模塊(speechmodelcombinationmodule)及一語(yǔ)首合成器(speechsynthesizer)。此語(yǔ)首模型挑選娛塊對(duì)欲合成的含有第二語(yǔ)言的輸入文本(text)及對(duì)應(yīng)此輸入文本第二語(yǔ)言的部分的一第4CN102543069Aニ語(yǔ)言語(yǔ)音単元序列(phoneticunitsequence)，在一第二語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第二語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型，再查詢ー第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表，并利用設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù)，決定要采用ー轉(zhuǎn)換組合，選擇出一相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列，并在ー第一語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第一語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第一語(yǔ)音模型。此語(yǔ)音模型合并模塊將找出的第二與第一語(yǔ)音模型，依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù)，合并成ー合并語(yǔ)音模型，依序處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后，將各合并語(yǔ)音模型依序排列產(chǎn)生ー合并語(yǔ)音模型序列。此合并語(yǔ)音模型序列再套用至此語(yǔ)音合成器，以將輸入的文本合成為帶有第一語(yǔ)言ロ音的第二語(yǔ)言語(yǔ)音(Ll-accentL2speech)。在另ー實(shí)施例中，所揭露的是關(guān)于一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)，此多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)是執(zhí)行于ー計(jì)算機(jī)系統(tǒng)中，此計(jì)算機(jī)系統(tǒng)備有一記憶體裝置，用來(lái)儲(chǔ)存多種語(yǔ)言語(yǔ)音模型庫(kù)，至少包括一第一與一第二語(yǔ)言語(yǔ)音模型庫(kù)。此多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)可包含ー處理器，此處理器備有ー語(yǔ)音模型挑選模塊、ー語(yǔ)音模型合并模塊、及ー語(yǔ)音合成器。其中，于ー離線階段吋，建立一語(yǔ)音單元轉(zhuǎn)換表，以提供給此處理器使用。此語(yǔ)音模型挑選模塊對(duì)欲合成的含有第二語(yǔ)言的輸入文本及對(duì)應(yīng)此輸入文本第二語(yǔ)言的部分的一第二語(yǔ)言語(yǔ)音単元序列，在該第二語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第二語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型，再查詢?cè)摰诙Z(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表，并依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù)，決定要采用的一轉(zhuǎn)換組合，選擇出一相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列，并在該第一語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第一語(yǔ)言語(yǔ)音單元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第一語(yǔ)音模型。此語(yǔ)音模型合并模塊將找出的第二與第一語(yǔ)音模型，依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù)，合并成ー合并語(yǔ)音模型，依序處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后，將各合并語(yǔ)音模型依序排列產(chǎn)生ー合并語(yǔ)音模型序列。此合并語(yǔ)音模型序列再套用至此語(yǔ)音合成器，以將輸入的文本合成為帶有第一語(yǔ)言ロ音的■~-曰1ロ—曰‘ο在又一實(shí)施例中，所揭露的是關(guān)于一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法。此方法是執(zhí)行于ー計(jì)算機(jī)系統(tǒng)中，此計(jì)算機(jī)系統(tǒng)備有一記憶體裝置，用來(lái)儲(chǔ)存多種語(yǔ)言語(yǔ)音模型庫(kù)，至少包括一第一與一第二語(yǔ)言語(yǔ)音模型庫(kù)。此方法包含對(duì)欲合成的含有第二語(yǔ)言的輸入文本及對(duì)應(yīng)此輸入文本第二語(yǔ)言的部分的一第二語(yǔ)言語(yǔ)音単元序列，在該第二語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第二語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型后，再查詢ー第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表，并依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù)，決定要采用的一轉(zhuǎn)換組合，選擇ー相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列，并在該第一語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第一語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第一語(yǔ)音模型；依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù)，將找出的第二與第一語(yǔ)音模型，合并成ー合并語(yǔ)音模型，依序處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后，將各合并語(yǔ)音模型依序排列產(chǎn)生ー合并語(yǔ)音模型序列；以及將此合并語(yǔ)音模型序列套用至ー語(yǔ)音合成器，并將欲合成的輸入文本以此語(yǔ)音合成器合成為帶有第一語(yǔ)言ロ音的一第二語(yǔ)言語(yǔ)音。以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述，但不作為對(duì)本發(fā)明的限定。圖1是ー種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)的ー個(gè)范例示意圖，與所揭露的實(shí)施范例一致；圖2是ー范例示意圖，說(shuō)明語(yǔ)音單元轉(zhuǎn)換表建立模塊如何產(chǎn)生語(yǔ)音單元轉(zhuǎn)換表，與所揭露的實(shí)施范例一致；圖3說(shuō)明動(dòng)態(tài)編程的細(xì)節(jié)，與所揭露的實(shí)施范例一致；圖4是ー范例示意圖，說(shuō)明在線階段吋，各模塊的運(yùn)作，與所揭露的實(shí)施范例一致；圖5是ー范例流程圖，說(shuō)明一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法的運(yùn)作，與所揭露的實(shí)施范例一致；圖6是多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)執(zhí)行于ー計(jì)算機(jī)系統(tǒng)中的ー范例示意圖，與所揭露的實(shí)施范例一致。其中，附圖標(biāo)記100多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)101離線階段102在線階段Ll第一語(yǔ)言L2第二語(yǔ)言110語(yǔ)音單元轉(zhuǎn)換表建立模塊112帶有Llロ音的L2語(yǔ)料庫(kù)114Ll語(yǔ)音模型庫(kù)116L2轉(zhuǎn)Ll的語(yǔ)音單元轉(zhuǎn)換表120語(yǔ)音模型挑選模塊122輸入文本及對(duì)應(yīng)文本的語(yǔ)音單元序列126L2語(yǔ)音模型庫(kù)128Ll語(yǔ)音模型庫(kù)130語(yǔ)音模型合并模塊132合并語(yǔ)音模型序列140語(yǔ)音合成器142帶有Llロ音的L2語(yǔ)音150可調(diào)控的ロ音權(quán)重參數(shù)202聲音文件204語(yǔ)音單元序列212自由音節(jié)式語(yǔ)音識(shí)別214音節(jié)識(shí)別結(jié)果216音節(jié)轉(zhuǎn)成語(yǔ)音單元218動(dòng)態(tài)編程300L2轉(zhuǎn)Ll的語(yǔ)音單元轉(zhuǎn)換表的例子511-5133條路徑614第一語(yǔ)言模型616第二語(yǔ)言模型622合并語(yǔ)音模型步驟710準(zhǔn)備帶有第一語(yǔ)言ロ音的一第二語(yǔ)言語(yǔ)料庫(kù)及ー第一語(yǔ)言語(yǔ)音模型庫(kù)，來(lái)建構(gòu)ー第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表步驟720對(duì)欲合成的一含有第二語(yǔ)言的輸入文本，及對(duì)應(yīng)輸入文本第二語(yǔ)言的部分的一第二語(yǔ)言語(yǔ)音単元序列，在一第二語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第二語(yǔ)言語(yǔ)音單元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型后，再查詢ー語(yǔ)音單元轉(zhuǎn)換表，并依照設(shè)定的一可調(diào)控的ロ音權(quán)重參數(shù)，決定要采用的一轉(zhuǎn)換組合，決定出一相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列，并在ー第一語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第一語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的第一語(yǔ)音模型步驟730依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù)，將找出的兩語(yǔ)音模型，合并成一合并語(yǔ)音模型，依序處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后，將各合并語(yǔ)音模型依序排列產(chǎn)生一合并語(yǔ)音模型序列步驟740將此合并語(yǔ)音模型序列套用至ー語(yǔ)音合成器，將欲合成的輸入文本以此語(yǔ)音合成器合成為帶有第一語(yǔ)言ロ音的一第二語(yǔ)言語(yǔ)音800多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)810處理器890記憶體裝置具體實(shí)施例方式下面結(jié)合附圖對(duì)本揭露的結(jié)構(gòu)原理和工作原理作具體的描述本揭露實(shí)施例欲提供一種音韻模型統(tǒng)合的多語(yǔ)言文字轉(zhuǎn)語(yǔ)音合成技木，并且建立一種調(diào)整機(jī)制來(lái)調(diào)整非母語(yǔ)語(yǔ)句所帯的母語(yǔ)ロ音的權(quán)重，讓合成的語(yǔ)音在跨不同語(yǔ)言區(qū)塊時(shí)，能因應(yīng)使用的情境來(lái)決定如何處理非母語(yǔ)的文字。讓合成的語(yǔ)音在跨不同語(yǔ)言區(qū)塊時(shí)韻律更加自然，發(fā)音腔調(diào)也更符合多數(shù)人所習(xí)慣的方式。換言之，本揭露實(shí)施例將非母語(yǔ)，即第二語(yǔ)言(secondlanguage,L2)，的文字轉(zhuǎn)換成帶有母語(yǔ)ロ音，即第一語(yǔ)言(firstIanguagel,Li)ロ音，的L2語(yǔ)音。本揭露實(shí)施例是可用參數(shù)調(diào)整語(yǔ)音單元序列的對(duì)應(yīng)以及語(yǔ)音模型的合井，來(lái)使非母語(yǔ)文字的發(fā)音(pronunciation)與韻律(prosody)可以在兩種極端范圍中作調(diào)整。換句話說(shuō)，在完全維持其原標(biāo)準(zhǔn)發(fā)音至完全改成以母語(yǔ)方式發(fā)音之間作調(diào)整。以解決目前合成多語(yǔ)言文字吋，韻律或發(fā)音不自然的問(wèn)題，并且可依照喜好的程度進(jìn)行最佳的調(diào)整。圖1是ー種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)的ー個(gè)范例示意圖，與所揭露的某些實(shí)施范例一致。圖1的范例中，多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)100包含ー語(yǔ)音模型挑選模塊120、ー語(yǔ)音模型合并模塊130及ー語(yǔ)音合成器140。于ー在線(on-line)階段102時(shí)，語(yǔ)音模型挑選模塊120對(duì)輸入文本及對(duì)應(yīng)文本的語(yǔ)音單元序列122，在L2語(yǔ)音模型庫(kù)1中，依序找出第二語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的第二語(yǔ)音模型，再查詢ーL2轉(zhuǎn)Ll的語(yǔ)音單元轉(zhuǎn)換表116，并依照設(shè)定的一可調(diào)控的ロ音權(quán)重參數(shù)150，決定要采用的一轉(zhuǎn)換組合，選擇ー相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列，并在Ll語(yǔ)音模型庫(kù)1中，依序找出第一語(yǔ)言語(yǔ)音單元序列中各語(yǔ)音單元所對(duì)應(yīng)的第一語(yǔ)音模型。7語(yǔ)音模型合并模塊130，依照設(shè)定的可調(diào)控的ロ音權(quán)重參數(shù)150，在L2語(yǔ)音模型庫(kù)126中找出的各語(yǔ)音單元所對(duì)應(yīng)的模型(即第二語(yǔ)音模型)，及Ll語(yǔ)音模型庫(kù)128中找出的各語(yǔ)音單元所對(duì)應(yīng)的模型(即第一語(yǔ)音模型)，依據(jù)采用一轉(zhuǎn)換組合，合并成ー合并語(yǔ)音模型，依序處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后，將各合并語(yǔ)音模型依序排列產(chǎn)生合并語(yǔ)音模型序列132。此合并語(yǔ)音模型序列132再套用至語(yǔ)音合成器140，合成為L(zhǎng)l語(yǔ)音及帶有Llロ音的一L2語(yǔ)音142。多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)100可再包括一語(yǔ)音單元轉(zhuǎn)換表建立模塊110，于ー離線(off-line)階段101吋，語(yǔ)音單元轉(zhuǎn)換表建立模塊110根據(jù)帶有Llロ音的一L2語(yǔ)料庫(kù)112及一Ll語(yǔ)音模型庫(kù)114，產(chǎn)生L2轉(zhuǎn)Ll的語(yǔ)音單元轉(zhuǎn)換表116。在上述中，Ll語(yǔ)音模型庫(kù)114是供語(yǔ)音単元轉(zhuǎn)換表建立模塊110所使用，而Ll語(yǔ)音模型庫(kù)1則供語(yǔ)音模型合并模塊130所使用，兩語(yǔ)音模型庫(kù)114及1可以采用相同的特征參數(shù)，也可以采用不同的特征參數(shù)，但L2語(yǔ)音模型庫(kù)1采用的參數(shù)與Ll語(yǔ)音模型庫(kù)1是采用相同的特征參數(shù)。欲合成的輸入文本122可以是同時(shí)包含Ll以及L2的文本，例如中英夾雜的句子他今天感覺(jué)很high、Cindy昨天mail給我、這件衣服是M號(hào)的。此時(shí)Ll為中文語(yǔ)言，L2為英語(yǔ)，而合成語(yǔ)音在Ll的部分維持正常發(fā)音不變，L2的部分則合成帶有Llロ音的L2語(yǔ)音。輸入文本122也可以是只包含L2的文本，例如合成帶有臺(tái)語(yǔ)ロ音的中文語(yǔ)言，此時(shí)Ll為臺(tái)語(yǔ)，L2為中文語(yǔ)言。也就是說(shuō)，欲合成的輸入文本122至少含有L2的文本，對(duì)應(yīng)文本的語(yǔ)音単元序列至少含有L2的語(yǔ)音單元序列。圖2是ー范例示意圖，說(shuō)明語(yǔ)音單元轉(zhuǎn)換表建立模塊110如何產(chǎn)生語(yǔ)音単元轉(zhuǎn)換表，與所揭露的某些實(shí)施范例一致。在離線階段吋，如圖2的范例所示，建構(gòu)L2轉(zhuǎn)Ll的語(yǔ)音単元轉(zhuǎn)換表的流程可包含如下(1)準(zhǔn)備帶有Llロ音的L2語(yǔ)料庫(kù)112，此L2語(yǔ)料庫(kù)112包含有多個(gè)聲音文件202以及與聲音文件相對(duì)應(yīng)的多個(gè)語(yǔ)音単元序列204。(2)從L2語(yǔ)料庫(kù)112中挑選出ー個(gè)聲音文件以及與此聲音文件的內(nèi)容相對(duì)應(yīng)的一L2語(yǔ)音單元序列，將此聲音文件以Ll語(yǔ)音模型庫(kù)114來(lái)進(jìn)行自由音節(jié)(freesyllable)式語(yǔ)音識(shí)別212，產(chǎn)生音節(jié)識(shí)別結(jié)果214;關(guān)于音調(diào)(pitch)方面也可采取類似的方式以自由聲調(diào)識(shí)別(freetonerecognition)的結(jié)果作對(duì)應(yīng)，也就是說(shuō)，也可再包括進(jìn)行ー自由聲調(diào)式識(shí)別來(lái)產(chǎn)生識(shí)別結(jié)果214，此時(shí)結(jié)果為具聲調(diào)的音節(jié)(tonalsyllable)0(3)將Ll語(yǔ)音模型庫(kù)114產(chǎn)生的音節(jié)識(shí)別結(jié)果214，通過(guò)音節(jié)轉(zhuǎn)成語(yǔ)音単元216處理，轉(zhuǎn)成ーLl語(yǔ)音單元序列，(4)將步驟O)的L2語(yǔ)音單元序列及步驟C3)轉(zhuǎn)成的Ll語(yǔ)音單元序列利用動(dòng)態(tài)編程(DynamicProgramming,DP)218來(lái)進(jìn)行語(yǔ)音單元校準(zhǔn)(alignment)，完成動(dòng)態(tài)編程后，即可得到ー筆轉(zhuǎn)換組合。也就是說(shuō)，利用該動(dòng)態(tài)編程來(lái)找出該L2語(yǔ)音單元序列與該Ll語(yǔ)音單元序列的語(yǔ)音單元對(duì)應(yīng)與轉(zhuǎn)換類型。重復(fù)上述步驟(、(3)、(4)便可得到眾多的轉(zhuǎn)換組合，統(tǒng)計(jì)所得到的眾多轉(zhuǎn)換組合就可完成L2轉(zhuǎn)Ll的語(yǔ)音單元轉(zhuǎn)換表116。此語(yǔ)音単元轉(zhuǎn)換表可包含三種類型的轉(zhuǎn)換，分別為代換(substitution)、插入(insertion)及刪除(deletion)，其中代換是一対一的轉(zhuǎn)換，插入是ー對(duì)多的轉(zhuǎn)換，刪除是多對(duì)ー的轉(zhuǎn)換。舉例說(shuō)明，假設(shè)從帶有Ll(中文)ロ音的L2(英文)語(yǔ)料庫(kù)112中ー個(gè)聲音文件為SARS，其L2語(yǔ)音單元序列為Sa:rs(國(guó)際音標(biāo)表示法，語(yǔ)音單元為音素)。而此聲音文件由Ll語(yǔ)音模型庫(kù)114進(jìn)行自由音節(jié)式語(yǔ)音識(shí)別212后，產(chǎn)生其音節(jié)識(shí)別結(jié)果214，經(jīng)音節(jié)轉(zhuǎn)成語(yǔ)音單元216處理后，Ll(中文)語(yǔ)音單元序列例如為“sasi(漢語(yǔ)拼音表示法，語(yǔ)音單元為聲母/韻母)”。將L2語(yǔ)音單元序列“sa:rs”及Ll語(yǔ)音單元序列“sasi”利用動(dòng)態(tài)編程218進(jìn)行語(yǔ)音単元校準(zhǔn)后，例如找到s-s的代換、a:r-a的刪除及sヰsi的插入等轉(zhuǎn)換，此即為得到一筆轉(zhuǎn)換組合。利用動(dòng)態(tài)編程218進(jìn)行語(yǔ)音単元校準(zhǔn)的方法舉例說(shuō)明如下。例如使用五個(gè)狀態(tài)(5-state)的隱馬可夫模型(HMM)來(lái)描述ー個(gè)語(yǔ)音模型，每個(gè)狀態(tài)的特征參數(shù)假設(shè)為梅爾倒頻譜(mel-cepstrum)，維度(dimension)假設(shè)為25維，特征參數(shù)各維度的數(shù)值分布為高斯分布(Gaussiandistribution)，以高斯密度函數(shù)g(μ，Σ)來(lái)表示，其中μ為平均值向量(維度為25Χ1)，Σ為共變異矩陣(維度為25X25)，屬于Ll的第一語(yǔ)音模型表示為も(μΣD，屬于L2的第二語(yǔ)音模型表示為&(μ2，Σ2)。在動(dòng)態(tài)編程過(guò)程中，可利用ー種統(tǒng)計(jì)學(xué)上計(jì)算兩離散概率分布之間的距離的巴特查里亞距離(Miattacharyyadistance)來(lái)計(jì)算兩語(yǔ)音模型之間的本地距離，作為動(dòng)態(tài)編程中的本地距離。巴特查里亞距離b如公式⑴所示，權(quán)利要求1.一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)，其特征在干，該系統(tǒng)包含ー語(yǔ)音模型挑選模塊，對(duì)欲合成的-含有一第二語(yǔ)言的輸入文本及對(duì)應(yīng)此輸入文本的該第二語(yǔ)言的部分的一第二語(yǔ)言語(yǔ)音単元序列，在一第二語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第二語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型后，再查詢ー第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表，并利用設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù)，決定要采用ー轉(zhuǎn)換組合，選擇出一相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列，并在該第一語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第一語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第一語(yǔ)音模型；ー語(yǔ)音模型合并模塊，將找出的該第二語(yǔ)音模型與該第一語(yǔ)音模型，依照設(shè)定的該至少一可調(diào)控的ロ音權(quán)重參數(shù)，合并成ー合并語(yǔ)音模型，依序處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后，將各合并語(yǔ)音模型依序排列產(chǎn)生ー合并語(yǔ)音模型序列；以及ー語(yǔ)音合成器，該合并語(yǔ)音模型序列被套用至該語(yǔ)音合成器，并且該語(yǔ)音合成器將該欲合成的輸入文本合成為帶有第一語(yǔ)言ロ音的一第二語(yǔ)言語(yǔ)音。2.根據(jù)權(quán)利要求1所述的系統(tǒng)，其特征在干，一語(yǔ)音單元轉(zhuǎn)換表建立模塊于一離線階段吋，通過(guò)ー語(yǔ)音単元轉(zhuǎn)換表建立模塊，根據(jù)帶有第一語(yǔ)言ロ音的一第二語(yǔ)言語(yǔ)料庫(kù)及ー第一語(yǔ)言語(yǔ)音模型庫(kù)，產(chǎn)生該第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表。3.根據(jù)權(quán)利要求1所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)，其特征在干，該語(yǔ)音模型合并模塊將找出的該第二語(yǔ)音模型與該第一語(yǔ)音模型以ー權(quán)重方式計(jì)算，合并成該合并語(yǔ)音模型。4.根據(jù)權(quán)利要求1所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)，其特征在于，該第二語(yǔ)音模型與該第一語(yǔ)音模型至少包含一聲學(xué)參數(shù)。5.根據(jù)權(quán)利要求1所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)，其特征在于，該第二語(yǔ)音模型與該第一語(yǔ)音模型還包括一音長(zhǎng)參數(shù)及一音調(diào)參數(shù)。6.一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)，執(zhí)行于ー計(jì)算機(jī)系統(tǒng)中，該計(jì)算機(jī)系統(tǒng)備有一記憶體裝置，至少儲(chǔ)存一第一與一第二語(yǔ)言語(yǔ)音模型庫(kù)，其特征在于，該文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)包含ー處理器，該處理器備有ー語(yǔ)音模型挑選模塊、ー語(yǔ)音模型合并模塊、及ー語(yǔ)音合成器，該語(yǔ)音模型挑選模塊對(duì)欲合成的一含有第二語(yǔ)言的輸入文本及對(duì)應(yīng)此輸入文本第二語(yǔ)言的部分的一第二語(yǔ)言語(yǔ)音単元序列，在該第二語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第二語(yǔ)言語(yǔ)音單元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型，再查詢ー第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音単元轉(zhuǎn)換表，并利用設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù)，決定要采用ー轉(zhuǎn)換組合，選擇出一相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列，并在該第一語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第一語(yǔ)言語(yǔ)音單元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第一語(yǔ)音模型，該語(yǔ)音模型合并模塊將找出的該第二語(yǔ)音模型與該第一語(yǔ)音模型，依照至少一可調(diào)控的ロ音權(quán)重參數(shù)，合并成ー合并語(yǔ)音模型，處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后，將各合并語(yǔ)音模型依序排列產(chǎn)生ー合并語(yǔ)音模型序列，該合并語(yǔ)音模型序列再套用至該語(yǔ)音合成器，以合成為帶有第一語(yǔ)言ロ音的第二語(yǔ)7.一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法，執(zhí)行于ー計(jì)算機(jī)系統(tǒng)中，該計(jì)算機(jī)系統(tǒng)備有一記憶體裝置，至少儲(chǔ)存一第一與一第二語(yǔ)言語(yǔ)音模型庫(kù)，其特征在干，該方法包含對(duì)欲合成的含有第二語(yǔ)言的輸入文本，利用對(duì)應(yīng)此輸入文本第二語(yǔ)言的部分的一第二語(yǔ)言語(yǔ)音単元序列，在該第二語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第二語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第二語(yǔ)音模型后，再查詢ー第二語(yǔ)言轉(zhuǎn)第一語(yǔ)言的語(yǔ)音單元轉(zhuǎn)換表，并依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù)，決定要采用的一轉(zhuǎn)換組合，選擇ー相對(duì)應(yīng)的第一語(yǔ)言語(yǔ)音単元序列，并且在該第一語(yǔ)言語(yǔ)音模型庫(kù)中，依序找出該第一語(yǔ)言語(yǔ)音単元序列中各語(yǔ)音單元所對(duì)應(yīng)的一第一語(yǔ)音模型；依照設(shè)定的至少一可調(diào)控的ロ音權(quán)重參數(shù)，將該找出的該第二語(yǔ)音模型與該第一語(yǔ)音模型，合并成ー合并語(yǔ)音模型，處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后，將各合并語(yǔ)音模型依序排列產(chǎn)生ー合并語(yǔ)音模型序列；以及將該合并語(yǔ)音模型序列套用至ー語(yǔ)音合成器，并將欲合成的輸入文本以該語(yǔ)音合成器合成為帶有第一語(yǔ)言ロ音的一第二語(yǔ)言語(yǔ)音。8.根據(jù)權(quán)利要求7所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法，該方法還包括建構(gòu)該語(yǔ)音單元轉(zhuǎn)換表，其特征在干從ー帶有第一語(yǔ)言ロ音的第二語(yǔ)言語(yǔ)料庫(kù)中挑選出多個(gè)聲音文件以及與聲音文件相對(duì)應(yīng)的多個(gè)第二語(yǔ)言語(yǔ)音単元序列；對(duì)挑選出的該多個(gè)聲音文件的每一聲音文件，由一第一語(yǔ)言語(yǔ)音模型來(lái)進(jìn)行ー自由音節(jié)式語(yǔ)音識(shí)別，產(chǎn)生ー識(shí)別結(jié)果并將該識(shí)別結(jié)果轉(zhuǎn)成一第一語(yǔ)言語(yǔ)音単元序列，并且將與該聲音文件相對(duì)應(yīng)的一第二語(yǔ)言語(yǔ)音単元序列及轉(zhuǎn)成的該第一語(yǔ)言語(yǔ)音単元序列利用一動(dòng)態(tài)編程來(lái)進(jìn)行語(yǔ)音単元校準(zhǔn)，完成該動(dòng)態(tài)編程后，得到一筆轉(zhuǎn)換組合；以及統(tǒng)計(jì)由上述所得到的多筆轉(zhuǎn)換組合，產(chǎn)生該語(yǔ)音單元轉(zhuǎn)換表。9.根據(jù)權(quán)利要求8所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法，其特征在干，該動(dòng)態(tài)編程還包括利用一種統(tǒng)計(jì)學(xué)上計(jì)算兩離散概率分布之間的距離的巴特查里亞距離來(lái)計(jì)算兩語(yǔ)音単元之間的本地距離。10.根據(jù)權(quán)利要求7所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法，其特征在干，該語(yǔ)音單元轉(zhuǎn)換表包含代換、插入、及刪除，共三種類型的轉(zhuǎn)換。11.根據(jù)權(quán)利要求10所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法，其特征在干，代換是ー對(duì)一的轉(zhuǎn)換，插入是一對(duì)多的轉(zhuǎn)換，刪除是多對(duì)ー的轉(zhuǎn)換。12.根據(jù)權(quán)利要求10所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法，其特征在于，該方法利用該動(dòng)態(tài)編程，找出該欲合成的輸入文本的對(duì)應(yīng)語(yǔ)音単元與轉(zhuǎn)換類型。13.根據(jù)權(quán)利要求7所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法，其特征在干，該合并語(yǔ)音模型還包括以一高斯密度函數(shù)表示為gnew(y_，ΣnJ，并以下列的形式來(lái)表達(dá)μnew=w*μi+(l-wフ2Σnew=w*(Σ1+(y1-ynew)2)+(i-w)*(Σ2+(U2-Unew)2)其中，該找出的第一語(yǔ)音模型以高斯密度函數(shù)表示為も(μ”Σi)，該找出的第二語(yǔ)音模型以高斯密度函數(shù)表示為&2，Σ2)，μ為平均值向量，Σ為共變異矩陣，0≤w≤1。14.根據(jù)權(quán)利要求8所述的多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成方法，其特征在干，產(chǎn)生該識(shí)別結(jié)果還包括進(jìn)行ー自由聲調(diào)式識(shí)別。全文摘要一種多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)與方法，將欲合成的文本，通過(guò)一語(yǔ)音模型挑選模塊及一語(yǔ)音模型合并模塊處理，利用一離線階段得到的一語(yǔ)音單元轉(zhuǎn)換表，于一在線階段時(shí)，此語(yǔ)音模型挑選模塊，依據(jù)輸入文本及對(duì)應(yīng)文本的語(yǔ)音單元序列，利用設(shè)定的至少一可調(diào)控的口音權(quán)重參數(shù)，選擇要采用的一轉(zhuǎn)換組合，找出一第二語(yǔ)音模型及一第一語(yǔ)音模型，此語(yǔ)音模型合并模塊依照設(shè)定的至少一可調(diào)控的口音權(quán)重參數(shù)，將找出的兩語(yǔ)音模型合并成一合并語(yǔ)音模型，處理該轉(zhuǎn)換組合中所有的轉(zhuǎn)換后，產(chǎn)生一對(duì)應(yīng)輸入之語(yǔ)音單元序列的合并語(yǔ)音模型序列，然后利用一語(yǔ)音合成器以及此合并語(yǔ)音模型序列將文本合成帶有第一語(yǔ)言口音的第二語(yǔ)言語(yǔ)音。文檔編號(hào)G10L13/08GK102543069SQ20111003469公開(kāi)日2012年7月4日申請(qǐng)日期2011年1月30日優(yōu)先權(quán)日2010年12月30日發(fā)明者李振宇,涂家章,郭志忠申請(qǐng)人:財(cái)團(tuán)法人工業(yè)技術(shù)研究院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李振宇;涂家章;郭志忠
技術(shù)所有人：財(cái)團(tuán)法人工業(yè)技術(shù)研究院
我是此專利的發(fā)明人

上一篇：二十一弦古箏簡(jiǎn)易抬弦轉(zhuǎn)調(diào)裝置的制作方法
上一篇：車(chē)輛出現(xiàn)通知裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

多語(yǔ)言的文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)與方法