專利名稱:聲音個(gè)性化的語(yǔ)音合成器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明主要涉及語(yǔ)音合成。更確切地說,本發(fā)明涉及使語(yǔ)音合成器的輸出個(gè)性化以便在特定講話人提供了注冊(cè)數(shù)據(jù)后能模擬或模仿出該講話人細(xì)微差異的系統(tǒng)和方法。
背景技術(shù):
在很多使用文本-語(yǔ)音轉(zhuǎn)換(text-to-speech,TTS)合成器的領(lǐng)域中,都期望使合成器的輸出聲音能模擬特定講話人的特征。目前,花費(fèi)在開發(fā)語(yǔ)音合成器方面的很多努力都在于使合成的聲音盡可能人性化。盡管在這方面不斷有進(jìn)展,但是目前合成器產(chǎn)生的準(zhǔn)自然語(yǔ)音表現(xiàn)的是用于構(gòu)建合成器的語(yǔ)音數(shù)據(jù)資料庫(kù)中包含的混合音素變體。當(dāng)前,沒有有效的方法能生產(chǎn)模仿特定講話人特性的語(yǔ)音合成器,也無(wú)法讓講話人花費(fèi)一些時(shí)間記錄他或她的語(yǔ)言實(shí)例以便用其構(gòu)成合成器。盡管非常期望能夠僅用少量從特定講話人得到的注冊(cè)數(shù)據(jù)(enrollment data)將現(xiàn)有語(yǔ)音合成器定型或個(gè)性化,但是,迄今為止還不存在這種技術(shù)。
最近設(shè)計(jì)的語(yǔ)音合成器已經(jīng)能將主要是文本格式的信息轉(zhuǎn)換成合成語(yǔ)音。通常,這些合成器是以合成方法為基礎(chǔ)并與某些合成參數(shù)相關(guān)聯(lián)。通常,通過操作人的實(shí)際語(yǔ)音鏈接單元產(chǎn)生合成參數(shù),所述實(shí)際語(yǔ)音已經(jīng)過預(yù)記錄、數(shù)字化和分段,從而使包含在該語(yǔ)音中的單個(gè)音素變體,能夠與記錄過程中使用的文本相關(guān)聯(lián)或是標(biāo)記成與所述文本相對(duì)應(yīng)。雖然目前普遍使用的有各種不同的合成方法,但是一種示例性實(shí)例是源濾波法。源濾波法把人的語(yǔ)音模仿成源波形集群,所述源波形集群是通過濾波器群提供的。源波形可以是簡(jiǎn)單的脈沖或正弦波形,或是更復(fù)雜的諧波高品質(zhì)波形。濾波器修改源波形并使其著色以便模仿發(fā)音清晰的語(yǔ)音。
在源濾波合成方法中,通常在源波形的復(fù)雜性和濾波器的特性之間存在相反的關(guān)聯(lián)性。如果使用復(fù)雜的波形,則一般使用相當(dāng)簡(jiǎn)單的濾波器模式就足夠了。相反,如果使用簡(jiǎn)單的源波形,則通常應(yīng)采用較復(fù)雜的濾波器結(jié)構(gòu)。現(xiàn)有的語(yǔ)音合成器實(shí)例已經(jīng)利用了全頻譜源濾波器的關(guān)系,其范圍從簡(jiǎn)單源、復(fù)雜濾波器到復(fù)雜源、簡(jiǎn)單濾波器。為了說明本發(fā)明的原理,在此將描述聲門源、共振峰軌跡濾波合成法。熟悉本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)到這僅僅是一種源濾波合成法的范例,本發(fā)明也可以采用大量其他的方法。此外,盡管在此說明的是源濾波合成方法,但是其他合成方法,如非源濾波方法也屬于本發(fā)明的范圍。
發(fā)明內(nèi)容
按照本發(fā)明,通過提供一個(gè)基礎(chǔ)合成器來構(gòu)成個(gè)性化語(yǔ)音合成器,所述基礎(chǔ)合成器采用了預(yù)定的合成方法并具有可供合成方法使用以產(chǎn)生合成語(yǔ)音的初始參數(shù)群。從講話人那里獲取注冊(cè)數(shù)據(jù),并用該注冊(cè)數(shù)據(jù)修改初始參數(shù)群,由此使基礎(chǔ)合成器個(gè)性化,從而模仿講話人的語(yǔ)音特性。
按照本發(fā)明的另一方面,將初始參數(shù)群分解成特定講話人語(yǔ)音參數(shù)(speaker dependent parameters)和非特定講話人語(yǔ)音參數(shù)(speakerindependent parameters)。然后用從新的講話人處獲得的注冊(cè)數(shù)據(jù)與特定講話人語(yǔ)音參數(shù)相配,把得到的特定講話人系統(tǒng)適配參數(shù)與非特定講話人語(yǔ)音參數(shù)進(jìn)行組合從而產(chǎn)生供語(yǔ)音合成器使用的個(gè)性化合成參數(shù)群。
按照本發(fā)明的另一方面,通過將初始參數(shù)群分解成兩組,即與上下文不相關(guān)(context independent)的參數(shù)和與上下文相關(guān)(context dependent)的參數(shù),可以獲得前面所述的特定講話人語(yǔ)音參數(shù)和非特定講話人語(yǔ)音參數(shù)。就此而言,根據(jù)在不同上下文的參數(shù)中是否存在可檢測(cè)的變化,便可確定所述參數(shù)與上下文無(wú)關(guān)還是與上下文有關(guān)。當(dāng)給定的音素變體發(fā)出不同的聲音時(shí),根據(jù)出現(xiàn)的相鄰音素變體,可將與該變體相關(guān)的合成參數(shù)分解成可識(shí)別的與上下文有關(guān)的參數(shù)(那些隨相鄰音素變體變化的參數(shù))。同樣也把音素變體分解成與上下文無(wú)關(guān)的參數(shù),該參數(shù)在相鄰音素變體發(fā)生變化時(shí)不產(chǎn)生明顯變化。
本發(fā)明把與上下文無(wú)關(guān)的參數(shù)和特定講話人語(yǔ)音參數(shù)聯(lián)系起來;并把與上下文有關(guān)的參數(shù)和非特定講話人語(yǔ)音參數(shù)聯(lián)系起來。因此,用注冊(cè)數(shù)據(jù)與和上下文無(wú)關(guān)的參數(shù)相適配,并將這些參數(shù)與和上下文有關(guān)的參數(shù)重新組合形成適配的合成參數(shù)。在優(yōu)選實(shí)施例中,將參數(shù)分解成與上下文無(wú)關(guān)的參數(shù)和與上下文有關(guān)的參數(shù)以便使與上下文無(wú)關(guān)參數(shù)的數(shù)量小于與上下文有關(guān)參數(shù)的數(shù)量。由于僅對(duì)與上下文無(wú)關(guān)的參數(shù)(數(shù)量很少)進(jìn)行自適應(yīng)處理,所以可以利用參數(shù)的數(shù)量差。因此,可用最小的計(jì)算量得到極好的個(gè)性化結(jié)果。
按照本發(fā)明的另一方面,可以用極小量的注冊(cè)數(shù)據(jù)進(jìn)行上面討論的自適應(yīng)處理。的確,并不需要注冊(cè)數(shù)據(jù)包含所有與上下文無(wú)關(guān)的參數(shù)實(shí)例。通過使用由本發(fā)明的受讓人開發(fā)的本征語(yǔ)音技術(shù)可以用最小量的數(shù)據(jù)完成自適應(yīng)處理。本征語(yǔ)音技術(shù)包括使用與上下文無(wú)關(guān)的參數(shù)構(gòu)建超級(jí)矢量(supervector),然后對(duì)其進(jìn)行,例如主分量分析(PCA)等維度精簡(jiǎn)(dimensionality reduction)的處理,以形成本征空間。本征空間借助相當(dāng)少的維度表示由原始語(yǔ)音合成器中所有與上下文無(wú)關(guān)的參數(shù)覆蓋的空間。一旦生成本征空間,就可以用該本征空間并利用新的講話人語(yǔ)音中的短樣本來判斷新的講話人的與上下文無(wú)關(guān)的參數(shù)。新的講話人發(fā)出一些數(shù)字化的、分段的和經(jīng)標(biāo)記構(gòu)成注冊(cè)數(shù)據(jù)的注冊(cè)語(yǔ)音。從注冊(cè)數(shù)據(jù)中抽取與上下文無(wú)關(guān)的參數(shù)并使這些抽取的參數(shù)似然最大化,從而限制本征空間。
即使是新的講話人未提供足夠量的包含所有與上下文無(wú)關(guān)參數(shù)的語(yǔ)音,本征語(yǔ)音技術(shù)也允許系統(tǒng)判斷所有新的講話人的與上下文無(wú)關(guān)的參數(shù)。因?yàn)楸菊骺臻g最初是由一些來自新的講話人的與上下文無(wú)關(guān)的參數(shù)構(gòu)建的,所以上述判斷是可行的。當(dāng)將新的講話人的注冊(cè)數(shù)據(jù)限制在本征空間內(nèi)時(shí)(無(wú)論用多么不完整的參數(shù)群都是有效的),系統(tǒng)將推測(cè)出遺漏的參數(shù)是在本征空間內(nèi)對(duì)應(yīng)于新的講話人位置的參數(shù)。
本發(fā)明所用的技術(shù)實(shí)際上適用于合成方法的任何方面。目前優(yōu)選的實(shí)施例采用了使共振峰軌跡與源濾波模式的濾波器相關(guān)聯(lián)的技術(shù)。該技術(shù)也可以用于和源表述相關(guān)聯(lián)或是和其他語(yǔ)音模型參數(shù)相關(guān)聯(lián)的特定講話人語(yǔ)音參數(shù),這些參數(shù)包括韻律參數(shù)、持續(xù)時(shí)間和傾斜度參數(shù)。此外,如果使用本征語(yǔ)音技術(shù),則可以將該技術(shù)用于疊合結(jié)構(gòu)中,由此可以反復(fù)指定本征空間并且在提供附加的注冊(cè)數(shù)據(jù)時(shí)可以改善該本征空間。
為了更完整地理解本發(fā)明,在下面的描述中將結(jié)合
本發(fā)明的目的和優(yōu)點(diǎn)。
圖1是本發(fā)明所述個(gè)性化語(yǔ)音合成器的方框圖;圖2是表示在構(gòu)成個(gè)性化合成器或?qū)F(xiàn)有合成器個(gè)性化過程中包含的基本步驟的流程圖;圖3是表示本發(fā)明一個(gè)實(shí)施例的數(shù)據(jù)流示意圖,其中將合成參數(shù)分解成與講話人相關(guān)的參數(shù)和與講話人不相關(guān)的參數(shù);圖4是表示另一個(gè)優(yōu)選實(shí)施例的詳細(xì)數(shù)據(jù)流程示意圖,其中從音素變體的共振峰軌跡中抽取與上下文不相關(guān)的參數(shù)和與上下文相關(guān)的參數(shù);圖5是表示本征語(yǔ)音技術(shù)在使用自適應(yīng)參數(shù)或判斷參數(shù)時(shí)的方框圖;圖6是表示判斷特定講話人語(yǔ)音參數(shù)的本征矢量技術(shù)的流程圖。
具體實(shí)施例方式
參照?qǐng)D1,用標(biāo)號(hào)10表示示例性語(yǔ)音合成器。語(yǔ)音合成器使用了合成參數(shù)群12和預(yù)定合成方法14,利用該合成方法把輸入數(shù)據(jù)例如文本轉(zhuǎn)換成合成語(yǔ)音。按照本發(fā)明的一個(gè)方面,個(gè)性化器件16提取注冊(cè)數(shù)據(jù)18并根據(jù)合成參數(shù)12進(jìn)行運(yùn)算使合成器模擬一個(gè)講話人的語(yǔ)音特征。個(gè)性化器件16可根據(jù)合成參數(shù)12的種類在很多不同的域內(nèi)進(jìn)行運(yùn)算。例如,如果合成參數(shù)包括共振峰軌跡等頻率參數(shù),則可以將個(gè)性化器件設(shè)置得能夠修改共振峰軌跡,其修改方式是使得最終合成的語(yǔ)音更象提供注冊(cè)數(shù)據(jù)18的個(gè)體。
本發(fā)明提供一種使語(yǔ)音合成器個(gè)性化以及構(gòu)成個(gè)性化語(yǔ)音合成器的方法。在圖2中示出的基本方法從提供基礎(chǔ)合成器的步驟20開始?;A(chǔ)合成器可以以各種不同合成方法中的任何一種為基礎(chǔ)。盡管存在其他同樣可供本發(fā)明使用的合成方法,但在此將描述源濾波法。除了提供基礎(chǔ)合成器20之外,該方法還包括獲取注冊(cè)數(shù)據(jù)22。然后在步驟24中用所述注冊(cè)數(shù)據(jù)修改基礎(chǔ)合成器。當(dāng)利用本發(fā)明將現(xiàn)有合成器個(gè)性化時(shí),獲取注冊(cè)數(shù)據(jù)的步驟通常是在構(gòu)建基礎(chǔ)合成器之后進(jìn)行。當(dāng)然,還可以在構(gòu)建基礎(chǔ)合成器之前或同時(shí)獲取注冊(cè)數(shù)據(jù)。因此,在圖2中示出了兩條可選的流路(a)和(b)。
圖3更詳細(xì)地示出了本優(yōu)選實(shí)施例。在圖3中,從語(yǔ)音數(shù)據(jù)資料庫(kù)26產(chǎn)生合成參數(shù)12,合成方法14以合成參數(shù)12為依據(jù)運(yùn)行。當(dāng)構(gòu)建基礎(chǔ)合成器時(shí),一般的做法是,讓一個(gè)或多個(gè)指定的講話人通過朗讀準(zhǔn)備好的文本來提供實(shí)際語(yǔ)音的實(shí)例。這樣,可以將所提供的語(yǔ)調(diào)(utterances)與文本相關(guān)聯(lián)。通常,將語(yǔ)音數(shù)據(jù)數(shù)字化并將其分成與文本中離散的符號(hào)對(duì)應(yīng)的小段。在本優(yōu)選實(shí)施例中,將語(yǔ)音數(shù)據(jù)分成同樣大小的單個(gè)音素變體段,以便保存相鄰音素變體的上下文。然后用這些音素變體來構(gòu)建合成參數(shù)12。在本優(yōu)選實(shí)施例中,分別從每個(gè)音素變體單元中抽取聲門脈沖和共振峰軌跡等時(shí)間和頻率參數(shù)。
一旦形成合成參數(shù),便開始進(jìn)行分解過程28。將合成參數(shù)12分解成特定講話人語(yǔ)音參數(shù)30和非特定講話人語(yǔ)音參數(shù)32。分解過程可以這樣來分離參數(shù),即,利用數(shù)據(jù)分析技術(shù)或是通過計(jì)算與上下文無(wú)關(guān)的音素共振峰軌跡以及考慮每個(gè)音素變體單元共振峰軌跡是與上下文無(wú)關(guān)的共振峰軌跡和與上下文有關(guān)的共振峰軌跡兩項(xiàng)之和。這一技術(shù)將在后面結(jié)合圖4進(jìn)行更全面地說明。
一旦將特定講話人語(yǔ)音參數(shù)和非特定講話人語(yǔ)音參數(shù)彼此隔離,則將根據(jù)特定講話人語(yǔ)音參數(shù)完成自適應(yīng)過程34。自適應(yīng)過程使用了由新的講話人36提供的用于確定合成器的注冊(cè)數(shù)據(jù)18。當(dāng)然,如果需要的話,新的講話人36可以是提供語(yǔ)音數(shù)據(jù)資料庫(kù)26的講話人之一。然而,通常新的講話人將不會(huì)有機(jī)會(huì)參與語(yǔ)音數(shù)據(jù)資料庫(kù)的創(chuàng)建,而是在資料庫(kù)初始建立后成為合成系統(tǒng)的用戶。
存在多種不同的可用于自適應(yīng)過程34的技術(shù)。顯然,自適應(yīng)過程與特定合成器使用的合成參數(shù)類別有關(guān)。一種可能的自適應(yīng)方法包括用取自新的講話人36的特定講話人語(yǔ)音參數(shù)代替從講話人數(shù)據(jù)資料庫(kù)26取得的原始確定的參數(shù)。如果需要的話,可以用舊參數(shù)和新參數(shù)的混合平均值或加權(quán)平均值提供對(duì)應(yīng)于從新的講話人36那里得到的特定講話人語(yǔ)音參數(shù)38并且按照從語(yǔ)音數(shù)據(jù)資料庫(kù)26中獲得的保留參數(shù)合理地保留特定講話人語(yǔ)音參數(shù)38。在理想的情況下,新的講話人36能提供足夠量的注冊(cè)數(shù)據(jù)18使所有與上下文無(wú)關(guān)的參數(shù)或者至少最重要的參數(shù)能適應(yīng)新的講話人的語(yǔ)音噪擾。然而,在許多情況下,從新的講話人那里只能得到少量的數(shù)據(jù),而且不代表所有與上下文無(wú)關(guān)的參數(shù)。正如下面將更全面討論的那樣,本發(fā)明的另一方面提供一種本征語(yǔ)音技術(shù),其中特定講話人語(yǔ)音參數(shù)可以僅與最少量的注冊(cè)數(shù)據(jù)相適應(yīng)。
在特定講話人語(yǔ)音參數(shù)適配后,進(jìn)行組合過程40。組合過程40把非特定講話人語(yǔ)音參數(shù)32與和相應(yīng)的講話人相關(guān)的參數(shù)38重新結(jié)合并生成個(gè)性化的合成參數(shù)群42。組合過程40實(shí)際上是利用分解過程28反向工作的。換句話說,分解過程28和組合過程40是彼此相反的。
一旦生成個(gè)性化合成參數(shù)后,便可以用這些合成參數(shù)借助于合成方法14產(chǎn)生個(gè)性化語(yǔ)音。在圖3中,應(yīng)注意的是,合成方法14出現(xiàn)在兩個(gè)位置,這表示在合成參數(shù)12時(shí)使用的方法可以與個(gè)性化合成參數(shù)42時(shí)使用的方法相同,其主要區(qū)別在于參數(shù)12產(chǎn)生基礎(chǔ)合成器的合成語(yǔ)音,而參數(shù)42產(chǎn)生模擬或模仿新的講話人36的合成語(yǔ)音。
圖4更詳細(xì)地表示本發(fā)明的一個(gè)實(shí)施例,其中所述合成方法是采用共振峰軌跡(formant trajectory)或其他類似的頻域參數(shù)的源濾波法。用標(biāo)號(hào)50表示注冊(cè)語(yǔ)音數(shù)據(jù)的示例性鏈接單元,其包含位于相鄰音素變體54和56之間上下文中的給定音素變體52。按照該實(shí)例的源濾波模型,合成器通過向?yàn)V波器群提供聲門源波形58便可以產(chǎn)生合成語(yǔ)音,其中所述聲門源波形對(duì)應(yīng)于形成語(yǔ)音的音素變體的共振峰軌跡60。
正如前面結(jié)合圖3所述的那樣,可以將合成參數(shù)(在此為共振峰軌跡)分解成特定講話人語(yǔ)音參數(shù)和非特定講話人語(yǔ)音參數(shù)。因此,本實(shí)施例將共振峰軌跡60分解成與上下文無(wú)關(guān)的參數(shù)62和與上下文有關(guān)的參數(shù)64。應(yīng)注意的是,與上下文無(wú)關(guān)的參數(shù)對(duì)應(yīng)于特定講話人語(yǔ)音參數(shù);而與上下文有關(guān)的參數(shù)對(duì)應(yīng)于非特定講話人語(yǔ)音參數(shù)。自適應(yīng)過程或判斷過程34使用注冊(cè)數(shù)據(jù)18產(chǎn)生適配參數(shù)或判斷參數(shù)66。然后,將這些參數(shù)與和上下文相關(guān)的參數(shù)64進(jìn)行組合構(gòu)成適配的共振峰軌跡68。然后,用適配的共振峰軌跡構(gòu)建濾波器,使聲門源波形58通過濾波器產(chǎn)生合成語(yǔ)音,此時(shí)合成的音素變體更接近模擬或模仿新的講話人。
正如上面特別提到的,如果新的講話人的注冊(cè)數(shù)據(jù)足以判斷所有與上下文無(wú)關(guān)的共振峰軌跡,則用新的講話人的與上下文無(wú)關(guān)的信息代替原來的與上下文無(wú)關(guān)的信息便能足以使合成器輸出的聲音個(gè)性化。相反,如果沒有足夠的注冊(cè)數(shù)據(jù)來判斷所有與上下文無(wú)關(guān)的共振峰軌跡,優(yōu)選實(shí)施例將采用本征語(yǔ)音技術(shù)來判斷遺漏的軌跡。
圖5中表示的是本征語(yǔ)音技術(shù),該技術(shù)始于步驟70中所示根據(jù)多個(gè)指定講話人的與上下文無(wú)關(guān)的參數(shù)構(gòu)建超級(jí)矢量(supervector)。如果需要的話,可以在用語(yǔ)音數(shù)據(jù)資料庫(kù)26生成基礎(chǔ)合成器之前構(gòu)建超級(jí)矢量。在構(gòu)建超級(jí)矢量時(shí),應(yīng)合理選擇講話者的不同斷面,對(duì)于每個(gè)講話人構(gòu)建一個(gè)超級(jí)矢量。每個(gè)超級(jí)矢量包括按預(yù)定順序鏈接的供合成器使用的所有音素中所有與上下文無(wú)關(guān)的參數(shù)。音素參數(shù)鏈接的順序并不重要,只要該順序符合所有指定的講話人即可。
接著,在步驟72中,進(jìn)行維度精簡(jiǎn)的過程。主分量分析(PCA)是這種精簡(jiǎn)技術(shù)之一。精簡(jiǎn)的過程生成本征空間74,與用于構(gòu)建本征空間的本征矢量相比,本征空間74的維度較低。因此,本征空間表示減小了維度的矢量空間,相對(duì)于該空間可確定所有指定講話人的與上下文無(wú)關(guān)的參數(shù)。
然后,從新的講話人36處獲取注冊(cè)數(shù)據(jù)18,并如步驟76所示判斷新的講話人在本征空間74中的位置。優(yōu)選實(shí)施例采用最大似然技術(shù)來判斷新的講話人在本征空間中的位置。應(yīng)認(rèn)識(shí)到,注冊(cè)數(shù)據(jù)18并不必要包括所有音素的實(shí)例。可利用出現(xiàn)的任何音素?cái)?shù)據(jù)來判斷新的講話人在本征空間74中的位置。實(shí)際上,即使是很短語(yǔ)調(diào)的注冊(cè)數(shù)據(jù)也足以判斷新的講話人在本征空間74中的位置。因此,如在步驟78中那樣,通過將遺漏的參數(shù)限制在先前判斷的本征空間的位置上,便能夠生成任何遺漏的音素?cái)?shù)據(jù)。本征空間包括了特定講話人的發(fā)音如何不同的情況。如果一個(gè)新的講話人注冊(cè)數(shù)據(jù)的語(yǔ)音象是Scarlet0’Hara所說的“明天是另一天”,則有理由假設(shè)該講話人的其他語(yǔ)調(diào)應(yīng)該也具有與Scarlet 0’Hara類似的聲音。在這種情況下,可以將新的講話人在本征空間中的位置標(biāo)記為“Scarlet 0’Hara”。其他具有類似發(fā)音特點(diǎn)的講話人同樣落在本征空間中的相同位置附近。
在圖6中示出了構(gòu)建本征空間的過程,所述本征空間表示來自多個(gè)指定講話人的與上下文無(wú)關(guān)(特定講話人)的參數(shù)。圖中假設(shè)T個(gè)指定的講話人120提供了構(gòu)建本征空間的指定數(shù)據(jù)122(training data)的資料庫(kù)。然后如步驟124所示,用這些指定數(shù)據(jù)產(chǎn)生特定講話人語(yǔ)音參數(shù)。在步驟124中為每個(gè)講話人構(gòu)建一個(gè)模型,每個(gè)模型代表該講話人全部與上下文無(wú)關(guān)的參數(shù)。
在用來自T個(gè)講話人的所有指定數(shù)據(jù)指定了與各講話人有關(guān)的參數(shù)后,在步驟128中構(gòu)建超級(jí)矢量群。因此,相對(duì)于T個(gè)講話人中的每個(gè)人存在一個(gè)超級(jí)矢量130。每個(gè)講話人的超級(jí)矢量包括該講話人的與上下文無(wú)關(guān)的參數(shù)序列表。將該表鏈接即可確定超級(jí)矢量。可以用任何方便的序列識(shí)別這些參數(shù)。該序列不是標(biāo)準(zhǔn)的,但是一旦一個(gè)序列得到適配,那么必須使所有T個(gè)講話人都隨之得到適配。
在為每個(gè)指定講話人構(gòu)建了超級(jí)矢量之后,可以在步驟132使用主分量分析或某些其他維度精簡(jiǎn)技術(shù)。如在步驟134中所示,主分量分析可根據(jù)T個(gè)超級(jí)矢量得出T個(gè)本征矢量。因此,如果已經(jīng)使用了120個(gè)指定講話人,系統(tǒng)將產(chǎn)生120個(gè)本征矢量。這些本征矢量確定了本征空間。
盡管在步驟132中最多產(chǎn)生的本征矢量為T個(gè),但是實(shí)際上可以丟棄一些本征矢量,而僅保留前面的N個(gè)本征矢量。因此,在步驟136中,我們選擇性地抽取T個(gè)本征矢量中的N個(gè)來構(gòu)成步驟138中所示減小的參數(shù)本征空間。由于較高級(jí)別的本征矢量通常包含的是在判斷講話人時(shí)不太重要的信息,所以可以將它們丟棄。將本征空間減小到比所有指定講話人小得多便可以形成固有數(shù)據(jù)壓縮,這在用有限的存儲(chǔ)器和處理器資源構(gòu)建實(shí)際系統(tǒng)時(shí)是很有益的。
在構(gòu)建了本征空間之后,可以用該本征空間來判斷新的講話人的與上下文無(wú)關(guān)的參數(shù)。從新的講話人的注冊(cè)數(shù)據(jù)中抽取與上下文無(wú)關(guān)的參數(shù)。然后,用最大似然技術(shù)將抽取的參數(shù)限制到本征空間。
本發(fā)明的最大似然技術(shù)在本征空間138內(nèi)確定了一個(gè)點(diǎn)166,該點(diǎn)代表的是和與上下文無(wú)關(guān)的參數(shù)對(duì)應(yīng)的超級(jí)矢量,所述參數(shù)具有與新的講話人相關(guān)的最大可能性。為了便于說明,將最大似然過程示于圖6中的線168下方。
實(shí)際上,不管注冊(cè)數(shù)據(jù)實(shí)際的有效性有多高,最大似然技術(shù)都將選擇最符合新的講話人注冊(cè)數(shù)據(jù)本征空間內(nèi)的超級(jí)矢量。
在圖6中,用一組本征矢量174、175和178代表本征空間138。通過用每個(gè)本征矢量乘以用W1、W2…Wn表示的相應(yīng)本征值可以在本征空間中示出與來自新的講話人的注冊(cè)數(shù)據(jù)對(duì)應(yīng)的超級(jí)矢量170。這些本征值最初是未知的。最大似然技術(shù)可確定這些未知本征值的值。正如下面將更全面解釋的,通過尋找本征空間中最能代表新的講話人的與上下文無(wú)關(guān)的參數(shù)的最佳結(jié)果(solution)便可選定這些值。
在將本征值與本征空間138中的相應(yīng)本征矢量相乘和將所得結(jié)果相加之后,便可得到適配的與上下文無(wú)關(guān)的參數(shù)群180。超級(jí)矢量180中的值表示最佳結(jié)果,即,其具有能表示本征空間中與新的講話人的上下文無(wú)關(guān)參數(shù)的最大似然性。
從以上描述中可以看出,本發(fā)明開發(fā)了通過分解不同的變化源(例如特定講話人和非特定講話人語(yǔ)音信息)并采用講話人適配技術(shù)來解決語(yǔ)音個(gè)性化的問題。本發(fā)明一個(gè)有利的方面在于,用于表征特定講話人系統(tǒng)部分的參數(shù)數(shù)量實(shí)際上可以少于用于表征非特定講話人系統(tǒng)部分的參數(shù)數(shù)量。這意味著,使合成器適應(yīng)于單個(gè)講話人的聲音所需的注冊(cè)數(shù)據(jù)數(shù)量相當(dāng)?shù)?。而且,盡管優(yōu)選實(shí)施例特別關(guān)注的方面集中在共振峰軌跡上,但是并不意味著本發(fā)明僅限于使用共振峰軌跡。還可以使用持續(xù)時(shí)間和傾斜度等韻律參數(shù)以及其他音韻參數(shù)借助聽覺判斷單個(gè)聲音的特征。通過使現(xiàn)有合成器個(gè)性化或是構(gòu)建新的個(gè)性化合成器等快速和有效的方式,本發(fā)明能很好地適應(yīng)對(duì)個(gè)性化有興趣的各種不同文本-語(yǔ)音轉(zhuǎn)換領(lǐng)域。這些領(lǐng)域包括傳遞因特網(wǎng)聲頻內(nèi)容、玩具、游戲的系統(tǒng),對(duì)話系統(tǒng),軟件代理等。
盡管以上結(jié)合優(yōu)選實(shí)施例描述了本發(fā)明,但是應(yīng)當(dāng)意識(shí)到,在不脫離與所附權(quán)利要求相關(guān)的本發(fā)明構(gòu)思的情況下,可以對(duì)本發(fā)明作出某些改進(jìn)。
權(quán)利要求
1.一種將語(yǔ)音合成器個(gè)性化的方法,其特征在于,包括獲得用參數(shù)群表示的語(yǔ)音數(shù)據(jù)資料庫(kù),所述參數(shù)可供所述產(chǎn)生合成語(yǔ)音的語(yǔ)音合成器使用;將所述參數(shù)群分解成特定講話人語(yǔ)音參數(shù)群和非特定講話人語(yǔ)音參數(shù)群;從新的講話人處獲取注冊(cè)數(shù)據(jù)并用所述注冊(cè)數(shù)據(jù)和與所述特定講話人系統(tǒng)的參數(shù)進(jìn)行適配,由此產(chǎn)生適配的特定講話人語(yǔ)音參數(shù);把所述非特定講話人語(yǔ)音參數(shù)和所述適配的特定講話人語(yǔ)音參數(shù)進(jìn)行組合以構(gòu)建供所述語(yǔ)音合成器在產(chǎn)生合成語(yǔ)音時(shí)使用的個(gè)性化合成參數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,非特定講話人語(yǔ)音參數(shù)數(shù)量超過特定講話人語(yǔ)音參數(shù)數(shù)量。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分解步驟是通過識(shí)別與上下文有關(guān)的信息和采用所述與上下文有關(guān)的信息表示的所述非特定講話人語(yǔ)音參數(shù)實(shí)現(xiàn)的。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分解步驟是通過識(shí)別與上下文無(wú)關(guān)的信息和采用所述與上下文無(wú)關(guān)的信息表示的所述特定講話人語(yǔ)音參數(shù)實(shí)現(xiàn)的。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語(yǔ)音數(shù)據(jù)包括頻率參數(shù)群,所述頻率參數(shù)群對(duì)應(yīng)于與人的語(yǔ)音相關(guān)聯(lián)的共振峰軌跡。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語(yǔ)音數(shù)據(jù)包括時(shí)間域參數(shù)群,所述時(shí)間域參數(shù)群對(duì)應(yīng)于與人的語(yǔ)音相關(guān)聯(lián)的聲門源信息。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語(yǔ)音數(shù)據(jù)包括的參數(shù)群對(duì)應(yīng)于與人的語(yǔ)音相關(guān)聯(lián)的韻律信息。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括用從指定講話人群得到的特定講話人語(yǔ)音參數(shù)構(gòu)建本征空間并用所述本征空間以及所述注冊(cè)數(shù)據(jù)與所述特定講話人語(yǔ)音參數(shù)進(jìn)行適配。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括用從指定講話人群得到的特定講話人語(yǔ)音參數(shù)構(gòu)建本征空間,而且如果所述注冊(cè)數(shù)據(jù)并不單獨(dú)代表合成器使用的所有音素的話,用所述本征空間以及所述注冊(cè)數(shù)據(jù)與所述特定講話人語(yǔ)音參數(shù)進(jìn)行適配。
10.一種構(gòu)建個(gè)性化語(yǔ)音合成器的方法,其特征在于,包括提供基礎(chǔ)合成器,所述合成器采用預(yù)定的合成方法并且具有供所述合成方法使用以產(chǎn)生合成語(yǔ)音的初始參數(shù)群;將所述初始參數(shù)群表示成特定講話人語(yǔ)音參數(shù)和非特定講話人語(yǔ)音參數(shù);從講話人處獲取注冊(cè)數(shù)據(jù);和用所述注冊(cè)數(shù)據(jù)修改與所述特定講話人系統(tǒng)參數(shù)并由此將所述基礎(chǔ)合成器個(gè)性化,使之能模仿所述講話人的語(yǔ)音特性。
11.一種個(gè)性化的語(yǔ)音合成器,其特征在于,包括合成處理器,該合成處理器包含完成預(yù)定合成方法的指令群,其使得合成參數(shù)數(shù)據(jù)庫(kù)運(yùn)行,所述合成參數(shù)表示成特定講話人語(yǔ)音參數(shù)和非特定講話人語(yǔ)音參數(shù);包含合成參數(shù)數(shù)據(jù)庫(kù)的存儲(chǔ)器,所述合成參數(shù)表示成特定講話人語(yǔ)音參數(shù)和非特定講話人語(yǔ)音參數(shù);輸入端,其提供從指定講話人得到的注冊(cè)數(shù)據(jù)群;和接受所述注冊(cè)數(shù)據(jù)的自適應(yīng)模塊,該模塊使所述特定講話人語(yǔ)音參數(shù)運(yùn)行從而將所述指定講話人的所述參數(shù)個(gè)性化。
12.根據(jù)權(quán)利要求11所述的合成器,其特征在于,所述合成參數(shù)是與上下文不相關(guān)的參數(shù)。
13.根據(jù)權(quán)利要求11所述的合成器,其特征在于,所述合成參數(shù)是與上下文相關(guān)的參數(shù)。
14.根據(jù)權(quán)利要求11所述的合成器,其特征在于,所述輸入端包括話筒,所述話筒從所述指定講話人提供的語(yǔ)調(diào)中獲取所述注冊(cè)數(shù)據(jù)。
15.根據(jù)權(quán)利要求11所述的合成器,其特征在于,所述自適應(yīng)模塊包括判斷系統(tǒng),該系統(tǒng)采用了從指定資料庫(kù)中得到的本征空間。
16.根據(jù)權(quán)利要求15所述的合成器,其特征在于,所述注冊(cè)數(shù)據(jù)包括從所述指定講話人的語(yǔ)調(diào)中取出的抽取參數(shù),而且其中所述判斷系統(tǒng)通過將從所述指定講話人的語(yǔ)調(diào)中抽取的參數(shù)限定到所述本征空間來判斷所述注冊(cè)數(shù)據(jù)中未發(fā)現(xiàn)的聲單元。
17.一種語(yǔ)音合成系統(tǒng),其特征在于,包括語(yǔ)音合成器,該語(yǔ)音合成器通過使合成參數(shù)的數(shù)據(jù)庫(kù)運(yùn)行來完成預(yù)定的合成方法;接受來自指定講話人注冊(cè)數(shù)據(jù)的個(gè)性化器件,其修改至少一部分所述合成參數(shù),從而將合成器的聲音個(gè)性化使之能模仿指定講話人的語(yǔ)音。
18.根據(jù)權(quán)利要求17所述的系統(tǒng),其特征在于,所述個(gè)性化器件將所述合成參數(shù)分解成特定講話人語(yǔ)音參數(shù)和非特定講話人語(yǔ)音參數(shù),然后用所述注冊(cè)數(shù)據(jù)修改與所述特定講話人系統(tǒng)參數(shù)。
19.根據(jù)權(quán)利要求17所述的系統(tǒng),其特征在于,所述個(gè)性化器件從所述合成參數(shù)中抽取特定講話人語(yǔ)音參數(shù),然后用所述注冊(cè)數(shù)據(jù)修改與所述特定講話人系統(tǒng)參數(shù)。
20.根據(jù)權(quán)利要求17所述的系統(tǒng),其特征在于,進(jìn)一步包括參數(shù)判斷系統(tǒng),其用于增加所述注冊(cè)數(shù)據(jù)以便對(duì)所述注冊(cè)數(shù)據(jù)中遺漏的相應(yīng)聲單元的參數(shù)進(jìn)行判斷。
21.根據(jù)權(quán)利要求20所述的系統(tǒng),其特征在于,所述判斷系統(tǒng)采用了指定講話人群指定的本征空間。
22.根據(jù)權(quán)利要求20所述的系統(tǒng),其特征在于,所述判斷系統(tǒng)采用了指定講話人群指定的本征空間并通過將所述注冊(cè)數(shù)據(jù)限定到所述本征空間而利用所述本征空間對(duì)所述參數(shù)進(jìn)行判斷。
全文摘要
將語(yǔ)音合成器個(gè)性化,使聲音類似于或能模仿單個(gè)講話人的語(yǔ)音特征。單個(gè)講話人提供可從少量語(yǔ)音中抽取的一定量的注冊(cè)數(shù)據(jù)18,而且由系統(tǒng)修改基礎(chǔ)合成參數(shù)12以便能更好地模擬新的講話人36的參數(shù)。更具體地說,可以將合成參數(shù)12分解成特定講話人語(yǔ)音參數(shù)30,例如與上下文無(wú)關(guān)的參數(shù),和非特定講話人語(yǔ)音參數(shù)32,例如與上下文有關(guān)的參數(shù)。用從新的講話人處得到的注冊(cè)數(shù)據(jù)18對(duì)特定講話人語(yǔ)音參數(shù)30進(jìn)行適配。適配后,把特定講話人語(yǔ)音參數(shù)30和非特定講話人語(yǔ)音參數(shù)進(jìn)行組合從而提供個(gè)性化的合成參數(shù)群42。
文檔編號(hào)G10L13/02GK1496554SQ02806151
公開日2004年5月12日 申請(qǐng)日期2002年2月25日 優(yōu)先權(quán)日2001年2月26日
發(fā)明者杰-克勞德·約庫(kù)阿, 佛羅倫特·佩羅寧, 羅蘭德·科恩, 帕特里克·恩古因, 科恩, 克 恩古因, 杰-克勞德 約庫(kù)阿, 特 佩羅寧 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社