聲音合成裝置、方法以及存儲(chǔ)介質(zhì)的制作方法
【專利摘要】本發(fā)明涉及聲音合成裝置、方法及存儲(chǔ)介質(zhì),能生成具有多樣的韻律特征的合成音且也能保持對(duì)象談話者特質(zhì)。具備對(duì)輸入的文本進(jìn)行解析并輸出語(yǔ)言信息的文本解析部、存儲(chǔ)對(duì)象談話者的第1韻律控制詞典以及1個(gè)或多個(gè)基準(zhǔn)談話者的第2韻律控制詞典的詞典存儲(chǔ)部、基于語(yǔ)言信息利用第1韻律控制詞典生成第1韻律參數(shù)并分別利用第2韻律控制詞典生成1個(gè)或多個(gè)第2韻律參數(shù)的韻律參數(shù)生成部、基于標(biāo)準(zhǔn)化參數(shù)分別對(duì)1個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理的標(biāo)準(zhǔn)化部、基于權(quán)重信息對(duì)第1韻律參數(shù)及標(biāo)準(zhǔn)化處理后的1個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行內(nèi)插處理生成第3韻律參數(shù)的韻律參數(shù)內(nèi)插部和按照第3韻律參數(shù)生成合成聲音的聲音合成部。
【專利說(shuō)明】聲音合成裝置、方法以及存儲(chǔ)介質(zhì)
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明的實(shí)施方式涉及聲音合成裝置、方法以及存儲(chǔ)介質(zhì)。
【背景技術(shù)】
[0002]將根據(jù)任意文章人工作出聲音信號(hào)的操作稱為文本聲音合成。通常,文本聲音合成通過(guò)文本解析、合成參數(shù)生成以及聲音合成這3個(gè)階段來(lái)進(jìn)行。
[0003]在典型的文本聲音合成系統(tǒng)中,首先,文本解析部對(duì)輸入的文本進(jìn)行詞素解析以及句法解析等,輸出語(yǔ)言信息。語(yǔ)言信息包括與文本的讀法相對(duì)應(yīng)的聲音符號(hào)串、成為韻律控制單位的重音句的信息、重音的位置、詞類等。接著,合成參數(shù)生成部基于上述語(yǔ)言信息參照韻律控制詞典進(jìn)行韻律控制,以生成合成參數(shù)。合成參數(shù)包括基本頻率圖形(F0圖形).音韻持續(xù)時(shí)間.音量等韻律參數(shù)、和音素符號(hào)串等音韻參數(shù)。接著,聲音合成部按照上述合成參數(shù)生成合成聲音。
[0004]在這樣的文本聲音合成中,通常是合成人朗讀文章時(shí)那樣的音調(diào)(所謂朗讀音調(diào))的聲音,但是今年來(lái)提出了多種用于實(shí)現(xiàn)多樣的韻律特征的方法。例如,提出了下述方法:通過(guò)在多個(gè)韻律參數(shù)間進(jìn)行內(nèi)插處理而生成新的韻律參數(shù),用其生成合成音,提供具有多樣的韻律特征的合成音。
[0005]但是,在該方法中,根據(jù)韻律參數(shù)間的關(guān)系(例如,在韻律參數(shù)的特征量之間有較大差異的情況下),有時(shí)內(nèi)插的結(jié)果會(huì)產(chǎn)生不良情況。例如,如果作為韻律參數(shù)以H)圖形為例,則在男性的對(duì)象談話者的韻律參數(shù)與女性談話者的韻律參數(shù)之間進(jìn)行內(nèi)插的情況下,一般來(lái)說(shuō),女性的H)圖形高,所以通過(guò)內(nèi)插所生成的韻律圖形的H)平均值會(huì)比該對(duì)象談話者(男性談話者)的H)圖形平均值高。其結(jié)果是,從生成的韻律參數(shù),失去了對(duì)象談話者的特質(zhì)。
[0006]現(xiàn)有技術(shù)中未提出:能夠生成具有多樣的韻律特征的合成音且還保持對(duì)象談話者特質(zhì)的聲音合成技術(shù)。
【發(fā)明內(nèi)容】
[0007]本發(fā)明所要解決的問(wèn)題是提供能夠生成具有多樣的韻律特征的合成音且還保持對(duì)象談話者特質(zhì)的聲音合成裝置、方法以及存儲(chǔ)介質(zhì)。
[0008]根據(jù)一個(gè)實(shí)施方式,具備文本解析部、詞典存儲(chǔ)部、韻律參數(shù)生成部、標(biāo)準(zhǔn)化部、韻律參數(shù)內(nèi)插部、聲音合成部。文本解析部對(duì)輸入的文本進(jìn)行解析并輸出語(yǔ)言信息。詞典存儲(chǔ)部存儲(chǔ)對(duì)象談話者的第I韻律控制詞典以及I個(gè)或多個(gè)基準(zhǔn)談話者的第2韻律控制詞典。韻律參數(shù)生成部基于所述語(yǔ)言信息,利用所述第I韻律控制詞典生成第I韻律參數(shù),并且分別利用所述第2韻律控制詞典生成I個(gè)或多個(gè)第2韻律參數(shù)。標(biāo)準(zhǔn)化部基于標(biāo)準(zhǔn)化參數(shù)分別對(duì)所述I個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理。韻律參數(shù)內(nèi)插部基于權(quán)重信息,對(duì)所述第I韻律參數(shù)以及所述標(biāo)準(zhǔn)化處理后的I個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行內(nèi)插處理而生成第3韻律參數(shù)。聲音合成部按照所述第3韻律參數(shù)生成合成聲音。[0009]根據(jù)上述構(gòu)成的裝置,能夠生成具有多樣的韻律特征的合成音且也能夠保持對(duì)象談話者特質(zhì)。
[0010]根據(jù)另一個(gè)實(shí)施方式,具備文本解析部、詞典存儲(chǔ)部、韻律參數(shù)生成部、韻律參數(shù)內(nèi)插部、標(biāo)準(zhǔn)化部和聲音合成部。文本解析部對(duì)輸入的文本進(jìn)行解析并輸出語(yǔ)言信息。詞典存儲(chǔ)部存儲(chǔ)對(duì)象談話者的第I韻律控制詞典以及I個(gè)或多個(gè)基準(zhǔn)談話者的第2韻律控制詞典。韻律參數(shù)生成部基于所述語(yǔ)言信息,利用所述第I韻律控制詞典生成第I韻律參數(shù),并且分別利用所述第2韻律控制詞典生成I個(gè)或多個(gè)第2韻律參數(shù)。韻律參數(shù)內(nèi)插部基于權(quán)重信息,對(duì)所述第I韻律參數(shù)以及所述I個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行內(nèi)插處理,生成第3韻律參數(shù)。標(biāo)準(zhǔn)化部基于標(biāo)準(zhǔn)化參數(shù)對(duì)所述第3韻律參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理。聲音合成部按照標(biāo)準(zhǔn)化處理后的所述第3韻律參數(shù)生成合成聲音。
[0011]根據(jù)上述構(gòu)成的裝置,能夠生成具有多樣的韻律特征的合成音且還能夠保持對(duì)象談話者的特質(zhì)。
【專利附圖】
【附圖說(shuō)明】
[0012]圖1是第I實(shí)施方式的聲音合成裝置的基本的框圖。
[0013]圖2是第I實(shí)施方式的第I構(gòu)成例的框圖。
[0014]圖3是表示第I實(shí)施方式的聲音合成裝置的工作例的流程圖。
[0015]圖4是用于說(shuō)明基于平均值的標(biāo)準(zhǔn)化方法的圖。
[0016]圖5是用于說(shuō)明基于動(dòng)態(tài)范圍的標(biāo)準(zhǔn)化方法的圖。
[0017]圖6是表示權(quán)重調(diào)整的一例的圖。
[0018]圖7是用于關(guān)于內(nèi)插進(jìn)行說(shuō)明的圖。
[0019]圖8是用于關(guān)于外插(外推)進(jìn)行說(shuō)明的圖。
[0020]圖9是用于關(guān)于內(nèi)插處理進(jìn)行說(shuō)明的圖。
[0021]圖10用于關(guān)于外插處理進(jìn)行說(shuō)明的圖。
[0022]圖11是第I實(shí)施方式的第2構(gòu)成例的框圖。
[0023]圖12是第2實(shí)施方式的聲音合成裝置的基本的框圖。
[0024]圖13是第2實(shí)施方式的第I構(gòu)成例的框圖。
[0025]圖14是表示第2實(shí)施方式的聲音合成裝置的工作例的流程圖。
[0026]圖15是第2實(shí)施方式的第2構(gòu)成例的框圖。
【具體實(shí)施方式】
[0027]下面,一邊參照附圖一邊關(guān)于本發(fā)明的實(shí)施方式涉及的聲音合成裝置詳細(xì)進(jìn)行說(shuō)明。此外,在下面的實(shí)施方式中,關(guān)于標(biāo)注相同附圖標(biāo)記的部分,作為進(jìn)行同樣工作的部分,省略重復(fù)的說(shuō)明。
[0028]如下面將詳細(xì)敘述地那樣,第I實(shí)施方式在韻律參數(shù)的內(nèi)插處理前進(jìn)行標(biāo)準(zhǔn)化處理,第2實(shí)施方式在韻律參數(shù)的內(nèi)插處理后進(jìn)行標(biāo)準(zhǔn)化處理。
[0029](第I實(shí)施方式)
[0030]關(guān)于第I實(shí)施方式進(jìn)行說(shuō)明。
[0031]圖1中示出第I實(shí)施方式的聲音合成裝置的框圖的一例。[0032]如圖1所示,本實(shí)施方式的聲音合成裝置包括文本解析部1、韻律控制詞典存儲(chǔ)部2、合成參數(shù)生成部3、在內(nèi)插處理前進(jìn)行標(biāo)準(zhǔn)化處理的標(biāo)準(zhǔn)化部(以下記述為第I標(biāo)準(zhǔn)化部)4、合成參數(shù)內(nèi)插部5和聲音合成部6。
[0033]此外,圖1以與合成參數(shù)中的韻律參數(shù)相關(guān)的結(jié)構(gòu)為中心進(jìn)行圖示,與其他參數(shù)或信息相關(guān)的部分適當(dāng)省略。這一點(diǎn)即使在其他各圖中也一樣。下面的說(shuō)明也以韻律參數(shù)為中心來(lái)進(jìn)行。
[0034]另外,下面,在關(guān)于與韻律參數(shù)相關(guān)的處理利用具體例進(jìn)行說(shuō)明的情況下,以H)圖形為例。
[0035]本實(shí)施方式中,關(guān)于標(biāo)準(zhǔn)化參數(shù)的生成等能夠有各種各樣的構(gòu)成例。下面,關(guān)于幾個(gè)構(gòu)成例依次進(jìn)行說(shuō)明。關(guān)于本實(shí)施方式的聲音合成裝置的各部分的詳細(xì)情況,在下面的說(shuō)明中記述。[0036](第I實(shí)施方式的第I構(gòu)成例)
[0037]首先,關(guān)于本實(shí)施方式的第I構(gòu)成例進(jìn)行說(shuō)明。
[0038]圖2中示出本構(gòu)成例的聲音合成裝置的框圖。
[0039]如圖2所示,本構(gòu)成例的聲音合成裝置包括文本解析部1、韻律控制詞典存儲(chǔ)部2、合成參數(shù)生成部3、標(biāo)準(zhǔn)化參數(shù)生成部7、第I標(biāo)準(zhǔn)化部4、合成參數(shù)內(nèi)插部5和聲音合成部6。
[0040]下面,關(guān)于各部分進(jìn)行說(shuō)明。
[0041]文本解析部I對(duì)輸入的文本(字符串)進(jìn)行語(yǔ)言方面的處理(例如詞素解析以及句法解析)以生成語(yǔ)目?目息101。
[0042]語(yǔ)言信息包括例如與文本的讀法相對(duì)應(yīng)的聲音符號(hào)串、成為韻律控制的單位的重音句的信息、重音位置、詞類等那樣的合成參數(shù)的生成所必需的各種信息。
[0043]韻律控制詞典存儲(chǔ)部2存儲(chǔ)I個(gè)對(duì)象談話者的韻律控制詞典以及η個(gè)基準(zhǔn)談話者的韻律控制詞典。在此,η為大于等于I的任意數(shù)。對(duì)象談話者的韻律控制詞典包括用于控制對(duì)象談話者的韻律的參數(shù)。另外,一個(gè)基準(zhǔn)談話者的韻律控制詞典包括用于控制一個(gè)基準(zhǔn)談話者的韻律的參數(shù)。此外,對(duì)象談話者的韻律控制詞典和基準(zhǔn)談話者的韻律控制詞典中,沒(méi)有構(gòu)成上的差異。
[0044]更加具體而言,韻律控制詞典用于對(duì)例如合成聲音的H)圖形.音韻持續(xù)時(shí)間長(zhǎng)度.音量.停頓等那樣的韻律進(jìn)行控制而進(jìn)行參照,可以考慮例如,F(xiàn)O圖形的典型的變化圖形、重音成分.音韻持續(xù)時(shí)間長(zhǎng)度.音量.停頓長(zhǎng)度等的控制量的統(tǒng)計(jì)性模型的參數(shù)、或由決策樹(shù)表現(xiàn)的規(guī)則等(但是,不限定于此)。
[0045]此外,韻律控制詞典存儲(chǔ)部2中也可以事先存儲(chǔ)多個(gè)對(duì)象談話者的韻律控制詞典,能夠(例如通過(guò)使用者的指示)來(lái)選擇:使用哪一個(gè)對(duì)象談話者的韻律控制詞典。另外,也可以將使用的對(duì)象談話者以外的對(duì)象談話者的韻律控制詞典作為基準(zhǔn)談話者的韻律控制詞典來(lái)使用。
[0046]合成參數(shù)生成部3基于語(yǔ)言信息101參照對(duì)象談話者的韻律控制詞典,生成對(duì)象談話者的合成參數(shù)(音韻參數(shù)以及第I韻律參數(shù)),并且同樣地,基于語(yǔ)言信息101參照各基準(zhǔn)談話者的韻律控制詞典,分別生成各基準(zhǔn)談話者的合成參數(shù)(音韻參數(shù)以及第2韻律參數(shù))。韻律參數(shù)生成部是合成參數(shù)生成部3的一部分。[0047]合成參數(shù)包括韻律參數(shù)和音韻參數(shù)。韻律參數(shù)是以例如基本頻率圖形(F0圖形)、音韻持續(xù)時(shí)間以及音量?停頓等的合成聲音的韻律為特征的參數(shù)的集合。音韻參數(shù)是例如首素符號(hào)串等。
[0048]此外,韻律參數(shù)會(huì)因每個(gè)談話者而變化,按每個(gè)談話者生成。相對(duì)于此,音韻參數(shù)通常與談話者無(wú)關(guān),是相同的。但是,音韻參數(shù)的生成即使按每個(gè)談話者而進(jìn)行也沒(méi)有問(wèn)題。另外,一旦生成音韻參數(shù)后,也可以省略音韻參數(shù)的生成。
[0049]標(biāo)準(zhǔn)化參數(shù)生成部7基于對(duì)象談話者的韻律參數(shù)(第I韻律參數(shù))301以及I個(gè)或多個(gè)基準(zhǔn)談話者的韻律參數(shù)(第2韻律參數(shù))302,生成預(yù)定的標(biāo)準(zhǔn)化參數(shù)701。標(biāo)準(zhǔn)化參數(shù)701按每個(gè)基準(zhǔn)談話者的韻律參數(shù)而生成。
[0050]第I標(biāo)準(zhǔn)化部4對(duì)所生成的各個(gè)基準(zhǔn)談話者的韻律參數(shù)302分別進(jìn)行基于標(biāo)準(zhǔn)化參數(shù)701的標(biāo)準(zhǔn)化處理。 [0051]在此,所謂標(biāo)準(zhǔn)化處理是下述處理:例如關(guān)于各個(gè)基準(zhǔn)談話者的韻律參數(shù)302,使該韻律參數(shù)302的一個(gè)以上的特征量和對(duì)象談話者的韻律參數(shù)301的該量接近到預(yù)定的閾值為止(或一致)。特征量可以考慮例如平均值、分散、動(dòng)態(tài)范圍等。
[0052]在關(guān)于多種韻律參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理的情況下,按每種韻律參數(shù)生成標(biāo)準(zhǔn)化參數(shù)701。
[0053]合成參數(shù)內(nèi)插部5基于任意的權(quán)重信息901,對(duì)對(duì)象談話者的韻律參數(shù)(第I韻律參數(shù))301以及各個(gè)基準(zhǔn)談話者的標(biāo)準(zhǔn)化處理后的韻律參數(shù)(標(biāo)準(zhǔn)化處理后的第2韻律參數(shù))401進(jìn)行內(nèi)插處理,生成第3韻律參數(shù),并輸出包括第3韻律參數(shù)和上述音韻參數(shù)的合成參數(shù)501。韻律參數(shù)內(nèi)插部是合成參數(shù)內(nèi)插部5的一部分。
[0054]在此,所謂韻律參數(shù)的內(nèi)插處理是例如通過(guò)在多個(gè)韻律參數(shù)間進(jìn)行加權(quán)平均等處理,從而生成這些韻律參數(shù)的中間性韻律參數(shù)的處理。其中,這里使用的語(yǔ)句“內(nèi)插處理”不僅包括權(quán)重僅為正的情況也包括有負(fù)的權(quán)重的情況(所謂外插處理)。有負(fù)的權(quán)重的情況下,有時(shí)所生成的韻律參數(shù)也會(huì)變得更加強(qiáng)調(diào)某個(gè)談話者的韻律參數(shù)的特征。此外,在下面的說(shuō)明中,關(guān)于有負(fù)的權(quán)重的情況下的內(nèi)插處理,為了與權(quán)重僅為正的情況下的內(nèi)插處理相區(qū)別地進(jìn)行說(shuō)明,有時(shí)使用外插處理這樣的語(yǔ)句。
[0055]另外,內(nèi)插處理既可以對(duì)全部種類的韻律參數(shù)進(jìn)行,也可以對(duì)部分參數(shù)(例如,僅FO圖形)進(jìn)行。關(guān)于不進(jìn)行內(nèi)插處理的韻律參數(shù),也可以例如原樣采用對(duì)象談話者的韻律參數(shù)。
[0056]另外,可以關(guān)于內(nèi)插處理的全部種類的韻律參數(shù)也進(jìn)行標(biāo)準(zhǔn)化處理,作為替代,也可以僅關(guān)于內(nèi)插處理的韻律參數(shù)中的一部分也進(jìn)行標(biāo)準(zhǔn)化處理。
[0057]另外,也可以與韻律參數(shù)的種類無(wú)關(guān)地、共用地指定內(nèi)插時(shí)的權(quán)重。例如,也可以在H)圖形和音韻持續(xù)時(shí)間長(zhǎng)度方面,使內(nèi)插時(shí)的權(quán)重相同?;蛘?,也可以按每種韻律參數(shù)指定內(nèi)插時(shí)的權(quán)重。例如,也可以在H)圖形和音韻持續(xù)時(shí)間長(zhǎng)度方面,使內(nèi)插時(shí)的權(quán)重不同。
[0058]此外,例如,權(quán)重信息也可以在全文中為一定?;蛘?,權(quán)重信息也可以在文中變化。
[0059]聲音合成部6按照由合成參數(shù)501指定的音韻信息以及韻律信息生成合成聲音。
[0060]接下來(lái),一邊參照?qǐng)D3 —邊關(guān)于本構(gòu)成例的工作例進(jìn)行說(shuō)明。
[0061]這里,作為韻律參數(shù)的具體例使用H)圖形,但如前所述不限定于此。[0062]首先,文本解析部I生成語(yǔ)言信息101 (步驟SI)。
[0063]接著,合成參數(shù)生成部3基于語(yǔ)言信息101,參照對(duì)象談話者的韻律控制詞典以及一個(gè)以上的基準(zhǔn)談話者的韻律控制詞典,分別生成各談話者的合成參數(shù)(步驟S2)。
[0064]此外,對(duì)H)圖形進(jìn)行控制的詞典(F0圖形控制詞典)存儲(chǔ)在韻律控制詞典內(nèi)。作為韻律控制詞典的構(gòu)成,可以考慮下述構(gòu)成:例如以重音句為單位存儲(chǔ)H)的代表圖形、基于所生成的語(yǔ)言信息101選擇H)的代表圖形。
[0065]接著,標(biāo)準(zhǔn)化參數(shù)生成部7按每個(gè)基準(zhǔn)談話者的韻律參數(shù)動(dòng)態(tài)地生成標(biāo)準(zhǔn)化參數(shù)701 (步驟 S3)。
[0066]接著,第I標(biāo)準(zhǔn)化部4利用標(biāo)準(zhǔn)化參數(shù)701分別對(duì)各基準(zhǔn)談話者的韻律參數(shù)302進(jìn)行標(biāo)準(zhǔn)化處理(步驟S4)。
[0067]在此,關(guān)于標(biāo)準(zhǔn)化參數(shù)生成以及標(biāo)準(zhǔn)化處理的具體例進(jìn)行說(shuō)明。
[0068]作為標(biāo)準(zhǔn)化處理,有例如利用H)圖形的平均值的方法??梢钥紤],例如以基準(zhǔn)談話者的H)圖形的平均值為基準(zhǔn),將其與對(duì)象談話者的H)圖形的平均值的差值(或者,例如該差值與預(yù)定的閾值相加所得的值、或該差值與預(yù)定的閾值相乘所得的值等)作為標(biāo)準(zhǔn)化參數(shù)。例如在圖4中,如果41表示對(duì)象談話者的H)圖形的軌跡、42表示基準(zhǔn)談話者的H)圖形的軌跡、43表示對(duì)象談話者的H)圖形的平均、44表示基準(zhǔn)談話者的H)圖形的平均,則標(biāo)準(zhǔn)化參數(shù)為例如差值d(=對(duì)象談話者的H)圖形的平均43 —基準(zhǔn)談話者的H)圖形的平均44)。該情況下,通過(guò)對(duì)基準(zhǔn)談話者的H)圖形加上差值d,生成標(biāo)準(zhǔn)化處理后的基準(zhǔn)談話者的H)圖形。由此,能夠使對(duì)象談話者的H)圖形的平均43與基準(zhǔn)談話者的H)圖形的平均44 一致。
[0069]另外,在例如將標(biāo)準(zhǔn)化參數(shù)設(shè)為差值d +閾值Thre的情況下,通過(guò)對(duì)基準(zhǔn)談話者的FO圖形加上差值d+閾值Thre,生成標(biāo)準(zhǔn)化處理后的基準(zhǔn)談話者的H)圖形。由此,能夠使對(duì)象談話者的H)圖形的平均和基準(zhǔn)談話者的H)圖形的平均接近到閾值Thre的差。圖4中的45表示對(duì)對(duì)象談話者的H)圖形的平均43加上閾值Thre所得的程度(level ),46表示標(biāo)準(zhǔn)化處理后的基準(zhǔn)談話者的H)圖形。
[0070]例如,在對(duì)象談話者為男性、基準(zhǔn)談話者為女性的情況下,使得女性談話者的H)圖形的平均與男性談話者的H)圖形的平均一致(或者接近)地進(jìn)行標(biāo)準(zhǔn)化。由此,能夠保持對(duì)象談話者的特質(zhì)。
[0071]作為其他的標(biāo)準(zhǔn)化處理,例如有使用H)圖形的動(dòng)態(tài)范圍的方法。例如,有將上述的平均值變更為動(dòng)態(tài)范圍、將上述的差值變更為比率而進(jìn)行處理的方法。例如,在圖5中,51表示對(duì)象談話者的FO圖形的軌跡,52表示基準(zhǔn)談話者的FO圖形的軌跡,53表示對(duì)象談話者的FO圖形的動(dòng)態(tài)范圍,54表示基準(zhǔn)談話者的FO圖形的動(dòng)態(tài)范圍。該情況下,首先,根據(jù)對(duì)象談話者的H)圖形的最大值和最小值計(jì)算出動(dòng)態(tài)范圍53,并且根據(jù)基準(zhǔn)談話者的H)圖形的最大值和最小值計(jì)算出動(dòng)態(tài)范圍54。接著,以計(jì)算出的基準(zhǔn)談話者的動(dòng)態(tài)范圍54為基準(zhǔn),計(jì)算與對(duì)象談話者的動(dòng)態(tài)范圍53的比率α,以求出標(biāo)準(zhǔn)化參數(shù)。接著,通過(guò)對(duì)基準(zhǔn)談話者的H)圖形51乘以比率α,生成標(biāo)準(zhǔn)化處理后的基準(zhǔn)談話者的H)圖形。由此,能夠使標(biāo)準(zhǔn)化處理后的基準(zhǔn)談話者的H)圖形的動(dòng)態(tài)范圍與對(duì)象談話者的H)圖形的動(dòng)態(tài)范圍一致。圖5中的55表示標(biāo)準(zhǔn)化處理后的對(duì)象談話者的FO圖形的動(dòng)態(tài)范圍,56表示標(biāo)準(zhǔn)化處理后的基準(zhǔn)談話者的H)圖形。[0072]此外,與使用平均值時(shí)同樣地,也可以進(jìn)一步調(diào)整上述比率。例如,也可以通過(guò)相對(duì)于上述比率進(jìn)一步加上預(yù)定的閾值或乘以預(yù)定的閾值,以求出標(biāo)準(zhǔn)化參數(shù)。
[0073]另外,也可以利用H)圖形的平均值和動(dòng)態(tài)范圍這雙方來(lái)進(jìn)行標(biāo)準(zhǔn)化處理。
[0074]除了這些方法之外還可以采用各種標(biāo)準(zhǔn)化處理方法。 [0075]接著,合成參數(shù)內(nèi)插部5基于任意的權(quán)重信息901,對(duì)對(duì)象談話者的韻律參數(shù)301和各個(gè)基準(zhǔn)談話者的標(biāo)準(zhǔn)化處理后的韻律參數(shù)401進(jìn)行內(nèi)插處理(步驟S5)。
[0076]此外,權(quán)重與各個(gè)合成參數(shù)(各個(gè)談話者)相對(duì)應(yīng)地每個(gè)參數(shù)一個(gè)地設(shè)定。關(guān)于權(quán)重的指定方法,能夠使用各種方法,沒(méi)有特別限制。既可以分別輸入各個(gè)權(quán)重的值,也可以利用調(diào)整桿等圖形用戶界面(⑶I)。
[0077]圖6示出基準(zhǔn)談話者為I人時(shí)的權(quán)重選擇用⑶I的一例。圖6的例子中,61為調(diào)整桿。通過(guò)使該調(diào)整桿61移動(dòng)到任意位置,能夠任意變更對(duì)象談話者與基準(zhǔn)談話者的內(nèi)插t匕(左端與對(duì)象談話者相對(duì)應(yīng),右端與基準(zhǔn)談話者相對(duì)應(yīng))。此外,圖6的例子中,例如,通過(guò)將對(duì)象談話者置于62并將基準(zhǔn)談話者置于63,也能夠指定外插比。
[0078]在基準(zhǔn)談話者為2人的情況下,也能夠利用⑶I。該情況下,例如在⑶I畫(huà)面上與三角形的各頂點(diǎn)相對(duì)應(yīng)地顯示對(duì)象談話者、第I基準(zhǔn)談話者和第2基準(zhǔn)談話者的圖像,使用者用指示物指示三角形內(nèi)部或外部的任意位置,根據(jù)各三角形的頂點(diǎn)位置與指示物的位置的關(guān)系,能夠特定權(quán)重。
[0079]在此,以基準(zhǔn)談話者為I人的情況為例,關(guān)于韻律參數(shù)的內(nèi)插進(jìn)行說(shuō)明。如前所述,這里的內(nèi)插包括權(quán)重僅為正的情況和有負(fù)的權(quán)重的情況這兩方。
[0080]圖7示出基于正權(quán)重的內(nèi)插。在此,tgt表示對(duì)象談話者,Std表示基準(zhǔn)談話者,int表示對(duì)象談話者的權(quán)重為m且基準(zhǔn)談話者的權(quán)重為η時(shí)的內(nèi)插點(diǎn)。在此,m 3 0、n蘭O。
[0081]圖8示出所謂外插的情況。在此,ext表示對(duì)象談話者的權(quán)重為m、基準(zhǔn)談話者的權(quán)重為η時(shí)的外插。在此,m≥O、η < O。
[0082]此外,圖8是強(qiáng)調(diào)基準(zhǔn)談話者的外插,但也可以是強(qiáng)調(diào)對(duì)象談話者的外插點(diǎn)。該情況下,m ^ 0> n ^ O0
[0083]圖9示出基準(zhǔn)談話者為I人時(shí)的韻律參數(shù)的內(nèi)插的例子。圖9中,91為對(duì)象談話者的H)圖形,92為基準(zhǔn)談話者的H)圖形,93為根據(jù)它們進(jìn)行內(nèi)插處理后的H)圖形。在像圖9那樣對(duì)對(duì)象談話者和基準(zhǔn)談話者按m:η進(jìn)行內(nèi)插的情況下,能夠用下面的式(I)來(lái)表
【權(quán)利要求】
1.一種裝置,其包括: 文本解析部,其對(duì)輸入的文本進(jìn)行解析而輸出語(yǔ)言信息; 詞典存儲(chǔ)部,其存儲(chǔ)有對(duì)象談話者的第I韻律控制詞典以及I個(gè)或多個(gè)基準(zhǔn)談話者的第2韻律控制詞典; 韻律參數(shù)生成部,其基于所述語(yǔ)言信息,利用所述第I韻律控制詞典生成第I韻律參數(shù),并且分別利用所述第2韻律控制詞典生成I個(gè)或多個(gè)第2韻律參數(shù); 標(biāo)準(zhǔn)化部,其基于標(biāo)準(zhǔn)化參數(shù)分別對(duì)所述I個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理;韻律參數(shù)內(nèi)插部,其基于權(quán)重信息對(duì)所述第I韻律參數(shù)以及所述標(biāo)準(zhǔn)化處理后的I個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行內(nèi)插處理,來(lái)生成第3韻律參數(shù);和聲音合成部,其按照所述第3韻律參數(shù)來(lái)生成合成聲音。
2.根據(jù)權(quán)利要求1所述的裝置,其中, 還包括標(biāo)準(zhǔn)化參數(shù)生成部,該標(biāo)準(zhǔn)化參數(shù)生成部基于所述第I韻律參數(shù)以及所述I個(gè)或多個(gè)第2韻律參數(shù)生成所述標(biāo)準(zhǔn)化參數(shù)。
3.根據(jù)權(quán)利要求1所述的裝置,其中, 還包括標(biāo)準(zhǔn)化參數(shù)生成部,該標(biāo)準(zhǔn)化參數(shù)生成部基于與所述第I韻律控制詞典相對(duì)應(yīng)的預(yù)定的韻律參數(shù)統(tǒng)計(jì)量以及與所述第2韻律控制詞典相對(duì)應(yīng)的預(yù)定的韻律參數(shù)統(tǒng)計(jì)量,生成所述標(biāo)準(zhǔn)化參數(shù)。
4.根據(jù)權(quán)利要求1所 述的裝置,其中, 所述標(biāo)準(zhǔn)化參數(shù)為預(yù)先設(shè)定的參數(shù)。
5.根據(jù)權(quán)利要求1所述的裝置,其中, 所述標(biāo)準(zhǔn)化部也對(duì)所述第I韻律參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理, 所述韻律參數(shù)內(nèi)插部對(duì)所述標(biāo)準(zhǔn)化處理后的第I韻律參數(shù)以及所述標(biāo)準(zhǔn)化處理后的I個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行內(nèi)插處理。
6.一種裝置,其是聲音合成裝置,包括: 文本解析部,其對(duì)輸入的文本進(jìn)行解析而輸出語(yǔ)言信息; 詞典存儲(chǔ)部,其存儲(chǔ)有對(duì)象談話者的第I韻律控制詞典以及I個(gè)或多個(gè)基準(zhǔn)談話者的第2韻律控制詞典; 韻律參數(shù)生成部,其基于所述語(yǔ)言信息,利用所述第I韻律控制詞典生成第I韻律參數(shù),并且分別利用所述第2韻律控制詞典生成I個(gè)或多個(gè)第2韻律參數(shù); 韻律參數(shù)內(nèi)插部,其基于權(quán)重信息對(duì)所述第I韻律參數(shù)以及所述I個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行內(nèi)插處理來(lái)生成第3韻律參數(shù); 標(biāo)準(zhǔn)化部,其基于標(biāo)準(zhǔn)化參數(shù)對(duì)所述第3韻律參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理;和 聲音合成部,其按照標(biāo)準(zhǔn)化處理后的所述第3韻律參數(shù)來(lái)生成合成聲音。
7.根據(jù)權(quán)利要求6所述的裝置,其中, 還具備標(biāo)準(zhǔn)化參數(shù)生成部,該標(biāo)準(zhǔn)化參數(shù)生成部基于所述第I韻律參數(shù)以及所述所生成的第3韻律參數(shù),生成所述標(biāo)準(zhǔn)化參數(shù)。
8.根據(jù)權(quán)利要求6所述的裝置,其中, 還包括標(biāo)準(zhǔn)化參數(shù)生成部,該標(biāo)準(zhǔn)化參數(shù)生成部基于與所述第I韻律控制詞典相對(duì)應(yīng)的預(yù)定的韻律參數(shù)統(tǒng)計(jì)量以及與所述第2韻律控制詞典相對(duì)應(yīng)的預(yù)定的韻律參數(shù)統(tǒng)計(jì)量以及所述權(quán)重信息,生成所述標(biāo)準(zhǔn)化參數(shù)。
9.根據(jù)權(quán)利要求6所述的裝置,其中, 所述標(biāo)準(zhǔn)化參數(shù)為預(yù)先設(shè)定的參數(shù)。
10.一種聲音合成方法,其是聲音合成裝置的聲音合成方法,包括以下步驟: 對(duì)輸入的文本進(jìn)行解析而輸出語(yǔ)言信息; 存儲(chǔ)對(duì)象談話者的第I韻律控制詞典以及I個(gè)或多個(gè)基準(zhǔn)談話者的第2韻律控制詞血.ZN ? 基于所述語(yǔ)言信息,利用所述第I韻律控制詞典生成第I韻律參數(shù),并且分別利用所述第2韻律控制詞典生成I個(gè)或多個(gè)第2韻律參數(shù); 基于標(biāo)準(zhǔn)化參數(shù)分別對(duì)所述I個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理; 基于權(quán)重信息,對(duì)所述第I韻律參數(shù)以及所述標(biāo)準(zhǔn)化處理后的I個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行內(nèi)插處理,生成第3韻律參數(shù);和按照所述第3韻律參數(shù)生成合成聲音。
11.一種聲音合成方法,其是聲音合成裝置的聲音合成方法,包括以下步驟: 對(duì)輸入的文本進(jìn)·行解析而輸出語(yǔ)言信息; 存儲(chǔ)對(duì)象談話者的第I韻律控制詞典以及I個(gè)或多個(gè)基準(zhǔn)談話者的第2韻律控制詞血.ZN ? 基于所述語(yǔ)言信息,利用所述第I韻律控制詞典生成第I韻律參數(shù)并且分別利用所述第2韻律控制詞典生成I個(gè)或多個(gè)第2韻律參數(shù); 基于權(quán)重信息,對(duì)所述第I韻律參數(shù)以及所述I個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行內(nèi)插處理,生成第3韻律參數(shù); 基于標(biāo)準(zhǔn)化參數(shù)對(duì)所述第3韻律參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理;和 按照所述標(biāo)準(zhǔn)化處理后的第3韻律參數(shù)生成合成聲音。
12.—種存儲(chǔ)介質(zhì),其存儲(chǔ)有用于聲音合成的程序,其中, 所述程序使計(jì)算機(jī)執(zhí)行: 對(duì)輸入的文本進(jìn)行解析而輸出語(yǔ)言信息的步驟; 存儲(chǔ)對(duì)象談話者的第I韻律控制詞典以及I個(gè)或多個(gè)基準(zhǔn)談話者的第2韻律控制詞典的步驟; 基于所述語(yǔ)言信息,利用所述第I韻律控制詞典生成第I韻律參數(shù),并且分別利用所述第2韻律控制詞典生成I個(gè)或多個(gè)第2韻律參數(shù)的步驟; 基于標(biāo)準(zhǔn)化參數(shù),分別對(duì)所述I個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理的步驟;基于權(quán)重信息,對(duì)所述第I韻律參數(shù)以及所述標(biāo)準(zhǔn)化處理后的I個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行內(nèi)插處理,生成第3韻律參數(shù)的步驟;和按照所述第3韻律參數(shù)生成合成聲音的步驟。
13.—種存儲(chǔ)介質(zhì),其存儲(chǔ)有用于聲音合成的程序,其中, 所述程序使計(jì)算機(jī)執(zhí)行: 對(duì)輸入的文本進(jìn)行解析而輸出語(yǔ)言信息的步驟; 存儲(chǔ)對(duì)象談話者的第I韻律控制詞典以及I個(gè)或多個(gè)基準(zhǔn)談話者的第2韻律控制詞典的步驟;基于所述語(yǔ)言信息,利用所述第I韻律控制詞典生成第I韻律參數(shù),并且分別利用所述第2韻律控制詞典生成I個(gè)或多個(gè)第2韻律參數(shù)的步驟; 基于權(quán)重信息,對(duì)所述第I韻律參數(shù)以及所述I個(gè)或多個(gè)第2韻律參數(shù)進(jìn)行內(nèi)插處理,來(lái)生成第3韻律參數(shù)的步驟; 基于標(biāo)準(zhǔn)化參數(shù)對(duì)所述第3韻律參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理的步驟;和 按照所述標(biāo)準(zhǔn)化處理后的第3韻律參數(shù)生成合成聲音的步驟。
【文檔編號(hào)】G10L13/10GK103594082SQ201310357397
【公開(kāi)日】2014年2月19日 申請(qǐng)日期:2013年8月16日 優(yōu)先權(quán)日:2012年8月16日
【發(fā)明者】橘健太郎, 籠島岳彥, 森田真弘 申請(qǐng)人:株式會(huì)社 東芝