聲音合成裝置和方法

文檔序號(hào)：2829023閱讀：180來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：聲音合成裝置和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及聲音合成裝置，尤其涉及能夠再現(xiàn)編輯者指定的音質(zhì)，而且在使音質(zhì)連續(xù)變化時(shí)音質(zhì)連續(xù)變化的聲音合成裝置。
背景技術(shù)：
過(guò)去，作為能夠合成聲音，改變合成音的音質(zhì)的聲音合成系統(tǒng)，提出了對(duì)音質(zhì)進(jìn)行變換，以符合對(duì)聲音單元選擇部所選擇的聲音單元輸入的音質(zhì)的系統(tǒng)(例如，參見(jiàn)專利文獻(xiàn)1)。
圖9是專利文獻(xiàn)1記載的過(guò)去的音質(zhì)可變聲音合成裝置的構(gòu)成圖。過(guò)去的音質(zhì)可變聲音合成裝置具有文本輸入部1、音質(zhì)變換參數(shù)輸入部2、聲音單元存儲(chǔ)部3、聲音單元選擇部4、音質(zhì)變換部5和波形合成部6。
文本輸入部1是從外部接收表示希望進(jìn)行聲音合成的語(yǔ)言內(nèi)容的音素信息、和表示重音(アクセント)或說(shuō)話總體的抑揚(yáng)的韻律信息，輸出到聲音單元選擇部4內(nèi)。
音質(zhì)變換參數(shù)輸入部2是接受變換成編輯者希望的音質(zhì)所必須的變換參數(shù)的輸入的處理部。聲音單元存儲(chǔ)部3是存儲(chǔ)對(duì)各種聲音的聲音單元的存儲(chǔ)部。聲音單元選擇部4是從聲音單元選擇部3中選擇出與文本輸入部1輸出的聲音單元信息和韻律信息最適合的聲音單元的處理部。
音質(zhì)變換部5是利用由音質(zhì)變換參數(shù)輸入部2輸入的變換參數(shù)，把由聲音單元選擇部4選擇的聲音單元變換成編輯者希望的音質(zhì)的處理部。波形合成部6是利用由音質(zhì)變換部5進(jìn)行了音質(zhì)變換的聲音單元來(lái)合成聲音波形的處理部。
這樣，在過(guò)去的音質(zhì)可變聲音合成裝置中，音質(zhì)變換部5利用由音質(zhì)變換參數(shù)輸入部2輸入的聲音變換參數(shù)，來(lái)對(duì)聲音單元選擇部4所選擇的聲音單元進(jìn)行變換，由此可獲得編輯者所希望的音質(zhì)的合成音。
此外，還有這樣一種方法，即對(duì)每種音質(zhì)準(zhǔn)備多個(gè)聲音單元數(shù)據(jù)庫(kù)，通過(guò)選擇使用對(duì)被輸入的音質(zhì)最適合的聲音單元數(shù)據(jù)庫(kù)，來(lái)進(jìn)行音質(zhì)可變的聲音合成。
專利文獻(xiàn)1日本特開(kāi)2003-66982號(hào)公報(bào)(第1～10頁(yè)，圖1)然而，在上述音質(zhì)可變聲音合成裝置中，有時(shí)編輯者所希望的音質(zhì)與聲音單元存儲(chǔ)部3內(nèi)存儲(chǔ)的標(biāo)準(zhǔn)音質(zhì)(中性音質(zhì))的聲音單元的音質(zhì)有很大不同。這樣，由聲音單元存儲(chǔ)部3選擇的聲音單元的音質(zhì)與音質(zhì)變換參數(shù)輸入部2所指定的音質(zhì)有很大不同的情況下，必須使音質(zhì)變換部5所選擇的聲音單元產(chǎn)生很大的變化。因此，存在的問(wèn)題是，利用波形合成部6來(lái)生成合成音時(shí)，聲音質(zhì)量顯著降低。
另一方面，在后一種方法中，音質(zhì)變換通過(guò)切換聲音單元數(shù)據(jù)庫(kù)來(lái)進(jìn)行。但是，聲音單元數(shù)據(jù)庫(kù)的個(gè)數(shù)是有限的。所以，音質(zhì)變換形成離散狀態(tài)，不能夠連續(xù)地改變音質(zhì)。

發(fā)明內(nèi)容
本發(fā)明為了解決上述問(wèn)題而提出。其第1目的是提供當(dāng)生成合成音時(shí)，聲音質(zhì)量不會(huì)顯著降低的聲音合成裝置。
并且，第2目的是提供能夠使合成音的音質(zhì)連續(xù)變化的聲音合成裝置。
為了解決上述現(xiàn)有技術(shù)的問(wèn)題，根據(jù)本發(fā)明的聲音合成裝置，合成具有所需音質(zhì)的聲音，其特征在于具有聲音單元存儲(chǔ)機(jī)構(gòu)，用于存儲(chǔ)多個(gè)音質(zhì)的聲音單元；目標(biāo)聲音單元信息生成機(jī)構(gòu)，用于根據(jù)包含音素信息的語(yǔ)言信息，生成與該語(yǔ)言信息相對(duì)應(yīng)的聲音單元信息；聲音單元選擇機(jī)構(gòu)，用于從上述聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與上述聲音單元信息相對(duì)應(yīng)的聲音單元；音質(zhì)指定機(jī)構(gòu)，用于接受合成音的音質(zhì)的指定；音質(zhì)變換機(jī)構(gòu)，用于將上述聲音單元選擇機(jī)構(gòu)選擇出的聲音單元變換成具有上述音質(zhì)指定機(jī)構(gòu)接受的音質(zhì)的聲音單元；失真判斷機(jī)構(gòu)，用于判斷由上述音質(zhì)變換機(jī)構(gòu)變換的變換后的聲音單元的失真；以及目標(biāo)聲音單元信息修正機(jī)構(gòu)，用于在由上述失真判斷機(jī)構(gòu)判斷為變換后的聲音單元失真的情況下，將由上述目標(biāo)聲音單元信息生成機(jī)構(gòu)生成的聲音單元信息修正為與由上述音質(zhì)變換機(jī)構(gòu)變換的聲音單元相對(duì)應(yīng)的聲音單元信息，上述聲音單元選擇機(jī)構(gòu)在利用上述目標(biāo)聲音單元信息修正機(jī)構(gòu)對(duì)聲音單元信息進(jìn)行了修正的情況下，從上述聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與修正后的聲音單元信息相對(duì)應(yīng)的聲音單元。
在失真判斷機(jī)構(gòu)判斷出音質(zhì)變換的聲音單元的失真，并且失真較大的情況下，目標(biāo)聲音單元信息修正機(jī)構(gòu)對(duì)聲音單元信息進(jìn)行修正，聲音單元選擇機(jī)構(gòu)進(jìn)一步選擇與修正后的聲音單元信息相對(duì)應(yīng)的聲音單元。因此，聲音變換機(jī)構(gòu)能夠根據(jù)接近音質(zhì)指定機(jī)構(gòu)所指定的音質(zhì)的聲音單元，來(lái)進(jìn)行音質(zhì)變換。所以，能夠提供在生成合成音時(shí)聲音質(zhì)量不會(huì)顯著下降的聲音合成裝置。并且，由聲音單元存儲(chǔ)機(jī)構(gòu)來(lái)存儲(chǔ)多個(gè)音質(zhì)的聲音單元，根據(jù)其中的某一個(gè)聲音單元來(lái)進(jìn)行音質(zhì)變換。因此，即使編輯者利用音質(zhì)指定機(jī)構(gòu)來(lái)使音質(zhì)連續(xù)地變化，也能夠使合成音的音質(zhì)連續(xù)地變化。
優(yōu)選地，其特征在于上述音質(zhì)變換機(jī)構(gòu)還將與上述修正后的聲音單元信息相對(duì)應(yīng)的聲音單元，變換成具有由上述音質(zhì)指定機(jī)構(gòu)接受的音質(zhì)的聲音單元。
若采用該結(jié)構(gòu)，則根據(jù)再選擇后的聲音單元，再次進(jìn)行向具有音質(zhì)指定機(jī)構(gòu)所接受的音質(zhì)的聲音單元的變換。因此，通過(guò)反復(fù)進(jìn)行聲音單元的再選擇和再變換，可使合成音的音質(zhì)連續(xù)變化。并且，這樣，由于使音質(zhì)連續(xù)性變化，所以不會(huì)使聲音質(zhì)量變壞，能夠使音質(zhì)大大變化。
優(yōu)選地，其特征在于上述目標(biāo)聲音單元信息修正機(jī)構(gòu)還在對(duì)由上述目標(biāo)聲音單元信息生成機(jī)構(gòu)生成的聲音單元信息進(jìn)行修正時(shí)，將由上述音質(zhì)變換機(jī)構(gòu)變換后的聲音單元的聲道特征加到修正后的聲音單元信息中。
通過(guò)將聲道特征新加到修正后的聲音單元信息中，聲音單元選擇機(jī)構(gòu)能夠選擇出更接近指定的音質(zhì)的聲音單元，能夠生成聲音質(zhì)量下降得更少而且接近指定的音質(zhì)的合成音。
再者，優(yōu)選地，其特征在于上述失真判斷機(jī)構(gòu)根據(jù)相鄰的聲音單元之間的連接性來(lái)判斷失真。
根據(jù)相鄰的聲音單元之間的連接性來(lái)判斷失真。所以，在再現(xiàn)時(shí)，能夠獲得平滑的合成音。
再者，優(yōu)選地，其特征在于上述失真判斷機(jī)構(gòu)根據(jù)從上述聲音單元選擇機(jī)構(gòu)所選擇的聲音單元到由上述音質(zhì)變換機(jī)構(gòu)變換的變換后的聲音單元的變形率來(lái)判斷失真。
根據(jù)變換前和變換后的聲音單元的變形率來(lái)判斷失真。所以，根據(jù)最接近作為目標(biāo)的音質(zhì)的聲音單元來(lái)進(jìn)行音質(zhì)變換。因此，能夠生成聲音質(zhì)量下降少的合成音。
再者，優(yōu)選地，其特征在于上述聲音單元選擇機(jī)構(gòu)在由上述目標(biāo)聲音單元信息修正機(jī)構(gòu)修正了聲音單元信息的情況下，僅對(duì)在上述失真判斷機(jī)構(gòu)中檢測(cè)出失真的范圍，從上述聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與修正后的聲音單元信息相對(duì)應(yīng)的聲音單元。
僅將檢測(cè)出了失真的范圍作為再變換的對(duì)象。所以，能夠高速進(jìn)行聲音合成。并且，若把不失真的部分也作為變換的對(duì)象，則有時(shí)會(huì)獲得與指定的音質(zhì)不同的合成音，但本結(jié)構(gòu)不會(huì)發(fā)生這種情況，能夠獲得高精度的合成音。
再者，優(yōu)選地，其特征在于上述聲音單元存儲(chǔ)機(jī)構(gòu)具有基本聲音單元存儲(chǔ)機(jī)構(gòu)，用于存儲(chǔ)標(biāo)準(zhǔn)的音質(zhì)的聲音單元；以及音質(zhì)聲音單元存儲(chǔ)機(jī)構(gòu)，用于存儲(chǔ)和上述標(biāo)準(zhǔn)音質(zhì)的聲音單元不同的多個(gè)音質(zhì)的聲音單元，上述聲音單元選擇機(jī)構(gòu)具有基本聲音單元選擇機(jī)構(gòu)，用于從上述基本聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與由上述目標(biāo)聲音單元信息生成機(jī)構(gòu)生成的聲音單元信息相對(duì)應(yīng)的聲音單元；以及音質(zhì)聲音單元選擇機(jī)構(gòu)，用于從上述音質(zhì)聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與由上述目標(biāo)聲音單元信息修正機(jī)構(gòu)修正的聲音單元信息相對(duì)應(yīng)的聲音單元。
第1次選擇的聲音單元總是標(biāo)準(zhǔn)的音質(zhì)的聲音單元。所以，能夠高速進(jìn)行第1次聲音單元的選擇。并且，即使在生成了各種音質(zhì)的合成音的情況下，仍然是收斂速度快。因此，能夠高速獲得合成音。再者，一定以標(biāo)準(zhǔn)的聲音單元為出發(fā)點(diǎn)，進(jìn)行其后的音質(zhì)變換和聲音單元選擇。所以，不會(huì)合成編輯者不希望的聲音，能夠生成高精度的合成音。
而且，本發(fā)明不僅能夠?qū)崿F(xiàn)為具有這樣的特征機(jī)構(gòu)的聲音合成裝置，也能夠?qū)崿F(xiàn)為以聲音合成裝置所包含的特征機(jī)構(gòu)為步驟的聲音合成方法，或者實(shí)現(xiàn)為使計(jì)算機(jī)發(fā)揮聲音合成裝置中所包含的機(jī)構(gòu)的功能的程序。并且，不言而喻，這樣的程序能夠通過(guò)CD-ROM(光盤只讀存儲(chǔ)器)等記錄媒體或互聯(lián)網(wǎng)等通信網(wǎng)絡(luò)而進(jìn)行流通。
發(fā)明的效果若采用本發(fā)明的聲音合成裝置，則根據(jù)音質(zhì)變換時(shí)的聲音單元失真，從聲音單元數(shù)據(jù)庫(kù)中再選擇聲音單元，由此不會(huì)使合成音的質(zhì)量下降，而能夠變換成編輯者希望的連續(xù)且大范圍的音質(zhì)。

圖1是本發(fā)明第1實(shí)施方式的音質(zhì)可變聲音合成裝置的構(gòu)成圖。
圖2是聲音單元選擇部的一般構(gòu)成圖。
圖3是表示音質(zhì)指定部的一例的圖。
圖4是失真判斷部的范圍指定的說(shuō)明圖。
圖5是音質(zhì)可變聲音合成裝置所執(zhí)行的處理的流程圖。
圖6是音質(zhì)空間的音質(zhì)變換過(guò)程的說(shuō)明圖。
圖7是本發(fā)明第2實(shí)施方式的音質(zhì)可變聲音合成裝置的構(gòu)成圖。
圖8是聲音單元再選擇時(shí)的說(shuō)明圖。
圖9是過(guò)去的音質(zhì)可變聲音合成裝置的構(gòu)成圖。
具體實(shí)施例方式
以下參照附圖，詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式。
圖1是本發(fā)明第1實(shí)施方式的音質(zhì)可變聲音合成裝置的構(gòu)成圖。
音質(zhì)可變聲音合成裝置100是用于合成具有編輯者希望的音質(zhì)的聲音的裝置，具有文本解析部101、目標(biāo)聲音單元信息生成部102、聲音單元數(shù)據(jù)庫(kù)103、聲音單元選擇部104，音質(zhì)指定部105、音質(zhì)變換部106、波形生成部107、失真判斷部108、和目標(biāo)聲音單元信息修正部109。
文本解析部101從語(yǔ)言上對(duì)從外部輸入的文本進(jìn)行解析，輸出詞素信息和音素信息。目標(biāo)聲音單元信息生成部102根據(jù)由文本解析部101解析的包括音素信息的語(yǔ)言信息，來(lái)生成音韻環(huán)境、基本頻率、持續(xù)時(shí)間長(zhǎng)度、強(qiáng)度(power)等聲音單元信息。聲音單元數(shù)據(jù)庫(kù)103存儲(chǔ)按音素等單位來(lái)對(duì)預(yù)先收錄的聲音進(jìn)行標(biāo)注(labeling)的聲音單元。
聲音單元選擇部104根據(jù)由目標(biāo)聲音單元信息生成部102生成的目標(biāo)聲音單元信息，從聲音單元數(shù)據(jù)庫(kù)103中選擇最佳聲音單元。音質(zhì)指定部105接受對(duì)編輯者所希望的合成音的音質(zhì)的指定。音質(zhì)變換部106對(duì)由聲音單元選擇部104選擇的聲音單元進(jìn)行變換，使其符合音質(zhì)指定部105指定的合成音的音質(zhì)。
波形生成部107根據(jù)由音質(zhì)變換部106變換后的聲音單元系列生成聲音波形，輸出合成音。失真判斷部108對(duì)經(jīng)過(guò)音質(zhì)變換部106進(jìn)行了音質(zhì)變換的聲音單元的失真進(jìn)行判斷。
目標(biāo)聲音單元信息修正部109在由失真判斷部108判斷出的聲音單元失真超過(guò)了規(guī)定閾值的情況下，把聲音單元選擇部104選擇聲音單元時(shí)所使用的目標(biāo)聲音單元信息，修正成為由音質(zhì)變換部106進(jìn)行變換后的聲音單元的信息。
以下說(shuō)明各部的動(dòng)作。
<目標(biāo)聲音單元信息生成部102>
目標(biāo)聲音單元信息生成部102根據(jù)從文本解析部101發(fā)送的語(yǔ)言信息，來(lái)預(yù)測(cè)被輸入的文本的韻律信息。在此，韻律信息至少包括每個(gè)音素單位的持續(xù)時(shí)間長(zhǎng)度、基本頻率、強(qiáng)度信息。并且，在音素單位以外也還可以按每個(gè)韻素(mora)單位或音節(jié)單位預(yù)測(cè)持續(xù)時(shí)間長(zhǎng)度、基本頻率、強(qiáng)度信息。目標(biāo)聲音單元信息生成部102也可以進(jìn)行任何方式的預(yù)測(cè)。例如可以利用基于數(shù)量化I類的方法來(lái)進(jìn)行預(yù)測(cè)。
<聲音單元數(shù)據(jù)庫(kù)103>
聲音單元數(shù)據(jù)庫(kù)103存儲(chǔ)預(yù)先收錄的聲音的聲音單元。存儲(chǔ)的形式既可以是存儲(chǔ)波形本身的方法，也可以是劃分成音源波信息和聲道信息分別進(jìn)行存儲(chǔ)的方法。并且，存儲(chǔ)的聲音單元不僅限于波形，也可以存儲(chǔ)能夠再合成的分析參數(shù)。
在聲音單元數(shù)據(jù)庫(kù)103中，不僅聲音單元，還按每個(gè)聲音單元單位存儲(chǔ)選擇存儲(chǔ)的聲音單元時(shí)所使用的特征。作為聲音單元單位有音素或音節(jié)、韻素、詞素、單詞等。但并無(wú)特別限制。
選擇聲音單元時(shí)所使用的特征，作為基本特征是存儲(chǔ)聲音單元的前后的音韻環(huán)境、基本頻率、持續(xù)時(shí)間長(zhǎng)度、強(qiáng)度等信息。
并且，作為詳細(xì)特征有作為聲音單元的頻譜特征的共振峰的圖形或?qū)?shù)倒頻譜圖形、基本頻率的時(shí)間性圖形、強(qiáng)度的時(shí)間性圖形等。
<聲音單元選擇部104>
聲音單元選擇部104根據(jù)目標(biāo)聲音單元信息生成部102生成的信息，從聲音單元數(shù)據(jù)庫(kù)103中選擇最佳聲音單元系列。對(duì)聲音單元選擇部104的具體構(gòu)成沒(méi)有特別規(guī)定，但其一例的構(gòu)成示于圖2。
對(duì)在圖1中已出現(xiàn)過(guò)的部分，其說(shuō)明從略。聲音單元選擇部104具有聲音單元候補(bǔ)抽出部301、檢索部302和成本計(jì)算部303。
聲音單元候補(bǔ)抽出部301是一種處理部，它用于從目標(biāo)聲音單元信息生成部102生成的聲音單元信息中抽出一種候補(bǔ)，該候補(bǔ)是根據(jù)與音韻有關(guān)的項(xiàng)目(例如音素等)有可能從聲音數(shù)據(jù)庫(kù)103中選擇出來(lái)的候補(bǔ)。檢索部302是一種處理部，它用于從聲音單元候補(bǔ)抽出部301抽出的聲音單元候補(bǔ)中決定由成本計(jì)算部303計(jì)算出的使成本達(dá)到最低的聲音單元系列。
成本計(jì)算部303具有目標(biāo)成本計(jì)算部304，用于計(jì)算聲音單元候補(bǔ)和目標(biāo)聲音單元信息生成部102生成的聲音單元信息之間的距離；以及連接成本計(jì)算部305，用于評(píng)價(jià)對(duì)2個(gè)聲音單元候補(bǔ)進(jìn)行時(shí)間性連接時(shí)的連接性。
該目標(biāo)成本和連接成本之和所表示的成本函數(shù)達(dá)到最小的聲音單元系列由檢索部302進(jìn)行檢索，這樣，能夠獲得與作為目標(biāo)的聲音單元信息相類似的、而且連接平滑的合成音。
<音質(zhì)指定部105>
音質(zhì)指定部105接受編輯者所希望的合成音的音質(zhì)的指定，對(duì)具體的指定方法并無(wú)特別限制，其一例于示圖3。
例如，圖3所示，利用GUI(圖形用戶接口)來(lái)構(gòu)成音質(zhì)指定部105。作為合成音的音質(zhì)對(duì)能夠更改的基本軸(例如年齡、性別、感情等)設(shè)置滑動(dòng)條，利用滑動(dòng)條的位置來(lái)指定各基本軸的控制值。對(duì)基本軸的數(shù)量沒(méi)有特別限制。
<音質(zhì)變換部106>
音質(zhì)變換部106對(duì)聲音單元選擇部104所選擇的聲音單元系列進(jìn)行變換，以便符合音質(zhì)指定部105所指定的音質(zhì)。對(duì)變換的方法沒(méi)有特別限制。
在通過(guò)LPC(Linear Predictive Coefficient線性預(yù)測(cè)系數(shù))分析的聲音合成方法的情況下，有一種方法是利用音質(zhì)變換矢量來(lái)移動(dòng)LPC系數(shù)，由此獲得不同音質(zhì)的合成音。例如利用音質(zhì)A的LPC系數(shù)和音質(zhì)B的LPC系數(shù)之間的差分，來(lái)生成移動(dòng)矢量，利用該移動(dòng)矢量來(lái)變換LPC系數(shù)，實(shí)現(xiàn)音質(zhì)變換。
或者，也可以是通過(guò)使共振峰頻率伸縮，來(lái)進(jìn)行音質(zhì)變換的方法。
<波形生成部107>
波形生成部107對(duì)通過(guò)音質(zhì)變換部106進(jìn)行變換后的聲音單元系列進(jìn)行合成，并合成聲音波形。對(duì)合成方法沒(méi)有特別限制。例如在聲音單元數(shù)據(jù)庫(kù)103所存儲(chǔ)的聲音單元是聲音波形的情況下，可以用波形連接法來(lái)進(jìn)行合成?；蛘咴诼曇魡卧獢?shù)據(jù)庫(kù)所存儲(chǔ)的信息是音源波信息和聲道信息的情況下，作為源濾波模式進(jìn)行再合成也是可以的。
<失真判斷部108>
失真判斷部108對(duì)由聲音單元檢索部104選擇的聲音單元和由音質(zhì)變換部106進(jìn)行了音質(zhì)變換后的聲音單元進(jìn)行比較，計(jì)算出音質(zhì)變換部106的變形所造成的聲音單元的失真。判斷失真時(shí)的范圍可以是音素、音節(jié)、韻素、詞素、單詞、文節(jié)、重音句、呼氣段落、全文中的任意一個(gè)。
對(duì)失真的計(jì)算方法并無(wú)特別限制。但大致上可分為利用聲音單元的連接邊界處的失真進(jìn)行計(jì)算的方法、以及利用聲音單元的變形率來(lái)計(jì)算的方法。其具體例表示如下。
1、利用連接邊界的連續(xù)性的判斷在聲音單元的連接邊界附近，由于音質(zhì)變換部106的變形而使失真增大。這種現(xiàn)象在由音質(zhì)變換部106按每個(gè)聲音單元獨(dú)立地進(jìn)行音質(zhì)變換的情況下，表現(xiàn)得比較顯著。在由于該失真由波形生成部107合成了合成音的情況下，在聲音單元連接點(diǎn)附近音質(zhì)變壞。因此，判斷出在該聲音單元連接點(diǎn)上的失真。判斷方法，例如有以下方法。
1.1、對(duì)數(shù)倒頻譜距離利用表示聲音單元連接點(diǎn)的波譜的形狀的對(duì)數(shù)倒頻譜距離來(lái)判斷失真。也就是說(shuō)，計(jì)算出連接點(diǎn)的前方聲音單元的最終幀和連接點(diǎn)的后方聲音單元的開(kāi)頭幀之間的對(duì)數(shù)倒頻譜距離。
1.2、共振峰距離利用聲音單元連接點(diǎn)的共振峰的連續(xù)性來(lái)判斷失真，也就是說(shuō)，根據(jù)連接點(diǎn)的前方聲音單元的最終幀和連接點(diǎn)的后方聲音單元的開(kāi)頭幀之間的各共振峰頻率的差分，來(lái)計(jì)算距離。
1.3、音高(pitch)的連續(xù)性利用聲音單元連接點(diǎn)的基本頻率的連續(xù)性來(lái)判斷失真，也就是說(shuō)，計(jì)算出連接點(diǎn)的前方聲音單元的最終幀的基本頻率和連接點(diǎn)的后方聲音單元的開(kāi)頭幀的基本頻率之間的差分。
1.4、強(qiáng)度的連續(xù)性利用聲音單元的連接點(diǎn)的強(qiáng)度的連續(xù)性來(lái)判斷失真。也就是說(shuō)，計(jì)算出連接點(diǎn)的前方聲音單元的最終幀的強(qiáng)度和連接點(diǎn)的后方聲音單元的開(kāi)頭幀的強(qiáng)度之間的差分。
2、利用聲音單元變形率的判斷由于音質(zhì)變換部106變形而使聲音單元選擇部104選擇的聲音單元產(chǎn)生變形時(shí)，由音質(zhì)指定部105指定的音質(zhì)和選擇時(shí)大不相同的情況下，音質(zhì)變化量增大，在由波形生成部107進(jìn)行合成時(shí)，聲音的質(zhì)量，尤其是清晰度降低。因此，對(duì)聲音單元選擇部104選擇的聲音單元和由音質(zhì)變換部106進(jìn)行了變換的聲音單元進(jìn)行比較，根據(jù)其變化量，來(lái)判斷失真。例如，能夠用以下方法進(jìn)行判斷。
2.1、對(duì)數(shù)倒頻譜距離利用音質(zhì)變換前的聲音單元和音質(zhì)變換后的聲音單元之間的對(duì)數(shù)倒頻譜距離來(lái)判斷失真。
2.2、共振峰距離利用音質(zhì)變換前的聲音單元和音質(zhì)變換后的聲音單元之間的基于共振峰頻率的差分的距離來(lái)判斷失真。
2.3、基本頻率的變形率利用音質(zhì)變換前的聲音單元和音質(zhì)變換后的聲音單元之間的基本頻率平均值的差分來(lái)判斷失真?；蛘呃没绢l率的時(shí)間圖形的差分來(lái)判斷失真。
2.4、強(qiáng)度的變形率利用音質(zhì)變換前的聲音單元和音質(zhì)變換后的聲音單元之間的強(qiáng)度的平均值的差分來(lái)判斷失真?；蛘呃脧?qiáng)度的時(shí)間圖形的差分來(lái)判斷失真。
在利用以上任一方法計(jì)算出的失真大于規(guī)定的閾值的情況下，失真判斷部108指示聲音單元選擇部104和目標(biāo)聲音單元信息修正部109進(jìn)行聲音單元的再選擇。
而且，也可以是通過(guò)對(duì)上述方法進(jìn)行組合而計(jì)算出失真，在該失真大于規(guī)定閾值的情況下，失真判斷部108指示聲音單元選擇部104和目標(biāo)聲音單元信息修正部109進(jìn)行聲音單元信息的再選擇。
<目標(biāo)聲音單元信息修正部109>
在利用失真判斷部108判斷出聲音單元失真的情況下，目標(biāo)聲音單元信息修正部109為了修正失真判斷部108判斷為失真的聲音單元，對(duì)目標(biāo)聲音單元信息生成部102生成的目標(biāo)聲音單元信息進(jìn)行修正。
以下說(shuō)明例如對(duì)圖4的“あらゆる現(xiàn)を全て自分の方へねじ曲ぼたのだ”這一文本的失真判斷部108的動(dòng)作。在圖4所示的曲線中，在橫軸方向上表示音素系列。聲音單元系列中的“’”表示重音位置。這里，“/”表示重音句邊界，“，”表示停頓。縱軸表示在失真判斷部108中計(jì)算的聲音單元的失真程度。
失真程度的計(jì)算按每個(gè)音素分別進(jìn)行。并且，失真判斷以音素、音節(jié)、韻素、詞素、單詞、文節(jié)、重音句、短語(yǔ)、呼氣段落和全文中的任意一個(gè)作為單位來(lái)進(jìn)行。在失真判斷的范圍大于音素的情況下，利用范圍內(nèi)所包括的最大失真度或者范圍內(nèi)所包括的失真度的平均來(lái)對(duì)該范圍的失真進(jìn)行判斷。在圖4的例中，例如把“自分の方へ(jibuNnoho-e)”這一重音句作為判斷的范圍，范圍內(nèi)所包括的音素的失真度的最大值超過(guò)規(guī)定閾值，所以，把該重音句判斷為失真。在此情況下，由目標(biāo)聲音單元信息修正部109對(duì)該范圍的目標(biāo)聲音單元信息進(jìn)行修正。
具體來(lái)說(shuō)，根據(jù)由音質(zhì)變換部106進(jìn)行變換后的聲音單元，將該聲音單元的基本頻率、持續(xù)時(shí)間長(zhǎng)度、強(qiáng)度作為新的聲音單元信息使用。
并且，也可以是把作為變換后的聲音單元的聲道信息的共振峰圖形或?qū)?shù)倒頻譜圖形新追加為聲音單元信息，以便能夠重現(xiàn)由音質(zhì)變換部106變換的音質(zhì)。
再者，也可以是，不僅是變換后的聲道信息，而且把作為音源波信息的基本頻率的時(shí)間圖形或強(qiáng)度的時(shí)間圖形追加到聲音單元信息中。
這樣，對(duì)于在第1次聲音單元選擇中未能設(shè)定的與音質(zhì)有關(guān)的聲音單元信息進(jìn)行設(shè)定，由此即可在再選擇時(shí)指定出與當(dāng)前設(shè)定的音質(zhì)接近的聲音單元。
以下使用輸入“明日の天気ほ晴れです”作為輸入文本時(shí)的動(dòng)作例來(lái)說(shuō)明實(shí)際動(dòng)作時(shí)的情況。由文本解析部101進(jìn)行語(yǔ)言解析。其結(jié)果，例如輸出“ashitano/teNkiwa/haredesu.”這樣的音素系列。(斜線符號(hào)表示重音句的劃分。)目標(biāo)聲音單元信息生成部102根據(jù)文本解析部101的解析結(jié)果，來(lái)決定各音素的音韻環(huán)境、基本頻率、持續(xù)時(shí)間、強(qiáng)度等成為目標(biāo)的聲音單元信息。例如，作為關(guān)于句子開(kāi)頭的“a”的聲音單元信息，輸出音韻環(huán)境為“-a+sh”(“-”表示前面的音素是句子開(kāi)頭，“+sh“表示后面的音素是sh。)，基本頻率是120Hz，持續(xù)時(shí)間是60ms，強(qiáng)度是200這樣的信息。
聲音單元選擇部104從聲音單元數(shù)據(jù)庫(kù)103中選擇出與目標(biāo)聲音單元信息生成部102輸出的目標(biāo)聲音單元信息最適合的聲音單元。具體來(lái)說(shuō)，由聲音單元候補(bǔ)抽出部301從聲音數(shù)據(jù)庫(kù)103中抽出與聲音單元信息的音韻環(huán)境相適合的聲音單元作為聲音單元選擇的候補(bǔ)。檢索部302利用維特比(Viterbi)算法等從聲音單元候補(bǔ)抽出部301所抽出的聲音單元候補(bǔ)中決定由成本計(jì)算部303計(jì)算的成本值最小的聲音單元候補(bǔ)。成本計(jì)算部303如上所述由目標(biāo)成本計(jì)算部304和連接成本計(jì)算部305構(gòu)成。目標(biāo)成本計(jì)算部304，例如對(duì)上述聲音單元信息的“a”和候補(bǔ)的聲音單元信息進(jìn)行比較，計(jì)算出一致度。例如，在候補(bǔ)聲音單元的聲音單元信息為，音韻信息是“^-a+k”，基本頻率是110Hz，持續(xù)時(shí)間是50ms，強(qiáng)度是200的情況下，對(duì)各聲音單元信息，計(jì)算其一致度，對(duì)各個(gè)一致度加以綜合后的數(shù)值作為目標(biāo)成本值輸出。連接成本計(jì)算部305對(duì)相鄰的2個(gè)聲音單元——在上述例中為“a”和“sh”2個(gè)聲音單元進(jìn)行連接時(shí)的連接性進(jìn)行評(píng)價(jià)，作為連接成本值進(jìn)行輸出。作為評(píng)價(jià)方法例如可以用“a”的終端部和“sh”的始端部的對(duì)數(shù)倒頻譜距離進(jìn)行評(píng)價(jià)。
編輯者利用圖3所示的音質(zhì)指定部105的GUI，來(lái)進(jìn)行所需音質(zhì)的指定。在此，指定了年齡稍接近老人，性別接近女性，性格不夠開(kāi)朗，情緒基本上一般的音質(zhì)。
音質(zhì)變換部106把聲音單元的音質(zhì)變換成用音質(zhì)指定部105指定的音質(zhì)。
這時(shí)，初始選擇時(shí)由聲音單元選擇部104選擇的聲音單元的音質(zhì)、和由音質(zhì)指定部105指定的音質(zhì)有很大不同的情況下，利用音質(zhì)變換部106進(jìn)行了修正的聲音單元的變化量增大，即使音質(zhì)是希望的音質(zhì)，也會(huì)使合成音的質(zhì)量，例如清晰度等顯著惡化。因此，在失真判斷部108例如根據(jù)“a”和“sh”的連接性、從聲音單元數(shù)據(jù)庫(kù)中選擇的聲音單元“a”以及經(jīng)過(guò)音質(zhì)變換部106進(jìn)行音質(zhì)變換后的聲音單元“a”的聲音單元變形率(例如聲音單元間的對(duì)數(shù)倒頻譜距離)，預(yù)計(jì)合成音的音質(zhì)下降的情況下，從聲音單元數(shù)據(jù)庫(kù)103中再選擇對(duì)音質(zhì)指定部105指定的當(dāng)前音質(zhì)最適合的聲音單元。而且，失真的判斷方法并不限于該方法。
在再選擇時(shí)，由目標(biāo)聲音單元信息修正部109進(jìn)行更改，使修正后的聲音單元“a”的聲音單元信息為例如基本頻率為110Hz，持續(xù)時(shí)間為85ms，強(qiáng)度為300。并且，新增加表示音質(zhì)變換后的聲音單元“a”的聲道特征的對(duì)數(shù)倒頻譜系數(shù)或共振峰軌跡。這樣一來(lái)，能夠在選擇聲音單元時(shí)考慮不能夠根據(jù)輸入文本來(lái)推定的音質(zhì)的信息。
聲音單元選擇部104根據(jù)由目標(biāo)聲音單元信息修正部109修正后的聲音單元信息從聲音單元數(shù)據(jù)庫(kù)103中再選擇最佳聲音單元系列。
這樣，通過(guò)僅對(duì)已檢測(cè)出失真的聲音單元再選擇，能夠使再選擇時(shí)的聲音單元的音質(zhì)接近于選擇前的聲音單元的音質(zhì)。所以，在利用圖3所示的GUI來(lái)階段性地編輯所需音質(zhì)時(shí)，能夠選擇出與上述指定的音質(zhì)的合成音的音質(zhì)接近的音質(zhì)的聲音單元。所以能夠進(jìn)行使音質(zhì)連續(xù)變化的編輯，能夠編輯出符合編輯者的直感的合成音。
這時(shí)，目標(biāo)成本計(jì)算部304對(duì)初始選擇時(shí)未考慮的、聲道特征的一致度也加以考慮，來(lái)計(jì)算目標(biāo)成本。具體來(lái)說(shuō)，計(jì)算出目標(biāo)聲音單元“a”和聲音單元候補(bǔ)“a”之間的對(duì)數(shù)倒頻譜距離或共振峰距離。這樣，能夠選擇出與當(dāng)前音質(zhì)類似而且變形量小音質(zhì)好的聲音單元。
如以上那樣，通過(guò)再選擇音質(zhì)變換部106中的變化量小的聲音單元，即使在利用音質(zhì)指定部105由編輯者逐次改變合成音的音質(zhì)的情況下，也總是能根據(jù)最佳聲音單元由音質(zhì)變換部106進(jìn)行音質(zhì)變換。因此，能夠進(jìn)行聲音質(zhì)量高而且音質(zhì)變化幅度大的音質(zhì)可變聲音合成。
以下說(shuō)明在編輯者合成所需音質(zhì)的聲音時(shí)，在音質(zhì)可變聲音合成裝置100中進(jìn)行的處理。圖5是音質(zhì)可變聲音合成裝置100所執(zhí)行的處理的流程圖。
文本解析部101對(duì)輸入的文本進(jìn)行語(yǔ)言解析(S1)。目標(biāo)聲音單元信息生成部102根據(jù)在文本解析部101中解析的語(yǔ)言信息，生成各聲音單元的基本頻率和持續(xù)時(shí)間長(zhǎng)度這樣的聲音單元信息(S2)。
聲音單元選擇部104從聲音單元數(shù)據(jù)庫(kù)103中選擇出與聲音單元信息生成處理(S2)中生成的聲音單元信息最適合的聲音單元系列(S3)。
接著，若由編輯者利用由圖3所示的GUI構(gòu)成的音質(zhì)指定部105來(lái)指定音質(zhì)，則音質(zhì)指定部106根據(jù)已指定的信息，對(duì)在聲音單元系列選擇處理(S3)中所選擇的聲音單元系列的音質(zhì)進(jìn)行變換(S4)。
失真判斷部108對(duì)在音質(zhì)變換處理(S4)中進(jìn)行了音質(zhì)變換的聲音單元系列是否失真進(jìn)行判斷(S5)。具體來(lái)說(shuō)，利用上述任一方法計(jì)算聲音單元系列中的失真，如果該失真大于規(guī)定閾值，那么判斷為聲音單元系列失真。
在判斷為聲音單元系列失真的情況下(在S5中為是)，目標(biāo)聲音單元信息修正部109把由目標(biāo)聲音單元信息生成部102生成的聲音單元信息，修正成為與當(dāng)前的音質(zhì)相符合的聲音單元信息(S6)。然后，由聲音單元選擇部104以聲音單元信息修正處理(S6)中修正過(guò)的聲音單元信息為目標(biāo)，從聲音單元數(shù)據(jù)庫(kù)103中再選擇聲音單元(S7)。
在判斷為無(wú)失真的情況下(在S5為否)，或者在再選擇了聲音單元之后(S7)，由波形生成部107利用被選擇的聲音單元來(lái)合成聲音(S8)。
編輯者聽(tīng)取合成聲音，判斷是否是所需的音質(zhì)(S9)。在是所需的音質(zhì)的情況下(在S9為是)，結(jié)束處理。在不是所需的音質(zhì)的情況下(在S9為否)，返回到音質(zhì)變換處理(S4)。
從音質(zhì)變換處理(S4)到音質(zhì)判斷處理(S9)反復(fù)進(jìn)行，由此編輯者能夠合成所需音質(zhì)的聲音。
以下根據(jù)圖5所示的流程圖，說(shuō)明編輯對(duì)“あらゆる現(xiàn)實(shí)を全て自分の方へねじ曲げたのだ”這一文本，希望“男性的開(kāi)朗音質(zhì)”的合成音時(shí)的動(dòng)作。
由文本解析部101進(jìn)行詞素解析、讀的決定、文節(jié)的決定、依存(係り受け)分析等(S1)。其結(jié)果，獲得“arayu’ru/genjitsuo，su’bete/jibuNno/ho’-e，nejimageta’noda”這樣的聲音單元系列。
目標(biāo)聲音單元信息生成部102對(duì)各音素“a”、“r”、“a”、“y”等分別生成音韻環(huán)境及基本頻率、持續(xù)時(shí)間長(zhǎng)度、強(qiáng)度等各音素的特征(S2)。
聲音單元選擇部104根據(jù)在聲音單元信息生成處理(S2)中生成的聲音單元信息，從聲音單元數(shù)據(jù)庫(kù)103中選擇出最佳聲音單元系列(S3)。
編輯者利用圖3所示的音質(zhì)指定部105，來(lái)指定目標(biāo)音質(zhì)。例如要使性別軸向男性側(cè)移動(dòng)，使性格軸向開(kāi)朗側(cè)移動(dòng)。于是，音質(zhì)變換部106根據(jù)音質(zhì)指定部105來(lái)變換聲音單元系列的音質(zhì)(S4)。
失真判斷部108對(duì)在音質(zhì)變換處理(S4)中進(jìn)行了音質(zhì)變換的聲音單元系列是否失真進(jìn)行判斷(S5)。例如，在失真判斷部108中在如圖4所示檢測(cè)出了失真的情況下(在S5為是)，向聲音單元信息修正處理(S6)轉(zhuǎn)移?；蛘撸鐖D4所示，在失真未超過(guò)規(guī)定閾值的情況下(在S5為否)，向波形生成處理(S8)轉(zhuǎn)移。
在聲音單元信息修正處理(S6)中，目標(biāo)聲音單元信息修正部109抽出在音質(zhì)變換處理(S4)中進(jìn)行了音質(zhì)變換的聲音單元的聲音單元信息，修正聲音單元信息。在圖4的例中，作為失真超過(guò)閾值的重音句的“自分の方へ”被指定為再選擇的范圍，對(duì)聲音單元信息進(jìn)行修正。
聲音單元選擇部104從聲音單元數(shù)據(jù)庫(kù)103中再選擇最符合經(jīng)過(guò)聲音單元信息修正處理(S6)進(jìn)行了修正的目標(biāo)聲音單元信息的聲音單元系列(S7)。然后，波形生成部107根據(jù)音質(zhì)變換后的聲音單元系列生成聲音波形。
編輯者聽(tīng)取已生成的聲音波形，對(duì)是否達(dá)到了目標(biāo)音質(zhì)進(jìn)行判斷(S9)。在未達(dá)到目標(biāo)音質(zhì)的情況下(在S9為否)，例如希望產(chǎn)生“更男性化的聲音”的情況下，轉(zhuǎn)移到音質(zhì)變換處理(S4)，編輯者使圖3所示的音質(zhì)指定部105的性別軸進(jìn)一步向男性側(cè)偏移。
從以上的音質(zhì)變換處理(S4)到音質(zhì)判斷處理(S9)反復(fù)進(jìn)行，這樣，不會(huì)使合成音的質(zhì)量下降，而且，能夠以連續(xù)的音質(zhì)變化方式來(lái)慢慢變換編輯者所希望的“男性的開(kāi)朗音質(zhì)”的合成音。
圖6是表示本發(fā)明的效果的圖像。圖6表示了音質(zhì)空間。音質(zhì)701表示初始選擇時(shí)所選擇的聲音單元系列的音質(zhì)。范圍702表示根據(jù)與音質(zhì)701相對(duì)應(yīng)的聲音單元，不通過(guò)失真判斷部108檢測(cè)失真就能夠進(jìn)行音質(zhì)變換的音質(zhì)范圍。假定由編輯者用音質(zhì)指定部105指定了音質(zhì)703的情況下，利用失真判斷部108來(lái)檢測(cè)失真。因此，聲音單元選擇部104從聲音單元數(shù)據(jù)庫(kù)103中再選擇接近音質(zhì)703的聲音單元系列。這樣，能夠選擇出具有接近音質(zhì)703的音質(zhì)704的聲音單元系列。并且，從具有音質(zhì)704的聲音單元系列不用失真判斷部108檢測(cè)失真就能夠變換音質(zhì)的范圍是范圍705的內(nèi)部。所以，進(jìn)一步根據(jù)音質(zhì)704的聲音單元系列來(lái)變換音質(zhì)，能夠使音質(zhì)變換達(dá)到音質(zhì)706，該音質(zhì)706是過(guò)去不能夠?qū)崿F(xiàn)的無(wú)失真音質(zhì)變換的音質(zhì)。這樣，通過(guò)分階段指定由音質(zhì)指定部105指定的音質(zhì)，能夠合成編輯者所希望的音質(zhì)的聲音。
若采用該結(jié)構(gòu)，則在由失真判斷部108檢測(cè)出規(guī)定的閾值以上的失真的情況下，利用目標(biāo)聲音單元信息修正部109來(lái)修正聲音單元信息，并利用聲音單元選擇部104來(lái)再選擇聲音單元，由此，能夠從聲音單元數(shù)據(jù)庫(kù)103再選擇出與音質(zhì)指定部105所指定的音質(zhì)相符合的聲音單元。所以，例如，在圖6所示的音質(zhì)空間中，在編輯者希望合成音質(zhì)703的聲音的情況下，不是進(jìn)行從初始選擇的音質(zhì)701的聲音單元系列向音質(zhì)703音質(zhì)變換，而是進(jìn)行從最接近音質(zhì)703的音質(zhì)704的聲音單元系列向音質(zhì)703音質(zhì)變換。這樣，因?yàn)榭偸歉鶕?jù)最佳的聲音單元系列進(jìn)行音質(zhì)變換，所以，能夠進(jìn)行無(wú)失真且聲音質(zhì)量良好的聲音合成。
并且，在編輯者用音質(zhì)指定部105重新指定所需的音質(zhì)的情況下，在圖5的流程圖中，不是從聲音單元的初始選擇處理(S3)重新開(kāi)始處理，而是從音質(zhì)變換處理(S4)重新開(kāi)始處理。所以，例如，在圖6的音質(zhì)空間內(nèi)，在編輯者把所需的音質(zhì)從音質(zhì)703重新指定為音質(zhì)706的情況下，不是再次從音質(zhì)701的聲音單元系列進(jìn)行音質(zhì)變換，而是根據(jù)向音質(zhì)703進(jìn)行音質(zhì)變換時(shí)所使用的音質(zhì)704的聲音單元系列，進(jìn)行音質(zhì)變換。假定要從聲音單元的初始選擇處理(S3)重新開(kāi)始處理，那么編輯者慢慢重新指定所需的音質(zhì)的情況下，盡管重新指定的音質(zhì)在音質(zhì)空間上與重新指定音質(zhì)前的音質(zhì)接近，但有時(shí)仍然進(jìn)行從完全不同的音質(zhì)的聲音單元系列向重新指定的音質(zhì)的音質(zhì)變換。所以，有時(shí)不太容易獲得編輯者所希望的音質(zhì)的聲音。但是，若采用本實(shí)施方式的方法，則即使在重新指定音質(zhì)的情況下，如果音質(zhì)變換所使用的聲音單元系列，在音質(zhì)變換后的聲音單元系列沒(méi)有產(chǎn)生失真的情況下，和此前的音質(zhì)變換所使用的聲音單元系列相同。所以，能夠使合成音的音質(zhì)連續(xù)地變化。并且，這樣，因?yàn)槭挂糍|(zhì)連續(xù)地變化，所以不會(huì)使聲音質(zhì)量劣化，而能夠使音質(zhì)大大變化。
圖7是本發(fā)明第2實(shí)施方式的音質(zhì)可變聲音合成裝置的構(gòu)成圖。在圖7中，對(duì)于和圖1相同的結(jié)構(gòu)要素，使用相同的符號(hào)，其說(shuō)明從略。
圖7所示的音質(zhì)可變聲音合成裝置200不同于圖1所示的音質(zhì)可變聲音合成裝置100，其中采用了基本聲音單元數(shù)據(jù)庫(kù)201和音質(zhì)聲音單元數(shù)據(jù)庫(kù)202來(lái)代替聲音單元數(shù)據(jù)庫(kù)103。
聲音單元數(shù)據(jù)庫(kù)20 1是一種存儲(chǔ)部，其存儲(chǔ)的聲音單元用于合成在音質(zhì)指定部105未指定任何音質(zhì)的情況下的中性音質(zhì)。音質(zhì)聲音單元數(shù)據(jù)庫(kù)202構(gòu)成為用于存儲(chǔ)能夠合成由音質(zhì)指定部105指定音質(zhì)的、具有豐富音質(zhì)變化的聲音單元，這一點(diǎn)不同于第1實(shí)施方式。
在本實(shí)施方式中，對(duì)輸入的文本的最初的聲音單元的選擇是，根據(jù)目標(biāo)聲音單元信息生成部102生成的聲音單元信息，由聲音單元選擇部104從基本聲音單元數(shù)據(jù)庫(kù)201中選擇最佳聲音單元。
由音質(zhì)變換部106把聲音單元的音質(zhì)變換成音質(zhì)指定部105所指定的音質(zhì)，由此，由失真判斷部108檢測(cè)失真，由目標(biāo)聲音單元信息修正部109修正聲音單元信息，在由聲音單元選擇部104再選擇聲音單元的情況下，從聲音單元數(shù)據(jù)庫(kù)202中再選擇最適合修正后的聲音單元信息的聲音單元系列。
若采用該結(jié)構(gòu)，則在生成由音質(zhì)指定部105指定音質(zhì)以前的中性音質(zhì)的合成音時(shí)，聲音單元選擇部104只是從僅由中性音質(zhì)的聲音單元構(gòu)成的基本聲音單元數(shù)據(jù)庫(kù)中選擇聲音單元，所以，能夠縮短聲音單元檢索所需的時(shí)間，而且能夠生成精度高的中性音質(zhì)的合成音。
以上根據(jù)實(shí)施方式來(lái)說(shuō)明了根據(jù)本發(fā)明的音質(zhì)可變聲音合成裝置，但本發(fā)明并不僅限于該實(shí)施方式。
例如，圖8所示，也可以在圖7所示的音質(zhì)可變聲音合成裝置200內(nèi)設(shè)置聲音單元保存部801，構(gòu)成音質(zhì)可變聲音合成裝置800。聲音單元保存部801用于保存由聲音單元選擇部104選擇了的聲音單元系列的識(shí)別符。根據(jù)利用目標(biāo)聲音單元信息修正部109進(jìn)行了修正的聲音單元信息，由聲音單元選擇部104從聲音單元數(shù)據(jù)庫(kù)103中進(jìn)行再選擇時(shí)，僅對(duì)由失真判斷部108判斷為聲音單元失真的范圍進(jìn)行再選擇。也就是說(shuō)，也可以是聲音單元選擇部104構(gòu)成為對(duì)于被判斷為未失真的范圍的聲音單元，使用這樣一種聲音單元，其與利用聲音單元保存部801所保存的識(shí)別符在上次聲音單元選擇時(shí)所選擇的聲音單元相同。
而且，聲音單元保存部801也可以不是保存識(shí)別符，而是保存聲音單元本身。
并且，再選擇的范圍也可以是音素、音節(jié)、詞素、單詞、文節(jié)、重音句、呼氣段落、全文中的任意一個(gè)。
產(chǎn)業(yè)上可利用性涉及本發(fā)明的音質(zhì)可變聲音合成裝置能夠用作具有在大幅度改變合成音的音質(zhì)的情況下，仍能夠不降低合成音的聲音質(zhì)量地進(jìn)行音質(zhì)變換的功能，并且生成娛樂(lè)或聲音對(duì)話系統(tǒng)的應(yīng)答聲音的聲音合成裝置等。
權(quán)利要求
1.一種聲音合成裝置，合成具有所需音質(zhì)的聲音，其特征在于具有聲音單元存儲(chǔ)機(jī)構(gòu)，用于存儲(chǔ)多個(gè)音質(zhì)的聲音單元；目標(biāo)聲音單元信息生成機(jī)構(gòu)，用于根據(jù)包含音素信息的語(yǔ)言信息，生成與該語(yǔ)言信息相對(duì)應(yīng)的聲音單元信息；聲音單元選擇機(jī)構(gòu)，用于從上述聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與上述聲音單元信息相對(duì)應(yīng)的聲音單元；音質(zhì)指定機(jī)構(gòu)，用于接受合成音的音質(zhì)的指定；音質(zhì)變換機(jī)構(gòu)，用于將上述聲音單元選擇機(jī)構(gòu)選擇出的聲音單元變換成具有上述音質(zhì)指定機(jī)構(gòu)接受的音質(zhì)的聲音單元；失真判斷機(jī)構(gòu)，用于判斷由上述音質(zhì)變換機(jī)構(gòu)變換的變換后的聲音單元的失真；以及目標(biāo)聲音單元信息修正機(jī)構(gòu)，用于在由上述失真判斷機(jī)構(gòu)判斷為變換后的聲音單元失真的情況下，將由上述目標(biāo)聲音單元信息生成機(jī)構(gòu)生成的聲音單元信息修正為與由上述音質(zhì)變換機(jī)構(gòu)變換的聲音單元相對(duì)應(yīng)的聲音單元信息，上述聲音單元選擇機(jī)構(gòu)在利用上述目標(biāo)聲音單元信息修正機(jī)構(gòu)對(duì)聲音單元信息進(jìn)行了修正的情況下，從上述聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與修正后的聲音單元信息相對(duì)應(yīng)的聲音單元。
2.如權(quán)利要求1所述的聲音合成裝置，其特征在于上述音質(zhì)變換機(jī)構(gòu)還將與上述修正后的聲音單元信息相對(duì)應(yīng)的聲音單元，變換成具有由上述音質(zhì)指定機(jī)構(gòu)接受的音質(zhì)的聲音單元。
3.如權(quán)利要求1所述的聲音合成裝置，其特征在于上述目標(biāo)聲音單元信息修正機(jī)構(gòu)還在對(duì)由上述目標(biāo)聲音單元信息生成機(jī)構(gòu)生成的聲音單元信息進(jìn)行修正時(shí)，將由上述音質(zhì)變換機(jī)構(gòu)變換后的聲音單元的聲道特征加到修正后的聲音單元信息中。
4.如權(quán)利要求3所述的聲音合成裝置，其特征在于上述聲道特征是由上述音質(zhì)變換機(jī)構(gòu)變換的聲音單元的對(duì)數(shù)倒頻譜系數(shù)或?qū)?shù)倒頻譜系數(shù)的時(shí)間圖形。
5.如權(quán)利要求3所述的聲音合成裝置，其特征在于上述聲道特征是由上述音質(zhì)變換機(jī)構(gòu)變換的聲音單元的共振峰頻率或共振峰頻率的時(shí)間圖形。
6.如權(quán)利要求1所述的聲音合成裝置，其特征在于上述失真判斷機(jī)構(gòu)根據(jù)相鄰的聲音單元之間的連接性來(lái)判斷失真。
7.如權(quán)利要求6所述的聲音合成裝置，其特征在于上述失真判斷機(jī)構(gòu)根據(jù)相鄰的聲音單元間對(duì)數(shù)倒頻譜距離、相鄰的聲音單元之間的共振峰頻率的距離、相鄰的聲音單元之間的基本頻率的差分、或者相鄰的聲音單元之間的強(qiáng)度的差分，來(lái)判斷失真。
8.如權(quán)利要求1所述的聲音合成裝置，其特征在于上述失真判斷機(jī)構(gòu)根據(jù)從上述聲音單元選擇機(jī)構(gòu)所選擇的聲音單元到由上述音質(zhì)變換機(jī)構(gòu)變換的變換后的聲音單元的變形率來(lái)判斷失真。
9.如權(quán)利要求8所述的聲音合成裝置，其特征在于上述失真判斷單元根據(jù)由上述聲音單元選擇機(jī)構(gòu)所選擇的聲音單元和上述變換后的聲音單元之間的對(duì)數(shù)倒頻譜距離、由上述聲音單元選擇機(jī)構(gòu)所選擇的聲音單元和上述變換后的聲音單元之間的共振峰頻率的距離、由上述聲音單元選擇機(jī)構(gòu)所選擇的聲音單元和上述變換后的聲音單元之間的基本頻率的差分、或者由上述聲音單元選擇機(jī)構(gòu)所選擇的聲音單元和上述變換后的聲音單元之間的強(qiáng)度的差分，來(lái)判斷失真。
10.如權(quán)利要求1所述的聲音合成裝置，其特征在于上述失真判斷機(jī)構(gòu)以音素、音節(jié)、韻素、詞素、單詞、文節(jié)、重音句、短語(yǔ)、呼氣段落以及全文中的任意一個(gè)為單位，來(lái)判斷失真。
11.如權(quán)利要求1所述的聲音合成裝置，其特征在于上述聲音單元選擇機(jī)構(gòu)在由上述目標(biāo)聲音單元信息修正機(jī)構(gòu)修正了聲音單元信息的情況下，僅對(duì)在上述失真判斷機(jī)構(gòu)中檢測(cè)出失真的范圍，從上述聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與修正后的聲音單元信息相對(duì)應(yīng)的聲音單元。
12.如權(quán)利要求11所述的聲音合成裝置，其特征在于還具有聲音單元保存機(jī)構(gòu)，用于保存由上述聲音單元選擇機(jī)構(gòu)所選擇的聲音單元的識(shí)別符，上述聲音單元選擇機(jī)構(gòu)對(duì)于在上述失真判斷機(jī)構(gòu)中未檢測(cè)出失真的范圍的聲音單元，根據(jù)上述聲音單元保存機(jī)構(gòu)所保存的上述識(shí)別符，來(lái)選擇上述聲音單元。
13.如權(quán)利要求1所述的聲音合成裝置，其特征在于上述聲音單元存儲(chǔ)機(jī)構(gòu)具有基本聲音單元存儲(chǔ)機(jī)構(gòu)，用于存儲(chǔ)標(biāo)準(zhǔn)的音質(zhì)的聲音單元；以及音質(zhì)聲音單元存儲(chǔ)機(jī)構(gòu)，用于存儲(chǔ)和上述標(biāo)準(zhǔn)音質(zhì)的聲音單元不同的多個(gè)音質(zhì)的聲音單元，上述聲音單元選擇機(jī)構(gòu)具有基本聲音單元選擇機(jī)構(gòu)，用于從上述基本聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與由上述目標(biāo)聲音單元信息生成機(jī)構(gòu)生成的聲音單元信息相對(duì)應(yīng)的聲音單元；以及音質(zhì)聲音單元選擇機(jī)構(gòu)，用于從上述音質(zhì)聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與由上述目標(biāo)聲音單元信息修正機(jī)構(gòu)修正的聲音單元信息相對(duì)應(yīng)的聲音單元。
14.一種聲音合成裝置的聲音合成方法，該聲音合成裝置具有存儲(chǔ)多個(gè)音質(zhì)的聲音單元的聲音單元存儲(chǔ)機(jī)構(gòu)，其特征在于該聲音合成方法具有以下步驟目標(biāo)聲音單元信息生成步驟，用于根據(jù)包含音素信息的語(yǔ)言信息，生成與該語(yǔ)言信息相對(duì)應(yīng)的聲音單元信息；聲音單元選擇步驟，用于從上述聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與上述聲音單元信息相對(duì)應(yīng)的聲音單元；音質(zhì)指定步驟，用于接受合成音的音質(zhì)的指定；音質(zhì)變換步驟，用于將上述聲音單元選擇步驟選擇出的聲音單元變換成具有上述音質(zhì)指定步驟接受的音質(zhì)的聲音單元；失真判斷步驟，用于判斷在上述音質(zhì)變換步驟變換的變換后的聲音單元的失真；以及目標(biāo)聲音單元信息修正步驟，用于在上述失真判斷機(jī)構(gòu)判斷為變換后的聲音單元失真的情況下，將在上述目標(biāo)聲音單元信息生成步驟生成的聲音單元信息修正為與在上述音質(zhì)變換步驟變換的聲音單元相對(duì)應(yīng)的聲音單元信息，上述聲音單元選擇步驟中，在上述目標(biāo)聲音單元信息修正步驟中對(duì)聲音單元信息進(jìn)行了修正的情況下，從上述聲音單元存儲(chǔ)機(jī)構(gòu)中選擇出與修正后的聲音單元信息相對(duì)應(yīng)的聲音單元。
15.一種程序，使計(jì)算機(jī)具有聲音合成裝置的功能，其特征在于上述計(jì)算機(jī)具有存儲(chǔ)多個(gè)音質(zhì)的聲音單元的聲音單元存儲(chǔ)機(jī)構(gòu)，上述程序使計(jì)算機(jī)具有以下機(jī)構(gòu)的功能目標(biāo)聲音單元信息生成機(jī)構(gòu)，用于根據(jù)包含音素信息的語(yǔ)言信息，生成與該語(yǔ)言信息相對(duì)應(yīng)的聲音單元信息；聲音單元選擇機(jī)構(gòu)，用于從上述聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與上述聲音單元信息相對(duì)應(yīng)的聲音單元；音質(zhì)指定機(jī)構(gòu)，用于接受合成音的音質(zhì)的指定；音質(zhì)變換機(jī)構(gòu)，用于將上述聲音單元選擇機(jī)構(gòu)選擇出的聲音單元變換成具有上述音質(zhì)指定機(jī)構(gòu)接受的音質(zhì)的聲音單元；失真判斷機(jī)構(gòu)，用于判斷由上述音質(zhì)變換機(jī)構(gòu)變換的變換后的聲音單元的失真；以及目標(biāo)聲音單元信息修正機(jī)構(gòu)，用于在由上述失真判斷機(jī)構(gòu)判斷為變換后的聲音單元失真的情況下，將由上述目標(biāo)聲音單元信息生成機(jī)構(gòu)生成的聲音單元信息修正為與由上述音質(zhì)變換機(jī)構(gòu)變換的聲音單元相對(duì)應(yīng)的聲音單元信息，上述聲音單元選擇機(jī)構(gòu)在利用上述目標(biāo)聲音單元信息修正機(jī)構(gòu)對(duì)聲音單元信息進(jìn)行了修正的情況下，從上述聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與修正后的聲音單元信息相對(duì)應(yīng)的聲音單元。
16.一種計(jì)算機(jī)可讀取的記錄媒體，記錄了由計(jì)算機(jī)執(zhí)行的程序，其特征在于上述計(jì)算機(jī)具有用于存儲(chǔ)多個(gè)音質(zhì)的聲音單元的聲音單元存儲(chǔ)機(jī)構(gòu)，上述程序使計(jì)算機(jī)具有以下機(jī)構(gòu)的功能目標(biāo)聲音單元信息生成機(jī)構(gòu)，用于根據(jù)包含音素信息的語(yǔ)言信息，生成與該語(yǔ)言信息相對(duì)應(yīng)的聲音單元信息；聲音單元選擇機(jī)構(gòu)，用于從上述聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與上述聲音單元信息相對(duì)應(yīng)的聲音單元；音質(zhì)指定機(jī)構(gòu)，用于接受合成音的音質(zhì)的指定；音質(zhì)變換機(jī)構(gòu)，用于將上述聲音單元選擇機(jī)構(gòu)選擇出的聲音單元變換成具有上述音質(zhì)指定機(jī)構(gòu)接受的音質(zhì)的聲音單元；失真判斷機(jī)構(gòu)，用于判斷由上述音質(zhì)變換機(jī)構(gòu)變換的變換后的聲音單元的失真；以及目標(biāo)聲音單元信息修正機(jī)構(gòu)，用于在由上述失真判斷機(jī)構(gòu)判斷為變換后的聲音單元失真的情況下，將由上述目標(biāo)聲音單元信息生成機(jī)構(gòu)生成的聲音單元信息修正為與由上述音質(zhì)變換機(jī)構(gòu)變換的聲音單元相對(duì)應(yīng)的聲音單元信息，上述聲音單元選擇機(jī)構(gòu)在利用上述目標(biāo)聲音單元信息修正機(jī)構(gòu)對(duì)聲音單元信息進(jìn)行了修正的情況下，從上述聲音單元存儲(chǔ)機(jī)構(gòu)中選擇與修正后的聲音單元信息相對(duì)應(yīng)的聲音單元。
全文摘要
在生成合成音時(shí)不會(huì)顯著降低聲音質(zhì)量的聲音合成裝置，具有目標(biāo)聲音單元信息生成部(102)、聲音單元數(shù)據(jù)庫(kù)(103)、聲音單元選擇部(104)、音質(zhì)指定部(105)、音質(zhì)變換部(106)、失真判斷部(108)和目標(biāo)聲音單元信息修正部(109)，由音質(zhì)變換部(106)變換后的聲音單元被失真判斷部(108)判斷為失真的情況下，目標(biāo)聲音單元信息修正部(109)將目標(biāo)聲音單元信息生成部(102)生成的聲音單元信息修正為變換后的音質(zhì)的聲音單元信息，由聲音單元選擇部(104)來(lái)再選擇聲音單元。這樣能夠生成由音質(zhì)指定部(105)指定的音質(zhì)的合成音，而不會(huì)使合成音的聲音質(zhì)量降低。
文檔編號(hào)G10L21/00GK1954361SQ200580015068
公開(kāi)日2007年4月25日申請(qǐng)日期2005年4月1日優(yōu)先權(quán)日2004年5月11日
發(fā)明者廣瀨良文申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載