聲音合成裝置的制作方法

文檔序號：2830049閱讀：251來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：聲音合成裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種聲音合成裝置，該聲音合成裝置可以生成能夠表現(xiàn)發(fā)音器官的緊張以及松馳、情感、聲音的表現(xiàn)力或說話風(fēng)格的聲音。
背景技術(shù)：
以往，在能夠表現(xiàn)情感等的聲音合成裝置或方法中提出的技術(shù)
是預(yù)先合成標(biāo)準(zhǔn)的或無表現(xiàn)力的聲音，之后選擇具有特殊矢量的聲音并連接，所述具有特殊矢量的聲音是指類似于上述合成的聲音且與帶有情感等表現(xiàn)力的聲音相似的聲音(例如，參照專利文獻(xiàn)i)。
并且，還提出了這樣的技術(shù)，即在將標(biāo)準(zhǔn)的或無表現(xiàn)力的聲音合成為帶有情感等表現(xiàn)力的聲音的情況下，預(yù)先使變換合成參數(shù)的函數(shù) 利用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)，并根據(jù)學(xué)習(xí)后的變換函數(shù)，來變換合成標(biāo)準(zhǔn)的或無表現(xiàn)力的聲音的參數(shù)串的參數(shù)(例如，參照專利文獻(xiàn)2)。
而且，還提出了這樣的技術(shù)，即對頻率特性進(jìn)行變形并變換音質(zhì)，所述頻率特性是指合成標(biāo)準(zhǔn)的或無表現(xiàn)力的聲音的參數(shù)串的頻率特性
(例如，參照專利文獻(xiàn)3)。
而且，還提出了這樣的技術(shù)，即為了控制情感的程度，而利用根據(jù)情感的程度而變化率不同的參數(shù)變換函數(shù)，來變換參數(shù)，或為了混合多個情感，而對表現(xiàn)不同的兩種合成參數(shù)串進(jìn)行插值，從而生成參
數(shù)串(例如，參照專利文獻(xiàn)4)。
除此之外，通過含有各情感表現(xiàn)的自然聲音，來統(tǒng)計學(xué)習(xí)各情感所分別對應(yīng)的根據(jù)隱藏式馬可夫模型的聲音生成模型，并建立模型間的變換公式，將標(biāo)準(zhǔn)聲音或無表現(xiàn)力的聲音變換為表現(xiàn)情感的聲音(例
如，參照非專利文獻(xiàn)l)。
圖l示出了專利文獻(xiàn)4所公開的以往的聲音合成裝置。圖1中的情感輸入接口部109將輸入的情感控制信息變換為參數(shù) 變換信息，并輸出到情感控制部108,所述參數(shù)變換信息是指圖2所示的各個情感比率所經(jīng)過的時間的變化。情感控制部108按照圖3所示的預(yù)先規(guī)定的變換規(guī)則，將參數(shù)變換信息變換為參考參數(shù)，并控制韻律控制部103以及參數(shù)控制部104的工作。韻律控制部103根據(jù)語言處理部101所生成的音韻串和語言信息，生成無情感韻律模式之后，并按照在情感控制部108生成的參考參數(shù)，將生成的無情感韻律模式變換為帶有情感的韻律模式。而且，參數(shù)控制部104利用上述的參考參數(shù)，將預(yù)先生成的譜或說話速度等無情感參數(shù)變換為情感參數(shù)，并將情感附加到合成聲音中。
專利文獻(xiàn)1日本特開2004-279436號公報(第8-10頁、圖5) 專利文獻(xiàn)2日本特開平7-72900號公報(第6-7頁、圖1) 專利文獻(xiàn)3日本特開2002-268699號公報(第9-10頁、圖9) 專利文獻(xiàn)4日本特開2003-233388號公報(第8-10頁、圖1、圖3、圖6)
非專利文獻(xiàn)l田村正統(tǒng)、益子貴史、德田惠一以及小林隆夫、 "HMM音聲合成"基^ <聲質(zhì)変換(a " 3話者適応手法O検討(在基于H腿聲音合成的音質(zhì)變換中適應(yīng)說話人的方法之研究)"音響學(xué)會講演論文集(音響學(xué)會講演論文集)，1巻，PP. 319-320， 1998
然而，在通常的構(gòu)成中是將各個情感按照圖3所示的預(yù)先規(guī)定的一定的變換規(guī)則來進(jìn)行參數(shù)變換的，并根據(jù)各個音的參數(shù)的變化率來表現(xiàn)情感的強度。為此，出現(xiàn)的課題是在自然說話中可以見到的，即使是相同的情感種類、情感強度，也不能再現(xiàn)諸如一部分是假聲，一部分是用力說話等音質(zhì)的變化；以及通過使同一個情感或表現(xiàn)力的說話中的音質(zhì)發(fā)生變化，來實現(xiàn)在表現(xiàn)情感或表現(xiàn)力的聲音中經(jīng)常見到的豐富的聲音表現(xiàn)是困難的。

發(fā)明內(nèi)容
本發(fā)明為了解決所述以往的課題，目的在于提供一種聲音合成裝置，通過使同一個情感或表現(xiàn)力的話語中的音質(zhì)發(fā)生變化，從而可以實現(xiàn)在表現(xiàn)情感或表現(xiàn)力的聲音中經(jīng)常可以見到的豐富的聲音表現(xiàn)。
本發(fā)明的某個局面所涉及的聲音合成裝置包括說話狀態(tài)獲得單
元，獲得被聲音合成的聲音波形的說話狀態(tài)；韻律生成單元，生成韻
律，該韻律是以獲得的所述說話狀態(tài)，說處經(jīng)過語言處理的文本時的
韻律；特征性音色選擇單元，根據(jù)所述說話狀態(tài)來選擇觀察到的特征性音色，且所述特征性音色是以獲得的所述說話狀態(tài)，說出所述文本時觀察到的；說話位置決定單元，根據(jù)所述文本的音韻串、所述特征性音色、以及所述韻律，以構(gòu)成所述音韻串的各個音韻為單位，判斷是否以所述特征性音色來說話，并決定音韻，該音韻位于以所述特征性音色來說話的說話位置；以及波形合成單元，根據(jù)所述音韻串、所述韻律以及所述說話位置來生成聲音波形，應(yīng)用該聲音波形以所述說話狀態(tài)說出所述文本且該文本以特征性音色被說出，所述特征性音色在所述說話位置決定單元所決定的說話位置。
根據(jù)此構(gòu)成，在帶有"憤怒"等情感表現(xiàn)的話語中，可以混入以特征性而出現(xiàn)的"用力"等特征性音色。此時，混入有特征性音色的位置，由說話位置決定單元根據(jù)特征性音色、音韻串以及韻律，并以音韻為單位來決定。為此，不是生成以特征性音色說出所有的音韻的聲音波形，而是可以在適當(dāng)?shù)奈恢蒙匣烊胩卣餍砸羯?。因此，可以?供一種聲音合成裝置，該裝置可以實現(xiàn)豐富的聲音表現(xiàn)，該豐富的聲音表現(xiàn)是通過在表現(xiàn)情感或表現(xiàn)力的聲音中經(jīng)?？梢杂龅降摹⑹雇?情感或表現(xiàn)力的說話中的音質(zhì)變換來實現(xiàn)的。
最好是所述聲音合成裝置進(jìn)一步包括頻度決定單元，根據(jù)所述特征性音色決定以所述特征性音色說話的頻度；所述說話位置決定單元根據(jù)所述文本的音韻串、所述特征性音色、所述韻律、以及所述頻度，
以構(gòu)成所述音韻串的各個音韻為單位，判斷是否以所述特征性音色來說話，并決定音韻，該音韻位于以所述特征性音色來說話的說話位置。通過所述頻度決定單元，可以以特征性音色為單位來決定以該特征性音色說話的頻度。為此，可以以適當(dāng)?shù)谋嚷蕦⑻卣餍砸羯烊氲?聲音中，從而可以實現(xiàn)即使是人聽起來也不會感到不自然的豐富的聲音表現(xiàn)。
而且，最好是所述頻度決定單元將節(jié)拍(mora)、音節(jié)、音素或聲音合成單位作為單位，來決定所述頻度。
根據(jù)此構(gòu)成，可以精確地控制生成帶有特征性音色聲音的頻度。
并且，也可以是，所述特征性音色選擇單元包括要素音色記錄部，將說話狀態(tài)與多個特征性音色對應(yīng)起來記錄；以及選擇部，從所述要素音色記錄部中選擇與所獲得的所述說話狀態(tài)相對應(yīng)的所述多個特征性音色；所述說話位置決定單元根據(jù)所述文本的音韻串、所述多個特征性音色、以及所述韻律，以構(gòu)成所述音韻串的各個音韻為單位，判斷是否以所述多個特征性音色中的某一個來說話，并決定音韻，該音韻位于以各個特征性音色來說話的說話位置。
根據(jù)此構(gòu)成，可以將以多個特征性音色進(jìn)行的說話混入到以一個說話狀態(tài)的說話中。為此，可以提供一種可以實現(xiàn)更加豐富的聲音表現(xiàn)的聲音合成裝置。
最好是，所述要素音色記錄部將說話狀態(tài)與一個組合對應(yīng)起來記錄，所述組合是多個特征性音色及以該特征性音色說出文本時的頻度的組合；所述選擇部從所述要素音色記錄部中選擇一個組合，該組合是與所獲得的所述說話狀態(tài)所對應(yīng)的所述多個特征性音色及以該特征性音色說話的頻度的組合；所述說話位置決定單元根據(jù)所述文本的音韻串、所述多個特征性音色及該所述特征性音色說話的頻度的組合、以及所述韻律，以構(gòu)成所述音韻串的各個音韻為單位，判斷是否以所述多個特征性音色中的某一個來說話，并決定音韻，該音韻位于以各個特征性音色來說話的說話位置。
根據(jù)此構(gòu)成，多種特征性音色的平衡可以得到適當(dāng)?shù)目刂?，并?以精確地控制合成的聲音表現(xiàn)。
并且，也可以是，所述說話位置決定單元包括推定公式存儲部，存儲推定公式和閾值，所述推定公式推定以特征性音色為單位生成特
征性音色的音韻；推定公式選擇部，從所述推定公式存儲部選擇所述
特征性音色選擇單元所選擇的所述特征音色所對應(yīng)的推定公式和閾
值；以及推定部，按照各個音韻將所述韻律生成單元所生成的所述音韻串以及所述韻律代入被選擇的所述推定公式，在該推定公式的值超過閾值的情況下，將該音韻推定為以所述特征性音色來說話的說話位置。具體而言，所述推定公式是利用音韻、韻律以及語言信息中至少一個來進(jìn)行統(tǒng)計學(xué)習(xí)的公式。進(jìn)而言之，所述推定公式也可以利用量
化n類來作成。
根據(jù)此構(gòu)成，可以精確地決定出以特征性音色來說話的說話位置。通過本發(fā)明的聲音合成裝置，可以按照發(fā)音器官的緊張或松馳、情感、聲音的表現(xiàn)力、或說話風(fēng)格，通過觀察到的自然聲音中每一個細(xì)節(jié)中的假聲或用力說話等特征性音色，來再現(xiàn)音質(zhì)的變化。并且，通過本發(fā)明的聲音合成裝置根據(jù)此特征性的音色的聲音發(fā)生頻度，可以控制發(fā)音器官的緊張或松馳、情感、聲音的表現(xiàn)力、或說話風(fēng)格的表現(xiàn)強度，而且，可以在聲音中的適當(dāng)?shù)臅r間位置上生成特征性音色的聲音。并且，通過本發(fā)明的聲音合成裝置，可以在一個說話聲音中均衡地生成具有多種特征性音色的聲音，從而可以控制復(fù)雜的聲音表現(xiàn)。

圖1是通常的聲音合成裝置的方框圖。
圖2是通常的聲音合成裝置中的情感的混合方法的l莫式圖。圖3是通常的聲音合成裝置中的將無情感聲音變換為情感聲音的變換函數(shù)的模式圖。圖4是本發(fā)明的實施例1中的聲音合成裝置的方框圖。
圖5是本發(fā)明的實施例1中的聲音合成裝置的一部分的方框圖。
圖6是圖5所示出的聲音合成裝置的推定公式閾值記錄部中所記
錄的信息的一示例圖。
圖7 (a) 圖7 ( d )是根據(jù)實際聲音中特征性音色的聲音的音
韻種類，示出發(fā)生頻度的圖。
圖8是對在實際聲音中所觀察到的特征性音色的聲音的發(fā)生位置
和推定出的特征性音色的聲音的時間位置進(jìn)行比較的示例圖。圖9是本發(fā)明的實施例1中的聲音合成裝置的工作流程圖。圖10是用于說明作成推定公式以及判斷閾值的方法的流程圖。圖11示出了橫軸表示"用力的難易度"，縱軸表示"聲音數(shù)據(jù)中
的節(jié)拍(mora)數(shù)的圖。
圖12是本發(fā)明的實施例1中的聲音合成裝置的方框圖。
圖13是本發(fā)明的實施例1中的聲音合成裝置的工作流程圖。
圖14是本發(fā)明的實施例1中的聲音合成裝置的方框圖。
圖15是本發(fā)明的實施例1中的聲音合成裝置的工作流程圖。
圖16是本發(fā)明的實施例1中的聲音合成裝置的方框圖。
圖17是本發(fā)明的實施例1中的聲音合成裝置的工作流程圖。
圖18是計算機構(gòu)成的示例圖。
圖19是本發(fā)明的實施例2中的聲音合成裝置的方框圖。
圖20是本發(fā)明的實施例2中的聲音合成裝置的一部分的方框圖。
圖21是表示實際聲音中的特征性音色的聲音的發(fā)生頻度和表現(xiàn)的
強度之間的關(guān)系圖。
圖22是本發(fā)明的實施例2中的聲音合成裝置的工作流程圖。
圖23是示出特征性音色的聲音的發(fā)生頻度和表現(xiàn)強度之間的關(guān)系
模式圖。
圖24是示出特征性音色音韻的發(fā)生概率和推定公式的值之間的關(guān) 系模式圖。
圖25是本發(fā)明的實施例3中的聲音合成裝置的工作流程圖。圖26是本發(fā)明的實施例3中，各個情感表現(xiàn)所對應(yīng)的一種以上的特征性音色及其出現(xiàn)頻度的信息的示例圖。
圖27是本發(fā)明實施例1中的聲音合成裝置的工作流程圖。圖28是在合成聲音時的特殊聲音的位置的示例圖。圖29是圖4所示出的聲音合成裝置的變形構(gòu)成例的方框圖。圖30是圖19所示出的聲音合成裝置的變形構(gòu)成例的方框圖。圖31是圖25所示出的聲音合成裝置的變形構(gòu)成例的方框圖。圖32是語言處理完畢后的文本的示例圖。
圖33是圖4以及圖19中所示的聲音合成裝置的變形構(gòu)成例的一部分纟勺示例圖。
圖34是圖25所示出的聲音合成裝置的變形構(gòu)成例的一部分的示例圖。
圖35是附有標(biāo)記的文本的示例圖。
圖36是圖4以及圖19所示出的聲音合成裝置的變形構(gòu)成例的一部分的示例圖。
圖37是圖25所示出的聲音合成裝置的變形構(gòu)成例的一部分的示例圖。
具體實施例方式
(實施例1 )
圖4以及圖5是本發(fā)明的實施例1所涉及的聲音合成裝置的功能方框圖。圖6是圖5所示出的聲音合成裝置的推定公式閾值記錄部中所存儲的信息的示例圖。圖7A 圖7D是按照子音對自然發(fā)音的聲音中的特征性音色出現(xiàn)頻度進(jìn)行概括表示的圖。圖8是預(yù)測特殊聲音的發(fā) 生位置的例子的模式圖。圖9是實施例l中的聲音合成裝置的工作流程圖。
如圖4所示，實施例1所涉及的聲音合成裝置包括情感輸入部202、特征性音色選擇部203、語言處理部101、韻律生成部205、特征性音色時間位置推定部604、標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫207、特殊聲音單元數(shù)據(jù)庫208、單元選擇部606、單元連接部209、以及開關(guān)210。
情感輸入部202是一處理部，接受情感控制信息的輸入，并輸出賦予在合成的聲音中的情感種類。
特征性音色選擇部203是另一處理部，按照由情感輸入部202輸出的情感種類，選擇特殊聲音的種類，并輸出音色指定信息，所述特殊聲音具有合成的聲音中應(yīng)該生成的特征性音色。語言處理部101是另一處理部，獲得輸入文本并生成音韻串以及語言信息。韻律生成部 205是另一處理部，從情感輸入部202獲得情感種類信息，而且，從語言處理部101獲得音韻串以及語言信息，并生成韻律信息。在此，本說明書中所定義的韻律信息包括重音信息、重音句的劃分信息、基本頻率、強度、以及音韻和無音區(qū)間的時間長度。
特征性音色時間位置推定部604是處理部，獲得音色指定信息、音韻串、語言信息以及韻律信息，并決定音韻，該音韻是在合成聲音中生成特征性音色即生成特殊聲音的音韻。對于特征性音色時間位置推定部604的具體構(gòu)成待后述。
標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫207是一存儲裝置，是存儲聲音單元的硬盤等，在標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫207所存儲的聲音單元是用于生成非特征性音色的標(biāo)準(zhǔn)的聲音的聲音單元。特殊聲音單元數(shù)據(jù)庫208a、 208b、 208c是另一存儲裝置，是按照各個音色的種類來存儲聲音單元的硬盤等，在以上特殊聲音單元數(shù)據(jù)庫所存儲的聲音單元是用于生成特征性音色的聲音的聲音單元。單元選擇部606是另一處理部，針對生成指定的特殊聲音的音韻，對開關(guān)210進(jìn)行切換，從符合的特殊聲音單元數(shù)據(jù)庫208中選擇聲音單元，對于生成指定的特殊聲音的音韻以外的音韻，則從標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫207選擇聲音單元。
單元連接部209是另一處理部，連接單元選擇部606所選擇的聲音單元，并生成聲音波形。開關(guān)210是開關(guān)，在單元選擇部606從標(biāo)
準(zhǔn)聲音單元數(shù)據(jù)庫207或特殊聲音單元數(shù)據(jù)庫208的某一個中選擇聲音單元時，所述開關(guān)按照指定的聲音單元的種類，對連接的數(shù)據(jù)庫進(jìn) 行切換。
如圖5所示，特征性音色時間位置推定部604包括推定公式閾值記錄部620、推定公式選擇部621以及特征性音色音韻推定部622。
如圖6所示，推定公式閾值記錄部620按照特征性音色的種類，存儲推定公式和閾值，所述推定公式對生成特殊聲音的音韻進(jìn)行推定。推定公式選擇部621是另一處理部，按照以音色指定信息所指定的音色的種類，從推定公式閾值記錄部620中選擇推定公式和閾值。特征性音色音韻推定部622也是處理部，獲得音韻串以及韻律信息，并根據(jù)推定公式和閾值來決定是否以特殊聲音生成各個音韻。
在根據(jù)實施例1的構(gòu)成對聲音合成裝置的工作進(jìn)行說明之前，先對特征性音色時間位置推定部604推定特殊聲音的合成聲音中的時間位置的背景進(jìn)行說明。到目前為止受到關(guān)注的是，對于帶有情感或表現(xiàn)力的聲音的表現(xiàn)，尤其是對于音質(zhì)的變化，使話語從開始到結(jié)束產(chǎn) 生相同的變化，并開始了實現(xiàn)這一目標(biāo)的技術(shù)開發(fā)。然而，可以了解到的是，對于帶有情感或表現(xiàn)力的聲音，即使在一定的說話風(fēng)格中也會有各種各樣音質(zhì)的聲音混入，因此，要通過對聲音的情感或表現(xiàn)力賦予特征來形成聲音的印象(例如，日本音響學(xué)會會刊51巻11號 (1995)， pp869 — 875，粕谷英樹，楊長盛著"音源力、^見&聲質(zhì)(從音源的角度來看音質(zhì))")。而且，在本說明書中，將一種聲音的表現(xiàn)稱為"說話狀態(tài)"，這種聲音的表現(xiàn)是指在將說話人的狀況或意圖等傳達(dá) 給聽話人時，以超出語言意思以上或與語言意思不同的意思來傳達(dá)。說話狀態(tài)由一種信息來決定，這種信息所包括的概念是發(fā)音器官的緊張以及松馳等解剖學(xué)上的或生理上的狀況、情感或情緒等心理狀態(tài)、表現(xiàn)力等反應(yīng)心理狀態(tài)的現(xiàn)象、說話風(fēng)格或說話方式等說話人的態(tài)度或行動樣式等。按照后述的實施例，作為決定說話狀態(tài)的信息例如有像"憤怒"、"歡快"、"悲傷"、"憤怒、3 "這樣的情感的種類及情感
的強度等。
在此，在本發(fā)明中首先根據(jù)同一個文本對說出的50個句子進(jìn)行了無表現(xiàn)力的聲音調(diào)査以及帶有情感的聲音調(diào)査。圖7A是針對說話人1 并以節(jié)拍(mora)內(nèi)的子音為單位，示出以帶有"強烈的憤怒"的情感表現(xiàn)的聲音中的"用力"音(或所述文獻(xiàn)中表現(xiàn)為"粗糙的聲音(harsh voice :刺耳的聲音)")來發(fā)音的節(jié)拍的頻度的圖表，圖7B是針對說話人2并以節(jié)拍內(nèi)的子音為單位，示出以帶有"強烈的憤怒"的情感表現(xiàn)的聲音中的"用力"音來發(fā)音的節(jié)拍的頻度的圖表。圖7C以及圖 7D是針對分別與圖7A及圖7B相同的說話人，并以節(jié)拍內(nèi)的子音為單位，示出以帶有"中等程度憤怒"的情感表現(xiàn)的聲音中的"用力"音的節(jié)拍的頻度的圖表。并且，所謂"節(jié)拍"是指，日語的聲音中韻律的基本單位，其可以由單一的短元音、子音和短元音、子音和半元音和短元音構(gòu)成，也可以僅由節(jié)拍音素構(gòu)成。特殊聲音的發(fā)生頻度因子音的種類而發(fā)生變化，例如在"t "、 " k "、 " d "、 "m"、 " n "或無子音的情況下發(fā)生頻度高，在"P "、 " c h "、 " t s "、 " f "等情況下發(fā)生頻度低。
對圖7A以及圖7B所示出的兩名發(fā)話人的圖表進(jìn)行比較，則可以知道與上述的根據(jù)子音的種類特殊聲音的發(fā)生頻度具有相同的規(guī)律。反過來，若要將更自然的情感或表現(xiàn)力賦予到合成聲音中，則需要在說話中的更確切的部分生成具有特征性音色的聲音。并且，由于說話人具有共同的變化規(guī)律，因此對于合成的聲音的音韻串，特殊聲音的發(fā)生位置可以通過音韻的種類等信息來推定。
圖8示出了根據(jù)推定公式，對例1 " i; ^ ，； i:'力、力> >9法十 (大約要花十分鐘)"和例2 " t ,二 t >9主L t (變暖和了 )"，以"用力"的聲音來發(fā)音的節(jié)拍進(jìn)行推定的結(jié)果，所述推定公式是根據(jù)與圖 7A 圖7D相同的數(shù)據(jù)，利用統(tǒng)計學(xué)習(xí)法的一種，即量化II類作成的。對于在自然的說話聲音中發(fā)出特殊聲音的節(jié)拍，以及根據(jù)推定公式閾值記錄部中所記錄的推定公式F1的特殊聲音的發(fā)生所預(yù)測的節(jié)拍，分
別在假名下劃線表示。
圖8所示的預(yù)測特殊聲音的發(fā)生的節(jié)拍是根據(jù)所述的量化II類的推定公式F1而確定的。推定公式F1是根據(jù)量化II類而作成的，具體是對于結(jié)果學(xué)習(xí)所用的數(shù)據(jù)的各節(jié)拍，使不同的信息作為獨立的變數(shù) 來表現(xiàn)，并將"用力"的聲音是否發(fā)生了的二值作為從屬變數(shù)來表現(xiàn)，其中，不同的信息是指示出節(jié)拍中所包含的子音的種類以及元音的種類或如音韻范疇這樣的音韻種類的信息，以及示出重音句內(nèi)節(jié)拍位置的信息。并且，圖8所示的特殊聲音的發(fā)生所預(yù)測的節(jié)拍是為了使學(xué)習(xí)用的數(shù)據(jù)的特殊聲音的發(fā)生位置的正確率約成為75%，而決定閾值時的推定結(jié)果。圖8示出了根據(jù)與音韻的種類或重音相關(guān)的信息可以高精度地推定特殊聲音的發(fā)生位置。
以下利用圖9對以上所描述的聲音合成裝置的工作進(jìn)行說明。
首先，情感控制信息被輸入到情感輸入部202，并抽出情感種類 (S2001 (步驟2001))。情感控制信息是通過界面由用戶選擇輸入的，所述界面提示出幾種情感的種類，例如"憤怒"、"歡快"、"悲傷"等。在此，以在S2001輸入"憤怒"為例。
特征性音色選擇部203根據(jù)輸入的情感種類"憤怒"，選擇"憤怒" 的聲音中的特征性表現(xiàn)的音色，例如選擇"用力"(S2002)。
其次，推定公式選擇部621獲得音色指定信息，參考推定公式閾值記錄部620，根據(jù)按照指定的音色而設(shè)定的推定公式和判斷閾值，來獲得推定公式Fl和判斷閾值TH1，所述推定公式Fl和判斷閾值TH1 與從特征性音色選擇部203獲得的音色指定信息相對應(yīng)，即與"憤怒" 中的特征性表現(xiàn)"用力"的音色相對應(yīng)。
圖10是用于說明作成推定公式以及判斷閾值的方法的流程圖。在此，對選擇了 "用力"這一特征性音色的情況進(jìn)行說明。
首先，對用于學(xué)習(xí)的聲音數(shù)據(jù)中的各節(jié)拍設(shè)定推定公式的獨立變數(shù)，即設(shè)定子音的種類、元音的種類、以及重音句中的正順位置(S2)。并且，對所述各節(jié)拍設(shè)定推定公式的從屬變數(shù)，即設(shè)定以二值表示是
否以特征性音色(用力)發(fā)音了的變數(shù)(S4)。其次，按照量化II類算出各獨立變數(shù)的范疇加權(quán)，即算出各個子音種類的加權(quán)、各個元音種類的加權(quán)、以及各個重音句中的正順位置的加權(quán)(S6)。并且，通過將各獨立變數(shù)的范疇加權(quán)適用于聲音數(shù)據(jù)中的各節(jié)拍的屬性條件，從而算出以特征性音色(用力)發(fā)音的"用力難易度"(S8)。
圖11的圖表中，橫軸表示"用力難易度"，縱軸表示"聲音數(shù)據(jù) 中的節(jié)拍數(shù)"，"用力難易度"以從"一 5 "到"5 "的數(shù)值來表示，數(shù)值越小發(fā)音時就越容易用力。帶有陰影的條形圖表示在實際發(fā)音時以特征性音色發(fā)音(用力)的節(jié)拍的頻度，不帶陰影的條形圖表示在實際發(fā)音時沒有以特征性音色發(fā)音(沒有用力)的節(jié)拍的頻度。
在此圖表中，對在實際中以特征性音色(用力)發(fā)音的節(jié)拍群，和沒有以特征性音色(用力)發(fā)音的節(jié)拍群的"用力難易度"的值進(jìn) 行比較，為了使以特征性音色(用力)發(fā)音的節(jié)拍群和沒有以特征性音色(用力)發(fā)音的節(jié)拍群這兩群的正確率均超過75%，而根據(jù)"用力難易"來設(shè)定用于判斷以特征性音色(用力)發(fā)音的閾值(SIO)。
如上所述，可以求出在"憤怒"中的特征性表現(xiàn)"用力"的音色所對應(yīng)的推定公式Fl和判斷閾值TH1。
并且，對于"歡快"或"悲傷"等情感所對應(yīng)的特殊聲音，也是按照特殊聲音來設(shè)定推定公式和閾值的。
另一方面，語言處理部101對輸入的文本進(jìn)行詞素分析以及結(jié)構(gòu) 分析，并輸出音韻串和語言信息(S2005)，所述語言信息是指重音位置、詞素的詞性、句節(jié)間的聯(lián)系以及句節(jié)間的距離等。
韻律生成部205除獲得音韻串和語言信息以外，還獲得情感種類信息，即指定情感種類"憤怒"的信息，并生成傳達(dá)語言意思且符合指定的情感種類"憤怒"的韻律信息(S2006)。
特征性音色音韻推定部622獲得在S2005生成的音韻串和在S2006 生成的韻律信息，并將在S6003選擇的推定公式適用于音韻串中的各音韻來求值，并與在S6003選擇的閾值進(jìn)行比較。特征性音色音韻推
定部622在推定公式的值超過閾值的情況下，將該音韻決定為以特殊聲音來發(fā)音(S6004)。即，特征性音色音韻推定部622將該音韻的子音、元音、以及重音區(qū)內(nèi)的位置適用于根據(jù)量化II類的推定公式，并求出推定公式的值，所述推定公式推定"憤怒"所對應(yīng)的特殊聲音"用力"的發(fā)生。特征性音色音韻推定部622在求出的值超過閾值的情況下，判斷該音韻應(yīng)該以"用力"的特殊聲音來生成合成音。
單元選擇部606從韻律生成部205獲得音韻串和韻律信息。并且，單元選擇部606獲得以特殊聲音生成合成音的音韻的信息，在適用于合成的音韻串后，將音韻串變換為單元單位，并決定使用特殊聲音單元的單元單位(S6007)，所述特殊聲音是在S6004由特征性音色音韻推定部622決定的。
而且，單元選擇部606按照使用在S6007決定的特殊聲音單元的單元位置和不使用的單元位置，通過開關(guān)210的切換，從而與標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫207和特殊聲音單元數(shù)據(jù)庫208的某一方相連接，選擇合成時所必要的聲音單元(S2008),所述特殊聲音單元數(shù)據(jù)庫208存儲被指定了種類的特殊聲音單元。
在此例中，開關(guān)210對標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫207和特殊聲音單元數(shù)據(jù)庫208中的"用力"的單元數(shù)據(jù)庫進(jìn)行切換。
單元連接部209根據(jù)波形重疊方式，按照獲得的韻律信息將在 S2008選擇的單元進(jìn)行變形并連接(S2009),輸出聲音波形(S2010)。而且，單元的連接雖然是在S2008根據(jù)波形重疊方式進(jìn)行的，但也可以采用其它的方法。
根據(jù)所涉及的構(gòu)成，聲音合成裝置包括情感輸入部202，以接受情感種類的輸入；特征性音色選擇部203，以選擇情感種類所對應(yīng)的特征性音色的種類；特征性音色時間位置推定部604,其包括推定公式閾值記錄部620、推定公式選擇部621以及特征性音色音韻推定部622，且該特征性音色時間位置推定部604決定音韻，該音韻是在合成的聲音中以具有特征性音色的特殊聲音應(yīng)該生成的音韻；以及特殊聲音單
元數(shù)據(jù)庫208，其與標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫207不同，按照各個音色存儲帶有情感的聲音中的特殊聲音的單元。據(jù)此，本實施例所涉及的聲音合成裝置可以按照輸入的情感的種類，根據(jù)音韻串、韻律信息或語言信息等，以節(jié)拍、音節(jié)或音素等音韻的單位，對時間位置進(jìn)行推定，從而生成再現(xiàn)說話中所表現(xiàn)的豐富的音質(zhì)變化的合成聲音，所述時間位置是應(yīng)該生成帶有情感的說話聲音的一部分中所出現(xiàn)的特征性音色的聲音的時間位置，所述說話中所表現(xiàn)的豐富的音質(zhì)變化是由情感、表現(xiàn)力、說話風(fēng)格或人際關(guān)系等所表現(xiàn)出來的。
而且，本實施例所涉及的聲音合成裝置不是對韻律或音質(zhì)進(jìn)行變化，而是可以以精確的音韻位置正確地模擬人們在說話中自然的且普遍進(jìn)行的行動(即，由特征性的音質(zhì)的發(fā)音所表現(xiàn)的情感或表現(xiàn)力等)。因此，可以提供一種表現(xiàn)能力高的合成聲音裝置，其可以在沒有不協(xié) 調(diào)感的情況下直觀地捕捉情感或表現(xiàn)力的種類。 (變形例1 )
而且，在本實施例中設(shè)置了單元選擇部606、標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫 207、特殊聲音單元數(shù)據(jù)庫208、單元連接部209，并示出了根據(jù)波形重疊法以聲音合成方式的實現(xiàn)方法，并且還可以如圖12所示，在聲音合成裝置中設(shè)置選擇參數(shù)單元的單元選擇部706、標(biāo)準(zhǔn)聲音參數(shù)單元數(shù) 據(jù)庫307、特殊聲音變換規(guī)則存儲部308、參數(shù)變形部309、以及波形生成部310。
標(biāo)準(zhǔn)聲音參數(shù)單元數(shù)據(jù)庫307是一存儲裝置，存儲以參數(shù)描述的聲音單元。特殊聲音變換規(guī)則存儲部308是另一存儲裝置，其存儲特殊聲音變換規(guī)則，該特殊聲音變換規(guī)則用于從標(biāo)準(zhǔn)聲音參數(shù)中生成特征性音色的聲音的參數(shù)。參數(shù)變形部309是一處理部，其按照特殊聲音變換規(guī)則，將標(biāo)準(zhǔn)聲音的參數(shù)變形，并生成所希望的韻律的聲音的參數(shù)串(合成參數(shù)串)。波形生成部310是另一處理部，由合成參數(shù)串生成聲音波形。
圖13是圖12中所示出的聲音合成裝置的工作流程圖。對于與圖9
中所示的處理相同的處理，在此省略說明。
在本實施例的圖9所示的S6004中，特征性音色音韻推定部622 在合成的聲音中決定生成特殊聲音的音韻，而在圖13中示出了以節(jié)拍來指定音韻的情況。
特征音色音韻推定部622決定生成特殊聲音的節(jié)拍(S6004)。單元選擇部706將音韻串變換為單元單位串，根據(jù)單元種類和語言信息以及韻律信息，從標(biāo)準(zhǔn)聲音參數(shù)單元數(shù)據(jù)庫307選擇參數(shù)單元(S3007)。參數(shù)變形部309將在S3007的單元選擇部706所選擇的參數(shù)單元串變換為節(jié)拍單位，并按照在S6004生成特征性音色音韻推定部622所決定的合成聲音中的特殊聲音的節(jié)拍位置，來確定應(yīng)該變換為特殊聲音的參數(shù)串(S7008)。
而且，參數(shù)變形部309根據(jù)將標(biāo)準(zhǔn)聲音變換為特殊聲音的變換規(guī) 則，獲得在S2002所選擇的特殊聲音所對應(yīng)的變換規(guī)則(S3009)，所述將標(biāo)準(zhǔn)聲音變換為特殊聲音的變換規(guī)則是按照特殊聲音的種類被存儲在特殊聲音變換規(guī)則存儲部308中的。參數(shù)變形部309按照變換規(guī) 則對在S7008確定的參數(shù)串進(jìn)行變換(S3010)，并與韻律信息一起變形(S3011)。
波形生成部310從參數(shù)變形部309獲得被輸出的變形后的參數(shù)串，生成聲音波形并輸出(S3021)。 (變形例2 )
而且，在本實施例中設(shè)置了單元選擇部606、標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫 207、特殊聲音單元數(shù)據(jù)庫208、單元連接部209，并示出了根據(jù)波形重疊法以聲音合成方式的實現(xiàn)方法，并且還可以如圖14所示，在聲音合成裝置中設(shè)置生成標(biāo)準(zhǔn)聲音的參數(shù)串的合成參數(shù)生成部406、特殊聲音變換規(guī)則存儲部308、參數(shù)變形部309以及波形生成部310，所述參數(shù)變形部309按照變換規(guī)則根據(jù)標(biāo)準(zhǔn)聲音參數(shù)生成特殊聲音，并實現(xiàn) 所希望的韻律的聲音。
圖15是圖14所示的聲音合成裝置的工作流程圖。對于與圖9所
示的處理相同的處理，省略其說明。
本聲音合成裝置與圖9所示的本實施例所涉及的聲音合成裝置的不同之處是，S6004以后的處理不同。g卩，S6004的處理以后，合成參數(shù)生成部406根據(jù)音韻串以及語言信息和韻律信息，按照例如利用隱藏式馬可夫模型(HMM)的統(tǒng)計學(xué)習(xí)而預(yù)先決定的規(guī)則，來生成標(biāo)準(zhǔn)聲音的合成參數(shù)串(S4007),所述音韻串以及語言信息是在S2005由語言處理部101生成的，所述韻律信息是在S2006由韻律生成部205生成的。
參數(shù)變形部309根據(jù)將標(biāo)準(zhǔn)聲音變換為特殊聲音的變換規(guī)則，獲得在S2002所選擇的特殊聲音所對應(yīng)的變換規(guī)則(S3009)，所述將標(biāo) 準(zhǔn)聲音變換為特殊聲音的變換規(guī)則是按照特殊聲音的種類被存儲在特殊聲音變換規(guī)則存儲部308中的。參數(shù)變形部309按照變換規(guī)則，對相當(dāng)于變形為特殊聲音的音韻的參數(shù)串進(jìn)行變換，并將該音韻的參數(shù) 變換為特殊聲音的參數(shù)(S3010)。波形生成部310從參數(shù)變形部309獲得被輸出的變形后的參數(shù)串，生成聲音波形并輸出(S3021)。 (變形例3)
而且，在本實施例中設(shè)置了單元選擇部206、標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫 207、特殊聲音單元數(shù)據(jù)庫208、單元連接部209，并示出了根據(jù)波形重疊法以聲音合成方式的實現(xiàn)方法，并且還可以如圖16所示，在聲音合成裝置中設(shè)置標(biāo)準(zhǔn)聲音參數(shù)生成部507，以生成標(biāo)準(zhǔn)聲音的參數(shù)串；特殊聲音參數(shù)生成部508 (特殊聲音參數(shù)生成部508a、 508b、 508c) 中的至少一個，以生成特征性音色的聲音的參數(shù)串；開關(guān)509，對標(biāo)準(zhǔn) 聲音參數(shù)生成部507和特殊聲音參數(shù)生成部508進(jìn)行切換；以及波形生成部310，根據(jù)合成參數(shù)串生成聲音波形。
圖17是圖16所示的聲音合成裝置的工作流程圖。對于與圖9所示的處理相同的處理，省略其說明。
在S2006的處理之后，根據(jù)音韻信息和音色指定，特征性音色音韻特定部622按照音韻操作開關(guān)809，對生成合成參數(shù)的參數(shù)生成部進(jìn)
行切換，從而使韻律生成部205與標(biāo)準(zhǔn)聲音參數(shù)生成部507以及與音色指定相對應(yīng)的生成特殊聲音的特殊聲音參數(shù)生成部508中的某一個相連接，所述音韻信息是生成在S6004生成的特殊聲音的音韻信息，所述音色指定是在S2002被生成的。并且，特征性音色音韻推定部622 與生成在S6004生成的特殊聲音的音韻信息相對應(yīng)，生成合成參數(shù)串 (S8008)，該合成參數(shù)串中分配有標(biāo)準(zhǔn)聲音和特殊聲音的參數(shù)。
波形生成部310根據(jù)參數(shù)串生成并輸出聲音波形(S3021)。
而且，在本實施例中是將情感強度固定，并利用按照各個情感種類而存儲的推定公式和閾值，來推定生成特殊聲音的音韻位置的，不過，也可以是將多個情感強度分為階段，按照情感種類和情感強度的階段存儲推定公式和閾值，并利用情感種類和情感強度的推定公式和閾值，來推定生成特殊聲音的音韻位置。
而且，若將本實施例1中的聲音合成裝置在LSI(大規(guī)模集成電路) 中實現(xiàn)，則可以將特征性音色選擇部203、特征性音色時間位置推定部 604、語言處理部101、韻律生成部205、單元選擇部605以及單元連接部209全部以一個LSI來實現(xiàn)。并且，各個處理部也可以以一個LSI 來實現(xiàn)。而且，各個處理部也可以以多個LSI來實現(xiàn)。標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫207以及特殊聲音單元數(shù)據(jù)庫208a、208b、208c也可以通過LSI 外部的存儲裝置來實現(xiàn)，也可以通過LSI內(nèi)部所具備的存儲器來實現(xiàn)。在以LSI外部的存儲裝置來實現(xiàn)該數(shù)據(jù)庫的情況下，可以通過因特網(wǎng) 來獲得數(shù)據(jù)庫的數(shù)據(jù)。
在此，雖然稱作LSI,但根據(jù)集成度的不同，也可以稱作IC (集成電路)、系統(tǒng)LSI、超級LSI、極超級LSI。
并且，集成電路化的方法也不僅限于LSI，也可以通過專用電路或通用處理器來實現(xiàn)。LSI制造后，也可以利用能夠程序化的現(xiàn)場可編程門陣列(FPGA : Field Programmable Gate Array),或利用可再構(gòu)成 LSI內(nèi)部的電路單元的接續(xù)或設(shè)定的可重裝處理器。
而且，若隨著半導(dǎo)體技術(shù)的進(jìn)步或派生的其它技術(shù)而出現(xiàn)可以替
換LSI等集成電路的技術(shù)的情況下，當(dāng)然也可以利用這些新出現(xiàn)的技術(shù)使功能塊集成化。也會有適應(yīng)生物技術(shù)的可能性。
而且，也可以以計算機來實現(xiàn)本實施例l中的聲音合成裝置。圖
18是計算機構(gòu)成的一示例圖。計算機1200包括輸入部1202、存儲器1204、 CPU1206、記錄部1208、以及輸出部1210。輸入部1202是接受由外部輸入的數(shù)據(jù)的處理部，包括鍵盤、鼠標(biāo)、聲音輸入裝置、以及通信I/F (接口)部等。存儲器1204是臨時保存程序或數(shù)據(jù)的存儲裝置。CPU1206是執(zhí)行程序的處理部。記錄部1208是記錄程序或數(shù)據(jù) 的裝置，由硬盤等構(gòu)成。輸出部1210是向外部輸出數(shù)據(jù)的處理部，包括監(jiān)視器或揚聲器等。
在以計算機來實現(xiàn)聲音合成裝置的情況下，特征性音色選擇部 203、特征性音色時間位置推定部604、語言處理部101、韻律生成部 205、單元選擇部605、以及單元連接部209，與CPU1206上執(zhí)行的程序相對應(yīng)，標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫207以及特殊聲音單元數(shù)據(jù)庫208a、 208b、 208c被記錄在記錄部1208。并且，在CPU1206計算的結(jié)果暫時被記錄到存儲器1204或記錄部1208。存儲器1204以及記錄部1208 也可以利用于與特征性音色選擇部203等各處理部進(jìn)行的數(shù)據(jù)傳遞上。并且，用于使計算機執(zhí)行本實施例所涉及的聲音合成裝置的程序也可以被記錄到軟盤(注冊商標(biāo))、CD—ROM、 DVD—ROM、不發(fā)揮性存儲器等中，也可以通過因特網(wǎng)被讀入到計算機1200的CPU1206中。
在此所公開的實施例中的所有的內(nèi)容僅為示例，而不受這些內(nèi)容限制。本發(fā)明的范圍不是以上所說明的內(nèi)容，而是權(quán)利要求中所示出的范圍，且意味著包括與權(quán)利要求的范圍均等之意以及包括范圍內(nèi)所有的變更。
(實施例2)
圖19以及圖20是本發(fā)明實施例2的聲音合成裝置的功能方框圖。對于圖19中與圖4及圖5相同的構(gòu)成要素賦予相同的符號，省略詳細(xì) 說明。
如圖19所示，實施例2所涉及的聲音合成裝置包括情感輸入部
202、特征性音色選擇部203、語言處理部IOI、韻律生成部205、特征性音色音韻頻度決定部204、特征性音色時間位置推定部804、單元選擇部606、以及單元連接部209。
情感輸入部202是輸出情感種類的處理部。特征性音色選擇部203 是輸出音色指定信息的處理部。語言處理部101是輸出音韻串和語言信息的處理部。韻律生成部205是生成韻律信息的處理部。
特征性音色音韻頻度決定部204是一處理部，獲得音色指定信息、音韻串、語言信息以及韻律信息，并決定生成特殊聲音的頻度，該特殊聲音是合成的聲音中的特征性音色。特征性音色時間位置推定部804 是另一處理部，其按照特征性音色音韻頻度決定部204所生成的頻度，來決定音韻，該音韻是生成合成的聲音中的特殊聲音的音韻。單元選擇部606是另一處理部，對于生成被指定的特殊聲音的音韻，可以通過切換開關(guān)從而從符合的特殊聲音單元數(shù)據(jù)庫208選擇聲音單元，對于除此之外的音韻，可以從標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫207選擇聲音單元。單元接續(xù)部209是另一處理部，以連接單元并生成聲音波形。
換而言之，特征性音色音韻頻度決定部204是這樣的處理部，即按照從情感輸入部202輸出的情感的強度，決定在合成的聲音中以怎樣的頻度來使用特征性音色選擇部203所選擇的特殊聲音。如圖20所示，特征性音色音韻頻度決定部204包括情感強度頻度變換規(guī)則記錄部220和情感強度特征性音色頻度變換部221。
情感強度頻度變換規(guī)則記錄部220是一記錄裝置，其記錄規(guī)則，該規(guī)則是指按照賦予在合成聲音的情感或表現(xiàn)力，將預(yù)先設(shè)定的情感強度變換為特殊聲音的生成頻度。情感強度特征性音色頻度變換部221 是一處理部，將與賦予在合成聲音的情感或表現(xiàn)力相對應(yīng)的情感強度頻度變換規(guī)則由情感強度頻度變換規(guī)則記錄部220來選擇，并將情感強度變換為特殊聲音的生成頻度。
特征性音色時間位置推定部804包括推定公式記錄部820、推定
公式選擇部821、概率分布保持部822、判斷閾值決定部823以及特征性音色音韻推定部622。
推定公式記錄部820是另一記錄裝置，按照特征性音色的種類記錄推定公式，該推定公式推定生成特殊聲音的音韻。推定公式選擇部 821是另一處理部，獲得音色指定信息，根據(jù)推定公式閾值記錄部620 按照音色的種類，來選擇推定公式。概率分布保持部822是另一記錄裝置，按照特征性音色的種類記錄概率分布，即記錄特殊聲音的發(fā)生概率和推定公式的值之間的關(guān)系。判斷閾值決定部823是另一處理部，獲得推定公式，并參考概率分布保持部822中所存儲的生成的特殊聲音所對應(yīng)的特殊聲音的概率分布，來決定對于推定公式的值的閾值，且該閾值用于判斷是否生成特殊聲音。特征性音色音韻推定部622是另一處理部，獲得音韻串以及韻律信息，并根據(jù)推定公式和閾值來決定是否以特殊聲音生成各個音韻。
在說明根據(jù)實施例2所構(gòu)成的聲音合成裝置的工作之前，下面，先對特征性音色音韻頻度決定部204按照情感的強度決定特殊聲音的合成音中的發(fā)生頻度的背景進(jìn)行說明。到目前為止，對于帶有情感或表現(xiàn)力的聲音的表現(xiàn)，尤其是對于音質(zhì)的變化，使說話從開始到結(jié)束產(chǎn)生相同的變化受到關(guān)注，并開始了為實現(xiàn)這一目標(biāo)的技術(shù)開發(fā)。然而，可以知道的是，對于帶有情感或表現(xiàn)力的聲音，即使在規(guī)定的說話風(fēng)格中也會有各種各樣的音質(zhì)的聲音混入，因此，要通過對聲音的情感或表現(xiàn)力賦予特征來形成聲音的印象(例如，日本音響學(xué)會會刊 51巻11號(1995)， pp869—875，粕谷英樹，楊長盛著"音源力、6見 ^聲質(zhì)(從音源的角度來看音質(zhì))")。
在此，在本發(fā)明中首先根據(jù)同一個文本對說出的50個句子進(jìn)行了無表現(xiàn)力的聲音調(diào)查、帶有中等程度的情感的聲音調(diào)查、以及帶有強烈情感的聲音調(diào)查。圖21示出了兩名說話人在帶有"憤怒"的情感表達(dá)的聲音中的"用力"的聲音的發(fā)生頻度，即接近于上述文獻(xiàn)中所描述的"粗糙的聲音(harsh voice)"的聲音的發(fā)生頻率。從整體上來看
說話人l的"用力"的聲音或被稱作"粗糙的聲音(harsh voice)"的聲音的發(fā)生頻度均較高，而說話人2的發(fā)生頻度較低。像這樣，盡管因說話人的不同而發(fā)生頻度也不同，但共同之處是，隨著情感的強度的增強，"用力"的聲音的頻度也會增加。因此，可以說在帶有情感或表現(xiàn)力的聲音中，帶有說話中所出現(xiàn)的特征性音色的聲音的頻度是與說話中的情感或表現(xiàn)力的強烈有關(guān)的。
而且，圖7A是按照節(jié)拍內(nèi)的子音，示出了說話人l在以"用力" 的聲音來發(fā)音時的節(jié)拍的頻度的圖表，所述"用力"的聲音是帶有"強烈的憤怒"的情感表現(xiàn)的聲音中的聲音。圖7B是按照節(jié)拍內(nèi)的子音，示出了說話人2在以"用力"的聲音來發(fā)音時的節(jié)拍的頻度的圖表，所述"用力"的聲音是帶有"強烈的憤怒"的情感表現(xiàn)的聲音中的聲音。同樣，圖7C是示出說話人1在以帶有"中等程度的憤怒"的情感表現(xiàn)的聲音中的"用力"的聲音的頻度的圖表。圖7D是示出說話人2 在以帶有"中等程度的憤怒"的情感表現(xiàn)的聲音中的"用力"的聲音的頻度的圖表。
如實施例1中的說明，對于圖7A和圖7B所示出的圖表中的"用力"的聲音，說話人l和說話人2之間的共同之處是，在子音"t "、 "k "、 " d "、 "m"、 " n "或無子音的情況下，發(fā)生頻度高，在子音 "p "、 " c h "、 " t s "、 " f "等情況下，則發(fā)生頻度低。不僅如此，在對圖7A以及圖7C所示的圖表之間進(jìn)行比較，以及對圖7B以及圖7D 所示的圖表之間進(jìn)行比較的情況下，可以明確同樣的傾向，即在帶有"強烈的憤怒"的情感表現(xiàn)的聲音和帶有"中等程度的憤怒"的情感表現(xiàn)的聲音中，在子音"t "、 " k "、 " d "、 "m"、 " n "或無子音的情況下，發(fā)生頻度高，在子音"P "、 " c h "、 " t s "、 " f "等情況下，則發(fā)生頻度低，像這樣根據(jù)子音的種類而特殊聲音的發(fā)生頻度不同，且因情感的強度而發(fā)生頻度也發(fā)生變化。而且，即使情感的強度不同發(fā)生頻度的變化傾向也會相同，但是對于特殊聲音的全體的發(fā) 生頻度而言，則因情感強度的不同而不同，就這一點而言，說話人l
和說話人2是共同的。反過來，控制情感或表現(xiàn)力的強度，而以更加自然的表現(xiàn)賦予到合成聲音中，則需要在說話中的更適當(dāng)?shù)牟糠稚?具有特征性音色的聲音，不僅如此，而且還需要以適當(dāng)?shù)念l度來生成具有這種特征性音色的聲音。
特征性音色的發(fā)生規(guī)律在說話人中具有相同的傾向，通過這一點，對于合成的聲音的音韻串，特殊聲音的發(fā)生位置可以根據(jù)音韻的種類等信息來推定，這在實施例l中已經(jīng)說明過了，不過，進(jìn)一步而言，即使情感的強度發(fā)生變化，特殊聲音的發(fā)生傾向也不會發(fā)生變化，整體的發(fā)生頻度隨著情感或表現(xiàn)力的強度而發(fā)生變化。據(jù)此，可以對符合將要合成的聲音的情感或表現(xiàn)力的強度的特殊聲音的發(fā)生頻度迸行設(shè)定，在實現(xiàn)發(fā)生頻度的狀態(tài)下，可以對聲音中的特殊聲音的發(fā)生位置進(jìn)行推定。
以下，將以圖22來對聲音合成裝置的工作進(jìn)行說明。在圖22中，對于與圖9相同的工作步驟賦予相同的符號，在此省略說明。
首先，向情感輸入部202輸入情感控制信息，例如若輸入"憤怒、 3 "，則情感種類"憤怒"和情感強度"3 "被抽出(S2001)。情感強度例如可以用五個階段來表現(xiàn)，將無表現(xiàn)力的聲音設(shè)為O，將僅有很少的情感或略帶表現(xiàn)力的設(shè)為1，將作為聲音表現(xiàn)且通常能夠觀察到的最強的表現(xiàn)設(shè)為5 ，數(shù)字越大情感或表現(xiàn)力的強度就越高。
特征性音色選擇部203根據(jù)情感輸入部202所輸出的情感種類"憤怒"以及情感或表現(xiàn)力的強度(例如，情感強度信息"3")，來選擇特征性音色，例如選擇"憤怒"的聲音中所發(fā)生的"用力"的聲音 (S2002)。
其次，情感強度特征性音色頻度變換部221根據(jù)指定"用力"的聲音的音色指定信息和情感強度信息"3 "，并參考情感強度頻度來變換規(guī)則記錄部220，以獲得按照指定的音色而設(shè)定的情感強度頻度變換規(guī)則(S2003)。在此例子中是獲得用于表現(xiàn)"憤怒"的"用力"的聲音的變換規(guī)則。變換規(guī)則是一函數(shù)，此函數(shù)例如示出圖23所示的特殊
聲音的發(fā)生頻度和情感或表現(xiàn)力強度之間的關(guān)系。函數(shù)是這樣被得到的，即按照情感或表現(xiàn)力來收集示出各種強度的聲音，并根據(jù)統(tǒng)計模式，來學(xué)習(xí)聲音中特殊聲音所觀察到的音韻的頻度和該聲音的情感或
表現(xiàn)力的強度之間的關(guān)系。而且，變換規(guī)則除作為函數(shù)進(jìn)行指定以外，還可以將各個強度所對應(yīng)的頻度作為對應(yīng)表進(jìn)行記錄。
情感強度特征性音色頻度變換部221可如圖23那樣，使指定的情感強度適用于變換規(guī)則，決定指定的情感強度所對應(yīng)的合成聲音中使用特殊聲音單元的頻度(S2004)。另一方面，語言處理部101對輸入的文本進(jìn)行詞素分析以及結(jié)構(gòu)分析，并輸出音韻串和語言信息 (S2005)。韻律生成部205獲得音韻串和語言信息，而且還獲得情感種類信息，并生成韻律信息(S2006)。
推定公式選擇部821獲得特殊聲音的指定和特殊聲音的頻度，并參考推定公式記錄部820，從按照特殊聲音而設(shè)定的推定公式中獲得特殊聲音"用力"所對應(yīng)的推定公式(S9001)。判斷閾值決定部823獲得推定公式和頻度，并通過概率分布保持部822獲得指定的特殊聲音所對應(yīng)的推定公式的概率分布，如圖24所示，對在S2004決定的特殊聲音的頻度所對應(yīng)的推定公式來決定判斷閾值(S9002)。
概率分布例如可以按照以下這樣設(shè)定。與實施例1同樣，推定公式是量化II類的情況下，根據(jù)該音韻的子音和元音的種類、重音句內(nèi) 的位置等屬性來決定值。該值示出了在該音韻，特殊聲音的發(fā)生難易度。如剛才以圖7A 圖7D以及圖21說明的那樣，特殊聲音的發(fā)生難
易度的變化，在說話人、情感或表現(xiàn)力的強度方面是共同的。為此，根據(jù)量化II類的推定公式不必按照情感或表現(xiàn)力的強度來變更，即使強度不同也可以根據(jù)共同的推定公式來求出各個音韻的"特殊聲音的發(fā)生難易度"。因此，將根據(jù)憤怒的強度為5的聲音數(shù)據(jù)而作成的推定公式適用于憤怒的強度為4、 3、 2、 l的聲音數(shù)據(jù)，并對各個強度
的聲音求出成為判斷閾值的推定公式的值，所述判斷閾值是對于實際觀察到的特殊聲音正確率為75%的判斷閾值。如圖21所示，由于隨著
情感或表現(xiàn)力的強度而特殊聲音的發(fā)生頻度發(fā)生變化，因此，將以各
個強度的聲音數(shù)據(jù)觀察到的特殊聲音的發(fā)生頻度，和能夠以75%的正確率來判斷特殊聲音的發(fā)生的推定公式的值，并繪圖到圖24的圖表的軸上，然后通過仿樣內(nèi)插法或通過向S形曲線近似等，進(jìn)行平滑連接，從而設(shè)定概率分布，所述各個強度的聲音數(shù)據(jù)是指憤怒的強度為4 、 3、 2、 l的聲音數(shù)據(jù)。而且，概率分布不僅限于圖24那樣的函數(shù)，
還可以作為對應(yīng)表進(jìn)行記錄，該對應(yīng)表是推定公式的值和特殊聲音的發(fā)生頻度相對應(yīng)的表。
特征性音色音韻推定部622獲得在S2005生成的音韻串和在S2006 生成的韻律信息，將在S9001選擇的推定公式適用于音韻串中的各音韻并求值，并與在S9002決定的閾值進(jìn)行比較，在推定公式的值超過閾值的情況下，將該音韻決定為以特殊聲音來發(fā)音(S6004)。
單元選擇部606從韻律生成部205獲得音韻串和韻律信息，并獲得以特殊聲音生成合成音的音韻的信息，在適用于合成的音韻串后，將音韻串變換為單元單位，并決定使用特殊聲音單元的單元單位 (S6007)，所述特殊聲音是在S6004由特征性音色音韻推定部622決定的。而且，單元選擇部606按照在S6007決定的使用特殊聲音單元的單元位置和不使用的單元位置，對開關(guān)210進(jìn)行切換，從而與標(biāo)準(zhǔn) 聲音單元數(shù)據(jù)庫207和特殊聲音單元數(shù)據(jù)庫208中的某一個相連接，并選擇在合成中所必要的聲音單元(S2008)，所述特殊聲音單元數(shù)據(jù) 庫208存儲指定的種類的特殊聲音單元。單元接續(xù)部209根據(jù)波形重疊方式將在S2008選擇的單元按照獲得的韻律信息來變形并連接 (S2009)，并輸出聲音波形(S2010)。而且，在S2008根據(jù)波形重疊方式連接了單元，也可以用除此之外的方法來連接單元。
根據(jù)所涉及的構(gòu)成，聲音合成裝置包括情感輸入部202，接受情感種類的輸入；特征性音色選擇部203，選擇情感的種類所對應(yīng)的特征性音色的種類；特征性音色時間位置推定部804，其由特征性音色音韻頻度決定部204、推定公式記錄部820、推定公式選擇部821、概率分布保持部822、判斷閾值決定部823以及特征性音色音韻推定部622 構(gòu)成，且按照指定的頻度決定音韻，該音韻是在合成的聲音中以具有特征性音色的特殊聲音應(yīng)該生成的音韻；以及特殊聲音單元數(shù)據(jù)庫 208，其與標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫207不同，是按照音色存儲帶有情感的聲音中的特殊聲音的單元。
據(jù)此，可以按照輸入的情感的種類和強度，決定應(yīng)該生成梧征性音色的聲音的頻度，并按照決定的頻度，根據(jù)音韻串、韻律信息或語言信息等，以節(jié)拍、音節(jié)或音素這樣的音韻單位，來推定生成特征性音色的聲音的時間位置，并生成再現(xiàn)豐富音質(zhì)變化的合成聲音，所述特征性音色的聲音出現(xiàn)于帶有情感的說話聲音的一部分，所述豐富音質(zhì)表現(xiàn)在情感、表現(xiàn)力、說話風(fēng)格或人際關(guān)系等所表現(xiàn)的說話中。
并且，可以提供表現(xiàn)能力高的聲音合成裝置，其不是對韻律或音質(zhì)進(jìn)行變化，而是可以以音韻位置的精度正確地模擬人在說話中自然的、且普遍進(jìn)行的行動，并可以在沒有任何不和諧感的情況下，直觀地捕捉情感或表現(xiàn)力的種類，所述人在說話中自然的、且普遍進(jìn)行的行動是指通過特征性音質(zhì)的發(fā)生來表現(xiàn)情感或表現(xiàn)力等。
而且，在本實施例中，聲音合成裝置包括了單元選擇部606、標(biāo) 準(zhǔn)聲音單元數(shù)據(jù)庫207、特殊聲音單元數(shù)據(jù)庫208以及單元連接部209，且示出了根據(jù)波形重疊法來實現(xiàn)的聲音合成方式，不過，聲音合成裝置的構(gòu)成也可以如圖12所示，與實施例1相同，即包括選擇參數(shù)單元的單元選擇部706、標(biāo)準(zhǔn)聲音參數(shù)單元數(shù)據(jù)庫307、特殊聲音變換規(guī) 則記錄部308、參數(shù)變形部309以及波形生成部310。
而且，在本實施例中，聲音合成裝置包括了單元選擇部606、標(biāo) 準(zhǔn)聲音單元數(shù)據(jù)庫207、特殊聲音單元數(shù)據(jù)庫208以及單元連接部209，且示出了根據(jù)波形重疊法來實現(xiàn)的聲音合成方式，不過，聲音合成裝置的構(gòu)成也可以如圖14所示，與實施例1相同，即包括生成標(biāo)準(zhǔn)聲音的參數(shù)串的合成參數(shù)生成部406、特殊聲音變換規(guī)則記錄部308、按照變換規(guī)則從標(biāo)準(zhǔn)聲音參數(shù)中生成特殊聲音，并實現(xiàn)所希望的韻律的
聲音的參數(shù)變形部309，以及波形生成部310。
而且，在本實施例中，聲音合成裝置包括了單元選擇部206、標(biāo) 準(zhǔn)聲音單元數(shù)據(jù)庫207、特殊聲音單元數(shù)據(jù)庫208以及單元連接部209，且示出了根據(jù)波形重疊法來實現(xiàn)的聲音合成方式，不過，聲音合成裝置的構(gòu)成也可以如圖16所示，與實施例1相同，即包括生成標(biāo)準(zhǔn)聲音的參數(shù)串的標(biāo)準(zhǔn)聲音參數(shù)生成部507、生成特征性音色的聲音的參數(shù) 串的一個或多個特殊聲音參數(shù)生成部508、對標(biāo)準(zhǔn)聲音參數(shù)生成部507 和特殊聲音參數(shù)生成部508進(jìn)行切換的開關(guān)509、以及從合成參數(shù)串中生成聲音波形的波形生成部310。
而且，在本實施例中，概率分布保持部822保持表示概率分布的特征性音色音韻的發(fā)生頻度和推定公式的值之間的關(guān)系，且判斷閾值決定部823參考概率分布保持部822來決定閾值，不過，對于發(fā)生頻
度和推定公式的值的關(guān)系也可以以對應(yīng)表的形式來保持。 (實施例3 )
圖25是本發(fā)明實施例3的聲音合成裝置的功能方框圖。在圖25 中，對于與圖4和圖19相同的構(gòu)成要素賦予相同的符號，在此省略說明。
如圖25所示，實施例3所涉及的聲音合成裝置包括情感輸入部 202、要素情感音色選擇部901、語言處理部101、韻律生成部205、特征性音色時間位置推定部604、單元選擇部606、以及單元連接部209。
情感輸入部202是一處理部，輸出情感種類。要素情感音色選擇部901是另一處理部，決定表現(xiàn)輸入的情感的聲音中所包含的一種以上的特征性音色的種類，以及決定按照特征性音色而合成的聲音中的生成頻度。語言處理部101是另一處理部，輸出音韻串和語言信息。韻律生成部205是另一處理部，生成韻律信息。特征性音色時間位置推定部604是另一處理部，獲得音色指定信息、音韻串、語言信息以及韻律信息，并按照由要素情感音色選擇部901生成的各個特征性音色的頻度，以特殊聲音的種類來決定生成合成聲音中的特殊聲音的音韻。
單元選擇部606是另一處理部，對于生成指定的特征聲音的音韻，進(jìn)行開關(guān)切換，并從符合的特殊聲音單元數(shù)據(jù)庫208中選擇聲音單元，對于除此之外的音韻，則從標(biāo)準(zhǔn)聲音單元數(shù)據(jù)庫207選擇單元。單元連接部209是另一處理部，生成連接單元的聲音波形。
要素情感音色選擇部901包括要素音色表902以及要素音色選擇部903。
如圖26所示，要素音色表902中記錄有表現(xiàn)輸入的情感的聲音中所包含的一種以上的特征性音色以及該特征性音色的出現(xiàn)頻度的組合。要素音色選擇部903是另一處理部，按照由情感輸入部202所獲得的情感種類，參考要素音色表902，來決定聲音中所包含的一種以上的特征性音色和該特征性音色的出現(xiàn)頻度。
以下，利用圖27對聲音合成裝置的工作進(jìn)行說明。在圖27中，對于與圖9和圖22相同的工作步驟賦予相同的符號，在此省略說明。
首先，情感控制信息被輸入到情感輸入部202，并抽出情感種類 (S2001)。要素音色選擇部903獲得抽出的情感種類，參考要素音色表902，獲得特殊聲音和該特殊聲音所合成的聲音中生成的頻度這一對數(shù)據(jù)，并輸出(S10002)，所述特殊聲音具有與情感的種類相對應(yīng)的一種以上的特征性音色。
另一方面，語言處理部101對輸入的文本進(jìn)行詞素分析和結(jié)構(gòu)分析，并輸出音韻串和語言信息(S2005)。韻律生成部205獲得音韻串和語言信息并獲得情感種類信息，并生成韻律信息(S2006)。
特征性音色時間位置推定部604選擇指定的一種以上的特殊聲音所分別對應(yīng)的推定公式(S9001)，并按照指定的各個特殊聲音的頻度，來決定推定公式的值所對應(yīng)的判斷閾值(S9002)。特征性音色時間位置推定部604獲得在S2005生成的音韻信息和在S2006生成的韻律信息，而且獲得在S9001選擇的推定公式和在S9002決定的閾值，并決定應(yīng)該生成的合成聲音中的特征性音韻的音韻，并標(biāo)上特殊聲音單元
標(biāo)記(S6004)。單元選擇部606從韻律生成部205獲得音韻串和韻律信息，并且獲得音韻的信息，在適用于合成的音韻串后，將音韻串變換為單元單位，并決定使用特殊聲音單元的單元單位(S6007)，所述音韻是以在S6004的特征性音色音韻推定部622所決定的特殊聲音，生成合成音的音韻。
并且，單元選擇部606按照在S6007決定的使用特殊聲音單元的單元位置和不使用的單元位置，切換開關(guān)210，從而與標(biāo)準(zhǔn)聲音單元數(shù) 據(jù)庫207和存儲指定的種類的特殊聲音單元的特殊聲音單元數(shù)據(jù)庫 208中的某一個相連接，從而選擇合成時必要的聲音單元(S2008)。單元連接部209通過波形重疊方式，按照獲得的韻律信息，將在S2008 選擇的單元變形并連接(S2009)，以及輸出聲音波形(S2010)。另外，雖然在S2008是通過波形重疊方式進(jìn)行連接的，不過，也可以采用其它的方法來連接單元。
圖28是示出了通過以上的處理，在合成"D w (i i:'力'力'"
主t (大約要花十分鐘)"這個聲音時的特殊聲音的位置的一個例子。即，在三個特征性音色互不交叉重疊的情況下，所決定的使用特殊聲音單元的位置。
根據(jù)所涉及的構(gòu)成，聲音合成裝置包括情感輸入部202,以接受情感種類的輸入；要素情感音色選擇部901，與情感的種類相對應(yīng)，按照一種以上的特征性音色和按各個特征性音色預(yù)先設(shè)定的頻度，生成一種以上的特征性音色和按各個特征性音色的頻度；特征性音色時間位置推定部604;以及特殊聲音單元數(shù)據(jù)庫208,其與標(biāo)準(zhǔn)聲音單元數(shù) 據(jù)庫207不同，按照各個音色存儲帶有情感的聲音中的特殊聲音的單元。
據(jù)此，可以按照輸入的情感的種類，決定多種特征性音色的聲音, 并按照特殊聲音的種類，決定應(yīng)該生成聲音的頻度，并按照該頻度，根據(jù)音韻串、韻律信息或語言信息等，以節(jié)拍、音節(jié)或音素這樣的音韻單位，來推定生成特征性音色的聲音的時間位置，并生成再現(xiàn)豐富
音質(zhì)變化的合成聲音，所述多種特征性音色的聲音出現(xiàn)于帶有情感的說話聲音的一部分，所述豐富音質(zhì)表現(xiàn)在情感、表現(xiàn)力、說話風(fēng)格或人際關(guān)系等所表現(xiàn)的話語中。
并且，可以提供表現(xiàn)能力高的聲音合成裝置，其不是對韻律或音質(zhì)進(jìn)行變化，而是可以以音韻位置的精度正確地模擬人在說話中自然的、且普遍進(jìn)行的行動，并可以在沒有任何不和諧感的情況下，直觀地捕捉情感或表現(xiàn)力的種類，所述人在說話中自然的、且普遍進(jìn)行的行動是指通過特征性音質(zhì)的發(fā)音來表現(xiàn)情感或表現(xiàn)力等。
而且，在本實施例中，聲音合成裝置包括了單元選擇部606、標(biāo) 準(zhǔn)聲音單元數(shù)據(jù)庫207、特殊聲音單元數(shù)據(jù)庫208以及單元連接部209，且示出了根據(jù)波形重疊法來實現(xiàn)的聲音合成方式，不過，聲音合成裝置的構(gòu)成也可以如圖12所示，與實施例1及2相同，即包括選擇參數(shù)單元的單元選擇部706、標(biāo)準(zhǔn)聲音參數(shù)單元數(shù)據(jù)庫307、特殊聲音變換規(guī)則記錄部308、參數(shù)變形部309以及波形生成部310。
而且，在本實施例中，聲音合成裝置包括了單元選擇部606、標(biāo) 準(zhǔn)聲音單元數(shù)據(jù)庫207、特殊聲音單元數(shù)據(jù)庫208以及單元連接部209，且示出了根據(jù)波形重疊法來實現(xiàn)的聲音合成方式，不過，聲音合成裝置的構(gòu)成也可以如圖14所示，與實施例1及2相同，即包括生成標(biāo) 準(zhǔn)聲音的參數(shù)串的合成參數(shù)生成部406、特殊聲音變換規(guī)則記錄部308、按照變換規(guī)則從標(biāo)準(zhǔn)聲音參數(shù)中生成特殊聲音，并實現(xiàn)所希望的韻律的聲音的參數(shù)變形部309，以及波形生成部310。
而且，在本實施例中，聲音合成裝置包括了單元選擇部206、標(biāo) 準(zhǔn)聲音單元數(shù)據(jù)庫207、特殊聲音單元數(shù)據(jù)庫208以及單元連接部209，且示出了根據(jù)波形重疊法來實現(xiàn)的聲音合成方式，不過，聲音合成裝置的構(gòu)成也可以如圖16所示，與實施例1及2相同，即包括生成標(biāo) 準(zhǔn)聲音的參數(shù)串的標(biāo)準(zhǔn)聲音參數(shù)生成部507、生成特征性音色的聲音的參數(shù)串的一個或多個特殊聲音參數(shù)生成部508、對標(biāo)準(zhǔn)聲音參數(shù)生成部 507和特殊聲音參數(shù)生成部508進(jìn)行切換的開關(guān)509、以及從合成參數(shù)
串中生成聲音波形的波形生成部310。
而且，在本實施例中，概率分布保持部822保持表示概率分布函數(shù)的特征性音色音韻的發(fā)生頻度和推定公式的值之間的關(guān)系，且判斷閾值決定部823參考概率分布保持部822來決定閾值，不過，對于發(fā) 生頻度和推定公式的值的關(guān)系也可以以對應(yīng)表的形式來保持。
并且，在本實施例中，情感輸入部202用于接受情感種類的輸入，要素音色選擇部903僅按照情感種類，來選擇要素聲音表902中按各個情感種類所記錄的一個以上的特征性音色的種類及其頻度，不過，也可以是，在要素音色表902中，按照情感種類和情感強度，記錄特征性音色的種類及其頻度的組合，或?qū)凑涨楦蟹N類的特征性音色的種類的組合與根據(jù)情感強度而各個特征性音色的頻度的變化作為對應(yīng) 表或作為對應(yīng)函數(shù)來記錄，情感輸入部202接受情感種類和情感強度，要素音色選擇部903參考要素音色表902，按照情感種類和情感強度，來決定特征性音色的種類及其頻度。
并且，在實施例1 3中，雖然在S2003、 S6003或S9001之前，由語言處理部101對文本進(jìn)行語言處理，并進(jìn)行了生成音韻串和語言信息的處理(S2005)和由韻律生成部205從音韻串、語言信息以及情感種類(或情感種類和強度)中生成韻律信息的處理(S2006),不過，只要是在決定在音韻串上生成特殊聲音的位置的處理(S2007、 S3007、 S3008、 S5008、 S6004)之前執(zhí)行即可。
并且，在實施例1 3中，雖然是語言處理部101獲得自然語言的輸入文本，并在S2005生成音韻串以及語言信息，不過，也可以像圖29、圖30以及圖31那樣，韻律生成部獲得語言處理完畢的文本。語言處理完畢的文本至少包括表示音韻串和重音的位置或暫停的位置、重音句的斷開處等的韻律記號。在實施例1 3，由于韻律生成部205以及特征性音色時間位置推定部604及804利用了語言信息，因此，語言處理完畢的文本還包括詞性或呼應(yīng)關(guān)系等語言信息。語言處理完畢的文本例如是圖32所示的形式。圖32(a)所示的語言處理完畢的文本是在向車載信息終端提供信息服務(wù)時，從服務(wù)器向各個終端送信時所采用的方式。音韻串以片假名來表示，重音位置以"'"記號來表示，重音句的斷開處以"/ "記號來表示，句子結(jié)尾的較長的暫
停以"."來表示。圖32(b)除示出了在圖32(a)所示的語言處理完畢的文本以外，還按照每個單詞示出了作為語言信息的詞性信息。當(dāng)然，語言信息還可以包含除此以外的信息。韻律生成部205也可以在獲得圖32(a)所示的語言處理完畢的文本的情況下，韻律生成部205在 S2006根據(jù)音韻串和韻律記號，來生成如基本頻率、功率、音韻時間長度、暫停時間長度等韻律信息，且該韻律信息是用于將指定的重音或重音句的斷開處作為聲音來實現(xiàn)的韻律信息。韻律生成部205在獲得了圖32(b)所示的包含語言信息的語言處理完畢的文本的情況下，通過與實施例1 3的S2006相同的工作來生成韻律信息。實施例1 3 中，特征性音色時間位置推定部604即使韻律生成部205獲得了如圖 32(a)所示的語言處理完畢的文本的情況下，且獲得了圖32(b)所示的語言處理完畢的文本的情況下，也與在S6004的工作同樣，即根據(jù)音韻串和韻律生成部205所生成的韻律信息，來決定應(yīng)該以特征性音韻來發(fā)生的音韻。像這樣可以不獲得沒有經(jīng)過語言處理的自然語言所描述的文本，而是通過獲得語言處理完畢的文本來合成聲音。并且，對于語言處理完畢的文本，在圖32中所示的形式是以一行來列舉一句的音韻，除此之外，例如還可以以音韻、單詞、句節(jié)等為單位，將音韻、韻律記號、語言信息以表的形式來表示。
而且，在實施例1 3中，雖然在S2001的情感輸入部202獲得情感種類或情感種類和情感強度，語言處理部101獲得作為自然語言的輸入文本，不過，也可以是如圖33及圖34所示，標(biāo)記語言分析部 1001獲得賦予了像VoiceXML這樣的表示情感種類或情感種類和情感強度的標(biāo)記的文本，并對標(biāo)記和文本部分進(jìn)行分離，分析標(biāo)記的內(nèi)容，并輸出情感種類或情感種類和情感強度。附有標(biāo)記的文本例如是圖 35(a)所示的形式。圖35中的符號"〈>"中所括起來的部分為記號，
"voice"表示對聲音進(jìn)行指定的指令，"emoti0n=anger[5]"表示對作為聲音的情感即憤怒進(jìn)行指定，且示出了指定的憤怒的強度為5 。
"/voice"表示在"voice"行開始的指令可影響到的位置。例如在實施例1或?qū)嵤├?中，也可以是，標(biāo)記語言分析部1001獲得圖35(a) 的附有標(biāo)記的文本，對標(biāo)記部分和描述自然語言的文本部分進(jìn)行分離，對標(biāo)記的內(nèi)容進(jìn)行分析，在將情感的種類和強度輸出到特征性音色選擇部203以及韻律生成部205的同時，向語言處理部101輸出應(yīng)該以聲音來表現(xiàn)該情感的文本部分。并且，在實施例3也可以是，標(biāo)記語言分析部1001獲得圖35(a)的附有標(biāo)記的文本，對標(biāo)記部分和描述自然語言的文本部分進(jìn)行分離，對標(biāo)記的內(nèi)容進(jìn)行分析，在向要素音色選擇部903輸出情感的種類和強度的同時，向語言處理部101輸出音該以聲音來表現(xiàn)該情感的文本部分。
并且，在實施例1 3中，雖然在S2001情感輸入部202獲得情感種類或情感種類和情感強度，語言處理部101獲得作為自然語言的輸入文本，不過，也可以像圖36及圖37那樣，標(biāo)記語言分析部101 獲得附有標(biāo)記的文本，并對標(biāo)記和文本部分進(jìn)行分離，分析標(biāo)記的內(nèi) 容，并輸出情感種類或情感種類和情感強度，所述標(biāo)記表示情感種類或情感種類和情感強度，且所述標(biāo)記被賦予在至少含有如圖35所示的音韻串和韻律記號的語言處理完畢的文本上。附有標(biāo)記的語言處理完畢的文本例如可以是如圖35(b)所示的形式。例如在實施例1或?qū)嵤├?br> 2可以是，標(biāo)記語言分析部1001獲得圖35(b)的附有標(biāo)記的語言處理完畢的文本，并對支持表現(xiàn)的記號部分和音韻串和韻律記號的部分進(jìn) 行分離，分析標(biāo)記的內(nèi)容，在將情感的種類和強度輸出到特征性音色選擇部203以及韻律生成部205的同時，將應(yīng)該以聲音來表現(xiàn)情感的音韻串和韻律記號部分輸出到韻律生成部205，所述情感是情感的種類和強度合起來的情感。并且，在實施例3也可以是，標(biāo)記語言分析部 101獲得圖35(b)的附有標(biāo)記的語言處理完畢的文本，對標(biāo)記部分和音韻串和韻律記號部分進(jìn)行分離，解析標(biāo)記的內(nèi)容，在將情感的種類和
強度輸出到要素音色選擇部903的同時，將應(yīng)該以聲音來表現(xiàn)該情感的音韻串和韻律記號的部分輸出到韻律生成部205。
并且，在實施例1 3 ，在情感輸入部202獲得的是情感種類或情感種類和情感強度，不過，作為用于決定說話狀態(tài)的信息，也可以獲得除上述以外的發(fā)音器官的緊張或松馳、表現(xiàn)力、說話風(fēng)格或說話方式等指定。例如，若是發(fā)音器官的緊張，則可以獲得像"咽喉周邊的緊張度3"這樣的咽喉或舌頭等發(fā)音器官和用力的程度的信息。再者，若是說話風(fēng)格，則可以獲得有關(guān)說話場景的信息，這些信息例如是，像"有禮貌5 "或"死板2 "這樣的說話態(tài)度的種類及其程度，或者像"親密關(guān)系"或"待客關(guān)系"這樣的說話人之間的關(guān)系。
并且，在實施例1 3，雖然是根據(jù)推定公式來求以特征性音色 (特殊聲音)說話的節(jié)拍的，不過，在預(yù)先知道有容易超過推定公式閾值的節(jié)拍時，可以在該節(jié)拍中時常以特征性音色來說話的狀態(tài)下，生成合成聲音。例如，特征性音色為"用力"的情況下，在以下(l)到 (4)所示的節(jié)拍，推定公式的值容易超過閾值。
(1)子音為/ b / (雙唇音且塞音)，且是重音句中從開頭的第三個節(jié)拍
(2) 子音為/m/ (雙唇音且鼻音)，且是重音句中從開頭的第三個節(jié)拍
(3) 子音為/n/ (齦音且鼻音)，且是重音句中最開頭的節(jié)拍
(4) 子音為/d/ (齦音且塞音)，且是重音句中最開頭的節(jié)拍并且，在特征性音色為"嘶啞"的情況下，以以下(5)到(8)所示
的節(jié)拍，推定公式容易超過閾值。
(5)子音為/ h / (聲門音且擦音)，且是重音句的最開頭的節(jié)拍或重音句中從開頭的第三個節(jié)拍
(6) 子音為/ t / (齦音且塞音)，且是重音句中從開頭的第四個
節(jié)拍
(7) 子音為/k/ (軟顎音且塞音)，且是重音句中從開頭的第五
個節(jié)拍
(8)子音為/ s / (齒音且塞音)，且是重音句中從開頭第六個節(jié)
拍
本發(fā)明所涉及的聲音合成裝置具有使聲音的表現(xiàn)變得豐富的構(gòu) 成，使聲音的表現(xiàn)變得豐富是根據(jù)發(fā)音器官的緊張或松馳、情感、表現(xiàn)力、或因說話風(fēng)格而使聲音的某些部分出現(xiàn)的特定的說話狀態(tài)，并通過生成特征性音色的聲音來實現(xiàn)的，本發(fā)明所涉及的聲音合成裝置可作為汽車導(dǎo)航系統(tǒng)、視頻、音頻等電子機器、或機器人等的聲音或對話界面等來使用。并且，還可以應(yīng)用于呼叫中心或電話局的自動電話對應(yīng)系統(tǒng)等用途上。
權(quán)利要求
1.一種聲音合成裝置，其特征在于，包括說話狀態(tài)獲得單元，獲得被聲音合成的聲音波形的說話狀態(tài)；韻律生成單元，生成韻律，該韻律是以獲得的所述說話狀態(tài)，說出經(jīng)過語言處理的文本時的韻律；特征性音色選擇單元，根據(jù)所述說話狀態(tài)來選擇觀察到的特征性音色，且所述特征性音色是以獲得的所述說話狀態(tài)，說出所述文本時觀察到的；說話位置決定單元，根據(jù)所述文本的音韻串、所述特征性音色、以及所述韻律，以構(gòu)成所述音韻串的各個音韻為單位，判斷是否以所述特征性音色來說話，并決定音韻，該音韻位于以所述特征性音色來說話的說話位置；以及波形合成單元，根據(jù)所述音韻串、所述韻律以及所述說話位置來生成聲音波形，應(yīng)用該聲音波形以所述說話狀態(tài)說出所述文本且該文本以特征性音色被說出，所述特征性音色在所述說話位置決定單元所決定的說話位置。
2. 如權(quán)利要求l所述的聲音合成裝置，其特征在于，包括文本獲得單元，獲得文本；以及語言處理單元，對所述文本進(jìn)行語言處理。
3. 如權(quán)利要求1所述的聲音合成裝置，其特征在于，所述聲音合成裝置進(jìn)一步包括頻度決定單元，根據(jù)所述特征性音色決定以所述特征性音色說話的頻度；所述說話位置決定單元根據(jù)所述文本的音韻串、所述特征性音色、所述韻律、以及所述頻度，以構(gòu)成所述音韻串的各個音韻為單位，判斷是否以所述特征性音色來說話，并決定音韻，該音韻位于以所述特征性音色來說話的說話位置。
4. 如權(quán)利要求3所述的聲音合成裝置，其特征在于，所述頻度決定單元將節(jié)拍、音節(jié)、音素或聲音合成單位作為單位，來決定所述頻度。
5. 如權(quán)利要求l所述的聲音合成裝置，其特征在于，所述特征性音色選擇單元包括要素音色記錄部，將說話狀態(tài)和多個特征性音色對應(yīng)起來記錄；以及選擇部從所述要素音色記錄部中選擇與獲得的所述說話狀態(tài)相對應(yīng)的所述多個特征性音色；所述說話位置決定單元根據(jù)所述文本的音韻串、所述多個特征性音色、以及所述韻律，以構(gòu)成所述音韻串的各個音韻為單位，判斷是否以所述多個特征性音色中的某一個來說話，并決定音韻，該音韻位于以各個特征性音色來說話的說話位置。
6. 如權(quán)利要求5所述的聲音合成裝置，其特征在于，所述要素音色記錄部將所述說話狀態(tài)與一個組合對應(yīng)起來記錄，所述組合是多個特征性音色及以該特征性音色說話的頻度的組合；所述選擇部從所述要素音色記錄部中選擇一個組合，該組合是與所獲得的所述說話狀態(tài)相對應(yīng)的所述多個特征性音色及以該特征性音色說話的頻度的組合；所述說話位置決定單元根據(jù)所述文本的音韻串、所述多個特征性音色及以該所述特征性音色說話的頻度的組合、以及所述韻律，以構(gòu) 成所述音韻串的各個音韻為單位，判斷是否以所述多個特征性音色中的某一個來說話，并決定音韻，該音韻位于以各個特征性音色來說話的說話位置。
7. 如權(quán)利要求6所述的聲音合成裝置，其特征在于，所述說話狀態(tài)獲得單元進(jìn)一步獲得所述說話秋態(tài)的強度；所述要素聲音記錄部將以下兩個組合對應(yīng)起來記錄，所述兩個組合是指所述說話狀態(tài)及該說話狀態(tài)的強度的組合，以及所述多個特征性音色及以該特征性音色說話的頻度的組合；所述選擇部從所述要素音色記錄部中選擇一個組合，該組合是所述多個特征性音色及以該特征性音色說話的頻度的組合，且該組合與獲得的所述說話狀態(tài)及該說話狀態(tài)的強度的組合相對應(yīng)。
8. 如權(quán)利要求5所述的聲音合成裝置，其特征在于，所述說話位置決定單元進(jìn)一步在不使所述多個特征性音色的說話位置重疊的狀態(tài)下來決定音韻，該音韻位于以各個特征性音色來說出所述文本時的說話位置。
9. 如權(quán)利要求l所述的聲音合成裝置，其特征在于，所述說話位置決定單元包括推定公式存儲部，存儲推定公式和閾值，所述推定公式推定以特征性音色為單位生成特征性音色的音韻；推定公式選擇部，從所述推定公式存儲部選擇所述特征性音色選擇單元所選擇的所述特征音色所對應(yīng)的推定公式和閾值；以及推定部，按照各個音韻將所述韻律生成單元所生成的所述音韻串以及所述韻律代入被選擇的所述推定公式，在該推定公式的值超過閾值的情況下，將該音韻推定為以所述特征性音色來說話的說話位置。
10.如權(quán)利要求9所述聲音合成裝置，其特征在于，所述推定公式是至少利用音韻、韻律以及語言信息中的至少一個來進(jìn)行統(tǒng)計學(xué)習(xí)的公式。
11.如權(quán)利要求l 0所述的聲音合成裝置，其特征在于，所述音韻包括子音。
12.如權(quán)利要求l O所述聲音合成裝置，其特征在于，所述推定公式是利用量化II類被作成的。
13. 如權(quán)利要求l所述的聲音合成裝置，其特征在于，所述韻律生成單元將節(jié)拍、音節(jié)、音素或聲音合成單位作為一個音韻來生成所述音韻串。
14. 如權(quán)利要求l所述的聲音合成裝置，其特征在于，所述波形合成單元包括標(biāo)準(zhǔn)聲音單元記錄部，記錄標(biāo)準(zhǔn)的說話狀態(tài)的聲音單元；特殊聲音單元記錄部，與所述特征性音色相對應(yīng)，記錄用于產(chǎn)生該特征性音色的聲音單元；以及單元選擇生成部，根據(jù)所述韻律生成單元所獲得的音韻串及韻律和所述說話位置決定單元所決定的說話位置，從標(biāo)準(zhǔn)聲音單元記錄部或所述特殊聲音單元記錄部選擇聲音單元，并生成聲音波形。
15.如權(quán)利要求l所述的聲音合成裝置，其特征在于，所述波形合成單元包括標(biāo)準(zhǔn)參數(shù)生成部，生成用于生成標(biāo)準(zhǔn)說話狀態(tài)的聲音波形的參數(shù);特殊參數(shù)生成部，與所述特征性音色相對應(yīng)，生成用于產(chǎn)生該特征性音色的參數(shù)；參數(shù)列生成部，根據(jù)所述韻律生成單元所獲得的音韻串及韻律和所述說話位置決定單元所決定的說話位置，從所述標(biāo)準(zhǔn)參數(shù)生成部或所述特殊參數(shù)生成部中獲得參數(shù)并生成參數(shù)列，從而生成聲音波形。
16.如權(quán)利要求l所述的聲音合成裝置，其特征在于，所述波形合成單元包括標(biāo)準(zhǔn)參數(shù)生成部，生成用于生成標(biāo)準(zhǔn)說話狀態(tài)的聲音波形的參數(shù)；變形規(guī)則存儲部，將所述標(biāo)準(zhǔn)參數(shù)變形，并按所述特征性音色來存儲用于生成具有所述特征性音色的聲音的變形規(guī)則；參數(shù)變形部，根據(jù)所述韻律生成單元所獲得的音韻串及韻律和所述說話位置決定單元所決定的說話位置，按照所述變形規(guī)則來變形所述標(biāo)準(zhǔn)參數(shù)；聲音波形生成部，根據(jù)在所述參數(shù)變形部被變形了的所述標(biāo)準(zhǔn)參數(shù)，來生成聲音波形。
17 . —種聲音合成裝置，其特征在于，包括說話狀態(tài)獲得單元，獲得被聲音合成的聲音波形的說話狀態(tài)；說話位置決定單元，在以獲得的所述說話狀態(tài)說出文本時所觀測到的特征性音色為用力的情況下，將以下(1)至U(4)的節(jié)拍決定為以該特征性音色說話的說話位置，所述(i)到(4)的節(jié)拍是指(1) 子音為/ b /，其為雙唇音且塞音，且是重音句中從開頭的第三個節(jié)拍；(2) 子音為/m/，其為雙唇音且鼻音，且是重音句中從開頭的第三個節(jié)拍；(3) 子音為/ n / ,其為齦音且鼻音，且是重音句中最開頭的節(jié)拍;(4) 子音為/ d / ，其為齦音且塞音，且是重音句中最開頭的節(jié)拍；并且，說話位置決定單元，在以獲得的所述說話狀態(tài)說出文本時所觀測到的特征性音色為嘶啞的情況下，將以下(5)到(8)的節(jié)拍決定為以該特征性音色說話的說話位置，所述(5)到(8)的節(jié)拍是指(5) 子音為/ h /,其為聲門音且擦音，且是重音句的最開頭的節(jié) 拍或重音句中從開頭的第三個節(jié)拍；(6) 子音為/ t /，其為齦音且塞音，且是重音句中從開頭的第四個節(jié)拍；(7) 子音為/ k /，其為軟顎音且塞音，且是重音句中從開頭的第五個節(jié)拍；(8) 子音為/ s /，其為齒音且塞音，且是重音句中從開頭第六個節(jié)拍；波形合成單元，生成聲音波形，該聲音波形是使所述文本以所述特征性音色說出的聲音波形，所述文本是由所述說話位置決定單元所決定的說話位置的文本。
18 . —種聲音合成方法，其特征在于，包括說話狀態(tài)獲得步驟，獲得被聲音合成的聲音波形的說話狀態(tài)；韻律生成步驟，生成韻律，該韻律是以獲得的所述說話狀態(tài)，說出經(jīng)過語言處理的文本時的韻律；特征性音色選擇步驟，根據(jù)所述說話狀態(tài)來選擇觀察到的特征性音色，且所述特征性音色是以獲得的所述說話狀態(tài)，說出所述文本時觀察到的；說話位置決定步驟，根據(jù)所述文本的音韻串、所述特征性音色、以及所述韻律，以構(gòu)成所述音韻串的各個音韻為單位，判斷是否以所述特征性音色來說話，并決定音韻，該音韻位于以所述特征性音色來說話的說話位置；以及波形合成步驟，根據(jù)所述音韻串、所述韻律以及所述說話位置來生成聲音波形，應(yīng)用該聲音波形以所述說話狀態(tài)說出所述文本且該文本以特征性音色被說出，所述特征性音色在所述說話位置決定單元所決定的說話位置。
19 . 一種程序，其特征在于，使計算機執(zhí)行以下步驟說話狀態(tài)獲得步驟，獲得被聲音合成的聲音波形的說話狀態(tài)；韻律生成步驟，生成韻律，該韻律是以獲得的所述說話狀態(tài)，說出經(jīng)過語言處理的文本時的韻律；特征性音色選擇步驟，根據(jù)所述說話狀態(tài)來選擇觀察到的特征性音色，且所述特征性音色是以獲得的所述說話狀態(tài)，說出所述文本時觀察到的；說話位置決定步驟，根據(jù)所述文本的音韻串、所述特征性音色、以及所述韻律，以構(gòu)成所述音韻串的各個音韻為單位，判斷是否以所述特征性音色來說話，并決定音韻，該音韻位于以所述特征性音色來說話的說話位置；以及波形合成步驟，根據(jù)所述音韻串、所述韻律以及所述說話位置來生成聲音波形，應(yīng)用該聲音波形以所述說話狀態(tài)說出所述文本且該文本以特征性音色被說出，所述特征性音色在所述說話位置決定單元所決定的說話位置。
全文摘要
本發(fā)明所涉及的聲音合成裝置包括情感輸入部(202)，獲得被聲音合成的聲音波形的說話狀態(tài)；韻律生成部(205)，生成韻律，該韻律是以獲得的所述說話狀態(tài)，說出經(jīng)過語言處理的文本時的韻律；特征性音色選擇部(203)，根據(jù)所述說話狀態(tài)來選擇觀察到的特征性音色，且所述特征性音色是以獲得的所述說話狀態(tài)，說出所述文本時觀察到的；音色時間位置推定部(604)，根據(jù)所述文本的音韻串、所述特征性音色、以及所述韻律，以構(gòu)成所述音韻串的各個音韻為單位，來判斷是否以所述特征性音色來說話，并決定音韻，該音韻位于以所述特征性音色來說話的說話位置；單元選擇部(606)，根據(jù)所述音韻串、所述韻律以及所述說話位置，以所述說話狀態(tài)說出所述文本，且生成聲音波形，該聲音波形是在所述說話位置決定單元所決定的說話位置，以特征性音色說出所述文本的聲音波形；以及單元連接部(209)。
文檔編號G10L13/08GK101176146SQ20068001687
公開日2008年5月7日申請日期2006年5月2日優(yōu)先權(quán)日2005年5月18日
發(fā)明者加藤弓子, 釜井孝浩申請人:松下電器產(chǎn)業(yè)株式會社

完整全部詳細(xì)技術(shù)資料下載