專利名稱:聲音合成裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及生成合成聲音并輸出的聲音合成裝置。
背景技術(shù):
以往以來,提供有生成想要的合成聲音并輸出的聲音合成裝置(例如參照專利文獻1、專利文獻2及專利文獻3)。
專利文獻1的聲音合成裝置具備音質(zhì)分別不同的多個聲音單元(音聲素片)數(shù)據(jù)庫,通過切換使用這些聲音單元數(shù)據(jù)庫來生成想要的合成聲音并輸出。
此外,專利文獻2的聲音合成裝置(聲音變形裝置)通過變換聲音分析結(jié)果的波譜,來生成想要的合成聲音并輸出。
此外,專利文獻3的聲音合成裝置通過對多個波形數(shù)據(jù)進行過渡(モ一フィング)處理來生成想要的合成聲音并輸出。
專利文獻1特開平7-319495號公報專利文獻2特開2000-330582號公報專利文獻3特開平9-50295號公報但是,在上述專利文獻1及專利文獻2以及專利文獻3的聲音合成裝置中,存在著聲音變換的自由度較小、很難進行音質(zhì)的調(diào)節(jié)的問題。
即,在專利文獻1中,合成聲音的音質(zhì)被限定于預(yù)先設(shè)定的音質(zhì),不能表現(xiàn)該預(yù)先設(shè)定的音質(zhì)間的連續(xù)變化。
此外,在專利文獻2中,如果增大波譜的動態(tài)范圍則在音質(zhì)中會產(chǎn)生破綻,難以維持良好的音質(zhì)。
進而,在專利文獻3中,確定多個波形數(shù)據(jù)的相互對應(yīng)的部位(例如波形的波峰)而以該部位為基準(zhǔn)進行過渡處理,但有時會錯誤地確定該部位。結(jié)果,生成的合成聲音的音質(zhì)變差。
發(fā)明內(nèi)容
所以,本發(fā)明是鑒于這樣的問題而做出的,其目的是提供一種聲音合成裝置,能夠從文本數(shù)據(jù)生成音質(zhì)的自由度較寬、音質(zhì)良好的合成聲音。
為了達到上述目的,有關(guān)本發(fā)明的聲音合成裝置的特征在于,具備存儲單元,預(yù)先存儲有與屬于第1音質(zhì)的多個聲音單元有關(guān)的第1聲音單元信息、以及與屬于不同于上述第1音質(zhì)的第2音質(zhì)的多個聲音單元有關(guān)的第2聲音單元信息;聲音信息生成單元,取得文本數(shù)據(jù),并且根據(jù)上述存儲單元的第1聲音單元信息生成表示與包含在上述文本數(shù)據(jù)中的字符對應(yīng)的、上述第1音質(zhì)的合成聲音的第1合成聲音信息,并根據(jù)上述存儲單元的第2聲音單元信息生成表示與包含在上述文本數(shù)據(jù)中的字符對應(yīng)的、上述第2音質(zhì)的合成聲音的第2合成聲音信息;過渡單元,從由上述聲音信息生成單元生成的上述第1及第2合成聲音信息,生成表示與包含在上述文本數(shù)據(jù)中的字符對應(yīng)的、上述第1及第2音質(zhì)的中間音質(zhì)的合成聲音的中間合成聲音信息;以及聲音輸出單元,將由上述過渡單元生成的上述中間合成聲音信息變換為上述中間音質(zhì)的合成聲音并輸出;上述聲音信息生成單元將上述第1及第2合成聲音信息分別作為多個特征參數(shù)的串而生成;上述過渡單元通過計算上述第1及第2合成聲音信息的相互對應(yīng)的特征參數(shù)的中間值,來生成上述中間合成聲音信息。
由此,只要將對應(yīng)于第1音質(zhì)的第1聲音單元信息、以及對應(yīng)于第2音質(zhì)的第2聲音單元信息預(yù)先存儲在存儲單元中,就可以輸出第1及第2音質(zhì)的中間音質(zhì)的合成聲音,所以并不限定于預(yù)先存儲在存儲單元中的內(nèi)容的音質(zhì)而能夠提高音質(zhì)的自由度。此外,由于以具有第1及第2音質(zhì)的第1及第2合成聲音信息為基礎(chǔ)生成中間合成聲音信息,所以能夠不像以往例那樣進行將波譜的動態(tài)范圍擴大得過大那樣的處理,而能夠?qū)⒑铣陕曇舻囊糍|(zhì)維持為良好的狀態(tài)。此外,有關(guān)本發(fā)明的聲音合成裝置由于取得文本數(shù)據(jù)來輸出與包含在其中的字符串對應(yīng)的合成聲音,所以能夠提高對用戶的使用方便性。進而,有關(guān)本發(fā)明的聲音合成裝置由于計算第1及第2合成聲音信息的相互對應(yīng)的特征參數(shù)的中間值來生成中間合成聲音信息,所以與以往例那樣對2個波譜進行過渡處理的情況相比,不會錯誤地確定作為基準(zhǔn)的部位,而能夠使合成聲音的音質(zhì)變好,還能夠減輕計算量。
這里,也可以使其特征為,上述過渡單元使上述第1及第2合成聲音信息對上述中間合成聲音信息起作用的比例變化,以使從上述聲音輸出單元輸出的合成聲音的音質(zhì)在其輸出過程中連續(xù)變化。
由此,由于在合成聲音的輸出中該合成聲音的音質(zhì)連續(xù)變化,所以能夠輸出例如從平常聲音向生氣聲音連續(xù)變化那樣的合成聲音。
此外,也可以使其特征為,上述存儲單元將表示由上述各個第1及第2聲音單元信息所表示的各聲音單元的基準(zhǔn)的內(nèi)容的特征信息,包含并存儲在上述各個第1及第2聲音單元信息中;上述聲音信息生成單元分別包含上述特征信息而生成上述第1及第2合成聲音信息;上述過渡單元在將上述第1及第2合成聲音信息利用由各自包含的上述特征信息所表示的基準(zhǔn)來整合之后,生成上述中間合成聲音信息。例如,上述基準(zhǔn)是由上述各個第1及第2聲音單元信息表示的各聲音單元的聲響特征的變化點。另外,上述聲響特征的變化點是用HMM(Hidden Markov Model)來表示上述各個第1及第2聲音單元信息中所表示的各聲音單元的最優(yōu)路徑上的狀態(tài)遷移點;上述過渡單元在利用上述狀態(tài)遷移點在時間軸上整合上述第1及第2合成聲音信息之后,生成上述中間合成聲音信息。
由此,由于在過渡單元進行的中間合成聲音信息的生成中,使用上述基準(zhǔn)來整合第1及第2合成聲音信息,所以與例如通過圖形匹配等整合第1及第2合成聲音信息那樣的情況相比,能夠迅速地實現(xiàn)整合而生成中間合成聲音信息,結(jié)果能夠提高處理速度。此外,通過將其基準(zhǔn)設(shè)定為由HMM(Hidden Markov Model)表示的最優(yōu)路徑上的狀態(tài)遷移點,能夠在時間軸上正確地整合第1及第2合成聲音信息。
此外,也可以使其特征為,上述聲音合成裝置還具備圖像存儲單元,預(yù)先存儲有表示與上述第1音質(zhì)對應(yīng)的圖像的第1圖像信息、以及表示與上述第2音質(zhì)對應(yīng)的圖像的第2圖像信息;圖像過渡單元,由上述第1及第2圖像信息生成中間圖像信息,該中間圖像信息表示作為由上述各個第1及第2圖像信息所表示的圖像的中間圖像的、與上述中間合成聲音信息的音質(zhì)對應(yīng)的圖像;顯示單元,取得由上述圖像過渡單元生成的中間圖像信息,與從上述聲音輸出單元輸出的合成聲音同步地顯示由上述中間圖像信息表示的圖像。例如,上述第1圖像信息表示與上述第1音質(zhì)對應(yīng)的臉部圖像,上述第2圖像信息表示與上述第2音質(zhì)對應(yīng)的臉部圖像。
由此,由于與該中間音質(zhì)的合成聲音的輸出同步顯示與上述第1及第2音質(zhì)的中間音質(zhì)對應(yīng)的臉部圖像,所以能夠?qū)⒑铣陕曇舻囊糍|(zhì)從臉部圖像的表情傳遞給用戶,能夠?qū)崿F(xiàn)表現(xiàn)力的提高。
這里,也可以使其特征為,上述聲音信息生成單元依次生成上述各個第1及第2合成聲音信息。
由此,能夠減輕聲音信息生成單元的每單位時間的處理負擔(dān),能夠使聲音信息生成單元的結(jié)構(gòu)變得簡單。結(jié)果,能夠使裝置整體小型化,并且能夠?qū)崿F(xiàn)成本降低。
此外,也可以使其特征為,上述聲音信息生成單元并列地生成上述各個第1及第2合成聲音信息。
由此,能夠迅速地生成第1及第2合成聲音信息,結(jié)果,能夠縮短從文本數(shù)據(jù)的取得到合成聲音的輸出為止的時間。
另外,本發(fā)明也可以作為生成并輸出上述聲音合成裝置的合成聲音的方法或程序、保存該程序的存儲媒體來實現(xiàn)。
發(fā)明效果在本發(fā)明的聲音合成裝置中,可起到能夠從文本數(shù)據(jù)生成音質(zhì)的自由度較寬、良好音質(zhì)的合成聲音的效果。
圖1是表示有關(guān)本發(fā)明的實施方式1的聲音合成裝置的結(jié)構(gòu)的結(jié)構(gòu)圖。
圖2是用來說明同上的聲音合成部的動作的說明圖。
圖3是表示同上的音質(zhì)指定部的顯示器所顯示的畫面的一例的畫面顯示圖。
圖4是表示同上的音質(zhì)指定部的顯示器所顯示的另一畫面的一例的畫面顯示圖。
圖5是用來說明同上的聲音過渡部的處理動作的說明圖。
圖6是表示同上的聲音單元與HMM音素模型的一例的例示圖。
圖7是表示有關(guān)同上的變形例的聲音合成裝置的結(jié)構(gòu)的結(jié)構(gòu)圖。
圖8是表示有關(guān)本發(fā)明的實施方式2的聲音合成裝置的結(jié)構(gòu)的結(jié)構(gòu)圖。
圖9是用來說明同上的聲音過渡部的處理動作的說明圖。
圖10是表示同上的音質(zhì)A及音質(zhì)Z的合成聲音波譜、和與它們對應(yīng)的短時間傅立葉波譜的圖。
圖11是用來說明同上的波譜過渡部在頻率軸上使兩短時間傅立葉波譜伸縮的狀況的說明圖。
圖12是用來說明使同上的變換了強度的2個短時間傅立葉波譜疊加的狀況的說明圖。
圖13是表示有關(guān)本發(fā)明的實施方式3的聲音合成裝置的結(jié)構(gòu)的結(jié)構(gòu)圖。
圖14是用來說明同上的聲音過渡部的處理動作的說明圖。
圖15是表示有關(guān)本發(fā)明的實施方式4的聲音合成裝置的結(jié)構(gòu)的結(jié)構(gòu)圖。
圖16是用來說明同上的聲音合成裝置的動作的說明圖。
標(biāo)號說明10文本10a音素信息11聲音合成參數(shù)值串12中間合成音波形數(shù)據(jù)12p中間臉部圖像數(shù)據(jù)13中間聲音合成參數(shù)值串30聲音單元31音素模型
32最優(yōu)路徑的形狀41合成音波譜42中間合成音波譜50共振峰形狀50a、50b頻率51傅立葉波譜分析窗61合成音波形數(shù)據(jù)101a~101z聲音合成DB103聲音合成部103a語言處理部103b單元結(jié)合部104音質(zhì)指定部104A、104B、104Z音質(zhì)圖標(biāo)104i指定圖標(biāo)105聲音過渡部105a參數(shù)中間值計算部105b波形生成部106中間合成波形數(shù)據(jù)107揚聲器203聲音合成部201a~201z聲音合成DB205聲音過渡部205a波譜過渡部205b波形生成部303聲音合成部301a~301z聲音合成DB305聲音過渡部305a波形編輯部401a~401z圖像DB405圖像過渡部
407顯示部P1~P3臉部圖像具體實施方式
下面利用附圖詳細說明本發(fā)明的實施方式。
(實施方式1)圖1是表示有關(guān)本發(fā)明的實施方式1的聲音合成裝置的結(jié)構(gòu)的結(jié)構(gòu)圖。
本實施方式的聲音合成裝置是從文本數(shù)據(jù)生成音質(zhì)的自由度較寬、音質(zhì)良好的合成聲音的裝置,具備多個聲音合成DB 101a~101z,儲存有關(guān)多個聲音單元(音素)的聲音單元數(shù)據(jù);多個聲音合成部(聲音信息生成單元)103,通過利用儲存在1個聲音合成DB中的聲音單元數(shù)據(jù),生成與文本10所示的字符串對應(yīng)的聲音合成參數(shù)值串11;音質(zhì)指定部104,根據(jù)用戶的操作指定音質(zhì);聲音過渡部105,利用由多個聲音合成部103生成的聲音合成參數(shù)值串11進行聲音過渡處理,輸出中間合成音波形數(shù)據(jù)12;揚聲器107,根據(jù)中間合成音波形數(shù)據(jù)12輸出合成聲音。
各個聲音合成DB101a~101z存儲的聲音單元數(shù)據(jù)表示的音質(zhì)不同。例如,在聲音合成DB101a中儲存有笑的音質(zhì)的聲音單元數(shù)據(jù),在聲音合成DB101z中儲存有生氣的音質(zhì)的聲音單元數(shù)據(jù)。此外,本實施方式的聲音單元數(shù)據(jù)以聲音生成模型的特征參數(shù)值串的形式表現(xiàn)。進而,在儲存的各聲音單元數(shù)據(jù)中,附加由這些數(shù)據(jù)表示的各聲音單元的開始及結(jié)束的時刻、和表示聲響的特征變化點的時刻的標(biāo)記信息。
多個聲音合成部103分別與上述聲音合成DB一一對應(yīng)。對于這樣的聲音合成部103的動作參照圖2進行說明。
圖2是用來說明聲音合成部103的動作的說明圖。
聲音合成部103如圖2所示,具備語言處理部103a和單元結(jié)合部103b。
語言處理部103a取得文本10,將文本10所示字符串變換為音素信息10a。音素信息10a是用音素串的形式表現(xiàn)文本10所示的字符串的信息,此外還可以包含重音位置信息及音素持續(xù)長度信息等、在單元選擇、結(jié)合、變形中需要的信息。
單元結(jié)合部103b從所對應(yīng)的聲音合成DB的聲音單元數(shù)據(jù)中提取有關(guān)合適的聲音單元的部分,進行提取的部分的結(jié)合與變形,由此來生成與由語言處理部103a輸出的音素信息10a對應(yīng)的聲音合成參數(shù)值串11。聲音合成參數(shù)值串11是將包含有為了生成實際的聲音波形而需要的足夠的信息的多個特征參數(shù)值排列而成的參數(shù)值串。例如,聲音合成參數(shù)值串11在沿著時間序列的每個聲音分析合成幀中,包含圖2所示那樣的5個特征參數(shù)而構(gòu)成。所謂的5個特征參數(shù),是聲音的基本頻率F0、第一共振峰F1、第二共振峰F2、聲音分析合成幀持續(xù)長度FR、音源強度(power)PW。此外,如上所述,在聲音單元數(shù)據(jù)中附加有標(biāo)記信息,所以在這樣生成的聲音合成參數(shù)值串11中也附加有標(biāo)記信息。
音質(zhì)指定部104根據(jù)用戶進行的操作,對聲音過渡部105指示利用哪個聲音合成參數(shù)值串11對該聲音合成參數(shù)值串11以怎樣的比例進行聲音過渡處理。進而,音質(zhì)指定部104使該比例沿著時間序列變化。這樣的音質(zhì)指定部104例如由個人電腦等構(gòu)成,具備顯示由用戶操作的結(jié)果的顯示器。
圖3是表示音質(zhì)指定部104的顯示器所顯示的畫面的一例的畫面顯示圖。
在顯示器上顯示有表示聲音合成DB101a~101z的音質(zhì)的多個音質(zhì)圖標(biāo)。另外,在圖3中,表示了多個音質(zhì)圖標(biāo)中的音質(zhì)A的音質(zhì)圖標(biāo)104A、音質(zhì)B的音質(zhì)圖標(biāo)104B、和音質(zhì)Z的音質(zhì)圖標(biāo)104Z。這樣的多個音質(zhì)圖標(biāo)配置為,各自所示的音質(zhì)越相似越相互靠近,越不相似則越相互遠離。
這里,音質(zhì)指定部104在這樣的顯示器上顯示可對應(yīng)于用戶的操作而移動的指定圖標(biāo)104i。
音質(zhì)指定部104檢查距離由用戶配置的指定圖標(biāo)104較近的音質(zhì)圖標(biāo),例如如果確定了音質(zhì)圖標(biāo)104A、104B、104Z,則對聲音過渡部105指示利用音質(zhì)A的聲音合成參數(shù)值串11、音質(zhì)B的聲音合成參數(shù)值串11、和音質(zhì)Z的聲音合成參數(shù)值串11。進而,音質(zhì)指定部104將與各音質(zhì)圖標(biāo)104A、104B、104Z及指定圖標(biāo)104i的相對配置相對應(yīng)的比例,指示給聲音過渡部105。
即,音質(zhì)指定部104檢查從指定圖標(biāo)104i到各音質(zhì)圖標(biāo)104A、104B、104Z的距離,指示對應(yīng)于這些距離的比例。
或者,音質(zhì)指定部104首先求出用于生成音質(zhì)A與音質(zhì)Z的中間音質(zhì)(臨時音質(zhì))的比例,接著根據(jù)該臨時音質(zhì)和音質(zhì)B,求出用于生成由指定圖標(biāo)104i表示的音質(zhì)的比例,并指示這些比例。具體而言,音質(zhì)指定部104計算出連結(jié)音質(zhì)圖標(biāo)104A及音質(zhì)圖標(biāo)104Z的直線、和連結(jié)音質(zhì)圖標(biāo)104B及音質(zhì)圖標(biāo)104i的直線,確定這些直線的交點的位置104t。由該位置104t表示的音質(zhì)是上述臨時音質(zhì)。并且,音質(zhì)指定部104求出從位置104t到各音質(zhì)圖標(biāo)104A、104Z的距離的比例。接著,音質(zhì)指定部104求出從指定圖標(biāo)104i到音質(zhì)圖標(biāo)104B及位置104t的距離的比例,指示這樣求出的2個比例。
通過操作這樣的音質(zhì)指定部104,用戶能夠容易地輸入想要從揚聲器107輸出的合成聲音的音質(zhì)的、相對預(yù)先設(shè)定的音質(zhì)的類似度。所以,用戶在例如想要從揚聲器107輸出與音質(zhì)A接近的合成聲音時,操作音質(zhì)指定部104以使指定圖標(biāo)104i接近于音質(zhì)圖標(biāo)104A。
此外,音質(zhì)指定部104根據(jù)來自用戶的操作使上述那樣的比例沿著時間序列而連續(xù)地變化。
圖4是表示音質(zhì)指定部104的顯示器所顯示的另一畫面的一例的畫面顯示圖。
音質(zhì)指定部104如圖4所示,對應(yīng)于用戶的操作而在顯示器上配置3個圖標(biāo)21、22、23,確定從圖標(biāo)21通過圖標(biāo)22到達圖標(biāo)23那樣的軌跡。并且,音質(zhì)指定部104使上述比例沿著時間序列連續(xù)地變化,以使指定圖標(biāo)104i沿著該軌跡移動。例如,如果設(shè)其軌跡的長度為L,則音質(zhì)指定部104使該比例變化,以使指定圖標(biāo)104i以每秒0.01×L的速度移動。
聲音過渡部105根據(jù)上述那樣的由音質(zhì)指定部104指定的聲音合成參數(shù)值串11和比例來進行聲音過渡處理。
圖5是用來說明聲音過渡部105的處理動作的說明圖。
聲音過渡部105如圖5所示,具備參數(shù)中間值計算部105a、和波形生成部105b。
參數(shù)中間值計算部105a確定由音質(zhì)指定部104指定的至少2個聲音合成參數(shù)值串11和比例,根據(jù)這些聲音合成參數(shù)值串11,在每個相互對應(yīng)的聲音分析合成幀間生成對應(yīng)于該比例的中間聲音合成參數(shù)值串13。
例如,參數(shù)中間值計算部105a如果根據(jù)音質(zhì)指定部104的指定而確定音質(zhì)A的聲音合成參數(shù)值串11、音質(zhì)Z的聲音合成參數(shù)值串11、以及比例50∶50,則首先從分別對應(yīng)的聲音合成部103取得該音質(zhì)A的聲音合成參數(shù)值串11和音質(zhì)Z的聲音合成參數(shù)值串11。接著,參數(shù)中間值計算部105a在相互對應(yīng)的聲音分析合成幀中,以50∶50的比例計算出包含在音質(zhì)A的聲音合成參數(shù)值串11中的各特征參數(shù)、和包含在音質(zhì)Z的聲音合成參數(shù)值串11中的各特征參數(shù),將該計算結(jié)果作為中間聲音合成參數(shù)值串13生成。具體而言,在相互對應(yīng)的聲音分析合成幀中,在音質(zhì)A的聲音合成參數(shù)值串11的基板頻率F0的值為300、音質(zhì)Z的聲音合成參數(shù)值串11的基板頻率F0的值為280的情況下,參數(shù)中間值計算部105a生成該聲音分析合成幀中的基本頻率F0為290的中間聲音合成參數(shù)值串13。
此外,如利用圖3說明的那樣,在通過音質(zhì)指定部104指定了音質(zhì)A的聲音合成參數(shù)值串11、音質(zhì)B的聲音合成參數(shù)值串11、和音質(zhì)Z的聲音合成參數(shù)值串11,并且指定了用來生成音質(zhì)A和音質(zhì)Z的中間的臨時音質(zhì)的比例(例如3∶7)、以及用來由該臨時音質(zhì)和音質(zhì)B生成由指定圖標(biāo)104i表示的音質(zhì)的比例(例如9∶1)的情況下,聲音過渡部105首先利用音質(zhì)A的聲音合成參數(shù)值串11和音質(zhì)Z的聲音合成參數(shù)值串11,進行對應(yīng)于3∶7比例的聲音過渡處理。由此,生成對應(yīng)于臨時音質(zhì)的聲音合成參數(shù)值串。進而,聲音過渡部105利用前面生成的聲音合成參數(shù)值串和音質(zhì)B的聲音合成參數(shù)值串11,進行對應(yīng)于9∶1比例的聲音過渡處理。由此,生成對應(yīng)于指定圖標(biāo)104i的中間聲音合成參數(shù)值串13。這里,上述所謂的對應(yīng)于3∶7比例的聲音過渡處理,是指使音質(zhì)A的聲音合成參數(shù)值串11以恰好3/(3+7)接近音質(zhì)Z的聲音合成參數(shù)值串11的處理,反之,是指使音質(zhì)Z的聲音合成參數(shù)值串11以恰好7/(3+7)接近音質(zhì)A的聲音合成參數(shù)值串11的處理。結(jié)果,生成的聲音合成參數(shù)值串與音質(zhì)Z的聲音合成參數(shù)值串11相比更類似于音質(zhì)A的聲音合成參數(shù)值串11。
波形生成部105b取得由參數(shù)中間值計算部105a生成的中間聲音合成參數(shù)值串13,生成對應(yīng)于該中間聲音合成參數(shù)值串13的中間合成音波形數(shù)據(jù)12,對揚聲器107輸出。
由此,從揚聲器107輸出對應(yīng)于中間聲音合成參數(shù)值串13的合成聲音。即,從揚聲器107輸出預(yù)先設(shè)定的多個音質(zhì)的中間音質(zhì)的合成聲音。
這里,一般包含在多個聲音合成參數(shù)值串11中的聲音分析合成幀的總數(shù)各不相同,所以參數(shù)中間值計算部105a在如上述那樣利用相互不同的音質(zhì)的聲音合成參數(shù)值串11進行聲音過渡處理時,為了進行聲音分析合成幀間的對應(yīng)而進行時間軸對準(zhǔn)。
即,參數(shù)中間值計算部105a根據(jù)賦予給聲音合成參數(shù)值串11的標(biāo)記信息,實現(xiàn)這些聲音合成參數(shù)值串11的時間軸上的整合。
標(biāo)記信息如上所述,表示各聲音單元的開始及結(jié)束時刻、和聲響的特征變化點的時刻。聲響的特征變化點例如是由與聲音單元對應(yīng)的非特定講話者HMM(Hidden Markov Model隱馬爾可夫模型)音素模型表示的最優(yōu)路徑的狀態(tài)遷移點。
圖6是表示聲音單元與HMM音素模型的一例的例示圖。
例如,如圖6所示,在由非特定講話者HMM音素模型(以下簡稱作音素模型)31識別了規(guī)定的聲音單元30的情況下,該音素模型31包含開始狀態(tài)(S0)和結(jié)束狀態(tài)(SE),由4個狀態(tài)(S0,S1,S2,SE)構(gòu)成。這里,最優(yōu)路徑的形狀32在從時刻4到時刻5中,具有從狀態(tài)S1向狀態(tài)S2的狀態(tài)遷移。即,在與保存在聲音合成DB101a~101z中的聲音單元數(shù)據(jù)的聲音單元30對應(yīng)的部分中,附加了該聲音單元30的開始時刻1、結(jié)束時刻N、以及表示聲響的特征變化點的時刻5的標(biāo)記信息。
因而,參數(shù)中間值計算部105a根據(jù)由該標(biāo)記信息表示的開始時刻1、結(jié)束時刻N、以及表示聲響的特征變化點的時刻5,進行時間軸的伸縮處理。即,參數(shù)中間值計算部105a對于所取得的聲音合成參數(shù)值串11將其時刻期間線性地伸縮,以使由標(biāo)記信息表示的時刻一致。
由此,參數(shù)中間值計算部105a能夠?qū)Ω髀曇艉铣蓞?shù)值串11進行各自的聲音分析合成幀的對應(yīng)。即能夠進行時間軸對準(zhǔn)。此外,通過這樣在本實施方式中利用標(biāo)記信息進行時間軸對準(zhǔn),與例如通過各聲音合成參數(shù)值串11的圖形匹配等進行時間軸對準(zhǔn)的情況相比,能夠迅速地進行時間軸對準(zhǔn)。
如上所述,在本實施方式中,參數(shù)中間值計算部105a對由音質(zhì)指定部104指示的多個聲音合成參數(shù)值串11實行對應(yīng)于由音質(zhì)指定部104指定的比例的聲音過渡處理,所以能夠擴大合成聲音的音質(zhì)的自由度。
例如,在圖3所示的音質(zhì)指定部104的顯示器上,如果通過用戶操作音質(zhì)指定部104使指定圖標(biāo)104i接近于音質(zhì)圖標(biāo)104A、音質(zhì)圖標(biāo)104B及音質(zhì)圖標(biāo)104Z,則聲音過渡部105利用根據(jù)音質(zhì)A的聲音合成DB101a而由聲音合成部103生成的聲音合成參數(shù)值串11、根據(jù)音質(zhì)B的聲音合成DB101b而由聲音合成部103生成的聲音合成參數(shù)值串11、以及根據(jù)音質(zhì)Z的聲音合成DB101z而由聲音合成部103生成的聲音合成參數(shù)值串11,以相同的比例對它們分別進行聲音過渡處理。結(jié)果,能夠使從揚聲器107輸出的合成聲音成為音質(zhì)A、音質(zhì)B和音質(zhì)C的中間的音質(zhì)。此外,如果用戶通過操作音質(zhì)指定部104使指定圖標(biāo)104i接近于音質(zhì)圖標(biāo)104A,則能夠使從揚聲器107輸出的合成聲音的音質(zhì)接近于音質(zhì)A。
此外,本實施方式的音質(zhì)指定部104由于根據(jù)用戶的操作而使其比例沿著時間序列變化,所以能夠使從揚聲器107輸出的合成聲音的音質(zhì)沿著時間序列平滑地變化。例如,在如圖4中說明那樣、音質(zhì)指定部104改變比例以使指定圖標(biāo)104i以每秒0.01×L的速度在軌跡上移動的情況下,可以從揚聲器107輸出音質(zhì)在100秒期間平滑地連續(xù)變化的合成聲音。
由此,能夠?qū)崿F(xiàn)例如“開始說時比較冷靜,但在說的同時逐漸變得生氣”那樣的、以往不可能的、表現(xiàn)力較高的聲音合成裝置。此外,還能夠使合成聲音的音質(zhì)在1次發(fā)聲中連續(xù)地變化。
進而,在本實施方式中,由于進行了聲音過渡處理,所以不會如以往例那樣在音質(zhì)中發(fā)生破綻而能夠維持合成聲音的品質(zhì)。此外,在本實施方式中,由于計算音質(zhì)不同的聲音合成參數(shù)值串11的相互對應(yīng)的特征參數(shù)的中間值來生成中間聲音合成參數(shù)值串13,所以與以往例那樣對2個波譜進行過渡處理的情況相比,不會錯誤地確定作為基準(zhǔn)的部位,而能夠使合成聲音的音質(zhì)變好,還能夠減輕計算量。此外,在本實施方式中,通過利用HMM的狀態(tài)遷移點,能夠在時間軸上正確地整合多個聲音合成參數(shù)值串11。即,有時即使在音質(zhì)A的音素中,以狀態(tài)遷移點為基準(zhǔn)的前半與后半的聲響特征也不同,即使在音質(zhì)B的音素中,以狀態(tài)遷移點為基準(zhǔn)的前半與后半的聲響特征也不同。在這種情況下,即使將音質(zhì)A的音素與音質(zhì)B的音素分別單純地在時間軸上伸縮來匹配各自的發(fā)聲時間、即即使進行時間軸對準(zhǔn),在從兩音素過渡處理后的音素中,各音素的前半與后半也會錯亂。但是,如果像上述那樣使用HMM的狀態(tài)遷移點,則能夠防止各音素的前半與后半錯亂。結(jié)果,能夠使過渡處理后的音素的音質(zhì)變好,能夠輸出所期望的中間音質(zhì)的合成聲音。
另外,在本實施方式中,在多個聲音合成部103的每一個中生成音素信息10a及聲音合成參數(shù)值串11,但在與作為聲音過渡處理所需的音質(zhì)對應(yīng)的音素信息10a都相同時,也可以僅在1個聲音合成部103的語言處理部103a中生成音素信息10a,在多個聲音合成部103的單元結(jié)合部103b中進行從該音素信息10a生成聲音合成參數(shù)值串11的處理。
(變形例)這里,對有關(guān)本實施方式的聲音合成部的變形例進行說明。
圖7是表示有關(guān)變形例的聲音合成裝置的結(jié)構(gòu)的結(jié)構(gòu)圖。
有關(guān)本變形例的聲音合成裝置具備生成相互不同的音質(zhì)的聲音合成參數(shù)值串11的1個聲音合成部103c。
該聲音合成部103c取得文本10,將文本10所示的字符串變換為音素信息10a后,依次切換并參照多個聲音合成DB101a~101z,由此來依次生成與該音素信息10a對應(yīng)的多個音質(zhì)的聲音合成參數(shù)值串11。
聲音過渡部105待機直到生成所需的聲音合成參數(shù)值串11,然后,通過與上述同樣的方法生成中間合成音波形數(shù)據(jù)12。
另外,在上述那樣的情況下,音質(zhì)指定部104對聲音合成部103c進行指示,使其僅生成聲音過渡部105所需的聲音合成參數(shù)值串11,由此能夠縮短聲音過渡部105的待機時間。
這樣,在本變形例中,通過具備1個聲音合成部103c,能夠?qū)崿F(xiàn)聲音合成裝置整體的小型化及成本降低。
(實施方式2)圖8是表示有關(guān)本發(fā)明的實施方式2的聲音合成裝置的結(jié)構(gòu)的結(jié)構(gòu)圖。
本實施方式的聲音合成裝置利用頻率波譜來代替實施方式1的聲音合成參數(shù)值串11,進行通過該頻率波譜的聲音過渡處理。
這種聲音合成裝置具備多個聲音合成DB201a~201z,儲存有關(guān)多個聲音單元的聲音單元數(shù)據(jù);多個聲音合成部203,通過利用儲存在1個聲音合成DB中的聲音單元數(shù)據(jù),生成與文本10所示的字符串對應(yīng)的合成音波譜41;音質(zhì)指定部104,根據(jù)用戶的操作指定音質(zhì);聲音過渡部205,利用由多個聲音合成部203生成的合成音波譜41進行聲音過渡處理,輸出中間合成音波形數(shù)據(jù)12;揚聲器107,根據(jù)中間合成音波形數(shù)據(jù)12輸出合成聲音。
各個聲音合成DB201a~201z存儲的聲音單元數(shù)據(jù)表示的音質(zhì)與實施方式1的聲音合成DB101a~101z同樣,是不同的。此外,本實施方式中的聲音單元數(shù)據(jù)以頻率波譜的形式表現(xiàn)。
多個聲音合成部203分別與上述聲音合成DB一一對應(yīng)。并且,各聲音合成部203取得文本10,將文本10所表示的字符串變換為音素信息。進而,聲音合成部203從對應(yīng)的聲音合成DB的聲音單元數(shù)據(jù)中提取有關(guān)合適的聲音單元的部分,進行提取的部分的結(jié)合與變形,來生成作為與前面生成的音素信息對應(yīng)的頻率波譜即合成音波譜41。這種合成音波譜41既可以是聲音的傅立葉解析結(jié)果的形式,也可以是將聲音的對數(shù)倒頻(cepstrum)參數(shù)值以時間序列排列的形式。
音質(zhì)指定部104與實施方式1同樣,根據(jù)用戶的操作,對聲音過渡部205指示利用哪個合成音波譜41、對該合成音波譜41以怎樣的比例進行聲音過渡處理。進而,音質(zhì)指定部104使該比例沿著時間序列變化。
本實施方式的聲音過渡部205取得從多個聲音合成部203輸出的合成音波譜41,生成具有其中間性質(zhì)的合成音波譜,再將該中間性質(zhì)的合成音波譜變形為中間合成音波形數(shù)據(jù)12并輸出。
圖9是用來說明聲音過渡部205的處理動作的說明圖。
聲音過渡部205如圖9所示,具備波譜過渡部205a、和波形生成部205b。
波譜過渡部205a確定由音質(zhì)指定部104指定的至少2個合成音波譜41和比例,根據(jù)這些合成音波譜41,生成對應(yīng)于該比例的中間合成音波譜42。
即,波譜過渡部205a從多個合成音波譜41中選擇由音質(zhì)指定部104指定的2個以上的合成音波譜41。接著,波譜過渡部205a提取表示這些合成音波譜41的形狀特征的共振峰形狀50,在將使該共振峰形狀50盡可能一致的變形施加給合成音波譜41后,進行各合成音波譜41的疊加。另外,上述合成音波譜41的形狀特征也可以不是共振峰形狀,例如只要是某種程度以上較強地呈現(xiàn)、并且其軌跡可連續(xù)地追蹤就可以。如圖9所示,共振峰形狀50對音質(zhì)A的合成音波譜41及音質(zhì)Z的合成音波譜41分別示意地顯示波譜形狀的特征。
具體而言,波譜過渡部205a如果根據(jù)來自音質(zhì)指定部104的指定而確定了音質(zhì)A及音質(zhì)Z的合成音波譜41、和4∶6的比例,則首先取得該音質(zhì)A的合成音波譜41和音質(zhì)Z的合成音波譜41,從這些合成音波譜41中提取共振峰形狀50。接著,波譜過渡部205a在頻率軸及時間軸上對音質(zhì)A的合成音波譜41進行伸縮處理,以使音質(zhì)A的合成音波譜41的共振峰形狀50以40%接近音質(zhì)Z的合成音波譜41的共振峰形狀50。進而,波譜過渡部205a在頻率軸及時間軸上對音質(zhì)Z的合成音波譜41進行伸縮處理,以使音質(zhì)Z的合成音波譜41的共振峰形狀50以60%接近音質(zhì)A的合成音波譜41的共振峰形狀50。最后,波譜過渡部205a將伸縮處理后的音質(zhì)A的合成音波譜41的強度設(shè)為60%、并且將伸縮處理后的音質(zhì)Z的合成音波譜41的強度設(shè)為40%,然后將兩合成音波譜41疊加。結(jié)果,以4∶6的比例進行音質(zhì)A的合成音波譜41與音質(zhì)Z的合成音波譜41的聲音過渡處理,生成中間合成音波譜42。
利用圖10~圖12更詳細地說明這種生成中間合成音波譜42的聲音過渡處理。
圖10是表示音質(zhì)A及音質(zhì)Z的合成聲音波譜41、以及與它們對應(yīng)的短時間傅立葉波譜的圖。
波譜過渡部205a在以4∶6的比例進行音質(zhì)A的合成音波譜41與音質(zhì)Z的合成音波譜41的聲音過渡處理時,首先為了如上述那樣使這些合成音波譜41的共振峰形狀50相互接近,進行各合成音波譜41彼此的時間軸對準(zhǔn)。這種時間軸對準(zhǔn)是通過進行各合成音波譜41的共振峰形狀50彼此的圖形匹配來實現(xiàn)的。另外,也可以利用有關(guān)各合成音波譜41或共振峰形狀50的其他特征量來進行圖形匹配。
即,波譜過渡部205a如圖10所示,在兩合成音波譜41的各自的共振峰形狀50中,對兩合成音波譜41進行時間軸上的伸縮,以使在圖形一致的傅立葉波譜分析窗51的部位時刻一致。由此來實現(xiàn)時間軸對準(zhǔn)。
此外,如圖10所示,在相互圖形一致的傅立葉波譜分析窗51的各自的短時間傅立葉波譜41a中,共振峰形狀50的頻率50a、50b相互不同地顯示。
所以,在時間軸對準(zhǔn)結(jié)束后,波譜過渡部205a在對準(zhǔn)后的聲音的各時刻,根據(jù)共振峰形狀50來進行頻率軸上的伸縮處理。即,波譜過渡部205a在頻率軸上對兩短時間傅立葉波譜41a進行伸縮,以使在各時刻的音質(zhì)A及音質(zhì)B的短時間傅立葉波譜41a中頻率50a、50b一致。
圖11是用來說明波譜過渡部205a在頻率軸上使兩短時間傅立葉波譜41a伸縮的狀況的說明圖。
波譜過渡部205a使音質(zhì)A的短時間傅立葉波譜41a在頻率軸上伸縮,以使音質(zhì)A的短時間傅立葉波譜41a上的頻率50a、50b以40%接近音質(zhì)Z的短時間傅立葉波譜41a上的頻率50a、50b,并生成中間短時間傅立葉波譜41b。與此同樣,波譜過渡部205a使音質(zhì)Z的短時間傅立葉波譜41a在頻率軸上伸縮,以使音質(zhì)Z的短時間傅立葉波譜41a上的頻率50a、50b以60%接近音質(zhì)A的短時間傅立葉波譜41a上的頻率50a、50b,并生成中間短時間傅立葉波譜41b。結(jié)果,在中間的兩短時間傅立葉波譜41b中,共振峰形狀50的頻率成為統(tǒng)一為頻率f1、f2的狀態(tài)。
例如,假設(shè)為在音質(zhì)A的短時間傅立葉波譜41a上共振峰形狀50的頻率50a、50b是500Hz及3000Hz,在音質(zhì)Z的短時間傅立葉波譜41a上共振峰形狀50的頻率50a、50b是400Hz及4000Hz,并且各合成音的奈奎斯特頻率為11025Hz的情況進行說明。波譜過渡部205a首先對音質(zhì)A的短時間傅立葉波譜41a進行頻率軸上的伸縮移動,以使音質(zhì)A的短時間傅立葉波譜41a的頻帶f=0~500Hz成為0~(500+(400-500)×0.4)Hz、頻帶f=500~3000Hz成為(500+(400-500)×0.4)~(3000+(4000-3000)×0.4)Hz、頻帶f=3000~11025Hz成為(3000+(4000-3000)×0.4)~11025Hz。與此同樣,波譜過渡部205a對音質(zhì)Z的短時間傅立葉波譜41a進行頻率軸上的伸縮移動,以使音質(zhì)Z的短時間傅立葉波譜41a的頻帶f=0~400Hz成為0~(400+(500-400)×0.6)Hz、頻帶f=400~4000Hz成為(400+(500-400)×0.6)~(4000+(3000-4000)×0.6)Hz、頻帶f=4000~11025Hz成為(4000+(3000-4000)×0.6)~11025Hz。在由該伸縮移動的結(jié)果生成的2個短時間傅立葉波譜41b中,共振峰形狀50的頻率成為統(tǒng)一為頻率f1、f2的狀態(tài)。
接著,波譜過渡部205a將進行了這種頻率軸上的變形的兩短時間傅立葉波譜41b的強度變形。即,波譜過渡部205a將音質(zhì)A的短時間傅立葉波譜41b的強度變換為60%,將音質(zhì)Z的短時間傅立葉波譜41b的強度變換為40%。接著,波譜過渡部205a如上所述,將變換了強度的這些短時間傅立葉波譜疊加。
圖12是用來使變換了強度的2個短時間傅立葉波譜疊加的狀況的說明圖。
如該圖12所示,波譜過渡部205a將變換了強度的音質(zhì)A的短時間傅立葉波譜41c、和同樣變換了強度的音質(zhì)B的短時間傅立葉波譜41c疊加,生成新的短時間傅立葉波譜41d。此時,波譜過渡部205a在使相互的短時間傅立葉波譜41c的上述頻率f1、f2一致的狀態(tài)下,將兩短時間傅立葉波譜41c疊加。
并且,波譜過渡部205a每當(dāng)進行兩合成音波譜41的時間軸對準(zhǔn)的時刻,進行上述那樣的短時間傅立葉波譜41d的生成。結(jié)果,以4∶6的比例進行音質(zhì)A的合成音波譜41與音質(zhì)Z的合成音波譜41的聲音過渡處理,生成中間合成音波譜42。
聲音過渡部205的波形生成部205b將上述那樣由波譜過渡部205a生成的中間合成音波譜42變換為中間合成音波形數(shù)據(jù)12,將其輸出給揚聲器107。結(jié)果,從揚聲器107輸出與中間合成音波譜42對應(yīng)的合成聲音。
這樣,在本實施方式中也與實施方式1同樣,能夠從文本10生成音質(zhì)自由度較寬、音質(zhì)良好的合成聲音。
(變形例)這里對本實施方式的波譜過渡部的動作的變形例進行說明。
有關(guān)本變形例的波譜過渡部不是如上述那樣從合成音波譜41提取表示其形狀特征的共振峰形狀50來利用,而是讀出預(yù)先保存在聲音合成DB中的樣條(spline)曲線的控制點的位置,代替共振峰形狀50而使用該樣條曲線。
即,將對應(yīng)于各聲音單元的共振峰形狀50看作頻率對時間的2維平面上的多條樣條曲線,將該樣條曲線的控制點的位置預(yù)先保存在聲音合成DB中。
這樣,有關(guān)本變形例的波譜過渡部不特意從合成音波譜41中提取共振峰形狀50,而是利用預(yù)先保存在聲音合成DB中的表示控制點的位置的樣條曲線來進行時間軸及頻率軸上的變換處理,所以能夠迅速地進行上述變換處理。
另外,也可以不是將上述那樣的樣條曲線的控制點位置、而是將共振峰形狀50本身預(yù)先保存在聲音合成DB201a~201z中。
(實施方式3)圖13是表示有關(guān)本發(fā)明的實施方式3的聲音合成裝置的結(jié)構(gòu)的結(jié)構(gòu)圖。
本實施方式的聲音合成裝置利用聲音波形來代替實施方式1的聲音合成參數(shù)值串11、及實施方式2的合成音波譜41,來進行通過該聲音波形的聲音過渡處理。
這種聲音合成裝置具備多個聲音合成DB301a~301z,儲存有關(guān)多個聲音單元的聲音單元數(shù)據(jù);多個聲音合成部303,通過利用儲存在1個聲音合成DB中的聲音單元數(shù)據(jù),生成與文本10所示的字符串對應(yīng)的合成音波形數(shù)據(jù)61;音質(zhì)指定部104,根據(jù)用戶的操作指定音質(zhì);聲音過渡部305,利用由多個聲音合成部303生成的合成音波形數(shù)據(jù)61進行聲音過渡處理,輸出中間合成音波形數(shù)據(jù)12;揚聲器107,根據(jù)中間合成音波形數(shù)據(jù)12輸出合成聲音。
多個聲音合成DB301a~301z的各個存儲的聲音單元數(shù)據(jù)表示的音質(zhì)與實施方式1的聲音合成DB101a~101z同樣,是不同的。此外,本實施方式中的聲音單元數(shù)據(jù)以聲音波形的形式表現(xiàn)。
多個聲音合成部303分別與上述聲音合成DB一一對應(yīng)。并且,各聲音合成部303取得文本10,將文本10所示字符串變換為音素信息。進而,聲音合成部303從對應(yīng)的聲音合成DB的聲音單元數(shù)據(jù)中提取有關(guān)合適的聲音單元的部分,進行提取的部分的結(jié)合與變形,由此來生成作為與前面生成的音素信息對應(yīng)的聲音波形的合成音波形數(shù)據(jù)61。
音質(zhì)指定部104與實施方式1同樣,根據(jù)用戶的操作,對聲音過渡部305指示利用哪個合成音波形數(shù)據(jù)61、對該合成音波形數(shù)據(jù)61以怎樣的比例進行聲音過渡處理。進而,音質(zhì)指定部104使該比例沿著時間序列變化。
本實施方式的聲音過渡部305取得從多個聲音合成部303輸出的合成音波形數(shù)據(jù)61,生成具有其中間性質(zhì)的中間合成音波形數(shù)據(jù)12并輸出。
圖14是用來說明聲音過渡部305的處理動作的說明圖。
本實施方式的聲音過渡部305具備波形編輯部305a。
該波形編輯部305a確定由音質(zhì)指定部104指定的至少2個合成音波形數(shù)據(jù)61和比例,根據(jù)這些合成音波形數(shù)據(jù)61,生成對應(yīng)于該比例的中間合成音波形數(shù)據(jù)12。
即,波形編輯部305a從多個合成音波形數(shù)據(jù)61中選擇由音質(zhì)指定部104指定的2個以上的合成音波形數(shù)據(jù)61。接著,波形編輯部305a根據(jù)由音質(zhì)指定部104指定的比例,對該選擇的各個合成音波形數(shù)據(jù)61,使例如各聲音的各取樣時刻的間距頻率及振幅、各聲音的各有聲區(qū)間的持續(xù)時間長等變形。波形編輯部305a將這樣變形的合成音波形數(shù)據(jù)61疊加,由此來生成中間合成音波形數(shù)據(jù)12。
揚聲器107從波形編輯部305a取得這樣生成的中間合成音波形數(shù)據(jù)12,輸出與該中間合成音波形數(shù)據(jù)12對應(yīng)的合成聲音。
這樣,在本實施方式中也與實施方式1同樣,能夠從文本10生成音質(zhì)自由度較寬、音質(zhì)良好的合成聲音。
(實施方式4)圖15是表示有關(guān)本發(fā)明的實施方式4的聲音合成裝置的結(jié)構(gòu)的結(jié)構(gòu)圖。
本實施方式的聲音合成裝置顯示對應(yīng)于輸出的合成聲音的音質(zhì)的臉部圖像,具備包含在實施方式1中的結(jié)構(gòu)要素;多個圖像DB401a~401z,儲存有關(guān)多個臉部圖像的圖像信息;圖像過渡部405,利用儲存在這些圖像DB401a~401z中的臉部圖像的信息進行圖像過渡處理,并輸出中間臉部圖像數(shù)據(jù)12p;顯示部407,從圖像過渡部405取得中間臉部圖像數(shù)據(jù)12p,顯示與該中間臉部圖像數(shù)據(jù)12p對應(yīng)的臉部圖像。
各個圖像DB401a~401z存儲的圖像信息所表示的臉部圖像的表情不同。例如,在與生氣的音質(zhì)的聲音合成DB101a對應(yīng)的圖像DB401a中儲存有有關(guān)生氣的表情的臉部圖像的圖像信息。此外,在儲存在圖像DB401a~401z中的臉部圖像的圖像信息中,附加有臉部圖像的眉毛及嘴邊或中央、眼睛的中心點等、用來控制該臉部圖像表示的表情的印象的特征點。
圖像過渡部405從與由音質(zhì)指定部104指定的各合成聲音參數(shù)值串102各自的音質(zhì)相對應(yīng)的圖像DB中取得圖像信息。接著,圖像過渡部405利用所取得的圖像信息進行與由音質(zhì)指定部104指定的比例對應(yīng)的圖像過渡處理。
具體而言,圖像過渡部405將所取得的一個臉的圖像變形(warping),以使由該一個圖像信息表示的臉部圖像的特征點的位置,以由音質(zhì)指定部104指定的比例向由所取得的另一個圖像信息表示的臉部圖像的特征點的位置位移,與此同樣,將另一個臉圖像變形,以使該另一個臉部圖像的特征點的位置以由音質(zhì)指定部104指定的比例向該一個臉部圖像的特征點的位置位移。并且,圖像過渡部405通過根據(jù)由音質(zhì)指定部104指定的比例將變形后的各個圖像進行交替疊化(cross dissolve),來生成中間臉部圖像數(shù)據(jù)12p。
由此,在本實施方式中,例如能夠總是使代理(ェ一ジェンと)的臉部圖像與合成聲音的音質(zhì)的印象總是一致。即,本實施方式的聲音合成裝置在進行代理的平常聲音與生氣聲音之間的聲音過渡,生成稍微生氣的音質(zhì)的合成聲音時,以與聲音過渡同樣的比例進行代理的平常臉部圖像與生氣臉部圖像之間的圖像過渡,并顯示代理的適合于其合成聲音的稍微生氣的臉部圖像。換言之,能夠使用戶對于具有感情的代理感到的聽覺印象與視覺印象一致,能夠提高代理提示的信息的自然性。
圖16是用來說明本實施方式的聲音合成裝置的動作的說明圖。
例如,如果用戶通過操作音質(zhì)指定部104而將圖3所示的顯示器上的指定圖標(biāo)104i配置在將連結(jié)音質(zhì)圖標(biāo)104A與音質(zhì)圖標(biāo)104Z的線段4∶6分割的位置上,則聲音合成裝置利用音質(zhì)A及音質(zhì)Z的聲音合成參數(shù)值串11,進行對應(yīng)于該4∶6的比例的聲音過渡處理,并輸出音質(zhì)A及音質(zhì)B的中間音質(zhì)x的合成聲音,以使從揚聲器107輸出的合成聲音以10%靠近音質(zhì)A。與此同時,聲音合成裝置利用與音質(zhì)A對應(yīng)的臉部圖像P1、和與音質(zhì)Z對應(yīng)的臉部圖像P2,進行對應(yīng)于與上述比例相同的4∶6的比例的圖像過渡處理,生成這些圖像的中間臉部圖像P3并顯示。這里,聲音合成裝置在進行圖像過渡時,如上述那樣將臉部圖像P1變形,以使臉部圖像P1的眉毛及嘴邊等特征點的位置以40%的比例朝向臉部圖像P2的眉毛及嘴邊等特征點的位置變化,與此同樣,將臉部圖像P2變形,以使臉部圖像P2的特征點的位置以60%的比例朝向臉部圖像P1的特征點的位置變化。接著,圖像過渡部405對變形后的臉部圖像P1以60%的比例、對變形后的臉部圖像P2以40%的比例進行交替疊化,結(jié)果,生成臉部圖像P3。
這樣,本實施方式的聲音合成裝置在從揚聲器107輸出的合成聲音的音質(zhì)為“生氣”時,在顯示部407上顯示“生氣”模樣的臉部圖像,在音質(zhì)為“哭泣”時,在顯示部407上顯示“哭泣”模樣的臉部圖像。進而,本實施方式的聲音合成裝置在其音質(zhì)為“生氣”與“哭泣”中間時,顯示“生氣”的臉部圖像與“哭泣”的臉部圖像的中間臉部圖像,并且,在其音質(zhì)從“生氣”隨時間向“哭泣”變化時,使中間臉部圖像與其音質(zhì)一致地隨時間變化。
另外,圖像過渡可以通過其他各種方法來進行,但只要是能夠通過指定作為源的圖像間的比例來指定目的圖像的方法,采用哪種方法都可以。
工業(yè)實用性本發(fā)明具有能夠從文本數(shù)據(jù)生成音質(zhì)自由度較寬、音質(zhì)良好的合成聲音的效果,能夠應(yīng)用在對用戶輸出表現(xiàn)感情的合成聲音的聲音合成裝置等中。
權(quán)利要求
1.一種聲音合成裝置,其特征在于,具備存儲單元,預(yù)先存儲有與屬于第1音質(zhì)的多個聲音單元有關(guān)的第1聲音單元信息、以及與屬于不同于上述第1音質(zhì)的第2音質(zhì)的多個聲音單元有關(guān)的第2聲音單元信息;聲音信息生成單元,取得文本數(shù)據(jù),并且根據(jù)上述存儲單元的第1聲音單元信息生成表示與包含在上述文本數(shù)據(jù)中的字符對應(yīng)的、上述第1音質(zhì)的合成聲音的第1合成聲音信息,并根據(jù)上述存儲單元的第2聲音單元信息生成表示與包含在上述文本數(shù)據(jù)中的字符對應(yīng)的、上述第2音質(zhì)的合成聲音的第2合成聲音信息;過渡單元,從由上述聲音信息生成單元生成的上述第1及第2合成聲音信息,生成表示與包含在上述文本數(shù)據(jù)中的字符對應(yīng)的、上述第1及第2音質(zhì)的中間音質(zhì)的合成聲音的中間合成聲音信息;以及聲音輸出單元,將由上述過渡單元生成的上述中間合成聲音信息變換為上述中間音質(zhì)的合成聲音并輸出,上述聲音信息生成單元將上述第1及第2合成聲音信息分別作為多個特征參數(shù)的串而生成,上述過渡單元通過計算上述第1及第2合成聲音信息的相互對應(yīng)的特征參數(shù)的中間值,來生成上述中間合成聲音信息。
2.如權(quán)利要求1所述的聲音合成裝置,其特征在于,上述過渡單元使上述第1及第2合成聲音信息對上述中間合成聲音信息起作用的比例變化,以使從上述聲音輸出單元輸出的合成聲音的音質(zhì)在其輸出過程中連續(xù)變化。
3.如權(quán)利要求1所述的聲音合成裝置,其特征在于,上述存儲單元將特征信息包含并存儲在上述各個第1及第2聲音單元信息中,其中該特征信息的內(nèi)容表示由上述各個第1及第2聲音單元信息所表示的各聲音單元中的基準(zhǔn),上述聲音信息生成單元分別包含上述特征信息而生成上述第1及第2合成聲音信息,上述過渡單元在將上述第1及第2合成聲音信息利用由各自包含的上述特征信息所表示的基準(zhǔn)來整合之后,生成上述中間合成聲音信息。
4.如權(quán)利要求3所述的聲音合成裝置,其特征在于,上述基準(zhǔn)是由上述各個第1及第2聲音單元信息所表示的各聲音單元的聲響特征的變化點。
5.如權(quán)利要求4所述的聲音合成裝置,其特征在于,上述聲響特征的變化點是用HMM(Hidden Markov Model)來表示由上述各個第1及第2聲音單元信息所表示的各聲音單元的最優(yōu)路徑上的狀態(tài)遷移點,上述過渡單元在利用上述狀態(tài)遷移點在時間軸上整合上述第1及第2合成聲音信息之后,生成上述中間合成聲音信息。
6.如權(quán)利要求1所述的聲音合成裝置,其特征在于,上述聲音合成裝置還具備圖像存儲單元,預(yù)先存儲有表示與上述第1音質(zhì)對應(yīng)的圖像的第1圖像信息、以及表示與上述第2音質(zhì)對應(yīng)的圖像的第2圖像信息;圖像過渡單元,根據(jù)上述第1及第2圖像信息生成中間圖像信息,該中間圖像信息表示作為由上述各個第1及第2圖像信息所表示的圖像的中間圖像的、與上述中間合成聲音信息的音質(zhì)對應(yīng)的圖像;以及顯示單元,取得由上述圖像過渡單元生成的中間圖像信息,與從上述聲音輸出單元輸出的合成聲音同步地顯示由上述中間圖像信息表示的圖像。
7.如權(quán)利要求6所述的聲音合成裝置,其特征在于,上述第1圖像信息表示與上述第1音質(zhì)對應(yīng)的臉部圖像,上述第2圖像信息表示與上述第2音質(zhì)對應(yīng)的臉部圖像。
8.如權(quán)利要求1所述的聲音合成裝置,其特征在于,上述聲音合成單元還具備指定單元,將表示上述第1及第2音質(zhì)的固定點、以及根據(jù)用戶的操作而移動的移動點分別配置表示在N維的坐標(biāo)上,其中N為自然數(shù),并根據(jù)上述固定點及移動點的配置,導(dǎo)出上述第1及第2合成聲音信息對上述中間合成聲音信息起作用的比例,將導(dǎo)出的比例指示給上述過渡單元,上述過渡單元根據(jù)由上述指定單元指定的比例,生成上述中間合成聲音信息。
9.如權(quán)利要求1所述的聲音合成裝置,其特征在于,上述聲音信息生成單元依次生成上述各個第1及第2合成聲音信息。
10.如權(quán)利要求1所述的聲音合成裝置,其特征在于,上述聲音信息生成單元并列地生成上述各個第1及第2合成聲音信息。
11.一種聲音合成方法,通過利用預(yù)先存儲有與屬于第1音質(zhì)的多個聲音單元有關(guān)的第1聲音單元信息、以及與屬于不同于上述第1音質(zhì)的第2音質(zhì)的多個聲音單元有關(guān)的第2聲音單元信息的存儲器,生成合成聲音并輸出,其特征在于,具有文本取得步驟,取得文本數(shù)據(jù);聲音信息生成步驟,根據(jù)上述存儲器的第1聲音單元信息,生成表示與包含在上述文本數(shù)據(jù)中的字符對應(yīng)的、上述第1音質(zhì)的合成聲音的第1合成聲音信息,并且根據(jù)上述存儲器的第2聲音單元信息,生成表示與包含在上述文本數(shù)據(jù)中的字符對應(yīng)的、上述第2音質(zhì)的合成聲音的第2合成聲音信息;過渡步驟,從由上述聲音信息生成步驟生成的上述第1及第2合成聲音信息,生成表示與包含在上述文本數(shù)據(jù)中的字符對應(yīng)的、上述第1及第2音質(zhì)的中間音質(zhì)的合成聲音的中間合成聲音信息;以及聲音輸出步驟,將由上述過渡步驟生成的上述中間合成聲音信息變換為上述中間音質(zhì)的合成聲音并輸出,在上述聲音信息生成步驟中,將上述第1及第2合成聲音信息分別作為多個特征參數(shù)的串而生成,在上述過渡步驟中,通過計算上述第1及第2合成聲音信息的相互對應(yīng)的特征參數(shù)的中間值,來生成上述中間合成聲音信息。
12.如權(quán)利要求11所述的聲音合成方法,其特征在于,在上述過渡步驟中,使上述第1及第2合成聲音信息對上述中間合成聲音信息起作用的比例變化,以使由上述聲音輸出步驟輸出的合成聲音的音質(zhì)在其輸出過程中連續(xù)變化。
13.如權(quán)利要求11所述的聲音合成方法,其特征在于,上述存儲器將特征信息包含并存儲在上述各個第1及第2聲音單元信息中,其中該特征信息的內(nèi)容表示由上述各個第1及第2聲音單元信息所表示的各聲音單元中的基準(zhǔn),在上述聲音信息生成步驟中,分別包含上述特征信息而生成上述第1及第2合成聲音信息,在上述過渡步驟中,在將上述第1及第2合成聲音信息利用由各自包含的上述特征信息所表示的基準(zhǔn)來整合之后,生成上述中間合成聲音信息。
14.如權(quán)利要求13所述的聲音合成方法,其特征在于,上述基準(zhǔn)是由上述各個第1及第2聲音單元信息所表示的各聲音單元的聲響特征的變化點。
15.如權(quán)利要求14所述的聲音合成方法,其特征在于,上述聲響特征的變化點是用HMM(Hidden Markov Model)來表示由上述各個第1及第2聲音單元信息所表示的各聲音單元的最優(yōu)路徑上的狀態(tài)遷移點,在上述過渡步驟中,在利用上述狀態(tài)遷移點在時間軸上整合上述第1及第2合成聲音信息之后,生成上述中間合成聲音信息。
16.如權(quán)利要求11所述的聲音合成方法,其特征在于,上述聲音合成方法還利用預(yù)先存儲有表示與上述第1音質(zhì)對應(yīng)的圖像的第1圖像信息、以及表示與上述第2音質(zhì)對應(yīng)的圖像的第2圖像信息的圖像存儲器;以及上述聲音合成方法還具有圖像過渡步驟,根據(jù)上述圖像存儲器的第1及第2圖像信息生成中間圖像信息,該中間圖像信息表示作為由上述各個第1及第2圖像信息所表示的圖像的中間圖像的、與上述中間合成聲音信息的音質(zhì)對應(yīng)的圖像;和顯示步驟,與由上述聲音輸出步驟輸出的合成聲音同步地顯示由上述圖像過渡步驟生成的中間圖像信息所表示的圖像。
17.如權(quán)利要求16所述的聲音合成方法,其特征在于,上述第1圖像信息表示與上述第1音質(zhì)對應(yīng)的臉部圖像,上述第2圖像信息表示與上述第2音質(zhì)對應(yīng)的臉部圖像。
18.一種程序,用來通過利用預(yù)先存儲有與屬于第1音質(zhì)的多個聲音單元有關(guān)的第1聲音單元信息、以及與屬于不同于上述第1音質(zhì)的第2音質(zhì)的多個聲音單元有關(guān)的第2聲音單元信息的存儲器,生成合成聲音并輸出,其特征在于,該程序使計算機執(zhí)行文本取得步驟,取得文本數(shù)據(jù);聲音信息生成步驟,根據(jù)上述存儲器的第1聲音單元信息,生成表示與包含在上述文本數(shù)據(jù)中的字符對應(yīng)的、上述第1音質(zhì)的合成聲音的第1合成聲音信息,并且根據(jù)上述存儲器的第2聲音單元信息,生成表示與包含在上述文本數(shù)據(jù)中的字符對應(yīng)的、上述第2音質(zhì)的合成聲音的第2合成聲音信息;過渡步驟,從由上述聲音信息生成步驟生成的上述第1及第2合成聲音信息,生成表示與包含在上述文本數(shù)據(jù)中的字符對應(yīng)的、上述第1及第2音質(zhì)的中間音質(zhì)的合成聲音的中間合成聲音信息;以及聲音輸出步驟,將由上述過渡步驟生成的上述中間合成聲音信息變換為上述中間音質(zhì)的合成聲音并輸出,在上述聲音信息生成步驟中,將上述第1及第2合成聲音信息分別作為多個特征參數(shù)的串而生成,在上述過渡步驟中,通過計算上述第1及第2合成聲音信息的相互對應(yīng)的特征參數(shù)的中間值,來生成上述中間合成聲音信息。
全文摘要
提供一種從文本數(shù)據(jù)生成音質(zhì)的自由度較寬、音質(zhì)良好的合成聲音的聲音合成裝置。聲音合成裝置具備聲音合成DB(101a,101z);聲音合成部(103),取得文本(10),并且從聲音合成DB(101a)生成與包含在文本(10)中的字符對應(yīng)的音質(zhì)A的聲音合成參數(shù)值串(11),從聲音合成DB(101z)生成與包含在文本(10)中的字符對應(yīng)的音質(zhì)Z的聲音合成參數(shù)值串(11);聲音過渡部(105),從音質(zhì)A及音質(zhì)Z的聲音合成參數(shù)值串(11)生成表示與包含在文本(10)中的文字對應(yīng)的、音質(zhì)A及音質(zhì)Z的中間音質(zhì)的合成聲音的中間聲音合成參數(shù)值串(13);揚聲器(107),將生成的中間聲音合成參數(shù)值串(13)變換為其合成聲音并輸出。
文檔編號G10L13/02GK1914666SQ20058000336
公開日2007年2月14日 申請日期2005年1月17日 優(yōu)先權(quán)日2004年1月27日
發(fā)明者齋藤夏樹, 釜井孝浩, 加藤弓子 申請人:松下電器產(chǎn)業(yè)株式會社