亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語(yǔ)音合成信息編輯設(shè)備的制作方法

文檔序號(hào):2836054閱讀:210來源:國(guó)知局
專利名稱:語(yǔ)音合成信息編輯設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種對(duì)用于語(yǔ)音合成的信息(語(yǔ)音合成信息)進(jìn)行編輯的技術(shù)。
背景技術(shù)
在傳統(tǒng)的語(yǔ)音合成技術(shù)中,作為合成對(duì)象的語(yǔ)音(下文中稱為合成語(yǔ)音)的每個(gè)音素的持續(xù)時(shí)間被指定為可變。日本專利申請(qǐng)公開No.Hei06-67685描述了如下技術(shù),其中當(dāng)指示對(duì)根據(jù)目標(biāo)任意字符串指定的音素的時(shí)間序列在時(shí)間軸上進(jìn)行擴(kuò)展或壓縮時(shí),以取決于音素類型(元音/輔音)的擴(kuò)展/壓縮度來增大/減小每個(gè)音素的持續(xù)時(shí)間。不過,由于實(shí)際語(yǔ)音中每個(gè)音素的持續(xù)時(shí)間不僅僅取決于音素類型,因此難以利用日本專利申請(qǐng)公開No. Hei06-67685中描述的以僅取決于音素類型的擴(kuò)展/壓縮度來對(duì)每個(gè)音素的持續(xù)時(shí)間進(jìn)行擴(kuò)展/壓縮的構(gòu)造來合成聽起來自然的語(yǔ)音。

發(fā)明內(nèi)容
鑒于上述情況,本發(fā)明的一個(gè)目的是生成語(yǔ)音合成信息,其即使在時(shí)間軸上執(zhí)行擴(kuò)展/壓縮的情況下也能夠合成聽起來自然的語(yǔ)音(下文稱為合成自然語(yǔ)音)。本發(fā)明通過如下手段來實(shí)現(xiàn)該目的。在后續(xù)說明中,盡管將對(duì)應(yīng)于本發(fā)明要素的后述實(shí)施例的要素引用在括號(hào)中以利于更好的理解,但是這種括號(hào)引用并非意在將本發(fā)明的范圍限制為這些實(shí)施例。根據(jù)本發(fā)明第一方面的語(yǔ)音合成信息編輯設(shè)備包括音素存儲(chǔ)單元(例如存儲(chǔ)裝置12),其存儲(chǔ)音素信息(例如音素信息SA),所述音素信息指示要合成的語(yǔ)音的每個(gè)音素的持續(xù)時(shí)間;特征存儲(chǔ)單元(例如存儲(chǔ)裝置12),其存儲(chǔ)特征信息(例如特征信息SB),所述特征信息指示語(yǔ)音的特征的時(shí)間變化;和編輯處理單元(例如編輯處理器M),其根據(jù)擴(kuò)展 /壓縮度(例如擴(kuò)展/壓縮度K(η))改變由所述音素信息指示的每個(gè)音素的持續(xù)時(shí)間,所述擴(kuò)展/壓縮度取決于與音素對(duì)應(yīng)的特征信息所指示的特征。與僅取決于音素類型來設(shè)置擴(kuò)展/壓縮度的構(gòu)造相比,通過上述構(gòu)造可以生成能夠合成聽起來自然的語(yǔ)音的語(yǔ)音合成信息,因?yàn)橐匀Q于每個(gè)音素特征的擴(kuò)展/壓縮度來改變(擴(kuò)展/壓縮)相應(yīng)音素的持續(xù)時(shí)間。例如,在特征信息指示音高(pitch)的時(shí)間變化的構(gòu)造中,當(dāng)擴(kuò)展要合成的語(yǔ)音時(shí),優(yōu)選的是編輯處理單元將擴(kuò)展/壓縮度設(shè)置為根據(jù)特征可變,于是音素持續(xù)時(shí)間的擴(kuò)展度隨著特征信息所指示的音素的音高變高而增大。通過這種方式可以生成自然語(yǔ)音,其中反映了隨著音高升高而增大擴(kuò)展度的傾向。另外,在壓縮合成語(yǔ)音時(shí),編輯處理單元可以將擴(kuò)展/壓縮度設(shè)置為在壓縮語(yǔ)音時(shí)隨特征可變,于是音素的持續(xù)時(shí)間的壓縮度隨著特征信息所指示的音素的音高變低而增大。通過這種方式可以生成自然語(yǔ)音,其中反映了隨著音高降低而增大壓縮度的傾向。另外,在特征信息指示音量的時(shí)間變化的構(gòu)造中,在擴(kuò)展合成語(yǔ)音時(shí),期望編輯處理單元將擴(kuò)展/壓縮度設(shè)置為根據(jù)特征可變,于是音素持續(xù)時(shí)間的擴(kuò)展度隨著特征信息所指示的音素的音量變大而增大。通過這種方式可以生成自然語(yǔ)音,其中反映了隨著音量增大而增大擴(kuò)展度的傾向。另外,在壓縮合成語(yǔ)音時(shí),編輯處理單元可以將擴(kuò)展/壓縮度設(shè)置為隨特征可變,于是音素的持續(xù)時(shí)間的壓縮度隨著特征信息所指示的音素的音量變小而增大。通過這種方式可以生成自然語(yǔ)音,其中反映了隨著音量變小而增大壓縮度的傾向。同時(shí),特征與擴(kuò)展/壓縮度之間的關(guān)系不限于上述示例。例如,假設(shè)擴(kuò)展度隨著音高降低而增大,則將擴(kuò)展/壓縮度設(shè)置為對(duì)于具有較高音高的音素而降低擴(kuò)展度,并且假設(shè)擴(kuò)展度隨著音量增大而降低,將擴(kuò)展/壓縮度設(shè)置為對(duì)于具有較大音量的音素而降低擴(kuò)展度。根據(jù)本發(fā)明的優(yōu)選實(shí)施例的語(yǔ)音合成信息編輯設(shè)備還包括顯示控制單元,其在顯示裝置上顯示包括音素序列圖像(例如音素序列圖像3 和特征輪廓圖像(例如特征輪廓圖像34)的編輯屏幕,所述音素序列圖像是在時(shí)間軸上排列的與語(yǔ)音的音素對(duì)應(yīng)的音素指示符(例如音素指示符42)的序列,每個(gè)音素指示符具有根據(jù)特征信息所指示的持續(xù)時(shí)間而設(shè)置的長(zhǎng)度,所述特征輪廓圖像表示在同一時(shí)間軸上排列的由特征信息指示的特征的時(shí)間序列,所述顯示控制單元還基于編輯處理單元的處理結(jié)果更新編輯屏幕。通過這種方式, 用戶可以直觀地了解每個(gè)音素的擴(kuò)展/壓縮,這是因?yàn)橐羲匦蛄袌D像和特征輪廓圖像以共同的時(shí)間軸顯示在顯示裝置上。在本發(fā)明的優(yōu)選方面中,特征信息指示針對(duì)在時(shí)間軸上排列的音素的每個(gè)編輯點(diǎn) (例如編輯點(diǎn)α)的特征,并且所述編輯處理單元對(duì)特征信息進(jìn)行更新,以使得編輯點(diǎn)相對(duì)音素的發(fā)聲區(qū)間的位置在每個(gè)音素的持續(xù)時(shí)間改變前后得以保持。根據(jù)該方面,可以在保持時(shí)間軸上的編輯點(diǎn)在每個(gè)音素的發(fā)聲區(qū)間中的位置的同時(shí)對(duì)每個(gè)音素進(jìn)行擴(kuò)展/壓縮。在本發(fā)明的優(yōu)選方面中,在更新特征的時(shí)間變化時(shí),編輯處理單元將音素信息所表示的音素發(fā)聲區(qū)間內(nèi)的編輯點(diǎn)在時(shí)間軸上的位置移動(dòng)一個(gè)取決于音素類型的量。通過這種方式,由于時(shí)間軸上的編輯點(diǎn)位置移動(dòng)了一個(gè)取決于與編輯點(diǎn)對(duì)應(yīng)的音素的類型的量, 因此可以容易地實(shí)現(xiàn)如下復(fù)雜的編輯處理,其中針對(duì)元音音素的編輯點(diǎn)在時(shí)間軸上的移動(dòng)量不同于針對(duì)輔音音素的編輯點(diǎn)的移動(dòng)量。于是可以減輕用戶編輯特征的時(shí)間變化的負(fù)擔(dān)。此方面的詳細(xì)示例將在后文中的第二實(shí)施例中說明。已經(jīng)提出了允許用戶指定合成語(yǔ)音的特征(例如音高)的時(shí)間變化的傳統(tǒng)語(yǔ)音合成技術(shù)。在顯示裝置上,將特征的時(shí)間變化顯示為連接排列在時(shí)間軸上的多個(gè)編輯點(diǎn)(斷點(diǎn))的虛線。不過,用戶需要單獨(dú)移動(dòng)各編輯點(diǎn)以改變(編輯)特征的時(shí)間變化,從而增加了用戶負(fù)擔(dān)。有鑒于此,本發(fā)明第二實(shí)施例的語(yǔ)音合成信息編輯設(shè)備包括音素存儲(chǔ)單元 (例如存儲(chǔ)裝置12),其存儲(chǔ)音素信息(例如音素信息SA),所述音素信息指示構(gòu)成要合成的語(yǔ)音的在時(shí)間軸上排列的多個(gè)音素;特征存儲(chǔ)單元(例如存儲(chǔ)裝置12),其存儲(chǔ)特征信息 (例如特征信息SB),所述特征信息指示位于排列在時(shí)間軸上并且分配給各音素的編輯點(diǎn) (例如編輯點(diǎn)α [m])處的語(yǔ)音特征;和編輯處理單元(例如編輯處理器M),其將處在音素的發(fā)聲區(qū)間內(nèi)的編輯點(diǎn)(例如編輯點(diǎn)α [m])在時(shí)間軸上的位置在時(shí)間軸的方向上移動(dòng)一個(gè)取決于音素類型的量(例如量δ T[m])。根據(jù)這種構(gòu)造,由于時(shí)間軸上的編輯點(diǎn)位置移動(dòng)了與編輯點(diǎn)的音素的類型對(duì)應(yīng)的量,因此可以容易地實(shí)現(xiàn)如下復(fù)雜編輯處理其中時(shí)間軸上針對(duì)元音音素的編輯點(diǎn)的移動(dòng)量不同于針對(duì)輔音音素的編輯點(diǎn)的移動(dòng)量。于是可以減輕用戶編輯特征的時(shí)間變化的負(fù)擔(dān)。此方面的詳細(xì)示例將在后文第二實(shí)施例中說明。
上述各方面的語(yǔ)音合成信息編輯設(shè)備通過專用于生成語(yǔ)音合成信息的諸如數(shù)字信號(hào)處理器(DSP)的硬件(電子電路)來實(shí)現(xiàn),還可以通過諸如中央處理器(CPU)的通用運(yùn)算處理裝置及程序來共同實(shí)現(xiàn)。根據(jù)本發(fā)明第一方面的程序通過計(jì)算機(jī)運(yùn)行來執(zhí)行語(yǔ)音合成信息編輯處理,所述語(yǔ)音合成信息編輯處理包括提供音素信息,其指示要合成的語(yǔ)音的每個(gè)音素的持續(xù)時(shí)間;提供特征信息,其指示語(yǔ)音特征的時(shí)間變化;和根據(jù)擴(kuò)展/壓縮度改變由所述音素信息指示的每個(gè)音素的持續(xù)時(shí)間,所述擴(kuò)展/壓縮度取決于與音素對(duì)應(yīng)的特征信息所指示的特征。另外,根據(jù)本發(fā)明第二方面的程序通過計(jì)算機(jī)運(yùn)行來執(zhí)行語(yǔ)音合成信息編輯處理,所述語(yǔ)音合成信息編輯處理包括提供音素信息,其指示構(gòu)成要合成的語(yǔ)音的在時(shí)間軸上排列的多個(gè)音素;提供特征信息,其指示位于排列在時(shí)間軸上、并且分配給音素的編輯點(diǎn)處的語(yǔ)音特征;以及將處在音素的發(fā)聲區(qū)間內(nèi)的編輯點(diǎn)在時(shí)間軸上的位置在時(shí)間軸的方向上移動(dòng)一個(gè)取決于音素類型的量。根據(jù)上述方面的程序,可以得到與本發(fā)明的語(yǔ)音合成信息編輯設(shè)備相同的操作和效果。本發(fā)明的程序存儲(chǔ)在計(jì)算機(jī)可讀記錄介質(zhì)中, 提供給用戶并安裝在計(jì)算機(jī)中。另外,這些程序可以從服務(wù)器裝置通過通信網(wǎng)絡(luò)以傳輸方式提供,并且安裝在計(jì)算機(jī)中。本發(fā)明可以指定為用于生成語(yǔ)音合成信息的方法。本發(fā)明第一方面的語(yǔ)音合成信息編輯方法包括提供音素信息,其指示要合成的語(yǔ)音的每個(gè)音素的持續(xù)時(shí)間;提供特征信息,其指示語(yǔ)音特征的時(shí)間變化;和根據(jù)擴(kuò)展/壓縮度改變由所述音素信息指示的每個(gè)音素的持續(xù)時(shí)間,所述擴(kuò)展/壓縮度取決于與音素對(duì)應(yīng)的特征信息所指示的特征。另外,根據(jù)本發(fā)明第二方面的語(yǔ)音合成信息編輯方法包括提供音素信息,其指示構(gòu)成要合成的語(yǔ)音的在時(shí)間軸上排列的多個(gè)音素;提供特征信息,其指示位于排列在時(shí)間軸上、并且分配給音素的編輯點(diǎn)處的語(yǔ)音特征;以及將處在音素的發(fā)聲區(qū)間內(nèi)的編輯點(diǎn)在時(shí)間軸上的位置在時(shí)間軸的方向上移動(dòng)一個(gè)取決于音素類型的量。根據(jù)上述方面的語(yǔ)音合成信息編輯方法, 可以得到與本發(fā)明的語(yǔ)音合成信息編輯設(shè)備相同的操作和效果。


圖1是根據(jù)本發(fā)明第一實(shí)施例的語(yǔ)音合成設(shè)備的框圖。圖2是編輯屏幕的示意圖。圖3是語(yǔ)音合成信息(音素信息、特征信息)的示意圖。圖4是用于說明擴(kuò)展/壓縮合成語(yǔ)音的過程的示圖。圖5 (A)及圖5 (B)是用于說明根據(jù)第二實(shí)施例對(duì)編輯點(diǎn)的時(shí)間序列進(jìn)行編輯的過程的示圖。圖6是用于說明編輯點(diǎn)的移動(dòng)的示圖。
具體實(shí)施例方式<A 第一實(shí)施例>圖1是根據(jù)本發(fā)明第一實(shí)施例的語(yǔ)音合成設(shè)備100的框圖。語(yǔ)音合成設(shè)備100是合成期望的合成語(yǔ)音的聲音處理設(shè)備,并且實(shí)現(xiàn)為包括運(yùn)算處理裝置10、存儲(chǔ)裝置12、輸入裝置14、顯示裝置16和聲音輸出裝置18的計(jì)算機(jī)系統(tǒng)。輸入裝置14 (例如鼠標(biāo)或鍵盤) 從用戶接收指令。顯示裝置16 (例如液晶顯示器)顯示運(yùn)算處理裝置10所指示的圖像。聲音輸出裝置18 (例如揚(yáng)聲器或耳機(jī))基于語(yǔ)音信號(hào)X再現(xiàn)聲音。存儲(chǔ)裝置12存儲(chǔ)通過運(yùn)算處理裝置10執(zhí)行的程序PGM以及信息(例如語(yǔ)音元素組V和語(yǔ)音合成信息幻??梢匀我獠捎靡阎挠涗浗橘|(zhì)(如半導(dǎo)體記錄介質(zhì)或磁記錄介質(zhì)或者多種類型的記錄介質(zhì)的組合)來作為存儲(chǔ)裝置12。語(yǔ)音元素組V是由對(duì)應(yīng)于不同語(yǔ)音元素的多個(gè)元素?cái)?shù)據(jù)(例如語(yǔ)音元素波形的樣本序列)構(gòu)成的語(yǔ)音合成庫(kù),其用作語(yǔ)音合成的材料。語(yǔ)音元素是對(duì)應(yīng)于用于識(shí)別語(yǔ)言含義的最小單位(例如元音或輔音)的音素,或者是由多個(gè)連接在一起的音素構(gòu)成的音素鏈。 語(yǔ)音合成信息S指示要合成的語(yǔ)音的音素和特征(將在下文詳細(xì)說明)。運(yùn)算處理裝置10通過執(zhí)行存儲(chǔ)在存儲(chǔ)裝置12中的程序PGM來實(shí)現(xiàn)生成語(yǔ)音信號(hào) X所需的多個(gè)功能(顯示控制器22、編輯處理器M、和語(yǔ)音合成器沈)。語(yǔ)音信號(hào)X表示合成語(yǔ)音的波形。盡管在此構(gòu)造中將運(yùn)算處理裝置10的功能實(shí)現(xiàn)為專用電子電路DSP,但也可以采用將運(yùn)算處理裝置10的功能分布至多個(gè)集成電路的構(gòu)造。顯示控制器22在顯示裝置16上顯示圖2所示的編輯屏幕30,其在編輯要合成的語(yǔ)音時(shí)由用戶視覺識(shí)別。如圖2所示,編輯屏幕30包括音素序列圖像32和特征輪廓圖像 34,其中音素序列圖像32將構(gòu)成合成語(yǔ)音的多個(gè)音素的時(shí)間序列顯示給用戶,特征輪廓圖像34顯示合成語(yǔ)音的特征的時(shí)間變化。音素序列圖像32和特征輪廓圖像34共同地基于時(shí)間軸52(橫軸)而排列。第一實(shí)施例示出了合成語(yǔ)音的音高來作為特征輪廓圖像34所顯示的特征。音素序列圖像32包括分別表示合成語(yǔ)音的各個(gè)音素的音素指示符42,其在時(shí)間軸52的方向上按時(shí)間序列排列。一個(gè)音素指示符42在時(shí)間軸52的方向上的位置(例如一個(gè)音素指示符42的左端點(diǎn))是每個(gè)音素發(fā)聲的起始點(diǎn),一個(gè)音素指示符42在時(shí)間軸52 的方向上的長(zhǎng)度表明每個(gè)音素持續(xù)發(fā)聲的時(shí)間長(zhǎng)度(下文中稱為“持續(xù)時(shí)間”)。用戶可以通過在確認(rèn)編輯屏幕30的同時(shí)適當(dāng)?shù)夭僮鬏斎胙b置14來指示對(duì)音素序列圖像32進(jìn)行編輯。例如,用戶指示將音素指示符42添加到音素序列圖像32上的任意點(diǎn)處、刪除已有的音素指示符42、指定針對(duì)特定音素指示符42的音素、或者改變指定的音素。顯示控制器22根據(jù)來自用戶的針對(duì)音素序列圖像32的指令來更新音素序列圖像32。圖2所示的特征輪廓圖像34在設(shè)有時(shí)間軸52和音高軸(豎軸)54的平面上示出了表示合成語(yǔ)音的音高的時(shí)間變化(軌跡)的轉(zhuǎn)移線56。轉(zhuǎn)移線56是連接在時(shí)間軸52上按時(shí)間序列排列的多個(gè)編輯點(diǎn)(斷點(diǎn))的虛線。用戶可以在確認(rèn)編輯屏幕30的同時(shí)通過適當(dāng)?shù)夭僮鬏斎胙b置14來指示要編輯的特征輪廓圖像34。例如,用戶指示將編輯點(diǎn)α添加至特征輪廓圖像34上的任意點(diǎn)處、或者移動(dòng)或刪除已有的編輯點(diǎn)a。顯示控制器22根據(jù)來自用戶的針對(duì)特征輪廓圖像34的指令來更新特征輪廓圖像34。例如,當(dāng)用戶指示移動(dòng)編輯點(diǎn)α?xí)r,更新特征輪廓圖像34以移動(dòng)特征輪廓圖像34的編輯點(diǎn)α,并且更新轉(zhuǎn)移線 56以使得轉(zhuǎn)移線56經(jīng)過移動(dòng)后的編輯點(diǎn)α。圖1所示的編輯處理器M生成與編輯屏幕30的內(nèi)容對(duì)應(yīng)的語(yǔ)音合成信息S、將語(yǔ)音合成信息S存儲(chǔ)在存儲(chǔ)裝置12中、并且在用戶編輯編輯屏幕30的指示下更新語(yǔ)音合成信息S。圖3是語(yǔ)音合成信息S的示意圖。如圖3所示,語(yǔ)音合成信息S包括對(duì)應(yīng)于音素序列圖像32的音素信息SA以及對(duì)應(yīng)于特征輪廓圖像34的特征信息SB。音素信息SA包含表示排列在時(shí)間軸上的多個(gè)音素的音素序列信息。
音素信息SA指示構(gòu)成合成語(yǔ)音的音素的時(shí)間序列,并且由與設(shè)置在音素序列圖像32中的每個(gè)音素對(duì)應(yīng)的單位信息UA的時(shí)間序列構(gòu)成。單位信息UA指示音素的識(shí)別信息al、發(fā)聲起始時(shí)刻a2、和持續(xù)時(shí)間(即音素持續(xù)發(fā)聲的持續(xù)時(shí)間)a3。當(dāng)把音素指示符 42添加至音素序列圖像32時(shí),編輯處理器M將對(duì)應(yīng)于音素指示符42的單位信息UA添加至音素信息SA,并根據(jù)用戶指令更新單位信息UA0具體來說,編輯處理器M針對(duì)對(duì)應(yīng)于每個(gè)音素指示符42的單位信息UA來設(shè)置由每個(gè)音素指示符42指示的音素的識(shí)別信息al,并且根據(jù)音素指示符42在時(shí)間軸52的方向上的位置和長(zhǎng)度來設(shè)置發(fā)聲起始時(shí)刻a2和持續(xù)時(shí)間a3。可以采用其中單位信息UA包括發(fā)聲起始時(shí)刻和結(jié)束時(shí)刻的構(gòu)造(將處在發(fā)聲起始時(shí)刻和結(jié)束時(shí)刻之間的時(shí)間指定為持續(xù)時(shí)間a3的構(gòu)造)。特征信息SB指示合成語(yǔ)音的音高(特征)的時(shí)間變化,并且由與特征輪廓圖像34 的不同編輯點(diǎn)α對(duì)應(yīng)的多個(gè)單位信息項(xiàng)UB的時(shí)間序列構(gòu)成,如圖3所示。每個(gè)單位信息 UB指定編輯點(diǎn)α的時(shí)刻bl和分配給編輯點(diǎn)α的音高1^2。當(dāng)把編輯點(diǎn)α添加至特征輪廓圖像34時(shí),編輯處理器M將對(duì)應(yīng)于編輯點(diǎn)α的單位信息UB添加至特征信息SB,并且根據(jù)用戶指令更新單位信息UB。具體來說,編輯處理器M針對(duì)對(duì)應(yīng)于編輯點(diǎn)α的單位信息 UB,根據(jù)每個(gè)編輯點(diǎn)α在時(shí)間軸52上的位置來設(shè)置時(shí)刻bl,并且根據(jù)編輯點(diǎn)α在音高軸 M上的位置來設(shè)置音高1^2。圖1所示的語(yǔ)音合成單元沈生成由存儲(chǔ)在存儲(chǔ)裝置12中的語(yǔ)音合成信息S所指示的合成語(yǔ)音的語(yǔ)音信號(hào)X。具體來說,語(yǔ)音合成單元26從語(yǔ)音元素組V順序獲取與語(yǔ)音合成信息S的音素信息SA的單位信息UA所指示的識(shí)別信息al相對(duì)應(yīng)的元素?cái)?shù)據(jù),將元素?cái)?shù)據(jù)調(diào)整為單位信息UA的持續(xù)時(shí)間a3和特征信息SB的單位信息UB所表示的音高1^2,連接這些元素?cái)?shù)據(jù)項(xiàng),并將元素?cái)?shù)據(jù)配置在單位信息UA的發(fā)聲起始時(shí)刻a2,從而生成語(yǔ)音信號(hào)X。當(dāng)參照編輯屏幕30指示合成語(yǔ)音的用戶通過操作輸入裝置14來指示執(zhí)行語(yǔ)音合成時(shí),通過語(yǔ)音合成單元沈執(zhí)行語(yǔ)音信號(hào)X的生成處理。通過語(yǔ)音合成單元沈生成的語(yǔ)音信號(hào)X提供至聲音輸出裝置18并且再現(xiàn)為聲波。當(dāng)指定了音素序列圖像32的音素指示符42的時(shí)間序列和特征輪廓圖像34的編輯點(diǎn)α的時(shí)間序列時(shí),可以通過操作輸入裝置14來指定包含相位連續(xù)的多個(gè)(N個(gè))音素的任意區(qū)間(下文中稱為目標(biāo)擴(kuò)展/壓縮區(qū)間),并且同時(shí)指示對(duì)此目標(biāo)擴(kuò)展/壓縮區(qū)間進(jìn)行擴(kuò)展或者壓縮。圖4(A)示出了其中用戶指定與發(fā)音“sonanoka”對(duì)應(yīng)的8個(gè)(N = 8) 音素σ [1]至σ [N]的時(shí)間序列(/s/、/0/、/n/、/a/、/n/、/0/、/k/、/a/)來作為目標(biāo)擴(kuò)展 /壓縮區(qū)間的一個(gè)編輯屏幕30。為了簡(jiǎn)明起見,圖4(A)中的目標(biāo)擴(kuò)展/壓縮區(qū)間中的N個(gè)音素σ [1]至σ [N]具有相同的持續(xù)時(shí)間a3。在實(shí)際生成話語(yǔ)的情況下(例如交談時(shí))對(duì)語(yǔ)音進(jìn)行擴(kuò)展或壓縮時(shí),根據(jù)語(yǔ)音的音高來改變擴(kuò)展/壓縮度的傾向是根據(jù)經(jīng)驗(yàn)獲取的。具體來說,對(duì)高音部分(通常是在交談時(shí)需要強(qiáng)調(diào)的部分)進(jìn)行擴(kuò)展并對(duì)低音部分(例如不必強(qiáng)調(diào)的部分)進(jìn)行壓縮。鑒于上述傾向,目標(biāo)擴(kuò)展/壓縮區(qū)間中每個(gè)音素的持續(xù)時(shí)間a3(音素指示符42的長(zhǎng)度)以取決于分配給該音素的音高1^2的程度而增大/減小。此外,考慮到元音比輔音更易于擴(kuò)展和壓縮, 對(duì)元音音素進(jìn)行比輔音音素更明顯的壓縮和擴(kuò)展。下面將詳細(xì)說明對(duì)目標(biāo)擴(kuò)展/壓縮區(qū)間中的每個(gè)音素的擴(kuò)展/壓縮。圖4(B)示出了在對(duì)圖4(A)所示的目標(biāo)擴(kuò)展/壓縮區(qū)間進(jìn)行擴(kuò)展時(shí)的編輯屏幕30。當(dāng)用戶指示對(duì)目標(biāo)擴(kuò)展/壓縮區(qū)間進(jìn)行擴(kuò)展時(shí),以如下方式擴(kuò)展目標(biāo)擴(kuò)展/壓縮區(qū)間中的音素,其中隨著特征信息SB所指示的音高1^2升高而增大擴(kuò)展度,并且對(duì)目標(biāo)擴(kuò)展/壓縮區(qū)間中的元音音素的擴(kuò)展度比輔音音素更大,如圖4(B)所示。例如,由特征信息SB指示的第二音素ο [2]的音高1^2比第六音素ο [6]高,盡管這兩個(gè)音素在圖4(B)中具有相同類型/ο/,于是第二音素ο [2]擴(kuò)展至比第六音素ο W]的持續(xù)時(shí)間a3( = Lb[6])更長(zhǎng)的持續(xù)時(shí)間a3( = Lb[2])。此外,由于音素ο [2]是元音/o/而第三音素ο [3]是輔音/ η/,于是音素σ [2]擴(kuò)展至比音素σ [3]的持續(xù)時(shí)間a3( = Lb [3])更長(zhǎng)的持續(xù)時(shí)間a3 (= LbM)。圖4(C)示出了對(duì)圖4㈧所示的目標(biāo)擴(kuò)展/壓縮區(qū)間進(jìn)行壓縮的編輯屏幕30。當(dāng)用戶指示對(duì)目標(biāo)擴(kuò)展/壓縮區(qū)間進(jìn)行壓縮時(shí),以如下方式壓縮目標(biāo)擴(kuò)展/壓縮區(qū)間中的音素,其中隨著特征信息SB所指示的音高1^2降低而增大壓縮度,并且對(duì)目標(biāo)擴(kuò)展/壓縮區(qū)間中的元音音素的壓縮度比輔音音素更大,如圖4(C)所示。例如,音素ο W]的音高1^2低于音素ο [2]的音高,于是將音素ο [6]壓縮至比音素ο [2]的持續(xù)時(shí)間a3( = Lb[2])更短的持續(xù)時(shí)間a3( = LbW])。此外,將音素σ [2]壓縮至比音素σ [3]的持續(xù)時(shí)間a3 (= Lb[3])更短的持續(xù)時(shí)間a3( = Lb[2])。上述通過編輯處理器M執(zhí)行的對(duì)音素進(jìn)行擴(kuò)展和壓縮的操作將在下面詳細(xì)描述。當(dāng)指示對(duì)目標(biāo)擴(kuò)展/壓縮區(qū)間進(jìn)行擴(kuò)展時(shí),編輯處理器M根據(jù)如下公式(1)計(jì)算第η 個(gè)音素σ [n] (n = 1至N)的擴(kuò)展/壓縮系數(shù)k[n]。k[n] = La[n] · R · P[n] (1)公式⑴中的符號(hào)La[n]表示單位信息UA所指示的對(duì)應(yīng)于擴(kuò)展前的音素σ [η] 的持續(xù)時(shí)間a3,如圖4(A)所示。公式(1)中的符號(hào)R表示預(yù)先針對(duì)每個(gè)音素(針對(duì)每個(gè)音素類型)設(shè)置的音素?cái)U(kuò)展/壓縮率。音素?cái)U(kuò)展/壓縮率R(表格)被預(yù)先選擇,并且存儲(chǔ)在存儲(chǔ)裝置12中。編輯處理器M在存儲(chǔ)裝置12中搜索與單位信息UA所指示的識(shí)別信息 al的音素σ [η]對(duì)應(yīng)的音素?cái)U(kuò)展/壓縮率R,并將此音素?cái)U(kuò)展/壓縮率R應(yīng)用于公式(1) 的計(jì)算。以使得元音音素比輔音音素的音素?cái)U(kuò)展/壓縮率R高的方式來設(shè)置每個(gè)音素的音素?cái)U(kuò)展/壓縮率R。因此,將元音音素的擴(kuò)展/壓縮系數(shù)k[n]設(shè)置為比輔音音素高的值。公式⑴中的符號(hào)P[n]表示音素σ [η]的音高。例如,編輯處理器M將由音素 σ [η]的發(fā)音區(qū)間內(nèi)的轉(zhuǎn)移線56所指示的音高的平均值、或者轉(zhuǎn)移線56中音素ο [η]的發(fā)聲區(qū)間中特定點(diǎn)(例如起始點(diǎn)或者中點(diǎn))處的音高確定為公式(1)的音高Ρ[η],然后將所確定的值應(yīng)用于公式(1)的計(jì)算。編輯處理器M通過如下公式(2)來計(jì)算擴(kuò)展/壓縮度K [η],在公式(2)中應(yīng)用了公式⑴的擴(kuò)展/壓縮系數(shù)k[n]。K[n] = k[n]/ Σ (k[n]) (2)公式⑵中的符號(hào)Σ (k[n])表示目標(biāo)擴(kuò)展/壓縮區(qū)間中所包含的全部(N個(gè))音素的擴(kuò)展/壓縮系數(shù)k[n]的和(Σ (k[n]) =k[l]+k[2]+...+k[n])。也即,公式(2)對(duì)應(yīng)于將擴(kuò)展/壓縮系數(shù)k[n]歸一化為小于等于1的正數(shù)的計(jì)算。編輯處理器M通過計(jì)算如下公式(3)來計(jì)算音素σ [η]擴(kuò)展后的持續(xù)時(shí)間 Lb [η],在公式(3)中應(yīng)用了公式(2)的擴(kuò)展/壓縮度K [η]。Lb[η] = La[η]+K[η] · AL (3)
公式(3)中的符號(hào)AL表示目標(biāo)擴(kuò)展/壓縮區(qū)間的擴(kuò)展/壓縮量(絕對(duì)值),并且根據(jù)用戶對(duì)輸入裝置14的操作設(shè)置為可變值。如圖4(A)和4(B)所示,目標(biāo)擴(kuò)展/壓縮區(qū)間擴(kuò)展后的總長(zhǎng)度Lb[l]+Lb[2]+. . . +Lb[N]與目標(biāo)擴(kuò)展/壓縮區(qū)間擴(kuò)展前的總長(zhǎng)度 La[l]+La[2]+...+La[N]之差的絕對(duì)值對(duì)應(yīng)于擴(kuò)展/壓縮量AL。從公式(3)可知,擴(kuò)展/ 壓縮度K[n]表示音素σ [η]的擴(kuò)展部分與目標(biāo)擴(kuò)展/壓縮區(qū)間的整體擴(kuò)展/壓縮量AL的比率。通過公式(3)的計(jì)算,以如下方式設(shè)置擴(kuò)展后的每個(gè)音素σ [η]的持續(xù)時(shí)間Lb[n], 其中擴(kuò)展度隨著音素ο [η]具有高的音高P [η]而增大,并且元音音素σ [η]的擴(kuò)展度大于輔音音素的擴(kuò)展度。在指示對(duì)目標(biāo)擴(kuò)展/壓縮區(qū)間進(jìn)行壓縮時(shí),編輯處理器M根據(jù)如下公式(4)計(jì)算目標(biāo)擴(kuò)展/壓縮區(qū)間中第η個(gè)音素σ [η]的擴(kuò)展/壓縮系數(shù)k[n]。k[n] = La [η] ‘ R/P[n] (4)公式(4)中的變量La[n]、R和P[n]的含義與公式(1)相同。編輯處理器M將通過公式⑷得到的擴(kuò)展/壓縮系數(shù)k[n]應(yīng)用于公式(2)來計(jì)算擴(kuò)展/壓縮度K [η]。從公式(4)可知,具有較低音高P[η]的音素σ [η]的擴(kuò)展/壓縮度K[η](擴(kuò)展/壓縮系數(shù)k[η]) 被設(shè)置為較大值。編輯處理器M通過計(jì)算如下公式( 來計(jì)算壓縮后的音素σ [η]的持續(xù)時(shí)間 Lb[n],在公式(5)中應(yīng)用了擴(kuò)展/壓縮度K[n]。Lb[η] = La[η]—K[η] · AL (5)從公式(5)中可知,每個(gè)壓縮后的音素σ [η]的持續(xù)時(shí)間Lb[η]均被設(shè)置為使得壓縮度隨著音素ο [η]具有低的音高Ρ[η]而增大的可變值,并且元音音素σ [η]的壓縮度大于輔音音素的壓縮度。以上對(duì)擴(kuò)展和壓縮后的持續(xù)時(shí)間Lb[η]的計(jì)算進(jìn)行了說明。當(dāng)通過上述過程計(jì)算目標(biāo)擴(kuò)展/壓縮區(qū)間中的N個(gè)音素σ [1]至σ [η]的持續(xù)時(shí)間Lb[n]時(shí),編輯處理器對(duì)將由音素信息SA中與每個(gè)音素σ [η]對(duì)應(yīng)的單位信息UA所指定的持續(xù)時(shí)間a3從擴(kuò)展/壓縮前的持續(xù)時(shí)間La[n]變?yōu)閿U(kuò)展/壓縮后的持續(xù)時(shí)間Lb[n](公式(3)或(5)的計(jì)算值), 并且針對(duì)擴(kuò)展/壓縮后的每個(gè)音素σ [η]的持續(xù)時(shí)間a3更新每個(gè)音素ο [η]的發(fā)聲起始時(shí)刻a2。此外,顯示控制器22將編輯屏幕30的音素序列圖像32改變?yōu)榕c通過編輯處理器 24更新之后的音素信息SA相對(duì)應(yīng)的內(nèi)容。如圖4(B)和4(C)所示,編輯處理器M更新特征信息SB,顯示控制器22更新特征輪廓圖像34,使得編輯點(diǎn)α相對(duì)每個(gè)音素ο [η]的發(fā)聲區(qū)間的位置在目標(biāo)擴(kuò)展/壓縮區(qū)間的擴(kuò)展/壓縮前后保持不變。換句話說,對(duì)應(yīng)于由特征信息SB指定的編輯點(diǎn)α的時(shí)刻bl 被適當(dāng)?shù)鼗蛘甙幢壤淖?,從而在擴(kuò)展/壓縮之后保持了在擴(kuò)展/壓縮之前的時(shí)刻bl與每個(gè)音素ο [η]的發(fā)聲區(qū)間之間的關(guān)系。因此,將編輯點(diǎn)α所指定的轉(zhuǎn)移線56擴(kuò)展/壓縮為對(duì)應(yīng)于每個(gè)音素σ [η]的擴(kuò)展/壓縮。在上述第一實(shí)施例中,根據(jù)每個(gè)音素ο [η]的音高Ρ[η]來可變地設(shè)置每個(gè)音素 σ [η]的音素?cái)U(kuò)展/壓縮度K [η]。因此,與日本專利申請(qǐng)公開No. Hei06_67685所公開的僅基于音素類型(元音/輔音)來設(shè)置擴(kuò)展/壓縮度K[n]的構(gòu)造相比,可以生成能夠合成聽起來自然的語(yǔ)音的語(yǔ)音合成信息S (以及進(jìn)一步使用語(yǔ)音合成信息S生成自然語(yǔ)音)。具體來說,在擴(kuò)展目標(biāo)擴(kuò)展/壓縮區(qū)間時(shí),將隨著音素的音高升高而使擴(kuò)展度增
10大的傾向應(yīng)用于自然語(yǔ)音,而在壓縮目標(biāo)擴(kuò)展/壓縮區(qū)間時(shí),將隨著音素的音高降低而使壓縮度增大的傾向應(yīng)用于自然語(yǔ)音?!碆 第二實(shí)施例>下面對(duì)本發(fā)明的第二實(shí)施例進(jìn)行說明。第二實(shí)施例是基于對(duì)特征信息SB所指示的編輯點(diǎn)α的時(shí)間序列(表示音高的時(shí)間變化的轉(zhuǎn)移線56)進(jìn)行編輯。在下文中,使用上文中所用的標(biāo)號(hào)并適當(dāng)?shù)厥÷詫?duì)與第一實(shí)施例中的元素具有相同操作和功能的元素的詳細(xì)說明。當(dāng)指令對(duì)音素的時(shí)間序列進(jìn)行擴(kuò)展/壓縮時(shí)的操作與第一實(shí)施例相對(duì)應(yīng)。圖5(A)和圖5(B)是用于對(duì)多個(gè)編輯點(diǎn)α的時(shí)間序列(轉(zhuǎn)移線56)的編輯過程進(jìn)行說明的示圖。圖5㈧例示了對(duì)應(yīng)于發(fā)音“kai”的多個(gè)音素/k/、/a/、/i/的時(shí)間序列和音高的時(shí)間變化,這些由用戶指定。用戶通過適當(dāng)?shù)夭僮鬏斎胙b置14在特征輪廓圖像34 中指定要編輯的矩形區(qū)域60 (下文中稱為“選擇區(qū)域”)。將選擇區(qū)域60指定為包括多個(gè) (M個(gè))相鄰的編輯點(diǎn)α [1]至α [Μ]。如圖5 (B)所示,用戶可以通過例如操作輸入裝置14移動(dòng)選擇區(qū)域60的角ZA以擴(kuò)展/壓縮(在圖5(B)的情況下為擴(kuò)展)選擇區(qū)域60。當(dāng)用戶擴(kuò)展/壓縮選擇區(qū)域60時(shí), 編輯處理器M更新特征信息SB,顯示控制器22更新特征輪廓圖像34,以使得選擇區(qū)域60 中包含的M個(gè)編輯點(diǎn)α [1]至α [Μ]響應(yīng)于選擇區(qū)域60的擴(kuò)展/壓縮而移動(dòng)(也即,M個(gè)編輯點(diǎn)α [1]至α [Μ]分布在擴(kuò)展/壓縮后的選擇區(qū)域60中)。由于對(duì)選擇區(qū)域60的擴(kuò)展/壓縮是出于更新轉(zhuǎn)移線56的目的進(jìn)行的編輯,因此每個(gè)音素的持續(xù)時(shí)間a3 (音素序列圖像32中的每個(gè)音素指示符42的長(zhǎng)度)不變。下面對(duì)選擇區(qū)域60擴(kuò)展或壓縮時(shí)每個(gè)編輯點(diǎn)α的移動(dòng)進(jìn)行詳細(xì)說明。盡管下述說明是基于圖6所示第m個(gè)編輯點(diǎn)α [m]的移動(dòng),但實(shí)際上如圖5 (B)所示,選擇區(qū)域60中的M個(gè)編輯點(diǎn)α [1]至α [Μ]根據(jù)相同規(guī)則移動(dòng)。如圖6所示,用戶可以在固定與角ZA相對(duì)的角(下文中稱為“基準(zhǔn)點(diǎn)”)的同時(shí)通過操作輸入裝置14移動(dòng)選擇區(qū)域60的角ZA以擴(kuò)展/壓縮(在圖6的情況下為擴(kuò)展) 選擇區(qū)域60。具體來說,假設(shè)選擇區(qū)域60在音高軸M的方向上的長(zhǎng)度LP擴(kuò)展一個(gè)擴(kuò)展/壓縮量ALP,在時(shí)間軸52的方向上的長(zhǎng)度LT擴(kuò)展一個(gè)擴(kuò)展/壓縮量ALT。編輯處理器對(duì)對(duì)編輯點(diǎn)α [m]在音高軸M的方向上的移動(dòng)量δ P [m]以及編輯點(diǎn) α [m]在時(shí)間軸52的方向上的移動(dòng)量δ T[m]進(jìn)行計(jì)算。在圖6中,音高差PA[m]表示移動(dòng)之前編輯點(diǎn)α [m]和基準(zhǔn)點(diǎn)&時(shí)之間的音高差,時(shí)間差TA[m]表示移動(dòng)之前編輯點(diǎn)α [m] 和基準(zhǔn)點(diǎn)之間的時(shí)間差。編輯處理器M通過如下公式(6)的計(jì)算來計(jì)算移動(dòng)量δ P [m]。δ P[m] = PA [m] · Δ LP/LP (6)也即,根據(jù)移動(dòng)之前相對(duì)于基準(zhǔn)點(diǎn)的音高差PA[m]以及選擇區(qū)域60在音高軸討的方向上的擴(kuò)展/壓縮度(Δ LP/LP)來可變地設(shè)置編輯點(diǎn)α [m]在音高軸M的方向上的移動(dòng)量δΡ[πι]0此外,編輯處理器M通過公式(7)的計(jì)算來計(jì)算移動(dòng)量δ T[m]。δ T[m] = R · TA [m] · Δ LT/LT (7)也即,除了根據(jù)移動(dòng)之前相對(duì)基準(zhǔn)點(diǎn)的時(shí)間差TA[m]以及選擇區(qū)域60在時(shí)間軸52的方向上的擴(kuò)展/壓縮度(ALT/LT),還根據(jù)音素?cái)U(kuò)展/壓縮率R來可變地設(shè)置編輯點(diǎn)α [m]在時(shí)間軸52的方向上的移動(dòng)量δ T[m]。如第一實(shí)施例中的情形一樣,每個(gè)音素的音素?cái)U(kuò)展/壓縮率R預(yù)先存儲(chǔ)在存儲(chǔ)裝置12中。編輯處理器M在存儲(chǔ)裝置12中從音素信息SA所指示的多個(gè)音素的發(fā)聲區(qū)間中搜索與包括移動(dòng)前的編輯點(diǎn)α [m]的一個(gè)音素對(duì)應(yīng)的音素?cái)U(kuò)展/壓縮率R,并將搜索到的音素?cái)U(kuò)展/壓縮率R應(yīng)用于公式(7)的計(jì)算。如第一實(shí)施例中的情形一樣,每個(gè)音素的音素?cái)U(kuò)展/壓縮率R被設(shè)置為元音音素的音素?cái)U(kuò)展/壓縮率R比輔音音素的高。因此,如果針對(duì)基準(zhǔn)點(diǎn)的時(shí)間差TA[m]以及選擇區(qū)域60在時(shí)間軸52的方向上的擴(kuò)展/壓縮度 ALT/LT為恒定,則編輯點(diǎn)α [m]在時(shí)間軸52的方向上的移動(dòng)量δΤ[πι]在編輯點(diǎn)α [m]對(duì)應(yīng)于元音音素的情況下相比編輯點(diǎn)α [m]對(duì)應(yīng)于輔音音素的情況下更大。在針對(duì)選擇區(qū)域60中的M個(gè)編輯點(diǎn)α [1]至α [Μ]中的每一個(gè)計(jì)算移動(dòng)量δ P[m] 和移動(dòng)量δ T [m]時(shí),編輯處理器M更新單位信息UB,使得特征信息SB的單位信息UB所指示的每個(gè)編輯點(diǎn)α [m]在音高軸M的方向上移動(dòng)了移動(dòng)量δ P[m],同時(shí)在時(shí)間軸52的方向上移動(dòng)了移動(dòng)量ST[m]。具體來說,從圖6可知,編輯處理器M在特征信息SB中編輯點(diǎn)α [m]的單位信息UB所指示的時(shí)刻b 1處加上了公式(7)的移動(dòng)量δΤ[πι],并且從單位信息UB所指示的音高1^2中減去了公式(6)的移動(dòng)量Sp[m]。顯示處理器22將編輯屏幕 30的特征輪廓圖像34更新為取決于通過編輯處理器M更新后的特征信息SB的內(nèi)容。也艮口,移動(dòng)選擇區(qū)域60中的M個(gè)編輯點(diǎn)α [1]至α [Μ],并將轉(zhuǎn)移線56更新為經(jīng)過移動(dòng)后的編輯點(diǎn)α [1]至α [Μ],如圖5(B)所示。如上文所述,在第二實(shí)施例中,編輯點(diǎn)α [m]在時(shí)間軸52的方向上移動(dòng)一個(gè)取決于音素類型(音素?cái)U(kuò)展/壓縮率R)的移動(dòng)量ST[m]。也即,如圖5(B)所示,對(duì)應(yīng)于元音音素/a/和/i/的編輯點(diǎn)α [m]根據(jù)選擇區(qū)域60的擴(kuò)展/壓縮而在時(shí)間軸52的方向上移動(dòng)的量相比對(duì)應(yīng)于輔音音素/k/的編輯點(diǎn)α [m]的移動(dòng)量更大。因此,可以通過擴(kuò)展或壓縮選擇區(qū)域60的簡(jiǎn)單操作來實(shí)現(xiàn)復(fù)雜的編輯,即在時(shí)間軸52上移動(dòng)對(duì)應(yīng)于元音音素的編輯點(diǎn)α [m]而同時(shí)限制對(duì)應(yīng)于輔音音素的編輯點(diǎn)α [m]的移動(dòng)。盡管上述示例包括第一實(shí)施例(其中每個(gè)音素σ [η]根據(jù)音高Ρ[η]來擴(kuò)展/壓縮)和第二實(shí)施例(其中基于音素類型來移動(dòng)編輯點(diǎn)α [m])的構(gòu)造,但是第一實(shí)施例的構(gòu)造(針對(duì)每個(gè)音素的擴(kuò)展/壓縮)也可以省略。同時(shí),在通過上述方法移動(dòng)每個(gè)編輯點(diǎn)α?xí)r,可能使得靠近選擇區(qū)域60邊緣的編輯點(diǎn)α (例如圖5(B)中的編輯點(diǎn)α [Μ])以及選擇區(qū)域60外的編輯點(diǎn)α (例如圖5(B)右側(cè)的第二編輯點(diǎn)α)在選擇區(qū)域60擴(kuò)展/壓縮前后在時(shí)間軸52上的位置發(fā)生變化。另外, 即使在選擇區(qū)域60內(nèi)部,由于音素的音素?cái)U(kuò)展/壓縮率R之間的差異(例如當(dāng)對(duì)應(yīng)于前一個(gè)編輯點(diǎn)α的音素的擴(kuò)展/壓縮率R顯著高于對(duì)應(yīng)于后一個(gè)編輯點(diǎn)α的音素時(shí)),編輯點(diǎn) α的位置也可能在選擇區(qū)域60的擴(kuò)展/壓縮前后發(fā)生變化。因此,優(yōu)選地設(shè)置約束,以使編輯點(diǎn)α在時(shí)間軸52上的位置關(guān)系或順序關(guān)系在選擇區(qū)域60的擴(kuò)展/壓縮前后不發(fā)生變化。具體來說,公式(7)的移動(dòng)量δΤ[πι]的計(jì)算要滿足如下公式(7a)的約束。TA [m-1] + δ T [m-1]彡 TA [m] + δ T [m] (7a)例如可以適當(dāng)?shù)夭捎萌缦聵?gòu)造之一,如其中用戶對(duì)選擇區(qū)域60的擴(kuò)展/壓縮限制在公式(7a)的約束范圍內(nèi)的構(gòu)造,其中對(duì)應(yīng)于每個(gè)編輯點(diǎn)α的音素?cái)U(kuò)展/壓縮率R被動(dòng)態(tài)調(diào)整為滿足公式(7a)的約束的構(gòu)造,或者其中對(duì)通過公式(7)計(jì)算的移動(dòng)量δΤ[πι]進(jìn)行校正以滿足公式(7a)的約束的構(gòu)造。<C 變型例 >上述實(shí)施例可以各種形式做出修改。修改的詳細(xì)內(nèi)容將在下文說明。從下文示例中選擇的兩個(gè)或多個(gè)方面可以任意組合。(1)變型例 1盡管在第一實(shí)施例中根據(jù)音高P[n]對(duì)每個(gè)音素σ [η]進(jìn)行擴(kuò)展或壓縮,但是反映在每個(gè)音素的擴(kuò)展/壓縮度Κ[η]中的合成語(yǔ)音的特征不限于音高Ρ[η]。例如,假設(shè)音素的擴(kuò)展/壓縮度隨著語(yǔ)音的音量而變化(例如大音量部分易于擴(kuò)展),則可以采用如下構(gòu)造, 其中生成特征信息SB以指示音量(動(dòng)態(tài)特性)的時(shí)間變化,并且第一實(shí)施例中描述的每個(gè)計(jì)算的音高Ρ[η]由特征信息SB所表示的音量D[n]來代替。也即,根據(jù)音量D[n]來可變地設(shè)置擴(kuò)展/壓縮度K [η],使得具有大音量D [η]的音素ο [η]擴(kuò)展較多,并且具有小音量 D[η]的音素σ [η]壓縮較多。除了音高Ρ[η]和音量D[n]以外,語(yǔ)音的清晰度也可以認(rèn)為是適合于計(jì)算擴(kuò)展/壓縮度K [η]的特征。(2)變型例 2盡管在第一實(shí)施例中針對(duì)每個(gè)音素設(shè)置擴(kuò)展/壓縮度K[η],但也存在不適于對(duì)每個(gè)音素單獨(dú)進(jìn)行擴(kuò)展/壓縮的情況。例如,如果詞“string”的前三個(gè)音素/s/、/t/和M 根據(jù)不同的擴(kuò)展/壓縮度K[n]來進(jìn)行擴(kuò)展或壓縮,則所得的語(yǔ)音可能不自然。因此可以采用如下構(gòu)造,其中將目標(biāo)擴(kuò)展/壓縮區(qū)間中的特定音素(例如用戶選擇的音素或者符合特定條件的音素)的擴(kuò)展/壓縮度Κ[η]設(shè)置為相同值。例如,當(dāng)三個(gè)或更多輔音音素連續(xù)時(shí), 將其擴(kuò)展/壓縮度Κ[η]設(shè)置為相同值。(3)變型例 3在第一實(shí)施例中,可能存在應(yīng)用于公式(1)或的音素?cái)U(kuò)展/壓縮率R在相鄰音素ο [η-1]和σ [η]之間出現(xiàn)突變的情況。因此,優(yōu)選采用如下構(gòu)造,其中將多個(gè)音素的音素?cái)U(kuò)展率R的移動(dòng)平均值(例如音素σ [η-1]的音素?cái)U(kuò)展/壓縮率R和音素σ [η]的音素?cái)U(kuò)展/壓縮率R的平均值)用作公式(1)或的音素?cái)U(kuò)展/壓縮率R。對(duì)于第二實(shí)施例,可以采用將針對(duì)編輯點(diǎn)α [m]確定的音素?cái)U(kuò)展/壓縮率R的移動(dòng)平均值應(yīng)用于公式(7) 的計(jì)算的構(gòu)造。(4)變型例 4盡管在第一實(shí)施例中將根據(jù)特征信息SB計(jì)算的音高直接應(yīng)用為公式(1)或的音高,但也可以采用如下構(gòu)造,其中通過對(duì)特征信息SB所指定的音高ρ執(zhí)行預(yù)定的計(jì)算來計(jì)算音高P[n]。例如,優(yōu)選采用將音高ρ的冪(例如ρ2)用作音高P[n]的構(gòu)造、或者將音高P的對(duì)數(shù)值(例如log ρ)用作音高P [η]的構(gòu)造。(5)變型例 5盡管在上述實(shí)施例中將音素信息SA和特征信息SB存儲(chǔ)在單個(gè)存儲(chǔ)裝置12中,但也可以采用將音素信息SA和特征信息SB分別存儲(chǔ)在分離的存儲(chǔ)裝置12中的構(gòu)造。也即, 本發(fā)明涵蓋存儲(chǔ)音素信息SA的元件(音素存儲(chǔ)單元)和存儲(chǔ)特征信息SB的元件(特征存儲(chǔ)單元)的分離/集成。(6)變型例 6
盡管在上述實(shí)施例中描述了包括語(yǔ)音合成單元沈的語(yǔ)音合成設(shè)備100,但可以省略顯示控制器22或語(yǔ)音合成單元沈。在省略了顯示控制器22的構(gòu)造(其中省略了對(duì)編輯屏幕30以及來自用戶的對(duì)編輯屏幕30進(jìn)行編輯的指令進(jìn)行顯示的構(gòu)造)中,自動(dòng)執(zhí)行語(yǔ)音合成信息S的生成與編輯,無需來自用戶的編輯指令。在上述構(gòu)造中,優(yōu)選由編輯處理器 24根據(jù)來自用戶的指令來開啟/關(guān)閉語(yǔ)音合成信息S的生成與編輯。此外,在省略了顯示控制器22或語(yǔ)音合成單元沈的設(shè)備中,編輯處理器M可以構(gòu)造為對(duì)語(yǔ)音合成信息S進(jìn)行創(chuàng)建和編輯的裝置(語(yǔ)音合成信息編輯裝置)。通過該語(yǔ)音合成信息編輯裝置生成的語(yǔ)音合成信息S提供至分離的語(yǔ)音合成設(shè)備(語(yǔ)音合成單元沈) 以生成語(yǔ)音信號(hào)X。例如,在包括存儲(chǔ)裝置12和編輯處理器M的語(yǔ)音合成信息編輯裝置 (服務(wù)器裝置)與包括顯示控制器22或語(yǔ)音合成單元沈的通信終端(例如個(gè)人計(jì)算機(jī)或者便攜式通信終端)通過通信網(wǎng)絡(luò)彼此通信的通信系統(tǒng)中,可以將本發(fā)明應(yīng)用于從語(yǔ)音合成信息編輯裝置向終端提供創(chuàng)建和編輯語(yǔ)音合成信息S的服務(wù)(云計(jì)算服務(wù))的情況。也艮口,語(yǔ)音合成信息編輯裝置的編輯處理器M響應(yīng)于通信終端的請(qǐng)求生成和編輯語(yǔ)音合成信息S,并將語(yǔ)音合成信息S傳輸至通信終端。
權(quán)利要求
1.一種語(yǔ)音合成信息編輯設(shè)備,包括音素存儲(chǔ)單元,其存儲(chǔ)音素信息,所述音素信息指示要合成的語(yǔ)音的每個(gè)音素的持續(xù)時(shí)間;特征存儲(chǔ)單元,其存儲(chǔ)特征信息,所述特征信息指示語(yǔ)音的特征的時(shí)間變化;和編輯處理單元,其根據(jù)擴(kuò)展/壓縮度改變由所述音素信息指示的每個(gè)音素的持續(xù)時(shí)間,所述擴(kuò)展/壓縮度取決于與音素對(duì)應(yīng)的特征信息所指示的特征。
2.根據(jù)權(quán)利要求1的語(yǔ)音合成信息編輯設(shè)備,其中所述特征信息所指示的特征是音高,并且所述編輯處理單元在擴(kuò)展語(yǔ)音時(shí)將擴(kuò)展/壓縮度設(shè)置為根據(jù)特征可變,使得音素的持續(xù)時(shí)間的擴(kuò)展度隨著特征信息所指示的音素的音高升高而增大。
3.根據(jù)權(quán)利要求1的語(yǔ)音合成信息編輯設(shè)備,其中所述特征信息所指示的特征是音高,并且所述編輯處理單元在壓縮語(yǔ)音時(shí)將擴(kuò)展/壓縮度設(shè)置為根據(jù)特征可變,使得音素的持續(xù)時(shí)間的壓縮度隨著特征信息所指示的音素的音高降低而增大。
4.根據(jù)權(quán)利要求1的語(yǔ)音合成信息編輯設(shè)備,其中所述特征信息所指示的特征是音量,并且所述編輯處理單元在擴(kuò)展語(yǔ)音時(shí)將擴(kuò)展/壓縮度設(shè)置為根據(jù)特征可變,使得音素的持續(xù)時(shí)間的擴(kuò)展度隨著特征信息所指示的音素的音量變大而增大。
5.根據(jù)權(quán)利要求1的語(yǔ)音合成信息編輯設(shè)備,其中所述特征信息所指示的特征是音量,并且所述編輯處理單元在壓縮語(yǔ)音時(shí)將擴(kuò)展/壓縮度設(shè)置為根據(jù)特征可變,使得音素的持續(xù)時(shí)間的壓縮度隨著特征信息所指示的音素的音量變小而增大。
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)的語(yǔ)音合成信息編輯設(shè)備,還包括顯示控制單元,其在顯示裝置上顯示包括音素序列圖像和特征輪廓圖像的編輯屏幕,所述音素序列圖像是沿時(shí)間軸排列的與語(yǔ)音的音素對(duì)應(yīng)的音素指示符的序列,每個(gè)音素指示符具有根據(jù)音素信息所指示的持續(xù)時(shí)間設(shè)置的長(zhǎng)度,所述特征輪廓圖像表示沿同一時(shí)間軸排列并由特征信息指示的特征的時(shí)間序列,所述顯示控制單元還基于編輯處理單元的處理結(jié)果更新編輯屏幕。
7.根據(jù)權(quán)利要求1至6中任一項(xiàng)的語(yǔ)音合成信息編輯設(shè)備,其中特征信息指示針對(duì)在時(shí)間軸上排列的各音素的每個(gè)編輯點(diǎn)的特征,并且所述編輯處理單元對(duì)特征信息進(jìn)行更新,以使得編輯點(diǎn)相對(duì)于音素發(fā)聲區(qū)間的位置在每個(gè)音素的持續(xù)時(shí)間改變前后保持不變。
8.根據(jù)權(quán)利要求7的語(yǔ)音合成信息編輯設(shè)備,其中在更新特征的時(shí)間變化時(shí),編輯處理單元將音素信息所表示的音素發(fā)聲區(qū)間內(nèi)的編輯點(diǎn)在時(shí)間軸上的位置移動(dòng)一個(gè)取決于音素類型的量。
9.根據(jù)權(quán)利要求8的語(yǔ)音合成信息編輯設(shè)備,其中編輯處理單元將音素發(fā)聲區(qū)間內(nèi)的編輯點(diǎn)的位置移動(dòng)一個(gè)取決于音素類型的量,使得針對(duì)元音類型的音素的編輯點(diǎn)的移動(dòng)量不同于針對(duì)輔音類型的音素的編輯點(diǎn)的移動(dòng)量。
10.根據(jù)權(quán)利要求1至5中任一項(xiàng)的語(yǔ)音合成信息編輯設(shè)備,其中編輯處理單元針對(duì)由音素信息指示的多個(gè)音素中的多個(gè)特定音素來將擴(kuò)展/壓縮度設(shè)置為相同值。
11.一種語(yǔ)音合成信息編輯設(shè)備,包括音素存儲(chǔ)單元,其存儲(chǔ)音素信息,所述音素信息指示構(gòu)成要合成的語(yǔ)音的在時(shí)間軸上排列的多個(gè)音素;特征存儲(chǔ)單元,其存儲(chǔ)特征信息,所述特征信息指示位于排列在時(shí)間軸上、并且分配給各音素的各編輯點(diǎn)處的語(yǔ)音的特征;和編輯處理單元,其將處在音素發(fā)聲區(qū)間內(nèi)的編輯點(diǎn)在時(shí)間軸上的位置在時(shí)間軸的方向上移動(dòng)一個(gè)取決于音素類型的量。
12.根據(jù)權(quán)利要求11的語(yǔ)音合成信息編輯設(shè)備,其中編輯處理單元將音素發(fā)聲區(qū)間內(nèi)的編輯點(diǎn)的位置移動(dòng)一個(gè)取決于音素類型的量,使得針對(duì)元音類型的音素的編輯點(diǎn)的移動(dòng)量不同于針對(duì)輔音類型的音素的編輯點(diǎn)的移動(dòng)量。
13.一種語(yǔ)音合成信息編輯方法,包括提供音素信息,其指示要合成的語(yǔ)音的每個(gè)音素的持續(xù)時(shí)間;提供特征信息,其指示語(yǔ)音特征的時(shí)間變化;和根據(jù)擴(kuò)展/壓縮度改變由所述音素信息指示的每個(gè)音素的持續(xù)時(shí)間,所述擴(kuò)展/壓縮度取決于與音素對(duì)應(yīng)的特征信息所指示的特征。
14.一種語(yǔ)音合成信息編輯方法,包括提供音素信息,其指示構(gòu)成要合成的語(yǔ)音的在時(shí)間軸上排列的多個(gè)音素;提供特征信息,其指示位于排列在時(shí)間軸上、并且分配給各音素的各編輯點(diǎn)處的語(yǔ)音的特征;以及將處在音素發(fā)聲區(qū)間內(nèi)的編輯點(diǎn)在時(shí)間軸上的位置在時(shí)間軸的方向上移動(dòng)一個(gè)取決于音素類型的量。
全文摘要
本發(fā)明提供了語(yǔ)音合成信息編輯設(shè)備。在語(yǔ)音合成信息編輯設(shè)備中,音素存儲(chǔ)單元存儲(chǔ)音素信息,所述音素信息指示要合成的語(yǔ)音的每個(gè)音素的持續(xù)時(shí)間。特征存儲(chǔ)單元存儲(chǔ)特征信息,所述特征信息指示語(yǔ)音的特征的時(shí)間變化。編輯處理單元根據(jù)擴(kuò)展/壓縮度改變由所述音素信息指示的每個(gè)音素的持續(xù)時(shí)間,所述擴(kuò)展/壓縮度取決于與音素對(duì)應(yīng)的特征信息所指示的特征。
文檔編號(hào)G10L13/02GK102486921SQ201110396819
公開日2012年6月6日 申請(qǐng)日期2011年12月2日 優(yōu)先權(quán)日2010年12月2日
發(fā)明者入山達(dá)也 申請(qǐng)人:雅馬哈株式會(huì)社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1