專利名稱:韻律修改裝置和方法及存儲有韻律修改程序的記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及包括接收從人類發(fā)聲中提取的真實話音韻律信息的真實 話音韻律輸入部和修改該真實話音韻律輸入部接收到的所述真實話音韻 律信息的真實話音韻律修改部的韻律修改裝置、韻律修改方法,以及存 儲有韻律修改程序的記錄介質(zhì)。
背景技術(shù):
近年來,許多系統(tǒng)和裝置使用了將字符串(文本)轉(zhuǎn)換成語音并且輸出獲取的語音的語音合成技術(shù)。例如,將這種技術(shù)應(yīng)用于IVR (交互 話音響應(yīng))系統(tǒng)、車載信息終端,以及移動電話,以閱讀關(guān)于操作方法 的手冊或郵件,支持用于視力減弱人員和語音減弱人員的系統(tǒng)等。然而, 根據(jù)語音合成技術(shù)的當(dāng)前狀況,難于生成和人真實語音一樣自然和富于 表達(dá)的合成語音。合成語音的韻律一般由執(zhí)行諸如語素字素(morphogical)分析的處 理來確定,即,分析字符串中的字的閱讀和部分語音、分析子句和修改 關(guān)系、設(shè)置重音、語調(diào)、停頓以及語速等。然而,根據(jù)處理技術(shù)的當(dāng)前 狀況,難于和人類一樣準(zhǔn)確地考慮句子含義和進(jìn)行上下文的分析,并且 在分析的結(jié)果中可能包含錯誤。結(jié)果,與人類真實話音相比,語音合成 技術(shù)生成的合成語音的韻律(韻律可確定諸如話音音調(diào)、語調(diào)、節(jié)奏等 的講話方式)可能在某種程度上不自然。為了解決上述問題,已知下面的用于改進(jìn)合成語音的韻律的質(zhì)量的 方法。在這種情況下,預(yù)先確定要轉(zhuǎn)換成合成語音的字符串,從人類發(fā) 聲中提取韻律信息,以及利用提取的真實話音的韻律信息原樣生成合成 語音(例如,參見JPIO (1998)畫153998A、 JP9 (1997) -292897A、 JP 11 (1999) -143483A,以及JP7 (1995) -140996A)。在這種方法中,要求預(yù)先進(jìn)行提取人類發(fā)聲及其韻律的操作,因為利用了從人類發(fā)聲中提 取的真實話音的韻律信息來生成合成語音,所以可以生成和人類真實話 音一樣自然和富于表達(dá)的合成語音。同時,為了從人類發(fā)聲中提取韻律信息,通過手動操作或者利用DP(動態(tài)編程)匹配、HMM (隱藏馬爾可夫模型)等自動地針對各音素(phoneme)設(shè)置音素邊界。在前一情況下,例如,需要人基于顯示的語音波形針對各音素可視 地區(qū)別音素邊界,以設(shè)置音素邊界。這種操作需要關(guān)于語音的專業(yè)知識 并且費時費力。另一方面,在后一情況下,可能錯誤地提取韻律信息,其意指設(shè)置 錯誤的音素邊界。即使利用DP匹配、HMM等,由于類似聲音和噪聲的 緣故,有時也難于設(shè)置正確的音素邊界。如果從真實話音中錯誤地提取 韻律信息,則生成韻律不自然的合成語音。從而,需要修改錯誤地提取 的韻律信息。為了修改錯誤地提取的韻律信息,最終需要人可視地確認(rèn) 自動設(shè)置的音素邊界,并且修改錯誤地設(shè)置的音素邊界。這種操作和前 一情況一樣也需要關(guān)于語音的專業(yè)知識并且費時費力。發(fā)明內(nèi)容本發(fā)明鑒于上述情況實現(xiàn),其目的是提供一種可以修改從人類發(fā)聲 中錯誤地提取的真實話音韻律信息而不會減損人類真實話音的自然性和 表達(dá)性并且不會費時費力的韻律修改裝置、韻律修改方法以及存儲有韻 律修改程序的記錄介質(zhì)。為了實現(xiàn)上述目的, 一種根據(jù)本發(fā)明的韻律修改裝置包括真實話 音韻律輸入部,該真實話音韻律輸入部接收從人類發(fā)聲中提取的真實話 音韻律信息;規(guī)則韻律生成部,該規(guī)則韻律生成部針對所述真實話音韻 律信息中的至少包括要修改的音素或音素串的部分,利用表示人類發(fā)聲 中的規(guī)則的或統(tǒng)計出的音素長度的數(shù)據(jù)來生成規(guī)則韻律信息,該規(guī)則韻 律信息具有確定音素之間的邊界的規(guī)則音素邊界和音素的規(guī)則音素長 度;以及真實話音韻律修改部,該真實話音韻律修改部利用所述規(guī)則韻律生成部生成的所述規(guī)則韻律信息,重置所述真實話音韻律信息中的要 修改的所述音素或所述音素串的真實話音音素邊界,以使所述真實話音 韻律信息中的要修改的所述音素或所述音素串的所述真實話音音素邊界 和真實話音音素長度接近于所述人類發(fā)聲的實際音素邊界和實際音素長 度,由此,修改了所述真實話音韻律信息。根據(jù)本發(fā)明的韻律修改裝置,所述真實話音韻律輸入部接收從人類 發(fā)聲中提取的真實話音韻律信息。所述規(guī)則韻律生成部針對所述真實話 音韻律信息中的至少包括要修改的音素或音素串的部分,利用表示人類 發(fā)聲中的規(guī)則的或統(tǒng)計出的音素長度的數(shù)據(jù)來生成規(guī)則韻律信息,該規(guī) 則韻律信息具有確定音素之間的邊界的規(guī)則音素邊界和音素的規(guī)則的音 素長度。所述真實話音韻律修改部利用生成的所述規(guī)則韻律信息,重置 所述真實話音韻律信息中的要修改的所述音素或所述音素串的真實話音 音素邊界,以使所述真實話音韻律信息中的要修改的所述音素或所述音 素串的所述真實話音音素邊界和真實話音音素長度接近于所述人類發(fā)聲 的實際音素邊界和實際音素長度,由此,修改了所述真實話音韻律信息。 因為重置了所述真實話音音素邊界,使其接近于人類發(fā)聲的實際音素邊 界,所以可以修改從該人類發(fā)聲中錯誤地提取的真實話音韻律信息而不 會減損人類真實話音的自然性和表達(dá)性并且不會費時費力。優(yōu)選的是,根據(jù)本發(fā)明的韻律修改裝置還包括修改部分確定部,該 修改部分確定部基于所述真實話音韻律信息的音素串類型或所述真實話 音音素邊界確定的各音素的所述真實話音音素長度,來確定所述真實話 音韻律信息中的包括要修改的所述音素或所述音素串的所述部分。利用上述構(gòu)造,所述修改部分確定部基于所述真實話音韻律信息的 音素串類型或所述真實話音音素長度來確定所述真實話音韻律信息中的 包括要修改的所述音素或所述音素串的所述部分。由此,可以將所述真 實話音韻律信息中的包括要修改的所述音素或所述音素串的所述部分限 制成很可能要錯誤地提取真實話音韻律信息的部分。在根據(jù)本發(fā)明的韻律修改裝置中,優(yōu)選的是,所述真實話音韻律修 改部包括音素邊界重置部,該音素邊界重置部基于包括要修改的音素或音素串的所述部分中由所述規(guī)則音素邊界確定的各音素的規(guī)則音素長度 比來重置所述真實話音韻律信息中的要修改的所述音素或所述音素串的 所述真實話音音素邊界,由此,修改所述真實話音韻律信息。利用上述構(gòu)造,所述音素邊界重置部基于由所述部分中的所述規(guī)則 音素邊界確定的各音素的所述規(guī)則音素長度比來重置所述真實話音韻律 信息中的要修改的所述音素或所述音素串的所述真實話音音素邊界,由 此修改所述真實話音韻律信息。例如,所述音素邊界重置部重置所述真 實話音韻律信息的所述真實話音音素邊界,以使所述部分中的各真實話 音音素長度接近于所述部分中的各規(guī)則音素長度比,由此,修改所述真 實話音韻律信息。換句話說,修改后的真實話音韻律信息總體上基于所 述部分中的各音素的所述真實話音音素長度,并且局部地具有基于各音 素的所述規(guī)則音素長度比重置的其真實話音音素邊界。因此,可以修改 從人類發(fā)聲中錯誤地提取的所述真實話音韻律信息而不會減損人真實話 音的自然性和表達(dá)性并且不會費時費力。在根據(jù)本發(fā)明的韻律修改裝置中,優(yōu)選的是,所述真實話音韻律修 改部包括音素邊界重置部,該音素邊界重置部基于所述規(guī)則韻律信息的 各音素的所述規(guī)則音素長度和作為所述部分中的所述真實話音韻律信息 的語速與所述規(guī)則韻律信息的語速之間的比率的語速比,來重置所述真 實話音韻律信息中的要修改的所述音素或所述音素串的所述真實話音音素邊界,由此,修改所述真實話音韻律信息。利用上述構(gòu)造,所述音素邊界重置部基于所述規(guī)則韻律信息的各音 素的所述規(guī)則音素長度和作為包括要修改的所述音素或所述音素串的所 述部分中的所述真實話音韻律信息的語速與所述規(guī)則韻律信息的語速之 間的比率的語速比,來重置所述真實話音韻律信息中的要修改的所述音 素或所述音素串的所述真實話音音素邊界,由此,修改所述真實話音韻 律信息。按這種方式,因為所述真實話音韻律信息基于局部恰當(dāng)?shù)囊?guī)則 音素長度和所述語速比來修改,所以修改后的真實話音韻律信息總體上 接近于真實話音中的發(fā)聲。結(jié)果,可以修改從人發(fā)聲中錯誤地提取的所 述真實話音韻律信息而不會減損人真實話音的自然性和表達(dá)性并且不會費時費力。優(yōu)選的是,根據(jù)本發(fā)明的韻律修改裝置還包括語速比檢測部,該語 速比檢測部在由所述真實話音韻律信息中的包括要修改的所述音素在內(nèi) 的至少一個或更多個音素或短音節(jié)組成的語速計算范圍內(nèi),基于所述真 實話音音素邊界確定的相應(yīng)音素的所述真實話音音素長度的總和與所述 語速計算范圍中的音素或短音節(jié)的數(shù)量來計算針對要修改的所述音素的 所述真實話音韻律信息的語速,并且基于所述規(guī)則音素邊界確定的相應(yīng) 音素的所述規(guī)則音素長度的總和與所述語速計算范圍中的音素或短音節(jié) 的數(shù)量來計算針對要修改的所述音素的所述規(guī)則韻律信息的語速,以及 計算所述真實話音韻律信息的語速與所述規(guī)則韻律信息的語速之間的比 率,作為所述語速比。優(yōu)選的是,所述音素邊界重置部基于所述規(guī)則韻 律信息中的各所述音素的所述規(guī)則音素長度和所述語速比檢測部計算出 的所述語速比來計算包括要修改的所述音素或所述音素串的所述部分中 的修改后的音素長度,并且重置所述真實話音韻律信息的所述真實話音 音素邊界,以使所述部分中的每一個真實話音音素長度變?yōu)樗鲂薷暮?的音素長度,由此,修改所述真實話音韻律信息。利用上述構(gòu)造,所述語速比檢測部在語速計算范圍內(nèi),基于各音素 的所述真實話音音素長度的總和與所述語速計算范圍中的音素或短音節(jié) 的數(shù)量來計算針對要修改的所述音素的所述真實話音韻律信息的語速。 所述語速比檢測部還在所述語速計算范圍內(nèi),基于各音素的所述規(guī)則音 素長度的總和與所述語速計算范圍中的音素或短音節(jié)的數(shù)量來計算針對 要修改的所述音素的所述規(guī)則韻律信息的語速。而且,所述語速比檢測 部計算所述真實話音韻律信息的語速與所述規(guī)則韻律信息的語速之間的 比率,作為所述語速比。所述音素邊界重置部基于每一個所述音素的所 述規(guī)則音素長度和計算出的所述語速比來計算所述部分中的修改后的音 素長度,并且重置所述真實話音韻律信息的所述真實話音音素邊界,以 使所述部分中的每一個真實話音音素長度變?yōu)樗鲂薷暮蟮囊羲亻L度, 由此修改所述真實話音韻律信息。按這種方式,因為將所述語速比應(yīng)用 至局部恰當(dāng)?shù)乃鲆?guī)則音素長度,所以修改的真實話音韻律信息總體上接近于真實話音中的發(fā)聲。換句話說,修改的真實話音韻律信息是其中 因再現(xiàn)節(jié)奏而造成人真實話音趨于改變的韻律信息。結(jié)果,可以修改從 人類發(fā)聲中錯誤地提取的所述真實話音韻律信息而不會減損人真實話音 的自然性和表達(dá)性并且不會費時費力。優(yōu)選的是,根據(jù)本發(fā)明的韻律修改裝置還包括音素長度比計算部, 該音素長度比計算部計算所述真實話音音素邊界確定的各音素的所述真 實話音音素長度與所述規(guī)則音素邊界確定的所述音素的所述規(guī)則音素長 度之間的比率,作為所述真實話音韻律信息中的包括要修改的所述音素 或所述音素串的所述部分中的所述音素的音素長度比;和語速比計算部, 該語速比計算部平滑所音素長度比計算部計算出的所述音素長度比,由 此,計算所述真實話音韻律信息的語速與所述規(guī)則韻律信息的語速之間 的比率,作為所述語速比。優(yōu)選的是,所述音素邊界重置部基于所述規(guī) 則韻律信息中的所述音素的所述規(guī)則音素長度和所述語速比計算部計算 出的所述語速比來計算包括要修改的所述音素或所述音素串的所述部分 中的修改后的音素長度,并且重置所述真實話音韻律信息的所述真實話 音音素邊界,以使所述部分中的每一個真實話音音素長度變?yōu)樗鲂薷?后的音素長度,由此修改所述真實話音韻律信息。利用上述構(gòu)造,所述音素長度比計算部計算所述真實話音音素邊界 確定的各音素的所述真實話音音素長度與所述規(guī)則音素邊界確定的所述 音素的所述規(guī)則音素長度之間的比率,作為所述部分中的所述音素的音 素長度比。所述語速比計算部平滑計算出的所述音素長度比,由此,計 算所述真實話音韻律信息的語速與所述規(guī)則韻律信息的語速之間的比 率,作為所述語速比。所述音素邊界重置部基于所述規(guī)則韻律信息的所 述音素的所述規(guī)則音素長度和計算出的所述語速比來計算所述部分中的 修改后的音素長度,并且重置所述真實話音韻律信息的所述真實話音音 素邊界,以使所述部分中的每一個真實話音音素長度變?yōu)樗鲂薷暮蟮?音素長度,由此修改所述真實話音韻律信息。按這種方式,因為將所述 語速比應(yīng)用至局部恰當(dāng)?shù)乃鲆?guī)則音素長度,所以修改后的真實話音韻 律信息總體上接近于真實話音中的發(fā)聲。換句話說,修改后的真實話音韻律信息是其中因再現(xiàn)節(jié)奏而造成人類真實話音趨于改變的韻律信息。 結(jié)果,可以修改從人類發(fā)聲中錯誤地提取的所述真實話音韻律信息而不 會減損人真實話音的自然性和表達(dá)性并且不會費時費力。優(yōu)選的是,根據(jù)本發(fā)明的韻律修改裝置包括真實話音韻律存儲部, 該真實話音韻律存儲部存儲所述真實話音韻律輸入部接收到的所述真實 話音韻律信息或所述真實話音韻律修改部修改的所述真實話音韻律信 息;和會聚判斷部,該會聚判斷部在所述真實話音韻律修改部修改的所 述真實話音韻律信息的所述真實話音音素長度與所述真實話音韻律存儲 部中存儲的未修改的所述真實話音韻律信息的所述真實話音音素長度之 差不小于閾值時,在所述真實話音韻律存儲部中寫入所述真實話音韻律 修改部修改的所述真實話音韻律信息并指令所述真實話音韻律修改部修 改所述真實話音韻律信息,并且在所述真實話音韻律修改部修改的所述 真實話音韻律信息的所述真實話音音素長度與所述真實話音韻律存儲部 中存儲的未修改的所述真實話音韻律信息的所述真實話音音素長度之差 小于所述閾值時,輸出通過所述真實話音韻律修改部修改的所述真實話 音韻律信息。利用上述構(gòu)造,所述會聚判斷部判斷所述真實話音韻律修改部修改 的所述真實話音韻律信息的所述真實話音音素長度與所述真實話音韻律 存儲部中存儲的未修改的所述真實話音韻律信息的所述真實話音音素長 度之差是否小于閾值。如果所述差不小于所述閾值,則所述會聚判斷部在所述真實話音韻律存儲部中寫入所述真實話音韻律修改部修改的所述 真實話音韻律信息并指令所述真實話音韻律修改部修改所述真實話音韻律信息。另一方面,如果所述差小于所述閾值,則所述會聚判斷部輸出 通過所述真實話音韻律修改部修改的所述真實話音韻律信息。結(jié)果,所 述會聚判斷部可以輸出其中所述真實話音音素邊界更接近于實際真實話 音音素邊界的所述真實話音韻律信息。根據(jù)本發(fā)明的GUI裝置允許編輯經(jīng)上述韻律修改裝置修改的所述真 實話音韻律信息。利用上述構(gòu)造,所述GUI裝置允許編輯經(jīng)所述韻律修改裝置修改的所述真實話音韻律信息。因為所述GUI裝置編輯所述韻律修改裝置修改 的所述真實話音韻律信息,所以管理者例如可以針對所述真實話音韻律 信息進(jìn)行精細(xì)調(diào)節(jié)。根據(jù)本發(fā)明的語音合成器輸出基于經(jīng)上述韻律修改裝置修改的所述 真實話音韻律信息所生成的合成語音。利用上述構(gòu)造,所述語音合成器可以輸出基于所述韻律修改裝置修 改的所述真實話音韻律信息所生成的合成語音。根據(jù)本發(fā)明的語音合成器輸出基于通過上述GUI裝置編輯的所述真 實話音韻律信息所生成的合成語音。利用上述構(gòu)造,所述語音合成器可以輸出基于通過所述GUI裝置編輯的所述真實話音韻律信息所生成的合成語音。為了實現(xiàn)上述目標(biāo),提供了一種根據(jù)本發(fā)明的韻律修改方法,其包括以下步驟真實話音韻律輸入操作步驟,在該真實話音韻律輸入操作 步驟中,設(shè)置在計算機(jī)中的真實話音韻律輸入部接收從人類發(fā)聲中提取 的真實話音韻律信息;規(guī)則韻律生成操作步驟,在該規(guī)則韻律生成操作步驟中,設(shè)置在所述計算機(jī)中的規(guī)則韻律輸生成部針對所述真實話音韻 律信息中的至少包括要修改的音素或音素串在內(nèi)的部分,利用表示人類 發(fā)聲中的規(guī)則或統(tǒng)計音素長度的數(shù)據(jù)來生成規(guī)則韻律信息,該規(guī)則韻律信息具有確定音素之間的邊界的規(guī)則音素邊界和音素的規(guī)則音素長度; 以及真實話音韻律修改操作步驟,在該真實話音韻律修改操作步驟中, 設(shè)置在所述計算機(jī)中的真實話音韻律修改部利用在所述規(guī)則韻律生成操 作步驟中生成的所述規(guī)則韻律信息,重置所述真實話音韻律信息中的要 修改的所述音素或所述音素串的真實話音音素邊界,以使所述真實話音 韻律信息中的要修改的所述音素或所述音素串的所述真實話音音素邊界 和真實話音音素長度接近于所述人類發(fā)聲的實際音素邊界和實際音素長 度,由此,修改所述真實話音韻律信息。為了實現(xiàn)上述目標(biāo),提供了一種存儲有根據(jù)本發(fā)明的韻律修改程序的記錄介質(zhì),該韻律修改程序允許計算機(jī)執(zhí)行以下處理真實話音韻律 輸入處理,該真實話音韻律輸入處理接收從人類發(fā)聲中提取的真實話音韻律信息;規(guī)則韻律生成處理,該規(guī)則韻律生成處理針對所述真實話音 韻律信息中的至少包括要修改的音素或音素串在內(nèi)的部分,利用表示人 類發(fā)聲中的規(guī)則或統(tǒng)計音素長度的數(shù)據(jù)來生成規(guī)則韻律信息,該規(guī)則韻 律信息具有確定音素之間的邊界的規(guī)則音素邊界和音素的規(guī)則音素長度;以及真實話音韻律修改處理,該真實話音韻律修改處理利用在所述規(guī)則韻律生成處理中生成的所述規(guī)則韻律信息,重置所述真實話音韻律 信息中的要修改的所述音素或所述音素串的真實話音音素邊界,以使所 述真實話音韻律信息中的要修改的所述音素或所述音素串的所述真實話 音音素邊界和真實話音音素長度接近于所述人類發(fā)聲的實際音素邊界和 實際音素長度,由此,修改所述真實話音韻律信息。根據(jù)本發(fā)明的韻律修改方法和存儲有韻律修改程序的記錄介質(zhì)提供 了和上述韻律修改裝置的效果相同的效果。
圖1是示出了根據(jù)本發(fā)明的實施方式1的韻律修改系統(tǒng)的示意構(gòu)造。圖2是示出了韻律修改系統(tǒng)中的真實話音韻律提取部提取的真實話音韻律信息的示例的概念圖。圖3是示出了韻律修改系統(tǒng)中的規(guī)則韻律生成部生成的規(guī)則韻律信息的示例的概念圖。圖4是示出了經(jīng)韻律修改系統(tǒng)中的音素邊界重置部修改的真實話音韻律信息的示例的概念圖。圖5是示出了韻律修改系統(tǒng)的修改實施例中的示意構(gòu)造的框圖。 圖6是示出了韻律修改系統(tǒng)的修改實施例中的示意構(gòu)造的框圖。 圖7是示出了韻律修改系統(tǒng)中的韻律修改裝置的操作的實施例的流程圖。圖8是用于說明各音素與該音素的音素長度比之間的關(guān)系的圖形。 圖9是示出了根據(jù)本發(fā)明的實施方式2的韻律修改系統(tǒng)的示意構(gòu)造 的框圖。圖10是示出了韻律修改系統(tǒng)中的韻律修改裝置的操作的實施例的 流程圖。圖11是示出了根據(jù)本發(fā)明的實施方式3的韻律修改系統(tǒng)的示意構(gòu)造 的框圖。圖12是用于說明在韻律修改系統(tǒng)中的真實話音韻律提取部所提取的真實話音韻律信息中的各音素與該音素的真實話音音素長度之間的關(guān) 系的圖形。圖13用于說明在韻律修改系統(tǒng)中的規(guī)則韻律生成部所生成的規(guī)則 韻律信息中的各音素與該音素的規(guī)則音素長度之間的關(guān)系的圖形。圖14是用于說明各音素與該音素的音素長度比之間的關(guān)系的圖形。 圖15是用于說明各音素與各經(jīng)平滑音素的音素長度比之間的關(guān)系 的圖形。圖16是用于說明經(jīng)韻律修改系統(tǒng)中的音素邊界重置部修改的真實 話音韻律信息中的各音素與該音素的真實話音音素長度之間的關(guān)系的圖 形。圖17是示出了韻律修改系統(tǒng)中的韻律修改裝置的操作的實施例的 流程圖。圖18是示出了根據(jù)本發(fā)明的實施方式4的韻律修改系統(tǒng)的示意構(gòu)造 的框圖。圖19是示出了根據(jù)本發(fā)明的實施方式5的韻律修改系統(tǒng)的示意構(gòu)造 的框圖。圖20是示出了在韻律修改系統(tǒng)中的GUI裝置的屏幕上顯示的示例 的概念圖。
具體實施方式
下文中,參照附圖,通過更具體的實施方式對本發(fā)明進(jìn)行詳細(xì)說明。 [實施方式1]圖1是示出了根據(jù)當(dāng)前實施方式的韻律修改系統(tǒng)1的示意構(gòu)造的方 框圖。根據(jù)本實施方式的韻律修改系統(tǒng)1包括韻律提取器2和韻律修改裝置3。在對韻律修改裝置3的詳細(xì)構(gòu)造進(jìn)行說明之前,對韻律提取器2的 構(gòu)造簡要說明如下。韻律提取器2包括發(fā)聲輸入部21、字符串輸入部22、以及真實話 音韻律提取部23。該發(fā)聲輸入部21、字符串輸入部22以及真實話音韻 律提取部23還可由計算機(jī)的CPU根據(jù)用于實現(xiàn)這些部件的功能的程序 進(jìn)行操作來具體實現(xiàn)。發(fā)聲輸入部21具有接收人類發(fā)聲的功能,并且例如由麥克風(fēng)或模擬 -數(shù)字轉(zhuǎn)換器構(gòu)成。在當(dāng)前實施方式中,假定發(fā)聲輸入部21接收了人類發(fā) 聲"雨力;("amega")",發(fā)聲輸入部21將接收到的人發(fā)聲轉(zhuǎn)換成可以由 計算機(jī)處理的數(shù)字語音數(shù)據(jù)。發(fā)聲輸入部21將獲得的語音數(shù)據(jù)輸出至真 實話音韻律提取部23。發(fā)聲輸入部21可以直接接收記錄在諸如CD (光 盤)和MD (迷你盤)的記錄介質(zhì)上的數(shù)字語音數(shù)據(jù)、經(jīng)由有線或無線通 信網(wǎng)絡(luò)發(fā)等送來的數(shù)字語音數(shù)據(jù)等、以及通過播放預(yù)先記錄在記錄介質(zhì) 上的人類發(fā)聲所獲取的模擬語音。針對接收到的語音數(shù)據(jù)被壓縮的情況, 發(fā)聲輸入部21可以具有解壓已壓縮語音數(shù)據(jù)的功能。字符串輸入部22具有接收表示發(fā)聲輸入部21接收到的真實話音中 的發(fā)聲的內(nèi)容的字符串(文本)的功能。在當(dāng)前實施方式中,字符串輸 入部22接收唯一地標(biāo)識真實話音中的發(fā)聲的內(nèi)容的這種字符串。例如, 字符串由日語假名表字符、方日語字符、字母表等組成,如同"7 乂力、'"。 字符串輸入部22將接收到的字符串例如轉(zhuǎn)換成按如同"AmEgA"的音素 單位表達(dá)的字符串?dāng)?shù)據(jù)。字符串輸入部22將獲取的字符串?dāng)?shù)據(jù)輸出至真 實話音韻律提取部23和韻律修改裝置3。字符串輸入部22還接收并不唯 一地標(biāo)識發(fā)聲的內(nèi)容的字符串。例如,該字符串由混合漢語字符和日語 假名表字符組成,如同"雨力、'"。接著,字符串輸入部22可以執(zhí)行針對 接收到的字符串的語素字素分析,并且基于語素字素分析的結(jié)果將該字 符串轉(zhuǎn)換成按音素單位表達(dá)的字符串?dāng)?shù)據(jù)。真實話音韻律提取部23基于從字符串輸入部22輸出的字符串?dāng)?shù)據(jù),從發(fā)聲輸入部21輸出的語音數(shù)據(jù)中提取真實話音韻律信息。具體來說,真實話音韻律提取部23從發(fā)聲輸入部21輸出的語音數(shù)據(jù)中提取確定諸如話音音調(diào)、語調(diào)、節(jié)奏(rhythm)等的講話方式的真實話音韻律信息。 然而,在當(dāng)前實施方式中,為便于說明,假定真實話音韻律提取部23僅 提取關(guān)于節(jié)奏的真實話音韻律信息。在此應(yīng)注意到,節(jié)奏指一系列音素 和它們的音素長度。更具體地說,真實話音韻律提取部23針對真實話音 的各音素設(shè)置音素邊界和音素長度,由此,從語音數(shù)據(jù)中提取真實話音 韻律信息。在此應(yīng)注意到,音素指在任意單獨語言中區(qū)別彼此含義的最 小單位話音。針對各音素設(shè)置音素邊界可以由確認(rèn)語音波形的人人工地、 或利用DP匹配、HMM等自動地執(zhí)行。這里,設(shè)置方法沒有被特別限制。 圖2是示出了真實話音韻律提取部23提取的真實話音韻律信息的示 例的概念圖。在圖2所示的示例中,按語音波形W的形式表達(dá)語音數(shù)據(jù)。 L,到L6中的每一個都表示針對真實話音的各音素設(shè)置的音素邊界(下文 中,稱為"真實話音音素邊界")。"與"之間的部分對應(yīng)于音素"A" 的真實話音音素長度V^ L2與L3之間的部分對應(yīng)于音素"m"的真實話音音素長度V2。 L3與L4之間的部分對應(yīng)于音素"E"的真實話音音素長 度V3。 U與L5之間的部分對應(yīng)于音素"g"的真實話音音素長度V4。 L5 與L6之間的部分對應(yīng)于音素"A"的真實話音音素長度Vs。即,從發(fā)聲 輸入部21輸出的語音數(shù)據(jù)是表示"雨力《"的數(shù)據(jù)。V表示總真實話音音素長度,作為相應(yīng)真實話音音素長度、到V5的總和。這里,假定真實話音音素邊界L4因類似聲音和噪聲而被錯誤較大地 設(shè)置。換句話說,假定真實話音韻律提取部23錯誤地提取了韻律信息。而且,假定在實際發(fā)聲中,真實話音音素邊界L4應(yīng)當(dāng)正確地定位在真實話音音素邊界Q處。因為錯誤地提取了韻律信息,所以音素"E"的真 實話音音素長度V3變得比實際發(fā)聲的真實話音音素長度(Ls與Q之間 的部分)短。而且,音素"g"的真實話音音素長度V4變得比實際發(fā)聲 的真實話音音素長度(C4與Ls之間的部分)長。從而,當(dāng)利用圖2所示 真實話音韻律信息生成合成語音時,合成語音在音素"E"和"g"的部 分中具有不自然節(jié)奏。[韻律修改裝置的構(gòu)造]韻律修改裝置3包括真實話音韻律輸入部31、修改部分確定部32、語速檢測部33、規(guī)則韻律生成部34、真實話音韻律修改部35、以及真實 話音韻律輸出部36。真實話音韻律輸入部31接收從真實話音韻律提取部23輸出的真實 話音韻律信息。真實話音韻律輸入部31將接收到的真實話音韻律信息輸 出至修改部分確定部32、語速檢測部33、以及真實話音韻律修改部35?;趶淖址斎氩?2輸出的字符串?dāng)?shù)據(jù)或從真實話音韻律輸入 部31輸出的真實話音韻律信息,修改部分確定部32確定從人類發(fā)聲提 取的真實話音韻律信息中的很可能是錯誤地提取出的真實話音韻律信息 部分,作為真實話音韻律信息的要修改的修改部分。例如,在基于從字 符串輸入部22輸出的字符串?dāng)?shù)據(jù)確定修改部分的情況下,修改部分確定 部32將從無聲或非發(fā)話音(unvoiced sound)與發(fā)話音之間的邊界到隨后 的發(fā)話音與無聲或非發(fā)話音之間的邊界的部分確定為修改部分。按這種 方式,當(dāng)發(fā)話音與非發(fā)話音之間邊界(在該處,不太可能錯誤地提取真 實話音韻律信息)被設(shè)置為修改部分的各端部時,可以以更準(zhǔn)確地執(zhí)行 修改。在修改部分確定部32基于真實話音韻律信息確定修改部分的情況 下,即,在基于從真實話音韻律信息中提取的音素串確定修改部分的情 況下,修改部分確定部32不必接收來自字符串輸入部22的字符串?dāng)?shù)據(jù)。 因而,在這種情況下,不需要圖1中的從字符串輸入部22到修改部分確 定部32的箭頭。在當(dāng)前實施方式中,假定修改部分確定部32將修改部分確定為由基 于從字符串輸入部22輸出的字符串?dāng)?shù)據(jù)"AmEgA"中的五個連續(xù)音素 "A"、 "m"、 "E"、 "g"以及"A"組成的部分。因而,在當(dāng)前實施方式 中,修改部分確定部32將確定的修改部分"AmEgA"輸出至語速檢測部 33、規(guī)則韻律生成部34、以及真實話音韻律修改部35。在上述示例中,修改部分確定部32將整個輸入音素確定為修改部 分。然而,修改部分確定部32例如可以將表示"雨"的音素"AmE"任 意地確定為修改部分。即,修改部分確定部32可以將被假定為是錯誤地 提取的真實話音韻律信息的任何數(shù)量的任意部分確定為修改部分。例如,修改部分確定部32可以將修改部分確定為真實話音韻律信息的很可能是 被錯誤地提取的部分,如連續(xù)元音部分、包括縮短音的連續(xù)發(fā)話音部分 等。而且,如果假定沒有錯誤地提取真實話音韻律信息,則修改部分確定部32不必確定出修改部分。修改部分確定部32可以包括接收韻律修 改系統(tǒng)1的管理者確定的修改部分的修改部分指定部,該修改部分指定 部可以接收韻律修改系統(tǒng)1的管理者指定的修改部分。語速檢測部33在從真實話音韻律輸入部31輸出的真實話音韻律信 息中檢測從修改部分確定部32輸出的修改部分中的語音的速率。為此, 語速檢測部33包括總真實話音音素長度計算部33a、短音節(jié)計算部33b、 以及語速計算部33c。總真實話音音素長度計算部33a在從真實話音韻律輸入部31輸出的 真實話音韻律信息中計算從修改部分確定部32輸出的修改部分中的總真 實話音音素長度。在當(dāng)前實施方式中,因為修改部分是"AmEgA",所以 總真實話音音素長度計算部33a計算出的總真實話音音素長度V是相應(yīng) 真實話音音素長度Vi到V5的總和??傉鎸嵲捯粢羲亻L度計算部33a將計 算出的總真實話音音素長度輸出至語速計算部33c。短音節(jié)計數(shù)部33b對從修改部分確定部32輸出的修改部分中包括的 短音節(jié)(mora)的總數(shù)量進(jìn)行計數(shù)。在當(dāng)前實施方式中,因為從修改部 分確定部32輸出的修改部分是"AmEgA",所以短音節(jié)計數(shù)部33b將針 對"a"、 "me"以及"ga"的三個短音節(jié)計數(shù)為短音節(jié)的總數(shù)。在此應(yīng)注 意到,短音節(jié)指具有特定音位時長的話音的子句單位。短音節(jié)計數(shù)部33b 將計數(shù)出的短音節(jié)總數(shù)輸出至語速比計算部33c。語速計算部33c基于從總真實話音音素長度計算部33a輸出的修改 部分中的總真實話音音素長度和從短音節(jié)計數(shù)部33b輸出的修改部分中 的短音節(jié)的總數(shù)來計算語音的速率。更具體地說,語速計算部33c采用 通過將總真實話音音素長度除以短音節(jié)的總數(shù)所獲取的值的倒數(shù),由此, 將語音的速率計算為每秒鐘短音節(jié)數(shù)。在當(dāng)前實施方式中,語速計算部 33c計算出語速為3/V。語速計算部33c將計算出的語速輸出至規(guī)則韻律 生成部34,作為語速信息。針對至少包括從修改部分確定部32輸出的修改部分"AmEgA"的 部分,規(guī)則韻律生成部34利用表示與從語速檢測部33輸出的修改部分 中的語速相同或大致相同的語速對應(yīng)的人類發(fā)聲中的規(guī)則的或統(tǒng)計出的 音素長度的數(shù)據(jù),來設(shè)置音素長度和用于確定音素之間的邊界的音素邊 界,由此生成用于修改部分的規(guī)則韻律信息。為此,規(guī)則韻律生成部34 包括音素長度表34a,該音素長度表34a存儲有表示與語速相關(guān)聯(lián)的人類 發(fā)聲中的規(guī)則的或統(tǒng)計出的音素長度的數(shù)據(jù)。例如,音素長度表34a按 日語語音次序存儲有表示音素"A"的平均音素長度的數(shù)據(jù)、表示音素"I" 的平均音素長度的數(shù)據(jù)、表示音素"U"的平均音素長度的數(shù)據(jù)、…。這 些數(shù)據(jù)中的每一個數(shù)據(jù)都和語速相關(guān)聯(lián),并且音素長度表34a存儲有與 多個語速有關(guān)的數(shù)據(jù)。代替音素長度表34a地,規(guī)則韻律生成部34可以 具有根據(jù)語速生成表示音素長度的數(shù)據(jù)的功能。表示音素長度的數(shù)據(jù)可 以通過分析由 一個人發(fā)出的真實話音或者由多個人發(fā)出的真實話音來獲 取。雖然規(guī)則韻律信息是統(tǒng)計學(xué)上恰當(dāng)?shù)捻嵚尚畔?,但這種信息是平均 數(shù)據(jù),由此,與真實話音韻律信息相比,表達(dá)性不足(節(jié)奏變化較小)。圖3是示出了規(guī)則韻律生成部34生成的規(guī)則韻律信息的示例的概念 圖。Bt到B6中的每一個都表示針對修改部分中的各音素設(shè)置的音素邊界 (下文中,稱為"規(guī)則音素邊界")。Bi與B2之間的部分對應(yīng)于音素"A" 的規(guī)則音素長度Ri。 B2與B3之間的部分對應(yīng)于音素"m"的規(guī)則音素長 度R2。 B3與B4之間的部分對應(yīng)于音素"E"的規(guī)則音素長度R3。 B4與 Bs之間的部分對應(yīng)于音素"g"的規(guī)則音素長度R4。 B5與B6之間的部分 對應(yīng)于音素"A"的規(guī)則音素長度Rs。 R表示總規(guī)則音素長度,作為相應(yīng) 規(guī)則音素長度&到R5的總和。在當(dāng)前實施方式中,假定音素"A"的規(guī)則音素長度&為"120"毫 秒、音素"m"的規(guī)則音素長度R2為"70"毫秒、音素"E"的規(guī)則音素 長度R3為"150"毫秒、音素"g"的規(guī)則音素長度R4為"60"毫秒,而 音素"A"的規(guī)則音素長度Rs為"140"毫秒。規(guī)則韻律生成部34將生 成的規(guī)則韻律信息輸出至真實話音韻律修改部35。真實話音韻律修改部35利用從規(guī)則韻律生成部34輸出的規(guī)則韻律信息重置真實話音韻律信息的真實話音音素邊界,以使修改部分中的真 實話音韻律信息的真實話音音素邊界接近于實際真實話音音素邊界,由此,修改真實話音韻律信息。為此,真實話音韻律修改部35包括規(guī)則音素長度比計算部35a和音素邊界重置部35b。規(guī)則音素長度比計算部35a計算從規(guī)則韻律生成部34輸出的規(guī)則韻 律信息的各規(guī)則音素長度比。在當(dāng)前實施方式中,規(guī)則音素長度比計算 部35a最初采用音素"A"的規(guī)則音素長度R!,即,"120"毫秒,作為 基準(zhǔn)規(guī)則音素長度比"1"。在這種情況下,音素"m"的規(guī)則音素長度比 為R2/Ri,音素"E"的規(guī)則音素長度比為R3/R!,音素"g"的規(guī)則音素 長度比為RVRp而音素"A"的規(guī)則音素長度比為R4/R4。換句話說,規(guī) 則音素長度比計算部35a計算出音素"A"的規(guī)則音素長度比"1",音素"m"的規(guī)則音素長度比"0.58",音素"E"的規(guī)則音素長度比"1.25", 音素"g"的規(guī)則音素長度比"0.5"、以及音素"A"的規(guī)則音素長度比"1.17"。在當(dāng)前實施方式中,將各規(guī)則音素長度比計算成兩個小數(shù)位。從而,規(guī)則韻律信息的相應(yīng)規(guī)則音素長度之比為"1: 0.58: 1.25: 0.5:1.17"。規(guī)則音素長度比計算部35a將計算出的相應(yīng)規(guī)則音素長度之比輸 出至音素邊界重置部35b。音素邊界重置部35b重置真實話音韻律信息的真實話音音素邊界, 以使修改部分中的相應(yīng)真實話音音素長度的總和根據(jù)修改部分中的相應(yīng) 規(guī)則音素長度比分界,由此,修改真實話音韻律信息。在當(dāng)前實施方式 中,因為修改部分涉及五個音素"A"、 "m"、 "E"、 "g"以及"A",所以 音素邊界重置部35b根據(jù)相應(yīng)規(guī)則音素長度之比"h 0.58: 1.25: 0.5: 1.17"劃分總真實話音音素長度V,以重置真實話音音素邊界L2到L5, 由此,修改真實話音韻律信息。而且,還可以通過獲取修改過的音素長 度(其為以規(guī)則音素長度比進(jìn)行劃分的結(jié)果)和從真實話音韻律輸入部 31輸出的未經(jīng)修改的音素長度的任意加權(quán)平均值來獲取各音素的最終音 素長度??梢愿嗟丶訖?quán)修改過的音素長度,以便確保更高穩(wěn)定性,或 者另選的是,可以更多地加權(quán)未修改音素長度,以便確保實際發(fā)聲的節(jié) 奏。按這種方式,可以獲取希望的修改結(jié)果。圖4是示出了經(jīng)音素邊界重置部35b修改的真實話音韻律信息的實 施例的概念圖。mL2到mL5中的每一個都表示重置真實話音音素邊界。 L,與mL2之間的部分對應(yīng)于音素"A"的修改后真實話音音素長度mV" mL2與mL3之間的部分對應(yīng)于音素"m"的修改后真實話音音素長度mV2。 mL3與mL4之間的部分對應(yīng)于音素"E"的修改后真實話音音素長度mV3。 mL4與mL5之間的部分對應(yīng)于音素"g"的修改后真實話音音素長度mV4。 mL5與L6之間的部分對應(yīng)于音素"A"的修改后真實話音音素長度mV5。 與圖2所示真實話音音素邊界L4相比,圖4所示真實話音音素邊界mL4 接近于實際真實話音音素邊界C4。這是因為修改后的真實話音韻律信息 總體上基于修改部分中的相應(yīng)真實話音音素長度的總和,而局部地采用 了規(guī)則的或統(tǒng)計學(xué)上恰當(dāng)?shù)囊?guī)則韻律信息的緣故。音素邊界重置部35b 將修改的真實話音韻律信息輸出至真實話音韻律輸出部36。真實話音韻律輸出部36將從音素邊界重置部35b輸出的真實話音韻 律信息輸出至真實話音韻律修改裝置3的外部。例如,從真實話音韻律 輸出部36輸出的真實話音韻律信息被語音合成器使用,以生成和輸出合 成語音。因為從真實話音韻律輸出部36輸出的真實話音韻律信息已經(jīng)修 正了其提取中的錯誤,所以利用從真實話音韻律輸出部36輸出的真實話 音韻律信息生成的合成語音和人類語音一樣自然和富于表達(dá)。代替被語 音合成器使用來生成合成語音地或除了被語音合成器使用來生成合成語 音以外,從真實話音韻律輸出部36輸出的真實話音韻律信息還可以被韻 律詞典組織裝置使用,以組織用于語音合成的韻律詞典。而且,真實話 音韻律信息可以被波形詞典組織裝置使用,以組織用于語音合成的波形 詞典。而且,真實話音韻律信息可以被聲學(xué)模型生成裝置使用,以生成 用于語音識別的聲學(xué)模型。S卩,不存在針對怎樣使用從真實話音韻律輸 出部36輸出的真實話音韻律信息的特別限制。目前,韻律修改裝置3還通過在諸如個人計算機(jī)的任意計算機(jī)上安 裝程序來實現(xiàn)。換句話說,真實話音韻律輸入部31、修改部分確定部32、 語速檢測部33、規(guī)則韻律生成部34、真實話音韻律修改部35以及真實 話音韻律輸出部36可由計算機(jī)的CPU根據(jù)用于實現(xiàn)這些部件的功能的程序進(jìn)行操作來具體實現(xiàn)。就此而言,用于實現(xiàn)真實話音韻律輸入部31、修改部分確定部32、語速檢測部33、規(guī)則韻律生成部34、真實話音韻律 修改部35以及真實話音韻律輸出部36的功能的程序或存儲有這種程序 的記錄介質(zhì)也是本發(fā)明的實施方式。韻律修改系統(tǒng)1的構(gòu)造不限于上述圖1所示構(gòu)造。例如,還可以提 供韻律修改系統(tǒng)la (參見圖5),該韻律修改系統(tǒng)la包括代替韻律修改 部3中的語速檢測部33和真實話音韻律修改部35的語速比檢測部37和 真實話音韻律修改部38。此外,還可以提供韻律修改系統(tǒng)lb(參見圖6), 該韻律修改系統(tǒng)lb包括代替韻律提取器2中的字符串輸入部22的語音 識別部24。圖5是示出了韻律修改系統(tǒng)la的示意構(gòu)造的框圖,該韻律修改系統(tǒng) la在韻律修改裝置3中包括代替圖1所示語速檢測部33和真實話音韻律 修改部35的語速比檢測部37和真實話音韻律修改部38。在圖5中,具 有和圖1中的組件的功能相同的功能的組件用相同標(biāo)號指示。語速比檢 測部37包括總真實話音音素長度計算部37a、總規(guī)則音素長度計算部 37b、以及語速比計算部37c。因為圖5所示韻律修改裝置3不包括圖1 所示語速檢測部33,所以規(guī)則韻律輸出部34不接收語速信息。由此,圖 5所示規(guī)則韻律生成部34僅必須生成與任意語速對應(yīng)的規(guī)則韻律信息。 然而,更優(yōu)選的是,規(guī)則韻律生成部34可以利用與各種情況下的人語音 的平均速率對應(yīng)的音素長度數(shù)據(jù)來生成規(guī)則韻律信息??傉鎸嵲捯粢羲亻L度計算部37a計算修改部分中的真實話音韻律信 息的相應(yīng)真實話音音素長度的總和。這里,總真實話音音素長度計算部 37a計算出總真實話音音素長度V,其是相應(yīng)真實話音音素長度Vi到V5 的總和(參見圖2)。總規(guī)則音素長度計算部37b計算修改部分中的規(guī)則 韻律信息的相應(yīng)規(guī)則音素長度的總和。這里,總規(guī)則音素長度計算部37b 計算出總規(guī)則音素長度R,其是相應(yīng)規(guī)則音素長度R4到R5的總和(參見 圖3)。語速比計算部37c計算總真實話音音素長度計算部37a計算出的 真實話音音素長度的總和與總規(guī)則音素長度計算部37b計算出的規(guī)則音 素長度的總和之比的倒數(shù),作為語速比。這里,語速比計算部37c計算出語速比H為R/V。真實話音韻律修改部38包括音素邊界重置部38a。音素邊界重置部 38a重置真實話音音素邊界k到L6,以使修改部分中的相應(yīng)真實話音音 素長度變?yōu)橄鄳?yīng)音素長度Ri/H、 R2/H、…Rs/H,其是通過將修改部分中 的相應(yīng)規(guī)則音素長度&到R5分別乘以作為語速比計算部37c計算出的語 速比H的倒數(shù)的1/H獲取的,由此,修改真實話音韻律信息。結(jié)果,經(jīng) 音素邊界重置部38a修改的真實話音韻律信息如圖4所示,其與圖1所 示的音素邊界重置部35b修改的真實話音韻律信息一樣。換句話說,盡 管語速比檢測部37和真實話音韻律修改部38以與真實話音韻律修改部 35的方式不同的方式修改真實話音韻律信息,但可以獲取相同的修改結(jié) 果。在圖5所示韻律修改系統(tǒng)la中,可以在修改部分確定部32與規(guī)則 韻律生成部34之間設(shè)置圖1所示語速檢測部33,以使規(guī)則韻律輸生成部 34可以生成與和真實話音韻律信息的語速相同或大致相同的語速對應(yīng)的 規(guī)則韻律信息,并將生成的規(guī)則韻律信息輸出至語速比檢測部37。圖6是示出了在韻律提取部2中包括語音識別部24的韻律修改系統(tǒng) lb的示意構(gòu)造的框圖。在圖6中,具有和圖1的組件的功能相同的功能 的組件用相同標(biāo)號來指示。語音識別部24具有識別發(fā)聲的內(nèi)容的功能。 為此,語音識別部24最初將從發(fā)聲輸入部21輸出的語音數(shù)據(jù)轉(zhuǎn)換成特 征值。利用獲取的特征值,語音識別部24參照關(guān)于聲學(xué)模型和語言模型 (兩種都未示出)的信息,輸出用于表示輸入的真實話音的內(nèi)容的最可 能詞匯或字符串,作為識別的結(jié)果。語音識別部24將識別結(jié)果輸出至真 實話音韻律提取部23和韻律修改裝置3。如上所述,即使韻律修改系統(tǒng)lb不包括如在圖1所示的韻律修改系 統(tǒng)1中設(shè)置的用于接收表示真實話音中的發(fā)聲內(nèi)容的字符串"雨力;"的 字符串輸入部22,語音識別部24也可以識別發(fā)聲的內(nèi)容,并將表示"雨 力、'"的識別結(jié)果輸出至真實話音韻律提取部23和韻律修改裝置3。[韻律修改裝置的操作]接下來,參照圖7,對具有上述構(gòu)造的韻律修改裝置3的操作進(jìn)行說明。圖7是示出了韻律修改裝置3的操作的實施例的流程圖。如圖7所示,真實話音韻律輸入部31接收從真實話音韻律提取部23輸出的真實 話音韻律信息(Opl)。接著,基于從字符串輸入部22輸出的字符串或在Op l中接收到的 真實話音韻律信息,修改部分確定部32確定從人類發(fā)聲中提取的真實話 音韻律信息中的很可能是錯誤地提取的真實話音韻律信息的部分,作為 真實話音韻律信息的要修改的修改部分(Op 2)。語速檢測部33計算在 Op 1中接收到的真實話音韻律信息中的在Op2中確定的修改部分內(nèi)的語 速(Op3)。此后,規(guī)則韻律生成部34利用表示與和Op 3中計算出的語速相同 或大致相同的語速對應(yīng)的人類真實話音中的規(guī)則的或統(tǒng)計出的音素長度 的數(shù)據(jù)設(shè)置確定音素之間的邊界的規(guī)則音素邊界,由此,生成規(guī)則韻律 信息(Op4)。此后,規(guī)則音素長度比計算部35a計算在Op4中生成的規(guī)則韻律信 息的相應(yīng)規(guī)則音素長度之比(Op5)。音素邊界重置部35b重置真實話音 韻律信息的真實話音音素邊界,以使修改部分中的相應(yīng)真實話音音素長 度的總和根據(jù)Op5中計算出的相應(yīng)規(guī)則音素長度之比來分界,由此,修 改真實話音韻律信息(Op6)。真實話音韻律輸出部36將Op6中修改的 真實話音韻律信息輸出至真實話音韻律修改裝置3的外部(Op7)。如上所述,根據(jù)當(dāng)前實施方式的韻律修改裝置3,在要修改的音素 或音素串的部分中,音素邊界重置部35b基于規(guī)則韻律信息中的各音素 的規(guī)則音素長度和作為真實話音韻律信息的語速與規(guī)則韻律信息的語速 之間的比率的語速比,重置真實話音韻律信息中的要修改的音素或音素 串的真實話音音素邊界,由此,修改真實話音韻律信息。換句話說,經(jīng) 修改的真實話音韻律信息總體上基于修改部分中的相應(yīng)真實話音音素邊 界的總和,并且局部地具有根據(jù)統(tǒng)計學(xué)上恰當(dāng)?shù)囊?guī)則音素長度比重置了 的真實話音音素邊界。結(jié)果,可以修改從人類發(fā)聲中錯誤地提取的真實 話音韻律信息而不會減損人類真實話音的自然性和可表達(dá)性并且不會費時費力。下文中,參照圖8A到8C,通過具體實施例的方式,對根據(jù)當(dāng)前實施方式的韻律修改裝置3的操作進(jìn)行說明。圖8A是用于說明圖2所示的 真實話音韻律信息的各音素與該音素的真實話音音素長度比之間的關(guān)系 的圖形。即,圖8A所示標(biāo)記o分別表示音素"A"、 "m"、 "E"、 "g"以 及"A"與真實話音韻律提取部23提取的真實話音韻律信息中的開始音 素"A"的真實話音音素長度比。具體來說,音素"A"的真實話音音素 長度V,是基準(zhǔn)真實話音音素長度比"1",音素"m"的真實話音音素長 度比是V2/V"音素"E"的真實話音音素長度比是V3/Vp音素"g"的 真實話音音素長度比是V4/Vp而音素"A"的真實話音音素長度比是 Vs/Vp圖8A所示標(biāo)記0表示在以實際真實話音音素邊界Q定位圖2所 示真實話音音素邊界L4的情況下音素"E"和"g"的真實話音音素長度 比。圖8B是用于說明圖3所示的規(guī)則韻律信息的各音素與該音素的規(guī)則 音素長度比之間的關(guān)系的圖形。即,圖8B所示標(biāo)記A分別表示音素"A"、 "m"、 "E"、 "g"以及"A"與規(guī)則韻律生成部34生成的規(guī)則韻律信息 中的開始音素"A"的規(guī)則音素長度比。如上所述,相應(yīng)音素的規(guī)則音素長度比為"1: 0.58: 1.25: 0.5: 1.17"。圖8C是用于說明圖4所示的真實話音韻律信息的各音素與該各音素 的真實話音音素長度比之間的關(guān)系的圖形。即,圖8C所示標(biāo)記A分別表 示音素"A"、 "m"、 "E"、 "g"以及"A"與經(jīng)音素邊界重置部35b修改 的真實話音則韻律信息中的開始音素"A"的真實話音音素長度比。如圖 8C所示,音素"E"和"g"的真實話音音素長度比接近于圖8C中標(biāo)記 O表示的音素"E"和"g"的實際真實話音音素長度比。這是因為修改 后的真實話音韻律信息總體上基于修改部分中的相應(yīng)真實話音音素長度 的總和,并且局部地采用統(tǒng)計學(xué)上恰當(dāng)?shù)囊?guī)則韻律信息的緣故。[實施方式2]圖9是示出了根據(jù)當(dāng)前實施方式的韻律修改系統(tǒng)10的示意構(gòu)造的框 圖。根據(jù)當(dāng)前實施方式的韻律修改系統(tǒng)IO包括代替圖1所示韻律修改裝置3的韻律修改裝置4。在圖9中,具有和圖1中的組件的功能相同的功 能的組件用相同標(biāo)號指示,并且省略對其的詳細(xì)說明。 [韻律修改裝置的構(gòu)造]韻律修改裝置4包括代替圖1所示語速檢測部33和真實話音韻律修 改部35的語速比檢測部41和真實話音韻律修改部42。語速比檢測部41 和真實話音韻律修改部42還可由計算機(jī)的CPU根據(jù)用于實現(xiàn)這些部件 的功能的程序進(jìn)行操作來具體實現(xiàn)。語速比檢測部41包括:語速計算范圍設(shè)置部41a、短音節(jié)計數(shù)部41b、 總真實話音音素長度計算部41c、真實話音語速計算部41d、總規(guī)則音素 長度計算部41e、規(guī)則語速計算部41f、以及語速比計算部41g。針對從修改部分確定部32輸出的修改部分中的各音素,語速計算范 圍設(shè)置部41a設(shè)置由包括要修改的音素在內(nèi)的至少一個或更多個音素或 短音節(jié)組成的語速計算范圍。在當(dāng)前實施方式中,語速計算范圍設(shè)置部 41a設(shè)置分別用于修改部分中的音素"A"、 "m"、 "E"、 "g"以及"A" 的語速計算范圍K[l]、 K[2]、 K[3]、 K[4]以及K[5]。這里,假定語速計' 算范圍設(shè)置部41a針對修改部分中的各音素,設(shè)置包括與包括要修改的 音素在內(nèi)的短音節(jié)相鄰的兩個短音節(jié)的三個短音節(jié)的語速計算范圍。然 而,語速計算范圍設(shè)置部41a針對修改部分中的位于呼吸邊界的短音節(jié) 中的各音素,設(shè)置與包括要修改的音素在內(nèi)的短音節(jié)相鄰的兩個短音節(jié) 的語速計算范圍。更具體地說,針對修改部分"AmEgA"中的第二音素 "m"要被修改的情況,語速計算范圍設(shè)置部41a設(shè)置具有三個短音節(jié)的 由五個音素"A"、 "m"、 "E"、 "g"以及"A"組成的語速計算范圍K[2]。 語速計算范圍設(shè)置部41a將設(shè)置的語速計算范圍K[n](n為1或以上的整 數(shù))輸出至短音節(jié)計數(shù)部41b、總真實話音音素長度計算部41c,以及總 規(guī)則音素長度計算部41e。優(yōu)選的是,語速計算范圍設(shè)置部41a根據(jù)音素的環(huán)境動態(tài)地改變語 音數(shù)據(jù)計算范圍的設(shè)置。例如,語速計算范圍設(shè)置部41a針對很可能是 錯誤地提取的真實話音韻律信息的部分(如連續(xù)發(fā)出元音聲的部分)中 的音素將語速計算范圍設(shè)置成更寬,而針對不太可能被錯誤地提取的真實話音韻律信息的部分(如包括發(fā)話聲與非發(fā)話聲之間的許多邊界的部 分)中的音素將語速計算范圍設(shè)置成更窄。結(jié)果,變得可以針對不太可 能錯誤地提取真實話音韻律信息的部分,以真實話音的較高重要性來計 算語速,而針對很可能錯誤地提取的真實話音韻律信息的部分計算更穩(wěn) 定的語速。由此,變得可以計算接近于真實話音的節(jié)奏的語速,并且整 體上穩(wěn)定。
短音節(jié)計數(shù)部41b對從語速計算范圍設(shè)置部41a輸出的語速計算范
圍中的短音節(jié)的總數(shù)進(jìn)行計數(shù)。在當(dāng)前實施方式中,因為語速計算范圍 被設(shè)置成包括與包括要修改的音素在內(nèi)的短音節(jié)相鄰的兩個短音節(jié)的三
個短音節(jié),所以短音節(jié)計數(shù)部41b將短音節(jié)的總數(shù)計數(shù)為3個。然而, 如果按呼吸邊界定位包括要修改的音素在內(nèi)的短音節(jié),則短音節(jié)計數(shù)部 41b將短音節(jié)的總數(shù)計數(shù)為兩個。短音節(jié)計數(shù)部41b將計數(shù)出的短音節(jié)總 數(shù)輸出至真實話音語速計算部41d和規(guī)則語速計算部41f。
總真實話音音素長度計算部41c計算真實話音韻律輸入部31輸出的 真實話音韻律信息中,在語速計算范圍設(shè)置部41a輸出的語速計算范圍 內(nèi)的總真實話音音素長度。在當(dāng)前實施方式中,總真實話音音素長度計 算部41c針對語速計算范圍K[l]、 K[2]、 K[3]、 K[4]以及K[5]分別計算 總真實話音音素長度V[l]、 V[2]、 V[3]、 V[4]以及V[5]。例如,針對語 速計算范圍是K[2]的情況,總真實話音音素長度計算部41c計算出總真 實話音音素長度V為V[2],其是相應(yīng)真實話音音素長度Vi到V5的總和 (參見圖2)??傉鎸嵲捯粢羲亻L度計算部41c將計算出的總真實話音音 素長度V[n]輸出至真實話音語速計算部41d。
真實話音語速計算部41d針對真實話音韻律信息中的修改部分中的 要修改的音素計算出語速Sv,作為每秒鐘發(fā)聲的短音節(jié)數(shù)。更具體地說, 真實話音語速計算部41d釆用通過將從總真實話音音素長度計算部41c 輸出的總真實話音音素長度除以從短音節(jié)計數(shù)部41b輸出的短音節(jié)總數(shù) 所獲取的值的倒數(shù),由此,計算真實話音韻律信息的語速Sv。在當(dāng)前實 施方式中,真實話音語速計算部41d針對V[l]、 V[2]、 V[3]、 V[4]以及 V[5]分別計算語速Sv[1]、 Sv[2]、 Sv[3]、 Sv[4]以及Sv[5]。例如,針對總真實話音音素長度是V[2]的情況,真實話音語速計算部41d計算出語速 Sv[2]為3/V[2]。真實話音語速計算部41d將計算出的語速Sv[n]輸出至語 速比計算部41g。
總規(guī)則音素長度計算部41e按從語速計算范圍設(shè)置部41a輸出的語 速計算范圍來計算從規(guī)則韻律生成部34輸出的規(guī)則韻律信息中的總規(guī)則 音素長度。在當(dāng)前實施方式中,總規(guī)則音素長度計算部41e針對語速計 算范圍K[l]、 K[2]、 K[3]、 K[4]以及K[5]分別計算總規(guī)則音素長度R[1]、 R[2]、 R[3]、 R[4]以及R[5]。例如,針對語速計算范圍是K[2]的情況,總 規(guī)則音素長度計算部41e計算出總規(guī)則音素長度R為R[2],其是相應(yīng)規(guī) 則音素長度Ri到Rs的總和(參見圖3)。總規(guī)則音素長度計算部41e將 計算出的規(guī)則音素長度R[n]輸出至規(guī)則語速計算部41f。
規(guī)則語速計算部41f針對規(guī)則韻律信息中的修改部分中的要修改的 音素計算出語速SR,作為每秒鐘發(fā)聲的短音節(jié)數(shù)。更具體地說,規(guī)則語 速計算部41f采用通過將從總規(guī)則音素長度計算部41e輸出的總規(guī)則音素 長度除以從短音節(jié)計數(shù)部41b輸出的短音節(jié)總數(shù)所獲取的值的倒數(shù),由 此,計算出規(guī)則韻律信息的語速SR。在當(dāng)前實施方式中,規(guī)則語速計算 部41f針對總規(guī)則音素長度R[1]、 R[2]、 R[3]、 R[4]以及R[5]分別計算語 速Sr[I]、 Sr[2]、 Sr[3]、 Sr[4]以及Sr[5]。例如,針對總規(guī)則音素長度是 R[2]的情況,規(guī)則語速計算部41f計算出語速SR[2]為3/R[2]。規(guī)則語速 計算部41f將計算出的語速SR[n]輸出至語速比計算部41g。
語速比計算部41g計算從規(guī)則語速計算部41f輸出的語速Sr[h]與從 真實話音語速計算部41d輸出的語速Sv[n]之間的比率,作為語速比H'[n]。 更具體地說,語速比計算部41g計算出語速Sv[n]與語速SR[n]之比,作為 語速比H'[n]。換句話說,語速比H'[n]是Sv[n]/SR[n]。在當(dāng)前實施方式中, 語速比計算部41g計算出語速比H'[l]為SV[1]/SR[1]、 H'[2]為SV[2]/SR[2]、 H'[3]為SV[3]/SR[3]、 H'[4]為Sv[4]/Sr[4]以及H'[5]為SV[5]/SR[5]。語速比 計算部41g將計算出的語速比H'[n]輸出至真實話音韻律修改部42。
真實話音韻律修改部42包括音素邊界重置部42a。音素邊界重置部 42a重置真實話音韻律信息的真實話音音素長度,以使修改部分中的每一個真實話音音素長度變?yōu)橥ㄟ^將修改部分中的每一個規(guī)則音素長度乘以
從語速比檢測部41輸出的語速比H'[n]的倒數(shù)所獲取的各音素長度。在當(dāng) 前實施方式中,音素邊界重置部42a最初將圖3所示相應(yīng)規(guī)則音素長度 Ri到Rs分別乘以從語速比檢測部41輸出的語速比H'[l]到H'[5]。換句話 說,音素"A"的音素長度是IVH'[l],音素"m"的音素長度是R2/H'[2], 音素"E"的音素長度是R3/H'[3],音素"g"的音素長度是IVH'[4],而 音素"A"的音素長度是R5/H'[5]。音素邊界重置部42a重置真實話音音 素邊界k到L6,以使修改部分中的相應(yīng)真實話音音素長度Vi到Vs分別 變?yōu)槿缟纤鲇嬎愠龅囊羲亻L度R4/H'[1]到R5/H'[5],由此,修改了真實 話音韻律信息。結(jié)果,修改了真實話音韻律提取部23錯誤地提取的韻律 信息。這是因為由于將用于實現(xiàn)與真實話音的節(jié)奏接近的節(jié)奏的語速比 H'應(yīng)用到了統(tǒng)計學(xué)上恰當(dāng)?shù)囊?guī)則韻律信息,所以將真實話音韻律信息修 改成整體接近于真實話音的節(jié)奏,同時修改了其局部韻律雜亂的緣故。 音素邊界重置部42a將修改后的真實話音韻律信息輸出至真實話音韻律 輸出部36。
音素邊界重置部42a可以通過獲取利用語速比H'所修改的音素長度 Rn/H'[n]和從真實話音韻律輸入部31輸出的未修改的音素長度的任意加 權(quán)平均值,來獲取各音素的最終音素長度??梢愿嗟丶訖?quán)修改后的音 素長度,以便確保更高的穩(wěn)定性,或另選的是,可以更多地加權(quán)未修改 的音素長度,以便確保實際發(fā)聲的節(jié)奏。按這種方式,可以獲取希望的 修改結(jié)果。
接下來,參照圖IO,對具有上述構(gòu)造的韻律修改裝置4的操作進(jìn)行 說明。在圖10中,示出和圖7中的處理相同的處理的部分用相同標(biāo)號指 示,并且省略了對其的詳細(xì)說明。
圖10是示出了韻律修改裝置4的操作的實施例的流程圖。圖10所 示Op 1禾B Op 2中的操作和圖7所示Op 1和Op 2中的操作相同。在圖 10所示Op3中,除了規(guī)則韻律生成部34沒有接收語速信息以外,執(zhí)行 和圖7所示Op4中的操作幾乎相同的操作。由此,在圖10所示Op3中,規(guī)則韻律生成部34生成與任意語速對應(yīng)的規(guī)則韻律信息。
在Op 3之后,語速計算范圍設(shè)置部41a針對Op 2中確定的修改部 分中的各音素設(shè)置由包括要修改的音素在內(nèi)的一個或更多個音素或短音 節(jié)組成的語速計算范圍(Opll)。短音節(jié)計數(shù)部41b對Op11中設(shè)置的語 速計算范圍中包括的短音節(jié)總數(shù)進(jìn)行計數(shù)(Opl2)。
接著,總真實話音音素長度計算部41c計算從真實話音韻律輸入部 31輸出的真實話音韻律信息中的在Op 11中設(shè)置的語速計算范圍內(nèi)的總 真實話音音素長度(Op 13)。真實話音語速計算部41d采用通過將Op 13 中計算出的總真實話音音素長度除以O(shè)p 12中計算出的短音節(jié)的總數(shù)所 獲取的值的倒數(shù),由此,計算真實話音韻律信息的語速Sv (Opl4)。
此后,總規(guī)則音素長度計算部41e計算Op3中生成的規(guī)則韻律信息 中的在Op 11中設(shè)置的語速計算范圍內(nèi)的總規(guī)則音素長度(Op 15)。規(guī) 則語速計算部41f采用通過將Op 15中計算出的總規(guī)則音素長度除以O(shè)p 12中計算出的短音節(jié)總數(shù)所獲取的值的倒數(shù),由此,計算出規(guī)則韻律信 息的語速SR (Op 16)。
此后,語速比計算部41g計算Op 14中計算出的語速Sy與Op 16中 計算出的語速SR之比作為語速比H' (Opl7)。音素邊界重置部42a重置 真實話音韻律信息的真實話音音素邊界,以使修改部分中的每一個真實 話音音素長度變?yōu)橥ㄟ^將修改部分中的每一個規(guī)則音素長度乘以O(shè)p 17 中計算出的語速比H'的倒數(shù)所獲取的各音素長度,由此,修改真實話音 韻律信息(Opl8)。
接著,如果音素邊界重置部42a完成針對修改部分中的真實話音韻 律信息中的所有音素的修改(Op 19中的是),則真實話音韻律輸出部36 將Op 18中修改過的真實話音韻律信息輸出至韻律修改裝置4的外部(Op 20)。另一方面,如果音素邊界重置部42a沒有完成針對修改部分中的真 實話音韻律信息中的所有音素的修改(Op 19中的否),則處理返回至Op 11 ,跟著針對修改部分中的真實話音韻律信息中的未修改音素重復(fù)執(zhí)行 的Opll到Opl8中的處理。
如上所述,根據(jù)當(dāng)前實施方式中的韻律修改裝置4,真實話音語速計算部41d基于相應(yīng)音素的真實話音音素長度的總和與語速計算范圍中 的音素或短音節(jié)的數(shù)量,針對語速計算范圍中要修改的各音素計算真實 話音韻律信息的語速。而且,規(guī)則語速計算部41f基于相應(yīng)音素的規(guī)則音 素長度的總和與語速計算范圍中的音素或短音節(jié)的數(shù)量,針對語速計算 范圍中要修改的各音素,計算規(guī)則韻律信息的語速。而且,語速比計算 部41g計算真實話音韻律信息的語速與規(guī)則韻律信息的語速之間的比率,
作為語速比。音素邊界重置部42a基于修改部分中的各音素的規(guī)則音素 長度和計算出的語速比來計算修改后的音素長度,并且重置真實話音韻 律信息的真實話音音素長度,以使修改部分中的每一個真實話音音素長 度變?yōu)樾薷暮蟮囊羲亻L度,由此,修改了真實話音韻律信息。按這種方 式,因為將語速比應(yīng)用至局部恰當(dāng)?shù)囊?guī)則音素長度,所以修改后的真實 話音韻律信息總體上接近于真實話音中的發(fā)聲。換句話說,修改后的真 實話音韻律信息是其中因再現(xiàn)節(jié)奏而造成人真實話音趨于改變的韻律信 息。結(jié)果,可以修改從人類發(fā)聲中錯誤提取的真實話音韻律信息而不會 減損人類真實話音的自然性和可表達(dá)性并且不會費時費力。 [實施方式3]
圖11是示出了根據(jù)當(dāng)前實施方式的韻律修改系統(tǒng)11的示意構(gòu)造的 框圖。根據(jù)當(dāng)前實施方式的韻律修改系統(tǒng)11包括代替圖1所示的韻律修 改裝置3的韻律修改裝置5。在圖11中,具有和圖1的組件的功能相同 的功能的組件用相同標(biāo)號指示,并且省略了對其的詳細(xì)說明。
在當(dāng)前實施方式中,與實施方式1和2不同,為便于說明,假定真 實話音韻律提取部23提取表示"四萬十川(shimantogawa)"的真實話音 韻律信息。圖12是用于說明真實話音韻律提取部23提取的真實話音韻 律信息的各音素"sH"、 "1"、 "m"、 "A"、 "N"、 "t"、 "O"、 "g"、 "A"、 "w"以及"A"與各該音素的真實話音音素長度之間的關(guān)系的圖形。在 圖12所示示例中,假定確定音素"m"與"A"之間的邊界的真實話音 音素邊界被錯誤地設(shè)置成更大范圍。因此,在圖12所示示例中,音素"m" 的真實話音音素長度變得比實際真實話音音素長度長,而音素"A"的真 實話音音素長度變得比實際音素長度短。從而,如果利用圖12所示的真實話音韻律信息生成合成語音,則該合成語音在音素"m"和"A"的部
分中韻律上不自然。
而且,在當(dāng)前實施方式中,與實施方式1和2不同,為便于說明, 假定字符串輸入部22接收表示"9 ^ >卜力'7 " ("shimantogawa")的字 符串,將接收到的字符串轉(zhuǎn)換成字符串?dāng)?shù)據(jù)"sHImANtOgAwA",并且輸 出獲取的字符串?dāng)?shù)據(jù)。而且,在當(dāng)前實施方式中,假定修改部分確定部 32基于從字符串輸入部22輸出的字符串?dāng)?shù)據(jù)"sHImANtOgAwA"確定 由H^—個音素"sH"、 "1"、 "m"、 "A"、 "N"、 "t"、 "O"、 "g"、 "A"、 "w" 以及"A"組成的修改部分。因此,在當(dāng)前實施方式中,規(guī)則韻律生成部 34生成表示"四萬十川"規(guī)則韻律信息。圖13是用于說明規(guī)則韻律生成 部34生成的規(guī)則韻律信息的各音素"sH"、 "1"、 "m"、 "A"、 "N"、 "t"、 "0"、 "g"、 "A"、 "w"以及"A"與各該音素的規(guī)則音素長度之間的關(guān) 系的圖形。雖然圖13所示的規(guī)則韻律信息是統(tǒng)計學(xué)上恰當(dāng)?shù)捻嵚尚畔ⅲ?但與圖12所示真實話音韻律信息相比,這種信息表達(dá)不足(節(jié)奏變化較 少)。
韻律修改裝置5包括代替圖1所示的語速檢測部33和真實話音韻律 修改部35的語速比檢測部51和真實話音韻律修改部52。語速比檢測部 51和真實話音韻律修改部52還可由計算機(jī)的CPU根據(jù)用于實現(xiàn)這些部 件的功能的程序進(jìn)行的操作來實現(xiàn)。
語速比檢測部51包括:音素長度比計算部51a、平滑范圍設(shè)置部51b、 以及語速比計算部51c。
音素長度比設(shè)置部51a計算修改部分中的各音素的真實話音音素長 度與各該音素的規(guī)則音素長度之比,作為音素長度比。在當(dāng)前實施方式 中,音素長度比計算部51a最初計算音素"sH"的真實話音音素長度與 該音素的規(guī)則音素長度之比,作為音素長度比。接著,音素長度比計算 部51a針對剩余音素"1"、 "m"、 "A"、 "N"、 "t"、 "O"、 "g"、 "A"、 "w" 以及"A"重復(fù)這種操作。按這種方式,音素長度比計算部51a計算出各 音素的音素長度比。圖14是用于說明各音素"sH"、"I"、"m"、"A"、"N"、"t"、 "0"、 "g"、 "A"、 "w"以及"A"與各該音素的音素長度比之間的 關(guān)系的圖形。音素長度比計算部51a將計算出的各音素長度比輸出至平 滑范圍設(shè)置部51b和語速比計算部51c。平滑范圍設(shè)置部51b設(shè)置平滑范圍,g卩,針對音素長度比計算部51a 計算出的各音素長度比進(jìn)行平滑以計算語速比的范圍。在當(dāng)前實施方式 中,假定平滑范圍設(shè)置部51b將包括其中央處的任意音素的五個音素設(shè) 置為平滑范圍。平滑范圍設(shè)置部51b將設(shè)置的平滑范圍輸出至語速比計 算部51c。優(yōu)選的是,平滑范圍設(shè)置部51b根據(jù)音素的環(huán)境動態(tài)地改變平滑范 圍的設(shè)置。例如,平滑范圍設(shè)置部51b針對很可能被錯誤地提取的真實 話音韻律信息的部分(如連續(xù)發(fā)出元音聲的部分)中的音素將平滑范圍 設(shè)置成更寬,而針對不太可能被錯誤地提取的真實話音韻律信息的部分 (如包括發(fā)話音與非發(fā)話音之間的許多邊界的部分)中的音素將平滑范 圍設(shè)置成更窄。結(jié)果,變得可以針對不太可能錯誤地提取真實話音韻律 信息的部分更重視真實話音地計算語速,而針對很可能錯誤地提取的真 實話音韻律信息的部分計算更穩(wěn)定的語速。由此,變得可以計算接近于 真實話音的節(jié)奏的語速,并且整體上穩(wěn)定。平滑范圍設(shè)置部51b可以包括檢測音素長度比的變化的變化檢測 部。這里,變化檢測部檢測長度比計算部51a計算出的各音素長度比中 音素長度比急劇地變大或變小的部分。結(jié)果,平滑范圍設(shè)置部51b可以 針對音素長度比急劇地改變的音素將平滑范圍設(shè)置成更寬。在這種情況 下,例如,平滑范圍設(shè)置部51b可以計算檢測到的音素長度比的不同值, 以設(shè)置與計算出的不同值成比例的值,作為平滑范圍。針對修改部分中的各音素的音素長度比,語速比計算部51c在平滑 范圍設(shè)置部51b設(shè)置的平滑范圍中平滑各音素長度比,并且計算平滑結(jié) 果,作為語速比。在當(dāng)前實施方式中,語速比計算部51c計算平滑范圍 中的相應(yīng)音素的音素長度比的平均值,由此,計算出語速比。語速比計 算部51c可以計算平滑范圍中的相應(yīng)音素的音素長度比的加權(quán)平均值。 例如,語速比計算部51c針對很可能錯誤地提取的真實話音韻律信息的音素,通過將較小的權(quán)值分配給該音素的音素長度比,并且針對不太可 能錯誤地提取真實話音韻律信息的音素,通過將較大權(quán)值分配給該音素 的音素長度比,來計算平滑范圍內(nèi)的相應(yīng)音素的音素長度比的平均值。圖15是用于說明各音素"sH"、 "1"、 "m"、 "A"、 "N"、 "t"、 "0"、 "g"、 "A"、 "w"以及"A"與通過平滑所獲取的各該音素的語速比之間的關(guān) 系的圖形(應(yīng)注意到,圖15的圖形表示每一個語速比的倒數(shù))。語速計 算部51c將通過平滑所獲取的語速比輸出至真實話音韻律修改部52。真實話音韻律修改部52包括音素邊界重置部52a。音素邊界重置部 52a重置真實話音韻律信息的真實話音音素邊界,以使修改部分中的各音 素的真實話音音素長度變?yōu)橥ㄟ^將修改部分中的各規(guī)則音素長度乘以從 語速比計算部51c輸出的各音素的語速比的倒數(shù)所獲取的各音素的音素 長度,由此,修改了真實話音韻律信息。在當(dāng)前實施方式中,音素邊界 重置部52a最初地將圖13所示各音素的規(guī)則音素長度乘以圖15所示各 音素的語速比的倒數(shù)。結(jié)果,計算出了各音素的修改后的音素長度。音 素邊界重置部52a重置真實話音音素邊界,以使圖12所示的各音素的真 實話音音素長度變?yōu)樽罱嬎愠龅母饕羲氐男薷暮蟮囊羲亻L度,由此, 修改真實話音韻律信息。圖16是用于說明各音素"sH"、 "1"、 "m"、 "A"、 "N"、 "t"、 "O"、 "g"、 "A"、 "w"以及"A"與該音素的修改真實話音 音素長度之間的關(guān)系的圖形。換句話說,圖16所示真實話音韻律信息是 修改圖12所示的錯誤地提取的韻律信息的結(jié)果。這是因為將通過平滑所 獲取的語速比應(yīng)用至統(tǒng)計學(xué)上恰當(dāng)?shù)囊?guī)則韻律信息的緣故。音素邊界重 置部52a將修改的真實話音韻律信息輸出至真實話音韻律輸出部36。 [韻律修改裝置的操作]接下來,參照圖17,對具有上述構(gòu)造的韻律修改裝置5的操作進(jìn)行 說明。在圖17中,示出了和圖7的處理相同的處理的部分用相同標(biāo)號指 示,并且省略了對其的詳細(xì)說明。圖17是示出了韻律修改裝置5的操作的實施例的流程圖。圖17所 示Op 1禾B Op 2中的操作和圖7所示Op 1和Op 2中的操作相同。在圖 17所示Op3中,除了規(guī)則韻律生成部34沒有接收語速信息以外,執(zhí)行和圖7所示Op4中的操作幾乎相同的操作。由此,在圖17所示Op3中, 規(guī)則韻律生成部34生成與任意語速對應(yīng)的規(guī)則韻律信息。在Op3之后,音素長度比計算部51a計算修改部分中的各音素的真 實話音音素長度與規(guī)則音素長度之比,作為音素長度比(Op 21)。平滑 范圍設(shè)置部51b設(shè)置平滑范圍,gp,針對Op 21中計算出的各音素的音 素長度比進(jìn)行平滑以計算語速比的范圍(Op22)。接著,針對修改部分中的各音素的音素長度比,語速比計算部51c 在Op 22中設(shè)置的平滑范圍內(nèi),平滑各音素的音素長度比,并且計算平 滑結(jié)果,作為語速比(Op 23)。音素邊界重置部52a重置真實話音韻律 信息的真實話音音素邊界,以使修改部分中的各音素的真實話音音素長 度變?yōu)橥ㄟ^將修改部分中的各規(guī)則音素長度乘以O(shè)p 23中計算出的各音 素的語速比的倒數(shù)所獲取的各音素的修改后的音素長度,由此,修改了 真實話音韻律信息(Op 24)。真實話音韻律輸出部36將Op 24中修改的 真實話音韻律信息輸出至真實話音韻律修改裝置5的外部(Op 25)。在 圖17中,可以針對修改部分中的各音素重復(fù)Op22到Op24中的處理。如上所述,根據(jù)當(dāng)前實施方式的韻律修改裝置5,音素長度比計算 部51a計算真實話音音素邊界確定的各音素的真實話音音素長度與規(guī)則 音素邊界確定的各音素的規(guī)則音素長度之比,作為修改部分中的各音素 的音素長度比。語速比計算部51c平滑計算出的各音素長度比,由此, 計算出真實話音韻律信息的語速與規(guī)則韻律信息的語速之間的比率,作 為語速比。音素邊界重置部52a基于規(guī)則韻律信息中的各音素的規(guī)則音 素長度和計算出的修改部分中的語速比來計算修改后的音素長度,并且 重置真實話音韻律信息的真實話音音素邊界,以使修改部分中的各真實 話音音素長度變?yōu)樾薷暮蟮囊羲亻L度,由此,修改了真實話音韻律信息。 按這種方式,因為將語速比應(yīng)用至局部恰當(dāng)?shù)囊?guī)則音素長度,所以修改 后的真實話音韻律信息總體上接近于真實話音中的發(fā)聲。換句話說,修 改后的真實話音韻律信息是其中因再現(xiàn)節(jié)奏而造成人類真實話音趨于改 變的韻律信息。結(jié)果,可以修改從人類發(fā)聲中錯誤地提取的真實話音韻 律信息而不會減損人類真實話音的自然性和可表達(dá)性并且不會費時費力。[實施方式4]圖18是示出了根據(jù)當(dāng)前實施方式的韻律修改系統(tǒng)12的示意構(gòu)造的 框圖。根據(jù)當(dāng)前實施方式的韻律修改系統(tǒng)12包括代替圖9所示的韻律修 改裝置4的韻律修改裝置6。在圖18中,具有和圖9中的組件的功能相 同的功能的組件用相同標(biāo)號指示,并且省略了對其的詳細(xì)說明。而且, 參照圖18所示語速比檢測部14,其構(gòu)成組件41a到41g中的每一個都未 示出。參照圖18所示的真實話音韻律修改部42,未示出音素邊界重置部 42a。韻律修改裝置6除了圖9所示的韻律修改裝置4的組件以外,還包 括真實話音韻律存儲部61和會聚判斷部62。會聚判斷部62還可由計算 機(jī)的CPU根據(jù)用于實現(xiàn)該部件的功能的程序進(jìn)行操作來實現(xiàn)。真實話音韻律存儲部61存儲真實話音韻律輸入部31接收到的真實 話音韻律信息或真實話音韻律修改部42修改后的真實話音韻律信息。真 實話音韻律存儲部61最初存儲從真實話音韻律輸入部31輸出的真實話 音韻律信息。會聚判斷部62判斷從真實話音韻律修改部42輸出的真實話音韻律 信息的真實話音音素長度與存儲在真實話音韻律存儲部61中的未修改真 實話音韻律信息的真實話音音素長度之差是否不小于閾值。例如,會聚判斷部62對單獨真實話音音素長度的差進(jìn)行求和,并且判斷其總和是否 不小于閾值。另選的是,例如,會聚判斷部62采用針對單獨真實話音音 素長度的差中的最大差,作為代表值,并且判斷該代表值是否不小于閾 值。如果該差不小于閾值,則會聚判斷部62將從真實話音韻律修改部42 輸出的真實話音韻律信息寫入真實韻律存儲部61中。結(jié)果,將經(jīng)真實話 音韻律修改部42修改的真實話音韻律信息最新地存儲在真實話音韻律存 儲部61中。在這種情況下,會聚判斷部62指令語速比檢測部41再次計 算語速比。而且,會聚判斷部62指令真實話音韻律修改部42再次修改 存儲在真實話音韻律存儲部61中的真實話音韻律信息。這時,會聚判斷 部62可以將差的結(jié)果輸出至修改部分確定部32,并且修改部分確定部32僅可以確定大的差的范圍,作為新的修改部分。結(jié)果,僅主要錯誤部 分可以被考慮修改。當(dāng)接收到來自會聚判斷部62的指令時,語速比檢測部41讀出存儲 在真實話音韻律存儲部16中的真實話音韻律信息,并且計算修改部分中 的新的語速比。真實話音韻律修改部42在接收到來自會聚判斷部62的 指令時,讀出存儲在真實話音韻律存儲部61中的真實話音韻律信息,并 且利用語速比檢測部41計算出的新的語速比來修改真實話音韻律信息。另一方面,如果所述差小于所述閾值,則會聚判斷部62將從真實話 音韻律修改部42輸出的真實話音韻律信息輸出至真實話音韻律輸出部 36。所述閾值被預(yù)先記錄在設(shè)置在會聚判斷部62中的存儲器中,而其不 限于此。例如,該閾值可以被韻律修改系統(tǒng)12的管理者被設(shè)置為恰當(dāng)?shù)摹?另選的是,該閾值可以根據(jù)音素串改變。如上所述,根據(jù)當(dāng)前實施方式的韻律修改裝置6,會聚判斷部62判 斷真實話音韻律修改部42修改的真實話音韻律信息的真實話音音素長度 與存儲在真實話音韻律存儲部61中的未修改真實話音韻律信息的真實話 音音素長度之差是否不小于閾值。如果該差不小于該閾值,則會聚判斷 部62將經(jīng)真實話音韻律修改部42修改的真實話音韻律信息寫入真實話 音韻律存儲部62中,并且指令真實話音韻律修改部42修改該真實話音 韻律信息。另一方面,如果該差小于該閾值,則會聚判斷部62輸出經(jīng)真 實話音韻律修改部42修改的真實話音韻律信息。結(jié)果,會聚判斷部62可以輸出其中真實話音音素邊界更接近于實際真實話音音素邊界的真實 話音韻律信息。在上述實施例中,會聚判斷部62判斷從真實話音韻律修改部42輸 出的真實話音韻律信息的真實話音音素長度與存儲在真實話音韻律存儲 部61中的未修改真實話音韻律信息的真實話音音素長度之差是否不小于 閾值,但并不限于此。例如,會聚判斷部62可以判斷從真實話音韻律修 改部42輸出的真實話音韻律信息的真實話音音素長度與規(guī)則韻律生成部 44生成的規(guī)則音韻律信息的規(guī)則音素長度之差是否不小于閾值。這允許 會聚判斷部62輸出其中真實話音音素邊界更接近于規(guī)則音素邊界的真實話音韻律信息。而且,在上述實施例中,圖18所示的韻律修改裝置6除了圖9所示 韻律修改裝置4的組件以外,還包括真實話音韻律存儲部61和會聚判斷部62,但并不限于此。S卩,除了圖11所示韻律修改裝置5的組件以外, 還還可以將包括真實話音韻律存儲部和會聚判斷部的韻律修改裝置應(yīng)用 至當(dāng)前實施方式。 [實施方式5]圖19是示出了根據(jù)當(dāng)前實施方式的韻律修改系統(tǒng)13的示意構(gòu)造的 框圖。根據(jù)當(dāng)前實施方式的韻律修改系統(tǒng)13除了圖1所示韻律修改系統(tǒng) 1的組件以外還包括GUI (圖形用戶接口)裝置7和語音合成器8。在圖 19中,具有和圖1中的組件的功能相同的功能的組件用相同標(biāo)號指示, 并且省略了對其的詳細(xì)說明。而且,參照圖19所示韻律修改裝置3,其 構(gòu)成組件32到36中的每一個都未示出。GUI裝置7和語音合成器8可 以設(shè)置在圖5所示韻律修改系統(tǒng)la、圖6所示韻律修改系統(tǒng)lb、圖9所 示韻律修改系統(tǒng)10、圖11所示韻律修改系統(tǒng)11以及圖18所示韻律修改 系統(tǒng)12中的任一個中。與實施方式1到4不同,在當(dāng)前實施方式中,假定真實話音韻律提 取部23從發(fā)聲輸入部21輸出的語音數(shù)據(jù)中除了關(guān)于節(jié)奏的真實話音韻 律信息以外還提取了關(guān)于話音音調(diào)、語調(diào)等的真實話音韻律信息。GUI裝置7允許韻律修改系統(tǒng)13的管理者編輯從韻律修改裝置3輸 出的真實話音韻律信息。為此,GUI裝置7向管理者提供顯示真實話音 韻律信息的用戶接口功能,并且允許管理者操作諸如鼠標(biāo)器和鍵盤的指 示裝置。圖20是示出了 GUI裝置7的顯示畫面的示例的概念圖。如圖 20所示,GUI裝置7的顯示畫面包括真實話音波形顯示部71、音調(diào)模 式顯示部72、合成波形顯示部73、發(fā)聲內(nèi)容輸入部74、讀取假名(日語 音標(biāo))輸入部75、以及操作部76。 GUI裝置7除了允許管理者編輯從韻 律修改裝置3輸出的真實話音韻律信息以外,還可以允許管理者編輯真 實話音韻律提取部23提取的真實話音韻律信息。真實話音波形顯示部71顯示輸入至發(fā)聲輸入部21的語音的波形信息和關(guān)于經(jīng)韻律修改裝置3修改的節(jié)奏的真實話音韻律信息。更具體地 說,真實話音波形顯示部71以語音波形的形式顯示語音數(shù)據(jù),語音波形 上顯示有音素邊界和對應(yīng)音素類型。在圖20所示的示例中,真實話音波形顯示部71顯示音素"kY"、 "0-"、 "w"、 "A"、 "h"、 "A"、 "r"、 "E"、 "d"、 "E"、 "s"以及"u",和韻律修改裝置3重置的相應(yīng)真實話音音素 邊界。而且,真實話音波形顯示部71以可以區(qū)別其它真實話音音素邊界 的方式,顯示真實話音音素邊界,針對該真實話音音素邊界,經(jīng)韻律修 改裝置3修改的真實話音韻律信息的真實話音音素邊界與未修改的真實 話音韻律信息的真實話音音素邊界之差大于閾值。例如,真實話音波形顯示部71使用不同顏色用于真實話音音素邊界,或另選的是,允許真實 話音音素邊界閃爍。在圖20所示的示例中,因為針對音素"r"與"E" 之間的真實話音音素邊界和音素"E"與"d"之間的真實話音音素邊界 的差大于閾值,所以真實話音波形顯示部71允許這些真實話音音素邊界 閃爍(圖20中虛線所示),以使它們可以與其它真實話音音素邊界區(qū)別。 在當(dāng)前實施方式中,真實話音波形實現(xiàn)部71允許管理者利用指示裝置進(jìn) 行操作來移動顯示的真實話音音素邊界,以使得可以重置真實話音音素 邊界。音調(diào)模式顯示部72顯示有關(guān)于從韻律修改裝置3輸出的話音音調(diào)的 真實話音韻律信息。更具體地說,音調(diào)模式顯示部72顯示音調(diào)模式(基 礎(chǔ)頻率)。音調(diào)模式是表示話音音調(diào)或語調(diào)的隨著時間的變化的時間序列 數(shù)據(jù)。在圖20所示示例中,音調(diào)模式顯示部72顯示利用標(biāo)記o表示的 控制點,和通過連接控制點獲取的音調(diào)模式。在當(dāng)前實施方式中,音調(diào) 模式顯示部72允許管理者利用指示裝置進(jìn)行操作來移動音調(diào)模式或控制 點,以可以重置音調(diào)模式或控制點。例如,針對移動控制點的情況,管 理者例如使鼠標(biāo)器的指針接觸要移動的控制點,向上或向下移動(拖拉) 接觸位置(指示位置),并且落在希望位置處,由此,在希望位置處設(shè)置 該控制點。在這種情況下,自動修正控制點之間的音調(diào)模式。優(yōu)選的是, 音調(diào)模式顯示部72以在光譜圖上疊加的這種方式來顯示音調(diào)模式。合成波形顯示部73顯示基于從韻律修改裝置3輸出的真實話音韻律信息所生成的合成語音的波形。在圖20所示的示例中,合成波形顯示部73顯示合成語音的波形、音素"kY"、 "O畫"、"w"、 "A"、 "h"、 "A"、 "r"、 "E"、 "d"、 "E"、 "s"以及"u"、韻律修改裝置3重置的相應(yīng)真實話音 音素邊界、以及真實話音波形顯示部71重置的相應(yīng)真實話音音素邊界。發(fā)聲內(nèi)容輸入部74允許管理者按混合漢語字符和日語假名表字符 的方式輸入表示和人類發(fā)出的真實話音的內(nèi)容相同的內(nèi)容的字符串。在 圖20所示的示例中,發(fā)聲內(nèi)容輸入部74允許管理者輸入"今日〖i晴扎 e t " ("kyo-waharedesu")。讀取假名輸入部75允許管理者按方日語字符將輸入的字符串的讀 取假名輸入發(fā)聲內(nèi)容輸入部74。在圖20所示的示例中,讀取假名輸入部 75允許管理者輸入"* 3 一 7 7八k于"》"。操作部76包括錄音按鈕76a、文本文件閱讀按鈕76b、真實話音 韻律提取按鈕76c、播放按鈕76d、語音文件指定按鈕76e、讀取假名閱 讀按鈕76f、韻律修改按鈕76g、以及停止按鈕76h。錄音按鈕76a被設(shè)置用于對人類發(fā)出的真實話音進(jìn)行錄音。文本文 件閱讀按鈕76b被設(shè)置用于閱讀預(yù)先制備的字符串文本文件。真實話音 韻律提取按鈕76c被設(shè)置用于指令真實話音韻律提取部23提取真實話音 韻律信息。播放按鈕76d被設(shè)置用于播放向發(fā)聲輸入部21輸入的語音數(shù) 據(jù)或基于從韻律修改裝置3輸出的真實話音韻律信息所生成的合成語音 數(shù)據(jù)。語音文件指定按鈕76e被設(shè)置用于指定預(yù)先制備的語音數(shù)據(jù)的文 件。讀取假名閱讀按鈕76f被設(shè)置用于閱讀預(yù)先制備的讀取假名的文本文 件。真實話音韻律修改按鈕76g被設(shè)置用于指令韻律修改裝置3修改真 實話音韻律信息。停止按鈕76h被設(shè)置用于停止播放合成語音數(shù)據(jù)。語音合成器8具有輸出(播放)從GUI裝置7輸出的合成語音的功 能。為此,語音合成器8包括揚聲器等。語音合成器8播放基于真實話 音韻律提取部23提取的真實話音韻律信息所生成的合成語音數(shù)據(jù)、基于 經(jīng)韻律修改裝置3修改的真實話音韻律信息所生成的合成語音數(shù)據(jù),以 及基于經(jīng)GUI裝置7編輯的真實話音韻律信息所生成的合成語音數(shù)據(jù)。 結(jié)果,管理者可以通過收聽其來比較相應(yīng)合成語音。如上所述,根據(jù)當(dāng)前實施方式的韻律修改系統(tǒng)13, GUI裝置7允許編輯經(jīng)韻律修改裝置3修改的真實話音韻律信息。因為GUI裝置7編輯 經(jīng)韻律修改裝置3修改的真實話音韻律信息,所以管理者例如可以針對 真實話音韻律信息進(jìn)行精細(xì)調(diào)節(jié)。如上所述,作為包括接收從人類發(fā)聲中提取的真實話音韻律信息的 真實話音韻律輸入部和修改該真實話音韻律輸入部接收到的該真實話音 韻律信息的真實話音韻律修改部的韻律修改裝置、韻律修改方法或存儲 有韻律修改程序的記錄介質(zhì),本發(fā)明是有用的。在不脫離本發(fā)明的精神或基本特征的情況下,可以以其它形式對本 發(fā)明進(jìn)行具體實施。本申請中公開的實施方式在所有方面都是例示性而 非限制性的。本發(fā)明的范圍通過所附權(quán)利要求而非前述說明來指示,并 且落入本權(quán)利要求的等同含義和范圍內(nèi)的全部改變都被涵蓋于此。
權(quán)利要求
1、一種韻律修改裝置,該韻律修改裝置包括真實話音韻律輸入部,該真實話音韻律輸入部接收從人類發(fā)聲中提取的真實話音韻律信息;規(guī)則韻律生成部,該規(guī)則韻律生成部針對所述真實話音韻律信息中的至少包括要修改的音素或音素串的部分,利用表示人類發(fā)聲中的規(guī)則的或統(tǒng)計出的音素長度的數(shù)據(jù)來生成規(guī)則韻律信息,該規(guī)則韻律信息具有確定音素之間的邊界的規(guī)則音素邊界和音素的規(guī)則音素長度;以及真實話音韻律修改部,該真實話音韻律修改部利用所述規(guī)則韻律生成部生成的所述規(guī)則韻律信息,重置所述真實話音韻律信息中的要修改的所述音素或所述音素串的真實話音音素邊界,以使所述真實話音韻律信息中的要修改的所述音素或所述音素串的所述真實話音音素邊界和真實話音音素長度接近于所述人類發(fā)聲的實際音素邊界和實際音素長度,由此,修改了所述真實話音韻律信息。
2、 根據(jù)權(quán)利要求l所述的韻律修改裝置,所述韻律修改裝置還包括 修改部分確定部,該修改部分確定部基于所述真實話音韻律信息的音素 串類型或所述真實話音音素邊界確定的各音素的所述真實話音音素長度 來確定所述真實話音韻律信息中的包括要修改的所述音素或所述音素串 的所述部分。
3、 根據(jù)權(quán)利要求l所述的韻律修改裝置,其中,所述真實話音韻律 修改部包括音素邊界重置部,該音素邊界重置部基于在包含要修改的所 述音素或所述音素串的所述部分中由所述規(guī)則音素邊界確定的各音素的 規(guī)則音素長度比來重置所述真實話音韻律信息中的要修改的所述音素或 所述音素串的所述真實話音音素邊界,由此修改所述真實話音韻律信息。
4、 根據(jù)權(quán)利要求1所述的韻律修改裝置,其中,所述真實話音韻律 修改部包括音素邊界重置部,該音素邊界重置部基于所述規(guī)則韻律信息 的各音素的所述規(guī)則音素長度和作為包括要修改的所述音素或所述音素 串的所述部分中的所述真實話音韻律信息的語速與所述規(guī)則韻律信息的語速之間的比率的語速比,來重置所述真實話音韻律信息中的要修改的 所述音素或所述音素串的所述真實話音音素邊界,由此修改所述真實話 音韻律信息。
5、 根據(jù)權(quán)利要求4所述的韻律修改裝置,所述韻律修改裝置還包括語速比檢測部,該語速比檢測部在語速計算范圍內(nèi),基于所述真實話音 音素邊界確定的各音素的真實話音音素長度的總和與所述語速計算范圍 中的音素或短音節(jié)的數(shù)量來計算要修改的所述音素的所述真實話音韻律 信息的語速,并且基于所述規(guī)則音素邊界確定的各音素的所述規(guī)則音素 長度的總和與所述語速計算范圍內(nèi)的音素或短音節(jié)的數(shù)量來計算要修改 的所述音素的所述規(guī)則韻律信息的語速,并計算所述真實話音韻律信息 的語速與所述規(guī)則韻律信息的語速之間的比率,作為所述語速比,其中 所述語速計算范圍由至少一個或更多個音素或短音節(jié)組成并且包括真實 話音韻律信息中的要修改的所述音素,其中,所述音素邊界重置部基于所述規(guī)則韻律信息中的各所述音素 的所述規(guī)則音素長度和所述語速比檢測部計算出的所述語速比來計算包 括要修改的音素或所述音素串的所述部分中的修改后的音素長度,并且 重置所述真實話音韻律信息的所述真實話音音素邊界,以使所述部分中 的每一個真實話音音素長度變?yōu)樾薷暮蟮囊羲亻L度,由此,修改所述真實話音韻律信息。
6、 根據(jù)權(quán)利要求4所述的韻律修改裝置,所述韻律修改裝置還包括音素長度比計算部,該音素長度比計算部計算所述真實話音音素邊 界確定的各音素的所述真實話音音素長度與所述規(guī)則音素邊界確定的所 述音素的所述規(guī)則音素長度之間的比率,作為所述真實話音韻律信息中 的包括要修改的所述音素或所述音素串的所述部分中的所述音素的音素長度比;禾口語速比計算部,該語速比計算部平滑所音素長度比計算部計算出的 所述音素長度比,由此,計算所述真實話音韻律信息的語速與所述規(guī)則 韻律信息的語速之間的比率,作為所述語速比,其中,所述音素邊界重置部基于所述規(guī)則韻律信息中的所述音素的所述規(guī)則音素長度和所述語速比計算部計算出的所述語速比來計算包括 要修改的音素或音素串的所述部分中的修改后的音素長度,并且重置所 述真實話音韻律信息的所述真實話音音素邊界,以使所述部分中的各真 實話音音素長度變?yōu)樗鲂薷暮蟮囊羲亻L度,由此修改所述真實話音韻 律信息。
7、 根據(jù)權(quán)利要求1所述的韻律修改裝置,所述韻律修改裝置包括 真實話音韻律存儲部,該真實話音韻律存儲部存儲所述真實話音韻律輸入部接收到的所述真實話音韻律信息或經(jīng)所述真實話音韻律修改部 修改的所述真實話音韻律信息;和會聚判斷部,該會聚判斷部在經(jīng)所述真實話音韻律修改部修改的所 述真實話音韻律信息的所述真實話音音素長度與所述真實話音韻律存儲 部中存儲的未修改的所述真實話音韻律信息的所述真實話音音素長度之 差不小于閾值時,在所述真實話音韻律存儲部中寫入所述真實話音韻律 修改部修改的所述真實話音韻律信息并指令所述真實話音韻律修改部修 改所述真實話音韻律信息,并且在經(jīng)所述真實話音韻律修改部修改的所 述真實話音韻律信息的所述真實話音音素長度與所述真實話音韻律存儲 部中存儲的未修改的所述真實話音韻律信息的所述真實話音音素長度之 差小于所述閾值時,輸出經(jīng)所述真實話音韻律修改部修改的所述真實話 音韻律信息。
8、 一種GUI裝置,該GUI裝置允許編輯經(jīng)根據(jù)權(quán)利要求1所述的 韻律修改裝置修改的所述真實話音韻律信息。
9、 一種語音合成器,該語音合成器輸出基于經(jīng)根據(jù)權(quán)利要求1所述 的韻律修改裝置修改的所述真實話音韻律信息所生成的合成語音。
10、 一種語音合成器,該語音合成器輸出基于根據(jù)權(quán)利要求8所述 的GUI裝置編輯的所述真實話音韻律信息所生成的合成語音。
11、 一種韻律修改方法,該韻律修改方法包括以下步驟真實話音韻律輸入操作步驟,在該真實話音韻律輸入操作步驟中, 設(shè)置在計算機(jī)中的真實話音韻律輸入部接收從人類發(fā)聲中提取的真實話 音韻律信息;規(guī)則韻律生成操作步驟,在該規(guī)則韻律生成操作步驟中,設(shè)置在所 述計算機(jī)中的規(guī)則韻律輸生成部針對所述真實話音韻律信息中的至少包 括要修改的音素或音素串在內(nèi)的部分,利用表示人類發(fā)聲中的規(guī)則的或 統(tǒng)計出的音素長度的數(shù)據(jù)來生成規(guī)則韻律信息,該規(guī)則韻律信息具有音 素的規(guī)則音素長度和確定音素之間的邊界的規(guī)則音素邊界;以及真實話音韻律修改操作步驟,在該真實話音韻律修改操作步驟中, 設(shè)置在所述計算機(jī)中的真實話音韻律修改部利用在所述規(guī)則韻律生成操 作步驟中生成的所述規(guī)則韻律信息,重置所述真實話音韻律信息中的要 修改的所述音素或所述音素串的真實話音音素邊界,以使所述真實話音 韻律信息中的要修改的所述音素或所述音素串的所述真實話音音素邊界 和真實話音音素長度接近于所述人類發(fā)聲的實際音素邊界和實際音素長 度,由此修改所述真實話音韻律信息。
12、 一種存儲有韻律修改程序的記錄介質(zhì),該韻律修改程序允許計 算機(jī)執(zhí)行以下處理真實話音韻律輸入處理,該真實話音韻律輸入處理接收從人類發(fā)聲中提取的真實話音韻律信息;規(guī)則韻律生成處理,該規(guī)則韻律生成處理針對所述真實話音韻律信 息中的至少包括要修改的音素或音素串在內(nèi)的部分,利用表示人類發(fā)聲 中的規(guī)則的或統(tǒng)計出的音素長度的數(shù)據(jù)來生成規(guī)則韻律信息,該規(guī)則韻 律信息具有音素的規(guī)則音素長度和用于確定音素之間的邊界的規(guī)則音素 邊界;以及真實話音韻律修改處理,該真實話音韻律修改處理利用在所述規(guī)則 韻律生成處理中生成的所述規(guī)則韻律信息,重置所述真實話音韻律信息 中的要修改的所述音素或所述音素串的真實話音音素邊界,以使所述真 實話音韻律信息中的要修改的所述音素或所述音素串的所述真實話音音 素邊界和真實話音音素長度接近于所述人類發(fā)聲的實際音素邊界和實際 音素長度,由此修改所述真實話音韻律信息。
全文摘要
本發(fā)明涉及韻律修改裝置和方法及存儲有韻律修改程序的記錄介質(zhì)。該韻律修改裝置包括真實話音韻律輸入部,用于接收從人類發(fā)聲中提取的真實話音韻律信息;規(guī)則韻律生成部,用于針對真實話音韻律信息中的至少包括要修改的音素或音素串的部分,利用表示人類發(fā)聲中的規(guī)則的或統(tǒng)計出的音素長度的數(shù)據(jù)來生成規(guī)則韻律信息(其具有確定音素之間的邊界的規(guī)則音素邊界和音素的規(guī)則音素長度);以及真實話音韻律修改部,其利用生成的規(guī)則韻律信息,重置真實話音音素邊界,以使真實話音韻律信息中的要修改的音素或音素串的真實話音音素邊界和真實話音音素長度接近于人類發(fā)聲的實際音素邊界和實際音素長度,由此修改真實話音韻律信息。
文檔編號G10L13/00GK101271688SQ20081008674
公開日2008年9月24日 申請日期2008年3月20日 優(yōu)先權(quán)日2007年3月20日
發(fā)明者村瀨健太郎, 片江伸之 申請人:富士通株式會社