專利名稱:語音合成裝置及其方法
技術(shù)領(lǐng)域:
本申請涉及語音合成裝置、語音合成方法和語音合成程序,其允許根 據(jù)在自然語言表現(xiàn)中使用的諸如音素符號/音節(jié)符號或者字符序列的音位 符號來合成語音。
背景技術(shù):
如在日本聲學學會的2004年秋季會漢的會漢錄第369 - 370頁所述的, 已知作為提高傳統(tǒng)的語音合成器的聲音質(zhì)量的方法,增加可用的波形數(shù)據(jù) 是有效的。實現(xiàn)該方法的推薦方案是在存儲器和硬盤之間分布大量的波形 數(shù)據(jù)并使用。
根據(jù)日本專利申請公開號07-141000所公開的內(nèi)容,在產(chǎn)生每個由多 個合成單元的組合構(gòu)成的合成單元串(處理單元)的合成語音的語音合成 裝置中,當大量的波形數(shù)據(jù)分布在存儲器和硬盤之間時,更頻繁使用的波 形數(shù)據(jù)在允許數(shù)據(jù)以高速獲取的存儲器中具有優(yōu)先權(quán)。
日本專利申請公開號2005-266010公開了一種基于多個子成本從開頭 順序地確定合成片段的方法,其中子成本包括與訪問存儲有合成片段(在 日本專利申請公開號07-14100中稱為"語音片段")的波形數(shù)據(jù)的存儲設(shè) 備的訪問速度有關(guān)的成本(訪問速度成本)。
根據(jù)由日本專利申請爿i^開號07-14100和2005-266010所7>開的方法,用于產(chǎn)生與多個處理單元對應(yīng)的合成語音所需要的總處理時間可以在一定 程度上減少,如果不需要嚴格的可靠性。
時,在允許數(shù)據(jù)僅以低速獲取的硬盤中提供的波形數(shù)據(jù)可能被集中地使用。 在這種情況下,用于從硬盤獲取波形數(shù)據(jù)所需要的時間占了用于產(chǎn)生與處 理單元對應(yīng)的合成語音所需要的時間的過多的百分比,這可導致處理單元 時間在多個處理單元中變化很大。然而,既沒有避免該變化的方法,也沒
的增加的方法。
如前所述,根據(jù)傳統(tǒng)技術(shù),在用于產(chǎn)生合成語音所需要的時間上在多 個處理單元之間有很大的不同。由于數(shù)據(jù)獲取操作造成的在用于產(chǎn)生合成 語音所需要的時間上的增加不能完全減小。
發(fā)明內(nèi)容
因此,本發(fā)明旨在解決上述的問題,本發(fā)明的目的在于提供一種語音 合成器、語音合成方法和語音合成程序,其使由于數(shù)據(jù)獲取操作造成的在 用于產(chǎn)生合成語音所需要的時間上的增加能夠被完全防止,而在用于產(chǎn)生
根據(jù)本發(fā)明的實施例,語音合成器獲取與在輸入合成單元串中包括的 規(guī)定處理單元中多個合成單元對應(yīng)的合成片段的波形數(shù)據(jù),并通過連接波
形數(shù)據(jù)而合成語音,該語音合成器包括屬性信息存儲々某體,其存儲除了 波形數(shù)據(jù)之外的所述合成片段的屬性信息;多個波形數(shù)據(jù)存儲媒體,其存
儲所述合成片段的波形數(shù)據(jù),其中所述合成片段具有不同的用于獲取所述
所存儲的波形數(shù)據(jù)的數(shù)據(jù)獲取時間;數(shù)據(jù)位置信息存儲媒體,其存儲包括
據(jù)位置信息;候選獲取單元,其根據(jù)所述處理單元中每個所述合成單元的 屬性信息,從所述屬性信息存儲媒體中獲取與每個所述合成單元對應(yīng)的合 成片段候選;合成片段選擇器,其獲取多個序列,其中每個序列包括對每
6個所述合成單元獲取的多個合成片段候選的組合,并根據(jù)所述位置信息從 所述多個序列中選擇一個序列,以使得用于獲取所述處理單元中所述合成
片段的波形數(shù)據(jù)所需要的總時間不超過數(shù)據(jù)獲取時間的上限;合成片段產(chǎn) 生單元,其組合所述所選擇的一個序列上的合成片段以產(chǎn)生合成片段串; 以及波形生成器,其從每個所述波形數(shù)據(jù)存儲媒體中獲取在所述合成片段 串中包括的合成片段的波形數(shù)據(jù)并連接這些數(shù)據(jù)。
根據(jù)本發(fā)明,在用于產(chǎn)生合成語音所需要的時間上在處理單元之間不 會產(chǎn)生大的不同,并且由于數(shù)據(jù)獲取操作造成的在用于產(chǎn)生合成語音所需 要的時間上的增加能夠完全減少。
圖l是才艮據(jù)本發(fā)明的第一實施例的語音合成裝置的結(jié)構(gòu)的框圖2是才艮據(jù)第一實施例的語音合成裝置中的語音合成器14的結(jié)構(gòu)的框
圖3是說明根據(jù)第一實施例的語音合成裝置的操作的流程圖; 圖4是說明根據(jù)第一實施例的語音合成裝置中的語音合成器14的操作 的流程圖5是說明初步選擇的圖6A是說明當與獲取數(shù)據(jù)有關(guān)的條件沒有滿足時的處理的圖; 圖6B是(與波形數(shù)據(jù)有關(guān)的)數(shù)據(jù)位置信息的內(nèi)部結(jié)構(gòu)的例子的表; 圖7A和7B是說明連接成本計算的圖; 圖8是i^明總成本計算的圖9是說明獲取數(shù)據(jù)的條件(每個訪問等級中的最佳路徑計算1)的
圖IO是說明獲取數(shù)據(jù)的條件(每個訪問等級中的最佳路徑計算2)的
圖ll是說明獲取數(shù)據(jù)的條件(每個訪問等級中的最佳路徑計算3)的
圖;圖12是說明存儲所有訪問等級中的最佳路徑的路徑和總成本的方式
的圖13是說明獲取數(shù)據(jù)的條件(當對處理單元的應(yīng)用完成時的結(jié)果)的
圖14是說明獲取數(shù)據(jù)的條件(處理單元中的最佳路徑)的圖; 圖15是示出本發(fā)明的第二實施例的總體結(jié)構(gòu)的語音合成裝置的結(jié)構(gòu) 的框圖16是根據(jù)第二實施例的語音合成裝置中的語音合成器17的結(jié)構(gòu)的 框圖17是說明根據(jù)第二實施例的語音合成裝置中的語音合成器17的操 作的流程圖18A是說明當與獲取數(shù)據(jù)有關(guān)的條件沒有滿足時的處理的圖18B是(與波形數(shù)據(jù)有關(guān)的)數(shù)據(jù)位置信息的內(nèi)部結(jié)構(gòu)的例子的表;
圖19是說明獲取數(shù)據(jù)的條件(每個訪問等級中的最佳路徑選擇l)的
圖20是說明獲取數(shù)據(jù)的條件(每個訪問等級中的最佳路徑選擇2)的
圖21示出所有等級中的最佳路徑;
圖22是說明獲取數(shù)據(jù)的條件(當在處理單元處獲取數(shù)據(jù)的條件的應(yīng)用 完成時)的圖23是示出如何將獲取數(shù)據(jù)的條件應(yīng)用于多個合成單元之間的間隔的圖。
具體實施方式
術(shù)語的定義
在描述本發(fā)明的實施例之前,在此定義將要^f吏用的術(shù)語。 術(shù)語"合成單元"指構(gòu)成合成語音或人發(fā)出的語音的基本單元,和當 形成多個共享某個共同特征的波形數(shù)據(jù)組時使用的一類單元。在傳統(tǒng)的例素、cvc、 vcv等(其中c表示輔 音,v表示元音)。
術(shù)語"合成單元串"是多個合成單元的序列。 術(shù)語"處理單元"指滿足規(guī)定條件的多個合成單元的序列。 術(shù)語"條件,,包括例如與目標合成語音的合成單元對應(yīng)的段的時長的 數(shù)量或者總和。
術(shù)語"音位符號"對應(yīng)于提供給基于某個合成單元的每個分類集合的 標簽。例如,當合成單元是音素時,音素符號對應(yīng)于音位符號。在傳統(tǒng)的 例子中,有音素符號、語音符號、音節(jié)符號及其組合。
術(shù)語"合成片段"指屬于任何基于某個合成單元的分類集合的單元。 例如,當音素是合成單元時,只有共享規(guī)定的共同特征的波形數(shù)據(jù)屬于具 有相同音素符號的所記錄的語音段的波形數(shù)據(jù)的集合。通過向這些類型的 波形數(shù)據(jù)提供屬性而不是波形數(shù)據(jù),完成一個合成片段,其中,屬性是諸 如采用自然語言的發(fā)音段中的與語言有關(guān)的屬性(諸如距離重音核心的距 離、包括該段的詞的詞類),所發(fā)出的語音段的聲學屬性(諸如基頻)有 關(guān)的值(屬性值)。
術(shù)語"片段屬性"指除了波形數(shù)據(jù)之外的合成片段的任何屬性。片段 屬性包括例如上述的與語言有關(guān)的屬性(語言屬性)和聲學屬性。
術(shù)語"片段數(shù)據(jù)"總體表示合成片段的屬性的值。該術(shù)語總體表示每 個合成片段的波形數(shù)據(jù)、片段屬性"基頻"的數(shù)據(jù)等。
術(shù)語"片段ID"是分配^個合成片段以識別其自身的標識符。 現(xiàn)在參照附圖并使用這些術(shù)語描述本發(fā)明的實施例。 第一實施例
現(xiàn)在參照圖1至圖14描述根據(jù)本發(fā)明的第一實施例的語音合成裝置。 (1)語音合成裝置的結(jié)構(gòu)
圖1是才艮據(jù)本實施例的語音合成裝置10的結(jié)構(gòu)的框圖。 語音合成裝置10包括從外部獲取用于語音合成的文本數(shù)據(jù)的文本獲 取裝置11、對文本數(shù)據(jù)執(zhí)行形態(tài)分析/解析的語言處理器12、根據(jù)文本數(shù)
9據(jù)的與韻律和語言相關(guān)的屬性(諸如重音和詞性)向語音合成器14輸出合 成單元串的韻律處理器13、根據(jù)合成單元串產(chǎn)生合成語音的語音合成器、 以及在輸出合成語音被積累后或在其被輸出時順序地再現(xiàn)規(guī)定量的輸出合 成語音的語音波形輸出裝置15。
語音合成裝置10可通過在計算機中預先安裝使該計算機能夠?qū)崿F(xiàn)單 元11至14的功能的程序來實現(xiàn),或者通過在諸如CD-ROM的存儲媒體 中存儲該程序或在網(wǎng)絡(luò)上分布該程序以使得該程序按照需要安裝在計算機 中來實現(xiàn)。存儲語音片段數(shù)據(jù)的存^f某體可以根據(jù)需要通過在計算機的內(nèi) 部或外部提供的存儲器或硬盤來實現(xiàn),或者使用CD-R、 CD-RW、 DVD-RAM、 DVD-R等實現(xiàn)。
應(yīng)當注意,構(gòu)成將從韻律處理器13傳輸?shù)秸Z音合成器14的合成單元 串的"合成單元"具有與包括音素符號或目標韻律信息所對應(yīng)的段的文本 有關(guān)的語言信息。目標合成語音用合成單元串表示,并且結(jié)果被傳輸?shù)秸Z 音合成器14。
"韻律信息"包括諸如基頻、時長、Mel倒譜和功率的信息。 "語言信息,,包括諸如詞、重音短語中音節(jié)的數(shù)量或者音拍/重音類型 的數(shù)量、與每個合成單元對應(yīng)的詞、基于重音短語中的音節(jié)或音拍的位置 和表明包括每個合成單元的音節(jié)是否是重音核心的標志的信息。 (2)語音合成器14的結(jié)構(gòu)
現(xiàn)在參照圖2描述語音合成器14。圖2是語音合成器14的框圖。 語音合成器14包括存儲々某體110、合成片段選擇器130和波形生成器
140。
存儲媒體110包括多個存儲媒體,其存儲所有合成片段(M-l,..., M-k, H-l, ..., H-k)的所有片段數(shù)據(jù),并且這些媒體在數(shù)據(jù)獲取時間上 不同。更具體地,存 體包括存儲器111和硬盤(此后稱為"HDD") 112。存儲器lll存儲與所有合成片段的所有片段屬性有關(guān)的片段數(shù)據(jù)、一 部分合成片段的所有波形數(shù)據(jù)以及記錄是存儲器111還是HDD 112存儲所 有合成片段的波形數(shù)據(jù)的數(shù)據(jù)位置信息113。 HDD 112存儲沒有被存儲器111存儲的合成片段的波形數(shù)據(jù)。
合成片段選擇器130選擇每個合成單元的合成片段,并根據(jù)在從韻律 控制單元13輸入的合成單元串中每個合成單元中包括的目標合成語音的 音位/韻律信息/語言信息、在存儲器111中存儲的每個合成片段的規(guī)定的片 段屬性的片段數(shù)據(jù)、數(shù)據(jù)位置信息113和與從HDD 112獲取波形數(shù)據(jù)有關(guān) 的用于合成單元串的條件,產(chǎn)生由多個合成片段的組合構(gòu)成的合成片段串。
波形生成器140從存儲器111和HDD 122中獲取對每個合成單元選擇 的合成片段的波形數(shù)據(jù),并連接這些數(shù)據(jù)以產(chǎn)生與合成單元串對應(yīng)的合成 速度。
應(yīng)當注意,根據(jù)本實施例的"波形數(shù)據(jù)"可以是通過對波形數(shù)據(jù)編碼 而產(chǎn)生的參數(shù)序列,或者可包括"波形數(shù)據(jù)"以及在波形生成器140中使 用的數(shù)據(jù),諸如基音標記,以替代上述的例子。
在所描述的實施例中,"波形數(shù)據(jù)"是在數(shù)據(jù)位置信息113中記錄的 片段數(shù)據(jù)的一個例子,但是,數(shù)據(jù)可以是其它類型的數(shù)據(jù),只要是在合成 片段選擇器130的后續(xù)階段的處理中使用的波形數(shù)據(jù),或者是與規(guī)定的片 段屬性有關(guān)但沒有存儲在用于所有合成片段的單個存儲媒體中(分布在多 個存儲媒體中)的片段數(shù)據(jù)即可,以替代上述的例子。
在本說明書中,與"所有合成片段"有關(guān)的信息被記錄為在數(shù)據(jù)位置 信息113中記錄的信息的例子,但是只需要最終存儲與所有合成片段的波 形數(shù)據(jù)有關(guān)的片段數(shù)據(jù)的存儲媒體能夠唯一地確定。例如,存儲某個合成 片段的規(guī)定的片段數(shù)據(jù)的存儲媒體可以根據(jù)其不在數(shù)據(jù)位置信息113中而 確定,以替代上述的方式。
應(yīng)當注意,語音合成器4可以例如通過通用計算機實現(xiàn)為基本硬件。
更具體地,存儲合成片段的片段數(shù)據(jù)并具有不同的數(shù)據(jù)獲取時間的屬
性信息存儲媒體/波形數(shù)據(jù)存儲媒體、至少根據(jù)記錄存儲合成片段的波形數(shù) 據(jù)的存儲媒體的數(shù)據(jù)位置信息和與從每個波形數(shù)據(jù)存儲媒體中獲取波形數(shù) 據(jù)有關(guān)的用于合成單元串的條件和數(shù)據(jù)位置信息產(chǎn)生由多個合成片段的組 合構(gòu)成的合成片段串的合成片段選擇器130、和獲取合成片段串中合成片段的波形數(shù)據(jù)并連接這些數(shù)據(jù)的波形生成器140可以通過使在計算機中提 供的處理器能夠執(zhí)行程序來實現(xiàn)。 (3)存儲媒體110的結(jié)構(gòu)
在本實施例的說明中,參考通用計算機的結(jié)構(gòu)作為例子,存儲媒體110 包括作為主存儲裝置的存儲器111和作為輔助存儲裝置的HDD (也稱為 "HD"和"硬盤")112的組合。
然而,應(yīng)當注意,除了根據(jù)本實施例的裝置結(jié)構(gòu)外,也可結(jié)合外部存 儲裝置(可移動磁盤)。另外,可提供諸如可移動硬盤的磁盤、諸如CD 和DVD的光盤、諸如各種閃存(諸如NAND型、NOR型、DiNOR型和 ORNAND型器件)的半導體存儲器,并且從主存儲裝置、輔助存儲裝置 和外部存儲裝置來說可使用多個存 體。
代替輔助存儲裝置,可使用外部存儲裝置,并且從主存儲裝置和外部 存儲裝置來說可使用多個存儲媒體。
這樣,只要使用具有不同的數(shù)據(jù)獲取時間的多個存儲媒體,則除了上 述的例子外,可以釆用任何組合。 (4 )語音合成裝置10的操作
現(xiàn)在參照圖1和圖3描述根據(jù)本實施例的語音合成裝置10的操作。圖 3是用于說明語音合成裝置10的操作的流程圖。
文本獲取裝置ll從外部獲取用于語音合成的文本數(shù)據(jù)(S301)。
語言處理器12對文本獲取裝置11所獲取的文本數(shù)據(jù)執(zhí)行形態(tài)分析, 并將數(shù)據(jù)劃分成語素(S302)。應(yīng)當注意,在除了粘著語的語言中,該步 驟在某些情況下可省略。
語言處理器12對通過劃分而產(chǎn)生的語素序列進行解析,并向語素提供 例如關(guān)于讀信息、詞性類型、變形和語素之間的依賴性的屬性值(S303)。
然后,韻律處理器13還根據(jù)屬性值向語素序列中的語素提供與韻律有 關(guān)的屬性值,諸如韻律符號串和重音類型,其中語素具有與從語言處理器 12輸入的規(guī)定屬性有關(guān)的值(S304)。
韻律處理器13以合成單元為^J根據(jù)在步驟S303和S304中提供給語素的屬性值產(chǎn)生合成語音的目標韻律信息,并產(chǎn)生由多個合成單元構(gòu)成 的合成單元串,其中每個合成單元具有音位符號、韻律信息和語言信息
(S305)。根據(jù)本實施例,音素是合成單元。
然后,語音合成器14形成由滿足規(guī)定條件的多個合成單元構(gòu)成的多個 合成單元串(S306)。根據(jù)本實施例,從開頭順序地執(zhí)行劃分,以使得在 處理單元中包括的合成單元的目標時長的總和在規(guī)定的時間段內(nèi)。
語音合成器14產(chǎn)生與對應(yīng)的語音將要產(chǎn)生的處理單元中在開頭處的 處理單元對應(yīng)的合成語音,并將結(jié)果輸出到述語音波形輸出裝置15 (S307)。
后面將詳細描述步驟S307。
語音波形輸出裝置15開始再現(xiàn)由語音合成器14產(chǎn)生的合成語音,過 程立即進4于到S309。
重復步驟S307和S308中的處理,直到對與輸入文本數(shù)據(jù)對應(yīng)的所有 處理單元都執(zhí)行了處理(S309)。
應(yīng)當注意,在步驟S301到S304中,可以根據(jù)需要提供分析或獲取必 需數(shù)據(jù)所需的數(shù)據(jù)庫。
在S305中,根據(jù)本實施例,音素是合成單元,盡管合成單元并不限于此。
在S306中,根據(jù)本實施例,通過參考合成單元的時長的總和來劃分合 成單元串而產(chǎn)生多個處理單元,但是,該合成單元串可以從頭開始順序地 以規(guī)定數(shù)量的合成單元的間隔劃分為處理單元。
根據(jù)本實施例,在步驟S306中根據(jù)規(guī)定條件形成多個處理單元,然而, 諸如當從韻律處理器13中輸入的合成單元串作為一個整體滿足規(guī)定條件 時,例如從韻律處理器13中輸入的合成單元串作為一個整體可被當作一個 處理單元用于后面的處理。在這種情況下,語音合成器14不需要在步驟 S307中選擇處理單元,并且在步驟S308中,語音波形輸出裝置15不必進 行到S309,以使步驟S309中的處理被省略。 (5 )語音合成器14的操作
13現(xiàn)在參照圖2和圖4描述語音合成器14的操作。圖4是用于說明語音 合成器14對一個處理單元的操作的流程圖。 (5-1)初步選擇
合成片段選擇器130對于在規(guī)定的處理單元中包括的每個合成單元初 步選擇多個合成片段,并縮小可能的片段的數(shù)量。這被稱為"初步選擇" (S401)。初步選擇包括兩個選擇階段,即第一初步選擇和第二初步選擇。
(5-1-1)第一初步選擇 在第 一初步選擇中,在每個合成單元中選擇具有相同音位符號的合成 片段的集合。更具體地,使用音位符號選擇合成片段的集合,并限制在產(chǎn)
將在后面的處理中選擇。
(5-1-2)第二初步選擇
在第二初步選擇中,在第一初步選擇中選擇的并具有相同的音位符號 的合成片段的集合的元素以下面的方式與具有目標韻律信息和語音信息的 合成單元進行比較。
關(guān)于規(guī)定的NK個屬性K,如圖5所示,計算合成單元Ti (i = 0,…, n-l )的目標韻律信息或語言信息AttribK(Tj)與每個合成片段Uij (j=0,...,
Mi-l)的屬性值A(chǔ)ttribK(Uij)之間的差異度diffTARGET,K(Ti,Uij)。使用對于每
個屬性K確定的目標子成本函數(shù)SubCostTARGET,K(Attribk(Ti),Attribk(Uij)) 進行計算。
diffrARGET,K(Ti,Uij" SubCost TARGET,K(Attribk(Ti),Attribk(Uij))
根據(jù)目標合成單元Ti和每個合成片段Uij之間的差diffTARGET,K(Ti,Uij)
的加權(quán)和(權(quán)重wk (k=l,…,NK)),計算與這些規(guī)定的屬性的每一個
有關(guān)的合成單元Ti和每個合成片段Uij之間的差異度DIFFTARGET(Ti,Uij)(目
標成本)。
DIFFTAR啦(T,,Ui〕) = £{wk xdiffTARGETK(Ti,Uij))l、k
=£{wk xSubCostT腿TK(AttribK(Ti),AttribK(Uij》) (1 )
k=l
其后,在合成單元Ti中,從具有最小DIFFTARGET(Tj,Uij)的合成片段開
始,從Uij (j=0,…,M廣l )中選擇規(guī)定的M個合成片段,其中
DIFFTARGET(Tj,Uij)是該合成單元與目標合成語音的元素之間的差異度,而 所選擇的合成單元Ti的UsELECTED,ij(j-O,…,M-l )將進行進一步的處理。
對處理單元中所有合成單元Tj (i=0, ..., n-l)進行上述處理。
根據(jù)本實施例,使用與每個屬性K有關(guān)的差diffTARGET,K(Tj,Uij)的加權(quán)
和來計算合成片段與目標合成語音的元素之間的差異度
DIFFTARGET(Ti,Uij),然而,乘積可用于計算,以代替上述的方法。
應(yīng)當注意,根據(jù)本實施例,所選擇的合成片段的數(shù)量的上限不超過每
個合成單元中的規(guī)定數(shù)量,然而,可以向差異度DIFFTARGET(Ti,Uij)的值提
的處理進行選擇,以替代上述的方式。
根據(jù)本實施例,為了減少后續(xù)處理的量,初步選擇的合成片段的數(shù)量 的上限不超過每個合成單元中的規(guī)定數(shù)量,然而,如果諸如當合成片段的 數(shù)量不超過規(guī)定數(shù)量時,后續(xù)處理能夠足夠快地執(zhí)行,那么這種選擇處理 不是必需的。
(5-2)合成片段串的確定
然后,在步驟S402到S409中,合成片段選擇器130通過動態(tài)規(guī)劃(DP ) 搜索(假定并評估)路徑(Path)作為節(jié)點(Node),其中每個路徑是 在S401中對每個合成單元Tj (i=0,…,n-1)初步選擇的合成片段序列
UsELECTED,ij (j=0, ..., M-l),并確定多個合成片段串,其中每個合成片
段串具有處理單元的多個合成片段。
更具體地,假設(shè)對于通過與合成單元Ti比較而選擇的每個合成片段
USELECTED,ij (j=0, ..., M-l),合成片段UsELECTED,ij繼承連接到合成片段
USELECTED,(mj的在合成單元TM之前的所有路徑(合成片段序列)。在 Tj之前的這些假設(shè)路徑(假定的路徑)被評估。在產(chǎn)生的結(jié)果中,只有具
15有最高Q個評估結(jié)果的假設(shè)路徑被選擇,并且可用于唯一規(guī)定這些路徑(合
成片段序列)的信息和Q個評估結(jié)果的集合被記錄在合成片段UsELECTED,ij 中。
對于通過與合成單元Ti比較而選擇的所有合成片段UsELECTED,ij進行
這一系列的處理(從S403到S408),然后在完成后,該過程進行到隨后 的合成單元Ti+1 ,并執(zhí)行相同的操作(從S402到S409 )。 (5-3 )從S404到S407的處理
現(xiàn)在參照圖6到圖10描述從S404到S407的處理。
如圖6A所示,合成片段選擇器130假設(shè)連接到合成單元T!的合成片 段USELECTED,ij (j=0,…,4)的在T,之前的所有路徑(虛線和粗實線)都
與合成片段Uselected,20 (合成單元T2的合成片段,j=0 )連接(虛線和粗
實線)。不滿足用于合成單元串的從存儲媒體110中獲取的波形數(shù)據(jù)的條
件的路徑((UsELECTED,OO, UsELECTED,l 1, UsELECTED,20 ) , ( UsELECTED,03 ,
uSELECTED,14, uSELECTED,20))從假設(shè)路徑和進一步的評估中排除(用粗實
線表示)(S404)。
(5-3-1)應(yīng)用條件的方法
將描述應(yīng)用與從存 體110中獲取波形數(shù)據(jù)有關(guān)的用于合成單元串 (處理單元)的條件的方法。
根據(jù)本實施例,作為條件的例子,設(shè)置對于每個處理單元可以多少次 從HDD 112中獲取在合成片段選擇器130的后續(xù)階段的處理中使用的片段 數(shù)據(jù)(波形數(shù)據(jù))的上限。
數(shù)據(jù)位置信息113包括所有合成片段的相互關(guān)聯(lián)的每個合成片段的片 段ID和每個存儲i某體的標識符,以使得哪個存儲媒體存儲在合成片段選 擇器130的后續(xù)階段的處理中使用的波形數(shù)據(jù)或者規(guī)定的片段屬性的片段 數(shù)據(jù)能夠被識別(參見圖6B)。
根據(jù)本實施例,關(guān)于將要被波形生成器140使用的波形數(shù)據(jù),如圖6B 所示,所有合成片段U892個)的片段ID (從l至4892)和存儲波形數(shù) 據(jù)的存儲媒體的標識符("1"表示存儲器lll,"2"表示HDD 112)被使用一個假設(shè)路徑上的合成片段的片段ID,可以根據(jù)數(shù)據(jù)位置信息 113得到存儲在合成片段選擇器130的后續(xù)階段的處理中使用的每個合成 片段的規(guī)定的片段數(shù)據(jù)的存 體。
根據(jù)本實施例,確定在波形生成器140中使用的合成片段的波形數(shù)據(jù) 是存儲在存儲器111中還是存儲在HDD 112中。在圖6A的合成片段(圓 圏)中標記的數(shù)字指明存儲該合成片段的存儲媒體的標識符。數(shù)字"1"是 指存儲器lll,數(shù)字"2"是指HDD 112。
將與在合成片段選擇器130的后續(xù)階段中對處理單元執(zhí)行處理時從每
規(guī)定的片段數(shù)據(jù)的分布狀態(tài)進行比較,然后不滿足該條件的假設(shè)路徑被排 除而不進行評估。
根據(jù)本實施例,在對處理單元(合成單元串To到T4)產(chǎn)生合成語音 時在波形生成器140中從HDD 112獲取波形數(shù)據(jù)的次數(shù)的上P艮被確定為兩 次。然后,如圖6A所示,在與合成單元T2的合成片段j二0 (USELECTED,20) 連接的路徑(虛線和粗實線)中選擇在波形生成器140中需要三個或更多 機會從HDD 112中獲取波形數(shù)據(jù)的路徑(粗實線)((USELECTED,00,
UsELECTED,ll , UsELECTED,20 ) , ( UsELECTED,03, UsELECTED,14, UsELECTED,20 )), 然后所選擇的這些路徑被排除而不進行評估。
這樣,將與獲取數(shù)據(jù)有關(guān)的條件應(yīng)用于所有的假設(shè)路徑,不滿足該條 件的路徑將,皮排除而不進行進一步的評估。
如上所述,在合成片段選擇器130的后續(xù)階段的處理中能夠多少次訪 問每個存儲媒體以獲取數(shù)據(jù)是有限的,只要用于獲取數(shù)據(jù)所需要的時間的 上限,換句話說,數(shù)據(jù)獲取上限時間能夠被控制和減少即可,本發(fā)明的優(yōu) 點不受條件的概念或者如何改變它的限制??梢圆捎孟旅娴姆桨?。 (5-3-2)應(yīng)用條件的方法的變形1
根據(jù)本實施例,上限被設(shè)置為條件。然而,如果在一個處理單元中包
括的合成單元的數(shù)量如上所述是固定的,并且使用兩種類型的存儲媒體,
17那么,多少次從允許數(shù)據(jù)以高速獲取的存儲媒體(例如存儲器111)獲取 波形數(shù)據(jù)的數(shù)量的下限可用作條件,并仍然提供相同的優(yōu)點(不滿足下限 值的路徑被排除而不進行進一步的評估)。
(5-3-3)應(yīng)用條件的方法的變形2 根據(jù)所描述的實施例,作為例子,將僅僅關(guān)于HDD112的訪問次數(shù)設(shè) 置為應(yīng)用于當前假設(shè)路徑的條件。然而,如上所述,當有三個或更多的存 儲媒體時,用于訪問次數(shù)的條件可單獨地提供給存儲媒體,以替代上述的 方式。
(5-3-4)應(yīng)用條件的方法的變形3
實際上,提供為訪問次數(shù)的條件不必應(yīng)用于當前假設(shè)路徑,例如作為 條件給出的上限或下限可以乘以所有合成單元的時長的總和與從合成單元 To到當前合成單元T,的時長的總和的比率,以使得條件可以對于每個合成 處理單元動態(tài)地改變,以替代上述的方式。 (5-3-5)應(yīng)用條件的方法的變形4
根據(jù)本實施例,為了說明,將與從每個存儲媒體獲取片段數(shù)據(jù)有關(guān)的 用于合成單元串的條件給定為常數(shù),然而,條件可以根據(jù)裝置中的每個存 儲媒體的訪問速度而在外部被規(guī)定為固定值。可選擇地,條件可以根據(jù)如 何在其它過程或使用前景中使用的狀態(tài)而動態(tài)地改變,以替代上述的方式。 (5-4)連接成本的計算
如圖7A和7B所示,合成片段選擇器130獲取關(guān)于假設(shè)路徑上的合成
片段UsELECTED,ij和前面緊接著的合成片段UsELECTED,(w)s (S=0,…,S畫l )
的相鄰位置的異域度(連接成本)DIFFCONC(USELECTED,(i-1)s,USELECTED,ij) (S405)。
下面詳細描述計算合成片段之間的連接成本
DIFFcONC(UsELECTED,(i-l)s,UsELECTED,ij) ( i=2 , j=0, S=0 , …,4)的方法。
在合成片段UsELECTED,(i-l)s ( "=1 , S=0,…,4)和USELECTED,,ij "=2, j=0)的規(guī)定的MP個屬性P中,計算屬性值A(chǔ)ttribp(UsELECTED,(w)s)和
Attribp(UsELECTED, ij)的非自然變化度diffcONC,p(UsELECTED,(i-l)s,UsELECTED,ij)。使用對每個屬性 P 確定的連接子成本函數(shù) SubCost
CONC,P(Attribp(UsELECTED,(i匿l)s),Attribp(UsELECTED,ij))進4亍"H"算。 diffcONC,p(UsELECTED,(i-l)s,UsELECTED,ij)
=SubC0Stc0NC,P(Attribp(UsELECTED,(i-l)s),Attribp(UsELECTED,ij))
根據(jù)與這些規(guī)定的屬性有關(guān)的相鄰合成片段之間的非自然變化度
diffcONC,p(UsELECTED,(i-l)s,UsELECTED, ij)的加^又和(Wp ( p=l,…,Mp )), 計算關(guān)于假設(shè)路徑上的合成片段UsELECTED刷)(i=2, j=0)和前面緊接著的 每個合成片段UsELECTED,(w)s(i-hl, S=0,…,4 )的相鄰位置的異域度(連 接成本)DIFFcONC(UsELECTED,(i-l)s,UsELECTED, ij)。
DIFFC0NC (USELECTED,(i—l)s , USELECTED,ij ) Mp
=2{WP XdiffcONC,P(UsELECTED,(i-l)s'UsELECTED,ij)} p=l
=2{wp xSubCostCONC,p(Attribp(USELECTED,(i—1)s), Attribp(UsELECTED,ij)" (2)
應(yīng)當注意,根據(jù)本實施例,使用與每個屬性P有關(guān)的非自然變化度 diffCONC,p(USELECTED,(i-1)s,USELECTED, ij)的加權(quán)和來計算關(guān)于假設(shè)路徑上的合
成片段UsELECTED,ij ( i=2, j=0 )和前面緊接著的每個合成片段USELECTED,G,
(i-l=l ,s=0 ,... ,4 )的相鄰位置的異域度
DIFFcoNc(UsELECTED,(i,,UsELECTED,ij),然而,例如可以使用乘積來計算該 異域度,并且方法也不局限于所述的方法。
(5-5)總成本的計算
然后,合成片段選擇器130使用在S401中獲取的目標成本 DIFFTARGET(Tj,Uij)、 在 S405 中獲取的連接成本
DIFFcoNc(UsELECTED,(i-Ds,UsELECTED,ij)和根據(jù)公式(3 )的對在合成單元T" 的合成片段UsELECTED,(i—Ds中存儲的從合成單元To到的Q個路徑(合
成片段序列)Path(il)sq ( q=l,…,Q)的總評估(總成本)Cost(Path(i—1)sq), 計算在S404中所選擇的假設(shè)路徑(UsELECTED,ij, Path(i—1)sq ) (s=0, ..., S-l, q=l,…,Q,最大為SxQ)的總成本(S406)。C0St(Path(i_i)sq)+ DIFFtarget(Ti,Uij)+ DIFFcoNC(UsELECTED,(i-l)s,UsELECTED, ij)
(3)
圖8是示出如何得到這些假設(shè)路徑(USELECTED,20 , USELECTED,12, USELECTED,。3, UDecided)中的一個路徑的總評估(總成本)。
該圖示出了合成片段 USELECTED,2o的目標成本
DIFFtaRGET(T2,UseLECTED,20)、合成片段UsELECTED,20和UsELECTED,12之間的 連接成本DIFFcONC(UsELECTED,12,UsELECTED,20)以及由合成片段UsELECTED,12
存儲的第一路徑Path121(Path12q,q=l:(Uselected,i2, Uselected,03, UDecided)) 的總評估(總成本)Cost(Path^)之間的關(guān)系。
應(yīng)當注意,根據(jù)本實施例,根據(jù)在S401中獲取的目標成本 DIFFTARGET(Ti,Uij)、 在S405 中獲取的連接成本
DIFFcONC(UsELECTED,(i-l)"UsELECTED,ij)以及由合成片段USELECTED,(i-l)s存儲的
從合成單元To到Tw的路徑Path(w)sq的總成本Cost(Path(i—Dsq)的總和,計
算假設(shè)路徑(UsELECTED,jj , Path(w)叫)的總成本,然而,該成本也可以根
據(jù)乘積計算,以替代上述的方法。
(5-6 )分級
(5-6-1 )分級的基本思想
現(xiàn)在,如圖9、 10和11所示,合成片段選擇器130對于在S404的處 理后剩余的路徑(最大SxQ個)的每一個,確定關(guān)于在合成片段選擇器 130的后續(xù)階段中對處理單元進行處理時從每個存儲媒體中獲取片段數(shù)據(jù) 的條件的滿足度,并將結(jié)果評定成Q個等級。應(yīng)當注意,"等級,,是指多 少次從HDD 112中獲取波形數(shù)據(jù)的數(shù)量。
如圖12所示,選擇每一個等級中具有在S406中得到的最低總成本的 一個最佳路徑,最終選擇將要由合成單元1的合成片段U selected,ii 存儲 的Q個路徑,并記錄表示合成片段序列的路徑Pathijq (q=l,…,Q)和每 一個的總成本Cost(Pathijq),而有關(guān)其它路徑的信息被完全丟棄(S407)。 (5-6-2)條件的滿足度
現(xiàn)在詳細地描述與獲取數(shù)據(jù)有關(guān)的條件的滿足度。根據(jù)本實施例,根據(jù)一次作為一個單元,對上述的上限數(shù)量進行分級, 并將上限數(shù)量的等級用作例子。
在多個階段,提供比在S404中應(yīng)用的與獲得數(shù)據(jù)有關(guān)的條件更多限制 的條件。將與在合成片段選擇器130的后續(xù)階段中對處理單元(合成單元 串)進行處理時從存儲媒體獲取片段數(shù)據(jù)有關(guān)的條件與假設(shè)路徑上所有合
據(jù)該更多限制的條件的滿足/不滿足的組合,對假設(shè)路徑進行分級。
根據(jù)本實施例,當在波形生成器140中對處理單元產(chǎn)生合成語音時, 作為條件的從HDD112獲取波形數(shù)據(jù)的次數(shù)減1,因此,等級發(fā)生變化。 提供僅允許一次或零次的新的更多限制的條件,以使得有三個等級,即 直到零次而滿足條件的路徑的等級、直到從零次增加到一次而滿足條件的 路徑的等級和直到從一次增加到兩次而滿足條件的路徑的等級。沒有這樣 的直到零次而滿足條件的路徑,即第一等級(粗體線)(圖9),圖10示 出了直到從零次增加到一次而滿足條件的第二等級中的路徑(粗實線), 圖11示出了直到從一次增加到兩次而滿足條件的第三等級中的路徑(粗實 線)。
這樣,從根據(jù)與從存儲媒體中獲取數(shù)據(jù)有關(guān)的條件的滿足度而分級的 一組假設(shè)路徑中選擇一個最佳路徑,然后,僅對這些路徑進行假定。
根據(jù)本實施例,如圖12所示,路徑Path2(M)= (None) 、 Path201=
(UsELECTED,20, UsELECTED,lO, UsELECTED,Ol, Uoecided )和總成本C0St(Path201)、 以及路徑Path202= ( UsELECTED,20, UsELECTED,12 , UsELECTED,03 , Uoecided )和
總成本Cost(Path202)被存儲在合成片段USELECTED,2o中,然后繼續(xù)后續(xù)的處理。
如上所述,在根據(jù)條件的滿足度而分級的一組路徑中選擇更佳路徑, 然后繼續(xù)進行之后的處理,以使得在當前合成單元之后的合成單元中可能 違反該條件的合成片段被添加到假設(shè)路徑中。
(5-6-3)關(guān)于條件的滿足度的變形 應(yīng)當注意,只需根據(jù)后續(xù)的處理確保添加可能違反條件的合成片段的可能性,因此,本發(fā)明的優(yōu)點并不受分級方法和待選擇的路徑的數(shù)量的限 制。例如,可以〗吏用下面的方法。
根據(jù)本實施例,作為設(shè)置在對當前假設(shè)路徑進行分級中使用的更多限 制的條件的方法,采用相等間隔步長(一次)。然而,間隔不必是相等的, 可以有兩個等級,即,用于一次和更少(零和一)的等級和用于兩次的等 級,該方法并不局限于上述方法。
根據(jù)本實施例,由于條件被更多限制,因此,對于滿足度的每個等級 選擇一個最佳路徑,然而可選擇多個這樣的路徑。
如上所述,除了給定為時間的條件和給定為次數(shù)的條件外,所有合成
單元的時長的總和與合成單元T。到當前合成單元T,的時長的總和的比率 可以乘以給定為時間/次數(shù)的條件,換句話說,可以采用通過在每個合成單 元中動態(tài)地放寬條件來改變條件的方法。當條件被動態(tài)地放寬時,可以對 每個合成片段選擇一個最佳路徑,或者可以選擇多個更高等級的路徑。 (5-7 )結(jié)論
這樣,對合成單元中的每個合成片段執(zhí)行從S404到S407的處理(S403 到S408),并對處理單元中的每個合成單元執(zhí)行從S403到S408的處理 (S402到S409),以使得如圖13所示,對每個處理單元得到滿足與獲取 數(shù)據(jù)有關(guān)的條件的多個路徑。 (5-8 )變形
應(yīng)當注意,根據(jù)本實施例,順序地進行假定和評估以選擇合成片段串, 以使得與從存儲媒體110獲取片段數(shù)據(jù)有關(guān)的用于合成單元串的條件被滿 足。
然而,例如,對于每一規(guī)定數(shù)量的合成單元,考慮到與從存儲媒體110 獲取片段數(shù)據(jù)有關(guān)的條件,選擇路徑;而對于其中的合成單元,使用傳統(tǒng) 的成本函數(shù)選擇路徑,而不考慮條件(圖23)。
在極端的情況下,對于處理單元中的第一個合成單元TQ到最后一個合 成單元Tn —15不考慮與從存儲媒體110中獲取片段數(shù)據(jù)有關(guān)的用于合成單 元串的條件而選擇合成片段串,并最終可以只選擇滿足與從存儲々某體110中獲取片段數(shù)據(jù)有關(guān)的用于合成單元串的條件的合成單元串,以替代上述 的方法。
(5-9)最佳路徑的確定 合成片段選擇器130通過比較由合成單元Tn」(=T4)的合成片段存 儲的所有路徑Path(n—1)jq (j=0,…,S-1, q = l,…,Q)的總成本 Cost(Path一)jq)來評估這些路徑。如圖14所示,具有最低總成本的路徑
Path432( UsELECTED,43, UsELECTED,32 , UsELECTED,20, UsELECTED,lO, UsELECTED,Ol,
UDecided )被認為是處理單元中的最佳路徑,并輸出路徑Path432上的合成片 M列(S410)。
(5-10)連接波形數(shù)據(jù)
然后,根據(jù)從合成片段選擇器130輸入的合成片段序列,波形生成器 140從存儲媒體110中獲取規(guī)定的屬性的波形數(shù)據(jù)或片段數(shù)據(jù),產(chǎn)生處理 單元的合成語音(S411)。
根據(jù)本實施例,從存儲器111和HDD 112中獲取波形數(shù)據(jù),從存儲器 111中獲取基音周期和其它相關(guān)的片段數(shù)據(jù),并通過諸如基音同步疊加 (PSOLA)方法的傳統(tǒng)技術(shù)產(chǎn)生處理單元的合成語音。 (6 )優(yōu)點
如上所述,使用根據(jù)第一實施例的語音合成裝置IO,考慮到與在合成 片段選擇器130的后續(xù)階段中由波形生成器140使用的規(guī)定的片段數(shù)據(jù)的 位置有關(guān)的信息和與數(shù)據(jù)獲^"關(guān)的用于合成單元串的條件,選擇合成片 段序列,以使得獲取在后續(xù)階段中在波形處理器140產(chǎn)生合成語音中使用 的波形數(shù)據(jù)的操作能夠完全被控制。
的操作被過于集中地執(zhí)行,并因此能夠防止用于產(chǎn)生每個處理單元的合成 語音所需要的時間過長。這還防止處理單元之間在用于產(chǎn)生合成語音所需 要的時間上產(chǎn)生大的不同,并完全防止用于產(chǎn)生合成語音所需要的時間由 于數(shù)據(jù)獲取操作而增加。
在具有^^據(jù)"^者如一個含有多個處理單元的句子的輸入而從位于開頭處
23的處理單元開始順序地產(chǎn)生合成語音并在產(chǎn)生所有的處理單元的合成語音 之前開始再現(xiàn)所產(chǎn)生和積累的合成語音的機制的語音合成裝置中,通過完 全地減少由于數(shù)據(jù)獲取操作造成的在用于產(chǎn)生合成語音所需要的時間上的 增加,能夠完全地減少"聲音不連續(xù)性,,。聲音不連續(xù)性是當所產(chǎn)生和積 累的合成語音已經(jīng)全部再現(xiàn)時而接著將要再現(xiàn)的合成語音還沒有完全產(chǎn)生 的狀態(tài)。
這樣,減少了由于過長的數(shù)據(jù)獲取時間而造成的"聲音不連續(xù)性,,, 因此,波形數(shù)據(jù)能夠被定位,而不管用于從波形數(shù)據(jù)被定位的存儲々某體中 獲取數(shù)據(jù)所需要的時長。因此,可用數(shù)據(jù)增加,這改進了合成語音的聲音 質(zhì)量。
第二實施例
現(xiàn)在參照圖15到圖23描述根據(jù)本發(fā)明第二實施例的語音合成裝置16。
根據(jù)本實施例,為了說明提供三種類型的存儲媒體(主存儲裝置,輔 助存儲裝置和外部存儲裝置)。作為與從這些存儲媒體中的任何一個獲取 數(shù)據(jù)(波形數(shù)據(jù))有關(guān)的用于合成單元串的條件的例子,使用用于獲取數(shù) 據(jù)所需要的估計時間。
(1)語音合成裝置16的結(jié)構(gòu)
圖15是根據(jù)本實施例的語音合成裝置16的框圖。
與上述第一實施例相似地,語音合成裝置16包括從外部獲取用于語 音合成的文本數(shù)據(jù)的文本獲取裝置11、對文本數(shù)據(jù)進行形態(tài)分析/解析的語 言處理器12、根據(jù)文本數(shù)據(jù)中諸如重音和詞性的韻律和與語言有關(guān)的屬性 向語音合成器17輸出合成單元串的韻律處理器13、根據(jù)合成單元串產(chǎn)生 合成語音的語音合成器17、和產(chǎn)生所積累的規(guī)定數(shù)量的輸出合成語音或者 當語音被輸出時順序地再現(xiàn)合成語音的語音波形輸出裝置15。
文本獲取裝置11、語言處理器12、韻律處理器13和語音波形數(shù)據(jù)輸 出裝置15執(zhí)行與第一實施例相同類型的處理,語音合成器17執(zhí)行與第一 實施例的部分不同的處理。應(yīng)當注意,構(gòu)成從韻律處理器13傳送到語音合成器17的合成單元串 的合成單元具有與根據(jù)第 一實施例的信息相同類型的信息(諸如音位符號、 韻律信息和語言信息)。
圖16是根據(jù)本發(fā)明的第二實施例的語音合成裝置16的語音合成器17 的框圖。
(2)語音合成器17的結(jié)構(gòu)
與第一實施例不同,語音合成器17,除了包括存儲器115和HDD112 外,還包括附著在存儲々某體114上的NAND型閃存116。
語音合成器17包括存儲媒體114、合成片段選擇器131和波形生成器
141。
存儲媒體114包括存儲所有合成片段的所有片段數(shù)據(jù)(M-l,..., M-k,…,H-k)的多個存儲媒體(它們的數(shù)據(jù)獲取時間不同)。更具體地, 該媒體包括存儲器115、 HDD112和NAND型閃存116。
存儲器115存儲與所有合成片段的所有片段屬性有關(guān)的片段數(shù)據(jù)、一 部分合成片段的所有波形數(shù)據(jù)、以及記錄存儲器115、 HDD112和NAND 型閃存116中的哪一個存儲所有合成片段的波形數(shù)據(jù)的數(shù)據(jù)位置信息117。
HDD 112和NAND型閃存116存儲沒有在存儲器115中存儲的合成 片段的波形數(shù)據(jù)。
根據(jù)在從韻律控制單元13輸入的合成單元串中的每個合成單元中的 目標合成語音的音位/韻律信息/語言信息、在存儲器115中存儲的每個合成 片段的規(guī)定的片段屬性的片段數(shù)據(jù)、以及與從存儲器115、 HDD 112或 NAND型閃存116中獲取波形數(shù)據(jù)有關(guān)的用于合成單元串的條件,合成片 段選擇器131選擇每個合成單元的合成片段,并產(chǎn)生合成片段串為多個合 成片段的組合。
波形生成器141從存儲器115、 HDD 112和NAND型閃存116中獲取 對每個合成單元選擇的合成片段的波形數(shù)據(jù),并連接這些數(shù)據(jù)以產(chǎn)生與合 成單元串對應(yīng)的合成語音。
根據(jù)本實施例,存儲媒體114包括作為主存儲裝置的存儲器15、作為
25輔助存儲裝置的HDD 112、和作為外部存儲裝置的NAND型閃存116。然 而,如上所述,各種不同的裝置可以組合為外部裝置,而可以使用主存儲 裝置和外部存儲裝置。除了根據(jù)本實施例的例子外,可以使用任何類型的 組合,只要該媒體是由多個具有不同數(shù)據(jù)獲取數(shù)據(jù)的存儲媒體構(gòu)成即可。 (3 )語音合成裝置16的操作
現(xiàn)在描述根據(jù)本實施例的語音合成裝置16的操作,主要是本實施例與 第一實施例的不同之處。
更具體地,語音合成裝置16的操作與如圖3所示的根據(jù)第一實施例的 語音合成裝置10的操作相同,除了步驟S307外。具有不同的S307中的 操作內(nèi)容與如圖4所示的根據(jù)第一實施例的語音合成裝置10中的語音合成 器14所執(zhí)4亍的S404相同,除了 S407外。 (4 )語音合成器17的操作
現(xiàn)在參照圖17至圖22,描述與才艮據(jù)第一實施例的操作內(nèi)容不同的語 音合成器17的S504和S507。
如圖18A所示,合成片段選擇器131假設(shè)合成片段USELECTED,20 (合成 單元T2的合成片段j=0 )繼承到Ti并在連接到合成單元T,的合成片段之 前(虛線和粗實線)的所有路徑(虛線和粗實線),從這些假設(shè)的路徑中 排除不滿足與從存,體114中獲取波形數(shù)據(jù)有關(guān)的用于合成單元串(處 理單元Tq到Xt)的條件的路徑,并排除這些路徑而不進行進一步評估(粗 實線)(S504)。
(5)應(yīng)用條件的方法
將詳細地描述根據(jù)本實施例的應(yīng)用與從存儲媒體114中獲取波形數(shù)據(jù) 有關(guān)的用于合成單元串(處理單元)的條件的方法。
根據(jù)本實施例,用于從存儲媒體114中獲取在合成片段選擇器131之 后的處理中使用的片段數(shù)據(jù)(波形數(shù)據(jù))所需的每處理單元的時間上限被
給定為條件以用于說明。
與笫一實施例相似地,數(shù)據(jù)位置信息117相互關(guān)聯(lián)地存儲在合成片段 選擇器131之后的處理中使用的波形數(shù)據(jù)或每個合成片段的片段ID以及每個存儲媒體的標識符,以使得存儲規(guī)定的片段屬性的片段數(shù)據(jù)的存儲媒 體能夠被識別。
如圖18B所示,根據(jù)本實施例,關(guān)于在波形生成器141中使用的波形 數(shù)據(jù),所有合成片段(4892個)的片段ID (從1到4892 )和存儲波形數(shù) 據(jù)的存儲媒體的標識符("1"表示存儲器115, "2"表示HDD 112, "3" 表示NAND型閃存116 )被彼此相互關(guān)聯(lián)地存儲。
使用每個合成片段的片段ID,可以根據(jù)數(shù)據(jù)位置信息117得到哪個存 儲媒體存儲了在合成片段選擇器131之后的處理中使用的每個合成片段的 規(guī)定的片段數(shù)據(jù)。
才艮據(jù)本實施例,確定存儲器115、 HDD 112和NAND型閃存116中哪 個存儲了在波形生成器141中使用的每個合成片段的波形數(shù)據(jù)。在圖18A 的合成片段(圓圏)中標記的數(shù)字表示存儲片段的存,體的標識符。數(shù) 字"1"表示存儲器115,數(shù)字"2"表示HDD 112,數(shù)字"3"表示NAND 型閃存116。
然后,將與在合成片段選擇器131的后續(xù)階段中對處理單元執(zhí)行處理
不滿足條件的假設(shè)路徑而不進行進一 步的評估。
根據(jù)本實施例,作為條件要求用于從存儲^某體114中獲取波形數(shù)據(jù)以 在波形生成器141中產(chǎn)生處理單元(合成單元To到T4的合成單元串)的 合成語音所需要的時間小于100毫秒。如圖18A所示,在連接到合成單元
T2的合成片段USELECTED,20的路徑(虛線和粗實線)中,排除在波形生成
器141中用于從存儲媒體114獲取波形數(shù)據(jù)所需要的時間不低于100毫秒 的路徑(粗實線)而不進行進一步的評估。
更具體地,根據(jù)用于從每個存儲媒體中獲取波形數(shù)據(jù)所需要的時間的 估計值和才艮據(jù)數(shù)據(jù)位置信息117得到的存儲每個路徑上所有合成片段的波 形數(shù)據(jù)的存儲媒體的分布,換句話說,每個存#^某體以后必須被訪問多少 次的累積數(shù)量,排除滿足下面表達式的路徑而不進行進一步的評估。Z Time(Media(Uij))
(i,j)印at、
其中,Pathk表示假定具有某個合成片段作為終端點(右邊終點)的一個路
徑,(i,j)ePathk表示該路徑上的合成片段的組合。
計算用于從存儲該路徑上的合成片段Ujj的波形數(shù)據(jù)的存儲媒體
Media(Uij)中獲取波形數(shù)據(jù)所需要的時間的估計值Time(Media(Ujj))的總和
A1X 、
Z Time(Media(U,j))以用于評4古。
例如,對于圖18A中用實線表示的最低路徑(USELECTED,20 ,
UsELECTED,14, UsELECTED,03 ), 下述公式成立
ALL
Z Time(Media(Uij))
(i,j)epat、
=Time(Media(USELECTED 。3》+ Time(Media(USELECTED 14)) + Time(Media(USELECTED 20》 =Time(2) + Time(2)+Time(3) =50msec+50msec+0.01msec =100.01 msec卜100msec
因此,刪除該路徑。應(yīng)當注意,可以使用由制造者提供的用于從每個 存儲媒體中獲取數(shù)據(jù)所需要的時間的估計值的信息。
這樣,與獲取數(shù)據(jù)有關(guān)的條件被應(yīng)用于所有的假設(shè)路徑,排除不滿足 該條件的路徑而不進行進一步的評估。
以時間的形式給定的條件不必按原樣應(yīng)用于當前假設(shè)的路徑,例如,
處理單元中所有合成單元的目標時長的總和與合成單元To到Ti的目標時 長的總和的比率可以乘以給定為條件的時間。這樣,條件可動態(tài)地在每個 合成單元中增加(改變),以替代上述的方法。
根據(jù)本實施例,與從每個存#^某體中獲取片段數(shù)據(jù)有關(guān)的用于合成單 元串的條件被給定為常數(shù)以說明,然而,可以將該條件根據(jù)本發(fā)明所應(yīng)用 的設(shè)備中每個存儲4某體的訪問速度而在外部指定為固定值??蛇x擇地,條 件值可以根據(jù)在其它處理或者使用前景中每個存儲々某體的使用狀態(tài)而動態(tài)地改變,本發(fā)明的優(yōu)點不受條件的概念或如何改變它的限制。
(7) 在每個等級中存儲最佳路徑 現(xiàn)在描述S507。
如圖19和圖20所示,對于在S504的處理之后剩余的每個路徑,合成 片段選擇器131獲取與在合成片段選擇器131的后續(xù)階段中對處理單元執(zhí) 行處理時從每個存儲媒體中獲取片段數(shù)據(jù)有關(guān)的條件的滿足度,并將結(jié)果 評定為Q個等級。然后,如圖21所示,在每個等級中選擇具有在S406中 得到的最低總成本的最佳路徑,并最終選擇將要由合成單元Ti的合成片段
UsELECTED,ij存儲的Q個路徑。記錄表示合成片段序列的路徑Pathijq和每個
路徑的總成本Cost(Pathjjq) (q=l,…,Q),與其它路徑有關(guān)的信息被全 部丟棄(S507 )。
(8) 條件的滿足度
詳細描述與獲取數(shù)據(jù)有關(guān)的條件的滿足度。
根據(jù)本實施例,以50毫秒為基準對所需時間的上限進行分級,并使用 每個等級中的所需時間的上限作為說明。
根據(jù)本實施例,可以設(shè)置比在S504中使用的與獲取數(shù)據(jù)有關(guān)的條件更 多限制的多個級別的條件,將與在合成片段選擇器131的后續(xù)階段中對合 成單元串(處理單元)執(zhí)行處理時從每個存儲媒體中獲取片段數(shù)據(jù)有關(guān)的
段數(shù)據(jù)的分布狀態(tài)而計算的評估結(jié)果進行比較,并根據(jù)該更多限制的條件 的滿"不滿足的組合對這些路徑進行分級。
根據(jù)本實施例,當在波形生成器141中產(chǎn)生處理單元的合成語音時, 用于從存儲媒體114中獲取波形數(shù)據(jù)的所需時間的上限減少50毫秒,因此, 將小于50毫秒設(shè)置為一個更多限制的條件,路徑在滿足小于50毫秒的條 件和滿足小于100毫秒的條件之間被分級成兩個等級。圖19示出滿足小于 50毫秒的條件的路徑(粗實線),圖20示出滿足不小于50毫秒且小于100 毫秒的路徑(粗實線)。
這樣,從根據(jù)與從每個存儲媒體中獲取數(shù)據(jù)有關(guān)的條件的滿足度而分級的每個路徑組中選擇一個最佳路徑,并且由后續(xù)處理僅對這些路徑進一 步地執(zhí)行假定。
如前所述,從根據(jù)條件的滿足度而分級的路徑組中選擇更佳路徑,并 繼續(xù)后續(xù)處理,以使得在當前合成單元之后的合成單元中能夠違反條件的 合成片段可被添加到假設(shè)路徑中。這樣,只需要確保根據(jù)后續(xù)處理添加可 能違反條件的合成片段的可能性,因此,本發(fā)明的優(yōu)點并不受到分級的方 法和將要選擇的路徑的數(shù)量的限制。例如,可以使用下面的方法。
根據(jù)本實施例,作為設(shè)置在對當前假設(shè)路徑進行分級中使用的更多限
制的條件的方法,采用相等的間隔步長(50毫秒)。然而,間隔不必是相 等的,間隔可以凈皮劃分為三個等級,對應(yīng)于小于25毫秒的范圍、不小于 25毫秒且小于50毫秒的范圍和不小于50毫秒且小于100毫秒的范圍,以 替代上述的方法。
根據(jù)本實施例,通過進一步限定條件,對滿足度的每個等級選擇一個 最佳路徑,然而,也可以選擇多個這樣的路徑。
替代如上所述的給定為時間的條件,所有合成單元的時長的總和與合 成單元To到當前合成單元T,的時長的總和的比率可以乘以給定為時間/次 數(shù)的條件,換句話說,可以采用通過在每個合成單元中動態(tài)地放寬條件來 改變條件的方法。當條件被動態(tài)地放寬時,可以對每個合成片段選擇一個 最佳路徑,或者可以選擇多個更高等級的路徑。 (9)得到滿足條件的路徑
這樣,對合成單元中每個合成片段執(zhí)行S504、 S405、 S406和S507中 的處理(S403到S408),對處理單元中每個合成單元執(zhí)4亍S403到S408 中的處理(S402到S409),并如圖22所示,對一個處理單元得到滿足與 獲取數(shù)據(jù)有關(guān)的條件的多個路徑。 (10 )優(yōu)點
如上所述,在根據(jù)第二實施例的語音合成裝置16中,考慮與在合成片 段選擇器131的后續(xù)階段中在波形生成器141中使用的規(guī)定的片段數(shù)據(jù)的 位置有關(guān)的信息和與獲取數(shù)據(jù)有關(guān)的用于合成單元串的條件,選擇合成片
30段串,以使得獲取在后續(xù)階段中在波形生成器141產(chǎn)生合成語音中使用的 波形數(shù)據(jù)的操作能夠完全被控制。這樣,可以防止從允許數(shù)據(jù)僅以低速獲 取的存儲媒體中獲取規(guī)定的片段數(shù)據(jù)的操作被過度集中地執(zhí)行,因此,可 以防止用于產(chǎn)生每個處理單元的合成語音所需要的時間過長。這可以完全 防止用于產(chǎn)生合成語音所需要的時間因為數(shù)據(jù)獲取操作而增加。 變形
應(yīng)當注意,本發(fā)明并不局限于所描述的實施例,而是能夠在還原到實 踐時在不脫離范圍的情況下通過修改單元來體現(xiàn)。
例如,可以根據(jù)用于實現(xiàn)本發(fā)明的裝置的結(jié)構(gòu)和性能以及所使用的環(huán) 境來改變用于獲取數(shù)據(jù)所需要的時間。然而,根據(jù)通過允許與從存儲波形 數(shù)據(jù)的存儲媒體中獲取波形數(shù)據(jù)有關(guān)的條件可以在外部指定而使用的裝 置,由于過長的數(shù)據(jù)獲取時間造成的"語音非連續(xù)性"可以減少,從而實 現(xiàn)適合于該裝置的語音質(zhì)量。而且,在產(chǎn)生/積累與所有處理單元對應(yīng)的合 成語音并開始再現(xiàn)的語音合成裝置中,在任何時間可以產(chǎn)生高質(zhì)量的合成語音。
通過根據(jù)需要組合實施例所公開的多個單元,可以形成各種發(fā)明。例 如,可以在所公開的實施例的所有單元中省略幾個單元。在不同實施例中 涉及的單元可以根據(jù)需要進行組合。
權(quán)利要求
1. 一種語音合成裝置,其獲取與在輸入合成單元串中包括的規(guī)定處理單元中多個合成單元對應(yīng)的合成片段的波形數(shù)據(jù),并通過連接所述波形數(shù)據(jù)來合成語音,所述裝置包括屬性信息存儲媒體,其存儲除了所述波形數(shù)據(jù)之外的所述合成片段的屬性信息;多個波形數(shù)據(jù)存儲媒體,其存儲所述合成片段的波形數(shù)據(jù),用于從所述多個波形數(shù)據(jù)存儲媒體中獲取所述所存儲的波形數(shù)據(jù)所需要的時間彼此不同;數(shù)據(jù)位置信息存儲媒體,其存儲包括存儲每個所述合成片段的所述波形數(shù)據(jù)的波形數(shù)據(jù)存儲媒體的標識符的數(shù)據(jù)位置信息;候選獲取裝置,其被配置為根據(jù)所述處理單元中每個所述合成單元的屬性信息,從所述屬性信息存儲媒體中獲取與每個所述合成單元對應(yīng)的合成片段候選;合成片段選擇器,其被配置為獲取多個序列,其中每個序列包括對于每個所述合成單元獲取的多個合成片段候選的組合,并根據(jù)所述數(shù)據(jù)位置信息從所述多個序列中選擇一個序列,以使得用于獲取所述處理單元中所述合成片段的波形數(shù)據(jù)所需要的總時間不超過數(shù)據(jù)獲取時間的上限;合成片段生成器,其被配置為組合所述所選擇的一個序列上的合成片段以生成合成片段串;以及波形生成器,其被配置為從每個所述波形數(shù)據(jù)存儲媒體中獲取在所述合成片段串中包括的合成片段的波形數(shù)據(jù),并連接所述波形數(shù)據(jù)。
2. 根據(jù)權(quán)利要求l所述的裝置,其中,所述數(shù)據(jù)獲取時間的上限被轉(zhuǎn) 換為多少次從每個所述波形數(shù)據(jù)存Wf某體中獲取數(shù)據(jù)的數(shù)量。
3. 根據(jù)權(quán)利要求l所述的裝置,其中,所述數(shù)據(jù)獲取時間的上限被轉(zhuǎn) 換為對每個所述波形數(shù)據(jù)存儲媒體的訪問時間。
4. 根據(jù)權(quán)利要求l所述的裝置,其中,所述的數(shù)據(jù)獲取時間的上限能夠改變。
5. 根據(jù)權(quán)利要求l所述的裝置,其中,當所述合成片段選擇器根據(jù)所 述數(shù)據(jù)位置信息從所述多個序列中選擇一個序列以使得所述數(shù)據(jù)獲取時間 的上限不^^過時,所述合成片段選擇器選擇沒有使所述數(shù)據(jù)獲取時間的 上限被超過的多個序列,根據(jù)通過逐級劃分所述數(shù)據(jù)獲取時間的上限而產(chǎn) 生的等級而對所述數(shù)據(jù)串分級,在每個所述等級中選擇具有低成本的序歹'J, 并從具有低成本的所述序列的集合中選擇具有更低成本的多個序列。
6. 根據(jù)權(quán)利要求l所述的裝置,其中,所述合成片段選擇器從沒有使 所述數(shù)據(jù)獲取時間的上限被超過的所述多個序列中選擇具有最低成本的序 列。
7. 根據(jù)權(quán)利要求l所述的裝置,其中,所述屬性存儲媒體和所述數(shù)據(jù) 位置信息存^i某體都是存儲器。
8. 根據(jù)權(quán)利要求l所述的裝置,其中,所述波形數(shù)據(jù)存儲媒體是存儲 器、硬盤和閃存中的一個。
9. 一種合成語音的方法,其從多個波形數(shù)據(jù)存儲媒體中獲取與在輸入數(shù)據(jù),其中用于從所述多個波形數(shù)據(jù)存儲媒體中獲取數(shù)據(jù)的時間彼此不同, 并通過連接所述數(shù)據(jù)合成語音,所述方法包括根據(jù)所述處理單元中每個所述合成單元的屬性信息,從屬性信息存儲 媒體中獲取與每個所述合成單元對應(yīng)的合成片段候選,其中所述屬性信息 存儲媒體存儲除了所述波形數(shù)據(jù)外的所述合成片段的屬性信息;多個序列,并根據(jù)包括存儲所述波形數(shù)據(jù)的波形數(shù)據(jù)存儲媒體的標識符的 數(shù)據(jù)位置信息,從所述多個序列中選擇一個序列,以使得用于獲取所述處限: "' 、… — 、、''、組合所述一個所選擇的序列上的合成片段,從而產(chǎn)生合成片段串;以及片段的波形數(shù)據(jù),從而連接所述波形數(shù)據(jù)。
10. —種語音合成程序產(chǎn)品,其使計算機能夠從多個波形數(shù)據(jù)存儲士某的合成片段的波形數(shù)據(jù),其中用于從所述多個波形數(shù)據(jù)存儲々某體中獲取數(shù) 據(jù)的時間彼此不同,并通過連接所述波形數(shù)據(jù)合成語音,所述程序產(chǎn)品包含以下指令根據(jù)所述處理單元中每個所述合成單元的屬性信息,從屬性信息存儲 媒體中獲取與每個所述合成單元對應(yīng)的合成片段候選,其中所述屬性信息 存儲媒體存儲除了所述波形數(shù)據(jù)外的所述合成片段的屬性信息;多個序列,并根據(jù)包括存儲所述波形數(shù)據(jù)的波形數(shù)據(jù)存儲媒體的標識符的 數(shù)據(jù)位置信息,從所述多個序列中選擇一個序列,以使得用于獲取所述處 理單元中每個所述合成片段的波形數(shù)據(jù)的總時間不超過數(shù)據(jù)獲取時間的上 限;通過組合所述所選擇的 一個序列上的合成片段來產(chǎn)生合成片段串;以及片段的波形數(shù)據(jù),并連接所述數(shù)據(jù),
全文摘要
一種語音合成裝置,包括從外部獲取用于語音合成的文本數(shù)據(jù)的文本獲取裝置;對文本數(shù)據(jù)執(zhí)行形態(tài)分析/解析的語言處理器;根據(jù)文本數(shù)據(jù)的與韻律和語言有關(guān)的屬性,諸如重音和詞性,向語音合成器輸出合成單元串的韻律處理器;根據(jù)合成單元串產(chǎn)生合成語音的語音合成器;以及在輸出合成語音被積累后或者在其被輸出時順序地再現(xiàn)規(guī)定量的輸出合成語音的語音波形輸出裝置。
文檔編號G10L13/00GK101449319SQ200680054679
公開日2009年6月3日 申請日期2006年10月19日 優(yōu)先權(quán)日2006年3月29日
發(fā)明者森田真弘, 籠島岳彥, 西山修 申請人:株式會社東芝