亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音合成裝置和方法

文檔序號:2837263閱讀:410來源:國知局
專利名稱:語音合成裝置和方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種語音合成裝置和方法,其用于通過連接從諸如硬盤的大規(guī)模存儲介質(zhì)讀取的語音單元數(shù)據(jù)來合成語音。
背景技術(shù)
文本語音合成可以從任意句子(文本數(shù)據(jù))人工產(chǎn)生語音信號。例如,在JP-A(公開)08-254993(第4頁和圖1)中公開了此技術(shù)。由三個要素構(gòu)成用以實(shí)現(xiàn)這樣的文本語音合成的語音合成裝置,即,語言處理單元、韻律處理單元,以及語音合成單元。
首先,在所述語言處理單元中,在語形學(xué)和句法上分析輸入文本。接下來,在所述韻律處理單元中,處理經(jīng)過分析的文本的重音和聲調(diào),并計(jì)算諸如音素序列、基頻和音素片段持續(xù)時間的信息。最后,在所述語音合成單元中,通過基于(通過所述韻律處理單元計(jì)算得到的)基頻和音素片段持續(xù)時間連接語音單元數(shù)據(jù)(特征參數(shù)和語音波形),來產(chǎn)生合成語音。在這種情況下,為作為語音連接單位的每個合成單位(例如,音素或音節(jié))預(yù)先存儲所述語音單元數(shù)據(jù),以產(chǎn)生所述合成語音。
作為合成高質(zhì)量語音的方法,預(yù)先存儲大量語音單元數(shù)據(jù),通過所述輸入文本的韻律/音素環(huán)境從所存儲的語音單元數(shù)據(jù)中選擇適當(dāng)?shù)恼Z音單元數(shù)據(jù),并且通過修改和連接所選出的語音單元數(shù)據(jù)來產(chǎn)生合成語音。在JP-A(公開)2001-282278(第3頁和圖2)中公開了此方法。在此方法中,預(yù)先定義用以估計(jì)(通過修改和連接語音單元所產(chǎn)生的)合成語音的質(zhì)量失真度的代價(jià)函數(shù)。通過從大量語音單元中選擇具有最小代價(jià)函數(shù)的多個語音單元,能夠?qū)崿F(xiàn)高質(zhì)量的合成語音。
在上述語音合成方法中,如果使用諸如RAM的昂貴的半導(dǎo)體存儲器作為存儲介質(zhì)來存儲大量的語音單元數(shù)據(jù),成本會非常高。于是,常常使用諸如硬盤驅(qū)動器(HDD)的大容量存儲介質(zhì)。然而,在將語音單元數(shù)據(jù)存儲于HDD的情況下,從HDD讀取語音單元數(shù)據(jù)需要花很長的時間。于是,處理時間會變得很長,很難進(jìn)行實(shí)時處理。
為了解決此問題,將HDD上的語音單元數(shù)據(jù)的部分拷貝存放在另一個存儲器中,在容易訪問該存儲器上的語音單元的條件下,從所述存儲器選擇多個語音單元。于是,可以減少訪問HDD的次數(shù),并減少處理時間。JP-A(公開)2005-266010中公開了此技術(shù)。通過設(shè)計(jì)所述代價(jià)函數(shù)來實(shí)現(xiàn)此語音單元選擇,其中,通過懲罰對來自HDD的語音單元的選擇使所述代價(jià)函數(shù)的值變大。
在上述技術(shù)中,利用帶懲罰的代價(jià)函數(shù),使得難于選擇HDD上的語音單元數(shù)據(jù),并且減小了對HDD的訪問次數(shù)。在這種情況下,即使HDD中存儲了適于質(zhì)量的語音單元,也常常選擇存儲在存儲器中的另一個語音單元。于是,相比沒有懲罰的代價(jià)函數(shù),語音質(zhì)量下降。此外,用以存儲所述語音單元數(shù)據(jù)的部分拷貝的存儲器是必需的,并且增加了硬件成本。

發(fā)明內(nèi)容
本發(fā)明致力于一種語音合成裝置和方法,其用以減小對大容量存儲器的訪問次數(shù),并且不會降低語音質(zhì)量,也無需準(zhǔn)備另一個存儲器。
根據(jù)本發(fā)明一個方面,提供了一種合成輸入音素序列語音的裝置,其包括波形存儲器,其被配置為存儲多個語音單元波形;信息存儲器,其被配置為對應(yīng)地存儲語音單元信息以及在所述波形存儲器中存儲的所述多個語音單元波形的每一個的地址;語音單元選擇單元,其被配置為通過參考在所述信息存儲器中存儲的所述語音單元信息,選擇對應(yīng)于所述輸入音素序列的語音單元序列;獲取單元,其被配置為通過參考在所述信息存儲器中存儲的所述地址,從所述波形存儲器獲取對應(yīng)于所述語音單元序列的各個語音單元的語音單元波形;以及語音單元連接單元,其被配置為通過連接由所述獲取單元獲取的所述語音單元波形來產(chǎn)生所述語音;其中,所述語音單元波形獲取單元在一次訪問期間從所述波形存儲器的連續(xù)區(qū)域獲取與包含在所述語音單元序列中的至少兩個語音單元相對應(yīng)的至少兩個語音單元波形。
根據(jù)本發(fā)明另一個方面,提供了一種合成輸入音素序列的語音的方法,其包括在第一存儲器中存儲多個語音單元波形;在第二存儲器中對應(yīng)地存儲語音單元信息以及所述多個語音單元波形的每一個的地址;通過參考在所述第二存儲器中存儲的所述語音單元信息,選擇對應(yīng)于所述輸入音素序列的語音單元序列;通過參考在所述第二存儲器中存儲的所述地址,從所述第一存儲器獲取與所述語音單元序列的各個語音單元相對應(yīng)的語音單元波形;以及通過連接所獲取的所述語音單元波形來產(chǎn)生所述語音;其中,所述獲取步驟包括在一次訪問期間,從所述第一存儲器的連續(xù)區(qū)域獲取與包含在所述語音單元序列中的至少兩個語音單元相對應(yīng)的至少兩個語音單元波形。


圖1是根據(jù)第一實(shí)施例的語音合成裝置的框圖;圖2是根據(jù)第一實(shí)施例的語音合成裝置的處理的流程圖;圖3是輸入文本的音素序列的一個例子的示意圖;圖4是各個音素的基頻和音素片段持續(xù)時間的一個例子的示意圖;圖5是作為音素的合成單位的一個例子的示意圖;圖6是輸入文本、音素序列以及所選擇的語音單元序列的一個例子的示意圖;圖7是語音單元信息104c的一個例子的示意圖;圖8是對應(yīng)于圖7的語音單元信息的語音單元波形的一個例子的示意圖;圖9是為各音素提取的語音單元波形的一個例子的示意圖;圖10A和10B是用以解釋基頻代價(jià)、音素片段持續(xù)時間代價(jià)以及頻譜連接代價(jià)的例子的示意圖;圖11是圖1中的語音單元連接單元104d的處理的流程圖;圖12是圖11中的S304的處理的流程圖;圖13是讀出的語音單元波形的一個例子的示意圖;圖14A和14B是用以解釋圖11中的S307的合成語音的生成方法的示意圖;圖15是語音單元波形的地址順序的優(yōu)化處理的流程圖。
具體實(shí)施例方式
此后,通過參考附圖解釋本發(fā)明的各種實(shí)施例。本發(fā)明不限于如下實(shí)施例。
(第一實(shí)施例)圖1是根據(jù)第一實(shí)施例的語音合成裝置的框圖。所述語音合成裝置包括文本輸入單元101,語言處理單元102,韻律處理單元103,語音合成單元104,以及合成語音輸出單元105。文本輸入單元101輸入文本。語言處理單元102在語形學(xué)和句法上分析所述文本。韻律處理單元103從語言處理單元102的分析結(jié)果獲取所述文本的音素序列和目標(biāo)單元環(huán)境。語音合成單元104基于所述音素序列和目標(biāo)單元環(huán)境從(預(yù)先存儲的)大量語音單元中為各合成單位選擇多個語音單元,并通過連接所述多個語音單元來產(chǎn)生合成語音。合成語音輸出單元105輸出由語音合成單元104產(chǎn)生的合成語音。
此外,語音合成單元104包括語音單元波形語料庫(存儲器)104a,語音單元選擇單元104b,語音單元信息語料庫(存儲器)104c,以及語音單元連接單元104d。語音單元波形語料庫104a存儲多個語音單元波形,其各自對應(yīng)于語音單元。語音單元信息語料庫104c存儲語音單元信息,其各自對應(yīng)于存儲在語音單元波形語料庫104a中的語音單元(波形)。語音單元選擇單元104b通過參考語音單元信息,計(jì)算(通過連接語音單元產(chǎn)生的)合成語音的失真,并基于所述失真為各個合成單位(片段)選擇多個語音單元。語音單元連接單元104d讀取多個語音單元波形,其各自對應(yīng)于由語音單元選擇單元104b選出的語音單元,并通過修改和連接所述語音單元波形來產(chǎn)生合成語音。
接下來,通過參考圖1和2來解釋語音合成裝置的操作。圖2是根據(jù)第一實(shí)施例的語音合成裝置的處理的流程圖。
首先,由用戶向文本輸入單元101輸入用以產(chǎn)生合成語音的文本(S101)。例如,所述用戶可利用鍵盤輸入所述文本。如果在存儲區(qū)域(圖1中未示出)存儲文本數(shù)據(jù)文件,所述用戶可以選擇性地指示該文件。向語言處理單元102發(fā)送輸入到文本輸入單元101的文本。
在語言處理單元102中,在語形學(xué)和句法上分析所述文本(S102)。將語言處理單元102的語形學(xué)分析結(jié)果和句法分析結(jié)果發(fā)送給韻律處理單元103,作為各個音素的讀取信息、部分語音以及重音位置信息。
在韻律處理單元103中,基于語言處理單元102的語形學(xué)分析結(jié)果和句法分析結(jié)果,獲取所述文本的音素序列和目標(biāo)單元環(huán)境(S103)。
在這種情況下,“音素序列”是由諸如音素或音節(jié)的語音構(gòu)成單位表示文本的序列。在第一實(shí)施例中,音素序列被認(rèn)為是音素記號的序列。圖3示出了輸入文本“KONNICHIWA”的音素序列的例子。在圖3中,“k”,“o”,“x”,“n”,“i”,“c”,“h”,“w”,“a”表示各個音素。
此外,“目標(biāo)單元環(huán)境”是與構(gòu)成作為目標(biāo)的輸入文本的各個語音單元相關(guān)的環(huán)境屬性。例如,所述單元環(huán)境包括基頻、音素片段持續(xù)時間、功率、單元名稱、之前的音素名稱、之后的音素名稱、再后的音素名稱、語音單元邊界的倒譜、是否存在重讀、與重音核心的距離、呼吸的時間、發(fā)聲速度,以及發(fā)聲時的感覺。在第一實(shí)施例中,目標(biāo)單元環(huán)境包括基頻和音素片段持續(xù)時間。
由韻律處理單元103獲取的音素序列和目標(biāo)單元環(huán)境(基頻和音素片段持續(xù)時間)被發(fā)送到語音合成單元104。如圖4所示,所述基頻和音素片段持續(xù)時間與所述音素序列中包含的各個音素相關(guān)。在這種情況下,清輔音“k”的基頻不存在。于是,在圖4中,基頻是“0.0”。
在語音合成單元104中,基于(從韻律處理單元103發(fā)送的)基頻和目標(biāo)單元環(huán)境,語音單元選擇單元104b從語音單元信息語料庫104c選擇各個合成單位的語音單元,并產(chǎn)生語音單元序列(S104)。
在這種情況下,“合成單位”是用以產(chǎn)生合成語音的語音連接單元。作為合成單位,例如,可以使用半音素、音素、雙音素、三音素以及音節(jié)。此外,合成單位可以是這些元素的組合。在第一實(shí)施例中,合成單位被認(rèn)為是音素。
圖5示出了作為音素的合成單位的一個例子。圖6示出了對應(yīng)于所述輸入文本的音素序列和(選擇的)語音單元序列的一個例子。一般而言,對于相同的音素存在多個語音單元。于是,利用音素記號和相同音素的語音單元號的組合表示語音單元名稱。例如,在圖6中,語音單元“o(4)”表示音素“/o/”的第四個語音單元。
接下來,(由語音單元選擇單元104b獲得的)各個合成單位的語音單元序列被發(fā)送到語音單元連接單元104b。在語音單元連接單元104d中,通過參考語音單元信息語料庫104c中的單元波形位置信息,從語音單元波形語料庫104a中讀取包含在(從語音單元選擇單元104b發(fā)送的)語音單元序列中的各個語音單元的語音單元波形。通過基于(由韻律處理單元103獲得的)所述目標(biāo)單元環(huán)境來修改和連接所述語音單元波形,產(chǎn)生合成語音(S105)。
在合成語音輸出單元105中,從語音合成單元104發(fā)送的合成語音被輸出(S106)。例如,利用揚(yáng)聲器和頭戴耳機(jī)輸出所述合成語音。此外,可以將所述合成語音輸出為在諸如半導(dǎo)體存儲器、光盤或者磁盤的存儲介質(zhì)上的文件。
在語音單元信息語料庫104c和語音單元波形語料庫104a中,對相同的語音單元相應(yīng)地存儲語音單元信息和語音單元波形?!罢Z音單元信息”包括單元波形位置信息和單元環(huán)境信息。圖7示出了語音單元信息的一個例子。
關(guān)于所述單元波形位置信息,單元波形位置和單元號被存儲在語音單元信息語料庫104c中。如圖7所示,“單元波形位置”表示在語音單元波形語料庫104a中存儲的語音單元波形的位置和大小。例如,所述位置是從存儲區(qū)域中的所有語音單元的波形數(shù)據(jù)的頭地址(head address)計(jì)算得到的語音單元波形的頭位置(head position)(字節(jié)數(shù))。所述大小是所述語音單元波形的數(shù)據(jù)大小。此外,在語音單元信息語料庫104c中存儲作為語音單元波形語料庫104a中的各語音單元波形的順序的單元號。
關(guān)于所述“單元環(huán)境信息”,在語音單元信息語料庫104c中存儲了音素名稱、基頻、音素片段持續(xù)時間,以及語音單元邊界的倒譜。
在語音單元波形語料庫104a中,語音單元波形可以是波形本身、通過倒譜從語音單元轉(zhuǎn)換的頻譜參數(shù)或者通過各種方法(μ法則、ADPCM、CELP)從語音單元得到的已編碼數(shù)據(jù)。在第一實(shí)施例中,在語音單元波形語料庫104a中存儲的語音單元波形被認(rèn)為是語音波形本身。圖8示出了對應(yīng)于圖7的語音單元信息的語音單元波形的一個例子。
為了在語音單元波形語料庫104a中存儲多個波形,例如,如圖9所示,對各個音素標(biāo)記(預(yù)先記錄的)發(fā)聲數(shù)據(jù)(加標(biāo)),并且從所述發(fā)聲數(shù)據(jù)提取各音素的波形。在語音單元波形語料庫104a中存儲所述波形,作為語音單元波形。在這種情況下,提取(語音單元所屬于的)音素名稱、基頻、音素片段持續(xù)時間以及語音單元邊界倒譜,并計(jì)算各個波形的數(shù)據(jù)大小和頭位置。這些元素被相應(yīng)地存儲在語音單元信息語料庫104c中。
作為用于語音單元波形語料庫104a和語音單元信息語料庫104c的存儲介質(zhì),例如,可以使用半導(dǎo)體存儲器(RAM、ROM、閃存)、HDD、CD-R、CD-RW、DVD-R、DVD-RAM、DVD-RW。在這種情況下,在語音單元信息語料庫104c中存儲的數(shù)據(jù)量相對較少,并且需要頻繁訪問語音單元信息語料庫104c。于是,期望是具有快訪問速度的半導(dǎo)體存儲器(RAM或ROM)。
語音單元波形語料庫104a存儲大量的波形數(shù)據(jù)。于是,期望是具有低廉的每字節(jié)價(jià)格和大容量的HDD或NAND類型的閃存。在第一實(shí)施例中,用于語音單元波形語料庫104a的存儲介質(zhì)是HDD,且用于語音單元信息語料庫104c的存儲介質(zhì)是RAM。
接下來,解釋語音單元選擇單元104b的操作。首先,語音單元選擇單元104b將(從韻律處理單元103發(fā)送的)音素序列分成各個合成單位,以選擇語音單元波形。以下,將把所述音素序列分成合成單位所得到的各個部分稱為片段。
接下來,在語音單元選擇單元104b中,通過參考語音單元信息語料庫104c來計(jì)算基于(從韻律處理單元103發(fā)送的)音素序列的(通過連接語音單元波形得到的)合成語音的失真。識別具有所述最小失真的語音單元序列(最優(yōu)單元序列)。
在通過連接在語音單元波形語料庫104a中存儲的波形來生成合成語音的情況下,所述合成語音的失真被計(jì)算為目標(biāo)代價(jià)和連接代價(jià)的加權(quán)和。目標(biāo)代價(jià)表示基于在語音單元信息語料庫104c中存儲的語音單元的單元環(huán)境和從韻律處理單元103發(fā)送的目標(biāo)單元環(huán)境(基頻和音素片段持續(xù)時間)之間的差異的失真。連接代價(jià)表示基于相鄰連接的兩個語音單元之間的單元環(huán)境(語音單元邊界的倒譜)的差異的失真。簡言之,目標(biāo)代價(jià)是當(dāng)(存儲在語音單元波形語料庫104a中的)語音單元被用于輸入文本的目標(biāo)單元環(huán)境中時出現(xiàn)的失真。連接代價(jià)是由于所連接的兩個語音單元之間的單元環(huán)境的不連續(xù)而出現(xiàn)的失真。
在第一實(shí)施例中,基頻代價(jià)和音素片段持續(xù)時間代價(jià)被用作為目標(biāo)代價(jià)。所述基頻代價(jià)基于(從韻律處理單元103發(fā)送的)目標(biāo)單元環(huán)境的基頻和(存儲在語音單元信息語料庫104c中的)語音單元的單元環(huán)境的基頻之間的差異。音素片段持續(xù)時間代價(jià)基于(從韻律處理單元103發(fā)送的)目標(biāo)單元環(huán)境的音素片段持續(xù)時間和(存儲在語音單元信息語料庫104c中的)語音單元的單元環(huán)境的音素片段持續(xù)時間之間的差異。
此外,頻譜連接代價(jià)被用作為所述連接代價(jià)。所述頻譜連接代價(jià)基于兩個相連接的語音單元之間的(存儲在語音單元信息語料庫104c中的)語音單元邊界的倒譜的差異。
接下來,利用圖10A和10B解釋計(jì)算基頻代價(jià)、音素片段持續(xù)時間代價(jià)以及頻譜連接代價(jià)的方法。
在圖10A中,示出了文本“CONNICHIWA”的(由韻律處理單元103獲得的)音素序列和目標(biāo)單元環(huán)境(基頻和音素片段持續(xù)時間)。如上所述,在第一實(shí)施例中,合成單位被認(rèn)為是音素。于是,為每個片段確定音素序列(各個音素)和目標(biāo)單元環(huán)境(基頻(fTi)和音素片段持續(xù)時間(dTi))。
在圖10B中,示出了為圖10A中的各個片段從語音單元波形語料庫104a選出的語音單元ui的語音單元序列。從具有片段i的音素作為單元環(huán)境的多個語音單元中選出語音單元ui。如圖10B所示,為(存儲在語音單元信息語料庫104c中的)語音單元ui存儲基頻(fui)、音素片段持續(xù)時間(dui)以及單元邊界的倒譜(pui、qui)。關(guān)于單元邊界的倒譜,與在先的語音單元的單元邊界的倒譜是pui,與在后的語音單元的單元邊界的倒譜是qui。
在這種情況下,通過如下等式(1)、(2)和(3)來計(jì)算每個片段的基頻代價(jià)Cf(i,ui)、音素片段持續(xù)時間代價(jià)Cd(i,ui),以及頻譜連接代價(jià)Cs(i,ui)。
Cf(i,ui)={log(fui)-log(fTi)}2(1)Cd(i,ui)=(dui-dTi)2(2)Cs(i,ui)=‖qu(i-1)-pui‖ (3)‖x‖向量x的模通過如下等式(4)將各個片段的代價(jià)CSG(i,ui)計(jì)算為以上代價(jià)的加權(quán)和。
CSG(i,ui)=wfCf(i,ui)+wdCd(i,ui)+wsCs(i,ui) (4)wf、wd、ws預(yù)先固定的加權(quán)系數(shù)在通過連接圖10B中的語音單元{u1,u2,…}來產(chǎn)生合成語音的情況下,利用如下等式(5)計(jì)算合成語音的失真C。
C=Σi=1NCSG(i,ui)---(5)]]>
N通過合成單位從(輸入文本的)音素序列劃分的片段的數(shù)目如上所述,在基于(從韻律處理單元103發(fā)送的)音素序列通過連接(存儲在語音單元波形語料庫104a中的)語音單元來合成語音的情況下,通過參考語音單元信息語料庫104c計(jì)算所述合成語音的失真?;诘仁?5),識別具有最小失真C的最優(yōu)語音單元序列。例如,可以通過基于(從韻律處理單元103發(fā)送的)所述音素序列計(jì)算所有語音單元的各種組合的失真C來識別所述最優(yōu)語音單元序列。此外,可以利用DPM(動態(tài)規(guī)劃方法)有效地識別所述最優(yōu)語音單元序列。
接下來,在語音單元連接單元104d中,基于(從語音單元選擇單元104b發(fā)送的)語音單元序列,通過參考語音單元信息語料庫104c中的單元波形位置(地址)從語音單元波形語料庫104a讀取各個語音單元的波形。通過基于(由韻律處理單元103獲得的)目標(biāo)單元環(huán)境修改和連接所述波形,產(chǎn)生合成語音。
通過參考圖11解釋語音單元連接單元104d的操作。首先,從語音單元選擇單元104b輸入N個單元的語音單元序列ui(i=1,…N)(S301)。接下來,用“1”初始化(表示目標(biāo)的語音單元位置的)指數(shù)i的值(S302)。
接下來,檢查是否已經(jīng)從語音單元波形語料庫104a讀出了語音單元ui的波形(S303)。如果所述波形已經(jīng)被讀出并且被復(fù)制到在語音單元連接單元104d中預(yù)先準(zhǔn)備的緩沖區(qū)中,跳過語音單元波形的讀取處理,且處理進(jìn)行到合成語音的生成處理S307。
另一方面,如果沒有讀取所述波形,則檢查作為語音單元序列中的語音單元ui的后續(xù)語音單元,是否存在滿足預(yù)定條件的語音單元uk(S304)。所述預(yù)定條件表示在語音單元序列中的語音單元ui和uk之間的位置關(guān)系,以及在HDD(語音單元波形語料庫104a)中的語音單元ui和uk的波形之間的位置(地址)關(guān)系。
如果作為語音單元ui的后續(xù)語音單元,存在滿足所述條件的語音單元uk,則從HDD讀取包含語音單元ui和uk的兩個波形的連續(xù)存儲區(qū)域,并復(fù)制到緩沖區(qū)(S305)。
如果作為語音單元ui的后續(xù)語音單元,不存在滿足所述條件的語音單元uk,則從HDD讀取語音單元ui的波形,并復(fù)制到緩沖區(qū)(S306)。
接下來,利用在緩沖區(qū)復(fù)制的語音單元ui的波形產(chǎn)生合成語音(S307)。之后解釋此方法。
接下來,檢查語音單元ui是否是語音單元序列中的最后一個語音單元(S308)。如果語音單元ui是最后的語音單元,則輸出合成語音的波形(S310),并完成處理。如果語音單元ui不是最后的語音單元,則指數(shù)增加“1”(S309),并且處理返回到S303,從而從后續(xù)語音單元產(chǎn)生合成語音。
接下來,通過參考圖12詳細(xì)解釋在S304對所述條件的判定處理。在此判定方法中,關(guān)于語音單元ui和語音單元ui的后續(xù)語音單元中的任何一個uk,判定所述HDD上的包含兩個語音單元ui和uk的波形的連續(xù)區(qū)域的數(shù)據(jù)量(Ds(ui,uk))是否低于緩沖區(qū)大小。
首先,將指數(shù)k初始化為“i+1”,表示語音單元序列中的語音單元ui的后續(xù)語音單元(S401)。如果指數(shù)k大于“N”或“i+W”,此條件的判定結(jié)果為“否”,并且完成處理(S402)。在這種情況下,“W”是作為任意可設(shè)置常數(shù)的正整數(shù)。
接下來,計(jì)算HDD上的包含兩個語音單元ui和uk的波形的連續(xù)區(qū)域的數(shù)據(jù)量Ds(ui,uk)。判定所述數(shù)據(jù)量小于為復(fù)制波形而準(zhǔn)備的緩沖區(qū)大小(S403)。在這種情況下,參考語音單元信息語料庫104c,通過將兩個語音單元ui和uk范圍內(nèi)的所有語音單元的各波形大小相加,能夠計(jì)算數(shù)據(jù)量Ds(ui,uk)的值。
如果數(shù)據(jù)量Ds(ui,uk)小于緩沖區(qū)大小,則此條件的判定結(jié)果為“是”,并且完成處理。另一方面,如果數(shù)據(jù)量Ds(ui,uk)不小于緩沖區(qū)大小,則指數(shù)k增加1,處理返回到S402(S404)。
在上述判定方法中,在判定結(jié)果為“是”的情況下,可以通過一次訪問從HDD讀出兩個語音單元ui和uk的波形,并復(fù)制到緩沖區(qū)。
在S403,將數(shù)據(jù)量Ds(ui,uk)與緩沖區(qū)大小進(jìn)行比較。然而,如果所述緩沖區(qū)已經(jīng)存儲了由之前的處理讀取的波形,則將數(shù)據(jù)量Ds(ui,uk)與緩沖區(qū)大小和已存儲波形的大小之間的差進(jìn)行比較。可選地,如果所述緩沖區(qū)已經(jīng)存儲了波形,則判定結(jié)果可以無條件地為“否”。
此外,在S403,通過計(jì)算HDD上包含兩個語音單元ui和uk的波形的連續(xù)區(qū)域的語音單元數(shù)Dn(ui,uk),可以判定所述數(shù)量小于預(yù)先設(shè)置的語音單元的最大數(shù)Dnmax。如果已知所述最大數(shù),則可以通過所述語音單元數(shù)判定將被讀到所述緩沖區(qū)上的波形。例如,在“Dnmax=2且W=2”的情況下,此判定表示“在HDD上相鄰地存儲了語音單元序列中的兩個連續(xù)語音單元ui和ui+1的波形”。
圖13是根據(jù)第一實(shí)施例讀取語音單元波形的一個例子的示意圖。在此例子中,在“W=3并且Dn(ui,uk)不超過3(Dnmax=3)”的條件下,執(zhí)行判定。所述語音單元序列包括九個語音單元。在這種情況下,可以通過一次訪問分別讀取“o(4)和x(2)”,“n(6)和ch(1)”以及“i(2)和w(5)”。于是,為了產(chǎn)生合成語音,可以通過六次訪問從HDD讀取所有需要的語音單元波形。
接下來,參考圖14A和14B解釋在S307的產(chǎn)生合成語音的方法。如圖14A所示,關(guān)于濁音,從語音單元波形提取音調(diào)波形,修改該音調(diào)波形的基頻,使其等于(由韻律處理單元103獲得的)目標(biāo)單元環(huán)境的基頻,并且基于(由韻律處理單元103獲得的)目標(biāo)單元環(huán)境的音素片段持續(xù)時間重疊或者加上足夠數(shù)目的已修改音調(diào)波形。
作為從語音單元波形提取音調(diào)波形的方法,例如,可使用基本音調(diào)同步窗、(通過倒譜分析或PSE分析獲得的)功率譜包絡(luò)的離散復(fù)立葉逆變換,或者閉環(huán)學(xué)習(xí)方法來在合成語音電平中提取對于自然語音具有較低失真的音調(diào)波形??蛇x地,通過預(yù)先提取音調(diào)波形,在語音單元波形語料庫104a中存儲音調(diào)波形序列,作為語音單元波形。
另一方面,清音是非周期性的,并且不存在音調(diào)波形。于是,關(guān)于清音,基于(由韻律處理單元103獲得的)所述目標(biāo)單元環(huán)境的音素片段持續(xù)時間來修改所述語音單元波形的音素片段持續(xù)時間。例如,清音爆破音(unvoiced explosion sound)和清音斷音(unvoiced break sound)包括(閉鎖的)區(qū)間,以通過在發(fā)聲之前閉鎖發(fā)聲器官來停止呼吸。于是,如圖14B所示,通過復(fù)制在閉鎖區(qū)間中的適合的區(qū)間,可以擴(kuò)展所述閉鎖區(qū)間,從而使得所述語音單元具有適合的音素片段持續(xù)時間。此外,關(guān)于清音摩擦音,在縮短語音單元的情況下,切取在所述語音單元的中心附近的具有適當(dāng)?shù)拈L度的波形。在加長語音單元的情況下,重復(fù)在所述語音單元的中心附近的具有適當(dāng)?shù)拈L度的波形。結(jié)果,修改所述語音單元,使其具有適合的片段持續(xù)時間。在這種情況下,通過平滑波形的連接部分,可以減小由于切取或重復(fù)波形而導(dǎo)致的合成語音的不連續(xù)感覺。
因而,利用從先前的語音單元波形生成的合成語音來連接其基頻和片段持續(xù)時間被修改的語音單元波形。于是,更新地產(chǎn)生合成語音。從語音單元連接單元104d生成的合成語音被發(fā)送到合成語音輸出單元105。
在第一實(shí)施例中,如果通過一次訪問讀取兩個語音單元波形的一次訪問讀取的頻率很高,則可以有效縮減處理時間。一次訪問讀取的頻率受到HDD上的語音單元波形的排序(地址順序)的影響。于是,通過優(yōu)化該排序,可以更加減少處理時間。
以下,解釋優(yōu)化HDD上的語音單元波形的排序的方法。在語音合成裝置中,假設(shè)一次訪問讀取的條件是“語音單元序列中的兩個連續(xù)語音單元ui和ui+1的波形被相鄰地存儲在HDD上?!?。
首先,準(zhǔn)備大量的文本作為訓(xùn)練數(shù)據(jù),并將之輸入給語音合成裝置。通過選擇對應(yīng)于文本的音素的語音單元,生成語音單元序列。
另一方面,從在HDD上存儲的波形的所有語音單元中提取兩個語音單元的各個組合,并對所述兩個語音單元被連續(xù)地包含在(由上述處理生成的)所述語音單元序列中的頻率進(jìn)行計(jì)算。假設(shè)HDD上存儲的語音單元波形的數(shù)目是Nall,并且頻率是H(p,q)(1=<p<q=<Nall,p,q唯一地分配給各個語音單元的編號)。在所述優(yōu)化處理中,與各個語音單元波形位置相鄰的單元個數(shù)是C(p)(1=<p=<Nall)。在沒有確定所有語音單元波形的位置的初始狀態(tài)下,將所有語音單元p初始化為“C(p)=2”。在確定語音單元波形鄰接語音單元波形p的前側(cè)或后側(cè)的狀態(tài)下,將語音單元波形p設(shè)置為“C(p)=1”。在確定兩個語音單元波形鄰接語音單元波形p的兩側(cè)的狀態(tài)下,將語音單元波形p設(shè)置為“C(p)=0”。
接下來,參考圖15解釋優(yōu)化方法的詳細(xì)處理。首先,所有C(p)被初始化為“2”(S501)。接下來,在兩個語音單元p,q(C(p)>0,C(q)>0)中,搜索具有最大頻率H(p′,q′)的組合(p′,q′)(S502)。如果最大頻率H(p′,q′)大于“0”(S503),通過相鄰地連接兩個語音單元波形p′和q′,生成部分單元波形序列(S504)。
此操作可以是如下三種方法中的任何一種。
(1)通過連接兩個語音單元波形,生成新的部分單元波形序列。
(2)將語音單元波形連接到已經(jīng)生成的部分單元波形序列的前端或后端。
(3)通過連接各自已經(jīng)生成的兩個部分單元波形序列,生成一個部分單元波形序列。
然而,如果兩個語音單元波形p′和q′是已經(jīng)生成的相同的部分單元波形序列的前端和后端,為了不循環(huán)該相同的部分單元波形序列,不連接所述兩個語音單元波形p′和q′。
接下來,設(shè)置H(p′,q′)=“0”,并將C(p′)和C(q′)減“1”(S505)。處理返回到S502,并且重復(fù)S503的處理,直到對于新組合(p′,q′),“H(p′,q′)=0”。在這種情況下,“H(p′,q′)=0”表示所述語音單元序列中不包含出現(xiàn)頻率大于“0”的兩個可連接語音單元的組合。于是,通過適當(dāng)?shù)貙?在HDD上并未被連接的)各個語音單元波形與所有部分單元波形序列相連接,生成一個語音單元波形序列。
如上所述,通過基于訓(xùn)練數(shù)據(jù)的語音單元序列在HDD上適當(dāng)?shù)囟ㄎ徽Z音單元波形,在語音單元序列中易于連續(xù)出現(xiàn)的兩個語音單元的波形在所述HDD上鄰接的可能性很高。于是,一次訪問讀取的頻率較高,并且能夠減少處理時間。
此外,關(guān)于易于被選中的語音單元,通過將該語音單元的波形復(fù)制在HDD上的不同地址,可以在HDD上存儲多個相同的波形。結(jié)果,一次訪問讀取的頻率也很高。例如,在復(fù)制語音單元p的X個波形的情況下,通過初始化為“C(p)=2*X”,可以合適地定位所述語音單元的波形。
如上所述,在第一實(shí)施例的語音合成裝置中,在語音單元序列中包含的兩個語音單元滿足預(yù)定條件的情況下,能夠通過一次訪問從HDD讀取所述兩個語音單元的波形。于是,減少了HDD訪問的次數(shù),并且減少了讀取波形的訪問時間。結(jié)果,也減少了合成語音的處理時間。
關(guān)于從HDD讀取波形所花費(fèi)的時間,除了從HDD實(shí)際讀取波形的獲取時間之外,還需要讀取的準(zhǔn)備時間。所述準(zhǔn)備時間包括移動用以讀取數(shù)據(jù)的磁頭的時間以及等待磁頭到達(dá)波形的存儲地址的時間。在讀取波形數(shù)據(jù)的情況下,準(zhǔn)備時間常常比獲取時間更長。于是,減少訪問次數(shù)(縮短準(zhǔn)備時間)可以有效地減少處理時間。這樣,如果利用需要準(zhǔn)備時間來獲取數(shù)據(jù)的存儲介質(zhì)(除了所述HDD)作為語音單元波形語料庫104a,更加減少了處理時間。
在第一實(shí)施例中,在一次訪問期間從HDD讀取兩個語音單元波形。然而,可以構(gòu)成所述語音合成裝置,使得在一次訪問期間從HDD讀取至少三個語音單元波形。在這種情況下,通過進(jìn)一步減少HDD訪問的次數(shù),進(jìn)一步減少了處理時間。
在所述公開的實(shí)施例中,可以通過計(jì)算機(jī)可執(zhí)行程序來完成所述處理,并且可以在計(jì)算機(jī)可讀存儲裝置中實(shí)現(xiàn)此程序。
在所述實(shí)施例中,可以使用諸如磁盤、軟盤、硬盤、光盤(CD-ROM、CD-R、DVD等)、光磁盤(MD等)的存儲裝置來存儲使處理器或計(jì)算機(jī)進(jìn)行上述處理的指令。
此外,基于從存儲裝置安裝到計(jì)算機(jī)、在計(jì)算機(jī)上工作的OS(操作系統(tǒng))或者諸如數(shù)據(jù)庫管理軟件或網(wǎng)絡(luò)的MW(中間件軟件)的程序的指示,可以執(zhí)行各個處理的一部分,以實(shí)現(xiàn)所述實(shí)施例。
此外,所述存儲裝置不限于獨(dú)立于計(jì)算機(jī)的裝置。通過下載通過LAN或因特網(wǎng)發(fā)送的程序,包括了在其中存儲了該程序的存儲裝置。此外,所述存儲裝置不限于一個。在由多個存儲裝置執(zhí)行所述實(shí)施例的處理的情況下,可以在所述存儲裝置中包含多個存儲裝置。可以任意地組成所述裝置的部件。
計(jì)算機(jī)可以根據(jù)在存儲裝置中存儲的程序來執(zhí)行所述實(shí)施例的各個處理階段。所述計(jì)算機(jī)可以是這樣的裝置,諸如個人計(jì)算機(jī)或者在其中多個處理裝置被通過網(wǎng)絡(luò)相連接的系統(tǒng)。此外,所述計(jì)算機(jī)不限于個人計(jì)算機(jī)。本領(lǐng)域技術(shù)人員可以理解,計(jì)算機(jī)包括信息處理器中的處理單元、微型計(jì)算機(jī)等。簡言之,通常將能夠利用所述程序執(zhí)行實(shí)施例中的功能的設(shè)備和裝置稱為計(jì)算機(jī)。
權(quán)利要求
1.一種合成輸入音素序列的語音的裝置,包括波形存儲器,其被配置為存儲多個語音單元波形;信息存儲器,其被配置為對應(yīng)地存儲語音單元信息以及在所述波形存儲器中存儲的所述多個語音單元波形的每一個的地址;選擇器,其被配置為通過參考在所述信息存儲器中存儲的所述語音單元信息,選擇對應(yīng)于所述輸入音素序列的語音單元序列;獲取單元,其被配置為通過參考在所述信息存儲器中存儲的所述地址,從所述波形存儲器獲取對應(yīng)于各個語音單元的語音單元波形;以及連接單元,其被配置為通過連接由所述獲取單元獲取的所述語音單元波形來產(chǎn)生所述語音;其中,所述獲取單元在一次訪問期間從所述波形存儲器的連續(xù)區(qū)域獲取與包含在所述語音單元序列中的至少兩個語音單元相對應(yīng)的至少兩個語音單元波形。
2.根據(jù)權(quán)利要求1所述的裝置,其中,所述信息存儲器對應(yīng)地存儲語音單元名稱、作為所述語音單元波形的頭位置的所述地址,以及所述語音單元波形的數(shù)據(jù)大小。
3.根據(jù)權(quán)利要求1所述的裝置,其中,當(dāng)所述連續(xù)區(qū)域的數(shù)據(jù)大小低于預(yù)定大小時,所述獲取單元在一次訪問期間從該連續(xù)區(qū)域獲取所述至少兩個語音單元波形。
4.根據(jù)權(quán)利要求1所述的裝置,其中,當(dāng)在所述連續(xù)區(qū)域中包含的語音單元波形的數(shù)目低于預(yù)定數(shù)時,所述獲取單元在一次訪問期間從該連續(xù)區(qū)域獲取所述至少兩個語音單元波形。
5.根據(jù)權(quán)利要求1所述的裝置,其中,當(dāng)包含所述至少兩個語音單元的連續(xù)語音單元序列的語音單元的數(shù)目低于預(yù)定數(shù)時,所述獲取單元在一次訪問期間從該連續(xù)區(qū)域獲取所述至少兩個語音單元波形。
6.根據(jù)權(quán)利要求1所述的裝置,其中,當(dāng)所述至少兩個語音單元波形被相鄰地存儲在所述連續(xù)區(qū)域中時,所述獲取單元在一次訪問期間從該連續(xù)區(qū)域獲取所述至少兩個語音單元波形。
7.根據(jù)權(quán)利要求1所述的裝置,其中,所述波形存儲器在不同的地址存儲多個相同的語音單元波形。
8.根據(jù)權(quán)利要求1所述的裝置,其中,所述輸入音素序列是訓(xùn)練數(shù)據(jù),以及其中,所述獲取單元對在所述語音單元序列中連續(xù)出現(xiàn)的兩個語音單元的組合的頻率進(jìn)行計(jì)算,以所述頻率更高的順序來選擇兩個語音單元的所述組合,并且將對應(yīng)于該組合的兩個語音單元波形相鄰地存儲在所述波形存儲器中。
9.根據(jù)權(quán)利要求8所述的裝置,其中,如果對應(yīng)于所述組合的一個語音單元的語音單元波形是所述相鄰存儲的兩個語音單元波形之一,所述獲取單元將對應(yīng)于所述組合的另一個語音單元的語音單元波形與相鄰地存儲在所述波形存儲器中的所述兩個語音單元波形的所述一個相連接。
10.根據(jù)權(quán)利要求1所述的裝置,其中,所述波形存儲器是硬盤或NAND類型的閃存。
11.一種合成輸入音素序列的語音的方法,包括以下步驟在第一存儲器中存儲多個語音單元波形;在第二存儲器中對應(yīng)地存儲語音單元信息以及所述多個語音單元波形的每一個的地址;通過參考在所述第二存儲器中存儲的所述語音單元信息,選擇對應(yīng)于所述輸入音素序列的語音單元序列;通過參考在所述第二存儲器中存儲的所述地址,從所述第一存儲器獲取與所述語音單元序列的各個語音單元相對應(yīng)的語音單元波形;以及通過連接所述獲取的語音單元波形來產(chǎn)生所述語音;其中,所述獲取步驟包括,在一次訪問期間,從所述第一存儲器的連續(xù)區(qū)域獲取與包含在所述語音單元序列中的至少兩個語音單元相對應(yīng)的至少兩個語音單元波形。
12.根據(jù)權(quán)利要求11所述的方法,其中,所述第二存儲器對應(yīng)地存儲語音單元名稱、作為所述語音單元波形的頭位置的所述地址,以及所述語音單元波形的數(shù)據(jù)大小。
13.根據(jù)權(quán)利要求11所述的方法,其中,所述第二個獲取步驟包括當(dāng)所述連續(xù)區(qū)域的數(shù)據(jù)大小低于預(yù)定大小時,在一次訪問期間從該連續(xù)區(qū)域獲取所述至少兩個語音單元波形。
14.根據(jù)權(quán)利要求11所述的方法,其中,所述第二個獲取步驟包括當(dāng)在所述連續(xù)區(qū)域中包含的語音單元波形的數(shù)目低于預(yù)定數(shù)時,在一次訪問期間從該連續(xù)區(qū)域獲取所述至少兩個語音單元波形。
15.根據(jù)權(quán)利要求11所述的方法,其中,所述第二個獲取步驟包括當(dāng)包含所述至少兩個語音單元的連續(xù)語音單元序列的語音單元的數(shù)目低于預(yù)定數(shù)時,在一次訪問期間從所述連續(xù)區(qū)域獲取所述至少兩個語音單元波形。
16.根據(jù)權(quán)利要求11所述的方法,其中,所述第二個獲取步驟包括當(dāng)所述至少兩個語音單元波形被相鄰地存儲在所述連續(xù)區(qū)域中時,在一次訪問期間從該連續(xù)區(qū)域獲取所述至少兩個語音單元波形。
17.根據(jù)權(quán)利要求11所述的方法,其中,所述第一存儲器在不同的地址存儲多個相同的語音單元波形。
18.根據(jù)權(quán)利要求11所述的方法,其中,所述輸入音素序列是訓(xùn)練數(shù)據(jù),以及其中,所述第二個獲取步驟包括對在所述語音單元序列中連續(xù)出現(xiàn)的兩個語音單元的組合的頻率進(jìn)行計(jì)算;以所述頻率更高的順序來選擇兩個語音單元的所述組合;以及將對應(yīng)于該組合的兩個語音單元波形相鄰地存儲在所述第一存儲器中。
19.根據(jù)權(quán)利要求18所述的方法,其中,如果對應(yīng)于所述組合的一個語音單元的語音單元波形是所述相鄰存儲的兩個語音單元波形之一,所述第二個獲取步驟包括將對應(yīng)于該組合的另一個語音單元的語音單元波形與相鄰地存儲在所述第一存儲器中的所述兩個語音單元波形的所述一個相連接。
全文摘要
波形存儲器存儲多個語音單元波形。信息存儲器對應(yīng)地存儲語音單元信息以及所述多個語音單元波形的每一個的地址。選擇器通過參考所述語音單元信息,選擇對應(yīng)于所述輸入音素序列的語音單元序列。語音單元波形獲取單元通過參考所述地址,從所述波形存儲器獲取對應(yīng)于所述語音單元序列的各個語音單元的語音單元波形。語音單元連接單元通過連接所述獲取的語音單元波形來產(chǎn)生所述語音。所述語音單元波形獲取單元在一次訪問期間從波形存儲器的連續(xù)區(qū)域獲取與包含在所述語音單元序列中的至少兩個語音單元相對應(yīng)的至少兩個語音單元波形。
文檔編號G10L13/04GK101075432SQ20071010461
公開日2007年11月21日 申請日期2007年5月18日 優(yōu)先權(quán)日2006年5月18日
發(fā)明者籠島岳彥 申請人:株式會社東芝
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1