專利名稱:用于合成語音的方法
技術(shù)領(lǐng)域:
本發(fā)明主要涉及文本-語音(TTS )合成,并且尤其涉及的是使用 微分段(micro-segment)從文本串中合成語音。
背景技術(shù):
文本語音(TTS)轉(zhuǎn)換通常也被稱為串連式(concatenative )文 本語音合成,其使得電子設(shè)備能夠接收輸入文本串并且以合成語音的 形式來提供該文本串的音頻信號表示。對串連式語音合成來說,諸如 音素或雙音素之類的基本語音單元是串連的。但是,對使用基于音素 的語音單元從數(shù)量不確定的接收文本串中合成語音的設(shè)備來說,該設(shè) 備可能很難提供高質(zhì)量的真實合成語音。這是因為,音素、音節(jié)或單 詞的發(fā)音通常是依賴于上下文的。
由于很多設(shè)備的存儲和處理能力是有限的,因此,在諸如發(fā)聲波 形語料庫(corpus)之類的語音庫中未必包含音素、音節(jié)或單詞的所 有預(yù)期韻律變化。例如,雖然諸如雙音素-雙音素之類的基于音素的串 連有可能為音節(jié)間的串連所接受,但是,在音節(jié)內(nèi)部的以音素為基礎(chǔ) 的音素串連有可能產(chǎn)生不自然的聲音。這是因為,話音分段-話音分段 之間的串連點通常會導(dǎo)致不自然的發(fā)聲轉(zhuǎn)變。
用于英語的典型雙音素語音庫可以具有大約1200個雙音素,但 是為了減小濁音-法音邊界內(nèi)部的串連,語音庫需要n個音素的叢集。 由此,具有所有字符的所有發(fā)音的語音庫可能會大的驚人。因此,在 大多數(shù)的TTS系統(tǒng)中,都需要基于使用有限大小的語音庫的聲學(xué)分析 來估計輸入文本串的恰當(dāng)發(fā)音。特別地,在將這種語音庫內(nèi)置在存儲 器容量有限的手持式電子設(shè)備中的時候,這種語音庫的大小將會是非 常有限的。
為了便于理解和實際實施本發(fā)明,現(xiàn)在將對參照附圖所描述的例 示實施例進行參考,其中相同參考數(shù)字在各個附圖中始終表示相同或 功能相似的部件。這些附圖和下文的詳細(xì)描述一起被包括在說明書中 并構(gòu)成說明書的一部分,并且用于進一步描述實施例和說明根據(jù)本發(fā)
明的各種原理和優(yōu)點,其中
圖l是描述了根據(jù)本發(fā)明某些實施例的釆用移動電話形式的電子 設(shè)備的示意圖2是描述了根據(jù)本發(fā)明某些實施例的用于從輸入文本串中合成 語音的方法的流程圖3是描述了根據(jù)本發(fā)明某些實施例的用于從輸入串中合成語音 的方法的一般流程圖4是描述了根據(jù)本發(fā)明某些實施例的用于對輸入串進行處理以 便提供聲學(xué)參數(shù)序列的方法的一般流程圖;以及
圖5是描述了根據(jù)本發(fā)明某些實施例的包含五個歸一化音調(diào)輪廓 模型的音調(diào)模型的圖示。
技術(shù)人員應(yīng)當(dāng)明白,附圖中的部件是為了簡明起見而被示出的, 并且這些部件不一定是按比例繪制的。例如,附圖中某些部件的尺寸 可能相對于其他部件而被放大了 ,以便提高對本發(fā)明實施例的理解。
具體實施例方式
在詳細(xì)描述根據(jù)本發(fā)明的實施例之前,應(yīng)該注意到的是,這些實 施例主要在于與從輸入串中合成語音有關(guān)的方法步驟和設(shè)備組件的組 合。因此,在附圖中將這些設(shè)備組件和方法步驟在適當(dāng)?shù)奈恢蒙嫌贸?規(guī)符號表示,由此僅僅顯示那些與理解本發(fā)明實施例相關(guān)的具體細(xì)節(jié), 以免因?qū)Φ靡嬗谠诖说拿枋龅谋绢I(lǐng)域普通技術(shù)人員而言顯而易見的細(xì) 節(jié)而模糊了本公開內(nèi)容。
在本文中,諸如第一和第二、頂部和底部等關(guān)系術(shù)語僅僅用于將一個實體或動作與另一個實體或動作區(qū)分開來,而不是必須要求或者 暗示在此類實體或動作之間存在這種實際關(guān)系。術(shù)語"包含"、"包括" 或是其他任何變體旨在覆蓋非排他性的包含方式,由此使得包含一 系 列要素的處理、方法、制品或設(shè)備并不僅僅包含這些要素,而是可以 包含其他那些未明確列舉或是為這些處理、方法、制品或設(shè)備所固有 的要素。在沒有更多限制的情況下,由"包含一個......"限定的要素并
不排除在包含該要素的處理、方法、制品或設(shè)備中還存在另外的相同 要素。
參考圖1,該示意圖描述了根據(jù)本發(fā)明某些實施例的采用移動電
話100的形式的電子設(shè)備。移動電話100包括射頻通信單元102,其 被耦合成與處理器103的公共數(shù)據(jù)地址總線117進行通信。此外,電 話100還具有小鍵盤106以及顯示屏105,其中舉例來說,該顯示屏 可以是被耦合成與處理器103進行通信的觸摸屏。
處理器103還包括編碼器/解碼器111,并具有相關(guān)聯(lián)的代碼只讀 存儲器(ROM) 112,其用于存儲用于編碼和解碼話音或是其他可以 由移動電話100發(fā)送和接收的信號的數(shù)據(jù)。處理器103還包括微處理 器113,該微處理器113通過公共數(shù)據(jù)地址總線117耦合到編碼器/解 碼器111、字符只讀存儲器(ROM) 114、隨機存取存儲器(RAM) 104、可編程存儲器116以及用戶標(biāo)識模塊(SIM)接口 118??删幊?存儲器116和SIM以可操作的方式耦合到SIM接口 118,并且其每一 個都可以特別地存儲電話號碼數(shù)據(jù)庫(TND),該數(shù)據(jù)庫包含用于電 話號碼的號碼字段,以及用于與號碼字段中的電話號碼唯一地關(guān)聯(lián)的 標(biāo)識符的名稱字段。
射頻通信單元102是具有公共天線的組合式接收機和發(fā)射機。通 信單元102具有經(jīng)由射頻放大器109與天線107相耦合的收發(fā)信機 108。此外,該收發(fā)信機108還耦合到組合式調(diào)制器/解調(diào)器110,所述 組合式調(diào)制器/解調(diào)器110與編碼器/解碼器111相耦合。
微處理器113具有用于耦合到小鍵盤106以及顯示屏105的端口 。 該微處理器113還具有用于耦合到報警模塊115、麥克風(fēng)120以及通信揚聲器122的端口,其中該報警模塊115通常包含報警揚聲器、振 動馬達(dá)以及相關(guān)聯(lián)的驅(qū)動器。字符ROM 114存儲用于編碼和解碼可 以由通信單元102發(fā)送或接收的、諸如控制信道消息之類的數(shù)據(jù)的代 碼。在本發(fā)明的某些實施例中,字符ROM114、可編程存儲器116或 SIM還可以存儲用于微處理器113的操作碼(OC),以及用于執(zhí)行 與移動電話IOO相關(guān)聯(lián)的功能的代碼。例如,可編程存儲器116可以 包括語音合成服務(wù)程序代碼組件125,它被配置成使得執(zhí)行一種用于 從輸入串中合成語音的方法。
由此,本發(fā)明的某些實施例包含一種使用移動電話100從輸入串 中合成語音的方法。舉例來說,該輸入串可以是文本消息或是包含在 移動電話IOO上接收的文本串的電子郵件。該方法包括處理該輸入 串以提供一個聲學(xué)參數(shù)序列。然后,使用該聲學(xué)參數(shù)序列從語音庫中 產(chǎn)生候選微分段集合序列。然后,從候選微分段集合序列中為聲學(xué)參 數(shù)序列確定一個優(yōu)選的微分段序列。最后,將優(yōu)選微分段序列中的微 分段串連起來,以便產(chǎn)生合成語音。
因此,本發(fā)明的某些實施例使得能夠使用微分段以及表示目標(biāo)聲 學(xué)模型的聲學(xué)參數(shù)序列而不是使用音素或雙音素來執(zhí)行語音合成。微 分段可以是任何長度的語音分段,但是通常短于音素或雙音素。舉例 來說,微分段可以是20ms的語音幀,而音素的語音分段通常包含若 干個這種語音幀。由于通過串連微分段合成的語音分段與通過串連音 素或雙音素所合成的語音分段相比可以提供更多的頻率和韻律變化, 因此文本-語音(TTS)系統(tǒng)的整體聲音質(zhì)量可以得到改善。
參考圖2,該流程圖描述了根據(jù)本發(fā)明某些實施例的用于從輸入 串205中合成語音的方法200。首先,對輸入串205進行處理,以便 提供一個聲學(xué)參數(shù)序列230。然后,使用聲學(xué)參數(shù)序列230從語音庫 中產(chǎn)生候選微分段集合235的序列240。然后,從候選微分段集合235 的序列240中為聲學(xué)參數(shù)序列230確定一個優(yōu)選的微分段序列245。 最后,將優(yōu)選微分段序列245中的微分段串連起來,以便產(chǎn)生一個合 成語音信號250。舉例來說,與優(yōu)選微分段序列245中的微分段描述相對應(yīng)的語音幀255可以被加載到移動電話100的RAM 104中,然 后被串連并且在通信揚聲器122上進行播放,以便產(chǎn)生合成語音信號 250。
參考圖3,該流程圖進一步描述了一種根據(jù)本發(fā)明的某些實施例 從輸入串中合成語音的 一般方法300。在步驟305 ,對輸入串進行處理, 以便提供一個聲學(xué)參數(shù)序列。舉例來說,聲學(xué)參數(shù)序列230中的聲學(xué) 參數(shù)可以包括頻鐠參數(shù)、音調(diào)參數(shù)以及能量參數(shù)。
根據(jù)本發(fā)明的某些實施例,也被稱為目標(biāo)語音單元的聲學(xué)參數(shù)是 使用韻律位置從輸入串中產(chǎn)生的。舉例來說,韻律位置可以包括某個 音節(jié)在單詞中的位置以及該單詞在句子中的位置。
頻譜參數(shù)可以使用已知的頻譜特征表示方法來建模,頻譜特征表 示方法包括例如線性預(yù)測編碼(Linear Predictive Coding, LPC )方 法、線譜對(Linear Spectral Pairs, LSP )方法或是梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)方法。由此,通過寸吏用韻律 位置,可以確定音素的頻鐠參數(shù)。舉例來說,可以使用諸如高斯混合 模型(GMM)之類的位置頻鐠模型將諸如韻律位置之類的音素聲學(xué) 特征映射成頻鐠參數(shù)。音調(diào)參數(shù)可以使用音調(diào)模型來確定,其中音調(diào) 模型根據(jù)音節(jié)的韻律位置來定義音節(jié)的音調(diào)輪廓。音調(diào)模型可以包括 音調(diào)輪廓模型,例如WO—stress、 WO—unstress、 WF_stress、 WF— unstress或WS。
對能量參數(shù)來說,可以為音節(jié)的話音部分和非話音部分使用不同 的策略。對話音部分來說,可以為音節(jié)定義能量輪廓模式??梢酝ㄟ^ 使用cv類(cv-like)單元在音節(jié)中的位置和/或關(guān)于該音節(jié)是否為重 讀音節(jié)的條件,定義不同的能量輪廓模式。對非話音部分來說,可以 為音素定義能量輪廓模式,每一個(非話音)音素都可以具有一個或 多個能量輪廓模式。非話音音素的能量輪廓可以取決于音素在音節(jié)中 的位置以及音節(jié)在單詞中的位置。為了減少所需要的存儲器數(shù)量,如 果某些(非話音)音素具有相似的位置以及相似的清晰度方式,那么 這些音素可以共享同一個能量輪廓模式。舉例來說,音素"s"、 "sh"和"ch"可以共享同一個能量輪廓模式,并且同樣地,"g"、 "d"和"k" 可以共享另 一個相同的能量輪廓模式。
在步驟310,使用聲學(xué)參數(shù)序列從語音庫315中產(chǎn)生候選微分段 集合序列。根據(jù)本發(fā)明的某些實施例,該候選微分段集合可以使用目 標(biāo)成本函數(shù)以及持續(xù)時間模型來產(chǎn)生。舉例來說,該目標(biāo)成本函數(shù)可 以是頻譜成本、音調(diào)成本以及能量成本的加權(quán)總和。較低的目標(biāo)成本 可能意味著候選微分段的聲學(xué)特性與聲學(xué)參數(shù)緊密匹配。例如,對聲 學(xué)參數(shù)序列230中的每一個聲學(xué)參數(shù)來說,移動電話100可以通過搜 索語音庫315來發(fā)現(xiàn)具有與該聲學(xué)參數(shù)以及該聲學(xué)參數(shù)的估計持續(xù)時 間緊密匹配的聲學(xué)特性的候選微分段(例如語音幀)集合。然后,可 以選擇這種緊密匹配的語音幀,以便產(chǎn)生候選微分段集合235的序列 240。
為了減少處理時間,語音庫315中的語音幀可以通過使用語音幀 的韻律位置而被分類成若干個語音幀集合,并且可以在與該聲學(xué)參數(shù) 的韻律位置緊密匹配的語音幀集合之一中搜索候選微分段。
在步驟320 ,從候選微分段集合中為聲學(xué)參數(shù)序列確定一個優(yōu)選 的微分段序列。舉例來說,在這里可以使用維特比算法來確定優(yōu)選微 分段序列245,并且該維特比算法的路徑成本函數(shù)可以是目標(biāo)成本函 數(shù)與串連成本函數(shù)的總和。
根據(jù)本發(fā)明的某些實施例,目標(biāo)成本函數(shù)可以是頻鐠成本函數(shù)、 音調(diào)成本函數(shù)以及能量成本函數(shù)的加權(quán)總和。例如,頻鐠成本函數(shù)可 以是候選微分段與聲學(xué)參數(shù)序列230中的聲學(xué)參數(shù)(也被稱為目標(biāo)微 分段)之間在頻鐠特征方面的差異程度的量度。類似地,音調(diào)成本函 數(shù)和能量成本函數(shù)可以分別度量聲學(xué)參數(shù)與候選微分段之間在音調(diào)和
能量特征方面的差異程度。舉例來說,目標(biāo)成本函數(shù)可以被定義如下
cr(",.,t)=《/c/(",.,4) +《/c/(Ma) + K/c/(Ma) (等式1 )
其中,w^是聲學(xué)參數(shù)序列230中的第i個聲學(xué)參數(shù)的第k個候選微分 段,C^("^)是目標(biāo)成本函數(shù),C^("w)是頻譜成本函數(shù),C;(",,,)是音 調(diào)成本函數(shù),C;(i^)是能量成本函數(shù),而X; JT;和K^是加權(quán)值。串連成本函數(shù)可以是頻鐠差函數(shù)、音調(diào)差函數(shù)以及能量差函數(shù)的 加權(quán)總和。頻鐠差函數(shù)可以度量兩個相鄰微分段之間在頻鐠特征方面 的差異程度。同樣地,音調(diào)差函數(shù)和能量差函數(shù)可以分別度量兩個相 鄰微分段之間在音調(diào)和能量特征方面的差異程度。舉例來說,串連成
本函數(shù)可以被定義如下
<formula>formula see original document page 10</formula>(等戈2 )
其中,",力是聲學(xué)參數(shù)序列230中的第i-l個聲學(xué)參數(shù)的第j個候選微 分段,"w是聲學(xué)參數(shù)序列230中的第i個聲學(xué)參數(shù)的第k個候選微分 段,c7",w,a , w,力是串連成本,c^("",a,";》是與之間的頻譜 差函數(shù),C、(",,M, )是",力與ww之間的音調(diào)差函數(shù),C^(
是",々與"^之間的能量差函數(shù),而fs、 ^fi^p和^^是加權(quán)值。
然后,在步驟325,將優(yōu)選微分段序列中的微分段串連起來,以 便產(chǎn)生合成語音。
參考圖4,該一般流程圖描述了根據(jù)本發(fā)明某些實施例的處理輸 入串以便提供聲學(xué)參數(shù)序列的方法300中的步驟305的子步驟。在步 驟405,對輸入串進行處理,以便提供一個音素序列。舉例來說,輸 入串205可以是一個文本消息或是在移動電話100上接收的電子郵件 消息,并且音素序列可以是一個以音素字母表形式表示文本消息發(fā)音 的串。
在步驟410,在音素序列中確定音節(jié)邊界,以便提供一個音節(jié)序 列。例如,英語單詞可能包含了若干個音節(jié),然后確定該單詞中的這 種音節(jié)邊界,以便提供音節(jié)序列。例如,涉及英語單詞"explain"的音 素序列"ihksplehn"可以被劃分為包含了諸如"ihk,,和"splehn"這兩個
音節(jié)的音節(jié)序列。
然后,在步驟415,在音節(jié)序列中識別子音節(jié)單元,以便提供子 音節(jié)序列。子音節(jié)單元可以等于或小于音節(jié),并且可以是cv類語音單 元(其可以包括輔音和元音)。由此,子音節(jié)序列可以包括cv類語音 單元以及輔音。舉例來說,在音節(jié)序列("ihk,, + "splehn,,)中可以識 別出兩個cv類語音單元("ih"和"lehn,,)。然后,相應(yīng)的子音節(jié)序列可以是("ih,, + "k,, + "s,, + "p" + "lehn,,)。
根據(jù)本發(fā)明的某些實施例,通過使用cv類語音單元來表示輸入 文本的發(fā)音,可以減少描述單詞所需要的基本單元的數(shù)量。例如,包 含了 202,000個單詞的詞典可能包含了 24,980個音節(jié),以及僅僅6,707 個cv類單元。
然后,在步驟420,對子音節(jié)序列進行處理,以便提供一個微分 段描述序列。例如,通過使用持續(xù)時間模型來估計子音節(jié)序列中每個 元素的持續(xù)時間,可以估計出為每一個元素合成語音所需要的微分段 的數(shù)量。舉例來說,考慮如下的cv類語音單元(子音節(jié))ih。如果 cv類語音單元的估計持續(xù)時間近似等于五個微分段,那么這個子音節(jié) 可以如下所示被映射成五個微分段描述
ihf ihf ihf ihf ihf ,
其中ihf是微分段描述。
根據(jù)本發(fā)明的某些實施例,子音節(jié)的估計持續(xù)時間可以通過應(yīng)用 一個持續(xù)時間模型來獲得,其中該模型包含了音素的平均持續(xù)時間以 及音素的韻律屬性。舉例來說,音素/7的持續(xù)時間可以根據(jù)以下等式 來獲得<formula>formula see original document page 11</formula>
(等式3)
其中,的估計持續(xù)時間,/^g是音素/7的平均音素持續(xù)時
間,并且/t是根據(jù)包括含有音素/)的音節(jié)中的音素數(shù)目、包含該音節(jié) 的單詞中的音節(jié)數(shù)目、以及音素p的類型在內(nèi)的因素所獲得的韻律屬 性系數(shù)。
然后,在步驟425,對微分段描述序列進行處理,以便提供聲學(xué) 參數(shù)序列。例如,微分段描述序列中的每個微分段描述都可以被映射 成用于描述該微分段描述的聲學(xué)特性的聲學(xué)參數(shù),其中舉例來說,該 聲學(xué)特性可以是頻鐠(頻率特性)和韻律特性(音調(diào)、能量或持續(xù)時 間)。微分段描述序列可以包括多個微分段描述,其中每一個微分段 描述都是關(guān)于通常小于音素的語音微分段的描述。對微分段描述序列 中的每一個微分段描述來說,聲學(xué)參數(shù)可以使用聲學(xué)模型來進行估計。舉例來說,聲學(xué)參數(shù)可以包含頻譜參數(shù)Sn、音調(diào)參數(shù)Pn以及能量參數(shù)en。
參考圖5,該圖示描述了根據(jù)本發(fā)明某些實施例使用的音調(diào)模型, 其中該模型包含五個歸一化音調(diào)輪廓模型WO_stress 505、 WO_ unstress 510、 WF—stress 515、 WF—unstress 520以及WS 525。 WO—stress 505音調(diào)輪廓模型定義了位于具有多個音節(jié)的單詞的開始 或是中間的重讀音節(jié)的音調(diào)輪廓。WO—unstress 510音調(diào)輪廓模型定 義了位于具有多個音節(jié)的單詞的開始或中間的非重讀音節(jié)的音調(diào)輪 廓。WF一stress 515音調(diào)輪廓模型定義了位于具有多個音節(jié)的單詞的末 端的重讀音節(jié)的音調(diào)輪廓。WF_unstress 520音調(diào)輪廓模型定義了位 于具有多個音節(jié)的單詞的末端的重讀音節(jié)的音調(diào)輪廓。WF 525音調(diào) 輪廓模型定義了只有一個音節(jié)的單詞中的音節(jié)的音調(diào)輪廓。
由此,本發(fā)明某些實施例的優(yōu)點包括提高了合成語音的聲音質(zhì) 量。與通過串連音素或雙音素合成的語音分段相比,通過串連微分段 合成的語音分段可以提供改進的語音連續(xù)性以及更多韻律變化。由此, TTS系統(tǒng)的整體聲音質(zhì)量可以得到改善,特別是在諸如移動電話和個 人數(shù)字助理(PDA)之類的資源受限的手持式設(shè)備中更是如此。
應(yīng)該理解的是,這里描述的本發(fā)明實施例可以包括一個或多個常 規(guī)處理器以及所存儲的獨特程序指令,其中所述程序指令控制該一個 或多個處理器,以便結(jié)合某些非處理器電路來執(zhí)行這里描述的某些、 大多數(shù)或所有這些從輸入串中合成語音的功能。非處理器電路可以包 括但不局限于無線電接收機、無線電發(fā)射機、信號驅(qū)動器、時鐘電路、 電源電路以及用戶輸入設(shè)備。同樣地,這些功能可以被解釋成用于從 輸入串中合成語音的方法的步驟。作為替換,某些或所有功能可以由 一個未存儲有程序指令的狀態(tài)機來實現(xiàn),或是在一個或多個專用集成 電路(ASIC)中實現(xiàn),其中在所述專用集成電路中,每一個功能或是 某些功能的某些組合可以被實現(xiàn)為定制邏輯。當(dāng)然,也可以使用這兩 種方法的組合。由此,在這里描述了用于這些功能的方法和裝置。此 外,還可以預(yù)期的是,盡管有可能需要付出相當(dāng)多的努力,并且有可
12能受例如可用時間、當(dāng)前技術(shù)以及經(jīng)濟考慮因素的推動而需要做出很 多設(shè)計選擇,但是對本領(lǐng)域普通技術(shù)人員來說,在受到這里所公開的 概念和原理的引導(dǎo)下,他們很容易就能以最少的試驗來產(chǎn)生這些軟件
指令、程序以及IC。
在上文的描述中,已經(jīng)公開了本發(fā)明的具體實施例。但是,本領(lǐng) 域普通技術(shù)人員將會了解,在沒有背離所附權(quán)利要求所闡述的本發(fā)明 范圍的情況下,各種修改和改變都是可行的。因此,本說明書和附圖 應(yīng)該被看作是說明性而不是限制性的,并且所有這種修改全都應(yīng)該包 含在本發(fā)明的范圍以內(nèi)。這里給出的益處、優(yōu)點、問題解決方案、以 及可能產(chǎn)生任何益處、優(yōu)點、解決方案或是使之更為明顯的任何一個 或多個要素都不應(yīng)該被解釋成是任何一個或所有權(quán)利要求的重要、必 要或基本的特征或要素。本發(fā)明僅僅由所附權(quán)利要求來限定,并且這 些權(quán)利要求包含了在本申請的審查過程中的任何修改以及這些權(quán)利要 求的所有等效內(nèi)容。
權(quán)利要求
1. 一種用于從輸入串中合成語音的方法,該方法包括 處理輸入串,以便提供聲學(xué)參數(shù)序列;使用該聲學(xué)參數(shù)序列從語音庫中產(chǎn)生候選微分段集合序列; 從候選微分段集合序列中為聲學(xué)參數(shù)序列確定一個優(yōu)選的微分 段序列;以及串連該優(yōu)選微分段序列中的微分段,以便產(chǎn)生合成語音。
2. 根據(jù)權(quán)利要求1的方法,其中,處理輸入串以便提供聲學(xué)參 數(shù)序列的步驟包括處理輸入串,以便提供音素序列; 確定該音素序列中的音節(jié)邊界,以便提供音節(jié)序列; 識別音節(jié)序列中的子音節(jié)單元,以便提供子音節(jié)序列; 從子音節(jié)序列中產(chǎn)生微分段描述序列;以及 處理微分段描述序列,以便提供聲學(xué)參數(shù)序列。
3. 根據(jù)權(quán)利要求2的方法,其中,微分段描述序列是使用持續(xù) 時間模型從子音節(jié)序列中產(chǎn)生的,其中該持續(xù)時間模型包含音素的平 均持續(xù)時間以及音素的韻律屬性。
4. 根據(jù)權(quán)利要求2的方法,其中,子音節(jié)序列包括cv類語音單元或音素中的一個或多個。
5. 根據(jù)權(quán)利要求1的方法,其中,聲學(xué)參數(shù)序列中的聲學(xué)參數(shù) 包括頻鐠參數(shù)、音調(diào)參數(shù)以及能量參數(shù)。
6. 根據(jù)權(quán)利要求1的方法,其中,候選微分段集合是使用目標(biāo) 成本函數(shù)以及持續(xù)時間模型從語音庫中選出的。
7. 根據(jù)權(quán)利要求6的方法,其中,目標(biāo)成本函數(shù)是頻鐠成本、 音調(diào)成本和能量成本的加權(quán)總和。
8. 根據(jù)權(quán)利要求1的方法,其中,優(yōu)選微分段序列是使用維特 比算法從候選微分段集合中為聲學(xué)參數(shù)序列而確定的。
9. 根據(jù)權(quán)利要求8的方法,其中,維特比算法包括路徑成本函 數(shù),該路徑成本函數(shù)是目標(biāo)成本函數(shù)和串連成本函數(shù)的總和。
10. 根據(jù)權(quán)利要求9的方法,其中,目標(biāo)成本函數(shù)是頻譜成本函 數(shù)、音調(diào)成本函數(shù)以及能量成本函數(shù)的加權(quán)總和。
11. 根據(jù)權(quán)利要求9的方法,其中,串連成本函數(shù)是頻譜差函數(shù)、 音調(diào)差函數(shù)以及能量差函數(shù)的加權(quán)總和。
12. 根據(jù)權(quán)利要求10的方法,其中,目標(biāo)成本函數(shù)被定義如下其中,w^是聲學(xué)參數(shù)序列中的第i個聲學(xué)參數(shù)的第k個候選微分 段,C^("J是目標(biāo)成本函數(shù),C^( )是頻譜成本函數(shù),C^(";,》是音調(diào) 成本函數(shù),C^( )是能量成本函數(shù),而J^、 f^和X^是加權(quán)值。
13. 根據(jù)權(quán)利要求11的方法,其中,串連成本函數(shù)是根據(jù)以下 等式定義的Cc(",_w,"a)=其中,",々是聲學(xué)參數(shù)序列中的第i-1個聲學(xué)參數(shù)的第j個候選 微分段,是聲學(xué)參數(shù)序列中的第i個聲學(xué)參數(shù)的第k個候選微分段,C^",W^ , ",,fe)是用于串連與的串連成本,C^(";.m , n,,》是",w,* 與W,,A之間的頻譜差函數(shù),C^(",^, W,j)是",-M與",,A之間的音調(diào)差函與"w之間的能量差函數(shù),而J^、 J^和K 是加權(quán)值。
14. 根據(jù)權(quán)利要求5的方法,其中,音調(diào)參數(shù)是下列音調(diào)模型之 一WO stress、 WO unstress 、 WF stress 、 WF stress或WS stress。
15. 根據(jù)權(quán)利要求5的方法,其中,能量參數(shù)包括話音部分和非 話音部分。
16. 根據(jù)權(quán)利要求3的方法,其中,持續(xù)時間模型是由以下等式 定義的<formula>formula see original document page 3</formula>其中,^是音素/;的估計持續(xù)時間,丄^是音素p的平均音素持 續(xù)時間,而^是根據(jù)包括含有音素p的音節(jié)中的音素數(shù)目、包含該音 素戶的單詞中的音節(jié)數(shù)目以及音素/7的類型在內(nèi)的多個因素所獲得的 韻律屬性系數(shù)。
全文摘要
一種用于從輸入串中合成語音的方法,使得能夠改善文本-語音合成的聲音質(zhì)量。該方法包括對輸入串進行處理,以便提供聲學(xué)參數(shù)序列(步驟305)。從語音庫中為聲學(xué)參數(shù)序列中的每一個聲學(xué)參數(shù)產(chǎn)生一個候選微分段集合(步驟310)。然后,從候選微分段集合中為聲學(xué)參數(shù)序列確定一個優(yōu)選的微分段序列(步驟315)。然后,串連優(yōu)選微分段序列中的微分段,以便產(chǎn)生合成語音(步驟320)。
文檔編號G10L13/06GK101312038SQ20071010458
公開日2008年11月26日 申請日期2007年5月25日 優(yōu)先權(quán)日2007年5月25日
發(fā)明者曹振海, 祖漪清 申請人:摩托羅拉公司