專利名稱:合成語(yǔ)音的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及分析和合成語(yǔ)音領(lǐng)域,并具體涉及但不限制于文本到語(yǔ)音(text-to-speech)合成的領(lǐng)域。
背景技術(shù):
文本到語(yǔ)音(TTS)合成系統(tǒng)的功能是以給定的語(yǔ)言從普通文本中合成語(yǔ)音。當(dāng)今,TTS系統(tǒng)已經(jīng)在許多應(yīng)用中投入使用,諸如通過(guò)電話網(wǎng)絡(luò)訪問(wèn)數(shù)據(jù)庫(kù)或幫助殘疾人。一種合成語(yǔ)音的方法是將諸如人類音節(jié)(demisyllable)或多音字(polyphone)語(yǔ)音的一組所記錄的子單元的元素拼接(concatenate)在一起。多數(shù)成功的商用系統(tǒng)采用把多音素拼接在一起的方法。多音素包括多個(gè)兩個(gè)(雙音素(diphone))、三個(gè)(三音素(trophone))或更多音素所構(gòu)成的組,并可以通過(guò)在穩(wěn)定的頻譜區(qū)域?qū)⑾胍囊羲亟M分段,而從無(wú)意義的單詞中確定。在基于拼接的合成中,兩個(gè)相鄰音素(phone)之間的轉(zhuǎn)變的會(huì)話是至關(guān)重要的,以便保證合成語(yǔ)音的質(zhì)量。通過(guò)選擇多音素作為基本的子單元,兩個(gè)相鄰音素之間的轉(zhuǎn)變保存在所記錄的子單元中,并且在相似的音素之間執(zhí)行拼接操作。
但是在合成之前,必須修改音素的持續(xù)時(shí)間和音調(diào)(pitch),以滿足包含這些音素的新詞的韻律(prosodic)限制。該處理是必要的,以避免產(chǎn)生單調(diào)的聲音合成語(yǔ)音。在TTS系統(tǒng)中,由韻律模塊來(lái)執(zhí)行該功能。為允許在記錄的子單元中修改持續(xù)時(shí)間和音調(diào),許多基于拼接的TTS系統(tǒng)采用時(shí)域音調(diào)同步疊加(TD-PSOLA)(E.Moulines和F.Charpentier所著的,“Pitch synchronous waveform processingtechniques for text-to-speech synthesis using diphone”,(“使用雙音素的用于文本到語(yǔ)音合成的音調(diào)同步波形處理技術(shù)”)語(yǔ)音專欄,第9卷,第453-467頁(yè),1990年)合成模型。
在TD-PSOLA模型中,語(yǔ)音信號(hào)首先經(jīng)過(guò)音調(diào)標(biāo)記算法。該算法在有聲段的信號(hào)峰值分配標(biāo)記并在無(wú)聲段中相隔10ms分配標(biāo)記。該合成通過(guò)位于音調(diào)標(biāo)記中央和從前一音調(diào)標(biāo)記延伸到下一音調(diào)標(biāo)記的海寧(Hanning)加窗段疊加而實(shí)現(xiàn)。持續(xù)時(shí)間修改通過(guò)刪除或復(fù)制一些加窗段來(lái)提供。另一方面,音調(diào)周期修改可以通過(guò)增加或減小加窗段之間的疊加來(lái)提供。
除了許多商用TTS系統(tǒng)獲得的成功以外,使用TD-PSOLA合成模型產(chǎn)生的合成語(yǔ)音主要在大韻律變化的情況下能夠表現(xiàn)出一些缺陷,羅列如下1、音調(diào)修改引入了需要適當(dāng)補(bǔ)償?shù)男薷某掷m(xù)時(shí)間。
2、修改持續(xù)時(shí)間僅僅以一種量化的方式以一個(gè)音調(diào)周期分辨率(α=...,1/2,2/3,3/4,...,4/3,3/2,2/1,...)來(lái)實(shí)現(xiàn)。
3、當(dāng)在無(wú)聲部分執(zhí)行持續(xù)時(shí)間擴(kuò)大時(shí),段的復(fù)制能夠引入“尖銳而鏗鏘聲音”的非自然信號(hào)(artifact)(類似金屬聲的合成語(yǔ)音)。
在關(guān)于語(yǔ)音和音頻處理的IEEE會(huì)報(bào)的“A Hybrid Model forText-to-Speech Synthesis″(文本到語(yǔ)音合成的混合模型)”中,作者Fábio Violaro和Oliver Beffard,第6卷,NO.5,1998年9月,該文描述了用于基于拼接的文本到語(yǔ)音合成的混合模型。
該語(yǔ)音信號(hào)經(jīng)過(guò)音調(diào)同步分析并分解為諧波分量,該諧波分量具有可變的最大頻率,加上一個(gè)噪聲分量。該諧波分量被模型化為具有音調(diào)倍頻的正弦波之和。該噪聲分量被模型化為應(yīng)用于LPC濾波器的隨機(jī)激勵(lì)。在無(wú)聲段中,使諧波分量等于零。在音調(diào)修改中,通過(guò)在新的諧波頻率處再次采樣頻譜包絡(luò)來(lái)評(píng)估新的一組諧波參數(shù)。為了在持續(xù)時(shí)間和/或音調(diào)修改中合成諧波分量,給諧波參數(shù)引入相位校正。
現(xiàn)有技術(shù)中公開了各種其他的所謂“overlap and add(疊加)”方法,諸如PIOLA(pitch Inflected OverLap and Add(音調(diào)改變疊加))[P.Meyer,和H.W.Rüehl,R.Krüeger,M.Kugler,L.L.MVogten,A.Dirksen,和K.Belhoula.PHRITTS所著的A text-to-speech synthesizer for the German language(用于德語(yǔ)的文本到語(yǔ)音合成器)。Eurospeech(歐洲語(yǔ)音)’93,第877-980頁(yè),柏林,1993年],或PICOLA(Pointr Interval Controlled OverLap andAdd(指針間隔受控疊加))[Morita所著的“A study on speechexpansion and contraction on time axis(時(shí)間軸上語(yǔ)音擴(kuò)展和收縮的研究)”,碩士論文(master thesis),名古屋大學(xué)(1987),日本]。這些方法在其標(biāo)記音調(diào)周期位置的方式上彼此不同。
當(dāng)用作兩種不同波形的混合器時(shí),上述方法沒(méi)有任何一個(gè)能給出令人滿意的結(jié)果。問(wèn)題在于相位不匹配。諧波的相位受記錄設(shè)備、室內(nèi)音響效果、到麥克風(fēng)的距離、元音(vowel)音色、共同發(fā)音(co-articulation)效果等等的影響。其中的一些因素像記錄環(huán)境能夠保持不變,但是像共同發(fā)音效果的其他因素卻難以(不然的話就是不可能)控制。因此當(dāng)標(biāo)記音調(diào)周期位置而不考慮相位信息時(shí),其結(jié)果是合成質(zhì)量將受到相位不匹配的影響。
其他類似MBR-PSOLA(Multi Band Resynthesis PitchSynchronous Overlap Add(多頻帶重新分析音調(diào)同步疊加))的方法[T.D utoit和H.Leich.MBR-PSOLAText-To-speech based on anMBE re-synthesis of the segments database(基于段數(shù)據(jù)庫(kù)的MBE重新分析的文本到語(yǔ)音分析)。speech communication(語(yǔ)音通信),1993年]再生該相位信息以避免相位不匹配。但是這包括了額外的分析合成操作,它減少了所產(chǎn)生的語(yǔ)音的逼真度(naturalness)。這種合成通常發(fā)出機(jī)械的聲音。
美國(guó)專利第5787398號(hào)示出了用于通過(guò)改變音調(diào)來(lái)合成語(yǔ)音的設(shè)備。該方法的一個(gè)不利之處在于,由于音調(diào)標(biāo)記位于激勵(lì)峰值(excitation peak)的中央并且所測(cè)量的激勵(lì)峰值不必要地具有同步相位,所以產(chǎn)生了相位失真。
通過(guò)將語(yǔ)音信號(hào)分割為頻譜分量和激勵(lì)分量而改變合成語(yǔ)音信號(hào)的音調(diào)。后者與一系列疊加窗函數(shù)相乘,以將語(yǔ)音信號(hào)分割為加窗的語(yǔ)音段,這些語(yǔ)音段在應(yīng)用可控的時(shí)移后再次加到一起,其中在有聲語(yǔ)音的情況下,這些函數(shù)與音調(diào)定時(shí)標(biāo)記信息同步,且該標(biāo)記信息至少接近地對(duì)應(yīng)于聲音激勵(lì)的瞬時(shí)。然后重新組合頻譜和激勵(lì)分量。乘法運(yùn)算在每個(gè)音調(diào)周期應(yīng)用至少兩個(gè)窗,每個(gè)窗具有小于一個(gè)音調(diào)周期的持續(xù)時(shí)間。
美國(guó)專利第5081681號(hào)示出了用于從有聲的語(yǔ)音基頻來(lái)確定每個(gè)諧波的相位的一類方法和相關(guān)技術(shù)。其應(yīng)用包括語(yǔ)音編碼、語(yǔ)音增強(qiáng)、和語(yǔ)音的時(shí)間量程修改?;镜姆椒▽◤幕l和有聲/無(wú)聲信息重新創(chuàng)建這些相位信號(hào),以及把隨機(jī)分量增加到這些重新創(chuàng)建的相位信號(hào)以提高合成語(yǔ)音的質(zhì)量。
美國(guó)專利第5081681號(hào)描述了一種用于語(yǔ)音處理的相位合成方法。由于相位是合成的,所以合成的結(jié)果聽起來(lái)不像人類聲音的許多方面那樣自然,以及合成使周圍的音響效果被忽略了。
發(fā)明內(nèi)容
本發(fā)明提供了一種分析語(yǔ)音的方法,具體而言提供了一種分析自然語(yǔ)音的方法。根據(jù)本發(fā)明的分析語(yǔ)音的方法基于以下的發(fā)現(xiàn),即語(yǔ)音信號(hào)特別是雙音素語(yǔ)音信號(hào)和該語(yǔ)音信號(hào)的第一諧波之間的相位差,為一個(gè)依賴說(shuō)話者的參數(shù),該參數(shù)對(duì)于不同的雙音素而言基本上為一個(gè)常量。
根據(jù)本發(fā)明的優(yōu)選實(shí)施例,通過(guò)確定語(yǔ)音信號(hào)的最大值和確定零相位,即,第一諧波的正的零交叉,從而獲得該相位差。最大值相位和零相位之差為依賴說(shuō)話者的相位差參數(shù)。
在一個(gè)應(yīng)用中,該參數(shù)用作一個(gè)確定窗函數(shù)的基礎(chǔ),諸如凸起余弦窗(raised cosine)或三角形(triangular)窗。優(yōu)選地,窗函數(shù)位于相位角的中央,且該相位角由第一諧波的零相位加上相位差來(lái)確定。優(yōu)選地,該窗函數(shù)在該相位角上具有最大值。例如,選擇的窗函數(shù)關(guān)于該相位角而對(duì)稱。
為了語(yǔ)音合成,通過(guò)窗函數(shù)給雙音素采樣加窗,借此窗函數(shù)和將要加窗的雙音素采樣由相位差進(jìn)行補(bǔ)償。
以這種方式加窗的雙音素采樣被拼接起來(lái)。這樣保存了自然相位信息,從而語(yǔ)音合成的結(jié)果聽起來(lái)宛如自然的一樣。
根據(jù)本發(fā)明的優(yōu)選實(shí)施例,提供指示雙音素和音調(diào)輪廓(contour)的信息。例如,通過(guò)文本到語(yǔ)音系統(tǒng)的語(yǔ)言處理模塊能夠提供這種控制信息。
與其他的時(shí)域疊加方法相比,本發(fā)明特別有益的是,由第一諧波的相位來(lái)同步音調(diào)周期(或音調(diào)脈沖)位置。
通過(guò)對(duì)原始語(yǔ)音信號(hào)的第一諧波進(jìn)行低通濾波并將正的零交叉(zero-crossing)用作零相位指示符來(lái)提取相位信息。通過(guò)這種方式,從而避免了相位不連續(xù)的假象(artifact)而不改變?cè)嫉南辔恍畔ⅰ?br>
本發(fā)明語(yǔ)音合成方法和語(yǔ)音合成設(shè)備的應(yīng)用包括電信服務(wù)、語(yǔ)言教育、幫助殘疾人、會(huì)說(shuō)話的書籍和玩具、語(yǔ)音監(jiān)控、多媒體、人機(jī)通信。
通過(guò)參考以下附圖更詳細(xì)描述了本發(fā)明的以下優(yōu)選實(shí)施例,其中圖1示例了在第一諧波上確定雙音素之間相位差的方法流程圖;圖2示出了圖1的方法的一個(gè)應(yīng)用實(shí)例的信號(hào)圖;圖3示例了用于合成語(yǔ)音的本發(fā)明方法的一個(gè)實(shí)施例;圖4示出了圖3的方法的一個(gè)應(yīng)用實(shí)例;圖5示例了用于處理自然語(yǔ)音的本發(fā)明的一個(gè)應(yīng)用;圖6示例了用于文本到語(yǔ)音的轉(zhuǎn)換的本發(fā)明的一個(gè)應(yīng)用;圖7為包含語(yǔ)音信息的文件的一個(gè)實(shí)例;圖8為從圖7的文件中提取的包含雙音素信息的文件的一個(gè)實(shí)例;圖9示例了處理圖7和8的文件的結(jié)果;圖10示出了根據(jù)本發(fā)明的語(yǔ)音分析和合成設(shè)備的方框圖。
具體實(shí)施例方式
圖1的流程圖示例了根據(jù)本發(fā)明的語(yǔ)音分析的方法。在步驟101輸入自然語(yǔ)音。為了輸入自然語(yǔ)音,能夠使用公知的無(wú)意義(nonesense)單詞的訓(xùn)練序列。在步驟102從自然語(yǔ)音中提取雙音素。該雙音素從自然語(yǔ)音中截取并且包括從一個(gè)音素到另一個(gè)音素的轉(zhuǎn)變。
在下一步驟103,對(duì)至少一個(gè)雙音素進(jìn)行低通濾波以包含雙音素的第一諧波。該第一諧波為一個(gè)依賴說(shuō)話者的特征,并且該特征在記錄過(guò)程中保持為常量。
在步驟104確定第一諧波和雙音素之間的相位差。同時(shí),該相位差為說(shuō)話者專門的聲音參數(shù)。該參數(shù)對(duì)于語(yǔ)音合成是有用的,正如將參考圖3到圖10詳細(xì)說(shuō)明的那樣。
圖2示例了一種確定第一諧波和雙音素之間相位差的方法(比較圖1的步驟4)。從自然語(yǔ)音中獲取的聲波201形成了分析的基礎(chǔ)。以大約為150Hz的截止頻率對(duì)聲波201進(jìn)行低通濾波,以獲得聲波201的第一諧波202。第一諧波202的正的零交叉將相位角定義為零。如圖2所示的第一諧波202涵蓋了數(shù)量為19的連續(xù)完整周期。在這里考慮的實(shí)例中,周期的持續(xù)時(shí)間從周期1到周期19輕微地增加。對(duì)于其中的一個(gè)周期,確定該周期內(nèi)聲音波形201的局部最大值。
例如,周期1內(nèi)聲波201的局部最大值為最大值203。周期1內(nèi)最大值203的相位在圖2中表示為max。周期1的max和零相位0之間的相位差Δ為取決于說(shuō)話者的參數(shù)。在這里考慮的實(shí)例中,該相位差大約為0.3π。應(yīng)該注意到該相位差大致為一個(gè)常量,而不考慮使用哪一個(gè)最大值來(lái)確定該相位差。但是,優(yōu)選地為這種測(cè)量選擇一個(gè)具有明顯最大能量位置的周期。例如,如果使用周期9內(nèi)的最大值204執(zhí)行該分析,產(chǎn)生的相位差大約與周期1的相位差相同。
圖3示例了本發(fā)明的語(yǔ)音合成方法的一種應(yīng)用。在步驟301通過(guò)在0+Δ處具有最大值的窗函數(shù),給已經(jīng)從自然語(yǔ)音中獲得的雙音素加窗;例如,能夠選擇一個(gè)相對(duì)于相位0+Δ而言居于中央的凸起余弦。
通過(guò)這種方式在步驟302提供了雙音素的音調(diào)鐘形波(pitchbell)。在步驟303輸入語(yǔ)音信息。該信息為已經(jīng)從自然語(yǔ)音或文本到語(yǔ)音系統(tǒng)中獲得的信息,諸如這種文本到語(yǔ)音系統(tǒng)的語(yǔ)言處理模塊。
根據(jù)語(yǔ)音信息選擇音調(diào)鐘形波。例如,語(yǔ)音信息包含雙音素和要合成的音調(diào)輪廓的信息。在本例中,在步驟304相應(yīng)地選擇音調(diào)鐘形波,從而在步驟305音調(diào)鐘形波的拼接產(chǎn)生了在步驟306中想要的語(yǔ)音輸出。
圖3的方法的一種應(yīng)用通過(guò)圖4中的實(shí)例來(lái)示出。圖4示出了包含大量雙音素的聲波401。上述參考圖1和圖2來(lái)說(shuō)明的分析應(yīng)用于聲波401,以便為每個(gè)音調(diào)間隔獲得零相位0。如在圖2的實(shí)例中,零相位0從音調(diào)間隔內(nèi)的相位最大值max中補(bǔ)償大致為常量的Δ相位角。
凸起余弦402用于給聲波401加窗。凸起余弦402相對(duì)于相位0+Δ而言居于中央。通過(guò)凸起余弦402為聲波401加窗提供了連續(xù)的音調(diào)鐘形波403。通過(guò)這種方式,聲波401的雙音素波形被分隔為這鐘連續(xù)的音調(diào)鐘形波403。通過(guò)凸起余弦從兩個(gè)相鄰周期中獲得該音調(diào)鐘形波403,其中該余弦位于相位0+Δ的中央。使用凸起余弦而不是矩形函數(shù)的優(yōu)點(diǎn)是,余弦的邊緣平滑。應(yīng)該注意到通過(guò)以相同的順序疊加所有的音調(diào)鐘形脈沖403使該操作是可逆的;這差不多產(chǎn)生了原始的聲波401。
通過(guò)重復(fù)或跳過(guò)音調(diào)鐘形波403和/或彼此相對(duì)接近或遠(yuǎn)離音調(diào)鐘形波403能夠改變聲波401的持續(xù)時(shí)間,從而改變了音調(diào)。通過(guò)以高于原始音調(diào)的音調(diào)來(lái)重復(fù)相同的音調(diào)鐘形波403的方式合成該聲波404,以便增加聲波401的原始音調(diào)。應(yīng)該注意到,由于之前所執(zhí)行的窗操作考慮到了特征相位差Δ,因此相位由于該疊加操作的結(jié)果而保持了節(jié)拍。通過(guò)這種方式,能夠使用音調(diào)鐘形波403作為構(gòu)造塊以合成準(zhǔn)自然的語(yǔ)音。
圖5示例了處理自然語(yǔ)音的一種應(yīng)用。在步驟501輸入已知說(shuō)話者的自然語(yǔ)音。這對(duì)應(yīng)于圖4所示的輸入聲波401的操作。通過(guò)凸起余弦402(比較圖4)或另一個(gè)合適的窗函數(shù)給自然語(yǔ)音加窗,該窗函數(shù)相對(duì)于零相位0+Δ而言位于中央。
通過(guò)這種方式,自然語(yǔ)音被分解為步驟503所提供的音調(diào)鐘形波(比較圖4的音調(diào)鐘形波403)。
在步驟504,步驟503中提供的音調(diào)鐘形波用作語(yǔ)音合成的“構(gòu)造塊”。一種處理方法是,使得音調(diào)鐘形波不發(fā)生變化,而忽略一定的音調(diào)鐘形波或重復(fù)一定的音調(diào)鐘形波。例如,如果每四個(gè)音調(diào)鐘形波就忽略一個(gè)音調(diào)鐘形波,這將語(yǔ)音速度提高25%,而不會(huì)改變語(yǔ)音的聲音。同理,通過(guò)重復(fù)一定的音調(diào)鐘形波能夠降低語(yǔ)音的速度。
可選擇地或另外地,為了增加或減小音調(diào)而修改音調(diào)鐘形波之間的距離。
在步驟505對(duì)處理的音調(diào)鐘形波進(jìn)行疊加,以便產(chǎn)生聽起來(lái)宛如準(zhǔn)自然的合成語(yǔ)音波形。
圖6示例了本發(fā)明的另一個(gè)應(yīng)用。在步驟601提供語(yǔ)音信息。該語(yǔ)音信息包括音素、音素的持續(xù)時(shí)間和音調(diào)信息。并通過(guò)現(xiàn)有技術(shù)的文本到語(yǔ)音處理系統(tǒng)從文本中產(chǎn)生這種語(yǔ)音信息。
在步驟602,從在步驟601提供的該語(yǔ)音信息中提取雙音素。在步驟603,基于步驟601提供的信息,確定時(shí)間軸上所需要的雙音素的位置和音調(diào)輪廓。
在步驟604,根據(jù)在步驟603確定的定時(shí)和音調(diào)需求來(lái)選擇音調(diào)鐘形波。拼接所選的音調(diào)鐘形波以在步驟605提供準(zhǔn)自然的語(yǔ)音輸出。
進(jìn)一步通過(guò)圖7到9所示的實(shí)例來(lái)描述該處理過(guò)程。
圖7示出了句子“HELLO WORLD(世界你好)!”的語(yǔ)音轉(zhuǎn)錄(phonetic transcription)。第一欄701的轉(zhuǎn)錄包括SAMPA標(biāo)準(zhǔn)標(biāo)注法中的音素。第二欄702以千分之一秒來(lái)指示各個(gè)音素的持續(xù)時(shí)間。第三欄包括音調(diào)信息。音調(diào)變化以兩個(gè)量來(lái)表示位置,如音素持續(xù)時(shí)間的百分比,以及音調(diào)頻率,單位Hz。
該合成以查詢先前所生成的雙音素?cái)?shù)據(jù)庫(kù)開始。雙音素從實(shí)際語(yǔ)音截取并包括從一個(gè)音素到另一個(gè)音素的轉(zhuǎn)變。用于特定語(yǔ)言的所有可能的音素組合必須與類似音素邊界的一些額外信息一起存儲(chǔ)在該數(shù)據(jù)庫(kù)中。如果有多個(gè)不同說(shuō)話者的數(shù)據(jù)庫(kù),選擇特定的說(shuō)話者能夠成為合成器的一個(gè)額外輸入。
圖8示出了句子“HELLO WORLD(世界你好)!”的雙音素,即圖7中701欄的所有音素轉(zhuǎn)變。
圖9示處了音素邊界、雙音素邊界的位置和要合成的音調(diào)周期位置的計(jì)算結(jié)果。通過(guò)加上音素持續(xù)時(shí)間來(lái)計(jì)算音素邊界。例如,在靜默100毫秒之后開始音素“h”。在155毫秒即100毫秒+55毫秒之后開始音素“schwa”,等等。
從數(shù)據(jù)庫(kù)中檢索雙音素邊界作為音素持續(xù)時(shí)間的百分比。各個(gè)音素以及雙音素的位置在圖9中都以上面的框圖901表示,其中指示了雙音素的開始點(diǎn)。并根據(jù)欄702所給的音素持續(xù)時(shí)間和欄703中所給的音素持續(xù)時(shí)間百分比計(jì)算該開始點(diǎn)。
圖9中的框圖902示出了“HELLO WORLD!”的音調(diào)輪廓。該音調(diào)輪廓是根據(jù)欄703(比較圖7)中包含的音調(diào)信息來(lái)確定的。例如,如果當(dāng)前音調(diào)位置在0.25秒,那么音調(diào)周期就會(huì)位于第一‘1’音素的50%處。相應(yīng)的音調(diào)位于133和139Hz之間。下面線性方程能夠計(jì)算該音調(diào)(0.8·63+0.5·64)·133+(0.2·128+0.5·64)·1390.8·63+64+0.2·128=135.5Hz----(1)]]>下一音調(diào)位置將位于0.2500+1/135.5=0.2574秒。而且還有可能使用非線性函數(shù)(如ERB速率比例)用于上述計(jì)算。ERB(等價(jià)于矩形帶寬)為一種從心理聲學(xué)(Glasberg和Moore,1990年)測(cè)量所得出的比例,并通過(guò)考慮人耳的掩蔽屬性給出了較好的表示法。頻率到ERB轉(zhuǎn)換的公式是
ERB(f)=21.4log10(4.37·f) (2)其中f為頻率,單位kHz。原理是ERB速率比例中的音調(diào)變化可由人耳感知為線性變化。
應(yīng)該注意到即使無(wú)聲部分沒(méi)有音調(diào),但無(wú)聲的區(qū)域還以音調(diào)周期位置來(lái)標(biāo)記。
變化的音調(diào)由框圖902的音調(diào)輪廓給出,還在框圖901內(nèi)通過(guò)垂直線903所示例,這些線具有變化的距離。兩條線903之間的距離越大,音調(diào)則越低??驁D901和902中所給出的音素、雙音素和音調(diào)信息是用于要合成的語(yǔ)音的規(guī)格。雙音素采樣,即音調(diào)鐘形波(比較圖4中的音調(diào)鐘形波403)來(lái)自雙音素?cái)?shù)據(jù)庫(kù)。對(duì)于每一個(gè)雙音素,用于該雙音素的大量的這種音調(diào)鐘形波,與大量的音調(diào)鐘形波拼接起來(lái),這些鐘形波對(duì)應(yīng)于雙音素的持續(xù)時(shí)間,音調(diào)鐘形波之間的距離對(duì)應(yīng)于如框圖902中的音調(diào)輪廓給出的所需的音調(diào)頻率。
拼接所有音調(diào)鐘形波的結(jié)果是準(zhǔn)自然合成的語(yǔ)音。這是因?yàn)?,在雙音素邊界與相位有關(guān)的不連續(xù)性通過(guò)本發(fā)明予以防止。與現(xiàn)有技術(shù)相比,這種不連續(xù)性是不可避免的,這是因?yàn)橐粽{(diào)周期的相位不匹配。
而且,韻律(prosody)(音調(diào)/持續(xù)時(shí)間)是正確的,因?yàn)槊總€(gè)雙音素兩側(cè)的持續(xù)時(shí)間已經(jīng)正確地調(diào)整了。另外,音調(diào)匹配了所要的音調(diào)輪廓函數(shù)。
圖10示出了諸如個(gè)人計(jì)算機(jī)的一個(gè)設(shè)備950,該設(shè)備已經(jīng)被編程用來(lái)實(shí)現(xiàn)本發(fā)明。設(shè)備950具有用于確定特征相位差Δ的語(yǔ)音分析模塊951。為此目的,語(yǔ)音分析模塊951包括一個(gè)存儲(chǔ)器952,用于存儲(chǔ)一個(gè)雙音素語(yǔ)音波。為了獲得不變的相位差Δ,只有一個(gè)雙音素就足夠了。
而且,語(yǔ)音分析模塊951包括一個(gè)低通濾波模塊953。低通濾波模塊953具有大約150Hz的截止頻率,或者其他合適的截止頻率,以便過(guò)濾出存儲(chǔ)器952中存儲(chǔ)的雙音素的第一諧波。
設(shè)備950的模塊954用于確定雙音素一定周期內(nèi)的最大能量位置和它的第一諧波零相位位置之間的距離(該距離被轉(zhuǎn)換為相位差Δ)。這能夠通過(guò)確定第一諧波正零交叉所給出的零相位和該諧波周期內(nèi)雙音素的最大值之間的相位差來(lái)實(shí)現(xiàn),如圖2的實(shí)例中所示。
作為語(yǔ)音分析的結(jié)果,語(yǔ)音分析模塊951提供了特征相位差Δ,因此為數(shù)據(jù)庫(kù)中的所有雙音素提供了周期位置(例如,在該位置上,凸起余弦窗位于中央以得到該音調(diào)鐘形波)。相位差Δ存儲(chǔ)在存儲(chǔ)器955中。
設(shè)備950還具有一個(gè)語(yǔ)音合成模塊956。該語(yǔ)音合成模塊956具有一個(gè)存儲(chǔ)音調(diào)鐘形波即雙音素采樣的存儲(chǔ)器957,該采樣已經(jīng)由如圖2所示的窗函數(shù)加窗。應(yīng)該注意到,存儲(chǔ)器957不必必須為音調(diào)鐘形波。全部的雙音素都能夠以周期位置信息來(lái)存儲(chǔ),或者能夠使得雙音素單調(diào)為不變的音調(diào)。通過(guò)這種方式,有可能使用合成模塊中的窗函數(shù)從數(shù)據(jù)庫(kù)中提取音調(diào)鐘形波。
模塊958用于選擇音調(diào)鐘形波并且使音調(diào)鐘形波適于所要求的音調(diào)。這是基于提供給模塊958的控制信息完成的。
模塊959用于拼接在模塊958中所選擇的音調(diào)鐘形波以通過(guò)模塊960提供語(yǔ)音輸出。
附圖標(biāo)記列表聲波 201第一諧波 202最大值 203最大值 204聲波 401凸起余弦 402音調(diào)鐘形波 403聲波 404欄 701欄 702欄 703圖 901圖 902設(shè)備 950語(yǔ)音分析模塊 951存儲(chǔ)器 952低通濾波模塊 953模塊 954存儲(chǔ)器 955語(yǔ)音合成模塊 956存儲(chǔ)器 957模塊 958模塊 959模塊 960
權(quán)利要求
1.一種用于分析語(yǔ)音的方法,該方法包括以下步驟-輸入一個(gè)語(yǔ)音信號(hào),-獲得該語(yǔ)音信號(hào)的第一諧波,-確定語(yǔ)音信號(hào)和第一諧波之間的相位差(Δ)。
2.根據(jù)權(quán)利要求1所述的方法,所述確定相位差的步驟包括以下步驟-確定語(yǔ)音信號(hào)最大值的位置,-確定語(yǔ)音信號(hào)的第一諧波的最大值和零相位之間的相位差。
3.根據(jù)權(quán)利要求1或2所述的方法,其中語(yǔ)音信號(hào)為雙音素信號(hào)。
4.一種用于合成語(yǔ)音的方法,該方法包括以下步驟-選擇加窗的雙音素采樣,該雙音素采樣通過(guò)相對(duì)于相位角而言位于中央的窗函數(shù)進(jìn)行加窗,其中通過(guò)語(yǔ)音信號(hào)和語(yǔ)音信號(hào)的第一諧波之間的相位差來(lái)確定該相位角,-拼接所選的加窗雙音素采樣。
5.根據(jù)權(quán)利要求4所述的方法,該語(yǔ)音信號(hào)為雙音素信號(hào)。
6.根據(jù)權(quán)利要求4或5所述的方法,該窗函數(shù)為凸起余弦或三角形窗。
7.根據(jù)權(quán)利要求4、5或6的任意一個(gè)所述的方法,還包括輸入指示雙音素和音調(diào)輪廓的信息,該信息形成了選擇加窗雙音素采樣的基礎(chǔ)。
8.根據(jù)權(quán)利要求4到7中任何一個(gè)所述的方法,其中從一個(gè)文本到語(yǔ)音系統(tǒng)的語(yǔ)言處理模塊提供該信息。
9.根據(jù)權(quán)利要求4到8中任何一個(gè)所述的方法,還包括-輸入語(yǔ)音,-通過(guò)窗函數(shù)給語(yǔ)音加窗以獲得該加窗的雙音素采樣。
10.一種用于執(zhí)行根據(jù)上述權(quán)利要求1到9的任意之一所述方法的計(jì)算機(jī)程序產(chǎn)品。
11.一種語(yǔ)音分析設(shè)備,包括-用于輸入語(yǔ)音信號(hào)的裝置,-用于獲得語(yǔ)音信號(hào)的第一諧波的裝置,-用于確定語(yǔ)音信號(hào)和第一諧波之間的相位差(Δ)的裝置。
12.根據(jù)權(quán)利要求11所述的語(yǔ)音分析設(shè)備,用于確定相位差的裝置適于確定語(yǔ)音信號(hào)的最大值和確定語(yǔ)音信號(hào)的零相位(0),以便確定該語(yǔ)音信號(hào)的最大值和零相位之間的相位差。
13.根據(jù)權(quán)利要求11或12所述的語(yǔ)音分析設(shè)備,其中該語(yǔ)音信號(hào)為雙音素信號(hào)。
14.一種語(yǔ)音合成設(shè)備,包括-用于選擇加窗的雙音素采樣的裝置,該雙音素采樣通過(guò)相對(duì)于相位角而言位于中央的窗函數(shù)進(jìn)行加窗,其中該相位角通過(guò)語(yǔ)音信號(hào)和該語(yǔ)音信號(hào)的第一諧波之間的相位差來(lái)確定,-用于拼接所選的加窗雙音素信號(hào)的裝置。
15.根據(jù)權(quán)利要求14所述的語(yǔ)音合成設(shè)備,其中該語(yǔ)音信號(hào)為雙音素信號(hào)。
16.根據(jù)權(quán)利要求14或15所述的語(yǔ)音合成設(shè)備,其中該窗函數(shù)為凸起余弦或三角形窗。
17.根據(jù)權(quán)利要求14、15或16所述的語(yǔ)音合成設(shè)備,還包括用于輸入指示雙音素和音調(diào)輪廓信息的裝置,以及用于選擇加窗雙音素的裝置適于根據(jù)該信息執(zhí)行選擇操作。
18.一種文本到語(yǔ)音系統(tǒng),包括-用于提供指示雙音素和音調(diào)輪廓信息的語(yǔ)言處理裝置,-語(yǔ)音合成裝置,包括用于根據(jù)該信息選擇加窗的雙音素采樣的裝置,其中該雙音素采樣通過(guò)相對(duì)于相位角而言位于中央的窗函數(shù)進(jìn)行加窗,并且所述相位角通過(guò)語(yǔ)音信號(hào)和該語(yǔ)音信號(hào)的第一諧波之間的相位差來(lái)確定,以及用于拼接所選的加窗雙音素采樣的裝置。
19.根據(jù)權(quán)利要求18所述的文本到語(yǔ)音系統(tǒng),其中該窗函數(shù)為凸起余弦或三角形窗。
20.一種語(yǔ)音處理系統(tǒng)包括-用于輸入包括自然語(yǔ)音信號(hào)的信號(hào)的裝置,-用于通過(guò)窗函數(shù)給自然語(yǔ)音信號(hào)加窗以提供加窗的雙音素采樣的裝置,所述窗函數(shù)相對(duì)于相位角而言位于中央,其中所述相位角通過(guò)語(yǔ)音信號(hào)和該語(yǔ)音信號(hào)第一諧波之間的相位差來(lái)確定,-用于處理該加窗的雙音素采樣的裝置,-用于拼接所選的加窗雙音素采樣的裝置。
全文摘要
本發(fā)明涉及一種分析語(yǔ)音的方法,該方法包括以下步驟a)輸入一個(gè)語(yǔ)音信號(hào),b)獲得該語(yǔ)音信號(hào)的第一諧波,c)確定語(yǔ)音信號(hào)和第一諧波之間的相位差Df。
文檔編號(hào)G10L13/06GK1647152SQ03808627
公開日2005年7月27日 申請(qǐng)日期2003年4月1日 優(yōu)先權(quán)日2002年4月19日
發(fā)明者E·F·吉吉 申請(qǐng)人:皇家飛利浦電子股份有限公司