亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音調(diào)原型波形借助于時間同步波形內(nèi)插的語音合成的制作方法

文檔序號:2822014閱讀:228來源:國知局
專利名稱:音調(diào)原型波形借助于時間同步波形內(nèi)插的語音合成的制作方法
背景技術(shù)
I.發(fā)明領(lǐng)域本發(fā)明總體涉及語音處理領(lǐng)域,具體來說,涉及一種音調(diào)原型波形借助于時間同步波形內(nèi)插(TSWI)的語音合成方法和裝置。
II.技術(shù)背景利用數(shù)字技術(shù)進(jìn)行的話音傳輸業(yè)已得到推廣,尤其在長距離數(shù)字無線電話應(yīng)用中更是如此。這進(jìn)而在維持所覺察的重建語音質(zhì)量的同時確定可在一個信道上發(fā)送的最低信息量方面產(chǎn)生興趣。若語音通過簡單的取樣和數(shù)字化發(fā)送,便需要64千位/秒(kbps)量級的數(shù)據(jù)速率來實現(xiàn)現(xiàn)有模擬電話的語音質(zhì)量。但通過利用語音合成,并接著進(jìn)行相應(yīng)的編解碼、傳輸以及接收機(jī)處的重新合成,可實現(xiàn)數(shù)據(jù)速率顯著的縮減。
采用提取涉及人類語音生成模型的參數(shù)的技術(shù)來壓縮語音的器件便是所說的語音編解碼器。語音編解碼器將來向語音信號分成時間塊或分析幀。語音編解碼器通常包括一編碼器和一解碼器,或一編碼解碼器。該編碼器分析該來向語音幀以提取某種相關(guān)參數(shù),接著將參數(shù)量化為二進(jìn)制表現(xiàn)形式,即一組數(shù)字位或一二進(jìn)制數(shù)據(jù)分組。該數(shù)據(jù)分組經(jīng)通信信道發(fā)送給一接收機(jī)和一解碼器。該解碼器處理此數(shù)據(jù)分組,對它們?nèi)チ炕陨蓞?shù),接著利用去量化的參數(shù)重新合成該語音幀。
語音編解碼器的功能是通過消除語音中固有的全部自然冗余,將經(jīng)過數(shù)字化的語音信號壓縮為一低位速率信號。該數(shù)字壓縮是通過用一組參數(shù)代表所輸入語音幀并采用量化而用一組數(shù)字位代表該參數(shù)來實現(xiàn)的。若所輸入語音幀具有的數(shù)字位位數(shù)為Ni,語音編解碼器所生成的數(shù)據(jù)分組具有的數(shù)字位位數(shù)為No,該語音編解碼器所實現(xiàn)的壓縮因數(shù)便為Cr=Ni/No。挑戰(zhàn)在于在實現(xiàn)目標(biāo)壓縮因數(shù)的同時保持所解碼語音的高話音質(zhì)量。語音編解碼器的性能取決于(1)語音模型或者上面所述分析和合成處理的組合表現(xiàn)如何,以及(2)在每幀No位的目標(biāo)位速率下參數(shù)量化處理表現(xiàn)如何。語音模型的目標(biāo)因而是以每一幀一小組參數(shù)來俘獲語音信號要素或目標(biāo)話音質(zhì)量。
語音編解碼器,若其模型為一時間域模型,便稱為一時域編解碼器。一公知的例子是L.B.Rabiner和R.W.Schafer的《語音信號的數(shù)字處理》396-453(1978)中說明的碼激活線性預(yù)測(CELP)編解碼器,在此全部結(jié)合作為參照。一CELP編解碼器中,靠找出短期共振峰濾波器系數(shù)的線性預(yù)測(LP)分析來消除語音信號中的短期相關(guān)性或冗余。將短期預(yù)測濾波器應(yīng)用到來向語音幀,生成的是一LP余量信號,它進(jìn)一步用長期預(yù)測濾波器參數(shù)和后續(xù)隨機(jī)碼簿來使之模型化和量化。這樣,CELP編解碼器便將時域語音波形的編碼任務(wù)分成對LP短期濾波器系數(shù)進(jìn)行編碼和對LP余量進(jìn)行編碼的諸多分開任務(wù)。目標(biāo)在于生成一種與所輸入語音波形非常相像的經(jīng)過合成的輸出語音波形。要正確保存該時域波形,CELP編解碼器進(jìn)一步將該余量幀分成較小塊或分幀,并對各個分幀繼續(xù)分析一合成方法。這需要每一幀大的數(shù)字位數(shù)目No,因為有許多參數(shù)對每一分幀進(jìn)行量化。每一幀可用的數(shù)字位數(shù)目No對于8kbps以上編解碼位速率來說足夠大時,CELP編解碼器通常傳遞的質(zhì)量便十分出色。
波形內(nèi)插(WI)是一種顯現(xiàn)的語音編解碼技術(shù),其中對每一語音幀用可資利用的數(shù)字位對M數(shù)目的原型波形加以提取和編碼。所輸出的語音是靠某些現(xiàn)有波形內(nèi)插技術(shù)根據(jù)所解碼的原型波形經(jīng)過合成得到的。各種WI技術(shù)在W.Bastiaan Kleijn和Jesper Haagen的《語音編解碼以及合成》176-205(1995)中有所說明,在此全部結(jié)合作為參照。現(xiàn)有的WI技術(shù)還在美國專利U.S.Pat.No.5,517,595中有所說明,在此全部結(jié)合作為參照。但這種現(xiàn)有WI技術(shù)中,為了要傳遞正確結(jié)果,需要每一幀提取超過一個原型波形。而且,不存在對所重組波形提供時間同步的機(jī)制。由于這種原因,所合成的輸出WI波形并不保證與原始的輸入波形調(diào)準(zhǔn)。
目前有一股研究興趣和強(qiáng)烈的商業(yè)需求浪潮來開發(fā)一種工作于中、低位速率(即在2.4至4kbps甚至更低范圍)的高質(zhì)量語音編解碼器。應(yīng)用領(lǐng)域包括無線電話、衛(wèi)星通信、互聯(lián)網(wǎng)電話、種種多媒體以及話音流應(yīng)用、話音郵件以及其他話音存儲系統(tǒng)。驅(qū)動力是對高容量的需求和在分組丟失情形下對穩(wěn)健性能的需要。近來種種語音編解碼標(biāo)準(zhǔn)化努力是推進(jìn)低速率語音編解碼算法研發(fā)的另一直接驅(qū)動力。低速率語音編解碼器對每一允許的應(yīng)用帶寬創(chuàng)造出更多信道或用戶,與適當(dāng)?shù)男诺谰幗獯a的附加層相耦連的低速率語音編解碼器可適應(yīng)編解碼器規(guī)范中的全部位預(yù)算,并在信道差錯狀況下給予一穩(wěn)健性能。
但在低速率(4kbps甚至更低)情況下,諸如CELP編解碼器這種時域編解碼器由于有限數(shù)目的可資利用數(shù)字位而未能保留高質(zhì)量和穩(wěn)健性能。在低位速率情況下,該有限的碼簿空間夾帶有已相當(dāng)成功地配置在較高速率商業(yè)應(yīng)用中的現(xiàn)有時域編解碼器的波形比對能力。
在低位速率高效地進(jìn)行語音編碼的一種高效技術(shù)是多模式編解碼。多模式編解碼器將不同模式或編碼—解碼算法應(yīng)用于不同類型的輸入語音幀。每一模式或編碼—解碼處理定制為以最高效方式表現(xiàn)某種類型的語音分段(即帶有話音、無話音、或背景噪聲)。一外部模式判定機(jī)制對所輸入的語音幀進(jìn)行檢查,并判定哪一模式適用于該語音幀。通常,這種模式判定是這樣來完成的,即按開環(huán)方式通過從所輸入幀當(dāng)中提取若干參數(shù)并對它們進(jìn)行評估以判定哪一模式適用。這樣,完成該模式判定時預(yù)先并不知道所輸出語音的實際狀況,即不知道所輸出語音按話音質(zhì)量或任何其他性能量度來說將會與所輸入語音相似到何種程度。一語音編解碼器的示范性開環(huán)模式判定在轉(zhuǎn)讓給本發(fā)明受讓人、并在此全部結(jié)合作為參照的美國專利U.S.Pat.No.5,414,796中有所說明。
多模式編解碼可以是每一幀采用相同位數(shù)No的固定速率,或者是對不同模式采用不同位速率的可變速率??勺兯俾示幗獯a的目標(biāo)是僅采用將編碼解碼器參數(shù)編碼到足以獲得目標(biāo)質(zhì)量的水平上所需的數(shù)字位數(shù)量。結(jié)果是,采用可變位速率(VBR)技術(shù)在一顯著較低的平均速率上可獲得與固定速率相同的目標(biāo)話音質(zhì)量、更高速率的編解碼器。一示范性可變速率語音編解碼器在轉(zhuǎn)讓給本發(fā)明受讓人、并且先前在此全部結(jié)合作為參照的美國專利U.S.Pat.No.5,414,796中有所說明。
帶話音的語音分段視為準(zhǔn)周期性,其中這種分段可分解為諸多音調(diào)原型,或者是其長度L(n)象音調(diào)或周期性基頻隨時間變化那樣隨時間變化的小分段,或者是具有強(qiáng)相關(guān)度即它們彼此極為相似的音調(diào)原型。這尤其對相鄰音調(diào)原型來說是真實的。這有利于設(shè)計在低平均速率提供高話音質(zhì)量以便用低速率模式來表現(xiàn)準(zhǔn)周期性帶話音的語音分段的高效多模式VBR編解碼器。
希望能提供一種表現(xiàn)語音帶有準(zhǔn)周期性話音的分段的語音模型或分析—合成方法。還會有利于設(shè)計一種提供高質(zhì)量合成從而生成具有高話音質(zhì)量的語音的模型。還會希望該模型具有一小組參數(shù)以便適應(yīng)用一小組數(shù)字位進(jìn)行編碼。這樣,便需求一種需要最小編碼位數(shù)量來產(chǎn)生高質(zhì)量語音合成的帶話音語音分段的時間同步波形內(nèi)插方法。
發(fā)明概述本發(fā)明涉及一種需要最小編碼位數(shù)量來產(chǎn)生高質(zhì)量語音合成的帶話音語音分段的時間同步波形內(nèi)插方法。因而,本發(fā)明的一個方面,是一種用音調(diào)原型波形借助于時間同步波形內(nèi)插的語音合成方法,較為有利地包括下列步驟從一信號當(dāng)中每一幀提取至少一個音調(diào)原型;對所提取的音調(diào)原型加上一相對于前一次提取的音調(diào)原型的相移;就該幀內(nèi)每一取樣點對音調(diào)原型進(jìn)行過取樣(upsample);構(gòu)建一個二維原型展開表面;以及對二維表面重新取樣以產(chǎn)生一維合成的信號幀,該重新取樣點由逐段連續(xù)立方相位輪廓函數(shù)(cubic phase contour function)定義,該相位輪廓函數(shù)是根據(jù)音調(diào)滯后和加到所提取的音調(diào)原型上的調(diào)準(zhǔn)相移計算得到的。
本發(fā)明另一方面,是一種用音調(diào)原型波形借助于時間同步波形內(nèi)插的語音合成裝置,較為有利地包括從一信號當(dāng)中每一幀提取至少一個音調(diào)原型的裝置;對所提取的音調(diào)原型加上一相對于前一次提取的音調(diào)原型的相移的裝置;就該幀內(nèi)每一取樣點對音調(diào)原型進(jìn)行過取樣的裝置;構(gòu)建一個二維原型展開表面的裝置;以及對二維表面重新取樣以產(chǎn)生一維合成的信號幀的裝置,該重新取樣點由逐段連續(xù)立方相位輪廓函數(shù)定義,該相位輪廓函數(shù)是根據(jù)音調(diào)滯后和加到所提取的音調(diào)原型上的調(diào)準(zhǔn)相移計算得到的。
本發(fā)明另一方面,是一種用音調(diào)原型波形借助于時間同步波形內(nèi)插的語音合成裝置,較為有利地包括配置為從一信號當(dāng)中每一幀提取至少一個音調(diào)原型的模塊;配置為對所提取的音調(diào)原型加上一相對于前一次提取的音調(diào)原型的相移的模塊;配置為就該幀內(nèi)每一取樣點對音調(diào)原型進(jìn)行過取樣的模塊;配置為構(gòu)建一個二維原型展開表面的模塊;以及配置為對二維表面重新取樣以產(chǎn)生一維合成的信號幀的模塊,該重新取樣點由逐段連續(xù)立方相位輪廓函數(shù)定義,該相位輪廓函數(shù)是根據(jù)音調(diào)滯后和加到所提取的音調(diào)原型上的調(diào)準(zhǔn)相移計算得到的。
附圖簡要說明

圖1是語音編解碼器在各端形成終端的通信信道的框圖。
圖2是一編碼器的框圖。
圖3是一解碼器的框圖。
圖4A-4C分別是信號幅度與離散時間指數(shù)之間關(guān)系的曲線圖,所提取的原型幅度與離散時間指數(shù)之間關(guān)系的曲線圖,以及TSWI重建信號幅度與離散時間指數(shù)之間關(guān)系的曲線圖。
圖5是示意一音調(diào)原型波形借助于時間同步波形內(nèi)插(TSWI)的語音合成裝置的功能框圖。
圖6A是所遮蔽的立方相位輪廓與離散時間指數(shù)之間關(guān)系的曲線圖,而圖6B則是所重建語音信號幅度與圖6A中所重疊曲線圖之間關(guān)系的曲線圖。
圖7是未遮蔽的二次及立方相位輪廓與離散時間指數(shù)之間關(guān)系的曲線圖。
較佳實施例的詳細(xì)說明圖1中,第一編碼器10接收經(jīng)數(shù)字化的語音取樣s(n),并對取樣s(n)編碼以便在傳輸介質(zhì)12或通信鏈路12上傳輸至第一解碼器14。解碼器14對經(jīng)過編碼的語音取樣進(jìn)行解碼,并合成一輸出語音信號SSYNTH(n)。為了在相反方向上傳輸,第二編碼器16對通信信道18上發(fā)送的經(jīng)過數(shù)字化的語音取樣s(n)進(jìn)行編碼。第二解碼器20對經(jīng)過編碼的語音取樣進(jìn)行接收和解碼,生成一合成的輸出語音信號SSYNTH(n)。
語音取樣s(n)表示那些已按照包括例如脈沖碼調(diào)制(PCM)、經(jīng)壓擴(kuò)μ律或A律在內(nèi)的本領(lǐng)域公知的某些不同方法經(jīng)過數(shù)字化和量化的語音信號。如本領(lǐng)域所知,語音取樣s(n)組成為輸入數(shù)據(jù)幀,其中各幀包括一預(yù)定數(shù)目的數(shù)字化語音取樣s(n)。一示范性實施例中,采用的是8kHz的取樣速率,每一20ms的幀包括160個取樣。下面說明的實施例中,數(shù)據(jù)傳輸速率可較為有利地以逐幀方式從8kbps(全速率)變化為4kbps(半速率)再變化為2kbps(四分速率)最后變化為1kbps(八分速率)。使數(shù)據(jù)傳輸速率變化較為有利,這是因為可對包含相對較少語音信息的各幀有選擇地采用較低位速率。如本領(lǐng)域技術(shù)人員所理解的那樣,可采用其他取樣速率、幀大小以及數(shù)據(jù)傳輸速率。
第一編碼器10和第二解碼器20一起包括第一語音編解碼器或語音編碼解碼器。同樣,第二編碼器16和第一解碼器14一起包括第二語音編解碼器。本領(lǐng)域技術(shù)人員可理解,語音編解碼器可由數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、分立門邏輯、固件、或任何現(xiàn)有可編程軟件模塊和微處理器來實施。軟件模塊可駐留于RAM存儲器、快閃存儲器、寄存器、或本領(lǐng)域已知的任何其他形式的可寫入存儲介質(zhì)。要么對微處理器可用任何現(xiàn)有的處理器、控制器或狀態(tài)機(jī)來替代。轉(zhuǎn)讓給本發(fā)明受讓人并在此全部結(jié)合作為參照的美國專利U.S.Pat.No.5,727,123和轉(zhuǎn)讓給本發(fā)明受讓人并在此全部結(jié)合作為參照、于1994年2月16日申請的發(fā)明名稱為《聲碼器專用集成電路(ASIC)》的美國專利申請U.S.Ser.No.08/197,417中說明了專門設(shè)計用于語音編解碼的示范性ASIC。
圖2中可用于語音編解碼器的編碼器100包括一模式判定模塊102、音調(diào)估計模塊104、LP分析模塊106、LP分析濾波器108、LP量化模塊110以及余量量化模塊112。輸入語音幀s(n)提供給模式判定模塊102、音調(diào)估計模塊104、LP分析模塊106以及LP分析濾波器108。模式判定模塊102根據(jù)各個輸入語音幀s(n)的周期性生成一模式指數(shù)IM和一模式M。轉(zhuǎn)讓給本發(fā)明受讓人并在此全部結(jié)合作為參照、于1997年3月11日申請的發(fā)明名稱為《執(zhí)行減速率可變速率聲碼變換的方法和裝置》的美國專利申請U.S.Ser.No.08/815,354中說明了根據(jù)周期性對語音幀分類的種種方法。這些方法還結(jié)合進(jìn)電信業(yè)協(xié)會業(yè)界過渡標(biāo)準(zhǔn)TIA/EIA IS-127和TIA/EIA IS-733。
音調(diào)估計模塊104根據(jù)各個輸入語音幀s(n)生成音調(diào)指數(shù)IP和滯后值P0。LP分析模塊106對各個輸入語音幀s(n)執(zhí)行線性預(yù)測分析來生成一LP參數(shù)α。該LP參數(shù)α提供給LP量化模塊110。該LP量化模塊110還接收模式M。LP量化模塊110生成一LP指數(shù)ILP和一經(jīng)過量化的LP參數(shù)α。LP分析濾波器108除了所輸入的語音幀s(n)以外還接收經(jīng)過量化的LP參數(shù)α。LP分析濾波器108生成一LP余量信號R[n],它表示所輸入的語音幀s(n)和經(jīng)過量化的線性預(yù)測參數(shù)α間的誤差。LP余量R[n]、模式M以及經(jīng)過量化的LP參數(shù)α提供給余量量化模塊112。余量量化模塊112根據(jù)上述數(shù)值生成一余量指數(shù)IR和一經(jīng)過量化的余量信號R[n]。
圖3中,可用于語音編解碼器中的解碼器200包括一LP參數(shù)解碼模塊202、余量解碼模塊204、模式解碼模塊206以及LP合成濾波器208。模式解碼模塊206對模式指數(shù)IM進(jìn)行接收和解碼,由此生成一模式M。該LP參數(shù)解碼模塊202接收該模式M和一LP指數(shù)ILP。LP參數(shù)解碼模塊202對所接收的數(shù)值進(jìn)行解碼以生成一經(jīng)過量化的LP參數(shù)α。余量解碼模塊204接收余量指數(shù)IR、音調(diào)指數(shù)IP以及模式指數(shù)IM。余量解碼模塊204對所接收的數(shù)值進(jìn)行解碼以生成一經(jīng)過量化的余量信號R[n]。該經(jīng)過量化的余量信號R[n]和經(jīng)過量化的LP參數(shù)α提供給LP合成濾波器208,由此合成一經(jīng)過解碼的輸出語音信號s[n]。
圖2中編碼器100和圖3中解碼器的種種模塊其工作原理和實施方案在本技術(shù)領(lǐng)域中是公知的。一示范性編碼器和示范性解碼器在前文全部結(jié)合作為參照的美國專利U.S.Pat.No.5,414,796中有所說明。
某一實施例中,通過從當(dāng)前語音幀Scur當(dāng)中提取音調(diào)原型波形,并借助于時間同步波形內(nèi)插(TSWI)由音調(diào)原型波形合成當(dāng)前語音幀,來使語音準(zhǔn)周期性帶話音分段建模。通過對m=1,2,…,M僅提取和保留數(shù)目M個音調(diào)原型波形Wm,且各個音調(diào)原型波形Wm具有長度Lcur,其中Lcur是當(dāng)前語音幀Scur當(dāng)中的當(dāng)前音調(diào)周期,必須編碼的信息量便從N個取樣減少到M和Lcur乘積個數(shù)的取樣??梢越o定數(shù)目M為1的數(shù)值,或給定基于音調(diào)滯后的任意離散值。對較小的Lcur數(shù)值往往需要一較高的M數(shù)值,以防止重建的帶話音信號過度斷續(xù)。一示范性實施例中,若音調(diào)滯后大于60,M則設(shè)定為等于1。否則,M設(shè)定為等于2。M個當(dāng)前原型和距前一幀具有長度L0的最末音調(diào)原型W0,通過采用下面詳細(xì)說明的TSWI技術(shù)用來重建當(dāng)前語音幀的模型代表Scur_model。應(yīng)注意,作為對選擇具有相同長度Lcur的當(dāng)前原型Wm的替代,當(dāng)前原型Wm可代之于具有長度Lm,其中局部音調(diào)周期Lm可通過估計有關(guān)的離散時間位置nm處的真實音調(diào)周期或通過在當(dāng)前音調(diào)周期Lcur和最末音調(diào)周期L0之間應(yīng)用任意的現(xiàn)有內(nèi)插技術(shù)來估計。所用的內(nèi)插技術(shù)可以是例如簡單的線性內(nèi)插Lm=(1-nm/N)*L0+(nm/N)*Lcur其中時間指數(shù)nm是第m分段的中點,m=1,2,…,M。
圖4A-4C曲線圖中示出了上述關(guān)系。圖4A中,示出了信號幅度與離散時間指數(shù)(即取樣數(shù))之間的關(guān)系,幀長度N表示每一幀取樣數(shù)目。實施例中示出的N為160。還示出數(shù)值Lcur(幀中當(dāng)前音調(diào)周期)和L0(前一幀當(dāng)中的最末音調(diào)周期)。應(yīng)指出,信號幅度根據(jù)需要可以是語音信號幅度或余量信號幅度。圖4B中,示出了在M=1情形下原型幅度與離散時間指數(shù)之間的關(guān)系,并給出數(shù)值Wcur(當(dāng)前原型)和W0(前一幀的最末原型)。圖4C曲線圖示出重建信號Scur model在TSWI合成后的幅度與離散時間指數(shù)之間的關(guān)系。
將上述內(nèi)插公式中的中點nm較為有利地選擇為相鄰中點間的距離幾乎相同。舉例來說,M=3,N=160,L0=40以及Lcur=42,得出n0=-20,n3=139,因而n1=33和n2=86,相鄰分段間的距離為[139-(-20)/3]或53。
通過拾取當(dāng)前幀的最末Lcur取樣來提取當(dāng)前幀WM的最末原型。通過拾取中點nm周圍的(Lm)/2取樣來提取其他中間原型Wm。
可通過允許各個原型Wm的動態(tài)偏移Dm來進(jìn)一步改善原型提取,以便可從{nm-0.5*Lm-Dm,nm+0.5*Lm+Dm}范圍內(nèi)拾取任意Lm取樣來構(gòu)成原型。希望在原型邊界處避免高能量分段。數(shù)值Dm可隨m變化,或?qū)γ恳辉凸潭ā?br> 應(yīng)指出,非零的動態(tài)偏移Dm必然會破壞所提取的原型Wm和原始信號之間的時間同步。該問題的一個簡單解決方案是對原型Wm應(yīng)用一循環(huán)偏移,來調(diào)整該動態(tài)偏移引入的偏置。舉例來說,當(dāng)動態(tài)偏移設(shè)定為零時,便在時間指數(shù)n=100處開始原型提取。而當(dāng)適用Dm時,則在n=98處開始原型提取。為了保持該原型和原始信號之間的時間同步,該原型可在提取該原型后向右循環(huán)偏移2個取樣(即100-98個取樣)。
為了避免幀邊界處不匹配,重要的是保持所合成語音的時間同步。因而,希望靠分析—合成處理所合成的語音應(yīng)與輸入語音很好地調(diào)準(zhǔn)。某一實施例中,通過如下面所述明確控制相軌跡的邊界值來實現(xiàn)上述目標(biāo)。而且時間同步對于其中某一模式可以是CELP而另一模式可以是基于原型的分析—合成這種基于線性預(yù)測的多模式語音編解碼器尤其關(guān)鍵。對靠CELP來編解碼的幀來說,若在未時間調(diào)準(zhǔn)或時間同步的情況下靠基于原型的方法對在先幀編解碼的話,便無法利用CELP的分析—合成波形匹配動力。以往波形中所發(fā)生的任何時間同步中斷都會不允許CELP依據(jù)預(yù)測存儲器,這是因為存儲器由于缺乏時間同步而不會與原始語音調(diào)準(zhǔn)。
圖5中的框圖示出按照某一實施例的帶有TSWI的語音合成裝置。從一N規(guī)模的幀開始,在框300中提取長度為L1,L2,…,LM的M個原型W1,W2,…,WM。提取處理中,對每一次提取都用動態(tài)偏移來避免原型邊界處的高能量。接下來,對各個提取的原型應(yīng)用一相應(yīng)的循環(huán)偏移,使所提取的原型和原始信號的相應(yīng)分段間的時間同步為最大。第m個原型Wm具有以k個取樣數(shù)目為指數(shù)的Lm個取樣,即k=1,2,…,Lm。該指數(shù)k可歸一化,并重新映射至新的相位指數(shù)(從0至2變化)???01中采用音調(diào)估計和內(nèi)插來生成音調(diào)滯后。
原型的端點位置分別標(biāo)注為n1,n2,…,nM,其中n1<n2<…<nM=N。現(xiàn)可將原型按照其端點位置表示如下X(n1,)=W1X(n2,)=W2X(n∧1,)=W∧1應(yīng)該理解,X(n0,_)表示前一幀中最末提取的原型,X(n0,_)具有長度L0。還應(yīng)指出,{n1,n2,…,nM}可在當(dāng)前幀上等間距或不等間距。
框302中執(zhí)行調(diào)準(zhǔn)處理,對每一原型X加上一相位偏移以便連續(xù)的原型可最大限度地調(diào)準(zhǔn)。具體來說,W(n1,)=X(n1,+ψ1)W(n2,)=X(n2,+ψ2)W(n∧1,)=X(n∧1,+ψ∧1)其中W表示X的調(diào)準(zhǔn)版本,而調(diào)準(zhǔn)偏移可由下式計算ψi=argmaxψ1=0≤ψ′<2πargmaxZ[X(n1,φ+ψ′),W(ni-1,φ)]i=1,2,...,M.]]>Z[X,M]表示X和W間的跨接相關(guān)性。
M個原型在框303中由任何常規(guī)內(nèi)插技術(shù)過取樣為N個原型。所用的內(nèi)插技術(shù)可以是例如簡單的線性內(nèi)插W(n,φ)=(ni-n)*W(ni-1,φ)+(n-ni-1)*W(ni,φ)ni-ni-1;ni-1<n≤n,i=1,2,...,M]]>N個原型集合W(ni,_),其中i=1,2,…,N,形成了一種如圖6B所示的二維(2-D)原型展開表面。
框304對相軌跡執(zhí)行計算。在波形內(nèi)插過程中,相軌跡_[N]用于將2-D原型展開表面變換回1-D信號。以往這種相位輪廓是以逐個取樣方式采用內(nèi)插的頻率值計算如下Φ[n]=Φ[n-1]+∫n-inF[n′]*dn′]]>其中,n=1,2,…,N。頻率輪廓F[n]可采用內(nèi)插的音調(diào)軌跡來計算,具體來說,F(xiàn)[n]=1/L[n],其中L[n]表示{L1,L2,…,LM}的內(nèi)插版本。上述相位輪廓函數(shù)通常是利用初始相位值_
而非最末相位值_[N]來每一幀得到一次。而且,該相位輪廓函數(shù)未考慮到調(diào)準(zhǔn)處理得到的相位偏移_。由于這種原因,重建的波形并不保證與原始信號時間同步。應(yīng)注意,若假定頻率輪廓在時間上線性擴(kuò)展的話,該形成的相軌跡_[n]是時間指數(shù)(n)的二次函數(shù)。
圖5實施例中,相位輪廓較為有利地按逐項方式構(gòu)建,初始和最末邊界相位值與調(diào)準(zhǔn)偏移值較接近地匹配。設(shè)想時間同步希望在當(dāng)前幀n_,n_,…,n_P,其中n_<n_<…<n_P,αi∈{1,2,…,M},i=1,2,…,P。所生成的_[n],n=1,2,…,N由寫成如下形式的P個逐項連續(xù)相位函數(shù)組成 應(yīng)指出,n_P通常設(shè)定為nM,以便可對全部幀即n=1,2,…,N計算_[n]。每一逐項相位函數(shù)的系數(shù){a,b,c,d}均可由4個邊界條件(分別為初始和最末音調(diào)滯后的Lαi-1和Lαi以及為初始和最末調(diào)準(zhǔn)偏移的Ψαi-1和Ψαi)計算。具體來說,系數(shù)可求解為aαibαi=3T122TiT13T12-12π*(1Lαi-1Lαi-1)ψαi-ψαi-1-2π*T1Lai-1+2πξαi]]>cαi=2πLαi-1]]>dαi=ψαi-1]]>且T1≡nαi-nαi-1]]>其中i=1,2,…,p。因為調(diào)準(zhǔn)偏移_是模2_求得的,系數(shù)ξ用于解開相位偏移,使得所生成的相位函數(shù)最為平滑。數(shù)值ξ可計算如下ξmi=round[ψαi-1-ψαi2π+T12*(1Lαi+1Lαi-1)]]]>其中i=1,2,…,p,函數(shù)round[x]找出與x最近的整數(shù)。舉例來說round[1.4]為1。
圖7中示出M=P=1且L0=40、LM=46的示范性解開的相軌跡。沿著立方相位輪廓(與虛線示出的常規(guī)的二次相位輪廓相對照)保證所合成的波形Scur_model與原始語音幀Scur在幀邊界處的時間同步。
框305中根據(jù)2-D表面形成一個一維(1-D)時域波形。所合成的波形Scur_model[n](其中n=1,2,…,N)形成為Scur_model[n]=W(n,Φ[n])如圖6B所示,上述變換等效于將圖6A所示的解開的相軌跡迭加在2D表面上。相交部分(相軌跡滿足2-D表面)對與相位軸正交的平面的投影即Scur_model[n]。
某一實施例中,將原型提取方法和基于TSWI的分析—合成應(yīng)用于語音域。一替代實施例中則將原型提取方法和基于TSWI的分析—合成應(yīng)用于LP余量域以及這里說明的語音域。
某一實施例中,在判斷當(dāng)前幀是否“具有足夠周期性”的預(yù)選處理后應(yīng)用—基于音調(diào)原型的分析—合成模型。相鄰的所提取原型Wm和Wm+1間的周期性PFm可計算為PFm=Σn=1LmaxWm[n]*Wm+1[n]Σn=1LmaxWm[n]*Wm[n]Σn=1LmaxWm+1[n]*Wm+1[n]]]>其中Lmax是[Lm,Lm+1]的最大值,原型Wm和Wm+1其長度的最大值。
M組周期性PFm可與一組閾值比較,來判斷當(dāng)前這些幀原型是否極其相似,或當(dāng)前這些幀是否是高度周期的。該組周期性PFm的平均值可有利地與一預(yù)定閾值相比較,以得出上述判定。若當(dāng)前幀并不具有足夠的周期性,便可代之于采用不同的較高速率算法(即并非基于音調(diào)原型的算法)來對當(dāng)前幀進(jìn)行編碼。
某一實施例中,可將選后濾波器應(yīng)用于評估執(zhí)行。這樣,靠一基于音調(diào)原型的分析—合成模式對當(dāng)前幀編碼后,便對該執(zhí)行是否足夠好進(jìn)行判定。通過獲得例如PSNR這種質(zhì)量測定結(jié)果來進(jìn)行這種判定,PSNR定義如下PSNR=10*log10Σn=1N(x[n]-e[n])2Σn=1Ne[n]*e[n]]]>其中x[n]=h[n]*R[n],而e[n]=h[n]*qR[n],用“*”表示卷積或濾波運(yùn)算,h[n]是感覺上加權(quán)的LP濾波器,R[n]是原始語音余量,qR[n]是該基于音調(diào)原型的分析—合成模式所獲得的余量。若將基于音調(diào)原型的分析—合成編碼應(yīng)用于LP余量信號,PSNR的上述公式便有效。但另一方面,若將基于音調(diào)原型的分析—合成技術(shù)應(yīng)用于原始語音幀而非LP余量,PSNR可定義為PSNR=10*log10Σn=1NW[n]*(x[n]-e[n])2Σn=1NW[n]*e[n]*e[n]]]>其中x[n]是原始語音幀,e[n]是靠基于音調(diào)原型的分析—合成技術(shù)建模的語音信號,w[n]則為感覺的加權(quán)因數(shù)。若不論哪一種情形PSNR均低于一預(yù)定閾值的話,該幀便不適合分析—合成技術(shù),而代之于利用一不同的可能為較高位速率算法來俘獲當(dāng)前幀。本領(lǐng)域技術(shù)人員會理解,任何常規(guī)執(zhí)行測定結(jié)果,包括上面所述的示范性PSNR測定結(jié)果在內(nèi),可代之于用作對算法執(zhí)行進(jìn)行的處理后判定。
這樣便給出并說明了本發(fā)明的較佳實施例。但對本領(lǐng)域技術(shù)人員來說,很顯然,可在不背離本發(fā)明實質(zhì)或保護(hù)范圍的情況下對在此揭示的實施例作種種變動。因而本發(fā)明只應(yīng)按照下面的權(quán)利要求進(jìn)行限定。
所請求的權(quán)利要求為
權(quán)利要求
1.一種用音調(diào)原型波形借助于時間同步波形內(nèi)插的語音合成方法,其特征在于,包括下列步驟從一信號當(dāng)中每一幀提取至少一個音調(diào)原型;對所提取的音調(diào)原型加上一相對于前一次提取的音調(diào)原型的相移;就該幀內(nèi)每一取樣點對音調(diào)原型進(jìn)行過取樣;構(gòu)建一個二維原型展開表面;以及對二維表面重新取樣以產(chǎn)生一維合成的信號幀,該重新取樣點由逐段連續(xù)立方相位輪廓函數(shù)定義,該相位輪廓函數(shù)是根據(jù)音調(diào)滯后和加到所提取的音調(diào)原型上的調(diào)準(zhǔn)相移計算得到的。
2.如權(quán)利要求1所述的方法,其特征在于,信號包括語音信號。
3.如權(quán)利要求1所述的方法,其特征在于,信號包括余量信號。
4.如權(quán)利要求1所述的方法,其特征在于,最末音調(diào)原型波形包括前一幀的滯后取樣。
5.如權(quán)利要求1所述的方法,其特征在于,還包括運(yùn)算當(dāng)前幀的周期性以判斷是否執(zhí)行余下步驟的步驟。
6.如權(quán)利要求1所述的方法,其特征在于,還包括獲得處理后性能測定結(jié)果并將該處理后性能測定結(jié)果與一預(yù)定閾值比較的步驟。
7.如權(quán)利要求1所述的方法,其特征在于,提取步驟包括僅提取一個音調(diào)原型。
8.如權(quán)利要求1所述的方法,其特征在于,提取步驟包括提取若干數(shù)量的音調(diào)原型,該數(shù)量是音調(diào)滯后的一個函數(shù)。
9.一種用音調(diào)原型波形借助于時間同步波形內(nèi)插的語音合成裝置,其特征在于,包括從一信號當(dāng)中每一幀提取至少一個音調(diào)原型的裝置;對所提取的音調(diào)原型加上一相對于前一次提取的音調(diào)原型的相移的裝置;就該幀內(nèi)每一取樣點對音調(diào)原型進(jìn)行過取樣的裝置;構(gòu)建一個二維原型展開表面的裝置;以及對二維表面重新取樣以產(chǎn)生一維合成的信號幀的裝置,該重新取樣點由逐段連續(xù)立方相位輪廓函數(shù)定義,該相位輪廓函數(shù)是根據(jù)音調(diào)滯后和加到所提取的音調(diào)原型上的調(diào)準(zhǔn)相移計算得到的。
10.如權(quán)利要求9所述的裝置,其特征在于,信號包括語音信號。
11.如權(quán)利要求9所述的裝置,其特征在于,信號包括余量信號。
12.如權(quán)利要求9所述的裝置,其特征在于,最末音調(diào)原型波形包括前一幀的滯后取樣。
13.如權(quán)利要求9所述的裝置,其特征在于,還包括運(yùn)算當(dāng)前幀周期性的裝置。
14.如權(quán)利要求9所述的裝置,其特征在于,還包括獲得處理后性能測定結(jié)果的裝置和將該處理后性能測定結(jié)果與一預(yù)定閾值比較的裝置。
15.如權(quán)利要求9所述的裝置,其特征在于,提取裝置包括僅提取一個音調(diào)原型的裝置。
16.如權(quán)利要求9所述的裝置,其特征在于,提取裝置包括提取若干數(shù)量音調(diào)原型的裝置,該數(shù)量是音調(diào)滯后的一個函數(shù)。
17.一種用音調(diào)原型波形借助于時間同步波形內(nèi)插的語音合成裝置,其特征在于,包括配置為從一信號當(dāng)中每一幀提取至少一個音調(diào)原型的模塊;配置為對所提取的音調(diào)原型加上一相對于前一次提取的音調(diào)原型的相移的模塊;配置為就該幀內(nèi)每一取樣點對音調(diào)原型進(jìn)行過取樣的模塊;配置為構(gòu)建一個二維原型展開表面的模塊;以及配置為對二維表面重新取樣以產(chǎn)生一維合成的信號幀的模塊,該重新取樣點由逐段連續(xù)立方相位輪廓函數(shù)定義,該相位輪廓函數(shù)是根據(jù)音調(diào)滯后和加到所提取的音調(diào)原型上的調(diào)準(zhǔn)相移計算得到的。
18.如權(quán)利要求17所述的裝置,其特征在于,信號包括語音信號。
19.如權(quán)利要求17所述的裝置,其特征在于,信號包括余量信號。
20.如權(quán)利要求17所述的裝置,其特征在于,最末音調(diào)原型波形包括前一幀的滯后取樣。
21.如權(quán)利要求17所述的裝置,其特征在于,還包括一配置為運(yùn)算當(dāng)前幀周期性的模塊。
22.如權(quán)利要求17所述的裝置,其特征在于,還包括一配置為獲得處理后性能測定結(jié)果并將該處理后性能測定結(jié)果與一預(yù)定閾值比較的模塊。
23.如權(quán)利要求17所述的裝置,其特征在于,配置為提取至少一個音調(diào)原型的模塊包括一配置為僅提取一個音調(diào)原型的模塊。
24.如權(quán)利要求17所述的裝置,其特征在于,配置為提取至少一個原型的模塊包括一配置為提取若干數(shù)量音調(diào)原型的模塊,該數(shù)量是音調(diào)滯后的一個函數(shù)。
全文摘要
一種用音調(diào)原型波形借助于時間同步波形內(nèi)插(TSWI)的語音合成方法,其中從一語音信號或余量信號當(dāng)中提取一個或多個音調(diào)原型(300)。該提取處理執(zhí)行時使得原型在邊界處具有最小能量。各個原型循環(huán)移位以便與原始信號在時間上同步。對各個所提取的原型加上一相對于前一次提取的原型的線性相移,以便使相繼的所提取原型間的跨接相關(guān)性為最大(302)。通過對每個取樣點的原型進(jìn)行過取樣來構(gòu)建一二維原型展開表面(303)。對該二維原型展開表面重新取樣以生成一個一維經(jīng)過合成的信號幀,所具有的取樣點由根據(jù)音調(diào)滯后和加到所提取原型上的相移計算得到的逐段連續(xù)立方相位輪廓函數(shù)定義(305)??蓱?yīng)用一預(yù)選濾波器來判斷是否對當(dāng)前幀放棄TSWI技術(shù)而采用另一算法??色@得一選擇后性能測定結(jié)果,并使之與一預(yù)定閾值相比較,來判斷該TSWI算法是否充分執(zhí)行。
文檔編號G10L19/02GK1348582SQ99815489
公開日2002年5月8日 申請日期1999年11月12日 優(yōu)先權(quán)日1998年11月13日
發(fā)明者A·達(dá)斯, E·L·T·喬依 申請人:高通股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1