專利名稱:語(yǔ)音分析方法和語(yǔ)音編碼方法及其裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語(yǔ)音分析方法,按照這種方法輸入語(yǔ)音信號(hào)被劃分成作為編碼單位的各數(shù)據(jù)塊或者各幀,檢測(cè)與以編碼單位為基礎(chǔ)的語(yǔ)音信號(hào)的基頻周期相對(duì)應(yīng)的音調(diào),并且按照該方法根據(jù)所檢測(cè)的一個(gè)編碼單位到另一個(gè)編碼單位的音調(diào)分析語(yǔ)音信號(hào)。本發(fā)明還涉及一種采用這種語(yǔ)音分析方法的語(yǔ)音編碼方法和裝置。
迄今為止,已有各種編碼方法,通過利用在時(shí)域、頻域的統(tǒng)計(jì)特性和人的音質(zhì)特性對(duì)聲音信號(hào)(包括語(yǔ)音信號(hào)和一般聲音信號(hào))進(jìn)行編碼以實(shí)現(xiàn)信號(hào)壓縮。編碼方法可以粗略地分為時(shí)域編碼,頻域編碼和分析/合成編碼。
例如,高效語(yǔ)音信號(hào)編碼包含正弦波分析編碼,例如諧波編碼或多頻帶激勵(lì)(MBE)編碼,分頻帶編碼(SBC),線性預(yù)測(cè)編碼(LPC),離散余弦變換(DCT),改進(jìn)的DCT(MDCT)和快速傅里葉變換(FFT)。
在用于LPC余值、MBE、STC或者諧波編碼的常規(guī)的諧波編碼方法中,對(duì)于粗略音調(diào)的音調(diào)搜索是在開環(huán)中進(jìn)行的,其后進(jìn)行對(duì)細(xì)微音調(diào)的高精度的音調(diào)搜索。在對(duì)細(xì)微音調(diào)進(jìn)行搜索的過程中,高精度的音調(diào)搜索(對(duì)于部分音調(diào)的搜索利用小于一個(gè)整數(shù)的采樣值)和對(duì)頻域內(nèi)波形的幅值估計(jì)是同時(shí)進(jìn)行的。進(jìn)行這種高精度的音調(diào)搜索是為了使頻譜的合成波形在其整個(gè)范圍內(nèi),即合成頻譜和初始頻譜,例如LPC余值頻譜的畸變降至最少。
然而,在人的語(yǔ)音的頻譜中,不一定出現(xiàn)頻率對(duì)應(yīng)于整數(shù)倍基波的頻譜部分。相反,這些頻譜部分會(huì)沿頻率軸線輕微地移動(dòng)。在這種情況下,即使利用一單個(gè)基波或在語(yǔ)音信號(hào)的整個(gè)頻譜范圍內(nèi)的音調(diào)進(jìn)行高精度音調(diào)的搜索,也可能無法正確在實(shí)現(xiàn)頻譜幅值的正確估計(jì)。
因此,本發(fā)明的目的是提供一種語(yǔ)音分析方法,用于正確地估計(jì)語(yǔ)音頻譜中與整數(shù)倍基波存在偏差的諧波的幅值,以及提供一種利用上述語(yǔ)音分析方法產(chǎn)生一高清晰度放音輸出的方法和裝置。
在本發(fā)明所述的語(yǔ)音分析方法中,按照預(yù)設(shè)的編碼單位,將輸入的語(yǔ)音信號(hào)在時(shí)間軸上劃分,檢測(cè)等同于如此劃分為編碼單位的語(yǔ)音信號(hào)的基本周期的音調(diào),并且,根據(jù)所檢測(cè)的從一個(gè)編碼單位到另一個(gè)編碼單位的音調(diào)分析語(yǔ)音信號(hào)。該方法包含以下步驟將與輸入的語(yǔ)音信號(hào)相對(duì)應(yīng)的信號(hào)的頻譜分解成在頻率軸上的多個(gè)頻帶,利用由從一個(gè)頻帶到另一個(gè)頻帶的頻譜形狀形成的音調(diào)同時(shí)進(jìn)行音調(diào)搜索和諧波幅值的估計(jì)。
根據(jù)本發(fā)明中的語(yǔ)音分析方法,可以正確地估計(jì)與整數(shù)倍基波有偏差的諧波的幅值。
在本發(fā)明的編碼方法和裝置中,輸入的語(yǔ)音信號(hào)在時(shí)間軸上劃分成預(yù)設(shè)的多個(gè)編碼單位,檢測(cè)與在每個(gè)編碼單位中的語(yǔ)音信號(hào)的基本周期相對(duì)應(yīng)的音調(diào),并且根據(jù)所檢測(cè)的從一個(gè)編碼單位到另一個(gè)編碼單位的音調(diào)對(duì)語(yǔ)音信號(hào)進(jìn)行編碼。將對(duì)應(yīng)于輸入語(yǔ)音信號(hào)的信號(hào)頻譜劃分成頻率軸上的多個(gè)頻帶,并且,利用由從一個(gè)頻帶到另一個(gè)頻帶的頻譜形狀形成的音調(diào)同時(shí)進(jìn)行音調(diào)搜索和諧波幅值的估計(jì)。
根據(jù)本發(fā)明中的語(yǔ)音分析方法,可以正確估計(jì)與整數(shù)倍基波有偏差的諧波的幅值,因此產(chǎn)生一高清晰度的無嗡嗡聲感覺或畸變的放音輸出。
具體地說,輸入語(yǔ)音信號(hào)的頻譜在頻率軸上劃分成多個(gè)頻帶,在每一個(gè)頻帶中音調(diào)搜索和諧波幅值估計(jì)是同時(shí)進(jìn)行的。頻譜形狀是由諧波構(gòu)成的。根據(jù)先前利用開環(huán)粗略音調(diào)搜索檢測(cè)的粗略音調(diào)對(duì)頻譜整體進(jìn)行第一音調(diào)搜索,同時(shí)進(jìn)行在精度上高于第一音調(diào)搜索的第二音調(diào)搜索,對(duì)頻譜的每個(gè)高頻范圍側(cè)和低頻范圍側(cè)進(jìn)行獨(dú)立的搜索??梢詼?zhǔn)確地估計(jì)與整數(shù)倍基波有偏差的語(yǔ)音頻譜的諧波幅值,從而產(chǎn)生一高清晰度放音輸出。
圖1是表示適于實(shí)現(xiàn)體現(xiàn)本發(fā)明的語(yǔ)音編碼方法的語(yǔ)音編碼裝置的基本結(jié)構(gòu)的方塊圖。
圖2是表示適于實(shí)現(xiàn)體現(xiàn)本發(fā)明的語(yǔ)音編碼方法的語(yǔ)音編碼裝置的基本結(jié)構(gòu)的方塊圖。
圖3是表示適于體現(xiàn)本發(fā)明的語(yǔ)音編碼裝置的更詳細(xì)結(jié)構(gòu)的方塊圖。
圖4是表示適于體現(xiàn)本發(fā)明的語(yǔ)音編碼裝置的更詳細(xì)結(jié)構(gòu)的方塊圖。
圖5是表示估計(jì)諧波幅值的基本操作程序。
圖6是表示逐幀處理的頻譜的重疊情況。
圖7a和7b是表示基準(zhǔn)的發(fā)生。
圖8a、8b和8c表示整體搜索和分部搜索。
圖9是表示典型的整體搜索操作程序的流程圖。
圖10是表示在高頻范圍內(nèi)典型的整體搜索操作程序的流程圖。
圖11是表示在一低頻范圍內(nèi)整體搜索操作程序的流程圖。
圖12是表示用于最后設(shè)定音調(diào)的典型操作程序的流程圖。
圖13是表示對(duì)每一頻域求出諧波幅值最佳值的典型操程序的流程圖。
圖14是圖13的接續(xù),用于表示對(duì)每一頻域求出諧波幅值最佳值的典型的操作程序的流程圖。
圖15是表示輸出數(shù)據(jù)的比特速率。
圖16是表示采用體現(xiàn)本發(fā)明的語(yǔ)音編碼裝置的便攜式終端中的發(fā)射端結(jié)構(gòu)的方塊圖。
圖17是表示采用體現(xiàn)本發(fā)明的語(yǔ)音編碼裝置的便攜式終端中的接收端結(jié)構(gòu)的方塊圖。
下面參照附圖,對(duì)本發(fā)明優(yōu)選實(shí)施例進(jìn)行更詳細(xì)的說明。
圖1是表示語(yǔ)音編碼裝置(語(yǔ)音編碼器)的基本結(jié)構(gòu),以實(shí)現(xiàn)該體現(xiàn)本發(fā)明的語(yǔ)音分析方法和語(yǔ)音編碼方法。
圖1所示的作為語(yǔ)音信號(hào)編碼器基礎(chǔ)的基本原理是編碼器具有第一編碼單元110,用于求出輸入語(yǔ)音信號(hào)的短期預(yù)測(cè)余值,例如線性預(yù)測(cè)編碼(LPC)余值,以便進(jìn)行正弦分析編碼例如諧波編碼;和第二編碼單元120,用于利用該具有相位復(fù)現(xiàn)性的信號(hào)波形編碼方式對(duì)輸入語(yǔ)音信號(hào)編碼,第一編碼單元110和第二編碼單元120分別用于對(duì)輸入信號(hào)的發(fā)濁音(V)部分編碼和對(duì)輸入信號(hào)的發(fā)清音(UV)部分編碼。
第一編碼單元110采用一種編碼結(jié)構(gòu),其利用正弦分析編碼例如諧波編碼或多頻帶激勵(lì)(MBE)編碼方式對(duì)例如LPC余值進(jìn)行編碼。第二編碼單元120采用一種結(jié)構(gòu),其利用閉環(huán)搜索和使用例如合成方法分析的閉環(huán)搜索的最佳矢量值,利用矢量量化進(jìn)行按代碼激勵(lì)的線性預(yù)測(cè)(CELP)。
在圖1所示的實(shí)施例中,提供到輸入端101的語(yǔ)音信號(hào)傳送到LPC反濾波器111和第一編碼單元110中的LPC分析和量化單元113。利用LPC分析量化單元113得到的LPC系數(shù)或所謂的α-參數(shù)送到第一編碼單元110中的LPC反濾波器111。從LPC反濾波器111提取輸入語(yǔ)音信號(hào)的線性預(yù)測(cè)余值(LPC余值)。從LPC分析量化單元113,提取一線性頻譜對(duì)(LSPs)的量化輸出并傳送到輸出端102,下文予以解釋。從LPC反濾波器111得到的LPC余值送到正弦分析編碼單元114。正弦分析編碼單元114進(jìn)行音調(diào)檢測(cè)并計(jì)算頻譜包絡(luò)線的幅值值,以及利用一V/UV鑒別單元115進(jìn)行V/UV鑒別。從正弦分析編碼單元114得到的頻譜包絡(luò)線的幅值傳送到矢量量化單元116。作為頻譜包絡(luò)線的按矢量-量化的輸出、來自矢量量化單元116的代碼簿索引,通過一開關(guān)117送到輸出端103,同時(shí),正弦分析編碼單元114的輸出通過開關(guān)118送到輸出端104。V/UV鑒別單元115的一V/UV鑒別輸出送到輸出端105并作為一控制信號(hào)送到開關(guān)117、118。如果輸入的語(yǔ)音信號(hào)是濁音(V),則該索引和音調(diào)分別在輸出端103、104選擇和取出。
在圖1所示本實(shí)施例中的第二編碼單元120,具有一代碼激勵(lì)線性預(yù)測(cè)編碼(CELP編碼)結(jié)構(gòu);和利用一閉環(huán)搜索采用一合成法分析對(duì)時(shí)域波形進(jìn)行矢量-量化,其中噪聲代碼簿121的輸出是利用一加權(quán)合成濾波器進(jìn)行合成的,形成的加權(quán)的語(yǔ)音送到減法器123,加權(quán)語(yǔ)音和提供給輸入端101并從該處通過按聲覺加權(quán)的濾波器125的語(yǔ)音信號(hào)之間的誤差被取出,因此將得出的誤差送到間距計(jì)算電路124,以便進(jìn)行間距計(jì)算,并利用噪聲代碼簿121搜索一使誤差最小的矢量。如前面說明的,CELP編碼用于對(duì)發(fā)清音的語(yǔ)音部分編碼。作為來自噪聲代碼簿121的UV數(shù)據(jù)的代碼簿索引經(jīng)過開關(guān)127在輸出端107取出,該開關(guān)當(dāng)V/UV鑒別的結(jié)果是清音(UV)時(shí)按通。
圖2是表示語(yǔ)音信號(hào)解碼器基本結(jié)構(gòu)的方塊圖,作為圖1中語(yǔ)音信號(hào)編碼器的配對(duì)裝置,用于實(shí)現(xiàn)完成本發(fā)明的語(yǔ)音解碼方法。
參照?qǐng)D2,作為來自圖1所示輸出端102的線性頻譜對(duì)(LSP)的量化輸出的一代碼簿索引提供到輸入端202。圖1中輸出端103、104和105的輸出,即間距、V/UV鑒別輸出和索引數(shù)據(jù),作為包絡(luò)線量化輸出數(shù)據(jù)分別提供到輸入端203到205。由圖1的輸出端107輸出的發(fā)清音數(shù)據(jù)的索引數(shù)據(jù)提供到輸入端207。
作為輸入端203的包絡(luò)線量化輸出的索引送到用于反矢量量化的一反矢量量化單元212,以求出送到一濁音語(yǔ)音合成器211的一LPC余值的頻譜包絡(luò)線。濁音語(yǔ)音合成器211利用正弦合成法合成濁音語(yǔ)音的線性預(yù)測(cè)編碼(LPC)余值。將來自輸入端204、205的音調(diào)和V/UV鑒別輸出也送入合成器214。來自濁音語(yǔ)音合成單元211的濁音語(yǔ)音部分的LPC余值送給一LPC合成濾波器214。來自輸入端207的UV數(shù)據(jù)的索引數(shù)據(jù)送到清音語(yǔ)音合成單元220,在其中為了取得清音語(yǔ)音部分的LPC余值,必須參考噪聲代碼簿。將這些LPC余值也傳送到LPC合成濾波器214。在LPC合成濾波器214中,濁音部分的LPC余值和清音部分的LPC余值利用LPC合成獨(dú)立進(jìn)行處理。另一方面,合在一起的濁音部分LPC余值和清音部分的余值可以利用LPC合成進(jìn)行處理。來自輸入端202的LSP索引數(shù)據(jù)送到LPC參數(shù)再現(xiàn)單元213,在其中將LPC的α-參數(shù)取出并送到LPC合成濾波器214。利用LPC合成濾波器214合成的語(yǔ)音信號(hào)在輸出端201取出。
參照?qǐng)D3,說明圖1中表示的語(yǔ)音信號(hào)編碼器的更詳細(xì)的結(jié)構(gòu)。在圖3中,與圖1所示相同的部件或元件利用相同的參考數(shù)字表示。
在圖3所示的語(yǔ)音信號(hào)編碼器中,提供到輸入端101的語(yǔ)音信號(hào)利用高通濾波器HPF109濾波,用以去掉無用范圍的信號(hào),并由此傳送到LPC分析/量化單元113的LPC分析電路132和反LPC濾波器111。
LPC分析/量化單元113的LPC分析電路132使用一漢明窗口(具有按照采樣頻率Fs=8千赫得到的輸入信號(hào)波形的256個(gè)量級(jí)的采樣的輸入信號(hào)波形長(zhǎng)度)作為一個(gè)數(shù)據(jù)塊,利用自相關(guān)法求出線性預(yù)測(cè)系數(shù),即所謂的α-參數(shù)。作為數(shù)據(jù)輸出單位的成幀間隔設(shè)定為大約160采樣值。如果采樣頻率為8千赫,例如一幀間隔為20毫秒或160采樣。
來自LPC分析電路132的α參數(shù)送到α-LSP變換電路133,用以變換為線性頻譜對(duì)(LSP)參數(shù)。這樣將利用直接型濾波器系數(shù)求出的α參數(shù)變換為例如10個(gè)即5對(duì)LSP參數(shù)。實(shí)現(xiàn)這一變換采用例如Newton-Rhapson方法。將α參數(shù)變換成LSP參數(shù)的原因是LSP參數(shù)在內(nèi)插特性上優(yōu)于α參數(shù)。
來自α-LSP變換電路133的LSP參數(shù)利用LSP量化器134進(jìn)行矩陣或矢量量化??梢栽谶M(jìn)行矢量量化之前,取幀與幀的差,或匯集多個(gè)幀進(jìn)行矩陣量化。在這種情況下,每20毫秒計(jì)算的兩個(gè)幀的LSP參數(shù)(每幀為20毫秒長(zhǎng))一起使用并利用矩陣量化和矢量量化進(jìn)行處現(xiàn),為了在LSP范圍內(nèi)量化LSP參數(shù),α或K參數(shù)可以直接進(jìn)行量化。量化器134的量化輸出,即LSP量化的索引數(shù)據(jù),可以在102端取出,同時(shí),量化的LSP矢量直接送到LSP內(nèi)插電路136。
LSP內(nèi)插電路136內(nèi)插按每20毫秒或40毫秒量化的LSP矢量,以提供八倍速率(超密采樣)。即,LSP矢量每2.5毫秒進(jìn)行更新。原因在于,如果利用諧波編碼解碼方法通過分析/合法處理余留波形,則合成的波形的包絡(luò)線呈現(xiàn)出非常光滑的波形,從而,如果每20毫秒LPC系數(shù)突然變化,則可能會(huì)產(chǎn)生一種不相干的噪聲。即,如果LPC系數(shù)每2.5毫秒逐漸變化一次,就可以防止這種不相干的噪聲產(chǎn)生。
為了利用每2.5毫秒產(chǎn)生的內(nèi)插LSP矢量對(duì)輸入語(yǔ)音進(jìn)行反濾波,將量化LSP參數(shù)利用LSP-至-α變換電路137變換為α-參數(shù),其為例如10級(jí)直接型濾波器的濾波器系數(shù)。當(dāng)利用每2.5毫秒更新的α參數(shù)進(jìn)行反濾波以產(chǎn)生一平滑的輸出時(shí),LSP-向-α變換電路137的輸出送到LPC反濾波器電路111。反LPC濾波器111的輸出送到正弦分析編碼單元114(例如一諧波編碼電路)中的正交變換電路145,例如DCT電路。
從LPC分析/量化單元113中的LPC分析電路132得到的α-參數(shù)送到按聲覺加權(quán)濾波器計(jì)算電路139,在其中求出按聲覺加權(quán)的數(shù)據(jù)。將這些加權(quán)的數(shù)據(jù)送到按聲覺加權(quán)矢量量化器116和送到第二編碼單元120中的按聲覺加權(quán)濾波器125和按聲覺加權(quán)合成濾波器122。
諧波編碼電路中的正弦分析編碼單元114利用諧波編碼方法分析反LPC濾波器111的輸出。即,進(jìn)行音調(diào)檢測(cè),對(duì)各個(gè)諧波的幅值A(chǔ)m的計(jì)算和對(duì)濁音(V)部分/清音(UV)部分進(jìn)行鑒別,以及通過維的變換,可使隨音調(diào)變化的為數(shù)很多的各個(gè)幅值A(chǔ)m或各個(gè)諧波的包絡(luò)線成為恒定不變的。
在圖3中所示的正弦分析編碼單元114的示例中,使用了常用的諧波編碼。尤其是在多頻帶激勵(lì)(MBE)編碼中,假設(shè)在模型化過程中在每個(gè)頻率區(qū)域或頻帶內(nèi)同一時(shí)間點(diǎn)(在同一數(shù)據(jù)塊或幀內(nèi))出現(xiàn)濁音部分或清音部分。在其它的諧波編碼技術(shù)中,唯一判斷的是在一數(shù)據(jù)塊或在一幀內(nèi)的語(yǔ)音是濁音還是清音。在下面的說明中,如果整個(gè)頻帶是UV,則判斷指定的幀是UV,在這種情況下涉及到MBE編碼。對(duì)MBE的分析合成方法的技術(shù)的具體實(shí)施例在以本申請(qǐng)的受讓人名義申請(qǐng)的專利申請(qǐng)?zhí)枮镹o.491442的日本專利申請(qǐng)中可以找到。
圖3所示正弦分析編碼單元114的開環(huán)音調(diào)搜索單元141和過零計(jì)數(shù)器142分別由從輸入端101輸入語(yǔ)音信號(hào)和通過高通濾波器(HPF)109輸入信號(hào)。向正弦分析編碼單元114的正交變換電路145提供有來自反LPC濾波器111的LPC余值或線性預(yù)測(cè)余值。
開環(huán)音調(diào)搜索單元141取得輸入信號(hào)的LPC余值,以便利用開環(huán)搜索實(shí)現(xiàn)對(duì)較粗略的音調(diào)的搜索。提取的粗略音調(diào)數(shù)據(jù)送到正如下面說明的細(xì)微音調(diào)搜索單元,在其中利用閉環(huán)搜索進(jìn)行細(xì)微音調(diào)的搜索。使用的音調(diào)數(shù)據(jù)稱其為音調(diào)滯后,即表示為時(shí)間軸上采樣的數(shù)目的音調(diào)周期。濁音/清音(V/UV)判別單元115的判別輸出還可以用作為開環(huán)音調(diào)搜索的一個(gè)參數(shù)。值得注意的是只能將從判斷為濁音(V)的語(yǔ)聲信號(hào)部分提取的音調(diào)信息用于上述開環(huán)音調(diào)搜索。
正交變換電路145進(jìn)行正交變換,例如256點(diǎn)離散傅里葉變換(DFT),將在時(shí)間軸上的LPC余值變換為在頻率軸上的頻譜幅值數(shù)據(jù)。正交交換電路145的輸出送到細(xì)微音調(diào)搜索單元146和其構(gòu)成用于估計(jì)頻譜幅值或包絡(luò)線的頻譜估計(jì)單元148。
將利用從開環(huán)音調(diào)搜索單元141提取的相對(duì)粗略的音調(diào)數(shù)據(jù),以及通過DFT利用正交變換單元145獲得的頻域數(shù)據(jù),輸入細(xì)微音調(diào)搜索單元146。在粗略音調(diào)Po的基礎(chǔ)上,細(xì)微音調(diào)搜索單元146實(shí)現(xiàn)由整體搜索和分部搜索構(gòu)成的兩步高精度音調(diào)搜索。
整體搜索是一種音調(diào)提取方法,按照該方法,一組采樣值以粗略音調(diào)為中心振蕩,從而選擇音調(diào)。分部搜索是一種音調(diào)檢測(cè)的方法,按照這種方法,一部分?jǐn)?shù)目的采樣值,即利用部分?jǐn)?shù)目表示的一定數(shù)目的采樣值以該粗略音調(diào)為中心變動(dòng),以便選擇音調(diào)。
對(duì)于上述整體搜索和分部搜索的技術(shù),所謂分析-合成方法是用于選擇音調(diào)以使合成的功率譜與原始語(yǔ)聲功率譜最接近。
在頻譜估計(jì)單元148中,對(duì)每個(gè)諧波的幅值和作為諧波的總和的頻譜包絡(luò)線根據(jù)作為L(zhǎng)PC余值正交變換輸出的頻譜幅值和音調(diào)進(jìn)行估計(jì),并送到細(xì)微音調(diào)搜索單元146,V/UV鑒別單元115和按聲覺加權(quán)矢量量化單元116。
V/UV鑒別單元115根據(jù)下面五個(gè)量值鑒別一幀的V/UV,五個(gè)量值為正交變換電路145的輸出,來自細(xì)微音調(diào)搜索單元146的一最佳音調(diào),來自頻譜估計(jì)單元148的頻譜幅值數(shù)據(jù),來自開環(huán)音調(diào)搜索單元141的歸一的自相關(guān)r(P)的最大值和來自過零計(jì)數(shù)器142的過零記數(shù)值。另外,對(duì)于MBE的以頻帶為基準(zhǔn)的V/UV鑒別的邊界位置也可以作為V/UV鑒別的一個(gè)條件。V/UV分辨單元115的鑒別輸出可以在輸出端105得出,頻譜估計(jì)單元148的一輸出單位或矢量量化單元116的一輸入單位設(shè)有一些數(shù)據(jù)變換單位(進(jìn)行一種采樣速率變換的單元)??紤]到在頻率軸線上分離頻帶的數(shù)目和按音調(diào)形成的數(shù)據(jù)的數(shù)目不同,數(shù)據(jù)變換單元的數(shù)目用于將包絡(luò)線的幅值數(shù)據(jù)|Am|設(shè)定為一常數(shù)。即,如果有效頻帶上升至3400KHz,根據(jù)音調(diào)可以將有效頻帶分為8到63個(gè)頻帶。按逐個(gè)頻帶得到的幅值數(shù)據(jù)|Am|的數(shù)目Mmx+1在從8到63范圍內(nèi)變化。因此,數(shù)據(jù)數(shù)目變換單元將可變化數(shù)目Mmx+1的幅值數(shù)據(jù)變換為預(yù)定數(shù)目M的數(shù)據(jù),例如為44個(gè)數(shù)據(jù)。
來自數(shù)據(jù)數(shù)目變換單元的預(yù)定數(shù)目M例如為44的幅值數(shù)據(jù)或包絡(luò)線數(shù)據(jù)(提供于頻譜估計(jì)單元148的輸出單元或矢量量化單元116的輸入單元),按照預(yù)定數(shù)目的數(shù)據(jù)例如為44個(gè)數(shù)據(jù),作為一個(gè)單元,利用矢量量化單元116,通過進(jìn)行加權(quán)矢量量化一起進(jìn)行處理。這種加權(quán)值由按聲覺加權(quán)濾波器計(jì)算電路139的輸出提供。包絡(luò)線系數(shù)可以從矢量量化器116利用一開關(guān)117在輸出端103取出。先于進(jìn)行加權(quán)矢量量化,對(duì)于由一預(yù)定數(shù)目數(shù)據(jù)構(gòu)成的一矢量利用一合理的泄漏系數(shù)取出在幀間的差值是適當(dāng)?shù)摹?br>
下面說明第二編碼單元120。第二編碼單元120具有一所謂CELP編碼結(jié)構(gòu),并且特別適用于給輸入語(yǔ)音信號(hào)的清音部分編碼。在用于輸入語(yǔ)音信號(hào)的清音部分的CELP編碼結(jié)構(gòu)中,有與清音的LPC余值相對(duì)應(yīng)的噪聲輸出(作為噪聲代碼簿或者所謂隨機(jī)代碼簿121的代表性的輸出值)通過一增益控制電路126送到按聲覺加權(quán)合成濾波器122。加權(quán)合成濾波器122利用LPC合成對(duì)輸入噪聲進(jìn)行LPC合成,并且將產(chǎn)生的加權(quán)清音信號(hào)送到減法器123。將由從輸入端101通過一高通濾波器(HPF)109并且通過一按聲覺加權(quán)濾波器125按聲覺加權(quán)的一信號(hào)輸入減法器123。減法器求出這一信號(hào)和來自合成濾波器122的信號(hào)之間的差或誤差。同時(shí),從按聲覺加權(quán)濾波器125的輸出值先減去按聲覺加權(quán)合成濾波器的一零輸入響應(yīng)。該誤差輸入音距計(jì)算單元124以計(jì)算間距。在噪聲代碼簿121中搜索使誤差最小的一代表性的矢量值。以上是利用分析合成方法采用閉環(huán)搜索的時(shí)域波形的矢量量化的概括。
作為關(guān)于來自采用CELP編碼結(jié)構(gòu)的第二編碼器120的清音(UV)部分的數(shù)據(jù),從噪聲代碼簿121取出代碼簿中的形狀索引和從增益電路126取出代碼簿中的增益索引。形狀索引(即從噪聲代碼簿121得到的UV數(shù)據(jù))通過一開關(guān)127s送到輸出端107s,同時(shí),增益索引,即增益電路126的UV數(shù)據(jù)通過一開關(guān)127g送到輸出端107g。
這些開關(guān)127s、127g和117、118的開與關(guān)取決于V/UV鑒別單元115的V/UV判斷結(jié)果。確切地說,如果現(xiàn)時(shí)傳輸?shù)膸恼Z(yǔ)音信號(hào)中的V/UV鑒別結(jié)果表明是濁音的(V),則開關(guān)117、118接通,而如果現(xiàn)時(shí)傳輸?shù)膸恼Z(yǔ)音信號(hào)是清音的(UV),則開關(guān)127s、127g接通。
圖4是圖2中表示的一語(yǔ)音信號(hào)解碼器的更詳細(xì)的結(jié)構(gòu)。在圖4中,用相同的數(shù)字表示圖2中所示的元件。
在圖4中,對(duì)應(yīng)于圖1和3的輸出端102的LSPs矢量量化輸出,即代碼簿索引提供給輸入端202。
LSP系數(shù)送到用于LPC參數(shù)再現(xiàn)單元213的LSP變換矢量量化器231,以便將反矢量變換量化為線性頻譜對(duì)(LSP)數(shù)據(jù),然后提供給用于LSP內(nèi)插的LSP內(nèi)插電路232、233。利用LSP-向-α變換電路234、235將形成的內(nèi)插數(shù)據(jù)變換為α參數(shù),再送到LSP合成濾波器214。LSP內(nèi)插電路232和LSP向-α變換電路234是設(shè)計(jì)為用于濁音(V),而LSP內(nèi)插電路233和LSP-向α變換電路235設(shè)計(jì)為用于清音(UV)。LPC合成濾波器214由濁音LPC合成濾波器236和清音LPC合成濾波器237構(gòu)成。即,對(duì)于濁音和清音,可以獨(dú)立地進(jìn)行LPC系數(shù)內(nèi)插,用于防止任何可能從濁音到清音或者反之的過渡部分中,由于內(nèi)插具有完全不同的特點(diǎn)的LSPs產(chǎn)生的不利影響。
將對(duì)應(yīng)于加權(quán)矢量量化頻譜包絡(luò)線Am的代碼簿索引數(shù)據(jù)提供給對(duì)應(yīng)于圖1和3編碼器輸出端103的圖4所示輸入端203。來自圖1和3所示的終端104的音調(diào)數(shù)據(jù)提供給輸入端204,來自圖1和3的終端105的V/UV鑒別數(shù)據(jù)提供給輸入端205。
來自輸入端203的頻譜包絡(luò)線Am的矢量-量化系數(shù)數(shù)據(jù)送到用于反矢量量化的反矢量量化器212,在其中進(jìn)行數(shù)據(jù)數(shù)目變換與相反的變換。形成的頻譜包絡(luò)線數(shù)據(jù)送到正弦合成電路215。
在編碼過程中,如果先于頻譜矢量量化求出幀間的差,則在為產(chǎn)生頻譜包絡(luò)線數(shù)據(jù)而進(jìn)行的反矢量量化后對(duì)幀間的差進(jìn)行解碼。
將來自輸入端204的音調(diào)和來自輸入端205的V/UV鑒別數(shù)據(jù)送入正弦合成電路215。從正弦合成電路215得到對(duì)應(yīng)于圖1和3所示的LPC反濾波器111的輸出值的LPC余值數(shù)據(jù)并送到加法器218。這種正弦合成具體技術(shù)公開于例如由本受讓人提出的申請(qǐng)?zhí)枮?-91442和6-198451號(hào)日本專利申請(qǐng)中。
反矢量量化器212的包絡(luò)線數(shù)據(jù)和來自輸入端204、205的音調(diào)以及V/UV鑒別數(shù)據(jù)送到噪聲合成電路216(其構(gòu)成用于對(duì)濁音部分添加噪聲)。噪聲合成電路216的輸出通過一加權(quán)疊加電路217送到加法器218。具體地說,將噪聲添加到LPC余值信號(hào)中的濁音部分,要考慮如果利用正弦波合成產(chǎn)生作為一送到濁音聲音部分的LPC合成濾波器輸入值的激勵(lì)信號(hào),則會(huì)產(chǎn)生一低音調(diào)的嗡嗡感覺(例如男性語(yǔ)聲),并且在濁音和清音之間音質(zhì)突然地變化,因而使聽覺感覺不自然。這種噪聲涉及到與語(yǔ)音編碼數(shù)據(jù)相關(guān)的參數(shù)例如音調(diào)、頻譜包絡(luò)線的幅值、幀內(nèi)的最大幅值、或與濁音語(yǔ)聲部分的LPC合成濾波器的輸入相關(guān)的余值信號(hào)電平,其實(shí)為一種激勵(lì)信號(hào)。
加法器218的和輸出送到用于LPC合成濾波器214的濁音部分的合成濾波器236,在其中進(jìn)行LPC合成以便形成隨時(shí)間的波形數(shù)據(jù),然后利用一用于濁音的后置濾波器238v濾波并送到加法器239。
將來自圖3的輸出端107s和107g作為UV數(shù)據(jù)的形狀索引和增益索引,分別提供給圖4中的輸入端207s和207g,然后由該處提供給清音合成單元220。來自207s端的形狀索引送到清音合成單元220的噪聲代碼簿221,而來自連接端207g的增益索引送到增益電路222。從噪聲代碼簿221讀出的有代表性的輸出值是一對(duì)應(yīng)于清音LPC余值的噪聲信號(hào)部分。這一部分變?yōu)樵谠鲆骐娐?22的一預(yù)定增益幅值并送到開窗口電路223以便使與濁音結(jié)合部平滑。
開窗口電路223的輸出送到用于LPC合成濾波器214的清音(UV)合成濾波器237。利用LPC合成處理送到合成濾波器237的數(shù)據(jù),以變成為對(duì)于清音的按時(shí)間的波形數(shù)據(jù)。在將清音的按時(shí)間的波形數(shù)據(jù)送到加法器239之前利用用于清音的后置濾波器238進(jìn)行濾波。
在加法器239中,來自用于濁音的后置濾波器238v的按時(shí)間的波形信號(hào)和來自清音的后置濾波器238u的清音的按時(shí)間波形數(shù)據(jù)彼此相加,并且將形成的數(shù)據(jù)和從輸出端201取出。
如圖5表示利用第一編碼單元110的基本操作過程,在其中采用本發(fā)明的語(yǔ)音分析方法。
在LPC分析步驟S51以及開環(huán)音調(diào)搜索(粗略高調(diào)搜索)步驟S55送入輸入語(yǔ)音信號(hào)。
在LPC分析步驟S51中,采用按照輸入信號(hào)波形的256采樣長(zhǎng)度作為一個(gè)數(shù)據(jù)塊的漢明窗口,用以利用自相關(guān)法求出線性預(yù)定系數(shù)或所謂的α-參數(shù)。
然后在LSP量化和LPC反濾波步驟S52,將在步驟S52得到的α-參數(shù),利用LPC量化器進(jìn)行按矩陣-或矢量-量化。另一方面,將α參數(shù)送到LPC反濾波器以得出輸入語(yǔ)音信號(hào)的線性預(yù)測(cè)余值(LPC余值)。
此后,在對(duì)LPC余值信號(hào)開窗口的步驟S53中,將一適當(dāng)?shù)拇翱冢缫粷h明窗口運(yùn)用于在步驟S52取出的LPC余值信號(hào)。如圖6所示,該窗口跨于兩相鄰幀。
接著,在進(jìn)行FFT的步驟S54,將在步驟S53經(jīng)開窗口的LPC余值按例如250點(diǎn)進(jìn)行快速傅里葉變換(FFT),用以變換為作為在頻率軸上的參數(shù)的FFT頻譜部分。在N點(diǎn)處經(jīng)快速傅里葉變換的語(yǔ)音信號(hào)的頻譜,由與0到π相關(guān)的X(0)到X(N/2-1)頻譜數(shù)據(jù)構(gòu)成。
在開環(huán)音調(diào)搜索(粗略音調(diào)搜索)步驟S55,將輸入信號(hào)的LPC余值取出,以便利用開環(huán)進(jìn)行粗略音調(diào)搜索,以輸出一粗略音調(diào)。
在細(xì)微音調(diào)搜索和頻譜幅值估計(jì)步驟S56中,利用在步驟S55得到的FFT頻譜數(shù)據(jù)和一預(yù)設(shè)的基準(zhǔn)上計(jì)算頻譜幅值。
下面解釋在圖3所示的語(yǔ)音編碼器中的正交變換電路145和頻譜估計(jì)單元148的頻譜幅值的估計(jì)。
首先,按照下式確定在如下的對(duì)X(j)、E(j)和A(m)說明時(shí)所用的參數(shù)X(j)(1≤j≤128)FFT頻譜E(j)(1≤j≤128)基頻A(m)諧波的幅值利用如下的方程(1)確定頻譜幅值的估計(jì)誤差∈m∈(m)=Σj=ambm(|X(j)|-|A(m)|E(j)|)2-----(1)]]>上述FFT頻譜X(j)是利用正交變換的付里葉變換得到的頻率軸上的參數(shù)?;lE(j)假設(shè)已預(yù)置。
對(duì)通過對(duì)方程(1)求導(dǎo)并令結(jié)果值為0得到的如下的方程δs(m)δ|A(m)|=-2Σj=ambm{|X(j)|-|A(m)||E(j)|}|E(j)|=0]]>對(duì)具求解,以便求出產(chǎn)生一極限值的A(m),即A(m)產(chǎn)生上述估計(jì)誤差的最小值,該A(m)用以形成如下的方程(2)|A(m)|=Σj=ambm|X(j)||E(j)|Σj=ambm|E(j)|2]]>…(2)在上述方程中,a(m)和b(m)代表按單一音調(diào)ω0將頻譜由它的低范圍到它的高范圍劃分所得到的第m個(gè)頻帶的上限和下限FFT系數(shù)的系數(shù)。第m個(gè)諧波頻帶的中心頻率對(duì)應(yīng)于(a(m)+b(m))/2。
按照以上的基頻E(j),256點(diǎn)的漢明窗口本身可以被利用。另外,通過將各個(gè)零值插入236點(diǎn)的漢明窗口以得到例如2048點(diǎn)的窗口,以及利用256或2048點(diǎn)對(duì)后者進(jìn)行FFT得到的這種頻譜可以利用。然而,在這樣的情況下,在估計(jì)諧波的幅值|A(m)|時(shí)需要應(yīng)用偏差,使得E(o)將按照?qǐng)D7b中所示的(a(m)+b(m)))/2位置疊加。在這種情況下,該方程更準(zhǔn)確地變?yōu)槿缦碌姆匠?3)|A(m)|=Σj=ambm|X(j)||E(j-am+bm2)|Σj=ambm|E(j-am+bm2)|2]]>(3)與之相似,第m個(gè)頻帶的估計(jì)誤差∈(m)按如下的方程表示∈(m)=Σj=ambm(|X(j)|-|A(m)||E(j-am+nm2)|)2]]>…(4)
在這種情況下,基頻E(j)限定在-128≤j≤127或-1024≤j≤1023的域內(nèi)。
下面具體解釋如在圖3中所示的利用高精度音調(diào)搜索單元146進(jìn)行的高精度音調(diào)搜索。
為了對(duì)諧波頻譜的幅值高精度估計(jì),需要得到高精度音調(diào)。即,如果音調(diào)是低精度的,不可能實(shí)現(xiàn)正確的幅值評(píng)估,使得不可能產(chǎn)生清晰播放的語(yǔ)音。
轉(zhuǎn)來分析根據(jù)本發(fā)明的語(yǔ)音分析方法中的音調(diào)搜索操作的基本程序,利用開環(huán)音調(diào)搜索單元141進(jìn)行先前的粗略開環(huán)音調(diào)搜索,得到粗略音調(diào)值P。根據(jù)這一粗略音調(diào)值P0,然后利用細(xì)微音調(diào)搜索單元146進(jìn)行由整體搜索和分部搜索組成的兩階段細(xì)微音調(diào)搜索。
利用開環(huán)音調(diào)搜索單元141得到的粗略音調(diào)是根據(jù)正被分析的該幀的LPC余值自相關(guān)最大值得到的,并考慮與在向前和向后兩側(cè)各幀中的開環(huán)音調(diào)(粗略音調(diào))相結(jié)合才得到的。
整體搜索是對(duì)頻譜的所有頻帶進(jìn)行的,而分部搜索是對(duì)由該頻帶劃分出的每一頻帶進(jìn)行的。
參照?qǐng)D9到12的流程圖,解釋細(xì)微音調(diào)搜索的典型操作程序。粗略音調(diào)值P0是一以采樣數(shù)目為單位表示音調(diào)周期的所謂的音調(diào)滯后,而K代表循環(huán)重復(fù)的次數(shù)。
細(xì)微音調(diào)搜索按照整體搜索、高范圍側(cè)分部搜索和低范圍側(cè)分部搜索。在這些搜索步驟中,進(jìn)行音調(diào)搜索,使得合成的頻譜與原來的頻譜之間的誤差即估計(jì)誤差∈(m)最小。因此,由方程(3)確定的諧波幅值|A(m)|和由方程(4)計(jì)算的估計(jì)誤差∈(m)都包含在細(xì)微音調(diào)搜索步驟中,使得細(xì)微音調(diào)搜索和頻譜各部分的幅值估計(jì)同時(shí)進(jìn)行。
圖8a表示利用整體搜索對(duì)頻譜中所有的頻帶進(jìn)行音調(diào)檢測(cè)的方式。由該圖可以看出,如果試圖按照單一音調(diào)ω0來估計(jì)所有各頻帶中的頻譜組成部分的幅值。會(huì)導(dǎo)致形成在原始頻譜與合成的頻譜之間的大的相位移,如果借助于這種方法本身,就表明不可能實(shí)現(xiàn)可靠的幅值估計(jì)。
圖9表示上述整體檢索的操作的具體程序。
在步驟S1,分別設(shè)定NUMP_INT、NUMP_FLT和STEP_SIZE的數(shù)值,它們分別舉出對(duì)于整體搜索的采樣數(shù)目、對(duì)于分部搜索的采樣數(shù)目以及對(duì)于分部搜索的步驟S的規(guī)模。作為具體的實(shí)例,NUMP_INT=3,NUMP_FLT=5以及STEP_SIZE=0.25。
在步驟S2,由粗略音調(diào)P0和NUMP_INT確定音調(diào)Pch的起始值,而環(huán)路計(jì)數(shù)器由于K復(fù)零(K=0)而被復(fù)零。
在步驟S3,計(jì)算各諧波的幅值|An|、僅關(guān)于低頻范圍∈r1的各幅值誤差之和以及僅關(guān)于高頻范圍∈rh的各幅值誤差之和。下文解釋在步驟這S3的具體操作。
在步驟S4,檢查僅關(guān)于低頻范圍∈rh的各幅值誤差之和與僅關(guān)于高頻范圍的各幅值誤差之和的總和是否小于(極小值min∈r,或K=0’。如果這一條件沒有滿足,程序不經(jīng)過步驟S5,而進(jìn)行到步驟S6。如果上述條件滿足,則程序進(jìn)行到步驟S5,設(shè)定min∈r=∈r1+∈rh]]>min∈r1=∈r1]]>min∈rh=∈rh]]>(最終音調(diào))Finalpitch=Pch’Am_tmp(m)=|A(m)|。
在步驟S6,令Pch=Pch+1。
在步驟S7,檢查,K小于NUMP_INT’的條件是否滿足。如果這一條件滿足,程序返回到步驟S3。如果相反,程序轉(zhuǎn)移到步驟S8。
圖8b表示對(duì)于在頻譜的高頻側(cè)通過分部搜索進(jìn)行的音調(diào)檢測(cè)方法。由這一圖可以看出,可以使對(duì)于高頻范圍的估計(jì)誤差要小于在如前所述的對(duì)于頻譜中的所有頻帶進(jìn)行整體搜索情況下的相應(yīng)誤差。
圖10表示對(duì)于高頻范圍側(cè)實(shí)施分部搜索的具體程序。
在步驟S8,設(shè)Pch=FinalPitch-(NUMP_FLT-1)/2×STEP_SIZEK=0Final Pitch是如上所述對(duì)所有頻帶進(jìn)行整體搜索得到的音調(diào)。
在步驟S9,檢查“K=(NUMP_FLT-1)/2”的條件是否滿足。如果這一條件不滿足,程序轉(zhuǎn)移到步驟S10。如果這一條件滿足,程序轉(zhuǎn)移到步驟S11。
在步驟S10,在程序轉(zhuǎn)移到步驟S12之前,由音調(diào)Pch和輸入的語(yǔ)音信號(hào)的頻譜X(j)計(jì)算諧波的幅值|Am|和僅關(guān)于高頻范圍側(cè)的幅值誤差的和∈rh。下面解釋在這一步驟S10中的具體實(shí)施。
在程序轉(zhuǎn)到步驟12之前,在步驟S11,設(shè)∈rh=min∈rh|A(m)|=Am-tmp(m)在步驟S12,檢查“∈rh小于∈r或k=0”的條件是否滿足。如果這個(gè)條件不滿足,程序就不經(jīng)過S13而轉(zhuǎn)移到步驟S14。如果上述條件滿足,程序就轉(zhuǎn)移到S13。
在步驟S13,設(shè)min∈r=∈rhFinal Pitch_h=PchAm-h(m)=|A(m)|在步驟S14,設(shè)Pch=Pch+STEP_SIZEK=K+1在步驟S14,設(shè)Pch=Pch+STEP_SIZEK=K+1在步驟S15,檢查“K小于NUMP_PLT”的條件是否滿足。如果這個(gè)條件滿足,程序回復(fù)到步驟S9。假如上述條件不滿足,程序轉(zhuǎn)移到步驟S16。
圖8C表示對(duì)于頻譜中的低頻范圍側(cè)通過分部搜索進(jìn)行音調(diào)檢測(cè)的方式,由這一圖可以看出,可以使在低頻范圍側(cè)的估計(jì)誤差小于對(duì)于整個(gè)頻譜的整體搜索的情況下的相應(yīng)估計(jì)誤差。
圖11表示在低頻范圍側(cè)實(shí)施分部搜索的具體程序。
在步驟S16,設(shè)Pch=Final Pitch-(NUMP_FLF-1)/2×STEP_SIZEK=0Final Pitch是通過上述的對(duì)整個(gè)頻譜進(jìn)行整體搜索得到的音調(diào)。
在步驟S17,檢查“K等于(NUMP_FLT-1)/2”的條件是否滿足。如果這一條件下滿足,程序轉(zhuǎn)移到步驟S18。如果上述條件滿足,程序轉(zhuǎn)移到步驟S19。
在步驟S18,在程序轉(zhuǎn)移到步驟S20之前,根據(jù)音調(diào)Pch和輸入的語(yǔ)音信號(hào)的頻譜X(j),計(jì)算諧波的幅值|Am|和僅關(guān)于低頻范圍側(cè)的幅值誤差。下面解釋在這一步驟S18的具體實(shí)施。
在步驟S19,在程序轉(zhuǎn)移到步驟S20之前,設(shè)∈r1=min∈r1|A(m)|=Am_tmp(m)在步驟S20,檢查“∈r1小于min∈r或K=0”這一條件是否滿足。如果這種條件不滿足,程序不經(jīng)過步驟S21而進(jìn)行到步驟S22。假如上述條件滿足,程序轉(zhuǎn)移到步驟S21。
在步驟S21,設(shè)min∈r=∈r1Final Pitch_1=PchAm_1(m)=|A(m)|在步驟S22,設(shè)Pch=Pch+STEP_SIZEK=K+1在步驟S23,判別“K小于NUMP-FLT”這一條件是否滿足。如果這一條件滿足,程序回復(fù)到步驟S17。如果上述條件不滿足,程序轉(zhuǎn)移到步驟S24。
圖12具體表示由通過如圖9到11所示的對(duì)于頻譜的所有頻帶進(jìn)行整體搜索和對(duì)于高頻范圍側(cè)和低頻范圍側(cè)兩側(cè)進(jìn)行分部搜索得到的音調(diào)數(shù)據(jù)產(chǎn)生最終輸出的音調(diào)所實(shí)施的程序。
在步驟S24,利用由Am_1(m)中的低頻范圍側(cè)的Am_1(m)和由Am_h(m)中的高頻范圍側(cè)的Am_h(m)產(chǎn)生Final_Am(m)。
在步驟S25,檢查“Final Pitch_h小于20”的這一條件是否滿足。如果這一條件不滿足,程序不經(jīng)過步驟S26而進(jìn)行到步驟S27如果上述條件滿足,程序轉(zhuǎn)移到步驟S26。
在步驟26,設(shè)Final Pitch_h=20。
在步驟S27,檢查“Final Pitch_1小于20”的這一條件是否滿足。如果這一條件不滿足,程序不經(jīng)步驟S28而終止。如果上述條件滿足,程序轉(zhuǎn)移到步驟S28。
在步驟S28,設(shè)
Final Pitch_1=20終止該過程。
上述步驟S25到28表示最小音調(diào)按20限制的一種情況。
上述實(shí)施的程序提供了Final Pitch_1、Final Pitch_h和Final_Am(m)。
圖13和14表示為了根據(jù)通過上述音調(diào)檢測(cè)程序得到的音調(diào)而求出在由頻譜劃分的各頻帶中的最佳諧波的幅值的圖解式的途徑。
在步驟S30,設(shè)ω0=N/PchTh=N/2·β∈r1=0∈rh=0以及Send=[Pch2]]]>,其中ω0是在用一個(gè)音調(diào)描繪從低頻到高頻范圍的范圍的情況下的音調(diào)。N是用于在語(yǔ)音信號(hào)中的FFT化的LPC余值(residuals)中的采樣數(shù)目,Th是用于將低頻范圍側(cè)與高頻范圍側(cè)區(qū)分的一個(gè)系數(shù)。另一方面,β是按照-β=50/125的說明性的數(shù)值的預(yù)置變量。在上等式中,Send是在整個(gè)頻譜內(nèi)的諧波的數(shù)目,并通過對(duì)音調(diào)Pch/2的分?jǐn)?shù)部分進(jìn)行四舍五入而為一整數(shù)值。
在步驟S31,將m的數(shù)值置為零,該m是指明將頻譜在頻率軸上劃分為多個(gè)頻帶中的第m個(gè)頻帶即對(duì)應(yīng)于第m次諧波的頻帶的一個(gè)變量。
在步驟S32,檢查“m的數(shù)值為0”這一條件是否滿足。如果這一條件不滿足,程序轉(zhuǎn)移到步驟S33,如果上述條件滿足,程序轉(zhuǎn)移到步驟S34。
在步驟S33,設(shè)a(m)=b(m-1)+1在步驟S34,設(shè)a(m)設(shè)為0。
在步驟S35,設(shè)b(m)=hint((m+0.5)×ω0)其中nint取為一最接近的整數(shù)。
在步驟S36,檢查“b(m)不小于N/2”這一條件是否滿足。假如,這一條件不滿足,程序不經(jīng)過步驟S37而進(jìn)行到步驟S38。如果上述條件滿足,設(shè)b(m)=N/2-1在步驟S38,確定利用如下方程表示的諧波幅值|Am||A(m)|=Σj=ambmX(j)||E(nint{(j-mω0)})|Σj=ambm|E(nint{j-mω0})|2]]>在步驟S39,確定由如下方程表示的估計(jì)誤差∈(m)∈(m)=Σj=ambm(|X(j)|-|A(m)|E(nint{j-mω0})|)2]]>在步驟S40,判別“b(m)不大于Th”這一條件是否滿足。如果這一條件不滿足,程序轉(zhuǎn)移到步驟S41。如果上述條件滿足,程序轉(zhuǎn)移到步驟S42。
在步驟S41,設(shè)∈rh=∈rh+∈(m)在步驟S42,設(shè)∈r1=∈r1+∈(m)在步驟S43,設(shè)m=m+1在步驟S44,檢查“m不大于Send”這一條件是否滿足。如果這一條件滿足,程序回復(fù)到步驟S32。如果上述條件不滿足,過程終止。
如果使用按照速率R采樣乘以與X(j)同樣大的量得到的基頻E(j),分別利用如下方程提供諧波幅值|Am|和估計(jì)誤差∈(m)|A(m)|=Σj=ambm(|X(j)||E(nint+{j-mω0)·R})|Σj=ambm|E(nint+{(j-mω0)·R})|2]]>∈(m)=Σj=ambm(|X(j)|-|A(m)||E(nint+{(j-mω0)·R})|)2]]>
例如,可以采用通過在256點(diǎn)的漢明窗口中填充各零點(diǎn)和進(jìn)行2048點(diǎn)的FFT,接著進(jìn)行8倍的超密采樣得到的這樣的基頻E(j)。
對(duì)于在本發(fā)明的語(yǔ)音分析方法中的音調(diào)檢測(cè),通過對(duì)僅關(guān)于低頻范圍側(cè)∈r1的幅值誤差與僅關(guān)于高頻范圍側(cè)∈th的幅值誤差之和獨(dú)立地進(jìn)行最優(yōu)化使之最小,可以得到對(duì)于頻譜中的每一頻帶的諧波幅值最佳數(shù)值。
即,如果在上述步驟S18中僅需要該僅關(guān)于低頻范圍側(cè)∈r1的幅值誤差的和,這就足以進(jìn)行對(duì)于從m=0到m=Th的域內(nèi)的上述過程。相反,如果在步驟S10中僅需要該僅關(guān)于低頻范圍側(cè)∈rh的幅值誤差的和,這就足以進(jìn)行從m=Th到m=Send的域內(nèi)的上述過程。然而,在這種情況下需要對(duì)于低頻和高頻范圍側(cè)之間的輕微重疊區(qū)進(jìn)行接合部處理程序,以便防止由于在低頻和高頻范圍側(cè)之間的音調(diào)偏移在該接合部引起諧波的降低。
在用于進(jìn)行上述語(yǔ)音分析方法的編碼器中,無論需要哪一個(gè),實(shí)際發(fā)送的音調(diào)可以是Final Pitch_1或Final Pitch hO理由在于,如果在解碼器中對(duì)經(jīng)編碼的語(yǔ)音信號(hào)進(jìn)行合成和解碼時(shí),諧波的位置或多或少地產(chǎn)生偏移,在整頻譜內(nèi)能正確地估計(jì)諧波的幅值,因此不會(huì)存在問題。如果例如按照一種音調(diào)向解調(diào)器發(fā)送Final Pitch_1,在高頻范圍側(cè)的頻譜位置會(huì)在與固有的位置有輕微偏差的位置處。然而,這種偏差在音質(zhì)上感覺不是不偷快的。
當(dāng)然,如果在比特速率方面允許,可以按照音調(diào)參數(shù)發(fā)送Final Pitch_1或Final Pitch-h,或者,可以發(fā)送Final Pitch_1和Final Pitch-h之間的差,在哪一種隋況下,解碼器都要將Final Pitch_1和Final Pitch-h適用于低頻范圍側(cè)頻譜和高頻范圍側(cè)頻譜,以便進(jìn)行正弦分析,產(chǎn)生更自然的合成聲音。雖然整體搜索在上述實(shí)施例中是在整個(gè)頻譜內(nèi)進(jìn)行的,但可以在每個(gè)劃分的頻帶進(jìn)行整體搜索。
同時(shí),語(yǔ)音編碼裝置可以輸出不同比特速率的數(shù)據(jù),以滿足所需語(yǔ)音質(zhì)量的要求,因此輸出數(shù)據(jù)按變化的比特速率輸出。
具體地說,輸出數(shù)據(jù)的比特速率可以在低比特速率和高比特速率之間進(jìn)行轉(zhuǎn)換。例如,如果低比特速率是2Kbps(每秒千比特),高比特速率是6Kbps,輸出數(shù)據(jù)比特速率表示在圖15。
對(duì)于濁音部分由輸出端104輸出的音調(diào)信息始終按照8比特/20ms(8比特/20毫秒),在輸出端105的V/UV判定輸出始終為1比特/20ms。在輸出端102輸出的用于LSP量化的索引數(shù)據(jù)在32比特/40ms和48比特/40ms之間轉(zhuǎn)換。另一方面,對(duì)于在輸出端103輸出的濁音部分(V)的索引在15比特/20ms和87比特/20ms之間轉(zhuǎn)換,而對(duì)于清音部分(UV)的索引數(shù)據(jù)在11比特/10ms和23比特/5ms之間轉(zhuǎn)換。因此,對(duì)于濁音部分(V)的輸出數(shù)據(jù)分別為40比特/20ms和120比特/20ms,即各為2千比特/秒和6千比特/秒。對(duì)于清音部分(UV)的輸出數(shù)據(jù)分別為39比特/20ms和117比特/20ms,約為2千比特/秒和6千比特/秒。對(duì)用于LSP量化的索引數(shù)據(jù),用于濁音部分(V)的索引數(shù)據(jù)和用于清音部分(UV)的索引數(shù)據(jù)將結(jié)合相關(guān)的部分順序地解釋。
下面解釋在圖3所示的語(yǔ)音編碼器中的濁音/清音(V/UV)判定單元的具體結(jié)構(gòu)。
在濁音/清音(V/UV)判定單元115中,對(duì)于現(xiàn)時(shí)幀的V/UV判定是根據(jù)正交交換單元145的輸出,來自細(xì)微音調(diào)搜索單元146的最佳音調(diào),來自頻譜估計(jì)單元148的頻譜幅值數(shù)據(jù)、來自開環(huán)音調(diào)搜索單元141的自相關(guān)量r’(1)的歸一化的最大值和來自過零點(diǎn)計(jì)數(shù)器412的過零點(diǎn)計(jì)數(shù)值做出的。以頻帶為基礎(chǔ)的V/UV判定結(jié)果中的邊界位置與對(duì)于MBE的對(duì)應(yīng)邊界位置相類似,也被用作對(duì)現(xiàn)時(shí)幀的V/UV判定的一個(gè)條件。
下面解釋采用對(duì)于MBE以頻帶為基礎(chǔ)的V/DV判定結(jié)果的V/UV判定結(jié)果。
由如下方程表示一代表用于MBE的m次諧波幅值或幅值|Am|的參數(shù)|&Agr;(m)|=Σj=amb|Ξ(j)||&Egr;(j)|Σj=ambm|&Egr;(j)|2]]>在上述方程中,|X(j)|是根據(jù)對(duì)LPC余值進(jìn)行DFT得到的頻譜,而|E(j)|是根據(jù)對(duì)256點(diǎn)的漢明窗口進(jìn)行DFT得到的基準(zhǔn)信號(hào)的頻譜。由如下方程表示信噪比(NSR)NSR=Σj=ambm{|X(j)|-|Am||E(j)|}2Σj=ambm|S(j)|2]]>
如果NSR值大于預(yù)設(shè)的閾值,例如為0.3,即如果誤差較大,對(duì)于該頻帶接近|X(j)|乘|An| |E(j)|,可以判定為不良,即該激勵(lì)信號(hào)|E(j)|判定作為基準(zhǔn)是不適當(dāng)?shù)?。因此,該頻帶被判定為清音(UV)部分。否則,該近似值可被判定為是很好滿足要求的,這樣該頻帶被判別為是濁音(V)部分。
各個(gè)頻帶(諧波)的NSR代表由一個(gè)諧波到另一個(gè)諧波的頻譜相似性。利用如下方程確定具有該NSR或NSRall(全)的諧波的按增益加權(quán)的和NSRall=(∑m|Am|NSRm)/(∑m|Am|)根據(jù)這一頻譜相似性NSRall是大于還是小于某一閾值,確定用于V/UV的標(biāo)準(zhǔn)基礎(chǔ)。這里這一閾值設(shè)為ThNSR=0.3。這一標(biāo)準(zhǔn)值是與LPC余值的自相關(guān)作用的最大值、幀功率和過零點(diǎn)相關(guān)的。按照一用于NSRall<ThNSR的標(biāo)準(zhǔn)基礎(chǔ),如果該標(biāo)準(zhǔn)是適用的,或者沒有適用的標(biāo)準(zhǔn),則該幀分別是V或UV。
具體標(biāo)準(zhǔn)如下按照NSRall<ThNSR,如果numZeroXP<24,frmPow>340和ro>0.32,則該幀是V。
按照NSRall≥ThNSR,如果numZeroXP>30,frmPow<9040和ro<0.23,則該幀是UV。
根據(jù)上述,各變量定義如下numZeroXP每幀過零次數(shù)fmPow幀功率r’(1)最大自相關(guān)作用值通過參照作為一組按照上述確定的那些標(biāo)準(zhǔn)的標(biāo)準(zhǔn)基礎(chǔ),進(jìn)行V/UV判定。同時(shí),如果對(duì)于多個(gè)頻帶的音調(diào)搜索適用于對(duì)MBE的以頻帶為基礎(chǔ)的V/UV判定,可以防止由于諧波位移形成的錯(cuò)誤操作的產(chǎn)生,使之能更精確地進(jìn)行V/UV判定。
如上所述的信號(hào)編碼裝置和信號(hào)解碼裝置可以用作語(yǔ)音編碼解碼器,如用于在圖16和17中的實(shí)例所示的便攜式通信終端或便攜式電話。
具體地說,圖16表示采用如在圖1和圖3中所示構(gòu)成的語(yǔ)音編碼單元160的便攜式終端中的發(fā)送端的結(jié)構(gòu)。利用放大器162對(duì)利用拾音器161匯集的語(yǔ)音信號(hào)進(jìn)行放大,并利用A/D變換器163變換為數(shù)字信號(hào),然后再送到語(yǔ)音編碼單元60。這一語(yǔ)音編碼單元160是按照?qǐng)D1和圖3所示構(gòu)成的。來自A/D變換器163的數(shù)字信號(hào)送到單元160的輸入端101。語(yǔ)音編碼單元160按照參照?qǐng)D1和圖3所解釋的進(jìn)行編碼操作。圖1和圖2中的輸出端上的輸出信號(hào)作為語(yǔ)音編碼單元160的輸出信號(hào)送到發(fā)送信道中的編碼單元164,在其中將信道編碼附加到該信號(hào)上。發(fā)送信道中的編碼單元164的輸出信號(hào)送到用于調(diào)制電路165中進(jìn)行調(diào)制,所形成的調(diào)制信號(hào)經(jīng)過(D/A)數(shù)/模變換器166和RF放大器送到天線168。
圖17表示利用具有如在圖2和圖4所示基本結(jié)構(gòu)的語(yǔ)音解碼單元260的便攜式終端的接收器結(jié)構(gòu)。利用RF放大器262放大由圖17中的天線261接收的語(yǔ)音信號(hào),并經(jīng)過模/數(shù)(A/D)變換器263送到解調(diào)電路264進(jìn)行解調(diào)。經(jīng)解調(diào)的信號(hào)送到傳輸信道中的解碼單元265。解碼電路264的輸出信號(hào)送到語(yǔ)音解碼單元,在其中進(jìn)行參照?qǐng)D2解釋的解碼。圖2中的輸出端的輸出信號(hào)作為來自語(yǔ)音解碼單元260的信號(hào)送到數(shù)/模(D/A)變換器266,它的輸出的模擬量語(yǔ)音信號(hào)送到揚(yáng)聲器。
本發(fā)明并不局限于僅用于描述本發(fā)明的上述實(shí)施例。例如,圖1和圖3中的語(yǔ)音分析側(cè)(編碼器側(cè))的結(jié)構(gòu),或者圖2和4中的語(yǔ)音合成側(cè)(解碼器側(cè))的結(jié)構(gòu),可以利用所謂的數(shù)字信號(hào)處理器(DSP)利用軟件編程來實(shí)現(xiàn)。本發(fā)明的應(yīng)用范圍并不限于傳輸或記錄/重現(xiàn),而是可用于音調(diào)壓縮變換、速度變換、利用標(biāo)準(zhǔn)合成語(yǔ)聲或噪聲抑制。
在圖3中的按照硬件解釋的語(yǔ)音分析側(cè)(編碼側(cè))的結(jié)構(gòu)可以利用所謂的數(shù)字信號(hào)處理器(DSP)通過軟件編程以類似方式實(shí)現(xiàn)。
本發(fā)明并不限于傳輸或記錄/重現(xiàn),而是可以適用于各種其它應(yīng)用,例如音調(diào)變換,速度變換、利用標(biāo)準(zhǔn)合成語(yǔ)音或噪聲抑制。
權(quán)利要求
1.一種語(yǔ)音分析方法,按照該方法,根據(jù)預(yù)設(shè)的編碼單位將輸入的語(yǔ)音信號(hào)沿時(shí)間軸劃分,檢測(cè)等效于如此劃分為編碼單位的語(yǔ)音信號(hào)的基本周期的音調(diào),及根據(jù)檢測(cè)的音調(diào)從一個(gè)編碼單位到另一個(gè)編碼單位分析語(yǔ)音信號(hào),包含以下步驟將對(duì)應(yīng)于輸入語(yǔ)音信號(hào)的信號(hào)的頻譜劃分成在頻率軸上的多個(gè)頻帶;以及利用由一個(gè)頻帶到另一個(gè)頻帶按照頻譜形狀形成的音調(diào),同時(shí)進(jìn)行音調(diào)搜索和諧波幅值的估計(jì)。
2.如權(quán)利要求1所述的語(yǔ)音分析方法,其特征在于所說頻譜形狀是由諧波結(jié)構(gòu)的。
3.如權(quán)利要求1所述的語(yǔ)音分析方法,其特征在于所說音調(diào)搜索和諧波幅值估計(jì)是根據(jù)由開環(huán)搜索先前檢測(cè)的粗略音調(diào)進(jìn)行的。
4.如權(quán)利要求1所述的語(yǔ)音分析方法,其特征在于音調(diào)搜索是高精度音調(diào)搜索,由根據(jù)通過所述粗略音調(diào)搜索檢測(cè)的粗略音調(diào)進(jìn)行的第一音調(diào)搜索以及精度高于所述第一音調(diào)搜索的第二音調(diào)搜索構(gòu)成,以及其中所述第二音調(diào)搜索在頻譜的高頻范圍側(cè)和低頻范圍側(cè)中的每一側(cè)是獨(dú)立進(jìn)行的。
5.如權(quán)利要求1所述的語(yǔ)音分析方法,其特征在于所說第一音調(diào)搜索是對(duì)頻譜按其整體進(jìn)行的,以及其中第二音調(diào)搜索對(duì)于該頻譜中的低頻范圍側(cè)和低頻范圍側(cè)是獨(dú)立進(jìn)行的。
6.一種語(yǔ)音編碼方法,其特征在于根據(jù)預(yù)設(shè)的編碼單位將輸入的語(yǔ)音信號(hào)在時(shí)間軸上劃分,檢測(cè)等效于如此被劃分為編碼單位的語(yǔ)音信號(hào)的基本周期的音調(diào),以及根據(jù)檢測(cè)的音調(diào)從一個(gè)編碼單位到另一個(gè)編碼單位對(duì)語(yǔ)音信號(hào)進(jìn)行編碼,包含以下步驟將對(duì)應(yīng)于輸入的語(yǔ)音信號(hào)的信號(hào)的頻譜劃分為在頻率軸上的多個(gè)頻帶;以及利用由一個(gè)頻帶到另一個(gè)頻帶的頻譜波形形成的音調(diào)同時(shí)進(jìn)行音調(diào)搜索和諧波幅值估算。
7.如權(quán)利要求6所述的信號(hào)編碼方法,其特征在于所說頻譜的形狀是諧波結(jié)構(gòu)的,以及其中所說高精度音調(diào)搜索包含根據(jù)利用所述粗略搜索檢測(cè)的粗略音調(diào)進(jìn)行第一音調(diào)搜索和精度高于所述第一音調(diào)搜索的第二音調(diào)搜索,第二音調(diào)搜索是在同時(shí)進(jìn)行的音調(diào)搜索和諧波幅值估計(jì)的步驟中進(jìn)行的。
8.如權(quán)利要求6所述的信號(hào)編碼方法,其特征在于所述第一音調(diào)搜索是對(duì)頻譜按整體進(jìn)行的,以及其中所述第二音調(diào)搜索是在頻譜中的高頻范圍側(cè)和低頻范圍側(cè)中的每一側(cè)獨(dú)立進(jìn)行的。
9.一種語(yǔ)聲編碼裝置,其特征在于根據(jù)預(yù)設(shè)的編碼單位將輸入的語(yǔ)音信號(hào)在時(shí)間軸上劃分,檢測(cè)等效于如此劃分成編碼單位的語(yǔ)音信號(hào)的基本周期的音調(diào),以及根據(jù)檢測(cè)的音調(diào)由一個(gè)編碼單位到另一個(gè)編碼單位分析該語(yǔ)音信號(hào),該裝置包含一裝置,用于將對(duì)應(yīng)于輸入的語(yǔ)音信號(hào)的信號(hào)的頻譜在頻率軸上劃分為多個(gè)頻帶;以及一裝置,用于利用由頻譜中的從一個(gè)頻帶到另一個(gè)頻帶形成的音調(diào),同時(shí)進(jìn)行音調(diào)搜索和諧波幅值估算。
10.如權(quán)利要求9所述的信號(hào)編碼裝置,其特征在于頻譜的形狀是諧波結(jié)構(gòu)的,以及所述用于同時(shí)進(jìn)行音調(diào)搜索和諧波幅值估計(jì)的裝置進(jìn)行高精度音調(diào)搜索,其包含由粗略音調(diào)搜索檢測(cè)的粗略音調(diào)進(jìn)行的第一音調(diào)搜索以及精度高于第一音調(diào)搜索的第二音調(diào)搜索。
11.如權(quán)利要求9所述的信號(hào)編碼裝置,其特征在于所述的第一音調(diào)搜索是對(duì)于頻譜整體進(jìn)行的,以及其中所述第二音調(diào)搜索在頻譜中的高頻范圍側(cè)和低頻范圍側(cè)中的每一側(cè)中獨(dú)立地進(jìn)行。
全文摘要
語(yǔ)音分析方法和語(yǔ)音編碼方法和裝置,即使語(yǔ)音頻譜中的諧波與基波的整數(shù)倍有偏差,可以正確地估計(jì)諧波的幅值,產(chǎn)生高清晰度的重放輸出。為此,輸入的語(yǔ)音的頻譜在頻率軸上被劃分為多個(gè)頻帶,在其中的每一頻帶中利用由頻譜形狀形成的最佳音調(diào)同時(shí)進(jìn)行音調(diào)搜索和諧波幅值估計(jì)。利用作為頻譜形狀的諧波結(jié)構(gòu),和根據(jù)通過開環(huán)粗略音調(diào)搜索先前檢測(cè)的粗略音調(diào),進(jìn)行高精度音調(diào)搜索。
文檔編號(hào)H04B14/04GK1187665SQ9712600
公開日1998年7月15日 申請(qǐng)日期1997年10月17日 優(yōu)先權(quán)日1996年10月18日
發(fā)明者西口正之, 松本淳, 飯島和幸, 井上晃 申請(qǐng)人:索尼公司