語(yǔ)音分析方法和語(yǔ)音編碼方法及其裝置的制作方法

文檔序號(hào)：7573917閱讀：203來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：語(yǔ)音分析方法和語(yǔ)音編碼方法及其裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語(yǔ)音分析方法，按照這種方法輸入語(yǔ)音信號(hào)被劃分成作為編碼單位的各數(shù)據(jù)塊或者各幀，檢測(cè)與以編碼單位為基礎(chǔ)的語(yǔ)音信號(hào)的基頻周期相對(duì)應(yīng)的音調(diào)，并且按照該方法根據(jù)所檢測(cè)的一個(gè)編碼單位到另一個(gè)編碼單位的音調(diào)分析語(yǔ)音信號(hào)。本發(fā)明還涉及一種采用這種語(yǔ)音分析方法的語(yǔ)音編碼方法和裝置。
迄今為止，已有各種編碼方法，通過利用在時(shí)域、頻域的統(tǒng)計(jì)特性和人的音質(zhì)特性對(duì)聲音信號(hào)(包括語(yǔ)音信號(hào)和一般聲音信號(hào))進(jìn)行編碼以實(shí)現(xiàn)信號(hào)壓縮。編碼方法可以粗略地分為時(shí)域編碼，頻域編碼和分析/合成編碼。
例如，高效語(yǔ)音信號(hào)編碼包含正弦波分析編碼，例如諧波編碼或多頻帶激勵(lì)(MBE)編碼，分頻帶編碼(SBC)，線性預(yù)測(cè)編碼(LPC)，離散余弦變換(DCT)，改進(jìn)的DCT(MDCT)和快速傅里葉變換(FFT)。
在用于LPC余值、MBE、STC或者諧波編碼的常規(guī)的諧波編碼方法中，對(duì)于粗略音調(diào)的音調(diào)搜索是在開環(huán)中進(jìn)行的，其后進(jìn)行對(duì)細(xì)微音調(diào)的高精度的音調(diào)搜索。在對(duì)細(xì)微音調(diào)進(jìn)行搜索的過程中，高精度的音調(diào)搜索(對(duì)于部分音調(diào)的搜索利用小于一個(gè)整數(shù)的采樣值)和對(duì)頻域內(nèi)波形的幅值估計(jì)是同時(shí)進(jìn)行的。進(jìn)行這種高精度的音調(diào)搜索是為了使頻譜的合成波形在其整個(gè)范圍內(nèi)，即合成頻譜和初始頻譜，例如LPC余值頻譜的畸變降至最少。
然而，在人的語(yǔ)音的頻譜中，不一定出現(xiàn)頻率對(duì)應(yīng)于整數(shù)倍基波的頻譜部分。相反，這些頻譜部分會(huì)沿頻率軸線輕微地移動(dòng)。在這種情況下，即使利用一單個(gè)基波或在語(yǔ)音信號(hào)的整個(gè)頻譜范圍內(nèi)的音調(diào)進(jìn)行高精度音調(diào)的搜索，也可能無法正確在實(shí)現(xiàn)頻譜幅值的正確估計(jì)。
因此，本發(fā)明的目的是提供一種語(yǔ)音分析方法，用于正確地估計(jì)語(yǔ)音頻譜中與整數(shù)倍基波存在偏差的諧波的幅值，以及提供一種利用上述語(yǔ)音分析方法產(chǎn)生一高清晰度放音輸出的方法和裝置。
在本發(fā)明所述的語(yǔ)音分析方法中，按照預(yù)設(shè)的編碼單位，將輸入的語(yǔ)音信號(hào)在時(shí)間軸上劃分，檢測(cè)等同于如此劃分為編碼單位的語(yǔ)音信號(hào)的基本周期的音調(diào)，并且，根據(jù)所檢測(cè)的從一個(gè)編碼單位到另一個(gè)編碼單位的音調(diào)分析語(yǔ)音信號(hào)。該方法包含以下步驟將與輸入的語(yǔ)音信號(hào)相對(duì)應(yīng)的信號(hào)的頻譜分解成在頻率軸上的多個(gè)頻帶，利用由從一個(gè)頻帶到另一個(gè)頻帶的頻譜形狀形成的音調(diào)同時(shí)進(jìn)行音調(diào)搜索和諧波幅值的估計(jì)。
根據(jù)本發(fā)明中的語(yǔ)音分析方法，可以正確地估計(jì)與整數(shù)倍基波有偏差的諧波的幅值。
在本發(fā)明的編碼方法和裝置中，輸入的語(yǔ)音信號(hào)在時(shí)間軸上劃分成預(yù)設(shè)的多個(gè)編碼單位，檢測(cè)與在每個(gè)編碼單位中的語(yǔ)音信號(hào)的基本周期相對(duì)應(yīng)的音調(diào)，并且根據(jù)所檢測(cè)的從一個(gè)編碼單位到另一個(gè)編碼單位的音調(diào)對(duì)語(yǔ)音信號(hào)進(jìn)行編碼。將對(duì)應(yīng)于輸入語(yǔ)音信號(hào)的信號(hào)頻譜劃分成頻率軸上的多個(gè)頻帶，并且，利用由從一個(gè)頻帶到另一個(gè)頻帶的頻譜形狀形成的音調(diào)同時(shí)進(jìn)行音調(diào)搜索和諧波幅值的估計(jì)。
根據(jù)本發(fā)明中的語(yǔ)音分析方法，可以正確估計(jì)與整數(shù)倍基波有偏差的諧波的幅值，因此產(chǎn)生一高清晰度的無嗡嗡聲感覺或畸變的放音輸出。
具體地說，輸入語(yǔ)音信號(hào)的頻譜在頻率軸上劃分成多個(gè)頻帶，在每一個(gè)頻帶中音調(diào)搜索和諧波幅值估計(jì)是同時(shí)進(jìn)行的。頻譜形狀是由諧波構(gòu)成的。根據(jù)先前利用開環(huán)粗略音調(diào)搜索檢測(cè)的粗略音調(diào)對(duì)頻譜整體進(jìn)行第一音調(diào)搜索，同時(shí)進(jìn)行在精度上高于第一音調(diào)搜索的第二音調(diào)搜索，對(duì)頻譜的每個(gè)高頻范圍側(cè)和低頻范圍側(cè)進(jìn)行獨(dú)立的搜索?？梢詼?zhǔn)確地估計(jì)與整數(shù)倍基波有偏差的語(yǔ)音頻譜的諧波幅值，從而產(chǎn)生一高清晰度放音輸出。

圖1是表示適于實(shí)現(xiàn)體現(xiàn)本發(fā)明的語(yǔ)音編碼方法的語(yǔ)音編碼裝置的基本結(jié)構(gòu)的方塊圖。
圖2是表示適于實(shí)現(xiàn)體現(xiàn)本發(fā)明的語(yǔ)音編碼方法的語(yǔ)音編碼裝置的基本結(jié)構(gòu)的方塊圖。
圖3是表示適于體現(xiàn)本發(fā)明的語(yǔ)音編碼裝置的更詳細(xì)結(jié)構(gòu)的方塊圖。
圖4是表示適于體現(xiàn)本發(fā)明的語(yǔ)音編碼裝置的更詳細(xì)結(jié)構(gòu)的方塊圖。
圖5是表示估計(jì)諧波幅值的基本操作程序。
圖6是表示逐幀處理的頻譜的重疊情況。
圖7a和7b是表示基準(zhǔn)的發(fā)生。
圖8a、8b和8c表示整體搜索和分部搜索。
圖9是表示典型的整體搜索操作程序的流程圖。
圖10是表示在高頻范圍內(nèi)典型的整體搜索操作程序的流程圖。
圖11是表示在一低頻范圍內(nèi)整體搜索操作程序的流程圖。
圖12是表示用于最后設(shè)定音調(diào)的典型操作程序的流程圖。
圖13是表示對(duì)每一頻域求出諧波幅值最佳值的典型操程序的流程圖。
圖14是圖13的接續(xù)，用于表示對(duì)每一頻域求出諧波幅值最佳值的典型的操作程序的流程圖。
圖15是表示輸出數(shù)據(jù)的比特速率。
圖16是表示采用體現(xiàn)本發(fā)明的語(yǔ)音編碼裝置的便攜式終端中的發(fā)射端結(jié)構(gòu)的方塊圖。
圖17是表示采用體現(xiàn)本發(fā)明的語(yǔ)音編碼裝置的便攜式終端中的接收端結(jié)構(gòu)的方塊圖。
下面參照附圖，對(duì)本發(fā)明優(yōu)選實(shí)施例進(jìn)行更詳細(xì)的說明。
圖1是表示語(yǔ)音編碼裝置(語(yǔ)音編碼器)的基本結(jié)構(gòu)，以實(shí)現(xiàn)該體現(xiàn)本發(fā)明的語(yǔ)音分析方法和語(yǔ)音編碼方法。
圖1所示的作為語(yǔ)音信號(hào)編碼器基礎(chǔ)的基本原理是編碼器具有第一編碼單元110，用于求出輸入語(yǔ)音信號(hào)的短期預(yù)測(cè)余值，例如線性預(yù)測(cè)編碼(LPC)余值，以便進(jìn)行正弦分析編碼例如諧波編碼；和第二編碼單元120，用于利用該具有相位復(fù)現(xiàn)性的信號(hào)波形編碼方式對(duì)輸入語(yǔ)音信號(hào)編碼，第一編碼單元110和第二編碼單元120分別用于對(duì)輸入信號(hào)的發(fā)濁音(V)部分編碼和對(duì)輸入信號(hào)的發(fā)清音(UV)部分編碼。
第一編碼單元110采用一種編碼結(jié)構(gòu)，其利用正弦分析編碼例如諧波編碼或多頻帶激勵(lì)(MBE)編碼方式對(duì)例如LPC余值進(jìn)行編碼。第二編碼單元120采用一種結(jié)構(gòu)，其利用閉環(huán)搜索和使用例如合成方法分析的閉環(huán)搜索的最佳矢量值，利用矢量量化進(jìn)行按代碼激勵(lì)的線性預(yù)測(cè)(CELP)。
在圖1所示的實(shí)施例中，提供到輸入端101的語(yǔ)音信號(hào)傳送到LPC反濾波器111和第一編碼單元110中的LPC分析和量化單元113。利用LPC分析量化單元113得到的LPC系數(shù)或所謂的α-參數(shù)送到第一編碼單元110中的LPC反濾波器111。從LPC反濾波器111提取輸入語(yǔ)音信號(hào)的線性預(yù)測(cè)余值(LPC余值)。從LPC分析量化單元113，提取一線性頻譜對(duì)(LSPs)的量化輸出并傳送到輸出端102，下文予以解釋。從LPC反濾波器111得到的LPC余值送到正弦分析編碼單元114。正弦分析編碼單元114進(jìn)行音調(diào)檢測(cè)并計(jì)算頻譜包絡(luò)線的幅值值，以及利用一V/UV鑒別單元115進(jìn)行V/UV鑒別。從正弦分析編碼單元114得到的頻譜包絡(luò)線的幅值傳送到矢量量化單元116。作為頻譜包絡(luò)線的按矢量-量化的輸出、來自矢量量化單元116的代碼簿索引，通過一開關(guān)117送到輸出端103，同時(shí)，正弦分析編碼單元114的輸出通過開關(guān)118送到輸出端104。V/UV鑒別單元115的一V/UV鑒別輸出送到輸出端105并作為一控制信號(hào)送到開關(guān)117、118。如果輸入的語(yǔ)音信號(hào)是濁音(V)，則該索引和音調(diào)分別在輸出端103、104選擇和取出。
在圖1所示本實(shí)施例中的第二編碼單元120，具有一代碼激勵(lì)線性預(yù)測(cè)編碼(CELP編碼)結(jié)構(gòu)；和利用一閉環(huán)搜索采用一合成法分析對(duì)時(shí)域波形進(jìn)行矢量-量化，其中噪聲代碼簿121的輸出是利用一加權(quán)合成濾波器進(jìn)行合成的，形成的加權(quán)的語(yǔ)音送到減法器123，加權(quán)語(yǔ)音和提供給輸入端101并從該處通過按聲覺加權(quán)的濾波器125的語(yǔ)音信號(hào)之間的誤差被取出，因此將得出的誤差送到間距計(jì)算電路124，以便進(jìn)行間距計(jì)算，并利用噪聲代碼簿121搜索一使誤差最小的矢量。如前面說明的，CELP編碼用于對(duì)發(fā)清音的語(yǔ)音部分編碼。作為來自噪聲代碼簿121的UV數(shù)據(jù)的代碼簿索引經(jīng)過開關(guān)127在輸出端107取出，該開關(guān)當(dāng)V/UV鑒別的結(jié)果是清音(UV)時(shí)按通。
圖2是表示語(yǔ)音信號(hào)解碼器基本結(jié)構(gòu)的方塊圖，作為圖1中語(yǔ)音信號(hào)編碼器的配對(duì)裝置，用于實(shí)現(xiàn)完成本發(fā)明的語(yǔ)音解碼方法。
參照?qǐng)D2，作為來自圖1所示輸出端102的線性頻譜對(duì)(LSP)的量化輸出的一代碼簿索引提供到輸入端202。圖1中輸出端103、104和105的輸出，即間距、V/UV鑒別輸出和索引數(shù)據(jù)，作為包絡(luò)線量化輸出數(shù)據(jù)分別提供到輸入端203到205。由圖1的輸出端107輸出的發(fā)清音數(shù)據(jù)的索引數(shù)據(jù)提供到輸入端207。
作為輸入端203的包絡(luò)線量化輸出的索引送到用于反矢量量化的一反矢量量化單元212，以求出送到一濁音語(yǔ)音合成器211的一LPC余值的頻譜包絡(luò)線。濁音語(yǔ)音合成器211利用正弦合成法合成濁音語(yǔ)音的線性預(yù)測(cè)編碼(LPC)余值。將來自輸入端204、205的音調(diào)和V/UV鑒別輸出也送入合成器214。來自濁音語(yǔ)音合成單元211的濁音語(yǔ)音部分的LPC余值送給一LPC合成濾波器214。來自輸入端207的UV數(shù)據(jù)的索引數(shù)據(jù)送到清音語(yǔ)音合成單元220，在其中為了取得清音語(yǔ)音部分的LPC余值，必須參考噪聲代碼簿。將這些LPC余值也傳送到LPC合成濾波器214。在LPC合成濾波器214中，濁音部分的LPC余值和清音部分的LPC余值利用LPC合成獨(dú)立進(jìn)行處理。另一方面，合在一起的濁音部分LPC余值和清音部分的余值可以利用LPC合成進(jìn)行處理。來自輸入端202的LSP索引數(shù)據(jù)送到LPC參數(shù)再現(xiàn)單元213，在其中將LPC的α-參數(shù)取出并送到LPC合成濾波器214。利用LPC合成濾波器214合成的語(yǔ)音信號(hào)在輸出端201取出。
參照?qǐng)D3，說明圖1中表示的語(yǔ)音信號(hào)編碼器的更詳細(xì)的結(jié)構(gòu)。在圖3中，與圖1所示相同的部件或元件利用相同的參考數(shù)字表示。
在圖3所示的語(yǔ)音信號(hào)編碼器中，提供到輸入端101的語(yǔ)音信號(hào)利用高通濾波器HPF109濾波，用以去掉無用范圍的信號(hào)，并由此傳送到LPC分析/量化單元113的LPC分析電路132和反LPC濾波器111。
LPC分析/量化單元113的LPC分析電路132使用一漢明窗口(具有按照采樣頻率Fs＝8千赫得到的輸入信號(hào)波形的256個(gè)量級(jí)的采樣的輸入信號(hào)波形長(zhǎng)度)作為一個(gè)數(shù)據(jù)塊，利用自相關(guān)法求出線性預(yù)測(cè)系數(shù)，即所謂的α-參數(shù)。作為數(shù)據(jù)輸出單位的成幀間隔設(shè)定為大約160采樣值。如果采樣頻率為8千赫，例如一幀間隔為20毫秒或160采樣。
來自LPC分析電路132的α參數(shù)送到α-LSP變換電路133，用以變換為線性頻譜對(duì)(LSP)參數(shù)。這樣將利用直接型濾波器系數(shù)求出的α參數(shù)變換為例如10個(gè)即5對(duì)LSP參數(shù)。實(shí)現(xiàn)這一變換采用例如Newton-Rhapson方法。將α參數(shù)變換成LSP參數(shù)的原因是LSP參數(shù)在內(nèi)插特性上優(yōu)于α參數(shù)。
來自α-LSP變換電路133的LSP參數(shù)利用LSP量化器134進(jìn)行矩陣或矢量量化?？梢栽谶M(jìn)行矢量量化之前，取幀與幀的差，或匯集多個(gè)幀進(jìn)行矩陣量化。在這種情況下，每20毫秒計(jì)算的兩個(gè)幀的LSP參數(shù)(每幀為20毫秒長(zhǎng))一起使用并利用矩陣量化和矢量量化進(jìn)行處現(xiàn)，為了在LSP范圍內(nèi)量化LSP參數(shù)，α或K參數(shù)可以直接進(jìn)行量化。量化器134的量化輸出，即LSP量化的索引數(shù)據(jù)，可以在102端取出，同時(shí)，量化的LSP矢量直接送到LSP內(nèi)插電路136。
LSP內(nèi)插電路136內(nèi)插按每20毫秒或40毫秒量化的LSP矢量，以提供八倍速率(超密采樣)。即，LSP矢量每2.5毫秒進(jìn)行更新。原因在于，如果利用諧波編碼解碼方法通過分析/合法處理余留波形，則合成的波形的包絡(luò)線呈現(xiàn)出非常光滑的波形，從而，如果每20毫秒LPC系數(shù)突然變化，則可能會(huì)產(chǎn)生一種不相干的噪聲。即，如果LPC系數(shù)每2.5毫秒逐漸變化一次，就可以防止這種不相干的噪聲產(chǎn)生。
為了利用每2.5毫秒產(chǎn)生的內(nèi)插LSP矢量對(duì)輸入語(yǔ)音進(jìn)行反濾波，將量化LSP參數(shù)利用LSP-至-α變換電路137變換為α-參數(shù)，其為例如10級(jí)直接型濾波器的濾波器系數(shù)。當(dāng)利用每2.5毫秒更新的α參數(shù)進(jìn)行反濾波以產(chǎn)生一平滑的輸出時(shí)，LSP-向-α變換電路137的輸出送到LPC反濾波器電路111。反LPC濾波器111的輸出送到正弦分析編碼單元114(例如一諧波編碼電路)中的正交變換電路145，例如DCT電路。
從LPC分析/量化單元113中的LPC分析電路132得到的α-參數(shù)送到按聲覺加權(quán)濾波器計(jì)算電路139，在其中求出按聲覺加權(quán)的數(shù)據(jù)。將這些加權(quán)的數(shù)據(jù)送到按聲覺加權(quán)矢量量化器116和送到第二編碼單元120中的按聲覺加權(quán)濾波器125和按聲覺加權(quán)合成濾波器122。
諧波編碼電路中的正弦分析編碼單元114利用諧波編碼方法分析反LPC濾波器111的輸出。即，進(jìn)行音調(diào)檢測(cè)，對(duì)各個(gè)諧波的幅值A(chǔ)m的計(jì)算和對(duì)濁音(V)部分/清音(UV)部分進(jìn)行鑒別，以及通過維的變換，可使隨音調(diào)變化的為數(shù)很多的各個(gè)幅值A(chǔ)m或各個(gè)諧波的包絡(luò)線成為恒定不變的。
在圖3中所示的正弦分析編碼單元114的示例中，使用了常用的諧波編碼。尤其是在多頻帶激勵(lì)(MBE)編碼中，假設(shè)在模型化過程中在每個(gè)頻率區(qū)域或頻帶內(nèi)同一時(shí)間點(diǎn)(在同一數(shù)據(jù)塊或幀內(nèi))出現(xiàn)濁音部分或清音部分。在其它的諧波編碼技術(shù)中，唯一判斷的是在一數(shù)據(jù)塊或在一幀內(nèi)的語(yǔ)音是濁音還是清音。在下面的說明中，如果整個(gè)頻帶是UV，則判斷指定的幀是UV，在這種情況下涉及到MBE編碼。對(duì)MBE的分析合成方法的技術(shù)的具體實(shí)施例在以本申請(qǐng)的受讓人名義申請(qǐng)的專利申請(qǐng)?zhí)枮镹o.491442的日本專利申請(qǐng)中可以找到。
圖3所示正弦分析編碼單元114的開環(huán)音調(diào)搜索單元141和過零計(jì)數(shù)器142分別由從輸入端101輸入語(yǔ)音信號(hào)和通過高通濾波器(HPF)109輸入信號(hào)。向正弦分析編碼單元114的正交變換電路145提供有來自反LPC濾波器111的LPC余值或線性預(yù)測(cè)余值。
開環(huán)音調(diào)搜索單元141取得輸入信號(hào)的LPC余值，以便利用開環(huán)搜索實(shí)現(xiàn)對(duì)較粗略的音調(diào)的搜索。提取的粗略音調(diào)數(shù)據(jù)送到正如下面說明的細(xì)微音調(diào)搜索單元，在其中利用閉環(huán)搜索進(jìn)行細(xì)微音調(diào)的搜索。使用的音調(diào)數(shù)據(jù)稱其為音調(diào)滯后，即表示為時(shí)間軸上采樣的數(shù)目的音調(diào)周期。濁音/清音(V/UV)判別單元115的判別輸出還可以用作為開環(huán)音調(diào)搜索的一個(gè)參數(shù)。值得注意的是只能將從判斷為濁音(V)的語(yǔ)聲信號(hào)部分提取的音調(diào)信息用于上述開環(huán)音調(diào)搜索。
正交變換電路145進(jìn)行正交變換，例如256點(diǎn)離散傅里葉變換(DFT)，將在時(shí)間軸上的LPC余值變換為在頻率軸上的頻譜幅值數(shù)據(jù)。正交交換電路145的輸出送到細(xì)微音調(diào)搜索單元146和其構(gòu)成用于估計(jì)頻譜幅值或包絡(luò)線的頻譜估計(jì)單元148。
將利用從開環(huán)音調(diào)搜索單元141提取的相對(duì)粗略的音調(diào)數(shù)據(jù)，以及通過DFT利用正交變換單元145獲得的頻域數(shù)據(jù)，輸入細(xì)微音調(diào)搜索單元146。在粗略音調(diào)Po的基礎(chǔ)上，細(xì)微音調(diào)搜索單元146實(shí)現(xiàn)由整體搜索和分部搜索構(gòu)成的兩步高精度音調(diào)搜索。
整體搜索是一種音調(diào)提取方法，按照該方法，一組采樣值以粗略音調(diào)為中心振蕩，從而選擇音調(diào)。分部搜索是一種音調(diào)檢測(cè)的方法，按照這種方法，一部分?jǐn)?shù)目的采樣值，即利用部分?jǐn)?shù)目表示的一定數(shù)目的采樣值以該粗略音調(diào)為中心變動(dòng)，以便選擇音調(diào)。
對(duì)于上述整體搜索和分部搜索的技術(shù)，所謂分析-合成方法是用于選擇音調(diào)以使合成的功率譜與原始語(yǔ)聲功率譜最接近。
在頻譜估計(jì)單元148中，對(duì)每個(gè)諧波的幅值和作為諧波的總和的頻譜包絡(luò)線根據(jù)作為L(zhǎng)PC余值正交變換輸出的頻譜幅值和音調(diào)進(jìn)行估計(jì)，并送到細(xì)微音調(diào)搜索單元146，V/UV鑒別單元115和按聲覺加權(quán)矢量量化單元116。
V/UV鑒別單元115根據(jù)下面五個(gè)量值鑒別一幀的V/UV，五個(gè)量值為正交變換電路145的輸出，來自細(xì)微音調(diào)搜索單元146的一最佳音調(diào)，來自頻譜估計(jì)單元148的頻譜幅值數(shù)據(jù)，來自開環(huán)音調(diào)搜索單元141的歸一的自相關(guān)r(P)的最大值和來自過零計(jì)數(shù)器142的過零記數(shù)值。另外，對(duì)于MBE的以頻帶為基準(zhǔn)的V/UV鑒別的邊界位置也可以作為V/UV鑒別的一個(gè)條件。V/UV分辨單元115的鑒別輸出可以在輸出端105得出，頻譜估計(jì)單元148的一輸出單位或矢量量化單元116的一輸入單位設(shè)有一些數(shù)據(jù)變換單位(進(jìn)行一種采樣速率變換的單元)?？紤]到在頻率軸線上分離頻帶的數(shù)目和按音調(diào)形成的數(shù)據(jù)的數(shù)目不同，數(shù)據(jù)變換單元的數(shù)目用于將包絡(luò)線的幅值數(shù)據(jù)|Am|設(shè)定為一常數(shù)。即，如果有效頻帶上升至3400KHz，根據(jù)音調(diào)可以將有效頻帶分為8到63個(gè)頻帶。按逐個(gè)頻帶得到的幅值數(shù)據(jù)|Am|的數(shù)目Mmx+1在從8到63范圍內(nèi)變化。因此，數(shù)據(jù)數(shù)目變換單元將可變化數(shù)目Mmx+1的幅值數(shù)據(jù)變換為預(yù)定數(shù)目M的數(shù)據(jù)，例如為44個(gè)數(shù)據(jù)。
來自數(shù)據(jù)數(shù)目變換單元的預(yù)定數(shù)目M例如為44的幅值數(shù)據(jù)或包絡(luò)線數(shù)據(jù)(提供于頻譜估計(jì)單元148的輸出單元或矢量量化單元116的輸入單元)，按照預(yù)定數(shù)目的數(shù)據(jù)例如為44個(gè)數(shù)據(jù)，作為一個(gè)單元，利用矢量量化單元116，通過進(jìn)行加權(quán)矢量量化一起進(jìn)行處理。這種加權(quán)值由按聲覺加權(quán)濾波器計(jì)算電路139的輸出提供。包絡(luò)線系數(shù)可以從矢量量化器116利用一開關(guān)117在輸出端103取出。先于進(jìn)行加權(quán)矢量量化，對(duì)于由一預(yù)定數(shù)目數(shù)據(jù)構(gòu)成的一矢量利用一合理的泄漏系數(shù)取出在幀間的差值是適當(dāng)?shù)摹?br> 下面說明第二編碼單元120。第二編碼單元120具有一所謂CELP編碼結(jié)構(gòu)，并且特別適用于給輸入語(yǔ)音信號(hào)的清音部分編碼。在用于輸入語(yǔ)音信號(hào)的清音部分的CELP編碼結(jié)構(gòu)中，有與清音的LPC余值相對(duì)應(yīng)的噪聲輸出(作為噪聲代碼簿或者所謂隨機(jī)代碼簿121的代表性的輸出值)通過一增益控制電路126送到按聲覺加權(quán)合成濾波器122。加權(quán)合成濾波器122利用LPC合成對(duì)輸入噪聲進(jìn)行LPC合成，并且將產(chǎn)生的加權(quán)清音信號(hào)送到減法器123。將由從輸入端101通過一高通濾波器(HPF)109并且通過一按聲覺加權(quán)濾波器125按聲覺加權(quán)的一信號(hào)輸入減法器123。減法器求出這一信號(hào)和來自合成濾波器122的信號(hào)之間的差或誤差。同時(shí)，從按聲覺加權(quán)濾波器125的輸出值先減去按聲覺加權(quán)合成濾波器的一零輸入響應(yīng)。該誤差輸入音距計(jì)算單元124以計(jì)算間距。在噪聲代碼簿121中搜索使誤差最小的一代表性的矢量值。以上是利用分析合成方法采用閉環(huán)搜索的時(shí)域波形的矢量量化的概括。
作為關(guān)于來自采用CELP編碼結(jié)構(gòu)的第二編碼器120的清音(UV)部分的數(shù)據(jù)，從噪聲代碼簿121取出代碼簿中的形狀索引和從增益電路126取出代碼簿中的增益索引。形狀索引(即從噪聲代碼簿121得到的UV數(shù)據(jù))通過一開關(guān)127s送到輸出端107s，同時(shí)，增益索引，即增益電路126的UV數(shù)據(jù)通過一開關(guān)127g送到輸出端107g。
這些開關(guān)127s、127g和117、118的開與關(guān)取決于V/UV鑒別單元115的V/UV判斷結(jié)果。確切地說，如果現(xiàn)時(shí)傳輸?shù)膸恼Z(yǔ)音信號(hào)中的V/UV鑒別結(jié)果表明是濁音的(V)，則開關(guān)117、118接通，而如果現(xiàn)時(shí)傳輸?shù)膸恼Z(yǔ)音信號(hào)是清音的(UV)，則開關(guān)127s、127g接通。
圖4是圖2中表示的一語(yǔ)音信號(hào)解碼器的更詳細(xì)的結(jié)構(gòu)。在圖4中，用相同的數(shù)字表示圖2中所示的元件。
在圖4中，對(duì)應(yīng)于圖1和3的輸出端102的LSPs矢量量化輸出，即代碼簿索引提供給輸入端202。
LSP系數(shù)送到用于LPC參數(shù)再現(xiàn)單元213的LSP變換矢量量化器231，以便將反矢量變換量化為線性頻譜對(duì)(LSP)數(shù)據(jù)，然后提供給用于LSP內(nèi)插的LSP內(nèi)插電路232、233。利用LSP-向-α變換電路234、235將形成的內(nèi)插數(shù)據(jù)變換為α參數(shù)，再送到LSP合成濾波器214。LSP內(nèi)插電路232和LSP向-α變換電路234是設(shè)計(jì)為用于濁音(V)，而LSP內(nèi)插電路233和LSP-向α變換電路235設(shè)計(jì)為用于清音(UV)。LPC合成濾波器214由濁音LPC合成濾波器236和清音LPC合成濾波器237構(gòu)成。即，對(duì)于濁音和清音，可以獨(dú)立地進(jìn)行LPC系數(shù)內(nèi)插，用于防止任何可能從濁音到清音或者反之的過渡部分中，由于內(nèi)插具有完全不同的特點(diǎn)的LSPs產(chǎn)生的不利影響。
將對(duì)應(yīng)于加權(quán)矢量量化頻譜包絡(luò)線Am的代碼簿索引數(shù)據(jù)提供給對(duì)應(yīng)于圖1和3編碼器輸出端103的圖4所示輸入端203。來自圖1和3所示的終端104的音調(diào)數(shù)據(jù)提供給輸入端204，來自圖1和3的終端105的V/UV鑒別數(shù)據(jù)提供給輸入端205。
來自輸入端203的頻譜包絡(luò)線Am的矢量-量化系數(shù)數(shù)據(jù)送到用于反矢量量化的反矢量量化器212，在其中進(jìn)行數(shù)據(jù)數(shù)目變換與相反的變換。形成的頻譜包絡(luò)線數(shù)據(jù)送到正弦合成電路215。
在編碼過程中，如果先于頻譜矢量量化求出幀間的差，則在為產(chǎn)生頻譜包絡(luò)線數(shù)據(jù)而進(jìn)行的反矢量量化后對(duì)幀間的差進(jìn)行解碼。
將來自輸入端204的音調(diào)和來自輸入端205的V/UV鑒別數(shù)據(jù)送入正弦合成電路215。從正弦合成電路215得到對(duì)應(yīng)于圖1和3所示的LPC反濾波器111的輸出值的LPC余值數(shù)據(jù)并送到加法器218。這種正弦合成具體技術(shù)公開于例如由本受讓人提出的申請(qǐng)?zhí)枮?-91442和6-198451號(hào)日本專利申請(qǐng)中。
反矢量量化器212的包絡(luò)線數(shù)據(jù)和來自輸入端204、205的音調(diào)以及V/UV鑒別數(shù)據(jù)送到噪聲合成電路216(其構(gòu)成用于對(duì)濁音部分添加噪聲)。噪聲合成電路216的輸出通過一加權(quán)疊加電路217送到加法器218。具體地說，將噪聲添加到LPC余值信號(hào)中的濁音部分，要考慮如果利用正弦波合成產(chǎn)生作為一送到濁音聲音部分的LPC合成濾波器輸入值的激勵(lì)信號(hào)，則會(huì)產(chǎn)生一低音調(diào)的嗡嗡感覺(例如男性語(yǔ)聲)，并且在濁音和清音之間音質(zhì)突然地變化，因而使聽覺感覺不自然。這種噪聲涉及到與語(yǔ)音編碼數(shù)據(jù)相關(guān)的參數(shù)例如音調(diào)、頻譜包絡(luò)線的幅值、幀內(nèi)的最大幅值、或與濁音語(yǔ)聲部分的LPC合成濾波器的輸入相關(guān)的余值信號(hào)電平，其實(shí)為一種激勵(lì)信號(hào)。
加法器218的和輸出送到用于LPC合成濾波器214的濁音部分的合成濾波器236，在其中進(jìn)行LPC合成以便形成隨時(shí)間的波形數(shù)據(jù)，然后利用一用于濁音的后置濾波器238v濾波并送到加法器239。
將來自圖3的輸出端107s和107g作為UV數(shù)據(jù)的形狀索引和增益索引，分別提供給圖4中的輸入端207s和207g，然后由該處提供給清音合成單元220。來自207s端的形狀索引送到清音合成單元220的噪聲代碼簿221，而來自連接端207g的增益索引送到增益電路222。從噪聲代碼簿221讀出的有代表性的輸出值是一對(duì)應(yīng)于清音LPC余值的噪聲信號(hào)部分。這一部分變?yōu)樵谠鲆骐娐?22的一預(yù)定增益幅值并送到開窗口電路223以便使與濁音結(jié)合部平滑。
開窗口電路223的輸出送到用于LPC合成濾波器214的清音(UV)合成濾波器237。利用LPC合成處理送到合成濾波器237的數(shù)據(jù)，以變成為對(duì)于清音的按時(shí)間的波形數(shù)據(jù)。在將清音的按時(shí)間的波形數(shù)據(jù)送到加法器239之前利用用于清音的后置濾波器238進(jìn)行濾波。
在加法器239中，來自用于濁音的后置濾波器238v的按時(shí)間的波形信號(hào)和來自清音的后置濾波器238u的清音的按時(shí)間波形數(shù)據(jù)彼此相加，并且將形成的數(shù)據(jù)和從輸出端201取出。
如圖5表示利用第一編碼單元110的基本操作過程，在其中采用本發(fā)明的語(yǔ)音分析方法。
在LPC分析步驟S51以及開環(huán)音調(diào)搜索(粗略高調(diào)搜索)步驟S55送入輸入語(yǔ)音信號(hào)。
在LPC分析步驟S51中，采用按照輸入信號(hào)波形的256采樣長(zhǎng)度作為一個(gè)數(shù)據(jù)塊的漢明窗口，用以利用自相關(guān)法求出線性預(yù)定系數(shù)或所謂的α-參數(shù)。
然后在LSP量化和LPC反濾波步驟S52，將在步驟S52得到的α-參數(shù)，利用LPC量化器進(jìn)行按矩陣-或矢量-量化。另一方面，將α參數(shù)送到LPC反濾波器以得出輸入語(yǔ)音信號(hào)的線性預(yù)測(cè)余值(LPC余值)。
此后，在對(duì)LPC余值信號(hào)開窗口的步驟S53中，將一適當(dāng)?shù)拇翱冢缫粷h明窗口運(yùn)用于在步驟S52取出的LPC余值信號(hào)。如圖6所示，該窗口跨于兩相鄰幀。
接著，在進(jìn)行FFT的步驟S54，將在步驟S53經(jīng)開窗口的LPC余值按例如250點(diǎn)進(jìn)行快速傅里葉變換(FFT)，用以變換為作為在頻率軸上的參數(shù)的FFT頻譜部分。在N點(diǎn)處經(jīng)快速傅里葉變換的語(yǔ)音信號(hào)的頻譜，由與0到π相關(guān)的X(0)到X(N/2-1)頻譜數(shù)據(jù)構(gòu)成。
在開環(huán)音調(diào)搜索(粗略音調(diào)搜索)步驟S55，將輸入信號(hào)的LPC余值取出，以便利用開環(huán)進(jìn)行粗略音調(diào)搜索，以輸出一粗略音調(diào)。
在細(xì)微音調(diào)搜索和頻譜幅值估計(jì)步驟S56中，利用在步驟S55得到的FFT頻譜數(shù)據(jù)和一預(yù)設(shè)的基準(zhǔn)上計(jì)算頻譜幅值。
下面解釋在圖3所示的語(yǔ)音編碼器中的正交變換電路145和頻譜估計(jì)單元148的頻譜幅值的估計(jì)。
首先，按照下式確定在如下的對(duì)X(j)、E(j)和A(m)說明時(shí)所用的參數(shù)X(j)(1≤j≤128)FFT頻譜E(j)(1≤j≤128)基頻A(m)諧波的幅值利用如下的方程(1)確定頻譜幅值的估計(jì)誤差∈m&Element;(m)=Σj=ambm(|X(j)|-|A(m)|E(j)|)2-----(1)]]>上述FFT頻譜X(j)是利用正交變換的付里葉變換得到的頻率軸上的參數(shù)?；lE(j)假設(shè)已預(yù)置。
對(duì)通過對(duì)方程(1)求導(dǎo)并令結(jié)果值為0得到的如下的方程δs(m)δ|A(m)|=-2Σj=ambm{|X(j)|-|A(m)||E(j)|}|E(j)|=0]]>對(duì)具求解，以便求出產(chǎn)生一極限值的A(m)，即A(m)產(chǎn)生上述估計(jì)誤差的最小值，該A(m)用以形成如下的方程(2)|A(m)|=Σj=ambm|X(j)||E(j)|Σj=ambm|E(j)|2]]>…(2)在上述方程中，a(m)和b(m)代表按單一音調(diào)ω0將頻譜由它的低范圍到它的高范圍劃分所得到的第m個(gè)頻帶的上限和下限FFT系數(shù)的系數(shù)。第m個(gè)諧波頻帶的中心頻率對(duì)應(yīng)于(a(m)+b(m))/2。
按照以上的基頻E(j)，256點(diǎn)的漢明窗口本身可以被利用。另外，通過將各個(gè)零值插入236點(diǎn)的漢明窗口以得到例如2048點(diǎn)的窗口，以及利用256或2048點(diǎn)對(duì)后者進(jìn)行FFT得到的這種頻譜可以利用。然而，在這樣的情況下，在估計(jì)諧波的幅值|A(m)|時(shí)需要應(yīng)用偏差，使得E(o)將按照?qǐng)D7b中所示的(a(m)+b(m)))/2位置疊加。在這種情況下，該方程更準(zhǔn)確地變?yōu)槿缦碌姆匠?3)|A(m)|=Σj=ambm|X(j)||E(j-am+bm2)|Σj=ambm|E(j-am+bm2)|2]]>(3)與之相似，第m個(gè)頻帶的估計(jì)誤差∈(m)按如下的方程表示&Element;(m)=Σj=ambm(|X(j)|-|A(m)||E(j-am+nm2)|)2]]>…(4)
在這種情況下，基頻E(j)限定在-128≤j≤127或-1024≤j≤1023的域內(nèi)。
下面具體解釋如在圖3中所示的利用高精度音調(diào)搜索單元146進(jìn)行的高精度音調(diào)搜索。
為了對(duì)諧波頻譜的幅值高精度估計(jì)，需要得到高精度音調(diào)。即，如果音調(diào)是低精度的，不可能實(shí)現(xiàn)正確的幅值評(píng)估，使得不可能產(chǎn)生清晰播放的語(yǔ)音。
轉(zhuǎn)來分析根據(jù)本發(fā)明的語(yǔ)音分析方法中的音調(diào)搜索操作的基本程序，利用開環(huán)音調(diào)搜索單元141進(jìn)行先前的粗略開環(huán)音調(diào)搜索，得到粗略音調(diào)值P。根據(jù)這一粗略音調(diào)值P0，然后利用細(xì)微音調(diào)搜索單元146進(jìn)行由整體搜索和分部搜索組成的兩階段細(xì)微音調(diào)搜索。
利用開環(huán)音調(diào)搜索單元141得到的粗略音調(diào)是根據(jù)正被分析的該幀的LPC余值自相關(guān)最大值得到的，并考慮與在向前和向后兩側(cè)各幀中的開環(huán)音調(diào)(粗略音調(diào))相結(jié)合才得到的。
整體搜索是對(duì)頻譜的所有頻帶進(jìn)行的，而分部搜索是對(duì)由該頻帶劃分出的每一頻帶進(jìn)行的。
參照?qǐng)D9到12的流程圖，解釋細(xì)微音調(diào)搜索的典型操作程序。粗略音調(diào)值P0是一以采樣數(shù)目為單位表示音調(diào)周期的所謂的音調(diào)滯后，而K代表循環(huán)重復(fù)的次數(shù)。
細(xì)微音調(diào)搜索按照整體搜索、高范圍側(cè)分部搜索和低范圍側(cè)分部搜索。在這些搜索步驟中，進(jìn)行音調(diào)搜索，使得合成的頻譜與原來的頻譜之間的誤差即估計(jì)誤差∈(m)最小。因此，由方程(3)確定的諧波幅值|A(m)|和由方程(4)計(jì)算的估計(jì)誤差∈(m)都包含在細(xì)微音調(diào)搜索步驟中，使得細(xì)微音調(diào)搜索和頻譜各部分的幅值估計(jì)同時(shí)進(jìn)行。
圖8a表示利用整體搜索對(duì)頻譜中所有的頻帶進(jìn)行音調(diào)檢測(cè)的方式。由該圖可以看出，如果試圖按照單一音調(diào)ω0來估計(jì)所有各頻帶中的頻譜組成部分的幅值。會(huì)導(dǎo)致形成在原始頻譜與合成的頻譜之間的大的相位移，如果借助于這種方法本身，就表明不可能實(shí)現(xiàn)可靠的幅值估計(jì)。
圖9表示上述整體檢索的操作的具體程序。
在步驟S1，分別設(shè)定NUMP_INT、NUMP_FLT和STEP_SIZE的數(shù)值，它們分別舉出對(duì)于整體搜索的采樣數(shù)目、對(duì)于分部搜索的采樣數(shù)目以及對(duì)于分部搜索的步驟S的規(guī)模。作為具體的實(shí)例，NUMP_INT＝3，NUMP_FLT＝5以及STEP_SIZE＝0.25。
在步驟S2，由粗略音調(diào)P0和NUMP_INT確定音調(diào)Pch的起始值，而環(huán)路計(jì)數(shù)器由于K復(fù)零(K＝0)而被復(fù)零。
在步驟S3，計(jì)算各諧波的幅值|An|、僅關(guān)于低頻范圍∈r1的各幅值誤差之和以及僅關(guān)于高頻范圍∈rh的各幅值誤差之和。下文解釋在步驟這S3的具體操作。
在步驟S4，檢查僅關(guān)于低頻范圍∈rh的各幅值誤差之和與僅關(guān)于高頻范圍的各幅值誤差之和的總和是否小于(極小值min∈r，或K＝0’。如果這一條件沒有滿足，程序不經(jīng)過步驟S5，而進(jìn)行到步驟S6。如果上述條件滿足，則程序進(jìn)行到步驟S5，設(shè)定min&Element;r=&Element;r1+&Element;rh]]>min&Element;r1=&Element;r1]]>min&Element;rh=&Element;rh]]>(最終音調(diào))Finalpitch＝Pch’Am_tmp(m)＝|A(m)|。
在步驟S6，令Pch＝Pch+1。
在步驟S7，檢查，K小于NUMP_INT’的條件是否滿足。如果這一條件滿足，程序返回到步驟S3。如果相反，程序轉(zhuǎn)移到步驟S8。
圖8b表示對(duì)于在頻譜的高頻側(cè)通過分部搜索進(jìn)行的音調(diào)檢測(cè)方法。由這一圖可以看出，可以使對(duì)于高頻范圍的估計(jì)誤差要小于在如前所述的對(duì)于頻譜中的所有頻帶進(jìn)行整體搜索情況下的相應(yīng)誤差。
圖10表示對(duì)于高頻范圍側(cè)實(shí)施分部搜索的具體程序。
在步驟S8，設(shè)Pch＝FinalPitch-(NUMP_FLT-1)/2×STEP_SIZEK＝0Final Pitch是如上所述對(duì)所有頻帶進(jìn)行整體搜索得到的音調(diào)。
在步驟S9，檢查“K＝(NUMP_FLT-1)/2”的條件是否滿足。如果這一條件不滿足，程序轉(zhuǎn)移到步驟S10。如果這一條件滿足，程序轉(zhuǎn)移到步驟S11。
在步驟S10，在程序轉(zhuǎn)移到步驟S12之前，由音調(diào)Pch和輸入的語(yǔ)音信號(hào)的頻譜X(j)計(jì)算諧波的幅值|Am|和僅關(guān)于高頻范圍側(cè)的幅值誤差的和∈rh。下面解釋在這一步驟S10中的具體實(shí)施。
在程序轉(zhuǎn)到步驟12之前，在步驟S11，設(shè)∈rh＝min∈rh|A(m)|＝Am-tmp(m)在步驟S12，檢查“∈rh小于∈r或k＝0”的條件是否滿足。如果這個(gè)條件不滿足，程序就不經(jīng)過S13而轉(zhuǎn)移到步驟S14。如果上述條件滿足，程序就轉(zhuǎn)移到S13。
在步驟S13，設(shè)min∈r＝∈rhFinal Pitch_h＝PchAm-h(m)＝|A(m)|在步驟S14，設(shè)Pch＝Pch+STEP_SIZEK＝K+1在步驟S14，設(shè)Pch＝Pch+STEP_SIZEK＝K+1在步驟S15，檢查“K小于NUMP_PLT”的條件是否滿足。如果這個(gè)條件滿足，程序回復(fù)到步驟S9。假如上述條件不滿足，程序轉(zhuǎn)移到步驟S16。
圖8C表示對(duì)于頻譜中的低頻范圍側(cè)通過分部搜索進(jìn)行音調(diào)檢測(cè)的方式，由這一圖可以看出，可以使在低頻范圍側(cè)的估計(jì)誤差小于對(duì)于整個(gè)頻譜的整體搜索的情況下的相應(yīng)估計(jì)誤差。
圖11表示在低頻范圍側(cè)實(shí)施分部搜索的具體程序。
在步驟S16，設(shè)Pch＝Final Pitch-(NUMP_FLF-1)/2×STEP_SIZEK＝0Final Pitch是通過上述的對(duì)整個(gè)頻譜進(jìn)行整體搜索得到的音調(diào)。
在步驟S17，檢查“K等于(NUMP_FLT-1)/2”的條件是否滿足。如果這一條件下滿足，程序轉(zhuǎn)移到步驟S18。如果上述條件滿足，程序轉(zhuǎn)移到步驟S19。
在步驟S18，在程序轉(zhuǎn)移到步驟S20之前，根據(jù)音調(diào)Pch和輸入的語(yǔ)音信號(hào)的頻譜X(j)，計(jì)算諧波的幅值|Am|和僅關(guān)于低頻范圍側(cè)的幅值誤差。下面解釋在這一步驟S18的具體實(shí)施。
在步驟S19，在程序轉(zhuǎn)移到步驟S20之前，設(shè)∈r1＝min∈r1|A(m)|＝Am_tmp(m)在步驟S20，檢查“∈r1小于min∈r或K＝0”這一條件是否滿足。如果這種條件不滿足，程序不經(jīng)過步驟S21而進(jìn)行到步驟S22。假如上述條件滿足，程序轉(zhuǎn)移到步驟S21。
在步驟S21，設(shè)min∈r＝∈r1Final Pitch_1＝PchAm_1(m)＝|A(m)|在步驟S22，設(shè)Pch＝Pch+STEP_SIZEK＝K+1在步驟S23，判別“K小于NUMP-FLT”這一條件是否滿足。如果這一條件滿足，程序回復(fù)到步驟S17。如果上述條件不滿足，程序轉(zhuǎn)移到步驟S24。
圖12具體表示由通過如圖9到11所示的對(duì)于頻譜的所有頻帶進(jìn)行整體搜索和對(duì)于高頻范圍側(cè)和低頻范圍側(cè)兩側(cè)進(jìn)行分部搜索得到的音調(diào)數(shù)據(jù)產(chǎn)生最終輸出的音調(diào)所實(shí)施的程序。
在步驟S24，利用由Am_1(m)中的低頻范圍側(cè)的Am_1(m)和由Am_h(m)中的高頻范圍側(cè)的Am_h(m)產(chǎn)生Final_Am(m)。
在步驟S25，檢查“Final Pitch_h小于20”的這一條件是否滿足。如果這一條件不滿足，程序不經(jīng)過步驟S26而進(jìn)行到步驟S27如果上述條件滿足，程序轉(zhuǎn)移到步驟S26。
在步驟26，設(shè)Final Pitch_h＝20。
在步驟S27，檢查“Final Pitch_1小于20”的這一條件是否滿足。如果這一條件不滿足，程序不經(jīng)步驟S28而終止。如果上述條件滿足，程序轉(zhuǎn)移到步驟S28。
在步驟S28，設(shè)
Final Pitch_1＝20終止該過程。
上述步驟S25到28表示最小音調(diào)按20限制的一種情況。
上述實(shí)施的程序提供了Final Pitch_1、Final Pitch_h和Final_Am(m)。
圖13和14表示為了根據(jù)通過上述音調(diào)檢測(cè)程序得到的音調(diào)而求出在由頻譜劃分的各頻帶中的最佳諧波的幅值的圖解式的途徑。
在步驟S30，設(shè)ω0＝N/PchTh＝N/2·β∈r1＝0∈rh＝0以及Send=[Pch2]]]>，其中ω0是在用一個(gè)音調(diào)描繪從低頻到高頻范圍的范圍的情況下的音調(diào)。N是用于在語(yǔ)音信號(hào)中的FFT化的LPC余值(residuals)中的采樣數(shù)目，Th是用于將低頻范圍側(cè)與高頻范圍側(cè)區(qū)分的一個(gè)系數(shù)。另一方面，β是按照-β＝50/125的說明性的數(shù)值的預(yù)置變量。在上等式中，Send是在整個(gè)頻譜內(nèi)的諧波的數(shù)目，并通過對(duì)音調(diào)Pch/2的分?jǐn)?shù)部分進(jìn)行四舍五入而為一整數(shù)值。
在步驟S31，將m的數(shù)值置為零，該m是指明將頻譜在頻率軸上劃分為多個(gè)頻帶中的第m個(gè)頻帶即對(duì)應(yīng)于第m次諧波的頻帶的一個(gè)變量。
在步驟S32，檢查“m的數(shù)值為0”這一條件是否滿足。如果這一條件不滿足，程序轉(zhuǎn)移到步驟S33，如果上述條件滿足，程序轉(zhuǎn)移到步驟S34。
在步驟S33，設(shè)a(m)＝b(m-1)+1在步驟S34，設(shè)a(m)設(shè)為0。
在步驟S35，設(shè)b(m)＝hint((m+0.5)×ω0)其中nint取為一最接近的整數(shù)。
在步驟S36，檢查“b(m)不小于N/2”這一條件是否滿足。假如，這一條件不滿足，程序不經(jīng)過步驟S37而進(jìn)行到步驟S38。如果上述條件滿足，設(shè)b(m)＝N/2-1在步驟S38，確定利用如下方程表示的諧波幅值|Am||A(m)|=Σj=ambmX(j)||E(nint{(j-mω0)})|Σj=ambm|E(nint{j-mω0})|2]]>在步驟S39，確定由如下方程表示的估計(jì)誤差∈(m)&Element;(m)=Σj=ambm(|X(j)|-|A(m)|E(nint{j-mω0})|)2]]>在步驟S40，判別“b(m)不大于Th”這一條件是否滿足。如果這一條件不滿足，程序轉(zhuǎn)移到步驟S41。如果上述條件滿足，程序轉(zhuǎn)移到步驟S42。
在步驟S41，設(shè)∈rh＝∈rh+∈(m)在步驟S42，設(shè)∈r1＝∈r1+∈(m)在步驟S43，設(shè)m＝m+1在步驟S44，檢查“m不大于Send”這一條件是否滿足。如果這一條件滿足，程序回復(fù)到步驟S32。如果上述條件不滿足，過程終止。
如果使用按照速率R采樣乘以與X(j)同樣大的量得到的基頻E(j)，分別利用如下方程提供諧波幅值|Am|和估計(jì)誤差∈(m)|A(m)|=Σj=ambm(|X(j)||E(nint+{j-mω0)·R})|Σj=ambm|E(nint+{(j-mω0)·R})|2]]>&Element;(m)=Σj=ambm(|X(j)|-|A(m)||E(nint+{(j-mω0)·R})|)2]]>
例如，可以采用通過在256點(diǎn)的漢明窗口中填充各零點(diǎn)和進(jìn)行2048點(diǎn)的FFT，接著進(jìn)行8倍的超密采樣得到的這樣的基頻E(j)。
對(duì)于在本發(fā)明的語(yǔ)音分析方法中的音調(diào)檢測(cè)，通過對(duì)僅關(guān)于低頻范圍側(cè)∈r1的幅值誤差與僅關(guān)于高頻范圍側(cè)∈th的幅值誤差之和獨(dú)立地進(jìn)行最優(yōu)化使之最小，可以得到對(duì)于頻譜中的每一頻帶的諧波幅值最佳數(shù)值。
即，如果在上述步驟S18中僅需要該僅關(guān)于低頻范圍側(cè)∈r1的幅值誤差的和，這就足以進(jìn)行對(duì)于從m＝0到m＝Th的域內(nèi)的上述過程。相反，如果在步驟S10中僅需要該僅關(guān)于低頻范圍側(cè)∈rh的幅值誤差的和，這就足以進(jìn)行從m＝Th到m＝Send的域內(nèi)的上述過程。然而，在這種情況下需要對(duì)于低頻和高頻范圍側(cè)之間的輕微重疊區(qū)進(jìn)行接合部處理程序，以便防止由于在低頻和高頻范圍側(cè)之間的音調(diào)偏移在該接合部引起諧波的降低。
在用于進(jìn)行上述語(yǔ)音分析方法的編碼器中，無論需要哪一個(gè)，實(shí)際發(fā)送的音調(diào)可以是Final Pitch_1或Final Pitch hO理由在于，如果在解碼器中對(duì)經(jīng)編碼的語(yǔ)音信號(hào)進(jìn)行合成和解碼時(shí)，諧波的位置或多或少地產(chǎn)生偏移，在整頻譜內(nèi)能正確地估計(jì)諧波的幅值，因此不會(huì)存在問題。如果例如按照一種音調(diào)向解調(diào)器發(fā)送Final Pitch_1，在高頻范圍側(cè)的頻譜位置會(huì)在與固有的位置有輕微偏差的位置處。然而，這種偏差在音質(zhì)上感覺不是不偷快的。
當(dāng)然，如果在比特速率方面允許，可以按照音調(diào)參數(shù)發(fā)送Final Pitch_1或Final Pitch-h，或者，可以發(fā)送Final Pitch_1和Final Pitch-h之間的差，在哪一種隋況下，解碼器都要將Final Pitch_1和Final Pitch-h適用于低頻范圍側(cè)頻譜和高頻范圍側(cè)頻譜，以便進(jìn)行正弦分析，產(chǎn)生更自然的合成聲音。雖然整體搜索在上述實(shí)施例中是在整個(gè)頻譜內(nèi)進(jìn)行的，但可以在每個(gè)劃分的頻帶進(jìn)行整體搜索。
同時(shí)，語(yǔ)音編碼裝置可以輸出不同比特速率的數(shù)據(jù)，以滿足所需語(yǔ)音質(zhì)量的要求，因此輸出數(shù)據(jù)按變化的比特速率輸出。
具體地說，輸出數(shù)據(jù)的比特速率可以在低比特速率和高比特速率之間進(jìn)行轉(zhuǎn)換。例如，如果低比特速率是2Kbps(每秒千比特)，高比特速率是6Kbps，輸出數(shù)據(jù)比特速率表示在圖15。
對(duì)于濁音部分由輸出端104輸出的音調(diào)信息始終按照8比特/20ms(8比特/20毫秒)，在輸出端105的V/UV判定輸出始終為1比特/20ms。在輸出端102輸出的用于LSP量化的索引數(shù)據(jù)在32比特/40ms和48比特/40ms之間轉(zhuǎn)換。另一方面，對(duì)于在輸出端103輸出的濁音部分(V)的索引在15比特/20ms和87比特/20ms之間轉(zhuǎn)換，而對(duì)于清音部分(UV)的索引數(shù)據(jù)在11比特/10ms和23比特/5ms之間轉(zhuǎn)換。因此，對(duì)于濁音部分(V)的輸出數(shù)據(jù)分別為40比特/20ms和120比特/20ms，即各為2千比特/秒和6千比特/秒。對(duì)于清音部分(UV)的輸出數(shù)據(jù)分別為39比特/20ms和117比特/20ms，約為2千比特/秒和6千比特/秒。對(duì)用于LSP量化的索引數(shù)據(jù)，用于濁音部分(V)的索引數(shù)據(jù)和用于清音部分(UV)的索引數(shù)據(jù)將結(jié)合相關(guān)的部分順序地解釋。
下面解釋在圖3所示的語(yǔ)音編碼器中的濁音/清音(V/UV)判定單元的具體結(jié)構(gòu)。
在濁音/清音(V/UV)判定單元115中，對(duì)于現(xiàn)時(shí)幀的V/UV判定是根據(jù)正交交換單元145的輸出，來自細(xì)微音調(diào)搜索單元146的最佳音調(diào)，來自頻譜估計(jì)單元148的頻譜幅值數(shù)據(jù)、來自開環(huán)音調(diào)搜索單元141的自相關(guān)量r’(1)的歸一化的最大值和來自過零點(diǎn)計(jì)數(shù)器412的過零點(diǎn)計(jì)數(shù)值做出的。以頻帶為基礎(chǔ)的V/UV判定結(jié)果中的邊界位置與對(duì)于MBE的對(duì)應(yīng)邊界位置相類似，也被用作對(duì)現(xiàn)時(shí)幀的V/UV判定的一個(gè)條件。
下面解釋采用對(duì)于MBE以頻帶為基礎(chǔ)的V/DV判定結(jié)果的V/UV判定結(jié)果。
由如下方程表示一代表用于MBE的m次諧波幅值或幅值|Am|的參數(shù)|&Agr;(m)|=Σj=amb|Ξ(j)||&Egr;(j)|Σj=ambm|&Egr;(j)|2]]>在上述方程中，|X(j)|是根據(jù)對(duì)LPC余值進(jìn)行DFT得到的頻譜，而|E(j)|是根據(jù)對(duì)256點(diǎn)的漢明窗口進(jìn)行DFT得到的基準(zhǔn)信號(hào)的頻譜。由如下方程表示信噪比(NSR)NSR=Σj=ambm{|X(j)|-|Am||E(j)|}2Σj=ambm|S(j)|2]]>
如果NSR值大于預(yù)設(shè)的閾值，例如為0.3，即如果誤差較大，對(duì)于該頻帶接近|X(j)|乘|An| |E(j)|，可以判定為不良，即該激勵(lì)信號(hào)|E(j)|判定作為基準(zhǔn)是不適當(dāng)?shù)?。因此，該頻帶被判定為清音(UV)部分。否則，該近似值可被判定為是很好滿足要求的，這樣該頻帶被判別為是濁音(V)部分。
各個(gè)頻帶(諧波)的NSR代表由一個(gè)諧波到另一個(gè)諧波的頻譜相似性。利用如下方程確定具有該NSR或NSRall(全)的諧波的按增益加權(quán)的和NSRall＝(∑m|Am|NSRm)/(∑m|Am|)根據(jù)這一頻譜相似性NSRall是大于還是小于某一閾值，確定用于V/UV的標(biāo)準(zhǔn)基礎(chǔ)。這里這一閾值設(shè)為ThNSR＝0.3。這一標(biāo)準(zhǔn)值是與LPC余值的自相關(guān)作用的最大值、幀功率和過零點(diǎn)相關(guān)的。按照一用于NSRall＜ThNSR的標(biāo)準(zhǔn)基礎(chǔ)，如果該標(biāo)準(zhǔn)是適用的，或者沒有適用的標(biāo)準(zhǔn)，則該幀分別是V或UV。
具體標(biāo)準(zhǔn)如下按照NSRall＜ThNSR，如果numZeroXP＜24，frmPow＞340和ro＞0.32，則該幀是V。
按照NSRall≥ThNSR，如果numZeroXP＞30，frmPow＜9040和ro＜0.23，則該幀是UV。
根據(jù)上述，各變量定義如下numZeroXP每幀過零次數(shù)fmPow幀功率r’(1)最大自相關(guān)作用值通過參照作為一組按照上述確定的那些標(biāo)準(zhǔn)的標(biāo)準(zhǔn)基礎(chǔ)，進(jìn)行V/UV判定。同時(shí)，如果對(duì)于多個(gè)頻帶的音調(diào)搜索適用于對(duì)MBE的以頻帶為基礎(chǔ)的V/UV判定，可以防止由于諧波位移形成的錯(cuò)誤操作的產(chǎn)生，使之能更精確地進(jìn)行V/UV判定。
如上所述的信號(hào)編碼裝置和信號(hào)解碼裝置可以用作語(yǔ)音編碼解碼器，如用于在圖16和17中的實(shí)例所示的便攜式通信終端或便攜式電話。
具體地說，圖16表示采用如在圖1和圖3中所示構(gòu)成的語(yǔ)音編碼單元160的便攜式終端中的發(fā)送端的結(jié)構(gòu)。利用放大器162對(duì)利用拾音器161匯集的語(yǔ)音信號(hào)進(jìn)行放大，并利用A/D變換器163變換為數(shù)字信號(hào)，然后再送到語(yǔ)音編碼單元60。這一語(yǔ)音編碼單元160是按照?qǐng)D1和圖3所示構(gòu)成的。來自A/D變換器163的數(shù)字信號(hào)送到單元160的輸入端101。語(yǔ)音編碼單元160按照參照?qǐng)D1和圖3所解釋的進(jìn)行編碼操作。圖1和圖2中的輸出端上的輸出信號(hào)作為語(yǔ)音編碼單元160的輸出信號(hào)送到發(fā)送信道中的編碼單元164，在其中將信道編碼附加到該信號(hào)上。發(fā)送信道中的編碼單元164的輸出信號(hào)送到用于調(diào)制電路165中進(jìn)行調(diào)制，所形成的調(diào)制信號(hào)經(jīng)過(D/A)數(shù)/模變換器166和RF放大器送到天線168。
圖17表示利用具有如在圖2和圖4所示基本結(jié)構(gòu)的語(yǔ)音解碼單元260的便攜式終端的接收器結(jié)構(gòu)。利用RF放大器262放大由圖17中的天線261接收的語(yǔ)音信號(hào)，并經(jīng)過模/數(shù)(A/D)變換器263送到解調(diào)電路264進(jìn)行解調(diào)。經(jīng)解調(diào)的信號(hào)送到傳輸信道中的解碼單元265。解碼電路264的輸出信號(hào)送到語(yǔ)音解碼單元，在其中進(jìn)行參照?qǐng)D2解釋的解碼。圖2中的輸出端的輸出信號(hào)作為來自語(yǔ)音解碼單元260的信號(hào)送到數(shù)/模(D/A)變換器266，它的輸出的模擬量語(yǔ)音信號(hào)送到揚(yáng)聲器。
本發(fā)明并不局限于僅用于描述本發(fā)明的上述實(shí)施例。例如，圖1和圖3中的語(yǔ)音分析側(cè)(編碼器側(cè))的結(jié)構(gòu)，或者圖2和4中的語(yǔ)音合成側(cè)(解碼器側(cè))的結(jié)構(gòu)，可以利用所謂的數(shù)字信號(hào)處理器(DSP)利用軟件編程來實(shí)現(xiàn)。本發(fā)明的應(yīng)用范圍并不限于傳輸或記錄/重現(xiàn)，而是可用于音調(diào)壓縮變換、速度變換、利用標(biāo)準(zhǔn)合成語(yǔ)聲或噪聲抑制。
在圖3中的按照硬件解釋的語(yǔ)音分析側(cè)(編碼側(cè))的結(jié)構(gòu)可以利用所謂的數(shù)字信號(hào)處理器(DSP)通過軟件編程以類似方式實(shí)現(xiàn)。
本發(fā)明并不限于傳輸或記錄/重現(xiàn)，而是可以適用于各種其它應(yīng)用，例如音調(diào)變換，速度變換、利用標(biāo)準(zhǔn)合成語(yǔ)音或噪聲抑制。
權(quán)利要求
1.一種語(yǔ)音分析方法，按照該方法，根據(jù)預(yù)設(shè)的編碼單位將輸入的語(yǔ)音信號(hào)沿時(shí)間軸劃分，檢測(cè)等效于如此劃分為編碼單位的語(yǔ)音信號(hào)的基本周期的音調(diào)，及根據(jù)檢測(cè)的音調(diào)從一個(gè)編碼單位到另一個(gè)編碼單位分析語(yǔ)音信號(hào)，包含以下步驟將對(duì)應(yīng)于輸入語(yǔ)音信號(hào)的信號(hào)的頻譜劃分成在頻率軸上的多個(gè)頻帶；以及利用由一個(gè)頻帶到另一個(gè)頻帶按照頻譜形狀形成的音調(diào)，同時(shí)進(jìn)行音調(diào)搜索和諧波幅值的估計(jì)。
2.如權(quán)利要求1所述的語(yǔ)音分析方法，其特征在于所說頻譜形狀是由諧波結(jié)構(gòu)的。
3.如權(quán)利要求1所述的語(yǔ)音分析方法，其特征在于所說音調(diào)搜索和諧波幅值估計(jì)是根據(jù)由開環(huán)搜索先前檢測(cè)的粗略音調(diào)進(jìn)行的。
4.如權(quán)利要求1所述的語(yǔ)音分析方法，其特征在于音調(diào)搜索是高精度音調(diào)搜索，由根據(jù)通過所述粗略音調(diào)搜索檢測(cè)的粗略音調(diào)進(jìn)行的第一音調(diào)搜索以及精度高于所述第一音調(diào)搜索的第二音調(diào)搜索構(gòu)成，以及其中所述第二音調(diào)搜索在頻譜的高頻范圍側(cè)和低頻范圍側(cè)中的每一側(cè)是獨(dú)立進(jìn)行的。
5.如權(quán)利要求1所述的語(yǔ)音分析方法，其特征在于所說第一音調(diào)搜索是對(duì)頻譜按其整體進(jìn)行的，以及其中第二音調(diào)搜索對(duì)于該頻譜中的低頻范圍側(cè)和低頻范圍側(cè)是獨(dú)立進(jìn)行的。
6.一種語(yǔ)音編碼方法，其特征在于根據(jù)預(yù)設(shè)的編碼單位將輸入的語(yǔ)音信號(hào)在時(shí)間軸上劃分，檢測(cè)等效于如此被劃分為編碼單位的語(yǔ)音信號(hào)的基本周期的音調(diào)，以及根據(jù)檢測(cè)的音調(diào)從一個(gè)編碼單位到另一個(gè)編碼單位對(duì)語(yǔ)音信號(hào)進(jìn)行編碼，包含以下步驟將對(duì)應(yīng)于輸入的語(yǔ)音信號(hào)的信號(hào)的頻譜劃分為在頻率軸上的多個(gè)頻帶；以及利用由一個(gè)頻帶到另一個(gè)頻帶的頻譜波形形成的音調(diào)同時(shí)進(jìn)行音調(diào)搜索和諧波幅值估算。
7.如權(quán)利要求6所述的信號(hào)編碼方法，其特征在于所說頻譜的形狀是諧波結(jié)構(gòu)的，以及其中所說高精度音調(diào)搜索包含根據(jù)利用所述粗略搜索檢測(cè)的粗略音調(diào)進(jìn)行第一音調(diào)搜索和精度高于所述第一音調(diào)搜索的第二音調(diào)搜索，第二音調(diào)搜索是在同時(shí)進(jìn)行的音調(diào)搜索和諧波幅值估計(jì)的步驟中進(jìn)行的。
8.如權(quán)利要求6所述的信號(hào)編碼方法，其特征在于所述第一音調(diào)搜索是對(duì)頻譜按整體進(jìn)行的，以及其中所述第二音調(diào)搜索是在頻譜中的高頻范圍側(cè)和低頻范圍側(cè)中的每一側(cè)獨(dú)立進(jìn)行的。
9.一種語(yǔ)聲編碼裝置，其特征在于根據(jù)預(yù)設(shè)的編碼單位將輸入的語(yǔ)音信號(hào)在時(shí)間軸上劃分，檢測(cè)等效于如此劃分成編碼單位的語(yǔ)音信號(hào)的基本周期的音調(diào)，以及根據(jù)檢測(cè)的音調(diào)由一個(gè)編碼單位到另一個(gè)編碼單位分析該語(yǔ)音信號(hào)，該裝置包含一裝置，用于將對(duì)應(yīng)于輸入的語(yǔ)音信號(hào)的信號(hào)的頻譜在頻率軸上劃分為多個(gè)頻帶；以及一裝置，用于利用由頻譜中的從一個(gè)頻帶到另一個(gè)頻帶形成的音調(diào)，同時(shí)進(jìn)行音調(diào)搜索和諧波幅值估算。
10.如權(quán)利要求9所述的信號(hào)編碼裝置，其特征在于頻譜的形狀是諧波結(jié)構(gòu)的，以及所述用于同時(shí)進(jìn)行音調(diào)搜索和諧波幅值估計(jì)的裝置進(jìn)行高精度音調(diào)搜索，其包含由粗略音調(diào)搜索檢測(cè)的粗略音調(diào)進(jìn)行的第一音調(diào)搜索以及精度高于第一音調(diào)搜索的第二音調(diào)搜索。
11.如權(quán)利要求9所述的信號(hào)編碼裝置，其特征在于所述的第一音調(diào)搜索是對(duì)于頻譜整體進(jìn)行的，以及其中所述第二音調(diào)搜索在頻譜中的高頻范圍側(cè)和低頻范圍側(cè)中的每一側(cè)中獨(dú)立地進(jìn)行。
全文摘要
語(yǔ)音分析方法和語(yǔ)音編碼方法和裝置,即使語(yǔ)音頻譜中的諧波與基波的整數(shù)倍有偏差,可以正確地估計(jì)諧波的幅值,產(chǎn)生高清晰度的重放輸出。為此,輸入的語(yǔ)音的頻譜在頻率軸上被劃分為多個(gè)頻帶,在其中的每一頻帶中利用由頻譜形狀形成的最佳音調(diào)同時(shí)進(jìn)行音調(diào)搜索和諧波幅值估計(jì)。利用作為頻譜形狀的諧波結(jié)構(gòu),和根據(jù)通過開環(huán)粗略音調(diào)搜索先前檢測(cè)的粗略音調(diào),進(jìn)行高精度音調(diào)搜索。
文檔編號(hào)H04B14/04GK1187665SQ9712600
公開日1998年7月15日申請(qǐng)日期1997年10月17日優(yōu)先權(quán)日1996年10月18日
發(fā)明者西口正之, 松本淳, 飯島和幸, 井上晃申請(qǐng)人:索尼公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：西口正之;松本淳;飯島和幸;井上晃
技術(shù)所有人：索尼公司
我是此專利的發(fā)明人

上一篇：通信方法
上一篇：Cdma蜂窩無線通信系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

電梯語(yǔ)音報(bào)站裝置相關(guān)技術(shù)

語(yǔ)音報(bào)警裝置相關(guān)技術(shù)

人體感應(yīng)語(yǔ)音裝置相關(guān)技術(shù)

扶梯語(yǔ)音提示裝置相關(guān)技術(shù)

自動(dòng)語(yǔ)音告警裝置相關(guān)技術(shù)

自動(dòng)語(yǔ)音裝置相關(guān)技術(shù)

紅外語(yǔ)音通信裝置相關(guān)技術(shù)

分析方法相關(guān)技術(shù)

競(jìng)爭(zhēng)對(duì)手分析方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語(yǔ)音分析方法和語(yǔ)音編碼方法及其裝置的制作方法