多模式語音編碼裝置及解碼裝置的制作方法

文檔序號(hào)：2821942閱讀：193來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：多模式語音編碼裝置及解碼裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及對(duì)語音信號(hào)進(jìn)行編碼來傳輸?shù)囊苿?dòng)通信系統(tǒng)等中的低比特率語音編碼裝置，特別涉及將語音信號(hào)分離為聲道信息和音源信息來表現(xiàn)的CELP (Code Excited Linear Prediction，碼激勵(lì)線性預(yù)測編碼)型語音編碼裝置等。
背景技術(shù)：
在數(shù)字移動(dòng)通信和語音存儲(chǔ)領(lǐng)域，使用語音編碼裝置，用于壓縮語音信息，進(jìn)行高效編碼，以便有效利用電波和記錄媒體。特別是基于CELP方式的方式已廣泛實(shí)用化于中、低比特率。CELP技術(shù)示于M.R.Schroeder和B.S.Atal“Code-Excited Linear Prediction(CELP)High-quality Speech at VeryLow BitRates(碼激勵(lì)線性預(yù)測超低比特率高品質(zhì)語音)”，Proc.ICASSP-85，25.1.1，pp.937-940，1985”。
CELP型語音編碼方式將語音劃分為某個(gè)一定的幀長度(大約5ms～50ms)，對(duì)各幀進(jìn)行語音的線性預(yù)測，使用由已知波形構(gòu)成的自適應(yīng)碼矢量和噪聲碼矢量對(duì)每幀的由線性預(yù)測得到的預(yù)測殘差(激勵(lì)信號(hào))進(jìn)行編碼。自適應(yīng)碼矢量從存儲(chǔ)過去生成的驅(qū)動(dòng)音源矢量的自適應(yīng)碼本中選擇使用，而噪聲碼矢量從存儲(chǔ)預(yù)先準(zhǔn)備的固定數(shù)目個(gè)具有固定形狀的矢量的噪聲碼本中選擇使用。噪聲碼本中存儲(chǔ)的噪聲碼矢量使用隨機(jī)噪聲序列的矢量或?qū)讉€(gè)脈沖配置在不同位置上而生成的矢量等。
在CELP編碼裝置中，使用輸入的數(shù)字信號(hào)進(jìn)行LPC的分析及量化、音調(diào)搜索、噪聲碼本搜索、以及增益碼本搜索，量化LPC碼(L)、音調(diào)周期(P)、噪聲碼本索引(S)、以及增益碼本索引(G)被傳輸?shù)浇獯a器。
然而，在上述現(xiàn)有語音編碼裝置中，必須用一種噪聲碼本來對(duì)待有聲語音、無聲語音、以及背景噪聲等，難以對(duì)所有這些輸入信號(hào)進(jìn)行高品質(zhì)編碼。
發(fā)明公開本發(fā)明的目的在于提供一種多模式語音編碼裝置及語音解碼裝置，不用新傳輸模式信息，就能夠?qū)崿F(xiàn)音源編碼的多模式化，特別是除了有聲區(qū)間/無聲區(qū)間的判定之外，還能夠進(jìn)行語音區(qū)間/非語音區(qū)間的判定，能夠進(jìn)一步提高多模式化對(duì)編碼/解碼性能的改善度。
在本發(fā)明中，使用表示頻譜特性的量化參數(shù)的靜態(tài)/動(dòng)態(tài)特征進(jìn)行模式判定，根據(jù)表示語音區(qū)間/非語音區(qū)間、有聲區(qū)間/無聲區(qū)間的模式判定結(jié)果，來切換用于驅(qū)動(dòng)音源編碼的各種碼本的模式。此外，在本發(fā)明中，在解碼時(shí)使用編碼時(shí)使用了的模式信息，來切換用于解碼的各種碼本的模式。
附圖的簡單說明

圖1是本發(fā)明實(shí)施例1的語音編碼裝置的結(jié)構(gòu)方框圖；圖2是本發(fā)明實(shí)施例2的語音解碼裝置的結(jié)構(gòu)方框圖；圖3是本發(fā)明實(shí)施例1的語音編碼處理的流程圖；圖4是本發(fā)明實(shí)施例2的語音解碼處理的流程圖；圖5A是本發(fā)明實(shí)施例3的語音信號(hào)發(fā)送裝置的結(jié)構(gòu)方框圖；圖5B是本發(fā)明實(shí)施例3的語音信號(hào)接收裝置的結(jié)構(gòu)方框圖；圖6是本發(fā)明實(shí)施例4的模式選擇器的結(jié)構(gòu)方框圖；圖7是本發(fā)明實(shí)施例5的多模式后處理器的結(jié)構(gòu)方框圖；圖8是本發(fā)明實(shí)施例4的前級(jí)的多模式后處理的流程圖；圖9是本發(fā)明實(shí)施例4的后級(jí)的多模式后處理的流程圖；圖10是本發(fā)明實(shí)施例4的多模式后處理的整體流程圖；圖11是本發(fā)明實(shí)施例5的前級(jí)的多模式后處理的流程圖；以及圖12是本發(fā)明實(shí)施例5的后級(jí)的多模式后處理的流程圖。
實(shí)施發(fā)明的最好形式下面，使用圖1至圖9來說明本發(fā)明實(shí)施例的語音編碼裝置等。
(實(shí)施例1)圖1是本發(fā)明實(shí)施例1的語音編碼裝置的結(jié)構(gòu)方框圖。
由數(shù)字化過的語音信號(hào)等構(gòu)成的輸入數(shù)據(jù)被輸入到預(yù)處理器101。預(yù)處理器101使用高通濾波器或帶通濾波器等進(jìn)行直流分量的除去或輸入數(shù)據(jù)的限帶等，輸出到LPC分析器102和加法器106。在該預(yù)處理器101中即使不進(jìn)行任何處理，也能夠進(jìn)行后續(xù)的編碼處理，但是進(jìn)行前述的處理能提高編碼性能。
LPC分析器102進(jìn)行線性預(yù)測分析來計(jì)算線性預(yù)測系數(shù)(LPC)，輸出到LPC量化器103。
LPC量化器103對(duì)輸入的LPC進(jìn)行量化，將量化后的LPC輸出到合成濾波器104和模式選擇器105，并且將表現(xiàn)量化LPC的代碼L輸出到解碼器。一般，LPC量化是變換為插值特性良好的LSP(Line Spectrum Pair線譜對(duì))來進(jìn)行的。
合成濾波器104使用從LPC量化器103輸入的量化LPC來構(gòu)筑LPC合成濾波器。向該合成濾波器輸入從加法器114輸出的驅(qū)動(dòng)音源信號(hào)，進(jìn)行濾波處理，將合成信號(hào)輸出到加法器106。
模式選擇器105使用從LPC量化器103輸入的量化LPC來決定噪聲碼本109的模式。
這里，模式選擇器105也存儲(chǔ)過去輸入的量化LPC信息，使用幀間量化LPC的變動(dòng)特征、和當(dāng)前幀的量化LPC的特征這兩者進(jìn)行模式選擇。該模式至少有2種以上，例如由與有聲語音部對(duì)應(yīng)的模式、和與無聲語音部及平穩(wěn)噪聲部等對(duì)應(yīng)的模式構(gòu)成。此外，模式選擇所用的信息不必是量化LPC本身，變換為量化LSP、反射系數(shù)、或線性預(yù)測殘差功率等參數(shù)也很有效。
加法器106計(jì)算從預(yù)處理器101輸入的預(yù)處理后的輸入數(shù)據(jù)和合成信號(hào)之間的誤差，輸出到聽覺加權(quán)濾波器107。
聽覺加權(quán)濾波器107對(duì)加法器106算出的誤差進(jìn)行聽覺加權(quán)，輸出到誤差最小化器108。
誤差最小化器108調(diào)整噪聲碼本索引Si、自適應(yīng)碼本索引(音調(diào)周期)Pi、以及增益碼本索引Gi，同時(shí)分別輸出到噪聲碼本109、自適應(yīng)碼本110、以及增益碼本111，分別決定噪聲碼本109、自適應(yīng)碼本110、以及增益碼本111生成的噪聲碼本矢量、自適應(yīng)碼本矢量、噪聲碼本增益及自適應(yīng)碼本增益，使得從聽覺加權(quán)濾波器107輸入的聽覺加權(quán)過的誤差達(dá)到最小，將表現(xiàn)噪聲碼矢量的代碼S、表現(xiàn)自適應(yīng)碼矢量的代碼P、以及表現(xiàn)增益信息的代碼G分別輸出到解碼器。
噪聲碼本109保存預(yù)定個(gè)數(shù)的形狀不同的噪聲碼矢量，輸出從誤差最小化器108輸入的噪聲碼矢量的索引Si所指定的噪聲碼矢量。此外，該噪聲碼本109至少具有2種以上的模式，例如其結(jié)構(gòu)為在與有聲語音部對(duì)應(yīng)的模式中生成更像脈沖的噪聲碼矢量，在與無聲語音部或平穩(wěn)噪聲部等對(duì)應(yīng)的模式中生成更像噪聲的噪聲碼矢量。模式選擇器105從上述2種以上的模式中選擇一個(gè)模式，從噪聲碼本109輸出的噪聲碼矢量根據(jù)該模式來生成，由乘法器112乘以噪聲碼本增益Gs后，輸出到加法器114。
自適應(yīng)碼本110逐次更新過去生成的驅(qū)動(dòng)音源信號(hào)并緩沖，使用從誤差最小化器108輸入的自適應(yīng)碼本索引(音調(diào)周期(ピッチラグ))Pi來生成自適應(yīng)碼矢量。由自適應(yīng)碼本110生成的自適應(yīng)碼矢量由乘法器113乘以自適應(yīng)碼本增益Ga后，輸出到加法器114。
增益碼本111保存預(yù)定個(gè)數(shù)的自適應(yīng)碼本增益Ga和噪聲碼本增益Gs的組(增益矢量)，將從誤差最小化器108輸入的增益碼本索引Gi所指定的增益矢量的自適應(yīng)碼本增益分量Ga輸出到乘法器113，而將噪聲碼本增益分量Gs輸出到乘法器112。如果增益碼本為多級(jí)結(jié)構(gòu)，則能夠削減增益碼本所需的存儲(chǔ)量、和增益碼本搜索所需的運(yùn)算量。此外，如果分配給增益碼本的比特?cái)?shù)足夠，則也可以獨(dú)立地對(duì)自適應(yīng)碼本增益和噪聲碼本增益進(jìn)行標(biāo)量量化。
加法器114將從乘法器112及113輸入的噪聲碼矢量和自適應(yīng)碼矢量相加，生成驅(qū)動(dòng)音源信號(hào)，輸出到合成濾波器104及自適應(yīng)碼本110。
在本實(shí)施例中，多模式化的只是噪聲碼本109，但是也可以將自適應(yīng)碼本110及增益碼本111多模式化以進(jìn)一步改善品質(zhì)。
下面參照?qǐng)D3來說明上述實(shí)施例的語音編碼方法的處理流程。在本說明中示出下述例子按預(yù)定時(shí)間長度的處理單位(幀時(shí)間長度為大約數(shù)十毫秒)進(jìn)行語音編碼處理，按整數(shù)個(gè)更短的處理單位(子幀)來處理1幀。
在步驟(以下略稱為ST)301中，清除自適應(yīng)碼本的內(nèi)容、合成濾波器存儲(chǔ)器、輸入緩沖器等所有存儲(chǔ)器。
接著，在ST302中，按1幀來輸入數(shù)字化過的語音信號(hào)等輸入數(shù)據(jù)，通過高通濾波器或帶通濾波器等進(jìn)行輸入數(shù)據(jù)的偏移除去或限帶。預(yù)處理后的輸入數(shù)據(jù)被緩沖到輸入緩沖器，用于以后的編碼處理。
接著，在ST303中，進(jìn)行LPC分析(線性預(yù)測分析)，計(jì)算LPC系數(shù)(線性預(yù)測系數(shù))。
接著，在ST304中，進(jìn)行ST303中算出的LPC系數(shù)的量化。LPC系數(shù)的量化方法有多種，而如果采用變換為插值特性良好的LSP參數(shù)、并利用了多級(jí)矢量量化或幀間相關(guān)的預(yù)測量化，則能夠高效地量化。此外，例如在1幀被分割為2個(gè)子幀來處理的情況下，一般是，對(duì)第2子幀的LPC系數(shù)進(jìn)行量化，第1子幀的LPC系數(shù)使用前一幀的第2子幀的量化LPC系數(shù)、和當(dāng)前幀的第2子幀的量化LPC系數(shù)通過插值處理來決定。
接著，在ST305中，構(gòu)筑對(duì)預(yù)處理后的輸入數(shù)據(jù)進(jìn)行聽覺加權(quán)的聽覺加權(quán)濾波器。
接著，在ST306中，構(gòu)筑由驅(qū)動(dòng)音源信號(hào)來生成聽覺加權(quán)域的合成信號(hào)的聽覺加權(quán)合成濾波器。該濾波器從屬連接了合成濾波器和聽覺加權(quán)濾波器，合成濾波器使用ST304中量化過的量化LPC系數(shù)來構(gòu)筑，而聽覺加權(quán)濾波器使用ST303中算出的LPC系數(shù)來構(gòu)筑。
接著，在ST307中，進(jìn)行模式選擇。模式選擇使用ST304中量化過的量化LPC系數(shù)的動(dòng)態(tài)及靜態(tài)特征來進(jìn)行。具體地說，使用由量化LSP的變動(dòng)或量化LPC系數(shù)而算出的反射系數(shù)或預(yù)測殘差功率等。根據(jù)本步驟中選擇的模式，進(jìn)行噪聲碼本的搜索。本步驟中選擇的模式至少有2種，例如可考慮有聲語音模式、和無聲語音及平穩(wěn)噪聲模式這種2模式結(jié)構(gòu)。
接著，在ST308中，進(jìn)行自適應(yīng)碼本的搜索。自適應(yīng)碼本的搜索是搜索能生成下述聽覺加權(quán)合成波形的自適應(yīng)碼矢量，即，該波形最接近對(duì)預(yù)處理后的輸入數(shù)據(jù)進(jìn)行聽覺加權(quán)所得的波形；決定取出自適應(yīng)碼矢量的位置，使得用ST305中構(gòu)筑的聽覺加權(quán)濾波器對(duì)預(yù)處理后的輸入數(shù)據(jù)進(jìn)行濾波所得的信號(hào)、和將從自適應(yīng)碼本中取出的自適應(yīng)碼矢量作為驅(qū)動(dòng)音源信號(hào)并用ST306中構(gòu)筑的聽覺加權(quán)合成濾波器進(jìn)行濾波所得的信號(hào)之間的誤差達(dá)到最小。
接著，在ST309中，進(jìn)行噪聲碼本的搜索。噪聲碼本的搜索是選擇生成驅(qū)動(dòng)音源信號(hào)的噪聲碼矢量，該驅(qū)動(dòng)音源信號(hào)能生成下述聽覺加權(quán)合成波形，即，該波形最接近對(duì)預(yù)處理后的輸入數(shù)據(jù)進(jìn)行聽覺加權(quán)所得的波形；考慮到驅(qū)動(dòng)音源信號(hào)是將自適應(yīng)碼矢量和噪聲碼矢量相加而生成的來進(jìn)行搜索。因此，將已經(jīng)在ST308中決定了的自適應(yīng)碼矢量、和噪聲碼本中保存的噪聲碼矢量相加來生成驅(qū)動(dòng)音源信號(hào)，從噪聲碼本中選擇噪聲碼矢量，使得用ST306中構(gòu)筑的聽覺加權(quán)合成濾波器對(duì)生成的驅(qū)動(dòng)音源信號(hào)進(jìn)行濾波所得的信號(hào)、和用ST305中構(gòu)筑的聽覺加權(quán)濾波器對(duì)預(yù)處理后的輸入數(shù)據(jù)進(jìn)行濾波所得的信號(hào)之間的誤差達(dá)到最小。在對(duì)噪聲碼矢量進(jìn)行音調(diào)周期化等處理的情況下，進(jìn)行也考慮了該處理的搜索。此外，該噪聲碼本至少具有2種以上的模式，例如在與有聲語音部對(duì)應(yīng)的模式中使用保存著更像脈沖的噪聲碼矢量的噪聲碼本進(jìn)行搜索，而在與無聲語音部或平穩(wěn)噪聲部等對(duì)應(yīng)的模式中使用保存著更像噪聲的噪聲碼矢量的噪聲碼本進(jìn)行搜索。在ST307中選擇搜索時(shí)使用哪個(gè)模式的噪聲碼本。
接著，在ST310中，進(jìn)行增益碼本的搜索。增益碼本的搜索是從增益碼本中選擇自適應(yīng)碼本增益和噪聲碼本增益的組，以分別乘已經(jīng)在ST308中決定的自適應(yīng)碼矢量、和ST309中決定的噪聲碼矢量；從增益碼本中選擇自適應(yīng)碼本增益和噪聲碼本增益的組，使得將自適應(yīng)碼本增益乘法后的自適應(yīng)碼矢量、和噪聲碼增益乘法后的噪聲碼矢量相加來生成驅(qū)動(dòng)音源信號(hào)，用ST306中構(gòu)筑的聽覺加權(quán)合成濾波器對(duì)生成的驅(qū)動(dòng)音源信號(hào)進(jìn)行濾波所得的信號(hào)、和用ST305中構(gòu)筑的聽覺加權(quán)濾波器對(duì)預(yù)處理后的輸入數(shù)據(jù)進(jìn)行濾波所得的信號(hào)之間的誤差達(dá)到最小。
接著，在ST311中，生成驅(qū)動(dòng)音源信號(hào)。驅(qū)動(dòng)音源信號(hào)是將ST308選擇出的自適應(yīng)碼矢量乘以ST310中選擇出的自適應(yīng)碼本增益所得的矢量、和ST309中選擇出的噪聲碼矢量乘以ST310中選擇出的噪聲碼本增益所得矢量相加來生成的。
接著，在ST312中，進(jìn)行子幀處理循環(huán)所用的存儲(chǔ)器的更新。具體地說，進(jìn)行自適應(yīng)碼本的更新、聽覺加權(quán)濾波器及聽覺加權(quán)合成濾波器的狀態(tài)更新等。
上述ST305～312是以子幀為單位的處理。
接著，在ST313中，進(jìn)行幀處理循環(huán)所用的存儲(chǔ)器的更新。具體地說，進(jìn)行預(yù)處理器所用的濾波器的狀態(tài)更新、量化LPC系數(shù)緩沖器的更新(在進(jìn)行LPC的幀間預(yù)測量化的情況下)、輸入數(shù)據(jù)緩沖器的更新等。
接著，在ST314中，進(jìn)行編碼數(shù)據(jù)的輸出。編碼數(shù)據(jù)按照傳輸?shù)男螒B(tài)進(jìn)行比特流化或復(fù)用處理等并送出到傳輸線路。
上述ST302～304及313～314是以幀為單位的處理。此外，重復(fù)進(jìn)行以幀為單位及以子幀為單位的處理，直至沒有輸入數(shù)據(jù)。
(實(shí)施例2)圖2是本發(fā)明實(shí)施例2的語音解碼裝置的結(jié)構(gòu)方框圖。
從編碼器傳輸?shù)摹⒈憩F(xiàn)量化LPC的代碼L、表現(xiàn)噪聲碼矢量的代碼S、表現(xiàn)自適應(yīng)碼矢量的代碼P、以及表示增益信息的代碼G分別被輸入到LPC解碼器201、噪聲碼本203、自適應(yīng)碼本204、以及增益碼本205。
LPC解碼器201由代碼L來解碼出量化LPC，分別輸出到模式選擇器202和合成濾波器209。
模式選擇器202使用從LPC解碼器201輸入的量化LPC來決定噪聲碼本203及后處理器211的模式，將模式信息M分別輸出到噪聲碼本203及后處理器211。模式選擇器202也存儲(chǔ)過去輸入的量化LPC的信息，使用幀間的量化LPC的變動(dòng)特征、和當(dāng)前幀中的量化LPC的特征這兩者進(jìn)行模式選擇。該模式至少有2種以上，例如由與有聲語音部對(duì)應(yīng)的模式、與無聲語音部對(duì)應(yīng)的模式、和與平穩(wěn)噪聲部等對(duì)應(yīng)的模式構(gòu)成。此外，模式選擇所用的信息不必是量化LPC本身，變換為量化LSP、反射系數(shù)、或線性預(yù)測殘差功率等參數(shù)也很有效。
噪聲碼本203保存預(yù)定個(gè)數(shù)的形狀不同的噪聲碼矢量，輸出對(duì)輸入的代碼S進(jìn)行解碼所得的噪聲碼本索引所指定的噪聲碼矢量。此外，該噪聲碼本203至少具有2種以上的模式，例如其結(jié)構(gòu)為在與有聲語音部對(duì)應(yīng)的模式中生成更像脈沖的噪聲碼矢量，在與無聲語音部或平穩(wěn)噪聲部等對(duì)應(yīng)的模式中生成更像噪聲的噪聲碼矢量。模式選擇器202從上述2種以上的模式中選擇一個(gè)模式，從噪聲碼本203輸出的噪聲碼矢量由該一個(gè)模式來生成，由乘法器206乘以噪聲碼本增益Gs后，輸出到加法器208。
自適應(yīng)碼本204逐次更新過去生成的驅(qū)動(dòng)音源信號(hào)并緩沖，使用對(duì)輸入的代碼P進(jìn)行解碼所得的自適應(yīng)碼本索引(音調(diào)周期(ピッチラグ))來生成自適應(yīng)碼矢量。由自適應(yīng)碼本204生成的自適應(yīng)碼矢量由乘法器207乘以自適應(yīng)碼本增益Ga后，輸出到加法器208。
增益碼本205保存預(yù)定個(gè)數(shù)的自適應(yīng)碼本增益Ga和噪聲碼本增益Gs的組(增益矢量)，將對(duì)輸入的代碼G進(jìn)行解碼所得的增益碼本索引所指定的增益矢量的自適應(yīng)碼本增益分量Ga輸出到乘法器207，而將噪聲碼本增益分量Gs輸出到乘法器206。
加法器208將從乘法器206及207輸入的噪聲碼矢量和自適應(yīng)碼矢量相加，生成驅(qū)動(dòng)音源信號(hào)，輸出到合成濾波器209及自適應(yīng)碼本204。
合成濾波器209使用從LPC解碼器201輸入的量化LPC來構(gòu)筑LPC合成濾波器。該合成濾波器輸入從加法器208輸出的驅(qū)動(dòng)音源信號(hào)，進(jìn)行濾波處理，將合成信號(hào)輸出到后濾波器210。
后濾波器210對(duì)從合成濾波器209輸入的合成信號(hào)進(jìn)行音調(diào)增強(qiáng)、共振峰增強(qiáng)、頻譜傾斜校正、增益調(diào)整等用于改善語音信號(hào)的主觀品質(zhì)的處理，輸出到后處理器211。
后處理器211對(duì)從后濾波器210輸入的信號(hào)利用從模式選擇器202輸入的模式信息M自適應(yīng)地進(jìn)行振幅頻譜的幀間平滑化處理、相位頻譜的隨機(jī)化處理等用于改善平穩(wěn)噪聲部的主觀品質(zhì)的處理。例如，在與有聲語音部或無聲語音部對(duì)應(yīng)的模式中幾乎不進(jìn)行上述平滑化處理或隨機(jī)化處理，而在與平穩(wěn)噪聲部等對(duì)應(yīng)的模式中自適應(yīng)地進(jìn)行上述平滑化處理或隨機(jī)化處理。后處理后的信號(hào)作為數(shù)字化過的解碼語音信號(hào)等輸出數(shù)據(jù)被輸出。
在本實(shí)施例中，從模式選擇器202輸出的模式信息M被用于噪聲碼本203的模式切換、和后處理器211的模式切換這兩者，但是即使只用于某一個(gè)的模式切換也能得到效果。在此情況下，只對(duì)某一個(gè)進(jìn)行多模式處理。
下面參照?qǐng)D4來說明上述實(shí)施例的語音解碼方法的處理流程。在本說明中示出下述例子按預(yù)定時(shí)間長度的處理單位(幀時(shí)間長度為大約數(shù)十毫秒)進(jìn)行語音編碼處理，按整數(shù)個(gè)更短的處理單位(子幀)來處理1幀。
在ST401中，清除自適應(yīng)碼本的內(nèi)容、合成濾波器存儲(chǔ)器、輸出緩沖器等所有存儲(chǔ)器。
接著，在ST402中，編碼數(shù)據(jù)被解碼。具體地說，進(jìn)行復(fù)用的接收信號(hào)的分離，或者將比特流化的接收信號(hào)分別變換為分別表示量化LPC系數(shù)、自適應(yīng)碼矢量、噪聲碼矢量、以及增益信息的代碼。
接著，在ST403中，對(duì)LPC系數(shù)進(jìn)行解碼。LPC系數(shù)是由ST402中得到的表示量化LPC系數(shù)的代碼、通過實(shí)施例1所示的LPC系數(shù)的量化方法的逆過程來解碼的。
接著，在ST404中，使用ST403中解碼過的LPC系數(shù)來構(gòu)筑合成濾波器。
接著，在ST405中，使用ST403中解碼過的LPC系數(shù)的靜態(tài)及動(dòng)態(tài)特征，進(jìn)行噪聲碼本及后處理的模式選擇。具體地說，使用由量化LSP的變動(dòng)或量化LPC系數(shù)而算出的反射系數(shù)或預(yù)測殘差功率等。根據(jù)本步驟中選擇的模式，進(jìn)行噪聲碼本的解碼及后處理。該模式至少有2種，例如由與有聲語音部對(duì)應(yīng)的模式、與無聲語音部對(duì)應(yīng)的模式、以及與平穩(wěn)噪聲部對(duì)應(yīng)的模式構(gòu)成。
接著，在ST406中，自適應(yīng)碼矢量被解碼。自適應(yīng)碼矢量如下被解碼由表現(xiàn)自適應(yīng)碼矢量的代碼來解碼出從自適應(yīng)碼本中取出自適應(yīng)碼矢量的位置，從該位置取出自適應(yīng)碼矢量。
接著，在ST407中，噪聲碼矢量被解碼。噪聲碼矢量如下被解碼由表現(xiàn)噪聲碼矢量的代碼來解碼出噪聲碼本索引，從噪聲碼本中取出與該索引對(duì)應(yīng)的噪聲碼矢量。在采用噪聲碼矢量的音調(diào)周期化等時(shí)，進(jìn)一步進(jìn)行音調(diào)周期化后的矢量成為解碼噪聲碼矢量。此外，該噪聲碼本至少具有2中以上的模式，例如在與有聲語音部對(duì)應(yīng)的模式中生成更像脈沖的噪聲碼矢量，而在與無聲語音部或平穩(wěn)噪聲部等對(duì)應(yīng)的模式中生成更像噪聲的噪聲碼矢量。
接著，在ST408中，自適應(yīng)碼本增益和噪聲碼本增益被解碼。由表示增益信息的代碼來解碼出增益碼本索引，從增益碼本中取出該索引所示的自適應(yīng)碼本增益和噪聲碼本增益的組，從而增益信息被解碼。
接著，在ST409中，生成驅(qū)動(dòng)音源信號(hào)。驅(qū)動(dòng)音源信號(hào)如下被生成將ST406中選擇出的自適應(yīng)碼矢量乘以ST408中選擇出的自適應(yīng)碼本增益所得的矢量、和ST407中選擇出的噪聲碼矢量乘以ST408中選擇出的噪聲碼本增益所得的矢量相加。
接著，在ST410中，合成解碼信號(hào)。用ST404中構(gòu)筑的合成濾波器對(duì)ST409中生成的驅(qū)動(dòng)音源信號(hào)進(jìn)行濾波，來合成解碼信號(hào)。
接著，在ST411中，對(duì)解碼信號(hào)進(jìn)行后濾波處理。后濾波處理由音調(diào)增強(qiáng)處理、共振峰增強(qiáng)處理、頻譜傾斜校正處理、增益調(diào)整處理等用于改善解碼信號(hào)、特別是解碼語音信號(hào)的主觀品質(zhì)的處理構(gòu)成。
接著，在ST412中，對(duì)后濾波處理后的解碼信號(hào)進(jìn)行最終性的后處理。該后處理主要由振幅頻譜的(子)幀間平滑化處理、相位頻譜的隨機(jī)化處理等用于改善解碼信號(hào)中的平穩(wěn)噪聲部分的主觀品質(zhì)的處理構(gòu)成，進(jìn)行與ST405中選擇出的模式對(duì)應(yīng)的處理。例如，在與有聲語音部或無聲語音部對(duì)應(yīng)的模式中幾乎不進(jìn)行上述平滑化處理或隨機(jī)化處理，而在與平穩(wěn)噪聲部等對(duì)應(yīng)的模式中自適應(yīng)地進(jìn)行上述平滑化處理或隨機(jī)化處理。本步驟中生成的信號(hào)成為輸出數(shù)據(jù)。
接著，在ST413中，進(jìn)行子幀處理循環(huán)所用的存儲(chǔ)器的更新。具體地說，進(jìn)行自適應(yīng)碼本的更新、后濾波處理中包含的各濾波器的狀態(tài)更新等。
上述ST404～413是以子幀為單位的處理。
接著，在ST414中，進(jìn)行幀處理循環(huán)所用的存儲(chǔ)器的更新。具體地說，進(jìn)行量化(解碼)LPC系數(shù)緩沖器的更新(在進(jìn)行LPC的幀間預(yù)測量化的情況下)、輸出數(shù)據(jù)緩沖器的更新等。
上述ST402～403及414是以幀為單位的處理。此外，重復(fù)進(jìn)行以幀為單位及以子幀為單位的處理，直至沒有編碼數(shù)據(jù)。
(實(shí)施例3)圖5是包括實(shí)施例1的語音編碼裝置或?qū)嵤├?的語音解碼裝置的語音信號(hào)發(fā)送機(jī)及接收機(jī)的方框圖。圖5A是發(fā)送機(jī)，而圖5B是接收機(jī)。
在圖5A的語音信號(hào)發(fā)送機(jī)中，語音通過語音輸入裝置501變換為電模擬信號(hào)，輸出到A/D變換器502。模擬語音信號(hào)通過A/D變換器502變換為數(shù)字語音信號(hào)，輸出到語音編碼器503。語音編碼器503進(jìn)行語音編碼處理，將編碼過的信息輸出到RF調(diào)制器504。RF調(diào)制器對(duì)編碼過的語音信號(hào)信息進(jìn)行調(diào)制、放大、代碼擴(kuò)展等用于作為電波送出的操作，輸出到發(fā)送天線505。最后，從發(fā)送天線505送出電波(RF信號(hào))506。
另一方面，在圖5B的接收機(jī)中，用接收天線507接收電波(RF信號(hào))506，接收信號(hào)被送至RF解調(diào)器508。RF解調(diào)器508進(jìn)行代碼解擴(kuò)、解調(diào)等用于將電波信號(hào)變換為編碼信息的處理，將編碼信息輸出到語音解碼器509。語音解碼器509進(jìn)行編碼信息的解碼處理，將數(shù)字解碼語音信號(hào)輸出到D/A變換器510。D/A變換器510將從語音解碼器509輸出的數(shù)字解碼語音信號(hào)變換為模擬解碼語音信號(hào)，輸出到語音輸出裝置511。最后，語音輸出裝置511將電模擬解碼語音信號(hào)變換為解碼語音并輸出。
上述發(fā)送裝置及接收裝置可以用作便攜電話等移動(dòng)通信設(shè)備的移動(dòng)臺(tái)或基站裝置。傳輸信息的媒體不限于本實(shí)施例所示的電波，也可以利用光信號(hào)等，還可以使用有線傳輸線路。
上述實(shí)施例1所示的語音編碼裝置、上述實(shí)施例2所示的語音解碼裝置、及上述實(shí)施例3所示的發(fā)送裝置及發(fā)送接收裝置也可以作為軟件記錄在磁盤、光磁盤、盒式ROM(ROMカ-トリッジ)等記錄媒體上來實(shí)現(xiàn)，通過使用該記錄媒體，就能夠通過使用這種記錄媒體的個(gè)人計(jì)算機(jī)等來實(shí)現(xiàn)語音編碼裝置/解碼裝置及發(fā)送裝置/接收裝置。
(實(shí)施例4)實(shí)施例4是示出上述實(shí)施例1、2中的模式選擇器105、202的結(jié)構(gòu)例的例子。
圖6是本發(fā)明實(shí)施例4的模式選擇器的結(jié)構(gòu)方框圖。
本實(shí)施例的模式選擇器包括動(dòng)態(tài)特征提取部601，提取量化LSP參數(shù)的動(dòng)態(tài)特征；以及第一、第二靜態(tài)特征提取部602、603，提取量化LSP參數(shù)的靜態(tài)特征。
動(dòng)態(tài)特征提取部601向AR型平滑化部604輸入量化LSP參數(shù)進(jìn)行平滑化處理。在AR型平滑化部604中，將每個(gè)處理單位時(shí)間輸入的各次量化LSP參數(shù)作為時(shí)間序列數(shù)據(jù)，進(jìn)行(1)式所示的平滑化處理。
-Ls[i]＝(1-α)×Ls[i]+α×L[i]，i＝1，2，...，M，0＜α＜1...(1)Ls[i]i次平滑化量化LSP參數(shù)L[i]i次量化LSP參數(shù)α平滑化系數(shù)MLSP分析次數(shù)在(1)式中，α的值設(shè)定為大約0.7，以進(jìn)行不太強(qiáng)的平滑化。用上述(1)式求出的平滑化過的量化LSP參數(shù)被分支為經(jīng)由延遲部605輸入到加法器606的參數(shù)、和直接輸入到加法器606的參數(shù)。
延遲部605將輸入的平滑化過的量化LSP參數(shù)延遲1個(gè)處理單位時(shí)間，輸出到加法器606。
加法器606輸入當(dāng)前處理單位時(shí)間中平滑化過的量化LSP參數(shù)、和前一處理單位時(shí)間中平滑化過的量化LSP參數(shù)。在該加法器606中，計(jì)算當(dāng)前處理單位時(shí)間中平滑化過的量化LSP參數(shù)、和前一處理單位時(shí)間中平滑化過的量化LSP參數(shù)之差。對(duì)LSP參數(shù)的各次數(shù)來計(jì)算該差。加法器606的計(jì)算結(jié)果被輸出到平方和計(jì)算部607。
平方和計(jì)算部607計(jì)算當(dāng)前處理單位時(shí)間中平滑化過的量化LSP參數(shù)、和前一處理單位時(shí)間中平滑化過的量化LSP參數(shù)之間每個(gè)次數(shù)之差的平方和。
在動(dòng)態(tài)特征提取部601中，與AR型平滑化部604并列，向延遲部608也輸入量化LSP參數(shù)。在延遲部608中，延遲1個(gè)處理單位時(shí)間，經(jīng)開關(guān)609輸出到AR型平均值計(jì)算部611。
開關(guān)609在從延遲部610輸出的模式信息是噪聲模式的情況下閉合，將從延遲部608輸出的量化LSP參數(shù)輸入到AR型平均值計(jì)算部611。
延遲部610輸入從模式判定部621輸出的模式信息，延遲1個(gè)處理單位時(shí)間，輸出到開關(guān)609。
AR型平均值計(jì)算部611與AR型平滑化部604同樣，根據(jù)(1)式來計(jì)算噪聲區(qū)間中的平均LSP參數(shù)，輸出到加法器612。其中，(1)式中的α值為大約0.05，通過進(jìn)行極強(qiáng)的平滑化處理，來計(jì)算LSP參數(shù)的長時(shí)間平均。
加法器612對(duì)各次數(shù)來計(jì)算當(dāng)前處理單位時(shí)間中的量化LSP參數(shù)、和AR型平均值計(jì)算部611算出的噪聲區(qū)間中的量化LSP參數(shù)之差，輸出到平方和計(jì)算部613。
平方和計(jì)算部613輸入從加法器612輸出的量化LSP參數(shù)的差分信息，計(jì)算各次數(shù)的平方和，輸出到語音區(qū)間檢測部619。
量化LSP參數(shù)的動(dòng)態(tài)特征提取部601由以上604至613的要素構(gòu)成。
第一靜態(tài)特征提取部602在線性預(yù)測殘差功率計(jì)算部614中由量化LSP參數(shù)來計(jì)算線性預(yù)測殘差功率。此外，在鄰接LSP間隔計(jì)算部615中，如(2)式所示，對(duì)量化LSP參數(shù)鄰接的每個(gè)次數(shù)來計(jì)算間隔。
Ld[i]＝L[i+1]-L[i]，i＝1，2，...M-1...(2)L[i]i次量化LSP參數(shù)鄰接LSP間隔計(jì)算部615的計(jì)算值被提供給方差值計(jì)算部616。方差值計(jì)算部616計(jì)算從鄰接LSP間隔計(jì)算部615輸出的量化LSP參數(shù)間隔的方差值。在計(jì)算方差值時(shí)，不使用所有LSP參數(shù)間隔數(shù)據(jù)，而是通過除去低帶端(Ld[1])的數(shù)據(jù)，能夠反映最低帶以外的部分中存在的頻譜的峰谷特征。與具有低帶隆起特性的平穩(wěn)噪聲相比，在通過高通濾波器的情況下，在濾波器截止頻率附近經(jīng)常出現(xiàn)頻譜的峰，所以具有去除這種頻譜的峰信息的效果。即，能夠提取輸入信號(hào)的頻譜包絡(luò)的峰谷特征，能夠提取靜態(tài)特征，用于檢測很可能是語音區(qū)間的區(qū)間。此外，根據(jù)該結(jié)構(gòu)，能夠高精度地區(qū)分語音區(qū)間和平穩(wěn)噪聲區(qū)間。
量化LSP參數(shù)的第一靜態(tài)特征提取部602由以上的614、615、616的要素構(gòu)成。
此外，在第二靜態(tài)特征提取部603中，反射系數(shù)計(jì)算部617將量化LSP參數(shù)變換為反射系數(shù)，輸出到有聲/無聲判定部620。與此同時(shí)，線性預(yù)測殘差功率計(jì)算部618由量化LSP參數(shù)來計(jì)算線性預(yù)測殘差功率，輸出到有聲/無聲判定部620。
線性預(yù)測殘差功率計(jì)算部618與線性預(yù)測殘差功率計(jì)算部614相同，所以614和618能夠共用。
量化LSP參數(shù)的第二靜態(tài)特征提取部603由以上的617和618的要素構(gòu)成。
動(dòng)態(tài)特征提取部610及第一靜態(tài)特征提取部602的輸出被提供給語音區(qū)間檢測部619。語音區(qū)間檢測部619從平方和計(jì)算部607輸入平滑化量化LSP參數(shù)的變動(dòng)量，從平方和計(jì)算部613輸入噪聲區(qū)間的平均量化LSP參數(shù)、和當(dāng)前的量化LSP參數(shù)之間的距離，從線性預(yù)測殘差功率計(jì)算部614輸入量化線性預(yù)測殘差功率，從方差值計(jì)算部616輸入鄰接LSP間隔數(shù)據(jù)的方差信息。然后，使用這些信息，判定當(dāng)前處理單位時(shí)間中的輸入信號(hào)(或解碼信號(hào))是否是語音區(qū)間，將判定結(jié)果輸出到模式判定部621。更具體的判定是否是語音區(qū)間的方法使用圖8來后述。
另一方面，第二靜態(tài)特征提取部603的輸出被提供給有聲/無聲判定部620。有聲/無聲判定部620分別輸入從反射系數(shù)計(jì)算部617輸入的反射系數(shù)、和從線性預(yù)測殘差功率計(jì)算部618輸入的量化線性預(yù)測殘差功率。然后，使用這些信息，判定當(dāng)前處理單位時(shí)間中的輸入信號(hào)(或解碼信號(hào))是有聲區(qū)間、還是無聲區(qū)間，將判定結(jié)果輸出到模式判定部621。更具體的有音/無音判定方法使用圖9來后述。
模式判定部621分別輸入從語音區(qū)間檢測部619輸出的判定結(jié)果、和從有聲/無聲判定部620輸出的判定結(jié)果，使用這些信息來決定當(dāng)前處理單位時(shí)間中的輸入信號(hào)(或解碼信號(hào))的模式并輸出。更具體的模式分類方法使用圖10來后述。
在本實(shí)施例中，平滑化部和平均值計(jì)算部使用AR型，但是也可以使用其以外的方法進(jìn)行平滑化和平均值計(jì)算。
下面，參照?qǐng)D8，說明上述實(shí)施例中的語音區(qū)間判定方法的細(xì)節(jié)。
首先，在ST801中，計(jì)算第一動(dòng)態(tài)參數(shù)(Para1)。第一動(dòng)態(tài)參數(shù)的具體內(nèi)容是每個(gè)處理單位時(shí)間的量化LSP參數(shù)的變動(dòng)量，如(3)式所示。D(t)=Σi=1M(LSi(t)-LSi(t-1))2----(3)]]>
LSi(t)時(shí)刻t的平滑化量化LSP接著，在ST802中，檢查第一動(dòng)態(tài)參數(shù)是否大于預(yù)定的閾值Th1。在超過閾值Th1的情況下，由于量化LSP參數(shù)的變動(dòng)量大，所以判定為是語音區(qū)間。另一方面，在小于閾值Th1的情況下，由于量化LSP參數(shù)的變動(dòng)量小，所以進(jìn)至ST803，進(jìn)一步進(jìn)至使用其他參數(shù)的判定處理的ST。
在ST802中，在第一動(dòng)態(tài)參數(shù)小于閾值Th1的情況下，進(jìn)至ST803，檢查計(jì)數(shù)器的數(shù)目，該計(jì)數(shù)器的數(shù)目表示過去有多少被判定為平穩(wěn)噪聲區(qū)間。計(jì)數(shù)器的初始值是0，對(duì)于通過本模式判定方法判定為是平穩(wěn)噪聲區(qū)間的每個(gè)處理單位時(shí)間而遞增1。在ST803中，在計(jì)數(shù)器的數(shù)目小于預(yù)定的閾值ThC的情況下，進(jìn)至ST804，使用靜態(tài)參數(shù)來判定是否是語音區(qū)間。另一方面，在超過閾值ThC的情況下，進(jìn)至ST806，使用第二動(dòng)態(tài)參數(shù)來判定是否是語音區(qū)間。
在ST804中計(jì)算2種參數(shù)。一個(gè)是由量化LSP參數(shù)來計(jì)算的線性預(yù)測殘差功率(Para3)，另一個(gè)是量化LSP參數(shù)的鄰接次數(shù)的差分信息的方差(Para4)，線性預(yù)測殘差功率可以如下求出將量化LSP參數(shù)變換為線性預(yù)測系數(shù)，通過使用Levinson-Durbin算法中的關(guān)系式來求。對(duì)于線性預(yù)測殘差功率，已知無聲部傾向于大于有聲部，所以能夠用作有聲/無聲的判定基準(zhǔn)。量化LSP參數(shù)的鄰接次數(shù)的差分信息示于(2)式，用于求這些數(shù)據(jù)的方差。其中，由于噪聲的種類或限帶的施加方法，在低帶中存在頻譜的峰(ピ-ク)，所以不使用低帶端的鄰接次數(shù)的差分信息(在(2)式中，i＝1)，在(2)式中，而是使用從i＝2到M-1(M是分析次數(shù))的數(shù)據(jù)來求方差較好。在語音信號(hào)中，由于在電話頻帶(200Hz～3.4kHz)內(nèi)具有大約3個(gè)共振峰，所以LSP的間隔窄的部分和寬的部分有幾個(gè)，間隔數(shù)據(jù)的方差傾向于變大。另一方面，在平穩(wěn)噪聲中，由于不具有共振峰結(jié)構(gòu)，所以LSP間隔往往是比較相等的間隔，上述方差傾向于變小。利用該性質(zhì)，能夠判定是否是語音區(qū)間。其中，如上所述，因噪聲的種類等而異，有時(shí)在低帶中具有頻譜的峰，在這種情況下，最低帶端的LSP間隔變窄，所以如果使用所有鄰接LSP差分?jǐn)?shù)據(jù)來求方差，則共振峰的有無引起的差別變小，判定精度變低。因此，通過除去低帶端的鄰接LSP差分信息來求方差，來回避這種精度惡化。其中，由于這種靜態(tài)參數(shù)與動(dòng)態(tài)參數(shù)相比，判定能力低，所以用作輔助信息較好。ST804中算出的2種參數(shù)用于ST805。
接著，在ST805中，使用ST804中算出的2種參數(shù)進(jìn)行閾值處理。具體地說，在線性預(yù)測殘差功率(Para3)小于閾值Th3、而且鄰接LSP間隔數(shù)據(jù)的方差(Para4)大于閾值Th4的情況下，判定為語音區(qū)間。在其以外的情況下，判定為平穩(wěn)噪聲區(qū)間(非語音區(qū)間)。在判定為平穩(wěn)噪聲區(qū)間的情況下，將計(jì)數(shù)器的值增加1。
在ST806中，計(jì)算第二動(dòng)態(tài)參數(shù)(Para2)。第二動(dòng)態(tài)參數(shù)表示過去的平穩(wěn)噪聲區(qū)間中的平均量化LSP參數(shù)、和當(dāng)前處理單位時(shí)間中的量化LSP參數(shù)之間的類似度，具體地說，如(4)式所示，是使用上述2種量化LSP參數(shù)對(duì)各次數(shù)來求差分值、求平方和而得到的。求出的第二動(dòng)態(tài)參數(shù)在ST807中用于閾值處理。E(t)=Σi=1M(Li(t)-LAi)2-----(4)]]>Li(t)時(shí)刻t的量化LSP LAi噪聲區(qū)間的平均量化LSP參數(shù)接著，在ST807中，判定第二動(dòng)態(tài)參數(shù)是否超過閾值Th2。如果超過閾值Th2，則由于與過去的平穩(wěn)噪聲區(qū)間中的平均量化LSP參數(shù)的類似度低，所以判定為語音區(qū)間，而如果小于閾值Th2，則由于與過去的平穩(wěn)噪聲區(qū)間中的平均量化LSP參數(shù)的類似度高，所以判定為平穩(wěn)噪聲區(qū)間。在判定為平穩(wěn)噪聲區(qū)間的情況下，將計(jì)數(shù)器的值增加1。
接著，參照?qǐng)D9來說明上述實(shí)施例中的有聲無聲區(qū)間判定方法的細(xì)節(jié)。
首先，在ST901中，由當(dāng)前處理單位時(shí)間中的量化LSP參數(shù)來計(jì)算1次反射系數(shù)。反射系數(shù)是將LSP參數(shù)變換為線性預(yù)測系數(shù)來計(jì)算的。
接著，在ST902中，判定上述反射系數(shù)是否超過第一閾值Th1。如果超過閾值Th1，則判定為當(dāng)前的處理單位時(shí)間是無聲區(qū)間，結(jié)束有聲無聲區(qū)間判定處理，而如果小于閾值Th1，則進(jìn)一步繼續(xù)有聲無聲判定的處理。
在ST902中未判定為無聲的情況下，在ST903中，判定上述反射系數(shù)是否超過第二閾值Th2。如果超過閾值Th2，則進(jìn)至ST905，而如果小于閾值Th2，則進(jìn)至ST904。
在ST903中，在上述反射系數(shù)小于第二閾值Th2的情況下，在ST904中，判定上述反射系數(shù)是否超過第三閾值Th3。如果超過閾值Th3，則進(jìn)至ST907，而如果小于閾值Th3，則判定為有聲區(qū)間，結(jié)束有聲無聲判定處理。
在ST903中，在上述反射系數(shù)超過第二閾值Th2的情況下，在ST905中，計(jì)算線性預(yù)測殘差功率。線性預(yù)測殘差功率是將量化LSP變換為線性預(yù)測系數(shù)來計(jì)算的。
接著ST905，在ST906中，判定上述線性預(yù)測殘差功率是否超過閾值Th4。如果超過閾值Th4，則判定為無聲區(qū)間，結(jié)束有聲無聲判定處理，而如果小于閾值Th4，則判定為有聲區(qū)間，結(jié)束有聲無聲判定處理。
在ST904中，在上述反射系數(shù)超過第三閾值Th3的情況下，在ST907中，計(jì)算線性預(yù)測殘差功率。
接著ST907，在ST908中，判定上述線性預(yù)測殘差功率是否超過閾值Th5。如果超過閾值Th5，則判定為無聲區(qū)間，結(jié)束有聲無聲判定處理，而如果小于閾值Th5，則判定為有聲區(qū)間，結(jié)束有聲無聲判定處理。
接著，參照?qǐng)D10，說明模式判定部621所用的模式判定方法。
首先，在ST1001中，輸入語音區(qū)間檢測結(jié)果。本步驟也可以是進(jìn)行語音區(qū)間檢測處理的模塊本身。
接著，在ST1002中，根據(jù)是否是語音區(qū)間的判定結(jié)果，來決定是否判定為平穩(wěn)噪聲模式。在是語音區(qū)間的情況下，進(jìn)至ST1003，而在不是語音區(qū)間(是平穩(wěn)噪聲區(qū)間)的情況下，輸出是平穩(wěn)噪聲模式這一判定結(jié)果，結(jié)束模式判定處理。
在ST1002中，在判定為不是平穩(wěn)噪聲區(qū)間模式的情況下，接著在ST1003中，進(jìn)行有聲無聲判定結(jié)果的輸入。本步驟也可以是進(jìn)行有聲無聲判定處理的模塊本身。
接著ST1003，在ST1004中，根據(jù)有聲無聲判定結(jié)果進(jìn)行模式判定，判定是有聲區(qū)間模式、還是無聲區(qū)間模式。在是有聲區(qū)間的情況下，輸出是有聲區(qū)間模式這一判定結(jié)果，結(jié)束模式判定處理，而在是無聲區(qū)間的情況下，輸出是無聲區(qū)間模式這一判定結(jié)果，結(jié)束模式判定處理。如上所述，使用語音區(qū)間檢測結(jié)果和有聲無聲判定結(jié)果，將當(dāng)前處理單位模塊中的輸入信號(hào)(或解碼信號(hào))的模式分類為3個(gè)模式。
(實(shí)施例5)圖7是本發(fā)明實(shí)施例5的后處理器的結(jié)構(gòu)方框圖。本后處理器與實(shí)施例4所示的模式判定器組合，用于實(shí)施例2所示的語音信號(hào)解碼裝置。該圖所示的后處理器分別包括模式切換開關(guān)705、708、707、711，振幅頻譜平滑化部706，相位頻譜隨機(jī)化部709、710，閾值設(shè)定部703、716。
加權(quán)合成濾波器701輸入從上述語音解碼裝置的LPC解碼器201輸出的解碼LPC，構(gòu)筑聽覺加權(quán)合成濾波器，對(duì)從上述語音解碼裝置的合成濾波器209或后濾波器210輸出的合成語音信號(hào)進(jìn)行加權(quán)濾波處理，輸出到FFT處理部702。
FFT處理器702進(jìn)行從加權(quán)合成濾波器701輸出的加權(quán)處理后的解碼信號(hào)的FFT處理，將振幅頻譜WSAi分別輸出到第一閾值設(shè)定部703、第一振幅頻譜平滑化部706、以及第一相位頻譜隨機(jī)化部709。
第一閾值設(shè)定部703使用所有頻率分量來計(jì)算FFT處理部702算出的振幅頻譜的平均值，以該平均值為基準(zhǔn)，將閾值Th1分別輸出到第一振幅頻譜平滑化部706和第一相位頻譜隨機(jī)化部709。
FFT處理部704進(jìn)行從上述語音解碼裝置的合成濾波器209或后濾波器210輸出的合成語音信號(hào)的FFT處理，將振幅頻譜分別輸出到模式切換開關(guān)705、712、加法器715、第二相位頻譜隨機(jī)化部710，而將相位頻譜輸出到模式切換開關(guān)708。
模式切換開關(guān)705輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff)，判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間，在判定為語音區(qū)間的情況下，連接到模式切換開關(guān)707，而在判定為平穩(wěn)噪聲區(qū)間的情況下，連接到第一振幅頻譜平滑化部706。
第一振幅頻譜平滑化部706經(jīng)模式切換開關(guān)705從FFT處理部704輸入振幅頻譜SAi，對(duì)另外輸入的第一閾值Th1和加權(quán)振幅頻譜WSAi決定的頻率分量進(jìn)行平滑化處理，輸出到模式切換開關(guān)707。平滑化的頻率分量的決定方法是根據(jù)加權(quán)振幅頻譜WSAi是否小于第一閾值Th1來決定的。即，只對(duì)WSAi小于Th1的頻率分量i進(jìn)行振幅頻譜SAi的平滑化處理。通過該平滑化處理，緩和了平穩(wěn)噪聲區(qū)間中的、由編碼失真引起的振幅頻譜的時(shí)間上的不連續(xù)性。在FFT點(diǎn)數(shù)是128點(diǎn)、處理單位時(shí)間是10ms的情況下，用例如(1)式那樣的AR型進(jìn)行該平滑化處理的情況下的系數(shù)α可以設(shè)定為大約0.1。
與模式切換開關(guān)705同樣，模式切換開關(guān)707輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff)，判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間，在判定為語音區(qū)間的情況下，連接到模式切換開關(guān)705，而在判定為平穩(wěn)噪聲區(qū)間的情況下，連接到第一振幅頻譜平滑化部706。上述判定結(jié)果與模式切換開關(guān)705的判定結(jié)果相同。模式切換開關(guān)707的另一端被連接到IFFT處理部720。
模式切換開關(guān)708與模式切換開關(guān)705聯(lián)動(dòng)切換，輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff)，判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間，在判定為語音區(qū)間的情況下，連接到第二相位頻譜隨機(jī)化部710，而在判定為平穩(wěn)噪聲區(qū)間的情況下，連接到第一相位頻譜隨機(jī)化部709。上述判定結(jié)果與模式切換開關(guān)705的判定結(jié)果相同。即，在模式切換開關(guān)705被連接到第一振幅頻譜平滑化部706的情況下，模式切換開關(guān)708被連接到第一相位頻譜隨機(jī)化部709，而在模式切換開關(guān)705被連接到模式切換開關(guān)707的情況下，模式切換開關(guān)708被連接到第二相位頻譜隨機(jī)化部710。
第一相位隨機(jī)化部709經(jīng)模式切換開關(guān)708輸入從FFT處理部704輸出的相位頻譜SPi，對(duì)通過另外輸入的第一閾值Th1和加權(quán)振幅頻譜WSAi決定的頻率分量進(jìn)行隨機(jī)化處理，輸出到模式切換開關(guān)711。隨機(jī)化的頻率分量的決定方法與上述第一振幅頻譜平滑化部706中進(jìn)行平滑化的頻率分量的決定方法相同。即，只對(duì)WSAi小于Th1的頻率分量i進(jìn)行相位頻譜SPi的隨機(jī)化處理。
第二相位頻譜隨機(jī)化部710經(jīng)模式切換開關(guān)708輸入從FFT處理部704輸出的相位頻譜SPi，對(duì)通過另外輸入的第二閾值Th2i和振幅頻譜SAi決定的頻率分量進(jìn)行隨機(jī)化處理，輸出到模式切換開關(guān)711。隨機(jī)化的頻率分量的決定方法與上述第一相位頻譜隨機(jī)化部709相同。即，只對(duì)SAi小于Th2i的頻率分量i進(jìn)行相位頻譜SPi的隨機(jī)化處理。
模式切換開關(guān)711與模式切換開關(guān)707聯(lián)動(dòng)，與模式切換開關(guān)707同樣，輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff)，判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間，在判定為語音區(qū)間的情況下，連接到第二相位頻譜隨機(jī)化部710，而在判定為平穩(wěn)噪聲區(qū)間的情況下，連接到第一相位頻譜隨機(jī)化部709。上述判定結(jié)果與模式切換開關(guān)708的判定結(jié)果相同。模式切換開關(guān)711的另一端被連接到IFFT處理部720。
模式切換開關(guān)712與模式切換開關(guān)705同樣，輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff)，判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間，在判定為不是語音區(qū)間(是平穩(wěn)噪聲區(qū)間)的情況下，接通開關(guān)，向第二振幅頻譜平滑化部713輸出從FFT處理部704輸出的振幅頻譜SAi。在判定為語音區(qū)間的情況下，模式切換開關(guān)712被斷開，不向第二振幅頻譜平滑化部713輸出振幅頻譜SAi。
第二振幅頻譜平滑化部713經(jīng)模式切換開關(guān)712輸入從FFT處理部704輸出的振幅頻譜SAi，對(duì)所有頻帶分量進(jìn)行平滑化處理。通過該平滑化處理，能得到平穩(wěn)噪聲區(qū)間中的平均振幅頻譜。該平滑化處理與第一振幅頻譜平滑化部706中進(jìn)行的處理相同。此外，在模式切換開關(guān)712被斷開時(shí)，在本處理部中不進(jìn)行處理，輸出最后進(jìn)行處理時(shí)的平穩(wěn)噪聲區(qū)間的平滑化振幅頻譜SSAi。第二振幅頻譜平滑化部713平滑化過的振幅頻譜SSAi被分別輸入到延遲部714、第二閾值設(shè)定部716、模式切換開關(guān)718。
延遲部714輸入從第二振幅頻譜平滑化部713輸出的SSAi，延遲1個(gè)處理單位時(shí)間，輸出到加法器715。
加法器715計(jì)算1個(gè)處理單位時(shí)間前的平穩(wěn)噪聲區(qū)間平滑化振幅頻譜SSAi、和當(dāng)前處理單位時(shí)間中的振幅頻譜SAi之間的距離Diff，分別輸出到模式切換開關(guān)705、707、708、711、712、718、719。
第二閾值設(shè)定部716以從第二振幅頻譜平滑化部713輸出的平穩(wěn)噪聲區(qū)間平滑化振幅頻譜SSAi為基準(zhǔn)來設(shè)定閾值Th2i，輸出到第二相位頻譜隨機(jī)化部710。
隨機(jī)相位頻譜生成部717將隨機(jī)生成的相位頻譜輸出到模式切換開關(guān)719。
模式切換開關(guān)718與模式切換開關(guān)712同樣，輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff)，判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間，在判定為是語音區(qū)間的情況下，接通開關(guān)，將第二振幅頻譜平滑化部713的輸出輸出到IFFT處理部720。在判定為不是語音區(qū)間(是平穩(wěn)噪聲區(qū)間)的情況下，模式切換開關(guān)718被斷開，第二振幅頻譜平滑化部713的輸出不被輸出到IFFT處理部720。
模式切換開關(guān)719與模式切換開關(guān)718聯(lián)動(dòng)切換，與模式切換開關(guān)718同樣，輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff)，判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間，在判定為是語音區(qū)間的情況下，接通開關(guān)，將隨機(jī)相位生成部717的輸出輸出到IFFT處理部720。在判定為不是語音區(qū)間(是平穩(wěn)噪聲區(qū)間)的情況下，模式切換開關(guān)719被斷開，隨機(jī)相位生成部717的輸出不被輸出到IFFT處理部720。
IFFT處理部720分別輸入從模式切換開關(guān)707輸出的振幅頻譜、從模式切換開關(guān)711輸出的相位頻譜、從模式切換開關(guān)718輸出的振幅頻譜、以及從模式切換開關(guān)719輸出的相位頻譜，進(jìn)行逆FFT處理，輸出后處理后的信號(hào)。在模式切換開關(guān)718、719被斷開的情況下，將從模式切換開關(guān)707輸入的振幅頻譜、和從模式切換開關(guān)711輸入的相位頻譜變換為FFT的實(shí)部頻譜和虛部頻譜，進(jìn)行逆FFT處理，將結(jié)果的實(shí)部作為時(shí)間信號(hào)來輸出。另一方面，在模式切換開關(guān)718、717被接通的情況下，將從模式切換開關(guān)707輸入的振幅頻譜、和從模式切換開關(guān)711輸入的相位頻譜變換為第一實(shí)部頻譜和第一虛部頻譜，將從模式切換開關(guān)718輸入的振幅頻譜、和從模式切換開關(guān)719輸入的相位頻譜變換為第二實(shí)部頻譜和第二虛部頻譜，并且將第一實(shí)部頻譜和第一虛部頻譜加上第二實(shí)部頻譜和第二虛部頻譜，進(jìn)行逆FFT處理。即，將第一實(shí)部頻譜和第二實(shí)部頻譜相加所得作為第三實(shí)部頻譜，將第一虛部頻譜和第二虛部頻譜相加所得作為第三虛部頻譜，然后使用第三實(shí)部頻譜和第三虛部頻譜進(jìn)行逆FFT處理。在上述頻譜相加時(shí)，第二實(shí)部頻譜及第二虛部頻譜通過常數(shù)倍或自適應(yīng)控制的變量來衰減。例如，在上述頻譜相加中，將第二實(shí)部頻譜變?yōu)?.25倍后，與第一實(shí)部頻譜相加，將第二虛部頻譜變?yōu)?.25倍后，與第一虛部頻譜相加，分別得到第三實(shí)部頻譜及第三虛部頻譜。
接著，使用圖11及圖12來說明上述后處理方法。圖11是本實(shí)施例的后處理方法的具體處理的流程圖。
首先，在ST1101中，計(jì)算聽覺加權(quán)過的輸入信號(hào)(解碼語音信號(hào))的FFT對(duì)數(shù)振幅頻譜(WSAi)。
接著，在ST1102中，計(jì)算第一閾值Th1。Th1是將WSAi的平均值加上常數(shù)k1而得到的。k1的值根據(jù)經(jīng)驗(yàn)來決定，例如，在常用對(duì)數(shù)域中是大約0.4。設(shè)FFT點(diǎn)數(shù)為N，設(shè)FFT振幅頻譜為WSAi(i＝1，2，...N)，則WSAi以i＝N/2和i＝N/2+1為界對(duì)稱，所以如果計(jì)算N/2個(gè)WSAi的平均值，就能求出WSAi的平均值。
接著，在ST1103中，計(jì)算未進(jìn)行聽覺加權(quán)的輸入信號(hào)(解碼語音信號(hào))的FFT對(duì)數(shù)振幅頻譜(SAi)和FFT相位頻譜(SPi)。
接著，在ST1104中，計(jì)算頻譜變動(dòng)(Diff)。頻譜變動(dòng)是從當(dāng)前的FFT對(duì)數(shù)振幅頻譜(SAi)中減去過去判定為平穩(wěn)噪聲區(qū)間的區(qū)間中的平均FFT對(duì)數(shù)振幅頻譜(SSAi)所得的殘差頻譜的總和。本步驟中求的頻譜變動(dòng)Diff是用于判定當(dāng)前功率是否大于平穩(wěn)噪聲區(qū)間的平均功率的參數(shù)，如果大于，則可以判斷為是存在與平穩(wěn)噪聲分量不同的信號(hào)的區(qū)間，不是平穩(wěn)噪聲區(qū)間。
接著，在ST1105中，檢查表示過去判定為平穩(wěn)噪聲區(qū)間的次數(shù)的計(jì)數(shù)器。在計(jì)數(shù)器的數(shù)目大于一定值、即判定為過去在某種程度上穩(wěn)定、是平穩(wěn)噪聲區(qū)間的情況下，進(jìn)至ST1107，在不是這樣的情況下，即不太能判定為過去是平穩(wěn)噪聲區(qū)間的情況下，進(jìn)至ST1106。ST1106和ST1107之間的差別是是否將頻譜變動(dòng)(Diff)用作判定基準(zhǔn)的差別。頻譜變動(dòng)(Diff)使用過去判定為平穩(wěn)噪聲區(qū)間的區(qū)間中的平均FFT對(duì)數(shù)振幅頻譜(SSAi)來計(jì)算。為了求這種平均FFT對(duì)數(shù)振幅頻譜(SSAi)，需要過去某種程度足夠的時(shí)間長度的平穩(wěn)噪聲區(qū)間，所以設(shè)置ST1105，在過去沒有足夠的時(shí)間長度的平穩(wěn)噪聲區(qū)間的情況下，由于認(rèn)為噪聲區(qū)間的平均FFT對(duì)數(shù)振幅頻譜(SSAi)沒有被足夠平均化，所以進(jìn)至不使用頻譜變動(dòng)(Diff)的ST1106。計(jì)數(shù)器的初始值是0。
接著，在ST1106或ST1107中，判定是否是平穩(wěn)噪聲區(qū)間。在ST1106中，將語音解碼裝置中已經(jīng)決定的音源模式是平穩(wěn)噪聲區(qū)間模式的情況判定為平穩(wěn)噪聲區(qū)間，在ST1107中，將語音解碼裝置中已經(jīng)決定的音源模式是平穩(wěn)噪聲區(qū)間模式、而且ST1104中計(jì)算出的振幅頻譜變動(dòng)(Diff)小于閾值k3的情況判定為平穩(wěn)噪聲區(qū)間。在ST1106或ST1107中，在判定為是平穩(wěn)噪聲區(qū)間的情況下，進(jìn)至ST1108，而在判定為不是平穩(wěn)噪聲區(qū)間、即是語音區(qū)間的情況下，進(jìn)至ST1113。
在判定為是平穩(wěn)噪聲區(qū)間的情況下，接著，在ST1108中，進(jìn)行平滑化處理，用于求平穩(wěn)噪聲區(qū)間的平均FFT對(duì)數(shù)頻譜(SSAi)。在ST1108的式子中，β是表示0.0～1.0范圍內(nèi)的平滑化強(qiáng)度的常數(shù)，在FFT點(diǎn)數(shù)是128點(diǎn)、處理單位時(shí)間是10ms(用80kHz采樣80點(diǎn))的情況下，可以大約使β＝0.1。該平滑化處理對(duì)所有對(duì)數(shù)振幅頻譜(SAi，i＝1，...N，N是FFT點(diǎn)數(shù))進(jìn)行。
接著，在ST1109中，進(jìn)行FFT對(duì)數(shù)振幅頻譜的平滑化處理，用于使平穩(wěn)噪聲區(qū)間的振幅頻譜的變動(dòng)變得平滑。該平滑化處理與ST1108的平滑化處理相同，但是不對(duì)所有對(duì)數(shù)振幅頻譜(SAi)進(jìn)行，而只對(duì)聽覺加權(quán)對(duì)數(shù)振幅頻譜(WSAi)小于閾值的頻率分量i進(jìn)行。ST1109的式子中的γ與ST1108中的β相同，可以是相同值。在ST1109中，得到部分平滑化過的對(duì)數(shù)振幅頻譜SSA2i。
接著，在ST1110中，進(jìn)行FFT相位頻譜的隨機(jī)化處理。該隨機(jī)化處理與ST1109的平滑化處理同樣，對(duì)頻率選擇性地進(jìn)行。即，與ST1109同樣，只對(duì)聽覺加權(quán)對(duì)數(shù)振幅頻譜(WSAi)小于閾值Th1的頻率分量i進(jìn)行。這里，Th1可以是與ST1109相同的值，但是也可以設(shè)定為調(diào)整得能得到更好的主觀品質(zhì)的不同的值。此外，ST1110中的random(i)是隨機(jī)生成的-2π～+2π范圍內(nèi)的數(shù)值。random(i)的生成也可以每次新生成隨機(jī)數(shù)，但是在節(jié)約運(yùn)算量的情況下，將預(yù)先生成的隨機(jī)數(shù)保持在表內(nèi)，在每個(gè)處理單位時(shí)間，能夠循環(huán)利用表的內(nèi)容。在此情況下，可以考慮原封不動(dòng)地利用表的內(nèi)容的情況、和將表的內(nèi)容加到原始FFT相位頻譜來使用的情況。
接著，在ST1111中，由FFT對(duì)數(shù)振幅頻譜和FFT相位頻譜來生成復(fù)數(shù)FFT頻譜。實(shí)部是將FFT對(duì)數(shù)振幅頻譜SSA2i從對(duì)數(shù)域返回到線性域后、乘以相位頻譜RSP2i的余弦來求的。虛部是將FFT對(duì)數(shù)振幅頻譜SSA2i從對(duì)數(shù)域返回到線性域后、乘以相位頻譜RSP2i的正弦來求的。
接著，在ST1112中，將判定為平穩(wěn)噪聲區(qū)間的區(qū)間的計(jì)數(shù)器增加1。
另一方面，在ST1106或1107中，在判定為語音區(qū)間(不是平穩(wěn)噪聲區(qū)間)的情況下，接著，在ST1113中，F(xiàn)FT對(duì)數(shù)振幅頻譜SAi被復(fù)制為平滑化對(duì)數(shù)頻譜SSA2i。即，不進(jìn)行對(duì)數(shù)振幅頻譜的平滑化處理。
接著，在ST1114中，進(jìn)行FFT相位頻譜的隨機(jī)化處理。該隨機(jī)化處理與ST1110的情況同樣，對(duì)頻率選擇性地進(jìn)行。其中，頻率選擇所用的閾值不是Th1，而使用將過去在ST1108中求的SSAi加上常數(shù)k4所得的值。該閾值相當(dāng)于圖6中的第二閾值Th2i。即，只對(duì)比平穩(wěn)噪聲區(qū)間中的平均振幅頻譜小的振幅頻譜的頻率分量進(jìn)行相位頻譜的隨機(jī)化。
接著，在ST1115中，由FFT對(duì)數(shù)振幅頻譜和FFT相位頻譜來生成復(fù)數(shù)FFT頻譜。實(shí)部如下來求將FFT對(duì)數(shù)振幅頻譜SSA2i從對(duì)數(shù)域返回到線性域后乘以相位頻譜RSP2i的余弦所得的值、加上將FFT對(duì)數(shù)振幅頻譜SSAi從對(duì)數(shù)域返回到線性域后乘以相位頻譜random2(i)的余弦并乘以常數(shù)k5所得的值。虛部如下來求將FFT對(duì)數(shù)振幅頻譜SSA2i從對(duì)數(shù)域返回到線性域后乘以相位頻譜RSP2i的正弦所得的值、加上將FFT對(duì)數(shù)振幅頻譜SSAi從對(duì)數(shù)域返回到線性域后乘以相位頻譜random2(i)的正弦并乘以常數(shù)k5所得的值。常數(shù)k5在0.0～1.0的范圍內(nèi)，更具體地說，設(shè)定為大約0.25。k5也可以是自適應(yīng)控制的變量。通過疊加k5倍的平均平穩(wěn)噪聲，能夠提高語音區(qū)間中的背景平穩(wěn)噪聲的主觀品質(zhì)。random2(i)是與random(i)相同的隨機(jī)數(shù)。
接著，在ST1116中，進(jìn)行ST1111或1115中生成的復(fù)數(shù)FFT頻譜(Re(S2)i，Im(S2)i)的逆FFT，得到復(fù)數(shù)(Re(s2)i，Im(s2)i)。
最后，在ST1117中，將通過逆FFT得到的復(fù)數(shù)的實(shí)部Re(s2)i作為輸出信號(hào)來輸出。
根據(jù)本發(fā)明的多模式語音編碼裝置，使用第一編碼部的編碼結(jié)果來決定第二編碼部的編碼模式，所以不用附加表示模式的新信息，就能夠?qū)崿F(xiàn)第二編碼部的多模式化，能夠提高編碼性能。
根據(jù)該結(jié)構(gòu)，模式切換部使用表示語音頻譜特性的量化參數(shù)進(jìn)行對(duì)驅(qū)動(dòng)音源進(jìn)行編碼的第二編碼部的模式切換，從而對(duì)表示頻譜特性的參數(shù)、和表示驅(qū)動(dòng)音源的參數(shù)獨(dú)立進(jìn)行編碼，在上述形態(tài)的語音編碼裝置中，不用增加新的傳輸信息，就能夠?qū)Ⅱ?qū)動(dòng)音源的編碼多模式化，能夠提高編碼性能。
在此情況下，模式切換使用動(dòng)態(tài)特征，從而能夠檢測平穩(wěn)噪聲部，所以通過驅(qū)動(dòng)音源編碼的多模式化，能夠改善對(duì)平穩(wěn)噪聲部的編碼性能。
此外，在此情況下，模式切換部使用量化LSP參數(shù)進(jìn)行對(duì)驅(qū)動(dòng)音源進(jìn)行編碼的處理部的模式切換，從而能夠簡單地適用于將LSP參數(shù)用作表示頻譜特性的參數(shù)的CELP方式，此外，能夠良好地判定用于使用頻域的參數(shù)、即LSP參數(shù)的頻譜的平穩(wěn)性，能夠改善對(duì)平穩(wěn)噪聲的編碼性能。
此外，在此情況下，在模式切換部中，使用過去及當(dāng)前的量化LSP參數(shù)來判定量化LSP的平穩(wěn)性，使用當(dāng)前的量化LSP來判定有聲性，根據(jù)這些判定結(jié)果進(jìn)行對(duì)驅(qū)動(dòng)音源進(jìn)行編碼的處理部的模式切換，從而能夠用平穩(wěn)噪聲部、無聲語音部和有聲語音部來切換進(jìn)行驅(qū)動(dòng)音源的編碼，通過準(zhǔn)備與各部對(duì)應(yīng)的驅(qū)動(dòng)音源的編碼模式，能夠改善編碼性能。
在本發(fā)明的語音解碼裝置中，能夠檢測解碼信號(hào)的功率急劇變大的情況，能夠應(yīng)付檢測上述語音區(qū)間的處理部發(fā)生檢測差錯(cuò)的情況。
此外，在本發(fā)明的語音解碼裝置中，通過使用動(dòng)態(tài)特征，能夠檢測平穩(wěn)噪聲部，所以通過驅(qū)動(dòng)音源編碼的多模式化，能夠改善對(duì)平穩(wěn)噪聲部的編碼性能。
如上所述，根據(jù)本發(fā)明，由于使用表示頻譜特性的參數(shù)的量化數(shù)據(jù)中的靜態(tài)及動(dòng)態(tài)特征進(jìn)行音源編碼及/或解碼后處理的模式切換，所以不用新傳輸模式信息，就能夠?qū)崿F(xiàn)音源編碼的多模式化。特別是由于除了有聲區(qū)間/無聲區(qū)間的判定之外，還能夠進(jìn)行語音區(qū)間/非語音區(qū)間的判定，所以能夠提供一種語音編碼裝置及語音解碼裝置，能夠進(jìn)一步提高多模式化對(duì)編碼性能的改善度。
本說明書基于1998年8月21日申請(qǐng)的特愿平10-236147號(hào)及1998年9月21日申請(qǐng)的特愿平10-266883號(hào)，其內(nèi)容全部包含于此。
產(chǎn)業(yè)上的可利用性本發(fā)明能夠有效適用于數(shù)字無線通信系統(tǒng)中的通信終端裝置或基站裝置。
權(quán)利要求
1.一種多模式語音編碼裝置，包括第一編碼部件，對(duì)表示語音信號(hào)中包含的聲道信息的至少1種以上的參數(shù)進(jìn)行編碼；第二編碼部件，能夠用幾個(gè)模式對(duì)表示上述語音信號(hào)中包含的音源信息的至少1種以上的參數(shù)進(jìn)行編碼；模式切換部件，根據(jù)上述第一編碼部件編碼過的特定參數(shù)的動(dòng)態(tài)特征進(jìn)行上述第二編碼部件的模式切換；以及合成部件，通過上述第一、第二編碼部件編碼過的多種參數(shù)信息來合成輸入語音信號(hào)。
2.如權(quán)利要求1所述的多模式語音編碼裝置，其中，上述第二編碼部件由能夠用幾個(gè)編碼模式對(duì)驅(qū)動(dòng)音源進(jìn)行編碼的編碼部件構(gòu)成，上述模式切換部件使用表示語音頻譜特性的量化參數(shù)來切換上述第二編碼部件的編碼模式。
3.如權(quán)利要求2所述的多模式語音編碼裝置，其中，上述模式切換部件使用表示語音頻譜特性的量化參數(shù)的靜態(tài)特征及動(dòng)態(tài)特征來切換上述第二編碼部件的編碼模式。
4.如權(quán)利要求2所述的多模式語音編碼裝置，其中，上述模式切換部件使用量化LSP參數(shù)，來切換上述第二編碼部件的編碼模式。
5.如權(quán)利要求4所述的多模式語音編碼裝置，其中，上述模式切換部件使用量化LSP參數(shù)的靜態(tài)及動(dòng)態(tài)特征，來切換上述第二編碼部件的編碼模式。
6.如權(quán)利要求4所述的多模式語音編碼裝置，其中，上述模式切換部件包括使用過去及當(dāng)前的量化LSP參數(shù)來判定量化LSP參數(shù)的平穩(wěn)性的部件、和使用當(dāng)前的量化LSP參數(shù)來判定有聲性的部件，根據(jù)上述判定結(jié)果來切換上述第二編碼部件的編碼模式。
7.一種多模式語音解碼裝置，包括第一解碼部件，對(duì)表示語音信號(hào)中包含的聲道信息的至少1種以上的參數(shù)進(jìn)行解碼；第二解碼部件，能夠用幾個(gè)編碼模式對(duì)表示上述語音信號(hào)中包含的音源信息的至少1種以上的參數(shù)進(jìn)行解碼；模式切換部件，根據(jù)上述第一解碼部件解碼過的特定參數(shù)的動(dòng)態(tài)特征進(jìn)行上述第二解碼部件的編碼模式切換；以及合成部件，通過上述第一、第二解碼部件解碼過的多種參數(shù)信息對(duì)語音信號(hào)進(jìn)行解碼。
8.如權(quán)利要求7所述的多模式語音解碼裝置，其中，上述第二解碼部件由能夠用幾個(gè)解碼模式對(duì)驅(qū)動(dòng)音源進(jìn)行解碼的解碼部件構(gòu)成，上述模式切換部件使用表示語音頻譜特性的量化參數(shù)來切換上述第二解碼部件的解碼模式
9.如權(quán)利要求8所述的多模式語音解碼裝置，其中，上述模式切換部件使用表示語音頻譜特性的量化參數(shù)的靜態(tài)特征及動(dòng)態(tài)特征來切換上述第二解碼部件的解碼模式。
10.如權(quán)利要求8所述的多模式語音解碼裝置，其中，上述模式切換部件使用量化LSP參數(shù)，來切換上述第二解碼部件的解碼模式。
11.如權(quán)利要求10所述的多模式語音解碼裝置，其中，上述模式切換部件使用量化LSP參數(shù)的靜態(tài)及動(dòng)態(tài)特征，來切換上述第二解碼部件的解碼模式。
12.如權(quán)利要求10所述的多模式語音解碼裝置，其中，上述模式切換部件包括使用過去及當(dāng)前的量化LSP參數(shù)來判定量化LSP參數(shù)的乎穩(wěn)性的部件、和使用當(dāng)前的量化LSP參數(shù)來判定有聲性的部件，根據(jù)上述判定結(jié)果來切換上述第二解碼部件的解碼模式。
13.如權(quán)利要求7所述的多模式語音解碼裝置，其中，根據(jù)上述判定結(jié)果來切換對(duì)解碼信號(hào)的后處理。
14.一種量化LSP參數(shù)動(dòng)態(tài)特征提取器，包括計(jì)算量化LSP參數(shù)的幀間變化的部件；計(jì)算量化LSP參數(shù)平穩(wěn)的幀中的平均量化LSP參數(shù)的部件；以及計(jì)算上述平均量化LSP參數(shù)和當(dāng)前量化LSP參數(shù)之間距離的部件。
15.一種量化LSP參數(shù)靜態(tài)特征提取器，包括由量化LSP參數(shù)來計(jì)算線性預(yù)測殘差功率的部件；以及計(jì)算鄰接次數(shù)的量化LSP參數(shù)的間隔的部件。
16.一種多模式后處理器，包括判定部件，使用解碼LSP參數(shù)來判定是否是語音區(qū)間；FFT處理部件，進(jìn)行信號(hào)的快速付立葉變換處理；相位頻譜隨機(jī)化部件，按照上述判定部件的判定結(jié)果使上述快速付立葉變換處理所得的相位頻譜隨機(jī)化；振幅頻譜平滑化部件，按照上述判定結(jié)果使上述快速付立葉變換處理所得的振幅頻譜平滑化；以及IFFT處理部件，對(duì)上述相位頻譜隨機(jī)化部件隨機(jī)化過的相位頻譜、和上述振幅頻譜平滑化部件平滑化過的相位頻譜進(jìn)行逆快速付立葉變換處理。
17.如權(quán)利要求16所述的多模式后處理器，其中，在語音區(qū)間中使用過去的非語音區(qū)間中的平均振幅頻譜來決定隨機(jī)化的相位頻譜的頻率，而在非語音區(qū)間中使用聽覺加權(quán)域中的所有頻率的振幅頻譜的平均值來決定隨機(jī)化的相位頻譜、和平滑化的振幅頻譜的頻率。
18.如權(quán)利要求16所述的多模式后處理器，其中，在語音區(qū)間中疊加使用過去的非語音區(qū)間中的平均振幅頻譜而生成的噪聲。
19.一種語音信號(hào)發(fā)送裝置，包括語音輸入裝置，將語音信號(hào)變換為電信號(hào)；A/D變換器，將從該語音輸入裝置輸出的信號(hào)變換為數(shù)字信號(hào)；多模式語音編碼裝置，進(jìn)行從該A/D變換器輸出的數(shù)字信號(hào)的編碼；RF調(diào)制器，對(duì)從該多模式語音編碼裝置輸出的編碼信息進(jìn)行調(diào)制處理等；以及發(fā)送天線，將從該RF調(diào)制器輸出的信號(hào)變換為電波來發(fā)送，上述多模式語音編碼裝置包括第一編碼部件，對(duì)表示語音信號(hào)中包含的聲道信息的至少1種以上的參數(shù)進(jìn)行編碼；第二編碼部件，能夠用幾個(gè)模式對(duì)表示上述語音信號(hào)中包含的音源信息的至少1種以上的參數(shù)進(jìn)行編碼；模式切換部件，根據(jù)上述第一編碼部件編碼過的特定參數(shù)的動(dòng)態(tài)特征進(jìn)行上述第二編碼部件的模式切換；以及合成部件，通過上述第一、第二編碼部件編碼過的多種參數(shù)信息來合成輸入語音信號(hào)。
20.一種語音信號(hào)接收裝置，包括接收天線，接收接收電波；RF解調(diào)器，進(jìn)行該接收天線接收到的信號(hào)的解調(diào)處理；多模式語音解碼裝置，進(jìn)行該RF解調(diào)器所得的信息的解碼；D/A變換器，對(duì)該多模式語音解碼裝置解碼過的數(shù)字語音信號(hào)進(jìn)行D/A變換；以及語音輸出裝置，將該D/A變換器輸出的電信號(hào)變換為語音信號(hào)，上述多模式語音解碼裝置包括第一解碼部件，對(duì)表示語音信號(hào)中包含的聲道信息的至少1種以上的參數(shù)進(jìn)行解碼；第二解碼部件，能夠用幾個(gè)編碼模式對(duì)表示上述語音信號(hào)中包含的音源信息的至少1種以上的參數(shù)進(jìn)行解碼；模式切換部件，根據(jù)上述第一解碼部件解碼過的特定參數(shù)的動(dòng)態(tài)特征進(jìn)行上述第二解碼部件的編碼模式切換；以及合成部件，通過上述第一、第二解碼部件解碼過的多種參數(shù)信息對(duì)語音信號(hào)進(jìn)行解碼。
21.一種機(jī)器可讀取的存儲(chǔ)媒體，記錄用于在計(jì)算機(jī)中執(zhí)行下述步驟的程序使用過去及當(dāng)前的量化LSP參數(shù)來判定量化LSP參數(shù)的平穩(wěn)性；使用當(dāng)前的量化LSP參數(shù)來判定有聲性；以及根據(jù)上述步驟判定的結(jié)果來切換對(duì)驅(qū)動(dòng)音源進(jìn)行編碼的步驟的模式切換。
22.一種機(jī)器可讀取的存儲(chǔ)媒體，記錄用于在計(jì)算機(jī)中執(zhí)行下述步驟的程序使用過去及當(dāng)前的量化LSP參數(shù)來判定量化LSP參數(shù)的平穩(wěn)性；使用當(dāng)前的量化LSP來判定有聲性；根據(jù)上述步驟判定的結(jié)果來切換對(duì)驅(qū)動(dòng)音源進(jìn)行解碼的步驟的模式切換；以及根據(jù)上述步驟判定的結(jié)果來切換對(duì)解碼信號(hào)的后處理步驟。
23.一種多模式語音編碼方法，使用表示語音頻譜特性的量化參數(shù)的靜態(tài)及動(dòng)態(tài)特征進(jìn)行對(duì)驅(qū)動(dòng)音源進(jìn)行編碼的模式的模式切換。
24.一種多模式語音解碼方法，使用表示語音頻譜特性的量化參數(shù)的靜態(tài)及動(dòng)態(tài)特征進(jìn)行對(duì)驅(qū)動(dòng)音源進(jìn)行解碼的模式的模式切換。
25.如權(quán)利要求24所述的多模式語音解碼方法，包括對(duì)解碼信號(hào)進(jìn)行后處理的步驟；以及根據(jù)模式信息進(jìn)行上述后處理步驟的切換的步驟。
26.一種量化LSP參數(shù)的動(dòng)態(tài)特征提取方法，包括計(jì)算量化LSP參數(shù)的幀間變化的步驟；計(jì)算量化LSP參數(shù)平穩(wěn)的幀中的平均量化LSP參數(shù)的步驟；以及計(jì)算上述平均量化LSP參數(shù)和當(dāng)前量化LSP參數(shù)之間距離的步驟。
27.一種量化LSP參數(shù)靜態(tài)特征提取方法，包括由量化LSP參數(shù)來計(jì)算線性預(yù)測殘差功率的步驟；以及計(jì)算鄰接次數(shù)的量化LSP參數(shù)的間隔的步驟。
28.一種多模式后處理方法，包括判定步驟，使用解碼LSP參數(shù)來判定是否是語音區(qū)間；FFT處理步驟，進(jìn)行信號(hào)的快速付立葉變換處理；相位頻譜隨機(jī)化步驟，按照上述判定步驟的判定結(jié)果使上述快速付立葉變換處理所得的相位頻譜隨機(jī)化；振幅頻譜平滑化步驟，按照上述判定結(jié)果使上述快速付立葉變換處理所得的振幅頻譜平滑化；以及IFFT處理步驟，對(duì)上述相位頻譜隨機(jī)化步驟中隨機(jī)化過的相位頻譜、和上述振幅頻譜平滑化步驟中平滑化過的相位頻譜進(jìn)行逆快速付立葉變換處理。
全文摘要
使用量化過的聲道參數(shù)的靜態(tài)及動(dòng)態(tài)特征用多模式對(duì)音源信息進(jìn)行編碼,在解碼器端也進(jìn)行多模式的后處理,從而改善無聲語音區(qū)間及平穩(wěn)噪聲區(qū)間的品質(zhì)。
文檔編號(hào)G10L19/14GK1275228SQ9980137
公開日2000年11月29日申請(qǐng)日期1999年8月20日優(yōu)先權(quán)日1998年8月21日
發(fā)明者江原宏幸申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載