專利名稱:多模式語音編碼裝置及解碼裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對(duì)語音信號(hào)進(jìn)行編碼來傳輸?shù)囊苿?dòng)通信系統(tǒng)等中的低比特率語音編碼裝置,特別涉及將語音信號(hào)分離為聲道信息和音源信息來表現(xiàn)的CELP (Code Excited Linear Prediction,碼激勵(lì)線性預(yù)測編碼)型語音編碼裝置等。
背景技術(shù):
在數(shù)字移動(dòng)通信和語音存儲(chǔ)領(lǐng)域,使用語音編碼裝置,用于壓縮語音信息,進(jìn)行高效編碼,以便有效利用電波和記錄媒體。特別是基于CELP方式的方式已廣泛實(shí)用化于中、低比特率。CELP技術(shù)示于M.R.Schroeder和B.S.Atal“Code-Excited Linear Prediction(CELP)High-quality Speech at VeryLow BitRates(碼激勵(lì)線性預(yù)測超低比特率高品質(zhì)語音)”,Proc.ICASSP-85,25.1.1,pp.937-940,1985”。
CELP型語音編碼方式將語音劃分為某個(gè)一定的幀長度(大約5ms~50ms),對(duì)各幀進(jìn)行語音的線性預(yù)測,使用由已知波形構(gòu)成的自適應(yīng)碼矢量和噪聲碼矢量對(duì)每幀的由線性預(yù)測得到的預(yù)測殘差(激勵(lì)信號(hào))進(jìn)行編碼。自適應(yīng)碼矢量從存儲(chǔ)過去生成的驅(qū)動(dòng)音源矢量的自適應(yīng)碼本中選擇使用,而噪聲碼矢量從存儲(chǔ)預(yù)先準(zhǔn)備的固定數(shù)目個(gè)具有固定形狀的矢量的噪聲碼本中選擇使用。噪聲碼本中存儲(chǔ)的噪聲碼矢量使用隨機(jī)噪聲序列的矢量或?qū)讉€(gè)脈沖配置在不同位置上而生成的矢量等。
在CELP編碼裝置中,使用輸入的數(shù)字信號(hào)進(jìn)行LPC的分析及量化、音調(diào)搜索、噪聲碼本搜索、以及增益碼本搜索,量化LPC碼(L)、音調(diào)周期(P)、噪聲碼本索引(S)、以及增益碼本索引(G)被傳輸?shù)浇獯a器。
然而,在上述現(xiàn)有語音編碼裝置中,必須用一種噪聲碼本來對(duì)待有聲語音、無聲語音、以及背景噪聲等,難以對(duì)所有這些輸入信號(hào)進(jìn)行高品質(zhì)編碼。
發(fā)明公開本發(fā)明的目的在于提供一種多模式語音編碼裝置及語音解碼裝置,不用新傳輸模式信息,就能夠?qū)崿F(xiàn)音源編碼的多模式化,特別是除了有聲區(qū)間/無聲區(qū)間的判定之外,還能夠進(jìn)行語音區(qū)間/非語音區(qū)間的判定,能夠進(jìn)一步提高多模式化對(duì)編碼/解碼性能的改善度。
在本發(fā)明中,使用表示頻譜特性的量化參數(shù)的靜態(tài)/動(dòng)態(tài)特征進(jìn)行模式判定,根據(jù)表示語音區(qū)間/非語音區(qū)間、有聲區(qū)間/無聲區(qū)間的模式判定結(jié)果,來切換用于驅(qū)動(dòng)音源編碼的各種碼本的模式。此外,在本發(fā)明中,在解碼時(shí)使用編碼時(shí)使用了的模式信息,來切換用于解碼的各種碼本的模式。
附圖的簡單說明
圖1是本發(fā)明實(shí)施例1的語音編碼裝置的結(jié)構(gòu)方框圖;圖2是本發(fā)明實(shí)施例2的語音解碼裝置的結(jié)構(gòu)方框圖;圖3是本發(fā)明實(shí)施例1的語音編碼處理的流程圖;圖4是本發(fā)明實(shí)施例2的語音解碼處理的流程圖;圖5A是本發(fā)明實(shí)施例3的語音信號(hào)發(fā)送裝置的結(jié)構(gòu)方框圖;圖5B是本發(fā)明實(shí)施例3的語音信號(hào)接收裝置的結(jié)構(gòu)方框圖;圖6是本發(fā)明實(shí)施例4的模式選擇器的結(jié)構(gòu)方框圖;圖7是本發(fā)明實(shí)施例5的多模式后處理器的結(jié)構(gòu)方框圖;圖8是本發(fā)明實(shí)施例4的前級(jí)的多模式后處理的流程圖;圖9是本發(fā)明實(shí)施例4的后級(jí)的多模式后處理的流程圖;圖10是本發(fā)明實(shí)施例4的多模式后處理的整體流程圖;圖11是本發(fā)明實(shí)施例5的前級(jí)的多模式后處理的流程圖;以及圖12是本發(fā)明實(shí)施例5的后級(jí)的多模式后處理的流程圖。
實(shí)施發(fā)明的最好形式下面,使用圖1至圖9來說明本發(fā)明實(shí)施例的語音編碼裝置等。
(實(shí)施例1)圖1是本發(fā)明實(shí)施例1的語音編碼裝置的結(jié)構(gòu)方框圖。
由數(shù)字化過的語音信號(hào)等構(gòu)成的輸入數(shù)據(jù)被輸入到預(yù)處理器101。預(yù)處理器101使用高通濾波器或帶通濾波器等進(jìn)行直流分量的除去或輸入數(shù)據(jù)的限帶等,輸出到LPC分析器102和加法器106。在該預(yù)處理器101中即使不進(jìn)行任何處理,也能夠進(jìn)行后續(xù)的編碼處理,但是進(jìn)行前述的處理能提高編碼性能。
LPC分析器102進(jìn)行線性預(yù)測分析來計(jì)算線性預(yù)測系數(shù)(LPC),輸出到LPC量化器103。
LPC量化器103對(duì)輸入的LPC進(jìn)行量化,將量化后的LPC輸出到合成濾波器104和模式選擇器105,并且將表現(xiàn)量化LPC的代碼L輸出到解碼器。一般,LPC量化是變換為插值特性良好的LSP(Line Spectrum Pair線譜對(duì))來進(jìn)行的。
合成濾波器104使用從LPC量化器103輸入的量化LPC來構(gòu)筑LPC合成濾波器。向該合成濾波器輸入從加法器114輸出的驅(qū)動(dòng)音源信號(hào),進(jìn)行濾波處理,將合成信號(hào)輸出到加法器106。
模式選擇器105使用從LPC量化器103輸入的量化LPC來決定噪聲碼本109的模式。
這里,模式選擇器105也存儲(chǔ)過去輸入的量化LPC信息,使用幀間量化LPC的變動(dòng)特征、和當(dāng)前幀的量化LPC的特征這兩者進(jìn)行模式選擇。該模式至少有2種以上,例如由與有聲語音部對(duì)應(yīng)的模式、和與無聲語音部及平穩(wěn)噪聲部等對(duì)應(yīng)的模式構(gòu)成。此外,模式選擇所用的信息不必是量化LPC本身,變換為量化LSP、反射系數(shù)、或線性預(yù)測殘差功率等參數(shù)也很有效。
加法器106計(jì)算從預(yù)處理器101輸入的預(yù)處理后的輸入數(shù)據(jù)和合成信號(hào)之間的誤差,輸出到聽覺加權(quán)濾波器107。
聽覺加權(quán)濾波器107對(duì)加法器106算出的誤差進(jìn)行聽覺加權(quán),輸出到誤差最小化器108。
誤差最小化器108調(diào)整噪聲碼本索引Si、自適應(yīng)碼本索引(音調(diào)周期)Pi、以及增益碼本索引Gi,同時(shí)分別輸出到噪聲碼本109、自適應(yīng)碼本110、以及增益碼本111,分別決定噪聲碼本109、自適應(yīng)碼本110、以及增益碼本111生成的噪聲碼本矢量、自適應(yīng)碼本矢量、噪聲碼本增益及自適應(yīng)碼本增益,使得從聽覺加權(quán)濾波器107輸入的聽覺加權(quán)過的誤差達(dá)到最小,將表現(xiàn)噪聲碼矢量的代碼S、表現(xiàn)自適應(yīng)碼矢量的代碼P、以及表現(xiàn)增益信息的代碼G分別輸出到解碼器。
噪聲碼本109保存預(yù)定個(gè)數(shù)的形狀不同的噪聲碼矢量,輸出從誤差最小化器108輸入的噪聲碼矢量的索引Si所指定的噪聲碼矢量。此外,該噪聲碼本109至少具有2種以上的模式,例如其結(jié)構(gòu)為在與有聲語音部對(duì)應(yīng)的模式中生成更像脈沖的噪聲碼矢量,在與無聲語音部或平穩(wěn)噪聲部等對(duì)應(yīng)的模式中生成更像噪聲的噪聲碼矢量。模式選擇器105從上述2種以上的模式中選擇一個(gè)模式,從噪聲碼本109輸出的噪聲碼矢量根據(jù)該模式來生成,由乘法器112乘以噪聲碼本增益Gs后,輸出到加法器114。
自適應(yīng)碼本110逐次更新過去生成的驅(qū)動(dòng)音源信號(hào)并緩沖,使用從誤差最小化器108輸入的自適應(yīng)碼本索引(音調(diào)周期(ピッチラグ))Pi來生成自適應(yīng)碼矢量。由自適應(yīng)碼本110生成的自適應(yīng)碼矢量由乘法器113乘以自適應(yīng)碼本增益Ga后,輸出到加法器114。
增益碼本111保存預(yù)定個(gè)數(shù)的自適應(yīng)碼本增益Ga和噪聲碼本增益Gs的組(增益矢量),將從誤差最小化器108輸入的增益碼本索引Gi所指定的增益矢量的自適應(yīng)碼本增益分量Ga輸出到乘法器113,而將噪聲碼本增益分量Gs輸出到乘法器112。如果增益碼本為多級(jí)結(jié)構(gòu),則能夠削減增益碼本所需的存儲(chǔ)量、和增益碼本搜索所需的運(yùn)算量。此外,如果分配給增益碼本的比特?cái)?shù)足夠,則也可以獨(dú)立地對(duì)自適應(yīng)碼本增益和噪聲碼本增益進(jìn)行標(biāo)量量化。
加法器114將從乘法器112及113輸入的噪聲碼矢量和自適應(yīng)碼矢量相加,生成驅(qū)動(dòng)音源信號(hào),輸出到合成濾波器104及自適應(yīng)碼本110。
在本實(shí)施例中,多模式化的只是噪聲碼本109,但是也可以將自適應(yīng)碼本110及增益碼本111多模式化以進(jìn)一步改善品質(zhì)。
下面參照?qǐng)D3來說明上述實(shí)施例的語音編碼方法的處理流程。在本說明中示出下述例子按預(yù)定時(shí)間長度的處理單位(幀時(shí)間長度為大約數(shù)十毫秒)進(jìn)行語音編碼處理,按整數(shù)個(gè)更短的處理單位(子幀)來處理1幀。
在步驟(以下略稱為ST)301中,清除自適應(yīng)碼本的內(nèi)容、合成濾波器存儲(chǔ)器、輸入緩沖器等所有存儲(chǔ)器。
接著,在ST302中,按1幀來輸入數(shù)字化過的語音信號(hào)等輸入數(shù)據(jù),通過高通濾波器或帶通濾波器等進(jìn)行輸入數(shù)據(jù)的偏移除去或限帶。預(yù)處理后的輸入數(shù)據(jù)被緩沖到輸入緩沖器,用于以后的編碼處理。
接著,在ST303中,進(jìn)行LPC分析(線性預(yù)測分析),計(jì)算LPC系數(shù)(線性預(yù)測系數(shù))。
接著,在ST304中,進(jìn)行ST303中算出的LPC系數(shù)的量化。LPC系數(shù)的量化方法有多種,而如果采用變換為插值特性良好的LSP參數(shù)、并利用了多級(jí)矢量量化或幀間相關(guān)的預(yù)測量化,則能夠高效地量化。此外,例如在1幀被分割為2個(gè)子幀來處理的情況下,一般是,對(duì)第2子幀的LPC系數(shù)進(jìn)行量化,第1子幀的LPC系數(shù)使用前一幀的第2子幀的量化LPC系數(shù)、和當(dāng)前幀的第2子幀的量化LPC系數(shù)通過插值處理來決定。
接著,在ST305中,構(gòu)筑對(duì)預(yù)處理后的輸入數(shù)據(jù)進(jìn)行聽覺加權(quán)的聽覺加權(quán)濾波器。
接著,在ST306中,構(gòu)筑由驅(qū)動(dòng)音源信號(hào)來生成聽覺加權(quán)域的合成信號(hào)的聽覺加權(quán)合成濾波器。該濾波器從屬連接了合成濾波器和聽覺加權(quán)濾波器,合成濾波器使用ST304中量化過的量化LPC系數(shù)來構(gòu)筑,而聽覺加權(quán)濾波器使用ST303中算出的LPC系數(shù)來構(gòu)筑。
接著,在ST307中,進(jìn)行模式選擇。模式選擇使用ST304中量化過的量化LPC系數(shù)的動(dòng)態(tài)及靜態(tài)特征來進(jìn)行。具體地說,使用由量化LSP的變動(dòng)或量化LPC系數(shù)而算出的反射系數(shù)或預(yù)測殘差功率等。根據(jù)本步驟中選擇的模式,進(jìn)行噪聲碼本的搜索。本步驟中選擇的模式至少有2種,例如可考慮有聲語音模式、和無聲語音及平穩(wěn)噪聲模式這種2模式結(jié)構(gòu)。
接著,在ST308中,進(jìn)行自適應(yīng)碼本的搜索。自適應(yīng)碼本的搜索是搜索能生成下述聽覺加權(quán)合成波形的自適應(yīng)碼矢量,即,該波形最接近對(duì)預(yù)處理后的輸入數(shù)據(jù)進(jìn)行聽覺加權(quán)所得的波形;決定取出自適應(yīng)碼矢量的位置,使得用ST305中構(gòu)筑的聽覺加權(quán)濾波器對(duì)預(yù)處理后的輸入數(shù)據(jù)進(jìn)行濾波所得的信號(hào)、和將從自適應(yīng)碼本中取出的自適應(yīng)碼矢量作為驅(qū)動(dòng)音源信號(hào)并用ST306中構(gòu)筑的聽覺加權(quán)合成濾波器進(jìn)行濾波所得的信號(hào)之間的誤差達(dá)到最小。
接著,在ST309中,進(jìn)行噪聲碼本的搜索。噪聲碼本的搜索是選擇生成驅(qū)動(dòng)音源信號(hào)的噪聲碼矢量,該驅(qū)動(dòng)音源信號(hào)能生成下述聽覺加權(quán)合成波形,即,該波形最接近對(duì)預(yù)處理后的輸入數(shù)據(jù)進(jìn)行聽覺加權(quán)所得的波形;考慮到驅(qū)動(dòng)音源信號(hào)是將自適應(yīng)碼矢量和噪聲碼矢量相加而生成的來進(jìn)行搜索。因此,將已經(jīng)在ST308中決定了的自適應(yīng)碼矢量、和噪聲碼本中保存的噪聲碼矢量相加來生成驅(qū)動(dòng)音源信號(hào),從噪聲碼本中選擇噪聲碼矢量,使得用ST306中構(gòu)筑的聽覺加權(quán)合成濾波器對(duì)生成的驅(qū)動(dòng)音源信號(hào)進(jìn)行濾波所得的信號(hào)、和用ST305中構(gòu)筑的聽覺加權(quán)濾波器對(duì)預(yù)處理后的輸入數(shù)據(jù)進(jìn)行濾波所得的信號(hào)之間的誤差達(dá)到最小。在對(duì)噪聲碼矢量進(jìn)行音調(diào)周期化等處理的情況下,進(jìn)行也考慮了該處理的搜索。此外,該噪聲碼本至少具有2種以上的模式,例如在與有聲語音部對(duì)應(yīng)的模式中使用保存著更像脈沖的噪聲碼矢量的噪聲碼本進(jìn)行搜索,而在與無聲語音部或平穩(wěn)噪聲部等對(duì)應(yīng)的模式中使用保存著更像噪聲的噪聲碼矢量的噪聲碼本進(jìn)行搜索。在ST307中選擇搜索時(shí)使用哪個(gè)模式的噪聲碼本。
接著,在ST310中,進(jìn)行增益碼本的搜索。增益碼本的搜索是從增益碼本中選擇自適應(yīng)碼本增益和噪聲碼本增益的組,以分別乘已經(jīng)在ST308中決定的自適應(yīng)碼矢量、和ST309中決定的噪聲碼矢量;從增益碼本中選擇自適應(yīng)碼本增益和噪聲碼本增益的組,使得將自適應(yīng)碼本增益乘法后的自適應(yīng)碼矢量、和噪聲碼增益乘法后的噪聲碼矢量相加來生成驅(qū)動(dòng)音源信號(hào),用ST306中構(gòu)筑的聽覺加權(quán)合成濾波器對(duì)生成的驅(qū)動(dòng)音源信號(hào)進(jìn)行濾波所得的信號(hào)、和用ST305中構(gòu)筑的聽覺加權(quán)濾波器對(duì)預(yù)處理后的輸入數(shù)據(jù)進(jìn)行濾波所得的信號(hào)之間的誤差達(dá)到最小。
接著,在ST311中,生成驅(qū)動(dòng)音源信號(hào)。驅(qū)動(dòng)音源信號(hào)是將ST308選擇出的自適應(yīng)碼矢量乘以ST310中選擇出的自適應(yīng)碼本增益所得的矢量、和ST309中選擇出的噪聲碼矢量乘以ST310中選擇出的噪聲碼本增益所得矢量相加來生成的。
接著,在ST312中,進(jìn)行子幀處理循環(huán)所用的存儲(chǔ)器的更新。具體地說,進(jìn)行自適應(yīng)碼本的更新、聽覺加權(quán)濾波器及聽覺加權(quán)合成濾波器的狀態(tài)更新等。
上述ST305~312是以子幀為單位的處理。
接著,在ST313中,進(jìn)行幀處理循環(huán)所用的存儲(chǔ)器的更新。具體地說,進(jìn)行預(yù)處理器所用的濾波器的狀態(tài)更新、量化LPC系數(shù)緩沖器的更新(在進(jìn)行LPC的幀間預(yù)測量化的情況下)、輸入數(shù)據(jù)緩沖器的更新等。
接著,在ST314中,進(jìn)行編碼數(shù)據(jù)的輸出。編碼數(shù)據(jù)按照傳輸?shù)男螒B(tài)進(jìn)行比特流化或復(fù)用處理等并送出到傳輸線路。
上述ST302~304及313~314是以幀為單位的處理。此外,重復(fù)進(jìn)行以幀為單位及以子幀為單位的處理,直至沒有輸入數(shù)據(jù)。
(實(shí)施例2)圖2是本發(fā)明實(shí)施例2的語音解碼裝置的結(jié)構(gòu)方框圖。
從編碼器傳輸?shù)摹⒈憩F(xiàn)量化LPC的代碼L、表現(xiàn)噪聲碼矢量的代碼S、表現(xiàn)自適應(yīng)碼矢量的代碼P、以及表示增益信息的代碼G分別被輸入到LPC解碼器201、噪聲碼本203、自適應(yīng)碼本204、以及增益碼本205。
LPC解碼器201由代碼L來解碼出量化LPC,分別輸出到模式選擇器202和合成濾波器209。
模式選擇器202使用從LPC解碼器201輸入的量化LPC來決定噪聲碼本203及后處理器211的模式,將模式信息M分別輸出到噪聲碼本203及后處理器211。模式選擇器202也存儲(chǔ)過去輸入的量化LPC的信息,使用幀間的量化LPC的變動(dòng)特征、和當(dāng)前幀中的量化LPC的特征這兩者進(jìn)行模式選擇。該模式至少有2種以上,例如由與有聲語音部對(duì)應(yīng)的模式、與無聲語音部對(duì)應(yīng)的模式、和與平穩(wěn)噪聲部等對(duì)應(yīng)的模式構(gòu)成。此外,模式選擇所用的信息不必是量化LPC本身,變換為量化LSP、反射系數(shù)、或線性預(yù)測殘差功率等參數(shù)也很有效。
噪聲碼本203保存預(yù)定個(gè)數(shù)的形狀不同的噪聲碼矢量,輸出對(duì)輸入的代碼S進(jìn)行解碼所得的噪聲碼本索引所指定的噪聲碼矢量。此外,該噪聲碼本203至少具有2種以上的模式,例如其結(jié)構(gòu)為在與有聲語音部對(duì)應(yīng)的模式中生成更像脈沖的噪聲碼矢量,在與無聲語音部或平穩(wěn)噪聲部等對(duì)應(yīng)的模式中生成更像噪聲的噪聲碼矢量。模式選擇器202從上述2種以上的模式中選擇一個(gè)模式,從噪聲碼本203輸出的噪聲碼矢量由該一個(gè)模式來生成,由乘法器206乘以噪聲碼本增益Gs后,輸出到加法器208。
自適應(yīng)碼本204逐次更新過去生成的驅(qū)動(dòng)音源信號(hào)并緩沖,使用對(duì)輸入的代碼P進(jìn)行解碼所得的自適應(yīng)碼本索引(音調(diào)周期(ピッチラグ))來生成自適應(yīng)碼矢量。由自適應(yīng)碼本204生成的自適應(yīng)碼矢量由乘法器207乘以自適應(yīng)碼本增益Ga后,輸出到加法器208。
增益碼本205保存預(yù)定個(gè)數(shù)的自適應(yīng)碼本增益Ga和噪聲碼本增益Gs的組(增益矢量),將對(duì)輸入的代碼G進(jìn)行解碼所得的增益碼本索引所指定的增益矢量的自適應(yīng)碼本增益分量Ga輸出到乘法器207,而將噪聲碼本增益分量Gs輸出到乘法器206。
加法器208將從乘法器206及207輸入的噪聲碼矢量和自適應(yīng)碼矢量相加,生成驅(qū)動(dòng)音源信號(hào),輸出到合成濾波器209及自適應(yīng)碼本204。
合成濾波器209使用從LPC解碼器201輸入的量化LPC來構(gòu)筑LPC合成濾波器。該合成濾波器輸入從加法器208輸出的驅(qū)動(dòng)音源信號(hào),進(jìn)行濾波處理,將合成信號(hào)輸出到后濾波器210。
后濾波器210對(duì)從合成濾波器209輸入的合成信號(hào)進(jìn)行音調(diào)增強(qiáng)、共振峰增強(qiáng)、頻譜傾斜校正、增益調(diào)整等用于改善語音信號(hào)的主觀品質(zhì)的處理,輸出到后處理器211。
后處理器211對(duì)從后濾波器210輸入的信號(hào)利用從模式選擇器202輸入的模式信息M自適應(yīng)地進(jìn)行振幅頻譜的幀間平滑化處理、相位頻譜的隨機(jī)化處理等用于改善平穩(wěn)噪聲部的主觀品質(zhì)的處理。例如,在與有聲語音部或無聲語音部對(duì)應(yīng)的模式中幾乎不進(jìn)行上述平滑化處理或隨機(jī)化處理,而在與平穩(wěn)噪聲部等對(duì)應(yīng)的模式中自適應(yīng)地進(jìn)行上述平滑化處理或隨機(jī)化處理。后處理后的信號(hào)作為數(shù)字化過的解碼語音信號(hào)等輸出數(shù)據(jù)被輸出。
在本實(shí)施例中,從模式選擇器202輸出的模式信息M被用于噪聲碼本203的模式切換、和后處理器211的模式切換這兩者,但是即使只用于某一個(gè)的模式切換也能得到效果。在此情況下,只對(duì)某一個(gè)進(jìn)行多模式處理。
下面參照?qǐng)D4來說明上述實(shí)施例的語音解碼方法的處理流程。在本說明中示出下述例子按預(yù)定時(shí)間長度的處理單位(幀時(shí)間長度為大約數(shù)十毫秒)進(jìn)行語音編碼處理,按整數(shù)個(gè)更短的處理單位(子幀)來處理1幀。
在ST401中,清除自適應(yīng)碼本的內(nèi)容、合成濾波器存儲(chǔ)器、輸出緩沖器等所有存儲(chǔ)器。
接著,在ST402中,編碼數(shù)據(jù)被解碼。具體地說,進(jìn)行復(fù)用的接收信號(hào)的分離,或者將比特流化的接收信號(hào)分別變換為分別表示量化LPC系數(shù)、自適應(yīng)碼矢量、噪聲碼矢量、以及增益信息的代碼。
接著,在ST403中,對(duì)LPC系數(shù)進(jìn)行解碼。LPC系數(shù)是由ST402中得到的表示量化LPC系數(shù)的代碼、通過實(shí)施例1所示的LPC系數(shù)的量化方法的逆過程來解碼的。
接著,在ST404中,使用ST403中解碼過的LPC系數(shù)來構(gòu)筑合成濾波器。
接著,在ST405中,使用ST403中解碼過的LPC系數(shù)的靜態(tài)及動(dòng)態(tài)特征,進(jìn)行噪聲碼本及后處理的模式選擇。具體地說,使用由量化LSP的變動(dòng)或量化LPC系數(shù)而算出的反射系數(shù)或預(yù)測殘差功率等。根據(jù)本步驟中選擇的模式,進(jìn)行噪聲碼本的解碼及后處理。該模式至少有2種,例如由與有聲語音部對(duì)應(yīng)的模式、與無聲語音部對(duì)應(yīng)的模式、以及與平穩(wěn)噪聲部對(duì)應(yīng)的模式構(gòu)成。
接著,在ST406中,自適應(yīng)碼矢量被解碼。自適應(yīng)碼矢量如下被解碼由表現(xiàn)自適應(yīng)碼矢量的代碼來解碼出從自適應(yīng)碼本中取出自適應(yīng)碼矢量的位置,從該位置取出自適應(yīng)碼矢量。
接著,在ST407中,噪聲碼矢量被解碼。噪聲碼矢量如下被解碼由表現(xiàn)噪聲碼矢量的代碼來解碼出噪聲碼本索引,從噪聲碼本中取出與該索引對(duì)應(yīng)的噪聲碼矢量。在采用噪聲碼矢量的音調(diào)周期化等時(shí),進(jìn)一步進(jìn)行音調(diào)周期化后的矢量成為解碼噪聲碼矢量。此外,該噪聲碼本至少具有2中以上的模式,例如在與有聲語音部對(duì)應(yīng)的模式中生成更像脈沖的噪聲碼矢量,而在與無聲語音部或平穩(wěn)噪聲部等對(duì)應(yīng)的模式中生成更像噪聲的噪聲碼矢量。
接著,在ST408中,自適應(yīng)碼本增益和噪聲碼本增益被解碼。由表示增益信息的代碼來解碼出增益碼本索引,從增益碼本中取出該索引所示的自適應(yīng)碼本增益和噪聲碼本增益的組,從而增益信息被解碼。
接著,在ST409中,生成驅(qū)動(dòng)音源信號(hào)。驅(qū)動(dòng)音源信號(hào)如下被生成將ST406中選擇出的自適應(yīng)碼矢量乘以ST408中選擇出的自適應(yīng)碼本增益所得的矢量、和ST407中選擇出的噪聲碼矢量乘以ST408中選擇出的噪聲碼本增益所得的矢量相加。
接著,在ST410中,合成解碼信號(hào)。用ST404中構(gòu)筑的合成濾波器對(duì)ST409中生成的驅(qū)動(dòng)音源信號(hào)進(jìn)行濾波,來合成解碼信號(hào)。
接著,在ST411中,對(duì)解碼信號(hào)進(jìn)行后濾波處理。后濾波處理由音調(diào)增強(qiáng)處理、共振峰增強(qiáng)處理、頻譜傾斜校正處理、增益調(diào)整處理等用于改善解碼信號(hào)、特別是解碼語音信號(hào)的主觀品質(zhì)的處理構(gòu)成。
接著,在ST412中,對(duì)后濾波處理后的解碼信號(hào)進(jìn)行最終性的后處理。該后處理主要由振幅頻譜的(子)幀間平滑化處理、相位頻譜的隨機(jī)化處理等用于改善解碼信號(hào)中的平穩(wěn)噪聲部分的主觀品質(zhì)的處理構(gòu)成,進(jìn)行與ST405中選擇出的模式對(duì)應(yīng)的處理。例如,在與有聲語音部或無聲語音部對(duì)應(yīng)的模式中幾乎不進(jìn)行上述平滑化處理或隨機(jī)化處理,而在與平穩(wěn)噪聲部等對(duì)應(yīng)的模式中自適應(yīng)地進(jìn)行上述平滑化處理或隨機(jī)化處理。本步驟中生成的信號(hào)成為輸出數(shù)據(jù)。
接著,在ST413中,進(jìn)行子幀處理循環(huán)所用的存儲(chǔ)器的更新。具體地說,進(jìn)行自適應(yīng)碼本的更新、后濾波處理中包含的各濾波器的狀態(tài)更新等。
上述ST404~413是以子幀為單位的處理。
接著,在ST414中,進(jìn)行幀處理循環(huán)所用的存儲(chǔ)器的更新。具體地說,進(jìn)行量化(解碼)LPC系數(shù)緩沖器的更新(在進(jìn)行LPC的幀間預(yù)測量化的情況下)、輸出數(shù)據(jù)緩沖器的更新等。
上述ST402~403及414是以幀為單位的處理。此外,重復(fù)進(jìn)行以幀為單位及以子幀為單位的處理,直至沒有編碼數(shù)據(jù)。
(實(shí)施例3)圖5是包括實(shí)施例1的語音編碼裝置或?qū)嵤├?的語音解碼裝置的語音信號(hào)發(fā)送機(jī)及接收機(jī)的方框圖。圖5A是發(fā)送機(jī),而圖5B是接收機(jī)。
在圖5A的語音信號(hào)發(fā)送機(jī)中,語音通過語音輸入裝置501變換為電模擬信號(hào),輸出到A/D變換器502。模擬語音信號(hào)通過A/D變換器502變換為數(shù)字語音信號(hào),輸出到語音編碼器503。語音編碼器503進(jìn)行語音編碼處理,將編碼過的信息輸出到RF調(diào)制器504。RF調(diào)制器對(duì)編碼過的語音信號(hào)信息進(jìn)行調(diào)制、放大、代碼擴(kuò)展等用于作為電波送出的操作,輸出到發(fā)送天線505。最后,從發(fā)送天線505送出電波(RF信號(hào))506。
另一方面,在圖5B的接收機(jī)中,用接收天線507接收電波(RF信號(hào))506,接收信號(hào)被送至RF解調(diào)器508。RF解調(diào)器508進(jìn)行代碼解擴(kuò)、解調(diào)等用于將電波信號(hào)變換為編碼信息的處理,將編碼信息輸出到語音解碼器509。語音解碼器509進(jìn)行編碼信息的解碼處理,將數(shù)字解碼語音信號(hào)輸出到D/A變換器510。D/A變換器510將從語音解碼器509輸出的數(shù)字解碼語音信號(hào)變換為模擬解碼語音信號(hào),輸出到語音輸出裝置511。最后,語音輸出裝置511將電模擬解碼語音信號(hào)變換為解碼語音并輸出。
上述發(fā)送裝置及接收裝置可以用作便攜電話等移動(dòng)通信設(shè)備的移動(dòng)臺(tái)或基站裝置。傳輸信息的媒體不限于本實(shí)施例所示的電波,也可以利用光信號(hào)等,還可以使用有線傳輸線路。
上述實(shí)施例1所示的語音編碼裝置、上述實(shí)施例2所示的語音解碼裝置、及上述實(shí)施例3所示的發(fā)送裝置及發(fā)送接收裝置也可以作為軟件記錄在磁盤、光磁盤、盒式ROM(ROMカ-トリッジ)等記錄媒體上來實(shí)現(xiàn),通過使用該記錄媒體,就能夠通過使用這種記錄媒體的個(gè)人計(jì)算機(jī)等來實(shí)現(xiàn)語音編碼裝置/解碼裝置及發(fā)送裝置/接收裝置。
(實(shí)施例4)實(shí)施例4是示出上述實(shí)施例1、2中的模式選擇器105、202的結(jié)構(gòu)例的例子。
圖6是本發(fā)明實(shí)施例4的模式選擇器的結(jié)構(gòu)方框圖。
本實(shí)施例的模式選擇器包括動(dòng)態(tài)特征提取部601,提取量化LSP參數(shù)的動(dòng)態(tài)特征;以及第一、第二靜態(tài)特征提取部602、603,提取量化LSP參數(shù)的靜態(tài)特征。
動(dòng)態(tài)特征提取部601向AR型平滑化部604輸入量化LSP參數(shù)進(jìn)行平滑化處理。在AR型平滑化部604中,將每個(gè)處理單位時(shí)間輸入的各次量化LSP參數(shù)作為時(shí)間序列數(shù)據(jù),進(jìn)行(1)式所示的平滑化處理。
-Ls[i]=(1-α)×Ls[i]+α×L[i],i=1,2,...,M,0<α<1...(1)Ls[i]i次平滑化量化LSP參數(shù)L[i]i次量化LSP參數(shù)α平滑化系數(shù)MLSP分析次數(shù)在(1)式中,α的值設(shè)定為大約0.7,以進(jìn)行不太強(qiáng)的平滑化。用上述(1)式求出的平滑化過的量化LSP參數(shù)被分支為經(jīng)由延遲部605輸入到加法器606的參數(shù)、和直接輸入到加法器606的參數(shù)。
延遲部605將輸入的平滑化過的量化LSP參數(shù)延遲1個(gè)處理單位時(shí)間,輸出到加法器606。
加法器606輸入當(dāng)前處理單位時(shí)間中平滑化過的量化LSP參數(shù)、和前一處理單位時(shí)間中平滑化過的量化LSP參數(shù)。在該加法器606中,計(jì)算當(dāng)前處理單位時(shí)間中平滑化過的量化LSP參數(shù)、和前一處理單位時(shí)間中平滑化過的量化LSP參數(shù)之差。對(duì)LSP參數(shù)的各次數(shù)來計(jì)算該差。加法器606的計(jì)算結(jié)果被輸出到平方和計(jì)算部607。
平方和計(jì)算部607計(jì)算當(dāng)前處理單位時(shí)間中平滑化過的量化LSP參數(shù)、和前一處理單位時(shí)間中平滑化過的量化LSP參數(shù)之間每個(gè)次數(shù)之差的平方和。
在動(dòng)態(tài)特征提取部601中,與AR型平滑化部604并列,向延遲部608也輸入量化LSP參數(shù)。在延遲部608中,延遲1個(gè)處理單位時(shí)間,經(jīng)開關(guān)609輸出到AR型平均值計(jì)算部611。
開關(guān)609在從延遲部610輸出的模式信息是噪聲模式的情況下閉合,將從延遲部608輸出的量化LSP參數(shù)輸入到AR型平均值計(jì)算部611。
延遲部610輸入從模式判定部621輸出的模式信息,延遲1個(gè)處理單位時(shí)間,輸出到開關(guān)609。
AR型平均值計(jì)算部611與AR型平滑化部604同樣,根據(jù)(1)式來計(jì)算噪聲區(qū)間中的平均LSP參數(shù),輸出到加法器612。其中,(1)式中的α值為大約0.05,通過進(jìn)行極強(qiáng)的平滑化處理,來計(jì)算LSP參數(shù)的長時(shí)間平均。
加法器612對(duì)各次數(shù)來計(jì)算當(dāng)前處理單位時(shí)間中的量化LSP參數(shù)、和AR型平均值計(jì)算部611算出的噪聲區(qū)間中的量化LSP參數(shù)之差,輸出到平方和計(jì)算部613。
平方和計(jì)算部613輸入從加法器612輸出的量化LSP參數(shù)的差分信息,計(jì)算各次數(shù)的平方和,輸出到語音區(qū)間檢測部619。
量化LSP參數(shù)的動(dòng)態(tài)特征提取部601由以上604至613的要素構(gòu)成。
第一靜態(tài)特征提取部602在線性預(yù)測殘差功率計(jì)算部614中由量化LSP參數(shù)來計(jì)算線性預(yù)測殘差功率。此外,在鄰接LSP間隔計(jì)算部615中,如(2)式所示,對(duì)量化LSP參數(shù)鄰接的每個(gè)次數(shù)來計(jì)算間隔。
Ld[i]=L[i+1]-L[i],i=1,2,...M-1...(2)L[i]i次量化LSP參數(shù)鄰接LSP間隔計(jì)算部615的計(jì)算值被提供給方差值計(jì)算部616。方差值計(jì)算部616計(jì)算從鄰接LSP間隔計(jì)算部615輸出的量化LSP參數(shù)間隔的方差值。在計(jì)算方差值時(shí),不使用所有LSP參數(shù)間隔數(shù)據(jù),而是通過除去低帶端(Ld[1])的數(shù)據(jù),能夠反映最低帶以外的部分中存在的頻譜的峰谷特征。與具有低帶隆起特性的平穩(wěn)噪聲相比,在通過高通濾波器的情況下,在濾波器截止頻率附近經(jīng)常出現(xiàn)頻譜的峰,所以具有去除這種頻譜的峰信息的效果。即,能夠提取輸入信號(hào)的頻譜包絡(luò)的峰谷特征,能夠提取靜態(tài)特征,用于檢測很可能是語音區(qū)間的區(qū)間。此外,根據(jù)該結(jié)構(gòu),能夠高精度地區(qū)分語音區(qū)間和平穩(wěn)噪聲區(qū)間。
量化LSP參數(shù)的第一靜態(tài)特征提取部602由以上的614、615、616的要素構(gòu)成。
此外,在第二靜態(tài)特征提取部603中,反射系數(shù)計(jì)算部617將量化LSP參數(shù)變換為反射系數(shù),輸出到有聲/無聲判定部620。與此同時(shí),線性預(yù)測殘差功率計(jì)算部618由量化LSP參數(shù)來計(jì)算線性預(yù)測殘差功率,輸出到有聲/無聲判定部620。
線性預(yù)測殘差功率計(jì)算部618與線性預(yù)測殘差功率計(jì)算部614相同,所以614和618能夠共用。
量化LSP參數(shù)的第二靜態(tài)特征提取部603由以上的617和618的要素構(gòu)成。
動(dòng)態(tài)特征提取部610及第一靜態(tài)特征提取部602的輸出被提供給語音區(qū)間檢測部619。語音區(qū)間檢測部619從平方和計(jì)算部607輸入平滑化量化LSP參數(shù)的變動(dòng)量,從平方和計(jì)算部613輸入噪聲區(qū)間的平均量化LSP參數(shù)、和當(dāng)前的量化LSP參數(shù)之間的距離,從線性預(yù)測殘差功率計(jì)算部614輸入量化線性預(yù)測殘差功率,從方差值計(jì)算部616輸入鄰接LSP間隔數(shù)據(jù)的方差信息。然后,使用這些信息,判定當(dāng)前處理單位時(shí)間中的輸入信號(hào)(或解碼信號(hào))是否是語音區(qū)間,將判定結(jié)果輸出到模式判定部621。更具體的判定是否是語音區(qū)間的方法使用圖8來后述。
另一方面,第二靜態(tài)特征提取部603的輸出被提供給有聲/無聲判定部620。有聲/無聲判定部620分別輸入從反射系數(shù)計(jì)算部617輸入的反射系數(shù)、和從線性預(yù)測殘差功率計(jì)算部618輸入的量化線性預(yù)測殘差功率。然后,使用這些信息,判定當(dāng)前處理單位時(shí)間中的輸入信號(hào)(或解碼信號(hào))是有聲區(qū)間、還是無聲區(qū)間,將判定結(jié)果輸出到模式判定部621。更具體的有音/無音判定方法使用圖9來后述。
模式判定部621分別輸入從語音區(qū)間檢測部619輸出的判定結(jié)果、和從有聲/無聲判定部620輸出的判定結(jié)果,使用這些信息來決定當(dāng)前處理單位時(shí)間中的輸入信號(hào)(或解碼信號(hào))的模式并輸出。更具體的模式分類方法使用圖10來后述。
在本實(shí)施例中,平滑化部和平均值計(jì)算部使用AR型,但是也可以使用其以外的方法進(jìn)行平滑化和平均值計(jì)算。
下面,參照?qǐng)D8,說明上述實(shí)施例中的語音區(qū)間判定方法的細(xì)節(jié)。
首先,在ST801中,計(jì)算第一動(dòng)態(tài)參數(shù)(Para1)。第一動(dòng)態(tài)參數(shù)的具體內(nèi)容是每個(gè)處理單位時(shí)間的量化LSP參數(shù)的變動(dòng)量,如(3)式所示。D(t)=Σi=1M(LSi(t)-LSi(t-1))2----(3)]]>
LSi(t)時(shí)刻t的平滑化量化LSP接著,在ST802中,檢查第一動(dòng)態(tài)參數(shù)是否大于預(yù)定的閾值Th1。在超過閾值Th1的情況下,由于量化LSP參數(shù)的變動(dòng)量大,所以判定為是語音區(qū)間。另一方面,在小于閾值Th1的情況下,由于量化LSP參數(shù)的變動(dòng)量小,所以進(jìn)至ST803,進(jìn)一步進(jìn)至使用其他參數(shù)的判定處理的ST。
在ST802中,在第一動(dòng)態(tài)參數(shù)小于閾值Th1的情況下,進(jìn)至ST803,檢查計(jì)數(shù)器的數(shù)目,該計(jì)數(shù)器的數(shù)目表示過去有多少被判定為平穩(wěn)噪聲區(qū)間。計(jì)數(shù)器的初始值是0,對(duì)于通過本模式判定方法判定為是平穩(wěn)噪聲區(qū)間的每個(gè)處理單位時(shí)間而遞增1。在ST803中,在計(jì)數(shù)器的數(shù)目小于預(yù)定的閾值ThC的情況下,進(jìn)至ST804,使用靜態(tài)參數(shù)來判定是否是語音區(qū)間。另一方面,在超過閾值ThC的情況下,進(jìn)至ST806,使用第二動(dòng)態(tài)參數(shù)來判定是否是語音區(qū)間。
在ST804中計(jì)算2種參數(shù)。一個(gè)是由量化LSP參數(shù)來計(jì)算的線性預(yù)測殘差功率(Para3),另一個(gè)是量化LSP參數(shù)的鄰接次數(shù)的差分信息的方差(Para4),線性預(yù)測殘差功率可以如下求出將量化LSP參數(shù)變換為線性預(yù)測系數(shù),通過使用Levinson-Durbin算法中的關(guān)系式來求。對(duì)于線性預(yù)測殘差功率,已知無聲部傾向于大于有聲部,所以能夠用作有聲/無聲的判定基準(zhǔn)。量化LSP參數(shù)的鄰接次數(shù)的差分信息示于(2)式,用于求這些數(shù)據(jù)的方差。其中,由于噪聲的種類或限帶的施加方法,在低帶中存在頻譜的峰(ピ-ク),所以不使用低帶端的鄰接次數(shù)的差分信息(在(2)式中,i=1),在(2)式中,而是使用從i=2到M-1(M是分析次數(shù))的數(shù)據(jù)來求方差較好。在語音信號(hào)中,由于在電話頻帶(200Hz~3.4kHz)內(nèi)具有大約3個(gè)共振峰,所以LSP的間隔窄的部分和寬的部分有幾個(gè),間隔數(shù)據(jù)的方差傾向于變大。另一方面,在平穩(wěn)噪聲中,由于不具有共振峰結(jié)構(gòu),所以LSP間隔往往是比較相等的間隔,上述方差傾向于變小。利用該性質(zhì),能夠判定是否是語音區(qū)間。其中,如上所述,因噪聲的種類等而異,有時(shí)在低帶中具有頻譜的峰,在這種情況下,最低帶端的LSP間隔變窄,所以如果使用所有鄰接LSP差分?jǐn)?shù)據(jù)來求方差,則共振峰的有無引起的差別變小,判定精度變低。因此,通過除去低帶端的鄰接LSP差分信息來求方差,來回避這種精度惡化。其中,由于這種靜態(tài)參數(shù)與動(dòng)態(tài)參數(shù)相比,判定能力低,所以用作輔助信息較好。ST804中算出的2種參數(shù)用于ST805。
接著,在ST805中,使用ST804中算出的2種參數(shù)進(jìn)行閾值處理。具體地說,在線性預(yù)測殘差功率(Para3)小于閾值Th3、而且鄰接LSP間隔數(shù)據(jù)的方差(Para4)大于閾值Th4的情況下,判定為語音區(qū)間。在其以外的情況下,判定為平穩(wěn)噪聲區(qū)間(非語音區(qū)間)。在判定為平穩(wěn)噪聲區(qū)間的情況下,將計(jì)數(shù)器的值增加1。
在ST806中,計(jì)算第二動(dòng)態(tài)參數(shù)(Para2)。第二動(dòng)態(tài)參數(shù)表示過去的平穩(wěn)噪聲區(qū)間中的平均量化LSP參數(shù)、和當(dāng)前處理單位時(shí)間中的量化LSP參數(shù)之間的類似度,具體地說,如(4)式所示,是使用上述2種量化LSP參數(shù)對(duì)各次數(shù)來求差分值、求平方和而得到的。求出的第二動(dòng)態(tài)參數(shù)在ST807中用于閾值處理。E(t)=Σi=1M(Li(t)-LAi)2-----(4)]]>Li(t)時(shí)刻t的量化LSP LAi噪聲區(qū)間的平均量化LSP參數(shù)接著,在ST807中,判定第二動(dòng)態(tài)參數(shù)是否超過閾值Th2。如果超過閾值Th2,則由于與過去的平穩(wěn)噪聲區(qū)間中的平均量化LSP參數(shù)的類似度低,所以判定為語音區(qū)間,而如果小于閾值Th2,則由于與過去的平穩(wěn)噪聲區(qū)間中的平均量化LSP參數(shù)的類似度高,所以判定為平穩(wěn)噪聲區(qū)間。在判定為平穩(wěn)噪聲區(qū)間的情況下,將計(jì)數(shù)器的值增加1。
接著,參照?qǐng)D9來說明上述實(shí)施例中的有聲無聲區(qū)間判定方法的細(xì)節(jié)。
首先,在ST901中,由當(dāng)前處理單位時(shí)間中的量化LSP參數(shù)來計(jì)算1次反射系數(shù)。反射系數(shù)是將LSP參數(shù)變換為線性預(yù)測系數(shù)來計(jì)算的。
接著,在ST902中,判定上述反射系數(shù)是否超過第一閾值Th1。如果超過閾值Th1,則判定為當(dāng)前的處理單位時(shí)間是無聲區(qū)間,結(jié)束有聲無聲區(qū)間判定處理,而如果小于閾值Th1,則進(jìn)一步繼續(xù)有聲無聲判定的處理。
在ST902中未判定為無聲的情況下,在ST903中,判定上述反射系數(shù)是否超過第二閾值Th2。如果超過閾值Th2,則進(jìn)至ST905,而如果小于閾值Th2,則進(jìn)至ST904。
在ST903中,在上述反射系數(shù)小于第二閾值Th2的情況下,在ST904中,判定上述反射系數(shù)是否超過第三閾值Th3。如果超過閾值Th3,則進(jìn)至ST907,而如果小于閾值Th3,則判定為有聲區(qū)間,結(jié)束有聲無聲判定處理。
在ST903中,在上述反射系數(shù)超過第二閾值Th2的情況下,在ST905中,計(jì)算線性預(yù)測殘差功率。線性預(yù)測殘差功率是將量化LSP變換為線性預(yù)測系數(shù)來計(jì)算的。
接著ST905,在ST906中,判定上述線性預(yù)測殘差功率是否超過閾值Th4。如果超過閾值Th4,則判定為無聲區(qū)間,結(jié)束有聲無聲判定處理,而如果小于閾值Th4,則判定為有聲區(qū)間,結(jié)束有聲無聲判定處理。
在ST904中,在上述反射系數(shù)超過第三閾值Th3的情況下,在ST907中,計(jì)算線性預(yù)測殘差功率。
接著ST907,在ST908中,判定上述線性預(yù)測殘差功率是否超過閾值Th5。如果超過閾值Th5,則判定為無聲區(qū)間,結(jié)束有聲無聲判定處理,而如果小于閾值Th5,則判定為有聲區(qū)間,結(jié)束有聲無聲判定處理。
接著,參照?qǐng)D10,說明模式判定部621所用的模式判定方法。
首先,在ST1001中,輸入語音區(qū)間檢測結(jié)果。本步驟也可以是進(jìn)行語音區(qū)間檢測處理的模塊本身。
接著,在ST1002中,根據(jù)是否是語音區(qū)間的判定結(jié)果,來決定是否判定為平穩(wěn)噪聲模式。在是語音區(qū)間的情況下,進(jìn)至ST1003,而在不是語音區(qū)間(是平穩(wěn)噪聲區(qū)間)的情況下,輸出是平穩(wěn)噪聲模式這一判定結(jié)果,結(jié)束模式判定處理。
在ST1002中,在判定為不是平穩(wěn)噪聲區(qū)間模式的情況下,接著在ST1003中,進(jìn)行有聲無聲判定結(jié)果的輸入。本步驟也可以是進(jìn)行有聲無聲判定處理的模塊本身。
接著ST1003,在ST1004中,根據(jù)有聲無聲判定結(jié)果進(jìn)行模式判定,判定是有聲區(qū)間模式、還是無聲區(qū)間模式。在是有聲區(qū)間的情況下,輸出是有聲區(qū)間模式這一判定結(jié)果,結(jié)束模式判定處理,而在是無聲區(qū)間的情況下,輸出是無聲區(qū)間模式這一判定結(jié)果,結(jié)束模式判定處理。如上所述,使用語音區(qū)間檢測結(jié)果和有聲無聲判定結(jié)果,將當(dāng)前處理單位模塊中的輸入信號(hào)(或解碼信號(hào))的模式分類為3個(gè)模式。
(實(shí)施例5)圖7是本發(fā)明實(shí)施例5的后處理器的結(jié)構(gòu)方框圖。本后處理器與實(shí)施例4所示的模式判定器組合,用于實(shí)施例2所示的語音信號(hào)解碼裝置。該圖所示的后處理器分別包括模式切換開關(guān)705、708、707、711,振幅頻譜平滑化部706,相位頻譜隨機(jī)化部709、710,閾值設(shè)定部703、716。
加權(quán)合成濾波器701輸入從上述語音解碼裝置的LPC解碼器201輸出的解碼LPC,構(gòu)筑聽覺加權(quán)合成濾波器,對(duì)從上述語音解碼裝置的合成濾波器209或后濾波器210輸出的合成語音信號(hào)進(jìn)行加權(quán)濾波處理,輸出到FFT處理部702。
FFT處理器702進(jìn)行從加權(quán)合成濾波器701輸出的加權(quán)處理后的解碼信號(hào)的FFT處理,將振幅頻譜WSAi分別輸出到第一閾值設(shè)定部703、第一振幅頻譜平滑化部706、以及第一相位頻譜隨機(jī)化部709。
第一閾值設(shè)定部703使用所有頻率分量來計(jì)算FFT處理部702算出的振幅頻譜的平均值,以該平均值為基準(zhǔn),將閾值Th1分別輸出到第一振幅頻譜平滑化部706和第一相位頻譜隨機(jī)化部709。
FFT處理部704進(jìn)行從上述語音解碼裝置的合成濾波器209或后濾波器210輸出的合成語音信號(hào)的FFT處理,將振幅頻譜分別輸出到模式切換開關(guān)705、712、加法器715、第二相位頻譜隨機(jī)化部710,而將相位頻譜輸出到模式切換開關(guān)708。
模式切換開關(guān)705輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff),判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間,在判定為語音區(qū)間的情況下,連接到模式切換開關(guān)707,而在判定為平穩(wěn)噪聲區(qū)間的情況下,連接到第一振幅頻譜平滑化部706。
第一振幅頻譜平滑化部706經(jīng)模式切換開關(guān)705從FFT處理部704輸入振幅頻譜SAi,對(duì)另外輸入的第一閾值Th1和加權(quán)振幅頻譜WSAi決定的頻率分量進(jìn)行平滑化處理,輸出到模式切換開關(guān)707。平滑化的頻率分量的決定方法是根據(jù)加權(quán)振幅頻譜WSAi是否小于第一閾值Th1來決定的。即,只對(duì)WSAi小于Th1的頻率分量i進(jìn)行振幅頻譜SAi的平滑化處理。通過該平滑化處理,緩和了平穩(wěn)噪聲區(qū)間中的、由編碼失真引起的振幅頻譜的時(shí)間上的不連續(xù)性。在FFT點(diǎn)數(shù)是128點(diǎn)、處理單位時(shí)間是10ms的情況下,用例如(1)式那樣的AR型進(jìn)行該平滑化處理的情況下的系數(shù)α可以設(shè)定為大約0.1。
與模式切換開關(guān)705同樣,模式切換開關(guān)707輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff),判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間,在判定為語音區(qū)間的情況下,連接到模式切換開關(guān)705,而在判定為平穩(wěn)噪聲區(qū)間的情況下,連接到第一振幅頻譜平滑化部706。上述判定結(jié)果與模式切換開關(guān)705的判定結(jié)果相同。模式切換開關(guān)707的另一端被連接到IFFT處理部720。
模式切換開關(guān)708與模式切換開關(guān)705聯(lián)動(dòng)切換,輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff),判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間,在判定為語音區(qū)間的情況下,連接到第二相位頻譜隨機(jī)化部710,而在判定為平穩(wěn)噪聲區(qū)間的情況下,連接到第一相位頻譜隨機(jī)化部709。上述判定結(jié)果與模式切換開關(guān)705的判定結(jié)果相同。即,在模式切換開關(guān)705被連接到第一振幅頻譜平滑化部706的情況下,模式切換開關(guān)708被連接到第一相位頻譜隨機(jī)化部709,而在模式切換開關(guān)705被連接到模式切換開關(guān)707的情況下,模式切換開關(guān)708被連接到第二相位頻譜隨機(jī)化部710。
第一相位隨機(jī)化部709經(jīng)模式切換開關(guān)708輸入從FFT處理部704輸出的相位頻譜SPi,對(duì)通過另外輸入的第一閾值Th1和加權(quán)振幅頻譜WSAi決定的頻率分量進(jìn)行隨機(jī)化處理,輸出到模式切換開關(guān)711。隨機(jī)化的頻率分量的決定方法與上述第一振幅頻譜平滑化部706中進(jìn)行平滑化的頻率分量的決定方法相同。即,只對(duì)WSAi小于Th1的頻率分量i進(jìn)行相位頻譜SPi的隨機(jī)化處理。
第二相位頻譜隨機(jī)化部710經(jīng)模式切換開關(guān)708輸入從FFT處理部704輸出的相位頻譜SPi,對(duì)通過另外輸入的第二閾值Th2i和振幅頻譜SAi決定的頻率分量進(jìn)行隨機(jī)化處理,輸出到模式切換開關(guān)711。隨機(jī)化的頻率分量的決定方法與上述第一相位頻譜隨機(jī)化部709相同。即,只對(duì)SAi小于Th2i的頻率分量i進(jìn)行相位頻譜SPi的隨機(jī)化處理。
模式切換開關(guān)711與模式切換開關(guān)707聯(lián)動(dòng),與模式切換開關(guān)707同樣,輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff),判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間,在判定為語音區(qū)間的情況下,連接到第二相位頻譜隨機(jī)化部710,而在判定為平穩(wěn)噪聲區(qū)間的情況下,連接到第一相位頻譜隨機(jī)化部709。上述判定結(jié)果與模式切換開關(guān)708的判定結(jié)果相同。模式切換開關(guān)711的另一端被連接到IFFT處理部720。
模式切換開關(guān)712與模式切換開關(guān)705同樣,輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff),判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間,在判定為不是語音區(qū)間(是平穩(wěn)噪聲區(qū)間)的情況下,接通開關(guān),向第二振幅頻譜平滑化部713輸出從FFT處理部704輸出的振幅頻譜SAi。在判定為語音區(qū)間的情況下,模式切換開關(guān)712被斷開,不向第二振幅頻譜平滑化部713輸出振幅頻譜SAi。
第二振幅頻譜平滑化部713經(jīng)模式切換開關(guān)712輸入從FFT處理部704輸出的振幅頻譜SAi,對(duì)所有頻帶分量進(jìn)行平滑化處理。通過該平滑化處理,能得到平穩(wěn)噪聲區(qū)間中的平均振幅頻譜。該平滑化處理與第一振幅頻譜平滑化部706中進(jìn)行的處理相同。此外,在模式切換開關(guān)712被斷開時(shí),在本處理部中不進(jìn)行處理,輸出最后進(jìn)行處理時(shí)的平穩(wěn)噪聲區(qū)間的平滑化振幅頻譜SSAi。第二振幅頻譜平滑化部713平滑化過的振幅頻譜SSAi被分別輸入到延遲部714、第二閾值設(shè)定部716、模式切換開關(guān)718。
延遲部714輸入從第二振幅頻譜平滑化部713輸出的SSAi,延遲1個(gè)處理單位時(shí)間,輸出到加法器715。
加法器715計(jì)算1個(gè)處理單位時(shí)間前的平穩(wěn)噪聲區(qū)間平滑化振幅頻譜SSAi、和當(dāng)前處理單位時(shí)間中的振幅頻譜SAi之間的距離Diff,分別輸出到模式切換開關(guān)705、707、708、711、712、718、719。
第二閾值設(shè)定部716以從第二振幅頻譜平滑化部713輸出的平穩(wěn)噪聲區(qū)間平滑化振幅頻譜SSAi為基準(zhǔn)來設(shè)定閾值Th2i,輸出到第二相位頻譜隨機(jī)化部710。
隨機(jī)相位頻譜生成部717將隨機(jī)生成的相位頻譜輸出到模式切換開關(guān)719。
模式切換開關(guān)718與模式切換開關(guān)712同樣,輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff),判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間,在判定為是語音區(qū)間的情況下,接通開關(guān),將第二振幅頻譜平滑化部713的輸出輸出到IFFT處理部720。在判定為不是語音區(qū)間(是平穩(wěn)噪聲區(qū)間)的情況下,模式切換開關(guān)718被斷開,第二振幅頻譜平滑化部713的輸出不被輸出到IFFT處理部720。
模式切換開關(guān)719與模式切換開關(guān)718聯(lián)動(dòng)切換,與模式切換開關(guān)718同樣,輸入從上述語音解碼裝置的模式選擇器202輸出的模式信息(Mode)、和從上述加法器715輸出的差分信息(Diff),判定當(dāng)前處理單位時(shí)間中的解碼信號(hào)是語音區(qū)間、還是平穩(wěn)噪聲區(qū)間,在判定為是語音區(qū)間的情況下,接通開關(guān),將隨機(jī)相位生成部717的輸出輸出到IFFT處理部720。在判定為不是語音區(qū)間(是平穩(wěn)噪聲區(qū)間)的情況下,模式切換開關(guān)719被斷開,隨機(jī)相位生成部717的輸出不被輸出到IFFT處理部720。
IFFT處理部720分別輸入從模式切換開關(guān)707輸出的振幅頻譜、從模式切換開關(guān)711輸出的相位頻譜、從模式切換開關(guān)718輸出的振幅頻譜、以及從模式切換開關(guān)719輸出的相位頻譜,進(jìn)行逆FFT處理,輸出后處理后的信號(hào)。在模式切換開關(guān)718、719被斷開的情況下,將從模式切換開關(guān)707輸入的振幅頻譜、和從模式切換開關(guān)711輸入的相位頻譜變換為FFT的實(shí)部頻譜和虛部頻譜,進(jìn)行逆FFT處理,將結(jié)果的實(shí)部作為時(shí)間信號(hào)來輸出。另一方面,在模式切換開關(guān)718、717被接通的情況下,將從模式切換開關(guān)707輸入的振幅頻譜、和從模式切換開關(guān)711輸入的相位頻譜變換為第一實(shí)部頻譜和第一虛部頻譜,將從模式切換開關(guān)718輸入的振幅頻譜、和從模式切換開關(guān)719輸入的相位頻譜變換為第二實(shí)部頻譜和第二虛部頻譜,并且將第一實(shí)部頻譜和第一虛部頻譜加上第二實(shí)部頻譜和第二虛部頻譜,進(jìn)行逆FFT處理。即,將第一實(shí)部頻譜和第二實(shí)部頻譜相加所得作為第三實(shí)部頻譜,將第一虛部頻譜和第二虛部頻譜相加所得作為第三虛部頻譜,然后使用第三實(shí)部頻譜和第三虛部頻譜進(jìn)行逆FFT處理。在上述頻譜相加時(shí),第二實(shí)部頻譜及第二虛部頻譜通過常數(shù)倍或自適應(yīng)控制的變量來衰減。例如,在上述頻譜相加中,將第二實(shí)部頻譜變?yōu)?.25倍后,與第一實(shí)部頻譜相加,將第二虛部頻譜變?yōu)?.25倍后,與第一虛部頻譜相加,分別得到第三實(shí)部頻譜及第三虛部頻譜。
接著,使用圖11及圖12來說明上述后處理方法。圖11是本實(shí)施例的后處理方法的具體處理的流程圖。
首先,在ST1101中,計(jì)算聽覺加權(quán)過的輸入信號(hào)(解碼語音信號(hào))的FFT對(duì)數(shù)振幅頻譜(WSAi)。
接著,在ST1102中,計(jì)算第一閾值Th1。Th1是將WSAi的平均值加上常數(shù)k1而得到的。k1的值根據(jù)經(jīng)驗(yàn)來決定,例如,在常用對(duì)數(shù)域中是大約0.4。設(shè)FFT點(diǎn)數(shù)為N,設(shè)FFT振幅頻譜為WSAi(i=1,2,...N),則WSAi以i=N/2和i=N/2+1為界對(duì)稱,所以如果計(jì)算N/2個(gè)WSAi的平均值,就能求出WSAi的平均值。
接著,在ST1103中,計(jì)算未進(jìn)行聽覺加權(quán)的輸入信號(hào)(解碼語音信號(hào))的FFT對(duì)數(shù)振幅頻譜(SAi)和FFT相位頻譜(SPi)。
接著,在ST1104中,計(jì)算頻譜變動(dòng)(Diff)。頻譜變動(dòng)是從當(dāng)前的FFT對(duì)數(shù)振幅頻譜(SAi)中減去過去判定為平穩(wěn)噪聲區(qū)間的區(qū)間中的平均FFT對(duì)數(shù)振幅頻譜(SSAi)所得的殘差頻譜的總和。本步驟中求的頻譜變動(dòng)Diff是用于判定當(dāng)前功率是否大于平穩(wěn)噪聲區(qū)間的平均功率的參數(shù),如果大于,則可以判斷為是存在與平穩(wěn)噪聲分量不同的信號(hào)的區(qū)間,不是平穩(wěn)噪聲區(qū)間。
接著,在ST1105中,檢查表示過去判定為平穩(wěn)噪聲區(qū)間的次數(shù)的計(jì)數(shù)器。在計(jì)數(shù)器的數(shù)目大于一定值、即判定為過去在某種程度上穩(wěn)定、是平穩(wěn)噪聲區(qū)間的情況下,進(jìn)至ST1107,在不是這樣的情況下,即不太能判定為過去是平穩(wěn)噪聲區(qū)間的情況下,進(jìn)至ST1106。ST1106和ST1107之間的差別是是否將頻譜變動(dòng)(Diff)用作判定基準(zhǔn)的差別。頻譜變動(dòng)(Diff)使用過去判定為平穩(wěn)噪聲區(qū)間的區(qū)間中的平均FFT對(duì)數(shù)振幅頻譜(SSAi)來計(jì)算。為了求這種平均FFT對(duì)數(shù)振幅頻譜(SSAi),需要過去某種程度足夠的時(shí)間長度的平穩(wěn)噪聲區(qū)間,所以設(shè)置ST1105,在過去沒有足夠的時(shí)間長度的平穩(wěn)噪聲區(qū)間的情況下,由于認(rèn)為噪聲區(qū)間的平均FFT對(duì)數(shù)振幅頻譜(SSAi)沒有被足夠平均化,所以進(jìn)至不使用頻譜變動(dòng)(Diff)的ST1106。計(jì)數(shù)器的初始值是0。
接著,在ST1106或ST1107中,判定是否是平穩(wěn)噪聲區(qū)間。在ST1106中,將語音解碼裝置中已經(jīng)決定的音源模式是平穩(wěn)噪聲區(qū)間模式的情況判定為平穩(wěn)噪聲區(qū)間,在ST1107中,將語音解碼裝置中已經(jīng)決定的音源模式是平穩(wěn)噪聲區(qū)間模式、而且ST1104中計(jì)算出的振幅頻譜變動(dòng)(Diff)小于閾值k3的情況判定為平穩(wěn)噪聲區(qū)間。在ST1106或ST1107中,在判定為是平穩(wěn)噪聲區(qū)間的情況下,進(jìn)至ST1108,而在判定為不是平穩(wěn)噪聲區(qū)間、即是語音區(qū)間的情況下,進(jìn)至ST1113。
在判定為是平穩(wěn)噪聲區(qū)間的情況下,接著,在ST1108中,進(jìn)行平滑化處理,用于求平穩(wěn)噪聲區(qū)間的平均FFT對(duì)數(shù)頻譜(SSAi)。在ST1108的式子中,β是表示0.0~1.0范圍內(nèi)的平滑化強(qiáng)度的常數(shù),在FFT點(diǎn)數(shù)是128點(diǎn)、處理單位時(shí)間是10ms(用80kHz采樣80點(diǎn))的情況下,可以大約使β=0.1。該平滑化處理對(duì)所有對(duì)數(shù)振幅頻譜(SAi,i=1,...N,N是FFT點(diǎn)數(shù))進(jìn)行。
接著,在ST1109中,進(jìn)行FFT對(duì)數(shù)振幅頻譜的平滑化處理,用于使平穩(wěn)噪聲區(qū)間的振幅頻譜的變動(dòng)變得平滑。該平滑化處理與ST1108的平滑化處理相同,但是不對(duì)所有對(duì)數(shù)振幅頻譜(SAi)進(jìn)行,而只對(duì)聽覺加權(quán)對(duì)數(shù)振幅頻譜(WSAi)小于閾值的頻率分量i進(jìn)行。ST1109的式子中的γ與ST1108中的β相同,可以是相同值。在ST1109中,得到部分平滑化過的對(duì)數(shù)振幅頻譜SSA2i。
接著,在ST1110中,進(jìn)行FFT相位頻譜的隨機(jī)化處理。該隨機(jī)化處理與ST1109的平滑化處理同樣,對(duì)頻率選擇性地進(jìn)行。即,與ST1109同樣,只對(duì)聽覺加權(quán)對(duì)數(shù)振幅頻譜(WSAi)小于閾值Th1的頻率分量i進(jìn)行。這里,Th1可以是與ST1109相同的值,但是也可以設(shè)定為調(diào)整得能得到更好的主觀品質(zhì)的不同的值。此外,ST1110中的random(i)是隨機(jī)生成的-2π~+2π范圍內(nèi)的數(shù)值。random(i)的生成也可以每次新生成隨機(jī)數(shù),但是在節(jié)約運(yùn)算量的情況下,將預(yù)先生成的隨機(jī)數(shù)保持在表內(nèi),在每個(gè)處理單位時(shí)間,能夠循環(huán)利用表的內(nèi)容。在此情況下,可以考慮原封不動(dòng)地利用表的內(nèi)容的情況、和將表的內(nèi)容加到原始FFT相位頻譜來使用的情況。
接著,在ST1111中,由FFT對(duì)數(shù)振幅頻譜和FFT相位頻譜來生成復(fù)數(shù)FFT頻譜。實(shí)部是將FFT對(duì)數(shù)振幅頻譜SSA2i從對(duì)數(shù)域返回到線性域后、乘以相位頻譜RSP2i的余弦來求的。虛部是將FFT對(duì)數(shù)振幅頻譜SSA2i從對(duì)數(shù)域返回到線性域后、乘以相位頻譜RSP2i的正弦來求的。
接著,在ST1112中,將判定為平穩(wěn)噪聲區(qū)間的區(qū)間的計(jì)數(shù)器增加1。
另一方面,在ST1106或1107中,在判定為語音區(qū)間(不是平穩(wěn)噪聲區(qū)間)的情況下,接著,在ST1113中,F(xiàn)FT對(duì)數(shù)振幅頻譜SAi被復(fù)制為平滑化對(duì)數(shù)頻譜SSA2i。即,不進(jìn)行對(duì)數(shù)振幅頻譜的平滑化處理。
接著,在ST1114中,進(jìn)行FFT相位頻譜的隨機(jī)化處理。該隨機(jī)化處理與ST1110的情況同樣,對(duì)頻率選擇性地進(jìn)行。其中,頻率選擇所用的閾值不是Th1,而使用將過去在ST1108中求的SSAi加上常數(shù)k4所得的值。該閾值相當(dāng)于圖6中的第二閾值Th2i。即,只對(duì)比平穩(wěn)噪聲區(qū)間中的平均振幅頻譜小的振幅頻譜的頻率分量進(jìn)行相位頻譜的隨機(jī)化。
接著,在ST1115中,由FFT對(duì)數(shù)振幅頻譜和FFT相位頻譜來生成復(fù)數(shù)FFT頻譜。實(shí)部如下來求將FFT對(duì)數(shù)振幅頻譜SSA2i從對(duì)數(shù)域返回到線性域后乘以相位頻譜RSP2i的余弦所得的值、加上將FFT對(duì)數(shù)振幅頻譜SSAi從對(duì)數(shù)域返回到線性域后乘以相位頻譜random2(i)的余弦并乘以常數(shù)k5所得的值。虛部如下來求將FFT對(duì)數(shù)振幅頻譜SSA2i從對(duì)數(shù)域返回到線性域后乘以相位頻譜RSP2i的正弦所得的值、加上將FFT對(duì)數(shù)振幅頻譜SSAi從對(duì)數(shù)域返回到線性域后乘以相位頻譜random2(i)的正弦并乘以常數(shù)k5所得的值。常數(shù)k5在0.0~1.0的范圍內(nèi),更具體地說,設(shè)定為大約0.25。k5也可以是自適應(yīng)控制的變量。通過疊加k5倍的平均平穩(wěn)噪聲,能夠提高語音區(qū)間中的背景平穩(wěn)噪聲的主觀品質(zhì)。random2(i)是與random(i)相同的隨機(jī)數(shù)。
接著,在ST1116中,進(jìn)行ST1111或1115中生成的復(fù)數(shù)FFT頻譜(Re(S2)i,Im(S2)i)的逆FFT,得到復(fù)數(shù)(Re(s2)i,Im(s2)i)。
最后,在ST1117中,將通過逆FFT得到的復(fù)數(shù)的實(shí)部Re(s2)i作為輸出信號(hào)來輸出。
根據(jù)本發(fā)明的多模式語音編碼裝置,使用第一編碼部的編碼結(jié)果來決定第二編碼部的編碼模式,所以不用附加表示模式的新信息,就能夠?qū)崿F(xiàn)第二編碼部的多模式化,能夠提高編碼性能。
根據(jù)該結(jié)構(gòu),模式切換部使用表示語音頻譜特性的量化參數(shù)進(jìn)行對(duì)驅(qū)動(dòng)音源進(jìn)行編碼的第二編碼部的模式切換,從而對(duì)表示頻譜特性的參數(shù)、和表示驅(qū)動(dòng)音源的參數(shù)獨(dú)立進(jìn)行編碼,在上述形態(tài)的語音編碼裝置中,不用增加新的傳輸信息,就能夠?qū)Ⅱ?qū)動(dòng)音源的編碼多模式化,能夠提高編碼性能。
在此情況下,模式切換使用動(dòng)態(tài)特征,從而能夠檢測平穩(wěn)噪聲部,所以通過驅(qū)動(dòng)音源編碼的多模式化,能夠改善對(duì)平穩(wěn)噪聲部的編碼性能。
此外,在此情況下,模式切換部使用量化LSP參數(shù)進(jìn)行對(duì)驅(qū)動(dòng)音源進(jìn)行編碼的處理部的模式切換,從而能夠簡單地適用于將LSP參數(shù)用作表示頻譜特性的參數(shù)的CELP方式,此外,能夠良好地判定用于使用頻域的參數(shù)、即LSP參數(shù)的頻譜的平穩(wěn)性,能夠改善對(duì)平穩(wěn)噪聲的編碼性能。
此外,在此情況下,在模式切換部中,使用過去及當(dāng)前的量化LSP參數(shù)來判定量化LSP的平穩(wěn)性,使用當(dāng)前的量化LSP來判定有聲性,根據(jù)這些判定結(jié)果進(jìn)行對(duì)驅(qū)動(dòng)音源進(jìn)行編碼的處理部的模式切換,從而能夠用平穩(wěn)噪聲部、無聲語音部和有聲語音部來切換進(jìn)行驅(qū)動(dòng)音源的編碼,通過準(zhǔn)備與各部對(duì)應(yīng)的驅(qū)動(dòng)音源的編碼模式,能夠改善編碼性能。
在本發(fā)明的語音解碼裝置中,能夠檢測解碼信號(hào)的功率急劇變大的情況,能夠應(yīng)付檢測上述語音區(qū)間的處理部發(fā)生檢測差錯(cuò)的情況。
此外,在本發(fā)明的語音解碼裝置中,通過使用動(dòng)態(tài)特征,能夠檢測平穩(wěn)噪聲部,所以通過驅(qū)動(dòng)音源編碼的多模式化,能夠改善對(duì)平穩(wěn)噪聲部的編碼性能。
如上所述,根據(jù)本發(fā)明,由于使用表示頻譜特性的參數(shù)的量化數(shù)據(jù)中的靜態(tài)及動(dòng)態(tài)特征進(jìn)行音源編碼及/或解碼后處理的模式切換,所以不用新傳輸模式信息,就能夠?qū)崿F(xiàn)音源編碼的多模式化。特別是由于除了有聲區(qū)間/無聲區(qū)間的判定之外,還能夠進(jìn)行語音區(qū)間/非語音區(qū)間的判定,所以能夠提供一種語音編碼裝置及語音解碼裝置,能夠進(jìn)一步提高多模式化對(duì)編碼性能的改善度。
本說明書基于1998年8月21日申請(qǐng)的特愿平10-236147號(hào)及1998年9月21日申請(qǐng)的特愿平10-266883號(hào),其內(nèi)容全部包含于此。
產(chǎn)業(yè)上的可利用性本發(fā)明能夠有效適用于數(shù)字無線通信系統(tǒng)中的通信終端裝置或基站裝置。
權(quán)利要求
1.一種多模式語音編碼裝置,包括第一編碼部件,對(duì)表示語音信號(hào)中包含的聲道信息的至少1種以上的參數(shù)進(jìn)行編碼;第二編碼部件,能夠用幾個(gè)模式對(duì)表示上述語音信號(hào)中包含的音源信息的至少1種以上的參數(shù)進(jìn)行編碼;模式切換部件,根據(jù)上述第一編碼部件編碼過的特定參數(shù)的動(dòng)態(tài)特征進(jìn)行上述第二編碼部件的模式切換;以及合成部件,通過上述第一、第二編碼部件編碼過的多種參數(shù)信息來合成輸入語音信號(hào)。
2.如權(quán)利要求1所述的多模式語音編碼裝置,其中,上述第二編碼部件由能夠用幾個(gè)編碼模式對(duì)驅(qū)動(dòng)音源進(jìn)行編碼的編碼部件構(gòu)成,上述模式切換部件使用表示語音頻譜特性的量化參數(shù)來切換上述第二編碼部件的編碼模式。
3.如權(quán)利要求2所述的多模式語音編碼裝置,其中,上述模式切換部件使用表示語音頻譜特性的量化參數(shù)的靜態(tài)特征及動(dòng)態(tài)特征來切換上述第二編碼部件的編碼模式。
4.如權(quán)利要求2所述的多模式語音編碼裝置,其中,上述模式切換部件使用量化LSP參數(shù),來切換上述第二編碼部件的編碼模式。
5.如權(quán)利要求4所述的多模式語音編碼裝置,其中,上述模式切換部件使用量化LSP參數(shù)的靜態(tài)及動(dòng)態(tài)特征,來切換上述第二編碼部件的編碼模式。
6.如權(quán)利要求4所述的多模式語音編碼裝置,其中,上述模式切換部件包括使用過去及當(dāng)前的量化LSP參數(shù)來判定量化LSP參數(shù)的平穩(wěn)性的部件、和使用當(dāng)前的量化LSP參數(shù)來判定有聲性的部件,根據(jù)上述判定結(jié)果來切換上述第二編碼部件的編碼模式。
7.一種多模式語音解碼裝置,包括第一解碼部件,對(duì)表示語音信號(hào)中包含的聲道信息的至少1種以上的參數(shù)進(jìn)行解碼;第二解碼部件,能夠用幾個(gè)編碼模式對(duì)表示上述語音信號(hào)中包含的音源信息的至少1種以上的參數(shù)進(jìn)行解碼;模式切換部件,根據(jù)上述第一解碼部件解碼過的特定參數(shù)的動(dòng)態(tài)特征進(jìn)行上述第二解碼部件的編碼模式切換;以及合成部件,通過上述第一、第二解碼部件解碼過的多種參數(shù)信息對(duì)語音信號(hào)進(jìn)行解碼。
8.如權(quán)利要求7所述的多模式語音解碼裝置,其中,上述第二解碼部件由能夠用幾個(gè)解碼模式對(duì)驅(qū)動(dòng)音源進(jìn)行解碼的解碼部件構(gòu)成,上述模式切換部件使用表示語音頻譜特性的量化參數(shù)來切換上述第二解碼部件的解碼模式
9.如權(quán)利要求8所述的多模式語音解碼裝置,其中,上述模式切換部件使用表示語音頻譜特性的量化參數(shù)的靜態(tài)特征及動(dòng)態(tài)特征來切換上述第二解碼部件的解碼模式。
10.如權(quán)利要求8所述的多模式語音解碼裝置,其中,上述模式切換部件使用量化LSP參數(shù),來切換上述第二解碼部件的解碼模式。
11.如權(quán)利要求10所述的多模式語音解碼裝置,其中,上述模式切換部件使用量化LSP參數(shù)的靜態(tài)及動(dòng)態(tài)特征,來切換上述第二解碼部件的解碼模式。
12.如權(quán)利要求10所述的多模式語音解碼裝置,其中,上述模式切換部件包括使用過去及當(dāng)前的量化LSP參數(shù)來判定量化LSP參數(shù)的乎穩(wěn)性的部件、和使用當(dāng)前的量化LSP參數(shù)來判定有聲性的部件,根據(jù)上述判定結(jié)果來切換上述第二解碼部件的解碼模式。
13.如權(quán)利要求7所述的多模式語音解碼裝置,其中,根據(jù)上述判定結(jié)果來切換對(duì)解碼信號(hào)的后處理。
14.一種量化LSP參數(shù)動(dòng)態(tài)特征提取器,包括計(jì)算量化LSP參數(shù)的幀間變化的部件;計(jì)算量化LSP參數(shù)平穩(wěn)的幀中的平均量化LSP參數(shù)的部件;以及計(jì)算上述平均量化LSP參數(shù)和當(dāng)前量化LSP參數(shù)之間距離的部件。
15.一種量化LSP參數(shù)靜態(tài)特征提取器,包括由量化LSP參數(shù)來計(jì)算線性預(yù)測殘差功率的部件;以及計(jì)算鄰接次數(shù)的量化LSP參數(shù)的間隔的部件。
16.一種多模式后處理器,包括判定部件,使用解碼LSP參數(shù)來判定是否是語音區(qū)間;FFT處理部件,進(jìn)行信號(hào)的快速付立葉變換處理;相位頻譜隨機(jī)化部件,按照上述判定部件的判定結(jié)果使上述快速付立葉變換處理所得的相位頻譜隨機(jī)化;振幅頻譜平滑化部件,按照上述判定結(jié)果使上述快速付立葉變換處理所得的振幅頻譜平滑化;以及IFFT處理部件,對(duì)上述相位頻譜隨機(jī)化部件隨機(jī)化過的相位頻譜、和上述振幅頻譜平滑化部件平滑化過的相位頻譜進(jìn)行逆快速付立葉變換處理。
17.如權(quán)利要求16所述的多模式后處理器,其中,在語音區(qū)間中使用過去的非語音區(qū)間中的平均振幅頻譜來決定隨機(jī)化的相位頻譜的頻率,而在非語音區(qū)間中使用聽覺加權(quán)域中的所有頻率的振幅頻譜的平均值來決定隨機(jī)化的相位頻譜、和平滑化的振幅頻譜的頻率。
18.如權(quán)利要求16所述的多模式后處理器,其中,在語音區(qū)間中疊加使用過去的非語音區(qū)間中的平均振幅頻譜而生成的噪聲。
19.一種語音信號(hào)發(fā)送裝置,包括語音輸入裝置,將語音信號(hào)變換為電信號(hào);A/D變換器,將從該語音輸入裝置輸出的信號(hào)變換為數(shù)字信號(hào);多模式語音編碼裝置,進(jìn)行從該A/D變換器輸出的數(shù)字信號(hào)的編碼;RF調(diào)制器,對(duì)從該多模式語音編碼裝置輸出的編碼信息進(jìn)行調(diào)制處理等;以及發(fā)送天線,將從該RF調(diào)制器輸出的信號(hào)變換為電波來發(fā)送,上述多模式語音編碼裝置包括第一編碼部件,對(duì)表示語音信號(hào)中包含的聲道信息的至少1種以上的參數(shù)進(jìn)行編碼;第二編碼部件,能夠用幾個(gè)模式對(duì)表示上述語音信號(hào)中包含的音源信息的至少1種以上的參數(shù)進(jìn)行編碼;模式切換部件,根據(jù)上述第一編碼部件編碼過的特定參數(shù)的動(dòng)態(tài)特征進(jìn)行上述第二編碼部件的模式切換;以及合成部件,通過上述第一、第二編碼部件編碼過的多種參數(shù)信息來合成輸入語音信號(hào)。
20.一種語音信號(hào)接收裝置,包括接收天線,接收接收電波;RF解調(diào)器,進(jìn)行該接收天線接收到的信號(hào)的解調(diào)處理;多模式語音解碼裝置,進(jìn)行該RF解調(diào)器所得的信息的解碼;D/A變換器,對(duì)該多模式語音解碼裝置解碼過的數(shù)字語音信號(hào)進(jìn)行D/A變換;以及語音輸出裝置,將該D/A變換器輸出的電信號(hào)變換為語音信號(hào),上述多模式語音解碼裝置包括第一解碼部件,對(duì)表示語音信號(hào)中包含的聲道信息的至少1種以上的參數(shù)進(jìn)行解碼;第二解碼部件,能夠用幾個(gè)編碼模式對(duì)表示上述語音信號(hào)中包含的音源信息的至少1種以上的參數(shù)進(jìn)行解碼;模式切換部件,根據(jù)上述第一解碼部件解碼過的特定參數(shù)的動(dòng)態(tài)特征進(jìn)行上述第二解碼部件的編碼模式切換;以及合成部件,通過上述第一、第二解碼部件解碼過的多種參數(shù)信息對(duì)語音信號(hào)進(jìn)行解碼。
21.一種機(jī)器可讀取的存儲(chǔ)媒體,記錄用于在計(jì)算機(jī)中執(zhí)行下述步驟的程序使用過去及當(dāng)前的量化LSP參數(shù)來判定量化LSP參數(shù)的平穩(wěn)性;使用當(dāng)前的量化LSP參數(shù)來判定有聲性;以及根據(jù)上述步驟判定的結(jié)果來切換對(duì)驅(qū)動(dòng)音源進(jìn)行編碼的步驟的模式切換。
22.一種機(jī)器可讀取的存儲(chǔ)媒體,記錄用于在計(jì)算機(jī)中執(zhí)行下述步驟的程序使用過去及當(dāng)前的量化LSP參數(shù)來判定量化LSP參數(shù)的平穩(wěn)性;使用當(dāng)前的量化LSP來判定有聲性;根據(jù)上述步驟判定的結(jié)果來切換對(duì)驅(qū)動(dòng)音源進(jìn)行解碼的步驟的模式切換;以及根據(jù)上述步驟判定的結(jié)果來切換對(duì)解碼信號(hào)的后處理步驟。
23.一種多模式語音編碼方法,使用表示語音頻譜特性的量化參數(shù)的靜態(tài)及動(dòng)態(tài)特征進(jìn)行對(duì)驅(qū)動(dòng)音源進(jìn)行編碼的模式的模式切換。
24.一種多模式語音解碼方法,使用表示語音頻譜特性的量化參數(shù)的靜態(tài)及動(dòng)態(tài)特征進(jìn)行對(duì)驅(qū)動(dòng)音源進(jìn)行解碼的模式的模式切換。
25.如權(quán)利要求24所述的多模式語音解碼方法,包括對(duì)解碼信號(hào)進(jìn)行后處理的步驟;以及根據(jù)模式信息進(jìn)行上述后處理步驟的切換的步驟。
26.一種量化LSP參數(shù)的動(dòng)態(tài)特征提取方法,包括計(jì)算量化LSP參數(shù)的幀間變化的步驟;計(jì)算量化LSP參數(shù)平穩(wěn)的幀中的平均量化LSP參數(shù)的步驟;以及計(jì)算上述平均量化LSP參數(shù)和當(dāng)前量化LSP參數(shù)之間距離的步驟。
27.一種量化LSP參數(shù)靜態(tài)特征提取方法,包括由量化LSP參數(shù)來計(jì)算線性預(yù)測殘差功率的步驟;以及計(jì)算鄰接次數(shù)的量化LSP參數(shù)的間隔的步驟。
28.一種多模式后處理方法,包括判定步驟,使用解碼LSP參數(shù)來判定是否是語音區(qū)間;FFT處理步驟,進(jìn)行信號(hào)的快速付立葉變換處理;相位頻譜隨機(jī)化步驟,按照上述判定步驟的判定結(jié)果使上述快速付立葉變換處理所得的相位頻譜隨機(jī)化;振幅頻譜平滑化步驟,按照上述判定結(jié)果使上述快速付立葉變換處理所得的振幅頻譜平滑化;以及IFFT處理步驟,對(duì)上述相位頻譜隨機(jī)化步驟中隨機(jī)化過的相位頻譜、和上述振幅頻譜平滑化步驟中平滑化過的相位頻譜進(jìn)行逆快速付立葉變換處理。
全文摘要
使用量化過的聲道參數(shù)的靜態(tài)及動(dòng)態(tài)特征用多模式對(duì)音源信息進(jìn)行編碼,在解碼器端也進(jìn)行多模式的后處理,從而改善無聲語音區(qū)間及平穩(wěn)噪聲區(qū)間的品質(zhì)。
文檔編號(hào)G10L19/14GK1275228SQ9980137
公開日2000年11月29日 申請(qǐng)日期1999年8月20日 優(yōu)先權(quán)日1998年8月21日
發(fā)明者江原宏幸 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社