專利名稱:綜合分析語音編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及綜合分析語音編碼。
申請公司已經(jīng)在歐洲專利應(yīng)用0195487,0347307和0469997中,特別描述了這個已開發(fā)出來的語言編碼器。
在綜合分析語音編碼器中,為了獲得模型化元音區(qū)的變換函數(shù)的一個短期綜合濾波器的系數(shù),執(zhí)行語音信號的線性預(yù)測。這個系數(shù)與表示一個激發(fā)的特性用于短期綜合濾波器的參數(shù)一起送到譯碼器。在大多數(shù)目前的編碼器中,為了表示考慮到語音的音調(diào)的一個長期綜合濾波器的特性,也查找語音信號的長期自相關(guān)數(shù)。當(dāng)這個信號是語音時(shí),這個激發(fā)實(shí)際上包含可以由過去激發(fā)表示,通過語言信號的TP取樣延遲并錄屬于一個增益gP的一個可預(yù)測成份。在譯碼器還要重新構(gòu)成這個具有一個形式為1/B(z)的轉(zhuǎn)換函數(shù)的長期綜合濾波器,其中B(z)=1-gPz-TP個激發(fā)的剩余不可預(yù)測部分稱為隨機(jī)激發(fā)。在已知的CELP(“激發(fā)編碼線性預(yù)測”)編碼器中,隨機(jī)激發(fā)包括一個預(yù)定字典中查找的一個矢量。在已知的MPLPC(“多脈沖線性預(yù)測編碼”)編碼器中,隨機(jī)激發(fā)包括數(shù)量的位置由編碼器查找由的脈沖。通常,CECP編碼器對低數(shù)據(jù)傳輸速率更適用,但它們比MPLPC編碼器執(zhí)行起來更復(fù)雜。
為了確定長期預(yù)測延遲,用到一個閉環(huán)分析,一個開環(huán)分析或者這兩者的組合。在計(jì)算總量的項(xiàng)目中不需要開環(huán)分析,但是限制了它的精確度。相反地,閉環(huán)分析要求更多的計(jì)算,當(dāng)它直接用于減小語音信號和綜合信號間感知加權(quán)差值時(shí)變得更可靠,在某些情況下,為了限制在閉環(huán)分析器內(nèi)部將要查尋預(yù)測延遲的間隔,首先,執(zhí)行一個開環(huán)分析。然而,由于考慮到這個延遲可能會很陡的,實(shí)際情況這個查尋間隔必須保持相對寬度。
本發(fā)明特別是針對在語音編碼器,求得在激發(fā)的長期部分的建模質(zhì)量和查找相應(yīng)延遲的復(fù)雜性之間的一個好的折衷方案。
這樣,本發(fā)明建議了一種綜合分析語音編碼方法,它用于把數(shù)字化成被分為nst子幀的連續(xù)幀的語音信號編碼,它包括下列幾步為確定一個短期綜合濾波器的參數(shù),進(jìn)行語音信號的線性預(yù)測分析,為了檢驗(yàn)信號的話音幀,并對每個話音幀確定信號的話音等級,和用于對一個長期預(yù)測延遲的一個查找間隔,執(zhí)行一個語音信號的開環(huán)分析;為了對至少一些話音幀的子幀,選擇包含在查尋間隔內(nèi)的一個長期預(yù)測延遲和長期綜合濾波器的構(gòu)成參數(shù),執(zhí)行語音信號的閉環(huán)預(yù)測分析;為每子幀確定一個隨機(jī)激發(fā),以便最小化在語音信號和由長期和短期綜合濾波器濾波的隨機(jī)激發(fā)之間的一個感知加權(quán)差別。在開環(huán)分析步驟中,確定與每個話音幀有關(guān)的查尋間隔,以便它包含一些依賴于上述幀的話音等級的延遲。
因此,在閉環(huán)模式中被測試的延遲量可以匹配到這個幀的話音模式。通常,查尋間隔的寬度對大多數(shù)話音幀將會更小,以便考慮它們更高的諧波的穩(wěn)定性。對這些高話音幀,在查尋間隔內(nèi)的延遲的差別定量可以保留一個位或更多位,保留的這個位或這些位可以再分配給感知的重要參數(shù),例如,長期預(yù)測增益,這些參數(shù)提高了語音財(cái)生的質(zhì)量。
參照附圖,本發(fā)明的其它的特征和優(yōu)點(diǎn)將在下列的優(yōu)選描述中得以體現(xiàn),但是并不限于示范性的實(shí)施例,其中-
圖1是實(shí)施本發(fā)明的一個加入語音編碼器的一個無線通信站的框圖;-圖2是可以接收一個由圖1的站產(chǎn)生了一個信號的一個無線通信站的框圖;-圖3到6是說明用于圖1的語音編碼器中的開環(huán)LTP分析的一個處理過程的流圖;-圖7是說明確定用在圖1的語音編碼器中的加權(quán)綜合濾波器的脈沖響應(yīng)的一個處理過程的一個流圖;-圖8到11是說明用在圖1的語音編碼器中對隨機(jī)激發(fā)查尋處理過程的流圖。
實(shí)施本發(fā)明的語音編碼器依賴一個數(shù)字壓縮技術(shù)可以適用于多種語音傳送類型和/或存儲系統(tǒng)。在圖1的例子中,語音編碼器16形成一個移動無線通信站的一個部分。語音信號S是以典型地等于8kHz的一個頻率取樣的數(shù)字信號。信號S是通過從一個送話器20接收經(jīng)過放大和濾波的輸出信號的一個模擬數(shù)字轉(zhuǎn)換器18的輸出信號。轉(zhuǎn)換器18把語音信號S變?yōu)樽陨肀辉俜譃?st取樣的nst子幀的連續(xù)幀的形式。一個20ms幀典型地包括以8kHz上16位的1st=40取樣的nst=4子幀。編碼器16的上游,語音信號S也可以用傳統(tǒng)的波形處理,如海明濾波。語音編碼器16以實(shí)際比語音信號S的速率低的一個數(shù)據(jù)速率傳送一個二進(jìn)制序列,并把這個序列運(yùn)用到一個信道編碼器22。信號編碼器22的功能是把冗余位引入這個信號,以便允許任何傳送誤差的檢測和/或校正。然后,調(diào)制器24把從信道編碼器22的輸出信號調(diào)制到一個載波頻率上,并把這個調(diào)制信號發(fā)送到空氣媒介上。
語音編碼器16是一個綜合分析編碼器。這個編碼器16一方面確定具有模型化揚(yáng)聲器有聲區(qū)的短期綜合濾波器的特征參數(shù),另一方面,運(yùn)用短期綜合濾波器的激發(fā)序列根據(jù)一個感知加權(quán)判別式,供給一個構(gòu)成語音信號S估計(jì)值的一個同步信號。
短期綜合濾波器具有一個公式為1/A(z)的傳遞函數(shù),其中A(z)=1-Σi=1qai.z-i]]>系數(shù)ai由用于語音信號S的短期線性預(yù)測分析的模塊26來確定。ai′s是語音信號s的線性預(yù)測的系數(shù)。線性預(yù)測的基數(shù)q典型地是基數(shù)10??梢杂捎糜诙唐诰€性預(yù)測的模塊26使用的方法已在語音編碼領(lǐng)域中熟知的。例如,模塊26實(shí)施Durbin-LevinS0n算法(見J.Maknoul“線性預(yù)測一個指導(dǎo)性的評論”,PROc,IEEE,63卷4號,1975年4月,P561-580頁)。獲取的系數(shù)ai提供給把它轉(zhuǎn)換成線狀譜參數(shù)(LSP)的模塊28。由LSP參數(shù)表示的預(yù)測參數(shù)ai被頻繁地用于綜合分析語音編碼器中。LSP參數(shù)是以降序的q數(shù)的cos(2πfi),這個q被歸一化為線狀譜頻率(LSF)f1(1≤i≤q),例如復(fù)數(shù)exp(2πjfi),其中i=1,3,…,g-1,q+1且fq+1=0.5,是由Q(z)=A(z)+z-(q+1)·A(Z-1)定義的多項(xiàng)式Q(z)的根,并且復(fù)數(shù)exp(2πjfi),i=0,2,4…,q且f0=0,是由Q*(z)=A(z)-z-(q+1)·A(z-1)定義的多項(xiàng)式Q*(z)的根。LSP參數(shù)可以由轉(zhuǎn)換模塊用契比雪夫多項(xiàng)式的傳統(tǒng)方法(見P·Kabal和R·R Ramachandran“利用契比雪夫多項(xiàng)式的線狀譜頻率的計(jì)算”,IEEE Trans Assp,34卷,6號1986年1419-1426頁)來獲得。它是由一個定量模塊30獲得的LSP參數(shù)的定量值,這些參數(shù)被送到譯碼器,以恢復(fù)短期綜合濾波器的系數(shù)ai。這個系數(shù)ai可以用給出的下式被簡單地恢復(fù)Q(z)=(1+z-1)Πi=1,3,…,q-1(1-2cos(2πfi)z-1+z-2)]]>Q*(z)=(1-z-1)Πi=2,4,…,q(1-2cos(2πfi)z-1+z-2)]]>and A(z)=[Qz)+Q*(z)]/2為避免短期綜合濾波器的傳遞函數(shù)發(fā)生突發(fā)變化,LSP參數(shù)在預(yù)測參數(shù)ai從它們被演繹出來之前插入。這個插入是在這個信號的每一幀的第一子幀上執(zhí)行的。例如,若LSPt和LSPt-1分別表示對幀t的子幀0,1,2,…,nst-1,Lspt(o)=0.5LSPt-1+0.5LSPt,LSPt(1)=0.25LSPt-1+0.75LSPt和LSPt(2)=…=LSPt(nst-1)=LSPt。然后,在插入的LSP參數(shù)的基礎(chǔ)上,逐子幀地確定1/A(z)濾波器的系數(shù)ai。
非定量LSP參數(shù)由模塊28供給用于計(jì)算一個感知加權(quán)濾波器34的系數(shù)的模塊32。感知加權(quán)濾波器34更好地具有一個公式W(z)=A(z/r1)/A(z/r2)的傳遞函數(shù),其中r1和r2是系數(shù),r1>r2>0(例如r1=0.9且r2=0.6)。感知加權(quán)濾波器的系數(shù)在從模塊28接收到LSP參數(shù)的插入之后,由模塊32為每子幀計(jì)算。
感知加權(quán)濾波器34為確定激發(fā)序列,接收誤音信號S并且傳送由模塊36,38,40分析的一個感知加權(quán)信號SW。短期濾波器的激發(fā)序列的組成有可以由模型化語音音調(diào)的一個長期綜合濾波器預(yù)測的一個激發(fā),以及一個非預(yù)測隨機(jī)激發(fā)或更新序列。
模塊36在開環(huán)中執(zhí)行一個長期預(yù)測(LTP),也就是說,它并不直接影響加權(quán)誤差的最小值。在此情況下,加權(quán)濾波器34放在開環(huán)分析模塊的上游,但它也可以用其他方法;模塊36可以用具有傳遞函數(shù)A(z)的濾波器去掉它的短期相關(guān),直接作用在語音信號S上,以至信號S上。另一方面,模塊38和40在閉環(huán)中操作,也就是說它們直接影響最小化感知加權(quán)誤差。
長期綜合濾波器具有一個公式1/B(z)的傳遞函數(shù),B(z)=1-gp·z-TP,其中,gp表示一個長期預(yù)測增益,TP表示一個長期預(yù)測延遲。長期預(yù)測延遲可以典型地取位于rmin和rmax取樣之間的N=256的值。分?jǐn)?shù)分解率被提供給延遲的最小值,以便避免在它們的話音頻率中有太感性的區(qū)別。例如,在rmin=21和33+5/6之間使用1/6的分解率,在34和47+2/3之間使用1/3的分解率,在48和88+1/2之間使用1/2的分解率,在89和rmax=142之間使用整數(shù)分解率。這樣,每個可能的延遲都由位于0和N-1=255之間的整數(shù)索引定量。
長期預(yù)測延遲用二個階段確定。在第一階段中,開環(huán)LTP分析模塊36檢驗(yàn)語音信號的話音幀,并且,為每個話音信號確定一個話音等級MV和對長期預(yù)測延遲的查尋間隔。一個話音幀的話音等級MV可以取三個值,1是用于低話音幀;2是用于中度話音幀;3是用于高話音幀。在下面所用的符號中,對非話音幀置話音等級MV=0。查尋間隔依靠話音等級MV,由一個中心值定義。這個中心值是由它的最化索引ZP和在量化索引域內(nèi)的寬度來表示的。對于輕度或中度話音幀(MV=1或2),查尋間隔的寬度N1索引,也就是說,若N1=32,則長期預(yù)測延遲的索引將在ZP-16和ZP+15之間查尋。對于高度話音幀(MV=3),查尋間隔的寬度是N3索引,也就是說,若N3=16,長期預(yù)測延遲的索引將在ZP-8和ZP+7之間查找。
一旦模塊36已確定了一個幀的話音等級MV,模塊30就執(zhí)行前面為此幀確定的LSP參數(shù)的定量。例如,這個定量是垂直的,也就是說它從一個或多個預(yù)測定量表中,選擇展示與由模塊28提供的LSP參數(shù)集合的一個最小距離的定量參數(shù)LSPQ的一個集合。用一種已知的方法,定量表依據(jù)由開環(huán)分析器36提供給定量模塊30的話音等級MV而變化。在事先試驗(yàn)期間,確定話音等級MV的定量表的一個集合,以便靜態(tài)地表示具有這個等級MV的幀。這些集合被保存在實(shí)施本發(fā)明的編碼器和解碼器中。模塊30和在可運(yùn)用的定量表中的索引Q-一起發(fā)送定量參數(shù)LSPQ的集合。
語音編碼器16還包括用于計(jì)算短期綜合濾波器和感知加權(quán)濾波器的合成濾波器的脈沖響應(yīng)的一個模塊42。這個合成濾波器具有傳遞函數(shù)W(z)/A(z)。為在一個子幀期間,計(jì)算它的脈沖響應(yīng)h=(h(0),h(1),…,h(1st-1)],模塊42為感知加權(quán)濾波器W(z),取值相應(yīng)的插入但非定量LSP參數(shù),也就是說,系數(shù)已由模塊32計(jì)算的參數(shù),并且,對于合成濾波器1/A(z),模塊42取值相應(yīng)的定量并插入的LSP參數(shù),也就是說,它實(shí)際上是由譯碼器重新構(gòu)成的一個參數(shù)。
在確定長期預(yù)測延遲TP的第二階段中,閉環(huán)LTP分析模塊38為話音幀(MV=1,2或3)的每個幀確定延遲TP。延遲TP由在定量索引域中一個差分值DP特征化,這個索引若在MV=1或2(N1=32)時(shí),以5位編碼,若在MV=3(N3=16)時(shí),以4位編碼。延遲索引等于ZP+DP。用一種已知的方法,閉環(huán)LTP分析在對長期預(yù)測延遲T的查尋間隔中確定延遲TP,延遲TP對每個話音幀的子幀的最大歸一化的相關(guān)式[Σi=0lst-1X(i).YT(i)]2Σi=0lst-1[YT(i)]2]]>其中,X(i)表示從加權(quán)綜合濾波器的內(nèi)存中已經(jīng)減去的子幀的加權(quán)語音信號SW(也就是說,由于它的初始狀態(tài),已由模塊42計(jì)算它們的脈沖響應(yīng)h的濾波器的零信號的響應(yīng))。并且,YT(i)表示卷積結(jié)果YT(i)=u(i-T)*h(i)=Σj=0iu(j-T).h(i-j)----(1)]]>用自適應(yīng)于碼本的已知技術(shù)估計(jì),U(j-T)表示由T取樣的延遲激發(fā)序列的可預(yù)測成份。對于比子幀的長度短的延遲T,U(j-T)的遺失值可以從前面的值推斷出來。通過重新取樣在自適應(yīng)號碼本中的信號U(j-T),考慮分?jǐn)?shù)延遲。用插入多脈沖濾波器的方法,獲取由系數(shù)m的再次取樣。
通過使已知公式gp=Σi=0lst-1X(i).YTP(i)Σj=0lst-1[YTP(i)]2]]>通過模塊38可以為每個子幀確定長期預(yù)測增益gp。但是,在本發(fā)明的優(yōu)選方案中,由隨機(jī)分析模塊40和計(jì)算增益gp。
由模塊40為每個子幀確定的隨機(jī)激發(fā)是多脈沖類型的。1st取樣的一個更新序列包括具有位置p(n)和振幅g(n)的np脈沖。用另一種方法,脈沖具有一個1的振幅,并且被分配給相應(yīng)的增益g(n)。對于非話音幀的子幀,沒有確定給定的LTP延遲,可為與這些子幀有關(guān)的隨機(jī)延遲,取比較高的脈沖的量。例如,若MV=1,2,或3,則np=5;若MV=0,則np=6。通過模塊44定量由隨機(jī)分析模塊40計(jì)算的位置和增益。
一個位排序模塊46接收用于譯碼器的多種參數(shù),并且編譯傳送給信道編碼器22的二進(jìn)制序列。這些參數(shù)是-為每個幀定量的LSP參數(shù)的索引Q;-每幀的話音等級MV;-每個話音幀的LTP延遲查尋間隔的中心的索引ZP;-對話音幀的每個子幀的LTP延遲和相應(yīng)的增益gp之間的差分索引DP;-對每個子幀的隨機(jī)激發(fā)的脈沖的位置p(n)和增益g(n)。這些參數(shù)中的一部分在話音再生質(zhì)量上特別重要或者對傳輸誤差特別敏感。因此,在編碼器中提供模塊48,這個模塊接收許多參數(shù)并把冗余位增加到它們中的一些位,這使檢測和/或校正任何傳輸誤差成為可能。例如,作為以2位編碼的話音等級是一個關(guān)鍵性的參數(shù),它需要以盡可能少的誤差到達(dá)譯碼器。由于那些原因,模塊48把冗余位增加到這些參數(shù)中。例如,可以把奇偶位加到這兩個MV編碼位并且再把獲得的三位重復(fù)一次。冗余位的例子可能檢測所有單個或成雙的誤差,并且校正所有的單個誤差和75%的成雙誤差。
例如,每20ms幀的二進(jìn)制數(shù)據(jù)速率的分配如表I所示。
在這里考慮的例子,信道編碼器22是用于移動無線通信的泛歐洲系統(tǒng)(GSM)中的編碼器。這個在GSM建議0503中詳細(xì)描述的信道編碼器也是為每20ms幀產(chǎn)生260位的RPE-LTP型13kbit/s語音編碼器開發(fā)的。在監(jiān)聽測試的基礎(chǔ)上,已經(jīng)確定了每個260位的敏感度。由信源編碼器輸出的位被分為三種類別。這些類別的第一種IA把50位分為一組,在把一個強(qiáng)制長度為5的一半冗余位給生成器多項(xiàng)式的基礎(chǔ)上,這50位是用卷積編碼的。在卷積編碼之前,計(jì)算第三個奇偶位并把它們增加到類別IA的50位中。第二個類別IB共計(jì)132位,用與前面類別相同的多項(xiàng)式,把132位保護(hù)為一半的水平。第三個分類(II)包含78個兆保護(hù)位。在卷積編碼應(yīng)用之后,這個位(每幀456)用于隔行掃描,實(shí)施本發(fā)明的新的信源編碼器的排序模塊46在這些位主觀重要性的基礎(chǔ)上,把這些位分為三類。
表I
能夠接收由信源編碼器16處理的語音信號的一個移動無線通信站在圖2中用圖解表示。
接收的無線信號是通過解調(diào)器50,然后再由信道譯碼器52處理的所有信號中的第一個,譯碼器52執(zhí)行調(diào)制器24和信道編碼器22的信號的雙工操作。信道譯碼器52把一個二進(jìn)制序列提供給語音譯碼器54,這個二進(jìn)制序列在無傳輸誤差或所有誤差已由信道譯碼器校正時(shí),對應(yīng)排序模塊46在編碼器16上發(fā)送的二進(jìn)制序列。譯碼器54由接收這個二進(jìn)制序列并標(biāo)識與不同幀和子幀相關(guān)的參數(shù)的一個模塊56組成。模塊56也執(zhí)行在接收參數(shù)上的大量檢驗(yàn)。特別是,為檢驗(yàn)和/或校正影響對應(yīng)這些冗余位的參數(shù)的誤差,模塊56檢查由編碼器的模塊48插入的冗余位。
對于被綜合的每個語音幀,譯碼器的模塊58接收話音等級MV和LSP參數(shù)的定量索引。模塊58從對應(yīng)MV值的表中恢復(fù)定量的LSP參數(shù),并且在插入之后,把它們轉(zhuǎn)換成用于短期綜合濾波器60的系數(shù)ai。對于每個要被綜合的語音子幀,脈沖生成器62接收隨機(jī)激發(fā)的np脈沖的位置p(n)。生成器62發(fā)送每個都以相應(yīng)的增益g(n)以64多路復(fù)用的單位振幅的脈沖。放大器64的輸出用于長期綜合濾波器66。這個濾波器66具有自適應(yīng)的碼本結(jié)構(gòu)。濾波器66的輸出取樣U被存放在自適應(yīng)的碼本的存儲器中,以便為后續(xù)子幀通用,與由定量索引ZP和DP計(jì)算的子幀有關(guān)的延遲TP提供給自適應(yīng)碼本68,以產(chǎn)生適當(dāng)?shù)匮舆t的信號U。放大器10多路復(fù)用由長期預(yù)測增益gp延遲的信號。這個長期濾波器66還包括一個加法器72,它把放大器64和70的輸出相加供給一個激發(fā)序列U。當(dāng)在編碼器中不執(zhí)行LTP分析時(shí),例如當(dāng)MV=0時(shí),在用于相應(yīng)子幀的放大器70上施加一個零預(yù)測增益。為了形成綜合語音信號S′,激發(fā)序列運(yùn)用了短期綜合濾波器60,另外,用一種已知的方法可以更進(jìn)一步使這個結(jié)果信號提交給后置濾波器74,這個濾波器的系數(shù)依賴接收的綜合參數(shù)。然后,在為了驅(qū)動揚(yáng)聲器78而被放大之前,由轉(zhuǎn)換器76把譯碼器54的輸出信號S′轉(zhuǎn)換成模擬的。
參照圖3,將描述根據(jù)本發(fā)明的第一個觀點(diǎn),由編碼器的模塊36實(shí)施的開環(huán)LTP分析處理過程。
在第一個階段90中,對當(dāng)前幀的每個子幀st=0,1,…,nst-1,模塊36計(jì)算并存儲對位于rmin和rmax之間的整數(shù)延遲K的加權(quán)語音信號SW的自相關(guān)數(shù)GST(k)和延遲能量Gst(k)Cst(k)=Σi=st.lst(st+1).lst-1SW(i).SW(i-k)]]>Gst(k)=Σi=st.lst(st+1).lst-1[SW(i-k)]2]]>每個子幀的能量R0st也可被算為R0st=Σi=st.lst(st+1).lst-1[SW(i)]2]]>在階段90中,在排除了自相關(guān)Cst(k)為負(fù)或比子幀的能量R0st的一個小的分?jǐn)?shù)ε更小的那些延遲K,模塊36另外為每個子幀確定在子幀st上的長期預(yù)測增益的最大開環(huán)估計(jì)值Pst(k)的整數(shù)延遲Kst。以分貝為單位表示的這個估計(jì)值Pst(k)為Pst(k)=20.log10[R0st/(R0st-Cst2(k)/Gst(k))]這樣,最大化Pst(k)相當(dāng)于最大化如圖6所示的表達(dá)式Xst(k)=Cst2(k)/Gst(k)。整數(shù)延遲Kst是以子幀的整數(shù)分解率的基本延遲。階段90之后是當(dāng)前幀上的全局預(yù)測增益的第一的開環(huán)估計(jì)值和典型地位于1和2分貝的預(yù)定的門限值S0之間的一個比較92(例如,S0=1.5dB)。全局預(yù)測增益的第一個估計(jì)值等于20.log10[R0/[R0-Σst=0nst-1Xst(Kst)]]]]>其中,R0是幀(R0=R00+R01+…+R0nst-1)的總能量,并且Xst(Kst)=Cst2(Kst)/Gst(Kst)表示在與子幀st有關(guān)的階段90確定的最大值。如圖6表示,不需計(jì)算的這個算法可以執(zhí)行比較92。
如果比較92表示預(yù)測增益的第一估計(jì)量低于門限S0,認(rèn)為語音信號包含了太少的話音的長期相關(guān)數(shù),并當(dāng)前幀的話音等級MV在階段94被置為0,在此情況下,階段94終止由模塊36執(zhí)行的在此幀的操作。與此對照,如果在階段92超過門限S0,那么把當(dāng)前檢測為話音和它的等級MV將等于1,2或3。然后,為每個子幀模塊36計(jì)算一個包含候選延遲的表Ist,以構(gòu)成對長期預(yù)測延遲的查尋間隔的中心ZP。
由模塊36為話音幀的每個幀st(st在階段96初始化為0)執(zhí)行操作,以用分貝為單位從一個選擇門限SEst的判定98開始,這個選擇門限SEst等于在此子幀上以分貝為單位的預(yù)測增益的估計(jì)值Pst(Kst)的一個定義分?jǐn)?shù)β,并在階段90被最大化(典型地β=0.75)。對一個話音幀的每個子幀st,模塊36確定用剩余處理過程的整數(shù)分解率的基本延遲rbf。這個基本延遲可置為在階段90獲得的整數(shù)Kst。然而,查尋以在Kst附近的分?jǐn)?shù)分解率的基本間隔的事實(shí)可能依賴精度而獲得。這樣,階段100在于在階段90獲取的整數(shù)延遲Kst附近,查尋表達(dá)式Cst2/Gst的最大值的分?jǐn)?shù)延遲。即使整數(shù)延遲Kst不在這個最大值分解率使用的域中,這個查尋也可以以分?jǐn)?shù)延遲(在這里描述的例子中為1/6)被執(zhí)行。例如,對-6<δ<+6,確定Cst2(Kst+δ/6)/Gst(Kst+δ/6)最大值的數(shù)Δst,然后以最大分解率的基本延遲被置為Kst+Δst/6。對于延遲的分?jǐn)?shù)值T,通過從用于整數(shù)延遲的階段90中存貯在存儲器的值中插入,獲取自相關(guān)數(shù)Cst(T)和延遲能量Gst(T)。更清楚地,與子幀相關(guān)的基本延遲也可以用來自階段90的分?jǐn)?shù)分解率來確定,并且在此幀上的全局預(yù)測增益的第一估計(jì)值中考慮。
一旦基本延遲rbf已為一個子幀確定了,檢查101就執(zhí)行這個延遲的子多路復(fù)用,以便采用預(yù)測增益相對高的子多路復(fù)用(圖4),然后,檢查101再對采用的最小子多路復(fù)用的多路復(fù)用實(shí)施檢查(圖5)。在階段102,在表Ist中的地址j和子多路復(fù)用索引m被分別初始為0和1。一個比較104可以在子多路復(fù)用rbf/m和最小延遲rmin之間執(zhí)行。子多路復(fù)用rbf/m需要被檢查,看其是否比rmin高。然后,與rbf/m接近的定量延遲的索引值(階段106)被置為整數(shù)i,然后,在108中,對應(yīng)討論的子幀的定量延遲ri的預(yù)測增益Pst(ri)的估計(jì)值與在階段98中計(jì)算的選擇門限SEst相比較Pst(ri)=20.log10[R0st/(R0st-Cst2(ri)/Gst(ri))]其中,在分?jǐn)?shù)延遲的情況下,值Cst和Gst的一個插入在階段90為整數(shù)延遲計(jì)算。若Pst(ri)<SEst,是延遲ri不被考慮,并且在再次為下列子多路復(fù)用執(zhí)行比較104之前,直接進(jìn)入增加索引m的階段110。若測試108表示Pst(ri)≥SEst,則在階段110增大索引m之前,采用延遲ri和執(zhí)行階段112。在階段112,把索引i以表Ist中地址j存貯在存儲器中,把值m置為企圖等于采用最小子多路復(fù)用的索引的整數(shù)mo,然后,地址j增大一個單元。
當(dāng)比較104顯示rbf/m<rmin時(shí),終止基本延遲的子多路復(fù)用的檢查。然后,在圖5中說明的處理過程之后,檢查那些延遲是否為前面采用的子多路復(fù)用的最小rbf/mo的多路復(fù)用。這個已查以多路復(fù)用的索引n的初始化114N=2開始。在多路復(fù)用nrbf/mo和最大延遲rmax之間執(zhí)行一個比較116。如果n·rbf/m0>Rmax,為了確定最小子多路復(fù)用的索引m0是否是一個為n的整數(shù)多路復(fù)用執(zhí)行測試118。如果是n的整數(shù)多路復(fù)用,那么在rbf的子多路復(fù)用的檢查期間,已經(jīng)檢查了延遲n·rbf/m0,并且在再次執(zhí)行用于下一次多路復(fù)用的比較116之前,為增大索引n直接進(jìn)入階段120。如果測試118顯示的m0不是一個n的整數(shù)多路復(fù)用,那么需要檢查多路復(fù)用n·rbf/m0。與n·rbf/m0最接近的n·rbf/m0(階段122)的定量延遲ri的索引值取值為整數(shù)i,然后,在124,預(yù)測增益Pst(ri)的估計(jì)值與選擇門限SEst相比較。如果Pst(ri)<SEst,那么不考慮延遲ri,直接進(jìn)入增大索引n的階段120。若測試124顯示rst(ri)≥SEst,則采用延遲ri,并在階段120上增大索引n之前執(zhí)行階段126。在階段126,把索引i以表Ist的地址,存貯在存儲器中,然后,地址j被增大一個單元。
當(dāng)比較116顯示n·rbf/m0>rmax時(shí),終止最小子多路復(fù)用的多路復(fù)用的檢測。在那個點(diǎn)上,表Ist包含侯選延遲的j索引。如果對下一階段需要把表Ist的最大長度限制為jmax,那么這個表的長度jst可以置為min(j,jmax)(階段128),然后,在階段130,這個表Ist可以被劃分為增益Cst2(r1st(j)/Gst2(rist(j))的降序排列,以便僅保存產(chǎn)生增益最大值的jst延遲。在查尋LTP延遲的有效性和這次查尋的復(fù)雜性間折衷的基礎(chǔ)上選擇jmax值。imax值的范圍從3到5。
一旦已經(jīng)檢測子多路復(fù)用和多路復(fù)用并且已經(jīng)獲得這樣的表Ist(圖3),分析模塊36就計(jì)算一個量Ymax,Ymax確定一個在全幀上的長期預(yù)測增益的一個第二開環(huán)估計(jì)值和一個階段132中的索引ZP、ZP0和ZP1,這個過程詳見圖6。階段132在于測試長度N1的查尋間隔,來確定具有此幀上全部預(yù)測增益的一個第二估計(jì)值的最大值的間隔。這個測試的間隔是中心為包含在階段101期間計(jì)算的表Ist中的侯選延遲的間隔。階段132從在表Ist中的地址被初始化為0開始一個階段136。在階段138中檢驗(yàn)索引Ist(j),看其是否已遇到了測試中心在Ist′(j′),st′<st且0≤j′≤jst′的一個前面的間隔,以便避免兩次測試同樣的間隔。如果測試顯示Ist(j)已經(jīng)在表Ist中了,st′<st,在階段140中直接增大地址j,然后,它與表Ist的長度jst相比較。若比較142顯示j<jst,對地址j的新值重新進(jìn)入階段138。當(dāng)比較顯示j=j(luò)st時(shí),則已經(jīng)測試了與表Ist相關(guān)的所有間隔并且終止階段132。當(dāng)測試138為負(fù)時(shí),從階段148開始,測試中心在Ist(j)的間隔。在階段148中,對每個子幀st′確定最大延遲的索引ist′,在這個間隔上,上述最佳延遲取長期預(yù)測增益的開環(huán)估計(jì)值Pst(ri)的最大值,也就是說,取量Yst′(i)=C′st2(ri)/Gst′(ri)的最大值,其中,ri表示索引i的定量延遲,Ist(j)-N1/2≤i<Ist(j)+N1/2,且0≤i<N。在與一個子幀st′相關(guān)的最大化148期間,為避免降低編碼,對自相關(guān)數(shù)Cst′(ri)為負(fù)推出結(jié)果的那些索引i被放在一旁。如果發(fā)現(xiàn)位于測試間隔[I(j)-N1/2,I(j)+N1/2]內(nèi)的所有i值產(chǎn)生負(fù)的自相關(guān)數(shù)Cst′(ri),那么選擇這個自相關(guān)數(shù)在絕對值上最小的索引ist′。接著在150根據(jù)Y=Σst′=0nst-1Yst′(ist′)]]>計(jì)算中心確定在Ist(j)的間隔的全局預(yù)測增益的第二估計(jì)值的量Y,然后,將其與Ymax相比較,其中,Ymax表示最大化的值。例如,在與階段96的索引st相同的時(shí)間,把這個值Ymax初始化為0。若Y≤Ymax,則直接進(jìn)入增大索引j的階段140。若比較150顯示Y>Ymax,則在階段140中增大地址j之前執(zhí)行階段152。在這個階段152,索引ZP被置為Ist(j)并且索引ZP0和ZP1被分別置為在階段148中確定的索引ist′的最小和最大值。
在與一個子幀st相關(guān)的階段132的結(jié)束,索引st被增大一個單元(階段154),然后,在階段156與每幀的子幀的量nst相比較。若st<nst,重新進(jìn)入階段98,以便執(zhí)行與下一個子幀相關(guān)的操作。當(dāng)比較156顯示st=nst時(shí),索引ZP表示提供給閉環(huán)LTP分析模塊38的查尋間隔的中心,ZP0和ZP1是索引,它們間的差別是在ZP中心的間隔中,每子幀的最佳延遲是分散的表示式。
在階段158,模塊36以分貝為單位,在用GP=20·log10(R0/R0-Ymax)表示的增益的第二開環(huán)估計(jì)值的基礎(chǔ)上,確定話音等級MV。使用另外兩個門限S1和S2。若GP≤S1,話音等級MV對當(dāng)前幀置為1。門限S1典型地位于3和5dB之間,例如,S1=4dB。若S1<GP<S2,則話音等級MV對當(dāng)前幀置為2。門限S2典型地位于5和8dB之間,例如,S2=7dB。若GP>S2,則檢驗(yàn)對當(dāng)前幀的不同子幀的最優(yōu)延遲中的分?jǐn)?shù)。若ZP1-ZP<N3/2和ZP-ZP0≤N3/2,則在ZP中心的長度N3的一個間隔是以考慮所有的最優(yōu)延遲,且話音等級被置為3(若GP>S2)。否則,若ZP-ZP≥N3/2或ZP-ZP0>N3/2,則話音等級被置為2(若GP>S2)。
對一個話音幀的預(yù)測延遲的查尋間隔的心的索引ZP可以位于0和N-1=255之間,若MV=1或2,則為模塊38確定的差分索引DP的范圍從-16到+15,并且若MV=3,則它的范圍從-8到+7(N1=32,N3=16的情況)。因此,在某些情況下,最終確定的延遲TP的索引ZP+DP可以比0小或比255大。這允許閉環(huán)LTP分析范圍在比rmin小或比rmax大的幾個延遲TP上。這樣,增強(qiáng)了稱為通路邏輯(Pathological)話音和無話音信號的再生的客觀質(zhì)量(由交換電話網(wǎng)使用DMTF話音頻率或信號頻率)。另一種可能性是對每個查尋間隔,若ZP<16或ZP>240,且MV=1或2,則取延遲的第一個或最后一個32個定量索引,若ZP<8或ZP>248,且MV=3,則取第一個或最后一個16個索引。
對高話音幀減少延遲查尋間隔的事實(shí)(典型地用對MV=3取16個值代替對MV=1或2的取32個),它通過減少根據(jù)公式(1)計(jì)算的卷積YT(i)量,可能減小由模塊38執(zhí)行的閉環(huán)LTP分析的復(fù)雜性。另一個優(yōu)點(diǎn)是保存差分索引DP的一個編碼位。當(dāng)輸出的數(shù)據(jù)速率為常數(shù)時(shí),這個位可被重新分配給其它參數(shù)編碼。特別是,可以分配給這個補(bǔ)充位,用來定量由模塊40計(jì)算的長期預(yù)測增益gp。實(shí)際上,依賴一個附加的定量位的增益gp上的一個比較高的精度是可以感知的,因?yàn)檫@個參數(shù)對一個比較高話音幀(MV=3)來說具有感知的重要性。另一種可能是為延遲TP和/或增益gp提供一個奇偶檢驗(yàn)位,使它有可能檢驗(yàn)出影響這些參數(shù)的任何誤差。
參照圖3到6,對上面描述的開環(huán)LTP分析過程可以做一些修改。
根據(jù)這個過程的第一個變化,在與不同子幀相關(guān)的階段90中執(zhí)行的第一最佳化由一個覆蓋全幀的單獨(dú)最優(yōu)化所替代。除了對每子幀st計(jì)算的參數(shù)Cst(k)和Gst(k)之外,也為整個幀計(jì)算自相關(guān)數(shù)c(k)和延遲能量G(k)C(k)=Σst=0nst-1Cst(k)]]>G(k)=Σst=0nst-1Gst(k)]]>然后,以取X(k)=C2(k)/G(k),rmin≤k≤rmax的最大值的整數(shù)分解率K,確定基本延遲。在階段92的S0上比較增益的第一估計(jì)值,而且被置為P(k)=20·log10[R0/[R0-X(k)]]。接著一個單獨(dú)基本延遲以分?jǐn)?shù)分解率rbf在K附近確定,并再次執(zhí)行多路復(fù)用和子多路復(fù)用的檢查101,這個檢查產(chǎn)生代替nst表Ist的一個單獨(dú)表I。然后,對這個表I在一個單獨(dú)時(shí)間內(nèi)執(zhí)行階段132,它僅在階段148,150和152識別子幀。這個變化的實(shí)施例具有減少開環(huán)分析復(fù)雜性的優(yōu)點(diǎn)。
根據(jù)開環(huán)LTP分析處理過程的第二變化,可能的延遲域[rmin,rmax]被再分為nz子間隔,例如,這些子間隔具有同樣的長度(典型的nz=3),在與不同子幀有關(guān)的階段90執(zhí)行的第一最優(yōu)化由在每個都覆蓋全幀的不同子間隔內(nèi)的nz最優(yōu)化所代替。這樣,nz基本延遲K1′,…,Knz′是以整數(shù)分解率獲取的。在產(chǎn)生長期預(yù)測增益的第一開環(huán)估計(jì)值的最大值的基本延遲Ki′之一的基礎(chǔ)上,進(jìn)行話音/非話音判決(階段92)。接著的是若此幀為話音,則基本延遲由在階段100中相同的處理過程以分?jǐn)?shù)分解率確定,但僅允許延遲的定量值。不執(zhí)行子多路復(fù)用和多路復(fù)用的檢驗(yàn)101。對于預(yù)測增益的第二估計(jì)值計(jì)算的階段132,前面確定的nz基本延遲被置為侯選延遲。這個第二變化可能無需子多路復(fù)用和多路復(fù)用的有規(guī)則的檢查,通??紤]到這些子多路復(fù)用和多路復(fù)用可能延遲域的再劃分。
根據(jù)開環(huán)LTP分析處理過程的第三變化,這是因?yàn)樵谧顑?yōu)化階段148中修改階段132,另一方面,確定對Ist(j)-N1/2≤i<Ist(j)+N1/2且0≤i<N,索引ist′是否取Cst′2(ri)/Gst′(r2)的最大值,并且在另一方面,在同樣的最大化環(huán)路過程中,確定索引Kst′為取在一個減小的間隔Ist(j)-N3/2≤i<Ist(j)+N3/2,且0≤i<N上的這個相同量的最大值。階段152也修改為索引ZP0和ZP1不再較長久地存貯在存儲器中,而用與Ymax相同的方法,參照減少的長度間隔的方法定義,一個量Ymax′為Ymax′=Σst′=0nst-1Yst′(kst′)]]>在這個第三變化中,話音模式的確定158更常常導(dǎo)致話音等級MV=3被選中。除了在前面描述的增益Gp之外,根據(jù)Y′maxGp′=20.log10[R0/(R0-Ymax′)],考慮LTP增益Gp的第三開環(huán)估計(jì)值。若Gp≤S1,則話音等級為MV=1,若Gp′>S2,則MV=3,若這兩個條件都滿足,則MV=2。通過增加話音等級MV=3的幀的比例,減少閉環(huán)分析的平均復(fù)雜性并且增強(qiáng)了傳輸誤差的抵抗性。
閉環(huán)LTP分析處理過程的第四個變化特別涉及到輕度話音幀(MV=1)。這些幀經(jīng)常對應(yīng)話音區(qū)的一個開始和一個結(jié)束。這些幀常??梢园L期綜合濾波器的增益系數(shù)為零乃至為負(fù)的從一到三個子幀。建議不對討論的子幀執(zhí)行閉環(huán)LTP分析,以便減少編碼的平均復(fù)雜性。在圖6的階段152中,通過把nst指針存貯在存儲器中來執(zhí)行上述過程,nst指針為每個子幀st′指示對應(yīng)索引ist′的延遲的自相關(guān)數(shù)Cst′是為負(fù)的還是更小。一但所有的間隔都已在表Ist中引用了,就可以通過查找nst指針標(biāo)識預(yù)測增益為負(fù)或可忽略不計(jì)。若適當(dāng),則對相應(yīng)的子幀使模塊38無效。因?yàn)閷?yīng)這些子幀的預(yù)測增益將在任何情況下實(shí)際為零,這并不影響LTP分析的質(zhì)量。
本發(fā)明的另一個方面是關(guān)于計(jì)算加權(quán)綜合濾波器的脈沖響應(yīng)的模塊42。為了計(jì)算根據(jù)公式(1)的卷積1/T(i),閉環(huán)LTP分析模塊38在一個子幀期間需要這個脈沖響應(yīng)h。為了計(jì)算后面所示的卷積,隨機(jī)分析模塊40也需要它。需要計(jì)算與在一個子幀(典型的1st=40)期間擴(kuò)展的一個響應(yīng)h的卷積的實(shí)際包含有編碼的相對復(fù)雜性,這些是需要減小的,特別是為了增大移動站的壽命。在某種情況下,已經(jīng)建議把脈沖響應(yīng)長度縮短到小于一個子幀長度(如,20個采樣),但是這可能會降低了編碼的質(zhì)量。根據(jù)本發(fā)明,建議通過一方面考慮這個響應(yīng)的能量分配,另一方面,考慮討論中這個幀的話音等級MV,縮短由開環(huán)分析LTP分析模塊36確定的脈沖響應(yīng)h。
例如,模塊42執(zhí)行的操作與圖7的流圖一致。脈沖響應(yīng)首先在階段160以一個長度Pst的所有計(jì)算,長度Pst比一個子幀的長度長,并且是足以考慮脈沖響應(yīng)所有能量的(例如,若短期線性預(yù)測為基數(shù)q=10,則對nst=4和1st=40取值pst=60)、在階段160,也計(jì)算脈沖響應(yīng)的縮短能量Eh(i)=Σk=0i[h(i)]2]]>通過使用具有零初始狀態(tài)的傳遞函數(shù)W(z)/A(z)的一個濾波器濾波一個單元脈沖,可以獲得脈沖響應(yīng)的成份h(i)和縮短的能量Eh(i),以呈通過對0<i<Pst逆歸f(i)=δ(i)+Σk=1qak[γ2k.f(i-k)-γ1k.δ(i-k)]---(2)]]>h(i)=f(i)+Σk=1qak.h(i-k)----(3)]]>Eh(i)=Eh(i-l)+[h(i)]2其中,對i<0,f(i)=h(i)=0;對i≠0,δ(0)=f(0)=h(0)=Eh(0)=1且δ(i)=0。在表達(dá)式(2)中,系數(shù)ak是那些包含在感知加權(quán)濾波器中的系數(shù),也就是說,這個被插入的倒是非定量線性預(yù)測參,而在表達(dá)(3)中,系數(shù)ak是用于綜合濾波器的那些系數(shù),也就是說,定量和插入的線性預(yù)測系數(shù)。
下一步,模塊42確定最小長度Lα,以便縮小到Lα取樣的脈沖響應(yīng)的能量Eh(Lα-1)至少等于在Pst取樣上估算的它的總能量Eh(Pst-1)的一個比例α。α的一個典型值為98%。只要Eh(Lα-2)>α·Eh(Pst-1)(測試164),數(shù)Lα在階段162被初始化為Pst并且在166減少一個單元。當(dāng)測試164顯示Eh(Lα-2)≤α·Eh(Pst-1)時(shí),獲取查尋長度Lα。
為了考慮話音等級MV,一個校正器項(xiàng)Δ(MV)被添加到已獲得的Lα值中(階段168)。這個校正器項(xiàng)更可取地是話音等級的一個遞增函數(shù)。例如,可以取值如Δ(0)=-5,Δ(1)=0,Δ(2)=+5和Δ(3)=+7。用這種方法,脈沖響應(yīng)h將全部更精確地用比較大的語音的話音等級方式來確定。若Lα≤nst,則脈沖響應(yīng)的縮小的長度Lh被置為Lα,否則置為nst。脈沖響應(yīng)的剩余取樣(h(i)=0,i≥Lh)可以被刪除。
隨著脈沖響應(yīng)的縮短,用下列方法YT(i)=Σj=max(0,i-Lh+1)iu(j-T).h(i-j)---(1′)]]>修改由閉環(huán)LTP分析模塊38所做的卷積YT(i)的計(jì)算(1)。
當(dāng)脈沖響應(yīng)被縮短時(shí),獲取這些卷積并在自適應(yīng)碼本中編址,這些卷積表示執(zhí)行卷積的一個重要部分,因此,實(shí)際上它們要求較少的乘法和加法。影響話音等級MV的脈沖響應(yīng)的動態(tài)縮短可能在不影響編碼質(zhì)量的情況下,獲得復(fù)雜性上的減少。同樣的考慮用于由隨機(jī)分析模塊40執(zhí)行的卷積的計(jì)算。當(dāng)感知加權(quán)濾波器具有公式W(z)=A(z/γ1)/A(z/γ2),0<γ2<γ1<1的轉(zhuǎn)換函數(shù)時(shí),這些優(yōu)點(diǎn)特別適用,這個公式產(chǎn)生通常比更常用于綜合分析編碼器的公式W(z)=A(z)/A(Z/γ)的脈沖響應(yīng)更大的上升脈沖響應(yīng)。
本發(fā)明的第三個方面與用于模型化激發(fā)的非預(yù)測部分的隨機(jī)分析模塊40有關(guān)。
在這里考慮的隨機(jī)激發(fā)是多脈沖類型的。與一個子幀有關(guān)的隨機(jī)激發(fā)由具有位置p(n)和振幅式增益g(n)的np脈沖表示(1≤n≤np)。長期預(yù)測增益gp也可在同樣的過程中計(jì)算。通常,可以認(rèn)為與一個子幀有關(guān)的隨機(jī)激發(fā)包括分別對應(yīng)nc增益的nc影響。這個影響是1st取樣矢量;這些矢量由相應(yīng)的和總數(shù)的增益加權(quán),對應(yīng)短期綜合濾波器的激發(fā)序列。這些影響之一是可以是可預(yù)測的,或者在具有n個分支的長期綜合濾波器(“多支路音調(diào)綜合濾波器”)的情況下,有n個是可預(yù)測的。在此情況下,其它影響是除振幅1的一個脈沖之外,僅包括o′s的np矢量。也就是說,若MV=0,nc=np[;若MV=1,2或3,nc=np+1。
用一個已知的方法,包括增益gp=g(0)計(jì)算的多脈沖分析在于為每個子幀,在語音信號和綜合信號之間查找位置p(n)(1≤n≤np)和增益g(n)(0≤n≤np)的最小化感知加權(quán)平方誤差E,誤差E如下E=(X-Σn=0nc-1g(n).Fp(n))2]]>這個增益是線性系統(tǒng)g·B=b的一個解。
在上述符號中-X表示一個初始目標(biāo)矢量,它包括不在存儲器中的加權(quán)語音信號SW的1st取樣X=(x(0),x(1),…,x(1st-1)),X(i)′S在閉環(huán)LTP分析期間,已如前面指示的那樣地被計(jì)算了;-g表示包括np+1增益的行矢量g=(g(0)=g(1),g(np));-行矢量Fp(n)(0≤n≤nc)具有在激發(fā)序列的影響n和加權(quán)綜合濾波器脈沖響應(yīng)h之間的卷積結(jié)果,作為成份i(0≤i≤1st)的加權(quán)影響;-b表示包括在矢量X和行矢量Fp(n)之間的nc標(biāo)量結(jié)果的行矢量;-B表示以nc行和nc列的一個對稱矩陣,其中項(xiàng)Bi,j=Fp(i)·Fp(j)T(0≤i,j≤n)等于在前面定義的矢量Fp(i)和Fp(j)間的標(biāo)量結(jié)果;-(·)T表示矩陣的轉(zhuǎn)置。
對于隨機(jī)激發(fā)的脈沖(1≤n≤np=nc-1),矢量Fp(n)簡單地包括由p(n)取樣移位的脈沖響應(yīng)h的矢量組成。這樣,如前面描述的縮短脈沖響應(yīng)的事實(shí),實(shí)際上可能減少用于計(jì)算包括這些矢量Fp(n)的標(biāo)量結(jié)果的操作量。對于激發(fā)的可預(yù)測影響,矢量Fp(o)=Y(jié)TP具有作成份Fp(o)(i)(0≤i≤1st)的模塊38,根據(jù)公式(1)或(1′)對選擇的長期預(yù)測延遲TP計(jì)算卷積YTP(i)。若MV=0,則影響n=0,也是脈沖類型的,并且需要計(jì)算位置P(0)。
最小化上面定義的平方誤差E相當(dāng)于查找歸一化的相關(guān)數(shù)b`B-1bT的最大限度的位置p(n)的集合,然后根據(jù)y=b·B-1計(jì)算增益。
但是,對脈沖位置的徹底查尋要求一個過量的計(jì)算。為了減少這個問題,多脈沖方法通常使用一個用于為每個影響連續(xù)計(jì)算增益和/或脈沖位置的再最優(yōu)化過程。對于每個影響n(0≤n<nc),首先,確定位置p(n)取歸一化相關(guān)函數(shù)(Fp·en-1T)2/Fp·FpT的最大限度,根據(jù)gn=bn·Bn-1重新計(jì)算增益gn(0)到gn(n),其中,gn=[gn(0),…,gn(n)],bn=(b(0),…b(n))和Bn={Bi,j},j≤n,然后,為下一次迭代計(jì)算目標(biāo)矢量en,等于從中減去加權(quán)綜合信號的影響0到n的初始目標(biāo)矢量X,這些影響通過它們各自的增益多路復(fù)用en=X-Σi=0ngn(i).Fp(i)]]>在上一次迭代nc-1完成時(shí),增益gnc-1(i)是選擇的增益并且最小化的平方誤差E等于目標(biāo)矢量Cnc-1的能量。
上面的方法給出了滿意的結(jié)果,但是它要求在每次迭代上矩陣Bn反轉(zhuǎn)。在S.Singhal和B.S.Atal的文章“在多脈沖編碼器中振幅最優(yōu)化和音調(diào)預(yù)測”(IEEE Trans在聲學(xué)、語音和信號處理,37卷,3號,1989年3月,317-327頁),通過使用科萊斯基分解Bn=Mn·MnT,簡化Bn矩陣的反轉(zhuǎn)問題,其中Mn是一個低級三角矩陣。這個分解可能是因?yàn)锽n具有正數(shù)本征值的對稱矩陣。這個方法的優(yōu)點(diǎn)是三角形矩陣的反轉(zhuǎn)相對地直接了當(dāng),Bn-1由Bn-1=(Mn-1)T·Mn-1來獲得。
但是,科萊斯基分解和矩陣Mn的反轉(zhuǎn)要求執(zhí)行除法和平方根計(jì)算,它們都具有計(jì)算復(fù)雜性的操作。本發(fā)明建議通過下列方法Bn=Ln·RnT=Ln·(Ln·Kn-1)T由修改矩陣Bn的分解簡化最優(yōu)化的實(shí)施。其中,Kn是一個對角矩陣,Ln是一個僅在它的主對角線上具有1′s的低級三角矩陣(例如,用前面符號的Ln=Mn·Kn1/2),關(guān)于矩陣Bn及矩陣Ln=Rn·Kn的結(jié)構(gòu),Rn,Kn和L-1每個都是由一行到前次迭代的相應(yīng)矩陣的簡單加法構(gòu)造而成的
在這些條件下,Bn的分解,Ln的反轉(zhuǎn),B-1=Kn(Ln-1)T·Ln-1的獲取和增益的重算僅需要每次迭代有一個單獨(dú)的除法,并無平方根計(jì)算。
與話音幀(MV=1,2或3)的一個子幀有關(guān)的隨機(jī)分析現(xiàn)在可以如圖8到11所示那樣進(jìn)行。為計(jì)算長期預(yù)測增益,影響索引n在階段180被初始化為0而矢量Fp(o)被置為由模塊38提供的長期影響YTP。若n>0,則迭代n從脈沖n的位置p(n)的確定182開始,脈沖n取下列量的最大量值
其中,e=(e(o),…,e(lst-1))是一個在前一個迭代期間計(jì)算的一個目標(biāo)矢量。許多限制可以用于包括在間隔(0,1st)中的上述量的最大化域。本發(fā)明更好地使用段查尋,在這個查尋中,激發(fā)的子幀被再分為同樣長度的ns段(例如,對lst=40,ns=10)。對于第一脈沖(n=1),在子幀的所有可能位置P上執(zhí)行(Fp·eT)2/(Fp·FpT)的最大化。在階段182中的迭代n>1上,在把段除外的所有可能位置上執(zhí)行最大化,在上述段中的前次迭代期間,各自獨(dú)立地建立脈沖的位置p(1),…,p(n-1)。
在當(dāng)前幀已經(jīng)被檢測為非話音幀的情況下,影響n=0也由以位置p(0)的一個脈沖組成。然后,階段180僅包括初始化n=0,并且跟隨它的是與用于查找以e=e-1=X的P(0)作為目標(biāo)矢量的初始值的階段182相同的一個最大化階段。
需要注意的是,當(dāng)影響n=0是可預(yù)測的(MV=1,2或3)時(shí),由于通過在延遲T的查尋間隔內(nèi),用e=e-1=X作為目標(biāo)矢量的初始值,取量(YTeT)2/(YT·YTT)的最大值,已經(jīng)確定了延遲TP特性化的長期影響,所以閉環(huán)LTP分析模塊38已執(zhí)行了一個與最大化182相似的類型操作。當(dāng)影響LTP的能量非常低時(shí),也可能忽略在重新計(jì)算增益過程中的這個影響。
在階段180或182之后,模塊40執(zhí)行包括在矩陣B的分解中的矩陣L,R和K的行n和計(jì)算184,這使完成上面定義的矩陣Ln,Rn和Kn成為可能。矩陣Bn的分解對于位于行n和列j的成份產(chǎn)生B(n,j)=R(n,j)+Σk=0j-1L(n,k).R(j,k)]]>然后,可以說對從0到n-1遞增的j,有R(n,j)=B(n,j)-Σk=0j-1L(n,k).R(j,k)]]>L(n,j)=R(n,j).K(j)并對j=n,有K(n)=1/R(n,n)=1/[B(n,n)-Σk=0n-1L(n,k).R(n,k)]]]>L(n,n)=1這些關(guān)系式的使用詳見圖9的計(jì)算184。在階段186中列索引j首先被初始化為0。對于列索引j,變量tmp首先初始化為成分B(n,j)的值,例如tmp=Fp(n).Fp(j)T=Σk=max(p(n),p(j))min(Lh+p(n),Lh+p(j),lst)-1h(k-p(n)).h(k-p(j))]]>在階段188,整數(shù)k還要被初始化為0。然后,在整數(shù)k和j之間執(zhí)行一個比較190。若k<j,則項(xiàng)L(n,K)·R(j,K)被加到變量tmp上,而且,在再次執(zhí)行比較190之前整數(shù)K被增大1個單元(階段192)。當(dāng)比較190顯示k=j(luò)時(shí),在整數(shù)j和n之間執(zhí)行一個比較194。若j<n,則在階段196中,成份R(n,j)被置為tmp,成份L(n,j)被置為tmp·K(j),然后,為了計(jì)算下列成份,在返回階段188之前列索引j被增大一個單元。當(dāng)比較194顯示j=n時(shí),計(jì)算矩陣K的行n的成份K(n),若tmp≠0(階段198),則終止與行n·k(n)有關(guān)的計(jì)算184的那個被置為1/tmp,否則被置為0。需要注意的是計(jì)算184為獲得K(n),至多僅需要一個除法198。另外,因?yàn)楸苊饬吮?除,所以任意單獨(dú)的矩陣Bn都不會有不穩(wěn)定性出現(xiàn)。
參考圖8,跟隨L、R和K的行n的計(jì)算184是包含矩陣L的0到n的行和列的矩陣Ln的反轉(zhuǎn)200。L是在它的主對角線上具有1′s的三角形矩陣,這個事實(shí)大大簡化了圖10所示的反轉(zhuǎn)。實(shí)際上它可以用代數(shù)式表示L-1(n,j′)=-L(n,j′)-Σk′=j′+1nL-1(k′,j′).L(n,k′)---(4)]]>=-L(n,j′)-Σk′=j′+1nL(k′,j′).L-1(n,k′)---(5)]]>對于0≤j′<n和L-1(n,n)=1,也就是說,這個反轉(zhuǎn)可以不需要執(zhí)行除法。另外,作為滿足重新計(jì)算增益的L-1的行n成份,關(guān)系式(5)的使用有了這種可能性它不需存整個矩陣L-1,而只需存一個矢量Linv=(Linv(o),…,Linv(n-1)),其中Linv(j′)=L-1(n,j′),就可以執(zhí)行此反轉(zhuǎn)。然后,反轉(zhuǎn)200由列索引j′到n-1的初始化202開始。在階段204,項(xiàng)Linv(j′)被初始化為-L(n,j)而整數(shù)K′被初始化為j′+1。接著在整數(shù)K′和n之間執(zhí)行一個比較206。若k′<n,則從Linv(j′)中減去項(xiàng)Linv(j′)·Linv(k′),然后,整數(shù)K′在再次執(zhí)行比較206之前增大一個單元(階段208)。當(dāng)比較顯示K′=n時(shí),j與o相比較(測試210)。若j′>0,則整數(shù)j減小一個單元(階段212)并且為計(jì)算下列成份重新進(jìn)入階段204。當(dāng)測試210顯示j′=0時(shí),則終止轉(zhuǎn)置200。
參照圖8,轉(zhuǎn)200之后是重新最優(yōu)化增益和用于下列迭代的目標(biāo)矢量E的計(jì)算214。重新最優(yōu)化的計(jì)算通過對矩陣B采用的分解也被大大地簡化了。這是因?yàn)樗锌赡芨鶕?jù)gn(n)=[b(n)+Σi=0n-1b(i).L-1(n,i)].K(n)]]>對于0≤i<n,gn(i)=gn-1(i′)+L-1(n,i)·gn(n),計(jì)算矢量gn=(gn(0),…,gn(n))和gnBn=bn的解。計(jì)算214詳見圖11。首先,計(jì)算矢量b的成份b(n)b(n)=Fp(n).XT=Σk=p(n)min(Lh+p(n),lst)-1h(k-p(n)).x(k)]]>b(n)作為變量tmq的初始值。在階段216,索引i也被初始為0。接下的一個比較218是在整數(shù)i和n之間進(jìn)行的。若i<n,則把項(xiàng)b(i)·Linv(i)加到變量tmq,并且在返回比較218前i增大一個單元(階段220)。當(dāng)比較218顯示i=n時(shí),則根據(jù)g(n)=tmq·K(n)。計(jì)算與這個影響n有關(guān)的增益,并且初始化計(jì)算其他增益和目標(biāo)矢量的循環(huán)(階段222),取e=X-g(n)·Fp(n)和i′=0。這個循環(huán)包括在整數(shù)i′和n之間的一個比較224。若i′<n,則在階段226,通過把Linv(i′)·g(n)加到其在前面迭代n-1中計(jì)算的值中,重新計(jì)算增益(i′),然后,從目標(biāo)矢量e減去喬量g(i′)·Fp(i′)。階段226還包括在返回比較224之前增大索引i′。當(dāng)比較224顯示i′=n時(shí),終止增益和目標(biāo)矢量的計(jì)算214。可以看出當(dāng)僅在反轉(zhuǎn)矩陣Ln-1的行n調(diào)用時(shí),它有可能更新這個增益。
計(jì)算214之后是影響索引n的增量228,然后是在索引n和影響數(shù)量nc之間的比較230。若n<nc,則為下一個迭代重新進(jìn)入階段182。當(dāng)在測試230中n=nc時(shí),終止位置和增益的最優(yōu)化。
對脈沖的段查尋實(shí)際上減少了在隨機(jī)激發(fā)查找階段182中估計(jì)脈沖位置的數(shù)量。而且,它又允許建立位置的有效的定量。在lst=40取樣的子幀被劃分為1s=4取樣的ns=10的段的典型情況下,若np=5(MV=1,2或3)時(shí),可能的脈沖位置的集合可以置為ns!lsnp/[np!(ns-np)!]=258,048;或者若np=6(MV=0),則取值為860,160,這代替了在僅指定兩個脈沖不可能具有同一位置的情況下,若np=5,則lst!/[np![lst-np)!]=658,008,或者若np=6,則取值為3,838,380。換句話說,若np=5,則用在18位上代替用在20位上可以定置的位置,np=6,則用在20位上代替用在22位上定量的位置。
在每個子幀的段數(shù)量等于每個隨機(jī)激發(fā)的脈沖數(shù)量(ns=np)的特殊情況下,導(dǎo)致了在查尋隨機(jī)激發(fā)上的最大簡化,同樣也導(dǎo)致了最低的二進(jìn)制數(shù)據(jù)速率(若lst=40和np=5,則存在85=32768個可能位置的集合,若ns=10,則僅用15位代替18位上定量)。但是,通過把可能的更新序列的數(shù)量減小到此點(diǎn),編碼質(zhì)量可能會變得很低。對于一個給定的脈沖的數(shù)量,可以根據(jù)在編碼質(zhì)量和實(shí)施它的簡化之間的折衷方案(和要求的數(shù)據(jù)速率一起),可以最優(yōu)化段量。
依靠占用段的次序數(shù)和在每個占用段中的脈沖的相對位置的一個分離定量,就脈沖位置而論,可以獲得ns>np另外展示對傳送誤差的良好的健狀性優(yōu)點(diǎn)情況。對一個脈沖n,段的次序數(shù)Sn和相對位置prn分別是由一個段的長度ls的p(n)歐幾里德除法的商和余數(shù)p(n)=snls+prn(O≤sn<ns,0≤prn<ls)。若ls=4,則相對位置每個分別以2位定量。如果這些位之一發(fā)生一個傳輸誤差影響,將僅稍微地置換相應(yīng)的脈沖,并且將限制了誤差的感知影響。占用段的次序數(shù)由ns=10位的一個二進(jìn)制字標(biāo)識,這個二進(jìn)制字對占用段置為1,對隨機(jī)激發(fā)不具有脈沖的段置為0。這個可能的二進(jìn)制字是具有np的海明權(quán);若np=5,則它們?nèi)?shù)為ns!/[np!(ns-np)!]=252,或者若np=6,則取數(shù)210。這個字可以由一個具有2nb-1<ns![np!(ns-np)!]≤2nb的nb位的索引來定量,在討論中的例子中nb=8。例如,若隨機(jī)分析已經(jīng)把np=5脈沖供給位置4,12,21,34,38,定量為標(biāo)量的相對位置是0,0,1,2,2,并且表示占用段的二進(jìn)制字是0101010011,或當(dāng)轉(zhuǎn)換成十進(jìn)制時(shí)為339。
當(dāng)對于譯碼器,這個可能的二進(jìn)制字被存儲在可讀地址是接收的定量索引的一個定量表中??梢杂谰玫卮_定在此表中優(yōu)化的排序,以便使影響此索引的一位傳輸誤差(特別是當(dāng)隔行掃描用于信道編碼器22時(shí),更頻繁的誤差情況)。平均具有根據(jù)一個近似判別式的最小結(jié)果。例如,通過由至多等于一個門限值np-2δ的海明距離分離,近似判別式是一個ns位的字可以僅由“鄰近”位來替換,以便在影響一個單個位的索引傳輸?shù)恼`差事件中,保留在有效位置上的除δ的脈沖之外的所有脈沖。其它的判別式可以用于替換或補(bǔ)充,例如,若一個由另一個替換并不改變對應(yīng)脈沖增益分配的次序,則認(rèn)為這兩個字是鄰近的。
用說明的方法,在ns=4和np=2時(shí),可以認(rèn)為是簡化情況,例如在nb=3位上可以定量6個可能的二進(jìn)制字。在此情況下,可以檢驗(yàn)在表II中表示的定量表允許n-1=1的適當(dāng)?shù)囟ㄎ幻}沖保持對每個誤差影響傳輸索引的一位。存在有4種誤差情況(18個總量之外),對于這種情況,接收了已知是錯誤的一個定量索引(6代替2或4;7代替3或5),但是,譯碼器可以進(jìn)行測量限制畸變,例如可以重復(fù)與前面的子幀有關(guān)的更新序列,以至分配采用的二進(jìn)制字給“不存在的”索引(例如,如果接收到了具有一個二進(jìn)制誤差的6或7,對索引6為1001或1010以及對7的1100或0110,將再次導(dǎo)致校正定位np-1=1的脈沖),在通常的情況下,在算法分析上或如果不充分計(jì)算基礎(chǔ)上,通過模擬計(jì)算誤差情況,(或者進(jìn)一步通過依賴于可能誤差情況的數(shù)量的蒙特卡羅型統(tǒng)計(jì)取樣),可以確定定量表中的字的順序。
為了使占用段定量索引的傳輸更安全,特別是當(dāng)近似判別式不滿足影響索引一位的所有可能的誤差情況,可以采用由信道編碼器22提供的保護(hù)的不同分類的優(yōu)點(diǎn)。這樣模塊46可以放置在最小保護(hù)分類或非保護(hù)分類中,若如果由一個傳輸誤差影響確定索引位的數(shù)量nx引起一個字的錯誤,但又滿足認(rèn)為是規(guī)定的可靠的近似判別式的一個字,并且把索引的其它位放在一個更好的保護(hù)分類中。這種方法包括在定量表中字的另一個排序。若要求取分配給最小保護(hù)分類的索引位的量nx最大值,那么這個次序也可以用模擬的方法來最優(yōu)化。
表II一種可能性是通過編譯用葛雷編碼從0到2ns-1計(jì)算ns位的字的一個列表,并且通過從不具有np的海明權(quán)的這個字列表中刪除,獲取排序的定量表。這樣獲得的表是兩個連續(xù)字具有一個np-2的海明距離。若這個表中的索引具有用葛雷編碼中的二進(jìn)制表示,在最小有效位的任何誤差使索引產(chǎn)生±1變化,并且這樣獲得了由以在海明距離上門限np-2鄰近的一個字實(shí)現(xiàn)實(shí)際的占用字的替換。在第i個最小有效位的誤差也具有大約2i-1個可能性,使索引引起±1變化。通過把用葛雷編碼的索引的nx最小有效位放置在一個非保護(hù)分類中,任何影響這些位中的一位的傳送誤差導(dǎo)致由具有至少等于(1+1/2+…+1/2nx-1)的可能性的一個鄰近字替換的占用字。對于從1增至nb的nx,這個最小可能性從1降至(2/nb)(1-1/2nb)。影響索引的nb-nx最有效位的誤差將更經(jīng)常通過使用它們的信道編碼器的保護(hù)優(yōu)點(diǎn)來糾正。這種情況下的nx值被選為在誤差的健狀性(最小值)和保護(hù)分類的有限尺寸(大值)之間的一個折衷。
就這個編碼器而論,可以用來表示段占用的二進(jìn)制字在查找表中以增序排列。在存在譯碼器的定量表中,在每個地址上,一個索引表分配在查找表中具有此地址的二進(jìn)制字的次序號。在上面開始的簡化例中,在表III中給出了查找表和索引表的內(nèi)容(以十進(jìn)制值)。
從由隨機(jī)分析模塊40提供的np位置演譯出來的段占用字的定量由定量模塊44以兩個階段執(zhí)行。首先,為確定要定量的字表中的地址,在查找表中,執(zhí)行一個二進(jìn)制的查找,然后定量索引是在索引表中的定義地址上獲得的,并且被提供給位排序模塊46。
表III模塊44另外還執(zhí)行由模塊和計(jì)算的增益的定量。例如,為了考慮對高度話音幀的這個參數(shù)的更高的感知重要性,在間隔
內(nèi),若MV=1或2,則增益gp是在5位上定量的;若MV=3,則是在6位上定量的。對于分配有隨機(jī)激發(fā)的脈沖的增益的編碼,增益g(1),…,g(np)的最大絕對值Gs是在5位上定量的,例如,在間隔
間的幾何級數(shù)中取定量32值,并且每個相對增益g(1)/Gs,…,g(np)/Gs在間隔[-1;+1]間被定量,若MV=1,2或3,則是4位上定量。或者若MV=0則在5位上定量。
當(dāng)Gs的定量位是相對增益的定量索引的最有效位時(shí),它們由信道編碼器22放置在一個保護(hù)分類中。相對增益的定量位用如允許它們分配給屬于由占用字定位的段的相應(yīng)脈沖的方法來排序。根據(jù)發(fā)明的段查尋還可能有效地保護(hù)相應(yīng)的增益的有效值的脈沖的相對位置。
在np=5并且ls=4的情況下,每子幀的十位需要定位段中的脈沖的相對位置。這個情況被認(rèn)為是這10位的5位被放置在一個部分保護(hù)或非保護(hù)分類(II)中,并且另5位被放置在一個更有效保護(hù)分類(IB)中,最自然的分配是把每個相對位置的最有效位放在保護(hù)分類IB中,以便任何傳送誤差去影響最有效位,并且因此僅為相應(yīng)脈沖引起一個采樣的一個偏移。但是,對相對位置的定量,可取的方法是以相應(yīng)增益的絕對值的降序的考慮脈沖,并且在分類IB中,放置每個前兩個相對位置的兩個定量位和第三個位置的最有效位。用這種方法,當(dāng)脈沖的位置對應(yīng)高增益時(shí),它們特別是為最高級話音子幀被優(yōu)先地保護(hù),這些高增益增強(qiáng)了平均質(zhì)量。
為了重新構(gòu)成激發(fā)的脈沖影響,譯碼器54首先通過接收的占用字定位段,然后,它分配相應(yīng)的增益,而后它在增益尺寸次序的基礎(chǔ)上,再把相對位置分配給脈沖。
可以理解每個上面描述的本發(fā)明的不同觀點(diǎn)產(chǎn)生了特別的改進(jìn),并且因此可能彼此獨(dú)立地實(shí)施它們。結(jié)合它們可以產(chǎn)生特別有效的性能的一個編碼器。
在前面描述的說明實(shí)施例中,13kb/s的語音編碼器要求以固定點(diǎn)模式的每秒15兆指令(MIPS)的次序。因此,它可以典型地通過為一個商業(yè)上可用的數(shù)字信號處理器(DSP)編程來產(chǎn)生,并且類似地,對于譯碼僅要求5MiPs的次序。
權(quán)利要求
1.一種綜合分析語音編碼方法,用于已數(shù)據(jù)化成分為Ist取樣的nst子幀的連續(xù)子幀的語音信號S的包括以下步驟-為確定一個短期綜合過濾器(60)的參數(shù)的語音信號的線性預(yù)測分析;-為檢驗(yàn)信號的語音幀以及為每個語音幀,確定信號的話音等級(MV)和查尋一個長期預(yù)測延遲的一個間隔的語音信號的開環(huán)分析;-為了對至少話音幀的子幀的一些,選擇包含在查尋間隔內(nèi)并且構(gòu)成長期綜合過濾器(66)的一個參數(shù)的一個長期預(yù)測延遲,進(jìn)行語音的閉環(huán)預(yù)測分析;-對每個子幀確定一個隨機(jī)激發(fā),以便最小化在語音信號和由長期及短期綜合濾波器的隨機(jī)激發(fā)之間的感知加權(quán)差別,其特征在于,在開環(huán)分析步驟中,確定與每個話音幀有關(guān)的查尋間隔,以使它包含依靠上述幀的話音等級的延遲的一個量(N1,N3)。
2.根據(jù)權(quán)利要求1的方法,其特征在于對長期預(yù)測延遲包含少數(shù)延遲比其他話音幀具有最大話音等級的那些幀的查尋間隔。
3.根據(jù)權(quán)利要求1或2的方法,其特征在于與幀有關(guān)的開環(huán)分析包括每個使在各自獨(dú)立的上述幀的子幀上取長期預(yù)測增益的開環(huán)估計(jì)值的最大nst基本延遲(Kst)的確定,然后,比較第一預(yù)定門限(S0)與在相應(yīng)子幀有關(guān)的nst的基本延遲的基礎(chǔ)上,獲得的幀上的長期預(yù)測增益的第一開環(huán)估計(jì)值,以檢驗(yàn)此幀是否是話音,并且,在于若此幀被檢驗(yàn)為話音,則開環(huán)分析還包括對每個子幀侯選延遲的一個表(Ist)的確定,對于這些侯選延遲,在子幀上的預(yù)測增益的開環(huán)估計(jì)值比與用于子幀的基本延遲有關(guān)的估計(jì)值的一個定義值比例(β)大,這因?yàn)樵趲系拈L期預(yù)測增益的第二開環(huán)估計(jì)值是一個最大值用到的侯選延遲是從上述表中選出來的,在對應(yīng)在nst最佳延遲的基礎(chǔ)上獲得的一個侯選延遲的幀上的第二開環(huán),它們位于中心在上述的侯選延遲的N1延遲的間隔內(nèi),上述延遲分別在上述間隔上取nst子幀上的預(yù)測增益的開環(huán)估計(jì)值的最大值,因?yàn)閹脑捯舻燃壍拇_定包括在幀上的預(yù)測增益在第二最大估計(jì)值和至少一個其它的預(yù)定門限(S1,S2)之間的一個比較,并且因?yàn)樵谕瓿砷_環(huán)分析時(shí)確定的查尋間隔在上述選擇延遲的中心上。
4.根據(jù)權(quán)利要求1或2的方法,其特征在于與幀有關(guān)的開環(huán)分析包括在上述幀上取長期預(yù)測增益的第一開環(huán)估計(jì)值的最大值的一個基本延遲(k)的確定,還包括為確定檢驗(yàn)幀是否為話音,進(jìn)行在第一預(yù)定門限(S0)和在此幀上的長期預(yù)測增益的第一最大化估計(jì)值之間的比較;其中,若幀被檢驗(yàn)為話音,開環(huán)分析還包括在幀上的預(yù)測增益的開環(huán)/估計(jì)值比與基本延遲有關(guān)的估計(jì)值的定義的分?jǐn)?shù)(β)高的侯選延遲的表(I)的確定;在此幀上的長期預(yù)測增益的一個第二開環(huán)估計(jì)值為一個最大值的侯選延遲是從上述表中選出來的,在此幀上的第二開環(huán)估計(jì)值分配了一個在nst最優(yōu)延遲的基礎(chǔ)上獲得,并位于中心在上述侯選延遲的N1延遲的一個間隔內(nèi)的一個侯選延遲,上述估計(jì)值是分別在上述間隔的取在nst子幀上的預(yù)測增益的開環(huán)估計(jì)值的最大值;幀的話音等級的確定包括比較在此幀上的預(yù)測增益的第二最大估計(jì)值和至少另一個預(yù)測門限(S1,S2);而且在開環(huán)分析完成時(shí)在上述選擇延遲上中心確定查尋間隔。
5.根據(jù)權(quán)利要求1或2的方法,其特征在于與幀有關(guān)的開環(huán)分析包括一定量nz的基本延遲(K1′,…,Knz′)的確定,它們每個都是在各自獨(dú)立的可能延遲值的子間隔上,取在上述幀上長期預(yù)測增益的第一開環(huán)估計(jì)值的最大值,還包括檢驗(yàn)此幀是否是話音幀,進(jìn)行在第一預(yù)定門限(S0)和此幀上長期預(yù)測增益的第一個nz最大化估計(jì)值的最大值之間的比較,其中,若此幀被檢測為話音,則在此幀上的長期預(yù)測增益的第二開環(huán)估計(jì)值最大值的侯選延遲,從由nz基本延遲獲得的nz候選延遲中選出,此幀上的第二開環(huán)估計(jì)值分配了一個在nst最優(yōu)延遲基礎(chǔ)上獲得的,位于中心在上述候選延遲的N1延遲的一個間隔的一個候選延遲,上述估計(jì)值分別在上述間隔內(nèi),取在nst子幀的預(yù)定增益的開環(huán)估計(jì)值的最大值,既然幀的話音等級的確定包括在此幀上的預(yù)測增益的第二最大估計(jì)值和至少另一個預(yù)測門限(S1,S2)之間的比較,其中,在開環(huán)分析完成時(shí)確定的查尋間隔中心在上述選擇延遲上。
6.根據(jù)權(quán)利要求3到5的任意一個方法,其特征在于,如果在一個話音幀上的預(yù)測增益的第二個最大估計(jì)值到達(dá)最大限度比門限(S2)之一大,則確定ns最優(yōu)延遲是否位于選擇延遲的中心并包含量N3的小于N1的延遲的間隔內(nèi),若是,則此幀分配給用于查尋長期預(yù)測延遲的間隔包含NS延遲的話音等級,該查尋間隔包含用于至少一個其它話音等級的N1延遲。
7.根據(jù)權(quán)利要求3到5的任意一個方法,其特征在于,在一個話音幀上的長期預(yù)測增益的第二開環(huán)估計(jì)值的最大化期間,在此幀上的增益的一個第三開環(huán)估計(jì)值也在位于中心選擇延遲上,并包含一定量N3小于N1的延遲的間隔內(nèi)的延遲的基礎(chǔ)上計(jì)算,上述開環(huán)估計(jì)值分別是在N3延遲的上述間隔上,取nst子幀上的預(yù)測增益的開環(huán)估計(jì)值的最大值;若上述第三估計(jì)值超過一個預(yù)定門限(S2),則此幀被分配了一個查尋間隔包含N3延遲的話音等級,查尋間隔包含用于至少一個其它話音等級的N1延遲。
8.根據(jù)權(quán)利要求3或4的方法,其特征在于,一個表的侯選延遲是從分配給上述表的基本延遲的子多路復(fù)用和從上述子多路復(fù)用的最小值的多路復(fù)用中選出來,對于上述子多路復(fù)用,預(yù)測增益的開環(huán)估計(jì)值比與基本延遲有關(guān)的估計(jì)值的上述定義分?jǐn)?shù)大。
9.根據(jù)權(quán)利要求8的方法,其特征在于,長期預(yù)測延遲可以對應(yīng)語音信號的取樣的整數(shù)或分?jǐn)?shù);為查找包含在侯選延遲的一個表中的子多路復(fù)用和多路復(fù)用,以分?jǐn)?shù)分辨率確定基本延遲(rbf);而且為了估計(jì)一個幀上的預(yù)測增益的第一開環(huán)估計(jì)值,以整數(shù)分辨率確定基本延遲。
10.根據(jù)權(quán)利要求3到9的任何一個方法,其特征在于,對于與上述子幀最優(yōu)化延遲相關(guān)聯(lián)的語音信號的自相關(guān)數(shù)(Cst)的為負(fù)的每個子幀,不執(zhí)行閉環(huán)預(yù)測分析。
全文摘要
為確定一個短期綜合濾波器的系數(shù),對每個幀進(jìn)行語言信號的線性預(yù)測分析;為確定幀的話音等級進(jìn)行開環(huán)回路分析;為了確定向短期綜合濾波器施加并產(chǎn)生表征語音信號的綜合信號的激勵序列,對每個子幀進(jìn)行至少一個閉環(huán)回路分析;每個閉環(huán)回路分析使用包括一個短期綜合濾波器和一個感知加權(quán)濾波器組成的復(fù)合濾波器的脈沖響應(yīng),利用上述脈沖響應(yīng),把它縮短到一個縮短的長度,這個縮短的長度不大于每個子幀采樣量,并且依賴于上述響應(yīng)的能量分布和該幀的話音等級。
文檔編號G10L25/24GK1173938SQ9619179
公開日1998年2月18日 申請日期1996年1月3日 優(yōu)先權(quán)日1995年1月6日
發(fā)明者威廉姆·納瓦羅, 米歇爾·莫克 申請人:馬特瑞通訊法國公司