語音中非話音部分的低數(shù)據(jù)位速率編碼的制作方法

文檔序號：2821635閱讀：175來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音中非話音部分的低數(shù)據(jù)位速率編碼的制作方法
技術(shù)領(lǐng)域：
本發(fā)明總的涉及語音處理領(lǐng)域，本發(fā)明尤其涉及語音中非話音部分的低數(shù)據(jù)位速率編碼的方法和裝置。
背景技術(shù)：
采用數(shù)字技術(shù)進(jìn)行話音傳輸已經(jīng)非常廣泛，尤其是在長途和數(shù)字無線電話應(yīng)用領(lǐng)域更是這樣。接著，這又在確定可以在信道上發(fā)送的最少信息量并同時(shí)保持重新構(gòu)筑的語音感覺質(zhì)量方面，引起了人們的興趣。如果發(fā)送信息是通過簡單地進(jìn)行取樣和數(shù)字化來進(jìn)行的，則為實(shí)現(xiàn)傳統(tǒng)的模擬電話語音質(zhì)量時(shí)需要每秒64千位(kbps)數(shù)量級的數(shù)據(jù)速率。然而，通過采用語音分析，隨后采用適當(dāng)?shù)木幋a、傳輸，再在接收機(jī)處重新合成，可以大大減小數(shù)據(jù)速率。
我們把采用獲取與人的語音發(fā)生模型有關(guān)的參數(shù)對語音進(jìn)行壓縮的技術(shù)的裝置稱為語音編碼器。語音編碼器將輸入的語音信號分為一些時(shí)間段，或者是一些分析幀。語音編碼器通常包括編碼器或譯碼器，或編碼譯碼器。編碼器對輸入的語音幀進(jìn)行分析，并獲取某些相關(guān)的參數(shù)，隨后將這些參數(shù)量化成二進(jìn)制表述，即，量化成一組數(shù)據(jù)位或二進(jìn)制的數(shù)據(jù)包。這些數(shù)據(jù)包在通信信道上傳送到接收機(jī)和譯碼器。譯碼器對數(shù)據(jù)包進(jìn)行處理，并將它們解量化，產(chǎn)生參數(shù)，隨后再用這些解量化的參數(shù)，對這些語音幀進(jìn)行重新合成。
語音編碼器的作用是通過去除語音中所有固有的自然冗余，將數(shù)字化的語音信號壓縮成低數(shù)據(jù)位速率的信號。數(shù)字壓縮是通過用一組參數(shù)來代表輸入的語音幀并用量化來代表具有一組數(shù)據(jù)位的參數(shù)來實(shí)現(xiàn)的。如果輸入的語音幀的數(shù)據(jù)位數(shù)是Ni，而由語音編碼器所產(chǎn)生的數(shù)據(jù)包的數(shù)據(jù)位數(shù)是No，那么由語音編碼器所實(shí)現(xiàn)的壓縮倍數(shù)是Cr＝Ni/No。我們所面臨的挑戰(zhàn)是在實(shí)現(xiàn)目標(biāo)壓縮倍數(shù)的同時(shí)，保持高話音質(zhì)量的譯碼語音。語音編碼器的性能取決于(1)上述語音模型或分析及合成處理過程的組合的良好程度，以及(2)在每幀的目標(biāo)數(shù)據(jù)位速率No時(shí)，參數(shù)量化過程進(jìn)行的量化程度。所以，語音模型的目標(biāo)是用每幀較少的一組參數(shù)，來捕獲語音信號的基本部分或目標(biāo)話音質(zhì)量。
在低數(shù)據(jù)位速率下有效地對語音進(jìn)行編碼的一種有效的技術(shù)是多模式編碼。多模式編碼對不同類型的輸入語音幀實(shí)施不同的模式規(guī)則或編譯碼規(guī)則。每一種模式或編譯碼過程以最有效的方式來表達(dá)某種類型的語音段(即，發(fā)聲的、不發(fā)聲的，或者是背景噪聲)。采用一種外部模式?jīng)Q定機(jī)構(gòu)來檢查輸入的語音幀，并對采用什么模式用于該幀作出決定。通常，通過從輸入的幀中取出幾個(gè)參數(shù)，并對它們進(jìn)行評估，而作出采用哪一種模式的決定，以開環(huán)方式?jīng)Q定所采用的模式。所以，模式?jīng)Q定是在事先不知道輸出語音的準(zhǔn)確情況即按照語音質(zhì)量或其他的特性測量來說輸出語音與輸入的語音有多大的相似程度而作出的。語音編譯碼器的一種典型的開環(huán)模式?jīng)Q定見美國專利5,414,796，該專利已轉(zhuǎn)讓給本發(fā)明的受讓人。
多模式編碼可以是固定速率的，對每一幀采用相同數(shù)量的數(shù)據(jù)位No；也可以采用變速率的，這時(shí)，不同的模式采用不同的數(shù)據(jù)位速率。變速率編碼僅采用將編譯碼器參數(shù)編碼成適合獲得目標(biāo)質(zhì)量水平的數(shù)據(jù)位數(shù)。因此，采用變數(shù)據(jù)位速率(VBR)技術(shù)，在明顯較低的平均速率下，可以得到與固定速率、更高速率編碼器相同的目標(biāo)話音質(zhì)量。典型的變速率語音編碼器見美國專利5,414,796，該專利已轉(zhuǎn)讓給本發(fā)明的受讓人。
目前，人們無論是在商業(yè)上還是在研究興趣上都強(qiáng)烈地希望開發(fā)一種能在中等的到較低數(shù)據(jù)位速率(在2.4到4kbps或以下的范圍內(nèi))下工作的高質(zhì)量的語音編碼器。其應(yīng)用范圍包括無線電話、衛(wèi)星通信、互聯(lián)網(wǎng)電話、各種多媒體和話音流應(yīng)用、話音郵件以及其他的話音儲存系統(tǒng)。其驅(qū)動力是在數(shù)據(jù)包丟失的情況下，需要具有高容量，以及對較強(qiáng)性能的要求。近來建立各種語音編碼標(biāo)準(zhǔn)的努力是推動低速語音編碼規(guī)則的研究和開發(fā)的另一直接的驅(qū)動力。低速語音編碼器在每一許可的應(yīng)用帶寬下生成更多的信道或用戶，并且與合適信道編碼附加層耦合的低速語音編碼器可以適合編碼器技術(shù)規(guī)范的整個(gè)數(shù)據(jù)位預(yù)算，并在信道出現(xiàn)差錯(cuò)的情況下，仍具有較強(qiáng)的性能。
所以，多模式VBR語音編碼是一種在低數(shù)據(jù)位速率下對語音進(jìn)行編碼的有效的機(jī)制。傳統(tǒng)的多模式技術(shù)需要對各個(gè)語音段(如，非話音的、話音的以及過渡部分)設(shè)計(jì)有效的編碼方案或模式以及用于背景噪聲或無聲的模式。語音編碼器的全部性能取決于每一種模式工作的良好程度，而編碼器的平均速率取決于用于非話音的、話音的、以及語音其他部分不同模式的數(shù)據(jù)位速率。為了實(shí)現(xiàn)低平均速率下的目標(biāo)質(zhì)量，必須設(shè)計(jì)一些有效的、高性能的模式，并且其中的某些模式必須在較低的數(shù)據(jù)位速率下工作。通常，話音的和非話音的語音段是在高數(shù)據(jù)速率下捕獲的，而背景噪聲和無聲部分是用在明顯較低的速率下工作的模式來代表的。所以，需要有一種低數(shù)據(jù)速率的編碼技術(shù)，在采用每一幀最少數(shù)量的數(shù)據(jù)位的時(shí)候能夠捕獲語音的非話音部分。
發(fā)明概述本發(fā)明是一種采用每一幀最少數(shù)量的數(shù)據(jù)位準(zhǔn)確捕獲語音的非話音部分的低數(shù)據(jù)速率編碼技術(shù)。因此，按照本發(fā)明對語音的非話音部分進(jìn)行編碼的方法最好包括這樣一些步驟，即，從一個(gè)語音幀中獲取高時(shí)間分辨率的能量系數(shù)；對高時(shí)間分辨率的能量系數(shù)進(jìn)行量化處理；從經(jīng)量化的能量系數(shù)中產(chǎn)生高時(shí)間分辨率的能量包；并且通過使隨機(jī)生成的噪聲矢量具有能量包絡(luò)的量化值來重新構(gòu)筑剩余的信號。
本發(fā)明還提供了一種對語音的非話音部分進(jìn)行編碼的語音編碼器，它包括從一個(gè)幀的語音中獲取高時(shí)間分辨率的能量系數(shù)的裝置；使高時(shí)間分辨率的能量系數(shù)量化的裝置；從量化的能量系數(shù)中產(chǎn)生高時(shí)間分辨率的能量包絡(luò)的裝置；以及通過使隨機(jī)產(chǎn)生的噪聲矢量具有量化的能量包絡(luò)值來重新構(gòu)筑殘留信號的裝置。
本發(fā)明還提供了對語音的非話音部分進(jìn)行編碼的語音編碼器，它最好包括從一個(gè)幀的語音中獲取高時(shí)間分辨率的能量系數(shù)的模塊；使高時(shí)間分辨率的能量系數(shù)量化的模塊；從量化的能量系數(shù)中產(chǎn)生高時(shí)間分辨率的能量包絡(luò)的模塊；以及通過使隨機(jī)產(chǎn)生的噪聲矢量具有量化的能量包絡(luò)值來重新構(gòu)筑殘留信號的模塊。
附圖簡述

圖1是由語音編碼器在每一端處終斷的通信信道的方框圖。
圖2是一編碼器的方框圖。
圖3是一譯碼器的方框圖。
圖4是描述對用于語音的非話音部分進(jìn)行低數(shù)據(jù)速率編碼的技術(shù)的步驟的流程圖。
圖5A-E給出的是信號幅度對于離散時(shí)間的關(guān)系。
圖6是描繪錐形進(jìn)位矢量量化編碼過程的功能方框圖。
較佳實(shí)施例的詳細(xì)描述圖1中，第一編碼器10接收數(shù)字化的語音取樣s(n)，并對取樣信號s(n)進(jìn)行編碼，用于在傳輸介質(zhì)12或通信信道12上傳輸?shù)降谝蛔g碼器14。譯碼器14對經(jīng)編碼的語音取樣信號進(jìn)行譯碼，并合成輸出語音信號s合成(n)。對于沿相反方向上進(jìn)行的傳輸，第二編碼器16對數(shù)字化的語音取樣信號s(n)進(jìn)行編碼，而該取樣信號是在通信信道18上傳輸?shù)摹５诙g碼器20接收經(jīng)編碼的語音取樣信號，并對其進(jìn)行譯碼，產(chǎn)生經(jīng)合成的輸出語音信號s合成(n)。
語音取樣信號S(n)代表已經(jīng)按照本領(lǐng)域方法(如，脈沖編碼調(diào)制(PCM)、壓擴(kuò)μ律或A律)中的任何一種方法數(shù)字化和量化的語音信號。
正如本領(lǐng)域中人們所知道的那樣，語音取樣信號S(n)被組織成輸入數(shù)據(jù)幀，其中，每一幀包含預(yù)定數(shù)量的數(shù)字化語音取樣信號s(n)。在一種典型的實(shí)施例中，采用8kHz的取樣速率，這時(shí)，每一20毫秒的幀包含160個(gè)取樣信號。在下面描述的實(shí)施例中，從8kbps(全速率)到4kbps(二分之一速率)到2kbps(四分之一速率)到1kbps(八分之一)，數(shù)據(jù)傳輸?shù)乃俾试谥饌€(gè)幀的基礎(chǔ)上是可變的。最好數(shù)據(jù)傳輸速率是可變的，這是因?yàn)閷τ诎鄬^少語音信息的數(shù)據(jù)幀來說，可以有選擇地采用較低的數(shù)據(jù)速率。正如本領(lǐng)域中的普通技術(shù)人員所了解的那樣，也可以采用其他的取樣速率、幀大小和數(shù)據(jù)傳輸速率。
第一編碼器10和第二譯碼器20一起包含一個(gè)第一語音編碼器或語音編譯碼器。同樣，第二編碼器16和第一譯碼器14一起包含一個(gè)第二語音編碼器。本領(lǐng)域中的技術(shù)人員能夠理解，語音編碼器能夠用數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、離散電路的邏輯門電路、固件或傳統(tǒng)的可編程軟件模塊和微處理器來構(gòu)成。軟件模塊可以做在RAM存儲器、按塊擦除存儲器、寄存器、或本領(lǐng)域中已知的其他形式的可寫儲存介質(zhì)。也可以用任何一種傳統(tǒng)的處理器、控制器或狀態(tài)機(jī)來代替微處理器。特別設(shè)計(jì)用于語音編碼的專用集成電路見美國專利5,727,123和申請日為1994年2月16日、標(biāo)題為“聲碼器專用集成電路”的美國專利申請08/197,417，二者均已轉(zhuǎn)讓給本發(fā)明的受讓人。
圖2中，可以用在語音編碼器中的編碼器100包括模式?jīng)Q定模塊102、基音估計(jì)模塊104、LP分析模塊106、LP分析濾波器108、LP量化模塊110和殘留量化模塊112。輸入語音幀s(n)被提供到模塊決定模塊102、基音估計(jì)模塊104、LP分析模塊106以及LP分析濾波器108。模式?jīng)Q定模塊102根據(jù)每一輸入語音幀s(n)的周期性，產(chǎn)生模式索引IM和模式M。按照周期性對語音幀進(jìn)行分類的各種方法見申請日為1997年3月11日、標(biāo)題是“METHOD AND APPARATUS FOR PERFORMING REDUCEDRATE VARIABLE RATE VOCODING”的美國專利申請08/815,354，該專利申請已轉(zhuǎn)讓給本發(fā)明的受讓人。這些方法也已并入電信行業(yè)協(xié)會行業(yè)暫行標(biāo)準(zhǔn)TIA/EIA IS-127和TIA/EIA IS-733。
基音估計(jì)模塊104根據(jù)每一輸入的語音幀s(n)產(chǎn)生基音索引IP和滯后值P0。LP分析模塊106對每一輸入的語音幀s(n)執(zhí)行線性預(yù)告分析，產(chǎn)生LP參數(shù)a。LP參數(shù)a被提供到LP量化模塊110。LP量化模塊110還接收模式M。LP量化模塊110產(chǎn)生LP索引ILP以及經(jīng)量化的參數(shù)。LP分析濾波器108除了輸入語音幀s(n)以外還接收經(jīng)量化的LP參數(shù)。LP分析濾波器108產(chǎn)生LP殘留信號R[n]，它代表輸入語音幀s(n)和量化的線性預(yù)告參數(shù)之間的誤差。LP殘留R[n]、模式M和量化LP參數(shù)被提供到殘留量化模塊112。根據(jù)這些值，殘留量化模塊112產(chǎn)生殘留索引IR和經(jīng)量化的殘留信號圖3中，語音編碼器中可以使用的譯碼器200包括LP參數(shù)譯碼模塊202、剩余譯碼模塊204、模式譯碼模塊206以及LP合成濾波器208。模式譯碼模塊206接收模式索引IM并對其進(jìn)行譯碼，由此產(chǎn)生模式M。LP參數(shù)譯碼模塊202接收模式M，和LP索引ILP。LP參數(shù)譯碼模塊202對接收值進(jìn)行譯碼，以產(chǎn)生經(jīng)量化的LP參數(shù)。剩余譯碼模塊204接收剩余索引IR、基音索引IP和模式索引IM。剩余譯碼模塊204對接收值進(jìn)行譯碼，產(chǎn)生量化的殘留信號經(jīng)量化的殘留信號和經(jīng)量化的LP參數(shù)被提供到LP合成濾波器208，由它來合成經(jīng)譯碼的輸出語音信號圖2所示編碼器100各種模塊的操作和構(gòu)成以及圖3中所示譯碼器是本領(lǐng)域中已知的，其詳細(xì)描述見L.B Rabiner和R.W.Schafer的Digital Processing ofSpeech Signal，396-453(1978)。典型的編碼器和典型的譯碼器見美國專利5,414,796。
圖4中的流程圖描述了一種按照一種實(shí)施例用于語音的非話音段低數(shù)據(jù)速率編碼技術(shù)。圖4中所示的低速率非話音編碼模式提供了一種在更低平均數(shù)據(jù)速率下的多模式語音編碼器，通過準(zhǔn)確捕獲每一幀數(shù)量較少的數(shù)據(jù)位的非話音部分，它保留了整體較高的話音質(zhì)量。
在步驟300，編碼器對非話音的以及不是非話音的輸入語音幀執(zhí)行外部數(shù)量確定和識別。速率的確定是通過考慮到從語音幀S[n]獲取的幾個(gè)參數(shù)來完成的，這里，n＝1，2，3，…，N，比如，幀的能量(E)、幀的周期(Rp)以及頻譜傾斜(Ts)。將這些參數(shù)與一組預(yù)定的閾值比較。根據(jù)比較的結(jié)果，判斷當(dāng)前幀是否是非話音的。如下所述，如果當(dāng)前幀是非話音的，則將其編碼為非話音的幀。
按照下面的等式，可以確定幀的能量E=1N*Σm=1NS[m]*S[m]]]>按照下面的等式，可以決定幀的周期 k＝1，2，…，N這里，是x的自相關(guān)函數(shù)。按照下面的等式，可以確定頻譜傾斜Ts＝(Eh/El)這里，Eh和El是Sl[n]和Sh[n]的能量值，Sl和Sh是原始語音幀S[n]的低通和高通分量，它們可以由一組低通濾波器和高通濾波器來產(chǎn)生。
在步驟302，進(jìn)行LP分析，產(chǎn)生非話音幀的線性預(yù)告剩余。線性預(yù)告(LP)是采用本領(lǐng)域中眾所周知的技術(shù)來完成的，詳見美國專利5,414,796，和L.B.Rabinet與R.W.Schafer的Digital Processing of Speech Signals 396-458(1978)。N取樣的非話音LP剩余R[n]是從輸入語音幀S[n]中產(chǎn)生的，這里，n＝1，2，…，N。正如在上面對比文獻(xiàn)中所描述的那樣，采用已知的LSP量化技術(shù)，在線性頻譜對(LSP)域中使LP參數(shù)量化。原始語音信號幅度與離散時(shí)間索引之間的關(guān)系見圖5A中所示。經(jīng)量化的非話音語音信號幅度與離散時(shí)間索引之間的關(guān)系見圖5B所示。原始非話音剩余信號幅度與離散時(shí)間索引之間的關(guān)系見圖5C所示。能量包絡(luò)幅度與離散時(shí)間索引之間的關(guān)系見圖5D所示。經(jīng)量化的非話音殘留信號幅度與離散時(shí)間索引之間的關(guān)系見圖5E所示。
在步驟304，獲取非話音殘留信號的精細(xì)時(shí)間分辨率能量參數(shù)。執(zhí)行下面的步驟，從非話音剩余R[n]中獲取幾個(gè)(M)本地能量參數(shù)Ei，這里，i＝1，2，…，M。將N個(gè)取樣剩余R[n]分成(M-2)子塊Xi，這里，i＝1，2，3，…，M-1，每一塊Xi的長度是L＝N/(M-2)。從前一幀的過去(past)量化剩余中得到L個(gè)取樣的過去剩余塊X1。(L個(gè)取樣的過去剩余塊X1含有最后語音幀N個(gè)取樣剩余的最后L個(gè)取樣)。從下一個(gè)幀的LP剩余中得到L個(gè)取樣的將來剩余塊XM。(L個(gè)取樣的將來剩余塊XM含有下一個(gè)語音幀N取樣LP剩余開頭的L個(gè)取樣。)按照下面的等式，從M個(gè)塊Xi中的每一個(gè)中產(chǎn)生M個(gè)本地能量參數(shù)Ei，這里，i＝1，2，…，M。
E=1L*Σm=1NXi[m]*Xi[m]]]>在步驟306，按照錐形進(jìn)位矢量量化(PVQ)方法，用Nr個(gè)數(shù)據(jù)位，對M個(gè)能量參數(shù)進(jìn)行編碼。所以，用Nr個(gè)數(shù)據(jù)位對M-1個(gè)本地能量值Ei進(jìn)行編碼，形成量化的能量值Wi，這里，i＝2，3，…，M。采用數(shù)據(jù)位N1，N2，…，NK的K個(gè)步驟的PVQ編碼方案，從而N1+N2+…+NK＝Nr，即，用于量化非話音剩余R[n]的數(shù)據(jù)位總數(shù)。對于k個(gè)級(stage)中的每一個(gè)級，執(zhí)行下面的步驟(這里，k＝1，2，…，K)。對于第一級(即，k＝1)，將頻帶數(shù)設(shè)置在Bk＝Bl＝1，并且頻帶長度設(shè)置在Lk＝1。對于每一頻帶Bk，按照下面的等式，設(shè)置平均值meanj，這里，j＝1，2，…，Bkmeanj=1Lj*Σm=1LjEm]]>用Nk＝Nl將Bk平均值meanj量化，而形成平均值qmeanj的量化組，這里，j＝1，2，…，Bk。將屬于每一頻帶Bk的能量除以相關(guān)量化的平均值qmeanj，而產(chǎn)生新的一組能量值{Ek，i}＝{El，i}，這里，i＝1，2，…，M。在第一級的情況下(即，對于k＝1)，對于每一i，(i＝1，2，…，M)El，I＝Ei/qmeansl分成子頻帶、獲取每一頻帶的平均值、用每一級的數(shù)據(jù)位使平均值量化，并且隨后將子頻帶的分量除以子帶的量化平均值，對于每一以后的級k，重復(fù)這一過程，這里k＝2，3，…，K-1。
在第k級，采用全部Nk個(gè)數(shù)據(jù)位，用為每一頻帶而設(shè)計(jì)的各個(gè)VQ，使Bk子頻帶中每一個(gè)的分矢量量化。M＝8以及級＝4的PVQ編碼過程是通過圖6中所示的例子來描述的。
在步驟308，形成M個(gè)量化的能量矢量。通過用最終剩余的分矢量和量化平均值最終使上述PVQ編碼過程反向，從編碼簿(codebook)和代表PVQ信息的Nr個(gè)數(shù)據(jù)位中形成M個(gè)量化的能量矢量。圖7中通過舉例，描述了M＝3以及級k＝3時(shí)的PVQ譯碼過程。正如本領(lǐng)域中的普通技術(shù)人員能夠理解的那樣，非話音的(UV)增益可以用任何一種傳統(tǒng)的編碼技術(shù)來量化。編碼技術(shù)方案并非僅限于圖4-7中所描述的實(shí)施例的PVQ方案。
在步驟310，形成高分辨率的能量包絡(luò)。按照下面計(jì)算，從經(jīng)譯碼的能量值Wi，形成N個(gè)取樣(即，語音幀的長度)，高時(shí)間分辨率的能量包絡(luò)ENV[n]，這里，n＝1，2，3，…，N，i＝1，2，3，…，M。M個(gè)能量值代表語音當(dāng)前剩余M-2個(gè)子幀的能量，每一子幀的長度L＝N/M。W1和WM的值分別代表最后的剩余幀的過去的L個(gè)取樣，和下一個(gè)剩余幀未來L個(gè)取樣的能量。
如果Wm-1、Wm和Wm+1分別代表第m-1個(gè)、第m個(gè)和第m+1個(gè)子帶的能量，那么對于n＝m*L-L/2至n＝m*L+L/2，代表第m個(gè)子幀的能量包絡(luò)ENV[n]的采樣計(jì)算如下對于n＝m*L-L/2，一直到n＝m*L，ENV[n]=Wm-1+(1/L)*(n-m*L+L)*(Wm-Wm-1)]]>并且對于n＝m*L，一直到n＝m*L+L/2，ENV[n]=Wm+(1/L)*(n-m*L)*(Wm+1-Wm)]]>假設(shè)m＝2，3，4，…，M，對于M-1個(gè)頻帶中的每一個(gè)頻帶，重復(fù)對能量包絡(luò)ENV[n]進(jìn)行計(jì)算的步驟，以計(jì)算整個(gè)能量包絡(luò)ENV[n]，這里，對于當(dāng)前剩余幀，n＝1，2，…，N。
在步驟312，通過使能量包絡(luò)ENV[n]對隨機(jī)噪聲進(jìn)行著色，形成量化后的非話音殘留信號。按照下面的等式，形成量化后的非話音剩余qR[n]qR[n]＝噪聲[n]*ENV[n]，n＝1，2，…，N這里，噪聲[n]是具有單位方差的隨機(jī)白噪聲信號，它是由與編碼器和譯碼器同步的隨機(jī)數(shù)發(fā)生器模擬產(chǎn)生的。
在步驟314，形成量化的非話音語音幀。正如在本領(lǐng)域中以及在上述美國專利5,414,796中以及L.B.Rabiner與R.W.Schafer在Digital Processing of SpeechSignal，396-458(1978)中所描述的那樣，采用傳統(tǒng)的LP合成技術(shù)，通過將量化后的非話音語音進(jìn)行逆向LP濾波，產(chǎn)生量化的非話音剩余qS[n]。
在一種實(shí)施例中，通過測量感測的(perceptual))誤差測量如感測的信噪比(PSNR)，可以執(zhí)行質(zhì)量控制步驟，而PSNR定義如下
PSNR=10*log10Σn=1N(x[n]-e[n])2Σn=1Ne[n]*e[n]]]>這里，x[n]＝h[n]*R[n]，而e(n)＝h[n]*qR[n]，“*”表示卷積或?yàn)V波操作，h(n)是感測的加權(quán)LP濾波器，而R[n]和qR[n]分別是原始的和量化的非話音剩余。將PSNR與一預(yù)定的閾值比較。如果PSNR小于該閾值，則非話音編碼方案就不會進(jìn)行恰當(dāng)?shù)氐玫綀?zhí)行，并且可以執(zhí)行更高速率的編碼方式，代替更精確地捕獲當(dāng)前幀。另一方面，如果PSNR超過預(yù)定的閾值，則非話音的編碼方案就得到了很好的執(zhí)行，并保留該模式判斷。
上文中已經(jīng)描述了本發(fā)明的較佳實(shí)施例。然而，對本領(lǐng)域中普通技術(shù)人員而言，在不偏離本發(fā)明的精神和范圍的情況下，還可以對這些實(shí)施例作各種各樣的修正。所以，本發(fā)明并非僅限于這些實(shí)施例，而應(yīng)當(dāng)以權(quán)利要求書來限定本發(fā)明。
權(quán)利要求
1.一種對非話音語音進(jìn)行低數(shù)據(jù)位速率語音編碼的方法，其特征在于，它包含將輸入的語音幀標(biāo)識為非話音的語音幀；對所述非話音語音幀進(jìn)行線性預(yù)告分析，以產(chǎn)生非話音的線性預(yù)告殘余；從所述非話音的線性預(yù)告殘余中，獲取高時(shí)間分辨率的能量參數(shù)；對所述高時(shí)間分辨率的能量參數(shù)進(jìn)行編碼；對所述高時(shí)間分辨率的能量參數(shù)進(jìn)行量化處理，形成經(jīng)量化的能量矢量；形成高時(shí)間分辨率的能量包絡(luò)；通過用所述高時(shí)間分辨率的能量包絡(luò)使隨機(jī)噪聲著色(coloring)，生成量化的非話音殘余；以及生成量化的非話音語音幀。
2.如權(quán)利要求1所述的方法，其特征在于，所述獲取高時(shí)間分辨率能量參數(shù)包含獲取M個(gè)本地能量參數(shù)Ei，其中，i＝1，2，…，M，它是通過執(zhí)行下述步驟而從非話音殘余R[n]中獲得的將N-取樣殘余R[n]劃分成(M-2)個(gè)子塊Xi，其中，i＝2，3，…，M-1，每一子塊Xi具有長度L＝N/(M-2)；從前一幀過去量化殘余中獲取L-取樣過去殘余塊X1；從后一幀的線性預(yù)告殘余中獲取L-取樣未來殘余塊XM；按照下面的等式，從M個(gè)子塊中的每一子塊Xi，i＝1，2，…，M，中生成M個(gè)本地能量參數(shù)Ei，這里，i＝1，2，…，ME=1L*Σm=1LXi[m]*Xi[m].]]>
3.如權(quán)利要求1所述的方法，其特征在于，形成高時(shí)間分辨率能量包絡(luò)包含采用從下一幀得到的先行參數(shù)值以及從前一幀得到的前一參數(shù)值，使用于幀邊界處的當(dāng)前幀的能量包絡(luò)光滑。
4.如權(quán)利要求1所述的方法，其特征在于，形成高分辨率能量包絡(luò)包含按照下面的計(jì)算，從經(jīng)解碼的能量值Wi，i＝1，2，3，…M，來形成N-取樣高時(shí)間分辨率的能量包絡(luò)ENV[n]、語音幀的長度，這里，n＝1，2，3，…N，M個(gè)能量值代表語音當(dāng)前殘余的M-2個(gè)子幀的能量，每一子幀具有的長度是L＝N/M；W1和WM的值分別代表最后的殘余幀過去L個(gè)取樣的能量以及下一殘余幀未來L個(gè)取樣的能量；Wm-1、Wm和Wm+1分別代表第(m-1)、第m和第(m+1)個(gè)子帶的能量；對于n＝m*L-L/2至n＝m*L+L/2，代表第m個(gè)子幀的能量包絡(luò)ENV[n]的取樣值計(jì)算為對于n＝m*L-L/2直至n＝m*L，ENV[n]=Wm-1+(1/L)*(n-m*L+L)*(Wm-Wm-1);]]>以及對于n＝m*L直至n＝m*L+L/2，ENV[n]=Wm+(1/L)*(n-m*L)*(Wm+1-Wm),]]>其中，所述計(jì)算能量包絡(luò)ENV[n]的步驟是假設(shè)m＝2，3，4，…，M，對于M-1個(gè)帶中的每一個(gè)，重復(fù)進(jìn)行的，以計(jì)算整個(gè)能量包絡(luò)ENV[n]，這里，對于當(dāng)前殘余幀，n＝1，2，…，N。
5.如權(quán)利要求1所述的方法，其特征在于，對所述高時(shí)間分辨率能量參數(shù)進(jìn)行編碼包含按照錐形進(jìn)位矢量量化方法對所述能量參數(shù)進(jìn)行編碼。
6.一種對非話音語音進(jìn)行低數(shù)據(jù)位速率語音編碼的語音編碼器，其特征在于，它包含將輸入的語音幀標(biāo)識為非話音的語音幀的裝置；對所述非話音語音幀進(jìn)行線性預(yù)告分析以產(chǎn)生非話音的線性預(yù)告殘余的裝置；從所述非話音的線性預(yù)告殘余中獲取高時(shí)間分辨率的能量參數(shù)的裝置；對所述高時(shí)間分辨率的能量參數(shù)進(jìn)行編碼的裝置；對所述高時(shí)間分辨率的能量參數(shù)進(jìn)行量化處理以形成經(jīng)量化的能量矢量的裝置；形成高時(shí)間分辨率的能量包絡(luò)的裝置；通過用所述高時(shí)間分辨率的能量包絡(luò)使隨機(jī)噪聲著色以生成量化的非話音殘余的裝置；以及生成量化的非話音語音幀的裝置。
全文摘要
一種用于語音的非話音部分的低數(shù)據(jù)速率編碼方案，它包括這樣一些步驟從語音幀獲取高時(shí)間分辨率能量系數(shù)、使能量系數(shù)量化、從量化的能量系數(shù)中產(chǎn)生高時(shí)間分辨率的能量包絡(luò)，以及用能量包絡(luò)的量化值形成隨機(jī)產(chǎn)生的噪聲矢量從而重新構(gòu)筑殘留信號。能量包絡(luò)可以采用線性插入技術(shù)來產(chǎn)生?？梢垣@得后處理測量，并將其與預(yù)定的閾值比較，以確定編碼規(guī)則是否執(zhí)行恰當(dāng)。
文檔編號G10L19/14GK1815558SQ200410045610
公開日2006年8月9日申請日期1999年11月12日優(yōu)先權(quán)日1998年11月13日
發(fā)明者A·達(dá)斯, S·曼朱那什申請人:高通股份有限公司

完整全部詳細(xì)技術(shù)資料下載