專利名稱:非話音語音的高性能低比特率編碼方法和設(shè)備的制作方法
背景發(fā)明領(lǐng)域所揭示的實施例涉及語音處理領(lǐng)域。更具體地說,所揭示的實施例涉及一種新穎的和經(jīng)改進的非話音語音段的低比特率編碼的方法和設(shè)備。
背景通過數(shù)字技術(shù)傳輸話音已經(jīng)得到廣泛應(yīng)用,尤其是在長距離的和數(shù)字的無線電電話應(yīng)用方面。反過來,它在確定能通過一個信道發(fā)送的最少的信息量而同時保持經(jīng)重新構(gòu)造的語音的能被感知到的質(zhì)量方面引起了興趣。如果語音通過簡單的采樣和數(shù)字化傳輸,需要每秒64k比特(kbps)數(shù)量級的數(shù)據(jù)速率才能達(dá)到常規(guī)的模擬電話的語音質(zhì)量。然而,通過使用語音分析,再跟以適當(dāng)?shù)木幋a,傳輸和在接收器上再綜合,數(shù)據(jù)速率的顯著減小是能夠達(dá)到的。
應(yīng)用通過提取涉及人類語音生成模型的參數(shù)而壓縮語音的技術(shù)的設(shè)備被叫做語音編碼器。語音編碼器把輸入的語音信號分成幾個時間大塊,或分析幀。語音編碼器通常包括一個編碼器和一個解碼器,或者一個編碼解碼器。編碼器分析輸入的語音幀以提取一定的相關(guān)參數(shù),然后將這些參數(shù)量化為兩進制的表示,即變?yōu)橐唤M比特或一個兩進制數(shù)據(jù)包。數(shù)據(jù)包通過通信信道傳輸?shù)浇邮掌骱徒獯a器。解碼器處理該數(shù)據(jù)包,將其解量化以產(chǎn)生參數(shù),然后用這些解量化的參數(shù)再綜合成語音幀。
語音編碼器的功能是通過去除所有語音內(nèi)在多余的自然信息而將數(shù)字化的語音信號壓縮為低比特率的信號。數(shù)字化的壓縮通過用一組參數(shù)表示輸入的語音幀以及應(yīng)用量化來用一組比特表示這些參數(shù)而達(dá)到。如果該輸入的語音幀有一個比特數(shù)Ni,以及由語音編碼器產(chǎn)生的數(shù)據(jù)包有一個比特數(shù)No,由語音編碼器得到的壓縮因子Cr=Ni/No。挑戰(zhàn)是既要保留經(jīng)解碼的語音的高語音質(zhì)量,又要達(dá)到目標(biāo)的壓縮因子。語音編碼器的性能取決于(1)語音模式,或上述分析和綜合處理的結(jié)合進行得怎樣好,和(2)在每幀No比特的目標(biāo)比特率上參數(shù)量化處理進行得怎樣好。語音模式的目標(biāo)是對于每一個幀用一個小的參數(shù)組就能夠捕獲到語音信號的本質(zhì)或目標(biāo)語音質(zhì)量。
語音編碼器可以被作為時域的編碼器實施,它試圖通過應(yīng)用高時間分辨率的處理來捕獲時域的語音波形而一次編碼一個小的語音片段(通常是5毫秒(ms)的子幀)。對于每一個子幀,來自一個編碼本空間的高精確度表示通過在技術(shù)上已知的各種算法系統(tǒng)而被找到?;蛘?,語音編碼器可以被作為頻域的編碼器實施,它試圖用一組參數(shù)(分析)捕獲輸入語音幀的短期語音頻譜以及應(yīng)用一個相應(yīng)綜合處理從該頻譜參數(shù)重新創(chuàng)立語音波形。參數(shù)量化器根據(jù)在A.Gersho & R.M.Gray的著作“矢量量化和信號壓縮”(1992)中敘述的已知的量化技術(shù),通過用儲存的編碼矢量對它們的描繪而保存這些參數(shù)。
一種眾所周知的時域語音編碼器是在L.B.Rabiner & R.W.Schafer的著作“語音信號的數(shù)字處理”396-453(1978)中敘述的代碼激勵線性預(yù)測(CELP)編碼器,該文通過引用而全部被結(jié)合在本文中。在CELP編碼器中,語音信號的短期相關(guān),或冗余,通過一個線性預(yù)測(LP)分析而去除,從中發(fā)現(xiàn)一個短期共振峰濾波系數(shù)。將短期濾波應(yīng)用到輸入的語音幀產(chǎn)生一個LP殘余信號,該信號用長期預(yù)測濾波參數(shù)和一個后續(xù)的隨機碼本進一步模式化和量化。這樣,CELP編碼將編碼時域的語音波形的任務(wù)分解為獨立的編碼LP短時間濾波系數(shù)和編碼LP殘余的任務(wù)。時域編碼能以一個固定速率(即對每一個幀用相同的比特數(shù)N0)或以一個變化的速率(對不同類型的幀內(nèi)容用不同的比特率)實行。可變速率編碼器試圖只用將編碼解碼參數(shù)編碼到一個適合于獲得目標(biāo)質(zhì)量的水平所需要的比特數(shù)量。一個示例的可變速率CELP編碼器在美國專利號No.5414796中作過敘述,它被轉(zhuǎn)讓給本揭示的實施例的受讓人并且通過引用而完全結(jié)合在本文中。
諸如CELP編碼器的時域編碼器通常依賴于每幀高數(shù)量的比特數(shù)No來保持時域語音波形的精確度。這樣的編碼器通常傳遞由相對大(例如8kbps或以上)的每幀比特數(shù)N0提供的優(yōu)秀的語音質(zhì)量。然而,在低比特率(4kbps或以下)時由于受到可得到的比特數(shù)的限制,時域編碼器就不能保持高質(zhì)量和穩(wěn)健的性能。在低比特率時,受限制的碼本空間降低了常規(guī)的時域編碼器在高速率商業(yè)應(yīng)用中成功施展的波形匹配能力。
通常,CELP方案應(yīng)用一個短期預(yù)測(STP)濾波和一個長期預(yù)測(LTP)濾波。一種通過綜合的分析(AbS)方法被用在編碼器上以發(fā)現(xiàn)LTP延時和增益以及最佳的隨機碼本增益和指數(shù)。當(dāng)前的最新技術(shù)編碼器諸如增強的可變速率編碼器(EVRC)能在大約每秒8k比特的數(shù)據(jù)速率上達(dá)到綜合后的語音的優(yōu)良質(zhì)量。
大家也知道,非話音的語音是不能顯示其周期性的。在常規(guī)的CELP方案中編碼LTP濾波消耗的帶寬對于非話音語音是不象語音的周期性強因而LTP濾波才有意義的話音語音那樣被有效率地利用。因此,對于非話音語音就需要一種更高效率(即更低的比特率)的編碼方案。
對于在低比特率上編碼,發(fā)展了各種語音的頻譜的或頻域的編碼方法,在這些方法中,語音信號被分析作為一個頻譜的時間變化的演變。例如參看“語音編碼和綜合”第四章(M.B.Kleijn & K.K.Paliwal,1995版)中R.J.McAulay& T.F.Quatieri的“正弦編碼”。在頻譜編碼器中,目標(biāo)將用一組頻譜參數(shù)來建模或預(yù)測每個語音的輸入幀的短期語音頻譜,而不是去精確地模仿時間變化的語音波形。然后頻譜參數(shù)被編碼,并且語音的一個輸出幀被用經(jīng)解碼的參數(shù)創(chuàng)立。結(jié)果的綜合的語音和初始的輸入語音波形不匹配,但提供了相似的感覺質(zhì)量。在技術(shù)上眾所周知的頻域編碼器的實例包括多頻帶激勵編碼器(MBEs),正弦變換編碼器(STCs),以及諧波編碼器(HCs)。這樣的頻域編碼器提供了一種高質(zhì)量的參數(shù)模型,該參數(shù)模型具有一組能用在低比特率下得到的低比特數(shù)精確量化的緊湊的參數(shù)。
然而,低比特率編碼帶來了一個有限的編碼分辨率或有限的碼本空間的重大約束,它限制了單個的編碼機制的有效性,使編碼器不能在各種背景條件下用相同的精確度描繪各種類型的語音片段。例如,常規(guī)的低比特率頻域編碼器不傳遞語音幀的相位信息。代之以的是,相位信息要通過用一個隨機的人工產(chǎn)生的初始相位值和線性內(nèi)插法技術(shù)重新構(gòu)成。例如參看在“29電子通信”856-57(1993年5月)中H.Yang等人的“在MBE模型中的對于話音語音綜合的二次階段內(nèi)插法”。因為相位信息是人工產(chǎn)生的,即使正弦曲線的振幅由量化-非量化處理完全保持,由頻域編碼器產(chǎn)生的輸出語音將和初始的輸入語音不對齊(即主要的節(jié)奏將不同步)。因此已經(jīng)證實,在頻域編碼器中,采用任何閉環(huán)性能測試,諸如信-噪比(SNR)或感覺SNR等是困難的。
一個在低比特率條件下高效地對語音編碼的有效技術(shù)是多模式編碼。多模式編碼技術(shù)已經(jīng)和一種開環(huán)模式判決處理相結(jié)合而用于進行低速率語音編碼。一種這樣的多模式編碼技術(shù)在“語音編碼和綜合”第七章(M.B.Kleijn &K.K.Paliwal,1995版)中Amitava Das等人的“語音的多模式和可變速率編碼”中敘述過。常規(guī)的多模式編碼器將不同的模式,或編碼-解碼算法應(yīng)用到輸入語音幀的不同類型。每一個模式,或編碼-解碼處理都以最有效率的方式定制成描繪一個語音片段的一定的類型,諸如有話音語音,非話音語音,或背景噪聲(無話音)。一個外部的開環(huán)模式判決機制審查了輸入語音幀并且作出將哪一種模式應(yīng)用到該幀的決定。該開環(huán)模式判決通常通過從輸入幀提取一定數(shù)目的參數(shù)進行,對該參數(shù)關(guān)于一定的時間的和頻譜的特征進行評估,并將模式判決基于該評估的基礎(chǔ)之上。這樣,模式判決的作出就不需要事先知道輸出語音的精確條件,即根據(jù)聲音質(zhì)量或其他性能度量,輸出語音將怎樣接近于輸入語音。一種對于一個語音的編碼解碼的實例的開環(huán)模式判決在美國專利號5414796中敘述過,它被轉(zhuǎn)讓給本揭示的實施例的受讓人并且通過引用而完全結(jié)合在本文中。
多模式編碼可以是固定速率的,對每一個幀使用同一個比特數(shù)N0,或者是可變速率的,對不同的模式使用不同的比特率。在可變速率編碼中的目標(biāo)是只使用將編碼解碼器參數(shù)編碼到一個適合于獲得目標(biāo)質(zhì)量的水平所需要的比特數(shù)量。結(jié)果,就能應(yīng)用可變比特速率(VBR)技術(shù)在一個相當(dāng)?shù)偷钠骄俾噬汐@得和固定速率的,更高速率的編碼器一樣的目標(biāo)聲音質(zhì)量。一種實例的可變速率語音編碼器在美國專利號5414796中敘述過,它被轉(zhuǎn)讓給本揭示的實施例的受讓人并且通過引用而完全結(jié)合在本文中。
目前,存在一個研究發(fā)展在中等到低比特率(即在2.4到4kbps和以下的范圍)上工作的高質(zhì)量語音編碼器的利益和強大的商業(yè)需求的浪潮。該應(yīng)用領(lǐng)域包括無線電話,衛(wèi)星通信,互聯(lián)網(wǎng)電話,各種多媒體和語音流應(yīng)用,話音郵件,和其他話音儲存系統(tǒng)。驅(qū)動力就是對高容量的需要和對在數(shù)據(jù)包丟失情況下的穩(wěn)健性能的要求。對各種當(dāng)前的語音編碼的標(biāo)準(zhǔn)化的努力是另一個直接驅(qū)動力,推進了低速率語音編碼算法的研究和發(fā)展。低速率語音編碼器創(chuàng)立了每個可允許應(yīng)用帶寬更多的通道或用戶,和一個附加的合適的信道編碼層耦合的低速率語音編碼器能夠適合編碼器規(guī)范的總體的比特預(yù)算量,并在信道誤差條件下傳遞穩(wěn)健的性能。
因此,多模式VBR語音編碼是一種在低比特率下編碼語音的有效的機構(gòu)。常規(guī)的多模式方案對于各種語音片段(非話音,話音,過渡)以及背景噪聲或靜音的模式需要高效率的編碼方案的結(jié)構(gòu)或模式。語音編碼器的總體性能取決于每一個模式進行得怎樣好,編碼器的平均速率取決于非話音的,話音的和其他語音片段的不同模式的比特率。為了在低平均速率下達(dá)到目標(biāo)質(zhì)量,必須設(shè)計高效率的高性能的模式,其中一些模式必須在低比特率下工作。通常,話音的和非話音的語音片段在高比特率下被捕獲,背景噪聲和靜音片段用在一個相當(dāng)?shù)偷乃俾氏鹿ぷ鞯哪J矫枥L。這樣,就存在一個對精確捕獲一個高百分比的非話音的語音片段,同時每幀只使用最小數(shù)目的比特的高性能低比特率編碼的需要。
概述本揭示的實施例致力于一種精確捕獲非話音的語音片段,同時每幀只使用最小數(shù)目的比特的高性能低比特率編碼技術(shù)。因而,在本發(fā)明的一個實施例中,一種解碼非話音語音片段的方法包括用接收到的多個子幀的指數(shù)來恢復(fù)一組經(jīng)量化的增益;對多個子幀中的每一個子幀,產(chǎn)生一個包括隨機數(shù)的隨機噪聲信號;對多個子幀中的每一個子幀,選擇隨機噪聲信號的一個預(yù)定百分比的最高振幅隨機數(shù);由對每一個子幀恢復(fù)的增益按比例縮放經(jīng)選擇的最高振幅隨機數(shù),以產(chǎn)生一個按比例縮放的隨機噪聲信號;帶通濾波和成形該按比例縮放的隨機噪聲信號;以及基于所接收到的濾波器選擇指示,選擇一個第二濾波器,以及用選擇的濾波器進一步成形所述按比例縮放的隨機噪聲信號。
附圖簡述通過在下文中結(jié)合附圖進行的詳盡敘述,本揭示的實施例的特征,目的和優(yōu)點將變得更加清楚。在附圖中,相同的參考標(biāo)號始終對應(yīng)相同的部件。附圖中
圖1是用語音編碼器終止在通信信道的每一端的框圖;圖2A是能在高性能低比特率語音編碼器中使用的一種編碼器的框圖;圖2B是能在高性能低比特率語音編碼器中使用的一種解碼器的框圖;圖3描繪了一種能在圖2A的編碼器中使用的高性能低比特率非話音語音編碼器;圖4描繪了一種能在圖2B的解碼器中使用的高性能低比特率非話音語音解碼器;圖5是描繪非話音語音的高性能低比特率編碼技術(shù)的編碼步驟的流程圖;圖6是描繪非話音語音的高性能低比特率編碼技術(shù)的解碼步驟的流程圖;圖7A是在帶能分析中應(yīng)用的低通濾波的頻率響應(yīng)的曲線圖;圖7B是在帶能分析中應(yīng)用的高通濾波的頻率響應(yīng)的曲線圖;圖8A是在感覺濾波中應(yīng)用的帶通濾波的頻率響應(yīng)的曲線圖;圖8B是在感覺濾波中應(yīng)用的初始成形濾波的頻率響應(yīng)的曲線圖;圖8C是可在最后的感覺濾波中應(yīng)用的一個成形濾波的頻率響應(yīng)的曲線圖;圖8D是可在最后的感覺濾波中應(yīng)用的另一個成形濾波的頻率響應(yīng)的曲線圖;較佳實施例的詳細(xì)描述本揭示的實施例為非話音語音的高性能低比特率編碼提供了一種方法和設(shè)備。非話音信號被數(shù)字化和轉(zhuǎn)換成采樣的幀。非話音信號的每一幀由一個短期預(yù)測濾波器濾波以產(chǎn)生短期信號塊。每一個幀被分解為多個子幀。然后為每一個子幀計算一個增益。這些增益被相繼量化并傳輸。然后,產(chǎn)生一個隨機噪聲塊并由下文詳盡敘述的方法濾波。該經(jīng)濾波的隨機噪聲由量化的子幀增益按比例縮放以形成一個表示該短期信號的量化的信號。在解碼器處產(chǎn)生一個隨機噪聲幀,并且以和編碼器處的隨機噪聲相同的方式濾波。然后解碼器處的經(jīng)濾波的隨機噪聲由接收到的子幀增益按比例縮放,并經(jīng)過一個短期預(yù)測濾波,以形成一個表示初始采樣的綜合的語音幀。
揭示的實施例對各種非話音語音提出了一種新穎的編碼技術(shù)。在每秒2k比特的速率下,經(jīng)綜合的非話音語音的質(zhì)量在感覺上相當(dāng)于需要高得多的數(shù)據(jù)速率的常規(guī)的CELP方案產(chǎn)生的質(zhì)量。根據(jù)本揭示的實施例,能夠編碼一個高百分比(大約為百分之二十)的非話音語音片段在圖1中,第一編碼器10接收數(shù)字化的語音采樣s(n)并對該采樣s(n)進行編碼,以便于在傳媒12或通信信道12上傳遞到第一解碼器14。解碼器14對經(jīng)編碼的采樣進行解碼并對輸出的語音信號SSYNTH(n)進行綜合。為了在相對的方向進行傳輸,第二編碼器16對在通信信道18上傳輸?shù)臄?shù)字化的語音采樣s(n)進行編碼。第二解碼器20接收并解碼該經(jīng)編碼的語音采樣,產(chǎn)生一個綜合的輸出語音信號SSYNTH(n)。
語音采樣s(n)表示了已經(jīng)根據(jù)技術(shù)上已知的各種方法數(shù)字化和量化的語音信號,這些方法包括例如脈沖編碼調(diào)制(PCM)壓擴μ律或A律。如在技術(shù)上已知的,語音采樣s(n)被組織成輸入數(shù)據(jù)幀,其中每一個幀都包括一個預(yù)定數(shù)目的數(shù)字化語音采樣s(n)。在一個示例實施例中,應(yīng)用了8kHz的采樣速率,每20ms幀包括160采樣。在下文敘述的實施例中,數(shù)據(jù)傳輸?shù)乃俾士梢栽趲綆幕A(chǔ)上從8kbps(全速率)到4kbps(半速率)到2kbps(四分之一速率)到1kbps(八分之一速率)變化。或者可以用其他的數(shù)據(jù)速率。如在本文中所用的那樣,術(shù)語“全速率”或“高速率”通常是指大于或等于8kbps的數(shù)據(jù)速率,術(shù)語“半速率”或“低速率”通常是指小于或等于4kbps的數(shù)據(jù)速率。變化數(shù)據(jù)傳輸速率是有利的,因為較低的比特率可以有選擇地應(yīng)用于包含相對較少語音信息的幀上。如在本技術(shù)領(lǐng)域熟悉的人士所理解的那樣,也可以應(yīng)用其他的采樣速率,幀尺寸和數(shù)據(jù)傳輸速率。
第一編碼器10和第二解碼器20一起構(gòu)成第一語音編碼器或語音編碼解碼器。相似地,第二編碼器16和第一解碼器14一起構(gòu)成第二語音編碼器。在本技術(shù)領(lǐng)域熟悉的人士能夠理解的是,語音編碼器可以用數(shù)字信號處理器(DSP),專用集成電路(ASIC),分立門邏輯,固件,或任何常規(guī)的可編程軟件模塊和微處理器實施。軟件模塊可以駐留在RAM存儲器,閃速存儲器,寄存器,以及在技術(shù)上已知的任何其他形式的可寫儲存媒介中。或者,任何常規(guī)的處理器,控制器,或狀態(tài)機能夠被用來代替微處理器。專門為語音編碼設(shè)計的示例的ASIC在美國專利號5727123中敘述過,它被轉(zhuǎn)讓給本揭示的實施例的受讓人并且通過引用而完全結(jié)合在本文中。該示例也在題為“用于在移動電話系統(tǒng)中進行快速語音壓縮的專用集成電路(ASIC)”的美國專利號5784532中敘述過,它被轉(zhuǎn)讓給本揭示的實施例的受讓人并且通過引用而完全結(jié)合在本文中。
圖2A是圖1描繪的可以應(yīng)用本揭示的實施例的編碼器(10,16)的框圖。由一個短期預(yù)測濾波器200濾波一個語音信號s(n)。該語音本身s(n)和/或在短期預(yù)測濾波器200的輸出處的線性預(yù)測殘余信號r(n)向語音分類器202提供輸入。
語音分類器202的輸出向開關(guān)203提供輸入,使開關(guān)203能夠以語音的經(jīng)分類的模式為基礎(chǔ)選擇相應(yīng)的模式編碼器(204,206)。在本技術(shù)領(lǐng)域熟悉的人士將理解,語音分類器202不限制于話音的和非話音的語音分類,也可以分類過渡,背景噪聲(靜音),或其他類型的語音。
話音語音編碼器204通過任何常規(guī)的諸如CELP或原型波形內(nèi)插法(PWI)的方法編碼話音語音。
非話音語音編碼器205根據(jù)下文敘述的實施例編碼低比特率的非話音語音。根據(jù)一個實施例參考圖3的細(xì)節(jié)敘述非話音語音編碼器206。
由編碼器204或編碼器206編碼以后,多路復(fù)用器208形成一個包括數(shù)據(jù)包,語音模式和其他經(jīng)編碼的參數(shù)的數(shù)據(jù)包比特流,以用于傳輸。
圖2B是圖1描繪的可以應(yīng)用本揭示的實施例的解碼器(14,20)的框圖。
除多路復(fù)用器210接收一個包比特流,從該比特流多路分解出數(shù)據(jù),并且恢復(fù)數(shù)據(jù)包,語音模式,和其他經(jīng)編碼的參數(shù)。
多路分解器210的輸出向開關(guān)211提供輸入,使開關(guān)211能夠以語音的經(jīng)分類的模式為基礎(chǔ)選擇相應(yīng)的模式解碼器(212,214)。在本技術(shù)領(lǐng)域熟悉的人士將理解,開關(guān)211不限制于話音的和非話音的語音模式,并且也可以識別過渡,背景噪聲(靜音),或其他類型的語音。
話音語音解碼器212通過進行話音編碼器204的反向操作對話音語音進行解碼。
在一個實施例中,如下文參考圖4詳盡敘述的那樣,非話音語音解碼器214對以低比特率傳輸?shù)姆窃捯粽Z音進行解碼。
解碼器212或解碼器214解碼以后,綜合的線性預(yù)測殘余信號被短期預(yù)測濾波器216濾波。短期預(yù)測濾波器216的輸出處的綜合的語音被通向一個后濾波處理器218以產(chǎn)生最后的輸出語音。
圖3是圖2描繪的高性能低比特率非話音語音編碼器206的詳盡框圖。圖3詳盡描繪了非話音編碼器的一個實施例的裝置和操作順序。
數(shù)字化的語音采樣s(n)被輸入到線性預(yù)測編碼(LPC)分析器302和LPC濾波器304。LPC分析器302產(chǎn)生數(shù)字化語音采樣的線性預(yù)測(LP)系數(shù)。LPC濾波器304產(chǎn)生被輸入到增益計算部件306和非按比例縮放的帶能分析器314的語音殘余信號r(n)。
增益計算部件306將每一個數(shù)字化語音采樣幀分解成子幀,為每一個子幀計算一組下文被稱作增益或指數(shù)的碼本增益,將增益分解成子組,并且使每一個子組的增益標(biāo)準(zhǔn)化。語音殘余信號r(n),n=0,…,N-1,被分段成K個子幀,其中N是一個幀中殘余采樣的數(shù)目。在一個實施例中,K=10以及N=160。增益G(i),i=0,…,K-1,對于每一個子幀以如下方法計算G(i)=Σk=0N/K-1r(i×N/K+k)2,i=0,...,K-1,]]>以及G(i)G(i)N/K]]>增益量化器308將K增益量化,對于增益的增益碼本指數(shù)相繼被傳輸。量化可以用常規(guī)的線性的或矢量的量化方案或者用任何其他變型進行。一個具體化的方案是多級矢量量化。
來自LPC濾波器304的殘余信號輸出r(n)通過在非按比例縮放帶能分析器314中的一個低通濾波器和一個高通濾波器。對于殘余信號r(n)計算出r(n),E1,Elp1,和Ehp1的能量值。E1是殘余信號r(n)中的能量,Elp1是殘余信號r(n)中的低帶能量,Ehp1是殘余信號r(n)中的高帶能量。在一個實施例中,非按比例縮放帶能分析器314的低通濾波器和高通濾波器的頻率響應(yīng)分別在圖7A和圖7B中顯示。能量值E1,Elp1,和Ehp1的計算如下E1=Σi=0N-1r2(n),]]>rlp(n)=Σi=1MIp-1rlp(n-i)×alp(i)+Σj=0NIp-1(n-j)×blp(j),n=0,...,N-1,]]>rhp(n)=Σi=1Mhp-1rhp(n-i)×ahp(i)+Σj=0Nhp-1r(n-j)×bhp(j),n=0,...,N-1,]]>ElpI=ΣI=0N-1rlp2(i),]]>以及Ehp1=Σi=0N-1rhp2(i)]]>能量值E1,Elp1和Ehp1在后面被用來選擇最后成形濾波器316中的成形濾波器,用以處理隨機噪聲信號,因此隨機噪聲信號能最接近地類似于初始的噪聲信號。
對于LPC分析器302輸出的每一K個子幀,隨機數(shù)產(chǎn)生器310產(chǎn)生單位方差在-1和+1之間均勻分布的隨機數(shù)字。隨機數(shù)選擇器312相對于每一個子幀中的大多數(shù)低振幅隨機數(shù)進行選擇。對每一個子幀,最高振幅隨機數(shù)的一部分被保留。在一個實施例中,被保留的隨機數(shù)的一部分占25%。
然后每一個子幀的來自隨機數(shù)選擇器312的隨機數(shù)輸出由乘法器307用從增益量化器308輸出的子幀的各自的量化增益相乘。然后乘法器307的按比例縮放的隨機信號輸出 由感覺濾波處理。
為了提高量化的非話音語音的感覺質(zhì)量和保持其自然特征,在按比例縮放的隨機信號 上進行兩步的感覺濾波處理。
在感覺濾波處理的第一步,按比例縮放的隨機信號被通過感覺濾波器318中的兩個固定濾波器。感覺濾波器318的第一個固定濾波器是一個帶通濾波器320,它從 消除了低端和高端頻率以產(chǎn)生信號 在一個實施例中,帶通濾波器320的頻率響應(yīng)由圖8A描繪。感覺濾波器318的第二個固定濾波器是感覺成形濾波器322。由元件320計算的信號 被通過感覺成形濾波器322以產(chǎn)生信號 在一個實施例中,感覺成形濾波器322的頻率響應(yīng)由圖8B描繪。
由元件320計算的信號 和由元件322計算的信號 的計算方法如下r^2(n)=Σi=1Mbp-1r^2(n-i)×abp(i)+Σj=0Nbp-1r^1(n-j)×bbp(j),n=0,...,N-1,]]>以及r^3(n)=Σi=1Mbp-1r^3(n-i)*asp1(i)+Σj=0Nsp1-1r^2(n-j)*bsp1(j),n=0,...,N-1.]]>信號 和 的能量分別被計算成E2和E3。E2和E3的計算方法如下E2=Σi-0N-1r^22(n),]]>以及E3=Σi=0N-1r^32(n).]]>在感覺濾波處理的第二步,從感覺成形濾波器322輸出的信號 被按比例縮放成以E1和E2為基礎(chǔ)具有和從LPC濾波器304輸出的初始的殘余信號r(n)相同的能量。
在按比例縮放的帶能分析器324中,由元件322計算的按比例縮放的和經(jīng)濾波的隨機信號 經(jīng)受和先前在初始的殘余信號r(n)上由非按比例縮放的帶能分析器314進行的相同的帶能分析。
由元件322計算的信號 的計算方法如下r^3(n)=E1E2r^3(n),n=0,...,N-1.]]> 的低通帶能用Elp2表示, 的高通帶能用Ehp2表示。將 的高帶和低帶能和r(n)的高帶和低帶能比較以確定在最后成形濾波器316中使用的下一個成形濾波器。以r(n)和 的比較為基礎(chǔ),或者不用另外的濾波,或者挑選兩個固定成形濾波器中的一個濾波器以在r(n)和 之間產(chǎn)生最緊密的匹配。最后的濾波成形(或沒有額外的濾波)由將初始信號的帶能和隨機信號的帶能比較而確定。
初始信號的低帶能和按比例縮放的經(jīng)預(yù)先濾波的隨機信號的低帶能的比例Rl的計算方法如下Rl=10*log10(Elp1/Elp2)。
初始信號的高帶能和按比例縮放的經(jīng)預(yù)先濾波的隨機信號的高帶能的比例Rh的計算方法如下Rh=10*log10(Ehp1/Ehp2)。
如果比例Rl小于-3,則高通最后成形濾波器(濾波器2)被用來進一步處理 以產(chǎn)生 如果比例Rh小于-3,則低通最后成形濾波器(濾波器3)被用來進一步處理 以產(chǎn)生 否則,對 不進行任何進一步處理,因此r^(n)=r^3(n).]]>從最后成形濾波器316的輸出是量化的隨機殘余信號 信號 被按比例縮放使其具有和 相同的能量。
圖8C顯示了高通最后成形濾波器(濾波器2)的頻率響應(yīng)。圖8D顯示了低通最后成形濾波器(濾波器3)的頻率響應(yīng)。
產(chǎn)生一個濾波器選擇指示以指出為最后濾波選擇哪一個濾波器(濾波器2,濾波器3或沒有濾波器)。濾波器選擇指示被相繼傳輸,因此解碼器能夠復(fù)制最后濾波。在一個實施例中,濾波器選擇指示由兩個比特構(gòu)成。
圖4是圖2描繪的高性能低比特率非話音語音解碼器214的詳盡框圖。圖4詳盡描繪了非話音語音解碼器的一個實施例的裝置和操作順序。非話音語音解碼器接收非話音數(shù)據(jù)包,通過進行和圖2中描繪的非話音語音編碼器206反向的操作從數(shù)據(jù)包綜合非話音語音。
非話音數(shù)據(jù)包被輸入到增益去量化器406。增益去量化器406進行和圖3中描繪的非話音編碼器中的增益量化器308相反的操作。增益去量化器406的輸出是K個量化的非話音增益。
隨機數(shù)產(chǎn)生器402和隨機數(shù)選擇404進行圖3的非話音編碼器中的隨機數(shù)產(chǎn)生器310和隨機數(shù)選擇器310完全相同的操作。
然后每一個子幀的從隨機數(shù)選擇器404輸出的隨機數(shù)字由乘法器405用從增益去量化器406輸出的子幀的各自的量化增益相乘。然后乘法器405的按比例縮放的隨機信號輸出 由感覺濾波處理。
進行一個和圖3中的非話音編碼器的感覺濾波處理相同的兩步感覺濾波處理。感覺濾波器408進行和圖3中的非話音編碼器中的感覺濾波器318完全相同的操作。隨機信號 被通過感覺濾波器408中的兩個固定濾波器。帶通濾波器407和初始成形濾波409和圖3的非話音編碼器中的感覺濾波器318中使用的帶通濾波器320和初始成形濾波器322完全相同。帶通濾波器407和初始成形濾波器409以后的輸出分別被表示為 和 信號 和 如圖3的非話音編碼器中一樣進行計算。
信號 在最后成形濾波410中濾波。最后成形濾波器410和圖3的非話音編碼器中的最后成形濾波器316相同。如由圖3的非話音編碼器處產(chǎn)生的濾波器選擇指示所確定的和解碼器214處的數(shù)據(jù)比特包中接收的那樣,最后成形濾波器410進行或者是高通最后成形濾波,低通最后成形濾波,或者是不進行最后濾波。從最后成形濾波器410輸出的量化殘余信號r(n)被按比例縮放使其具有和 相同的能量。
量化的隨機信號 由LPC綜合濾波器412濾波以產(chǎn)生綜合的語音信號_(n)。
一個后續(xù)的后濾波器414可以被應(yīng)用到綜合的語音信號_(n)以產(chǎn)生最后的輸出語音。
圖5是描繪用于非話音語音的高性能低比特率編碼技術(shù)的編碼步驟的流程圖。
在步驟502,向一個非話音語音編碼器(未顯示)提供一個非話音數(shù)字化語音采樣幀。每20毫秒提供一個新幀。在一個以每秒8k比特的速率采樣非話音語音的實施例中,一個幀包含160個采樣??刂屏鞒踢M行到步驟504。
在步驟504,由LPC濾波器濾波數(shù)據(jù)幀,產(chǎn)生一個殘余信號幀??刂屏鞒踢M行到步驟506。
步驟506-516描述增益計算和殘余信號幀的量化的方法步驟。
在步驟506,殘余信號幀被分解成子幀。在一個實施例中,每一個幀被分解成十個每一個有十六采樣的子幀??刂屏鞒踢M行到步驟508。
在步驟508,對每一個子幀計算增益。在一個實施例中,計算十個子幀增益。控制流程進行到步驟510。
在步驟510,子幀增益被分解成子組。在一個實施例中,10個子幀增益被分解成每一個有五個子幀增益的兩個子組??刂屏鞒踢M行到步驟512。
在步驟512,每一個子組的增益被標(biāo)準(zhǔn)化,以便于對每一個子組產(chǎn)生一個標(biāo)準(zhǔn)化因子。在一個實施例中,為每一個有五個增益的兩個子組產(chǎn)生了兩個標(biāo)準(zhǔn)化因子??刂屏鞒踢M行到步驟514。
在步驟514,步驟512中產(chǎn)生的標(biāo)準(zhǔn)化因子被轉(zhuǎn)換到對數(shù)域或指數(shù)形式,然后被量化。在一個實施例中,產(chǎn)生一個量化的標(biāo)準(zhǔn)化因子,在下文中將被稱為指數(shù)1??刂屏鞒踢M行到步驟516。
在步驟516,步驟512中產(chǎn)生的每一個子組的標(biāo)準(zhǔn)化增益被量化。在一個實施例中,兩個子組被量化,以產(chǎn)生兩個量化增益值,在下文中將被稱為指數(shù)2和指數(shù)3。控制流程進行到步驟518。
步驟518-520敘述了產(chǎn)生一個隨機量化非話音語音信號的方法步驟。
在步驟518,為每一個子幀產(chǎn)生一個隨機噪聲信號。對每一個子幀選擇一個所產(chǎn)生的預(yù)定百分比的最高振幅隨機數(shù)。未被選擇的數(shù)被置零。在一個實施例中,被選擇的隨機數(shù)的百分比為25%??刂屏鞒踢M行到步驟520。
在步驟520,由步驟516中產(chǎn)生的每一個子幀的量化增益按比例縮放被選擇的隨機數(shù)??刂屏鞒踢M行到步驟522。
步驟522-528敘述了感覺濾波隨機信號的方法步驟。步驟522-528的感覺濾波提高了感覺質(zhì)量并且保持了隨機的量化非話音語音信號的自然屬性。
在步驟522,隨機的量化非話音語音信號被帶通濾波以消除高端和低端成分??刂屏鞒踢M行到步驟524。
在步驟524,將一個固定的初步成形濾波器應(yīng)用到隨機的量化非話音語音信號??刂屏鞒踢M行到步驟526。
在步驟526,分析隨機信號和初始的殘余信號的低帶能和高帶能。控制流程進行到步驟528。
在步驟528,將初始?xì)堄嘈盘柕哪芰糠治龊碗S機信號的能量分析比較,以確定隨機信號的進一步濾波是否必要。以該分析為基礎(chǔ),或者不濾波,或者選擇兩個預(yù)定的最后濾波器中的一個濾波器以進一步濾波隨機信號。兩個預(yù)定的最后濾波器是一個高通最后成形濾波器和一個低通最后成形濾波器。產(chǎn)生一個濾波器選擇指示信息以向解碼器指出哪一個最后濾波器(或沒有濾波器)被應(yīng)用。在一個實施例中,濾波器選擇指示信息是2比特??刂屏鞒踢M行到步驟530。
在步驟530,傳輸用于步驟514中產(chǎn)生的量化標(biāo)準(zhǔn)化因子的一個指數(shù),用于步驟516中產(chǎn)生的量化子組增益的指數(shù)以及步驟528中產(chǎn)生的濾波器選擇指示信息。在一個實施例中,傳輸指數(shù)1,指數(shù)2,指數(shù)3和一個2比特最后濾波器選擇指示。包括傳輸量化LPC參數(shù)指數(shù)所需要的比特,一個實施例的比特率為每秒2k比特。(LPC參數(shù)的量化不在本揭示的實施例的范圍之內(nèi)。)圖6是描繪非話音語音的高性能低比特率編碼技術(shù)的解碼步驟的流程圖。
在步驟602,為一個非話音語音幀接收一個標(biāo)準(zhǔn)化因子指數(shù),量化子組增益指數(shù),和一個最后濾波器選擇指示。在一個實施例中,接收指數(shù)1,指數(shù)2,指數(shù)3和一個2比特最后濾波器選擇指示??刂屏鞒踢M行到步驟604。
在步驟604,用標(biāo)準(zhǔn)化因子指數(shù)從查找表中恢復(fù)標(biāo)準(zhǔn)化因子。標(biāo)準(zhǔn)化因子從對數(shù)域或指數(shù)形式轉(zhuǎn)換到線性形式。控制流程進行到步驟606。
在步驟606,用增益指數(shù)從查找表中恢復(fù)增益。恢復(fù)的增益由恢復(fù)的標(biāo)準(zhǔn)化因子按比例縮放以恢復(fù)初始幀的每一個子組的量化增益??刂屏鞒踢M行到步驟608。
在步驟608中,完全如在編碼中一樣,為每一個子幀產(chǎn)生一個隨機噪聲信號。對每一個子幀選擇一個所產(chǎn)生的預(yù)定百分比的最高振幅隨機數(shù)。未選擇的數(shù)被置零。在一個實施例中,被選擇的隨機數(shù)的百分比為25%。控制流程進行到步驟610。
在步驟610中,選擇的隨機數(shù)由步驟606中恢復(fù)的每一個子幀的量化增益按比例縮放。
步驟612-616敘述了用于感覺濾波隨機信號的解碼方法步驟。
在步驟612,隨機量化非話音語音信號被帶通濾波以消除高端和低端成分。帶通濾波器和在編碼中使用的帶通濾波器完全一樣??刂屏鞒踢M行到步驟614。
在步驟614中,將一個固定的初步成形濾波器應(yīng)用到隨機的量化非話音語音信號。固定的初步成形濾波器和在編碼中使用的固定的初步成形濾波器完全一樣??刂屏鞒踢M行到步驟616。
在步驟616中,以濾波器選擇指示信息為基礎(chǔ),或者不濾波,或者選擇兩個預(yù)定的最后濾波器中的一個濾波器以在最后成形濾波中進一步濾波隨機信號。最后成形濾波器的兩個預(yù)定的濾波器是一個高通最后成形濾波器(濾波器2)和一個低通最后成形濾波器(濾波器3),和編碼器的高通最后成形濾波器和低通最后成形濾波器完全一樣。從最后成形濾波器輸出的量化隨機信號被按比例縮放,使其具有和帶通濾波器的信號輸出相同的能量。量化的隨機信號由一個LPC綜合濾波器濾波以產(chǎn)生一個綜合的語音信號??梢詫υ摼C合的語音信號應(yīng)用一個后續(xù)的后濾波器以產(chǎn)生最后的經(jīng)解碼的輸出語音。
圖7A是標(biāo)準(zhǔn)化的頻率相對于帶能分析(314,324)中的低通濾波器的振幅頻率響應(yīng)的曲線圖,該帶能分析器被用于分析在從編碼器的LPC濾波器(304)輸出的殘余信號r(n),以及從編碼器的初步成形濾波器(322)輸出的按比例縮放和經(jīng)濾波的隨機信號 中的低帶能。
圖7B是標(biāo)準(zhǔn)化的頻率相對于帶能分析器(314,324)中的高通濾波器的振幅頻率響應(yīng)的曲線圖,該帶能分析器被用于分析在從編碼器的LPC濾波器(304)輸出的殘余信號r(n),以及從編碼器的初步成形濾波器(322)輸出的按比例縮放和經(jīng)濾波的隨機信號 中的高帶能。
圖8A是標(biāo)準(zhǔn)化的頻率相對于帶通濾波器(320,407)中的低帶通最后成形濾波器的振幅頻率響應(yīng)的曲線圖,該帶通濾波器被用于成形從編碼器和解碼器的乘法器(307,405)輸出的按比例縮放的隨機信號 圖8B是標(biāo)準(zhǔn)化的頻率相對于初步成形濾波器(322,409)中的高帶通成形濾波器的振幅頻率響應(yīng)的曲線圖,該初步成形濾波器被用于成形從編碼器和解碼器的帶通濾波器(320,407)輸出的按比例縮放的隨機信號 圖8C是標(biāo)準(zhǔn)化的頻率相對于最后成形濾波器(316,410)中的高帶通最后成形濾波器的振幅頻率響應(yīng)的曲線圖,該最后成形濾波器被用于成形從編碼器和解碼器的初步成形濾波器(322,409)輸出的按比例縮放和經(jīng)濾波的隨機信號 圖8D是標(biāo)準(zhǔn)化的頻率相對于最后成形濾波器(316,410)中的低帶通最后成形濾波器的振幅頻率響應(yīng)的曲線圖,該最后成形濾波器被用于成形從編碼器和解碼器的初步成形濾波器(322,409)輸出的按比例縮放和經(jīng)濾波的隨機信號 前面對優(yōu)選實施例的敘述被提供來使在本技術(shù)領(lǐng)域熟練的任何人士都能實施或利用本揭示的實施例。對于這些技術(shù)上熟練的人士而言,對這些實施例進行各種修改將是容易和顯而易見的,并且本文中定義的通用原理也可以不再需要用創(chuàng)造才能而被應(yīng)用到其他實施例中。這樣,本揭示的實施例不希望僅被限制于本文顯示的實施例,而應(yīng)有和本文中揭示的原理和新穎特征相符合的寬范圍。
權(quán)利要求
1.一種編碼非話音語音片段的方法,其特征在于,該方法包括將一個殘余信號幀劃分成多個子幀;通過為多個子幀中的每一個子幀計算一個碼本增益而建立一組子幀增益;將該子幀增益組分解成子幀增益子組;標(biāo)準(zhǔn)化子幀增益子組以產(chǎn)生多個標(biāo)準(zhǔn)化因子,其中多個標(biāo)準(zhǔn)化因子的每一個因子都和子幀增益的標(biāo)準(zhǔn)化子組之一相關(guān)聯(lián);將多個標(biāo)準(zhǔn)化因子的每一個因子都轉(zhuǎn)換成指數(shù)形式并且將經(jīng)轉(zhuǎn)換的多個標(biāo)準(zhǔn)化因子量化;將標(biāo)準(zhǔn)化的子幀增益子組量化,以產(chǎn)生多個量化碼本增益,其中碼本增益的每一個增益都和多個子組之一的一個碼本增益指數(shù)相關(guān)聯(lián);對多個子幀中的每一個子幀產(chǎn)生一個包括隨機數(shù)的隨機噪聲信號;對多個子幀中的每一個子幀選擇一預(yù)定百分比的隨機噪聲信號的最高振幅隨機數(shù);對每一個子幀由量化的碼本增益按比例縮放經(jīng)選擇的最高振幅隨機數(shù)以產(chǎn)生一個按比例縮放的隨機噪聲信號;帶通濾波和成形該按比例縮放的隨機噪聲信號;分析殘余信號幀的能量和按比例縮放的隨機信號的能量以產(chǎn)生能量分析;在能量分析的的基礎(chǔ)上選擇第二濾波器并用該選擇的濾波器進一步成形按比例縮放的隨機噪聲信號;以及產(chǎn)生一個第二濾波器選擇指示以識別該選擇的濾波器。
2.如權(quán)利要求1所述的方法,其特征在于,其中將一個殘余信號幀劃分成多個子幀的步驟包括將一個殘余信號幀劃分成10個子幀。
3.如權(quán)利要求1所述的方法,其特征在于,其中將該子幀增益組分解成子幀增益子組的步驟包括將一組十個子幀增益劃分成兩組,每組五個子幀增益。
4.如權(quán)利要求1所述的方法,其特征在于,其中殘余信號幀包括以每秒八千赫茲采樣20毫秒所得的每幀160個采樣。
5.如權(quán)利要求1所述的方法,其特征在于,其中預(yù)定的最高振幅隨機數(shù)的百分比為百分之二十五。
6.如權(quán)利要求1所述的方法,其特征在于,其中兩個標(biāo)準(zhǔn)化因子是為兩個子組產(chǎn)生的,該兩個子組每一個都有五個子幀碼本增益。
7.如權(quán)利要求1所述的方法,其特征在于,其中量化子幀增益是用多級矢量量化進行的。
8.一種編碼非話音語音片段的方法,其特征在于,該方法包括將一個殘余信號幀劃分成子幀,每一個子幀有一個與其相關(guān)的碼本增益;量化增益以產(chǎn)生指數(shù);通過與子幀相關(guān)聯(lián)的指數(shù)按比例縮放和每一個子幀相關(guān)聯(lián)的某一百分比的隨機噪聲;對按比例縮放的隨機噪聲進行一次第一濾波;將經(jīng)濾波的噪聲和殘余信號比較;以該比較為基礎(chǔ)對隨機噪聲進行一次第二濾波;產(chǎn)生一個第二濾波器選擇指示以識別所進行的第二濾波。
9.如權(quán)利要求8所述的方法,其特征在于,其中將一個殘余信號幀劃分成子幀的步驟包括將一個殘余信號幀劃分成10個子幀。
10.如權(quán)利要求8所述的方法,其特征在于,其中殘余信號幀包括以每秒八千赫茲采樣20毫秒所得的每幀160個采樣。
11.如權(quán)利要求8所述的方法,其特征在于,其中隨機噪聲的百分比為百分之二十五。
12.如權(quán)利要求8所述的方法,其特征在于,其中量化增益以產(chǎn)生指數(shù)是用多級矢量量化進行的。
13.一種用于編碼非話音語音片段的語音編碼器,其特征在于,該編碼器包括將一個殘余信號幀劃分成多個子幀的裝置;通過為多個子幀中的每一個子幀計算一個碼本增益而建立一組子幀增益的裝置;將該子幀增益組分解成子幀增益子組的裝置;標(biāo)準(zhǔn)化子幀增益子組以產(chǎn)生多個標(biāo)準(zhǔn)化因子的裝置,其中多個標(biāo)準(zhǔn)化因子的每一個因子都和子幀增益的標(biāo)準(zhǔn)化子組之一相關(guān)聯(lián);將多個標(biāo)準(zhǔn)化因子的每一個因子都轉(zhuǎn)換成指數(shù)形式并且將經(jīng)轉(zhuǎn)換的多個標(biāo)準(zhǔn)化因子量化的裝置;將標(biāo)準(zhǔn)化的子幀增益子組量化,以產(chǎn)生多個量化碼本增益的裝置,其中碼本增益的每一個增益都和多個子組之一的一個碼本增益指數(shù)相關(guān)聯(lián);對多個子幀中的每一個子幀產(chǎn)生一個包括隨機數(shù)的隨機噪聲信號的裝置;對多個子幀中的每一個子幀選擇一預(yù)定百分比的隨機噪聲信號的最高振幅隨機數(shù)的裝置;對每一個子幀由量化的碼本增益按比例縮放經(jīng)選擇的最高振幅隨機數(shù)以產(chǎn)生一個按比例縮放的隨機噪聲信號的裝置;帶通濾波和成形該按比例縮放的隨機噪聲信號的裝置;分析殘余信號幀的能量和按比例縮放的隨機信號的能量以產(chǎn)生能量分析的裝置;在能量分析的的基礎(chǔ)上選擇第二濾波器并用該選擇的濾波器進一步成形按比例縮放的隨機噪聲信號的裝置;以及產(chǎn)生一個第二濾波器選擇指示以識別該選擇的濾波器的裝置。
14.如權(quán)利要求13所述的語音編碼器,其特征在于,其中將一個殘余信號幀劃分成多個子幀的裝置包括將一個殘余信號幀劃分成10個子幀的裝置。
15.如權(quán)利要求13所述的語音編碼器,其特征在于,其中將該組子幀增益劃分成子組的裝置包括將一組十個子幀增益劃分成兩個組,其中每個組為五個子幀增益的裝置。
16.如權(quán)利要求13所述的語音編碼器,其特征在于,其中選擇一預(yù)定百分比的最高振幅隨機數(shù)的裝置包括選擇百分之二十五的最高振幅隨機數(shù)的裝置。
17.如權(quán)利要求13所述的語音編碼器,其特征在于,其中標(biāo)準(zhǔn)化子組的裝置包括為兩組,每一組為五個子幀碼本增益的子組產(chǎn)生兩個標(biāo)準(zhǔn)化因子的裝置。
18.如權(quán)利要求13所述的語音編碼器,其特征在于,其中量化子幀增益的裝置包括進行多級矢量量化的裝置。
19.一種編碼非話音語音片段的語音編碼器,其特征在于,該編碼器包括將一個殘余信號幀劃分成子幀的裝置,每一個子幀有一個與其相關(guān)的碼本增益;量化增益以產(chǎn)生指數(shù)的裝置;通過與子幀相關(guān)聯(lián)的指數(shù)按比例縮放和每一個子幀相關(guān)聯(lián)的某一百分比的隨機噪聲的裝置;對按比例縮放的隨機噪聲進行一次第一濾波的裝置;將經(jīng)濾波的噪聲和殘余信號比較的裝置;以該比較為基礎(chǔ)對隨機噪聲進行一次第二濾波的裝置;產(chǎn)生一個第二濾波器選擇指示以識別所進行的第二濾波的裝置。
20.如權(quán)利要求19所述的語音編碼器,其特征在于,其中將一個殘余信號幀劃分成子幀的裝置包括將一個殘余信號幀劃分成10個子幀的裝置。
21.如權(quán)利要求19所述的語音編碼器,其特征在于,其中按比例縮放某一百分比的隨機噪聲的裝置包括一個按比例縮放百分之二十五的最高振幅隨機噪聲的裝置。
22.如權(quán)利要求19所述的語音編碼器,其特征在于,其中量化增益以產(chǎn)生指數(shù)的裝置包括進行多級矢量量化的裝置。
23.一種編碼非話音語音片段的語音編碼器,其特征在于,該編碼器包括一個增益計算部件,該部件配置成將一個殘余信號幀劃分成多個子幀,通過為多個子幀中的每一個子幀計算一個碼本增益建立一組子幀增益,將該組子幀增益劃分成子幀增益子組,標(biāo)準(zhǔn)化子幀增益子組以產(chǎn)生多個標(biāo)準(zhǔn)化因子,其中多個標(biāo)準(zhǔn)化因子中的每一個因子都和標(biāo)準(zhǔn)化的子幀增益子組中的一個子組相關(guān)聯(lián),以及將多個標(biāo)準(zhǔn)化因子中的每一個因子都轉(zhuǎn)換成指數(shù)形式;一個增益量化器,該量化器配置成量化經(jīng)轉(zhuǎn)換的多個標(biāo)準(zhǔn)化因子以產(chǎn)生量化的標(biāo)準(zhǔn)化因子指數(shù),以及量化標(biāo)準(zhǔn)化的子幀增益子組以產(chǎn)生多個量化的碼本增益,其中碼本增益中的每一個增益都和多個子組中的一個子組的一個碼本增益指數(shù)相關(guān)聯(lián);一個隨機數(shù)產(chǎn)生器,該產(chǎn)生器配置成對多個子幀中的每一個子幀產(chǎn)生一個包括隨機數(shù)的隨機噪聲信號;一個隨機數(shù)選擇器,該選擇器配置成對多個子幀中的每一個子幀選擇一預(yù)定百分比的隨機噪聲信號的最高振幅隨機數(shù);一個乘法器,該乘法器配置成為每一個子幀用量化的碼本增益按比例縮放經(jīng)選擇的最高振幅隨機數(shù),以產(chǎn)生按比例縮放的隨機噪聲信號;一個用于從按比例縮放的隨機噪聲信號中消除低端和高端頻率的帶通濾波器;一個用于感覺濾波按比例縮放的隨機噪聲信號的第一成形濾波器;一個非按比例縮放的帶能分析器,該分析器配置成分析殘余信號的能量;一個按比例縮放的帶能分析器,該分析器配置成分析按比例縮放的隨機信號的能量,以及產(chǎn)生一個和按比例縮放的隨機信號的能量相比較的殘余信號能量的相關(guān)能量分析;一個第二成形濾波器,該濾波器配置成在相關(guān)能量分析的基礎(chǔ)上選擇一個第二濾波器,用該選擇的濾波器進一步成形按比例縮放的隨機噪聲信號,并且產(chǎn)生一個第二濾波器選擇指示以識別該選擇的濾波器。
24.如權(quán)利要求23所述的語音編碼器,其特征在于,其中帶通濾波器和第一成形濾波器是固定的濾波器。
25.如權(quán)利要求23所述的語音編碼器,其特征在于,其中第二成形濾波器用兩個固定的成形濾波器配置。
26.如權(quán)利要求23所述的語音編碼器,其特征在于,其中配置成產(chǎn)生一個第二濾波器選擇指示以識別該選擇的濾波器的第二成形濾波器被進一步配置成產(chǎn)生一個兩比特濾波器選擇指示。
27.如權(quán)利要求23所述的語音編碼器,其特征在于,其中配置成將一個殘余信號幀劃分成多個子幀的增益計算部件被進一步配置成將殘余信號幀劃分成十個子幀。
28.如權(quán)利要求23所述的語音編碼器,其特征在于,其中配置成將該組子幀增益劃分成子組的增益計算部件被進一步配置成將該組十個子幀增益劃分成兩個組,其中每組為五個子幀增益。
29.如權(quán)利要求23所述的語音編碼器,其特征在于,其中配置成選擇一預(yù)定百分比的最高振幅隨機數(shù)的隨機數(shù)選擇器被進一步配置成選擇百分之二十五的最高振幅隨機數(shù)。
30.如權(quán)利要求23所述的語音編碼器,其特征在于,其中配置成標(biāo)準(zhǔn)化子組的增益計算部件被進一步配置成為每一個為五個子幀碼本增益的兩個子組產(chǎn)生兩個標(biāo)準(zhǔn)化因子。
31.如權(quán)利要求23所述的語音編碼器,其特征在于,其中增益量化器被進一步配置成進行多級矢量量化。
32.一種編碼非話音的語音片段的語音編碼器,其特征在于,該編碼器包括一個增益計算部件,該元件配置成將一個殘余信號幀劃分成多個子幀,每一個子幀都有一個與其相關(guān)聯(lián)的碼本增益;一個增益量化器,該量化器配置成量化增益以產(chǎn)生指數(shù);一個隨機數(shù)選擇器和乘法器,被配置成通過和子幀有關(guān)的指數(shù)按比例縮放一個和每一個子幀有關(guān)的某一百分比的隨機噪聲;一個第一感覺濾波器,該感覺濾波器配置成對按比例縮放的隨機噪聲進行第一濾波;一個帶能分析器,該分析器配置成將濾波的噪聲和殘余信號進行比較;一個第二成形濾波器,該濾波器配置成在該比較的基礎(chǔ)上對隨機噪聲進行第二濾波,并且產(chǎn)生一個第二濾波器選擇指示以識別所進行的第二濾波。
33.如權(quán)利要求32所述的語音編碼器,其特征在于,其中被配置成將殘余信號幀劃分成子幀的增益計算部件被進一步配置成將殘余信號幀劃分成十個子幀。
34.如權(quán)利要求32所述的語音編碼器,其特征在于,其中被配置成按比例縮放某一百分比的隨機噪聲的隨機噪聲選擇器和乘法器被進一步配置成按比例縮放百分之二十五的最高振幅隨機噪聲。
35.如權(quán)利要求32所述的語音編碼器,其特征在于,其中被配置成量化增益以產(chǎn)生指數(shù)的增益量化器被進一步配置成進行多級矢量量化。
36.如權(quán)利要求32所述的語音編碼器,其特征在于,其中被配置成對按比例縮放的隨機噪聲進行第一濾波的第一感覺濾波器被進一步配置成用一個固定的帶通濾波器和一個固定的成形濾波器對按比例縮放的隨機噪聲進行濾波。
37.如權(quán)利要求32所述的語音編碼器,其特征在于,其中被配置成對隨機噪聲進行第二濾波的第二成形濾波器被進一步配置成具有兩個固定的濾波器。
38.如權(quán)利要求32所述的語音編碼器,其特征在于,其中被配置成產(chǎn)生一個第二濾波器選擇指示的第二成形濾波器被進一步配置成產(chǎn)生一個兩比特濾波器選擇指示。
39.一種解碼非話音語音片段的方法,其特征在于,該方法包括用接收到的多個子幀的指數(shù)恢復(fù)一組量化增益;對多個子幀中的每一個子幀產(chǎn)生一個包括隨機數(shù)的隨機噪聲信號;對多個子幀中的每一個子幀選擇一個隨機噪聲信號的預(yù)定百分比的最高振幅隨機數(shù);對每一個子幀用被恢復(fù)的增益按比例縮放經(jīng)選擇的最高振幅隨機數(shù)以產(chǎn)生一個按比例縮放的隨機噪聲信號;帶通濾波和成形該按比例縮放的隨機噪聲信號;以及在一個接收到的濾波器選擇指示的基礎(chǔ)上選擇第二濾波器并且用選擇的濾波器進一步成形經(jīng)比例縮放的隨機噪聲信號。
40.如權(quán)利要求39所述的方法,其特征在于,該方法進一步包括進一步濾波按比例縮放的隨機噪聲。
41.如權(quán)利要求39所述的方法,其特征在于,其中多個子幀包括經(jīng)編碼的非話音語音的每幀十個子幀的劃分。
42.如權(quán)利要求39所述的方法,其特征在于,其中多個子幀包括經(jīng)劃分成子組的子幀增益的劃分。
43.如權(quán)利要求42所述的方法,其特征在于,其中子組包括將一個十個子幀增益的組劃分成兩個組,每組為五個子幀增益。
44.如權(quán)利要求41所述的方法,其特征在于,其中經(jīng)編碼的非話音語音幀包括以每秒八千赫茲采樣20毫秒所得的每幀160個采樣。
45.如權(quán)利要求39所述的方法,其特征在于,其中預(yù)定百分比的最高振幅隨機數(shù)為百分之二十五。
46.如權(quán)利要求43所述的方法,其特征在于,其中為每一組為五個子幀增益的兩個子組恢復(fù)兩個標(biāo)準(zhǔn)化因子。
47.如權(quán)利要求1所述的方法,其特征在于,其中恢復(fù)一組量化增益是用多級矢量量化進行的。
48.一種解碼非話音語音片段的方法,其特征在于,該方法包括從接收到的和每一個子幀有關(guān)的指數(shù)恢復(fù)劃分成子幀增益的量化增益;通過和每一個子幀有關(guān)的指數(shù)按比例縮放和每一個子幀有關(guān)的某一百分比的隨機噪聲;對按比例縮放的隨機噪聲進行第一濾波;對隨機噪聲進行由一個濾波器選擇指示確定的第二濾波。
49.如權(quán)利要求48所述的方法,其特征在于,該方法包括進一步濾波按比例縮放的隨機噪聲。
49.如權(quán)利要求48所述的方法,其特征在于,其中子幀增益包括經(jīng)編碼的非話音語音的每幀十個子幀增益的劃分。
50.如權(quán)利要求49所述的方法,其特征在于,其中經(jīng)編碼的非話音語音幀包括以每秒八千赫茲采樣20毫秒所得的每幀160個采樣。
51.如權(quán)利要求48所述的方法,其特征在于,其中隨機噪聲的百分比是百分之二十五。
52.如權(quán)利要求48所述的方法,其特征在于,其中恢復(fù)的量化增益是通過多級矢量量化進行量化的。
53.一種解碼非話音語音片段的解碼器,其特征在于,該解碼器包括用接收到的多個子幀的指數(shù)恢復(fù)一組量化增益的裝置;對多個子幀中的每一個子幀產(chǎn)生一個包括隨機數(shù)的隨機噪聲信號的裝置;對多個子幀中的每一個子幀選擇一個隨機噪聲信號的預(yù)定百分比的最高振幅隨機數(shù)的裝置;對每一個子幀用被恢復(fù)的增益按比例縮放經(jīng)選擇的最高振幅隨機數(shù)以產(chǎn)生一個按比例縮放的隨機噪聲信號的裝置;帶通濾波和成形該按比例縮放的隨機噪聲信號的裝置;以及在一個接收到的濾波器選擇指示的基礎(chǔ)上選擇第二濾波器并且用選擇的濾波器進一步成形經(jīng)比例縮放的隨機噪聲信號的裝置。
54.如權(quán)利要求53所述的編碼器,其特征在于,該編碼器包括進一步濾波按比例縮放的隨機噪聲的裝置。
55.如權(quán)利要求53所述的編碼器,其特征在于,其中用于選擇隨機噪聲信號的預(yù)定百分比的最高振幅隨機數(shù)的裝置進一步包括用于選擇百分之二十五的最高振幅隨機數(shù)的裝置。
56.一種解碼非話音的語音片段的解碼器,其特征在于,該解碼器包括一個配置成用接收到的多個子幀的指數(shù)恢復(fù)一組量化增益的增益去量化器;一個配置成對多個子幀中的每一個子幀產(chǎn)生一個包括隨機數(shù)的隨機噪聲信號的隨機數(shù)產(chǎn)生器;一個配置成對多個子幀中的每一個子幀選擇隨機噪聲信號的預(yù)定百分比的最高振幅隨機數(shù)的隨機數(shù)選擇器;一個配置成通過恢復(fù)的每一個幀的增益按比例縮放經(jīng)選擇的最高振幅隨機數(shù)以產(chǎn)生一個按比例縮放的隨機噪聲信號的隨機數(shù)選擇器和乘法器;一個濾波和成形按比例縮放的隨機噪聲信號的帶通濾波器和第一成形濾波器;以及一個配置成在一個接收到的濾波器選擇指示的基礎(chǔ)上選擇第二濾波器并且用選擇的濾波器進一步成形按比例縮放的隨機噪聲信號的第二成形濾波器。
57.如權(quán)利要求56所述的語音編碼器,其特征在于,該編碼器進一步包括一個配置成進一步濾波按比例縮放的隨機噪聲的后濾波器。
58.如權(quán)利要求56所述的語音編碼器,其特征在于,其中配置成選擇隨機噪聲信號的預(yù)定百分比的最高振幅隨機數(shù)的隨機數(shù)選擇器被進一步配置成選擇百分之二十五的最高振幅隨機數(shù)。
58.一種解碼非話音語音片段的語音編碼器,其特征在于,該編碼器包括從接收到的和每一個子幀有關(guān)的指數(shù)恢復(fù)劃分成子幀增益的量化增益的裝置;通過和每一個子幀有關(guān)的指數(shù)按比例縮放和每一個子幀有關(guān)的某一百分比的隨機噪聲的裝置;對按比例縮放的隨機噪聲進行第一濾波的裝置;對隨機噪聲進行由一個濾波器選擇指示確定的第二濾波的裝置。
59.如權(quán)利要求58所述的語音編碼器,其特征在于,該編碼器包括進一步濾波按比例縮放的隨機噪聲的裝置。
60.如權(quán)利要求58所述的語音編碼器,其特征在于,其中按比例縮放和每一個子幀有關(guān)的一個百分比的隨機噪聲的裝置進一步包括按比例縮放和每一個子幀有關(guān)的25%的隨機噪聲的裝置。
61.一種解碼非話音的語音片段的語音編碼器,其特征在于,該編碼器包括一個被配置成從接收到的和每一個子幀有關(guān)的指數(shù)恢復(fù)被分解成子幀增益的量化增益的增益去量化器;一個被配置成通過和子幀有關(guān)的指數(shù)按比例縮放和每一個子幀有關(guān)的一個百分比的隨機噪聲的隨機數(shù)選擇器和乘法器;一個被配置成對按比例縮放的隨機噪聲進行一個第一感覺濾波的第一成形濾波器;一個被配置成對隨機噪聲進行一個由一個濾波器選擇指示確定的第二濾波的第二成形濾波器。
62.如權(quán)利要求61所述的語音編碼器,其特征在于,該編碼器包括一個進一步濾波按比例縮放的隨機噪聲的后濾波器。
63.如權(quán)利要求61所述的語音編碼器,其特征在于,其中配置成按比例縮放一個和每一個子幀有關(guān)的某一百分比的隨機噪聲的隨機數(shù)選擇器和乘法器進一步配置成按比例縮放和每一個子幀有關(guān)的25%的隨機噪聲。
全文摘要
一種用于非話音的語音片段的低比特率編碼技術(shù)。一組增益在由一個線性預(yù)測濾波器白化語音信號以后從一個殘余信號獲得。然后這些增益被量化并被應(yīng)用到一個隨機產(chǎn)生的稀疏的激勵上。該激勵被濾波,其頻譜特性被分析并且和初始的殘余信號的頻譜特性進行比較。在該分析的基礎(chǔ)上選擇一個濾波器以成形該激勵的頻譜特性而達(dá)到最佳的性能。
文檔編號G10L19/04GK1470051SQ01817414
公開日2004年1月21日 申請日期2001年10月6日 優(yōu)先權(quán)日2000年10月17日
發(fā)明者黃鵬俊 申請人:高通股份有限公司