專利名稱:用于預(yù)測量化有聲語音的方法和設(shè)備的制作方法
背景技術(shù):
I.發(fā)明領(lǐng)域本發(fā)明主要涉及語音處理領(lǐng)域,尤其涉及用于預(yù)測量化有聲語音的方法和設(shè)備。
II.背景借助數(shù)字技術(shù)的語音傳送已變得普遍,尤其是在長距離和數(shù)字無線電電話應(yīng)用中。這依次建立了對確定可在信道上發(fā)送的最少量的信息,而保持重構(gòu)的語音的可察覺的質(zhì)量的興趣。如果通過簡單地采樣和數(shù)字化而發(fā)送語音,要求大約每秒64千比特(kbps)的數(shù)據(jù)速率,以實現(xiàn)常規(guī)模擬電話的語音質(zhì)量。然而,通過對語音分析的使用,繼之以適當(dāng)?shù)木幋a、傳送以及在接收機(jī)處的重新合成,可以在數(shù)據(jù)速率中實現(xiàn)顯著的降低。
用于壓縮語音的設(shè)備在電信的許多領(lǐng)域中得到了應(yīng)用。一個示例性的領(lǐng)域是無線通信。無線通信領(lǐng)域有許多應(yīng)用,包括例如無繩電話、尋呼、無線本地回路、諸如蜂窩網(wǎng)和PCS電話系統(tǒng)之類的無線電話技術(shù)、移動網(wǎng)際協(xié)議(IP)電話技術(shù)以及衛(wèi)星通信系統(tǒng)。尤其重要的應(yīng)用是用于移動用戶的無線電話技術(shù)。
已經(jīng)為無線通信系統(tǒng)發(fā)展了各種空中接口,包括例如頻分多址(FDMA)、時分多址(TDMA)以及碼分多址(CDMA)。與此有關(guān)的是,已經(jīng)建立了各種國內(nèi)的和國際的標(biāo)準(zhǔn),包括例如高級移動電話服務(wù)(AMPS)、全球移動通信系統(tǒng)(GSM)以及暫行標(biāo)準(zhǔn)95(IS-95)。示例性的無線電話技術(shù)通信系統(tǒng)是碼分多址(CDMA)系統(tǒng)。由電信工業(yè)協(xié)會(TIA)和其他著名的標(biāo)準(zhǔn)團(tuán)體頒布了IS-95標(biāo)準(zhǔn)及其派生的IS-95A、ANSI J-STD-008、IS-95B、建議的第3代標(biāo)準(zhǔn)IS-95C以及IS-2000等等(這里把它們一起稱為IS-95),為蜂窩網(wǎng)或PCS電話技術(shù)通信系統(tǒng)規(guī)定了CDMA空中接口的使用。在美國專利號5,103,459和4,901,307中描述了實質(zhì)上根據(jù)對IS-95標(biāo)準(zhǔn)的使用而配置的示例性無線通信系統(tǒng),把它們轉(zhuǎn)讓給本發(fā)明的受讓人,并按引用而充分結(jié)合于此。
把使用技術(shù)以通過提取關(guān)于人類語音產(chǎn)生的模型的參數(shù)來壓縮語音的設(shè)備稱為語音編碼器。語音編碼器將進(jìn)入的語音信號分成時間塊或分析幀。語音編碼器典型地包括編碼器和解碼器。編碼器分析進(jìn)入的語音幀,以提取某些相關(guān)參數(shù),并然后將這些參數(shù)量化成二進(jìn)制表示,即量化成一組比特或二進(jìn)制數(shù)據(jù)分組。在通信信道上將數(shù)據(jù)分組傳送到接收機(jī)和解碼器。解碼器處理數(shù)據(jù)分組,對它們進(jìn)行非量化以產(chǎn)生參數(shù),并使用所述非量化的參數(shù)重新合成所述語音幀。
語音編碼器的功能是通過除去語音中所固有的所有自然冗余而將數(shù)字化的語音信號壓縮成低比特率的信號。通過使用一組參數(shù)表示輸入語音幀,并使用量化以用一組比特來表示所述參數(shù),來實現(xiàn)數(shù)字壓縮。如果輸入語音幀具有Ni個比特,并且語音編碼器產(chǎn)生的數(shù)據(jù)分組具有No個比特,則由該語音編碼器實現(xiàn)的壓縮系數(shù)是Cr=Ni/No。問題是要保留經(jīng)解碼的語音的高語音質(zhì)量,而實現(xiàn)目標(biāo)壓縮系數(shù)。語音編碼器的性能取決于(1)語音模型或上述分析與合成處理的組合能多好地進(jìn)行,以及(2)能多好地以每幀No比特的目標(biāo)比特率進(jìn)行參數(shù)量化處理。從而,語音模型的目的是用每幀一小組參數(shù)來捕獲語音信號的本質(zhì),或目標(biāo)語音質(zhì)量。
語音編碼器的設(shè)計中最重要的也許是尋找較佳的一組參數(shù)(包括矢量)來描述語音信號。較佳的一組參數(shù)要求低系統(tǒng)帶寬用于對感覺上精確的語音信號的再現(xiàn)。音調(diào)、信號功率、譜包絡(luò)(或共振峰)、幅度譜、以及相位譜是語音編碼參數(shù)的例子。
可以把語音編碼器實現(xiàn)為時域編碼器,它試圖通過使用每次編碼小段語音(一般為5毫秒(ms)子幀)的高時間分辨率處理來捕獲時域語音波形。對于每個子幀,借助于本領(lǐng)域中已知的各種搜索算法可從編碼本空間建立高精度表示。另一方面,可以把語音編碼器實現(xiàn)為頻域編碼器,它試圖用一組參數(shù)(分析)捕獲輸入語音幀的短期語音頻譜,并使用對應(yīng)的合成處理,以從頻譜參數(shù)中重建語音波形。參數(shù)量化器根據(jù)A.Gersho和R.M.Gray的“Vector Quantization and SignalCompression(1992)”中所描述的已知的量化技術(shù),通過用所存儲的編碼矢量表示代表所述參數(shù),來保存這些參數(shù)。
著名的時域語音編碼器是按引用而充分結(jié)合于此的L.B.Rabiner和R.W.Schafer的“Digital Processing of Speech Signals 396-453(1978)”中所描述的碼激勵線性預(yù)測編碼器(CELP)。在CELP編碼器中,通過尋找短期共振峰濾波器系數(shù)的線性預(yù)測(LP)分析可除去語音信號中的短期相關(guān)或冗余。將短期預(yù)測濾波器施加到輸入語音幀,產(chǎn)生了LP殘余信號,用長期預(yù)測濾波器參數(shù)和隨后的隨機(jī)編碼本進(jìn)一步建模并量化該信號。從而,CELP編碼將編碼時域語音波形的任務(wù)分割成對LP短期濾波器系數(shù)編碼以及對LP殘余編碼的分開的任務(wù)。可用固定的速率(即對每幀使用相同的比特數(shù)N0)或以可變的速率(即對不同類型的幀內(nèi)容使用不同的比特率)進(jìn)行時域編碼??勺兯俾示幋a器試圖僅使用將編解碼器參數(shù)編碼成足夠獲得目標(biāo)質(zhì)量而所需的比特量。在轉(zhuǎn)讓給本發(fā)明的受讓人并按引用而充分結(jié)合于此的美國專利號5,414,796中描述了一種示例性的可變速率CELP編碼器。
諸如CELP編碼器之類的時域編碼器一般依靠每幀高比特數(shù)N0,以保存時域語音波形的精確度。只要每幀比特數(shù)N0相對較高(如8kbps或以上),這樣的編碼器一般提供極佳的語音質(zhì)量。然而,以低比特率(4kbps以及以下),由于有限的可用比特數(shù),時域編碼器不能保持高質(zhì)量和穩(wěn)固的性能。以低比特率,有限編碼本空間削減了常規(guī)時域編碼器的波形匹配能力,而在較高速率商業(yè)應(yīng)用中常規(guī)時域編碼器得到相當(dāng)成功地使用。因此,盡管隨時間的過去而得到改進(jìn),但是以低比特率操作的CELP編碼系統(tǒng)遭受到感覺上顯著的失真,一般把該失真表征為噪聲。
當(dāng)前存在研究興趣的浪潮以及對于發(fā)展以中到低的比特率(即在2.4至4kbps以及以下的范圍內(nèi))操作的高質(zhì)量語音編碼器的商業(yè)需要。應(yīng)用范圍包括無線電話技術(shù)、衛(wèi)星通信、因特網(wǎng)電話技術(shù)、各種多媒體和語音流應(yīng)用、語音郵件以及其他語音存儲系統(tǒng)。驅(qū)動力是對于高容量的需要,以及在分組丟失的情況下對穩(wěn)固的性能的需求。各種當(dāng)前的語音編碼標(biāo)準(zhǔn)化努力是推進(jìn)研究和發(fā)展低速率語音編碼算法的另一直接驅(qū)動力。低速率語音編碼器以每個可允許的應(yīng)用帶寬建立較多的信道或用戶,并且與額外的適當(dāng)?shù)男诺谰幋a層耦合的低速率語音編碼器能夠適合編碼器規(guī)范的全部比特預(yù)算,并在信道差錯的條件下提供穩(wěn)固的性能。
以低比特率有效地編碼語音的一個有效技術(shù)是多模式編碼。在轉(zhuǎn)讓給本發(fā)明的受讓人并按引用而充分結(jié)合于此的,1998年12月21日申請的名為“VARIABLERATE SPEECH CODING”的美國申請序列號09/217,941中描述了一種示例性的多模式編碼技術(shù)。常規(guī)多模式編碼器對不同類型的輸入語音幀施加不同的模式,或編碼-解碼算法。將每種模式或編碼-解碼處理,以最有效的方式定制成最優(yōu)地表示某一類型的語音段,諸如例如有聲語音、無聲語音、過渡語音(如有聲和無聲之間)以及背景噪聲(無聲或非語音)。在外部,開環(huán)模式判定機(jī)構(gòu)檢驗輸入語音幀,并作出關(guān)于要把哪種模式施加到該幀的判定。一般通過從輸入幀中提取若干參數(shù),按照某些時間和頻譜特性來估計所述參數(shù),并以所述估計作為模式判定的基礎(chǔ)來進(jìn)行所述開環(huán)模式判定。
以大約2.4kbps的速率操作的編碼系統(tǒng)一般實際上是參數(shù)的。也就是說這樣的編碼系統(tǒng)通過以規(guī)則的間隔傳送描述語音信號的音調(diào)周期和頻譜包絡(luò)(或共振峰)的參數(shù)。說明性的這些所謂的參數(shù)編碼器是LP聲碼器系統(tǒng)。
LP聲碼器用每音調(diào)周期單個脈沖來模擬有聲語音信號。可以把這種基本技術(shù)增補(bǔ)成以包括關(guān)于頻譜包絡(luò)的傳送信息。雖然LP聲碼器一般提供合理的性能,但是它們可引入感覺上顯著的失真,一般把這種失真表征為嗡嗡聲。
近年來,編碼器已顯露出波形編碼器和參數(shù)編碼器兩者的混合。說明性的這種所謂的混合編碼器是原型波形內(nèi)插(PWI)語音編碼系統(tǒng)。還可把所述PWI編碼系統(tǒng)稱為原型音調(diào)周期(PPP)語音編碼器。PWI編碼系統(tǒng)提供編碼有聲語音的有效方法。PWI的基本概念是以固定的間隔提取代表性的音調(diào)循環(huán)(原型波形),傳送其描述,并通過在原型波形之間內(nèi)插來重構(gòu)語音信號。PWI方法可在LP殘余信號上操作或者在語音信號上操作。在轉(zhuǎn)讓給本發(fā)明的受讓人,并按引用而充分結(jié)合于此的1998年12月21日申請的名為“PERIODIC SPEECH CODING”的美國專利申請序列號09/217,494中描述了示例性的PWI或PPP語音編碼器。在美國專利號5,884,253以及W.Bastiaan Kleijn和Wolfgang Granzow的“Methods forWaveform Interpolation in Speech Coding,in 1 Digital Signal Processing215-230(1991)”中描述了其他PWI或PPP語音編碼器。
在大多數(shù)常規(guī)語音編碼器中,由編碼器單獨地量化并傳送給定音調(diào)原型或給定幀的參數(shù)的每一個。此外,對每個參數(shù)傳送一個差值。所述差值指定了當(dāng)前幀或原型的參數(shù)值與先前幀或原型的參數(shù)值之間的差。然而,量化所述參數(shù)值和差值要求使用比特(以及因此要求帶寬)。在低比特率編碼器中,傳送能保持令人滿意的語音質(zhì)量的最小的比特數(shù)是有利的。由于這個原因,在常規(guī)低比特率語音編碼器中,儀量化和傳送絕對參數(shù)值。將希望減少所傳送的比特數(shù),而不減少信息值。因此,需要降低語音編碼裝置的比特速率的量化有聲語音的預(yù)測方案。
發(fā)明概述本發(fā)明針對用于量化有聲語音的預(yù)測方案,該方案降低了語音編碼裝置的比特速率。因此,在本發(fā)明的一個方面,提供了關(guān)于語音參數(shù)的量化信息的方法。該方法有利地包括為至少一個之前處理的語音幀生成參數(shù)的至少一個加權(quán)值,其中所有權(quán)值的總和等于一;從當(dāng)前處理的語音幀的參數(shù)值中減去至少一個加權(quán)值以產(chǎn)生差值;量化該差值。
在本發(fā)明的另一個方面,提供了被配置成量化關(guān)于語音參數(shù)的信息的語音編碼裝置。該語音編碼裝置有利地包括用于為至少一個之前處理的語音幀生成參數(shù)的至少一個加權(quán)值的裝置,其中所有使用的權(quán)值的總和等于一;用于從當(dāng)前處理的語音幀的參數(shù)值中減去至少一個加權(quán)值以產(chǎn)生差值的裝置;用于量化該差值的裝置。
在本發(fā)明的另一個方面,提供了被配置成量化關(guān)于語音參數(shù)的信息的基礎(chǔ)單元。該基礎(chǔ)單元有利地包括被配置成為至少一個之前處理的語音幀生成參數(shù)的至少一個加權(quán)值的參數(shù)生成器,其中所有使用的權(quán)值的總和等于一;耦合至參數(shù)生成器,并被配置成從當(dāng)前處理的語音幀的參數(shù)值中減去至少一個加權(quán)值以產(chǎn)生差值,并量化該差值的量化器。
在本發(fā)明的另一個方面,提供了被配置成量化關(guān)于語音參數(shù)的信息的客戶單元。該客戶單元有利地包括處理器;耦合至處理器的存儲媒介,它包含一組可由處理器執(zhí)行的指令,用于為至少一個之前處理的語音幀生成參數(shù)的至少一個加權(quán)值,其中所有使用的權(quán)值的總和等于一,以及從當(dāng)前處理的語音幀的參數(shù)值中減去至少一個加權(quán)值以產(chǎn)生差值,并量化該差值。
在本發(fā)明的另一個方面,提供了用于量化關(guān)于語音相位參數(shù)的信息的方法。該方法有利地包括為至少一個之前處理的語音幀生成相位參數(shù)的至少一個修改值;對至少一個修改值施加一些相位偏移,相位偏移的個數(shù)大于等于零;從當(dāng)前處理的語音幀的相位參數(shù)值中減去至少一個修改值以產(chǎn)生差值,并量化該差值。
在本發(fā)明的另一個方面,提供了被配置成量化關(guān)于語音相位參數(shù)的信息的語音編碼裝置。該語音編碼裝置有利地包括用于為至少一個之前處理的語音幀生成相位參數(shù)的至少一個修改值的裝置;用于對至少一個修改值施加一些相位偏移的裝置,相位偏移的個數(shù)大于等于零;用于從當(dāng)前處理的語音幀的相位參數(shù)值中減去至少一個修改值以產(chǎn)生差值的裝置;以及用于量化該差值的裝置。
在本發(fā)明的另一個方面,提供了被配置成量化關(guān)于語音相位參數(shù)的信息的客戶單元。該客戶單元有利地包括處理器;耦合至處理器的存儲媒介,它包含一組可由處理器執(zhí)行的指令,用于為至少一個之前處理的語音幀生成相位參數(shù)的至少一個修改值,對至少一個修改值施加一些相位偏移的裝置,相位偏移的個數(shù)大于等于零,從當(dāng)前處理的語音幀的參數(shù)值中減去至少一個修改值以產(chǎn)生差值,以及量化該差值。
附圖簡述
圖1是無線電話系統(tǒng)的框圖。
圖2是由語音編碼器在每一端處終止的通信信道的框圖。
圖3是語音編碼器的框圖。
圖4是語音解碼器的框圖。
圖5是包括編碼器/發(fā)射機(jī)和解碼器/接收機(jī)的語音編碼裝置的框圖。
圖6是有聲語音段的信號幅度對時間的圖。
圖7是可用于語音編碼器的量化器的框圖。
圖8是耦合至存儲媒介的處理器的框圖。
較佳實施例詳述下面將要描述的示范性實施例適用于被配置成采用了CDMA空中接口的無線電話通信系統(tǒng)中。盡管如此,本領(lǐng)域的技術(shù)人員將可以理解具體化本發(fā)明特征的用于對有聲語音進(jìn)行預(yù)測編碼的方法和設(shè)備可以適用于采用了本領(lǐng)域中的技術(shù)人員所已知的大量技術(shù)的各種通信系統(tǒng)中的任意一種。
如圖1所示,CDMA無線電話系統(tǒng)通常包括多個移動客戶單元10,多個基站12、基站控制器(BSC)14以及移動交換中心(MSC)16。MSC 16被配置成和常規(guī)的公共交換電話網(wǎng)(PSTN)18進(jìn)行接口。MSC 16還被配置成和BSC 14進(jìn)行接口。BSC 14通過回程線路耦合到基站12?;爻叹€路可以被配置成支持一些已知接口中的任何一種,如,E1/T1、ATM、IP、PPP、幀中繼、HDSL、ADSL或xDSL??梢岳斫?,系統(tǒng)中可能有多于兩個的BSC 14。每個基站12最好包括至少一個扇區(qū)(未示出),每個扇區(qū)包括一個全方向天線或者指向特定的從基站12輻射出去的方向的天線??蛇x地,每個扇區(qū)可以包括用于分集接收的兩個天線。每個基站12可以有利地被設(shè)計成支持多個頻率分配。扇區(qū)和頻率分配的交集可以被稱為CDMA信道。基站12還可以是基站收發(fā)信機(jī)子系統(tǒng)(BTS)12。可選地,“基站”在業(yè)界中可以被用來統(tǒng)稱BSC 14和一個或多個BTS 12。BTS 12還可以被表示成“小區(qū)地點”12。可選地,給定的BTS 12的單個扇區(qū)可以被稱為小區(qū)地點。移動客戶單元10一般是蜂窩或PCS電話10。系統(tǒng)有利地被配置成根據(jù)IS-95標(biāo)準(zhǔn)而使用。
在蜂窩電話系統(tǒng)的一般運行期間,基站12從移動單元10的集合接收反向鏈路信號集。移動單元10傳遞電話呼叫或其它通信。給定基站12所接收到的每個反向鏈路信號在基站12中被處理。最后的數(shù)據(jù)被傳遞給BSC 14。BSC14提供呼叫資源分派和移動管理功能,包括基站12間的軟切換控制。BSC 14還把接收到的數(shù)據(jù)路由到MSC 16,MSC 16為和PSTN 18之間的接口提供額外的路由服務(wù)。類似地,PSTN 18和MSC 16接口,而MSC 16和BSC 14接口,BSC14依次控制基站12發(fā)送前向鏈路信號集到移動單元10的集合。本領(lǐng)域的技術(shù)人員應(yīng)該理解在替換實施例中客戶單元10可以是固定單元。
在圖2中第一解碼器100接收數(shù)字化的語音采樣s(n)并對采樣s(n)進(jìn)行編碼用于在傳輸媒介102(或通信信道102)上傳輸?shù)降谝唤獯a器104。解碼器104解碼編碼的語音采樣,并合成輸出語音信號sSYNTH(n)。對于在相反方向上的傳輸,第二解碼器106編碼數(shù)字化的語音采樣s(n),該采樣在通信信道108上被傳輸。第二解碼器110接收和解碼語音采樣,生成合成輸出語音信號sSYNTH(n)。
語音采樣s(n)代表已經(jīng)根據(jù)本領(lǐng)域中的各種已知方法(包括如脈沖編碼調(diào)制(PCM)、壓縮擴(kuò)展μ律和A律)被數(shù)字化和量化的語音信號。如本領(lǐng)域中已知的,語音采樣s(n)被組織成輸入數(shù)據(jù)幀,其中每個幀包括預(yù)定個數(shù)的數(shù)字化語音采樣s(n)。在示范實施例中,采用的是8kHz的采樣率,每個20毫秒幀包括160個采樣。在下面描述的實施例中,數(shù)據(jù)傳輸率可以有利地在每一幀的基礎(chǔ)上從全速率變?yōu)榘胨俾?、四分之一速率、八分之一速率。變化的?shù)據(jù)傳輸率是有優(yōu)勢的,因為可以為包含相對較少語音信息的幀選擇性地采用較低的比特率。本領(lǐng)域的技術(shù)人員將會理解,可以使用其它采樣速率和/或幀大小。同樣在下面描述的實施例中,語音編碼(或?qū)懘a)模式可以在每一幀的基礎(chǔ)上響應(yīng)于幀的語音信息或能量而變化。
第一編碼器100和第二解碼器110一起包括第一語音編碼裝置(編碼器/解碼器),或語音編解碼器。語音編碼裝置可以被用在用于發(fā)送語音信號的任何通信設(shè)備中,包括如上面參考圖1所述的客戶單元、BTS或BSC。類似地,第二編碼器106和第二解碼器104一起包括第二語音編碼裝置。本領(lǐng)域的技術(shù)人員可以理解語音編碼裝置可以用數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、離散門邏輯、固件或任何常規(guī)可編程軟件模塊和微處理器。軟件模塊可以位于RAM存儲器、閃存、寄存器或本領(lǐng)域已知的任何其它形式的存儲媒介中。可選地,任何常規(guī)處理器、控制器或狀態(tài)機(jī)可以替換微處理器。在美國專利號No.5727123以及1994年2月16日提交的美國專利申請序列號No.08/197417,題為“VOCODER ASIC”的文件中描述了專門被設(shè)計用于語音編碼的示范ASIC,上述兩個專利都已轉(zhuǎn)讓給本發(fā)明的受讓人,并通過引用完整地引入這里。
在圖3中,可以被用在語音編碼裝置中的編碼器200包括模式?jīng)Q策模塊202,音調(diào)估計模塊204,LP分析模塊206,LP分析濾波器208,LP量化模塊210以及剩余量化模塊212。輸入語音幀s(n)被提供給模式?jīng)Q策模塊202、,音調(diào)估計模塊204、LP分析模塊206和LP分析濾波器208。模式?jīng)Q策模塊202根據(jù)周期、能量、信噪比(SNR)或過零率以及其它特征產(chǎn)生每個輸入語音幀s(n)的模式序號IM和模式M。在美國專利號No.5911128的文件中描述了根據(jù)周期分類語音幀的各種方法,上述專利已轉(zhuǎn)讓給本發(fā)明的受讓人,并通過引用完整地引入這里。這樣的方法還被引入電信工業(yè)協(xié)會臨時標(biāo)準(zhǔn)TIA/EIAIS-127和TIA/EIA IS-733中。在前面提到的美國專利申請序列號No.09/217341的文件中還描述了示范模式?jīng)Q策方案。
音調(diào)估計模塊204根據(jù)每個輸入語音幀s(n)產(chǎn)生音調(diào)序號IP和滯后值P0。LP分析模塊206對每個輸入語音幀s(n)進(jìn)行線性預(yù)測分析以生成LP參數(shù)α。LP參數(shù)α被提供給LP量化模塊210。LP量化模塊210還接收模式M,因此以依賴于模式的方法進(jìn)行量化過程。LP量化模塊210產(chǎn)生LP序號ILP和量化LP參數(shù) LP分析濾波器208接收量化LP參數(shù) 和輸入語音幀s(n)。LP分析濾波器208生成LP剩余信號R[n],它代表輸入語音幀s(n)和根據(jù)量化的線性預(yù)測參數(shù) 重建的語音之間的誤差。LP剩余信號R[n]、模式M和量化后的LP參數(shù) 被提供給剩余量化模塊212。根據(jù)這些值,剩余量化模塊212產(chǎn)生剩余序號IR和量化后的剩余信號 在圖4中,可以被用于語音解碼裝置的解碼器300包括LP參數(shù)解碼模塊302、剩余解碼模塊304、模式解碼模塊306以及LP合成濾波器308。模式解碼模塊306接收并解碼模式序號IM,由之生成模式M。LP參數(shù)解碼模塊302接收模式M和LP序號ILP。LP參數(shù)解碼模塊302解碼接收的值以產(chǎn)生量化LP參數(shù) 剩余解碼模塊304接收剩余序號IR、音調(diào)序號IP和模式序號IM。剩余解碼模塊304解碼接收到的值以生成量化剩余信號 量化剩余信號 和量化LP參數(shù) 被提供給LP合成濾波器308,該濾波器合成其中解碼出的輸出語音信號 圖3的編碼器200和圖4的解碼器300的各模塊的運作和實現(xiàn)是本領(lǐng)域中已知的,并在前面提到的美國專利號No.5414796以及L.B.Rabiner和R.W.Schafer所著的Digital Processing of Speech Signal(1978)一書中的396-453中有所描述。
在一個實施例中,多模式語音編碼器400和多模式語音解碼器402通過通信信道(或傳輸媒介)404進(jìn)行通信。通信信道404有利的是根據(jù)IS-95標(biāo)準(zhǔn)配置的RF接口。本領(lǐng)域的技術(shù)人員應(yīng)該理解編碼器400具有相關(guān)的解碼器(未示出)。編碼器400和它的相關(guān)解碼器一起形成了第一語音編碼裝置。本領(lǐng)域的技術(shù)人員還可以理解解碼器402具有相關(guān)的編碼器(未示出)。解碼器402和它的相關(guān)編碼器一起形成了第二語音編碼裝置。第一和第二語音編碼裝置可以有利地被實現(xiàn)成第一和第二DSP的一部分,并可以位于如客戶單元和PCS或蜂窩電話系統(tǒng)中的基站中,或者位于客戶單元和衛(wèi)星系統(tǒng)中的網(wǎng)關(guān)中。
編碼器400包括參數(shù)計算器406、模式分類模塊408、多個編碼模式410以及分組格式化模塊412。編碼模式410的個數(shù)被顯示為n,技術(shù)人員將會理解它可以表示任何合理的編碼模式410個數(shù)。為了簡單起見,只顯示了三個編碼模式410,并用虛線指出了其它編碼模式410的存在。解碼器402包括分組分解器和分組丟失檢測器模塊414、多個解碼模式416、消除解碼器418和后過濾器或語音合成器420。解碼模式416的個數(shù)被顯示為n,技術(shù)人員將會理解它可以表示任何合理的編碼模式416的個數(shù)。為了簡單起見,只顯示了三個編碼模式416,并用虛線指出了其它編碼模式416的存在。
語音信號s(n)被提供給參數(shù)計算器406。語音信號被分成采樣分組,稱為幀。值n指定了幀個數(shù)。在替換實施例中,線性預(yù)測(LP)剩余誤差信號被用來代替語音信號。LP參數(shù)被諸如CELP編碼裝置等語音編碼裝置使用。LP剩余的計算有利地應(yīng)通過把語音信號提供給逆LP濾波器(未示出)來進(jìn)行。如前面提到的美國專利號No.5414796以及美國專利申請序列號No.09/217494中所描述的,逆LP濾波器的傳輸函數(shù)A(z)是根據(jù)下列等式計算出的A(z)=1-a1z-1-a2z-2-…-apz-p其中系數(shù)aI是具有根據(jù)已知方法選擇的預(yù)先定義值的濾波器抽頭。數(shù)p指出了逆LP濾波器用于預(yù)測目的的之前的采樣個數(shù)。在特定的實施例中,p被設(shè)置為十。
參數(shù)計算器406根據(jù)當(dāng)前幀產(chǎn)生各個參數(shù)。在一個實施例中,這些參數(shù)包括下列的至少一個線性預(yù)測編碼(LPC)濾波器系數(shù)、線譜對(LSP)系數(shù)、規(guī)范自相關(guān)函數(shù)(NACF)、開環(huán)滯后、過零率、頻帶能量和共振峰殘留信號。在前面提到的美國專利No.5414796中詳細(xì)描述了LPC系數(shù)、LSP系數(shù)、開環(huán)滯后、頻帶能量和共振峰殘留信號的計算。在前面提到的美國專利No.5911128中詳細(xì)描述了NACF和過零率的計算。
參數(shù)計算器406被耦合至分類模塊408。參數(shù)計算器406提供參數(shù)給模式分配模塊408。模式分類模塊被耦合用于在每一幀的基礎(chǔ)上在編碼模式410之間動態(tài)切換,來為當(dāng)前幀選擇最合適的編碼模式410。模式分類模塊408通過比較參數(shù)和預(yù)先定義的閾值和/或最高值來為當(dāng)前幀選擇特定的編碼模式410。根據(jù)幀的能量內(nèi)容,模式分配模塊408把幀分類成非語音或非活動語音(如靜默、背景噪聲、或話語間的暫停),或語音。根據(jù)幀的周期,模式分類模塊408隨后把語音幀分類成特定的語音類型,如,語音的、非語音的或過渡的。
有聲語音是呈現(xiàn)相對較長周期的語音。圖6中顯示了有聲語音的一個部分。如圖所示,音調(diào)周期是語音幀的一個成份,可以被利用來分析和重建幀的內(nèi)容。無聲語音一般包括輔音聲音。過渡語音幀一般是在有聲和無聲語音之間的過渡。本領(lǐng)域的技術(shù)人員將會理解可以采用任何合理的分類方案。
對語音幀進(jìn)行分類是有好處的,因為可以用不同的編碼模式410來編碼不同類型的語音,并導(dǎo)致在諸如通信信道404等共享信道中的帶寬的更有效的使用。例如,由于有聲語音是周期的,并因此是高預(yù)測性的,所以可以用低比特率、高預(yù)測編碼模式410來編碼有聲語音。在前面提到的美國專利申請序列號No.09/217341和1999年2月26日提交的美國專利申請序列號No.09/259151,題為“CLOSED-LOOP MULTIMODE MIXED-DOMAIN LINEARPREDICTION(MDLP)SPEECH CODER”的文件中詳細(xì)描述了諸如分類模塊408的分類模塊,上述申請已轉(zhuǎn)讓給本發(fā)明的受讓人,并通過引用完整地引入這里。
模式分類模塊408根據(jù)幀的分類為當(dāng)前幀選擇一個編碼模式410。各編碼模式410被并行地連接。在任意給定的時刻編碼模式410中的一個或多個是可運行的。盡管如此,在任意給定的時刻最好只有一個模式410在工作,并且是根據(jù)當(dāng)前幀的分類來選擇的。
不同的編碼模式410有利地應(yīng)根據(jù)不同的編碼比特率、不同的編碼方案或編碼比特率和編碼方案的不同組合來工作。所用的各種編碼速率可以是全速率、半速率、四分之一速率和/或八分之一速率。所用的各種編碼方案可以是CELP編碼、原型音調(diào)周期(PPP)編碼(或波形內(nèi)插(WI)編碼)、和/或噪聲激勵線性預(yù)測(NELP)編碼。因此,例如,特定的編碼模式410可以是全速率CELP,另一種編碼模式410可以是半速率CELP,另一種編碼模式410可以是四分之一速率PPP,而另一種編碼模式410可以是NELP。
根據(jù)CELP編碼模式410,用LP殘留信號的量化版本來激勵線性預(yù)測聲道模型。整個之前幀的量化參數(shù)被用來重建當(dāng)前幀。CELP編碼模式410因此提供了相對精確的語音再生,但是使用了相對較高的編碼比特率的成本。CELP編碼模式410可以有利地被用于編碼被分類成過渡語音的幀。在前面提到的美國專利No.5414796中詳細(xì)描述了一種示范變速率CELP語音編碼裝置。
根據(jù)NELP編碼模式410,用過濾的偽隨機(jī)噪聲信號來模擬語音幀。NELP編碼模型410是達(dá)到了較低比特率的相對簡單的技術(shù)。NELP編碼模式412可以被利用來編碼被分類成無聲語音的幀。在前面提到的美國專利申請序列號No.09/217494中詳細(xì)描述了一種示范NELP編碼模式。
根據(jù)PPP編碼模式410,僅對每幀中的一音調(diào)周期子集進(jìn)行編碼。通過在這些原型周期中內(nèi)插來重構(gòu)語音信號的剩余周期。在PPP編碼的時域?qū)崿F(xiàn)中,計算第1組參數(shù),該組參數(shù)描述怎樣將前一原型周期修改到接近當(dāng)前的原型周期。選擇一個或多個編碼矢量,當(dāng)相加時,所述編碼矢量近似于當(dāng)前原型周期與經(jīng)修改的原型周期之間的差。第2組參數(shù)描述了這些經(jīng)選擇的編碼矢量。在PPP編碼的頻域?qū)崿F(xiàn)中,計算一組參數(shù)來描述原型的幅度譜和相位譜。這可在絕對意義上或如下所述地預(yù)測地進(jìn)行。在PPP編碼的任一種實現(xiàn)中,解碼器通過根據(jù)第1和第2組參數(shù)而重構(gòu)當(dāng)前原型,來合成輸出語音信號。然后在當(dāng)前重構(gòu)的原型周期和先前重構(gòu)的原型周期之間的區(qū)域上內(nèi)插所述語音信號。從而,所述原型是當(dāng)前幀的一部分,將用來自先前幀的原型線性內(nèi)插當(dāng)前幀,這些原型被同樣地置于所述幀中,以便在解碼器重構(gòu)語音信號或LP殘余信號(即使用過去的原型周期作為當(dāng)前原型周期的預(yù)測)。在上述美國專利申請序列號09/217,494中詳細(xì)描述了示例性的PPP語音編碼器。
編碼原型周期而不是整個語音幀,降低了要求的編碼比特率??捎肞PP編碼模式410有利地對被分類成有聲語音的幀進(jìn)行編碼。如圖6中所說明的那樣,有聲語音包含PPP編碼模式410所有利地采用的緩慢時變的周期的分量。通過采用有聲語音的周期,PPP編碼模式410能夠?qū)崿F(xiàn)比CELP編碼模式410低的比特率。
把經(jīng)選擇的編碼模式410耦合至分組格式化模塊412。經(jīng)選擇的編碼模式410對當(dāng)前幀編碼或量化,并將經(jīng)量化的幀參數(shù)提供給分組格式化模塊412。分組格式化模塊412有利地將經(jīng)量化的信息匯編成用于在通信信道404上傳送的分組。在一個實施例中,把分組格式化模塊412配置成提供糾錯編碼,并根據(jù)IS-95標(biāo)準(zhǔn)來格式化分組。把分組提供給發(fā)射機(jī)(未示出),將其轉(zhuǎn)換成模擬格式、對其調(diào)制,并在通信信道404上將其發(fā)送到接收機(jī)(未示出),接收機(jī)對該分組進(jìn)行接收、解調(diào)和數(shù)字化,并將分組提供給解碼器402。
在解碼器402中,分組分解器和分組丟失檢測器模塊414接收來自接收機(jī)的分組。耦合分組分解器和分組丟失檢測器模塊414,以按組分組的方式在解碼模式416之間動態(tài)地切換。解碼模式416的個數(shù)與編碼模式410的個數(shù)相同,并且本領(lǐng)域的一個普通技術(shù)人員將認(rèn)識到每個編號的編碼模式410與配置成使用相同編碼比特率和編碼方案的各自的類似編號的解碼模式416相關(guān)聯(lián)。
如果分組分解器和分組丟失檢測器模塊414檢測出分組,則分解該分組,并將其提供給有關(guān)的解碼模式416。如果分組分解器和分組丟失檢測器模塊414沒有檢測出分組,則聲明分組丟失,并且如下所述擦除解碼器418有利地進(jìn)行幀擦除處理,且擦除器418有利地按提交的有關(guān)申請所述地完成幀擦除處理(所述申請題為“FRAME ERASURE COMPENSATION METHOD IN A VARIABLE RATESPEECH CODER”,已轉(zhuǎn)讓給本發(fā)明的受讓人,通過引用結(jié)合于此)。
把解碼模式416的并行陣列和擦除解碼器418耦合至后濾波器420。所述有關(guān)的解碼模式416對分組進(jìn)行解碼或去量化,將信息提供給后濾波器420。后濾波器420重構(gòu)或合成語音幀,輸出經(jīng)合成的語音幀 在上述美國專利號5,414,796以及美國專利申請序列號09/217,494中詳細(xì)描述了示例性的解碼模式和后濾波器。
在一個實施例中,不傳送經(jīng)量化的參數(shù)本身。相反,傳送指定解碼器402中的各個查表(LUT)(未示出)中的地址的編碼本索引。解碼器402接收編碼本索引,并搜索各個編碼本LUT以獲得適當(dāng)?shù)膮?shù)值。因此,可傳送諸如(例如)音調(diào)滯后、自適應(yīng)編碼本取得以及LSP之類的參數(shù)的編碼本索引,并由解碼器402搜索三個有關(guān)的編碼本LUT。
根據(jù)CELP編碼模式410,傳送音調(diào)滯后、幅度、相位以及LSP參數(shù)。傳送LSP編碼本索引,因為要在解碼器402處合成LP殘余信號。因此,傳送了當(dāng)前幀的音調(diào)滯后值與前一幀的音調(diào)滯后值之間的差。
根據(jù)常規(guī)PPP編碼模式,在該模式中在解碼器處合成語音信號,僅傳送音調(diào)滯后、幅度和相位參數(shù)。由常規(guī)PPP語音編碼技術(shù)所使用的低比特率不允許絕對的音調(diào)滯后信息以及相對的音調(diào)滯后差值兩者的傳送。
根據(jù)一個實施例,用低比特率PPP編碼模式410傳送諸如有聲語音幀之類的高周期幀,該模式量化當(dāng)前幀的音調(diào)滯后值與前一幀的音調(diào)滯后值之間的差用于傳送,而不量化當(dāng)前幀的音調(diào)滯后值用于傳送。由于有聲語音幀本質(zhì)上是高周期的,與絕對的音調(diào)滯后值相反,傳送差值允許實現(xiàn)較低的編碼比特率。在一個實施例中,推廣這種量化,使得計算先前幀的參數(shù)值的加權(quán)和,其中權(quán)值的和為1,并且從當(dāng)前幀的參數(shù)值中減去加權(quán)和。然后量化差值。
在一個實施例中,對LPC參數(shù)的預(yù)測量化是根據(jù)下面的描述進(jìn)行的。LPC參數(shù)被轉(zhuǎn)換成線譜信息(LSI)(或LSP),它們被認(rèn)為是更適合于量化的。第M幀的N維LSI矢量可以被表示成LM≡LnM;n=0,1…N-1。在預(yù)測量化方案中,根據(jù)下列等式計算目標(biāo)量化誤差矢量TMn=(LMn-β1nU^M-1n-β2nU^M-2n-...-βPnU^M-Pn)β0n;n=0,1,...,N-1]]>其中,值{U^M-1n,U^M-2n,...,U^M-Pn;n=0,1,...,N-1}]]>是緊跟在M幀后的P個幀的LSI的貢獻(xiàn),而值{β1n,β2n,...,βPn;n=0,1,...,N-1}]]>是各自的權(quán)值,并且使得{β0n+β1n+,...,+βPn=1;n=0,1,...,N-1}.]]>貢獻(xiàn)值 可以等于相應(yīng)過去幀的量化或未量化LSP參數(shù)。這樣的方案就是自回歸(AR)方法??蛇x地,貢獻(xiàn)值 可以等于對應(yīng)于相應(yīng)過去幀的LSI參數(shù)的量化或未量化的誤差矢量。這樣的方案就是移動平均(MR)方法。
然后,用包括如分離VQ或多級VQ等各種矢量量化(VQ)技術(shù)中的任一種來把目標(biāo)誤差矢量T量化成 在A.Gersho和R.M.Gray所著的“VectorQuantization and Signal Compression(1992)”一書中描述了各種VQ技術(shù)。隨后用下列等式從量化的目標(biāo)誤差矢量 重構(gòu)量化的LSI矢量TMn=β0nTMn+β1nU^M-1n+β2nU^M-2n+...+βPnU^M-Pn;n=0,1,...,N-1]]>在一個實施例中,上述的量化方案用P=2,N=10來實現(xiàn),即TMn=(LMn-0.4T^M-1n-0.2U^M-2n)0.4;0,1,...,N-1]]>上面列出的目標(biāo)矢量T可以有利地用十六比特通過熟知的分離VQ方法來量化。
由于它們的周期屬性,有聲幀可以用這樣一種方案來編碼,其中整個比特組被用來量化已知長度幀的一個原型音調(diào)周期或原型音調(diào)周期的有限組。原型音調(diào)周期的這個長度被稱為音調(diào)延遲。相鄰幀的這些原型音調(diào)周期以及可能的原型音調(diào)周期可以被用來在不損耗感知質(zhì)量的情況下重構(gòu)整個語音幀。在前面提到的美國專利申請序列號No.09/217494中描述了從語音幀提取原型音調(diào)周期并把這些原型用于重構(gòu)整個幀的該P(yáng)PP方案。
在一個實施例中,如圖8所示,量化器500被用來量化根據(jù)PPP編碼方案的有聲幀等高周期幀。量化器500包括原型提取器502,頻域變換器504,幅度量化器506,以及相位量化器508。原型提取器502被耦合至頻域變換器504。頻域變換器被耦合至幅度量化器506和相位量化器508。
原型提取器502從語音幀s(n)中提取音調(diào)周期原型。在替換實施例中,該幀是LP殘留幀。原型提取器502把音調(diào)周期原型提供給頻域變換器504。頻域變換器504根據(jù)例如離散傅立葉變換(DFT)或快速傅立葉變換(FFT)等各種已知方法中的任一種把原型從時域表示轉(zhuǎn)換成頻域表示。頻域變換器504生成幅度矢量和相位矢量。幅度矢量被提供給幅度量化器506,而相位矢量被提供給相位量化器508。幅度量化器506量化幅度組,生成量化的幅度矢量 而相位量化器508量化相位組,生成量化的相位矢量 諸如多帶激勵(MBE)語音編碼和諧波編碼等其他用于編碼有聲幀的方案把整個幀(LP殘留或語音)或其部分轉(zhuǎn)換成通過傅立葉變換表示的頻域值,其中傅立葉變換包括可以被量化和被用于在解碼器(未示出)中合成為語音的幅度和相位。為了使用圖8的量化器和這種編碼方案,將省略原型提取器502,而頻域變換器504用于把幀的復(fù)合短期頻譜表示分解成幅度矢量和相位矢量。在任一種編碼方案中,可以先使用諸如漢明(Hamming)窗等合適的窗函數(shù)。在D.W.Griffin和J.S.Lim所著的“Multiband Exitation Vocoder”36(8)IEE Trans.on ASSP(1988年8月)中描述了示范MBE語音編碼方案。在L.B.Almeida和J.M.Tribolet所著的“Harmonic CodingA Low Bit-Rate,Good Quality,Speech Coding Technique”Pro.ICASSP’82 1664-1667(1982)中描述了示范諧波語音編碼方案。
對于任一個上述的有聲幀編碼方案,某些參數(shù)必須被量化。這些參數(shù)為音調(diào)延遲或音調(diào)頻率,音調(diào)延遲長度的原型音調(diào)周期波形,或者整個幀或其一部分的短期頻譜表示(如,傅立葉表示)。
在一個實施例中,音調(diào)延遲或音調(diào)頻率的預(yù)測量化根據(jù)下面的描述進(jìn)行。通過用于固定的比例因子來按比例縮放另一個的倒數(shù),音調(diào)頻率和音調(diào)延遲可以相互地唯一地獲得。結(jié)果,可能用下列的方法量化這些值中的任一個。幀‘m’的音調(diào)延遲(或音調(diào)頻率)可以被表示成Lm。根據(jù)下列等式,可以把音調(diào)延遲Lm量化成量化值 L^m=δ^Lm+ηm1Lm1+ηm2Lm2+...+ηmnLmn]]>其中值 分別是幀m1,m2,…mN的音調(diào)延遲(或音調(diào)頻率),值 是相應(yīng)的權(quán)值,而 由下列等式獲得δ^Lm=Lm-ηm1Lm1-ηm2Lm2-...-ηmnLmn]]>并用已知的各種標(biāo)量或矢量量化技術(shù)量化。在特定實施例中,實現(xiàn)了只用四比特量化 的低比特率有聲語音編碼方案。
在一個實施例中,整個幀或其部分的原型音調(diào)周期或短期頻譜是根據(jù)下列的描述進(jìn)行的。如上所討論,有聲幀的原型音調(diào)周期可以通過首先把時域波形轉(zhuǎn)換成頻域來有效地量化(在語音域或LP殘留域),在頻域中信號可以被表示成幅度和相位矢量。然后可以用下面描述的方法的組合來獨立地量化幅度和相位矢量的所有或某些要素。同樣如上面所提到的,在諸如MBE或諧波編碼方案等其他方案中,幀的復(fù)合短期頻譜表示可以被分解成幅度和相位矢量。因此,下列的量化方法,或者它們的適當(dāng)解釋,可以被用于上述的任一種編碼技術(shù)。
在一個實施例中,可以如下地量化幅度值。幅度譜可以是固定維數(shù)的矢量,或者可變維數(shù)的矢量。另外,幅度譜可以被表示成低維功率矢量和通過功率矢量規(guī)范化原始幅度譜得到的規(guī)范化幅度譜矢量的組合。下列方法可以被應(yīng)用與上述要素(即,幅度譜、功率譜或者規(guī)范化幅度譜)的任一個,或其一部分。幀‘m’的幅度(或功率、或規(guī)范化幅度)矢量的子集可以被表示成Am。首先用下列等式計算幅度(或功率、或規(guī)范化幅度)預(yù)測誤差矢量δAm=Am-a′m1TAm1-a′m2TAm2-...-a′mNTAmN]]>其中 分別是幀m1,m2,…mN的幅度(或功率、或規(guī)范化幅度)矢量的子集,而值 是相應(yīng)的權(quán)值矢量的轉(zhuǎn)置。
隨后可以用各種已知VQ方法中的任一種來把預(yù)測誤差矢量量化成表示為 的量化誤差矢量。隨后通過下列等式給出Am的量化版本A^m=δ^Am+a′m1TAm1+a′m2TAm2+...+a′mNTAmN]]>權(quán)值 建立了量化方案中的預(yù)測量。在特定實施例中,上述預(yù)測方案已經(jīng)被實現(xiàn)成用六比特量化兩維功率矢量,以及用十二比特量化十九維規(guī)范化的幅度矢量。按照這種方法,可能用總共十八個比特量化原型音調(diào)周期的幅度譜。
在一個實施例中,可以如下地量化相位值。幀‘m’的相位矢量的子集可以被表示為m。可能把m量化成等于參考波形的相位(整個幀或其部分的時域或頻域),并對參考波形的一個或多個轉(zhuǎn)換頻帶施加零或更多的線性偏移。在1999年7月19日提交的,美國專利申請序列號No.09/365491,題為“METHODAND APPRATUS FOR SUBSAMPLING PHASE SPECTRUM INFORMATION”的專利中描述了這樣的量化技術(shù),上述專利申請已轉(zhuǎn)讓給本發(fā)明的受讓人,并通過引用完整地引入這里。這樣的參考波形可以是幀mN的變形,或者任何其他預(yù)定的波形。
例如,在采用低比特率、有聲語音編碼方案的實施例中,幀‘m-1’的LP殘留首先根據(jù)預(yù)先建立的音調(diào)輪廓(已經(jīng)被引入電信工業(yè)協(xié)會臨時標(biāo)準(zhǔn)TIA/EIA IS-127中)被擴(kuò)展到幀‘m’。以類似于提取幀‘m’的非量化原型的方法從擴(kuò)展波形中提取原型音調(diào)周期。隨后可以得到提取的原型的相位m- 1’有下列等式m=m-1’。用這種方法,可能通過不用任何比特從幀‘m-1’的波形轉(zhuǎn)換的相位的預(yù)測來量化幀‘m’的原型的相位。
在特定實施例中,上述的預(yù)測量化方案已經(jīng)被實現(xiàn)成只用三十八個比特編碼有聲語音幀的LPC參數(shù)和LP殘留。
因此,已經(jīng)描述了用于預(yù)測量化有聲語音的全新的和改進(jìn)的方法和設(shè)備。本領(lǐng)域的技術(shù)人員將會理解,在整個上面的描述中所引用的數(shù)據(jù)、指令、命令、信息、信號、比特、符號以及碼片有利地可以用電壓、電流、電磁波、磁場或磁性粒子、光場或光粒子或他們的任意組合來表示。本領(lǐng)域的技術(shù)人員進(jìn)一步可以注意到這里結(jié)合實施例所描述的各種示范邏輯框圖、模塊、電路和算法步驟可以被實現(xiàn)成電子硬件、計算機(jī)軟件或兩者的組合。大致就它們的功能描述了各展示的部件、框圖、模塊、電路以及步驟。功能被實現(xiàn)成硬件或軟件要根據(jù)特定的應(yīng)用和整個系統(tǒng)被施加的設(shè)計限制。技術(shù)人員將意識到在這些情況下硬件和軟件的可互換性,以及該如何為每個特定應(yīng)用實現(xiàn)描述的功能。作為例子,這里結(jié)合實施例所揭示的各示范邏輯塊、模塊、電路以及算法步驟可以被實現(xiàn)成或由被設(shè)計成進(jìn)行這里所描述的功能的數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或其他可編程邏輯器件、離散門或晶體管邏輯、諸如寄存器和FIFO等離散硬件組件、執(zhí)行一組固件指令的處理器、任何常規(guī)可編程軟件模塊和處理器或他們的任意組合來進(jìn)行。處理器可以有利地是微處理器,但是作為替換,處理器可以是任何常規(guī)處理器、控制器;微控制器或狀態(tài)機(jī)。軟件模塊可以駐于RAM存儲器、閃存、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬盤、可移動硬盤、CD-ROM或本領(lǐng)域已知的任何其他形式的存儲媒介中。如圖8所示,示范處理器600有利地被耦合至存儲媒介602,以使得可以從存儲媒介602讀取信息,或者把信息寫入存儲媒介602??商鎿Q地,存儲媒介602可以被集成入處理器600。處理器600和存儲媒介602可以駐于ASIC(未示出)中。ASIC可以駐于電話(未示出)??商鎿Q地,處理器600和存儲媒介602可以駐于電話中。處理器600可以被實現(xiàn)成DSP和微處理器的組合,或者用DSP核心結(jié)合的兩個微處理器,等。
因此就已經(jīng)顯示和描述了本發(fā)明的較佳實施例。但是,本領(lǐng)域的普通技術(shù)人員將清楚在不離開本發(fā)明的精神或范圍的情況下可以對這里所揭示的實施例做出一些變更。因此,除了根據(jù)下列的權(quán)利要求之外,本發(fā)明將不受限制。
權(quán)利要求
1.一種量化關(guān)于語音參數(shù)的信息的方法,其特征在于,包括為至少一個之前處理的語音幀生成參數(shù)的至少一個加權(quán)值,其中使用的所有權(quán)值的總和等于一;從當(dāng)前處理的語音幀的參數(shù)值中減去至少一個加權(quán)值以產(chǎn)生差值;以及量化該差值。
2.如權(quán)利要求1所述的方法,其特征在于,至少一個加權(quán)值包括剛剛處理的語音幀的參數(shù)值,該一個值的權(quán)值等于一。
3.如權(quán)利要求1所述的方法,其特征在于,語音是有聲語音。
4.如權(quán)利要求1所述的方法,其特征在于,參數(shù)是音調(diào)延遲值。
5.如權(quán)利要求1所述的方法,其特征在于,參數(shù)是幅度值。
6.如權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括為當(dāng)前處理的語音幀計算參數(shù)值。
7.如權(quán)利要求6所述的方法,其特征在于,計算包括從當(dāng)前處理的語音幀提取音調(diào)周期原型,以及獲得該音調(diào)周期原型的頻域表示。
8.如權(quán)利要求6所述的方法,其特征在于,計算包括計算當(dāng)前處理的語音幀的短期頻域表示。
9.如權(quán)利要求8所述的方法,其特征在于,進(jìn)一步包括把短期頻域表示分解成幅度矢量和相位矢量。
10.一種被配置成量化關(guān)于語音參數(shù)的信息的語音編碼裝置,其特征在于,包括用于為至少一個之前處理的語音幀生成參數(shù)的至少一個加權(quán)值的裝置,其中使用的所有權(quán)值的總和等于一;用于從當(dāng)前處理的語音幀的參數(shù)值中減去至少一個加權(quán)值以產(chǎn)生差值的裝置;用于量化該差值的裝置。
11.一種被配置成量化關(guān)于語音參數(shù)的信息的基礎(chǔ)單元,其特征在于,包括參數(shù)生成器,被配置成為至少一個之前處理的語音幀生成參數(shù)的至少一個加權(quán)值,其中所有使用的權(quán)值的總和等于一;耦合至參數(shù)生成器的量化器,并被配置成從當(dāng)前處理的語音幀的參數(shù)值中減去至少一個加權(quán)值以產(chǎn)生差值,并量化該差值。
12.如權(quán)利要求11所述的基礎(chǔ)單元,其特征在于,至少一個加權(quán)值包括剛剛處理的語音幀的參數(shù)值,該一個值的權(quán)值等于一。
13.如權(quán)利要求11所述的基礎(chǔ)單元,其特征在于,語音是有聲語音。
14.如權(quán)利要求11所述的基礎(chǔ)單元,其特征在于,參數(shù)是音調(diào)延遲值。
15.如權(quán)利要求11所述的基礎(chǔ)單元,其特征在于,參數(shù)是幅度值。
16.如權(quán)利要求11所述的基礎(chǔ)單元,其特征在于,參數(shù)生成器被進(jìn)一步配置成為當(dāng)前處理的語音幀計算參數(shù)值。
17.如權(quán)利要求16所述的基礎(chǔ)單元,其特征在于,參數(shù)生成器進(jìn)一步被配置成從當(dāng)前處理的語音幀提取音調(diào)周期原型,以及獲得該音調(diào)周期原型的頻域表示。
18.如權(quán)利要求16所述的基礎(chǔ)單元,其特征在于,參數(shù)生成器進(jìn)一步被配置成計算當(dāng)前處理的語音幀的短期頻域表示。
19.如權(quán)利要求18所述的基礎(chǔ)單元,其特征在于,參數(shù)生成器進(jìn)一步被配置成把短期頻域表示分解成幅度矢量和相位矢量。
20.一種被配置成量化關(guān)于語音參數(shù)的信息的客戶單元,其特征在于,包括處理器;耦合至處理器的存儲媒介,它包含一組可由處理器執(zhí)行的指令,用于為至少一個之前處理的語音幀生成參數(shù)的至少一個加權(quán)值,其中使用的所有權(quán)值的總和等于一,以及從當(dāng)前處理的語音幀的參數(shù)值中減去至少一個加權(quán)值以產(chǎn)生差值,并量化該差值。
21.如權(quán)利要求20所述的客戶單元,其特征在于,至少一個加權(quán)值包括剛剛處理的語音幀的參數(shù)值,該一個值的權(quán)值等于一。
22.如權(quán)利要求20所述的客戶單元,其特征在于,語音是有聲語音。
23.如權(quán)利要求20所述的客戶單元,其特征在于,參數(shù)是音調(diào)延遲值。
24.如權(quán)利要求20所述的客戶單元,其特征在于,參數(shù)是幅度值。
25.如權(quán)利要求20所述的客戶單元,其特征在于,該組指令進(jìn)一步可被處理器用來為當(dāng)前處理的語音幀計算參數(shù)值。
26.如權(quán)利要求25所述的客戶單元,其特征在于,該組指令進(jìn)一步可被處理器用來從當(dāng)前處理的語音幀提取音調(diào)周期原型,以及獲得該音調(diào)周期原型的頻域表示。
27.如權(quán)利要求25所述的客戶單元,其特征在于,該組指令進(jìn)一步可被處理器用來計算當(dāng)前處理的語音幀的短期頻域表示。
28.如權(quán)利要求27所述的客戶單元,其特征在于,該組指令進(jìn)一步可被處理器用來把短期頻域表示分解成幅度矢量和相位矢量。
29.一種用于量化關(guān)于語音相位參數(shù)的信息的方法,其特征在于,包括為至少一個之前處理的語音幀生成相位參數(shù)的至少一個修改值;對至少一個修改值施加一些相位偏移,相位偏移的個數(shù)大于等于零;從當(dāng)前處理的語音幀的相位參數(shù)值中減去至少一個修改值以產(chǎn)生差值;以及量化該差值。
30.一種被配置成量化關(guān)于語音相位參數(shù)的信息的語音編碼裝置,其特征在于,包括用于為至少一個之前處理的語音幀生成相位參數(shù)的至少一個修改值的裝置;用于對至少一個修改值施加一些相位偏移的裝置,相位偏移的個數(shù)大于等于零;用于從當(dāng)前處理的語音幀的相位參數(shù)值中減去至少一個修改值以產(chǎn)生差值的裝置;以及用于量化該差值的裝置。
31.一種被配置成量化關(guān)于語音相位參數(shù)的信息的客戶單元,其特征在于,包括處理器;以及耦合至處理器的存儲媒介,它包含一組可由處理器執(zhí)行的指令,用于為至少一個之前處理的語音幀生成相位參數(shù)的至少一個修改值,對至少一個修改值施加一些相位偏移,相位偏移的個數(shù)大于等于零,從當(dāng)前處理的語音幀的參數(shù)值中減去至少一個修改值以產(chǎn)生差值,并量化該差值。
全文摘要
用于預(yù)測量化有聲語音的一種方法和設(shè)備,包括參數(shù)生成器和量化器。參數(shù)生成器被配置成從諸如有聲語音等預(yù)測語音幀中提取參數(shù),并把提取的信息轉(zhuǎn)換成頻域表示。量化器被配置成從當(dāng)前幀的參數(shù)中減去之前幀參數(shù)的權(quán)值和。量化器被配置成量化該差值。可以加入原型提取器來提取參數(shù)生成器處理的音調(diào)周期原型。
文檔編號G10L11/04GK1432176SQ01810523
公開日2003年7月23日 申請日期2001年4月20日 優(yōu)先權(quán)日2000年4月24日
發(fā)明者A·K·阿南薩帕德曼那伯漢, S·曼祖那什, P·J·黃, E·L·T·肖依, A·P·德加科 申請人:高通股份有限公司