專利名稱:用于低比特率音頻編碼應(yīng)用的高效可標(biāo)度參數(shù)立體聲編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及低比特率音頻源編碼系統(tǒng)。介紹了輸入信號的立體聲特性的不同參數(shù)表示,解釋了它們在解碼器一側(cè)上的應(yīng)用,從頻譜包絡(luò)的偽立體聲到完全的立體聲編碼,后者尤其適合于基于HFR(高頻重建)的編解碼器。
背景技術(shù):
音頻源編碼技術(shù)可以分成兩類自然音頻編碼和語音編碼。在中到高的比特率上,通常將自然音頻編碼用于語音和音樂信號,并能進(jìn)行立體聲傳輸和再現(xiàn)。在僅能獲得低比特率的應(yīng)用中,例如目標(biāo)為具有慢速電話調(diào)制解調(diào)器連接的用戶的互聯(lián)網(wǎng)流式音頻,或者在新興的數(shù)字調(diào)幅廣播系統(tǒng)中,不可避免地需要進(jìn)行音頻節(jié)目資料的單聲道編碼。然而,依然希望有立體聲印象,尤其當(dāng)使用耳機(jī)收聽時,在這種情況下,純單聲道信號給人的感覺像是從“頭內(nèi)”產(chǎn)生的,這可能是一種很不舒服的感覺。
解決這個問題的一種方法是在解碼器一側(cè)上利用所接收的純單聲道信號合成出一個立體聲信號。近年來,已經(jīng)推薦了幾種不同的“偽立體聲”生成器。例如在美國專利US5,883,962中,描述了通過向未處理的信號添加一個延遲/相移形式的信號來增強(qiáng)單聲道信號,從而建立一種立體聲幻覺。在這種方法中,以電平相等但是符號相反,對于兩個輸出中的每個輸出將處理后信號添加給原始信號,保證了如果兩個聲道隨后在信號路徑中疊加則消除增強(qiáng)信號。在PCTWO98/57436中,描述了一種類似的系統(tǒng),盡管沒有上述增強(qiáng)信號的單聲道的兼容性。現(xiàn)有技術(shù)方法的共同點在于將它們作為純粹的后處理來使用。換句話說,解碼器不能獲知立體聲寬度的信息,更不用說在立體聲錄音室內(nèi)的位置。因此,偽立體聲信號可能有也可能沒有原信號的立體聲特性的類似之處?,F(xiàn)有技術(shù)系統(tǒng)不適用的一種具體的情況是當(dāng)原信號是一個純單聲道信號時,這通常是在語音錄音的情況下。在解碼器上將這個單聲道信號盲目地轉(zhuǎn)換成一個合成立體聲信號,在語音情況下這通常將導(dǎo)致令人不舒服的人為加工感覺,并可能降低清晰度和語音可理解性。
目的在于在低比特率上的真實立體聲傳輸?shù)钠渌F(xiàn)有技術(shù)系統(tǒng)通常使用一種求和和差值編碼方案。因此,將原始的左(L)和右(R)信號轉(zhuǎn)換成一個求和信號S=(L+R)/2和一個差值信號D=(L-R)/2,隨后編碼和傳輸。接收機(jī)解碼S和D信號,在此基礎(chǔ)上通過操作L=S+D和R=S-D重新建立原始的L/R信號。這種方法的優(yōu)點在于隨時可以使用L和R之間的冗余,因此與S相比,需要編碼的D內(nèi)的信息更少,需要更少的比特。顯然,極端情況是純單聲道信號,即L和R相等。傳統(tǒng)的L/R編解碼器兩次編碼這個單聲道信號,而一個S/D編解碼器檢測這個冗余,D信號(理想上)不需要任何比特。另一種極端情況用與“異相”信號對應(yīng)的R=-L的情況來表示?,F(xiàn)在,S信號為零,而D信號計算為L。同樣,S/D方案與標(biāo)準(zhǔn)的L/R編碼相比具有明顯的優(yōu)點。然而,考慮例如在信號通路中R=0的情況,這在早期的立體聲錄音中是很常見的。S和D都等于L/2,S/D方案并不提供任何優(yōu)點。相反,L/R編碼方法將這種情況處理得很好R信號并不需要任何比特。因此,現(xiàn)有技術(shù)的編解碼器根據(jù)在給定瞬間哪種方法最有益而在這兩種編碼方案之間自適應(yīng)地切換。上面的例子僅是理論性的(除了雙單聲道的情況之外,雙單聲道的情況在純語音的節(jié)目中很普遍)。因此,實際的立體聲節(jié)目資料包含大量的立體聲信息,即使執(zhí)行上述切換,所獲得的比特率對于許多應(yīng)用來說通常依然太高。此外,如從上面的重新合成關(guān)系可以看出的,為了進(jìn)一步降低比特率而非常粗糙地量化D信號也是不可行的,因為量化誤差將轉(zhuǎn)換成在L和R信號中不可忽略的電平誤差。
發(fā)明概述本發(fā)明在編碼和傳輸之前使用信號立體聲特性的檢測。在最簡單的形式中,檢測器測量在輸入的立體聲信號中出現(xiàn)的立體聲感覺的量值。然后,將這個量值作為立體聲寬度參數(shù)和原始信號的編碼單聲道之和一起傳輸。接收機(jī)使用受所述參數(shù)控制的偽立體聲生成器解碼這個單聲道信號,并應(yīng)用適當(dāng)?shù)牧Ⅲw聲寬度量值。作為一種特殊的情況,作為一個零立體聲寬度來傳輸一個單聲道輸入信號,并相應(yīng)地在解碼器中不使用立體聲合成。根據(jù)本發(fā)明,例如,可以根據(jù)原始左右聲道的差值信號或互相關(guān)來確定立體聲寬度的有用測量值??梢詫⑷绱擞嬎愠龅牧恐涤成涑缮倭康臓顟B(tài),實時地或者根據(jù)需要地在合適的固定速率上傳輸這些狀態(tài)。本發(fā)明還教導(dǎo)了如何濾波合成的立體聲分量,從而降低不能掩蔽通常與低比特率編碼信號有關(guān)的編碼人工噪聲的風(fēng)險。
可選擇地,在編碼器內(nèi)檢測立體聲域內(nèi)的整體立體聲平衡或定位。這個信息可選地與上述寬度參數(shù)一起作為一個平衡參數(shù)與編碼的單聲道信號一起有效地傳輸。因而,通過相應(yīng)地改變兩個輸出聲道的增益,可以在解碼器上重建相對于錄音室兩側(cè)的位置偏移。根據(jù)本發(fā)明,可以根據(jù)左右信號功率的商來獲得這個立體聲平衡參數(shù)。與整體立體聲編碼相比,這兩種參數(shù)的傳輸需要很少的比特,因此總的比特率需求很低。在本發(fā)明的一種更好的提供更準(zhǔn)確的參數(shù)立體聲描述的設(shè)計中,使用若干平衡和立體聲寬度參數(shù),分別代表各個頻帶。
推廣到每頻帶操作的平衡參數(shù)和計算為左右信號功率之和的電平參數(shù)的相應(yīng)每頻帶操作一起實現(xiàn)了立體聲信號功率譜密度的一種新的任意詳細(xì)的表示。除了S/D系統(tǒng)也利用的立體聲冗余的優(yōu)點之外,這種表示的一種具體的優(yōu)點是與同樣的電平信號相比,可以用更低的精確度來量化平衡信號,因為當(dāng)轉(zhuǎn)換回立體聲頻譜包絡(luò)時量化誤差將導(dǎo)致“空間上的誤差”,即在立體聲全景中可感知的位置,而不是在電平上的誤差。類似于傳統(tǒng)的切換L/R和S/D系統(tǒng),有利于電平L/電平R信號,可以自適應(yīng)地關(guān)閉電平/平衡方案,當(dāng)整體信號向任一聲道嚴(yán)重偏置時這更加有效。無論何時需要一種功率譜包絡(luò)的有效編碼方法,都可以使用上述的頻譜包絡(luò)編碼方案,并可以作為一種工具結(jié)合在新的立體聲源編解碼器內(nèi)。一個特別感興趣的應(yīng)用是在受原始信號高頻帶包絡(luò)的相關(guān)信息引導(dǎo)的HFR系統(tǒng)內(nèi)。在這樣一個系統(tǒng)中,使用任意一個編解碼器來編碼和解碼低頻帶,在解碼器上使用解碼的低頻帶信號和所發(fā)送的高頻帶包絡(luò)信息重新生成高頻帶(PCTWO 98/57436)。此外,通過將包絡(luò)編碼鎖定到電平/平衡操作,提供了建立一個可標(biāo)度(scalable)的基于HFR的立體聲編解碼器的可能性。在此,將電平值饋送給主比特流,根據(jù)實現(xiàn)方式,該主比特流通常解碼成一個單聲道信號。將平衡值饋送給次比特流,該次比特流是除了主比特流之外靠近發(fā)射機(jī)的接收機(jī)可以獲得的,例如一個IBOC(帶內(nèi)信道上)數(shù)字調(diào)幅廣播系統(tǒng)。當(dāng)組合這兩個比特流時,解碼器生成一個立體聲輸出信號。除了電平值之外,主比特流還可以包含立體聲參數(shù),例如寬度參數(shù)。因此,單獨(dú)解碼這個比特流已經(jīng)生成了一個立體聲輸出,當(dāng)兩個比特流都可用時改善了這個立體聲輸出。
現(xiàn)在,參考附圖,通過并非限制本發(fā)明范圍或精神的說明性例子來描述本發(fā)明,在附圖中圖1圖示一個音源編碼系統(tǒng),其中包括一個由參數(shù)立體聲編碼器模塊增強(qiáng)的編碼器和一個由參數(shù)立體聲解碼器模塊增強(qiáng)的解碼器;圖2a是一個參數(shù)立體聲解碼器模塊的模塊示意圖;圖2b是一個帶有控制參數(shù)輸入的偽立體聲生成器的模塊示意圖;圖2c是一個帶有控制參數(shù)輸入的平衡調(diào)整器的模塊示意圖;圖3是使用與多頻段平衡調(diào)整相組合的多頻段偽立體聲生成的參數(shù)立體聲解碼器模塊的模塊示意圖;圖4a是一個可標(biāo)度的基于HFR的立體聲編解碼器的編碼器一側(cè)的模塊示意圖,它使用頻譜包絡(luò)的電平/平衡編碼;圖4b是相應(yīng)的解碼器一側(cè)的模塊示意圖。
優(yōu)選實施例的描述下面所述的實施例僅僅是為了說明本發(fā)明的原理。應(yīng)當(dāng)理解對于本領(lǐng)域的技術(shù)人員來說,對在此所描述的結(jié)構(gòu)和細(xì)節(jié)進(jìn)行各種修改和變化將是顯而易見的。因此,將僅通過權(quán)利要求書的保護(hù)范圍來限制,而不是由在此對實施例的描述和解釋所提出的具體細(xì)節(jié)來限制。為了清楚起見,下面所有的例子均假設(shè)為雙聲道系統(tǒng),但是對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明顯然也可以應(yīng)用于多聲道系統(tǒng),例如5.1聲道系統(tǒng)。
圖1圖示一個可通過根據(jù)本發(fā)明的參數(shù)立體聲編碼增強(qiáng)的任意聲源編碼系統(tǒng),其中包括編碼器107和解碼器115,編碼器和解碼器以單聲道模式工作。假設(shè)L和R代表饋送給AD(模數(shù))轉(zhuǎn)換器101的左右模擬輸入信號。AD轉(zhuǎn)換器的輸出轉(zhuǎn)換成單聲道信號105,然后編碼(107)該單聲道信號。此外,將立體聲信號發(fā)送給參數(shù)立體聲編碼器103,由其計算下面將要描述的一個或多個立體聲參數(shù)。通過多路復(fù)用器109組合這些參數(shù)與編碼的單聲道信號,形成一個比特流111。存儲或發(fā)送該比特流,然后在解碼器一側(cè)使用去復(fù)用器113進(jìn)行提取。該單聲道信號被解碼115,并由參數(shù)立體聲解碼器119使用立體聲參數(shù)117作為控制信號轉(zhuǎn)換成一個立體聲信號。最后,將該立體聲信號發(fā)送給DA(數(shù)模)轉(zhuǎn)換器121,由其饋送模擬輸出L’和R’。根據(jù)圖1的拓?fù)浣Y(jié)構(gòu)為一組參數(shù)立體聲編碼方法所共有,隨后將從較簡單的形式開始詳細(xì)地描述這些參數(shù)立體聲編碼方法。
根據(jù)本發(fā)明的一種立體聲特性參數(shù)化的方法是在編碼器一側(cè)上確定原始信號的立體聲寬度。立體聲寬度的第一種近似是差值信號D=L-R,因為一般來說L和R之間的高度類似性將計算出較小的D值,反之亦然。特殊的情況是雙單聲道,其中L=R,因此D=0。因而,即使這種簡單的算法也能夠檢測出通常與新聞廣播有關(guān)的單聲道輸入信號的類型,在新聞廣播的情況下并不希望偽立體聲。然而,在不同電平上饋送給L和R的單聲道信號并不產(chǎn)生為零的D信號,即使感覺到的寬度為零。因此,實際上可能需要更精致的檢測器,例如使用互相關(guān)的方法。應(yīng)當(dāng)確信與總信號電平一起標(biāo)準(zhǔn)化以某種方式描述左右差值或相關(guān)性的數(shù)值,從而實現(xiàn)與電平無關(guān)的檢測器。上述檢測器的一種問題是在語音到音樂/音樂到語音轉(zhuǎn)換的過程中單聲道語音與諸如立體聲噪聲或背景音樂等非常微弱的立體聲信號混合時的情況。在語音暫停時,則檢測器將指示一個寬立體聲信號。通過標(biāo)準(zhǔn)化立體聲寬度值與一個包含先前的總能量電平信息的信號,例如一個總能量的峰值衰落信號,來解決這個問題。此外,為了防止高頻噪聲或信道不同的高頻失真觸發(fā)立體聲寬度檢測器,應(yīng)當(dāng)通過一個低通濾波器預(yù)先濾波檢測器信號,該濾波器通常具有一個稍高于話音第二共振峰的截止頻率,也可以選擇使用一個高通濾波器以避免不平衡的信號偏移或交流聲。不考慮檢測器的類型,將所計算的立體聲寬度映射成有限的一組值,覆蓋從單聲道到寬立體聲的整個范圍。
圖2a圖示在圖1中介紹的參數(shù)立體聲解碼器的內(nèi)部結(jié)構(gòu)的一個例子。隨后將描述受參數(shù)B控制的標(biāo)有“平衡”的模塊211,現(xiàn)在應(yīng)當(dāng)將其視為旁路。標(biāo)有“寬度”的模塊205接收一個單聲道輸入信號,合成地重新建立立體聲寬度的印象,其中寬度量值受參數(shù)W的控制。隨后將描述可選的參數(shù)S和D。根據(jù)本發(fā)明,通過結(jié)合使用一個包括低通濾波器(LP)203和高通濾波器(HP)201的分頻濾波器,從而保持低頻范圍“固定”和不受影響,通常能夠?qū)崿F(xiàn)主觀上更好的音頻質(zhì)量。在此,僅將高通濾波器的輸出發(fā)送給寬度模塊。通過207和209將寬度模塊的立體聲輸出添加給低通濾波器的單聲道輸出,形成立體聲輸出信號。
可以將現(xiàn)有技術(shù)的任意一種偽立體聲生成器用于寬度模塊,例如在背景技術(shù)部分中所提到的,或者是Schroeder類型的早期反射模擬單元(多抽頭延遲)或混響器。圖2b圖示饋送一個單聲道信號M的偽立體聲生成器的一個例子。由215的增益確定立體聲寬度的量值,此增益是立體聲寬度參數(shù)W的函數(shù)。增益越高,則立體聲印象越寬,零增益對應(yīng)于純單聲道再現(xiàn)。215的輸出被延遲(D),221,并使用相反的符號與兩個直接信號的例子相加223和225。為了當(dāng)改變立體聲寬度時不明顯地改變總的再現(xiàn)電平,可以結(jié)合使用直接信號的補(bǔ)償衰減213。例如,如果延遲信號的增益是G,則可以將直接信號的增益選擇為sqrt(1-G2)。根據(jù)本發(fā)明,可以在延遲信號路徑中插入一個高頻滾降濾波器217,這有助于避免偽立體聲導(dǎo)致的編碼人工噪聲無掩蔽。可選擇地,可以在比特流中發(fā)送分頻濾波器、滾降濾波器和延遲的參數(shù),提供模擬原始信號的立體聲特性的更高的可能性,如在圖2a和圖2b中圖示的信號X、S和D。如果使用混響單元來生成立體聲信號,有時在一個聲音結(jié)束之后可能會產(chǎn)生不希望有的混響衰落。然而,僅僅通過改變混響信號的增益就能夠輕易地衰減或完全消除這些不希望的混響尾部??梢詫榘l(fā)現(xiàn)聲音結(jié)尾而設(shè)計的檢測器用于此目的。如果混響單元在一些特殊的信號例如瞬變信號上產(chǎn)生人工噪聲時,用于這些信號的檢測器也可以用于衰減人工噪聲。
下面描述根據(jù)本發(fā)明的檢測立體聲特性的另一種方法。再次假設(shè)L和R代表左右輸入信號。然后用PL~L2和PR~R2代表相應(yīng)的信號功率?,F(xiàn)在,可以將立體聲平衡的測量值計算為兩個信號功率的商,或者更具體地說計算為B=(PL+e)/(PR+e),其中e是任意的非常小的數(shù)值,它避免被零除??梢酝ㄟ^關(guān)系BdB=10log10(B)用dB表示平衡參數(shù)B。例如,三種情況PL=10PR,PL=PR和PL=0.1PR分別對應(yīng)于+10dB、0dB和-10dB的平衡值。很顯然,這些值映射成位置“左”、“中心”和“右”。實驗已經(jīng)表明平衡參數(shù)的范圍例如可以限制為+/-40dB,因為這些極限數(shù)值已經(jīng)可以被視為聲音完全從兩個揚(yáng)聲器或耳機(jī)驅(qū)動器之一發(fā)出。這種限制降低了在傳輸中要覆蓋的信號空間,因而降低了比特率。此外,可以使用漸進(jìn)的量化方案,由此在零附近使用較小的量化步長,而在上限上使用較大的量化步長,這進(jìn)一步降低了比特率。通常在延長路徑的時間上平衡是恒定的。因此,可以采用的顯著地降低所需要的平均比特的數(shù)量的最后一個步驟是在傳輸一個初始化平衡量值之后,僅傳輸相鄰平衡量值之間的差值,從而使用熵編碼。非常普遍地,這個差值為零,因而可以用可能的最短的碼字來表示以傳輸。顯然地,在可能存在比特誤差的應(yīng)用中,必需在合適的時間間隔上重新設(shè)置這個Δ編碼,從而消除不受控制的誤差傳播。
通過將單聲道信號饋送給兩個輸出,并使用控制信號B相應(yīng)地調(diào)整增益,如圖2c中模塊227和229所圖示的,平衡參數(shù)的最基本的解碼器使用方法簡單地將單聲道信號向兩個再現(xiàn)聲道之一上偏移。這類似于調(diào)整混合臺上的“全景”調(diào)節(jié)器,合成地在兩個立體聲揚(yáng)聲器之間“移動”單聲道信號。
除了上述的寬度參數(shù)之外,還可以發(fā)送平衡參數(shù),提供以受控方式在錄音室內(nèi)定位和傳播聲音圖像的可能性,并提供當(dāng)模仿原始的立體聲壓縮時的靈活性。組合上述的偽立體聲生成和參數(shù)控制平衡的一個問題是在遠(yuǎn)離中心位置的平衡位置上偽立體聲生成器的不希望有的信號影響。這通過在立體聲寬度值上應(yīng)用一個有利于單聲道的函數(shù)來解決,所述函數(shù)導(dǎo)致在最靠邊的位置上的平衡位置上立體聲寬度值的較大衰減,并在靠近中央位置的平衡位置上的較小或無衰減。
上述方法用于很低的比特率應(yīng)用。在能夠獲得較高的比特率的應(yīng)用中,可以使用上述寬度和平衡方法的更精致的形式??梢栽诙鄠€頻帶上執(zhí)行立體聲寬度檢測,導(dǎo)致各個立體聲寬度值分別用于每個頻帶。類似地,平衡計算可以通過多頻帶的方式進(jìn)行,這相當(dāng)于將不同的濾波器曲線應(yīng)用于饋送一個單聲道信號的兩個聲道。圖3圖示一個參數(shù)立體聲解碼器的例子,它使用根據(jù)圖2b,用模塊307、317和327代表的一組N個偽立體聲生成器,并組合如圖2c所示用模塊309、319和329代表的多頻帶平衡調(diào)整。通過將單聲道輸入信號M饋送給一組帶通濾波器(BP)305、315和325來獲得各個通頻帶。平衡調(diào)整器輸出的帶通立體聲輸出被相加,311、321、313和323,形成立體聲輸出信號L和R。現(xiàn)在,用陣列W(k)和B(k)來替代原先的標(biāo)量寬度和平衡參數(shù)。在圖3中,每個偽立體聲生成器和平衡調(diào)整器具有特有的立體聲參數(shù)。然而,為了降低將要發(fā)送或存儲的數(shù)據(jù)總量,可以在編碼器上分組地平均若干頻帶的參數(shù),數(shù)量減少的這些參數(shù)可以在解碼器上映射到相應(yīng)的寬度和平衡模塊組。顯然地,可以將不同的分組方案和長度用于陣列W(k)和B(k)。S(k)代表在寬度模塊內(nèi)延遲信號路徑的增益,和D(k)代表延遲參數(shù)。同樣地,在比特流中S(k)和D(k)是可選的。
參數(shù)平衡編碼方法可特別適用于較低的頻帶,假設(shè)由于頻率分辨率較低,或者由于在同一時間上但是在不同的平衡位置上在一個頻帶內(nèi)出現(xiàn)過多的聲音事件,導(dǎo)致稍微不穩(wěn)定的性能。這些平衡錯誤的特征通常為在非常短的時間周期內(nèi)一個不正常的平衡值,通常是根據(jù)更新速率計算出的一個或多個連續(xù)的數(shù)值。為了避免擾亂平衡錯誤,可以在平衡數(shù)據(jù)上應(yīng)用一個穩(wěn)定化處理。這個處理可以在當(dāng)前的時間位置之前和之后使用多個平衡值來計算這些數(shù)據(jù)的中值。該中值隨后可以用作當(dāng)前平衡值的限制值,即當(dāng)前平衡值應(yīng)當(dāng)不允許低于該中值。然后,將當(dāng)前值限制在最后一個數(shù)值和中值之間的范圍內(nèi)??蛇x擇地,可允許當(dāng)前的平衡值以某一過量因子超過該限制值。此外,過量因子以及用于計算中值的平衡值數(shù)量應(yīng)當(dāng)被視為頻率相關(guān)特性的,因此各自用于每個頻帶。
在較低的平衡信息的更新比例上,時間分辨率缺乏可能導(dǎo)致立體聲圖像和實際的聲音事件的運(yùn)動之間同步上的錯誤。為了改善同步方面的性能,可以使用以識別聲音事件為基礎(chǔ)的內(nèi)插方案。在此,內(nèi)插是指在時間連續(xù)的兩個平衡值之間的內(nèi)插。通過在接收機(jī)一側(cè)上研究單聲道信號,能夠獲得不同聲音事件的開始和結(jié)束的相關(guān)信息。一種方法是檢測在特定頻帶內(nèi)信號能量的突然地增加或降低。內(nèi)插應(yīng)當(dāng)在能量包絡(luò)在時間上引導(dǎo)之后,以確保最好應(yīng)當(dāng)在包含小信號能量的時間片段內(nèi)執(zhí)行平衡位置上的改變。因為人耳對聲音的開始部分比對聲音的結(jié)束部分更為敏感,例如通過對能量應(yīng)用峰值保持,然后使平衡值作為峰值保持能量的函數(shù)而增加,其中較小的能量值提供較大的增加,反之亦然,內(nèi)插方案的優(yōu)點在于發(fā)現(xiàn)一個聲音的開始部分。對于包含在時間上不均勻分布能量的時間片段來說,即對于一些固定信號來說,這種內(nèi)插方法相當(dāng)于兩個平衡值之間的線性內(nèi)插。如果平衡值是左右能量的商,因為左右對稱的原因,優(yōu)選對數(shù)平衡值。在對數(shù)域內(nèi)使用整個內(nèi)插算法的另一個優(yōu)點是人耳使電平與對數(shù)標(biāo)度相關(guān)的趨勢。
而且,對于立體聲寬度增益值的較低的更新比例,也可以應(yīng)用內(nèi)插。一種簡單的方法是在時間上連續(xù)的兩個立體聲寬度值之間線性地內(nèi)插。通過在包含多個立體聲寬度參數(shù)的一個較長的時間片段上平滑立體聲寬度增益值,能夠?qū)崿F(xiàn)立體聲寬度更穩(wěn)定的特性。通過利用通過不同的上升和釋放時間常數(shù)的平滑,實現(xiàn)了一種尤其適合于包含混合或交織的語音和音樂的節(jié)目資料的系統(tǒng)。因此在立體聲中對音樂開始部分的立即響應(yīng),使用一個短的上升時間常數(shù)來獲得一個短的上升時間,并使用一個長的釋放時間來獲得一個長的下降時間,實現(xiàn)這種平滑濾波器的一種合理設(shè)計。為了快速地從寬立體聲模式切換成單聲道模式,這可能是突然的語音開始部分所希望的,存在通過通知這個事件來旁路或重置該平滑濾波器的可能性。此外,上升時間常數(shù)、釋放時間常數(shù)和其它的平滑濾波器特性也可以由編碼器來通知。
對于包含心理聲學(xué)編解碼器的掩蔽失真的信號來說,引入基于編碼單聲道信號的立體聲信息的一個共同的問題是失真的未掩蔽效應(yīng)。這種通常稱作“立體聲未掩蔽”的現(xiàn)象是并不符合掩蔽標(biāo)準(zhǔn)的非居中聲音的結(jié)果。通過在解碼器一側(cè)上引入用于這種情況的檢測器可以解決或部分地解決立體聲未掩蔽的問題??梢允褂脺y量信號與掩蔽之比的公知技術(shù)來檢測潛在的立體聲未掩蔽。一旦檢測到,可以明確地通知,或者可以僅簡單地降低立體聲參數(shù)。
在編碼器一側(cè)上,如本發(fā)明所教導(dǎo)的,一種選擇是將一個希耳伯特變換器用于輸入信號,即引入在兩個聲道之間的90度相移。當(dāng)隨后通過相加兩個信號形成單聲道信號時,實現(xiàn)了中央擺動單聲道信號和“真實的”立體聲信號之間更佳的平衡,因為希耳伯特變化為中央信息引入了3dB的衰減。實際上,這改善了諸如當(dāng)前流行音樂的單聲道編碼,例如通常使用單聲道音源來錄音引導(dǎo)聲音和低音電吉他。
多頻帶平衡參數(shù)方法并不限制于圖1所描述的應(yīng)用類型。只要目標(biāo)是有效地編碼一個立體聲信號的功率譜包絡(luò),就可以有效地使用該方法。因此,可以在立體聲編解碼器中將其用作工具,其中除了立體聲頻譜包絡(luò)之外,還編碼一個相應(yīng)的立體聲殘余信號。假設(shè)總能量P,用P=PL+PR來定義,其中PL和PR是如上所述的信號功率。注意到這種定義并不考慮從左至右的相位關(guān)系。(例如,相等的左和右信號但是符號相反,并不產(chǎn)生一個零的總能量)。類似于B,可以用dB將P表示為PdB=10log10(P/Pref),其中Pref是一個任意的參考功率,Δ的值被熵編碼。與平衡的情況相反,不將漸進(jìn)的量化用于P。為了表示一個立體聲信號的頻譜包絡(luò),為一組頻帶計算P和B,一般地但并不必需地,使用與人耳的臨界頻帶有關(guān)的帶寬。例如,通過在一個常數(shù)帶寬濾波器組內(nèi)對聲道分組可以形成這些頻帶,由此將PL和PR計算為對應(yīng)于相應(yīng)頻帶和時間上相應(yīng)周期的子頻帶平方的時間和頻率的平均值。這些組P0、P1、P2、......、PN-1和B0、B1、B2、......、BN-1,其中下標(biāo)代表N個頻帶表示中的頻帶,被Δ和霍夫曼編碼,發(fā)送或存儲,并最終解碼成在編碼器中計算的量化值。最后一個步驟是將P和B轉(zhuǎn)換回PL和PR。如根據(jù)P和B的定義很容易看出的,反向的關(guān)系為(當(dāng)忽略B定義中的e)PL=BP/(B+1),和PR=P/(B+1)。
上述包絡(luò)編碼方法的一種特別有用的應(yīng)用是為基于HFR的編解碼器編碼高頻帶的頻譜包絡(luò)。在這種情況下,不發(fā)送高頻帶的殘余信號。而是根據(jù)低頻帶獲得這個殘余信號。因而,殘余和包絡(luò)表示之間不存在嚴(yán)格的關(guān)系,包絡(luò)量化更重要。為了研究量化的效果,假設(shè)Pq和Bq分別代表P和B的量化值。則將Pq和Bq插入在上述關(guān)系中,總和為PLq+PRq=BqPq/(Bq+1)+Pq/(Bq+1)=Pq(Bq+1)/(Bq+1)=Pq。在這里感興趣的特征是消除了Bq,總功率上的誤差僅僅由P的量化誤差來確定。這意味著即使B被嚴(yán)重量化,所感覺到的電平也是正確的,假設(shè)在P的量化中使用了足夠高的精確度。換句話說,B中的失真映射成了空間上的失真,而不是電平上的失真。只要聲源隨著時間在空間內(nèi)是穩(wěn)定的,則立體聲感覺上的這個失真也是穩(wěn)定的,并很難注意到。如已經(jīng)描述的,立體聲平衡的量化在上限附近也可以比較粗糙,因為當(dāng)?shù)街行木€的角度很大時,由于人類聽覺的特性,用dB表示的給定誤差對應(yīng)于在所觀察角度上的較小的誤差。
當(dāng)量化與頻率相關(guān)的數(shù)據(jù)例如多頻帶立體聲寬度增益值或多頻帶平衡值時,能夠有利地選擇量化方法的分辨率和范圍,以匹配聽覺標(biāo)度特性。如果這種標(biāo)度取決于頻率,可以為不同的頻帶選擇不同的量化方法或者所謂的量化種類。因此,在一些情況下,即使數(shù)值相同,代表不同頻帶的編碼參數(shù)值也應(yīng)當(dāng)用不同的方式來解釋,即解碼成不同的數(shù)值。
類似于切換L/R到S/D的編碼方案,可以自適應(yīng)地用PL和PR信號來替代P和B信號,從而更好地應(yīng)付極端信號。如PCT/SE00/00158所教導(dǎo)的,根據(jù)在特定時刻上在比特數(shù)量方面哪個方向最有效,可以將包絡(luò)抽樣的Δ編碼從時間上的Δ切換成頻率上的Δ。平衡參數(shù)也可以采用這種方案例如考慮一個隨著時間進(jìn)入立體聲域的音源。顯然地,這對應(yīng)于平衡值隨著時間的連續(xù)改變,這取決于音源的速度與參數(shù)更新速率之比,可能對應(yīng)于較大的時間上的Δ值,當(dāng)使用熵編碼時對應(yīng)于較大的碼字。然而,假設(shè)音源在頻率上具有均勻的聲音輻射,平衡參數(shù)在頻率上的Δ值在時間上的每個點上為零,則再次對應(yīng)于一個較小的碼字。因而,在這種情況下,當(dāng)使用頻率Δ編碼方向時實現(xiàn)了較低的比特率。另一個例子是在房間內(nèi)固定但是具有非均勻輻射的音源?,F(xiàn)在,頻率上的Δ值較大,而時間上的Δ值是優(yōu)選的。
P/B編碼方案提供了建立一個可標(biāo)度的基于HFR的編解碼器的可能性,參見圖4??蓸?biāo)度的編解碼器的特點在于將比特流分割成兩個或更多的部分,其中可以選擇高階部分的接收和解碼。該例子假設(shè)兩個比特流部分,在下文中稱作主部分419和次部分417,但是擴(kuò)展成更多的部分顯然也是可以的。圖4a所示編碼器一側(cè)包括任意立體聲低頻帶編碼器403,它在輸入信號IN上操作(在該圖中未圖示詳細(xì)的AD和相應(yīng)的DA轉(zhuǎn)換步驟);參數(shù)立體聲編碼器,它消除高頻帶頻譜包絡(luò),和可選的附加立體聲參數(shù)401,它也在立體聲輸入信號上操作;和兩個復(fù)用器(MUX)415和413,分別用于主和次比特流。在這個應(yīng)用中,將高頻帶包絡(luò)編碼鎖定到P/B操作,通過415將P信號407發(fā)送給主比特流,而通過413將B信號405發(fā)送給次比特流。
對于低頻帶編解碼器來說,存在不同的可能性它可能始終工作在S/D模式中,并將S和D信號分別發(fā)送給主和次比特流。在這種情況下,主比特流的解碼產(chǎn)生一個完整頻帶的單聲道信號。當(dāng)然,可以通過根據(jù)本發(fā)明的參數(shù)立體聲方法來增強(qiáng)這個單聲道信號,在這種情況下立體聲參數(shù)也必須位于主比特流內(nèi)。另一種可能性是將一個立體聲編碼低頻帶信號饋送給主比特流,可選擇地與高頻帶和平衡參數(shù)一起?,F(xiàn)在,主比特流的解碼產(chǎn)生低頻帶的真實的立體聲,高頻帶的非常逼真的偽立體聲,因為低頻帶的立體聲特性被反映在高頻的重新構(gòu)建上。描述另外一種方式即使可用的高頻帶包絡(luò)表示或頻譜粗略的結(jié)構(gòu)是在單聲道內(nèi),合成后的高頻帶殘余或頻譜精細(xì)結(jié)構(gòu)也不是在單聲道內(nèi)。在這種實施方式中,次比特流可能包含更低頻帶的信息,當(dāng)將其與主比特流組合時,產(chǎn)生更高質(zhì)量的低頻帶再現(xiàn)。圖4的拓?fù)浣Y(jié)構(gòu)表示兩種情況,因為分別連接到415和417的主和次低頻帶編碼器輸出信號411和409可能包含上述任一種信號類型。
發(fā)送或存儲比特流,僅將419或同時將419和417饋送給解碼器,圖4b。由423將主比特流去復(fù)用成低頻帶核心解碼器主信號429和P信號431。類似地,由421將次比特流去復(fù)用成低頻帶核心解碼器次信號427和B信號425。將這個(些)低頻帶信號發(fā)送給低頻帶解碼器433,它生成一個輸出435,在僅解碼主比特流的情況下,該輸入也可以是上述任意類型的(單聲道或立體聲)。將信號435饋送給HFR單元437,其中生成一個合成高頻帶,并根據(jù)P來調(diào)整,所述P也連接到HFR單元。在HFR單元內(nèi)組合解碼后的低頻帶與高頻帶,在最終饋送給系統(tǒng)輸出之前,可選地通過偽立體聲生成器(也位于HFR單元內(nèi))來增強(qiáng)低頻帶和/或高頻帶,形成輸出信號OUT。當(dāng)存在次比特流417時,HFR單元也獲得B信號作為一個輸入信號425,435是立體聲的,因此該系統(tǒng)生成一個完全立體聲的輸出信號,并旁路偽立體聲生成器,如果有的話。
換句話說,一種輸入信號的立體聲特性的編碼方法包括在編碼器上,計算一個代表所述輸入信號的立體聲寬度的寬度參數(shù);和在解碼器上,生成一個立體聲輸出信號,使用所述寬度參數(shù)控制所述輸出信號的立體聲寬度。該方法還可以包括在所述編碼器上根據(jù)所述輸入信號形成一個單聲道信號,其中,在所述解碼器上所述生成是指在所述單聲道信號上操作的偽立體聲方法。其中,所述偽立體聲方法可以指將所述單聲道信號分成兩個信號,并在所述寬度參數(shù)控制的電平上將所述單聲道信號的延遲形式添加給所述兩個信號。其中,可以在添加給所述兩個信號之前,將所述延遲形式高通濾波,并在較高的頻率上漸進(jìn)地衰減。其中,所述寬度參數(shù)可以是一個矢量,所述矢量的各單元對應(yīng)于各個頻帶。其中,如果所述輸入信號是雙單聲道類型的,則所述輸出信號也可以是雙單聲道類型的。
另一種輸入信號的立體聲特性的編碼方法包括在編碼器上,計算代表所述輸入信號的立體聲平衡的平衡參數(shù);和在解碼器上,生成一個立體聲輸出信號,使用所述平衡參數(shù)控制所述輸出信號的立體聲平衡。
在這種方法中,可以在所述編碼器上根據(jù)所述輸入信號形成一個單聲道信號;在所述解碼器上,所述生成是指將所述單聲道信號分成兩個信號,所述控制是指調(diào)整所述兩個信號的電平。該方法還可以包括計算所述輸入信號的每個聲道的功率,并根據(jù)所述功率之間的商計算所述平衡參數(shù)。其中,所述功率和所述平衡參數(shù)可以是其中每個單元對應(yīng)于一個特定頻帶的矢量。該方法還可以包括在所述解碼器上,在所述平衡參數(shù)的時間上連續(xù)的兩個值之間內(nèi)插,以便所述單聲道信號的相應(yīng)功率的瞬時值控制所述瞬時內(nèi)插應(yīng)當(dāng)采用的陡度。其中,可以在表示為對數(shù)值的平衡值上執(zhí)行所述內(nèi)插方法。其中,可以將所述平衡參數(shù)的數(shù)值限制在前一平衡值和由一個中值濾波或其它濾波處理從其它平衡值提取出的一個平衡值之間的范圍內(nèi),所述范圍可以通過用某一因數(shù)移動所述范圍的邊界來進(jìn)一步地擴(kuò)展。其中,所述提取用于平衡值的限制邊界的方法對于一個多頻段系統(tǒng)來說可以是取決于頻率的。其中,可以將一個附加的電平參數(shù)計算為所述功率的矢量之和并發(fā)送給所述解碼器,從而向所述解碼器提供所述輸入信號的頻譜包絡(luò)的表示。其中,所述電平參數(shù)和所述平衡參數(shù)可以自適應(yīng)地用所述功率來替換。其中,所述頻譜包絡(luò)可以用于控制一個解碼器內(nèi)的HFR處理。其中,可以將所述電平參數(shù)饋送給一個可標(biāo)度的基于HFR的立體聲編解碼器的主比特流,并將所述平衡參數(shù)饋送給所述編解碼器的次比特流。其中,可以將所述單聲道信號和所述寬度參數(shù)饋送給所述主比特流。其中,可以通過一個函數(shù)來處理所述的寬度參數(shù),所述函數(shù)為與更遠(yuǎn)離中心位置的平衡位置相對應(yīng)的平衡值給出較小的數(shù)值。其中,所述平衡參數(shù)的量化可以在中心位置附近使用較小的量化步長,在較偏外的位置上使用較大的步長。其中,可以使用一個量化方法來量化所述寬度參數(shù)和所述平衡參數(shù),所述量化方法對于一個多頻帶系統(tǒng)來說在分辨率和范圍方面是取決于頻率的。其中,可以在時間或者在頻率上自適應(yīng)地Δ編碼所述平衡參數(shù)。其中,在形成所述單聲道信號之前,可以使所述輸入信號通過一個希耳伯特變換器。
一種用于參數(shù)立體聲編碼的設(shè)備包括在編碼器上,用于計算代表一個輸入信號的立體聲寬度的寬度參數(shù)的裝置和用于根據(jù)所述輸入信號形成一個單聲道信號的裝置;以及在解碼器上,用于根據(jù)所述單聲道信號生成一個立體聲輸出信號并使用所述寬度參數(shù)來控制所述輸出信號的立體聲寬度的裝置。
權(quán)利要求
1.一種在時間連續(xù)的兩個平衡值之間進(jìn)行內(nèi)插的方法,所述平衡值是從具有第一聲道和第二聲道的立體聲信號或者多聲道信號得出的,該方法包括以下步驟研究從第一聲道和第二聲道得出的單聲道信號,以獲得關(guān)于聲音事件的開始或結(jié)束的信息;以及響應(yīng)于該信息,計算在所述時間連續(xù)的兩個平衡值之間的內(nèi)插值,使得在具有較低能量的時間片段執(zhí)行平衡位置的較強(qiáng)改變,而在具有較高能量的時間片段執(zhí)行平衡位置的較弱改變。
2.根據(jù)權(quán)利要求1的方法,其中,所述研究步驟包括得出所述單聲道信號的能量包絡(luò)的步驟。
3.根據(jù)權(quán)利要求1或2的方法,其中,所述研究步驟包括檢測在特定頻帶內(nèi)信號能量的突然增加或降低的步驟。
4.根據(jù)前述權(quán)利要求中任一項的方法,其中,所述研究步驟包括通過對在所述聲音事件的開始處的能量應(yīng)用峰值保持操作而查找聲音的開始的步驟,以及所述計算步驟使平衡值增量為所述峰值保持能量的函數(shù),以使小能量值提供大的增量,反之亦然。
5.根據(jù)前述權(quán)利要求中任一項的方法,其中,所述平衡值是第一聲道和第二聲道的能量的商,所述時間連續(xù)的兩個平衡值用對數(shù)值來表示,以及所述計算步驟計算以對數(shù)表示的所述內(nèi)插值。
6.一種用于在時間連續(xù)的兩個平衡值之間進(jìn)行內(nèi)插的設(shè)備,所述平衡值是從具有第一聲道和第二聲道的立體聲信號或者多聲道信號得出的,該設(shè)備包括研究裝置,用于研究從第一聲道和第二聲道得出的單聲道信號以獲得關(guān)于聲音事件的開始或結(jié)束的信息;以及計算裝置,用于響應(yīng)于所述信息,計算在所述時間連續(xù)的兩個平衡值之間的內(nèi)插值,使得在具有較低能量的時間片段執(zhí)行平衡位置的較強(qiáng)改變,而在具有較高能量的時間片段執(zhí)行平衡位置的較弱改變。
全文摘要
本發(fā)明提供了對現(xiàn)有技術(shù)的音頻編解碼器的改進(jìn),所述音頻編解碼器通過對所接收到的單聲道信號的后處理生成一個立體聲幻覺。通過在編碼器一側(cè)上提取立體聲圖像描述參數(shù),將其發(fā)送和隨后用于在解碼器一側(cè)上控制立體聲生成器,實現(xiàn)了這些改進(jìn)。此外,通過使用一種新形式的參數(shù)立體聲編碼,本發(fā)明彌補(bǔ)了簡單的偽立體聲方法和當(dāng)前的真實立體聲編碼方法之間的差距。引入了一個立體聲平衡參數(shù),使得能夠?qū)崿F(xiàn)更先進(jìn)的立體聲模式,此外,構(gòu)建了頻譜包絡(luò)立體聲編碼的新方法的基礎(chǔ),尤其是在使用引導(dǎo)HFR(高頻重建)的系統(tǒng)中使用。作為一種特殊的情況,描述了這種立體聲編碼方案在可標(biāo)度的基于HFR的編解碼器內(nèi)的應(yīng)用。
文檔編號G10L19/02GK1758337SQ200510109959
公開日2006年4月12日 申請日期2002年7月10日 優(yōu)先權(quán)日2001年7月10日
發(fā)明者弗雷德里克·海恩, 克里斯托弗·克約爾林, 拉爾斯·古斯塔夫·里爾耶爾德, 喬納斯·羅丹, 喬納斯·英哥德加德 申請人:編碼技術(shù)股份公司