亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音頻信號解碼器、音頻信號編碼器、用以將音頻信號解碼的方法、用以將音頻信號編碼的...的制作方法

文檔序號:2832759閱讀:536來源:國知局
專利名稱:音頻信號解碼器、音頻信號編碼器、用以將音頻信號解碼的方法、用以將音頻信號編碼的 ...的制作方法
技術(shù)領(lǐng)域
依據(jù)本發(fā)明的諸實施例與基于一編碼音頻信號表不提供一解碼音頻信號表不的一種音頻信號解碼器有關(guān)。依據(jù)本發(fā)明的進(jìn)一步實施例與提供一輸入音頻信號的一編碼表不的一種音頻信號編碼器有關(guān)。根據(jù)本發(fā)明更進(jìn)一步的實施例與一種基于一編碼音頻信號表示提供一解碼音頻信號表不的方法有關(guān)?!?br> 根據(jù)本發(fā)明的另一些實施例與一種提供輸入音頻信號的一編碼表不的方法有關(guān)。根據(jù)本發(fā)明的更進(jìn)一步實施例與計算機程序有關(guān)。根據(jù)本發(fā)明的一些實施例與利用扭曲信息適應(yīng)一算術(shù)編碼器的上下文(context)的概念有關(guān),該扭曲信息可與一時間扭曲修正型離散余弦轉(zhuǎn)換結(jié)合利用(簡稱為TW-MDCT)。
背景技術(shù)
在下文中,將對時間扭曲音頻編碼范疇做一簡短的介紹,該一范疇的概念可與本發(fā)明的一些實施例結(jié)合應(yīng)用。近來,已有將一音頻信號轉(zhuǎn)換成一頻域表示,并將頻域表示有效地,例如計入知覺遮蔽閾值編碼的技術(shù)研發(fā)。如果一組編碼頻譜系數(shù)被傳輸?shù)膮^(qū)塊長度長,且如果僅有一相對少數(shù)的頻譜系數(shù)遠(yuǎn)高于總體遮蔽閾值、而大量的頻譜系數(shù)接近或低于總體遮蔽閾值且因此可被忽略(或以最小的碼長度編碼),則此一音頻信號編碼概念特別有效率。適用該條件的頻譜有時稱為一稀疏頻譜。舉例而言,以余弦為基礎(chǔ)或以正弦為基礎(chǔ)的調(diào)制重迭轉(zhuǎn)換因其能量壓縮性質(zhì)而經(jīng)常被使用在信源編碼的應(yīng)用中。亦即,對具有一固定基本頻率(音高)的諧波音,它們將信號能量集中到少數(shù)的頻譜成分(子能帶),導(dǎo)致一有效率的信號表示。通常,一信號的(基本)音高應(yīng)被理解成能與信號頻譜區(qū)別的最低主要頻率。在常用語音模式中,音高是由人類咽喉調(diào)制的激發(fā)信號頻率。若僅有一個單一基本頻率存在,頻譜將極其簡單,只包含基本頻率和泛音。此一頻譜可被高度有效地編碼。然而,對于具有變化音高的信號,對應(yīng)于每一諧波成分的能量覆蓋數(shù)個轉(zhuǎn)換系數(shù),因而導(dǎo)致一編碼效率的降低。為了克服編碼效率的減少,要編碼的音頻信號在一非均勻時間網(wǎng)格上被有效地重取樣。在后續(xù)處理中,由非均勻重取樣獲得的樣本位置被處理成猶如它們表示一均勻時間網(wǎng)格上的值。此一運算一般是表示成「時間扭曲」。取樣次數(shù)可有利地依賴音高的時間變化被選擇,以使得音頻信號在音頻信號的調(diào)諧扭曲版本中的一音高變化小于音頻信號在原始版本(在時間扭曲之前)中的一音高變化。在音頻信號的時間扭曲后,音頻信號的時間扭曲版本轉(zhuǎn)換成頻域。音高相依的時間扭曲具有的效果為時間扭曲音頻信號的頻域表示典型地展現(xiàn)能量壓縮成遠(yuǎn)比原初(非時間-扭曲音頻信號)的頻域表示為少的頻譜成分?jǐn)?shù)目。在解碼器端時間扭曲音頻信號的頻域表示被轉(zhuǎn)換至?xí)r域,以使得時間扭曲音頻信號的一時域表示可在解碼器端取得。然而,在解碼器端重建時間扭曲音頻信號的時域表示中,編碼器端輸入音頻信號的原始音高變化未被包含。因此,又另一通過重取樣時間扭曲音頻信號的解碼器端重建時域表示的時間扭曲被應(yīng)用。為了要在解碼器獲得編碼器端輸入音頻信號的良好重建,需要使解碼器端時間扭曲至少大約是編碼器端時間扭曲的反運算。為了要獲得適當(dāng)?shù)臅r間扭曲,需要有一數(shù)據(jù)提供于解碼器以容許編碼器端時間扭曲的調(diào)整。因為典型地需要將此信息從音頻信號編碼器傳遞到音頻信號解碼器,理想地是保持此一傳輸所需要的位率低,同時仍容許需要的時間扭曲信息能在解碼器端可靠重整。而且,當(dāng)編碼或解碼頻譜值時編碼效率往往因使用一上下文相依編碼器或一上下文相依解碼器而增加。 然而,已經(jīng)發(fā)現(xiàn)一音頻編碼器的一編碼效率在一基本頻率或一音高存有一變化下往往比較低,即使時間扭曲概念被應(yīng)用亦然。鑒于此一情況,希望有一種即使當(dāng)存在一基本頻率變化仍允許一良好編碼效率的概念。

發(fā)明內(nèi)容
發(fā)明概要依據(jù)本發(fā)明的一實施例創(chuàng)作一種音頻信號解碼器,該解碼器基于包括編碼頻譜表示及編碼時間扭曲信息的一編碼音頻信號表示提供一解碼音頻信號表示。音頻信號解碼器包含一基于上下文的頻譜值解碼器,該解碼器配置成依賴一上下文狀態(tài)解碼描述一或更多頻譜值或一或更多頻譜值的一數(shù)字表示的至少一部分的一碼字,以獲得解碼頻譜值。音頻信號解碼器也包含一上下文狀態(tài)決定器,配置成依賴一或更多先前解碼的頻譜值決定一現(xiàn)行的上下文狀態(tài)。音頻信號解碼器也包含一時間扭曲頻域?qū)r域轉(zhuǎn)換器,配置成根據(jù)一組與特定音幀相關(guān)聯(lián)且由該基于上下文頻譜值決定器提供的解碼頻譜值、并依賴該時間曲信息提供一音巾貞的一時間扭曲時域表不。上下文狀態(tài)決定器配置成使上下文狀態(tài)的決定適應(yīng)后續(xù)音幀之間的一基本頻率變化。根據(jù)本發(fā)明的此一實施例是以一發(fā)現(xiàn)為基礎(chǔ),即若上下文狀態(tài)被適應(yīng)后續(xù)音幀之間的一基本頻率改變,則以一基于上下文頻譜值的解碼器在一具有時間變化的音頻信號存在下所實現(xiàn)的編碼效率被改進(jìn),因為基本頻率隨時間的變化(在許多情況等同于音高變化)具有的效果為一特定音幀的頻譜典型地相似于一先前音幀(在特定音幀之前)的頻譜的頻率比例縮放版本,使得依賴基本頻率變化決定上下文的適應(yīng)技術(shù)允許利用該相似性來改良編碼效率。換言之,已發(fā)現(xiàn)基于上下文頻譜值編碼的編碼效率(或解碼效率)在二個后續(xù)音幀之間存在一基本頻率的一顯著改變時相對較差,且此一情況下編碼效率可通過適應(yīng)上下文狀態(tài)的決定而被改善。此一決定上下文狀態(tài)的適應(yīng)技術(shù)允許利用先前音幀與現(xiàn)行音幀的頻譜之間的相似性,同時也考慮先前音幀與現(xiàn)行音幀的頻譜間的系統(tǒng)性差異,像是例如典型地出現(xiàn)在基本頻率隨著時間變化(即在二音幀之間)下的頻譜的頻率比例縮放。
概括而言,依據(jù)本發(fā)明的此一實施例有助于在不需要另外的旁側(cè)信息或者位率之下改善編碼效率(假定描述基本頻率在后續(xù)音幀之間變化的信息利用一音頻信號編碼器或解碼器的時間扭曲功能可在一音頻比特流中使用)。在一較佳實施例中,時間扭曲頻域?qū)r域轉(zhuǎn)換器包含一標(biāo)準(zhǔn)(非時間扭曲)頻域?qū)r域轉(zhuǎn)換器,配置為根據(jù)一組與特定音幀相關(guān)聯(lián)且由基于上下文解碼器提供的一組解碼頻譜值提供一特定音幀的一時域表示,以及一時間扭曲重取樣器,配置為依賴時間扭曲信息重取樣該特定音巾貞的時域表不、或其一已處理版本,以獲得該特定音巾貞的一重取樣(時間扭曲)時域表示。一時間扭曲頻域?qū)r域轉(zhuǎn)換器的此一實施易于施行,原因是其依賴一「標(biāo)準(zhǔn)」頻域?qū)r域轉(zhuǎn)換器,且包括一時間扭曲重取樣器為其功能擴充,該時間扭曲重取樣器的功能可以獨立于頻域?qū)r域轉(zhuǎn)換器的功能外。因此,該頻域?qū)r域轉(zhuǎn)換器可在一時間扭曲(或復(fù)原時間扭曲)停用的運算模式及一時間扭曲(或復(fù)原時間扭曲)現(xiàn)用的運算模式的兩種運算模式中被重復(fù)利用。
在一較佳實施例中,時間扭曲信息描述音高隨時間的變化。在此實施例中,上下文狀態(tài)決定器配置成從時間扭曲信息導(dǎo)出一頻率伸展信息(即,一頻率比例縮放信息)扭曲信息。而且,上下文狀態(tài)決定器最好配置成沿著頻率軸依賴頻率伸展信息伸展或壓縮與一先前音幀相關(guān)聯(lián)的過去上下文,以獲得用于一現(xiàn)行音幀的一或更多頻譜值的基于上下文解碼的一適應(yīng)上下文。已發(fā)現(xiàn)一描述一音高隨時間的變化的時間扭曲信息非常適合導(dǎo)出頻率伸展信息。而且,已經(jīng)發(fā)現(xiàn)沿頻率軸伸展或壓縮與一先前音幀相關(guān)聯(lián)的過去上下文典型地產(chǎn)生一伸展或壓縮上下文,其允許導(dǎo)出一有意義上下文狀態(tài)信息,該狀態(tài)信息良好適應(yīng)目前音幀的頻譜且因而帶來一良好的編碼效率。在一較佳實施例中,上下文狀態(tài)決定器配置成從時間扭曲信息導(dǎo)出一第一音幀的一第一平均頻率信息,且從時間扭曲信息導(dǎo)出接著第一音幀之后的一第二音幀上的一第二平均頻率信息。在此一情況,上下文狀態(tài)決定器配置成在計算第二音幀上的第二平均頻率信息與第一音幀上的第一平均頻率信息之間的一比率,用以確定頻率伸展信息。已發(fā)現(xiàn)典型地能夠容易從時間扭曲信息導(dǎo)出平均頻率信息,且亦發(fā)現(xiàn)第一與第二平均頻率信息之間的比率允許一計算上有效的頻率伸展信息導(dǎo)出。在另一較佳實施例中,上下文狀態(tài)決定器配置成從時間扭曲信息導(dǎo)出一第一音幀上的一第一平均時間扭曲信息,且從時間扭曲信息出一在第一音幀之后的一第二音幀上的第二平均時間扭曲信息。在此一情況,上下文狀態(tài)決定器配置成計算第一音幀上的第一平均時間扭曲輪廓信息與該第二音幀上的第二平均時間扭曲信息之間的比率,用以確定頻率伸展信息。已發(fā)現(xiàn)計算第一與第二音幀(可能重迭)上的時間扭曲輪廓的平均時在計算上特別有效,且第一平均時間扭曲輪廓信息與第二平均時間扭曲輪廓信息間的一比率提供充分正確的頻率伸展信息。在一較佳實施例中,上下文狀態(tài)決定器配置成從一延伸在多個連續(xù)音幀上的共同時間扭曲輪廓導(dǎo)出第一和第二平均頻率信息或第一和第二平均時間扭曲輪廓信息。已發(fā)現(xiàn)在多個連續(xù)音幀上建立一共同時間扭曲輪廓不僅促進(jìn)重取樣時間的正確和無失真計算,且也提供一非常好的基礎(chǔ)以供判斷二后續(xù)音幀之間的基本頻率改變。因此,共同時間扭曲輪廓已被確認(rèn)為一識別不同音幀之間一隨著時間的相對頻率改變的極佳方法。在一較佳實施例中,音頻信號解碼器包含一時間扭曲輪廓計算器,配置成根據(jù)時間扭曲信息計算描述多個連續(xù)音幀上的一相對音高的時間演變的時間扭曲輪廓信息。在此一情況,上下文狀態(tài)決定器配置成使用時間扭曲輪廓信息導(dǎo)出頻率伸展信息。已發(fā)現(xiàn)例如可針對一音幀的每一取樣被定義的一時間扭曲輪廓信息構(gòu)成上下文狀態(tài)決定的適應(yīng)技術(shù)的一極佳基礎(chǔ)。在一較佳實施例中,音頻信號解碼器包含一重取樣位置計算器。重取樣位置計算器配置成根據(jù)時間扭曲輪廓信息計算重取樣位置以供時間扭曲重取樣器使用,以使得重取樣位置的一時間變化由時間扭曲輪廓信息決定。已發(fā)現(xiàn)時間扭曲輪廓信息對于頻率伸展信息的決定及重取樣位置的決定的一般用途所具有的效果是,通過應(yīng)用頻率伸展信息所獲得的一伸展上下文被良好適應(yīng)一現(xiàn)行音幀的頻譜的特性,其中該現(xiàn)行音幀的音頻信號至少接近利用計算的重取樣位置通過重取樣操作被重建的先前音頻信號的一音頻信號延續(xù)。在一較佳實施例中,上下文狀態(tài)決定器配置成依賴多個先前解碼的頻譜值(可能被上下文內(nèi)存結(jié)構(gòu)所包含或描述)導(dǎo)出一數(shù)字的現(xiàn)行上下文值,且依賴數(shù)字現(xiàn)行上下文值選擇描述一碼值映射至一表示一或更多頻譜、或一或更多頻譜值的一數(shù)字表示的至少一部分的碼值的一映射規(guī)則。在此情況下,基于上下文的頻譜值解碼器配置成使用上下文狀態(tài)決定器所選擇的映射規(guī)則解碼描述一或更多頻譜值、或者一或更多頻譜值的一數(shù)字表示的 至少一部分的碼值。已發(fā)現(xiàn)一種上下文適應(yīng)技術(shù),其中一數(shù)字現(xiàn)行上下文值由多個先前解碼頻譜值導(dǎo)出,且其中一映射規(guī)則依據(jù)該數(shù)字(現(xiàn)行)上下文值被選擇,因上下文狀態(tài)例如數(shù)字(現(xiàn)行)上下文值的決定的一適應(yīng)技術(shù)而顯著獲益,因為通過此一概念能避免一顯著不適當(dāng)映射規(guī)則的選擇。相反地,如果上下文狀態(tài),即數(shù)字現(xiàn)行上下文值的導(dǎo)出不依賴后續(xù)音幀之間的基本頻率改變被適應(yīng),則一映射規(guī)則的錯誤選擇將在有一基本頻率改變之下時常發(fā)生于,使得一編碼增益可能減少。此一編碼增益的減少通過所描述的機制而被避免。 在一較佳的實施例中,上下文狀態(tài)決定器配置成建立及更新一初步上下文內(nèi)存結(jié)構(gòu),以使得初步上下文內(nèi)存結(jié)構(gòu)的項目描述第一音幀的一或更多頻譜值,其中初步上下文內(nèi)存結(jié)構(gòu)的項目的項目索引指示各別項目所關(guān)聯(lián)的頻域?qū)r域轉(zhuǎn)換器的一頻率點或者一組相鄰頻率點(例如,在提供第一音幀的時域表示中)。上下文狀態(tài)決定器更進(jìn)一步被配置成根據(jù)初步上下文內(nèi)存結(jié)構(gòu)獲得一頻率比例縮放上下文內(nèi)存結(jié)構(gòu)以使得初步上下文的一個具有第一索引的特定項目或者子項目被映射至頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的具有一第二頻率索引的對應(yīng)項目或者子項目之上。第二頻率索引與該第一頻率索引是與該頻域?qū)r域轉(zhuǎn)換器的一不同頻率點或一不同組相鄰頻率點相關(guān)聯(lián)。換言之,在對應(yīng)于該頻域?qū)r域轉(zhuǎn)換器的一第i頻譜點(或頻域?qū)r域轉(zhuǎn)換器的第i組頻譜點)的一或更多頻譜值的基礎(chǔ)上所獲得的初步上下文內(nèi)存結(jié)構(gòu)的一項目被映射至頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的一與頻域?qū)r域換器的一第j頻率點(或者第j組頻率點)相關(guān)聯(lián)的一項目上,其中j不同于i。已發(fā)現(xiàn)此一將初步內(nèi)存結(jié)構(gòu)的項目映射至頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的項目上的概念提供一使上下文狀態(tài)的決定適應(yīng)基本頻率改變的一種計算上特別有效的方法。該上下文的一頻率比例縮放可以利用此一概念被輕松達(dá)成。因此。由脈頻率比例縮放上下文內(nèi)存結(jié)構(gòu)導(dǎo)出一數(shù)字現(xiàn)行上下文值與從一無音高變化的常規(guī)(例如初步)上下文內(nèi)存結(jié)構(gòu)導(dǎo)出一數(shù)字現(xiàn)行上下文值可以是同樣的。因此,所描述的概念容許以最小的努力在一現(xiàn)存的音頻解碼器下實施上下文適應(yīng)技術(shù)。在一較佳實施例中,上下文狀態(tài)決定器配置成導(dǎo)出描述現(xiàn)行上下文狀態(tài)的一上下文狀態(tài)值用于一碼字的解碼,該碼字使用頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的值描述與一第三頻率索引相關(guān)聯(lián)的一第二音幀的一或更多頻譜值、或第二音幀的一或更多頻譜值的一數(shù)字表示的至少一部分,頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的該等值的頻率索引是與第Ξ頻率索引成一預(yù)定關(guān)系,該第三頻率索引指定欲利用現(xiàn)行上下文狀態(tài)值被解碼的音幀所關(guān)聯(lián)的頻域?qū)r域解碼器的一頻率點或者一組相鄰頻率點。已經(jīng)發(fā)現(xiàn)使用一或更多欲被解碼的頻譜值的預(yù)定(且最好是固定)相對環(huán)境(以頻率點的角度)導(dǎo)出上下文狀態(tài)值(例如,一數(shù)字現(xiàn)行上下文值)允許使該上下文狀態(tài)值的計算保持適度簡單。通過使用頻率比例縮放上下文內(nèi)存結(jié)構(gòu)作為上下文狀態(tài)值導(dǎo)出的一輸入,基本頻率的變化能有效率地被考慮。在一較佳的實施例中,上下文狀態(tài)決定器配置成將頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的具有一對應(yīng)目標(biāo)值頻率索引的每一多個項目設(shè)定為初步上下文內(nèi)存結(jié)構(gòu)具有對應(yīng)來源頻率索引的一對應(yīng)項目的值。上下文狀態(tài)決定器配置成決定頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的一項目及初步上下文內(nèi)存結(jié)構(gòu)的一對應(yīng)項目的對應(yīng)頻率索引,以使得該對應(yīng)頻率索引之間的一比率是由初步上下文內(nèi)存結(jié)構(gòu)的項目所關(guān)聯(lián)的一現(xiàn)行音幀與解碼上下文由頻率比 例縮放上下文內(nèi)存結(jié)構(gòu)的項目決定的一后續(xù)音幀之間的基本頻率改變決定。通過使用此一概念導(dǎo)出頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的項目,能保持小的復(fù)雜度同時仍可使頻率比例縮放上下文內(nèi)存結(jié)構(gòu)適應(yīng)基本頻率的變化。在一較佳的實施例中,上下文狀態(tài)決定器配置成建立初步上下文內(nèi)存結(jié)構(gòu)以使得初步上下文內(nèi)存結(jié)構(gòu)的每一多個項目是以一第一音幀的多個頻譜為基礎(chǔ),其中初步上下文內(nèi)存結(jié)構(gòu)的項目的項目索引指示各別項目被關(guān)聯(lián)(相對第一音幀)的頻域?qū)r轉(zhuǎn)換的一組相鄰頻率點。上下文狀態(tài)決定器配置成從初步上下文內(nèi)存結(jié)構(gòu)的項目提取具有關(guān)聯(lián)的個別頻率點索引的初步頻率點個別上下文值。除此的外,上下文狀態(tài)決定器配置成獲得具有關(guān)聯(lián)的個別頻率點索引的頻率比例縮放頻率點個別上下文值,以使得具有一第一頻率點索引的特定初步頻率點個別上下文值被映射到一具有一第二頻率點索引的對應(yīng)頻率比例縮放頻率點個別上下文值,使得初步頻率點個別上下文值的一頻率點個別映射被獲得。上下文狀態(tài)決定器更進(jìn)一步被配置為將多個頻率比例縮放頻率點個別上下文值組合成頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的一組合項目。因此,即使多個頻率點被概括在上下文內(nèi)存結(jié)構(gòu)的一個項目中,仍能夠使頻率比例縮放上下文內(nèi)存結(jié)構(gòu)以一非常精細(xì)的方式適應(yīng)基本頻率的變化。因此,上下文對基本頻率改變的一特別精確的適應(yīng)可被達(dá)成。依據(jù)本發(fā)明的另一實施例創(chuàng)作一種音頻信號編碼器,提供包括一編碼頻譜表示與一編碼時間扭曲信息的輸入音頻信號的一編碼表示。音頻信號編碼器包含一頻域表示提供者,其配置成提供表不依據(jù)一時間扭曲資被時間扭曲的輸入音頻信號的時間扭曲版本。音頻信號編碼器進(jìn)一步包含一基于上下文的頻譜值編碼器,配置成依賴一上下文狀態(tài)編碼一描述頻域表示的一或更多頻譜值,或頻域表示的一或更多頻譜值的一數(shù)字表示的至少一部分的碼字,以獲得編碼頻譜表示的編碼頻譜值。音頻信號解碼器也包含配置成依賴一或更多個先前編碼的頻譜值決定一現(xiàn)行上下文狀態(tài)的上下文狀態(tài)決定器。上下文狀態(tài)決定器配置成使上下文狀態(tài)的決定適應(yīng)后續(xù)音幀之間的基本頻率改變。此一音頻信號編碼器與上述的音頻信號解碼器是以同一概念與發(fā)現(xiàn)為基礎(chǔ)。同時,音頻信號編碼器能被增補有關(guān)于音頻信號解碼器所討論的任何一特征及功能,其中先前編碼頻譜值擔(dān)任先前解碼頻譜值在上下文狀態(tài)計算中的角色。在一較佳的實施例中,上下文狀態(tài)決定器配置成依賴多個先前編碼頻譜值導(dǎo)出一數(shù)字現(xiàn)行上下文值,并依賴該數(shù)字現(xiàn)行上下文值選擇描述一或更多頻譜值、或一或更多頻譜值的一數(shù)字表示的一部分映射至一碼值上的映射規(guī)則。在此情況下,基于上下文的頻譜值編碼器配置成使用由上下文狀態(tài)決定器選擇的映射規(guī)則提供描述一或更多頻譜值或一或更多頻譜值的一數(shù)字表示的至少一部分的碼值。依據(jù)本發(fā)明的另一實施例創(chuàng)作一種在一編碼音頻信號的基礎(chǔ)上提供一解碼音頻信號表示的方法。依據(jù)本發(fā)明的又一實施例創(chuàng)作一種提供一輸入音頻信號的編碼表示的方法。依據(jù)本發(fā)明的另一實施例創(chuàng)作一可執(zhí)行該等方法之一的一種計算機程序。諸方法及計算機程序是以與上述討論的音頻信號解碼器和音頻信號編碼的相同考慮為基礎(chǔ)。此外,音頻信號編碼器,諸方法和計算機程序能以有關(guān)于音頻信號解碼器的上述及下文所描述的任何一功能和功能補充。


圖1a示出依據(jù)本發(fā)明的一實施例的一音頻信號編碼器的一方塊概略圖;圖1b示出依據(jù)本發(fā)明的一實施例的一音頻信號解碼器的一方塊概略圖;圖2a圖示出依據(jù)本發(fā)明的另一實施例的音頻信號編碼器的一方塊概略圖;圖2b圖示出依據(jù)發(fā)明的另一實施例的音頻信號解碼器的一方塊概略圖;圖2c示出依據(jù)發(fā)明的實施例的一使用在音頻編碼器中的算術(shù)編碼器的一方塊概略圖;圖2d示出依據(jù)發(fā)明的實施例的一使用在音頻信號解碼器中的算術(shù)解碼器的一方塊概略圖;圖3a示出一自適應(yīng)上下文(編碼/解碼)的圖標(biāo);圖3b示出一相對音高輪廓的圖示;圖3c示出時間扭曲修正型離散余弦轉(zhuǎn)換(tw-mdct)的一伸展效果的圖示;圖4a示出使用在本發(fā)明的實施例中的一上下文狀態(tài)決定器的方塊概略圖;圖4b示出可由依據(jù)圖4的上下文狀態(tài)決定器實施的一頻率壓縮的圖標(biāo);圖4c示出一用于伸展或壓縮一上下文、可被應(yīng)用在依據(jù)本發(fā)明的實施例中的一算法的一虛擬程序碼表示;圖4d和圖4e示出一用于伸展或壓縮一上下文、可被應(yīng)用在依據(jù)本發(fā)明的實施例中的一算法的一虛擬程序碼表示;圖5a、圖5b示出依據(jù)發(fā)明的一實施例的一音頻信號解碼器的方塊概略圖的一詳細(xì)摘錄部分;圖6a、圖6b示出依據(jù)發(fā)明的一實施例,一提供解碼音頻信號表示的映射程序的流程圖的一詳細(xì)摘錄部分;圖7a圖示出使用在依據(jù)發(fā)明一實施例的一音頻解碼器中的數(shù)據(jù)元素和輔助元素的一定義的說明;圖7b示出被使用在依據(jù)發(fā)明一實施例的一音頻解碼器中的常數(shù)的定義說明;
圖8示出一碼字索引映射至一對應(yīng)的解碼時間扭曲值之上的一映射的表表示;圖9示出一用于在相等間隔的節(jié)點間線性內(nèi)插的算法的一虛擬程序碼表示;圖IOa示出一輔助程序函數(shù)“warp mv vec”的一虛擬程序碼表示;圖IOb示出一輔助程序函數(shù)“warp mv vec”的一虛擬程序碼表示;圖11示出一用于計算一樣本位置向量和一過渡長度的算法的一虛擬程序碼表示;圖12不出取決于一窗序列和一核心編碼器音巾貞長度的合成窗長度N的值的表表示;圖13示出一容許窗序列的真值表表示;
圖14示出一用于一“EIGHT_SHORT_SEQUENCE”型態(tài)的窗序列的窗化及一內(nèi)部重迭相加的算法的一虛擬程序碼表示;圖15示出用于非“EIGHT_SHORT_SEQUENCE”型的其它窗序列的窗化及一內(nèi)部重迭相加的算法的一虛擬程序碼表示,圖16示出一用于重取樣的算法的一虛擬程序碼表示;且圖17示出一用于狀態(tài)計算的上下文圖示,其可被使用在依據(jù)本發(fā)明的一些實施例中;圖18示出一定義的說明;圖19示出一算法“arith map context O ”的一虛擬程序碼表示;圖20示出一算法“arith_get_context O ”的一虛擬程序碼表示;圖21示出一算法“arith get pk() ”的一虛擬程序碼表示;圖22 不出一虛擬的 “arith decode () ” ;圖23示出用于解碼一或更多較不顯著的位平面的一算法的一虛擬程序碼表示;圖24示出用于設(shè)定一系列算術(shù)解碼頻譜值的算法的一虛擬程序碼表示項目一;圖25示出一函數(shù)“arith_update_context O ”的一虛擬程序碼表示;圖26示出一算法“arith finish () ”的一虛擬程序碼表示;圖27a至與27f示出依據(jù)本發(fā)明一實施例圖的音頻流的語法元素的表示。
具體實施例方式較佳實施例的詳細(xì)說明I.依據(jù)圖Ia的音頻信號編碼器圖Ia依據(jù)本發(fā)明的一實施例不出一音頻信號編碼器100的一方塊概略圖。音頻信號編碼器100配置成接收一輸入音頻信號110且提供輸入音頻信號的一編碼表不112。輸入音頻信號的編碼表不112包含一編碼頻譜表不和一編碼時間扭曲信息。音頻信號編碼器100包含頻域表示提供者120,其配置成接收輸入音頻信號110和一時間扭曲信息122。頻域表示提供者120 (其可被視為一時間扭曲頻域表示提供者)配置成提供一表不依據(jù)時間扭曲信息122被時間扭曲的輸入音頻信號110的一時間扭曲版本的一頻域表示124。音頻信號編碼器100也包含一基于上下文頻譜值編碼器130,配置成依賴一上下文狀態(tài)提供一描述頻域表示124的一或更多頻譜值、或頻域表示124的一或更多頻譜值的數(shù)字表示的至少一部分,以獲得編碼頻譜表示的編碼頻譜值。上下文狀態(tài)例如可被一上下文狀態(tài)信息134描述。音頻信號編碼器100也包含上下文狀態(tài)決定器140,配置成依賴一或更多先前編碼頻譜値24決定一現(xiàn)行上下文狀態(tài)。上下文狀態(tài)決定器140繼而可提供上下文狀態(tài)信息134給基于上下文的頻譜值編碼器130,其中上下文狀態(tài)信息例如可采一數(shù)字現(xiàn)行上下文值(用于選擇一映射規(guī)則或映射表)的形式、或一選擇映射規(guī)則或映射表的參考數(shù)據(jù)的形式。上下文狀態(tài)決定器140配置成使上下文狀態(tài)的決定適應(yīng)對后續(xù)音幀之間的一基本頻率改變。因此,上下文狀態(tài)決定器可評估有關(guān)后續(xù)首巾貞之間的基本頻率改變的一信息。此一有關(guān)后續(xù)音幀間的基本頻率改變的信息例如可以是以頻域表示提供者120所使用的時間扭曲信息122為基礎(chǔ)。因此,音頻信號編碼器在音頻信號部分包括一隨時間變化的基本頻率、或一隨時間變化的音高的情況下可提供一特別高的編碼效率,因為上下文狀態(tài)信息134的衍生信息被適應(yīng)二個音幀之間的基本頻率改變。因此,被基于上下文頻譜值編碼器130使用的上下文被良好適應(yīng)頻域表示124的頻譜壓縮(相對于頻率)或頻譜擴展(相對于頻率),此在基本頻率由一音幀改變至次一音幀(即在二音幀之間)時發(fā)生。因此,一上下文狀態(tài)信息134甚·至在一基本頻率改變的情況下平均而言被良好適應(yīng)于頻域表示124,進(jìn)而產(chǎn)生基于上下文頻譜值編碼器的良好編碼效率。已發(fā)現(xiàn),若相反地上下文狀態(tài)未被適應(yīng)基本頻率的改變,則上下文在基本頻率改變的情形中是不適當(dāng)?shù)?,因此造成編碼效率的顯著降級。因此,可以說音頻信號編碼器100在基本頻率改變的情形中典型地表現(xiàn)超越使用一基于上下文頻譜值編碼的傳統(tǒng)音頻信號編碼器。在此應(yīng)指出者,使上下文狀態(tài)的決定適應(yīng)于后續(xù)音幀(即從第一音幀到第二、后續(xù)音幀)之間的基本頻率改變的手段存在有許多不同的實施方式。例如,一項目是由頻域表示124定義或由其衍生的上下文內(nèi)存結(jié)構(gòu),(或更精確地,其內(nèi)容)可在一描述上下文狀態(tài)的數(shù)字現(xiàn)行上下文值被導(dǎo)出之前在頻率上被伸展或壓縮。此等概念將在下文中詳細(xì)討論?;蛘?,也可能改變(或適應(yīng))算法以從上下文內(nèi)存結(jié)構(gòu)的項目導(dǎo)出上下文狀態(tài)信息134,內(nèi)存結(jié)構(gòu)的項目是以頻域表示124為基礎(chǔ)。例如,此一非頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的哪一項目(多個項目)被考慮可以調(diào)整,盡管此一解決方案在本文中不予詳細(xì)討論。2.依據(jù)圖Ib的音頻信號解碼器圖Ib不出一音頻信號解碼器150的一方塊概略圖配置成接收一編碼音頻信號表示152,可能包含一編碼頻譜表示和一編碼時間扭曲信息。音頻信號解碼器150配置成根據(jù)編碼音頻信號表示152提供一解碼音頻信號表示154。音頻信號解碼器150包含一基于上下文的頻譜值解碼器160,配置成接收編碼頻譜表示的碼字且以的為基礎(chǔ)提供解碼頻譜值162。而且,基于上下文的頻譜值解碼器160配置成接收一上下文信息164,舉例而言,該信息可取采一選擇的映射規(guī)則或一選擇映射規(guī)則的參考數(shù)據(jù)的數(shù)字現(xiàn)行上下文值的形式?;谏舷挛牡念l譜值解碼器160配置成依賴上下文狀態(tài)(該狀態(tài)可被上下文狀態(tài)信息164描述)解碼一描述一或更多頻譜值、或一或更多頻譜值的一數(shù)字表示的至少一部分的碼字,以獲得解碼頻譜值162。音頻信號解碼器150也包含一時間扭曲頻域?qū)r域轉(zhuǎn)換器180,配置成根據(jù)一組與基于上下文頻譜值解碼器所提供的一特定音幀相關(guān)聯(lián)的解碼頻譜值162決定一現(xiàn)行上下文狀態(tài)。時間扭曲頻域?qū)r域轉(zhuǎn)換器180配置成接收一時間扭曲信息184以使得時間扭曲時域表不182的提供適應(yīng)由編碼音頻號表不152的編碼時間扭曲彳目息描述的需要時間扭曲,如此則時間扭曲時域表不182構(gòu)成解碼音頻信號表示154 (或者,等效地,如果使用后處理,則形成解碼音頻信號表示的基礎(chǔ),)時間扭曲頻域?qū)r域轉(zhuǎn)換器180例如可包含一頻域?qū)r域轉(zhuǎn)換器,配置成根據(jù)與一特定音幀相關(guān)聯(lián)且由基于上下文頻譜值解碼器160提供的成組解碼頻譜値162提供一特定音巾貞的時域表不。該時間扭曲頻域?qū)r域轉(zhuǎn)換器也可以包含一時間扭曲重取樣器,配置成依賴時間扭曲信息184對特定音幀的時域表示,或其處理版本重取樣,以便獲得特定音幀的重取樣時域表示182。此外,上下文狀態(tài)決定器170配置成將上下文狀態(tài)(該狀態(tài)由上下文狀態(tài)信息164描述)的決定適應(yīng)后續(xù)音幀之間(即,從第一音幀到第二后續(xù)音幀的)的基本頻率改變。音頻信號解碼器150是以有關(guān)對音頻信號編碼器100所作討論的發(fā)現(xiàn)為基礎(chǔ)。尤其,音頻信號解碼器配置成將上下文狀態(tài)的決定適應(yīng)后續(xù)音幀之間的改變頻率,以使得上下文狀態(tài)(且結(jié)果是由基于上下文頻譜值解碼器160所使用、關(guān)于不同頻譜值的發(fā)生的統(tǒng)計或然率的假設(shè))至少平均而言良好適應(yīng)一使用該上下文信息被解碼的現(xiàn)行音幀的頻譜。因此,由于在依據(jù)由上下文狀態(tài)決定器170所提供的上下文狀態(tài)選擇的選出上下文與欲被 解碼的頻譜值之間的良好匹配通常造成相對較短的碼字,故編碼該現(xiàn)行音幀的頻譜值的碼字可以特別短,帶來一良好的位率效率。此外,因為無論如何皆包含在編碼音頻信號表示152中以供時間扭曲頻域?qū)r域轉(zhuǎn)換器使用的時間扭曲信息184可被上下文狀態(tài)決定器170重復(fù)使用作為一有關(guān)后續(xù)音幀之間基本頻率改變信息,故上下文狀態(tài)決定器170可有效率地實施。因此,上下文狀態(tài)的決定對后續(xù)音幀之間基本頻率改變的適應(yīng)技術(shù)甚至不需要任何另外的旁側(cè)信息。因此,音頻信號解碼器150不需要任何另外的旁側(cè)信息即可產(chǎn)生基于上下文頻譜值解碼的改良編碼效率(而且給予編碼器100端的改良編碼效率),此構(gòu)成位率效率上的重大進(jìn)步。此外,應(yīng)指出的是,不同的概念可被使用來將上下文狀態(tài)的決定適應(yīng)后續(xù)音幀之間的基本頻率改變(即從一第一音幀到一第二、后續(xù)音幀)。舉例而言,其項目為基于解碼頻譜值162的一上下文內(nèi)存結(jié)構(gòu)例如可在上下文狀態(tài)信息164由上下文狀態(tài)決定器170自頻率比例縮放上下文內(nèi)存結(jié)構(gòu)導(dǎo)出前使用一頻率比例縮放(例如,頻率伸展或者頻率壓縮)被適應(yīng)。然而,可選擇地,一不同的運算法可被上下文狀態(tài)決定器170用來導(dǎo)出上下文狀態(tài)信息164。例如,一上下文內(nèi)存結(jié)構(gòu)的哪些項目被用來決定一上下文狀態(tài)以用來解碼一具有特定碼字頻率索引的碼字可被適應(yīng)。即使后者的概念尚未詳細(xì)地在本文中描述,該一概念當(dāng)然可以被應(yīng)用在依據(jù)本發(fā)明的一些實施例中。同時,不同的概念可被使用來決定基本頻率的改變。3.依據(jù)圖2a的音頻信號編碼器圖2a所示為依據(jù)本發(fā)明一實施例的音頻信號編碼器200的一方塊概略圖。應(yīng)指出的是依據(jù)圖2的音頻信號編碼器200與依據(jù)圖Ia的音頻信號編碼器100非常相似,因此同一方法及信號將被標(biāo)示相同的參考數(shù)字且不再詳細(xì)解釋。音頻信號編碼器200配置成接收一輸入音頻信號110且以該音頻信號110的基礎(chǔ)上提供一編碼音頻信號表示112??勺杂蛇x擇地,音頻信號編碼器200也配置成接收一外部產(chǎn)生的時間扭曲信息214。
音頻信號編碼器200包含一頻域表示提供者120,其功能可與音頻信號編碼器100的頻域表示提供者120的功能完全相同。頻域表示提供者120提供表示一輸入音頻信號110的時間扭曲版本的頻域表示,該頻域表示以124標(biāo)示。音頻信號編碼器200也包含一基于上下文的頻譜值編碼器130和上下文狀態(tài)決定器140,其操作是如相關(guān)于音頻信號編碼器100所討論者。因此,基于上下文頻譜值編碼器130提供碼字(例如,acod_m),每一碼字代表編碼頻譜表示的一或更多頻譜值,或者一或更多頻譜值的一數(shù)字表示的至少一部分。音頻信號編碼器可自由選擇地包含一時間扭曲分析器或基本頻率分析器或音高分析器220,其為配置成接收輸入音頻信號110且以的為基礎(chǔ)提供一時間扭曲輪廓信息222,該信息例如描述由頻域表示提供者120向輸入音頻信號110施加一時間扭曲,以便補償在一音幀期間的一基本頻率改變,及/或輸入音頻信號110的一基本頻率的時間演變,及或輸入音頻信號110的一音高的時間演變。音頻信號編碼器200也包含一時間扭曲輪廓編碼器224,其配置成根據(jù)時間扭曲輪廓信息222提供一編碼時間扭曲信息226。編碼時間扭曲/[目息226最好被包含在編碼首頻彳目號表112中,且例如可米取(編碼)時間扭曲比率值“tw_ratio[i]] ” 的形式。 此外,應(yīng)指出者是時間扭曲輪廓信息222可被提供至頻域表示提供者120且亦被提供至上下文狀態(tài)決定器140。音頻信號編碼器200可能另外包含一音響心理學(xué)模型處理器228,配置成接收輸入音頻信號110,或其一預(yù)先處理版本,并執(zhí)行一音響心理學(xué)的分析,舉例而言決定時域遮蔽效應(yīng)及/或頻率遮蔽效應(yīng)。因此,音響心理學(xué)模型處理器228可提供一控制信息230,舉例而言代表輸入音頻信號的一不同頻帶的音響心理學(xué)關(guān)聯(lián),在頻域音頻編碼器上廣為人知。下文中,頻域表示提供者120的信號路徑將被簡短地描述。頻域表示提供者120包含可選擇的預(yù)先處理120a,可以可選擇地預(yù)先處理輸入音頻信號110,提供輸入音頻信號110的預(yù)先處理版本120b。頻域表示提供者120也包含一取樣器/重取樣器,配置成依賴一接收自一取樣位置計算器120e的取樣位置信息120d而對該輸入音頻信號110、或其預(yù)處理版本120b取樣或重取樣。因此,取樣器/重取樣器120c可以對輸入音頻信號110(或其預(yù)先處理版本120b)應(yīng)用一時變?nèi)踊蛑厝印Mㄟ^應(yīng)用此一時變?nèi)?在有效樣本點之間具有時間變化的時間距離),一取樣或重取樣的時域表示120f被獲得,其中一音高或一基本頻率的時間變化相較于輸入音頻信號110被減少。取樣位置由取樣位置計算器120e依賴時間扭曲輪廓信息222被計算。頻域表示提供者120也包含一窗程序120g,其中窗程序120g被配置成使取樣器或重取樣器120c所提供的取樣或重取樣時域表示120f窗化。窗化被執(zhí)行以便減少或消除塊效應(yīng),藉此容許一音頻信號解碼器上的平順迭加演算操作。頻域表示提供者120也包含一時域?qū)︻l域轉(zhuǎn)換器120i,配置成接收窗化及取樣/重取樣的時域表示120h,且在其基礎(chǔ)上提供一頻域表示120 j,該頻域表示120 j例如包含輸入音頻信號110每音幀的一組頻譜系數(shù)(其中該輸入音頻信號的音幀舉例而言可以是重迭處理或非重迭處理,其中一大約50%的重迭在一些重迭音幀實施例中是較佳者)。然而,應(yīng)指出的是在一些實施例中,多個組頻譜系數(shù)可被提供給一單一音幀。頻域表示提供者120可選擇地包含一頻譜處理器120k,配置成執(zhí)行一時間噪聲成形以及/或一長期預(yù)測以及/或任何其它形式的頻譜后處理,藉此獲得一后處理頻域表示1201。
頻域表示提供者120可選擇地包含一比例縮放器/量化器120m,其中比例縮放器/量化器120m關(guān)于舉例而言可以配置成依據(jù)音響心理學(xué)模型處理器228提供的控制信息230比例縮放頻域表示120j或其后處理版本1201的不同頻率點(或頻帶)。因此,頻率點(或頻帶,包含多個頻率點)舉例而言可根據(jù)音響心理學(xué)相關(guān)性被比例縮放,以使得,具有高度音響心理學(xué)相關(guān)性的頻率點(或者頻帶)有效地通過一基于上下文頻譜值編碼器以高準(zhǔn)確度被編碼,而具有低音響心理學(xué)相關(guān)性的頻率點(或者頻帶)則以低準(zhǔn)確度被編碼。此外,應(yīng)指出者為控制信息230可以可選擇地調(diào)整時域?qū)︻l域轉(zhuǎn)換器及/或頻譜后處理的窗化參數(shù)。同時,控制信息230可以一編碼形式被包含在編碼音頻信號表示112內(nèi),如熟習(xí)此技藝者所周知。關(guān)于音頻信號編碼器200的功能,可以說一時間扭曲(在一時變非均勻取樣或者重取樣的意義上)由取樣器/重取樣器120c依據(jù)時間扭曲輪廓信息220被應(yīng)用。因此,即使存在一具有音高時間變化而在未有時變?nèi)?重取樣時將產(chǎn)生一模糊頻譜的輸入音頻信號,仍可達(dá)成一具有顯著的頻譜波峰與波谷的頻域表示120j。此外,由基 于上下文頻譜值編碼器130使用的上下文的導(dǎo)出依賴后續(xù)音幀間的一基本頻率改變被適應(yīng),造成如上文所討論的一特別高編碼效率。除此的外,作為為取樣器/重取樣器120c的計算取樣位置計算以及上下文狀態(tài)決定的適應(yīng)兩者的基礎(chǔ)的時間扭曲輪廓信息222使用時間扭曲輪廓編碼器224被編碼,以使得描述時間扭曲輪廓的編碼時間扭曲信息226被包含在編碼音頻信號表示112之中。因此,編碼音頻信號表示112提供在一音頻信號解碼器端有效解碼該編碼輸入音頻信號110所需要的信息。此外,應(yīng)指出者是音頻信號編碼器200的個別組件可以實質(zhì)上執(zhí)行音頻信號解碼器240的個別組件的一反轉(zhuǎn)功能,將在下文參照圖2b被描述。此外,本詳細(xì)說明也在整體描述中提到有關(guān)音頻信號解碼器的功能,使得音頻信號解碼器的功能能被理解。同時也應(yīng)予指出,音頻信號解碼器和個別的組件可作相當(dāng)多的修改。舉例而言,一些功能可被結(jié)合像是例如取樣/重取樣,窗化網(wǎng)域?qū)︻l域轉(zhuǎn)換。而且,在適當(dāng)處可加入另外的處理。此外,依要求或需要,編碼音頻信號表示自然地可能包含另外的旁側(cè)信息,當(dāng)做需要或需要。4.依據(jù)圖2b的音頻信號解碼器圖2b不出依據(jù)本發(fā)明一實施例的音頻信號解碼器240的一方塊概略圖。音頻信號解碼器240可能與依據(jù)圖Ib的音頻信號解碼器150非常類似,因此相同的方法和信號以相同的數(shù)字標(biāo)示而不再詳細(xì)討論。音頻信號解碼器240配置成例如以比特流的形式接收一編碼音頻信號表示152。編碼音頻信號表不152包含一例如碼字(舉例而言,acod_m)形式的編碼頻譜表不,代表一或更多頻譜值、或一或更多頻譜值的一數(shù)字表示的至少一部分。編碼音頻信號表示152也包含一編碼時間扭曲信息。此外,音頻信號解碼器240配置成提供一解碼音頻信號表示154,舉例而言,音頻內(nèi)容的一時域表不。音頻信號解碼器240包含一基于上下文的頻譜值解碼器160,其配置成接收代表來自編碼音頻信號表示152的頻譜值的碼字,且在其基礎(chǔ)上提供解碼頻譜值162。
并且,音頻信號解碼器240也包含一上下文狀態(tài)決定器170,配置成提供上下文狀態(tài)信息164給基于上下文的頻譜值解碼器160。該音頻信號解碼器240也包含一時間扭曲頻域?qū)r域轉(zhuǎn)換器180,其接收解碼頻譜值162且提供解碼音頻信號表示154。音頻信號解碼器240也包含一時間扭曲計算器(或者時間扭曲解碼器)250,配置成接收被包含在編碼音頻信號表示152之中的編碼時間扭曲信息,且在其基礎(chǔ)上提供一解碼時間扭曲信息254。編碼時間扭曲信息例如可包含描述一基本頻率或一音高的一時間變化的碼字“tw_ratio [i] ”。解碼時間扭曲信息254例如可采取一扭曲輪廓信息的形式。舉例而言,解碼時間扭曲信息254可包含值“warp_value_tbl [tw_ ratio [i] ”或值Prei [n ],將在下文中加以討論。可任選地,音頻信號解碼器240也包含一時間扭曲輪廓計算器256,配置成從解碼時間扭曲輪廓信息254導(dǎo)出一時間扭曲輪廓信息258。時間扭曲信息258例如可作為上下文狀態(tài)決定器170、以及時間扭曲的頻域?qū)r域轉(zhuǎn)換器180的一輸入信息。在下文中,關(guān)于時間扭曲的頻域?qū)r域轉(zhuǎn)換器的一些細(xì)號節(jié)將被描述。轉(zhuǎn)換器180可任選地可包含一反量化器/比例重縮放器180a,其可配置成從基于上下文的頻譜值解碼器160接收解碼頻譜值162并提供解碼頻譜值162的一反量化及/或比例重縮放版本180b。舉例而言,反量化器/比例重縮放器180可被配置成執(zhí)行一運算,該運算至少大約與音頻信號編碼器200的比例縮放器/量化器120m相反。因此,一可任選的反量化器/比例重縮放器180可以接收一可對應(yīng)于控制信息230的控制信息。時間扭曲頻域?qū)r域轉(zhuǎn)換器180可任選地包含一頻譜前處理器配置成的180c,配置成接收解碼頻譜值162或反量化/比例重縮放頻譜值180b且在其基礎(chǔ)上提供頻譜預(yù)處理的頻譜值180d。舉例而言,頻譜前處理器180c可執(zhí)行一與音頻信號編碼器200的頻譜后處理器120k相較之下的反運算。時間扭曲頻域?qū)r域轉(zhuǎn)換器180也包含一頻域?qū)r域轉(zhuǎn)換器180e,配置成接收解碼頻譜值162,反量化/比例重縮放頻譜值180b或頻譜預(yù)處理頻譜值180d,且在其基礎(chǔ)上提供一時域表示180f。舉例而言,頻域?qū)r域轉(zhuǎn)換器可配置成執(zhí)行一頻域?qū)r域反轉(zhuǎn)換,舉例而言,一修正型離散余弦反轉(zhuǎn)換(MDCT)。頻域?qū)r域轉(zhuǎn)換器180e例如可根據(jù)一組解碼頻譜值,或可選擇地,根據(jù)多個組解碼頻譜值提供編碼音頻信號的一音幀的一時域表示。然而,編碼音頻信號的音幀,舉例而言,在某些情況中可以在時間上重迭。然而,在一些其它情況下音幀可能是非重迭的。時間扭曲頻域?qū)r域轉(zhuǎn)換器180也包含一窗程序180g,被配置成窗化時域表不180f且根據(jù)由頻域?qū)r域轉(zhuǎn)換器180e所提供的時域表示180f提供一窗化時域表示180h。時間扭曲頻域?qū)r域轉(zhuǎn)換器180也包含一重取樣器180i,配置成重取樣該窗化時域表示180h,且以其為基礎(chǔ)提供一窗化且重取樣的時域表示180j。重取樣器180i配置成從一取樣位置計算器1801接收一取樣位置信息180k。因此,重取樣器180i對編碼音頻信號表不的每一音巾貞提供一窗化且重取樣的時域表不180 j,其中后續(xù)音巾貞可能重迭。因此,一重迭器/相加器180m接收編碼音頻信號表示152的后續(xù)音幀的窗化與重取樣時域表示180j,且重迭并相加該窗化及重取樣時域表示180i以獲得后續(xù)音幀之間的平滑過渡。時間扭曲頻域?qū)r域轉(zhuǎn)換器可選擇地包含一時域后處理180ο,配置成根據(jù)由重迭器/相加器180m提供的一組合音頻信號180η執(zhí)行一后處理。
時間扭曲輪廓信息258作為上下文狀態(tài)決定器170的一輸入信息,其配置成依賴時間扭曲輪廓信息258適應(yīng)上下文狀態(tài)信息164的導(dǎo)出。此外,時間扭曲頻域?qū)r域轉(zhuǎn)換器180的取樣位置計算器1801也接收時間扭曲信息且根據(jù)該時間扭曲輪廓信息258提供取樣位置信息180k,藉此適應(yīng)由重取樣器180i依賴時間扭曲輪廓信息描述的時間扭曲輪廓而執(zhí)行的時變重取樣。因此,一音高變化根據(jù)時間扭曲輪廓信息258所描述的時間扭曲輪廓被引入由時域表示180f描述的時域信號。因此有可能根據(jù)具有一顯著波峰和波谷的稀疏頻譜180d提供具有隨時間的明顯音高變化(或基本頻率隨時間的一明顯改變)的音頻信號的一時域表示180j。此一頻譜可被以高位率編碼而且結(jié)果造成編碼音頻信號表示152的一較低位率需求。此外,上下文(或更普遍地,上下文狀態(tài)信息164的導(dǎo)出)也使用上下文狀態(tài)決定器170依賴時間扭曲輪廓彳目息258被適應(yīng)。因此,編碼時間扭曲/[目息252被重復(fù)使用兩次,且通過容許一稀疏頻譜的編碼、及通過容許上下文狀態(tài)信息在一時間扭曲或基本頻率隨時間的一變化存在下適應(yīng)頻譜的特定特性,而有助于改進(jìn)編碼效率。 關(guān)于音頻信號編碼器240的個別組件的功能的更進(jìn)一步細(xì)節(jié)將在下文中被描述。5.依據(jù)圖2c的算術(shù)編碼器在下文中,一算術(shù)編碼器290將被描述,它可代替基于上下文頻譜值編碼器130m與音頻信號編碼器100或音頻信號編碼器200中的上下文狀態(tài)決定器140m的組合。算術(shù)編碼器290配置成接收頻譜值291 (舉例而言,頻域表示124的頻譜值)且根據(jù)這些頻譜值291 提供碼字 292a,292b。換言之,算術(shù)編碼器290例如可以配置成接收頻域音頻表示124的多個后處理及比例縮放且量化頻譜值291。算術(shù)編碼器包含一最高有效位平面提取器290a,其配置成由一頻譜值提取一最高有效位面m。在此應(yīng)指出者是,最高有效位平面可以包含一或甚至更多位(例如,二或三位),其為頻譜值的最高有效位。因此,最高有效位平面提取器290a提供一頻譜值的最高有效位平面值290b。算術(shù)編碼器290也包含一第一碼字決定器290c,其配置成決定代表最高有效位平面值m的算術(shù)石馬字 acod_m[pki] [m]。可任選地,第一碼字決定器290c也可能提供一或更多例如表示有多少較低有效位平面可利用(且結(jié)果是指示最高有效位平面的數(shù)字重量)的逸出碼字(在本文中也被標(biāo)示成“ARITH_ESCAPE”)。第一碼字決定器290c可以被配置成使用一具有(或被引用)一累積頻率表索引Pki的選擇累積頻率表提供與一最高有效位平面值m相關(guān)聯(lián)的碼字。為了要決定哪一累積頻率表應(yīng)被選擇,算術(shù)編碼器最好包含一例如可采用上下文狀態(tài)決定器140的功能的狀態(tài)追蹤器290d。狀態(tài)追蹤器290d配置成追蹤算術(shù)編碼器的狀態(tài),舉例而言,通過觀察哪些頻譜值先前已被編碼。狀態(tài)追蹤器290d結(jié)果提供一可以是等同于上下文狀態(tài)信息134的狀態(tài)信息290e,例如有時為一標(biāo)示為“s”或“t”的狀態(tài)值的形式(其中狀態(tài)值s不應(yīng)該與頻率伸展因子s混淆)。算術(shù)編碼器290也包含一累積頻率表選擇器290f,配置成接收狀態(tài)信息290e且提供一描述選出的累積頻率表的信息290g給碼字決定器290c。舉例而言,累積頻率表選擇器290f可提供描述哪一累積頻率表從一組例如64個累積頻率表中被選出的一累積頻率表索引“pki”。或者,累積頻率表選擇器290f可提供全部選出的累積頻率給碼字決定器290c。因此,碼字決定器290c可使用選出的累積頻率提供最高有效位平面值m的碼字acod_m[pki] [m],以使得編碼該最高有效位平面的值m的實際碼字acod_m[pki] [m]取決于m的值及累積頻率表索引pki,且結(jié)果取決于現(xiàn)行狀態(tài)信息290e。關(guān)于編碼程序和獲得的碼字格式的進(jìn)一步細(xì)節(jié)將在下文中被描述。此外,關(guān)于等同于上下文狀態(tài)決定器140的狀態(tài)追蹤器290d的運算的細(xì)節(jié)將在下文被討論。算術(shù)編碼器290進(jìn)一步包含一較低有效位平面提取器290h,配置成比例縮放且量化頻域音頻表示291提取一或更多的較低有效位平面,如果一或更多欲被編碼的頻譜值超過僅使用最高有效位平面可編碼的值的范圍。則較低有效位平面可依需要包含一或更多位。因此,較低有效位平面提取器290h提供一較低有效位平面信息290i。
算術(shù)編碼器290也包含第二碼字決定器290j,配置成接收較低有效位平面信息290 并在其基礎(chǔ)上提供代表零、一或更多較低有效位平面的內(nèi)容的零、一或甚至更多碼字“acod_r”。第二碼字決定器290j可被配置成應(yīng)用一算術(shù)編碼算法或任一其它的編碼算法以從該較低有效位平面信息290i導(dǎo)出較低有效位平面的碼字“acod_r”。在此應(yīng)指出者,該較低有效位平面的數(shù)目可依比例縮放且量化頻譜值291而變化,因此如果欲被編碼的比例縮放且量化頻譜比較小可能完全沒有較低有效位,如此使得如果欲被編碼的現(xiàn)行比例縮放且量化頻譜值具有一中等范圍則可能有一較低有效位平面,以及使得如果欲被編碼的比例縮放且量化頻譜值采一比較大的值,則可能有超過一較低有效位平面。總結(jié)上述,算術(shù)編碼器290配置成使用一階層編碼程序來編碼由信息291描述的比例縮放且量化頻譜值。最高有效位平面(舉例而言每頻譜值包含一、二或三位)被編碼以獲得最高有效位平面值的一算術(shù)碼字“acod_m[pki] [m]”。一或更多的較低有效位平面(每一較低有效位平面例如包含一、二或三位)被編碼以獲得一或更多碼字“acod_r”。當(dāng)編碼最高有效位平面時,最高有效位平面的值m被映射到一碼字acod_m[pki] [m]。64個不同的累積頻率表可用來依賴算術(shù)編碼170的一狀態(tài)值,即,依賴一先前編碼頻譜值來編碼值m。因此,碼字“acod_m[pki] [m]”被獲得。除此的外,一或更多碼字“acod_r”被提供,且若一或更多較低有效位平面存在則被包含至比特流中。然而,依據(jù)本發(fā)明,等同于上下文狀態(tài)信息134的狀態(tài)信息290e的導(dǎo)出被適應(yīng)于由一第一音幀到一后續(xù)第二音幀(即在二個后續(xù)音幀之間)的基本頻率改變。有關(guān)于此一可由狀態(tài)追蹤器290d執(zhí)行的適應(yīng)將在下文中被描述。6.依據(jù)圖2d的算術(shù)解碼器圖2d示出算術(shù)解碼器295的一方塊概略圖,其可代替基于上下文頻譜值解碼器160并取代依據(jù)圖ID的音頻信號解碼器150以及依據(jù)圖2b的音頻信號解碼器24。算術(shù)解碼器295配置成接收一編碼頻域表示296,其例如可包含,碼字“acodjn”及“acod_r”形式的算術(shù)編碼頻譜數(shù)據(jù)。編碼頻域表示296可等同于輸入基于上下文頻譜值解碼器160的碼字。此外,算術(shù)解碼器配置成提供一解碼頻域音頻表示297,其可等同于由基于上下文頻譜值解碼器160所提供的解碼頻譜值162。算術(shù)解碼器295包含一最高有效位平面決定器295a,其配置成接收描述最高有效位平面的值m的算術(shù)碼字acod_m[pki] [m]。最高有效位平面決定器295可被配置成使用一源于一組包含多個,例如64個累積頻率表中的一累積頻率表來從算術(shù)碼字“acod_m[pkil [m] ”導(dǎo)出最高有效位平面值m。最高有效位平面決定器295a被配置成根據(jù)碼字“acod_m”導(dǎo)出頻譜值的一最高有效位平面的值295b。算術(shù)解碼器295更進(jìn)一步包含一配置成接收代表一頻譜值的一或更多較低有效位平面的一或更多碼字“acod_r”的較低有效位平面決定器295c。因此,較低有效位平面的決定 器295c配置成提供一或更多較低有效位平面的解碼值295d。算術(shù)解碼器295也包含一位平面組合器295e,配置成接收頻譜值的最高有效位平面的解碼值295b,以及如果較低有效位平面可用在現(xiàn)行頻譜值時該頻譜值的一或更多較低有效位平面的解碼值295b。因此,位平面組合器295e提供編碼頻譜值,該編碼頻譜值是解碼頻域音頻表示297的一部分。自然地,算術(shù)解碼器295典型地被配置成提供多個頻譜值以便獲得與一音頻內(nèi)容現(xiàn)行音幀關(guān)聯(lián)的一整組解碼頻譜值。算術(shù)解碼器295更進(jìn)一步包含一累積頻率表選擇器295f,配置成例如依賴描述算術(shù)解碼器295的一狀態(tài)的狀態(tài)索引295g選擇64個累積頻率表中的一個。算術(shù)解碼器295更進(jìn)一步包含一狀態(tài)追蹤器295h,配置成依賴先前解碼頻譜值追蹤算術(shù)解碼器的一狀態(tài)。狀態(tài)追蹤器295h可對應(yīng)于上下文狀態(tài)決定器170。有關(guān)狀態(tài)追蹤器295h的細(xì)節(jié)將在下文中被描述。因此,累積頻率表的選擇器295f配置成提供一選出累積頻率表的索引(舉例而言,pki ),或一選出的累積頻率表本身,以便應(yīng)用在依賴碼字“acod_m”的最高有效位平面值m解碼中。因此,算術(shù)解碼器利用相鄰頻譜值的最高有效位平面的值的不同組合的不同概率。不同的累積頻率表被選擇且依賴上下文被應(yīng)用。換言之,頻譜值之間的統(tǒng)計相關(guān)性通過從一組包含例如64個不同累積頻率表中依賴一狀態(tài)索引295g選擇不同的累積頻率表而被利用(可能等同于上下文狀態(tài)信息164),該狀態(tài)索引295g是由觀察先前解碼的頻譜值被獲得。通過依賴一有關(guān)基本頻率(或音高)改變信息使?fàn)顟B(tài)索引295g的導(dǎo)出適應(yīng)后續(xù)音幀間的一基本頻率改變(或音高改變)時一頻譜比例縮放被考慮。7.適應(yīng)上下文的概念的概觀在下文中,將提出使用時間扭曲信息適應(yīng)算術(shù)編碼器的上下文的概念的概要陳述。7. 1背景資料在下文中,一些背景資料將被提出以幫助了解本發(fā)明。應(yīng)指出者是在參考文獻(xiàn)[3]中,一自適應(yīng)上下文算術(shù)編碼器(例如參見參考文獻(xiàn)[5])被使用來無失真地編碼量化頻譜點。所使用的上下文在圖3a中被描述,該圖示出此一自適應(yīng)上下文算術(shù)編碼圖標(biāo)。在圖3a中,可以看見來自先前音幀的已解碼頻率點被用來決定欲被解碼的頻率點的上下文。應(yīng)指出者是上下文和編碼是否以4元組或者線狀或其它η元組一η可能改變,被組織為無關(guān)緊要者。再度參閱圖3a,該圖示出一自適應(yīng)上下文算術(shù)編碼或解碼法,應(yīng)指出者,一橫坐標(biāo)310描述時間而一縱坐標(biāo)312描述頻率。此處應(yīng)指出者是4元組的頻譜值使用一共同上下文狀態(tài)依據(jù)圖3a中所示的上下文被解碼。例如,用于解碼一與具有時間索引k與頻率索引i的音幀相關(guān)聯(lián)的頻譜值的4元組320的上下文是基于一具有時間索引k和頻率引i-1的第一 4元組322,一具有時間索引k-Ι和頻率索引i-Ι的第二 4元組324,一具有時間索引k-Ι和頻率索引i的第三4元組326以及一具有時間索引k-Ι和頻率索引i+Ι的第四4元組328。應(yīng)指出者是每一頻率索引i-1、i、i+1指定(或更精確地,被關(guān)聯(lián)于)時域?qū)︻l域轉(zhuǎn)換或頻域?qū)r間轉(zhuǎn)換的四個頻率點。因此,用于四元組321的解碼的上下文是以四元組322、324、326、328的頻譜值的頻譜值為基礎(chǔ)。因此,具有時間索引k_l的先前音幀的具有元組頻率索引i-1、i和i+Ι的頻譜值被用來導(dǎo)出用于解碼具有時間索引k的現(xiàn)行音幀(典型地與具有時間索引k的現(xiàn)行解碼音巾貞的具有元組頻率索引i-Ι的頻譜值組合)的具有元組頻率索引i的頻譜值的上下文。已經(jīng)發(fā)現(xiàn)時間扭曲轉(zhuǎn)換典型地導(dǎo)致具有基本頻率變化的諧波信號的較佳能量壓縮,導(dǎo)致頻譜展現(xiàn)一清楚的諧波結(jié)構(gòu)而非多少模糊化的分音,其在未應(yīng)用時間扭曲時可能發(fā)生。扭曲時間的另一效果是由連續(xù)音幀的可能不同平均局部取樣頻率所引起。已經(jīng)發(fā)現(xiàn)此一一效果造成具有另一固定諧波結(jié)構(gòu)但不同基本頻率的一信號的連續(xù)頻譜沿頻率軸被伸展。 圖3c的下方曲線圖390示出一實例。該實例包含二連續(xù)音幀(例如,在一具有一基本頻率的諧波信號被一時間編碼扭曲修正型離散余弦轉(zhuǎn)換編碼器TW-MDCT編碼器編碼的情況下被指定為“最后音幀”和“本音幀”的音幀)的曲線圖(舉例而言,一為頻率點的函數(shù)的dB大小)。對應(yīng)的相對音高演變能在圖3b的一曲線圖370中找到,顯示一減少的相對音高以及因此一增加的諧波線的相對頻率。此導(dǎo)致在應(yīng)用時間扭曲算法(舉例而言,時間扭曲取樣或重取樣)后的一諧波線的頻率增加??梢郧宄匆姷氖乾F(xiàn)行音幀(也指稱為“本音幀”)的此一頻譜是最后音幀的一近似復(fù)制,但是沿著頻率軸392伸展(根據(jù)修正型離散余弦轉(zhuǎn)換的頻率點標(biāo)記)。這也將意指,如果我們使用過去音幀(也指稱為“最后音幀”)當(dāng)做算術(shù)編碼器的一上下文(例如,用于現(xiàn)行音幀(也指稱為“本音幀”)的頻譜值解碼,因匹配分音現(xiàn)在將可能在不同頻率點中發(fā)生,故上下文將會是次優(yōu)的。圖3c的一上方曲線圖380將此(例如,使用一依賴上下文算術(shù)編碼來編碼頻譜值的位需求)示出成與一通常被認(rèn)為效果比算術(shù)編碼系統(tǒng)差的霍夫曼編碼系統(tǒng)相比較。由于次優(yōu)的過去上下文(例如可能是由“最后音幀”定義的頻譜值,由圖3c中的曲線圖390表示),在現(xiàn)行音幀的分音位于過去音幀中具有較低能量區(qū)域中的情況下,算術(shù)編碼系統(tǒng)耗用較多的位,且反的亦然。另一方面,圖3c的曲線圖380顯示,至少是在基本分音的情況下,如果上下文良好,則位分配在比較上低于使用霍夫曼編碼者(舉例而言,當(dāng)使用一依賴上下文的算術(shù)編碼時)。綜上所述,圖3b的曲線圖370示出一相對音高輪廓的時間演變的一實例。一橫坐標(biāo)372描述時間且一縱坐標(biāo)374描述一相對音高pMl與一相對頻率fMl兩者。一第一曲線376描述相對音高的一時間演變,且一第二曲線377描述相對頻率的時間演變。可以看出,相對音高隨著時間經(jīng)過而減少,而相對頻率則隨著時間經(jīng)過增加。此外,應(yīng)指出者是一先前音中貞(也指稱為“最后音巾貞”)的一時間延長378a與一現(xiàn)行音巾貞(也指稱為“本音巾貞”)的一時間延長378b在圖3b的曲線圖370中非重迭。然而,典型地,后續(xù)音幀的時間延長378a、378b可以是重迭的。例如,重迭可能大約50%?,F(xiàn)在參考圖3c,應(yīng)指出者,曲線圖390顯示兩個后續(xù)音幀的MDCT頻譜。一橫坐標(biāo)392根據(jù)修正型離散余弦轉(zhuǎn)換的頻率點描述頻率。一縱坐標(biāo)394描述個別頻譜點的一相對大小(根據(jù)分貝)。可以看出,現(xiàn)行音幀(“本音幀”)的頻譜的頻譜波峰相對于先前音幀(“最后音幀”)的頻譜的對應(yīng)頻譜波峰頻率上被移動(以一依賴頻率的方式)。因此,已經(jīng)發(fā)現(xiàn)若上下文是根據(jù)先前音幀的頻譜值的原始版本被形成,用于現(xiàn)行音幀的頻譜值基于上下文編碼的該一上下文未被良好適應(yīng),因為現(xiàn)行音幀的的頻譜的頻譜波峰與(根據(jù)頻率)先前音幀的頻譜的頻譜波峰不一致。因此,頻譜值基于上下文編碼的位率對需求比較高,而且可能甚至比在非基于上下文的霍情況還要高。此可在圖3c的曲線圖380中看出,其中一橫坐標(biāo)描述頻率(根據(jù)修正型離散余弦轉(zhuǎn)換的頻率點),且一縱坐標(biāo)384描述頻譜值編碼需要的位數(shù)目。7. 2.解決方案的討論
然而,依據(jù)本發(fā)明的實施例提供以上討論問題的一種解決方法。已經(jīng)發(fā)現(xiàn)音高變化信息能被用來導(dǎo)出一時間扭曲修正型離散余弦轉(zhuǎn)換編碼器的連續(xù)頻譜之間的頻率伸展因子的一近似值(例如,在連續(xù)音幀的頻譜之間)。已經(jīng)發(fā)現(xiàn)此一伸展因子接著可用來沿頻率軸伸展過去上下文以導(dǎo)出一較佳的上下文且因此減少編碼一頻率線所需要的位數(shù)目并增加編碼增益。已發(fā)現(xiàn)如果此一伸展因子大約是最后音幀與現(xiàn)行音幀的平均頻率的比率,則可達(dá)成良好結(jié)果。此外,已發(fā)現(xiàn)此可逐行完成,或者如果算術(shù)編碼器將η-元組線編碼為一項目,逐元組完成。換言之,上下文的伸展可以被逐行完成(B卩,個別地根據(jù)修正型離散余弦轉(zhuǎn)換的頻率點)或者逐元組的(即根據(jù)修正型離散余弦轉(zhuǎn)換的多個頻譜點的元組或組)。此外,而且,伸展因子計算的分辨率也能夠依賴改變實施例的需求改變。7.3.導(dǎo)出伸展因子的實例在下文中,導(dǎo)出伸展因子的一些概念將詳細(xì)地被描述。被描述在參考[3]中的時間扭曲修正型離散余弦轉(zhuǎn)換方法,以及,或者,本文中所描述的時間扭曲修正型離散余弦轉(zhuǎn)換方法,提供一所謂的平滑音高輪廓當(dāng)作中間信息。此一平滑化音高輪廓(其例如可以由數(shù)組“warp_contour [] ”的項目描述,或通過數(shù)組“new_warp_contour [] ”及包含一些連續(xù)音中貞上的相對音高演變信息的“past_warp_contour[] ”的項目描述,所以對一音巾貞內(nèi)的每一樣本而言,相對音高的估計是已知的。而且此樣本的相對頻率僅是相對音高的倒數(shù)。舉例而言,下列的關(guān)系可適用./;,/ M = ~π
P ,AtA在以上方程序中,fMl[n]指稱一特定時間索引η的相對音高,其可為一短期的相對音高(其中該時間索引η例如可指稱一個別樣本)。此外,frel[n]可指稱時間索引η的一相對頻率,且可以是一短期的相對頻率值7. 3. I第一替代選擇一音幀k (其中k是一音幀索引)的平均相對頻率可被描述成此一音幀k中的所有相對頻率的算術(shù)平均值
].V-I.frel,mean,k = T7 Σ M
n=Q在以上的方程式fMl中,平均值k指在具有時域框索引k的音幀上的平均相對頻率。N指稱具有時域框索引k的音幀的時域樣本數(shù)目。η是運行在具有音幀索引k的現(xiàn)行音中貞的時域樣本的時域樣本索引n=0至n=N-l上的一變量。fMl[n]指稱與具有一時域樣本時間索引η的時域樣本相關(guān)聯(lián)的局部相對頻率值。由此(即對現(xiàn)行音幀由fMl,m_,k的計算,且對先前音幀由Qmean^1的計算),現(xiàn)行音幀k的伸展因子s接著可被導(dǎo)出為 S= freLmam'k
J reljnem^k-l7-3-2第二替代選擇在下文中,計算伸展因子s的另一替代選擇被將描述。如果將相對音高平均接近一計入考慮,一較簡單且較不精確的伸展因子s估計(例如,當(dāng)與第一替代選擇比較時)可被建立,所以相對音高和相對頻率的關(guān)系大約是線性的,且因而可省略反轉(zhuǎn)相對音高以獲得相對頻率的步驟,并使用平均相對音高
j /V-I Prel,mean,k ~ TT YjPrekA
^ n=Q在上述的萬程式中,pMl,_n,k指稱具有時域框索引k的音幀的一平均相對音高。N指稱具有時間音幀索引k的音幀的時域樣本的數(shù)目。運行變量η采取O與N-I之間的值且藉此運行在現(xiàn)行音幀的具有時間索引η的時域樣本上。pMi[n]指稱具有時間索引η的時間樣本的一(局部)相對音高值。例如,相對音高值PMi [η]可等同于扭曲輪廓數(shù)組“warp_contour [] ” 的項目 warp_contour [η]。在此一情況,具有時域框k的音幀的伸展因子s可被估計為
^ _ Prel,mean. Ji-IS -
Prel .mean .k在上列方程式中,Preljmeanjk^i指具有時間音幀索引k-Ι的音幀的一平均音高值,且可變描述具有時間音幀k的音幀的一平均相對音高值。7. 3. 3更進(jìn)一步的替代選擇然而,應(yīng)指出者是用于計算、或估計伸展因子s的顯著不同概念可被使用,其中伸展因子s典型地也描述第一音巾貞和一后續(xù)第二音巾貞之間的一基本頻率改變。舉例而言,第一音幀與后績第二音幀的頻譜可通過一模式比較概念被比較,藉此導(dǎo)出伸展因子。然而,如前述所討論的使用扭曲輪廓信息的頻率伸展因子S計算似乎在計算上特別有效率,使得這是一優(yōu)先的選項。8.關(guān)于上下文狀態(tài)決定的細(xì)節(jié)8. I.依據(jù)圖4a和圖4b的實例在下文中,關(guān)于上下文狀態(tài)的決定的細(xì)節(jié)將被描述?;诖艘荒康?,上下文狀態(tài)決定器400的功能,一示出在圖4a中的該決定器一方塊概略圖將被描述。
上下文狀態(tài)決定器400例如可以取代上下文狀態(tài)決定器140或上下文狀態(tài)決定器170。即便有關(guān)上下文狀態(tài)決定器的細(xì)節(jié)將在下文中針對一音頻信號解碼器的情形描述,上下文狀態(tài)決定器400也可以在一音頻信號編碼器的場合中被使用。上下文狀態(tài)決定器400配置成接收關(guān)于先前解碼頻譜值或有關(guān)先前編碼頻譜值的一信息410。除此的外,上下文狀態(tài)決定器400接收一時間扭曲信息或時間扭曲輪廓信息412。時間扭曲信息或時間扭曲輪廓信息412例如可能與時間扭曲信息122相等,且因此可描述(至少隱含地)后續(xù)音幀之間的基本頻率的一改變。時間扭曲信息或時間扭曲輪廓信息412或者可能與時間扭曲信息184相等,且因而可描述后續(xù)音幀之間的基本頻率的一改變。然而,時間扭曲信息/時間扭曲輪廓信息412或者可能與時間扭曲輪廓信息222或時間扭曲輪廓信息258相等。一般而言,可以說,時間扭曲信息/時間扭曲輪廓信息412能直接地或間接地描述后續(xù)音幀之間的頻率改變。舉例而言,時間扭曲信息/時間扭曲輪廓信息212可描述扭曲輪廓,且因此可包含數(shù)組“warp_C0nt0ur [] ”的項目,或可描述時間輪廓,且因而可包含數(shù)組“time_contour 口 ”的項目。
·
上下文狀態(tài)決定器400提供上下文狀態(tài)值420,該上下文狀態(tài)值描述使用于編碼或解碼現(xiàn)行音幀的頻譜值的上下文,且可被基于上下文頻譜值編碼器或基于上下文頻譜值解碼器使用以選擇現(xiàn)行音幀的頻譜值的編碼或解碼的映射規(guī)則。上下文狀態(tài)值420例如可以與上下文狀態(tài)信息134或上下文狀態(tài)信息164相等。上下文狀態(tài)決定器400包含初步上下文內(nèi)存結(jié)構(gòu)提供者430,配置成提供一初步上下文內(nèi)存結(jié)構(gòu)432,像是例如數(shù)組q[l][]。舉例而言,初步上下文內(nèi)存結(jié)構(gòu)提供者430可被配置成依據(jù)圖25和圖26執(zhí)行算法的功能,藉此提供一組,例如,數(shù)組q[l][]的N/4項目q[l][i](對于 i=0 至 i=M/4_l)。一般而言,初步上下文內(nèi)存結(jié)構(gòu)提供者430可配置成提供初步上下文內(nèi)存結(jié)構(gòu)432的項目以使得一具有項目頻率索引i的項目是以一具有頻率索引i的一(單一)頻譜值為基礎(chǔ),或以一組具有共同頻率索引i的頻譜值為基礎(chǔ)。然而,初步上下文內(nèi)存結(jié)構(gòu)提供者430最好被配置為提供初步上下文內(nèi)存結(jié)構(gòu)432,以使得初步上下文內(nèi)存結(jié)構(gòu)432的一項目的頻率索引與該初步上下文內(nèi)存結(jié)構(gòu)432的項目作為基礎(chǔ)的一或更多編碼頻譜值與解碼頻譜值的頻率索引之間有一固定的頻率索引關(guān)系。舉例而言,該預(yù)定索引關(guān)系可以是使得初步上下文內(nèi)存結(jié)構(gòu)的項目q[l][i]以時域?qū)︻l域轉(zhuǎn)換器或頻域?qū)r域轉(zhuǎn)換器的具有頻率點索引i (或i-const,其中const是一常數(shù))的頻率點的頻譜值為基礎(chǔ)。然而,或者,初步上下文內(nèi)存結(jié)構(gòu)432的一索引q[l] [i]可以是基于時域?qū)︻l域轉(zhuǎn)換器或頻域?qū)r域轉(zhuǎn)換器的具有頻率點索引4i-3、4i-2、4i-l及4i的頻率點的頻譜值(或頻率點索引的一被移轉(zhuǎn)范圍)。因此,初步上下文內(nèi)存結(jié)構(gòu)432的每一項目可與音幀的一預(yù)定頻率索引的頻譜值或多個預(yù)定頻率索引的一組頻譜值相關(guān)聯(lián),初步上下文內(nèi)存結(jié)構(gòu)432根據(jù)該頻譜值被建立。上下文狀態(tài)決定器400也包含一頻率伸展因子計算器434,配置成接收時間扭曲信息/時間扭曲輪廓信息412并在其基礎(chǔ)上提供一頻率伸展因子信息436。舉例而言,頻率伸展因子計算器434可配置成從數(shù)組warp_contour[]的項目(其中相對音高信息Prai[η]例如可與數(shù)組warp_contour[]的一對應(yīng)項目相等)導(dǎo)出一相對音高信息pMi [η][]。此外,頻率伸展因子計算器434可配置成應(yīng)用上述方程式的一從二個后續(xù)音幀的該相關(guān)音高信息Pm導(dǎo)出頻率伸展因子信息S。一般來說,頻率伸展因子計算器434可配置成提供頻率伸展因子信息(例如,一值S,或相等地,一值m_ContextUpdateRatio),使得頻率伸展因子信息描述一先前編碼或解碼音幀與欲使用現(xiàn)行上下文狀態(tài)值420被編碼或解碼的現(xiàn)行音幀間的一基本頻率改變。上下文狀態(tài)決定器400也包含一頻率比例縮放上下文內(nèi)存結(jié)構(gòu)提供者,配置成接收初步上下文內(nèi)存結(jié)構(gòu)432并在其基礎(chǔ)上提供一頻率比例縮放上下文內(nèi)存結(jié)構(gòu)。舉例而言,頻率比例縮放上下文內(nèi)存結(jié)構(gòu)可由數(shù)組q[l][]的一更新版本代表,該更新版本可以是承載初步上下文內(nèi)存結(jié)構(gòu)432的數(shù)組的一更新版本。頻率比例縮放上下文內(nèi)存結(jié)構(gòu)提供者可能配置成使用一頻率比例縮放從初步上下文內(nèi)存結(jié)構(gòu)432導(dǎo)出頻率比例縮放上下文內(nèi)存結(jié)構(gòu)。在頻率比例縮放中,初步上下文內(nèi)存結(jié)構(gòu)432的一具有項目索引i的值可被復(fù)制,或移轉(zhuǎn)到頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440的一具有項目索引j的項目,其中頻率索引中i可能不同于頻率索引j。舉例而言,如果初步上下文內(nèi)存結(jié)構(gòu)432的內(nèi)容的一頻率伸展被執(zhí)行,頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440的一具有項目索引J1的項目可被設(shè)定成初步上下文內(nèi)存結(jié)構(gòu)432的一具有項目索引I1的項目的值,且頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440的一具有項目索引j2的項目可被設(shè)定成初步 上下文內(nèi)存結(jié)構(gòu)432的一具有項目索引I1的項目的值,其中J2 Ki1大,且其中ji Ki1大。對應(yīng)的頻率索引(舉例而言,J1和I1、或上和i2)之間的一比率可采一預(yù)定值(除圓化誤差以外)。同樣地,如果由初步上下文內(nèi)存結(jié)構(gòu)432描述的內(nèi)容的一頻率壓縮是由頻率比例縮放上下文內(nèi)存結(jié)構(gòu)提供者438執(zhí)行,頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440的一具有項目索引h的項目可被設(shè)定至初步上下文內(nèi)存結(jié)構(gòu)432的一具有項目索引j3的項目的值,且頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440的一具有項目索引J4的項目可被設(shè)定成初步上下文內(nèi)存結(jié)構(gòu)432的一具有項目索引η的項目的一值。在此一情況,項目索引J3可能比項目索引i3小,且項目索引J4可能比項目索引i4小。而且,對應(yīng)的項目索引之間(舉例而言,項目索引叉和i3之間,或項目索引1和i4之間)的一比率可能是常數(shù)(除了圓化誤差以外),而且可能由頻率伸展因子信息436決定。關(guān)于頻率比例縮放上下文內(nèi)存結(jié)構(gòu)提供者440的運算的更進(jìn)一步的細(xì)節(jié)將在下文中被描述。上下文狀態(tài)決定器400也包含上下文狀態(tài)值提供者442,配置成根據(jù)頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440提供上下文狀態(tài)值420。舉例而言,上下文狀態(tài)值提供者442可以配置成提供描述一具有頻率索引I。的頻譜值根據(jù)頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440的項目解碼的上下文的上下文狀態(tài)值420,該頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440的項目的項目索引與頻率索引中I。成一預(yù)定關(guān)系。舉例而言,上下文狀態(tài)值提供者442可配置成提供上下文狀態(tài)值420以供具有頻率索引I0的頻譜值(或頻譜值的元組)根據(jù)具有頻率索引Itl-U L和1。+1的頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440的項目解碼。因此,上下文狀態(tài)決定器400可有效提供上下文狀態(tài)值420用于解碼具有一頻率索引Io的頻譜值(或者頻譜值的元組),如果頻率比例縮放上下文內(nèi)存結(jié)構(gòu)提供者438執(zhí)行一頻率伸展,根據(jù)頻率索引各別小于lcrl、小于Ici及小于Io+I的初步上下文內(nèi)存結(jié)構(gòu)432的項目解碼,在頻率比例縮放上下文內(nèi)存結(jié)構(gòu)執(zhí)行提供者438執(zhí)行一頻率壓縮的情況下,根據(jù)頻率索引各別大于Ici-K大于Io及大于Io+I的初步上下文內(nèi)存結(jié)構(gòu)432的項目解碼。因此,上下文狀態(tài)決定器400配置成通過根據(jù)一頻率比例縮放上下文內(nèi)存結(jié)構(gòu)提供上下文狀態(tài)值420以使上下文適應(yīng)后續(xù)音幀之間的基本頻率間的改變,該頻率比例縮放上下文內(nèi)存結(jié)構(gòu)為初步上下文內(nèi)存結(jié)構(gòu)432的頻率比例縮放版本,依賴頻率伸展因子436被頻率比例縮放,轉(zhuǎn)而描述基本頻率隨時間的變化。圖4b示出依據(jù)本發(fā)明的一實施例決定上下文狀態(tài)的一圖示。圖4b示出初步上下文內(nèi)存結(jié)構(gòu)432的項目的一示意圖,初步上下文內(nèi)存結(jié)構(gòu)432是由以參考數(shù)字450標(biāo)示的初步上下文內(nèi)存結(jié)構(gòu)提供者430提供。例如,一具有頻率索引h+Ι的項目450a,一項目450b和一具有頻率索引i2+2的項目450e被標(biāo)示。然而,以參考數(shù)字452標(biāo)示,當(dāng)提供頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440時,一具有頻率索引I1的項目452a被設(shè)定成采用具有頻率索引h+1的項目450a的值,且一具有頻率索引i2_l的項目452c被設(shè)定成采用具有頻率索引i2+2的項目450e的值。同樣地,頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440的其它項目可依賴初步上下文內(nèi)存結(jié)構(gòu)430的項目被設(shè)定,其中,典型地,初步上下文內(nèi)存結(jié)構(gòu)的一些項目在一頻率壓縮的情況被丟棄,且其中,典型地,初步上下文內(nèi)存結(jié)構(gòu)432的一些項目在頻率伸展的情況下被復(fù)制到頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440的多于一項目。
此外,圖4b說明上下文狀態(tài)如何被決定而用于根據(jù)率比例縮放上下文內(nèi)存結(jié)構(gòu)440 (以參考數(shù)字452代表)的項目解碼具有時間索引k的音幀的頻譜值。舉例而言,當(dāng)決定用于解碼具有時間索引為k的音幀的具有頻率索引I1的頻譜值(或者頻譜值的元組)的上下文狀態(tài)時,時間索引k的音幀的一具有頻率索引I1-I的上下文值及具有時間索引k-Ι及頻率索引I1-U I1與h+Ι的音幀的頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的項目被評估。因此,具有時間索引k-Ι和頻率索引I1-Uifl和i2+2的音幀的初步上下文內(nèi)存結(jié)構(gòu)的項目被有效地評估以決定用于解碼具有時間索引k及頻率索引I1的音幀的頻譜值(或頻譜值的元組)。因此,用于上下文狀態(tài)的決定的頻譜值環(huán)境有效地被初步上下文內(nèi)存結(jié)構(gòu)(或其內(nèi)容)的頻率伸展或頻率壓縮改變。8. 2依據(jù)圖4c實施在下文中,一用于映射利用4元組的算術(shù)編碼器的上下文的實例將參照圖4c描述,該圖示出一按元組的處理。圖4c示出用于根據(jù)初步上下文內(nèi)存結(jié)構(gòu)(例如,初步上下文內(nèi)存結(jié)構(gòu)432)獲得頻率比例縮放上下文內(nèi)存結(jié)構(gòu)(舉例而言,頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440)的算法的一虛擬程序碼表示。依據(jù)圖4c的算法460假定初步上下文內(nèi)存結(jié)構(gòu)432以一數(shù)組“self > base. m_qbuf”>被儲存。此外,算法460假定頻率伸展因子信息436被儲存成一變量“seIf->base.m—ContextUpdateRat io,,。 在第一步驟460a中,一些變量被初始化。尤其,一目標(biāo)元組索引變量“nLinTupleldx”以及來源元組索引變量“nWarpTupleldx”被初始化成零。此外,一重排序緩沖區(qū)數(shù)組“ Tqi4 ”被初始化。在一步驟460b中,初步上下文內(nèi)存結(jié)構(gòu)的項目“self_>base. m_qbuf”被復(fù)制到重排序緩沖區(qū)數(shù)組中。其次,只要目標(biāo)元組索引變量和來源元組索引變量小于一描述最大元組數(shù)目的變量nTuples,則復(fù)制算法460c被重復(fù)。在一步驟460ca中,四個頻率索引由來源元組索引變量(與一第一索引常數(shù)“firstldx”組合)的一現(xiàn)行值決定的重排序緩沖區(qū)項目被復(fù)制到上下文內(nèi)存結(jié)構(gòu)(self >base. m_qbuf [][])的項目,該等項目的頻率索引是由目標(biāo)元組索引變量(nLinTupleldx)(與第一索引常數(shù)“frstldx”組合)決定。在步驟460cb中,目標(biāo)元組索引變量被增加一。在步驟460cc中,來源元組索引變量被設(shè)定成一值,是目標(biāo)元組索引變量(nLinTupleldx)的現(xiàn)行值與頻率伸展因子信息(self_>base. m_ContextUpdateRatio)的乘積四舍五入成最接近的整數(shù)值。因此,若頻率伸展因子變量大于一,來源元組索引變量的值可大于目標(biāo)元組索引變量的值,而若頻率伸展因子變量小于一,則小于目標(biāo)元組索引變量的值。

因此,來源元組變量的一值被關(guān)聯(lián)于目標(biāo)元組索引變量的每一值(如果目標(biāo)元組索引變量的值和來源元組變量的值兩者皆小于固定的nTuples)。執(zhí)行步驟460cb和460cc之后,從重排序緩沖區(qū)復(fù)制項目到上下文內(nèi)存結(jié)構(gòu)在步驟460ca中使用一來源元組和一目標(biāo)元組之間的更新關(guān)聯(lián)被重復(fù)。因此,依據(jù)圖4c的算法460執(zhí)行頻率比例縮放上下文內(nèi)存結(jié)構(gòu)提供者430a的功能,其中初步上下文內(nèi)存結(jié)構(gòu)以數(shù)組“self->base.m_qbuf”的原始項目代表且其中頻率比例縮放上下文內(nèi)存結(jié)構(gòu)440由數(shù)組“self->base. m_qbuf”的更新項目代表。8. 3.依據(jù)圖4d和圖4e的實施在下文中,映射一使用4元組的算術(shù)編碼器上下文的實例將參考圖4c被描述,該圖示出一逐線的處理。圖4d和圖4e示出執(zhí)行一上下文的頻率比例縮放(即,頻率伸展或頻率壓縮)的算法的虛擬程序碼表示。依據(jù)圖4d和圖4e的算法470接收數(shù)組“self > base. m_qbuf □□”(或至少該數(shù)組的一參照)及頻率伸展因子信息“self_>base. m_ContextUpdateRatio”作為一輸入信息。此外,算法470接收一描述現(xiàn)用線的數(shù)目的變量“self_>base. m_Icslnfo->mScaleFactorBandsTransmitted”當(dāng)做一輸入信息。此外,算法 470 修改數(shù)組 self > base. m_qbuf [][],以使得該數(shù)組的項目代表頻率比例縮放上下文內(nèi)存結(jié)構(gòu)。算法470在步驟470a中包含多個變量的一初始化。尤其,一目標(biāo)線索引變量(IinLineIdx)和一來源線索引變量(warpLineldx)被設(shè)定初始化為零。在下文中,二組上下文被處理,其包含不同的上下文索引(以變量“contextldx”標(biāo)示)。然而,在其它的實施例中,僅處理一上下文也是足夠的。在一步驟470c中,一行臨時緩沖區(qū)數(shù)組“ImeTmpBuf”和一行重排序緩沖區(qū)數(shù)組“l(fā)ineReorderBuf ”以零項目被初始化。在步驟470d中,與多個頻譜值元組的不同頻率點關(guān)聯(lián)的初步上下文內(nèi)存結(jié)構(gòu)的項目被復(fù)制到行重排序緩沖區(qū)數(shù)組。因此,具有后續(xù)頻率索引的行重排序緩沖區(qū)數(shù)組的項目被設(shè)定成與不同頻率點相關(guān)聯(lián)的初步上下文內(nèi)存結(jié)構(gòu)的項目。換言之,初步上下文內(nèi)存結(jié)構(gòu)每頻譜值兀組包含一項目self_>base. m_qbuf [CurTuple] [contextldx],其中該項目包含與個別頻譜線(或頻譜點)相關(guān)聯(lián)的子項目a、b、c、d。每一子項目a、b、c、d在步驟470d被復(fù)制到個別項目緩沖數(shù)組“l(fā)ineReorderBuf [] ”。因此,線重排序緩沖區(qū)數(shù)組的內(nèi)容在一步驟470e中被復(fù)制到線時間緩沖區(qū)數(shù)組^lineTmpBuf [] ”。
接著,目標(biāo)線索引變量和來源線索引變量在一步驟470f中被初始化為采取零值。接著,線重排序緩沖區(qū)數(shù)組的項目“l(fā)ineReorderBuf [warpLineldx] ”在步驟470g中復(fù)制到目標(biāo)線索引變量“l(fā)inLineldx”的多個值的線暫存緩沖區(qū)數(shù)組。只要目標(biāo)線索引變量和來源線路索引變量是小于一表示有效(非零)頻譜線總數(shù)的變量“activeLines”,步驟470g即被重復(fù)。由目標(biāo)線索引變量“l(fā)inLineldx”的現(xiàn)行值指定的線暫存緩沖區(qū)數(shù)組的一項目被設(shè)定成由來源線索引變量的現(xiàn)行值指定的線重排序緩沖區(qū)數(shù)組的值。因此,目標(biāo)線索引變量被增量一。來源線索引變量“warpLineldx”設(shè)定成采取由目標(biāo)線索引變量的現(xiàn)行值與頻率伸展因子信息的乘積所決定的一值(由變量“self->baSe.m_ContextUpdateRatio,,代表)。在目標(biāo)線路索引變量和來源線路索引變量的更新之后,只要目標(biāo)線路索引變量和來源線路索引變量二者比變量“activeLines”為小,步驟470g即被重復(fù)。因此,初步上下文內(nèi)存的上下文項目是以一線法而非按元組頻率比例縮放。 在一最后步驟470h中,元組表示根據(jù)線暫存緩沖區(qū)數(shù)組的線項目被重建。元組表示“self>base. m_qbuf [curTuple] [contextldx] ” 的項目 a、b、C、d 依據(jù)線暫存緩沖區(qū)數(shù)組的四個項目 “ IineTmpBuft [ (curTuple-Ι) *4+0] ” 至“ IineTmpBuff [ (curTuple-Ι) *4+3] ” 被設(shè)定,該等項目頻率上相鄰。此外,一元組能量字段“ e ”可任由選擇地被設(shè)定成代表與各自元組相關(guān)聯(lián)頻譜值的一能量。而且,如果與該頻譜值相關(guān)聯(lián)的頻譜值的大小比較小,另一字段“V”可任由選擇地被設(shè)定。然而,應(yīng)指出者,在步驟470h被執(zhí)行的有關(guān)于新元組的計算的細(xì)節(jié),乃主要取決于上下文的實際表示且因此可顯著地改變。然而,大致而言,一以元組為基礎(chǔ)的表示是在步驟470h中根據(jù)步驟470h中的頻率比例縮放上下文的一基于個別線的表示被建立??偨Y(jié)而言,依據(jù)算法470,一按元組的上下文表示(數(shù)組“self>base. m_qbuf [curTuple] [contextldx] ”的項目)首先被分解成一頻率線法上下文表示(或頻率點法的上下文表示)(步驟470d),接著,頻率比例縮放以一逐線方式(步驟470g)被執(zhí)行。最后,一按元組表示的上下文(數(shù)組“self>base. m_qbuf [curTuple] [contextldx] ”的更新項目)根據(jù)逐線頻率比例縮放信息被重建(步驟470h)。9.頻域?qū)r域解碼法算法的詳細(xì)描述9. I.概觀在下文中,根據(jù)本發(fā)明一實施例的一音頻解碼器執(zhí)行的一些算法將被詳細(xì)地描述。為此一目的而參照圖 5a、5b、6a、6b、7a、7b、8、9、10a、10b、ll、12、13、14、15 及 16。首先,參考圖7a,該圖顯示數(shù)據(jù)組件的定義的說明以及輔助組件的定義的說明。此夕卜,參見圖7b,該圖顯示常數(shù)的定義的說明。一般而言,可以說本文所描述的方法能用來解碼一根據(jù)一時間扭曲修正型離散余弦轉(zhuǎn)換被編碼的音頻流。因此,當(dāng)TW-MDCT對一音頻流(可以用一標(biāo)志指示,例如稱為“ twMDCT”標(biāo)志,其可被包含在一特定的配置信息中)被啟用時,一時間扭曲濾波器排組和區(qū)塊更換可取代一音頻解碼器中的標(biāo)準(zhǔn)濾波器排組及區(qū)塊更換。修正型離散余弦反轉(zhuǎn)換(IMCT)的外時間扭曲濾波器排和區(qū)塊更換包含一從一任意間隔時間柵對一標(biāo)準(zhǔn)規(guī)律間隔或線性間隔時間柵的時域?qū)r域映射以及一對應(yīng)的窗形狀適應(yīng)。在此應(yīng)指出者,本文所描述的解碼算法例如可由扭曲時間扭曲頻域?qū)r域轉(zhuǎn)換器180依據(jù)頻譜的編碼表示、且亦可依據(jù)時間扭曲信息184、252被執(zhí)行。9-2.定義有關(guān)于數(shù)據(jù)組件的定義,輔助組件和常數(shù),參考圖7a和圖7b。9. 3.解碼程序-扭曲輪廓扭曲輪廓節(jié)點的碼簿索引是依下列被解碼成個別節(jié)點的扭曲值。
權(quán)利要求
1.一種音頻信號解碼器(150, 240),用于根據(jù)包含一編碼頻譜表不(ac_spectral_data[])及一編碼時間扭曲信息(tw_data[])的一編碼音頻信號表不(152)提供一解碼音頻信號表示(154), 該音頻信號解碼器包含 一基于上下文的頻譜值解碼器(160),其配置成依賴一上下文狀態(tài)解碼一描述一或更多頻譜值或一或更多頻譜值的一數(shù)字表示的至少一部分(m)的碼字(acod_m),以便獲得解碼頻譜值(162,297,x_ac_dec []); 一上下文狀態(tài)決定器(170,400),配置成依賴一或更多先前解碼頻譜值(162,297)決定一現(xiàn)行上下文狀態(tài)(164,c); 一時間扭曲頻域?qū)r域轉(zhuǎn)換器(180),配置成根據(jù)一組與特定音幀相關(guān)聯(lián)且由基于上下文的頻譜值解碼器所提供的解碼頻譜值(162,297)并依賴該時間扭曲信息提供一特定音幀的時間扭曲時域表示(182); 其中該上下文狀態(tài)決定器(170,400)配置成使該上下文狀態(tài)的決定適應(yīng)后續(xù)音幀之間的一基本頻率改變。
2.根據(jù)權(quán)利要求I所述的音頻信號解碼器,其中該時間扭曲信息(tw_data)描述一音高隨時間的變化(Pw);且 其中該上下文狀態(tài)決定器(170,400)配置成從該時間扭曲信息(tw_data)導(dǎo)出一頻率伸展信息(s, m_ContextUpdateRatio);以及 其中上下文狀態(tài)決定器配置成依賴頻率伸展信息(s, m_ContextUpdateRatio)沿頻率軸伸展或壓縮與先前音幀關(guān)聯(lián)的一前上下文(432,q
[],450),以獲得一適應(yīng)上下文(440,q
[],452)用于一現(xiàn)行音幀的一或更多頻譜值的基于上下文解碼。
3.根據(jù)權(quán)利要求2所述的音頻信號解碼器,其中該上下文狀態(tài)決定器(170,400)配置成從時間扭曲信息(tw_data, prel, warp_contour [])導(dǎo)出一第一音巾貞上的第一平均頻率信息(f^nk-i),且從時間扭曲信息導(dǎo)出一接在第一音巾貞之后的第二音巾貞上的第二平均頻率{r 肩、{f"rel, mean, k-^ ;且* 其中該上下文狀態(tài)決定器配置成計算第二音幀上的第二平均頻率信息與第一音幀上的第一平均頻率信息(fMl, η)間的一比率,用以決定頻率伸展信息(s,m_ContextUpdateRatio)。
4.根據(jù)權(quán)利要求2所述的音頻信號解碼器,其中該上下文狀態(tài)決定器(170,400)是配置成從該時間扭曲信息(tw_data, prel, warp_contour [])決定一第一音巾貞上的第一平均時間扭曲輪廓信息(ΡΜ , _η, η ),且 其中該上下文狀態(tài)決定器配置成從時間扭曲信息(252, tw_data, prel, warp_contour [])導(dǎo)出一接在該第一音幀之后的第二音幀上的第二平均時間扭曲輪廓信息(p,el,mean, k ),以及 其中該上下文狀態(tài)決定器配置成計算第一音幀上的第一平均時間扭曲輪廓信息(pm1,k-i)與第二音幀上的第二平均時間扭曲信息(PMl, mean, k)之間的一比率,用以確定頻率伸展信息(s, m_ContextUpdateRatio)。
5.根據(jù)權(quán)利要求3或4所述的音頻信號解碼器,其中該上下文狀態(tài)決定器(170,400)配置成從延伸在多個連續(xù)音巾貞上的一共同時間扭曲輪廓信息(warp_contour [])導(dǎo)出第一和第二平均頻率信息或者第一和第二平均時間扭曲輪廓信息。
6.根據(jù)權(quán)利要求3至5中的任一項所述的音頻信號解碼器,其中該音頻信號解碼器包含一配置成計算一時間扭曲輪廓信息(Pral [],warp_contour[] ,258)的時間扭曲計算器(250),該時間扭曲輪廓信息根據(jù)時間扭曲信息(tw_data, 252)描述多個連續(xù)音巾貞上的一相對音高的時間演變,且 其中該上下文狀態(tài)決定器(170,400)配置成使用該時間扭曲輪廓信息導(dǎo)出頻率伸展信肩、O
7.根據(jù)權(quán)利要求6所述的音頻信號解碼器,其中該音頻信號解碼器包含一重取樣位置計算器(1801), 其中該重取樣位置計算器(1801)配置成根據(jù)時間扭曲輪廓信息(pMl[],warp_contour [],258)計算可供時間扭曲重取樣器(180i)使用的重取樣位置,以使重取樣位置的時間變化由該時間扭曲輪廓信息決定。
8.根據(jù)權(quán)利要求I至7中的任一項所述的音頻信號解碼器,其中該上下文狀態(tài)決定器(170,400)配置成導(dǎo)出一數(shù)字現(xiàn)行上下文值(164,C),該值依賴多個先前解碼頻譜值描述上下文狀態(tài),且依賴該數(shù)字現(xiàn)行上下文值選擇一映射規(guī)則(cum_freq[]),該映射規(guī)則描述一碼值(acod_m)在一表示一或更多頻譜值、或一或更多頻譜值的一數(shù)字表示的一部分(m)的符號碼(symbol)上的映射, 其中該基于上下文的頻譜值解碼器(160)配置成使用由該上下文狀態(tài)決定器選擇的映射規(guī)則(cum_freq[])解碼該描述一或更多頻譜值、或一或更多頻譜值的數(shù)字表示的至少一部分(m)的碼值(acod_m)。
9.根據(jù)權(quán)利要求8所述的音頻信號解碼器,其中該上下文狀態(tài)決定器(170,400)配置成建立且更新一初步上下文內(nèi)存結(jié)構(gòu)(432,m_qbuf),以使初步上下文內(nèi)存結(jié)構(gòu)的項目描述第一音幀的一或更多頻譜值(162,297),其中該初步上下文內(nèi)存結(jié)構(gòu)的項目的項目索引表示該各別項目所關(guān)聯(lián)的頻域?qū)r域轉(zhuǎn)換器(180e)的一頻率點或一組相鄰頻率點; 其中該上下文狀態(tài)決定器配置成獲得一頻率比例縮放上下文內(nèi)存結(jié)構(gòu)(440,m_qbuf),用于根據(jù)初步上下文內(nèi)存結(jié)構(gòu)解碼一接在第一音幀之后的第二音幀,以使得一具有第一頻率索引的初步上下文內(nèi)存結(jié)構(gòu)的一特定項目(450a,450c, self->base. m_qbuf [nffarpTupIeIdx])或一子項目(self_>base. m_qbuf [nffarpTupleldx]. a)被映射至具有第一頻率索引(il+1,i2+2, nffarpTupleldx)的頻率比例縮放上下文內(nèi)存結(jié)構(gòu)(440,m_qbuf,452)的一對應(yīng)項目(452a,452c, self->base. m_qbuf [nLinTupleldx])或子項目之上(self->base. m_qbuf [nLinTupleldx] .a),其中該第二頻率索引(il, i2_l, nLinTupleldx)與頻域?qū)r域轉(zhuǎn)換器(180e)的不同于該第一頻率索引所關(guān)聯(lián)者的一頻率點或一組相鄰頻率點相關(guān)聯(lián)。
10.根據(jù)權(quán)利要求9所述的音頻信號解碼器,其中該上下文狀態(tài)決定器(170,400)配置成導(dǎo)出一描述現(xiàn)行上下文狀態(tài)的上下文狀態(tài)值(164,420)用于解碼一碼字(&(0(1_111),該碼字描述已使用頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的值與一第三頻率索引相關(guān)聯(lián)的第二音幀的一或更多頻譜值,或第二音幀的一或更多頻譜值的一數(shù)字表示的至少一部分U),頻率比例縮放上下文內(nèi)存結(jié)構(gòu)(440,m_qbuf,452)的該等值的頻率索引(il_l, il, il+Ι)與該第三頻率索引(il)是成一預(yù)定關(guān)系, 其中該第三頻率索引(il)指定該頻域?qū)r域轉(zhuǎn)換器(180e)的一頻率點或一組相鄰頻率點,欲使用現(xiàn)行上下文狀態(tài)被解碼的第二音幀的一或更多頻譜值與該一頻率點或一組相鄰頻率點相關(guān)聯(lián)。
11.根據(jù)權(quán)利要求9或10所述的音頻信號解碼器,其中該上下文狀態(tài)決定器(170 ;400)配置成將具有一對應(yīng)目標(biāo)頻率索引(il, 2-1, nLinTupleldx)的頻率比例縮放上下文內(nèi)存結(jié)構(gòu)(440, m_qbuf, 452)的多個項目(452a, 452c, self->base.m_qbuf [nLinTupleldx])的每一項目設(shè)定成具有一對應(yīng)來源頻率索引(il+1, 2+2,nffarpTupleldx)的初步上下文內(nèi)存結(jié)構(gòu)(432,450, m_qbuf )的一對應(yīng)項目(450a, 450c,self->base. m_qbuf [nffarpTup I e I dx])的一值, 其中該上下文狀態(tài)決定器配置成決定該頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的一項目和初步上下文內(nèi)存結(jié)構(gòu)的一對應(yīng)項目的對應(yīng)頻率索引(il,il+1 ;i2-l, 2+2 ;nLinTupleIdx,nffarpTupleldx),以使得該對應(yīng)頻率索引(nLinTupleldx,nWarpTupleldx)之間的一比率是由一初步上下文內(nèi)存結(jié)構(gòu)的項目所關(guān)聯(lián)的現(xiàn)行音幀,以及解碼上下文由該頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的項目決定的后續(xù)音幀之間的基本頻率改變決定。
12.根據(jù)權(quán)利要求9或10所述的音頻信號解碼器,其中該上下文狀態(tài)決定器(170,400)配置成建立初步上下文內(nèi)存結(jié)構(gòu)以使得初步上下文內(nèi)存結(jié)構(gòu)(432,m_qbuf,450)的多個項目(450a,450c, self->base. m_qbuf [nffarpTupleldx])的每一項目是以一第一音巾貞的多個頻譜值(a,b,c,d)為基礎(chǔ),其中該初步上下文內(nèi)存結(jié)構(gòu)(432,450,m_qbuf )的項目的項目索引(il+1,i2+2, nWarpTupleldx)指示各項目所關(guān)聯(lián)的頻域?qū)r域轉(zhuǎn)換器(180e)的一組相鄰頻率點; 其中該上下文狀態(tài)決定器配置成從初步上下文內(nèi)存結(jié)構(gòu)的項目(self->baSe.m_qbuf [curTuple[][])提取具有關(guān)聯(lián)的個別頻率點索引的初步頻率點個別上下文值(IineReorderBuf[(curTuple-1)*4+0],…,IineReorderBuf[(curTuple-1)*4+3]); 其中該上下文狀態(tài)決定器配置成獲得具有關(guān)聯(lián)的個別頻率點索引(IinLineIdx)的頻率比例縮放頻率點個別上下文值(IineTmpBuf [linLineldx]),以使得具有一第一頻率點索弓丨(warpLine I dx)的特定初步頻率點個別上下文值(I ineReorderBuf [warpLine I dx])被映射至具有一第二頻率點索引(IinLineIdx)的對應(yīng)頻率比例縮放頻率點個別上下文值(I ineTmpBuf [ I inLine I dx]),使得該初步頻率點個別上下文值的一頻率點個別映射被獲得;且 其中上下文狀態(tài)決定器配置成將多個頻率比例縮放頻率點個別上下文值(IineTmpBuf [ (curTuple-1) *4+0],…,IineTmpBuf [ (curTuple-1) *4+3])組合成為頻率比例縮放上下文內(nèi)存結(jié)構(gòu)的一組合項目(self_>base. m_qbuf [curTuple][])。
13.—種用以提供包括一編碼頻譜表不(132)與一編碼時間扭曲信息(226)的輸入音頻信號(110)的編碼表示(112)的音頻信號編碼器(100,200),該音頻信號編碼器包含 一頻域表示提供者(120),配置成依據(jù)該時間扭曲信息(122)提供代表輸入音頻信號的一時間扭曲版本的一頻域表不(124); 一基于上下文的頻譜值編碼器(130),配置成依賴一上下文狀態(tài)(134)提供描述該頻域表示(124)的一或更多頻譜值、或該頻域表示(124)的一或更多頻譜值的一數(shù)字表示的至少一部分(m)的一碼字(acod_m),以獲得該編碼頻譜表示(132)的編碼頻譜值;以及 一上下文狀態(tài)決定器(140),配置成依賴一或更多先前編碼的頻譜值決定一現(xiàn)行的上下文狀態(tài)(134),其中該上下文狀態(tài)決定器(140)配置成使該上下文狀態(tài)的決定適應(yīng)后續(xù)音幀之間的一基本頻率改變。
14.根據(jù)權(quán)利要求13所述的音頻信號編碼器,其中該上下文狀態(tài)決定器配置成依賴多個先前編碼頻譜值導(dǎo)出一數(shù)字現(xiàn)行上下文值(134,C),且依賴該數(shù)字現(xiàn)行上下文值選擇一描述一或更多頻譜、或一或更多頻譜值的一數(shù)字表示的一部分(m)映射至一碼值(acod_m)上的一映射規(guī)則, 其中該基于上下文的頻譜值編碼器配置成使用由該上下文狀態(tài)決定器選擇的映射規(guī)則提供該描述一或更多頻譜值、或一或更多頻譜值的一數(shù)字表示的至少一部分的碼值。
15.—種根據(jù)包括一編碼頻譜表示(30_8口601以1_(^丨3[])與一編碼時間扭曲信息(tw_data[])的一編碼音頻信號表示(154)提供一解碼音頻信號表示(152)的方法,該方法包含 依賴一上下文狀態(tài)解碼一描述一或更多頻譜值、或一或更多頻譜值的一數(shù)字表示的至少一部分(m)的碼字(acod_m),以便獲得解碼頻譜值(162, 297, x_ac_dec []); 依賴一或更多個先前解碼的頻譜值(162,297)決定一現(xiàn)行上下文狀態(tài)(164,c); 根據(jù)一組與特定音幀相關(guān)聯(lián)且由該基于上下文頻譜值解碼器提供的解碼頻譜值(162,297)并依賴該時間扭曲信息提供該特定音幀的一時間扭曲時域表示(182); 其中該上下文狀態(tài)的決定被適應(yīng)于后續(xù)音幀之間的一基本頻率改變。
16.—種用于提供包括一編碼頻譜表不(132)與一編碼時間扭曲信息(226)的一輸入音頻信號(110)的編碼表示(112)的方法,該方法包含 依據(jù)時間扭曲信息(122)提供一表不該輸入音頻信號的時間扭曲版本的頻域表不(124); 依賴一上下文狀態(tài)(134)提供一描述該頻域表示(124)的一或更多頻譜值、或該頻域表示(124)的一或更多頻譜值的一數(shù)字表示的至少一部分(m)的碼字(acodjn),以便獲得該編碼頻譜表示(132)的編碼頻譜值(acod_m);以及 依賴一或更多先前編碼頻譜值決定一現(xiàn)行上下文狀態(tài)(134), 其中該上下文狀態(tài)的決定被適應(yīng)于后續(xù)音幀之間的一基本頻率改變。
17.一種計算機程序,當(dāng)該計算機程序在一計算機上執(zhí)行時用以實施根據(jù)權(quán)利要求15或16所述的方法。
全文摘要
一種基于包含一編碼頻譜表示(ac_spectral_data[])和一編碼時間扭曲信息(tw_data[])的編碼音頻信號表示(152)提供一解碼音頻信號表示(154)的音頻信號解碼器(150),該音頻信號解碼器包含一基于上下文的頻譜值解碼器(160),配置成依賴一上下文狀態(tài)解碼一描述一或更多頻譜值、或一或更多頻譜值的一數(shù)字表示的至少一部分(m)的碼字(acod_m)以獲得解碼頻譜值(162,297,x_ac_dec[])。音頻信號解碼器也包含一配置成依賴一或更多先前解碼頻譜值(162,297)決定一現(xiàn)行上下文狀態(tài)(164,c)的上下文狀態(tài)決定器(170)。音頻信號解碼器也包含一時間扭曲頻域?qū)r域轉(zhuǎn)換器(180),配置成基于一組與該特定音幀關(guān)聯(lián)且由該基于上下文的頻譜值解碼器提供的解碼頻譜值(162)、并依賴時間扭曲信息而提供一特定音幀的時間扭曲時域表示(182)。上下文狀態(tài)決定器(170)配置成使上下文狀態(tài)的決定適應(yīng)后續(xù)音幀之間的一基本頻率改變。一音頻信號編碼器應(yīng)用一類似的概念。
文檔編號G10L19/02GK102884572SQ201180021269
公開日2013年1月16日 申請日期2011年3月9日 優(yōu)先權(quán)日2010年3月10日
發(fā)明者斯特凡·拜爾, 湯姆·貝克斯特倫, 拉爾夫·蓋爾, 貝恩德·埃德勒, 薩沙·迪施, 拉爾斯·維萊蒙斯 申請人:弗蘭霍菲爾運輸應(yīng)用研究公司, 杜比Ab國際公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1