在不活動(dòng)階段期間利用噪聲合成的音頻編解碼器的制造方法
【專利摘要】在活動(dòng)階段或非無聲階段期間參數(shù)背景噪聲估計(jì)被連續(xù)地更新,使得當(dāng)在活動(dòng)階段后進(jìn)入不活動(dòng)階段時(shí)即刻開始噪聲生成。根據(jù)另一方面,非常有效地使用頻譜域以參數(shù)化該背景噪聲,由此獲得更為真實(shí)的背景噪聲合成,并且由此導(dǎo)致更加透明的活動(dòng)階段至不活動(dòng)階段切換。
【專利說明】在不活動(dòng)階段期間利用噪聲合成的音頻編解碼器
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及在不活動(dòng)階段期間支持噪聲合成的音頻編解碼器。
【背景技術(shù)】
[0002]利用語音或其它噪聲源的不活動(dòng)時(shí)段來縮小傳輸帶寬的可能是本領(lǐng)域已知的。這種方案一般使用某個(gè)檢測形式來區(qū)別不活動(dòng)(或無聲)階段與活動(dòng)(或非無聲)階段。在不活動(dòng)階段期間,通過中止精準(zhǔn)地編碼該記錄信號(hào)的普通數(shù)據(jù)流的傳輸,而只發(fā)送無聲插入描述(SID)更新,而達(dá)成較低比特率。SID更新可以常規(guī)間隔傳輸,或當(dāng)檢測到背景噪聲特性改變時(shí)傳輸。然后SID幀可用在解碼側(cè)來產(chǎn)生背景噪聲,該背景噪聲的特性類似于活動(dòng)階段期間的背景噪聲,使得中止編碼該記錄信號(hào)的普通數(shù)據(jù)流的傳輸在接收者側(cè)不會(huì)導(dǎo)致從活動(dòng)階段至不活動(dòng)階段令人不愉悅的過渡。
[0003]但仍然需要進(jìn)一步減低傳輸率。比特率耗用者數(shù)目的增加諸如移動(dòng)電話數(shù)目的增力口,及或多或少比特率密集應(yīng)用數(shù)目的增加諸如無線傳輸廣播,要求穩(wěn)定地減少耗用的比特率。
[0004]另一方面,合成噪聲須接近地模擬真實(shí)噪聲,使得該合成對使用者而言是透明的。
【發(fā)明內(nèi)容】
[0005]據(jù)此,本發(fā)明的一個(gè)目的是提出一種在不活動(dòng)階段期間支持噪聲合成的音頻編解碼器方案,其使得能夠減低傳輸比特率同時(shí)維持可達(dá)成的噪聲產(chǎn)生質(zhì)量。
[0006]此目的是通過獨(dú)立權(quán)利要求的部分主題而達(dá)成的。
[0007]本發(fā)明的基本構(gòu)想為若在活動(dòng)階段期間連續(xù)地更新參數(shù)背景噪聲估計(jì)使得接在活動(dòng)階段后方的不活動(dòng)階段進(jìn)入時(shí)立即開始噪聲生成,則可節(jié)省有價(jià)值的比特率同時(shí)維持在不活動(dòng)階段內(nèi)的噪聲產(chǎn)生質(zhì)量。舉例言之,可在解碼側(cè)進(jìn)行連續(xù)地更新,無需緊接在檢測到不活動(dòng)階段后的預(yù)熱階段期間對該解碼側(cè)初步提供背景噪聲的編碼表示,該提供將耗用有價(jià)值的比特率,由于解碼側(cè)已經(jīng)在活動(dòng)階段期間連續(xù)地更新該參數(shù)背景噪聲估計(jì),因此隨時(shí)地準(zhǔn)備以適當(dāng)噪聲生成而立即進(jìn)入不活動(dòng)階段。同理,若參數(shù)背景噪聲估計(jì)是在編碼側(cè)完成的,可避開此種預(yù)熱階段。當(dāng)檢測到進(jìn)入不活動(dòng)階段時(shí),替代在解碼側(cè)初步連續(xù)地提供常規(guī)編碼的背景噪聲表示以便學(xué)習(xí)背景噪聲,及在學(xué)習(xí)階段后據(jù)此而通知解碼側(cè),在檢測到進(jìn)入不活動(dòng)階段時(shí),編碼器能夠立即對解碼器提供需要的參數(shù)背景噪聲估計(jì),采用的方式是降回到過去活動(dòng)階段期間連續(xù)更新的參數(shù)背景噪聲估計(jì),由此避免比特率耗用在初步進(jìn)一步執(zhí)行額外編碼背景噪聲。
[0008]依據(jù)本發(fā)明的具體實(shí)施例,例如就比特率及運(yùn)算復(fù)雜度而言,達(dá)成在中等開銷下的更為真實(shí)的噪聲生成。具體地,依據(jù)這些實(shí)施例,頻譜域被用來參數(shù)化背景噪聲,由此獲得背景噪聲合成,該背景噪聲合成更為真實(shí),因此導(dǎo)致更加透明的活動(dòng)階段至不活動(dòng)階段切換。此外,發(fā)現(xiàn)在頻譜域參數(shù)化背景噪聲,允許從有用信號(hào)分離噪聲,因此,在頻譜域參數(shù)化背景噪聲當(dāng)組合前述在活動(dòng)階段期間參數(shù)背景噪聲估計(jì)的連續(xù)地更新時(shí)具有優(yōu)點(diǎn),原因在于頻譜域可達(dá)成噪聲與有用信號(hào)間的更佳分離,使得組合本申請的兩個(gè)有益方面時(shí)無需從一個(gè)域至另一域的額外過渡。
[0009]本發(fā)明的實(shí)施例的額外有益細(xì)節(jié)為權(quán)利要求中的附屬項(xiàng)的主題。
【專利附圖】
【附圖說明】
[0010]下面參考【專利附圖】
【附圖說明】本申請的優(yōu)選實(shí)施例,附圖中:
[0011]圖1示出依據(jù)實(shí)施例的音頻編碼器的框圖;
[0012]圖2示出編碼引擎14的可能實(shí)現(xiàn);
[0013]圖3示出依據(jù)實(shí)施例音頻解碼器的框圖;
[0014]圖4示出依據(jù)實(shí)施例的圖3的解碼引擎的可能實(shí)現(xiàn);
[0015]圖5示出依據(jù)實(shí)施例的又一更詳細(xì)描述的音頻編碼器的框圖;
[0016]圖6示出依據(jù)實(shí)施例可與圖5的編碼器一起使用的解碼器的框圖;
[0017]圖7示出依據(jù)實(shí)施例的又一更詳細(xì)描述的音頻解碼器的框圖;
[0018]圖8示出依據(jù)實(shí)施例的音頻編碼器的頻譜帶寬擴(kuò)展部分的框圖;
[0019]圖9示出依據(jù)實(shí)施例的圖8的CNG頻譜帶寬擴(kuò)展編碼器的實(shí)現(xiàn);
[0020]圖10示出依據(jù)實(shí)施例的使用頻譜帶寬擴(kuò)展的音頻解碼器的框圖;
[0021]圖11示出使用頻譜帶寬復(fù)制的音頻解碼器的實(shí)施例的可能的更詳細(xì)描述的框圖;
[0022]圖12示出依據(jù)又一實(shí)施例使用頻譜帶寬擴(kuò)展的音頻編碼器的框圖;以及
[0023]圖13示出音頻編碼器的又一實(shí)施例的框圖。
【具體實(shí)施方式】
[0024]圖1示出依據(jù)本發(fā)明的實(shí)施例的音頻編碼器。圖1的音頻編碼器包括背景噪聲估計(jì)器12、編碼引擎14、檢測器16、音頻信號(hào)輸入端18及數(shù)據(jù)流輸出端20。提供器12、編碼引擎14及檢測器16分別具有連接至音頻信號(hào)輸入端18的輸入端。估計(jì)器12及編碼引擎14的輸出端分別經(jīng)由開關(guān)22而連接至數(shù)據(jù)流輸出端20。開關(guān)22、估計(jì)器12及編碼引擎14的控制輸入端分別連接至檢測器16的輸出端。
[0025]背景噪聲估計(jì)器12被配置為在活動(dòng)階段24期間,基于在輸入端18進(jìn)入音頻編碼器10的輸入音頻信號(hào)而連續(xù)地更新參數(shù)背景噪聲估計(jì)。雖然圖1提示背景噪聲估計(jì)器12可基于在輸入端18輸入的音頻信號(hào)而得出參數(shù)背景噪聲估計(jì)的連續(xù)更新,但不一定為此種情況。背景噪聲估計(jì)器12可替換地或附加地從編碼引擎14獲得音頻信號(hào)版本,如虛線26例示說明的。在這種情況下,背景噪聲估計(jì)器12可替換地或附加地分別經(jīng)由連接線26及編碼引擎14而間接地連接至輸入端18。具體地,針對背景噪聲估計(jì)器12連續(xù)地更新背景噪聲估計(jì),存在不同的可能,后面將進(jìn)一步描述若干這種可能。
[0026]編碼引擎14被配置為在活動(dòng)階段24期間將到達(dá)輸入端18的輸入音頻信號(hào)編碼為數(shù)據(jù)流?;顒?dòng)階段應(yīng)涵蓋該音頻信號(hào)內(nèi)包含有用信息的全部時(shí)間,諸如語音或噪聲源的其它有用聲音。另一方面,具有幾乎不隨時(shí)間變化的特性的聲音諸如于揚(yáng)聲器背景中由雨聲或交通聲所引起的不隨時(shí)間變化的頻譜須歸類為背景噪聲,每當(dāng)只存在此種背景噪聲時(shí),相應(yīng)時(shí)段應(yīng)歸類為不活動(dòng)階段28。檢測器16是負(fù)責(zé)基于在輸入端18輸入的音頻信號(hào)而檢測在活動(dòng)階段24后進(jìn)入不活動(dòng)階段28。換言之,檢測器16區(qū)分兩個(gè)階段,即活動(dòng)階段及不活動(dòng)階段,其中檢測器16確定目前存在哪個(gè)階段。檢測器16將目前存在的階段通知給編碼引擎14,及如前文已述,編碼引擎14在活動(dòng)階段24期間將該輸入音頻信號(hào)編碼成為數(shù)據(jù)流。檢測器16據(jù)此控制開關(guān)22,使得由編碼引擎14輸出的數(shù)據(jù)流在輸出端20輸出。在不活動(dòng)階段期間,編碼引擎14可停止編碼輸入音頻信號(hào)。至少在輸出端20處輸出的數(shù)據(jù)流不再由可能通過編碼引擎14輸出的任何數(shù)據(jù)流饋送。此外,編碼引擎14可只執(zhí)行最少處理來支持估計(jì)器12而只有若干狀態(tài)變量更新。此種動(dòng)作將大大降低運(yùn)算功率。例如開關(guān)22被設(shè)置為使得估計(jì)器12的輸出端連接至輸出端20,而非連接至編碼引擎的輸出端。由此減少用以傳輸在輸出端20輸出的比特流的有用的傳輸比特率。
[0027]背景噪聲估計(jì)器12被配置為在活動(dòng)階段24期間,基于如前文已述的輸入音頻信號(hào)18而連續(xù)地更新參數(shù)背景噪聲估計(jì),以及因此,在從活動(dòng)階段24過渡至不活動(dòng)階段28后,即在進(jìn)入不活動(dòng)階段28時(shí),估計(jì)器12能夠立即將在活動(dòng)階段24期間連續(xù)地更新的該參數(shù)背景噪聲估計(jì)插入在輸出端20輸出的數(shù)據(jù)流30。緊接在活動(dòng)階段24結(jié)束后,及緊接在檢測器16檢測到進(jìn)入不活動(dòng)階段28的時(shí)間瞬間34后,背景噪聲估計(jì)器12例如可將無聲插入描述符(SID)幀32插入數(shù)據(jù)流30內(nèi)。換言之,由于在活動(dòng)階段24期間背景噪聲估計(jì)器對參數(shù)背景噪聲估計(jì)的連續(xù)更新,在檢測器16檢測到進(jìn)入不活動(dòng)階段28與SID32的插入間無需時(shí)間間隙。
[0028]如此,總結(jié)如上說明,圖1的音頻編碼器10可如下操作。用于例示說明目的,假設(shè)目前存在活動(dòng)階段24。于此種情況下,編碼引擎14當(dāng)前將在輸入端18的輸入音頻信號(hào)編碼成數(shù)據(jù)流20。開關(guān)22將編碼引擎14的輸出端連接至輸出端20。編碼引擎14可使用參數(shù)編碼及變換編碼來將輸入音頻信號(hào)18編碼成數(shù)據(jù)流。具體地,編碼引擎14可以幀為單位編碼該輸入音頻信號(hào),每個(gè)幀編碼該輸入音頻信號(hào)的接續(xù)且部分彼此重迭的時(shí)間區(qū)間之一。編碼引擎14額外地可在數(shù)據(jù)流的接續(xù)幀間,在不同編碼模式間切換。舉例言之,某些幀可使用預(yù)測編碼諸如CELP編碼而編碼,而若干其它幀可使用變換編碼諸如TCX或AAC編碼而編碼。請參考例如USAC及其編碼模式,例如IS0/IEC CD 23003-3,2010年9月24日。
[0029]在活動(dòng)階段24期間,背景噪聲估計(jì)器12連續(xù)地更新參數(shù)背景噪聲估計(jì)。據(jù)此,背景噪聲估計(jì)器12可被配置為區(qū)別該輸入音頻信號(hào)內(nèi)部的噪聲成分與有用信號(hào)成分而只從該噪聲成分確定參數(shù)背景噪聲估計(jì)。依據(jù)容后詳述的實(shí)施例,背景噪聲估計(jì)器12可在頻譜域執(zhí)行此項(xiàng)更新,諸如頻譜域也可用在編碼引擎14內(nèi)的變換編碼。但其它替代方式也可用,諸如時(shí)域。若為頻譜域,則可以是重迭變換域諸如MDCT域,或?yàn)V波器組域諸如復(fù)數(shù)值濾波器組域諸如QMF域。
[0030]此外,例如在預(yù)測編碼及/或變換編碼期間,背景噪聲估計(jì)器12可基于在編碼引擎14內(nèi)作為中間結(jié)果獲得的激勵(lì)信號(hào)或殘留信號(hào)而執(zhí)行更新,而非作為進(jìn)入輸入18的音頻信號(hào)或遺漏編碼成數(shù)據(jù)流的音頻信號(hào)。由此方式,該輸入音頻信號(hào)內(nèi)的大量有用的信號(hào)成分將已經(jīng)被去除,使得對背景噪聲估計(jì)器12而言噪聲成分的檢測變得更容易。
[0031]在活動(dòng)階段24期間,檢測器16也連續(xù)地運(yùn)轉(zhuǎn)來檢測不活動(dòng)階段28的進(jìn)入。檢測器16可具體實(shí)施為語音/聲音活動(dòng)檢測器(VAD/SAD)或若干其它構(gòu)件,其確定有用的信號(hào)成分目前是否存在于該輸入音頻信號(hào)。假設(shè)一旦超過臨界值則進(jìn)入不活動(dòng)階段,檢測器16確定是否繼續(xù)活動(dòng)階段24的基本標(biāo)準(zhǔn)可以是:查核該輸入音頻信號(hào)的低通濾波功率是否保持低于某個(gè)臨界值。
[0032]與檢測器16執(zhí)行檢測在活動(dòng)階段24之后進(jìn)入不活動(dòng)階段28的確切方式無關(guān)地,檢測器16即刻地通知其它實(shí)體12、14及22進(jìn)入不活動(dòng)階段28。由于在活動(dòng)階段24期間背景噪聲估計(jì)器的連續(xù)更新參數(shù)背景噪聲估計(jì),可即刻地避免在輸出端20輸出的數(shù)據(jù)流30進(jìn)一步從編碼引擎14饋入。反而,當(dāng)被通知進(jìn)入不活動(dòng)階段28時(shí),背景噪聲估計(jì)器12將立即以SID幀32形式將該參數(shù)背景噪聲估計(jì)的末次更新的信息插入數(shù)據(jù)流30內(nèi)部。換言之,SID幀32緊接在編碼引擎的最末幀之后,該最末幀是編碼有關(guān)檢測器16檢測到不活動(dòng)階段進(jìn)入的該時(shí)間區(qū)間的音頻信號(hào)幀。
[0033]一般而言,背景噪聲不常改變。在大部分情況下,背景噪聲傾向于不隨時(shí)間變化。據(jù)此,緊接在檢測器16檢測到不活動(dòng)階段28的起始后,在背景噪聲估計(jì)器12插入SID幀32后,任何數(shù)據(jù)流的傳輸可被中斷,使得于此中斷階段34中,數(shù)據(jù)流30并不耗用任何比特率,或只耗用若干傳輸目的所要求的最小比特率。為了維持最小比特率,背景噪聲估計(jì)器12可間歇地重復(fù)SID32的輸出。
[0034]但盡管背景噪聲傾向于不隨時(shí)間改變,仍可能出現(xiàn)背景噪聲改變。舉例言之,設(shè)想在講電話中,移動(dòng)電話使用者離開汽車,故背景噪聲從馬達(dá)噪聲改變成車外的交通噪聲。為了追蹤此種背景噪聲的改變,背景噪聲估計(jì)器12可被配置為連續(xù)地測量背景噪聲,即便于不活動(dòng)階段28期間也是如此。每當(dāng)背景噪聲估計(jì)器12判定參數(shù)背景噪聲估計(jì)改變量超過某個(gè)臨界值時(shí),背景估計(jì)器12可經(jīng)由另一個(gè)SID38而將參數(shù)背景噪聲估計(jì)的更新版本插入數(shù)據(jù)流20,其中隨后可接著另一個(gè)中斷階段40,直到例如檢測器16檢測到另一個(gè)活動(dòng)階段42開始為止等等。當(dāng)然,展現(xiàn)目前已更新參數(shù)背景噪聲估計(jì)的SID幀可替代地或附加地以中間方式散布在不活動(dòng)階段內(nèi)部,而與參數(shù)背景噪聲估計(jì)的改變無關(guān)。
[0035]顯然,通過編碼引擎14輸出及圖1中使用影線指出的數(shù)據(jù)流44比在不活動(dòng)階段28期間欲傳輸?shù)臄?shù)據(jù)流片段32及38耗用更多傳輸比特率,因而比特率的節(jié)省相當(dāng)顯著。此外,因背景噪聲估計(jì)器12能夠立即開始進(jìn)行進(jìn)一步饋送數(shù)據(jù)流30,超過不活動(dòng)階段檢測時(shí)間點(diǎn)34即無需初步繼續(xù)傳輸編碼引擎14的數(shù)據(jù)流44,因而更進(jìn)一步減低總耗用比特率。
[0036]如后文中將就更具體實(shí)施例進(jìn)一步詳細(xì)說明的,在輸入音頻信號(hào)的編碼中,編碼引擎14可被配置為將該輸入音頻信號(hào)預(yù)測地編碼成線性預(yù)測系數(shù),及以將激勵(lì)信號(hào)變換編碼成編碼成激勵(lì)信號(hào),及將線性預(yù)測系數(shù)分別編碼成數(shù)據(jù)流30及44。一個(gè)可能的實(shí)現(xiàn)被顯示于圖2。依據(jù)圖2,編碼引擎14包括變換器50、頻域噪聲整形器(FDNS) 52、以及量化器54,其以所述順序串聯(lián)連接在編碼引擎14的音頻信號(hào)輸入端56與數(shù)據(jù)流輸出端58之間。此外,圖2之編碼引擎14包括線性預(yù)測分析模塊60,被配置為通過分別分析音頻信號(hào)各部分的開窗及施加自相關(guān)性(autocorrelation)至開窗部分,來根據(jù)音頻信號(hào)56確定線性預(yù)測系數(shù),或基于由變換器50輸出的輸入音頻信號(hào)的變換域中的變換而確定自相關(guān)性,確定方式是使用其功率頻譜,及對其施加反DFT,因而確定自相關(guān)性,隨后基于該自相關(guān)性諸如使用(韋_)李-杜算法執(zhí)行LPC估計(jì)。
[0037]基于由線性預(yù)測分析模塊60確定的線性預(yù)測系數(shù),于輸出端58輸出的數(shù)據(jù)流被饋送以關(guān)于LPC的相應(yīng)信息,而頻域噪聲整形器是經(jīng)控制以依據(jù)對應(yīng)于通過模塊60輸出的線性預(yù)測系數(shù)而確定的線性預(yù)測分析濾波器的傳遞函數(shù)的傳遞函數(shù)而在頻譜上整形該音頻信號(hào)的頻譜圖。為了在數(shù)據(jù)流中傳輸而對LPC的量化可在LSP/LSF域、使用內(nèi)插法進(jìn)行,因而比較分析器60中的分析速率,減低了傳輸速率。此外,在roNS中執(zhí)行的LPC至頻譜加權(quán)轉(zhuǎn)換可涉及施加ODFT至LPC,及施加所得加權(quán)值至變換器的頻譜作為除數(shù)。
[0038]然后,量化器54對頻譜成形(平坦化)的頻譜圖的變換系數(shù)進(jìn)行量化。舉例言之,變換器50使用重迭變換諸如MDCT來將該音頻信號(hào)從時(shí)域轉(zhuǎn)成頻譜域,由此獲得對應(yīng)于該輸入音頻信號(hào)的重迭開窗部分的接續(xù)變換,然后通過依據(jù)LP分析濾波器的傳遞函數(shù),加權(quán)這種變換而通過頻域噪聲整形器52而頻譜成形。
[0039]經(jīng)整形的頻譜圖可解譯為激勵(lì)信號(hào),如虛線箭頭62例示說明的,背景噪聲估計(jì)器12可被配置為使用此激勵(lì)信號(hào)來更新該參數(shù)背景噪聲估計(jì)。另外地,如通過虛線箭頭64指示的,背景噪聲估計(jì)器12可直接利用如由變換器50輸出的重迭變換表示作為更新的基礎(chǔ),即無需通過噪聲整形器52進(jìn)行頻域噪聲整形。
[0040]有關(guān)圖1至圖2所示組件的可能實(shí)現(xiàn)的其他細(xì)節(jié)可從后文更詳細(xì)的實(shí)施例得出,注意全部這種細(xì)節(jié)皆可單獨(dú)地轉(zhuǎn)移至圖1及圖2的組件。
[0041]但在描述這種進(jìn)一步細(xì)節(jié)實(shí)施例前,參考圖3,其替換地或附加地顯示可在解碼器側(cè)執(zhí)行參數(shù)背景噪聲估計(jì)更新。
[0042]圖3的音頻解碼器80被配置為解碼進(jìn)入解碼器80的輸入端82的數(shù)據(jù)流,因而根據(jù)該數(shù)據(jù)流重建要在解碼器80的輸出端84輸出的音頻信號(hào)。該數(shù)據(jù)流包括至少一個(gè)活動(dòng)階段86,其后是一個(gè)不活動(dòng)階段88。音頻解碼器80內(nèi)部包括背景噪聲估計(jì)器90、解碼引擎
92、參數(shù)隨機(jī)生成器94、及背景噪聲生成器96。解碼引擎92連接在輸入端82與輸出端84之間,類似,背景噪聲估計(jì)器90、背景噪聲生成器96及參數(shù)隨機(jī)生成器94連接在輸入端82與輸出端84之間。解碼器92被配置為在活動(dòng)階段期間根據(jù)數(shù)據(jù)流重建音頻信號(hào),使得如在輸出端84輸出的音頻信號(hào)98包括噪聲及適當(dāng)質(zhì)量的有用聲音。背景噪聲估計(jì)器90被配置為在活動(dòng)階段期間根據(jù)數(shù)據(jù)流連續(xù)地更新參數(shù)背景噪聲估計(jì)。為了達(dá)成該目的,背景噪聲估計(jì)器90可能不直接連接至輸入82,而是如虛線100之例示說明的經(jīng)由解碼引擎92而連接,因而從解碼引擎92獲得某種音頻信號(hào)的重建版本。原則上,背景噪聲估計(jì)器90可被配置為極為類似于背景噪聲估計(jì)器12地操作,但下述事實(shí)除外:背景噪聲估計(jì)器90只存取音頻信號(hào)之重建版本,即包括在編碼側(cè)通過量化而造成的遺漏。
[0043]參數(shù)隨機(jī)生成器94可包括一個(gè)或更多個(gè)真或假隨機(jī)數(shù)生成器,通過該生成器輸出的數(shù)值序列可符合統(tǒng)計(jì)分布,可經(jīng)由背景噪聲生成器96參數(shù)地設(shè)定該統(tǒng)計(jì)分布。
[0044]背景噪聲生成器96被配置為通過在不活動(dòng)階段88期間取決于得自背景噪聲估計(jì)器90的參數(shù)背景噪聲估計(jì)來控制參數(shù)隨機(jī)生成器94,以在不活動(dòng)階段88期間合成音頻信號(hào)98。雖然兩個(gè)實(shí)體96及94顯示為串聯(lián)連接,但串聯(lián)連接不可解譯為限制性。生成器96與94可以互連。實(shí)際上,生成器94可解譯為生成器96的一部分。
[0045]如此,圖3的音頻解碼器80的操作模式可以是如下。在活動(dòng)階段86期間,輸入端82是被連續(xù)地提供以數(shù)據(jù)流部分102,該部分102在活動(dòng)階段86期間將由解碼引擎92處理。然后,在某個(gè)時(shí)刻106,進(jìn)入輸入端82的數(shù)據(jù)流104中止專用于解碼引擎92的數(shù)據(jù)流部分102的傳輸。換言之,在時(shí)刻106不再有額外數(shù)據(jù)流部分的幀可被引擎92用于解碼。進(jìn)入不活動(dòng)階段88的信號(hào)可以是數(shù)據(jù)流部分102傳輸?shù)闹袛?,或者可以通過緊接排列在不活動(dòng)階段88起點(diǎn)的若干信息108而被傳遞。
[0046]總而言之,不活動(dòng)階段88的進(jìn)入極為突然地發(fā)生,但這不成問題,原因在于在活動(dòng)階段86期間,背景噪聲估計(jì)器90已經(jīng)基于數(shù)據(jù)流部分102而連續(xù)地更新參數(shù)背景噪聲估計(jì)。因此,一旦不活動(dòng)階段88在106開始時(shí),背景噪聲估計(jì)器90能夠?qū)Ρ尘霸肼暽善?6提供以參數(shù)背景噪聲估計(jì)的最新版本。因此,從時(shí)刻106開始,當(dāng)解碼引擎92不再被饋送以數(shù)據(jù)流部分102時(shí),解碼引擎92中止輸出任何音頻信號(hào)重建,而參數(shù)隨機(jī)生成器94是由背景噪聲生成器96依據(jù)參數(shù)背景噪聲估計(jì)加以控制的,使得在時(shí)間瞬間106之后立即可在輸出84輸出背景噪聲的仿真,因而無縫地遵循如解碼引擎92在時(shí)刻106前所輸出的重建音頻信號(hào)。交叉衰減可用來從如由引擎92輸出的活動(dòng)階段之最末重建幀轉(zhuǎn)移至如通過近更新的參數(shù)背景噪聲估計(jì)版本所確定的背景噪聲。
[0047]背景噪聲估計(jì)器90被配置為在活動(dòng)階段86期間,連續(xù)地更新來自數(shù)據(jù)流104的參數(shù)背景噪聲估計(jì),背景噪聲估計(jì)器90可被配置為區(qū)分音頻信號(hào)版本內(nèi)在活動(dòng)階段86從數(shù)據(jù)流104所重建的噪聲成分與有用信號(hào)成分,并且只從噪聲成分而不從有用信號(hào)成分確定該參數(shù)背景噪聲估計(jì)。背景噪聲估計(jì)器90執(zhí)行此項(xiàng)區(qū)分/分離的方式是對應(yīng)于如前文就背景噪聲估計(jì)器12所簡要說明的方式。舉例言之,可使用解碼引擎92內(nèi)從數(shù)據(jù)流104所內(nèi)部重建的激勵(lì)信號(hào)或殘留信號(hào)。
[0048]類似圖2,圖4顯示解碼引擎92之可能實(shí)現(xiàn)。依據(jù)圖4,解碼引擎92包括用以接收數(shù)據(jù)流部分102的輸入端110,及用以輸出在活動(dòng)階段86內(nèi)部的重建音頻信號(hào)的輸出端
112。串聯(lián)連接在其間的解碼引擎92包括解量化器114、頻域噪聲整形器(FDNS)116及反變換器118,這些構(gòu)件以其所述順序連接在輸出端110與輸出端112間。到達(dá)輸出端110的數(shù)據(jù)流部分102包括激勵(lì)信號(hào)之變換編碼版本,即表示該激勵(lì)信號(hào)的變換系數(shù)水平,該版本被饋送至解量化器的輸入端;以及關(guān)于線性預(yù)測系數(shù)的信息,該信息被饋送至頻域噪聲整形器116。解量化器114解量化激勵(lì)信號(hào)的頻譜表示型態(tài)并將其轉(zhuǎn)發(fā)至頻域噪聲整形器116,頻域噪聲整形器116轉(zhuǎn)而依據(jù)對應(yīng)于線性預(yù)測合成濾波器的傳遞函數(shù)而頻譜成形激勵(lì)信號(hào)(連同平坦量化噪聲)的頻譜圖,由此形成量化噪聲。原則上,圖4的FDNS116的作用類似于圖2的FDNS =LPC是提取自數(shù)據(jù)流,然后LPC接受頻譜加權(quán)轉(zhuǎn)換,轉(zhuǎn)換方式例如通過施加ODFT至所提取的LPC,然后施加所得頻譜加權(quán)至得自解量化器114的解量化頻譜以作為乘數(shù)。然后重新變換器118將如此得到的音頻信號(hào)重建從頻域轉(zhuǎn)換至?xí)r域,并在輸出端112輸出如此得到的重建音頻信號(hào)。重迭變換可由反變換器118諸如IMDCT使用。如虛線箭頭120例示說明的,激勵(lì)信號(hào)的頻譜圖可由背景噪聲估計(jì)器90用于參數(shù)背景噪聲更新?;蛘撸纛l信號(hào)的頻譜圖本身可如虛線箭頭122所指示地使用。
[0049]關(guān)于圖2及圖4,應(yīng)注意用以實(shí)現(xiàn)編碼/解碼引擎的這些實(shí)施例并非解譯為限制性。其它實(shí)施例也是可行的。此外,編碼/解碼引擎可以使多模式編解碼器類型,其中圖2及圖4的部件只負(fù)責(zé)編碼/解碼具有與其相關(guān)聯(lián)的特定幀編碼模式的幀,而其它幀是由未顯示于圖2及圖4的編碼引擎/解碼引擎部件負(fù)責(zé)。此種另一幀編碼模式也可以是例如使用線性預(yù)測編碼之預(yù)測編碼模式,但編碼是在時(shí)域而非使用變換編碼。
[0050]圖5顯示圖1的編碼器的更詳細(xì)實(shí)施例。具體地,依據(jù)特定實(shí)施例背景噪聲估計(jì)器12更詳細(xì)地顯示于圖5。
[0051]依據(jù)圖5,背景噪聲估計(jì)器12包括變換器140、FDNS142、LP分析模塊144、噪聲估計(jì)器146、參數(shù)估計(jì)器148、平穩(wěn)性測量器150、及量化器152。剛才述及的若干組件部分地或全部地可由編碼引擎14所共同擁有。舉例言之,變換器140與圖2的變換器50可以相同,LP分析模塊60與LP分析模塊144可以相同,F(xiàn)DNS52與FDNS142可以相同,及/或量化器54及量化器152可在一個(gè)模塊內(nèi)實(shí)現(xiàn)。
[0052]圖5也顯示比特流封裝器154,其被動(dòng)負(fù)責(zé)圖1中開關(guān)22的操作。更明確言之,例如VAD作為圖5編碼器的檢測器16,只是確定須采用哪一路徑,音頻編碼14路徑或背景噪聲估計(jì)器12路徑。更精確言之,編碼引擎14及背景噪聲估計(jì)器12皆是并聯(lián)連接在輸入端18與封裝器154之間,其中在背景噪聲估計(jì)器12內(nèi),變換器140、FDNS142、LP分析模塊
144、噪聲估計(jì)器146、參數(shù)估計(jì)器148、及量化器152并聯(lián)連接在輸入端18與封裝器154之間(以所述順序),而LP分析模塊144是單獨(dú)地連接在輸入端18與FDNS模塊142的LPC輸入與量化器152的又一輸入端之間,而平穩(wěn)性測量器150額外地連接在LP分析模塊144與量化器152的控制輸入端之間。比特流封裝器154若接收到來自連接至其輸入端的任一個(gè)實(shí)體的輸入時(shí)單純執(zhí)行封裝。
[0053]在傳輸零幀的情況下,即在不活動(dòng)階段的中斷階段期間,檢測器16通知背景噪聲估計(jì)器12,尤其是量化器152,來中止處理及不發(fā)送任何輸入給比特流封裝器154。
[0054]依據(jù)圖5,檢測器16可在時(shí)域及/或變換域/頻譜域中操作來檢測活動(dòng)階段/不活動(dòng)階段。
[0055]圖5的編碼器的操作模式如下。如將更明了的,圖5的編碼器能夠改良舒適噪聲的質(zhì)量,諸如通常為靜態(tài)噪聲,諸如汽車噪聲、許多人講話的喃喃噪聲、某些樂器、及特別富含和諧的噪聲諸如雨滴聲。
[0056]更明確言之,圖5的編碼器是要控制解碼側(cè)的隨機(jī)生成器,因而激勵(lì)變換系數(shù)使得仿真在編碼側(cè)檢測到的噪聲。據(jù)此,在討論圖5的編碼器的功能前,進(jìn)一步簡短地參考圖6,其顯示解碼器的一個(gè)可能實(shí)施例,能夠如通過圖5的編碼器指示而在解碼側(cè)仿真該舒適噪聲。更概略言之,圖6顯示匹配圖1的編碼器的解碼器的可能實(shí)現(xiàn)。
[0057]更明確言之,圖6的解碼器包括解碼引擎160,因而在活動(dòng)階段期間解碼數(shù)據(jù)流部分44,以及舒適噪聲產(chǎn)生部分162用以基于在關(guān)于不活動(dòng)階段28的數(shù)據(jù)流中提供的信息32及38產(chǎn)生舒適噪聲。舒適噪聲產(chǎn)生部分162包括參數(shù)隨機(jī)生成器164、FDNS166及反量化器(或合成器)168。模塊164至168彼此串聯(lián)連接,因而在合成器168的輸出端導(dǎo)致舒適噪聲,該舒適噪聲填補(bǔ)如關(guān)于圖1討論的,在不活動(dòng)階段28期間通過解碼引擎160輸出的重建音頻信號(hào)間的間隙。處理器FDNS166及反量化器168可以是解碼引擎160的一部分。更明確言之,例如可與圖4的FDNS116及118相同。
[0058]圖5及圖6的個(gè)別模塊的操作模式及功能根據(jù)后文討論將更為明了。
[0059]更明確言之,諸如通過使用重迭變換,變換器140將輸入信號(hào)頻譜分解頻譜圖。噪聲估計(jì)器146被配置為從頻譜圖中確定噪聲參數(shù)。同時(shí),語音或聲音活動(dòng)檢測器16評(píng)估從輸入信號(hào)得出的特征,因而檢測是否發(fā)生從活動(dòng)階段過渡至不活動(dòng)階段,或從不活動(dòng)階段過渡至活動(dòng)階段。由檢測器16利用的特征可以呈瞬時(shí)/起始檢測器、調(diào)性度量、及LPC殘留度量的形式。瞬時(shí)/起始檢測器可用來檢測干凈環(huán)境或去噪聲化信號(hào)中活動(dòng)語音的攻擊(能量的突增)或起始;調(diào)性測量可用來區(qū)別有用的背景噪聲,諸如警笛聲、電話鈴聲及音樂聲;LPC殘留可用來獲得該信號(hào)中存在有語音的指示。基于這種特征,檢測器16能粗略地給予當(dāng)前幀是否可歸類為例如語音、無聲、音樂、或噪音的信息。
[0060]雖然噪聲估計(jì)器146可負(fù)責(zé)區(qū)別頻譜圖內(nèi)的噪聲與其中的有用信號(hào)成分,諸如[R.Martin, Noise Power Spectral Density Estimation Based on Optimal Smoothingand Minimum Statistics,2001]中提出的,參數(shù)估計(jì)器148可負(fù)責(zé)統(tǒng)計(jì)上分析噪聲成分,及例如基于噪聲成分而確定各個(gè)頻譜成分的參數(shù)。
[0061]噪聲估計(jì)器146例如可被配置為搜尋頻譜圖中之局部最小值,而參數(shù)估計(jì)器148可被配置為確定在這種部分的噪聲統(tǒng)計(jì)數(shù)據(jù),假設(shè)頻譜圖中的最小值主要是由于背景噪聲而非前景聲音所促成。
[0062]作為中間注釋,強(qiáng)調(diào)的是也可通過沒有FDNS142的噪聲估計(jì)器進(jìn)行估計(jì),原因在于最小值確實(shí)也出現(xiàn)在未經(jīng)整形的頻譜中。圖5的大部分描述維持不變。
[0063]參數(shù)量化器152轉(zhuǎn)而可被配置為參數(shù)化由參數(shù)估計(jì)器148估計(jì)的參數(shù)。舉例言之,只要考慮噪聲成分,參數(shù)可描述頻譜值在輸入信號(hào)的頻譜圖內(nèi)的分布的平均幅值及第一次冪或更高次冪動(dòng)量。為了節(jié)省比特率,參數(shù)可轉(zhuǎn)發(fā)至數(shù)據(jù)流用來以比變換器140所提供的頻譜分辨率更低的頻譜分辨率而插入SID幀內(nèi)部。
[0064]平穩(wěn)性測量器150可被配置為針對噪聲信號(hào)得出平穩(wěn)性度量。參數(shù)估計(jì)器148轉(zhuǎn)而可使用該平穩(wěn)性度量,因而確定是否應(yīng)通過發(fā)送另一個(gè)SID幀諸如圖1的幀38來起始參數(shù)更新,或影響參數(shù)的估計(jì)方式。
[0065]模塊152量化由參數(shù)估計(jì)器148及LP分析模塊144計(jì)算的參數(shù),及將此參數(shù)通過信號(hào)傳遞給解碼側(cè)。更明確言之,在量化前,頻譜成分可分成多組。這種分組可依據(jù)心理聲學(xué)方面選擇,諸如依照吠聲標(biāo)度等。檢測器16通知量化器152是否需執(zhí)行量化。在無需量化的情況下,接著為零幀。
[0066]當(dāng)將描述轉(zhuǎn)移至從活動(dòng)階段切換至不活動(dòng)階段的具體情況時(shí),圖5的模塊如下述動(dòng)作。
[0067]在活動(dòng)階段期間,編碼引擎14經(jīng)由封裝器繼續(xù)將音頻信號(hào)編碼成數(shù)據(jù)流。編碼可以逐幀進(jìn)行。數(shù)據(jù)流之各個(gè)幀可表示該音頻信號(hào)的一個(gè)時(shí)間部分/時(shí)間區(qū)間。音頻編碼器14可被配置為使用LPC編碼來編碼全部幀。音頻編碼器14可被配置為如就圖2所述編碼若干幀,例如稱作TCX幀編碼模式。剩余者可使用代碼激勵(lì)線性預(yù)測(CELP)編碼諸如ACELP編碼模式編碼。換言之,數(shù)據(jù)流的部分44可包括運(yùn)用可等于或大于幀速率的某個(gè)LPC傳輸率來連續(xù)地更新LPC系數(shù)。
[0068]并行地,噪聲估計(jì)器146檢查LPC平坦化(LPC分析濾波)頻譜,因而識(shí)別TCX頻譜圖內(nèi)部由這些頻譜序列所表示的最小值kmin。當(dāng)然,這種最小值可隨時(shí)間t而改變,SPkmin(t)。雖然如此,最小值可在由FDNS142輸出的頻譜圖中形成蹤跡,如此針對在時(shí)間ti的各個(gè)接續(xù)頻譜i,最小值可分別與在先行頻譜及后續(xù)頻譜的最小值相關(guān)聯(lián)。
[0069]然后參數(shù)估計(jì)器從其中得出背景噪聲估計(jì)參數(shù),諸如針對不同頻譜成分或頻帶的居中趨勢(平均值、中數(shù)等)m及/或分散性(標(biāo)準(zhǔn)差、方差等)d。得出可涉及頻譜圖在該最小值頻譜的連續(xù)頻譜系數(shù)的統(tǒng)計(jì)分析,由此針對各個(gè)在kmin的最小值獲得m及d??蓤?zhí)行沿頻譜維度在前述頻譜最小值間的內(nèi)插,因而獲得其它預(yù)定頻譜成分或頻帶的m及d。用于居中趨勢(平均值)的得出及/或內(nèi)插及分散性(標(biāo)準(zhǔn)差、方差等)的得出的頻譜分辨率可能各異。
[0070]剛才所述參數(shù)例如是按照由FDNS142輸出的頻譜而連續(xù)地更新。
[0071 ] 一旦檢測器16檢測到進(jìn)入不活動(dòng)階段,檢測器16可據(jù)此通知編碼引擎14,使得不再有活動(dòng)幀被轉(zhuǎn)發(fā)至封裝器154。取而代之,量化器152在不活動(dòng)階段內(nèi)在第一 SID幀中輸出剛才所述的統(tǒng)計(jì)噪聲參數(shù)。SID幀可以包括或可不包括LPC的更新。若存在LPC更新,則可以部分44 (即在活動(dòng)階段期間)所使用的格式在SID幀32的數(shù)據(jù)流內(nèi)傳遞,諸如使用在LSF/LSP域中的量化,或不同地,諸如使用對應(yīng)于LPC分析濾波器或LPC合成濾波器的傳遞函數(shù)的頻譜權(quán)值,諸如在進(jìn)行活動(dòng)階段中已經(jīng)由FDNS142施加在編碼引擎14的框架內(nèi)部的頻譜權(quán)值。
[0072]在不活動(dòng)階段期間,噪聲估計(jì)器146、參數(shù)估計(jì)器148及平穩(wěn)性測量器150繼續(xù)共同協(xié)作以維持解碼側(cè)的更新跟得上背景噪聲的變化。更明確言之,測量器150檢查由LPC定義的頻譜權(quán)值,因而識(shí)別改變及通知估計(jì)器148何時(shí)SID幀須被發(fā)送給解碼器。舉例言之,每當(dāng)前述平穩(wěn)性度量指示LPC的波動(dòng)度超過某個(gè)量時(shí),測量器150可據(jù)此而啟動(dòng)估計(jì)器。附加地或替換地,估計(jì)器可經(jīng)觸發(fā)來以定期發(fā)送已更新的參數(shù)。在這種SID更新幀40之間,數(shù)據(jù)流中不發(fā)送任何信息,即“零幀”。
[0073]在解碼器側(cè),在活動(dòng)階段期間,解碼引擎160負(fù)責(zé)執(zhí)行重建音頻信號(hào)。一旦不活動(dòng)階段開始,自適應(yīng)參數(shù)隨機(jī)生成器164使用在不活動(dòng)階段期間在數(shù)據(jù)流內(nèi)部由參數(shù)量化器150發(fā)送的已解量化的隨機(jī)生成器參數(shù)來產(chǎn)生隨機(jī)頻譜成分,由此形成隨機(jī)頻譜圖,其是使用合成器168在頻譜能處理器166內(nèi)部頻譜成形的,然后執(zhí)行從頻譜域再度變換成時(shí)域。為了 FDNS166內(nèi)的頻譜成形,可使用得自最近活動(dòng)幀的最近LPC系數(shù),或可通過外推法而從其中得出欲通過FDNS166施加的頻譜加權(quán),或SID幀32本身可傳遞信息。由此方式,在不活動(dòng)階段的開始,F(xiàn)DNS166繼續(xù)依據(jù)LPC合成濾波器的傳遞函數(shù)而頻譜加權(quán)輸入頻譜,定義LPC合成濾波器的LPS是從活動(dòng)數(shù)據(jù)部分44或SID幀32得出的。然而,隨著不活動(dòng)階段的開始,欲通過FDNS166整形的頻譜為隨機(jī)產(chǎn)生的頻譜而非如同TCX幀編碼模式的變換編碼。此外,在166施加的頻譜整形只通過使用SID幀38非連續(xù)地更新的。在中斷階段36期間,可執(zhí)行內(nèi)插或衰減來從一個(gè)頻譜整形定義逐漸切換至下一個(gè)。
[0074]如圖6所示,自適應(yīng)參數(shù)隨機(jī)生成器164可額外地選擇性地使用如包含在數(shù)據(jù)流中的最末活動(dòng)階段的最近部分內(nèi),即包含在緊接在進(jìn)入不活動(dòng)階段前的數(shù)據(jù)流部分44內(nèi)的解量化變換系數(shù)。舉例言之,該使用可以是:從活動(dòng)階段內(nèi)的頻譜圖平滑地變遷成不活動(dòng)階段內(nèi)的隨機(jī)頻譜圖。
[0075]簡短地返回參考圖1及圖3,遵照圖5及圖6 (及后文解釋的圖7)的實(shí)施例,在編碼器及/或解碼器內(nèi)產(chǎn)生的參數(shù)背景噪聲估計(jì)可包括針對不同的頻譜部分諸如吠聲帶或不同頻譜成分的時(shí)間上接續(xù)頻譜值的分散性的統(tǒng)計(jì)信息。針對各個(gè)此種頻譜部分,例如統(tǒng)計(jì)信息可含有分散性度量。據(jù)此,分散性度量可以頻譜解析方式在頻譜信息中定義,即在/對于頻譜部分取樣。頻譜分辨率,即沿頻譜軸展開的分散性及居中趨勢的度量數(shù)目可在例如分散性度量與選擇性地存在的平均值或居中趨勢度量間相異。統(tǒng)計(jì)信息被包含在SID幀內(nèi)??梢陨婕罢晤l譜諸如LPC分析濾波(即LPC平坦化)頻譜,諸如整形MDCT頻譜,其允許依據(jù)統(tǒng)計(jì)頻譜合成隨機(jī)頻譜,及依據(jù)LPC合成濾波器的傳遞函數(shù)而解除其整形來合成之。在該種情況下,頻譜整形信息可存在于SID幀內(nèi),然而例如可不在第一 SID幀32中。但如后面所示,這種統(tǒng)計(jì)信息另可涉及非整形頻譜。此外,替代使用實(shí)數(shù)值頻譜表示型態(tài)諸如MDCT,可使用復(fù)數(shù)值濾波器組頻譜諸如音頻信號(hào)之QMF頻譜。舉例言之,可使用非整形形式及通過統(tǒng)計(jì)信息統(tǒng)計(jì)地描述的音頻信號(hào)的QMF頻譜,在該種情況下,除非包含在統(tǒng)計(jì)信息本身中,否則無頻譜整形。
[0076]類似于圖3的實(shí)施例相對于圖1的實(shí)施例間之關(guān)系,圖7顯示圖3的解碼器的可能實(shí)現(xiàn)。如使用圖5的相同附圖標(biāo)記顯示,圖7的解碼器可包括噪聲估計(jì)器146、參數(shù)估計(jì)器148及平穩(wěn)性測量器150,其操作類似圖5的相同組件,但圖7的噪聲估計(jì)器146是對諸如圖4的120或122經(jīng)傳輸?shù)那医?jīng)解量化的頻譜圖操作。然后噪聲估計(jì)器146的操作類似圖5中所討論的。同理適用于參數(shù)估計(jì)器148,其對能量值及頻譜值或LPC數(shù)據(jù)進(jìn)行操作,該能量值及頻譜值或LPC數(shù)據(jù)揭示活動(dòng)階段期間如經(jīng)由/從數(shù)據(jù)流經(jīng)傳輸?shù)那医?jīng)解量化的LPC分析濾波器的(或LPC合成濾波器的)頻譜的時(shí)間展頻。
[0077]雖然組件146、148及150是作為圖3的背景噪聲估計(jì)器90,但圖7的解碼器也包括自適應(yīng)參數(shù)隨機(jī)生成器164及FDNS166及逆轉(zhuǎn)換器168,并且它們類似于圖6中彼此串聯(lián)連接,因而在合成器168的輸出端輸出舒適噪聲。模塊164、166及168作為圖3的背景噪聲生成器96,模塊164負(fù)責(zé)參數(shù)隨機(jī)生成器94的功能。自適應(yīng)參數(shù)隨機(jī)生成器94或164依據(jù)由參數(shù)估計(jì)器148確定的參數(shù)而隨機(jī)地產(chǎn)生頻譜圖的頻譜成分,該頻譜成分又轉(zhuǎn)而使用由平穩(wěn)性測量器150輸出的平穩(wěn)性度量而被觸發(fā)。然后處理器166頻譜整形如此產(chǎn)生的頻譜圖,逆轉(zhuǎn)換器168然后執(zhí)行從頻譜域至?xí)r域的轉(zhuǎn)換。注意,在不活動(dòng)階段88期間,解碼器接收信息108,背景噪聲估計(jì)器90執(zhí)行噪聲估計(jì)的更新,接著是某種內(nèi)插手段。否則,若接收到零幀,則將單純只進(jìn)行處理,諸如內(nèi)插及/或衰減。
[0078]總結(jié)圖5至圖7,這些實(shí)施例顯示技術(shù)上可施加經(jīng)控制的隨機(jī)生成器164來激勵(lì)TCX系數(shù),其可以是實(shí)數(shù)諸如在MDCT中、或復(fù)數(shù)諸如在FFT中。也可有利地將隨機(jī)生成器164施加至通常經(jīng)由濾波器組而達(dá)成的多組系數(shù)。
[0079]隨機(jī)生成器164優(yōu)選地經(jīng)控制使得盡可能接近噪聲類型地模型化。若目標(biāo)噪聲事前已知,則這可以達(dá)成。有些應(yīng)用許可此點(diǎn)。在許多實(shí)際應(yīng)用中,主體可能遭遇不同型噪音,要求自適應(yīng)方法,如第5至7圖所示。據(jù)此使用自適應(yīng)參數(shù)隨機(jī)生成器164,其可簡要定義為g=f(x),其中x=(xl,x2,…)為分別由參數(shù)估計(jì)器146及150提供的隨機(jī)生成器參數(shù)集
八
口 ο
[0080]為了讓參數(shù)隨機(jī)生成器變成自適應(yīng),隨機(jī)生成器參數(shù)估計(jì)器146適當(dāng)控制隨機(jī)生成器??砂ㄆ蒲a(bǔ)償來補(bǔ)償數(shù)據(jù)被視為統(tǒng)計(jì)上不足的情況。做到這一點(diǎn)以基于過去幀產(chǎn)生統(tǒng)計(jì)上匹配的噪聲模型,將經(jīng)常性地更新估計(jì)參數(shù)。給出一個(gè)示例,其中隨機(jī)生成器164被提出以產(chǎn)生高斯噪聲。在此種情況下,例如,只需平均及方差參數(shù),并且可計(jì)算偏移值并施加至這些參數(shù)。更高級(jí)的方法可處理任意類型的噪聲或分布,且參數(shù)并非一定為分布力矩。
[0081]針對非穩(wěn)態(tài)噪聲,需要平穩(wěn)性測量,而可使用較非自適應(yīng)參數(shù)隨機(jī)生成器。通過測量器148確定的平穩(wěn)性度量可使用多種方法從輸入信號(hào)的頻譜形狀得出,例如板倉(Itakura)距離測量、庫李(Kullback-Leibler)距離測量等。
[0082]為了處理通過SID幀發(fā)送的、諸如圖1中以38例示說明的噪聲更新的非連續(xù)本質(zhì),通常發(fā)送額外信息,諸如噪聲的能量及頻譜形狀。此信息可用來在解碼器產(chǎn)生具有平滑轉(zhuǎn)變的噪聲,即便在不活動(dòng)階段內(nèi)的不連續(xù)期間亦如此。最后,各項(xiàng)平滑或?yàn)V波技術(shù)可被應(yīng)用來協(xié)助改善舒適噪聲仿真器的質(zhì)量。
[0083]如前文已述,一方面圖5及圖6另一方面圖7屬不同情況。在對應(yīng)于圖5及圖6的情況中,參數(shù)背景噪聲估計(jì)是在編碼器中基于已處理輸入信號(hào)進(jìn)行的,而后來參數(shù)被傳輸給編碼器。圖7對應(yīng)于另一種情況,其中解碼器可基于活動(dòng)階段內(nèi)的過去接收幀而處理參數(shù)背景噪聲估計(jì)。使用語音/信號(hào)活動(dòng)檢測器或噪聲估計(jì)器事有利于提取噪聲成分,即便在例如活動(dòng)語音期間亦如此。
[0084]在圖5至圖7所示的情況中,以圖7的情況為佳,原因在于此種情況導(dǎo)致傳輸較低比特率。但第5及6圖的情況具有更準(zhǔn)確的可用噪聲估計(jì)的優(yōu)點(diǎn)。
[0085]以上全部實(shí)施例可與帶寬擴(kuò)展技術(shù)結(jié)合,諸如頻帶復(fù)制(SBR),但一般可用帶寬擴(kuò)展。
[0086]為了例示說明此點(diǎn),參考圖8。通過圖8示出的模塊,圖1及圖5的編碼器可被擴(kuò)展以關(guān)于輸入信號(hào)的較高頻部分執(zhí)行參數(shù)編碼。更明確言之,依據(jù)圖8,時(shí)域輸入音頻信號(hào)通過分析濾波器組200諸如圖8所示的QMF分析濾波器組進(jìn)行頻譜分解。然后前述圖1及圖5的實(shí)施例只施加至通過濾波器組200產(chǎn)生的頻譜分解的較低頻部分。為了傳遞較高頻部分的信息給解碼器端,也使用參數(shù)編碼。為了達(dá)成此目的,常規(guī)頻帶復(fù)制編碼器202被配置為在活動(dòng)階段期間參數(shù)化較高頻部分,及在數(shù)據(jù)流內(nèi)部以頻帶復(fù)制信息形式饋送關(guān)于較高頻部分的信息給解碼端。開關(guān)204可設(shè)在QMF濾波器組200的輸出端與頻帶復(fù)制編碼器202的輸入端之間來連接濾波器組200之輸出端與并聯(lián)連接至編碼器202的頻帶復(fù)制編碼器206的輸入端,因而負(fù)責(zé)在不活動(dòng)階段期間的帶寬擴(kuò)展。換言之,開關(guān)204可類似圖1的開關(guān)22地被控制。如后面詳述的,頻帶復(fù)制編碼器模塊206可被配置為類似于頻帶復(fù)制編碼器202地操作:二者可被配置為參數(shù)化較高頻部分內(nèi)的輸入音頻信號(hào)的頻譜包絡(luò),即剩余較高頻部分不接受例如編碼引擎的核心編碼。但頻帶復(fù)制編碼器模塊206可使用最低時(shí)間/頻率分辨率,頻譜包絡(luò)在數(shù)據(jù)流內(nèi)被參數(shù)化及傳遞,而頻帶復(fù)制編碼器202可被配置為調(diào)整時(shí)間/頻率分辨率以適應(yīng)輸入音頻信號(hào),諸如取決于音頻信號(hào)內(nèi)的變遷的發(fā)生。
[0087]圖9顯示頻帶復(fù)制編碼器模塊206的可能實(shí)現(xiàn)。時(shí)間/頻率網(wǎng)格設(shè)定器208、能量計(jì)算器210、及能量編碼器212在編碼模塊206的輸入端與輸出端之間串聯(lián)連接。時(shí)間/頻率網(wǎng)格設(shè)定器208可被配置為設(shè)定時(shí)間/頻率分辨率,以該分辨率確定較高頻部分的包絡(luò)。舉例言之,最小容許時(shí)間/頻率分辨率被編碼模塊206連續(xù)使用。然后能量計(jì)算器210確定在對應(yīng)于時(shí)間/頻率分辨率的時(shí)間/頻率平鋪的較高頻部分內(nèi)通過濾波器組200輸出的頻譜圖的較高頻部分的能量,在不活動(dòng)階段期間,諸如SID幀內(nèi)的諸如SID幀38,能量編碼器212可使用例如熵編碼來將計(jì)算器210所計(jì)算的能量插入數(shù)據(jù)流40 (參考圖1)。
[0088]應(yīng)注意依據(jù)圖8及圖9的實(shí)施例所產(chǎn)生的帶寬擴(kuò)展信息也可用來根據(jù)前述任意實(shí)施例(諸如圖3、圖4及圖7)結(jié)合解碼器使用。
[0089]如此,圖8及圖9清楚顯示關(guān)于圖1至圖7說明的舒適噪聲產(chǎn)生也可結(jié)合頻帶復(fù)制使用。舉例言之,前述音頻編碼器及音頻解碼器可以不同操作模式操作,其中有些操作模式包括頻帶復(fù)制,有些則不包括。超寬帶操作模式例如可涉及頻帶復(fù)制??偠灾?,以關(guān)于圖8及圖9描述的方式,前述圖1至圖7的實(shí)施例顯示舒適噪聲的產(chǎn)生示例可結(jié)合帶寬擴(kuò)展技術(shù)。負(fù)責(zé)在不活動(dòng)階段期間的帶寬擴(kuò)展的頻帶復(fù)制編碼器模塊206可被配置為基于極低時(shí)間及頻率分辨率操作。與常規(guī)頻帶復(fù)制處理相比,編碼器206可在不同頻率分辨率下操作,其需要額外的頻帶表(該頻帶表具有極低頻率分辨率)以及解碼器內(nèi)的針對每個(gè)舒適噪聲產(chǎn)生標(biāo)度因子(該標(biāo)度因子內(nèi)插不活動(dòng)階段期間施加于包絡(luò)調(diào)整器的能量標(biāo)度因子)的IIR平順化濾波器。如剛才所述,時(shí)間/頻率網(wǎng)格可被配置為對應(yīng)于最低可能時(shí)間分辨率。
[0090]換言之,帶寬擴(kuò)展編碼可取決于存在無聲階段或活動(dòng)階段而在QMF域或頻譜域不同地執(zhí)行。在活動(dòng)階段中即在活動(dòng)幀期間,通過編碼器202進(jìn)行常規(guī)SBR編碼,導(dǎo)致正常SBR數(shù)據(jù)流分別地伴隨數(shù)據(jù)流44及102。在不活動(dòng)階段中或在歸類為SID幀的幀期間,只有表示為能量標(biāo)度因子的有關(guān)頻譜包絡(luò)信息可通過施加時(shí)間/頻率網(wǎng)格提取,其具有極低頻率分辨率,及例如最低可能時(shí)間分辨率。所得到的標(biāo)度因子可通過編碼器212有效編碼及寫入至數(shù)據(jù)流。在于零幀中或在中斷階段36期間,并無任何側(cè)附屬信息可通過頻帶復(fù)制編碼器模塊206寫入至該數(shù)據(jù)流,因此并無能量計(jì)算可通過計(jì)算器210進(jìn)行。
[0091]遵照圖8,圖10顯示圖3及圖7的解碼器實(shí)施例可能擴(kuò)展至帶寬擴(kuò)展編碼技術(shù)。更精確言之,圖10顯示依據(jù)本申請的音頻解碼器可能的實(shí)施例。核心解碼器92并聯(lián)連接至舒適噪聲生成器,舒適噪聲生成器以附圖標(biāo)記220表示,及包括例如舒適噪聲產(chǎn)生模塊162或圖3的模塊90、94及96。開關(guān)222是顯示為取決于幀類型,即該幀有關(guān)于或?qū)儆诨顒?dòng)階段,或有關(guān)于或?qū)儆诓换顒?dòng)階段,諸如關(guān)于中斷階段的SID幀或零幀,分配數(shù)據(jù)流104及30內(nèi)的幀至核心解碼器92或舒適噪聲生成器220。核心解碼器92及舒適噪聲生成器220的輸出端連接至帶寬擴(kuò)展解碼器224的輸入端,其輸出端提供重建的音頻信號(hào)。
[0092]圖11顯示帶寬擴(kuò)展解碼器224的可能實(shí)現(xiàn)的進(jìn)一步細(xì)節(jié)實(shí)施例。
[0093]如圖11所示,依據(jù)圖11實(shí)施例的帶寬擴(kuò)展解碼器224包括輸入端226,輸入端226用以接收欲重建的完整音頻信號(hào)的較低頻部分的時(shí)域重建。輸入端226連接帶寬擴(kuò)展解碼器224與核心解碼器92及舒適噪聲生成器220的輸出端,使得輸入端226處的時(shí)域輸入可以是包括噪聲及有用成分二者的音頻信號(hào)的已重建較低頻部分或用以橋接活動(dòng)階段間的時(shí)間的舒適噪聲。
[0094]因依據(jù)圖11的實(shí)施例,帶寬擴(kuò)展解碼器224被構(gòu)建為執(zhí)行頻譜帶寬復(fù)制,解碼器224在后文中稱作SBR解碼器。但關(guān)于圖8至圖10,強(qiáng)調(diào)這種實(shí)施例并非限于頻譜帶寬復(fù)制。而更為一般性的帶寬擴(kuò)展的替代方式也可關(guān)于這種實(shí)施例而被使用。
[0095]此外,圖11的SBR解碼器224包括時(shí)域輸出端228,用以輸出最終重建音頻信號(hào),即在活動(dòng)階段或不活動(dòng)階段中。在輸入端226與輸出端228之間,SBR解碼器224包括以所述順序串聯(lián)連接的頻譜分解器230(如圖11所示可以是分析濾波器組諸如QMF分析濾波器組)、HF生成器232、包絡(luò)調(diào)整器234及頻譜至?xí)r域轉(zhuǎn)換器236 (如圖11所示,可實(shí)現(xiàn)為合成濾波器組,諸如QMF合成濾波器組)。
[0096]模塊230至236操作如下。頻譜分解器230頻譜分解時(shí)域輸入信號(hào),因而獲得重建較低頻部分。HF生成器232基于重建較低頻部分而產(chǎn)生高頻復(fù)制部,而包絡(luò)調(diào)整器234利用經(jīng)由SBR數(shù)據(jù)流部傳遞的、及通過前文尚未討論但于圖11顯示在包絡(luò)調(diào)整器234上方的模塊提供的較高頻部分的頻譜包絡(luò)表示型態(tài),來頻譜成形或整形高頻復(fù)制部分。如此,包絡(luò)調(diào)整器234依據(jù)所傳輸?shù)母哳l包絡(luò)的時(shí)間/頻率網(wǎng)格表示型態(tài)調(diào)整高頻復(fù)制部分的包絡(luò),及轉(zhuǎn)發(fā)如此所得較高頻部分給頻譜至?xí)r域轉(zhuǎn)換器236,用以將整個(gè)頻譜即頻譜成形較高頻部分連同重建較低頻部分變換成輸出端228處的重建時(shí)域信號(hào)。
[0097]如前文就圖8至圖10已述,較高頻部分頻譜包絡(luò)可以能量標(biāo)度因子形式在數(shù)據(jù)流內(nèi)部傳遞,SBR解碼器224包括輸入端238來接收較高頻部分頻譜包絡(luò)上的此種信息。如圖11所示,以活動(dòng)階段為例,即在活動(dòng)階段期間存在于數(shù)據(jù)流的活動(dòng)幀,輸入238可經(jīng)由個(gè)別開關(guān)240直接連接至包絡(luò)調(diào)整器234的頻譜包絡(luò)輸入。但SBR解碼器224額外地包括標(biāo)度因子組合器242、標(biāo)度因子數(shù)據(jù)儲(chǔ)存模塊244、內(nèi)插濾波單元246諸如IIR濾波單元,及增益調(diào)整器248。模塊242、244、246及248在輸入端238與包絡(luò)調(diào)整器234的頻譜包絡(luò)輸入間彼此串聯(lián)連接,開關(guān)240連接在增益調(diào)整器248與包絡(luò)調(diào)整器234之間,而開關(guān)250連接在標(biāo)度因子數(shù)據(jù)儲(chǔ)存模塊244與濾波單元246之間。開關(guān)250被配置為連接此標(biāo)度因子數(shù)據(jù)儲(chǔ)存模塊244與濾波單元246的輸入端,或連接標(biāo)度因子數(shù)據(jù)恢復(fù)器252。在不活動(dòng)階段期間的SID幀的情況下,以及選擇性地在活動(dòng)幀之情況下,較高頻部分頻譜包絡(luò)的極為粗糙表示型態(tài)為可接受的情況下,開關(guān)250及240將輸入端238連接至包絡(luò)調(diào)整器234間的模塊序列242至248。標(biāo)度因子組合器242將較高頻部分頻譜包絡(luò)已經(jīng)經(jīng)由數(shù)據(jù)流傳輸?shù)念l率分辨率調(diào)整為包絡(luò)調(diào)整器234預(yù)期接收的分辨率,而標(biāo)度因子數(shù)據(jù)儲(chǔ)存模塊244儲(chǔ)存所得頻譜包絡(luò)直到下次更新。濾波單元246在時(shí)間及/或頻譜維度濾波該頻譜包絡(luò),而增益調(diào)整器248適配較高頻部分的頻譜包絡(luò)之增益。為了達(dá)成該目的,增益調(diào)整器可組合通過單元246獲得的包絡(luò)數(shù)據(jù)與從QMF濾波器組輸出導(dǎo)出的實(shí)際包絡(luò)。標(biāo)度因子數(shù)據(jù)恢復(fù)器252再現(xiàn)通過標(biāo)度因子數(shù)據(jù)儲(chǔ)存模塊244儲(chǔ)存的表示在中斷階段或零幀內(nèi)的頻譜包絡(luò)的標(biāo)度因子數(shù)據(jù)。
[0098]如此,在解碼器端可進(jìn)行下列處理。在活動(dòng)幀內(nèi)或在活動(dòng)階段期間,可施加常規(guī)頻帶復(fù)制處理。在這種活動(dòng)時(shí)段期間,得自數(shù)據(jù)流的標(biāo)度因子(其通常相比于舒適噪聲產(chǎn)生處理可用在更高數(shù)目的標(biāo)度因子頻帶)通過標(biāo)度因子組合器242而變換成舒適噪聲產(chǎn)生頻率分辨率。標(biāo)度因子組合器組合針對較高頻率分辨率的標(biāo)度因子來獲得多個(gè)標(biāo)度因子,通過檢查不同頻帶表的共享頻帶邊界而符合舒適噪聲產(chǎn)生(CNG)。標(biāo)度因子組合單元242的輸出端處的所得標(biāo)度因子值被儲(chǔ)存以供零幀再度使用,及后來通過恢復(fù)器252再現(xiàn),及隨后用在更新用于CNG操作模式的濾波單元246。在SID幀中,施加已修改的SBR數(shù)據(jù)流讀取器,其從數(shù)據(jù)流提取標(biāo)度因子信息。SBR處理的其余配置以預(yù)定值初始化,時(shí)間/頻率網(wǎng)格經(jīng)初始化為編碼器內(nèi)使用的相同時(shí)間/頻率分辨率。所提取的標(biāo)度因子被饋送至濾波單元246,在該處,例如一個(gè)IIR平順濾波器內(nèi)插一個(gè)低分辨率標(biāo)度因子帶隨時(shí)間的能量進(jìn)展。在零幀的情況下,未從比特流讀取有效負(fù)載,含時(shí)間/頻率網(wǎng)格的SBR配置與SID幀使用者相同。在零幀中,濾波單元246中的平滑濾波器被饋送以從標(biāo)度因子組合單元242輸出的標(biāo)度因子值,該標(biāo)度因子值已經(jīng)儲(chǔ)存在含有效標(biāo)度因子信息的最末幀。在當(dāng)前幀被歸類為不活動(dòng)幀或SID幀的情況下,舒適噪聲在TCX域產(chǎn)生,并變換回時(shí)域。隨后,含舒適噪聲的時(shí)域信號(hào)被饋送進(jìn)SBR模塊224的QMF分析濾波器組230。在QMF域中,舒適噪聲的帶寬擴(kuò)展是利用HF生成器232內(nèi)部的拷貝轉(zhuǎn)位進(jìn)行的,最后,人工產(chǎn)生的較高頻部分的頻譜包絡(luò)通過將能量標(biāo)度因子信息施加于包絡(luò)調(diào)整器234而調(diào)整。這種能量標(biāo)度因子通過濾波單元246的輸出而獲得,并在施用于包絡(luò)調(diào)整器234前通過增益調(diào)整單元248定標(biāo)。在此增益調(diào)整單元248中,用以定標(biāo)標(biāo)度因子的增益值被計(jì)算及施加來補(bǔ)償該信號(hào)的較低頻部分與較高頻部分間邊界的巨大能量差。
[0099]前述實(shí)施例常用在圖12及圖13的實(shí)施例。圖12顯示依據(jù)本案的實(shí)施例音頻編碼器的實(shí)施例,而圖13顯示音頻解碼器的實(shí)施例。有關(guān)這種圖式揭示的細(xì)節(jié)應(yīng)分別同等適用于前述組件。[0100]圖12的音頻編碼器包括用以頻譜分解輸入音頻信號(hào)的QMF分析濾波器組200。檢測器270及噪聲估計(jì)器262連接至QMF分析濾波器組200的輸出端。噪聲估計(jì)器262負(fù)責(zé)背景噪聲估計(jì)器12的功能。在活動(dòng)階段期間,得自QMF分析濾波器組的QMF頻譜是通過頻帶復(fù)制參數(shù)估計(jì)器260的并聯(lián)處理,接著一方面為某個(gè)SBR編碼器264,另一方面為QMF合成濾波器組272接著核心編碼器14的級(jí)聯(lián)。二并聯(lián)路徑連接至比特流封裝器266的相應(yīng)輸入。在輸出SID幀的情況下,SID幀編碼器274從噪聲估計(jì)器262接收數(shù)據(jù),并將SID幀輸出給比特流封裝器266。
[0101]由估計(jì)器260輸出的頻譜帶寬擴(kuò)展數(shù)據(jù)描述頻譜圖的較高頻部分的頻譜包絡(luò)或由QMF分析濾波器組200輸出的頻譜,然后通過SBR編碼器264編碼,諸如通過熵編碼而編碼。數(shù)據(jù)流多路復(fù)用器266將活動(dòng)階段的頻譜帶寬擴(kuò)展數(shù)據(jù)插入在多路復(fù)用器266的輸出端268的數(shù)據(jù)流輸出內(nèi)。
[0102]檢測器270檢測目前是活動(dòng)階段還是不活動(dòng)階段?;诖藱z測,目前將輸出活動(dòng)幀、SID幀或零幀即不活動(dòng)幀。換言之,模塊270確定是活動(dòng)階段還是不活動(dòng)階段,及若是不活動(dòng)階段,則確定是否將輸出SID幀。該確定指示于圖12,I表示零幀,A表示活動(dòng)幀,而S表示SID幀。對應(yīng)于存在活動(dòng)階段的輸入信號(hào)的時(shí)間區(qū)間的幀也轉(zhuǎn)發(fā)給QMF合成濾波器組272與核心編碼器14的級(jí)聯(lián)。與QMF分析濾波器組200相比,QMF合成濾波器組272具有較低頻率分辨率,或在較低數(shù)目QMF子帶操作,從而在將輸入信號(hào)的活動(dòng)幀部分再度轉(zhuǎn)移至?xí)r域時(shí),通過子帶數(shù)目比達(dá)成相應(yīng)縮減取樣率。更明確言之,QMF合成濾波器組272被施加至活動(dòng)幀內(nèi)的QMF分析濾波器組頻譜圖的較低頻部分或低頻子帶。如此核心編碼器14接收輸入信號(hào)的縮減取樣版本,如此只涵蓋輸入QMF分析濾波器組200的原始輸入信號(hào)的較低頻部分。其余較高頻部分通過模塊260及264參數(shù)編碼。
[0103]SID幀(或更精確言之,欲通過SID幀傳遞的信息)被轉(zhuǎn)發(fā)至SID編碼器274,其例如負(fù)責(zé)圖5的模塊152的功能。唯一差異:模塊262直接對輸入信號(hào)頻譜操作,未經(jīng)LPC整形。此外,因使用QMF分析濾波,模塊262的操作與通過核心編碼器所選幀模式或頻譜帶寬擴(kuò)展選項(xiàng)的施加與否無關(guān)。圖5的模塊148及150的功能可在模塊274內(nèi)實(shí)現(xiàn)。
[0104]多路復(fù)用器266在輸出端268將相應(yīng)編碼信息復(fù)用為數(shù)據(jù)流。
[0105]圖13的音頻解碼器能對如圖12的編碼器所輸出的數(shù)據(jù)流進(jìn)行操作。換言之,模塊280被配置為接收數(shù)據(jù)流,及將數(shù)據(jù)流內(nèi)的幀分類成例如活動(dòng)幀、SID幀及零幀(即數(shù)據(jù)流不含任何幀)。活動(dòng)幀被轉(zhuǎn)發(fā)至核心解碼器92、QMF分析濾波器組282及頻譜帶寬擴(kuò)展模塊284的級(jí)聯(lián)。選擇性地,噪聲估計(jì)器286連接至QMF分析濾波器組的輸出端。噪聲估計(jì)器286的操作類似于例如圖3的背景噪聲估計(jì)器90且負(fù)責(zé)背景噪聲估計(jì)器90的功能,但噪聲估計(jì)器對未經(jīng)整形的頻譜而非激勵(lì)頻譜進(jìn)行操作。模塊92、282及284的級(jí)聯(lián)連接至QMF合成濾波器組288的輸入端。SID幀被轉(zhuǎn)發(fā)至SID幀解碼器290,其例如負(fù)責(zé)圖3的背景噪聲生成器96的功能。舒適噪聲產(chǎn)生參數(shù)更新器292被饋送以來自解碼器290及噪聲估計(jì)器286的信息,更新器292控制隨機(jī)生成器294,隨機(jī)生成器294負(fù)責(zé)圖3的參數(shù)隨機(jī)生成器功能。因遺漏不活動(dòng)幀或零幀,故無需轉(zhuǎn)發(fā)至任何處所,但它們觸發(fā)隨機(jī)生成器294的另一隨機(jī)產(chǎn)生循環(huán)。隨機(jī)生成器294的輸出端連接至QMF合成濾波器組288,其輸出端提供無聲的重建音頻信號(hào)及時(shí)域的活動(dòng)階段。
[0106]如此,在活動(dòng)階段期間,核心解碼器92重建音頻信號(hào)的較低頻部分,包括噪聲成分及有用信號(hào)二者。QMF分析濾波器組282頻譜分解重建信號(hào),頻譜帶寬擴(kuò)展模塊284分別使用數(shù)據(jù)流及活動(dòng)幀內(nèi)的頻譜帶寬擴(kuò)展信息來加上較高頻部分。噪聲估計(jì)器286若存在時(shí)基于如通過核心解碼器重建的頻譜部即較低頻部分執(zhí)行噪聲估計(jì)。在不活動(dòng)階段中,SID幀傳遞信息,該信息描述在編碼器側(cè)由噪聲估計(jì)器262得出的背景噪聲估計(jì)。參數(shù)更新器292主要使用編碼器信息來更新其參數(shù)背景噪聲估計(jì),在關(guān)于SID幀的傳輸損耗的情況下,使用由噪聲估計(jì)器286所提供的信息主要是作為備選。QMF合成濾波器組288變換在活動(dòng)階段由頻譜帶寬擴(kuò)展模塊284輸出的頻譜分解信號(hào)及時(shí)域中的舒適噪聲產(chǎn)生信號(hào)頻譜。如此,圖12及圖13清楚顯示QMF濾波器組框架可用作基于QMF的舒適噪聲產(chǎn)生的基礎(chǔ)。QMF框架提供方便方式來在編碼器中將輸入信號(hào)向下重新取樣至核心編碼器的取樣率,或運(yùn)用QMF合成濾波器組288在解碼器端向上取樣核心解碼器92的核心解碼器輸出信號(hào)。同時(shí),QMF框架也可組合帶寬擴(kuò)展來提取及處理由核心編碼器14及核心解碼器92 二模塊所留下的信號(hào)的頻率成分。據(jù)此,QMF濾波器組可對各種信號(hào)處理工具提供共享框架。依據(jù)圖12及圖13的實(shí)施例,舒適噪聲產(chǎn)生被成功地包括于此框架內(nèi)。
[0107]具體地,依據(jù)圖12及圖13的實(shí)施例,可知在QMF分析后可能在解碼器端產(chǎn)生舒適噪聲,但在QMF分析前,通過施用隨機(jī)生成器294來激勵(lì)例如QMF合成濾波器組288的各個(gè)QMF系數(shù)的實(shí)數(shù)部分及虛數(shù)部分。隨機(jī)序列的幅值例如在各個(gè)QMF帶中被計(jì)算,使得產(chǎn)生舒適噪聲的頻譜類似實(shí)際輸入背景噪聲信號(hào)的頻譜。此點(diǎn)可在編碼端在QMF分析后使用噪聲估計(jì)器而在各個(gè)QMF帶達(dá)成。然后這些參數(shù)可經(jīng)由SID幀傳輸,來在解碼器側(cè)更新在各個(gè)QMF帶施加的隨機(jī)序列的幅值。
[0108]理想地,注意,施加于編碼器側(cè)的噪聲估計(jì)器262應(yīng)可在不活動(dòng)(即只有噪音)及活動(dòng)時(shí)段(典型地含有嘈雜語音)二者期間操作,使得在各個(gè)活動(dòng)時(shí)段結(jié)束后即刻更新舒適噪聲參數(shù)。此外,噪聲估計(jì)也可用在解碼器側(cè)。因在基于DTX的編碼/解碼系統(tǒng)中拋棄只有噪音的幀,在解碼器側(cè)的噪聲估計(jì)有利地能夠?qū)︵须s語音內(nèi)容操作。除了編碼器側(cè)之外,在解碼器側(cè)執(zhí)行噪聲估計(jì)的優(yōu)點(diǎn)是可更新舒適噪聲的頻譜形狀,即便在一段活動(dòng)時(shí)段后第一個(gè)SID幀從編碼器至解碼器的分組傳輸失敗的情況下也是如此。
[0109]噪聲估計(jì)須能準(zhǔn)確且快速地遵循背景噪聲的頻譜內(nèi)容變化,如前所述,理想地,應(yīng)能夠在活動(dòng)巾貞及不活動(dòng)巾貞二者期間執(zhí)行。達(dá)成此項(xiàng)目的的一個(gè)方式是如[R.Martin,Noise Power Spectral Density Estimation Based on Optimal Smoothing and MinimumStatistics, 2001]所提出的,使用有限長度的滑動(dòng)窗追蹤功率頻譜在各帶取的最小值。其背后的構(gòu)思是嘈雜語音頻譜的功率經(jīng)常衰減至背景噪聲的功率,例如在各字間或在各音節(jié)間。追蹤功率頻譜的最小值因而提供各頻帶中固有噪聲水平的估計(jì),即便于語音活動(dòng)期間亦如此。但通常這種固有噪聲水平被低估。此外,其不允許捕捉頻譜功率的快速起伏,尤其是能量突增。
[0110]盡管如此,在各頻帶中如前述計(jì)算的固有噪聲水平提供極為有用的輔助信息來應(yīng)用噪聲估計(jì)的第二階段。實(shí)際上,發(fā)明人可預(yù)期噪聲頻譜的功率接近在不活動(dòng)期間估計(jì)的固有噪聲水平,而頻譜功率將遠(yuǎn)高于活動(dòng)期間的固有噪聲水平。因此在各頻帶單獨(dú)計(jì)算的固有噪聲水平可用作各頻帶的粗略活動(dòng)檢測器?;诖酥R(shí),容易如下地將背景噪聲功率估計(jì)為功率頻譜的遞歸平滑版本:
[0111]O N2 (m, k) = β (m, k).σ N2 (m_l, k) + (1-β (m, k).σ x2 (m, k),[0112]其中,σ x2 (m, k)表示在幀m及頻帶k的功率頻譜密度,σ N2 (m, k)表示噪聲功率估計(jì),而β (m,k)為忘記因子(需在O和I之間)單獨(dú)控制各頻帶及各幀的平滑因子。使用固有噪聲水平信息來反映活動(dòng)狀態(tài),在不活動(dòng)時(shí)段期間應(yīng)取小值(即此時(shí)功率頻譜接近固有噪聲水平),而在活動(dòng)幀期間,應(yīng)選擇高值來施加更多平滑(理想地,保持oN2(m,k)恒定)。為了達(dá)成此目的,通過如下計(jì)算忘記因子可做出軟決策:
[0113]
【權(quán)利要求】
1.一種音頻編碼器,包括: 背景噪聲估計(jì)器(12),被配置為在活動(dòng)階段(24)期間,基于輸入音頻信號(hào)來連續(xù)地更新參數(shù)背景噪聲估計(jì); 編碼器(14),用于在該活動(dòng)階段期間將所述輸入音頻信號(hào)編碼成數(shù)據(jù)流;以及 檢測器(16),被配置為基于所述輸入音頻信號(hào)來檢測在所述活動(dòng)階段(24)后進(jìn)入不活動(dòng)階段(28), 其中所述音頻編碼器被配置為:當(dāng)檢測到進(jìn)入所述不活動(dòng)階段時(shí),將所檢測到的不活動(dòng)階段跟隨的所述活動(dòng)階段期間連續(xù)地更新的所述參數(shù)背景噪聲估計(jì)編碼到所述數(shù)據(jù)流。
2.如權(quán)利要求1所述的音頻編碼器,其中所述背景噪聲估計(jì)器(12)被配置為:在連續(xù)地更新所述參數(shù)背景噪聲估計(jì)的過程中,區(qū)分所述輸入音頻信號(hào)內(nèi)的噪聲成分及有用信號(hào)成分,并且只根據(jù)所述噪聲成分來確定所述參數(shù)背景噪聲估計(jì)。
3.如權(quán)利要求1或2所述的音頻編碼器,其中所述編碼器(14)被配置為:在編碼所述輸入音頻信號(hào)的過程中,將所述輸入音頻信號(hào)預(yù)測地編碼成線性預(yù)測系數(shù)及激勵(lì)信號(hào),并且變換編碼所述激勵(lì)信號(hào),并且將所述線性預(yù)測系數(shù)編碼成所述數(shù)據(jù)流(30)。
4.如權(quán)利要求3所述的音頻編碼器,其中所述背景噪聲估計(jì)器(12)被配置為:在所述活動(dòng)階段期間使用所述激勵(lì)信號(hào)來更新所述參數(shù)背景噪聲估計(jì)。
5.如權(quán)利要求3或4所述的音頻編碼器,其中所述背景噪聲估計(jì)器被配置為:在更新所述參數(shù)背景噪聲估計(jì)的過程中,識(shí)別所述激勵(lì)信號(hào)中的局部最小值,并且執(zhí)行所述局部最小值處的所述激勵(lì)信號(hào)的統(tǒng)計(jì)分析,以得出所述參數(shù)背景噪聲估計(jì)。
6.如前述權(quán)利要求中任一項(xiàng)所述的音頻編碼器,其中所述編碼器被配置為:在編碼所述輸入信號(hào)的過程中,使用預(yù)測編碼和/或變換編碼來編碼所述輸入音頻信號(hào)的較低頻部分,以及使用參數(shù)編碼來編碼所述輸入音頻信號(hào)的較高頻部分的頻譜包絡(luò)。
7.如前述權(quán)利要求中任一項(xiàng)所述的音頻編碼器,其中所述編碼器被配置為:在編碼所述輸入信號(hào)的過程中,使用預(yù)測編碼和/或變換編碼來編碼所述輸入音頻信號(hào)的較低頻部分,以及在使用參數(shù)編碼來編碼所述輸入音頻信號(hào)的較高頻部分的頻譜包絡(luò)和使所述輸入音頻信號(hào)的所述較高頻部分不經(jīng)編碼之間做出選擇。
8.如權(quán)利要求6或7所述的音頻編碼器,其中所述編碼器被配置為:在不活動(dòng)階段中,中斷所述預(yù)測編碼和/或變換編碼以及所述參數(shù)編碼;或者在活動(dòng)階段中,中斷所述預(yù)測編碼和/或變換編碼,并以與使用所述參數(shù)編碼相比更低的時(shí)間/頻率分辨率來對所述輸入音頻信號(hào)的所述較高頻部分的所述頻譜包絡(luò)執(zhí)行所述參數(shù)編碼。
9.如權(quán)利要求6、7或8所述的音頻編碼器,其中所述編碼器使用濾波器組來在頻譜上將所述輸入音頻信號(hào)分解為形成所述較低頻部分的子帶集合,和形成所述較高頻部分的子帶集合。
10.如權(quán)利要求9所述的音頻編碼器,其中所述背景噪聲估計(jì)器被配置為:在活動(dòng)階段中,基于所述輸入音頻信號(hào)的所述較低頻部分和較高頻部分來更新所述參數(shù)背景噪聲估計(jì)。
11.如權(quán)利要求10所述的音頻編碼器,其中所述背景噪聲估計(jì)器被配置為:在更新所述參數(shù)背景噪聲估計(jì)的過程中,識(shí)別所述輸入音頻信號(hào)的所述較低頻部分和較高頻部分中的局部最小值,以及執(zhí)行所述局部最小值處的所述輸入音頻信號(hào)的所述較低頻部分和較高頻部分的統(tǒng)計(jì)分析,以得出所述參數(shù)背景噪聲估計(jì)。
12.如前述權(quán)利要求中任一項(xiàng)所述的音頻編碼器,其中所述噪聲估計(jì)器被配置為即便在不活動(dòng)階段期間仍繼續(xù)連續(xù)地更新所述背景噪聲估計(jì),其中所述音頻編碼器被配置為間歇地編碼在不活動(dòng)階段期間連續(xù)地更新的所述參數(shù)背景噪聲估計(jì)的更新。
13.如權(quán)利要求12所述的音頻編碼器,其中所述音頻編碼器被配置為:在固定的或可變的時(shí)間區(qū)間內(nèi),間歇地編碼所述參數(shù)背景噪聲估計(jì)的所述更新。
14.一種用于解碼數(shù)據(jù)流以根據(jù)其重建音頻信號(hào)的音頻解碼器,所述數(shù)據(jù)流至少包括活動(dòng)階段(86)和接在其后的不活動(dòng)階段(88),所述音頻解碼器包括: 背景噪聲估計(jì)器(90),被配置為在所述活動(dòng)階段(86)期間連續(xù)地根據(jù)所述數(shù)據(jù)流(104)更新參數(shù)背景噪聲估計(jì); 解碼器(92),被配置為在所述活動(dòng)階段期間根據(jù)所述數(shù)據(jù)流重建所述音頻信號(hào); 參數(shù)隨機(jī)生成器(94);以及 背景噪聲生成器(96),被配置為:通過根據(jù)所述參數(shù)背景噪聲估計(jì)在所述不活動(dòng)階段(88)期間控制所述參數(shù)隨機(jī)生成器(94),在所述不活動(dòng)階段(88)期間合成所述音頻信號(hào)。
15.如權(quán)利要求14所述的音頻解碼器,其中所述背景噪聲估計(jì)器(90)被配置為:在連續(xù)地更新所述參數(shù)背景噪聲估計(jì)的過程中,區(qū)分在所述活動(dòng)階段(86)中根據(jù)所述數(shù)據(jù)流(104)重建的所述音頻信號(hào)的版本內(nèi)的噪聲成分和有用信號(hào)成分,以及只根據(jù)所述噪聲成分確定所述參數(shù)背景噪聲估計(jì)。`
16.如權(quán)利要求14或15所述的音頻解碼器,其中所述解碼器(92)被配置為:在根據(jù)所述數(shù)據(jù)流重建所述音頻信號(hào)的過程中,根據(jù)也被編碼到所述數(shù)據(jù)流的線性預(yù)測系數(shù),來對被變換編碼到所述數(shù)據(jù)流的激勵(lì)信號(hào)進(jìn)行整形。
17.如權(quán)利要求16所述的音頻解碼器,其中所述背景噪聲估計(jì)器(90)被配置為:使用所述激勵(lì)信號(hào)來更新所述參數(shù)背景噪聲估計(jì)。
18.如權(quán)利要求16或17所述的音頻解碼器,其中所述背景噪聲估計(jì)器被配置為:在更新所述參數(shù)背景噪聲估計(jì)的過程中,識(shí)別所述激勵(lì)信號(hào)中的局部最小值,以及執(zhí)行所述局部最小值處的所述激勵(lì)信號(hào)的統(tǒng)計(jì)分析,以得出所述參數(shù)背景噪聲估計(jì)。
19.如前述權(quán)利要求中任一項(xiàng)所述的音頻解碼器,其中所述解碼器被配置為:在重建所述音頻信號(hào)的過程中,使用預(yù)測解碼和/或變換解碼來根據(jù)所述數(shù)據(jù)流重建所述音頻信號(hào)的較低頻部分,以及合成所述音頻信號(hào)的較高頻部分。
20.如權(quán)利要求19所述的音頻解碼器,其中所述解碼器被配置為:根據(jù)參數(shù)地編碼到所述數(shù)據(jù)流的所述輸入音頻信號(hào)的所述較高頻部分的頻譜包絡(luò),合成所述音頻信號(hào)的所述較高頻部分,或基于所述較低頻部分,通過盲帶寬擴(kuò)展來合成所述音頻信號(hào)的所述較高頻部分。
21.如權(quán)利要求20所述的音頻解碼器,其中所述解碼器被配置為:在不活動(dòng)階段內(nèi)中斷所述預(yù)測解碼和/或變換解碼,以及通過在所述活動(dòng)階段中根據(jù)所述頻譜包絡(luò)來在頻譜上形成所述音頻信號(hào)的所述較低頻部分的拷貝來執(zhí)行所述音頻信號(hào)的所述較高頻部分的合成,以及在所述不活動(dòng)階段中根據(jù)所述頻譜包絡(luò)來在頻譜上形成該合成音頻信號(hào)的拷貝。
22.如權(quán)利要求20或21所述的音頻解碼器,其中所述解碼器包括逆濾波器組,以根據(jù)所述較低頻部分的子帶集合及所述較高頻部分的子帶集合在頻譜上組成所述輸入音頻信號(hào)。
23.如權(quán)利要求14至22中任一項(xiàng)所述的音頻解碼器,其中所述音頻解碼器被配置為:每當(dāng)所述數(shù)據(jù)流被中斷時(shí),和/或每當(dāng)所述數(shù)據(jù)流給出所述數(shù)據(jù)流的進(jìn)入的信號(hào)時(shí),檢測到進(jìn)入所述不活動(dòng)階段。
24.如權(quán)利要求14至23中任一項(xiàng)所述的音頻解碼器,其中所述背景噪聲生成器(96)被配置為:僅在緊接在從活動(dòng)階段至不活動(dòng)階段的轉(zhuǎn)變之后所述數(shù)據(jù)流中不存在任何參數(shù)背景噪聲估計(jì)信息的情況下,通過根據(jù)由所述背景噪聲估計(jì)器連續(xù)地更新的所述參數(shù)背景噪聲在所述不活動(dòng)階段(88)期間控制所述參數(shù)隨機(jī)生成器(94),在所述不活動(dòng)階段(88)期間合成所述音頻信號(hào)。
25.如權(quán)利要求14至24中任一項(xiàng)所述的音頻解碼器,其中所述背景噪聲估計(jì)器被配置為:在連續(xù)地更新所 述參數(shù)背景噪聲估計(jì)的過程中,使用來自所述解碼器(92)的所重建的所述音頻信號(hào)的頻譜分解。
26.如權(quán)利要求14至25中任一項(xiàng)所述的音頻解碼器,其中所述背景噪聲估計(jì)器被配置為:在連續(xù)地更新所述參數(shù)背景噪聲估計(jì)的過程中,使用來自所述解碼器(92)的所重建的所述音頻信號(hào)的QMF頻譜。
27.一種音頻編碼方法,包括: 在活動(dòng)階段(24)期間,基于輸入音頻信號(hào)來連續(xù)地更新參數(shù)背景噪聲估計(jì); 在所述活動(dòng)階段期間將所述輸入音頻信號(hào)編碼成數(shù)據(jù)流;基于所述輸入音頻信號(hào)檢測跟隨所述活動(dòng)階段(24)的不活動(dòng)階段(28)的進(jìn)入;以及 當(dāng)檢測到所述不活動(dòng)階段的進(jìn)入時(shí),將檢測到的所述不活動(dòng)階段跟隨的所述活動(dòng)階段期間所連續(xù)地更新的所述參數(shù)背景噪聲估計(jì)編碼到所述數(shù)據(jù)流。
28.一種用于解碼數(shù)據(jù)流以根據(jù)其重建音頻信號(hào)的音頻解碼方法,所述數(shù)據(jù)流至少包括活動(dòng)階段(86)和接在其后的不活動(dòng)階段(88),所述方法包括: 在所述活動(dòng)階段(86)期間連續(xù)地根據(jù)所述數(shù)據(jù)流更新參數(shù)背景噪聲估計(jì); 在所述活動(dòng)階段期間根據(jù)所述數(shù)據(jù)流重建所述音頻信號(hào); 通過根據(jù)所述參數(shù)背景噪聲估計(jì)在所述不活動(dòng)階段(88)期間控制所述參數(shù)隨機(jī)生成器(94 ),在所述不活動(dòng)階段期間(88 )合成所述音頻信號(hào)。
29.一種具有程序代碼的計(jì)算機(jī)程序,當(dāng)該計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí)該程序代碼用于執(zhí)行如權(quán)利要求26至28中任一項(xiàng)所述的方法。
【文檔編號(hào)】G10L19/012GK103534754SQ201280015995
【公開日】2014年1月22日 申請日期:2012年2月14日 優(yōu)先權(quán)日:2011年2月14日
【發(fā)明者】帕尼·塞蒂亞萬, 康斯坦丁·施密特, 斯特凡·維爾登 申請人:弗蘭霍菲爾運(yùn)輸應(yīng)用研究公司