專利名稱:音頻編碼的制作方法
技術領域:
本發(fā)明涉及廣播信號,尤其是音頻信號的編碼和解碼。本發(fā)明還涉及一種編碼器和解碼器,以及一種根據(jù)本發(fā)明編碼的音頻流和其上存儲了該音頻流的數(shù)據(jù)存儲媒體。
當傳輸廣播信號時,例如諸如語音之類的音頻信號,使用壓縮或者編碼技術來降低信號的比特率。降低比特率相當于降低了傳輸所需的帶寬。
圖1示出了一種已知的參數(shù)編碼器的示意圖,尤其是一種在WO01/69593中描述的,并且在本發(fā)明中使用的正弦編碼器。在該編碼器中,一個輸入音頻信號x(t)被分割為(很可能是重疊)多個時間片段或者幀,每一個的持續(xù)時間典型地是20ms。每一個片段被分解為瞬時,正弦和噪聲分量,并且分別產生描述這些信號分量的參數(shù)CT、CS和CN。還可能產生例如諧波混合的輸入音頻信號的其他分量,盡管他們與本發(fā)明的目的不相關。
編碼器的第一級包括瞬時編碼器11,其包括瞬時檢測器(TD)110、瞬時分析器(TA)111和瞬時合成器(TS)112。該檢測器110估計是否具有一個瞬時信號分量及其位置。這一信息被提供給瞬時分析器111。如果瞬時信號分量的位置被確定,則該瞬時分析器11試圖提取瞬時信號分量或者其最重要部分。并且更適宜地在一個估計的開始位置起將一個形狀函數(shù)與一個信號片段匹配,并且通過使用例如(很少)一些正弦分量來確定在形狀函數(shù)下的內容。這一信息包含在瞬時代碼CT中。
瞬時代碼CT被提供給瞬時合成器112。在減法器16中從輸入信號x(t)中減去合成的瞬時信號分量從而產生一個信號xA。一個增益控制機構GC(12)被用于從xA產生xB。信號xB被提供給正弦編碼器13,在其中,該信號在一個用于確定正弦分量(即,確定性分量)的正弦分析器(SA)130中被分析。正弦編碼的最終結果是一個正弦代碼CS并且在國際專利申請公開號WO00/79519中提供了一個更為詳細地示出了示例性正弦代碼CS的例子。
根據(jù)由正弦編碼器產生的正弦代碼CS,正弦信號分量被一個正弦合成器(SS)131重建。在減法器17中從輸入信號XB中減去正弦編碼器13的這一信號從而產生一個缺少(大)瞬時信號分量和(主要)確定性正弦分量的殘留信號xC。
如在WO01/89086A1中所述的,假設殘留信號xC主要包括噪聲并且噪聲分析器14產生表示這一噪聲的噪聲代碼CN。
圖2(a)和(b)示出了適合于被用作圖1中的噪聲分析器14的編碼器(NA)和相應解碼器(ND)的通常形式。對應于圖1中的殘留xC的第一音頻信號r1輸入到包括第一線性預測(SE)級的噪聲編碼器,該第一線性預測(SE)級用于頻譜平滑信號并且產生一個預定順序的預測系數(shù)(Ps)。更具體地,一個Laguerre濾波器可以被用于提供取決于信號平滑的頻率,如在E.G.P.Schui jers,A.W.J.0omen,A.C.den Brinker和A.J.Gerrits,“Advances in parametric coding for high-qualityaudio”,Proc.1 st IEEE Benelux Workshop on Model based Processingand Coding of Audio(MPCA-2002),Leuven,Belgium,15 2002年11月15日,pp.73-79所述的。殘留r2輸入到時間包絡估計器(TE),該時間包絡估計器產生一組參數(shù)Pt以及可能地產生時間平滑的殘留r3。參數(shù)Pt可以是一組描述時間包絡的增益。替代的,它們可以是從頻域的線性預測中獲得的描述正?;臅r間包絡的參數(shù),如線性頻譜對(LSP)或者線性頻譜頻率(LSF),其隨后每一幀被增加一個增益參數(shù)。
在參數(shù)噪聲解碼器(ND)中,產生一個合成的白噪聲序列(在WNG中)并且產生一個具有時間和頻譜平坦包絡的信號r3`。時間包絡產生器(TEG)基于接收到的、量化的參數(shù)Pt`增加時間包絡從而產生r2`,并且頻譜包絡產生器(SEG,時變?yōu)V波器)基于接收到的,量化的參數(shù)Ps`增加頻譜從而產生一個噪聲信號r1`。
在多路復用器15中,構成了一個包括代碼CT、CS和CN的音頻流AS。
正弦編碼器13和噪聲分析器14被用于所有或者大部分片段并且等于比特率預算的最大部分。
眾所周知,參數(shù)音頻編碼器可以以相對較低的比特率給出相應較好的質量,例如20kbit/s。但是,在較高的比特率質量增加了,由于增加比特率的函數(shù)還是很低。因此,就需要一個額外的比特率來獲得完美的或者透明的質量。因此,利用參數(shù)編碼以可比于例如波形編碼器的比特率的比特率來實現(xiàn)透明是很困難的。這意味著構造具有完美或者透明質量的參數(shù)音頻編碼器而不使用額外比特預算是很困難的。
在參數(shù)編碼難以達到透明的基本原因存在于定義的目標中。參數(shù)編碼器在編碼音調分量(正弦)和噪聲分量(噪聲編碼器)中很有效。但是,在真實音頻中,很多信號分量落入到一個灰色區(qū)域中它們即不能被噪聲精確地模擬,也不能被模擬為(很少數(shù)量的)正弦波。因此,在參數(shù)音頻編碼器中目標的真實定義是達到完美或者透明質量等級的瓶頸,盡管得益于一個用于媒體質量等級的觀看的比特率點。
同時,傳統(tǒng)的音頻編碼器(子代和轉換)以一定的比特率提供了完美的或者透明的編碼質量,典型地大約以80-130kbit/s用于以44.1kHz抽樣的立體聲信號。轉換和參數(shù)編碼器的組合(所謂的混合編碼器)已經被建議,例如在2002年5月24日提交的歐洲專利申請?zhí)?2077032.7中公開的。在此,音頻信號的頻譜-時間間隔,(其另外將會被子帶編碼)被選擇性地利用噪聲參數(shù)編碼以試圖在保持音頻質量的同時降低比特率。
替代的,轉換或者子帶編碼器可以與圖1所示種類的參數(shù)編碼器級聯(lián)。但是,對于這種布置的期望編碼增益最小,其中參數(shù)編碼器在轉換或者子帶編碼器之前。這是由于音頻信號的可感知的最重要區(qū)域是由正弦編碼器捕捉到,而只留下了在轉換/子帶編碼器中編碼增益的可能性很少。
利用頻譜平滑和每一采樣使用很少數(shù)量比特的殘留信號模擬的音頻編碼器被公開于A.Harma和U.K.Laine,“Warped lowdelay CELP forwide-band audio coding”,Proc.AES 17th Int.Cof.High Quality AudioCoding,pages207-215,F(xiàn)lorence,Italy,2-5 Sep,1999;S.Singhal,“Highquality audio coding using multi-pulse LPC” ,Proc.1990Int.Conf.Acoustic Speech Signal Process.(ICASSP90),1101-1104頁,Atlanta GA,1990,I EEE Piscataway,NJ;和X.Lin,“High qualityaudio coding using analysis-by synthesis technique”,Proc.1991Int.Conf.Acoustic Speech Signal Process.(ICASSP91),3617-3620頁,Atlanta OA,1991,JEEE Piscataway,NJ。在很多論文中,已經示出了這一編碼策略實現(xiàn)了以對應于用于單聲道信號的2比特/抽樣(用于44.1kHz音頻的88.2kbit/s)的比特率的完美或者透明的質量。在此方面,它們沒有超過子帶或者轉換編碼器的性能。
縮放比特流的可能性看起來在許多應用中很有吸引力,其中在這些應用中音頻素材應當提供以不同信號質量或者比特率訪問的可能性,這如同在音樂分配的情況下。比特流的可縮放性允許內容提供者僅僅存儲編碼素材的一個版本。另外一種有趣的應用是使用編碼信號的第一(基本)層從而提供音頻“縮略圖”,其中對文件的全部版本的后續(xù)訪問無需基本層素材的重發(fā)。基于RPE的用于建立分層比特流的編碼器在S.Zhang和G.Lockhart,“Embedded RPE based on multistage coding”,IEETransactions on Speech and Audio Processing,Vol.5(4),367-371,1997中公開。
發(fā)明者已經意識到,用于建立分層比特流的已知技術由于縮放性丟失而導致質量上受到妨礙。本發(fā)明的目的是在建立分層比特流的同時降低質量的丟失。
因此,本發(fā)明涉及一種編碼數(shù)字音頻信號的方法,其中對于信號的每一個時間片段執(zhí)行以下步驟-編碼音頻信號以提供表示該音頻信號的代碼,-從該音頻信號中減去對應于該代碼的信號以獲得第一殘留信號,-頻譜平滑該第一殘留信號以獲得一個頻譜平滑的殘留信號(r)和頻譜平滑參數(shù),-利用一個脈沖串編碼器,根據(jù)頻譜平滑的殘留信號來計算第一激勵信號,-確定該第一激勵信號的質量,如其與頻譜平滑的殘留信號相似的等級,-從頻譜平滑的殘留信號中減去第一激勵信號的一部分從而獲得第二殘留信號,其中該部分依賴于確定的第一激勵信號的質量,-利用一個脈沖串編碼器,根據(jù)第二殘留信號計算第二激勵信號,以及-產生一個音頻流,包括-第一激勵信號,-第二激勵信號,和-表示第一激勵信號的質量的參數(shù)。
本發(fā)明還涉及一種使用上述方法的音頻編碼器并且因此其適應于編碼數(shù)字音頻信號的相應時間片段,該編碼器包括-編碼器,用于編碼數(shù)字音頻信號以提供表示該信號的代碼,-減法器,用于從該音頻信號中減去對應于該代碼的信號以獲得第一殘留信號,-頻譜平滑單元,用于頻譜平滑該第一殘留信號以獲得頻譜平滑的殘留信號和頻譜平滑參數(shù),-脈沖串編碼器,用于根據(jù)頻譜平滑殘留信號計算第一激勵信號,-用于確定第一激勵信號的質量,如其與頻譜平滑殘留信號類似的等級的裝置,-減法器,用于從頻譜平滑殘留信號中減去第一激勵信號的一部分,從而獲得第二殘留信號,其中該部分依賴于第一激勵信號的確定的質量,-脈沖串編碼器,用于根據(jù)第二殘留信號計算第二激勵信號,和-比特流產生器,用于產生一個音頻流,該音頻流包括-第一激勵信號,-第二激勵信號,和-表示第一激勵信號的質量的參數(shù)。
此外,本發(fā)明涉及一種用于解碼接收到的音頻流的方法,例如利用上述方法或編碼器編碼的音頻流,其中該音頻流對于音頻信號的多個片段中的每一個包括-第一激勵信號,-第二激勵信號,和-表示第一激勵信號的質量的參數(shù),該方法包括-依賴于質量參數(shù),組合第一和第二激勵信號以獲得一個組合的激勵信號,和-利用一個線性預測合成濾波器根據(jù)組合的激勵信號合成第一殘留信號。
相應地,本發(fā)明涉及一種用于接收和解碼音頻流的音頻播放器,其中音頻流對于音頻信號中的多個片段的每一個包括-第一激勵信號,-第二激勵信號,和-表示第一激勵信號的質量的參數(shù),該音頻播放器包括-依賴于質量參數(shù),組合第一和第二激勵信號以獲得一個組合的激勵信號的裝置,和-利用線性預測根據(jù)組合的激勵信號合成第一殘留信號的裝置。
最后,本發(fā)明涉及一種音頻流,對于該音頻信號的多個片段中的每一個包括-第一激勵信號,其由頻譜平滑殘留信號的脈沖串編碼而產生,該殘留信號通過從音頻信號中減去編碼音頻信號而產生,-第二激勵信號,其由第二殘留信號的脈沖串編碼而產生,所述信號通過從頻譜平滑的殘留信號中減去第一激勵信號的一部分而產生,其中該部分依賴于第一激勵信號的確定的質量,和-表示第一激勵信號的確定的質量的參數(shù);并且涉及一種具有存儲在其上的這種音頻流的存儲媒體。
下面將參照附圖,通過示例詳細描述本發(fā)明的實施例,其中圖1示出了傳統(tǒng)的參數(shù)編碼器;圖2a和2b分別示出了傳統(tǒng)的參數(shù)噪聲編碼器(NA)和相應的噪聲解碼器(ND);圖3示出了編碼器的視圖;圖4示出了與圖3的編碼器相容的第一解碼器的視圖;圖5示出了與附圖3的編碼器相容的第二解碼器的視圖;圖6示出了根據(jù)本發(fā)明的編碼器的示意圖;和圖7示出了根據(jù)本發(fā)明的解碼器的示意圖。
圖1-5和相應的描述反映了未預公開的歐洲專利申請?zhí)?3104472.0,于2003年12月1日提交的專利申請的公開內容(申請人的內部參考號為PHNL031414EPP)。
在圖1中,示出了一個在WO01/69593中所述類型的正弦編碼器,并且其被用于本發(fā)明的一個優(yōu)選實施例中?,F(xiàn)有技術的編碼器及其相應解碼器的操作已經被詳細描述并且在此僅僅描述了與本發(fā)明有關的描述。
音頻編碼器1接收以一定的抽樣頻率抽樣的數(shù)字音頻信號x(t)。隨后該編碼器1將抽樣的輸入信號分離為三個分量瞬時信號分量、持續(xù)確定性分量、和持續(xù)隨機性分量。該音頻編碼器1包括瞬時編碼器11、正弦編碼器13和噪聲編碼器14。
該瞬時編碼器11包括瞬時檢測器(TD)110,瞬時分析器(TA)111和瞬時合成器(TS)112。首先,信號x(t)輸入到瞬時檢測器110。這一檢測器110估計是否具有一個瞬時信號分量及其位置。這一信息被提供給瞬時分析器111。如果瞬時信號分量的位置被確定,則該瞬時分析器111試圖提取瞬時信號分量(的主要部分)。優(yōu)選在一個估計的開始位置起將形狀函數(shù)與信號片段匹配,并且通過使用例如(很少)一些正弦分量來確定在形狀函數(shù)下的內容。這一信息包含在瞬時代碼CT中,并且在WO01/69593中提供了關于產生瞬時代碼CT的更詳細信息。
瞬時代碼CT被提供給瞬時合成器112。在減法器16中從輸入信號x(t)中減去合成的瞬時信號分量從而導致產生一個信號xA。增益控制機構GC(12)被用于從xA產生xB。
信號xB被提供給正弦編碼器(SA)13,其中在確定(確定性)正弦分量的正弦分析器(SA)130中分析該信號xB。因此可以看出,盡管期望瞬時分析器存在,但是它是不必要的并且本發(fā)明無需該分析器也可以實現(xiàn)??商娲?,如上所述,本發(fā)明可以采用例如諧波混合分析器來實現(xiàn)。簡單地說,正弦編碼器編碼輸入信號xB,如同從一幀片段鏈接到下一幀片段的正弦分量的軌跡。
如圖3中所示的編碼器補充了在P.Kroon,E.F.Deprettere和R.J.Sluijter,“Regular Pulse Excitation-A novel approach to effectiveand efficient multipulse coding of speech”,IEEE Trans.Acoust.Speech,Signal Process,34,1986中描述類型的脈沖串編碼器。但是,雖然實施例按照規(guī)則脈沖激勵(RPE)編碼器描述,其可以等效于采用如在美國專利號4,932,061中描述的多脈沖激勵(MPE)技術或者在K.Jarvinen,J.Vainio,P.Kapanen,T.Honkanen,P.Haavisto,R.Salami,C.Laflamme,J-P.Adoul,“GSM enhanced full rate speech codec”,Proc.ICASSP-97,Munich(Germany),21-24 April 1997,Volume2,pp.771-774中描述的ACELP編碼器實現(xiàn),其中每一個包括第一基于LP的頻譜平滑級。
在圖3所示的編碼器中,根據(jù)編碼器所需的質量確定的全部比特率預算被分割為由參數(shù)編碼器可用的比特率B和RPE編碼預算,從其中可以獲得一個RPE抽取因數(shù)D。
在圖3中,輸入音頻信號x首先在對應于圖1中的參數(shù)編碼器的塊11和13的塊TSA(瞬時和正弦分析)中被處理。因此,這一塊產生了用于瞬時和噪聲的相關參數(shù),如在圖1中所示。給定比特率B,一個塊BRC(比特率控制)優(yōu)選地限制正弦的數(shù)量并且優(yōu)選地保存瞬時使得用于正弦和瞬時的全部比特率最多等于B,典型地設置在20kbit/s附近。
對應于圖1中的塊112和131的塊TSS(瞬時和正弦合成器)利用由塊TSA產生并且由塊BRC修改的瞬時和正弦參數(shù)(CT和CS)產生一個波形。從輸入信號x中減去這一信號從而得到對應于圖1中的殘留xC的信號r1。通常,信號r1不包括真實的正弦和瞬時分量。
根據(jù)信號r1,在塊(SE)中利用線性預測濾波器,例如基于抽頭延時線或者如在圖2(a)的現(xiàn)有技術中的Laguerre濾波器來估計和移動頻譜包絡。所選擇的濾波器的預測系數(shù)Ps被寫入到比特流AS中用于傳輸給解碼器,作為傳統(tǒng)類型噪聲代碼CN的一部分。隨后在塊(TE)中將時間包絡移動以便一起產生例如線性頻譜對(LSP)或者線性頻譜頻率(LSF)系數(shù)與一個增益,正如在現(xiàn)有技術附圖2(a)中所述的。在任何情況下,來自時間平滑的最終系數(shù)Pt被寫入到比特流AS以便傳輸給解碼器,作為傳統(tǒng)類型噪聲代碼CN的一部分。典型的,系數(shù)Ps和PT需要4-5kbit/s的比特率預算。
因為脈沖串編碼器使用了第一頻譜平滑級,所以RPE編碼器可以根據(jù)比特率預算是否已經被分配給RPE編碼器來被選擇性地應用于由塊SE產生的頻譜平滑信號r2。在由一個虛線表示的一個替代實施例中,RPE編碼器被應用于由塊TE產生的頻譜和時間平滑信號r3。
如參考
背景技術:
的文件已知的,RPE編碼器以分析接合成的方式對殘留信號r2/r3執(zhí)行一個搜索。給定一個抽取因數(shù)D,RPE搜索過程導致產生一個偏移(在0到D1之間的數(shù)值,其中D1依賴于D),RPE脈沖的幅度(例如,數(shù)值為-1,0,1的三重脈沖)和增益參數(shù)。當使用RPE編碼時,這一信息被存儲在音頻流AS中所包括的層L0中,用于通過多路復用器(MUX)傳輸給解碼器。
該RPE編碼器可以以不同比特率操作并且提供相應不同質量的等級。通過抽取因數(shù)D和量化格,該比特率是有效可調的,并且通過正確地設置這些參數(shù),一個單調增加的質量在增加的比特率獲得,使得其在比特率的相當大范圍上相比于現(xiàn)有編碼器具有競爭性。
試驗已經示出了,當使用高抽取因數(shù)(例如,D=8)時,RPE編碼器有時導致重建信號的亮度損失。將某一低等級噪聲增加給RPE序列從而減緩這一問題。為了確定噪聲的等級,基于例如在從編碼的RPE序列中產生的信號和殘留信號r2/r3之間的能量/功率差來計算增益(g)。這一增益同樣被作為層L0信息的一部分傳輸?shù)浇獯a器。
在圖4中示出了一個與圖3中的編碼器相容的解碼器。解多路復用器(DeM)如同現(xiàn)有技術一樣讀取輸入音頻流AS并且將正弦、瞬時和噪聲代碼(CS,CT和CN(Ps和Pt))提供給相應的合成器SiS,TrS和TEG/SEG。如現(xiàn)有技術中,白噪聲產生器(WNG)給時間包絡產生器TEG提供一個輸入信號。在該實施例中,其中該信息是可利用的,脈沖串產生器(PTG)產生來自層L0的脈沖串并且在塊Mx中將其與TEG輸出的噪聲信號相混合以提供一個激勵信號r2`。從該編碼器可以看出,由于噪聲代碼CN(Ps,Pt)和層L0都是獨立于同一個殘留r2產生,它們產生的信號需要被增益修改以提供正確的能量等級用于合成的激勵信號r2`。在該實施例中,在混合器(Mx)中,由塊TEG和PTG產生的信號被組合。
隨后激勵信號r2`被提供給頻譜包絡產生器(SEG),其根據(jù)代碼Ps產生合成的噪聲信號r1`。這一信號被加給由傳統(tǒng)的瞬時和正弦合成器產生的合成信號從而產生輸出信號 在一個替代實施例中,由脈沖串產生器PTG產生的參數(shù)被用于(由虛線表示)與噪聲代碼Pt組合從而使由WNG輸出的信號的時間包絡成形以便于建立時間上成形的噪聲信號。
在圖5中示出了與圖3的實施例相對應的解碼器的第二實施例,其中RPE塊處理殘留信號r3。在此,基于編碼器確定的增益(g)和CN由白噪聲產生器(WNG)產生的并且被塊We處理的信號和由脈沖串產生器(PTG)產生的脈沖串被相加以構建一個激勵信號r3`。當然,其中的層L0信息是不可用的,白噪聲不受塊We的影響并且作為一個激勵信號r3`被提供給一個時間包絡產生器塊(TEG)。
時間包絡系數(shù)(Pt)隨后被塊TEG施加到激勵信號r3`以提供如前處理的合成信號r2`。如上所述,這是有利的,因為脈沖串激勵典型的引起了亮度丟失,這可以由適當加權的附加噪聲序列來抵消。加權可以包括每一個基于增益因子g和CN的簡單幅度或者頻譜成形。
如前,該信號被例如在塊SEG(頻譜包絡產生器)中的線性預測合成濾波器濾波,該濾波器給該信號增加一個頻譜包絡。隨后,最終產生的信號如前一樣被加給合成的正弦和瞬時信號。
可以看出在圖4或者圖5中,如果不使用PTG,則解碼方案類似于傳統(tǒng)的僅僅使用噪聲編碼器的正弦編碼器。如果使用了PTG,則增加了一個RPE序列,其增強了重建的信號,即提供了一個較高的音頻質量。
應當注意,在圖5的實施例中,和標準脈沖編碼器(RPE或者MPE)相反,其中在標準脈沖編碼器使用了對于完整的幀是固定的增益,時間包絡被合并到信號r2`中。通過使用該時間包絡,可以獲得較好的聲音質量,因為與每幀固定的增益相比較在增益的分布上有較高的靈活性。
上述混合方法可以在一個較寬的比特率范圍內操作,并且在每一個比特率,其提供與現(xiàn)有編碼器相當?shù)馁|量。在該方法中,由參數(shù)(正弦)編碼器提供的數(shù)據(jù)構成的基本層包括輸入信號的主要或者基本特征,并且該方法媒介至高質量音頻信號可以在很低的比特率上獲得。
但是,優(yōu)選的,建立的比特流是可以縮放的使得層可以被提取。假設具有有序層。因此,就期望編碼器能夠建設性地增加信息以對于給定比特率獲得最佳的質量。比特流的分層通常意味著由可縮放比特流的要求引起的質量的降低(所謂的縮放性丟失)。本發(fā)明試圖避免這一問題。由于此原因,編碼器、解碼器和比特流都被適配。
下面,將會給出根據(jù)本發(fā)明的一種方法的描述,其中在解碼器中執(zhí)行混合不同的激勵信號層使得無需損害編碼信號的質量就可以實現(xiàn)縮放性的全部概念。通過由編碼器確定并且存儲在比特流中的一個或者多個參數(shù)來控制所述混合。當構造一個新的較高層時,這些參數(shù)反映了先前層的重要性。
圖6示出了根據(jù)本發(fā)明的完全可縮放的組合參數(shù)(正弦)和波形(脈沖)編碼器。注意到,本發(fā)明可以使用除了在此描述的編碼器之外的任何其他編碼器。在參數(shù)編碼器中接收輸入信號,其在示出的實施例中是如圖1中的正弦SSC編碼器1。來自于SSC編碼器的殘留rssc首先被頻譜平滑,優(yōu)選使用LPC分析,借此其動態(tài)范圍減小了,其進而又降低了在量化步驟中的誤差。隨后,頻譜平滑的殘留信號r被提供給第一波形編碼器,在此是具有抽取因數(shù)8的RPE-8級,其根據(jù)頻譜平滑的殘留信號r產生第一激勵信號x8。
通過組合殘留信號r和已經計算的激勵信號x8來建立一個新的殘留信號x8。具體的,根據(jù)下式,x8被定義為在原始殘留信號r和加權激勵信號x8之間的差r8=r-ρx8參數(shù)ρ被優(yōu)化以便被組合的層實現(xiàn)最好質量。
我們注意到,將ρ設置為0,意味著建立了獨立層,其中不重用信息是可能的。將ρ設置為等于1對于在一個可縮放比特流中建立不獨立層是已知的技術但是妨礙了達到最好質量。
將殘留信號r8提供給第二波形編碼器,在此是具有抽取因數(shù)2的RPE-2級。該RPE-2級建立一個激勵信號x2。
理想地,在RPE-8編碼器中計算的激勵x8應當被用于一個解碼器中,只要其提供一個相當好的殘留r的近似值,否則,對于RPE-2來說更好的是丟棄它并且直接操作于r而不是r8。這建議應當具有一個機制,其評估質量如x8相對于r的類似之處或者適合度,即r被x8模擬地如何,并且因此考慮到將其與x2組合將其處理。在它的最簡單形式中,這個機制僅僅由一個簡單的增益構成。下面講解是增益ρ,也被稱作混合系數(shù),是如何被使用和計算來評估和處理x8。
最后,參數(shù)代碼(SSC代碼),第一激勵信號x8,第二激勵信號x2,混合系數(shù)ρ和優(yōu)選還有頻譜平滑參數(shù)被組合以形成編碼的音頻流AS。典型的,比特流則由三層構成基本參數(shù)層,包括第一激勵信號的第一精細層,和包括第二激勵信號和表示在參數(shù)ρ中的第一層的可重用性的第二層。
在一個音頻流中無需包括頻譜平滑參數(shù)。如果不具有頻譜平滑參數(shù)的音頻流在音頻播放器中被接收到,則在音頻播放器中的解碼器可以通過逆向適配來確定頻譜平滑參數(shù)。
圖7示出了根據(jù)本發(fā)明的解碼器。該編碼的音頻流AS被接收到,并且其分量,即參數(shù)代碼(SSC代碼),第一激勵信號x8,第二激勵信號x2,混合系數(shù)ρ和頻譜平滑參數(shù)被如下識別和處理。
參數(shù)代碼被提供給參數(shù)解碼器(SSC解碼器)以解碼正弦和瞬時分量。頻譜成形濾波器,在此是LPC合成濾波器,接收第一激勵信號x8,或者組合的激勵信號(x2+ρx8)。利用接收到的頻譜平滑參數(shù),該LPC合成濾波器再產生估計的具有原始形狀頻譜的SSC殘留r`ssc并且估計的SSC殘留r`ssc被增加給解碼的正弦和瞬時分量以形成解碼的信號。此外,參數(shù)噪聲的一部分被插入到激勵信號,類似于在圖4和5中使用的策略。
一種用于在下一個RPE級中確定x8有用性的可能標準是它與輸入殘留r的相似性。因此,很自然地,增益ρ以某種方式涉及到這兩種信號的相關性。設置移除在信號r和x8之間相似性的目標(圖4),可以通過下面計算最優(yōu)化值ρ
ρ=ΣK=1Nr(k)x8(k)Σk=1Nx8(k)2---(1)]]>其中的x8和r是在圖6中這么識別的信號,而N表示在其上ρ被最優(yōu)化的窗口長度。這一增益優(yōu)選一幀接一幀地計算,即N是幀長度。從等式(1)得出,最佳增益正好是x8和在x8的功率上正歸化的r的相關。具有與等式1相類似的特性的其他增益可以被定義(例如,等式1的表達式在均方差標準意義上是最優(yōu)的,其它標準也可以被使用)。
注意到如果由x8提供的r的模型是完美的(例如r=x8),則混合系數(shù)變?yōu)?并且r8變?yōu)?,因為不需要額外的模型。另一方面,當x8不是r的好模型時,混合系數(shù)將取小的值并且第二RPE級主要作用于r而不是x8,換句話說,抽取2層僅僅有限地使用由抽取8層提供的信息。
所述的技術可以適用在全部帶寬的信號或者特定頻帶上。質量參數(shù)ρ意味著完全濾波以產生r8意味著一個而不是多個參數(shù)的可能性。在此描述的方法可以擴展到包括多于兩個激勵信號的分層的比特流。
權利要求
1.一種編碼數(shù)字音頻信號的方法,其中對于信號的每一個時間片段執(zhí)行以下步驟-編碼音頻信號以提供表示該音頻信號的代碼(SSC),-從該音頻信號中減去該代碼以獲得第一殘留信號(rssc),-頻譜平滑該第一殘留信號(rssc)以獲得頻譜平滑的殘留信號(r)和頻譜平滑參數(shù),-利用一個脈沖串編碼器,從頻譜平滑的殘留信號(r)計算第一激勵信號,-將該第一激勵信號(x8)的質量確定為其與頻譜平滑的殘留信號(r)的相似度,-從頻譜平滑的殘留信號(r)中減去第一激勵信號(x8)的一部分從而獲得第二殘留信號(x8),其中該部分依賴于確定的第一激勵信號(x8)的質量,-利用脈沖串編碼器,從第二殘留信號(r8)計算第二激勵信號(x2),以及-產生一個音頻流,包括-第一激勵信號(x8),-第二激勵信號(x2),和-指示第一激勵信號(x8)的質量的參數(shù)(ρ)。
2.根據(jù)權利要求1的方法,其中該參數(shù)代碼包括音頻信號的正弦和噪聲分量。
3.根據(jù)權利要求1的方法,其中利用線性預測編碼(LPC)執(zhí)行頻譜平滑。
4.根據(jù)權利要求1的方法,其中第一激勵信號(x8)的質量基于第一激勵信號(x8)和頻譜平滑殘留信號(r)之間的相關性。
5.一種音頻編碼器,其適于編碼數(shù)字音頻信號的時間片段,該編碼器包括-編碼器,用于編碼數(shù)字音頻信號以提供表示該信號的代碼(SSC),-減法器,用于從該音頻信號中減去對應于該代碼的信號以獲得第一殘留信號(rssc),-頻譜平滑單元,用于頻譜平滑該第一殘留信號(rssc)以獲得頻譜平滑的殘留信號(r)和頻譜平滑參數(shù),-脈沖串編碼器,用于計算頻譜平滑殘留信號(r)的第一激勵信號,-用于將第一激勵信號(x8)的質量確定為其與頻譜平滑殘留信號(r)的相似度的裝置,-減法器,用于從頻譜平滑殘留信號(r)中減去第一激勵信號(x8)的一部分,從而獲得第二殘留信號(r8),其中該部分依賴于第一激勵信號(x8)的確定的質量,-脈沖串編碼器,用于計算第二殘留信號(r8)的第二激勵信號(x2),和-比特流產生器(15),用于產生一個音頻流(AS),其包括-第一激勵信號(x8),-第二激勵信號(x2),和-指示第一激勵信號(X8)的質量的參數(shù)(ρ)。
6.根據(jù)權利要求5的音頻編碼器,其中該參數(shù)代碼包括音頻信號的正弦和噪聲分量。
7.根據(jù)權利要求5的音頻編碼器,包括適合執(zhí)行頻譜平滑的線性預測編碼器(LPC)。
8.根據(jù)權利要求5的音頻編碼器,其中分數(shù)(ρ)是基于第一激勵信號(x8)和頻譜平滑殘留信號(r)之間的相關。
9.一種用于解碼接收到的音頻流(AS)的方法,其中該音頻流對于一個音頻信號的多個片段中的每一個包括-第一激勵信號(X8),-第二激勵信號(x2),和-指示第一激勵信號(x8)的質量的參數(shù)(ρ),該方法包括-根據(jù)質量參數(shù)(ρ),組合第一和第二激勵信號(x8,x2)以獲得一個組合的激勵信號,和-利用一個線性預測從組合的激勵信號合成第一殘留信號(r`ssc)。
10.一種用于接收和解碼音頻流(AS)的音頻播放器,其中音頻流對于音頻信號中的多個片段的每一個包括-第一激勵信號(x8),-第二激勵信號(x2),和-指示第一激勵信號(x8)的質量的參數(shù)(ρ),該音頻播放器包括-根據(jù)質量參數(shù)(ρ)組合第一和第二激勵信號(x8,x2)以獲得一個組合的激勵信號的裝置,和-利用一個線性預測從組合的激勵信號合成第一殘留信號(r`ssc)的裝置。
11.一種音頻流(AS),對于該音頻信號的多個片段中的每一個包括-第一激勵信號(x8),其由頻譜平滑殘留信號(r)的脈沖串編碼而獲得,該殘留信號(r)通過從音頻信號中減去一個編碼音頻信號而獲得,-第二激勵信號(x2),其由第二殘留信號的脈沖串編碼而獲得,所述信號通過從頻譜平滑的殘留信號(r)中減去第一激勵信號(x8)的一部分而產生,其中該部分依賴于第一激勵信號(x8)的確定的質量,和-指示第一激勵信號(x8)的確定的質量的參數(shù)(ρ)。
12.一種其上存儲了權利要求11的音頻流(AS)的存儲媒體。
全文摘要
近來已經提出了一種用于構建可縮放音頻編碼器的混合正弦/脈沖激勵編碼器。由正弦編碼器提供的數(shù)據(jù)構成的基本層保留了以低比特率達到媒體的高質量音頻的主要特性??梢酝ㄟ^增加與降低抽取相關的激勵信號層來進一步增強質量,該抽取漸增模擬原始信號的越來越多精細方面。本發(fā)明提供了一種混合不同激勵信號使得無需折中編碼信號的質量就可以實現(xiàn)縮放性的全部概念。當構建一個新的較高層時,通過一個質量參數(shù)來控制所述混合,該質量參數(shù)加權先前層的有效性。
文檔編號G10L19/06GK1965352SQ200580018935
公開日2007年5月16日 申請日期2005年6月3日 優(yōu)先權日2004年6月8日
發(fā)明者A·C·登布林克, A·J·杰里茨, F·里拉帕勞 申請人:皇家飛利浦電子股份有限公司