專利名稱:音頻壓縮的制作方法
技術(shù)領(lǐng)域:
本申請總體上涉及音頻壓縮。
背景技術(shù):
音頻壓縮通常在用于存儲或傳輸數(shù)字音頻信號的現(xiàn)代消費者設(shè) 備中使用。消費者設(shè)備可以是電信設(shè)備、視頻設(shè)備、音頻播放器、 無線電設(shè)備和其它消費型設(shè)備。較高的壓縮比能夠支持更好的存儲 能力,或者經(jīng)由通信信道的更高效傳輸,其中通信信道即無線通信 信道或者有線通信信道。但是同時,對應(yīng)于壓縮比,還應(yīng)當(dāng)將壓縮 信號的質(zhì)量保持在較高的水平。音頻編碼的目標(biāo)通常在于,將涉及 給定壓縮比即比特率的音頻質(zhì)量最大化。
在過去幾十年中,已經(jīng)研發(fā)出了眾多音頻編碼技術(shù)。高級音頻 編碼系統(tǒng)有效地利用了人耳的性質(zhì)。主要思想在于,可以將編碼噪 聲置于對感官質(zhì)量影響最小的信號區(qū)域中,使得可以在未引入聽覺 失真的前提下減小數(shù)據(jù)速率。因此,心理聲學(xué)理論是現(xiàn)代音頻編碼 的重要部分。
在公知的音頻編碼器中,輸入信號被分為有限數(shù)量的子頻帶。
每個子頻帶信號都可以量化。根據(jù)心理聲學(xué)理論,公知的是頻譜 中的最高頻率在感知上沒有低頻重要。通過將與低頻子頻帶相比而 言較少的比特分配給高頻子頻帶的量化,這可以在某種程度上在編 碼器中加以考慮。
更復(fù)雜的音頻編碼利用了這樣的事實,即,在大部分情況下, 音頻信號的低頻區(qū)域和高頻區(qū)域之間存在很大的相關(guān)性,即頻譜較 高的那半部分通常與其較低的那半部分相當(dāng)類似。低頻區(qū)域可以被 認(rèn)為是聲譜的低半部分,而高頻可以被認(rèn)為是聲譜的高半部分。應(yīng)當(dāng)理解,低頻和高頻的邊界并不固定,而是可以在2kHz到15kHz 之間,甚至可以超越這些邊界。
頻帶復(fù)制編碼(SBR )是當(dāng)前公知的對高頻區(qū)域進(jìn)行編碼的方法。 此技術(shù)在以下文章中進(jìn)行了描述2002年5月在德國慕尼黑舉行的 第112屆AES大會上M.Dietz, L丄iljeryd、 K. Kj6rling和O.Kunz的 "Spectral Band Replication, a novel approach in audio coding", 以及 2002年11月在比利時魯汶舉行的第一屆IEEE Benelux Workshop on Model Based Processing and Coding of Audio 上 P.Ekstrand 的 "Bandwidth extension of audio signals by spectral band replication"。 所 描述的方法可以應(yīng)用到普通音頻編碼器中,諸如,例如AAC或 MPEG-l層III (MP3)編碼器,以及其它多種代表本領(lǐng)域技術(shù)發(fā)展 水平的編碼器。
根據(jù)現(xiàn)有技術(shù)的方法的缺點在于僅僅將低頻帶調(diào)換到高頻帶 可能導(dǎo)致原始高頻帶與利用被調(diào)換的低頻對其的重建之間不相似。 另 一 缺點在于,需要使用公知方法將噪聲和正弦波添加到頻譜中。
因此,本申請的目標(biāo)在于提供一種改進(jìn)的音頻編碼技術(shù)。本申 請的進(jìn)一步目的在于提供一種編碼技術(shù),其更正確地表示輸入信號, 同時具有合理低的比特速率。
發(fā)明內(nèi)容
為了克服上述缺點,根據(jù)一個方面,本申請?zhí)峁┝艘环N用于編 碼音頻信號的方法,包括接收輸入音頻信號,將該音頻信號至少 劃分為低頻帶和高頻帶,將該高頻帶至少劃分為兩個高頻子頻帶信 號,在該低頻帶信號部分內(nèi)確定哪個與高頻子頻帶信號最匹配,以 及產(chǎn)生至少涉及與高頻帶子頻帶信號最匹配的低頻帶信號部分的參 數(shù)。
本申請?zhí)峁┝?一種對輸入信號的高頻區(qū)域進(jìn)行編碼的新方法。 輸入信號可以被劃分為時間上連續(xù)的幀。每個幀都表示輸入信號的 時間實例。在每個幀中,輸入信號都可以由其頻譜成分來表示。頻譜成分或者采樣表示輸入信號內(nèi)的頻率。
本申請不是盲目地將低頻區(qū)域調(diào)換到高頻,而是將原始高頻頻
譜成分與編碼后的高頻頻鐠成分之間的相似性最大化。根據(jù)本申請, 高頻區(qū)域是使用信號已經(jīng)編碼過的低頻區(qū)域來形成的。
通過比較低頻信號采樣與所接收信號的高頻子頻帶,可以在低 頻中找到與實際高頻子頻帶最匹配的信號部分。本申請?zhí)峁┝嗽谡?個低頻頻譜中一個采樣接著一個采樣地搜索與高頻子頻帶最相似的 信號部分。換言之,由于信號部分與采樣序列對應(yīng),所以本申請?zhí)?供了找到與高頻子頻帶最匹配的采樣序列。此采樣序列可以在低頻 帶中的任何位置開始,除了低頻帶中最后被考慮的起點應(yīng)該是低頻 帶中的最后采樣減去將被匹配的高頻子頻帶的長度。
與實際高頻子頻帶最匹配的低頻信號部分的索引或者鏈接可以 用來對高頻子頻帶進(jìn)行建模。僅需要對索引或者鏈接進(jìn)行編碼并且 存儲或者傳輸,以便允許在接收端還原對相應(yīng)高頻子頻帶的表示。
根據(jù)實施方式,在低頻帶中搜索最相似的匹配,即與高頻子頻 帶最相似的信號部分頻譜形狀。在編碼器中創(chuàng)建至少涉及所找至Q的 與高頻子頻帶最相似的信號部分的參數(shù)。參數(shù)可以包括用于將所找 到部分縮放成高頻帶的縮放因子。在解碼器側(cè),這些參數(shù)用來將相 應(yīng)的低頻信號部分調(diào)換到高頻區(qū)域,以便重建高頻子頻帶。
縮放可以使用縮放因子應(yīng)用到復(fù)制的低頻信號部分。根據(jù)實施 方式,只有縮放因子和到低頻信號部分的鏈接需要編碼。
當(dāng)使用最匹配的低頻信號部分來重現(xiàn)高頻子頻帶時,與公知方 法相比,高頻區(qū)域的形狀能更緊密地遵循原始高頻頻譜。由于振幅、 形狀和頻率位置都與原始信號更相似,所以可以更準(zhǔn)確地建才莫感知 上重要的頻譜峰值。由于所建模的高頻子頻帶可以與原始高頻子頻 帶相比較,所以可以輕易地發(fā)現(xiàn)遺失的頻譜成分,即正弦波或噪聲, 然后將它們添加上。
為了得到包絡(luò)形狀,實施方式通過使用參數(shù)將低頻信號采樣調(diào) 換到高頻子頻帶信號而提供了對低頻信號部分的利用,其中參數(shù)包括縮放因子,使得所調(diào)換的低頻信號部分的包絡(luò)遵循所接收信號的 高頻子頻帶信號的包絡(luò)。縮放因子使得能夠調(diào)節(jié)復(fù)制的低頻信號部 分的能量和形狀,以便更好地與實際高頻子頻帶相匹配。
參數(shù)可以包括到低頻信號部分的鏈接,以便根據(jù)實施方式表示 相應(yīng)的高頻子頻帶信號。鏈接可以是到低頻信號部分的指針或者索 引。通過此信息,在構(gòu)建高頻子頻帶時,可以參考低頻信號部分。
為了減小量化比特的數(shù)量,可以將高頻子頻帶信號的包絡(luò)標(biāo)準(zhǔn) 化。標(biāo)準(zhǔn)化使得低頻帶和高頻帶都在標(biāo)準(zhǔn)化的振幅范圍內(nèi)。這樣減 小了需要用來將縮放因子量化的比特數(shù)量。用來標(biāo)準(zhǔn)化的信息必須 由編碼器提供,以便在解碼器中構(gòu)建高頻子頻帶的表示。實施方式 利用線性預(yù)測編碼提供了包絡(luò)標(biāo)準(zhǔn)化??梢岳玫棺V建模來標(biāo)準(zhǔn)化 包絡(luò)。倒譜建模使用信號功率頻譜對數(shù)的逆傅立葉變換。
產(chǎn)生縮放因子可以包括,在線性域中產(chǎn)生縮放因子以便在頻諳 中至少匹配振幅峰值。產(chǎn)生縮放因子還可以包括,根據(jù)實施方式, 至少在對數(shù)域中匹配頻譜能量和/或形狀。
實施方式提供了使用改進(jìn)離散余弦變換(MDCT )在低頻帶中和 /或高頻帶中產(chǎn)生信號采樣。MDCT變換提供了優(yōu)選為實數(shù)的頻譜系 數(shù)。根據(jù)實施方式的MDCT變換可以與任何適合的幀大小一起〗吏用, 尤其可以與用于普通幀的2048個采樣以及用于瞬態(tài)幀的256采樣的 幀大小,以及其間任意其它數(shù)值的幀大'J、 一起使用。
為了獲得與相應(yīng)高頻子頻帶信號最匹配的低頻信號部分,實施 方式提供了使用標(biāo)準(zhǔn)化的相關(guān)性或者Euclidian距離來計算相似性度 量。
為了編碼輸入信號,實施方式提供了對低頻信號采樣進(jìn)行量化 以及至少對縮放因子進(jìn)行量化。到低頻信號部分的鏈接可以是整數(shù)。
還可以增加附加的正弦波,以便改進(jìn)高頻信號的質(zhì)量。為了遵 從這樣的正弦波,實施方式提供了將輸入信號劃分為時間上連續(xù) 的幀,以及在輸入信號內(nèi)的兩個連續(xù)幀中檢測有音調(diào)的部分。有音 調(diào)的部分可以通過增加附加正弦波來增強(qiáng)。通過增大相應(yīng)高頻區(qū)域中的高頻子頻帶數(shù)量,高度有音調(diào)的部分可以另外增強(qiáng)。輸入幀可 以劃分為不同的音調(diào)組,例如,非音調(diào)、有音調(diào)和強(qiáng)音調(diào)。
檢測有音調(diào)部分可以包括使用移位離散傅立葉變換(SDFT)。 SDFT的結(jié)果可以在編碼器中利用以便提供MDCT變換。
本申請的另一方面是用于解碼音頻信號的方法,包括接收經(jīng) 過編碼的比特流,從該比特流中解碼出至少低頻信號和至少涉及低 頻信號部分的參數(shù),利用該低頻信號的采樣以及涉及該低頻信號部 分的參數(shù)來重建至少兩個高頻子頻帶信號,以及輸出包括至少該低 頻信號和至少兩個高頻子頻帶信號的輸出信號。
本申請的進(jìn)一步方面是用于編碼音頻信號的編碼器,包括接 收裝置,其被布置以接收輸入音頻信號;濾波裝置,其被布置以將 該音頻信號至少劃分為低頻帶和高頻帶,并進(jìn)一步被布置以將該高 頻帶分為至少兩個高頻子頻帶信號;以及編碼裝置,其被布置以產(chǎn) 生至少涉及與該高頻帶子頻帶信號最匹配的低頻帶信號部分的參 數(shù)。
本申請的進(jìn)一步方面是用于解碼音頻信號的解碼器,包括接 收裝置,其被布置以接收經(jīng)過編碼的比特流;解碼裝置,其被布置 以從該比特流中解碼出至少低頻信號和至少涉及低頻信號部分的參 數(shù);產(chǎn)生裝置,其被布置以利用該低頻信號的采樣以及涉及該低頻 信號部分的參數(shù)來重建至少兩個高頻子頻帶信號。
本申請的進(jìn)一步方面是用于音頻壓縮的系統(tǒng),包括所描述的解 碼器和所描述的編碼器。
本申請的進(jìn)一步方面涉及用于編碼音頻信號的計算機(jī)程序產(chǎn) 品,該程序包括可操作以引起處理器執(zhí)行以下步驟的指令接收輸 入音頻信號,將該音頻信號至少劃分為低頻帶和高頻帶、將該高頻 帶至少劃分為兩個高頻子頻帶信號,以及產(chǎn)生至少涉及與高頻帶子 頻帶信號最匹配的低頻帶信號部分的參數(shù)。
本申請的另 一 方面是用于解碼比特流的計算機(jī)程序產(chǎn)品,該程 序包括可操作以引起處理器執(zhí)行以下步驟的指令接收經(jīng)過編碼的比特流,從該比特流中解碼出至少低頻信號和至少涉及低頻信號部 分的參數(shù),利用該低頻信號的采樣以及涉及該低頻信號部分的參數(shù) 來重建至少兩個高頻子頻帶信號,以及輸出包括至少該低頻信號和 至少兩個高頻子頻帶信號的輸出信號。
在附圖中示出
圖1是根據(jù)現(xiàn)有技術(shù)的編碼音頻信號的系統(tǒng);
圖2是根據(jù)現(xiàn)有技術(shù)的編碼器;
圖3是根據(jù)現(xiàn)有技術(shù)的解碼器;
圖4是SBR編碼器;
圖5是SBR解碼器;
圖6是不同階段音頻信號的頻譜表示;
圖7是根據(jù)第一實施方式的系統(tǒng);
圖8根據(jù)第二實施方式的系統(tǒng);
圖9是其包絡(luò)標(biāo)準(zhǔn)化了的頻譜;
圖IO是使用音調(diào)檢測的編碼增強(qiáng)。
具體實施例方式
如圖1示意性地示出,通用音頻編碼系統(tǒng)由編碼器和解碼器組 成。示出的編碼系統(tǒng)2具有編碼器4、存儲器或者媒體信道6以及解 碼器8。
編碼器4壓縮輸入音頻信號10,生成比特流12,然后該比特流 12可以被存儲或者通過媒體信道6傳輸??梢栽诮獯a器8中接收比 特流12。解碼器8解壓縮比特流12并產(chǎn)生輸出音頻信號14。與輸 入信號IO有關(guān)的比特流12的比特速率以及輸出音頻信號14的質(zhì)量 是主要特征,這兩個特征定義了編碼系統(tǒng)2的性能。
現(xiàn)代音頻編碼器4的典型結(jié)構(gòu)在圖2中示意性示出。使用分析 濾波器組結(jié)構(gòu)16將輸入信號IO劃分成子頻帶。每個子頻帶都可以使用心理聲學(xué)模型20提供的信息在編碼裝置18中進(jìn)行量化和編碼。 編碼可以是Huffman編碼。量化設(shè)置和編碼才幾制可以由心理聲學(xué)沖莫 型18規(guī)定。經(jīng)過量化和編碼的信息在比特流格式器22中使用,用 于創(chuàng)建比特流12。
比特流12可以在解碼器8中解碼,如圖3示意性所示。解碼器 8可以包括比特流解包裝置24、子頻帶重建裝置26和合成濾波器組 28。
解碼器8計算編碼器4的逆運算,并將比特流12變換回輸出音 頻信號14。在解碼處理期間,在子頻帶重建裝置26中將比特流12 去量化為子頻帶信號。子頻帶信號被饋送入合成濾波器組28,該合 成濾波器組2 8將來自子頻帶信號的音頻信號進(jìn)行合成并創(chuàng)建輸出信 號14。
這在很多情況下都可能高效并感覺上正確地使用僅低頻區(qū)域和 有限量的附加控制信息來合成高頻區(qū)域。最理想地,高頻部分的編 碼僅需要少量控制參數(shù)。由于頻譜的整個上面部分都可以使用少量 信息來合成,所以可以在總比特速率中實現(xiàn)相當(dāng)?shù)墓?jié)約。
當(dāng)前的編碼,諸如MP3pro,除了心理聲學(xué)編碼外,通過引入SBR 編碼機(jī)制來利用音頻信號中的這些屬性。在SBR中,可以使用已編 碼的低頻區(qū)域來單獨產(chǎn)生高頻區(qū)域,如圖4和圖5示意性所示。
圖4示意性示出了編碼器4。編碼器4包括低通濾波裝置30、 編碼裝置31、 SBR裝置32、包絡(luò)提取裝置34和比特流格式器22。
低通濾波器30首先定義截止頻率,該截止頻率以上的輸入信號 IO都被過濾掉。效果在圖6a中示出。只有低于截止頻率36的頻率 才能通過該濾波器。
編碼裝置31利用32個低頻子頻帶執(zhí)行量化和Huffman編碼。 低頻內(nèi)容在編碼裝置31中轉(zhuǎn)換到QMF域中?;诰幋a器31的輸出 來調(diào)換低頻內(nèi)容。該調(diào)換在SBR裝置32中完成。低頻到高頻的調(diào) 換所帶來的效果在圖6b中示出。調(diào)換被盲目地執(zhí)行,使得低頻子頻 帶采樣僅僅是復(fù)制到高頻子頻帶采樣中。在輸入信號的每一幀中類似地執(zhí)行、并且獨立于輸入信號的特征執(zhí)行此操作。
在SBR裝置32中,高頻子頻帶可以基于附加信息進(jìn)行調(diào)節(jié)。這 樣做是為了使所合成高頻區(qū)域的具體特征與原始高頻區(qū)域的具體特 征更為相似。諸如正弦波或噪聲的附加成分可以被添加到高頻區(qū)域, 以便增大與原始高頻區(qū)域的相似性。最后,在包絡(luò)提取裝置34中調(diào) 節(jié)包絡(luò),以便遵循原始高頻頻鐠的包絡(luò)。結(jié)果在圖6c中可見,其中 高頻成分被縮放為更接近于輸入信號的實際高頻成分。
比特流12中包括已編碼的低頻信號與縮放和包絡(luò)調(diào)節(jié)參數(shù)。比 特流12可以在解碼器中被解碼,如圖5示意性示出。
圖5示出了解碼器8,其具有解包裝置24、低頻解碼器38、高 頻重建裝置40、成分調(diào)節(jié)裝置42和包絡(luò)調(diào)節(jié)裝置44。低頻子頻帶 在解碼器38中重建。在高頻重建裝置40中,從低頻子頻帶中靜態(tài) 地重建出高頻子頻帶。可以在成分調(diào)節(jié)裝置42中添加正弦波并且在 包絡(luò)調(diào)節(jié)裝置44中調(diào)節(jié)包絡(luò)。
根據(jù)本申請,從低頻信號采樣到高頻子頻帶的調(diào)換是動態(tài)完成 的,例如,需要檢驗?zāi)膫€低頻信號部分與高頻子頻帶最匹配。創(chuàng)建 相應(yīng)低頻信號部分的索引。對這個索引進(jìn)行編碼并在解碼器中使用, 以便根據(jù)低頻信號構(gòu)建出高頻子頻帶。
圖7示出了編碼系統(tǒng),其具有編碼器4和解碼器8。編碼器4由 高頻編碼裝置50、低頻編碼器52和比特流格式器22組成。編碼器 4可以是更復(fù)雜音頻編碼機(jī)制的一部分。本申請幾乎可以在任何旨在 以低比特速率獲得高質(zhì)量的音頻編碼器中使用。例如,本申請可以 完全與實際的低比特速率音頻編碼器分開使用,例如,本申請可以 置于心理聲學(xué)編碼器(例如,AAC、 MPEG等)的前面。
由于高頻區(qū)域通常包含與低頻區(qū)域類似的頻譜形狀,所以通常 可以達(dá)到良好的編碼性能。由于只需要將復(fù)制的頻譜索引和縮放因 子傳輸至解碼器,所以這可以用相對較低的總比特速率來實現(xiàn)。
在低頻編碼器22內(nèi),對低頻采樣x"W進(jìn)行編碼。在高頻編碼器 50中,為了編碼而創(chuàng)建表示變換的參數(shù)"i、表示縮放的參數(shù)"2和表示包絡(luò)形成的參數(shù)Z,以下對此進(jìn)行更詳細(xì)描述。
首先,將高頻頻鐠劃分為nb個子頻帶。為每個子頻帶從低頻區(qū) 域搜索最相似匹配(即,最相似頻譜形狀)。
該方法可以在改進(jìn)離散余弦變換(MDCT)域中進(jìn)行。由于其良 好的性質(zhì)(50%的覆蓋以及臨界采樣和靈活窗口切換等),MDCT 域在最能代表本領(lǐng)域技術(shù)水平音頻編碼器中使用。MDCT變換按照
下式執(zhí)行 '" wz- q
其中,x(^是輸入信號,W")是長度為2W ( 0 - ic < W)的時 間分析窗口。通常,W在音頻編碼中是1024 (普通幀)或者128采 樣(瞬態(tài))。頻譜系數(shù)X《W可以是實際數(shù)目。提及的幀大小和任何
其它的幀大小都是可行的。
為了創(chuàng)建對高頻子頻帶進(jìn)行描述的參數(shù),需要找到與高頻編碼 器50內(nèi)的高頻子頻帶最匹配的低頻信號部分。高頻編碼器50和低 頻編碼器52可以創(chuàng)建N個MDCT編碼成分,其中x'乂"表示低頻成
分,x"^)表示高頻成分。
利用低頻編碼器52,可以對^個低頻MDCT系數(shù)^(W, o 5 ic < ^進(jìn)行編碼。通常恥》 w/s,但是也可以進(jìn)行其它選擇。
利用^W和原始頻譜XW,目標(biāo)在于創(chuàng)建在所使用度量方面與原 始高頻信號^W-X(^ + W, 0 S ic < W - ^最相似的高頻成分
。 和—起形成了合成頻鐠
原始高頻頻譜^W被劃分為^個非重疊子頻帶。原則上,頻帶
的數(shù)量和頻帶的寬度都可以任意地選擇。例如,當(dāng)W等于1024個采 樣時,可以使用8個等寬的頻帶。另一合理的選擇是基于人耳的 感知特性來選擇頻帶。例如,Bark標(biāo)度或等效矩形帶寬(ERB)標(biāo) 度都可以用來選擇頻帶數(shù)量和頻帶寬度。可以在高頻編碼器中計算高頻信號和低頻成分之間的相似性度量。
讓"作為包含^W的第J個頻帶的列向量,該X"(k)為^采樣長 度。X "可以按照以下方式與編碼的低頻頻譜^ W相比較
<formula>formula see original document page 15</formula>(3)
其中S(a' b)是向量3和b之間的相似度量,義"是包含編碼低
頻頻語^(W的索引"力^ * < 1(力+ ^的向量。所期待低頻信號 部分的長度與當(dāng)前高頻子頻帶的長度一樣,從而基本上僅需要的信 息是索引i<j),該索引i^指示各個低頻信號部分從哪開始。
相似性度量可以用來選擇提供最高相似性的索引"力。相似性 度量用來描述向量的形狀如何相似,而它們的相對振幅并不重要。 對于相似性度量存在很多選擇。 一種可能的實現(xiàn)可以是標(biāo)準(zhǔn)化的相 關(guān)性
<formula>formula see original document page 15</formula>
《4>
該公式提供了對振幅a和b并不敏感的度量。另一合理的可選方 案是基于Euclidian距離的相似性度量
脅pV {5> 相應(yīng)地,很多其它相似性度量也可以使用。
低頻信號采樣中這些最相似的部分可以復(fù)制到高頻子頻帶并可 以使用特定縮放因子來進(jìn)行縮放??s放因子關(guān)注的是經(jīng)過編碼的 高頻頻譜包絡(luò)遵循原始頻譜包絡(luò)。
利用索引"W,與"在形狀上最為相似的所選擇向量^'"需要 縮放到與X"相同的振幅。存在很多縮放的不同技術(shù)。例如,縮放可 以在兩個階段執(zhí)行,首先在線性域中執(zhí)行以便與頻譜中的高振幅峰 值相匹配,然后在對數(shù)域中執(zhí)行以便與能量和形狀相匹配。使用這 些縮放因子對向量進(jìn)行縮放會產(chǎn)生編碼后的高頻成分"。線性域縮放僅按照如下執(zhí)行 其中根據(jù)以下公式獲得",(/〕
注意,可以是正值也可以是負(fù)值。在對數(shù)縮放之前,可以
存儲向量采樣的符號和^的最大對數(shù)值
=max(log,0|;^j) 《9)
現(xiàn)在,可以執(zhí)行對數(shù)縮放,并且將"更新為
v、 ,(/,剩),)+氣' (io)
-10Vii(K^)T , (11)
其中根據(jù)以下公式獲得縮放因子&"》
(1og,0(i相)—r(iogi。(ixw)) (12)
〗ogu)(l^j)- 〖(log,Q(網(wǎng))-氣
此縮放因子將對數(shù)域中波形之間的相似性最大化。可選地,"2(/) 可以這樣選擇使得能量被設(shè)置成大約相等的水平
在上述等式中,變量^"的目的在于確定"中最大值的振幅 (即,頻譜峰)不會縮放到太高(第一縮放因子",(/)已經(jīng)將這些振 幅設(shè)置到正確的水平)。由于在到對數(shù)域的變換期間原始采樣的符 號信息會丟失,所以變量K"用來存儲原始采樣的符號。
在已經(jīng)對頻帶進(jìn)行縮放完畢后,合成的高頻頻譜W可以通過
合并向量&' j = °' ""' & — i來獲取。
在已經(jīng)選擇完參數(shù)以后,需要對參數(shù)進(jìn)行量化以便將高頻區(qū)域重建信息傳輸至解碼器8。
為了能夠在解碼器8中重建&W,對于每個頻帶都需要參數(shù) ^力、W力和"2(i)。在解碼器8中,高頻產(chǎn)生裝置54利用這些參數(shù)。 由于索引i(力是整數(shù),則可以將其如此提交。"i(乃和"2("可以使用
例如標(biāo)量量化或者向量量化來進(jìn)行量化。
這些參數(shù)經(jīng)過量化的版本A")和^(/)在高頻產(chǎn)生裝置54中使
用,以便根據(jù)等式(6)和(10)來構(gòu)建義"W。
低頻解碼裝置56根據(jù)公式2從輸出信號14中將低頻信號與重 建高頻子頻帶一起解碼出來。
利用包絡(luò)標(biāo)準(zhǔn)化裝置圖7中所示系統(tǒng)可以進(jìn)一步增強(qiáng)。圖8中 所示系統(tǒng)除了包括圖7中所示系統(tǒng)以外,還包括包絡(luò)標(biāo)準(zhǔn)化裝置58 和包絡(luò)合成裝置60。
在此系統(tǒng)中,高頻編碼技術(shù)用于使用編碼器4中的包絡(luò)標(biāo)準(zhǔn)化 裝置58來產(chǎn)生包絡(luò)標(biāo)準(zhǔn)化頻譜。實際包絡(luò)合成在解碼器8中單獨的 包絡(luò)合成裝置60中執(zhí)行。
包絡(luò)標(biāo)準(zhǔn)化可以利用例如LPC-分析或者倒譜建模來執(zhí)行。應(yīng) 當(dāng)注意,在具有包絡(luò)標(biāo)準(zhǔn)化的情況下,描述原始高頻頻譜包絡(luò)的包 絡(luò)參數(shù)必須提交給解碼器,如圖8所示。
在SBR中,將附加正弦波和噪聲成分添加到高頻區(qū)域。在以 上描述的應(yīng)用中,這同樣是可行的。如果需要的話,附加成分還可 以輕易地添加。這是因為在所描述的方法中,可以測量原始頻譜與 合成頻鐠之間的不同,并且由此找到頻譜形狀中存在顯著不同的位 置。例如,由于在普通BWE編碼器中,頻譜形狀與原始頻譜顯著不 同,所以通常確定是否應(yīng)該添加附加的正弦波或者噪聲成分變得更 加困難。
已經(jīng)注意到,在某些情況中,當(dāng)輸入信號很有音調(diào)(tonal), 則與原始信號相比,編碼信號的質(zhì)量會降低。這是因為編碼的高頻 區(qū)域可能沒有與原始信號 一 樣繼續(xù)保持幀與另 一 幀之間的周期性。 周期性丟失是因為某些周期(正弦)成分可能丟失,或者現(xiàn)有周期成分的振幅在幀與另 一 幀之間變換過大。
為了在即使被用來重建高頻子頻帶的低頻信號采樣并不能代 表整個正弦波時也包括音調(diào)部分,需要提供兩個更進(jìn)一步的步驟。
在第一步驟中,可以檢測到具有可能質(zhì)量降低的音調(diào)信號部
分??梢酝ㄟ^在移位離散傅立葉變換(SDFT)域比較兩個連續(xù)幀之 間的相似性來檢測該音調(diào)部分。對于此目的,SDFT是有用的變換, 因為其還包含相位信息,卻仍然緊密涉及在編碼器其它部分中使用 的MDCT變換。
可以在剛好完成瞬態(tài)檢測之后并且在初始化實際高頻區(qū)域編 碼之前,執(zhí)行音調(diào)檢測。由于瞬態(tài)幀通常不包含音調(diào)成分,則僅在 當(dāng)前幀和之前的幀是正常的長幀(例如,2048采樣)時,應(yīng)用音調(diào) 檢測。
如上所述,音調(diào)檢測是基于移位離散傅立葉變換(SDFT)進(jìn) 行的,其中SDFT可以針對2N個采樣長幀進(jìn)行定義
Z /1(/1)jc(m) exp(i2;r(rt + + v) / 2iV), (14》
神4
其中h&)是窗口 , x(n)是輸入信號,u和v分別表示時域移
位和頻域移位。這些域移位可以這樣選擇使得u = (N + "/2并且 v = 1/2,自此之后,保持X⑨^al《y(k))。
這樣,不需要單獨計算SDFT和MDCT變換,而是可以首先
為音調(diào)分析計算SDFT變換,然后直接獲取作為SDFT系數(shù)實部的
MDCT變換。這樣,音調(diào)檢測并不顯著增大計算的復(fù)雜度。
在yifc"和nWM分別表示當(dāng)前幀和之前幀的SDFT變換的情
況下,幀之間的相似度可以用以下7>式來測量
其中地+l對應(yīng)于高頻編碼的極限頻率。參數(shù)s越小,高頻頻 -潛越相似?;赟的值,可以將幀進(jìn)^f于如下分類
18<formula>formula see original document page 19</formula>
極限因子和slim2的良好選擇分別是0.02和0.2。但是, 也可以做出其他選擇。另外,可以使用不同的變量,并且例如,這 些類中的一個類可以完全地被刪除。
如圖10所示,如上所述的音調(diào)檢測(62)可以基于輸入信號 10執(zhí)行。
基于音調(diào)檢測(62),輸入幀分被為三組非音調(diào)(64)、有 音調(diào)(66)和強(qiáng)音調(diào)(66),如圖10所示。
在音調(diào)檢測(62)后,在第二步,可以通過將附加正弦波添加 到高頻區(qū)域以及可能地通過增大用來如上所述創(chuàng)建高頻區(qū)域的高頻 子頻帶數(shù)量,來改善音調(diào)部分的質(zhì)量。
最典型的情況是信號是非音調(diào)(64),然后繼續(xù)進(jìn)行如上所 述的編z碼。
如果將輸入信號分類到有音調(diào)(66),則可以在如上所迷應(yīng)用 編碼后,將附加正弦波添加到高頻頻譜。可以向MDCT域頻譜添加 固定數(shù)量的正弦波。正弦波可以直接添加到原始頻譜與編碼后的頻 譜之間絕對差最大的頻率處。正弦波的位置和振幅被量化并提交給 解碼器。
當(dāng)檢測到幀是有音調(diào)的(或者強(qiáng)音調(diào)的),則可以將正弦波添 加到頻譜的高頻區(qū)域。在x "和&w分別表示原始高頻子頻帶成々 和經(jīng)過編碼的高頻子頻帶成分的前提下,可以將第一正弦波添加到 索引&,該索引^可以從以下公式獲得
<formula>formula see original document page 19</formula>
正弦波的振幅(包括其符號)可以按照以下公式進(jìn)行定義 <formula>formula see original document page 19</formula> (18)說明書第15/15頁
最后,可以將^W更新為
<formula>formula see original document page 20</formula> (19)
可以重復(fù)等式(17) - ( 19),直到已經(jīng)添加了期待數(shù)量的正 弦波為止。通常,已經(jīng)存在的四個附加正弦波可以在音調(diào)部分期間 產(chǎn)生明顯改善的結(jié)果。正弦波的振幅Ai可以被量化然后提交到解碼 器8。還可以提交正弦波的位置& 。另外,可以通知解碼器8當(dāng)前 幀是有音調(diào)的。
已經(jīng)注意到,在音調(diào)部分期間,第二縮放因子"2可能不能改 善質(zhì)量,繼而被刪除。
當(dāng)檢測到強(qiáng)音調(diào)部分(68)時,已知的是,當(dāng)前部分對于高頻 區(qū)域編碼尤其有挑戰(zhàn)性。因此,僅僅添加正弦波是不夠的??梢酝?過增大高頻編碼的準(zhǔn)確性來進(jìn)一步改善質(zhì)量。這可以通過添加用來 創(chuàng)建高頻區(qū)域的頻帶數(shù)量來進(jìn)行。
在強(qiáng)音調(diào)部分期間,高頻子頻帶的幀與另 一 幀之間非常相似。 為了在編碼后的信號中維持這種相似,可以應(yīng)用專用動作。特別是 如果高頻子頻帶的數(shù)量nb相對較低(即,8或者更低),則高頻子
頻帶的數(shù)量可以增大到更高的等級。例如,16個高頻子頻帶通???以提供更準(zhǔn)確的性能。
除了較大數(shù)量的頻帶外,還可以添加較大數(shù)量的正弦波。通常, 良好的解決辦法是在"正常,,的有音調(diào)期間使用兩倍的多個正弦波。
與"正常,,幀相比,增大高頻子頻帶的數(shù)量以及增大正弦波的 數(shù)量都可以輕易地將強(qiáng)音調(diào)部分的比特速率增加一倍。但是,強(qiáng)音 調(diào)部分是非常特殊的情況,并且很少發(fā)生,所以對于平均比特速率 的增加是非常小的。
權(quán)利要求
1.一種用于編碼音頻信號的方法,包括-接收輸入音頻信號,-將該音頻信號至少劃分為低頻帶和高頻帶,-將該高頻帶至少劃分為兩個高頻子頻帶信號,-在低頻帶信號部分內(nèi)確定哪個部分與高頻子頻帶信號最匹配,以及-產(chǎn)生至少涉及與高頻帶子頻帶信號最匹配的低頻帶信號部分的參數(shù)。
2. 根據(jù)權(quán)利要求1的方法,其中產(chǎn)生參數(shù)進(jìn)一步包括產(chǎn)生用于縮 放該低頻帶信號部分的至少一個縮放因子。
3. 根據(jù)權(quán)利要求2的方法,其中該縮放因子是這樣產(chǎn)生的使 用該參數(shù)調(diào)換到該高頻子頻帶信號的該低頻信號部分的包絡(luò)遵循所 接收信號的高頻子頻帶信號的包絡(luò)。
4. 根據(jù)權(quán)利要求2的方法,其中產(chǎn)生縮放因子包括在線性域中 產(chǎn)生縮放因子以便至少與該頻譜的振幅峰值匹配。
5. 根據(jù)權(quán)利要求2的方法,其中產(chǎn)生縮放因子包括在對數(shù)域中 產(chǎn)生縮放因子以便至少與該頻譜的能量和/或形狀匹配。
6. 根據(jù)權(quán)利要求1的方法,其中產(chǎn)生參數(shù)包括產(chǎn)生到代表該相 應(yīng)高頻子頻帶信號的低頻信號部分的鏈接。
7. 根據(jù)權(quán)利要求1的方法,其中在該低頻帶信號部分中確定哪 個與高頻子頻帶信號最匹配包括至少使用以下各項之一A)標(biāo)準(zhǔn)化的相關(guān)性, B ) Euclidian距離。
8. 根據(jù)權(quán)利要求1的方法,其中至少該低頻信號部分的采樣是 使用改進(jìn)離散余弦變換產(chǎn)生的。
9. 根據(jù)權(quán)利要求1的方法,進(jìn)一步包括標(biāo)準(zhǔn)化該高頻子頻帶信號的包絡(luò)。
10. 根據(jù)權(quán)利要求2的方法,進(jìn)一步包括將對低頻信號的采樣進(jìn) 行量化,并至少對該縮放因子進(jìn)行量化。
11. 根據(jù)權(quán)利要求1的方法,其中該輸入信號被劃分為時間連續(xù) 幀,并進(jìn)一步包括在該輸入信號中兩個連續(xù)幀內(nèi)檢測有音調(diào)部分。
12. 根據(jù)權(quán)利要求U的方法,其中檢測有音調(diào)部分包括使用移 位離散傅立葉變換。
13. 根據(jù)權(quán)利要求11的方法,進(jìn)一步包括向有音調(diào)部分添加正 弦波。
14. 根據(jù)權(quán)利要求11的方法,進(jìn)一步包括增大用于有音調(diào)部分 的高頻子頻帶數(shù)量。
15. —種用于解碼音頻信號的方法,具有 -接收經(jīng)編碼的比特 流,-從該比特流中解碼出至少低頻信號和至少涉及低頻信號部分 的參數(shù),-利用該低頻信號的采樣以及涉及該低頻信號部分的參數(shù)來重 建至少兩個高頻子頻帶信號,以及-輸出包括至少該低頻信號和至少兩個高頻子頻帶信號的輸出 信號。
16. —種用于編碼音頻信號的編碼器,包括 -接收裝置,其被布置以接收輸入音頻信號,-濾波裝置,其被布置以將該音頻信號至少劃分為低頻帶和高頻 帶,并進(jìn)一步被布置以將該高頻帶分為至少兩個高頻子頻帶信號, 以及-編碼裝置,其被布置以產(chǎn)生至少涉及與該高頻帶子頻帶信號最 匹配的低頻帶信號部分的參數(shù)。
17. 根據(jù)權(quán)利要求16的編碼器,其中該編碼裝置被布置以產(chǎn)生 用于縮放該低頻帶信號部分的至少一個縮放因子。
18. 根據(jù)權(quán)利要求16的編碼器,其中該編碼裝置被布置以產(chǎn)生該縮放因子,使得使用該參數(shù)調(diào)換到該高頻子頻帶信號的該低頻信 號部分的包絡(luò)遵循所接收的信號的高頻子頻帶信號的包絡(luò)。
19. 根據(jù)權(quán)利要求16的編碼器,其中該濾波裝置被布置以將該 輸入信號劃分為時間連續(xù)幀,并用于檢測該輸入信號中兩個連續(xù)幀 內(nèi)有音調(diào)的部分。
20. 根據(jù)權(quán)利要求19的編碼器,其中該濾波器被布置以使用移 位離散傅立葉變換檢測有音調(diào)部分。
21. 根據(jù)權(quán)利要求19的編碼器,其中該編碼裝置被布置以向有 音調(diào)部分添加正弦波。
22. 根據(jù)權(quán)利要求19的編碼器,其中該編碼裝置被布置以增大 用于有音調(diào)部分的高頻子頻帶數(shù)量。
23. —種用于解碼音頻信號的解碼器,包括-接收裝置,其被布置以接收經(jīng)過編碼的比特流,-解碼裝置,其被布置以從該比特流中解碼出至少低頻信號和至少涉及低頻信號部分的參數(shù),-產(chǎn)生裝置,其被布置以利用該低頻信號的采樣以及涉及該低頻信號部分的參數(shù)來重建至少兩個高頻子頻帶信號。
24. —種用于數(shù)字音頻壓縮的系統(tǒng),包括根據(jù)權(quán)利要求23的解 碼器和根據(jù)權(quán)利要求16的編碼器。
25. —種用于編碼音頻信號的計算機(jī)程序產(chǎn)品,該程序包括可操 作以引起處理器執(zhí)行以下步驟的指令-接收輸入音頻信號,-將該音頻信號至少劃分為低頻帶和高頻帶, -將該高頻帶至少劃分為兩個高頻子頻帶信號,以及 -產(chǎn)生至少涉及與高頻帶子頻帶信號最匹配的低頻帶信號部分 的參數(shù)。
26. 根據(jù)權(quán)利要求25的計算機(jī)程序,其可操作以引起處理器將 該輸入信號劃分為時間連續(xù)幀,并檢測該輸入信號中兩個連續(xù)幀內(nèi) 有音調(diào)部分。
27. 根據(jù)權(quán)利要求26計算機(jī)程序產(chǎn)品,其可操作以引起處理器 使用移位離散傅立葉變換來檢測有音調(diào)部分。
28. 根據(jù)權(quán)利要求26的計算機(jī)程序產(chǎn)品,其可操作以引起處理 器增大用于有音調(diào)部分的高頻子頻帶數(shù)量。
29. —種用于解碼比特流的計算機(jī)程序產(chǎn)品,該程序包括可操作 以引起處理器執(zhí)行以下步驟的指令- 4妄收經(jīng)編碼的比特 流,-從該比特流中解碼出至少低頻信號和至少涉及低頻信號部分 的參數(shù),-利用該低頻信號的采樣以及涉及該低頻信號部分的參數(shù)來重 建至少兩個高頻子頻帶信號,以及-輸出包括至少該低頻信號和至少兩個高頻子頻帶信號的輸出 信號。
全文摘要
本申請涉及音頻編碼和解碼技術(shù)。為了增強(qiáng)已編碼的音頻信號,提供了將音頻信號至少劃分為低頻帶和高頻帶,將高頻帶至少劃分為兩個高頻子頻帶信號,并產(chǎn)生至少涉及與高頻子頻帶信號最匹配的低頻帶信號部分的參數(shù)。
文檔編號G10L19/02GK101297356SQ200580051976
公開日2008年10月29日 申請日期2005年11月4日 優(yōu)先權(quán)日2005年11月4日
發(fā)明者M·塔米 申請人:諾基亞公司