亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音頻信號的編碼和解碼的制作方法

文檔序號:11451776閱讀:260來源:國知局
音頻信號的編碼和解碼的制造方法與工藝

相關(guān)申請的交叉引用

本申請要求于2014年10月24日提交的美國臨時專利申請第62/068,187號的優(yōu)先權(quán),其全部內(nèi)容通過引用并入本文中。

本文中公開的本發(fā)明通常涉及音頻信號的編碼和解碼,具體地,涉及具有針對高幀速率的有利縮放行為的音頻比特流格式。



背景技術(shù):

現(xiàn)在可用的大多數(shù)商業(yè)應(yīng)用中使用的音頻和視頻幀速率(或幀頻率)遵循單獨建立的行業(yè)標(biāo)準(zhǔn),所述行業(yè)標(biāo)準(zhǔn)表現(xiàn)在記錄和重放軟件產(chǎn)品、硬件部件以及用于在通信方之間傳輸音頻和視頻的商定格式方面。音頻幀速率通常特定于不同的編碼算法,并且與特定音頻采樣頻率(如44.1khz和48khz)相關(guān)聯(lián),所述特定采樣頻率與其各自地理區(qū)域中的視頻幀速率29.97fps(ntsc)和25fps(pal)一樣眾所周知;另外的標(biāo)準(zhǔn)視頻幀速率包括23.98fps、24fps和30fps,或者以更廣義的形式,24fps、25fps、30fps和(24,25,30)×1000/1001fps。盡管從模擬分發(fā)轉(zhuǎn)換為數(shù)字分發(fā),但嘗試聯(lián)合或協(xié)調(diào)音頻幀速率尚未成功,這意味著音頻幀(例如,適合于通過網(wǎng)絡(luò)傳輸?shù)姆纸M或編碼單元)通常與視聽數(shù)據(jù)流中的整數(shù)個視頻幀不對應(yīng)。

由于時鐘漂移或者當(dāng)從不同的源接收到幾個流以用于在服務(wù)器中公共處理、編輯或接合(splice)(廣播站中經(jīng)常遇到的情況)時,同步視聽數(shù)據(jù)流的需求重復(fù)出現(xiàn)。通過在一個流中復(fù)制或丟棄視頻幀(例如,準(zhǔn)備用于接合的流)來改善兩個視聽數(shù)據(jù)流之間的視頻-視頻同步性的嘗試通常在音頻幀的大小與視頻幀的大小不匹配的情況下導(dǎo)致該視聽數(shù)據(jù)流內(nèi)的音頻-視頻滯后。通常,即使與視頻編輯對應(yīng)的音頻幀被刪除或復(fù)制,延遲也會持續(xù)——至少一些非零持續(xù)時間。

以更多的處理為代價,可以通過在同步期間將音頻臨時解碼為獨立于幀劃分的低級格式(例如,以原始采樣頻率解析的基帶格式或脈沖編碼調(diào)制(pcm))來創(chuàng)建更大的機動空間。然而,這樣的解碼模糊了元數(shù)據(jù)對特定音頻片段的精確錨定,并且通過解碼為“完美的”中間格式而造成不能補救的信息丟失。作為一個示例,動態(tài)范圍控制(drc)通常是模式依賴性的和設(shè)備依賴性的,因此僅能在實際重放時被用掉;在整個音頻包中管理drc特性的數(shù)據(jù)結(jié)構(gòu)在同步發(fā)生之后難以如實地恢復(fù)。因此,如果經(jīng)受復(fù)雜性約束,則經(jīng)過連續(xù)解碼、同步和編碼階段來保存這種類型的元數(shù)據(jù)的任務(wù)不是簡單的任務(wù)。

可能出現(xiàn)與以下遺留基礎(chǔ)結(jié)構(gòu)有關(guān)的甚至更嚴(yán)重的困難,所述遺留基礎(chǔ)結(jié)構(gòu)被設(shè)計成攜載兩通道pcm信號,從而能夠處理僅以編碼形式的多通道內(nèi)容。

在給定幀中的數(shù)據(jù)完全對應(yīng)于記錄和編碼的視聽信號中的同一時間段的意義上,幀同步地(frame-synchronously)對音頻和視頻數(shù)據(jù)進行編碼確實更方便。在視聽流的以幀方式的操縱(frame-wisemanipulation)下,即在流中復(fù)制或拒絕一個或更多個完整的獨立編碼單元,這保留了音頻-視頻同步性。dolbyetm音頻格式可用的幀長度與視頻幀長度相匹配。然而,在典型的比特率為448kbps的情況下,這種格式主要是為了專業(yè)生產(chǎn)的目的而設(shè)計的,硬介質(zhì)像數(shù)字錄像帶作為其首選的存儲形式。

在申請人的共同待決的尚未公布的申請pct/ep2014/056848中,提出了與以下音頻格式兼容的系統(tǒng)和方法:該音頻格式作為幀同步視聽格式的一部分,適合于分發(fā)目的。

需要作為幀同步視聽格式的一部分、適用于分發(fā)目的的替選音頻格式,并且該替選音頻格式具有針對高幀速率的改進的縮放行為。還需要適合于其使用的編碼和解碼設(shè)備。

附圖說明

在下文中,將更詳細(xì)地并參照附圖描述示例實施方式,其中:

圖1是根據(jù)示例實施方式的用于將音頻信號表示為音頻比特流的音頻處理系統(tǒng)的一般框圖;

圖2是根據(jù)示例實施方式的將音頻信號表示為音頻比特流的方法的流程圖;

圖3和圖4示出了根據(jù)示例性實施方式的由圖1所示的音頻處理系統(tǒng)提供的音頻比特流的示例;

圖5是根據(jù)示例實施方式的用于重構(gòu)由比特流表示的音頻信號的音頻處理系統(tǒng)的一般框圖;

圖6是根據(jù)示例實施方式的重構(gòu)由比特流表示的音頻信號的方法的流程圖;以及

圖7是根據(jù)示例實施方式的用于對表示音頻信號的音頻比特流進行轉(zhuǎn)碼的音頻處理系統(tǒng)的一般框圖。

所有附圖是示意性的,并且通常僅示出為了闡明本發(fā)明所必需的部分,而其他部分可以省略或僅僅是建議的。

具體實施方式

如本文中使用的,音頻信號可以是獨立音頻信號、視聽信號或多媒體信號的音頻部分、或者與元數(shù)據(jù)組合的音頻信號中的任何音頻信號。

i.概述-編碼器側(cè)

根據(jù)第一方面,示例實施方式提出了用于將音頻信號表示為音頻比特流的音頻處理系統(tǒng)、方法和計算機程序產(chǎn)品。根據(jù)第一方面,所提出的系統(tǒng)、方法和計算機程序產(chǎn)品通常可以共享相同的特征和優(yōu)點。

根據(jù)示例實施方式,提供了將音頻信號表示為音頻比特流的方法。該方法包括:通過使用對應(yīng)于音頻信號的第一采樣數(shù)目的步幅(stride)(本文中稱為基本步幅)對音頻信號的片段至少執(zhí)行信號分析,來將音頻信號的片段編碼為可解碼音頻數(shù)據(jù)集。所述可解碼音頻數(shù)據(jù)集對應(yīng)于第一幀速率和每幀的音頻信號的第一采樣數(shù)目。該方法包括:將可解碼音頻數(shù)據(jù)集分成n個部分,其中n≥2;以及形成攜載各個部分的n個比特流幀。比特流幀具有與每個比特流幀的音頻信號的第二采樣數(shù)目對應(yīng)的第二幀速率。第一采樣數(shù)目是第二采樣數(shù)目的n倍。該方法包括:輸出比特流,該比特流被分割成包括所形成的n個比特流幀的比特流幀。

在視聽數(shù)據(jù)流中,音頻幀和視頻幀可以同步,并且可以具有相等的持續(xù)時間,例如有助于與接合或時鐘漂移的補償有關(guān)的幀丟棄或幀復(fù)制。為了保持用于較高視頻幀速率的視聽數(shù)據(jù)流中的音頻-視頻同步性,也可以增加音頻幀速率。然而,雖然通常使用預(yù)測編碼來降低增加視頻幀速率的比特率成本,但是由于音頻內(nèi)容可能在較短的時間尺度上變化,以及與視頻內(nèi)容相比,可能與連續(xù)幀之間的較低相關(guān)度相關(guān)聯(lián),所以對于音頻幀而言,預(yù)測編碼可能效率較低。為了本公開內(nèi)容的目的,除非另有說明,否則視頻幀對應(yīng)于一個完整的屏幕圖像(例如,序列中的靜止圖像),而音頻幀原則上可以攜載與具有任何持續(xù)時間的音頻信號片段對應(yīng)的音頻數(shù)據(jù)。

本方法的與攜載與第一(較低)幀速率相關(guān)聯(lián)的可解碼音頻數(shù)據(jù)集一起提供第二(較高)幀速率的n個比特流幀的能力允許保持較高視頻幀速率的視聽同步性,而沒有比特率消耗的相應(yīng)增加。更確切地說,根據(jù)本方法以增加的幀速率進行操作通常產(chǎn)生以下比特率:該比特率低于在使用具有這樣的較高幀速率的常規(guī)音頻幀時所需的比特率。因此,本方法可以例如有助于視聽數(shù)據(jù)流的接合和/或有助于對時鐘漂移的補償。

實際上,即使n個比特流幀仍然可能需要包含對于符合幀格式(參見下文)而言必需的附加的非有效載荷數(shù)據(jù),可解碼音頻數(shù)據(jù)集可以對應(yīng)于由第一(較低)幀速率的常規(guī)音頻幀攜載的數(shù)據(jù)量,與使用具有第二(較高)幀速率的常規(guī)音頻幀相比,從編碼器側(cè)傳輸?shù)浇獯a器側(cè)的總數(shù)據(jù)量可能會減少。特別地,以基本步幅而不是以較短的步幅(例如,對應(yīng)于音頻信號的第二采樣數(shù)目)執(zhí)行信號分析,減少了在解碼器側(cè)上再次合成音頻信號所需的數(shù)據(jù)量,從而降低將數(shù)據(jù)傳輸至解碼器側(cè)所需的比特率。

例如,可以不考慮由比特流幀攜載的音頻數(shù)據(jù)來執(zhí)行將音頻比特流與其它比特流接合。換言之,執(zhí)行接合的設(shè)備或單元無需意識到以下事實:可能需要所有n個比特流幀來重構(gòu)音頻信號的片段,以及例如將比特流幀視為好像它們能夠被獨立地解碼一樣??梢岳缤ㄟ^隱藏可能不允許成功解碼的這樣的比特流幀來在解碼器側(cè)上處理接合比特流中的可能丟失的比特流幀。

可解碼音頻數(shù)據(jù)集是指足以解碼音頻信號的片段的音頻數(shù)據(jù)集。在以下意義上可解碼音頻數(shù)據(jù)集可以是完整的:(在解碼器側(cè)上可以使用例如非有效載荷數(shù)據(jù)如開銷位、報頭或前同步碼來識別可解碼音頻數(shù)據(jù)集時)在沒有與音頻信號的片段相關(guān)的附加數(shù)據(jù)的情況下,可以執(zhí)行對音頻信號的片段的解碼。

通過使用與音頻信號的第一采樣數(shù)目對應(yīng)的基本步幅執(zhí)行信號分析意味著:信號分析在音頻信號的一定采樣數(shù)目的分析窗口內(nèi)執(zhí)行,并且當(dāng)音頻信號的下一個片段要被編碼時,分析窗口移動與基本步幅相同數(shù)目的采樣??梢岳缬媒化B的分析窗口來執(zhí)行信號分析,在這種情況下,分析窗口可以比基本步幅更長。在另一示例中,分析窗口的長度可以與基本步幅一致。

應(yīng)當(dāng)理解的是,如果音頻信號是多通道信號,則基本步幅可以對應(yīng)于以每通道為基礎(chǔ)的音頻信號的第一采樣數(shù)目,而不是作為各個通道的采樣的和。

對音頻信號的片段進行編碼的步驟可以包括例如多個子步驟,其中的一個或更多個子步驟可以包括以基本步幅進行信號分析。

可解碼音頻數(shù)據(jù)集可以表示與音頻信號的第一采樣數(shù)目對應(yīng)的音頻信號的片段??山獯a音頻數(shù)據(jù)集可以對應(yīng)于具有第一幀速率的幀。

分割可解碼音頻數(shù)據(jù)集可以例如包括將所述可解碼數(shù)據(jù)集劃分成n個至少大小大致相等的部分,例如,包括至少大致相同數(shù)目的比特。

在以下意義上n個部分中的每個部分可以是不完整的音頻數(shù)據(jù)集:在不訪問其他部分的情況下,一個部分可能不足以解碼音頻信號的片段(或子片段)。

對于n個比特流幀中的每個比特流幀,n個比特流幀可以例如是比特流幀的最小集合,該最小集合包括該比特流幀,并且來自該最小集合的音頻數(shù)據(jù)可以被結(jié)合以對該比特流幀所攜載的數(shù)據(jù)所表示的音頻信號的片段進行解碼。換言之,n個比特流幀可以是攜載最初包含在相同的可解碼音頻數(shù)據(jù)集中的數(shù)據(jù)的那些比特流幀。

在以下意義上比特流幀對應(yīng)于第二(較高)幀速率:n個比特流幀一起表示與對應(yīng)于第一(較低)幀速率的可解碼音頻數(shù)據(jù)集相同的音頻信號片段。

類似地,在以下意義上比特流幀對應(yīng)于每個比特流幀的第二(較小)采樣數(shù)目:n個比特流幀一起表示也由可解碼音頻數(shù)據(jù)集所表示的第一(較高)數(shù)目的采樣。

應(yīng)當(dāng)理解的是,比特流幀可以例如攜載音頻信號的片段的頻譜表示的相應(yīng)部分,并且比特流幀之一與音頻信號的第二(較小)數(shù)目的采樣之間可以不存在關(guān)連。

在以下意義上n個比特流幀可以例如符合音頻格式:比特流幀可以攜載有效載荷和元數(shù)據(jù),在初級流水平上,元數(shù)據(jù)符合音頻格式,例如,如在運動圖像專家組(mpeg)初級流中所提供的音頻格式。應(yīng)當(dāng)理解的是,雖然在這種意義上符合音頻格式,但是由比特流幀攜載的有效載荷和至少一些元數(shù)據(jù)可以例如具有與本領(lǐng)域已知的音頻幀中的類型和/或格式不同的類型和/或格式。

攜載n個部分的n個比特流幀可以例如被輸出為比特流中的n個連續(xù)的比特流幀。

在示例實施方式中,執(zhí)行信號分析可以包括以基本步幅執(zhí)行:頻譜分析;能量分析;和/或熵分析。可以例如執(zhí)行具有基本步幅的頻譜分析,以將音頻信號的片段從時域轉(zhuǎn)換到頻域。可以執(zhí)行例如具有基本步幅的能量分析,以用基于能量的編碼技術(shù)對音頻信號的片段進行編碼??梢詧?zhí)行例如具有基本步幅的熵分析,以用基于熵分析的編碼技術(shù)對音頻信號進行編碼。

在示例實施方式中,對音頻信號的片段進行編碼可以包括:應(yīng)用以基本步幅作為變換步幅的加窗變換;和/或計算下混信號以及用于根據(jù)該下混信號對音頻信號進行參數(shù)重構(gòu)的參數(shù),其中基于信號分析來計算所述參數(shù)。

加窗變換可以例如是諧波變換,如例如采用交疊的變換窗口的修正離散余弦變換(mdct)。

音頻信號可以是例如多通道音頻信號,下混信號可以是比多通道信號具有更少的通道的信號,例如,在多通道信號的通道的線性組合時獲得的信號。下混信號可以是例如多通道音頻信號的單通道或立體聲下混。

在示例實施方式中,該方法可以包括:將元數(shù)據(jù)包括在攜載所述部分的n個比特流幀中的至少一個比特流幀中。元數(shù)據(jù)可以指示:能夠從n個比特流幀所攜載的部分獲得完整的可解碼音頻數(shù)據(jù)集。

n個比特流幀中的每個比特流幀可以例如攜載用于將其標(biāo)識為屬于一組n個比特流幀的元數(shù)據(jù),其中能夠從該一組n個比特流幀獲得可解碼音頻數(shù)據(jù)集。在另一示例中,比特流幀之一可以攜載標(biāo)識所有n個比特流幀的元數(shù)據(jù),而該組中的其他n-1個比特流幀不一定攜載這樣的元數(shù)據(jù)。比特流可以例如包括不攜載這樣的元數(shù)據(jù)的其他比特流幀。

元數(shù)據(jù)可以允許n個比特流幀相對于彼此位于非預(yù)定的位置。元數(shù)據(jù)可以允許n個比特流幀之間的其他比特流幀。元數(shù)據(jù)可以允許檢測何時例如由于接合或幀丟棄而導(dǎo)致n個比特流幀中的一個或更多個比特流幀在比特流中丟失。

在示例實施方式中,音頻比特流可以與視頻幀流相關(guān)聯(lián)。該方法還可以包括:響應(yīng)于包括某個類型的視頻幀的視頻幀的流,通過以與音頻信號的第二采樣數(shù)目對應(yīng)的縮短步幅對與視頻幀時間相關(guān)的音頻信號的片段至少執(zhí)行信號分析,來將與視頻幀時間相關(guān)的音頻信號的片段編碼為第二可解碼音頻數(shù)據(jù)集。第二可解碼音頻數(shù)據(jù)集可以對應(yīng)于第二幀速率和每幀的音頻信號的第二采樣數(shù)目。該方法可以包括:將攜載第二可解碼音頻數(shù)據(jù)集的比特流幀包括在比特流中。

視頻幀的流可以例如在與某個類型的幀(如獨立編碼的視頻幀)相鄰的點處被接合,以便于在解碼器側(cè)上對接合的視頻幀序列進行解碼。將與所述某個類型的視頻幀時間相關(guān)的音頻信號的片段編碼為與第二幀速率對應(yīng)的第二可解碼音頻數(shù)據(jù)集的方法以及將攜載第二可解碼音頻數(shù)據(jù)集的比特流幀包括在比特流中的方法允許在解碼器側(cè)上對音頻信號的該片段獨立解碼。因此,在以下情況下本示例實施方式可以便于對音頻信號的該片段的解碼:例如由于將包括音頻比特流和視頻幀的流的數(shù)據(jù)的視聽流與一個或更多個其他視聽數(shù)據(jù)流接合而導(dǎo)致來自音頻比特流的先前或隨后的比特流幀可能在解碼器側(cè)上丟失。

與某個類型的視頻幀時間相關(guān)的音頻信號的片段可以例如對應(yīng)于想要在顯示器上再現(xiàn)所述某個類型的視頻幀的時間點。

視頻幀的流可以例如包括獨立編碼的幀和預(yù)測編碼的幀(具有對相鄰幀的單向或雙向依賴),并且某個類型的視頻幀可以例如是獨立編碼的視頻幀。

該方法可以例如包括:檢測視頻幀的流中某個類型的視頻幀的存在。可以例如經(jīng)由來自視頻編碼器的信令來檢測某個類型的視頻幀的存在。

以縮短的步幅執(zhí)行信號分析可以例如包括以縮短的步幅執(zhí)行:頻譜分析;能量分析;和/或熵分析。

對與某個類型的視頻幀時間相關(guān)的音頻信號的片段進行編碼可以例如包括:應(yīng)用具有縮短的步幅作為變換步幅的加窗變換;和/或計算下混信號以及用于根據(jù)該下混信號對音頻信號進行參數(shù)重構(gòu)的參數(shù),其中基于具有縮短的步幅的信號分析來計算所述參數(shù)。

在示例實施方式中,該方法可以包括:響應(yīng)于包括某個類型的視頻幀的視頻幀的流,通過對n個連續(xù)片段中的每個片段至少應(yīng)用具有縮短的步幅的信號分析,來將音頻信號的n個連續(xù)片段編碼為相應(yīng)的可解碼音頻數(shù)據(jù)集。與視頻幀時間相關(guān)的片段可以是n個連續(xù)片段之一。該方法可以包括:將攜載與n個連續(xù)片段相關(guān)聯(lián)的相應(yīng)的可解碼音頻數(shù)據(jù)集的比特流幀包括在比特流中。

比特流可以例如包括攜載能夠一起解碼的音頻數(shù)據(jù)的相應(yīng)部分的一組n個連續(xù)比特流幀。因此,在解碼器側(cè)上,可以一次對比特流的n個比特流幀進行解碼。在本示例實施方式中,例如無論所述某個類型的視頻幀在視頻幀流中的位置相對于一組n個連續(xù)比特流幀在比特流中的位置如何,當(dāng)在相關(guān)聯(lián)的視頻幀流中出現(xiàn)所述某個類型的視頻幀時,都可以保留一組n個比特流幀的結(jié)構(gòu)。

根據(jù)示例實施方式,提供了用于通過音頻比特流表示音頻信號的音頻處理系統(tǒng)。該音頻處理系統(tǒng)包括:編碼部,其被配置成通過使用與音頻信號的第一采樣數(shù)目對應(yīng)的基本步幅對音頻信號的片段至少執(zhí)行信號分析,來將音頻信號的片段編碼為可解碼音頻數(shù)據(jù)集。所述可解碼音頻數(shù)據(jù)集對應(yīng)于第一幀速率和每幀的音頻信號的第一采樣數(shù)目。該音頻處理系統(tǒng)包括:重組部,其被配置成:將可解碼音頻數(shù)據(jù)集分成n個部分,其中n≥2;并且形成攜載相應(yīng)部分的n個比特流幀。比特流幀具有與每個比特流幀的音頻信號的第二采樣數(shù)目對應(yīng)的第二幀速率。第一采樣數(shù)目是第二采樣數(shù)目的n倍。重組部被配置成輸出被分割為包括所形成的n個比特流幀的比特流幀的比特流。

根據(jù)示例實施方式,提供了包括用于執(zhí)行第一方面的任何方法的計算機可讀介質(zhì)的計算機程序產(chǎn)品。

根據(jù)示例實施方式,可以認(rèn)為n=2或n=4,即n個比特流幀可以是四個比特流幀中的兩個比特流幀。

ii.概述-解碼器側(cè)

根據(jù)第二方面,示例實施方式提出了音頻處理系統(tǒng)以及用于重構(gòu)由比特流表示的音頻信號的方法和計算機程序產(chǎn)品。根據(jù)第二方面,所提出的系統(tǒng)、方法和計算機程序產(chǎn)品通常可以共享相同的特征和優(yōu)點。此外,根據(jù)第一方面,上面針對系統(tǒng)、方法和計算機程序產(chǎn)品的特征提出的優(yōu)點通常對根據(jù)第二方面的系統(tǒng)、方法和計算機程序產(chǎn)品的相應(yīng)特征是有效的。

根據(jù)示例實施方式,提供了對被分割為比特流幀的比特流所表示的音頻信號進行重構(gòu)的方法。該方法包括:將由n個相應(yīng)的比特流幀攜載的音頻數(shù)據(jù)集結(jié)合成與第一幀速率對應(yīng)以及與每幀的音頻信號的第一采樣數(shù)目對應(yīng)的可解碼音頻數(shù)據(jù)集,其中n≥2。比特流幀具有與每個比特流幀的音頻信號的第二采樣數(shù)目對應(yīng)的第二幀速率。第一采樣數(shù)目是第二采樣數(shù)目的n倍。該方法包括:通過基于可解碼數(shù)據(jù)集并使用與音頻信號的第一采樣數(shù)目對應(yīng)的步幅(在本文中稱為基本步幅)來至少應(yīng)用信號分析,將所述可解碼音頻數(shù)據(jù)集解碼為音頻信號的片段。

在視聽數(shù)據(jù)流中,音頻幀和視頻幀可以同步,并且可以具有相同的持續(xù)時間,例如有助于與接合或?qū)r鐘漂移的補償有關(guān)的幀丟棄或幀復(fù)制。為了保持用于較高視頻幀速率的視聽數(shù)據(jù)流中的音頻-視頻同步性,也可以增加音頻幀速率。然而,雖然通常使用預(yù)測編碼來降低增加視頻幀速率的比特率成本,但是由于音頻內(nèi)容可能在較短的時間尺度上變化,以及與視頻內(nèi)容相比,可能與連續(xù)幀之間的較低相關(guān)度相關(guān)聯(lián),所以對音頻幀而言,預(yù)測編碼可能效率較低。也應(yīng)當(dāng)避免音頻幀長度過短,原因是它可能限制變換步幅,從而對頻率分辨率設(shè)置限制。

本方法的將由第二(較高)幀速率的n個相應(yīng)比特流幀攜載的多個音頻數(shù)據(jù)集結(jié)合為與第一(較低)幀速率相關(guān)聯(lián)的可解碼音頻數(shù)據(jù)集的能力允許保持較高視頻幀速率的視聽同步性,而沒有比特率消耗的相應(yīng)增加。更確切地說,在根據(jù)本方法以增加的幀速率操作時的比特率可以低于在使用具有這樣的較高幀速率的常規(guī)音頻幀時所需的比特率。本方法可以例如有助于視聽數(shù)據(jù)流的接合和/或有助于對時鐘漂移的補償。

特別地,使用具有基本步幅的信號合成,而不是具有較短步幅(例如,對應(yīng)于音頻信號的第二采樣數(shù)目)的合成,減少了合成音頻信號所需的數(shù)據(jù)量,從而減少了用于傳輸數(shù)據(jù)所需的比特率。

在以下意義上結(jié)合成所述可解碼音頻數(shù)據(jù)集的多個數(shù)據(jù)集中的每個數(shù)據(jù)集可以是不完整的音頻數(shù)據(jù)集:在不訪問其他集合的情況下所述多個數(shù)據(jù)集中的每個數(shù)據(jù)集可能不足以對音頻信號的片段(或子片段)進行解碼。

對于n個比特流幀中的每個比特流幀,n個比特流幀可以例如是比特流幀的最小集合,該最小集合包括該比特流幀,并且來自該最小集合的音頻數(shù)據(jù)可以被結(jié)合以對該比特流幀所攜載的數(shù)據(jù)所表示的音頻信號的片段進行解碼。

由可解碼音頻數(shù)據(jù)集來表示足以對音頻信號的片段進行解碼的音頻數(shù)據(jù)集。在以下意義上可解碼音頻數(shù)據(jù)集可以是完整的:在沒有附加的音頻數(shù)據(jù)的情況下可以執(zhí)行對音頻信號的片段的解碼。

將音頻數(shù)據(jù)集結(jié)合成可解碼音頻數(shù)據(jù)集可以例如包括級聯(lián)數(shù)據(jù)集,例如通過在彼此之后布置表示相應(yīng)數(shù)據(jù)集的比特。

通過使用具有與音頻信號的第一采樣數(shù)目對應(yīng)的基本步幅的信號合成意味著:對與音頻信號的某個采樣數(shù)目對應(yīng)的音頻信號的片段執(zhí)行信號合成,并且當(dāng)音頻信號的下一個片段要被重構(gòu)時,信號合成處理針對以下范圍產(chǎn)生輸出:該范圍已經(jīng)被移動與基本步幅相同的采樣數(shù)目。

具有基本步幅的信號合成可以例如直接基于所述可解碼音頻數(shù)據(jù)集來使用,或者可以間接地基于所述可解碼音頻數(shù)據(jù)集來使用,例如,基于通過處理所述可解碼音頻數(shù)據(jù)集而獲得的音頻數(shù)據(jù)或信號。

應(yīng)當(dāng)理解的是,如果音頻信號是多通道信號,則基本步幅可以對應(yīng)于以每通道為基礎(chǔ)的音頻信號的第一采樣數(shù)目,而不是作為各個通道的采樣的和。

對可解碼音頻數(shù)據(jù)集進行解碼的步驟可以例如包括多個子步驟,所述多個子步驟中的一個或更多個子步驟可以包括以基本步幅進行信號合成。

在以下意義上n個比特流幀可以例如符合音頻格式:比特流幀可以攜載有效載荷和元數(shù)據(jù),在初級流水平上,元數(shù)據(jù)符合音頻格式,例如,如在運動圖像專家組(mpeg)初級流中所提供的音頻格式。應(yīng)當(dāng)理解的是,雖然在這種意義上符合音頻格式,但是由比特流幀攜載的有效載荷和至少一些元數(shù)據(jù)可以例如具有與本領(lǐng)域已知的音頻幀中的類型和/或格式不同的類型和/或格式。

由編碼器提供的比特流可能在到達解碼器側(cè)之前例如已經(jīng)與另一個比特流接合。例如,n個比特流幀中的一個或更多個比特流幀可能例如在解碼器側(cè)處接收到的比特流中丟失。在一些示例實施方式中,音頻處理方法因此可以包括檢測在比特流中是否丟失了n個比特流幀中的一個或更多個比特流幀,其中根據(jù)所述n個比特流幀將音頻數(shù)據(jù)集結(jié)合成完整的可解碼集合。該方法可以例如包括:響應(yīng)于檢測到在比特流中丟失了n個比特流幀中的一個或更多個比特流幀,應(yīng)用錯誤隱藏。錯誤隱藏可以例如包括用零來代替由一個或更多個所接收的比特流幀所攜載的音頻數(shù)據(jù),并且可選地,應(yīng)用漸弱和/或漸強。

在示例實施方式中,對可解碼音頻數(shù)據(jù)集進行解碼可以包括:應(yīng)用以基本步幅作為變換步幅的加窗變換;和/或基于從可解碼音頻數(shù)據(jù)集獲得的下混信號和相關(guān)聯(lián)的參數(shù),以基本步幅執(zhí)行音頻信號的片段的參數(shù)重構(gòu)。

加窗變換可以例如是諧波變換,如修正的離散余弦逆變換(mdct)。

音頻信號可以例如是多通道音頻信號,下混信號可以是比多通道信號具有更少的通道的信號,例如,在多通道信號的通道的線性組合時獲得信號。下混信號可以例如是多通道音頻信號的單通道或立體聲下混??山獯a音頻數(shù)據(jù)集可以例如包括下混信號和用于音頻信號的片段的參數(shù)重構(gòu)的相關(guān)聯(lián)的參數(shù)。替代地,可解碼音頻數(shù)據(jù)集可以包括表示下混信號和相關(guān)聯(lián)的參數(shù)的數(shù)據(jù),例如,以量化形式,可以從該數(shù)據(jù)得到下混信號和相關(guān)聯(lián)的參數(shù)。

在示例實施方式中,n個比特流幀可以是n個連續(xù)的比特流幀,來自所述n個比特流幀的音頻數(shù)據(jù)集被結(jié)合成可解碼音頻數(shù)據(jù)集。使用連續(xù)幀來攜載能夠結(jié)合成可解碼音頻數(shù)據(jù)集的音頻數(shù)據(jù)集可以有助于音頻信號的解碼,并且可以減少對元數(shù)據(jù)的需要,該元數(shù)據(jù)用于標(biāo)識對于其要將數(shù)據(jù)結(jié)合成可解碼音頻數(shù)據(jù)集的比特流幀。使用連續(xù)幀來攜載能夠結(jié)合成可解碼音頻數(shù)據(jù)集的音頻數(shù)據(jù)集可以減少對用于執(zhí)行解碼的緩沖數(shù)據(jù)的需要。

在示例實施方式中,該方法還可以包括:基于比特流中的至少一些比特流幀所攜載的元數(shù)據(jù)來確定一組比特流幀,其中根據(jù)所述一組比特流幀來將不完整的音頻數(shù)據(jù)集結(jié)合成可解碼音頻數(shù)據(jù)集。元數(shù)據(jù)可以例如由所有比特流幀攜載,或者按一組n個比特流幀來說由一個或更多個比特流幀來攜載,以用于標(biāo)識該一組n個比特流幀。還可以設(shè)想以下實施方式,在所述實施方式中,比特流包括其他幀,該其它幀攜載用于標(biāo)識該一組n個幀的元數(shù)據(jù),而n個比特流幀本身可以不攜載這樣的元數(shù)據(jù)。

在示例實施方式中,該方法還可以包括:檢測比特流幀是否攜載與第二幀速率對應(yīng)的可解碼音頻數(shù)據(jù)集;以及通過基于與第二幀速率對應(yīng)的可解碼音頻數(shù)據(jù)集并使用與第二采樣數(shù)目對應(yīng)的縮短的步幅來至少采用信號合成,將與第二幀速率對應(yīng)的可解碼音頻數(shù)據(jù)集解碼為音頻信號的片段。

可以使用攜載能夠獨立解碼的音頻數(shù)據(jù)集的比特流幀,例如以便于在接合之后和/或在幀丟棄/復(fù)制之后對比特流進行解碼。本示例實施方式中的方法使用縮短的步幅進行解碼的能力可以使其與有助于音頻幀和視頻幀的同步的比特流格式兼容。

對與第二幀速率對應(yīng)的可解碼音頻數(shù)據(jù)集進行解碼可以例如包括:應(yīng)用以縮短的步幅作為變換步幅的加窗變換;和/或基于從第二可解碼音頻數(shù)據(jù)集獲得的下混信號和相關(guān)聯(lián)的參數(shù)以縮短的步幅執(zhí)行音頻信號的片段的參數(shù)重構(gòu)。

對比特流幀是否攜載與第二幀速率對應(yīng)的可解碼音頻數(shù)據(jù)集的檢測可以例如基于由比特流幀攜載的元數(shù)據(jù),或者基于比特流幀中不存在特定類型的元數(shù)據(jù)。

在示例實施方式中,對與第二幀速率對應(yīng)的可解碼音頻數(shù)據(jù)集進行解碼可以包括:提供延遲,使得對第二幀速率的一組n個連續(xù)比特流幀的解碼同時完成,如同所述一組n個比特流幀中的比特流幀各自攜載了要求結(jié)合成可解碼音頻數(shù)據(jù)集的音頻數(shù)據(jù)集一樣。本示例實施方式有助于使用基本步幅重構(gòu)的音頻信號的片段與使用縮短的步幅重構(gòu)的音頻信號的片段之間的平滑轉(zhuǎn)換,并且可以提高由收聽者感知的重放質(zhì)量。

在示例實施方式中,可以通過緩沖與第二幀速率對應(yīng)的至少一個可解碼音頻數(shù)據(jù)集或緩沖音頻信號的至少一個片段來提供延遲。也就是說,可以通過以下操作來提供延遲:在執(zhí)行信號合成之前緩沖與第二幀速率對應(yīng)的一個或更多個可解碼音頻數(shù)據(jù)集,或者在執(zhí)行信號合成之后緩沖根據(jù)與第二幀速率對應(yīng)的一個或更多個可解碼音頻數(shù)據(jù)集而重構(gòu)的音頻信號的一個或更多個片段。

在示例實施方式中,比特流可以與視頻幀的流相關(guān)聯(lián),該視頻幀具有與第二幀速率一致的幀速率。在本示例實施方式中,比特流幀的幀速率可以與視頻幀的幀速率一致,這可以有助于包括比特流和視頻幀的流的視聽數(shù)據(jù)流與其他視聽數(shù)據(jù)流的接合和/或同步。

在示例實施方式中,基于與第一幀速率對應(yīng)的可解碼音頻數(shù)據(jù)集對音頻信號的片段進行解碼可以包括:接收與對應(yīng)于第一幀速率的可解碼音頻數(shù)據(jù)集相對應(yīng)的量化頻譜系數(shù);執(zhí)行逆量化,隨后進行頻率-時間轉(zhuǎn)換,從而獲得中間音頻信號的表示;對該中間音頻信號執(zhí)行頻域的至少一個處理步驟;以及將經(jīng)處理的音頻信號的采樣率改變?yōu)槟繕?biāo)采樣頻率,從而獲得重構(gòu)音頻信號的時域表示。

目標(biāo)采樣頻率可以是預(yù)定義的量,其能夠由用戶或系統(tǒng)設(shè)計者獨立于到來的比特流的屬性(例如,幀速率)來配置。

可以用預(yù)定的量化等級(或重構(gòu)等級,或重構(gòu)點)來執(zhí)行逆量化。可以基于心理聲學(xué)考慮,例如關(guān)于給定頻率(或頻帶)的量化噪聲不超過掩蔽閾值的這樣的方式,來在編碼器側(cè)上選擇量化等級。由于掩蔽閾值是頻率依賴性的,因此從經(jīng)濟角度來看,優(yōu)選地使編碼器側(cè)選擇相對于頻率不均勻的量化等級。因此,通常考慮產(chǎn)生最佳輸出的特定物理采樣頻率來進行量化和去量化。

至少一個處理步驟可以例如與頻帶復(fù)制(sbr)和/或動態(tài)范圍控制(drc)相關(guān)聯(lián)。

當(dāng)在頻域中執(zhí)行至少一個處理步驟時,該方法可以包括:執(zhí)行時間-頻率轉(zhuǎn)換,例如由正交鏡像濾波器(qmf)分析濾波器組執(zhí)行的,用以獲得中間音頻信號的頻率表示;以及執(zhí)行附加的頻率-時間轉(zhuǎn)換,例如,由qmf合成濾波器組執(zhí)行的,用于將經(jīng)處理的音頻信號轉(zhuǎn)換回時域。

在示例實施方式中,該方法可以接受與針對第二幀速率的至少兩個不同值相關(guān)聯(lián)、但與針對每幀的第二采樣數(shù)目的公共值相關(guān)聯(lián)的比特流。第二幀速率的各個值可以相差至多5%。頻率-時間轉(zhuǎn)換可以在以下功能部件中執(zhí)行:所述功能部件被配置成使用加窗變換,所述加窗變換以針對基本步幅的公共預(yù)定值作為針對第二幀速率的至少兩個不同值的變換步幅。

在視聽數(shù)據(jù)流中,音頻幀速率可以適應(yīng)視頻幀速率(例如,可以與視頻幀速率一致),例如以便于音頻-視頻同步和/或接合。因此,本示例實施方式中的方法的接受具有不同幀速率的音頻比特流的能力可以有助于視聽數(shù)據(jù)流的音頻-視頻同步和/或接合。

在精密采樣系統(tǒng)中,物理采樣頻率對應(yīng)于音頻幀的物理持續(xù)時間與其中包含的頻譜系數(shù)的數(shù)目的比率。執(zhí)行逆量化和頻率-時間轉(zhuǎn)換的功能部件不需要知道可解碼音頻數(shù)據(jù)集中的系數(shù)的物理持續(xù)時間,而只需知道所述系數(shù)屬于同一可解碼音頻數(shù)據(jù)集。由于第二幀速率的值相差至多5%,因此所得到的內(nèi)部采樣頻率將變化很小(以物理單位計),最終采樣率轉(zhuǎn)換中使用的重采樣系數(shù)將接近1。因此,內(nèi)部采樣頻率的非恒定性通常不會導(dǎo)致重構(gòu)音頻信號的任何可感知的劣化。換句話說,中間音頻信號的輕微上采樣或下采樣(其被產(chǎn)生為在與目標(biāo)采樣頻率略有不同的采樣頻率上最佳)在心理聲學(xué)方面不顯著。特別地,只要偏差有限,執(zhí)行逆量化和/或頻率-時間轉(zhuǎn)換的功能部件的預(yù)期物理采樣頻率與其下游的任何部件所被調(diào)諧到的物理采樣頻率之間的一些不匹配量可以是可容忍的。

根據(jù)示例實施方式,提供了音頻處理系統(tǒng),該音頻處理系統(tǒng)用于重構(gòu)被分割成比特流幀的比特流所表示的音頻信號。該音頻處理系統(tǒng)包括:緩沖器,其被配置成將由n個相應(yīng)的比特流幀攜載的音頻數(shù)據(jù)集結(jié)合成與第一幀速率對應(yīng)以及與每幀的音頻信號的第一采樣數(shù)目對應(yīng)的一個可解碼音頻數(shù)據(jù)集,其中n≥2。比特流幀具有與每個比特流幀的音頻信號的第二采樣數(shù)目對應(yīng)的第二幀速率。第一采樣數(shù)目是第二采樣數(shù)目的n倍。該系統(tǒng)包括解碼部,該解碼部被配置成通過基于可解碼音頻數(shù)據(jù)集并使用與音頻信號的第一采樣數(shù)目對應(yīng)的基本步幅來至少采用信號合成,將可解碼音頻數(shù)據(jù)集解碼為音頻信號的片段。

根據(jù)示例實施方式,提供了包括用于執(zhí)行第二方面的任何方法的計算機可讀介質(zhì)的計算機程序產(chǎn)品。

根據(jù)示例實施方式,可以認(rèn)為n=2或n=4,即,n個比特流幀可以是四個比特流幀中的兩個比特流幀。

iii.概述-轉(zhuǎn)碼

根據(jù)第三方面,示例實施方式提出了音頻處理系統(tǒng)以及用于對表示音頻信號的音頻比特流進行轉(zhuǎn)碼的方法和計算機程序產(chǎn)品。根據(jù)第三方面,所提出的系統(tǒng)、方法和計算機程序產(chǎn)品通??梢怨蚕硐嗤奶卣骱蛢?yōu)點。此外,上面針對根據(jù)第一和/或方面的系統(tǒng)、方法和計算機程序產(chǎn)品的特征提出的優(yōu)點通常對根據(jù)第三方面的系統(tǒng)、方法和計算機程序產(chǎn)品的相應(yīng)特征是有效的。

根據(jù)示例實施方式,提供了對表示音頻信號的音頻比特流進行轉(zhuǎn)碼的方法。比特流包括與第一幀速率和每幀的音頻信號的第一采樣數(shù)目對應(yīng)的可解碼音頻數(shù)據(jù)集的序列。該方法包括:從比特流中提取可解碼音頻數(shù)據(jù)集;將可解碼音頻數(shù)據(jù)集分成n個部分,其中n≥2;以及形成攜載各個部分的n個比特流幀。比特流幀具有與每個比特流幀的音頻信號的第二采樣數(shù)目對應(yīng)的第二幀速率。第一采樣數(shù)目是第二采樣數(shù)目的n倍。之后,輸出比特流,所述比特流被分割成包括所形成的n個比特流幀的比特流幀??蛇x地,在將結(jié)構(gòu)(setup)分成n個部分的步驟之前執(zhí)行處理可解碼音頻數(shù)據(jù)集的步驟。根據(jù)處理的性質(zhì),這可能要求最初將音頻數(shù)據(jù)解碼為變換表示或波形表示。

本方法的與攜載與第一(較低)幀速率相關(guān)聯(lián)的可解碼音頻數(shù)據(jù)集一起提供第二(較高)幀速率的n個比特流幀的能力允許保持較高視頻幀速率的視聽同步性,而沒有比特率消耗的相應(yīng)增加。在根據(jù)本方法以增加的幀速率進行操作時的比特率可以低于在使用具有這樣的較高幀速率的常規(guī)音頻幀時所需的比特率。因此,本方法可以例如有助于視聽數(shù)據(jù)流的接合和/或有助于對時鐘漂移的補償。

該方法可以例如包括將可解碼音頻數(shù)據(jù)集的經(jīng)處理版本分成n個部分。

根據(jù)示例實施方式,提供用于對表示音頻信號的音頻比特流進行轉(zhuǎn)碼的音頻處理系統(tǒng),其中比特流包括與第一幀速率和每幀的音頻信號的第一采樣數(shù)目對應(yīng)的可解碼音頻數(shù)據(jù)集的序列。該音頻處理系統(tǒng)包括:接收部,其被配置成從比特流中提取可解碼音頻數(shù)據(jù)集;可選地,以及處理部,其被配置成處理可解碼音頻數(shù)據(jù)集。該音頻處理系統(tǒng)包括:重組部,其被配置成:將可解碼音頻數(shù)據(jù)集分成n個部分,其中n≥2;以及形成攜載相應(yīng)部分的n個比特流幀。比特流幀具有與每個比特流幀的音頻信號的第二采樣數(shù)目對應(yīng)的第二幀速率。第一采樣數(shù)目是第二采樣數(shù)目的n倍。重組部被配置成輸出比特流,該比特流被分割成包括所形成的n個比特流幀的比特流幀。

根據(jù)示例實施方式,提供了包括用于執(zhí)行第三方面的任何方法的計算機可讀介質(zhì)的計算機程序產(chǎn)品。

根據(jù)示例實施方式,可以認(rèn)為n=2或n=4,即,n個比特流幀可以是四個比特流幀中的兩個比特流幀。

iv.概述-計算機可讀介質(zhì)

根據(jù)第四方面,示例實施方式提出了表示音頻信號的計算機可讀介質(zhì)。上面針對根據(jù)第一方面、第二方面和/或第三方面的系統(tǒng)、方法和計算機程序產(chǎn)品的特征提出的優(yōu)點通常對根據(jù)第四方面的計算機可讀介質(zhì)的相應(yīng)特征是有效的。

根據(jù)示例實施方式,提供了表示音頻信號并且被分割成比特流幀的計算機可讀介質(zhì)。在計算機可讀介質(zhì)中,n個比特流幀攜載能夠結(jié)合成一個可解碼音頻數(shù)據(jù)集的相應(yīng)的音頻數(shù)據(jù)集,該一個可解碼音頻數(shù)據(jù)集與第一幀速率對應(yīng)以及與每幀的音頻信號的第一采樣數(shù)目對應(yīng),其中n≥2。通過基于可解碼音頻數(shù)據(jù)集并使用與音頻信號的第一采樣數(shù)目對應(yīng)的基本步幅來至少采用信號合成,能夠?qū)⒖山獯a音頻數(shù)據(jù)集解碼為音頻信號的片段。比特流幀具有與每個比特流幀的音頻信號的第二采樣數(shù)目對應(yīng)的第二幀速率。第一采樣數(shù)目是第二采樣數(shù)目的n倍。

與攜載與第一(較低)幀速率相關(guān)聯(lián)的可解碼音頻數(shù)據(jù)集一起,第二(較高)幀速率的n個比特流幀允許保持較高視頻幀速率的視聽同步性,而沒有比特率消耗的相應(yīng)增加。更確切地說,在根據(jù)本計算機可讀介質(zhì)以增加的幀速率進行操作時的比特率可能低于在使用具有這樣的較高幀速率的常規(guī)音頻幀時所需的比特率。因此,本計算機可讀介質(zhì)可以例如有助于視聽數(shù)據(jù)流的接合和/或有助于對時鐘漂移的補償。

攜載能夠結(jié)合成一個可解碼音頻數(shù)據(jù)集的各個音頻數(shù)據(jù)集的n個比特流幀可以例如是n個連續(xù)的比特流幀。

在示例實施方式中,n個比特流幀中的至少一個比特流幀可以攜載指示一組比特流幀的元數(shù)據(jù),其中根據(jù)所述一組比特流幀將音頻數(shù)據(jù)集結(jié)合成可解碼音頻數(shù)據(jù)集。

在示例實施方式中,計算機可讀介質(zhì)還可以包括攜載第二音頻數(shù)據(jù)集的比特流幀,通過基于第二音頻數(shù)據(jù)集并使用與音頻信號的第二采樣數(shù)目對應(yīng)的縮短的步幅來至少采用信號合成,能夠?qū)⑺龅诙纛l數(shù)據(jù)集解碼成音頻信號的片段。

根據(jù)本示例實施方式,可以使用攜載能夠獨立解碼的音頻數(shù)據(jù)集的比特流幀,例如以便于在接合之后和/或在幀丟棄/復(fù)制之后對比特流進行解碼。

根據(jù)示例實施方式,可以認(rèn)為n=2或n=4,即,n個比特流幀可以是四個比特流幀中的兩個比特流幀。

v.示例實施方式

圖1是根據(jù)示例實施方式的用于將音頻信號x表示為音頻比特流b的音頻處理系統(tǒng)100的一般框圖。

音頻處理系統(tǒng)100包括編碼部110和重組部120。編碼部110通過以與音頻信號x的第一采樣數(shù)目對應(yīng)的基本步幅(basicstride)對音頻信號x的片段至少執(zhí)行信號分析來將音頻信號x的片段編碼為一個可解碼音頻數(shù)據(jù)集d。

通過以與音頻信號x的第一采樣數(shù)目對應(yīng)的基本步幅執(zhí)行信號分析意味著在音頻信號x的一定數(shù)目的采樣的分析窗口內(nèi)執(zhí)行信號分析,并且當(dāng)音頻信號x的下一個片段要被編碼時,分析窗口移動與基本步幅相同的采樣數(shù)目。信號分析可以例如用交疊的分析窗口來執(zhí)行,在這種情況下,分析窗口可以比基本步幅更長。在另一示例中,分析窗口的長度可以與基本步幅一致。

在本文中,音頻信號x作為多通道音頻信號的例子。在本示例實施方式中,編碼部110以基本步幅作為變換步幅向音頻信號x的片段應(yīng)用加窗變換(例如修改的離散余弦變換(mdct)),以提供音頻信號x的該片段的頻域表示。在頻域中,編碼部110然后計算下混信號(例如,單通道或立體聲下混)作為音頻信號x的各個通道的線性組合。編碼部110還根據(jù)下混信號來確定用于多通道音頻信號x的參數(shù)重構(gòu)的參數(shù)。在本示例實施方式中,可解碼音頻數(shù)據(jù)集d包括下混信號和用于參數(shù)重構(gòu)的參數(shù)。

可以例如基于頻域表示的信號分析來確定所述參數(shù)。該信號分析可以使用基本步幅,即,它可以使用與加窗變換相同的步幅。信號分析可以例如包括多通道音頻信號x的通道的能量和/或協(xié)方差的計算。

也可以設(shè)想以下實施方式:其中基于具有與加窗變換不同步幅的信號分析來確定用于參數(shù)重構(gòu)的參數(shù)。例如,可以設(shè)想以下實施方式:其中加窗變換使用比基本步幅更短的變換步幅,并且其中,基于具有基本步幅的信號分析來確定用于參數(shù)重構(gòu)的參數(shù)。

可解碼音頻數(shù)據(jù)集d與第一幀速率(例如,30fps)對應(yīng),并且與每幀的音頻信號的第一采樣數(shù)目對應(yīng)。也就是說,可解碼數(shù)據(jù)集d表示音頻信號的第一采樣數(shù)目,并且與符合第一幀速率的幀對應(yīng)。

重組部120將可解碼音頻數(shù)據(jù)集d分成n個部分d1,d2,...,dn,例如通過將可解碼音頻數(shù)據(jù)集d劃分為n個至少大小大致相等的部分d1,d2,...,dn。n可以例如為2或4,或者可以是大于或等于2的任何整數(shù)。

在本示例實施方式中,可解碼音頻數(shù)據(jù)集d是第一采樣數(shù)目的頻域表示。因此,當(dāng)可解碼音頻數(shù)據(jù)集d被分成大小相等的部分d1,d2,...,dn時,這些部分d1,d2,...,dn可以包括頻域表示的各個子集,所述各個子集不一定與音頻信號的第一采樣數(shù)目的任何特定子集對應(yīng)。因此,在以下意義上這些部分d1,d2,...,dn是不完整的音頻數(shù)據(jù)集:在不訪問所有n個部分d1,d2,...,nn的情況下,部分d1,d2,...,dn中沒有一個可以被解碼。

重組部120形成攜載各個部分d1,d2,...,dn的n個比特流幀f1,f2...fn。由于n個比特流幀f1,f2...fn表示一個可解碼音頻數(shù)據(jù)集d,因此比特流幀f1,f2...fn具有第二幀速率,該第二幀速率是可解碼音頻數(shù)據(jù)集d的幀速率的n倍。類似地,盡管比特流幀f1,f2...fn本身不表示音頻信號x的某些采樣,但是n個比特流幀f1,f2...fn表示可解碼音頻數(shù)據(jù)集d,從而與每幀的第二采樣數(shù)目對應(yīng),其中每幀的第一采樣數(shù)目是每幀的第二采樣數(shù)目的n倍。

重組部120輸出被分割成比特流幀的比特流b,所述比特流幀包括所形成的n個比特流幀f1,f2...fn,作為n個連續(xù)的比特流幀。

除了音頻數(shù)據(jù)的部分d1,d2,...,dn以外,比特流幀f1,f2...fn還包括各個元數(shù)據(jù),μ1,μ2...,μn,所述各個元數(shù)據(jù)指示可解碼音頻數(shù)據(jù)集d能夠從由比特流幀f1,f2...fn攜載的部分d1,d2,...,dn獲得。比特流幀f1,f2...fn中的每個比特流幀的元數(shù)據(jù)μ1,μ2...,μn可以例如指示可解碼音頻數(shù)據(jù)集d的哪個部分由該比特流幀攜載,可選地,還可以指示攜載可解碼音頻數(shù)據(jù)集d的其他n-1個部分的比特流幀。

圖3和圖4示出了由參照圖1描述的根據(jù)示例實施方式的音頻處理系統(tǒng)100提供的比特流的示例。

由圖1所示的音頻處理系統(tǒng)100輸出的比特流b可以與視頻幀的流相關(guān)聯(lián)。在圖3中,通過比特流幀的流a1和視頻幀的流v1來舉例表示比特流b,其中向右方向?qū)?yīng)于增加時間t。

視頻幀的流v1包括預(yù)測的編碼視頻幀p(包括僅取決于先前幀的幀和/或取決于先前幀和后續(xù)幀兩者的所謂的雙向幀)和獨立編碼的視頻幀i。比特流幀的流a1包括具有與視頻幀相同的幀速率和相同的持續(xù)時間的比特流幀,以便于與其它視聽數(shù)據(jù)流的接合和/或同步。

在本示例實施方式中,n=4,音頻處理系統(tǒng)100在攜載可解碼音頻數(shù)據(jù)集的各個部分的四個比特流幀311、312、313、314的組310中提供比特流幀。然而,如果視頻幀的流v1要與其他視頻幀的流接合,則可以在與獨立編碼的視頻幀i相鄰的點處執(zhí)行接合,以便于在接合之后對視頻幀進行解碼。為了保持音頻-視頻同步性,比特流幀的流a1可以在與視頻幀的流v1相同的接合點處被接合。

為了便于在與另一比特流幀的流接合之后對比特流幀進行解碼,音頻處理系統(tǒng)100通過以下操作將與獨立編碼的視頻幀i時間上相關(guān)的音頻信號x的片段編碼為可解碼音頻數(shù)據(jù)集:以與音頻信號x的第二采樣數(shù)目對應(yīng)的縮短的變換步幅來應(yīng)用信號分析,所述音頻信號x的第二采樣數(shù)目可以例如與獨立編碼的視頻幀i的持續(xù)時間相對應(yīng)。

類似于使用以基本步幅進行信號分析的編碼,使用以縮短的步幅進行信號分析的編碼可以包括:以縮短的步幅作為變換步幅來應(yīng)用加窗變換(例如,mdct),并且根據(jù)下混信號來確定用于音頻信號的片段的參數(shù)重構(gòu)的參數(shù),其中所述參數(shù)基于以縮短的步幅進行的信號分析來確定。與縮短的步幅相關(guān)聯(lián)的可解碼音頻數(shù)據(jù)集可以包括下混信號和參數(shù)。

音頻處理系統(tǒng)100包括攜載可解碼音頻數(shù)據(jù)集的比特流幀321,在不訪問由其他比特流幀攜載的音頻數(shù)據(jù)的情況下,所述可解碼音頻數(shù)據(jù)集可以被獨立解碼。在比特流幀的流a1中,比特流幀321后面是攜載可解碼音頻數(shù)據(jù)集的相應(yīng)部分的四個比特流幀331、332、333、334的另一個組330。

音頻處理系統(tǒng)100可以例如包括附加的編碼部(圖1中未示出),該附加的編碼部被配置成通過以縮短的步幅應(yīng)用信號分析來對音頻信號x的片段進行編碼。替代地,編碼部110可以操作成使用縮短的步幅,重組部120可以操作成將攜載與縮短的步幅相關(guān)聯(lián)的可解碼音頻數(shù)據(jù)集的比特流幀321包括在比特流b中。

在參照圖3描述的示例中,可以通過以下操作來處理在某些位置處獨立編碼的視頻幀i的存在:將攜載與縮短的變換步幅相關(guān)聯(lián)的可解碼音頻數(shù)據(jù)集的比特流幀321包括在四個比特流幀的組310、330之間。然而,在至少一些示例情景中,獨立編碼的視頻幀i的位置可能是先驗未知的,和/或獨立編碼的視頻幀i可能出現(xiàn)在與四個比特流幀的組之間的位置不匹配的位置處。這樣的情景在圖4中示出。

在圖4中,通過比特流幀的另一個比特流a2和視頻幀的另一個流v2來舉例表示比特流b和相關(guān)聯(lián)的視頻幀的流,其中時間t向右傳播。

與參照圖3描述的示例情景類似,比特流幀由音頻處理系統(tǒng)100以四個比特流幀的組410、430來提供。然而,一旦在視頻幀流v2中檢測到獨立編碼的視頻幀i,則四個連續(xù)的比特流幀421、422、423、424由音頻處理系統(tǒng)100對它們中的每一個使用縮短的步幅進行編碼。根據(jù)視頻幀的流v2中的獨立編碼視頻幀i的位置,獨立編碼的視頻幀i可以與使用縮短的變換步幅而提供的四個比特流幀421、422、423、424中的任何一個比特流幀對應(yīng)。在本情景中,無論視頻幀的流v2中的獨立編碼的視頻幀i相對于使用基本步幅編碼的比特流a2中的四個比特流幀的任何組的位置如何,都可以在與獨立編碼的視頻幀i對應(yīng)的比特流a2中的位置處提供獨立編碼的比特流幀423。在本情景中,無論在視頻幀的流v2中是否存在獨立編碼的視頻幀i,都將比特流幀組織成四個比特流幀的組。

圖2是根據(jù)示例實施方式的由音頻比特流表示音頻信號的方法200的流程圖。在本文中,在此通過由參照圖1描述的音頻編碼系統(tǒng)100執(zhí)行的方法來舉例說明方法110。

方法200包括檢測210視頻幀的流v1的當(dāng)前幀是否被獨立編碼。如果當(dāng)前幀未被獨立編碼,由流程圖中的n指示,則方法200繼續(xù)進行以下操作:通過至少使用具有基本步幅的信號分析來將音頻信號x的片段編碼220為可解碼音頻數(shù)據(jù)集d;將可解碼音頻數(shù)據(jù)集d劃分230成n個部分d1,d2,...,dn;形成240攜載各個部分d1,d2,...,dn的n個比特流幀f1,f2...fn;以及將所形成的比特流幀f1,f2...fn輸出250為比特流b的一部分。方法200然后返回到對音頻信號x的其他片段進行編碼。

另一方面,相反,如果視頻幀的流v1的當(dāng)前幀被獨立編碼,由流程圖中的y指示,則方法200繼續(xù)進行以下操作:通過至少使用具有縮短的步幅的信號分析將音頻信號x的片段編碼260為可解碼音頻數(shù)據(jù)集;以及將攜載第二可解碼音頻數(shù)據(jù)集的比特流幀包括270在比特流b中。該方法200然后返回到對音頻信號x的其它片段進行解碼。

圖5是根據(jù)示例實施方式的用于重構(gòu)由比特流表示的音頻信號的音頻處理系統(tǒng)500的一般框圖。

在本示例實施方式中,通過由參照圖1描述的音頻處理系統(tǒng)100輸出的比特流b來舉例說明所述比特流。下面還描述了示例實施方式,在該示例實施方式中,音頻處理系統(tǒng)500接收以下比特流:所述比特流在被音頻處理系統(tǒng)500接收之前例如已經(jīng)通過幀丟棄和/或幀復(fù)制而被修改。

音頻處理系統(tǒng)500包括緩沖器510和解碼部520。緩沖器510將由n個相應(yīng)的比特流幀f1,f2...fn攜載的音頻數(shù)據(jù)集d1,d2,...,dn結(jié)合成與第一幀速率(例如,30fps)以及每幀的音頻信號的第一采樣數(shù)目相對應(yīng)的一個可解碼音頻數(shù)據(jù)集d。如參照圖1所述,比特流幀f1,f2,...,fn具有與每個比特流幀的音頻信號的第二采樣數(shù)目相對應(yīng)的第二幀速率,其中第一采樣數(shù)目是第二采樣數(shù)目的n倍。緩沖器510使用由比特流幀攜載的元數(shù)據(jù)μ1,μ2...,μn來識別攜載要結(jié)合的音頻數(shù)據(jù)集d1,d2,...,dn的幀f1,f2...fn。

解碼部520通過以下操作將可解碼音頻數(shù)據(jù)集d解碼為音頻信號x的片段:基于可解碼音頻數(shù)據(jù)集d,采用具有參照圖1所描述的基本步幅的信號合成,即,所述基本步幅與音頻信號x的第一采樣數(shù)目對應(yīng)。音頻處理系統(tǒng)500輸出音頻信號x的重構(gòu)版本

如參照圖1所述,音頻信號x是多通道音頻信號,可解碼音頻數(shù)據(jù)集d包括用于音頻信號x的參數(shù)重構(gòu)的下混信號和相關(guān)聯(lián)的上混參數(shù)。解碼部520使用基本步幅執(zhí)行音頻信號x的片段的頻域表示的參數(shù)重構(gòu)。然后,解碼部520應(yīng)用具有基本步幅作為變換步幅的加窗變換(例如,逆mdct),以用于獲得音頻信號x的片段的時域表示。

還可以設(shè)想實施方式:其中以與加窗變換不同的步幅來執(zhí)行參數(shù)重構(gòu)。例如可以設(shè)想實施方式:其中加窗變換使用比基本步幅更短的變換步幅,并且其中,用基本步幅來執(zhí)行參數(shù)重構(gòu)。

如參照圖3和圖4所述,比特流b可以包括攜載可解碼音頻數(shù)據(jù)集(即,通過使用縮短的步幅能夠彼此獨立解碼的音頻數(shù)據(jù)集)的比特流幀。音頻處理系統(tǒng)500可以例如包括附加的解碼部(圖5中未示出),其被配置成使用縮短的步幅對可解碼音頻數(shù)據(jù)集進行解碼。替代地,解碼部520能夠操作成使用縮短的步幅對這樣的可解碼音頻數(shù)據(jù)集進行解碼,緩沖器510能夠操作成:在不將這樣的可解碼音頻數(shù)據(jù)集與來自其他比特流幀的音頻數(shù)據(jù)結(jié)合的情況下,將其遞送至解碼部520。

為了允許使用縮短的步幅解碼的音頻信號x的片段與使用基本步幅解碼的音頻信號x的片段之間的平滑切換,音頻處理系統(tǒng)500可以例如提供延遲,使得對具有第二幀速率(即,使用縮短的步幅)的一組n個連續(xù)比特流幀的解碼同時完成,如同比特流幀各自攜載了要求結(jié)合成可解碼音頻數(shù)據(jù)集的音頻數(shù)據(jù)集一樣,以用于解碼。緩沖器510可以例如通過在將它們傳輸至解碼部520之前對可解碼音頻數(shù)據(jù)集進行緩沖來提供這樣的延遲。替代地,在將音頻信號x的重構(gòu)片段提供為輸出之前,解碼部520可以通過對音頻信號x的重構(gòu)片段進行緩沖來提供所述延遲。

參照圖1所述,由音頻處理系統(tǒng)100輸出的音頻比特流b可能已經(jīng)被修改,例如通過與其他比特流接合,或者通過在被參照圖5所描述的音頻處理系統(tǒng)500接收之前的幀丟棄/幀復(fù)制。

如參照圖3所述,比特流幀可以具有與相關(guān)聯(lián)的視頻幀的流v1中的相應(yīng)視頻幀相同的持續(xù)時間。在視聽數(shù)據(jù)流中使用這樣的同步的音頻流a1和視頻流v1便于視聽流的接合和/或同步。

執(zhí)行接合的設(shè)備或部件可能不需要考慮在接合之前或之后布置哪些類型的比特流幀。相反,音頻處理系統(tǒng)500可以用于處理以下情況:例如由于接合和/或幀丟棄/復(fù)制而導(dǎo)致在所接收的比特流b中丟失了攜載可解碼音頻數(shù)據(jù)集d的各個部分d1,d2,...,dn的組的n個比特流幀f1,f2...fn中的一些比特流幀。音頻處理系統(tǒng)500可以被配置成例如基于由各個比特流幀f1,f2...fn攜載的元數(shù)據(jù)μ1,μ2...,μn來檢測比特流幀丟失。

一旦檢測到解碼所需的比特流幀丟失,則音頻處理系統(tǒng)500可以例如使用錯誤隱藏策略(errorconcealmentstrategy)以繼續(xù)對音頻信號x進行解碼。隱藏策略可以例如包括:用無聲(silence)(例如,用作為音頻信號x的頻域系數(shù)的零)來代替不完整的一組比特流幀(即,在所接收的比特流中丟失了來自該組的一個或更多個比特流幀)中的比特流幀所攜載的音頻數(shù)據(jù)。例如,音頻處理系統(tǒng)500可以使用漸弱和/或漸強,以提供音頻信號x的可解碼片段與代替了音頻信號x的不可解碼片段的無聲之間更平滑的轉(zhuǎn)換,如聽者所感知的。

在一些示例實施方式中,音頻處理系統(tǒng)500可以被配置成:接受與針對第二幀速率的至少兩個不同的預(yù)定值相關(guān)聯(lián)、但與針對每幀的第二采樣數(shù)目的公共值相關(guān)聯(lián)的比特流。在表1中,這通過用于第二幀速率的值59.940fps和60.000fps以及用于每幀的第二采樣數(shù)目的公共值768來舉例表示。這樣的幀速率對于與具有這些幀速率的視頻流相關(guān)聯(lián)的音頻流可能是有用的。

在本示例中,第二幀率的值相差小于5%。音頻處理系統(tǒng)500可以用于:對于第二幀速率的這兩個不同值,使用用于基本步幅的相同值來對音頻信號x進行解碼。如申請人的共同未決的尚未公開的專利申請pct/ep2014/056848中所述(特別參見章節(jié)“ii.示例實施方式”中的描述了圖1和表1的部分),由第二幀速率的差異引起的解碼部520的內(nèi)部采樣頻率的變化通常可能很小,以至于由聽者感知的重構(gòu)音頻信號x的可接受重放質(zhì)量仍然可以由音頻處理系統(tǒng)500來提供。表1中的第二幀速率的值相差小于5%的另一示例由第二幀速率的值119.880fps和120.000fps以及每幀的第二采樣數(shù)目的公共值384給出。

如表1所示,如果視頻幀速率為60.00fps,則可以使用具有第二幀速率60.000fps的n=2個比特流幀來表示具有第一幀速率30.000fps的一個可解碼音頻數(shù)據(jù)集。類似地,如果視頻幀速率為59.940fps,則可以使用具有第二幀速率59.940的n=2個比特流幀來表示具有第一幀速率29.970fps的一個可解碼音頻數(shù)據(jù)集。表1還示出了:如果視頻幀速率為120fps,則可以使用具有第二幀速率120.000的n=4個比特流幀來表示具有第一幀速率30.000fps的一個可解碼音頻數(shù)據(jù)集。類似地,如果視頻幀速率為119.880fps,則可以使用具有第二幀速率119.880的n=4個比特流幀來表示具有第一幀速率29.970fps的一個可解碼音頻數(shù)據(jù)集。

圖6是根據(jù)示例實施方式的對由比特流表示的音頻信號進行重構(gòu)的音頻處理方法600的流程圖。在本文中,通過參照圖5描述的音頻處理系統(tǒng)500所執(zhí)行的方法來舉例說明方法600。

方法600包括檢測610所接收的比特流幀是否攜載與第二幀速率對應(yīng)的可解碼音頻數(shù)據(jù)集。

如果所接收的比特流幀不攜載與第二幀速率對應(yīng)的可解碼音頻數(shù)據(jù)集,由流程圖中的n指示,則方法600繼續(xù)進行以下操作:將由n個相應(yīng)的比特流幀f1,f2...fn攜載的多個音頻數(shù)據(jù)集d1,d2,...,dn結(jié)合620成與第一幀速率以及每幀的音頻信號的第一采樣數(shù)目對應(yīng)的一個可解碼音頻數(shù)據(jù)集d;以及通過基于可解碼數(shù)據(jù)集d、至少使用具有與音頻信號x的第一采樣數(shù)目對應(yīng)的基本步幅的信號合成,來將可解碼音頻數(shù)據(jù)集d解碼630成音頻信號x的片段。

相反,如果所接收的比特流幀攜載與第二幀速率對應(yīng)的可解碼音頻數(shù)據(jù)集,由流程圖中的y指示,則方法600繼續(xù)進行以下操作:通過至少使用與音頻信號x的第二采樣數(shù)目對應(yīng)的縮短的步幅,將與第二幀速率對應(yīng)的可解碼音頻數(shù)據(jù)集解碼640成音頻數(shù)據(jù)x的片段。該方法600然后返回到檢測610下一個接收的比特流幀是否攜載可解碼音頻數(shù)據(jù)集的步驟。

圖7是根據(jù)示例實施方式的用于對表示音頻信號的音頻比特流進行轉(zhuǎn)碼的音頻處理系統(tǒng)700的一般框圖。

音頻處理系統(tǒng)700包括接收部710、可選的處理部720和重組部730。接收部710接收包括可解碼音頻數(shù)據(jù)集d的序列的比特流b1,該可解碼音頻數(shù)據(jù)集d與第一幀速率以及例如參照圖1描述的每幀的音頻信號的第一采樣數(shù)目相對應(yīng)。接收部710從比特流b1提取可解碼音頻數(shù)據(jù)集d。

(可選的)處理部720處理可解碼音頻數(shù)據(jù)集d。根據(jù)處理的性質(zhì),這可能需要最初將音頻數(shù)據(jù)解碼為變換表示或波形表示;處理部分720然后可以執(zhí)行序列信號合成、處理、信號分析。

重組部730將經(jīng)處理的可解碼音頻數(shù)據(jù)集d分成n個部分d1,d2,...,dn,并且形成攜載相應(yīng)部分d1,d2,...,dn的n個比特流幀f1,f2...fn。在本示例實施方式中,重組部730執(zhí)行與參照圖1描述的音頻處理系統(tǒng)100中的重組部120相同的操作。因此,比特流幀f1,f2...fn具有與每個比特流幀的音頻信號的第二采樣數(shù)目對應(yīng)的第二幀速率,重組部730輸出比特流b2,該比特流b2被分割成包括所形成的n個比特流幀f1,f2...fn的比特流幀。

由音頻處理系統(tǒng)700輸出的比特流b2可以例如與參照圖1描述的由音頻處理系統(tǒng)100輸出的比特流b一致。由音頻處理系統(tǒng)700接收的比特流b1可以例如是由本領(lǐng)域已知的音頻編碼器提供的30fps音頻比特流。

應(yīng)當(dāng)理解的是,根據(jù)示例實施方式,參照圖1和圖5描述的比特流b、參照圖3描述的比特流幀的比特流a1是表示音頻信號x并且被分割成比特流幀的計算機可讀介質(zhì)的示例。

還應(yīng)當(dāng)理解的是,n可以是大于1的任何整數(shù)。

vi.等同物、擴展、替代和其他

盡管本公開內(nèi)容描述并描繪了具體的示例實施方式,但是本發(fā)明不限于這些具體示例。在不脫離僅由所附權(quán)利要求限定的本發(fā)明的范圍的情況下,可以對上述示例實施方式進行修改和變更。

在權(quán)利要求書中,“包括”一詞并不排除其他要素或步驟,并且不定冠詞“一”或“一個”不排除復(fù)數(shù)。在相互不同的從屬權(quán)利要求中記載某些措施的事實并不表示這些措施的組合不能被有利地使用。權(quán)利要求中出現(xiàn)的任何附圖標(biāo)記不應(yīng)被理解為限制其范圍。

以上公開的設(shè)備和方法可以實現(xiàn)為軟件、固件、硬件或其組合。在硬件實現(xiàn)中,在上述描述中提及的功能單元之間的任務(wù)劃分不一定對應(yīng)于物理單元劃分;相反,一個物理部件可以具有多個功能,并且可以由協(xié)作的若干物理部件以分布式方式執(zhí)行一個任務(wù)。某些部件或所有部件可以實現(xiàn)為由數(shù)字處理器、信號處理器或微處理器執(zhí)行的軟件,或者實現(xiàn)為硬件或?qū)S眉呻娐贰_@樣的軟件可以分布在包括計算機存儲介質(zhì)(或非暫態(tài)介質(zhì))和通信介質(zhì)(或暫態(tài)介質(zhì))的計算機可讀介質(zhì)上。如本領(lǐng)域技術(shù)人員所熟知的,術(shù)語計算機存儲介質(zhì)包括以用于存儲信息(如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù))的任何方法或技術(shù)實現(xiàn)的易失性和非易失性、可移除和不可移除介質(zhì)。計算機存儲介質(zhì)包括但不限于ram、rom、eeprom、閃速存儲器或其他存儲技術(shù)、cd-rom、數(shù)字通用盤(dvd)或其他光盤存儲器、磁帶盒、磁帶、磁盤存儲器或其他磁存儲設(shè)備、或者可以用于存儲所需信息并且可以由計算機訪問的任何其它介質(zhì)。此外,技術(shù)人員眾所周知,通信介質(zhì)通常體現(xiàn)為調(diào)制數(shù)據(jù)信號(如載波)或其他傳輸機制中的計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù),并且包括任何信息傳遞介質(zhì)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1