專利名稱:音頻對象的編碼與解碼的制作方法
技術領域:
本發(fā)明涉及音頻對象的編碼和解碼,并且特別地但不專門地涉及
對下混合(down-mix)空間信號的音頻對象的操控。
背景技術:
近幾十年來,隨著數(shù)字信號表示和通信已經日益代替了模擬表示 和通信,各種音頻信號的數(shù)字編碼已經變得愈加重要。
在近十年中,已經出現(xiàn)朝著多聲道音頻的趨勢,并特別地出現(xiàn)朝 著擴展超越傳統(tǒng)立體聲信號的空間音頻的趨勢。例如,傳統(tǒng)的立體聲 記錄僅僅包括兩個聲道,而現(xiàn)代高級音頻系統(tǒng)典型地使用五個或六個 聲道,如在流行的5.1環(huán)繞聲系統(tǒng)中。這提供了更復雜的收聽體驗, 其中用戶可以被聲源環(huán)繞。
針對這樣的多聲道信號的通信,已經開發(fā)了多種技術和標準。例 如可以根據標準(比如高級音頻編碼(AAC)或杜比(Dolby)數(shù)字標 準)來傳輸代表5.1環(huán)繞系統(tǒng)的六個離散聲道。
然而,為了提供向后的兼容性,公知的是將較高數(shù)量的聲道下 混合為較低數(shù)量,并且特別地頻繁使用的是將5.1環(huán)繞聲信號下混合 為立體聲信號,其允許由傳統(tǒng)(立體聲)解碼器再現(xiàn)立體聲信號并由 環(huán)繞聲解碼器再現(xiàn)5. 1信號。
一個實例是由運動圖像專家組(MPEG)標準化的MPEG環(huán)繞向后兼 容的編碼方法。在這樣的系統(tǒng)中,多聲道信號被下混合為立體聲信號, 并且附加信號被輔助數(shù)據部分中的參數(shù)化數(shù)據編碼,這允許MPEG環(huán)繞 多聲道解碼器生成多聲道信號的表示。傳統(tǒng)的單聲道或立體聲解碼器 將忽視輔助數(shù)據,因此僅僅對單聲道或立體聲下混合進行解碼。
因此,在(參數(shù)化的)空間音頻編碼器中,從原始音頻信號提取 參數(shù)從而產生具有數(shù)量減少了的聲道的音頻信號(例如僅僅單個聲道) 加上描述原始音頻信號的空間屬性的參數(shù)集合。在(參數(shù)化的)空間 音頻解碼器中,由被傳輸?shù)目臻g參數(shù)描述的空間屬性被用于重新創(chuàng)建 原始的空間多聲道信號。最近,對可以在接收端被處理和操控的各個音頻對象進行分布的
技術已經引起顯著興趣。例如,在MPEG架構內,工作項目開始于基于 對象的空間音頻編碼。該工作項目的目標是探索新技術和對當前MPEG 環(huán)繞組件和技術的重用,以用于把多個聲源或對象節(jié)省比特率(bit rate)地編碼為多個下混合聲道和相應的空間參數(shù)。因此,意圖是使 用如用于將空間(環(huán)繞)聲道下混合為更少聲道的相似技術來將獨立 音頻對象下混合為更少數(shù)量的聲道。
在面向對象的音頻系統(tǒng)中,解碼器可以提供這些源/對象的離散定 位和對各種揚聲器裝置的適應以及雙聲道立體聲呈現(xiàn)(rendering)。 此外,用戶交互可以用于控制在再現(xiàn)側上各個源的重定位/篩選 (panning )。
換句話說,研究的目的是在伴有參數(shù)的下混合聲道的有限集中對 多個音頻對象進行編碼。在解碼器側,用戶可以例如通過重新定位各 個對象而與內容進行交互。作為特定實例,多個單獨的儀器可以被編 碼并分發(fā)為音頻對象,由此允許接收編碼的數(shù)據的用戶在聲像中獨立 地定位所述單獨的儀器。
圖1示出根據現(xiàn)有技術的面向對象的音頻編碼器和解碼器的實例。 在該實例中,在面向對象的編碼器101中對一組音頻對象(Ot到04) 進行編碼,所述編碼器101生成下混合信號和對象參數(shù)。這些被發(fā)送 到面向對象的解碼器103,解碼器103使用被發(fā)送的對象參數(shù)來生成音 頻對象信號的近似的拷貝。
隨后,呈現(xiàn)元件105生成具有所期望的特性的輸出信號。例如, 呈現(xiàn)元件105可以將對象定位在由用戶指示的聲源位置,例如使用篩 選法則來定位。所述輸出信號配置是靈活的。例如,如果輸出信號是 單聲道的,則用戶仍然可以操控每一個對象的相對響度/音量。在立體 聲輸出信號配置中,為了將每一個對象定位在所期望的位置處可以應 用簡單的篩選法則。顯然,對于多聲道輸出配置,靈活性甚至更大。
然而,雖然所述系統(tǒng)可以提供有利的性能,但是它也存在很多缺 陷。例如,在許多情況下,所再現(xiàn)的質量是次優(yōu)的,并且對各個音頻 對象的完全自由和獨立的操控是不可能的。特別地,編碼器的下混合 在解碼器處一般不完全是可逆的,所述解碼器因此僅僅可以生成原始 音頻對象的近似。因此,解碼器不能完全重建各個對象信號,而只能
8根據感性標準來評估這些信號。這特別地導致音頻對象之間的交叉干 擾(串擾),由此導致所述音頻對象不再是完全獨立的。結果,對一 個音頻對象的操控會影響另一個對象的特性和感知。
例如,用戶典型地想要調整的最重要的參數(shù)之一是每一個音頻對 象的相對音量。然而,如果進行大的音量調整,則這會導致相當大的
贗象(artefact)和不想要的串擾,從而導致質量的顯著下降。
因此, 一種用于音頻對象編碼/解碼的改進的系統(tǒng)是有利的,并且 特別地一種允許提高靈活性、改進質量、便于實現(xiàn)和/或改進性能的系 統(tǒng)將是有利的。
發(fā)明內容
因此,本發(fā)明設法優(yōu)選單獨地或以任何組合方式減輕、緩解或消 除上述缺陷中的一個或多個缺陷。
根據本發(fā)明的第一方面,提供一種用于對音頻對象進行編碼的編 碼器,該編碼器包括用于接收多個音頻對象的裝置;用于把多個音 頻對象編碼為若干音頻信號和代表與所述若干音頻信號有關的所述多 個音頻對象的參數(shù)化數(shù)據的編碼裝置,所述參數(shù)化數(shù)據包括用于不同 音頻對象中的至少一個的對象參數(shù)集合;用于從遠程單元接收編碼修 改數(shù)據的裝置;以及用于響應于所述編碼修改數(shù)據而確定所述參數(shù)化 數(shù)據的參數(shù)裝置。
本發(fā)明可以允許對音頻對象的改進的編碼并且特別地可以允許音 頻分發(fā)系統(tǒng),其中可以例如利用各個音頻對象的改進的各個用戶控制 來獲得改進的用戶體驗。本發(fā)明可以允許各個音頻對象的特性的改進 的控制并且可以特別地在操控音頻對象時減少交叉音頻對象干擾衰 減。所述編碼器可以允許高效的遠程控制的操控同時修改所述編碼修 改數(shù)據,從而使得面向對象的解碼器將對被操控的音頻對象進行正確 的解碼。本發(fā)明可以允許在編碼器與解碼器之間的音頻對象操控的改 進的分布,由此產生改進的靈活性、性能和/或質量。
所述編碼裝置可以進一步響應于所述編碼修改數(shù)據而生成若干音 頻信號。對象參數(shù)可以是強度參數(shù),例如指示不同音頻對象之間的相 對強度差和/或一個或若干音頻信號與音頻對象之間的能量轉換因子。 所述對象參數(shù)可以包括用于各個頻率時間塊的參數(shù)。根據本發(fā)明的可選特征,所述編碼裝置^ML布置以通過音頻對象的
下混合而生成若干音頻信號,并且所述參數(shù)裝置被布置以響應于所述 編碼修改數(shù)據來修改至少 一 個音頻對象的下混合權重。
這可以提供聽者對音頻對象的相對音量的高效率和/或高質量控 制,同時減少或消除對其他音頻對象的影響??梢垣@得高性能的各個 音頻對象音量控制。
根據本發(fā)明的可選特征,所述參數(shù)裝置被布置以響應于所述編碼 修改數(shù)據而縮放至少第一音頻對象,并且響應于所述縮放來修改用于 第一音頻對象的對象參數(shù)。
這可以提供聽者對音頻對象的相對音量的高效率和/或高質量控 制,同時減少或消除對其他音頻對象的影響??梢垣@得高性能的各個 音頻對象音量控制。
根據本發(fā)明的可選特征,至少一些編碼修改數(shù)據是特定頻率的, 并且參數(shù)裝置被布置以響應于對象參數(shù)的頻率特性而確定至少一個對 象參數(shù)。
這可以允許對收聽體驗的改進的控制,并且可以特別地允許由聽 者操控音頻的頻率響應。各個對象的頻率特性可以被單獨地和分離地 修改以減少或消除對其他音頻對象的影響。特別地,可以實現(xiàn)各個音 頻對象的高效和/或高質量的均衡。
根據本發(fā)明的可選特征,所述編碼裝置被布置以在音頻對象下混 合到若干音頻信號之前響應于所述編碼修改數(shù)據而修改至少一個音頻 對象。
所述參數(shù)裝置可以被布置以響應于被修改的音頻對象的特性而確 定參數(shù)化數(shù)據。這可以允許高性能和/或便于實現(xiàn)。
根據本發(fā)明可選的特征,所述編碼裝置被布置以生成若干音頻信 號作為空間下混合。
這可以允許在許多實施例中改進的性能,并且可以特別地允許與 沒有或有限制的呈現(xiàn)能力的編碼器相關聯(lián)的改進的操作。所述編碼器 可以例如被布置以呈現(xiàn)包括音頻對象的空間多聲道信號,并且可以特 別地被布置以生成空間兩路立體聲信號。
根據本發(fā)明的可選特征,所述編碼裝置被布置以響應于所述編碼
修改數(shù)據而修改選自由以下組成的組合的至少一個特性至少一個音
10頻對象的空間位置;至少一個音頻對象的距離特性;編碼器的空間呈 現(xiàn)模式,和至少一個音頻對象的頻率特性。
這可以允許改進的性能并且所述參數(shù)可以特別地允許聽者感性地 修改被呈現(xiàn)的空間信號的重要參數(shù)。
根據本發(fā)明的可選特征,每一個音頻對象與獨立于其他音頻對象 的音頻源的音頻源集合相關聯(lián)。
所述音頻對象可以相互獨立。這些音頻對象可以對應于不同的獨 立聲源。特別地,這些音頻對象可以是從其他音頻對象單獨并分離地 生成的、并且不具有任何特定關系的不同音頻對象。例如,這些音頻 對象可以單獨地被記錄/捕獲樂器或聲音。
這些音頻對象可以是非空間音頻對象。這些音頻對象可以是沒有 相關聯(lián)的空間特性或信息的簡單聲源,并且特別地在這些音頻對象之 間可能不存在空間關系、了解或聯(lián)系。
根據本發(fā)明的可選特征,編碼器被布置以從遠程單元接收第一音 頻對象,并且用于接收編碼修改數(shù)據的裝置被布置以從所接收的用于 第一音頻對象的編碼數(shù)據中提取所述編碼修改數(shù)據。
例如,所述編碼修改數(shù)據可以嵌在語音、音樂或其他音頻信號中。
輔助或用戶數(shù)據段中,比如MPEG4比特流。這可以允許高效的、向后 兼容的和低復雜性的控制數(shù)據的通信,并且特別地可以用于在包括編 碼器的設備與遠程單元之間采用雙向通信的系統(tǒng)中。
根據本發(fā)明的可選特征,編碼器被布置以從多個遠程單元接收編 碼修改數(shù)據并且響應于從不同遠程單元接收不同的編碼修改數(shù)據來對 不同遠程單元生成不同的參數(shù)化數(shù)據。
這可以在許多實施例中允許改進的操作和/或附加的服務。所述編 碼裝置可以進一步4皮布置以對于不同的遠程單元生成不同的音頻信 號。因此,該方法可以允許例如集中式的音頻對象編碼器根據遠程單 元的各個用戶的要求和偏好來定制被發(fā)送的數(shù)據。
根據本發(fā)明的另一方面,提供一種用于對音頻對象進行解碼的解 碼器,該解碼器包括接收器,其用于從編碼器接收若干音頻信號和 參數(shù)化數(shù)據,所述音頻信號是多個音頻對象的下混合而所述參數(shù)化數(shù) 據代表與所述若干音頻信號有關的所述多個音頻對象,該參數(shù)化數(shù)據包括用于不同音頻對象中的至少一個音頻對象的對象參數(shù)集合;解碼 裝置,其用于響應于參數(shù)化數(shù)據而從所述若干音頻信號解碼音頻對象; 呈現(xiàn)裝置,其用于從音頻對象生成空間多聲道輸出信號;用于生成用 于對象編碼器的編碼修改數(shù)據的裝置;以及用于將所述編碼修改數(shù)據 發(fā)送到對象編碼器的裝置。
解碼裝置和呈現(xiàn)裝置可以在一些實施例中組合,并且可以在沒有 明確生成音頻對象的情況下從音頻信號直接生成所述空間多聲道輸出 信號。例如,可以將矩陣乘法應用于音頻信號的信號值以生成音頻對 象信號值。隨后可以將第二矩陣乘法應用于音頻對象信號值以生成空 間多聲道音頻信號值??商娲?,第一和第二矩陣乘法可以被組合為 單個矩陣乘法。因此,可以將單個矩陣乘法應用于音頻信號的信號值 以直接生成空間多聲道音頻信號值。因此,音頻對象的解碼在呈現(xiàn)/矩 陣乘法中可以是隱式的,并且不必明確地/直接地生成音頻對象值。
根據本發(fā)明的另一個方面,提供一種用于支持多個通信單元之間 的電話會議的電話會議集線器,該電話會議集線器包括用于從所述 多個通信單元接收第一多個語音信號的裝置;編碼裝置,其用于為第 一通信單元把第一多個語音信號編碼為若干音頻信號和代表與若干音 頻信號有關的所述多個語音信號的參數(shù)化數(shù)據,所述參數(shù)化數(shù)據包括 用于不同語音信號中的至少一個語音信號的對象參數(shù)集合;用于從第 一通信單元接收編碼修改數(shù)據的裝置;以及參數(shù)裝置,其用于響應于 所述修改數(shù)據確定參數(shù)化數(shù)據;以及用于將所述若干音頻信號和參數(shù) 化數(shù)據發(fā)送到第 一通信單元的裝置。
根據本發(fā)明的另一個方面,提供一種用于發(fā)送音頻信號的發(fā)送器, 該發(fā)送器包括用于接收多個音頻對象的裝置;編碼裝置,其用于把 多個音頻對象編碼為若干音頻信號和代表與所述若干音頻信號有關的 所述多個音頻對象的參數(shù)化數(shù)據,所述參數(shù)化數(shù)據包括用于不同音頻 對象中的至少一個對象的對象參數(shù)集合;用于從遠程單元接收編碼修 改數(shù)據的裝置;以及參數(shù)裝置,其用于響應于所述修改數(shù)據來確定所 述參數(shù)化數(shù)據。
根據本發(fā)明的另一個方面,提供一種用于接收可縮放的音頻比特 流的接收器,該接收器包括接收器元件,其用于從編碼器接收若干 音頻信號和參數(shù)化數(shù)據,該音頻信號是多個音頻對象的下混合而所述
12參數(shù)化數(shù)據代表與所述若干音頻信號有關的所述多個音頻對象,所述 參數(shù)化數(shù)據包括用于不同音頻對象中的至少一個對象的對象參數(shù)集
合;解碼裝置,其用于響應于所述參數(shù)化數(shù)據而從若干音頻信號中解 碼音頻對象;呈現(xiàn)裝置,其用于從音頻對象生成空間多聲道輸出信號; 用于生成用于對象編碼器的編碼修改數(shù)據的裝置;以及用于將所述編 碼修改數(shù)據發(fā)送到對象編碼器的裝置。
根據本發(fā)明的另一個方面,提供一種用于傳輸音頻信號的通信系 統(tǒng),該通信系統(tǒng)包括發(fā)送器,其包括用于接收多個音頻對象的裝 置、用于把多個音頻對象編碼為若干音頻信號和代表與所述若干音頻 信號有關的所述多個音頻對象的參數(shù)化數(shù)據的編碼裝置、以及用于將 所述若干音頻信號和參數(shù)化數(shù)據發(fā)送到接收器的裝置,其中所述參數(shù) 化數(shù)據包括用于不同音頻對象中的至少一個對象的對象參數(shù)集合;和 接收器,其包括用于從發(fā)送器接收若干音頻信號和參數(shù)化數(shù)據的接 收器元件、用于響應于參數(shù)化數(shù)據從若干音頻信號中解碼音頻對象的 解碼裝置、用于從音頻對象生成空間多聲道輸出信號的呈現(xiàn)裝置、用 于生成用于編碼裝置的編碼修改數(shù)據的裝置、以及用于將所述編碼修 改數(shù)據發(fā)送到發(fā)送器的裝置;并且其中所述發(fā)送器包括用于從接收器 接收所述編碼修改數(shù)據的裝置、用于響應于所述編碼修改數(shù)據而確定 參數(shù)化數(shù)據的參數(shù)裝置。
根據本發(fā)明的另一個方面,提供一種對音頻信號進行編碼的方法, 該方法包括接收多個音頻對象;把多個音頻對象編碼為若干音頻信
據,所述參數(shù)化數(shù)據包括用于不同音頻對象中的至少一個對象的對象 參數(shù)集合;從遠程單元接收編碼修改數(shù)據;以及響應于所述修改數(shù)據 來確定所述參數(shù)化數(shù)據。
根據本發(fā)明的另一個方面,提供一種對音頻信號進行解碼的方法, 該方法包括從編碼器接收若干音頻信號和參數(shù)化數(shù)據,所述音頻信 號是多個音頻對象的下混合而所述參數(shù)化數(shù)據代表與所述若干音頻信 號有關的所述多個音頻對象,該參數(shù)化數(shù)據包括用于不同音頻對象中 的至少一個音頻對象的對象參數(shù)集合;響應于所述參數(shù)化數(shù)據從所述 若干音頻信號解碼音頻對象;從所述音頻對象生成空間多聲道輸出信 號;生成用于所述對象編碼器的編碼修改數(shù)據;以及將所述編碼修改
13數(shù)據發(fā)送到所述對象編碼器。
根據本發(fā)明的另一個方面,提供一種發(fā)送音頻信號的方法,該方
法包括接收多個音頻對象;把多個音頻對象編碼為若干音頻信號和 代表與所述若干音頻信號有關的所述多個音頻對象的參數(shù)化數(shù)據,所 述參數(shù)化數(shù)據包括用于不同音頻對象中的至少一個對象的對象參數(shù)集 合;從遠程單元接收編碼修改數(shù)據;響應于所述修改數(shù)據來確定所述 參數(shù)化數(shù)據;以及發(fā)送所述若干音頻信號和參數(shù)化數(shù)據。
根據本發(fā)明的另一個方面,提供一種接收音頻信號的方法,該方 法包括從編碼器接收若干音頻信號和參數(shù)化數(shù)據,該音頻信號是多 個音頻對象的下混合而所述參數(shù)化數(shù)據代表與所述若干音頻信號有關 的所述多個音頻對象,所述參數(shù)化數(shù)據包括用于不同音頻對象中的至 少一個對象的對象參數(shù)集合;響應于所述參數(shù)化數(shù)據而從若干音頻信 號解碼音頻對象;從音頻對象生成空間多聲道輸出信號;生成用于對 象編碼器的編碼修改數(shù)據;以及將所述編碼修改數(shù)據發(fā)送到對象編碼 器。
根據本發(fā)明的另一個方面,提供一種發(fā)送和接收音頻信號的方法, 該方法包括發(fā)送器(101)執(zhí)行下列步驟接收多個音頻對象、把多 個音頻對象編碼為若干音頻信號和代表與所述若干音頻信號有關的所 述多個音頻對象的參數(shù)化數(shù)據、以及將所述若干音頻信號和參數(shù)化數(shù) 據發(fā)送到接收器,其中所述參數(shù)化數(shù)據包括用于不同音頻對象中的至 少一個對象的對象參數(shù)集合;并且接收器執(zhí)行下列步驟從發(fā)送器接 收若干音頻信號和參數(shù)化數(shù)據、響應于參數(shù)化數(shù)據從若干音頻信號解 碼音頻對象、從音頻對象生成空間多聲道輸出信號、生成用于編碼裝 置的編碼修改數(shù)據、以及將所述編碼修改數(shù)據發(fā)送到對象編碼器;并 且其中所述發(fā)送器進一步執(zhí)行下列步驟從接收器接收所述編碼修改 數(shù)據、和響應于所述編碼修改數(shù)據而確定參數(shù)化數(shù)據。
根據本發(fā)明的另一個方面,提供一種用于執(zhí)行上述方法的計算機 程序產品。
根據本發(fā)明的另一個方面,提供一種包括如上所述的編碼器的音 頻記錄設備。
根據本發(fā)明的另一個方面,提供一種包括如上所述的解碼器的音 頻播放設備。通過并參照下面所描述的(多個)實施例,本發(fā)明的這些和其他 方面、特征和優(yōu)點將被闡明并顯現(xiàn)出來。
將僅通過實例并參照附圖來描述本發(fā)明的實施例,其中
圖l是根據現(xiàn)有技術的音頻系統(tǒng)的圖解;
圖2示出根據本發(fā)明的一些實施例的用于音頻信號通信的通信系 統(tǒng)的實例;
圖3示出根據本發(fā)明的一些實施例的在編碼器和解碼器之間的交
互;
圖4示出根據本發(fā)明的一些實施例的編碼器的實例; 圖5示出根據本發(fā)明的一些實施例的解碼器的實例; 圖6示出根據本發(fā)明的一些實施例的對音頻信號進行編碼的方法 的實例;和
圖7示出根據本發(fā)明的一些實施例的對音頻信號進行解碼的方法 的實例。
具體實施例方式
下面的描述集中在適用于電話會議應用中的音頻對象編碼和/或 解碼的本發(fā)明的實施例。然而,將被理解的是,本發(fā)明不限于這種應 用,而是可以適用于許多其他的應用,包括例如音樂音頻分布應用。
圖2示出根據本發(fā)明的一些實施例的通信系統(tǒng)200,其用于音頻信 號的通信。傳輸系統(tǒng)200包括通過網絡205而耦合到接收器203的發(fā) 送器201,所述網絡特別地可以是互聯(lián)網。
在該特定實例中,發(fā)送器201是電話會議集線器的一部分。在電 話會議的應用中,幾個遠端談話人的語音信號在電話會議集線器中被 混合。隨后對于電話會議中每一個人,除了他/她自己之外的所有信號 的混合被發(fā)送到所有接收器。因此,發(fā)送器201可以從多個參加電話 會議的遠程通信單元接收語音信號,并且可以生成語音信號并將之分 發(fā)給所述遠程通信單元。在該實例中,接收器203是信號播放設備, 其可以生成語音輸出到會議呼叫的參加者。特別地,接收器203是遠 程通信單元(比如電話)的一部分。
15將被理解的是,在其他實施例中發(fā)送器和接收器可以用于其他應
用中和用于其他目的。例如,發(fā)送器201和/或接收器203可以是轉碼 功能的一部分,并且可以例如提供到其他信號源或目的地的接口。
在該特定實施例中,發(fā)送器201包括接收器207,其從包含在電話 會議呼叫中的遠程通信單元接收語音信號.每一個所述語音信號被視 為分離的、獨立的音頻對象。
接收器207被耦合到圖2的編碼器209,所述編碼器209被提供所 述各個語音音頻對象并且根據編碼算法對所述音頻對象進行編碼。編 碼器209被耦合到網絡發(fā)送器211,所述網絡發(fā)送器211接收編碼的信 號并與互聯(lián)網205接口。網絡發(fā)送器可以將編碼的信號通過互聯(lián)網205 發(fā)送到接收器203。
接收器203包括網絡接收器213,所述網絡接收器213與互聯(lián)網 205接口并且被布置以從發(fā)送器201接收編碼的信號。
網絡接收器213被耦合到解碼器215。解碼器215接收編碼的信號 并根據解碼算法對其進行解碼。特別地,解碼器215是面向對象的解 碼器,其可以將所述各個音頻對象解碼并基于解碼的音頻對象呈現(xiàn)音 頻輸出信號。
在支持信號播放功能的特定實例中,接收器203進一步包括信號 播放器217,該播放器從解碼器215接收解碼的音頻信號并將其提供給 用戶。特別地,信號播放器217可以包括如輸出解碼的音頻信號所需 的數(shù)字模擬轉換器、放大器和揚聲器。
圖3更詳細地示出編碼器209與解碼器215之間的交互。
如圖所示,面向對象的編碼器209從接收器207接收多個音頻對 象。所述音頻對象是相互獨立的各個聲音信號,并且特別地其對應于 各個獨立的聲源。在一些實施例中,所述音頻對象可以是被單獨記錄 的聲源。而且音頻對象沒有任何空間關聯(lián)并且特別地在不同音頻對象 之間不存在空間關系。
因此,與例如環(huán)繞聲記錄相比,本實例的音頻對象是各個孤立的 聲源,在所述環(huán)繞聲記錄中在不同位置記錄相同的聲像(和聲源)從 而生成相同空間信號的不同聲道。
在電話會議的應用中,每一個音頻對象對應于從電話會議呼叫中 的一個參加者處接收的語音信號。因此,編碼器209接收以從多個參加所述會議呼叫的遠程通信單元接收的語音信號的形式的音頻對象。
面向對象的編碼器209在有限數(shù)量的聲道中對音頻對象進行編碼, 并且另外地生成參數(shù)化數(shù)據,該參數(shù)化數(shù)據允許并幫助從在解碼器側 所生成的音頻聲道重新生成原始音頻對象。特別地,音頻編碼器209 可以以與生成空間環(huán)繞聲信號到例如立體聲信號的下混合相似的方式 來生成音頻對象的下混合。例如,編碼器209可以通過用音頻對象樣 本值乘以下混合矩陣以生成下混合的樣本值來生成下混合。
編碼器209生成包括用于有限數(shù)量的聲道的編碼數(shù)據和相關聯(lián)的 參數(shù)化數(shù)據的比特流。該數(shù)據被發(fā)送到解碼器215。
解碼器215包括面向對象的解碼器單元303,其基于所接收的音頻 聲道和所接收的參數(shù)化數(shù)據而生成原始音頻對象的本地近似副本。特 別地,面向對象的解碼器單元303可以通過將上混合矩陣應用于所接 收的音頻樣本而生成音頻對象。響應于從編碼器209接收的參數(shù)化數(shù) 據來確定上混合矩陣的系數(shù)。
解碼器215進一步包括呈現(xiàn)單元305,其被布置以基于音頻輸入而 生成輸出信號。呈現(xiàn)單元305可以自由地操控并混合所接收的音頻對 象以生成所需的輸出信號。例如,呈現(xiàn)單元305可以生成五聲道的環(huán) 繞聲信號并且可以自由地將每一個單獨的音頻對象定位在所生成的聲 像中。作為另一個實例,呈現(xiàn)單元305可以生成兩路立體聲信號,其 可以通過例如一套頭戴式耳機提供空間體驗。
在許多實際的系統(tǒng)中,解碼單元303和呈現(xiàn)單元305的功能可以 合并到單個處理步驟。例如,解碼單元303的操作典型地對應于關于 上混合矩陣的矩陣乘法,而呈現(xiàn)單元305的操作相似地對應于對上混 合矩陣乘法的輸出執(zhí)行的矩陣乘法。因此,通過將上混合和呈現(xiàn)矩陣 合并為單個矩陣,級聯(lián)的矩陣乘法可以被合并為單個矩陣乘法。
在該特定實例中,呈現(xiàn)單元305可以將所述會議呼叫的每一個單 獨的揚聲器置于聲像中的不同位置上,其中每一個揚聲器的特定位置 例如可由控制呈現(xiàn)單元305的用戶自由選擇。作為另一個實例,如果 音頻對象對應于來自一首樂曲的不同樂器,則用戶可以自由地混合各 個樂器、使各個樂器均衡等等,并自由地將它們定位在聲像中。因此, 所述的方法允許單個用戶高度自由地操控所述不同的音頻對象從而生 成定制的音頻輸出,該定制的音頻輸出可以獨立于針對來自編碼器209
17的編碼信號的接收方和其他用戶所生成的輸出對象。
然而,盡管通過在呈現(xiàn)單元305中操控音頻對象而提供了很大的 靈活度,但這種操控還可能導致所生成的音頻信號的質量降低。特別 地,為了在解碼器215中生成音頻對象的精確的副本,必需應用上混 合矩陣,所述上混合矩陣是編碼器209中使用的下混合矩陣的逆。然 而,這通常是不可能的(例如當所生成的音頻信號的數(shù)量小于音頻對 象的數(shù)量時由于在這種情況中下混合矩陣不存在逆矩陣,所以這是不 可能的),因此只能生成原始音頻信號的近似。特別地,在解碼器中 生成的音頻對象將包括來自其他音頻對象的許多交叉干擾。結果,對 一個音頻對象的操控將影響另一個音頻對象的感知和特性,這可能導 致性能的降低和明顯的贗象。
在圖3的系統(tǒng)中,編碼器215進一步能夠生成具有被發(fā)送到編碼 器209的編碼修改數(shù)據的形式的控制數(shù)據。隨后由編碼器209評估所 述編碼修改數(shù)據,所述編碼器209根據所接收的控制信息來修改編碼 過程。特別地,編碼器209可以修改音頻對象的下混合和為下混合生 成的空間參數(shù)。作為特定實例,編碼修改數(shù)據可以指定一個特定音頻 對象的音量應該被降低。因此,編碼器209降低了該音頻對象的水平 (例如先于下混合操作或作為其一部分)并且修改(直接或間接)用 于音頻對象的參數(shù)化數(shù)據,從而使得當音頻對象在解碼器處被解碼時, 所述水平將被適當?shù)亟档停⑶覂?yōu)選地從而使得所修改的參數(shù)化數(shù)據 準確地表示各個音頻對象水平的變化。
因此所述方法允許一些或所有對象操控在編碼側執(zhí)行。由于編碼 器可以使用原始的獨立音頻對象而不是僅僅使用近似副本,所以可以 獲得改進的性能并且特別地可以提供改進的質量。例如減少交叉干擾, 因此可以基本上減少乃至完全消除提高或降低一個音頻對象的音量 對其他音頻對象的影響。
圖4更詳細地示出編碼器209。在下面,將參照特定實例更詳細地 描述編碼器209的操作,在所述特定實例中解碼器側生成編碼修改數(shù) 據,該數(shù)據被發(fā)送到編碼器并用于控制各個音頻對象的相對水平。
編碼器209包括接收音頻對象的接收單元401,該音頻對象在這種
情況下是從參加所述電話會議呼叫的遠程通信單元(比如電話)接收 到的語音信號。該語音對象被供給編碼單元403,編碼單元403將所述
18對象下混合為若干音頻信號,其數(shù)量低于語音音頻對象的數(shù)量。特別
地,編碼單元403執(zhí)行由下式給出的矩陣乘法
Y-DxX
其中X表示包括語音對象樣本的N維向量(其中N是語音對象的數(shù)量), Y是包括下混合輸出樣本的M維向量(其中M是輸出聲道的數(shù)量),而 D是N, M下混合矩陣。M可能明顯小于N。例如,對于六路電話會議, 可以將五個語音信號下混合為單個單聲道信號,其被發(fā)送到第六個通 信單元。
編碼器209進一步包括參數(shù)單元405,其生成可以用于從下混合信 號重建音頻對象的參數(shù)化數(shù)據。特別地,參數(shù)單元405生成用于每一 個語音對象的對象參數(shù)集合,其被解碼器215使用以重建語音對象。 理想地,將這樣確定對象參數(shù)使得對應于下混合矩陣的逆的上混合 矩陣將被確定,即上混合矩陣l^D1。然而,對于下混合矩陣(其中N>M) 不存在逆矩陣,因此只能生成允許原始語音對象的非理想重新生成的 參數(shù)數(shù)據。
因此,參數(shù)單元405生成代表與下混合信號有關的各個語音對象 的特性的參數(shù)。在該特定實例中,參數(shù)單元首先將語音對象轉換為時 間塊中的頻域(例如通過使用FFT)并且隨后對每一個時間頻率塊(或 時間頻率片(tile))執(zhí)行下混合矩陣乘法。而且,對于時間頻率塊, 與下混合結果有關的每一個語音對象的相對振幅被確定。因此,參數(shù) 單元405生成以用于所述各種語音對象的分離的時間/頻率片描述的相 對水平信息。由此,為時間/頻率片生成了水平向量,其中向量的每一 個元素代表在該元素的對象的時間/頻率片中的能量的大小。該過程可 能產生關于頻帶b、時間片段t和信號n的能量參數(shù)Ob、集合。這些參 數(shù)隨后可以(優(yōu)選地在量化的、對數(shù)域中)被發(fā)送到接收端。因此, 用于生成所述參數(shù)數(shù)據的方法可以與用于MPEG環(huán)繞空間編碼的方法相 似,并且功能的重用在許多實施例中是可以實現(xiàn)的。
參數(shù)單元405和編碼單元403被耦合到發(fā)送處理器407,其生成包 括編碼數(shù)據和參數(shù)化數(shù)據這兩者的比特流。特別地,所述比特流可以 是MPEG兼容的編碼立體聲信號,其參數(shù)化數(shù)據包括在比特流的輔助數(shù) 據部分中。所生成的比特流隨后被發(fā)送到適當?shù)耐ㄐ艈卧?br>
圖5更詳細地示出解碼器215。解碼器215包括面向對象的解碼單
19元303,其生成語音對象的近似副本。特別地,解碼單元303可以通過修改由如參數(shù)化數(shù)據中給出的該對象的相應相對水平差表示的接收到的下混合信號的相應時間頻率片來生成各個語音對象的時間頻率片。
如果由與能量參數(shù)(J,,t和下混合信號m ( t)相關聯(lián)的xn ( t)給出對象n的各個語音信號,則關于時間/頻率片(b, t)的語音信號xn(t)的解碼器側評估可以由下式給出
語音對象被供給呈現(xiàn)單元305,其可以繼續(xù)為用戶生成輸出信號。而且,在該實例中,用戶可以能夠調整各種呈現(xiàn)參數(shù)和特性,其包括例如改變一個或多個所述語音對象在所生成的聲像中的位置。
此外,解碼器215包括控制處理器501,其可以響應于用戶輸入而生成編碼修改數(shù)據。所述編碼修改數(shù)據被提供給發(fā)送單元503,其將該編碼修改數(shù)據發(fā)送到編碼器209。
編碼器209包括控制數(shù)據接收器409,其接收所述編碼修改數(shù)據。所述控制數(shù)據接收器409被耦合到編碼單元403和參數(shù)單元405,其被
成。因此除了在解碼器處對語一音對象的呈現(xiàn)進行控制之外,所述用戶還可以控制在編碼器側執(zhí)行的面向對象的編碼的編碼操作。
作為特定實例,所生成的解碼器輸出信號中的空間圖像和對象空間位置可以通過修改解碼器的呈現(xiàn)操作來控制,而(大)音量調整可以通過在編碼器處控制下混合來執(zhí)4亍。
因此,解碼器用戶可以要求特定語音對象的音量充分增加。如果通過在解碼器處放大相應的語音對象來執(zhí)行之,則該放大操作也會放大來自其他語音對象的交叉干擾分量,這不僅可以導致這些對象的更高音量,還會導致這些對象的失真并且可能導致這些對象的移位。
然而,根據該實例,解碼器215不改變所生成的語音對象副本的縮放,而是生成編碼修改數(shù)據,該數(shù)據將使得編碼器修改所需的語音對象的下混合權重。
因此,在該實例中通過在編碼器側控制相對水平來減輕或消除與在解碼器側改變各個音頻對象相關聯(lián)的缺陷。特別地,在解碼器側用戶所希望的水平修改被發(fā)送到編碼器并且被用作下混合權重。
在所述電話會議的實例中,接收端還將本地產生的語音發(fā)送回電話會議集線器。因此,該語音信號可以包括用于所有由接收器接收的對象的下混合權重(或通過導致接收器改變下混合權重的數(shù)據,例如應用于特定語音對象的相對減弱或放大)。例如,如果接收端產生信
號"語音0"并從其他通信單元接收信號"語音1"、"語音2"和"語音3",則它可以生成并發(fā)送用于對象"語音1"、"語音2"和"語音3"的下混合權重。隨后所述電話會議集線器使用這些下混合權重以生成用于該接收端的下混合信號。
該方案的優(yōu)點是,用戶在修改例如每一個單獨的語音信號的音量或距離方面具有很大的自由度。而且,所述下混合權重(和其他參數(shù))可能在整個時間上相當穩(wěn)定,因此編碼修改數(shù)據所需的數(shù)據速率典型地非常低。
在一些實施例中,編碼器209可以被布置以在所述下混合被執(zhí)行之前修改至少一個所述音頻對象。例如,編碼單元403可以在執(zhí)行下混合矩陣乘法之前縮放所收到的音頻對象。因此,如果指示特定語音對象應當更低的編碼修改數(shù)據被接收,則所接收的用于該對象的信號樣本可以乘以大于1的因子。隨后,所生成的信號可以用于下混合矩陣乘法中以生成下混合信號。該方法可以允許使用固定的下混合矩陣并且特別地使得乘以被使用的系數(shù)相對容易(例如下混合矩陣可以僅僅包括統(tǒng)一的系數(shù),由此將下混合乘法有效地筒化為若干簡單的加法)。
在該實例中,對象參數(shù)的確定可基于修改的信號來確定。因此,被縮放的語音信號也可以被供給參數(shù)單元405,其可以確定被修改信號的頻率時間片的相對水平。該方法將導致由解碼器執(zhí)行的上混合處理,以生成具有所希望的音量水平的語音對象。因此,在該方法中,依賴于所述編碼修改數(shù)據而對參數(shù)化數(shù)據的修改就下列意義而言是間接的所述編碼修改數(shù)據首先被用于修改語音對象并且隨后所述參數(shù)數(shù)據在經修改的語音對象的基礎上生成。
在其他實施例中,可以更直接地修改參數(shù)化數(shù)據。例如,語音對象可以在任何修改被執(zhí)行之前直接被供給參數(shù)單元405。隨后,參數(shù)單元405可以確定不同頻率時間片的相對強度水平,并且隨后響應于所述編碼修改數(shù)據而調整所測量的水平??梢允沟迷撔薷呐c先于所述下混合的語音對象的修改匹配,由此確保在解碼器處正確地生成音量補償?shù)恼Z音對象。
在一些實施例中,響應于所述編碼修改數(shù)據僅僅改變參數(shù)化數(shù)據,而語音對象和下混合保持不變。在該實例中,可以這樣改變對象參數(shù)使得解碼器將通過應用修改的對象參數(shù)來生成所希望的語音對象。在這種情況下,為了修改給定的語音對象,可能必須不僅改變該語音對象的對象參數(shù),而且還要改變其他語音對象的對象參數(shù)。
在一些實施例中,可以響應于所收到的編碼修改數(shù)據來改變下混合權重(例如,下混合矩陣系數(shù))。例如,可以通過加大特定語音對象的下混合矩陣系數(shù)來提高該語音對象的音量。在這種情況下,修改的語音對象信號典型地不可用,因此可以響應于所述編碼數(shù)據直接改變對象參數(shù),從而使得它們反映所改變的下混合權重。
還將被理解的是,在一些這樣的實施例中, 一個語音對象的修改還可能影響其他語音對象。例如,當改變一個語音對象的下混合權重時,其他下混合權重可以被這樣調整使得下混合信號的全部能量保持不變??商娲鼗虼送?,用于其他語音對象的頻率時間片的相對能量參數(shù)可以被修改以反映所生成的下混合信號的改變的能量。
在一些實施例中,所述編碼修改數(shù)據可以是特定頻率的,從而使得對于不同頻率提供不同的修改數(shù)據。例如,該下混合權重不是僅僅指示用于給定語音對象的修改的下混合權重,而是可以^皮作為頻率的函數(shù)給出。因此,總體來說遠程用戶不僅可以總體上調整語音對象的增益而且可以f務改該對象的頻率特性。這可以允i午遠程用戶有效地控制各個語音對象的均衡操作。因此,在該實例中,至少一些編碼修改數(shù)據是作為頻率的函數(shù)提供的,因此參數(shù)單元405繼續(xù)根據頻率修改參數(shù)化數(shù)據。
將被理解的是,發(fā)送器201可以被布置以生成用于不同解碼器的各個信號。例如,在電話會議集線器的示范性應用中,發(fā)送器201可
用于各個參加者的下混合和獨立的參數(shù)化數(shù)據。
在一些實施例中,編碼器209進一步包括用于生成作為空間下混
22合的輸出信號的功能。因此在該實例中,編碼器209被布置以將語音對象呈現(xiàn)為空間輸出信號,其中每個語音對象在特定位置被呈現(xiàn)為具有特定音量水平和頻率特性等等,特別地,編碼器209的輸出可以是立體聲信號、環(huán)繞聲多聲道信號和/或例如使用頭相關傳遞函數(shù)生成的雙聲道立體聲空間環(huán)繞信號。
在這樣的實施例中,從解碼器215接收的編碼修改數(shù)據可以包括空間呈現(xiàn)參數(shù),其影響空間信號中的語音對象的呈現(xiàn)。
所述空間呈現(xiàn)參數(shù)可以例如指示在空間輸出混合中應當改變 一 個或多個所述音頻對象的位置,作為另一個實例,可提供均衡數(shù)據,其可以應用于各個音頻對象。作為另一個實例,可以從解碼器端遠程控制每一個音頻對象的感知距離。例如,如果指示在空間下混合中音頻對象應當向更遠處移動的編碼修改數(shù)據被接收,則該音頻對象的呈現(xiàn)可被這樣改變使得音量水平降低并且前聲道和后聲道的相關性增加。已知這種改變影響距離的感知,從而導致用戶感覺音頻對象的聲源進一步遠離聽者。
作為另一個實例,遠程用戶可以控制編碼器的空間呈現(xiàn)模式。例如,對于二聲道輸出信號,用戶可以選擇是否應該針對揚聲器或頭戴式耳機優(yōu)化所述呈現(xiàn)。特別地,遠程用戶可以選擇所述輸出是否應該被生成為傳統(tǒng)立體聲信號或被生成為與頭戴式耳機一起使用的雙聲道立體聲空間環(huán)繞信號。
這種方法可以提供多個優(yōu)點。例如,用于發(fā)送空間呈現(xiàn)參數(shù)所需的比特率典型地相對較低,因為呈現(xiàn)參數(shù)僅僅是根據每個聲源定義的(即,它們典型地不是頻率相關的)。而且,這些參數(shù)可能在時間上相當穩(wěn)定。另一方面,對于每一個聲源和對于每一個時間/頻率片,用于解碼器側呈現(xiàn)方法所需的參數(shù)必須被發(fā)送,從而導致大量數(shù)據被發(fā)送。因此,通過將一些或所有所述呈現(xiàn)移動到編碼器側,可以獲得高效的音頻系統(tǒng)。
而且,可以獲得傳統(tǒng)解碼器的改進的兼容性。中心的編碼器可以生成為每一個解碼器而獨立地被優(yōu)化的比特流(即,單聲道、立體聲或環(huán)繞解碼器都可以被滿足并且可以為特定的目的地解碼器而優(yōu)化所生成的信號)。
該方法可以允許提供附加的和增強的服務。例如,每一個顧客可
23以為某些呈現(xiàn)可能性支付附加費用(即,水平調整是第一服務水平, 而空間呈現(xiàn)可以是第二、更昂貴的服務水平)。
而且,因為可以降低對于解碼器的呈現(xiàn)要求,所以在許多應用中 可以降低目的地解碼器的復雜性。
圖6示出根據本發(fā)明的一些實施例的編碼音頻信號的方法的實例。 該方法開始于步驟601,其中多個音頻對象被接收。 步驟601之后是步驟603,其中從遠程單元接收編碼修改數(shù)據。 步驟603之后是步驟605,其中多個音頻對象被編碼成若干音頻信
號和代表與所述若干音頻信號有關的多個音頻對象的參數(shù)化數(shù)據。所
述參數(shù)化數(shù)據包括用于每一個所述不同音頻對象的對象參數(shù)集合,并
且該參數(shù)化數(shù)據響應于所述修改數(shù)據而被確定。
圖7示出根據本發(fā)明的一些實施例的解碼音頻對象的方法的實例。 該方法開始于步驟701,其中從編碼器接收若干音頻信號和代表與
所述若干音頻信號有關的音頻對象的參數(shù)化數(shù)據。所述音頻信號是音
頻對象的下混合,并且所述參數(shù)化數(shù)據包括用于每一個所述不同音頻
對象的對象參數(shù)集合。
步驟701之后是步驟703,其中響應于參數(shù)化數(shù)據從若干音頻信號
中解碼音頻對象。
步驟703之后是步驟705,其中從音頻對象生成空間多聲道輸出信號。
步驟705之后是步驟707,其中生成用于對象編碼器的編碼修改數(shù)據。
步驟707之后是步驟709,其中所述編碼修改數(shù)據被發(fā)送到所述對 象編碼器。
將被理解的是,為了清楚目的上面的說明已經參照不同的功能單 元和處理器描述了本發(fā)明的實施例。然而,顯而易見,在不有損本發(fā) 明的情況下,可以使用不同功能單元或處理器之間的任何合適的功能 性分布。例如,被示為由分離的處理器或控制器執(zhí)行的功能可以由相 同的處理器或控制器執(zhí)行。因此,對特定功能單元的引用將僅僅被看 作對用于提供所描述的功能的合適裝置的引用而不是指示嚴格的邏輯 或物理結構或組織。
本發(fā)明可以通過任何適當?shù)男问絹韺崿F(xiàn),包括硬件、軟件、固件
24以被至少部分地實現(xiàn)為運行在一個或 多個數(shù)據處理器和/或數(shù)字信號處理器上的計算機軟件??梢砸匀魏芜m 當?shù)姆绞皆谖锢砩稀⒐δ苌虾瓦壿嬌蠈崿F(xiàn)本發(fā)明的實施例的元件和組 件。實際上,所述功能可以在單個單元、多個單元中實現(xiàn)或作為其他 功能單元的一部分。因此,可以在單個單元上實現(xiàn)本發(fā)明,或者可以 在不同單元和處理器之間在物理上和功能上分配本發(fā)明。
雖然已經結合一些實施例描述了本發(fā)明,但是本發(fā)明不限于這里 所闡述的特定形式。相反地,本發(fā)明的范圍僅僅由所附權利要求限定。 此外,雖然特征可以結合特定實施例被描述,但是本領域的技術人員 將會認識到可以根據本發(fā)明將所述的實施例的各種特征組合。在權利 要求中,術語"包括"不排除其他元件或步驟的存在。
另外,多個裝置、元件或方法步驟雖然被單獨地列出,但是可以 通過單個單元或處理器來實現(xiàn)。此外,雖然各個特征可以包括在不同
的權利要求中,但是這些可以被有利地組合,并且包括在不同的權利 要求中并不意味著這些特征的組合不是可行的或有利的。而且,在一
類權利要求中包含特征并不意味著限制于該類型,而是表示如果適 合,該特征同樣適用于其他權利要求類型。而且,權利要求中的特征 的順序并不表示任何特定的順序(所述特征必須以該順序工作),并 且特別地在方法權利要求中的各個步驟的順序并不意味著必須以該順 序執(zhí)行所述步驟。相反地,可以以任何適當?shù)捻樞驁?zhí)行所述步驟。此 外,單數(shù)引用不排除多個。因此對"一個,,、"第一"、"第二"等 等的引用不排除多個。在權利要求中,僅僅為闡明實例所提供的附圖 標記不應當被解釋為以任何方式限制權利要求的范圍。
權利要求
1.一種用于對音頻對象進行編碼的編碼器,該編碼器包括-用于接收多個音頻對象的裝置(401);-編碼裝置(403),其用于把所述多個音頻對象編碼成若干音頻信號和代表與所述若干音頻信號相關的所述多個音頻對象的參數(shù)化數(shù)據,所述參數(shù)化數(shù)據包括用于不同音頻對象中的至少一個的對象參數(shù)集合;-用于從遠程單元接收編碼修改數(shù)據的裝置(409);以及-參數(shù)裝置(405),其用于響應于所述編碼修改數(shù)據而確定所述參數(shù)化數(shù)據。
2. 權利要求1的編碼器,其中所述編碼裝置被布置以通過音頻對 象的下混合而生成若干音頻信號,并且所述參數(shù)裝置H05)被布置以 響應于所述編碼修改數(shù)據而修改至少一個所述音頻對象的下混合權 重。
3. 權利要求1的編碼器,其中所述參數(shù)裝置(405 )被布置以響應 于所述編碼修改數(shù)據而縮放至少第一音頻對象,并且響應于所述縮放 來修改用于第一音頻對象的對象參數(shù)。
4. 權利要求1的編碼器,其中至少一些編碼修改數(shù)據是特定頻率 的,并且參數(shù)裝置(405 )被布置以響應于所述對象參數(shù)的頻率特性而 確定至少一個對象參數(shù)。
5. 權利要求1的編碼器,其中編碼裝置(403 )被布置以在音頻對 象下混合為若干音頻信號之前響應于所述編碼修改數(shù)據而修改至少一 個音頻對象。
6. 權利要求1的編碼器,其中編碼裝置(403 )被布置以生成若干 音頻信號作為空間下混合。
7. 權利要求6的編碼器,其中編碼裝置(403 )被布置以響應于所 述編碼修改數(shù)據而修改選自由下面組成的組合的至少一個特性-至少一個音頻對象的空間位置; -至少一個音頻對象的距離特性; -編碼器的空間呈現(xiàn)模式,和 -至少一個音頻對象的頻率特性。
8. 權利要求1的編碼器,其中每一個音頻對象與獨立于其他音頻對象的音頻源的音頻源集合相關聯(lián)。
9. 權利要求1的編碼器,其中編碼器被布置以從遠程單元接收第 一音頻對象,并且所述用于接收編碼修改數(shù)據的裝置(409 )被布置以 從接收的用于第一音頻對象的編碼數(shù)據中提取所述編碼修改數(shù)據。
10. 權利要求1的編碼器,其中編碼器被布置以從多個遠程單元接 收編碼修改數(shù)據并且響應于從不同遠程單元接收不同的編碼修改數(shù)據 來生成用于不同遠程單元的不同參數(shù)化數(shù)據。
11. 一種用于對音頻對象進行解碼的解碼器,該解碼器包括 -接收器(303 ),其用于從編碼器接收若干音頻信號和參數(shù)化數(shù)據,所述音頻信號是多個音頻對象的下混合而所述參數(shù)化數(shù)據代表與 所述若干音頻信號有關的所述多個音頻對象,該參數(shù)化數(shù)據包括用于 不同音頻對象中的至少一個的對象參數(shù)集合;-解碼裝置(303 ),其用于響應于參數(shù)化數(shù)據而從所述若干音頻 信號中解碼音頻對象;-呈現(xiàn)裝置(305 ),其用于從音頻對象生成空間多聲道輸出信號; -用于生成用于對象編碼器的編碼修改數(shù)據的裝置(501);以及 -用于將所述編碼修改數(shù)據發(fā)送到對象編碼器的裝置(503 )。
12. —種用于支持在多個通信單元之間的電話會議的電話會議集 線器,該電話會議集線器包括-用于從所述多個通信單元接收第一多個語音信號的裝置(401); -編碼裝置(403 ),其用于為第一通信單元把第一多個語音信號的i數(shù)化數(shù)據,^述參數(shù)化i據包括用^不同語音信號中的至少丄個的對象參數(shù)集合;—用于從第一通信單元接收編碼修改數(shù)據的裝置(409 );以及 -參數(shù)裝置(405 ),其用于響應于所述修改數(shù)據確定參數(shù)化數(shù)據;以及-用于將所述若干音頻信號和參數(shù)化數(shù)據發(fā)送到第一通信單元的 裝置(407 )。
13. —種用于發(fā)送音頻信號的發(fā)送器,該發(fā)送器包括 -用于接收多個音頻對象的裝置(401);-編碼裝置(403 ),其用于把多個音頻對象編碼為若干音頻信號和代表與所述若干音頻信號有關的所述多個音頻對象的參數(shù)化數(shù)據, 所述參數(shù)化數(shù)據包括用于不同音頻對象中的至少一個的對象參數(shù)集合;-用于從遠程單元接收編碼修改數(shù)據的裝置(409 );以及 -參數(shù)裝置(405 ),其用于響應于所述修改數(shù)據來確定所述參數(shù) 化數(shù)據。
14. 一種用于接收音頻信號的接收器,該接收器包括 -接收器單元(303 ),其用于從編碼器接收若干音頻信號和參數(shù)化數(shù)據,所述音頻信號是多個音頻對象的下混合而所述參數(shù)化數(shù)據代表與所述若干音頻信號有關的所述多個音頻對象,所述參數(shù)化數(shù)據包括用于不同音頻對象中的至少一個的對象參數(shù)集合;-解碼裝置(303 ),其用于響應于所述參數(shù)化數(shù)據而從若干音頻信號中解碼音頻對象;-呈現(xiàn)裝置(305 ),其用于從音頻對象生成空間多聲道輸出信號; -用于生成用于對象編碼器的編碼修改數(shù)據的裝置(501);以及 —用于將所述編碼修改數(shù)據發(fā)送到對象編碼器的裝置(503 )。
15. —種用于傳輸音頻信號的通信系統(tǒng),該通信系統(tǒng)包括 -發(fā)送器(201),其包括-用于接收多個音頻對象的裝置(401),-編碼裝置(403 ),其用于把多個音頻對象編碼為若干音頻 信號和代表與所述若干音頻信號有關的所述多個音頻對象的參數(shù)化數(shù) 據,所述參數(shù)化數(shù)據包括用于不同音頻對象中的至少一個的對象參數(shù) 集合,以及-用于將所述若干音頻信號和參數(shù)化數(shù)據發(fā)送到接收器的裝置 (407 ) j和-接收器(203 ),其包括-接收器元件(303 ),其用于從發(fā)送器接收所述若干音頻信 號和參數(shù)化數(shù)據,-解碼裝置(303 ),其用于響應于參數(shù)化數(shù)據從若干音頻信 號中解碼音頻對象,—呈現(xiàn)裝置(305 ),其用于從音頻對象生成空間多聲道輸出信號,-用于生成用于編碼裝置的編碼修改數(shù)據的裝置(501),以及-用于將所述編碼修改數(shù)據發(fā)送到發(fā)送器的裝置(503 ); -并且其中所述發(fā)送器(201)包括-用于從接收器接收所述編碼修改數(shù)據的裝置(409 ); —參數(shù)裝置(405 ),用于響應于所述編碼修改數(shù)據而確定參 數(shù)化數(shù)據。
16. —種對音頻信號進行編碼的方法,該方法包括 -接收(601)多個音頻對象;-把多個音頻對象編碼(603 )為若干音頻信號和代表與所述若干 音頻信號有關的所述多個音頻對象的參數(shù)化數(shù)據,所述參數(shù)化數(shù)據包 括用于不同音頻對象中的至少一個的對象參數(shù)集合; -從遠程單元接收(605 )編碼修改數(shù)據;以及 -響應于所述修改數(shù)據來確定(603 )所述參數(shù)化數(shù)據。
17. —種對音頻信號進行解碼的方法,該方法包括-從編碼器接收(701)若干音頻信號和參數(shù)化數(shù)據,所述音頻信 號是多個音頻對象的下混合而所述參數(shù)化數(shù)據代表與所述若干音頻信 號有關的所述多個音頻對象,該參數(shù)化數(shù)據包括用于不同音頻對象中 的至少一個的對象參數(shù)集合;-響應于所述參數(shù)化數(shù)據從所述若干音頻信號中解碼(703 )音頻 對象;-從所述音頻對象生成(705 )空間多聲道輸出信號;—生成(707 )用于所述對象編碼器的編碼修改數(shù)據;以及-將所述編碼修改數(shù)據發(fā)送(709 )到所述對象編碼器。
18. —種發(fā)送音頻信號的方法,該方法包括 —接收(601)多個音頻對象;-把多個音頻對象編碼(603 )為在若干音頻信號和代表與所述若 干音頻信號有關的所述多個音頻對象的參數(shù)化數(shù)據,所述參數(shù)化數(shù)據 包括用于不同音頻對象中的至少一個的對象參數(shù)集合;-從遠程單元接收(605 )編碼修改數(shù)據;-響應于所述修改數(shù)據來確定(603 )所述參數(shù)化數(shù)據;以及-發(fā)送所述若干音頻信號和參數(shù)化數(shù)據。
19. 一種接收音頻信號的方法,該方法包括-從編碼器接收(701)若干音頻信號和參數(shù)化數(shù)據,所述音頻信 號是多個音頻對象的下混合,所述參數(shù)化數(shù)據代表與若干音頻信號有 關的所述多個音頻對象,所述參數(shù)化數(shù)據包括用于不同音頻對象中的 至少一個的對象參數(shù)集合;-響應于所述參數(shù)化數(shù)據而從若干音頻信號中解碼(703 )音頻對象;-從音頻對象生成(705 )空間多聲道輸出信號;-生成(707 )用于對象編碼器的編碼修改數(shù)據;以及—將所述編碼修改數(shù)據發(fā)送(709 )到對象編碼器。
20. —種發(fā)送和接收音頻信號的方法,該方法包括 -發(fā)送器(101)執(zhí)行下列步驟-接收(601)多個音頻對象,-把多個音頻對象編碼(603 )為若干音頻信號和代表與所述若 干音頻信號有關的所述多個音頻對象的參數(shù)化數(shù)據,所述參數(shù)化數(shù)據 包括用于不同音頻對象中的至少一個的對象參數(shù)集合,以及-將所述若干音頻信號和參數(shù)化數(shù)據發(fā)送到接收器;并且 -接收器執(zhí)行下列步驟-從發(fā)送器接收(701)若干音頻信號和參數(shù)化數(shù)據;-響應于參數(shù)化數(shù)據從若干音頻信號中解碼(703 )音頻對象;-從音頻對象生成(705 )空間多聲道輸出信號;-生成(707 )用于編碼裝置的編碼修改數(shù)據;以及—將所述編碼修改數(shù)據發(fā)送(709 )到對象編碼器;-并且其中所述發(fā)送器進一步執(zhí)行下列步驟-從接收器接收(605 )所述編碼修改數(shù)據,以及-響應于所述編碼修改數(shù)據而確定(603 )參數(shù)化數(shù)據。
21. —種用于執(zhí)行權利要求16-20中任意一項的方法的計算機程序產品。
22. —種包括根據權利要求11的解碼器(215)的音頻播放設備 (203 )
全文摘要
一種音頻系統(tǒng),包括在編碼單元(403)中對音頻對象進行編碼的編碼器(209),所述編碼單元生成下混合(down-mix)音頻信號和代表多個音頻對象的參數(shù)化數(shù)據。所述下混合音頻信號和參數(shù)化數(shù)據被發(fā)送到包括解碼單元(301)和呈現(xiàn)單元(303)的解碼器(215),所述解碼單元生成音頻對象的近似的副本,而所述呈現(xiàn)單元從音頻對象生成輸出信號。解碼器(215)進一步包括處理器(501),其用于生成被發(fā)送到編碼器(209)的編碼修改數(shù)據。隨后,編碼器(209)響應于所述編碼修改數(shù)據而修改音頻對象的編碼,并且特別地修改所述參數(shù)化數(shù)據。所述方法允許由解碼器(215)來控制音頻對象的操控,而完全地或部分地由編碼器(209)執(zhí)行音頻對象的操控。因此,可以對實際獨立的音頻對象而不是對近似的副本執(zhí)行所述操控,由此提供改進的性能。
文檔編號G10L19/008GK101517637SQ200780034538
公開日2009年8月26日 申請日期2007年9月17日 優(yōu)先權日2006年9月18日
發(fā)明者D·J·布里巴爾特 申請人:皇家飛利浦電子股份有限公司