專利名稱:用于雙耳再現(xiàn)和格式轉換的空間音頻分析和合成的制作方法
技術領域:
本發(fā)明涉及音頻處理技術。更具體地,本發(fā)明涉及用于在音頻信號中提供空間提 示(spatial cue)的方法。
背景技術:
兩聲道或多聲道記錄的虛擬3D音頻再現(xiàn)通常致力于通過耳機再現(xiàn)出通過揚聲 器收聽記錄那樣的聽覺。傳統(tǒng)方法包括通過利用HRTT(頭部相關轉移函數(shù))濾波器或 BRIR(雙耳房間脈沖響應)濾波器使每個源聲道“虛擬化”。這種技術的缺點在于在記錄 中部分地跨越聲道擺動(pan)的聲源通過耳機未被動聽地再現(xiàn),這是因為其是通過兩個或 更多個不同方向的HRTF的組合而非通過所需方向的正確HRTF被呈現(xiàn)(render)的。所需要的是用于通過耳機再現(xiàn)兩聲道或多聲道音頻信號的方向提示 (directional cue)的經(jīng)改進的方法。
發(fā)明內容
本發(fā)明提供了用于基于頻域空間分析-合成來雙耳呈現(xiàn)信號的裝置和方法。該信 號的性質例如是音樂或電影聲軌記錄、交互式游戲系統(tǒng)的音頻輸出或者從通信網(wǎng)絡或因特 網(wǎng)接收的音頻流。其還可以是在房間或任何聲學環(huán)境中記錄的脈沖響應,并且希望用于通 過與任意源信號卷積來再現(xiàn)這種環(huán)境的聲學。在一個實施例中,提供了用于對具有至少兩個聲道的音頻信號進行雙耳呈現(xiàn)的方 法,這兩個聲道中的每個被指派了各自的空間方向。原始信號可以在任何多聲道中或者以空間音頻記錄格式來提供,該格式包括Ambisonic B格式或較高階Ambisonic格式;Dolby 環(huán)繞、Dolby定向邏輯或任何其它相位-幅度矩陣立體聲格式;Dolby數(shù)字、DTS或任何離散 多聲道格式;以及利用兩個或更多個麥克風的陣列獲得的傳統(tǒng)兩聲道或多聲道記錄(包括 雙耳記錄)。該方法包括將信號轉換為頻域或子頻帶表示,在空間分析中導出每個時間頻率 分量的方向,并且生成左右頻域信號以使得對于每個時間和頻率,這兩個信號之間的聲道 間幅度和相位差與出現(xiàn)在HRTF中的與從空間分析導出的方向角相對應的聲道間幅度和相 位差相匹配。根據(jù)另一實施例,生成音頻輸出信號,其具有至少第一和第二音頻輸出聲道。輸出 聲道是從具有至少一個音頻輸入聲道和至少一個空間信息輸入聲道的音頻輸入信號的時 間頻率信號表示生成的。選擇音頻輸出格式。接收與時間頻率信號的多個幀中的每個幀相 對應的方向信息。從時間頻率信號表示生成第一和第二頻域信號,第一和第二頻率信號在 每個時間和頻率處具有至少第一和第二輸出聲道之間的聲道間幅度和相位差,幅度和相位 差表征所選空間音頻輸出格式中的方向。根據(jù)又一實施例,提供了一種生成音頻輸出信號的方法。提供了優(yōu)選地具有至少 兩個聲道的輸入音頻信號。輸入音頻信號被轉換為頻域表示。與多個時間頻率分量中的每 個的定位向量所對應的方向向量從頻域表示中被導出。從時間頻率信號表示生成第一和第 二頻域信號,第一和第二頻域信號在每個時間和頻率處具有表征與方向向量相對應的方向 的聲道間幅度和相位差。執(zhí)行逆變換以將頻域信號轉換為時域。雖然本發(fā)明具有用于通過耳機的經(jīng)改善雙耳再現(xiàn)的特別有利的應用,然而其更 一般地應用于利用任何兩聲道或多聲道音頻記錄或傳輸格式來通過耳機或揚聲器進行的 空間音頻再現(xiàn),其中,可以通過依賴于頻率或獨立于頻率的聲道間幅度和/或相位差來將 方向角編碼在輸出信號中,包括ambisonic格式;相位-幅度矩陣立體聲格式;離散多聲 道格式;利用兩個或更多個麥克風的陣列的傳統(tǒng)兩聲道或多聲道記錄;利用基于HRTF(或 "transaural")的虛擬化技術的兩聲道或多聲道揚聲器3D音頻;以及利用揚聲器陣列的聲 場再現(xiàn)(包括波場合成)。如從上面的概述將清楚的,本發(fā)明可用來將信號從任何兩聲道或多聲道空間音頻 記錄或傳輸格式轉換為任何其它兩聲道或多聲道空間音頻格式。此外,所述方法允許將聲 音場景的角度變換包括在格式轉換中,聲音場景的角度變換例如是應用于聲音場景中的聲 音分量的方向角的旋轉或纏繞(warp)。下面將參考附圖描述本發(fā)明的這些以及其它特征和 優(yōu)點。
圖1是圖示出根據(jù)本發(fā)明一個實施例的立體聲虛擬化方法的流程圖。圖2是圖示出根據(jù)本發(fā)明另一實施例的用于多聲道音頻信號的雙耳合成方法的 流程圖。圖3是基于HRTF或BRTF的標準時域虛擬化的框圖。圖4A是用于圖3所示的輸入聲道之一的時域虛擬化處理的框圖。圖4B是圖4A所示的時域虛擬化處理的框圖。
圖5是一般的頻域虛擬化系統(tǒng)的框圖。圖6A示出了根據(jù)本發(fā)明一個實施例的標準5聲道音頻格式的格式向量以及相對 應的Gerzon向量的編碼軌跡(encoding locus)。圖6B示出了根據(jù)本發(fā)明一個實施例的任意6聲道揚聲器布局的格式向量以及相 對應的Gerzon向量的編碼軌跡。圖7是根據(jù)本發(fā)明一個實施例的高分辨率頻域虛擬化算法的框圖。圖8是根據(jù)本發(fā)明一個實施例的利用主要-周圍(primary-ambient)信號分解的 高分辨率頻域虛擬化系統(tǒng)的框圖。
具體實施例方式現(xiàn)在將詳細參考本發(fā)明的優(yōu)選實施例。優(yōu)選實施例的示例在附圖中示出。雖然將 結合這些優(yōu)選實施例來描述本發(fā)明,但是將會理解,不希望將本發(fā)明局限于這些優(yōu)選實施 例。相反,希望覆蓋可以包括在由所附權利要求所限定的本發(fā)明的精神和范圍內的替代方 式、修改和等同物。在以下描述中,提出多個具體細節(jié)來提供對本發(fā)明的全面理解。本發(fā)明 可以在無需這些具體細節(jié)中的某些或全部的情況下實施。在其他實例中,沒有詳細描述公 知的機構,以免不必要地模糊本發(fā)明。這里應該注意,遍及各個附圖的類似標號指示類似部件。這里示出和描述的各個 附圖被用于圖示說明本發(fā)明的各個特征。就在一張附圖中示出而在其他附圖中沒有示出的 一個特定特征而言,除非特別指示或者該結構本質上禁止并入該特征,否則將理解為這些 特征可以被適應性修改以包括到在其他附圖中表示的實施例中,就好像這些特征在這些附 圖中被完全示出一樣。除非特別指示,否則附圖不一定是按比例繪制的。在附圖中提供的 任何維度都不認為是對本發(fā)明的范圍的限制而僅僅是示例性的。本發(fā)明提供了用于基于在頻域中對記錄中的方向提示的空間分析以及將這些提 示轉換為雙耳提示或聲道間幅度提示和/或相位差提示來對兩聲道或多聲道記錄進行耳 機再現(xiàn)的頻域方法。本發(fā)明通過引用并入在2007年5月17日提交的題為“Spatial Audio Coding Based on Universal SpatialCues”、序列號為 11/750,300 (專利機構案卷號為 CLIP159)的美國專利申請中描述的發(fā)明的公開中所提供的細節(jié),該申請11/750,300要求 申請60/747,532的優(yōu)先權,上述申請的全部公開通過引用整體結合于此。本發(fā)明使用在美國專利申請No. 11/750,300 (通過引用被結合于此)中描述的方 法來在時間-頻率域中分析方向提示。該空間分析針對每個時間頻率域分量導出表示相對 于收聽者耳朵的位置的方向角。雙耳呈現(xiàn)包括生成左右頻域信號,以使得對于每個時間和 頻率,這兩個信號之間的雙耳幅度和相位差與從空間分析導出的方向角所對應的HRTF中 出現(xiàn)的雙耳幅度和相位差相匹配。很容易將該方法擴展為任何兩聲道或多聲道空間呈現(xiàn)方 法,其中,聲音的預期方向是用規(guī)定的聲道間幅度和/或相位差來表征的。隨著便攜式媒體設備的激增,耳機收聽已變得越來越普遍;因此,在移動和非移動 收聽情形中,通過耳機提供高保真收聽體驗對于現(xiàn)代消費電子產(chǎn)品來說是關鍵的增值方式 (或者可證實地,甚至是必須特征)。這種增強型耳機再現(xiàn)與立體聲內容相關,立體聲內容 例如是舊的音樂記錄以及多聲道音樂和電影聲軌。雖然改善耳機收聽的算法可以結合動態(tài) 處理和/或換能器(transducer)補償,然而,所描述的本發(fā)明的實施例關注空間增強,其目標是最終向耳機收聽者提供沉浸式體驗。近來,一些包括多個換能器的“空間增強”耳機在市場上已經(jīng)可獲得。雖然這里描 述的方法可以容易地被擴展為這些多換能器耳機,然而,本發(fā)明的優(yōu)選實施例致力于耳機 呈遞的更常見的情況,其中,單個換能器用來向給定耳朵呈現(xiàn)信號耳機再現(xiàn)簡單地構成了 向收聽者的左耳朵呈遞左聲道信號并且同樣地,向右耳朵呈遞右聲道信號。在這種耳機系 統(tǒng)中,立體聲音樂記錄(仍為占主導地位的格式)顯然可以通過將各個聲道信號路由到耳 機換能器來直接地被呈現(xiàn)。然而,作為消費者設備中的默認實現(xiàn)的這種呈現(xiàn)產(chǎn)生了作為空 間沉浸的反效果的頭中(in-the-head)收聽體驗在左右聲道之間擺動的源被感知為是從 收聽者耳朵之間的點源發(fā)的。對于希望用于多聲道環(huán)繞回放的音頻內容(可能最顯著的是 電影聲軌),通常,除前面的左右聲道之外還利用前面的中間聲道以及多個環(huán)繞聲道,直接 耳機呈現(xiàn)要求對這些附加聲道的下混(downmix);對于立體聲內容,頭中定位再次出現(xiàn),并 且此外,環(huán)繞空間圖像通過前/后辨別提示的消除而被損害。盡管頭中定位經(jīng)常被耳機收聽者體驗到,然而其的確是物理上不自然的感 受,并且如所提到的,違背了收聽者沉浸的目標,對于收聽者沉浸來說,聲源的外部化 (externalization)感覺是至關重要的。一種稱為虛擬化的技術常用來試圖減輕頭中定位 并增強外部化感覺。虛擬化的目標通常是通過耳機重建這樣的感覺在由音頻格式規(guī)定的 一些預先建立的位置處,例如典型立體聲格式的+/-30°方位角處通過揚聲器收聽原始音 頻內容的感覺。這是通過向每個輸入聲道應用依賴于位置和依賴于耳朵的處理以便針對每 個聲道創(chuàng)建左耳和右耳信號(即,雙耳信號)來實現(xiàn)的,左耳和右耳信號模仿如果該特定聲 道信號由在音頻格式所指示的相應聲道位置處的離散揚聲器來廣播的話將在收聽者各個 耳朵處接收到的信號。各個輸入聲道的雙耳信號被混合成為兩聲道信號以用于通過耳機呈 遞,如圖3所示。標準虛擬化方法已被應用于音樂和電影收聽以及諸如游戲之類的交互式情形。 在后者的情況中,當各個聲源明確地可用于預處理時,一組位置精確的頭部相關轉移函數(shù) (用于頭部相關脈沖響應的HRIR或HRTF)可被應用于每個源,以產(chǎn)生對空間上遠離的多個 源的有效雙耳呈現(xiàn)。然而在音樂(或電影)回放情形中,離散的聲源不可用于這種特定于 源的空間處理;聲道信號包括各種聲源的混合。在本發(fā)明的一個實施例中,我們將這種收 聽不知道其構成源的確切位置信息的內容的后者情況稱為先驗,因此,對各個聲源的離散 虛擬化不能被執(zhí)行。然而,應當注意,所提出的方法還適用于以多聲道格式混合的交互式音 軌,如在一些游戲機中。在標準的音頻記錄的虛擬化中,重要的缺點在于記錄中部分地跨越聲道擺動的聲 源不能通過耳機動聽地再現(xiàn),這是因為源是通過多個(在立體聲情況中為兩個)不同方向 的HRTF的組合而非經(jīng)由所需源方向的正確HRTF來呈現(xiàn)的。在本發(fā)明各個實施例中提出的 新方法中,下面稱為空間音頻場景編碼(SASC)的空間分析算法用來從時間頻率域中的輸 入音頻信號中提取方向信息。對于每個時間和頻率,SASC空間分析導出表示相對于收聽圓 (listening-circle)(或球體)的中心的位置的方向角和半徑;角度和半徑對應于感知到 的該時間頻率分量的位置(對于位于中心的收聽者來說)。然后,左右頻域信號基于這些方 向提示被生成,以使得在每個時間和頻率處合成信號之間的雙耳大小和相位差與通過SASC 分析導出的方向角所對應的HRTF的雙耳大小和相位差相匹配,從而使得在聲道之間擺動的源真正經(jīng)過正確的HRTF處理。下面的描述開始于對標準虛擬化方法及其限制的更詳細回顧,引入了在對優(yōu)選實 施例的后續(xù)描述中使用的記號,優(yōu)選實施例包括通過利用SASC空間分析-合成、SASC空 間分析、SASC驅動雙耳合成以及在空間分析-合成之前將輸入分離為主要分量(primary component)和周圍分量(ambient component)的擴展,來克服標準方法的缺陷的新的虛擬
化算法。標準虛擬方法在下面的部分中,我們回顧了耳機虛擬化的標準方法,包括時域和頻域處理體系 結構以及性能限制。時域虛擬化兩聲道或多聲道記錄的虛擬3D音頻再現(xiàn)通常致力于通過耳機再現(xiàn)出通過揚聲器 收聽記錄那樣的聽覺。圖3所示的傳統(tǒng)方法包括經(jīng)由HRTF濾波器(306、308)或BRIR/ BRTF(雙耳房間脈沖響應/轉移函數(shù))濾波器使輸入聲道(301-303)中的每個聲道“虛擬 化”,并且隨后將結果相加(310、312)。Ydt] = ThmL^*Zm[t]⑴ ^M = Z^ W*^ W⑵其中,m是聲道索引,并且xm[t]是第m個聲道信號。聲道m(xù)的濾波器h Jt]和 hfflE[t]是由已定義的該聲道的空間位置(例如,典型立體聲格式的士30°方位角)來指定 的;濾波器心[幻表示從第m個輸入位置到左耳的脈沖響應(轉移函數(shù)),并且hmK[t]表示 到右耳的響應。在HRTF情況中,這些響應僅取決于收聽者的形態(tài),而在BRTF情況中,它們 還包括特定(真實的或建模的)混響收聽空間的效果;出于簡化,我們在本說明書中的剩余 部分中將這些變體互換地稱為HRTF(盡管一些討論更嚴格地適用于無回音HRTF情況)。用于單聲道的基于HRTF的虛擬化在圖4A中示出。圖4A是用于輸入聲道之一的 時域虛擬化處理的框圖。圖4A所示的HRTF濾波器可被分解為耳間水平差(ILD)和耳間 時間差(ITD)。如上所述的濾波器hjt] (403)和h1K[t](404)描述了在信號X1W (402) 傳輸?shù)礁鱾€耳朵的過程中經(jīng)受的不同聲學濾波。在一些方法中,濾波被分解為耳間時間差 (ITD)和耳間水平差(ILD),其中,ITD實質上捕獲到耳朵的兩個聲學路徑的不同傳播延時, 并且ILD表示因收聽者的存在引起的頻譜濾波?;贗LD/ITD分解的虛擬化在圖4B中示出;這種雙耳合成通過向要呈現(xiàn)的信號 施加耳間時間和水平差而獲得了虛擬化效果,其中,ITD和ILD是從所需要的虛擬位置確定 的。一般性地給出該圖示以反映出,實際上處理通常是基于虛擬理論不同地被執(zhí)行的例 如,對于給定虛擬源,到同側耳朵(與該虛擬源最接近)的信號可以無任何延時地被呈遞, 而全部的ITD被施加給對側耳朵信號。應當注意,存在基于ILD/ITD分解的虛擬化的許多 變更,并且大多數(shù)情況中,ILD和ITD都可被認為是依賴于頻率的。頻域虛擬化等式(1)-(2)中的虛擬化公式在頻域中可等同地表達為
其中,h[ ]表示h[t]的離散時間傅里葉變換(DTFT),并且χω[ω]表示xm[t] 的DTFT ;這些可利用HRTF濾波器的大小-相位形式被等同地寫為 其中,φΛ和ΦωΚ是濾波器各自的相位。耳間相位差(展開的)可被認為表示(依 賴于頻率)ITD信息 其中,Δ表示ITD。替代地,ITD可被看作是由耳間過量相位(excess-phase)差 表示的,并且將任何殘余相位(例如,來自HRTF測量)歸因于聲學濾波。在此情況中,每個 HRTF被分解為其最小相位分量和全通分量
(8)
(9)其中,F(xiàn)(co)是最小相位分量,Ψ(ω)是過量相位函數(shù)。隨后可通過下式獲得ITD
(10)圖5是一般的頻域虛擬化系統(tǒng)的框圖。STFT包括滑動窗和FFT,而逆STFT包括逆 FFT和交疊相加。在前面的討論中,頻域公式被理想化;實際上,頻域實現(xiàn)方式通?;诙虝r傅里葉 變換(STFT)框架,例如圖5所示的,其中,輸入信號被窗口化,并且向每個窗口段應用離散 傅里葉變換(DFT)
(H)其中,k是頻率區(qū)間(frequency bin)索引,1是時幀(time frame)索引,ω [η]是
N點窗口,T是連續(xù)窗口之間的跳躍大小,并且ωt =2πk/k,K是DFT大小。如在等式(3)-(4)
中那樣,HRTF濾波是通過頻域乘法實現(xiàn)的,雙耳信號是通過相加來自各個虛擬化輸入聲道 的貢獻而計算出的
(12) 其中,H[k]表示h[t]的DTF。在STFT體系結構中,實現(xiàn)等同于時域方法的濾波 需要DFT大小足夠大以避免時域混疊K >N+Nh-1,其中,Nh是HRIR的長度。對于長的濾波 器,仍可以通過向子頻帶信號應用經(jīng)適當導出的濾波器(而不是簡單的乘法)或者通過利 用混合時域/頻域方法來利用計算上的實際FFT大小實現(xiàn)頻域處理。由于數(shù)個原因而對頻域處理體系結構感興趣。首先,由于用于計算DFT的快速傅 里葉變換(FFT)算法的低成本(以及頻域乘法與時域卷積的對應關系),它們?yōu)殚LFIR濾波 器提供了對時域卷積的高效備選方案。即,與精確時域濾波所需的更復雜的處理需求相比, 可以通過較便宜的硬件或硬件軟件組合來對輸入音頻執(zhí)行更精確的濾波。此外,在頻域表 示中比在時域中可以更靈活更有意義地使HRTF數(shù)據(jù)參數(shù)化并對其建模。標準方法的限制在前面部分所描述的標準HRTF方法中,離散地向單個聲道擺動的源可以通過耳 機被動聽地虛擬化,即,可以實現(xiàn)給予了外部化感覺以及源的精確空間位置的呈現(xiàn)。然而, 記錄中跨越多個聲道擺動的聲源不能被動聽地再現(xiàn)。考慮這樣一組輸入信號,其中每個輸 入信號包含幅度被縮放版本的源s [t]xm [t] = ams[t](14)利用這些輸入,等式(1)變?yōu)?從該等式可清楚,在此情形中^iW = ^AlW)(16) 因此,源s[t]是通過多個不同方向的HRTF的組合來呈現(xiàn)的,而不是經(jīng)由實際所需 要的源方向的正確HRTF,即,與輸入格式兼容的揚聲器再現(xiàn)中的所需源位置來呈現(xiàn)的。除非 經(jīng)組合的HRTF對應于密排聲道,否則,這種HRTF的組合將顯著地惡化空間圖像。本發(fā)明的 各個實施例的方法克服了這種缺陷,如在下面部分中進一步描述的?;诳臻g分析_合成的虛擬化本發(fā)明的實施例將新穎的頻域方法用于雙耳呈現(xiàn),其中,對輸入音頻場景進行分 析以得到空間信息,該空間信息隨后被用在合成算法中以呈現(xiàn)對輸入場景的真實的引人注 目的再現(xiàn)。頻域表示提供了將復雜聲學場景提取為分離的聲音事件的有效手段,以使得可 向每個這樣的事件應用適當?shù)目臻g處理。圖1是圖示出根據(jù)本發(fā)明一個實施例的一般化立體聲虛擬化方法的流程圖。首 先,在操作102中,對輸入信號執(zhí)行短時傅里葉變換(STFT)。例如,STFT可以包括滑動窗和 FFT0接下來,在操作104中,擺動分析被執(zhí)行以提取出方向信息。對于每個時間和頻率,空 間分析導出了表示源音頻相對于收聽者頭部的位置的方向角,并且可以執(zhí)行將輸入信號分 離為若干個空間分量(例如方向分量和非方向分量)。接下來,在操作106中,利用被設計
10用于在所確定方向角處進行虛擬化的左右HRTF濾波器來執(zhí)行依賴于擺動的濾波。當為給 定時幀中的所有頻率生成了雙耳信號并且在操作108中將各個分量組合(可選地,并入輸 入信號的一部分)之后,用于呈遞給收聽者的時域信號通過操作110中的逆變換和交疊相 加過程被生成。圖2是圖示出根據(jù)本發(fā)明一個實施例的用于多聲道音頻的雙耳合成的方法的流 程圖。首先,在操作202中,對輸入信號,例如多聲道音頻輸入信號執(zhí)行短時傅里葉變換 (STFT)。例如,STFT可以包括滑動窗和FFT。接下來,在操作204中,空間分析被執(zhí)行以提 取出方向信息。對于每個時間和頻率,空間分析導出表示源音頻相對于收聽者頭部的位置 的方向向量。接下來,在操作206中,優(yōu)選地,基于將出現(xiàn)在從相應時間頻率方向向量(由 塊204提供的)導出的左右頭部相關轉移函數(shù)(HRTF)中的相位和幅度差來對每個時間頻 率分量濾波。更具體地,生成在每個時間和頻率分量處具有相對聲道間相位和幅度值(其 表征所選輸出格式中的方向)的至少第一和第二頻域輸出信號。在為給定時幀中的所有頻 率生成了至少兩個輸出聲道信號之后,用于呈遞給收聽者的時域信號通過操作208中的逆 變換和交疊相加過程來生成。下面將更詳細地描述空間分析方法、雙耳合成算法以及主要-周圍分解的并入。空間咅頻場景編碼空間分析方法包括在時間頻率域中從輸入信號提取方向信息。對于每個時間和 頻率,空間分析導出表示相對于收聽者頭部的位置的方向角;對于多聲道情況,其還導出 描述了相對于收聽圓中心的徑向位置的距離提示,以便能夠使越過(fly-over)和穿過 (fly-through)聲音事件參數(shù)化。分析是基于導出Gerzon向量的以確定每個時間和頻率處 的定位 其中,是第m個輸入聲道的方向中的單位向量。針對標準5聲道設置的這些格 式向量的示例在圖6A中示出。等式(18)中的權重am[k,l]對于Gerzon速度向量由下式 給出 并且對于Gerzon能量向量由下式給出
(20)其中,M是輸入聲道數(shù)目。速度向量被認為更適合用于確定低頻事件的定位(并 且能量向量更適合用于高頻)。圖6Α示出了標準5聲道音頻格式的格式向量(601-605)(實線)以及相對應的 Gerzon向量的編碼軌跡(606)(虛線)。圖6Β示出了針對任意揚聲器輸出的格式向量以及 編碼軌跡。Gerzon向量608和定位向量609在圖6Α中示出。雖然由等式(18)和(19)或(20)定義的Gerzon向量的角度可以取任何值,但是其半徑被限制以使得向量總是位于內接多邊形之內(或之上),內接多邊形的頂點在格式 向量端點處(如圖6A和圖6B的每個中的虛線所示的);多邊形上的值是僅針對成對擺動 的源獲得的。這種受限的編碼軌跡導致了不精確的空間再現(xiàn)。為了克服這個問題并且使得 能夠精確地且獨立于格式地進行空間分析并表示收聽圓中的任意聲音位置,如下這樣來計
算定位向量j[良/](其中,針對每個時間1處的每個區(qū)間k執(zhí)行這些步驟)1.經(jīng)由等式(18)導出Gerzon向量。2.找到g|>,/]任一側上的相鄰格式向量;下面將這些相鄰格式向量用司和。來表 示(其中,出于標記簡化的目的,省略了這些被標識格式向量的頻率和時間索引k和1)。3.利用矩陣& = [^ej],計算定位向量的半徑如下 其中,腳標1表示向量的l-norm( S卩,向量元素的絕對值之和)。4.導出定位向量如下 其中,腳標2表示向量的歐幾里德距離。這以極坐標形式被編碼為半徑r[k,1]和方位角θ [k,1]。注意,等式(22)中給出的定位向量在與Gerzon向量相同的方向上。這里,盡管向 量長度通過等式(21)中的投影操作而被修改,以使得定位向量的編碼軌跡被擴展為包括 整個收聽圓;然而對于未經(jīng)修改的Gerzon向量,成對擺動分量在圓周上而非內接多邊形上 被編碼。上述空間分析首先被開發(fā)來提供用在獨立于格式的空間音頻編碼方案中的“通用 空間提示”。通過這種對音頻場景的健壯且靈活的參數(shù)化(下面將其稱為空間音頻場景編 碼(SASC))已經(jīng)使能了多種新的空間音頻算法;例如,這種空間參數(shù)化已用于任意多聲道 音頻格式之間的高保真轉換。這里,在圖5所示的頻域虛擬化算法中提供了對SASC的應用。 在該體系結構中,SASC空間分析被用來確定所感知到的輸入音頻場景中的每個時間頻率分 量的方向。然后,通過用于在該方向進行虛擬化的適當雙耳處理來呈現(xiàn)每個這樣的分量;將 在下面的部分中討論這種雙耳空間分析。盡管上面是基于輸入信號的STFT表示來對分析進行描述的,然而SASC方法同樣 可以應用于其它頻域變換和子頻帶信號表示。此外,除了方位角和徑向位置信息以外,很容 易將該分析(以及合成)擴展為包括仰角(elevation)??臻g合成在包括虛擬化算法的方法實施例中,信號Xm[k,1]和空間定位向量^;眾,/]都被提 供給雙耳合成引擎,如圖7所示。在合成中,頻域信號Yjk,l] *YK[k,l]基于提示
被生成,以使得在每個時間和頻率處,正確的HRTF大小和相位被應用于在由2[眾,/]所指示
的方向上的虛擬化。合成算法中的處理步驟如下并且針對每個時間1處的每個頻率區(qū)間k 被執(zhí)行
1.對于角度提示θ [k,l](對應于定位向量2[眾,/]),確定該角度處的虛擬化所需 的左右HRTF濾波器 Hr [k,l] = Fr [k l]ejWkTR μ,/](24)其中HRTF相位在這里用時間延遲τ L[k, 1]和xR[k, 1]來表達。徑向提示r[k, 1]還可以作為仰角或鄰近效應而被包括在對這些HRTF的推導中,如下所述。2.對于每個輸入信號分量Xm [k,1],計算雙耳信號YmL[k, 1] = Hl[k, l]Xm[k,1](25)YmE[k, 1] = He[k, l]Xm[k,1](26)3.累加最后的雙耳輸出信號 在針對給定幀1的所有k生成了雙耳信號之后,呈遞給收聽者的時域信號通過如 圖7所示的逆變換和交疊相加來生成。圖7是高分辨率頻域虛擬化算法的框圖,其中,空間 音頻場景編碼被用來確定輸入音頻場景中每個時間頻率分量的虛擬化方向。輸入信號702 被轉換為頻域表示706,然而優(yōu)選地不必使用短時傅里葉變換704。優(yōu)選地,在空間分析塊 708中分析頻域信號,以至少生成每個時間頻率分量的方向向量709。應當理解,本發(fā)明的 實施例不局限于執(zhí)行空間分析的方法,或者即使在執(zhí)行空間分析的方法實施例中,也不局 限于特定的空間分析技術。在2007年5月17日提交的題為“Spatial Audio Coding Based on Universal Spatial Cues”的共同待決申請No. 11/750,300 (通過引用被并入)中更詳 細地描述了 一種用于空間分析的優(yōu)選方法。接下來,時間頻率信號表示(頻域表示)706在高分辨率虛擬化塊710中被進一步 處理。該塊通過從時間頻率信號表示706中至少生成第一和第二頻域信號712來獲得針對 所選輸出格式聲道718的虛擬化效果,時間頻率信號表示706針對每個時間和頻率分量具 有表征與方向向量709相對應的方向的聲道間幅度和相位差。隨后優(yōu)選地通過利用逆短時 傅里葉變換714以及傳統(tǒng)的交疊和相加技術來將第一和第二頻域聲道轉換為時域,從而產(chǎn) 生輸出格式聲道718。在等式(25、26)的公式表達中,每個時間頻率分量Xm[k,l]通過HRTF被獨立地虛 擬化。很容易操縱在等式(27、28)中給出的最后的合成表達式以產(chǎn)生= 這些公式表明其等效于首先對輸入聲道進行下混,然后執(zhí)行虛擬化。由于在下混中可能出現(xiàn)不希望的信號刪除,因此,在本發(fā)明的優(yōu)選實施例中引入了歸一化,以確保下混 的功率與每個時間和頻率處的多聲道輸入信號的功率相匹配。Fl[k, 1]和FK[k,1]的頻域乘法與濾波操作相對應,然而在這里,與前面討論的情 況相反,濾波器脈沖響應長度為K ;由于在頻域中非線性地構建濾波器(基于不同頻率區(qū)間 的不同空間分析結果),因此,相應的濾波器脈沖響應的長度不受約束。因此,以這種方式構 建的濾波器的頻域乘法總是會引入一些時域混疊,這是因為濾波器長度和DFT大小相等, 即,不存在用于卷積的零填充。收聽測試指示出這種混疊是聽不見的,因此不會造成問題, 然而,如果需要,可以通過在每個時間1處對濾波器Hjk,1] *HK[k,1]進行時間限制來減 少它,例如通過與充分短的時域窗的頻譜的頻域卷積??梢越频貙崿F(xiàn)這種卷積(作為簡 單的頻譜平滑操作)以節(jié)省計算。在任一情況中,時限頻譜校正在每個區(qū)間k處改變?yōu)V波 器HL[k,1]和HK[k,1],因此降低了得到的空間合成的精確度。在空間合成算法的步驟1中尋找適當?shù)臑V波器Hjk,1]和HK[k,1]對應于確定任 意方向θ [k,l]的HRTF。這種問題在交互式3D位置音頻系統(tǒng)中也會遇到。在一個實施例 中,Hl[k, 1] *HK[k,1]的大小(或最小相位)分量是通過根據(jù)在一組離散方向處獲得的 HRTF測量的數(shù)據(jù)庫來在每個頻率處進行空間內推而導出的。簡單的線性內推通常是足夠 的。ITD是通過根據(jù)所測得ITD值的類似內推或者通過近似公式來單獨重建的。例如,具有 直徑上相對的耳朵以及半徑b的球形頭部模型產(chǎn)生了 A[k,l]=~ (e[kj] + sin /]) (31)
c其中,c表示聲速,方位角θ [k,l]是以前方為基準的弧度。這種對ITD的單獨內 推或計算對于任意方向處的高保真虛擬化是至關重要的。在如上所述那樣確定了適當ITDA [k,l]之后,通過將ITD分配在左右信號之間來 導出等式(23、24)中所需的延遲τ Jk,1]和TK[k,1]。在優(yōu)選實施例中TL[kJ]=To+^^-(32)(33)其中,偏移τ。被引入以允許任一聲道上的正負延遲。與針對每個時間頻率分量 作出同側/對側判定并且僅使用正延遲的備選方法相比,使用這種偏移產(chǎn)生了更健壯的頻 域修正。對于寬頻帶瞬態(tài)事件,將相位修正引入DFT頻譜可能導致不希望的失真(例如瞬 時拖尾)。兩個措施對于消除這種問題是有效的。首先,低頻切除(low cutoff)可被引入 用于ITD處理,以使得高頻信號結構不經(jīng)過ITD相位修正;這對空間效果的影響較小,因為 ITD提示對于中間范圍頻率處的定位或虛擬化是最重要的。其次,可以包括進瞬態(tài)檢測器; 如果幀包含寬頻帶瞬態(tài),則可將相位修正從每區(qū)間相移改變?yōu)閷掝l帶延遲,以使得針對瞬 態(tài)結構實現(xiàn)適當?shù)腎TD。這假設在DFT中使用了足夠的過采樣以允許這種信號延遲。此外, 可將寬頻帶延遲局限于表現(xiàn)出最短暫行為的區(qū)間,從而使得針對在瞬態(tài)期間持續(xù)存在的固
14定源維持高分辨率虛擬化。仰角和鄰沂效應當應用于多聲道內容時,前面描述的SASC分析產(chǎn)生了徑向提示的值,以使得對于 成對擺動(在圓周上)的聲源或聲音事件r[k,1] = 1,并且對于“在圓內部”擺動的聲音 事件r[k,1] < 1。當r[k,1] =0時,聲音事件的定位與基準收聽位置一致。在對僅水平 方向(或“pantophonic”)格式,例如圖6A所示的5. 1格式的多聲道記錄的揚聲器再現(xiàn)中, 位于基準位置(或“最佳聽音點(sweet spot)”)處的收聽者將感知到位于頭部之上的聲 音(假設所有聲道包含經(jīng)縮放版本的共同源信號)。這種狀況的雙耳再現(xiàn)可以通過在利用 與天頂位置(仰角=90° )相對應的濾波器對源信號濾波之后將同一源信號均等地饋送給 兩個耳朵來容易地實現(xiàn)。這表明,對于pantophonic多聲道記錄,基于SASC的雙耳呈現(xiàn)方 案可被擴展為通過將徑向提示r[k,1]映射到仰角Y來處理任何值的該提示y [k, 1] = S(r[k, 1])(34)其中,仰角映射函數(shù)S將間隔W,l]映射到[π/2,0]。在一個實施例中,這種映射 函數(shù)(以弧度為單位)由下式給出S(r[k, 1]) = arccos(r[k, 1]).(35)這種解決方案假設SASC定位向量^;允/]是到虛擬源位置(通過方位角θ [k,1]
和仰角Y [k,1]定義的)的水平平面上的投影,其跨越與以收聽者為中心的球體的上半部 分相符的3D編碼表面。更一般的解決方案被定義為任何3D編碼表面,其圍繞垂直軸保持 對稱并且包括單位圓的圓周作為其邊緣。例如,假設3D編碼表面為扁平的或“癟的”球體 將防止估計r[k,1]時的小誤差轉化為雙耳呈現(xiàn)空間場景時的可覺察到的假性仰角效應。在一個實施例中,針對r[k,1] < 1的附加增強包括合成雙耳近場效應,以針對位 于收聽者頭部附近(大約1米或更近)的聲音事件產(chǎn)生更引人注目的幻覺。這包括將r[k, 1](或由方位角θ [k,1]和仰角γ [k,1]定義的3D源位置)映射為物理距離量度,并且將 在前述雙耳合成中使用的HRTF數(shù)據(jù)庫擴展為包括近場HRTF數(shù)據(jù)。近似的近場HRTF校正 可以通過近似地調節(jié)位于橫向上的聲源的耳間水平差來實現(xiàn)。要應用于兩個耳朵處的增益 因子和β κ可以通過分割給定ITD值的耳間路徑長度差來導出
其中,ρ表示從源到頭部(的中心)的物理距離,等式(31)的ITD近似可被擴展 為考慮到仰角Y [k,1],如下 在這些公式中,正的角度在順時鐘方向上,正的ITD對應于與源較近的右耳(以使 得左耳信號相對于右耳被延遲并被衰減)。對于三維(或“全向聲系統(tǒng)”)的多聲道揚聲器配置,同空間分析導出的SASC定位向量容易包括仰角信息,并且r[k,1]僅可以解釋為臨近提示,如上面所述的。主要-周圍分解:在合成復雜音頻場景時,對于離散源和擴散聲音需要不同的呈現(xiàn)方法;離散或主 要聲音應當以盡可能多的空間化精確度來呈現(xiàn),而擴散或周圍聲音應當以維持(或增強) 與周圍源相關聯(lián)的空間感的感覺的方式來呈現(xiàn)。因此,用于雙耳呈現(xiàn)的SASC方案在此被擴 展為包括作為前端操作的主要_周圍信號分解,如圖8所示。這種主要-周圍信號分解將 每個輸入信號Xm[k,l]分離為主要信號Pm[k,l]和周圍信號Am[k,l];針對這種分解的若干 方法已在文獻中提出。圖8是具有主要-周圍信號分解的高分辨率頻域虛擬化系統(tǒng)的框圖,其中,未示出 輸入和輸出時間頻率變換。首先,頻域輸入信號806在主要-周圍分解塊808中被處理以 產(chǎn)生主要分量810和周圍分量811。在此實施例中,對主要分量執(zhí)行空間分析812以產(chǎn)生方 向向量814。優(yōu)選地,根據(jù)在共同待決美國申請No. 11/750,300中描述的方法來執(zhí)行空間分 析。替代地,通過從輸入信號生成方向向量的任何合適的技術來執(zhí)行空間分析。接下來,在 高分辨率虛擬化塊816中結合方向向量信息814來處理主要分量信號810以生成頻域信號 817,頻域信號817針對每個時間和頻率分量具有表征與方向向量814相對應的方向的聲道 間幅度和相位差。對周圍分量811的周圍虛擬化在周圍虛擬化塊818中進行以生成經(jīng)虛擬 化的周圍分量819(其也是頻域信號)。由于在下混中可能出現(xiàn)不希望的信號刪除,因此,在 本發(fā)明的優(yōu)選實施例中引入的相對歸一化,以確保下混的功率與每個時間和頻率處的多聲 道輸入信號的功率相匹配。信號817和819隨后被組合。在主要-周圍分量分離之后,對主要和周圍分量獨立地執(zhí)行虛擬化。將先前描述 的空間分析和合成應用于主要分量pm[k,l]。另一方面,周圍信號Am[k,l]可以通過前述表 征多聲道虛擬化方法來合適地呈現(xiàn),尤其是如果輸入信號是例如5. 1格式的多聲道環(huán)繞記 錄的話。在兩聲道記錄的情況中,希望將周圍信號分量虛擬化為環(huán)境聲場而不是通過一對 虛擬前方揚聲器進行直接再現(xiàn)。在一個實施例中,周圍信號分量~[k,l] *AK[k,l]在未經(jīng) 修改的情況下直接被添加到雙耳輸出信號,或者經(jīng)過某種去相關濾波以用于增強效果。備 選方法包括將這對周圍信號分量“上混”(upmix)為多聲道環(huán)繞周圍信號并且隨后利用前述 的標準技術來虛擬化該多聲道信號。該周圍上混處理優(yōu)選地包括向合成環(huán)繞周圍信號應用 去相關濾波器。應用所提出的基于SASC的呈現(xiàn)方法在多種消費電子設備中具有各種應用,對于這些 消費電子設備,希望在家中或在移動情形中對音樂或電影聲軌進行改進的耳機再現(xiàn)。在美 國專利申請 No. 11/750,300(代理機構案卷號 CLIP159,“Spatial Audio Coding Based on Universal Spatial Cues”,通過引用結合于此)中描述的空間分析方法與在頻域中執(zhí)行的 雙耳合成的組合提供了對通過耳機再現(xiàn)音樂和電影聲軌的空間質量的提高。得到的收聽體 驗是對收聽所記錄聲音場景的真實雙耳記錄體驗的(或者已建立收聽房間中的給定揚聲 器再現(xiàn)系統(tǒng)的)更接近的近似。此外,與傳統(tǒng)的雙耳記錄不同,這種再現(xiàn)技術容易支持頭部 跟蹤補償,這是因為其允許模擬聲音場景相對于收聽者的旋轉,如下所述。雖然不希望限制 本發(fā)明的范圍,然而下面將描述本發(fā)明的數(shù)個另外的應用。
16
空間咅頻編碼格式如果輸入信號已是在頻域中提供的,則這里描述的基于SASC的雙耳呈現(xiàn)實施例 尤其高效,并且如果輸入信號由多于兩個聲道構成,則甚至更高效,這是因為隨后虛擬化具 有減少需要逆變換以轉換為時域的聲道的數(shù)目的效果。作為這種在計算上有利的情形的常 見示例,標準音頻編碼制式中的輸入信號被提供給頻域表現(xiàn)中的解碼器;類似地,這種情形 出現(xiàn)在對以空間音頻編碼格式表示的多聲道信號的雙耳呈現(xiàn)中。在共同待決美國專利申請 No. 11/750,300所描述的SASC格式的情況中,編碼器已經(jīng)提供了空間分析(前面所述的)、 下混信號以及主要-周圍分解。因此,上述空間合成方法形成了用于SASC格式的在計算上 高效在感知上精確的耳機解碼器的核心。非離散多聲道格式基于SASC的雙耳呈現(xiàn)方法可以應用于標準離散多聲道記錄以外的其它音頻內 容。例如,其可以用于經(jīng)ambisonic編碼的或經(jīng)矩陣編碼的素材。與共同待決美國專利申 請No. 61/102,002 (代理機構案卷號CLIP228PRV2)中所述的基于SASC的矩陣解碼算法以 及稱為相位_幅度3D立體聲編碼器和解碼器相組合地,這里提出的雙耳呈現(xiàn)方法提供了 用于耳機再現(xiàn)兩聲道矩陣編碼內容的兼容且有效的方法。類似地,其可容易地與SIRR或 DirAC技術組合以用于通過耳機高分辨率地再現(xiàn)ambisonic記錄或者用于將房間脈沖響應 從ambisonic格式轉換為雙耳格式??臻g變換基于SASC的雙耳呈現(xiàn)方法具有除提高耳機收聽的初始動機以外的許多應用。例 如,使用SASC分析架構來參數(shù)化原始內容的空間方面使得能夠對所呈現(xiàn)場景進行靈活地 健壯地修正。一個示例是通過扭曲角度提示以在高分辨率虛擬化之前在空間上拓寬音頻場 景來產(chǎn)生“纏繞式”增強效果??紤]到空間分離是言語可懂度的重要因素已是眾所周之的, 則可以證明這種空間拓寬對于改善由助聽器提供的聽力輔助是有用的。場景旋轉和頭部跟蹤除了空間拓寬以外,通過使用這里所述的基于SASC的雙耳呈現(xiàn)方法還可容易地 實現(xiàn)其它模式的內容重分布或基于方向的增強。一種特別有用的重分布是場景旋轉;因 為其使得能夠精確地合成相對于收聽者的聲音場景旋轉,與傳統(tǒng)的虛擬化器或雙耳記錄不 同,這里描述的再現(xiàn)方法容易支持頭部跟蹤補償。實質上,與標準的以聲道為中心的虛擬化 方法相比,基于SASC的雙耳呈現(xiàn)使得能夠改善跟蹤頭部的雙耳虛擬化,這是因為所有主要 聲音分量是以精確的HRTF提示來再現(xiàn)的,避免了對在兩個或更多個聲道之間擺動的聲音 的“幻象聲像”幻覺進行虛擬化的任何嘗試。揚聲器再現(xiàn)可以通過引入應用于雙耳輸出信號的適當串擾消除濾波器來將基于SASC的雙 耳呈現(xiàn)方法包括在揚聲器再現(xiàn)情形中。對于更高效的實現(xiàn)方式,還可以利用基于HRTF的 或“ transaural ”虛擬化濾波器設計技術來將雙耳合成與串擾消除組合在頻域合成濾波器 Hl [k, 1]和 HK[k,1]中。一般化為任意空間音頻格式轉換雖然上面對優(yōu)選實施例的基于SASC的雙耳呈現(xiàn)方法的描述假設利用左輸出聲道 和右輸出聲道進行再現(xiàn),然而,很容易將本發(fā)明的原理更一般地應用于利用任何兩聲道或
17多聲道音頻記錄或傳輸格式通過耳機或揚聲器進行的空間音頻再現(xiàn),其中,可以通過規(guī)定 的依賴于頻率或獨立于頻率的聲道間幅度和/或相位差來將方向角編碼在輸出信號中。因 此,本發(fā)明允許精確地再現(xiàn)以下格式的空間音頻場景例如,ambisonic格式、相位-幅度矩 陣立體聲格式、離散多聲道格式、與兩個或更多個麥克風陣列相關聯(lián)的傳統(tǒng)的兩聲道或多 聲道記錄格式、利用基于HRTF(或“transaural”)的虛擬化技術或使用揚聲器陣列的聲場 再現(xiàn)方法(例如波場合成)的兩聲道或多聲道揚聲器3D音頻格式。如從上面的描述將清楚的,本發(fā)明可用來將信號從任何兩聲道或多聲道空間音頻 記錄或傳輸格式轉換為任何其它兩聲道或多聲道空間音頻記錄或傳輸格式。此外,方法允 許將聲音場景的角度變換包括在格式轉換中,聲音場景的角度變換例如是應用于聲音場景 中的聲音分量的方向角的旋轉或纏繞。雖然已經(jīng)出于清楚理解的目的而較詳細地描述了本發(fā)明,但是將會意識到,在所 附權利要求的范圍內可以進行某些改變和修改。因此,所述實施例將被認為是示例性的而 非限制性的,并且本發(fā)明并不局限于這里給出的細節(jié),而是可以在所附權利要求的范圍和 等同物之內進行修改。
18
權利要求
一種從具有至少一個音頻輸入聲道和至少一個空間信息輸入聲道的音頻輸入信號的時間頻率信號表示生成具有至少第一和第二音頻輸出聲道的音頻輸出信號的方法,該方法包括選擇空間音頻輸出格式,以使得音頻輸出信號中的方向由所述至少第一和第二音頻輸出聲道之間的每個頻率處的聲道間幅度差和聲道間相位差中的至少一者來表征;接收與所述時間頻率信號表示的多個幀中的每個幀相對應的方向信息;以及從所述時間頻率信號表示生成第一和第二頻域輸出信號,所述第一和第二頻域輸出信號在每個時間和頻率處具有表征所述空間音頻輸出格式中的方向的、所述至少第一和第二輸出聲道之間的聲道間幅度差和聲道間相位差。
2.如權利要求1所述的方法,還包括接收與所述時間頻率信號表示的多個幀中的每 個幀相對應的半徑值,所述半徑值中的每個對應于從被分析音頻源到收聽者的距離或者對 應于被分析音頻源相對于水平平面的仰角。
3.如權利要求1所述的方法,其中,所述多聲道音頻輸入信號是ambisonic編碼信號或 相位_幅度矩陣編碼信號之一。
4.如權利要求1所述的方法,其中,所述時間頻率信號表示包括輸入音頻信號的主要 分量。
5.如權利要求4所述的方法,還包括接收與所述輸入音頻信號的至少一個周圍分量 相對應的周圍方向向量,接收與所述輸入音頻信號相對應的周圍分量的時間頻率表示,并 且利用所述周圍方向向量和所述周圍分量來生成所述第一和第二頻域信號。
6.如權利要求1所述的方法,其中,所述音頻輸入信號是立體聲信號。
7.如權利要求1所述的方法,還包括將所述音頻輸入信號轉換為頻域表示,并且從所 述頻域表示導出方向角信息。
8.如權利要求7所述的方法,還包括將所述音頻輸入信號分解為主要分量和周圍分 量,并且至少對所述主要分量的時間頻率表示執(zhí)行空間分析以導出所述方向角信息。
9.如權利要求1所述的方法,還包括執(zhí)行歸一化以確保音頻輸出格式聲道的功率與 每個時間和頻率處的音頻輸入信號的功率相匹配。
10.一種生成雙耳音頻信號的方法,包括將輸入音頻信號轉換為頻域表示;從所述頻域表示導出與多個時間頻率分量中的每個的定位方向相對應的方向向量;從所述時間頻率信號表示生成第一和第二頻域信號,所述第一和第二頻域信號在每個 時間和頻率處具有表征與所述方向向量相對應的方向的聲道間幅度和相位差;執(zhí)行逆變換以轉換所述頻域信號。
11.如權利要求1所述的方法,其中,所述音頻輸出信號用于利用耳機或揚聲器進行再現(xiàn)。
12.如權利要求1所述的方法,其中,所述聲道間幅度和相位差是針對來自測得的或計 算出的HRTF或BRFT數(shù)據(jù)的多個方向并且在每個頻率處導出的。
13.如權利要求1所述的方法,其中,所述方向信息根據(jù)收聽者頭部的朝向或位置而被 校正。
14.如權利要求1所述的方法,其中,所述空間音頻輸出格式是transaural格式、ambisonic格式或相位-幅度矩陣編碼格式之一。
15.如權利要求1所述的方法,其中,所述音頻輸出信號用于利用揚聲器進行再現(xiàn),并 且所述聲道間幅度和相位差是針對根據(jù)ambisonic再現(xiàn)或波場合成方法的多個方向并在 每個頻率處導出的。
全文摘要
描述了用于對諸如記錄之類的兩聲道或多聲道音頻信號進行格式轉換或再現(xiàn)的頻域方法。該再現(xiàn)基于對輸入音頻信號中的方向提示的空間分析以及將這些提示轉換為用于頻域中的兩個或更多個聲道的音頻輸出信號提示。
文檔編號G10L19/00GK101884065SQ200880119120
公開日2010年11月10日 申請日期2008年10月2日 優(yōu)先權日2007年10月3日
發(fā)明者吉恩-馬克·喬特, 邁克爾·M·古德溫, 馬克·多勒森 申請人:創(chuàng)新科技有限公司