基于對(duì)象的音頻的反射聲渲染的制作方法
【專利說(shuō)明】
[0001] 相關(guān)申請(qǐng)的交叉引用
[0002] 本申請(qǐng)要求2012年8月31日提交的美國(guó)臨時(shí)專利申請(qǐng)No. 61/695, 893的優(yōu)先權(quán), 其全文內(nèi)容通過(guò)引入并入本文。
技術(shù)領(lǐng)域
[0003] -個(gè)或更多個(gè)實(shí)施方式一般涉及音頻信號(hào)處理,更具體而言,涉及在某些收聽環(huán) 境中通過(guò)直接和反射驅(qū)動(dòng)器來(lái)渲染自適應(yīng)音頻內(nèi)容。
【背景技術(shù)】
[0004] 在背景部分所討論的主題不應(yīng)該僅僅由于在背景部分提及了而被認(rèn)為是現(xiàn)有技 術(shù)。類似地,在背景部分提及的或與背景部分的主題相關(guān)聯(lián)的問(wèn)題不應(yīng)該被認(rèn)為已經(jīng)在現(xiàn) 有技術(shù)中被預(yù)先認(rèn)識(shí)到。背景部分中的主題僅僅代表本身也可以是發(fā)明的不同的方法。
[0005] 影院聲軌經(jīng)常包括與屏幕上的圖像、對(duì)話、噪聲以及從屏幕上的不同位置發(fā)出并 與背景音樂(lè)和環(huán)境效果結(jié)合以產(chǎn)生整體聽眾體驗(yàn)的音響效果對(duì)應(yīng)的許多不同的聲音元素。 準(zhǔn)確回放要求聲音以在聲源位置、強(qiáng)度、移動(dòng)以及深度方面與在屏幕上所顯示的盡可能接 近地對(duì)應(yīng)的方式再現(xiàn)。傳統(tǒng)的基于聲道的音頻系統(tǒng)以揚(yáng)聲器饋送的形式向回放環(huán)境中的各 個(gè)揚(yáng)聲器發(fā)送音頻內(nèi)容。數(shù)字影院的引入已經(jīng)建立了影院聲音的新標(biāo)準(zhǔn)(諸如多個(gè)音頻 聲道的合并),以允許內(nèi)容創(chuàng)建者有更大的創(chuàng)造性,并且給聽眾帶來(lái)更加包圍性和逼真的聽 覺體驗(yàn)。作為分發(fā)空間音頻的手段擴(kuò)展到傳統(tǒng)的揚(yáng)聲器饋送和基于聲道的音頻以外是關(guān)鍵 的,并且存在對(duì)基于模型的音頻描述的相當(dāng)大的興趣,所述音頻描述允許聽者選擇所希望 的回放配置,音頻專門針對(duì)他們所選擇的配置而被渲染。為進(jìn)一步改善聽者體驗(yàn),聲音在真 正的三維(3D)或虛擬3D環(huán)境中的回放已經(jīng)變?yōu)檠绣撑c開發(fā)得越來(lái)越多的領(lǐng)域。聲音的 空間呈現(xiàn)使用了音頻對(duì)象,所述音頻對(duì)象是帶有表觀源位置(apparentsourceposition) (例如,3D坐標(biāo))、表觀源寬度及其他參數(shù)的相關(guān)聯(lián)的參數(shù)化源描述的音頻信號(hào)。基于對(duì)象 的音頻可以用于諸如數(shù)字電影、視頻游戲、模擬器之類的許多的多媒體應(yīng)用,并且在其中揚(yáng) 聲器的數(shù)量及其放置一般地受相對(duì)較小的收聽環(huán)境的界限限制或約束的家庭環(huán)境中尤為 重要。
[0006] 已開發(fā)出了各種技術(shù)以改善影院環(huán)境中的聲音系統(tǒng)并更準(zhǔn)確地捕捉及再現(xiàn)創(chuàng)建 者對(duì)于電影聲軌的藝術(shù)意圖的各種技術(shù)。例如,已開發(fā)出了下一代空間音頻(也被稱為"自 適應(yīng)音頻")格式,該格式包括音頻對(duì)象和傳統(tǒng)的基于聲道的揚(yáng)聲器饋送的混合以及用于 音頻對(duì)象的位置元數(shù)據(jù)。在空間音頻解碼器中,聲道被直接發(fā)送到它們的相關(guān)聯(lián)的揚(yáng)聲器 (如果存在合適的揚(yáng)聲器)或被下混合到現(xiàn)有的揚(yáng)聲器組,并由解碼器以靈活的方式渲染 音頻對(duì)象。與每個(gè)對(duì)象相關(guān)聯(lián)的諸如3D空間中的位置軌跡之類的參數(shù)化源描述與連接到 解碼器的揚(yáng)聲器的數(shù)量和位置一起被作為輸入。然后,渲染器使用諸如聲像法則(panning law)之類的某些算法跨附接的揚(yáng)聲器組來(lái)分發(fā)與每個(gè)對(duì)象相關(guān)聯(lián)的音頻。如此,在存在于 收聽環(huán)境中的特定揚(yáng)聲器配置上最佳地呈現(xiàn)每個(gè)對(duì)象的創(chuàng)作的空間意圖。
[0007] 當(dāng)前的空間音頻系統(tǒng)一般是為影院開發(fā)的,因此涉及在大房間中部署以及使用相 對(duì)昂貴的設(shè)備,包括分布在收聽環(huán)境周圍的多個(gè)揚(yáng)聲器的陣列。目前正在生產(chǎn)的越來(lái)越多 的影院內(nèi)容通過(guò)流技術(shù)和高級(jí)媒體技術(shù)(諸如藍(lán)光等等)可用于在家庭環(huán)境中回放。另外, 諸如3D電視機(jī)以及高級(jí)計(jì)算機(jī)游戲和模擬器之類的新興的技術(shù)正在鼓勵(lì)在家庭及其他收 聽環(huán)境(非影院/劇院)中使用相對(duì)復(fù)雜的設(shè)備,諸如大屏幕監(jiān)視器、環(huán)繞聲接收器和揚(yáng)聲 器陣列。然而,設(shè)備成本、安裝復(fù)雜性以及房間大小是阻止在大多數(shù)家庭環(huán)境中完全采用空 間音頻的現(xiàn)實(shí)約束。例如,高級(jí)的基于對(duì)象的音頻系統(tǒng)通常使用頭頂或高度揚(yáng)聲器(height speaker)來(lái)回放打算在聽者的頭部上方產(chǎn)生的聲音。在很多情況中,特別是在家庭環(huán)境中, 這樣的高度揚(yáng)聲器可能不可用。在此情況中,如果只通過(guò)安裝在地板或墻壁上的揚(yáng)聲器回 放這種聲音對(duì)象,則丟失了高度信息。
[0008] 因此,需要的是這樣的系統(tǒng):允許自適應(yīng)音頻系統(tǒng)的完全空間信息在可能只包括 計(jì)劃用于回放的完全揚(yáng)聲器陣列的一部分(諸如有限的頭頂揚(yáng)聲器或沒(méi)有頭頂揚(yáng)聲器)的 收聽環(huán)境中再現(xiàn)并且可以使用反射揚(yáng)聲器以從可能不存在直接揚(yáng)聲器的位置發(fā)出聲音。
【發(fā)明內(nèi)容】
[0009] 描述了針對(duì)這樣的音頻格式及系統(tǒng)的系統(tǒng)和方法:所述音頻格式及系統(tǒng)包括基于 自適應(yīng)音頻系統(tǒng)的更新的內(nèi)容創(chuàng)建工具、分發(fā)方法以及增強(qiáng)的用戶體驗(yàn),所述自適應(yīng)音頻 系統(tǒng)包括新的揚(yáng)聲器和聲道配置,以及通過(guò)為影院調(diào)音師創(chuàng)建的高級(jí)內(nèi)容創(chuàng)建工具套件而 實(shí)現(xiàn)的新的空間描述格式。實(shí)施例包括將基于影院的自適應(yīng)音頻概念擴(kuò)展到包括家庭劇 院(例如,A/V接收器、音箱,以及藍(lán)光回放器)、E-媒體(例如,PC、平板計(jì)算機(jī)、移動(dòng)設(shè)備, 以及頭戴受話器回放)、廣播(例如,TV和機(jī)頂盒)、音樂(lè)、游戲、實(shí)況聲音、用戶生成的內(nèi)容 ("UGC")等的特定音頻回放生態(tài)系統(tǒng)的系統(tǒng)。家庭環(huán)境系統(tǒng)包括提供與劇場(chǎng)內(nèi)容的兼容 性以及特征元數(shù)據(jù)定義的組件,所述特征元數(shù)據(jù)定義包括傳達(dá)創(chuàng)建意圖的內(nèi)容創(chuàng)建信息、 關(guān)于音頻對(duì)象的媒體智能信息、揚(yáng)聲器饋送、空間渲染信息和指示內(nèi)容類型(諸如對(duì)話,音 樂(lè),周圍環(huán)境,等等)的內(nèi)容相關(guān)的元數(shù)據(jù)。自適應(yīng)音頻定義可包括經(jīng)由音頻聲道的標(biāo)準(zhǔn)揚(yáng) 聲器饋送,加帶有相關(guān)聯(lián)的空間渲染信息(諸如在三維空間中的大小、速度和位置)的音頻 對(duì)象。還描述了新穎的揚(yáng)聲器布局(或聲道配置)和將支持多個(gè)渲染技術(shù)的伴隨的新的空 間描述格式。與描述內(nèi)容創(chuàng)建者的意圖或調(diào)音師的意圖的元數(shù)據(jù)(包括音頻流的所希望的 位置)一起傳輸音頻流(一般包括聲道和對(duì)象)。位置可以被表達(dá)為命名的聲道(從預(yù)定 義的聲道配置內(nèi))或被表達(dá)為3D空間位置信息。此聲道加對(duì)象格式提供了基于聲道的和 基于模型的音頻場(chǎng)景描述方法兩者中的最好的。
[0010] 實(shí)施例具體針對(duì)用于使用反射聲元件來(lái)渲染聲音的系統(tǒng),所述反射聲元件包括: 針對(duì)在收聽環(huán)境周圍的分布的音頻驅(qū)動(dòng)器的陣列,其中,驅(qū)動(dòng)器中的一些是直接驅(qū)動(dòng)器,其 他的是被配置成朝向收聽環(huán)境的一個(gè)或更多個(gè)表面投射聲波以反射到特定收聽區(qū)域的反 射驅(qū)動(dòng)器;用于處理音頻流和一個(gè)或更多個(gè)元數(shù)據(jù)組的渲染器,所述一個(gè)或更多個(gè)元數(shù)據(jù) 組與每個(gè)音頻流相關(guān)聯(lián)并且指定各音頻流在收聽環(huán)境中的回放位置,其中音頻流包括一個(gè) 或更多個(gè)反射音頻流和一個(gè)或更多個(gè)直接音頻流;以及回放系統(tǒng),用于根據(jù)一個(gè)或更多個(gè) 元數(shù)據(jù)組來(lái)對(duì)到音頻驅(qū)動(dòng)器的陣列的音頻流進(jìn)行渲染,并且其中一個(gè)或更多個(gè)反射音頻流 被傳輸?shù)椒瓷湟纛l驅(qū)動(dòng)器。
[0011] 通過(guò)引用的并入
[0012] 本說(shuō)明書中所提及的任何出版物、專利和/或?qū)@暾?qǐng)通過(guò)引用被全文并入,就 像每個(gè)單獨(dú)的出版物和/或?qū)@暾?qǐng)被具體地、單獨(dú)地指示為通過(guò)引用并入。
【附圖說(shuō)明】
[0013] 在下面的附圖中,相同的附圖標(biāo)記用于表示相同的要素。雖然下列圖描繪了各種 示例,但是一個(gè)或更多個(gè)實(shí)施方式不限于圖中所描繪的示例。
[0014] 圖1示出了提供用于回放高度聲道的高度揚(yáng)聲器的環(huán)繞系統(tǒng)(例如,9. 1環(huán)繞)中 的不例性的揚(yáng)聲器布局。
[0015] 圖2示出了在實(shí)施例下的用于產(chǎn)生自適應(yīng)音頻混合的基于聲道和對(duì)象的數(shù)據(jù)的 組合。
[0016] 圖3是在實(shí)施例下的用于自適應(yīng)音頻系統(tǒng)中的回放體系結(jié)構(gòu)的框圖。
[0017] 圖4A是示出了在實(shí)施例下的用于修改基于影院的音頻內(nèi)容以用于收聽環(huán)境的功 能性組件的框圖。
[0018] 圖4B是在實(shí)施例下的圖3A的組件的詳細(xì)框圖。
[0019] 圖4C是在實(shí)施例下的自適應(yīng)音頻環(huán)境的功能性組件的框圖。
[0020] 圖5示出了示例性的家庭影院環(huán)境中的自適應(yīng)音頻系統(tǒng)的部署。
[0021] 圖6示出了使用反射聲來(lái)模擬收聽環(huán)境中的頭頂揚(yáng)聲器的向上激發(fā) (upward-firing)的驅(qū)動(dòng)器的使用。
[0022] 圖7A示出了在實(shí)施例下的用于具有反射聲渲染器的自適應(yīng)音頻系統(tǒng)的具有處于 第一配置的多個(gè)驅(qū)動(dòng)器的揚(yáng)聲器。
[0023] 圖7B示出了在實(shí)施例下的用于具有反射聲渲染器的自適應(yīng)音頻系統(tǒng)的具有分布 在多個(gè)外殼中的驅(qū)動(dòng)器的揚(yáng)聲器系統(tǒng)。
[0024] 圖7C示出了在實(shí)施例下的用于使用反射聲渲染器的自適應(yīng)音頻系統(tǒng)中的音箱的 示例性的配置。
[0025] 圖8示出了包括置于收聽環(huán)境內(nèi)的向上激發(fā)的驅(qū)動(dòng)器的具有能單獨(dú)尋址的驅(qū)動(dòng) 器的揚(yáng)聲器的不例性的布局。
[0026] 圖9A示出了在實(shí)施例下的使用用于反射的音頻的多個(gè)能尋址的驅(qū)動(dòng)器的自適應(yīng) 音頻5.1系統(tǒng)的揚(yáng)聲器配置。
[0027] 圖9B示出了在實(shí)施例下的使用用于反射的音頻的多個(gè)能尋址的驅(qū)動(dòng)器的自適應(yīng) 音頻7.1系統(tǒng)的揚(yáng)聲器配置。
[0028] 圖10是示出了在實(shí)施例下的雙向互連的構(gòu)成的圖示。
[0029] 圖11示出了在實(shí)施例下的用于自適應(yīng)音頻系統(tǒng)中的自動(dòng)配置和系統(tǒng)校準(zhǔn)過(guò)程。 [0030] 圖12是示出了在實(shí)施例下的用于自適應(yīng)音頻系統(tǒng)中的校準(zhǔn)方法的處理步驟的流 程圖。
[0031] 圖13示出了自適應(yīng)音頻系統(tǒng)在示例性的電視機(jī)和音箱使用情況中的使用。
[0032] 圖14示出了在實(shí)施例下的自適應(yīng)音頻系統(tǒng)中的三維兩耳頭戴受話器虛擬化的簡(jiǎn) 化表示。
[0033] 圖15是示出了在實(shí)施例下的用于針對(duì)收聽環(huán)境使用反射聲渲染器的自適應(yīng)音頻 系統(tǒng)中的某些元數(shù)據(jù)定義的表。
[0034] 圖16是示出了在實(shí)施例下的用于組合的濾波器的頻率響應(yīng)的曲線圖。
【具體實(shí)施方式】
[0035] 描述了用于為缺少頭頂揚(yáng)聲器的自適應(yīng)音頻系統(tǒng)對(duì)反射聲進(jìn)行渲染的自適應(yīng)音 頻系統(tǒng)的系統(tǒng)和方法。此處所描述的一個(gè)或更多個(gè)實(shí)施例的方面可以以處理混合、渲染和 回放系統(tǒng)中的源音頻信息的音頻或視聽系統(tǒng)實(shí)現(xiàn),所述混合、渲染和回放系統(tǒng)包括執(zhí)行軟 件指令的一個(gè)或更多個(gè)計(jì)算機(jī)或處理設(shè)備。所描述的任何實(shí)施例都可以單獨(dú)使用或以任何 組合與另一個(gè)一起使用。雖然各種實(shí)施例可能受到可能在說(shuō)明書中的一個(gè)或更多個(gè)位置所 討論的或提及的現(xiàn)有技術(shù)的各種缺陷的啟發(fā),但是實(shí)施例不一定解決任何這些缺陷。換言 之,不同的實(shí)施例可能解決可能在說(shuō)明書中討論的不同的缺陷。一些實(shí)施例可能只部分地 解決可能在說(shuō)明書中討論的一些缺陷或僅僅一個(gè)缺陷,并且一些實(shí)施例可能不解決任何這 些缺陷。
[0036]出于本說(shuō)明書的目的,下列術(shù)語(yǔ)具有相關(guān)含義:術(shù)語(yǔ)"聲道"意指音頻信號(hào)加其中 位置被編碼為聲道標(biāo)識(shí)符(例如,左前或右頂部環(huán)繞)的元數(shù)據(jù);"基于聲道的音頻"是針對(duì) 通過(guò)帶有相關(guān)標(biāo)稱位置的預(yù)定義的揚(yáng)聲器區(qū)域組(例如,5. 1,7. 1)回放而格式化的音頻; 術(shù)語(yǔ)"對(duì)象"或"基于對(duì)象的音頻"意指帶有諸如表觀源位置(例如,3D坐標(biāo)、表觀源寬度等 的參數(shù)化源描述的一個(gè)或更多個(gè)音頻聲道;并且"自適應(yīng)音頻"意指基于聲道的和/或基于 對(duì)象的音頻信號(hào)加元數(shù)據(jù),該元數(shù)據(jù)基于回放環(huán)境使用音頻流加其中位置被編碼為空間中 的3D位置的元數(shù)據(jù)來(lái)渲染音頻信號(hào);并且"收聽環(huán)境"意指任何開放的、部分封閉或完全封 閉的區(qū)域,諸如可以用于單獨(dú)地或與視頻或其他內(nèi)容一起回放音頻內(nèi)容的房間,并且可以 實(shí)施在家庭、影院、劇院、禮堂、工作室、游戲控制臺(tái)等中。這種區(qū)域可以具有設(shè)置在其中的 一個(gè)或更多個(gè)表面,諸如可以直接或擴(kuò)散地反射聲波的墻或擋板。
[0037] 自話應(yīng)音頻格式和系統(tǒng)
[0038] 實(shí)施例針對(duì)反射聲渲染系統(tǒng),該系統(tǒng)被配置為與聲音格式及處理系統(tǒng)一起工作, 該聲音格式及處理系統(tǒng)可以被稱為"空間音頻系統(tǒng)"或"自適應(yīng)音頻系統(tǒng)",其基于音頻格式 和渲染技術(shù)以允許增強(qiáng)的聽眾沉浸、更大的藝術(shù)控制以及系統(tǒng)靈活性和可擴(kuò)展性??偟淖?適應(yīng)音頻系統(tǒng)一般包括被配置成生成包含常規(guī)的基于聲道的音頻元素和音頻對(duì)象編碼元 素的一個(gè)或更多個(gè)比特流的音頻編碼、分發(fā)及解碼系統(tǒng)。與單獨(dú)采用的基于聲道的或基于 對(duì)象的方法相比,這種組合的方法提供了更大的編碼效率和渲染靈活性。在2012年4月20 日提交的標(biāo)題為"SystemandMethodforAdaptiveAudioSignalGeneration,Coding andRendering"的待審批的美國(guó)臨時(shí)專利申請(qǐng)61/636, 429中描述了可以與本實(shí)施例一起 使用的自適應(yīng)音頻系統(tǒng)的示例,其全文內(nèi)容通過(guò)引用并入于此。
[0039]自適應(yīng)音頻系統(tǒng)和相關(guān)聯(lián)的音頻格式的示例性實(shí)施方式是Dolby?Atmos?平 臺(tái)。這種系統(tǒng)包含可以實(shí)現(xiàn)為9. 1環(huán)繞系統(tǒng)或類似的環(huán)繞聲配置的高度(上/下)維度。 圖1示出了提供用于回放高度聲道的高度揚(yáng)聲器的本環(huán)繞系統(tǒng)(例如,9. 1環(huán)繞)中的揚(yáng)聲 器布局。9. 1系統(tǒng)100的揚(yáng)聲器配置由地板平面中的五個(gè)揚(yáng)聲器102和高度平面中的四個(gè) 揚(yáng)聲器104構(gòu)成。一般而言,這些揚(yáng)聲器可以被用來(lái)產(chǎn)生被設(shè)計(jì)為幾乎準(zhǔn)確地從收聽環(huán)境 內(nèi)的任何位置發(fā)出的聲音。預(yù)定義的揚(yáng)聲器配置,諸如圖1所示的,會(huì)天然地限制準(zhǔn)確地表 現(xiàn)給定聲源的位置的能力。例如,聲源不能被平移得比左側(cè)揚(yáng)聲器本身更左。這適用于每 個(gè)揚(yáng)聲器,因此形成了一維的(例如,左-右)、二維的(例如,前-后)或三維的(例如, 左-右、前-后、上-下)幾何形狀,其中,向下混合受到約束。在這種揚(yáng)聲器配置中,可以 使用各種不同的揚(yáng)聲器配置和類型。例如,某些增強(qiáng)的音頻系統(tǒng)可以使用9. 1、11. 1、13. 1、 19. 4或其他配置中的揚(yáng)聲器。揚(yáng)聲器類型可包括全范圍的直接揚(yáng)聲器、揚(yáng)聲器陣列、環(huán)繞揚(yáng) 聲器、重低音揚(yáng)聲器、高音揚(yáng)聲以及其他類型的揚(yáng)聲器。
[0040] 音頻對(duì)象可以被認(rèn)為是可被感覺為從收聽環(huán)境中的一個(gè)或多個(gè)特定物理位置發(fā) 出的聲音元素的組。這種對(duì)象可以是靜態(tài)的(即,靜止)或動(dòng)態(tài)的(即,移動(dòng)的)。音頻對(duì) 象由限定聲音在給定時(shí)間點(diǎn)的位置的元數(shù)據(jù)和其他函數(shù)一起控制。當(dāng)對(duì)象被回放時(shí),它們 根據(jù)位置元數(shù)據(jù)使用存在的揚(yáng)聲器來(lái)渲染,而并非一定輸出到預(yù)定義的物理聲道。會(huì)話中 的聲軌可以是音頻對(duì)象,并且標(biāo)準(zhǔn)的平移數(shù)據(jù)類似于位置元數(shù)據(jù)。如此,位于屏幕上的內(nèi)容 可以以與基于聲道的內(nèi)容相同的方式有效地平移,但是,如果需要的話位于環(huán)繞中的內(nèi)容 可以被渲染給單個(gè)揚(yáng)聲器。盡管使用音頻對(duì)象提供了對(duì)分離的效果的期望的控制,但是,聲 軌的其他方面可以在基于聲道的環(huán)境中有效地起作用。例如,許多環(huán)境效果或混響實(shí)際上 得益于被饋送到揚(yáng)聲器陣列。雖然這些可以被視為帶有足夠的寬度以填充陣列的對(duì)象,但 是保持一些基于聲道的功能是有益的。
[0041] 自適應(yīng)音頻系統(tǒng)被配置為除了音頻對(duì)象外還支持"床",其中床是有效地基于聲道 的副路混合(sub-mix)或阻擋物(stem)。取決于內(nèi)容創(chuàng)建者的意圖,這些可以被單獨(dú)地或 組合地發(fā)送到單個(gè)床中,用于最后的回放(渲染)??梢栽诎^頂揚(yáng)聲器的陣列和不同的 基于聲道的配置(諸如5. 1,7. 1,以及9. 1)中創(chuàng)建這些床,諸如圖1所示出的。圖2示出了 在實(shí)施例下的用于產(chǎn)生自適應(yīng)音頻混合