發(fā)送裝置、發(fā)送方法、接收裝置和接收方法與流程

文檔序號(hào)：11635846閱讀：292來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本技術(shù)涉及發(fā)送裝置、發(fā)送方法、接收裝置和接收方法，并且更具體地涉及將具有音頻數(shù)據(jù)和對象聲源的位置信息的音頻流連同視頻流一起發(fā)送的發(fā)送裝置等。

背景技術(shù)：

迄今為止，作為三維(3d)音頻技術(shù)，已經(jīng)提出了(例如，參見專利文獻(xiàn)1)3d音頻渲染技術(shù)，以基于對象聲源的位置信息將對象聲源的音頻數(shù)據(jù)映射到任何位置的揚(yáng)聲器。

引用列表

專利文獻(xiàn)

專利文獻(xiàn)1：jp-t-2014-520491

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明將要解決的問題

以上提及的對象聲源的位置信息基于單視圖。在其中從多個(gè)視圖拍攝內(nèi)容的情況下，將被使用的攝像機(jī)的位置或方向隨攝像機(jī)的不同而變化。因此，在接收側(cè)執(zhí)行視圖的切換的情況下，可僅在用作參考的視圖中準(zhǔn)確地執(zhí)行3d音頻渲染。

當(dāng)前技術(shù)的目的在于使得即使在接收側(cè)執(zhí)行視圖的切換的情況下，也能夠進(jìn)行準(zhǔn)確的3d音頻渲染。

問題解決方案

當(dāng)前技術(shù)的概念在于發(fā)送裝置，包括：

編碼單元，被配置為生成具有第一視圖的視頻數(shù)據(jù)的第一視頻流、具有第二視圖的視頻數(shù)據(jù)的第二視頻流，以及具有對象聲源的音頻數(shù)據(jù)和對象聲源的基于第一視圖的位置信息的音頻流；以及

發(fā)送單元，被配置為發(fā)送預(yù)定格式的容器，所述容器包括第一視頻流、第二視頻流、音頻流和位置校正信息，所述位置校正信息用于將對象聲源的位置信息校正為基于第二視圖的位置信息。

在本技術(shù)中，編碼單元生成具有第一視圖的視頻數(shù)據(jù)的第一視頻流、具有第二視圖的視頻數(shù)據(jù)的第二視頻流以及音頻流。音頻流具有對象聲源的音頻數(shù)據(jù)和對象聲源的基于第一視圖的位置信息。

發(fā)送單元發(fā)送預(yù)定格式的容器，該容器包括第一視頻流、第二視頻流、音頻流和位置校正信息，所述位置校正信息用于將對象聲源的位置信息校正為基于第二視圖的位置信息。例如，位置校正信息可指示第一視圖以及第二視圖的位置和方向的差值分量。例如，容器可以是在數(shù)字廣播標(biāo)準(zhǔn)中采用的傳送流(mpeg-2ts)。進(jìn)一步地，例如，容器可以是用于在因特網(wǎng)上進(jìn)行傳遞等的mp4的容器，或者是除了mp4以外的格式的容器。

例如，可將位置校正信息插入音頻流的層中。在這種情況下，保證了對象聲源的音頻數(shù)據(jù)和位置信息與位置校正的同步。在這種情況下，例如，可將位置校正信息插入包括位置信息的元數(shù)據(jù)區(qū)域中。進(jìn)一步的，在這種情況下，例如，可將位置校正信息插入用戶數(shù)據(jù)區(qū)域中。

進(jìn)一步地，在這種情況下，例如，當(dāng)存在多個(gè)第二視圖時(shí)，將分別對應(yīng)于多個(gè)第二視圖的多條位置校正信息插入音頻流的層中，以及將指示分別對應(yīng)于多條位置校正信息的第二視頻流的信息插入容器的層中。

進(jìn)一步的，例如，可將位置校正信息插入第二視頻流的層中。在這種情況下，有助于位置校正信息和第二視頻流之間的關(guān)聯(lián)。在這種情況下，例如，可將位置校正信息插入用戶數(shù)據(jù)區(qū)域中。

進(jìn)一步地，例如，可將位置校正信息插入容器的層中。在這種情況下，例如，可將位置校正信息作為信令信息插入。在這種情況下，可在系統(tǒng)的層中在接收側(cè)獲得位置校正信息。

在這種情況下，容器可為mpeg2-ts，并且可將位置校正信息插入對應(yīng)于節(jié)目映射表的第二視頻流的視頻基本流環(huán)中。

進(jìn)一步地，在這種情況下，可插入包括位置校正信息的信息流。在這種情況下，在接收側(cè)可容易地從獨(dú)立于音頻流和視頻流的信息流獲取位置校正信息。

因此，在本技術(shù)中，與第一視頻流、第二視頻流和音頻流一起發(fā)送用于將對象聲源的位置信息校正為基于第二視圖的位置信息的位置校正信息。因此，在接收側(cè)將視圖切換為第二視圖的情況下，可以按照位置信息基于第二視圖的方式使用通過位置校正信息校正的對象聲源的位置信息，并且因此可準(zhǔn)確地執(zhí)行3d音頻渲染。

進(jìn)一步地，本技術(shù)的另一個(gè)概念在于接收裝置，包括：

接收單元，被配置為接收預(yù)定格式的容器，所述容器包括具有第一視圖的視頻數(shù)據(jù)的第一視頻流、具有第二視圖的視頻數(shù)據(jù)的第二視頻流，以及具有對象聲源的音頻數(shù)據(jù)和對象聲源的基于第一視圖的位置信息的音頻流，以及用于將對象聲源的位置信息校正為基于第二視圖的位置信息的位置校正信息；

處理單元，被配置為處理容器中所包含的信息。

在本技術(shù)中，接收單元接收預(yù)定格式的容器，所述容器包括具有第一視圖的視頻數(shù)據(jù)的第一視頻流、具有第二視圖的視頻數(shù)據(jù)的第二視頻流，具有對象聲源的音頻數(shù)據(jù)和對象聲源的基于第一視圖的位置信息的音頻流，以及用于將對象聲源的位置信息校正為基于第二視圖的位置信息的位置校正信息。

例如，處理單元可包括：解碼單元，被配置為從第一視頻流、第二視頻流和音頻流獲得第一視圖的視頻數(shù)據(jù)、第二視圖的視頻數(shù)據(jù)以及對象聲源的音頻數(shù)據(jù)和位置信息；選擇器，被配置為選擇性地輸出第一視圖的視頻數(shù)據(jù)或者第二視圖的視頻數(shù)據(jù)；以及渲染單元，被配置為基于對象聲源的位置信息將對象聲源的音頻數(shù)據(jù)映射到任何揚(yáng)聲器位置。當(dāng)通過選擇器選擇了第二視圖的視頻數(shù)據(jù)時(shí)，渲染單元可以以位置信息是基于第二視圖的方式使用基于位置校正信息校正的位置信息。

因此，在本技術(shù)中，例如，當(dāng)選擇了第二視圖的視頻數(shù)據(jù)時(shí)，以位置信息基于第二視圖的方式使用在位置校正信息的基礎(chǔ)上校正的位置信息來執(zhí)行渲染。因此，即使在其中執(zhí)行視圖切換的情況下，也可準(zhǔn)確地執(zhí)行3d音頻渲染。

進(jìn)一步的，本技術(shù)的另一個(gè)概念在于接收裝置，包括：

接收單元，被配置為接收預(yù)定格式的容器，所述容器包括具有第一視圖的視頻數(shù)據(jù)的第一視頻流、具有第二視圖的視頻數(shù)據(jù)的第二視頻流，以及具有對象聲源的音頻數(shù)據(jù)和對象聲源的基于第一視圖的位置信息的音頻流；

獲取單元，被配置為獲取用于將對象聲源的位置信息校正為基于第二視圖的位置信息的位置校正信息；

解碼單元，被配置為分別從第一視頻流、第二視頻流和音頻流獲得第一視圖的視頻數(shù)據(jù)、第二視圖的視頻數(shù)據(jù)以及對象聲源的位置信息；

選擇器，被配置為選擇性地輸出第一視圖的視頻數(shù)據(jù)或者第二視圖的視頻數(shù)據(jù)；以及

渲染單元，被配置為基于對象聲源的位置信息將對象聲源的音頻數(shù)據(jù)映射到任何揚(yáng)聲器位置，

其中，當(dāng)通過選擇器選擇了第二視圖的視頻數(shù)據(jù)時(shí)，渲染單元以位置信息是基于第二視圖的方式使用基于位置校正信息校正的位置信息。

在本技術(shù)中，接收單元接收預(yù)定格式的容器，所述容器包括具有第一視圖的視頻數(shù)據(jù)的第一視頻流、具有第二視圖的視頻數(shù)據(jù)的第二視頻流，以及具有對象聲源的音頻數(shù)據(jù)和對象聲源的基于第一視圖的位置信息的音頻流。

獲取單元獲取用于將對象聲源的位置信息校正為基于第二視圖的位置信息的位置校正信息。例如，獲取單元可從音頻流的層、第二視頻流的層或容器的層獲取位置校正信息。進(jìn)一步地，例如，獲取單元可從網(wǎng)絡(luò)上的服務(wù)器獲取位置校正信息。

解碼單元分別從第一視頻流、第二視頻流和音頻流獲得第一視圖的視頻數(shù)據(jù)、第二視圖的視頻數(shù)據(jù)以及對象聲源的位置信息。選擇器選擇性地輸出第一視圖的視頻數(shù)據(jù)或第二視圖的視頻數(shù)據(jù)。

渲染單元在對象聲源的位置信息的基礎(chǔ)上，將對象聲源的音頻數(shù)據(jù)映射到任何揚(yáng)聲器位置。當(dāng)通過選擇器選擇了第二視圖的視頻數(shù)據(jù)時(shí)，渲染單元以位置信息基于第二視圖的方式使用基于位置校正信息校正的位置信息。

因此，在本技術(shù)中，當(dāng)選擇了第二視圖的視頻數(shù)據(jù)時(shí)，以位置信息基于第二視圖的方式使用在位置校正信息的基礎(chǔ)上校正的位置信息來執(zhí)行渲染。因此，即使在其中執(zhí)行視圖切換的情況下，也可準(zhǔn)確地執(zhí)行3d音頻渲染。

本發(fā)明的效果

根據(jù)本技術(shù)，即使在接收側(cè)執(zhí)行視圖切換的情況下，也可準(zhǔn)確地執(zhí)行3d音頻渲染。注意的是，本文描述的有利效果僅通過示例的方式示出而非限制性的，并且可提供附加的有利效果。

附圖說明

圖1是示出了作為實(shí)施方式的發(fā)送/接收系統(tǒng)的配置示例框圖。

圖2是示出了通過攝像機(jī)進(jìn)行的視圖(視頻)拍攝以及通過麥克風(fēng)進(jìn)行的音頻采集的假設(shè)狀態(tài)的示例的圖表。

圖3是示出了視圖1(view1)和對象聲源之間的位置關(guān)系的圖表。

圖4是示了出視圖2(view2)和對象聲源之間的位置關(guān)系的圖表.

圖5是示出了用于校正(變換)關(guān)于對象聲源的位置信息s(r,θ,φ)的變換的示例的圖表。

圖6是示出了發(fā)送裝置的配置示例的框圖。

圖7是用于說明mpeg-h3d音頻的音頻幀的結(jié)構(gòu)的圖表。

圖8的(a)和圖8的(b)是分別示出對象元數(shù)據(jù)(object_metadata())的配置示例等等的圖表。

圖9是示出了多視圖位置信息1(multiview_position_information1())的配置示例(語法)的圖表。

圖10的(a)至圖10的(c)是分別示出配置信息“userdataconfig()”的配置示例的圖表。

圖11是示出了分量組描述符(component_group_descriptor)的結(jié)構(gòu)示例的圖表。

圖12是差值分量vp2和vp3被插入音頻流的層中的情況的傳送流ts的配置示例的圖表。

圖13是示出視頻序列(video_sequence)的配置示例的圖表。

圖14的(a)至圖14的(c)是每個(gè)示出用戶數(shù)據(jù)的配置示例等等的圖表。

圖15是示出多視圖位置信息2(multiview_position_information2())的配置示例的圖表。

圖16的(a)到圖16的(c)是每個(gè)示出mpeg4-avc和hevc中的用戶數(shù)據(jù)sei的配置示例等等的圖表。

圖17是示出了差值分量vp2和vp3被插入視頻流的層中的情況的傳送流ts的配置示例的圖表。

圖18是多視圖位置信息描述符的配置示例的圖表。

圖19是示出了差值分量vp2和vp3作為信令被插入容器(系統(tǒng))的層中的情況的傳送流ts的配置示例的圖表。

圖20是示出了發(fā)送裝置的另一個(gè)配置示例的框圖。

圖21是示出了位置校正信息流(基本流)的配置示例的圖表。

圖22是差值分量vp2和vp3作為位置校正信息流被插入的情況的傳送流ts的配置示例的圖表。

圖23是位置校正信息的發(fā)送系統(tǒng)的列表。

圖24是示出了接收裝置的配置示例的框圖。

圖25是示出了接收裝置的另一個(gè)配置示例的框圖。

圖26是示出了接收裝置的又一個(gè)配置示例的框圖。

具體實(shí)施方式

將在下面描述執(zhí)行本發(fā)明的方式(下文中稱為“實(shí)施方式”)。注意，按照以下順序給出描述。

1.實(shí)施方式

2.變形例

<1.實(shí)施方式>

[發(fā)送/接收系統(tǒng)的配置示例]

圖1示出了作為實(shí)施方式的發(fā)送/接收系統(tǒng)10的配置示例。發(fā)送/接收系統(tǒng)10由發(fā)送裝置100和接收裝置200組成。發(fā)送裝置100發(fā)送在網(wǎng)絡(luò)上的廣播波或分組上攜帶的傳送流ts。

該傳送流ts包括分別具有多個(gè)視圖的視頻數(shù)據(jù)的多個(gè)視頻流，以及具有一個(gè)或多個(gè)對象聲源的音頻數(shù)據(jù)和位置信息的音頻流。圖2示出了通過攝像機(jī)進(jìn)行的視圖(視頻)拍攝和通過麥克風(fēng)進(jìn)行的音頻采集的假設(shè)狀態(tài)的示例。假設(shè)在該實(shí)施方式中傳送流ts包括對應(yīng)于該假設(shè)狀態(tài)的視頻流和音頻流。

具體地，傳送流ts包括通過攝像機(jī)11對視圖進(jìn)行拍攝而獲得的視圖1(view1)上的視頻數(shù)據(jù)sv1的視頻流、通過攝像機(jī)12對視圖進(jìn)行拍攝而獲得的視圖2(view2)上的視頻數(shù)據(jù)sv2的視頻流，以及通過攝像機(jī)13對視圖進(jìn)行拍攝而獲得的視圖3(view3)上的視頻數(shù)據(jù)sv3的視頻流。

進(jìn)一步地，傳送流ts包括一個(gè)音頻流。該音頻流包括通過麥克風(fēng)21獲得的音頻數(shù)據(jù)(對象聲源1(object1)的音頻數(shù)據(jù))，以及基于麥克風(fēng)21的視圖1的位置信息(對象聲源1的位置信息)。進(jìn)一步的，該音頻流包括通過麥克風(fēng)22獲得的音頻數(shù)據(jù)(對象聲源2(object2)的音頻數(shù)據(jù))，以及基于麥克風(fēng)22的視圖1的位置信息(對象聲源2的位置信息)。

進(jìn)一步地，該傳送流ts包括視圖1和視圖2的位置和方向的差值分量。差值分量構(gòu)成用于將每個(gè)對象聲源的位置信息校正為基于視圖2的位置信息的位置校正信息。進(jìn)一步地，傳送流ts包括視圖1和視圖3的位置和方向的差值分量。差值分量構(gòu)成用于將每個(gè)對象聲源的位置信息校正為基于視圖3的位置信息的位置校正信息。將差值分量插入構(gòu)成第二視圖的視圖2或視圖3的音頻流的層、視頻流的層，或容器的層中。

接收裝置200接收從發(fā)送裝置100發(fā)送并且在網(wǎng)絡(luò)上的廣播波或分組上攜帶的傳送流ts。如上所述，該傳送流ts包括三個(gè)視頻流以及一個(gè)音頻流，所述三個(gè)視頻流分別包括視圖1的視頻數(shù)據(jù)、視圖2的視頻數(shù)據(jù)和視圖3的視頻數(shù)據(jù)，并且所述一個(gè)音頻流具有對象聲源1和對象聲源2的音頻數(shù)據(jù)和位置信息。

進(jìn)一步的，該傳送流ts包括作為用于將每個(gè)對象聲源的位置信息校正為基于視圖2的位置信息的位置校正信息的視圖1和視圖2的位置和方向的差值分量。進(jìn)一步的，該傳送流ts包括作為用于將每個(gè)對象聲源的位置信息校正為基于視圖3的位置信息的位置校正信息的視圖1和視圖3的位置和方向的差值分量。

接收裝置200選擇性地呈現(xiàn)對應(yīng)于視圖1、視圖2和視圖3的視頻數(shù)據(jù)的圖像。進(jìn)一步地，接收裝置200執(zhí)行渲染，用于在對象聲源的位置信息的基礎(chǔ)上將對象聲源的音頻數(shù)據(jù)映射到任何揚(yáng)聲器位置，并且再現(xiàn)音頻數(shù)據(jù)。在這種情況下，在選擇了視圖2和視圖3的情況下，使用通過差值分量校正的位置信息，從而能夠準(zhǔn)確地執(zhí)行渲染。

具體的，當(dāng)選擇了視圖2時(shí)，使用按照位置信息基于第二視圖的方式在視圖1和視圖2的位置和方向的差值分量的基礎(chǔ)上校正的位置信息。進(jìn)一步地，當(dāng)選擇了視圖3時(shí)，使用按照位置信息基于第三視圖的方式在視圖1和視圖3的位置和方向的差值分量的基礎(chǔ)上校正的位置信息。

圖3示出了視圖1(view1)和對象聲源之間的位置關(guān)系。對象聲源的位置可在視圖1的基礎(chǔ)上通過極坐標(biāo)s(r,θ,φ)表示，并且還可由正交坐標(biāo)p(x,y,z)表示。在該情況下，“r”表示半徑；“θ”表示仰角；以及“φ”表示方位角。

如上所述，發(fā)送裝置100發(fā)送包括對象聲源的音頻數(shù)據(jù)和位置信息的音頻流。該音頻流包括3d音頻的元數(shù)據(jù)。作為元數(shù)據(jù)，插入對象聲源的極坐標(biāo)s(r,θ,φ)的坐標(biāo)值和增益值。

圖4示出了視圖2(view2)和對象聲源之間的位置關(guān)系。對象聲源的位置可在視圖2的基礎(chǔ)上通過極坐標(biāo)s’(r’,θ’,φ’)表示，并且還可由正交坐標(biāo)p’(x’,y’,z’)表示。在這種情況下，視圖1和視圖2的位置和方向的差值分量包括空間位置的差值分量(δx、δy、δz)和方向的差值分量(δθ、δφ)。

接收裝置200可通過使用這些差值分量將關(guān)于對象聲源的位置信息s(r,θ,φ)校正(變換)為基于視圖2的位置信息s’(r’,θ’,φ’)。圖5示出了該情況下的變換的示例。注意，在該變換中，(x,y,z)對應(yīng)于對象聲源的正交坐標(biāo)p(x,y,z)的坐標(biāo)值并且(x1,y1,z1)對應(yīng)于差值分量(δx、δy、δz)。

注意，盡管省略了詳細(xì)描述，但是視圖3和對象聲源之間的位置關(guān)系類似于以上描述的位置關(guān)系。

[發(fā)送裝置的配置示例]

圖6示出了發(fā)送裝置100的配置示例。該發(fā)送裝置100包括控制單元111、視頻編碼器112、113和114、3d音頻編碼器115、系統(tǒng)編碼器116和發(fā)送單元117。控制單元111控制發(fā)送裝置100的每個(gè)單元件的操作。

視頻編碼器112、113和114分別接收關(guān)于視圖1的視頻數(shù)據(jù)sv1、關(guān)于視圖2的視頻數(shù)據(jù)sv2以及關(guān)于視圖3的視頻數(shù)據(jù)sv3，并且對sv1、sv2和sv3執(zhí)行編碼(諸如mpeg2、mpeg4-avc或hevc)，從而獲得視頻流。3d音頻編碼器115接收對象聲源1和2的對象數(shù)據(jù)，并且對對象數(shù)據(jù)執(zhí)行編碼(諸如mpeg-h3d音頻)，從而獲得音頻流。

在該情況下，對象聲源1的對象數(shù)據(jù)由對象音頻數(shù)據(jù)sa1和對象元數(shù)據(jù)meta1組成。該對象元數(shù)據(jù)meta1包括對象聲源1的極坐標(biāo)s(r,θ,φ)的坐標(biāo)值以及增益值。此外，對象聲源2的對象數(shù)據(jù)由對象音頻數(shù)據(jù)sa2和對象元數(shù)據(jù)meta2組成。該對象元數(shù)據(jù)meta2包括對象聲源2的極坐標(biāo)s(r,θ,φ)的坐標(biāo)值以及增益值。

系統(tǒng)編碼器116將分別從視頻編碼器112、113和114輸出的視頻流以及從3d音頻編碼器115輸出的音頻流分組化為pes分組，并且進(jìn)一步將分組變換為傳送分組并將該分組多路復(fù)用，從而獲得傳送流ts作為多路復(fù)用流。發(fā)送單元117將在網(wǎng)絡(luò)上的廣播波或分組上攜帶的傳送流ts發(fā)送到接收裝置200。

在該實(shí)施方式中，在發(fā)送裝置100中，將視圖1和視圖2的位置和方向的差值分量vp2(δx、δy、δz、δθ、δφ)以及視圖1和視圖3的位置和方向的差值分量(δx、δy、δz、δθ、δφ)插入(1)音頻流的層、(2)視頻流的層或(3)容器的層。在這種情況下，差值分量vp2構(gòu)成位置校正信息，用于將對象聲源1和2的位置信息校正為基于視圖2的位置信息。進(jìn)一步地，差值分量vp3構(gòu)成位置校正信息，以用于將對象聲源1和2的位置信息校正為基于視圖3的位置信息。

“(1)其中將差值分量插入音頻流的層中的情況”

將描述其中將差值分量vp2和vp3插入音頻流的層中的情況。在這種情況下，3d音頻編碼器115將差值分量vp2和vp3作為位置校正信息插入音頻流的層中。在這種情況下，將差值分量插入元數(shù)據(jù)區(qū)域或用戶數(shù)據(jù)區(qū)域中。

圖7示出了mpeg-h3d音頻的音頻幀的結(jié)構(gòu)。該音頻幀由多個(gè)mpeg音頻流分組組成。每個(gè)mpeg音頻流分組由報(bào)頭和載荷組成。

報(bào)頭具有諸如分組類型、分組標(biāo)簽和分組長度的信息。在載荷中設(shè)置了由報(bào)頭的分組類型定義的信息。在該載荷信息中，存在對應(yīng)于同步起始碼的“sync”、表示實(shí)際數(shù)據(jù)的“frame”以及指示“frame”的配置的“config”。

對象聲源的對象數(shù)據(jù)由如上所述的對象音頻數(shù)據(jù)和對象元數(shù)據(jù)組成。這些數(shù)據(jù)段包括在“frame”中。在這種情況下，包括作為單信道元素(sce)的編碼樣本數(shù)據(jù)的對象音頻數(shù)據(jù)。進(jìn)一步地，包括作為擴(kuò)展元素(ext_element)的對象元數(shù)據(jù)。還可定義包括用戶數(shù)據(jù)的擴(kuò)展元素(ext_element)。

在將差值分量vp2和vp3插入至元數(shù)據(jù)區(qū)域中的情況下，將差值分量vp2和vp3插入包括對象元數(shù)據(jù)的擴(kuò)展元素(ext_element)中。

圖8的(a)示出了對象元數(shù)據(jù)(object_metadata())的結(jié)構(gòu)示例(syntax)。圖8的(b)示出了包括在對象元數(shù)據(jù)中的對象元數(shù)據(jù)高效(object_metadata_efficient())的配置示例(syntax)。在對象元數(shù)據(jù)高效的內(nèi)編碼元數(shù)據(jù)高效(objectmetadataefficient)(intracoded_object_metadata_efficient())中，設(shè)置具有差值分量vp2和vp3的多視圖位置信息1(multiview_position_information1())。

圖9示出了多視圖位置信息1(multiview_position_information1())的配置示例(語法)。“process_multiview”的1位字段是指示多視圖的標(biāo)志。在多視圖的情況下，存在“multiview_count”的8位字段。該字段指示視圖的總數(shù)目。在圖2示出的示例中，視圖的總數(shù)目為“3”。

進(jìn)一步地，存在對應(yīng)于“總數(shù)目-1”的視圖的差值分量的多個(gè)字段，即除了視圖1(view1)之外的視圖的差值分量的多個(gè)字段。在圖2示出的示例中，存在視圖2(view2)和視圖3(view3)的差值分量vp2和vp3的字段。差值分量的字段由“δx”的8位字段、“δy”的8位字段、“δz”的8位字段、“δθ”的9位字段和“δφ”的7位字段組成。

“δx”的字段指示δx，即以視圖1(view1)為中心作為原點(diǎn)的目標(biāo)視圖的x坐標(biāo)的值?！唉膟”的字段指示δy，即以視圖1(view1)為中心作為原點(diǎn)的目標(biāo)視圖的y坐標(biāo)的值?！唉膠”的字段指示δz，即以視圖1(view1)為中心作為原點(diǎn)的目標(biāo)視圖的z坐標(biāo)的值?！唉摩取钡淖侄沃甘睛摩?，即θ相對于視圖1(view1)的差值?！唉摩铡钡淖侄沃甘睛摩眨处障鄬τ谝晥D1(view1)的差值。

在將差值分量vp2和vp3插入用戶數(shù)據(jù)區(qū)域中的情況下，將差值分量vp2和vp3插入至包括用戶數(shù)據(jù)的擴(kuò)展元素(ext_element)中。

在這種情況下，可重新定義包括作為擴(kuò)展元素(ext_element)的用戶數(shù)據(jù)(user_data())的元素(ext_userdata)。與這些一起，將關(guān)于元素(ext_userdata)的配置信息“userdataconfig()”重新定義為“config”。

圖10的(a)示出了配置信息“userdataconfig()”的配置示例(語法)?！皍serdata_identifier”的32位字段通過在初步定義的序列中設(shè)置值來指示用戶數(shù)據(jù)。“userdata_frame_length”的16位字段指示用戶數(shù)據(jù)(user_data())的字節(jié)的數(shù)目。

圖10的(b)示出了用戶數(shù)據(jù)(user_data())的配置示例(語法)。通過將“0x47413934”(“ga94”)插入“userdata_data_identifier”的32位字段中，“atsc_user_data()”包括在“user_structure()”的字段中。圖10(c)示出了“atsc_user_data()”的配置示例(語法)。

例如，通過將指示多視圖位置信息1(multiview_position_information1())的“0x07”插入至“user_data_type_code”的8位字段中，多視圖位置信息1(multiview_position_information1())(參見圖9)包括在“user_data_type_structure()”的字段中。

注意，在將差值分量vp2和vp3插入如上所述的音頻流的層中的情況下，系統(tǒng)編碼器116將指示分別對應(yīng)于多個(gè)差值分量的視頻流的信息插入容器(系統(tǒng))的層中。例如，系統(tǒng)編碼器116通過使用分量組描述符(component_group_descriptor)將差值分量插入至對應(yīng)于音頻流的音頻基本流環(huán)中。

圖11示出了分量組描述符的配置示例(語法)。“descriptor_tag”的8位字段指示描述符類型。在這種情況下，8位字段指示分量組描述符。“descriptor_length”的8位字段指示描述符的長度(大小)，并且由隨后的字節(jié)的數(shù)目指示描述符的長度。

“component_group_type”的4位字段指示分量組的類型。在這種情況下，4位字段被設(shè)置為“0”，其指示與3d音頻多視圖相關(guān)的視頻/音頻分量組?！皀um_video”的4位字段指示視頻流(視頻基本流)的數(shù)目。進(jìn)一步地，“component_tag”的8位字段以for循環(huán)重復(fù)對應(yīng)于視頻流的數(shù)目的次數(shù)?！癱omponent_tag”的該字段指示相關(guān)視頻分量的分量標(biāo)簽(component_tag)的值。

在該實(shí)施方式中，順序地描述了包括視圖1(view1)的視頻數(shù)據(jù)、視圖2(view2)的視頻數(shù)據(jù)和視圖3(view3)的視頻數(shù)據(jù)的視頻流的分量標(biāo)簽的值。另外，在對應(yīng)于每個(gè)視頻流的視頻基本流環(huán)中，設(shè)置了信息段(諸如分組標(biāo)識(shí)符(pid)、分量標(biāo)簽(component_tag)和流類型(stream_type))。利用這種配置，指定包括視圖2(view2)的視頻數(shù)據(jù)和視圖3(view3)的視頻數(shù)據(jù)的視頻流。因此，指定了分別對應(yīng)于將被插入音頻流的層中的差值分量vp2和vp3的視頻流。

“num_audio”的8位字段指示音頻流(音頻基本流)的數(shù)目。進(jìn)一步地，“component_tag”的8位字段以for循環(huán)重復(fù)對應(yīng)于音頻流的數(shù)目的次數(shù)。這種“component_tag”的字段指示相關(guān)音頻分量的分量標(biāo)簽(component_tag)的值。

圖12示出了將差值分量vp2和vp3插入至音頻流的層中的情況的傳送流ts的配置示例。在這種情況下，在傳送流ts中存在包括視圖1(view1)的視頻數(shù)據(jù)的視頻流的pes分組“videopes1”、包括視圖2(view2)的視頻數(shù)據(jù)的視頻流的pes分組“videopes2”和包括視圖3(view3)的視頻數(shù)據(jù)的視頻流的pes分組“videopes3”。

進(jìn)一步地，在傳送流ts中，存在音頻流的pes分組“audiopes”。將以上多視圖位置信息1(multiview_position_information1())(參見圖9)插入音頻流的pes分組的pes載荷中。

進(jìn)一步地，傳送流ts包括作為節(jié)目特定信息(psi)的節(jié)目映射表(pmt)。該psi為指示傳送流中所包括的每個(gè)基本流所屬的節(jié)目的信息。在pmt中，存在描述與整個(gè)節(jié)目相關(guān)的信息的節(jié)目描述符。

進(jìn)一步地，在該pmt中，存在具有與每個(gè)基本流相關(guān)的信息的基本流環(huán)。在該配置示例中，存在分別對應(yīng)于三個(gè)視頻流的視頻基本流環(huán)(視頻es環(huán))，并且存在對應(yīng)于音頻流的音頻基本流環(huán)(音頻es環(huán))。

在每個(gè)環(huán)中，設(shè)置了信息段(諸如分組標(biāo)識(shí)符(pid)、分量標(biāo)簽(component_tag)和流類型(stream_type))。進(jìn)一步地，在音頻基本流環(huán)中，設(shè)置了上述分量組標(biāo)識(shí)符(component_group_descriptor)(參見圖11)。

“(2)將差值分量插入視頻流的層中的情況”

將描述將差值分量vp2和vp3插入至視頻流的層中的情況。在這種情況下，視頻編碼器113將差值分量vp2作為位置校正信息插入至視頻流的層中。進(jìn)一步地，在這種情況下，視頻編碼器114將差值分量vp3作為位置校正信息插入視頻流的層中。在這種情況下，將差值分量插入用戶數(shù)據(jù)區(qū)域中。

首先，將描述執(zhí)行mpeg2編碼的情況。圖13示出了視頻序列(video_sequence)的配置示例(語法)。在該視頻序列(video_sequence)中，存在extension_and_user_data(2)的字段。圖14的(a)示出了extension_and_user_data(2)的配置示例(語法)。

在該extension_and_user_data(2)中，存在用戶數(shù)據(jù)(user_data())的字段。圖14的(b)示出了該用戶數(shù)據(jù)的配置示例(語法)。通過將“0x47413934”("ga94")插入“user_data_identifier”的32位字段中，“atsc_user_data()”包括在“user_structure()”的字段中。

圖14的(c)示出了“atsc_user_data()”的配置示例(語法)。例如，通過將指示多視圖位置信息2(multiview_position_information2())的“0x07”插入“user_data_type_code”的8位字段中，多視圖位置信息2(multiview_position_information2())包括在“user_data_type_structure()”的字段中。

圖15示出多視圖位置信息2(multiview_position_information2())的配置示例(語法)?！皃rocess_multiview”的位字段為指示多視圖的標(biāo)志。在多視圖的情況下，存在差值分量字段。

在被插入到包括視圖2(view2)的視頻數(shù)據(jù)的視頻流的層中的多視圖位置信息2中，存在差值分量vp2的字段。在被插入到包括視圖3(view3)的視頻數(shù)據(jù)的視頻流的層中的多視圖位置信息2中，存在差值分量vp3的字段。

差值分量字段由“δx”的8位字段、“δy”的8位字段、“δz”的8位字段、“δθ”的9位字段和“δφ”的7位字段組成。

“δx”的字段指示δx，即以視圖1(view1)為中心作為原點(diǎn)的目標(biāo)視圖的x坐標(biāo)的值?！唉膟”的字段指示δy，即以視圖1(view1)為中心作為原點(diǎn)的目標(biāo)視圖的y坐標(biāo)的值。“δz”的字段指示δz，即以視圖1(view1)為中心作為原點(diǎn)的目標(biāo)視圖的z坐標(biāo)的值。“δθ”的字段指示δθ，即θ相對于視圖1(view1)的差值?！唉摩铡钡淖侄沃甘睛摩眨处障鄬τ谝晥D1(view1)的差值。

接下來，將描述其中執(zhí)行諸如mpeg4-avc或hevc的情況。圖16的(a)示出用戶數(shù)據(jù)sei的配置示例(語法)。通過將“0x47413934”(“ga94”)插入“user_identifier”的32位字段中，“atsc1_data()”被包括在“user_structure()”的字段中。

圖16的(b)示出“atsc1_data()”的配置示例(syntax)。例如，通過將指示多視圖位置信息2(multiview_position_information2())的“0x07”插入“user_data_type_code”的8位字段中，多視圖位置信息2(multiview_position_information2())被包含在“user_data_type_structure()”的字段中。

圖17示出了將差值分量vp2和vp3插入視頻流的層中的情況的傳送流ts的配置示例。在圖17中，根據(jù)需要省略對應(yīng)于圖12中所示那些的單元件的描述。

將以上多視圖位置信息2(multiview_position_information2())(參見圖15)插入包括視圖2(view2)的視頻數(shù)據(jù)的pes分組“videopes2”中。進(jìn)一步地，將以上多視圖位置信息2(multiview_position_information2())(參見圖15)插入包括視圖3(view3)的視頻數(shù)據(jù)的pes分組“videopes2”中。

注意，在將差值分量vp2和vp3插入視頻流的層中的情況下，差值分量和視頻流之間的關(guān)聯(lián)性是清楚的。因此，在這種情況下，不需要將分量組描述符(component_group_descriptor)插入容器(系統(tǒng))的層中。

“其中將差值分量插入容器(系統(tǒng))的層中的情況”

將描述其中將差值分量vp2和vp3插入容器(系統(tǒng))的層中的情況。在這種情況下，將差值分量作為信令信息或位置校正信息流插入。

第一，將描述將差值分量vp2和vp3作為信令插入的情況。在這種情況下，系統(tǒng)編碼器116將多視圖位置信息描述符(multiview_position_information_descriptor)插入對應(yīng)于視圖2(view2)和視圖3(view3)的視頻流的視頻基本流環(huán)中。

圖18示出多視圖位置信息描述符的配置示例(語法)?！癲escriptor_tag”的8位字段指示描述符類型。在這種情況下，8位字段指示多視圖位置信息描述符?！癲escriptor_length”的8位字段指示描述符的長度(大小)并且描述符的長度由隨后位的數(shù)目指示。

“pts_flag”的1位字段為指示對應(yīng)于對象聲源的所獲取的位置信息的時(shí)間信息(pts)存在的標(biāo)志信息。當(dāng)1位字段指示“1”時(shí)，33位時(shí)間信息存在。進(jìn)一步地，在該描述符中，存在差值分量字段。

在將被插入對應(yīng)于視圖2(view2)的視頻流的視頻基本流環(huán)中的多視圖位置信息描述中，存在差值分量vp2的字段。進(jìn)一步地，在將被插入對應(yīng)于視圖3(view3)的視頻流的視頻基本流環(huán)中的多視圖位置信息描述中，存在差值分量vp3的字段。

差值分量字段由“δx”的8位字段、“δy”的8位字段、“δz”的8位字段、“δθ”的9位字段和“δφ”的7位字段組成。

“δx”的字段指示δx，即以視圖1(view1)為中心作為原點(diǎn)的目標(biāo)視圖的x坐標(biāo)的值?！唉膟”的字段指示δy，即以視圖1(view1)為中心作為原點(diǎn)的目標(biāo)視圖的y坐標(biāo)的值?！唉膠”的字段指示δz，即以視圖1(view1)為中心作為原點(diǎn)的目標(biāo)視圖的z坐標(biāo)的值?！唉摩取钡淖侄沃甘睛摩龋处认鄬τ谝晥D1(view1)的差值?！唉摩铡钡淖侄沃甘睛摩?，即φ相對于視圖1(view1)的差值。

圖19示出了將差值分量vp2和vp3作為信令插入容器(系統(tǒng))的層中的情況的傳送流ts的配置示例。在圖19中，根據(jù)需要省略對應(yīng)于圖12中所示那些的單元件的描述。

在對應(yīng)于視圖2(view2)的視頻流的視頻基本流環(huán)中，插入其中存在以上差值分量vp2的多視圖位置信息描述符。進(jìn)一步地，在對應(yīng)于視圖3(view3)的視頻流的視頻基本流環(huán)中，插入其中存在以上差值分量vp3的多視圖位置信息描述符。

接下來，將描述其中作為位置校正信息流插入差值分量vp2和vp3的情況。圖20示出在該情況下的發(fā)送裝置100的配置示例。在圖20中，通過相同的參考數(shù)字描述了對應(yīng)于圖6中示出的那些的單元件，并且根據(jù)需要省略其詳細(xì)描述。

該發(fā)送裝置100包括位置校正信息編碼器118和119。位置校正信息編碼器118對差值分量vp2執(zhí)行編碼，并生成位置校正信息流。進(jìn)一步地，位置校正信息編碼器118對差值分量vp3執(zhí)行編碼，并生成位置校正信息流。

系統(tǒng)編碼器116將分別從視頻編碼器112、113和114輸出的視頻流、從3d音頻編碼器115輸出的音頻流以及從位置校正信息編碼器118和119輸出的位置校正信息流分組化為pes分組，并且進(jìn)一步將所述分組變換為傳送分組以及多路復(fù)用所述分組，從而獲得傳送流ts作為多路復(fù)用流。

圖21示出位置校正信息流(基本流)的配置示例(語法)?！癲ata_identifier”的8位字段是指示位置校正信息的pes數(shù)據(jù)的值。“pes_data_packet_header_length”的4位字段指示“pes_data_private_data_byte”的字段的長度。將依賴于服務(wù)的私密數(shù)據(jù)插入“pes_data_private_data_byte”的字段中。

進(jìn)一步地，在該位置校正信息流中，存在相應(yīng)視圖的差值分量字段。差值分量字段由“δx”的8位字段、“δy”的8位字段、“δz”的8位字段、“δθ”的9位字段和“δφ”的7位字段組成。

“δx”的字段指示δx，即以視圖1(view1)為中心作為原點(diǎn)的目標(biāo)視圖的x坐標(biāo)的值?！唉膟”的字段指示δy，即以視圖1(view1)為中心作為原點(diǎn)的目標(biāo)視圖的y坐標(biāo)的值。“δz”的字段指示δz，即以視圖1(view1)為中心作為原點(diǎn)的目標(biāo)視圖的z坐標(biāo)的值?！唉摩取钡淖侄沃甘睛摩龋处认鄬τ谝晥D1(view1)的差值?！唉摩铡钡淖侄沃甘睛摩?，即φ相對于視圖1(view1)的差值。

圖22示出了將差值分量vp2和vp3作為位置校正信息流插入的情況的傳送流ts的配置示例。在圖22中，根據(jù)需要省略對應(yīng)于圖12中示出的那些的單元件的描述。

在傳送流ts中，存在包括與視圖2(view2)相關(guān)的差值分量vp2的位置校正信息流的pes分組“positionpes1”、包括與視圖3(view3)相關(guān)的差值分量vp3的位置校正信息流的pes分組“positionpes3”。進(jìn)一步地，在pmt中，存在分別對應(yīng)于兩個(gè)位置校正信息流的位置校正信息/基本流環(huán)(位置es環(huán))。

圖23是以上位置校正信息的發(fā)送系統(tǒng)的列表。(1)其中將差值分量插入音頻流的層中的情況具有例如“音頻校正位置信息和位置校正信息被添加到音頻信號(hào)。僅從音頻信號(hào)將信息發(fā)送到位置校正操作電路是足夠的。由于信息被包含在相同的音頻信號(hào)中，保證了這些信號(hào)的同步”的此類特征。

進(jìn)一步地，(2)其中將差值分量插入視頻流的層中的情況具有例如“將相應(yīng)位置校正信息添加到每個(gè)視頻信號(hào)。僅發(fā)送每個(gè)視頻所需的信息，這阻止了額外信息(將被發(fā)送的信息量是小的)的發(fā)送。在其中在再次發(fā)送中選擇了視頻的情況下，直接發(fā)送位置校正信息，這消除了額外處理”的此類特征。

進(jìn)一步地，(3)其中將差值分量插入容器(系統(tǒng))的層中的情況具有此類特征，即，例如，當(dāng)作為信令插入差值分量時(shí)，“可通過作為描述符發(fā)送信息來區(qū)分系統(tǒng)的層中所需的信息”；例如，當(dāng)作為位置校正信息流插入差值分量時(shí)，“作為對應(yīng)于每個(gè)視頻信號(hào)的獨(dú)立流發(fā)送位置校正信息以及時(shí)間線。在其中在再次發(fā)送中選擇了視頻的情況下，可選擇和發(fā)送相應(yīng)的位置校正信息”。

圖6中簡單示出了發(fā)送裝置100的操作。關(guān)于視圖1的視頻數(shù)據(jù)sv1、關(guān)于視圖2的視頻數(shù)據(jù)sv2和關(guān)于視圖3的視頻數(shù)據(jù)sv3被分別提供給視頻編碼器112、113和114。視頻編碼器112、113和114對視頻數(shù)據(jù)sv1、sv2和sv3中的每個(gè)執(zhí)行編碼，諸如mpeg2、mpeg4-avc或hevc，從而獲得視頻流。

將與對象聲源1相關(guān)的對象數(shù)據(jù)sa1和meta1以及與對象聲源2相關(guān)的對象數(shù)據(jù)sa2和meta2提供到3d音頻編碼器115。3d音頻編碼器115對與對象聲源1和2相關(guān)的對象數(shù)據(jù)執(zhí)行例如mpeg-h3d音頻編碼，從而獲得音頻流。通過視頻編碼器112、113和114獲得的視頻流被提供給系統(tǒng)編碼116。通過3d音頻編碼器115獲得的音頻流被提供給系統(tǒng)編碼116。系統(tǒng)編碼器116將從編碼器提供的流分組化為pes分組，并且進(jìn)一步將所述分組變換為傳送分組并且多路復(fù)用所述分組，從而獲得傳送流作為多路復(fù)用流。

通過系統(tǒng)編碼器116獲得的傳送流ts被提供給發(fā)送單元117。發(fā)送單元117將在網(wǎng)絡(luò)上在廣播波或分組上承載的傳送流ts發(fā)送給接收裝置200。

進(jìn)一步地，在發(fā)送裝置100中，視圖1和視圖2的位置和方向的差值分量vp2以及視圖1和視圖3的位置和方向的差值分量vp3被插入(1)音頻流的層中、(2)視頻流的層中或者(3)容器的層中，并且被發(fā)送到接收裝置200。

[接收裝置的配置示例]

圖24示出接收裝置200的配置示例。該接收裝置200包括控制單元211、接收單元212、系統(tǒng)解碼器213、選擇器214、視頻解碼器215、顯示單元216、3d音頻解碼器217、3d音頻渲染器218和揚(yáng)聲器系統(tǒng)219?？刂茊卧?11控制接收裝置200的每個(gè)單元件的操作。

接收單元212接收從發(fā)送裝置100發(fā)送并且在網(wǎng)絡(luò)上在廣播波或分組上承載的傳送流ts。該傳送流ts包括分別具有視圖1的視頻數(shù)據(jù)、視圖2的視頻數(shù)據(jù)和視圖3的視頻數(shù)據(jù)的三個(gè)視頻流，以及具有對象聲源1和對象聲源2的音頻數(shù)據(jù)和位置信息的音頻流(參見圖2)。

系統(tǒng)解碼器213從傳送流ts提取分別具有視圖1的視頻數(shù)據(jù)、視圖2的視頻數(shù)據(jù)和視圖3的視頻數(shù)據(jù)的三個(gè)視頻流的分組，并重新配置所述三個(gè)視頻流。進(jìn)一步地，系統(tǒng)解碼器213從傳送流ts提取音頻流的分組，并重新配置音頻流。

系統(tǒng)解碼器213從傳送流ts提取各種系統(tǒng)，諸如描述符信息，并將所述信息發(fā)送到控制單元211。各種信息包括其中將差值分量vp2和vp3作為信令插入的情況的多視圖位置信息描述符(multiview_position_information_descriptor)(參見圖18)的信息。進(jìn)一步地，各種信息包括其中將差值分量插入音頻流的層中的情況的分量組描述符(component_group_descriptor)(參見圖18)的信息。

選擇器214在通過控制單元211進(jìn)行的選擇控制的基礎(chǔ)上，根據(jù)用戶進(jìn)行的視圖選擇來選擇地輸出由系統(tǒng)解碼器213重新配置的三個(gè)視頻流中的任何一個(gè)。視頻解碼器215對從選擇器214輸出的視頻流進(jìn)行解碼處理，并獲得用戶選擇地視圖的視頻數(shù)據(jù)。

進(jìn)一步地，視頻解碼器215提取被插入視頻流的層中的各種信息，并將所述信息發(fā)送給控制單元211。各種信息包括其中將差值分量vp2和vp3插入視頻流的層中的情況的多視圖位置信息2(multiview_position_information2())(參見圖15)的信息。

顯示單元216包括顯示面板，諸如液晶顯示器(lcd)或有機(jī)電致發(fā)光顯示器(有機(jī)el顯示器)。顯示單元216對通過視頻解碼器215獲得的視頻數(shù)據(jù)進(jìn)行縮放處理、圖像質(zhì)量調(diào)整處理等等，從而獲得顯示視頻數(shù)據(jù)，并在顯示面板上顯示對應(yīng)于顯示視頻數(shù)據(jù)的圖像。

3d音頻解碼器217對系統(tǒng)解碼器213重新配置的音頻流進(jìn)行解碼處理，并獲得與對象聲源1和2相關(guān)的對象數(shù)據(jù)。

在這種情況下，與對象聲源1相關(guān)的對象數(shù)據(jù)由對象音頻數(shù)據(jù)sa1和對象元數(shù)據(jù)meta1組成，并且對象元數(shù)據(jù)meta1包括對象聲源1的極坐標(biāo)s(r,θ,φ)的坐標(biāo)值和增益值。進(jìn)一步地，與對象聲源2相關(guān)的對象數(shù)據(jù)由對象音頻數(shù)據(jù)sa2和對象元數(shù)據(jù)meta2組成，并且對象元數(shù)據(jù)meta2包括對象聲源2的極坐標(biāo)s(r,θ,φ)的坐標(biāo)值和增益值。

進(jìn)一步地，3d音頻解碼器217提取被插入音頻流的層中的各種信息，并將所述信息發(fā)送到控制單元211。各種信息包括其中將差值分量vp2和vp3插入音頻流的層中的情況的多視圖位置信息1(multiview_position_information1())(參見圖9)的信息。

3d音頻渲染器218在與3d音頻解碼器217獲得的對象聲源1和2相關(guān)的對象數(shù)據(jù)(音頻數(shù)據(jù)、位置信息)的基礎(chǔ)上，獲得與揚(yáng)聲器系統(tǒng)219兼容的預(yù)定信道的音頻數(shù)據(jù)。在這種情況下，3d音頻渲染器218是指揚(yáng)聲器設(shè)置信息，并且在位置信息的基礎(chǔ)上將每個(gè)對象聲源的音頻數(shù)據(jù)映射到任何位置處的揚(yáng)聲器。

3d音頻渲染器218包括位置校正操作單元218a。在選擇了視圖1的情況下，3d音頻渲染器218按照其原先的樣子使用被包含在對象數(shù)據(jù)(音頻數(shù)據(jù)、位置信息)中的位置信息(r,θ,φ)，所述對象數(shù)據(jù)與通過3d音頻解碼器217獲得的對象聲源1和2相關(guān)。

在選擇了視圖2或視圖3的情況下，3d音頻渲染器218使用在通過位置校正操作單元218a校正被包括在對象數(shù)據(jù)(音頻數(shù)據(jù)、位置信息)中的位置信息(r,θ,φ)之后獲得的位置信息(r’,θ’,φ’)，所述對象數(shù)據(jù)與通過使用圖5中的變換由3d音頻解碼器217獲得的對象聲源1和2相關(guān)。

在這種情況下，在其中選擇了視圖2的情況下，位置校正操作單元218a通過使用視圖1和視圖2的位置和方向的差值分量vp2(δx,δy,δz,δθ,δφ)將基于視圖1的位置信息(r,θ,φ)校正(變換)為基于視圖2的位置信息(r’,θ’,φ’)。進(jìn)一步地，在其中選擇了視圖3的情況下，位置校正操作單元218a通過使用視圖1和視圖3的位置和方向的差值分量vp3(δx,δy,δz,δθ,δφ)將基于視圖1的位置信息(r,θ,φ)校正(變換)為基于視圖3的位置信息(r’,θ’,φ’)。

揚(yáng)聲器系統(tǒng)219在3d音頻渲染器218獲得的預(yù)定信道的音頻數(shù)據(jù)的基礎(chǔ)上，獲得對應(yīng)于顯示單元216的顯示圖像的音頻輸出。

簡單地示出了圖24所示的接收裝置200的操作。接收單元212接收從發(fā)送裝置100發(fā)送并在網(wǎng)絡(luò)上在廣播波或分組上承載的傳送流ts。

該傳送流ts包括分別具有視圖1的視頻數(shù)據(jù)、視圖2的視頻數(shù)據(jù)和視圖3的視頻數(shù)據(jù)的三個(gè)視頻流，以及具有對象聲源1和對象聲源2的音頻數(shù)據(jù)和位置信息的音頻流。該傳送流ts被提供給系統(tǒng)解碼器213。

系統(tǒng)213從傳送流ts提取分別具有視圖1的視頻數(shù)據(jù)、視圖2的視頻數(shù)據(jù)和視圖3的視頻數(shù)據(jù)的三個(gè)視頻流的分組，并重新配置三個(gè)視頻流。進(jìn)一步地，系統(tǒng)解碼器213從傳送流ts提取音頻流的分組，并重新配置音頻流。

進(jìn)一步地，系統(tǒng)解碼器213從傳送流ts提取各種信息，諸如描述符信息，并將所述信息發(fā)送給控制單元211。各種信息還包括其中將差值分量vp2和vp3作為信令插入的情況的多視圖位置信息描述符(參見圖18)的信息。各種信息還包括其中將差值分量插入音頻流的層中的情況的分量組描述符(參見圖11)的信息。

將通過系統(tǒng)解碼器213重新配置的三個(gè)視頻流提供給選擇器214。在選擇器214中，在通過控制單元211進(jìn)行的選擇控制的基礎(chǔ)上，根據(jù)用戶進(jìn)行的視圖選擇來選擇地輸出三個(gè)視頻流中的任何一個(gè)。將從選擇器214輸出的視頻流提供到視頻解碼器215。視頻解碼器215對視頻流進(jìn)行解碼處理，并獲得由用戶選擇地視圖的視頻數(shù)據(jù)。

進(jìn)一步地，視頻解碼器215提取被插入視頻流的層中的各種信息，并將所述信息發(fā)送到控制單元211。各種信息還包括其中將差值分量vp2和vp3插入視頻流的層中的情況的多視圖位置信息2(參見圖15)的信息。

將通過視頻解碼器215獲得的視頻數(shù)據(jù)提供給顯示單元216。顯示單元216對通過視頻解碼器215獲得的視頻數(shù)據(jù)進(jìn)行縮放處理、圖像質(zhì)量調(diào)整處理等等，從而獲得顯示視頻數(shù)據(jù)，并在顯示面板上顯示對應(yīng)于顯示視頻數(shù)據(jù)的圖像。

進(jìn)一步地，將通過系統(tǒng)解碼器213重新配置的音頻流提供給3d音頻解碼器217。3d音頻解碼器217對通過系統(tǒng)解碼器213重新配置的音頻流進(jìn)行解碼處理，從而獲得與對象聲源1和2相關(guān)的對象數(shù)據(jù)。

進(jìn)一步地，3d音頻解碼器217提取被插入音頻流的層中的各種信息，并將所述信息發(fā)送給控制單元211。各種信息還包括其中差值分量vp2和vp3被插入音頻流的層中的情況的多視圖位置信息1(參見圖9)的信息。

將通過3d音頻解碼器217獲得的對象聲源1和2的對象數(shù)據(jù)提供給3d音頻渲染器218。3d音頻渲染器218在與對象聲源1和2相關(guān)的對象數(shù)據(jù)(音頻數(shù)據(jù)、位置信息)的基礎(chǔ)上，獲得與揚(yáng)聲器系統(tǒng)219兼容的預(yù)定信道的音頻數(shù)據(jù)。在這種情況下，3d音頻渲染器218是指揚(yáng)聲器設(shè)置信息，并且在位置信息的基礎(chǔ)上將每個(gè)對象聲源的音頻數(shù)據(jù)映射到任何位置處的揚(yáng)聲器。

在這種情況下，在3d音頻渲染器218中，在其中選擇了視圖2的情況下，通過從以上容器的層、視頻流的層或音頻流的層提取的差值分量(δx,δy,δz,δθ,δφ)來校正并使用與通過3d音頻解碼器217獲得的對象聲源1和2相關(guān)的對象數(shù)據(jù)(音頻數(shù)據(jù)、位置信息)中所包括的位置信息(r,θ,φ)。盡管省略了詳細(xì)描述，但對于其中選擇了視圖3的情況也是適用的。

將從3d音頻渲染器218輸出的預(yù)定信道的音頻數(shù)據(jù)提供給揚(yáng)聲器系統(tǒng)219。在揚(yáng)聲器系統(tǒng)219中，在預(yù)定信道的音頻數(shù)據(jù)的基礎(chǔ)上獲得對應(yīng)于顯示單元216的顯示圖像的音頻輸出。

圖25示出了將差值分量vp2和vp3作為位置校正信息流插入容器的層中的情況的接收裝置200的配置示例。在圖25中，通過相同的參考數(shù)字指示對應(yīng)于圖24中示出的那些的單元件，并且根據(jù)需要省略其詳細(xì)描述。

系統(tǒng)解碼器213從傳送流ts獲得包括差值信息vp2和vp3的兩個(gè)位置校正信息流。將包括差值信息vp2的位置校正信息流提供給位置校正信息解碼器221。位置校正信息解碼器221對位置校正信息流進(jìn)行解碼，并獲得差值分量vp2。進(jìn)一步地，將包括差值信息vp3的位置校正信息流提供給位置校正信息解碼器223。位置校正信息解碼器223對位置校正信息流進(jìn)行解碼，并獲得差值分量vp3。

這些差值分量vp2和vp3被提供給3d音頻渲染器218。3d音頻渲染器218是指揚(yáng)聲器設(shè)置信息，并且在位置信息(r,θ,φ)的基礎(chǔ)上將每個(gè)對象聲源的音頻數(shù)據(jù)映射到任何位置的揚(yáng)聲器。在這種情況下，在其中選擇了視圖2和視圖3的情況下，分別在差值分量vp2和vp3的基礎(chǔ)上校正(變換)和使用關(guān)于對象聲源1和2的位置信息(r’,θ’,φ’)。

如上所述，在圖1中示出的發(fā)送/接收系統(tǒng)10中，發(fā)送裝置100將位置校正信息(差值分量vp2和vp3)插入音頻流的層中、視頻流的層中或容器的層中，并發(fā)送所述位置校正信息，所述位置校正信息用于將基于每個(gè)對象聲源的視圖1的位置信息(r,θ,φ)校正(變換)為基于視圖2和視圖3的位置信息(r’,θ’,φ’)。因此，在接收側(cè)執(zhí)行視圖2和視圖3的切換的情況下，可使用對象聲源的校正的位置信息，從而使得準(zhǔn)確地執(zhí)行3d音頻渲染是可能的。

<2.變形例>

注意，以上描述的實(shí)施方式示出其中除了視圖1以外，存在視圖2和視圖3以及存在對象聲源1和2的示例。在本技術(shù)中，視圖的數(shù)目和對象聲源的數(shù)目不限于示例。

進(jìn)一步地，以上描述的實(shí)施方式示出其中位置校正信息指示差值分量(δx,δy,δz,δθ,δφ)的示例。然而，在本技術(shù)中，位置校正信息不限于差值分量(δx,δy,δz,δθ,δφ)。

進(jìn)一步地，以上描述的實(shí)施方式示出從音頻流的層、視頻流的層或容器的層獲取差值分量vp2和vp3的接收裝置200的示例。然而，還可以采用其中從連接到網(wǎng)絡(luò)的服務(wù)器獲取的差值分量的配置。在這種情況下，從發(fā)送裝置100到接收裝置200的訪問信息可被插入音頻流的層中、視頻流的層中或容器的層中，并且可被發(fā)送。

圖26示出該情況下的接收裝置200的配置示例。在圖26中，通過相同的參考數(shù)字指示對應(yīng)于圖24中示出的那些的單元件，并且根據(jù)需要省略其詳細(xì)描述。通信接口231訪問連接到網(wǎng)絡(luò)的服務(wù)器，從而獲取差值分量vp2和vp3。

將這些差值分量vp2和vp3提供到3d音頻渲染器218。3d音頻渲染器218是指揚(yáng)聲器設(shè)置信息，并且在位置信息(r,θ,φ)的基礎(chǔ)上將每個(gè)對象聲源的音頻數(shù)據(jù)映射到任何位置的揚(yáng)聲器。在這種情況下，在其中選擇了視圖2和視圖3的情況下，分別在差值分量vp2和vp3的基礎(chǔ)上校正(變換)和使用關(guān)于對象聲源1和2的位置信息(r’,θ’,φ’)。

進(jìn)一步地，以上描述的實(shí)施方式示出其中容器為傳送流(mpeg-2ts)的示例。然而，本技術(shù)還可應(yīng)用于通過mp4的容器或除了mp4以外的格式的容器傳遞的系統(tǒng)。例如，本技術(shù)還可應(yīng)用于基于mpeg-dash的流傳遞系統(tǒng)、處理mpeg媒體傳送(mmt)結(jié)構(gòu)發(fā)送流的發(fā)送/接收系統(tǒng)等等。

注意，本技術(shù)還可具有以下配置：

(1)一種發(fā)送裝置，包括：

發(fā)送單元，被配置為發(fā)送預(yù)定格式的容器，容器包括第一視頻流、第二視頻流、音頻流和位置校正信息，位置校正信息用于將對象聲源的位置信息校正為基于第二視圖的位置信息。

(2)根據(jù)(1)所述的發(fā)送裝置，其中，位置校正信息指示第一視圖和第二視圖的位置和方向的差值分量。

(3)根據(jù)(1)或(2)所述的發(fā)送裝置，其中，將位置校正信息插入至音頻流的層中。

(4)根據(jù)(3)所述的發(fā)送裝置，其中，將位置校正信息插入至包括位置信息的元數(shù)據(jù)區(qū)域中。

(5)根據(jù)(3)所述的發(fā)送裝置，其中，將位置校正信息插入至用戶數(shù)據(jù)區(qū)域中。

(6)根據(jù)(3)所述的發(fā)送裝置，其中，

當(dāng)存在多個(gè)第二視圖時(shí)，將對應(yīng)于多個(gè)第二視圖的多條位置校正信息插入至音頻流的層中，并且

將指示多條位置校正信息分別對應(yīng)的第二視頻流的信息插入至容器的層中。

(7)根據(jù)(1)或(2)所述的發(fā)送裝置，其中，將位置校正信息插入至第二視頻流的層中。

(8)根據(jù)(1)或(2)所述的發(fā)送裝置，其中，將位置校正信息插入至容器的層中。

(9)根據(jù)(8)所述的發(fā)送裝置，其中，將位置校正信息作為信令信息插入。

(10)根據(jù)(9)所述的發(fā)送裝置，其中，容器為mpeg2-ts，并且

將位置校正信息插入至視頻基本流環(huán)中，視頻基本流環(huán)對應(yīng)于節(jié)目映射表的第二視頻流。

(11)根據(jù)(8)所述的發(fā)送裝置，其中，插入包括位置校正信息的信息流。

(12)一種發(fā)送方法，包括：

編碼步驟，生成具有第一視圖的視頻數(shù)據(jù)的第一視頻流、具有第二視圖的視頻數(shù)據(jù)的第二視頻流，以及具有對象聲源的音頻數(shù)據(jù)和對象聲源的基于第一視圖的位置信息的音頻流；以及

發(fā)送步驟，通過發(fā)送單元發(fā)送預(yù)定格式的容器，容器包括第一視頻流、第二視頻流、音頻流和位置校正信息，位置校正信息用于將對象聲源的位置信息校正為基于第二視圖的位置信息。

(13)一種接收裝置，包括：

接收單元，被配置為接收預(yù)定格式的容器，容器包括具有第一視圖的視頻數(shù)據(jù)的第一視頻流、具有第二視圖的視頻數(shù)據(jù)的第二視頻流，以及具有對象聲源的音頻數(shù)據(jù)和對象聲源的基于第一視圖的位置信息的音頻流，以及用于將對象聲源的位置信息校正為基于第二視圖的位置信息的位置校正信息；以及

處理單元，被配置為處理在容器中包括的信息。

(14)根據(jù)(13)所述的接收裝置，其中，處理單元包括：

解碼單元，被配置為從第一視頻流、第二視頻流和音頻流獲得第一視圖的視頻數(shù)據(jù)、第二視圖的視頻數(shù)據(jù)以及對象聲源的音頻數(shù)據(jù)和位置信息，

選擇器，被配置為選擇性地輸出第一視圖的視頻數(shù)據(jù)或者第二視圖的視頻數(shù)據(jù)，

渲染單元，被配置為基于對象聲源的位置信息將對象聲源的音頻數(shù)據(jù)映射到任何揚(yáng)聲器位置，并且

當(dāng)通過選擇器選擇了第二視圖的視頻數(shù)據(jù)時(shí)，渲染單元以位置信息是基于第二視圖的方式使用基于位置校正信息校正的位置信息。

(15)一種接收方法，包括：

接收步驟，通過接收單元接收預(yù)定格式的容器，容器包括具有第一視圖的視頻數(shù)據(jù)的第一視頻流、具有第二視圖的視頻數(shù)據(jù)的第二視頻流，具有對象聲源的音頻數(shù)據(jù)和對象聲源的基于第一視圖的位置信息的音頻流，以及用于將對象聲源的位置信息校正為基于第二視圖的位置信息的位置校正信息；以及

處理步驟，處理容器中包含的信息。

(16)一種接收裝置，包括：

接收單元，被配置為接收預(yù)定格式的容器，容器包括具有第一視圖的視頻數(shù)據(jù)的第一視頻流、具有第二視圖的視頻數(shù)據(jù)的第二視頻流，以及具有對象聲源的音頻數(shù)據(jù)和對象聲源的基于第一視圖的位置信息的音頻流；

獲取單元，被配置為獲取用于將對象聲源的位置信息校正為基于第二視圖的位置信息的位置校正信息；

解碼單元，被配置為分別從第一視頻流、第二視頻流和音頻流獲得第一視圖的視頻數(shù)據(jù)、第二視圖的視頻數(shù)據(jù)以及對象聲源的音頻數(shù)據(jù)和位置信息；

選擇器，被配置為選擇性地輸出第一視圖的視頻數(shù)據(jù)或者第二視圖的視頻數(shù)據(jù)；以及

渲染單元，被配置為基于對象聲源的位置信息將對象聲源的音頻數(shù)據(jù)映射到任何揚(yáng)聲器位置，

(17)根據(jù)(16)所述的接收裝置，其中，獲取單元從音頻流的層、第二視頻流的層或容器的層獲取位置校正信息。

(18)根據(jù)(16)所述的接收裝置，其中，獲取單元從網(wǎng)絡(luò)上的服務(wù)器獲取位置校正信息。

(19)一種接收方法，包括：

接收步驟，通過接收單元接收預(yù)定格式的容器，容器包括具有第一視圖的視頻數(shù)據(jù)的第一視頻流、具有第二視圖的視頻數(shù)據(jù)的第二視頻流，以及具有對象聲源的音頻數(shù)據(jù)和對象聲源的基于第一視圖的位置信息的音頻流；

獲取步驟，獲取用于將對象聲源的位置信息校正為基于第二視圖的位置信息的位置校正信息；

解碼步驟，從第一視頻流、第二視頻流和音頻流獲得第一視圖的視頻數(shù)據(jù)、第二視圖的視頻數(shù)據(jù)以及對象聲源的音頻數(shù)據(jù)和位置信息；

選擇步驟，選擇性地輸出第一視圖的視頻數(shù)據(jù)或者第二視圖的視頻數(shù)據(jù)；

渲染步驟，基于在對象聲源的音頻數(shù)據(jù)和位置信息獲得與揚(yáng)聲器系統(tǒng)兼容的音頻數(shù)據(jù)，

其中，在渲染步驟中，當(dāng)在選擇步驟中選擇了第二視圖的視頻數(shù)據(jù)時(shí)，以位置信息基于第二視圖的方式使用基于位置校正信息校正的位置信息。

參考符號(hào)列表

10發(fā)送/接收系統(tǒng)

100發(fā)送裝置

111控制單元

112、113、114視頻編碼器

1153d音頻編碼器

116系統(tǒng)編碼器

117發(fā)送單元

118、119位置校正信息編碼器

200接收裝置

211控制單元

212接收單元

213系統(tǒng)解碼器

214選擇器

215視頻解碼器

216顯示單元

2173d音頻解碼器

2183d音頻渲染器

218a位置校正操作單元

219揚(yáng)聲器系統(tǒng)

221、222位置校正信息解碼器

231通信接口

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：高橋和幸;北里直久
技術(shù)所有人：索尼公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

蒸餾時(shí)的接收裝置相關(guān)技術(shù)

串口通信的接收與發(fā)送相關(guān)技術(shù)

無線信號(hào)發(fā)送裝置相關(guān)技術(shù)

光纖接收端的接受裝置相關(guān)技術(shù)

焊渣接收裝置相關(guān)技術(shù)

信號(hào)接收裝置相關(guān)技術(shù)

f.m.調(diào)頻轉(zhuǎn)換接收裝置相關(guān)技術(shù)

電紡絲接收裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

發(fā)送裝置、發(fā)送方法、接收裝置和接收方法與流程

發(fā)送裝置、發(fā)送方法、接收裝置和接收方法與流程