本技術(shù)涉及發(fā)送裝置、發(fā)送方法、接收裝置以及接收方法,并且更具體地,涉及用于發(fā)送多個(gè)類型的音頻數(shù)據(jù)的技術(shù)的發(fā)送裝置等。
背景技術(shù):
傳統(tǒng)地,作為立體聲(3D)音效技術(shù),已提出用于基于待渲染的元數(shù)據(jù)將編碼樣本數(shù)據(jù)與存在于任意位置處的揚(yáng)聲器映射的技術(shù)(例如,參見(jiàn)專利文獻(xiàn)1)。
引文列表
專利文獻(xiàn)
專利文獻(xiàn)1:日本專利申請(qǐng)國(guó)家公布(公開(kāi))第2014-520491號(hào)
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的問(wèn)題
當(dāng)由編碼樣本數(shù)據(jù)和元數(shù)據(jù)組成的對(duì)象編碼數(shù)據(jù)與諸如5.1信道和7.1信道的信道編碼數(shù)據(jù)一起發(fā)送時(shí),這可在接收側(cè)中提供具有更逼真的環(huán)繞效果的聲音再現(xiàn)。
本技術(shù)的目的是當(dāng)發(fā)送多個(gè)類型的編碼數(shù)據(jù)時(shí),降低接收側(cè)中的處理負(fù)載。
本技術(shù)的概念在于,一種發(fā)送裝置,該發(fā)送裝置包括:
發(fā)送單元,被配置為發(fā)送具有元信息的元文件,該元信息用于在接收裝置中獲取包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流;以及
信息插入單元,被配置為將表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息插入至元文件。
問(wèn)題的解決方案
在本技術(shù)中,發(fā)送單元發(fā)送具有元信息的元文件,該元信息用于在接收裝置中獲取包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流。例如,多個(gè)組的編碼數(shù)據(jù)可包括信道編碼數(shù)據(jù)和對(duì)象編碼數(shù)據(jù)中的一個(gè)或兩個(gè)。
信息插入單元將表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息插入至元文件。例如,元文件可以是媒體展現(xiàn)描述(MPD)文件。在這種情況下,例如,信息插入單元可通過(guò)使用“補(bǔ)充描述符”將屬性信息插入至元文件。
此外,例如,發(fā)送單元可經(jīng)由RF傳輸路徑或通信網(wǎng)絡(luò)傳輸路徑發(fā)送元文件。此外,例如,發(fā)送單元可進(jìn)一步發(fā)送具有包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流的預(yù)定格式的容器。例如,容器是MP4。根據(jù)本技術(shù)報(bào)告,MP4表示ISO基本媒體文件格式(ISOBMFF)(ISO/IEC14496-12:2012)。
以此方式,根據(jù)本技術(shù),將表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息插入至具有元信息的元文件,該元信息用于在接收裝置中獲取包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流。因此,接收側(cè)可在相關(guān)編碼數(shù)據(jù)被解碼之前輕易識(shí)別多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性,使得必要組的編碼數(shù)據(jù)可被選擇性地解碼并使用,并且處理負(fù)載可降低。
本文中,根據(jù)本技術(shù),例如,信息插入單元可進(jìn)一步將流對(duì)應(yīng)關(guān)系信息插入至元文件,該流對(duì)應(yīng)關(guān)系信息表示多個(gè)組的編碼數(shù)據(jù)分別包括在哪個(gè)音頻流中。在這種情況下,例如,流對(duì)應(yīng)關(guān)系信息可以是表示標(biāo)識(shí)多個(gè)組的各自編碼數(shù)據(jù)的組標(biāo)識(shí)符與標(biāo)識(shí)預(yù)定數(shù)量的音頻流的相應(yīng)流的標(biāo)識(shí)符之間的對(duì)應(yīng)關(guān)系的信息。在這種情況下,接收側(cè)可輕易識(shí)別包括必要組的編碼數(shù)據(jù)的音頻流,并且這可降低處理負(fù)載。
此外,本技術(shù)的另一概念在于,一種接收裝置,該接收裝置包括:
接收單元,被配置為接收具有元信息的元文件,該元信息用于在接收裝置中獲取包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流,
在元文件中插入有表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息;以及
處理單元,被配置為基于屬性信息處理預(yù)定數(shù)量的音頻流。
根據(jù)本技術(shù),接收單元接收元文件。元文件包括用于在接收裝置中獲取包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流的元信息。例如,多個(gè)組的編碼數(shù)據(jù)可包括信道編碼數(shù)據(jù)和對(duì)象編碼數(shù)據(jù)中的一個(gè)或兩個(gè)。表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息插入至元文件。處理單元基于屬性信息處理預(yù)定數(shù)量的音頻流。
以此方式,根據(jù)本技術(shù),基于插入在元文件中的表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息,對(duì)預(yù)定數(shù)量的音頻流執(zhí)行處理。因此,只有必要組的編碼數(shù)據(jù)可被選擇性解碼并使用,并且這可降低處理負(fù)載。
本文中,根據(jù)本技術(shù),例如,元文件可進(jìn)一步包括流對(duì)應(yīng)關(guān)系信息,該流對(duì)應(yīng)關(guān)系信息表示多個(gè)組的編碼數(shù)據(jù)分別包括在哪個(gè)音頻流中,并且處理單元可基于流對(duì)應(yīng)關(guān)系信息以及屬性信息處理預(yù)定數(shù)量的音頻流。在這種情況下,包括必要組的編碼數(shù)據(jù)的音頻流可被輕易識(shí)別,并且這可降低處理負(fù)載。
此外,根據(jù)本技術(shù),例如,處理單元可基于屬性信息和流對(duì)應(yīng)關(guān)系信息,對(duì)包括具有與揚(yáng)聲器配置和用戶選擇信息兼容的屬性的組的編碼數(shù)據(jù)的音頻流選擇性地執(zhí)行解碼處理。
此外,本技術(shù)的又一概念在于,一種接收裝置,該接收裝置包括:
接收單元,被配置為接收具有元信息的元文件,該元信息用于在接收裝置中獲取包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流,
在元文件中插入有表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息;
處理單元,被配置為基于屬性信息從預(yù)定數(shù)量的音頻流中選擇性獲取預(yù)定組的編碼數(shù)據(jù),并且重新配置包括預(yù)定組的編碼數(shù)據(jù)的音頻流;以及
流發(fā)送單元,被配置為將重新配置的音頻流發(fā)送至外部裝置。
根據(jù)本技術(shù),接收單元接收元文件。元文件包括用于在接收裝置中獲取包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流的元信息。表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息插入至元文件。
處理單元基于屬性信息從預(yù)定數(shù)量的音頻流中選擇性獲取預(yù)定組的編碼數(shù)據(jù),并且重新配置包括預(yù)定組的編碼數(shù)據(jù)的音頻流。隨后,流發(fā)送單元將重新配置的音頻流發(fā)送至外部裝置。
以此方式,根據(jù)本技術(shù),基于插入在元文件中的表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息,從預(yù)定數(shù)量的音頻流中選擇性獲取預(yù)定組的編碼數(shù)據(jù),并且待發(fā)送至外部裝置的音頻流被重新配置。必要組的編碼數(shù)據(jù)可輕易獲取,并且這可降低處理負(fù)載。
本文中,根據(jù)本技術(shù),例如,表示多個(gè)組的編碼數(shù)據(jù)分別包括在哪個(gè)音頻流中的流對(duì)應(yīng)關(guān)系信息被進(jìn)一步插入至元文件,并且處理單元可基于流對(duì)應(yīng)關(guān)系信息以及屬性信息從預(yù)定數(shù)量的音頻流中選擇性獲取預(yù)定組的編碼數(shù)據(jù)。在這種情況下,包括預(yù)定組的編碼數(shù)據(jù)的音頻流可輕易識(shí)別,并且這可降低處理負(fù)載。
本發(fā)明的效果
根據(jù)本技術(shù),當(dāng)發(fā)送多個(gè)類型的編碼數(shù)據(jù)時(shí),接收側(cè)中的處理負(fù)載可降低。本文中,在本說(shuō)明書中描述的效果僅是實(shí)例并且不設(shè)置任意限制,并且可存在其他效果。
附圖說(shuō)明
圖1(a)和圖1(b)是示出基于MPEG-DASH的流傳送系統(tǒng)的示例性配置的框圖。
圖2(a)至圖2(d)是示出分層布置在MPD文件中的結(jié)構(gòu)之間的關(guān)系的實(shí)例的示圖。
圖3是示出作為一實(shí)施方式的收發(fā)系統(tǒng)的示例性配置框圖。
圖4是示出3D音頻發(fā)送數(shù)據(jù)的音頻幀(1024個(gè)樣本)的結(jié)構(gòu)的示圖。
圖5是示出3D音頻發(fā)送數(shù)據(jù)的示例性配置的示圖。
圖6(a)和圖6(b)是示意性示出在利用一個(gè)軌道(一個(gè)音頻流)發(fā)送3D音頻發(fā)送數(shù)據(jù)的情況下的音頻幀以及在利用多個(gè)軌道(不止一個(gè)音頻流)發(fā)送的情況下的音頻幀的示例性配置的示圖。
圖7是示出在3D音頻發(fā)送數(shù)據(jù)的示例性配置中,利用四個(gè)軌道發(fā)送的情況的組劃分實(shí)例的示圖。
圖8是示出組劃分實(shí)例(被劃分為四組)中的組與軌道之間的對(duì)應(yīng)關(guān)系等的示圖。
圖9是示出在3D音頻發(fā)送數(shù)據(jù)的示例性配置中利用兩個(gè)軌道發(fā)送的情況的組劃分實(shí)例的示圖。
圖10是示出組劃分實(shí)例(被劃分為兩組)中的組與軌道之間的對(duì)應(yīng)關(guān)系等的示圖。
圖11是示出MPD文件的描述實(shí)例的示圖。
圖12是示出MPD文件的另一描述實(shí)例的示圖。
圖13是示出由“SupplementaryDescriptor”定義的“schemeIdUri”的實(shí)例的示圖。
圖14(a)至圖14(c)是說(shuō)明由“<baseURL>”表示的位置目的地的媒體文件實(shí)質(zhì)的示圖。
圖15(a)和圖15(b)是說(shuō)明“moov”框中的軌道標(biāo)識(shí)符(軌道ID)與級(jí)別標(biāo)識(shí)符(級(jí)別ID)之間的對(duì)應(yīng)的描述的示圖。
圖16(a)和圖16(b)是示出在發(fā)送系統(tǒng)的情況下每個(gè)框的發(fā)送實(shí)例等的示圖。
圖17是示出包括在服務(wù)發(fā)送系統(tǒng)中的DASH/MP4生成單元的示例性配置的框圖。
圖18是示出服務(wù)接收器的示例性配置的框圖。
圖19是示出在服務(wù)接收器中通過(guò)CPU的音頻解碼控制處理的實(shí)例的流程圖。
圖20是示出服務(wù)接收器的另一示例性配置的框圖。
具體實(shí)施方式
在下文中,將描述用于執(zhí)行本發(fā)明的模式(在下文中,被稱為“實(shí)施方式”)。應(yīng)注意,將按以下順序給出描述。
1.實(shí)施方式
2.變型例
<1.實(shí)施方式>
[基于MPEG-DASH的流傳送系統(tǒng)的概述]
首先,將描述可應(yīng)用本技術(shù)的基于MPEG-DASH的流傳送系統(tǒng)的概述。
圖1(a)示出基于MPEG-DASH的流傳送系統(tǒng)30A的示例性配置。在該示例性配置中,媒體流和MPD文件經(jīng)由通信網(wǎng)絡(luò)傳輸路徑發(fā)送。流傳送系統(tǒng)30A被配置為使得N個(gè)服務(wù)接收器33-1,33-2,…,以及33-N經(jīng)由內(nèi)容傳送網(wǎng)絡(luò)(CDN)34連接至DASH流文件服務(wù)器31和DASH MPD服務(wù)器32。
DASH流文件服務(wù)器31基于預(yù)定內(nèi)容的媒體數(shù)據(jù)(視頻數(shù)據(jù)、音頻數(shù)據(jù)、字幕數(shù)據(jù)等)生成DASH規(guī)范的流片段(在下文中,被適當(dāng)稱為“DASH片段”),并且根據(jù)服務(wù)接收器作出的HTTP請(qǐng)求發(fā)送該片段。DASH流文件服務(wù)器31可以是專用于流的服務(wù)器,并且也用作網(wǎng)絡(luò)服務(wù)器。
此外,響應(yīng)于經(jīng)由CDN 34從服務(wù)接收器33(33-1,33-2,…,以及33-N)發(fā)送的預(yù)定流片段的請(qǐng)求,DASH流文件服務(wù)器31經(jīng)由CDN 34將流片段發(fā)送至作為請(qǐng)求源的接收器。在這種情況下,服務(wù)接收器33參考在媒體表現(xiàn)描述(MPD)文件中描述的速率值根據(jù)客戶端所在的網(wǎng)絡(luò)環(huán)境的狀態(tài)選擇最佳速率的流,并且做出請(qǐng)求。
DASH MPD服務(wù)器32是生成用于獲取DASH流文件服務(wù)器31中生成的DASH片段的MPD文件的服務(wù)器。MPD文件是基于從內(nèi)容管理服務(wù)器(未示出)接收的內(nèi)容元數(shù)據(jù)和DASH流文件服務(wù)器31中生成的片段的地址(url)生成的。此處,DASH流文件服務(wù)器31與DASH MPD服務(wù)器32可物理上相同。
在MPD格式中,使用諸如用于每個(gè)流(諸如,視頻流或音頻流)的表示(Representation)的元素描述每個(gè)屬性。例如,表示被劃分以用于具有不同速率的每多個(gè)視頻數(shù)據(jù)流,并且在MPD文件中描述其每個(gè)速率。服務(wù)接收器33可以考慮如上所述的速率值根據(jù)服務(wù)接收器33所在的網(wǎng)絡(luò)環(huán)境的狀態(tài)選擇最佳流。
圖1(b)示出基于MPEG-DASH的流傳送系統(tǒng)30B的示例性配置。在該示例性配置中,媒體流和MPD文件經(jīng)由RF傳輸路徑傳輸。流傳送系統(tǒng)30B配置有廣播發(fā)送系統(tǒng)36,該廣播發(fā)送系統(tǒng)連接至DASH流文件服務(wù)器31、DASH MPD服務(wù)器32和M個(gè)服務(wù)接收器35-1,35-2,…,以及35-M。
在流傳送系統(tǒng)30B的情況下,廣播發(fā)送系統(tǒng)36通過(guò)廣播波發(fā)送DASH流文件服務(wù)器31生成的DASH規(guī)范的流片段(DASH片段)和DASH MPD服務(wù)器32生成的MPD文件。
圖2(a)至圖2(d)示出分層布置在MPD文件中的結(jié)構(gòu)的關(guān)系的實(shí)例。如圖2(a)所示,整個(gè)MPD文件的媒體表現(xiàn)(Media Presentation)包括以時(shí)間間隔界定的多個(gè)周期。例如,第一周期從第0秒開(kāi)始,然后下一個(gè)周期從第100秒開(kāi)始。
如圖2(b)所示,周期包括多個(gè)表示(Representations)。在多個(gè)表示中,具有根據(jù)自適應(yīng)集(AdaptationSet)分組、涉及具有不同流屬性的相同實(shí)質(zhì)的媒體流的一組表示,不同流屬性例如是不同速率。
如圖2(c)所示,表示包括片段信息(SegmentInfo)。在片段信息中,如圖2(d)所示,具有初始化片段(Initialization Segment)以及多個(gè)媒體片段(Media Segment),其中,描述通過(guò)更精細(xì)界定周期所獲得的片段(Segment)的信息。媒體片段包括例如用于實(shí)際獲取諸如視頻或音頻的片段數(shù)據(jù)的地址(url)的信息。
此外,在根據(jù)自適應(yīng)集分組的多個(gè)表示中,可自由執(zhí)行流切換。因此,能夠根據(jù)服務(wù)接收器所在的網(wǎng)絡(luò)環(huán)境的狀態(tài)選擇最佳速率的流,并且執(zhí)行無(wú)縫傳送。
[收發(fā)系統(tǒng)的示例性配置]
圖3示出作為實(shí)施方式的收發(fā)系統(tǒng)10的示例性配置。收發(fā)系統(tǒng)10由服務(wù)發(fā)送系統(tǒng)100和服務(wù)接收器200組成。在收發(fā)系統(tǒng)10中,服務(wù)發(fā)送系統(tǒng)100與上述圖1(a)的流傳送系統(tǒng)30A中的DASH流文件服務(wù)器31和DASH MPD服務(wù)器32相對(duì)應(yīng)。此外,在收發(fā)系統(tǒng)10中,服務(wù)發(fā)送系統(tǒng)100與上述圖1(b)的流傳送系統(tǒng)30B中的DASH流文件服務(wù)器31、DASH MPD服務(wù)器32以及廣播發(fā)送系統(tǒng)36相對(duì)應(yīng)。
此外,在收發(fā)系統(tǒng)10中,服務(wù)接收器200與上述圖1(a)的流傳送系統(tǒng)30A中的服務(wù)接收器33(33-1,33-2,…,33-N)相對(duì)應(yīng)。此外,在收發(fā)系統(tǒng)10中,服務(wù)接收器200與上述圖1(b)的流傳送系統(tǒng)30B中的服務(wù)接收器35(35-1,35-2,…,35-M)相對(duì)應(yīng)。
服務(wù)發(fā)送系統(tǒng)100經(jīng)由RF傳輸路徑(參見(jiàn)圖1(b))或通信網(wǎng)絡(luò)傳輸路徑(參見(jiàn)圖1(a))發(fā)送DASH/MP4,即,用作元文件的MPD文件以及包括諸如視頻或音頻的媒體流(媒體片段)的MP4。
圖4示出在本實(shí)施方式中處理的3D音頻(MPEGH)的發(fā)送數(shù)據(jù)中的音頻幀(1024個(gè)樣本)的結(jié)構(gòu)。音頻幀配置有多個(gè)MPEG音頻流數(shù)據(jù)包(mpeg Audio Stream Packets)。每個(gè)MPEG音頻流數(shù)據(jù)包配置有報(bào)頭(Header)和有效載荷(Payload)。
報(bào)頭包括諸如數(shù)據(jù)包類型(Packet Type)、數(shù)據(jù)包標(biāo)簽(Packet Label)以及數(shù)據(jù)包長(zhǎng)度(Packet Length)的信息。由報(bào)頭的數(shù)據(jù)包類型定義的信息布置在有效載荷中。有效載荷信息包括與同步啟動(dòng)代碼相對(duì)應(yīng)的“SYNC”信息、用作3D音頻發(fā)送數(shù)據(jù)的實(shí)際數(shù)據(jù)的“幀”信息以及表示“幀”信息的配置的“Config”信息。
“幀”信息包括配置3D音頻發(fā)送數(shù)據(jù)的信道編碼數(shù)據(jù)和對(duì)象編碼數(shù)據(jù)。此處,信道編碼數(shù)據(jù)配置有諸如單信道元素(SCE)、信道對(duì)元素(CPE)以及低頻元素(LFE)的編碼樣本數(shù)據(jù)。此外,對(duì)象編碼數(shù)據(jù)配置有單信道元素(SCE)以及元數(shù)據(jù)的編碼樣本數(shù)據(jù),該元數(shù)據(jù)用于將編碼樣本數(shù)據(jù)與位于任意位置處的揚(yáng)聲器映射并且渲染編碼樣本數(shù)據(jù)。元數(shù)據(jù)作為擴(kuò)展元素(Ext_element)被包括。
圖5示出3D音頻發(fā)送數(shù)據(jù)的示例性配置。在該實(shí)例中,3D音頻發(fā)送數(shù)據(jù)由一個(gè)信道編碼數(shù)據(jù)和兩個(gè)對(duì)象編碼數(shù)據(jù)組成。該條信道編碼數(shù)據(jù)是5.1信道的信道編碼數(shù)據(jù)(CD),并且配置有SCE1、CPE1.1、CPE1.2以及LFE1中的每條編碼樣本數(shù)據(jù)。
兩條對(duì)象編碼數(shù)據(jù)是沉浸式音頻對(duì)象(IAO)和語(yǔ)音對(duì)話對(duì)象(SDO)的編碼數(shù)據(jù)。沉浸式音頻對(duì)象編碼數(shù)據(jù)是用于沉浸式聲音的對(duì)象編碼數(shù)據(jù),并且由編碼樣本數(shù)據(jù)SCE2以及元數(shù)據(jù)EXE_El(對(duì)象元數(shù)據(jù))2組成,該元數(shù)據(jù)用于將編碼樣本數(shù)據(jù)SCE2與位于任意位置處的揚(yáng)聲器映射并且渲染編碼樣本數(shù)據(jù)SCE2。
語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)是用于說(shuō)話語(yǔ)言的對(duì)象編碼數(shù)據(jù)。在該實(shí)例中,存在分別與第一語(yǔ)言和第二語(yǔ)言相對(duì)應(yīng)的語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)。與第一語(yǔ)言相對(duì)應(yīng)的語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)由編碼樣本數(shù)據(jù)SCE3和元數(shù)據(jù)EXE_El(對(duì)象元數(shù)據(jù))3組成,該元數(shù)據(jù)用于將編碼樣本數(shù)據(jù)SCE3與位于任意位置處的揚(yáng)聲器映射并且渲染編碼樣本數(shù)據(jù)SCE3。此外,與第二語(yǔ)言相對(duì)應(yīng)的語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)由編碼樣本數(shù)據(jù)SCE4和元數(shù)據(jù)EXE_El(對(duì)象元數(shù)據(jù))4組成,該元數(shù)據(jù)用于將編碼樣本數(shù)據(jù)SCE4與位于任意位置處的揚(yáng)聲器映射并且渲染編碼樣本數(shù)據(jù)SCE4。
根據(jù)數(shù)據(jù)類型,通過(guò)組(Group)的概念區(qū)分編碼數(shù)據(jù)。在所示實(shí)例中,5.1信道的編碼信道數(shù)據(jù)被限定為組1(Group 1),沉浸式音頻對(duì)象編碼數(shù)據(jù)被限定為組2(Group 2),涉及第一語(yǔ)言的語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)被限定為組3(Group 3),并且涉及第二語(yǔ)言的語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)被限定為組4(Group 4)。
此外,可在接收側(cè)可切換的組被登記在切換組(SW Group)中并且被編碼。在所示實(shí)例中,組3和組4被登記在切換組1(SW Group 1)中。此外,一些組可被分組為預(yù)設(shè)組(preset Group)并且根據(jù)使用情況再現(xiàn)。在所示實(shí)例中,組1、組2和組3被分組為預(yù)設(shè)組1,并且組1、組2和組4被分組為預(yù)設(shè)組2。
返回參考圖3,服務(wù)發(fā)送系統(tǒng)100利用作為一個(gè)音頻流的一個(gè)軌道或利用作為多個(gè)音頻流的多個(gè)軌道,發(fā)送如上所述的包括多個(gè)組的編碼數(shù)據(jù)的3D音頻發(fā)送數(shù)據(jù)。
圖6(a)示意性示出關(guān)于圖5中的3D音頻發(fā)送數(shù)據(jù)的示例性配置利用一個(gè)軌道(一個(gè)音頻流)來(lái)發(fā)送數(shù)據(jù)的情況的音頻幀的示例性配置。在這種情況下,音軌1包括“SYNC”信息和“Config”信息以及信道編碼數(shù)據(jù)(CD)、沉浸式音頻對(duì)象編碼數(shù)據(jù)(IAO)以及語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)(SDO)。
圖6(b)示意性示出關(guān)于圖5中的3D音頻發(fā)送數(shù)據(jù)的示例性配置利用多個(gè)軌道(多個(gè)音頻流)來(lái)發(fā)送數(shù)據(jù)的情況的音頻幀的示例性配置,在該實(shí)例中利用三個(gè)軌道。在這種情況下,音軌1包括“SYNC”信息和“Config”信息以及信道編碼數(shù)據(jù)(CD)。此外,音軌2包括“SYNC”信息和“Config”信息以及沉浸式音頻對(duì)象編碼數(shù)據(jù)(IAO)。此外,音軌3包括“SYNC”信息和“Config”信息以及語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)(SDO)。
圖7示出關(guān)于圖5中的3D音頻發(fā)送數(shù)據(jù)的示例性配置利用四個(gè)軌道來(lái)發(fā)送數(shù)據(jù)的情況的組劃分實(shí)例。在這種情況下,音軌1包括限定為組1的信道編碼數(shù)據(jù)(CD)。此外,音軌2包括限定為組2的沉浸式音頻對(duì)象編碼數(shù)據(jù)(IAO)。此外,音軌3包括限定為組3的第一語(yǔ)言的語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)(SDO)。此外,音軌4包括限定為組4的第二語(yǔ)言的語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)(SDO)。
圖8示出圖7中的組劃分實(shí)例(被劃分為四組)的組與音軌等之間的對(duì)應(yīng)關(guān)系。此處,組ID(groupID)是區(qū)分組的標(biāo)識(shí)符。屬性(attribute)表示每個(gè)組的編碼數(shù)據(jù)的屬性。切換組ID(switchGroupID)是區(qū)分切換組的標(biāo)識(shí)符。預(yù)設(shè)組ID(presetGroupID)是區(qū)分預(yù)設(shè)組的標(biāo)識(shí)符。軌道ID(trackID)是區(qū)分音軌的標(biāo)識(shí)符。
示出的對(duì)應(yīng)關(guān)系表示組1的編碼數(shù)據(jù)是不組成切換組且被包括在音軌1中的信道編碼數(shù)據(jù)。此外,示出的對(duì)應(yīng)關(guān)系表示組2的編碼數(shù)據(jù)是不組成切換組且被包括在音軌2中的沉浸式聲音(沉浸式音頻對(duì)象編碼數(shù)據(jù))的對(duì)象編碼數(shù)據(jù)。
此外,示出的對(duì)應(yīng)關(guān)系表示組3的編碼數(shù)據(jù)是組成切換組1且被包括在音軌3中的用于第一語(yǔ)言的說(shuō)話語(yǔ)言的對(duì)象編碼數(shù)據(jù)(語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù))。此外,示出的對(duì)應(yīng)關(guān)系表示組4的編碼數(shù)據(jù)是組成切換組1且被包括在音軌4中的用于第二語(yǔ)言的說(shuō)話語(yǔ)言的對(duì)象編碼數(shù)據(jù)(語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù))。
此外,示出的對(duì)應(yīng)關(guān)系表示,預(yù)設(shè)組1包括組1、組2和組3。此外,示出的對(duì)應(yīng)關(guān)系表示預(yù)設(shè)組2包括組1、組2和組4。
圖9示出關(guān)于圖5的3D音頻發(fā)送數(shù)據(jù)的示例性配置的利用兩個(gè)軌道來(lái)發(fā)送數(shù)據(jù)的情況的組劃分實(shí)例。在這種情況下,音軌1包括限定為組1的信道編碼數(shù)據(jù)(CD)以及限定為組2的沉浸式音頻對(duì)象編碼數(shù)據(jù)(IAO)。此外,音軌2包括限定為組3的第一語(yǔ)言的語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)(SDO)以及限定為組4的第二語(yǔ)言的語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)(SDO)。
圖10示出圖9的組劃分實(shí)例(被劃分為兩組)的組與子流之間的對(duì)應(yīng)關(guān)系。示出的對(duì)應(yīng)關(guān)系表示組1的編碼數(shù)據(jù)是不組成切換組且包括在音軌1中的信道編碼數(shù)據(jù)。此外,示出的對(duì)應(yīng)關(guān)系表示組2的編碼數(shù)據(jù)是不組成切換組且包括在音軌1中的用于沉浸式聲音的對(duì)象編碼數(shù)據(jù)(沉浸式音頻對(duì)象編碼數(shù)據(jù))。
此外,示出的對(duì)應(yīng)關(guān)系表示組3的編碼數(shù)據(jù)是組成切換組1且被包括在音軌2中的用于第一語(yǔ)言的說(shuō)話語(yǔ)言的對(duì)象編碼數(shù)據(jù)(語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù))。此外,示出的對(duì)應(yīng)關(guān)系表示組4的編碼數(shù)據(jù)是組成切換組1且被包括在音軌2中的用于第二語(yǔ)言的說(shuō)話語(yǔ)言的對(duì)象編碼數(shù)據(jù)(語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù))。
此外,示出的對(duì)應(yīng)關(guān)系表示預(yù)設(shè)組1包括組1、組2和組3。此外,示出的對(duì)應(yīng)關(guān)系表示預(yù)設(shè)組2包括組1、組2和組4。
返回參考圖3,服務(wù)發(fā)送系統(tǒng)100將表示包括在3D音頻發(fā)送數(shù)據(jù)中的多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息插入至MPD文件。此外,服務(wù)發(fā)送系統(tǒng)100將流對(duì)應(yīng)關(guān)系信息插入至MPD文件,該流對(duì)應(yīng)關(guān)系信息表示多個(gè)組的編碼數(shù)據(jù)分別包括在哪個(gè)音軌(音頻流)中。在本實(shí)施方式中,假定流對(duì)應(yīng)關(guān)系信息為例如,表示組ID與軌道ID之間的對(duì)應(yīng)關(guān)系的信息。
服務(wù)發(fā)送系統(tǒng)100將屬性信息和流對(duì)應(yīng)關(guān)系信息插入至MPD文件。與現(xiàn)有標(biāo)準(zhǔn)中的現(xiàn)有定義分開(kāi),在“SupplementaryDescriptor”可以將“schemeIdUri”新定義為廣播或任意其他應(yīng)用的本實(shí)施方式中,服務(wù)發(fā)送系統(tǒng)100通過(guò)使用“SupplementaryDescriptor”將屬性信息和流對(duì)應(yīng)關(guān)系信息插入至MPD文件。
圖11示出與圖7的組劃分實(shí)例(被劃分為四組)相對(duì)應(yīng)的MPD文件的描述實(shí)例。圖12示出與圖9的組劃分實(shí)例(被劃分為兩組)相對(duì)應(yīng)的MPD文件的描述實(shí)例。此處,為了簡(jiǎn)化描述的目的,描述了僅涉及音頻流的信息的實(shí)例;然而,實(shí)際上,還描述涉及諸如視頻流的其他媒體流的信息。圖13是示出由“SupplementaryDescriptor”定義的“schemeIdUri”的實(shí)例的示圖。
首先,將說(shuō)明圖11的MPD文件的描述實(shí)例?!?lt;AdaptationSet mimeType="audio/mp4"group="1">”的描述表示具有用于音頻流的自適應(yīng)集(AdaptationSet),在MP4文件結(jié)構(gòu)中提供該音頻流,并且組1被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:codecType"value="mpegh"/>”的描述表示音頻流的編碼解碼器是MPEGH(3D音頻)。如圖13所示,“schemeIdUri="urn:brdcst:codecType"”表示編碼解碼器的類型。在該實(shí)例中,表示“mpegh”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group1"/>”的描述表示組1“group1”的編碼數(shù)據(jù)包括在音頻流中。如圖13所示,“schemeIdUri="urn:brdcst:3dAudio:groupId"”表示組標(biāo)識(shí)符。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="channeldata"/>”的描述表示組1“group1”的編碼數(shù)據(jù)是信道編碼數(shù)據(jù)“channeldata”。如圖13所示,“schemeIdUri="urn:brdcst:3dAudio:attribute"”表示對(duì)應(yīng)組的編碼數(shù)據(jù)的屬性。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="0"/>”的描述表示組1“group1”的編碼數(shù)據(jù)不屬于任意切換組。如圖13所示,“schemeIdUri="urn:brdcst:3dAudio:switchGroupId"”表示對(duì)應(yīng)組所屬的切換組的標(biāo)識(shí)符。例如,當(dāng)“value”是“0”時(shí),這表示對(duì)應(yīng)組不屬于任意切換組。當(dāng)“value”是“0”以外的值時(shí),這表示屬于切換組。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset1"/>”的描述表示組1“group1”的編碼數(shù)據(jù)屬于預(yù)設(shè)組1“preset1”。此外,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset2"/>”的描述表示組1“group1”的編碼數(shù)據(jù)屬于預(yù)設(shè)組2“preset2”。如圖13所示,“schemeIdUri="urn:brdcst:3dAudio:presetGroupId"”表示對(duì)應(yīng)組所屬的預(yù)設(shè)組的標(biāo)識(shí)符。
“<Representation id="1"bandwidth="128000">”的描述表示存在具有128kbps的比特率的音頻流,該音頻流包括組1的自適應(yīng)集中的組1“group1”的編碼數(shù)據(jù)作為由“Representation id="1"”標(biāo)識(shí)的表示。隨后,“<baseURL>audio/jp1/128.mp4</BaseURL>”的描述表示音頻流的位置目的地是“audio/jp1/128.mp4”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:levelId"value="level1"/>”的描述表示利用與級(jí)別1“Level1”相對(duì)應(yīng)的軌道來(lái)發(fā)送音頻流。如圖13所示,“schemeIdUri="urn:brdcst:3dAudio:levelId”表示與發(fā)送包括對(duì)應(yīng)組的編碼數(shù)據(jù)的音頻流的軌道的標(biāo)識(shí)符相對(duì)應(yīng)的級(jí)別的標(biāo)識(shí)符。此處,如以下描述的,描述例如,在“moov”框中的軌道標(biāo)識(shí)符(軌道ID)與級(jí)別標(biāo)識(shí)符(級(jí)別ID)之間的對(duì)應(yīng)。
此外,“<AdaptationSet mimeType="audio/mp4"group="2">”的描述表示存在音頻流的自適應(yīng)集(AdaptationSet),在MP4文件結(jié)構(gòu)中提供音頻流,并且組2被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:codecType"value="mpegh"/>”的描述表示音頻流的編碼解碼器是“MPEGH(3D音頻)”。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group2"/>”的描述表示組2“group2”的編碼數(shù)據(jù)包括在音頻流中。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="objectSound"/>”的描述表示組2“group2”的編碼數(shù)據(jù)是用于沉浸式聲音的對(duì)象編碼數(shù)據(jù)“objectSound”?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="0"/>”的描述表示組2“group2”的編碼數(shù)據(jù)不屬于任何切換組。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset1"/>”的描述表示組2“group2”的編碼數(shù)據(jù)屬于預(yù)設(shè)組1“preset1”?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset2"/>”的描述表示組2“group2”的編碼數(shù)據(jù)屬于預(yù)設(shè)組2“preset2”。
“<Representation id="1"bandwidth="128000">”的描述表示存在具有128kbps的比特率的音頻流,該音頻流包括組2的自適應(yīng)集中的組2“group2”的編碼數(shù)據(jù)作為由“Representation id="2"”標(biāo)識(shí)的表示。隨后,“<baseURL>audio/jp2/128.mp4</BaseURL>”的描述表示音頻流的位置目的地是“audio/jp2/128.mp4”。隨后,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:levelId"value="level2"/>”的描述表示利用與級(jí)別2“l(fā)evel2”相對(duì)應(yīng)的軌道來(lái)發(fā)送音頻流。
此外,“<AdaptationSet mimeType="audio/mp4"group="3">”的描述表示存在與音頻流相對(duì)應(yīng)的自適應(yīng)集(AdaptationSet),在MP4文件結(jié)構(gòu)中提供音頻流,并且組3被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:codecType"value="mpegh"/>”的描述表示音頻流的編碼解碼器是“MPEGH(3D音頻)”?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group3"/>”的描述表示組3“group3”的編碼數(shù)據(jù)包括在音頻流中?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="objectLang1"/>”的描述表示組3“group3”的編碼數(shù)據(jù)是用于第一語(yǔ)言的說(shuō)話語(yǔ)言的對(duì)象編碼數(shù)據(jù)“objectLang1”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="1"/>”的描述表示組3“group3”的編碼數(shù)據(jù)屬于切換組1(switch group 1)?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset1"/>”的描述表示組3“group3”的編碼數(shù)據(jù)屬于預(yù)設(shè)組1“preset1”。
“<Representation id="3"bandwidth="128000">”的描述表示存在具有128kbps的比特率的音頻流,該音頻流包括組3的自適應(yīng)集中的組3“group3”的編碼數(shù)據(jù)作為由“<Representation id="3"”標(biāo)識(shí)的表示。隨后,“<baseURL>audio/jp3/128.mp4</BaseURL>”的描述表示音頻流的位置目的地是“audio/jp3/128.mp4”。隨后,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:levelId"value="level3"/>”的描述表示利用與級(jí)別3“l(fā)evel3”相對(duì)應(yīng)的軌道來(lái)發(fā)送音頻流。
進(jìn)一步,“<AdaptationSet mimeType="audio/mp4"group="4">”的描述表示存在與音頻流相對(duì)應(yīng)的自適應(yīng)集(AdaptationSet),并且以MP4文件結(jié)構(gòu)提供音頻流,并且組4被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:codecType"value="mpegh"/>”的描述表示音頻流的編碼解碼器是“MPEGH(3D音頻)”?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group4"/>”的描述表示組4“group4”的編碼數(shù)據(jù)包括在音頻流中?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="objectLang2"/>”的描述表示組4“group4”的編碼數(shù)據(jù)是用于第二語(yǔ)言的說(shuō)話語(yǔ)言的對(duì)象編碼數(shù)據(jù)“objectLang 2”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="1"/>”的描述表示組4“group4”的編碼數(shù)據(jù)屬于切換組1(switch group 1)?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset2"/>”的描述表示組4“group4”的編碼數(shù)據(jù)屬于預(yù)設(shè)組2“preset2”。
“<Representation id="4"bandwidth="128000">”的描述表示存在具有128kbps的比特率的音頻流,該音頻流包括組4的自適應(yīng)集中的組4“group4”的編碼數(shù)據(jù)作為由“<Representation id="4"”標(biāo)識(shí)的表示。隨后,“<baseURL>audio/jp4/128.mp4</BaseURL>”的描述表示音頻流的位置目的地是“audio/jp4/128.mp4”。隨后,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:levelId"value="level4"/>”的描述表示利用與級(jí)別4“l(fā)evel4”相對(duì)應(yīng)的軌道來(lái)發(fā)送音頻流。
接下來(lái),將說(shuō)明圖12的MPD文件的描述實(shí)例?!?lt;AdaptationSet mimeType="audio/mp4"group="1">”的描述表示存在音頻流的自適應(yīng)集(AdaptationSet),在MP4文件結(jié)構(gòu)中提供音頻流,并且組1被分配。隨后,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:codecType"value="mpegh"/>”的描述表示音頻流的編碼解碼器是“MPEGH(3D音頻)”。
“<Representation id="1"bandwidth="128000">”的描述表示在組1的自適應(yīng)集中存在具有128kbps的比特率的音頻流作為由“Representation id="1"”標(biāo)識(shí)的表示。隨后,“<baseURL>audio/jp1/128.mp4</BaseURL>”的描述表示音頻流的位置目的地是“audio/jp1/128.mp4”。此外,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:levelId"value="level1"/>”的描述表示利用與級(jí)別1“l(fā)evel1”相對(duì)應(yīng)的軌道來(lái)發(fā)送音頻流。
“<SubRepresentation id="11"subgroupSet="1">”的描述表示在由“Representation id="1"”標(biāo)識(shí)的表示中,存在由“SubRepresentation id="11"”標(biāo)識(shí)的子表示,并且子組1被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group1"/>”的描述表示組1“group1”的編碼數(shù)據(jù)包括在音頻流中?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="channeldata"/>”的描述表示組1“group1”的編碼數(shù)據(jù)是信道編碼數(shù)據(jù)“channeldata”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="0"/>”的描述表示組1“group1”的編碼數(shù)據(jù)不屬于任意切換組?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset1"/>”的描述表示組1“group1”的編碼數(shù)據(jù)屬于預(yù)設(shè)組1“preset1”。此外,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset2"/>”的描述表示組1“group1”的編碼數(shù)據(jù)屬于預(yù)設(shè)組2“preset2”。
“<SubRepresentation id="12"subgroupSet="2">”的描述表示在由“Representation id="1"”標(biāo)識(shí)的表示中,存在由“SubRepresentation id="12"”標(biāo)識(shí)的子表示,并且子組集2被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group2"/>”的描述表示組2“group2”的編碼數(shù)據(jù)包括在音頻流中?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="objectSound"/>”的描述表示組2“group2”的編碼數(shù)據(jù)是用于沉浸式聲音的對(duì)象編碼數(shù)據(jù)“objectSound”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="0"/>”的描述表示組2“group2”的編碼數(shù)據(jù)不屬于任何切換組?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset1"/>”的描述表示組2“group2”的編碼數(shù)據(jù)屬于預(yù)設(shè)組1“preset1”。<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset2"/>”的描述表示組2“group2”的編碼數(shù)據(jù)屬于預(yù)設(shè)組2“preset2”。
進(jìn)一步,“<AdaptationSet mimeType="audio/mp4"group="2">”的描述表示存在與音頻流相對(duì)應(yīng)的自適應(yīng)集(AdaptationSet),并且以MP4文件結(jié)構(gòu)提供音頻流,并且組2被分配。隨后,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:codecType"value="mpegh"/>”的描述表示音頻流的編碼解碼器是“MPEGH(3D音頻)”。
“<Representation id="2"bandwidth="128000">”的描述表示在組1的自適應(yīng)集中存在具有128kbps的比特率的音頻流作為由“Representation id="2"”標(biāo)識(shí)的表示。隨后,“<baseURL>audio/jp2/128.mp4</BaseURL>”的描述表示音頻流的位置目的地是“audio/jp2/128.mp4”。此外,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:levelId"value="level2"/>”的描述表示利用與級(jí)別2“l(fā)evel2”相對(duì)應(yīng)的軌道來(lái)發(fā)送音頻流。
“<SubRepresentation id="21"subgroupSet="3">”的描述表示在由"Representation id="2"”標(biāo)識(shí)的表示中,存在由“SubRepresentation id="21"”標(biāo)識(shí)的子表示,并且子組集3被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group3"/>”的描述表示組3“group3”的編碼數(shù)據(jù)包括在音頻流中?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="objectLang1"/>”的描述表示組3“group3”的編碼數(shù)據(jù)是用于第一語(yǔ)言的說(shuō)話語(yǔ)言的對(duì)象編碼數(shù)據(jù)“objectLang1”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="1"/>”的描述表示組3“group3”的編碼數(shù)據(jù)屬于切換組1(switch group 1)?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset1"/>”的描述表示組3“group3”的編碼數(shù)據(jù)屬于預(yù)設(shè)組1“preset1”。
“<SubRepresentation id="22"subgroupSet="4">”的描述表示在由“Representation id="2"”標(biāo)識(shí)的表示中,存在由“SubRepresentation id="22"”標(biāo)識(shí)的子表示,并且子組集4被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group4"/>”的描述表示組4“group4”的編碼數(shù)據(jù)包括在音頻流中?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="objectLang2"/>”的描述表示組4“group4”的編碼數(shù)據(jù)是用于第二語(yǔ)言的說(shuō)話語(yǔ)言的對(duì)象編碼數(shù)據(jù)“objectLang2”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="1"/>”的描述表示組4“group4”的編碼數(shù)據(jù)屬于切換組1(switch group 1)?!?lt;SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset2"/>”的描述表示組4“group4”的編碼數(shù)據(jù)屬于預(yù)設(shè)組2“preset2”。
在下文中,將描述由“<baseURL>”(即,包含在每個(gè)音軌中的文件)表示的位置目的地的媒體文件實(shí)質(zhì)。如圖14(a)所示,在未分段MP4(Non-Fragmented MP4)的情況下,例如,媒體文件實(shí)質(zhì)有時(shí)被定義為“url1”。在這種情況下,首先布置描述文件類型的“ftyp”框?!癴typ”框表示文件是未分段MP4文件。隨后,布置“moov”框和“mdat”框?!癿oov”框包括所有元數(shù)據(jù),例如,每個(gè)軌道的報(bào)頭信息、內(nèi)容實(shí)質(zhì)的元描述、時(shí)間信息等?!癿dat”框包括媒體數(shù)據(jù)主體。
如圖14(b)所示,在分段MP4(Fragmented MP4)的情況下,例如,媒體文件實(shí)質(zhì)有時(shí)被定義為“url 2”。在這種情況下,首先布置描述片段類型的“styp”框。隨后,布置描述片段索引的“sidx”框。隨后,布置預(yù)定數(shù)量的電影片段(Movie Fragment)。此處,電影片段配置有包括控制信息的“moof”框以及包括媒體數(shù)據(jù)主體的“mdat”框。由于通過(guò)分段發(fā)送媒體所獲得的片段包括在一個(gè)電影片段的“mdat”框中,所以包括在“moof”框中的控制信息是涉及該片段的控制信息。“styp”、“sidx”、“moof”以及“mdat”是組成片段的單元。
此外,還考慮上述“url 1”和“url 2”的組合。在這種情況下,例如,“url 1”可被設(shè)為初始化片段,并且“url 1”和“url 2”可被設(shè)為一個(gè)服務(wù)的MP4。替換地,如圖14(c)所示,“url 1”和“url 2”可結(jié)合為一個(gè)并被定義為“url 3”。
如上所述,在“moov”框中,寫入軌道標(biāo)識(shí)符(軌道ID)與級(jí)別標(biāo)識(shí)符(級(jí)別ID)之間的對(duì)應(yīng)。如圖15(a)所示,“ftyp”框和“moov”框組成初始化片段(Initialization segment)。在“moov”框中存在“mvex”框,并且在“mvex”框中進(jìn)一步存在“l(fā)eva”框。
如圖15(b)所示,在“l(fā)eva”框中,定義軌道標(biāo)識(shí)符(軌道ID)與級(jí)別標(biāo)識(shí)符(級(jí)別ID)之間的對(duì)應(yīng)。在所示實(shí)例中,“l(fā)evel0”與“track0”相關(guān)聯(lián),“l(fā)evel1”與“track1”相關(guān)聯(lián),并且“l(fā)evel2”與“track2”相關(guān)聯(lián)。
圖16(a)示出在廣播系統(tǒng)的情況下,發(fā)送每個(gè)框的實(shí)例。一個(gè)片段配置有第一初始化片段(is),接下來(lái)“styp”,接下來(lái)“sidx”框,并且接下來(lái)預(yù)定數(shù)量的電影片段(配置有“moof”框和“mdat”框)。在所示實(shí)例中,預(yù)定數(shù)量為一。
如上所述,在組成初始化片段(is)的“moov”框中,寫入軌道標(biāo)識(shí)符(軌道ID)與級(jí)別標(biāo)識(shí)符(級(jí)別ID)之間的對(duì)應(yīng)。此外,如圖16(b)所示,在“sidx”框中,由級(jí)別(level)定義每個(gè)軌道,并且存在每個(gè)軌道的注冊(cè)范圍信息。換言之,對(duì)應(yīng)于每個(gè)級(jí)別,在文件中記錄軌道的再現(xiàn)時(shí)間信息和開(kāi)始位置信息。在接收側(cè)中,關(guān)于音頻,基于范圍信息選擇性提取期望音軌的音頻流。
返回參考圖3,服務(wù)接收器200從服務(wù)發(fā)送系統(tǒng)100接收經(jīng)由RF傳輸路徑或通信網(wǎng)絡(luò)傳輸路徑傳輸?shù)腄ASH/MP4,其是包括作為元文件的MPD文件以及諸如視頻、音頻等的媒體流(媒體片段)的MP4。
如上所述,除了視頻流以外,MP4包括組成3D音頻發(fā)送數(shù)據(jù)的包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音軌(音頻流)。隨后,在MPD文件中,插入表示包括在3D音頻發(fā)送數(shù)據(jù)中的多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息以及表示多個(gè)組的編碼數(shù)據(jù)分別包括在哪個(gè)音軌(音頻流)中的流對(duì)應(yīng)關(guān)系信息。
服務(wù)接收器200基于屬性信息和流對(duì)應(yīng)關(guān)系信息,對(duì)包括具有與揚(yáng)聲器配置和用戶選擇信息兼容的屬性的組的編碼數(shù)據(jù)的音頻流選擇性執(zhí)行解碼過(guò)程,并且獲得3D音頻的音頻輸出。
[服務(wù)發(fā)送系統(tǒng)的DASH/MP4生成單元]
圖17示出包括在服務(wù)發(fā)送系統(tǒng)100中的DASH/MP4生成單元110的示例性配置。DASH/MP4生成單元110包括控制單元111、視頻編碼器112、音頻編碼器113以及DASH/MP4格式器114。
視頻編碼器112輸入視頻數(shù)據(jù)SV,對(duì)視頻數(shù)據(jù)SV執(zhí)行諸如MPEG2、H.264/AVC以及H.265/HEVC的編碼,并且生成視頻流(視頻基本流)。音頻編碼器113輸入沉浸式音頻和語(yǔ)音對(duì)話的對(duì)象數(shù)據(jù)以及信道數(shù)據(jù)作為音頻數(shù)據(jù)SA。
音頻編碼器113對(duì)音頻數(shù)據(jù)SA執(zhí)行MPEGH的編碼,并且獲得3D音頻發(fā)送數(shù)據(jù)。如圖5所示,3D音頻發(fā)送數(shù)據(jù)包括信道編碼數(shù)據(jù)(CD)、沉浸式音頻對(duì)象編碼數(shù)據(jù)(IAO)以及語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)(SDO)。音頻編碼器113生成包括多個(gè)組(即,在該實(shí)例中,四組)的編碼數(shù)據(jù)的一個(gè)或多個(gè)音頻流(音頻基本流)(參見(jiàn)圖6(a)和圖6(b))。
DASH/MP4格式器114基于在視頻編碼器112中生成的視頻流以及在音頻編碼器113中生成的預(yù)定數(shù)量的音頻流,生成包括視頻和音頻的媒體流(媒體片段)的MP4作為內(nèi)容。此處,每個(gè)視頻流或音頻流被存儲(chǔ)在MP4中以分別作為獨(dú)立軌道(tracks)。
此外,DASH/MP4格式器114通過(guò)使用內(nèi)容元數(shù)據(jù)、片段URL信息等生成MPD文件。在本實(shí)施方式中,DASH/MP4格式器114在MPD文件中插入表示包括在3D音頻發(fā)送數(shù)據(jù)中的多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息,并且還插入表示多個(gè)組的編碼數(shù)據(jù)分別包括在哪個(gè)音軌(音頻流)中的流對(duì)應(yīng)關(guān)系信息(參見(jiàn)圖11和圖12)。
將簡(jiǎn)要說(shuō)明圖17所示的DASH/MP4生成單元110的操作。視頻數(shù)據(jù)SV被提供至視頻編碼器112。視頻編碼器112對(duì)視頻數(shù)據(jù)SV執(zhí)行H.264/AVC、H.265/HEVC等的編碼,并且生成包括編碼視頻數(shù)據(jù)的視頻流。視頻流被提供至DASH/MP4格式器114。
音頻數(shù)據(jù)SA被提供至音頻編碼器113。音頻數(shù)據(jù)SA包括信道數(shù)據(jù)和沉浸式音頻和語(yǔ)音對(duì)話的對(duì)象數(shù)據(jù)。音頻編碼器113對(duì)音頻數(shù)據(jù)SA執(zhí)行MPEGH的編碼,并且獲得3D音頻發(fā)送數(shù)據(jù)。
除了信道編碼數(shù)據(jù)(CD)以外,3D音頻發(fā)送數(shù)據(jù)包括沉浸式音頻對(duì)象編碼數(shù)據(jù)(IAO)和語(yǔ)音對(duì)話對(duì)象編碼數(shù)據(jù)(SDO)(參見(jiàn)圖5)。隨后,音頻編碼器113生成包括四組編碼數(shù)據(jù)的一個(gè)或多個(gè)音頻流(參見(jiàn)圖6(a)和圖6(b))。音頻流被提供至DASH/MP4格式器114。
DASH/MP4格式器114基于在視頻編碼器112中生成的視頻流以及在音頻編碼器113中生成的預(yù)定數(shù)量的音頻流,生成包括視頻、音頻等的媒體流(媒體片段)的MP4作為內(nèi)容。此處,每個(gè)視頻流或音頻流被存儲(chǔ)在MP4中以分別作為單獨(dú)軌道(tracks)。
此外,DASH/MP4格式器114通過(guò)使用內(nèi)容元數(shù)據(jù)、片段URL信息等生成MPD文件。在MPD文件中,插入表示包括在3D音頻發(fā)送數(shù)據(jù)中的多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息,并且還插入表示多個(gè)組的編碼數(shù)據(jù)分別包括在哪個(gè)音軌(音頻流)中的流對(duì)應(yīng)關(guān)系信息。
[服務(wù)接收器的示例性配置]
圖18示出服務(wù)接收器200的示例性配置。服務(wù)接收器200包括接收單元201、DASH/MP4分析單元202、視頻解碼器203、圖像處理電路204、面板驅(qū)動(dòng)電路205以及顯示面板206。此外,服務(wù)接收器200包括容器緩沖器211-1至211-N、組合器212、3D音頻解碼器213、音頻輸出處理電路214以及揚(yáng)聲器系統(tǒng)215。此外,服務(wù)接收器200包括CPU 221、閃存ROM 222、DRAM 223、內(nèi)部總線224、遠(yuǎn)程控制接收單元225以及遠(yuǎn)程控制發(fā)送器226。
CPU 221控制服務(wù)接收器200中的每個(gè)單元的操作。閃存ROM 222存儲(chǔ)控制軟件并保存數(shù)據(jù)。DRAM 223組成CPU 221的工作區(qū)域。CPU 221通過(guò)在DRAM 223中開(kāi)發(fā)軟件或從閃存ROM 222讀取的數(shù)據(jù)激活軟件,并且控制服務(wù)接收器200中的每個(gè)單元。
遠(yuǎn)程控制接收單元225接收從遠(yuǎn)程控制發(fā)送器226發(fā)送的遠(yuǎn)程控制信號(hào)(遠(yuǎn)程控制代碼),并且將該信號(hào)提供至CPU 221。CPU 221基于遠(yuǎn)程控制代碼控制服務(wù)接收器200中的每個(gè)單元。CPU 221、閃存ROM 222以及DRAM 223連接至內(nèi)部總線224。
接收單元201接收經(jīng)由RF傳輸路徑或通信網(wǎng)絡(luò)傳輸路徑從服務(wù)發(fā)送系統(tǒng)100發(fā)送的DASH/MP4,其是作為元文件的MPD文件以及包括諸如視頻和音頻的媒體流(媒體片段)的MP4。
除了視頻流以外,MP4包括預(yù)定數(shù)量的音軌(音頻流),該音軌(音頻流)包括組成3D音頻發(fā)送數(shù)據(jù)的多組編碼數(shù)據(jù)。此外,在MPD文件中,插入表示包括在3D音頻發(fā)送數(shù)據(jù)中的多組編碼數(shù)據(jù)的每個(gè)屬性的屬性信息,并且還插入表示多個(gè)組的編碼數(shù)據(jù)分別包括在哪個(gè)音軌(音頻流)中的流對(duì)應(yīng)關(guān)系信息。
DASH/MP4分析單元202分析由接收單元201接收的MPD文件和MP4。DASH/MP4分析單元202從MP4提取視頻流,并且將視頻流發(fā)送至視頻解碼器203。視頻解碼器203對(duì)視頻流執(zhí)行解碼過(guò)程,并且獲得未壓縮的視頻數(shù)據(jù)。
圖像處理電路204對(duì)通過(guò)視頻解碼器203獲得的視頻數(shù)據(jù)執(zhí)行縮放處理和圖像質(zhì)量調(diào)整處理,并且獲得用于顯示的視頻數(shù)據(jù)。面板驅(qū)動(dòng)電路205基于由圖像處理電路204獲得的待顯示視頻數(shù)據(jù)驅(qū)動(dòng)顯示面板206。顯示面板206配置有例如,液晶顯示器(LCD)、有機(jī)場(chǎng)致發(fā)光顯示器(有機(jī)EL顯示器)等。
此外,DASH/MP4分析單元202提取包括在MPD文件中的MPD信息,并且將MPD信息發(fā)送至CPU 221。CPU 221基于MPD信息控制視頻流或音頻流的獲得過(guò)程。此外,DASH/MP4分析單元202例如,從MP4提取諸如每個(gè)軌道的報(bào)頭信息、內(nèi)容實(shí)質(zhì)的元描述、時(shí)間信息的元數(shù)據(jù),并且將元數(shù)據(jù)發(fā)送至CPU 221。
CPU 221基于表示每個(gè)組的編碼數(shù)據(jù)的屬性的屬性信息以及表示每個(gè)組包括在MPD文件中的哪個(gè)音軌(音頻流)的流對(duì)應(yīng)關(guān)系信息,來(lái)識(shí)別包括具有與揚(yáng)聲器配置和觀看者(用戶)選擇信息兼容的屬性的組的編碼數(shù)據(jù)的音軌(音頻流)。
此外,在CPU 221的控制下,換言之,DASH/MP4分析單元202參考級(jí)別ID(level ID)、軌道ID(track ID),并且在包括在MP4中的預(yù)定數(shù)量的音頻流中,選擇性地提取包括具有與揚(yáng)聲器配置和觀看者(用戶)選擇信息兼容的屬性的組的編碼數(shù)據(jù)的一個(gè)或多個(gè)音頻流。
容器緩沖器211-1至211-N分別輸入通過(guò)DASH/MP4分析單元202提取的每個(gè)音頻流。此處,容器緩沖器211-1至211-N的數(shù)量N是必要和足夠的數(shù)量,并且在實(shí)際操作中,該數(shù)量等于在DASH/MP4分析單元202中提取的音頻流的數(shù)量。
組合器212從容器緩沖器211-1至211-N中的輸入了通過(guò)DASH/MP4分析單元202提取的每個(gè)音頻流的容器緩沖器讀取每個(gè)音頻幀的音頻流,并且將具有與揚(yáng)聲器配置和觀看者(用戶)選擇信息兼容的屬性的組的編碼數(shù)據(jù)提供至3D音頻解碼器213。
3D音頻解碼器213對(duì)從組合器212提供的編碼數(shù)據(jù)執(zhí)行解碼過(guò)程,并且獲得音頻數(shù)據(jù)以驅(qū)動(dòng)揚(yáng)聲器系統(tǒng)215的每個(gè)揚(yáng)聲器。此處,對(duì)其執(zhí)行解碼處理的編碼數(shù)據(jù)可存在三種情況,這三種情況是僅包括信道編碼數(shù)據(jù)的情況,僅包括對(duì)象編碼數(shù)據(jù)的情況,以及包括信道編碼數(shù)據(jù)和對(duì)象編碼數(shù)據(jù)這兩者的情況。
當(dāng)解碼信道編碼數(shù)據(jù)時(shí),3D音頻解碼器213通過(guò)執(zhí)行用于揚(yáng)聲器系統(tǒng)215的揚(yáng)聲器配置的下混音和上混音,獲得音頻數(shù)據(jù)以驅(qū)動(dòng)每個(gè)揚(yáng)聲器。此外,當(dāng)解碼對(duì)象編碼數(shù)據(jù)時(shí),3D音頻解碼器213基于對(duì)象信息(元數(shù)據(jù))計(jì)算揚(yáng)聲器渲染(用于每個(gè)揚(yáng)聲器的混合率),并且根據(jù)計(jì)算結(jié)果,將對(duì)象的音頻數(shù)據(jù)混合至用于驅(qū)動(dòng)每個(gè)揚(yáng)聲器的音頻數(shù)據(jù)。
音頻輸出處理電路214對(duì)從3D音頻解碼器213獲得的驅(qū)動(dòng)每個(gè)揚(yáng)聲器的音頻數(shù)據(jù)執(zhí)行諸如D/A轉(zhuǎn)換、放大等的必要處理,并且將數(shù)據(jù)提供至揚(yáng)聲器系統(tǒng)215。揚(yáng)聲器系統(tǒng)215包括諸如多個(gè)信道(例如,2信道、5.1信道、7.1信道、22.2信道等)的多個(gè)揚(yáng)聲器。
將說(shuō)明圖18所示的服務(wù)接收器200的操作。在接收單元201中,經(jīng)由RF傳輸路徑或通信網(wǎng)絡(luò)傳輸路徑從服務(wù)發(fā)送系統(tǒng)100接收DASH/MP4,其是作為元文件的MPD文件以及包括諸如視頻和音頻的媒體流(媒體片段)的MP4。以此方式接收的MPD文件和MP4被提供至DASH/MP4分析單元202。
在DASH/MP4分析單元202中,分析在接收單元201中接收的MPD文件和MP4。隨后,在DASH/MP4分析單元202中,從MP4提取視頻流,并且將該視頻流發(fā)送至視頻解碼器203。在視頻解碼器203中,對(duì)視頻流執(zhí)行解碼處理,并且獲得未壓縮的視頻數(shù)據(jù)。視頻數(shù)據(jù)被提供至圖像處理電路204。
在圖像處理電路204中,對(duì)在視頻解碼器203中獲得的視頻數(shù)據(jù)執(zhí)行縮放處理、圖像質(zhì)量調(diào)整處理等,并且獲得待顯示的視頻數(shù)據(jù)。待顯示的視頻數(shù)據(jù)被提供至面板驅(qū)動(dòng)電路205。在面板驅(qū)動(dòng)電路205中,基于待顯示的視頻數(shù)據(jù)驅(qū)動(dòng)顯示面板206。利用該配置,在顯示面板206上,顯示與待顯示的視頻數(shù)據(jù)相對(duì)應(yīng)的圖像。
此外,在DASH/MP4分析單元202中,包括在MPD文件中的MPD信息被提取并被發(fā)送至CPU 221。此外,在DASH/MP4分析單元202中,從MP4提取元數(shù)據(jù),例如,每個(gè)軌道的報(bào)頭信息、內(nèi)容實(shí)質(zhì)的元描述、時(shí)間信息等,并且該元數(shù)據(jù)被發(fā)送至CPU 221。在CPU 221中,基于包括在MPD文件中的屬性信息、流對(duì)應(yīng)關(guān)系信息等,識(shí)別其中組的編碼數(shù)據(jù)具有與揚(yáng)聲器配置和觀看者(用戶)選擇信息兼容的屬性的音軌(音頻流)。
此外,在CPU 221的控制下,在DASH/MP4分析單元202中,通過(guò)參考軌道ID(track ID)從包括在MP4中的預(yù)定數(shù)量的音頻流選擇性提取包括與揚(yáng)聲器配置和觀看者(用戶)選擇信息兼容的屬性的組的編碼數(shù)據(jù)的一個(gè)或多個(gè)音頻流。
在DASH/MP4分析單元202中提取的音頻流被輸入至容器緩沖器211-1至211-N中的對(duì)應(yīng)容器緩沖器。在組合器212中,從輸入了音頻流的容器緩存器的每個(gè)音頻幀中讀取音頻流,并經(jīng)該音頻流提供至3D音頻解碼器213作為具有與揚(yáng)聲器配置和觀看者選擇信息兼容的屬性的組的編碼數(shù)據(jù)。在3D音頻解碼器213中,對(duì)由組合器212提供的編碼數(shù)據(jù)執(zhí)行解碼處理,并且獲得用于驅(qū)動(dòng)揚(yáng)聲器系統(tǒng)215的每個(gè)揚(yáng)聲器的音頻數(shù)據(jù)。
此處,當(dāng)解碼信道編碼數(shù)據(jù)時(shí),執(zhí)行用于揚(yáng)聲器系統(tǒng)215的揚(yáng)聲器配置的下混音和上混音的處理,并且獲得用于驅(qū)動(dòng)每個(gè)揚(yáng)聲器的音頻數(shù)據(jù)。此外,當(dāng)解碼對(duì)象編碼數(shù)據(jù)時(shí),基于對(duì)象信息(元數(shù)據(jù))計(jì)算揚(yáng)聲器渲染(用于每個(gè)揚(yáng)聲器的混合率),并且根據(jù)計(jì)算結(jié)果,將對(duì)象的音頻數(shù)據(jù)混合至用于驅(qū)動(dòng)每個(gè)揚(yáng)聲器的音頻數(shù)據(jù)。
在3D音頻解碼器213中獲得的用于驅(qū)動(dòng)每個(gè)揚(yáng)聲器的音頻數(shù)據(jù)被提供至音頻輸出處理電路214。在音頻輸出處理電路214中,對(duì)用于驅(qū)動(dòng)每個(gè)揚(yáng)聲器的音頻數(shù)據(jù)執(zhí)行諸如D/A轉(zhuǎn)換、放大等的必要處理。隨后,處理過(guò)的音頻數(shù)據(jù)被提供至揚(yáng)聲器系統(tǒng)215。利用該配置,從揚(yáng)聲器系統(tǒng)215獲得與顯示面板206的顯示圖像相對(duì)應(yīng)的聲音輸出。
圖19示出圖18所示的服務(wù)接收器200中的通過(guò)CPU 221的音頻解碼控制處理的實(shí)例。在步驟ST1中,CPU 221開(kāi)始處理。隨后,在步驟ST2中,CPU 221檢測(cè)接收器的揚(yáng)聲器配置,即,揚(yáng)聲器系統(tǒng)215的揚(yáng)聲器配置。接下來(lái),在步驟ST3中,CPU 221獲取來(lái)自觀看者(用戶)的有關(guān)音頻輸出的選擇信息。
接下來(lái),在步驟ST4中,CPU 221讀取有關(guān)MPD信息的每個(gè)音頻流的信息,其是“groupID”、“attribute”、“switchGroupID”、“presetGroupID”以及“l(fā)evelID”。隨后,在步驟ST5中,CPU 221識(shí)別具有與揚(yáng)聲器配置和觀看者選擇信息兼容的屬性的編碼數(shù)據(jù)組所屬的音軌的軌道ID(track ID)。
接下來(lái),在步驟ST6中,CPU 221基于識(shí)別結(jié)果選擇每個(gè)音軌,并且將存儲(chǔ)的音頻流輸入至容器緩沖器。隨后,在步驟ST7中,CPU 221從容器緩沖器讀取用于每個(gè)音頻幀的音頻流,并且將必要組的編碼數(shù)據(jù)提供至3D音頻解碼器213。
接下來(lái),在步驟ST8中,CPU 221確定是否解碼對(duì)象編碼數(shù)據(jù)。在步驟ST9中,當(dāng)解碼對(duì)象編碼數(shù)據(jù)時(shí),CPU 221基于對(duì)象信息(元數(shù)據(jù)),通過(guò)使用方位角(方位信息)和海拔(仰角信息)計(jì)算揚(yáng)聲器渲染(用于每個(gè)揚(yáng)聲器的混合率)。此后,CPU 221進(jìn)行至步驟ST10中的處理。此處,在步驟ST8中當(dāng)對(duì)象編碼數(shù)據(jù)不被解碼時(shí),CPU 221立即進(jìn)行至步驟ST10中的處理。
在步驟ST10中,CPU 221確定是否解碼信道編碼數(shù)據(jù)。在步驟ST11中,當(dāng)解碼信道編碼數(shù)據(jù)時(shí),CPU 221執(zhí)行用于揚(yáng)聲器系統(tǒng)215的揚(yáng)聲器配置的下混音和上混音的處理,并且獲得用于驅(qū)動(dòng)每個(gè)揚(yáng)聲器的音頻數(shù)據(jù)。此后,CPU 221進(jìn)行至步驟ST12中的處理。此處,在步驟ST10中當(dāng)對(duì)象編碼數(shù)據(jù)不被解碼時(shí),CPU 221立即進(jìn)行至步驟ST12中的處理。
在步驟ST12中,當(dāng)解碼對(duì)象編碼數(shù)據(jù)時(shí),CPU 221根據(jù)在步驟ST9中的計(jì)算結(jié)果,將對(duì)象的音頻數(shù)據(jù)混合至用于驅(qū)動(dòng)每個(gè)揚(yáng)聲器的音頻數(shù)據(jù),并且此后執(zhí)行動(dòng)態(tài)范圍控制。隨后,在步驟ST13中,CPU 221結(jié)束處理。本文中,當(dāng)對(duì)象編碼數(shù)據(jù)不被解碼時(shí),CPU 221跳過(guò)步驟ST12中的處理。
如上所述,在圖3所示的收發(fā)系統(tǒng)10中,服務(wù)發(fā)送系統(tǒng)100將表示包括在預(yù)定數(shù)量的音頻流中的多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息插入至MPD文件。因此,接收側(cè)可在解碼編碼數(shù)據(jù)之前,輕易識(shí)別多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性,使得必要組的編碼數(shù)據(jù)可被選擇性解碼和使用,并且這可降低處理負(fù)載。
此外,在圖3所示的收發(fā)系統(tǒng)10中,服務(wù)發(fā)送系統(tǒng)100將表示多個(gè)組的編碼數(shù)據(jù)分別包括在哪個(gè)音軌(音頻流)中的流對(duì)應(yīng)關(guān)系信息插入至MPD文件。因此,接收側(cè)可輕易識(shí)別包括必要組的編碼數(shù)據(jù)的音軌(音頻流),并且處理負(fù)載可降低。
<2.變型例>
本文中,在以上實(shí)施方式中,服務(wù)接收器200被配置為從由服務(wù)發(fā)送系統(tǒng)100發(fā)送的多個(gè)音頻流中選擇性提取其中具有與揚(yáng)聲器配置和觀看者選擇信息兼容的屬性的組的編碼數(shù)據(jù)的音頻流,并且通過(guò)執(zhí)行解碼處理獲得用于驅(qū)動(dòng)預(yù)定數(shù)量的揚(yáng)聲器的音頻數(shù)據(jù)。
本文中,作為服務(wù)接收器,它可被視為從由服務(wù)發(fā)送系統(tǒng)100發(fā)送的多個(gè)音頻流中選擇性提取包括具有與揚(yáng)聲器配置和觀看者選擇信息兼容的屬性的組的編碼數(shù)據(jù)的一個(gè)或多個(gè)音頻流,重新配置具有與揚(yáng)聲器配置和觀看者選擇信息兼容的屬性的組的編碼數(shù)據(jù)的音頻流,并且將重新配置的音頻流分配至連接至內(nèi)部網(wǎng)絡(luò)的裝置(包括DLNA裝置)。
圖20示出如上所述的將重新配置的音頻流分配至連接至內(nèi)部網(wǎng)絡(luò)的裝置的服務(wù)接收器200A的示例性配置。在圖20中,相同參考標(biāo)號(hào)應(yīng)用至與圖18中的部件相對(duì)應(yīng)的部件,并且其詳細(xì)解釋將根據(jù)需要省去。
在通過(guò)CPU 221的控制下,DASH/MP4分析單元202參考級(jí)別ID(level ID),即,軌道ID(track ID),并且從包括在MP4中的預(yù)定數(shù)量的音頻流中,選擇性提取包括具有與揚(yáng)聲器配置和觀看者(用戶)選擇信息兼容的屬性的組的編碼數(shù)據(jù)的一個(gè)或多個(gè)音頻流。
在DASH/MP4分析單元202中提取的音頻流被輸入至容器緩沖器211-1至211-N中的對(duì)應(yīng)容器緩沖器。在組合器212中,從輸入了音頻流的每個(gè)容器緩沖器讀取用于每個(gè)音頻幀的音頻流,并將該音頻流提供至流重新配置單元231。
在流重新配置單元231中,選擇性獲取具有與揚(yáng)聲器配置和觀看者選擇信息兼容的屬性的預(yù)定組的編碼數(shù)據(jù),并且重新配置具有預(yù)定組的編碼數(shù)據(jù)的音頻流。重新配置的音頻流被提供至傳送接口232。隨后,重新配置的音頻流從傳送接口232傳送(發(fā)送)至連接至內(nèi)部網(wǎng)絡(luò)的裝置300。
內(nèi)部網(wǎng)絡(luò)連接包括以太網(wǎng)連接以及諸如“WiFi”和“Bluetooth”無(wú)線連接。本文中,“WiFi”和“Bluetooth”是注冊(cè)商標(biāo)。
此外,裝置300包括附接至網(wǎng)絡(luò)終端的環(huán)繞聲揚(yáng)聲器、第二顯示器、音頻輸出裝置。接收重新配置的音頻流的傳送的裝置300執(zhí)行與圖18的服務(wù)接收器200中的3D音頻解碼器213相似的解碼處理,并且獲得用于驅(qū)動(dòng)預(yù)定數(shù)量的揚(yáng)聲器的音頻數(shù)據(jù)。
此外,服務(wù)接收器可具有將上述重新配置的音頻流發(fā)送至由諸如,“高清多媒體接口(HDMI)”、“移動(dòng)高清鏈路(MHL)”、“DisplayPort”等的數(shù)字接口連接的裝置的配置。本文中,“HDMI”和“MHL”是注冊(cè)商標(biāo)。
此外,上述實(shí)施方式描述了提供“屬性”的字段以及發(fā)送每個(gè)組的編碼數(shù)據(jù)的屬性信息的實(shí)例(參見(jiàn)圖11至圖13)。然而,本技術(shù)包括在發(fā)送器與接收器之間定義組ID(GroupID)的值本身使得可通過(guò)識(shí)別特定組ID來(lái)識(shí)別編碼數(shù)據(jù)的類型(屬性)的特定方法。在這種情況下,除了用作組的標(biāo)識(shí)符以外,組ID用作組的編碼數(shù)據(jù)的屬性信息,并且不需要“屬性”字段。
此外,上述實(shí)施方式描述了信道編碼數(shù)據(jù)和對(duì)象編碼數(shù)據(jù)被包括在多個(gè)組的編碼數(shù)據(jù)中的實(shí)例(參見(jiàn)圖5)。然而,本技術(shù)可以以類似方式應(yīng)用至多個(gè)組的編碼數(shù)據(jù)僅包括信道編碼數(shù)據(jù)或僅包括對(duì)象編碼數(shù)據(jù)的情況。
本文中,本技術(shù)可具有以下配置。
(1)一種發(fā)送裝置,包括:
發(fā)送單元,被配置為發(fā)送具有元信息的元文件,元信息用于在接收裝置中獲取包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流;以及
信息插入單元,被配置為將表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息插入至元文件。
(2)根據(jù)(1)所述的發(fā)送裝置,其中,信息插入單元進(jìn)一步將流對(duì)應(yīng)關(guān)系信息插入至元文件,流對(duì)應(yīng)關(guān)系信息表示多個(gè)組的編碼數(shù)據(jù)分別包括在哪個(gè)音頻流中。
(3)根據(jù)(2)所述的發(fā)送裝置,其中,流對(duì)應(yīng)關(guān)系信息是表示分別標(biāo)識(shí)多個(gè)組的編碼數(shù)據(jù)中的每一個(gè)的組標(biāo)識(shí)符與分別標(biāo)識(shí)預(yù)定數(shù)量的音頻流中的每一個(gè)的標(biāo)識(shí)符之間的對(duì)應(yīng)關(guān)系的信息。
(4)根據(jù)(1)至(3)中任一項(xiàng)所述的發(fā)送裝置,其中,元文件是MPD文件。
(5)根據(jù)(4)所述的發(fā)送裝置,其中,信息插入單元通過(guò)使用“補(bǔ)充描述符”將屬性信息插入至元文件。
(6)根據(jù)(1)至(5)中任一項(xiàng)所述的發(fā)送裝置,其中,發(fā)送單元經(jīng)由RF傳輸路徑或通信網(wǎng)絡(luò)傳輸路徑發(fā)送元文件。
(7)根據(jù)(1)至(6)中任一項(xiàng)所述的發(fā)送裝置,其中,發(fā)送單元進(jìn)一步發(fā)送具有包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流的預(yù)定格式的容器。
(8)根據(jù)(7)所述的發(fā)送裝置,其中,容器是MP4。
(9)根據(jù)(1)至(8)中任一項(xiàng)所述的發(fā)送裝置,其中,多個(gè)組的編碼數(shù)據(jù)包括信道編碼數(shù)據(jù)和對(duì)象編碼數(shù)據(jù)中的一個(gè)或兩個(gè)。
(10)一種發(fā)送方法,包括:
發(fā)送步驟,通過(guò)發(fā)送單元發(fā)送具有元信息的元文件,該元信息用于在接收裝置中獲取包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流;以及
信息插入步驟,將表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息插入至元文件。
(11)一種接收裝置,包括:
接收單元,被配置為接收具有元信息的元文件,元信息用于在接收裝置中獲取包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流,
在元文件中插入有表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息;以及
處理單元,被配置為基于屬性信息處理預(yù)定數(shù)量的音頻流。
(12)根據(jù)(11)所述的接收裝置,
其中,
表示多個(gè)組的編碼數(shù)據(jù)分別包括在哪個(gè)音頻流中的流對(duì)應(yīng)關(guān)系信息被進(jìn)一步插入至元文件,并且
處理單元基于流對(duì)應(yīng)關(guān)系信息以及屬性信息處理預(yù)定數(shù)量的音頻流。
(13)根據(jù)(12)所述的接收裝置,其中,處理單元基于屬性信息和流對(duì)應(yīng)關(guān)系信息,對(duì)包括具有與揚(yáng)聲器配置和用戶選擇信息兼容的屬性的組的編碼數(shù)據(jù)的音頻流選擇性執(zhí)行解碼處理。
(14)根據(jù)(11)至(13)中任一項(xiàng)所述的接收裝置,其中,多個(gè)組的編碼數(shù)據(jù)包括信道編碼數(shù)據(jù)和對(duì)象編碼數(shù)據(jù)中的一個(gè)或兩個(gè)。
(15)一種接收方法,包括:
接收步驟,通過(guò)接收單元接收具有元信息的元文件,元信息用于在接收裝置中獲取包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流,
在元文件中插入有表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息;以及
處理步驟,基于屬性信息處理預(yù)定數(shù)量的音頻流。
(16)一種接收裝置,包括:
接收單元,被配置為接收具有元信息的元文件,元信息用于在接收裝置中獲取包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流,
在元文件中插入有表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息;
處理單元,被配置為基于屬性信息從預(yù)定數(shù)量的音頻流中選擇性獲取預(yù)定組的編碼數(shù)據(jù),并且重新配置包括預(yù)定組的編碼數(shù)據(jù)的音頻流;以及
流發(fā)送單元,被配置為將所重新配置的音頻流發(fā)送至外部裝置。
(17)根據(jù)(16)所述的接收裝置,其中,
表示多個(gè)組的編碼數(shù)據(jù)分別包括在哪個(gè)音頻流中的流對(duì)應(yīng)關(guān)系信息被進(jìn)一步插入至元文件,并且
處理單元基于流對(duì)應(yīng)關(guān)系信息以及屬性信息從預(yù)定數(shù)量的音頻流中選擇性獲取預(yù)定組的編碼數(shù)據(jù)。
(18)一種接收方法,包括:
接收步驟,由接收單元接收具有元信息的元文件,元信息用于在接收裝置中獲取包括多個(gè)組的編碼數(shù)據(jù)的預(yù)定數(shù)量的音頻流,
在元文件中插入表示多個(gè)組的編碼數(shù)據(jù)的每個(gè)屬性的屬性信息;
處理步驟,基于屬性信息從預(yù)定數(shù)量的音頻流中選擇性獲取預(yù)定組的編碼數(shù)據(jù),并且重新配置包括預(yù)定組的編碼數(shù)據(jù)的音頻流;以及
流發(fā)送步驟,將所重新配置的音頻流發(fā)送至外部裝置。
本技術(shù)的主要特征可以通過(guò)將表示包括在預(yù)定數(shù)量的音頻流中的多個(gè)組的編碼數(shù)據(jù)的相應(yīng)屬性的屬性信息以及表示多個(gè)組的編碼數(shù)據(jù)分別包括在哪個(gè)音軌(音頻流)中的流對(duì)應(yīng)關(guān)系信息插入至MPD文件(參見(jiàn)圖11、圖12和圖17),來(lái)降低接收側(cè)中的處理負(fù)載。
符號(hào)說(shuō)明
10 收發(fā)系統(tǒng)
30A、30B 基于MPEG-DASH的流傳送系統(tǒng)
31 DASH流文件服務(wù)器
32 DASH MPD服務(wù)器
33、33-1至33-N) 服務(wù)接收器
34 CDN
35、35-1至35-M) 服務(wù)接收器
36 廣播發(fā)送系統(tǒng)
100 服務(wù)發(fā)送系統(tǒng)
110 DASH/MP4生成單元
112 視頻編碼器
113 音頻編碼器
114 DASH/MP4格式器
200 服務(wù)接收器
201 接收單元
202 DASH/MP4分析單元
203 視頻解碼器
204 圖像處理電路
205 面板驅(qū)動(dòng)電路
206 顯示面板
211-1至211-N 容器緩沖器
212 組合器
213 3D音頻解碼器
214 音頻輸出處理電路
215 揚(yáng)聲器系統(tǒng)
221 CPU
222 閃存ROM
223 DRAM
224 內(nèi)部總線
225 遠(yuǎn)程控制接收單元
226 遠(yuǎn)程控制發(fā)送器
231 流重新配置單元
232 傳送接口
300 裝置。