本公開涉及信息處理裝置和信息處理方法,且尤其涉及使得能夠容易再現(xiàn)多個(gè)種類的音頻數(shù)據(jù)中的預(yù)定種類的音頻數(shù)據(jù)的信息處理裝置和信息處理方法。
背景技術(shù):
近年來,互聯(lián)網(wǎng)上的流服務(wù)的主流已經(jīng)超過熱門視頻(OTT-V)。作為基本技術(shù)而日益流行的技術(shù)是運(yùn)動(dòng)圖像專家組-基于HTTP的動(dòng)態(tài)自適應(yīng)流(MPEG-DASH)(例如,參見非專利文獻(xiàn)1)。
在MPEG-DASH中,分配服務(wù)器針對(duì)一條運(yùn)動(dòng)圖像內(nèi)容準(zhǔn)備具有不同屏幕尺寸和編碼速度的運(yùn)動(dòng)圖像數(shù)據(jù)組,且再現(xiàn)終端根據(jù)發(fā)送路徑的狀況,要求具有最佳屏幕尺寸和最佳編碼速度的運(yùn)動(dòng)圖像數(shù)據(jù)組,使得實(shí)現(xiàn)自適應(yīng)流分配。
引用列表
非專利文獻(xiàn)
非專利文獻(xiàn)1:MPEG-DASH(基于HTTP的動(dòng)態(tài)自適應(yīng)流)(URL:http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-description-and-segment-formats/text-isoiec-23009-12012-dam-1)
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明待解決的問題
然而,還未考慮到多組的音頻數(shù)據(jù)中的預(yù)定組的音頻數(shù)據(jù)的容易再現(xiàn)(再生,reproduction)。
鑒于上述問題而作出本公開,且本公開支持多組的音頻數(shù)據(jù)中的所期望組的音頻數(shù)據(jù)的容易再現(xiàn)。
問題的解決方案
本公開的第一方面的信息處理裝置為包括文件生成單元的信息處理裝置,該文件生成單元生成以下文件,其中多個(gè)種類的音頻數(shù)據(jù)針對(duì)種類中的每一種或多種而被分割到軌道中并被布置,且布置有與所述多個(gè)種類相關(guān)的信息。
本公開的第一方面的信息處理方法對(duì)應(yīng)于本公開的第一方面的信息處理裝置。
在本公開的第一方面中,生成了一種文件,在該文件中多個(gè)種類的音頻數(shù)據(jù)針對(duì)所述種類的每一種或多種而被分割到軌道中并被布置,且布置有與多個(gè)種類相關(guān)的信息。
本公開的第二方面的信息處理裝置為包括再現(xiàn)單元的信息處理裝置,該再現(xiàn)單元從文件中再現(xiàn)預(yù)定軌道的音頻數(shù)據(jù),在該文件中多個(gè)種類的音頻數(shù)據(jù)針對(duì)所述種類的每一種或多種而被分割到軌道中并被布置,且與多個(gè)種類相關(guān)的信息被布置。
本公開的第二方面的信息處理方法對(duì)應(yīng)于本公開的第二方面的信息處理裝置。
在本公開的第二方面中,預(yù)定軌道的音頻數(shù)據(jù)從文件中再現(xiàn),在該文件中多個(gè)種類的音頻數(shù)據(jù)針對(duì)所述種類的每一種或多種而被分割到軌道中并被布置且與多個(gè)種類相關(guān)的信息被布置。
需注意,可以通過使計(jì)算機(jī)執(zhí)行程序來實(shí)現(xiàn)第一方面的信息處理裝置和第二方面的信息處理裝置。
另外,為了實(shí)現(xiàn)第一方面和第二方面的信息處理裝置,可以通過傳輸介質(zhì)傳輸由計(jì)算機(jī)執(zhí)行的程序或可將其記錄在記錄介質(zhì)上提供由計(jì)算機(jī)執(zhí)行的程序。
本發(fā)明的效果
根據(jù)本公開的第一方面,可以生成文件。另外,根據(jù)本公開的第一方面,可以生成使得可容易再現(xiàn)多個(gè)種類的頻數(shù)據(jù)中的預(yù)定種類的音頻數(shù)據(jù)的文件。
根據(jù)本公開的第二方面,可以再現(xiàn)音頻數(shù)據(jù)。另外,根據(jù)本公開的第二方面,可以容易地再現(xiàn)多個(gè)種類的音頻數(shù)據(jù)中的預(yù)定種類的音頻數(shù)據(jù)。
附圖說明
圖1為示出MPD文件的結(jié)構(gòu)的示圖。
圖2為示出“Period(時(shí)期)”、“Representation(表示)”和“Segment(片段)”之間的關(guān)系的示圖。
圖3為示出MPD文件的層級(jí)結(jié)構(gòu)的示圖。
圖4為示出MPD文件的結(jié)構(gòu)與時(shí)間軸之間的關(guān)系的示圖。
圖5為用于說明MP4的3D音頻文件格式的軌道(track)的概要的示圖。
圖6為示出moov box(moov盒子)的結(jié)構(gòu)的示圖。
圖7為示出3D音頻的層級(jí)結(jié)構(gòu)的示圖。
圖8為用于說明本公開應(yīng)用于的第一實(shí)施例中的信息處理系統(tǒng)的概要的示圖。
圖9為用于說明本公開應(yīng)用于的第一實(shí)施例中的軌道的第一示例的概要的示圖。
圖10為示出基本軌道的樣本條目的語法的示例的示圖。
圖11為示出形成switch Group的組的軌道的樣本條目的語法的示例的示圖。
圖12為示出片段結(jié)構(gòu)的第一示例的示圖。
圖13為示出片段結(jié)構(gòu)的第二示例的示圖。
圖14為示出level assignment(級(jí)別分配)盒子的描述示例的示圖。
圖15為示出本公開應(yīng)用于的在第一實(shí)施例中的MPD文件的第一描述示例的示圖。
圖16為示出圖8的文件生成設(shè)備的配置示例的框圖。
圖17為流程圖,其用于描述圖16的文件生成設(shè)備的文件生成處理。
圖18為框圖,其示出利用圖8的運(yùn)動(dòng)圖像再現(xiàn)終端實(shí)現(xiàn)的流再現(xiàn)單元的配置示例。
圖19為流程圖,其用于描述圖18的流再現(xiàn)單元的再現(xiàn)處理。
圖20為用于描述本公開應(yīng)用于的第一實(shí)施例中的軌道的第二示例的概要的示圖。
圖21為示出switch Group的組的軌道的示例組條目的語法的示例的示圖。
圖22為示出各個(gè)組的軌道的樣本條目(sample entry,樣本條目)的語法的示例的示圖。
圖23為用于說明音頻文件的軌道的第三示例的概要的示圖。
圖24為示出MPD文件的第二描述示例的示圖。
圖25為示出MPD文件的第二描述示例的另一個(gè)示例的示圖。
圖26為用于描述音頻文件的軌道的第四示例的概要的示圖。
圖27為示出MPD文件的第三描述示例的示圖。
圖28為用于描述音頻文件的軌道的第五示例的概要的示圖。
圖29為示出其中4cc為“mha3”的樣本條目的語法的示例的示圖。
圖30為示出其中4cc為“mha3”的樣本條目的語法的另一個(gè)示例的示圖。
圖31為示出MPD文件的第四描述示例的示圖。
圖32為用于描述音頻文件的軌道的第三示例的另一個(gè)示例的概要的示圖。
圖33為用于描述音頻文件的軌道的第四示例的另一個(gè)示例的概要的示圖。
圖34為用于描述音頻文件的軌道的第五示例的另一個(gè)示例的概要的示圖。
圖35為用于描述音頻文件的軌道的第六示例的概要的示圖。
圖36為示出圖35的基本軌道和組軌道的樣本條目的語法的示例的示圖。
圖37為示出其中4cc為“mha3”的樣本條目的語法的又一個(gè)示例的示圖。
圖38為用于說明本公開應(yīng)用至的第二實(shí)施例中的軌道的概要的示圖。
圖39為描述本公開應(yīng)用至的第二實(shí)施例中的MPD文件的第一描述示例的示圖。
圖40為用于描述本公開應(yīng)用至的第三實(shí)施例中的信息處理系統(tǒng)的概要的示圖。
圖41為示出圖40的文件生成設(shè)備的配置示例的框圖。
圖42為流程圖,其用于描述圖41的文件生成設(shè)備的文件生成處理。
圖43為框圖,其示出由圖40的運(yùn)動(dòng)圖像再現(xiàn)終端實(shí)現(xiàn)的流再現(xiàn)單元的配置示例。
圖44為流程圖,其用于描述圖43的流再現(xiàn)單元的再現(xiàn)處理的示例。
圖45為描述本公開應(yīng)用至的第二實(shí)施例中的MPD文件的第二描述示例的示圖。
圖46為描述本公開應(yīng)用至的第二實(shí)施例中的MPD文件的第三描述示例的示圖。
圖47為描述本公開應(yīng)用至的第二實(shí)施例中的MPD文件的第四描述示例的示圖。
圖48為描述本公開應(yīng)用至的第二實(shí)施例中的MPD文件的第五描述示例的示圖。
圖49為描述本公開應(yīng)用至的第二實(shí)施例中的MPD文件的第六描述示例的示圖。
圖50為描述本公開應(yīng)用至的第二實(shí)施例中的MPD文件的第七描述示例的示圖。
圖51為示出包括多個(gè)基本軌道的音頻文件的軌道結(jié)構(gòu)的示例的示圖。
圖52為示出包括多個(gè)基本軌道的音頻文件的軌道結(jié)構(gòu)的另一個(gè)示例的示圖。
圖53為示出計(jì)算機(jī)的硬件的配置示例的框圖。
具體實(shí)施方式
在下文中,將描述本公開的預(yù)設(shè)和用于實(shí)施本公開的實(shí)施例(以下稱為實(shí)施例)。需注意,描述將按以下順序給出。
0.本公開的預(yù)設(shè)(圖1至圖7)
1.第一實(shí)施例(圖8至圖37)
2.第二實(shí)施例(圖38至圖50)
3.基本軌道的其他示例(圖51和圖52)
4.第三實(shí)施例(圖53)
<本公開的預(yù)設(shè)>
(MPD文件的結(jié)構(gòu)的說明)
圖1是示出MPEG-DASH的媒體表示描述(MPD)文件的結(jié)構(gòu)的示圖。
在MPD文件的分析(解析)中,從在MPD文件的“Period”中包括的“Representation”屬性(圖1的媒體表示)中選出最佳的一個(gè)。
然后,通過參考在所選中的“Representation”的排頭的“Initialization Segment(初始化片段)”的統(tǒng)一資源定位符(URL)等來獲取并處理文件。接著,通過參考后續(xù)的“媒體片段”的URL等來獲取和再現(xiàn)文件。
需注意,在圖2示出了MPD文件中的“Period”、“Representation”和“片段”之間的關(guān)系。也就是說,一條運(yùn)動(dòng)圖像內(nèi)容可以通過“Period”以比片段更長的時(shí)間單位管理,并且可以在各個(gè)“Period”中通過“Segment”以片段為單位來管理。另外,在各個(gè)“Period”中,可以通過“Representation”以流的屬性為單位來管理運(yùn)動(dòng)圖像內(nèi)容。
因此,MPD文件具有在“Period”中和以下的圖3所示的層級(jí)結(jié)構(gòu)。另外,在圖4的示例中示出MPD文件的結(jié)構(gòu)關(guān)于時(shí)間軸的布置。從圖4可以清楚地看出,關(guān)于相同片段存在多個(gè)“Representation”。通過自適應(yīng)地選擇這些“Representation”中的任一個(gè),可以獲取和再現(xiàn)用戶的所期望的屬性的流。
(3D音頻文件格式的概要)
圖5為用于說明MP4的3D音頻文件格式的軌道的概要的示圖。
在MP4文件中,可以針對(duì)各軌道來管理運(yùn)動(dòng)圖像內(nèi)容的編解碼信息和表示在文件中的位置的位置信息。在MP4的3D音頻文件格式中,3D音頻(Channel audio/Object audio/SAOC Object audio/HOA audio/metadata)的所有音頻流(elementary stream(基本流,ES)以樣本(幀)為單位被記錄為一個(gè)軌道。另外,3D音頻的編解碼信息(Pro file/level/audio configuration)被存儲(chǔ)為樣本條目。
構(gòu)成3D音頻的Channel audio(聲道音頻)為以聲道為單位的音頻數(shù)據(jù),而Object audio(對(duì)象音頻)為以對(duì)象為單位的音頻數(shù)據(jù)。需注意,對(duì)象為聲源,且利用附接到對(duì)象的麥克風(fēng)等來獲取以對(duì)象為單位的音頻數(shù)據(jù)。對(duì)象可為物體(諸如固定式麥克風(fēng)架)或運(yùn)動(dòng)體(諸如人)。
另外,SAOC Object audio(SAOC對(duì)象音頻)為空間音頻對(duì)象編碼(SAOC)的音頻數(shù)據(jù),而HOA audio(HOA音頻)為高階環(huán)境立體混合聲(HOA)的音頻數(shù)據(jù),而metadata(元數(shù)據(jù))為Channel audio、Object audio、SAOC Object audio和HOA audio的元數(shù)據(jù)。
(moov盒子的結(jié)構(gòu))
圖6為示出MP4文件的moov盒子結(jié)構(gòu)的示圖。
如圖6所示,在MP4文件中,圖像數(shù)據(jù)和音頻數(shù)據(jù)記錄為不同軌道。在圖6中,雖然未描述細(xì)節(jié),但音頻數(shù)據(jù)的軌道相似于圖像數(shù)據(jù)的軌道。樣本條目被包括在moov盒子中的stsd盒子中排列的sample description(樣本描述)中。
通過該方式,在MP4文件的廣播或本地存儲(chǔ)再現(xiàn)中,一般地,服務(wù)器側(cè)發(fā)送所有3D音頻的音頻流。然后,客戶端側(cè)在解析所有的3D音頻的音頻流時(shí),僅解碼和輸出必要的3D音頻的音頻流。然而,在比特率高或存在對(duì)本地存儲(chǔ)器的讀取速率限制的情況下,期望的是,通過僅獲取必要的3D音頻的音頻流來減少解碼處理的負(fù)荷。
另外,在符合MPEG-DASH的MP4文件的流再現(xiàn)中,服務(wù)器側(cè)準(zhǔn)備多個(gè)編碼速度的音頻流。因此,客戶端側(cè)通過僅獲取必要的3D音頻的音頻流,可以選擇和獲取對(duì)再現(xiàn)環(huán)境具有最佳的編碼速度的音頻流。
如上所述,在本公開中,通過在音頻文件中根據(jù)種類將3D音頻的音頻流分割成軌道并且布置音頻流,可以有效地僅獲取3D音頻的預(yù)定種類的音頻流。因此,在廣播或本地存儲(chǔ)器再現(xiàn)中,可以減少解碼處理的負(fù)荷。另外,在流再現(xiàn)中,可以根據(jù)頻帶再現(xiàn)必要的3D音頻的音頻流中的具有最高質(zhì)量的音頻流。
(3D音頻層級(jí)結(jié)構(gòu)的描述)
圖7為示出3D音頻層級(jí)結(jié)構(gòu)的示圖。
如圖7所示,3D音頻的音頻數(shù)據(jù)為在各個(gè)音頻數(shù)據(jù)中不同的音頻元素(Element)。音頻元素的類型包括單聲道元素(SCE)和聲道對(duì)元素(CPE)。一個(gè)聲道的音頻數(shù)據(jù)的音頻元素的類型為SCE,而對(duì)應(yīng)于兩個(gè)聲道的音頻數(shù)據(jù)的音頻元素的類型為CPE。
同一音頻的種類(Channel/Object/SAOC Object/HOA)的音頻元素形成組。因此,組類型(GroupType)的實(shí)例包括Channels、Objects、SAOC Objects和HOA。兩個(gè)以上的組可以根據(jù)需要形成switch Group(開關(guān)組)或group Preset(組預(yù)置)。
switch Group為其中包括的組的音頻流被排他地再現(xiàn)的組(排他再現(xiàn)組)。即,如圖7所示,在存在用于英語(EN)的Object audio的組和用于法語(FR)的Object audio的組的情況下,應(yīng)當(dāng)僅再現(xiàn)這些組中的一個(gè)。因此,switch Group由用于英語的Object audio的組(組ID為2)和用于法語的Object audio的組(組ID為3)形成。因此,用于英語的Object audio或者用于法語的Object audio被排他地再現(xiàn)。
同時(shí),group Preset定義由內(nèi)容創(chuàng)作者意欲的組的組合。
另外,3D音頻的元數(shù)據(jù)為各個(gè)元數(shù)據(jù)中不同的Ext元素(Ext Element)。Ext元素的類型包括Object Metadata(對(duì)象元數(shù)據(jù))、SAOC 3D Metadata(SAOC 3D元數(shù)據(jù))、HOA Metadata(HOA元數(shù)據(jù))、DRC Metadata(DRC元數(shù)據(jù))、SpatialFrame(空間幀)、SaocFrame(Saoc幀)等。Object Metadata的Ext元素是所有Object audio的元數(shù)據(jù),以及SAOC 3D Metadata的Ext元素是所有SAOC audio的元數(shù)據(jù)。另外,HOAMetadata的Ext元素為所有HOAaudio的元數(shù)據(jù),且DRC(動(dòng)態(tài)范圍控制)Metadata的Ext元素為所有Object audio、SAOC audio和HOAaudio的元數(shù)據(jù)。
如上所述,3D音頻的音頻數(shù)據(jù)的分割單位包括音頻元素、組類型、組、switch Group和group Preset。因此,3D音頻中的音頻數(shù)據(jù)的音頻流可以按各種類被分割到不同軌道,其中種類是音頻元素、組類型、組、switch Group或group Preset。
此外,3D音頻中的元數(shù)據(jù)的分割單位包括Ext元素的類型和對(duì)應(yīng)于元數(shù)據(jù)的音頻元素。因此,3D音頻的元數(shù)據(jù)的音頻流可以按各種類被分割到不同軌道,其中種類為Ext元素或?qū)?yīng)于元數(shù)據(jù)的音頻元素。
在下面的實(shí)施例中,音頻數(shù)據(jù)的音頻流以一個(gè)或多個(gè)組被分割到軌道,并且元數(shù)據(jù)的音頻流按Ext元素的各個(gè)類型被分割到軌道。
<第一實(shí)施例>
(信息處理系統(tǒng)的概要)
圖8為用于描述本公開應(yīng)用至的第一實(shí)施例中的信息處理系統(tǒng)的概要的示圖。
圖8的信息處理系統(tǒng)140被配置成使得與文件生成設(shè)備141連接的網(wǎng)絡(luò)服務(wù)器142與運(yùn)動(dòng)圖像再現(xiàn)終端144通過互聯(lián)網(wǎng)13連接。
在信息處理系統(tǒng)140中,網(wǎng)絡(luò)服務(wù)器142通過符合MPEG-DASH的方法將待再現(xiàn)的成組的軌道的音頻流分配到運(yùn)動(dòng)圖像再現(xiàn)終端144。
具體地,文件生成設(shè)備141以多種編碼速度對(duì)運(yùn)動(dòng)圖像內(nèi)容的3D音頻的音頻數(shù)據(jù)和元數(shù)據(jù)進(jìn)行編碼以生成音頻流。文件生成設(shè)備141以各編碼速度并且以稱為片段的從幾秒到十秒的各時(shí)間單位對(duì)所有音頻流制作文件以生成音頻文件。此時(shí),文件生成設(shè)備141針對(duì)各個(gè)組和Ext元素的各個(gè)類型來分割音頻流,并且將音頻流在音頻文件中排列為不同軌道中的音頻流。文件生成設(shè)備141將生成的音頻文件上傳(上載)到網(wǎng)絡(luò)服務(wù)器142。
此外,文件生成設(shè)備141生成管理音頻文件等的MPD文件(管理文件)。文件生成設(shè)備141將MPD文件上傳到網(wǎng)絡(luò)服務(wù)器142上。
網(wǎng)絡(luò)服務(wù)器142存儲(chǔ)由文件生成設(shè)備141上傳的各個(gè)編碼速度和片段的音頻文件,以及MPD文件。響應(yīng)于來自運(yùn)動(dòng)圖像再現(xiàn)終端144的請(qǐng)求,網(wǎng)絡(luò)服務(wù)器142將存儲(chǔ)的音頻文件、MPD文件等發(fā)送到運(yùn)動(dòng)圖像再現(xiàn)終端144。
運(yùn)動(dòng)圖像再現(xiàn)終端144運(yùn)行流數(shù)據(jù)的控制軟件(以下稱為控制軟件)161、運(yùn)動(dòng)圖像再現(xiàn)軟件162、用于超文本傳輸協(xié)議(HTTP)訪問的客戶端軟件(以下稱為訪問軟件)163等。
控制軟件161是控制從網(wǎng)絡(luò)服務(wù)器142串流傳輸?shù)臄?shù)據(jù)的軟件。具體地,控制軟件161使運(yùn)動(dòng)圖像再現(xiàn)終端144從網(wǎng)絡(luò)服務(wù)器142獲取MPD文件。
另外,基于MPD文件,控制軟件161命令訪問軟件163發(fā)送由運(yùn)動(dòng)圖像再現(xiàn)軟件162指定的待再現(xiàn)的組的傳輸請(qǐng)求以及對(duì)應(yīng)于該組的Ext元素的類型的軌道的音頻流。
運(yùn)動(dòng)圖像再現(xiàn)軟件162是再現(xiàn)從網(wǎng)絡(luò)服務(wù)器142獲取的音頻流的軟件。具體地說,運(yùn)動(dòng)圖像再現(xiàn)軟件162將待再現(xiàn)的組和對(duì)應(yīng)于該組的Ext元素的類型指定給控制軟件161。另外,當(dāng)從訪問軟件163接收到接收開始的通知時(shí),運(yùn)動(dòng)圖像再現(xiàn)軟件162解碼從運(yùn)動(dòng)圖像再現(xiàn)終端144接收的音頻流。運(yùn)動(dòng)圖像再現(xiàn)軟件162根據(jù)需要合成并輸出作為解碼結(jié)果獲得的音頻數(shù)據(jù)。
訪問軟件163是使用HTTP控制通過互聯(lián)網(wǎng)13在運(yùn)動(dòng)圖像再現(xiàn)終端144和網(wǎng)絡(luò)服務(wù)器142之間的通信的軟件。具體地,訪問軟件163響應(yīng)于控制軟件161的命令,使運(yùn)動(dòng)圖像再現(xiàn)終端144發(fā)送對(duì)包括在音頻文件中的待再現(xiàn)的軌道的音頻流的傳輸請(qǐng)求。此外,訪問軟件163響應(yīng)于傳輸請(qǐng)求而使運(yùn)動(dòng)圖像再現(xiàn)終端144開始接收從網(wǎng)絡(luò)服務(wù)器142發(fā)送的音頻流,并且向運(yùn)動(dòng)圖像再現(xiàn)軟件162供應(yīng)接收開始的通知。
需注意,在本說明書中,將僅描述運(yùn)動(dòng)圖像內(nèi)容的音頻文件。然而,實(shí)際上,對(duì)應(yīng)的圖像文件與音頻文件一起生成和再現(xiàn)。
(音頻文件的軌道的第一示例的概要)
圖9為用于描述音頻文件的軌道的第一示例的概要的示圖。
注意需,在圖9中,為了便于描述,僅示出3D音頻中的音頻數(shù)據(jù)的軌道。這同樣適用于圖20、圖23、圖26、圖28、圖30、圖32至圖35及圖38。
如圖9所示,所有3D音頻的音頻流存儲(chǔ)在一個(gè)音頻文件(3dauio.mp4)中。在音頻文件(3dauio.mp4)中,3D音頻的各組的音頻流分別被分割成不同軌道并被排列。另外,與整個(gè)3D音頻相關(guān)的信息被設(shè)置為基本軌道(Base Track)。
Track Reference(軌道參考)布置在各個(gè)軌道中的軌道盒子中。Track Reference指示在相應(yīng)軌道與其他軌道之間的參考關(guān)系。具體地,Track Reference指示參考關(guān)系中對(duì)于軌道唯一的其他軌道的ID(以下稱為軌道ID)。
在圖9的示例中,基本軌道的軌道ID、組ID為1的ID的組#1中的軌道、組ID為2的組#2中的軌道、組ID為3的組#3中的軌道、組ID為4的組#4中的軌道為1、2、3、4、5。另外,基本軌道的Track Reference為2、3、4和5,而組#1至組#4中的軌道的TrackReference為1,即基本軌道的軌道ID。因此,基本軌道和組#1至組#4中的軌道處于參考關(guān)系。即,在組#1至組#4中的軌道的再現(xiàn)時(shí),參考基本軌道。
另外,基本軌道的樣本條目的4cc(字符碼)是“mha2”,并且在基本軌道的樣本條目中,布置有包括3D音頻的所有組的配置信息或?qū)τ趦H解碼基本軌道而言是必要的配置信息的mhaC盒子以及包括與3D音頻的所有組和switch Group相關(guān)的信息的mhas盒子。與組相關(guān)的信息由組的ID、表示分類成組的元素的數(shù)據(jù)的內(nèi)容的信息等來配置。與switch Group相關(guān)的信息由switch Group的ID、形成switch Group的各組的ID等配置。
各個(gè)組的軌道的樣本條目的4cc是“mhg1”,并且在各個(gè)組的軌道的樣本條目中,可以布置有包括與該組相關(guān)的信息的mhgC盒子。在組形成switch Group的情況下,包括與switch Group相關(guān)的信息的mhsC盒子布置在組中的軌道的樣本條目中。
在基本軌道的樣本中,布置有組中的軌道的樣本的參考信息或者用于解碼參考信息所必需的配置信息。通過按照參考信息的布置順序來排列由參考信息所參考的組的樣本,可以生成在分割成軌道之前的3D音頻的音頻流。參考信息由組中軌道的樣品的位置和大小、組類型等配置。
(基本軌道的樣本條目的語法的示例)。
圖10為示出基本軌道的樣本條目的語法的示例的示圖。
如圖10所示,在基本軌道的樣本條目中,布置有mhaC盒子(MHAC配置盒子)、mhas盒子(MHA音頻場(chǎng)景信息(AudioSceneInfo)盒子)等。在mhaC盒子中,描述了3D音頻的所有組的配置信息或?qū)H解碼基本軌道所必需的配置信息。另外,在mhas盒子中,描述了音頻場(chǎng)景(AudioScene)信息,該信息包括與3D音頻的所有組和switch Group相關(guān)的信息。音頻場(chǎng)景信息描述圖7的層級(jí)結(jié)構(gòu)。
(各個(gè)組的軌道的樣本條目的語法的示例)。
圖11為示出各個(gè)組的軌道的樣本條目的語法的示例的示圖。
如圖11所示,在各個(gè)組的軌道樣本條目中,布置有mhaC盒子(MHAConfigration Box)、mhgC盒子(MHAGroupDefinition Box)、mhsC盒子(MHASwitchGropuDefinition Box)等。
在mhaC盒子中,描述對(duì)解碼相應(yīng)軌道必需的配置信息。此外,在mhgC盒子中,與相應(yīng)組相關(guān)的音頻場(chǎng)景信息被描述為組定義(GroupDefinition)。在mhsC盒子中,在相應(yīng)組形成switch Group的情況下,在switch Group定義(SwitchGroupDefinition)中描述與switch Group相關(guān)的音頻場(chǎng)景信息。
(音頻文件的片段結(jié)構(gòu)的第一示例)
圖12為示出音頻文件的片段結(jié)構(gòu)的第一示例的示圖。
在圖12的片段結(jié)構(gòu)中,由ftyp盒子和moov盒子配置初始片段。在moov盒子,trak盒子布置用于包括在音頻文件中的每個(gè)軌道。另外,在moov盒子,布置有包括指示各個(gè)軌道的軌道ID與媒體片段中的ssix盒子中使用的級(jí)別之間對(duì)應(yīng)關(guān)系的信息的mvex盒子等。
此外,媒體片段由sidx盒子、ssix盒子和一個(gè)或多個(gè)子片段配置。在sidx盒子中,布置有指示子片段在音頻文件中的位置的位置信息。在ssix盒子中,布置有布置在mdat盒子中的各級(jí)別的音頻流的位置信息。需注意,級(jí)別對(duì)應(yīng)于軌道。此外,第一軌道的位置信息為由第一軌道的moof盒子和音頻流構(gòu)成的數(shù)據(jù)的位置信息。
子片段設(shè)置為各任意時(shí)間長度,且子片段設(shè)置有一對(duì)moof盒子和mdat盒子,其共用于所有軌道。在mdat盒子中,所有軌道的音頻流通過任意時(shí)間長度統(tǒng)一布置,而在moof盒子中,布置音頻流的管理信息。布置在mdat盒子中的軌道的音頻流在各軌道中是連續(xù)的。
在圖12的示例中,軌道ID為1的軌道1是基本軌道,軌道ID為2至N的軌道2至軌道N是組ID為1至N-1的組中的軌道。這同樣適用于下述圖13。
(音頻文件的片段結(jié)構(gòu)的第二示例)
圖13為示出音頻文件的片段結(jié)構(gòu)的第二示例的示圖。
圖13的片段結(jié)構(gòu)與圖12的片段結(jié)構(gòu)不同之處在于moof盒子和mdat盒子針對(duì)每個(gè)軌道而設(shè)。
即,圖13的初始片段相似于圖12的初始片段。另外,圖13的媒體片段通過sidx盒子、ssix盒子和一個(gè)或多個(gè)子片段構(gòu)成,相似于圖12的媒體片段。在sidx盒子中,子片段的位置信息被布置,相似于圖12的sidx盒子。在ssix盒子中,包括由moof盒子和mdat盒子構(gòu)成的級(jí)別的數(shù)據(jù)的位置信息。
子片段設(shè)置成各任意時(shí)間長度,且子片段設(shè)置有針對(duì)每個(gè)軌道的一對(duì)moof盒子和mdat盒子。即,在各個(gè)軌道的mdat盒子中,軌道的音頻流通過任意時(shí)間長度統(tǒng)一布置(交錯(cuò)存儲(chǔ)),且在moof盒子中,布置音頻流的管理信息。
如圖12和圖13所示,軌道的音頻流通過任意時(shí)間長度統(tǒng)一布置。因此,相比于音頻流以樣本為單元統(tǒng)一布置時(shí),通過HTTP等的音頻流獲取效率得到改進(jìn)。
(mvex盒子的描述示例)
圖14為示出圖12和圖13的mvex盒子中布置的級(jí)別分配盒子的描述示例的示圖。
級(jí)別分配盒子是將每個(gè)軌道的軌道ID與在ssix盒子中使用的級(jí)別相關(guān)聯(lián)的盒子。如圖14所示,軌道ID為1的基本軌道與級(jí)別0相關(guān)聯(lián),軌道ID為2的聲道音頻軌道與級(jí)別1相關(guān)聯(lián)。此外,軌道ID為3的HOA音頻軌道與級(jí)別2相關(guān)聯(lián),軌道ID為4的對(duì)象元數(shù)據(jù)軌道與級(jí)別3相關(guān)聯(lián)。此外,軌道ID為5的對(duì)象音頻軌道與級(jí)別4相關(guān)聯(lián)。
(MPD文件的第一描述示例)
圖15為示出MPD文件的第一描述示例的示圖。
如圖15所示,在MPD文件中,描述了管理3D音頻的音頻文件(3daudio.mp4)的片段的“Representation”、管理包括在片段中的軌道的“SubRepresentation”等。
“Representation”和“SubRepresentation”包括指示在3D文件格式中的作為整體的相應(yīng)片段或者軌道的編解碼的種類(配置文件或級(jí)別)的“codecs”。
“SubRepresentation”包括在級(jí)別分配盒子中設(shè)定的值的“l(fā)evel”,作為指示相應(yīng)軌道的級(jí)別的值?!癝ubRepresentation”包括“dependencyLevel”,其為指示與具有參考關(guān)系(具有依賴性)的其他軌道(以下稱為參考軌道)對(duì)應(yīng)的級(jí)別的值。
另外,“SubRepresentation”包括<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“dataType,definition”。
“dataType(數(shù)據(jù)類型)”是指示在對(duì)應(yīng)軌道的樣本條目中描述的音頻場(chǎng)景信息的內(nèi)容(definition(定義))的種類的數(shù)字,并且該definition是其內(nèi)容。例如,在GroupDefinition(組定義)包括在軌道的樣本條目中的情況下,1描述為軌道的“數(shù)據(jù)類型”,并且組定義描述為“definition”。另外,在SwitchGroupDefinition包括在軌道的樣本條目中的情況下,2描述為軌道的“數(shù)據(jù)類型”,并且SwitchGroupDefinition描述為“definition”。即,“dataType”和“definition”為指示SwitchGroupDefinition是否存在于相應(yīng)軌道的樣本條目中的信息?!癲efinition”為二進(jìn)制數(shù)據(jù),且由base64方法編碼。
需注意,在圖15的示例中,所有組形成switch Group。然而,在存在組不形成switch Group的情況下,<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“2,SwitchGroupDefinition”>不被描述在對(duì)應(yīng)于該組的“SubRepresentation”中。這同樣適用于下述的圖24、圖25、圖31、圖39、圖45、圖47、圖48和圖50。
(文件生成設(shè)備的配置示例)
圖16為示出圖8的文件生成設(shè)備141的配置示例的框圖。
圖16的文件生成設(shè)備141由音頻編碼處理單元171、音頻文件生成單元172、MPD生成單元173和服務(wù)器上傳處理單元174配置。
文件生成設(shè)備141的音頻編碼處理單元171以多種編碼速度對(duì)運(yùn)動(dòng)圖像內(nèi)容的3D音頻的音頻數(shù)據(jù)和元數(shù)據(jù)進(jìn)行編碼以生成音頻流。音頻編碼處理單元171將各個(gè)編碼速度的音頻流提供至音頻文件生成單元172。
音頻文件生成單元172針對(duì)每個(gè)組和每個(gè)類型的Ext元素將軌道分派至從音頻編碼處理單元171供應(yīng)的音頻流。音頻文件生成單元172生成圖12或圖13的片段結(jié)構(gòu)的音頻文件,其中對(duì)于各編碼速度和片段,以子片段為單位布置軌道的音頻流。音頻文件生成單元172將生成的音頻文件供應(yīng)至MPD生成單元173。
MPD生成單元173確定其中從音頻文件生成單元172供應(yīng)的音頻文件將被存儲(chǔ)的網(wǎng)絡(luò)服務(wù)器142的URL等。然后,MPD生成單元173生成其中音頻文件的URL等布置在音頻文件的“Representation”的“Segment”中的MPD文件。MPD生成單元173將所生成的MPD文件和音頻文件供應(yīng)至服務(wù)器上傳處理單元174。
服務(wù)器上傳處理單元174將從MPD生成單元173供應(yīng)的音頻文件和MPD文件上傳到網(wǎng)絡(luò)服務(wù)器142上。
(文件生成設(shè)備的處理的描述)
圖17為流程圖,其用于描述圖16的文件生成設(shè)備141的文件生成處理。
在圖17的步驟S191,音頻編碼處理單元171以多種編碼速度對(duì)運(yùn)動(dòng)圖像內(nèi)容的3D音頻的音頻數(shù)據(jù)和元數(shù)據(jù)進(jìn)行編碼以生成音頻流。音頻編碼處理單元171將各編碼速度的音頻流提供至音頻文件生成單元172。
在步驟S192,音頻文件生成單元172針對(duì)各個(gè)組和Ext元素的各類型將軌道分派給從音頻編碼處理單元171供應(yīng)的音頻流。
在步驟S193,音頻文件生成單元172生成圖12或圖13的片段結(jié)構(gòu)的音頻文件,其中對(duì)于每個(gè)編碼速度和片段,以子片段為單位布置軌道的音頻流。音頻文件生成單元172將生成的音頻文件供應(yīng)至MPD生成單元173。
在步驟S194,MPD生成單元173生成包括音頻文件的URL等的MPD文件。MPD生成單元173將所生成的MPD文件和音頻文件供應(yīng)至服務(wù)器上傳處理單元174。
在步驟S195,服務(wù)器上傳處理單元174將從MPD生成單元173供應(yīng)的音頻文件和MPD文件上傳到網(wǎng)絡(luò)服務(wù)器142上。然后,終止處理。
(運(yùn)動(dòng)圖像再現(xiàn)終端的功能性配置示例)
圖18是框圖,其示出實(shí)現(xiàn)使得圖8的運(yùn)動(dòng)圖像再現(xiàn)終端144運(yùn)行控制軟件161、運(yùn)動(dòng)圖像再現(xiàn)軟件162和訪問軟件163的流再現(xiàn)單元的配置示例。
圖18的流再現(xiàn)單元190由MPD獲取單元91、MPD處理單元191、音頻文件獲取單元192、音頻解碼處理單元194和音頻合成處理單元195配置。
流再現(xiàn)單元190的MPD獲取單元91從網(wǎng)絡(luò)服務(wù)器142獲取MPD文件,且供應(yīng)MPD文件至MPD處理單元191。
MPD處理單元191從MPD獲取單元91供應(yīng)的MPD文件中提取在用于音頻文件的“Segment”中描述的待再現(xiàn)的片段的音頻文件的URL信息,并且將該信息供應(yīng)至音頻文件獲取單元192。
音頻文件獲取單元192請(qǐng)求網(wǎng)絡(luò)服務(wù)器142,并且獲取在利用從MPD處理單元191供應(yīng)的URL識(shí)別的音頻文件中的待再現(xiàn)的軌道的音頻流。音頻文件獲取單元192將獲取的音頻流供應(yīng)至音頻解碼處理單元194。
音頻解碼處理單元194解碼從音頻文件獲取單元192供應(yīng)的音頻流。音頻解碼處理單元194將作為解碼結(jié)果獲得的音頻數(shù)據(jù)供應(yīng)至音頻合成處理單元195。音頻合成處理單元195根據(jù)需要合成從音頻解碼處理單元194供應(yīng)的音頻數(shù)據(jù),且輸出該音頻數(shù)據(jù)。
如上所述,音頻文件獲取單元192、音頻解碼處理單元194和音頻合成處理單元195用作再現(xiàn)單元,并且從存儲(chǔ)在網(wǎng)絡(luò)服務(wù)器142中的音頻文件中獲取并再現(xiàn)待再現(xiàn)的軌道的音頻流。
(運(yùn)動(dòng)圖像再現(xiàn)終端的處理的描述)
圖19為流程圖,其用于描述圖18的流再現(xiàn)單元190的再現(xiàn)處理。
在圖19的步驟S211中,流再現(xiàn)單元190的MPD獲取單元91從網(wǎng)絡(luò)服務(wù)器142獲取MPD文件,且供應(yīng)MPD文件至MPD處理單元191。
在步驟S212,MPD處理單元191從MPD獲取單元91供應(yīng)的MPD文件中提取在用于音頻文件的“Segment”中描述的待再現(xiàn)的片段的音頻文件的URL信息,并且將該信息供應(yīng)至音頻文件獲取單元192。
在步驟S213,音頻文件獲取單元192請(qǐng)求網(wǎng)絡(luò)服務(wù)器142并基于從MPD處理單元191供應(yīng)的URL來獲取由URL識(shí)別的音頻文件中待再現(xiàn)的軌道的音頻流。音頻文件獲取單元192將獲取的音頻流供應(yīng)至音頻解碼處理單元194。
在步驟S214,音頻解碼處理單元194解碼從音頻文件獲取單元192供應(yīng)的音頻流。音頻解碼處理單元194將作為解碼結(jié)果獲得的音頻數(shù)據(jù)供應(yīng)至音頻合成處理單元195。在步驟S215,音頻合成處理單元195根據(jù)需要合成從音頻解碼處理單元194供應(yīng)的音頻數(shù)據(jù),且輸出該音頻數(shù)據(jù)。
(音頻文件的軌道的第二示例的概要)
需注意,在以上描述中,GroupDefinition和SwitchGroupDefinition布置在樣本條目中。然而,如圖20所示,GroupDefinition和SwitchGroupDefinition可以布置在樣本組條目中,該樣品組條目為軌道中的子樣本的各個(gè)組的樣本條目。
在這種情況下,如圖21所示,組(其形成switch Group)的軌道的樣本組條目包括GroupDefinition和SwitchGroupDefinition。雖然省略圖示,但是組(其不形成switch Group)的軌道的樣本組條目僅包括GroupDefinition。
另外,各個(gè)組的軌道的樣本條目變成在圖22所示的一個(gè)。即,如圖22所示,在每個(gè)組的軌道的樣本條目中,描述了其中相應(yīng)軌道的音頻流的諸如配置文件的配置信息(MPEGHAudioProfile)、級(jí)別(MPEGHAudioProfile)等的MHA組音頻配置盒子。
(音頻文件的軌道的第三示例的概要)
圖23為用于描述音頻文件的軌道的第三示例的概要的示圖。
圖23的音頻數(shù)據(jù)的軌道的配置與圖9的配置不同之處在于,3D音頻的一個(gè)或多個(gè)組的音頻流包括在基本軌道中,并且對(duì)應(yīng)于分割成不包括與作為整體的3D音頻相關(guān)的信息的軌道(在下文被稱為組軌道)的音頻流的組的數(shù)量為1或更多。
即,圖23的基本軌道的樣本條目是4cc為“mha2”的樣本條目,其包括在3D音頻中的音頻數(shù)據(jù)的音頻流被分割成多個(gè)軌道并被布置時(shí)的基本軌道的語法,相似于圖9(圖10)。
另外,組軌道的樣本條目是4cc為“mhg1”的樣本條目,其包括針對(duì)在3D音頻中的音頻數(shù)據(jù)的音頻流分割成多個(gè)軌道并被布置時(shí)的組軌道的語法,相似于圖9(圖11)。因此,基本軌道和組軌道用樣本條目的4cc來識(shí)別,并且可以辨識(shí)軌道之間的依賴性。
另外,相似于圖9,Track Reference布置在軌道中的每個(gè)的軌道盒子中。因此,即使在“mha2”和“mhg1”為4cc的基本軌道的樣本條目或者組軌道未知的情況下,在軌道之間的依賴性可以利用軌道參考辨識(shí)。
需注意,可以不在組軌道的樣本條目中描述mhgC盒子和mhsC盒子。另外,在包括3D音頻的所有組的配置信息的mhaC盒子在基本軌道的樣本條目中描述的情況下,可以不在組軌道的樣本條目中描述mhaC盒子。然而,在基本軌道的樣本條目中描述包括可以獨(dú)立地再現(xiàn)基本軌道的配置信息的mhaC盒子的情況下,在組軌道的樣本條目中描述包括可以獨(dú)立地再現(xiàn)組軌道的配置信息的mhaC盒子。可以根據(jù)在樣本條目中的配置信息的存在/不存在來辨識(shí)是處于前一狀態(tài)還是處于后一狀態(tài)。然而,可以通過描述在樣本條目中的標(biāo)志或通過改變樣本條目的類型來進(jìn)行辨識(shí)。需注意,雖然省略圖示,但是在通過改變樣本條目的類型來使得前一狀態(tài)和后一狀態(tài)可辨識(shí)的情況下,4cc的基本軌道的樣本條目在前一狀態(tài)的情況下是“mha2”狀態(tài),在后一狀態(tài)的情況下為“mha4”。
(MPD文件的第二描述示例)
圖24為示圖,其示出在音頻文件的軌道的配置為圖23的配置的情況下MPD文件的描述示例。
圖24的MPD文件與圖15的MPD文件不同之處在于,描述了基本軌道的“SubRepresentation”。
在基本軌道的“SubRepresentation”中,描述了基本軌道的“編解碼器”、“層級(jí)”、“依賴性層級(jí)”和<EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014"value="dataType,definition">,相似于組軌道的“SubRepresentation”。
在圖24的示例中,基本軌道的“編解碼器”是“mha2.2.1”,并且“層級(jí)”是指示基本軌道的層級(jí)的值“0”?!耙蕾囆詫蛹?jí)”是指示組軌道的層級(jí)的值“1”和“2”。另外,“數(shù)據(jù)類型”是指示作為基本軌道的樣本條目的mhas盒子中描述的種類的音頻場(chǎng)景信息的數(shù)字的“3”,并且“定義”由base64方法編碼的音頻場(chǎng)景的二元數(shù)據(jù)。
需注意,參考圖25,在基本軌道的“SubRepresentation”中,可以劃分和描述音頻場(chǎng)景信息。
在圖25的示例中,“1”被設(shè)定成數(shù)字,其指示作為種類的“Atmo”,指示具有組ID“1”的組的內(nèi)容的“Atmo”,在基礎(chǔ)音頻的樣本條目的mhas盒子中描述的音頻場(chǎng)景信息(圖7)。
另外,“2”至“7”設(shè)定為數(shù)字,這些數(shù)字分別指示,作為種類,指示具有組ID“2”的組的內(nèi)容的“對(duì)話框EN”,指示具有組ID“3”的組的內(nèi)容的“對(duì)話FR”,指示具有組ID“4”的組的內(nèi)容的“畫外音GE”,指示具有組ID“5”的組的內(nèi)容的“效果”,指示具有組ID“6”的組的內(nèi)容的“效果”,和指示具有組ID“7”的組的內(nèi)容的“效果”。
因此,在圖25的基本軌道的“SubRepresentation”中,描述了其中“數(shù)據(jù)類型”為1,而“定義”為Atmo”的<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“dataType,definition”>。相似地,描述了<“urn:mpeg:DASH:3daudio:2014”value=“dataType,definition”>,其中“數(shù)據(jù)類型”為“2”、“3”、“4”、“5”、“6”和“7”,而定義為“對(duì)話EN”、“對(duì)話FR”、“畫外音GE”、“效果”、“效果”和“效果”。在圖25的示例中,其中基本軌道的音頻場(chǎng)景信息被分割和描述的情況已經(jīng)被描述。然而,組軌道的組定義和switch Group定義可以相似地分割和描述。
(音頻文件的軌道的第四示例的概要)
圖26為用于描述音頻文件的軌道的第四示例的概要的示圖。
圖26的軌道數(shù)據(jù)的軌道的配置與圖26的配置不同在于,組軌道的樣本條目是具有4cc的“mha2”的樣本條目。
在圖26的情況下,基本軌道和組軌道的樣本條目的4ccs均是“mha2”。因此,不可以識(shí)別基本軌道和組軌道且在軌道之間的依賴性不可以利用樣本條目4cc進(jìn)行辨識(shí)。因此,利用布置在軌道中的每個(gè)的軌道盒子中的軌道參考來識(shí)別軌道之間的依賴性。
另外,因?yàn)闃颖緱l目的4ccs為“mha2”,所以在音頻數(shù)據(jù)的音頻流被分割和布置在多個(gè)軌道中時(shí)可以識(shí)別作為3D音頻的軌道的相應(yīng)軌道。
需注意,在基本軌道的樣本條目的mhaC盒子中,描述3D音頻的所有組的配置信息或者獨(dú)立地再現(xiàn)基本軌道的配置信息,相似于在圖9和圖23的情況。另外,在mhas盒子中,描述音頻場(chǎng)景信息,該信息包括與所有組和3D音頻的switch Group相關(guān)的信息。
同時(shí)在組軌道的樣本條目中,未布置mhas盒子。另外,在包括3D音頻的所有組的配置信息的mhaC盒子在基本軌道的樣本條目中描述的情況下,mhaC盒子可以不在組軌道的樣本條目中描述。然而,在基本軌道的樣本條目中描述包括可以獨(dú)立地再現(xiàn)基本軌道的配置信息的mhaC盒子的情況下,在組軌道的樣本條目中描述包括可以獨(dú)立地再現(xiàn)基本軌道的配置信息的mhaC盒子??梢愿鶕?jù)在樣本條目中的配置信息的存在/不存在來辨識(shí)是處于前一狀態(tài)還是處于后一狀態(tài)。然而,可以通過描述在樣本條目中的標(biāo)志或通過改變樣本條目的類型來識(shí)別前一狀態(tài)和后一狀態(tài)。需注意,雖然省略圖示,但是在通過改變樣本條目的類型來使得前一狀態(tài)和后一狀態(tài)可辨識(shí)的情況下,基本軌道的樣本條目的4cc和組軌道的樣本條目的4cc例如在前者的情況下是“mha2”以及在后者情況下為“mha4”。
(MPD文件的第三描述示例)
圖27為示圖,其示出在音頻文件的軌道的配置為圖26的配置的情況下MPD文件的描述示例。
圖27的MPD文件與圖24的MPD文件不同之處在于,組軌道的“SubRepresentation”的編解碼器為“mha2.2.1”,且<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“dataType,definition”>未在組軌道的“SubRepresentation”中描述。
需注意,雖然省略圖示,但是音頻場(chǎng)景信息可以在基本軌道的“SubRepresentation”中分割和描述,相似于圖25的情況。
(音頻文件的軌道的第五示例的概要)
圖28為用于描述音頻文件的軌道的第五示例的概要的示圖。
圖28的音頻數(shù)據(jù)的軌道的配置與圖23的配置不同之處在于,基本軌道和組軌道的樣本條目為這樣的樣本條目,其包括適用于3D音頻的音頻數(shù)據(jù)的音頻流被分割成多個(gè)軌道的情況下的組軌道和基本軌道這兩者的語法。
在圖28的情況下,基本軌道和組軌道的樣本條目的4ccs均是“mha3”,其為包括適用于基本軌道和組軌道這兩者的語法的樣本條目的4cc。
因此,相似于圖26的情況,利用布置在軌道中的每個(gè)的軌道盒子中的軌道參考來識(shí)別軌道之間的依賴性。另外,因?yàn)闃颖緱l目的4ccs為“mha2”,所以在3D音頻的音頻數(shù)據(jù)的音頻流被分割和布置在多個(gè)軌道中時(shí)可以識(shí)別作為軌道的相應(yīng)軌道。
(4cc為“mha3”的樣本條目的語法的示例)。
圖29為示出4cc為“mha3”的樣本條目的語法的示例的示圖。
如圖29所示,4cc為“mha3”的樣本條目的語法為通過合成圖10的語法和圖11的語法獲得的語法。
即,在4cc為“mha3”的樣本條目中,布置mhaC盒子(MHA配置盒子)、mhas盒子(MHA音頻場(chǎng)景信息盒子)、mhgC盒子(MHA組定義盒子)、mhsC盒子(MHAswitch Group定義盒子)等。
在基本軌道的樣本條目的mhaC盒子中,描述了3D音頻所有組的配置信息或者可以獨(dú)立地再現(xiàn)基本軌道的配置信息。另外,在mhas盒子中,描述包括與所有組和3D音頻switch Group相關(guān)的信息,且未布置mhgC盒子和mhsC盒子。
在包括3D音頻的所有組的配置信息的mhaC盒子在基本軌道的樣本條目中描述的情況下,mhaC盒子可以不在組軌道的樣本條目中描述。然而,在基本軌道的樣本條目中描述包括可以獨(dú)立地再現(xiàn)基本軌道的配置信息的mhaC盒子的情況下,在組軌道的樣本條目中描述包括可以獨(dú)立地再現(xiàn)組軌道的配置信息的mhaC盒子??梢愿鶕?jù)在樣本條目中的配置信息的存在/不存在來辨識(shí)是處于前一狀態(tài)還是處于后一狀態(tài)。然而,可以通過描述在樣本條目中的標(biāo)志或通過改變樣本條目的類型來辨識(shí)前一狀態(tài)和后一狀態(tài)。需注意,雖然省略圖示,但是在通過改變樣本條目的類型來使得前一狀態(tài)和后一狀態(tài)可辨識(shí)的情況下,基本軌道和組軌道的樣本條目的4ccs在前一狀態(tài)的情況下是“mha3”,在后一狀態(tài)的情況下為“mha5”。另外,未在組軌道的樣本條目中布置mhas盒子。可以或可不布置mhgC盒子和mhsC盒子。
需注意,如在圖30中所示,在基本軌道的樣本條目中,布置mhas盒子、mhgC盒子和mhsC盒子,描述了其中可以獨(dú)立僅再現(xiàn)基本軌道的配置信息的mhaC盒子,且布置包括3D音頻所有組的配置信息的mhaC盒子。在這種情況下,利用包括在這些mhaC中的標(biāo)志來識(shí)別其中描述3D音頻的所有組的配置信息的mhaC盒子和其中描述可以獨(dú)立地僅再現(xiàn)基本軌道的配置信息的mhaC盒子。另外,在這種情況下,mhaC盒子可以不在組軌道的樣本條目中描述。mhaC盒子是否在組軌道的樣本條目中描述可以根據(jù)在組軌道的樣本條目中的mhaC盒子存在與否來辨識(shí)。然而,可以通過描述在樣本條目中的標(biāo)志或通過改變樣本條目的類型來辨識(shí)mhaC盒子是否在組軌道的樣本條目中描述。需注意,雖然省略圖示,但在通過改變樣本條目的類型使得可以辨識(shí)mhaC盒子是否在組軌道的樣本條目中描述的情況下,基本軌道和組軌道的樣本條目的4ccs例如在mhaC盒子在組軌道的樣本條目中描述的情況為“mha3”,而在mhaC盒子在組軌道的樣本條目中未描述的情況下為“mha5”。需注意,在圖30,mhgC盒子和mhsC盒子可以不在組軌道的樣本條目中描述。
(MPD文件的第四描述示例)
圖31為示圖,其示出在音頻文件的軌道的配置為圖28或30的配置的情況下MPD文件的描述示例。
圖31的MPD文件與圖24的MPD文件不同之處在于,“Representation”的“編解碼器”為“mha3.3.1”,而“SubRepresentation”的“編解碼器”為“mha3.2.1”。
需注意,雖然省略圖示,但音頻場(chǎng)景信息可以在基本軌道的“SubRepresentation”中被分割和描述,相似于圖25的情況。
另外,在以上描述中,軌道參考布置在軌道中的每個(gè)的軌道盒子中。然而,可以不布置軌道參考。例如,圖32至34為示圖,它們分別示出其中未在圖23、圖26和圖28的音頻文件的軌道的軌道盒子中布置軌道參考的情況。在圖32的情況下,未布置軌道參考,但在基本軌道和組軌道的樣本條目的4ccs不同,且因此可以辨識(shí)在軌道之間的依賴性。在圖33和圖34的情況下,因?yàn)椴贾胢has盒子,所以可以辨識(shí)軌道是否為基本軌道。
音頻文件的軌道的配置為圖32至34的配置的情況的MPD文件分別與圖24、圖27和圖31的MPD文件相同。需注意,在這種情況下,音頻場(chǎng)景信息可以在基本軌道的“SubRepresentation”中被分割和描述,相似于圖25的情況。
(音頻文件的軌道的第六示例的概要)
圖35為用于描述音頻文件的軌道的第六示例的概要的示圖。
圖35的音頻數(shù)據(jù)的軌道的配置與圖33的結(jié)構(gòu)不同之處在于,在基本軌道的樣本中沒有布置組的軌道的樣本的參考信息和用于解碼參考信息所必需的配置信息,包括0組或更多組音頻流,在基本軌道的樣本條目中描述組的軌道的樣本的參考信息。
更具體地,描述追蹤在音頻場(chǎng)景信息中描述的組被分割的mhmt盒子以新的方式布置在4cc為“mha2”的樣本條目中,其當(dāng)3D音頻的音頻數(shù)據(jù)的音頻流被分割成多個(gè)軌道時(shí)包括用于基本軌道的語法。
(4cc為“mha2”的樣本條目的語法的另一個(gè)示例)。
圖36為示出4cc為“mha2”的圖35的基本軌道和組軌道的樣本條目的語法的示例的示圖。
圖36的4ccs為“mha2”的樣本條目的配置與圖10的配置不同之處在于,布置MHA多軌道描述(MHAMultiTrackDescription)盒子(mhmt盒子)。
在mhmt盒子中,作為參考信息,在組ID(組_ID)和軌道ID(軌道_ID)之間的相應(yīng)信息被描述。需注意,在mhmt盒子中,可以彼此相關(guān)聯(lián)地描述音頻元素和軌道ID。
在參考信息在每個(gè)樣本中未改變的情況下,通過在樣本條目中布置mhmt盒子可以有效地描述參考信息。
需注意,雖然省略圖示,但在圖9、圖20、圖23、圖26、圖28、圖30、圖32和圖34的情況下,mhmt盒子可以相似地布置在后軌道的樣本條目中,而非描述組的軌道的樣本的參考信息,相似于基本軌道的樣本。
在這種情況下,4cc為“mha3”的樣本條目的語法變成在圖37所示的一個(gè)。即,圖36的4ccs為“mha3”的樣本條目的配置與圖29的配置不同之處在于,布置MHA多軌道描述(MHAMultiTrackDescription)盒子(mhmt盒子)。
另外,在圖23、圖26、圖28、圖30、圖32至圖34和圖35中,3D音頻的一個(gè)或多個(gè)組的音頻流可以不包括在基本軌道中,相似于圖9。另外,對(duì)應(yīng)于被分割成組軌道的音頻流的組的數(shù)量可為1。
另外,在圖23、圖26、圖28、圖30、圖32至圖34和圖35中,組定義和switch Group定義可以布置在相同組條目中,相似于圖20的情況。
<第二實(shí)施例>
(軌道的概要)
圖38為用于描述本公開應(yīng)用至的在第二實(shí)施例中的軌道的概要的示圖。
如圖38所示,第二實(shí)施例與第一實(shí)施例不同之處在于,軌道記錄為不同文件(3da_base.mp4/3da_group1.mp4/3da_group2.mp4/3da_group3.mp4/3da_group 4.mp4)。在這種情況下,通過經(jīng)HTTP獲取期望軌道的文件,可以僅獲取期望軌道的數(shù)據(jù)。因此,可以有效地獲取通過HTTP的期望軌道的數(shù)據(jù)。
(MPD文件的描述示例)
圖39為描述本公開應(yīng)用至的在第二實(shí)施例中的MPD文件的描述示例的示圖。
如圖39所示,在MPD文件中,描述了管理3D音頻的音頻文件(3da_base.mp4/3da_group1.mp4/3da_group2.mp4/3da_group3.mp4/3da_gro up 4.mp4)的片段的“Representation”等。
“Representation”包括“編解碼器”、“id”、“關(guān)聯(lián)Id”和“關(guān)聯(lián)類型”。“id”為包括“id”的“Representation”的ID。“關(guān)聯(lián)Id”是指示相應(yīng)軌道和另一軌道之間的參考關(guān)系的信息,并且是參考軌道的“id”?!瓣P(guān)聯(lián)類型”是指示具有參考軌道的參考關(guān)系(依賴性)的含義的代碼,并且例如使用與MP4的軌道參考的值相同的值。
另外,組的軌道的“Representation”包括<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“dataType,def inition”>。在圖39的示例中,管理音頻文件的片段的“Representation”在一個(gè)“適配集(AdaptationSet)”下提供。然而,可以為音頻文件的每個(gè)片段提供“適應(yīng)集”,并且可以在其下提供管理片段的“Representation”。在這種情況下,在“適應(yīng)集”中,“關(guān)聯(lián)Id”和指示具有參考軌道的參考關(guān)系的含義的<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudioAssociationData:2014”value=“dataType,id”>可以被描述,相似于“關(guān)聯(lián)類型”。另外,在基本軌道和組軌道的“Representation”中描述的音頻場(chǎng)景信息、組定義和switch Group定義可以被分割和描述,相似于圖25的情況。另外,在“Representation”中描述和分割的音頻場(chǎng)景信息、組定義和switch Group定義可以在“適應(yīng)集”中描述。
(信息處理系統(tǒng)的概要)
圖40為用于描述本公開應(yīng)用至的在第三實(shí)施例中的信息處理系統(tǒng)的概要的示圖。
在圖40所示的配置的相同配置,與圖8的配置用相同參考標(biāo)記標(biāo)示。適當(dāng)?shù)厥÷灾丿B的描述。
圖40的信息處理系統(tǒng)210被配置成使得連接到文件生成設(shè)備211的網(wǎng)絡(luò)服務(wù)器212通過互聯(lián)網(wǎng)13與運(yùn)動(dòng)圖像再現(xiàn)終端214連接。
在信息處理系統(tǒng)210中,網(wǎng)絡(luò)服務(wù)器142通過符合MPEG-DASH的方法將待再現(xiàn)的組中的音頻文件的音頻流分配到運(yùn)動(dòng)圖像再現(xiàn)終端144。
具體地,文件生成設(shè)備211以多種編碼速度對(duì)運(yùn)動(dòng)圖像內(nèi)容的3D音頻的音頻數(shù)據(jù)和元數(shù)據(jù)進(jìn)行編碼以生成音頻流。文件生成設(shè)備211針對(duì)每個(gè)組和每個(gè)類型的Ext元素分割音頻流從而使音頻流在不同的軌道中。文件生成設(shè)備211針對(duì)每個(gè)片段和每個(gè)軌道以每個(gè)編碼速度制作音頻流的文件以生成音頻文件。文件生成設(shè)備211將作為結(jié)果的音頻文件上傳到網(wǎng)絡(luò)服務(wù)器212上。另外,文件生成設(shè)備211生成MPD文件并將其上傳到網(wǎng)絡(luò)服務(wù)器212上。
網(wǎng)絡(luò)服務(wù)器212存儲(chǔ)用于每個(gè)片段及用于每個(gè)軌道的處于每個(gè)編碼速度的音頻文件,以及從文件生成設(shè)備211上傳的MPD文件。響應(yīng)于來自運(yùn)動(dòng)圖像再現(xiàn)終端214的請(qǐng)求,網(wǎng)絡(luò)服務(wù)器212將存儲(chǔ)的音頻文件、存儲(chǔ)的MPD文件等發(fā)送到運(yùn)動(dòng)圖像再現(xiàn)終端214。
運(yùn)動(dòng)圖像再現(xiàn)終端214執(zhí)行控制軟件221、運(yùn)動(dòng)圖像再現(xiàn)軟件162、訪問軟件223等。
控制軟件221是控制從網(wǎng)絡(luò)服務(wù)器212流出的數(shù)據(jù)的軟件。具體地,控制軟件221使運(yùn)動(dòng)圖像再現(xiàn)終端214從網(wǎng)絡(luò)服務(wù)器212獲取MPD文件。
另外,基于MPD文件,控制軟件221命令訪問軟件223傳送由運(yùn)動(dòng)圖像再現(xiàn)軟件162指定的待再現(xiàn)的組的發(fā)送請(qǐng)求以及對(duì)應(yīng)于該組的Ext元素類型的音頻文件的音頻流。
訪問軟件223是通過使用HTTP的互聯(lián)網(wǎng)13控制運(yùn)動(dòng)圖像再現(xiàn)終端214和網(wǎng)絡(luò)服務(wù)器212之間的通信的軟件。具體地,訪問軟件223響應(yīng)于控制軟件221的命令,使運(yùn)動(dòng)圖像再現(xiàn)終端144發(fā)送待再現(xiàn)的音頻文件的音頻流的發(fā)送請(qǐng)求。此外,訪問軟件223響應(yīng)于發(fā)送請(qǐng)求而使運(yùn)動(dòng)圖像再現(xiàn)終端144開始接收從網(wǎng)絡(luò)服務(wù)器212發(fā)送的音頻流,并且向運(yùn)動(dòng)圖像再現(xiàn)軟件162供應(yīng)接收開始的通知。
(文件生成設(shè)備的配置示例)
圖41為示出圖40的文件生成設(shè)備211的配置示例的框圖。
在圖41所示的配置的相同配置,與圖16的配置用相同參考標(biāo)記標(biāo)示。適當(dāng)?shù)厥÷灾丿B的描述。
圖41的文件生成設(shè)備211的配置與圖16的文件生成設(shè)備141不同之處在于,音頻文件生成單元241和MPD生成單元242被提供來代替音頻文件生成單元172和MPD生成單元173。
具體地,音頻文件生成設(shè)備211的音頻文件生成單元241針對(duì)每個(gè)組和每個(gè)類型的Ext元素將軌道分派至從音頻編碼處理單元171供應(yīng)的音頻流。音頻文件生成單元241生成音頻文件,在其中音頻流以每個(gè)編碼速度針對(duì)每個(gè)片段及針對(duì)每個(gè)軌道被布置。音頻文件生成單元241將生成的音頻文件供應(yīng)至MPD生成單元242。
MPD生成單元242確定其中從音頻文件生成單元172供應(yīng)的音頻文件待存儲(chǔ)于的網(wǎng)絡(luò)服務(wù)器142的URL等。MPD生成單元242生成其中音頻文件的URL等布置在用于音頻文件的“Representation”的“片段”中的MPD文件。MPD生成單元173將所生成的MPD文件和生成的音頻文件供應(yīng)至服務(wù)器上傳處理單元174。
(文件生成設(shè)備的處理的描述)
圖42為流程圖,其用于描述圖41的文件生成設(shè)備211的文件生成處理。
圖42的步驟S301和S302的處理相似于圖17的步驟S191和步驟S192的處理,因而省略描述。
在步驟S303,音頻文件生成單元241生成音頻文件,在其中音頻流以每個(gè)編碼速度針對(duì)每個(gè)片段及針對(duì)每個(gè)軌道被布置。音頻文件生成單元241將生成的音頻文件供應(yīng)至MPD生成單元242。
步驟S304和S305的處理相似于圖17的步驟S194和步驟S195的處理,因而省略描述。
(運(yùn)動(dòng)圖像再現(xiàn)終端的功能性配置示例)
圖43是框圖,其示出實(shí)現(xiàn)使得圖40的運(yùn)動(dòng)圖像再現(xiàn)終端214執(zhí)行控制軟件221、運(yùn)動(dòng)圖像再現(xiàn)軟件162和訪問軟件223的流再現(xiàn)單元的配置示例。
在圖43所示的配置的相同配置,與圖18的配置用相同參考標(biāo)記標(biāo)示。適當(dāng)?shù)厥÷灾丿B的描述。
圖43的流再現(xiàn)單元260的配置和圖18的流再現(xiàn)單元190的配置不同之處在于,提供音頻文件獲取單元264來取代音頻文件獲取單元192。
音頻文件獲取單元264請(qǐng)求網(wǎng)絡(luò)服務(wù)器142以獲取基于從MPD處理單元191供應(yīng)的URL的待再現(xiàn)的軌道的音頻文件的URL獲取音頻文件的音頻流。音頻文件獲取單元264將獲取的音頻流供應(yīng)至音頻解碼處理單元194。
即,音頻文件獲取單元264、音頻解碼處理單元194和音頻合成處理單元195用作再現(xiàn)單元,并且從存儲(chǔ)在網(wǎng)絡(luò)服務(wù)器212中的音頻文件獲取待再現(xiàn)的軌道的音頻文件的音頻流,并再現(xiàn)該音頻流。
(運(yùn)動(dòng)圖像再現(xiàn)終端的處理的描述)
圖44為流程圖,其用于描述圖43的流再現(xiàn)單元260的再現(xiàn)處理。
圖44的步驟S321和S322的處理相似于圖19的步驟S221和步驟S212的處理,因而省略描述。
在步驟S323,基于待再現(xiàn)的軌道的音頻文件的URL,音頻文件獲取單元192請(qǐng)求網(wǎng)絡(luò)服務(wù)器142來獲取從MPD處理單元191供應(yīng)的URL的音頻文件的音頻流。音頻文件獲取單元264將獲取的音頻流供應(yīng)至音頻解碼處理單元194。
步驟S324和S325的處理相似于圖19的步驟S214和步驟S215的處理,因而省略描述。
需注意,在第二實(shí)施例中,相似于第一實(shí)施例,可以在樣本組條目中布置組定義和switch Group定義。
另外,在第二實(shí)施例中,相似于第一實(shí)施例,音頻數(shù)據(jù)的軌道的配置還可以為在圖23、圖26、圖28、圖30、圖32至圖34和圖35中所示的配置。
圖45至圖47為示圖,它們分別示出第二實(shí)施例中的音頻數(shù)據(jù)的軌道的配置為在圖23、圖26和圖28中所示的配置的情況下的MPD。在第二實(shí)施例中,在音頻數(shù)據(jù)的軌道的配置為在圖32、圖33、圖34或圖35中所示的配置的情況下的MPD文件相同于在圖23、圖26和圖28中所示的配置情況下的MPD。
圖45的MPD與圖39的MPD不同之處在基本軌道的“編解碼器”和“associationId(關(guān)聯(lián)Id)”,以及在于<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“dataType,definition”>包括在基本軌道的“Representation”中。具體地,圖45的MPD的基本軌道的“Representation”的“編解碼器”為“mha2.2.1”,而“關(guān)聯(lián)Id”為組軌道的“id”的“g1”和“g2”。
另外,圖46的MPD與圖45的MPD不同之處在于組軌道的“編解碼器”,且在于<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“dataType,definition”>不包括在組軌道的“Representation”中。具體地,圖46的MPD的組軌道的“編解碼器”為“mha2.2.1”。
另外,圖47的MPD與圖45的MPD不同之處在于基本軌道和組軌道的“編解碼器”。具體地,圖47的MPD的組軌道的“編解碼器”為“mha3.2.1”。
需注意,在圖45至圖47的MPD中,“適應(yīng)集(AdaptationSet)”可以針對(duì)“Representation”進(jìn)行分割,如圖48至圖50所示。
<基本軌道的另一個(gè)示例>
在以上描述中,僅提供一個(gè)基本軌道。然而,可以提供多個(gè)基本軌道。在這種情況下,基本軌道被提供用于例如3D音頻的每個(gè)視點(diǎn)(細(xì)節(jié)將在下面給出),并且在基本軌道中,布置包括視點(diǎn)的3D音頻的所有組的配置信息的mhaC盒子。需注意,在基本軌道中,可以布置包括視點(diǎn)的音頻場(chǎng)景信息的mhas盒子。
3D音頻的視點(diǎn)是可以聽到3D音頻的位置,諸如與3D音頻同時(shí)再現(xiàn)的圖像的視點(diǎn)或預(yù)先設(shè)置的預(yù)定位置。
如上所述,在針對(duì)每個(gè)視點(diǎn)分割基本軌道的情況下,可以基于包括在每個(gè)視點(diǎn)中的配置信息中的在屏幕上的對(duì)象的位置等,從相同3D音頻的音頻流中再現(xiàn)針對(duì)每個(gè)視點(diǎn)不同的音頻。結(jié)果,可以減少3D音頻的音頻流的數(shù)據(jù)量。
即,在3D音頻的視點(diǎn)是可以與3D音頻同時(shí)再現(xiàn)的棒球場(chǎng)的圖像的多個(gè)視點(diǎn)的情況下,將在中心后屏幕中具有視點(diǎn)的圖像準(zhǔn)備為基本視點(diǎn)的圖像的主圖像。此外,將具有位于板后面的座位中的視點(diǎn)的圖像、一壘內(nèi)內(nèi)場(chǎng)看臺(tái)座位、三壘內(nèi)場(chǎng)看臺(tái)座位、左外野看臺(tái)座位、右外野看臺(tái)座位等準(zhǔn)備作為多圖像,其為視點(diǎn)(其為非基本視點(diǎn))的圖像。
在這種情況下,如果準(zhǔn)備所有視點(diǎn)的3D音頻,則3D音頻的數(shù)據(jù)量變大。因此,通過對(duì)基本軌道描述視點(diǎn)中的在屏幕上對(duì)象等的位置,可以通過視點(diǎn)共享根據(jù)在屏幕上對(duì)象的位置而改變的音頻流諸如Object audio和SAOCObject audio。結(jié)果,可以減少3D音頻的音頻流的數(shù)據(jù)量
在3D音頻的再現(xiàn)時(shí),例如,使用音頻流諸如Object audio和SAOCObject audio,以及對(duì)應(yīng)于主圖像視點(diǎn)的基本軌道或者在相同時(shí)間利用音頻流再現(xiàn)的多個(gè)圖像,根據(jù)視點(diǎn)再現(xiàn)不同音頻。
相似地,例如,在3D音頻的視點(diǎn)是預(yù)先設(shè)定的體育場(chǎng)的多個(gè)座位的位置的情況下,如果準(zhǔn)備所有視點(diǎn)的3D音頻,則3D音頻的數(shù)據(jù)量變大。因此,通過對(duì)基本軌道描述在屏幕上對(duì)象的位置,在視點(diǎn)中,可以通過視點(diǎn)共享音頻流諸如Object audio和SAOCObject audio。因此,根據(jù)由用戶使用座位表、使用一個(gè)視點(diǎn)的Object audio和SAOCObject audio選擇的座位可以再現(xiàn)不同音頻,且可以減少3D音頻的音頻流的數(shù)據(jù)量。
在基本軌道被提供用于在圖28的軌道結(jié)構(gòu)中的3D音頻的每個(gè)視點(diǎn)的情況下,軌道結(jié)構(gòu)變?yōu)槿鐖D51所示的一個(gè)。在圖51所示的示例中,3D音頻的視點(diǎn)的數(shù)量為三。另外,在圖51所示的示例中,針對(duì)3D音頻的每個(gè)視點(diǎn)生成聲道音頻,并且其他音頻數(shù)據(jù)由3D音頻的視點(diǎn)共享。這同樣適用于下述圖52的示例。
在這種情況下,三個(gè)基本軌道被提供用于3D音頻的每個(gè)視點(diǎn),如圖3所示。軌道參考布置在基本軌道中的每個(gè)的軌道盒子中。另外,每個(gè)基本軌道的樣本條目的語法與4cc為“mha3”的樣本條目的語法相同。4cc是指示基本軌道被提供用于3D音頻的每個(gè)視點(diǎn)的“mhcf”。
包括每個(gè)視點(diǎn)的3D音頻的所有組的配置信息的mhaC盒子被布置在每個(gè)基本軌道的樣本條目中。例如,在視點(diǎn)中,因?yàn)槊總€(gè)視點(diǎn)的3D音頻的所有組的配置信息是在屏幕上的對(duì)象的位置。另外,包括每個(gè)視點(diǎn)的音頻場(chǎng)景信息的mhas盒子布置在每個(gè)基本軌道中。
視點(diǎn)的聲道音頻的組的音頻流布置在基本軌道的樣本中。
需注意,在樣本單元中,在每個(gè)視點(diǎn)中存在描述對(duì)象在屏幕上的位置的Object Metadata的情況下,Object Metadata也布置在每個(gè)基本軌道的樣本中。
即,在對(duì)象是移動(dòng)體(例如,運(yùn)動(dòng)員)的情況下,在每個(gè)視點(diǎn)中屏幕上的對(duì)象的位置隨時(shí)間改變。因此,該位置描述為樣本單元中的Object Metadata。在這種情況下,對(duì)于每個(gè)視點(diǎn),在樣本單元中的Object Metadata布置在對(duì)應(yīng)于視點(diǎn)的基本軌道的樣本中。
圖51的組軌道的配置與圖28的配置相同,除了未布置聲道音頻的組的音頻流,因而省略描述。
需注意,在圖51的軌道結(jié)構(gòu)中,視點(diǎn)的聲道音頻的組的音頻流可以不布置在基本軌道中,并且可以布置在不同的組軌道中。在這種情況下,軌道結(jié)構(gòu)變成在圖52中所示的一個(gè)。
在圖52所示的示例中,對(duì)應(yīng)于軌道ID為“1”的基本軌道的視點(diǎn)的聲道音頻組的音頻流布置在軌道ID為“4”的組軌道中。另外,對(duì)應(yīng)于軌道ID為“2”的基本軌道的視點(diǎn)的聲道音頻組的音頻流布置在軌道ID為“5”的組軌道中。
另外,對(duì)應(yīng)于軌道ID為“3”的基本軌道的視點(diǎn)的聲道音頻組的音頻流布置在軌道ID為“6”的組軌道中。
需注意,在圖51和圖52的示例中,基本軌道的樣本條目的4cc為“mhcf”。然而,4cc可為與圖28相同的“mha3”。
另外,雖然省略圖示,但是其中基本軌道被提供用于在上述所有軌道結(jié)構(gòu)(除了圖28的軌道結(jié)構(gòu)外)中的3D音頻的每個(gè)視點(diǎn)的情況相似于在圖51和52的情況。
<第三實(shí)施例>
(本公開應(yīng)用至的計(jì)算機(jī)的描述)
網(wǎng)絡(luò)服務(wù)器142(212)的一系列處理可以由硬件執(zhí)行或者可以由軟件執(zhí)行。在通過軟件執(zhí)行一系列處理的情況下,配置軟件的程序安裝至計(jì)算機(jī)。這里,計(jì)算機(jī)包括結(jié)合特殊硬件的計(jì)算機(jī)和通過安裝各種類型的程序可以執(zhí)行各種功能的通用個(gè)人計(jì)算機(jī)等。
圖53是框圖,其示出利用程序執(zhí)行網(wǎng)絡(luò)服務(wù)器142(212)的一系列處理的計(jì)算機(jī)的硬件的配置示例。
在計(jì)算機(jī)中,中央處理單元(CPU)601、只讀存儲(chǔ)器(ROM)602和隨機(jī)存取存儲(chǔ)器(RAM)603通過總線604相互連接。
輸入/輸出接口605還連接到總線604。輸入單元606、輸出單元607、存儲(chǔ)單元608、通信單元609和驅(qū)動(dòng)器610連接到輸入/輸出接口605。
輸入單元606由鍵盤、鼠標(biāo)、麥克風(fēng)等構(gòu)成。輸出單元607由顯示器、揚(yáng)聲器等構(gòu)成。存儲(chǔ)單元608由硬盤、非易失性存儲(chǔ)器等構(gòu)成。通信單元609由網(wǎng)絡(luò)接口等構(gòu)成。驅(qū)動(dòng)器610驅(qū)動(dòng)可移動(dòng)介質(zhì)611諸如磁盤、光盤或磁光盤或半導(dǎo)體存儲(chǔ)器。
在如上所述配置的計(jì)算機(jī)中,CPU 601通過輸入/輸出接口605和總線604將存儲(chǔ)在存儲(chǔ)單元608中的程序加載到RAM 603上,并執(zhí)行該程序,從而執(zhí)行一系列處理。
由計(jì)算機(jī)(CPU 601)執(zhí)行的程序可以通過例如記錄在作為封裝介質(zhì)的可移動(dòng)介質(zhì)611中來提供。此外,可以通過有線或無線傳輸介質(zhì)諸如局域網(wǎng)、互聯(lián)網(wǎng)或數(shù)字衛(wèi)星廣播來提供程序。
在計(jì)算機(jī)中,可以通過將可移動(dòng)介質(zhì)611附接到驅(qū)動(dòng)器610而經(jīng)由輸入/輸出接口605將程序安裝到存儲(chǔ)單元608。此外,程序可以由通信單元609通過有線或無線傳輸介質(zhì)接收,并安裝到存儲(chǔ)單元608。另外,程序可以預(yù)先安裝到ROM 602或存儲(chǔ)單元608。
需注意,由計(jì)算機(jī)執(zhí)行的程序可以是根據(jù)本說明書中描述的順序以時(shí)間序列處理的程序,或者可以是在諸如被調(diào)用時(shí)并行處理的程序或者在必要定時(shí)處理的程序。
另外,運(yùn)動(dòng)圖像再現(xiàn)終端144(214)的硬件配置可以具有與圖53的計(jì)算機(jī)相似的配置。在這種情況下,例如,CPU 601執(zhí)行控制軟件161(221)、運(yùn)動(dòng)圖像再現(xiàn)軟件162和訪問軟件163(223)。運(yùn)動(dòng)圖像再現(xiàn)終端144(214)的處理可以由硬件執(zhí)行。
在本說明書中,系統(tǒng)意指多個(gè)配置元件(設(shè)備、模塊(組件)等)的集合,并且所有配置元件可以或可以不在相同外殼中。因此,容納在分離的殼體中并經(jīng)由網(wǎng)絡(luò)連接的多個(gè)裝置和在單個(gè)殼體中容納多個(gè)模塊的單個(gè)裝置均是系統(tǒng)。
注意,本公開的實(shí)施例不限于上述實(shí)施例,并且在不脫離本公開的精神和范圍的情況下可以進(jìn)行各種改變。
此外,本公開可以應(yīng)用于執(zhí)行廣播或本地存儲(chǔ)再現(xiàn)而非流再現(xiàn)的信息處理系統(tǒng)。
在MPD的實(shí)施例中,通過具有當(dāng)由模式描述的內(nèi)容不能被理解時(shí)可以忽略的描述符定義的基本屬性來描述信息。然而,可以通過具有即使由模式描述的內(nèi)容不能被理解也可以再現(xiàn)的描述符定義的適當(dāng)性(SupplementalProperty)來描述信息。該描述方法由創(chuàng)作具有意圖的內(nèi)容的側(cè)來選擇。
此外,本公開可以采用如下的配置。
(1)一種信息處理裝置,包括:
文件生成單元,其被配置成生成文件,其中多個(gè)種類的音頻數(shù)據(jù)按所述種類的每一種或多種被分割到軌道中并被布置,且與所述多個(gè)種類相關(guān)的信息被布置。
(2)根據(jù)(1)所述的信息處理裝置,其中
與所述多個(gè)種類相關(guān)的信息布置在預(yù)定軌道的樣本條目中。
(3)根據(jù)(2)所述的信息處理裝置,其中
預(yù)定軌道為其中分割和布置所述多個(gè)種類的音頻數(shù)據(jù)的軌道中的一個(gè)。
(4)根據(jù)(1)至(3)中任一項(xiàng)所述的信息處理裝置,其中,
對(duì)于所述軌道中的每個(gè),與對(duì)應(yīng)于所述軌道的種類相關(guān)的信息布置在文件中。
(5)根據(jù)(4)所述的信息處理裝置,其中,
對(duì)于所述軌道中的每個(gè),與排他再現(xiàn)種類相關(guān)的信息被布置在所述文件中,排他再現(xiàn)種類由與軌道對(duì)應(yīng)的種類、以及對(duì)應(yīng)于從與軌道對(duì)應(yīng)的種類的音頻數(shù)據(jù)排他地再現(xiàn)的音頻數(shù)據(jù)的種類構(gòu)成。
(6)根據(jù)(5)所述的信息處理裝置,其中
與對(duì)應(yīng)于所述軌道的所述種類相關(guān)的信息和與排他再現(xiàn)種類相關(guān)的信息布置在對(duì)應(yīng)軌道的樣本條目中。
(7)根據(jù)(5)或(6)所述的信息處理裝置,其中
所述文件生成單元生成管理文件,所述管理文件管理包括指示與排他再現(xiàn)種類相關(guān)的信息針對(duì)所述軌道中的每個(gè)存在與否的信息的所述文件。
(8)根據(jù)(1)至(7)中任一項(xiàng)所述的信息處理裝置,其中
對(duì)應(yīng)于所述多個(gè)種類的所述軌道的參考信息布置在所述文件中。
(9)根據(jù)(8)所述的信息處理裝置,其中
所述參考信息布置在預(yù)定軌道的樣本中。
(10)根據(jù)(9)所述的信息處理裝置,其中
所述預(yù)定軌道為其中分割和布置所述多個(gè)種類的音頻數(shù)據(jù)的軌道中的一個(gè)。
(11)根據(jù)(1)至(10)中任一項(xiàng)所述的信息處理裝置,其中
指示所述軌道之間的參考關(guān)系的信息布置在所述文件中。
(12)根據(jù)(1)至(11)中任一項(xiàng)所述的信息處理裝置,其中
所述文件生成單元生成管理文件,所述管理文件管理包括指示所述軌道之間的參考關(guān)系的信息的所述文件。
(13)根據(jù)(1)至(12)中任一項(xiàng)所述的信息處理裝置,其中
所述文件為一個(gè)文件。
(14)根據(jù)(1)至(12)中任一項(xiàng)所述的信息處理裝置,其中
所述文件為所述軌道中的每個(gè)的文件。
(15)一種信息處理方法,包括以下步驟:
通過信息處理裝置,生成文件,其中多個(gè)種類的音頻數(shù)據(jù)針對(duì)所述種類的每一種或多種而被分割到軌道中并被布置,且與所述多個(gè)種類相關(guān)的信息被布置。
(16)一種信息處理裝置,包括:
再現(xiàn)單元,其被配置成從文件中再現(xiàn)預(yù)定軌道的音頻數(shù)據(jù),在所述文件中多個(gè)種類的音頻數(shù)據(jù)針對(duì)所述種類的每一種或多種而被分割到軌道中并被布置,且與所述多個(gè)種類相關(guān)的信息被布置。
(17)一種信息處理方法,包括以下步驟:
通過信息處理裝置從文件中再現(xiàn)預(yù)定軌道的音頻數(shù)據(jù),在所述文件中多個(gè)種類的音頻數(shù)據(jù)針對(duì)所述種類的每一種或多種而被分割到軌道中并被布置,且與所述多個(gè)種類相關(guān)的信息被布置。
參考標(biāo)記列表
11 文件生成設(shè)備
192 音頻文件獲取單元
194 音頻解碼處理單元
195 音頻合成處理單元
211 文件生成設(shè)備
264 音頻文件獲取單元
權(quán)利要求書(按照條約第19條的修改)
1.一種信息處理裝置,包括:
文件生成單元,被配置為針對(duì)組中的每個(gè)組,將軌道分配至包括多個(gè)所述組的由一個(gè)軌道構(gòu)成的音頻流以生成由多個(gè)所述軌道構(gòu)成的文件,所述組利用組ID來表示并且由一個(gè)或多個(gè)音頻元素配置成。
2.根據(jù)權(quán)利要求1所述的信息處理裝置,其中
所述文件包括表示所述多個(gè)組與所述多個(gè)軌道之間的對(duì)應(yīng)關(guān)系的信息。
3.根據(jù)權(quán)利要求2所述的信息處理裝置,其中
表示所述多個(gè)組與所述多個(gè)軌道之間的對(duì)應(yīng)關(guān)系的信息包括所述多個(gè)組的組ID。
4.根據(jù)權(quán)利要求2所述的信息處理裝置,其中
表示所述多個(gè)組與所述多個(gè)軌道之間的對(duì)應(yīng)關(guān)系的信息包括所述多個(gè)組的組ID以及與所述多個(gè)軌道對(duì)應(yīng)的軌道ID。
5.根據(jù)權(quán)利要求2所述的信息處理裝置,其中
表示所述多個(gè)組與所述多個(gè)軌道之間的對(duì)應(yīng)關(guān)系的信息被包括在基本軌道中。
6.根據(jù)權(quán)利要求2所述的信息處理裝置,其中
所述文件生成單元將表示所述多個(gè)組與所述多個(gè)軌道之間的對(duì)應(yīng)關(guān)系的信息設(shè)定為不同于與所述多個(gè)組相關(guān)的音頻場(chǎng)景信息和所述多個(gè)組的配置信息的盒子。
7.根據(jù)權(quán)利要求1所述的信息處理裝置,其中
與所述多個(gè)組相關(guān)的信息被布置在所述文件中的預(yù)定軌道的樣本條目中。
8.根據(jù)權(quán)利要求1所述的信息處理裝置,其中
對(duì)于所述軌道中的每個(gè)軌道,與對(duì)應(yīng)于所述軌道的組相關(guān)的信息被布置在所述文件中。
9.根據(jù)權(quán)利要求1所述的信息處理裝置,其中
對(duì)于所述軌道中的每個(gè)軌道,與排他再現(xiàn)組相關(guān)的信息被布置在所述文件中,所述排他再現(xiàn)組由與所述軌道對(duì)應(yīng)的組以及對(duì)應(yīng)于從與所述軌道對(duì)應(yīng)的組的音頻元素中排他地再現(xiàn)的音頻元素的組構(gòu)成。
10.根據(jù)權(quán)利要求9所述的信息處理裝置,其中
與對(duì)應(yīng)于所述軌道的組相關(guān)的信息和與排他再現(xiàn)組相關(guān)的信息被布置在對(duì)應(yīng)軌道的樣本條目中。
11.根據(jù)權(quán)利要求9所述的信息處理裝置,其中
所述文件生成單元生成管理文件,所述管理文件管理包括表示與排他再現(xiàn)組相關(guān)的信息是否針對(duì)所述軌道中的每個(gè)軌道而存在的信息的所述文件。
12.根據(jù)權(quán)利要求1所述的信息處理裝置,其中
所述多個(gè)軌道的參考信息被布置在所述文件中。
13.根據(jù)權(quán)利要求12所述的信息處理裝置,其中
所述參考信息被布置在預(yù)定軌道的樣本中。
14.根據(jù)權(quán)利要求1所述的信息處理裝置,其中
表示所述軌道之間的參考關(guān)系的信息被布置在所述文件中。
15.根據(jù)權(quán)利要求1所述的信息處理裝置,其中
所述文件生成單元生成管理文件,所述管理文件管理包括表示所述軌道之間的參考關(guān)系的信息的所述文件。
16.根據(jù)權(quán)利要求1所述的信息處理裝置,其中
所述文件是一個(gè)文件。
17.根據(jù)權(quán)利要求1所述的信息處理裝置,其中
所述文件是所述軌道中的每個(gè)軌道的文件。
18.一種信息處理方法,包括以下步驟:
針對(duì)組中的每個(gè)組,將軌道分配至包括多個(gè)組的由一個(gè)軌道構(gòu)成的音頻流以生成由多個(gè)所述軌道構(gòu)成的文件,所述組利用組ID來表示并且由一個(gè)或多個(gè)音頻元素配置成。
19.一種信息處理裝置,包括:
再現(xiàn)單元,被配置成從由多個(gè)軌道構(gòu)成的文件中再現(xiàn)預(yù)定軌道,所述文件通過針對(duì)組中的每個(gè)組將軌道分配至包括多個(gè)所述組的由一個(gè)軌道構(gòu)成的音頻流而生成,所述組利用組ID來表示并且由一個(gè)或多個(gè)音頻元素配置成。
20.一種信息處理方法,包括以下步驟:
從由多個(gè)軌道構(gòu)成的文件中再現(xiàn)預(yù)定軌道,所述文件通過針對(duì)組中的每個(gè)組將軌道分配至包括多個(gè)所述組的由一個(gè)軌道構(gòu)成的音頻流而生成,所述組利用組ID來表示并且由一個(gè)或多個(gè)音頻元素配置成。