本公開(kāi)涉及信息處理裝置和信息處理方法,并且更具體地,涉及能夠提高在多種類型的音頻數(shù)據(jù)之中獲取預(yù)定類型的音頻數(shù)據(jù)的效率的信息處理裝置和信息處理方法。
背景技術(shù):
最近最流行的流傳輸服務(wù)之一是經(jīng)由互聯(lián)網(wǎng)的互聯(lián)網(wǎng)視頻(OTT-V)。通過(guò)HTTP的運(yùn)動(dòng)圖像專家組相位動(dòng)態(tài)自適應(yīng)流傳輸(MPEG-DASH)被廣泛用作其底層技術(shù)(參見(jiàn),例如非專利文獻(xiàn)1)。
在MPEG-DASH中,傳送服務(wù)器為一個(gè)視頻內(nèi)容項(xiàng)準(zhǔn)備具有不同屏幕尺寸和編碼率的一組視頻數(shù)據(jù),并且播放終端根據(jù)傳輸線路條件請(qǐng)求具有最佳屏幕尺寸和編碼率的一組視頻數(shù)據(jù),因此實(shí)現(xiàn)自適應(yīng)流傳送。
引用文獻(xiàn)列表
非專利文獻(xiàn)
非專利文獻(xiàn)1:MPEG-DASH(通過(guò)HTTP的動(dòng)態(tài)自適應(yīng)流傳輸)(URL:http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-de scription-and-segment-formats/text-isoiec-23009-12012-dam-1)
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的問(wèn)題
然而,上述非專利文獻(xiàn)沒(méi)有考慮到提高獲取視頻內(nèi)容的多種類型的音頻數(shù)據(jù)之中的預(yù)定類型的音頻數(shù)據(jù)的效率。
本公開(kāi)鑒于上述情況而做出并能夠提高多種類型的音頻數(shù)據(jù)之中的預(yù)定類型的音頻數(shù)據(jù)的效率。
問(wèn)題的解決方案
根據(jù)本公開(kāi)的第一方面的信息處理裝置為包括獲取單元的信息處理裝置,該獲取單元獲取一個(gè)文件中的預(yù)定軌道的音頻數(shù)據(jù),其中,在該文件中,多種類型的音頻數(shù)據(jù)根據(jù)類型被劃分為多個(gè)軌道并且該軌道被布置,每個(gè)軌道的音頻數(shù)據(jù)被連續(xù)布置在預(yù)定時(shí)間長(zhǎng)度的文件中。
根據(jù)本公開(kāi)的第一方面的信息處理方法對(duì)應(yīng)于根據(jù)本公開(kāi)的第一方面的信息處理裝置。
在本公開(kāi)的第一方面,預(yù)定軌道的音頻數(shù)據(jù)在一個(gè)文件中獲取,其中,在該文件中,多種類型的音頻數(shù)據(jù)根據(jù)類型被劃分為多個(gè)軌道并且該軌道被布置,每個(gè)軌道的音頻數(shù)據(jù)被連續(xù)布置在預(yù)定時(shí)間長(zhǎng)度的文件中。
根據(jù)本公開(kāi)的第二方面的信息處理裝置為包括生成單元的信息處理裝置,該生成單元生成一個(gè)文件,在該文件中多種類型的音頻數(shù)據(jù)根據(jù)類型被劃分為多個(gè)軌道并且該軌道被布置,每個(gè)軌道的音頻數(shù)據(jù)被連續(xù)布置在預(yù)定時(shí)間長(zhǎng)度的文件中。
根據(jù)本公開(kāi)的第二方面的信息處理方法對(duì)應(yīng)于根據(jù)本公開(kāi)的第二方面的信息處理裝置。
在本公開(kāi)的第二方面,生成一個(gè)文件,在該文件中多種類型的音頻數(shù)據(jù)根據(jù)類型被劃分為多個(gè)軌道并且軌道被布置,每個(gè)軌道的音頻數(shù)據(jù)被連續(xù)布置在預(yù)定時(shí)間長(zhǎng)度的文件中。
應(yīng)指出,根據(jù)第一方面和第二方面的信息處理裝置可以通過(guò)促使計(jì)算機(jī)執(zhí)行程序來(lái)實(shí)施。
此外,為了實(shí)現(xiàn)根據(jù)第一方面和第二方面的信息處理裝置,由計(jì)算機(jī)執(zhí)行的程序可以經(jīng)由傳輸介質(zhì)通過(guò)傳送程序或通過(guò)在記錄介質(zhì)中記錄程序來(lái)提供。
本發(fā)明的效果
根據(jù)本公開(kāi)的第一方面,可以獲取音頻數(shù)據(jù)。此外,根據(jù)本公開(kāi)的第一方面,多種類型的音頻數(shù)據(jù)之中的特定類型的音頻數(shù)據(jù)可以被高效獲取。
根據(jù)本公開(kāi)的第二方面,可以生成文件。此外,根據(jù)本公開(kāi)的第二方面,可以生成提高獲取多種類型的音頻數(shù)據(jù)之中的特定類型的音頻數(shù)據(jù)的效率的文件。
附圖說(shuō)明
圖1為示出應(yīng)用本公開(kāi)的信息處理系統(tǒng)的第一示例的概述的示意圖。
圖2為示出文件的示例的示意圖。
圖3為示出對(duì)象的示意圖。
圖4為示出對(duì)象位置信息的示意圖。
圖5為示出圖像幀尺寸信息的示意圖。
圖6為示出MPD文件的結(jié)構(gòu)的示意圖。
圖7為示出在“Period”、“Representation”和“Segment”之間的關(guān)系的示意圖。
圖8為示出MPD文件的分層結(jié)構(gòu)的示意圖。
圖9為示出在MPD文件的結(jié)構(gòu)和時(shí)間軸之間的關(guān)系的示意圖。
圖10為示出MPD文件的示例性描述的示意圖。
圖11為示出文件生成裝置的配置示例的框圖。
圖12為示出文件生成裝置的文件生成過(guò)程的流程圖。
圖13為示出流播放單元的配置示例的框圖。
圖14為示出流播放單元的流播放過(guò)程的流程圖。
圖15為示出MPD文件的示例性描述的示意圖。
圖16為示出MPD文件的另一示例性描述的示意圖。
圖17為示出音頻流的布置示例的示意圖。
圖18為示出gsix的示例性描述的示意圖。
圖19為示出指示在樣本組條目和對(duì)象ID之間的對(duì)應(yīng)關(guān)系的信息的示例的示意圖。
圖20為示出AudioObjectSampleGroupEntry的示例性描述的示意圖。
圖21為示出類型分配盒的示例性描述的示意圖。
圖22為示出應(yīng)用本公開(kāi)的信息處理系統(tǒng)的第二示例的概述的示意圖。
圖23為示出應(yīng)用本公開(kāi)的信息處理系統(tǒng)的流播放單元的配置示例的框圖。
圖24為示出確定對(duì)象的位置的方法的示意圖。
圖25為示出確定對(duì)象的位置的方法的示意圖。
圖26為示出確定對(duì)象的位置的方法的示意圖。
圖27為示出在水平角θAi和水平角θAi'之間的關(guān)系的示意圖。
圖28為示出在圖23中示出的流播放單元的流播放過(guò)程的流程圖。
圖29為示出在圖28中示出的位置確定過(guò)程的細(xì)節(jié)的流程圖。
圖30為示出在圖29中示出的水平角θAi'估算過(guò)程的細(xì)節(jié)的流程圖。
圖31為示出MP4的3D音頻文件格式的軌道的概述的示意圖。
圖32為示出moov盒的結(jié)構(gòu)的示意圖。
圖33為示出根據(jù)應(yīng)用本公開(kāi)的第一實(shí)施例的軌道的概述的示意圖。
圖34為示出在圖33中示出的基本軌道的樣本條目的示例性語(yǔ)法的示意圖。
圖35為示出在圖33中示出的聲道軌道的樣本條目的示例性語(yǔ)法的示意圖。
圖36為示出在圖33中示出的對(duì)象音頻軌道的樣本條目的示例性語(yǔ)法的示意圖。
圖37為示出在圖33中示出的HOA音頻軌道的樣本條目的示例性語(yǔ)法的示意圖。
圖38為示出在圖33中示出的對(duì)象元數(shù)據(jù)軌道的樣本條目的示例性語(yǔ)法的示意圖。
圖39為示出片段結(jié)構(gòu)的第一示例的示意圖。
圖40為示出片段結(jié)構(gòu)的第二示例的示意圖。
圖41為示出級(jí)別分配盒的示例性描述的示意圖。
圖42為示出在應(yīng)用本公開(kāi)的第一實(shí)施例中的MDF文件的示例性描述的示意圖。
圖43為基本屬性的定義的示意圖。
圖44為示出在應(yīng)用本公開(kāi)的第一實(shí)施例中的信息處理系統(tǒng)的概述的示意圖。
圖45為示出在圖44中示出的文件生成裝置的配置示例的框圖。
圖46為示出在圖45中示出的文件生成裝置的文件生成過(guò)程的流程圖。
圖47為示出由在圖44中示出的視頻播放終端實(shí)施的流播放單元的配置示例的框圖。
圖48為示出在圖47中示出的流播放單元的聲道音頻播放過(guò)程的流程圖。
圖49為示出在圖47中示出的流播放單元的對(duì)象指定過(guò)程的流程圖。
圖50為示出在圖47中示出的流播放單元的指定對(duì)象音頻播放過(guò)程的流程圖。
圖51為示出在應(yīng)用本公開(kāi)的第二實(shí)施例中的軌道的概述的示意圖。
圖52為示出在圖51中示出的基本軌道的樣本條目的示例性語(yǔ)法的示意圖。
圖53為示出基本樣本的結(jié)構(gòu)的示意圖。
圖54為示出基本樣本的示例性語(yǔ)法的示意圖。
圖55為示出提取器的數(shù)據(jù)的示例的示意圖。
圖56為示出在應(yīng)用本公開(kāi)的第三實(shí)施例中的軌道的概述的示意圖。
圖57為示出在應(yīng)用本公開(kāi)的第四實(shí)施例中的軌道的概述的示意圖。
圖58為示出在應(yīng)用本公開(kāi)的第四實(shí)施例中的MDF文件的示例性描述的示意圖。
圖59為示出在應(yīng)用本公開(kāi)的第四實(shí)施例中的信息處理系統(tǒng)的概述的示意圖。
圖60為示出在圖59中示出的文件生成裝置的配置示例的框圖。
圖61為示出在圖60中示出的文件生成裝置的文件生成過(guò)程的流程圖。
圖62為示出由在圖59中示出的視頻播放終端實(shí)施的流播放單元的配置示例的框圖。
圖63為示出在圖62中示出的流播放單元的聲道音頻播放過(guò)程的示例的流程圖。
圖64為示出在圖62中示出的流播放單元的對(duì)象音頻播放過(guò)程的第一示例的流程圖。
圖65為示出在圖62中示出的流播放單元的對(duì)象音頻播放過(guò)程的第二示例的流程圖。
圖66為示出在圖62中示出的流播放單元的對(duì)象音頻播放過(guò)程的第三示例的流程圖。
圖67為示出基于優(yōu)先級(jí)選擇的對(duì)象的示例的示意圖。
圖68為示出在應(yīng)用本公開(kāi)的第五實(shí)施例中的軌道的概述的示意圖。
圖69為示出在應(yīng)用本公開(kāi)的第六實(shí)施例中的軌道的概述的示意圖。
圖70為示出計(jì)算機(jī)的硬件的配置示例的框圖。
具體實(shí)施方式
用于執(zhí)行本發(fā)明的模式
用于實(shí)施本公開(kāi)的模式(在下文中,稱為實(shí)施例)將在下面按以下順序描述。
0.本公開(kāi)的預(yù)述(圖1至30)
1.第一實(shí)施例(圖31至50)
2.第二實(shí)施例(圖51至55)
3.第三實(shí)施例(圖56)
4.第四實(shí)施例(圖57至67)
5.第五實(shí)施例(圖68)
6.第六實(shí)施例(圖69)
7.第七實(shí)施例(圖70)
<本公開(kāi)的預(yù)述>
(信息處理系統(tǒng)的第一示例的概述)
圖1為示出應(yīng)用本公開(kāi)的信息處理系統(tǒng)的第一示例的概述的示意圖。
如圖1所示的信息處理系統(tǒng)10具有一配置,其中Web服務(wù)器12(其被連接到文件生成裝置11)以及視頻播放終端14經(jīng)由互聯(lián)網(wǎng)13連接。
在信息處理系統(tǒng)10中,Web服務(wù)器12通過(guò)兼容MPEG-DASH的方法向視頻播放終端14傳送以瓦片(tile)為單位的視頻內(nèi)容的圖像數(shù)據(jù)(瓦片流傳輸)。
具體地,文件生成裝置11獲取視頻內(nèi)容的圖像數(shù)據(jù)并以瓦片為單位編碼圖像數(shù)據(jù)以生成視頻流。文件生成裝置11將每個(gè)瓦片的視頻流處理為時(shí)間間隔從幾秒到約十秒的文件格式,該文件格式被稱為片段。文件生成裝置11向Web服務(wù)器12上傳所得的每個(gè)瓦片的圖像文件。
此外,文件生成裝置11獲取每個(gè)對(duì)象的視頻內(nèi)容的音頻數(shù)據(jù)(后面詳細(xì)描述)并以對(duì)象為單位編碼圖像數(shù)據(jù)以生成音頻流。文件生成裝置11將每個(gè)對(duì)象的音頻流處理為以片段為單位的文件格式,并向Web服務(wù)器12上傳所得的每個(gè)對(duì)象的音頻文件。
應(yīng)指出,每個(gè)對(duì)象為聲音源。每個(gè)對(duì)象的音頻數(shù)據(jù)通過(guò)附接到該對(duì)象的麥克風(fēng)或類似裝置來(lái)獲取。該對(duì)象可為諸如固定麥克風(fēng)支架的物體或可為諸如人的移動(dòng)體。
文件生成裝置11編碼音頻元數(shù)據(jù),該音頻元數(shù)據(jù)包含指示每個(gè)對(duì)象的位置(獲取音頻數(shù)據(jù)的位置)的對(duì)象位置信息(音頻位置信息)和作為對(duì)象的唯一ID的對(duì)象ID。文件生成裝置11將通過(guò)編碼音頻元數(shù)據(jù)所獲得的編碼數(shù)據(jù)處理為以片段為單位的文件格式,并向Web服務(wù)器12上傳所得的音頻元文件。
此外,文件生成裝置11生成媒體表示描述(MPD)文件(控制信息),其管理圖像文件和音頻文件并包含指示視頻內(nèi)容的圖像的幀尺寸的圖像幀尺寸信息和指示圖像上的每個(gè)瓦片的位置的位置信息。文件生成裝置11向Web服務(wù)器12上傳MPD文件。
Web服務(wù)器12存儲(chǔ)圖像文件、音頻文件、音頻元文件和從文件生成裝置11上傳的MPD文件。
在如圖1所示的示例中,Web服務(wù)器12存儲(chǔ)由瓦片ID為“1”的瓦片的圖像文件組成的多個(gè)片段的片段組和由瓦片ID為“2”的瓦片的圖像文件組成的多個(gè)片段的片段組。Web服務(wù)器12也存儲(chǔ)由對(duì)象ID為“1”的對(duì)象的音頻文件組成的多個(gè)片段的片段組和由對(duì)象ID為“2”的對(duì)象的音頻文件組成的多個(gè)片段的片段組。雖然未示出,但是也類似地存儲(chǔ)由音頻元文件組成的片段組。
應(yīng)指出,瓦片ID為i的文件在下文中被稱為“瓦片#i”,以及對(duì)象ID為i的對(duì)象在下文中被稱為“對(duì)象#i”。
Web服務(wù)器12充當(dāng)發(fā)送器并響應(yīng)于來(lái)自視頻播放終端14的請(qǐng)求向視頻播放終端14發(fā)送所存儲(chǔ)的圖像文件、音頻文件、音頻元文件、MPD文件等。
視頻播放終端14執(zhí)行例如用于控制流傳輸數(shù)據(jù)的軟件21(在下文中被稱為控制軟件)、視頻播放軟件22和用于超文本傳輸協(xié)議(HTTP)訪問(wèn)的客戶端軟件23(在下文中被稱為訪問(wèn)軟件)。
控制軟件21為控制經(jīng)由流傳輸從Web服務(wù)器12遞送的數(shù)據(jù)的軟件。具體地,控制軟件21允許視頻播放終端14從Web服務(wù)器12獲取MPD文件。
此外,控制軟件21基于顯示區(qū)域和被包含在MPD文件中的瓦片位置信息來(lái)指定在顯示區(qū)域中的瓦片,該顯示區(qū)域?yàn)樵趫D像中的區(qū)域,用于顯示由視頻播放軟件22指示的視頻內(nèi)容??刂栖浖?1命令訪問(wèn)軟件23發(fā)出發(fā)送指定瓦片的圖像文件的請(qǐng)求。
此外,控制軟件21命令訪問(wèn)軟件23發(fā)出發(fā)送音頻元文件的請(qǐng)求??刂栖浖?1基于顯示區(qū)域、被包含在MPD文件中的圖像幀尺寸信息和被包含在音頻元文件中的對(duì)象位置信息來(lái)指定對(duì)應(yīng)于在該顯示區(qū)域中的圖像的對(duì)象。控制軟件21命令訪問(wèn)軟件23發(fā)出發(fā)送指定對(duì)象的音頻文件的請(qǐng)求。
視頻播放軟件22為播放從Web服務(wù)器12獲取的圖像文件和音頻文件的軟件。具體地,在使用者指定顯示區(qū)域時(shí),視頻播放軟件22向控制軟件21指示該指定的顯示區(qū)域。視頻播放軟件22響應(yīng)于該指示來(lái)解碼從Web服務(wù)器12獲取的圖像文件和音頻文件,并且視頻播放軟件22合成并輸出所解碼的文件。
訪問(wèn)軟件23為控制使用HTTP經(jīng)由互聯(lián)網(wǎng)13與Web服務(wù)器12通信的軟件。具體地,訪問(wèn)軟件23允許視頻播放終端14響應(yīng)于控制軟件21的指令發(fā)送請(qǐng)求發(fā)送圖像文件、音頻文件和音頻元文件的請(qǐng)求。此外,訪問(wèn)軟件23允許視頻播放終端14響應(yīng)于該發(fā)送請(qǐng)求接收從Web服務(wù)器12所發(fā)送的圖像文件、音頻文件和音頻元文件。
(瓦片的示例)
圖2為示出瓦片的示例的示意圖。
如圖2所示,視頻內(nèi)容的圖像被劃分為多個(gè)瓦片。作為從1開(kāi)始的順序號(hào)的瓦片ID被分配給每個(gè)瓦片。在圖2所示的示例中,視頻內(nèi)容的圖像被劃分為四個(gè)瓦片#1至#4。
(對(duì)象的解釋)
圖3為示出對(duì)象的示意圖。
圖3的示例示出獲取圖像中的八個(gè)音頻對(duì)象作為視頻內(nèi)容的音頻。作為從1開(kāi)始的順序號(hào)的對(duì)象ID被分配給每個(gè)對(duì)象。對(duì)象#1至#5為移動(dòng)體,以及對(duì)象#6至#8為固定物體。此外,在圖3的示例中,視頻內(nèi)容的圖像被劃分為7(寬度)×5(高度)個(gè)瓦片。
在此情況下,如圖3所示,在使用者指定由3(寬度)×2(高度)個(gè)瓦片組成的顯示區(qū)域31時(shí),顯示區(qū)域31僅包含對(duì)象#1、#2和#6。因此,視頻播放終端14僅從Web服務(wù)器12獲取例如對(duì)象#1、#2和#6的音頻文件并播放。
在顯示區(qū)域31中的對(duì)象可基于圖像幀尺寸信息和對(duì)象位置信息來(lái)指定,如下所述。
(對(duì)象位置信息的解釋)
圖4為示出對(duì)象位置信息的示意圖。
如圖4所示,對(duì)象位置信息包含對(duì)象40的水平角θA(-180°≤θA≤180°)、垂直角γA(-90°≤γA≤90°)和距離rA(0<rA)。例如在以下設(shè)置時(shí),水平角θA為由連接對(duì)象40和原點(diǎn)O的直線與YZ平面形成的在水平方向的角度:圖像的中心的拍攝位置可被設(shè)置為原點(diǎn)(基點(diǎn))O;圖像的水平方向被設(shè)置為X方向;圖像的垂直方向被設(shè)置為Y方向;以及垂直于XY平面的深度方向被設(shè)置為Z方向。垂直角γA為由連接對(duì)象40和原點(diǎn)O的直線與XZ平面所形成的在垂直方向的角度。距離rA為在對(duì)象40和原點(diǎn)O之間的距離。
此外,在本文中,假設(shè)向左和上旋轉(zhuǎn)的角度被設(shè)置為正的角度,以及向右和下旋轉(zhuǎn)的角度被設(shè)置為負(fù)的角度。
(圖像幀尺寸信息的解釋)
圖5為示出圖像幀尺寸信息的示意圖。
如圖5所示,圖像幀尺寸信息包含在圖像幀中的左端的水平角θv1、右端的水平角θv2、上端的垂直角γv1、下端的垂直角γv2以及距離rv。
例如在圖像的中心的拍攝位置被設(shè)置為原點(diǎn)O;圖像的水平方向被設(shè)置為X方向;圖像的垂直方向被設(shè)置為Y方向;以及垂直于XY平面的深度方向被設(shè)置為Z方向時(shí),水平角θv1為連接圖像幀的左端和原點(diǎn)O的直線與YZ平面形成的在水平方向的角度。水平角θv2為連接圖像幀的右端和原點(diǎn)O的直線與YZ平面所形成的在水平方向的角度。因此,通過(guò)組合水平角θv1和水平角θv2獲得的角度為水平視角。
垂直角γV1為XZ平面與連接圖像幀的上端以及原點(diǎn)O的直線形成的角度,以及垂直角γv2為由XZ平面與連接圖像幀的下端以及原點(diǎn)O的直線形成的角度。通過(guò)組合垂直角γV1和γv2獲得的角度變?yōu)榇怪币暯?。距離rv為在原點(diǎn)O和圖像平面之間的距離。
如上所述,對(duì)象位置信息表示對(duì)象40和原點(diǎn)O之間的位置關(guān)系,以及圖像幀尺寸信息表示圖像幀和原點(diǎn)O之間的位置關(guān)系。因此,基于對(duì)象位置信息和圖像幀尺寸信息檢測(cè)(識(shí)別)每個(gè)對(duì)象在圖像上的位置是可能的。因此,指定在顯示區(qū)域31中的對(duì)象是可能的。
(MPD文件的結(jié)構(gòu)的說(shuō)明)
圖6為示出MPD文件的結(jié)構(gòu)的示意圖。
在MPD文件的分析(解析)中,視頻播放終端14從被包含在MPD文件的“Period”(“周期”)中的“Representation”(“表示”)的屬性之中選擇最佳屬性(在圖6中的Media Presentation(“媒體展示”))。
通過(guò)參考在所選的“Representation”(表示)的頭部的“Initialization Segment”(“初始化片段”)的統(tǒng)一資源定位符(URL)等,視頻播放終端14獲取文件并處理所獲取的文件。接著,通過(guò)參考后續(xù)“Media Segment”(“媒體片段”)的URL等,視頻播放終端14獲取文件并播放所獲取的文件。
應(yīng)指出,在MPD文件中,在Period”(周期)、“Representation”(表示)和“Segment”(“片段”)之間的關(guān)系變?yōu)槿鐖D7所示。換句話說(shuō),單個(gè)視頻內(nèi)容項(xiàng)可通過(guò)Period”(周期)而以比片段更長(zhǎng)的時(shí)間單位來(lái)被管理,并且可以由每個(gè)Period”(周期)中通過(guò)“Segment”(“片段”)而以片段為單位來(lái)被管理。此外,在每個(gè)Period”(周期)中,可以通過(guò)“Representation”(表示)以流屬性為單位來(lái)管理視頻內(nèi)容。
因此,MPD文件具有如圖8所示的從Period”(周期)開(kāi)始的分層結(jié)構(gòu)。此外,被布置在時(shí)間軸上的MPD文件的結(jié)構(gòu)變?yōu)槿鐖D9所示的配置。從圖9可以清楚看出,在相同片段中存在多個(gè)“Representation”(表示)元素。視頻播放終端14從這些元素之中自適應(yīng)地選擇任一個(gè),并因此可以在由使用者所選的顯示區(qū)域中獲取圖像文件和音頻文件并播放所獲取的文件。
(MPD文件的描述的解釋)
圖10為示出MPD文件的描述的示意圖。
如上所述,在信息處理系統(tǒng)10中,圖像幀尺寸信息被包含在MPD文件中以允許在顯示區(qū)域中的對(duì)象由視頻播放終端14指定。如圖10所示,用于定義新的圖像幀尺寸信息(視度)的方案(urn:mpeg:DASH:viewingAngle:2013)通過(guò)利用Viewpoint(視點(diǎn))的DescriptorType元素來(lái)擴(kuò)展,并因此圖像幀尺寸信息被布置在用于音頻的“Adaptation Set”(“自適應(yīng)集”)中和用于圖像的“Adaptation Set”(“自適應(yīng)集”)中。圖像幀尺寸信息可只被布置在用于圖像的“Adaptation Set”(“自適應(yīng)集”)中。
此外,用于音頻元文件的“Representation”(“表示”)在用于MPD文件的音頻的“Adaptation Set”(“自適應(yīng)集”)中描述。作為用于指定音頻元文件(audiometadata.mp4)的信息的URL等在“Representation”(“表示”)的“Segment”(“片段”)中描述。在此情況下,描述了要在“片段”中指定的文件為利用Role(角色)元素的音頻元文件(objectaudiometadata)。
用于每個(gè)對(duì)象的音頻元文件的“Representation”(“表示”)也在用于MPD文件的音頻的“Adaptation Set”(“自適應(yīng)集”)中描述。作為用于指定每個(gè)對(duì)象的音頻文件(audioObje1.mp4,audioObje5.mp4)的信息的URL等在“Representation”(“表示”)的“Segment”(“片段”)中描述。在此情況下,對(duì)應(yīng)于音頻文件的對(duì)象的對(duì)象ID(1和5)也通過(guò)擴(kuò)展的Viewpoint(視點(diǎn))來(lái)描述。
應(yīng)指出,雖然未示出,瓦片位置信息被布置在用于圖像的“Adaptation Set”(“自適應(yīng)集”)中。
(文件生成裝置的配置示例)
圖11為示出在圖1中示出的文件生成裝置11的配置示例的框圖。
如圖11所示的文件生成裝置11包括屏幕拆分處理單元51、圖像編碼處理單元52、圖像文件生成單元53、圖像信息生成單元54、音頻編碼處理單元55、音頻文件生成單元56、MPD生成單元57和服務(wù)器上傳處理單元58。
文件生成裝置11的屏幕拆分處理單元51將從外面輸入的視頻內(nèi)容的圖像數(shù)據(jù)拆分為瓦片單元。屏幕拆分處理單元51向圖像信息生成單元54提供瓦片位置信息。此外,屏幕拆分處理單元51向圖像編碼處理單元提供以瓦片為單位配置的圖像數(shù)據(jù)。
圖像編碼處理單元52針對(duì)每個(gè)瓦片對(duì)(以瓦片為單位來(lái)配置并從屏幕拆分處理單元51提供的)圖像數(shù)據(jù)進(jìn)行編碼以生成視頻流。圖像編碼處理單元52向圖像文件生成單元53提供每個(gè)瓦片的視頻流。
圖像文件生成單元53將從圖像編碼處理單元52提供的每個(gè)瓦片的視頻流處理為以片段為單位的文件格式并向MPD生成單元57提供所得的每個(gè)瓦片的圖像文件。
圖像信息生成單元54向MPD生成單元57提供從屏幕拆分處理單元51所提供的瓦片位置信息和作為圖像信息的從外面輸入的圖像幀尺寸信息。
音頻編碼處理單元55針對(duì)每個(gè)對(duì)象,編碼音頻數(shù)據(jù)并生成音頻流,該音頻數(shù)據(jù)被配置成以從外面輸入的視頻內(nèi)容的對(duì)象為單位。此外,音頻編碼處理單元55編碼從外面輸入的每個(gè)對(duì)象的對(duì)象位置信息和包含對(duì)象ID等的音頻元數(shù)據(jù)以生成編碼數(shù)據(jù)。音頻編碼處理單元55向音頻文件生成單元56提供每個(gè)對(duì)象的音頻流和音頻元數(shù)據(jù)的編碼數(shù)據(jù)。
音頻文件生成單元56充當(dāng)音頻文件生成單元,將從音頻編碼處理單元55提供的每個(gè)對(duì)象的音頻流處理為以片段為單位的文件格式并向MPD生成單元57提供所得的每個(gè)對(duì)象的音頻文件。
此外,音頻文件生成單元56充當(dāng)元文件生成單元,將從音頻編碼處理單元55提供的音頻元數(shù)據(jù)的編碼數(shù)據(jù)處理為以片段為單位的文件格式并向MPD生成單元57提供所得的音頻元文件。
MPD生成單元57確定用于存儲(chǔ)從圖像文件生成單元53提供的每個(gè)瓦片的圖像文件的Web服務(wù)器12的URL等。此外,MPD生成單元57確定用于存儲(chǔ)從音頻文件生成單元56提供的每個(gè)對(duì)象的音頻文件和音頻元文件的Web服務(wù)器12的URL等。
MPD生成單元57在用于MPD文件的圖像的“Adaptation Set”(“自適應(yīng)集”)中布置從圖像信息生成單元54提供的圖像信息。此外,MPD生成單元57在用于MPD文件的音頻的“Adaptation Set”(“自適應(yīng)集”)中布置圖像信息塊之中的圖像幀尺寸信息。MPD生成單元57在用于瓦片的圖像文件的“Representation”(“表示”)的“Segment”(“片段”)中布置每個(gè)瓦片的圖像文件的URL等。
MPD生成單元57在用于對(duì)象的音頻文件的“Representation”(“表示”)的“Segment”(“片段”)中布置每個(gè)對(duì)象的音頻文件的URL等。此外,MPD生成單元57充當(dāng)信息生成單元并在用于音頻元文件的“Representation”(“表示”)的“Segment”(“片段”)中布置URL等作為用于指定音頻元文件的信息。MPD生成單元57向服務(wù)器上傳處理單元58提供MPD文件、圖像文件、音頻文件和音頻元文件,其中在MPD文件中,各種類型的信息如上所述進(jìn)行布置。
服務(wù)器上傳處理單元58向Web服務(wù)器12上傳從MPD生成單元57提供的每個(gè)瓦片的圖像文件、每個(gè)對(duì)象的音頻文件、音頻元文件和MPD文件。
(文件生成裝置的過(guò)程的說(shuō)明)
圖12為示出在圖11中示出的文件生成裝置11的文件生成過(guò)程的流程圖。
在圖12的步驟S11中,文件生成裝置11的屏幕拆分處理單元51將從外面輸入的視頻內(nèi)容的圖像數(shù)據(jù)拆分為瓦片單元。屏幕拆分處理單元51向圖像信息生成單元54提供瓦片位置信息。此外,屏幕拆分處理單元51向圖像編碼處理單元52提供以瓦片為單位配置的圖像數(shù)據(jù)。
在步驟S12中,圖像編碼處理單元52針對(duì)每個(gè)瓦片對(duì)從屏幕拆分處理單元51提供的以瓦片為單位配置的圖像數(shù)據(jù)進(jìn)行編碼,以生成每個(gè)瓦片的視頻流。圖像編碼處理單元52向圖像文件生成單元53提供每個(gè)瓦片的視頻流。
在步驟S13中,圖像文件生成單元53將從圖像編碼處理單元52提供的每個(gè)瓦片的視頻流處理為以片段為單位的文件格式以生成每個(gè)瓦片的圖像文件。圖像文件生成單元53向MPD生成單元57提供每個(gè)瓦片的圖像文件。
在步驟S14中,圖像信息生成單元54從外面獲取圖像幀尺寸信息。在步驟S15中,圖像信息生成單元54生成包含從屏幕拆分處理單元51提供的瓦片位置信息和圖像幀尺寸信息的圖像信息,并向MPD生成單元57提供圖像信息。
在步驟S16中,音頻編碼處理單元55針對(duì)每個(gè)對(duì)象編碼音頻數(shù)據(jù)并生成每個(gè)對(duì)象的音頻流,其中該音頻數(shù)據(jù)以從外面輸入的視頻內(nèi)容的對(duì)象為單位配置。此外,音頻編碼處理單元55編碼從外面輸入的每個(gè)對(duì)象的對(duì)象位置信息和包含對(duì)象ID的音頻元數(shù)據(jù)以生成編碼數(shù)據(jù)。音頻編碼處理單元55向音頻文件生成單元56提供每個(gè)對(duì)象的音頻流和音頻元數(shù)據(jù)的編碼數(shù)據(jù)。
在步驟S17中,音頻文件生成單元56將從音頻編碼處理單元55提供的每個(gè)對(duì)象的音頻流處理為以片段為單位的文件格式以生成每個(gè)對(duì)象的音頻文件。此外,音頻文件生成單元56將從音頻編碼處理單元55提供的音頻元數(shù)據(jù)的編碼數(shù)據(jù)處理為以片段為單位的文件格式以生成音頻元文件。音頻文件生成單元56向MPD生成單元57提供每個(gè)對(duì)象的音頻文件和音頻元文件。
在步驟S18中,MPD生成單元57生成包含從圖像信息生成單元54提供的圖像信息、每個(gè)文件的URL等的MPD文件。MPD生成單元57向服務(wù)器上傳處理單元58提供MPD文件、每個(gè)瓦片的圖像文件、每個(gè)對(duì)象的音頻文件和音頻元文件。
在步驟S19中,服務(wù)器上傳處理單元58向Web服務(wù)器12上傳從MPD生成單元57提供的每個(gè)瓦片的圖像文件、每個(gè)對(duì)象的音頻文件、音頻元文件和MPD文件。接著該過(guò)程終止。
(視頻播放終端的功能配置示例)
圖13為示出流播放單元的配置示例的框圖,該流播放單元以如圖1所示的視頻播放終端14執(zhí)行控制軟件21、視頻播放軟件22和訪問(wèn)軟件23的方式實(shí)施。
如圖13所示的流播放單元90包括MPD獲取單元91、MPD處理單元92、元文件獲取單元93、音頻選擇單元94、音頻文件獲取單元95、音頻解碼處理單元96、音頻合成處理單元97、圖像選擇單元98、圖像文件獲取單元99、圖像解碼處理單元100和圖像合成處理單元101。
流播放單元90的MPD獲取單元91充當(dāng)接收器、從Web服務(wù)器12獲取MPD文件并向MPD處理單元92提供該MPD文件。
MPD處理單元92從提供自MPD獲取單元91的MPD文件提取信息(諸如在用于音頻元文件的“Segment”(“片段”)中描述的URL),并向元文件獲取單元93提供所提取的信息。此外,MPD處理單元92從MPD文件提取在用于圖像的“Adaptation Set”(“自適應(yīng)集”)中描述的圖像幀尺寸信息并向音頻選擇單元94提供所提取的信息。MPD處理單元92從MPD文件提取信息(諸如在用于從音頻選擇單元94所請(qǐng)求的對(duì)象的音頻文件的Segment”(“片段”)中描述的URL),并向音頻選擇單元94提供所提取的信息。
MPD處理單元92從MPD文件提取在用于圖像的“Adaptation Set”(“自適應(yīng)集”)中描述的瓦片位置信息并向圖像選擇單元98提供所提取的信息。MPD處理單元92從MPD文件提取信息(諸如在用于從圖像選擇單元98所請(qǐng)求的瓦片的圖像文件的“Segment”(“片段”)中描述的URL),并向圖像選擇單元98提供所提取的信息。
基于信息(諸如從MPD處理單元92提供的URL),元文件獲取單元93請(qǐng)求Web服務(wù)器12發(fā)送由該URL指定的音頻元文件,并獲取該音頻元文件。元文件獲取單元93向音頻選擇單元94提供被包含在該音頻元文件中的對(duì)象位置信息。
音頻選擇單元94充當(dāng)位置確定單元并基于從MPD處理單元92提供的圖像幀尺寸信息和從元文件獲取單元93提供的對(duì)象位置信息計(jì)算在圖像上的每個(gè)對(duì)象的位置。音頻選擇單元94基于在圖像上的每個(gè)對(duì)象的位置選擇由使用者指定的顯示區(qū)域中的對(duì)象。音頻選擇單元94請(qǐng)求MPD處理單元92發(fā)送信息(諸如所選對(duì)象的音頻文件的URL)。音頻選擇單元94響應(yīng)于該請(qǐng)求,向音頻文件獲取單元95提供信息(諸如從MPD處理單元92提供的URL)。
音頻文件獲取單元95充當(dāng)接收器。基于諸如從音頻選擇單元94提供的URL的信息,音頻文件獲取單元95請(qǐng)求Web服務(wù)器12發(fā)送由URL指定并以對(duì)象為單位配置的音頻文件,并獲取該音頻文件。音頻文件獲取單元95向音頻解碼處理單元96提供所獲取的以對(duì)象為單位的音頻文件。
音頻解碼處理單元96解碼被包含在從音頻文件獲取單元95提供并以對(duì)象為單位配置的音頻文件中的音頻流,以生成以對(duì)象為單位的音頻數(shù)據(jù)。音頻解碼處理單元96向音頻合成處理單元97提供以對(duì)象為單位的音頻數(shù)據(jù)。
音頻合成處理單元97合成從音頻解碼處理單元96提供并以對(duì)象為單位配置的音頻數(shù)據(jù)并輸出該合成數(shù)據(jù)。
圖像選擇單元98基于從MPD處理單元92提供的瓦片位置信息選擇由使用者指定的顯示區(qū)域中的瓦片。圖像選擇單元98請(qǐng)求MPD處理單元92發(fā)送諸如所選瓦片的圖像文件的URL的信息。圖像選擇單元98響應(yīng)于該請(qǐng)求,向圖像文件獲取單元99提供諸如從MPD處理單元92提供的URL的信息。
基于諸如從圖像選擇單元98提供的URL的信息,圖像文件獲取單元99請(qǐng)求Web服務(wù)器12發(fā)送由URL指定并以瓦片為單位配置的圖像文件,并獲取該圖像文件。圖像文件獲取單元99向圖像解碼處理單元100提供所獲取的以瓦片為單位的圖像文件。
圖像解碼處理單元100解碼視頻流(該視頻流被包含在從圖像文件獲取單元99提供并以瓦片為單位配置的圖像文件中),以生成以瓦片為單位的圖像數(shù)據(jù)。圖像解碼處理單元100向圖像合成處理單元101提供以瓦片為單位的圖像數(shù)據(jù)。
圖像合成處理單元101合成從圖像解碼處理單元100提供并以瓦片為單位配置的圖像數(shù)據(jù)并輸出該合成數(shù)據(jù)。
(運(yùn)動(dòng)圖像播放終端的過(guò)程的解釋)
圖14為示出視頻播放終端14的流播放單元(圖13)的流播放過(guò)程的流程圖。
在圖14的步驟S31中,流播放單元90的MPD獲取單元91從Web服務(wù)器12獲取MPD文件并向MPD處理單元92提供該MPD文件。
在步驟S32中,MPD處理單元92從提供自MPD獲取單元91的MPD文件獲取在用于圖像的“Adaptation Set”(“自適應(yīng)集”)中描述的圖像幀尺寸信息和瓦片位置信息。MPD處理單元92向音頻選擇單元94提供圖像幀尺寸信息并向圖像選擇單元98提供瓦片位置信息。此外,MPD處理單元92提取諸如在用于音頻元文件的“Segment”(“片段”)中描述的URL的信息,并向元文件獲取單元93提供所提取的信息。
在步驟S33中,基于諸如從MPD處理單元92提供的URL的信息,元文件獲取單元93請(qǐng)求Web服務(wù)器12發(fā)送由該URL指定的音頻元文件,并獲取該音頻元文件。元文件獲取單元93向音頻選擇單元94提供被包含在該音頻元文件中的對(duì)象位置信息。
在步驟S34中,音頻選擇單元94基于從MPD處理單元92提供的圖像幀尺寸信息和從元文件獲取單元93提供的對(duì)象位置信息來(lái)選擇由使用者指定的在顯示區(qū)域中的對(duì)象。音頻選擇單元94請(qǐng)求MPD處理單元92發(fā)送諸如所選對(duì)象的音頻文件的URL的信息。
MPD處理單元92從MPD文件提取諸如在用于從音頻選擇單元94所請(qǐng)求的對(duì)象的音頻文件的“Segment”(“片段”)中描述的URL的信息,并向音頻選擇單元94提供所提取的信息。音頻選擇單元94向音頻文件獲取單元95提供諸如從MPD處理單元92提供的URL的信息。
在步驟S35中,基于諸如從音頻選擇單元94提供的URL的信息,音頻文件獲取單元95請(qǐng)求Web服務(wù)器12發(fā)送由該URL指定的所選對(duì)象的音頻文件,并獲取該音頻文件。音頻文件獲取單元95向音頻解碼處理單元96提供所獲取的以對(duì)象為單位的音頻文件。
在步驟S36中,圖像選擇單元98基于從MPD處理單元92提供的瓦片位置信息選擇由使用者指定的顯示區(qū)域中的瓦片。圖像選擇單元98請(qǐng)求MPD處理單元92發(fā)送諸如所選瓦片的圖像文件的URL的信息。
MPD處理單元92從MPD文件提取諸如在用于從圖像選擇單元98所請(qǐng)求的對(duì)象的圖像文件的“Segment”(“片段”)中描述的URL的信息,并向圖像選擇單元98提供所提取的信息。圖像選擇單元98向圖像文件獲取單元99提供諸如從MPD處理單元92提供的URL的信息。
在步驟S37中,基于諸如從圖像選擇單元98提供的URL的信息,圖像文件獲取單元99請(qǐng)求Web服務(wù)器12發(fā)送由該URL指定的所選瓦片的圖像文件,并獲取該圖像文件。圖像文件獲取單元99向圖像解碼處理單元100提供所獲取的以瓦片為單位的圖像文件。
在步驟S38中,音頻解碼處理單元96解碼被包含在從音頻文件獲取單元95提供并以對(duì)象為單位配置的音頻文件中的音頻流,以生成以對(duì)象為單位的音頻數(shù)據(jù)。音頻解碼處理單元96向音頻合成處理單元97提供以對(duì)象為單位的音頻數(shù)據(jù)。
在步驟S39中,圖像解碼處理單元100解碼被包含在從圖像文件獲取單元99提供并以瓦片為單位配置的圖像文件中的視頻流,以生成以瓦片為單位的圖像數(shù)據(jù)。圖像解碼處理單元100向圖像合成處理單元101提供以瓦片為單位的圖像數(shù)據(jù)。
在步驟S40中,音頻合成處理單元97合成從音頻解碼處理單元96提供并以對(duì)象為單位配置的音頻數(shù)據(jù)并輸出該合成數(shù)據(jù)。在步驟S41中,圖像合成處理單元101合成從圖像解碼處理單元100提供并以瓦片為單位配置的圖像數(shù)據(jù)并輸出該合成數(shù)據(jù)。接著該過(guò)程終止。
如上所述,Web服務(wù)器12發(fā)送圖像幀尺寸信息和對(duì)象位置信息。因此,視頻播放終端14可以指定例如在顯示區(qū)域中的對(duì)象以選擇性獲取所指定的對(duì)象的音頻文件,以便該音頻文件對(duì)應(yīng)于在該顯示區(qū)域中的圖像。這允許視頻播放終端14僅獲取必要的音頻文件,這使得傳輸效率提高。
應(yīng)指出,如圖15所示,對(duì)象ID(指定信息的對(duì)象)可在用于MPD文件的圖像的“Adaptation Set”(“自適應(yīng)集”)中被描述,作為用于指定對(duì)應(yīng)于將要與圖像同時(shí)播放的音頻的對(duì)象的信息。對(duì)象ID可通過(guò)利用Viewpoint(視點(diǎn))的DescriptorType(描述符類型)元素來(lái)定義新對(duì)象ID信息(audioObj)的擴(kuò)展方案(urn:mpeg:DASH:audioObj:2013)來(lái)描述。在此情況下,視頻播放終端14選擇與在用于圖像的“Adaptation Set”(“自適應(yīng)集”)中描述的對(duì)象ID對(duì)應(yīng)的對(duì)象的音頻文件,并獲取該音頻文件以用于播放。
作為生成以對(duì)象為單位的音頻文件的替換,所有對(duì)象的編碼數(shù)據(jù)可被復(fù)用為單個(gè)音頻流以生成單個(gè)音頻文件。
在此情況下,如圖16所示,用于音頻文件的一個(gè)“Representation”(“表示”)被設(shè)置在用于MPD文件的音頻的“Adaptation Set”(“自適應(yīng)集”)中,以及用于包含所有對(duì)象的編碼數(shù)據(jù)的音頻文件(audioObje.mp4)的URL等在“Segment”(“片段”)中描述。此時(shí),對(duì)應(yīng)于音頻文件的所有對(duì)象的對(duì)象ID(1、2、3、4和5)通過(guò)擴(kuò)展Viewpoint(視點(diǎn))來(lái)描述。
另外,在此情況下,如圖17所示,每個(gè)對(duì)象的編碼數(shù)據(jù)(音頻對(duì)象)作為子樣本被布置在通過(guò)參考MPD文件的“Media Segment”(“媒體片段”)所獲取的音頻文件(在下文中,在適當(dāng)時(shí),也被稱為音頻媒體文件)的mdat盒(box)中。
具體地,數(shù)據(jù)以子片段為單位被布置在音頻媒體文件中,該子片段在任何時(shí)間比片段更短。以子片段為單位的數(shù)據(jù)的位置由sidx盒指定。此外,以子片段為單位的數(shù)據(jù)由moof盒和mdat盒組成。mdat盒由多個(gè)樣本組成,以及每個(gè)對(duì)象的編碼數(shù)據(jù)被布置為該樣本的每個(gè)子樣本。
此外,描述關(guān)于樣本的信息的gsix盒被布置在音頻媒體文件的sidx盒之后。描述關(guān)于樣本的信息的gsix盒以此方式與moof盒分開(kāi)設(shè)置,并因此視頻播放終端14可以快速獲取關(guān)于樣本的信息。
如圖18所示,表示樣本組條目的類型的grouping_type在gsix盒中描述,其中,每個(gè)樣本組條目包含由gsix盒管理的一或多個(gè)樣本或子樣本。例如,在樣本組條目為以對(duì)象為單位的編碼數(shù)據(jù)的子樣本時(shí),樣本組條目的類型為如圖17所示的“obja”。grouping_type的多個(gè)gsix盒被布置在音頻媒體文件中。
此外,如圖18所示,每個(gè)樣本組條目的索引(entry_index)和作為指示在音頻媒體文件中的位置的數(shù)據(jù)位置信息的字節(jié)范圍(range_size)在gsix盒中描述。應(yīng)指出,在索引(entry_index)為0時(shí),對(duì)應(yīng)字節(jié)范圍指示moof盒的字節(jié)范圍(在圖17的示例中的a1)。
指示哪個(gè)對(duì)象被用于允許每個(gè)樣本組條目對(duì)應(yīng)于編碼數(shù)據(jù)的子樣本的信息在通過(guò)參考MPD文件的“Initialization Segment”(“初始化片段”)所獲取的音頻文件中描述(本文后面適當(dāng)?shù)匾卜Q為音頻初始化文件)。
具體地,如圖19所示,該信息通過(guò)使用mvex盒的類型分配盒(typa)來(lái)指示,該類型分配盒(typa)與在音頻初始化文件的sbtl盒中的樣本組描述盒(sgpd)的AudioObjectSampleGroupEntry相關(guān)聯(lián)的。
換句話說(shuō),如圖20的A所示,對(duì)應(yīng)于被包含在樣本中的編碼數(shù)據(jù)的對(duì)象ID(audio_object_id)在每個(gè)AudioObjectSampleGroupEntry盒中描述。例如,如圖20B所示,對(duì)象ID 1、2、3和4在四個(gè)AudioObjectSampleGroupEntry盒中的每者中描述。
另一方面,如圖21所示,在類型分配盒中,作為對(duì)應(yīng)于AudioObjectSampleGroupEntry的樣本組條目的參數(shù)(grouping_type_parameter)的索引被描述以用于每個(gè)AudioObjectSampleGroupEntry。
音頻媒體文件和音頻初始化文件如上所述進(jìn)行配置。因此,在視頻播放終端14獲取被選擇為顯示區(qū)域中的對(duì)象的對(duì)象的編碼數(shù)據(jù)時(shí),在其中描述所選對(duì)象的對(duì)象ID的AudioObjectSampleGroupEntry被從音頻初始化文件的stbl盒檢索出。接著,對(duì)應(yīng)于所檢索的AudioObjectSampleGroupEntry的樣本組條目的索引從mvex盒讀取。接著,以子片段為單位的數(shù)據(jù)的位置從音頻文件的sidx讀取,以及讀取索引的樣本組條目的字節(jié)范圍從gsix讀取。接著,被布置在mdat中的編碼數(shù)據(jù)基于以子片段為單位的數(shù)據(jù)的位置和字節(jié)范圍來(lái)獲取。因此,所選對(duì)象的編碼數(shù)據(jù)得以獲取。
雖然在上述的描述中,樣本組的索引和AudioObjectSampleGroupEntry的對(duì)象ID通過(guò)mvex盒彼此相關(guān)聯(lián),但是它們可彼此直接相關(guān)聯(lián)。在此情況下,樣本組條目的索引在AudioObjectSampleGroupEntry中描述。
此外,在音頻文件由多個(gè)軌道組成時(shí),sgpd可以被存儲(chǔ)在mvex中,這允許該sgpd在軌道之間共享。
(信息處理系統(tǒng)的第二示例的概述)
圖22為示出應(yīng)用本公開(kāi)的信息處理系統(tǒng)的第二示例的概述的示意圖。
應(yīng)指出,在圖22中示出的與圖3所示相同的元素由相同的附圖標(biāo)號(hào)表示。
在圖22所示的如同圖3的情況的示例中,視頻內(nèi)容的圖像被劃分為7(寬度)×5(高度)個(gè)瓦片,以及對(duì)象#1至#8的音頻如同視頻內(nèi)容的音頻一樣被獲取。
在此情況下,在使用者指示由3(寬度)×2(高度)個(gè)瓦片組成的顯示區(qū)域31時(shí),顯示區(qū)域31被轉(zhuǎn)換(擴(kuò)展)到尺寸與視頻內(nèi)容的圖像的尺寸相同的區(qū)域,從而獲得在如圖22所示的第二示例中的顯示圖像111。對(duì)象#1至#8的音頻基于對(duì)象#1至#8在顯示圖像111中的位置來(lái)合成并與顯示圖像111一起被輸出。換句話說(shuō),除了在顯示區(qū)域31內(nèi)的對(duì)象#1、#2和#6的音頻之外,在顯示區(qū)域31外面的對(duì)象#3至#5、#7和#8的音頻也被輸出。
(流播放單元的配置示例)
應(yīng)用本公開(kāi)的信息處理系統(tǒng)的第二示例的配置與圖1所示的信息處理系統(tǒng)10的配置相同,除了流播放單元的配置之外,并因此僅在下面描述該流播放單元。
圖23為示出應(yīng)用本公開(kāi)的信息處理系統(tǒng)的流播放單元的配置示例的框圖。
在圖23中示出的與圖13所示相同的組件由相同的附圖標(biāo)號(hào)表示,并且在適當(dāng)時(shí),省略重復(fù)的解釋。
如圖23所示的流播放單元120的配置不同于如圖13所示的流播放單元90的配置之處在于,新提供以分別取代MPD處理單元92、音頻合成處理單元97和圖像合成處理單元101的MPD處理單元121、音頻合成處理單元123和圖像合成處理單元124以及另外提供的位置確定單元122。
流播放單元120的MPD處理單元121從提供自MPD獲取單元91的MPD文件提取諸如在用于音頻元文件的“Segment”(“片段”)中描述的URL的信息,并向元文件獲取單元93提供所提取的信息。此外,MPD處理單元121從MPD文件提取在用于圖像的“Adaptation Set”(“自適應(yīng)集”)中描述的視頻內(nèi)容的圖像的圖像幀尺寸信息(在下文中,被稱為內(nèi)容圖像幀尺寸信息)并向位置確定單元122提供所提取的信息。MPD處理單元121從MPD文件提取諸如在用于所有對(duì)象的音頻文件的“Segment”(“片段”)中描述的URL的信息,并向音頻文件獲取單元95提供所提取的信息。
MPD處理單元121從MPD文件提取在用于圖像的“Adaptation Set”(“自適應(yīng)集”)中描述的瓦片位置信息并向圖像選擇單元98提供所提取的信息。MPD處理單元121從MPD文件提取諸如在用于從圖像選擇單元98所請(qǐng)求的瓦片的圖像文件的“Segment”(“片段”)中描述的URL的信息,并向圖像選擇單元98提供所提取的信息。
位置確定單元122獲取被包含在通過(guò)元文件獲取單元93獲得的音頻元文件中的對(duì)象位置信息和從MPD處理單元121提供的內(nèi)容圖像幀尺寸信息。此外,位置確定單元122獲取作為由使用者指定的顯示區(qū)域的圖像幀尺寸信息的顯示區(qū)域圖像幀尺寸信息。位置確定單元122基于對(duì)象位置信息、內(nèi)容圖像幀尺寸信息和顯示區(qū)域圖像幀尺寸信息來(lái)確定(識(shí)別)每個(gè)對(duì)象在顯示區(qū)域中的位置。位置確定單元122向音頻合成處理單元123提供所確定的每個(gè)對(duì)象的位置。
音頻合成處理單元123基于從位置確定單元122提供的對(duì)象位置來(lái)合成從音頻解碼處理單元96提供的以對(duì)象為單位的音頻數(shù)據(jù)。具體地,音頻合成處理單元123基于對(duì)象位置和輸出聲音的每個(gè)揚(yáng)聲器的位置來(lái)確定針對(duì)每個(gè)對(duì)象分配給每個(gè)揚(yáng)聲器的音頻數(shù)據(jù)。音頻合成處理單元123針對(duì)每個(gè)揚(yáng)聲器合成每個(gè)對(duì)象的音頻數(shù)據(jù)并輸出作為每個(gè)揚(yáng)聲器的音頻數(shù)據(jù)的合成音頻數(shù)據(jù)?;趯?duì)象位置合成每個(gè)對(duì)象的音頻數(shù)據(jù)的方法的詳細(xì)描述在例如1997年的《AES期刊》卷45第6期的第456-466頁(yè)的Ville Pulkki的“Virtual Sound Source Positioning Using Vector Base Amplitude Panning(使用矢量基幅值平移的虛擬聲源定位)”中公開(kāi)。
圖像合成處理單元124合成從圖像解碼處理單元100提供的以瓦片為單位的圖像數(shù)據(jù)。圖像合成處理單元124充當(dāng)轉(zhuǎn)換器,并將對(duì)應(yīng)于合成圖像數(shù)據(jù)的圖像尺寸轉(zhuǎn)換成視頻內(nèi)容的尺寸以生成顯示圖像。圖像合成處理單元124輸出該顯示圖像。
(對(duì)象位置確定方法的解釋)
圖24至26中的每者示出如圖23所示的位置確定單元122的對(duì)象位置確定方法。
顯示區(qū)域31從視頻內(nèi)容提取以及顯示區(qū)域31的尺寸被轉(zhuǎn)換為該視頻內(nèi)容的尺寸,以便生成顯示圖像111。因此,顯示圖像111的尺寸等同于如圖24所示通過(guò)將顯示區(qū)域31的中心C位移到顯示圖像111的中心C′以及如圖25所示通過(guò)將顯示區(qū)域31的尺寸轉(zhuǎn)換為視頻內(nèi)容的尺寸所獲得的尺寸。
因此,位置確定單元122通過(guò)下面的公式(1)計(jì)算在顯示區(qū)域31的中心O被位移到顯示圖像111的中心O′時(shí)的在水平方向的位移量θshift。
【數(shù)學(xué)公式1】
在公式(1)中,θv1'表示被包含在顯示區(qū)域圖像幀尺寸信息中的在顯示區(qū)域31的左端的水平角,以及θv2'表示被包含在顯示區(qū)域圖像幀尺寸信息中的在顯示區(qū)域31的右端的水平角。此外,θv1表示在內(nèi)容圖像幀尺寸信息中的在左端的水平角,以及θv2表示在內(nèi)容圖像幀尺寸信息中的在右端的水平角。
接下來(lái),位置確定單元122通過(guò)下面的公式(2)計(jì)算在通過(guò)使用位移量θshift將顯示區(qū)域31的中心O位移到顯示圖像111的中心O′之后在顯示區(qū)域31的左端的水平角θv1_shift'以及在其右端的水平角θv2_shift'。
【數(shù)學(xué)公式2】
θv1_shift'=mod(θv1'+θshift+180°,360°)-180°
θv2_shift'=mod(θv2'+θshift+180°,360°)-180° ...(2)
根據(jù)公式(2),水平角θv1_shift'和水平角θv2_shift'被計(jì)算以便不超過(guò)-180°至180°的范圍。
應(yīng)指出,如上所述,顯示圖像111尺寸等同于通過(guò)將顯示區(qū)域31的中心O位移到顯示圖像111的中心O′以及通過(guò)將顯示區(qū)域31的尺寸轉(zhuǎn)換為視頻內(nèi)容的尺寸所獲得的尺寸。因此,下面的公式(3)滿足水平角θV1和θV2。
【數(shù)學(xué)公式3】
位置確定單元122以上述的方式計(jì)算位移量θshift、水平角θv1_shift'和水平角θv2_shift',并接著計(jì)算每個(gè)對(duì)象在顯示圖像111中的水平角。具體地,在通過(guò)使用位移量θshift將顯示區(qū)域31的中心C被位移到顯示圖像111的中心C′之后,位置確定單元122通過(guò)下面的公式(4)計(jì)算的對(duì)象#i的水平角θAi_shift。
【數(shù)學(xué)公式4】
θAi_shift=mod(θAi+θshift+180°,360°)-180° ...(4)
在公式(4)中,θAi表示被包含在對(duì)象位置信息中的對(duì)象#i的水平角。此外,根據(jù)公式(4),水平角θAi_shift被計(jì)算以便不超過(guò)-180°至180°的范圍。
接下來(lái),在對(duì)象#i存在于顯示區(qū)域31中時(shí),即滿足θv2_shif'<θAi_shift<θv1_shift'的條件時(shí),位置確定單元122通過(guò)下面的公式(5)計(jì)算對(duì)象#i在顯示圖像111中的水平角θA1'。
【數(shù)學(xué)公式5】
根據(jù)公式(5),通過(guò)根據(jù)顯示區(qū)域31的尺寸和顯示圖像111的尺寸之間的比率擴(kuò)展對(duì)象#i在顯示圖像11中的位置和顯示圖像111的中心C'之間的距離來(lái)計(jì)算水平角θA1'。
另一方面,在沒(méi)有對(duì)象#i存在于顯示區(qū)域31中時(shí),即滿足-180°≤θAi_shift≤θv2_shift'或θv1_shift'≤θAi_shift≤180°的條件時(shí),位置確定單元122通過(guò)下面的公式(6)計(jì)算對(duì)象#i在顯示圖像111中的水平角θAi'。
【數(shù)學(xué)公式6】
根據(jù)公式(6),如圖26所示,在對(duì)象#i存在于顯示區(qū)域31的右側(cè)的位置151時(shí)(-180°≤θAi_shift≤θv2_shift'),通過(guò)根據(jù)角度R1和角度R2之間的比率擴(kuò)展水平角θAi_shift來(lái)計(jì)算水平角θAi'。應(yīng)指出,角度R1為從顯示圖像111的右端到剛好在觀眾153后面的位置154而測(cè)量的角度,以及角度R2為從其中心被位移的顯示區(qū)域31的右端到位置154測(cè)量的角度。
此外,根據(jù)公式(6),在對(duì)象#i存在于顯示區(qū)域31的左側(cè)的位置155時(shí)(θv1_shift'≤θAi_shift≤180°),通過(guò)根據(jù)角度R3和角度R4之間的比率擴(kuò)展水平角θAi_shift來(lái)計(jì)算水平角θAi'。應(yīng)指出,角度R3為從顯示圖像111的左端到位置154測(cè)量的角度,以及角度R4為從其中心被位移的顯示區(qū)域31的左端到位置154測(cè)量的角度。
另外,位置確定單元122以類似于水平角θAi'的方式計(jì)算垂直角γAi'。具體地,位置確定單元122通過(guò)下面的公式(7)計(jì)算在顯示區(qū)域31的中心C被位移到顯示圖像111的中心C′時(shí),在垂直方向的位移量γshift。
【數(shù)學(xué)公式7】
在公式(7)中,γv1'表示包含在顯示區(qū)域圖像幀尺寸信息中的顯示區(qū)域31的上端的垂直角,以及γv2′表示在其下端的垂直角。此外,γv1表示在內(nèi)容圖像幀尺寸信息中的上端的垂直角,以及γv2表示在內(nèi)容圖像幀尺寸信息中的下端的垂直角。
接下來(lái),位置確定單元122通過(guò)下面的公式(8)使用位移量γshift,計(jì)算在顯示區(qū)域31的中心C被位移到顯示圖像111的中心C′之后,在顯示區(qū)域31的上端的垂直角γv1_shift'以及在其下端的垂直角γv2_shift'。
【數(shù)學(xué)公式8】
γv1_shift'=mod(γv1'+γshift+90°,180°)-90°
γv2_shift'=mod(γv2'+γshift+90°,180°)-90°...(8)
根據(jù)公式(8),垂直角γv1_shift'和垂直角γv2_shift'被計(jì)算以便不超過(guò)-90°至90°的范圍。
位置確定單元122以上述的方式計(jì)算位移量γshift、垂直角γv1_shift'和垂直角γv2_shift',并接著計(jì)算每個(gè)對(duì)象在顯示圖像111中的位置。具體地,位置確定單元122通過(guò)下面的公式(9)使用位移量γshift,計(jì)算在顯示區(qū)域31的中心C被位移到顯示圖像111的中心C′之后,對(duì)象#i的垂直角γAi_shift。
【數(shù)學(xué)公式9】
γAi_shift=mod(γAi+γshift+90°,180°)-90° ...(9)
在公式(9)中,γAi表示被包含在對(duì)象位置信息中的對(duì)象#i的垂直角。此外,根據(jù)公式(9),垂直角γAi_shift被計(jì)算以便不超過(guò)-90°至90°的范圍。
接下來(lái),位置確定單元122通過(guò)下面的公式(10)計(jì)算對(duì)象#i在顯示圖像111中的垂直角γA1'。
【數(shù)學(xué)公式10】
此外,位置確定單元122確定對(duì)象#i在顯示圖像111中的距離rA1'為被包含在對(duì)象位置信息中的對(duì)象#i的距離rA1。位置確定單元122向音頻合成處理單元123提供如上所述獲得并作為對(duì)象#i的位置的水平角θAi'、垂直角γA1'和對(duì)象#i的距離rA1,作為對(duì)象#i的位置。
圖27為示出在水平角θAi和水平角θAi'之間的關(guān)系的示意圖。
在圖27的曲線圖中,水平軸線表示水平角θAi,以及垂直軸線表示水平角θAi'。
如圖27所示,在滿足條件θV2'<θAi<θV1'時(shí),水平角θAi以位移量θshift位移并被擴(kuò)展,并接著水平角θAi變得等于水平角θAi'。此外,在滿足條件-180°≤θAi≤θv2'orθv1'≤θAi≤180°時(shí),水平角θAi以位移量θshift位移并被減少,并接著水平角θAi變得等于水平角θAi'。
(流播放單元的過(guò)程的說(shuō)明)
圖28為示出在圖23中示出的流播放單元120的流播放過(guò)程的流程圖。
在圖28的步驟S131中,流播放單元120的MPD獲取單元91從Web服務(wù)器12獲取MPD文件并向MPD處理單元121提供該MPD文件。
在步驟S132中,MPD處理單元121從提供自MPD獲取單元91的MPD文件獲取在用于圖像的“Adaptation Set”(“自適應(yīng)集”)中描述的內(nèi)容圖像幀尺寸信息和瓦片位置信息。MPD處理單元121向位置確定單元122提供圖像幀尺寸信息并向圖像選擇單元98提供瓦片位置信息。此外,MPD處理單元121提取諸如在用于音頻元文件的“Segment”(“片段”)中描述的URL的信息,并向元文件獲取單元93提供所提取的信息。
在步驟S133中,元文件獲取單元93基于諸如從MPD處理單元121提供的URL的信息,請(qǐng)求Web服務(wù)器12發(fā)送由該URL指定的音頻元文件并獲取該音頻元文件。元文件獲取單元93向位置確定單元122提供被包含在該音頻元文件中的對(duì)象位置信息。
在步驟S134中,位置確定單元122基于對(duì)象位置信息、內(nèi)容圖像幀尺寸信息和顯示區(qū)域圖像幀尺寸信息來(lái)執(zhí)行用于確定每個(gè)對(duì)象在顯示圖像中的位置的位置確定過(guò)程。該位置確定過(guò)程將參考在后面描述的圖29來(lái)詳述。
在步驟S135中,MPD處理單元121從MPD文件提取諸如在用于所有對(duì)象的音頻文件的“Segment”(“片段”)中描述的URL的信息,并向音頻文件獲取單元95提供所提取的信息。
在步驟S136中,音頻文件獲取單元95基于諸如從MPD處理單元121提供的URL的信息,請(qǐng)求Web服務(wù)器12發(fā)送由該URL指定的所有對(duì)象的音頻文件并獲取該音頻文件。音頻文件獲取單元95向音頻解碼處理單元96提供所獲取的以對(duì)象為單位的音頻文件。
步驟S137至S140的過(guò)程類似于如圖14所示的步驟S36至S39的過(guò)程,并因此其描述將被省略。
在步驟S141中,音頻合成處理單元123基于從位置確定單元122提供的每個(gè)對(duì)象的位置來(lái)合成從音頻解碼處理單元96提供的以對(duì)象為單位的音頻數(shù)據(jù)并輸出該音頻數(shù)據(jù)。
在步驟S142中,圖像合成處理單元124合成從圖像解碼處理單元100提供的以瓦片為單位的圖像數(shù)據(jù)。
在步驟S143中,圖像合成處理單元124將對(duì)應(yīng)于合成圖像數(shù)據(jù)的圖像尺寸轉(zhuǎn)換成視頻內(nèi)容的尺寸并生成顯示圖像。接著,圖像合成處理單元124輸出該顯示圖像,并且該過(guò)程終止。
圖29為示出在圖28的步驟S134中的位置確定過(guò)程的細(xì)節(jié)的流程圖。該位置確定過(guò)程被執(zhí)行例如以用于每個(gè)對(duì)象。
在圖29的步驟S151中,位置確定單元122執(zhí)行用于估算在顯示圖像中的水平角θAi'的水平角θAi'估算過(guò)程。水平角θAi'估算過(guò)程的細(xì)節(jié)將參考在后面描述的圖30來(lái)描述。
在步驟S152中,位置確定單元122執(zhí)行用于估算在顯示圖像中的垂直角γAi'的垂直角γAi'估算過(guò)程。垂直角γAi'估算過(guò)程的細(xì)節(jié)類似于在步驟S151中的水平角θAi'估算過(guò)程的細(xì)節(jié),除了使用替代水平方向的垂直方向之外,并因此其詳細(xì)描述將被省略。
在步驟S153中,過(guò)程確定單元122確定在顯示圖像中的距離rAi'為被包含在從元文件獲取單元93提供的對(duì)象位置信息中的距離rAi。
在步驟S154中,位置確定單元122向音頻合成處理單元123輸出作為對(duì)象#i的位置的水平角θAi'、垂直角γA1'和距離rA1。接著,該過(guò)程返回到圖28的步驟S134并前進(jìn)至步驟S135。
圖30為示出在圖29的步驟S151中的水平角θAi'估算過(guò)程的細(xì)節(jié)的流程圖。
在如圖30所示的步驟S171中,位置確定單元122獲取被包含在提供自元文件獲取單元93的對(duì)象位置信息中的水平角θAi。
在步驟S172中,位置確定單元122獲取提供自MPD處理單元121的內(nèi)容圖像幀尺寸信息和由使用者指定的顯示區(qū)域圖像幀尺寸信息。
在步驟S173中,位置確定單元122基于該內(nèi)容圖像幀尺寸信息和顯示區(qū)域圖像幀尺寸信息通過(guò)上述的公式(1)來(lái)計(jì)算位移量θshift。
在步驟S174中,位置確定單元122使用該位移量θshift和顯示區(qū)域圖像幀尺寸通過(guò)上述的公式(2)來(lái)計(jì)算水平角θv1_shift'和θv2_shift'。
在步驟S175中,位置確定單元122使用水平角θAi和位移量θshift通過(guò)上述的公式(4)來(lái)計(jì)算水平角θAi_shift。
在步驟S176中,位置確定單元122確定對(duì)象#i是否存在于顯示區(qū)域31中(對(duì)象#i的水平角在顯示區(qū)域31的兩端的水平角之間),即,是否滿足θv2_shift'<θAi_shift<θv1_shift'的條件。
在步驟S176中確定對(duì)象#i存在于顯示區(qū)域31中時(shí),即在滿足條件θv2_shift'<θAi_shift<θv1_shift'時(shí),該過(guò)程前進(jìn)至步驟S177。在步驟S177中,位置確定單元122基于內(nèi)容圖像幀尺寸信息、水平角θv1_shift'和θv2_shift'以及水平角θAi_shift通過(guò)上述的公式(5)來(lái)計(jì)算水平角θA1'。
另一方面,在步驟S176中確定對(duì)象#i不存在于顯示區(qū)域31中時(shí),即在滿足條件-180°≤θAi_shift≤θv2_shift'或θv1_shift'≤θAi_shift≤180°時(shí),該過(guò)程前進(jìn)至步驟S178。在步驟S178中,位置確定單元122基于內(nèi)容圖像幀尺寸信息、水平角θv1_shift'或θv2_shift'以及水平角θAi_shift通過(guò)上述的公式(6)來(lái)計(jì)算水平角θAi'。
在步驟S177或步驟S178的過(guò)程之后,該過(guò)程返回到圖29的步驟S151并前進(jìn)至步驟S152。
應(yīng)指出,在第二示例中,顯示圖像的尺寸與視頻內(nèi)容的尺寸相同,但替代地,顯示圖像的尺寸可與視頻內(nèi)容的尺寸不同。
此外,在第二示例中,所有對(duì)象的音頻數(shù)據(jù)未被合成和輸出,而是僅改為合成和輸出一些對(duì)象(例如,在顯示區(qū)域中的對(duì)象、在顯示區(qū)域的預(yù)定范圍內(nèi)的對(duì)象等)的音頻數(shù)據(jù)。用于選擇待輸出的音頻數(shù)據(jù)的對(duì)象的方法可被事先確定或可由使用者指定。
此外,在上面的描述中,僅使用單位對(duì)象的音頻數(shù)據(jù),但是音頻數(shù)據(jù)可包含聲道音頻的音頻數(shù)據(jù)、高階高保真度(HOA)音頻的音頻數(shù)據(jù)、空間音頻對(duì)象編碼(SAOC)的音頻數(shù)據(jù)和音頻數(shù)據(jù)的元數(shù)據(jù)(場(chǎng)景信息、動(dòng)態(tài)或靜態(tài)元數(shù)據(jù))。在此情況下,例如不僅每個(gè)對(duì)象的編碼數(shù)據(jù)而且這些數(shù)據(jù)塊的編碼數(shù)據(jù)被布置為子樣本。
<第一實(shí)施例>
(3D音頻文件格式的概述)
在描述應(yīng)用本公開(kāi)的第一實(shí)施例之前,MP4的3D音頻文件格式的聲道概述將參考圖31來(lái)描述。
在MP4文件中,視頻內(nèi)容的編解碼信息和指示在文件中的位置的位置信息可以針對(duì)每個(gè)軌道進(jìn)行管理。在MP4的3D音頻文件格式中,3D音頻(聲道音頻/對(duì)象音頻/HOA音頻/元數(shù)據(jù))的所有音頻流(基本流(ES))被記錄為以樣本(幀)為單位的一個(gè)軌道。此外,3D的編解碼信息(簡(jiǎn)況(profile)/級(jí)別(level)/音頻配置(audio configuration))作為樣本條目來(lái)存儲(chǔ)。
構(gòu)成3D音頻的聲道音頻為以聲道為單位的音頻數(shù)據(jù);對(duì)象音頻為以對(duì)象為單位的音頻數(shù)據(jù);HOA音頻為球形音頻數(shù)據(jù);以及元數(shù)據(jù)為聲道音頻/對(duì)象音頻/HOA音頻的元數(shù)據(jù)。在此情況下,以對(duì)象為單位的音頻數(shù)據(jù)被用作對(duì)象音頻,但是替換地可改為使用SAOC的音頻數(shù)據(jù)。
(moov盒的結(jié)構(gòu))
圖32示出MP4文件的moov盒的結(jié)構(gòu)。
如圖32所示,在MP4文件中,圖像數(shù)據(jù)和音頻數(shù)據(jù)被記錄在不同的軌道中。圖32未示出音頻數(shù)據(jù)的軌道的細(xì)節(jié),而是示出類似于圖像數(shù)據(jù)的軌道的音頻數(shù)據(jù)的軌道。樣本條目被包含在被布置在moov盒內(nèi)的stsd盒中的樣本描述中。
附帶地講,在廣播或本地存儲(chǔ)播放中,在解析所有的音頻流并輸出(再現(xiàn))該音頻流時(shí),Web服務(wù)器傳送所有的音頻流,以及視頻播放終端(客戶端)解碼必要的3D音頻的音頻流。在比特率(Bitrate)為高時(shí)或本地存儲(chǔ)的讀取速率存在限制時(shí),存在通過(guò)僅獲取必要的3D音頻的音頻流來(lái)降低解碼過(guò)程的負(fù)載的需求。
此外,在流播放時(shí),存在以下需求:視頻播放終端(客戶端)僅獲取必要的3D音頻的編碼數(shù)據(jù),從而獲取對(duì)于播放環(huán)境最佳的編碼速率的音頻流。
因此,在本公開(kāi)中,3D音頻的編碼數(shù)據(jù)被劃分為用于每種類型的數(shù)據(jù)的軌道并且該軌道被布置在音頻文件中,這使得可以有效地僅獲取預(yù)定類型的編碼數(shù)據(jù)。因此,在廣播和本地存儲(chǔ)播放時(shí)在系統(tǒng)上的負(fù)載得以降低。此外,在流播放時(shí),必要的3D音頻的最高質(zhì)量編碼數(shù)據(jù)可以根據(jù)頻帶來(lái)播放。此外,由于僅有必要以子片段的軌道為單位在音頻文件內(nèi)記錄3D文件的音頻流的位置信息,因此,與以對(duì)象為單位的編碼數(shù)據(jù)被布置在子樣本中的情況相比,可以減少位置信息的量。
(軌道的概述)
圖33為示出在應(yīng)用本公開(kāi)的第一實(shí)施例中的軌道的概述的示意圖。
如圖33所示,在第一實(shí)施例中,構(gòu)成3D音頻的聲道音頻/對(duì)象音頻/HOA音頻/元數(shù)據(jù)分別被設(shè)置為不同軌道(聲道音頻軌道/對(duì)象音頻軌道/HOA音頻軌道/對(duì)象元數(shù)據(jù)軌道)的音頻流。音頻元數(shù)據(jù)的音頻流被布置在對(duì)象元數(shù)據(jù)軌道中。
此外,提供作為用于布置關(guān)于整個(gè)3D音頻的信息的軌道的基本軌道(基本軌道)。在如圖33所示的基本軌道中,在沒(méi)有樣本被布置在樣本條目中時(shí),關(guān)于整個(gè)3D音頻的信息被布置在樣本條目中。此外,基本軌道、聲道音頻軌道、對(duì)象音頻軌道、HOA音頻軌道和對(duì)象元數(shù)據(jù)作為相同的音頻文件(3dauio.mp4)來(lái)記錄。
軌道參考序號(hào)(Track Reference)被布置在例如軌道盒中,并表示在對(duì)應(yīng)的軌道和另一軌道之間的參考關(guān)系。具體地,軌道參考序號(hào)表示對(duì)于在其它被參考軌道中的軌道是唯一的ID(在下文中,被稱為軌道ID)。在圖33所示的示例中,基本軌道、聲道音頻軌道、HOA音頻軌道、對(duì)象元數(shù)據(jù)軌道和對(duì)象音頻軌道的軌道ID分別為1、2、3、4、10、...?;拒壍赖能壍绤⒖夹蛱?hào)為2、3、4、10、...,以及聲道音頻軌道/HOA音頻軌道/對(duì)象元數(shù)據(jù)軌道/對(duì)象音頻軌道的軌道參考序號(hào)為1,其對(duì)應(yīng)于基本軌道的軌道ID。
因此,基本軌道和聲道音頻軌道/HOA音頻軌道/對(duì)象元數(shù)據(jù)軌道/對(duì)象音頻軌道具有參考關(guān)系。具體地,在播放聲道音頻軌道/HOA音頻軌道/對(duì)象元數(shù)據(jù)軌道/對(duì)象音頻軌道的過(guò)程中,基本軌道被參考。
(基本軌道的樣本條目的示例性語(yǔ)法)
圖34為示出在圖33中示出的基本軌道的樣本條目的示例性語(yǔ)法的示意圖。
作為關(guān)于整個(gè)3D音頻的信息,如圖34所示的configurationVersion、MPEGHAudioProfile和MPEGHAudioLevel分別表示3D音頻的整個(gè)音頻流的配置信息、簡(jiǎn)況(profile)信息和級(jí)別(level)信息(正常3D音頻的音頻流)。此外,作為關(guān)于整個(gè)3D音頻的信息,如圖34所示的寬度和高度分別表示在視頻內(nèi)容的水平方向的像素的數(shù)量和視頻內(nèi)容的垂直方向的像素的數(shù)量。作為關(guān)于整個(gè)3D音頻的信息,θ1、θ2、γ1和γ2分別表示在視頻內(nèi)容的圖像幀尺寸信息中的在圖像幀的左端的水平角θv1、在圖像幀的右端的水平角θv2、在圖像幀的上端的垂直角γv1和在圖像幀的下端的垂直角γv2。
(聲道音頻軌道的樣本條目的示例性語(yǔ)法)
圖35為示出在圖33中示出的聲道音頻軌道(聲道音頻軌道)的樣本條目的示例性語(yǔ)法的示意圖。
圖35示出分別表示聲道音頻的配置信息、簡(jiǎn)況信息和級(jí)別信息的configurationVersion、MPEGHAudioProfile和MPEGHAudioLevel。
(對(duì)象音頻軌道的樣本條目的示例性語(yǔ)法)
圖36為示出在圖33中示出的對(duì)象音頻軌道(對(duì)象音頻軌道)的樣本條目的示例性語(yǔ)法的示意圖。
在被包含在對(duì)象音頻軌道中的一或多個(gè)對(duì)象音頻中,如圖36所示的ConfigurationVersion、MPEGHAudioProfile和MPEGHAudioLevel分別表示配置信息、簡(jiǎn)況信息和級(jí)別信息。object_is_fixed指示被包含在對(duì)象音頻軌道中的一或多個(gè)對(duì)象音頻對(duì)象是否被固定。在object_is_fixed指示1時(shí),其指示該對(duì)象被固定,以及在object_is_fixed指示0時(shí),其指示該對(duì)象被位移。mpegh3daConfig表示被包含在對(duì)象音頻軌道中的一或多個(gè)對(duì)象音頻對(duì)象的識(shí)別信息的配置。
此外,objectTheta1/objectTheta2/objectGamma1/objectGamma2/objectRength表示被包含在對(duì)象音頻軌道中的一或多個(gè)對(duì)象音頻的對(duì)象信息。此對(duì)象信息為在保持Object_is_fixed=1時(shí)為有效的信息。
maxobjectTheta1、maxobjectTheta2、maxobjectGamma1、maxobjectGamma2/和maxobjectRength表示在被包含在對(duì)象音頻軌道中的一或多個(gè)對(duì)象音頻對(duì)象被位移時(shí)的對(duì)象信息的最大值。
(HOA音頻軌道的樣本條目的示例性語(yǔ)法)
圖37為示出在圖33中示出的HOA音頻軌道的樣本條目的示例性語(yǔ)法的示意圖。
如圖37所示的ConfigurationVersion、MPEGHAudioProfile和MPEGHAudioLevel分別表示HOA音頻的配置信息、簡(jiǎn)況信息和級(jí)別信息。
(對(duì)象元數(shù)據(jù)軌道的樣本條目的示例性語(yǔ)法)
圖38為示出在圖33中示出的對(duì)象元數(shù)據(jù)軌道(對(duì)象元數(shù)據(jù)軌道)的樣本條目的示例性語(yǔ)法的示意圖。
如圖38所示的ConfigurationVersion表示元數(shù)據(jù)的配置信息。
(3D音頻的音頻文件的片段結(jié)構(gòu)的第一示例)
圖39為示出在應(yīng)用本公開(kāi)的第一實(shí)施例中的3D音頻的音頻文件的片段結(jié)構(gòu)的第一示例的示意圖。
在如圖39所示的片段結(jié)構(gòu)中,初始片段(Initial segment)由ftyp盒和moov盒組成。用于被包含在音頻文件中的每個(gè)軌道的trak盒被布置在moov盒中。mvex盒被布置在moov盒中,其中該mvex盒包含指示每個(gè)軌道的軌道ID和在媒體片段(media segment)內(nèi)的ssix盒中使用的級(jí)別之間的對(duì)應(yīng)關(guān)系的信息。
此外,媒體片段由sidx盒、ssix盒以及一或多個(gè)子片段組成。指示在每個(gè)子片段的音頻文件中的位置的位置信息被布置在sidx盒中。ssix盒包含被布置在mdat盒中的在每個(gè)級(jí)別的音頻流的位置信息。應(yīng)指出,每個(gè)級(jí)別對(duì)應(yīng)于每個(gè)軌道。此外,第一軌道的位置信息為由moof盒的音頻流和第一軌道組成的數(shù)據(jù)的位置信息。
關(guān)于任何時(shí)間長(zhǎng)度設(shè)置子片段。為所有軌道共用的一對(duì)moof盒和mdat盒被設(shè)置在子片段中。在mdat盒中,所有軌道的音頻流關(guān)于任何時(shí)間長(zhǎng)度而集中布置。在moof盒中,布置音頻流的管理信息。被布置在mdat盒中的每個(gè)軌道的音頻流對(duì)于每個(gè)軌道來(lái)說(shuō)是連續(xù)的。
在圖39的示例中,軌道ID為1的軌道1為基本軌道,以及軌道ID為2至N的軌道2至軌道N分別為聲道音頻軌道、對(duì)象音頻軌道、HOA音頻軌道和對(duì)象元數(shù)據(jù)軌道。后面描述的圖40的情況同樣如此。
(3D音頻的音頻文件的片段結(jié)構(gòu)的第二示例)
圖40為示出在應(yīng)用本公開(kāi)的第一實(shí)施例中的3D音頻的音頻文件的片段結(jié)構(gòu)的第二示例的示意圖。
如圖40所示的片段結(jié)構(gòu)不同于如圖39所示的片段結(jié)構(gòu)之處在于moof盒和mdat盒被設(shè)置用于每個(gè)軌道。
具體地,如圖40所示的初始片段(Initial segment)類似于如圖39所示的初始片段。像如圖39所示的媒體片段,如圖40所示的媒體片段由sidx盒、ssix盒以及一或多個(gè)子片段組成。此外,像如圖39所示的sidx盒,每個(gè)子片段的位置信息被布置在sidx盒中。ssix盒包含由moof盒和mdat盒組成的每個(gè)級(jí)別的數(shù)據(jù)的位置信息。
關(guān)于任何時(shí)間長(zhǎng)度設(shè)置子片段。一對(duì)moof盒和mdat盒被設(shè)置用于子片段中的每個(gè)軌道。具體地,每個(gè)軌道的音頻流以任何時(shí)間長(zhǎng)度被集中布置(交織并存儲(chǔ))在每個(gè)軌道的mdat盒中,以及音頻流的管理信息被布置在moof盒中。
如圖39和40所示,用于每個(gè)軌道的音頻流被以任何時(shí)間長(zhǎng)度而集中布置,以便與音頻流以樣本為單位集中布置的情況相比,可以提高經(jīng)由HTTP等獲取音頻流的效率。
(mvex盒的示例性描述)
圖41為示出被布置在如圖39和40的mvex盒中的級(jí)別分配盒的示例性描述的示意圖。
級(jí)別分配盒為用于將每個(gè)軌道的軌道ID與用在ssix盒中使用的級(jí)別相關(guān)聯(lián)的盒。在圖41的示例中,軌道ID為1的基本軌道與級(jí)別0相關(guān)聯(lián),以及軌道ID為2的聲道音頻軌道與級(jí)別1相關(guān)聯(lián)。此外,軌道ID為3的HOA音頻軌道與級(jí)別2相關(guān)聯(lián),以及軌道ID為4的對(duì)象元數(shù)據(jù)軌道與級(jí)別3相關(guān)聯(lián)。此外,軌道ID為10的對(duì)象音頻軌道與級(jí)別4相關(guān)聯(lián)。
(MPD文件的示例性描述)
圖42為示出在應(yīng)用本公開(kāi)的第一實(shí)施例中的MDF文件的示例性描述的示意圖。
如圖42所示,用于管理3D音頻的音頻文件(3daudio.mp4)的片段的“Representation”(“表示”)、用于管理被包含在片段中的軌道的“SubRepresentation”(“子表示”)等在MPD文件中描述。
在“Representation”(“表示”)和“SubRepresentation”(“子表示”)中,包含“codecs”(“編解碼器”),其表示在3D音頻文件格式中定義的代碼中的對(duì)應(yīng)片段或軌道的編解碼器的類型。此外,“Representation”(“表示”)中包含“id”、“associationId”和“assciationType”。
“id”表示包含“id”的“Representation”(“表示”)的ID?!癮ssociationId”表示指示對(duì)應(yīng)軌道和另一軌道之間的參考關(guān)系的信息并且表示參考軌道的“id”?!癮ssciationType”表示指示關(guān)于參考軌道的參考關(guān)系(相關(guān)性關(guān)系)的含義的代碼。例如,使用與MP4的軌道參考序號(hào)的值相同的值。
此外,在“SubRepresentation”(“子表示”)中包含“l(fā)evel”(“級(jí)別”),其為設(shè)置在級(jí)別分配盒中的值,作為表示對(duì)應(yīng)軌道和對(duì)應(yīng)級(jí)別的值。在“SubRepresentation”(“子表示”)中包含“dependencyLevel”,其為表示對(duì)應(yīng)于具有參考關(guān)系(相關(guān)性)的另一軌道(在下文中,被稱為參考軌道)的級(jí)別的值。
此外,“SubRepresentation”(“子表示”)包含作為選擇3D音頻所需的信息的<EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014"value="audioType,contentkind,priority">。
此外,在對(duì)象音頻軌道中的“SubRepresentation”(“子表示”)包含<EssentialProperty schemeIdUri="urn:mpeg:DASH:viewingAngle:2014"value="θ,γ,r">。在對(duì)應(yīng)于“SubRepresentation”(“子表示”)的對(duì)象被固定時(shí),θ、γ和r分別表示在對(duì)象位置信息中的水平角、垂直角和距離。另一方面,在對(duì)象被位移時(shí),值θ、γ和r分別表示對(duì)象位置信息的最大值之中的水平角的最大值、垂直角的最大值和距離的最大值。
圖43為示出在圖42中示出的基本屬性的定義的示意圖。
在圖43的左上側(cè),定義<EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014"value="audioType,contentkind,priority">的audioType(音頻類型)。audioType表示對(duì)應(yīng)軌道的3D音頻的類型。
在圖43的示例中,在audioType指示1時(shí),其指示對(duì)應(yīng)軌道的音頻數(shù)據(jù)為3D音頻的聲道音頻,以及在audioType指示2時(shí),其指示對(duì)應(yīng)軌道的音頻數(shù)據(jù)為HOA音頻。此外,在audioType指示3時(shí),其指示對(duì)應(yīng)軌道的音頻數(shù)據(jù)為對(duì)象音頻,以及在audioType為4時(shí),其指示對(duì)應(yīng)軌道的音頻數(shù)據(jù)為元數(shù)據(jù)。
此外,在圖43的右側(cè),定義<EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014"value="audioType,contentkind,priority">的contentkind(內(nèi)容種類)。contentkind表示對(duì)應(yīng)音頻的內(nèi)容。例如,在圖43的示例中,在contentkind指示3時(shí),對(duì)應(yīng)音頻為音樂(lè)。
如圖43的左下側(cè)所示,priority(優(yōu)先級(jí))由23008-3定義并表示對(duì)應(yīng)對(duì)象的處理優(yōu)先級(jí)。僅當(dāng)值未在音頻流的過(guò)程中改變時(shí),才描述表示對(duì)象的處理優(yōu)先級(jí)的值,當(dāng)該值在音頻流的過(guò)程中改變時(shí),描述為“0”的值。
(信息處理系統(tǒng)的概述)
圖44為示出根據(jù)應(yīng)用本公開(kāi)的第一實(shí)施例的信息處理系統(tǒng)的概述的示意圖。
在圖44中示出的與圖1所示組件相同的組件由相同的附圖標(biāo)號(hào)表示。在適當(dāng)時(shí),省略重復(fù)的解釋。
如圖44所示的信息處理系統(tǒng)140具有如下配置:(被連接到文件生成裝置141的)Web服務(wù)器142經(jīng)由互聯(lián)網(wǎng)13連接到視頻播放終端144的配置。
在信息處理系統(tǒng)140中,Web服務(wù)器142通過(guò)兼容MPEG-DASH的方法以瓦片為單位向視頻播放終端144傳送視頻內(nèi)容的視頻流(瓦片流傳輸)。此外,在信息處理系統(tǒng)140中,Web服務(wù)器142向視頻播放終端144傳送與待播放的瓦片對(duì)應(yīng)的對(duì)象音頻的音頻流、聲道音頻或的HOA音頻。
信息處理系統(tǒng)140的文件生成裝置141類似于如圖11所示的文件生成裝置11,除了例如音頻文件生成單元56在第一實(shí)施例中生成音頻文件以及MPD生成單元57在第一實(shí)施例中生成MPD文件之外。
具體地,文件生成裝置141獲取視頻內(nèi)容的圖像數(shù)據(jù)并以瓦片為單位編碼圖像數(shù)據(jù)以生成視頻流。文件生成裝置141將每個(gè)瓦片的視頻流處理為文件格式。文件生成裝置141向Web服務(wù)器142上傳作為處理結(jié)果獲得的每個(gè)瓦片的圖像文件。
此外,文件生成裝置141獲取視頻內(nèi)容的3D音頻并針對(duì)3D音頻的每種類型(聲道音頻/對(duì)象音頻/HOA音頻/元數(shù)據(jù))對(duì)3D音頻進(jìn)行編碼以生成音頻流。文件生成裝置141針對(duì)每種類型的3D音頻向音頻流分配軌道。文件生成裝置141生成如圖39或40所示的片段結(jié)構(gòu)(其中,每個(gè)軌道的音頻流以子片段為單位來(lái)布置)的音頻文件并向Web服務(wù)器142上傳該音頻文件,。
文件生成裝置141生成MPD文件,其包含圖像幀尺寸信息、瓦片位置信息和對(duì)象位置信息。文件生成裝置141向Web服務(wù)器142上傳MPD文件。
Web服務(wù)器142存儲(chǔ)圖像文件、音頻文件和從文件生成裝置141上傳的MPD文件。
在圖44的示例中,We服務(wù)器142存儲(chǔ)由瓦片#1的多個(gè)片段的圖像文件形成的片段組和由瓦片#2的多個(gè)片段的圖像文件形成的片段組。Web服務(wù)器142也存儲(chǔ)由3D音頻的音頻文件形成的片段組。
Web服務(wù)器142響應(yīng)于來(lái)自視頻播放終端144的請(qǐng)求,向視頻播放終端144發(fā)送存儲(chǔ)在該Web服務(wù)器中的圖像文件、音頻文件、MPD文件等。
視頻播放終端144執(zhí)行控制軟件161、視頻播放軟件162、訪問(wèn)軟件163等。
控制軟件161為用于控制從Web服務(wù)器142流傳輸?shù)臄?shù)據(jù)的軟件。具體地,控制軟件161促使視頻播放終端144從Web服務(wù)器142獲取MPD文件。
此外,控制軟件161基于從視頻播放軟件162命令的顯示區(qū)域和被包含在MPD文件中的瓦片位置信息來(lái)指定在該顯示區(qū)域中的瓦片。接著,控制軟件161命令訪問(wèn)軟件163發(fā)送該瓦片的圖像文件的請(qǐng)求。
在對(duì)象音頻待播放時(shí),控制軟件161命令訪問(wèn)軟件163發(fā)送音頻文件中圖像幀尺寸信息的請(qǐng)求。此外,控制軟件161命令訪問(wèn)軟件163發(fā)送元數(shù)據(jù)的音頻流的請(qǐng)求??刂栖浖?61基于圖像幀尺寸信息和被包含在元數(shù)據(jù)的音頻流中的對(duì)象位置信息來(lái)指定對(duì)應(yīng)于顯示區(qū)域中的圖像的對(duì)象,該對(duì)象位置信息根據(jù)指令和顯示區(qū)域從Web服務(wù)器142發(fā)送。接著,控制軟件161命令訪問(wèn)軟件163發(fā)送對(duì)該對(duì)象的音頻流的請(qǐng)求。
此外,在聲道音頻或HOA音頻待播放時(shí),控制軟件161命令訪問(wèn)軟件163發(fā)送對(duì)該聲道音頻或HOA音頻的音頻流的請(qǐng)求。
視頻播放軟件162為用于播放從Web服務(wù)器142獲取的圖像文件和音頻文件的軟件。具體地,在顯示區(qū)域由使用者指定時(shí),視頻播放軟件162命令控制軟件161發(fā)送該顯示區(qū)域。此外,視頻播放軟件162根據(jù)指令解碼從Web服務(wù)器142獲取的圖像文件和音頻文件。視頻播放軟件162合成作為解碼的結(jié)果所獲得的以瓦片為單位的圖像數(shù)據(jù)并輸出該圖像數(shù)據(jù)。此外,在需要時(shí),視頻播放軟件162合成作為解碼的結(jié)果所獲得的對(duì)象音頻、聲道音頻或HOA音頻并輸出該音頻。
訪問(wèn)軟件163為用于控制使用HTTP經(jīng)由互聯(lián)網(wǎng)13與Web服務(wù)器142通信的軟件。具體地,訪問(wèn)軟件163促使視頻播放終端144響應(yīng)于控制軟件161的指令發(fā)送關(guān)于圖像文件和音頻文件中的圖像幀尺寸信息或預(yù)定的音頻流的請(qǐng)求。此外,訪問(wèn)軟件163促使視頻播放終端144響應(yīng)于該發(fā)送請(qǐng)求,接收從Web服務(wù)器12所發(fā)送的圖像文件和音頻文件中的圖像幀尺寸信息或預(yù)定的音頻流。
(文件生成裝置的配置示例)
圖45為示出在圖44中示出的文件生成裝置141的配置示例的框圖。
在圖45中示出的與圖11所示組件相同的組件由相同的附圖標(biāo)號(hào)表示。在適當(dāng)時(shí),省略重復(fù)的解釋。
如圖45所示的文件生成裝置141的配置不同于如圖11所示的文件生成裝置11的配置之處在于,提供音頻編碼處理單元171、音頻文件生成單元172、MPD生成單元173和服務(wù)器上傳處理單元174以取代音頻編碼處理單元55、音頻文件生成單元56、MPD生成單元57和服務(wù)器上傳處理單元58。
具體地,文件生成裝置141的音頻編碼處理單元171針對(duì)每種類型(聲道音頻/對(duì)象音頻/HOA音頻/元數(shù)據(jù))對(duì)從外面輸入的視頻內(nèi)容的3D音頻進(jìn)行編碼以生成音頻流。音頻編碼處理單元171向音頻文件生成單元172提供關(guān)于每種類型的3D音頻的音頻流。
音頻文件生成單元172針對(duì)每種類型的3D音頻向從音頻編碼處理單元171提供的音頻流分配軌道。音頻文件生成單元172生成如圖39或40所示的片段結(jié)構(gòu)的音頻文件,其中,每個(gè)軌道的音頻流以子片段為單位來(lái)布置。此時(shí),音頻文件生成單元172將從外面輸入的圖像幀尺寸信息存儲(chǔ)在樣本條目中。音頻文件生成單元172向MPD生成單元173提供所生成的音頻文件。
MPD生成單元173確定存儲(chǔ)從圖像文件生成單元53提供的每個(gè)瓦片的圖像文件的Web服務(wù)器142的URL等。此外,MPD生成單元173確定存儲(chǔ)從音頻文件生成單元172提供的音頻文件的Web服務(wù)器142的URL等。
MPD生成單元173在用于MPD文件的圖像的“Adaptation Set”(“自適應(yīng)集”)中布置從圖像信息生成單元54提供的圖像信息。此外,MPD生成單元173在用于瓦片的圖像文件的“Representation”(“表示”)的“Segment”(“片段”)中布置每個(gè)瓦片的圖像文件的URL等。
MPD生成單元173在用于音頻文件的“Representation”(“表示”)的“Segment”(“片段”)中布置該音頻文件的URL等。此外,MPD生成單元173在用于對(duì)象的對(duì)象元數(shù)據(jù)軌道的“SubRepresentation”(“子表示”)中布置從外面輸入的每個(gè)對(duì)象的對(duì)象位置信息等。MPD生成單元173向服務(wù)器上傳處理單元174提供MPD文件(在MPD文件中,各種信息塊如上所述進(jìn)行布置)以及圖像文件和音頻文件。
服務(wù)器上傳處理單元174向Web服務(wù)器142上傳從MPD生成單元173提供的圖像文件、音頻文件和每個(gè)瓦片的MPD文件。
(文件生成裝置的過(guò)程的解釋)
圖46為示出在圖141中示出的文件生成裝置45的文件生成過(guò)程的流程圖。
如圖46所示的步驟S191至S195的過(guò)程類似于如圖12所示的步驟S11至S15的過(guò)程,并因此其描述被省略。
在步驟S196中,音頻編碼處理單元171針對(duì)每種類型(聲道音頻/對(duì)象音頻/HOA音頻/元數(shù)據(jù))將從外面輸入的視頻內(nèi)容的3D音頻進(jìn)行編碼以生成音頻流。音頻編碼處理單元171針對(duì)每種類型的3D音頻向音頻文件生成單元172提供音頻流。
在步驟S197中,音頻文件生成單元172針對(duì)每種類型的3D音頻向從音頻編碼處理單元171提供的音頻流分配軌道。
在步驟S198中,音頻文件生成單元172生成如圖39或40所示的片段結(jié)構(gòu)的音頻文件,在所述音頻文件中,每個(gè)軌道的音頻流以子片段為單位來(lái)布置。此時(shí),音頻文件生成單元172將從外面輸入的圖像幀尺寸信息存儲(chǔ)在樣本條目中。音頻文件生成單元172向MPD生成單元173提供所生成的音頻文件。
在步驟S199中,MPD生成單元173生成包含從圖像信息生成單元54提供的圖像信息的MPD文件、每個(gè)文件的URL和對(duì)象位置信息。MPD生成單元173向服務(wù)器上傳處理單元174提供圖像文件、音頻文件和MPD文件。
在步驟S200中,服務(wù)器上傳處理單元174向Web服務(wù)器142上傳從MPD生成單元173提供的圖像文件、音頻文件和MPD文件。接著該過(guò)程終止。
(視頻播放終端的功能配置示例)
圖47為示出流播放單元的配置示例的框圖,該流播放單元以如圖44所示的視頻播放終端144執(zhí)行控制軟件161、視頻播放軟件162和訪問(wèn)軟件163的方式實(shí)施。
在圖47中示出的與圖13所示組件相同的組件由相同的附圖標(biāo)號(hào)表示。在適當(dāng)時(shí),省略重復(fù)的解釋。
如圖47所示的流播放單元190的配置不同于如圖13所示的流播放單元90的配置在于:提供MPD處理單元191、音頻選擇單元193、音頻文件獲取單元192、音頻解碼處理單元194和音頻合成處理單元195以取代MPD處理單元92、音頻選擇單元94、音頻文件獲取單元95、音頻解碼處理單元96和音頻合成處理單元97以及未提供的元文件獲取單元93。
流播放單元190類似于如圖13所示的流播放單元90,除了例如獲取所選對(duì)象的待播放音頻數(shù)據(jù)的方法之外。
具體地,流播放單元190的MPD處理單元191從提供自MPD獲取單元91的MPD文件提取信息(諸如在用于音頻元文件的“Segment”(“片段”)中描述的待播放的片段的音頻文件的URL),并向音頻文件獲取單元192提供所提取的信息。
MPD處理單元191從MPD文件提取在用于圖像的“Adaptation Set”(“自適應(yīng)集”)中描述的瓦片位置信息,并向圖像選擇單元98提供所提取的信息。MPD處理單元191從MPD文件提取信息(諸如在用于從圖像選擇單元98所請(qǐng)求的瓦片的圖像文件的“Segment”(“片段”)中描述的URL),并向圖像選擇單元98提供所提取的信息。
在對(duì)象音頻待播放時(shí),音頻文件獲取單元192基于諸如從MPD處理單元191提供的URL的信息,請(qǐng)求Web服務(wù)器142發(fā)送由該URL指定的音頻文件中的基本軌道的初始片段(Initial Segment)并獲取該基本軌道的初始片段。
此外,基于諸如音頻文件的URL的信息,音頻文件獲取單元192請(qǐng)求Web服務(wù)器142發(fā)送在由該URL指定的音頻文件中的對(duì)象元數(shù)據(jù)軌道的音頻流,并獲取該對(duì)象元數(shù)據(jù)軌道的音頻流。音頻文件獲取單元192向音頻選擇單元193提供被包含在對(duì)象元數(shù)據(jù)軌道的音頻流中的對(duì)象位置信息、被包含在基本軌道的初始片段中的圖像幀尺寸信息和諸如音頻文件的URL的信息。
此外,在聲道音頻待播放時(shí),音頻文件獲取單元192基于諸如該音頻文件的URL的信息,請(qǐng)求Web服務(wù)器142發(fā)送由該URL指定的音頻文件中的聲道音頻軌道的音頻流并獲取聲道音頻軌道的音頻流。音頻文件獲取單元192向音頻解碼處理單元194提供所獲取的聲道音頻軌道的音頻流。
在HOA音頻待播放時(shí),音頻文件獲取單元192執(zhí)行類似于在聲道音頻待播放時(shí)執(zhí)行的過(guò)程。因此,HOA音頻軌道的音頻流被提供給音頻解碼處理單元194。
應(yīng)指出,確定對(duì)象音頻、聲道音頻和HOA音頻中的哪一個(gè)例如根據(jù)使用者的指令來(lái)播放。
音頻選擇單元193基于圖像幀尺寸信息和從音頻文件獲取單元192提供的對(duì)象位置信息計(jì)算在圖像上的每個(gè)對(duì)象的位置。音頻選擇單元193基于在圖像上的每個(gè)對(duì)象的位置選擇由使用者指定的顯示區(qū)域中的對(duì)象?;谥T如從音頻文件獲取單元192提供的音頻文件的URL的信息,音頻選擇單元193請(qǐng)求Web服務(wù)器142發(fā)送在由該URL指定的音頻文件中的所選對(duì)象的對(duì)象音頻軌道的音頻流,并獲取該對(duì)象音頻軌道的音頻流。音頻選擇單元193向音頻解碼處理單元194提供所獲取的對(duì)象音頻軌道的音頻流。
音頻解碼處理單元194解碼從音頻文件獲取單元192提供的聲道音頻軌道或HOA音頻軌道的音頻流,或解碼從音頻選擇單元193提供的對(duì)象音頻軌道的音頻流。音頻解碼處理單元194向音頻合成處理單元195提供作為解碼的結(jié)果所獲得的聲道音頻、HOA音頻和對(duì)象音頻中的一個(gè)。
在需要時(shí),音頻合成處理單元195合成對(duì)象音頻、聲道音頻或從音頻解碼處理單元194提供的HOA音頻并輸出該音頻。
(視頻播放終端的過(guò)程的解釋)
圖48為示出在圖47中示出的流播放單元190的聲道音頻播放過(guò)程的流程圖。例如,在使用者將聲道音頻選擇為待播放的對(duì)象時(shí),該聲道音頻播放過(guò)程被執(zhí)行。
在圖48的步驟S221中,MPD處理單元191分析從MPD獲取單元91提供的MPD文件,并基于基本屬性和在“SubRepresentation”(“子表示”)中描述的編解碼來(lái)指定待播放的片段的聲道音頻的“SubRepresentation”(“子表示”)。此外,MPD處理單元191從MPD文件提取諸如在用于待播放的片段的音頻文件的“Segment”(“片段”)中描述的URL的信息,并向音頻文件獲取單元192提供所提取的信息。
在步驟S222中,MPD處理單元191基于在步驟S221中指定的“SubRepresentation”(“子表示”)的dependencyLevel指定作為參考軌道的基本軌道的級(jí)別,并向音頻文件獲取單元192提供基本軌道的指定級(jí)別。
在步驟S223中,音頻文件獲取單元192基于諸如從MPD處理單元191提供的URL的信息,請(qǐng)求Web服務(wù)器142發(fā)送待播放的片段的初始片段并獲取該初始片段。
在步驟S224中,音頻文件獲取單元192從初始片段中的級(jí)別分配盒(Level assignment box)獲取與聲道音頻軌道和作為參考軌道的基本軌道的級(jí)別對(duì)應(yīng)的軌道ID。
在步驟S225中,音頻文件獲取單元192基于聲道音頻軌道和作為參考軌道的基本軌道的軌道ID獲取對(duì)應(yīng)于初始片段的軌道ID的軌道盒(track box)中的初始片段的樣本條目。音頻文件獲取單元192向音頻解碼處理單元194提供包含在所獲取的樣本條目中的編解碼信息。
在步驟S226中,基于諸如從MPD處理單元191提供的URL的信息,音頻文件獲取單元192向Web服務(wù)器142發(fā)送請(qǐng)求并從待播放的片段的音頻文件的頭部獲取sidx盒和ssix盒。
在步驟S227中,音頻文件獲取單元192從在步驟S223中獲取的sidx盒和ssix盒獲取待播放的片段的參考軌道和聲道音頻軌道的位置信息。在此情況下,由于作為參考軌道的基本軌道并不包含任何音頻流,因此不存在參考軌道的位置信息。
在步驟S228中,音頻文件獲取單元192基于聲道音頻軌道的位置信息和諸如待播放的片段的音頻文件的URL的信息,請(qǐng)求Web服務(wù)器142發(fā)送被布置在mdat盒中的聲道音頻軌道的音頻流,并獲取該聲道音頻軌道的音頻流。音頻文件獲取單元192向音頻解碼處理單元194提供所獲取的聲道音頻軌道的音頻流。
在步驟S229中,音頻解碼處理單元194基于從音頻文件獲取單元192提供的編解碼信息,解碼聲道音頻軌道的音頻流。音頻文件獲取單元192向音頻合成處理單元195提供作為解碼的結(jié)果所獲得的聲道音頻。
在步驟S230中,音頻合成處理單元195輸出聲道音頻。接著該過(guò)程終止。
應(yīng)指出,雖然未示出,用于通過(guò)流播放單元190播放HOA音頻的HOA音頻播放過(guò)程以類似于如圖48所示的聲道音頻播放過(guò)程的方式來(lái)執(zhí)行。
圖49為示出在圖47中示出的流播放單元190的對(duì)象指定過(guò)程的流程圖。例如,在使用者將對(duì)象音頻選擇為待播放的對(duì)象并且播放區(qū)域被改變時(shí),該對(duì)象指定過(guò)程被執(zhí)行。
在圖49的步驟S251中,音頻選擇單元193獲取使用者通過(guò)使用者的操作等所指定的顯示區(qū)域。
在步驟S252中,MPD處理單元191分析從MPD獲取單元91提供的MPD文件,并基于基本屬性和在“SubRepresentation”(“子表示”)中描述的編解碼來(lái)指定待播放的片段的元數(shù)據(jù)的“SubRepresentation”(“子表示”)。此外,MPD處理單元191從MPD文件提取信息(諸如在用于音頻元文件的“Segment”(“片段”)中描述的待播放的片段的音頻文件的URL),并向音頻文件獲取單元192提供所提取的信息。
在步驟S253中,MPD處理單元191基于在步驟S252中指定的“SubRepresentation”(“子表示”)的dependencyLevel指定作為參考軌道的基本軌道的級(jí)別,并向音頻文件獲取單元192提供基本軌道的指定級(jí)別。
在步驟S254中,音頻文件獲取單元192基于諸如從MPD處理單元191提供的URL的信息,請(qǐng)求Web服務(wù)器142發(fā)送待播放的片段的初始片段并獲取該初始片段。
在步驟S255中,音頻文件獲取單元192從初始片段中的級(jí)別分配盒(Level assignment box)獲取與對(duì)象元數(shù)據(jù)軌道和作為參考軌道的基本軌道的級(jí)別對(duì)應(yīng)的軌道ID。
在步驟S256中,音頻文件獲取單元192基于對(duì)象元數(shù)據(jù)軌道和作為參考軌道的基本軌道的軌道ID獲取與初始片段的軌道ID對(duì)應(yīng)的軌道盒中的初始片段的樣本條目。音頻文件獲取單元192向音頻選擇單元193提供被包含在作為參考軌道的基本軌道的樣本條目中的圖像幀尺寸信息。此外,音頻文件獲取單元192向音頻選擇單元193提供初始片段。
在步驟S257中,基于諸如從MPD處理單元191提供的URL的信息,音頻文件獲取單元192向Web服務(wù)器142發(fā)送請(qǐng)求并從待播放的片段的音頻文件的頭部獲取sidx盒和ssix盒。
在步驟S258中,音頻文件獲取單元192從在步驟S257中獲取的sidx盒和ssix盒獲取參考軌道和待播放的子片段的對(duì)象元數(shù)據(jù)軌道的位置信息。在此情況下,由于作為參考軌道的基本軌道并不包含任何音頻流,因此不存在參考軌道的位置信息。音頻文件獲取單元192向音頻選擇單元193提供sidx盒和ssix盒。
在步驟S259中,音頻文件獲取單元192基于對(duì)象元數(shù)據(jù)軌道的位置信息和諸如待播放的片段的音頻文件的URL的信息請(qǐng)求Web服務(wù)器142發(fā)送被布置在mdat盒中的對(duì)象元數(shù)據(jù)軌道的音頻流,并獲取該對(duì)象元數(shù)據(jù)軌道的音頻流。
在步驟S260中,音頻文件獲取單元192基于被包含在步驟S256中獲取的樣本條目中的編解碼信息,解碼在步驟S259中獲取的對(duì)象元數(shù)據(jù)軌道的音頻流。音頻文件獲取單元192向音頻選擇單元193提供包含在作為解碼的結(jié)果所獲得的元數(shù)據(jù)中的對(duì)象位置信息。此外,音頻文件獲取單元192向音頻選擇單元193提供諸如從MPD處理單元191提供的音頻文件的URL的信息。
在步驟S261中,音頻選擇單元193基于圖像幀尺寸信息和從音頻文件獲取單元192提供的對(duì)象位置信息并基于由使用者指定的顯示區(qū)域來(lái)選擇在該顯示區(qū)域中的對(duì)象。接著該過(guò)程終止。
圖50為示出在圖49中示出的對(duì)象指定過(guò)程之后由流播放單元190執(zhí)行的指定對(duì)象音頻播放過(guò)程的流程圖。
在圖50的步驟S281中,MPD處理單元191分析從MPD獲取單元91提供的MPD文件,并基于基本屬性和在“SubRepresentation”(“子表示”)中描述的編解碼來(lái)指定所選對(duì)象的對(duì)象音頻的“SubRepresentation”(“子表示”)。
在步驟S282中,MPD處理單元191基于在步驟S281中指定的“SubRepresentation”(“子表示”)的dependencyLevel指定作為參考軌道的基本軌道的級(jí)別,并向音頻文件獲取單元192提供基本軌道的指定級(jí)別。
在步驟S283中,音頻文件獲取單元192從初始片段中的級(jí)別分配盒(Level assignment box)獲取與對(duì)象音頻軌道和作為參考軌道的基本軌道的級(jí)別對(duì)應(yīng)的軌道ID,并向音頻選擇單元193提供該軌道ID。
在步驟S284中,音頻選擇單元193基于對(duì)象音頻軌道和作為參考軌道的基本軌道的軌道ID獲取與初始片段的軌道ID對(duì)應(yīng)的軌道盒中的初始片段的樣本條目。該初始片段從如圖49所示的步驟S256中的音頻文件獲取單元192提供。音頻選擇單元193向音頻解碼處理單元194提供包含在所獲取的樣本條目中的編解碼信息。
在步驟S285中,音頻選擇單元193從步驟S258中從音頻文件獲取單元192提供的sidx盒和ssix盒,獲取參考軌道和待播放的子片段的所選對(duì)象的對(duì)象音頻軌道的位置信息。在此情況下,由于作為參考軌道的基本軌道并不包含任何音頻流,因此不存在參考軌道的位置信息。
在步驟S286中,音頻選擇單元193基于對(duì)象音頻軌道的位置信息和諸如待播放的片段的音頻文件的URL的信息請(qǐng)求Web服務(wù)器142發(fā)送被布置在mdat盒中的所選對(duì)象的對(duì)象音頻軌道的音頻流,并獲取該對(duì)象音頻軌道的音頻流。音頻選擇單元193向音頻解碼處理單元194提供所獲取的對(duì)象音頻軌道的音頻流。
在步驟S287中,音頻解碼處理單元194基于從音頻選擇單元193提供的編解碼信息解碼對(duì)象音頻軌道的音頻流。音頻選擇單元193向音頻合成處理單元195提供作為解碼的結(jié)果所獲得的對(duì)象音頻。
在步驟S288中,音頻合成處理單元195合成從音頻解碼處理單元194提供的對(duì)象音頻并輸出該對(duì)象音頻。接著該過(guò)程終止。
如上所述,在信息處理系統(tǒng)140中,文件生成裝置141生成音頻文件,其中,3D音頻根據(jù)3D音頻的類型被劃分為多個(gè)軌道并且布置該軌道。視頻播放終端144在音頻文件中的預(yù)定類型的3D音頻的音頻流。因此,視頻播放終端144可以有效獲取預(yù)定類型的3D音頻的音頻流。因此,可以說(shuō)文件生成裝置141生成能夠提高獲取預(yù)定類型的3D音頻的音頻流的效率的音頻文件。
<第二實(shí)施例>
(軌道的概述)
圖51為示出在應(yīng)用本公開(kāi)的第二實(shí)施例中的軌道的概述的示意圖。
如圖51所示,第二實(shí)施例不同于第一實(shí)施例之處在于基本樣本被記錄為基本軌道的樣本。基本樣本由被聲道音頻/對(duì)象音頻/HOA音頻/元數(shù)據(jù)的樣本參考的信息形成。參考包含在基本樣本中的參考信息的聲道音頻/對(duì)象音頻/HOA音頻/元數(shù)據(jù)的樣本以參考信息的布置的順序來(lái)布置,從而使得有可能在3D音頻被劃分為軌道之前生成該3D音頻的音頻流。
(基本軌道的樣本條目的示例性語(yǔ)法)
圖52為示出在圖51中示出的基本軌道的樣本條目的示例性語(yǔ)法的示意圖。
如圖52所示的語(yǔ)法與如圖34所示的語(yǔ)法相同,除了描述表示樣本條目為如圖51所示的基本軌道的樣本條目的“mha2”,而不是描述表示樣本條目為如圖33所示的基本軌道的樣本條目的“mha1”之外。
(基本條目的示例性結(jié)構(gòu))
圖53為示出基本樣本的示例性結(jié)構(gòu)的示意圖。
如圖53所示,基本樣本使用以作為子樣本的子樣本為單位的聲道音頻/對(duì)象音頻/HOA音頻/元數(shù)據(jù)的提取器來(lái)配置。聲道音頻/對(duì)象音頻/HOA音頻/元數(shù)據(jù)的提取器由提取器的類型和對(duì)應(yīng)聲道音頻軌道/對(duì)象音頻軌道/HOA音頻軌道/對(duì)象元數(shù)據(jù)軌道的子樣本的偏移和大小組成。該偏移為在基本樣本的子樣本的文件中的基本樣本的位置和在該子樣本的文件中的聲道音頻軌道/對(duì)象音頻軌道/HOA音頻軌道/對(duì)象元數(shù)據(jù)軌道的位置之間的差值。換句話說(shuō),該偏移為指示與包含該偏移的基本樣本的子樣本對(duì)應(yīng)的另一軌道的子樣本的文件內(nèi)的位置的信息。
圖54為示出基本樣本的示例性語(yǔ)法的示意圖。
如圖54所示,在基本樣本中,用于在對(duì)象音頻軌道的樣本中存儲(chǔ)對(duì)象音頻的SCE元素被用于存儲(chǔ)提取器的EXT元素代替。
圖55為示出提取器數(shù)據(jù)的示例的示意圖。
如圖55所示,提取器的類型和對(duì)應(yīng)的聲道音頻軌道/對(duì)象音頻軌道/HOA音頻軌道/對(duì)象元數(shù)據(jù)軌道的子樣本的偏移和大小在該提取器中描述。
應(yīng)指出,提取器可以利用網(wǎng)絡(luò)抽象層(NAL)結(jié)構(gòu)擴(kuò)展,該NAL結(jié)構(gòu)在高級(jí)視頻編碼(AVC)/高效視頻編碼(HEVC)中定義,以便可以存儲(chǔ)音頻元素和配置信息。
在第二實(shí)施例中的信息處理系統(tǒng)和由該信息處理系統(tǒng)執(zhí)行的過(guò)程類似于第一實(shí)施例,并因此省略其描述。
<第三實(shí)施例>
(軌道的概述)
圖56為示出在應(yīng)用本公開(kāi)的第三實(shí)施例中的軌道的概述的示意圖。
如圖56所示,第三實(shí)施例不同于第一實(shí)施例之處在于,基本樣本和元數(shù)據(jù)的樣本被記錄為基本軌道的樣本并且未提供對(duì)象元數(shù)據(jù)軌道。
在第三實(shí)施例中的信息處理系統(tǒng)和由該信息處理系統(tǒng)執(zhí)行的過(guò)程類似于第一實(shí)施例,除了基本軌道而不是對(duì)象元數(shù)據(jù)軌道的音頻流被獲取,以便獲取對(duì)象位置信息。因此,省略其描述。
<第四實(shí)施例>
(軌道的概述)
圖57為示出在應(yīng)用本公開(kāi)的第四實(shí)施例中的軌道的概述的示意圖。
如圖57所示,第四實(shí)施例不同于第一實(shí)施例之處在于,軌道被記錄為不同文件(3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4)。在此情況下,只有期望軌道的音頻數(shù)據(jù)可以經(jīng)由HTTP通過(guò)獲取期望軌道的文件才獲取。因此,期望軌道的音頻數(shù)據(jù)可以經(jīng)由HTTP有效獲取。
(MPD文件的示例性描述)
圖58為示出根據(jù)應(yīng)用本公開(kāi)的第四實(shí)施例的MDF文件的示例性描述的示意圖。
如圖58所示,管理3D音頻的每個(gè)音頻文件(3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4)的片段的“Representation”(“表示”)等在MPD文件中描述。
“Representation”(“表示”)包含“codecs”、“id”、“associationId”和“assciationType”。此外,聲道音頻軌道/對(duì)象音頻軌道/HOA音頻軌道/對(duì)象元數(shù)據(jù)軌道的“Representation”(“表示”)也包含"<EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014"value="audioType,contentkind,priority">"。此外,對(duì)象音頻軌道的“Representation”(“表示”)包含<EssentialProperty schemeIdUri="urn:mpeg:DASH:viewingAngle:2014"value="θ,γ,r">。
(信息處理系統(tǒng)的概述)
圖59為示出在應(yīng)用本公開(kāi)的第四實(shí)施例中的信息處理系統(tǒng)的概述的示意圖。
在圖59中示出的與圖1所示組件相同的組件由相同的附圖標(biāo)號(hào)表示。在適當(dāng)時(shí),省略重復(fù)的說(shuō)明。
如圖59所示的信息處理系統(tǒng)210具有如下配置:其中連接到文件生成裝置211的Web服務(wù)器212以及視頻播放終端214經(jīng)由互聯(lián)網(wǎng)13連接。
在信息處理系統(tǒng)210中,Web服務(wù)器212通過(guò)兼容MPEG-DASH的方法向視頻播放終端214以瓦片為單位傳送視頻內(nèi)容的視頻流(瓦片流傳輸)。此外,在信息處理系統(tǒng)210中,Web服務(wù)器212向視頻播放終端214傳送對(duì)應(yīng)于待播放文件的對(duì)象音頻、聲道音頻或HOA音頻的音頻文件。
具體地,文件生成裝置211獲取視頻內(nèi)容的圖像數(shù)據(jù)并以瓦片為單位編碼圖像數(shù)據(jù)以生成視頻流。文件生成裝置211將每個(gè)瓦片的視頻流處理為用于每個(gè)片段的文件格式。文件生成裝置211向Web服務(wù)器212上傳作為上述處理結(jié)果獲得的每個(gè)文件的圖像文件。
此外,文件生成裝置211獲取視頻內(nèi)容的3D音頻并針對(duì)3D音頻的每種類型(聲道音頻/對(duì)象音頻/HOA音頻/元數(shù)據(jù))每種類型編碼3D音頻以生成音頻流。文件生成裝置211向每種類型的3D音頻的音頻流分配軌道。文件生成裝置211針對(duì)每個(gè)軌道生成音頻文件(在該音頻文件中布置有音頻流)并向Web服務(wù)器212上傳所生成的音頻文件。
文件生成裝置211生成MPD文件,其包含圖像幀尺寸信息、瓦片位置信息和對(duì)象位置信息。文件生成裝置211向Web服務(wù)器212上傳MPD文件。
Web服務(wù)器212存儲(chǔ)從文件生成裝置211上傳的圖像文件、關(guān)于每種類型的3D音頻的音頻文件和MPD文件。
在圖59的示例中,We服務(wù)器212存儲(chǔ)由瓦片#1的多個(gè)片段的圖像文件形成的片段組和由瓦片#2的多個(gè)片段的圖像文件形成的片段組。Web服務(wù)器212也存儲(chǔ)由聲道音頻的音頻文件形成的片段組和對(duì)象#1的音頻文件的片段組。
Web服務(wù)器212響應(yīng)于來(lái)自視頻播放終端214的請(qǐng)求,向視頻播放終端214傳送存儲(chǔ)在該Web服務(wù)器中的圖像文件、預(yù)定類型的3D音頻的音頻文件、MPD文件等。
視頻播放終端214執(zhí)行控制軟件221、視頻播放軟件222、訪問(wèn)軟件223等。
控制軟件221為用于控制從Web服務(wù)器212流傳輸?shù)臄?shù)據(jù)的軟件。具體地,控制軟件221促使視頻播放終端214從Web服務(wù)器212獲取MPD文件。
此外,控制軟件221基于從視頻播放軟件222命令的顯示區(qū)域和被包含在MPD文件中的瓦片位置信息來(lái)指定在該MPD文件中的瓦片。接著,控制軟件221命令訪問(wèn)軟件223發(fā)送用于傳送該瓦片的圖像文件的請(qǐng)求。
在對(duì)象音頻待播放時(shí),控制軟件221命令訪問(wèn)軟件223發(fā)送用于發(fā)送基本軌道的音頻文件的請(qǐng)求。接著,控制軟件221命令訪問(wèn)軟件223發(fā)送用于發(fā)送對(duì)象元數(shù)據(jù)軌道的音頻文件的請(qǐng)求??刂栖浖?21獲取基本軌道的音頻文件中的圖像幀尺寸信息和被包含在元數(shù)據(jù)的音頻文件中的對(duì)象位置信息,該圖像幀尺寸信息根據(jù)指令從Web服務(wù)器142發(fā)送??刂栖浖?21基于圖像幀尺寸信息、對(duì)象位置信息和顯示區(qū)域來(lái)指定對(duì)應(yīng)于在該顯示區(qū)域中的圖像的對(duì)象。此外,控制軟件221命令訪問(wèn)軟件223發(fā)送用于發(fā)送該對(duì)象的音頻文件的請(qǐng)求。
此外,在聲道音頻或HOA音頻待播放時(shí),控制軟件221命令訪問(wèn)軟件223發(fā)送用于發(fā)送該聲道音頻或HOA音頻的音頻文件的請(qǐng)求。
視頻播放軟件222為用于播放從Web服務(wù)器212獲取的圖像文件和音頻文件的軟件。具體地,在顯示區(qū)域由使用者指定時(shí),視頻播放軟件222將關(guān)于顯示區(qū)域的指令給予控制軟件221。此外,視頻播放軟件222根據(jù)指令解碼從Web服務(wù)器212獲取的圖像文件和音頻文件。視頻播放軟件222合成作為解碼的結(jié)果所獲得的以瓦片為單位的圖像數(shù)據(jù)并輸出該圖像數(shù)據(jù)。此外,在需要時(shí),視頻播放軟件222合成作為解碼的結(jié)果所獲得的對(duì)象音頻、聲道音頻或HOA音頻并輸出該音頻。
訪問(wèn)軟件223為用于使用HTTP經(jīng)由互聯(lián)網(wǎng)13控制與Web服務(wù)器212的通信的軟件。具體地,訪問(wèn)軟件223促使視頻播放終端214響應(yīng)于來(lái)自控制軟件221的指令發(fā)送請(qǐng)求發(fā)送圖像文件和預(yù)定的音頻文件的請(qǐng)求。此外,訪問(wèn)軟件223促使視頻播放終端214根據(jù)該傳送請(qǐng)求接收從Web服務(wù)器212所發(fā)送的圖像文件和預(yù)定的音頻文件。
(文件生成裝置的配置示例)
圖60為在圖59中示出的文件生成裝置211的框圖。
在圖60中示出的與圖45所示組件相同的組件由相同的附圖標(biāo)號(hào)表示。在適當(dāng)時(shí),省略重復(fù)的解釋。
如圖60所示的文件生成裝置211的配置不同于如圖45所示的文件生成裝置141的配置之處在于,提供音頻文件生成單元241、MPD生成單元242和服務(wù)器上傳處理單元243以分別取代音頻文件生成單元172、MPD生成單元173和服務(wù)器上傳處理單元174。
具體地,文件生成裝置211的音頻文件生成單元241向音頻流分配軌道以用于每種類型的3D音頻,該音頻流從音頻編碼處理單元171提供。音頻文件生成單元241針對(duì)每個(gè)軌道生成音頻文件(在該音頻文件中布置有音頻流)。此時(shí),音頻文件生成單元241將從外面輸入的圖像幀尺寸信息存儲(chǔ)在基本軌道的樣本條目中。音頻文件生成單元241向MPD生成單元242提供用于每種類型的3D音頻的音頻文件。
MPD生成單元242確定存儲(chǔ)從圖像文件生成單元53提供的每個(gè)瓦片的圖像文件的Web服務(wù)器212的URL等。此外,MPD生成單元242針對(duì)每種類型的3D音頻,確定存儲(chǔ)從音頻文件生成單元241提供的音頻文件的Web服務(wù)器212的URL等。
MPD生成單元242在用于MPD文件的圖像的“Adaptation Set”(“自適應(yīng)集”)中布置從圖像信息生成單元54提供的圖像信息。此外,MPD生成單元242在用于瓦片的圖像文件的“Representation”(“表示”)的“Segment”(“片段”)中布置每個(gè)瓦片的圖像文件的URL等。
MPD生成單元242針對(duì)每種類型的3D音頻,在用于音頻文件的“Representation”(“表示”)的“Segment”(“片段”)中布置該音頻文件的URL等。此外,MPD生成單元242在用于對(duì)象的對(duì)象元數(shù)據(jù)軌道的“Representation”(“表示”)中布置從外面輸入的每個(gè)對(duì)象的對(duì)象位置信息等。MPD生成單元242向服務(wù)器上傳處理單元243提供其中各種信息塊如上所述進(jìn)行布置的MPD文件、圖像文件和用于每種類型的3D音頻的音頻文件。
服務(wù)器上傳處理單元243向Web服務(wù)器212上傳從MPD生成單元242提供的每個(gè)瓦片的圖像文件、每種類型的3D音頻的音頻文件和MPD文件。
(文件生成裝置的過(guò)程的說(shuō)明)
圖61為示出在圖211中示出的文件生成裝置60的文件生成過(guò)程的流程圖。
如圖61所示的步驟S301至S307的過(guò)程類似于如圖46所示的步驟S191至S197的過(guò)程,并因此其描述被省略。
在步驟S308中,音頻文件生成單元241針對(duì)每個(gè)軌道生成音頻文件(在音頻文件中布置有音頻流)。此時(shí),音頻文件生成單元241將從外面輸入的圖像幀尺寸信息存儲(chǔ)在基本軌道的音頻文件中的樣本條目中。音頻文件生成單元241向MPD生成單元242提供所生成的用于每種類型的3D音頻的音頻文件。
在步驟S309中,MPD生成單元242生成包含從圖像信息生成單元54提供的圖像信息的MPD文件、每個(gè)文件的URL和對(duì)象位置信息。MPD生成單元242向服務(wù)器上傳處理單元243提供圖像文件、用于每種類型的3D音頻的音頻文件和MPD文件。
在步驟S310中,服務(wù)器上傳處理單元243向Web服務(wù)器212上傳從MPD生成單元242提供的圖像文件、每種類型的3D音頻的音頻文件和MPD文件。接著該過(guò)程終止。
(視頻播放終端的功能配置示例)
圖62為示出流播放單元的配置示例的框圖,該流播放單元以如圖59所示的視頻播放終端214執(zhí)行控制軟件221、視頻播放軟件222和訪問(wèn)軟件223的方式實(shí)施。
在圖62中示出的與圖13和47所示組件相同的組件由相同的附圖標(biāo)號(hào)表示。在適當(dāng)時(shí),省略重復(fù)的說(shuō)明。
如圖62所示的流播放單元260的配置不同于如圖13所示的流播放單元90的配置在于:提供MPD處理單元261、元文件獲取單元262、音頻選擇單元263、音頻文件獲取單元264、音頻解碼處理單元194和音頻合成處理單元195以分別取代MPD處理單元92、元文件獲取單元93、音頻選擇單元94、音頻文件獲取單元95、音頻解碼處理單元96和音頻合成處理單元97。
具體地,在對(duì)象音頻待播放時(shí),流播放單元260的MPD處理單元261從提供自MPD獲取單元91的MPD文件提取信息(諸如在待播放的片段的對(duì)象元數(shù)據(jù)軌道的音頻文件的“Segment”(“片段”)中描述的URL),并向元文件獲取單元262提供所提取的信息。此外,MPD處理單元261從MPD文件提取信息(諸如在從音頻選擇單元263所請(qǐng)求的對(duì)象的對(duì)象音頻軌道的音頻文件的“Segment”(“片段”)中描述的URL),并向音頻選擇單元263提供所提取的信息。此外,MPD處理單元261從MPD文件提取信息(諸如在待播放的片段的基本軌道的音頻文件的“Segment”(“片段”)中描述的URL),并向元文件獲取單元262提供所提取的信息。
此外,在聲道音頻或HOA音頻待播放時(shí),MPD處理單元261從MPD文件提取信息(諸如在待播放的片段的聲道音頻軌道或HOA音頻軌道的音頻文件的“Segment”(“片段”)中描述的URL)。MPD處理單元261經(jīng)由音頻選擇單元263向音頻文件獲取單元264提供諸如URL的信息。
應(yīng)指出,確定對(duì)象音頻、聲道音頻和HOA音頻中的哪一個(gè)將被播放例如是根據(jù)使用者的指令的。
MPD處理單元261從MPD文件提取在用于圖像的“Adaptation Set”(“自適應(yīng)集”)中描述的瓦片位置信息并向圖像選擇單元98提供所提取的瓦片位置信息。MPD處理單元261從MPD文件提取信息(諸如在用于從圖像選擇單元98所請(qǐng)求的瓦片的圖像文件的“Segment”(“片段”)中描述的URL),并向圖像選擇單元98提供所提取的信息。
基于諸如從MPD處理單元261提供的URL的信息,元文件獲取單元262請(qǐng)求Web服務(wù)器212發(fā)送由該URL指定的對(duì)象元數(shù)據(jù)軌道的音頻文件,并獲取該對(duì)象元數(shù)據(jù)軌道的音頻文件。元文件獲取單元93向音頻選擇單元263提供被包含在該對(duì)象元數(shù)據(jù)軌道的音頻元文件中的對(duì)象位置信息。
此外,基于諸如音頻文件的URL的信息,元文件獲取單元262請(qǐng)求Web服務(wù)器142發(fā)送在由該URL指定的基本軌道的音頻文件的初始片段,并獲取該初始片段。元文件獲取單元262向音頻選擇單元263提供被包含在初始片段的樣本條目中的圖像幀尺寸信息。
音頻選擇單元263基于圖像幀尺寸信息和從元文件獲取單元262提供的對(duì)象位置信息計(jì)算在圖像上的每個(gè)對(duì)象的位置。音頻選擇單元263基于在圖像上的每個(gè)對(duì)象的位置選擇由使用者指定的顯示區(qū)域中的對(duì)象。音頻選擇單元263請(qǐng)求MPD處理單元261發(fā)送信息(諸如所選對(duì)象的對(duì)象音頻軌道的音頻文件的URL)。音頻選擇單元263根據(jù)該請(qǐng)求,向音頻文件獲取單元264提供諸如從MPD處理單元261提供的URL的信息。
基于信息(諸如從音頻選擇單元263提供的對(duì)象音頻軌道、聲道音頻軌道或HOA音頻軌道的音頻文件的URL),音頻文件獲取單元264請(qǐng)求Web服務(wù)器12發(fā)送由該URL指定音頻文件,并獲取該音頻文件。音頻文件獲取單元95向音頻解碼處理單元194提供所獲取的以對(duì)象為單位的音頻文件。
音頻文件獲取單元264基于從音頻選擇單元263提供的圖像幀尺寸信息和對(duì)象位置信息計(jì)算每個(gè)對(duì)象在圖像上的位置。音頻文件獲取單元264基于每個(gè)對(duì)象在圖像上的位置在顯示區(qū)域中選擇由使用者指定的對(duì)象?;谥T如從音頻選擇單元263提供的音頻文件的URL的信息,音頻文件獲取單元264請(qǐng)求Web服務(wù)器142發(fā)送由URL指定的音頻文件中的所選對(duì)象的對(duì)象音頻軌道的音頻流,并獲取該音頻流。音頻文件獲取單元264向音頻解碼處理單元194提供所獲取的該對(duì)象音頻軌道的音頻流
(視頻播放終端的過(guò)程的說(shuō)明)
圖63為示出在圖62中示出的流播放單元260的聲道音頻播放過(guò)程的流程圖。例如,在使用者將聲道音頻選擇為待播放的對(duì)象時(shí),該聲道音頻播放過(guò)程被執(zhí)行。
在圖63的步驟S331中,MPD處理單元261分析從MPD獲取單元91提供的MPD文件,并基于基本屬性和在“Representation”(“表示”)中描述的編解碼來(lái)指定待播放的片段的聲道音頻的“Representation”(“表示”)。此外,MPD處理單元261提取信息(諸如在被包含在“Representation”(“表示”)中的“Segment”(“片段”)中描述的用于待播放的片段的聲道音頻軌道的音頻文件的URL),并經(jīng)由音頻選擇單元263向音頻文件獲取單元264提供所提取的信息。
在步驟S332中,基于在步驟S331中指定的“Representation”(“表示”)的associationId,MPD處理單元261指定作為參考軌道的基本軌道的“Representation”(“表示”)。MPD處理單元261提取信息(諸如在被包含在“Representation”(“表示”)中的“Segment”(“片段”)中描述的參考軌道的音頻文件的URL),并經(jīng)由音頻選擇單元263向音頻文件獲取單元264提供所提取的文件。
在步驟S333中,音頻文件獲取單元264基于諸如從音頻選擇單元263提供的URL的信息,請(qǐng)求Web服務(wù)器212發(fā)送待播放的片段的聲道音頻軌道和參考軌道的音頻文件的初始片段并獲取該初始片段。
在步驟S334中,音頻文件獲取單元264獲取在所獲取的初始片段的trak盒中的樣本條目。音頻文件獲取單元264向音頻解碼處理單元194提供包含在所獲取的樣本條目中的編解碼信息。
在步驟S335中,音頻文件獲取單元264基于諸如從音頻選擇單元263提供的URL的信息,向Web服務(wù)器142發(fā)送請(qǐng)求,并從待播放的片段的聲道音頻軌道的音頻文件的頭部獲取sidx盒和ssix盒。
在步驟S336中,音頻文件獲取單元264從在步驟S333中獲取的sidx盒和ssix盒獲取待播放的子片段的位置信息。
在步驟S337中,音頻選擇單元263基于在步驟S337中獲取的位置信息和諸如待播放的片段的聲道音頻軌道的音頻文件的URL的信息,請(qǐng)求Web服務(wù)器142發(fā)送被布置在該音頻文件的mdat盒中的聲道音頻軌道的音頻流,并獲取該聲道音頻軌道的音頻流。音頻選擇單元263向音頻解碼處理單元194提供所獲取的聲道音頻軌道的音頻流。
在步驟S338中,音頻解碼處理單元194基于從音頻文件獲取單元264提供的編解碼信息解碼從音頻選擇單元263提供的聲道音頻軌道的音頻流。音頻選擇單元263向音頻合成處理單元195提供作為解碼的結(jié)果所獲得的聲道音頻。
在步驟S339中,音頻合成處理單元195輸出聲道音頻。接著該過(guò)程終止。
雖然未示出,用于通過(guò)流播放單元260播放HOA音頻的HOA音頻播放過(guò)程以類似于如圖63所示的聲道音頻播放過(guò)程的方式來(lái)執(zhí)行。
圖64為示出在圖62中示出的流播放單元260的對(duì)象音頻播放過(guò)程的流程圖。例如,在使用者選擇對(duì)象音頻作為待播放的對(duì)象并且播放區(qū)域被改變時(shí),該對(duì)象音頻播放過(guò)程被執(zhí)行。
在圖64的步驟S351中,音頻選擇單元263獲取使用者通過(guò)使用者的操作等所指定的顯示區(qū)域。
在步驟S352中,MPD處理單元261分析從MPD獲取單元91提供的MPD文件,并基于基本屬性和在“Representation”(“表示”)中描述的編解碼來(lái)指定待播放的片段的元數(shù)據(jù)的“Representation”(“表示”)。此外,MPD處理單元261提取信息(諸如在被包含在“Representation”(“表示”)中的“Segment”(“片段”)中描述的待播放的片段的對(duì)象元數(shù)據(jù)軌道的音頻文件的URL),并向元文件獲取單元262提供所提取的信息。
在步驟S353中,基于在步驟S352中指定的“Representation”(“表示”)的associationId,MPD處理單元261指定作為參考軌道的基本軌道的“Representation”(“表示”)。MPD處理單元261提取信息(諸如在被包含在“Representation”(“表示”)中的“Segment”(“片段”)中描述的參考軌道的音頻文件的URL),并向元文件獲取單元262提供所提取的信息。
在步驟S354中,元文件獲取單元262基于諸如從MPD處理單元261提供的URL的信息,請(qǐng)求Web服務(wù)器212發(fā)送待播放的片段的對(duì)象元數(shù)據(jù)軌道和參考軌道的音頻文件的初始片段并獲取該初始片段。
在步驟S355中,元文件獲取單元262獲取在所獲取的初始片段的trak盒中的樣本條目。元文件獲取單元262向音頻文件獲取單元264提供被包含在為參考軌道的基本軌道的樣本條目中的圖像幀尺寸信息。
在步驟S356中,元文件獲取單元262基于諸如從MPD處理單元261提供的URL的信息,向Web服務(wù)器142發(fā)送請(qǐng)求,并從待播放的片段的對(duì)象元數(shù)據(jù)軌道的音頻文件的頭部獲取sidx盒和ssix盒。
在步驟S357中,元文件獲取單元262從在步驟S356中獲取的sidx盒和ssix盒獲取待播放的子片段的位置信息。
在步驟S358中,元文件獲取單元262基于在步驟S357中獲取的位置信息和諸如待播放的片段的對(duì)象元數(shù)據(jù)軌道的音頻文件的URL的信息,請(qǐng)求Web服務(wù)器142傳送被布置在該音頻文件的mdat盒中的對(duì)象元數(shù)據(jù)軌道的音頻流,并獲取該對(duì)象元數(shù)據(jù)軌道的音頻流。
在步驟S359中,元文件獲取單元262基于被包含在步驟S355中獲取的樣本條目中的編解碼信息,解碼在步驟S358中獲取的對(duì)象元數(shù)據(jù)軌道的音頻流。元文件獲取單元262向音頻選擇單元263提供作為解碼的結(jié)果所獲得的被包含在元數(shù)據(jù)中的對(duì)象位置信息。
在步驟S360中,音頻選擇單元263基于圖像幀尺寸信息和從元文件獲取單元262提供的對(duì)象位置信息并基于由使用者指定的顯示區(qū)域來(lái)選擇在該顯示區(qū)域中的對(duì)象。音頻選擇單元263請(qǐng)求MPD處理單元261發(fā)送諸如所選對(duì)象的對(duì)象音頻軌道的音頻文件的URL的信息。
在步驟S361中,MPD處理單元261分析從MPD獲取單元91提供的MPD文件,并基于基本屬性和在“Representation”(“表示”)中描述的編解碼來(lái)指定所選對(duì)象的對(duì)象音頻的“Representation”(“表示”)。此外,MPD處理單元261提取信息(諸如在被包含在“Representation”(“表示”)中的“Segment”(“片段”)中描述的待播放的片段的所選對(duì)象的對(duì)象音頻軌道的音頻文件的URL),并經(jīng)由音頻選擇單元263向音頻文件獲取單元264提供所提取的信息。
在步驟S362中,基于在步驟S361中指定的“Representation”(“表示”)的associationId,MPD處理單元261指定作為參考軌道的基本軌道的“Representation”(“表示”)。MPD處理單元261提取信息(諸如在被包含在“Representation”(“表示”)中的“Segment”(“片段”)中描述的參考軌道的音頻文件的URL),并經(jīng)由音頻選擇單元263向音頻文件獲取單元264提供所提取的信息。
在步驟S363中,音頻文件獲取單元264基于諸如從音頻選擇單元263提供的URL的信息,請(qǐng)求Web服務(wù)器212發(fā)送待播放的片段的對(duì)象音頻軌道和參考軌道的音頻文件的初始片段,并獲取該初始片段。
在步驟S364中,音頻文件獲取單元264獲取在所獲取的初始片段的trak盒中的樣本條目。音頻文件獲取單元264向音頻解碼處理單元194提供包含在樣本條目中的編解碼信息。
在步驟S365中,音頻文件獲取單元264基于諸如從音頻選擇單元263提供的URL的信息,向Web服務(wù)器142發(fā)送請(qǐng)求,并從待播放的片段的對(duì)象音頻軌道的音頻文件的頭部獲取sidx盒和ssix盒。
在步驟S366中,音頻文件獲取單元264從在步驟S365中獲取的sidx盒和ssix盒獲取待播放的子片段的位置信息。
在步驟S367中,音頻文件獲取單元264基于在步驟S366中獲取的位置信息和諸如待播放的片段的對(duì)象音頻軌道的音頻文件的URL的信息,請(qǐng)求Web服務(wù)器142發(fā)送被布置在該音頻文件內(nèi)的mdat盒中的對(duì)象音頻軌道的音頻流,并獲取該對(duì)象音頻軌道的音頻流。音頻文件獲取單元264向音頻解碼處理單元194提供所獲取的對(duì)象音頻軌道的音頻流。
步驟S368和S369的過(guò)程類似于如圖50所示的步驟S287和S288的過(guò)程,并因此其描述被省略。
應(yīng)指出,在上面的描述中,音頻選擇單元263選擇顯示區(qū)域中的所有對(duì)象。然而,音頻選擇單元263可只選擇顯示區(qū)域中的具有高處理優(yōu)先級(jí)的對(duì)象,或可只選擇預(yù)定內(nèi)容的音頻對(duì)象。
圖65為示出在音頻選擇單元263只選擇顯示區(qū)域中的對(duì)象之中具有高處理優(yōu)先級(jí)的對(duì)象時(shí),對(duì)象音頻播放過(guò)程的流程圖。
如圖65所示的對(duì)象音頻播放過(guò)程類似于如圖64所示的對(duì)象音頻播放過(guò)程,除了如圖65所示的步驟S390的過(guò)程被執(zhí)行以取代如圖64所示的步驟S360。具體地,如圖65所示的步驟S381至S389和步驟S391至S399的過(guò)程類似于如圖64所示的步驟S351至S359和步驟S361至S369的過(guò)程。因此,下面將只描述步驟S390的過(guò)程。
在如圖65所示的步驟S390中,音頻文件獲取單元264基于圖像幀尺寸信息、對(duì)象位置信息、顯示區(qū)域和每個(gè)對(duì)象的優(yōu)先級(jí)來(lái)選擇該顯示區(qū)域中具有高處理優(yōu)先級(jí)的對(duì)象。具體地,音頻文件獲取單元264基于圖像幀尺寸信息、對(duì)象位置信息和顯示區(qū)域來(lái)指定該顯示區(qū)域的每個(gè)對(duì)象。音頻文件獲取單元264從所指定的對(duì)象之中選擇優(yōu)先級(jí)等于或高于預(yù)定值的對(duì)象。應(yīng)指出,例如,MPD處理單元261分析MPD文件,從而從指定對(duì)象的對(duì)象音頻的“Representation”(“表示”)獲取優(yōu)先級(jí)。音頻選擇單元263請(qǐng)求MPD處理單元261發(fā)送諸如所選對(duì)象的對(duì)象音頻軌道的音頻文件的URL的信息。
圖66為示出在音頻選擇單元263在選擇顯示區(qū)域中的對(duì)象之中只選擇具有高處理優(yōu)先級(jí)的預(yù)定內(nèi)容的音頻對(duì)象時(shí)的對(duì)象音頻播放過(guò)程的流程圖。
如圖66所示的對(duì)象音頻播放過(guò)程類似于如圖64所示的對(duì)象音頻播放過(guò)程,除了如圖66所示的步驟S420的過(guò)程被執(zhí)行以取代如圖64所示的步驟S360。具體地,如圖66所示的步驟S381至S389和步驟S391至S399的過(guò)程類似于如圖64所示的步驟S411至S419和步驟S421至S429的過(guò)程。因此,下面將只描述步驟S420的過(guò)程。
在如圖66所示的步驟S420中,音頻文件獲取單元264基于圖像幀尺寸信息、對(duì)象位置信息、顯示區(qū)域、每個(gè)對(duì)象的優(yōu)先級(jí)以及每個(gè)對(duì)象的內(nèi)容種類來(lái)選擇該顯示區(qū)域中具有高處理優(yōu)先級(jí)的預(yù)定內(nèi)容的音頻對(duì)象。具體地,音頻文件獲取單元264基于圖像幀尺寸信息、對(duì)象位置信息和顯示區(qū)域來(lái)指定該顯示區(qū)域中的每個(gè)對(duì)象。音頻文件獲取單元264從所指定的對(duì)象之中選擇優(yōu)先級(jí)等于或高于預(yù)定值并具有由預(yù)定值指示的內(nèi)容種類的對(duì)象。
應(yīng)指出,例如,MPD處理單元261分析MPD文件,從而從指定對(duì)象的對(duì)象音頻的“Representation”(“表示”)獲取優(yōu)先級(jí)和內(nèi)容種類。音頻選擇單元263請(qǐng)求MPD處理單元261傳送諸如所選對(duì)象的對(duì)象音頻軌道的音頻文件的URL的信息。
圖67為示出基于優(yōu)先級(jí)選擇的對(duì)象的示例的示意圖。
在圖67的示例中,對(duì)象#1(對(duì)象1)至#4(對(duì)象4)為在顯示區(qū)域中的對(duì)象,以及優(yōu)先級(jí)等于或低于2的對(duì)象從顯示區(qū)域中的對(duì)象之中選擇。假設(shè)數(shù)值越小,處理優(yōu)先級(jí)越高。此外,在圖67中,圓圈中的數(shù)值表示對(duì)應(yīng)對(duì)象的優(yōu)先級(jí)的值。
在如圖67所示的示例中,在對(duì)象#1至#4的優(yōu)先級(jí)分別為1、2、3和4時(shí),對(duì)象#1和對(duì)象#2被選擇。此外,在對(duì)象#1至#4的優(yōu)先級(jí)被分別改變?yōu)?、2、1和4時(shí),對(duì)象#2和對(duì)象#3被選擇。此外,在對(duì)象#1至#4的優(yōu)先級(jí)被改變?yōu)?、4、1和2時(shí),對(duì)象#3和對(duì)象#4被選擇。
如上所述,只有具有高處理優(yōu)先級(jí)的對(duì)象的對(duì)象音頻的音頻流從顯示區(qū)域中的對(duì)象之中選擇性獲取,在Web服務(wù)器142(212)和視頻播放終端144(214)之間的頻帶被有效利用。同樣適用于在對(duì)象基于該對(duì)象的內(nèi)容種類來(lái)選擇。
<第五實(shí)施例>
(軌道的概述)
圖68為示出在應(yīng)用本公開(kāi)的第五實(shí)施例中的軌道的概述的示意圖。
如圖68所示,第五實(shí)施例不同于第二實(shí)施例之處在于,軌道被記錄為不同文件(3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4)。
根據(jù)第五實(shí)施例的信息處理系統(tǒng)和由該信息處理系統(tǒng)執(zhí)行的過(guò)程類似于第四實(shí)施例,并因此省略其描述。
<第六實(shí)施例>
圖69為示出在應(yīng)用本公開(kāi)的第六實(shí)施例中的軌道的概況的示意圖。
如圖69所示,第六實(shí)施例不同于第三實(shí)施例之處在于,軌道被記錄為不同文件(3da_basemeta.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4)。
根據(jù)第六實(shí)施例的信息處理系統(tǒng)和由該信息處理系統(tǒng)執(zhí)行的過(guò)程類似于第四實(shí)施例,除了基本軌道而不是對(duì)象元數(shù)據(jù)軌道的音頻流被獲取,以便獲取對(duì)象位置信息。因此,省略其描述。
應(yīng)指出,在第一至第三實(shí)施例、第五實(shí)施例和第六實(shí)施例中,在顯示區(qū)域中的對(duì)象也可以基于該對(duì)象的優(yōu)先級(jí)或內(nèi)容種類來(lái)選擇。
此外,在第一至第六實(shí)施例中,流播放單元可獲取顯示區(qū)域外面的對(duì)象的音頻流并合成該對(duì)象的對(duì)象音頻且輸出該對(duì)象音頻,如同圖23中示出的流播放單元120。
此外,在第一至第六實(shí)施例中,對(duì)象位置信息從元數(shù)據(jù)獲取,但是替代地,對(duì)象位置信息可從MPD文件獲取。
<第七實(shí)施例>
(應(yīng)用本公開(kāi)的計(jì)算機(jī)的解釋)
上述的Web服務(wù)器的一系列過(guò)程也可以由硬件或軟件執(zhí)行。在該系列過(guò)程由軟件執(zhí)行時(shí),構(gòu)成軟件的程序被安裝在計(jì)算機(jī)中。計(jì)算機(jī)的示例包含并入專用硬件的計(jì)算機(jī)和通過(guò)安裝各種程序能夠執(zhí)行各種功能的通用個(gè)人計(jì)算機(jī)。
圖70為示出通過(guò)使用程序執(zhí)行Web服務(wù)器142(212)的一系列過(guò)程的計(jì)算機(jī)的硬件的配置示例的框圖。
在計(jì)算機(jī)中,中央處理單元(CPU)601、只讀存儲(chǔ)器(ROM)602和隨機(jī)存取存儲(chǔ)器(RAM)603經(jīng)由總線604互連。
總線604也被連接到輸入/輸出接口605。輸入/輸出接口605被連接到輸入單元606、輸出單元607、存儲(chǔ)單元608、通信單元609和驅(qū)動(dòng)器610中的每者。
輸入單元606由鍵盤、鼠標(biāo)、麥克風(fēng)等形成。輸出單元607由顯示器、揚(yáng)聲器等形成。存儲(chǔ)單元608由硬件、非易失性存儲(chǔ)器等形成。通信單元609由網(wǎng)絡(luò)接口等形成。驅(qū)動(dòng)器610驅(qū)動(dòng)可移除介質(zhì)611,諸如磁盤、光盤、磁光盤或半導(dǎo)體存儲(chǔ)器。
在如上所述進(jìn)行配置的計(jì)算機(jī)中,CPU 601例如經(jīng)由輸入/輸出接口605和總線604加載存儲(chǔ)在存儲(chǔ)單元608在RAM 603中的程序并執(zhí)行該程序,從而執(zhí)行上述的系列過(guò)程。
由計(jì)算機(jī)(CPU 601)執(zhí)行的程序可以被設(shè)置記錄在用作例如包裝介質(zhì)等的可移除介質(zhì)611中。此外,程序可以經(jīng)由有線或無(wú)線傳輸介質(zhì),諸如局域網(wǎng)、互聯(lián)網(wǎng)或數(shù)字衛(wèi)星廣播來(lái)提供。
程序可以通過(guò)在驅(qū)動(dòng)器610中加載可移除介質(zhì)611經(jīng)由輸入/輸出接口605被安裝在存儲(chǔ)單元608中。此外,程序可以經(jīng)由有線或無(wú)線傳輸介質(zhì)通過(guò)通信單元609來(lái)接收并被安裝在存儲(chǔ)單元608中。此外,程序可以被事先安裝在ROM 602或存儲(chǔ)單元608中。
應(yīng)指出,由計(jì)算機(jī)執(zhí)行的程序可為以在本描述中所述的次序的時(shí)間序列的方式執(zhí)行該過(guò)程的程序,或可為例如并行或在被懇求時(shí)在必要的時(shí)間執(zhí)行該過(guò)程的程序。
視頻播放終端144(214)可具有類似于如圖70所示的計(jì)算機(jī)的硬件配置。在此情況下,例如CPU 601可以執(zhí)行控制軟件161(221)、視頻播放軟件162(222)和訪問(wèn)軟件163(223)。視頻播放終端144(214)的過(guò)程可由硬件執(zhí)行。
在本描述中,系統(tǒng)具有一組多個(gè)組件(諸如裝置或模塊(部件)),并且并未考慮所有的組件是否在相同的殼體中。因此,系統(tǒng)可為可被存放在單獨(dú)的殼體中并通過(guò)網(wǎng)絡(luò)進(jìn)行連接的多個(gè)裝置以及在單個(gè)殼體內(nèi)的多個(gè)模塊。
應(yīng)指出,本公開(kāi)的實(shí)施例并不局限于上述的實(shí)施例,并且在不脫離本公開(kāi)的要點(diǎn)的情況下可以進(jìn)行各種更改。
例如,文件生成裝置141(211)可通過(guò)復(fù)用所有瓦片的編碼數(shù)據(jù)以生成一個(gè)圖像文件而不是生成以瓦片為單位的圖像文件來(lái)生成視頻流。
本公開(kāi)不僅可以被應(yīng)用于MPEG-H 3D音頻,而且可以被應(yīng)用于能夠形成每個(gè)對(duì)象的流的通用音頻編解碼。
此外,本公開(kāi)也可以被應(yīng)用于執(zhí)行廣播和本地存儲(chǔ)播放以及流播放的信息處理系統(tǒng)。
此外本公開(kāi)可具有下列配置。
(1)
信息處理裝置,其包括獲取一個(gè)文件中的預(yù)定軌道的音頻數(shù)據(jù)的獲取單元,在該文件中,多種類型的音頻數(shù)據(jù)根據(jù)該類型被劃分為多個(gè)軌道并且該軌道被布置,每個(gè)軌道的音頻數(shù)據(jù)被連續(xù)布置在預(yù)定時(shí)間長(zhǎng)度的文件中。
(2)
根據(jù)上述項(xiàng)(1)所述的信息處理裝置,其中,該文件以如下方式配置:以對(duì)應(yīng)于子片段的量將每個(gè)軌道的該音頻數(shù)據(jù)連續(xù)布置在該文件中。
(3)
根據(jù)上述項(xiàng)(2)所述的信息處理裝置,其中
該文件被配置成針對(duì)每個(gè)軌道提供有moof盒和mdat盒,以及
對(duì)應(yīng)于每個(gè)軌道的子片段的該音頻數(shù)據(jù)被配置成布置在該軌道的mdat盒中。
(4)
根據(jù)上述項(xiàng)(3)所述的信息處理裝置,其中,該文件被配置成包含指示在該文件中的mdat盒的位置的位置信息。
(5)
根據(jù)上述項(xiàng)(2)所述的信息處理裝置,其中
該文件被配置成提供有moof盒和mdat盒,該moof盒和mdat盒對(duì)于所有文件是共用的,以及
對(duì)應(yīng)于所有該軌道的子片段的該音頻數(shù)據(jù)被配置成布置在該mdat盒中。
(6)
根據(jù)上述項(xiàng)(5)所述的信息處理裝置,其中
該文件被配置成包含指示對(duì)應(yīng)于該mdat盒中的每個(gè)軌道的子片段的音頻數(shù)據(jù)在該文件中的位置的位置信息。
(7)
根據(jù)上述項(xiàng)(1)至(6)中的任一者所述的信息處理裝置,其中該獲取單元被配置成獲取指示該軌道之間的參考關(guān)系的信息,該信息被布置在不同于該文件的文件中。
(8)
根據(jù)上述項(xiàng)(1)至(7)中的任一項(xiàng)所述的信息處理裝置,其中,獲取單元被配置成獲取指示音頻數(shù)據(jù)的優(yōu)先級(jí)的信息,該信息被布置在不同于該文件的文件中。
(9)
根據(jù)上述項(xiàng)(1)至(8)中的任一項(xiàng)所述的信息處理裝置,其中,該獲取單元被配置成獲取指示該音頻文件的內(nèi)容的信息,該信息被布置在不同于該文件的文件中。
(10)
信息處理方法,其包含通過(guò)信息處理裝置獲取一個(gè)文件中的預(yù)定軌道的音頻數(shù)據(jù)的獲取步驟,在該文件中,多種類型的音頻數(shù)據(jù)根據(jù)該類型被劃分為多個(gè)軌道并且該軌道被布置,每個(gè)軌道的音頻數(shù)據(jù)被連續(xù)布置在預(yù)定時(shí)間長(zhǎng)度的文件中。
(11)
信息處理裝置,其包括生成一個(gè)文件的生成單元,在該文件中,多種類型的音頻數(shù)據(jù)根據(jù)該類型被劃分為多個(gè)軌道并且該軌道被布置,每個(gè)軌道的音頻數(shù)據(jù)被連續(xù)布置在預(yù)定時(shí)間長(zhǎng)度的文件中。
(12)
信息處理方法,其包含通過(guò)信息處理裝置生成一個(gè)文件的生成步驟,在該文件中,多種類型的音頻數(shù)據(jù)根據(jù)該類型被劃分為多個(gè)軌道并且該軌道被布置,每個(gè)軌道的音頻數(shù)據(jù)被連續(xù)布置在預(yù)定時(shí)間長(zhǎng)度的該文件中。
附圖標(biāo)記列表
141 文件生成裝置
144 運(yùn)動(dòng)圖像播放終端
172 音頻文件生成單元
192 音頻文件獲取單元
193 音頻選擇單元
211 文件生成裝置
214 運(yùn)動(dòng)圖像播放終端
241 音頻文件生成單元
264 音頻文件獲取單元