媒體流傳輸期間在適配集合間的切換的制作方法
【技術(shù)領(lǐng)域】
[0001 ]本公開(kāi)內(nèi)容涉及對(duì)經(jīng)編碼的多媒體數(shù)據(jù)的存儲(chǔ)和傳輸。
【背景技術(shù)】
[0002]可以將數(shù)字視頻能力并入到范圍廣泛的設(shè)備中,所述設(shè)備包括數(shù)字電視、數(shù)字直接廣播系統(tǒng)、無(wú)線廣播系統(tǒng)、個(gè)人數(shù)字助理(PDA)、膝上型或者臺(tái)式計(jì)算機(jī)、數(shù)字照相機(jī)、數(shù)字記錄設(shè)備、數(shù)字媒體播放器、視頻游戲設(shè)備、視頻游戲控制器、蜂窩或者衛(wèi)星無(wú)線電話、視頻遠(yuǎn)程會(huì)議設(shè)備等。數(shù)字視頻設(shè)備實(shí)現(xiàn)諸如那些由MPEG-2、MPEG-4、ITU-T H.263或者ITU-TH.264/MPEG-4、Part 10、高級(jí)視頻編碼(AVC)所定義的標(biāo)準(zhǔn)以及這樣的標(biāo)準(zhǔn)的擴(kuò)展中所描述的視頻壓縮技術(shù),以更加高效地發(fā)送和接收數(shù)字視頻信息。
[0003]在視頻數(shù)據(jù)已經(jīng)被編碼后,可以將視頻數(shù)據(jù)分組化,以用于傳輸或者存儲(chǔ)??梢詫⒁曨l數(shù)據(jù)組裝成符合各種標(biāo)準(zhǔn)(例如,國(guó)際標(biāo)準(zhǔn)化組織基礎(chǔ)媒體文件格式及其擴(kuò)展,例如,MP4文件格式和高級(jí)視頻編碼(AVC)文件格式)中的任何標(biāo)準(zhǔn)的視頻文件。可以以各種方式來(lái)傳輸這樣的分組化視頻數(shù)據(jù),例如,通過(guò)使用網(wǎng)絡(luò)流的計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行傳輸。
【發(fā)明內(nèi)容】
[0004]總體上,本公開(kāi)內(nèi)容描述了關(guān)于在媒體數(shù)據(jù)的流傳輸(例如,通過(guò)網(wǎng)絡(luò))期間的在適配集合之間的切換??傮w上,適配集合可以包括特定類型的媒體數(shù)據(jù),例如,視頻、音頻、定時(shí)文本等。盡管常規(guī)上,在通過(guò)網(wǎng)絡(luò)的媒體流傳輸中,已經(jīng)提供了用于在適配集合內(nèi)的表示之間切換的技術(shù),但是總體上,本公開(kāi)內(nèi)容的技術(shù)針對(duì)在適配集合本身之間切換的技術(shù)。
[0005]在一個(gè)示例中,取回媒體數(shù)據(jù)的方法包括,從包括第一類型的媒體數(shù)據(jù)的第一適配集合取回媒體數(shù)據(jù),呈現(xiàn)來(lái)自第一適配集合的媒體數(shù)據(jù),響應(yīng)于切換到包括第一類型的媒體數(shù)據(jù)的第二適配集合的請(qǐng)求:從第二適配集合取回包括第二適配集合的切換點(diǎn)的媒體數(shù)據(jù),以及在實(shí)際播出時(shí)間已經(jīng)滿足或超過(guò)切換點(diǎn)的播出時(shí)間之后呈現(xiàn)來(lái)自第二適配集合的媒體數(shù)據(jù)。
[0006]在另一個(gè)示例中,用于取回媒體數(shù)據(jù)的設(shè)備包括一個(gè)或多個(gè)處理器,其被配置為從包括第一類型的媒體數(shù)據(jù)的第一適配集合取回媒體數(shù)據(jù),呈現(xiàn)來(lái)自第一適配集合的媒體數(shù)據(jù),響應(yīng)于切換到包括第一類型的媒體數(shù)據(jù)的第二適配集合的請(qǐng)求:從第二適配集合取回包括第二適配集合的切換點(diǎn)的媒體數(shù)據(jù),以及在實(shí)際播出時(shí)間已經(jīng)滿足或者超過(guò)切換點(diǎn)的播出時(shí)間之后呈現(xiàn)來(lái)自第二適配集合的媒體數(shù)據(jù)。
[0007]在另一個(gè)示例中,用于取回媒體數(shù)據(jù)的設(shè)備包括:用于從包括第一類型的媒體數(shù)據(jù)的第一適配集合取回媒體數(shù)據(jù)的單元,用于呈現(xiàn)來(lái)自第一適配集合的媒體數(shù)據(jù)的單元,用于響應(yīng)于切換到包括第一類型的媒體數(shù)據(jù)的第二適配集合的請(qǐng)求,從第二適配集合取回包括第二適配集合的切換點(diǎn)的媒體數(shù)據(jù)的單元,以及響應(yīng)于請(qǐng)求而在實(shí)際播出時(shí)間已經(jīng)滿足或者超過(guò)切換點(diǎn)的播出時(shí)間之后呈現(xiàn)來(lái)自第二適配集合的媒體數(shù)據(jù)的單元。
[0008]在另一個(gè)示例中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)具有存儲(chǔ)于其上的指令,當(dāng)所述指令被執(zhí)行時(shí)使處理器:從包括第一類型的媒體數(shù)據(jù)的第一適配集合取回媒體數(shù)據(jù),呈現(xiàn)來(lái)自第一適配集合的媒體數(shù)據(jù),響應(yīng)于切換到包括第一類型的媒體數(shù)據(jù)的第二適配集合的請(qǐng)求:從第二適配集合取回包括第二適配集合的切換點(diǎn)的媒體數(shù)據(jù),以及在實(shí)際播出時(shí)間已經(jīng)滿足或者超過(guò)切換點(diǎn)的播出時(shí)間之后呈現(xiàn)來(lái)自第二適配集合的媒體數(shù)據(jù)。
[0009]在以下的附圖和描述中闡述了一個(gè)或多個(gè)示例的細(xì)節(jié)。根據(jù)描述和附圖,并且根據(jù)權(quán)利要求書(shū),其它的特征、目標(biāo)和優(yōu)點(diǎn)將是顯而易見(jiàn)的。
【附圖說(shuō)明】
[0010]圖1是示出了實(shí)現(xiàn)用于通過(guò)網(wǎng)絡(luò)來(lái)流傳輸媒體數(shù)據(jù)的技術(shù)的示例系統(tǒng)的框圖。
[0011]圖2是示出了示例多媒體內(nèi)容的要素的概念圖。
[0012]圖3是示出了示例視頻文件的要素的框圖,所述示例視頻文件可以對(duì)應(yīng)于多媒體內(nèi)容的表示的片段。
[0013]圖4A和圖4B是示出了根據(jù)本公開(kāi)內(nèi)容的技術(shù)的、用于在播放期間在適配集合之間進(jìn)行切換的示例方法的流程圖。
[0014]圖5是示出了根據(jù)本公開(kāi)內(nèi)容的技術(shù)的、用于在適配集合之間進(jìn)行切換的另一個(gè)示例方法的流程圖。
【具體實(shí)施方式】
[0015]總體上,本公開(kāi)內(nèi)容描述了涉及通過(guò)網(wǎng)絡(luò)對(duì)多媒體數(shù)據(jù)(例如,音頻和視頻數(shù)據(jù))進(jìn)行流傳輸?shù)募夹g(shù)??梢越Y(jié)合通過(guò)HTTP的動(dòng)態(tài)自適應(yīng)流傳輸(DASH)來(lái)使用本公開(kāi)內(nèi)容的技術(shù)。本公開(kāi)內(nèi)容描述了可以結(jié)合網(wǎng)絡(luò)流傳輸來(lái)執(zhí)行的各種技術(shù),可以單獨(dú)或者以任何組合來(lái)實(shí)現(xiàn)所述技術(shù)中的任何或者全部技術(shù)。如在下文中更加詳細(xì)地描述的,執(zhí)行網(wǎng)絡(luò)流傳輸?shù)母鞣N設(shè)備可以被配置為實(shí)現(xiàn)本公開(kāi)內(nèi)容的技術(shù)。
[0016]根據(jù)DASH和用于通過(guò)網(wǎng)絡(luò)來(lái)流傳輸數(shù)據(jù)的類似技術(shù),可以以各種方式并且利用各種特性來(lái)將多媒體內(nèi)容(例如,電影或者也可以包括音頻數(shù)據(jù)、視頻數(shù)據(jù)、文本覆蓋或者其它數(shù)據(jù)的其它媒體內(nèi)容,其統(tǒng)一被稱為“媒體數(shù)據(jù)”)編碼。內(nèi)容準(zhǔn)備設(shè)備可以形成相同的多媒體內(nèi)容的多個(gè)表示。每個(gè)表示可以對(duì)應(yīng)于特性的特定集合(例如,編碼和渲染特性),以提供可由具有各種編碼和渲染能力的多種不同的客戶端設(shè)備使用的數(shù)據(jù)。此外,具有各種比特速率的表示可以允許帶寬適配。也就是說(shuō),客戶端設(shè)備可以確定當(dāng)前可用的帶寬的量,并且基于可用的帶寬的量來(lái)選擇表示,以及客戶端設(shè)備的編碼和渲染能力。
[0017]在一些示例中,內(nèi)容準(zhǔn)備設(shè)備可以指示表示的集合具有公共特性的集合。然后,內(nèi)容準(zhǔn)備設(shè)備可以指示集合中的表示形成適配集合,以使得集合中的表示可以被用于帶寬適配。也就是說(shuō),適配集合中的表示可以在比特速率方面彼此不同,但是在其它方面共享大體上相同的特性(例如,編碼和渲染特性)。以這種方式,客戶端設(shè)備可以針對(duì)多媒體內(nèi)容的各種適配集合來(lái)確定公共的特性,并且基于客戶端設(shè)備的編碼和渲染能力來(lái)選擇適配集合。然后,客戶端設(shè)備可以基于帶寬可用性在所選擇的適配集合中在表示之間自適應(yīng)地切換。
[0018]在一些情況下,可以針對(duì)特定類型的所包括的內(nèi)容來(lái)構(gòu)造適配集合。例如,可以形成用于視頻數(shù)據(jù)的適配集合,以使得針對(duì)場(chǎng)景的每個(gè)照相機(jī)角度(或者照相機(jī)視角)存在至少一個(gè)適配集合。作為另一個(gè)示例,可以針對(duì)不同的語(yǔ)言提供用于音頻數(shù)據(jù)和/或定時(shí)文本(例如,字幕文本數(shù)據(jù))的適配集合。也就是說(shuō),可以存在針對(duì)每個(gè)期望的語(yǔ)言的音頻適配集合和/或定時(shí)文本適配集合。這可以允許客戶端設(shè)備基于用戶偏好(例如,針對(duì)音頻和/或視頻的語(yǔ)言偏好)來(lái)選擇合適的適配集合。作為另一個(gè)示例,客戶端設(shè)備可以基于用戶偏好來(lái)選擇一個(gè)或多個(gè)相機(jī)角度。例如,用戶可能希望觀看特定的場(chǎng)景的替代的相機(jī)角度。作為另一個(gè)示例,用戶可能希望在三維(3D)視頻中觀看相對(duì)更多或更少的深度,在這種情況下,用戶可以選擇具有相對(duì)較近或者距離較遠(yuǎn)的照相機(jī)視角的兩個(gè)或更多個(gè)視圖。
[0019]可以將用于表示的數(shù)據(jù)分成個(gè)體的文件,通常被稱為片段。文件中的每個(gè)文件都是由特定的統(tǒng)一資源定位符(URL)可尋址的??蛻舳嗽O(shè)備可以在特定的URL處提交針對(duì)文件的GET請(qǐng)求以取回文件。根據(jù)本公開(kāi)內(nèi)容的技術(shù),客戶端設(shè)備可以通過(guò)例如根據(jù)由對(duì)應(yīng)的服務(wù)器設(shè)備提供的URL模板將期望的字節(jié)范圍包括在URL通道本身內(nèi)來(lái)修改GET請(qǐng)求。
[0020 ]視頻文件(例如,媒體內(nèi)容的表示的片段)可以符合根據(jù)ISO基礎(chǔ)媒體文件格式、可縮放編碼(SVC)文件格式、高級(jí)視頻編碼(AVC)文件格式、第三代合作伙伴計(jì)劃(3GPP)文件格式和/或多視角視頻編碼(MVC)文件格式或者其它相似的視頻文件格式中的任何項(xiàng)來(lái)封裝的視頻數(shù)據(jù)。
[0021 ] ISO基礎(chǔ)媒體文件格式被設(shè)計(jì)為包含定時(shí)的媒體信息,以用于以促進(jìn)媒體的互換、管理、編輯和呈現(xiàn)的靈活的、可擴(kuò)展的格式來(lái)呈現(xiàn)。在MPEG-4Part-l 2中指定了 ISO基礎(chǔ)媒體文件格式(IS0/IEC 14496-12:2004),所述MPEG-4Part-12定義了基于時(shí)間的媒體文件的一般結(jié)構(gòu)。ISO基礎(chǔ)媒體文件格式被用作家族中的其它文件格式(例如,被定義為支持H.264/MPEG-4AVC視頻壓縮的AVC文件格式(IS0/IEC 14496-15)、3GPP文件格式、SVC文件格式、以及MVC文件格式)的基礎(chǔ)。3GPP文件格式和MVC文件格式是AVC文件格式的擴(kuò)展。ISO基礎(chǔ)媒體文件格式包括時(shí)序(timing)、結(jié)構(gòu)以及針對(duì)媒體數(shù)據(jù)的定時(shí)序列(例如,視聽(tīng)呈現(xiàn))的媒體信息。文件結(jié)構(gòu)可以是面向?qū)ο蟮?。文件可以?jiǎn)單地被分解成基本對(duì)象和可以從其類型中暗示的對(duì)象結(jié)構(gòu)。
[0022]符合ISO基礎(chǔ)媒體文件格式(及其擴(kuò)展)的文件可以被形成為一系列的對(duì)象,稱為“盒子”??梢詫SO基礎(chǔ)媒體文件格式中的數(shù)據(jù)包括在盒子中,以使得在文件內(nèi)不需要包括其它數(shù)據(jù),并且在文件內(nèi)不需要存在盒子以外的數(shù)據(jù)。這包括特定文件格式所需要的任何初始簽名?!昂凶印笨梢允怯晌ㄒ活愋偷臉?biāo)識(shí)符和長(zhǎng)度定義的面向?qū)ο蟮臉?gòu)件塊。通常,呈現(xiàn)被包括在一個(gè)文件中,并且媒體呈現(xiàn)是獨(dú)立的。電影容器(電影盒子)可以包括媒體的元數(shù)據(jù)以及可以被包括在媒體數(shù)據(jù)容器中并且可以在其它文件中的視頻和音頻幀。
[0023]可以將表示(運(yùn)動(dòng)序列)包括在若干個(gè)文件(有時(shí)被稱為片段)中。定時(shí)和分幀(位置和大小)信息通常在ISO基礎(chǔ)媒體文件中,并且輔助文件基本上可以使用任何格式。該呈現(xiàn)可以“本地”于包括呈現(xiàn)的系統(tǒng),或者可以經(jīng)由網(wǎng)絡(luò)或者其它流傳遞機(jī)制而被提供。
[0024]當(dāng)通過(guò)流傳輸協(xié)議來(lái)傳遞媒體時(shí),可能需要將媒體從其在文件中所表示的方式中變形。這種情況的一個(gè)示例是當(dāng)通過(guò)實(shí)時(shí)傳輸協(xié)議(RTP)來(lái)發(fā)送媒體時(shí)。例如,在文件中,視頻的每個(gè)幀都被連續(xù)地存儲(chǔ)為文件格式樣本。在RTP中,必須服從特定于所使用的編解碼器的分組化規(guī)則,以將這些幀置于RTP分組中。流傳輸服務(wù)器可以被配置為實(shí)時(shí)地計(jì)算這樣的分組化。然而,存在針對(duì)對(duì)流傳輸服務(wù)器的幫助的支持。
[0025]本公開(kāi)內(nèi)容描述了用于在經(jīng)由流傳輸(例如,利用DASH的技術(shù))取回的媒體數(shù)據(jù)的播放(還稱為播出)期間在適配集合之間進(jìn)行切換的技術(shù)。例如,在流傳輸期間,用戶可能希望切換音頻和/或字幕的語(yǔ)言,查看替代的照相機(jī)角度、或者增加或降低3D視頻數(shù)據(jù)的深度的相對(duì)量。為了適應(yīng)用戶,客戶端設(shè)備可以在已經(jīng)從第一適配集合取回了一定量的媒體數(shù)據(jù)之后,切換到包括與第一適配集合相同類型的媒體數(shù)據(jù)的第二、不同的適配集合??蛻舳嗽O(shè)備可以繼續(xù)播出從第一適配集合取回的媒體數(shù)據(jù),至少直到已經(jīng)將第二適配集合的切換點(diǎn)譯碼之后為止。例如,針對(duì)視頻數(shù)據(jù),切換點(diǎn)可以對(duì)應(yīng)于瞬時(shí)譯碼器刷新(IDR)圖片、干凈隨機(jī)訪問(wèn)(CRA)圖片、或者其它隨機(jī)訪問(wèn)點(diǎn)(RAP)圖片。
[0026]應(yīng)當(dāng)理解的是,本公開(kāi)內(nèi)容的技術(shù)特別地針對(duì)適配集合之間的切換,并且不僅是適配集合內(nèi)的表示。鑒于先前技術(shù)允許客戶端設(shè)備在公共適配集合的表示間進(jìn)行切換,本公開(kāi)內(nèi)容的技術(shù)針對(duì)在適配集合本身間的切換。如在下文中所描述的,該適配集合切換允許用戶享受例如歸因于不中斷的播放體驗(yàn)的更愉快的體驗(yàn)。常規(guī)上,如果用戶想要切換到不同的適配集合,媒體數(shù)據(jù)的播放將需要被中斷,這導(dǎo)致不愉快的用戶體驗(yàn)。也就是說(shuō),用戶將需要完全停止播放,選擇不同的適配集合(例如,相機(jī)角度和/或音頻或者定時(shí)文本的語(yǔ)言),接著從媒體內(nèi)容的開(kāi)始處重新開(kāi)始播放。為了回到之前的播放位置(即,當(dāng)媒體播放被中斷以便切換適配集合時(shí)的播放位置),用戶將需要進(jìn)入技巧模式(例如,快進(jìn))并且手動(dòng)地找到之前的播放位置。
[0027]此外,中斷媒體數(shù)據(jù)的播放導(dǎo)致丟棄之前取回的媒體數(shù)據(jù)。也就是說(shuō),為了執(zhí)行流傳輸媒體取回,客戶端設(shè)備通常在當(dāng)前的播放位置之前就緩沖好媒體數(shù)據(jù)。以這種方式,如果(例如,響應(yīng)于帶寬波動(dòng))需要發(fā)生適配集合的表示之間的切換,存在存儲(chǔ)在緩沖器中的足夠的媒體數(shù)據(jù),以允許在不中斷播放的情況下發(fā)生切換。然而,在上文所描述的場(chǎng)景中,經(jīng)緩沖的媒體數(shù)據(jù)將完全被浪費(fèi)。特別地,不僅僅將放棄當(dāng)前的適配集合的經(jīng)緩沖的媒體數(shù)據(jù),而且還將放棄沒(méi)有被切換的其它適配集合的經(jīng)緩沖的媒體數(shù)據(jù)。例如,如果用戶想要從英語(yǔ)語(yǔ)言音頻切換到西班牙語(yǔ)語(yǔ)言音頻,播放將中斷,并且英語(yǔ)語(yǔ)言和對(duì)應(yīng)的視頻數(shù)據(jù)兩者都將被放棄。接著,在切換到西班牙語(yǔ)語(yǔ)言的音頻適配集合之后,客戶端設(shè)備將再次取回先前被放棄的該視頻數(shù)據(jù)。
[0028]另一方面,本公開(kāi)內(nèi)容的技術(shù)允許,例如,在不中斷播放的情況下,在媒體流傳輸期間在適配集合之間進(jìn)行切換。例如,客戶端設(shè)備可能已經(jīng)從第一適配集合取回了媒體數(shù)據(jù)(并且更加具體而言,第一適配集合的表示),并且可能正在呈現(xiàn)來(lái)自第一適配集合的媒體數(shù)據(jù)。在呈現(xiàn)來(lái)自第一適配集合的媒體數(shù)據(jù)時(shí),客戶端設(shè)備可以接收請(qǐng)求以切換到第二、不同的適配集合。請(qǐng)求可以源自響應(yīng)于來(lái)自用戶的輸入而由客戶端設(shè)備執(zhí)行的應(yīng)用。
[0029]例如,用戶可能希望切換到不同語(yǔ)言的音頻,在這種情況下用戶可以提交請(qǐng)求以改變音頻語(yǔ)言。作為另一個(gè)示例,用戶可能希望切換到不同語(yǔ)言的定時(shí)文本(例如,字幕)。作為又一個(gè)示例,用戶可能希望切換照相機(jī)角度,在這種情況下用戶可以提交改變相機(jī)角度(并且每個(gè)適配集合可以對(duì)應(yīng)于特定的照相機(jī)角度)的請(qǐng)求。切換照相機(jī)角度可以簡(jiǎn)單地用于從不同的視角看視頻,或者用于改變第二 (或其他額外的)觀看角度,例如,以用于增加或者降低在3D播放期間所顯示的相對(duì)深度。
[0030]響應(yīng)于請(qǐng)求,客戶端設(shè)備可以從第二適配集合取回媒體數(shù)據(jù)。特別地,客戶端設(shè)備可以從來(lái)自第二適配集合的表示取回媒體數(shù)據(jù)。所取回的媒體數(shù)據(jù)可以包括切換點(diǎn)(例如,隨機(jī)訪問(wèn)點(diǎn))??蛻舳嗽O(shè)備可以繼續(xù)呈現(xiàn)來(lái)自第一適配集合的媒體數(shù)據(jù),直到實(shí)際的播出時(shí)間已經(jīng)滿足或者超過(guò)針對(duì)第二適配集合的切換點(diǎn)的播出時(shí)間。通過(guò)這樣方式,客戶端設(shè)備可以利用第一適配集合的經(jīng)緩沖的媒體數(shù)據(jù),并且避免在從第一適配集合切換到第二適配集合期間中斷播出。換句話說(shuō),在實(shí)際的播出時(shí)間已經(jīng)滿足或者超過(guò)第二適配集合的切換點(diǎn)的播出時(shí)間之后,客戶端設(shè)備可以開(kāi)始呈現(xiàn)來(lái)自第二適配集合的媒體數(shù)據(jù)。
[0031]當(dāng)在適配集合之間進(jìn)行切換時(shí),客戶端設(shè)備可以確定第二適配集合的切換點(diǎn)的位置。例如,客戶端設(shè)備可以參考限定了第二適配集合中的切換點(diǎn)的位置的清單文件,例如,媒體呈現(xiàn)描