專利名稱:用于呈現(xiàn)具有內(nèi)容自適應(yīng)信息的三維動態(tài)影像的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本公開總體上涉及三維(3D)圖像處理,更具體地,涉及基于三維圖像的內(nèi)容來處理圖像,從而與三維圖像一起顯示諸如字幕的附加信息。
背景技術(shù):
字幕是以文字的形式表示影視動態(tài)影像中的對話及其他音效內(nèi)容,該文字形式通常已經(jīng)從影片原始版本的語言被翻譯成一種不同的語言。字幕也包括用來輔助聽力受損觀眾而描述對話和音效的字幕。這種字幕文本可以在屏幕上與畫面同時顯示也可以分別顯示。而本文所用的“字幕”這個術(shù)語是指在畫面屏幕上同時顯示的任何文本或者圖形。字幕是一種可能在畫面上同時顯示的“附加信息”。字幕是在屏幕上顯示,以便幫助觀眾理解影片中的對話,比如對話是用觀眾聽不懂的語言進(jìn)行的,或者某些觀眾在聽力方面有困難, 而字幕通常是顯示在在屏幕的底部,。通常字幕是以某種字幕文件的形式來接收,而該文件包含影片的字幕元素。字幕元素可以包括字幕文本以及時序信息,該時序信息指示字幕文本何時應(yīng)當(dāng)在屏幕上出現(xiàn)和消失。通常,時序信息是基于時間碼或者其他等效信息,諸如膠片長度(例如,以英尺和幀為單位來衡量)。字幕文件還可以包括描述字幕應(yīng)當(dāng)如何在屏幕上顯示的其他特性,諸如文本字體、文本顏色、字幕在屏幕上的定位以及排列對準(zhǔn)信息。傳統(tǒng)的字幕顯示系統(tǒng)從字幕文件解譯這些信息,將字幕元素轉(zhuǎn)換至圖形化表示,并且根據(jù)字幕文件中的信息將字幕圖形與圖像同步地顯示在屏幕上。傳統(tǒng)字幕顯示系統(tǒng)的功能可以用數(shù)字影院服務(wù)器來承擔(dān),它將經(jīng)過轉(zhuǎn)換的字幕疊加在圖像上以便由數(shù)字投影機(jī)來顯示。一部三維(3D)影片的顯示是通過立體3D顯示系統(tǒng)將立體3D圖像按一定順序來顯示而執(zhí)行的。一幅3D圖像包括一幅左眼圖像和一幅對應(yīng)的右眼圖像,兩幅圖像是從略微不同的視角表示同一場景,類似于人的雙眼看到的兩個不同的視角。該左眼圖像與右眼圖像之間的差異稱為雙眼像差(disparity),雙眼像差通常與“像差”可以互換地使用。像差可以指左眼圖像中的像素與對應(yīng)右眼圖像中的對應(yīng)像素之間的水平位置差異。像差可以用像素的數(shù)目來計量。與像差類似的概念是“視差(parallax)”,是指當(dāng)顯示在屏幕上時此對應(yīng)像素對之間的水平位置距離。視差可以通過距離量度(諸如,以英尺為單位)來計量。通過考慮顯示屏幕的尺寸,視差的值就可以與3D圖像數(shù)據(jù)中的像素像差的值相關(guān)連。 一部3D影片包括多個左眼圖像序列和對應(yīng)的右眼圖像序列。3D顯示系統(tǒng)可以確保將左眼圖像序列呈現(xiàn)給觀眾的左眼,而將右眼圖像序列呈現(xiàn)給觀眾的右眼,從而產(chǎn)生深度知覺。在 3D圖像幀中某一像素的深度知覺可以由所顯示的左眼圖像和右眼圖像的對應(yīng)像素對之間的視差的量來確定。視差較強(qiáng)的3D圖像或者像差值較大的3D圖像會顯得在距離上比較接近觀眾。在3D影片中提供字幕或者其他附加信息的一種方法是使用傳統(tǒng)的字幕顯示系統(tǒng)將單像版本的字幕圖像顯示在屏幕上供左眼和右眼同時觀看,結(jié)果是將字幕置于屏幕的深度處。當(dāng)具有強(qiáng)視差的3D圖像與單像版本的字幕一起呈現(xiàn)時,觀眾可能難以讀取出現(xiàn)在圖像深度處之后的字幕,這是由于觀眾的眼睛無法同時將處于某一深度處的圖像以及處于不同深度處的字幕融合在一起。在圖1中繪出了使用傳統(tǒng)方法顯示的3D圖像及字幕。所顯示的3D圖像包括一個主物體106,它具有從屏幕102往外躍出的表觀深度。單像字幕文本108具有屏幕處的表觀深度。當(dāng)佩戴3D眼鏡104的觀眾注視主物體106時,此觀眾可能將主物體106之后的字幕 108視為兩個圖像110和112。觀眾可能難以在觀看3D圖像同時閱讀該字幕文本。這一問題對于在大屏幕3D影院場所(諸如IMAX 3D影院)的觀眾尤其令人不快,因?yàn)橄鄬τ谳^小的3D劇院,大屏幕3D影院呈現(xiàn)的3D圖像具有較強(qiáng)視差,帶來更強(qiáng)的沉浸感并且在距離上更接近觀眾。盡管這個問題是針對字幕討論的,但是與3D圖像一起顯示3D圖像以外的任何信息都可以經(jīng)歷在此討論的這樣或者那樣的問題。用于利用傳統(tǒng)字幕顯示系統(tǒng)為3D影片顯示字幕的另一方法是將單像版本的字幕顯示在靠近屏幕頂部的位置。此類方法降低了觀眾觀看的不適,這是由于在大多數(shù)3D場景中,靠近圖像幀頂部的圖像內(nèi)容通常比靠近圖像幀底部的圖像內(nèi)容具有更大的距離深度值。例如,靠近圖像頂部的圖像內(nèi)容通常包括呈現(xiàn)為遠(yuǎn)離場景中其他物體的天空、云朵、建筑的屋頂或者山川等。這些類型的內(nèi)容的深度通常接近屏幕深度或者在屏幕深度之后。當(dāng)字幕附近的圖像內(nèi)容遠(yuǎn)離或甚至在屏幕深度之后時,觀眾可以比較容易地讀取單像版本的字幕。然而,如果靠近屏幕頂部的圖像內(nèi)容具有比較近距離的表觀深度時,觀眾也會體驗(yàn)到困難。此外,觀眾可能發(fā)現(xiàn),連續(xù)地注視圖像頂部以便讀取字幕或者圖像的其他附加信息是不方便的。由此,期望能有這樣的系統(tǒng)和方法,其可以將字幕或者其他附加信息與3D圖像一起顯示在顯示器上并具有可接受的深度或者其他位置。此外,盡管可以使用某些現(xiàn)有方法來確定3D圖像內(nèi)容的深度,此類現(xiàn)有方法不能快速和動態(tài)地確定3D圖像內(nèi)容的深度。傳統(tǒng)的立體匹配方法無法給出精確的互不矛盾的像差結(jié)果,這是由于該方法不能適應(yīng)時變的圖像內(nèi)容。因此,基于傳統(tǒng)立體匹配方法計算出來的3D字幕的深度在時間上可能是前后不一致的,從而可以導(dǎo)致觀眾觀看的不適。此外, 傳統(tǒng)立體匹配方法無法有效和充分可靠地用于自動化和實(shí)時計算應(yīng)用。由此,期望能有一種可以用于快速并且動態(tài)地確定3D圖像內(nèi)容深度的系統(tǒng)和方法,使得該深度可用于定位除3D圖像內(nèi)容以外的字幕或其他信息。
發(fā)明內(nèi)容
某些實(shí)施方式涉及以立體三維(3D)形式在3D影視呈現(xiàn)中處理和顯示字幕,以允許觀眾以容易和舒適的方式讀取圖像和字幕。立體3D字幕或者3D字幕可以通過顯示具有適當(dāng)?shù)南癫罨蛘咭暡畹淖笱圩帜粓D像和右眼字幕圖像來實(shí)現(xiàn)。在一個實(shí)施方式中,3D字幕的處理是基于3D圖像產(chǎn)生內(nèi)容自適應(yīng)深度并具有高水平的的計算效率和計算可靠性。在一個實(shí)施方式中,3D字幕的處理是基于以數(shù)字影院包(DCP)形式壓縮版本的3D 圖像產(chǎn)生內(nèi)容自適應(yīng)深度并具有高水平的的計算效率和計算可靠性。在一個實(shí)施方式中,3D字幕的處理和顯示產(chǎn)生內(nèi)容自適應(yīng)深度,同時保持所感知的字幕字體大小的一致性。在一個實(shí)施方式中,提供一種3D數(shù)字投影系統(tǒng),用于計算和顯示具有內(nèi)容自適應(yīng)深度的3D字幕。在一個實(shí)施方式中,3D字幕的處理和顯示產(chǎn)生內(nèi)容自適應(yīng)深度以及其他內(nèi)容自適應(yīng)字幕特性(包括字體樣式、字體大小、顏色或者亮度和屏幕定位)。在一個實(shí)施方式中,提供一種3D數(shù)字投影系統(tǒng),用于計算和顯示具有內(nèi)容自適應(yīng)深度以及其他內(nèi)容自適應(yīng)字幕特性(包括,字體樣式、字體大小、顏色或者亮度和屏幕定位)的3D字幕。在一個實(shí)施方式中,接收3D圖像序列和用于該3D圖像序列的字幕文件。字幕文件包括字幕元素和與字幕元素相關(guān)聯(lián)的時序信息?;跁r序信息,字幕元素與3D圖像序列的某一片段相關(guān)聯(lián)。根據(jù)與字幕元素相關(guān)聯(lián)的片段計算概要深度圖。基于針對字幕元素的概要深度圖計算代表深度。該代表深度被用于確定字幕元素的渲染屬性。輸出渲染屬性。
在一個實(shí)施方式中,提供一種顯示媒體,用于在該顯示媒體上顯示圖像。顯示媒體包括具有可變表觀深度的內(nèi)容的3D圖像序列。該顯示媒體還包括字幕元素,其表觀深度基于3D圖像序列的內(nèi)容的可變表觀深度而改變。上述示意性實(shí)施方式并不旨在限制或者限定公開,而是提供輔助理解本公開的示例。其他的實(shí)施方式將在詳細(xì)描述中討論并進(jìn)一步描述。通過查閱本說明書或者通過實(shí)踐所呈現(xiàn)的一個或者多個實(shí)施方式,可以進(jìn)一步理解由一個或者多個不同示例提供的優(yōu)點(diǎn)。
圖1示出了在屏幕上顯示的具有單像字幕的三維(3D)圖像的現(xiàn)有技術(shù)表示;圖2示出了根據(jù)本發(fā)明一個實(shí)施方式的在屏幕上顯示的具有立體字幕的3D圖像的表示;圖3繪出了根據(jù)本發(fā)明一個實(shí)施方式的能夠確定用于在屏幕上與3D圖像一起顯示的立體字幕的渲染屬性的系統(tǒng);圖4繪出了根據(jù)本發(fā)明一個實(shí)施方式的用于計算與3D圖像一起顯示的立體字幕的方法的流程圖;圖5圖示了根據(jù)本發(fā)明一個實(shí)施方式的圖像概要化過程;圖6圖示了根據(jù)本發(fā)明一個實(shí)施方式的垂直采樣投影過程;圖7圖示了根據(jù)本發(fā)明一個實(shí)施方式的多垂直采樣投影過程;圖8圖示了根據(jù)本發(fā)明一個實(shí)施方式的多區(qū)域圖像概要化過程;圖9圖示了多區(qū)域圖像概要化的第二實(shí)施方式;
圖10圖示了根據(jù)本發(fā)明一個實(shí)施方式的概要圖像對和概要深度圖;圖11繪出了根據(jù)本發(fā)明一個實(shí)施方式的代表深度確定模塊的功能框圖;圖12示出了根據(jù)本發(fā)明一個實(shí)施方式的3D圖像片段的像差分布;圖13示出了根據(jù)本發(fā)明一個實(shí)施方式的3D圖像片段的距離時間分布圖 (distogram);圖14A是根據(jù)本發(fā)明一個實(shí)施方式的傳統(tǒng)字幕文本文件的示例;圖14B是根據(jù)本發(fā)明一個實(shí)施方式的包括代表深度的3D字幕文本文件的示例;圖15圖示了根據(jù)本發(fā)明一個實(shí)施方式的時間窗口選擇;圖16圖示了根據(jù)本發(fā)明一個實(shí)施方式的根據(jù)距離時間分布圖確定代表深度;圖17A和17B圖示繪出了根據(jù)本發(fā)明一個實(shí)施方式的選擇性DCP解碼;圖18圖繪出根據(jù)本發(fā)明一個實(shí)施方式的JPEGI級別3子帶和相應(yīng)分組;圖19是根據(jù)本發(fā)明一個實(shí)施方式的用于離線內(nèi)容自適應(yīng)3D字幕計算系統(tǒng)的功能框圖;圖20是根據(jù)本發(fā)明一個實(shí)施方式的用于實(shí)時內(nèi)容自適應(yīng)3D字幕計算系統(tǒng)的功能框圖;以及圖21是根據(jù)本發(fā)明一個實(shí)施方式的字幕化控制器方法的流程圖。
具體實(shí)施例方式在此公開的本發(fā)明的創(chuàng)造性概念的特定方面和實(shí)施方式涉及用于根據(jù)3D圖像的內(nèi)容在某個位置和深度顯示具有附加信息(諸如,字幕)的三維(3D)圖像的方法和系統(tǒng)。 盡管公開的方法總體上適用于任意類型的3D立體顯示系統(tǒng),這些方法特別適用于具有沉浸感觀看環(huán)境的3D電影院。在某些實(shí)施方式中,附加信息(字幕)以與所顯示的3D圖像中的內(nèi)容相同的深度被顯示,或者基于該深度以其他方式而被顯示。圖2繪出了一個實(shí)施方式,字幕元素214的顯示深度基于3D圖像中的主要圖像物體106的深度。通過在基于3D圖像內(nèi)容的深度處顯示字幕元素214,觀眾104可以舒適地同時觀看3D圖像和讀取字幕。此外,如果主要圖像物體106的深度有變化,則字幕元素214的深度也將隨著主要圖像物體106的深度而改變。字幕元素214的深度設(shè)置可以用立體方法通過適當(dāng)?shù)囊暡顏盹@示相同字幕元素的左眼視圖和右眼視圖來提供。以此方式顯示的字幕可以稱作立體字幕,或者稱作3D字幕。字幕的深度設(shè)置可能需要的視差量可以通過計算主要圖像物體106的深度或者等效地通過計算主要圖像物體106的像素像差值來確定。3D字幕的左眼視圖和右眼視圖可以通過將字幕元素在屏幕位置水平方向移動來產(chǎn)生。例如,左眼視圖的字幕文本可以通過將字幕元素向右水平方向移動10個像素來創(chuàng)建,而字幕文本的對應(yīng)右眼視圖可以通過將字幕元素向左方向移動10個像素來創(chuàng)建。由此,得到的3D字幕在左眼視圖和右眼視圖之間具有20像素的像差。實(shí)際感知到的具有這種像差的字幕元素的深度取決于顯示器屏幕大小以及圖像分辨率。對于圖像寬度為2048 像素的觀分辨率圖像并且在70英尺寬度的屏幕上顯示該圖像,具有20像素的像差的字幕元素看起來距離觀眾為大約14英尺的距離。字幕可以置于3D圖像中距離最近的物體之前為某一固定量的該字幕元素定位處,該固定量可以是固定數(shù)目的附加像差。例如,如果最近的圖像物體距離觀眾10英尺, 則該字幕元素的位置可以用對于每眼視圖分別增加4個附加像素(總計8個像素的附加像差)來放置,這就有效地將字幕置于比圖像物體距離更接近觀眾大約2英尺的位置。由于 3D影視的圖像展現(xiàn)出不斷改變的深度,字幕的深度可以隨著圖像內(nèi)容的深度而改變,并且可以保持在距離最近物體之前的圖像中的該字幕元素定位處。在某些實(shí)施方式中,對于具有2048像素寬度的圖像,附加像差可以在1像素至20的像素范圍中;而對于具有4096像素寬度的圖像,附加像差可以在1像素至40像素的范圍中。圖像物體的深度可以使用立體匹配方法或者其他適合的方法來計算。在某些實(shí)施方式中,可以使用立體匹配方法來計算3D圖像像素的像差。通常,當(dāng)角色開始講話時或者在稍后,字幕元素就會出現(xiàn)在屏幕上;而當(dāng)角色停止講話時,字幕元素就會消失。字幕元素的平均顯示持續(xù)時間是數(shù)秒,然而在特定環(huán)境下可以更長或者更短。在字幕元素的顯示期間,多個圖像幀被投影至屏幕上,并且這些像素可能包括隨時間變化的內(nèi)容,諸如物體運(yùn)動、光照變化、場景漸隱以及場景剪輯。根據(jù)本發(fā)明的某些實(shí)施方式,通過分析與字幕元素的持續(xù)時間相對應(yīng)的時間窗口內(nèi)的全部3D圖像幀,來計算字幕元素的代表深度值。在某一字幕的持續(xù)時間內(nèi),字幕元素的代表深度值可以是一個常量,也可以逐幀改變。代表深度值可以與該字幕元素相關(guān)聯(lián),并且成為該字幕元素的代表性數(shù)值。字幕元素的實(shí)際深度設(shè)置可以根據(jù)所計算的代表深度值而確定。3D影片中的每個字幕元素可被置于根據(jù)代表深度而確定的深度處,而代表深度是自適應(yīng)于圖像內(nèi)容。根據(jù)某些實(shí)施方式的內(nèi)容自適應(yīng)的方法可被擴(kuò)展至其他字幕屬性,包括但不限于字幕字體樣式、字體大小、顏色、亮度和屏幕定位。任何類型的字幕屬性都可以自適應(yīng)于圖像內(nèi)容,以增強(qiáng)3D影片的觀看體驗(yàn)。某種適當(dāng)?shù)姆椒ɑ蛘吣骋唤M適當(dāng)?shù)膱D像分析方法可被用于確定所述字幕屬性中每一項(xiàng)的設(shè)置。字幕元素的深度設(shè)置可以由一種裝置通過對3D屏幕上顯示的字幕元素的左眼視圖和右眼視圖的水平位置進(jìn)行控制來產(chǎn)生。由該裝置產(chǎn)生的深度設(shè)置可以與所計算的代表深度相同也可以不同。這種差異的一個示例是該裝置可能具有有限的深度范圍和深度分辨率。同樣的裝置還可以控制其他所述內(nèi)容自適應(yīng)的字幕屬性。傳統(tǒng)字幕的屬性可以通過文本形式的字幕文件來提供。由字幕文件提供的一類信息是每個字幕元素的開始時間和結(jié)束時間。此類時序信息可被用來確定用于計算字幕元素的深度和其他內(nèi)容自適應(yīng)屬性的時間窗口。圖3示出了可以用于生成將與3D圖像一起顯示的3D字幕或者其他信息的系統(tǒng)的一個實(shí)施方式。該系統(tǒng)包括具有處理器304的計算設(shè)備302,處理器304可以執(zhí)行存儲在計算機(jī)可讀媒介(諸如存儲器306)上的代碼以使得計算設(shè)備302計算將與3D圖像一起顯示的字幕屬性或者其他信息。計算設(shè)備302可以是能夠處理數(shù)據(jù)并執(zhí)行代碼的任何設(shè)備,該代碼是執(zhí)行動作的指令集。計算設(shè)備302的示例包括臺式個人計算機(jī)、膝上型個人計算機(jī)、 服務(wù)器設(shè)備、手持計算設(shè)備和移動設(shè)備。處理器304的示例包括微處理器、專用集成電路(ASIC)、狀態(tài)機(jī)或者其他適合的處理器。處理器304可以包括一個處理器或者任意數(shù)目的處理器。處理器304可以經(jīng)由總線308訪問存儲在存儲器306中的代碼。存儲器306可以是能夠存儲代碼的任意實(shí)體的計算機(jī)可讀媒介。存儲器306可以包括能夠向處理器304提供可執(zhí)行代碼的電的、磁的或者光學(xué)設(shè)備。存儲器306的示例包括隨機(jī)訪問存儲器(RAM)、只讀存儲器(ROM)、軟盤、壓縮光盤、數(shù)字視頻設(shè)備、磁盤、ASIC、配置的處理器或者能夠有形地體現(xiàn)代碼的其他存儲設(shè)備??偩€308可以是能夠在計算設(shè)備302的組件之間傳輸數(shù)據(jù)的任何設(shè)備。總線308可以包括一個設(shè)備或者多個設(shè)備。計算設(shè)備302可以通過輸入/輸出(I/O)接口 310與附加組件共享數(shù)據(jù)。I/O接口 310可以包括USB端口、以太網(wǎng)端口、串行總線接口、并行總線接口、無線連接接口或者能夠允許在計算設(shè)備和外圍設(shè)備/網(wǎng)絡(luò)312之間傳輸數(shù)據(jù)的任何適當(dāng)接口。外圍設(shè)備/網(wǎng)絡(luò) 312可以包括鍵盤、顯示器、鼠標(biāo)設(shè)備、觸摸屏接口或者能夠從用戶接收命令以及向計算設(shè)備302提供命令的其他用戶接口設(shè)備/輸出設(shè)備。其他外圍設(shè)備/網(wǎng)絡(luò)312包括互聯(lián)網(wǎng)、 內(nèi)聯(lián)網(wǎng)、廣域網(wǎng)(WAN)、局域網(wǎng)(LAN)、虛擬私有網(wǎng)絡(luò)(VPN)或者允許計算設(shè)備302與其他組件通信的任何適用的通信網(wǎng)絡(luò)。指令可以作為可執(zhí)行代碼存儲在存儲器306中。指令可以包括由編譯器生成的處理器專用的指令、和/或來自以任意適合的計算機(jī)編程語言(諸如,C、C++、Visual Basic, Java,Python,Per 1, JavaScript 和 ActioMcript)編寫的代碼的解釋程序。指令可以由存儲在存儲器306中的軟件模塊生成,并且當(dāng)由處理器304執(zhí)行時,可以使得計算設(shè)備 302執(zhí)行動作。軟件模塊可以包括圖像解碼模塊314、時間窗口選擇模塊316、圖像概要化模塊 318、概要深度計算模塊320、代表深度確定模塊322以及渲染屬性計算模塊324。圖像解碼模塊314可以用于將已編碼或者已加密的左眼圖像數(shù)據(jù)和右眼圖像數(shù)據(jù)解碼為未壓縮和未加密格式。時間窗口選擇模塊316可以根據(jù)字幕文件中的字幕時序信息為每個字幕元素選擇3D圖像數(shù)據(jù)的片段。圖像概要化模塊318可以將每個3D圖像片段簡化為一對左眼概要圖像和右眼概要圖像(也就是說,一幅圖像產(chǎn)生于左眼圖像序列而另一幅圖像產(chǎn)生于右眼圖像序列)。概要深度計算模塊320可以根據(jù)左眼概要圖像和右眼概要圖像來計算概要深度圖。代表深度確定模塊322可以根據(jù)概要深度圖來計算字幕元素的代表深度。渲染屬性計算模塊可以根據(jù)例如字幕元素的代表深度和其他圖像信息,從而確定字幕元素的渲染屬性。提供此示例性系統(tǒng)配置僅僅是為了示出可用于實(shí)現(xiàn)特定實(shí)施方式的潛在配置。當(dāng)然也有可能使用其他配置。圖4示出了根據(jù)3D圖像內(nèi)容來計算3D字幕元素的屬性的方法。盡管圖4示出的方法描述為應(yīng)用于字幕,但是該方法可以應(yīng)用于3D圖像以外的任何類型的信息。此外,圖 4是以圖3的系統(tǒng)為參考來描述的,然而其他實(shí)現(xiàn)也是可能的。在塊402中,3D圖像序列由計算設(shè)備302接收。3D圖像序列可以包括左眼圖像序列和與該左眼圖像序列相關(guān)聯(lián)的右眼圖像序列。在某些實(shí)施方式中,3D圖像序列作為已編碼文件(諸如,數(shù)字影院包(DCP)文件或者M(jìn)PEG2視頻文件)被接收。圖像解碼模塊314 可以將已編碼文件解碼至未壓縮和未加密文件格式。在塊404中,計算設(shè)備302接收字幕文件,該文件包括至少一個與時序信息相關(guān)聯(lián)的字幕元素。時序信息可以對應(yīng)于3D影片的時序信息。字幕元素可以包括用于與3D圖像序列一起顯示的文本或其他屬性或者任何其他附加信息。
在塊406中,計算設(shè)備302可以根據(jù)時序信息將字幕元素與3D圖像序列的片段相關(guān)聯(lián)。時間窗口選擇模塊316可以根據(jù)字幕元素的時序信息從3D序列選擇圖像片段。在某些實(shí)施方式中,時間窗口選擇模塊316可以跳過與字幕無關(guān)的圖像序列的部分而通過處理其余部分來節(jié)約計算時間。還可以根據(jù)圖像序列的長度限制將圖像序列劃分為片段。每個片段可以通過使用時序信息與字幕元素相關(guān)聯(lián)。例如,每個圖像片段與一個時間窗口相關(guān)聯(lián),并且可以與具有該時間窗口內(nèi)的時序信息的字幕元素相關(guān)聯(lián)。在塊408中,計算設(shè)備302根據(jù)與字幕元素相關(guān)聯(lián)的圖像片段計算概要深度圖。概要深度圖代表某一片段的圖像幀或者某些圖像幀的深度值或者像素像差值。在某些實(shí)施方式中,圖像概要化模塊318可以將一個片段簡化為成對的左概要圖像和右概要圖像,一個來自片段的左眼圖像序列,一個來自片段的右眼圖像序列。概要圖像可以認(rèn)為是圖像片段的簡化版本,其中,通過將圖像幀的每一列像素投影至單個像素,片段的每個圖像幀被縮減成概要圖像中的單個行。以此方式從左眼圖像片段被投影的左概要圖像和從對應(yīng)的右眼圖像片段被投影的右概要圖像形成概要圖像對。概要深度計算模塊320可以計算概要圖像對的深度值或者像素像差值,并將獲得的深度信息存儲至概要深度圖中。概要深度圖可以包括概要圖像對的全部像素或者某些像素的深度值或者像素像差值。在塊410中,計算設(shè)備302根據(jù)字幕元素的概要深度圖來計算代表深度。代表深度可以是字幕元素的代表深度,并且在字幕元素持續(xù)期間內(nèi)可以是常量也可以是變量。代表深度可以表示在3D圖像序列中隨著時間而改變的深度。在某些實(shí)施方式中,代表深度確定模塊322計算字幕元素的代表深度,它在字幕元素的持續(xù)期間內(nèi)可以是常量也可以是變化的值。在塊412中,計算設(shè)備302使用代表深度來確定字幕元素的渲染屬性。渲染屬性的示例包括深度設(shè)置、字體大小、字體顏色、在屏幕上的定位、以及3D字幕的字體樣式以及顏色、大小、位置和附加信息樣式,諸如圖像。在某些實(shí)施方式中,渲染屬性計算模塊3M使用至少部分地根據(jù)相關(guān)聯(lián)的3D圖像序列內(nèi)容的深度的代表深度來確定渲染屬性,渲染屬性包括至少一個用于渲染字幕元素的指令。例如,代表深度可被確定作為字幕元素的深度的渲染屬性,或被用來確定字幕元素的深度的渲染屬性。在塊414中,計算設(shè)備302輸出字幕元素的渲染屬性。渲染屬性可被用于渲染將與3D圖像序列一起顯示的字幕元素。下文描述上文描述的模塊和特征的其他實(shí)施方式。圖像概要化圖像概要化模塊318的實(shí)施方式可以執(zhí)行各種功能,諸如通過圖像投影將某個3D 圖像序列簡化為一對概要圖像,其中一個圖像是用于左眼,另一個用于右眼。投影可以垂直地執(zhí)行,圖像幀中的每個像素列被投影至單個像素,而每個幀被投影至一行。來自一個3D 圖像序列的所有圖像幀的所投影的行可以組成一對概要圖像。在圖5中繪出了圖像概要化處理的實(shí)施方式的圖形化說明。所示出的左眼圖像序列502包括N個幀,并且每個幀包括H行。每行包括W個像素。左眼圖像序列502可以被投影至具有N行的左眼圖像506,其中每行包括W個像素。左概要圖像506的第一行可從左眼圖像序列的第一幀投影產(chǎn)生,左概要圖像506的第二行可從左眼圖像序列的第二幀投影產(chǎn)生,以此類推。投影的行可以組成尺寸為WXN的左概要圖像506。類似地,右眼圖像序列504可以被投影至具有N行并且每行具有W個像素的右概要圖像508。左概要圖像506和右概要圖像508形成一概要圖像對。在某些實(shí)施方式中,投影是基于垂直采樣投影算法而執(zhí)行的,其一個實(shí)施方式在圖6中繪出。字幕元素的定位可以在字幕文件中預(yù)先定義或指定。字幕元素通常位于圖像幀的底部附近的中央,然而其他定位也是可行的。圖6示出了圖像序列的第k個左圖像幀 602的字幕區(qū)域604中包含的字幕元素??梢栽谧帜粎^(qū)域604中心處或者附近選擇采樣線 606。第k個左圖像幀602的每列的像素可以朝向采樣線606被投影至單個像素,從而形成左概要圖像610。例如,圖像列m 608的所有像素或者基本上所有像素可以投影到采樣線上的A點(diǎn),而投影執(zhí)行方法是使得采樣線之上的像素向下投影而采樣線之下的像素向上投影。投影的結(jié)果可以在位置(m,k)處產(chǎn)生左概要圖像610中的像素B。投影像素B的值可以通過選擇某類投影函數(shù)來確定。投影函數(shù)的選擇可以將原始 3D圖像序列壓縮至一對概要圖像,同時保留深度信息和深度變化信息。在一個實(shí)施方式中, 投影函數(shù)是基于數(shù)學(xué)平均。在另一實(shí)施方式中,投影函數(shù)是一種加權(quán)平均,其中靠近采樣線的像素被賦予較高的權(quán)重。投影過程可以針對圖像幀k的每個列重復(fù),并且結(jié)果是左概要像素610中的第k行612??梢詫τ已蹐D像幀應(yīng)用類似的投影方法,以產(chǎn)生右概要圖像(圖 6中未示出)。垂直采樣投影算法的另一實(shí)施方式使用多條采樣線,其可以是多個垂直采樣投影算法。在圖7中繪出了此類算法的一個示例,其中第k個左圖像幀702被劃分為3個區(qū)域 (i)主要區(qū)域716,包括字幕區(qū)域704,以及兩個輔助區(qū)域(ii)頂部區(qū)域720和(iii)中心區(qū)域718。每個區(qū)域可以選擇一條采樣線。針對主要區(qū)域716所選擇的采樣線可以是主采樣線706,其可被選擇為靠近或者位于字幕區(qū)域704的中心。通過投影函數(shù)中的適當(dāng)權(quán)重,主采樣線在投影算法中被賦予主要任務(wù)。在一個實(shí)施方式中,比較靠近主采樣線的像素被賦予的權(quán)重高于比較靠近輔助采樣線的像素的權(quán)重。針對輔助區(qū)域而選擇的采樣線可以是輔助采樣線,它可以位于但不局限于該區(qū)域的中心。在圖7中示出的示例中,輔助采樣線710 代表圖像幀的頂部輔助區(qū)域720處的深度變化,并且輔助采樣線708代表圖像幀的中心輔助區(qū)域718處的深度變化。垂直采樣投影可以在每個區(qū)域內(nèi)執(zhí)行,使得像素被垂直投影至本區(qū)域的采樣線。在圖7中示出的示例中,主要區(qū)域716中的第m列722的像素被投影至主采樣線 706上的點(diǎn)A ;區(qū)域718內(nèi)同一列的像素被投影至輔助采樣線708上的點(diǎn)B ;并且頂部區(qū)域 720內(nèi)的列m的其余像素被投影至輔助采樣線710上的點(diǎn)C。在某些實(shí)施方式中,所劃分區(qū)域的數(shù)目和采樣線的位置根據(jù)多個因素而被確定,這些因素包括字幕區(qū)域的位置、3D圖像的縱橫比以及劇院的幾何特征。例如,比較于具有投影橫縱比2. 40 IWkope圖像格式, 對于IMAX 15 perf/70mm圖像格式(具有1. 43 1的投影橫縱比)可以使用更多的采樣位置。投影值可以按照加權(quán)平均的格式被進(jìn)一步組合,以產(chǎn)生左概要圖像712的行k 714 的點(diǎn)D處的值。類似的投影方法可以應(yīng)用于右眼圖像幀,以產(chǎn)生右概要圖像(在圖7中未示出)。在另一實(shí)施方式中,左圖像幀或者右圖像幀被劃分為多個區(qū)域,并且每個區(qū)域被投影至不同的概要圖像對,如圖8中針對左眼圖像序列所繪。垂直采樣投影算法可以應(yīng)用于左圖像序列的每個區(qū)域,并且可以從每個區(qū)域產(chǎn)生概要圖像對,得到形成概要圖像堆棧 812的多個概要圖像對。用于每個區(qū)域的采樣線的位置可以根據(jù)前面討論過的原理而選擇。 包括字幕的區(qū)域可被指派為主要區(qū)域804,并且可以產(chǎn)生主概要圖像對816(圖8中未示出右概要圖像)。其他區(qū)域均可以被認(rèn)為是輔助區(qū)域806、808,并且每個輔助區(qū)域產(chǎn)生輔助概要圖像對818、820 (在圖8中未示出右概要圖像)。由此,主概要圖像對816可以描述字幕附近的深度變化,而其他輔助概要圖像對818、820可以描述指定區(qū)域中的深度變化。類似的投影方法可以應(yīng)用于右眼圖像幀以產(chǎn)生多個右概要圖像(在圖8中未示出)。在另一實(shí)施方式中,概要圖像對是從圖像幀的所選擇的某一區(qū)域投影產(chǎn)生,從而不一定具有圖像幀的全部寬度。在圖9中繪出了一個示例。可以針對左圖像序列而標(biāo)識第 k個圖像幀的兩個所選擇區(qū)域,一個區(qū)域可以是包括字幕區(qū)域904的主要區(qū)域906,而第二個區(qū)域可以是靠近圖像頂部的輔助區(qū)域908。字幕區(qū)域904被繪出為具有寬度W1 < W,而輔助區(qū)域908具有寬度W2 < W。主概要圖像對910(圖9中未示出右概要圖像)可以從主要區(qū)域906被投影,而輔助概要圖像對912 (圖9中未示出右概要圖像)可以從區(qū)域908被投影。在某些實(shí)施方式中,在投影中不使用所選擇區(qū)域以外的像素。得到的主概要圖像910 可以是W1XN的圖像,而輔助概要圖像912是W2XN的圖像。此方法可以允許深度分析集中于圖像的關(guān)鍵部分。概要深度分析垂直采樣投影算法的特定實(shí)施方式可以允許對3D圖像片段中的深度變化的信息進(jìn)行計算,在某些實(shí)施方式中,是相對快速的計算。圖10示出了根據(jù)一個包括1450幀的3D 圖像片段生成的概要圖像對(1002,1004)的示例。所得到的概要圖像對可以描述該3D圖像序列中的物體運(yùn)動信息。該序列中主要物體的運(yùn)動可用來進(jìn)行下一步的分析。在圖10中繪出了概要圖像對的示例(1002,1004),是根據(jù)包括1450幀的3D圖像片段計算出來的。概要圖像對(1002,1004)描述片段中兩個主要物體1006和1008的運(yùn)動,彼此相對進(jìn)入和退出圖像的前景。這種物體運(yùn)動所引起的深度變化可以由概要深度圖1010來記錄,該概要深度圖1010可以通過估計左概要圖像1002與右概要圖像1004之間的像素像差而產(chǎn)生。在某些實(shí)施方式中,概要深度圖的計算可以由概要深度計算模塊320執(zhí)行。概要深度計算模塊320的特定實(shí)施方式允許快速計算3D圖像片段中的深度信息。 計算3D圖像序列的像素像差的傳統(tǒng)方法可能是非常耗時并且不可靠的。通過將一個3D圖像片段簡化為一對概要圖像,在某些情況下深度計算速度可以明顯加快,而且得到的深度 (或者像差)更為可靠并且在時間上一致。在一個實(shí)施方式中,像差可以根據(jù)概要圖像對(1002,1004)被直接計算。在另一實(shí)施方式中,像差使用從粗到精(coarse-to-fine)貝葉斯(Bayesian)方法來計算,其中左概要圖像和右概要圖像首先被轉(zhuǎn)換為具有多個細(xì)節(jié)層級的金字塔表示。計算從最粗級別 (頂部級別)開始,并且可以通過使包括數(shù)據(jù)開銷項(xiàng)和鏈接開銷項(xiàng)的專用能量函數(shù)最小化來估計每個像素在概要圖像對之間的像差。得到的像差值可以通過聚類方法而進(jìn)一步分類為有限數(shù)目的群組,每個群組表示具有代表性深度(或者像差)的候選物體。來自頂部級別的結(jié)果可被用作計算較低級別的初始估計,而候選物體的深度可以利用該級別處估計的更多細(xì)節(jié)被細(xì)化。此過程可以重復(fù),直到利用根據(jù)最低級別(精細(xì)級別)所估計的全部細(xì)節(jié)對候選物體的深度進(jìn)行了細(xì)化為止。所得到的深度(或者像差)的集合形成可以是概要深度圖的圖像。圖10中示出了概要深度圖1010的示例。概要深度圖1010可以具有與概要圖像(1002,1004)相同的像素分辨率,但是它包括深度(或者像差)值而不是顏色或者亮度強(qiáng)度。如果生成了多個概要圖像對,則可以根據(jù)每個概要圖像對產(chǎn)生獨(dú)立的概要深度圖。代表深度確定代表深度確定模塊322的特定實(shí)施方式可以根據(jù)由概要深度計算模塊320生成的概要深度圖來確定字幕元素的代表深度。如前所述,字幕元素的代表深度是一個代表性深度值,其可用于確定字幕元素的深度設(shè)置。在字幕元素的持續(xù)時間內(nèi),代表深度可以具有常量值也可以具有變量值。圖11中繪出了代表深度確定模塊322的功能框圖的實(shí)施方式。在某些實(shí)施方式中,計算代表深度是根據(jù)使用距離時間分布圖對3D圖像片段的像素像差(或者像素深度) 的時間分布或統(tǒng)計分布的魯棒分析。此類計算可以提供精確并且可靠的代表深度表示。距離時間分布圖是像素深度(或者像差)在一個3D圖像片段內(nèi)的時間概率分布的圖形說明。 在圖11中,距離時間分布圖的計算可以通過計算模塊1108來執(zhí)行。初始代表深度的計算可以通過計算模塊1112根據(jù)距離時間分布圖來執(zhí)行。在某些實(shí)施方式中,初始代表深度值在相鄰字幕元素之間可能具有突然跳變,這可以產(chǎn)生字幕深度設(shè)置的突然變化并且導(dǎo)致觀看的不適。時間一致性模塊1114可以用來平滑掉相鄰字幕元素之間的代表深度值的躍遷。得到的代表深度值可以由計算模塊1116 編碼成特定的數(shù)據(jù)格式。代表深度數(shù)據(jù)格式1118的一個示例是包含時序和代表深度信息二者的文本格式文件。在某些實(shí)施方式中,字幕的代表深度可以使用魯棒統(tǒng)計分析方法來計算。3D圖像深度的統(tǒng)計分布可以按照像差分布的形式從概要深度圖被收集,如圖12中所繪。像差分布 Bk(i) 1206可以表示dmin與dmax(表示圖像序列的最小像差值和最大像差值)之間的范圍中的第k個圖像幀的像差的概率分布。此類像差分布的值可以根據(jù)概要深度圖的第k行1204 計算。由此,像差分布可以包括dmax-dmin+l個倉,并且第i個倉的值Bk(i) (dmin彡i < dmax) 可以記錄第k個圖像幀的像素具有i的像差值的概率。在圖12中,示出了這種像差分布 1206的一個示例,它是從概要深度圖1202的第k行1204收集的。距離時間分布圖是由一個3D圖像片段中的所有圖像幀的像差分布來組成。圖13 中繪出了距離時間分布圖的一個示例。在示例距離時間分布圖1302中,水平軸表示幀數(shù) (與時間相關(guān)聯(lián))而垂直軸表示像差的值(與深度相關(guān)聯(lián))。對于一個N幀的圖像片段,所得到的距離時間分布圖可以是具有cLx-dmin+l行和N列的圖形化表示。距離時間分布圖的第k列記錄第k幀的像差分布,并且第k列上某一點(diǎn)的強(qiáng)度表示第k個圖像幀中的像素具有某個深度(或者像差)值的概率。圖13的距離時間分布圖的示例根據(jù)圖10的概要深度圖1010示例而計算。距離時間分布圖可以描述深度(以像差的形式)在一個圖像序列的時序中的統(tǒng)計分布的演變。這可被用來將場景中的主要物體的深度變化從場景的其他相對較小的細(xì)節(jié)分離開。距離時間分布圖的強(qiáng)度可以表示圖像像素在特定深度范圍處的分布,并且較大的強(qiáng)度值表示像素在某特定深度中的密集度。由此,一個比較顯著的具有較大尺寸的物體可以通過具有相對較亮強(qiáng)度值的深度運(yùn)動軌跡來辨認(rèn)出來。在圖13中,距離時間分布圖1302示出了三個主要物體的深度運(yùn)動軌跡。第一主要物體1304在圖像片段的開始處剛好處在前景中,但是當(dāng)?shù)诙饕矬w1306從后景向前景移動,它逐漸被第二主要物體1306所遮擋。 這兩個物體的深度運(yùn)動軌跡交叉多次,表示它們交替出現(xiàn)在場景的前景中。同時,第三主要物體1308在整個圖像序列中保持在其他兩個主要物體之后,很可能屬于該場景的背景。在這些主要圖像之間模糊的點(diǎn)云可以表示較小的物體或者其他微小細(xì)節(jié)1312,對于代表深度確定而言,其深度不像主要物體那樣重要。使用統(tǒng)計方法可以從距離時間分布圖提取明顯獨(dú)特的軌跡,并以此來衡量場景中的顯著物體的深度演變。某個軌跡中的中斷可以預(yù)示物體之間的強(qiáng)遮擋,諸如圖13中的遮擋1310。3D字幕代表深度的計算可以使用定義字幕元素的時間窗口的時序信息。字幕元素可以在某種字幕文件中指定,例如是特定格式的文本格式的文件。在圖14A中示出了 XML 文本格式文件的傳統(tǒng)字幕文件的示例。文件中可以定義每個字幕元素的時序信息,包括開始時間("Timeln")和結(jié)束時間(“Timeout”)。圖14A中的字幕文件示例還包括字幕屬性,諸如文本屏幕定位信息,包括水平對準(zhǔn)(“HAlign”)、垂直對準(zhǔn)(“VAlign”)、水平位置 ("HPosition")以及垂直位置(“VPosition”)。屏幕定位可以通過像素數(shù)目或者屏幕高度的百分比來定義。字幕系統(tǒng)可以使用字幕文件中定義的信息來產(chǎn)生疊加到影片圖像上的字幕圖像。由圖3所示的時間窗口選擇模塊316可以使用字幕文件中的時序信息來選擇對應(yīng)于某個字幕元素的時間窗口。在某些實(shí)施方式中,當(dāng)多個連貫的字幕元素連接得很近時,它們可以共享同一個代表深度以便在最大程度上減少深度的突然跳變。在這種情況下,一個時間窗口可以包括多個字幕元素。在圖15中繪出的示例中,第一字幕元素1502開始于圖像序列的時間ts(11并且結(jié)束于時間te(11。開始時間ts(11對應(yīng)于幀0002,而結(jié)束時間te(11對應(yīng)于幀⑷沈。第一字幕元素1502的代表深度可以在幀0002-0026的范圍內(nèi)被確定,因此時間窗口 1512從幀0002開始共有25幀的長度。在圖15中的另一示例中,字幕元素1504開始于幀0033并且結(jié)束于幀0081。下一字幕元素1506緊跟字幕元素1504,從緊跟在字幕元素1504的結(jié)束幀0081之后的幀0082開始。字幕元素1504和1506可以共享同一代表深度,從而使兩者被包括在開始于幀0033、結(jié)束于幀0152并具有120幀長度的同一時間窗口 1514中。每個時間窗口可以包括來自左眼圖像1508和右眼圖像1510 二者的圖像幀。在某些實(shí)施方式中,時間窗口的長度可以被選擇為超過字幕元素的持續(xù)時間。一旦選擇了時間窗口,便可以從3D圖像序列劃分出3D圖像片段。代表深度可以根據(jù)針對每個時間窗口的距離時間分布圖來計算。代表深度可以是時間窗口內(nèi)的一個時變函數(shù),它也可以具有常量值。在圖16中,對時間窗口 1602來說可以指定一個常量代表深度, 而對另一時間窗口 1604則可指定一個隨時間變化的代表深度。在圖16的示例中,用于時間窗口 1602的代表深度是這樣來確定將屬于時間窗口 1602的距離時間分布圖1610中的所有列的數(shù)據(jù)加以平均得到一個平均像差分布1612。該像差分布1612可以顯示兩個主導(dǎo)性的深度聚類,一個集中于相當(dāng)于30像素像差的深度周圍,而第二個集中于相當(dāng)于約50像素的像差的深度。這些聚類可以預(yù)示場景中主導(dǎo)性物體的存在。聚類算法(諸如均值偏移濾波法)可以應(yīng)用于1612的像差分布,以檢測主導(dǎo)性模式的存在。在具有兩個主導(dǎo)性模式的1614的圖中繪出了結(jié)果,一個具有32像素的像差,而第二個具有49像素的像差。因?yàn)榫哂?9個像素的模式是最具有影響力的主導(dǎo)性模式,可以因此來確定該常量代表深度。時變代表深度(諸如1608的示例)可以通過遵循時間窗口內(nèi)的主導(dǎo)性模式的深度變化而確定。所公開的代表深度計算方法也可以有其他變化的方法。代表深度的計算還可以受到其他因素影響,包括影片呈現(xiàn)中3D字幕的定位。3D字幕可以疊加在圖像的底部,然而也可以置于圖像的其他部分。另外,字幕還可以置于圖像幀之外,諸如置于圖像之下。在計算代表深度之后,可以調(diào)整字幕的位置?;诰嚯x時間分布圖計算時變代表深度可以根據(jù)上文描述的類似方法。圖像解碼代表深度的計算需要接觸圖像內(nèi)容的某種數(shù)字形式。對于用膠片拷貝發(fā)行的影片,代表深度的計算可以在膠片發(fā)行前的后期制作階段執(zhí)行。3D字幕可以按照適當(dāng)?shù)南癫钇票弧盁频健弊笱勰z片拷貝和右眼膠片拷貝。3D字幕也可以通過字幕投影系統(tǒng)而被投影到屏幕上,該字幕投影系統(tǒng)產(chǎn)生具有適當(dāng)像差的字幕左眼圖像和字幕右眼圖像。對于以數(shù)字格式發(fā)行的影片,在投影到屏幕之前,可以通過數(shù)字影院服務(wù)器或者3D字幕設(shè)備來將字幕疊加到圖像上。代表深度的計算可以在后期制作階段進(jìn)行,然而也可以在影院現(xiàn)場進(jìn)行甚至在影片放映時實(shí)時地執(zhí)行。數(shù)字形式的影片通常是以數(shù)字影院包(DCP)的形式發(fā)行至影院的,其中可包括呈現(xiàn)一部影片所需的全部元素,包括數(shù)字圖像文件和字幕文件。DCP 格式中的圖像文件通常是經(jīng)壓縮的并且是加密的。電子密鑰可用于解密壓縮的圖像文件, 繼而在投影之前將其解壓縮。解密和解壓縮可以通過媒體模塊設(shè)備實(shí)時地執(zhí)行,該設(shè)備可以是數(shù)字影院服務(wù)器內(nèi)的一個組件、或者是投影系統(tǒng)或者影院控制系統(tǒng)中的一個組件。根據(jù)某些實(shí)施方式的解密和解壓的函數(shù)可以由圖3中的圖像解碼模塊314執(zhí)行。應(yīng)用于DCP的壓縮方案可以是JPEG2000或者J2K(IS0/IEC 1M44-1),其可以在小波變換域中執(zhí)行。EK是幀內(nèi)壓縮方法,其中每個圖像幀的像素值可以表示為多級小波子帶的系數(shù)。子帶可以是一組小波系數(shù),其表示與圖像的特定頻率范圍和空間區(qū)域相關(guān)聯(lián)的圖像幀的方面。每個子帶的小波系數(shù)可被進(jìn)一步組織為包,并且可以通過使用熵編碼來編碼壓縮。每個包可以是表示特定帖片(tile)的小波系數(shù)的連續(xù)片段,其將以出現(xiàn)在代碼流中的特定順序被傳輸。此類順序的一個示例是由DCI規(guī)定的分量分區(qū)分辨率層(CPRL)進(jìn)階順序。在CPRL進(jìn)階順序中,每個包表示具有特定的分量、分區(qū)、分辨率和層的區(qū)片,如圖17A 和圖17B中所繪。對于使用5級小波解壓的2048X 1080像素的全分辨率的圖像幀而言,所得到的子帶可以包括大小為64X34的頂級(Level 0)子帶1702,大小為U8X68的級別1 子帶1704,大小為256X 135的級別2子帶1706,大小為512X270的級別3子帶1708,大小為10MXM0的級別4子帶1710,以及大小為2048X 1080的級別5子帶1712。在圖17A 中繪出了這些子帶。圖17A還示出,每個級別的子帶可以被劃分為至少一個分區(qū)。例如,級別4子帶1710被劃分為12個分區(qū)。JI規(guī)定每個分區(qū)被編碼為單個不可分單元。由于圖像幀具有三個顏色通道,所得到的J2K比特流包括177個包。包是使得JI壓縮獲得可伸縮性的關(guān)鍵。圖像幀的一個縮減版本可以從相對較少的表示頂級子帶的包來解碼出來。例如,僅需要7個包即可全部覆蓋級別3處的圖像幀 1726的512X270的縮減版本的每個顏色通道。一種選擇性DCP解碼方法利用JI比特流的伸縮性來至少部分地解碼出圖像的縮減版本。只要從由3D DCP比特流中的較少數(shù)量的包代表的部分解碼的圖像幀就可以提取足夠的深度信息。由此,使用選擇性解碼可以降低代表深度的計算量。選擇性解碼的功能可以通過圖3中的圖像解碼模塊314實(shí)現(xiàn)。
在圖17B中進(jìn)一步描述了選擇性解碼的方法的一個實(shí)施方式。繪出了表示頂部4 個級別(級別0-3)的小波子帶的J2K比特流包。頂部3個級別的子帶中的每一個可以具有用于每個顏色通道的單個包。由此,對于每個單獨(dú)顏色通道,可以從接收第一個包1714 解碼64X;34圖像1720??梢酝ㄟ^添加下一個包1716而解碼U8X68圖像1722,并且可以通過接收一個更多的包1718而解碼較大的256 X 135圖像17M。通過僅解碼前三個包(例如,在圖像幀的DCP比特流中的總量177個包中),可以恢復(fù)256X 135分辨率的縮減的圖像,盡管僅有一個顏色通道。此類縮減的圖像對于估計代表深度而言是足夠的。為簡單起見,在圖17B中繪出的示例示出了用于單一顏色通道的處理,然而如果需要,則相同的處理方法可以擴(kuò)展至其他顏色通道。通過在級別3處以512X270像素分辨率來解碼圖像,可以計算更精確的代表深度,其可以使用附加的四個級別3包,諸如包3-6(圖17B中所示的1728)?;谟蒁CI規(guī)定的CPRL進(jìn)階順序,也在圖18中示出的包3、6、4、5 (1728)可以是按照碼流的順序的包3、10、 45、52。每個級別3分組可以表示特定的小波系數(shù)組,其對于深度信息具有不同程度的重要性。如圖18中所示,級別3可以提供3個附加子帶HL、LH和HH。HL子帶1808可以包括水平方向不連續(xù)信息(也即,垂直邊緣),并且對于記錄深度信息而言可能是重要的。LH子帶1810可以包括水平邊緣,而HH子帶1812可以記錄較高頻率細(xì)節(jié)。在某些實(shí)施方式中, 可以在沒有LH和HH子帶的情況下執(zhí)行立體匹配。例如,HL子帶1808中的小波系數(shù)可以用于計算代表深度,以進(jìn)一步改進(jìn)計算效率。在圖18中示出了將級別3子帶編碼為4個包的示例。包3 (1814)和包6 (1816)表示HL子帶1808的一部分,在用于解碼級別2圖像的3個包以外再加上使用這兩個包可以促進(jìn)級別3圖像解碼的簡化。在某些實(shí)施方式中,通過將相應(yīng)組的系數(shù)設(shè)置為零而忽略包 4 (1818)和包5 (1820)??梢允褂?個包來解碼級別3圖像包括包0-2 (1802、1804、1006)、 包3(1814)和包6(1816)。結(jié)果產(chǎn)生具有512X 135像素分辨率的縮減的圖像,這可以具是一半高度的整個級別3圖像。在某些實(shí)施方式中可以丟棄LH和HH子帶,以通過例如不計算級別3處的垂直小波逆變換來節(jié)省計算量和緩存量。JPEG2K包的解碼可以包括兩個過程層1解碼和層2解碼。層2解碼可用于解碼包頭部并且將比特流劃分為代碼塊。層1解碼可用于解碼包中的每個代碼塊。層1解碼可以比層2解碼花費(fèi)更多的計算量。通過不解碼LH和HH子帶,層1解碼可在HL子帶進(jìn)行, 以相對于7個包完整解碼而言將計算量降低大約2/3。作為結(jié)果,選擇性DCP解碼的特定實(shí)施方式可以按照如下方式減少計算量使用亮度通道、選擇足夠的編碼級別、將所選擇包解碼成一個縮減版本的圖像、以及基于該縮減圖像來計算代表深度。對于包的選擇還依賴于字幕在屏幕上的位置。如圖14A中所示,在字幕文本文件中,字幕元素的屏幕對準(zhǔn)位置可以是全局固定的。一個常見的屏幕對準(zhǔn)位置是在屏幕底部。 然而,對于3D字幕而言,使用固定位置在某些情況下可能是有問題的。例如,對于在屏幕的底部附近具有距離非常近的深度的圖像場景而言,將字幕放置于屏幕底部可能會對觀眾造成不適。在此情況下,可以將字幕定位在其他的屏幕位置,以保持觀看的舒適性。如以上所討論,代表深度的計算可以依賴于字幕的屏幕定位。例如,在由圖像概要化模塊使用的多垂直采樣投影算法中(如圖7中所繪),主要采樣線706的位置可以由字幕屏幕定位來確定。 如果字幕屏幕定位改變,則字幕區(qū)域704可被重新分配,并且主要采樣線也可被重新計算。用于計算字幕元素的代表深度的所得左概要圖像712也可以是不同的。字幕深度和垂直屏幕定位可被記錄在3D字幕文件中,諸如圖14B中所示的采樣文件。字幕元素的深度可以通過屏幕視差偏移(“PShift”)來描述,其水平偏移量可以在左眼字幕圖像和右眼字幕圖像之間平均分配。視差偏移可以由像素數(shù)目以絕對方式來定義, 或者由屏幕寬度的百分比以相對方式來定義。另外,用于左眼和右眼的視差偏移量也可以不是平均分配的。在這種情況下,用于左概要圖像和右概要圖像的水平視差偏移的量可以在3D字幕文件中分別指定。圖14B中的采樣文本文件還可以允許字幕元素的其他屬性根據(jù)圖像內(nèi)容而自適應(yīng)地改變,以便為內(nèi)容制作者提供更多的創(chuàng)造性選擇,并且最終增強(qiáng)3D 影片的視覺體驗(yàn)。其他屬性的示例包括文本字體樣式、文本字體大小以及字幕文本的顏色。在另一實(shí)施方式中,字幕的文本字體大小根據(jù)字幕元素的深度設(shè)置而自適應(yīng)地改變。自適應(yīng)改變字體大小的一個目的可以包括保持由觀眾所感知到的一致的字幕大小。立體3D圖像中,所感知到的物體大小受到物體深度位置的影響。例如,一個3D物體在向觀眾靠近時會看起來逐漸縮小,即使其實(shí)際大小并未改變。這可以稱為微縮化,這種現(xiàn)象是受支配立體視覺的尺寸-距離(size-distance)法則決定的的。當(dāng)該物體離開觀眾時會看起來逐漸變大,此時就發(fā)生逆向微縮化現(xiàn)象。微縮化現(xiàn)象也可以適用于感知到的3D字幕元素的大小。由此,當(dāng)字幕文本位于比較靠近觀眾時,它看起來比位于遠(yuǎn)離觀眾時要小,這種情況也許是可接受的也有可能是不能接受的。在某些實(shí)施方式中,字幕的字體大小被自適應(yīng)地縮放,以預(yù)補(bǔ)償小型化的作用,從而使感知到的字幕的大小在整個影片中始終是一致的。通過應(yīng)用尺寸-距離法則,用于預(yù)補(bǔ)償?shù)拇笮】s放因子可以根據(jù)估計的微縮化水平來計算。在另一實(shí)施方式中,字幕文本字體的樣式和/或顏色根據(jù)圖像內(nèi)容而自適應(yīng)地改變。自適應(yīng)地改變字體樣式和/或字體顏色的一個目的是為內(nèi)容制作者提供更多創(chuàng)造性選擇,并且最終增強(qiáng)3D影片的視覺體驗(yàn)。改變字幕文本顏色的另一目的可以包括,增強(qiáng)字幕的可讀性以避免字幕與顏色接近的背景圖像相混淆。改變字幕字體樣式和顏色的又一目的可以是用于表達(dá)言語或者解說中的特定的情緒。3D字幕的內(nèi)容自適應(yīng)屬性可被記錄在3D字幕文件(諸如圖14B中所示的示例) 中。示例文件示出了用于記錄字體大小信息(“Size”)、字體樣式信息(“RmtID”和 “Weight”)以及字體顏色信息(“Color”)而創(chuàng)建的新信息字段。這些信息字段可以針對每個字幕元素而不同地設(shè)置。示例性顯示實(shí)現(xiàn)通過使用針對字幕元素而計算的一個或者多個渲染屬性,有各種系統(tǒng)和方法可用于與3D圖像一起顯示內(nèi)容自適應(yīng)的3D字幕??梢杂糜诖祟愶@示的系統(tǒng)的示例包括離線顯示系統(tǒng)和實(shí)時顯示系統(tǒng)。在離線顯示系統(tǒng)中,字幕渲染屬性在第一時間點(diǎn)計算,并且存儲在諸如字幕文件的數(shù)據(jù)文件中或者存儲在元數(shù)據(jù)中。在之后的第二時間點(diǎn),保存的渲染屬性由影院服務(wù)器或者與顯示設(shè)備通信的其他顯示服務(wù)器所使用,以產(chǎn)生與3D圖像序列一起顯示的字幕元素。顯示設(shè)備的一個示例是投影機(jī)。用于離線顯示系統(tǒng)的內(nèi)容自適應(yīng)字幕屬性的計算過程可以是3D影片的后期制作過程的一部分。得到的字幕深度信息和其他屬性可以按照數(shù)字影院包(DCP)的格式被遞送至3D投影系統(tǒng)。DCP格式是向數(shù)字影院分發(fā)的影片的數(shù)字表示形式。DCP格式包括軌道文件,其表示圖像數(shù)據(jù)、音頻數(shù)據(jù)、字幕數(shù)據(jù)、元數(shù)據(jù)或者其他數(shù)據(jù)。為了分發(fā)安全性,這些軌道文件會被加密。在特定標(biāo)準(zhǔn)文檔中描述了用于DCP文件封裝的方法和技術(shù)規(guī)范,該特定標(biāo)準(zhǔn)文檔包括由數(shù)字影院倡導(dǎo)者LLC頒布的數(shù)字影院系統(tǒng)規(guī)范(1. 2版本),以及當(dāng)前由 SMPTE(電影電視工程師協(xié)會)開發(fā)的多個標(biāo)準(zhǔn)文檔。在實(shí)時顯示系統(tǒng)中,可以實(shí)時地或者至少近似實(shí)時地確定渲染屬性,字幕根據(jù)這些渲染屬性與3D圖像序列同步顯示。例如,該系統(tǒng)可以接收已編碼或者未編碼的3D圖像序列以及字幕文件。該系統(tǒng)可以確定渲染屬性,并且根據(jù)渲染屬性安排3D圖像序列和字幕以便由例如投影機(jī)進(jìn)行顯示。圖19繪出了根據(jù)本發(fā)明一個實(shí)施方式的離線顯示系統(tǒng)的功能框圖。該系統(tǒng)可以用于計算3D字幕渲染屬性,并且可以至少部分地部署為離線后期制作過程的中一個或多個軟件模塊。例如,在圖19中繪出的某些模塊可以實(shí)現(xiàn)為存儲在計算機(jī)可讀媒體上的可執(zhí)行代碼,或者實(shí)現(xiàn)為硬件配置。上述系統(tǒng)可以包括服務(wù)器設(shè)備1900,其可以接收3D圖像序列1906和3D字幕文件 /元數(shù)據(jù)1908。3D字幕文件/元數(shù)據(jù)可以包括渲染屬性和其他信息,諸如時序信息、字幕文本、開始和結(jié)束時序、垂直位置、水平位置、深度或者像素偏移、文本字體和語言讀取方向 (從左向右、從右向左,等等)。3D字幕文件/元數(shù)據(jù)1908可以在向服務(wù)器設(shè)備1900提供之前存儲在存儲媒體上。3D圖像序列1906可以是包括將被分發(fā)至影院的軌道文件的DCP 包。在某些實(shí)施方式中,3D字幕文件/元數(shù)據(jù)1908與3D圖像序列1906 —起被分發(fā)至服務(wù)器設(shè)備1900。在其他實(shí)施方式中,3D字幕文件/元數(shù)據(jù)1908獨(dú)立于3D圖像序列1906而被分發(fā)至服務(wù)器設(shè)備1900。上述服務(wù)器設(shè)備1900可以是基于處理器的設(shè)備,其可以執(zhí)行存儲于計算機(jī)可讀媒體上的代碼。服務(wù)器設(shè)備1900可以包括可以有形地體現(xiàn)可執(zhí)行代碼的處理器和計算機(jī)可讀媒體。服務(wù)器設(shè)備1900可以是影院服務(wù)器,其能夠使用渲染屬性在3D圖像序列上疊加字幕。在某些實(shí)施方式中,服務(wù)器設(shè)備1900通過網(wǎng)絡(luò)(諸如,因特網(wǎng)或者內(nèi)聯(lián)網(wǎng))接收 3D圖像序列1906和3D字幕文件/元數(shù)據(jù)1908。在其他實(shí)施方式中,3D圖像序列1906和 3D字幕文件/元數(shù)據(jù)1908存儲在便攜式存儲設(shè)備上,諸如光學(xué)存儲設(shè)備或者半導(dǎo)體存儲設(shè)備,該存儲設(shè)備可以由服務(wù)器設(shè)備1900實(shí)際地接收。服務(wù)器設(shè)備1900可以包括字幕控制器1910,其使用來自3D字幕文件/元數(shù)據(jù) 1908的信息(諸如,渲染屬性和字幕)以控制字幕渲染模塊1912。字幕渲染模塊1912能夠使用渲染屬性來渲染字幕以及向3D圖像序列上疊加字幕。例如,字幕控制器1910可以根據(jù)3D字幕文件/元數(shù)據(jù)來生成控制命令,并且將該控制命令提供給字幕渲染模塊1912。 控制命令可以包括用于在針對每個字幕元素的正確時間和正確的屏幕定位產(chǎn)生字幕文本圖像的命令。這些命令可以由來自圖像解碼器1914的當(dāng)前顯示運(yùn)行時間來觸發(fā)。遵循來自字幕控制器1910的每個命令,字幕渲染模塊1912可以利用正確的字體產(chǎn)生字幕文本圖像,并且在正確位置和與當(dāng)前左眼圖像和右眼圖像同步的偏離將字幕圖像與左眼圖像和右眼圖像相結(jié)合。3D圖像序列1906可以是已編碼格式,并且可以由圖像解碼器1914接收以在由字幕渲染模塊1912接收之前解密3D圖像序列1906。在其他實(shí)施方式中,3D圖像序列1906 是未編碼格式,該圖像序列1906被提供至字幕渲染模塊1912而無需被圖像解碼器1914解碼。例如,可以在由服務(wù)器設(shè)備1900接收之前解碼3D圖像序列1906。字幕渲染模塊1912可以根據(jù)渲染屬性在3D圖像序列上疊加字幕元素。上述服務(wù)器設(shè)備1900會將3D圖像序列以及根據(jù)渲染屬性被疊加在3D圖像序列上的字幕提供給顯示設(shè)備1916。顯示設(shè)備1916能夠向觀眾顯示帶有3D字幕的3D圖像序列。顯示設(shè)備1916的示例包括影院投影機(jī)、液晶顯示設(shè)備、等離子顯示設(shè)備或者其他高清顯不設(shè)備。圖20繪出了一個在線處理系統(tǒng)的功能流程圖,該系統(tǒng)的一個例子是位于影院現(xiàn)場的實(shí)時顯示系統(tǒng)。在影院現(xiàn)場接收到3D圖像序列2002和字幕文件2006。3D圖像序列 2002可以與字幕文件2006 —起被接收,或者獨(dú)立于字幕文件2006被接收。字幕文件2006 可以包括字幕信息(諸如字幕文本)和時序信息。服務(wù)器設(shè)備2000可以位于影院現(xiàn)場。服務(wù)器設(shè)備2000可以是基于處理器的設(shè)備, 其可以執(zhí)行在計算機(jī)可讀媒體上存儲的代碼。其可以包括有形地體現(xiàn)可執(zhí)行代碼的處理器和計算機(jī)可讀媒體。服務(wù)器設(shè)備2000可以包括存儲在計算機(jī)可讀媒體上存儲的圖像解碼器2004。如果需要,圖像解碼器2004可以將3D圖像序列2002解碼為未加密和未壓縮的格式。在某些實(shí)施方式中,服務(wù)器設(shè)備2000不包括圖像解碼器2004,或者圖像解碼器2004 不對3D圖像序列2002進(jìn)行解碼。例如,3D圖像序列2002可以是未加密和未壓縮格式,或者圖像解碼模塊314可被包括在服務(wù)器設(shè)備2000中的計算設(shè)備302中。計算設(shè)備302可以接收3D圖像序列2002和字幕文件2006,并且實(shí)時地執(zhí)行例如針對圖3而描述的功能,以輸出渲染屬性2008。渲染屬性可以由字幕渲染模塊2010(其可以接收3D圖像序列2002或者未加密3D圖像序列)用來渲染字幕文本圖像,并且將字幕疊加到3D圖像序列2002上。 字幕渲染模塊2010的輸出可以被提供給顯示設(shè)備2012。顯示設(shè)備2012可以是投影機(jī),其可以能夠向觀看觀眾顯示疊加到3D圖像序列2002上的字幕。在某些實(shí)施方式中,計算設(shè)備302包括字幕控制器,其向字幕渲染模塊2010輸出控制命令,以使字幕渲染模塊2010正確地渲染以及向3D圖像序列上疊加字幕??刂泼羁梢园ɡ缰付▽⒁秩咀帜坏纳疃然蛘呦袼仄频拿?,其伴隨有與深度和字幕元素相關(guān)聯(lián)的時序信息。字幕控制器的實(shí)施方式的某些特定功能依賴于輸入和輸出設(shè)備的特征。例如,如果深度信息是離線方式計算的并且通過DCP被分發(fā),則對字幕控制器的輸入可以是已解碼的軌道文件,諸如具有預(yù)定義文本文件格式的3D字幕文件或者元數(shù)據(jù)。字幕控制器可以解譯文本文件,并且獲取深度信息以及其他字幕信息。在另一實(shí)施方式中,如果深度信息是通過獨(dú)立的通道遞送的,則輸入數(shù)據(jù)文件可以具有也可以不具有文本文件格式,并且字幕控制器可以按照不同方式解譯輸入深度信息。在另一實(shí)施方式中,如果字幕深度信息是根據(jù) DCP被實(shí)時計算的,則深度信息可以直接可用于字幕控制器,而其他字幕信息可以從常規(guī)字幕文件獲取。圖21示出了根據(jù)一個實(shí)施方式的可以由字幕控制器執(zhí)行的方法,其接收DCP軌道文件作為輸入,并且向字幕渲染模塊輸出控制內(nèi)容自適應(yīng)深度的指令。圖21中的第一步驟是接收來自DCP解碼器2102的DCP軌道文件。字幕控制器繼而可以在軌道文件中搜索第一字幕元素,并且獲取深度信息2106。深度信息的范圍可以從距離觀眾數(shù)英尺到無限遠(yuǎn),或者可以由等同的像素像差來描述。輸出設(shè)備、字幕渲染模塊可以具有有限的深度范圍和只允許固定數(shù)目的深度步長。例如,字幕渲染模塊可以能夠輸出從10英尺到100英尺范圍中的深度,并具有有限數(shù)目的允許深度步長。在這種情況下,字幕控制器可以將字幕深度值映射至存儲在控制器的存儲器設(shè)備中的最接近的所允許深度步長。這樣的過程在圖21中被描述為深度量化2108。字幕控制器還可以從軌道文件獲取時序信息,以便在正確的時序向輸出設(shè)備、字幕渲染模塊發(fā)出指令,從而使顯示的字幕文本可以與圖像和音頻軌道同步,并且當(dāng)字幕出現(xiàn)在屏幕2110上時也沒有跳躍。根據(jù)特定的實(shí)現(xiàn)方法,從字幕控制器發(fā)出指令到字幕渲染模塊執(zhí)行該指令可能需要一定量的時間。字幕渲染模塊可以能夠在特定的時間間隔內(nèi)執(zhí)行指令。為了維護(hù)字幕與音頻和圖像的同步,延遲和間隔可以確定指令的觸發(fā)時間,以避免同步錯誤。這樣的過程可以是時序量化2112。上述系統(tǒng)可以搜索與當(dāng)前字幕元素2114相關(guān)聯(lián)的其他信息。利用所確定的深度和時序以及其他相關(guān)聯(lián)信息,字幕控制器生成送往字幕渲染模塊2122的指令2116,以在正確的時間并且以正確的深度、字體和屏幕定位生成3D字幕圖像。字幕控制器針對在DCP軌道文件2118、2120中列出的每個字幕元素重復(fù)上述步驟。在某些實(shí)施方式中,圖21的字幕控制器的工作流可以進(jìn)一步擴(kuò)展,以控制其他內(nèi)容自適應(yīng)字幕屬性。字幕控制器繼而可以從軌道文件搜索并獲取每個相關(guān)字幕屬性,執(zhí)行必要功能以將這些字幕屬性值變成適當(dāng)?shù)闹噶?,該指令須與字幕渲染模塊的硬件和軟件的限制相兼容。出于示出、解釋和描述本發(fā)明的實(shí)施方式的目的提供了上述內(nèi)容。在不脫離本發(fā)明范圍和精神的情況下,針對這些實(shí)施方式的進(jìn)一步的修改和調(diào)整對本領(lǐng)域技術(shù)人員是顯而易見的。
權(quán)利要求
1.一種方法,包括接收三維(3D)圖像序列;接收用于所述3D圖像序列的字幕文件,所述字幕文件包括字幕元素和與所述字幕元素相關(guān)聯(lián)的時序信息;將所述字幕元素與所述3D圖像序列的片段相關(guān)聯(lián),其中將所述字幕元素與所述3D圖像序列的所述片段相關(guān)聯(lián)基于所述時序信息;由計算設(shè)備根據(jù)與所述字幕元素相關(guān)聯(lián)的所述片段計算概要深度圖,所述計算設(shè)備包括能夠使所述計算設(shè)備計算所述概要深度圖的處理器;由所述計算設(shè)備根據(jù)所述字幕元素的所述概要深度圖來計算代表深度; 使用所述代表深度確定所述字幕元素的渲染屬性;以及輸出所述渲染屬性。
2.根據(jù)權(quán)利要求1所述的方法,其中由所述計算設(shè)備根據(jù)與所述字幕元素相關(guān)聯(lián)的所述片段計算所述概要深度圖包括根據(jù)使用垂直采樣投影生成的概要圖像對來計算所述概要深度圖,其中所述概要圖像對包括根據(jù)左眼圖像序列生成的左眼概要圖像以及根據(jù)右眼圖像序列生成的右眼概要圖像。
3.根據(jù)權(quán)利要求2所述的方法,其中垂直采樣投影包括 在3D圖像序列中選擇采樣線;以及通過將圖像像素的垂直列的至少一個像素向所述采樣線上的點(diǎn)進(jìn)行投影來創(chuàng)建新像素,其中所述新像素包括由所選擇的投影函數(shù)確定的值。
4.根據(jù)權(quán)利要求2所述的方法,其中根據(jù)所述概要圖像對來計算所述概要深度圖包括估計水平像素像差。
5.根據(jù)權(quán)利要求1所述的方法,其中由所述計算設(shè)備基于所述字幕元素的所述概要深度圖來計算所述代表深度包括基于來自所述概要深度圖的像素像差的時間分布和統(tǒng)計分布來確定所述代表深度。
6.根據(jù)權(quán)利要求1所述的方法,其中所述代表深度在所述字幕元素的持續(xù)時間中是常量。
7.根據(jù)權(quán)利要求1所述的方法,其中所述代表深度在所述字幕元素的持續(xù)時間中隨時間變化。
8.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括基于所述3D圖像序列的內(nèi)容,改變所述字幕元素的下列兩種屬性中的至少一個屬性 文本字體大小或者文本字體顏色。
9.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括辨識相鄰字幕元素之間深度改變是否具有大于預(yù)設(shè)閾值;以及根據(jù)辨識結(jié)果修改深度值。
10.根據(jù)權(quán)利要求1所述的方法,其中所述渲染屬性包括以下一個或者多個 所述字幕元素的深度;所述字幕元素的顏色; 所述字幕元素的字體樣式;所述字幕元素的字體大小;以及所述字幕元素的屏幕定位。
11.根據(jù)權(quán)利要求10所述的方法,其中所述渲染屬性是所述字幕元素的顏色,其中所述顏色基于所述3D圖像序列的內(nèi)容而被修改,以使得所述字幕元素易區(qū)分于所述3D圖像序列的所述內(nèi)容。
12.根據(jù)權(quán)利要求1所述的方法,其中所述代表深度包括像差值其大于與所述字幕元素一起顯示的所述3D圖像序列的至少部分內(nèi)容的最大像差值。
13.根據(jù)權(quán)利要求1所述的方法,其中所述3D圖像序列是編碼的3D圖像序列。
14.根據(jù)權(quán)利要求13所述的方法,進(jìn)一步包括對所述編碼的3D圖像序列進(jìn)行解碼以計算所述代表深度。
15.根據(jù)權(quán)利要求13所述的方法,其中所述編碼的3D圖像序列是數(shù)字影院包(DCP)格式或者視頻格式之一。
16.根據(jù)權(quán)利要求15所述的方法,其中所述編碼的3D圖像序列是DCP格式化的3D圖像序列,其至少部分地使用基于JPEG的編碼信息中的一部分包被解碼,以計算所述代表深度。
17.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括 將所述渲染屬性存儲為3D字幕文件;以及獨(dú)立于所述3D圖像序列提供所述3D字幕文件。
18.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括將所述渲染屬性和所述3D圖像序列存儲在一個數(shù)據(jù)文件包中;以及提供所述數(shù)據(jù)文件包。
19.一種系統(tǒng),包括計算設(shè)備,包括能夠執(zhí)行存儲于計算機(jī)可讀媒體上的模塊的處理器,以及包括在其上存儲有所述模塊的所述計算機(jī)可讀媒體,所述模塊由所述處理器執(zhí)行以使得所述計算設(shè)備執(zhí)行動作,所述模塊包括時間窗口選擇模塊,配置用于基于時序信息將字幕元素與3D圖像序列的片段相關(guān)聯(lián), 所述字幕元素與所述時序信息相關(guān)聯(lián);概要深度計算模塊,配置用于根據(jù)與所述字幕元素相關(guān)聯(lián)的所述片段計算概要深度圖;代表深度確定模塊,配置用于基于所述字幕元素的所述概要深度圖來計算代表深度;以及渲染屬性計算模塊,配置用于使用所述代表深度圖來確定所述字幕元素的渲染屬性。
20.根據(jù)權(quán)利要求19所述的系統(tǒng),其中所述概要深度計算模塊配置用于通過使用垂直采樣投影根據(jù)概要圖像對計算所述概要深度圖來根據(jù)與所述字幕元素相關(guān)聯(lián)的所述片段計算所述概要深度圖,其中所述概要圖像對包括根據(jù)左眼圖像序列生成的左眼概要圖像以及根據(jù)右眼圖像序列生成的右眼概要圖像。
21.根據(jù)權(quán)利要求19所述的系統(tǒng),進(jìn)一步包括與所述計算設(shè)備通信的服務(wù)器設(shè)備,所述服務(wù)器配置用于使用所述字幕元素的所述渲染屬性與所述3D圖像序列一起渲染所述字幕元素;以及與所述服務(wù)器設(shè)備通信的顯示設(shè)備,所述顯示設(shè)備配置用于使用所述渲染屬性來顯示所述字幕元素,以及與所述3D圖像序列一起顯示所述字幕元素。
22.根據(jù)權(quán)利要求21所述的系統(tǒng),其中所述服務(wù)器設(shè)備包括所述計算設(shè)備。
23.根據(jù)權(quán)利要求21所述的系統(tǒng),其中所述服務(wù)器設(shè)備包括圖像解碼器,所述圖像解碼器配置用于在與所述3D圖像序列一起渲染所述字幕元素之前解碼所述3D圖像序列。
24.根據(jù)權(quán)利要求21所述的系統(tǒng),其中所述計算設(shè)備配置用于將所述渲染屬性存儲為 3D字幕文件或者存儲為元數(shù)據(jù),其中所述服務(wù)器設(shè)備包括字幕控制器,所述字幕控制器配置用于根據(jù)被存儲為所述3D 字幕文件或者元數(shù)據(jù)的所述渲染屬性來生成控制命令,所述控制命令由字幕渲染模塊用來將所述字幕元素疊加到所述3D圖像序列上。
25.根據(jù)權(quán)利要求19所述的系統(tǒng),其中所述3D圖像序列是編碼格式,其中所述模塊進(jìn)一步包括圖像解碼模塊,配置用于解碼所述編碼格式的所述3D圖像序列。
26.根據(jù)權(quán)利要求19所述的系統(tǒng),其中所述渲染屬性包括以下一個或者多個 所述字幕元素的深度;所述字幕元素的顏色; 所述字幕元素的字體樣式; 所述字幕元素的字體大??;以及所述字幕元素的屏幕定位。
27.一種計算機(jī)程序產(chǎn)品,包括存儲在計算機(jī)可讀媒體上的程序代碼,所述程序代碼由處理器執(zhí)行以使得計算機(jī)執(zhí)行動作,所述程序代碼包括用于基于字幕元素的時序信息將所述字幕元素與3D圖像序列的片段相關(guān)聯(lián)的程序代碼;用于基于與所述字幕元素相關(guān)聯(lián)的所述3D圖像序列的所述片段中的至少部分內(nèi)容的深度來計算所述字幕元素的渲染屬性的程序代碼;以及用于輸出所述渲染屬性的程序代碼。
28.根據(jù)權(quán)利要求27所述的計算機(jī)程序產(chǎn)品,其中用于基于所述3D圖像序列的所述片段中的至少部分內(nèi)容的所述深度來計算所述字幕元素的所述渲染屬性的程序代碼包括用于根據(jù)與所述字幕元素相關(guān)聯(lián)的所述片段計算概要深度圖的程序代碼; 用于基于所述字幕元素的所述概要深度圖來計算代表深度的程序代碼;以及用于使用所述代表深度來確定所述字幕元素的所述渲染屬性的程序代碼。
29.根據(jù)權(quán)利要求27所述的計算機(jī)程序產(chǎn)品,進(jìn)一步包括用于使用所述字幕元素的所述渲染屬性與所述3D圖像序列一起渲染所述字幕元素的程序代碼。
30.根據(jù)權(quán)利要求四所述的計算機(jī)程序產(chǎn)品,其中用于使用所述字幕元素的所述渲染屬性與所述3D圖像序列一起渲染所述字幕元素的程序代碼包括用于根據(jù)所述渲染屬性在表觀深度處將所述字幕元素疊加到所述3D圖像序列上的程序代碼。
31.根據(jù)權(quán)利要求27所述的計算機(jī)程序產(chǎn)品,進(jìn)一步包括用于基于所述字幕元素的所述渲染屬性來提供控制命令的程序代碼;以及用于響應(yīng)于接收所述控制命令而與所述3D圖像序列一起渲染所述字幕元素的程序代碼。
32.根據(jù)權(quán)利要求27所述的計算機(jī)程序產(chǎn)品,其中所述渲染屬性包括以下一個或者多個所述字幕元素的深度; 所述字幕元素的顏色; 所述字幕元素的字體樣式; 所述字幕元素的字體大??;以及所述字幕元素的屏幕定位。
33.一種用于在其上顯示圖像的顯示媒體,包括 具有可變表觀深度處的內(nèi)容的三維(3D)圖像序列;以及具有基于所述內(nèi)容的所述可變表觀深度而改變的表觀深度的字幕元素。
34.根據(jù)權(quán)利要求33所述的顯示媒體,其中所述字幕元素具有基于所述3D圖像序列的內(nèi)容的所述可變表觀深度而改變大小的字體大小。
35.根據(jù)權(quán)利要求33所述的顯示媒體,其中所述字幕元素具有基于所述3D圖像序列的內(nèi)容的顏色變化而改變顏色的字體顏色。
36.根據(jù)權(quán)利要求33所述的顯示媒體,其中所述字幕元素包括大于所述3D圖像序列的內(nèi)容的最大像差的像差。
37.根據(jù)權(quán)利要求36所述的顯示媒體,其中對于寬度為2048個像素的呈現(xiàn)格式,所述像差大于所述最大像差的像素數(shù)目在1個像素至20個像素的范圍內(nèi)。
38.根據(jù)權(quán)利要求36所述的顯示媒體,其中對于寬度為4096個像素的呈現(xiàn)格式,所述像差大于所述最大像差的像素數(shù)目在1個像素至40個像素的范圍內(nèi)。
全文摘要
本發(fā)明總體上涉及用于生成自適應(yīng)于圖像內(nèi)容的3D影片字幕的方法和系統(tǒng),以改進(jìn)觀眾體驗(yàn)。本發(fā)明的某些實(shí)施方式涉及在可變的、依賴于場景的深度處定位字幕。本發(fā)明的特定方面可以適用于一般的3D顯示應(yīng)用和/或3D影片的數(shù)字投影。
文檔編號G06T11/60GK102232294SQ200980148390
公開日2011年11月2日 申請日期2009年12月1日 優(yōu)先權(quán)日2008年12月1日
發(fā)明者S·周, T·貝里克, 周敬秦, 張寧 申請人:圖象公司