專利名稱:字幕的3d顯示處理的制作方法
技術領域:
本發(fā)明涉及三維(3D)圖像信號的創(chuàng)建和再現(xiàn)。在一個實施例中,本發(fā)明提供字幕 在3D顯示器上的自動最優(yōu)定位,這使得觀看者的疲勞減弱。
背景技術:
當前,出現(xiàn)了對3D電視的興趣的復蘇,這與顯示技術最近的突破有關,該突破允 許為多個觀看者良好地再現(xiàn)3D視頻。這些突破之一是自動立體3D透鏡狀顯示器,但是 還存在其他類型的顯示器,比如基于自動立體屏障的顯示器和基于背投技術的時分復用立 體顯示器。典型地,這些類型的顯示器使用兩種基本視頻格式中的一種作為輸入以便為 觀看者創(chuàng)建3D印象?;诹Ⅲw的顯示器使用時序交錯和眼鏡來顯示兩個分離的視圖,每 只眼睛一個,并且因此期待立體視頻作為輸入。這些顯示器的實例是基于時分復用的背 投影的立體顯示器,并且該類型的系統(tǒng)也被用在3D電影院中,其主要可替代方案是多視 圖自動立體顯示器,其不需要眼鏡并且經常使用被稱為圖像+深度的輸入格式作為輸入 以生成3D印象。關于3D顯示技術的更多信息可以在Oliver Sireer等人的“3D video communication-Algorithms concepts and real time systems in human centered communication” (Wiley 2005)的第 13 章中找到。所述立體視頻格式是簡明的,因為它提供兩個圖像,每只眼睛一個。典型地,這兩 個圖像在空間上或以時序方式交錯并且隨后被送入顯示器。被稱為圖像+深度的可替代格 式的不同之處在于它是2D圖像與所謂的“深度”(或視差圖)的組合。這典型地是灰度圖 像,由此像素的灰度值指示針對相關聯(lián)的2D圖像中的對應像素的視差(或在深度圖的情況 下的深度)的量。當顯示器再現(xiàn)3D圖像時,該顯示器使用視差或深度圖來計算將2D圖像作 為輸入的附加視圖。這可以通過多種方式來完成,在最簡單的形式中,其實就是根據與像素 相關聯(lián)的視差值將那些像素向左或向右移位的問題。Christoph Fen的題為“D印th image based rendering, compression and transmission for a new approach on 3D TV,,的論 文給出了該技術的概要。自動立體的和(基于時序的)立體3D顯示器的問題是,被稱為調節(jié)-集合 (accommodation-convergence)失配的問題。這是這樣的一個問題觀看者的眼睛集中在正 被顯示的對象的虛擬位置上,同時眼睛在顯示器的表面上調節(jié)自身(以看到圖像銳化)。該 失配可能引起頭痛和其他與運動病相關聯(lián)的癥狀。此外,針對左眼和右眼的視圖之間的任 何幾何的(特別是任何縱視差)以及電氣的差異(亮度、對比度等)可以另外引起視覺疲勞。 然而,如果視差的量保持較小(其小于一度),則這些問題不太嚴重并且用戶可以觀看內容 而沒有任何明顯的問題。更詳細的描述參見Sumio Yano等人的“Two factors in visual fatigue caused by stereoscopic HDTV images,,,Displays 2004 pages 141 to 151 Elsevier。當再現(xiàn)設備正在顯示諸如字幕或隱藏式字幕之類的文本時,可能會發(fā)生與上述問 題相似的問題。如果依賴于顯示器的類型和設置文本被不適當?shù)囟ㄎ辉谄聊簧?,則例如由于左眼視圖和右眼視圖之間的串擾使得該文本可能出現(xiàn)模糊,并且觀看者可能感覺疲勞。 而且所述模糊可能影響文本的可讀性也是事實。根據E. Legge (參見Gordon Ε. Legge等 人的"Psychophysics of Reading: I. Normal Vision,,,Vision Research, Vol 25, No. 2, pages 239 to 252,1985),如果文本的帶寬低于每字符兩個循環(huán),則閱讀受損。模 糊是自動立體顯示器的一個問題,因為典型地犧牲分辨率以生成多個視圖,并且對于立體 顯示器而言,通常在兩個視圖之間存在次優(yōu)分離的問題,這可能增加了圖像的模糊。而且, 根據Yano (上文所引用的),深度運動增加了視覺疲勞。被預見的另一個問題是,觀看者可以(通過例如他們的遙控器上的一些按鈕)調節(jié) 3D電視中的視差量和深度平面的相對位置。這些調節(jié)裝置意味著當文本遠離深度中性位置 或增加“深度”時,文本可能變得模糊,從而引起視覺疲勞。美國專利申請公布US 2005/0140676公開了一種用于在三維圖中顯示多級文本 數(shù)據的方法。在該公布所描述的系統(tǒng)中,三維圖被顯示在屏幕上,并且具有不同密度級的文 本數(shù)據根據從所顯示的三維圖的視點到將顯示文本數(shù)據的各節(jié)點的距離而被顯示,從而改 進了文本數(shù)據的可讀性。而且,可以通過局部地調節(jié)屏幕上文本數(shù)據的密度來顯示文本數(shù) 據。通過借助透視投影方法將具有二維坐標的圖數(shù)據轉換為具有三維坐標的圖數(shù)據來在顯 示面板的屏幕上顯示三維圖。要被顯示的文本數(shù)據連同三維圖被轉換為具有由三維圖的視 點定義的原點的三維坐標系統(tǒng)中的文本數(shù)據和三維圖。轉換后的文本數(shù)據被投影在二維平 面上以被轉換為具有屏幕坐標的文本數(shù)據。隨后,從被顯示的三維圖的視點到將顯示文本 數(shù)據的各節(jié)點的距離被分類。針對被轉換的具有屏幕坐標的文本數(shù)據確定分類的這些距 離。對應于所確定的距離的各級文本數(shù)據被顯示在顯示面板的屏幕上,其上顯示了三維圖。盡管在三維圖在二維顯示設備上的表示的上下文中,根據該公布的文本數(shù)據的處 理以對用戶有意義的方式被定位和縮放(scaled),但是它沒有解決上文確定的、涉及在三 維顯示設備中顯示文本的任何問題。
發(fā)明內容
因此,本發(fā)明的一個目的是改進已知的技術。根據本發(fā)明的第一方面,提供一種如 權利要求1中定義的方法、一種如權利要求10中定義的方法、一種如權利要求11中定義的 設備、一種如權利要求12中定義的設備、一種如權利要求13中定義的三維圖像信號。有利 地,基于文本的和基于圖形表示的字幕的Z位置是相同的并且針對每個流(即每個字幕語 言)僅需要被存儲一次。用于存儲字幕的該共享Z位置的實際實施例(如BD盤上)在從屬 權利要求中限定。根據本發(fā)明的另一方面,提供一種創(chuàng)建三維圖像信號的方法,該方法包括接收第 一圖像成分;接收用于與第一圖像成分組合來創(chuàng)建三維圖像的第二成分;接收用于包含在 所述三維圖像中的文本成分;接收數(shù)據成分,其包括描述文本成分在所述三維圖像內的位 置的位置信息;以及創(chuàng)建三維圖像信號,其包括第一圖像成分、第二成分、文本成分和數(shù)據 成分。根據本發(fā)明的另一方面,提供一種用于創(chuàng)建三維圖像信號的設備,該設備包括被 布置為接收第一圖像成分、用于與第一圖像成分組合來創(chuàng)建三維圖像的第二成分、用于包 含在所述三維圖像中的文本成分以及包括描述文本成分在所述三維圖像內的位置的位置信息的數(shù)據成分的接收器;以及被布置為創(chuàng)建包括第一圖像成分、第二成分、文本成分和數(shù) 據成分的三維圖像信號的復用器。根據本發(fā)明的另一方面,提供一種再現(xiàn)三維圖像信號的方法,該方法包括接收三 維圖像信號,該信號包括第一圖像成分、用于與第一圖像成分組合來創(chuàng)建三維圖像的第二 成分、用于包含在所述三維圖像中的文本成分和包括描述文本成分在三維圖像內的位置的 位置信息的數(shù)據成分;從第一圖像成分和第二成分再現(xiàn)三維圖像,該再現(xiàn)包括再現(xiàn)三維圖 像中的文本成分,文本成分的再現(xiàn)包括調節(jié)在再現(xiàn)的文本成分的位置中三維圖像的三維參 數(shù)。根據本發(fā)明的另一方面,提供一種用于再現(xiàn)三維圖像信號的設備,該設備包括接 收器,其被布置為接收三維圖像信號,該信號包括第一圖像成分、用于與第一圖像成分組合 來創(chuàng)建三維圖像的第二成分、用于包含在所述三維圖像中的文本成分和包括描述文本成分 在三維圖像內的位置的位置信息的數(shù)據成分;顯示器,其被布置為從第一圖像成分和第二 成分再現(xiàn)三維圖像,該再現(xiàn)包括再現(xiàn)三維圖像中的文本成分,文本成分的再現(xiàn)包括調節(jié)在 再現(xiàn)的文本成分的位置中三維圖像的三維參數(shù)。根據本發(fā)明的另一方面,提供一種三維圖像信號,該三維圖像信號包括第一圖像 成分;用于與第一圖像成分組合來創(chuàng)建三維圖像的第二成分;用于包含在所述三維圖像中 的文本成分;和包括描述文本成分在三維圖像內的位置的位置信息的數(shù)據成分。根據本發(fā)明的另一方面,提供一種在計算機可讀介質上用于創(chuàng)建三維圖像信號的 計算機程序產品,該產品包括多個指令,其用于接收第一圖像成分;接收用于與第一圖像 成分組合來創(chuàng)建三維圖像的第二成分,接收用于包含在所述三維圖像中的文本成分;接收 包括描述文本成分在三維圖像內的位置的位置信息的數(shù)據成分;以及創(chuàng)建包括第一圖像成 分、第二成分、文本成分和數(shù)據成分的三維圖像信號。根據本發(fā)明的另一方面,提供一種在計算機可讀介質上用于再現(xiàn)三維圖像信號的 計算機程序產品,該產品包括多個指令,其用于接收三維圖像信號,該信號包括第一圖像 成分、用于與第一圖像成分組合來創(chuàng)建三維圖像的第二成分、用于包含在所述三維圖像中 的文本成分和包括描述文本成分在三維圖像內的位置的位置信息的數(shù)據成分;從第一圖像 成分和第二成分再現(xiàn)三維圖像,該再現(xiàn)包括再現(xiàn)三維圖像中的文本成分,文本成分的再現(xiàn) 包括調節(jié)在再現(xiàn)的文本成分的位置中三維圖像的三維參數(shù)。根據本發(fā)明,可以改進3D顯示器上諸如字幕之類的文本的可讀性。該改進的可讀 性基于以下事實附加的參數(shù)被發(fā)送到3D顯示器,從而使得顯示器可以處理圖像的包含字 幕的部分,該處理不同于對圖像的其余部分的處理。顯示器隨后可以確保字幕在文本的深 度、銳度和總體可讀性方面以最佳方式自動定位。本發(fā)明的應用適用于比如連接到3D顯示 器并且正在顯示3D內容和相關聯(lián)的字幕的藍光光盤播放器和DVD或HD-DVD播放器之類的 系統(tǒng)。本領域技術人員將清楚,圖像信號可以進一步通過比如因特網或內聯(lián)網之類的數(shù)字 網絡部分地或完整地獲得。文本、特別是字幕應當在離屏幕的有限深度范圍內被顯示并且在整個呈現(xiàn)期間它 們不必改變深度。如果文本的深度必須保持恒定,則這也會造成定位的問題,因為視頻的深 度可能改變并且因此在某些場景期間可能遮蔽文本的多個部分。總之,當在3D立體顯示器 上顯示字幕或隱藏式字幕時必須考慮下列因素視差的量應當小于一度;文本的帶寬應當保持高于每字符兩個循環(huán);文本必須保持在相對于屏幕的恒定深度處;以及文本不應當被 視頻對象模糊。這些條件可以通過根據本發(fā)明的改進的系統(tǒng)來滿足。可以通過調節(jié)“深度”圖的、 涉及字幕或隱藏式字幕的位置的部分來完成對視差量的控制。一些顯示器需要立體輸入, 在這些情況下將更難以控制播放器中的視差量,但是這仍然是可能的。為了滿足帶寬約束,播放器必須確保文本的分辨率足夠高、重影(ghosting)保持 最小并且移動文本的速度不太高。為了滿足這些因素,回放設備必須發(fā)送針對顯示器分辨 率足夠的字幕或隱藏式字幕,并且必須調節(jié)深度以使得重影被最小化。這典型地意味著文 本的深度應當保持中性(盡可能靠近屏幕)。然而,這可能造成一個問題當視頻的深度動態(tài) 地變化時,視頻的多個部分可能遮蔽文本的多個部分。該問題通過動態(tài)地調節(jié)文本的深度 以確保它保持在前面來解決。然而,這意味著文本將改變深度,根據Yano,這可能引起視覺 疲勞。通過發(fā)送關于文本位置的信息并且調節(jié)文本位置中3D圖像的3D參數(shù),這些問題被 克服。盡管優(yōu)選地文本的深度應當在更長的時間周期內被固定,但是可以允許改變,例 如以便實現(xiàn)特定的3D效果。有利地,創(chuàng)建三維圖像信號的步驟包括在第一圖像成分中包含文本成分。該文本 成分(例如字幕)可以直接包含在第一圖像成分中,并且不需要作為分離的成分來轉送。將 要再現(xiàn)3D圖像的接收裝置仍然可以控制字幕區(qū)域中的3D顯示參數(shù),即使該字幕被嵌入到 信號的第一圖像成分中。優(yōu)選地,創(chuàng)建三維圖像信號的步驟包括創(chuàng)建包括第一圖像成分、第二成分、文本成 分和數(shù)據成分的單個圖像幀。信號中的所有這些成分可以被組合成單個圖像幀,其中信號 的不同成分占據圖像幀的不同部分。這是組合構成信號的元素的便利的方法,并且可以用 于利用現(xiàn)有標準,例如HDTV,其支持相對較高的幀分辨率。一種成分,比如定義了最終信號 內文本成分的位置的數(shù)據成分,可以包含在圖像幀的頭部中而不是包含在幀的實際圖像數(shù) 據內。理想地,創(chuàng)建三維圖像信號的步驟包括包含用于第一圖像成分和第二成分中每 個成分的背景信息。如果再現(xiàn)設備的輸出也包含背景信息,則可以改進最終結果的質量。這 允許基于背景信息中的數(shù)據定位待調節(jié)的字幕以將字幕放置在3D顯示器區(qū)域的、具有相 對較低關注度的部分中。優(yōu)選地,調節(jié)在再現(xiàn)的文本成分的位置中三維圖像的三維參數(shù)的步驟包括減小 所感知的在再現(xiàn)的文本的位置中三維圖像的深度。該再現(xiàn)設備可以調節(jié)3D圖像在字幕的 位置中的感知的深度使之超越例如深度圖中規(guī)定的所請求的深度。在3D顯示設備的要實 際包含字幕的特定區(qū)域中,隨后可以減小顯示內容的感知的深度以便減弱觀看者眼睛上的 任何緊張。有利地,調節(jié)在再現(xiàn)的文本成分的位置中三維圖像的三維參數(shù)的步驟包括減少 三維圖像在再現(xiàn)的文本的位置中的視圖的數(shù)量。通過減少由3D顯示設備顯示的視圖的數(shù) 量,可以減少文本的重影或模糊。而且,在具有局部可開關透鏡配置的透鏡狀顯示器中,可 以在顯示器的字幕所在的部分中關閉各透鏡。這可能導致包含字幕的3D圖像的所述部分 中正在顯示的圖像更清楚,對應地降低了觀看者眼睛的緊張。
理想地,調節(jié)在再現(xiàn)的文本成分的位置中三維圖像的三維參數(shù)的步驟包括保持 三維圖像的視差低于再現(xiàn)的文本的位置中的預定閾值。諸如一度的特定閾值可以被設置為 包含字幕的3D圖像的區(qū)域中所允許的視差量的極限。這將輔助觀看者感知字幕而不過度 地使這些觀看者的眼睛緊張,因為視差的減少將使得3D顯示設備的觀看者觀看更加舒適。
現(xiàn)在將僅僅通過實例并參照附圖描述本發(fā)明的實施例,在附圖中相似的數(shù)字被用 于指示相似的元件或功能
圖1是說明3D圖像的創(chuàng)建的示意圖,
圖2是3D回放系統(tǒng)的示意圖,
圖3是示出在3D回放系統(tǒng)中內容和數(shù)據流的示意圖,
圖4是3D回放系統(tǒng)的回放設備的示意圖,
圖5是示出在創(chuàng)建輸出時平面的使用的示意圖,
圖6是3D圖像信號的示意圖,
圖7是增強的3D圖像信號的示意圖,
圖8是另一增強的3D圖像信號的示意圖,
圖9是與圖4相似的回放設備的第二實施例的示意圖,
圖10是置于3D圖像中的文本的示意圖。
具體實施例方式在圖1中示意性說明了三維圖像的創(chuàng)建?;旧希瑹o論最后的再現(xiàn)顯示設備是自 動立體的還是在立體像對上運行(需要用戶佩戴特殊的眼鏡),所述過程是相同的。第一圖 像成分10和第二成分12被提供用于創(chuàng)建三維圖像14。第二成分12與第一圖像成分10的 組合被一起處理以產生最后的輸出14。在所有系統(tǒng)中,第一圖像成分10是任何適當標準的 常規(guī)二維圖像幀。在立體像對系統(tǒng)中,第二成分12也是圖像,并且在自動立體系統(tǒng)中,第二 成分12是深度圖或視差圖。重要的是理解最后的輸出14不必是單個幀。例如,在立體像對系統(tǒng)中(其中圖像 10用于左眼,而圖像12用于右眼),隨后這兩個成分10和12可以順序地被示出。在非時 序自動立體系統(tǒng)中,圖像10和深度圖12被用于從圖像10創(chuàng)建多個相似的視圖,其中深度 圖被用于生成產生各個視圖所必需的對圖像10的改變。這些視圖隨后被并入到單個幀14 中。例如,最終的再現(xiàn)顯示設備可以被控制以示出四個個別視圖,所有這四個視圖都是從相 同的圖像10生成的。這些視圖隨后被分條拼接在一起,每個視圖的分辨率是顯示設備的分 辨率的四分之一。第一圖像成分10可以包括例如包括表示場景的視圖的例如RGB或YUV信息的像 素單元的二維陣列/圖像,如用于立體視圖內容、多視圖內容或圖像+深度內容的情況。如 上所述,第二成分12可以是像素單元的二維陣列/圖像。在立體視圖內容或多視圖內容的 情況下,這可以是相同場景的另一視圖,然而在圖像+深度內容的情況下,這可能是所謂的 包括視差或深度信息的視差/深度圖。圖像輸出14可以包括例如使用表示隨時間變化的 一個或多個場景的多個幀的視頻圖像信號。
圖2說明了 3D回放系統(tǒng),其中例如提供了承載針對3D影片的第一和第二成分10 和12的盤16。盤16例如可以是藍光標準DVD。盤16由諸如藍光DVD播放器之類的回放 設備18來播放。視頻接口 20用于將成分10和12傳送到3D電視22。電視22包括再現(xiàn)級 對,其實時處理成分10和12以生成3D輸出14 (如上按照圖1所討論的)。用戶沈正在觀 看再現(xiàn)顯示設備22,并且可以經由適當?shù)挠脩艚涌诤瓦b控設備(未示出)向設備22提供用 戶設置28。在這樣的系統(tǒng)中,回放設備18支持字幕(或事實上任何文本,例如菜單)的使用。 例如,對于盤16而言,常規(guī)在盤16上所存儲的信息的數(shù)據部分內包括比如外語字幕之類的 字幕。在盤16上的實際影片內容開始回放之前,這些字幕可以由用戶經由屏幕上菜單來選 擇。這些字幕隨后被顯示設備22顯示,從而覆蓋了正在再現(xiàn)的3D內容。如上所討論的,回 顧現(xiàn)有技術,在許多情形中,3D顯示系統(tǒng)中字幕的顯示可能引起觀看者眼睛緊張和勞累。本 發(fā)明的系統(tǒng)提供一種以將改進現(xiàn)有技術的問題的方式顯示字幕(或事實上任何文本)的方 法。所提供的解決方案是,允許顯示器22識別到來的視頻流中的文本(例如字幕)并且 因此處理該文本,其處理方式不同于視頻信號的其余部分的處理方式。顯示器22可以例如 確保文本保持在視頻的前面,或壓縮和回推視頻信號的深度以確保文本不突出(如國際專 利申請公布WO 2008/038205中所述)。此外,顯示器22可以例如通過成為可開關的具有不 同的透鏡配置(在透鏡狀顯示器的情況下)或通過支持更少的視圖來提供特定地被設計用 于顯示文本的屏幕的部分。由于在3D自動立體顯示器上文本的可讀性對自動立體顯示器 技術而言幾乎是固有的問題,所以進一步期望在顯示器方面可以受益于能夠識別到來的視 頻信號中的字幕當前無法預測的改進。將用于字幕的文本單獨發(fā)送到顯示器的一種方式是通過傳輸作為隱藏式字幕信 息的文本,其包含在用于用在Ceefax或Teletext的歐洲(PAL)中的NTSC的模擬視頻的線 21中。然而,在通過HDMI傳輸高清晰度視頻時,隱藏式字幕信息當前不被支持。當前為了 解決這個問題,諸如DVD或藍光光盤播放器之類的回放設備解碼位于MPEG流中的隱藏式字 幕信息并且將該隱藏式字幕信息在傳送到顯示器之前覆蓋在視頻上面。所以,要使用該解 決方案將需要將HDMI規(guī)范擴展為包括隱藏式字幕信息的傳輸。本領域技術人員將清楚上 述解決方案也可以應用于其他數(shù)字顯示器接口。另一種解決方案是,在回放設備18與顯示器22之間提供雙向通信鏈路,從而使得 當用戶調節(jié)顯示器22中的深度設置時,回放設備18被告知該變化。作為結果,回放設備18 可以調節(jié)字幕的定位。優(yōu)選的實施例是,允許回放設備18處理字幕的定位和到視頻上的覆 蓋并且向顯示器22指示存在字幕以及字幕定位在哪里。顯示器22隨后可以確信與字幕相 關聯(lián)的“深度”值被映射到對于那個特定顯示器22和相關聯(lián)的用戶設置觀而言最優(yōu)的深 度。這具有附加的優(yōu)點顯示器22在再現(xiàn)級中不需要字幕或隱藏式字幕解碼器。在一個實施例中,實現(xiàn)了系統(tǒng)的改進,其中如圖2所示的播放器設備18調節(jié)字幕 的定位從而使得文本在視頻前面,同時使視差量保持低于一度。優(yōu)選地,播放設備18在輸 出流內插入元數(shù)據信息,其向顯示設備22標識字幕是否關于χ、y和ζ (“深度”)位置被定 位在顯示器的投影容積中以及定位在什么地方。在這種情況下,顯示設備22中的再現(xiàn)級M 依賴于前述元數(shù)據信息和用戶優(yōu)選的設置觀(關于視差量和相對位置)調節(jié)顯示器的投影容積中字幕的定位,同時保持該定位以使得重影保持最小并且視差量保持低于一度。此外, 顯示器22 (如果如此配備)將字幕定位在顯示器表面的特殊部分上,該特殊部分可以在2D 與3D之間切換或者(例如通過支持更少的視圖或有限的視差量)支持更少的重影和更高的 光學分辨率。在一個實施例中,文本成分30基本上是平坦的,并且/或者當深度范圍與文本30 相關聯(lián)時,則該深度范圍受限于閾值,從而使得各個視圖之間的視差受限于特定的范圍,該 特定范圍可以是預定的范圍,比如一到兩個像素。在文本成分30基本上是平坦的優(yōu)選實施 例中,文本成分是基于文本的文本成分,而不是基于位圖的文本成分;由此實現(xiàn)了文本成分 30的特別緊湊的表示。在圖3中說明了圖2的系統(tǒng)中的內容和數(shù)據流。盤16包括第一圖像分量10和第 二分量12,加上作為字幕的文本分量30。用戶指令32被回放設備18接收,該用戶指令表 明用戶希望將字幕30隨同他們打算觀看的3D影片一起顯示?;胤旁O備18將分量10和12 連同字幕30和包括描述文本分量30在最終3D圖像14內的位置的位置信息的數(shù)據分量34 提供給再現(xiàn)器對?;胤旁O備包括用于從各種成分各自的源接收這些成分的接收器和用于將 這四個元素10、12、30和34組合為被再現(xiàn)器M接收的三維圖像信號36的復用器。字幕信息34可以與圖像數(shù)據10和12分離地發(fā)送到再現(xiàn)器對,即也許不在活動圖 像區(qū)域中而是在頭部中,或者在數(shù)據島中、或者在幀的不包含圖像數(shù)據的部分中。例如可以 以正常幀速率的兩倍發(fā)送視頻流,其中一個幀包括圖像數(shù)據10和12,而另一個幀包括深度 (可選地也包括解除遮蔽)信息并且還包括用于字幕30和位置信息34的特別區(qū)域。再現(xiàn)器M隨后被布置為根據第一圖像成分10和第二成分12再現(xiàn)三維圖像14, 該再現(xiàn)(包括再現(xiàn)三維圖像14中的文本成分30),文本成分30的再現(xiàn)包括調節(jié)在再現(xiàn)的文 本成分30的位置中三維圖像14的一個或多個三維參數(shù)。通過再現(xiàn)器M所進行的調節(jié),文 本成分30本身可以完全未被改變。重要的因素是,再現(xiàn)器將調節(jié)正在文本30的位置中顯 示的圖像14的多個部分的參數(shù)。這可以包括減小在圖像14的該區(qū)域處3D圖像的感知的 深度,或者可以包括減少(自動立體顯示設備中)視圖的數(shù)量或兩個或更多調節(jié)的組合。對 于再現(xiàn)器M而言,還可以不僅包括改變要在其中顯示字幕30的區(qū)域的深度,而且包括偏移 (offset)以便向前或向后移動整個深度范圍。該偏移可以針對字幕30獨立于圖像數(shù)據14 的剩余部分而被控制。在使用自動立體顯示器的實施例中,第二成分12包括深度圖,而再現(xiàn)3D圖像14 的方法可以進一步包括在再現(xiàn)三維圖像14之前縮放(scaling)第二成分12,以便使得文本 成分30放置在如由數(shù)據成分34指定的位置處。在這種情況下,再現(xiàn)器可以進一步接收包 括第二成分12的推薦的縮放的推薦者成分,以使得位置信息對于多個連續(xù)的圖像而言可 以保持相同。作為使用該推薦者成分的結果,使得在字幕/圖形被關閉時以及當字幕/圖 形被打開時最大化場景的深度成為可能,以使用調節(jié)到圖像信號的預定縮放成分來再現(xiàn)包 括字幕/圖形的內容。圖4中示出回放設備18的實例,其為示出解碼和呈現(xiàn)平面的使用的藍光光盤解碼 器18。ROM驅動38接收盤16并讀取由組件40解調和解碼的內容。一組并行緩沖器42存 儲解碼的信號的不同成分,并且這些成分經過一組并行解碼器44以提供將由顯示器22顯 示的輸出,該輸出是標準的視頻46和覆蓋的內容(為字幕和菜單等等)。
在藍光系統(tǒng)中,盤字幕可以是基于位圖的或基于文本和相關字體的,此外播放器 18提供對隱藏式字幕信息的支持。技術上,兩種系統(tǒng)有點相似,盡管隱藏式字幕經常提供更 多的信息并且被特別地針對聽力受損提供?;谖谋疽约盎谖粓D的字幕和隱藏式字幕二 者都被解碼并被呈現(xiàn)在藍光光盤中的呈現(xiàn)平面之一上。圖4示出解碼器18和多個平面,其 示出與視頻結合的文本的實例。文本總是被呈現(xiàn)在呈現(xiàn)圖形(PG)平面上;該平面在回放設 備18中被覆蓋到視頻(平面)上并且作為一個組合的呈現(xiàn)而被呈現(xiàn)到輸出上。圖5示出組 合的呈現(xiàn)50的實例。該輸出50根據主電影平面52、呈現(xiàn)平面M和交互式平面56來構造。 如圖5所示的輸出50通過視頻接口 20 (如圖2所示)被發(fā)送到顯示器22。在優(yōu)選實施例 中,除了輸出50之外,回放設備18能夠將包含3D數(shù)據34的附加信息發(fā)送到顯示器22。這 使得3D顯示器22能夠顯示回放設備18的組合的視頻、文本和圖形輸出的3D表示。圖6示出這種用于發(fā)送到3D顯示器22的組合輸出的實例。正在使用的3D系統(tǒng) 是圖像和深度輸出的實例。第一圖像成分10和第二成分12 (為深度圖)將通過顯示設備 22而被組合以制造3D圖像。文本成分30包含在第一成分10內,并且事實上完整的內容 (三個成分10、12和30)可以被構造為單個高清晰度幀。圖7示出指示字幕30的位置的附加頭部。該頭部包括數(shù)據成分34,其包括描述文 本成分在三維圖像內的位置的位置信息58,這里該位置信息被示出為χ和y坐標,盡管根據 深度圖12的內容也將呈現(xiàn)ζ分量。所述頭部允許最終的再現(xiàn)設備對3D輸出進行調節(jié)以考 慮字幕30的存在性。被傳輸?shù)母郊訁?shù)可以包含在圖像數(shù)據之上的頭部中,如描述于“3D interface Specifications-white paper", Philips 3D 角軍決方案,http://www. business-sites, philips, com/shared/assets/global/Downloadablefile/Philips_3D_Interface_White_ Paper-13725. pdf,其符合國際專利申請公布WO 2006/137000A1,或例如在HDMI標準的數(shù) 據島中。這些參數(shù)由關于字幕是否存在以及它們在如圖7所示的輸入視頻中的位置的指示 構成。顯示設備22隨后可以確保位于該位置處的圖像部分的視差不超過一度并且保持恒 定,即使用戶通過輸入命令增加了由顯示設備22顯示的視差量。如果播放器18的輸出還包括遮蔽(occlusion)或背景信息,則可以改進最后結果 的質量。圖8中示出了這一點。為了避免偽影,字幕30應當定位在圖像的最活躍的部分之 外,例如在頂部或底部。圖8示出圖像、深度和背景輸出格式。背景成分60和62分別被提 供用于第一圖像成分10和第二成分12。最后的圖像14內的字幕30的位置可以包括字幕的Z位置的引用。例如,可以利 用Z位置擴展藍光光盤文本字幕解碼器模型和相關聯(lián)的組分信息(特別是對話風格設定, 9. 15. 4. 2. 2節(jié)),從而使得原始內容作者可以指示在3D顯示器的Z方向投影空間中應當將 字幕定位在什么地方。在藍光光盤標準中定義了文本字幕解碼器和相關的流。文本字幕解 碼器在8. 9節(jié)中定義并且由各種處理元件和緩沖器構成。圖9示出解碼器模型的簡化圖片, 該模型被擴展以便處理具有相關聯(lián)的文本成分(比如字幕30)的3D圖像。圖9示出3D文本字幕解碼器模型。從左到右的文本字幕片段進入解碼器18,在解 碼器中由文本流處理器64處理并解碼這些文本字幕片段。解碼的文本數(shù)據被放置在對話 緩沖器66中,同時解碼的文本字幕組分信息被放置在組分緩沖器72中。控制器74解釋組 分信息并在其被文本再現(xiàn)器68 (使用字體文件80)再現(xiàn)之后將該解釋的組分信息應用到文本并且將結果放置在位圖緩沖器70中。在最終步驟中,位像被播放器18合成到適當 的圖形平面上。用戶輸入78也被控制器78接收,這可以影響例如顯示器的深度參數(shù)。除了基于文本的字幕之外,藍光光盤(BD)還支持基于位像、所謂的呈現(xiàn)圖形 (PG)的字幕。同樣,PG-字幕的Z-位置需要在盤上被指定,優(yōu)選地接近已經定義的X,Y-位 置信息。當后者被存儲在組分_對象()結構中時,合理的是利用字幕的Z-位置擴展它,例 如通過使用在偏移位沈處開始的保留位(reserved bits)。如遍及本申請而使用的術語文 本成分被用于指基于文本的字幕和/或這樣的位像。解碼器18擴展加入了附加的位圖緩沖器76,其保存了指示文本字幕30在Z-方向 上應當定位在哪里的深度或視差圖。深度或視差信息可以包含在如藍光規(guī)范中所定義的對 話風格設定中。一種用于實現(xiàn)這一點的方法是,利用區(qū)域_深度_位置針對對話風格設定 進行擴展。區(qū)域_深度_位置是8位字段,其值在0到255之間,但是將來這可以擴展???制器74基于區(qū)域_深度_位置字段的值來確定正確的深度或視差圖像素值。該值到用于 深度或視差圖的顏色值的轉換依賴于在播放列表的3D_元數(shù)據字段中承載的或在MPEG-2 節(jié)目映射表(IS0/IEC 13818-1)中承載的3D元數(shù)據。該信息的語法由IS0/IEC 23002-3中 的MPEG定義。隨后,字幕30的Z位置被提供給再現(xiàn)器24,該再現(xiàn)器在再現(xiàn)3D圖像14時可以考 慮字幕30的Z位置以供3D顯示設備22顯示。圖10示出通過使用區(qū)域_深度_位置字段 定位深度的3D空間實例。圖像14包括放置在平面82中的字幕30。平面82指示零深度處 空間中的位置,其他線指示3D空間中的三個方向X,y和ζ。除了包括深度區(qū)域以指示空間中字幕應當定位于其中的區(qū)域,甚至還可以通過增 加用于文本30本身的單獨深度而進一步深入,并且指定不是作為平面而是作為空間中的 立方體的區(qū)域。這可以例如通過利用區(qū)域_深度位置和區(qū)域_深度_長度來擴展對話風格 設定中的區(qū)域位置字段來完成??梢葬槍χ甘疚谋驹趨^(qū)域內部的確切位置的文本框位置進 行相同的操作。字體文件80可以用于包括浮雕的字體風格,因為已經表明這改進了在3D中所得 文本的可讀性。在藍光規(guī)范的表9-75中描述了多種字體風格,可替代地為此使用字體輪廓 厚度字段,其為藍光規(guī)范的表9-76。這兩個表在最后保留了為此目的可使用的字段。浮雕 的字體風格將是表9-75中的值0x08,并且對于浮雕的字體輪廓厚度而言該值將是表9-76 中的值0x04。有利地,用于基于文本的和基于PG的字幕的Z-位置是相同的并且僅僅需要每流 (即每字幕語言)存儲一次。技術人員將清楚,在BD盤上存在許多可替代的位置用于存儲字 幕的該共享的Z-位置。這樣的可替代位置的實例在下文描述??山浻苫ヂ?lián)網資源http:// www, bluraydisc. com/Assets/Downloadablefile/2b bdrom audiovisualapplication 03 05-12955-15269. pdf 獲得的文獻“White paper Blu~ray Disc Format 2. B Audio Visual Application Format Specifications for BP-ROM March 2005”(通過引用合并于此)包 括關于BD格式和下面引用的格式中的結構的其他背景信息。字幕的共享的Z-位置可以例如被存儲在定義為播放列表的擴展數(shù)據的新表中。 BD規(guī)范中的播放列表是指示一起形成標題(比如電影)的呈現(xiàn)的視聽內容項序列的列表。該 播放列表結構提供一種通過其擴展數(shù)據而進行未來擴展的機制。用于各種語言流的字幕平面(PG-平面)的“Z”位置可以包括在被稱為偏移_元數(shù)據表的新表中。表1示出該表的細 節(jié)。而且,當播放列表包括允許回放立體多角度視頻數(shù)據的播放項目的情況下,則用 于覆蓋圖形(例如字幕)的“Z”位置對于每個立體多角度視頻剪輯而言可以是不同的。因 此,偏移_元數(shù)據針對播放項目中引用的每個立體多角度視頻剪輯而言也應當允許不同的 “Z”位置。在這樣的情況下,偏移_元數(shù)據表針對每個立體多角度視頻剪輯包括用于字幕的 覆蓋的不同“Z”位置。這些不同的“Z”位置隨后可以利用用于每個需要用于字幕的覆蓋的 不同“Z”位置的多角度視頻剪輯的標識符來引用。表2示出了表1如何可以擴展為支持用 于不同立體多角度視頻片段的不同“Z”位置的實例。表1和2中MreamID和AngleID參 考分別用作盤上的基本流(包含字幕內容)和(多)角度立體視頻片段的唯一標識符。代替使用擴展數(shù)據,也可以定義特別用于3D流的回放的新播放列表表結構并且 在那里包括“Z”位置參數(shù)。傳統(tǒng)播放器回放的問題可以通過提供盤上的新的索引表(用戶 可選擇的標題的列表)或使用列出了只能由3D激活的播放器來播放的標題的索引表的擴展 數(shù)據而被避免??商鎿Q地,如果信息應當被提供在播放列表中的現(xiàn)有表中,則該信息可以包含在 STN_Table_SS()中。這是個列出了與播放項目相關聯(lián)的視頻和圖形流的表。按照播放項 目,它包含了具有用于每個文本和位圖字幕流的流編碼信息(屬性)的環(huán)。我們提出在相同 環(huán)中包括“ Z ”位置信息作為流屬性信息。使用播放列表存儲用于每個字幕流的“Z”參數(shù)的一個問題是數(shù)據復制。多個播放 列表可以引用相同的字幕流。該限制可以通過在剪輯信息文件中包含“Z”位置元數(shù)據來克 服。該剪輯信息文件列出了與包括Α/ν內容和字幕流的MPEG傳輸流相關的元數(shù)據。該剪 輯信息文件可以被擴展加入與被提出用于播放列表擴展數(shù)據的表相似的表。然而,由于該 剪輯信息文件與MPEG傳輸流相關聯(lián),它通過包標識符(PID)列出字幕基本流。因此,我們 提出針對指示字幕流的PID的每個PID條目提供“Z”位置元數(shù)據。可替代地,不是在擴展數(shù)據中定義新表,而是將“Z”位置存儲在剪輯信息文件中的 節(jié)目信息表中。節(jié)目信息表提供一起形成A/V內容的呈現(xiàn)的基本流列表。它包含與MPEG 系統(tǒng)IS0/IEC 13818-1中定義的PMT表相似的信息。我們提出,對于包含字幕信息的每個 基本流我們提供“Z”位置元數(shù)據。該元數(shù)據可以包含在節(jié)目信息本身中或包含在節(jié)目信息 表的子表、流編碼信息表中。它提供關于編碼和用于傳輸流中存在的字幕流的語言代碼的 細節(jié)。流編碼信息表還具有一些保留的字段,我們提出使用這些保留字段來承載與用于特 定語言代碼的字幕流相關聯(lián)的“Z”位置參數(shù)。如果要求“Z”位置每隔幾秒發(fā)生變化,則應當使用剪輯信息文件中的CPI ()表。 該CPI信息是列出進入用于特技播放的視頻流的入口點。入口點的列表可以被擴展加入 “Z”位置參數(shù),其指示每個入口點的覆蓋諸如字幕之類的任何圖形所處的“深度”位置??商娲?,如果“Z”位置信息是幀精確的,則它應當包括在相關的視頻流的SEI消 息中。SEI (補充增強信息,稱為標記消息)是嵌入在MPEG基本流中的包,其承載可以被解 碼器用來輔助解碼內容的參數(shù)。MPEG還允許嵌入私人用戶數(shù)據SEI消息;這些將被標準解 碼器忽略,但是可以被修正的解碼器使用。用戶數(shù)據SEI消息可以被定義為承載應當被覆 蓋在視頻上的任何覆蓋諸如字幕的“Z”位置。為了提供每(語言)流的“Z”信息,我們提出
權利要求
1.一種創(chuàng)建三維圖像信號的方法,包括 -接收第一圖像成分,-接收第二成分,其用于與第一圖像成分組合來創(chuàng)建三維圖像, -接收文本成分,其包括基于文本的字幕和/或基于圖形表示的位像以便包含在 所述三維圖像中,-接收共享的Z位置成分,其包括描述基于文本的字幕和基于圖形表示的位像在 所述三維圖像內的Z位置的Z位置信息,以及-創(chuàng)建三維圖像信號,其包括第一圖像成分、第二成分、文本成分和共享的Z位置成分。
2.如權利要求1所述的方法,其中Z位置信息包括在被定義為列表的擴展數(shù)據的表中 的三維圖像信號中,所述列表指示一起形成標題的呈現(xiàn)的視聽內容項序列。
3.如權利要求2所述的方法,其中所述表是包含針對各種語言流的字幕的不同Z位置 的偏移元數(shù)據表。
4.如權利要求2所述的方法,其中所述列表包含允許回放包括立體多角度視頻剪輯的 立體多角度視頻數(shù)據的項目,并且針對每個立體多角度視頻剪輯的相應Z位置信息被存儲 在所述表中。
5.如權利要求4所述的方法,其中所述表是針對每個立體多角度視頻剪輯的包括用于 字幕的覆蓋的不同Z位置的偏移元數(shù)據表。
6.如權利要求1所述的方法,其中Z位置信息是幀精確的并且包括在標記消息[SEI] 中的三維圖像信號中,該標記消息[SEI]是嵌入在視聽內容的基本流中的包,該包承載可 以被解碼器用來解碼內容的參數(shù)。
7.如權利要求6所述的方法,其中Z位置信息包括用于包括在文本成分中的數(shù)據流的 列舉的Z值。
8.如權利要求1所述的方法,其中Z位置信息包括在下列表之一中的三維圖像信號中-定義為指示一起形成標題的呈現(xiàn)的三維視聽內容項序列的列表的表; -指示一起形成標題的呈現(xiàn)的視聽內容項序列的列表中的表,該表列出與相應的視聽 內容項相關聯(lián)的視頻和圖形流,在特定情況下每個項包含了具有用于每個文本和位圖字幕 流的流編碼信息的環(huán)。
9.如權利要求1所述的方法,其中Z位置信息包括在下列之一中的三維圖像信號中 -列出了與包括視聽內容和字幕流的傳輸流相關的元數(shù)據的文件,在特定情況下,該文件通過包標識符[PID]列出字幕流,并且針對指示字幕流的PID的每個PID列表提供Z 位置信息;-文件中的程序信息表,該程序信息表提供了一起形成視聽內容的呈現(xiàn)的基本流的列 表,在特定情況下該表提供針對包含字幕信息的每個基本流提供的Z位置信息;-特性點 信息[CPI]表,其列出進入用于特技播放的視聽內容的入口點,在特定情況下,入口點的列 表包括指示每個入口點的覆蓋圖形所處的深度位置的Z位置參數(shù)。
10.一種再現(xiàn)三維圖像信號的方法,包括-接收三維圖像信號,該信號包括第一圖像成分、用于與第一圖像成分組合來創(chuàng)建三維圖像的第二成分、包括基于文本的字幕和/或基于圖形表示的位像以便包含在所述 三維圖像中的文本成分和包括描述基于文本的字幕和基于圖形表示的位像在三維圖 像內的Z位置的Z位置信息的共享的Z位置成分,-再現(xiàn)第一圖像成分和第二成分以便提供三維圖像,該再現(xiàn)包括再現(xiàn)三維圖像中的基 于文本的字幕和/或基于圖形表示的位像,包括基于文本的字幕和/或基于圖形表示 的位像的再現(xiàn)包括基于共享的Z位置成分調節(jié)基于文本的字幕和/或基于圖形表示的 位像的Z位置。
11.一種用于創(chuàng)建三維圖像信號的設備,包括-接收器,其被布置為接收第一圖像成分、用于與第一圖像成分組合來創(chuàng)建三維圖像 的第二成分、包括基于文本的字幕和/或基于圖形表示的位像以便包含在所述三維圖 像中的文本成分,以及包括描述基于文本的字幕和/或基于圖形表示的位像在所述三 維圖像內的Z位置的Z位置信息的共享的Z位置成分,以及-復用器,其被布置為創(chuàng)建包括第一圖像成分、第二成分、文本成分和共享的Z位置成 分的三維圖像信號。
12.一種用于再現(xiàn)三維圖像信號的設備,包括-接收器(18),其被布置為接收三維圖像信號,該信號包括第一圖像成分、用于與第一 圖像成分組合來創(chuàng)建三維圖像的第二成分、包括基于文本的字幕和/或基于圖形表示的位 像以便包含在所述三維圖像中的文本成分,和包括描述基于文本的字幕和/或基于圖 形表示的位像在三維圖像內的Z位置的Z位置信息的共享的Z位置成分,-再現(xiàn)器(24),其被布置為再現(xiàn)第一圖像成分和第二成分以便提供三維圖像,該再現(xiàn) 包括再現(xiàn)三維圖像中的基于文本的字幕和/或基于圖形表示的位像,所述基于文本的 字幕和/或基于圖形表示的位像的再現(xiàn)包括基于共享的Z位置成分調節(jié)基于文本的字 幕和/或基于圖形表示的位像的Z位置。
13.—種三維圖像信號,包括第一圖像成分、用于與第一圖像成分組合來創(chuàng)建三維圖像 的第二成分、包括基于文本的字幕和/或基于圖形表示的位像以便包含在所述三維圖 像中的文本成分,和包括描述基于文本的字幕和基于圖形表示的位像在三維圖像內的 Z位置的Z位置信息的共享的Z位置成分。
14.如權利要求13所述的三維圖像信號,其中Z位置信息是幀精確的并且包括在標記 消息[SEI]中的三維圖像信號中,該標記消息[SEI]是嵌入在視聽內容的基本流中的包,該 包承載可以被解碼器用來解碼內容的參數(shù)。
15.用于三維回放系統(tǒng)的盤,該盤(16)包括如權利要求13或14所述的三維圖像信號。
16.一種在計算機可讀介質上的計算機程序產品,該產品包括多個指令,其用于當該計 算機程序在計算機上運行時執(zhí)行如權利要求1-10所述的任意一種方法的步驟。
全文摘要
本發(fā)明涉及一種字幕的3D顯示處理。一種三維圖像信號包括第一圖像成分;用于與第一圖像成分組合來創(chuàng)建三維圖像的第二成分;包括基于文本的字幕和/或基于圖形表示的位像以便包含在三維圖像中的文本成分;共享的Z位置成分,其包括描述文本成分在所述三維圖像內的深度位置的Z位置信息。所述信號通過從第一圖像成分和第二成分再現(xiàn)三維圖像而被再現(xiàn),該再現(xiàn)包括再現(xiàn)所述三維圖像中的基于文本的字幕和/或基于圖形表示的位像,所述文本成分的再現(xiàn)包括基于共享的Z位置成分調節(jié)基于文本的字幕和/或基于圖形表示的位像的深度位置。有利地,用于基于文本的和基于圖形表示的字幕的Z位置是相同的并且針對每個流僅需要存儲一次。
文檔編號H04N13/00GK102137270SQ201110123678
公開日2011年7月27日 申請日期2009年7月17日 優(yōu)先權日2008年7月25日
發(fā)明者D. R. J.博利奧 D., 斯卡洛里 F., W. T. 范德海登 G., F. P. M. 范多維倫 H., F. 莫爾 H., S. 紐頓 P., 德哈安 W. 申請人:皇家飛利浦電子股份有限公司