專利名稱:字幕合成方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種對用于音頻/視頻表示的字幕進行合成的方法和裝置,例如其可以用于諸如所謂的藍光盤之類的預(yù)記錄格式的HDTV字幕。
背景技術(shù):
從第一部賽璐珞膠片電影開始,就已經(jīng)使用了用于視聽(AV)材料的字幕技術(shù),直至最近數(shù)字媒體的出現(xiàn)。字幕的主要目標在于支持殘疾人或少數(shù)民族語言人群。因此,字幕技術(shù)通常旨在表示文本信息,即使這些文本信息已經(jīng)被編碼為圖形數(shù)據(jù),就如像素映射。因此,預(yù)先生產(chǎn)的用于廣播(閉合字幕、圖文電視、DVD字幕等)的AV材料和電影盤(DVD子畫面等)主要最適于表示簡單的靜態(tài)文本信息的字幕。但是,在文本信息的表示及動畫方面的PC軟件發(fā)展進程包括對用于預(yù)先記錄和廣播的數(shù)字字幕技術(shù)中的可能性和特征的相應(yīng)需求。使用直接方法而不加任何具體的預(yù)防措施,這些對字幕的增強需求消耗了有限的總體帶寬中的太多部分。對于包括貫穿原始動畫的卡拉OK在內(nèi)的“全功能”字幕的需求一方面是編碼效率,另一方面是對任何字幕作者的全控制,這兩方面是相互沖突的。
在現(xiàn)有技術(shù)中,使用分離的字幕信息對AV材料數(shù)字地添加字幕有兩種主要的方法可以基于像素數(shù)據(jù)或字符數(shù)據(jù)來添加字幕。在兩種情形中,字幕方案都包括通用的框架,例如,其沿著AV時間軸處理字幕元素的同步。
基于字符數(shù)據(jù)的字幕添加方法在基于字符的字幕添加方法中,例如,在歐洲模擬或數(shù)字TV的圖文電視系統(tǒng)ETS 300 706中,用文字編碼的序列來描述字符串,這些字幕編碼例如ASCII或UNICODE,這在本質(zhì)上允許非常高效的編碼。但是來自單獨的字符串,字幕不能轉(zhuǎn)換為覆蓋在視頻上的圖形表示。由于這樣,預(yù)期的字符集、字體和某些字體參數(shù)(尤其是字體大小)必須或者被顯式地編碼在字幕位流中,或者在適當定義的字幕上下文內(nèi)對它們做出隱式假設(shè)。這種方法中的任何字幕還都限于在使用中可以用特定字體的文字和符號來表示。DVB字幕規(guī)范ETS 300 743在其“字符對象”模式中構(gòu)成了基于字符的字幕的另一現(xiàn)有技術(shù)示例。
基于像素數(shù)據(jù)的字幕添加方法在基于像素的字幕添加方法中,通過將字幕幀描述為AV屏幕上的像素值的區(qū)域(通常是矩形區(qū)域),直接以圖形表示的形式來傳送字幕幀。無論何時有任何東西要在疊加到視頻上的字幕平面中可見,其像素值必須與適當?shù)耐叫畔⒁黄鸨痪幋a在字幕位流中,因此對于字幕的全功能動畫,必須傳輸所有改變的像素。顯然,當去除圖文電視的全功能動畫所固有的限制時,基于像素的方法帶來這樣的障礙用于字幕數(shù)據(jù)的帶寬可觀地增加??梢栽贒VD的子畫面概念“用于只讀盤的DVD規(guī)范”第三部分視頻以及在ETS 300 743中所規(guī)定的DVB字幕的“像素對象”概念中找到基于像素的字幕添加方案的示例。
發(fā)明內(nèi)容
本發(fā)明的要點是一種包括增強的語法和語義元素的字幕格式,用于提供改進的動畫能力。所公開的元素改進了字幕性能,而不會對可用的字幕比特率造成壓力。這對于創(chuàng)作預(yù)記錄格式的高端HDTV字幕的內(nèi)容來說是必需的,這些內(nèi)容可以被廣播,或者被存儲在例如藍光盤之類的高容量光學介質(zhì)上。本發(fā)明包括針對動畫字幕、改進內(nèi)容產(chǎn)品的創(chuàng)作可能的能力。
本公開介紹了語法和語義元素,它們描述要顯示的圖形的各個部分的色彩改變。這可以用于例如卡拉OK之類的應(yīng)用中的高亮效果,避免了像素數(shù)據(jù)的重復(fù)傳輸。
所公開的語法和語義的其他元素有助于在顯示字幕之前對其各個部分進行剪切的能力。通過使用隨后傳輸用于要顯示的對象的剪切參數(shù)的技術(shù),字幕的比特節(jié)約動畫變?yōu)榭赡?。例如,這種剪切參數(shù)可以用來生成利用擦除框、百葉窗、滾動、擦除、方格框等的文本變化。
另外,所公開的元素可以用來提供對文本和圖形信息的交互性。尤其是可以基于用戶的請求來處理字幕的位置和/或色彩設(shè)置。
參考附圖和附表描述了本發(fā)明的典型實施例,其中圖1示出了增強PCS和RCS的segment_type值;圖2示出了增強頁面合成段;圖3示出了增強區(qū)域合成段;圖4示出了字幕區(qū)域及其在頁面內(nèi)的位置的定義示例;圖5示出了區(qū)域子CLUT和區(qū)域剪切的定義示例;圖6示出了所得到的顯示示例;圖7示出了字幕的交互式使用;圖8示出了視頻和圖形平面;圖9示出了視頻和圖形混合和切換。
具體實施例方式
本發(fā)明優(yōu)選地可以基于DVB字幕規(guī)范(DVB-ST)的語法和語義來實現(xiàn)。為了向圖形字幕元素的操作提供改進的能力,擴展了DVB-ST的頁面合成段(PCS)和區(qū)域合成段(RCS)的語義。
DVB-ST使用頁面合成段(PCS)來描述顯示屏幕上一個或多個矩形區(qū)域的位置。區(qū)域合成段(RCS)用來定義任何這種矩形區(qū)域的大小,并識別其中使用的色彩查找表(CLUT)。
本發(fā)明通過對增強的PCS和RCS元素使用不同的segment_type,保持了DVB-ST的后向兼容性,在圖1中列出了根據(jù)DVB-ST的段類型值,以及用于增強PCS和增強RCS的附加值。當然也可以選擇其他值。另一種保持后向兼容性的方法是,保持現(xiàn)有的segment_type,并且例如通過增加PES_data_field結(jié)構(gòu)中的subtitle_stream_id,來增加規(guī)范的version_number。
圖2示出了包括region_cropping段和region_sub_CLUT段的增強頁面合成段(PCS)的數(shù)據(jù)結(jié)構(gòu)。圖3示出了包括用于子色彩查找表的標識符sub_CLUT_id的增強區(qū)域合成段(RCS)的數(shù)據(jù)結(jié)構(gòu)。對于原始的DVB-ST,擴展了所有示出的結(jié)構(gòu)。在表中,圖2中的第15~28行以及圖3中的第16行是附加的條目。
圖2所示的增強PCS攜帶有關(guān)于區(qū)域剪切的可選信息以及關(guān)于所列出的每個區(qū)域的region_sub_CLUT的可選信息。region_cropping和region_sub_CLUT的兩個值指示這些可選信息對當前正在處理的區(qū)域是否可用。因此,可以對每個區(qū)域分別定義剪切和子CLUT。雖然使用region_cropping作為標志,如“if region_cropping==0x01”所指示的那樣,但是,region_sub_CLUT示出了有多少個子CLUT位置被描述。這樣做是為了在流內(nèi)提供不同的替代物。可以使用其他子CLUT位置,針對顯示屏幕定義不同的菜單按鍵位置。它們之中僅有一個——默認為第一個——被激活,并且用戶例如可以通過按動遙控器來改變位置,從而通過不同的預(yù)定義位置進行瀏覽。
圖3所示的增強RCS攜帶有sub_CLUT_id,其識別應(yīng)用于該區(qū)域的CLUT族。這樣做是為了對不同的區(qū)域以及不同的區(qū)域子CLUT重復(fù)使用CLUT。
增強PCS和增強RCS元素提供了能夠獨立于編碼方法(即獨立于其被編碼為字符數(shù)據(jù)或像素數(shù)據(jù))地處理字幕的能力。
可以使用增強PCS和RCS來對字幕執(zhí)行許多不同的動畫效果。這些效果包括擦除框(wiping box)、百葉窗(blind)、滾動、擦除、方格框(checker box)等。下一附圖示出了對于卡拉OK的應(yīng)用示例。圖4示出了區(qū)域R的定義,其中區(qū)域R包括為卡拉OK而顯示的歌曲的歌詞。字幕的文字可以被編碼為像素數(shù)據(jù)或字符數(shù)據(jù)。region_vertical_address RVA和region_horizontal_address RHA定義了字幕在幀或頁面PG內(nèi)的位置,以進行顯示。
圖5在上邊部分描述了區(qū)域剪切,在下邊部分描述了區(qū)域子CLUT的位置。區(qū)域剪切定義了區(qū)域的哪個部分被有效顯示。這通過四個參數(shù)RHC、RVC、RCH、RCW來實現(xiàn),這四個參數(shù)指示要顯示的幀的開始坐標和大小。region_horizontal_cropping RHC指定該剪切的左上像素的水平地址,region_vertical_cropping RVC指示該剪切的最上一行的垂直地址,region_cropping_width RCW指示該剪切的水平長度,region_cropping_height RCH指示該剪切的垂直長度,其中剪切表示字幕在顯示器上可見的那部分。
在圖5的下邊部分所示的區(qū)域子CLUT位置定義區(qū)域的哪個部分必須使用不同于區(qū)域CLUT的色彩查找表(CLUT)來顯示。這通過四個參數(shù)SCHA、SCVA、SCH、SCW來實現(xiàn),這四個參數(shù)指示子CLUT所使用的子區(qū)域的開始坐標和大小。所有的坐標參數(shù)應(yīng)該相對于該子CLUT所屬的區(qū)域來理解。sub_CLUT_horizontal_address SCHA指定該子CLUT的左上像素的水平地址,sub_CLUT_vertical_address SCVA指定該子CLUT的最上一行的水質(zhì)地址,sub_CLUT_width SCW指定該子CLUT的水平長度,sub_CLUT_height SCH指定該子CLUT的垂直長度。
將使用前面的附圖所定義的所有參數(shù)集合起來,得到所顯示的字幕,如圖6所示。字幕并沒有全部顯示在顯示器上,而是只顯示了其被剪切的部分。另外,使用子CLUT來提供高亮HT,從而用戶知道此時該唱什么了。
因為在由表示時間標記(PTS)所標示的MPEG分組基本流(PES)分組內(nèi)發(fā)送增強PCS,所以任何效果都可以與AV同步。
本發(fā)明的另一思想是由用戶來替換字幕動畫參數(shù)。這提供了一種實現(xiàn)交互式字幕的方法。默認情況下傳輸增強PCS參數(shù),并且用戶例如可以通過遙控器來改變它們。這樣,用戶能夠移動、剪切或加亮字幕。
這可能對字幕文本的用戶定義重定位是有益的,從而用戶可以主觀地使得放置在活動視頻上的字幕文本所引起的煩擾最小。還可以根據(jù)用戶喜好來設(shè)置字幕的色彩。圖7示出了交互式字幕改進的方框圖。使用依據(jù)用戶動作UA生成并由處理器P進行處理的替換數(shù)據(jù)SD來替換從盤D讀取的默認參數(shù)DD。
覆蓋如位置、剪切矩形、CLUT和子CLUT之類的字幕動畫參數(shù)的另一應(yīng)用是實現(xiàn)一些非?;绢愋偷慕粨Q游戲。字幕可以攜帶動畫字符的像素數(shù)據(jù)。該字符隨后移動到顯示屏幕上,顯示屏幕由用戶交互、節(jié)目控制或同時由這兩者來驅(qū)動。
至少可以按照兩種方式來實現(xiàn)字幕動畫參數(shù)的覆蓋。第一種選擇是,覆蓋參數(shù)SD取代位流中所發(fā)送的參數(shù)DD。第二種選擇是,使用覆蓋參數(shù)SD作為添加到位流中所發(fā)送的字幕動畫參數(shù)DD或從其中減去的偏移量。增強PCS和RCS提供了許多其他并未解釋的動畫能力。下面詳細列出了非窮舉的示例擦除框、百葉窗、滾動、擦除、方格框。
圖8以示例、示意的方式示出了典型的視頻和圖形平面。背景由MPEG-2視頻層MVL或靜止畫面層SPL提供。它們是互斥的,這意味著不必在緩沖區(qū)中同時保持這兩者。接下來兩層包括字幕層SL和AV同步類型圖形層AVSGL。這兩層在該示例中是可交換的,這意味著字幕層SL或AV同步類型圖形層AVSGL中一個相對于另一個可以具有優(yōu)先級。前面一層是非AV同步圖形層NAVSGL,其包括不需要與AV內(nèi)容同步的圖形,例如菜單或其他屏上顯示。本發(fā)明的方法優(yōu)選地可以用于字幕層SL、AV同步圖形層AVSGL和/或非AV同步圖形層NAVSGL。
圖9示出了用于視頻和圖形混合和切換的裝置的相關(guān)組件。從盤D獲取數(shù)據(jù),包括靜止畫面數(shù)據(jù)或MPEG-2視頻數(shù)據(jù),還包括用于字幕的數(shù)據(jù)、用于動畫的數(shù)據(jù)和用于如菜單按鍵之類的非AV同步圖形的數(shù)據(jù)。另外,也可以從網(wǎng)絡(luò)NW(例如,因特網(wǎng))接收用于字幕、動畫和/或非AV同步圖形的數(shù)據(jù)。處理單元CPU處理非AV同步圖形數(shù)據(jù),并將得到的數(shù)據(jù)發(fā)送到用于非AV同步圖形的呈現(xiàn)設(shè)備RNAVG。
該裝置包括靜止畫面解碼器SPDec和MPEG-2視頻解碼器MVDec,但是因為在同一時間只能使用其中一個,所以開關(guān)s1可以選擇哪個數(shù)據(jù)應(yīng)該用于進一步的處理。此外,兩個相同的解碼器AVSGDec1、AVSGDec2被用來對字幕和動畫數(shù)據(jù)解碼。這兩個解碼器AVSGDec1、AVSGDec2的輸出可以被獨立的開關(guān)s2、s3切換到混合器MX,或者切換到混合器和定標器MXS以進行預(yù)處理,MXS將其得到的數(shù)據(jù)輸出到所述混合器MX。這兩個單元MX、MXS被用來執(zhí)行對其各種輸入數(shù)據(jù)的疊加,由此控制各層的顯示順序?;旌掀鱉X具有用于前面層f2、中前層mf、中后層mb和背景層b2的輸入。如果相應(yīng)的開關(guān)s3所處的位置是將第二AV同步圖形解碼器AVSGDec2連接到混合器和定標器MXS,則可以不使用前面層f2。該單元MXS具有用于前面層f1、中間層m和背景層b1的輸入。其將這些數(shù)據(jù)相應(yīng)地疊加,并將得到的畫面數(shù)據(jù)發(fā)送到混合器MX的背景輸入b2。這樣,這些數(shù)據(jù)例如表示了一幀,該幀包括多至三層的畫面和字幕,這三層的畫面和字幕可以在最終的畫面內(nèi)一起被定標和移動。混合器和定標器MXS的背景輸入b1連接到上述開關(guān)s1,從而可以由靜止畫面或MPEG-2視頻生成背景。
第一AV同步圖形解碼器AVSGDec1的輸出連接到第二開關(guān)s2,第二開關(guān)s2可以將該輸出切換到混合器和定標器MXS的中間層輸入m,或者切換到混合器MX的中后層輸入mb。第二AV同步圖形解碼器AVSGDec2的輸出連接到第三開關(guān)s3,第三開關(guān)s3可以將該輸出切換到混合器和定標器MXS的前面層輸入f1,或者切換到混合器MX的中前層輸入mf。
如上所述,根據(jù)第二和第三開關(guān)s2、s3的位置,第一或第二AV同步圖形解碼器AVSGDec1、AVSGDec2中一個的輸出相對于另一個可以具有優(yōu)先級。為了使來自第一解碼器AVSGDec1的數(shù)據(jù)在前景中,第二開關(guān)s2可以將字幕數(shù)據(jù)路由到混合器MX的中后層輸入mb,而第三開關(guān)s3將動畫圖形數(shù)據(jù)路由到混合器和定標器MXS的前面層輸入f1,從而其結(jié)束于混合器MX的背景輸入b2處。否則,為了使來自第二解碼器AVSGDec2的數(shù)據(jù)在前景中,開關(guān)s2、s3可以將它們的數(shù)據(jù)路由到相同單元,或者是混合器和定標器MXS,或者是混合器MX,如圖9所示。
權(quán)利要求
1.一種對用于音頻/視頻表示的字幕進行合成的方法,其中字幕信息與音頻/視頻材料分離,并且字幕信息是從網(wǎng)絡(luò)或如盤之類的存儲介質(zhì)傳輸過來的,所述方法的特征在于使用一個或多個字幕層;和在顯示一層或多層的字幕之前,對其各部分進行剪切,從而一次只顯示所傳輸?shù)淖帜坏倪x中部分(RHC、RVC、RCH、RCW)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述字幕的指定部分(SCHA、SCVA、SCH、SCW)的色彩可以修改。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于用戶可以交互式地移動、剪切或加亮字幕,或者可以交互式地修改字幕的色彩。
4.根據(jù)前述權(quán)利要求中任何一項所述的方法,其特征在于所述字幕可以包括圖形。
5.根據(jù)前述權(quán)利要求任何一項所述的方法,其特征在于所述AV材料和所述字幕符合DVB-ST標準。
6.一種用于對字幕進行合成的裝置,所述裝置混合并切換視頻和圖形數(shù)據(jù),所述數(shù)據(jù)是從存儲介質(zhì)讀取的,或者是從網(wǎng)絡(luò)接收到的,并且包括靜止畫面數(shù)據(jù)或MPEG視頻數(shù)據(jù)、用于至少兩層字幕或動畫的數(shù)據(jù),并且可選地包括用于非同步圖形的數(shù)據(jù),所述裝置包括混合器(MX),其可以疊加背面層、至少兩個中間層和前面層的視頻數(shù)據(jù);混合器和定標器(MXS),其可以疊加背面層、中間層和前面層的視頻數(shù)據(jù),所述混合器和定標器(MXS)將其輸出數(shù)據(jù)提供給所述混合器(MX);視頻解碼器(MVDec)和/或靜止畫面解碼器(SPDec),其中可以將所述視頻解碼器或所述靜止畫面解碼器的輸出數(shù)據(jù)切換(s1)到所述混合器和定標器(MXS);至少兩個同時工作的用于同步圖形或字幕的解碼器(AVSGDec1、AVSGDec2),其中可以將每個所述解碼器的輸出切換(s2、s3)到所述混合器(MX)或所述混合器和定標器(MXS),并且其中所述解碼器(AVSGDec1、AVSGDec2)可以選擇其輸入數(shù)據(jù)的一部分(RHC、RVC、RCH、RCW)進行輸出,用于顯示;用于非同步圖形的呈現(xiàn)器,其向所述混合器(MX)提供數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于解碼器(AVSGDec1、AVSGDec2)可以將不同的色彩查找表應(yīng)用于字幕層的指定部分(SCHA、SCVA、SCH、SCW)。
8.根據(jù)權(quán)利要求6或7中任何一項所述的裝置,其特征在于包括字幕解碼器(ST-DEC),其能夠用依據(jù)用戶動作生成的其他字幕參數(shù)(SD)來代替默認字幕參數(shù)(DD),以交互式地修改或加亮字幕。
9.根據(jù)權(quán)利要求6至8中任何一項所述的裝置,其特征在于所述數(shù)據(jù)符合DVB-ST標準。
全文摘要
本發(fā)明的要點是一種包括增強的語法和語義元素的字幕格式,用于提供改進的動畫能力。所公開的元素改進了字幕性能,而不會對可用的字幕比特率造成壓力。這對于創(chuàng)作預(yù)記錄格式的高端HDTV字幕的內(nèi)容來說是必需的,這些內(nèi)容可以被廣播,或者被存儲在例如藍光盤之類的高容量光學介質(zhì)上。本發(fā)明包括針對動畫字幕、改進內(nèi)容產(chǎn)品的創(chuàng)作可能的能力。對于與AV材料相分離的字幕,該方法包括使用一個或多個疊加的字幕層,并且一次只顯示所傳輸?shù)淖帜坏倪x定部分。另外,所顯示的字幕的選定部分的色彩可以修改,例如,被加亮。
文檔編號H04N5/445GK1711756SQ200380103259
公開日2005年12月21日 申請日期2003年11月3日 優(yōu)先權(quán)日2002年11月15日
發(fā)明者迪爾克·阿道夫, 約布斯特·霍倫特魯普, 拉爾夫·奧斯特曼, 哈特穆特·彼得斯, 哈拉爾德·席勒 申請人:湯姆森許可貿(mào)易公司