專利名稱:用于控制向第一格式圖像序列插入附加場或幀以從中建立第二格式圖像序列的方法和裝置的制作方法
技術領域:
本發(fā)明涉及用于控制向具有例如每秒24幀逐行掃描幀的第一格式圖像序列插入附加場或者幀,以從中建立具有例如每秒25幀的第二格式圖像的方法和裝置。
背景技術:
世界上主要的電視系統(tǒng)采用隔行掃描并且采用50Hz的場頻率(例如在歐洲和中國采用PAL和SECAM),或者60Hz或接近60Hz的場頻率(例如在美國和日本采用NTSC),分別以50i和60i來表示。然而,電影是采用由24p代表的24Hz的幀頻率及逐行掃描制作而成的,這個值在隔行掃描格式下對應于48i。
目前,從24p的電影到60Hz隔行掃描顯示的轉(zhuǎn)換是由圖2所示的“3:2下拉”技術完成的,其中由場循環(huán)在每五個場后加入一個3:2下拉場。隔行掃描場ILF源自于原始的電影幀ORGFF。從第一原始電影幀OFR1產(chǎn)生三個輸出場OF1到OF3,并且從第三原始電影幀OFR3產(chǎn)生三個輸出場OF6到OF8。從第二原始電影幀OFR2產(chǎn)生兩個輸出場OF4和OF5,并且從第四原始電影幀OFR4產(chǎn)生兩個輸出場OF9和OF10,等等。
比較理想的是所發(fā)行媒體具備可以在全世界播放的單一視頻音頻格式,而不是像目前的情況,針對每一套裝媒體例如DVD至少存在50Hz和60Hz兩個版本。因為很多媒體源都是由24fps(幀每秒)的電影組成,該24p的格式就優(yōu)選地成為理想的單一視頻格式,因此該單一的格式需要適應在所述采用50Hz和60Hz的國家的顯示設備上進行正確顯示的回放時間。
以下是用于從24p到25p或者50i,或者更概括地說到25fps的已知轉(zhuǎn)換方案-以快4.2%的速度重放這會改變所述內(nèi)容的長度并且要求昂貴的實時音頻音調(diào)轉(zhuǎn)換,因此并不適用于消費電子產(chǎn)品。目前,電影播放以及DVD確實將該種方案應用于視頻,但是所必需的音頻速度或者音調(diào)轉(zhuǎn)換已經(jīng)在內(nèi)容提供商一端進行了處理,從而在消費者一端不需要進行音頻音調(diào)轉(zhuǎn)換。在采用50Hz的國家銷售的DVD視頻光盤包括音頻數(shù)據(jù)流,這些音頻數(shù)據(jù)流已經(jīng)被編碼從而使得所述DVD播放器的解碼器自動的輸出所述音頻信號的正確速度或者音調(diào)。
-采用常規(guī)場/幀復制機制該方案會導致不可接受的常規(guī)的運動抖動,并且因此在實際中無法應用。
-采用運動補償幀速度轉(zhuǎn)換該方案是解決該轉(zhuǎn)換問題的普遍方案,該方案十分昂貴,因此并不適用于消費電子產(chǎn)品。
發(fā)明內(nèi)容
目前,從原始的24p格式電影視頻及音頻數(shù)據(jù)流到50Hz的隔行掃描顯示的轉(zhuǎn)換是通過以快4%的速度重放所述電影來實現(xiàn)的。然而這意味著,要對采用50Hz的國家的電影的藝術內(nèi)容(它的持續(xù)時間,聲音的音調(diào))進行修改。類似于3:2下拉技術的場/幀重復機制并沒有被采用,因為在常規(guī)情況下采用所述機制時,例如每12幀插入一個額外的場,所述機制表現(xiàn)出不可接受的運動抖動現(xiàn)象。
本發(fā)明要解決的問題在于提供場或幀插入機制,以改進的方式實現(xiàn)從24p格式到25fps格式的轉(zhuǎn)換,從而使運動抖動現(xiàn)象最小化。解決該問題的方法由權利要求1所述。權利要求2所述的裝置對該方法進行了應用。
對當前電影場景的特性例如全局運動,亮度/強度級別以及場景變換位置進行評估,以在主觀認為不令人厭煩的位置上應用復制或重復的幀/場。也就是說,本發(fā)明采用相對容易得到的待從24p轉(zhuǎn)換到25fps的所述源材料的信息,用于在導致插入現(xiàn)象最小的非等距位置適應性的插入重復的場/幀。有利地,在源的幀速率和目標幀速率之間具有微小差距的情況下,本發(fā)明可以用于所有的幀速率轉(zhuǎn)換問題。如果該幀速率差別很大,例如在24fps到30fps的轉(zhuǎn)換中,幾乎就沒有在時域進行移動或者對幀進行重復的的自由度。
本發(fā)明促進了以低計算成本實現(xiàn)從24fps到25fps格式圖像序列(示例值)的轉(zhuǎn)換,并使運動抖動最小化。
總的來說,本發(fā)明所記載的方法適用于控制向第一格式圖像序列插入附加的場或者幀,以從中建立第二格式圖像序列,所述第二格式圖像序列的幀頻率是恒定的并且大于所述第一格式圖像序列的幀頻率,所述方法包括下列步驟-確定所述第一格式圖像序列中的場或者幀位置,在該位置上插入相應的附加場或者幀,從而使得在第二格式圖像序列中可見的運動抖動最??;-以非常規(guī)的場或者幀插入距離在所述第一格式圖像序列中的一些所述位置插入場或者幀,從而使得總的來說任何臨近幀之間平均距離對應于所述第二格式圖像序列的臨近幀之間的平均距離;-采用所述第二格式圖像序列的格式一起呈現(xiàn)所述第一格式圖像序列以及所述非常規(guī)插入的場和/或幀,總的來說,本發(fā)明所記載的裝置適用于控制向第一格式圖像序列插入附加的場或者幀,以從中建立第二格式圖像序列,所述第二格式圖像序列的幀頻率是恒定的并且大于所述第一格式圖像序列的幀頻率,所述裝置包括用于確定在所述第一格式圖像序列中的場或幀位置的部件,在該位置上插入對應的附加場或幀,從而使所述第二格式圖像序列中的可見運動抖動最小,所述裝置還用于以非常規(guī)場或幀插入距離在一些所述位置上向所述第一格式圖像序列插入場或幀,從而使得總體來說任何臨近幀之間的平均距離對應于所述第二格式圖像序列中任何臨近幀之間的平均距離,所述裝置還用于以所述第二格式圖像序列的格式一起呈現(xiàn)所述第一格式圖像序列以及所述非常規(guī)插入的場和/或幀。
在從屬權利要求中對本發(fā)明其他具有優(yōu)勢的實施例分別予以說明。
參照以下附圖對本發(fā)明具體實施例進行詳細描述,其中圖1所示為光盤播放器的簡要框圖;圖2所示為在24p源圖像序列上采用3:2下拉技術以提供60i的圖像序列的應用;圖3所示為重復幀的常規(guī)排列;圖4所示為重復場的常規(guī)排列;圖5所示為根據(jù)圖3進行常規(guī)幀重復的時間軸;圖6所示為視頻序列對于運動抖動的示例容許值;圖7所示為進行場或幀重復的示例非常規(guī)時間位置以及所導致的變化呈現(xiàn)延遲;圖8所示為作為視頻延遲以及運動抖動容許值函數(shù)的幀或場重復距離;圖9所示為圖8所示的幀或場重復距離函數(shù),其中所述最大和最小視頻延遲取決于所要求的唇同步程度;圖10所示為包括沒有進行運動補償?shù)闹貜蛶?4fps格式幀;圖11所示為與圖10相關的25fps格式幀輸出;圖12所示為包括進行了運動補償?shù)闹貜蛶?4fps格式幀;圖13所示為與圖12相關的25fps格式幀輸出。
具體實施例方式
在圖1中一個光盤驅(qū)動器從光盤D讀入以24p格式編碼的視頻和音頻信號,所述光盤驅(qū)動器包括讀取頭和糾錯PEC。所述輸出信號經(jīng)過一個軌道緩沖器以及多路分離器TBM分別到達視頻解碼器VDEC以及音頻解碼器ADEC??刂破鰿TRL可以控制PEC、TBM、VDEC和ADEC。用戶接口UI,和/或在電視接收器或顯示器(沒有示出)與所述光盤播放器之間的接口IF,被用于將所述播放器的輸出轉(zhuǎn)換到24fps模式或者25fps模式。所述接口IF可以自動檢查所述電視接收器或者顯示器可以處理并呈現(xiàn)的模式。所述重放模式信息自動地源自于接口IF接收到的特征數(shù)據(jù)(即關于所述電視接收器或者顯示器可用的顯示模式的數(shù)據(jù)),所述接口IF通過有線、無線電波或者光學方式與所述電視接收器或者顯示設備相連。所述特征數(shù)據(jù)可以常規(guī)地由所述接口IF接收,或者通過向所述電視接收器或者顯示設備發(fā)出相應的請求而得到。作為選擇,所述重放模式信息可以通過向用戶顯示相應請求而通過所述用戶接口UI被輸入。在25fps的輸出來自于所述視頻解碼器VDEC、所述控制器CTRL,或者來自于所述視頻解碼器VDEC自身的情況下,根據(jù)所述被解碼視頻信號的特性來確定在哪個時間位置上由所述視頻解碼器對場或幀進行重復。在本發(fā)明的一些實施例中,這些時間位置也如下所述地被所述來自于音頻解碼器ADEC的音頻信號所控制。除了光盤播放器,本發(fā)明也可以被用于其他類型的設備,例如數(shù)字機頂盒或者數(shù)字電視接收器,在這種情況下包括所述光盤驅(qū)動器以及軌道緩沖器的前端會被數(shù)字信號調(diào)諧器所替代。
圖3所示為重復幀的常規(guī)排列,其中為了實現(xiàn)從已知24p到25fps的轉(zhuǎn)換,每24幀重復一幀,即在tn,tn+1,tn+2,tn+3,等秒進行重復。圖4所示為重復場的常規(guī)排列,其中為了實現(xiàn)從已知24p到25fps的轉(zhuǎn)換,每24場重復一場,即在tn,tn+0.5,tn+1,tn+1.5,tn+2,等秒進行重復。如果所述顯示設備具有隔行掃描輸出則可以采用該種處理方法。在所述時間軸上發(fā)生抖動的位置數(shù)目加倍,但是相對于所述幀重復,每次“抖動事件”的強度減半。頂部的場源自于所述源序列指定幀的第一、三、五等線,且底部的場來自于所述源序列指定幀的第二、四、六等線。圖5所示為根據(jù)圖3進行常規(guī)幀重復的時間軸,在標記著tn,tn+1,tn+2,tn+3,等秒的時間位置發(fā)生幀重復。
為了實現(xiàn)在非等距(或者不規(guī)律)的位置適應性地插入重復場或者幀,就需要相應的控制信息。有關源材料的內(nèi)容信息以及圖像信號特征,在根據(jù)例如MPEG-2視頻,MPEG-4視頻或者MPEG-4視頻第10部分的機制對所述圖像序列進行壓縮時即可獲得,該信息和特征將不僅被用于產(chǎn)生廣播和套裝媒體例如DVD,還可被用于未來的媒體例如基于藍光技術的光盤。在本發(fā)明中有用的圖像信號特征或信息是-被產(chǎn)生和/或傳輸?shù)倪\動矢量,-由編碼器產(chǎn)生的場景變換信息,-平均亮度或者強度信息,該信息可以源自于對DC轉(zhuǎn)換系數(shù)的分析,-平均紋理強度信息,該信息可以源自于對AC轉(zhuǎn)換系數(shù)的分析。
該圖像信號特征可以作為MPEG用戶數(shù)據(jù)或者專用數(shù)據(jù)通過光盤或者廣播從所述編碼器傳遞到所述解碼器。作為選擇,所述視頻解碼器可以收集或者計算并提供該信息。
為了對運動矢量信息進行利用,對每一幀的運動矢量組MV進行收集和處理,以判斷當前幀是否包含大塊的可見移動區(qū)域,因為這樣的區(qū)域在復制幀或者場時受運動抖動影響最大。為了判斷該種區(qū)域的出現(xiàn)情況,可以對一幀的平均絕對矢量長度AvgMVi進行計算,以作為平移運動的指示AvgMVi=1VX·VYΣx=0VX-1Σy=0VY-1|MVx,y|,---(1)]]>其中“i”代表幀號碼,“VX”以及“VY”代表在圖像x(水平)和y(豎直)方向的運動矢量數(shù)目。因此,一般將各方向上的圖像大小除以運動估計的塊大小可以分別得到VX和VY。
如果在一幀內(nèi)的運動矢量指向與當前幀相距不同的時間距離的不同參考幀,還需要一個對該距離進行規(guī)格化的因數(shù)RDistx,yAvgMVi=1VX·VYΣx=0VX-1Σy=0VY-1|MVx,y|RDistx,y.---(2)]]>在采用了更加復雜的處理過程的本發(fā)明的另一實施例中,對每幅圖像的運動分割進行了計算,即確定由鄰近并且具有相似的運動矢量長度和方向的塊組成的一個或多個簇,從而對具有不同運動方向的足夠大的運動區(qū)域進行檢測。在該種情況下,對所述平均運動矢量的計算如下AvgMVi=Σc=1nClustersAvgMVc·ClusterSizecΣc=1nClustersClusterSizec,---(2a)]]>其中AvgMVc是確定簇“c”的平均運動矢量長度。
有利地,該方案排除了在圖像內(nèi)部隨機移動的小對象帶來的運動矢量影響,所述小對象并不是任何確定的塊簇運動的組成部分,也不會對運動抖動的可見度帶來很大影響。
所述處理過程會將所述移動區(qū)域的紋理是否非常粗糙或者具有非常尖銳的邊緣作為AvgMVi的權重因數(shù),因為這也會提高運動抖動的可見度。有關紋理強度的信息可以最方便的源自于對被傳輸或被接收或被重放的估計誤差的AC轉(zhuǎn)換系數(shù)的統(tǒng)計分析。總的來說,應該通過對原始圖像塊進行分析來確定紋理強度,然而在很多情況下,所述具有強烈紋理的塊在采用運動補償估計進行編碼后,在這些塊的AC系數(shù)中也會比具有較弱紋理的塊更多的估計誤差能量。因此,在所述視頻序列的特定時間位置上的所述運動抖動容許值MJT可以被表達為MJT=f(AvgMV,紋理強度,邊緣強度)(3)并具備以下一般特性-已知確定的紋理強度值和邊緣強度值,MJT與1/AvgMV成比例;-已知確定的AvgMV值和邊緣強度值,MJT與1/(紋理強度)成比例;-已知確定的AvgMV值和紋理強度值,MJT與1/(邊緣強度)成比例。
圖6所示為源序列的運動抖動的示例容許值MJT(t)。
優(yōu)選地,如圖7a所示,當前所述運動抖動容許值的大小影響重復幀或者場的分布,即所述幀或者場的重復距離FRD,這些重復幀或者場被插入以得到25fps序列。如圖7b所示,提早或者延遲插入重復幀會引起所述音頻軌道相對于視頻軌道的負向或者正向延遲,即視頻的變化呈現(xiàn)延遲。當從運動抖動容許值MJT到幀或者場重復距離FRD之間建立映射的時候,要對在兩個方向上能容許的最大的視頻相對于音頻的延遲加以考慮。
圖8所示為解決該控制問題的一個可能的方案。所述幀或者場重復距離FRD可以表達為所述視頻延遲VD以及所述運動抖動容許值MJT的函數(shù)FRD=f(VD,MJT),(4)并具備以下一般特性-已知確定的VD值,F(xiàn)RD與1/MJT成比例;-已知確定的MJT值,F(xiàn)RD與1/VD成比例;如圖8所示,這個關系可以通過FRD=f(VD)的特性來表達,該特性的變化取決于所述運動抖動容許值,在運動抖容許值低的情況下(例如高度運動的情況),傾向于比被插入幀之間的最優(yōu)距離長的距離,并在運動抖動容許值高的情況下(例如低于平均運動水平的情況),傾向于比最優(yōu)距離短的距離。所述最優(yōu)場或者幀重復距離由FRDopt所代表。所允許的最大視頻延遲由VDmax所代表。在負方向所允許的最大視頻延遲由VDmin所代表。
由于在場景變化位置的短暫停幀效果并不被認為是令人厭煩的,由視頻編碼器產(chǎn)生的(或由視頻解碼器產(chǎn)生的)場景變化信息可以用于在該位置上插入一個或多個重復的場或者幀,所重復的次數(shù)取決于當前視頻延遲的程度。由于相同的原因,可以在逐漸變黑序列、逐漸變白序列或者逐漸趨近于任一顏色的序列之后插入重復的場或者幀。所有這樣的特定位置都具有非常高的MJT值。
很顯然,在所述位置可以采用重復的幀,盡管在其他圖像內(nèi)容中在個別的位置上僅對場進行重復以降低運動抖動強度??偟膩碚f,重復的幀和重復的場可以在被轉(zhuǎn)換的圖像序列中共存。
對于可感知的唇同步來說,通常能夠接受的延遲范圍僅僅在至少有一個演講者出現(xiàn)在所述場景以內(nèi)的時候才需要被遵守。因此,當沒有演講者出現(xiàn)的時候,在音頻和視頻呈現(xiàn)之間的延遲可以大于上述范圍。在快速運動場景的情況下通常是這種情況。因此,可以如圖9所示進行附加控制,從而可以使所述視頻延遲范圍VDmin和VDmax在以下數(shù)值之間進行平穩(wěn)的轉(zhuǎn)換或者調(diào)整-在唇同步可接受值VDminLipSync和VDmaxLipSync之間,如果所檢測到語音或者短的聲音峰值(由特殊事件如拍門引起的)以及緩慢移動或者靜態(tài)的場景;-否則就在更大的VD值VDmin和VDmax之間。
對語音的檢測可以源于在例如最常用的多聲道音頻情況下對與左右聲道相關的中央聲道進行的評估,因為在電影中語音通常被編碼入所述中央聲道。如果所述中央聲道表現(xiàn)出隨著時間爆發(fā)的能量分布,并且該分布顯著的區(qū)別于所述左右聲道的能量分布,那么出現(xiàn)語音的可能性就很高。
上述為了適應性地確定所述本地幀重復距離而進行的控制對于通過視頻序列的一次運算來說是有效的。然而,所述控制受益于在許多專業(yè)MPEG-2編碼器中進行的二重運算編碼處理。在該種情況下,所述二重運算的第一次運算用于收集所述運動強度曲線,場景切換位置以及需要嚴格唇同步的場景的序號、標號、位置以及長度,黑幀,等等。隨后應用經(jīng)過改進的控制機制,該機制不僅考慮到目前處理的幀及其過去幀的可用信息,還對過去以及未來幀的相鄰幀信息加以考慮FRD(i)=f(VD,MJT(i-k)...MJT(i+k)),(5)其中“i”代表當前幀的號碼,且“k”代表以臨近幀為參考的流水號。每個這樣的函數(shù)的普遍特性是如果MJT(i)小于周圍的MJT值則FRD增大,且如果MJT(i)大于周圍的MJT值的則FRD減小。相關的圖像信號特性可以作為MPEG用戶數(shù)據(jù)或者專用數(shù)據(jù)通過光盤或者廣播信號從所述編碼器向所述解碼器進行傳遞。
在本發(fā)明的另一個實施例中,在特定情況下采用運動補償插值幀而不是重復幀并不會產(chǎn)生運算方面的花費。該運動補償插值可以將被傳輸?shù)倪\動矢量應用于當前幀。一般來說,該運動矢量不適用于運動補償幀插值,因為這些運動矢量都被優(yōu)化以實現(xiàn)最優(yōu)的估計增益而不是指示真實的運動場景。然而,如果經(jīng)過解碼器對所接收到的運動矢量進行分析后表明所述場景發(fā)生了同類的平移,則可以在當前幀和前一幀之間插入高度精確的一幀。平移的含義是一幀內(nèi)所有的運動矢量在長度以及方向上是相同或者幾乎相同的。因此,被插值幀的產(chǎn)生可以通過以當前幀的平均運動矢量所指示距離的一半對前一幀進行轉(zhuǎn)換來實現(xiàn)。所述前一幀被認為是所述當前幀運動補償估計的參考幀,并且所述被插值幀被置于與所述前一幀和所述當前幀等距的位置。如果所述估計幀不是所述前一幀,則要對平均運動矢量進行必要的縮放。要對根據(jù)接收到的運動矢量而確定存在縮放的情況加以相應的考慮??s放的特征是縮放中心的運動矢量為零,并且在該縮放中心周圍按照從中心向外(或者從外向中心)的方向運動矢量長度增加,所述運動矢量長度的增加與到所述縮放中心的距離相關。
有利地,如圖10到13所示,相對于重復幀該種運動補償插值在運動抖動表現(xiàn)方面作出了改進。圖10和圖11顯示了帶有豎直運動對象的運動軌跡的幀(由豎直的條代表)以及幀重復的一種情況,這會導致‘停幀’現(xiàn)象,其中圖10為采用了24fps的格式的情況,圖11所示為進行25fps格式轉(zhuǎn)換后的情況。圖12所示為以圖13所示的提高的25fps目標幀速率進行呈現(xiàn)時插入運動插值幀的情況,這將導致‘緩慢運動幀’而不是‘停幀’。
如上所述為了實現(xiàn)幀速率轉(zhuǎn)換可以實施對幀和/或場重復以及插值的控制,該控制可以應用于MPEG-2(或者類似)壓縮系統(tǒng)的編碼器和解碼器端,因為在該兩端可以獲得大部分的端信息,可能除了可靠的場景變化指示以外。然而,為了利用所述解碼器的高級圖像序列特性信息,可以在(MPEG-2或者其他)被壓縮的24fps視頻信號中傳送所要進行重復或者插值的場或者幀位置信息。在MPEG-2語法中已經(jīng)存在指示場時間順序的標記(top_field_first)和為了進行顯示而對第一場進行重復的標記(repeat_first_field)。如果要求以信號發(fā)出針對同一視頻信號的從24fps到30fps和從24fps到25fps的轉(zhuǎn)換模式,在每幅圖像的合適的用戶數(shù)據(jù)場中要對上述兩系列標記中的一系列進行傳送。
上面提到的24fps值和25fps值以及其他的數(shù)字都是示例性的數(shù)值,這些值可以相應的用于本發(fā)明的其他應用之中。
本發(fā)明可以應用于-套裝媒體(DVD,藍光光盤,等),-下載媒體包括視頻點播,近視頻點播,等,-廣播媒體。
本發(fā)明可以用于光盤播放器或者光盤刻錄機,或者硬盤錄像機例如HDD錄像機或者PC,還可以應用于機頂盒,或者電視接收器。
權利要求
1.一種方法,用于控制(CTRL,VDEC)向第一格式(24p)圖像序列插入附加的場或者幀,以從中建立第二格式(25fps)圖像序列,所述第一格式圖像序列具有例如基本上為24Hz幀頻率,所述第二格式圖像序列的幀頻率是恒定的例如50Hz,并且大于所述第一格式圖像序列的幀頻率,所述方法包括下列步驟-確定(CTRL,VDEC,ADEC)所述第一格式圖像序列中的場或者幀位置,在該位置上插入相應的附加場或者幀,從而使得在第二格式圖像序列中可見的運動抖動(MJT)最??;-以非常規(guī)的場或者幀插入距離(FRD)在所述第一格式圖像序列中的一些所述位置插入場或者幀,從而使得總的來說任何臨近幀之間平均距離對應于所述第二格式圖像序列的臨近幀之間的平均距離;-采用所述第二格式圖像序列的格式一起呈現(xiàn)所述第一格式圖像序列以及所述非常規(guī)插入的場和/或幀,其特征在于為了達到可感知的唇同步,對所述第一格式圖像序列插入所述場或者幀的位置進行控制,從而使得在所述第二格式圖像序列中由于非常規(guī)插入所引起的最大圖像內(nèi)容延遲保持在小于平均值的范圍內(nèi),以防檢測到緩慢移動或者靜態(tài)的場景以及被分配到所述第一格式圖像序列的音頻信息中的語音。
2.一種裝置,用于控制(CTRL,VDEC)向第一格式(24p)圖像序列插入附加的場或者幀,以從中建立第二格式(25fps)圖像序列,所述第二格式圖像序列的幀頻率是恒定的例如50Hz,并且大于所述第一格式圖像序列的幀頻率例如基本上為24Hz,所述裝置包括部件(CTRL,VDEC,ADEC)用于確定在所述第一格式圖像序列中的場或幀位置,在該位置上插入對應的附加場或幀,從而使所述第二格式圖像序列中的可見運動抖動(MJT)最小,所述裝置還用于以非常規(guī)場或幀插入距離(FRD)在一些所述位置上向所述第一格式圖像序列插入場或幀,從而使得總體來說任何臨近幀之間的平均距離對應于所述第二格式圖像序列中任何臨近幀之間的平均距離,所述裝置還用于以所述第二格式圖像序列的格式一起呈現(xiàn)所述第一格式圖像序列以及所述非常規(guī)插入的場和/或幀,其特征在于,為了達到可感知的唇同步,由所述部件控制在所述第一格式圖像序列內(nèi)插入場或幀的位置,從而在所述第二格式圖像序列中由非常規(guī)插入引起的的最大圖像內(nèi)容延遲保持在低于平均水平的范圍內(nèi),以防檢測到緩慢移動或者靜態(tài)的場景以及在分配給所述第一格式圖像序列的音頻信息中的語音。
3.如權利要求2所述的裝置,其中所述裝置為光盤播放器或者光盤刻錄機,或者硬盤錄像機,例如HDD錄像機或者PC,或者機頂盒,或者電視接收器。
4.如權利要求2或3所述的裝置,所述裝置為光盤播放器或者光盤刻錄機或者硬盤錄像機或者機頂盒,其中所述裝置輸出所述原始的第一格式(24p)圖像序列或者所述第二格式(25fps)圖像序列,這個選擇是由所接收到的重放模式信息來確定的,所述重放模式信息自動地接收于與包括顯示設備在內(nèi)的設備相連的接口(IF),或者接收于用戶接口(UI)。
5.如權利要求1所述的方法,或者如權利要求2-4中任一所述的裝置,其中對分配給所述第一格式圖像序列的所述音頻信息中的語音的檢測,是通過在多聲道音頻中進行評估,以判斷所述中央聲道相對于左和右聲道是否表現(xiàn)出隨時間爆發(fā)的能量分布,該分布明顯區(qū)別于所述左和右聲道的能量分布。
6.如權利要求1或5所述的方法,或者如權利要求2-5中任一所述的裝置,其中所述第一格式(24p)圖像序列儲存或者記錄在存儲介質(zhì)(D)上,例如光盤或者硬盤,或者作為數(shù)字電視信號被廣播或者傳播。
7.如權利要求1、5和6中任一所述的方法,或者如權利要求2-6中任一所述的裝置,其中在所述第一格式圖像序列中插入場或者幀的位置是不包含大塊的運動圖像內(nèi)容區(qū)域的場或者幀,所述運動可以通過對運動矢量的評估來進行確定。
8.如權利要求1、5-7中任一所述的方法,或者如權利要求2-7中任一所述的裝置,其中在所述第一格式圖像序列中插入場或者幀的位置是發(fā)生場景變化或者逐漸變黑或者逐漸變白或者逐漸變?yōu)槿我活伾膱龌驇?br>
9.如權利要求1、5-8中任一所述的方法,或者如權利要求2-8中任一所述的裝置,其中在所述被插入的場或者幀被輸出到所述第二格式圖像序列中之前,對所述被插入的場或者幀進行運動補償。
10.如權利要求1、5-9中任一所述的方法,或者如權利要求2-9中任一所述的裝置,其中所述第一格式圖像序列為MPEG-2圖像序列,并且通過評估標記對于向所述第一格式圖像序列插入(CTRL,VDEC)場或幀進行控制,所述評估標記指示場的時間順序或者指示為了進行顯示而對第一場進行重復,該標記在所述第一格式圖像序列每幅圖像的用戶數(shù)據(jù)場中被傳送。
11.一種方法,用于在編碼器端促進由解碼器端控制的向具有例如基本為24Hz幀頻率的MPEG-2圖像序列插入附加的場或幀,以從中建立具有更大幀頻率例如50Hz的圖像序列,其中為了達到可以感知的唇同步,在所述圖像序列中插入場或幀的位置由被傳送的標記所控制,從而由非常規(guī)插入引起的最大圖像內(nèi)容延遲保持在低于平均水平的范圍內(nèi),以防出現(xiàn)緩慢移動或者靜態(tài)的場景以及分配給所述圖像序列的音頻信息中的語音,對于所述圖像序列中的每幅圖像來說,所述方法包括在用戶數(shù)據(jù)場中插入指示場時間順序的標記或者指示為了進行顯示而對第一場進行重復的標記。
全文摘要
本發(fā)明涉及用于向第一格式圖像序列插入附加場或者幀以從中建立第二格式圖像序列的控制方法和裝置。世界上主要的電視系統(tǒng)采用隔行掃描并且采用50Hz或者60Hz的場頻率。然而,電影是采用24Hz的幀頻率以及逐行掃描制作而成的,該格式將被用于未來在采用50Hz的國家銷售的數(shù)字視頻光盤。在50Hz播放設備中,所述光盤內(nèi)容的呈現(xiàn)是以原始的音頻音調(diào)但卻以重復的視頻幀或場來實現(xiàn),以平均地達到所述原始視頻源的速度。然而,對于所述幀或者場的插入并不是以常規(guī)的排列進行的,而是以適應性的方式進行,從而減少可見的運動抖動。
文檔編號G11B27/10GK1906937SQ200480040820
公開日2007年1月31日 申請日期2004年11月4日 優(yōu)先權日2004年1月21日
發(fā)明者卡斯滕·赫佩爾, 海因茨·沃納·基森, 安德烈·舍韋佐, 馬爾科·溫特 申請人:湯姆遜許可公司