專利名稱:估計(jì)圖像序列中的主要運(yùn)動(dòng)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于估計(jì)視頻鏡頭(shot)中的主要運(yùn)動(dòng)的方法和設(shè)備。更具體地,該方法基于對(duì)在使用運(yùn)動(dòng)補(bǔ)償?shù)膲嚎s方案中與視頻一起發(fā)送的運(yùn)動(dòng)場(chǎng)的分析。在MPEG-1、MPEG-2和MPEG-4視頻壓縮標(biāo)準(zhǔn)中實(shí)現(xiàn)了這種方案。
背景技術(shù):
已知運(yùn)動(dòng)分析依賴于根據(jù)從MPEG類型壓縮視頻流中得到的運(yùn)動(dòng)矢量,對(duì)運(yùn)動(dòng)模型的估計(jì),運(yùn)動(dòng)模型通常是仿射的 這里,u和v是表示運(yùn)動(dòng)場(chǎng)的位置(xi,yi)處的矢量ωi的分量。運(yùn)動(dòng)模型的仿射參數(shù)a、b、c、d、e和f的估計(jì)依賴于最小平方差技術(shù)。M.A Smith和T.Kanade的文章“Video Skimming and Characterizationthrough the Combination of Image and Language Understanding”(Proceedings of IEEE 1998 International Workshop on Content-BasedAccess of Image and Video Databases,61和70頁)描述了這種方法。這篇文章的作者使用運(yùn)動(dòng)的仿射模型的參數(shù)以及場(chǎng)的矢量的空間分量的均值u和v,對(duì)明顯的運(yùn)動(dòng)進(jìn)行標(biāo)識(shí)和分類。例如,為了確定運(yùn)動(dòng)是否是變焦,利用以下條件驗(yàn)證存在矢量場(chǎng)的會(huì)聚點(diǎn)(x0,y0),從而使得u(x0,y0)=0且v(x0,y0)=0 分析矢量分量的均值u和v,以測(cè)試平搖鏡頭(panning shot)的假設(shè)。
還已知運(yùn)動(dòng)分析方法直接使用了從MPEG視頻流中得到的矢量場(chǎng),而不包含對(duì)運(yùn)動(dòng)模型的識(shí)別。O.N.Gerek和Y.Altunbasak的文章“Key Frame Selection from MPEG Video Data”(proceedings of theVisual Communications and Image Processing’97 congress,920~925頁)描述了這種方法。該方法在于,對(duì)于與MPEG二進(jìn)制序列圖像相關(guān)的每一個(gè)運(yùn)動(dòng)場(chǎng),構(gòu)造矢量場(chǎng)的兩個(gè)直方圖,一個(gè)表示作為其方向的函數(shù)的矢量的存在,而第二個(gè)表示其幅度的函數(shù)。圖1和圖2表示了這種直方圖的示例圖1示出了圖像中的明顯運(yùn)動(dòng)是變焦的結(jié)構(gòu),而在圖2中,主要運(yùn)動(dòng)是平搖。
然后,對(duì)于兩個(gè)直方圖中的每一個(gè),將與直方圖的每一類(或“bin”)中的運(yùn)動(dòng)矢量的數(shù)目相關(guān)的變化的閾值設(shè)置用于識(shí)別“變焦”和“平搖”類型的主要運(yùn)動(dòng)的出現(xiàn)。
例如Gerek和Altunbasak所提出的方法提供了有關(guān)主要運(yùn)動(dòng)的分類的純量化信息,而通常還需要有關(guān)運(yùn)動(dòng)幅度的量化估計(jì)。例如Smith和Kanade所提出的基于估計(jì)運(yùn)動(dòng)的參數(shù)模型的方法提供了這種量化信息,但通常是非常不可靠的。特別地,這些方法沒有考慮到在已處理視頻場(chǎng)景中、跟隨在不同明顯運(yùn)動(dòng)之后的多個(gè)物體的出現(xiàn)。對(duì)與次要物體相關(guān)的矢量的考慮容易明顯地歪曲主要運(yùn)動(dòng)的模型參數(shù)的最小二乘估計(jì)。這里將次要物體定義為占據(jù)的圖像區(qū)域比至少一個(gè)其它物體所占據(jù)的小的目標(biāo),該物體與占據(jù)了圖像中最大區(qū)域的主要運(yùn)動(dòng)相關(guān)聯(lián)。此外,即使在圖像運(yùn)動(dòng)中出現(xiàn)單一物體,充當(dāng)運(yùn)動(dòng)分析基礎(chǔ)的壓縮視頻流的矢量也不會(huì)始終反映圖像的明顯實(shí)際運(yùn)動(dòng)的事實(shí)。具體地,針對(duì)在運(yùn)動(dòng)補(bǔ)償之后使要發(fā)送的信息量最小來計(jì)算這些矢量,而不是估計(jì)圖像象素的物理運(yùn)動(dòng)。
基于從壓縮流中得到的矢量的運(yùn)動(dòng)模型的可靠估計(jì)需要使用魯棒方法,根據(jù)與并未跟隨主要運(yùn)動(dòng)的次要物體相關(guān)的運(yùn)動(dòng)矢量以及不與圖像主要物體的物理運(yùn)動(dòng)相對(duì)應(yīng)的矢量的計(jì)算來自動(dòng)地估計(jì)。
在與壓縮視頻流的使用不同的情況中已經(jīng)提出了估計(jì)主要運(yùn)動(dòng)的參數(shù)模型的魯棒方法。一個(gè)示例是P.Bouthemy、M.Gelgon和F.Ganansia的、標(biāo)題是“A unified approach to shot change detection andcamera motion characterization”的文章,發(fā)表在IEEE journal Circuitsand Systems for Video Technology volume 9 No.7,1999年10月,1030~1044頁。這些方法具有實(shí)現(xiàn)起來非常復(fù)雜的缺點(diǎn)。
發(fā)明內(nèi)容
這里提出的本發(fā)明的目的在于減少上述用于估計(jì)主要運(yùn)動(dòng)的多類方法的缺點(diǎn)。
本發(fā)明的主題是一種方法,用于通過執(zhí)行與圖像相關(guān)的運(yùn)動(dòng)矢量場(chǎng)的計(jì)算來檢測(cè)圖像序列中的主要運(yùn)動(dòng),對(duì)于具有坐標(biāo)xi,yi的象素,定義了具有分量ui,vi的一個(gè)或多個(gè)運(yùn)動(dòng)矢量,所述方法的特征在于還執(zhí)行以下步驟-根據(jù)簡(jiǎn)化的參數(shù)表示來建立運(yùn)動(dòng)的模型ui=tx+k.xiVi=ty+k.yi其中,tx,ty是表示運(yùn)動(dòng)的平動(dòng)分量的矢量的分量,k是代表運(yùn)動(dòng)變焦分量的散度因數(shù),-在由平面(x,u)和(y,v)所限定的兩個(gè)運(yùn)動(dòng)表示空間的每一個(gè)中進(jìn)行魯棒線性回歸,以給出回歸直線,其中x,y,u和v分別表示變量xi、yi、ui和vi的軸,-根據(jù)回歸直線在原點(diǎn)處的縱坐標(biāo)和斜率來計(jì)算參數(shù)tx,ty和k。
根據(jù)一種實(shí)現(xiàn)模式,魯棒回歸是一種最小平方中值方法,該方法在于在一組直線j中搜索提供了殘差平方的中值組中最小的一個(gè),ri,j是相對(duì)于直線j,具有坐標(biāo)xi,ui或yi,vi的第i個(gè)采樣的殘差minj(mediri,j2)]]>根據(jù)一種實(shí)現(xiàn)模式,將搜索殘差的最小平方中值應(yīng)用于預(yù)定數(shù)目的直線,通過在所考慮的運(yùn)動(dòng)的表示空間中隨機(jī)抽取的一對(duì)采樣來確定每一條直線。
根據(jù)一種實(shí)現(xiàn)模式,在魯棒線性回歸之后,執(zhí)行第二非魯棒線性回歸,可以改進(jìn)運(yùn)動(dòng)模型參數(shù)的估計(jì)。第二線性回歸排除了表示空間中其從第一魯棒回歸得到的回歸殘差超過預(yù)定閾值的點(diǎn)。
根據(jù)一種實(shí)現(xiàn)模式,該方法執(zhí)行在每個(gè)表示空間中所計(jì)算得到的回歸直線的方向系數(shù)的等同性測(cè)試,該測(cè)試基于殘差平方和的比較,首先通過執(zhí)行每個(gè)表示空間中的分離回歸,然后通過對(duì)兩個(gè)表示空間中的采樣組執(zhí)行全局斜率回歸來獲得所述殘差,并且在測(cè)試是肯定的情況下,通過在每個(gè)表示空間中獲得的回歸直線的方向系數(shù)的算術(shù)平均值來估計(jì)模型的參數(shù)k。
本發(fā)明還涉及一種實(shí)現(xiàn)該方法的設(shè)備。
通過利用視頻圖像中的主要運(yùn)動(dòng)的非常簡(jiǎn)單但足夠逼真的參數(shù)模型,該方法允許以減少的成本實(shí)現(xiàn)運(yùn)動(dòng)模型的識(shí)別的魯棒方法。更準(zhǔn)確地,本發(fā)明所述方法的主要優(yōu)點(diǎn)在于使用了運(yùn)動(dòng)矢量的分量表示的明智空間,可以將運(yùn)動(dòng)模型的參數(shù)識(shí)別減少為雙線性回歸。
在利用非限制性的示例和有關(guān)附圖所給出的以下說明中,將會(huì)使本發(fā)明的其它特點(diǎn)和優(yōu)點(diǎn)更加顯而易見,其中-圖1,與“變焦”相對(duì)應(yīng)的理論運(yùn)動(dòng)矢量場(chǎng),-圖2,與背景的主要運(yùn)動(dòng)是“平搖”類型的場(chǎng)景相對(duì)應(yīng)的理論運(yùn)動(dòng)矢量場(chǎng),其中還包括了遵循不同于主要運(yùn)動(dòng)的運(yùn)動(dòng)的次要物體,-圖3,本發(fā)明所使用的運(yùn)動(dòng)矢量表示空間的圖示,-圖4,以本發(fā)明中所使用的變焦運(yùn)動(dòng)為中心的變焦運(yùn)動(dòng)的理論矢量的分布,-圖5,本發(fā)明中所使用的表示空間中的圖像的全局傾斜平動(dòng)運(yùn)動(dòng)的理論矢量的分布,-圖6,本發(fā)明中所使用的表示空間中的平動(dòng)和變焦的組合運(yùn)動(dòng)的理論矢量的分布,-圖7,本發(fā)明中所使用的表示空間中的靜態(tài)場(chǎng)景(零運(yùn)動(dòng))的理論矢量的分布,-圖8,檢測(cè)主要運(yùn)動(dòng)的方法的流程圖。
具體實(shí)施例方式
圖像序列中的主要運(yùn)動(dòng)的特性包括明顯的主要運(yùn)動(dòng)的參數(shù)模型的識(shí)別。在利用從壓縮視頻流中得到的運(yùn)動(dòng)矢量場(chǎng)的情況下,該模型必需表示二維圖像平面中的明顯運(yùn)動(dòng)。通過把投影近似到三維空間中的物體的運(yùn)動(dòng)的圖像平面上來獲得這樣的模型。作為示例,在文獻(xiàn)中通常采用以上所示有6個(gè)參數(shù)(a,b,c,d,e,f)的仿射模型。
基本上,所提出的方法在于當(dāng)編碼準(zhǔn)則使用如MPEG-1,MPEG-2和MPEG-4標(biāo)準(zhǔn)等運(yùn)動(dòng)補(bǔ)償技術(shù)時(shí),根據(jù)視頻流中所提供的運(yùn)動(dòng)矢量場(chǎng),標(biāo)識(shí)運(yùn)動(dòng)的該參數(shù)模型,從而執(zhí)行其解碼。但是,本發(fā)明所述的方法也適用于通過根據(jù)組成被處理的視頻序列的圖像的獨(dú)立處理所計(jì)算出來的運(yùn)動(dòng)矢量場(chǎng)。
在本發(fā)明的上下文中,從具有四個(gè)參數(shù)(tx,ty,k,θ)的簡(jiǎn)化線性模型中推導(dǎo)出所采用的運(yùn)動(dòng)模型,我們將此模型稱作SLM(表示簡(jiǎn)化線性模型的縮寫),其定義如下uivi=txty+k-θθkxi-xgyi-yg]]>其中(ui,vi)t與坐標(biāo)為(xi,yi)t的圖像平面像素相關(guān)的明顯運(yùn)動(dòng)矢量的分量,(xg,yg)t參考點(diǎn)的坐標(biāo),用于對(duì)攝像機(jī)拍出的二維圖像的三維場(chǎng)景的近似;將該參考點(diǎn)認(rèn)為是圖像中坐標(biāo)為(0,0)t的點(diǎn),(tx,ty)t表示運(yùn)動(dòng)的平動(dòng)分量的矢量,k散度因數(shù),表示運(yùn)動(dòng)的變焦分量,θ關(guān)于攝像機(jī)軸的運(yùn)動(dòng)的旋轉(zhuǎn)角度。
客觀查找用于識(shí)別視頻序列中由移動(dòng)和例如光學(xué)變焦之類的攝像機(jī)的光學(xué)變換所引起的主要運(yùn)動(dòng)。具體地,這包括識(shí)別攝像機(jī)的運(yùn)動(dòng),從統(tǒng)計(jì)上來說,這些運(yùn)動(dòng)是最普遍的視頻文件組成部分,主要根據(jù)平動(dòng)運(yùn)動(dòng)、變焦運(yùn)動(dòng)、二者相結(jié)合以及沒有運(yùn)動(dòng),即靜態(tài)或靜止鏡頭來進(jìn)行分類。沒有考慮在實(shí)際中很少觀察到的攝像機(jī)旋轉(zhuǎn)效果因此,在假設(shè)θ≈0的前提下,本模型受到三個(gè)參數(shù)(tx,ty,k)的約束。于是,得到了矢量分量及其在圖像中的空間位置之間的兩個(gè)線性關(guān)系 這種運(yùn)動(dòng)的簡(jiǎn)化參數(shù)表示的優(yōu)點(diǎn)在于可以通過運(yùn)動(dòng)的表示空間的線性回歸ui=f(xi)和vi=f(yi)來估計(jì)分別描述了運(yùn)動(dòng)模型中的兩個(gè)平動(dòng)分量和變焦參數(shù)的參數(shù)tx,ty和k。因此,如圖3所示,這些空間中的運(yùn)動(dòng)矢量場(chǎng)的表示通常給出了分布在斜率為k的直線附近的一簇點(diǎn)。
用于估計(jì)簡(jiǎn)化運(yùn)動(dòng)模型的參數(shù)的過程基于在每個(gè)運(yùn)動(dòng)表示空間中應(yīng)用魯棒型線性回歸。例如,線性回歸是一種通過使每個(gè)點(diǎn)到其擬合直線的距離的平方和最小來確定對(duì)一簇點(diǎn)的最佳擬合直線的數(shù)學(xué)運(yùn)算。在本發(fā)明的情況下,利用魯棒統(tǒng)計(jì)估計(jì)技術(shù)來實(shí)現(xiàn)這種運(yùn)算,從而保證相對(duì)于數(shù)據(jù)中異常值的出現(xiàn)的不敏感度。具體地,主要運(yùn)動(dòng)的模型的估計(jì)必需忽略以下幾點(diǎn)-圖像中出現(xiàn)多個(gè)物體,其中某些遵循不同于主要運(yùn)動(dòng)的次要運(yùn)動(dòng),-不表示物體的實(shí)際運(yùn)動(dòng)的運(yùn)動(dòng)矢量的出現(xiàn)。具體地,視頻壓縮流中傳輸?shù)倪\(yùn)動(dòng)矢量的計(jì)算目的是為了使運(yùn)動(dòng)補(bǔ)償后殘余信息最小,而不是以提供組成圖像場(chǎng)景的物體的真實(shí)運(yùn)動(dòng)為目的。
圖8描述了用于估計(jì)序列中主要運(yùn)動(dòng)的方法的多個(gè)步驟。隨后更加準(zhǔn)確地描述這些步驟中的每一個(gè)。
第一步驟1執(zhí)行與所處理的視頻序列圖像相關(guān)的運(yùn)動(dòng)矢量場(chǎng)的歸一化。假設(shè)在本算法使用前已經(jīng)利用運(yùn)動(dòng)估計(jì)器求出了這些矢量場(chǎng)。與所謂的“塊匹配”方法中一樣,可以針對(duì)圖像像素的矩形塊來執(zhí)行運(yùn)動(dòng)估計(jì),或提供一種稠(dense)矢量場(chǎng),其中針對(duì)圖像的每個(gè)像素來估計(jì)矢量。本發(fā)明優(yōu)選地但并不局限于處理由視頻編碼器計(jì)算得到所使用的矢量場(chǎng),并出于解碼目的,在壓縮視頻流中傳輸矢量場(chǎng)的情況。在所使用的編碼方案符合MPEG-1或MPEG-2標(biāo)準(zhǔn)之一的典型情況下,相對(duì)于其到當(dāng)前圖像的時(shí)間距離是可變的參考幀,對(duì)于當(dāng)前圖像,以每個(gè)矩形塊一個(gè)矢量的速度來估計(jì)運(yùn)動(dòng)矢量。此外,對(duì)于雙向預(yù)知的所謂“B”幀,對(duì)于同一個(gè)塊可以求出兩個(gè)運(yùn)動(dòng)矢量,一個(gè)從當(dāng)前圖像指向之前的參考幀,另一個(gè)從當(dāng)前圖像指向之后的參考幀。因此,歸一化矢量場(chǎng)的步驟是不可缺少的,以便在隨后的步驟中處理在相等持續(xù)時(shí)間的時(shí)間間隔上計(jì)算得到的、指向相同方向的矢量。V.Kobla和D.Doermann的文章“Compressed domain video indexingtechniques using DCT and motion vector information in MPEG video”(Proceedings of the SPIE vol.3022,1997,200~211頁)中第3.2節(jié)提供了一種執(zhí)行這種歸一化的典型方法。還可以使用基于MPEG矢量計(jì)算間隔上的運(yùn)動(dòng)線性近似的其它簡(jiǎn)單技術(shù)。
參考數(shù)字為2的第二步驟執(zhí)行了上述運(yùn)動(dòng)表示空間的構(gòu)造。分別用兩個(gè)空間ui=f(xi)和vi=f(yi)內(nèi)的點(diǎn)來表示分量為(ui,vi)t、位置為(xi,yi)t的運(yùn)動(dòng)場(chǎng)的每個(gè)矢量 每對(duì)點(diǎn)(xi,ui)和(yi,vi)與運(yùn)動(dòng)場(chǎng)的矢量表示相對(duì)應(yīng),可以相對(duì)于每個(gè)空間的回歸直線對(duì)每對(duì)點(diǎn)(xi,ui)和(yi,vi)進(jìn)行建模 其中,(a0,b0)是在空間ui=f(xi)中計(jì)算得到的回歸直線參數(shù);εui是相應(yīng)的殘余誤差。
(a1,b1)是在空間vi=f(yi)中計(jì)算得到的回歸直線參數(shù);εvi是相應(yīng)的殘余誤差。
圖3示出了根據(jù)歸一化運(yùn)動(dòng)矢量場(chǎng)構(gòu)造這兩個(gè)空間之后所獲得的點(diǎn)簇。
在每個(gè)表示空間中線性回歸完成時(shí)所獲得的參數(shù)(a0,b0)和(a1,b1)提供了對(duì)主要運(yùn)動(dòng)模型參數(shù)的估計(jì)。因此,斜率a0和a1對(duì)應(yīng)于表征變焦分量的散度因數(shù)k的二重估計(jì),而在原點(diǎn)處的縱坐標(biāo)b0和b1對(duì)應(yīng)于對(duì)平動(dòng)分量tx和ty的估計(jì)。
圖4到圖7示出了幾個(gè)可能配置的示例。
-圖4是居中變焦情況下的數(shù)據(jù)分布,
-圖5是傾斜平動(dòng)運(yùn)動(dòng)情況下的數(shù)據(jù)分布,-圖6是偏心變焦(將變焦和平動(dòng)相結(jié)合的運(yùn)動(dòng))情況下的數(shù)據(jù)分布,-圖7是沒有運(yùn)動(dòng)情況下的數(shù)據(jù)分布。
接下來的步驟3針對(duì)每個(gè)運(yùn)動(dòng)表示空間,進(jìn)行魯棒線性回歸,其目的是從對(duì)應(yīng)于圖像中次要物體的運(yùn)動(dòng)或?qū)?yīng)于與其相關(guān)的不表達(dá)像素真實(shí)運(yùn)動(dòng)的矢量中分離出代表真實(shí)的主要運(yùn)動(dòng)的數(shù)據(jù)點(diǎn)。
存在幾類魯棒估計(jì)的方法。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,按照以下方式計(jì)算回歸直線,以便滿足最小平方中值準(zhǔn)則。P.Meer、D.Mintz和A.Rosenfeld的文章“Robust Regression Methods for Computer VisionA Review”(公布在International Journal of Computer Vision,volume 6No.1,1991,59~70頁)的第3段更完整地描述了以下簡(jiǎn)要介紹的計(jì)算方法。
令ri,j為運(yùn)動(dòng)表示空間內(nèi)第i個(gè)采樣的殘差,在該空間中,試圖估計(jì)回歸參數(shù)集Ej(回歸直線的斜率和截距),計(jì)算Ej,從而滿足以下準(zhǔn)則minEj(mediri,j2)]]>根據(jù)所考慮的表示空間,殘差ri,j對(duì)應(yīng)于與參數(shù)為Ej的回歸直線的第i個(gè)采樣建模相關(guān)的殘留誤差εui或εvi。這種非線性最小化問題的解決方案需要在所有可能的直線中尋找由Ej定義的直線。為了限制計(jì)算量,將這種查找局限于p條回歸直線的有限集,從正在研究的表示空間的采樣中隨機(jī)抽取的p對(duì)點(diǎn)定義該有限集。對(duì)于p條直線中的每一條,都按照識(shí)別顯示了中值殘差平方的方式來計(jì)算并分類殘差的平方。估計(jì)回歸直線,以便得到最小的殘差平方中值。
只從中值殘差的平方中選擇回歸直線,而不是殘差集合,這給出了回歸過程的魯棒本質(zhì)。具體地,這可以忽略殘差的極值,其易于與異常數(shù)據(jù)點(diǎn)相對(duì)應(yīng),從而使回歸出錯(cuò)。
例如,通過測(cè)試p=12條直線,p對(duì)中至少有一對(duì)包含兩個(gè)非異常采樣的概率,也就是說表示主要運(yùn)動(dòng)的概率非常接近于1。假設(shè)如果異常采樣的比例小于50%,與包含至少一個(gè)異常采樣的點(diǎn)對(duì)相比,不包含異常采樣的點(diǎn)對(duì)提供了能夠更好地?cái)M合采樣簇的回歸直線,并因此顯示了更小的殘差平方中值。因此,幾乎可以肯定通過兩個(gè)非異常采樣決定了最后得到的回歸直線,從而保證此方法對(duì)于異常采樣的魯棒性。
之后,將在每個(gè)表示空間中通過魯棒估計(jì)所獲得的回歸直線用于識(shí)別異常采樣點(diǎn)。出于此目的,假設(shè)非異常采樣服從高斯分布,并且將其絕對(duì)值的殘差超過魯棒估計(jì) 的K倍的所有采樣標(biāo)記為異常采樣,作為對(duì)應(yīng)于最佳回歸直線的殘差平方的中值函數(shù),計(jì)算與非異常采樣相關(guān)的殘差標(biāo)準(zhǔn)差的魯棒估計(jì) 有利地,將K值固定為2.5。
但是,在此步驟3中,習(xí)慣上最后對(duì)每個(gè)表示空間的采樣執(zhí)行非魯棒的線性回歸,而不包括識(shí)別為異常值的采樣。這些回歸提供參數(shù)(a0,b0)和(a1,b1)的改進(jìn)估計(jì),這些參數(shù)將在隨后的方法中用到。
接下來的步驟4執(zhí)行了對(duì)每個(gè)表示空間的回歸直線的線性測(cè)試。該測(cè)試的目的是驗(yàn)證每個(gè)空間的點(diǎn)簇實(shí)際上近似沿直線分布,這不能保證回歸直線的例行出現(xiàn)。
在每個(gè)表示空間中,通過將從有關(guān)非異常采樣的線性回歸中得到的殘差標(biāo)準(zhǔn)差與預(yù)定閾值進(jìn)行比較來執(zhí)行線性測(cè)試。閾值依賴于本方法步驟1中應(yīng)用于運(yùn)動(dòng)矢量的臨時(shí)歸一化。歸一化之后,在每個(gè)矢量表示對(duì)應(yīng)于兩個(gè)分離交叉幀的時(shí)間間隔的位移情況下,即對(duì)于50Hz的傳輸是40ms,有利地,可以將這個(gè)閾值固定在6。如果在兩個(gè)表示空間中執(zhí)行的至少一個(gè)線性測(cè)試失敗,則認(rèn)為對(duì)應(yīng)于當(dāng)前圖像的運(yùn)動(dòng)域不能可靠地估計(jì)主要運(yùn)動(dòng)模型。于是,設(shè)置表示主要運(yùn)動(dòng)估計(jì)過程失敗的標(biāo)志,并處理下一圖像。
在相反的情況下,進(jìn)入接下來的步驟5,該步驟在于驗(yàn)證給出了運(yùn)動(dòng)模型中散度因數(shù)k的二重估計(jì)的斜率a0和a1差別不明顯。兩個(gè)回歸斜率的等同性測(cè)試是已知的問題,用一些統(tǒng)計(jì)方法可以解決;例如可以查閱C.R Rao在由Wiley出版(第二版)的“Linear StatisticalInference and its Applications”一書中關(guān)于偏差分析的章節(jié)。按照傳統(tǒng)方式,通過計(jì)算有關(guān)運(yùn)動(dòng)矢量場(chǎng)的兩個(gè)表示空間的非異常采樣點(diǎn)集的全局回歸斜率來執(zhí)行該測(cè)試。然后,構(gòu)成與數(shù)據(jù)集的全局斜率估計(jì)相關(guān)的殘差平方和,與相關(guān)于獨(dú)立回歸的殘差平方和的兩個(gè)空間上的總和的比率,所述獨(dú)立回歸只與非異常采樣相關(guān)。將該比率與預(yù)定的閾值相比;如果比率大于閾值,則兩個(gè)運(yùn)動(dòng)表示空間中回歸斜率相等的假設(shè)不是統(tǒng)計(jì)有效的。于是,設(shè)置表示主要運(yùn)動(dòng)估計(jì)過程失敗的標(biāo)志,并處理下一圖像。在測(cè)試結(jié)果是肯定的情況下,利用在每個(gè)表示空間中獲得的回歸斜率a0和a1的算術(shù)平均值來估計(jì)主要運(yùn)動(dòng)模型中的散度因數(shù)k的值。分別由從表示空間的線性回歸中得到的截距b0和b1的值來估計(jì)參數(shù)tx和ty。
在認(rèn)為運(yùn)動(dòng)模型有效的情況下,即,如果成功通過了步驟4和5中所執(zhí)行的測(cè)試,則在接下來的參考數(shù)字為6的步驟期間執(zhí)行主要運(yùn)動(dòng)的分類。
使用所估計(jì)參數(shù)的矢量θ=(k,tx,ty)t,以便決定將主要運(yùn)動(dòng)分類到其中的類別,即-靜態(tài),-純平動(dòng),-純變焦,-平動(dòng)和變焦相結(jié)合。
分類算法基于模型參數(shù)的無效性測(cè)試,根據(jù)下表
根據(jù)一種簡(jiǎn)單技術(shù),可以通過簡(jiǎn)單地將其絕對(duì)值與一個(gè)閾值相比較來執(zhí)行模型參數(shù)估計(jì)的無效測(cè)試。也可以使用基于對(duì)數(shù)據(jù)分布的統(tǒng)計(jì)建模的更復(fù)雜方法,在此統(tǒng)計(jì)構(gòu)架中,發(fā)表于IEEE journal Circuitsand Systems for Video Technology volume 9 No.7,1999年10月,第1030頁到第1044頁的P.Bouthemy,M.Gelgon和F.Ganansia的文章“Aunified approach to shot change detection and camera motioncharacterization”中提出了一種根據(jù)似然測(cè)試來確定模型參數(shù)無效性的典型算法。
本發(fā)明的應(yīng)用涉及根據(jù)關(guān)鍵圖像的選擇的視頻索引。
具體地,視頻索引過程通常在預(yù)處理中開始,試圖將視頻流中要處理的信息量限制為從序列中選擇的一組關(guān)鍵圖像。只在這些關(guān)鍵圖像中執(zhí)行視頻索引處理,尤其是可視特征的提取,每個(gè)關(guān)鍵圖像表示了一段視頻的內(nèi)容。理想地,這組關(guān)鍵圖像應(yīng)該能構(gòu)成視頻的詳細(xì)概要,并且應(yīng)當(dāng)避免關(guān)鍵圖像的可視內(nèi)容之間的冗余,從而可以使索引過程的計(jì)算負(fù)擔(dān)最小化。用于估計(jì)每個(gè)視頻鏡頭中的主要運(yùn)動(dòng)的方法可以通過使其適合主要運(yùn)動(dòng)而優(yōu)化每個(gè)鏡頭中涉及這些準(zhǔn)則的關(guān)鍵圖像的選擇。例如,可以總計(jì)根據(jù)鏡頭內(nèi)的參數(shù)tx(或ty)而估計(jì)的圖像水平(或垂直)平動(dòng),也可以一旦總和超過圖像寬度(或高度)時(shí),對(duì)新的關(guān)鍵圖像進(jìn)行采樣。
所述方法也可以用于元數(shù)據(jù)的產(chǎn)生。在視頻拍攝期間,主要運(yùn)動(dòng)通常與攝像機(jī)的運(yùn)動(dòng)一致。某些導(dǎo)演用特殊的攝像機(jī)運(yùn)動(dòng)序列,從而向觀眾表達(dá)某些感情或感覺。本發(fā)明所述的方法可以檢測(cè)視頻中的這些特殊序列,并因此提供了與導(dǎo)演在某些視頻部分中所制造的氣氛相關(guān)的元數(shù)據(jù)。
主要運(yùn)動(dòng)檢測(cè)的另一個(gè)應(yīng)用是檢測(cè)或有助于檢測(cè)鏡頭中斷。具體地,序列的主要運(yùn)動(dòng)屬性的突然變化只能由鏡頭的中斷引起。
最后,本發(fā)明所述的方法允許在每個(gè)圖像中對(duì)主要運(yùn)動(dòng)的支持的識(shí)別。在主要運(yùn)動(dòng)的意義中,這種支持實(shí)際上與其相關(guān)矢量沒有被識(shí)別為異常值的像素集一致。主要運(yùn)動(dòng)支持的常識(shí)提供了對(duì)遵循此運(yùn)動(dòng)的物體的分割。可以使用此分割,從而執(zhí)行圖像的組成物體的獨(dú)立索引,以允許處理有關(guān)物體而不是全部圖像的局部要求,或者在基于視頻壓縮算法的物體的構(gòu)架中使用,例如在MPEG-4視頻壓縮標(biāo)準(zhǔn)中所規(guī)定的那些。
權(quán)利要求
1.一種方法,用于通過執(zhí)行與圖像相關(guān)的運(yùn)動(dòng)矢量場(chǎng)的計(jì)算(1)來估計(jì)圖像序列中的主要運(yùn)動(dòng),對(duì)于具有坐標(biāo)xi,yi的象素,定義了具有分量ui,vi的一個(gè)或多個(gè)運(yùn)動(dòng)矢量,所述方法的特征在于還執(zhí)行以下步驟-根據(jù)簡(jiǎn)化的參數(shù)表示來建立運(yùn)動(dòng)的模型(2)ui=tx+k.xivi=ty+k.yi其中,tx,ty是表示運(yùn)動(dòng)的平動(dòng)分量的矢量的分量,k是代表運(yùn)動(dòng)變焦分量的散度因數(shù),-在由平面(x,u)和(y,v)所限定的兩個(gè)運(yùn)動(dòng)表示空間的每一個(gè)中進(jìn)行魯棒線性回歸(3),以給出回歸直線,其中x,y,u和v分別表示變量xi、yi、ui和vi的軸,-根據(jù)回歸直線在原點(diǎn)處的縱坐標(biāo)和斜率來計(jì)算參數(shù)tx,ty和k(4,5)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述魯棒回歸(3)是一種最小平方中值方法,該方法在于在一組直線j中搜索提供了殘差平方的中值組中最小的一個(gè),ri,j是相對(duì)于直線j,具有坐標(biāo)xi,ui或yi,vi的第i個(gè)采樣的殘差。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于將搜索殘差的最小平方中值(3)應(yīng)用于預(yù)定數(shù)目的直線,通過在所考慮的運(yùn)動(dòng)的表示空間中隨機(jī)抽取的一對(duì)采樣來確定每一條直線。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于在魯棒線性回歸(3)之后,執(zhí)行第二非魯棒線性回歸,可以改進(jìn)運(yùn)動(dòng)模型參數(shù)的估計(jì)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于第二線性回歸排除了表示空間中其從第一魯棒回歸得到的回歸殘差超過預(yù)定閾值的點(diǎn)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于執(zhí)行在每個(gè)表示空間(4)中所計(jì)算得到的回歸直線的方向系數(shù)的等同性測(cè)試(5),該測(cè)試基于殘差平方和的比較,首先通過執(zhí)行每個(gè)表示空間中的分離回歸,然后通過對(duì)兩個(gè)表示空間中的采樣組執(zhí)行全局斜率回歸來獲得所述殘差,并且在測(cè)試是肯定的情況下,通過在每個(gè)表示空間中獲得的回歸直線的方向系數(shù)的算術(shù)平均值來估計(jì)模型的參數(shù)k。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于根據(jù)tx、ty和k的值,將主要運(yùn)動(dòng)劃分為以下類別之一平動(dòng)、縮放、平動(dòng)和縮放的結(jié)合以及靜態(tài)圖像。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于由使用運(yùn)動(dòng)補(bǔ)償?shù)膲嚎s算法所考慮的視頻序列的編碼來得到運(yùn)動(dòng)矢量場(chǎng),所述壓縮算法如與MPEG-1、MPEG-2或MPEG-4壓縮標(biāo)準(zhǔn)相一致的算法等。
8.一種根據(jù)權(quán)利要求1所述的方法的應(yīng)用,用于關(guān)鍵圖像的選擇,對(duì)于多個(gè)圖像,作為與計(jì)算得到的參數(shù)tx、ty或k相關(guān)的信息總和的函數(shù)來選擇圖像。
9.一種用于估計(jì)圖像序列中的主要運(yùn)動(dòng)的設(shè)備,包括電路(1),用于計(jì)算與圖像相關(guān)的運(yùn)動(dòng)矢量場(chǎng),對(duì)于具有坐標(biāo)xi,yi的象素,定義了具有分量ui,vi的一個(gè)或多個(gè)運(yùn)動(dòng)矢量,所述設(shè)備的特征在于還包括計(jì)算裝置,用于執(zhí)行-根據(jù)簡(jiǎn)化的參數(shù)表示來建立運(yùn)動(dòng)的模型(2)ui=tx+k.xivi=ty+k.yi其中,tx,ty是表示運(yùn)動(dòng)的平動(dòng)分量的矢量的分量,k是代表運(yùn)動(dòng)變焦分量的散度因數(shù),-在由平面(x,u)和(y,v)所限定的兩個(gè)運(yùn)動(dòng)表示空間的每一個(gè)中進(jìn)行魯棒線性回歸(3),以給出回歸直線,其中x,y,u和v分別表示變量xi、yi、ui和vi的軸,-根據(jù)回歸直線在原點(diǎn)處的縱坐標(biāo)和斜率來計(jì)算參數(shù)tx,ty和k(4,5)。
全文摘要
一種方法,用于執(zhí)行與圖像相關(guān)的運(yùn)動(dòng)矢量場(chǎng)的計(jì)算(1),對(duì)于具有坐標(biāo)xi,yi的象素,定義了具有分量ui,vi的一個(gè)或多個(gè)運(yùn)動(dòng)矢量,所述方法的特征在于還執(zhí)行以下步驟根據(jù)簡(jiǎn)化的參數(shù)表示來建立運(yùn)動(dòng)的模型(2)ui=tx+k.xi,vi=ty+k.yi其中,tx,ty是表示運(yùn)動(dòng)的平動(dòng)分量的矢量的分量,k是代表運(yùn)動(dòng)的變焦分量的散度因數(shù),在由平面(x,u)和(y,v)所限定的兩個(gè)運(yùn)動(dòng)表示空間的每一個(gè)中進(jìn)行魯棒線性回歸(3),以給出回歸直線,其中x,y,u和v分別表示變量xi、yi、ui和vi的軸,根據(jù)回歸直線在原點(diǎn)處的斜率和縱坐標(biāo)來計(jì)算參數(shù)tx,ty和k(4,5)。其應(yīng)用涉及關(guān)鍵圖像的選擇,用于視頻索引或產(chǎn)生元數(shù)據(jù)。
文檔編號(hào)H04N7/32GK1608380SQ02825888
公開日2005年4月20日 申請(qǐng)日期2002年12月12日 優(yōu)先權(quán)日2001年12月19日
發(fā)明者弗朗索瓦絲·勒克萊爾, 西爾萬·馬雷克 申請(qǐng)人:湯姆森許可貿(mào)易公司