亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

集成顏色和運動特征進行鏡頭檢索的方法

文檔序號:6630533閱讀:124來源:國知局
專利名稱:集成顏色和運動特征進行鏡頭檢索的方法
技術領域
本發(fā)明屬于視頻檢索技術領域,具體涉及集成顏色和運動特征進行鏡頭檢索的方法。
背景技術
隨著電視臺視頻節(jié)目的積累、網上數(shù)字視頻的增加,以及數(shù)字圖書館、視頻點播、遠程教學等大量的多媒體應用,如何在海量視頻中快速檢索出所需要的資料顯得至關重要。傳統(tǒng)的基于關鍵詞描述的視頻檢索因為描述能力有限、主觀性強、手工標注等原因,已經不能滿足海量視頻檢索的需求。因此,從90年代開始,基于內容的視頻檢索技術成為研究的熱點問題,多媒體內容描述接口的MPEG-7標準的制定也引起了人們廣泛的關注。
視頻檢索的現(xiàn)有方法是首先進行鏡頭分割,以鏡頭作為視頻序列的基本結構單元和檢索單元;然后在每個鏡頭內部提取關鍵幀來代表該鏡頭的內容,從關鍵幀提取出顏色等低級特征,用于鏡頭的索引和檢索。這樣,就把基于內容的鏡頭檢索轉化為基于內容的圖像檢索來解決。
2002年在International Journal of Computer Vision發(fā)表的文獻“Motion-basedVideo Representation for Scene Change Detection”(作者是C.W.Ngo,T.C.Pong,and H.J.Zhang,Vol.50,No.2,頁碼127-143),該文獻所公開的方法提出把一個鏡頭內的內容變化分解為幾個內容一致的子單元,稱為子鏡頭(subshot),它主要包括這樣幾個步驟(1)基于相機運動來提取子鏡頭;(2)然后針對不同運動的子鏡頭,選取和構造不同的關鍵幀表示,如靜止(static)子鏡頭可以用一個關鍵幀來表示,掃描(pan)子鏡頭通過構造一個全景圖(panorama)來表示,變焦(zoom)子鏡頭可以用變焦之前和之后的兩個關鍵幀來表示;(3)最后兩個鏡頭的相似度表示為它們所有關鍵幀相似度的最大值和第二大值的平均值sim(si,sj)=12{M(si,sj)+M^(si,sj)},M^(si,sj)]]>表示兩個鏡頭si和sj的第二大相似值。這種提取子鏡頭的方法很好考慮了鏡頭內容的冗余性,但最大值和第二大值的度量方法并不能全面容觀地反映兩個鏡頭內部的相似程度。
2003年7月18日,申請人所申請的另一項發(fā)明專利申請公開了“一種基于內容的鏡頭檢索方法”(申請?zhí)?3150127.3,
公開日2004年2月25日),該方法首次將圖論最優(yōu)匹配的Kuhn-Munkres方法用于鏡頭檢索。該方法強調在一一對應的前提下,全面客觀地度量兩個鏡頭的相似度。把兩個鏡頭的相似度度量建模為一個帶權的二分圖鏡頭中的每一幀看成二分圖的一個結點,兩個鏡頭之間任意幀的相似值作為邊的權值。在一一對應的前提下,利用Kuhn-Munkres方法求出該二分圖的最大權,以此作為兩個鏡頭的相似值??紤]到檢索速度問題,提出了兩個改進算法。該方法在一定程度上提高了鏡頭檢索的準確性和速度。
但是,上述這些方法都存在一個共同的問題即僅僅考慮了視頻的顏色特征,而忽略了視頻的運動特征。但實際上,除了顏色特征,運動特征也是視頻具有的重要特征。

發(fā)明內容
針對現(xiàn)有鏡頭檢索方法僅僅使用顏色特征的缺陷,本發(fā)明的目的是提出集成顏色和運動特征進行鏡頭檢索的方法,該方法除了使用最優(yōu)匹配方法有效度量兩個鏡頭的顏色相似度以外,還能夠利用運動直方圖度量兩個鏡頭的運動相似度,所以,本發(fā)明能夠在現(xiàn)有技術的基礎上大大提高鏡頭檢索的準確性,從而為海量的多媒體信息檢索提供有力支持。
本發(fā)明的目的是這樣實現(xiàn)的集成顏色和運動特征進行鏡頭檢索的方法,包括以下步驟(1)首先對視頻數(shù)據庫進行鏡頭分割,以鏡頭作為視頻的基本結構單元和檢索單元;(2)在顏色特征上,利用圖論的最優(yōu)匹配方法,度量兩個鏡頭X和Yk的顏色相似度Similaritycolor(X,Yk);(3)在運動特征上,直接在壓縮域上提取鏡頭的運動矢量,然后構造鏡頭的運動直方圖的方法如下(A)運動角度angle(i,j)作為運動直方圖的橫坐標;(B)運動強度int ensity(i,j)作為運動直方圖的縱坐標,i,j表示視頻相鄰的兩幀;運動角度表示運動矢量的方向,而運動強度表示運動矢量的能量或強度,它們的計算方法如下
angle(i,j)=arctg(dyi,jdxi,j)]]>intensity(i,j)=dxi,j2+dyi,j2]]>(dxi,j,dyi,j)表示運動矢量的橫坐標和縱坐標。運動角度在2π范圍內,被量化到n個角度范圍,n為整數(shù)。然后,在鏡頭內,每個角度范圍的運動強度被累加形成鏡頭的運動直方圖HX(angle),HX(angle)的橫坐標是角度范圍n,縱坐標是運動強度,X表示鏡頭,angle∈[1,n];最終,兩個鏡頭X和Yk的運動相似度定義為Similaritymotion(X,Yk)Similaritymotion(X,Yk)=1A(HX,HYk)Σanglemin{HX(angle),HYk(angle)}]]>其中,A(HX,HYk)=max{ΣangleHX(angle),ΣangleHYk(angle)}]]>(4)最后,兩個鏡頭的相似度Similarity(X,Yk),取決于上述顏色相似度Similaritycolor(X,Yk)和運動相似度Similaritymotion(X,Yk)的總和,相似度Similarity(X,Yk)值越大,表示兩鏡頭越相似。
為了更好地實現(xiàn)本發(fā)明的目的,在進行鏡頭檢索時,還可以附加以下技術特征步驟(2)中,在每個鏡頭內部等間隔提取3個關鍵幀作為結點,構造帶權二分圖G={X,Yk,Ek},X表示查詢鏡頭X有3個等間隔的關鍵幀x1,x2,.x3,Yk表示視頻庫中的鏡頭Yk有3個等間隔的關鍵幀y1,y2,y3,邊集Ek={eij},其中邊eij=(xi,yj)表示xi與yj相似,邊eij的權值ωij表示xi與yj的相似值,使用直方圖的交來計算ωijωij=Intersect(xi,yj)=1A(xi,yj)ΣhΣsΣv{Hi(h,s,v),Hj(h,s,v)}]]>其中,A(xi,yj)=min{ΣhΣsΣvHi(h,s,v),ΣhΣsΣvHj(h,s,v)}]]>Hi(h,s,v)是HSV顏色空間的直方圖,本發(fā)明用H,S,V分量在18×3×3的三維空間中統(tǒng)計直方圖,以歸一化后的162個數(shù)值作為顏色特征值,Inter sect(xi,yj)表示兩個直方圖的交,用它來判斷兩個關鍵幀的相似性,使用A(xi,yj)歸一化Inter sect(xi,yj)到0,1之間;然后利用圖論的最優(yōu)匹配算法,求出G={X,Yk,Ek}的最優(yōu)匹配M后,把M每條邊eij的權值ωij相加,求得G={X,Yk,Ek}的最大權ω,本發(fā)明定義兩個鏡頭X和Yk的顏色相似度Similaritycolor(X,Yk)=ω3,]]>使用3將Similaritycolor(X,Yk)歸一化到0,1之間,值越大,表明鏡頭X和Yk越相似。
步驟(2)中所述的圖論的最優(yōu)匹配算法最好是Kuhn-Munkres方法。
步驟(4)中,兩個鏡頭的相似度Similarity(X,Yk)取決于上述顏色相似度Similaritycolor(X,Yk)和運動相似度Similaritymotion(X,Yk)的總和Similarity(X,Yk)=ω1Similaritycolor(X,Yk)+ω2Similaritymotion(X,Yk)其中,ω1和ω2表示Similaritycolor(X,Yk)和Similaritymotion(X,Yk)在最后相似度Similarity(X,Yk)中所占的比重,ω1+ω2=1。
ω1和ω2的值最好是ω1=0.7,ω2=0.3。
本發(fā)明的效果在于與現(xiàn)有的鏡頭檢索方法相比,采用本發(fā)明所述的集成顏色和運動特征進行鏡頭檢索的方法,可以在進行鏡頭檢索時取得更高的準確性。
本發(fā)明之所以具有如此顯著的技術效果,其原因在于如前面技術內容所述,現(xiàn)有方法僅僅考慮了視頻的顏色特征,但實際上,除了顏色特征,運動特征也是視頻具有的重要特征。針對現(xiàn)有鏡頭檢索方法僅僅使用顏色特征的缺陷,本發(fā)明提出了集成顏色和運動特征進行鏡頭檢索的方法,除了使用最優(yōu)匹配方法有效度量兩個鏡頭的顏色相似度以外,本發(fā)明還利用運動直方圖度量兩個鏡頭的運動相似度,所以,本發(fā)明能在現(xiàn)有技術的基礎上大大提高鏡頭檢索的準確性。與僅僅利用顏色特征的現(xiàn)有方法相比,試驗對比結果證明了本發(fā)明在鏡頭檢索中的優(yōu)異表現(xiàn)。


圖1是本發(fā)明的流程示意圖;圖2是實驗對比中鏡頭檢索的6個語義類例子;圖3是本發(fā)明對足球鏡頭的檢索結果。
具體實施例方式
下面結合附圖和具體實施例對本發(fā)明作進一步詳細的描述。
如圖1所示,一種集成顏色和運動特征進行鏡頭檢索的方法,包括以下步驟1、鏡頭分割首先使用時空切片算法(spatio-temporal slice),對視頻數(shù)據庫進行鏡頭分割,以鏡頭作為視頻的基本結構單元和檢索單元,關于時空切片算法的詳細描述可以參考文獻“Video Partitioning by Temporal Slice Coherency”[C.W.Ngo,T.C.Pong,and R.T.Chin,IEEE Transactions on Circuits andSystems for Video Technology,Vol.11,No.8,pp.941-953,August,2001]。
2、計算兩個鏡頭的顏色相似度在顏色特征上,利用圖論的最優(yōu)匹配方法,度量兩個鏡頭顏色相似度的方法如下在每個鏡頭內部等間隔提取3個關鍵幀作為結點,構造帶權二分圖G={X,Yk,Ek},X表示查詢鏡頭X有3個等間隔的關鍵幀x1,x2,.x3,Yk表示視頻庫中的鏡頭Yk有3個等間隔的關鍵幀y1,y2,y3,邊集Ek={eij},其中邊eij=(xi,yj)表示xi與yj相似,邊eij的權值ωij表示xi與yj的相似值,使用直方圖的交來計算ωijωij=Intersect(xi,yj)=1A(xi,yj)ΣhΣsΣv{Hi(h,s,v),Hj(h,s,v)}]]>A(xi,yj)=min{ΣhΣsΣvHi(h,s,v),ΣhΣsΣvHj(h,s,v)}]]>Hi(h,s,v)是HSV顏色空間的直方圖,本發(fā)明用H,S,V分量在18×3×3的三維空間中統(tǒng)計直方圖,以歸一化后的162個數(shù)值作為顏色特征值,Inter sect(xi,yj)表示兩個直方圖的交,用它來判斷兩個關鍵幀的相似性,使用A(xi,yj)歸一化Inter sect(xi,yj)到0,1之間;然后利用圖論的最優(yōu)匹配算法,求出G={X,Yk,Ek}的最優(yōu)匹配M后,把M每條邊eij的權值ωij相加,求得G={X,Yk,Ek}的最大權ω,本發(fā)明定義兩個鏡頭X和Yk的顏色相似度Similaritycolor(X,Yk)=ω3,]]>使用3將Similaritycolor(X,Yk)歸一化到0,1之間,值越大,表明鏡頭X和Yk越相似。
本實施例中采用的最優(yōu)匹配算法是Kuhn-Munkres方法,該方法的具體內容可見專利文獻“一種基于內容的鏡頭檢索方法”(申請?zhí)?3150127.3,
公開日2004年2月25日)。
3、計算兩個鏡頭的運動相似度在運動特征上,直接在壓縮域上提取鏡頭的運動矢量,然后構造鏡頭的運動直方圖的方法如下(A)運動角度angle(i,j)作為運動直方圖的橫坐標;(B)運動強度int ensity(i,j)作為運動直方圖的縱坐標,i,j表示視頻相鄰的兩幀。運動角度表示運動矢量的方向,而運動強度表示運動矢量的能量或強度,它們的計算方法如下angle(i,j)=arctg(dyi,jdxi,j)]]>intensity(i,j)=dxi,j2+dyi,j2]]>(dxi,j,dyi,j)表示運動矢量的橫坐標和縱坐標。運動角度在2π范圍內,被量化到n個角度范圍。然后,在鏡頭內,每個角度范圍的運動強度被累加形成鏡頭的運動直方圖HX(angle),HX(angle)的橫坐標是角度范圍n,縱坐標是運動強度,X表示鏡頭,angle∈[1,n]。在本實施例中,n=8,另外,視頻中僅僅考慮P-幀,這是為了減少計算的復雜性,加快速度。最終,兩個鏡頭X和Yk的相似度定義為Similaritymotion(X,Yk)=1A(HX,HYk)Σanglemin{HX(angle),HYk(angle)}]]>其中,A(HX,HYk)=max{ΣangleHX(angle),ΣangleHYk(angle)}]]>4、計算兩個鏡頭總的相似度最后,兩個鏡頭的相似度,取決于上述顏色相似度和運動相似度的總和Similarity(X,Yk)=ω1Similaritycolor(X,Yk)+ω2Similaritymotion(X,Yk)Similarity(X,Yk)表示兩個鏡頭X和Yk的相似度,Similaritycolor(X,Yk)表示兩個鏡頭X和Yk的顏色相似度,Similaritymotion(X,Yk)表示兩個鏡頭X和Yk的運動相似度,ω1和ω2表示Similaritycolor(X,Yk)和Similaritymotion(X,Yk)在最后相似度SimiIarity(X,Yk)中所占的比重,在本實施例中,ω1=0.7,ω2=0.3。
下面的實驗結果表明,本發(fā)明取得了比現(xiàn)有方法更高的檢索準確性,證明了本發(fā)明在鏡頭檢索中的優(yōu)異表現(xiàn)。
實驗用的鏡頭檢索數(shù)據庫總共由3個小時的視頻組成,包括3,392個鏡頭。它包含多種體育項目,如各種球類運動、舉重、游泳以及插播的廣告節(jié)目等。在對比試驗中,我們使用了6類體育運動作為查詢鏡頭,它們是游泳,柔道,排球,足球,擊劍和曲棍球,如圖2所示。
為了證明本發(fā)明的有效性,我們測試了以下3種方法做實驗對比(1)本發(fā)明所述的集成顏色和運動特征進行鏡頭檢索的方法;(2)現(xiàn)有方法1申請人所申請的另一項發(fā)明專利申請公開了“一種基于內容的鏡頭檢索方法”(申請?zhí)?3150127.3,
公開日2004年2月25日),兩種算法中的“算法A子鏡頭構造帶權二分圖的算法”;(3)現(xiàn)有方法2申請人所中請的另一項發(fā)明專利申請公開了“一種基于內容的鏡頭檢索方法”(申請?zhí)?3150127.3,
公開日2004年2月25日),兩種算法中的“算法B等間隔采樣構造帶權二分圖的算法”;(4)現(xiàn)有方法32002年在International Journal of Computer Vision發(fā)表的文獻“Motion-based Video Representation for Scene Change Detection”(作者是C.W.Ngo,T.C.Pong,and H.J.Zhang,Vol.50,No.2,頁碼127-143)(5)現(xiàn)有方法4使用每個鏡頭的首幀做關鍵幀的鏡頭檢索方法。
上述5種方法,在顏色特征上,都使用了HSV的162個分量做顏色特征值,使用直方圖的交來度量兩幅圖像的相似性,因此,最后的實驗結果能夠證明本發(fā)明的優(yōu)越性。
實驗采用了兩種在MPEG-7標準化活動中的評價指標平均歸一化調整后的檢索秩ANMRR(Average Normalized Modified Retrieval Rank)和平均查全率AR(Average Recall)。AR類似于傳統(tǒng)的查全率(Recall),而ANMRR與傳統(tǒng)的查準率(Precision)相比,不僅能夠反映出正確的檢索結果比例,而且能夠反映出正確結果的排列序號。ANMRR值越小,意味著檢索得到的正確鏡頭的排名越靠前;AR值越大,意味著在前K(K是檢索結果的截斷值)個查詢結果中相似鏡頭占所有相似鏡頭的比例越大。所以,AR越大,說明鏡頭檢索的查全率越好;ANMRR越小,說明鏡頭檢索的準確性越高。表2是上述4種方法對6個語義鏡頭類的AR和ANMRR比較。
表2 本發(fā)明與現(xiàn)有方法的對比實驗結果

從表2可以看出,本發(fā)明無論是AR,還是ANMRR,都取得了比現(xiàn)有的方法更好的效果,這主要是因為現(xiàn)有方法僅僅考慮了顏色特征,而本發(fā)明除了考慮顏色特征,還考慮了運動特征。最后兩個鏡頭的相似度,取決于鏡頭顏色相似度和運動相似度的總和。試驗對比結果證明了本發(fā)明在視頻鏡頭檢索中的優(yōu)異表現(xiàn)。
圖3給出了本發(fā)明對足球比賽鏡頭的檢索結果。按照鏡頭相似度從大到小排列檢索結果,排列的順序是從左到右,從上到下。其中,第一張圖像即是查詢鏡頭本身,因為它與自己的相似度是最高的,所以排列在查詢結果的第一位。從圖3可以看出,檢索結果都是關于足球比賽的鏡頭。
本發(fā)明所述的方法并不限于具體實施方式
中所述的實施例,本領域技術人員根據本發(fā)明的技術方案得出其他的實施方式,同樣屬于本發(fā)明的技術創(chuàng)新范圍。
權利要求
1.集成顏色和運動特征進行鏡頭檢索的方法,包括以下步驟(1)首先對視頻數(shù)據庫進行鏡頭分割,以鏡頭作為視頻的基本結構單元和檢索單元;(2)在顏色特征上,利用圖論的最優(yōu)匹配方法,度量兩個鏡頭X和Yk的顏色相似度Similaritycolor(X,Yk);(3)在運動特征上,直接在壓縮域上提取鏡頭的運動矢量,然后構造鏡頭的運動直方圖的方法如下(A)運動角度angle(i,j)作為運動直方圖的橫坐標;(B)運動強度int ensity(i,j)作為運動直方圖的縵坐標,i,j表示視頻相鄰的兩幀;運動角度表示運動矢量的方向,而運動強度表示運動矢量的能量或強度,它們的計算方法如下angle(i,j)=arctg(dyi,jdxi,j)]]>intensity(i,j)=dxi,j2+dyi,j2]]>(dxi,j,dyi,j)表示運動矢量的橫坐標和縱坐標。運動角度在2π范圍內,被量化到n個角度范圍,其中n為整數(shù),然后,在鏡頭內,每個角度范圍的運動強度被累加形成鏡頭的運動直方圖HX(angle),HX(angle)的橫坐標是角度范圍n,縱坐標是運動強度,X表示鏡頭,angle∈[1,n];最終,兩個鏡頭X和Yk的運動相似度定義為Similaritymotion(X,Yk)Similaritymotion(X,Yk)=1A(HX,HYk)Σanglemin{HX(angle),HYk(angle)}]]>其中,A(HX,HYk)=max{ΣangleHX(angle),ΣangleHYk(angle)}]]>(4)最后,兩個鏡頭的相似度Similarity(X,Yk),取決于上述顏色相似度Similaritycolor(X,Yk)和運動相似度Similaritymotion(X,Yk)的總和,相似度Similarity(X,Yk)值越大,表示兩鏡頭越相似。
2.如權利要求1所述的集成顏色和運動特征進行鏡頭檢索的方法,其特征在于步驟(2)中,在每個鏡頭內部等間隔提取3個關鍵幀作為結點,構造帶權二分圖G={X,Yk,Ek},X表示查詢鏡頭X有3個等間隔的關鍵幀x1,x2,.x3,Yk表示視頻庫中的鏡頭Yk有3個等間隔的關鍵幀y1,y2,y3,邊集Ek={eij},其中邊eij=(xi,yj)表示xi與yj相似,邊eij的權值ωij表示xi與yj的相似值,使用直方圖的交來計算ωijωij=Intersect(xi,yi)=1A(xi,yi)ΣhΣsΣv{Hi(h,s,v),Hj(h,s,v)}]]>其中,A=(xi,yj)=min{ΣhΣsΣvHi(h,s,v),ΣhΣsΣvHj(h,s,v)}]]>Hi(h,s,v)是HSV顏色空間的直方圖,本發(fā)明用H,S,V分量在18×3×3的三維空間中統(tǒng)計直方圖,以歸一化后的162個數(shù)值作為顏色特征值,Intersect(xi,yj)表示兩個直方圖的交,用它來判斷兩個關鍵幀的相似性,使用A(xi,yj)歸一化Intersect(xi,yj)到0,1之間;然后利用圖論的最優(yōu)匹配算法,求出G={X,Yk,Ek}的最優(yōu)匹配M后,把M每條邊eij的權值ωij相加,求得G={X,Yk,Ek}的最大權ω,本發(fā)明定義兩個鏡頭X和Yk的顏色相似度Similaritycolor(X,Yk)=ω3,]]>使用3將Similaritycolor(X,Yk)歸一化到0,1之間,值越大,表明鏡頭X和Yk越相似。
3.如權利要求2所述的集成顏色和運動特征進行鏡頭檢索的方法,其特征在于步驟(2)中所述的圖論的最優(yōu)匹配算法是Kuhn_Munkres方法。
4.如權利要求1所述的集成顏色和運動特征進行鏡頭檢索的方法,其特征在于步驟(3)中,量化的角度范圍n=8。
5.如權利要求1或3所述的集成顏色和運動特征進行鏡頭檢索的方法,其特征在于步驟(4)中,兩個鏡頭的相似度Similarity(X,Yk)取決于上述顏色相似度Similaritycolor(X,Yk)和運動相似度Similaritymotion(X,Yk)的總和Similarity(X,Yk)=ω1Similaritycolor(X,Yk)+ω2Similaritymotion(X,Yk)其中,ω1和ω2表示Similaritycolor(X,Yk)和Similaritymotion(X,Yk)在最后相似度Similarity(X,Yk)中所占的比重,ω1+ω2=1。
6.如權利要求4所述的集成顏色和運動特征進行鏡頭檢索的方法,其特征在于步驟(4)中,ω1=0.7,ω2=0.3。
全文摘要
本發(fā)明屬于視頻檢索技術領域,具體涉及集成顏色和運動特征進行鏡頭檢索的方法?,F(xiàn)有的鏡頭檢索方法僅僅考慮了視頻的顏色特征,因此存在檢索準確性較低的問題。針對現(xiàn)有技術的不足,本發(fā)明提出了同時利用顏色和運動特征進行鏡頭檢索的方法在顏色特征上,提出利用圖論的最優(yōu)匹配方法度量兩個鏡頭的相似度;在運動特征上,本發(fā)明直接在壓縮域上提取鏡頭的運動特征,然后構造鏡頭的運動直方圖度量兩個鏡頭的運動相似度。最后兩個鏡頭的相似度,取決于它們顏色相似度和運動相似度的總和。與僅僅使用顏色特征的現(xiàn)有方法相比,試驗對比結果證明了本發(fā)明能夠取得更高的準確性。
文檔編號G06F17/30GK1710562SQ20051008421
公開日2005年12月21日 申請日期2005年7月18日 優(yōu)先權日2005年7月18日
發(fā)明者彭宇新, 肖建國 申請人:北大方正集團有限公司, 北京北大方正技術研究院有限公司, 北京大學計算機科學技術研究所
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1