亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于內(nèi)容的鏡頭檢索方法

文檔序號(hào):6373803閱讀:189來源:國知局
專利名稱:一種基于內(nèi)容的鏡頭檢索方法
技術(shù)領(lǐng)域
本發(fā)明屬于視頻檢索技術(shù)領(lǐng)域,具體涉及一種基于內(nèi)容的鏡頭檢索方法。
如文獻(xiàn)“A New Approach to Retrieve Video by Example Video Clip”[X.M.Liu,Y.T.Zhuang,and Y.H.Pan,ACM Multimedia,pp.41-44,1999]所述,視頻檢索的一般方法是首先進(jìn)行鏡頭分割,以鏡頭作為視頻序列的基本結(jié)構(gòu)單元和檢索單元;然后在每個(gè)鏡頭內(nèi)部提取關(guān)鍵幀來代表該鏡頭的內(nèi)容,從關(guān)鍵幀提取出顏色和紋理等低級(jí)特征,用于鏡頭的索引和檢索。這樣,就把基于內(nèi)容的鏡頭檢索轉(zhuǎn)化為基于內(nèi)容的圖像檢索來解決。這類方法存在的問題是鏡頭是圖像在時(shí)間上的連續(xù)序列,沒有對(duì)存在于視頻中的時(shí)間信息和運(yùn)動(dòng)信息充分進(jìn)行利用。與本發(fā)明最為接近的現(xiàn)有技術(shù)是2002年在International Journal ofComputer Vision發(fā)表的文獻(xiàn)“Motion-based Video Representation for Scene ChangeDetection”(作者是C.W.Ngo,T. C.Pong,and H.J.Zhang,Vol.50,No.2,頁碼127-143),該方法提出把一個(gè)鏡頭內(nèi)的內(nèi)容變化分解為幾個(gè)內(nèi)容一致的子單元,稱為子鏡頭(subshot),它主要包括這樣幾個(gè)步驟(1)基于相機(jī)運(yùn)動(dòng)來提取子鏡頭;(2)然后針對(duì)不同運(yùn)動(dòng)的子鏡頭,選取和構(gòu)造不同的關(guān)鍵幀表示,如靜止(static)子鏡頭可以用一個(gè)關(guān)鍵幀來表示,掃描(pan)子鏡頭通過構(gòu)造一個(gè)全景圖(panorama)來表示,變焦(zoom)子鏡頭可以用變焦之前和之后的兩個(gè)關(guān)鍵幀來表示;(3)最后兩個(gè)鏡頭的相似度表示為它們所有關(guān)鍵幀相似度的最大值和第二大值的平均值Sim(si,sj)=12{M(si,sj)+M^(si,sj)},]]> 表示兩個(gè)鏡頭si和sj的第二大相似值。這種提取子鏡頭的方法很好考慮了鏡頭內(nèi)容的冗余性,但最大值和第二大值的度量方法并不能全面客觀地反映兩個(gè)鏡頭內(nèi)部的相似程度。

發(fā)明內(nèi)容
針對(duì)現(xiàn)有的鏡頭檢索方法所存在的缺陷,本發(fā)明的目的是提出一種基于內(nèi)容的鏡頭檢索方法,該方法能在現(xiàn)有技術(shù)的基礎(chǔ)上大大提高基于內(nèi)容的鏡頭檢索的準(zhǔn)確率,同時(shí)保持很快的檢索速度,從而更加充分地發(fā)揮鏡頭檢索技術(shù)在當(dāng)今網(wǎng)絡(luò)信息社會(huì)中的巨大作用。
本發(fā)明的目的是這樣實(shí)現(xiàn)的一種基于內(nèi)容的鏡頭檢索方法,包括以下步驟(1)首先對(duì)視頻數(shù)據(jù)庫進(jìn)行鏡頭分割,以鏡頭作為視頻的基本結(jié)構(gòu)單元和檢索單元;(2)建立鏡頭相似度度量的帶權(quán)二分圖模型G={X,Y,E}X表示鏡頭X有n幀x1,x2,...,xn,Y表示鏡頭Y有m幀y1,y2,...,ym,邊集E={eij},其中邊eij=(xi,yj)表示xi與yj相似,邊eij的權(quán)值ωij表示xi與yj的相似值;該步驟中,采用如下方法降低G={X,Y,E}的結(jié)點(diǎn)數(shù)目,提高檢索速度A、子鏡頭構(gòu)造帶權(quán)二分圖的方法以子鏡頭的關(guān)鍵幀作為結(jié)點(diǎn),構(gòu)造帶權(quán)二分圖G={X,Y,E};或B、等間隔采樣構(gòu)造帶權(quán)二分圖的方法在每個(gè)鏡頭內(nèi)部等間隔地提取關(guān)鍵幀作為結(jié)點(diǎn),構(gòu)造帶權(quán)二分圖G={X,Y,E},這樣,兩個(gè)鏡頭的關(guān)鍵幀數(shù)目是一樣的,可以構(gòu)成多結(jié)點(diǎn)的完全二分圖;(3)利用Kuhn_Munkres方法計(jì)算兩個(gè)鏡頭的相似度利用圖論中最優(yōu)匹配的Kuhn_Munkres方法,求出G={X,Y,E}的最優(yōu)匹配M后,把M每條邊eij的權(quán)值ωij相加,可以求得G={X,Y,E}的最大權(quán)ω,定義兩個(gè)鏡頭X和Y的視覺相似度Similarity(X,Y)=ωmin(n,m),]]>使用min(n,m)將Similarity(X,Y)歸一化到0,1之間,值越大,表明鏡頭X和Y越相似。
為了更好地實(shí)現(xiàn)本發(fā)明的目的,在進(jìn)行鏡頭檢索時(shí),還可以附加以下技術(shù)特征步驟(2)中使用直方圖的交來計(jì)算ωijωij=Intersect(xi,yj)=1A(xi,yj)ΣhΣsΣvmin{Hi(h,s,v),Hj(h,s,v)}]]>A(xi,yj)=min{ΣhΣsΣvHi(h,s,v),ΣhΣsΣvHj(h,s,v)}]]>Hi(h,s,v)是HSV顏色空間的直方圖,本發(fā)明用H,S,V分量在18×3×3的三維空間中統(tǒng)計(jì)直方圖,以歸一化后的162個(gè)數(shù)值作為顏色特征值,Inter sect(xi,yj)表示兩個(gè)直方圖的交,用它來判斷兩個(gè)關(guān)鍵幀的相似性,使用A(xi,yj)歸一化Inter sect(xi,yj)到0,1之間。
進(jìn)一步來說,步驟(2)中的子鏡頭構(gòu)造帶權(quán)二分圖的方法可以是(1)根據(jù)相機(jī)運(yùn)動(dòng)檢測子鏡頭,選擇或構(gòu)造關(guān)鍵幀以降低鏡頭的幀數(shù);(2)以關(guān)鍵幀作為結(jié)點(diǎn),構(gòu)造帶權(quán)二分圖G={X,Y,E}。
再進(jìn)一步,步驟(2)中的等間隔采樣構(gòu)造帶權(quán)二分圖的方法還可以是(1)在每個(gè)鏡頭內(nèi)部等間隔地提取關(guān)鍵幀;(2)以關(guān)鍵幀作為結(jié)點(diǎn),構(gòu)造帶權(quán)二分圖G={X,Y,E}。
具體來說,在進(jìn)行基于內(nèi)容的鏡頭檢索時(shí),利用Kuhn_Munkres方法計(jì)算兩個(gè)鏡頭的相似度,具體的Kuhn_Munkres方法如下(1)給出初始標(biāo)號(hào)l(xi)=maxjωij,l(yj)=0,i,j=1,2...,t,]]>t=max(n,m);(2)求出邊集El={(xi,yj)|l(xi)+l(yj)=ωij}、Gi=(X,Yk,El)及Gl中的一個(gè)匹配M(ME,并且M中任意兩條邊都不相鄰);(3)如M已飽和X的所有結(jié)點(diǎn),則M即是G的最優(yōu)匹配,計(jì)算結(jié)束,否則進(jìn)行下一步;(4)在X中找一M非飽和點(diǎn)x0,令A(yù)←{x0},B←φ,A,B是兩個(gè)集合;(5)若NGl(A)=B,]]>則轉(zhuǎn)第(9)步,否則進(jìn)行下一步,其中,NGl(A)⊆Yk,]]>是與A中結(jié)點(diǎn)鄰接的結(jié)點(diǎn)集合;(6)找一結(jié)點(diǎn)y∈NGl(A)-B;]]>(7)若y是M飽和點(diǎn),則找出y的配對(duì)點(diǎn)z,令A(yù)←A∪{z},B←B∪{y},轉(zhuǎn)第(5)步,否則進(jìn)行下一步;(8)存在一條從x0到y(tǒng)的可增廣路P,令M←ME(P),轉(zhuǎn)第(3)步;(9)按下式計(jì)算α值a=minxi∈Ayi∉NGl(A){l(xi)+l(yj)-ωij},]]>修改標(biāo)號(hào) 根據(jù)l′求El′及Gl′;(10)l←l′,Gl←Gl′,轉(zhuǎn)第(6)步。求出G={X,Y,E}的最優(yōu)匹配M后,把M每條邊eij的權(quán)值ωij相加,可以求得G={X,Y,E}的最大權(quán)ω。本發(fā)明定義兩個(gè)鏡頭X和Y的視覺相似度Similarity(X,Y)=ωmin(n,m).]]>使用min(n,m)將Similarity(X,Y)歸一化到0,1之間,值越大,表明鏡頭X和Y越相似。
本發(fā)明的效果在于采用本發(fā)明所述的基于內(nèi)容的鏡頭檢索方法,可以在進(jìn)行基于內(nèi)容的鏡頭檢索時(shí)取得更高的準(zhǔn)確率,同時(shí)保持很快的檢索速度。
本發(fā)明之所以具有如此顯著的技術(shù)效果,其原因在于如前面技術(shù)內(nèi)容所述,利用圖論最優(yōu)匹配的Kuhn-Munkres方法度量兩個(gè)鏡頭的相似度。把兩個(gè)鏡頭的相似度度量建模為一個(gè)帶權(quán)二分圖鏡頭中的每一幀看成二分圖的一個(gè)結(jié)點(diǎn),兩個(gè)鏡頭之間任意幀的相似值作為邊的權(quán)值。在一一對(duì)應(yīng)的前提下,利用最優(yōu)匹配的Kuhn_Munkres方法求出該二分圖的最大權(quán),以此作為兩個(gè)鏡頭的相似值?,F(xiàn)有方法考慮了使用HSV顏色直方圖表示關(guān)鍵幀的缺點(diǎn)如果兩個(gè)關(guān)鍵幀有相似的顏色分布,即使它們的內(nèi)容不一樣,也會(huì)認(rèn)為這兩個(gè)關(guān)鍵幀相似。因此使用最大相似值和第二大相似值的平均值來加強(qiáng)方法的魯棒性。與現(xiàn)有方法相比,本發(fā)明提出的方法強(qiáng)調(diào)在一一對(duì)應(yīng)的前提下來度量兩個(gè)鏡頭的相似性,因?yàn)椴恢貜?fù)計(jì)算每一幀的相似度,而著眼于兩個(gè)鏡頭所能達(dá)到的最大相似值,所以這個(gè)方法可以更加有效地避免現(xiàn)有方法中所提的低層顏色和上層語義內(nèi)容不一致的矛盾,而且能夠全面客觀地度量兩個(gè)鏡頭內(nèi)部的相似程度。為了提高檢索速度,本發(fā)明提出了兩個(gè)改進(jìn)方法子鏡頭構(gòu)造帶權(quán)二分圖和等間隔采樣構(gòu)造帶權(quán)二分圖。對(duì)比實(shí)驗(yàn)結(jié)果證實(shí)了本發(fā)明提出方法的有效性。


圖1所示,本發(fā)明各步方法的流程示意圖,包括以下步驟1、鏡頭分割首先使用時(shí)空切片算法(spatio-temporal slice),對(duì)視頻數(shù)據(jù)庫進(jìn)行鏡頭分割,以鏡頭作為視頻的基本結(jié)構(gòu)單元和檢索單元,關(guān)于時(shí)空切片算法的詳細(xì)描述可以參考文獻(xiàn)“Video Partitioning by Temporal Slice Coherency”[C.W.Ngo,T.C.Pong,and R.T.Chin,IEEE Transactions on Circuits andSystems for Video Technology,Vol.11,No.8,pp.941-953,August,2001]。
2、建立鏡頭相似度度量的帶權(quán)二分圖模型G={X,Y,E}最優(yōu)匹配是圖論中的一個(gè)經(jīng)典問題,它解決的一個(gè)典型應(yīng)用問題如下假設(shè)有n個(gè)工作人員x1,x2,...,xn安排做m項(xiàng)工作任務(wù)y1,y2,...,ym,如圖2所示,其中邊eij=(xi,yj)表示xi可以從事yj,eij的權(quán)值ωij表示xi從事yj的效率,如果每個(gè)人最多從事其中一項(xiàng)工作,且每項(xiàng)工作只能由一人承擔(dān)。問怎樣合理安排使總的工作效率最高?本發(fā)明把圖論的最優(yōu)匹配運(yùn)用到鏡頭檢索中,可以這樣表述鏡頭檢索問題設(shè)X鏡頭有n幀x1,x2,...,xn,Y鏡頭有m幀y1,y2,...,ym,其中邊eij=(xi,yj)表示xi與yj相似,ωij表示xi與yj的相似值,如圖2所示。要求xi與yj必須一一對(duì)應(yīng)而不能多對(duì)一或多對(duì)多對(duì)應(yīng),問能使總的相似度最大的匹配?這樣得到的匹配反映了X鏡頭和Y鏡頭所能達(dá)到的最大相似度,因此,本發(fā)明把它作為這兩個(gè)鏡頭的相似度。由這個(gè)表述,可以知道,在本發(fā)明中最優(yōu)匹配方法的實(shí)質(zhì)是在一一對(duì)應(yīng)的前提下,衡量兩個(gè)鏡頭所能達(dá)到的最大相似度。因?yàn)椴恢貜?fù)計(jì)算每一幀的相似度,而著眼于兩個(gè)鏡頭所能達(dá)到的最大相似值,所以這個(gè)方法能夠全面客觀地衡量兩個(gè)鏡頭內(nèi)部的相似程度。
為了建模鏡頭相似度度量的帶權(quán)二分圖G={X,Y,E}(其中,頂點(diǎn)集V=X∪Y,邊集E={eij}),必須求出xi和yj的相似值ωij作為每邊eij的權(quán)值。這里,本發(fā)明使用直方圖的交來計(jì)算ωijωij=Intersect(xi,yj)=1A(xi,yj)ΣhΣsΣvmin{Hi(h,s,v),Hj(h,s,v)}]]>A(xi,yj)=min{ΣhΣsΣvHi(h,s,v),ΣhΣsΣvHj(h,s,v)}]]>Hi(h,s,v)是HSV顏色空間的直方圖,本發(fā)明用H,S,V分量在18×3×3的三維空間中統(tǒng)計(jì)直方圖,以歸一化后的162個(gè)數(shù)值作為顏色特征值。Inter sect(xi,yj)表示兩個(gè)直方圖的交,用它來判斷兩個(gè)關(guān)鍵幀的相似性,使用A(xi,yj)歸一化Inter sect(xi,yj)到0,1之間。
3、利用Kuhn_Munkres方法計(jì)算兩個(gè)鏡頭的相似度Kuhn_Munkres方法是解決上述最優(yōu)匹配問題的有效方法。把兩個(gè)鏡頭X和Y每對(duì)幀的相似值ωij賦給G={X,Y,E}的每條邊eij,這時(shí)的G就轉(zhuǎn)化為一個(gè)帶權(quán)的完全二分圖,完全二分圖表示G有m×n條邊。具體的Kuhn_Munkres方法如下(1)給出初始標(biāo)號(hào)l(xi)=maxjωij,l(yj)=0,i,j=1,2...,t,]]>t=max(n,m);(2)求出邊集El={(xi,yj)|l(xi)+l(yj)=ωij}、Gl=(X,Yk,El)及Gl中的一個(gè)匹配M(ME,并且M中任意兩條邊都不相鄰);(3)如M已飽和X的所有結(jié)點(diǎn),則M即是G的最優(yōu)匹配,計(jì)算結(jié)束,否則進(jìn)行下一步;(4)在X中找一M非飽和點(diǎn)x0,令A(yù)←{x0},B←φ,A,B是兩個(gè)集合;
(5)若NGl(A)=B,]]>則轉(zhuǎn)第(9)步,否則進(jìn)行下一步,其中,NGl(A)⊆Yk,]]>是與A中結(jié)點(diǎn)鄰接的結(jié)點(diǎn)集合;(6)找一結(jié)點(diǎn)y∈NGl(A)-B;]]>(7)若y是M飽和點(diǎn),則找出y的配對(duì)點(diǎn)z,令A(yù)←A∪{z},B←B∪{y},轉(zhuǎn)第(5)步,否則進(jìn)行下一步;(8)存在一條從x0到y(tǒng)的可增廣路P,令M←ME(P),轉(zhuǎn)第(3)步;(9)按下式計(jì)算α值a=minxi∈Ayi∉NGl(A){l(xi)+l(yj)-ωij},]]>修改標(biāo)號(hào)

根據(jù)l′求El′及Gl′;(10)l←l′,Gl←Gl′,轉(zhuǎn)第(6)步。
求出G={X,Y,E}的最優(yōu)匹配M后,把M每條邊eij的權(quán)值ωij相加,可以求得G={X,Y,E}的最大權(quán)ω。本發(fā)明定義兩個(gè)鏡頭X和Y的視覺相似度Similarity(X,Y)=ωmin(n,m).]]>使用min(n,m)將Similarity(X,Y)歸一化到0,1之間,值越大,表明鏡頭X和Y越相似。
上述Kuhn_Munkres方法從理論上很好地解決了兩個(gè)鏡頭的相似度度量問題,但在實(shí)際中,一些鏡頭經(jīng)常包含成百上千幀圖像,而用Kuhn_Munkres方法計(jì)算上百個(gè)結(jié)點(diǎn)構(gòu)成二分圖的最大權(quán)是比較耗時(shí)的工作??紤]到鏡頭內(nèi)部內(nèi)容的冗余性,這種計(jì)算常常也是一種不必要的操作。因此,必須降低鏡頭的幀數(shù),本發(fā)明在步驟2中可選擇使用以下兩種方法中的一種。
A、子鏡頭構(gòu)造帶權(quán)二分圖的方法使用子鏡頭的概念來降低鏡頭內(nèi)的幀數(shù)。把一個(gè)鏡頭內(nèi)的內(nèi)容變化分解為幾個(gè)內(nèi)容一致的子單元,稱為子鏡頭。如靜止子鏡頭,可能持續(xù)上千幀,但實(shí)際上,僅僅使用一幀來表示它就可以了。本發(fā)明使用了文獻(xiàn)“Motion-based Video Representation for Scene Change Detection”[C.W.Ngo,T.C.Pong,and H.J.Zhang,International Journal of Computer Vision,Vol.50,No.2,pp.127-143,Nov 2002]中的根據(jù)相機(jī)運(yùn)動(dòng)檢測子鏡頭的辦法,選擇或構(gòu)造關(guān)鍵幀以降低鏡頭的幀數(shù)。具體的關(guān)鍵幀構(gòu)造如表1所示表1 基于相機(jī)運(yùn)動(dòng)檢測的關(guān)鍵幀表示


利用表1所示的關(guān)鍵幀構(gòu)造辦法,可以在全面衡量兩個(gè)鏡頭內(nèi)容的前提下,有效降低二分圖的結(jié)點(diǎn)數(shù),加快Kuhn_Munkres方法的計(jì)算速度。但存在的問題是很多鏡頭僅僅包含一個(gè)子鏡頭和一個(gè)關(guān)鍵幀(如靜止子鏡頭的一個(gè)關(guān)鍵幀,平移子鏡頭的一個(gè)全景圖等),此時(shí)Kuhn-Munkres方法的使用,就轉(zhuǎn)化為求與該關(guān)鍵幀相似值的最大值,因此,可能出現(xiàn)顏色相似而內(nèi)容不一致的矛盾,為了解決這個(gè)矛盾,本發(fā)明提出了方法B。
B、等間隔采樣構(gòu)造帶權(quán)二分圖的方法在每個(gè)鏡頭內(nèi)部等間隔地提取關(guān)鍵幀,這樣,兩個(gè)鏡頭的關(guān)鍵幀數(shù)目是一樣的,可以構(gòu)成多結(jié)點(diǎn)的完全二分圖。此時(shí)使用Kuhn-Munkres方法,可以達(dá)到本發(fā)明的目的在一一對(duì)應(yīng)的前提下,衡量兩個(gè)鏡頭內(nèi)部的相似性,從而避免了方法A的問題。
下面的實(shí)驗(yàn)結(jié)果表明,本發(fā)明的兩種方法都取得了比現(xiàn)有方法和常用的單關(guān)鍵幀表示法更好的效果,同時(shí)檢索速度很快,證實(shí)了本發(fā)明在鏡頭檢索中的優(yōu)異表現(xiàn)。
鏡頭檢索的實(shí)驗(yàn)數(shù)據(jù)是從電視錄制的2002年亞運(yùn)會(huì)節(jié)目,總共有41分鐘,777個(gè)鏡頭,62132幀圖像。它包含多種體育項(xiàng)目,如各種球類運(yùn)動(dòng)、舉重、游泳以及插播的廣告節(jié)目等。我們選了7個(gè)語義類作為查詢鏡頭,它們是舉重、排球、游泳、柔道、劃船、體操、足球,如圖3所示。
為了驗(yàn)證本發(fā)明的有效性,我們測試了以下4種方法做實(shí)驗(yàn)對(duì)比(1)本發(fā)明的方法A子鏡頭構(gòu)造帶權(quán)二分圖的方法;(2)本發(fā)明的方法B等間隔采樣構(gòu)造帶權(quán)二分圖的方法;(3)現(xiàn)有方法;(4)常用的使用每個(gè)鏡頭的首幀做關(guān)鍵幀的鏡頭檢索方法。
上述4種方法,都使用了HSV的162個(gè)分量做顏色特征值,使用直方圖的交來度量兩幅圖像的相似性,因此,最后的實(shí)驗(yàn)結(jié)果能夠從鏡頭相似度的度量方法上證明本發(fā)明的優(yōu)越性。圖4給出了實(shí)驗(yàn)程序的用戶界面,上面一行是查詢視頻的瀏覽區(qū)域,顯示視頻中每個(gè)鏡頭的第1個(gè)關(guān)鍵幀,用來表示每個(gè)鏡頭,用戶可以從中選擇想要進(jìn)行查詢的鏡頭進(jìn)行檢索,下面是查詢結(jié)果區(qū)域。圖4是選擇上面一行的第1個(gè)鏡頭(022430.bmp,游泳鏡頭),按照本發(fā)明的方法B計(jì)算出的相似度最大權(quán),從大到小排列查詢結(jié)果。排列的順序是從左到右,從上到下。
實(shí)驗(yàn)采用了兩種在MPEG-7標(biāo)準(zhǔn)化活動(dòng)中的評(píng)價(jià)指標(biāo)平均歸一化調(diào)整后的檢索秩ANMRR(Average Normalized Modified Retrieval Rank)和平均查全率AR(Average Recall)。AR類似于傳統(tǒng)的查全率(Recall),而ANMRR與傳統(tǒng)的查準(zhǔn)率(Precision)相比,不僅能夠反映出正確的檢索結(jié)果比例,而且能夠反映出正確結(jié)果的排列序號(hào)。ANMRR值越小,意味著檢索得到的正確鏡頭的排名越靠前;AR值越大,意味著在前K(K是檢索結(jié)果的截?cái)嘀?個(gè)查詢結(jié)果中相似鏡頭占所有相似鏡頭的比例越大。表2是上述4種方法對(duì)7個(gè)語義鏡頭類的AR和ANMRR比較。
表2 本發(fā)明與現(xiàn)有兩種方法的對(duì)比實(shí)驗(yàn)結(jié)果

從表2可以看出,本發(fā)明的兩種方法,無論是AR,還是ANMRR,都取得了比現(xiàn)有的兩種方法更好的效果,證實(shí)了本發(fā)明利用Kuhn-Munkres方法度量鏡頭相似度的有效性。采用方法A的方法相機(jī)運(yùn)動(dòng)檢測子鏡頭的結(jié)果,使得很多鏡頭僅僅包括一個(gè)關(guān)鍵幀,因此,Kuhn-Munkres方法的使用,就轉(zhuǎn)化為求與該關(guān)鍵幀相似值的最大值。而采用方法B的方法是對(duì)每個(gè)鏡頭等間隔地取3幀來刻畫鏡頭的內(nèi)容,從而避免了方法A的問題,因此本發(fā)明方法B的AR和ANMRR都優(yōu)于本發(fā)明的方法A。另外,在PIII雙CPU 1G,256M內(nèi)存的PC機(jī)上,采用方法A的方法的平均檢索時(shí)間為9.6秒,采用方法B的方法的平均檢索時(shí)間為15.4秒,對(duì)于777個(gè)鏡頭的視頻庫來說,本發(fā)明的兩種方法的檢索速度都是很快的,采用方法A的方法的檢索速度快于采用方法B的方法。因此,本發(fā)明的兩種方法可以根據(jù)實(shí)際應(yīng)用的需求選擇使用從檢索精度上來說,采用方法B的方法相對(duì)要好;但從檢索速度上來說,采用方法A的方法相對(duì)要快。
權(quán)利要求
1.一種基于內(nèi)容的鏡頭檢索方法,包括以下步驟(1)首先對(duì)視頻數(shù)據(jù)庫進(jìn)行鏡頭分割,以鏡頭作為視頻的基本結(jié)構(gòu)單元和檢索單元;(2)建立鏡頭相似度度量的帶權(quán)二分圖模型G={X,Y,E}X表示鏡頭X有n幀x1,x2,...,xn,Y表示鏡頭Y有m幀y1,y2,...,ym,邊集E={eij},其中邊eij=(xi,yj)表示xi與yj相似,邊eij的權(quán)值ωij表示xi與yj的相似值;該步驟中,采用如下方法降低G={X,Y,E}的結(jié)點(diǎn)數(shù)目,提高檢索速度A、子鏡頭構(gòu)造帶權(quán)二分圖的方法以子鏡頭的關(guān)鍵幀作為結(jié)點(diǎn),構(gòu)造帶權(quán)二分圖G={X,Y,E};或B、等間隔采樣構(gòu)造帶權(quán)二分圖的方法在每個(gè)鏡頭內(nèi)部等間隔地提取關(guān)鍵幀作為結(jié)點(diǎn),構(gòu)造帶權(quán)二分圖G={X,Y,E},這樣,兩個(gè)鏡頭的關(guān)鍵幀數(shù)目是一樣的,可以構(gòu)成多結(jié)點(diǎn)的完全二分圖;(3)利用Kuhn_Munkres方法計(jì)算兩個(gè)鏡頭的相似度利用圖論中最優(yōu)匹配的Kuhn_Munkres方法,求出G={X,Y,E}的最優(yōu)匹配M后,把M每條邊eij的權(quán)值ωij相加,可以求得G={X,Y,E}的最大權(quán)ω,定義兩個(gè)鏡頭X和Y的視覺相似度Similarity(X,Y)=ωmin(n,m),]]>使用min(n,m)將Similarity(X,Y)歸一化到0,1之間,值越大,表明鏡頭X和Y越相似。
2.如權(quán)利要求1所述的一種基于內(nèi)容的鏡頭檢索方法,其特征在于步驟(2)中使用直方圖的交來計(jì)算ωijωij=Intersect(xi,yj)=1A(xi,yj)ΣhΣsΣvmin{Hi(h,s,v),Hj(h,s,v)}]]>A(xi,yj)=min{ΣhΣsΣvHi(h,s,v),ΣhΣsΣvHj(h,s,v)}]]>Hi(h,s,v)是HSV顏色空間的直方圖,本發(fā)明用H,S,V分量在18×3×3的三維空間中統(tǒng)計(jì)直方圖,以歸一化后的162個(gè)數(shù)值作為顏色特征值,Intersect(xi,yj)表示兩個(gè)直方圖的交,用它來判斷兩個(gè)關(guān)鍵幀的相似性,使用A(xi,yj)歸一化Inter sect(xi,yj)到0,1之間。
3.如權(quán)利要求1所述的一種基于內(nèi)容的鏡頭檢索方法,其特征在于步驟(2)中的子鏡頭構(gòu)造帶權(quán)二分圖的方法是(1)根據(jù)相機(jī)運(yùn)動(dòng)檢測子鏡頭,選擇或構(gòu)造關(guān)鍵幀以降低鏡頭的幀數(shù);(2)以關(guān)鍵幀作為結(jié)點(diǎn),構(gòu)造帶權(quán)二分圖G={X,Y,E}。
4.如權(quán)利要求1所述的一種基于內(nèi)容的鏡頭檢索方法,其特征在于步驟(2)中的等間隔采樣構(gòu)造帶權(quán)二分圖的方法是(1)在每個(gè)鏡頭內(nèi)部等間隔地提取關(guān)鍵幀;(2)以關(guān)鍵幀作為結(jié)點(diǎn),構(gòu)造帶權(quán)二分圖G={X,Y,E}。
5.如權(quán)利要求1所述的一種基于內(nèi)容的鏡頭檢索方法,其特征在于步驟(3)中,利用Kuhn_Munkres方法計(jì)算兩個(gè)鏡頭的相似度,具體的Kuhn_Munkres方法如下(1)給出初始標(biāo)號(hào)l(xi)=maxjωij,l(yj)=0,i,j=1,2...,t,]]>t=max(n,m);(2)求出邊集El={(xi,yj)|l(xi)+l(yj)=ωij}、Gl=(X,Yk,El)及Gl中的一個(gè)匹配M(ME,并且M中任意兩條邊都不相鄰);(3)如M已飽和X的所有結(jié)點(diǎn),則M即是G的最優(yōu)匹配,計(jì)算結(jié)束,否則進(jìn)行下一步;(4)在X中找一M非飽和點(diǎn)x0,令A(yù)←{x0},B←φ,A,B是兩個(gè)集合;(5)若NGl(A)=B,]]>則轉(zhuǎn)第(9)步,否則進(jìn)行下一步,其中,NGl(A)⊆Yk,]]>是與A中結(jié)點(diǎn)鄰接的結(jié)點(diǎn)集合;(6)找一結(jié)點(diǎn)y∈NGl(A)-B;]]>(7)若y是M飽和點(diǎn),則找出y的配對(duì)點(diǎn)z,令A(yù)←A∪{z},B←B∪{y},轉(zhuǎn)第(5)步,否則進(jìn)行下一步;(8)存在一條從x0到y(tǒng)的可增廣路P,令M←ME(P),轉(zhuǎn)第(3)步;(9)按下式計(jì)算α值a=minxi∈Ayi∉NGl(A){l(xi)+l(yj)-ωij},]]>修改標(biāo)號(hào) 根據(jù)l′求El及Gl′;(10)l←l′,Gl←Gl′,轉(zhuǎn)第(6)步;求出G={X,Y,E}的最優(yōu)匹配M后,把M每條邊eij的權(quán)值ωij相加,可以求得G={X,Y,E}的最大權(quán)ω,本發(fā)明定義兩個(gè)鏡頭X和Y的視覺相似度Similarity(X,Y)=ωmin(n,m),]]>使用min(n,m)將Similarity(X,Y)歸一化到0,1之間,值越大,表明鏡頭X和Y越相似。
全文摘要
本發(fā)明屬于視頻檢索技術(shù)領(lǐng)域,具體涉及一種基于內(nèi)容的鏡頭檢索方法?,F(xiàn)有的基于內(nèi)容的鏡頭檢索方法往往存在著檢索準(zhǔn)確率不高的問題。針對(duì)現(xiàn)有技術(shù)中存在的不足,本發(fā)明首次將圖論最優(yōu)匹配的Kuhn_Munkres方法用于鏡頭檢索。與現(xiàn)有方法相比,本發(fā)明提出的方法強(qiáng)調(diào)在一一對(duì)應(yīng)的前提下,全面客觀地度量兩個(gè)鏡頭的相似度。把兩個(gè)鏡頭的相似度度量建模為一個(gè)帶權(quán)的二分圖鏡頭中的每一幀看成二分圖的一個(gè)結(jié)點(diǎn),兩個(gè)鏡頭之間任意幀的相似值作為邊的權(quán)值。在一一對(duì)應(yīng)的前提下,利用Kuhn_Munkres方法求出該二分圖的最大權(quán),以此作為兩個(gè)鏡頭的相似值??紤]到檢索速度問題,提出了兩個(gè)改進(jìn)方法。實(shí)驗(yàn)對(duì)比結(jié)果證實(shí)了本發(fā)明在鏡頭檢索中的優(yōu)異表現(xiàn)。
文檔編號(hào)G06T5/00GK1477600SQ0315012
公開日2004年2月25日 申請(qǐng)日期2003年7月18日 優(yōu)先權(quán)日2003年7月18日
發(fā)明者彭宇新, 肖建國, 陳曉歐 申請(qǐng)人:北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所, 北京北大方正技術(shù)研究院有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1