本發(fā)明屬于視頻處理領(lǐng)域,一種基于內(nèi)容的視頻片段檢索及定位方法,涉及一種聯(lián)合多種特征的視頻檢索方法和一種基于滑動(dòng)窗的視頻定位算法。
背景技術(shù):
隨著計(jì)算機(jī)、多媒體及網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)視頻的制作與傳播越來越簡單方便,從而導(dǎo)致數(shù)字多媒體視頻信息規(guī)模呈爆炸式增長。傳統(tǒng)的視頻處理方法已經(jīng)無法滿足人們對于海量視頻內(nèi)容進(jìn)行快速瀏覽、檢索和查詢。為了有效地對大量視頻資源進(jìn)行處理,基于視頻內(nèi)容的智能化分析技術(shù)應(yīng)運(yùn)而生。基于內(nèi)容的視頻片段檢索技術(shù)能夠輔助人們完成視頻檢索、定位、挖掘等任務(wù),從而更好地對視頻數(shù)據(jù)進(jìn)行有效管理和高效利用?;趦?nèi)容的視頻片段定位技術(shù)對網(wǎng)絡(luò)視頻檢索、廣告視頻定位統(tǒng)計(jì)及視頻關(guān)聯(lián)分析等方面具有重要意義,是國內(nèi)外眾多學(xué)者研究的一個(gè)熱點(diǎn)。
目前基于視頻內(nèi)容相似性的檢索及定位方法眾多,根據(jù)不同的應(yīng)用場景,具體解決算法也會(huì)存在較大差異?,F(xiàn)有的基于內(nèi)容的視頻檢索及定位算法,比如一種基于關(guān)聯(lián)矩陣和動(dòng)態(tài)滑動(dòng)窗口的視頻片段檢索方法(Kang M,Huang X,Yang L.Video clip retrieval based on incidence matrix and dynamic-step sliding-window[C].2010 International Conference on Computer Application and System Modeling(ICCASM 2010).IEEE,2010,Vol.2,pp.256-259.),該方法首先對查詢視頻片段和庫視頻采用基于關(guān)聯(lián)矩陣的最大正向匹配方法排除掉一些不相似視頻,然后采用基于動(dòng)態(tài)滑動(dòng)窗的方法對剩余的視頻進(jìn)行分割,對每個(gè)窗口內(nèi)的查詢視頻片段和庫視頻片段采用基于關(guān)聯(lián)矩陣的最大正向匹配 方法再次排除掉一些不相似視頻,最后對剩余的視頻片段進(jìn)行組合形成一個(gè)新的視頻序列,采用基于視覺因子、序列因子和干擾因子的算法計(jì)算視頻間的相似性,根據(jù)相似性得到相似的查詢視頻。這種方法具有良好的性能,但是基于關(guān)聯(lián)矩陣的最大正向匹配方法計(jì)算很復(fù)雜,基于視覺因子、序列因子和干擾因子算法也有一定的局限性,對于一些體育視頻或運(yùn)動(dòng)程度激烈的視頻效果并不好。(Chiu C Y,Tsai T H,Hsieh C Y.Efficient video segment matching for detecting temporal-based video copies[J].Neurocomputing,2013,105:70-80.)該文首先將查詢視頻通過一個(gè)滑動(dòng)窗分割成重復(fù)的視頻片段,將庫視頻中的目標(biāo)視頻通過相同的滑動(dòng)窗分割成不重復(fù)的視頻片段;然后采用基于序列的簽名方法,對目標(biāo)視頻進(jìn)行有效篩選;接著通過提取查詢視頻片段和留下的目標(biāo)視頻片段的SIFT特征來進(jìn)行視頻片段之間的相似性計(jì)算;最終根據(jù)相似性最終輸出目標(biāo)視頻中所有匹配成功的查詢視頻片段。該方法在利用滑動(dòng)窗分割成重復(fù)的視頻片段時(shí),對視頻特征進(jìn)行了大量的重疊計(jì)算,增加了大量不必要的計(jì)算量。
在視頻特征方面,如果檢測到視頻之間的內(nèi)容變化輕微,多數(shù)算法采用簡單的全局特征,反之則采用具有更好魯棒性的局部特征。比如一種基于近重復(fù)的視頻匹配方法(Belkhatir M,Tahayna B.Near-duplicate video detection featuring coupled temporal and perceptual visual structures and logical inference based matching[J].Information Processing&Management,2012,48(3):489-501.)和一種基于內(nèi)容的重復(fù)視頻片段檢測方法(Min H,Choi J Y,De Neve W,et al.Near-duplicate video clip detection using model-free semantic concept detection and adaptive semantic distance measurement[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(8):1174-1187.)分別在像 素域提取視頻的顏色、紋理特征和SIFT特征,通過計(jì)算不同視頻特征之間的距離來進(jìn)行視頻的檢索。上述方法均具有很好的魯棒性,但是存在以下兩點(diǎn)不足:1.視頻特征比較單一,只能有限地對視頻內(nèi)容進(jìn)行描述;2.都是在像素域提取表征視頻的特征,運(yùn)算量及存儲(chǔ)空間需求都很大。
技術(shù)實(shí)現(xiàn)要素:
針對上述缺陷或不足,本發(fā)明的目的在于提出一種基于內(nèi)容的視頻片段檢索及定位方法,該方法首先將多種特征進(jìn)行聯(lián)合,能夠更加全面地描述視頻內(nèi)容;其次提出一種新的定位截止算法,實(shí)現(xiàn)了有效的截止和快速的定位,具有很高的準(zhǔn)確性。
本發(fā)明通過以下技術(shù)方案來實(shí)現(xiàn):
一種基于內(nèi)容的視頻片段檢索及定位方法,技術(shù)方案為:
首先對H.264壓縮視頻進(jìn)行部分解碼提取視頻的運(yùn)動(dòng)信息和靜態(tài)信息,并生成多種特征矢量;其次通過度量特征矢量之間的距離判斷視頻之間的相似性,從而實(shí)現(xiàn)相似內(nèi)容的視頻檢索,選取候選視頻;最后提出一種基于滑動(dòng)窗的定位算法,基于窗口度量特征矢量之間的距離,并進(jìn)一步采用特征篩選、定位截止算法對查詢視頻在候選視頻中進(jìn)行準(zhǔn)確有效的定位。
包括以下步驟:
1)視頻片段分割:
分別對庫視頻和查詢視頻以4s為單位分割成相同長度的視頻片段;
2)提取視頻特征信息:
分別從庫視頻和查詢視頻片段的H.264壓縮碼流中提取視頻的運(yùn)動(dòng)信息和靜態(tài)信息;
運(yùn)動(dòng)信息為提取P幀中每個(gè)4×4子塊的運(yùn)動(dòng)矢量(MV):vi=(dx,dy),其中vi表示第i個(gè)子塊的運(yùn)動(dòng)矢量,dx和dy分別表示當(dāng)前塊與參考幀中最佳匹配塊之間的水平像素位移和垂直像素位移,因?yàn)镠.264對P幀預(yù)測時(shí)存在不同的塊尺寸,如16×16、16×8、8×16、8×8、8×4、4×8和4×4,因此從壓縮碼流中提取出運(yùn)動(dòng)矢量后將其空域歸一化得到每個(gè)4×4子塊的運(yùn)動(dòng)矢量。例如提取出某一16×8塊的運(yùn)動(dòng)矢量后,則該塊內(nèi)部的所有4×4子塊均具有相同大小的運(yùn)動(dòng)矢量;
靜態(tài)信息為提取I幀中每個(gè)4×4子塊的預(yù)測模式及其對應(yīng)的DCT系數(shù),因?yàn)镠.264對I幀預(yù)測時(shí)也存在不同的塊尺寸,如16×16、8×8和4×4。例如當(dāng)宏塊采用16×16幀內(nèi)預(yù)測時(shí),則該宏塊內(nèi)的16個(gè)4×4子塊均采用同一預(yù)測模式;當(dāng)宏塊采用4×4幀內(nèi)預(yù)測時(shí),則從壓縮流中直接提取每個(gè)子塊的預(yù)測模式;
3)構(gòu)造特征矢量:
分別對庫視頻和查詢視頻片段中提取的運(yùn)動(dòng)信息和靜態(tài)信息進(jìn)行處理,構(gòu)造出六種特征矢量,并存放在特征庫中,其中基于運(yùn)動(dòng)信息構(gòu)造出四種特征矢量:運(yùn)動(dòng)強(qiáng)度直方圖、運(yùn)動(dòng)方向直方圖、運(yùn)動(dòng)活動(dòng)性直方圖和場景變換直方圖;基于靜態(tài)信息構(gòu)造出兩種特征矢量:DC能量直方圖和預(yù)測模式直方圖;
4)度量庫視頻和查詢視頻片段特征矢量間的距離,根據(jù)視頻之間的相似性選取候選視頻:
先分別計(jì)算庫視頻和查詢視頻片段每種特征矢量之間的距離,公式如下:
其中Qi為查詢視頻第i個(gè)片段的特征矢量,Dn,j為視頻庫中第n個(gè)視頻的第j 個(gè)片段的特征矢量,K表示特征矢量的維數(shù),距離▽d的值越接近0,表明兩個(gè)特征的相似度越高;
再對需比較的兩個(gè)視頻片段的六種特征矢量間的距離值▽d求平均,得到D(Qi,Dn,j),設(shè)置閾值θ,當(dāng)D(Qi,Dn,j)≤θ,則認(rèn)為是相似的視頻片段,該片段所在的長視頻Dn作為候選視頻;
5)對候選視頻采用基于滑動(dòng)窗的方法,分段度量特征矢量間的距離:
以查詢視頻長度為窗口長度,調(diào)節(jié)滑動(dòng)步長step,按照步驟3)中的方法提取查詢視頻和候選視頻各窗口的特征矢量,利用步驟4)中的距離公式,對查詢視頻在候選視頻上滑動(dòng)進(jìn)行分段匹配,計(jì)算得到查詢視頻和候選視頻各窗口間的特征矢量距離值di,k,其中i對應(yīng)六種不同的特征矢量,k表示候選視頻第k個(gè)窗口;
6)特征篩選:
對于不同內(nèi)容的視頻,并非每一種特征矢量都能夠?qū)ζ溥M(jìn)行有效表達(dá),根據(jù)步驟5)中生成的距離值di,k,采用特征閾值法和投票權(quán)值法對特征矢量進(jìn)行有效篩選;
A.特征閾值法:
考察特征矢量距離在所有窗口間的波動(dòng)情況,波動(dòng)小的特征,區(qū)分度較低,不能有效地描述視頻內(nèi)容,將此特征濾除,計(jì)算每種特征矢量距離在所有窗口間的離差,公式如下:
其中i對應(yīng)六種不同的特征矢量,K表示總的窗口數(shù),是第i種特征矢量距離在所有窗口間的均值,
設(shè)置閾值T1,濾除離差值小于T1的特征;
B.投票權(quán)值法:
對特征閾值法篩選留下的特征矢量采用基于投票的思想對其進(jìn)一步篩選:首先對于每種特征矢量距離值di,k,找出其最小距離值所在的窗口k;然后對各個(gè)特征的最小距離值所在窗口k進(jìn)行投票,找出投票最多的窗口;對最小距離值落在最多窗口的特征予以保留,而其他特征予以剔除;最終計(jì)算得到查詢視頻與候選視頻第k個(gè)窗口間的距離值dk,公式如下:
其中N表示特征閾值法篩選后剩余的特征矢量數(shù),wi表示第i種特征矢量的權(quán)值,保留的特征其權(quán)值是1.0,剔除的特征其權(quán)值是0.0;
7)定位截止算法:
利用距離值dk與定位閾值Tmax和Tmin之間的關(guān)系,按照定位算法進(jìn)行有效地截止,如需調(diào)節(jié)滑動(dòng)步長,則重復(fù)步驟5)—7),最終輸出查詢視頻在候選視頻中的對應(yīng)片段,滑動(dòng)步長step的初始值設(shè)為step=int(窗口長度/2)×碼率,int為取整函數(shù);
步驟3)中六種特征矢量具體生成過程如下:
運(yùn)動(dòng)強(qiáng)度直方圖:首先將一幀圖像均分成9個(gè)區(qū)域,分別計(jì)算各個(gè)區(qū)域中所含MV的幅度均值I(k):
其中k=0,1,2…,8表示9個(gè)區(qū)域,N表示第k個(gè)區(qū)域內(nèi)MV的總數(shù);
然后統(tǒng)計(jì)各區(qū)域I(k)占9個(gè)區(qū)域MV幅度均值總和的比例,生成第j幀圖像中具有順序的9維直方圖:
最后對一段連續(xù)M幀的視頻,生成運(yùn)動(dòng)強(qiáng)度直方圖特征矢量Harea(k):
運(yùn)動(dòng)方向直方圖:首先計(jì)算一幀圖像內(nèi)各個(gè)運(yùn)動(dòng)矢量MV的方向角度θ:
θ=arctan(dy/dx) -π≤θ≤π
根據(jù)角度θ判斷該MV所屬方向區(qū)間,方向區(qū)間是將-π到π的范圍12等分得到;
然后分別統(tǒng)計(jì)每個(gè)MV的方向角度θ落在這12個(gè)方向區(qū)間上的比例,生成第j幀圖像中12維的運(yùn)動(dòng)方向直方圖:
其中l(wèi)(k)是運(yùn)動(dòng)方向角度θ落在第k個(gè)方向區(qū)間上的MV總數(shù);
最后對一段連續(xù)M幀的視頻,生成運(yùn)動(dòng)方向直方圖特征矢量Hdir(k):
運(yùn)動(dòng)活動(dòng)性直方圖:首先將一幀圖像均分成9個(gè)區(qū)域,分別計(jì)算各個(gè)區(qū)域中所含MV的標(biāo)準(zhǔn)差var(k):
其中k=0,1,2…,8表示9個(gè)區(qū)域,N表示第k個(gè)區(qū)域內(nèi)MV的總數(shù),I(k)是該區(qū)域內(nèi)MV的幅度均值;
然后按照運(yùn)動(dòng)活動(dòng)性量化標(biāo)準(zhǔn)表3,分別統(tǒng)計(jì)每個(gè)檔次運(yùn)動(dòng)活動(dòng)性的比 重,對于第j幀圖像,形成5維的運(yùn)動(dòng)活動(dòng)性直方圖Hvar,j(k);
最后對一段連續(xù)M幀的視頻,生成運(yùn)動(dòng)活動(dòng)性直方圖特征矢量Hvar(k):
場景變換直方圖:首先分別統(tǒng)計(jì)每一幀中MV為(0,0)的4×4子塊數(shù)目N0占所有4×4子塊N的比例:因?yàn)榱阒礛V個(gè)數(shù)的多少能夠描述視頻內(nèi)容在時(shí)間上的變化情況,能夠反映視頻中場景變化的劇烈程度;
然后對比值r進(jìn)行壓擴(kuò)處理得到log_r:并將log_r量化到5個(gè)區(qū)間,分別統(tǒng)計(jì)各量化等級的比例,得到5維的場景變換直方圖:
最后對一段連續(xù)M幀的視頻,生成場景變換直方圖特征矢量Hzero(k):
DC能量直方圖:提取每一個(gè)子塊的DC系數(shù),將DC系數(shù)量化等級分成12個(gè)區(qū)間,分別統(tǒng)計(jì)每個(gè)量化區(qū)間中子塊的個(gè)數(shù)生成DC能量直方圖特征矢量HDC(k):
其中k=0,1,2…,11表示12個(gè)量化區(qū)間,h和w分別為圖像在行和列方向的4×4子塊個(gè)數(shù),pij為第i行第j列4×4子塊的DC能量值,fk(pij)為其對應(yīng)的量化區(qū)間,當(dāng)k=0,1,2…,10時(shí),如果(k-1)×256<pij<=k×256,則fk(pij)=1,否則fk(pij)=0,不符合以上條件,均統(tǒng)計(jì)到k=11中;
預(yù)測模式直方圖:提取每一個(gè)子塊的幀內(nèi)預(yù)測模式,共有13種預(yù)測模 式,分別統(tǒng)計(jì)13種模式的子塊個(gè)數(shù)生成預(yù)測模式直方圖特征矢量Hmode(k):
其中k=0,1,2…,12表示13種預(yù)測模式,h和w分別為圖像在行和列方向的4×4子塊個(gè)數(shù),fij為第i行第j列4×4子塊的預(yù)測模式,若fij屬于第k種模式,則modek(fij)=1,否則modek(fij)=0;
步驟7)中定位算法具體過程如下:
第一步:如果存在距離值dk=0,則輸出dk所在的視頻片段,定位結(jié)束;如果所有距離值dk都大于0.3,則說明不存在相似的查詢視頻,定位結(jié)束;
第二步:如果最小距離值dmin≤0.3,考察此窗口相鄰的左右兩個(gè)窗口的距離值(其中小者為dmin1,大者為dmax1),如果滿足條件dmax 1≥Tmax×dmin和dmin1≥Tmin×dmin,則輸出dmin所在的視頻片段,定位結(jié)束,否則執(zhí)行第三步;其中Tmax=-3.812×10-4×step2+0.1597×step+1.117
Tmin=-5.873×10-5×step2+0.0868×step+0.819;
第三步:選擇dmin和dmin1所在的視頻片段區(qū)間再次進(jìn)行精確的定位,調(diào)節(jié)滑動(dòng)步長step:如果step<50,則step=int(step/5),否則step=int(step/2),式中int代表取整數(shù)操作,調(diào)節(jié)步長后重新執(zhí)行步驟5)—7),如果并不能有效找出定位位置,最后輸出dmin所在的視頻片段即可。
與現(xiàn)有技術(shù)比較,本發(fā)明的有益效果為:
本發(fā)明提出了一種基于內(nèi)容的視頻片段檢索及定位方法,首先對H.264壓縮視頻進(jìn)行部分解碼提取視頻的運(yùn)動(dòng)信息和靜態(tài)信息,并生成多種特征矢量;其次通過度量特征矢量之間的距離判斷視頻之間的相似性,從而實(shí)現(xiàn)相似內(nèi)容的視頻檢索,選取候選視頻;最后提出一種基于滑動(dòng)窗的定位算法, 基于窗口度量特征矢量之間的距離,并進(jìn)一步采用特征篩選、定位截止算法對查詢視頻在候選視頻中進(jìn)行準(zhǔn)確有效的定位。優(yōu)勢只要體現(xiàn)在:
(1)本發(fā)明基于壓縮域中提取的特征信息,采用多種特征聯(lián)合的方法,一方面解決基于像素域特征提取的計(jì)算量大,處理速度慢的問題,一方面由于聯(lián)合多種特征,能夠更加全面的描述視頻內(nèi)容,增加檢索的準(zhǔn)確性。
(2)為了解決現(xiàn)有的視頻定位算法中定位準(zhǔn)確率低的問題,本發(fā)明提出一種新的定位算法,充分利用視頻內(nèi)容之間的相關(guān)性,實(shí)現(xiàn)了有效的截止和快速的定位。該方法具有很高的準(zhǔn)確性,提高了定位效率和速度。
附圖說明
圖1是本發(fā)明檢索候選視頻的流程圖;
圖2是本發(fā)明視頻定位檢索流程圖;
圖3是本發(fā)明中投票權(quán)值法進(jìn)行特征篩選的流程圖;
圖4是本發(fā)明視頻定位截止算法的流程圖。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明方法的實(shí)施方式做詳細(xì)說明。
如圖1所示,本發(fā)明提供了一種基于內(nèi)容的視頻片段檢索方法,該方法首先將庫視頻和查詢視頻分割成長度相同的視頻片段,提取視頻片段H.264壓縮碼流中的特征信息,并對其進(jìn)行處理生成六種特征矢量存放在視頻庫中。通過度量庫視頻和查詢視頻片段特征矢量之間的距離判斷視頻之間的相似性,從而實(shí)現(xiàn)相似內(nèi)容的視頻檢索,選取候選視頻。如圖2所示,本發(fā)明提出一種基于滑動(dòng)窗的定位算法,將選取的候選視頻作為目標(biāo)視頻,以查詢視頻長度為窗口長度,重新提取滑動(dòng)窗口內(nèi)查詢視頻和目標(biāo)視頻的特征信息并生成特征矢量,基于窗口度量特征矢量之間的距離,并進(jìn)一步采用特征篩選、 定位截止算法對查詢視頻在候選視頻中進(jìn)行準(zhǔn)確有效的定位。
一種基于內(nèi)容的視頻片段檢索及定位方法,其具體實(shí)現(xiàn)過程如下:
步驟一、視頻片段分割:
分別對庫視頻與查詢視頻以4s為單位分割成長度相同的視頻片段,不夠4s的視頻片段采取向前重復(fù)補(bǔ)夠時(shí)間長度;
步驟二、提取視頻特征信息:
分別從庫視頻和查詢視頻片段的H.264壓縮碼流中提取視頻的運(yùn)動(dòng)信息和靜態(tài)信息;
提取運(yùn)動(dòng)信息:運(yùn)動(dòng)信息為提取P幀中每個(gè)4×4子塊的運(yùn)動(dòng)矢量(MV):vi=(dx,dy),其中vi表示第i個(gè)子塊的運(yùn)動(dòng)矢量,dx和dy分別表示當(dāng)前塊與參考幀中最佳匹配塊之間的水平像素位移和垂直像素位移,因?yàn)镠.264對P幀預(yù)測時(shí)存在不同的塊尺寸,如16×16、16×8、8×16、8×8、8×4、4×8和4×4,因此從壓縮碼流中提取出運(yùn)動(dòng)矢量后將其空域歸一化得到每個(gè)4×4子塊的運(yùn)動(dòng)矢量。例如提取出某一16×8塊的運(yùn)動(dòng)矢量后,則該塊內(nèi)部的所有4×4子塊均具有相同大小的運(yùn)動(dòng)矢量,對于CIF格式的視頻,每一幀得到的運(yùn)動(dòng)矢量矩陣大小為88×72;
提取靜態(tài)信息:靜態(tài)信息為提取I幀中每個(gè)4×4子塊的預(yù)測模式及其對應(yīng)的DCT系數(shù)。其中預(yù)測模式能夠反映圖像的邊緣模式特征,因?yàn)镠.264對I幀預(yù)測時(shí)存在不同的塊尺寸,如16×16、8×8和4×4。如果宏塊采用16×16幀內(nèi)預(yù)測,則該宏塊內(nèi)的16個(gè)4×4子塊均采用同一預(yù)測模式,如果宏塊采用4×4幀內(nèi)預(yù)測,則從壓縮流中可以直接提取每個(gè)子塊的預(yù)測模式。對于CIF格式的視頻,每幀包含88×72個(gè)4×4分塊;
DCT系數(shù)在一定程度上可以反映視頻圖像的紋理信息,二維DCT變換 的定義如下:
其中u,v=0,1,2…,N-1,當(dāng)u=0時(shí),其他情況下a(u)=1,C(u,v)是DCT變換后(u,v)位置的DCT系數(shù);
步驟三、構(gòu)造特征矢量:
分別對從庫視頻和查詢視頻片段中提取的運(yùn)動(dòng)信息和靜態(tài)信息進(jìn)行處理,構(gòu)造出六種特征矢量,并存放在特征庫中,其中基于運(yùn)動(dòng)信息構(gòu)造出四種特征矢量,分別是運(yùn)動(dòng)強(qiáng)度直方圖、運(yùn)動(dòng)方向直方圖、運(yùn)動(dòng)活動(dòng)性直方圖和場景變換直方圖,具體的生成過程如下:
運(yùn)動(dòng)強(qiáng)度直方圖:首先將一幀圖像均分成9個(gè)區(qū)域,分別計(jì)算各個(gè)區(qū)域中所含MV的幅度均值I(k):
其中k=0,1,2…,8表示9個(gè)區(qū)域,N表示第k個(gè)區(qū)域內(nèi)MV的總數(shù)。
然后統(tǒng)計(jì)各區(qū)域I(k)占9個(gè)區(qū)域MV幅度均值總和的比例,生成第j幀圖像中具有順序的9維直方圖:
最后對一段連續(xù)M幀的視頻,生成運(yùn)動(dòng)強(qiáng)度直方圖特征矢量Harea(k):
運(yùn)動(dòng)方向直方圖:首先計(jì)算一幀圖像內(nèi)各個(gè)運(yùn)動(dòng)矢量MV的方向角度θ:
θ=arctan(dy/dx) -π≤θ≤π
根據(jù)角度θ判斷該MV所屬方向區(qū)間,方向區(qū)間是將-π到π的范圍12等分得到。
然后分別統(tǒng)計(jì)每個(gè)MV的方向角度θ落在這12個(gè)方向區(qū)間上的比例,生成第j幀圖像中12維的運(yùn)動(dòng)方向直方圖:
其中l(wèi)(k)是運(yùn)動(dòng)方向角度θ落在第k個(gè)方向區(qū)間上的MV總數(shù);
最后對一段連續(xù)M幀的視頻,生成運(yùn)動(dòng)方向直方圖特征矢量Hdir(k):
運(yùn)動(dòng)活動(dòng)性直方圖:首先將一幀圖像均分成9個(gè)區(qū)域,分別計(jì)算各個(gè)區(qū)域中所含MV的標(biāo)準(zhǔn)差var(k):
其中k=0,1,2…,8表示9個(gè)區(qū)域,N表示第k個(gè)區(qū)域內(nèi)MV的總數(shù),I(k)是該區(qū)域內(nèi)MV的幅度均值;
然后按照運(yùn)動(dòng)活動(dòng)性量化標(biāo)準(zhǔn)表3,分別統(tǒng)計(jì)每個(gè)檔次運(yùn)動(dòng)活動(dòng)性的比重,對于第j幀圖像,形成5維的運(yùn)動(dòng)活動(dòng)性直方圖Hvar,j(k);
最后對一段連續(xù)M幀的視頻,生成運(yùn)動(dòng)活動(dòng)性直方圖特征矢量Hvar(k):
場景變換直方圖:首先分別統(tǒng)計(jì)每一幀中MV為(0,0)的4×4子塊數(shù)目N0占所有4×4子塊N的比值:因?yàn)榱阒礛V個(gè)數(shù)的多少能夠描述視頻內(nèi)容在時(shí)間上的變化情況,因此能夠反映視頻中場景變化的劇烈程度;
然后對比值r進(jìn)行壓擴(kuò)處理得到log_r:并將log_r量化到5個(gè)區(qū)間,分別統(tǒng)計(jì)各量化等級的比例,得到5維的場景變換直方圖:
最后對一段連續(xù)M幀的視頻,生成場景變換直方圖特征矢量Hzero(k):
基于靜態(tài)信息構(gòu)造出兩種特征矢量,分別是DC能量直方圖和預(yù)測模式直方圖,具體生成過程如下:
DC能量直方圖:提取每一個(gè)子塊的DC系數(shù),將DC系數(shù)量化等級分成12個(gè)區(qū)間,分別統(tǒng)計(jì)每個(gè)量化區(qū)間中子塊的個(gè)數(shù)生成DC能量直方圖特征矢量HDC(k):
其中k=0,1,2…,11表示12個(gè)量化區(qū)間,h和w分別為圖像在行和列方向的4×4子塊個(gè)數(shù),pij為第i行第j列4×4子塊的DC能量值,fk(pij)為其對應(yīng)的量化區(qū)間,當(dāng)k=0,1,2…,10時(shí),如果(k-1)×256<pij<=k×256,則fk(pij)=1,否則fk(pij)=0,不符合以上條件,均統(tǒng)計(jì)到k=11中;
預(yù)測模式直方圖:提取每一個(gè)子塊的幀內(nèi)預(yù)測模式,共有13種預(yù)測模式,分別統(tǒng)計(jì)13種模式的子塊個(gè)數(shù)生成預(yù)測模式直方圖特征矢量Hmode(k):
其中k=0,1,2…,12表示13種預(yù)測模式,h和w分別為圖像在行和列方向的4×4子塊個(gè)數(shù),fij為第i行第j列4×4子塊的預(yù)測模式,若fij屬于第k種模式,則modek(fij)=1,否則modek(fij)=0;
步驟四、度量特征矢量之間的距離,根據(jù)視頻間的相似性選取候選視頻:
根據(jù)步驟三中生成的表征視頻片段內(nèi)容的六種特征矢量,分別計(jì)算每種特征矢量之間的距離值,公式如下:
其中Qi為查詢視頻第i個(gè)片段的特征矢量,Dn,j為視頻庫中第n個(gè)視頻的第j個(gè)片段的特征矢量,K表示特征矢量的維數(shù)。距離▽d的值越接近0,表明兩個(gè)特征的相似度越高;
對需比較的兩個(gè)視頻片段的六種特征矢量間的距離值▽d求平均,得到D(Qi,Dn,j)。設(shè)置閾值θ,當(dāng)D(Qi,Dn,j)≤θ,則認(rèn)為是相似的視頻片段,選取相似視頻片段Dn,j所在的長視頻Dn作為候選視頻,通過統(tǒng)計(jì)得到θ=0.3562;
步驟五、采用基于滑動(dòng)窗的方法,分段度量特征矢量間的距離:
將選取的候選視頻作為目標(biāo)視頻,以查詢視頻長度為窗口長度,按照步驟3)中的方法重新提取滑動(dòng)窗口內(nèi)查詢視頻和目標(biāo)視頻的特征信息并生成相應(yīng)的特征矢量,滑動(dòng)步長step的初始值設(shè)為step=int(窗口長度/2)×碼率,int為取整函數(shù),對查詢視頻在候選視頻上滑動(dòng)進(jìn)行分段匹配,利用步驟4)中的距離公式計(jì)算每個(gè)窗口間的特征矢量之間距離值di,k,其中i對應(yīng)六種不同的特征矢量,k表示候選視頻第k個(gè)窗口,例如查詢視頻長度為4s,目標(biāo)視頻為12s,視頻幀率為25fps,那么窗口長度即為100幀,滑動(dòng)步長初始值為50,則可以將目標(biāo)視頻劃分得到5個(gè)窗口,通過計(jì)算可以得到距離值矩陣大小為6×5,其中6代表6種特征矢量,5為不同的滑動(dòng)窗口數(shù);
步驟六、特征篩選:
對于不同內(nèi)容的視頻,并非每一種特征矢量都能夠?qū)ζ溥M(jìn)行有效表達(dá),根據(jù)步驟5)中生成的距離值di,k,采用特征閾值法和投票權(quán)值法對特征矢量進(jìn)行有效篩選;
A.特征閾值法:
考察特征矢量距離在所有窗口間的波動(dòng)情況,波動(dòng)小的特征,區(qū)分度較低,不能有效地描述視頻內(nèi)容,將此特征濾除。計(jì)算每種特征矢量距離在所有窗口間的離差,公式如下:
其中i對應(yīng)六種不同的特征矢量,K表示總的窗口數(shù),是每種特征矢量距離值的均值,T1=0.12;
B.投票權(quán)值法:
對特征閾值法篩選留下的特征矢量采用基于投票的思想對其進(jìn)一步篩選,如圖3所示,首先對于每種特征矢量距離值di,k,找出其最小距離值所在的窗口k;然后對各個(gè)特征的最小距離值所在窗口k進(jìn)行投票,找出投票最多的窗口;對最小距離值落在最多窗口的特征予以保留,而其他特征予以剔除;最終計(jì)算得到查詢視頻與候選視頻第k個(gè)窗口間的距離值dk,公式如下:
其中N表示特征閾值法篩選后剩余的特征矢量數(shù),wi表示第i種特征矢量的權(quán)值,保留的特征其權(quán)值是1.0,剔除的特征其權(quán)值是0.0;
步驟七、定位截止算法:
通過上面的特征篩選,最終計(jì)算得到了關(guān)于k個(gè)窗口的k個(gè)距離值,這 里根據(jù)步驟五中的實(shí)例,最終得到5個(gè)距離值,接下來利用定位截止算法進(jìn)行具體的定位,如圖4所示,根據(jù)距離值dk與定位閾值Tmax和Tmin之間的關(guān)系,按照定位算法進(jìn)行有效地截止,最終輸出查詢視頻在候選視頻中的對應(yīng)片段,定位算法具體步驟如下:
第一步:如果存在距離值dk=0,則輸出dk所在的視頻片段,定位結(jié)束;如果所有距離值dk都大于0.3,則說明不存在相似的查詢視頻,定位結(jié)束;
第二步:如果最小距離值dmin≤0.3,考察此窗口相鄰的左右兩個(gè)窗口的距離值(其中小者為dmin1,大者為dmax1)。如果滿足條件dmax1≥Tmax×dmin和dmin1≥Tmin×dmin,則輸出dmin所在的視頻片段,定位結(jié)束,否則執(zhí)行第三步;其中Tmax=-3.812×10-4×step2+0.1597×step+1.117
Tmin=-5.873×10-5×step2+0.0868×step+0.819;
第三步:選擇dmin和dmin1所在的視頻片段區(qū)間再次進(jìn)行精確的定位,調(diào)節(jié)滑動(dòng)步長step:如果step<50,則step=int(step/5),否則step=int(step/2),式中int代表取整數(shù)操作,調(diào)節(jié)步長后重新執(zhí)行步驟五—七:首先根據(jù)步驟五中的方法重新提取新窗口中目標(biāo)視頻的特征信息,并利用步驟六中的方法生成最終的距離值,用步驟七的定位截止算法重新進(jìn)行判斷,如果并不能有效找出定位位置,最后輸出dmin所在的視頻片段即可。
如表1所示,利用本發(fā)明中定位截止算法在視頻庫中對不同長度和內(nèi)容的視頻片段進(jìn)行定位的結(jié)果示例。定位精度值越接近100%,定位準(zhǔn)確度越高,說明了定位算法的準(zhǔn)確性。
表1 利用本發(fā)明在數(shù)據(jù)集中定位成功的計(jì)算結(jié)果
如表2所示,與現(xiàn)有的基于滑動(dòng)窗的視頻片段檢索方法(Kang M,Huang X,Yang L.Video clip retrieval based on incidence matrix and dynamic-step sliding-window[C].2010 International Conference on Computer Application and System Modeling(ICCASM 2010).IEEE,2010,Vol.2,pp:256-259.)相比,本發(fā)明在保證視頻匹配過程時(shí)間變化不大的基礎(chǔ)上,提高了視頻定位的精度和檢索的準(zhǔn)確性。
表2 本發(fā)明與現(xiàn)有的視頻定位方法的對比結(jié)果
如表3所示,為步驟3)中運(yùn)動(dòng)活動(dòng)性量化標(biāo)準(zhǔn)表。
表3 運(yùn)動(dòng)活動(dòng)性量化標(biāo)準(zhǔn)表