本發(fā)明涉及視頻摘要處理。特別是涉及對具有冗余性,交叉性等特點的多媒體視頻數(shù)據(jù),通過超圖主集聚類方法對多視頻關(guān)鍵鏡頭進(jìn)行分析,再結(jié)合網(wǎng)頁圖片的輔助信息進(jìn)行摘要獲取的基于超圖主集聚類的多視頻摘要方法。具體講,涉及基于超圖主集聚類的多視頻摘要方法。
背景技術(shù):
隨著技術(shù)的發(fā)展,在線視頻的數(shù)量正以飛快的速度增長,用戶也可以使用自己的移動設(shè)備方便地上傳個人視頻到共享網(wǎng)站。記錄同一事件、同一場景的視頻可能存在大量的冗余信息,這對用戶捕捉重要信息帶來了困難。因此對大量的視頻集中提取出有意義的部分,使用戶快速獲取視頻信息的重要內(nèi)容的技術(shù)是迫切需求的。視頻摘要是通過將一個或多個視頻轉(zhuǎn)換為精簡視頻來滿足此要求的技術(shù),引起了越來越多的研究人員的關(guān)注。多視頻摘要技術(shù)旨在針對某個查詢主題下的大量視頻,提取出和檢索主題內(nèi)容相關(guān)的且有意義的部分,并以一定的邏輯形式呈現(xiàn)出來,目的是通過簡潔而又涵蓋主題內(nèi)容的概要幫助用戶更好地了解視頻集的重要信息。視頻摘要的方法也可以分為兩類:基于關(guān)鍵幀的視頻摘要和基于視頻剪輯的視頻摘要。不管是哪類方法,根本目的都是一樣的,就是使用戶在最短的時間獲取原始視頻中最大的信息量。多視頻摘要需要滿足的基本要求:1)最大信息覆蓋率;2)重要性;3)主題相關(guān)性。最大信息覆蓋率指的是所提取的視頻內(nèi)容能夠覆蓋同一主題下多個視頻的主要內(nèi)容。重要性指的則是根據(jù)某些先驗信息提取視頻集中重要的關(guān)鍵鏡頭,從而提取出多個視頻中重要的內(nèi)容。主題相關(guān)性指的是要保證獲取的視頻摘要并能準(zhǔn)確的反映查詢主題的內(nèi)容。
對于單視頻摘要,目前有很多實現(xiàn)方法。但是多視頻數(shù)據(jù)集的處理就比較困難。一方面多視頻數(shù)據(jù)集存在較大的冗余性:大量同性質(zhì)的網(wǎng)站提供相同或者類似的視頻資源,用戶可以上傳自己的視頻數(shù)據(jù)。另一方面多視頻數(shù)據(jù)集同一內(nèi)容所表現(xiàn)出來的音頻信息,文本信息和視覺信息可能存在較大差別。因此多視頻摘要技術(shù)相對于單個視頻摘要獲取就存在比較大的困難。
作為一個更具挑戰(zhàn)性的任務(wù),研究學(xué)者針對多視頻數(shù)據(jù)集提出了一些比較可行的方法。其中聚類的方法或者圖模型法在原始搜索結(jié)果中分析和發(fā)現(xiàn)視覺相似的圖像作為搜索樣例原型是一種比較常用的方法。傳統(tǒng)的聚類方法不能解決多視頻數(shù)據(jù)集在同一主題下內(nèi)容多樣且冗余所帶來的困難。只考慮視覺上的信息效果較差,需要結(jié)合多視頻的多模態(tài)信息進(jìn)行摘要的獲取。
針對同一主題下的多視頻數(shù)據(jù)集,利用視頻的視覺共現(xiàn)特性(visualco-occurrence)實現(xiàn)多視頻摘要是一種比較新穎的方法。該方法認(rèn)為重要的視覺概念往往重復(fù)出現(xiàn)在同一主題下的多個視頻中,并根據(jù)這一特點提出了最大二元組查找算法(maximalbicliquefinding),提取多視頻的稀疏共現(xiàn)模式,從而實現(xiàn)多視頻摘要。但是該方法僅適用于特定的數(shù)據(jù)集,對于視頻中重復(fù)性較小的視頻集,該方法就失去了意義。
此外,相關(guān)學(xué)者利用多視頻中的文本,音頻等多模態(tài)信息,判斷視頻中的重要信息,生成多視頻摘要。目前,由于多視頻數(shù)據(jù)的復(fù)雜性,多視頻摘要技術(shù)的方法還有待提升。因此,如何借助已有的多視頻信息對數(shù)據(jù)集進(jìn)行視頻結(jié)構(gòu)和內(nèi)容的分析,更好地實現(xiàn)多視頻摘要,成為目前相關(guān)學(xué)者研究的熱點。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是:針對多媒體視頻數(shù)據(jù)的冗余信息、重復(fù)信息較多等特點,提供一種能夠結(jié)合視頻的視覺信息和與主題相關(guān)的先驗信息,利用超圖主集聚類思想和最大邊際相關(guān)思想的多視頻摘要方法。
本發(fā)明所采用的技術(shù)方案是:基于超圖主集聚類的多視頻摘要方法,首先構(gòu)建視頻關(guān)鍵幀內(nèi)容節(jié)點超圖,通過二分類的主集聚類得到覆蓋性強的候選關(guān)鍵幀集;然后利用網(wǎng)頁圖片與視頻集在同一事件主題下的共性關(guān)系,得到與主題相關(guān)性程度高且冗余性小的關(guān)鍵幀集;最后通過視頻幀在視覺上的連貫性對關(guān)鍵幀集進(jìn)行排序,實現(xiàn)簡潔且有意義的多視頻摘要。
具體地,構(gòu)建超圖模型,關(guān)聯(lián)矩陣h(v,e)定義如下:
as=h*w*h'–dv(2)
其中a(i,j)=exp(-dis(vi,vj)),vi是屬于超邊ej的任意頂點,vj是超邊ej的中心點,dis(vi,vj)為頂點vi到超邊中心點vj歸一化后的距離,超邊的權(quán)重w(ei)定義為w(ei)=
二分類的主集聚類是通過迭代求解二次方程將圖劃分為不同主集,具體表示如下:
maxf(x)=xtasx(3)
s.t.x∈δ(4)
其中,
網(wǎng)頁圖片和視頻集在同一主題下存在共性關(guān)系,通過網(wǎng)頁圖片對聚類得到的候選關(guān)鍵幀進(jìn)行選擇得到主題相關(guān)性程度高且冗余性小的關(guān)鍵幀集,設(shè)計如下目標(biāo)函數(shù):
其中,m表示關(guān)鍵幀集合幀的個數(shù),fm代表已選擇的關(guān)鍵幀集合,q為同一主題查詢的網(wǎng)頁圖片,
二分類的主集聚類具體地,x={x1,x2,…,xn}表示給定事件的n幀的特征集,其中
1)輸入超圖g=(v,e,h)及其得到的鄰接矩陣as,v為特征集x的頂點集合,e為超邊集合,h為超圖關(guān)聯(lián)矩陣。
2)初始化迭代次數(shù)t=1并初始化向量x(t)=[(1/n),(1/n),…,(1/n)]n×1,n表示的是n幀特征集。
3)計算
4)輸出一個簇,其頂點是矢量x(t)的正分量xi(t)按降序排列,并讓第一頂點代表這個簇。
5)從特征集x中刪除這些頂點及其在超圖中的親和力關(guān)系。
6)轉(zhuǎn)到步驟2)重復(fù)此過程直到將所有視頻幀分類完畢,得到最終分類結(jié)果cluster1到clusterk。
得到候選關(guān)鍵幀的具體步驟是,同一個類別ci,中的視頻幀具有相似的視覺或語義內(nèi)容,因此首先從每類中選取一幀作為候選關(guān)鍵幀,其規(guī)則為從每類中選取距離該類平均特征向量距離最近的一幀作為候選關(guān)鍵幀,即:
其中
本發(fā)明的特點及有益效果是:
本發(fā)明針對現(xiàn)有的多視頻摘要方法的缺點,結(jié)合多視頻數(shù)據(jù)集冗余性、主題多樣性、交叉性等特點,設(shè)計在超圖鏈接上進(jìn)行主集聚類的基礎(chǔ)上結(jié)合網(wǎng)頁圖片的輔助信息提取摘要的方法,其優(yōu)勢主要表現(xiàn)在以下方面:
有效性:實驗驗證本發(fā)明得到的多視頻摘要結(jié)果相比于傳統(tǒng)的聚類具有較好的效果,并能夠自適應(yīng)得到摘要長度,性能較好,更適用于多視頻摘要問題中。
新穎性:將超圖模型應(yīng)用于主集聚類算法中,充分利用了視頻關(guān)鍵節(jié)點之間的關(guān)系得到最大覆蓋性的候選關(guān)鍵幀。在此基礎(chǔ)上通過網(wǎng)頁圖片進(jìn)一步增強摘要的主題相關(guān)性。
實用性:簡單可行,與傳統(tǒng)聚類算法相比能夠自動確定簇數(shù),計算成本低,可以用在多媒體信息處理領(lǐng)域中。
附圖說明:
圖1是本發(fā)明提供的在超圖鏈接上進(jìn)行主集聚類的多視頻摘要方法的流程圖。
具體實施方式
本發(fā)明針對多媒體視頻數(shù)據(jù)的冗余信息、重復(fù)信息較多等特點,結(jié)合視頻的視覺信息和與主題相關(guān)的先驗信息,利用主集聚類思想和最大邊際相關(guān)思想對傳統(tǒng)的多視頻摘要方法進(jìn)行了改進(jìn),最后利用視覺上的相似性進(jìn)行摘要呈現(xiàn),達(dá)到了有效利用視頻主題相關(guān)信息、提高用戶瀏覽視頻效率的目的。
本發(fā)明的目的在于提供一種基于超圖主集聚類的多視頻摘要技術(shù)。針對多視頻數(shù)據(jù)集冗余性高、交叉性強、主題多樣性等特點,本發(fā)明首先構(gòu)建視頻關(guān)鍵幀內(nèi)容節(jié)點超圖,通過二分類的主集聚類得到覆蓋性強的候選關(guān)鍵幀集。然后利用網(wǎng)頁圖片與視頻集在同一事件主題下的共性關(guān)系,得到與主題相關(guān)性程度高且重要性強的關(guān)鍵幀集。最后通過視頻幀在視覺上的連貫性對關(guān)鍵幀集進(jìn)行排序,實現(xiàn)簡潔且有意義的多視頻摘要。
本發(fā)明所提供的方法為:設(shè)計適用于多視頻摘要數(shù)據(jù)集特點的方法,通過在視頻幀節(jié)點構(gòu)建的超圖上進(jìn)行主集聚類得到候選關(guān)鍵幀(鏡頭),然后利用網(wǎng)頁圖片的輔助信息構(gòu)造目標(biāo)函數(shù)來獲取多視頻的關(guān)鍵幀(鏡頭),從而實現(xiàn)關(guān)鍵幀的提取,并在此基礎(chǔ)上利用關(guān)鍵幀(鏡頭)在視覺上的連貫性對摘要結(jié)果進(jìn)行呈現(xiàn)。
多視頻摘要技術(shù)旨在依托對大量的視頻集的視頻結(jié)構(gòu)和內(nèi)容的分析,提取出和檢索主題內(nèi)容相關(guān)的且有意義的部分,并以一定的邏輯形式呈現(xiàn)出來,目的是通過簡潔而又涵蓋主題內(nèi)容的概要幫助用戶更好的了解視頻集的重要信息。對于某一查詢主題的視頻集,費時、費力、毫無線索地去獲取重要信息很容易產(chǎn)生“信息過載”的現(xiàn)象。而且多視頻集具有主題多樣性和重復(fù)性的特點,直接使用傳統(tǒng)的聚類方法來解決問題,得到的結(jié)果不盡人意。為此本發(fā)明提供一種聚類和主題概念結(jié)合的多視頻摘要技術(shù)。通過主集在超圖上聚類得到候選關(guān)鍵幀,更好的滿足同一事件主題的最大信息覆蓋性。然后再利用結(jié)合網(wǎng)頁圖片的目標(biāo)函數(shù)進(jìn)行處理,一般來講,查詢的網(wǎng)頁圖片集沒有視頻集的嘈雜和語義上無意義的部分,能夠反映用戶對相同事件的理解和興趣。所以,網(wǎng)頁圖片的輔助信息更好的保證獲取的關(guān)鍵幀與主題的相關(guān)性程度。其方法原理如下:
(1)超圖原理:
超圖是對簡單圖的擴展,簡單圖的一條邊只能包含2個頂點,而超圖的超邊可以包含任意的多個頂點。超圖能夠更好的描述視頻幀節(jié)點之間關(guān)聯(lián)性,關(guān)聯(lián)矩陣h(v,e)定義如下:
as=h*w*h′-dv(2)
其中a(i,j)=exp(-dis(vi,vj)),vi是屬于超邊ej的任意頂點,vj是超邊ej的中心點,dis(vi,vj)為頂點vi到超邊中心點vj歸一化后的距離。此外,超邊的權(quán)重w(ei)定義為
(2)主集聚類思想:
主集是圖論中的一個組合概念,它將最大完全子圖的概念推廣到邊緣加權(quán)圖。它同時強調(diào)內(nèi)部的同質(zhì)性和外部的不均勻性,因此被認(rèn)為是“集群”的一般定義。通過迭代求解二次方程將圖劃分為不同主集,具體表示如下:
maxf(x)=xtasx(3)
s.t.x∈δ(4)
其中,
下面結(jié)合附圖和具體實施方式,進(jìn)一步詳細(xì)說明本發(fā)明。
圖1描述了在超圖鏈接上進(jìn)行主集聚類的多視頻摘要方法的流程圖其具體步驟如下所述:
(1)提取視頻特征:對海量視頻進(jìn)行預(yù)處理,對鏡頭檢測得到的鏡頭或視頻幀提取相關(guān)特征。
(2)構(gòu)建k近鄰超圖模型得到鄰接矩陣:本發(fā)明通過(1)式來對視頻幀節(jié)點構(gòu)建超圖模型,并通過式(2)得到視頻幀節(jié)點之間的鄰接矩陣as。
(3)主集聚類得到聚類簇:
本發(fā)明中,x={x1,x2,…,xn}表示給定事件的n幀的特征集,其中
1)輸入超圖g=(v,e,h)及其得到的鄰接矩陣as,v為特征集x的頂點集合,e為超邊集合,
h為超圖關(guān)聯(lián)矩陣。
2)初始化迭代次數(shù)t=1并初始化向量x(t)=[(1/n),(1/n),…,(1/n)]n×1,n表示的是n幀特征集。
3)計算
4)輸出一個簇,其頂點是矢量x(t)的正分量xi(t)按降序排列,并讓第一頂點代表這個簇。
5)從特征集x中刪除這些頂點及其在超圖中的親和力關(guān)系。
6)轉(zhuǎn)到步驟2)重復(fù)此過程直到將所有視頻幀分類完畢,得到最終分類結(jié)果cluster1到clusterk。
與傳統(tǒng)的聚類算法不同,主導(dǎo)集群自動確定簇數(shù),計算成本低,能夠自適應(yīng)的滿足最大信息覆蓋,得到聚類簇c={c1,c2,…,ck}。
(4)得到候選關(guān)鍵幀:
同一個類別ci,中的視頻幀具有相似的視覺或語義內(nèi)容,因此首先從每類中選取一幀作為候選關(guān)鍵幀。其規(guī)則為從每類中選取距離該類平均特征向量距離最近的一幀作為候選關(guān)鍵幀,即:
其中
(5)關(guān)鍵幀的選擇:
從候選關(guān)鍵幀中獲取關(guān)鍵幀,本發(fā)明借助網(wǎng)頁圖片的信息,設(shè)計了如下目標(biāo)函數(shù),考慮摘要主題相關(guān)性和新穎性。
1)首先選定關(guān)鍵幀集合的第一幀
2)按照如下迭代公式進(jìn)行其它關(guān)鍵幀f+1:
fm+1=fm∪{f+1}(8)
其中,m表示關(guān)鍵幀集合幀的個數(shù),fm代表已選擇的關(guān)鍵幀集合。q為同一主題查詢的網(wǎng)頁圖片。
3)當(dāng)