本發(fā)明涉及視頻圖像處理
技術(shù)領(lǐng)域:
,具體涉及一種提取視頻摘要的方法。
背景技術(shù):
:視頻摘要對(duì)視頻的意義正如文章摘要對(duì)文章的意義。視頻摘要是用來對(duì)整個(gè)視頻內(nèi)容做總結(jié)說明,通過視頻摘要讓觀看者理解整個(gè)視頻的大致內(nèi)容,以提高視頻的訪問效率。提取視頻摘要最重要的一步是提取關(guān)鍵幀,對(duì)于多鏡頭的視頻,需要在鏡頭分割的基礎(chǔ)上,采用聚類方法將同一鏡頭所包含的n幀圖像分別歸類到不同聚類中,從每個(gè)類中選取某一幀作為這個(gè)類的代表幀,從而形成關(guān)鍵幀集合?,F(xiàn)有技術(shù)中提取關(guān)鍵幀通常都是用K-means算法,該算法首先隨機(jī)選擇K個(gè)對(duì)象作為初始的K個(gè)聚類的中心,然后對(duì)剩余的每個(gè)對(duì)象,根據(jù)其與各個(gè)中心的距離,將它歸給最近的聚類,然后重新計(jì)算每個(gè)聚類的中心,不斷重復(fù)直至準(zhǔn)則函數(shù)收斂。但是在實(shí)際應(yīng)用中這個(gè)K值的選定是很難估計(jì)的,絕大多數(shù)情況下事先并不知道給定的數(shù)據(jù)集應(yīng)該分成多少個(gè)聚類才最合適;而且隨機(jī)選擇初始聚類中心,對(duì)聚類結(jié)果有較大的影響,一旦初始值選擇不好,可能無法得到有效的聚類結(jié)果;該算法需要不斷地進(jìn)行樣本分類調(diào)整,不斷地計(jì)算調(diào)整后的新的聚類中心,因此當(dāng)數(shù)據(jù)量非常大時(shí),算法的時(shí)間開銷非常大。技術(shù)實(shí)現(xiàn)要素:本發(fā)明要解決的技術(shù)問題是:現(xiàn)有視頻摘要生成過程中提取關(guān)鍵幀時(shí)存在盲目性、聚類結(jié)果不準(zhǔn)確和計(jì)算復(fù)雜性高的問題。為解決上述問題,本發(fā)明提出了一種提取視頻摘要的方法,包括以下步驟:S1、基于直方圖法對(duì)視頻進(jìn)行鏡頭分割,具體包括:S1.1、計(jì)算視頻中每幀圖像的H、S、V分量值,對(duì)上述三個(gè)分量值進(jìn)行非等間隔量化后合成每幀圖像的特征矢量La=(La(1),La(2),…,La(G)),其中La為第a幀圖像的特征矢量,G為第a幀圖像的總像素?cái)?shù),a∈[1,P-1],P為視頻中圖像的總幀數(shù);S1.2、對(duì)每幀圖像的特征矢量做歸一化處理,得到歸一化特征矢量,計(jì)算兩兩相鄰圖像的相似度;S1.3、采用雙閾值法檢測(cè)鏡頭轉(zhuǎn)換,根據(jù)檢測(cè)結(jié)果將視頻分割成多個(gè)鏡頭;S1.4、使用聚類算法將上述鏡頭劃分到多個(gè)鏡頭聚類中;S2、取一個(gè)鏡頭聚類,對(duì)該鏡頭聚類進(jìn)行關(guān)鍵幀提取,具體包括:S2.1、計(jì)算本鏡頭聚類中兩兩相鄰圖像的幀差diffn(i)=Ln+1(i)-Ln(i),i∈[1,G],n∈[1,N-1],其中diffn(i)為第n+1幀與第n幀在第i像素的幀差,N為本鏡頭聚類中圖像的總幀數(shù);S2.2、計(jì)算相鄰幀差之間的歐式距離其中m∈[1,N-2],diffm(i)為第m+1幀與第m幀在第i像素的幀差,diffm+1(i)為第m+2幀與第m+1幀在第i像素的幀差;S2.3、以m為橫坐標(biāo),de(m)為縱坐標(biāo)繪制二維坐標(biāo)曲線,找出所有極大值點(diǎn);S2.4、求所有極大值點(diǎn)縱坐標(biāo)的平均值,選取縱坐標(biāo)值大于平均值的極大值點(diǎn)為優(yōu)選極值點(diǎn),優(yōu)選極值點(diǎn)的個(gè)數(shù)K為聚類個(gè)數(shù),找出各個(gè)優(yōu)選極值點(diǎn)的橫坐標(biāo)對(duì)應(yīng)的圖像,將對(duì)應(yīng)圖像的特征矢量作為各個(gè)聚類的聚類中心;S2.5、計(jì)算每幀圖像的特征矢量與聚類中心的歐式距離,并把每幀圖像歸到最近的聚類中;S2.6、計(jì)算各聚類中所有圖像的特征矢量的均值,作為各個(gè)聚類的新的聚類中心;S2.7、重復(fù)步驟S2.5和S2.6,直到目標(biāo)函數(shù)達(dá)到最優(yōu)或者達(dá)到最大迭代次數(shù)為止,其中目標(biāo)函數(shù)為最小化該聚類中所有圖像的特征矢量到其聚類中心的距離的平方和;S2.8、輸出上述得到的K個(gè)聚類中心,提取距離上述K個(gè)聚類中心最近的幀圖像為本鏡頭聚類的關(guān)鍵幀;S3、重復(fù)步驟S2,直到所有的鏡頭聚類完成關(guān)鍵幀提取為止;S4、對(duì)獲取的所有關(guān)鍵幀按照時(shí)間順序進(jìn)行組合,形成視頻摘要。作為本發(fā)明的進(jìn)一步改進(jìn),步驟S1.3中使用自適應(yīng)方法設(shè)置雙閾值,設(shè)置雙閾值的具體步驟為:計(jì)算當(dāng)前檢測(cè)圖像與其后連續(xù)的w幀圖像的兩兩相鄰圖像的相似度,得到共w個(gè)相似度,再計(jì)算w個(gè)相似度的平均值和標(biāo)準(zhǔn)值,最后求得兩個(gè)閾值:THb=QH(Gb-cRb),TLb=QLGb其中THb為檢測(cè)第b幀圖像與第b+1幀圖像之間是否具有鏡頭轉(zhuǎn)換的高閾值,TLb為檢測(cè)第b幀圖像與第b+1幀圖像之間是否具有鏡頭轉(zhuǎn)換的高閾值,w為預(yù)設(shè)值,為相似度的平均值,為相似度的標(biāo)準(zhǔn)值,Dj為求取的w個(gè)相似度中的第j個(gè)相似度,標(biāo)準(zhǔn)值系數(shù)c的取值范圍是[1,3],高閾值系數(shù)QH的取值范圍是[0.8,1.0],低閾值系數(shù)QL的取值范圍是[0.3,0.5]。作為本發(fā)明的進(jìn)一步改進(jìn),步驟S1.4中使用自適應(yīng)閾值的聚類方法將鏡頭分類,具體包括:計(jì)算視頻中所有圖像的兩兩相鄰圖像之間的相似度;對(duì)每個(gè)相似度對(duì)應(yīng)求取一個(gè)方差和,該方差和為所有大于該相似度值的相似度的方差與所有小于該相似度值的相似度的方差的和;找到最小的方差和所對(duì)應(yīng)的相似度,設(shè)置聚類閾值的大小為該相似度的大?。环謩e計(jì)算出每個(gè)鏡頭的所有圖像的特征矢量的平均值,計(jì)算相鄰鏡頭間的鏡頭相似度,將鏡頭相似度大于聚類閾值的連續(xù)鏡頭歸為一個(gè)鏡頭聚類,從而得到多個(gè)鏡頭聚類。本發(fā)明的有益效果:(1)本發(fā)明方法在提取關(guān)鍵幀時(shí),采用了一種改進(jìn)的K-means算法,與傳統(tǒng)的K-means算法相比,本方法將圖像特征由原來的灰度值改為更接近人類感知的特征矢量值,H、S、V這3個(gè)分量相對(duì)獨(dú)立,在進(jìn)行圖形圖像分析處理時(shí)計(jì)算量相對(duì)較小,算法效率更高;(2)通過相鄰幀差的歐式距離獲取優(yōu)選極大值點(diǎn),從而獲得了最優(yōu)的關(guān)鍵幀數(shù),即聚類的個(gè)數(shù),同時(shí)獲得較合理的初始聚類中心,使得聚類結(jié)果更準(zhǔn)確,加快了收斂速度,解決了傳統(tǒng)K-means算法存在的盲目性;(3)本發(fā)明方法在進(jìn)行關(guān)鍵幀提取之前對(duì)分割形成的多個(gè)鏡頭使用聚類方法,將相似鏡頭置放在一個(gè)聚類集合中,從而消除同一類鏡頭冗余,得到更具概括性的關(guān)鍵幀。附圖說明圖1為本發(fā)明提取視頻摘要流程圖。圖2為相似鏡頭聚類示意圖。圖3為提取關(guān)鍵幀的流程圖。具體實(shí)施方式本發(fā)明提出了一種提取視頻摘要的方法,包括以下步驟:S1、基于直方圖法對(duì)視頻進(jìn)行鏡頭分割,具體包括:S1.1、計(jì)算視頻中每幀圖像的H(色調(diào))、S(飽和度)、V(明度)分量值,對(duì)上述三個(gè)分量值進(jìn)行非等間隔量化后合成每幀圖像的特征矢量。以圖像的每個(gè)像素為單位計(jì)算HVS分量:為了減小計(jì)算量提高效率,本方法按照人的視覺感知和分辨能力,根據(jù)表1和表2對(duì)HSV進(jìn)行非等間隔量化,把H分為8份,S和V分別分為3份。表1H的量化表取值范圍[316,20)[20,40)[40,75)[75,155)[155,190)[190,270)[270,295)[295,316)量化值01234567表2S和V的量化表取值范圍[0,0.2)[0.2,0.7)[0.7,1.0)量化值012將量化后的H、V、S合成特征值:L(i)=9H(i)+3S(i)+V(i),其中L(i)為該圖像的第i像素的特征值,H(i)為第i像素的量化后的H值,S(i)為第i像素的量化后的S值,V(i)為第i像素的量化后的V值。圖像的特征矢量由圖像中每個(gè)像素的特征值構(gòu)成:L=(L(1),L(2),…,L(G)),其中L(1)為圖像的第1像素的特征值,依次類推,G為圖像的總像素?cái)?shù)。第a幀圖像的特征矢量用La=(La(1),La(2),…,La(G))表示,a∈[1,P-1],P為視頻中圖像的總幀數(shù)。S1.2、將每幀圖像的特征矢量進(jìn)行歸一化處理,得到歸一化特征矢量:La'=(La(1)',La(2)',…,La(G)')其中La'為第a幀圖像的歸一化特征矢量,La(i)為第a幀圖像的第i像素的特征值。計(jì)算視頻中兩兩相鄰幀圖像的相似度:其中sim(a,a+1)為第a幀和第a+1幀之間的相似度,La(i)'和La+1(i)'分別為第a幀和第a+1幀圖像的歸一化特征矢量,G為每幀圖像的總像素?cái)?shù)。兩幀圖像相似度的取值范圍為0到1,兩幀圖像的差異越小值越大,如果兩幀圖像的HSV分布相同,那么它們的相似度為1。S1.3、視頻鏡頭的轉(zhuǎn)換有切變和漸變之分,通常漸變過程的幀差異值幅度要比切變小,而且漸變是一個(gè)持續(xù)過程,用單一的閾值無法準(zhǔn)確判斷漸變過程,故本發(fā)明使用雙閾值法來檢測(cè)鏡頭的轉(zhuǎn)換。首先設(shè)置兩個(gè)閾值TL和TH(TL<TH),計(jì)算視頻中相鄰幀的相似度,若相似度值大于TH,則認(rèn)為發(fā)生了鏡頭突變,若相似度小于TH大于TL,則認(rèn)為開始發(fā)生鏡頭漸變,此時(shí)累加此后的相似度,直到累加值達(dá)到TH,認(rèn)為鏡頭漸變結(jié)束,若在累加過程中幀差異值回落到TL以下,則認(rèn)為無鏡頭轉(zhuǎn)換,停止累加,重新判斷。針對(duì)找到的這些位置,將視頻分割成多個(gè)鏡頭??紤]到在整個(gè)視頻檢測(cè)中使用相同的閾值,對(duì)內(nèi)容變化較大的視頻可能產(chǎn)生誤檢,對(duì)內(nèi)容變化較小的視頻可能產(chǎn)生漏檢,本發(fā)明優(yōu)選采用自適應(yīng)方法設(shè)置雙閾值,具體的雙閾值的計(jì)算方法是:設(shè)計(jì)一個(gè)窗口寬度w幀,步長(zhǎng)為1的滑動(dòng)窗口,若檢測(cè)第b幀與第b+1幀之間是否有鏡頭轉(zhuǎn)換,則計(jì)算從第b幀到第b+w+1幀內(nèi)的兩兩相鄰圖像的相似度,得到共w個(gè)相似度,計(jì)算w個(gè)相似度的平均值和標(biāo)準(zhǔn)方差:其中Dj為求取的第b幀圖像到第b+w+1幀圖像的兩兩相鄰圖像的相似度中的第j個(gè)相似度,w為預(yù)設(shè)值。計(jì)算兩個(gè)閾值:THb=QH(Gb-cRb),TLb=QLGb其中THb為檢測(cè)第b幀圖像與第b+1幀圖像之間是否具有鏡頭轉(zhuǎn)換的高閾值,TLb為檢測(cè)第b幀圖像與第b+1幀圖像之間是否具有鏡頭轉(zhuǎn)換的低閾值,c的取值范圍是[1,3],高閾值系數(shù)QH的取值范圍是[0.8,1.0],低閾值系數(shù)QL的取值范圍是[0.3,0.5]。本發(fā)明具體實(shí)施例中滑動(dòng)窗口的寬度w設(shè)為5,c設(shè)為2,QH設(shè)為0.9,QL設(shè)為0.4。上述優(yōu)選實(shí)施例根據(jù)待檢測(cè)圖像與后續(xù)w幀圖像之間的兩兩相鄰圖像的相似度來設(shè)置雙閾值,在整個(gè)視頻檢測(cè)過程中不斷自適應(yīng)調(diào)整雙閾值,對(duì)內(nèi)容變化較大的視頻或這內(nèi)容變化較小的視頻均可準(zhǔn)確檢測(cè),提高鏡頭檢測(cè)的準(zhǔn)確度。S1.4、經(jīng)過分割得到的多個(gè)鏡頭,其中會(huì)存在很多相似鏡頭,為了消除鏡頭冗余,得到更具概括性的關(guān)鍵幀,本發(fā)明采用基于自適應(yīng)閾值的聚類方法將相似的鏡頭規(guī)整到一個(gè)鏡頭聚類中,其中求取自適應(yīng)閾值的步驟如下:S1.4.1、計(jì)算整個(gè)視頻的所有相鄰幀之間的相似度,組成相似度數(shù)組Sim,將所有相似度從小到大進(jìn)行排序,得到一個(gè)新的數(shù)組S,其中數(shù)組Sim和S的元素個(gè)數(shù)為P-1;S1.4.2、設(shè)置循環(huán)變量e,賦值為1;S1.4.3、以數(shù)組S中第e個(gè)元素Se為界,將數(shù)組S分割為S1和S2兩個(gè)數(shù)組,分別計(jì)算兩個(gè)數(shù)組的方差d1(e)和d2(e);S1.4.4、計(jì)算兩個(gè)數(shù)組的方差和D(e)=d1(e)+d2(e),并存入到數(shù)組D中,循環(huán)變量e增加1;S1.4.5、判斷e是否大于P-1,若條件不成立,則跳到S1.4.3,否則在數(shù)組D中找到最小值D(k),從而找到最小值D(k)對(duì)應(yīng)的那個(gè)作為分界點(diǎn)的元素Sk;S1.4.6、設(shè)置聚類閾值為Sk;S1.4.7、分別計(jì)算出每個(gè)鏡頭中的所有圖像的特征矢量的平均值,以此作為每個(gè)鏡頭的平均直方圖,計(jì)算相鄰鏡頭間的相似度,將相似度大于聚類閾值Sk的連續(xù)子鏡頭歸為一個(gè)鏡頭聚類,依次判斷將所有鏡頭分為多個(gè)鏡頭聚類。這些相鄰鏡頭聚類之間的差別比較明顯,這樣就達(dá)到減少了鏡頭之間冗余的目的。最終就得到了圖2所示的鏡頭聚類。S2、取一個(gè)鏡頭聚類,對(duì)該鏡頭聚類進(jìn)行關(guān)鍵幀提取:S2.1、計(jì)算該鏡頭聚類中兩兩相鄰圖像的幀差diffn(i)=Ln+1(i)-Ln(i),i∈[1,G],n∈[1,N-1],其中diffn(i)為第n+1幀與第n幀在第i像素的幀差,N為該鏡頭聚類中圖像的幀數(shù);S2.2、計(jì)算相鄰幀差之間的歐式距離其中m∈[1,N-2],diffm(i)為第m+1幀與第m幀在第i像素的幀差,diffm+1(i)為第m+2幀與第m+1幀在第i像素的幀差;S2.3、以m為橫坐標(biāo),de(m)為縱坐標(biāo)繪制二維坐標(biāo)曲線,繪制二維坐標(biāo)曲線,找出所有極大值點(diǎn)(Xk,Yk)和極大值點(diǎn)的個(gè)數(shù)Q,其中k的取值范圍為[1,Q];S2.4、求所有極大值點(diǎn)的縱坐標(biāo)Yk的平均值縱坐標(biāo)值Yk大于的極大值點(diǎn)為優(yōu)選極值點(diǎn),優(yōu)選極值點(diǎn)的個(gè)數(shù)K即為聚類個(gè)數(shù),找出各個(gè)優(yōu)選極值點(diǎn)的橫坐標(biāo)對(duì)應(yīng)的圖像,將對(duì)應(yīng)圖像的特征矢量作為各個(gè)聚類的聚類中心;S2.5、計(jì)算每幀圖像的特征矢量與各個(gè)聚類中心的歐式距離:其中Lg(i)為第g個(gè)聚類中心的第i像素的特征值,Lf(i)為第f幀圖像的第i像素的特征值;并把每幀圖像歸到最近的聚類;S2.6、計(jì)算各聚類中所有圖像的特征矢量的均值,即向量各維取平均,作為各個(gè)聚類的新的聚類中心;S2.7、重復(fù)步驟S2.5和S2.6,直到目標(biāo)函數(shù)達(dá)到最優(yōu)或者達(dá)到最大迭代次數(shù)為止,其中目標(biāo)函數(shù)為最小化該聚類中所有圖像的特征矢量到其聚類中心的距離的平方和;S2.8、輸出上述得到的K個(gè)聚類中心,提取距離上述K個(gè)聚類中心最近的幀圖像為本鏡頭聚類的關(guān)鍵幀。S3、重復(fù)步驟S2,直到所有的鏡頭聚類完成關(guān)鍵幀提取為止。S4、對(duì)獲取的所有關(guān)鍵幀按照時(shí)間順序進(jìn)行組合,形成視頻摘要。當(dāng)前第1頁1 2 3