本發(fā)明涉及視頻內(nèi)容檢索技術(shù)領(lǐng)域,具體涉及一種基于音視頻結(jié)合的內(nèi)容檢測方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們可以方便地獲得各種視頻資源,同時也吸引了更多的商家在視頻中投放廣告。用戶希望能夠跳過視頻中的廣告部分直接觀看自己感興趣的內(nèi)容,廣告投放方希望能夠檢測出視頻中廣告的時長以確保其投資價值。一些視頻制作方會在廣告和節(jié)目之間插入單色幀作為邊界,或者插入倒計時標(biāo)志,這樣的視頻很容易檢測出廣告。但這些并不是通用的手段,還有很多視頻的廣告與節(jié)目之間沒有明顯的邊界,因此希望找到一種能夠適用于所有片源的檢測廣告的方法。
目前,檢測電視廣告主要是基于機器學(xué)習(xí)的方法,通過訓(xùn)練樣本數(shù)據(jù)對視頻幀進(jìn)行分類,從而自動提取出廣告部分?;跈C器學(xué)習(xí)的常用檢測算法主要有支持向量機、K-means算法、決策樹等,用上述機器學(xué)習(xí)算法來檢測廣告,首先需要獲取數(shù)據(jù)庫中用于訓(xùn)練的各個待測視頻的樣本數(shù)據(jù),而現(xiàn)在視頻來源廣,數(shù)據(jù)庫中不可能存儲所有視頻的樣本數(shù)據(jù),所以對數(shù)據(jù)庫中沒有樣本的視頻無法進(jìn)行檢測;整個視頻數(shù)據(jù)作為上述算法的輸入,處理數(shù)據(jù)量大,算法復(fù)雜度高,并不能實現(xiàn)廣告的精確分割。
技術(shù)實現(xiàn)要素:
為解決上述問題,本發(fā)明提出了一種基于音視頻結(jié)合的內(nèi)容檢測方法,該方法結(jié)合廣告分界點分別在音頻和圖像上的特征,不依賴樣本數(shù)據(jù)即可準(zhǔn)確檢測出廣告片段。
本發(fā)明的具體技術(shù)方案如下:一種基于音視頻結(jié)合的內(nèi)容檢測方法,包括以下步驟:
1、從待測視頻中提取出與圖像同步的音頻;
2、檢測出所述音頻中的所有靜音段,具體包括:將所述音頻分割成連續(xù)的無重疊的音頻幀,計算每幀的平均能量,若平均能量小于預(yù)設(shè)能量閾值,該音頻幀為靜音幀,計算連續(xù)靜音幀的時長,時長大于預(yù)設(shè)長度閾值的為靜音段;
3、對待測視頻中與各個靜音段同步的各組連續(xù)的圖像分別進(jìn)行鏡頭切變檢測,在有鏡頭切變的兩相鄰圖像之間插入標(biāo)記,計算兩兩相鄰標(biāo)記之間的時長,從待測視頻中提取出時長小于預(yù)設(shè)時長閾值的視頻段;
4、將步驟3得到的視頻段分割成若干鏡頭,提取每個鏡頭的關(guān)鍵幀,使用無監(jiān)督神經(jīng)網(wǎng)絡(luò)算法將關(guān)鍵幀進(jìn)行分類,分類結(jié)果為廣告的關(guān)鍵幀所在的視頻段為廣告片段,計算廣告片段的時長為廣告播出時長。
作為本發(fā)明的進(jìn)一步改進(jìn),步驟3中使用顏色直方圖法進(jìn)行鏡頭切變檢測,具體步驟為:
1)計算每幀圖像的顏色直方圖:
其中Hn(i)表示第n幀圖像的H分量直方圖,H_follown(i)為第n幀圖像的H值為i的像素個數(shù),i∈[1,12],Sn(i)表示第n幀圖像的S分量直方圖,S_follown(i)為第n幀圖像的S值為j的像素個數(shù),j∈[1,5],Vn(i)表示第n幀圖像的V分量直方圖,V_follown(i)為第n幀圖像的V值為k的像素個數(shù),k∈[1,5],M×N為第n幀圖像的總像素數(shù);
2)計算每相鄰兩幀圖像分別在H、S、V三分量的相似性:
其中simH(n,n+1)為第n幀與第n+1幀在H分量的相似性,Hn(i)是第n幀的H分量直方圖,Hn+1(i)是第n+1幀的H分量直方圖,simS(n,n+1)為第n幀與第n+1幀在S分量的相似性,Sn(j)是第n幀的S分量直方圖,Sn+1(j)是第n+1幀的S分量直方圖,simV(n,n+1)為第n幀與第n+1幀在V分量的相似性,Vn(k)是第n幀的V分量直方圖,Vn+1(k)是第n+1幀的V分量直方圖;
3)計算每相鄰兩幀的總相似性:
其中sim(n,n+1)為第n幀與第n+1幀的總相似度,α、β、γ分別是H、S、V三分量的相似性系數(shù),且α≥β,α≥γ;
4)若相鄰兩幀的總相似性大于預(yù)設(shè)相似閾值,則確定在這兩幀之間有鏡頭切變。
作為本發(fā)明的進(jìn)一步改進(jìn),步驟4中提取每個鏡頭的關(guān)鍵幀具體包括:
1)計算每個鏡頭中每個圖像在H、S、V三個分量上的圖像熵:
其中EH(n)是第n幀圖像在H分量上的圖像熵,hn(i)為第n幀圖像的H值為i的像素個數(shù)與總像素數(shù)的比例,ES(n)是第n幀圖像在S分量上的圖像熵,sn(j)為第n幀圖像的S值為j的像素個數(shù)與總像素數(shù)的比例,EV(n)是第n幀圖像在V分量上的圖像熵,vn(k)為第n幀圖像的V值為k的像素個數(shù)與總像素數(shù)的比例;
2)計算每個圖像的總圖像熵為:
E(n)=α'×EH(n)+β'×ES(n)+γ'×EV(n)
其中E(n)是第n幀的總圖像熵,α'、β'、γ'分別是H、S、V三分量的圖像熵系數(shù);
3)將每個鏡頭中總圖像熵最大的圖像作為關(guān)鍵幀提取出來。
本發(fā)明的有益效果:本發(fā)明方法結(jié)合廣告分界點分別在音頻和圖像上的特征,先通過檢測同步音頻中靜音段的位置,初步判斷可能的廣告分界點,再在可能的分界點附近進(jìn)行鏡頭切變檢測,將既有鏡頭切變又是靜音段的位置作為初級分界點,提取出相鄰初級分界點之間時長接近廣告時長的視頻段,再將這些視頻段進(jìn)行鏡頭切割,對每個鏡頭提取關(guān)鍵幀,使用無監(jiān)督神經(jīng)網(wǎng)絡(luò)算法對關(guān)鍵幀進(jìn)行分類,分類結(jié)果為廣告的關(guān)鍵幀所在的視頻段即為廣告,從而計算出廣告時長。本發(fā)明一步步縮小檢測范圍,最后通過機器學(xué)習(xí)算法進(jìn)行分類,減少了機器學(xué)習(xí)算法處理的數(shù)據(jù)量,簡化了機器學(xué)習(xí)算法的復(fù)雜度,同時還提高了檢測的準(zhǔn)確性。使用無監(jiān)督神經(jīng)網(wǎng)絡(luò)算法進(jìn)行分類,無需建立視頻的樣本數(shù)據(jù)庫,隨時可以檢查,通用性高。
附圖說明
圖1為本發(fā)明方法的流程圖。
具體實施方式
本發(fā)明提出的一種基于音視頻結(jié)合的內(nèi)容檢測方法,包括以下步驟:
1、從待測視頻中提取出與圖像同步的音頻。
2、檢測出音頻中的所有靜音段,具體為:將音頻分割成連續(xù)的無重疊的音頻幀,計算每幀的平均能量,若平均能量小于預(yù)設(shè)能量閾值,該音頻幀為靜音幀,計算連續(xù)靜音幀的時長,時長大于預(yù)設(shè)長度閾值的為靜音段。
本實施例中將音頻分割成15ms的音頻幀,能量閾值設(shè)為0.01,長度閾值設(shè)為1000ms。
3、找出與各靜音段同步的各組連續(xù)的圖像,分別將每幀圖像投影到HSV顏色空間,計算每幀圖像的顏色直方圖:
其中Hn(i)表示第n幀圖像的H分量直方圖,H_follown(i)為第n幀圖像的H值為i的像素個數(shù),i∈[1,12],Sn(i)表示第n幀圖像的S分量直方圖,S_follown(i)為第n幀圖像的S值為j的像素個數(shù),j∈[1,5],Vn(i)表示第n幀圖像的V分量直方圖,V_follown(i)為第n幀圖像的V值為k的像素個數(shù),k∈[1,5],M×N為第n幀圖像的總像素數(shù)。
計算每相鄰兩幀圖像分別在H、S、V三分量的相似性:
其中simH(n,n+1)為第n幀與第n+1幀在H分量的相似性,Hn(i)是第n幀的H分量直方圖,Hn+1(i)是第n+1幀的H分量直方圖,simS(n,n+1)為第n幀與第n+1幀在S分量的相似性,Sn(j)是第n幀的S分量直方圖,Sn+1(j)是第n+1幀的S分量直方圖,simV(n,n+1)為第n幀與第n+1幀在V分量的相似性,Vn(k)是第n幀的V分量直方圖,Vn+1(k)是第n+1幀的V分量直方圖。
計算每相鄰兩幀的總相似性:
其中sim(n,n+1)為第n幀與第n+1幀的總相似度,α、β、γ分別是H、S、V三分量的相似性系數(shù),且α≥β,α≥γ。
設(shè)置相似閾值Hsim,若相鄰兩幀的總相似性大于相似閾值,則確定在這兩幀之間有鏡頭切變。
在有鏡頭切變的兩相鄰圖像之間插入標(biāo)記,計算兩兩相鄰標(biāo)記之間的時長,從待測視頻中提取出時長小于預(yù)設(shè)時長閾值的視頻段。
本實施例中設(shè)置H、S、V三分量的相似性系數(shù)α=1.007、β=0.995、γ=0.993,設(shè)置相似閾值Hsim=0.88~0.95。
4、將步驟3得到的視頻段分割成若干個鏡頭,計算每個鏡頭中所有圖像在H、S、V三個分量上的圖像熵分別為:
其中EH(n)是第n幀圖像在H分量上的圖像熵,hn(i)為第n幀圖像的H值為i的像素個數(shù)與總像素數(shù)的比例,ES(n)是第n幀圖像在S分量上的圖像熵,sn(j)為第n幀圖像的S值為j的像素個位與總像素數(shù)的比例,EV(n)是第n幀圖像在V分量上的圖像熵,vn(k)為第n幀圖像的V值為k的像素個數(shù)與總像素數(shù)的比例。
計算每個圖像的總圖像熵為:
E(n)=α'×EH(n)+β'×ES(n)+γ'×EV(n)
其中E(n)是第n幀的總圖像熵,α'、β'、γ'分別是H、S、V三分量的圖像熵系數(shù)。
將每個鏡頭中總圖像熵最大的圖像作為關(guān)鍵幀提取出來,再使用無監(jiān)督神經(jīng)網(wǎng)絡(luò)算法對提取出的每個鏡頭的關(guān)鍵幀進(jìn)行分類,分類結(jié)果為該關(guān)鍵幀為廣告或非廣告,屬于廣告的關(guān)鍵幀所在的視頻段判定為廣告片段,計算廣告片段的時長。