專利名稱:一種基于關鍵幀的影音指紋生成方法
技術領域:
本發(fā)明屬于網(wǎng)絡傳輸內容安全及監(jiān)控技術領域,更為具體地講,涉及一種基于關鍵幀的影音指紋生成方法。
背景技術:
隨著網(wǎng)絡的逐步開發(fā)以及傳輸業(yè)務的豐富多樣,使得對網(wǎng)絡“可管、可控、可信”的要求更加嚴格,也對網(wǎng)絡傳輸內容安全和監(jiān)控提出了新的挑戰(zhàn)。由于利用現(xiàn)代技術很容易對網(wǎng)絡媒體數(shù)據(jù)進行篡改及拷貝,所以對網(wǎng)絡傳輸內容的安全與監(jiān)控將是目前網(wǎng)絡研究和建設的重要難題。很明顯,針對網(wǎng)絡傳輸內容的安全問題,傳統(tǒng)的信息安全技術難以滿足要求。如利用信息加密技術,盡管使得數(shù)據(jù)傳輸過程中出現(xiàn)的非法攻擊者無法從密文中獲得機密信息,但是卻造成了加密后的數(shù)據(jù)文件的可讀性和易讀性受到了損害,妨礙了信息在網(wǎng)絡中的傳輸;同時,密碼僅能在數(shù)據(jù)信息在從發(fā)送者到接收者的傳輸過程中進行數(shù)據(jù)的加密保護,一旦被第三方獲得并成功解密后,數(shù)據(jù)信息的內容就會完全透明,從而失去傳輸內容保護的效果。另外目前出現(xiàn)的一些常見的內容監(jiān)控技術,如基于關鍵字搜索攔截技術、地址過濾技術等大都是針對文本信息的內容監(jiān)控技術,無法適用于音視頻數(shù)據(jù)。此外,針對數(shù)字音視頻數(shù)據(jù)的內容識別與監(jiān)控,有研究機構嘗試引入數(shù)字水印技術。但是它仍然存在明顯的弊端,如數(shù)字水印不僅會改變視頻本身內容,而且必須在視頻發(fā)布前完成嵌入。這使得數(shù)字水印技術用于音視頻內容識別時,在精確度、實用性與擴展性等方面存在一定的局限性,無法很好地滿足傳輸內容安全、版權保護、內容監(jiān)控等方面日益增長的需求。因此,基于上述網(wǎng)絡傳輸內容安全與監(jiān)控技術存在的缺陷,我們需要研究能實現(xiàn)網(wǎng)絡音視頻內容自動識別和實時監(jiān)控的新技術、新方法。數(shù)字指紋技術(Digital Fingerprinting),作為一種新興的基于特征信息的認證技術應用于數(shù)字多媒體作品中,已經引起越來越多的研究者和相關企業(yè)的關注。所謂數(shù)字指紋,就是通過算法對數(shù)據(jù)進行綜合計算得到的一個與內容高度相關的數(shù)字序列。與傳統(tǒng)網(wǎng)絡傳輸內容安全與監(jiān)控技術及數(shù)字水印等技術相比,數(shù)字指紋的優(yōu)勢很明顯第一,數(shù)字指紋的提取是基于內容本身特征,不會改變原有音視頻內容;第二,從音視頻數(shù)據(jù)中提取的數(shù)字指紋與內容唯一對應,且具有較強魯棒性;第三,數(shù)字指紋較其他內容識別技術,如數(shù)字水印,具有運算速度快、開銷小、靈敏度高等特點,有助于實現(xiàn)快速匹配和認證。因此,指紋技術在信息內容識別方面的獨特優(yōu)勢,為音視頻網(wǎng)絡傳輸安全與監(jiān)控技術的研究和體系的建立,提供了一種新的有效方法和工具。然而,目前對數(shù)字指紋技術的研究與應用大多集中在網(wǎng)絡信息內容識別和版權仲裁方面,相關研究點也主要針對指紋準確率的問題上。如果要實現(xiàn)其在網(wǎng)絡音視頻內容安全與監(jiān)控系統(tǒng)的成功運用,必須要在下面幾大問題上取得突破??焖偬崛〖皽p小指紋開銷在網(wǎng)絡音視頻內容安全監(jiān)控系統(tǒng)的研究中,時間就是生命,任何一刻都容不得馬虎,必須盡量保證網(wǎng)絡傳輸內容的實時監(jiān)測,為此要求數(shù)字指紋唯一準確的同時,保證指紋的快速提取與低開銷顯得尤為重要;音、視頻數(shù)據(jù)的同時管理和監(jiān)控目前現(xiàn)有的音視頻內容識別技術,多是單獨利用音頻或視頻特征作為內容識別和分析的依據(jù),很顯然,在實際應用過程中單獨利用某一種特征信息作為內容監(jiān)控的依據(jù)不僅浪費資源,而且存在明顯的安全漏洞,所以實現(xiàn)對音頻和視頻的統(tǒng)一識別與同時監(jiān)測,是確保對網(wǎng)絡傳輸內容安全全面監(jiān)測的有效保障。
發(fā)明內容
本發(fā)明的目的在于克服現(xiàn)有技術的不足,提供一種快速、低開銷、高準確度的基于關鍵幀的影音指紋生成方法。為實現(xiàn)上述目的,本發(fā)明基于關鍵幀的影音指紋生成方法,其特征在于,包括以下步驟(1)、基于最小頂點覆蓋原理的關鍵幀提取對視頻數(shù)據(jù)流進行解碼,得到單個視頻幀序列,然后,抽取其中的視頻I幀,并將其作為無向圖頂點;在無向圖中,將頂點依據(jù)幀與幀之間的相似度進行連接,其邊長與相似度成反比;對于無向圖,進行以下處理1. 1)、首先將與其他視頻I幀相似度為0的頂點歸到頂點集合C,并從無向圖中移除;1. 2)、移除相似度低于設定值的邊;1. 3)、將無向圖中所有的頂點用訪問標志進行標記,初始值為未被訪問;1. 4)、然后計算所有頂點的度和鄰接度,頂點的度表示與其連接的邊數(shù)量,頂點的鄰接度表示與其連接的所有頂點的度之和;1. 5)、在無向圖中,選取鄰接度最大的頂點,然后根據(jù)其數(shù)量η將頂點集合C復制為η個,依次將η個鄰接度最大的頂點放入這η個頂點集合C中;將無向圖復制為η幅,對每一幅無向圖移除一個鄰接度最大的頂點,得到η個分別移除一個鄰接度最大頂點的無向圖,同時,在這η個無向圖中,原來與鄰接度最大頂點連接的頂點標記為已被訪問,移除與鄰接度最大頂點連接的所有邊;1.6)、對η個無向圖,進行步驟1.4)相同的處理,直到無向圖中,所有的頂點均被標記為已被訪問時為止,得到m個頂點集合Ci,i = l,2-,m;1. 7)、依次選擇頂點集合Ci以外的各個頂點與頂點集合Ci內各點之間的最大相似度并求和,得到各個頂點集合Ci的求和Sum值,其中Sum值最大的頂點集合Ci中的頂點即為關鍵幀;(2)、視頻幀指紋的生成2. 1)、對于每一關鍵幀,在其壓縮域提取到該幀的DCT系數(shù),選取其直流系數(shù)Xtl和頻率最小的N個低頻交流系數(shù)Xl,X2…,xN,然后對這些系數(shù)進行量化編碼,得到二進制碼序列Ai ;2. 2)、將該關鍵幀的時間戳轉換二進制序列,放置在二進制碼序列Ai的頭部,構成該關鍵幀的M-I位的視頻幀指紋;(3)、影音指紋的合成
5
3. 1)、首先對每幀音頻數(shù)據(jù)進行快速傅里葉變換,得到對應的一系列頻域值,并將音頻頻段劃分成M個不重疊的頻帶,計算頻域值落入各個頻帶中的數(shù)量;然后,計算相鄰幀之間落入各個頻帶中頻域值數(shù)量的差值,并量化為0或1,得到M-I位的音頻幀指紋;3. 2)、對應每一視頻幀指紋,利用其時間戳找到同步的音頻幀指紋,然后通過異或運算將兩者合二為一生成該時間戳對應的影音指紋;3. 3)、按照時間順序,將不同時間對應的影音指紋有序排列,構成整段音視頻數(shù)據(jù)對應的影音指紋。本發(fā)明的發(fā)明目的是這樣實現(xiàn)的本發(fā)明基于關鍵幀的影音指紋生成方法,首先通過基于最小頂點覆蓋原理提取視頻數(shù)據(jù)I幀中的多個關鍵幀,以此降低指紋的開銷,然后利用I幀的DCT系數(shù)特性,選取關鍵幀直流系數(shù)Xtl和頻率最小的N個低頻交流系數(shù)Xl,X2…,xN,通過量化編碼生成一個N+1 位的0/1序列,將關鍵幀的時間戳轉換二進制序列,放置在N+1位的0/1序列前,構成該關鍵幀的M-I位的視頻幀指紋,此過程簡單易實現(xiàn),大大降低了視頻指紋提取的時間和空間復雜度。在此基礎上,結合一種現(xiàn)有的M-I位音頻指紋生成方法,通過時間戳的匹配與同步性認證,利用異或運算的特性,將兩者合二為一進而產生影音指紋。此方法不僅實現(xiàn)了一種指紋同時認證多種媒體數(shù)據(jù),而且大大縮小了指紋的開銷,并對音視頻節(jié)目的錯播、誤播、 非法節(jié)目插播和篡改等問題具有一定的錯誤定位、檢錯修復能力。
圖1是本發(fā)明基于關鍵幀的影音指紋生成方法一種具體實施方式
流程示意圖;圖2是圖1所示基于關鍵幀的影音指紋生成方法具體實例示意圖;圖3是視頻幀指紋的生成過程示意圖;圖4是時間戳轉換二進制序列過程示意圖;圖5是檢錯、糾錯信號序列圖。
具體實施例方式下面結合附圖對本發(fā)明的具體實施方式
進行描述,以便本領域的技術人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當已知功能和設計的詳細描述也許會淡化本發(fā)明的主要內容時,這些描述在這里將被忽略。實施例在本實施例中,如圖1、2所示,本發(fā)明基于關鍵幀的影音指紋生成方法包括關鍵幀提取、視頻指紋生成和音/視頻指紋融合三大部分,以下為結合具體實施方式
進行詳細步驟描述(1)、基于最小頂點覆蓋原理的關鍵幀提取關鍵幀,又稱為代表幀,是用來描述視頻的關鍵圖像幀,它反映視頻的主要內容, 又由于視頻數(shù)據(jù)流中相鄰畫面具有很強的相似性,所以通過提取關鍵幀的方法來代替龐大的原始視頻數(shù)據(jù)可有效降低開銷。又根據(jù)國際MPEG標準,每段視頻畫面均由I、P、B三種類型幀組成,而且在編碼過程中,每13幀就會出現(xiàn)一個I幀,相比于視頻24幀/秒的畫面頻率來說,這意味著每秒的播放畫面中會至少存在一個I幀,因此完全可以通過分析I幀間的相似性,提取關鍵幀以代表視頻數(shù)據(jù)。在本實施例中,首先使用FFmpeg工具包對視頻數(shù)據(jù)流進行解碼得到單個視頻幀序列,然后利用視頻幀AVFrame結構體的兩個屬性key_frame和picty_type,抽取到其中的視頻I幀。在本實施例中,如圖3所示,抽取出的視頻I幀8個,分別為Ib8tj如圖3所示,將視頻I幀I1^8看作為高維特征空間中的點,與無向圖G上的頂點相對應,頂點依據(jù)幀與幀之間的相似度進行連接,其邊長與相似度成反比,相似度的值在0 1間。如此關鍵幀的提取就等價于無向圖G的最小頂點覆蓋集的求解問題,不同的是獨立的視頻I幀,如圖中的視頻I幀I8與其他視頻I幀的相似度為0,直接將其歸屬為關鍵幀,在具體實施過程,可以將相似度低于某一值時,認為是0,在本實施例中,低于0. 05,就視為為 0。同時選取的點,即關鍵幀必須滿足如下特點能在指定大于設定值,在本實施例中,大于 0. 5內覆蓋其他所有的點,并且保證選取的關鍵幀與頂點集合外所有點,即視頻I幀的相似度之和盡可能大,以此確保頂點集合最具有代表性,具體步驟為1. 1)、首先將與其他視頻I幀相似度為0的頂點,即視頻I幀歸到頂點集合C,并從無向圖G中移除。在本實施例中,如圖3所示的頂點,即視頻I幀I8歸到頂點集合C,并從無向圖G中移除。此時頂點集合C= (I8)1. 2)、移除相似度低于設定值的邊。在本實施例中,移除所有相似度低于0. 5的邊。在本實施例中,如圖3所示,視頻I幀I1與視頻I幀I2的相似度為0. 31,將其連接的邊移除,無向圖G變?yōu)镚l。1. 3)、將無向圖G中所有的頂點用訪問標志進行標記,初始值為未被訪問。在本實施例中,如圖3所示,用訪問標志^ = 0標記為未被訪問。1.4)、然后計算所有頂點的度D(V)和鄰接度Dl(V),其中,ν表示頂點,ν = I1, I2,…,I8,頂點的度表示與其連接的邊數(shù)量,頂點的鄰接度表示與其連接的所有頂點的度之和。如圖3所示,每一頂點括號內的數(shù)據(jù)依次為頂點的度D (ν)、鄰接度隊(ν)和訪問標
己 ο1. 5)、在無向圖中,選取鄰接度最大的頂點,然后根據(jù)其數(shù)量η將頂點集合C復制為η個,依次將η個鄰接度最大的頂點放入這η個頂點集合C中。在本實施例中,如圖3所示,無向圖Gl中有兩個鄰接度最大的頂點,即視頻I幀14、15,先將頂點集合C進行復制為η =2個,在本實施例中,為了方便描述,分別標記為頂點集合C-l、C-2。依次選取鄰接度最大的頂點,視頻I幀14、15歸入頂點集合C-I、C-2,此時,頂點集合C-I = (I8, I4), C-2 = (I8, I5)。在本實施例中,如圖3所示,將無向圖Gl復制為η = 2幅,分別標記為無向圖G2_l, G2-2,對無向圖G2-1移除鄰接度最大的頂點,視頻I幀I4,對無向圖G2-2移除鄰接度最大的頂點,視頻I幀I5,然后,將無向圖G2-1中與視頻I幀I4連接的頂點標記為已被訪問,用訪問標志A = 1標記,移除與視頻I幀I4連接的所有邊;將無向圖G2-2中與視頻I幀I5 連接的頂點標記為已被訪問,用訪問標志A = 1標記,移除與視頻I幀I5連接的所有邊。1.6)、對η = 2個無向圖,無向圖G2-1,G2_2,進行步驟1.4)相同的處理,直到無向圖中,所有的頂點均被標記為已被訪問時為止,得到m = 2個頂點集合Cl,C2。在本實施例中,進行步驟1. 4)相同的處理為分別將兩個頂點集合C-1、C_2對應的無向圖Gl-1,G1-2進行步驟1. 4)相同的處理,分別得到新的一個或多個頂點集合。在本實施例中,對無向圖Gl-I進行處理,鄰接度最大的頂點數(shù)量η = 1,此時,不需要復制頂點集合C-I,直接將鄰接度最大的頂點,即視頻I幀I3放入頂點集合C-I,頂點集合 C-I = (18,14,I3),然后視頻I幀I3連接的頂點標記為已被訪問,移除該頂點及與其連接的所有邊,得到無向圖G1-1-1,此時,所有頂點均被標記為已被訪問,不再進行步驟1. 4)相同的處理。對于無向圖G1-2進行處理,鄰接度最大的頂點數(shù)量η = 1,此時,不需要復制頂點集合C-2,頂點集合C-2 = (I8,15,16),直接將鄰接度最大的頂點,即視頻I幀I6放入頂點集合C-2,然后視頻I幀I6連接的頂點標記為已被訪問,移除該頂點及與其連接的所有邊,得到無向圖G1-2-1,此時,所有頂點均被標記為已被訪問,不再進行步驟1. 4)相同的處理)。將得到的頂點集合C-1、C_2重新編號為頂點集合Ci,i = 1,2。1.7)、在本實施例中,依次選擇頂點集合Cl以外的各個頂點,S卩IpI2U5U6.17與頂點集合Cl內各頂點,即13、14、I8之間的最大相似度Max。如表1所示,I1與13、14、I8之間的相似度分別為0,0. 85、0,選取I1與13、14、I8之間的最大相似0. 85。對于12、15、16、I7 與頂點集合Cl內各頂點的最大相似度依次類推。對最大相似度求和,得到各個頂點集合Cl 的求和Sum值為3. 95,如表1 (a)所示。
權利要求
1. 一種基于關鍵幀的影音指紋生成方法,其特征在于,包括以下步驟(1)、基于最小頂點覆蓋原理的關鍵幀提取對視頻數(shù)據(jù)流進行解碼,得到單個視頻幀序列,然后,抽取其中的視頻I幀,并將其作為無向圖頂點;在無向圖中,將頂點依據(jù)幀與幀之間的相似度進行連接,其邊長與相似度成反比;對于無向圖,進行以下處理1.1)、首先將與其他視頻I幀相似度為0的頂點歸到頂點集合C,并從無向圖中移除; 1. 2)、移除相似度低于設定值的邊;1. 3)、將無向圖中所有的頂點用訪問標志進行標記,初始值為未被訪問; 1. 4)、計算所有頂點的度和鄰接度,頂點的度表示與其連接的邊數(shù)量,頂點的鄰接度表示與其連接的所有頂點的度之和;1. 5)、在無向圖中,選取鄰接度最大的頂點,然后根據(jù)其數(shù)量η將頂點集合C復制為η 個,依次將η個鄰接度最大的頂點放入這η個頂點集合C中;將無向圖復制為η幅,對每一幅無向圖移除一個鄰接度最大的頂點,得到η個分別移除一個鄰接度最大頂點的無向圖, 同時,在這η個無向圖中,原來與鄰接度最大頂點連接的頂點標記為已被訪問,移除與鄰接度最大頂點連接的所有邊;1.6)、對η個無向圖,進行步驟1. 4)相同的處理,直到無向圖中,所有的頂點均被標記為已被訪問時為止,得到m個頂點集合Ci,i = l,2-,m;1.7)、依次選擇頂點集合Ci以外的各個頂點與頂點集合Ci內各點之間的最大相似度并求和,得到各個頂點集合Ci的求和Sum值,其中Sum值最大的頂點集合Ci中的頂點即為關鍵幀;(2)、視頻幀指紋的生成2.1)、對于每一關鍵幀,在其壓縮域提取到該幀的DCT系數(shù),選取其直流系數(shù)Xtl和頻率最小的N個低頻交流系數(shù)Xl,X2-, xN,然后對這些系數(shù)進行量化編碼,得到二進制碼序列 Ai;2.2)、將該關鍵幀的時間戳轉換二進制序列,放置在二進制碼序列Ai的頭部,構成該關鍵幀的M-I位的視頻幀指紋;(3)、影音指紋的合成3.1)、首先對每幀音頻數(shù)據(jù)進行快速傅里葉變換,得到對應的一系列頻域值,并將音頻頻段劃分成M個不重疊的頻帶,計算頻域值落入各個頻帶中的數(shù)量;然后,計算相鄰幀之間落入各個頻帶中頻域值數(shù)量的差值,并量化為0或1,得到M-I位的音頻幀指紋;3. 2)、對應每一視頻幀指紋,利用其時間戳找到同步的音頻幀指紋,然后通過異或運算將兩者合二為一生成該時間戳對應的影音指紋;3. 3)、按照時間順序,將不同時間對應的影音指紋有序排列,構成整段音視頻數(shù)據(jù)對應的影音指紋。
2.根據(jù)權利要求1所述的基于關鍵幀的影音指紋生成方法,其特征在于,在步驟2. 1) 中,DCT系數(shù)進行量化編碼為首先找出這些系數(shù)、,X1, X2…,最大值max和最小值min,確定量化系數(shù)Δ ;
全文摘要
本發(fā)明公開了一種基于關鍵幀的影音指紋生成方法,首先通過基于最小頂點覆蓋原理提取視頻數(shù)據(jù)I幀中的多個關鍵幀,以此降低指紋的開銷,然后利用I幀的DCT系數(shù)特性,選取關鍵幀直流系數(shù)x0和頻率最小的N個低頻交流系數(shù)x1,x2…,xN,通過量化編碼生成一個N+1位的0/1序列,將關鍵幀的時間戳轉換二進制序列,放置在N+1位的0/1序列前,構成該關鍵幀的M-1位的視頻幀指紋。通過時間戳的匹配與同步性認證,利用異或運算的特性,將音、視頻指紋合二為一進而產生影音指紋。此方法不僅實現(xiàn)了一種指紋同時認證多種媒體數(shù)據(jù),而且大大縮小了指紋的開銷,并對音視頻節(jié)目的錯播、誤播、非法節(jié)目插播和篡改等問題具有一定的錯誤定位、檢錯修復能力。
文檔編號H04N7/30GK102307301SQ201110143159
公開日2012年1月4日 申請日期2011年5月30日 優(yōu)先權日2011年5月30日
發(fā)明者徐杰, 趙洪健, 閆朝喜, 陳龍, 隆克平 申請人:電子科技大學