一種基于關鍵幀的影音指紋生成方法

文檔序號：7680369閱讀：145來源：國知局

專利名稱：一種基于關鍵幀的影音指紋生成方法
技術領域：
本發(fā)明屬于網(wǎng)絡傳輸內容安全及監(jiān)控技術領域，更為具體地講，涉及一種基于關鍵幀的影音指紋生成方法。
背景技術：
隨著網(wǎng)絡的逐步開發(fā)以及傳輸業(yè)務的豐富多樣，使得對網(wǎng)絡“可管、可控、可信”的要求更加嚴格，也對網(wǎng)絡傳輸內容安全和監(jiān)控提出了新的挑戰(zhàn)。由于利用現(xiàn)代技術很容易對網(wǎng)絡媒體數(shù)據(jù)進行篡改及拷貝，所以對網(wǎng)絡傳輸內容的安全與監(jiān)控將是目前網(wǎng)絡研究和建設的重要難題。很明顯，針對網(wǎng)絡傳輸內容的安全問題，傳統(tǒng)的信息安全技術難以滿足要求。如利用信息加密技術，盡管使得數(shù)據(jù)傳輸過程中出現(xiàn)的非法攻擊者無法從密文中獲得機密信息，但是卻造成了加密后的數(shù)據(jù)文件的可讀性和易讀性受到了損害，妨礙了信息在網(wǎng)絡中的傳輸；同時，密碼僅能在數(shù)據(jù)信息在從發(fā)送者到接收者的傳輸過程中進行數(shù)據(jù)的加密保護，一旦被第三方獲得并成功解密后，數(shù)據(jù)信息的內容就會完全透明，從而失去傳輸內容保護的效果。另外目前出現(xiàn)的一些常見的內容監(jiān)控技術，如基于關鍵字搜索攔截技術、地址過濾技術等大都是針對文本信息的內容監(jiān)控技術，無法適用于音視頻數(shù)據(jù)。此外，針對數(shù)字音視頻數(shù)據(jù)的內容識別與監(jiān)控，有研究機構嘗試引入數(shù)字水印技術。但是它仍然存在明顯的弊端，如數(shù)字水印不僅會改變視頻本身內容，而且必須在視頻發(fā)布前完成嵌入。這使得數(shù)字水印技術用于音視頻內容識別時，在精確度、實用性與擴展性等方面存在一定的局限性，無法很好地滿足傳輸內容安全、版權保護、內容監(jiān)控等方面日益增長的需求。因此，基于上述網(wǎng)絡傳輸內容安全與監(jiān)控技術存在的缺陷，我們需要研究能實現(xiàn)網(wǎng)絡音視頻內容自動識別和實時監(jiān)控的新技術、新方法。數(shù)字指紋技術(Digital Fingerprinting)，作為一種新興的基于特征信息的認證技術應用于數(shù)字多媒體作品中，已經引起越來越多的研究者和相關企業(yè)的關注。所謂數(shù)字指紋，就是通過算法對數(shù)據(jù)進行綜合計算得到的一個與內容高度相關的數(shù)字序列。與傳統(tǒng)網(wǎng)絡傳輸內容安全與監(jiān)控技術及數(shù)字水印等技術相比，數(shù)字指紋的優(yōu)勢很明顯第一，數(shù)字指紋的提取是基于內容本身特征，不會改變原有音視頻內容；第二，從音視頻數(shù)據(jù)中提取的數(shù)字指紋與內容唯一對應，且具有較強魯棒性；第三，數(shù)字指紋較其他內容識別技術，如數(shù)字水印，具有運算速度快、開銷小、靈敏度高等特點，有助于實現(xiàn)快速匹配和認證。因此，指紋技術在信息內容識別方面的獨特優(yōu)勢，為音視頻網(wǎng)絡傳輸安全與監(jiān)控技術的研究和體系的建立，提供了一種新的有效方法和工具。然而，目前對數(shù)字指紋技術的研究與應用大多集中在網(wǎng)絡信息內容識別和版權仲裁方面，相關研究點也主要針對指紋準確率的問題上。如果要實現(xiàn)其在網(wǎng)絡音視頻內容安全與監(jiān)控系統(tǒng)的成功運用，必須要在下面幾大問題上取得突破?？焖偬崛〖皽p小指紋開銷在網(wǎng)絡音視頻內容安全監(jiān)控系統(tǒng)的研究中，時間就是生命，任何一刻都容不得馬虎，必須盡量保證網(wǎng)絡傳輸內容的實時監(jiān)測，為此要求數(shù)字指紋唯一準確的同時，保證指紋的快速提取與低開銷顯得尤為重要；音、視頻數(shù)據(jù)的同時管理和監(jiān)控目前現(xiàn)有的音視頻內容識別技術，多是單獨利用音頻或視頻特征作為內容識別和分析的依據(jù)，很顯然，在實際應用過程中單獨利用某一種特征信息作為內容監(jiān)控的依據(jù)不僅浪費資源，而且存在明顯的安全漏洞，所以實現(xiàn)對音頻和視頻的統(tǒng)一識別與同時監(jiān)測，是確保對網(wǎng)絡傳輸內容安全全面監(jiān)測的有效保障。

發(fā)明內容
本發(fā)明的目的在于克服現(xiàn)有技術的不足，提供一種快速、低開銷、高準確度的基于關鍵幀的影音指紋生成方法。為實現(xiàn)上述目的，本發(fā)明基于關鍵幀的影音指紋生成方法，其特征在于，包括以下步驟(1)、基于最小頂點覆蓋原理的關鍵幀提取對視頻數(shù)據(jù)流進行解碼，得到單個視頻幀序列，然后，抽取其中的視頻I幀，并將其作為無向圖頂點；在無向圖中，將頂點依據(jù)幀與幀之間的相似度進行連接，其邊長與相似度成反比；對于無向圖，進行以下處理1. 1)、首先將與其他視頻I幀相似度為0的頂點歸到頂點集合C，并從無向圖中移除；1. 2)、移除相似度低于設定值的邊；1. 3)、將無向圖中所有的頂點用訪問標志進行標記，初始值為未被訪問；1. 4)、然后計算所有頂點的度和鄰接度，頂點的度表示與其連接的邊數(shù)量，頂點的鄰接度表示與其連接的所有頂點的度之和；1. 5)、在無向圖中，選取鄰接度最大的頂點，然后根據(jù)其數(shù)量η將頂點集合C復制為η個，依次將η個鄰接度最大的頂點放入這η個頂點集合C中；將無向圖復制為η幅，對每一幅無向圖移除一個鄰接度最大的頂點，得到η個分別移除一個鄰接度最大頂點的無向圖，同時，在這η個無向圖中，原來與鄰接度最大頂點連接的頂點標記為已被訪問，移除與鄰接度最大頂點連接的所有邊；1.6)、對η個無向圖，進行步驟1.4)相同的處理，直到無向圖中，所有的頂點均被標記為已被訪問時為止，得到m個頂點集合Ci，i = l,2-,m；1. 7)、依次選擇頂點集合Ci以外的各個頂點與頂點集合Ci內各點之間的最大相似度并求和，得到各個頂點集合Ci的求和Sum值，其中Sum值最大的頂點集合Ci中的頂點即為關鍵幀；(2)、視頻幀指紋的生成2. 1)、對于每一關鍵幀，在其壓縮域提取到該幀的DCT系數(shù)，選取其直流系數(shù)Xtl和頻率最小的N個低頻交流系數(shù)Xl，X2…，xN，然后對這些系數(shù)進行量化編碼，得到二進制碼序列Ai ；2. 2)、將該關鍵幀的時間戳轉換二進制序列，放置在二進制碼序列Ai的頭部，構成該關鍵幀的M-I位的視頻幀指紋；(3)、影音指紋的合成
5
3. 1)、首先對每幀音頻數(shù)據(jù)進行快速傅里葉變換，得到對應的一系列頻域值，并將音頻頻段劃分成M個不重疊的頻帶，計算頻域值落入各個頻帶中的數(shù)量；然后，計算相鄰幀之間落入各個頻帶中頻域值數(shù)量的差值，并量化為0或1，得到M-I位的音頻幀指紋；3. 2)、對應每一視頻幀指紋，利用其時間戳找到同步的音頻幀指紋，然后通過異或運算將兩者合二為一生成該時間戳對應的影音指紋；3. 3)、按照時間順序，將不同時間對應的影音指紋有序排列，構成整段音視頻數(shù)據(jù)對應的影音指紋。本發(fā)明的發(fā)明目的是這樣實現(xiàn)的本發(fā)明基于關鍵幀的影音指紋生成方法，首先通過基于最小頂點覆蓋原理提取視頻數(shù)據(jù)I幀中的多個關鍵幀，以此降低指紋的開銷，然后利用I幀的DCT系數(shù)特性，選取關鍵幀直流系數(shù)Xtl和頻率最小的N個低頻交流系數(shù)Xl，X2…，xN，通過量化編碼生成一個N+1 位的0/1序列，將關鍵幀的時間戳轉換二進制序列，放置在N+1位的0/1序列前，構成該關鍵幀的M-I位的視頻幀指紋，此過程簡單易實現(xiàn)，大大降低了視頻指紋提取的時間和空間復雜度。在此基礎上，結合一種現(xiàn)有的M-I位音頻指紋生成方法，通過時間戳的匹配與同步性認證，利用異或運算的特性，將兩者合二為一進而產生影音指紋。此方法不僅實現(xiàn)了一種指紋同時認證多種媒體數(shù)據(jù)，而且大大縮小了指紋的開銷，并對音視頻節(jié)目的錯播、誤播、非法節(jié)目插播和篡改等問題具有一定的錯誤定位、檢錯修復能力。

圖1是本發(fā)明基于關鍵幀的影音指紋生成方法一種具體實施方式
流程示意圖；圖2是圖1所示基于關鍵幀的影音指紋生成方法具體實例示意圖；圖3是視頻幀指紋的生成過程示意圖；圖4是時間戳轉換二進制序列過程示意圖；圖5是檢錯、糾錯信號序列圖。
具體實施例方式下面結合附圖對本發(fā)明的具體實施方式
進行描述，以便本領域的技術人員更好地理解本發(fā)明。需要特別提醒注意的是，在以下的描述中，當已知功能和設計的詳細描述也許會淡化本發(fā)明的主要內容時，這些描述在這里將被忽略。實施例在本實施例中，如圖1、2所示，本發(fā)明基于關鍵幀的影音指紋生成方法包括關鍵幀提取、視頻指紋生成和音/視頻指紋融合三大部分，以下為結合具體實施方式
進行詳細步驟描述(1)、基于最小頂點覆蓋原理的關鍵幀提取關鍵幀，又稱為代表幀，是用來描述視頻的關鍵圖像幀，它反映視頻的主要內容，又由于視頻數(shù)據(jù)流中相鄰畫面具有很強的相似性，所以通過提取關鍵幀的方法來代替龐大的原始視頻數(shù)據(jù)可有效降低開銷。又根據(jù)國際MPEG標準，每段視頻畫面均由I、P、B三種類型幀組成，而且在編碼過程中，每13幀就會出現(xiàn)一個I幀，相比于視頻24幀/秒的畫面頻率來說，這意味著每秒的播放畫面中會至少存在一個I幀，因此完全可以通過分析I幀間的相似性，提取關鍵幀以代表視頻數(shù)據(jù)。在本實施例中，首先使用FFmpeg工具包對視頻數(shù)據(jù)流進行解碼得到單個視頻幀序列，然后利用視頻幀AVFrame結構體的兩個屬性key_frame和picty_type，抽取到其中的視頻I幀。在本實施例中，如圖3所示，抽取出的視頻I幀8個，分別為Ib8tj如圖3所示，將視頻I幀I1^8看作為高維特征空間中的點，與無向圖G上的頂點相對應，頂點依據(jù)幀與幀之間的相似度進行連接，其邊長與相似度成反比，相似度的值在0 1間。如此關鍵幀的提取就等價于無向圖G的最小頂點覆蓋集的求解問題，不同的是獨立的視頻I幀，如圖中的視頻I幀I8與其他視頻I幀的相似度為0，直接將其歸屬為關鍵幀，在具體實施過程，可以將相似度低于某一值時，認為是0，在本實施例中，低于0. 05，就視為為 0。同時選取的點，即關鍵幀必須滿足如下特點能在指定大于設定值，在本實施例中，大于 0. 5內覆蓋其他所有的點，并且保證選取的關鍵幀與頂點集合外所有點，即視頻I幀的相似度之和盡可能大，以此確保頂點集合最具有代表性，具體步驟為1. 1)、首先將與其他視頻I幀相似度為0的頂點，即視頻I幀歸到頂點集合C，并從無向圖G中移除。在本實施例中，如圖3所示的頂點，即視頻I幀I8歸到頂點集合C，并從無向圖G中移除。此時頂點集合C= (I8)1. 2)、移除相似度低于設定值的邊。在本實施例中，移除所有相似度低于0. 5的邊。在本實施例中，如圖3所示，視頻I幀I1與視頻I幀I2的相似度為0. 31，將其連接的邊移除，無向圖G變?yōu)镚l。1. 3)、將無向圖G中所有的頂點用訪問標志進行標記，初始值為未被訪問。在本實施例中，如圖3所示，用訪問標志^ = 0標記為未被訪問。1.4)、然后計算所有頂點的度D(V)和鄰接度Dl(V)，其中，ν表示頂點，ν = I1, I2,…，I8，頂點的度表示與其連接的邊數(shù)量，頂點的鄰接度表示與其連接的所有頂點的度之和。如圖3所示，每一頂點括號內的數(shù)據(jù)依次為頂點的度D (ν)、鄰接度隊(ν)和訪問標
己 ο1. 5)、在無向圖中，選取鄰接度最大的頂點，然后根據(jù)其數(shù)量η將頂點集合C復制為η個，依次將η個鄰接度最大的頂點放入這η個頂點集合C中。在本實施例中，如圖3所示，無向圖Gl中有兩個鄰接度最大的頂點，即視頻I幀14、15，先將頂點集合C進行復制為η =2個，在本實施例中，為了方便描述，分別標記為頂點集合C-l、C-2。依次選取鄰接度最大的頂點，視頻I幀14、15歸入頂點集合C-I、C-2，此時，頂點集合C-I = (I8, I4), C-2 = (I8, I5)。在本實施例中，如圖3所示，將無向圖Gl復制為η = 2幅，分別標記為無向圖G2_l， G2-2，對無向圖G2-1移除鄰接度最大的頂點，視頻I幀I4，對無向圖G2-2移除鄰接度最大的頂點，視頻I幀I5，然后，將無向圖G2-1中與視頻I幀I4連接的頂點標記為已被訪問，用訪問標志A = 1標記，移除與視頻I幀I4連接的所有邊；將無向圖G2-2中與視頻I幀I5 連接的頂點標記為已被訪問，用訪問標志A = 1標記，移除與視頻I幀I5連接的所有邊。1.6)、對η = 2個無向圖，無向圖G2-1，G2_2，進行步驟1.4)相同的處理，直到無向圖中，所有的頂點均被標記為已被訪問時為止，得到m = 2個頂點集合Cl，C2。在本實施例中，進行步驟1. 4)相同的處理為分別將兩個頂點集合C-1、C_2對應的無向圖Gl-1，G1-2進行步驟1. 4)相同的處理，分別得到新的一個或多個頂點集合。在本實施例中，對無向圖Gl-I進行處理，鄰接度最大的頂點數(shù)量η = 1，此時，不需要復制頂點集合C-I，直接將鄰接度最大的頂點，即視頻I幀I3放入頂點集合C-I，頂點集合 C-I = (18，14，I3)，然后視頻I幀I3連接的頂點標記為已被訪問，移除該頂點及與其連接的所有邊，得到無向圖G1-1-1，此時，所有頂點均被標記為已被訪問，不再進行步驟1. 4)相同的處理。對于無向圖G1-2進行處理，鄰接度最大的頂點數(shù)量η = 1，此時，不需要復制頂點集合C-2，頂點集合C-2 = (I8,15,16)，直接將鄰接度最大的頂點，即視頻I幀I6放入頂點集合C-2，然后視頻I幀I6連接的頂點標記為已被訪問，移除該頂點及與其連接的所有邊，得到無向圖G1-2-1，此時，所有頂點均被標記為已被訪問，不再進行步驟1. 4)相同的處理)。將得到的頂點集合C-1、C_2重新編號為頂點集合Ci，i = 1，2。1.7)、在本實施例中，依次選擇頂點集合Cl以外的各個頂點，S卩IpI2U5U6.17與頂點集合Cl內各頂點，即13、14、I8之間的最大相似度Max。如表1所示，I1與13、14、I8之間的相似度分別為0,0. 85、0，選取I1與13、14、I8之間的最大相似0. 85。對于12、15、16、I7 與頂點集合Cl內各頂點的最大相似度依次類推。對最大相似度求和，得到各個頂點集合Cl 的求和Sum值為3. 95，如表1 (a)所示。
權利要求
1. 一種基于關鍵幀的影音指紋生成方法，其特征在于，包括以下步驟(1)、基于最小頂點覆蓋原理的關鍵幀提取對視頻數(shù)據(jù)流進行解碼，得到單個視頻幀序列，然后，抽取其中的視頻I幀，并將其作為無向圖頂點；在無向圖中，將頂點依據(jù)幀與幀之間的相似度進行連接，其邊長與相似度成反比；對于無向圖，進行以下處理1.1)、首先將與其他視頻I幀相似度為0的頂點歸到頂點集合C，并從無向圖中移除； 1. 2)、移除相似度低于設定值的邊；1. 3)、將無向圖中所有的頂點用訪問標志進行標記，初始值為未被訪問； 1. 4)、計算所有頂點的度和鄰接度，頂點的度表示與其連接的邊數(shù)量，頂點的鄰接度表示與其連接的所有頂點的度之和；1. 5)、在無向圖中，選取鄰接度最大的頂點，然后根據(jù)其數(shù)量η將頂點集合C復制為η 個，依次將η個鄰接度最大的頂點放入這η個頂點集合C中；將無向圖復制為η幅，對每一幅無向圖移除一個鄰接度最大的頂點，得到η個分別移除一個鄰接度最大頂點的無向圖，同時，在這η個無向圖中，原來與鄰接度最大頂點連接的頂點標記為已被訪問，移除與鄰接度最大頂點連接的所有邊；1.6)、對η個無向圖，進行步驟1. 4)相同的處理，直到無向圖中，所有的頂點均被標記為已被訪問時為止，得到m個頂點集合Ci，i = l,2-,m；1.7)、依次選擇頂點集合Ci以外的各個頂點與頂點集合Ci內各點之間的最大相似度并求和，得到各個頂點集合Ci的求和Sum值，其中Sum值最大的頂點集合Ci中的頂點即為關鍵幀；(2)、視頻幀指紋的生成2.1)、對于每一關鍵幀，在其壓縮域提取到該幀的DCT系數(shù)，選取其直流系數(shù)Xtl和頻率最小的N個低頻交流系數(shù)Xl，X2-, xN，然后對這些系數(shù)進行量化編碼，得到二進制碼序列 Ai;2.2)、將該關鍵幀的時間戳轉換二進制序列，放置在二進制碼序列Ai的頭部，構成該關鍵幀的M-I位的視頻幀指紋；(3)、影音指紋的合成3.1)、首先對每幀音頻數(shù)據(jù)進行快速傅里葉變換，得到對應的一系列頻域值，并將音頻頻段劃分成M個不重疊的頻帶，計算頻域值落入各個頻帶中的數(shù)量；然后，計算相鄰幀之間落入各個頻帶中頻域值數(shù)量的差值，并量化為0或1，得到M-I位的音頻幀指紋；3. 2)、對應每一視頻幀指紋，利用其時間戳找到同步的音頻幀指紋，然后通過異或運算將兩者合二為一生成該時間戳對應的影音指紋；3. 3)、按照時間順序，將不同時間對應的影音指紋有序排列，構成整段音視頻數(shù)據(jù)對應的影音指紋。
2.根據(jù)權利要求1所述的基于關鍵幀的影音指紋生成方法，其特征在于，在步驟2. 1) 中，DCT系數(shù)進行量化編碼為首先找出這些系數(shù)、，X1, X2…，最大值max和最小值min，確定量化系數(shù)Δ ；
全文摘要
本發(fā)明公開了一種基于關鍵幀的影音指紋生成方法，首先通過基于最小頂點覆蓋原理提取視頻數(shù)據(jù)I幀中的多個關鍵幀，以此降低指紋的開銷，然后利用I幀的DCT系數(shù)特性，選取關鍵幀直流系數(shù)x0和頻率最小的N個低頻交流系數(shù)x1，x2…，xN，通過量化編碼生成一個N+1位的0/1序列，將關鍵幀的時間戳轉換二進制序列，放置在N+1位的0/1序列前，構成該關鍵幀的M-1位的視頻幀指紋。通過時間戳的匹配與同步性認證，利用異或運算的特性，將音、視頻指紋合二為一進而產生影音指紋。此方法不僅實現(xiàn)了一種指紋同時認證多種媒體數(shù)據(jù)，而且大大縮小了指紋的開銷，并對音視頻節(jié)目的錯播、誤播、非法節(jié)目插播和篡改等問題具有一定的錯誤定位、檢錯修復能力。
文檔編號H04N7/30GK102307301SQ201110143159
公開日2012年1月4日申請日期2011年5月30日優(yōu)先權日2011年5月30日
發(fā)明者徐杰, 趙洪健, 閆朝喜, 陳龍, 隆克平申請人:電子科技大學

完整全部詳細技術資料下載