本發(fā)明涉及冗余刪除方法,尤其涉及信息領域視頻大數(shù)據(jù)冗余的刪除方法。
背景技術:
隨著社會信息化不斷推進,信息存儲應用領域越來越廣泛,在過去的5年內(nèi)全球數(shù)字化信息量增長迅速,已從之前的tb級上升到pb級,甚至eb級。隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)增長將是大型企業(yè)部署lt設施的最大挑戰(zhàn),隨著數(shù)據(jù)規(guī)模和數(shù)據(jù)體積的持續(xù)增大,一方面需要投入巨額資金購置存儲容量,另一方面數(shù)據(jù)的計算分析運營成本也將顯著增加。
研究表明,在備份和歸檔存儲等應用系統(tǒng)所保存的數(shù)據(jù)中,高達80%~90%的數(shù)據(jù)是冗余的,而隨著時間推移,冗余數(shù)據(jù)的比例也將繼續(xù)上升。因此,存儲系統(tǒng)中數(shù)據(jù)高冗余問題受到越來越多研究人員的關注,如何縮減存儲系統(tǒng)數(shù)據(jù)存儲容量已成為一個熱門的研究課題,而重復數(shù)據(jù)冗余刪除技術是其中一種容量優(yōu)化技術,它通過消除存儲系統(tǒng)中冗余的數(shù)據(jù),縮減系統(tǒng)中實際存儲的數(shù)據(jù)或通過網(wǎng)絡傳輸?shù)臄?shù)據(jù),在備份、長期歸檔和數(shù)據(jù)災難恢復等方面已得到了廣泛的應用。在工業(yè)界,datadomainddfs,ibmdiligent,emc的avarma,veritas的puredisk以及commvault的shpana是比較知名的冗余數(shù)據(jù)刪除產(chǎn)品,這些產(chǎn)品通常可以達到20:1的冗余數(shù)據(jù)刪除率;同時,學術界也進行了深入研究,包括美國的mit、osu、uc和stanford等大學,德國paderbom大學,英國劍橋大學,以及中國的cuhk、清華大學、國防科技大學以及華中科技大學等高校。
冗余數(shù)據(jù)刪除是基于數(shù)據(jù)自身的冗余度來檢測數(shù)據(jù)流中的相同數(shù)據(jù)對象,只傳輸和存儲唯一的數(shù)據(jù)對象副本,并使用指向唯一數(shù)據(jù)對象副本的引用或關聯(lián)來替換其他冗余。相比于傳統(tǒng)的數(shù)據(jù)壓縮技術,冗余數(shù)據(jù)刪除技術不僅可以消除文件內(nèi)的數(shù)據(jù)重復,還能消除共享數(shù)據(jù)集內(nèi)文件之間的數(shù)據(jù)重復。根據(jù)實施冗余數(shù)據(jù)刪除操作位置的不同,分為源和目標端冗余數(shù)據(jù)刪除;根據(jù)實施冗余數(shù)據(jù)刪除操作時機的不同,分為離線、近線和在線刪除;根據(jù)實施冗余數(shù)據(jù)刪除操作粒度的不同,分為文件級和塊級刪除;根據(jù)冗余數(shù)據(jù)刪除所服務數(shù)據(jù)實體的存儲與訪問方式的不同,分為主存儲和從存儲刪除。
無論是源和目標端冗余數(shù)據(jù)刪除、離線、近線和在線刪除、文件級和塊級刪除,還是主存儲和從存儲刪除,冗余數(shù)據(jù)刪除的對象幾乎都是重復數(shù)據(jù)刪除,對于非簡單重復而有關聯(lián)關系的冗余數(shù)據(jù)即一個數(shù)據(jù)對象可以由其它數(shù)據(jù)對象來表示的冗余數(shù)據(jù),上述各種數(shù)據(jù)刪除技術就無能為力了。
大數(shù)據(jù)時代,視頻數(shù)據(jù)量龐大,種類繁多,結(jié)構(gòu)復雜,很多統(tǒng)計問題中將信息量作為統(tǒng)計的基本度量,如非線性統(tǒng)計問題,數(shù)據(jù)挖掘問題,投影尋蹤問題等,在這些涉及到隨機分布之間差異的問題中提出了大量的度量準則,一般稱之為信息散度,即使用基于概率分布q的編碼來編碼來自概率分布p的樣本所需要的額外的比特數(shù),是一種描述兩個概率分布差異的一種方法。最早的信息散度是kullback和leibler提出的相對熵,也稱k-l距離或k-l散度,是一種用來描述兩信息量差異的方法。隨著大數(shù)據(jù)時代的興起,具有關聯(lián)關系的視頻數(shù)據(jù)冗余現(xiàn)象將越來越突出,面向視頻大數(shù)據(jù)的冗余數(shù)據(jù)刪除變得更加緊迫和重要。
如何基于k-l散度,解決面向視頻大數(shù)據(jù)的冗余數(shù)據(jù)刪除難題是本領域技術人員關注的重要技術問題。
技術實現(xiàn)要素:
本發(fā)明要解決的技術問題在于:針對非簡單重復而有關聯(lián)關系的冗余視頻數(shù)據(jù),提出一種基于信息散度的視頻大數(shù)據(jù)冗余刪除方法,節(jié)省存儲容量,減少視頻大數(shù)據(jù)計算分析時間,提高視頻大數(shù)據(jù)維護管理的效率。
為了解決上述技術問題,本發(fā)明的具體技術方案為:
第一步、將視頻大數(shù)據(jù)進行歸一化。具體方法如下:
1.1將視頻大數(shù)據(jù)用視頻大數(shù)據(jù)集v來表示,
頻圖像幀組成的矢量集合,簡稱視頻圖像幀矢量,1≤i≤l,vi=[vi1,vi2,…vij,…vin],vij表示vi中第j個視頻的第i個視頻圖像幀,vij是實數(shù),1≤j≤n;
1.2將v中的v1,v2,…,vi,…vl進行歸一化,得到歸一化后的視頻圖像幀矢量
1.2.1定義變量i=1;
1.2.2定義變量j=1;
1.2.3定義變量sum=0;
1.2.4執(zhí)行sum=sum+vij;
1.2.5j=j+1;
1.2.6若j≤n,轉(zhuǎn)1.2.4,否則,轉(zhuǎn)1.2.7;
1.2.7將vi中的vi1,vi2,…vij,…vin分別除以sum,得到歸一化后的視頻圖像幀
1.2.8i=i+1;
1.2.9若i≤l,轉(zhuǎn)1.2.2,否則,轉(zhuǎn)1.3;
1.3將歸一化后的視頻圖像幀
1.4將歸一化后的視頻圖像幀矢量
第二步、定義面向視頻圖像幀矢量的k-l散度,第i組視頻圖像幀矢量vi相對于第i'組視頻圖像幀矢量vi'的k-l散度m_l(vi||vi')定義為:
式(1)表示的意義是使用vi'的信息表示vi的信息所需要的額外比特數(shù)。所以,相對于視頻圖像幀vi'來說,如果從v中去掉視頻圖像幀vi,v便損失了大小為m_l(vi||vi')的信息量,另一方面,相對于視頻圖像幀vi來說,如果去掉視頻圖像幀vi',v便損失了大小為m_l(vi'||vi)的信息量。
第三步、為了分析v中視頻圖像幀之間的相關性,定義v的信息量分布矩陣m_l如公式(2)所示:
即:
m_li,i'=m_l(vi||vi')(3)
m_li,i'表示m_l中第i行第i'列處的元素,1≤i≤l,1≤i'≤l。m_l中的第i行用m_li表示,m_li中m_li,i=0,假設除了m_li,i,最小的元素為m_li,i',將視頻圖像幀矢量vi從v中移除,則視頻圖像幀vi的大小為m_li,i'的信息量隨之丟失,視頻圖像幀vi的信息量將由最接近它的視頻圖像幀矢量vi'表示。因此,將視頻圖像幀vi從v中移除造成的信息量損失為m_li,i',即視頻圖像幀vi對v的信息貢獻量是m_li,i',由于vi對v的信息貢獻量遵循短板原理,所以視頻圖像幀vi對v的信息貢獻量是m_li中最小的元素。
第四步、確認v1,v2,…,vi,…vl對v的信息量貢獻,vi對v的信息量貢獻contribution(i)為m_li中最小的元素值。
即:contribution(i)=min{m_li,1,m_li,2,…,m_li,i',…m_li,l}(4)
第五步、刪除v中的信息量貢獻最小的冗余視頻圖像幀。具體步驟如下:
5.1設定需要從v中保留的視頻圖像幀數(shù)k,1≤k≤l;
5.2計算v的信息量分布矩陣m_l。具體步驟如下:
5.2.1定義變量i=1;
5.2.2定義變量i'=1;
5.2.3根據(jù)公式(1)計算m_l(vi||vi');
5.2.4根據(jù)公式(3)令m_li,i'=m_l(vi||vi');
5.2.5i'=i'+1;
5.2.6若i'≤l,轉(zhuǎn)5.2.3,否則轉(zhuǎn)5.2.7;
5.2.7i=i+1;
5.2.8若i≤l,轉(zhuǎn)5.2.2,否則轉(zhuǎn)5.3;
5.3定義刪除的視頻圖像幀矢量集合
5.4確定最小貢獻量,具體步驟如下:
5.4.1定義變量i=1;
5.4.2定義變量l'=l;
5.4.3根據(jù)式(4)計算contribution(i);
5.4.4i=i+1;
5.4.5若i≤l,轉(zhuǎn)5.4.3,否則,轉(zhuǎn)5.4.6;
5.4.6遴選視頻大數(shù)據(jù)集合v中的最小信息貢獻量的視頻圖像幀,方法是:
令
contribution=min{contribution(1),contribution(2),…contribution(ii),…,contribution(l')},contribution表示v1,v2,…,vii,…vl'對v的最小信息貢獻量,1≤ii≤l',令g為contribution對應的視頻圖像幀矢量的編號;
5.5更新v=v-{vg},l'=l'-1,即,在v中刪除編號g對應的視頻圖像幀矢量vg,且v中視頻圖像幀矢量個數(shù)減少1個;
5.6更新s=s+{vg},即將最小貢獻量視頻圖像幀矢量vg加入集合s;
5.7令num(s)為s中的視頻圖像幀矢量的數(shù)目;
5.8若num(s)<l-k,轉(zhuǎn)5.4.6;否則,轉(zhuǎn)第六步。
第六步、結(jié)束。
采用本發(fā)明可以達到以下技術效果:
1.第四步和第五步將視頻大數(shù)據(jù)集合中貢獻最小的視頻數(shù)據(jù)幀矢量刪除,緩解了視頻數(shù)據(jù)的存儲壓力,提高了視頻數(shù)據(jù)存儲效率;
2.由于存儲的視頻冗余數(shù)據(jù)減少,加快了視頻大數(shù)據(jù)計算分析速率,提升了整個大數(shù)據(jù)視頻應用系統(tǒng)的運營效率。
附圖說明
圖1為本發(fā)明基于信息散度的視頻大數(shù)據(jù)冗余刪除方法總體流程圖。
具體實施方式
圖1為本發(fā)明的總體流程圖,其具體實施步驟如下:
第一步、將視頻大數(shù)據(jù)進行歸一化。具體方法如下:
1.1將視頻大數(shù)據(jù)用視頻大數(shù)據(jù)集v來表示,
1.2將v中的v1,v2,…,vi,…vl進行歸一化,得到歸一化后的視頻圖像幀矢量
1.2.1定義變量i=1;
1.2.2定義變量j=1;
1.2.3定義變量sum=0;
1.2.4執(zhí)行sum=sum+vij;
1.2.5j=j+1;
1.2.6若j≤n,轉(zhuǎn)1.2.4,否則,轉(zhuǎn)1.2.7;
1.2.7將vi中的vi1,vi2,…vij,…vin分別除以sum,得到歸一化后的視頻圖像幀
1.2.8i=i+1;
1.2.9若i≤l,轉(zhuǎn)1.2.2,否則,轉(zhuǎn)1.3;
1.3將歸一化后的視頻圖像幀
1.4將歸一化后的視頻圖像幀矢量
第二步、定義面向視頻圖像幀矢量的k-l散度,第i組視頻圖像幀矢量vi相對于第i'組視頻圖像幀矢量vi'的k-l散度m_l(vi||vi')定義為:
第三步、定義v的信息量分布矩陣m_l如公式(2)所示:
即:
m_li,i'=m_l(vi||vi')(3)
m_li,i'表示m_l中第i行第i'列處的元素,1≤i≤l,1≤i'≤l。m_l中的第i行用m_li表示,m_li中m_li,i=0,假設除了m_li,i,最小的元素為m_li,i',將視頻圖像幀矢量vi從v中移除,則視頻圖像幀vi的大小為m_li,i'的信息量隨之丟失,視頻圖像幀vi的信息量將由最接近它的視頻圖像幀矢量vi'表示。因此,將視頻圖像幀vi從v中移除造成的信息量損失為m_li,i',即視頻圖像幀vi對v的信息貢獻量是m_li,i'。
第四步、確認v1,v2,…,vi,vl對v的信息量貢獻,vi對v的信息量貢獻contribution(i)為m_li中最小的元素值。
即:contribution(i)=min{m_li,1,m_li,2,…,m_li,i',…m_li,l}(4)
第五步、刪除v中的信息量貢獻最小的冗余視頻圖像幀。具體步驟如下:
5.1設定需要從v中保留的視頻圖像幀數(shù)k,1≤k≤l;
5.2計算v的信息量分布矩陣m_l。具體步驟如下:
5.2.1定義變量i=1;
5.2.2定義變量i'=1;
5.2.3根據(jù)公式(1)計算m_l(vi||vi');
5.2.4根據(jù)公式(3)令m_li,i'=m_l(vi||vi');
5.2.5i'=i'+1;
5.2.6若i'≤l,轉(zhuǎn)5.2.3,否則轉(zhuǎn)5.2.7;
5.2.7i=i+1;
5.2.8若i≤l,轉(zhuǎn)5.2.2,否則轉(zhuǎn)5.3;
5.3定義刪除的視頻圖像幀矢量集合
5.4確定最小貢獻量,具體步驟如下:
5.4.1定義變量i=1;
5.4.2定義變量l'=l;
5.4.3根據(jù)式(4)計算contribution(i);
5.4.4i=i+1;
5.4.5若i≤l,轉(zhuǎn)5.4.3,否則,轉(zhuǎn)5.4.6;
5.4.6遴選視頻大數(shù)據(jù)集合v中的最小信息貢獻量的視頻圖像幀,方法是:令contribution=min{contribution(1),contribution(2),…contribution(ii),…,contribution(l')},contribution表示v1,v2,…,vii,…vl'對v的最小信息貢獻量,1≤ii≤l',令g為contribution對應的視頻圖像幀矢量的編號;
5.5更新v=v-{vg},l'=l'-1,即,在v中刪除編號g對應的視頻圖像幀矢量vg;
5.6更新s=s+{vg},即將最小貢獻量視頻圖像幀矢量vg加入集合s;
5.7令num(s)為s中的視頻圖像幀矢量的數(shù)目;
5.8若num(s)<l-k,轉(zhuǎn)5.4.6;否則,轉(zhuǎn)第六步。
第六步、結(jié)束。