本發(fā)明屬于視頻檢索和機(jī)器學(xué)習(xí)領(lǐng)域,具體的說(shuō)是一種基于隨機(jī)多視角哈希的大規(guī)模近重復(fù)視頻檢索方法。
背景技術(shù):
:在互聯(lián)網(wǎng)高度發(fā)達(dá)的21世紀(jì),大量的視頻相關(guān)的應(yīng)用和服務(wù)不斷的涌現(xiàn)在互聯(lián)網(wǎng)上,如視頻分享、視頻推薦和視頻廣播等,互聯(lián)網(wǎng)上充斥著海量的視頻數(shù)據(jù)并呈現(xiàn)高速增長(zhǎng)的趨勢(shì)。豐富的視頻內(nèi)容越來(lái)越吸引著網(wǎng)絡(luò)用戶(hù)去編輯、上傳、下載和搜索各種各樣的視頻。據(jù)comScore公司報(bào)道,僅2014年8月電腦用戶(hù)就瀏覽了近3000億段視頻,平均每個(gè)用戶(hù)瀏覽202段,合計(jì)952分鐘。研究表明,在量如此巨大的視頻中存在著大量的潛在的內(nèi)容近重復(fù)的視頻。因此,對(duì)于例如版權(quán)保護(hù)、視頻推薦和冗余去除等現(xiàn)實(shí)的問(wèn)題,如何檢索和去除這些近重復(fù)視頻正吸引著大量的研究。由于視頻內(nèi)容的豐富和復(fù)雜的特性,大多數(shù)的近重復(fù)視頻檢索方法采用如下三個(gè)步驟:首先,通過(guò)時(shí)間間隔采樣或片段邊界提取的方法來(lái)提取視頻的關(guān)鍵幀;其次,提取關(guān)鍵幀的低級(jí)別特征信息;最后,通過(guò)關(guān)鍵幀的特征信息來(lái)計(jì)算視頻的差異,實(shí)現(xiàn)視頻檢索的功能。目前,一些采用完全比較每對(duì)視頻之間所有關(guān)鍵幀之間的差異,然后計(jì)算其相似關(guān)鍵幀對(duì)的比例來(lái)決定是否為近重復(fù)視頻的方法取得了較好的檢索效果,但是其檢索速度遠(yuǎn)不能滿(mǎn)足工程上的要求。而一些通過(guò)生成視頻內(nèi)容標(biāo)簽的算法速度上較快,但是效果仍有待進(jìn)步。還有一些采用如樹(shù)、哈希等檢索結(jié)構(gòu)的算法,雖然有克服上面兩種方法的缺陷,但是在檢索準(zhǔn)確性和可擴(kuò)展性上仍有限制,并且大多數(shù)都只能利用關(guān)鍵幀的單一特征信息,如全局特征或者局部特征。因此,目前的方法在工程應(yīng)用上還有很大的進(jìn)步空間。技術(shù)實(shí)現(xiàn)要素:本發(fā)明為解決上述現(xiàn)有技術(shù)中存在的不足之處,提出一種基于隨機(jī)多視角哈希的大規(guī)模近重復(fù)視頻檢索方法,以期能利用視頻多視角的特征信息,并通過(guò)哈希映射來(lái)提高檢索效率和準(zhǔn)確性,從而實(shí)現(xiàn)大規(guī)模的近重復(fù)視頻的快速檢索。本發(fā)明為解決技術(shù)問(wèn)題采用如下技術(shù)方案:本發(fā)明一種基于隨機(jī)多視角哈希的大規(guī)模近重復(fù)視頻檢索方法的特點(diǎn)是按如下步驟進(jìn)行:步驟一、訓(xùn)練階段:步驟1、對(duì)數(shù)據(jù)集中的V段視頻采用時(shí)間間隔采樣的方法提取關(guān)鍵幀,從而獲得n幀關(guān)鍵幀;步驟2、提取n幀關(guān)鍵幀的HSV顏色直方圖特征矩陣和LBP局部二值模式特征矩陣表示所述HSV顏色直方圖特征矩陣X(1)中第i行第j列元素;表示所述LBP局部二值模式特征矩陣X(2)中第i行第j列元素;所述HSV顏色直方圖特征矩陣X(1)的大小為n×d1,其中,d1為所述HSV顏色直方圖特征的量化級(jí)數(shù);所述LBP局部二值模式特征矩陣X(2)的大小為n×d2,其中,d2為所述LBP局部二值模式特征的維度;所述HSV顏色直方圖特征矩陣X(1)中第i行行向量表示第i幀關(guān)鍵幀所對(duì)應(yīng)的特征向量;所述LBP局部二值模式特征矩陣X(2)中第i行行向量表示第i幀關(guān)鍵幀所對(duì)應(yīng)的特征向量;令X(g)表示任一特征矩陣,其中,g=1表示HSV顏色直方圖特征矩陣;g=2表示LBP局部二值模式特征矩陣;步驟3、生成所述n幀關(guān)鍵幀中任一關(guān)鍵幀所對(duì)應(yīng)的s位哈希碼;步驟3.1、利用式(1)對(duì)第i幀關(guān)鍵幀所對(duì)應(yīng)的特征向量進(jìn)行線(xiàn)性映射,得到第i行特征向量的第l個(gè)線(xiàn)性映射值z(mì)~il=Σg=12Σj=1dgxij(g)wjl(g)+bl---(1)]]>式(1)中,為線(xiàn)性映射的第j行第l列結(jié)合系數(shù),bl為第l個(gè)偏置參數(shù);步驟3.2、利用sigmoid函數(shù)對(duì)所述第i行特征向量的第l個(gè)線(xiàn)性映射值進(jìn)行處理,得到sigmoid函數(shù)映射值z(mì)il;從而將線(xiàn)性映射值所在的實(shí)數(shù)空間映射為sigmoid函數(shù)映射值所在的準(zhǔn)哈??臻g;步驟3.3、對(duì)所述sigmoid函數(shù)映射值z(mì)il進(jìn)行閾值化處理,判斷zil>0.5是否成立,若成立,則令hil為1,否則令hil為0;從而獲得第i幀關(guān)鍵幀的哈希碼序列hi=[hi1,hi2,…,hil,…,his];hil表示第i幀關(guān)鍵幀的第l位哈希碼;步驟4、在所述HSV顏色直方圖特征矩陣和所述LBP局部二值模式特征矩陣中,利用高斯模型分別計(jì)算在給定第i幀關(guān)鍵幀時(shí),第j幀關(guān)鍵幀與所述第i幀關(guān)鍵幀的相似程度的條件概率且令從而獲得n幀關(guān)鍵幀之間的條件概率矩陣為步驟5、判斷第i幀關(guān)鍵幀與第j幀關(guān)鍵幀是否屬于同一視頻,若屬于,則令第i幀關(guān)鍵幀與第j幀關(guān)鍵幀的所屬關(guān)系否則令從而獲得n幀關(guān)鍵幀之間的所屬關(guān)系矩陣判斷第i幀關(guān)鍵幀與第j幀關(guān)鍵幀在數(shù)據(jù)集真值表中是否為近重復(fù)視頻,若是,則令第i幀關(guān)鍵幀與第j幀關(guān)鍵幀的監(jiān)督關(guān)系否則,令從而獲得n幀關(guān)鍵幀之間的監(jiān)督關(guān)系矩陣步驟6、利用式(2)計(jì)算得到n幀關(guān)鍵幀之間相似程度的概率矩陣P,并進(jìn)行歸一化處理,得到歸一化后的概率矩陣P=Σg=12αgP(g)+βP(V)+γP(S)---(2)]]>式(2)中,表示條件概率矩陣系數(shù);β表示所屬關(guān)系矩陣系數(shù);γ表示監(jiān)督關(guān)系矩陣系數(shù);且系數(shù)β、γ均大于0且小于1,系數(shù)β、γ之和為1;步驟7、在所述準(zhǔn)哈??臻g中,利用方差為1的高斯模型計(jì)算n幀關(guān)鍵幀之間的條件概率矩陣Q;步驟8、利用復(fù)合的Kullback-Leibler(KL)散度計(jì)算概率矩陣和條件概率矩陣Q之間的差異SKL;步驟9、利用式(3)優(yōu)化目標(biāo)方程O(píng):minwjl(g),blO=SKL+μ2Σg=12Σl=1sΣj=1dg(wjl(g))2---(3)]]>式(3)中、μ為所設(shè)定的正則項(xiàng)系數(shù);步驟10、采用標(biāo)準(zhǔn)的梯度下降算法優(yōu)化第j行第l列結(jié)合系數(shù)以及第l個(gè)偏置參數(shù)bl;步驟11、利用優(yōu)化后的第j行第l列結(jié)合系數(shù)以及第l個(gè)偏置參數(shù)bl,并按照步驟1至步驟3對(duì)所述數(shù)據(jù)集中的所有視頻進(jìn)行處理,得到所有視頻的關(guān)鍵幀的s位哈希碼序列;步驟12、利用式(4)計(jì)算獲得所有視頻中任一視頻的s位哈希碼序列中第e位哈希碼h~e=T(1|Ind|Σy∈Indhye)---(4)]]>式(4)中,Ind表示任一視頻的關(guān)鍵幀集合,|Ind|表示任一視頻的關(guān)鍵幀集合Ind的勢(shì);hye表示任一視頻中第y幀關(guān)鍵幀的第e位哈希碼;步驟二、檢索階段:步驟13、在所有視頻中選定一個(gè)待檢索視頻,并利用漢明距離來(lái)衡量所述待檢索視頻與所有其他視頻的s位哈希碼序列之間的差異,從而根據(jù)待檢索視頻與其他視頻之間的差異大小來(lái)判斷是否為近重復(fù)視頻。與已有技術(shù)相比,本發(fā)明有益效果體現(xiàn)在:1,本發(fā)明提出了一種新的基于多視角的哈希方法,采用了基于隨機(jī)多視角的哈希方法來(lái)表示視頻,利用了視頻全局的HSV顏色直方圖內(nèi)容信息和局部的LBP局部二值模式內(nèi)容信息,并結(jié)合了視頻的關(guān)鍵幀之間的所屬關(guān)系信息和監(jiān)督關(guān)系信息,最后通過(guò)快速的漢明距離來(lái)檢索近重復(fù)的視頻,從而達(dá)到了實(shí)時(shí)檢索效果,實(shí)驗(yàn)表明多特征信息能夠更準(zhǔn)確的表達(dá)一段視頻的內(nèi)容。2,本發(fā)明設(shè)計(jì)的哈希方法是一種隨機(jī)的多視角的哈希方法,該方法不僅利用了視頻的多特征信息,還利用了視頻關(guān)鍵幀的所屬關(guān)系信息和監(jiān)督關(guān)系信息來(lái)構(gòu)建視頻關(guān)鍵幀的概率空間模型。本發(fā)明的哈希函數(shù)為線(xiàn)性映射和sigmoid函數(shù)相結(jié)合的混合函數(shù),該設(shè)計(jì)的函數(shù)優(yōu)于傳統(tǒng)的線(xiàn)性函數(shù),能夠?qū)⑸傻臏?zhǔn)哈希碼非線(xiàn)性的接近于0或1,準(zhǔn)哈希碼代替哈希碼的方法能夠很好的避免了優(yōu)化過(guò)程中的非確定性多項(xiàng)式(NP-hard)問(wèn)題。最后通過(guò)一個(gè)新穎的復(fù)合Kullback-Leibler(KL)散度來(lái)衡量準(zhǔn)哈希空間和原始空間的概率模型的差異,從而得到了更準(zhǔn)確可靠的哈希映射函數(shù)。3,本發(fā)明的優(yōu)化算法采用簡(jiǎn)單有效的標(biāo)準(zhǔn)梯度下降算法,訓(xùn)練過(guò)程簡(jiǎn)單明了,訓(xùn)練出的哈希函數(shù)可以直接應(yīng)用于新的視頻,很好的解決了可擴(kuò)展性問(wèn)題。檢索過(guò)程采用快速的漢明距離度量,檢索速度可以達(dá)到實(shí)時(shí)檢索級(jí)別,可獲得良好的用戶(hù)體驗(yàn)。具體實(shí)施方式本實(shí)施例中的方法,是首先通過(guò)時(shí)間間隔采樣的方法提取視頻關(guān)鍵幀,并提取關(guān)鍵幀的顏色直方圖HSV特征和局部二值模式LBP特征;然后,通過(guò)線(xiàn)性映射和sigmoid函數(shù)將顏色直方圖HSV特征和局部二值模式LBP特征映射到準(zhǔn)哈??臻g,并通過(guò)閾值化處理生成的準(zhǔn)哈希碼來(lái)獲得最終代表視頻的哈希碼;最后,分別在特征空間和準(zhǔn)哈??臻g計(jì)算關(guān)鍵幀間的高斯條件概率,通過(guò)一種復(fù)合的Kullback-Leibler(KL)散度來(lái)衡量?jī)蓚€(gè)條件概率模型的一致性,并采用標(biāo)準(zhǔn)的梯度下降法來(lái)優(yōu)化哈希函數(shù)的結(jié)合系數(shù)和偏置參數(shù)。哈希函數(shù)的參數(shù)訓(xùn)練完畢后,每個(gè)視頻將會(huì)由一串二進(jìn)制的哈希碼表示,快速的漢明距離度量可以用來(lái)計(jì)算視頻之間的差異性。具體的說(shuō),近重復(fù)視頻檢索是按如下步驟進(jìn)行:步驟一、訓(xùn)練階段:步驟1、對(duì)數(shù)據(jù)集中的V段視頻采用時(shí)間間隔采樣的方法提取關(guān)鍵幀,從而獲得n幀關(guān)鍵幀;訓(xùn)練過(guò)程可以隨機(jī)選取V段視頻作為訓(xùn)練數(shù)據(jù),如在數(shù)據(jù)集分類(lèi)明確的視頻中選取240段視頻,在未分類(lèi)的視頻中選取120段視頻,共計(jì)選取V=360段視頻;關(guān)鍵幀提取的時(shí)間間隔可以選擇1秒,即每秒提取一幀作為關(guān)鍵幀;步驟2、提取n幀關(guān)鍵幀的HSV顏色直方圖特征矩陣和LBP局部二值模式特征矩陣表示HSV顏色直方圖特征矩陣X(1)中第i行第j列元素;表示LBP局部二值模式特征矩陣X(2)中第i行第j列元素;HSV顏色直方圖特征矩陣X(1)的大小為n×d1,其中,d1為HSV顏色直方圖特征的量化級(jí)數(shù);LBP局部二值模式特征矩陣X(2)的大小為n×d2,其中,d2為L(zhǎng)BP局部二值模式特征的維度;HSV顏色直方圖特征矩陣X(1)中第i行行向量表示第i幀關(guān)鍵幀所對(duì)應(yīng)的特征向量;LBP局部二值模式特征矩陣X(2)中第i行行向量表示第i幀關(guān)鍵幀所對(duì)應(yīng)的特征向量;令X(g)表示任一特征矩陣,其中,g=1表示HSV顏色直方圖特征矩陣;g=2表示LBP局部二值模式特征矩陣;提取HSV顏色直方圖特征可以采用非均勻量化的方法,例如,H(色調(diào))、S(飽和度)、V(明度)三個(gè)分量的量化級(jí)數(shù)分別選擇18、3、3,共162級(jí),即d1=162;LBP算子的窗口大小可以采用原始的3×3,因此像素位置關(guān)系共有256種,也即d2=256;步驟3、生成n幀關(guān)鍵幀中任一關(guān)鍵幀所對(duì)應(yīng)的s位哈希碼;該步驟包含的三個(gè)子步驟也是設(shè)計(jì)了本算法的哈希函數(shù),該哈希函數(shù)由步驟3.1中的線(xiàn)性映射、步驟3.2中的sigmoid函數(shù)和步驟3.3中的閾值化處理組合而成;步驟3.1、利用式(1)對(duì)第i幀關(guān)鍵幀所對(duì)應(yīng)的特征向量進(jìn)行線(xiàn)性映射,得到第i行特征向量的第l個(gè)線(xiàn)性映射值z(mì)~il=Σg=12Σj=1dgxij(g)wjl(g)+bl---(1)]]>式(1)中,為線(xiàn)性映射的第j行第l列結(jié)合系數(shù),bl為第l個(gè)偏置參數(shù);步驟3.2、利用sigmoid函數(shù)對(duì)第i行特征向量的第l個(gè)線(xiàn)性映射值進(jìn)行處理,得到sigmoid函數(shù)映射值z(mì)il;從而將線(xiàn)性映射值所在的實(shí)數(shù)空間映射為sigmoid函數(shù)映射值所在的準(zhǔn)哈希空間;步驟3.3、對(duì)sigmoid函數(shù)映射值z(mì)il進(jìn)行閾值化處理,判斷zil>0.5是否成立,若成立,則令hil為1,否則令hil為0;從而獲得第i幀關(guān)鍵幀的哈希碼序列hi=[hi1,hi2,…,hil,…,his];hil表示第i幀關(guān)鍵幀的第l位哈希碼;此處的哈希碼也是0/1二進(jìn)制碼,這樣在計(jì)算機(jī)存儲(chǔ)中可以大大減少存儲(chǔ)空間的大??;步驟4、在HSV顏色直方圖特征矩陣和LBP局部二值模式特征矩陣中,利用高斯模型分別計(jì)算在給定第i幀關(guān)鍵幀時(shí),第j幀關(guān)鍵幀與第i幀關(guān)鍵幀的相似程度的條件概率且令從而獲得n幀關(guān)鍵幀之間的條件概率矩陣為此處的高斯模型可以參考《StochasticNeighborEmbedding》文章中的高維空間條件概率求解公式去求解,如該模型的方差可以通過(guò)二分查找法去搜索能夠使得條件概率分布的信息熵接近或者等于最大信息熵的值;步驟5、判斷第i幀關(guān)鍵幀與第j幀關(guān)鍵幀是否屬于同一視頻,若屬于,則令第i幀關(guān)鍵幀與第j幀關(guān)鍵幀的所屬關(guān)系否則令從而獲得n幀關(guān)鍵幀之間的所屬關(guān)系矩陣判斷第i幀關(guān)鍵幀與第j幀關(guān)鍵幀在數(shù)據(jù)集真值表中是否為近重復(fù)視頻,若是,則令第i幀關(guān)鍵幀與第j幀關(guān)鍵幀的監(jiān)督關(guān)系否則,令從而獲得n幀關(guān)鍵幀之間的監(jiān)督關(guān)系矩陣步驟6、利用式(2)計(jì)算得到n幀關(guān)鍵幀之間相似程度的概率矩陣P,并進(jìn)行歸一化處理,得到歸一化后的概率矩陣P=Σg=12αgP(g)+βP(V)+γP(S)---(2)]]>式(2)中,表示條件概率矩陣系數(shù);β表示所屬關(guān)系矩陣系數(shù);γ表示監(jiān)督關(guān)系矩陣系數(shù);且系數(shù)β、γ均大于0且小于1,系數(shù)β、γ之和為1;對(duì)概率矩陣P進(jìn)行歸一化處理可以使得概率矩陣P的行向量滿(mǎn)足KL散度計(jì)算的要求;公式(2)中的系數(shù)β、γ可以人為設(shè)定,本發(fā)明提供的參考值為:α1=0.4、α2=0.3、β=0.01、γ=0.29;步驟7、在準(zhǔn)哈??臻g中,利用方差為1的高斯模型計(jì)算n幀關(guān)鍵幀之間的條件概率矩陣Q;準(zhǔn)哈??臻g為關(guān)鍵幀的HSV顏色直方圖特征和LBP局部二值模式特征所在的空間通過(guò)線(xiàn)性映射和sigmoid函數(shù)處理后生成的空間,為了使得步驟8中的優(yōu)化目標(biāo)函數(shù)平滑可導(dǎo),方便求解運(yùn)算,這里采用了準(zhǔn)哈??臻g來(lái)代替真正的哈??臻g,最后可以通過(guò)步驟3.3的閾值化處理將生成的準(zhǔn)哈希碼變換成真正的哈希碼;準(zhǔn)哈??臻g中的n幀關(guān)鍵幀之間的條件概率矩陣Q的計(jì)算可以參考文章《VisualizingDatausingt-SNE》中第二章第二個(gè)公式;步驟8、利用復(fù)合的Kullback-Leibler(KL)散度計(jì)算概率矩陣和條件概率矩陣Q之間的差異SKL;復(fù)合的Kullback-Leibler(KL)散度可以參考文章《Informationretrievalperspectivetononlineardimensionalityreductionfordatavisualization》中的公式4;步驟9、利用式(3)優(yōu)化目標(biāo)方程O(píng):minwjl(g),blO=SKL+μ2Σg=12Σl=1sΣj=1dg(wjl(g))2---(3)]]>式(3)中、μ為所設(shè)定的正則項(xiàng)系數(shù);μ的參考值為0.01;步驟10、采用標(biāo)準(zhǔn)的梯度下降算法優(yōu)化第j行第l列結(jié)合系數(shù)以及第l個(gè)偏置參數(shù)bl;標(biāo)準(zhǔn)梯度下降算法中的各個(gè)參數(shù)設(shè)定可以參考表1;參數(shù)數(shù)值總循環(huán)次數(shù)1200學(xué)習(xí)速率0.05運(yùn)動(dòng)項(xiàng)(循環(huán)次數(shù)小于等于250)0.5運(yùn)動(dòng)項(xiàng)(循環(huán)次數(shù)大于250)0.75表1本發(fā)明采用的標(biāo)準(zhǔn)梯度下降算法的各參數(shù)選擇步驟11、利用優(yōu)化后的第j行第l列結(jié)合系數(shù)以及第l個(gè)偏置參數(shù)bl,并按照步驟1至步驟3對(duì)數(shù)據(jù)集中的所有視頻進(jìn)行處理,得到所有視頻的關(guān)鍵幀的s位哈希碼序列;步驟12、利用式(4)計(jì)算獲得所有視頻中任一視頻的s位哈希碼序列中第e位哈希碼h~e=T(1|Ind|Σy∈Indhye)---(4)]]>式(4)中,Ind表示任一視頻的關(guān)鍵幀集合,|Ind|表示任一視頻的關(guān)鍵幀集合Ind的勢(shì);hye表示任一視頻中第y幀關(guān)鍵幀的第e位哈希碼;步驟二、檢索階段:步驟13、在所有視頻中選定一個(gè)待檢索視頻,并利用漢明距離來(lái)衡量待檢索視頻與所有其他視頻的s位哈希碼序列之間的差異,從而根據(jù)待檢索視頻與其他視頻之間的差異大小來(lái)判斷是否為近重復(fù)視頻。漢明距離度量通過(guò)簡(jiǎn)單的異或操作能夠快速的計(jì)算哈希碼序列間的距離;最后檢索結(jié)果可以按照距離的從小到大排列呈現(xiàn)給用戶(hù);表2給出了本發(fā)明在兩個(gè)常用的近重復(fù)視頻檢索公共數(shù)據(jù)集上的檢索準(zhǔn)確率,結(jié)果表明本發(fā)明能夠達(dá)到很好的檢索效果。數(shù)據(jù)集平均準(zhǔn)確率(MAP)CC_WEB_VIDEO97.1%UQ_VIDEO88.8%表2本發(fā)明在CC_WEB_VIDEO和UQ_VIDEO數(shù)據(jù)集上檢索的平均準(zhǔn)確率。當(dāng)前第1頁(yè)1 2 3