亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法及系統(tǒng)的制作方法

文檔序號(hào):6373108閱讀:318來(lái)源:國(guó)知局
專利名稱:基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明提供了一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法及系統(tǒng),可以準(zhǔn)確、快速地鑒定查詢視頻是否是給定參考視頻庫(kù)的拷貝,在數(shù)字版權(quán)管理、廣告跟蹤、視頻內(nèi)容過(guò)濾等領(lǐng)域都有重要的應(yīng)用。本發(fā)明屬于計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域。
背景技術(shù)
隨著經(jīng)濟(jì)文化發(fā)展和技術(shù)進(jìn)步,全球影視行業(yè)近年來(lái)一直穩(wěn)步增長(zhǎng)。僅2011年,我國(guó)電影票房就超過(guò)131億人民幣,較2010年增長(zhǎng)28. 93%,而全球電影總票房更是創(chuàng)下326億美元的新高。影視產(chǎn)業(yè)已經(jīng)成為很多國(guó)家的支柱產(chǎn)業(yè)之一,比如美國(guó)的影視產(chǎn)業(yè)僅在2009年就創(chuàng)造了 1370億美元的產(chǎn)值,提供了 220萬(wàn)個(gè)工作崗位。在影視資源日益豐富的同時(shí),隨著視頻復(fù)制和網(wǎng)絡(luò)傳輸技術(shù)的發(fā)展,盜版視頻也愈加泛濫。據(jù)統(tǒng)計(jì),全球超過(guò)23%的因特網(wǎng)流量用于傳輸侵犯知識(shí)產(chǎn)權(quán)的內(nèi)容,其中大部分為盜版影視節(jié)目。如此大規(guī)模的盜版視頻嚴(yán)重危害了影視作品創(chuàng)作者和廣大消費(fèi)者的利益。僅在2005年,盜版電影就導(dǎo)致全球電影產(chǎn)業(yè)損失了約205億美元。同時(shí),視頻盜版問(wèn)題也引發(fā)了越來(lái)越多的法律糾紛,比如Viacom媒體公司就曾于2007年起訴YouTube播放盜版視頻,并索賠10億美元。視頻盜版問(wèn)題正引起全社會(huì)的關(guān)注,各個(gè)國(guó)家紛紛出臺(tái)相應(yīng)法規(guī)打擊盜版,比如美國(guó)通過(guò)了《反網(wǎng)絡(luò)侵權(quán)與盜版法案》,大力制裁提供盜版視頻的網(wǎng)站。打擊盜版視頻,保護(hù)數(shù)字版權(quán),已經(jīng)成為社會(huì)各界的共識(shí)。但是爆炸式增長(zhǎng)的視頻數(shù)量給版權(quán)保護(hù)帶來(lái)了巨大的困難。2012年I月的統(tǒng)計(jì)數(shù)據(jù)表明,每分鐘上傳到Y(jié)ouTube的視頻長(zhǎng)度已超過(guò)60小時(shí)。面對(duì)海量視頻內(nèi)容,傳統(tǒng)的人工審查制度顯然力不從心,必須 依靠自動(dòng)的數(shù)字版權(quán)管理DRM(Digital Rights Management)技術(shù)?,F(xiàn)有的DRM技術(shù)主要包括加密(Encryption)、數(shù)字水印(Digital Watermarking)和基于內(nèi)容的拷貝檢測(cè)CBO)(Content-Based Copy Detection)。其中,加密是指將他人容易理解的明文信息編碼成難以理解的形式。目前,基于加密的DRM技術(shù)有諸多缺陷成熟的文本加密技術(shù)不能直接應(yīng)用于視頻數(shù)據(jù);不同的DRM系統(tǒng)使用不同的加密方法,導(dǎo)致系統(tǒng)缺乏互用性和兼容性;加密技術(shù)限制了合法用戶的使用權(quán),妨礙了大眾獲得版權(quán)失效的視頻內(nèi)容;加密技術(shù)大大增加了發(fā)布數(shù)字視頻的成本;加密技術(shù)面臨模擬陷阱(AnalogHole),即可以通過(guò)模擬方式翻錄視頻,然后重新數(shù)字化以繞過(guò)加密保護(hù)。數(shù)字水印是指向數(shù)字作品中嵌入特定信號(hào),該信號(hào)可以被檢測(cè)或提取出來(lái),從而對(duì)作品的版權(quán)進(jìn)行認(rèn)定。數(shù)字水印同樣面臨諸多挑戰(zhàn)嵌入的水印不夠健壯,難以抵御如壓縮之類的變形;嵌入水印會(huì)導(dǎo)致視頻質(zhì)量下降;數(shù)字水印不具備完備性,即任何人都可以向視頻中加入自己的水??;數(shù)字水印同樣面臨模擬陷阱。上述問(wèn)題限制了加密技術(shù)和數(shù)字水印在視頻版權(quán)保護(hù)中的應(yīng)用,作為兩者的替代方案,基于內(nèi)容的拷貝檢測(cè)吸引了越來(lái)越多的關(guān)注。所謂拷貝(Copy),是指從一段參考視頻(Refe rence Video)經(jīng)過(guò)某些音視頻變形(Audio-Visual Transformation)后得到的視頻。這里的“參考視頻”可以看作受到版權(quán)保護(hù)的原始視頻,比如影視節(jié)目,“拷貝”可以看作盜版視頻,“音視頻變形”是指在制作拷貝的過(guò)程中有意或無(wú)意加入的修改,比如在電影院偷錄電影時(shí)會(huì)引入噪聲和顏色失真?;趦?nèi)容的拷貝檢測(cè)CBCD (Content-Based Copy Detection),是指對(duì)于給定的參考視頻庫(kù)(Reference Video Data Base)和任意查詢視頻(Query Video),通過(guò)分析查詢視頻的內(nèi)容來(lái)判斷它是否包含來(lái)自參考視頻庫(kù)的拷貝片段,如果是的話,還要找出該片段在查詢視頻和參考視頻庫(kù)中的位置??截悪z測(cè)可以有效克服基于加密和數(shù)字水印的DRM技術(shù)的缺陷。但是,拷貝檢測(cè)也面臨一系列技術(shù)難點(diǎn)。首先,拷貝視頻可能經(jīng)受了某些音視頻變形,比如模糊、Gamma變換等質(zhì)量下降,甚至是畫(huà)中畫(huà)、插入模式等內(nèi)容改變(如圖I所示),這使得從拷貝視頻和原始的參考視頻中提取出不變的音視頻特征(Audio-Visual Feature)變得困難,即要求特征具有很高的健壯性(Robustness)。其次,有一些非拷貝查詢視頻(Non-Copy Query)與參考視頻非常相似(如圖2所示),為了準(zhǔn)確地排除這些查詢視頻,需要特征具有很高的區(qū)分性(Discriminability)。再次,實(shí)際應(yīng)用中的參考視頻庫(kù)規(guī)模很大,比如一家大型電影公司的所有電影,為了快速比對(duì)查詢視頻和參考視頻,需要特征具有很高的緊致性 (Compactness)。最后,對(duì)于基于關(guān)鍵幀和索引的拷貝檢測(cè)方法,需要合適的時(shí)域投票方法(Temporal Voting Approach)將巾貞層次的檢索結(jié)果轉(zhuǎn)化為視頻層次的拷貝檢測(cè)結(jié)果。為了解決上述難點(diǎn),現(xiàn)有拷貝檢測(cè)方法主要關(guān)注音視頻特征、時(shí)域投票和多特征融合三個(gè)方面。音視頻特征現(xiàn)有的音視頻特征可以分成局部視覺(jué)特征、全局視覺(jué)特征和音頻特征三類。局部視覺(jué)特征描述了一幀圖像中的局部區(qū)域,或連續(xù)多幀圖像中的時(shí)空立方體,比如 SIFT (Scale Invariant Feature Transform) > SURF (Speeded Up Robust Features)和STIP (Space-Time Interest Points),等等。全局視覺(jué)特征描述了一巾貞或連續(xù)多巾貞圖像的整體統(tǒng)計(jì)信息,比如顏色直方圖(Color Histogram)和序數(shù)度量(Ordinal Measure)。音頻特征描述了視頻音軌的時(shí)域和/或頻域統(tǒng)計(jì)信息,比如健壯音頻哈希(Robust AudioHashing)和 MFCC(Mel-Frequency Cepstral Coefficients)。當(dāng)前的音視頻特征都不是“包打天下”的,即沒(méi)有一種特征能夠抵御所有音視頻變形??傮w來(lái)說(shuō),局部視覺(jué)特征對(duì)部分內(nèi)容改變的視覺(jué)變形(Partial Content-AlteredVisual Transformation)具有較好的健壯性,因?yàn)楫?dāng)圖像或視頻中的部分區(qū)域被改變時(shí),仍然能夠從未被改變的區(qū)域提取出不變的局部特征。但是對(duì)于一些內(nèi)容保持的視覺(jué)變形(Content-Preserved Visual Transformation),比如模糊和加噪,局部視覺(jué)特征的健壯性不如全局視覺(jué)特征。此外,局部視覺(jué)特征的時(shí)空代價(jià)遠(yuǎn)高于全局視覺(jué)特征。全局視覺(jué)特征與局部視覺(jué)特征具有鮮明的互補(bǔ)性,它對(duì)于內(nèi)容保持的視覺(jué)變形具有較高的健壯性,并且具有緊致性高、匹配速度快的優(yōu)點(diǎn)。全局視覺(jué)特征的缺點(diǎn)在于對(duì)部分內(nèi)容改變的視覺(jué)變形不夠健壯,比如當(dāng)視覺(jué)關(guān)鍵幀中最暗的區(qū)域被一個(gè)很亮的電視臺(tái)標(biāo)志擋住的時(shí)候,它的序數(shù)度量就會(huì)發(fā)生很大的改變。音頻特征能夠很好地抵御內(nèi)容保持的音頻變形(Content-Preserved Audio Transformation),并且也具有緊致性高、匹配速度快的優(yōu)點(diǎn)。但是音頻特征對(duì)于內(nèi)容改變的音頻變形(Content-Altered Audio Transformation),比如混合語(yǔ)音,仍然不夠健壯。時(shí)域投票利用一種視覺(jué)特征或音頻特征,可以為查詢視頻的視覺(jué)關(guān)鍵幀或音頻幀找到最相近的參考視頻的視覺(jué)關(guān)鍵幀或音頻幀。然而拷貝檢測(cè)需要的是為一個(gè)查詢視頻找到最相近的參考視頻,這就引入了時(shí)域投票(Temporal Voting)的問(wèn)題。時(shí)域投票可以利用視頻的時(shí)域特性檢測(cè)經(jīng)過(guò)嚴(yán)重變形的拷貝,同時(shí)排除與參考視頻相似的非拷貝,因此對(duì)于拷貝檢測(cè)系統(tǒng)非常重要。目前已經(jīng)有多種時(shí)域投票方法?;舴蜃儞Q(Hough Transform)是一種適用于所有音視頻特征的時(shí)域投票模型,它的出發(fā)點(diǎn)是兩個(gè)視頻之間相互匹配的視覺(jué)關(guān)鍵幀或音頻幀應(yīng)該是對(duì)齊的,即所有匹配具有相似的時(shí)間差。幾何一致性匹配(Geometrically Consistent Matching)以及時(shí)空驗(yàn)證(Spatio-Temporal Verification)都是針對(duì)局部視覺(jué)特征的時(shí)域投票模型,兩者的出發(fā)點(diǎn)都是限制查詢視頻和參考視頻的特征匹配符合某個(gè)全局變換模型(Global Transform Model)。基于維特比算法的巾貞融合(Viterbi-based Frame Fusion)也是一種適用于所有音視頻特征的時(shí)域投票模型,該方法將時(shí)域投票過(guò)程轉(zhuǎn)化為隱馬爾科夫模型(Hidden Markov Models)的解碼問(wèn)題,并利用一個(gè)修改的維特比算法(Viterbi Algorithm)進(jìn)行快速求解。上述幾種時(shí)域投票方法都存在一定的問(wèn)題?;舴蜃儞Q對(duì)幀層次匹配施加了很強(qiáng)的時(shí)域一致性約束,雖然能較好地排除非拷貝,但也容易漏掉一些經(jīng)過(guò)嚴(yán)重變形的拷貝;幾何一致性匹配和時(shí)空驗(yàn)證都是為局部視覺(jué)特征設(shè)計(jì)的,在計(jì)算全局變換模型時(shí)需要使用局部 視覺(jué)特征的位置等信息,因此不適用于全局視覺(jué)特征和音頻特征;基于維特比算法的幀融合使用的模型復(fù)雜,計(jì)算速度慢。多特征融合方法如前所述,目前還沒(méi)有“包打天下”的特征,因此越來(lái)越多的拷貝檢測(cè)方法開(kāi)始利用多種特征,即使用幾個(gè)相互獨(dú)立的檢測(cè)器(Detector),每個(gè)檢測(cè)器利用一種特征得到一個(gè)單獨(dú)的拷貝檢測(cè)結(jié)果,最后將幾個(gè)檢測(cè)器的結(jié)果融合成為最終的拷貝檢測(cè)結(jié)果。競(jìng)爭(zhēng)型結(jié)果融合模型就是一個(gè)典型的例子,該模型將幾個(gè)檢測(cè)器的結(jié)果進(jìn)行競(jìng)爭(zhēng),勝出的作為最終結(jié)果。重排序型結(jié)果融合模型類似于元搜索引擎中使用的重排序(Re-ranking)策略,即每個(gè)檢測(cè)器分別返回若干個(gè)與查詢視頻最相似的參考視頻,對(duì)這些參考視頻進(jìn)行合并同時(shí)重新計(jì)算相似度,取相似度最高的參考視頻作為最終結(jié)果。校驗(yàn)型結(jié)果融合模型將幾個(gè)檢測(cè)器的結(jié)果相互校驗(yàn),若保持一致則成為最終結(jié)果,否則采用額外的方法重新計(jì)算。分工型結(jié)果融合模型首先對(duì)查詢視頻進(jìn)行變形識(shí)別,根據(jù)它經(jīng)受的變形調(diào)用相應(yīng)的檢測(cè)器進(jìn)行處理。上述結(jié)果層融合方法雖然都取得了比單一檢測(cè)器好的效果,但仍然存在一定的問(wèn)題。對(duì)競(jìng)爭(zhēng)型、重排序型和校驗(yàn)型融合方法來(lái)說(shuō),因?yàn)橐獔?zhí)行所有檢測(cè)器,所以處理時(shí)間至少是各個(gè)檢測(cè)器的運(yùn)行時(shí)間之和,檢測(cè)效率低下。分工型融合方法每次只需要執(zhí)行一個(gè)檢測(cè)器,相對(duì)于使用單一檢測(cè)器來(lái)說(shuō),僅僅增加了變形識(shí)別的時(shí)間;但是它的總體性能嚴(yán)重依賴于變形識(shí)別的效果,對(duì)于經(jīng)受復(fù)雜變形的查詢視頻,變形識(shí)別很可能失敗,這時(shí)系統(tǒng)會(huì)選擇不合適的檢測(cè)器,影響檢測(cè)效果。

發(fā)明內(nèi)容
本發(fā)明針對(duì)較大規(guī)模、包含復(fù)雜變形的視頻拷貝檢測(cè)問(wèn)題,提出了一種基于變形敏感的軟級(jí)聯(lián)TSSC(Transformation_Sensitive Soft Cascade)模型的視頻拷貝檢測(cè)方法及系統(tǒng)。一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法,包括以下步驟預(yù)處理步驟,從查詢視頻中提取出格式一致的視覺(jué)關(guān)鍵幀和音頻幀;變形識(shí)別步驟,判定所述查詢視頻經(jīng)受的變形的類別,并將它傳遞給該類別對(duì)應(yīng)的級(jí)聯(lián)檢測(cè)器鏈;檢測(cè)步驟,所述級(jí)聯(lián)檢測(cè)器鏈中的檢測(cè)器依次處理所述查詢視頻,直到其中一個(gè)檢測(cè)器判定它為拷貝,或者所有檢測(cè)器判定它為非拷貝。每個(gè)檢測(cè)器首先利用一種視覺(jué)特征或音頻特征檢索查詢視頻的視覺(jué)關(guān)鍵幀或音頻幀,然后利用時(shí)域金字塔匹配TPM(Temporal Pyramid Matching)將巾貞層次的檢索結(jié)果整合為視頻層次的拷貝檢測(cè)結(jié)果。所述預(yù)處理步驟用于從格式千差萬(wàn)別的視頻中提取出格式一致的視覺(jué)關(guān)鍵幀和音視幀。預(yù)處理的第一步是提取視覺(jué)關(guān)鍵幀,第二步是提取音頻幀,第三步是針對(duì)特定的變形進(jìn)行額外的處理。作為預(yù)處理方案的優(yōu)選,本發(fā)明的實(shí)施例針對(duì)畫(huà)中畫(huà)和左右翻轉(zhuǎn)變形,采取了額外處理。
所述變形識(shí)別步驟將音視頻混合變形分成若干類別,并根據(jù)查詢視頻的音頻幀和視覺(jué)關(guān)鍵幀的分類結(jié)果來(lái)判定查詢視頻經(jīng)受的變形的類別。其中,對(duì)音視頻混合變形進(jìn)行分類的依據(jù)有兩點(diǎn)第一,各個(gè)類別具有較大的類間差異和較小的類內(nèi)差異,可以被有效地區(qū)分開(kāi)。第二,同一個(gè)類別中的變形可以被相同的級(jí)聯(lián)檢測(cè)器鏈處理。作為變形識(shí)別方案的優(yōu)選,本發(fā)明的實(shí)施例將音視頻混合變形分為三類,第一類指“包含音頻,并且經(jīng)受內(nèi)容保持的音頻變形”,第二類指“靜音或經(jīng)受內(nèi)容改變的音頻變形,并且經(jīng)受內(nèi)容保持的視覺(jué)變形”,第三類指“靜音或經(jīng)受內(nèi)容改變的音頻變形,并且經(jīng)受內(nèi)容改變的視覺(jué)變形”。本發(fā)明利用WASF特征來(lái)判斷視頻是否是靜音的,利用WASF特征與支持向量機(jī)SVM來(lái)判斷視頻是否經(jīng)受了內(nèi)容改變的音頻變形,利用稠密彩色SIFT詞袋(Dense Color SIFT Bag-of-ffords, DCSIFT Boff)特征與SVM來(lái)判斷視頻是否經(jīng)受了內(nèi)容改變的視覺(jué)變形。所述檢測(cè)器通過(guò)處理查詢視頻的視覺(jué)關(guān)鍵幀或音頻幀,來(lái)判定查詢視頻是否是給定參考視頻庫(kù)的拷貝。在某一個(gè)檢測(cè)器內(nèi)部,首先利用一種視覺(jué)特征或音頻特征檢索查詢視頻的視覺(jué)關(guān)鍵幀或音頻幀,得到最相似的參考視頻的視覺(jué)關(guān)鍵幀或音頻幀,然后利用時(shí)域金字塔匹配TPM將這些幀層次的檢索結(jié)果整合為視頻層次的拷貝檢測(cè)結(jié)果。所述視覺(jué)特征和音頻特征有多種,每一種特征對(duì)應(yīng)一個(gè)檢測(cè)器。具體說(shuō)來(lái),應(yīng)該包含一種局部視覺(jué)特征,用于抵御內(nèi)容改變的視覺(jué)變形(Content-Altered VisualTransformation),比如攝錄、畫(huà)中畫(huà)和后處理;應(yīng)該包含一種全局視覺(jué)特征,用于抵御內(nèi)容保持的視覺(jué)變形(Content-Preserved Visual Transformation),比如壓縮、Gamma 變換和加噪;還應(yīng)該包含一種音頻特征,用于抵御內(nèi)容保持的音頻變形(Content-PreservedAudio Transformation),比如MP3壓縮和多帶擴(kuò)展。作為特征的優(yōu)選,本發(fā)明的實(shí)施例采用了一種局部視覺(jué)特征DCSIFT BoW,一種全局視覺(jué)特征DCT,以及一種音頻特征WASF。所述TPM用于將幀層次的檢索結(jié)果整合為視頻層次的拷貝檢測(cè)結(jié)果。TPM包含以下步驟第一步,對(duì)幀層次匹配集合進(jìn)行霍夫變換,得到若干視頻匹配的假設(shè),每個(gè)假設(shè)指明了一個(gè)查詢視頻片段和一個(gè)參考視頻片段。第二步,對(duì)于第一步中得出的每一個(gè)假設(shè),將其中指定的查詢視頻片段和參考視頻片段分割為越來(lái)越精細(xì)的子段,并在多個(gè)粒度上計(jì)算視頻之間的相似度。在每一個(gè)粒度上,只有位于對(duì)應(yīng)子段的幀層次匹配被保留下來(lái),并參與相似度的計(jì)算。各個(gè)粒度上的相似度的加權(quán)和構(gòu)成最終的視頻相似度,每一個(gè)假設(shè)及對(duì)應(yīng)的相似度就構(gòu)成了一個(gè)視頻匹配。第三步,從第二步計(jì)算出的視頻匹配中挑選出相似度最大的那一個(gè)作為最終輸出,并根據(jù)它的相似度判定查詢視頻是否為拷貝若相似度大于等于某個(gè)預(yù)先設(shè)定的閾值,則判定它是拷貝視頻。所述級(jí)聯(lián)檢測(cè)器鏈有多條,每一條鏈處理一類音視頻混合變形。構(gòu)造級(jí)聯(lián)檢測(cè)器鏈的依據(jù)有兩點(diǎn)第一,要充分利用各個(gè)檢測(cè)器對(duì)不同變形的健壯性。第二,要保留一定的冗余處理能力,以應(yīng)對(duì)變形識(shí)別錯(cuò)誤的情況。作為級(jí)聯(lián)檢測(cè)器鏈的優(yōu)選,本發(fā)明的實(shí)施例為第一類和第二類變形構(gòu)建了一個(gè)快速的級(jí)聯(lián)檢測(cè)器鏈,其中包含WASF檢測(cè)器和DCT檢測(cè)器,為第三類變形構(gòu)建了一個(gè)健壯的級(jí)聯(lián)檢測(cè)器鏈,包含WASF檢測(cè)器、DCT檢測(cè)器以及DCSIFT檢測(cè)器。所述級(jí)聯(lián)檢測(cè)器鏈包含一個(gè)相似度閾值向量,其中每一個(gè)閾值對(duì)應(yīng)一個(gè)檢測(cè)器,用于判定查詢視頻是否是拷貝。所述TSSC模型使用閾值學(xué)習(xí)算法,自動(dòng)為級(jí)聯(lián)檢測(cè)器鏈選擇出最優(yōu)的相似度閾值向量。 所述閾值學(xué)習(xí)算法定義了檢測(cè)器在一個(gè)訓(xùn)練視頻集上的錯(cuò)誤率,用于衡量檢測(cè)器在訓(xùn)練視頻集上的檢測(cè)效果。所述錯(cuò)誤率是檢測(cè)器在所有訓(xùn)練視頻上的檢測(cè)代價(jià)的加權(quán)和。訓(xùn)練視頻的權(quán)重是不同的,而且可以根據(jù)視頻重要性的變化進(jìn)行調(diào)整。檢測(cè)代價(jià)與檢測(cè)器使用的相似度閾值有關(guān),對(duì)于相同的視頻匹配,不同的閾值會(huì)導(dǎo)致不同的拷貝判定結(jié)果,繼而導(dǎo)致不同的檢測(cè)代價(jià)。因此,對(duì)于給定的檢測(cè)器和訓(xùn)練視頻集,錯(cuò)誤率取決于檢測(cè)器使用的相似度閾值以及訓(xùn)練視頻的權(quán)重分配。所述閾值學(xué)習(xí)算法的依據(jù)有兩點(diǎn)第一,最優(yōu)閾值應(yīng)該在減少假正檢FP(FalsePositive)和減少假負(fù)檢FN(False Negative)之間取得合適的折衷,為此需要在一系列閾值上計(jì)算檢測(cè)器的錯(cuò)誤率,閾值的取值范圍是檢測(cè)器為所有訓(xùn)練視頻返回的視頻匹配的相似度,與最小錯(cuò)誤率相對(duì)應(yīng)的相似度就被選作最優(yōu)閾值。第二,后面的檢測(cè)器應(yīng)該重點(diǎn)關(guān)注前面的檢測(cè)器檢測(cè)錯(cuò)誤的訓(xùn)練視頻,從而充分發(fā)揮檢測(cè)器之間的互補(bǔ)性。為此,在執(zhí)行后面的檢測(cè)器時(shí),要修改訓(xùn)練視頻的權(quán)重,使得之前被正確檢測(cè)的視頻的權(quán)重減小。一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)系統(tǒng),包括以下模塊預(yù)處理模塊,從查詢視頻中提取出格式一致的視覺(jué)關(guān)鍵幀和音頻幀;變形識(shí)別模塊,判定所述查詢視頻經(jīng)受的變形的類別;多個(gè)檢測(cè)器模塊,每個(gè)檢測(cè)器首先利用一種視覺(jué)特征或音頻特征檢索查詢視頻的視覺(jué)關(guān)鍵幀或音頻幀,得到幀層次匹配的集合,然后利用時(shí)域金字塔匹配TPM處理幀層次匹配的集合,得到一個(gè)視頻匹配;TSSC模塊,根據(jù)變形識(shí)別結(jié)果以及用戶的配置,調(diào)用一組檢測(cè)器模塊依次處理查詢視頻,直到其中一個(gè)檢測(cè)器判定它為拷貝,或者所有檢測(cè)器判定它為非拷貝;用戶配置與結(jié)果展示模塊,允許用戶選擇系統(tǒng)使用的預(yù)處理操作和檢測(cè)器,并將拷貝檢測(cè)結(jié)果展示給用戶。每一個(gè)檢測(cè)器模塊包括以下子模塊幀層次檢索子模塊,利用一種視覺(jué)特征或音頻特征檢索查詢視頻的視覺(jué)關(guān)鍵幀或音頻幀,得到最相似的參考視頻的視覺(jué)關(guān)鍵幀或音頻幀,查詢視頻的視覺(jué)關(guān)鍵幀或音頻幀與檢索到的參考視頻的視覺(jué)關(guān)鍵幀或音頻幀構(gòu)成幀層次匹配的集合;時(shí)域金字塔匹配TPM子模塊,利用時(shí)域金字塔匹配TPM處理幀層次匹配的集合,得到與查詢視頻最相似的參考視頻,以及兩者的相似度,查詢視頻與返回的參考視頻構(gòu)成一個(gè)視頻匹配。與現(xiàn)有技術(shù)相比,本發(fā)明的創(chuàng)新點(diǎn)和優(yōu)勢(shì)主要包括I、利用預(yù)處理排除了視頻格式不同造成的影響;在保持視頻主要的視覺(jué)內(nèi)容的同時(shí)丟棄了大部分視頻幀,降低了幀層次檢索的時(shí)空代價(jià);通過(guò)針對(duì)畫(huà)中畫(huà)和翻轉(zhuǎn)變形的額外處理,提高了拷貝檢測(cè)效果。2、挑選了多種互補(bǔ)的音視頻特征,每種特征都能有效抵御一類變形,通過(guò)TSSC模型對(duì)這些特征進(jìn)行結(jié)果層融合,可以抵御絕大部分變形。3、利用TPM將幀層次的檢索結(jié)果整合為視頻層次的拷貝檢測(cè)結(jié)果。TPM充分利用 了視頻的時(shí)域特性,提高了拷貝檢測(cè)效果,并且模型簡(jiǎn)單,計(jì)算快速。4、利用變形識(shí)別判斷出查詢視頻經(jīng)受的變形的類別,并為每一類變形“量身訂做”了一條級(jí)聯(lián)檢測(cè)器鏈,充分利用多個(gè)檢測(cè)器的互補(bǔ)優(yōu)勢(shì),大大提高了拷貝檢測(cè)效果。5、對(duì)于絕大部分查詢視頻,TSSC模型只需要執(zhí)行一到兩個(gè)非??焖俚臋z測(cè)器,僅僅對(duì)于少數(shù)經(jīng)受復(fù)雜變形的查詢視頻,TSSC模型才需要執(zhí)行慢速的檢測(cè)器??傮w說(shuō)來(lái),TSSC模型節(jié)省了大部分處理時(shí)間,大大提高了拷貝檢測(cè)速度。6、TSSC模型利用閾值學(xué)習(xí)算法,自動(dòng)選擇最優(yōu)的相似度閾值。這樣一方面充分發(fā)揮了檢測(cè)器之間的互補(bǔ)特性,使系統(tǒng)達(dá)到最優(yōu)的檢測(cè)效果和速度,另一方面避免了人工調(diào)整閾值的麻煩,提高了系統(tǒng)的通用性。7、本發(fā)明可以準(zhǔn)確、快速地鑒定查詢視頻是否是給定參考視頻庫(kù)的拷貝,在數(shù)字版權(quán)管理、廣告跟蹤、視頻內(nèi)容過(guò)濾等領(lǐng)域都有重要的應(yīng)用。


圖I拷貝視頻經(jīng)受的視覺(jué)變形示例中心是原始的參考視頻,周圍是拷貝視頻;圖2與參考視頻非常相似的非拷貝查詢視頻示例(a)是在不同的球隊(duì)在同一個(gè)冰球場(chǎng)打球,(b)是不同的嘉賓接受同一個(gè)主持人采訪;圖3基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法的流程圖;圖4變形識(shí)別過(guò)程的流程圖;圖5檢測(cè)器的框架;圖6利用DCS I FT Boff特征檢索視覺(jué)關(guān)鍵幀的過(guò)程;圖7 DCT特征的能量子帶分布;圖8 WASF特征提取過(guò)程;圖9 TPM預(yù)處理過(guò)程示意圖;圖10 —個(gè)L = 2的TPM的示例;圖11基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)系統(tǒng)的框架。
具體實(shí)施例方式下面結(jié)合實(shí)施例和附圖,對(duì)本發(fā)明進(jìn)行詳細(xì)的描述。一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法,其整體流程參見(jiàn)圖3。其中,預(yù)處理操作包括以下步驟
步驟11 :提取視覺(jué)關(guān)鍵巾貞;本發(fā)明按照每秒3巾貞的頻率,等間隔地提取視覺(jué)關(guān)鍵幀。每秒3幀的采樣率可以在保持視頻主要視覺(jué)內(nèi)容的同時(shí)丟棄大部分視頻幀,節(jié)約了視覺(jué)幀檢索的時(shí)空代價(jià)。步驟12 :提取音頻幀;為此,首先要將視頻的音軌分割成90毫秒的音頻字,相鄰音頻字之間有60毫秒的重疊,然后,連續(xù)198個(gè)音頻字構(gòu)成一個(gè)6秒長(zhǎng)的音頻幀,相鄰音頻幀共用178個(gè)音頻字,即有5. 4秒的重疊。步驟13 :對(duì)于查詢視頻,采取了額外的預(yù)處理措施,以便更好地應(yīng)對(duì)畫(huà)中畫(huà)和左右翻轉(zhuǎn)變形;具體說(shuō)來(lái),利用二維霍夫變換來(lái)檢測(cè)兩組平行線,繼而檢測(cè)和定位出畫(huà)中畫(huà)的區(qū)域;對(duì)于包含畫(huà)中畫(huà)的視頻,要分別對(duì)整個(gè)視覺(jué)關(guān)鍵幀和畫(huà)中畫(huà)部分進(jìn)行檢測(cè),只要有一個(gè)結(jié)果判定它是拷貝,就確認(rèn)它是拷貝;此外,為應(yīng)對(duì)潛在的左右翻轉(zhuǎn)變形,所有判定為非拷貝的查詢視頻都要翻轉(zhuǎn)過(guò)來(lái)重新進(jìn)行拷貝檢測(cè)。 變形識(shí)別模塊將音視頻混合變形分為三類,第一類指“包含音頻,并且經(jīng)受內(nèi)容保持的音頻變形”,第二類指“靜音或經(jīng)受內(nèi)容改變的音頻變形,并且經(jīng)受內(nèi)容保持的視覺(jué)變形”,第三類指“靜音或經(jīng)受內(nèi)容改變的音頻變形,并且經(jīng)受內(nèi)容改變的視覺(jué)變形”。變形識(shí)別過(guò)程參見(jiàn)圖4,包括以下步驟步驟21 :從查詢視頻的音頻幀中提取WASF特征,WASF特征提取過(guò)程參見(jiàn)步驟61。若某一個(gè)WASF特征向量全部由0組成,則說(shuō)明對(duì)應(yīng)的音頻幀是靜音的。如果超過(guò)10%的音頻幀是靜音的,則判斷該視頻是靜音的;如果查詢視頻是靜音的,則執(zhí)行步驟23,否則執(zhí)行步驟22。步驟22 :將查詢視頻的WASF特征依次送入一個(gè)支持向量機(jī)SVM(Support VectorMachine),判斷對(duì)應(yīng)的音頻幀是否經(jīng)受了內(nèi)容改變的音頻變形。通過(guò)對(duì)所有音頻幀的結(jié)果進(jìn)行投票,判斷該視頻是否經(jīng)受了內(nèi)容改變的音頻變形。如果查詢視頻沒(méi)有經(jīng)受內(nèi)容改變的音頻變形,則判定它屬于第一類變形,并終止變形識(shí)別過(guò)程;否則執(zhí)行步驟23。步驟23 :對(duì)查詢視頻進(jìn)行畫(huà)中畫(huà)檢測(cè),如果包含畫(huà)中畫(huà),則判定它屬于第三類變形,并終止變形識(shí)別過(guò)程;否則執(zhí)行步驟24。步驟24 :從查詢視頻的視覺(jué)關(guān)鍵幀中提取DCSIFT BoW特征,DCSIFT BoW特征提取過(guò)程參見(jiàn)步驟41 ;將這些特征依次送入第二個(gè)SVM,判斷對(duì)應(yīng)的視覺(jué)關(guān)鍵幀是否經(jīng)受了內(nèi)容改變的視覺(jué)變形。通過(guò)對(duì)所有視覺(jué)關(guān)鍵幀的結(jié)果進(jìn)行投票,判斷該視頻是否經(jīng)受了內(nèi)容改變的視覺(jué)變形。如果查詢視頻經(jīng)受了內(nèi)容改變的視覺(jué)變形,則判定它屬于第三類變形,否則判定它屬于第二類變形。終止變形識(shí)別過(guò)程。本發(fā)明采用的檢測(cè)器的框架參見(jiàn)圖5,檢測(cè)過(guò)程包括步驟31 :在離線處理階段,從所有參考視頻的視覺(jué)關(guān)鍵幀(音頻幀)中提取某種視覺(jué)特征(音頻特征),然后存儲(chǔ)在合適的索引結(jié)構(gòu)中。步驟32 :在查詢階段,檢索查詢視頻的視覺(jué)關(guān)鍵幀(音頻幀)。為此,首先使用步驟31中的特征提取方法,從查詢視頻的視覺(jué)關(guān)鍵幀(音頻幀)中提取出特征,然后在參考特征索引中進(jìn)行搜索,為每一個(gè)查詢視頻的視覺(jué)關(guān)鍵幀(音頻幀)找出最相似的Kf個(gè)參考視頻的視覺(jué)關(guān)鍵幀(音頻幀),得到一個(gè)幀層次匹配的集合FM,其中包含一系列幀層次匹配fm = <q, t (q), r, t (r), fs>(I)
其中,q和r分別表示查詢視頻和參考視頻的ID,t (q)和t (r)分別表示查詢視頻的視覺(jué)關(guān)鍵巾貞(首頻巾貞)和參考視頻的視覺(jué)關(guān)鍵巾貞(首頻巾貞)的時(shí)間戮,fs表不兩個(gè)視覺(jué)關(guān)鍵幀(音頻幀)的相似度;fm表示q位于t(q)時(shí)刻的視覺(jué)關(guān)鍵幀(音頻幀)匹配上了r位于t(r)時(shí)刻的視覺(jué)關(guān)鍵幀(音頻幀),兩幀之間的相似度為fs。Kf代表為每個(gè)查詢視頻的視覺(jué)關(guān)鍵幀(音頻幀)檢索出的最相似的參考視頻的視覺(jué)關(guān)鍵幀(音頻幀)的數(shù)目,其取值范圍是5 < Kf < 100,本發(fā)明的實(shí)施例使用Kf = 20。步驟33 :在查詢階段,對(duì)幀層次匹配集合FM進(jìn)行時(shí)域金字塔匹配TPM(TemporalPyramid Matching),得到最相似的視頻層次匹配 vm (q) = <q, tB (q), tE(q), r, tB (r), tE (r), vs>(2)其中,q和r分別表示查詢視頻和參考視頻的ID,tB (q)和tE (q)表示查詢視頻q中的拷貝片段的起止時(shí)間戳,tB(r)和tE(r)表示該拷貝片段對(duì)應(yīng)的參考視頻r中的片段的起止時(shí)間戳,vs表示查詢視頻q與參考視頻r的相似度。vm(q)表示q的片段[tB(q), tE(q)]匹配到了 r的片段[tB(r),tE(r)],兩個(gè)視頻之間的相似度為vs。然后,根據(jù)vs和一個(gè)預(yù)先設(shè)定的相似度閾值0判定查詢視頻是否為拷貝,若vs ^ 0 ,則輸出C (q, tB (q), tE (q), r, tB (r), tE (r))(3)表明q是r的拷貝,簡(jiǎn)記作C(q,r)。其中公式(3)中各個(gè)參數(shù)的含義與公式(2)相同。否則輸出⑷表明q不是拷貝。本發(fā)明利用三種互補(bǔ)的音視頻特征,即DCSIFT Boff,DCT和WASF,構(gòu)建了三個(gè)相互獨(dú)立的檢測(cè)器desiFT、dDCT和dWASF,每個(gè)檢測(cè)器都按照步驟31 33進(jìn)行拷貝檢測(cè)。利用DCSIFT Boff特征檢索視覺(jué)關(guān)鍵幀的過(guò)程參見(jiàn)圖6,其過(guò)程包括步驟41 :在離線處理階段,從所有參考視頻的視覺(jué)關(guān)鍵幀中提取出稠密彩色SIFT (Dense Color SIFT,DCSIFT)特征,量化為詞袋 BoW(Bag-of-Words)表達(dá)方式,并存儲(chǔ)在倒排索引中。具體地,DCSIFT與傳統(tǒng)SIFT的區(qū)別在于稠密(Dense)和彩色(Color)。所謂稠密,是指拋棄了 SIFT的興趣點(diǎn)檢測(cè)模塊,轉(zhuǎn)而使用多尺度稠密采樣(Multi-Scale DenseSampling)將圖像劃分為多個(gè)區(qū)域,將其中的單色區(qū)域拋棄后,為剩下的每個(gè)區(qū)域計(jì)算一個(gè)局部特征。所謂彩色,指的是描述子并不是從灰度圖像中提取的,而是從LAB彩色圖像的3個(gè)通道中提取,然后拼接在一起。具體地,本發(fā)明使用優(yōu)化的BoW方法對(duì)DCSIFT特征進(jìn)行量化,并使用倒排索引存儲(chǔ)量化后的DCSIFT BoW特征。由于向量量化會(huì)削弱描述子的區(qū)分性,本發(fā)明考慮了特征的位置、尺度和主方向信息,以彌補(bǔ)描述子量化時(shí)損失的區(qū)分性。具體說(shuō)來(lái),首先隨機(jī)選擇出10,000,000個(gè)參考視頻的描述子,利用KMeans算法將其聚成800個(gè)簇,之后每一個(gè)描述子都可以量化為一個(gè)簇ID。特征的位置、尺度和主方向也依次量化為4、2和16個(gè)格子。于是,擴(kuò)展后的視覺(jué)詞典(Visual Vocabulary)包含800X4X2X16 = 102,400個(gè)視覺(jué)單詞(Visual Word)。每一個(gè)視覺(jué)關(guān)鍵幀可以表示為一系列視覺(jué)單詞的集合,簡(jiǎn)稱為詞袋B0W(Bag-Of-Words)。為了加快特征匹配,使用倒排索引來(lái)存儲(chǔ)所有參考視頻的DCSIFT Boff特征。步驟42 :在查詢階段,利用相同的特征提取與量化方法,從查詢視頻的視覺(jué)關(guān)鍵幀中提取出DCSIFT BoW特征,并對(duì)參考視頻庫(kù)的DCSIFT BoW倒排索引進(jìn)行搜索,得到幀層次匹配的集合FM。利用DCT特征檢索視覺(jué)關(guān)鍵幀的過(guò)程包括步驟51 :在離線處理階段,從所有參考視頻的視覺(jué)關(guān)鍵幀中提取出DCT特征,并存儲(chǔ)在局部敏感哈希 LSH(Locality Sensitive Hashing)中。具體地,DCT特征是根據(jù)相鄰圖像塊的DCT系數(shù)的關(guān)系計(jì)算出來(lái)的,其過(guò)程包括I.將圖像轉(zhuǎn)變?yōu)榛叶葓D,并歸一化為64X64像素;2.將圖像等分為64個(gè)子塊,子塊編號(hào)為0 63,每個(gè)子塊包含8X8個(gè)像素;
·
3 對(duì)每一個(gè)子塊進(jìn)行離散余弦變換DCT (Discrete Cosine Transform),得到8X8的系數(shù)矩陣;4.計(jì)算出每個(gè)系數(shù)矩陣的前4個(gè)子帶的能量,前4個(gè)子帶的編號(hào)為0 3,分布如圖7所示;5.根據(jù)相鄰子塊的子帶能量的大小關(guān)系,生成一個(gè)256維的特征F256
權(quán)利要求
1.一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法,其特征在于包括以下步驟 預(yù)處理步驟,從查詢視頻中提取出格式一致的視覺(jué)關(guān)鍵幀和音頻幀; 變形識(shí)別步驟,判定查詢視頻經(jīng)受的變形的類別,并將它傳遞給該類別對(duì)應(yīng)的級(jí)聯(lián)檢測(cè)器鏈; 檢測(cè)步驟,級(jí)聯(lián)檢測(cè)器鏈中的檢測(cè)器依次處理所述查詢視頻,直到其中一個(gè)檢測(cè)器判定它為拷貝,或者所有檢測(cè)器判定它為非拷貝。
2.根據(jù)權(quán)利要求I所述的一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法,其特征在于所述變形識(shí)別步驟,利用WASF特征來(lái)判斷查詢視頻是否是靜音的,利用WASF特征與支持向量機(jī)SVM來(lái)判斷查詢視頻是否經(jīng)受了內(nèi)容改變的音頻變形,利用DCSIFT BoW特征與SVM來(lái)判斷查詢視頻是否經(jīng)受了內(nèi)容改變的視覺(jué)變形。
3.根據(jù)權(quán)利要求I所述的一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法,其特征在于每一個(gè)檢測(cè)器包括以下檢測(cè)步驟 幀層次檢索步驟,利用一種視覺(jué)特征或音頻特征檢索查詢視頻的視覺(jué)關(guān)鍵幀或音頻幀,得到最相似的參考視頻的視覺(jué)關(guān)鍵幀或音頻幀,查詢視頻的視覺(jué)關(guān)鍵幀或音頻幀與檢索到的參考視頻的視覺(jué)關(guān)鍵幀或音頻幀構(gòu)成幀層次匹配的集合; 時(shí)域金字塔匹配TPM步驟,利用時(shí)域金字塔匹配TPM處理幀層次匹配的集合,得到與查詢視頻最相似的參考視頻,以及兩者的相似度,查詢視頻與返回的參考視頻構(gòu)成一個(gè)視頻匹配。
4.根據(jù)權(quán)利要求3所述的一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法,其特征在于所述視覺(jué)特征和音頻特征至少包含一種效果好的局部視覺(jué)特征、一種速度快的全局視覺(jué)特征以及一種速度快的音頻特征,每種特征對(duì)應(yīng)一個(gè)檢測(cè)器。
5.根據(jù)權(quán)利要求3所述的一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法,其特征在于所述時(shí)域金字塔匹配TPM將查詢視頻和參考視頻分割為越來(lái)越精細(xì)的子段,并在多個(gè)粒度上計(jì)算視頻之間的相似度;在每一個(gè)粒度上,只有位于對(duì)應(yīng)子段的幀層次匹配被保留下來(lái),并參與該粒度上的相似度的計(jì)算;各個(gè)粒度上的相似度的加權(quán)和構(gòu)成最終的相似度。
6.根據(jù)權(quán)利要求I所述的一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法,其特征在于所述檢測(cè)步驟,級(jí)聯(lián)檢測(cè)器鏈上的檢測(cè)器依次處理查詢視頻,每一個(gè)檢測(cè)器返回與查詢視頻最相似的參考視頻及相似度,若相似度大于等于某個(gè)預(yù)先設(shè)定的閾值,則判定查詢視頻是拷貝,并終止運(yùn)行,否則執(zhí)行下一個(gè)檢測(cè)器;僅當(dāng)所有檢測(cè)器全部判定查詢視頻為非拷貝時(shí),系統(tǒng)才會(huì)接受它為非拷貝視頻。
7.根據(jù)權(quán)利要求6所述的一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法,其特征在于使用閾值學(xué)習(xí)算法,自動(dòng)為級(jí)聯(lián)檢測(cè)器鏈選擇出最優(yōu)的相似度閾值向量;每一個(gè)相似度閾值對(duì)應(yīng)一個(gè)檢測(cè)器,用于判定查詢視頻是否是拷貝。
8.根據(jù)權(quán)利要求7所述的一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法,其特征在于所述閾值學(xué)習(xí)算法定義了檢測(cè)器在一個(gè)訓(xùn)練視頻集上的錯(cuò)誤率;對(duì)于給定的檢測(cè)器和訓(xùn)練視頻集,所述錯(cuò)誤率取決于檢測(cè)器使用的相似度閾值以及所有訓(xùn)練視頻的權(quán)重。
9.根據(jù)權(quán)利要求7所述的一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法,其特征在于所述閾值學(xué)習(xí)算法在為一個(gè)檢查器挑選最優(yōu)閾值的時(shí)候,將閾值設(shè)定為一系列值并分別計(jì)算檢測(cè)器的錯(cuò)誤率,與最小錯(cuò)誤率相對(duì)應(yīng)的閾值就被選作最優(yōu)閾值;閾值的取值范圍是檢測(cè)器為所有訓(xùn)練視頻返回的視頻匹配的相似度的集合。
10.根據(jù)權(quán)利要求7所述的一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法,其特征在于所述閾值學(xué)習(xí)算法在為一個(gè)檢查器挑選出最優(yōu)閾值之后,會(huì)減小該檢測(cè)器檢測(cè)正確的訓(xùn)練視頻的權(quán)重;權(quán)重減小的程度取決于檢測(cè)器的最小錯(cuò)誤率,最小錯(cuò)誤率越小,權(quán)重減小的程度越大。
11.一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)系統(tǒng),其特征在于包括以下模塊 預(yù)處理模塊,從查詢視頻中提取出格式一致的視覺(jué)關(guān)鍵幀和音頻幀; 變形識(shí)別模塊,判定所述查詢視頻經(jīng)受的變形的類別; 多個(gè)檢測(cè)器模塊,每個(gè)檢測(cè)器首先利用一種視覺(jué)特征或音頻特征檢索查詢視頻的視覺(jué)關(guān)鍵幀或音頻幀,得到幀層次匹配的集合,然后利用時(shí)域金字塔匹配TPM處理幀層次匹配的集合,得到一個(gè)視頻匹配; TSSC模塊,根據(jù)變形識(shí)別結(jié)果以及用戶的配置,調(diào)用一組檢測(cè)器模塊依次處理查詢視頻,直到其中一個(gè)檢測(cè)器判定它為拷貝,或者所有檢測(cè)器判定它為非拷貝; 用戶配置與結(jié)果展示模塊,允許用戶選擇系統(tǒng)使用的預(yù)處理操作和檢測(cè)器,并將拷貝檢測(cè)結(jié)果展示給用戶。
12.根據(jù)權(quán)利要求11所述的一種基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)系統(tǒng),其特征在于每一個(gè)檢測(cè)器模塊包括以下子模塊 幀層次檢索子模塊,利用一種視覺(jué)特征或音頻特征檢索查詢視頻的視覺(jué)關(guān)鍵幀或音頻幀,得到最相似的參考視頻的視覺(jué)關(guān)鍵幀或音頻幀,查詢視頻的視覺(jué)關(guān)鍵幀或音頻幀與檢索到的參考視頻的視覺(jué)關(guān)鍵幀或音頻幀構(gòu)成幀層次匹配的集合; 時(shí)域金字塔匹配TPM子模塊,利用時(shí)域金字塔匹配TPM處理幀層次匹配的集合,得到與查詢視頻最相似的參考視頻,以及兩者的相似度,查詢視頻與返回的參考視頻構(gòu)成一個(gè)視頻匹配。
全文摘要
本發(fā)明提供了基于變形敏感的軟級(jí)聯(lián)模型的視頻拷貝檢測(cè)方法及系統(tǒng)。包括以下步驟預(yù)處理步驟,從查詢視頻中提取出格式一致的視覺(jué)關(guān)鍵幀和音頻幀;變形識(shí)別步驟,判定所述查詢視頻經(jīng)受的變形的類別,并將它傳遞給該類別對(duì)應(yīng)的級(jí)聯(lián)檢測(cè)器鏈;檢測(cè)步驟級(jí)聯(lián)檢測(cè)器鏈中的檢測(cè)器依次處理查詢視頻,直到某個(gè)檢測(cè)器判定它為拷貝,或者所有檢測(cè)器全部判定它為非拷貝,在某一個(gè)檢測(cè)器內(nèi)部,首先利用一種視覺(jué)特征或音頻特征檢索查詢視頻的視覺(jué)關(guān)鍵幀或音頻幀,然后利用時(shí)域金字塔匹配TPM將幀層次的檢索結(jié)果整合為視頻層次的拷貝檢測(cè)結(jié)果。本發(fā)明可以準(zhǔn)確、快速地鑒定查詢視頻是否是給定參考視頻庫(kù)的拷貝,在數(shù)字版權(quán)管理、廣告跟蹤、視頻內(nèi)容過(guò)濾等領(lǐng)域都有重要的應(yīng)用。
文檔編號(hào)G06F17/30GK102737135SQ20121023855
公開(kāi)日2012年10月17日 申請(qǐng)日期2012年7月10日 優(yōu)先權(quán)日2012年7月10日
發(fā)明者姜夢(mèng)林, 田永鴻, 黃鐵軍 申請(qǐng)人:北京大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1