亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

視頻高層特征檢索系統(tǒng)及其實現(xiàn)的制作方法

文檔序號:6575425閱讀:127來源:國知局
專利名稱:視頻高層特征檢索系統(tǒng)及其實現(xiàn)的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于視頻檢索技術(shù)領(lǐng)域,具體涉及一種基于內(nèi)容的視頻鏡頭檢索方法。其實質(zhì)是 抽取鏡頭中的關(guān)鍵幀信息,對其進行多類特征提取,并分別用支撐向量機(SVM)計算所查 詢內(nèi)容的匹配度,形成多個子系統(tǒng)。本發(fā)明提出了一種基于邏輯回歸(Logistic Regression) 的得分融合方式,在此基礎(chǔ)上得到了統(tǒng)一的高準(zhǔn)確率的視頻高層特征檢索系統(tǒng)。
背景技術(shù)
多媒體技術(shù)和互聯(lián)網(wǎng)的發(fā)展給人們帶來巨大的多媒體信息海洋,而IPTV、視頻網(wǎng)站的的 迅速崛起進一步導(dǎo)致了視頻圖片等多媒體信息的爆炸性增長,傳統(tǒng)的基于文本關(guān)鍵詞的檢索 方式已經(jīng)無法滿足多媒體信息描述和信息庫整理的需要。如何找到一種新的檢索方式,有效 的幫助人們快速、準(zhǔn)確地找到所需要的多媒體信息,成了多媒體信息庫所要解決的核心問題。
基于內(nèi)容的視頻信息檢索(Content-Based Retrieval)是一種新的檢索技術(shù),是當(dāng)前多媒 體數(shù)據(jù)庫發(fā)展的一個重要研究領(lǐng)域,它通過對非結(jié)構(gòu)化的視頻數(shù)據(jù)進行結(jié)構(gòu)化分析和處理, 采用視頻分割技術(shù),將連續(xù)的視頻流劃分為具有特定語義的鏡頭,作為檢索的基本單元,在 此基礎(chǔ)上進行關(guān)鍵幀(keyframe)的抽取,形成描述鏡頭的特征索引,對圖像中的顏色、形狀、 紋理,或視頻中的場景、片斷進行分析和特征提取,并基于這些特征進行相似性匹配。
在基于內(nèi)容的視頻圖像檢索中,之前主要研究的是圖像的視覺和形象特征,我們稱之為 底層特征,包括顏色、紋理、形狀以及在此基礎(chǔ)上形成的空間關(guān)系等方面,以圖像的底層視 覺和形象特征為索引對圖像進行檢索具有計算簡單、性能穩(wěn)定的特點,但目前這些特征都有 一定的局限性。為了實現(xiàn)更為貼近用戶理解能力的自然而簡潔的査詢方式,填補底層特征與 高層語義之間的語義鴻溝,近幾年的研究逐漸轉(zhuǎn)向基于場景和目標(biāo)對象的視頻圖像高層特征 的提取,嘗試由圖像的底層次特征推知高層次語義,從而使用高層語義特征計算圖像相似程 度。視像高層特征有時也稱為概念,是指諸如"行人"、"海灘"、"踢足球"及"十字路口" 等語義內(nèi)容。視像高層特征抽取就是要計算機自動的發(fā)掘視像中這些語義內(nèi)容。作為基于內(nèi) 容視像檢索的一部分,視像高層特征抽取的任務(wù)是在視像結(jié)構(gòu)分析基礎(chǔ)上,進行語義分析。 它不僅有著單獨存在的意義,而且它還為最終的視像搜索提供更接近語義的特征,協(xié)助完成 搜索任務(wù)。
發(fā)明的內(nèi)容
為了有效的進行視頻高層語義檢索,填補人類思維的高層語義與圖像處理中底層特征之間的鴻溝,本發(fā)明提出了一個基于顏色、邊緣、紋理、特征點等多種底層特征和支持向量機 (SVM)的視頻高層特征檢索系統(tǒng)。我們的系統(tǒng)包括四個模塊,分別為鏡頭分割與關(guān)鍵幀抽 取、底層特征提取、支持向量機分類、子系統(tǒng)融合,在每個模塊中我們都提出了一些有效的 方法來提高最終系統(tǒng)的性能。
本發(fā)明首先對視頻片段進行鏡頭邊界檢測,然后等間隔抽取鏡頭中有代表性的幾幀作為 關(guān)鍵幀。對于抽取出的關(guān)鍵幀,我們提取了基于顏色、邊緣、紋理、以及特征點的多種魯棒 性底層特征。多類底層特征的采用為視頻的高層語義特征提供了多方面的描述,由于它們具 有很強的互補性,對于不同的語義概念能夠分別顯示出很強的區(qū)分力,這就使得系統(tǒng)對于各 中不同概念的檢測性能都能得到有效的保證。然后所提取特征被分別送到支持向量機(SVM) 中進行分類,形成多支子系統(tǒng)。
在概念分類階段我們選擇了支持向量機(SVM)作為分類器,并且首次使用了基于稠密 最近鄰(Condensed Nearest Neighbor)的方法選取訓(xùn)練參數(shù),有效解決了訓(xùn)練過程中普遍存 在的正負(fù)樣本不均衡問題。為了充分利用多個子系統(tǒng)提供的描述信息,對于多支系統(tǒng)的分類 得分,我們采用了兩級融合策略,并引入了邏輯回歸(Logistic Regression)的方法來學(xué)習(xí)到 最佳的融合策略,使得融合系統(tǒng)的準(zhǔn)確率與召回率大大提高。


圖l為本發(fā)明的系統(tǒng)總體框圖 圖2為關(guān)鍵幀抽取與低層特征提取流程圖 圖3為支持向量機訓(xùn)練及分類流程圖 圖4為系統(tǒng)融合流程圖
具體實施例方式
下面結(jié)合附圖具體對本發(fā)明作進一步的詳細描述。如圖l所示,本發(fā)明方案分以下步驟-
(1) 、自動鏡頭分割及關(guān)鍵幀抽??;
(2) 、對于關(guān)鍵幀的多種特征提??;
(3) 、基于支持向量機的概念分類;
(4) 、基于邏輯回歸的系統(tǒng)融合。 下面是對各步驟的詳細說明
1、鏡頭邊界自動分割及關(guān)鍵幀抽取
概念檢測的單^£是鏡頭(shot),鏡頭是影片制作過程中的一個連續(xù)的不間斷的拍攝過程,對應(yīng)于我們的數(shù)據(jù)就是一段存在于整段視頻中的一般為數(shù)秒長的視頻片斷。鏡頭分割就是從 一段連續(xù)視頻當(dāng)中找出每次鏡頭切換的具體位置,把整段的視頻按照鏡頭為單元分割成片段。 為了對鏡頭進行準(zhǔn)確和快速的分割,根據(jù)場景突變作為鏡頭切換的判斷依據(jù)。
本系統(tǒng)采用兩個傳統(tǒng)的幀間差來衡量前后幀之間的場景差異。 一個是顏色直方圖差 (HDM), 一個是空間差(SDM)。
定義第t幀/,和第t+l幀,+1圖片中,/,(/, J)和/,+力',J)表示是坐標(biāo)為/)的像素點的強度; A("和Z/w(A:)表示L階顏色直方圖的第k階。幀的分辨率為MXN,于是 顏色直方圖差(HDM)可以寫成
空間差(SDM)可以寫成
對視頻的每一幀,求出它的上述兩種距離,當(dāng)一幀的兩個距離值的和大于事先設(shè)定的閾 值時,認(rèn)為這是一個場景的突變,也就是鏡頭的切換點。最后在一段視頻段中,按時間順序 等間隔抽取幾幀作為該視頻片段的關(guān)鍵幀。由于一個鏡頭可以有多個關(guān)鍵幀,因此一個關(guān)鍵 問題是如何將返回的關(guān)鍵幀列表映射回相應(yīng)的鏡頭列表,這樣的映射可以有很多,我們使用 的映射可描述為用鏡頭中置信度最高的關(guān)鍵幀的置信度作為該鏡頭的置信度。
2、對于關(guān)鍵幀的多種特征提取
圖像特征的提取與表達是基于內(nèi)容的視頻檢索技術(shù)的基礎(chǔ)。在我們的系統(tǒng)中,我們釆用
了基于顏色、邊緣、紋理、特征點等多種特征,簡要介紹如下 1)顏色特征
顏色特征是在視頻檢索中應(yīng)用最為廣泛的視覺特征,主要原因在于顏色往往和圖像中所 包含的物體或場景十分相關(guān)。此外,與其他的視覺特征相比,顏色特征對圖像本身的尺寸、
方向、視角的依賴性較小,從而具有較高的魯棒性。我們主要采用了顏色自相關(guān)圖(ColorAuto Correlogram)、顏色一致向量(Color Coherence Vector)和網(wǎng)格顏色矩(Grid Color Moment)。
其中,顏色自相關(guān)圖(CAC)對RGB顏色空間量化為64維之后,沿著D-(l, 3, 5, 7} 四個尺度計算的自相關(guān)直方圖,共256維;顏色一致向量(CCV)針對HSV36作的顏色一致 向量,72維,采用5jj、塊方式,整幅圖像共得到360維;,顏色矩(GCM)取一階矩、二階矩和三階矩,需要9個分量(3個顏色分量,每個分量上3個低階矩),采用4X3分塊方式, 共108維。
2) 邊緣特征
邊緣特征反映了物體形狀的輪廓,是圖像目標(biāo)檢測中一個重要特征是。本發(fā)明中,我們 采用了邊緣直方圖(Edge Histogram)和邊緣一致向量(Edge Coherence Vector)。
邊緣直方圖(EDH))統(tǒng)計落在每5度空間中的邊緣的個數(shù),生成的直方圖,72維,采 用5分塊,共360維;邊緣一致向量(ECV)每分塊得到64維向量,采用5分±央,共320維。
3) 紋理特征
紋理特征是一種不依賴于顏色或亮度的反映圖像中同質(zhì)現(xiàn)象的視覺特征。它是所有物體 表面共有的內(nèi)在特性,例如云彩、樹木、磚、織物等都有各自的紋理特征。本發(fā)明中,我們 采用了 Gabor紋理特征和LBP紋理特征。
Gabor濾波器能夠最大程度地減少空間和頻率的不確定性,同時還能夠檢測出圖像中不 同方向和角度上的邊緣和線條。在我們的實現(xiàn)中,我們選取了 6個方向和4個尺度的濾波器, 并取原始圖片針對每個濾波器的響應(yīng)圖片的均值與方差作為描述子,采用5分塊方式,最終 每幅圖片得到240維向量。
LBP算法的思路是假定某一像素為中心,以該中心點的灰度值為閾值與相鄰一定半徑上 等間隔的像素灰度值進行比較,得到一組二進制數(shù)作為中心點的二值模式(binary pattern), 并計算得到一個LBP值,不采取分塊的方式,每幅圖片得到一個256維的特征向量。
4) 尺度不變特征變換(Scale Invariant Feature Transform)
SIFT算法是一種提取局部特征的算法,在尺度空間尋找極值點,提取位置,尺度,旋轉(zhuǎn) 不變量。它獨特性好,信息量豐富,適用于在海量特征數(shù)據(jù)庫中進行快速、準(zhǔn)確的匹配、且 具有多量性,即使少數(shù)的幾個物體也可以產(chǎn)生大量SIFT特征向量。本發(fā)明中首先提取圖像中 的SIFT描述子,分別采用稀疏和稠密兩種方式,稀疏方式即直接在圖像中用SIFT算法尋找 特征點,為了在特征點比較稀疏的圖像上得到更好的效果,本發(fā)明同時采用了稠密方式,即 在整幅圖像中打網(wǎng)格,然后在每個網(wǎng)格中都得到一定數(shù)量的特征點,這樣就大大增加了特征 點的數(shù)目,增強了特征的魯棒性。然后,對于提取出的SIFT描述子,利用詞袋模型(Bag of Words)進行無監(jiān)督聚類,將其映射到一個512維的視覺詞匯空間中去。
對于分塊方式,我們使用了兩層金字塔,即1X1與2X2,這樣就得到512X (l+4)=2560
維的特征向量,對于兩種描述子分別記為 SIFT-VW-PYRAMID 與
DENSE-SIFT-VW-PY^X^ID。此外,對于稠密的SIFT,薪們又采用了先取三層金字塔,然
6后用潛在語義分析(LSA)降維的方式,得到200維的特征向量,記為DENSE-SIFT-VW-LSA。 這樣,本發(fā)明共使用了3中SIFT描述子特征。
3、基于支持向量機(SVM)的概念分類
基于統(tǒng)計學(xué)習(xí)的分類方法可以有效地提高分類的準(zhǔn)確性。支持向量機SVM是建立在 VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,具有小樣本學(xué)習(xí)和局部最優(yōu)解特性的分類算法。
SVM是一個二類的分類器,它的核心由一個內(nèi)核方程i^,,,)構(gòu)成,SVM的表達式如下所示

其中,t為理想的輸出,對于類別0和類別1分別是1或-1, 2^=1"^=0,且^>0。向
量《為支持向量,它在訓(xùn)練階段通過最優(yōu)化原則獲得,L為支持向量的個數(shù)。je為輸入的特
征向量,根據(jù)/(x)的返回值是否大于預(yù)設(shè)門限而做出分類決策。
在視頻高層特征分類過程中,我們首先收集某個語義概念的相關(guān)數(shù)據(jù)進行SVM訓(xùn)練, 得到針對特定概念的SVM分類器。比如利用概念"天空"的SVM分類器,我們對所要檢索
視頻的每個鏡頭進行打分,這樣即可得到每個鏡頭與"天空"這個概念的相關(guān)度。根據(jù)相關(guān) 度排序,我們即可返回相關(guān)度最高的鏡頭編號作為"天空"這個概念的檢索結(jié)果。
但是,在對語義概念做SVM訓(xùn)練時,通??梢垣@得的正樣本數(shù)量要比負(fù)樣本數(shù)量少的 多,這樣,不同類別樣本數(shù)目的巨大差異會使SVM的分類錯誤總是偏向樣本數(shù)較少的類別, 從而影響了分類準(zhǔn)確率,進而使視頻檢索系統(tǒng)的性能大大降低。為了,解決這個問題,我們 考察SVM的優(yōu)化公式
I 2
z{#1} {#—1}
其中,s:0,巧s0,滿足條件Osa,. sC+,zy x. =+1且0^% sC—,^ x. =-1。
懲罰常數(shù)C表示了實驗誤差g與SVM邊緣區(qū)域之間的平衡。正常情況下,正負(fù)樣本被等同
對待,即(T =c_,為了減小正樣本的分類誤差,我們加大對正樣本誤差的懲罰因子,即c+,
使得原本偏向正樣本的分類面得以糾正,從而提高分類準(zhǔn)確率。
加重正樣本懲罰之后的C+與C—之比,我們通過一種叫做濃縮集合最近鄰(CondensedNearest Neighbor Rule)的方法得到,算法具體描述如下
首先,隨機取一個負(fù)樣本與所有的正樣本形成一個初始的集合E。然后,每一次從剩下 的負(fù)樣本集合抽取一個負(fù)樣本S,然后以E為最近鄰分類器的模型進行分類,如果S被錯判 為正樣本,則將S加入E,反之則拋棄S。如此循環(huán)往復(fù),最終形成一個擴大的集合E。統(tǒng)計 E中負(fù)樣本與正樣本之比,我們稱之為CNN比例,記為P。
以上得到的P能夠更好的反映訓(xùn)練集合不均衡的程度,在SVM訓(xùn)練時,我們將C—設(shè)為
1, C+設(shè)為P,從而有效的抑制了分類面的偏移,提高了檢索系統(tǒng)的性能。
4、基于邏輯回歸的系統(tǒng)融合
根據(jù)以上的介紹,我們共實現(xiàn)了 10支子系統(tǒng)(CAC, CCV, GCM, EDH, ECV, GABOR, LBP, SIFT-VW-PYRAMID, DENSE-SIFT-VW-PYRAMID, DENSE-SIFT-VW-LSA),我們稱之為第一 層,其中每支子系統(tǒng)均可根據(jù)SVM分類器對于視頻的每個鏡頭得到的相關(guān)度返回檢索結(jié)果。 但是由于這些低層特征只能反映視頻鏡頭在圖像處理某一個方面的特性,所以返回的檢索結(jié) 果與人類的認(rèn)識上還有很大的差距。然后根據(jù)特征的類型,可以分為顏色、邊緣、紋理、特 征點四大類,我們稱之為第二層。最后,將四類特征融合為一套系統(tǒng),我們稱之為第三層。 第二層系統(tǒng)相對于第一層結(jié)合了更多的特征表達形式,魯棒性更強,但仍然側(cè)重表現(xiàn)圖像處 理上的某總特性;而第三層結(jié)合了各種信息,通過把這些低層特征系統(tǒng)融合成一個更魯棒的 系統(tǒng),我們可以在一定程度上彌合機器語義與人類語義之間的鴻溝。具體算法如下
首先,從第一層系統(tǒng)融合成第二層系統(tǒng)時,我們采用簡單的將對應(yīng)鏡頭打分取平均的方 式得到新的系統(tǒng)打分,得到相對魯棒的概念似然度。
為了更好的體現(xiàn)不同類型的特征對某一特定概念的貢獻度,在第二層系統(tǒng)融合成第三層 系統(tǒng)時,我們采用邏輯回歸(LogisticRegression)的方式在開發(fā)集上訓(xùn)練得到一組融合系數(shù), 然后依照這組系數(shù)融合得到最終的系統(tǒng)得分。相比于直接取平均的方式,邏輯回歸的方式在 訓(xùn)練集上學(xué)習(xí)到了不同類型特征對不同概念的貢獻度,按照這種方式融合得到的最終系統(tǒng)準(zhǔn) 確率和召回率都將更高。
本發(fā)明提出了一種實現(xiàn)視頻高層特征檢索的系統(tǒng)流程,以及其中的相關(guān)技術(shù)細節(jié)。對于 本領(lǐng)域的技術(shù)人員來說,很明顯,本發(fā)明可以做出各種改進和擴展,因此,只要他們落入所 附權(quán)力要求書及其等同范圍內(nèi),本發(fā)明就涵蓋這些改進及擴展。
權(quán)利要求
1.一個基于視頻高層特征檢索系統(tǒng)的實現(xiàn)方法,其特征在于包括以下步驟第一步,對體育視頻進行鏡頭切割,關(guān)鍵幀提取;第二步,對于關(guān)鍵幀的顏色、邊緣、紋理和特征點等多種低層圖像特征的提??;第三步,對低層特征采用SVM分類器進行打分;第四步,融合各種低層特征得到的多個子系統(tǒng),形成最終系統(tǒng)。
2. 如權(quán)利要求1所述方法,其特征在于選取了顏色、邊緣、紋理和特征點等多種圖像低層特 征的組合來彌合低層特征與高層語義特征之間的差別;
3. 如權(quán)利要求l,其特征在于處理SVM訓(xùn)練遇到的數(shù)據(jù)不均衡問題時,采取了修正正負(fù)樣本 不同的懲罰系數(shù)來調(diào)整分類面的方式;
4. 如權(quán)利要求3,其特征在于選擇正負(fù)樣本懲罰因子比例的時候采用了濃縮集合最近鄰準(zhǔn)則 來構(gòu)造一個更緊致的訓(xùn)練集合,并計算得到相應(yīng)的懲罰系數(shù)比例;
5. 如權(quán)利要求l,其特征在于使用多個SVM分類器得分融合的方式來獲得更魯棒的高層語義 分類器輸出,彌合低層特征與高層語義之間的差距;
6. 如權(quán)利要求l所述方法,其特征在于進行系統(tǒng)融合時,采用了兩級融合的方式,第一級在 各大類特征內(nèi)部進行得分平均的方式實現(xiàn);第二級使用多類魯棒特征利用邏輯回歸得到一組 融合系數(shù),利用這組系數(shù)多多個SVM分類器打分加權(quán)平均得到最終檢索系統(tǒng)。
全文摘要
本發(fā)明提出了一個基于顏色、邊緣、紋理、特征點等多種底層特征和支持向量機(SVM)的視頻高層特征檢索系統(tǒng)。首先對視頻片段進行鏡頭邊界檢測,然后等間隔抽取鏡頭中有代表性的幾幀作為關(guān)鍵幀。對于抽取出的關(guān)鍵幀,我們提取了基于顏色、邊緣、紋理、以及特征點的多種魯棒性底層特征。多類底層特征的采用為視頻的高層語義特征提供了多方面的描述,由于它們具有很強的互補性,對于不同的語義概念能夠分別顯示出很強的區(qū)分力,這就使得系統(tǒng)對于各中不同概念的檢測性能都能得到有效的保證。然后所提取特征被分別送到支持向量機(SVM)中進行分類,形成多支子系統(tǒng)。在概念分類階段我們選擇了支持向量機(SVM)作為分類器,并且首次使用了基于稠密最近鄰(Condensed Nearest Neighbor)的方法選取訓(xùn)練參數(shù),有效解決了訓(xùn)練過程中普遍存在的正負(fù)樣本不均衡問題。為了充分利用多個子系統(tǒng)提供的描述信息,對于多支系統(tǒng)的分類得分,我們采用了兩級融合策略,并引入了邏輯回歸(Logistic Regression)的方法來學(xué)習(xí)到最佳的融合策略,使得融合系統(tǒng)的準(zhǔn)確率與召回率大大提高。
文檔編號G06F17/30GK101650728SQ20091009151
公開日2010年2月17日 申請日期2009年8月26日 優(yōu)先權(quán)日2009年8月26日
發(fā)明者劉繼晴, 遠 董 申請人:北京郵電大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1