專利名稱:一種基于內(nèi)容的視頻分類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機(jī)視頻處理技術(shù)領(lǐng)域,具體涉及一種高效的視頻分類方法。
背景技術(shù):
隨著網(wǎng)絡(luò)多媒體技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)傳輸速度的不斷提高和壓縮技術(shù)的不斷進(jìn) 步,各種多媒體信息不斷涌現(xiàn),數(shù)字圖書館、遠(yuǎn)程教育、視頻點播、數(shù)字視頻廣播、交互式電 視等都產(chǎn)生和使用了大量的多媒體數(shù)據(jù)。即使我們足不出戶,我們接觸到的多媒體信息也 在海量地增長。為了幫助用戶有效地檢索相關(guān)信息和迅速獲取感興趣的多媒體信息來提供 更優(yōu)的娛樂享受,就需要一些工具幫助使用者提取相應(yīng)的內(nèi)容并且對這些大量的多媒體信 息進(jìn)行有效的操作,于是基于內(nèi)容的視頻分類系統(tǒng)應(yīng)運(yùn)而生,自動多媒體處理分析技術(shù)成 為熱門的研究課題。視頻作為一種常見的媒體形式,包含了最豐富的數(shù)據(jù),也與我們的日常 生活尤為密切。因此如何對視頻信息進(jìn)行分類整理引起了人們極大的研究興趣。視頻分類 也成為多媒體分析領(lǐng)域中一個重要的研究課題。視頻分類是許多視頻應(yīng)用的基礎(chǔ),它為日 益增加的視頻數(shù)據(jù)的管理提供了方便?;趦?nèi)容的視頻檢索,視頻摘要總結(jié),視頻索引和標(biāo) 記等技術(shù)都在推動著視頻分類技術(shù)的發(fā)展。視頻信息的數(shù)據(jù)量很大,又是一種非結(jié)構(gòu)的數(shù)據(jù),傳統(tǒng)的基于文本的信息查詢技 術(shù)已不能滿足用戶的需要。雖然目前的數(shù)字視頻可以在產(chǎn)生階段以各形式被貼上標(biāo)簽,但 是仍然需要視頻分類技術(shù)的存在。其原因是首先,很多之前已存在的視頻還沒有被標(biāo)注, 所以為視頻分類帶來了很大的困難。雖然手動的標(biāo)注可以解決這個問題,但是這是一個非 常耗時并且昂貴的任務(wù),而且在不久的將來會很難滿足快速增長的視頻數(shù)量。另外一點, 也是最重要的一點就是雖然目前視頻水印等技術(shù)在逐漸的發(fā)展,視頻可以在產(chǎn)生階段加入 水印或者是標(biāo)簽,但是在視頻中加入水印或者是標(biāo)簽之后,其抗攻擊能力是有限的,當(dāng)進(jìn)行 某些人為操作或者是發(fā)生某些意外錯誤的時候,這些信息都是有可能丟失的。而基于內(nèi)容 的方法則可以避免這些問題,因為它是基于實際材料本身的,只要視頻的內(nèi)容不發(fā)生變化, 視頻的分類檢測結(jié)果也不會發(fā)生變化。所以人們?nèi)匀恍枰诸惣夹g(shù)來對視頻進(jìn)行管理和操 作。視頻分類技術(shù)除了能夠?qū)A康囊曨l數(shù)據(jù)進(jìn)行分類整理以減少人們的工作量之外,在 日常生活中也發(fā)揮著很大的作用,它可以為人們提供更好的娛樂享受。綜上所述,視頻分類 技術(shù)的發(fā)展在各個領(lǐng)域都有其重要意義?;趦?nèi)容的視頻分類技術(shù)對于視頻的理解、訪問、檢索等操作來說是一個非常必 要的工具。視頻分類是一個廣泛的研究領(lǐng)域,從概念上來分,可以分為類型分類,事件分類 和對象分類三種。而從解決方法上來說,總體上可以被分為兩類(1)基于規(guī)則的方法基于規(guī)則的方法需要使用到領(lǐng)域知識來檢測視頻片斷的語義概念,這種方法廣泛 應(yīng)用于一些專門的領(lǐng)域,例如新聞的分類或者是電影的分類?;谝?guī)則的方法的優(yōu)點是當(dāng) 對分類的種類有所更改時,對于已有的規(guī)則進(jìn)行插入、刪除和修改是非常容易的。但是其缺 點是在不同的視頻模型中隱含的規(guī)則會被忽略。另外,建立一個完整的基于域的視頻標(biāo)注
5規(guī)則集需要人們花很多的時間去調(diào)整其中的規(guī)則。(2)統(tǒng)計的方法所謂統(tǒng)計的方法就是通過使用統(tǒng)計模型和分類器對已標(biāo)注的視頻進(jìn)行學(xué)習(xí),然后 再進(jìn)行視頻的分類。這種方法對于明顯的和隱含的視頻特征規(guī)則都可以進(jìn)行挖掘。對于統(tǒng) 計的方法來說主要的困難就是大量的訓(xùn)練樣本需要人工的標(biāo)注。因為我們的領(lǐng)域知識和 我們可用來訓(xùn)練的樣本資源是有限的,對大量的視頻進(jìn)行人工標(biāo)注是一個很費(fèi)時費(fèi)力的工 作。由于這個代價問題,所以在統(tǒng)計的方法中如何針對小的樣本集設(shè)計一個有效的分類器 是一個非常值得研究的問題。關(guān)于類型的分類起始于1995年[1],是由Fischer首先提出的。他將廣播視頻 分為新聞,廣告,卡通等類型。在這篇文章中他們提出了三步法的研究方法首先提取基礎(chǔ) 的聲音和視覺統(tǒng)計特征,包括視頻片斷中的場景顏色統(tǒng)計信息、運(yùn)動、內(nèi)容模式和聲音等屬 性;第二步利用這些已有的低級特征去推導(dǎo)高級類型屬性,例如場景長度,攝相機(jī)和對象運(yùn) 動強(qiáng)度以及語言、音樂和噪聲等等;最后這些屬性被用來去決定視頻類型。隨后基于類型的 視頻分類發(fā)展起來,很多研究者從視頻特征,分類器等各個方面對算法進(jìn)行了改進(jìn)和創(chuàng)新。Truong[2]等人通過對編輯效果、運(yùn)動和顏色的研究提出了一套可計算視頻特征, 另外他們使用了決策樹算法來進(jìn)行視頻類型的檢驗。Chen [3]等人提出了基于知識的視頻內(nèi)容分類方法,在檢查了五個視頻類別中的 許多視頻后,形成了知識庫中的分類規(guī)則。ff. Zhou[4]等人提出了有監(jiān)督的基于規(guī)則的視頻分類系統(tǒng),使用自動視頻分割、注 釋和摘要技術(shù)進(jìn)行無縫的信息瀏覽和更新。李睿[5]提出了首先進(jìn)行視頻分割,形成了一個視頻屬性數(shù)據(jù)庫;然后使用粗糙 集的屬性約簡方法對視頻屬性數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘,提取出分類規(guī)則集,實現(xiàn)對視頻數(shù)據(jù) 庫的分類。其次每一段視頻都會包含很多的事件,關(guān)于事件分類檢測方面的研究也層出不 窮。例如新聞視頻場景的檢測,在文獻(xiàn)[6]中,新聞視頻被分為主持人鏡頭,內(nèi)容提要,旁白 等場景事件;在文獻(xiàn)[7]中,事件的檢測是針對于動物世界節(jié)目的;體育視頻的事件分類也 同樣引起了人們的重視,例如排球比賽中的場景分類[8],足球視頻中邊界球,射門等事件 的檢測[9]等等。對于視頻特征的表達(dá)方式問題,前人做了大量的研究。例如文獻(xiàn)[10]中,作者使 用了視頻的長度,鏡頭長度,切變率等簡單特征來對視頻進(jìn)行描述,對于非完整視頻來說, 很多特征將會變得無效。還有一些方法使用了視頻的顏色、紋理、形狀、運(yùn)動、聲音等各種特 征來對視頻進(jìn)行描述。雖然這種描述已經(jīng)足以表達(dá)視頻的各方面特性,但是在視頻特征提 取中,并非使用的特征種類或維數(shù)越多越好,當(dāng)特征數(shù)超過一定的限度的時候,反而會出現(xiàn) 副作用。對于視頻分類問題的研究,另外一個很重要的問題就是分類器的選擇。近年來,機(jī) 器學(xué)習(xí)方法被成功的用于多媒體分類研究中。例如一些系統(tǒng)使用了基于HMM算法,例如文 獻(xiàn)[11];在文獻(xiàn)[12]中,使用了基于熵的感應(yīng)樹學(xué)習(xí)器算法;神經(jīng)網(wǎng)絡(luò)也是一個很好的分 類器,徑向基神經(jīng)網(wǎng)絡(luò),前饋神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)等分類器經(jīng)常會被采用[13];另外還 有SVM分類器的應(yīng)用也非常廣泛[14]。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種高效的基于內(nèi)容的視頻分類方法。本發(fā)明分析了卡通、商業(yè)廣告、電影、新聞和體育比賽這五類視頻的特征并構(gòu)建了 一個專家系統(tǒng)來提高分類效率,本發(fā)明稱對某類視頻分類效果極好的特征為專家特征,通 過2個專家特征的交叉驗證來確定視頻類型的歸屬。相比較與其他分類方法多種特征明顯 提高了效果,簡約了特征。本發(fā)明提出的視頻分類方法,是根據(jù)各類視頻各自的特點將時間特征和顏色特征 融合并,通過運(yùn)用專家系統(tǒng)以提高分類的準(zhǔn)確率,具體步驟如下一、數(shù)據(jù)準(zhǔn)備實驗一共要測試五類數(shù)據(jù),分另Ij為cartoon、commercial、sports、news禾口 movies (卡通、商業(yè)廣告、體育、新聞和電影)。首先收集MPG格式的視頻作為原始數(shù)據(jù)。實 驗是在關(guān)鍵幀上進(jìn)行的,需對各類視頻進(jìn)行鏡頭分割并提取關(guān)鍵幀。由于鏡頭之間有突變 或漸變的切換(這里把漸變鏡頭的漸變結(jié)束點作為鏡頭邊界),而鏡頭的第一幀很好地反 映了這個信息,所以本發(fā)明把每個鏡頭的第一幀作為關(guān)鍵幀提取。在創(chuàng)建樣本時,一共五類視頻,每類視頻創(chuàng)建20個樣本,每100個關(guān)鍵幀作為一個 樣本。但是由于commercial的長度較短,即本身鏡頭就很少,所以沒必要用100個關(guān)鍵幀 來作為一個樣本,基本上接近或超過20幀的一個commercial就可以作為一個樣本,這已經(jīng) 足夠反映商業(yè)廣告的信息量。這樣一共有20X5 = 100個樣本,并且每個樣本中的關(guān)鍵幀 只屬于某一段視頻。對于每類20個樣本,規(guī)定前10個用來做svm訓(xùn)練,后10個用來做svm 測試。二、特征提取實驗以視頻底層特征中的顏色特征為基礎(chǔ),視頻分類均建立在RGB顏色空間之 上,通過構(gòu)建RGB(10 10 10)顏色直方圖來進(jìn)行視頻分類。提取的特征一共有7種,分 別為顏色梯度、直方圖均值、直方圖標(biāo)準(zhǔn)差、直方圖之間差的均值、分塊直方圖、分塊直方圖 標(biāo)準(zhǔn)差以及分塊直方圖之間差的均值,這里所列的分塊直方圖均是將原圖片進(jìn)行4X4分 割,即一共分成16小塊。在進(jìn)行特征提取之前首先要構(gòu)建顏色直方圖,由于R G B均被分成10等分,例如 對于R,其值在0-255之間,先把它10等分,即每份中可以包含區(qū)間為25. 6的顏色值,每份 所表示的是屬于某個區(qū)間的顏色值的像素數(shù)目,這樣我們就需要10+10+10 = 30個變量來 存儲這30個數(shù)值。所以我們需要一個數(shù)組His [30]來存放一個關(guān)鍵幀的RGB信息。His [30] 的值可以通過讀取一幅圖片,并進(jìn)行像素數(shù)目統(tǒng)計得到。三、樣本訓(xùn)練和測試分別對提取的7個特征做了訓(xùn)練和測試。用的是RBF核函數(shù)的SVM分類器,首先 要做的是將得到的數(shù)據(jù)轉(zhuǎn)換成svm格式的數(shù)據(jù),即<labelXindexl>:<valuelXindex2>:< value2>. · ·的形式,其中〈label〉是分類號,〈index〉是序號,只能是整數(shù),〈value〉是屬性 特征值。以直方圖標(biāo)均值為例,一個樣本一共有30個特征(RGB = 10+10+10) 從 Hisjnean
到 Hisjnean[29],數(shù)據(jù)轉(zhuǎn)換后為 <labelXindexl> <his_mean
Xindex2> <his_mean[1] >.....<index30> <his_mean[29] >。把所有 100 個樣本
的直方圖均值都轉(zhuǎn)換成這種數(shù)據(jù)格式,然后對前50個樣本做訓(xùn)練,拿訓(xùn)練后得到的模型再 對后50個樣本做測試。對于分塊直方圖均值也是一樣,只是每個樣本的特征數(shù)變?yōu)?80個,數(shù)據(jù)格式變 為<label><indexl> <B 1 ock_Hi s_mean
Xindex2> : <Block_His_ mean[1]>. . . <index480>:<BlOCk_His_mean[479]>其他特征如直方圖之間標(biāo)準(zhǔn)差的數(shù)據(jù)轉(zhuǎn)換也是一樣的,
不再重復(fù)。由于現(xiàn)commercial為了在很有限的時間內(nèi)反映足夠的信息,每個鏡頭的時間長 度是受到限制的,相對于其它視頻來說它每個鏡頭的平均時間就會比較短。本發(fā)明通過這 個特征先做兩類分類器把commercial先從視頻中分出來,然后再對其它視頻運(yùn)用以上7個 特征進(jìn)行分類,這樣有助于提高視頻分類的準(zhǔn)確率。但是這樣的得到的分類效果還不夠理 想,只有88%多些,因此本發(fā)明提取每類視頻的2種專家特征,通過他們的交叉驗證來確定 視頻分類歸屬,從而進(jìn)一步提高分類準(zhǔn)確率。由于每類視頻只選用了 2種最優(yōu)特征,與方法 同時運(yùn)用幾種特征相比,大大地提高了分類效率。
圖1為各類視頻的專家特征交集運(yùn)算圖示。圖2為專家系統(tǒng)合作遵循規(guī)則圖示。圖3為系統(tǒng)流程圖示。圖4為廣告類和非廣告類時間特征上的差異。
具體實施例方式下面具體介紹實驗的特征提取算法和專家系統(tǒng)的構(gòu)建1,視頻特征提取算法(1)顏色梯度(Gradient)G(i) = max ( | r (i) ~r ' (i)neighbor| ) +max ( | g(i) -g ' (i) neighb。r|)+max(|b ⑴-b' (i)neighbor|) (neighbor = 1,2,…,8),分別計算每個像素點與其相 鄰8個像素點的最大值;r,g,b分別表示紅,綠,藍(lán)顏色,(2)直方圖均值(MH) n表示一個樣本中關(guān)鍵幀的數(shù)目,j表示樣本中第j個關(guān)鍵幀,His [ih表示第j個 關(guān)鍵幀中His [i]的值,即屬于R+G+B = 30位中第i位的像素數(shù)目。His_mean[i]表示一個 樣本的直方圖均值中第i位的值。(3)直方圖標(biāo)準(zhǔn)差(SDH)
(4)直方圖之間差的均值(MDH) 分塊直方圖(4X4)相當(dāng)于把原圖片均分成了 16塊,然后再在每塊上作直方圖,雖 然這樣需要30X16 = 480個變量來存儲像素數(shù)目信息,但是也增加了圖片顏色的地址信 息,給分類帶來了幫助,我們用一個數(shù)組Block_HiS[480]來存儲分塊直方圖信息。(5)分塊直方圖均值(BMH) n表示一個樣本中關(guān)鍵幀的數(shù)目,j表示樣本中第j個關(guān)鍵幀,Block-HistiL表 示第j個關(guān)鍵幀中Block_His[i]的值,即屬于(R+G+B) X16 = 30X16 = 480位中第i位 的像素數(shù)目。Bl0Ck_His_mean[i]表示一個樣本的分塊直方圖均值中第i位的值。(6)分塊直方圖標(biāo)準(zhǔn)差(BSDH)
n(i=l, 2, 3,
480)
(7)分塊直方圖之間差的均值(BMDH) 2,專家特征選取各類視頻的專家特征通過實驗測試得到,將某類視頻分類準(zhǔn)確率最高的兩種特征 選為專家特征,各類視頻的專家特征交集運(yùn)算如下(圖1)Cartoons = BSDH n BMDHMovies = BSDH n MDHNews = MH n BMDHSports = MH n MDH3,專家系統(tǒng)構(gòu)建我們發(fā)現(xiàn)廣告為了在有限的時間內(nèi)表達(dá)足夠的信息,每個鏡頭的時間長度將受到限制,相對于其它視頻其鏡頭平均時間較短。我們可以通過時間特征進(jìn)行廣告和非廣告分 類,然后再對非廣告類運(yùn)用顏色空間特征進(jìn)行4類分類,最后為了提高分類的準(zhǔn)確率,選出 各類視頻的專家特征并利用專家系統(tǒng)使他們相互合作,合作遵循如下規(guī)則(圖2)1)每個視頻都有一個初始狀態(tài)0,對應(yīng)一個狀態(tài)改變0-n,n表示狀態(tài)發(fā)生變化的 次數(shù)。2) 一個特征,如能辨別出某類視頻,那么對于這類視頻的此特征,值為1,否則為 0o3)在上述顏色和時間特征結(jié)合的分類結(jié)果上,非廣告類視頻的專家特征再做交集 運(yùn)算,所得結(jié)果若為1,則此視頻狀態(tài)加1,若為0,則不改變狀態(tài)。4)有3種結(jié)果0-0表示狀態(tài)未發(fā)生改變,某個視頻沒有對應(yīng)的分類;0-1表示狀 態(tài)發(fā)生一次改變,某個視頻唯一對應(yīng)某類視頻;0_N(N> 1)表示狀態(tài)發(fā)生N次改變,某個視 頻對應(yīng)多類視頻。5)對于0-N,我們服從投票原則,在7種顏色特征中,只要被定義為某類視頻的特 征數(shù)超過半數(shù),我們就定義其屬于此類視頻。6)系統(tǒng)流程(圖3)首先根據(jù)時間特征用SVM分類器對視頻數(shù)據(jù)進(jìn)行,分類商業(yè)廣告類和非廣告類, 這里的時間特征為視頻的平均鏡頭長度JhotLenAvg = V/Sn V為視頻長度,Sn為鏡頭數(shù) 目),通過附圖4可以明顯發(fā)現(xiàn)廣告類和非廣告類的時間特征上的差異,然后運(yùn)用專家系統(tǒng) 對非廣告類視頻進(jìn)行4類分類,分出卡通、電影、新聞和體育比賽類。在分類中應(yīng)用專家系 統(tǒng)通過專家特征的交叉驗證決出各類視頻歸屬。引用資料[l]Fischer S, Lienhart R, Effelsberg ff. Automatic recognition of film genres.The 3rd ACMInternational Multimedia Conference and Exhibition. 1995,1 295-304.[2]Truong B T, Venkatesh S, Dorai C. Automatic genre identification for content-based videocategorization. International Conference Pattern Recognition. 2000,9. Vol. 4 :230_233.[3] Chen Y, Wong E K. A knowledge based approach to video contentclassification. Proceedings of SPIE. 2001,1. Vol. 4315 :292_300.[4]Zhou ffensheng, Dao Son, Jay Kuo C~C. On-line knowledge and rule-based videoclassification system for video indexing and dissemination. Information System. 2002,12. Vol. 27(8) :559_586.[5]李睿,王彤,李明 微計算機(jī)信息 2006,Vol. 22 (8-3) 49-51[6]Shearer K, Dorai C, Venkatesh S.Incorporating domain knowledge with video and voicedata analysis in news broadcasts. ACM International Conference on Knowledge Discovery andData Mining. 2000,8 46~53.[7]Haering N C, Qian R J, Sezan M I.A semantic event detection approach and its applicationto detecting hunts in wildlife video. IEEE Transaction on Circuits and Systems for VideoTechnology. 2000,9. Vol. 10(6) :857_868.
10
[8] Chang C W, Lee S Y. A video information system for sport motion analysis. Journal ofVisual Languages and Computing. 1998. Vol. 8 :265-287.[9]Yow D,Yeo B L,Yeung M. Analysis and presentation of soccer highlights from digitalvideo. Proc. Asian Conference on Computer Vision. 1995,2 :499_503.[ 10] Yuan Ye,Song Qin-Bao , Shen Jun-Yi. Automatic video classification using decision treemethod. Machine Learning and Cybernetics 2002Proceedings. 2002,11. Vol. 3 :1153_1157.[11]Huang J,Liu A,et al. Integration of multimodal features for video scene classificationbased on HMM. 1999IEEE 3rd Worshop on Multimedia Signal Processing. 1999,9 :53-58.[12]W. S. Zhou,A. Vellaikal, C. C. Kuo. Video analysis and classification for MPEG-7applicat ions. Consumer Electronics,2000. ICCE.2000 Digest of TechnicalPapers. International Conference. 2000,6 :344-345.[13] Rao R K,Ramakrishnan K R,et. al. Neural net based scene change detection for videoclassification. IEEE Signal Processing Society 1999 Workshop on Multimedia SignalProcessing. 1999,9 :247_252.Chapelle 0,Haffner P,Vapnik V N. Support vector machines for histogram-based imageclassification. IEEE Transactions on Neural Networks. 1999,8. Vol. 10(5) 1055-1064.
權(quán)利要求
一種基于內(nèi)容的視頻分類方法,其特征在于,選用基于底層視頻特征中的顏色作為特征進(jìn)行視頻分類研究,分析卡通、商業(yè)廣告、電影、新聞和體育比賽這五類視頻的特征并進(jìn)行相應(yīng)的特征提取,并根據(jù)各類視頻各自的特點將時間特征和顏色特征融合,通過運(yùn)用專家系統(tǒng)以提高分類的準(zhǔn)確率,具體步驟如下步驟一、數(shù)據(jù)準(zhǔn)備共測試五類數(shù)據(jù),分別為cartoon、commercial、spots、news和movies;首先收集MPG格式的視頻作為原始數(shù)據(jù),實驗在關(guān)鍵幀上進(jìn)行;把每個鏡頭的第一幀作為關(guān)鍵幀提取;五類視頻,每類視頻創(chuàng)建20個樣本,每20個關(guān)鍵幀作為一個樣本,一共有20×5=100個樣本,并且每個樣本中的關(guān)鍵幀只屬于某一段視頻;對于每類20個樣本,規(guī)定前10個樣本用來做svm訓(xùn)練,后10個樣本用來做svm測試;步驟二、特征提取以視頻底層特征中的顏色特征為基礎(chǔ),視頻分類建立在RGB顏色空間之上,通過構(gòu)建RGB(10:10:10)顏色直方圖來進(jìn)行視頻分類;提取的特征一共有7種,分別為顏色梯度、直方圖均值、直方圖標(biāo)準(zhǔn)差、直方圖之間差的均值、分塊直方圖、分塊直方圖標(biāo)準(zhǔn)差以及分塊直方圖之間差的均值,這里所列的分塊直方圖均是將原圖片進(jìn)行4×4分割,即一共分成16小塊;在進(jìn)行特征提取之前首先要構(gòu)建顏色直方圖,由于R G B均被分成10等分,用10+10+10=30個變量來存儲這30個數(shù)值,即用一個數(shù)組His[30]來存放一個關(guān)鍵幀的RGB信息;His[30]的值通過讀取一幅圖片,并進(jìn)行像素數(shù)目統(tǒng)計得到;步驟三、樣本訓(xùn)練和測試分別對提取的7個特征做訓(xùn)練和測試,用的是RBF核函數(shù)的SVM分類器,其步驟為首先將得到的數(shù)據(jù)轉(zhuǎn)換成svm格式的數(shù)據(jù),即<label><index1>:<value1><index2>:<value2>...的形式,其中<label>是分類號,<index>是序號,是整數(shù),<value>是屬性特征值;把所有100個樣本的直方圖均值都轉(zhuǎn)換成這種數(shù)據(jù)格式,然后對前50個樣本做訓(xùn)練,拿訓(xùn)練后得到的模型再對后50個樣本做測試。
2.根據(jù)權(quán)利要求1所述的視頻分類方法,其特征在于,視頻特征提取算法如下(1)顏色梯度G(i) = max(|r(i)-r ‘ (i)neighbor|)+max(| g(i)-g ‘ (i)neighbor |)+max(|b (i)_b ‘ (i) neighbor|) (neighbor = 1,2,…,8),分別計算每個像素點與其相鄰8個像素點的最大值;r, g,b分別表示紅,綠,藍(lán)顏色;(2)直方圖均值 η表示一個樣本中關(guān)鍵幀的數(shù)目,j表示樣本中第j個關(guān)鍵幀,His [i、表示第j個關(guān) 鍵幀中His[i]的值,即屬于R+G+B = 30位中第i位的像素數(shù)目,Hisjiiean[i]表示一個樣 本的直方圖均值中第i位的值;(3)直方圖標(biāo)準(zhǔn)差 (4)直方圖之間差的均值 分塊直方圖(4X4)相當(dāng)于把原圖片均分成了 16塊,然后再在每塊上作直方圖,用一個數(shù)組Block_HiS[480]來存儲分塊直方圖信息;(5)分塊直方圖均值 η表示一個樣本中關(guān)鍵幀的數(shù)目,j表示樣本中第j個關(guān)鍵幀,Block_HiS[iL表示第j個關(guān)鍵幀中Block_His[i]的值,即屬于(R+G+B) X16 = 30X16 = 480位中第i位的像素數(shù)目;Bl0Ck_His_mean[i]表示一個樣本的分塊直方圖均值中第i位的值;(6)分塊直方圖標(biāo)準(zhǔn)差 (7)分塊直方圖之間差的均值
3.根據(jù)權(quán)利要求1所述的視頻分類方法,其特征在于,各類視頻的專家特征通過實驗 測試得到,將某類視頻分類準(zhǔn)確率最高的兩種特征選為專家特征,各類視頻的專家特征交 集運(yùn)算如下
4.根據(jù)權(quán)利要求1所述的視頻分類方法,其特征在于,通過時間特征進(jìn)行廣告和非廣 告分類,然后再對非廣告類運(yùn)用顏色空間特征進(jìn)行4類分類,最后選出各類視頻的專家特 征并利用專家系統(tǒng)使他們相互合作,合作遵循如下規(guī)則1)每個視頻都有一個初始狀態(tài)0,對應(yīng)一個狀態(tài)改變0-η,η表示狀態(tài)發(fā)生變化的次數(shù);2)一個特征,如能辨別出某類視頻,那么對于這類視頻的此特征,值為1,否則為0 ;3)在上述顏色和時間特征結(jié)合的分類結(jié)果上,非廣告類視頻的專家特征再做交集運(yùn) 算,所得結(jié)果若為1,則此視頻狀態(tài)加1,若為0,則不改變狀態(tài);4)有3種結(jié)果0-0表示狀態(tài)未發(fā)生改變,某個視頻沒有對應(yīng)的分類;0-1表示狀態(tài)發(fā) 生一次改變,某個視頻唯一對應(yīng)某類視頻;O-N (N > 1)表示狀態(tài)發(fā)生N次改變,某個視頻對 應(yīng)多類視頻;5)對于0-N,服從投票原則,在7種顏色特征中,如果被定義為某類視頻的特征數(shù)超過 半數(shù),就定義其屬于此類視頻。
全文摘要
本發(fā)明屬于計算機(jī)視頻處理技術(shù)領(lǐng)域,具體為一種視頻分類方法。本發(fā)明選取卡通、商業(yè)廣告、電影、新聞和體育比賽作為分類對象,在總結(jié)和分析了現(xiàn)有分類算法的基礎(chǔ)上,決定從視頻的底層特征(如顏色,紋理,形狀)中選取分類效果最好的顏色作為分類特征,并基于顏色特征對各種分類算法作了比較,分析和總結(jié),提出了基于時間和顏色特征融合的分類方法,由于每種特征對某類視頻分類效果有偏好,稱之為此類視頻的專家特征;進(jìn)一步利用專家系統(tǒng)使這些特征合作來提高分類的準(zhǔn)確率,同時也提高了效率。
文檔編號G06F17/30GK101894125SQ20101017512
公開日2010年11月24日 申請日期2010年5月13日 優(yōu)先權(quán)日2010年5月13日
發(fā)明者薛向陽, 路紅, 金城, 陳劍峰 申請人:復(fù)旦大學(xué)