專利名稱:四層結構的體育視頻中足球項目檢測系統(tǒng)及實現的制作方法
技術領域:
本發(fā)明屬于多媒體信息處理與檢索領域關于體育視頻分類的方法,涉及到體育視 頻鏡頭構成特點統(tǒng)計分析和視頻底層特征提取分類。本發(fā)明引入對不同類別體育鏡頭剪 輯方式和景別構成的分析統(tǒng)計形成剪輯模版,并在系統(tǒng)對鏡頭關鍵幀進行SVM分類的基礎 上,對進行有效結合,采用對關鍵幀打分的時間段加權并與剪輯方式模版匹配結果進行融 合。提出了一種高精度識別體育視頻中足球項目的四層體系檢測系統(tǒng),在更換相應的訓練 樣本后,可以有效的進行其他體育類型的識別,適用于體育節(jié)目機器標注、廣告推薦等。
背景技術:
隨著數字視頻技術及相關傳輸、存儲技術的提高,數字視頻與人們日常生活關系 越來越密切。在廣播電視領域已經逐步取代傳統(tǒng)的模擬信號方式,互聯網上的應用更是得 到了充分的發(fā)展,已經出現了以^utube,優(yōu)酷為代表的大數據量視頻網站;主流搜索引擎 如谷歌百度等也已經推出專門的視頻搜索產品;垂直搜索引擎如雷搜也已經出現。專門的 視頻門戶網站也是日益增長,這些網站對視頻的存儲與傳播起到了重要的作用,對海量的 視頻數據的自動處理也提出了挑戰(zhàn)。體育視頻在各類視頻中占據重要的分量。體育視頻具有實時性,體育賽事每天發(fā) 生,每時每刻都有大量的新內容創(chuàng)造出來。用戶必然需要以最快的方式得到最新的體育資 訊消息,體育視頻能以最大的容量呈現精彩的體育比賽場面和精彩鏡頭,用戶對體育視頻 的需求也越來越廣泛,越來越迫切。用戶觀看體育視頻的針對性很強,他只關注自己喜歡的 那些體育種類,對其他的體育種類很少甚至根本不關心。所以只有有效的做好體育視頻分 類,才能使用戶快速的找到自己想要的體育視頻。傳統(tǒng)的體育視頻分類是通過視頻文件命 名信息或者人工標注信息來進行分類,這種依賴耗費大量人力的工作顯然不再適合現在海 量的視頻的分類。為了實現自動的體育視頻分類,需要提取體育視頻中的反應體育種類的有效信 息。體育視頻的內容豐富,有許多信息可以用來表征這個視頻的體育種類。然而,其中字 幕或者比分信息由于受到電視轉播機構差異性的影響,不同的電視臺有不同的字幕表現形 式,缺乏通用的提取方法;所以我們通過提取視頻中場景信息來做體育分類。體育鏡頭大 致分為遠景、中景和特寫三種。采用模式分類的方式由鏡頭圖片代表該段所代表的體育類 型。在實用過程中,我們發(fā)現由于鏡頭冗余和現階段特征分類算法的魯棒性問題,結 果并不理想。因此我們引入對于不同體育類別節(jié)目中視頻剪輯方式的分析,比如對于賽車 類型,為保證觀看的連貫性,視頻剪輯以遠景、長鏡頭為主,而對于足球運動,為及時捕捉精 彩鏡頭,攝像機會頻繁切換,并以中景為主,根據這種在體育類型間有明顯區(qū)別的,并且同 種體育類型具有共性的特征,我們通過統(tǒng)計該體育不同類型鏡頭平均持續(xù)時間和頻次,可 以得到該體育類型鏡頭剪輯方式模版,用于粗分類;同時的,關鍵幀為基礎的模式分類方 式忽略了在多個關鍵幀在體育類型上的連續(xù)性,時間相鄰鏡頭有很大的可能表述的是相同的體育概念,我們根據運動特征,剪輯特征等將時間相鄰的鏡頭聚為一個視頻片段(video clip),在關鍵幀分類之后加入相應的連續(xù)時間段加權,最后同剪輯的模板結果融合,得到
最終結果。本發(fā)明通過分析體育視頻鏡頭剪輯方式和底層特征兩方面的特性,制定了一個能 夠進行特定項目的體育視頻分類標準。提出了基于機器學習方法的體育視頻檢測四層體 系。主要包括鏡頭剪輯統(tǒng)計,關鍵幀模式分類,視頻片段加權和后融合四個方面。在關鍵幀 視頻分類引入多碼本分類方式,在后融合方面引入logistic回歸方式。在保證高精度的同 時盡量減少系統(tǒng)開銷,在體育類型檢測及人工標注、廣告推薦方面具有很好的應用前景。
發(fā)明內容
為提高體育視頻特定種類的識別效率和準確率,本發(fā)明提出了基于機器學習方法 的體育視頻檢測四層體系。該系統(tǒng)首先采用鏡頭邊界檢測技術(Shot Boundary Detect, SBD)技術,根據鏡頭切換方式和剪輯方式對整個視頻進行分析,結合運動特征(光流等)將 切換方式相同、運動特征相同的相鄰片段歸為一類,稱為視頻夾(video clip),同時的,根 據統(tǒng)計視頻各個片段出現的持續(xù)時間,映射到特定碼本上做成直方圖形式,與已有模板進 行比對,得到K-L距離后實現第一層分類。第二階段對片段提取關鍵幀作為該視頻內容的 代表,然后提取局部和全局特征,使用多碼本的方式進行特征映射,使用SVM進行主場景的 分類,能夠得到相應的基于關鍵幀的圖片打分;第三階段將關鍵幀代表的片段映射到相應 的視頻夾(video clip)中進行加權得分,得到相應videoclip的分類結果;最后與第一次 分類的結果進行后融合,得到最終結果?;谏厦娴乃膶咏Y構,第一階段需要足夠的真實體育視頻進行分析,本發(fā)明對現 實體育視頻中足球進行識別,選取歐洲電視臺ESPN和法國體育視頻Orangesports源進行 分析,其中ESPN共200小時,OrangesportsHO小時,在大量人工標注下,能夠界定的純粹 足球視頻共有50小時,為進行比較,我們同時標注了出現頻率比較高的體育視頻如籃球、 網球、拳擊、游泳四種作為實驗的負樣本。第二階段的特征提取為精度和系統(tǒng)開銷的考量, 我們選取DenseSift,Shape Context, LBP, EDH四種特征進行提取,映射過程中采用了多 碼本的技術。第三階段加權經過實驗,平均值加權具有最好的效果;第四階段后融合采用 logistic回歸方式確定兩個結果的權重。
圖1為四層結構的體育視頻中足球檢測體系流程概要2為足球類型剪輯方式統(tǒng)計及其他類型對比圖3為基于關鍵幀的SVM分類流程概要4為不同特征的分類效果對比5為關鍵幀結果映射到視頻夾的示意61ogistic回歸流程7為四層結構體育視頻中足球檢測體系總體框架圖
具體實施例方式本發(fā)明通過分析體育視頻鏡頭剪輯方式和底層特征兩方面的特性,制定了一個能 夠進行特定項目的體育視頻分類標準。提出了基于機器學習方法的足球體育視頻檢測四層 體系。主要包括鏡頭剪輯統(tǒng)計,關鍵幀模式分類,視頻片段加權和后融合四個方面。在關鍵 幀視頻分類引入多碼本分類方式,在后融合方面引入logistic回歸方式。在保證高精度的 同時盡量減少系統(tǒng)開銷,在體育類型檢測及人工標注、廣告推薦方面具有很好的應用前景。下面將介紹本發(fā)明具體實施方法。一、鏡頭剪輯方式統(tǒng)計和視頻夾聚合(一)鏡頭的不同剪輯方式視頻往往是由眾多鏡頭經過剪輯拼接而成。一個鏡頭表示一個攝像機連續(xù)拍攝的 幀序列。自動鏡頭分割就是從一段連續(xù)視頻當中找出每次鏡頭切換的具體位置,把整段的 視頻按照鏡頭為單元分割成片段。為了對鏡頭進行準確和快速的分割,根據場景突變作為 鏡頭切換的判斷依據。本系統(tǒng)采用兩個傳統(tǒng)的幀間差來衡量前后幀之間的場景差異。定義第t幀ft和 第t+Ι幀圖片中,It(i,j)和It+1(i,j)表示是坐標為(i,j)的像素點的強度;Ht(k)和 Ht+1(k)表示L階顏色直方圖的第k階。幀的分辨率為MXN,于是顏色直方圖差(HDM)可以寫成A/⑴=H,(k)-Ht+l{k) \pf
MxN fef式中,pe [1,+ -)0通常情況下當ρ = 1或ρ = 2時,上述公式實際上就是歐式距離。對視頻的每一幀,求出它的上述兩種距離,當一幀的兩個距離值的和大于事先設 定的閾值時,認為這是一個場景的突變,也就是鏡頭的切換點。( 二)視頻夾聚合在SBD過程后會生成關于該視頻鏡頭切換方式分析,視頻段起至幀等信息的問題。將不同視頻段聚合成一個視頻夾(video clip)的規(guī)則在于A)視頻段在時間上是相鄰的且聚合成的videoclip持續(xù)時間大于1500幀B)同一 videoclip具有相同的切換方式C)同一 videoclip下通過光流分析具有相似的運動特征。同時滿足三個原則的視頻段將聚合成為一個videoclip,信息將以特定的格式保 存在相應的列表里。(三)剪輯方式模板映射和第一次匹配對不同類型的體育運動,視頻段持續(xù)時間和頻度具有很大的不同,而相同類型的 體育運動即使在不同的節(jié)目源中也會有類似的剪輯風格。關于足球和其他類型體育視頻段持續(xù)和頻度統(tǒng)計見圖2。因此,對于已經經過SBD分析的視頻,我們統(tǒng)計所有視頻段的持續(xù)時間,在相應的 碼本上映射生成直方圖形式。碼本的選擇根據大量視頻分析后的特點進行構造,規(guī)則如 下
權利要求
1. 一種結合鏡頭剪輯方式統(tǒng)計和底層特征分類的體育視頻足球項目檢測系統(tǒng),對體育 視頻進行模式分類和統(tǒng)計匹配的處理,對特定體育類別進行識別,該方法包括 步驟一,對體育視頻剪輯方式進行統(tǒng)計分析,形成模板匹配的結果; 步驟二,體育視頻統(tǒng)計分析后,提取對應視頻段的的相應圖片作為關鍵幀,進行基于關 鍵幀的模式分類,得到每個視頻段對應的概率;步驟三,將視頻段的得分映射到視頻夾中進行計算,即加入了時間信息,得到結果進行 分類器階段的后融合;步驟四,將第一步和第三步得到的結果進行加權,確定閾值后進行分類; 其中,所述步驟一具體包括 步驟1,邊界檢測,形成視頻段對視頻進行邊界檢測后,鏡頭切換點的選擇是通過尋找顏色直方圖差序列多個局部極 {自;^^ ,步驟2,對相鄰視頻段聚合為同一視頻夾的規(guī)則視頻段在時間上是相鄰的且聚合成的視頻夾持續(xù)時間大于1500幀;同一視頻夾具有 相同的切換方式;同一視頻夾下通過光流分析具有相似的運動特征; 步驟3,統(tǒng)計視頻段持續(xù)時間后,碼本構造碼本為沈維,其組成規(guī)則是0 100幀,每隔10幀為一個詞表;100 200幀,每隔 25幀為一個詞表;200 800幀,每隔50幀為一個詞表;> 800幀,為800幀映射到最后一 個詞表中;其中,所述步驟二具體包括 步驟1,關鍵幀提取提取的形狀上下文特征使用固定提取200個點的方式,共有4480維,在提取形狀上下 文特征過程中,點集精簡的算法采用弦差法;對邊緣方向直方圖特征進行歸一化處理時,采用2范數的歸一化方式; 步驟2,碼本生成進行多碼本制作時,由于系統(tǒng)的主要目的在于檢測體育運動中的足球,因此將足球的 遠中近景各200個,其他四種體育運動(籃球、網球、拳擊、游泳)遠中近景各200個一起建 立碼本;步驟3,以概率形式為關鍵幀打分score = FtP(Ci)],其中Ci為輸入圖像組的第i幀,F為對應這某一特征的結果,P為 對應某一類別的結果;即為圖像Ci提取特征F后屬于類別P的概率;在分類器訓練階段,采用一種視頻為正樣本,其他所有類別正樣本的圖像組作為該體 育類別負樣本的方式;其中,所述步驟三具體包括 步驟1,關鍵幀得分映射將視頻段的得分映射到視頻夾中進行計算,即加入了時間信息,將同一視頻夾中的視 頻段得分進行求均值處理,得到的得分即為該視頻夾的得分; 步驟2,后融合在四種分類器(shape context, dense sift, LBP, EDH)下的得分經過logistic回歸得到相應的權值,通過代入權值得到相應的某視頻夾對應的唯一結果; 步驟3,視頻夾得分計算該視頻夾所屬的體育類別時采用計算不同類型下最大值的方式,=唭中Ci為輸入圖像組的第i巾貞,F為對應這某一特征的結果,P為對應某一體育類別的結果,j為體育類型的第j個。
2.根據權利要求1所述的模板統(tǒng)計和視頻夾后融合分數進行加權的方法,其特征在 于,在得到視頻夾加權分數后,與第一步的模板匹配融合結果進行融合的權重采用7 3。
全文摘要
本發(fā)明提出了四層結構的體育視頻中足球項目檢測系統(tǒng)及實現。該系統(tǒng)首先采用鏡頭邊界檢測對整個視頻進行分析,將相同切換方式和運動特征的相鄰片段歸為一類稱為視頻夾,同時統(tǒng)計視頻片段的持續(xù)時間,映射到碼本上做成直方圖,與已有模板進行比對實現第一層分類。第二階段對片段提取關鍵幀,然后提取局部和全局特征,使用多碼本的方式進行特征映射,使用SVM進行主場景的分類,得到相應的基于關鍵幀的圖片打分;第三階段將關鍵幀代表的片段映射到相應的視頻夾中進行加權,得到相應的分類結果;最后與第一次分類的結果進行后融合得到最終結果。本發(fā)明具有較高的識別精度和速度,可以有效的進行體育類型的識別,適用于體育節(jié)目機器標注、廣告推薦等。
文檔編號G06K9/62GK102073864SQ20101056776
公開日2011年5月25日 申請日期2010年12月1日 優(yōu)先權日2010年12月1日
發(fā)明者張紀偉, 董遠 申請人:北京郵電大學