一種視頻中暴力內容的檢測方法及裝置的制造方法
【專利摘要】本發(fā)明實施例提供一種視頻中暴力內容的檢測方法及裝置,用以解決現(xiàn)有技術在對視頻中暴力內容進行檢測時誤判率高的問題,提高對視頻中暴力內容檢測的準確率。所述視頻中暴力內容的檢測方法,包括:確定待檢測視頻中任一場景的鏡頭平均長度以及該場景中鏡頭的平均運動強度;當確定所述鏡頭平均長度小于第一預設閾值,和/或所述鏡頭的平均運動強度大于第二預設閾值時,提取該場景中多個元素的特征數(shù)據(jù),當確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預先從特定場景中提取到的該元素的特征數(shù)據(jù)范圍之內時,確定所述待檢測的視頻中包含暴力內容。
【專利說明】
-種視頻中暴力內容的檢測方法及裝置
技術領域
[0001] 本發(fā)明實施例設及視頻技術領域,尤其設及一種視頻中暴力內容的檢測方法及裝 置。
【背景技術】
[0002] 暴力內容是一類特殊的激烈內容,在大多數(shù)的影視作品中都會出現(xiàn)暴力場面,而 且暴力場面往往能夠吸引觀看者的注意,自動檢測出影片中的暴力內容,可用于對影片內 容的檢索;還可W用于對影片的審查和后期處理。例如:通過檢測出的暴力內容的多少來評 定影片的級別,對于不適于兒童觀看的部分可W進行過濾或覆蓋。
[0003] 目前,對視頻中暴力內容的檢測方法大多只利用了某一種信息特征對視頻進行分 析,難W取得滿意的效果。具體來說:
[0004] 方式一:通過找出視頻中重復出現(xiàn)的相似可視內容少的鏡頭來確定視頻的平均運 動和持續(xù)時間,利用視頻的平均運動和持續(xù)時間來對視頻進行分類,運種方法很難區(qū)別暴 力場面和有大量運動的體育節(jié)目;
[0005] 方式二:分析視頻中的音軌來定位視頻中的暴力內容,由于視頻中的聲音常伴有 大量噪聲和許多相似的聲音而產(chǎn)生較多的誤判。
[0006] 綜上所述,現(xiàn)有技術在對視頻中暴力內容進行檢測時,基于視頻的平均運動和持 續(xù)時間的檢測方法,或者分析音軌的檢測方法,均無法較為準確的檢測出視頻中的暴力內 容,檢測的誤判率高。
【發(fā)明內容】
[0007] 本發(fā)明實施例提供一種視頻中暴力內容的檢測方法及裝置,用W解決現(xiàn)有技術在 對視頻中暴力內容進行檢測時誤判率高的問題,提高對視頻中暴力內容檢測的準確率。
[000引本發(fā)明實施例提供一種視頻中暴力內容的檢測方法,該方法包括:確定待檢測視 頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運動強度;當確定所述鏡頭平均長 度小于第一預設闊值,和/或所述鏡頭的平均運動強度大于第二預設闊值時,提取該場景中 多個元素的特征數(shù)據(jù),當確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù), 處于預先從特定場景中提取到的該元素的特征數(shù)據(jù)范圍之內時,確定所述待檢測的視頻中 包含暴力內容。
[0009] 本發(fā)明實施例提供一種視頻中暴力內容的檢測裝置,該裝置包括:第一處理單元, 用于確定待檢測視頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運動強度;第二 處理單元,用于當確定所述鏡頭平均長度小于第一預設闊值,和/或所述鏡頭的平均運動強 度大于第二預設闊值時,提取該場景中多個元素的特征數(shù)據(jù),當確定提取到的多個元素的 特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預先從特定場景中提取到的該元素的特征數(shù)據(jù) 范圍之內時,確定所述待檢測的視頻中包含暴力內容。
[0010] 本發(fā)明實施例提供的一種視頻中暴力內容的檢測方法及裝置,首先確定待檢測視 頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運動強度,當確定任一場景的鏡頭 平均長度小于第一預設闊值,和/或鏡頭的平均運動強度大于第二預設闊值時,進一步提取 該場景中多個元素的特征數(shù)據(jù),當確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特 征數(shù)據(jù),處于預先從特定場景(例如:暴力場景)中提取到的該元素的特征數(shù)據(jù)范圍之內時, 確定待檢測的視頻中包含暴力內容,與現(xiàn)有技術中基于視頻運動和持續(xù)時間的檢測方法, 或者分析音軌的檢測方法相比,提取場景中多個元素的特征數(shù)據(jù),當確定場景中多個元素 的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預先從特定場景(例如:暴力場景)中提取到 的該元素的特征數(shù)據(jù)范圍之內時,確定待檢測的視頻中包含暴力內容,結合場景中多個元 素的特征數(shù)據(jù)進行檢測,提高了對視頻中暴力內容檢測的準確率。
【附圖說明】
[0011]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可W根 據(jù)運些附圖獲得其他的附圖。
[001^ 圖巧本發(fā)明實施例提供的一種視頻中暴力內容的檢現(xiàn)巧法的示意流程圖;
[0013] 圖2為本發(fā)明實施例提供的一種視頻中暴力內容的檢測方法的具體流程的示意流 程圖;
[0014] 圖3為本發(fā)明實施例提供的一種視頻中暴力內容的檢測裝置的結構示意圖。
【具體實施方式】
[0015] 為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0016] 本發(fā)明實施例提供一種視頻中暴力內容的檢測方法,如圖1所示,該方法包括:
[0017] 步驟11,確定待檢測視頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運 動強度;
[0018] 步驟13,當確定鏡頭平均長度小于第一預設闊值,和/或鏡頭的平均運動強度大于 第二預設闊值時,提取該場景中多個元素的特征數(shù)據(jù),當確定提取到的多個元素的特征數(shù) 據(jù)中至少一個元素的特征數(shù)據(jù),處于預先從特定場景中提取到的該元素的特征數(shù)據(jù)范圍之 內時,確定待檢測的視頻中包含暴力內容。
[0019] 本發(fā)明實施例提供的方法中,首先確定待檢測視頻中任一場景的鏡頭平均長度W 及該場景中鏡頭的平均運動強度,當確定任一場景的鏡頭平均長度小于第一預設闊值,和/ 或鏡頭的平均運動強度大于第二預設闊值時,進一步提取該場景中多個元素的特征數(shù)據(jù), 當確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預先從特定場景 (例如:暴力場景)中提取到的該元素的特征數(shù)據(jù)范圍之內時,確定待檢測的視頻中包含暴 力內容,與現(xiàn)有技術中基于視頻運動和持續(xù)時間的檢測方法,或者分析音軌的檢測方法相 比,提取場景中多個元素的特征數(shù)據(jù),當確定場景中多個元素的特征數(shù)據(jù)中至少一個元素 的特征數(shù)據(jù),處于預先從特定場景(例如:暴力場景)中提取到的該元素的特征數(shù)據(jù)范圍之 內時,確定待檢測的視頻中包含暴力內容,結合場景中多個元素的特征數(shù)據(jù)進行檢測,提高 了對視頻中暴力內容檢測的準確率。
[0020] 需要說明的是,由于大多數(shù)的暴力內容中都有人或物體快速、明顯的運動,運樣的 運動往往是通過短時間的連續(xù)的視頻鏡頭的切換來加 W表現(xiàn)的,因此,把場景中的鏡頭平 均長度作為衡量一個場景內是否包含暴力內容的一個標準,而鏡頭中的空間變化和鏡頭的 持續(xù)時間決定了鏡頭中的運動強度,所W把鏡頭的平均運動強度作為衡量一個場景內是否 包含暴力內容的另一個標準,基于運兩個標準對視頻中的每個場景進行預篩選,也即首先 確定待檢測視頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運動強度,當確定任 一場景的鏡頭平均長度小于第一預設闊值,和/或鏡頭的平均運動強度大于第二預設闊值 時,確定該場景中可能包含暴力內容,將該場景加入候選場景,W進一步進行檢測。其中,第 一預設闊值和第二預設闊值可W根據(jù)經(jīng)驗值進行設定,例如:第一預設闊值的取值為3,第 二預設闊值的取值為視頻畫面面積的1/6,當任一場景的鏡頭平均長度小于3秒,和/或場景 中鏡頭的平均運動強度大于視頻畫面面積的1/6時,將該場景作為候選場景。
[0021] 具體實施時,鏡頭中的空間變化和鏡頭的持續(xù)時間決定了鏡頭中的運動強度,為 了有效的度量視頻中的運動特征,首先抽取鏡頭中的運動序列。運動序列的抽取過程是:先 將視頻數(shù)據(jù)通過二維的小波分解生成一系列空間簡化了的視頻帖的灰度圖像,再將運些圖 像中各個像素點的灰度在時間上的變化經(jīng)過小波變換,過濾之后得到一組運動序列圖像。 采用運種小波分析的方法可W得到視頻中運動對象的空間變化,最后生成的運動序列圖像 在運動對象的邊界上有非零值,同時運種方法降低了計算的復雜程度。
[0022] 接下來我們用下面的公式計算各個鏡頭的運動強度:
[0023]
[0024] 其中,巧2^ (巧I,巧)是當前場景的運動序列圖像在第k個鏡頭中的第i帖,m和n是 運動序列圖像的水平和垂直分辨率,b和e分別是第k個鏡頭的起始和結束帖號,T是第k個鏡 頭的長度T = e-b。從上述公式中可W看出,持續(xù)時間越短、包含運動越多的鏡頭運動強度越 大,計算各個鏡頭的運動強度之后,鏡頭的平均運動強度等于場景中所有鏡頭的運動強度 之和與場景中的鏡頭總數(shù)之比。
[0025] 具體實施時,場景中的鏡頭平均長度等于場景的總時間長度與該場景中的鏡頭數(shù) 量之比。例如:假設一個場景的總時間長度為300秒,而該場景中包含5個鏡頭呈現(xiàn)的畫面, 則鏡頭平均長度為60秒。
[0026] 具體實施時,根據(jù)場景中鏡頭平均長度和/或鏡頭的平均運動強度確定候選場景 之后,為了提高檢測準確率,進一步對候選場景進行檢測,提取候選場景中多個元素的特征 數(shù)據(jù),檢測候選場景中每個元素的特征數(shù)據(jù)是否處于預先從特定場景中提取到的該元素的 特征數(shù)據(jù)范圍之內,當確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處 于預先從特定場景中提取到的該元素的特征數(shù)據(jù)范圍之內時,確定待檢測的視頻中包含暴 力內容。其中,特定場景可W是一些已知的包含暴力內容的場景,例如:開槍場景、爆炸場景 W及流血場景等。多個元素的特征數(shù)據(jù),包括:該場景中每帖畫面的圖像特征數(shù)據(jù)W及該場 景中的音頻特征數(shù)據(jù)。
[0027] 具體來說,預先從多個特定包含暴力內容的場景中提取多個元素的特征數(shù)據(jù),組 成多個元素的特征數(shù)據(jù)范圍,當從候選場景中提取到的多個元素的特征數(shù)據(jù)中任一元素或 多個元素的特征數(shù)據(jù),處于該元素對應的特征數(shù)據(jù)范圍內時,便可確定該候選場景中包含 暴力內容,在通過鏡頭平均長度和鏡頭的平均運動強度檢測的基礎上,結合場景中多個元 素的特征數(shù)據(jù),當多個元素的特征數(shù)據(jù)包含每帖畫面的圖像特征數(shù)據(jù)W及該場景中的音頻 特征數(shù)據(jù)時,可W將可視特征與聲音特征進行融合檢測,提高了檢測的準確率。
[0028] 當然,本領域技術人員應當理解的是,從候選場景中提取到的多個元素的特征數(shù) 據(jù)中,處于從特定場景中提取到的多個元素的特征數(shù)據(jù)范圍之內的元素數(shù)量越多,檢測的 準確率越高,當然,若從候選場景中提取到的多個元素的特征數(shù)據(jù)中,僅有一個元素的特征 數(shù)據(jù)處于從特定場景中提取到的對應元素的特征數(shù)據(jù)范圍之內,同樣可W確定候選場景包 含暴力內容。
[0029] 作為較為具體的實施例,開槍場景和爆炸場景是最明顯的包含暴力內容的場景, 運些場景在影片中表現(xiàn)出一些獨特的聲音和圖像特征,對于可視特征,也即圖像特征,我們 主要集中在對由開槍和爆炸引起的瞬時火焰的探測上。
[0030] 在一種可能的實施方式中,本發(fā)明實施例提供的方法中,每帖畫面的圖像特征數(shù) 據(jù)包括:每帖畫面的顏色直方圖;當多個元素的特征數(shù)據(jù)包括該場景中每帖畫面的圖像特 征數(shù)據(jù)時,確定每帖畫面的圖像特征數(shù)據(jù)是否處于預先從特定場景中提取到的畫面的圖像 特征數(shù)據(jù)范圍之內,包括:針對該場景中的每帖畫面,提取該帖畫面的顏色直方圖,當確定 該帖畫面的顏色直方圖中預設數(shù)量個顏色的統(tǒng)計數(shù)量,處于預先從特定場景中提取到的畫 面的顏色直方圖中對應顏色的統(tǒng)計數(shù)量范圍之內時,確定該帖畫面的圖像特征數(shù)據(jù)處于預 先從特定場景中提取到的畫面的圖像特征數(shù)據(jù)范圍之內。
[0031] 具體實施時,與開槍相比,爆炸引起的火焰持續(xù)的時間長,而且在屏幕上覆蓋的面 積大,但由開槍和爆炸引起的火焰的共同特點是:都有W黃、澄或紅色為主色調的顏色直方 圖,因此,我們預先定義了一個包含各種顏色范圍的顏色模板,用候選場景的顏色直方圖與 預先定義的顏色模板進行比較,當候選場景的顏色直方圖中黃色、澄色或紅色的統(tǒng)計數(shù)量 處在預先定義的顏色模板對應顏色的統(tǒng)計數(shù)量范圍之內時,探測到場景中有火焰出現(xiàn),候 選場景中包含暴力內容。
[0032] 在包含暴力內容的場景中,一些暴力行為(例如:開槍,刀刺,爆炸等)常常會導致 流血事件的發(fā)生,在具體實施時,可W用顏色直方圖判斷場景中是否出現(xiàn)血色。但是,由于 現(xiàn)實中有很多顏色與血色很接近,因此,不能僅通過場景的畫面中血色像素的數(shù)量來判斷 流血事件的出現(xiàn),需要結合相鄰多帖畫面中血色像素的數(shù)量做進一步判斷,具體來說:
[0033] 在一種可能的實施方式中,本發(fā)明實施例提供的方法中,當確定該帖畫面的顏色 直方圖中預設數(shù)量個顏色的統(tǒng)計數(shù)量,處于預先從特定場景中提取到的畫面的顏色直方圖 中對應顏色的統(tǒng)計數(shù)量范圍之內之后,該方法還包括:確定該帖畫面相鄰多帖畫面中預設 數(shù)量個顏色的統(tǒng)計數(shù)量;確定該帖畫面的圖像特征數(shù)據(jù)處于預先從特定場景中提取到的畫 面的圖像特征數(shù)據(jù)范圍之內,包括:當確定該帖畫面W及相鄰多帖畫面中預設數(shù)量個顏色 中每個顏色的統(tǒng)計數(shù)量,隨著多帖畫面的時間順序逐漸增多時,確定該帖畫面的圖像特征 數(shù)據(jù)處于預先從特定場景中提取到的畫面的圖像特征數(shù)據(jù)范圍之內。
[0034] 具體實施時,在判斷場景中是否有流血事件時,需要統(tǒng)計相鄰的多帖畫面中的血 色像素的數(shù)量,在短時間內有明顯的血色像素增加的情況,才被認為可能是發(fā)生了流血事 件,也即在連續(xù)多帖畫面中,血色像素的數(shù)量隨著多帖畫面的時間順序逐漸增多時,確定場 景中發(fā)生可能發(fā)生了流血事件。
[0035] 在對視頻中暴力內容進行檢測時,僅憑可視特征的分析是很難確定場景中是否包 含暴力內容的,還必須結合其它的特征分析。聲音是視頻中十分重要的部分,聲音特征可W 幫助觀看者理解視頻內容,特定的聲音可W直接、快速的引起觀看者的注意。本發(fā)明實施例 中通過對音頻數(shù)據(jù)的分析來輔助對暴力內容的檢測。
[0036] 在一種可能的實施方式中,本發(fā)明實施例提供的方法中,音頻特征數(shù)據(jù)包括:音頻 數(shù)據(jù)的樣本向量和協(xié)方差矩陣;當多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時, 確定該場景中的音頻特征數(shù)據(jù)是否處于預先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之 內,包括:計算該場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,當確定該場景中音頻數(shù)據(jù)的樣 本向量和協(xié)方差矩陣,與預先從特定場景中提取到的音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣的 相似度大于第=預設闊值時,確定該場景中的音頻特征數(shù)據(jù)處于預先從特定場景中提取到 的音頻特征數(shù)據(jù)范圍之內。
[0037] -般來說,包含暴力內容的場景常常伴隨一些非語音的特殊聲音(例如:爆炸聲、 尖叫聲、槍聲、玻璃的破碎聲等)和特殊的背景音樂。通過高斯模型的方法,將視頻中的伴隨 音頻分為暴力聲音和非暴力聲音兩種,作為進一步分析的依據(jù),高斯模型提供了簡單的計 算復雜度,它的參數(shù)完全可W由各類樣本向量的均值向量和協(xié)方差矩陣確定。
[0038] 具體實施時,從大量視頻中找出各種包含暴力內容的場景,將其中的音軌作為聲 音樣本,樣本向量由樣本在時間上的采樣得到,協(xié)方差矩陣提供了運種時間變化的緊湊表 示,在檢測候選場景是否包含暴力內容時,計算候選場景中音頻數(shù)據(jù)的均值向量和協(xié)方差 矩陣,就可W根據(jù)候選場景與聲音樣本之間均值向量W及協(xié)方差矩陣的相似度,確定候選 場景中音頻數(shù)據(jù)與聲音樣本的相似度,當候選場景與聲音樣本之間均值向量W及協(xié)方差矩 陣的相似度大于第=預設闊值時,確定候選場景中包含暴力內容。其中,候選場景與聲音樣 本之間均值向量W及協(xié)方差矩陣的相似度的計算方式可W采用現(xiàn)有技術,此處不再寶述, 第=預設闊值可W根據(jù)經(jīng)驗值設定,例如:第=預設闊值的取值為90。
[0039] 在一種可能的實施方式中,本發(fā)明實施例提供的方法中,音頻特征數(shù)據(jù)包括:音頻 數(shù)據(jù)的能量賭;當多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時,確定該場景中的 音頻特征數(shù)據(jù)是否處于預先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內,包括:將該場 景中的音頻數(shù)據(jù)分為多段,計算每段音頻數(shù)據(jù)的能量賭,當多段音頻數(shù)據(jù)的能量賭中至少 一段音頻數(shù)據(jù)的能量賭小于第四預設闊值時,確定該場景中的音頻特征數(shù)據(jù)處于預先從特 定場景中提取到的音頻特征數(shù)據(jù)范圍之內。
[0040] 在對音頻數(shù)據(jù)進行分析時,還需要對場景中的一些特殊聲音進行分析,許多包含 暴力內容的場景,例如:擊打、槍擊、爆炸等,都伴有一些特殊的聲音,而且運類場景往往在 極短的時間內發(fā)生,突然爆發(fā)出一些聲音。因此,在檢測時將聲音信號能量的突然變化作為 檢測場景中是否包含暴力內容的又一標準。為有效地度量運一特征,我們采用了 "能量賭" 規(guī)則。
[0041] 具體來說,首先將候選場景的音頻數(shù)據(jù)分割成若干片段,對每一片段計算其聲音 信號的能量,并除W音頻數(shù)據(jù)的總能量進行歸一化。每段音頻數(shù)據(jù)的能量賭通過如下公式 計算得到:
[0042]
[0043] 其中,I為每段音頻的能量賭J是將場景中的音頻數(shù)據(jù)分為多段的總段數(shù),O2是第 i段音頻數(shù)據(jù)的歸一化的能量值。
[0044] 根據(jù)能量賭的計算過程可W看出,音頻數(shù)據(jù)的能量賭的值可W反映聲音信號的能 量變化,能量基本恒定的音頻數(shù)據(jù)具有較大的能量賭,而出現(xiàn)聲音能量變化的音頻數(shù)據(jù)的 能量賭較小,且變化越大能量賭越小。如果場景的音頻數(shù)據(jù)中存在能量賭小于第四預設閥 值的音頻數(shù)據(jù),則確定場景中含有暴力內容。其中,第四預設闊值可W根據(jù)經(jīng)驗值進行設 定,例如:第四預設闊值的取值為6。
[0045] 下面結合圖2對本發(fā)明實施例提供的一種視頻中暴力內容的檢測方法的具體步驟 進行詳細說明,如圖2所示,包括:
[0046] 步驟21,確定待檢測視頻中任一場景的鏡頭平均長度W及場景中鏡頭的平均運動 強度;
[0047] 步驟22,判斷鏡頭平均長度是否小于第一預設闊值,若是,則執(zhí)行步驟23,否則,執(zhí) 行步驟29,其中,第一預設闊值根據(jù)經(jīng)驗值設定,例如:第一預設闊值取值為3;
[0048] 步驟23,判斷鏡頭的平均運動強度是否大于第二預設闊值,若是,執(zhí)行步驟24,和/ 或步驟25,和/或步驟26,和/或步驟27,否則,執(zhí)行步驟29,其中,第二預設闊值根據(jù)經(jīng)驗值 設定,例如:第二預設闊值取值為畫面面積的1/6;
[0049] 步驟24,確定場景中是否有火焰出現(xiàn),具體來說:利用場景中每帖畫面的顏色直方 圖與預先定義的顏色模板進行比較,判斷場景的顏色直方圖中黃色、澄色或紅色的統(tǒng)計數(shù) 量是否處在預先定義的顏色模板對應顏色的統(tǒng)計數(shù)量范圍之內,若是,執(zhí)行步驟28,否則, 執(zhí)行步驟29;
[0050] 步驟25,確定場景中是否出現(xiàn)血色,且血色像素增多,具體來說:利用顏色直方圖 確定場景中是否出現(xiàn)血色,并統(tǒng)計連續(xù)多帖畫面中血色像素的數(shù)量,判斷血色像素的數(shù)量 是否隨多帖畫面的時間順序逐漸增多,若場景中出現(xiàn)血色,且逐漸增多,則執(zhí)行步驟28,否 貝IJ,執(zhí)行步驟29;
[0051] 步驟26,確定場景中音頻數(shù)據(jù)與聲音樣本的相似度是否大于第=預設闊值,具體 來說,利用場景中音頻數(shù)據(jù)與聲音樣本之間樣本向量和協(xié)方差矩陣的相似度,確定場景中 音頻數(shù)據(jù)與聲音樣本的相似度是否大于第=預設闊值,若是,執(zhí)行步驟28,否則,執(zhí)行步驟 29,其中,第=預設闊值根據(jù)經(jīng)驗值設定,例如:第=預設闊值取值為90;
[0052] 步驟27,判斷場景的音頻數(shù)據(jù)中是否存在能量賭小于第四預設闊值的片段,若是, 執(zhí)行步驟28,否則,執(zhí)行步驟29,其中,第四預設闊值根據(jù)經(jīng)驗值設定,例如:第四預設闊值 取值為6;
[0053] 步驟28,當步驟24、步驟25、步驟26W及步驟27中至少一個的判定結果為是時,確 定當前場景中包含暴力內容,也即待檢測視頻中包含暴力內容;
[0054] 步驟29,當步驟22的判定結果為否,或者步驟23的判定結果為否,或者步驟24、步 驟25、步驟26W及步驟27的判定結果均為否時,確定當前場景中不包含暴力內容,也即待檢 測視頻中不包含暴力內容。
[0055] 本發(fā)明實施例提供一種視頻中暴力內容的檢測裝置,如圖3所示,該裝置包括:第 一處理單元31,用于確定待檢測視頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均 運動強度;第二處理單元33,用于當確定鏡頭平均長度小于第一預設闊值,和/或鏡頭的平 均運動強度大于第二預設闊值時,提取該場景中多個元素的特征數(shù)據(jù),當確定提取到的多 個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預先從特定場景中提取到的該元素的 特征數(shù)據(jù)范圍之內時,確定待檢測的視頻中包含暴力內容。
[0056] 本發(fā)明實施例提供的裝置中,首先確定待檢測視頻中任一場景的鏡頭平均長度W 及該場景中鏡頭的平均運動強度,當確定任一場景的鏡頭平均長度小于第一預設闊值,和/ 或鏡頭的平均運動強度大于第二預設闊值時,進一步提取該場景中多個元素的特征數(shù)據(jù), 當確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預先從特定場景 (例如:暴力場景)中提取到的該元素的特征數(shù)據(jù)范圍之內時,確定待檢測的視頻中包含暴 力內容,與現(xiàn)有技術中基于視頻運動和持續(xù)時間的檢測方法,或者分析音軌的檢測方法相 比,提取場景中多個元素的特征數(shù)據(jù),當確定場景中多個元素的特征數(shù)據(jù)中至少一個元素 的特征數(shù)據(jù),處于預先從特定場景(例如:暴力場景)中提取到的該元素的特征數(shù)據(jù)范圍之 內時,確定待檢測的視頻中包含暴力內容,結合場景中多個元素的特征數(shù)據(jù)進行檢測,提高 了對視頻中暴力內容檢測的準確率。
[0057] 在一種可能的實施方式中,本發(fā)明實施例提供的裝置中,多個元素的特征數(shù)據(jù),包 括:該場景中每帖畫面的圖像特征數(shù)據(jù)W及該場景中的音頻特征數(shù)據(jù)。
[0058] 在一種可能的實施方式中,本發(fā)明實施例提供的裝置中,在一種可能的實施方式 中,本發(fā)明實施例提供的裝置中,每帖畫面的圖像特征數(shù)據(jù)包括:每帖畫面的顏色直方圖; 當多個元素的特征數(shù)據(jù)包括該場景中每帖畫面的圖像特征數(shù)據(jù)時,第二處理單元33確定每 帖畫面的圖像特征數(shù)據(jù)是否處于預先從特定場景中提取到的畫面的圖像特征數(shù)據(jù)范圍之 內,具體用于:針對該場景中的每帖畫面,提取該帖畫面的顏色直方圖,當確定該帖畫面的 顏色直方圖中預設數(shù)量個顏色的統(tǒng)計數(shù)量,處于預先從特定場景中提取到的畫面的顏色直 方圖中對應顏色的統(tǒng)計數(shù)量范圍之內時,確定該帖畫面的圖像特征數(shù)據(jù)處于預先從特定場 景中提取到的畫面的圖像特征數(shù)據(jù)范圍之內。
[0059] 在一種可能的實施方式中,本發(fā)明實施例提供的裝置中,當?shù)诙幚韱卧?3確定 該帖畫面的顏色直方圖中預設數(shù)量個顏色的統(tǒng)計數(shù)量,處于預先從特定場景中提取到的畫 面的顏色直方圖中對應顏色的統(tǒng)計數(shù)量范圍之內之后,第二處理單元33還用于:確定該帖 畫面相鄰多帖畫面中預設數(shù)量個顏色的統(tǒng)計數(shù)量;第二處理單元33確定該帖畫面的圖像特 征數(shù)據(jù)處于預先從特定場景中提取到的畫面的圖像特征數(shù)據(jù)范圍之內,具體用于:當確定 該帖畫面W及相鄰多帖畫面中預設數(shù)量個顏色中每個顏色的統(tǒng)計數(shù)量,隨著多帖畫面的時 間順序逐漸增多時,確定該帖畫面的圖像特征數(shù)據(jù)處于預先從特定場景中提取到的畫面的 圖像特征數(shù)據(jù)范圍之內。
[0060] 在一種可能的實施方式中,本發(fā)明實施例提供的裝置中,音頻特征數(shù)據(jù)包括:音頻 數(shù)據(jù)的樣本向量和協(xié)方差矩陣;當多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時, 第二處理單元33確定該場景中的音頻特征數(shù)據(jù)是否處于預先從特定場景中提取到的音頻 特征數(shù)據(jù)范圍之內,具體用于:計算該場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,當確定該 場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,與預先從特定場景中提取到的音頻數(shù)據(jù)的樣本 向量和協(xié)方差矩陣的相似度大于第=預設闊值時,確定該場景中的音頻特征數(shù)據(jù)處于預先 從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內。
[0061] 在一種可能的實施方式中,本發(fā)明實施例提供的裝置中,音頻特征數(shù)據(jù)包括:音頻 數(shù)據(jù)的能量賭;當多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時,第二處理單元33 確定該場景中的音頻特征數(shù)據(jù)是否處于預先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之 內,具體用于:將該場景中的音頻數(shù)據(jù)分為多段,計算每段音頻數(shù)據(jù)的能量賭,當多段音頻 數(shù)據(jù)的能量賭中至少一段音頻數(shù)據(jù)的能量賭小于第四預設闊值時,確定該場景中的音頻特 征數(shù)據(jù)處于預先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內。
[0062] 在一種可能的實施方式中,本發(fā)明實施例提供的裝置中,第二處理單元33通過如 下公式計算每段音頻數(shù)據(jù)的能量賭:
[0063]
.其中,I為每段音頻的能量賭,J是將場景中的音頻數(shù)據(jù) 分為多段的總段數(shù),O2是第i段音頻數(shù)據(jù)的歸一化的能量值。
[0064] 在一種可能的實施方式中,本發(fā)明實施例提供的裝置中,所述鏡頭的平均運動強 度等于場景中所有鏡頭的運動強度之和與場景中的鏡頭數(shù)量之比,其中,第一處理單元31 通過如下公式計算場景中每個鏡頭的運動強度:
[00 化]
[0066] 其中,SS是每個鏡頭的運動強度,所(所,巧)是當前場景的運動序列圖像在第k 個鏡頭中的第i帖,m和n是所述運動序列圖像的水平和垂直分辨率,b和e分別是第k個鏡頭 的起始和結束帖號,T是第k個鏡頭的長度T = e-b。
[0067] 在一種可能的實施方式中,本發(fā)明實施例提供的裝置中,鏡頭平均長度等于場景 的總時間長度與該場景中的鏡頭數(shù)量之比。
[0068] 本發(fā)明實施例提供的一種視頻中暴力內容的檢測裝置,可W視頻軟件中,用于對 視頻中暴力內容的檢測,其中,第一處理單元31和第二處理單元33均可W采用CPU處理器 等。
[0069] 本發(fā)明實施例提供的一種視頻中暴力內容的檢測方法及裝置,首先確定待檢測視 頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運動強度,當確定任一場景的鏡頭 平均長度小于第一預設闊值,和/或鏡頭的平均運動強度大于第二預設闊值時,進一步提取 該場景中多個元素的特征數(shù)據(jù),當確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特 征數(shù)據(jù),處于預先從特定場景(例如:暴力場景)中提取到的該元素的特征數(shù)據(jù)范圍之內時, 確定待檢測的視頻中包含暴力內容,結合場景中多個元素的特征數(shù)據(jù)進行檢測,提高了對 視頻中暴力內容檢測的準確率。
[0070] W上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可 W是或者也可W不是物理上分開的,作為單元顯示的部件可W是或者也可W不是物理單 元,即可W位于一個地方,或者也可W分布到多個網(wǎng)絡單元上??蒞根據(jù)實際的需要選擇其 中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領域普通技術人員在不付出創(chuàng)造性 的勞動的情況下,即可W理解并實施。
[0071] 通過W上的實施方式的描述,本領域的技術人員可W清楚地了解到各實施方式可 借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可W通過硬件。基于運樣的理解,上 述技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分可WW軟件產(chǎn)品的形式體現(xiàn)出來,該 計算機軟件產(chǎn)品可W存儲在計算機可讀存儲介質中,如R0M/RAM、磁碟、光盤等,包括若干指 令用W使得一臺計算機設備(可W是個人計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行各個實施 例或者實施例的某些部分所述的方法。
[0072] 最后應說明的是:W上實施例僅用W說明本發(fā)明的技術方案,而非對其限制;盡管 參照前述實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可 W對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換; 而運些修改或者替換,并不使相應技術方案的本質脫離本發(fā)明各實施例技術方案的精神和 范圍。
【主權項】
1. 一種視頻中暴力內容的檢測方法,其特征在于,該方法包括: 確定待檢測視頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運動強度; 當確定所述鏡頭平均長度小于第一預設闊值,和/或所述鏡頭的平均運動強度大于第 二預設闊值時,提取該場景中多個元素的特征數(shù)據(jù),當確定提取到的多個元素的特征數(shù)據(jù) 中至少一個元素的特征數(shù)據(jù),處于預先從特定場景中提取到的該元素的特征數(shù)據(jù)范圍之內 時,確定所述待檢測的視頻中包含暴力內容。2. 根據(jù)權利要求1所述的方法,其特征在于,所述多個元素的特征數(shù)據(jù),包括:該場景中 每帖畫面的圖像特征數(shù)據(jù)W及該場景中的音頻特征數(shù)據(jù)。3. 根據(jù)權利要求2所述的方法,其特征在于,所述每帖畫面的圖像特征數(shù)據(jù)包括:每帖 畫面的顏色直方圖; 當所述多個元素的特征數(shù)據(jù)包括該場景中每帖畫面的圖像特征數(shù)據(jù)時,確定每帖畫面 的圖像特征數(shù)據(jù)是否處于預先從特定場景中提取到的畫面的圖像特征數(shù)據(jù)范圍之內,包 括: 針對該場景中的每帖畫面,提取該帖畫面的顏色直方圖,當確定該帖畫面的顏色直方 圖中預設數(shù)量個顏色的統(tǒng)計數(shù)量,處于預先從特定場景中提取到的畫面的顏色直方圖中對 應顏色的統(tǒng)計數(shù)量范圍之內時,確定該帖畫面的圖像特征數(shù)據(jù)處于預先從特定場景中提取 到的畫面的圖像特征數(shù)據(jù)范圍之內。4. 根據(jù)權利要求3所述的方法,其特征在于,當確定該帖畫面的顏色直方圖中預設數(shù)量 個顏色的統(tǒng)計數(shù)量,處于預先從特定場景中提取到的畫面的顏色直方圖中對應顏色的統(tǒng)計 數(shù)量范圍之內之后,該方法還包括: 確定該帖畫面相鄰多帖畫面中所述預設數(shù)量個顏色的統(tǒng)計數(shù)量; 確定該帖畫面的圖像特征數(shù)據(jù)處于預先從特定場景中提取到的畫面的圖像特征數(shù)據(jù) 范圍之內,包括: 當確定該帖畫面W及相鄰多帖畫面中所述預設數(shù)量個顏色中每個顏色的統(tǒng)計數(shù)量,隨 著多帖畫面的時間順序逐漸增多時,確定該帖畫面的圖像特征數(shù)據(jù)處于預先從特定場景中 提取到的畫面的圖像特征數(shù)據(jù)范圍之內。5. 根據(jù)權利要求2所述的方法,其特征在于,所述音頻特征數(shù)據(jù)包括:音頻數(shù)據(jù)的樣本 向量和協(xié)方差矩陣; 當所述多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時,確定該場景中的音頻特 征數(shù)據(jù)是否處于預先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內,包括: 計算該場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,當確定該場景中音頻數(shù)據(jù)的樣本向 量和協(xié)方差矩陣,與預先從特定場景中提取到的音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣的相似 度大于第Ξ預設闊值時,確定該場景中的音頻特征數(shù)據(jù)處于預先從特定場景中提取到的音 頻特征數(shù)據(jù)范圍之內。6. 根據(jù)權利要求2所述的方法,其特征在于,所述音頻特征數(shù)據(jù)包括:音頻數(shù)據(jù)的能量 賭; 當所述多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時,確定該場景中的音頻特 征數(shù)據(jù)是否處于預先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內,包括: 將該場景中的音頻數(shù)據(jù)分為多段,計算每段音頻數(shù)據(jù)的能量賭,當多段音頻數(shù)據(jù)的能 量賭中至少一段音頻數(shù)據(jù)的能量賭小于第四預設闊值時,確定該場景中的音頻特征數(shù)據(jù)處 于預先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內。7. 根據(jù)權利要求6所述的方法,其特征在于,所述每段音頻數(shù)據(jù)的能量賭通過如下公式 計算得到:其中,功每段音頻的能量賭,J是將場景中的音頻數(shù)據(jù)分為多段的總段數(shù),是第i段音 頻數(shù)據(jù)的歸一化的能量值。8. 根據(jù)權利要求1-7中任一項所述的方法,其特征在于,所述鏡頭的平均運動強度等于 場景中所有鏡頭的運動強度之和與場景中的鏡頭數(shù)量之比,其中,場景中每個鏡頭的運動 強度通過如下公式計算得到:其中,SS是每個鏡頭的運動強度,是當前場景的運動序列圖像在第k個鏡 頭中的第i帖,m和η是所述運動序列圖像的水平和垂直分辨率,b和e分別是第k個鏡頭的起 始和結束帖號,T是第k個鏡頭的長度T = e-b。9. 根據(jù)權利要求1-7中任一項所述的方法,其特征在于,所述鏡頭平均長度等于場景的 總時間長度與該場景中的鏡頭數(shù)量之比。10. -種視頻中暴力內容的檢測裝置,其特征在于,該裝置包括: 第一處理單元,用于確定待檢測視頻中任一場景的鏡頭平均長度W及該場景中鏡頭的 平均運動強度; 第二處理單元,用于當確定所述鏡頭平均長度小于第一預設闊值,和/或所述鏡頭的平 均運動強度大于第二預設闊值時,提取該場景中多個元素的特征數(shù)據(jù),當確定提取到的多 個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預先從特定場景中提取到的該元素的 特征數(shù)據(jù)范圍之內時,確定所述待檢測的視頻中包含暴力內容。11. 根據(jù)權利要求10所述的裝置,其特征在于,所述多個元素的特征數(shù)據(jù),包括:該場景 中每帖畫面的圖像特征數(shù)據(jù)W及該場景中的音頻特征數(shù)據(jù)。12. 根據(jù)權利要求11所述的裝置,其特征在于,所述每帖畫面的圖像特征數(shù)據(jù)包括:每 帖畫面的顏色直方圖; 當所述多個元素的特征數(shù)據(jù)包括該場景中每帖畫面的圖像特征數(shù)據(jù)時,所述第二處理 單元確定每帖畫面的圖像特征數(shù)據(jù)是否處于預先從特定場景中提取到的畫面的圖像特征 數(shù)據(jù)范圍之內,具體用于: 針對該場景中的每帖畫面,提取該帖畫面的顏色直方圖,當確定該帖畫面的顏色直方 圖中預設數(shù)量個顏色的統(tǒng)計數(shù)量,處于預先從特定場景中提取到的畫面的顏色直方圖中對 應顏色的統(tǒng)計數(shù)量范圍之內時,確定該帖畫面的圖像特征數(shù)據(jù)處于預先從特定場景中提取 到的畫面的圖像特征數(shù)據(jù)范圍之內。13. 根據(jù)權利要求12所述的裝置,其特征在于,當所述第二處理單元確定該帖畫面的顏 色直方圖中預設數(shù)量個顏色的統(tǒng)計數(shù)量,處于預先從特定場景中提取到的畫面的顏色直方 圖中對應顏色的統(tǒng)計數(shù)量范圍之內之后,所述第二處理單元還用于: 確定該帖畫面相鄰多帖畫面中所述預設數(shù)量個顏色的統(tǒng)計數(shù)量; 所述第二處理單元確定該帖畫面的圖像特征數(shù)據(jù)處于預先從特定場景中提取到的畫 面的圖像特征數(shù)據(jù)范圍之內,具體用于: 當確定該帖畫面W及相鄰多帖畫面中所述預設數(shù)量個顏色中每個顏色的統(tǒng)計數(shù)量,隨 著多帖畫面的時間順序逐漸增多時,確定該帖畫面的圖像特征數(shù)據(jù)處于預先從特定場景中 提取到的畫面的圖像特征數(shù)據(jù)范圍之內。14. 根據(jù)權利要求11所述的裝置,其特征在于,所述音頻特征數(shù)據(jù)包括:音頻數(shù)據(jù)的樣 本向量和協(xié)方差矩陣; 當所述多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時,所述第二處理單元確定 該場景中的音頻特征數(shù)據(jù)是否處于預先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內,具 體用于: 計算該場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,當確定該場景中音頻數(shù)據(jù)的樣本向 量和協(xié)方差矩陣,與預先從特定場景中提取到的音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣的相似 度大于第Ξ預設闊值時,確定該場景中的音頻特征數(shù)據(jù)處于預先從特定場景中提取到的音 頻特征數(shù)據(jù)范圍之內。15. 根據(jù)權利要求11所述的裝置,其特征在于,所述音頻特征數(shù)據(jù)包括:音頻數(shù)據(jù)的能 量賭; 當所述多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時,所述第二處理單元確定 該場景中的音頻特征數(shù)據(jù)是否處于預先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內,具 體用于: 將該場景中的音頻數(shù)據(jù)分為多段,計算每段音頻數(shù)據(jù)的能量賭,當多段音頻數(shù)據(jù)的能 量賭中至少一段音頻數(shù)據(jù)的能量賭小于第四預設闊值時,確定該場景中的音頻特征數(shù)據(jù)處 于預先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內。16. 根據(jù)權利要求15所述的裝置,其特征在于,所述第二處理單元通過如下公式計算每 段音頻數(shù)據(jù)的能量賭:其中,功每段音頻的能量賭,J是將場景中的音頻數(shù)據(jù)分為多段的總段數(shù),是第i段音 頻數(shù)據(jù)的歸一化的能量值。17. 根據(jù)權利要求10-16中任一項所述的裝置,其特征在于,所述鏡頭的平均運動強度 等于場景中所有鏡頭的運動強度之和與場景中的鏡頭數(shù)量之比,其中,所述第一處理單元 通過如下公式計算場景中每個鏡頭的運動強度:其中,SS是每個鏡頭的運動強度,巧sf (巧1,巧)是當前場景的運動序列圖像在第k個鏡 頭中的第i帖,m和η是所述運動序列圖像的水平和垂直分辨率,b和e分別是第k個鏡頭的起 始和結束帖號,T是第k個鏡頭的長度T = e-b。18.根據(jù)權利要求10-16中任一項所述的裝置,其特征在于,所述鏡頭平均長度等于場 景的總時間長度與該場景中的鏡頭數(shù)量之比。
【文檔編號】H04N21/44GK105847860SQ201610189188
【公開日】2016年8月10日
【申請日】2016年3月29日
【發(fā)明人】蔡煒
【申請人】樂視控股(北京)有限公司, 樂視致新電子科技(天津)有限公司