專利名稱:基于音視頻融合策略的敏感影片檢測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及敏感影片檢測(cè)方法。
背景技術(shù):
近年來(lái),伴隨著計(jì)算機(jī)尤其是互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,敏感信息(主 要包括色情小說(shuō)、圖像和影片)的內(nèi)容和傳播方式也發(fā)生了顯著的變化, 人們現(xiàn)在可以足不出戶輕而易舉地瀏覽到大量的這類內(nèi)容。敏感信息的廣 泛傳播和易獲取性對(duì)廣大未成年人有著巨大的傷害,容易影響青少年的身 心健康并促使誘發(fā)青少年犯罪。和敏感文本及圖像內(nèi)容相比,敏感影片的 危害性更大,因?yàn)樗膱?chǎng)景更逼真,多媒體所帶來(lái)的感官刺激更強(qiáng)烈。如 何充分的利用多媒體敏感影片中的多模態(tài)信息是本發(fā)明的關(guān)鍵內(nèi)容。
目前檢測(cè)敏感影片已存在的技術(shù)主要是針對(duì)影片中視頻圖像幀的檢
測(cè),如專利CN01124484. 4——色情影片的過(guò)濾系統(tǒng)及方法、CN02157117. 1 ——敏感視頻檢測(cè)方法和CN200410033540. 6——基于運(yùn)動(dòng)膚色分割的敏 感視頻檢測(cè)方法。判斷視頻圖像幀是否為敏感圖像主要依賴的是圖像中的 膚色信息,而膚色檢測(cè)在圖像背景較為復(fù)雜或圖象質(zhì)量較差時(shí)往往缺乏魯 棒性,導(dǎo)致誤檢率較高。通常,影片中都包含兩個(gè)主要的模態(tài)信息音頻 信息和視頻信息。雖然采用單一模態(tài)信息可以對(duì)影片進(jìn)行分類,但分類效 果的好壞取決于影片的場(chǎng)景,如視頻的光照和音頻中的噪聲。更加魯棒的 算法是能夠?qū)蓚€(gè)模態(tài)的信息進(jìn)行融合。在敏感影片中這兩個(gè)模態(tài)的信息 往往是密切相關(guān)的,采用多模態(tài)融合的方法可以消除單一模態(tài)中的不確定 性。事實(shí)上,我們?nèi)祟愖陨碓谔幚泶蠖鄶?shù)問(wèn)題時(shí)就是充分地利用了多模態(tài) 融合方法,我們往往會(huì)把眼睛看到的、耳朵聽(tīng)到的,或觸覺(jué)感受到的等多 方面的信息綜合起來(lái)對(duì)一事物進(jìn)行判斷。更進(jìn)一步,音頻的處理速度往往 要明顯高于視頻的處理速度,通過(guò)音頻分析可以快速定位影片中的敏感片斷,再對(duì)該片段進(jìn)行視頻分析進(jìn)而顯著提高影片的處理速度。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于音視頻融合策略的敏感影片檢測(cè)方法, 亦可用來(lái)對(duì)當(dāng)前興起的網(wǎng)絡(luò)視頻聊天室進(jìn)行監(jiān)控。
根據(jù)本發(fā)明的目的,提出一種敏感影片的檢測(cè)方法,包括步驟 通過(guò)敏感聲音模型建立模塊,建立敏感聲音的混合高斯模型;
通過(guò)音視頻分離模塊,實(shí)現(xiàn)音視頻數(shù)據(jù)的分離和加窗; 通過(guò)特征提取模塊,實(shí)現(xiàn)音頻特征提取;
通過(guò)分類融合模塊,實(shí)現(xiàn)敏感聲音片段的定位及敏感程度輸出; 通過(guò)分類融合模塊,實(shí)現(xiàn)敏感片斷視頻圖像幀的檢測(cè),
通過(guò)分類融合模塊,基于貝葉斯的音視頻融合決策,將音頻檢測(cè)結(jié)果 和視頻檢測(cè)結(jié)果相融合,對(duì)影片的敏感性做出綜合決策。 進(jìn)一步,所述的建立敏感聲音的混合高斯模型包括 收集敏感聲音片段樣本,建立敏感聲音訓(xùn)練集和測(cè)試集;
對(duì)敏感聲音訓(xùn)練集中的敏感聲音片段提取13維梅爾頻率倒譜參數(shù) (MFCC)特征,包括12維MFCC系數(shù)以及能量項(xiàng),并以其均值向量作為該 聲音片段的特征;
采用期望最大(EM)算法得到混合高斯模型的各個(gè)參數(shù),包括高斯個(gè) 數(shù)、各個(gè)高斯的中心和協(xié)方差矩陣。
進(jìn)一步,所述的建立敏感聲音的混合高斯模型步驟是獨(dú)立的離線的過(guò) 程,只需進(jìn)行一次,得到的模型參數(shù)存儲(chǔ)到數(shù)據(jù)文件中。
進(jìn)一步,所述敏感片斷視頻圖像幀的檢測(cè)是指,在與檢測(cè)到敏感聲音 片斷相同的時(shí)間軸區(qū)間上截取相應(yīng)的視頻圖像幀集合,并對(duì)視頻圖像幀集 合的敏感性進(jìn)行檢測(cè)。
進(jìn)一步,所述的敏感聲音片段的定位及其敏感程度輸出包括
計(jì)算聲音片段與訓(xùn)練得到的混合高斯模型各高斯中心的馬氏距離,并 求其最小值dm;
5按照如下公式,計(jì)算音頻片段的敏感程度:
1 否則. 2《
其中,e d是一個(gè)閾值,當(dāng)dm〈 e d時(shí),該聲音片斷被認(rèn)為是敏感聲音, 否則為非敏感聲音。
進(jìn)一步,所述的基于貝葉斯的音視頻融合決策過(guò)程是采用音頻片段的 敏感程度來(lái)作為與之相應(yīng)的視頻片斷敏感與否的先驗(yàn)信息。
圖l為本發(fā)明的系統(tǒng)結(jié)構(gòu)框圖。
具體實(shí)施例方式
下面將結(jié)合附圖對(duì)本發(fā)明加以詳細(xì)說(shuō)明,應(yīng)指出的是,所描述的實(shí)施 例僅旨在便于對(duì)本發(fā)明的理解,而對(duì)其不起任何限定作用。
本發(fā)明的執(zhí)行環(huán)境由以下四個(gè)模塊組構(gòu)成 一、敏感聲音模型建立模 塊,該模塊的功能是對(duì)敏感聲音樣本進(jìn)行學(xué)習(xí),得到模型參數(shù)數(shù)據(jù)。二、 音視頻分離模塊,該模塊的功能是將影片中的音頻數(shù)據(jù)和視頻數(shù)據(jù)相分 離。三、特征提取模塊,該模塊的功能是分別對(duì)音頻和視頻提取其特征。 四、分類融合模塊,該模塊的功能是對(duì)音頻和視頻特征進(jìn)行分類,并將分 類結(jié)果進(jìn)行融合,對(duì)影片的敏感性進(jìn)行綜合決策。本發(fā)明的整體框架見(jiàn)圖 1。
下面詳細(xì)給出本發(fā)明技術(shù)方案中所涉及的各個(gè)步驟細(xì)節(jié)問(wèn)題的說(shuō)明。
步驟一建立敏感聲音的混合高斯模型,此步驟是對(duì)敏感聲音樣本進(jìn) 行學(xué)習(xí),得到敏感聲音的統(tǒng)計(jì)特征,此步驟是由一獨(dú)立的敏感聲音模型建 立模塊完成,是一個(gè)離線的過(guò)程,只需進(jìn)行一次,得到的模型參數(shù)存儲(chǔ)到 數(shù)據(jù)文件中。收集大量敏感聲音片段樣本,其中一部分作為訓(xùn)練集,另一 部分作為測(cè)試集。對(duì)敏感聲音訓(xùn)練集中的敏感聲音片段提取13維梅爾頻
率倒譜參數(shù)(MFCC)特征,這樣一段聲音數(shù)據(jù)就被表示為13維MFCC特
6征空間中的一系列點(diǎn)組成,為了計(jì)算的簡(jiǎn)單快速我們?nèi)∵@一些列點(diǎn)的均值
向量作為該段語(yǔ)音的特征向量,因此每段聲音就被映射到13維MFCC特征 空間中的一個(gè)點(diǎn)。在此基礎(chǔ)上建立敏感聲音的混合高斯模型,對(duì)于語(yǔ)音向 量x(維數(shù)為d,本文中d43),采用混合高斯模型描述其分布為
附 w
(x) = /1 , {- 4 o - a )r z:10 - a)}' (2)
如ns/2 2
其中m是混合高斯的個(gè)數(shù),a是高斯分布密度函數(shù),w為高斯中心, ^為協(xié)方差矩陣,^是第A:個(gè)高斯的權(quán)重。我們采用期望最大算法(EM算 法)求取上述混合高斯模型各參數(shù)的最大似然估計(jì)。
給定高斯個(gè)數(shù)m和樣本集K一l…N》,有
l(x, 。 = ioge) = Z iog(J] & a O)) ~> max (3)
0 = (",i:^): A "、 & = S>0,St e W,、 S0,:fX (4)
期望最大算法提供了一種迭代估計(jì)參數(shù) 的方法,它包括求期望階段
(E階段)和最大化階段(M階段)。 在求期望階段
其中,^為樣本i在當(dāng)前的參數(shù)估計(jì)下,屬于第k個(gè)高斯的概率(
在最大化階段
Z Z", - A )" - 〃* f
1 w z^"t廣,' 丄
冗,T7lX, 〃「^-,
2X
當(dāng)相鄰兩次迭代的目標(biāo)函數(shù)之差的絕對(duì)值小于某一設(shè)定值時(shí),迭代收 斂,得到混合高斯模型參數(shù)的一組估計(jì)值。
步驟二音頻數(shù)據(jù)的分離、加窗、以及特征提取,此步驟首先讀取影片文件,將音視頻數(shù)據(jù)分離開,并對(duì)音頻數(shù)據(jù)進(jìn)行特征提取。對(duì)待分類影 片根據(jù)其不同的壓縮格式和編碼方式自動(dòng)選用相應(yīng)的解碼器對(duì)音頻數(shù)據(jù)
和視頻數(shù)據(jù)解碼。這一過(guò)程我們采用微軟公司的DirectShow系統(tǒng)完成, DirectShow系統(tǒng)根據(jù)數(shù)據(jù)源的不同,創(chuàng)建相應(yīng)結(jié)構(gòu)的解碼器組件。對(duì)解碼 后的音頻數(shù)據(jù)進(jìn)行加窗(窗口寬度一般取0.5-2.0秒)并進(jìn)行特征提取, 特征提取方式和建立敏感聲音的混合高斯模型所用的特征提取方式相同, 即提取13維梅爾頻率倒譜參數(shù)(MFCC)特征,并以其均值向量作為該聲 音窗口的特征。
步驟三敏感聲音片段的定位及敏感程度輸出,此步驟在上一步音頻 特征提取完成后,計(jì)算當(dāng)前聲音片斷與之前學(xué)習(xí)得到的敏感聲音模型數(shù)據(jù) 的相似性,若相似則標(biāo)記當(dāng)前片斷為敏感聲音片斷。計(jì)算當(dāng)前聲音窗口的 特征向量與先前訓(xùn)練得到的敏感聲音的混合高斯模型的馬氏距離,若該距 離小于某一閾值則標(biāo)記該聲音窗口為敏感聲音窗口。空間中兩個(gè)點(diǎn)x, y 的馬氏距離定義為
力=乂x-力 (7)
窗口繼續(xù)向前滑動(dòng)并保持50%的重疊。--系列連續(xù)的敏感聲音窗口構(gòu) 成一敏感聲音片斷。為了將音頻識(shí)別結(jié)果和視頻識(shí)別結(jié)果相融合,我們首 先將敏感聲音片段的敏感程度(以Lt表示)轉(zhuǎn)化成類似概率的形式輸出。 轉(zhuǎn)換方法如下
! 否則. U《
其中,dm為聲音片段與敏感聲音混合高斯模型各高斯中心的馬氏距離 的最小值,9d是一個(gè)閾值。這樣離高斯中心越近的點(diǎn)其輸出的敏感程度 越高,反之則越低。
步驟四敏感片斷視頻圖像幀的檢測(cè),該步驟在上一步檢測(cè)到敏感聲
音片斷的基礎(chǔ)上,在相同的時(shí)間軸區(qū)間上截取相應(yīng)的視頻圖像幀集合,并 對(duì)視頻圖像幀集合的敏感性進(jìn)行檢測(cè)。 一旦敏感聲音片斷被檢測(cè)到,則從 視頻數(shù)據(jù)中截取相應(yīng)時(shí)間軸區(qū)間的圖像幀?;谲|干輪廓特征的敏感圖像檢測(cè)算法被用來(lái)檢測(cè)這些圖像幀,由于相鄰圖像幀之間的差別一般比較 小,我們只選取其中的關(guān)鍵幀進(jìn)行檢測(cè)。
步驟五基于貝葉斯的音視頻融合決策,在上述步驟完成的基礎(chǔ)上, 將音頻檢測(cè)結(jié)果和視頻檢測(cè)結(jié)果相融合,對(duì)影片的敏感性做出綜合決策。 首先,統(tǒng)計(jì)敏感視頻圖像幀識(shí)別算法的兩類分類錯(cuò)誤概率把一幅正常圖 像誤分為敏感圖像的概率Pl以及把一幅敏感圖像誤分為正常圖像的概率 p2。假定被分割出的視頻片斷共有N幅關(guān)鍵幀,我們首先引入一個(gè)強(qiáng)的先 驗(yàn)這N幅關(guān)鍵幀圖像要么全為敏感,要么全為正常。假定敏感圖像檢測(cè) 算法對(duì)這N幅關(guān)鍵幀圖像的識(shí)別結(jié)果為r二 (Nl幅關(guān)鍵幀圖像是敏感的,
N2幅關(guān)鍵幀圖像是正常的),我們令S二 (N幅關(guān)鍵幀圖像全是敏感的),
,S 二 (N幅關(guān)鍵幀圖像全是正常的),則有
"叫。-(l一/72廣'(A)、 (9)
/^h s) = (A,'(i—A), (10)
根據(jù)貝葉斯公式我們可以得到
薛"
p(O, (n)
々卜。Xj7(,S).
p(?!?(12)
我們引入一個(gè)因子f ,定義為公式(ll) 、 (12)中的兩個(gè)后驗(yàn)概率之比 =蔣)=p,x柳=(l-p2)、2) 順 /_—WI^s)xK^) (a"(1-a, p("^)' (13)
如果因子f ^1,則影片被認(rèn)為是敏感的。余下的問(wèn)題是估計(jì)公式(13) 中的兩個(gè)先驗(yàn)概率P(S)和p(,S)。與這些視頻圖像幀相應(yīng)的音頻片斷可 以提供一些先驗(yàn)的信息,因而,我們采用先前得到的音頻片斷敏感程度Lt
來(lái)替代P(S),相應(yīng)地,p(iS)由l- Lt所替代。于是我們得到
a廣2 1-A + , (14)
其中e是一個(gè)足夠小的正數(shù)。為了避免出現(xiàn)被零除的情況,將公式(14)改寫為對(duì)數(shù)形式
F =log(l - /72 ) + W2 l0g(/72 ) + log(Z,)]
-[M log(A) + AA2 log(l-A) + log(l-A ")]. (15)
若因子F >0,則影片被認(rèn)為是敏感的。否則,上述過(guò)程繼續(xù)進(jìn)行直 到最后一個(gè)敏感聲音片斷及其對(duì)應(yīng)的視頻片斷被檢測(cè)。若音頻中未發(fā)現(xiàn)敏 感聲音片斷,則只有視頻檢測(cè)器被單獨(dú)使用。
以上所述,僅為本發(fā)明中的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不 局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想 到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保 護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1. 一種基于音視頻融合策略的敏感視頻檢測(cè)方法,其特征在于,包括步驟通過(guò)敏感聲音模型建立模塊,建立敏感聲音的混合高斯模型;通過(guò)音視頻分離模塊,實(shí)現(xiàn)音視頻數(shù)據(jù)的分離和加窗;通過(guò)特征提取模塊,實(shí)現(xiàn)音頻特征提?。煌ㄟ^(guò)分類融合模塊,實(shí)現(xiàn)敏感聲音片段的定位及敏感程度輸出;通過(guò)分類融合模塊,實(shí)現(xiàn)敏感片斷視頻圖像幀的檢測(cè),通過(guò)分類融合模塊,基于貝葉斯的音視頻融合決策,將音頻檢測(cè)結(jié)果和視頻檢測(cè)結(jié)果相融合,對(duì)影片的敏感性做出綜合決策。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的建立敏感聲音 的混合高斯模型包括收集敏感聲音片段樣本,建立敏感聲音訓(xùn)練集和測(cè)試集;對(duì)敏感聲音訓(xùn)練集中的敏感聲音片段提取13維梅爾頻率倒譜參數(shù) (MFCC)特征,包括12維MFCC系數(shù)以及能量項(xiàng),并以其均值向量作為該 聲音片段的特征;采用期望最大(EM)算法得到混合高斯模型的各個(gè)參數(shù),包括高斯個(gè) 數(shù)、各個(gè)高斯的中心和協(xié)方差矩陣。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的建立敏感聲音 的混合高斯模型步驟是獨(dú)立的離線的過(guò)程,只需進(jìn)行一次,得到的模型參 數(shù)存儲(chǔ)到數(shù)據(jù)文件中。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述敏感片斷視頻圖 像幀的檢測(cè)是指,在與檢測(cè)到敏感聲音片斷相同的時(shí)間軸區(qū)間上截取相應(yīng) 的視頻圖像幀集合,并對(duì)視頻圖像幀集合的敏感性進(jìn)行檢測(cè)。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的敏感聲音片段 的定位及其敏感程度輸出包括計(jì)算聲音片段與訓(xùn)練得到的混合高斯模型各高斯中心的馬氏距離,并求其最小值dm;按照如下公式,計(jì)算音頻片段的敏感程度若"'"2 否則.其中,0d是一個(gè)閾值,當(dāng)dm〈 9 d時(shí),該聲音片斷被認(rèn)為是敏感聲音, 否則為非敏感聲音。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的基于貝葉斯的 音視頻融合決策過(guò)程是采用音頻片段的敏感程度來(lái)作為與之相應(yīng)的視頻 片斷敏感與否的先驗(yàn)信息。厶=2義.
全文摘要
本發(fā)明是一種基于音視頻融合策略的敏感視頻檢測(cè)方法,包括步驟建立敏感聲音的混合高斯模型,音頻數(shù)據(jù)的分離、加窗、以及特征提取,敏感聲音片段的定位及其敏感程度輸出,敏感片斷視頻圖像幀的檢測(cè),基于貝葉斯的音視頻融合決策等。本發(fā)明結(jié)合了音頻和視頻兩個(gè)模態(tài)的信息來(lái)過(guò)濾敏感視頻,大大降低了采用單一模態(tài)可能出現(xiàn)的不確定性,顯著提高了識(shí)別效率。本發(fā)明可以用來(lái)檢測(cè)互聯(lián)網(wǎng)上的視頻流以及音像制品中是否包含敏感內(nèi)容,亦可以用來(lái)對(duì)網(wǎng)絡(luò)視頻聊天室進(jìn)行監(jiān)控,一旦發(fā)現(xiàn)色情表演即進(jìn)行阻斷。
文檔編號(hào)G06T7/00GK101470897SQ20071030420
公開日2009年7月1日 申請(qǐng)日期2007年12月26日 優(yōu)先權(quán)日2007年12月26日
發(fā)明者偶 吳, 左海強(qiáng), 胡衛(wèi)明 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所