本發(fā)明涉及網(wǎng)絡信息識別技術(shù)領域,尤其涉及一種視頻有害內(nèi)容識別方法。
背景技術(shù):
隨著深度學習算法、計算機視覺技術(shù)以及移動通信技術(shù)的不斷深入發(fā)展,可以通過互聯(lián)網(wǎng)、移動通信網(wǎng)、廣電有線網(wǎng)等渠道以及電腦、手機、機頂盒等終端向用戶提供多媒體信息和娛樂節(jié)目。近年來大型視頻分享網(wǎng)站的發(fā)展,為人們共享視頻提供了更寬廣的平臺,同時視頻的數(shù)據(jù)量呈現(xiàn)指數(shù)增長的趨勢。龐大的數(shù)據(jù)量以及視頻信息本身的無序性也使得視頻的辨別、檢索和管理變得越來越復雜,單純依靠人工對視頻信息進行分類、篩選和審核,不僅耗時耗力,而且容易出錯。
現(xiàn)在互聯(lián)網(wǎng)產(chǎn)生的大量圖片數(shù)據(jù)為卷積神經(jīng)網(wǎng)絡模型提供了訓練素材,同時,GPU計算能力的增強為卷積神經(jīng)網(wǎng)絡結(jié)合大數(shù)據(jù)的訓練提供了基礎運算能力,計算機視覺技術(shù)也在深度學習算法不斷深入研究的基礎上得到進一步發(fā)展,包括人臉識別、物體檢測、物體跟蹤等。所以,如何有效快速地識別出大規(guī)模視頻內(nèi)容中的有害內(nèi)容,成為目前網(wǎng)絡信息安全領域亟待解決的重要問題。
在現(xiàn)有技術(shù)的中國專利申請?zhí)?00610079023.1中公開了一種視頻碼流過濾方法和過濾節(jié)點,提供的過濾方法只需要部分解碼視頻碼流中的部分數(shù)據(jù),進一步基于場景分割技術(shù)進行識別。可以基于現(xiàn)有有害內(nèi)容的自動識別技術(shù),可以高效的實現(xiàn)自動識別過濾并和人工識別機制配合使用,還可以同時采用現(xiàn)有的基于URL的過濾技術(shù)。該發(fā)明的過濾節(jié)點主要包括:視頻碼流延遲模塊、開關模塊、I幀檢測/解碼模塊、符合特定分類定性分級標準的內(nèi)容識別模塊和判決模塊,該發(fā)明技術(shù)方案減少了需要解碼的數(shù)據(jù)數(shù)量,降低了處理復雜度。但是,該發(fā)明在檢測過濾視頻中的有害內(nèi)容或者有害信息時,識別技術(shù)太過單一并不能準確有效的識別出視頻中的有害內(nèi)容。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種視頻有害內(nèi)容識別方法,通過SIFT(尺度不變特征變換)特征算法、OCR光學字符識別技術(shù)和深度學習相結(jié)合的方式達到視頻及圖像信息多維度有害內(nèi)容識別的目的。
本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:一種視頻有害內(nèi)容識別方法,該方法的步驟如下:
S1、對視頻信息進行視頻近似拷貝檢測;
S2、對有害視頻文本進行識別;
S3、如果S1與S2發(fā)現(xiàn)/或未發(fā)現(xiàn)有害信息時,對視頻的有害內(nèi)容進行智能分析,并利用深度學習目標檢測算法再次識別。
所述S1的具體步驟如下:
S11、對未知的待測視頻或圖像進行有害內(nèi)容識別,提取待測視頻的視頻指紋;
S12、將視頻指紋與視頻指紋庫中的視頻指紋信息以遍歷的方式進行匹配,逐一檢測待測視頻中是否存在不良及受控媒資中的視頻片段。
所述的方法還包括一個建立所述的視頻指紋的步驟,包括以下子步驟:
A1、將不良及受控媒資按照順序提取每個關鍵幀的特征點;
A2、對特征點進行過濾和精確定位后,剔除不穩(wěn)定的特征點;
A3、提取特征點處的特征描述符,并為特征點分配方向值形成特征向量;
A4、將所有特征點的特征向量集合成視頻指紋后入庫形成視頻指紋庫。
所述S2的具體步驟如下:
S21、利用分詞、文本聚類的方式提取素材庫中每個文本信息的有害關鍵詞并形成對應文符集;
S22、將待測視頻圖像幀中的文本信息依次與文符集進行匹配,如果匹配相似度在預設權(quán)值范圍內(nèi),則認為文本信息中包含有害內(nèi)容。
所述的方法還包括建立一個所述的素材庫的步驟,包括以下子步驟:
B1、利用COR技術(shù)提取視頻圖像幀中的文本信息;
B2、根據(jù)視頻圖像幀中的文本信息建立帶有有害關鍵詞的相關文本信息的素材庫。
所述S3包括以下步驟:
S31、將待測視頻或圖像作為有害內(nèi)容輸入智能分析模型,如果待測視頻或圖像中含有有害內(nèi)容信息,標注出有害內(nèi)容位于圖片中的坐標和類型。
所述的方法還包括建立一個所述的智能分析模型的步驟,包括以下子步驟:
C1、利用深度學習目標檢測算法對有害視頻或圖像進行訓練;
C2、建立有害內(nèi)容識別智能分析模型。
所述C1的具體步驟如下:
C11、根據(jù)有害視頻或圖像生成有害視頻或圖像訓練集,并生成圖片庫,包括利用Fast-RCNN深度學習目標檢測算法將圖片庫中的圖片打上標簽;
C12、通過Fast-RCNN深度學習目標檢測算法修改有害內(nèi)容模型配置文件;
C13、在生成有害內(nèi)容訓練集及完成有害內(nèi)容識別智能分析模型配置文件后,啟動Fast-RCNN網(wǎng)絡訓練,主要是加載網(wǎng)絡訓練文件、訓練機器GPU編號、模型配置文件、初始化的權(quán)重文件、訓練數(shù)據(jù)庫名稱。
所述的標簽包括圖片名稱、圖片路徑和圖片類別;所述的模型配置文件修改的內(nèi)容包括檢測類別個數(shù)、學習速率和步長。
優(yōu)選S1與S2未發(fā)現(xiàn)有害信息時,對視頻的有害內(nèi)容進行智能分析,并利用深度學習目標檢測算法再次識別。
本發(fā)明的有益效果是:一種視頻有害內(nèi)容識別方法,通過深度學習、SIFT特征提取算法以及OCR光學字符識別技術(shù)相結(jié)合的方式,可以快速地識別出視頻及圖像中的待檢測內(nèi)容,達到了視頻或圖像信息多維度有害內(nèi)容識別的目的。
附圖說明
圖1為方法的流程圖。
具體實施方式
下面結(jié)合附圖進一步詳細描述本發(fā)明的技術(shù)方案,但本發(fā)明的保護范圍不局限于以下所述。
如圖1所示,一種視頻有害內(nèi)容識別方法,該方法的步驟如下:
S1、對視頻信息進行視頻近似拷貝檢測;
S2、對有害視頻文本進行識別;
S3、如果S1與S2發(fā)現(xiàn)/或未發(fā)現(xiàn)有害信息時,對視頻的有害內(nèi)容進行智能分析,并利用深度學習目標檢測算法再次識別。
所述S1的具體步驟如下:
S11、對未知的待測視頻或圖像進行有害內(nèi)容識別,提取待測視頻的視頻指紋;
S12、將視頻指紋與視頻指紋庫中的視頻指紋信息以遍歷的方式進行匹配,逐一檢測待測視頻中是否存在不良及受控媒資中的視頻片段。
所述的方法還包括一個建立所述的視頻指紋的步驟,包括以下子步驟:
A1、將不良及受控媒資按照順序提取每個關鍵幀的特征點;
A2、對特征點進行過濾和精確定位后,剔除不穩(wěn)定的特征點;
A3、提取特征點處的特征描述符,并為特征點分配方向值形成特征向量;
A4、將所有特征點的特征向量集合成視頻指紋后入庫形成視頻指紋庫。
所述S2的具體步驟如下:
S21、利用分詞、文本聚類的方式提取素材庫中每個文本信息的有害關鍵詞并形成對應文符集;
S22、將待測視頻圖像幀中的文本信息依次與文符集進行匹配,如果匹配相似度在預設權(quán)值范圍內(nèi),則認為文本信息中包含有害內(nèi)容(涉暴、涉恐和反動等)。
所述的方法還包括建立一個所述的素材庫的步驟,包括以下子步驟:
B1、利用COR技術(shù)提取視頻圖像幀中的文本信息;
B2、根據(jù)視頻圖像幀中的文本信息建立帶有有害關鍵詞的相關文本信息的素材庫。
所述S3包括以下步驟:
S31、將待測視頻或圖像作為有害內(nèi)容輸入智能分析模型,如果待測視頻或圖像中含有有害內(nèi)容信息,標注出有害內(nèi)容位于圖片中的坐標和類型。
所述的方法還包括建立一個所述的智能分析模型的步驟,包括以下子步驟:
C1、利用深度學習目標檢測算法對有害視頻或圖像進行訓練;
C2、建立有害內(nèi)容識別智能分析模型。
所述C1的具體步驟如下:
C11、根據(jù)有害視頻或圖像生成有害視頻或圖像訓練集,并生成圖片庫(約為5000張),包括利用Fast-RCNN深度學習目標檢測算法將圖片庫中的圖片打上標簽;
C12、通過Fast-RCNN深度學習目標檢測算法修改有害內(nèi)容模型配置文件;
C13、在生成有害內(nèi)容訓練集及完成有害內(nèi)容識別智能分析模型配置文件后,啟動Fast-RCNN網(wǎng)絡訓練,主要是加載網(wǎng)絡訓練文件、訓練機器GPU編號、模型配置文件、初始化的權(quán)重文件、訓練數(shù)據(jù)庫名稱。
所述的標簽包括圖片名稱、圖片路徑和圖片類別(槍支、蒙面、坦克、旗幟、恐怖組織標識和聚眾等);所述的模型配置文件修改的內(nèi)容包括檢測類別個數(shù)、學習速率和步長。
優(yōu)選S1與S2未發(fā)現(xiàn)有害信息時,對視頻的有害內(nèi)容進行智能分析,并利用深度學習目標檢測算法再次識別。
若待測視頻指紋與視頻指紋庫中對應的受控媒資視頻指紋匹配度大于65%,則認為待測視頻或圖像與視頻指紋庫中對應的受控媒資視頻或圖像相似。
所述的匹配相似度的預設權(quán)值范圍為匹配相似度大于55%,則認為文本信息中包含有害內(nèi)容。
優(yōu)選地,當待測視頻或圖像經(jīng)過視頻指紋庫檢測和OCR檢測均未發(fā)現(xiàn)有害信息時,利用深度學習目標檢測算法再次識別待測視頻或圖像,將待測視頻或圖像作為有害內(nèi)容輸入智能分析模型,在經(jīng)過有害內(nèi)容識別智能分析模型處理后,如果圖像中含有有害內(nèi)容信息,將以XML文件形式將有害內(nèi)容位于圖片中的坐標、類型(槍支、蒙面、坦克、旗幟、恐怖組織標識和聚眾等)進行標注,以此更加準確地識別出未知視頻或圖像是否含有有害內(nèi)容。將過深度學習、SIFT特征提取算法以及OCR技術(shù)相結(jié)合,利用三重檢測判斷機制實現(xiàn)涉暴、涉恐、血腥和政治有害視頻或圖像有害內(nèi)容的識別。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應當理解本發(fā)明并非局限于本文所披露的形式,不應看作是對其他實施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述構(gòu)想范圍內(nèi),通過上述教導或相關領域的技術(shù)或知識進行改動。而本領域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍,則都應在本發(fā)明所附權(quán)利要求的保護范圍內(nèi)。