【技術(shù)領(lǐng)域】
本發(fā)明涉及圖片文件識別的技術(shù)領(lǐng)域,特別涉及一種敏感圖片文件的智能識別方法。
背景技術(shù):
數(shù)字信息技術(shù)的快速發(fā)展大力推動了計算機網(wǎng)絡(luò)與信息系統(tǒng)在政府及企事業(yè)單位的廣泛應用,為辦公及生產(chǎn)建設(shè)的電子化、自動化、信息化提供了堅實保障,但目前關(guān)于電子文檔的安全監(jiān)控系統(tǒng)大部分是針對計算機可以直接識別的計算機文字而設(shè)計,而對圖像形式的電子文檔的監(jiān)控暫時還沒有很好的系統(tǒng)對其處理。各種涉密信息也大量以電子文件的形式存儲于計算機系統(tǒng)中。尤其在政府內(nèi)網(wǎng)(公安、檢察院、法院、政府、財稅、電力等等領(lǐng)域)環(huán)境中,防止涉密文件的非法存儲可以說已成為國家安全保密工作的重中之重。
在實際應用當中會存在很多圖片格式、視頻格式的涉密信息文件,并且有些用戶為了逃避監(jiān)管,利用手機、相機、視頻等設(shè)備把文本涉密信息內(nèi)容拍成圖片和視頻格式存放,導致無法完全實現(xiàn)對圖片、視頻格式涉密文件的智能發(fā)現(xiàn)和監(jiān)管,存在監(jiān)管漏洞。
為了解決上述問題,有必要提出一種敏感圖片文件的智能識別方法,實現(xiàn)對圖片格式涉密文件的智能識別和監(jiān)管,實現(xiàn)對圖片敏感文件的智能發(fā)現(xiàn)和定位,減少敏感文件泄露的風險,解決當前利用手機和相機任意拍攝敏感文件存放,逃避監(jiān)管的行為。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的不足,提供一種敏感圖片文件的智能識別方法,其旨在解決現(xiàn)有技術(shù)中對圖片格式涉密文件的智能識別和監(jiān)管力度較小,存在較大的泄露風險,同時圖片格式的涉密文件易逃避監(jiān)管的技術(shù)問題。
為實現(xiàn)上述目的,本發(fā)明提出了一種敏感圖片文件的智能識別方法,其基于部署于終端設(shè)備上的終端監(jiān)測程序,來實現(xiàn)對終端設(shè)備上文件系統(tǒng)的掃描和監(jiān)控,同時把結(jié)果數(shù)據(jù)上報給中心分析服務器,中心分析服務器根據(jù)圖片文件的敏感特征進行建模分析,并識別是否為敏感圖片,具體步驟如下:
第一步、啟動終端設(shè)備上的終端監(jiān)測程序,對終端設(shè)備上的文件系統(tǒng)進行掃描,并且對圖片文件的格式進行預處理,形成標準格式的圖片文件;
第二步、識別預處理后標準格式的圖片文件的不同顏色區(qū)域,并且對不同顏色區(qū)域進行灰度和二值化處理,讀取圖片文件上的像素點,必要時根據(jù)圖片內(nèi)容位置進行圖片旋轉(zhuǎn)擺正處理;
第三步、對圖片上的文字區(qū)域進行合并處理,找出具有文字特征的文字區(qū)域邊界,提取文字區(qū)域塊;
第四步、對提取的具有文字特征的文字區(qū)域塊進行內(nèi)容檢測,通過字符切割和旋轉(zhuǎn)處理,提取出圖片上的特征內(nèi)容文字;
第五步、終端監(jiān)測程序?qū)μ崛〕龅奶卣鲀?nèi)容文字與對比數(shù)據(jù)庫進行匹配,識別是否存在絕密、機密、秘密信息的敏感特征,同時終端設(shè)備上的終端監(jiān)測程序?qū)⒚舾刑卣鱾鬏斀o中心分析服務器;
第六步、中心分析服務器根據(jù)敏感特征進行建模分析,根據(jù)模型分析結(jié)果識別終端設(shè)備上的圖片文件是否為敏感圖片。
作為優(yōu)選,所述的第一步中的預處理包括像素矩陣的縮放處理和噪聲去除處理。
作為優(yōu)選,所述的第二步中識別不同顏色區(qū)域時,特別提取出圖片文件的紅色區(qū)域。
作為優(yōu)選,所述的第三步中對圖片上的文字區(qū)域進行合并處理時,連續(xù)兩行只有一個字則合并為一個區(qū)域。
作為優(yōu)選,所述的第六步中中心分析服務器利用敏感文件特征知識庫,通過對圖片文件的特征進行關(guān)聯(lián)分析,實現(xiàn)敏感特征文件的特征建模,完成對具有敏感特征的圖片文件的智能識別。
作為優(yōu)選,所述的圖片文件的特征包括文件頭、文件頭內(nèi)容、段落、特征字段。
本發(fā)明的有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明提供的一種敏感圖片文件的智能識別方法,通過在終端設(shè)備設(shè)備上部署一個終端監(jiān)測程序,實現(xiàn)對終端設(shè)備文件系統(tǒng)的掃描和監(jiān)控,同時把結(jié)果數(shù)據(jù)上報給中心分析服務器,根據(jù)敏感特征建模分析,識別其是否為敏感圖片,本發(fā)明依靠對圖片內(nèi)文字內(nèi)容的提取和識別技術(shù),通過敏感特征分析模型,實現(xiàn)對敏感圖片文件的智能發(fā)現(xiàn)和定位,實現(xiàn)對圖片格式涉密文件的智能識別和監(jiān)管,大大減少了敏感文件泄露的風險,解決當前利用手機和相機任意拍攝敏感文件存放,逃避監(jiān)管的行為。
本發(fā)明的特征及優(yōu)點將通過實施例結(jié)合附圖進行詳細說明。
【附圖說明】
圖1是本發(fā)明實施例一種敏感圖片文件的智能識別方法的流程示意圖。
【具體實施方式】
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明了,下面通過附圖中及實施例,對本發(fā)明進行進一步詳細說明。但是應該理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限制本發(fā)明的范圍。此外,在以下說明中,省略了對公知結(jié)構(gòu)和技術(shù)的描述,以避免不必要地混淆本發(fā)明的概念。
參閱圖1,本發(fā)明實施例提供一種敏感圖片文件的智能識別方法,其基于部署于終端設(shè)備上的終端監(jiān)測程序,來實現(xiàn)對終端設(shè)備上文件系統(tǒng)的掃描和監(jiān)控,同時把結(jié)果數(shù)據(jù)上報給中心分析服務器,中心分析服務器根據(jù)圖片文件的敏感特征進行建模分析,并識別是否敏感圖片,具體步驟如下:
第一步、啟動終端設(shè)備上的終端監(jiān)測程序,對終端設(shè)備上的文件系統(tǒng)進行掃描,并且對圖片文件的格式進行預處理,形成標準格式的圖片文件。
其中,中的預處理包括像素矩陣的縮放處理和噪聲去除處理。
第二步、識別預處理后標準格式的圖片文件的不同顏色區(qū)域,并且對不同顏色區(qū)域進行灰度和二值化處理,讀取圖片文件上的像素點,必要時根據(jù)圖片內(nèi)容位置進行圖片旋轉(zhuǎn)擺正處理。
在本發(fā)明實施例中,在識別不同顏色區(qū)域時,特別提取出圖片文件的紅色區(qū)域。
第三步、對圖片上的文字區(qū)域進行合并處理,找出具有文字特征的文字區(qū)域邊界,提取文字區(qū)域塊。
其中,對圖片上的文字區(qū)域進行合并處理時,連續(xù)兩行只有一個字則合并為一個區(qū)域。
第四步、對提取的具有文字特征的文字區(qū)域塊進行內(nèi)容檢測,通過字符切割和旋轉(zhuǎn)處理,提取出圖片上的特征內(nèi)容文字。
第五步、終端監(jiān)測程序?qū)μ崛〕龅奶卣鲀?nèi)容文字與對比數(shù)據(jù)庫進行匹配,識別是否存在絕密、機密、秘密信息的敏感特征,同時終端設(shè)備上的終端監(jiān)測程序?qū)⒚舾刑卣鱾鬏斀o中心分析服務器。
第六步、中心分析服務器根據(jù)敏感特征進行建模分析,根據(jù)模型分析結(jié)果識別終端設(shè)備上的圖片文件是否為敏感圖片。
在本發(fā)明實施例中,中心分析服務器利用敏感文件特征知識庫,通過對圖片文件的特征進行關(guān)聯(lián)分析,實現(xiàn)敏感特征文件的特征建模,完成對具有敏感特征的圖片文件的智能識別。
進一步地,所述的圖片文件的特征包括文件頭、文件頭內(nèi)容、段落、特征字段。
本發(fā)明一種敏感圖片文件的智能識別方法,通過在終端設(shè)備設(shè)備上部署一個終端監(jiān)測程序,實現(xiàn)對終端設(shè)備文件系統(tǒng)的掃描和監(jiān)控,同時把結(jié)果數(shù)據(jù)上報給中心分析服務器,根據(jù)敏感特征建模分析,識別其是否是銘感圖片,本發(fā)明依靠對圖片內(nèi)文字內(nèi)容的提取和識別技術(shù),通過敏感特征分析模型,實現(xiàn)對敏感圖片文件的智能發(fā)現(xiàn)和定位,實現(xiàn)對圖片格式涉密文件的智能識別和監(jiān)管,大大減少了敏感文件泄露的風險,解決當前利用手機和相機任意拍攝敏感文件存放,逃避監(jiān)管的行為。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換或改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。