專利名稱:一種垃圾圖片識別方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖片處理技術(shù)領(lǐng)域,特別是涉及一種垃圾圖片識別方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,博客、微博、貼吧、SNS(Social Network Site,社交網(wǎng)站)得到了快速的發(fā)展,為人們傳播、交流各種信息提高了廣泛的平臺?;ヂ?lián)網(wǎng)為信息的傳播和獲取帶來了便利,但隨之而來的是垃圾信息的泛濫。垃圾信息傳播快速,且形式多樣,內(nèi)容多以中獎、詐騙、廣告、色情信息為主,其存在嚴(yán)重影響了用戶體驗。隨著服務(wù)運營商對反垃圾領(lǐng)域的持續(xù)投入,部分垃圾信息從傳統(tǒng)的文本信息轉(zhuǎn)換為圖片信息,給服務(wù)運營商識別垃圾信息帶來了一定的難度。如何快速、準(zhǔn)確地識別出垃圾圖片已經(jīng)成為一個重要的技術(shù)問題。 現(xiàn)有技術(shù)中存在幾種識別垃圾圖片的方法。其中一種是通過計算待識別圖片MD5(Message Digest Algorithm MD5,中文名稱為消息摘要算法第五版,一種散列函數(shù))值,將待識別圖片的MD5值與相應(yīng)的垃圾圖片庫中的MD5值進(jìn)行匹配的方式來識別垃圾圖片。這種方式在垃圾圖片庫足夠大的情況下,可以快速、準(zhǔn)確地對垃圾圖片進(jìn)行識別。但是這種方法對圖片變動的適應(yīng)性非常差,垃圾圖片制造者只需要對圖片做一些小的變化,獲取的待識別圖片MD5值就會不同,則無法對垃圾圖片進(jìn)行有效的識別?,F(xiàn)有技術(shù)還存在另外一些方法,這些方法首先提取各類圖片特征,例如幾何矩、復(fù)數(shù)矩、顏色直方圖等,然后利用獲取的圖片特征到已經(jīng)訓(xùn)練完成的模型里進(jìn)行分類操作來判斷該圖片是否為垃圾圖片。這些方法的缺點是大部分計算量較大,并且識別的準(zhǔn)確率較低。另一方面,這些方法對垃圾圖片變動的適應(yīng)性也普遍比較差,比如兩張圖片里面的垃圾信息基本保持不變,但是圖片的背景顏色、圖片中的文字大小等發(fā)生變化,如果一張圖片已經(jīng)在訓(xùn)練庫中,另外一張圖片是待識別的圖片,則還是較難獲取準(zhǔn)確的識別結(jié)果,因此這些方法也不是理想的垃圾圖片識別方法。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明實施例提供了一種垃圾圖片識別方法和裝置,可以快速、準(zhǔn)確、有效地識別出垃圾圖片。技術(shù)方案如下—方面,本發(fā)明實施例公開了一種垃圾圖片識別方法,所述方法包括獲取待識別圖片的圖片特征;對所述圖片特征進(jìn)行切分,生成圖片特征序列;將所述待識別圖片的圖片特征序列中連續(xù)兩個圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫中的特征組合倒排索引進(jìn)行比對,獲取包含所述圖片特征組合的垃圾圖片集合;所述垃圾圖片特征庫包含有垃圾圖片庫中的所有垃圾圖片的圖片特征;
分別計算待識別圖片與所述垃圾圖片集合中的各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識別圖片的相似度值大于設(shè)定閾值時,則判斷所述待識別圖片為垃圾圖片。優(yōu)選地,在獲取待識別圖片的圖片特征之前,所述方法還包括對待識別圖片進(jìn)行預(yù)處理,將所述待識別圖片進(jìn)行灰度化以及二值化處理,并將其轉(zhuǎn)換為預(yù)設(shè)的格式。優(yōu)選地,所述獲取待識別圖片的圖片特征包括對待識別圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓;對待識別圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域;對待識別圖片進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征;利用所述文本形狀特征對待識別圖片中的文字進(jìn)行識別,獲取文本形狀特征碼,將所述文本形狀特征碼作為待識別圖片的圖片特征。優(yōu)選地,所述方法還包括獲取垃圾圖片庫中的所有圖片的圖片特征,建立垃圾圖片特征庫。優(yōu)選地,所述方法還包括為所述垃圾圖片特征庫建立倒排索引,所述倒排索引由哈希表組成,所述哈希表以連續(xù)兩個圖片特征組成的特征組合為鍵、以包含所述特征組合的垃圾圖片的圖片標(biāo)識以及特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項信息的鏈表為值;其中,所述圖片標(biāo)識為垃圾圖片在垃圾圖片特征庫的唯一標(biāo)識。
優(yōu)選地,所述將所述待識別圖片的圖片特征序列中連續(xù)兩個圖片特征作為特征組合,將所述特征組合與預(yù)存在垃圾圖片特征庫中的特征組合倒排索引進(jìn)行比對,獲取包含所述圖片特征組合的垃圾圖片集合包括獲取圖片特征序列中任意連續(xù)兩個圖片特征作為當(dāng)前特征組合;將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對;判斷所述倒排索引中是否存在所述特征組合;如果不存在,進(jìn)入獲取待識別圖片的圖片特征序列中未處理的連續(xù)兩個圖片特征的步驟;如果存在,獲取與所述特征組合對應(yīng)的所有垃圾圖片標(biāo)識;獲取待識別圖片的圖片特征序列中未處理的連續(xù)兩個圖片特征,將其作為當(dāng)前特征組合,進(jìn)入將所述特征組合與倒排索引中的特征組合進(jìn)行比對的步驟,直到處理完待識別圖片的圖片特征序列中的所有特征組合;根據(jù)獲取的所有垃圾圖片的圖片標(biāo)識確定垃圾圖片集合。優(yōu)選地,所述將所述待識別圖片的圖片特征序列中連續(xù)兩個圖片特征作為特征組合,將所述特征組合與預(yù)存在垃圾圖片特征庫中的特征組合倒排索引進(jìn)行比對,獲取包含所述圖片特征組合的垃圾圖片集合包括獲取圖片特征序列中任意連續(xù)兩個圖片特征作為當(dāng)前特征組合,將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行比對,判斷所述倒排索引中是否存在所述特征組合;如果存在,獲取與所述特征組合對應(yīng)的所有垃圾圖片標(biāo)識,確定垃圾圖片集合,并進(jìn)入計算待識別圖片與所述垃圾圖片集合中的各垃圾圖片的相似度值的步驟;
如果不存在,獲取待識別圖片的圖片特征序列未處理的連續(xù)兩個圖片特征,將其作為當(dāng)前特征組合,進(jìn)入將所述當(dāng)前特征組合與倒排索引中的特征組合進(jìn)行比對的步驟。優(yōu)選地,所述方法還包括當(dāng)判斷所述相似度值都小于設(shè)定閾值時,獲取待識別圖片的圖片特征序列中未處理的連續(xù)兩個圖片特征序列作為特征組合,進(jìn)行迭代處理,直到任意一條相似度值大于設(shè)定閾值,停止迭代處理。優(yōu)選地,所述待識別圖片與所述垃圾圖片集合中的其中一張垃圾圖片的相似度值通過以下方法得到 獲取待識別圖片與所述垃圾圖片具有的共同特征組合的個數(shù);獲取待識別圖片與所述垃圾圖片的特征組合總數(shù)與共同特征組合數(shù)之間的差值;將所述共同特征組合數(shù)與所述差值的比值作為待識別圖片與所述垃圾圖片的相似度值。另一方面,本發(fā)明實施例還公開了一種垃圾圖片識別裝置,所述裝置包括圖片特征獲取單元,用于獲取待識別圖片的圖片特征;特征序列生成單元,用于對所述圖片特征進(jìn)行切分,生成圖片特征序列;特征比對單元,用于將所述待識別圖片的圖片特征序列中連續(xù)兩個圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫中的特征組合倒排索引進(jìn)行比對,獲取包含所述圖片特征組合的垃圾圖片集合;所述垃圾圖片特征庫包含有垃圾圖片庫中的所有垃圾圖片的圖片特征;第一判斷單元,用于分別計算待識別圖片與所述垃圾圖片集合中各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識別圖片的相似度值大于設(shè)定閾值時,則判斷所述待識別圖片為垃圾圖片。優(yōu)選地,所述裝置還包括預(yù)處理單元,用于對待識別圖片進(jìn)行預(yù)處理,將所述待識別圖片進(jìn)行灰度化以及二值化處理,并將其轉(zhuǎn)換為預(yù)設(shè)的格式。優(yōu)選地,所述圖片特征獲取單元包括布局分析單元,用于對待識別圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓;膨脹腐蝕處理單元,用于對待識別圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域;濾波處理單元,用于對待識別圖片進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征;識別單元,用于利用所述文本形狀特征對待識別圖片中的文字進(jìn)行識別,獲取文本形狀特征碼,將所述文本形狀特征碼作為待識別圖片的圖片特征。優(yōu)選地,所述裝置還包括垃圾圖片特征庫建立單元,用于獲取垃圾圖片庫中的所有圖片的圖片特征,建立垃圾圖片特征庫。優(yōu)選地,所述裝置還包括索引建立單元,用于為所述垃圾圖片特征庫建立倒排索引,所述倒排索引由哈希表組成,所述哈希表以連續(xù)兩個圖片特征組成的特征組合為鍵、以包含所述特征組合的垃圾圖片的圖片標(biāo)識以及特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項信息的鏈表為值;其中,所述圖片標(biāo)識為垃圾圖片在垃圾圖片特征庫的唯一標(biāo)識。優(yōu)選地,所述特征比對單元包括第一獲取單元,用于獲取圖片特征序列中任意連續(xù)兩個圖片特征作為當(dāng)前特征組合;第一查找單元將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對;第二判斷單元,用于判斷所述倒排索引中是否存在所述特征組合;如果所述判斷結(jié)果表明不存在所述特征組合,進(jìn)入第三獲取單元;如果所述判斷結(jié)果表明存在所述特征組合,進(jìn)入第二獲取單元; 第二獲取單元,用于獲取與所述特征組合對應(yīng)的所有垃圾圖片標(biāo)識,進(jìn)入第三獲取單元;第三獲取單元,用于獲取待識別圖片的圖片特征序列中未處理的連續(xù)兩個圖片特征,將其作為當(dāng)前特征組合,進(jìn)入第一查找單元,直到處理完待識別圖片的圖片特征序列中的所有特征組合;確定單元,用于根據(jù)獲取的所有垃圾圖片的標(biāo)識確定垃圾圖片集合。優(yōu)選地,所述特征比對單元包括第四獲取單元,用于獲取圖片特征序列中任意連續(xù)兩個圖片特征作為當(dāng)前特征組合;第二查找單元,用于將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對;第三判斷單元,用于判斷所述倒排索引中是否存在所述特征組合;當(dāng)所述判斷結(jié)果表明存在所述特征組合,進(jìn)入第五獲取單元;當(dāng)所述判斷結(jié)果表明不存在所述特征組合,進(jìn)入第六獲取單元;第五獲取單元,用于獲取與所述特征組合對應(yīng)的所有垃圾圖片標(biāo)識,進(jìn)入第一判斷單元;第六獲取單元,用于當(dāng)所述判斷結(jié)果表明不存在所述特征組合,獲取待識別圖片的圖片特征序列未處理的連續(xù)兩個圖片特征,將其作為當(dāng)前特征組合,進(jìn)入第二查找單元。優(yōu)選地,所述裝置還包括迭代處理單元,用于當(dāng)?shù)谝慌袛鄦卧呐袛嘟Y(jié)果表明所述相似度值都小于設(shè)定閾值時,獲取待識別圖片的圖片特征序列中未處理的連續(xù)兩個圖片特征序列作為特征組合,進(jìn)行迭代處理,直到任意一條相似度值大于設(shè)定閾值,停止迭代處理。本發(fā)明實施例能夠達(dá)到的有益效果為本發(fā)明實施例提供的方法,通過提取待識別圖片的圖片特征,將圖片特征進(jìn)行切分,生成圖片特征序列,并將圖片特征序列中連續(xù)兩個圖片特征作為特征組合與預(yù)存的垃圾圖片特征庫中的特征組合倒排索引進(jìn)行比對,獲取包含所述圖片特征組合的垃圾圖片集合;然后計算待識別圖片與所述垃圾圖片集合中各張垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識別圖片的相似度值大于設(shè)定閾值時,則判斷待識別圖片為垃圾圖片。本發(fā)明提供的方法由于對圖片特征組合創(chuàng)建了倒排索引及采用了基于圖片特征組合的方式進(jìn)行比對,可以提高垃圾圖片的識別效率。另一方面,由于提取了圖片的文本形狀特征碼作為圖片特征并采用了基于特征組合的比對方式,因此對垃圾圖片變化的適應(yīng)性強,提高了識別的效果和準(zhǔn)確率。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。 圖I為本發(fā)明提供的垃圾圖片識別方法第一實施例流程圖;圖2為本發(fā)明提供的垃圾圖片識別方法第二實施例流程圖;圖3是對垃圾圖片特征庫中圖片A的圖片特征(“feature^feature;^feature/’)建立的第一圖片特征表hashmapa的結(jié)構(gòu)示意圖;圖4是對垃圾圖片特征庫中圖片A的圖片特征(“feature^feature;^feature/’)建立的倒排索引的結(jié)構(gòu)示意圖;圖5是對待識別的圖片B的圖片特征(“feature^feature;^feature/’)建立的第二圖片特征表hashmapb的結(jié)構(gòu)示意圖;圖6是垃圾圖片特征庫中圖片A的圖片特征(“feature” feature2、feature/’)與待識別的圖片B的圖片特征(“feature^feature;^feature/’)包含共同圖片特征組合項的第三圖片特征表hashmap。的結(jié)構(gòu)示意圖;圖7為本發(fā)明提供的垃圾圖片識別方法第三實施例流程圖;圖8為本發(fā)明實施例提供的垃圾圖片識別裝置示意圖。
具體實施例方式本發(fā)明實施例提供了一種垃圾圖片識別方法和裝置,可以快速、準(zhǔn)確地識別出垃圾圖片。為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。參見圖1,為本發(fā)明提供的垃圾圖片識別方法第一實施例流程圖。所述方法包括SIOI,獲取待識別圖片的圖片特征。在本發(fā)明第一具體實施例中,步驟SlOl通過以下步驟實現(xiàn)S101A,對待識別圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓。S101B,對待識別圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域。S101C,對待識別圖片通過特定的濾波器進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征。
S101D,利用所述文本形狀特征對待識別圖片中的文字進(jìn)行識別,獲取文本形狀特征碼,將所述文本形狀特征碼作為待識別圖片的圖片特征。具體的,獲取文本形狀特征碼,其中對于英文和數(shù)字,因其總體包含的字符形狀個數(shù)有限,由文本字符形狀轉(zhuǎn)換成具體字符的開銷很小,這類字符的文本形狀特征碼為具體的字符本身,對于中文及其它字符,特別是中文,對單個中文通過水平或者垂直方向上的形狀拆分處理,分成一個或者多個小的子形狀,對各個子形 狀識別出相關(guān)的文本形狀特征碼,最終組成該中文總的文本形狀特征碼,因子形狀識別為文本形狀特征碼的過程在很小的字符形狀集中進(jìn)行,因此對中文的文本形狀特征碼提取過程明顯加快,且能比較準(zhǔn)確地提取到文本字符形狀特征。S102,對所述圖片特征進(jìn)行切分,生成圖片特征序列。待識別圖片可以包括多個圖片特征,這多個圖片特征未切分前是連在一起的,通過切分把這些連續(xù)的圖片特征,切分成一個個小的圖片特征,然后生成圖片特征序列。S103,將所述待識別圖片的圖片特征序列中連續(xù)兩個圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫中的特征組合倒排索引進(jìn)行比對,獲取包含所述圖片特征組合的垃圾圖片集合。具體的,可以預(yù)先建立一個垃圾圖片庫,里面存放有所有的垃圾圖片。獲取垃圾圖片庫中的垃圾圖片的圖片特征,建立垃圾圖片特征庫和倒排索引。所述垃圾圖片特征庫包含有垃圾圖片庫中的所有垃圾圖片的圖片特征。其中,倒排索引由哈希表組成,所述哈希表以連續(xù)兩個圖片特征組成的特征組合為鍵、以包含所述特征組合的垃圾圖片的圖片標(biāo)識以及特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項信息的鏈表為值;其中,所述圖片標(biāo)識為垃圾圖片在垃圾圖片特征庫的唯一標(biāo)識。在這一步驟中,將待識別圖片的圖片特征序列中連續(xù)兩個圖片特征組合在一起形成特征組合,將特征組合與垃圾圖片特征庫中的特征組合倒排索引進(jìn)行比對,當(dāng)比對結(jié)果表明垃圾圖片特征庫中存在與所述待識別圖片的特征組合相同的特征組合時,獲取與所述特征組合對應(yīng)的垃圾圖片集合。其中,垃圾圖片集合可以包含一張圖片,也可以包含多張圖片。S104,計算待識別圖片與所述垃圾圖片集合中各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識別圖片的相似度值大于設(shè)定閾值時,則判斷所述待識別圖片為垃圾圖片。本發(fā)明第一實施例提供的方法對圖片特征組合創(chuàng)建了倒排索引及采用了基于圖片特征組合的方式進(jìn)行比對,一方面可以提高垃圾圖片的識別效率;另一方面,由于提取了圖片的文本形狀特征碼作為圖片特征及采用了基于特征組合的比對方式,因此對垃圾圖片變化的適應(yīng)性強,提高了識別的效果和準(zhǔn)確率。參見圖2,為本發(fā)明提供的垃圾圖片識別方法第二實施例流程圖。S201,建立垃圾圖片特征庫。在本發(fā)明第二實施例中,預(yù)先建立了垃圾圖片特征庫,所述垃圾圖片特征庫包含有垃圾圖片庫中的所有垃圾圖片的圖片特征。首先提取垃圾圖片庫中的所有垃圾圖片的圖片特征。提取垃圾圖片的圖片特征的步驟與提取待識別圖片的圖片特征的步驟相同。下面以提取垃圾圖片的文本形狀特征為例進(jìn)行說明。S201A,對垃圾圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓。S201B,對垃圾圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域。S201C,對垃圾圖片通過特定的濾波器進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征。S201D,利用所述文本形狀特征對垃圾圖片中的文字進(jìn)行識別,獲取文本形狀特征碼,將所述文本形狀特征碼作為垃圾圖片的圖片特征。具體的,獲取文本形狀特征碼,其中對于英文和數(shù)字,因其總體包含的字符形狀個數(shù)有限,由文本字符形狀轉(zhuǎn)換成具體字符的開銷很小,這類字符的文本形狀特征碼為具體的字符本身,對于中文及其它字符,特別是中文,對單個中文通過水平或者垂直方向上的形狀拆分處理,分成一個或者多個小的子形狀,對各個子形狀識別出相關(guān)的文本形狀特征碼, 最終組成該中文總的文本形狀特征碼,因子形狀識別為文本形狀特征碼的過程在很小的字符形狀集中進(jìn)行,因此對中文的文本形狀特征碼提取過程明顯加快,且能比較準(zhǔn)確地提取到文本字符形狀特征。其次,將所述垃圾圖片的圖片特征保存在垃圾圖片特征庫中。為每一張垃圾圖片賦予一個唯一的圖片標(biāo)識,用于唯一標(biāo)識垃圾圖片。S202,將垃圾圖片的圖片特征讀出后,生成圖片特征序列。具體的,從垃圾圖片特征庫中把各行圖片特征讀出然后放入隊列中,隊列中的每個元素除包含一張圖片的特征外,還保存了標(biāo)識圖片特征唯一信息的圖片特征庫ID值。將隊列中個各條圖片特征讀出,對它們進(jìn)行圖片特征切分,生成相應(yīng)的圖片特征序列。例如,垃圾圖片特征庫中有一條圖片特征,為圖片A的圖片特征。其中,圖片A的圖片特征為“feature^ feature2、feature/’,它唯一的圖片特征庫ID值為I,表示圖片A是垃圾圖片。則經(jīng)過特征切分模塊分解以后得到圖片A的圖片特征序列為〈“feature/’,“feature/’,“feature/,>。S203,建立第一圖片特征表。其中,第一圖片特征表具體為垃圾圖片特征表,我們將其稱為hashmapa。所述第一圖片特征表以垃圾圖片的圖片特征庫ID為鍵,包含的特征組合項總計數(shù)為值的哈希表hashmap,標(biāo)記為hashmapa。以圖3所示進(jìn)行說明,例如圖片A對應(yīng)的圖片特征序列< “feature/’,“feature/’,“feature/’〉進(jìn)行上述操作,圖片A在垃圾圖片特征庫中的圖片標(biāo)識為I,其包含的特征組合項計數(shù)為2,故生成的hashmapa如圖3所示。S204,建立倒排索引。對步驟S202生成的每個圖片特征序列,創(chuàng)建按連續(xù)兩個圖片特征組合在一起的“圖片特征圖片特征”為鍵,包含該兩個圖片特征組合的圖片特征庫ID和該圖片特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項信息的鏈表為值的倒排索引inverted index。參見圖
4,為本發(fā)明實施例倒排索引示意圖。仍以垃圾圖片A為例,其具有“feature” feature2、feature3”圖片特征,圖片特征序列為〈“feature/’, “feature/’, “feature/’>。從圖片特征序列中選取連續(xù)兩個特征作為特征組合,例如特征組合Ufeature1 : feature/’,其對應(yīng)的圖片在圖片特征庫的ID為I,特征組合Ufeature1 feature/’在圖片A中的出現(xiàn)次數(shù)為1,因此其在倒排索引中對應(yīng)的值就為I : I ;特征組合“feature2 feature/,其對應(yīng)的圖片在圖片特征庫的ID為I,特征組合“feature2 feature/’在圖片A中的出現(xiàn)次數(shù)為1,因此其在倒排索引中對應(yīng)的值也為I : I。S205,獲取待識別圖片的圖片特征。假設(shè)待識別的圖片為圖片B,按照與提取垃圾圖片的圖片特征相同的方法獲取待識別圖片的圖片特征,得到特征“feature^ feature2、feature/’。S206,對所述圖片特征進(jìn)行切分,生成圖片特征序列。生成圖片特征序列〈“feature/’,“feature/’, “feature/,>。S207,獲取圖片特征序列中連續(xù)兩個圖片特征作為特征組合,創(chuàng)建第二圖片特征表。具體的,第二圖片特征表為待識別圖片特征表,我們以哈希表舉例進(jìn)行說明。創(chuàng)建 按連續(xù)兩個圖片特征組合在一起的“圖片特征圖片特征”為鍵,以該兩個圖片特征組合在待識別圖片的圖片特征序列中出現(xiàn)次數(shù)為值的哈希表hashmap,標(biāo)記為hashmapb。例如待識別的圖片B的圖片特征為“feature^ feature2、feature/’,則經(jīng)過特征切分模塊分解以后得到圖片B的圖片特征序列為〈“featUrei”,“featUre2”,“feature/’〉,那么最后建立的hashmapb如圖5所不。S208,獲取圖片特征序列中任意連續(xù)兩個圖片特征作為當(dāng)前特征組合。具體的,獲取第二圖片特征表hashmapb中任意一項的鍵即連續(xù)兩個圖片特征組合在一起的“圖片特征圖片特征”作為當(dāng)前特征組合。S209,將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對。具體的,將當(dāng)前特征組合到步驟S204生成的倒排索引inverted index中快速查找是否存在該特征組合。S210,判斷所述倒排索引中是否存在所述特征組合;如果不存在,進(jìn)入S212 ;如果存在,進(jìn)入S211。S211,如果存在,獲取與所述特征組合對應(yīng)的所有圖片標(biāo)識,建立第三圖片特征表。若存在,貝U從倒排索引inverted index中取出包含該圖片特征組合的垃圾圖片特征庫ID和該圖片特征組合在垃圾圖片特征序列中的出現(xiàn)次數(shù)兩項信息的鏈表,對鏈表中每一個圖片特征庫ID,比較該特征組合在垃圾圖片中出現(xiàn)次數(shù)對應(yīng)的計數(shù)和該特征組合在步驟S207生成的hashmapb中的值,取二者中最小值z,把特征庫ID和最小值z插入到一個新的哈希表hashmap中,標(biāo)記為hashmap。,若特征庫ID已經(jīng)在新的hashmap。中存在,則把最小值z累加到特征庫ID對應(yīng)的計數(shù)上。這個新的hashmap。的鍵為垃圾圖片特征庫ID,值為待檢測圖片的圖片特征序列與垃圾圖片特征庫ID包含的圖片特征序列中共同出現(xiàn)的圖片特征組合項計數(shù)。S212,判斷待識別圖片特征序列中是否存在未處理特征組合。如果存在,進(jìn)入步驟S213,如果不存在,進(jìn)入S214。具體的,就是判斷第二圖片特征表hashmapb中是否存在未處理的項,如果存在,進(jìn)入步驟S213,如果不存在,進(jìn)入S214。S213,獲取待識別圖片的圖片特征序列中未處理的連續(xù)兩個圖片特征,將其作為當(dāng)前特征組合,進(jìn)入S209 ;直到迭代處理完待識別圖片的圖片特征序列中的所有特征組合。具體的,就是獲取第二圖片特征表hashmap,中未處理的項,將未處理項的鍵即連續(xù)兩個圖片特征組合在一起的“圖片特征圖片特征”作為當(dāng)前特征組合,進(jìn)入S209 ;直到迭代處理完第二圖片特征表hashmapb中的所有項。處理完第二圖片特征表hashmapb,最后生成的hashmap。如圖6所不。S214,根據(jù)第三圖片特征表,獲取待識別圖片與各垃圾圖片的相似度。分別獲取待識別圖片與垃圾圖片集合中的各垃圾圖片的相似度值。其中,待識別圖片與所述垃圾圖片集合中的其中一張垃圾圖片的相似度值通過以下方法得到A,獲取待識別圖片與所述垃圾圖片具有的共同特征組合的個數(shù)。B,獲取待識別圖片與所述垃圾圖片的特征組合總數(shù)與共同特征組合數(shù)之間的差值。C,將所述共同特征組合數(shù)與所述差值的比值作為待識別圖片與所述垃圾圖片這兩張圖片的相似度值。下面以一個具體的實例進(jìn)行說明。掃描步驟S211生成的hashmap。,計算圖片之間的相似度,設(shè)兩張圖片 ACfeature1, . . . , feature^ . . . , featurem> 和 EKfeature1,...,feature^... , featuren>,其中Featurei為圖片包含的特征項,A為垃圾圖片特征庫中與待檢測的圖片有共同特征組合項的任意一張圖片,B為待檢測的圖片,則定義A、B之間的相似度sim(A,B)為公式(I)所示sim(A, B) = (A~B)/(A+B)(I)其中~表示集合交集,+表示集合并集,(A~B)的值也就是A和B在生成的hashmap。中共同出現(xiàn)的次數(shù),也就是圖片A和圖片B共同具有的特征組合的數(shù)目,可以從步驟S211生成的hashmap。中取得,A+B為A包含的特征組合項的個數(shù)加上B包含的特征組合項個數(shù)總和減去A和B在生成的hashmap。中共同出現(xiàn)的次數(shù),A包含的特征組合項的個數(shù)可以從步驟S203生成的hashmapa中獲得、B包含的特征組合項的個數(shù)可以從步驟S207生成的hashmapb中獲得。例如,對于垃圾圖片特征庫中圖片A(ID為I)和待檢測的圖片B,計算它們的相似度sim(A,B),根據(jù)sim(A,B)的定義,需要計算(A~B)和A+B值,其中(A~B)即圖片A、B中在hashmap。中共同出現(xiàn)的次數(shù),圖片A和B共同出現(xiàn)的特征組合項為(^feature1 : feature/’),從步驟 S211 生成的 hashmap。中可以得到(A'B)的值為 I, A+B為A包含的特征組合項的個數(shù)加上B包含的特征組合項個數(shù)總和減去A和B在步驟S211生成的hashmap。中共同出現(xiàn)的次數(shù),A包含的特征組合項的個數(shù)可以從步驟S203生成的hashmapa中獲得其值為2、B包含的特征組合項的個數(shù)可以從步驟S207生成的hashmapb中獲得,其值為2,則A+B= (2+2) -1=3,而得到圖片A和圖片B的相似度sim(A, B) = (A~B) /(A+B)=1/3 οS215,當(dāng)有任意一條相似度值大于設(shè)定閾值時,則判斷所述待識別圖片為垃圾圖片。在計算完A、B之間的相似度sim(A,B)后,如果大于設(shè)定的相似度閾值,認(rèn)為待檢測的圖片B是垃圾圖片,否則迭代取得hashmap。中下一個元素,直到取完hashmap。中的所有元素。
以上面的實例進(jìn)行說明,通過計算得到圖片A和圖片B的相似度為1/3。假設(shè)用戶設(shè)定的相似度閾值為1/4,則1/4〈1/3,認(rèn)為圖片B與圖片A相似,是垃圾圖片,假設(shè)用戶設(shè)定的相似度閾值為1/2,則1/2>1/3,認(rèn)為圖片B與圖片A相似度較低,不是垃圾圖片。在本發(fā)明第二實施例中,由于為垃圾圖片特征庫建立了倒排索引,提高了查找比對的速度,在垃圾圖片特征庫規(guī)模較大的情況下,也能夠給保持非常快的識別速度,因此可以快速、準(zhǔn)確地識別出垃圾圖片。參見圖7,為本發(fā)明提供的垃圾圖片識別方法第三實施例流程圖。S701,建立垃圾圖片特征庫。S702,將垃圾圖片的圖片特征讀出后,生成圖片特征序列。S703,建立第一圖片特征表。 其中,第一圖片特征表具體為垃圾圖片特征表,我們將其稱為hashmapa。所述第一圖片特征表以垃圾圖片的圖片特征庫ID為鍵,包含的特征組合項總計數(shù)為值的哈希表hashmap,標(biāo)記為 hashmapa。S704,建立倒排索引。對步驟S702生成的每個圖片特征序列,倉Il建按連續(xù)兩個圖片特征組合在一起的“圖片特征圖片特征”為鍵,包含該兩個圖片特征組合的圖片特征庫ID和該圖片特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項信息的鏈表為值的倒排索引inverted index。S705,獲取待識別圖片的圖片特征。S706,對所述圖片特征進(jìn)行切分,生成圖片特征序列。S707,創(chuàng)建第二圖片特征表。S708,獲取圖片特征序列中任意連續(xù)兩個圖片特征作為當(dāng)前特征組合。S709,將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對。S710,判斷所述倒排索引中是否存在所述特征組合;如果不存在,進(jìn)入S715 ;如果存在,進(jìn)入S711。S711,獲取與所述特征組合對應(yīng)的所有圖片標(biāo)識。S712,計算待識別圖片與所述各圖片標(biāo)識對應(yīng)的垃圾圖片的相似度。S713,判斷是否有任意一條相似度值大于設(shè)定閾值。如果是,進(jìn)入S714,如果判斷沒有一條相似度值大于設(shè)定閾值,進(jìn)入S715。S714,當(dāng)判斷有任意一條相似度大于設(shè)定閾值時,判斷所述待識別圖片屬于垃圾圖片。S715,獲取待識別圖片的圖片特征序列未處理的連續(xù)兩個圖片特征,將其作為當(dāng)前特征組合,進(jìn)入S709。在本發(fā)明第三實施例中,與第二實施例不同的是,是先通過待識別圖片的一組特征組合與垃圾圖片特征庫中的特征組合倒排索引進(jìn)行比對,如果經(jīng)過比對存在包含所述特征組合的垃圾圖片,則通過計算待識別圖片與各垃圾圖片的相似度來判斷待識別圖片是否為垃圾圖片。如果經(jīng)過判斷,相似度都小于設(shè)定閾值,則重新獲取待識別圖片未處理的一組特征組合,再到垃圾圖片特征庫中的特征組合倒排索引中進(jìn)行查找,進(jìn)行迭代處理,直到有一條相似度值大于設(shè)定閾值,停止迭代處理,則判斷待識別圖片屬于垃圾圖片。這種方法在精度要求不高的情況下,可以達(dá)到較快的識別速度,提高了處理效率。
參見圖8,為本發(fā)明垃圾圖片識別裝置示意圖。一種垃圾圖片識別裝置,所述裝置包括圖片特征獲取單元801,用于獲取待識別圖片的圖片特征。特征序列生成單元802,用于對所述圖片特征進(jìn)行切分,生成圖片特征序列。特征比對單元803,用于將所述待識別圖片的圖片特征序列中連續(xù)兩個圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫中的特征組合倒排索引進(jìn)行比對,獲取包含所述圖片特征組合的垃圾圖片集合;所述垃圾圖片特征庫包含有垃圾圖片庫中的所有垃圾圖片的圖片特征。第一判斷單元804,用于分別計算待識別圖片與所述垃圾圖片集合中各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識別圖片的相似度值大于設(shè)定閾值時,則判斷所 述待識別圖片為垃圾圖片。優(yōu)選地,所述裝置還包括預(yù)處理單元,用于對待識別圖片進(jìn)行預(yù)處理,將所述待識別圖片進(jìn)行灰度化以及二值化處理,并將其轉(zhuǎn)換為預(yù)設(shè)的格式。優(yōu)選地,所述圖片特征獲取單元包括布局分析單元,用于對待識別圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓;膨脹腐蝕處理單元,用于對待識別圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域;濾波處理單元,用于對待識別圖片進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征;識別單元,用于利用所述文本形狀特征對待識別圖片中的文字進(jìn)行識別,獲取文本形狀特征碼,將所述文本形狀特征碼作為待識別圖片的圖片特征。優(yōu)選地,所述裝置還包括垃圾圖片特征庫建立單元,用于獲取垃圾圖片庫中的所有圖片的圖片特征,建立垃圾圖片特征庫。優(yōu)選地,所述裝置還包括索引建立單元,用于為所述垃圾圖片特征庫建立倒排索引,所述倒排索引由哈希表組成,所述哈希表以連續(xù)兩個圖片特征組成的特征組合為鍵、以包含所述特征組合的垃圾圖片的圖片標(biāo)識以及特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項信息的鏈表為值;其中,所述圖片標(biāo)識為垃圾圖片在垃圾圖片特征庫的唯一標(biāo)識。優(yōu)選地,所述特征比對單元包括第一獲取單元,用于獲取圖片特征序列中任意連續(xù)兩個圖片特征作為當(dāng)前特征組合;第一查找單元將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對;第二判斷單元,用于判斷所述倒排索引中是否存在所述特征組合;如果所述判斷結(jié)果表明不存在所述特征組合,進(jìn)入第三獲取單元;如果所述判斷結(jié)果表明存在所述特征組合,進(jìn)入第二獲取單元;第二獲取單元,用于獲取與所述特征組合對應(yīng)的所有垃圾圖片標(biāo)識,進(jìn)入第三獲取單元;第三獲取單元,用于獲取待識別圖片的圖片特征序列中未處理的連續(xù)兩個圖片特征,將其作為當(dāng)前特征組合,進(jìn)入第一查找單元,直到處理完待識別圖片的圖片特征序列中的所有特征組合。確定單元,用于根據(jù)獲取的所有垃圾圖片的標(biāo)識確定垃圾圖片集合。優(yōu)選地,所述特征比對單元包括第四獲取單元,用于獲取圖片特征序列中任意連續(xù)兩個圖片特征作為當(dāng)前特征組合;第二查找單元,用于將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對;
第三判斷單元,用于判斷所述倒排索引中是否存在所述特征組合;當(dāng)所述判斷結(jié)果表明存在所述特征組合,進(jìn)入第五獲取單元;當(dāng)所述判斷結(jié)果表明不存在所述特征組合,進(jìn)入第六獲取單元;第五獲取單元,用于獲取與所述特征組合對應(yīng)的所有垃圾圖片標(biāo)識,進(jìn)入第一判斷單元;第六獲取單元,用于當(dāng)所述判斷結(jié)果表明不存在所述特征組合,獲取待識別圖片的圖片特征序列未處理的連續(xù)兩個圖片特征,將其作為當(dāng)前特征組合,進(jìn)入第二查找單元。優(yōu)選地,所述裝置還包括迭代處理單元,用于當(dāng)?shù)谝慌袛鄦卧呐袛嘟Y(jié)果表明所述相似度值都小于設(shè)定閾值時,獲取待識別圖片的圖片特征序列中未處理的連續(xù)兩個圖片特征序列作為特征組合,進(jìn)行迭代處理,直到任意一條相似度值大于設(shè)定閾值,停止迭代處理。需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。本發(fā)明可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實踐本發(fā)明,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計算機存儲介質(zhì)中。以上所述僅是本發(fā)明的具體實施方式
,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種垃圾圖片識別方法,其特征在于,所述方法包括 獲取待識別圖片的圖片特征; 對所述圖片特征進(jìn)行切分,生成圖片特征序列;將所述待識別圖片的圖片特征序列中連續(xù)兩個圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫中的特征組合倒排索引進(jìn)行比對,獲取包含所述圖片特征組合的垃圾圖片集合;所述垃圾圖片特征庫包含有垃圾圖片庫中的所有垃圾圖片的圖片特征;分別計算待識別圖片與所述垃圾圖片集合中各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識別圖片的相似度值大于設(shè)定閾值時,則判斷所述待識別圖片為垃圾圖片。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,在獲取待識別圖片的圖片特征之前,所述方法還包括 對待識別圖片進(jìn)行預(yù)處理,將所述待識別圖片進(jìn)行灰度化以及二值化處理,并將其轉(zhuǎn)換為預(yù)設(shè)的格式。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述獲取待識別圖片的圖片特征包括 對待識別圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓; 對待識別圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域; 對待識別圖片進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征;利用所述文本形狀特征對待識別圖片中的文字進(jìn)行識別,獲取文本形狀特征碼,將所述文本形狀特征碼作為待識別圖片的圖片特征。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述方法還包括 獲取垃圾圖片庫中的所有圖片的圖片特征,建立垃圾圖片特征庫。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述方法還包括 為所述垃圾圖片特征庫建立倒排索引,所述倒排索引由哈希表組成,所述哈希表以連續(xù)兩個圖片特征組成的特征組合為鍵、以包含所述特征組合的垃圾圖片的圖片標(biāo)識以及特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項信息的鏈表為值;其中,所述圖片標(biāo)識為垃圾圖片在垃圾圖片特征庫的唯一標(biāo)識。
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述將所述待識別圖片的圖片特征序列中連續(xù)兩個圖片特征作為特征組合,將所述特征組合與預(yù)存在垃圾圖片特征庫中的特征組合倒排索引進(jìn)行比對,獲取包含所述圖片特征組合的垃圾圖片集合包括 獲取圖片特征序列中任意連續(xù)兩個圖片特征作為當(dāng)前特征組合; 將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對; 判斷所述倒排索引中是否存在所述特征組合;如果不存在,進(jìn)入獲取待識別圖片的圖片特征序列中未處理的連續(xù)兩個圖片特征的步驟; 如果存在,獲取與所述特征組合對應(yīng)的所有垃圾圖片標(biāo)識; 獲取待識別圖片的圖片特征序列中未處理的連續(xù)兩個圖片特征,將其作為當(dāng)前特征組合,進(jìn)入將所述特征組合與倒排索引中的特征組合進(jìn)行比對的步驟,直到處理完待識別圖片的圖片特征序列中的所有特征組合; 根據(jù)獲取的所有垃圾圖片的圖片標(biāo)識確定垃圾圖片集合。
7.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述將所述待識別圖片的圖片特征序列中連續(xù)兩個圖片特征作為特征組合,將所述特征組合與預(yù)存在垃圾圖片特征庫中的特征組合倒排索引進(jìn)行比對,獲取包含所述圖片特征組合的垃圾圖片集合包括 獲取圖片特征序列中任意連續(xù)兩個圖片特征作為當(dāng)前特征組合,將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行比對,判斷所述倒排索引中是否存在所述特征組合; 如果存在,獲取與所述特征組合對應(yīng)的所有垃圾圖片標(biāo)識,確定垃圾圖片集合,并進(jìn)入計算待識別圖片與所述垃圾圖片集合中的各垃圾圖片的相似度值的步驟; 如果不存在,獲取待識別圖片的圖片特征序列未處理的連續(xù)兩個圖片特征,將其作為當(dāng)前特征組合,進(jìn)入將所述當(dāng)前特征組合與倒排索引中的特征組合進(jìn)行比對的步驟。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法還包括 當(dāng)判斷所述相似度值都小于設(shè)定閾值時,獲取待識別圖片的圖片特征序列中未處理的連續(xù)兩個圖片特征序列作為特征組合,進(jìn)行迭代處理,直到任意一條相似度值大于設(shè)定閾值,停止迭代處理。
9.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述待識別圖片與所述垃圾圖片集合中的其中一張垃圾圖片的相似度值通過以下方法得到 獲取待識別圖片與所述垃圾圖片具有的共同特征組合的個數(shù); 獲取待識別圖片與所述垃圾圖片的特征組合總數(shù)與共同特征組合數(shù)之間的差值; 將所述共同特征組合數(shù)與所述差值的比值作為待識別圖片與所述垃圾圖片的相似度值。
10.一種垃圾圖片識別裝置,其特征在于,所述裝置包括 圖片特征獲取單元,用于獲取待識別圖片的圖片特征; 特征序列生成單元,用于對所述圖片特征進(jìn)行切分,生成圖片特征序列; 特征比對單元,用于將所述待識別圖片的圖片特征序列中連續(xù)兩個圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫中的特征組合倒排索引進(jìn)行比對,獲取包含所述圖片特征組合的垃圾圖片集合;所述垃圾圖片特征庫包含有垃圾圖片庫中的所有垃圾圖片的圖片特征; 第一判斷單元,用于分別計算待識別圖片與所述垃圾圖片集合中各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識別圖片的相似度值大于設(shè)定閾值時,則判斷所述待識別圖片為垃圾圖片。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括 預(yù)處理單元,用于對待識別圖片進(jìn)行預(yù)處理,將所述待識別圖片進(jìn)行灰度化以及二值化處理,并將其轉(zhuǎn)換為預(yù)設(shè)的格式。
12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述圖片特征獲取單元包括 布局分析單元,用于對待識別圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓; 膨脹腐蝕處理單元,用于對待識別圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域; 濾波處理單元,用于對待識別圖片進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征; 識別單元,用于利用所述文本形狀特征對待識別圖片中的文字進(jìn)行識別,獲取文本形狀特征碼,將所述文本形狀特征碼作為待識別圖片的圖片特征。
13.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括垃圾圖片特征庫建立單元,用于獲取垃圾圖片庫中的所有圖片的圖片特征,建立垃圾圖片特征庫。
14.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括 索引建立單元,用于為所述垃圾圖片特征庫建立倒排索引,所述倒排索引由哈希表組成,所述哈希表以連續(xù)兩個圖片特征組成的特征組合為鍵、以包含所述特征組合的垃圾圖片的圖片標(biāo)識以及特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項信息的鏈表為值;其中,所述圖片標(biāo)識為垃圾圖片在垃圾圖片特征庫的唯一標(biāo)識。
15.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述特征比對單元包括第一獲取單元,用于獲取圖片特征序列中任意連續(xù)兩個圖片特征作為當(dāng)前特征組合;第一查找單元將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對;第二判斷單元,用于判斷所述倒排索引中是否存在所述特征組合;如果所述判斷結(jié)果表明不存在所述特征組合,進(jìn)入第三獲取單元;如果所述判斷結(jié)果表明存在所述特征組合,進(jìn)入第二獲取單元; 第二獲取單元,用于獲取與所述特征組合對應(yīng)的所有垃圾圖片標(biāo)識,進(jìn)入第三獲取單元; 第三獲取單元,用于獲取待識別圖片的圖片特征序列中未處理的連續(xù)兩個圖片特征,將其作為當(dāng)前特征組合,進(jìn)入第一查找單元,直到處理完待識別圖片的圖片特征序列中的所有特征組合; 確定單元,用于根據(jù)獲取的所有垃圾圖片的標(biāo)識確定垃圾圖片集合。
16.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述特征比對單元包括 第四獲取單元,用于獲取圖片特征序列中任意連續(xù)兩個圖片特征作為當(dāng)前特征組合; 第二查找單元,用于將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對; 第三判斷單元,用于判斷所述倒排索引中是否存在所述特征組合;當(dāng)所述判斷結(jié)果表明存在所述特征組合,進(jìn)入第五獲取單元;當(dāng)所述判斷結(jié)果表明不存在所述特征組合,進(jìn)入第六獲取單元; 第五獲取單元,用于獲取與所述特征組合對應(yīng)的所有垃圾圖片標(biāo)識,進(jìn)入第一判斷單元; 第六獲取單元,用于當(dāng)所述判斷結(jié)果表明不存在所述特征組合,獲取待識別圖片的圖片特征序列未處理的連續(xù)兩個圖片特征,將其作為當(dāng)前特征組合,進(jìn)入第二查找單元。
17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述裝置還包括 迭代處理單元,用于當(dāng)?shù)谝慌袛鄦卧呐袛嘟Y(jié)果表明所述相似度值都小于設(shè)定閾值時,獲取待識別圖片的圖片特征序列中未處理的連續(xù)兩個圖片特征序列作為特征組合,進(jìn)行迭代處理,直到任意一條相似度值大于設(shè)定閾值,停止迭代處理。
全文摘要
本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,特別是涉及一種垃圾圖片識別方法和裝置,所述方法包括:獲取待識別圖片的圖片特征;對所述圖片特征進(jìn)行切分,生成圖片特征序列;將所述圖片特征序列中連續(xù)兩個圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫中的特征組合倒排索引進(jìn)行快速比對,獲取包含所述圖片特征組合的垃圾圖片集合;計算待識別圖片與所述垃圾圖片集合中各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識別圖片的相似度值大于設(shè)定閾值時,則判斷所述待識別圖片為垃圾圖片。本發(fā)明提供的方法一方面可以提高垃圾圖片的識別效率;另一方面,對垃圾圖片變化的適應(yīng)性強,提高了識別效果。
文檔編號G06K9/46GK102722709SQ201210169939
公開日2012年10月10日 申請日期2012年5月23日 優(yōu)先權(quán)日2012年5月23日
發(fā)明者但紅衛(wèi), 周森, 朱經(jīng)緯, 潘照明 申請人:杭州朗和科技有限公司