本發(fā)明涉及圖像內(nèi)容信息分析技術(shù)領(lǐng)域,特別是一種基于特征變量算法的圖像內(nèi)容信息分析方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,信息傳播速度越來越快,在能夠獲取大量信息的同時(shí),網(wǎng)絡(luò)上肆意傳播的低俗內(nèi)容圖片污染網(wǎng)絡(luò)環(huán)境,如何能夠快速準(zhǔn)確地識(shí)別出含有低俗內(nèi)容的圖片是亟待解決的問題。目前的圖片低俗成人檢出方法,一般分為兩類方法。一種是人工檢測(cè),此種方法需要人力成本大,檢測(cè)速度慢,標(biāo)準(zhǔn)不一致,對(duì)于大量的互聯(lián)網(wǎng)信息,效果并不理想;另一種方法是通過整幅圖像的顏色進(jìn)行簡(jiǎn)單判別,此類方法誤判性高,使用效果差。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)里面的一個(gè)熱門領(lǐng)域,起源于多層人工神經(jīng)網(wǎng)絡(luò),目前已成功應(yīng)用于計(jì)算機(jī)視覺。其中卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域已經(jīng)取得了令人矚目的成就,相比傳統(tǒng)的圖片內(nèi)容識(shí)別方法方法有了很大的提升。
簡(jiǎn)單的訓(xùn)練方法和結(jié)果處理模式并不能夠滿足多樣的低俗圖片內(nèi)容檢測(cè)需求,因此,研究一種適應(yīng)于深度網(wǎng)絡(luò)模型低俗內(nèi)容的層級(jí)分類方法及結(jié)果優(yōu)化策略對(duì)于低俗內(nèi)容檢測(cè)領(lǐng)域具有重要的研究?jī)r(jià)值和應(yīng)用前景。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明需要解決的技術(shù)問題是提供一種基于特征變量算法的圖像內(nèi)容信息分析方法。
為解決上述的技術(shù)問題,本發(fā)明的一種基于特征變量算法的圖像內(nèi)容信息分析方法,包括以下步驟,
(1)將所有的訓(xùn)練樣本集圖片根據(jù)需求分為多個(gè)一級(jí)大類,并在一級(jí)大類基礎(chǔ)上二次劃分為多個(gè)一級(jí)類;
(2)使用訓(xùn)練完成的深度網(wǎng)絡(luò)模型對(duì)圖片進(jìn)行分類,模型計(jì)算得出的各類別置信度Pi,通過對(duì)比置信度差值P=PTOP1-PTOP2與閾值Th的關(guān)系,若P小于閾值Th,則根據(jù)PTOP1和PTOP2類別,進(jìn)行相應(yīng)的優(yōu)化策略調(diào)整;若P大于閾值Th,則認(rèn)為分類結(jié)果可信,不做調(diào)整,直接輸出。
進(jìn)一步的,步驟(1)中確定每個(gè)一級(jí)類下多個(gè)二級(jí)類的方法為應(yīng)用聚類算法,提去樣本圖片的顏色信息和紋理信息作為聚類依據(jù),確定最為合理地二級(jí)類分類方法。
進(jìn)一步的,步驟(2)中閾值Th的計(jì)算方法為對(duì)于所有一級(jí)大類測(cè)試樣本的分類結(jié)果,存在正確分類樣本和錯(cuò)誤分類樣本,將所有正確分類樣本置信度結(jié)果的前兩位做差值并求和取平均得到正確分類樣本的平均置信度差值;同樣的,將所有錯(cuò)誤分類樣本置信度結(jié)果的前兩位和做差值并求和取平均得到錯(cuò)誤分類樣本的平均置信度差值;分別計(jì)算正確分類樣本的平均置信度差值和錯(cuò)誤分類樣本的平均置信度差值與懲罰系數(shù)的乘積,將兩結(jié)果相加得到閾值。
更進(jìn)一步的,步驟(2)中閾值Th的計(jì)算公式為:其中,為正確分類樣本的平均置信度差值,為錯(cuò)誤分類樣本的平均置信度差值,α為錯(cuò)誤懲罰系數(shù)。
更進(jìn)一步的,確定所述平均置信度差值的公式為:其中,為樣本的平均置信度差值,PTOP1為樣本的置信度結(jié)果最高值,PTOP2為樣本的置信度結(jié)果次高值,N為樣本數(shù)量。
采用上述方法后,本發(fā)明應(yīng)用多層級(jí)分類策略,將簡(jiǎn)單的正樣本和負(fù)樣本的二類劃分方法細(xì)化,并使用聚類算法優(yōu)化劃分結(jié)果,得到二級(jí)類間距最大的劃分方式,有助于加大類間區(qū)別,增加深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)圖片特征的認(rèn)識(shí)能力,提高整體識(shí)別精準(zhǔn)度。
附圖說明
下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
圖1為本發(fā)明層級(jí)分類及優(yōu)化策略流程圖。
圖2為本發(fā)明閾值計(jì)算流程圖。
具體實(shí)施方式
考慮到目前網(wǎng)絡(luò)中有大量低俗和限制內(nèi)容圖片無法被精確快速檢出過濾的問題,本發(fā)明使用了深度學(xué)習(xí)網(wǎng)絡(luò)模型對(duì)圖片內(nèi)容進(jìn)行識(shí)別分類,并引入層級(jí)分類以及結(jié)果優(yōu)化策略對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,大大提高了檢測(cè)精度。
如圖1所示,本發(fā)明一種基于特征變量算法的圖像內(nèi)容信息分析方法,在使用數(shù)據(jù)對(duì)深度網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練之前,先對(duì)訓(xùn)練樣本集進(jìn)行層級(jí)分類處理,具體步驟如下:
(1)將所有的訓(xùn)練樣本集圖片根據(jù)需求分為多個(gè)一級(jí)大類,并在一級(jí)大類基礎(chǔ)上二次劃分為多個(gè)一級(jí)類;
(2)使用訓(xùn)練完成的深度網(wǎng)絡(luò)模型對(duì)圖片進(jìn)行分類,模型計(jì)算得出的各類別置信度Pi,通過對(duì)比置信度差值P=PTOP1-PTOP2與閾值Th的關(guān)系,若P小于閾值Th,則根據(jù)PTOP1和PTOP2類別,進(jìn)行相應(yīng)的優(yōu)化策略調(diào)整;若P大于閾值Th,則認(rèn)為分類結(jié)果可信,不做調(diào)整,直接輸出。
步驟(1)中確定每個(gè)一級(jí)類下多個(gè)二級(jí)類的方法為應(yīng)用聚類算法,提去樣本圖片的顏色信息和紋理信息作為聚類依據(jù),確定最為合理地二級(jí)類分類方法。訓(xùn)練樣本集層級(jí)分類處理結(jié)束后,使用分好類的16000張訓(xùn)練集圖片對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練得到適用于低俗內(nèi)容檢測(cè)的分類模型。
使用低俗內(nèi)容檢測(cè)分類模型進(jìn)行圖片低俗內(nèi)容識(shí)別時(shí),提取網(wǎng)絡(luò)模型中“Softmax”層數(shù)據(jù),對(duì)結(jié)果進(jìn)行優(yōu)化處理,具體步驟為:
1.提取置信度最高值PTOP1和置信度次高值PTOP2。
2.計(jì)算PTOP1和PTOP2差值P。
3.將P和閾值Th比較,進(jìn)行相應(yīng)的結(jié)果優(yōu)化調(diào)整并輸出。
其中,閾值的計(jì)算流程圖如圖2所示,具體步驟為:
1.使用10000張測(cè)試圖片對(duì)得到的網(wǎng)絡(luò)進(jìn)行測(cè)試,得到測(cè)試結(jié)果。
2.將一級(jí)類測(cè)試結(jié)果分為正確分類和錯(cuò)誤分類兩大類。
3.提取每個(gè)樣本的PTOP1和PTOP2。
4.計(jì)算置信度差值P=PTOP1-PTOP2。
5.分別求所有正確分類樣本的平均置信度差值和錯(cuò)誤分類樣本的平均置信度差值的計(jì)算公式為:其中,為樣本的平均置信度差值,PTOP1為樣本的置信度結(jié)果最高值,PTOP2為樣本的置信度結(jié)果次高值,N為樣本數(shù)量。
本范例中,如圖2所示,使用得到的優(yōu)化策略如下:
1.低俗大類和限制內(nèi)容大類的類別閾值Thd-x為0.10,即PTOP1和PTOP2所屬二級(jí)類別分別為低俗內(nèi)容二級(jí)類和限制內(nèi)容二級(jí)類時(shí),P小于0.10則認(rèn)為是低俗內(nèi)容。
2.限制內(nèi)容大類和正常內(nèi)容大類的類別閾值Thx-z為0.15,即PTOP1和PTOP2所屬二級(jí)類別分別為正常內(nèi)容二級(jí)類和限制內(nèi)容二級(jí)類時(shí),P小于0.15則認(rèn)為是限制內(nèi)容。
3.低俗大類和正常內(nèi)容大類的類別閾值Thd-z為0.20,即PTOP1和PTOP2所屬二級(jí)類別分別為正常內(nèi)容二級(jí)類和低俗內(nèi)容二級(jí)類時(shí),P小于0.25則認(rèn)為是低俗內(nèi)容。
4.置信度差值P為0.5以上,則認(rèn)為是置信度最高的二級(jí)類所述一級(jí)類為最終分類結(jié)果。
5.置信度最高PTOP1低于0.4時(shí),且與置信度次高值PTOP2相差在0.15以下時(shí),不論最高分值類別,歸為正常內(nèi)容一級(jí)類。
雖然以上描述了本發(fā)明的具體實(shí)施方式,但是本領(lǐng)域熟練技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說明,可以對(duì)本實(shí)施方式作出多種變更或修改,而不背離本發(fā)明的原理和實(shí)質(zhì),本發(fā)明的保護(hù)范圍僅由所附權(quán)利要求書限定。