專利名稱:圖片審核方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及圖像處理技術,尤其涉及圖片審核方法和系統(tǒng)。
背景技術:
隨著互聯(lián)網(wǎng)的興起,給人們提供了更加豐富的信息,它極大地融合了全球信息,擴展了人們獲取信息的途徑,增大了人們搜索信息的范圍。目前,對國內互聯(lián)網(wǎng)上的圖片的內容一般采用人工審核,但是人工審核工作量大、效率低、成本高,其準確性會受到光線,審核者疲勞程度等不確定因素的影響。另外還有一些專門的圖片審核系統(tǒng),其主要利用圖像匹配技術將待審核圖片與審核庫中的圖片進行相似性比較,選擇相似性較高的圖片進行剔除過濾。其主要方法流程如圖1所示,包括如下步驟:SlOl:對待審核圖片進行特征提取。S102:將提取的特征與審核圖片特征庫中特征進行比較。S103:將比較結果相似度高于閾值的待審核圖片進行剔除過濾?,F(xiàn)有技術的圖片審核方法,其審核重點,往往集中在色塊,線條,形狀等要素所構成的圖形圖像上,對于不同的圖片,其包含的這些組成要素具有較大差異,因此可以利用這些圖像要素計算出相應的圖像特征對不同的圖像加以區(qū)分。但對于文本圖片,其圖像要 素的排布特點為,各像素點全局上以整行條狀排列,局部以密集點陣分別。對于不同的圖片,其外在視覺上沒有明顯差異,無法通過計算圖像特征對不同圖片加以區(qū)分。而且,對于文本圖片的審核,主要是對文字內容所攜帶的信息審核,如果仍采用建立審核圖片庫進行相似度比照的方法進行過濾,則所需建立的審核庫圖片數(shù)量巨大,幾乎不可窮舉。所以,這也決定了文本圖片不適合用圖像特征匹配的技術來進行審核過濾。因此,現(xiàn)有技術的圖片審核方法不適用對文本圖片進行審核。
發(fā)明內容
本發(fā)明的實施例提供了一種圖片審核方法和系統(tǒng),用以對文本圖片進行審核。根據(jù)本發(fā)明的一個方面,提供了一種圖片審核方法,包括:對文本圖片進行OCR處理,提取該文本圖片中的文本信息;對提取的文本信息進行關鍵字/詞的匹配,判斷其中是否包含要過濾的關鍵字/詞;若是,則對該文本圖片進行過濾處理。進一步,在所述對文本圖片進行OCR處理,提取該文本圖片中的文本信息之前,還包括:對所述文本圖片進行二值化處理。進一步,在所述對所述文本圖片進行二值化處理之前,還包括:對所述文本圖片進行灰度化處理。
進一步,在所述對文本圖片進行OCR處理,提取該文本圖片中的文本信息之前,還包括:對所述文本圖片進行去除噪聲處理。其中,所述對文本圖片進行OCR處理,提取該文本圖片中的文本信息具體包括:對所述文本圖片的圖像進行字符切割;對所述文字圖片中切割出的字符,按照設定單位進行劃分;并對每個設定單位內的字符進行識別:對所述設定單位內的每個字符進行特征提取和特征匹配后,確定每個字符的候選字;針對所述設定單位內的每個字符,確定該字符的每個候選字的相似度、以及該字符的每個候選字與該字符相鄰的字符的候選字之間的轉移概率;根據(jù)確定出的相似度和轉移概率,確定出所述設定單位內的字符的識別結果;根據(jù)每個設定單位內的字符的識別結果,確定該文本圖片中的文本信息。其中,所述根據(jù)確定出的相似度和轉移概率,確定出所述設定單位內的字符的識別結果具體包括:確定該設定單位內的第I個字符的候選字的維特比概率為該候選字的相似度;從該設定單位內的第2個字符起,對于當前字符的每個候選字,根據(jù)該候選字的相似度、以及該候選字與該當前字符相鄰的字符中的在前字符的候選字之間的轉移概率,確定出所述當前字符的每個候選字與所述在前字符的各候選字之間的維特比概率;在確定出當前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當前候選字的維特比概率;其中,所述當前候選字為所述當前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一;以所述當前候選字作為當前節(jié)點,選擇與該當前候選字之間的維特比概率最大的在前候選字作為與該當前候選字相鄰的在前節(jié)點;確定候選路徑;其中,所述候選路徑中的每個節(jié)點為分別針對所述設定單位內的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的;比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結果。其中,所述根據(jù)該候選字的相似度、以及該候選字與該當前字符相鄰的字符中的在前字符的候選字之間的轉移概率,確定出所述當前字符的每個候選字與所述在前字符的各候選字之間的維特比概率,具體根據(jù)如下公式5或4:Pv=P2XRXPv' (公式 5)1gPv=b X logP2+c X logR+dX 1gPv' (公式 4)其中,Pv為所述當前候選字與所述在前候選字之間的維特比概率A為所述當前候選字的出現(xiàn)概率,P2為所述在前候選字與所述當前候選字之間的轉移概率;R為所述當前候選字的相似度;PV’為所述在前候選字的維特比概率;logPv、1gP1、1gP21gR, logP;分另IJ為對Pv、P1、P2、R、Pv’取對數(shù)后得到的值山、c、d分別為設置的權重值。其中,所述識別結果還根據(jù)所述設定單位內的每個字符的每個候選字的出現(xiàn)概率確定;以及
根據(jù)確定出的相似度和轉移概率,以及根據(jù)所述設定單位內的每個字符的每個候選字的出現(xiàn)概率,確定出所述設定單位內的字符的識別結果具體包括:對于該設定單位內的第I個字符的候選字的維特比概率,根據(jù)該候選字的相似度、和/或該候選字的出現(xiàn)概率確定;從該設定單位內的第2個字符起,對于當前字符的每個候選字,根據(jù)該候選字的相似度、出現(xiàn)概率、以及該候選字與該當前字符相鄰的字符中的在前字符的候選字之間的轉移概率,確定出所述當前字符的每個候選字與所述在前字符的各候選字之間的維特比概率;在確定出當前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當前候選字的維特比概率;其中,所述當前候選字為所述當前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一;以所述當前候選字作為當前節(jié)點,選擇與該當前候選字之間的維特比概率最大的在前候選字作為與該當前候選字相鄰的在前節(jié)點;確定候選路徑;其中,所述候選路徑中的每個節(jié)點為分別針對所述設定單位內的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的;比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結果。根據(jù)本發(fā)明的另一個方面,還提供了一種圖片審核系統(tǒng),包括:文本信息提取模塊,用于對文本圖片進行OCR處理,提取該文本圖片中的文本信息;過濾模塊,用于對所述文本信息提取模塊提取的文本信息進行關鍵字/詞的匹配,判斷其中是否包含要過濾的關鍵字/詞;若是,則對該文本圖片進行過濾處理。進一步,所述系統(tǒng)還包括:預處理模塊;所述預處理模塊用于對所述文本圖片進行預處理,并向所述文本信息提取模塊輸出預處理后的文本圖片;其中,所述預處理模塊具體包括:用于對所述文本圖片進行二值化處理的二值化單元;或者,所述預處理模塊具體包括:用于對所述文本圖片進行灰度化處理并輸出的灰度化單元,用于對所述灰度化單元輸出的文本圖片進行二值化處理的二值化單元;或者,所述預處理模塊具體包括:用于對所述文本圖片進行灰度化處理并輸出的灰度化單元;以及用于對所述灰度化單元輸出的文本圖片進行二值化處理后輸出的二值化單元;以及用于對所述二值化單元輸出的文本圖片進行去除噪聲處理的噪聲去除單元。本發(fā)明實施例由于將文本圖片中的文本信息提取出來,根據(jù)提取的文本信息對文本圖片進行要過濾的關鍵字/詞的審核,從而可以實現(xiàn)對文本圖片進行審核的目的。此外,本發(fā)明實施例由于在進行字符識別的過程中,對于字符的多個候選字,除了依據(jù)候選字的相似度(即字形信息)外,還根據(jù)相鄰候選字之間的轉移概率(即語義信息),從多個候選字中選擇出一個作為該字符的識別結果;從而既參考了候選字與字符的相似度夕卜,還考慮了該候選字與在后字符之間的關聯(lián)度的因素,綜合考慮這些因素可以大大提高字符識別的準確率。進一步,還可參考候選字的出現(xiàn)概率來決定識別結果,更進一步保證字符識別的準確率。進一步,本發(fā)明中以計算維特比概率的方式來確定多條候選路徑,則是一種較佳地將字符間的關聯(lián)關系作為決定識別結果的參考的方法,更進一步保證字符識別的準確率。
圖1為現(xiàn)有技術的圖片審核方法流程圖;圖2a為本發(fā)明實施例的圖片審核方法流程圖;圖2b為本發(fā)明實施例的進行字符識別的方法流程圖;圖3為本發(fā)明實施例的確定設定單位內的字符的識別結果的方法流程圖;圖4為本發(fā)明實施例的以文字行為設定單位所取字符以及每個字符的候選字的示意圖;圖5為本發(fā)明實施例的根據(jù)確定出的相似度、轉移概率,確定設定單位內的字符的識別結果的方法流程圖;圖6為本發(fā)明實施例的圖片審核系統(tǒng)的內部結構框圖。
具體實施例方式為使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下參照附圖并舉出優(yōu)選實施例,對本發(fā)明進一步詳細說明。然而,需要說明的是,說明書中列出的許多細節(jié)僅僅是為了使讀者對本發(fā)明的一個或多個方面有一個透徹的理解,即便沒有這些特定的細節(jié)也可以實現(xiàn)本發(fā)明的這些方面。本申請使用的“模塊”、“系統(tǒng)”等術語旨在包括與計算機相關的實體,例如但不限于硬件、固件、軟硬件組合、軟件或者執(zhí)行中的軟件。例如,模塊可以是,但并不僅限于:處理器上運行的進程、處理器、對象、可執(zhí)行程序、執(zhí)行的線程、程序和/或計算機。舉例來說,計算設備上運行的應用程序和此計算設備都可以是模塊。一個或多個模塊可以位于執(zhí)行中的一個進程和/或線程內,一個模塊也可以位于一臺計算機上和/或分布于兩臺或更多臺計算機之間。本發(fā)明的發(fā)明人考慮到,針對文本圖片,其審核重點在于文本圖片中的文字內容信息,因此可以將圖片中的文本信息提取出來進行判別,實現(xiàn)對文本圖片的審核。由此,本發(fā)明提供了一種基于文本信息提取的圖片審核的方法和系統(tǒng),對文本圖片進行審核。下面結合附圖詳細說明本發(fā)明實施例的技術方案。本發(fā)明實施例的技術方案中,針對文本圖片,進行圖片審核的方法流程,如圖2a所示,包括如下步驟:S211:對文本圖片進行OCR處理,提取該文本圖片中的文本信息。較佳地,在對文本圖片進行OCR (Optical Character Recognition,光學字符識另O)處理,提取該文本圖片中的文本信息之前,還可對文本圖片進行一些預處理,包括:對文本圖片進行灰度化處理、對文本圖片進行二值化處理,還可對所述文本圖片進行去除噪聲處理。以便于更好地從文本圖片中提取出文本信息。去除噪聲處理具體可以是在對文本圖片進行灰度化處理之前,也可以是在對文本圖片進行二值化處理之前或之后;去除噪聲處理的次數(shù)可以是一次,也可以是多次,可以依照圖片質量、根據(jù)具體情況而定。S212:對提取的文本信息進行關鍵字/詞的匹配,判斷其中是否包含要過濾的關鍵字/詞;若是,執(zhí)行步驟S213,對文本圖片進行過濾處理;否則,執(zhí)行步驟S214,對文本圖片保留。具體地,對提取的文本信息進行關鍵字/詞的匹配:在過濾關鍵字/詞庫中存有要過濾的關鍵字/詞(也有稱為敏感詞),將提取的文本信息與過濾關鍵字/詞庫中存有的、要過濾的關鍵字/詞進行匹配,判斷提取的文本信息中是否包含有要過濾的關鍵字/詞;如果包含有要過濾的關鍵字/詞,則執(zhí)行步驟S213,對文本圖片進行過濾處理;否則,執(zhí)行步驟S214,對文本圖片保留。S213:對文本圖片進行過濾處理。具體地,提取的文本信息中包含有要過濾的關鍵字/詞,則表明審核未通過,對文本圖片進行過濾處理。S214:對文本圖片保留。具體地,提取的文本信息中沒包含要過濾的關鍵字/詞,則表明審核通過,對文本圖片保留。對于上述步驟S211中,對文本圖片進行OCR處理,提取該文本圖片中的文本信息的方法,本領域技術人員還可采用多種方法進行文本圖片中的文本信息的提取;本發(fā)明實施例中提供的一種具體方法,流程如圖2b所示,包括如下步驟:S200:對文本圖片中的圖像進行字符切割。S201:對文本圖片中切割出的字符,按照設定單位進行劃分。輸入的文本圖片可能是包括多個段落、多個文字行的文本圖片;在本發(fā)明中,是將文本圖片中的字符按照設定單位進行劃分,分批次處理;也就是說,每次處理是針對同一設定單位內的字符進行識別。本領域技術人員可以根據(jù)實際情況來設置設定單位,例如,設置設定單位為文字行,即文本圖片中同一行的字符作為同一設定單位內的字符;或者,設置設定單位為段落,即文本圖片中同一段落中的字符作為同一設定單位內的字符;或者,設置設定單位為固定字符數(shù),如,設置設定單位為10個字符數(shù),即文本圖片中每10個字符劃分為同一設定單位內的字符。S202:針對每個設定單位內的字符進行識別。按順序依次對每個設定單位進行處理:對該設定單位中的各個字符進行識別。圖3示出了對于一個設定單位,確定該設定單位內的字符的識別結果的方法流程,具體包括如下步驟:S301:對該設定單位內的每個字符進行特征提取和特征匹配后,確定每個字符的
候選字。對字符進行特征提取和特征匹配,確定該字符的若干個候選字的方法可采用現(xiàn)有技術中通常所采用的方法,為本領域技術人員所熟知的技術,此處不再贅述。S302:針對該設定單位內的每個字符,確定該字符的每個候選字的相似度,以及該字符的每個候選字與該字符相鄰的字符的候選字之間的轉移概率。在確定出字符的各候選字后,還可確定出每個候選字的相似度,即每個候選字與該字符的相似程度;在確定出字符的各候選字后,還可針對該字符的每個候選字,分別確定出該候選字與該字符相鄰的字符的候選字之間的轉移概率;為便于描述,本文中將相鄰字符的候選字稱為相鄰候選字,則上述候選字與該字符相鄰的字符的候選字之間的轉移概率,即為相鄰候選字之間的轉移概率;相鄰候選字之間的轉移概率指的是,相鄰候選字一起出現(xiàn)的概率。例如,如圖4所示,以文字行為設定單位取了 9個字符,序號分別為1-9 ;第1-9字符的候選字,以及每個候選字的相似度如下(相似度為括號內的數(shù)值):第I字符的候選字包括:中(0.9);第2字符的候選字包括:國(0.8)、團(0.6);第3字符的候選字包括:運(0.9);第4字符的候選字包括:動(0.8)、勁(0.8);第5字符的候選字包括:員(0.8);第6字符的候選字包括:成(0.8);第7字符的候選字包括:績(0.9);第8字符的候選字包括:喜(0.9);第9字符的候選字包括:人(0.9)、入(0.9)。每個候選字與相鄰的在前字符的候選字之間的轉移概率,即相鄰候選字之間的轉移概率,取對數(shù)后,如下所示:中國:-0.5644877 ;中團:_5.6734289 ;國運:_2.864447 ;團運:_3.303452 ;運動:-0.7526801 ;運勁:-3.527933 ;動員:_1.370795 ;勁元:_2.221847 ;員成:_2.667307 ;成績:-1.386276 ;績喜:-2.938662 ;喜人:-1.630958 ;喜入:-3.583296??梢钥闯?,候選字“國”,與其相鄰的在前字符的候選字“中”之間的轉移概率取對數(shù)后為-0.5644877 ;候選字“團”,與其相鄰的在前字符的候選字“中”之間的轉移概率取對數(shù)后為-5.6734289 ;則“中”與“國”之間的轉移概率要大于“中”與“團”之間的轉移概率,這意味著“中國” 一起出現(xiàn)的概率要大于“中團”。S303:根據(jù)確定出的相似度和轉移概率,確定出所述設定單位內的字符的識別結
果O在本步驟中,更優(yōu)地,還可根據(jù)確定出的所述設定單位內的每個字符的每個候選字的出現(xiàn)概率確定出所述設定單位內的字符的識別結果;候選字的出現(xiàn)概率指的是統(tǒng)計出的該候選字被使用的概率。在確定出每個設定單位內的字符的識別結果后,根據(jù)每個設定單位內的字符的識別結果確定該文本圖片的文本信息。即根據(jù)確定出的相似度,以及轉移概率,確定出所述設定單位內的字符的識別結果;具體方法流程如圖5所示,包括如下步驟:S501:計算該設定單位內的每個字符的每個候選字的維特比概率;該設定單位內的第I個字符的候選字的維特比概率可以如下方法確定:
以該候選字的出現(xiàn)概率作為該候選字的維特比概率;或者,以該候選字的相似度作為該候選字的維特比概率;或者,根據(jù)該候選字的相似度和出現(xiàn)概率作為該候選字的維特比概率,比如,以該候選字的相似度與該候選字的出現(xiàn)概率的乘積作為該候選字的維特比概率。從該設定單位內的第2個字符起,對于當前字符的每個候選字,根據(jù)該候選字的相似度、以及該候選字與該當前字符相鄰的字符中的在前字符的候選字之間的轉移概率,分別確定出當前字符的每個候選字,與在前字符的各候選字之間的維特比概率;當前字符的相鄰字符可以包括在后字符和在前字符,在計算當前字符的候選字與相鄰字符的候選字之間的維特比概率時,可以是計算當前字符的候選字與在前字符的候選字之間的維特比概率,也可以是計算當前字符的候選字與在后字符的候選字之間的維特比概率;本發(fā)明實施例以計算當前字符的候選字與在前字符的候選字之間的維特比概率為例進行詳細的方案說明: 從該設定單位內的第2個字符起,對于當前字符的每個候選字,根據(jù)該候選字的相似度、出現(xiàn)概率、以及該候選字與該當前字符相鄰的字符中的在前字符的候選字之間的轉移概率,分別確定出當前字符的每個候選字,與在前字符的各候選字之間的維特比概率具體可以根據(jù)如下公式1、或公式2、或公式3計算:Pv=P1 XP2XRXP;(公式 I )公式I中,Pv為當前候選字與在前候選字之間的維特比概率,其中,當前候選字為當前字符的候選字之一,在前候選字為在前字符的候選字之一 T1為當前候選字的出現(xiàn)概率,P2為在前候選字與當前候選字之間的轉移概率洱為當前候選字的相似度;PV’為在前候選字的維特比概率。logP^logPi+logPjlogR+logPv’ (公式 2)公式2 中,1gPvUogPp l0gP2、logR、logPv’ 分別為對取對數(shù)后得到的值;1gPv=aX 1gP^b X logP2+c X logR+dX 1gPv' (公式 3)公式3中,a、b、c、d分別為設置的權重值,本領域技術人員可以根據(jù)實際情況進行設置;事實上,若設置a=0,則上述公式3實際如公式4所示:1gPv=b X logP2+c X logR+dX 1gPv' (公式 4)從公式4可以看出,可以僅根據(jù)當前候選字的相似度、以及該當前候選字與在前候選字之間的轉移概率,確定當前候選字與在前候選字之間的維特比概率,也就是說,根據(jù)公式4計算出的當前候選字與在前候選字之間的維特比概率,沒有考慮當前候選字的出現(xiàn)概率。若設置公式4中的b=l、c=l、d=l,則公式4即可用公式5表達:Pv=P2XRXPv' (公式 5)也就是說,從該設定單位內的第2個字符起,對于當前字符的每個候選字,根據(jù)該候選字的相似度、以及該候選字與該當前字符相鄰的字符中的在前字符的候選字之間的轉移概率,分別確定出當前字符的每個候選字,與在前字符的各候選字之間的維特比概率具體可以根據(jù)如上公式4或5確定。在確定當前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當前候選字的維特比概率;并以當前候選字作為當前節(jié)點,選擇與當前候選字之間的維特比概率最大的在前候選字作為與該當前候選字相鄰的在前節(jié)點。S502:根據(jù)計算的各候選字的維特比概率,確定候選路徑;根據(jù)確定出的每個候選字的在前節(jié)點,確定出若干條候選路徑;其中,候選路徑中的每個節(jié)點為分別針對所述設定單位內的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的。例如,圖4中所示的各字符的各候選字,根據(jù)上述方法可以確定出兩條候選路徑,分別為:候選路徑一:人-喜-績-成-員-動-運-國-中;候選路徑二:入-喜-績-成-員-動-運-國-中。S503:選擇一條候選路徑作為識別結果。本步驟中,比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結果。例如,對于上述的候選路徑一和候選路徑二,由于候選路徑一的最后節(jié)點“人”的維特比概率,大于候選路徑二的最后節(jié)點“入”的維特比概率,因此,最終判定識別結果為候選路徑一,從而得到圖4中的序號分別為1-9的字符的識別結果為:中國運動員成績喜人。由此選擇出的候選路徑綜合考慮了字形信息(相似度)和語義信息(轉移概率),綜合結果為最大值,相比于僅考慮字形信息(相似度)的現(xiàn)有技術具有更高的準確率。本發(fā)明實施例提供的一種圖片審核系統(tǒng),如圖6所示,包括:文本信息提取模塊601、過濾模塊602。文本信息提取模塊601用于對文本圖片進行OCR處理,提取該文本圖片中的文本信息;文本信息提取模塊601提取文本信息的一種具體方法在上述圖2b、圖3、圖5的步驟中詳細介紹了,此處不再贅述;此外,本領域技術人員還可采用其它方法進行文本圖片中的文本信息的提取。過濾模塊602用于對文本信息提取模塊601提取的文本信息進行關鍵字/詞的匹配,判斷其中是否包含要過濾的關鍵字/詞;若是,則對該文本圖片進行過濾處理;否則,對該文本圖片保留。進一步,圖片審核系統(tǒng)中還可包括:預處理模塊603 ;預處理模塊603用于對所述文本圖片進行預處理,并向所述文本信息提取模塊輸出預處理后的文本圖片;文本信息提取模塊601接收預處理模塊603輸出的文本圖片后,對接收的文本圖片進行OCR處理,提取該文本圖片中的文本信息。其中,預處理模塊603具體包括:用于對所述文本圖片進行二值化處理的二值化單元;二值化單元輸出二值化處理過的文本圖片到文本信息提取模塊601?;蛘?,預處理模塊603具體包括:用于對所述文本圖片進行灰度化處理并輸出的灰度化單元,用于對所述灰度化單元輸出的文本圖片進行二值化處理的二值化單元;二值化單元輸出二值化處理過的文本圖片到文本信息提取模塊601?;蛘撸A處理模塊603具體包括:用于對所述文本圖片進行灰度化處理并輸出的灰度化單元;以及用于對所述灰度化單元輸出的文本圖片進行二值化處理后輸出的二值化單元;以及用于對所述二值化單元輸出的文本圖片進行去除噪聲處理的噪聲去除單元;噪聲去除單元輸出經(jīng)去除噪聲處理的文本圖片到文本信息提取模塊601。本發(fā)明實施例由于將文本圖片中的文本信息提取出來,根據(jù)提取的文本信息對文本圖片進行要過濾的關鍵字/詞的審核,從而可以實現(xiàn)對文本圖片進行審核的目的。此外,本發(fā)明實施例由于在進行字符識別的過程中,對于字符的多個候選字,除了依據(jù)候選字的相似度(即字形信息)外,還根據(jù)相鄰候選字之間的轉移概率(即語義信息),從多個候選字中選擇出一個作為該字符的識別結果;從而既參考了候選字與字符的相似度夕卜,還考慮了該候選字與在后字符之間的關聯(lián)度的因素,綜合考慮這些因素可以大大提高字符識別的準確率。進一步,還可參考候選字的出現(xiàn)概率來決定識別結果,更進一步保證字符識別的準確率。進一步,本發(fā)明中以計算維特比概率的方式來確定多條候選路徑,則是一種較佳地將字符間的關聯(lián)關系作為決定識別結果的參考的方法,更進一步保證字符識別的準確率。本領域普通技術人員可以理解實現(xiàn)上述實施例方法中的全部或部分步驟是可以通過程序來指令相關的硬件來完成,該程序可以存儲于一計算機可讀取存儲介質中,如:R0M/RAM、磁碟、光盤等。以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。
權利要求
1.一種圖片審核方法,其特征在于,包括: 對文本圖片進行光學字符識別OCR處理,提取該文本圖片中的文本信息; 對提取的文本信息進行關鍵字/詞的匹配,判斷其中是否包含要過濾的關鍵字/詞;若是,則對該文本圖片進行過濾處理。
2.如權利要求1所述的方法,其特征在于,在所述對文本圖片進行OCR處理,提取該文本圖片中的文本信息之前,還包括: 對所述文本圖片進行二值化處理。
3.如權利要求2所述的方法,其特征在于,在所述對所述文本圖片進行二值化處理之前,還包括: 對所述文本圖片進行灰度化處理。
4.如權利要求3所述的方法,其特征在于,在所述對文本圖片進行OCR處理,提取該文本圖片中的文本信息之前,還包括:對所述文本圖片進行去除噪聲處理。
5.如權利要求1-4任一所述的方法,其特征在于,所述對文本圖片進行OCR處理,提取該文本圖片中的文本信息具體包括: 對所述文本圖片的圖像進行字符切割; 對所述文字圖片中切割出的字符,按照設定單位進行劃分;并對每個設定單位內的字符進行識別: 對所述設定單位內的 每個字符進行特征提取和特征匹配后,確定每個字符的候選字;針對所述設定單位內的每個字符,確定該字符的每個候選字的相似度、以及該字符的每個候選字與該字符相鄰的字符的候選字之間的轉移概率; 根據(jù)確定出的相似度和轉移概率,確定出所述設定單位內的字符的識別結果; 根據(jù)每個設定單位內的字符的識別結果,確定該文本圖片中的文本信息。
6.如權利要求5所述的方法,其特征在于,所述根據(jù)確定出的相似度和轉移概率,確定出所述設定單位內的字符的識別結果具體包括: 確定該設定單位內的第I個字符的候選字的維特比概率為該候選字的相似度; 從該設定單位內的第2個字符起,對于當前字符的每個候選字,根據(jù)該候選字的相似度、以及該候選字與該當前字符相鄰的字符中的在前字符的候選字之間的轉移概率,確定出所述當前字符的每個候選字與所述在前字符的各候選字之間的維特比概率; 在確定出當前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當前候選字的維特比概率;其中,所述當前候選字為所述當前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一; 以所述當前候選字作為當前節(jié)點,選擇與該當前候選字之間的維特比概率最大的在前候選字作為與該當前候選字相鄰的在前節(jié)點; 確定候選路徑;其中,所述候選路徑中的每個節(jié)點為分別針對所述設定單位內的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的;比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結果。
7.如權利要求6所述的方法,其特征在于,所述根據(jù)該候選字的相似度、以及該候選字與該當前字符相鄰的字符中的在前字符的候選字之間的轉移概率,確定出所述當前字符的每個候選字與所述在前字符的各候選字之間的維特比概率,具體根據(jù)如下公式5或4: Pv=P2XRXPv' (公式 5) logPv=b X logP2+c X logR+dX 1gPv' (公式 4) 其中,Pv為所述當前候選字與所述在前候選字之間的維特比概率為所述當前候選字的出現(xiàn)概率,P2為所述在前候選字與所述當前候選字之間的轉移概率;R為所述當前候選字的相似度;PV’為所述在前候選字的維特比概率;logPv、1gP1UogP2UogRUogPv'分別為對Pv、Pp P2、R、P;取對數(shù)后得到的值;b、c、d分別為設置的權重值。
8.如權利要求5所述的方法,其特征在于,所述識別結果還根據(jù)所述設定單位內的每個字符的每個候選字的出現(xiàn)概率確定;以及 根據(jù)確定出的相似度和轉移概率,以及根據(jù)所述設定單位內的每個字符的每個候選字的出現(xiàn)概率,確定出所述設定單位內的字符的識別結果具體包括: 對于該設定單位內的第I個字符的候選字的維特比概率,根據(jù)該候選字的相似度、和/或該候選字的出現(xiàn)概率確定; 從該設定單位內的第2個字符起,對于當前字符的每個候選字,根據(jù)該候選字的相似度、出現(xiàn)概率、以及該候選字與該當前字符相鄰的字符中的在前字符的候選字之間的轉移概率,確定出所述當前字符的每個候選字與所述在前字符的各候選字之間的維特比概率;在確定出當前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當前候選字的維特比概率;其中,所述當前候選字為所述當前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一; 以所述當前候選字作為當前節(jié)點,選擇與該當前候選字之間的維特比概率最大的在前候選字作為與該當前候選字相鄰的在前節(jié)點; 確定候選路徑;其中,所述候選路徑中的每個節(jié)點為分別針對所述設定單位內的每個字符選擇出的候選字,同 一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的;比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結果。
9.一種圖片審核系統(tǒng),其特征在于,包括: 文本信息提取模塊,用于對文本圖片進行光學字符識別OCR處理,提取該文本圖片中的文本信息; 過濾模塊,用于對所述文本信息提取模塊提取的文本信息進行關鍵字/詞的匹配,判斷其中是否包含要過濾的關鍵字/詞;若是,則對該文本圖片進行過濾處理。
10.如權利要求9所述的系統(tǒng),其特征在于,還包括:預處理模塊; 所述預處理模塊用于對所述文本圖片進行預處理,并向所述文本信息提取模塊輸出預處理后的文本圖片;其中, 所述預處理模塊具體包括:用于對所述文本圖片進行二值化處理的二值化單元;或者, 所述預處理模塊具體包括:用于對所述文本圖片進行灰度化處理并輸出的灰度化單元,用于對所述灰度化單元輸出的文本圖片進行二值化處理的二值化單元;或者, 所述預處理模塊具體包括:用于對所述文本圖片進行灰度化處理并輸出的灰度化單元;以及用于對所述灰度化單元輸出的文本圖片進行二值化處理后輸出的二值化單元;以及用于對所述 二值化單元輸出的文本圖片進行去除噪聲處理的噪聲去除單元。
全文摘要
本發(fā)明公開了一種圖片審核方法和系統(tǒng),所述方法包括對文本圖片進行OCR處理,提取該文本圖片中的文本信息;對提取的文本信息進行關鍵字/詞的匹配,判斷其中是否包含要過濾的關鍵字/詞;若是,則對該文本圖片進行過濾處理。由于將文本圖片中的文本信息提取出來,根據(jù)提取的文本信息對文本圖片進行要過濾的關鍵字/詞的審核,從而可以實現(xiàn)對文本圖片進行審核的目的。
文檔編號G06K9/20GK103116752SQ201310058758
公開日2013年5月22日 申請日期2013年2月25日 優(yōu)先權日2013年2月25日
發(fā)明者郝雙 申請人:新浪網(wǎng)技術(中國)有限公司