圖像檢索數(shù)據(jù)庫(kù)建立方法
【專利摘要】本發(fā)明公開(kāi)了一種圖像檢索數(shù)據(jù)庫(kù)建立方法,首先對(duì)待訓(xùn)練的原目標(biāo)圖像進(jìn)行預(yù)處理,形成訓(xùn)練圖像集;然后對(duì)所述訓(xùn)練圖像集進(jìn)行特征提取時(shí),剔除文字區(qū)域特征點(diǎn),用非文字區(qū)域的特征點(diǎn)生成圖像檢索數(shù)據(jù)庫(kù)中對(duì)應(yīng)于原目標(biāo)圖像的特征數(shù)據(jù),本發(fā)明能有效剔除文字區(qū)域干擾關(guān)鍵點(diǎn),提高檢索準(zhǔn)確率,且大量干擾點(diǎn)的剔除也會(huì)進(jìn)一步壓縮檢索數(shù)據(jù)庫(kù)的大小,進(jìn)而減少實(shí)時(shí)檢索時(shí)的計(jì)算時(shí)間。另外,對(duì)待訓(xùn)練的原目標(biāo)圖像進(jìn)行預(yù)處理,在訓(xùn)練圖像集中加入原訓(xùn)練圖像模擬焦外成像效果的模糊圖像及仿射變換圖像,當(dāng)攝像頭獲取的圖像是焦外模糊的圖像,或用戶在視角大于80度的情況下,仍然能夠準(zhǔn)確地找到檢索數(shù)據(jù)庫(kù)中的目標(biāo)圖像。
【專利說(shuō)明】圖像檢索數(shù)據(jù)庫(kù)建立方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像識(shí)別領(lǐng)域,尤其涉及一種圖像檢索數(shù)據(jù)庫(kù)建立方法。
【背景技術(shù)】
[0002] 眾所周知,在基于內(nèi)容識(shí)別的圖像檢索技術(shù)中,首先需要在服務(wù)器端訓(xùn)練樣本圖 像,對(duì)樣本圖像進(jìn)行特征提取,以形成圖像檢索特征數(shù)據(jù)庫(kù)。
[0003] 在生成圖像檢索特征數(shù)據(jù)的過(guò)程中,以現(xiàn)有技術(shù)進(jìn)行處理時(shí),由于大量目標(biāo)圖像 中存在較多的印刷體文字,在文字區(qū)域中像素點(diǎn)顏色分布的相似性導(dǎo)致大量具有近似的關(guān) 鍵點(diǎn)描述內(nèi)容的關(guān)鍵點(diǎn)被提取出來(lái),在檢索過(guò)程中會(huì)對(duì)檢索結(jié)果產(chǎn)生極大的干擾,以致產(chǎn) 生錯(cuò)誤的檢索結(jié)果。
[0004] 另外,圖像識(shí)別常常受到不精確的特征匹配過(guò)程的妨礙,不精確的特征匹配過(guò)程 會(huì)因仿射變換(因視角或觀看點(diǎn)的改變而使獲取圖像顯示形變)和其它失真(例如,當(dāng)圖像 獲取端得到的圖像比較模糊時(shí),其特征將發(fā)生顯著變化)而加劇,從而導(dǎo)致正確匹配的減少 和錯(cuò)誤匹配的增加。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是提供一種圖像檢索數(shù)據(jù)庫(kù)建立方法,將易造成干擾的文字區(qū)域特 征剔除出檢索數(shù)據(jù)庫(kù),僅保存非文字區(qū)域圖像特征,能有效消除文字相似特征對(duì)圖像檢索 結(jié)果的干擾。
[0006] 為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種圖像檢索數(shù)據(jù)庫(kù)建立方法,包括:對(duì)待 訓(xùn)練的原目標(biāo)圖像進(jìn)行預(yù)處理,形成訓(xùn)練圖像集;對(duì)所述訓(xùn)練圖像集中的每一副圖像進(jìn)行 特征點(diǎn)提?。粚?duì)所述訓(xùn)練圖像集中的每一副圖像進(jìn)行分割,得到文字區(qū)域和非文字區(qū)域; 將像素位置與文字區(qū)域重合的特征點(diǎn)剔除,用剩下的特征點(diǎn)生成圖像檢索數(shù)據(jù)庫(kù)中對(duì)應(yīng)于 原目標(biāo)圖像的特征數(shù)據(jù)。
[0007] 相應(yīng)的,本發(fā)明還提供了一種圖像檢索數(shù)據(jù)庫(kù)建立方法,包括:對(duì)待訓(xùn)練的目標(biāo)圖 像進(jìn)行預(yù)處理,形成訓(xùn)練圖像集;對(duì)所述訓(xùn)練圖像集中的每一副圖像進(jìn)行分割,得到文本字 區(qū)域和非文字區(qū)域;對(duì)所述訓(xùn)練圖像集中每一副圖像的非文字區(qū)域進(jìn)行特征點(diǎn)提取,圖像 檢索數(shù)據(jù)庫(kù)中對(duì)應(yīng)于目標(biāo)圖像的特征數(shù)據(jù)。
[0008] 上述兩種方法的區(qū)別在于:第一種方法為先對(duì)所述訓(xùn)練圖像集中的每一副圖像進(jìn) 行特征點(diǎn)提取,然后再將文字區(qū)域的特征點(diǎn)剔除;而第二種方法為直接僅對(duì)所述訓(xùn)練圖像 集中每一副圖像的非文字區(qū)域進(jìn)行特征點(diǎn)提取,對(duì)文字區(qū)域不進(jìn)行特征提取。
[0009] 上述兩種方法中,對(duì)所述訓(xùn)練圖像集中的每一副圖像進(jìn)行分割,得到文字區(qū)域和 非文字區(qū)域,進(jìn)一步包括:將圖像在垂直和水平兩個(gè)方向上沿著圖像中的空白區(qū)域遞歸地 進(jìn)行切割,得到一個(gè)個(gè)無(wú)法再切割矩形框區(qū)域;將單個(gè)矩形框區(qū)域的大小小于等于訓(xùn)練圖 像整圖的6%時(shí),判定該矩形框區(qū)域?yàn)槲淖謪^(qū)域,剩下的為非文字區(qū)域。其中,所述圖像中的 空白區(qū)域包括:頁(yè)邊空白、分欄邊緣、縮進(jìn)空白、圖像與文本區(qū)域交界部分空白、文字與文字 之間的空白。
[0010] 上述兩種方法中,所述對(duì)待訓(xùn)練的原目標(biāo)圖像進(jìn)行預(yù)處理,形成訓(xùn)練圖像集,優(yōu)選 方案為:將待訓(xùn)練的原目標(biāo)圖像通過(guò)高斯模糊的方式處理,模擬焦外成像效果,得到與檢索 圖像近似的模糊目標(biāo)圖像;在N個(gè)方向上分別對(duì)原目標(biāo)圖像和模糊目標(biāo)圖像進(jìn)行仿射變 換,得到2N張新的訓(xùn)練圖像,其中2彡N彡8 ;2N張新的訓(xùn)練圖與原目標(biāo)圖像、模糊目標(biāo)圖 像一起組成訓(xùn)練圖像集。
[0011] 上述兩種方法中,還可以對(duì)原目標(biāo)圖像中的文字區(qū)域進(jìn)行文字識(shí)別,將識(shí)別出的 文字信息作為圖像檢索數(shù)據(jù)庫(kù)中對(duì)應(yīng)于原目標(biāo)圖像的第二檢索數(shù)據(jù)。
[0012] 與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:
[0013] 1.本發(fā)明將易造成干擾的文字區(qū)域特征剔除出檢索數(shù)據(jù)庫(kù),只保存非文字區(qū)域圖 像特征,能有效消除文字相似特征對(duì)圖像檢索結(jié)果的干擾;另外對(duì)文字區(qū)域可以用OCR的 方法進(jìn)行文字識(shí)別以提取出文字區(qū)域中的文字信息,這一信息也可作為圖像檢索的次要特 征用于某些特定種類的圖像檢索(如名片檢索);
[0014] 2.本發(fā)明通過(guò)在訓(xùn)練圖像集中加入原訓(xùn)練圖像(待訓(xùn)練的原目標(biāo)圖像)的模糊圖 像之后,在使用手持設(shè)備或穿戴設(shè)備的攝像頭獲取圖像來(lái)進(jìn)行檢索時(shí),如果獲取到的圖像 是焦外模糊的圖像(即未對(duì)焦的情況下得到的圖像),這時(shí)仍然能夠在檢索數(shù)據(jù)庫(kù)中找到正 確的目標(biāo)圖像。同時(shí),在訓(xùn)練圖像集中加入仿射變換的處理,可以使用戶在視角大于80度 的情況下仍然能夠準(zhǔn)確地找到檢索數(shù)據(jù)庫(kù)中的目標(biāo)圖像。
【專利附圖】
【附圖說(shuō)明】
[0015] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可 以根據(jù)這些附圖獲得其他的附圖:
[0016] 圖1為本發(fā)明實(shí)施例一圖像檢索數(shù)據(jù)庫(kù)建立方法流程示意圖;
[0017] 圖2為本發(fā)明實(shí)施例二圖像檢索數(shù)據(jù)庫(kù)建立方法流程示意圖;
[0018] 圖3為本發(fā)明實(shí)施例中待分割圖像示意圖;
[0019] 圖4為圖3分割后得到一個(gè)個(gè)無(wú)法再切割矩形框區(qū)域示意圖。
【具體實(shí)施方式】
[0020] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0021] 基于內(nèi)容的圖像識(shí)別技術(shù)中,在生成檢索數(shù)據(jù)的過(guò)程中,以現(xiàn)有技術(shù)進(jìn)行處理時(shí), 由于大量目標(biāo)圖像中存在較多的印刷體文字,在文字區(qū)域中像素點(diǎn)顏色分布的相似性導(dǎo)致 大量具有近似的關(guān)鍵點(diǎn)描述內(nèi)容的關(guān)鍵點(diǎn)被提取出來(lái),在檢索過(guò)程中會(huì)對(duì)檢索結(jié)果產(chǎn)生極 大的干擾,以致產(chǎn)生錯(cuò)誤的檢索結(jié)果。
[0022] 本發(fā)明提出一種圖像檢索數(shù)據(jù)庫(kù)建立方法,能有效剔除文字區(qū)域干擾關(guān)鍵點(diǎn)。同 時(shí),大量干擾點(diǎn)的剔除也會(huì)進(jìn)一步壓縮檢索數(shù)據(jù)庫(kù)的大小,進(jìn)而減少實(shí)時(shí)檢索時(shí)的計(jì)算時(shí) 間。
[0023] 參見(jiàn)圖1,為本發(fā)明實(shí)施例一圖像檢索數(shù)據(jù)庫(kù)建立方法流程示意圖,所述方法包括 如下步驟:
[0024] SlOl :對(duì)待訓(xùn)練的原目標(biāo)圖像進(jìn)行預(yù)處理,形成訓(xùn)練圖像集,本步驟具體為:將待 訓(xùn)練的原目標(biāo)圖像通過(guò)高斯模糊的方式處理,模擬焦外成像效果,得到與檢索圖像近似的 模糊目標(biāo)圖像;在N個(gè)方向上分別對(duì)原目標(biāo)圖像和模糊目標(biāo)圖像進(jìn)行仿射變換,得到2N張 新的訓(xùn)練圖像,其中2 < NS 8 ;2N張新的訓(xùn)練圖與原目標(biāo)圖像、模糊目標(biāo)圖像一起組成訓(xùn) 練圖像集。
[0025] S102:對(duì)所述訓(xùn)練圖像集中的每一副圖像進(jìn)行特征點(diǎn)提取,本處特征檢測(cè)及提取 可采用SIFT算法或SIFT算法的改進(jìn)算法,如SURF、Ferns、ORB等算法,提取圖像特征的操 作針對(duì)灰度圖進(jìn)行。每個(gè)特征數(shù)據(jù)含有關(guān)鍵點(diǎn)位置信息(在圖像平面上的二維坐標(biāo)值,關(guān)鍵 點(diǎn)的尺度和方向值,)和描述內(nèi)容。
[0026] S103:對(duì)所述訓(xùn)練圖像集中的每一副圖像進(jìn)行分割,得到文字區(qū)域和非文字區(qū)域, 具體為:將圖像在垂直和水平兩個(gè)方向上沿著圖像中的空白區(qū)域(tab-stops)遞歸地進(jìn)行 切割,得到一個(gè)個(gè)無(wú)法再切割矩形框區(qū)域(參見(jiàn)圖3、圖4,圖3為待分割圖像,圖4為分割結(jié) 果示意圖);將單個(gè)矩形框區(qū)域的大小小于等于訓(xùn)練圖像整圖的6%時(shí),判定該矩形框區(qū)域 為文字區(qū)域,剩下的為非文字區(qū)域。本發(fā)明實(shí)施例中,當(dāng)單個(gè)字符和訓(xùn)練圖像的大小比例高 于0.06時(shí),將該字符組成的文字區(qū)域當(dāng)作圖像數(shù)據(jù)處理,例如:在本發(fā)明的圖像檢索系統(tǒng) 中,用于訓(xùn)練檢索數(shù)據(jù)庫(kù)的訓(xùn)練圖像一般采用512X512的分辨率,因此,當(dāng)圖像中字符的 寬或高大于30個(gè)像素單位時(shí),可將其當(dāng)作一般圖像數(shù)據(jù)處理。所以,本發(fā)明在進(jìn)行頁(yè)面布 局分析時(shí),在得到圖像分割結(jié)果后,取出其中寬和或高大于30的矩形框區(qū)域,根據(jù)這些區(qū) 域的圖像平面坐標(biāo)范圍,將前述由訓(xùn)練圖像提取出的圖像特征中在這些區(qū)域范圍以外的特 征剔除,剩余的特征用于訓(xùn)練檢索數(shù)據(jù)庫(kù)。步驟S103中所述圖像中的空白區(qū)域包括:頁(yè)邊 空白、分欄邊緣、縮進(jìn)空白、圖像與文本區(qū)域交界部分空白、文字與文字之間的空白。在對(duì)圖 像進(jìn)行切割之前,可以先對(duì)圖像進(jìn)行二值化處理,提高圖像對(duì)比度,使圖像具有明確空白區(qū) 域。本步驟中,對(duì)訓(xùn)練圖像集中的每一副圖像進(jìn)行分割方法,可參考一種基于tab-stop檢 測(cè)的混合頁(yè)面布局分析方法,Hybrid Page Layout Analysis via Tab-Stop Detection. Raymond W. Smith. ICDAR,page241_245. IEEE Computer Society, (2009))。該方法通常中 OCR方法中的第一步處理過(guò)程,將圖像分割為由許多文字區(qū)域和非文字區(qū)域組成的矩形框。 本發(fā)明采用的是一種物理的頁(yè)面布局分析方法而不是基于邏輯的頁(yè)面布局分析方法,也 就是說(shuō),我們不僅僅是對(duì)純文本圖像的分割,我們要能處理任意的包含文本的圖像(例如, 書本、雜志、報(bào)紙、報(bào)告上的頁(yè)面圖像),將圖像中的文字區(qū)域和非文字區(qū)域分割出來(lái)分別處 理。
[0027] S104:將像素位置與文字區(qū)域重合的特征點(diǎn)剔除,用剩下的特征點(diǎn)生成圖像檢索 數(shù)據(jù)庫(kù)中對(duì)應(yīng)于原目標(biāo)圖像的特征數(shù)據(jù)?;趫D像中關(guān)鍵點(diǎn)描述內(nèi)容的獲取方式(處理關(guān) 鍵點(diǎn)及其內(nèi)置小塊區(qū)域的像素點(diǎn)),同一圖片或不同圖像中的大量相似的小塊區(qū)域(例如, 印刷體的文字區(qū)域)將導(dǎo)致相同或近似的關(guān)鍵點(diǎn)描述內(nèi)容。因此,在關(guān)鍵點(diǎn)檢測(cè)器完成之 后,將像素位置與文字區(qū)域重合的關(guān)鍵點(diǎn)剔除即能避免相應(yīng)的誤匹配還能極大的節(jié)省關(guān)鍵 點(diǎn)描述器的計(jì)算時(shí)間(文字區(qū)域通常會(huì)檢測(cè)出較多的關(guān)鍵點(diǎn))。
[0028] 對(duì)于某些特殊的圖像檢索系統(tǒng),例如名片等其它以文本信息為重要信息之一的圖 像的圖像檢索系統(tǒng),還可以對(duì)原目標(biāo)圖像中的文字區(qū)域采用OCR等方式進(jìn)行文字識(shí)別,將 識(shí)別出的文字信息作為圖像檢索數(shù)據(jù)庫(kù)中對(duì)應(yīng)于原目標(biāo)圖像的第二檢索數(shù)據(jù)。
[0029] 參見(jiàn)圖2,為本發(fā)明實(shí)施例二圖像檢索數(shù)據(jù)庫(kù)建立方法流程示意圖,包括如下步 驟:
[0030] S201 :對(duì)待訓(xùn)練的目標(biāo)圖像進(jìn)行預(yù)處理,形成訓(xùn)練圖像集;
[0031] S202:對(duì)所述訓(xùn)練圖像集中的每一副圖像進(jìn)行分割,得到文本字區(qū)域和非文字區(qū) 域;
[0032] S203 :對(duì)所述訓(xùn)練圖像集中每一副圖像的非文字區(qū)域進(jìn)行特征點(diǎn)提取,圖像檢索 數(shù)據(jù)庫(kù)中對(duì)應(yīng)于目標(biāo)圖像的特征數(shù)據(jù)。本步驟特征檢測(cè)可采用SIFT算法或SIFT算法的改 進(jìn)算法,如SURF、Ferns、ORB等算法,提取圖像特征的操作針對(duì)灰度圖進(jìn)行。
[0033] 本實(shí)施例步驟S201與第一實(shí)施例步驟SlOl相同,本實(shí)施例步驟S202與第一實(shí)施 例步驟S103相同,在此不贅述。本實(shí)施例與上一實(shí)施例的區(qū)別僅在于:第一實(shí)施例先對(duì)所 述訓(xùn)練圖像集中的每一副圖像進(jìn)行特征點(diǎn)提取,然后再將文字區(qū)域的特征點(diǎn)剔除;而本實(shí) 施例直接僅對(duì)所述訓(xùn)練圖像集中每一副圖像的非文字區(qū)域進(jìn)行特征點(diǎn)提取,對(duì)文字區(qū)域不 進(jìn)行特征提取。
[0034] 對(duì)于某些特殊的圖像檢索系統(tǒng)(例如名片等其它以文本信息為重要信息之一的 圖像的圖像檢索系統(tǒng)),其樣本圖像中存在很多具有相同或相似圖像區(qū)域的圖片,同時(shí)也存 在很多具有相似文本信息的圖片(例如,同一公司的名片通常具有一致的背景圖像和一致 的公司名稱地址等),基于文字識(shí)別的準(zhǔn)確率,單純的進(jìn)行文字信息檢索并不能準(zhǔn)確地得到 檢索結(jié)果,而先進(jìn)行一般圖像檢索再進(jìn)行文本信息地匹配能很好的解決這一問(wèn)題,同時(shí),在 構(gòu)建檢索數(shù)據(jù)庫(kù)時(shí),由于具有一致背景的圖像的存在,可以在數(shù)據(jù)庫(kù)中對(duì)一個(gè)公司或單位 的名片圖像只存有一份圖像數(shù)據(jù),這樣能極大地節(jié)省圖像檢索的時(shí)間。
[0035] 以名片識(shí)別系統(tǒng)為例,可首先依據(jù)上述兩種方法進(jìn)行處理,將得到的非文字區(qū)域 特征用于訓(xùn)練檢索數(shù)據(jù)庫(kù),然后在前述圖像分割的基礎(chǔ)上對(duì)每個(gè)由矩形框所表示的文字區(qū) 域進(jìn)行文字識(shí)別(采用OCR的方法),將得出的文字信息作為該訓(xùn)練圖像的第二檢索數(shù)據(jù)。 在實(shí)際的檢索系統(tǒng)使用中,首先對(duì)圖像檢索數(shù)據(jù)進(jìn)行檢索,然后在得出的檢索結(jié)果集合中 對(duì)文本信息進(jìn)行匹配,得出唯一的準(zhǔn)確檢索結(jié)果。當(dāng)然這種方法在客戶端需要對(duì)待檢索的 目標(biāo)圖像進(jìn)行一次OCR的處理,以得到檢索圖像的文本信息用于和數(shù)據(jù)庫(kù)中的文本信息匹 配。
[0036] 本發(fā)明將易造成干擾的文字區(qū)域特征剔除出檢索數(shù)據(jù)庫(kù),只保存非文字區(qū)域圖像 特征,能有效消除文字相似特征對(duì)圖像檢索結(jié)果的干擾;另外對(duì)文字區(qū)域可以用OCR的方 法進(jìn)行文字識(shí)別以提取出文字區(qū)域中的文字信息,這一信息也可作為圖像檢索的次要特征 用于某些特定種類的圖像檢索(如名片檢索),可有效提高圖像檢索準(zhǔn)確率。
[0037]另外,在使用本發(fā)明技術(shù)方案時(shí),若針對(duì)以手持設(shè)備和穿戴設(shè)備為客戶端獲取檢 索圖像,在服務(wù)器端進(jìn)行檢索的實(shí)時(shí)圖像檢索系統(tǒng),由于在基于內(nèi)容的圖像識(shí)別【技術(shù)領(lǐng)域】, 圖像識(shí)別常常受到不精確的特征匹配過(guò)程的妨礙,不精確的特征匹配過(guò)程會(huì)因仿射變換 (因視角或觀看點(diǎn)改變成的獲取圖像顯示的形變)和其它失真(例如,當(dāng)圖像獲取端得到的 圖像比較模糊時(shí),其特征將發(fā)生顯著變化)而加劇,從而導(dǎo)致正確匹配的減少和錯(cuò)誤匹配的 增加。在以手持設(shè)備和穿戴設(shè)備為客戶端獲取檢索圖像的圖像檢索系統(tǒng)中,視覺(jué)角度超60 度,或人為因素造成的檢索圖像模糊等問(wèn)題非常常見(jiàn),針對(duì)這兩個(gè)問(wèn)題,本發(fā)明的發(fā)明人發(fā) 現(xiàn)在已知圖像特征數(shù)據(jù)庫(kù)的產(chǎn)生過(guò)程中,在特征點(diǎn)檢測(cè)之前對(duì)入庫(kù)圖像進(jìn)行相應(yīng)的預(yù)處理 可以提1?圖像檢索的準(zhǔn)確率。
[0038] 因此在步驟SlOl和S201中,對(duì)待訓(xùn)練的原目標(biāo)圖像進(jìn)行預(yù)處理,形成訓(xùn)練圖像 集,首先是將待訓(xùn)練的原目標(biāo)圖像通過(guò)高斯模糊處理,模擬焦外成像效果,得到與檢索圖 像近似的模糊目標(biāo)圖像,然后在N個(gè)方向上分別對(duì)原目標(biāo)圖像和模糊目標(biāo)圖像進(jìn)行仿射變 換,得到2N張新的訓(xùn)練圖像,其中2彡N彡8 ;將得到的2N張新的訓(xùn)練圖與原目標(biāo)圖像、模 糊目標(biāo)圖像一起組成訓(xùn)練圖像集。
[0039] 其中,高斯模糊模擬焦外成像效果具體為:
[0040] 首先,將待訓(xùn)練的目標(biāo)圖像轉(zhuǎn)換為灰度圖像,然后對(duì)圖像中的每個(gè)像素點(diǎn)做正態(tài) 分布的計(jì)算:
[0041] N維空間正態(tài)分布方程為:
【權(quán)利要求】
1. 一種圖像檢索數(shù)據(jù)庫(kù)建立方法,其特征在于,包括: 對(duì)待訓(xùn)練的原目標(biāo)圖像進(jìn)行預(yù)處理,形成訓(xùn)練圖像集; 對(duì)所述訓(xùn)練圖像集中的每一副圖像進(jìn)行特征點(diǎn)提取; 對(duì)所述訓(xùn)練圖像集中的每一副圖像進(jìn)行分割,得到文字區(qū)域和非文字區(qū)域; 將像素位置與文字區(qū)域重合的特征點(diǎn)剔除,用剩下的特征點(diǎn)生成圖像檢索數(shù)據(jù)庫(kù)中對(duì) 應(yīng)于原目標(biāo)圖像的特征數(shù)據(jù)。
2. 如權(quán)利要求1所述的方法,其特征在于,對(duì)所述訓(xùn)練圖像集中的每一副圖像進(jìn)行分 害!],得到文字區(qū)域和非文字區(qū)域,進(jìn)一步包括: 將圖像在垂直和水平兩個(gè)方向上沿著圖像中的空白區(qū)域遞歸地進(jìn)行切割,得到一個(gè)個(gè) 無(wú)法再切割矩形框區(qū)域; 將單個(gè)矩形框區(qū)域的大小小于等于訓(xùn)練圖像整圖的6%時(shí),判定該矩形框區(qū)域?yàn)槲淖?區(qū)域,剩下的為非文字區(qū)域。
3. 如權(quán)利要求2所述的方法,其特征在于,所述圖像中的空白區(qū)域包括:頁(yè)邊空白、分 欄邊緣、縮進(jìn)空白、圖像與文本區(qū)域交界部分空白、文字與文字之間的空白。
4. 如權(quán)利要求1至3中任一項(xiàng)所述的方法,其特征在于,所述對(duì)待訓(xùn)練的原目標(biāo)圖像進(jìn) 行預(yù)處理,形成訓(xùn)練圖像集,包括: 將待訓(xùn)練的原目標(biāo)圖像通過(guò)高斯模糊的方式處理,模擬焦外成像效果,得到與檢索圖 像近似的模糊目標(biāo)圖像; 在N個(gè)方向上分別對(duì)原目標(biāo)圖像和模糊目標(biāo)圖像進(jìn)行仿射變換,得到2N張新的訓(xùn)練圖 像,其中2《N《8; 2N張新的訓(xùn)練圖與原目標(biāo)圖像、模糊目標(biāo)圖像一起組成訓(xùn)練圖像集。
5. 如權(quán)利要求4所述的方法,其特征在于,對(duì)原目標(biāo)圖像中的文字區(qū)域進(jìn)行文字識(shí)別, 將識(shí)別出的文字信息作為圖像檢索數(shù)據(jù)庫(kù)中對(duì)應(yīng)于原目標(biāo)圖像的第二檢索數(shù)據(jù)。
6. -種圖像檢索數(shù)據(jù)庫(kù)建立方法,其特征在于,包括: 對(duì)待訓(xùn)練的目標(biāo)圖像進(jìn)行預(yù)處理,形成訓(xùn)練圖像集; 對(duì)所述訓(xùn)練圖像集中的每一副圖像進(jìn)行分割,得到文本字區(qū)域和非文字區(qū)域; 對(duì)所述訓(xùn)練圖像集中每一副圖像的非文字區(qū)域進(jìn)行特征點(diǎn)提取,圖像檢索數(shù)據(jù)庫(kù)中對(duì) 應(yīng)于目標(biāo)圖像的特征數(shù)據(jù)。
7. 如權(quán)利要求6所述的方法,其特征在于,對(duì)所述訓(xùn)練圖像集中的每一副圖像進(jìn)行分 害!],得到文字區(qū)域和非文字區(qū)域,進(jìn)一步包括: 將圖像在垂直和水平兩個(gè)方向上沿著圖像中的空白區(qū)域遞歸地進(jìn)行切割,得到一個(gè)個(gè) 無(wú)法再切割矩形框區(qū)域; 將單個(gè)矩形框區(qū)域的大小小于等于訓(xùn)練圖像整圖的6%時(shí),判定該矩形框區(qū)域?yàn)槲淖?區(qū)域,剩下的為非文字區(qū)域。
8. 如權(quán)利要求7所述的方法,其特征在于,所述圖像中的空白區(qū)域包括:頁(yè)邊空白、分 欄邊緣、縮進(jìn)空白、圖像與文本區(qū)域交界部分空白、文字與文字之間的空白。
9. 如權(quán)利要求6至8中任一項(xiàng)所述的方法,其特征在于,所述對(duì)待訓(xùn)練的原目標(biāo)圖像進(jìn) 行預(yù)處理,形成訓(xùn)練圖像集,包括: 將待訓(xùn)練的原目標(biāo)圖像通過(guò)高斯模糊的方式處理,模擬焦外成像效果,得到與檢索圖 像近似的模糊目標(biāo)圖像; 在N個(gè)方向上分別對(duì)原目標(biāo)圖像和模糊目標(biāo)圖像進(jìn)行仿射變換,得到2N張新的訓(xùn)練圖 像,其中2《N《8; 2N張新的訓(xùn)練圖與原目標(biāo)圖像、模糊目標(biāo)圖像一起組成訓(xùn)練圖像集。
10.如權(quán)利要求9所述的方法,其特征在于,對(duì)原目標(biāo)圖像中的文字區(qū)域進(jìn)行文字識(shí) 另IJ,將識(shí)別出的文字信息作為圖像檢索數(shù)據(jù)庫(kù)中對(duì)應(yīng)于原目標(biāo)圖像的第二檢索數(shù)據(jù)。
【文檔編號(hào)】G06K9/62GK104462111SQ201310424717
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2013年9月17日 優(yōu)先權(quán)日:2013年9月17日
【發(fā)明者】陳卓, 李薪宇 申請(qǐng)人:成都理想境界科技有限公司