專利名稱:一種文本圖像的切邊方法
技術(shù)領(lǐng)域:
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,涉及一種圖像處理方法,尤其涉及一種文本圖像的切邊方法。
背景技術(shù):
近年來(lái),數(shù)碼相機(jī)等數(shù)字成像設(shè)備的應(yīng)用越來(lái)越廣泛,目前自帶的數(shù)碼相機(jī)已經(jīng)成為了手機(jī)等移動(dòng)設(shè)備的標(biāo)準(zhǔn)配置了。這些數(shù)字成像設(shè)備經(jīng)常被用來(lái)拍攝各種文本圖像, 文本圖像是指包含有一行或者多行印刷體文字的圖像,比如名片,菜單,票據(jù)等等。相機(jī)拍攝跟掃描儀掃描所得到的圖像是有區(qū)別的,區(qū)別包括相機(jī)拍攝得到的圖像不如掃描儀掃描的圖像清晰,相機(jī)拍攝的圖像包含了所拍攝物體如名片的投影形變使得圖像中的名片看上去不如掃描的到的那么方正,相機(jī)拍攝的圖像包含了所拍攝物體外部的背景等等。由于拍攝習(xí)慣,取景需求等的不同,用戶拍攝到的文本圖像,一般是包含有背景的,而用戶需要的圖像,通常是去掉了背景區(qū)域的圖像,就像掃描儀掃描得到的圖像。將文本圖像中從其背景中分離出來(lái)的技術(shù),目前已有應(yīng)用,比如蘋(píng)果公司app store的名片處理軟件mobiReader在拍攝名片時(shí),通過(guò)指定一個(gè)預(yù)覽框,要求用戶拍攝時(shí)時(shí)名片剛好在預(yù)覽框內(nèi),從而使拍攝得到的圖像只有名片的區(qū)域,達(dá)到將名片切邊的效果。 這是一種手動(dòng)切邊的方法。因?yàn)槲谋镜膱D像的形狀比如名片,菜單,票據(jù)一般是具有明顯邊緣的四邊形,很多軟件會(huì)通過(guò)圖像處理中的直線檢測(cè)的方法檢測(cè)出文本區(qū)域,比如蘋(píng)果公司 app store 的&^f牛 genius Scan0但是到文本中有其它的明顯的邊緣時(shí),這種檢測(cè)方法常常會(huì)將文本內(nèi)部的直線當(dāng)成文本的邊緣。對(duì)這種包含有文字的圖片仍然可以根據(jù)一些特定的線索來(lái)輔助尋找文本圖像的區(qū)域,提高檢測(cè)文本區(qū)域的準(zhǔn)確性,保證切邊的效果。無(wú)論是掃描得到的文本圖像還是相機(jī)拍攝得到的文本圖像,現(xiàn)有的軟件如名片識(shí)別軟件以及一般掃描儀帶有的OCR軟件都可以自動(dòng)的檢測(cè)出圖像中的文字并進(jìn)行識(shí)別。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種文本圖像的切邊方法,可自動(dòng)檢測(cè)文本區(qū)域的邊緣,并通過(guò)文字檢測(cè)的方法,利用檢測(cè)到的文字區(qū)域?qū)ξ谋具吘夁M(jìn)行驗(yàn)證和糾正, 大幅度提高了檢測(cè)到文本區(qū)域的準(zhǔn)確性,從而去掉了不相關(guān)的冗余信息,使用戶瀏覽圖像數(shù)據(jù)時(shí)看到的圖像是有只含有文本區(qū)域的對(duì)用戶有價(jià)值的部分。為解決上述技術(shù)問(wèn)題,本發(fā)明采用如下技術(shù)方案一種文本圖像的切邊方法,其特征在于,所述方法包括如下步驟步驟110,獲取文本圖像數(shù)據(jù);步驟120,通過(guò)直線檢測(cè)的方法檢測(cè)出文本圖像的直線,得到切邊四邊形的邊緣;步驟130,對(duì)圖像數(shù)據(jù)進(jìn)行文本檢測(cè),得到文本區(qū)域的邊界點(diǎn)的坐標(biāo);步驟140,根據(jù)步驟120和步驟130的結(jié)果得到最后的切邊結(jié)果;
步驟150,結(jié)束。作為本發(fā)明的一種優(yōu)選方案,所述步驟140具體包括如下步驟步驟210,將步驟120得到的所有切邊四邊形組成一個(gè)候選四邊形集合;步驟220,如果候選四邊形集合為空,轉(zhuǎn)入步驟沈0,否則進(jìn)入步驟230 ;步驟230,從四邊形候選集合移取下一個(gè)候選四邊形;步驟M0,判斷文本區(qū)域的所有邊界點(diǎn)是否在候選四邊形中,如果是則該文本區(qū)域?yàn)橛行У那羞吽倪呅无D(zhuǎn)步驟250,如果否,轉(zhuǎn)步驟220 ;步驟250,返回有效的切邊四邊形;步驟沈0,將整張圖像返回給用戶供其手工確定切邊四邊形。作為本發(fā)明的一種優(yōu)選方案,所述步驟110獲取圖像數(shù)據(jù)的方法包括以下三種之方法之一是用數(shù)碼相機(jī)拍攝得到的圖像;方法之二是用掃描儀得到的圖像數(shù)據(jù);方法之三是打開(kāi)一個(gè)預(yù)先存在的包含有圖像數(shù)據(jù)的文件,讀取該文件中的數(shù)據(jù)并按照標(biāo)準(zhǔn)算法解壓縮后得到的圖像數(shù)據(jù)。為了實(shí)現(xiàn)本發(fā)明,需具備如下硬件條件該設(shè)備中需要有一般的運(yùn)算和存儲(chǔ)裝置, 包括一定頻率的CPU(中央處理器),有一定用來(lái)運(yùn)算的內(nèi)存和用來(lái)存儲(chǔ)系統(tǒng)軟件,應(yīng)用軟件和各種數(shù)據(jù)的存儲(chǔ)空間等。如果需要通過(guò)數(shù)碼相機(jī)拍攝或者掃描儀掃描來(lái)得到圖像數(shù)據(jù),還需要有數(shù)碼相機(jī)或掃描儀。本發(fā)明針對(duì)用戶需要保存或進(jìn)行瀏覽的文本圖像數(shù)據(jù),自動(dòng)檢測(cè)文本區(qū)域的邊緣,并通過(guò)文字檢測(cè)的方法,利用檢測(cè)到的文字區(qū)域?qū)ξ谋具吘夁M(jìn)行驗(yàn)證和糾正,大幅度提高了檢測(cè)到文本區(qū)域的準(zhǔn)確性。本發(fā)明的有益效果在于本發(fā)明提出的文本圖像的切邊方法,利用圖像處理、模式識(shí)別等的領(lǐng)域的技術(shù),在對(duì)文本圖像進(jìn)行切邊的時(shí)候,通過(guò)判斷切邊四邊形是否包含文本區(qū)域,從而得到準(zhǔn)確的文本區(qū)域。該方法能從切邊的候選四邊形中得到準(zhǔn)確的切邊區(qū)域,減少用戶手工裁減區(qū)域和由于切邊不準(zhǔn)丟失數(shù)據(jù)的麻煩。
圖1為本發(fā)明文本圖像切邊方法的流程圖;圖2為判斷切邊四邊形是否有效步驟的流程圖;圖3為拍攝到的票據(jù)單示意圖;圖4為經(jīng)本發(fā)明文本圖像切邊方法處理后的票據(jù)單示意圖。
具體實(shí)施例方式下面結(jié)合附圖詳細(xì)說(shuō)明本發(fā)明的優(yōu)選實(shí)施例。實(shí)施例一請(qǐng)參閱圖1,本發(fā)明揭示了一種文本圖像的切邊方法,所述方法包括如下步驟步驟110獲取文本圖像數(shù)據(jù)。獲取圖像數(shù)據(jù)的方法包括以下三種之一方法之一是用數(shù)碼相機(jī)拍攝得到的圖像;
方法之二是用掃描儀得到的圖像數(shù)據(jù);方法之三是打開(kāi)一個(gè)預(yù)先存在的包含有圖像數(shù)據(jù)的文件,讀取該文件中的數(shù)據(jù)并按照標(biāo)準(zhǔn)算法解壓縮后得到的圖像數(shù)據(jù)。步驟120通過(guò)直線檢測(cè)的方法檢測(cè)出文本圖像的直線,得到切邊四邊形的邊緣。步驟130對(duì)圖像數(shù)據(jù)進(jìn)行文本檢測(cè),得到文本區(qū)域的邊界點(diǎn)的坐標(biāo);步驟140根據(jù)步驟120和步驟130的結(jié)果得到最后的切邊結(jié)果;請(qǐng)參閱圖2,步驟140具體包括如下步驟步驟210,將步驟120得到的所有切邊四邊形組成一個(gè)候選四邊形集合;步驟220,如果候選四邊形集合為空,轉(zhuǎn)入步驟沈0,否則進(jìn)入步驟230 ;步驟230,從四邊形候選集合移取下一個(gè)候選四邊形;步驟M0,判斷文本區(qū)域的所有邊界點(diǎn)是否在候選四邊形中,如果是則該文本區(qū)域?yàn)橛行У那羞吽倪呅无D(zhuǎn)步驟250,如果否,轉(zhuǎn)步驟220 ;步驟250,返回有效的切邊四邊形;步驟沈0,將整張圖像返回給用戶供其手工確定切邊四邊形。步驟150結(jié)束。綜上所述,本發(fā)明提出的文本圖像的切邊方法,利用圖像處理、模式識(shí)別等的領(lǐng)域的技術(shù),在對(duì)文本圖像進(jìn)行切邊的時(shí)候,通過(guò)判斷切邊四邊形是否包含文本區(qū)域,從而得到準(zhǔn)確的文本區(qū)域。該方法能從切邊的候選四邊形中得到準(zhǔn)確的切邊區(qū)域,減少用戶手工裁減區(qū)域和由于切邊不準(zhǔn)丟失數(shù)據(jù)的麻煩。實(shí)施例二在一般的計(jì)算機(jī)上,對(duì)拍攝到的票據(jù)單如圖3所示,使用本發(fā)明所述的方法,讀取其中的圖像數(shù)據(jù),經(jīng)過(guò)自動(dòng)切邊和文本檢測(cè)的糾正算法,得到如圖所示的圖像如圖4所
7J\ ο實(shí)施例三在iPhone上,該手機(jī)自帶300萬(wàn)像素的攝像頭,使用本發(fā)明所述的方法,對(duì)拍攝得到的名片圖像,經(jīng)過(guò)自動(dòng)切邊和文本檢測(cè)的糾正算法,得到矩形圖像。這里本發(fā)明的描述和應(yīng)用是說(shuō)明性的,并非想將本發(fā)明的范圍限制在上述實(shí)施例中。這里所披露的實(shí)施例的變形和改變是可能的,對(duì)于那些本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)實(shí)施例的替換和等效的各種部件是公知的。本領(lǐng)域技術(shù)人員應(yīng)該清楚的是,在不脫離本發(fā)明的精神或本質(zhì)特征的情況下,本發(fā)明可以以其它形式、結(jié)構(gòu)、布置、比例,以及用其它組件、 材料和部件來(lái)實(shí)現(xiàn)。在不脫離本發(fā)明范圍和精神的情況下,可以對(duì)這里所披露的實(shí)施例進(jìn)行其它變形和改變。
權(quán)利要求
1.一種文本圖像的切邊方法,其特征在于,所述方法包括如下步驟 步驟110,獲取文本圖像數(shù)據(jù);獲取圖像數(shù)據(jù)的方法包括以下三種之一方法之一是用數(shù)碼相機(jī)拍攝得到的圖像;方法之二是用掃描儀得到的圖像數(shù)據(jù);方法之三是打開(kāi)一個(gè)預(yù)先存在的包含有圖像數(shù)據(jù)的文件,讀取該文件中的數(shù)據(jù)并按照標(biāo)準(zhǔn)算法解壓縮后得到的圖像數(shù)據(jù);步驟120,通過(guò)直線檢測(cè)的方法檢測(cè)出文本圖像的直線,得到切邊四邊形的邊緣;通過(guò)檢測(cè)到的直線得到多個(gè)候選的四邊形區(qū)域;步驟130,對(duì)圖像數(shù)據(jù)進(jìn)行文本檢測(cè),得到文本區(qū)域的邊界點(diǎn)的坐標(biāo);步驟140,根據(jù)步驟120和130的結(jié)果得到最后的切邊結(jié)果;步驟140的具體步驟如下-步驟210,將步驟120得到的所有切邊四邊形組成一個(gè)候選四邊形集合; -步驟220,如果候選四邊形集合為空,轉(zhuǎn)入步驟沈0,否則進(jìn)入步驟230 ; -步驟230,從四邊形候選集合移取下一個(gè)候選四邊形;-步驟M0,判斷文本區(qū)域的所有邊界點(diǎn)是否在候選四邊形中,如果是則該文本區(qū)域?yàn)橛行У那羞吽倪呅无D(zhuǎn)步驟250,如果否,轉(zhuǎn)步驟220 ; -步驟250,返回有效的切邊四邊形;-步驟沈0,將整張圖像返回給用戶供其手工確定切邊四邊形; 步驟150,結(jié)束。
2.一種文本圖像的切邊方法,其特征在于,所述方法包括如下步驟 步驟110,獲取文本圖像數(shù)據(jù);步驟120,通過(guò)直線檢測(cè)的方法檢測(cè)出文本圖像的直線,得到切邊四邊形的邊緣; 步驟130,對(duì)圖像數(shù)據(jù)進(jìn)行文本檢測(cè),得到文本區(qū)域的邊界點(diǎn)的坐標(biāo); 步驟140,根據(jù)步驟120和步驟130的結(jié)果得到最后的切邊結(jié)果; 步驟150,結(jié)束。
3.根據(jù)權(quán)利要求2所述的文本圖像的切邊方法,其特征在于 所述步驟140具體包括如下步驟步驟210,將步驟120得到的所有切邊四邊形組成一個(gè)候選四邊形集合; 步驟220,如果候選四邊形集合為空,轉(zhuǎn)入步驟沈0,否則進(jìn)入步驟230 ; 步驟230,從四邊形候選集合移取下一個(gè)候選四邊形;步驟M0,判斷文本區(qū)域的所有邊界點(diǎn)是否在候選四邊形中,如果是則該文本區(qū)域?yàn)橛行У那羞吽倪呅无D(zhuǎn)步驟250,如果否,轉(zhuǎn)步驟220 ; 步驟250,返回有效的切邊四邊形;步驟沈0,將整張圖像返回給用戶供其手工確定切邊四邊形。
4.根據(jù)權(quán)利要求2所述的文本圖像的切邊方法,其特征在于 所述步驟110獲取圖像數(shù)據(jù)的方法包括以下三種之一 方法之一是用數(shù)碼相機(jī)拍攝得到的圖像;方法之二是用掃描儀得到的圖像數(shù)據(jù);方法之三是打開(kāi)一個(gè)預(yù)先存在的包含有圖像數(shù)據(jù)的文件,讀取該文件中的數(shù)據(jù)并按照標(biāo)準(zhǔn)算法解壓縮后得到的圖像數(shù)據(jù)。
全文摘要
本發(fā)明揭示了一種文本圖像的切邊方法,所述方法包括如下步驟步驟110,獲取文本圖像數(shù)據(jù);步驟120,通過(guò)直線檢測(cè)的方法檢測(cè)出文本圖像的直線,得到切邊四邊形的邊緣;步驟130,對(duì)圖像數(shù)據(jù)進(jìn)行文本檢測(cè),得到文本區(qū)域的邊界點(diǎn)的坐標(biāo);步驟140,根據(jù)步驟120和步驟130的結(jié)果得到最后的切邊結(jié)果。本發(fā)明可自動(dòng)檢測(cè)文本區(qū)域的邊緣,并通過(guò)文字檢測(cè)的方法,利用檢測(cè)到的文字區(qū)域?qū)ξ谋具吘夁M(jìn)行驗(yàn)證和糾正,大幅度提高了檢測(cè)到文本區(qū)域的準(zhǔn)確性,從而去掉了不相關(guān)的冗余信息,使用戶瀏覽圖像數(shù)據(jù)時(shí)看到的圖像是有只含有文本區(qū)域的對(duì)用戶有價(jià)值的部分。
文檔編號(hào)G06T7/00GK102201053SQ20101058397
公開(kāi)日2011年9月28日 申請(qǐng)日期2010年12月10日 優(yōu)先權(quán)日2010年12月10日
發(fā)明者張彬, 羅希平, 龍騰 申請(qǐng)人:上海合合信息科技發(fā)展有限公司