專利名稱:應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本實(shí)用新型屬于票據(jù)自動(dòng)識(shí)別領(lǐng)域,尤其是涉及ー種應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別系統(tǒng)。
背景技術(shù):
現(xiàn)有技術(shù)中雖然有ー些設(shè)備能夠?qū)崿F(xiàn)票據(jù)的識(shí)別,但由于設(shè)別設(shè)備技術(shù)的局限,無法實(shí)現(xiàn)快速高效的識(shí)別,而且現(xiàn)有的識(shí)別設(shè)備由于本身問題,無法實(shí)現(xiàn)攜帯方便,同時(shí)也不具有一定的識(shí)別后的處理功能等問題。綜上所述,制作出一設(shè)備能夠?qū)崿F(xiàn)票據(jù)的自動(dòng)識(shí)別其能夠便于攜帯或集成于其他設(shè)備中井能夠進(jìn)行識(shí)別后處理,便成為亟待解決的技術(shù)問題。
實(shí)用新型內(nèi)容本實(shí)用新型所要解決的技術(shù)問題是提供ー種應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別系統(tǒng),以解決識(shí)別設(shè)備由于本身問題,無法實(shí)現(xiàn)攜帯方便,同時(shí)也不具有一定的識(shí)別后的處理功能等問題。為解決上述技術(shù)問題,本實(shí)用新型提供了ー種應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別系統(tǒng),該系統(tǒng)包括終端處理模塊和服務(wù)處理模塊;其中所述終端處理模塊,設(shè)置在移動(dòng)終端中,用于對拍攝后存儲(chǔ)在該移動(dòng)終端內(nèi)的票據(jù)進(jìn)行識(shí)別和校驗(yàn),通過識(shí)別和校驗(yàn)產(chǎn)生符合要求的票據(jù)數(shù)據(jù)并保存,然后將該票據(jù)數(shù)據(jù)保存同步到服務(wù)處理模塊;所述服務(wù)處理模塊,設(shè)置在服務(wù)器中,用于提取官方數(shù)據(jù),并將官方數(shù)據(jù)與票據(jù)數(shù)據(jù)核對,判斷是否與官方數(shù)據(jù)相一致。進(jìn)ー步為設(shè)置在移動(dòng)終端中,用于對拍攝后存儲(chǔ)在該移動(dòng)終端內(nèi)的票據(jù)使用光學(xué)字符識(shí)別技術(shù)和該移動(dòng)終端內(nèi)設(shè)置的票據(jù)字符庫進(jìn)行識(shí)別和校驗(yàn),通過識(shí)別和校驗(yàn)產(chǎn)生符合要求的票據(jù)數(shù)據(jù)并保存,然后將該票據(jù)數(shù)據(jù)保存同步到服務(wù)處理模塊。進(jìn)ー步地,其中,所述票據(jù)字符庫包括票據(jù)的基本信息和特征信息。進(jìn)ー步地,其中,所述終端處理模塊,進(jìn)ー步為用于對拍攝后存儲(chǔ)在該移動(dòng)終端內(nèi)的票據(jù)使用光學(xué)字符識(shí)別技術(shù)進(jìn)行預(yù)處理;對經(jīng)過預(yù)處理后的數(shù)據(jù)進(jìn)行版面分析;對經(jīng)過版面分析后的數(shù)據(jù)進(jìn)行行分割;通過票據(jù)字符庫對經(jīng)過行分割的數(shù)據(jù)進(jìn)行字符分割;對經(jīng)過字符分割后的數(shù)據(jù)進(jìn)行特征提??;對經(jīng)過特征提取后的數(shù)據(jù)進(jìn)行分類處理;對經(jīng)過分類處理后的數(shù)據(jù)進(jìn)行后處理,產(chǎn)生符合要求的票據(jù)數(shù)據(jù)并保存,然后將該票據(jù)數(shù)據(jù)保存同步到服務(wù)處理模塊。綜上所述,與現(xiàn)有技術(shù)相比,本實(shí)用新型所述的應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別系統(tǒng),能夠?qū)崿F(xiàn)票據(jù)的自動(dòng)識(shí)別其能夠便于攜帯或集成于其他設(shè)備中并能夠進(jìn)行識(shí)別后處理。
圖I為本實(shí)用新型實(shí)施例I所述的ー種應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別方法流程框圖。圖2為本實(shí)用新型實(shí)施例I所述的方法中步驟101中所述的識(shí)別的具體流程框圖。圖3為本實(shí)用新型實(shí)施例2所述的ー種應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別系統(tǒng)的結(jié)構(gòu)框圖。
具體實(shí)施方式
以下結(jié)合附圖對本實(shí)用新型作進(jìn)ー步詳細(xì)說明,但不作為對本實(shí)用新型的限定。如圖I所示,為本實(shí)用新型實(shí)施例I所述的ー種應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別·方法,該方法包括如下步驟步驟101,移動(dòng)終端通過對拍攝后存儲(chǔ)在其內(nèi)的票據(jù)進(jìn)行識(shí)別和校驗(yàn),通過識(shí)別和校驗(yàn)產(chǎn)生符合要求的票據(jù)數(shù)據(jù),并將該票據(jù)數(shù)據(jù)保存在該移動(dòng)終端。其中步驟101中所述的識(shí)別可以是在移動(dòng)終端中設(shè)置票據(jù)字符庫,移動(dòng)終端通過使用OCR (Optical Character Recognition,光學(xué)字符識(shí)別)技術(shù)結(jié)合票據(jù)字符庫判斷票據(jù)本身具有的ー些基本信息和特征信息。比如當(dāng)彩票數(shù)據(jù)時(shí),可以在票據(jù)字符庫設(shè)置彩票數(shù)據(jù)中具有的種類信息、期號(hào)信息、時(shí)間信息、注數(shù)信息或金額信息等特征數(shù)據(jù),還可以包括ー些其他特征數(shù)據(jù)I)彩票圖像的底色都是比較統(tǒng)ー的顏色;2)彩票的文本區(qū)域和名片的圖像區(qū)域一般是分開的;3)彩票中的重要文本信息,投注內(nèi)容信息比一般文本信息字體大;4)彩票中的主要字符為中文和數(shù)字,英文字符較少且為非關(guān)鍵性信息;5)彩票的排版一般為從左到右橫排。在票據(jù)字符庫中可以設(shè)置有常用的特征數(shù)據(jù)或字段,進(jìn)行權(quán)重的分配,在進(jìn)行識(shí)別時(shí)候可以優(yōu)先考慮先使用常用的特征數(shù)據(jù)或字段。在詞語權(quán)重的設(shè)置算法中,第一種方法是由專家或者用戶根據(jù)自己的經(jīng)驗(yàn)與所掌握的領(lǐng)域知識(shí)人為的賦上權(quán)值。同時(shí),運(yùn)用統(tǒng)計(jì)的方法,也就是用文本的統(tǒng)計(jì)信息(如詞頻、詞之間的同現(xiàn)頻率等)來計(jì)算項(xiàng)的權(quán)重,采用的權(quán)重計(jì)算公式是基于向量空間模型的TF—IDF算法。對上述兩個(gè)結(jié)果進(jìn)行比對后,再對差異進(jìn)行校正,從而提高權(quán)重分配的精度。其中步驟101中所述的校驗(yàn)方法為自動(dòng)校驗(yàn)。其中,自動(dòng)校驗(yàn)會(huì)根據(jù)識(shí)別數(shù)據(jù)中包含的邏輯關(guān)系,來校驗(yàn)結(jié)果是否正確。例如彩票的種類和玩法決定了投注方案中不可能出現(xiàn)ー些不符合玩法規(guī)則的數(shù)字,通過這樣的邏輯校驗(yàn),就可以進(jìn)一歩提高自動(dòng)校驗(yàn)判斷的正確度,從而提高整體的識(shí)別率。利用光學(xué)字符識(shí)別技術(shù)對彩票信息進(jìn)行自動(dòng)和智能識(shí)別。步驟102,所述移動(dòng)終端將該票據(jù)數(shù)據(jù)保存同步到服務(wù)器端。步驟103,所述服務(wù)器提取官方數(shù)據(jù),并將官方數(shù)據(jù)與票據(jù)數(shù)據(jù)核對,判斷是否與官方數(shù)據(jù)相一致。在這里步驟103針對彩票數(shù)據(jù)來說,實(shí)際上是所述服務(wù)器提取官方的開獎(jiǎng)數(shù)據(jù),并把開獎(jiǎng)數(shù)據(jù)和彩票數(shù)據(jù)自動(dòng)核對,以判斷用戶是否中獎(jiǎng)以及中獎(jiǎng)的等級(jí)、金額。后續(xù)還可以進(jìn)行如下操作所述服務(wù)器把判斷結(jié)果傳送到移動(dòng)終端,移動(dòng)終端接收到判斷結(jié)果后自動(dòng)進(jìn)行提醒。同時(shí)所述服務(wù)器還可根據(jù)預(yù)先設(shè)置的算法對彩票數(shù)據(jù)中的投注方案和收益情況進(jìn)行統(tǒng)計(jì),將統(tǒng)計(jì)結(jié)果發(fā)送給移動(dòng)終端。這樣用戶就可以通過移動(dòng)終端上提供的彩票投注方案建議進(jìn)行投注。如圖2所示,在上述實(shí)施例中步驟101中所述的識(shí)別過程具體為包括步驟1011,移動(dòng)終端對拍攝后存儲(chǔ)在其內(nèi)的票據(jù)使用光學(xué)字符識(shí)別技術(shù)進(jìn)行預(yù)處理。所謂預(yù)處理是為了去噪聲,加強(qiáng)有用的信息,并對移動(dòng)終端輸入設(shè)備或其它因素所造成的退化現(xiàn)象進(jìn)行復(fù)原。通常,預(yù)處理包括對原始圖像的去噪(増大圖像的分辨率)、彩 色圖像轉(zhuǎn)為灰度圖像、傾斜校正、ニ值化;其中增大圖像的分辨率,就是對圖像進(jìn)行插值運(yùn)算,即通過圖像中原有的像素點(diǎn)的值來確定所要増加的像素點(diǎn)的值;ニ值化為把灰度圖像處理為ニ值(0,I)的過程,ニ值化的基本要求是(I)筆畫中不能出現(xiàn)空白;(2) ニ值化后的筆畫基本保持原來文字的特征。為了得到理想的ニ值圖像,采用閾值分割技術(shù),對物體與背景有較強(qiáng)對比的圖像的分割特別有效,它計(jì)算簡單而且總能用封閉、連通的邊界定義不交疊的區(qū)域??紤]到速度和實(shí)際效果等因素,本實(shí)用新型實(shí)施例中采用了將整體閩值法Ostu算法和局部閩值法Bernsen算法相結(jié)合的改進(jìn)的ニ值化方法。票據(jù)的文字圖像經(jīng)過ニ值化后得到的是ー個(gè)整體,其中包括了行與行之間,字與字之問的空白。傾斜校正為現(xiàn)有技術(shù),是在用圖像采集設(shè)備得到圖像時(shí),樣張除了有可能放置顛倒,還有可能略微的傾斜,這種情況也會(huì)影響識(shí)別。傾斜可能是整個(gè)版面都存在問題,也可能是局部的文本塊存在問題。當(dāng)傾斜角度不大時(shí),不影響識(shí)別過程,可以忽略不計(jì)。若傾斜角過大,就影響了識(shí)別的準(zhǔn)確性。所以還需要進(jìn)行自動(dòng)傾斜糾正。步驟1012,對經(jīng)過預(yù)處理后的數(shù)據(jù)進(jìn)行版面分析。所謂版面分析是把文字與圖像部分分開,它是對圖像進(jìn)行總體分析,識(shí)別出文本段落和圖像等,只是識(shí)別出文本區(qū)域,為接下來的工作做準(zhǔn)備。所述版面分析主要是為了區(qū)分文本域、圖像域以及圖表域等,這樣作的目的就是為了分割出文本域。我們采取了根據(jù)實(shí)際統(tǒng)計(jì)的彩票上的特征,采取了象素考察法,如果在某ー個(gè)區(qū)域大面積的是前景圖像,那么我們將視為非文本區(qū)域。步驟1013,對經(jīng)過版面分析后的數(shù)據(jù)進(jìn)行行分割。所謂行分割是將經(jīng)過版面分析后的數(shù)據(jù)的文本圖像切割成一行一行,主要要解決的問題就是行出現(xiàn)傾斜的情況。該步驟1013主要是提高識(shí)別精度,避免識(shí)別精度不高。步驟1014,通過票據(jù)字符庫對經(jīng)過行分割的數(shù)據(jù)進(jìn)行字符分割。所謂字符分割是主要分為兩步,第一歩是將圖形中的字符提取、劃分成獨(dú)立的小圖片,每個(gè)小圖片包含且僅包含一個(gè)字符;第二步是將劃分好的獨(dú)立字符圖像進(jìn)行識(shí)別。由于不同字體、字號(hào)的字符寬度高度不同,加上漢字經(jīng)常出現(xiàn)上下結(jié)構(gòu)、左右結(jié)構(gòu),給中英文、數(shù)字混排的字符分割提出了很高的要求。我們提出的方法是使用現(xiàn)有技術(shù)中的模板匹配技術(shù),預(yù)先設(shè)定好票據(jù)紙張對應(yīng)區(qū)域可能出現(xiàn)的字符類型來簡化識(shí)別難度。通過模板匹配技術(shù),我們可以通過簡單預(yù)處理之后得到該票據(jù)圖形可能的類型,即可知道在特定區(qū)域出現(xiàn)的字符圖形是中文、英文還是數(shù)字,從而極大地提高了字符分割的準(zhǔn)確度。步驟1015,對經(jīng)過字符分割后的數(shù)據(jù)進(jìn)行特征提取。所述特征提取采用統(tǒng)計(jì)梯度直方圖特征,具體實(shí)現(xiàn)方式為1)歸ー化圖像,然后獲取梯度圖像;2)將梯度圖像分為多個(gè)方向平面,每個(gè)方向平面劃分成N*N的cell ;3)統(tǒng)計(jì)每個(gè)cell中梯度的數(shù)量作為特征。所謂特征提取是票據(jù)識(shí)別的關(guān)鍵部分,特征提取的好壞,是決定字符識(shí)別率高低的最關(guān)鍵要素。這是彩票識(shí)別系統(tǒng)成功與否的關(guān)鍵,也是模式識(shí)別領(lǐng)域中人們研究的熱點(diǎn)。步驟1016,對經(jīng)過特征提取后的數(shù)據(jù)進(jìn)行分類處理。所述分類處理為基于統(tǒng)計(jì)的模式識(shí)別方法,具體為計(jì)算待識(shí)別字符的特征與已訓(xùn)練得到的字符模板之間的距離,根據(jù)距離的大小確定識(shí)別的結(jié)果。為方便后續(xù)的上下文語義信息處理,字符分類器一般輸出多個(gè)候選識(shí)別結(jié)果。分類處理的思想是在特征空間中用統(tǒng)計(jì)方法把識(shí)別對象歸為某ー類別,將不同分辨率的數(shù)據(jù)圖像統(tǒng)ー縮放到一定的尺寸,便于分析対比。分類處理的基本做法是根據(jù)制定的判決規(guī)則對被特征提取后的數(shù)據(jù)進(jìn)行分類,其目的是達(dá)到錯(cuò)誤識(shí)別率最小或引起的損失最小。步驟1017,對經(jīng)過分類處理后的數(shù)據(jù)進(jìn)行后處理。所述后處理為借助上下文的語言信息來糾正分類處理后的數(shù)據(jù)的某些錯(cuò)誤。針對本實(shí)用新型所列舉的實(shí)施例來說,實(shí)現(xiàn)方式為兩種ー種是建立彩票詞典;ー種是建立彩票語言模型。前者需要的訓(xùn)練語料相對少,后者則需要大量的語料(彩票內(nèi)容文本)。對于一個(gè)文本行,分類處理識(shí)別后,每個(gè)字符圖像都會(huì)得到多個(gè)候選識(shí)別結(jié)果。那么整個(gè)文本行的識(shí)別結(jié)果則有多種組合,這里的后處理是利用詞典或者語言模型在分類器識(shí)別的基礎(chǔ)上對整個(gè)的文本行的識(shí)別結(jié)果進(jìn)行評價(jià),獲取評價(jià)最好的一個(gè)結(jié)果作為文本行的識(shí)別結(jié)果。后處理是為了糾正一些錯(cuò)誤的識(shí)別,這往往是基于文法分析上的,通過在移動(dòng)終端中建立語法規(guī)則庫,利用詞義、詞頻、語義等先驗(yàn)進(jìn)行識(shí)別結(jié)果的確認(rèn)或糾錯(cuò)。這樣的處通可以進(jìn)一步提聞識(shí)別率。如圖3所示,為本實(shí)用新型實(shí)施例2所述的ー種應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別本系統(tǒng),該系統(tǒng)包括終端處理模塊201和服務(wù)處理模塊202 ;其中所述終端處理模塊201,設(shè)置在移動(dòng)終端中,用于對拍攝后存儲(chǔ)在該移動(dòng)終端內(nèi)的票據(jù)進(jìn)行識(shí)別和校驗(yàn),通過識(shí)別和校驗(yàn)產(chǎn)生符合要求的票據(jù)數(shù)據(jù)并保存,然后將該票據(jù)數(shù)據(jù)保存同步到服務(wù)處理模塊202 ;所述服務(wù)處理模塊202,設(shè)置在服務(wù)器中,用于提取官方數(shù)據(jù),并將官方數(shù)據(jù)與票據(jù)數(shù)據(jù)核對,判斷是否與官方數(shù)據(jù)相一致。具體地,該實(shí)用新型的系統(tǒng)的具體操作方式和前述的實(shí)用新型的方法的具體步驟相一致,這里不再詳細(xì)贅述。綜上所述,與現(xiàn)有技術(shù)相比,本實(shí)用新型所述的應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別方法,通過0CR(0ptical Character Recognition,光學(xué)字符識(shí)別)技術(shù)的優(yōu)化處理,將票據(jù)內(nèi)的各項(xiàng)信息輸入和保存在移動(dòng)終端內(nèi),并同步到服務(wù)器端進(jìn)行判斷。本實(shí)用新型能夠?qū)崿F(xiàn)票據(jù)信息一次輸入、跨網(wǎng)絡(luò)、跨終端共享;不受網(wǎng)絡(luò)類型、終端類型、地點(diǎn)和時(shí)間的限制,具有很高的移動(dòng)性和便利性。本實(shí)用新型能夠?qū)Ω鞣N不同的票據(jù)模式和版式實(shí)現(xiàn)智能化的自適應(yīng),方便用戶使用以及運(yùn)營和維護(hù)。當(dāng)然,本實(shí)用新型還可有其他多種實(shí)施例,在不背離本實(shí)用新型精神及其實(shí)質(zhì)的 情況下,熟悉本領(lǐng)域的技術(shù)人員可根據(jù)本實(shí)用新型做出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本實(shí)用新型所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求1.一種應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別系統(tǒng),其特征在于,該系統(tǒng)包括終端處理模塊和服務(wù)處理模塊;其中 所述終端處理模塊,設(shè)置在移動(dòng)終端中,用于對拍攝后存儲(chǔ)在該移動(dòng)終端內(nèi)的票據(jù)進(jìn)行識(shí)別和校驗(yàn),通過識(shí)別和校驗(yàn)產(chǎn)生符合要求的票據(jù)數(shù)據(jù)并保存,然后將該票據(jù)數(shù)據(jù)保存同步到服務(wù)處理模塊; 所述服務(wù)處理模塊,設(shè)置在服務(wù)器中,用于提取官方數(shù)據(jù),并將官方數(shù)據(jù)與票據(jù)數(shù)據(jù)核對,判斷是否與官方數(shù)據(jù)相一致。
2.如權(quán)利要求I所述的應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別系統(tǒng),其特征在于,所述終端處理1旲塊,進(jìn)一步為 設(shè)置在移動(dòng)終端中,用于對拍攝后存儲(chǔ)在該移動(dòng)終端內(nèi)的票據(jù)使用光學(xué)字符識(shí)別技術(shù)和該移動(dòng)終端內(nèi)設(shè)置的票據(jù)字符庫進(jìn)行識(shí)別和校驗(yàn),通過識(shí)別和校驗(yàn)產(chǎn)生符合要求的票據(jù)數(shù)據(jù)并保存,然后將該票據(jù)數(shù)據(jù)保存同步到服務(wù)處理模塊。
3.如權(quán)利要求2所述的應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別系統(tǒng),其特征在于,所述票據(jù)字符庫包括票據(jù)的基本信息和特征信息。
4.如權(quán)利要求3所述的應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別系統(tǒng),其特征在于,所述終端處理1旲塊,進(jìn)一步為 用于對拍攝后存儲(chǔ)在該移動(dòng)終端內(nèi)的票據(jù)使用光學(xué)字符識(shí)別技術(shù)進(jìn)行預(yù)處理;對經(jīng)過預(yù)處理后的數(shù)據(jù)進(jìn)行版面分析;對經(jīng)過版面分析后的數(shù)據(jù)進(jìn)行行分割;通過票據(jù)字符庫對經(jīng)過行分割的數(shù)據(jù)進(jìn)行字符分割;對經(jīng)過字符分割后的數(shù)據(jù)進(jìn)行特征提?。粚?jīng)過特征提取后的數(shù)據(jù)進(jìn)行分類處理;對經(jīng)過分類處理后的數(shù)據(jù)進(jìn)行后處理,產(chǎn)生符合要求的票據(jù)數(shù)據(jù)并保存,然后將該票據(jù)數(shù)據(jù)保存同步到服務(wù)處理模塊。
專利摘要本實(shí)用新型公開了一種應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別系統(tǒng),該系統(tǒng)包括終端處理模塊和服務(wù)處理模塊;終端處理模塊,設(shè)置在移動(dòng)終端中,用于對拍攝后存儲(chǔ)在該移動(dòng)終端內(nèi)的票據(jù)進(jìn)行識(shí)別和校驗(yàn),通過識(shí)別和校驗(yàn)產(chǎn)生符合要求的票據(jù)數(shù)據(jù)并保存,然后將該票據(jù)數(shù)據(jù)保存同步到服務(wù)處理模塊;服務(wù)處理模塊,設(shè)置在服務(wù)器中,用于提取官方數(shù)據(jù),并將官方數(shù)據(jù)與票據(jù)數(shù)據(jù)核對,判斷是否與官方數(shù)據(jù)相一致。本實(shí)用新型所述的應(yīng)用于移動(dòng)終端的票據(jù)自動(dòng)識(shí)別方法和系統(tǒng),能夠?qū)崿F(xiàn)票據(jù)的自動(dòng)識(shí)別其能夠便于攜帶或集成于其他設(shè)備中并能夠進(jìn)行識(shí)別后處理。
文檔編號(hào)G07D7/20GK202584267SQ20122027618
公開日2012年12月5日 申請日期2012年6月12日 優(yōu)先權(quán)日2012年6月12日
發(fā)明者王湘云 申請人:豐豪盈彩(北京)科技有限公司