亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

字符串識(shí)別裝置和方法

文檔序號(hào):6580411閱讀:165來源:國(guó)知局
專利名稱:字符串識(shí)別裝置和方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種字符串識(shí)別裝置和方法,即由字符串圖像識(shí)別出字符串的裝置 和方法。
背景技術(shù)
當(dāng)今,通過OCR技術(shù)識(shí)別各種字符信息是很普遍的事情。例如,用戶在紙上或 觸摸屏上寫下一串字符,通過掃描、拍照或感應(yīng)等轉(zhuǎn)換為字符串圖像,將該字符串圖像 輸入識(shí)別系統(tǒng),從而識(shí)別并輸出該字符串值。在實(shí)際應(yīng)用中存在各種字符串,例如字符串可能完全由字母組成,也可能由字 母和數(shù)字混合組成,可能包含分隔符“.”,還可能包含分隔符“@”。對(duì)于這樣的信息、特別是這些信息的手寫體的識(shí)別現(xiàn)在變得越來越重要,因?yàn)?隨著互聯(lián)網(wǎng)的迅速發(fā)展,在傳送信息時(shí)使用到這種字符串的情況越來越頻繁,例如用戶 會(huì)在觸摸屏上手寫輸入Email地址。然而,對(duì)于這種字符串的識(shí)別,目前并沒有特別高 效的方法。

發(fā)明內(nèi)容
本發(fā)明的目的是提出一種識(shí)別字符串的方法和裝置。在下文中給出關(guān)于本發(fā)明 的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是 關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限 定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳 細(xì)描述的前序。根據(jù)本發(fā)明的一個(gè)方面,提供了一種識(shí)別字符串的方法,包括以下步驟將字 符串圖像劃分為多個(gè)片段;對(duì)所述多個(gè)片段進(jìn)行OCR識(shí)別,獲得候選字符,其中,每一 個(gè)片段對(duì)應(yīng)于至少一個(gè)候選字符;獲取片段的候選字符和/或片段的候選字符形成的字 符組合的統(tǒng)計(jì)信息;以及結(jié)合所述統(tǒng)計(jì)信息以及候選字符的OCR識(shí)別置信度來確定候選 字符串。根據(jù)本發(fā)明的另一個(gè)方面,提供了一種字符串識(shí)別裝置,包括片段劃分模 塊,用于將字符串圖像劃分為多個(gè)片段;OCR識(shí)別模塊,用于對(duì)所述多個(gè)片段進(jìn)行OCR 識(shí)別,獲得候選字符,其中,每一個(gè)片段對(duì)應(yīng)于至少一個(gè)候選字符;統(tǒng)計(jì)信息獲取模 塊,用于獲取片段的候選字符和/或片段的候選字符形成的字符組合的統(tǒng)計(jì)信息;以及 第一字符串確定模塊,用于結(jié)合所述統(tǒng)計(jì)信息以及候選字符的OCR識(shí)別置信度來確定候 選字符串。另外,本發(fā)明的實(shí)施例還提供了用于實(shí)現(xiàn)上述字符串識(shí)別方法的計(jì)算機(jī)程序。此外,本發(fā)明的實(shí)施例還提供了至少計(jì)算機(jī)可讀介質(zhì)形式的計(jì)算機(jī)程序產(chǎn)品, 其上記錄有用于實(shí)現(xiàn)上述字符串識(shí)別方法的計(jì)算機(jī)程序代碼。


本發(fā)明可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解。所述附 圖連同下面的詳細(xì)說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進(jìn) 一步舉例說明本發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。在附圖中圖1示出了根據(jù)本發(fā)明的第一實(shí)施例的方法的示意性流程圖。圖2示出了根據(jù)本發(fā)明的第二實(shí)施例的方法的示意性流程圖。圖3示出了對(duì)字符串的一個(gè)識(shí)別結(jié)果。圖4在右邊示出了對(duì)OCR識(shí)別結(jié)果進(jìn)行篩選之后的篩選結(jié)果,并且在左邊示出 了相應(yīng)的路徑圖。圖5示出了常見的由兩個(gè)字符組成的音節(jié)和/或由三個(gè)字符組成的音節(jié)。圖6示出了針對(duì)音節(jié)的訓(xùn)練和統(tǒng)計(jì)結(jié)果。圖7示出了根據(jù)本發(fā)明的第三實(shí)施例的方法的示意性流程圖。圖8示出了數(shù)字和字母構(gòu)成的三元組的統(tǒng)計(jì)結(jié)果。圖9示出了根據(jù)本發(fā)明的第四實(shí)施例的方法的示意性流程圖。圖10示出了根據(jù)本發(fā)明的第五實(shí)施例的利用已知的庫來校正OCR識(shí)別結(jié)果的方 法的示意性流程圖。圖11示出了根據(jù)本發(fā)明的第六實(shí)施例的方法的示意性流程圖。圖12示出了根據(jù)本發(fā)明的第七實(shí)施例的字符串識(shí)別裝置。圖13示出了根據(jù)本發(fā)明的第八實(shí)施例的字符串識(shí)別裝置。圖14示出了根據(jù)本發(fā)明的第九實(shí)施例的字符串識(shí)別裝置。圖15示出了根據(jù)本發(fā)明的第十實(shí)施例的字符串識(shí)別裝置的分隔符識(shí)別模塊。圖16示出了根據(jù)本發(fā)明的第十一實(shí)施例的字符串識(shí)別裝置。圖17示出了可用于實(shí)施根據(jù)本發(fā)明的實(shí)施例的計(jì)算機(jī)的示意性框圖。
具體實(shí)施例方式在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起 見,在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種 實(shí)際實(shí)施例的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目 標(biāo),并且這些決定可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開 發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這 種開發(fā)工作僅僅是例行的任務(wù)。在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附 圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu),而省略了與本發(fā)明關(guān)系不大 的其他細(xì)節(jié)。下面通過具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。第一實(shí)施例純粹的OCR識(shí)別本身是公知的技術(shù)。為方便后面的說明和理解,下面對(duì)OCR 識(shí)別過程作一簡(jiǎn)要描述。待識(shí)別的輸入字符串圖像可以是用戶在紙上或觸摸屏上寫下并通過掃描、拍照或感應(yīng)等轉(zhuǎn)換而得到的字符串圖像。例如,用戶在觸摸屏上手寫輸入字符串 “hanashiro” 的圖像。通常,在獲得輸入的字符串圖像之后,對(duì)手寫輸入的該字符串圖像進(jìn)行預(yù)處 理,例如進(jìn)行二值化處理以將模擬圖像、彩色數(shù)字圖像、灰度級(jí)圖像等轉(zhuǎn)換為二值圖 像。然后進(jìn)行連通域分析。連通域是指由相互鄰接的同類像素(例如前景像素)形成的 圖像區(qū)域。所述同類像素在二值圖像的情況下可以指前景像素(例如黑像素),也可以指 背景像素(例如白像素);在灰度級(jí)圖像的情況下可以是指灰度級(jí)在一定范圍內(nèi)的像素。 通常考慮的連通域有四鄰域連通域、八鄰域連通域等等。由于連通域的概念是本領(lǐng)域普 通技術(shù)人員所知道的,因此在這里不再進(jìn)一步描述。在此,可以通過各種公知的方法來 搜索連通域,例如通過八鄰域連通域分析,搜索字符圖像中所有的連通域。在八鄰域連通域分析中,首先找到一個(gè)前景點(diǎn),并以它為種子,然后在該種子 的八鄰域內(nèi)搜索沒有被訪問過的前景點(diǎn),并以它們?yōu)樾碌姆N子點(diǎn),遞歸繼續(xù)上面的搜索 過程,直到找不到新的種子點(diǎn),結(jié)束搜索,輸出所有被訪問過的前景點(diǎn),作為一塊連 通域;尋找新的沒有被訪問過的前景點(diǎn),并以它為種子,可以找到另一塊連通域。如 此,直到所有的點(diǎn)都被訪問過。關(guān)于八鄰域連通域分析,例如可參見DigitalImage Processing (4th Edition), W.K.Pratt, John Wiley&Sons, Inc.2007。然后,可以基于連通域分析(還可以進(jìn)行字符切分)的結(jié)果提取特征、利用分類 器進(jìn)行OCR識(shí)別。 但是,僅僅依靠對(duì)字符串的OCR識(shí)別并不能達(dá)到令人滿意的結(jié)果。申請(qǐng)人發(fā) 現(xiàn),在很多情況下字符串中包含著某種組合的規(guī)律。通過對(duì)大量字符串的統(tǒng)計(jì)可以獲得 這種規(guī)律,并且將其利用在字符串的識(shí)別中,從而可以明顯提高識(shí)別的正確率。在本發(fā)明的一個(gè)實(shí)施例中,提出了一種可以利用字符組合的統(tǒng)計(jì)信息結(jié)合OCR 識(shí)別來確定待識(shí)別的字符串的方法。在很多情況下,要識(shí)別的字符串往往是一些常見的或者常用的字符串。例如 對(duì)于日文的字符串“hanashiro”,如果對(duì)大量日文詞進(jìn)行統(tǒng)計(jì),可以得到在前面出現(xiàn)
“ha”的字符組合的情況下,隨后出現(xiàn)“皿”這一的字符組合的概率。那么在識(shí)別的時(shí) 候如果將OCR識(shí)別的結(jié)果與該統(tǒng)計(jì)信息結(jié)合,則應(yīng)當(dāng)可以得到更好的結(jié)果。圖1示出了根據(jù)本發(fā)明的第一實(shí)施例的方法的示意性流程圖。在步驟SllO中,將字符串圖像劃分為多個(gè)片段。該切分步驟可以借助于多種 現(xiàn)有技術(shù)進(jìn)行。仍然以“hanashiro”為例,可以基于連通域分析結(jié)果進(jìn)行切分和識(shí)別。 可以首先將前景連通域切分成若干相鄰的片段,其中1 3個(gè)相鄰片段可能組成單個(gè)完 整的字符。對(duì)于該切分通常采用雙鏈彈性匹配算法來搜索所有可能的切分點(diǎn),隨后使用 動(dòng)態(tài)規(guī)劃來尋找最佳的切分點(diǎn)。對(duì)于連通域的切分,具體可參見Danian Zheng所著的
“ Handwritten Email Address Recognition with Syntax and Lexicons ”,ICFHR2008 禾口專禾丨J 申 請(qǐng)CN200810080950.4( “字符信息識(shí)別裝置和方法”)。在步驟S120中,對(duì)所述多個(gè)片段進(jìn)行OCR識(shí)別,獲得候選字符。本領(lǐng)域技術(shù) 人員知道,在對(duì)字符圖像進(jìn)行識(shí)別時(shí),所得到的僅僅是待識(shí)別的字符圖像為某個(gè)字符的 概率。例如,字符圖像“h”可能在OCR識(shí)別中被識(shí)別為“h”或“b”,但它們具有 不同的概率,又稱識(shí)別置信度。因此,每一個(gè)片段對(duì)應(yīng)于至少一個(gè)候選字符。
在步驟S130中,獲取片段的候選字符和/或片段的候選字符形成的字符組合的 統(tǒng)計(jì)信息。例如對(duì)于字符組合“ha”,可以事先對(duì)大量的詞匯進(jìn)行統(tǒng)計(jì),得出其中包 括該字符組合的概率。同樣,可以得到字符組合“han”在詞匯中出現(xiàn)的概率。當(dāng)然, 在此可以限定用于進(jìn)行統(tǒng)計(jì)的詞匯范圍。例如統(tǒng)計(jì)所有的公司名稱,所有的人名等等, 從而可以得到相應(yīng)的概率。如果在對(duì)某個(gè)字符串進(jìn)行識(shí)別時(shí)得知該字符串是屬于某個(gè)領(lǐng) 域或者范圍,則可以利用上述相應(yīng)的概率,從而得到更好的結(jié)果。需要說明的是,上述 統(tǒng)計(jì)過程可以 是在事先完成的,在步驟S130中可以僅僅直接將該統(tǒng)計(jì)結(jié)果作為輸入來使 用?;谏鲜龅膶?duì)各字符組合的統(tǒng)計(jì)信息,可以得到以下結(jié)果如果出現(xiàn)某個(gè)字符 或者字符組合,則其后出現(xiàn)某個(gè)字符或字符組合的概率是多少。例如,如果已知“ha” 出現(xiàn)的概率,也已知“han”出現(xiàn)的概率,那么根據(jù)條件概率公式P(B|A) = P(AB)/ P(A)可以得出在出現(xiàn)“ha”的情況下,隨后出現(xiàn)“η”的概率是多少。反過來,當(dāng)然 也可以得到“h”出現(xiàn)在“an”之前的概率是多少。在步驟S140中,結(jié)合所述統(tǒng)計(jì)信息以及候選字符的OCR識(shí)別置信度來確定候選 字符串。例如,對(duì)于同一片段的多個(gè)OCR候選字符,可以根據(jù)所述統(tǒng)計(jì)信息選擇其在當(dāng) 前上下文中出現(xiàn)概率較高的候選字符,或者將所述統(tǒng)計(jì)概率和其OCR識(shí)別置信度分別賦 予一定的權(quán)重來選擇候選字符,或者在OCR置信度高于一定閾值的候選字符中利用所述 統(tǒng)計(jì)信息來進(jìn)行選擇,等等。通過根據(jù)該實(shí)施例的方法,由于除了 OCR識(shí)別置信度之外還使用了多個(gè)片段的 候選字符組合的統(tǒng)計(jì)信息,因此實(shí)現(xiàn)了更高的識(shí)別準(zhǔn)確性。需要說明的是,上述統(tǒng)計(jì)信息可以包括一個(gè)字符、字符類型和/或字符組 合與至少一個(gè)預(yù)定字符、字符類型和/或字符組合一起出現(xiàn)的概率。如對(duì)于字符串
“hanashirol23”,可以統(tǒng)計(jì)“h,,與“a” 一起出現(xiàn)的概率,“ha,,與“η,,一起出現(xiàn) 的概率,“h”與“an” 一起出現(xiàn)的概率,“ha”與“na” 一起出現(xiàn)的概率,“ro”與 “12” 一起出現(xiàn)的概率,字母和數(shù)字一起出現(xiàn)的概率,多個(gè)(例如三個(gè))數(shù)字連續(xù)出現(xiàn)的 概率,多個(gè)連續(xù)字母與多個(gè)連續(xù)數(shù)字出現(xiàn)的概率,等等。其目的都是為了能夠根據(jù)前面 (或者后面)出現(xiàn)的字符/字符類型/字符組合來統(tǒng)計(jì)得到后面(或者前面)出現(xiàn)的字符 /字符類型/字符組合的概率,從而在識(shí)別中加以利用。在所述統(tǒng)計(jì)信息涉及字符組合時(shí),可以結(jié)合OCR置信度同時(shí)確定所述字符組合 涉及的多個(gè)片段的候選字符組合,方法與前述類似。或者可以將涉及字符組合的概率轉(zhuǎn) 換為涉及單個(gè)字符的概率來加以利用。第二實(shí)施例在第一實(shí)施例的基礎(chǔ)上,發(fā)明人研究發(fā)現(xiàn),在任何一種語言中,音節(jié)都有統(tǒng)計(jì) 意義上的關(guān)聯(lián)。以日本的用戶名為例,其中常常包括若干音節(jié),這些音節(jié)之間在統(tǒng)計(jì) 意義上有一定關(guān)聯(lián),因此可以利用這種內(nèi)在關(guān)聯(lián)來實(shí)現(xiàn)更好的識(shí)別效果。例如日本用戶 名“hanashiro”中包含了四個(gè)音節(jié)“ha”、“na”、“shi”和“ro”,因此,可以根 據(jù)這些音節(jié)來構(gòu)建上述方法中的字符組合。例如,所述字符組合可以包括一個(gè)音節(jié)如
“ha”、“na”等,可以包括兩個(gè)音節(jié)如“hana”、“nashi”等,還可以包括三個(gè)音節(jié) 如“hanashi”,等等。因此為了識(shí)別字符串,例如可以在n_元詞庫中搜索相鄰音節(jié)組成的η-元組,如果找到相鄰音節(jié)組成的η-元組,則該音節(jié)獲得更高的得分,否則該音節(jié)僅僅是其本身的OCR識(shí)別概率。對(duì)于該基于音節(jié)的η-元組方法,在下面的第二實(shí)施例 中繼續(xù)以“hanashiro”為例來進(jìn)行具體描述(以三元組方法為例),其中圖2示出了該方 法的相應(yīng)流程圖。在步驟S210中,如第一實(shí)施例中所描述的那樣,首先將字符串“hanashiro”的 圖像劃分為多個(gè)片段,在此假定恰好劃分為對(duì)應(yīng)于“h”、“a”、“η”、“a”、...的 圖像片段,然后在步驟S220中對(duì)各片段進(jìn)行OCR識(shí)別,從而針對(duì)“hanashiro”中的各字 符確定OCR識(shí)別概率。在圖3中示出了該識(shí)別結(jié)果。在圖中,每行分別列出了相應(yīng)的 字符的OCR識(shí)別概率。例如對(duì)于第一個(gè)圖像片段,識(shí)別為“h”的OCR概率為0.114, 識(shí)別為“η”的概率為0.101,識(shí)別為“k”的概率為“0.101”,識(shí)別為“m”的概率 為0.074,等等。對(duì)于第二個(gè)圖像片段,識(shí)別為“a”的概率為0.132,識(shí)別為“U”的 概率為0.082,等等。在步驟S230中,對(duì)各字符的OCR識(shí)別結(jié)果進(jìn)行篩選。篩選的原則是濾除識(shí)別置 信度比較小的識(shí)別結(jié)果,而保留識(shí)別置信度比較大的識(shí)別結(jié)果。例如可以利用公式Cer1/ Max(Cer1) > T來進(jìn)行篩選,其中i表示識(shí)別結(jié)果的序號(hào),在作為舉例的圖3所示的識(shí)別 結(jié)果中,對(duì)于每個(gè)字符都列出了 10個(gè)候選字符,那么這里i取1到10。Cer1是第i個(gè)候 選字符的OCR概率,T是閾值,例如可以設(shè)為0.75。該公式表明,如果某個(gè)候選字符 的置信度相對(duì)于所有候選字符中的最大置信度而言太小,則認(rèn)為待識(shí)別字符不可能是該 候選字符,在后續(xù)計(jì)算中不考慮該候選字符,從而可以極大地降低計(jì)算量。通過這種方 式,得到了圖4右邊所示的篩選結(jié)果。從圖中可以看到對(duì)于第一個(gè)字符,剩下三個(gè)候選 字符“h”、“η”和“k”,對(duì)于第二個(gè)字符,僅剩下一個(gè)候選字符“a”,對(duì)于第三個(gè) 字符,剩下三個(gè)候選字符“n”、“h”和“m”等等??梢岳斫?,完全可以利用其他 篩選方式來進(jìn)行篩選,例如,可以直接確定與最大置信度無關(guān)的閾值來進(jìn)行篩選,或者 直接利用置信度最大的預(yù)定數(shù)量的候選字符,等等。在步驟S240中,根據(jù)日語的拼寫規(guī)律將候選字符組合為兩個(gè)字符組成的音節(jié)和 /或三個(gè)字符組成的音節(jié)。為此,事先已經(jīng)對(duì)大量日文用戶名進(jìn)行分析,并得到例如圖 5所示的結(jié)果,其中左邊示出了常見的兩個(gè)字符組成的音節(jié),右邊示出了常見的三個(gè)字符 組成的音節(jié)??梢?,由于第一個(gè)候選字符為“h”、“η”和“k”,第二個(gè)候選字符為
“a”,因此可以確定第一個(gè)候選音節(jié)為“ha”、"na"和“ka”,后面依此類推。對(duì) 于不納入某個(gè)音節(jié)的候選字符,則仍然保持單個(gè)字符。例如,對(duì)于第五個(gè)字符至第七個(gè) 字符,候選字符分別為“S”、“h” / “k”、“i”,它們的組合方式可以是“shi”、 “S” - “hi” 或者 “S” - “ki”。在步驟S250中,基于上面根據(jù)音節(jié)的處理結(jié)果列舉所有的可能的路徑(也就是 候選字符的可能組合),對(duì)于每條路徑,因?yàn)槁窂矫總€(gè)節(jié)點(diǎn)對(duì)應(yīng)的“音節(jié)”或者“字符” 可以有若干個(gè)候選識(shí)別結(jié)果,所以可以組合出若干個(gè)等長(zhǎng)的候選字符串。在圖4左邊示 出了用于識(shí)別“hanashiro”的包括所有路徑的圖。接下來,在步驟S260中,針對(duì)圖4中的每個(gè)節(jié)點(diǎn)結(jié)合統(tǒng)計(jì)信息以及OCR識(shí)別置 信度來計(jì)算得分。由于第一個(gè)節(jié)點(diǎn)之前并沒有其他節(jié)點(diǎn),因此對(duì)于第一個(gè)節(jié)點(diǎn)直接利用 其在統(tǒng)計(jì)意義上單獨(dú)出現(xiàn)的概率和OCR識(shí)別的概率來計(jì)算得分。從第二個(gè)節(jié)點(diǎn)開始,由于其與之前的節(jié)點(diǎn)存在統(tǒng)計(jì)上的關(guān)聯(lián),因此基于之前節(jié)點(diǎn)的得分、在出現(xiàn)之前節(jié)點(diǎn)的情 況下出現(xiàn)當(dāng)前節(jié)點(diǎn)的概率以及當(dāng)前節(jié)點(diǎn)的OCR識(shí)別的概率來計(jì)算當(dāng)前節(jié)點(diǎn)的識(shí)別概率。 利用上 述思想,可以針對(duì)每個(gè)節(jié)點(diǎn)來計(jì)算概率。例如,在此利用了以下公式來針對(duì)每條路徑中的每個(gè)節(jié)點(diǎn)計(jì)算得分Score(Sp) = Score (Srl)+IogPnlp (SpIV1)+IogPocr(Sp) (1)公式中的S表示音節(jié),并且由字符組成。ρ表示音節(jié)的序號(hào),例如對(duì)于第一個(gè) 音節(jié)ha,則p=l。在上述公式中,第一項(xiàng)Score(Slrf)表示路徑中在當(dāng)前節(jié)點(diǎn)的之前 節(jié)點(diǎn)的得分,對(duì)于路徑中的第一個(gè)節(jié)點(diǎn),由于沒有之前節(jié)點(diǎn),則此項(xiàng)為零。第二項(xiàng)中的 Pnlp(SpIhp^1)表示在自然語言中,在存在歷史信息Iy1W情況下統(tǒng)計(jì)得到的當(dāng)前音節(jié)出現(xiàn)的 概率(即在出現(xiàn)之前節(jié)點(diǎn)的情況下出現(xiàn)當(dāng)前節(jié)點(diǎn)的概率)。對(duì)于路徑中的第一個(gè)節(jié)點(diǎn),由 于沒有之前節(jié)點(diǎn),則此項(xiàng)中不存在歷史信息,因此該項(xiàng)直接表示第一個(gè)節(jié)點(diǎn)在自然語言 中出現(xiàn)的概率。P。 (Sp)是音節(jié)的OCR識(shí)別的概率,其例如通過將組成該音節(jié)的各字符 的OCR識(shí)別概率相乘得到。利用上述方法計(jì)算的每一條路徑中的最后節(jié)點(diǎn)的得分就是該 條路徑的得分,可以選取得分最大的路徑作為具有最高置信度的字符串識(shí)別結(jié)果。需要 注意的是,在上面的公式中利用了概率的對(duì)數(shù)值,并在組合前一節(jié)點(diǎn)分?jǐn)?shù)以及自然語言 概率和OCR識(shí)別概率時(shí)利用了加法,但是本領(lǐng)域普通技術(shù)人員了解,可以以任何數(shù)學(xué)形 式來利用所述概率和前一節(jié)點(diǎn)的分?jǐn)?shù),只要每一節(jié)點(diǎn)、每一路徑的分?jǐn)?shù)同時(shí)考慮了所述 各因素即可。各音節(jié)的單獨(dú)的概率和若干音節(jié)在一起的概率,也即上文中的Pnlp,可以從多 種途徑得到,作為外部輸入可以直接利用于根據(jù)本實(shí)施例的方法中。例如,可以利用 SRILM工具包對(duì)大量的相關(guān)字符串進(jìn)行訓(xùn)練和統(tǒng)計(jì),從而得出各音節(jié)的單獨(dú)的概率和 若干音節(jié)在一起的概率。例如,圖6示出了針對(duì)音節(jié)的訓(xùn)練和統(tǒng)計(jì)結(jié)果,其中使用了 數(shù)十萬個(gè)有效的日本Email地址的用戶名來進(jìn)行統(tǒng)計(jì)??梢钥吹浇y(tǒng)計(jì)結(jié)果包括單音節(jié) (1-grams)、雙音節(jié)組(2-grams)和三音節(jié)組(3-grams)的概率(針對(duì)這里的概率已經(jīng)進(jìn)行 了以10為底的對(duì)數(shù)計(jì)算,以下直接將該計(jì)算結(jié)果稱為概率)。出于簡(jiǎn)明的考慮,這里僅 僅示出了三個(gè)音節(jié)的概率的具體統(tǒng)計(jì)結(jié)果??梢?,在用戶名中出現(xiàn)“ka-ha-ta”的概率 為-1.873356,而出現(xiàn)“ke-ha-ra”的概率為-0.001828611,等等。對(duì)于在此作為舉例使 用的SRILM工具包,其為本領(lǐng)域技術(shù)人員熟知的一種語言統(tǒng)計(jì)工具,具體可參見http:// www.speech.sri.com/projects/srilm/,在此不再詳細(xì)討論。在本實(shí)施例中,直接使用該統(tǒng) 計(jì)結(jié)果中的相應(yīng)概率值來計(jì)算。對(duì)于圖4中的第一路徑“ha-na-shi-ro”中的第一個(gè)節(jié)點(diǎn)“ha”,計(jì)算第一個(gè)節(jié) 點(diǎn)的得分Score(S)。在此可能使用各種方式來利用音節(jié)“ha”的自然語言概率和OCR識(shí) 別概率信息,例如以某種加權(quán)來組合等等。在此以上述方程組(1)為例來進(jìn)行計(jì)算。由 于p = l,之前沒有節(jié)點(diǎn),因此根據(jù)上述方程將音節(jié)“ha”的自然語言的概率和OCR識(shí) 別的概率相加,得到第一個(gè)節(jié)點(diǎn)的得分Score(S1)。對(duì)于該路徑中的第二個(gè)節(jié)點(diǎn),即對(duì)于 音節(jié)“na”,得分與之前節(jié)點(diǎn)的得分、在出現(xiàn)之前節(jié)點(diǎn)的情況下出現(xiàn)當(dāng)前節(jié)點(diǎn)的概率以 及當(dāng)前節(jié)點(diǎn)的OCR識(shí)別的概率有關(guān),同樣可能采用各種組合或計(jì)算規(guī)則來確定該節(jié)點(diǎn)的 得分。在此仍以上述方程(1)為例。根據(jù)該方程可以看到,該音節(jié)的得分不僅與當(dāng)前音 節(jié)本身有關(guān),還與之前的音節(jié)有關(guān),即與“ha”有關(guān)。根據(jù)SRILM工具包的統(tǒng)計(jì)結(jié)果,可以容易地計(jì)算出其中的條件概率IogPnlp(SpIH其中表達(dá)的思想是,利用了對(duì)大量實(shí) 例的統(tǒng)計(jì)結(jié)果來確定語言的內(nèi)在規(guī)律,從而確定如果之前的音節(jié)為例如“ha”,則當(dāng)前 音節(jié)為“na”的概率應(yīng)該為多少。在此需要說明的是,這里的Iy1并非表明這里僅僅利 用了前一個(gè)音節(jié)的歷史信息,而是可以利用之前更多個(gè)音節(jié)的歷史信息。在本發(fā)明當(dāng)前 的方法中,從第三個(gè)音節(jié)開始分別使用之前兩個(gè)音節(jié)的歷史信息,因此稱為基于音節(jié)的 三元組方法。當(dāng)然,也可能統(tǒng)計(jì)出更多音節(jié)在一起的信息并在計(jì)算中利用。Score(Slrf) 表示在相關(guān)路徑上當(dāng)前節(jié)點(diǎn)之前的節(jié)點(diǎn)的得分,在本發(fā)明中可以僅使用之前的一個(gè)節(jié)點(diǎn) 的得分。根據(jù)上述公式,于是可以計(jì)算得到第一路徑中的各音節(jié)的得分,從而得出該 第一路徑的得分。同樣地,可以得到第二路徑例如“ha-ha-shi-ro”、第三路徑例如
“na-na-shi-ro”等等的得分,從而確定最大得分路徑,于是在步驟S270中可以確定所識(shí) 別出的概率最大的候選字符串。由于在上述實(shí)施例中基于音節(jié)對(duì)待識(shí)別字符串進(jìn)行劃分并且利用了基于統(tǒng)計(jì)得 出的這些音節(jié)在自然語言中的彼此關(guān)聯(lián)的概率,因此大大提高了識(shí)別的準(zhǔn)確性。第三實(shí)施例在實(shí)際情況中,還常常出現(xiàn)字母和數(shù)字混合的情況,例如“hanaShir0123”。對(duì) 于這種情況,現(xiàn)有技術(shù)中還沒有十分有效的識(shí)別方法。發(fā)明人研究發(fā)現(xiàn),這種情況常常 出現(xiàn)在用戶自定義的一些名稱中,例如Email用戶名中。通過對(duì)大量這種字符串進(jìn)行統(tǒng) 計(jì),可以得出其中出現(xiàn)字母和數(shù)字的組合的一些規(guī)律。例如,可以統(tǒng)計(jì)出如果前a個(gè)字 符為字母,則后b個(gè)字符為字母或數(shù)字的概率,或者如果前面c個(gè)字符為數(shù)字,則后d個(gè) 字符為字母或數(shù)字的概率(a、b、c、d均為自然數(shù))。因此基于本發(fā)明的第一實(shí)施例的 思想,提出了一種基于字符的η-元組方法來解決該問題。圖7示出了該方法的相應(yīng)流程 圖(以三元組方法為例)。首先,在步驟S710中,同樣將輸入的字符串圖像劃分為多個(gè)片段。在步驟S720中,首先針對(duì)這種字母和數(shù)字混合的字符串中的各片段進(jìn)行OCR識(shí) 另IJ,以確定OCR識(shí)別概率。類似圖3所示的那樣,在此同樣可以得到針對(duì)各字符的一系 列概率。在步驟S730中,針對(duì)各字符的OCR識(shí)別結(jié)果進(jìn)行篩選。篩選的原則是濾除識(shí) 別置信度比較小的識(shí)別結(jié)果,而保留識(shí)別置信度比較大的識(shí)別結(jié)果。例如可以利用公式 CeryMax(Cer1) > T來進(jìn)行篩選,其中i表示識(shí)別結(jié)果的序號(hào),在作為舉例的圖3所示的 識(shí)別結(jié)果中,如果對(duì)于每個(gè)字符都列出了 10個(gè)候選字符,那么這里i取1到10。(叫是 第i個(gè)候選字符的OCR概率,T是閾值,例如可以設(shè)為0.75。該公式表明,如果某個(gè)候 選字符的置信度相對(duì)于所有候選字符中的最大置信度而言太小,則認(rèn)為待識(shí)別字符不可 能是該候選字符,在后續(xù)計(jì)算中不考慮該候選字符,從而可以極大地降低計(jì)算量。通過 這種方式,同樣可以得到類似于圖4右邊所示的篩選結(jié)果。可以理解,完全可以利用其 他篩選方式來進(jìn)行篩選,例如,可以直接確定與最大置信度無關(guān)的閾值來進(jìn)行篩選,或 者直接利用置信度最大的預(yù)定數(shù)量的候選字符,等等。在步驟 S740中,基于篩選結(jié)果列舉所有的可能的路徑,對(duì)于每條路徑,因?yàn)槁?徑每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的“字符”可以有若干個(gè)候選識(shí)別結(jié)果,所以可以組合出若干個(gè)等長(zhǎng)的識(shí)別詞。于是,得到類似于圖4中的路徑圖。 在步驟S750中,針對(duì)路徑圖中的每個(gè)節(jié)點(diǎn)結(jié)合統(tǒng)計(jì)信息以及OCR識(shí)別置信度來 計(jì)算節(jié)點(diǎn)的得分。在此利用以下公式Score(Cp) = Score (Cp^1)+IogPnlp (CpIh^1)+IogPocr (Cp) (2)在該公式中,與公式(1)的不同之處在于,公式(1)基于音節(jié)S的概率來進(jìn)行計(jì) 算,而公式(2)基于字符或者字符組合C的概率進(jìn)行計(jì)算。從公式可以看出的是,在本 發(fā)明所提出的對(duì)字母和數(shù)字混合的字符串的識(shí)別方法中,同樣利用了自然語言中統(tǒng)計(jì)得 到的概率Pnlp、OCR識(shí)別的概率P。 和歷史信息Iy1。在對(duì)各節(jié)點(diǎn)進(jìn)行計(jì)算之前,同樣可以利用SRILM工具包對(duì)大量的類似字符串進(jìn) 行了訓(xùn)練和統(tǒng)計(jì),從而得出各字符單獨(dú)出現(xiàn)的概率以及字母和數(shù)字的各種組合順序的概 率。同樣,可以有多種現(xiàn)有途徑獲得所述概率,本發(fā)明只需要直接利用統(tǒng)計(jì)結(jié)果即可。 但是為了便于讀者理解,下面對(duì)訓(xùn)練和統(tǒng)計(jì)過程進(jìn)行舉例說明。首先,選取大量的Email地址的用戶名作為樣本庫進(jìn)行統(tǒng)計(jì),例如在本發(fā)明中申 請(qǐng)人使用了 696818個(gè)有效的Email地址用戶名來進(jìn)行統(tǒng)計(jì)。以mp2003@dokkyomed.ac.jp 為例,在此提取出用戶名“mp2003”。隨后,將所有用戶名進(jìn)行如下替換_將用戶名中的字母用“a”替換;以及_將用戶名中的數(shù)字用“O”替換。例如,“mp2003”替換為 “aaOOOO”。接下來,利用SRILM工具包對(duì)所有樣本進(jìn)行統(tǒng)計(jì)分析。統(tǒng)計(jì)分析的結(jié)果包括一元組、二元組、三元組等等的統(tǒng)計(jì)結(jié)果。在圖8中僅僅 示出了三元組的統(tǒng)計(jì)結(jié)果,其中“<s>”代表開始,“</s>”代表結(jié)束。從該統(tǒng)計(jì)結(jié) 果可見,三個(gè)數(shù)字在一起(“000”)的概率為-0.4126034,兩個(gè)數(shù)字在一起隨后結(jié)束 (“00</s>,,)的概率為-0.4345168,等等。根據(jù)上述統(tǒng)計(jì)結(jié)果,例如可以得到如下條件概率如果第一個(gè)字符為字母/數(shù) 字,則第二個(gè)字符為字母/數(shù)字的概率是多少;如果第一個(gè)字符為字母/數(shù)字,第二個(gè)字 符為字母/數(shù)字,則第三個(gè)字符為字母/數(shù)字的概率為多少;等等,也即得到公式(2)中 的項(xiàng)IogPnlp(CpIlvi)。類似于針對(duì)公式⑴所闡述的那樣,這里的Iy1并非表明這里僅僅 利用了前一個(gè)字符的歷史信息,而是可以利用之前更多個(gè)字符的歷史信息。在本發(fā)明當(dāng) 前的方法中,從第三個(gè)字符開始分別使用之前兩個(gè)字符的歷史信息,因此稱為基于字符 的三元組方法。當(dāng)然,本領(lǐng)域技術(shù)人員容易想到可以使用之前的更多音節(jié)的歷史信息, 其原理都是基于本發(fā)明所提出的思想。根據(jù)公式(2)的其余計(jì)算與根據(jù)公式(1)的計(jì)算相似,在此不再詳述。最后,在步驟S760中,得到各字符的得分以及最大得分路徑,從而確定所識(shí)別 出的概率最大的候選字符串。在上述實(shí)施例中利用了基于字符的三元組,其中利用了統(tǒng)計(jì)得出的出現(xiàn)字母與 數(shù)字某種組合的概率,即利用了大量用戶的命名習(xí)慣這一信息,從而明顯提高了對(duì)數(shù)字 和字母混合的字符串的識(shí)別準(zhǔn)確性。需要說明的是,在根據(jù)本實(shí)施例的方法中,僅僅統(tǒng) 計(jì)了一般性的數(shù)字和字母組合的各種概率信息。本領(lǐng)域技術(shù)人員容易想到,也可能的是具體統(tǒng)計(jì)不同數(shù)字與不同字母組合的各種概率信息。例如,可以統(tǒng)計(jì)“abl”、“12b” 的組合信息,而不僅僅是統(tǒng)計(jì)兩個(gè)字母一個(gè)數(shù)字或兩個(gè)數(shù)字一個(gè)字母等等這樣的一般性 信息。其原理并未脫離本發(fā)明所提出的思想。第四實(shí)施例 申請(qǐng)人:研究發(fā)現(xiàn),在需要識(shí)別的字符串中,出現(xiàn)分隔符“.”的頻率越來越 大。因?yàn)殡S著互聯(lián)網(wǎng)的日益廣泛應(yīng)用,無論是網(wǎng)址還是Email地址,都包括這種分隔符
“.”,因?yàn)樗谟蛎糠种衅鸬椒指舾骷?jí)域名的作用,并且在Email中其出現(xiàn)的頻率較 高。因此對(duì)于這種分隔符的識(shí)別日益重要。根據(jù)本發(fā)明的第四實(shí)施例,提出了一種識(shí)別 該分隔符的方法。圖9示出了該方法的步驟。在步驟S910中,對(duì)于輸入的字符串圖像進(jìn)行連通域分析。根據(jù)對(duì)字符串圖像的 連通域分析,對(duì)于每個(gè)連通域CC可以得到該連通域的各參數(shù),例如確定連通域的位置的 坐標(biāo)、連通域中的像素?cái)?shù)目等等。在步驟S920中,為了識(shí)別分隔符而確定閾值。例如可以根據(jù)連通域的像素?cái)?shù)目 值來選擇連通域中像素?cái)?shù)目最小的若干連通域,從而計(jì)算這些連通域的像素?cái)?shù)目的平均 值,根據(jù)該平均值設(shè)定閾值。例如,在此使用最前面的三個(gè)連通域來計(jì)算,得到平均值 Av3。接著,設(shè)置Tl = α Av3作為閾值。α是可以根據(jù)情況來選擇進(jìn)行調(diào)整的參數(shù), 其目的是為了達(dá)到最好的識(shí)別效果。例如可以選擇α =3。當(dāng)然,閾值的確定不限于以 上方式。例如,還可以根據(jù)利用大量樣本進(jìn)行訓(xùn)練的結(jié)果來直接確定一個(gè)閾值,或者根 據(jù)利用當(dāng)前用戶的樣本進(jìn)行訓(xùn)練得到的結(jié)果來確定閾值,等等。之后,在步驟S930中判斷各連通域的像素?cái)?shù)目值是否小于Tl,如果其像素?cái)?shù)目 值小于Tl,則認(rèn)為該連通域是候選的分隔符“.”。因?yàn)椴煌脩魰鴮懥?xí)慣不同,因此 分隔符“.”的大小可能在不同用戶的書寫中差別較大。通過上述根據(jù)最小的多個(gè)連通 域計(jì)算像素?cái)?shù)量平均值的方法考慮到了不同用戶的書寫習(xí)慣不同(從而寫出的點(diǎn)的大小 隨不同用戶而不同)這一事實(shí),相當(dāng)于以一種“自適應(yīng)”的方式來對(duì)分隔符“.”進(jìn)行識(shí) 別。由于在字符“i”、“j”中也存在點(diǎn)“.”,因此在步驟S940中還進(jìn)一步判斷所 識(shí)別出的該“.”是否位于字符行下部,如果是,則確定該點(diǎn)為分隔符。該判斷可以基于 各連通域的坐標(biāo)參數(shù)來進(jìn)行。第五實(shí)施例申請(qǐng)人:注意到,對(duì)于待識(shí)別的字符串,如果能夠得知該字符串屬于某個(gè)數(shù)據(jù) 庫,則可以利用該字符串的候選字符串與預(yù)先定義的數(shù)據(jù)庫中的字符串之間的相似度來 進(jìn)一步提高識(shí)別的準(zhǔn)確性。例如,可以利用從外部獲取的信息(例如用戶給出的信息、 應(yīng)用本實(shí)施例的環(huán)境等)或者字符串本身的結(jié)構(gòu)特點(diǎn)來估計(jì)或者獲知待識(shí)別的字符串屬 于某一數(shù)據(jù)庫(例如人名、公司名、大學(xué)和研究機(jī)構(gòu)名等等)。舉例來說,如果要識(shí)別的 字符串為“fujitsu”,而根據(jù)其他途徑例如根據(jù)用戶給出的信息已知該字符串是日本的某 公司名,則可以利用預(yù)先定義的日本公司名數(shù)據(jù)庫來通過計(jì)算數(shù)據(jù)庫中各字符串與候選 字符串的相似度,獲知該字符串與該數(shù)據(jù)庫中的“fujitsu”的相似度最高,從而將其識(shí)別 為“fujitsu”。下面對(duì)該實(shí)施例進(jìn)行詳細(xì)說明。由于對(duì)待識(shí)別的字符串而言,存在若干候選字符串,而每個(gè)字符串中的各字符都有一定的置信度,因此在根據(jù)本實(shí)施例的方法中,在計(jì)算候選字符串與數(shù)據(jù)庫中的字 符串之間的相似度時(shí),利用了候選字符串中的OCR識(shí)別置信度。 圖10示出了根據(jù)本實(shí)施例的方法流程圖。在步驟S1010中,根據(jù)字符串的OCR識(shí)別結(jié)果在預(yù)先定義的數(shù)據(jù)庫中尋找與 OCR識(shí)別的結(jié)果相似的字符串。字符串的比較和搜索有許多可資利用的現(xiàn)有技術(shù),在此 例如可以利用TDAG(三元有向無環(huán)圖),TDAG是一種用于從數(shù)據(jù)庫中找出與當(dāng)前字符 串相似的字符串的方法,為本領(lǐng)域計(jì)算人員熟知的技術(shù),在此不再詳述。在步驟S1020中,計(jì)算OCR識(shí)別得到的若干結(jié)果與步驟S1010中找到的庫中的 相似特殊域名之間的相似度。在此,例如可以使用LD(Levenshtein Distance)算法計(jì)算相 似度??紤]到經(jīng)濟(jì)性,可以不針對(duì)所有候選識(shí)別結(jié)果進(jìn)行比較,而是例如使用OCR識(shí) 別概率最大的兩個(gè)候選字符串來進(jìn)行計(jì)算。由于一個(gè)字符串可以通過插入字符,刪除字 符,替換字符得到另外一個(gè)字符串,假設(shè)把字符串A轉(zhuǎn)換成字符串B,前面3種操作所執(zhí) 行的最少次數(shù)稱為AB的LD距離,將LD距離除以字符串的長(zhǎng)度則得到AB的相似度。 在現(xiàn)有技術(shù)中,LD距離的標(biāo)準(zhǔn)計(jì)算公式如下
權(quán)利要求
1.一種識(shí)別字符串的方法,包括以下步驟將字符串圖像劃分為多個(gè)片段;對(duì)所述多個(gè)片段進(jìn)行OCR識(shí)別,獲得候選字符,其中,每一個(gè)片段對(duì)應(yīng)于至少一個(gè) 候選字符;獲取片段的候選字符和/或片段的候選字符形成的字符組合的統(tǒng)計(jì)信息;以及結(jié)合所述統(tǒng)計(jì)信息以及候選字符的OCR識(shí)別置信度來確定候選字符串。
2.—種字符串識(shí)別裝置,包括片段劃分模塊,用于將字符串圖像劃分為多個(gè)片段;OCR識(shí)別模塊,用于對(duì)所述多個(gè)片段進(jìn)行OCR識(shí)別,獲得候選字符,其中,每一個(gè) 片段對(duì)應(yīng)于至少一個(gè)候選字符;統(tǒng)計(jì)信息獲取模塊,用于獲取片段的候選字符和/或片段的候選字符形成的字符組 合的統(tǒng)計(jì)信息;以及第一字符串確定模塊,用于結(jié)合所述統(tǒng)計(jì)信息以及候選字符的OCR識(shí)別置信度來確 定候選字符串。
3.根據(jù)權(quán)利要求2所述的字符串識(shí)別裝置,其中所述統(tǒng)計(jì)信息包括一個(gè)字符、字 符類型和/或字符組合與至少一個(gè)預(yù)定字符、字符類型和/或字符組合一起出現(xiàn)的概率。
4.根據(jù)權(quán)利要求2或3所述的字符串識(shí)別裝置,其中所述字符組合為構(gòu)成音節(jié)的字符 組合或者同類型字符的組合。
5.根據(jù)權(quán)利要求2或3所述的字符串識(shí)別裝置,其中,所述字符串包括分隔符,其 中,該字符串識(shí)別裝置還包括分隔符識(shí)別模塊,用于識(shí)別字符串中的分隔符。
6.根據(jù)權(quán)利要求5所述的字符串識(shí)別裝置,其中分隔符識(shí)別模塊包括連通域分析單元,用于對(duì)字符串圖像進(jìn)行連通域分析,獲得前景像素的連通域;以及分隔符確定單元,用于根據(jù)所述連通域的像素?cái)?shù)目來確定分隔符。
7.根據(jù)權(quán)利要求6所述的字符串識(shí)別裝置,其中,分隔符確定單元被配置用于在根據(jù) 所述連通域的像素?cái)?shù)目來確定分隔符時(shí)根據(jù)像素?cái)?shù)目最少的多個(gè)連通域的像素?cái)?shù)目來確 定閾值,當(dāng)連通域的像素?cái)?shù)目小于該閾值并且位于字符行下部時(shí),確定該連通域?yàn)榉指?符。
8.根據(jù)權(quán)利要求2所述的字符串識(shí)別裝置,還包括第二字符串確定模塊,用于基于 OCR識(shí)別置信度計(jì)算候選字符串和預(yù)先定義的數(shù)據(jù)庫中的字符串之間的距離來確定候選 字符串。
9.根據(jù)權(quán)利要求8所述的字符串識(shí)別裝置,其中第二字符串確定模塊被配置為使得與 某一候選字符對(duì)應(yīng)的字符串的距離減少一個(gè)相應(yīng)于該候選字符的相應(yīng)片段被識(shí)別為數(shù)據(jù) 庫中被比較的字符串中的相應(yīng)位置的字符的置信度的值。
10.根據(jù)權(quán)利要求8或9所述的字符串識(shí)別裝置,其中第二字符串確定模塊被配置為 使得當(dāng)候選字符串中的某一片段的任一候選字符與數(shù)據(jù)庫中被比較的字符串中的相應(yīng)位 置的字符不同時(shí),該候選字符對(duì)應(yīng)的字符串的所述距離增加一個(gè)相應(yīng)于該候選字符的識(shí) 別置信度的值。
全文摘要
本發(fā)明公開了一種識(shí)別字符串的方法,包括以下步驟將字符串圖像劃分為多個(gè)片段;對(duì)所述多個(gè)片段進(jìn)行OCR識(shí)別,獲得候選字符,其中,每一個(gè)片段對(duì)應(yīng)于至少一個(gè)候選字符;獲取片段的候選字符和/或片段的候選字符形成的字符組合的統(tǒng)計(jì)信息;以及結(jié)合所述統(tǒng)計(jì)信息以及候選字符的OCR識(shí)別置信度來確定候選字符串。此外,本發(fā)明還公開了一種字符串識(shí)別裝置。
文檔編號(hào)G06K9/00GK102024139SQ200910173870
公開日2011年4月20日 申請(qǐng)日期2009年9月18日 優(yōu)先權(quán)日2009年9月18日
發(fā)明者于浩, 堀田悅伸, 孫俊, 武部浩明, 白洪亮, 直井聰, 諏訪美佐子, 鄭大念 申請(qǐng)人:富士通株式會(huì)社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1