亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定方法

文檔序號(hào):6332886閱讀:195來(lái)源:國(guó)知局
專利名稱:一種名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種名片識(shí)別技術(shù),特別是一種名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定的方法。
背景技術(shù)
在名片中姓名、公司、職位等都是比較重要的信息,一般的,這些重要信息都會(huì)以相對(duì)比較特殊的形式標(biāo)注出來(lái),如重要信息的位置排列比較靠前,大小、寬度、字間距等文字參數(shù)比較大,或者背景或前景顏色不一樣等。對(duì)于不同的應(yīng)用場(chǎng)合或者不同的使用者而言,重要信息中往往又存在最關(guān)鍵的信息,如何準(zhǔn)確提取這些關(guān)鍵文字信息,是一個(gè)值得研究的問(wèn)題。而目前在名片識(shí)別技術(shù)中,均是將名片上的內(nèi)容統(tǒng)統(tǒng)掃描,然后進(jìn)行識(shí)別,然后由用戶在識(shí)別的結(jié)果字符串里選擇。因此,一方面,這種方式由于要進(jìn)行全掃描和全識(shí)別,特別是全識(shí)別所費(fèi)時(shí)間相當(dāng)長(zhǎng),因此造成名片識(shí)別速度比較慢,但是實(shí)質(zhì)上用戶所需要的信息只是其中的一條或幾條,因此全掃描全識(shí)別存在一定的程序上的浪費(fèi);另一方面,由于需要用戶自己選擇關(guān)鍵文字信息,就給用戶帶來(lái)一定的使用麻煩。

發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足,提供一種方法簡(jiǎn)單、步驟合理、智能性更強(qiáng)的一種名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定方法。
為了解決上述技術(shù)問(wèn)題,本發(fā)明所采取的技術(shù)方案是一種名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定方法,包括如下步驟步驟1、對(duì)輸入的名片圖像進(jìn)行基于連通域的版面分析和文字分割,并統(tǒng)計(jì)字符參數(shù)以及特殊連通域總數(shù)
步驟2、根據(jù)所述字符參數(shù)以及特殊連通域總數(shù)選取包含關(guān)鍵文字信息的文字區(qū)域;步驟3、搜索所述包含關(guān)鍵文字信息的文字區(qū)域的相鄰區(qū)域,并對(duì)所述相鄰區(qū)域進(jìn)行文字識(shí)別;步驟4、在文字識(shí)別獲得的字符串內(nèi)查找關(guān)鍵文字信息,從而獲得其文字內(nèi)容。
所述特殊連通域總數(shù)可以是在水平投影上重疊部分較小的連通域的個(gè)數(shù)。
所述步驟2可以是根據(jù)所述字符參數(shù),選取排列前幾位的區(qū)域,即獲得了包含關(guān)鍵文字信息的文字區(qū)域。
所述步驟2還可以根據(jù)所述特殊連通域的個(gè)數(shù)、字符參數(shù)以及顏色信息,從所獲得的包含關(guān)鍵文字信息的區(qū)域中剔除圖標(biāo)區(qū)域。
所述剔除圖標(biāo)區(qū)域的依據(jù)可以是條件一、該區(qū)域的特殊連通域的個(gè)數(shù)小于或等于1;條件二、該區(qū)域內(nèi)有一個(gè)字的字寬或字高遠(yuǎn)大于平均字寬或字高;條件三、在整幅名片圖像的分割出的區(qū)域內(nèi)的前景目標(biāo)中,只有該區(qū)域內(nèi)的前景為不同顏色;如果某一區(qū)域滿足所述三個(gè)條件中的任意一個(gè),則該區(qū)域?yàn)閳D標(biāo)區(qū)域而不是文字區(qū)域。
所述條件二可以為該區(qū)域內(nèi)有一個(gè)字的字寬或字高大于平均字寬或字高的2.5倍。
所述步驟4可以采用一小型數(shù)據(jù)庫(kù),用于存儲(chǔ)與關(guān)鍵信息對(duì)應(yīng)的關(guān)鍵詞,從而采用在文字識(shí)別獲得的字符串內(nèi),根據(jù)關(guān)鍵詞查找關(guān)鍵文字信息,獲得其文字內(nèi)容。
所述關(guān)鍵文字信息可以包括姓名、公司名稱、職位、電話、郵件。
所述字符參數(shù)可以包括字高、字寬、字間水平間距。
在上述技術(shù)方案中,本發(fā)明由于首先對(duì)獲取的名片圖象做字符行分割操作,得到一行行的字符區(qū)域或者連通區(qū)域。一般而言,如姓名、職位、公司名稱等使用者首先感興趣的關(guān)鍵文字信息基本就位于平均字符尺寸最大的前三個(gè)區(qū)域之內(nèi)。如在常見(jiàn)情況下姓名的下方或者右下側(cè)會(huì)是職位或者頭銜,我們可以根據(jù)所有這三個(gè)區(qū)域附近的相臨區(qū)域的語(yǔ)義是否符合職位或者頭銜來(lái)聯(lián)合判別關(guān)鍵文字信息所最終位于的那個(gè)區(qū)域。因此,實(shí)現(xiàn)了關(guān)鍵文字信息的準(zhǔn)確提取。同時(shí),本發(fā)明由于實(shí)現(xiàn)了對(duì)關(guān)鍵文字信息的自動(dòng)定位和自動(dòng)判別,而省去了現(xiàn)有技術(shù)中需要用戶頻繁操作,因此使用更方便、文字識(shí)別更快捷。另外,本發(fā)明采用統(tǒng)計(jì)特征以及關(guān)鍵詞查找的手段進(jìn)行關(guān)鍵文字信息的查找,可以確保關(guān)鍵文字信息檢索的準(zhǔn)確性。相對(duì)現(xiàn)有技術(shù),本發(fā)明具有方法簡(jiǎn)單、使用方便、文字識(shí)別速度快、效率高、準(zhǔn)確度高等特點(diǎn)。
具體實(shí)施例方式
下面將結(jié)合具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
在我們的日常生活中,人們所采用的絕大多數(shù)的名片,都是第一行為公司名稱,第二行居中為姓名,第三行右下角為職務(wù)名稱,第四行及以后則分別為地址、電話、手機(jī)、郵件等具體信息。并且,一般的公司名稱、姓名等關(guān)鍵文字信息的字體、字號(hào)、字間距等字符參數(shù)要遠(yuǎn)遠(yuǎn)大于其它文字內(nèi)容的字符參數(shù)。鑒于此,為了能提高名片識(shí)別的速度,特別是快速獲得關(guān)鍵文字信息,提出本發(fā)明的技術(shù)方案。
本發(fā)明提供一種名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定方法,所述關(guān)鍵文字信息包括姓名、公司名稱、職位、電話、郵件等。其步驟如下步驟1、對(duì)輸入的名片圖像進(jìn)行基于連通域的版面分析和文字分割,并統(tǒng)計(jì)字符參數(shù)以及特殊連通域總數(shù);這里,所述字符參數(shù)包括字高、字寬、字間水平間距等。
所述特殊連通域總數(shù)是在水平投影上重疊部分較小的連通域的個(gè)數(shù)。如字符j就只能算一個(gè)連通域;Rj可以算是兩個(gè)連通域。
步驟2、根據(jù)所述字符參數(shù)以及特殊連通域總數(shù)選取包含關(guān)鍵文字信息的文字區(qū)域;具體是首先,以區(qū)域內(nèi)部的平均(字高,字寬)為索引,將名片上所有的區(qū)域按此索引進(jìn)行由高到低的排列。選取前三名的區(qū)域。根據(jù)統(tǒng)計(jì),往往前三名的區(qū)域都包含了公司名稱,公司圖標(biāo),姓名等重要信息。
然后,在該三個(gè)區(qū)域中,利用步驟1中求得的連通域的個(gè)數(shù)和字的寬高特征還有顏色信息來(lái)剔除出圖標(biāo)(圖標(biāo)往往在前三名候選集中)。判斷準(zhǔn)則如下如果滿足如下規(guī)則之一,條件一、該區(qū)域的特殊連通域的個(gè)數(shù)小于或等于1;條件二、該區(qū)域內(nèi)有一個(gè)字的字寬或字高遠(yuǎn)大于平均字寬或字高;一般為大于大于平均字寬或字高的2.5倍。
條件三、在整幅名片圖像的分割出的區(qū)域內(nèi)的前景目標(biāo)中,只有該區(qū)域內(nèi)的前景為不同顏色;則判斷該區(qū)域內(nèi)為圖標(biāo)而不是名字,將該區(qū)域從下面的進(jìn)一步篩選中剔除出去。
如此,則可準(zhǔn)確獲得包括了關(guān)鍵文字信息的文字區(qū)域。經(jīng)此篩選后,一般的在應(yīng)用過(guò)程中就只剩下2~3個(gè)區(qū)域了。
步驟3、搜索所述包含關(guān)鍵文字信息的文字區(qū)域的相鄰區(qū)域,并對(duì)所述相鄰區(qū)域進(jìn)行文字識(shí)別;步驟4、在文字識(shí)別獲得的字符串內(nèi)查找關(guān)鍵文字信息,從而獲得其文字內(nèi)容。這里,本實(shí)施例中采用一小型數(shù)據(jù)庫(kù)或數(shù)據(jù)存儲(chǔ)器,用于存儲(chǔ)與關(guān)鍵文字信息對(duì)應(yīng)的關(guān)鍵詞,從而采用在文字識(shí)別獲得的字符串內(nèi),根據(jù)關(guān)鍵詞查找關(guān)鍵文字信息,獲得其文字內(nèi)容。如,在該小型數(shù)據(jù)庫(kù)(或稱字典)內(nèi)存儲(chǔ)總量約在100~200內(nèi)的單詞量。當(dāng)采用的關(guān)鍵文字信息為職位時(shí),則,從小型數(shù)據(jù)庫(kù)內(nèi)調(diào)用如“Manager”、“Sales”、“Engineer”、“Director”、“Doctor”、“經(jīng)理”、“董事長(zhǎng)”、“廠長(zhǎng)”等等類似職位的單詞作為關(guān)鍵詞,并根據(jù)此關(guān)鍵詞,從識(shí)別的字符串內(nèi)查找有無(wú)相應(yīng)詞匯,有則顯示或存儲(chǔ)對(duì)應(yīng)的文字內(nèi)容。在相當(dāng)少見(jiàn)的情況下,也有可能查找不到對(duì)應(yīng)的詞匯,則由于無(wú)法判別出關(guān)鍵文字信息區(qū)域所在位置,只能從剩下的所有區(qū)域(此時(shí)一般也就剩下1~2個(gè)區(qū)域)內(nèi)進(jìn)行關(guān)鍵詞的檢索,以查找關(guān)鍵文字信息的文字內(nèi)容。
權(quán)利要求
1.一種名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定方法,包括如下步驟步驟1、對(duì)輸入的名片圖像進(jìn)行基于連通域的版面分析和文字分割,并統(tǒng)計(jì)字符參數(shù)以及特殊連通域總數(shù);步驟2、根據(jù)所述字符參數(shù)以及特殊連通域總數(shù)選取包含關(guān)鍵文字信息的文字區(qū)域;步驟3、搜索所述包含關(guān)鍵文字信息的文字區(qū)域的相鄰區(qū)域,并對(duì)所述相鄰區(qū)域進(jìn)行文字識(shí)別;步驟4、在文字識(shí)別獲得的字符串內(nèi)查找關(guān)鍵文字信息,從而獲得其文字內(nèi)容。
2.如權(quán)利要求1所述名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定方法,其特征在于所述特殊連通域總數(shù)是在水平投影上重疊部分較小的連通域的總個(gè)數(shù)。
3.如權(quán)利要求1或2所述名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定方法,其特征在于所述步驟2是根據(jù)所述字符參數(shù),選取排列前幾位的區(qū)域,即獲得了包含關(guān)鍵文字信息的文字區(qū)域。
4.如權(quán)利要求3所述名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定方法,其特征在于所述步驟2還根據(jù)所述連通域的個(gè)數(shù)、字符參數(shù)以及顏色信息,從所獲得的包含關(guān)鍵文字信息的區(qū)域中剔除圖標(biāo)區(qū)域。
5.如權(quán)利要求4所述名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定方法,其特征在于所述剔除圖標(biāo)區(qū)域的依據(jù)是條件一、該區(qū)域的特殊連通域的個(gè)數(shù)小于或等于1;條件二、該區(qū)域內(nèi)有一個(gè)字的字寬或字高遠(yuǎn)大于平均字寬或字高;條件三、在整幅名片圖像的分割出的區(qū)域內(nèi)的前景目標(biāo)中,只有該區(qū)域內(nèi)的前景為不同顏色;如果某一區(qū)域滿足所述三個(gè)條件中的任意一個(gè),則該區(qū)域?yàn)閳D標(biāo)區(qū)域而不是文字區(qū)域。
6.如權(quán)利要求5所述名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定方法,其特征在于所述條件二為該區(qū)域內(nèi)有一個(gè)字的字寬或字高大于平均字寬或字高的2.5倍。
7.如權(quán)利要求6所述名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定的方法,其特征在于所述步驟4采用小型數(shù)據(jù)庫(kù)或數(shù)據(jù)存儲(chǔ)器,用于存儲(chǔ)與關(guān)鍵信息對(duì)應(yīng)的關(guān)鍵詞,從而采用在文字識(shí)別獲得的字符串內(nèi),根據(jù)關(guān)鍵詞查找關(guān)鍵文字信息,獲得其文字內(nèi)容。
8.如權(quán)利要求7所述名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定的方法,其特征在于所述關(guān)鍵文字信息包括姓名、公司名稱、職位、電話、郵件。
9.如權(quán)利要求8所述名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定的方法,其特征在于所述字符參數(shù)包括字高、字寬、字間水平間距。
全文摘要
本發(fā)明公開(kāi)了一種名片識(shí)別中關(guān)鍵文字信息的自動(dòng)檢索判定方法,是首先對(duì)獲取的名片圖象做字符行分割操作,得到一行行的字符區(qū)域或者連通區(qū)域。從而以字符參數(shù)和連通區(qū)域個(gè)數(shù)進(jìn)行排序,并取前幾位的區(qū)域,根據(jù)這些區(qū)域附近的相臨區(qū)域的語(yǔ)義是否符合職位或者頭銜來(lái)聯(lián)合判別關(guān)鍵文字信息所最終位于的那個(gè)區(qū)域。因此,實(shí)現(xiàn)了關(guān)鍵文字信息的準(zhǔn)確提取。相對(duì)現(xiàn)有技術(shù),本發(fā)明具有方法簡(jiǎn)單、使用方便、文字識(shí)別速度快、效率高、準(zhǔn)確度高等特點(diǎn)。
文檔編號(hào)G06K9/20GK1632821SQ20041010348
公開(kāi)日2005年6月29日 申請(qǐng)日期2004年12月30日 優(yōu)先權(quán)日2004年12月30日
發(fā)明者吳文欽, 王浩, 夏煜 申請(qǐng)人:北京中星微電子有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1