專利名稱:一種圖像文字識別方法和裝置的制作方法
一種圖像文字識別方法和裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種圖像文字識別的方法和裝置。背景技術(shù):
隨著移動互聯(lián)網(wǎng)的迅速發(fā)展,基于移動終端攝像頭采集到的圖像的應(yīng)用越來越廣泛。其中圖像文字識別技術(shù)將圖像中的文字進(jìn)行識別,轉(zhuǎn)換為文本文字,從而減輕了用戶輸入對應(yīng)文字信息的負(fù)擔(dān),方便用戶存儲、編輯對應(yīng)的文字信息。在實際應(yīng)用過程中存在如下情況,用戶通過移動終端拍攝的圖像中,有很多是用戶不認(rèn)識或者用戶了解的文字,例如一些生僻字 、詩詞等,這種情況下,用戶除了想提取這些文字內(nèi)容之外還想進(jìn)一步了解文字的知識信息,現(xiàn)有圖像文字識別技術(shù)則無法解決該問題,用戶需要通過手工方式進(jìn)行進(jìn)一步查詢,例如查詢字典或者手工輸入搜索引擎中進(jìn)行查詢。
發(fā)明內(nèi)容有鑒于此,本發(fā)明提供了一種圖像文字識別方法和裝置,以便于方便用戶獲取圖像文字的知識信息。具體技術(shù)方案如下一種圖像文字識別的方法,該方法包括SI、獲取待識別圖像中的文字區(qū)域;S2、對所述文字區(qū)域進(jìn)行文字識別;S3、利用識別結(jié)果查詢知識庫獲得識別結(jié)果對應(yīng)的知識信息;S4、在返回所述識別結(jié)果時,推送包含所述知識信息的知識拓展詞包。根據(jù)本發(fā)明一優(yōu)選實施例,所述步驟SI具體包括服務(wù)器接收移動終端發(fā)送來的待識別圖像,從所述待識別圖像中提取文字區(qū)域;或者,服務(wù)器接收移動終端從待識別圖像中提取并發(fā)送來的文字區(qū)域。根據(jù)本發(fā)明一優(yōu)選實施例,所述步驟S2具體包括對文字區(qū)域進(jìn)行二值化;對二值化后的文字區(qū)域分割為各字塊;提取各字塊的特征信息并與特征數(shù)據(jù)庫進(jìn)行匹配,將匹配結(jié)果作為各字塊的識別結(jié)果;按順序?qū)⒏髯謮K的識別結(jié)果進(jìn)行組合得到所述文字區(qū)域的識別結(jié)果。根據(jù)本發(fā)明一優(yōu)選實施例,所述步驟S3具體包括以下中的一種或任意組合查詢文字詞典庫獲得文字的讀音、含義、用法或其他語種的翻譯信息;查詢文化知識庫獲得文字對應(yīng)的典故或出處信息;查詢書籍查詢庫獲得文字對應(yīng)的書籍信息或網(wǎng)絡(luò)資源信息;
查詢商品查詢庫獲得文字對應(yīng)的商品信息;查詢音樂查詢庫獲得文字對應(yīng)的音樂信息或網(wǎng)絡(luò)資源信息;查詢網(wǎng)絡(luò)應(yīng)用搜索庫獲得文字對應(yīng)的網(wǎng)絡(luò)應(yīng)用信息或網(wǎng)絡(luò)入口。根據(jù)本發(fā)明一優(yōu)選實施例,在所述步驟S3中查詢所有知識庫,將獲得的所有知識信息生成知識拓展詞包;或者,在所述步驟SI中還獲取用戶選擇的個性化選項內(nèi)容,在所述步驟S3中查詢所述個性化選項內(nèi)容對應(yīng)的知識庫,將獲得的知識信息生成知識拓展詞包;或者,在所述步驟S3中查詢所有知識庫,對查詢到的 知識信息進(jìn)一步確定知識信息對應(yīng)的權(quán)重,將權(quán)重值排在前N個的知識信息生成知識拓展詞包,N為預(yù)設(shè)的正整數(shù)。根據(jù)本發(fā)明一優(yōu)選實施例,所述知識信息對應(yīng)的權(quán)重采用以下方式確定根據(jù)知識信息被查詢到的總次數(shù)確定該知識信息對應(yīng)的權(quán)重,總次數(shù)越大權(quán)重值越大;或者, 利用知識信息被查詢到的總次數(shù)確定該知識信息對應(yīng)的知識權(quán)重,利用該知識信息所屬類別的所有知識信息被當(dāng)前用戶查看的總次數(shù)確定用戶個性化權(quán)重,利用知識信息的知識權(quán)重與用戶個性化權(quán)重的乘積確定該知識信息對應(yīng)的權(quán)重。一種圖像文字識別的裝置,該裝置包括區(qū)域獲取單元,用于獲取待識別圖像中的文字區(qū)域;文字識別單元,用于對所述文字區(qū)域進(jìn)行文字識別;知識查詢單元,用于所述文字識別單元的識別結(jié)果查詢知識庫獲得識別結(jié)果對應(yīng)的知識信息;結(jié)果推送單元,用于在返回所述識別結(jié)果時,推送包含所述知識信息的知識拓展詞包。根據(jù)本發(fā)明一優(yōu)選實施例,所述區(qū)域獲取單元接收移動終端發(fā)送來的待識別圖像,從所述待識別圖像中提取文字區(qū)域;或者,接收移動終端從待識別圖像中提取并發(fā)送來的文字區(qū)域。根據(jù)本發(fā)明一優(yōu)選實施例,所述文字識別單元具體執(zhí)行對文字區(qū)域進(jìn)行二值化,對二值化后的文字區(qū)域分割為各字塊,提取各字塊的特征信息并與特征數(shù)據(jù)庫進(jìn)行匹配,將匹配結(jié)果作為各字塊的識別結(jié)果,按順序?qū)⒏髯謮K的識別結(jié)果進(jìn)行組合得到所述文字區(qū)域的識別結(jié)果。根據(jù)本發(fā)明一優(yōu)選實施例,所述知識查詢單元具體執(zhí)行以下中的一種或任意組合查詢文字詞典庫獲得文字的讀音、含義、用法或其他語種的翻譯信息;查詢文化知識庫獲得文字對應(yīng)的典故或出處信息;查詢書籍查詢庫獲得文字對應(yīng)的書籍信息或網(wǎng)絡(luò)資源信息;查詢商品查詢庫獲得文字對應(yīng)的商品信息;查詢音樂查詢庫獲得文字對應(yīng)的音樂信息或網(wǎng)絡(luò)資源信息;查詢網(wǎng)絡(luò)應(yīng)用搜索庫獲得文字對應(yīng)的網(wǎng)絡(luò)應(yīng)用信息或網(wǎng)絡(luò)入口。根據(jù)本發(fā)明一優(yōu)選實施例,所述知識查詢單元查詢所有知識庫,將獲得的所有知識信息生成知識拓展詞包;或者,
所述區(qū)域獲取單元還用于獲取用戶選擇的個性化選項內(nèi)容,所述知識查詢單元查詢所述個性化選項內(nèi)容對應(yīng)的知識庫,將獲得的知識信息生成知識拓展詞包;或者,所述知識查詢單元查詢所有知識庫,對查詢到的知識信息進(jìn)一步確定知識信息對應(yīng)的權(quán)重,將權(quán)重值排在前N個的知識信息生成知識拓展詞包,N為預(yù)設(shè)的正整數(shù)。根據(jù)本發(fā)明一優(yōu)選實施例,所述知識查詢單元采用以下方式確定所述知識信息對應(yīng)的權(quán)重根據(jù)知識信息被查詢到的總次數(shù)確定該知識信息對應(yīng)的權(quán)重,總次數(shù)越大權(quán)重值越大;或者, 利用知識信息被查詢到的總次數(shù)確定該知 識信息對應(yīng)的知識權(quán)重,利用該知識信息所屬類別的所有知識信息被當(dāng)前用戶查看的總次數(shù)確定用戶個性化權(quán)重,利用知識信息的知識權(quán)重與用戶個性化權(quán)重的乘積確定該知識信息對應(yīng)的權(quán)重。由以上技術(shù)方案可以看出,本發(fā)明利用文字識別的結(jié)果查詢知識庫獲得識別結(jié)果對應(yīng)的知識信息,并包含在知識拓展詞包中連同識別結(jié)果一起返回給用戶,使得用戶在獲取圖像中文字識別結(jié)果的同時,能夠獲取到對應(yīng)的知識信息,而無需進(jìn)一步通過手工的方式獲得知識信息,顯然更加方便和省力。
圖I為本發(fā)明實施例一提供的圖像文字識別的方法流程圖;圖2為本發(fā)明實施例提供的系統(tǒng)示意圖;圖3為本發(fā)明實施例二提供的圖像文字識別的裝置結(jié)構(gòu)圖;圖4和圖5為本發(fā)明實施例提供的移動終端的兩個展示效果示意圖。
具體實施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進(jìn)行詳細(xì)描述。實施例一、圖I為本發(fā)明實施例提供的圖像文字識別的方法流程圖,如圖I所示,該方法可以包括以下步驟步驟101 :獲取待識別圖像中的文字區(qū)域。服務(wù)器獲取移動終端發(fā)送來的包含文字信息的圖像,該圖像可以是移動終端拍攝到的原始圖像,服務(wù)器在本步驟中提取待識別圖像中的文字區(qū)域?;蛘?,該圖像可以是移動終端拍攝到原始圖像后,提取出待識別圖像中的文字區(qū)域后將待識別圖像中的文字區(qū)域發(fā)送給服務(wù)器。在提取文字區(qū)域時可以采用現(xiàn)有的方式,去除圖像背景后提取文字區(qū)域,可以采用但不限于以下方式方式一、首先根據(jù)彩色歐式距離進(jìn)行彩色游程編碼,然后進(jìn)行顏色聚類,基于聚類結(jié)果進(jìn)行文字層的生成和選擇,例如保留面積大于一定值的連通域,基于連通域與各顏色聚類中心的歐式距離生成各圖像層面,最后依據(jù)各圖像層面的像素個數(shù)與該層分割閾值的像素個數(shù)的關(guān)系確定文字層面、噪聲層面或背景層面,最后取出噪聲層面和背景層面后就得到文字層面,即文字區(qū)域。方式二、選擇大量的文字樣本圖像和不含文字的圖片,使用canny算子提取這兩類圖片的邊緣信息作為稀疏表示分類字典的訓(xùn)練樣本;將兩類訓(xùn)練樣本輸入分類稀疏表示字典訓(xùn)練算法得到文字稀疏表示分類字典和非文字稀疏表示分類字典;將待識別圖像轉(zhuǎn)為灰度圖像,使用canny算子提取灰度圖像的邊緣信息;利用基于分類字典的稀疏表示提取灰度圖像邊緣信息中的候選文字區(qū)域;在水平方向上和垂直方向上分別使用游程平滑算法將候選文字區(qū)域孤立的邊緣連接為較大的區(qū)域,再進(jìn)行投影分析找出相應(yīng)的文字行,同時舍去候選文字區(qū)域中文字行以外的孤立邊緣;將檢測出的文字區(qū)域標(biāo)識出來。如果移動終端進(jìn)行文字區(qū)域 的提取,則可以采用已有的文字區(qū)域提取軟件或者手動的方式進(jìn)行文字區(qū)域的提取。另外,本步驟中獲取的文字區(qū)域可以是一個,也可以是兩個以上。由于本步驟中的內(nèi)容為現(xiàn)有技術(shù),在此不再贅述。步驟102 :對文字區(qū)域進(jìn)行文字識別。其中對文字區(qū)域進(jìn)行文字識別的過程同樣可以采用現(xiàn)有技術(shù),即包括以下步驟對文字區(qū)域進(jìn)行二值化;對二值化后的文字區(qū)域分割為各字塊;提取各字塊的特征信息并與特征數(shù)據(jù)庫進(jìn)行匹配,將匹配結(jié)果作為各字塊的識別結(jié)果,按順序?qū)⒏髯謮K的識別結(jié)果進(jìn)行組合就得到文字區(qū)域的識別結(jié)果。另外,文字識別的方式多種多樣,除了上述方式之外還可以采用其他任意能夠?qū)崿F(xiàn)文字識別的方式,具體不再贅述。步驟103 :利用識別結(jié)果查詢知識庫獲得識別結(jié)果對應(yīng)的知識信息。本步驟中查詢的知識庫可以包括但不限于以下知識庫中的一種或任意組合I)文字詞典庫,查詢該文字詞典庫可以獲得文字的讀音、含義、用法或者其他語種的翻譯信息等。例如用戶通過移動終端拍攝到書中的一個生僻字,服務(wù)器利用識別結(jié)果查詢文字詞典庫就能夠獲得該生僻詞的讀音、含義、例句等信息。2)文化知識庫,查詢該文化知識庫可以獲得文字的典故、出處信息等。例如,用戶通過移動終端拍攝到一段詩詞,服務(wù)器利用識別結(jié)果查詢文化知識庫就能夠獲得該詩詞的出處。3)書籍查詢庫,查詢該書籍查詢庫可以獲得文字對應(yīng)的書籍信息或網(wǎng)絡(luò)資源信息等。例如,用戶通過移動終端拍攝到一本書籍封面,服務(wù)器利用識別結(jié)果查詢書籍查詢庫就能夠獲得該書籍的出版社信息、價格以及出售該書籍的書店等。4)商品查詢庫,查詢該商品查詢庫可以獲得文字對應(yīng)的商品信息,例如商品名稱、商品來源、商品價格、商品注意事項、商品評價等。例如用戶通過移動終端拍攝到一個商品標(biāo)識,服務(wù)器利用識別結(jié)果查詢商品查詢庫就能夠獲得出售該商品的書店、商品的價格等。再例如,用戶拍攝一款藥品,服務(wù)器利用識別結(jié)果查詢商品庫就能夠獲得用藥量等信息,尤其在特殊時期的注意事項。5)音樂查詢庫,查詢該音樂查詢庫可以獲得文字對應(yīng)的音樂信息或網(wǎng)站資源信息等。例如用戶通過移動終端拍攝一個專輯封面,服務(wù)器利用識別結(jié)果查詢商品查詢庫就能夠獲得該專輯的歌曲信息、能夠視聽或下載該專利的網(wǎng)站資源等。6)網(wǎng)絡(luò)應(yīng)用搜索庫,查詢該網(wǎng)絡(luò)應(yīng)用搜索庫可以獲得文字對應(yīng)的網(wǎng)絡(luò)應(yīng)用信息或網(wǎng)絡(luò)入口等。例如用戶通過移動終端拍攝到一個app的畫面,服務(wù)器利用識別結(jié)果查詢網(wǎng)絡(luò)應(yīng)用搜索庫就能夠獲得該app的相關(guān)信息以及該app的網(wǎng)絡(luò)入口等。上述的知識庫可以是本地知識庫,也可以是在線的網(wǎng)絡(luò)知識庫,也可以是通過第三方開放的數(shù)據(jù)接口訪問第三方提供的知識庫。—種實現(xiàn)方式是,在查詢了所有知識庫后,將匹配得到的所有知識信息生成知識拓展詞包以供返回給移動終端。由于可能存在較多數(shù)量的知識庫,用戶可能并不需要那么多種類的知識信息,因此另一種實現(xiàn)方式是,移動終端向用戶 提供個性化設(shè)置選項,在向服務(wù)器發(fā)送圖像時同時發(fā)送用戶選擇的選項內(nèi)容,服務(wù)器在本步驟中查詢知識庫時,僅查詢用戶選擇的選項內(nèi)容對應(yīng)的知識庫。舉個例子,移動終端向用戶提供文字詞典、文化知識、書籍查詢、商品查詢、音樂查詢、網(wǎng)絡(luò)應(yīng)用等個性化設(shè)置選項,如果用戶通過移動終端拍攝了生僻詞的圖像,可以選擇文字詞典這一選項,然后移動終端將圖像和用戶選擇的選項內(nèi)容發(fā)送給服務(wù)器,服務(wù)器在針對圖像的文字識別結(jié)果查詢知識庫時,就可以僅查詢文字詞典這一知識庫,將獲得的查詢結(jié)果生成知識拓展詞包,然后在步驟104中連同文字識別結(jié)果一起返回給移動終端。當(dāng)然,用戶可以選擇一個以上的選項。還存在一種實現(xiàn)方式,在查詢知識庫時,依舊查詢所有知識庫,但在返回的知識信息時進(jìn)行有選擇的返回,其中選擇返回哪一種或幾種類別的知識信息可以通過基于權(quán)重排序的方式。具體地,如果在某類別的知識庫中查詢到識別結(jié)果對應(yīng)的知識信息,則進(jìn)一步確定該知識信息對應(yīng)的權(quán)重,最終將獲得的知識信息中權(quán)重值排在前N個的生成知識拓展詞包供返回給移動終端,N為預(yù)設(shè)的正整數(shù)。其中知識信息對應(yīng)的權(quán)重可以采用但不限于以下方式確定其一、該識別結(jié)果對應(yīng)的知識信息被查詢到的總次數(shù),該總次數(shù)越大權(quán)重值越大。其二、利用識別結(jié)果對應(yīng)的知識信息被所有用戶查詢到的總次數(shù)確定該知識信息對應(yīng)的知識權(quán)重,再利用知識信息所屬類別的所有知識信息被當(dāng)前用戶查看(即將該知識信息推送給移動終端后,用戶會查看其中某些類別的知識信息,例如向用戶推送了某文字信息對應(yīng)的書籍信息和商品信息,如果用戶查看了其中的商品信息,則會更新商品類別知識信息被查看的次數(shù),用于更新商品類別知識信息的用戶個性化權(quán)重)的總次數(shù)確定用戶個性化權(quán)重,將知識信息的知識權(quán)重與用戶個性化權(quán)重的乘積作為該知識信息對應(yīng)的權(quán)重。另外,本步驟在查詢知識庫時可以基于識別結(jié)果的全部文字信息,也可以基于對識別結(jié)果進(jìn)行切詞后獲得的關(guān)鍵意義文字信息。步驟104 :在返回識別結(jié)果的同時,推送包含對應(yīng)知識信息的知識拓展詞包。服務(wù)器將識別結(jié)果和知識拓展詞包返回給移動終端后,用戶就能夠從移動終端的顯示獲取識別結(jié)果的同時獲取到對應(yīng)的知識信息。并且,其中的知識信息可能是一種以上類別的,如果用戶查看了其中某一個或幾個類別,則會向服務(wù)器上報,由服務(wù)器更新各個知識信息被所有用戶查詢的總次數(shù),同時更新知識信息所屬知識類別對應(yīng)的用戶個性化權(quán)重。以上是對本發(fā)明所提供的方法進(jìn)行的描述,下面通過實施例二對本發(fā)明所提供的裝置進(jìn)行詳細(xì)描述。為了方便理解首先對本發(fā)明上述方法所應(yīng)用的系統(tǒng)進(jìn)行描述,如圖2所示,該系統(tǒng)由移動終端和服務(wù)器構(gòu)成,其中移動終端可以將拍攝到的包含文字的圖像作為待識別圖像發(fā)送給服務(wù)器,由服務(wù)器從中提取文字區(qū)域,或者,移動終端將拍攝到的包含文字的圖像作為待識別圖像后,從中提取出文字區(qū)域,將該文字區(qū)域發(fā)送給服務(wù)器。之后服務(wù)器執(zhí)行實施例一中所示流程。本發(fā)明下述實施例二所提供的裝置設(shè)置在服務(wù)器中,用于完成實施例一中所示流程。實施例二、圖3為本發(fā)明實施例二提供的圖像文字識別的裝置結(jié)構(gòu)圖,如圖3所示,該裝置包括區(qū)域獲取單元301、文字識別單元302、知識查詢單元303和結(jié)果推送單元304。首先,區(qū)域獲取單元301獲取待識別 圖像中的文字區(qū)域。此處,區(qū)域獲取單元301接收移動終端發(fā)送來的待識別圖像,從待識別圖像中提取文字區(qū)域;或者,接收移動終端從待識別圖像中提取并發(fā)送來的文字區(qū)域。在提取文字區(qū)域時,可以采用實施例一中步驟101中所述的兩種方式,由于該部分內(nèi)容為現(xiàn)有技術(shù),在此不再詳述。然后文字識別單元302對文字區(qū)域進(jìn)行文字識別。具體的識別過程可以包括對文字區(qū)域進(jìn)行二值化,對二值化后的文字區(qū)域分割為各字塊,提取各字塊的特征信息并與特征數(shù)據(jù)庫進(jìn)行匹配,將匹配結(jié)果作為各字塊的識別結(jié)果,按順序?qū)⒏髯謮K的識別結(jié)果進(jìn)行組合得到文字區(qū)域的識別結(jié)果。知識查詢單元303利用文字識別單元302的識別結(jié)果查詢知識庫獲得識別結(jié)果對應(yīng)的知識信息。具體地,知識查詢單元303在查詢知識庫時可以執(zhí)行以下中的一種或任意組合查詢文字詞典庫獲得文字的讀音、含義、用法或其他語種的翻譯信息;查詢文化知識庫獲得文字對應(yīng)的典故或出處信息;查詢書籍查詢庫獲得文字對應(yīng)的書籍信息或網(wǎng)絡(luò)資源信息;查詢商品查詢庫獲得文字對應(yīng)的商品信息;查詢音樂查詢庫獲得文字對應(yīng)的音樂信息或網(wǎng)絡(luò)資源信息;查詢網(wǎng)絡(luò)應(yīng)用搜索庫獲得文字對應(yīng)的網(wǎng)絡(luò)應(yīng)用信息或網(wǎng)絡(luò)入口。其中一種實施方式,知識查詢單元303查詢所有知識庫,將獲得的所有知識信息生成知識拓展詞包。另一種實施方式,區(qū)域獲取單元301還用于獲取用戶選擇的個性化選項內(nèi)容,此時知識查詢單元303查詢個性化選項內(nèi)容對應(yīng)的知識庫,將獲得的知識信息生成知識拓展詞包(此種情況圖3中未示出)。再一種實施方式,知識查詢單元303查詢所有知識庫,對查詢到的知識信息進(jìn)一步確定知識信息對應(yīng)的權(quán)重,將權(quán)重值排在前N個的知識信息生成知識拓展詞包。其中可以采用以下方式確定知識信息對應(yīng)的權(quán)重方式一、根據(jù)知識信息被所有用戶查詢到的總次數(shù)確定該知識信息對應(yīng)的權(quán)重,總次數(shù)越大權(quán)重值越大。方式二、利用知識信息被查詢到的總次數(shù)確定該知識信息對應(yīng)的知識權(quán)重,利用該知識信息所屬類別的所有知識信息被當(dāng)前用戶查看的總次數(shù)確定用戶個性化權(quán)重,利用知識信息的知識權(quán)重與用戶個性化權(quán)重的乘積確定該知識信息對應(yīng)的權(quán)重。
最后,結(jié)果推送單元304在返回識別結(jié)果時,推送包含知識信息的知識拓展詞包。將識別結(jié)果和知識拓展詞包返回給移動終端后,用戶就能夠從移動終端的顯示獲取識別結(jié)果的同時獲取到對應(yīng)的知識信息。并且,其中的知識信息可能是一種以上類別的,如果用戶查看了其中某一個或幾個類別,則會向服務(wù)器上報,由知識查詢單元303基于用戶查看的每條知識信息更新對應(yīng)的被所有用戶查詢到的總次數(shù),以及更新知識類別對應(yīng)的用戶個性化權(quán)重。通過本發(fā)明的上述 方法和裝置,用戶在獲取圖像文字識別結(jié)果的同時,能夠獲取到對應(yīng)的知識信息,而無需進(jìn)一步通過手工的方式獲得知識信息,顯然更加方便和省力。例如,用戶在書上看到一個生僻字,通過移動終端將其拍攝下來之后發(fā)送給服務(wù)器,通過服務(wù)器執(zhí)行本發(fā)明的方法之后,在向移動終端返回文字識別結(jié)果的同時,能夠?qū)⒃撐淖值淖x音、含義和用法等知識信息一同發(fā)送給移動終端。其中文字識別結(jié)果和知識信息在移動終端的展示方式并發(fā)明并不加以限制,可以采用任意的形式,例如在識別結(jié)果的附近采用引用框的形式展示知識信息,如圖4所示。再例如,用戶拍攝的圖片中包含文字“笑忘書”,移動終端將其發(fā)送給服務(wù)器后經(jīng)過文字識別和知識查詢,服務(wù)器向移動終端返回文字識別結(jié)果和知識信息,在移動終端的展示結(jié)果可以如圖5所示。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種圖像文字識別的方法,其特征在于,該方法包括 51、獲取待識別圖像中 的文字區(qū)域; 52、對所述文字區(qū)域進(jìn)行文字識別; 53、利用識別結(jié)果查詢知識庫獲得識別結(jié)果對應(yīng)的知識信息; 54、在返回所述識別結(jié)果時,推送包含所述知識信息的知識拓展詞包。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟SI具體包括 服務(wù)器接收移動終端發(fā)送來的待識別圖像,從所述待識別圖像中提取文字區(qū)域;或者, 服務(wù)器接收移動終端從待識別圖像中提取并發(fā)送來的文字區(qū)域。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟S2具體包括 對文字區(qū)域進(jìn)行二值化; 對二值化后的文字區(qū)域分割為各字塊; 提取各字塊的特征信息并與特征數(shù)據(jù)庫進(jìn)行匹配,將匹配結(jié)果作為各字塊的識別結(jié)果; 按順序?qū)⒏髯謮K的識別結(jié)果進(jìn)行組合得到所述文字區(qū)域的識別結(jié)果。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟S3具體包括以下中的一種或任意組合 查詢文字詞典庫獲得文字的讀音、含義、用法或其他語種的翻譯信息; 查詢文化知識庫獲得文字對應(yīng)的典故或出處信息; 查詢書籍查詢庫獲得文字對應(yīng)的書籍信息或網(wǎng)絡(luò)資源信息; 查詢商品查詢庫獲得文字對應(yīng)的商品信息; 查詢音樂查詢庫獲得文字對應(yīng)的音樂信息或網(wǎng)絡(luò)資源信息; 查詢網(wǎng)絡(luò)應(yīng)用搜索庫獲得文字對應(yīng)的網(wǎng)絡(luò)應(yīng)用信息或網(wǎng)絡(luò)入口。
5.根據(jù)權(quán)利要求I或4所述的方法,其特征在于,在所述步驟S3中查詢所有知識庫,將獲得的所有知識信息生成知識拓展詞包;或者, 在所述步驟SI中還獲取用戶選擇的個性化選項內(nèi)容,在所述步驟S3中查詢所述個性化選項內(nèi)容對應(yīng)的知識庫,將獲得的知識信息生成知識拓展詞包;或者, 在所述步驟S3中查詢所有知識庫,對查詢到的知識信息進(jìn)一步確定知識信息對應(yīng)的權(quán)重,將權(quán)重值排在前N個的知識信息生成知識拓展詞包,N為預(yù)設(shè)的正整數(shù)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述知識信息對應(yīng)的權(quán)重采用以下方式確定 根據(jù)知識信息被查詢到的總次數(shù)確定該知識信息對應(yīng)的權(quán)重,總次數(shù)越大權(quán)重值越大;或者, 利用知識信息被查詢到的總次數(shù)確定該知識信息對應(yīng)的知識權(quán)重,利用該知識信息所屬類別的所有知識信息被當(dāng)前用戶查看的總次數(shù)確定用戶個性化權(quán)重,利用知識信息的知識權(quán)重與用戶個性化權(quán)重的乘積確定該知識信息對應(yīng)的權(quán)重。
7.一種圖像文字識別的裝置,其特征在于,該裝置包括 區(qū)域獲取單元,用于獲取待識別圖像中的文字區(qū)域; 文字識別單元,用于對所述文字區(qū)域進(jìn)行文字識別; 知識查詢單元,用于所述文字識別單元的識別結(jié)果查詢知識庫獲得識別結(jié)果對應(yīng)的知識息; 結(jié)果推送單元,用于在返回所述識別結(jié)果時,推送包含所述知識信息的知識拓展詞包。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述區(qū)域獲取單元接收移動終端發(fā)送來的待識別圖像,從所述待識別圖像中提取文字區(qū)域;或者,接收移動終端從待識別圖像中提取并發(fā)送來的文字區(qū)域。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述文字識別單元具體執(zhí)行對文字區(qū)域進(jìn)行二值化,對二值化后的文字區(qū)域分割為各字塊,提取各字塊的特征信息并與特征數(shù)據(jù)庫進(jìn)行匹配,將匹配結(jié)果作為各字塊的識別結(jié)果,按順序?qū)⒏髯謮K的識別結(jié)果進(jìn)行組合得到所述文字區(qū)域的識別結(jié)果。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述知識查詢單元具體執(zhí)行以下中的一種或任意組合 查詢文字詞典庫獲得文字的讀音、含義、用法或其他語種的翻譯信息; 查詢文化知識庫獲得文字對應(yīng)的典故或出處信息; 查詢書籍查詢庫獲得文字對應(yīng)的書籍信息或網(wǎng)絡(luò)資源信息; 查詢商品查詢庫獲得文字對應(yīng)的商品信息; 查詢音樂查詢庫獲得文字對應(yīng)的音樂信息或網(wǎng)絡(luò)資源信息; 查詢網(wǎng)絡(luò)應(yīng)用搜索庫獲得文字對應(yīng)的網(wǎng)絡(luò)應(yīng)用信息或網(wǎng)絡(luò)入口。
11.根據(jù)權(quán)利要求7或10所述的裝置,其特征在于,所述知識查詢單元查詢所有知識庫,將獲得的所有知識信息生成知識拓展詞包;或者, 所述區(qū)域獲取單元還用于獲取用戶選擇的個性化選項內(nèi)容,所述知識查詢單元查詢所述個性化選項內(nèi)容對應(yīng)的知識庫,將獲得的知識信息生成知識拓展詞包;或者, 所述知識查詢單元查詢所有知識庫,對查詢到的知識信息進(jìn)一步確定知識信息對應(yīng)的權(quán)重,將權(quán)重值排在前N個的知識信息生成知識拓展詞包,N為預(yù)設(shè)的正整數(shù)。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述知識查詢單元采用以下方式確定所述知識信息對應(yīng)的權(quán)重 根據(jù)知識信息被查詢到的總次數(shù)確定該知識信息對應(yīng)的權(quán)重,總次數(shù)越大權(quán)重值越大;或者, 利用知識信息被查詢到的總次數(shù)確定該知識信息對應(yīng)的知識權(quán)重,利用該知識信息所屬類別的所有知識信息被當(dāng)前用戶查看的總次數(shù)確定用戶個性化權(quán)重,利用知識信息的知識權(quán)重與用戶個性化權(quán)重的乘積確定該知識信息對應(yīng)的權(quán)重。
全文摘要
本發(fā)明提供了一種圖像文字識別的方法和裝置,其中方法包括S1、獲取待識別圖像中的文字區(qū)域;S2、對所述文字區(qū)域進(jìn)行文字識別;S3、利用識別結(jié)果查詢知識庫獲得識別結(jié)果對應(yīng)的知識信息;S4、在返回所述識別結(jié)果時,推送包含所述知識信息的知識拓展詞包。本發(fā)明使得用戶在獲取圖像中文字識別結(jié)果的同時,能夠獲取到對應(yīng)的知識信息,而無需進(jìn)一步通過手工的方式獲得知識信息,顯然更加方便和省力。
文檔編號G06K9/20GK102855480SQ201210279368
公開日2013年1月2日 申請日期2012年8月7日 優(yōu)先權(quán)日2012年8月7日
發(fā)明者韓鈞宇, 丁二銳, 吳中勤, 文林福 申請人:北京百度網(wǎng)訊科技有限公司