專利名稱:基于手勢動作的字符識別系統(tǒng)及翻譯系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本實用新型涉及一種字符識別技術(shù),特別是涉及一種針對攝像裝置攝取的圖像的基于手勢動作的字符識別系統(tǒng)及翻譯系統(tǒng)。
背景技術(shù):
目前,針對攝像裝置攝取的圖像進(jìn)行字符識別的方法通常為先利用移動電話等具有攝像裝置的便攜式電子終端設(shè)備攝取圖像,其次,將攝取到的圖像以圖片的形式傳輸給服務(wù)器,服務(wù)器利用結(jié)構(gòu)分析(Layout Analysis)模塊對接收到的圖片進(jìn)行分析,以提取圖片中的字符,之后服務(wù)器可以對提取出的字符進(jìn)行翻譯等處理,并將處理結(jié)果返回給電子終端設(shè)備。發(fā)明人在實現(xiàn)本實用新型過程中發(fā)現(xiàn)在網(wǎng)絡(luò)帶寬有限的情況下,電子終端設(shè)備向服務(wù)器發(fā)送圖片的時間會較長,從而使該應(yīng)用存在體驗較差的問題,不利于推廣應(yīng)用。另外,不論是否將攝取的圖片發(fā)送給服務(wù)器,即不論是由電子終端設(shè)備自身對圖片進(jìn)行字符識別處理,還是由服務(wù)器對圖片進(jìn)行字符識別處理,利用結(jié)構(gòu)分析模塊從整個圖片中分析出字符不但存在計算時間較長、容易出現(xiàn)分析錯誤的現(xiàn)象,而且,針對一些畫面復(fù)雜的圖片,基本上沒有辦法識別出字符。另外,用戶關(guān)注的內(nèi)容也許僅僅是圖片中的部分內(nèi)容,如個別的單詞或者某個電話等,而對整個圖片進(jìn)行字符分析無疑會造成資源的浪費。有鑒于上述現(xiàn)有的字符識別方法存在的缺陷,本發(fā)明人基于從事此類產(chǎn)品設(shè)計制造多年豐富的實務(wù)經(jīng)驗及專業(yè)知識,并配合學(xué)理的運用,積極加以研究創(chuàng)新,以期創(chuàng)設(shè)一種新的基于手勢動作的字符識別裝置及翻譯系統(tǒng),能夠克服現(xiàn)有的字符識別方法存在的問題,使其更具有實用性。經(jīng)過不斷的研究、設(shè)計,經(jīng)過反復(fù)試作樣品及改進(jìn)后,終于創(chuàng)設(shè)出確具實用價值的本實用新型。
實用新型內(nèi)容本實用新型的目的在于,克服現(xiàn)有的字符識別方法存在的缺陷,而提供一種新的基于手勢動作的字符識別系統(tǒng)及翻譯系統(tǒng),所要解決的技術(shù)問題是,使字符的識別過程更加快捷,有利于字符識別應(yīng)用的推廣,非常適于實用。本實用新型的目的以及解決其技術(shù)問題可以采用以下的技術(shù)方案來實現(xiàn)。依據(jù)本實用新型提出的一種基于手勢動作的字符識別系統(tǒng),所述系統(tǒng)包括攝像模塊、顯示模塊、監(jiān)測模塊、區(qū)域模塊、以及識別模塊;攝取圖像的攝像模塊與顯示所述圖像的顯示模塊連接;所述檢測模塊與所述區(qū)域模塊連接,所述檢測模塊輸出檢測到的用戶在所述顯示的圖像上的手勢動作信息;所述區(qū)域模塊接收所述檢測模塊輸出的手勢動作信息,并輸出所述手勢動作信息對應(yīng)的用戶關(guān)注的文字所在的區(qū)域;所述識別模塊接收所述區(qū)域模塊輸出的區(qū)域,并輸出所述區(qū)域內(nèi)的圖像的光學(xué)字符識別后獲得的文本格式的字符。本實用新型的目的以及解決其技術(shù)問題還可以采用以下的技術(shù)措施來進(jìn)一步實現(xiàn)。較佳的,前述的基于手勢動作的字符識別系統(tǒng),其中攝像模塊、顯示模塊、和檢測模塊設(shè)置于一電子終端設(shè)備中,所述區(qū)域模塊和識別模塊設(shè)置于服務(wù)器中,且所述檢測模塊檢測到的手勢動作的數(shù)據(jù)和所述攝像模塊攝取的圖像通過所述電子終端設(shè)備中的無線收發(fā)模塊發(fā)送給所述服務(wù)器。較佳的,前述的基于手勢動作的字符識別系統(tǒng),其中攝像模塊、顯示模塊、檢測模塊和區(qū)域模塊設(shè)置于一電子終端設(shè)備中,所述識別模塊設(shè)置于服務(wù)器中,且所述區(qū)域模塊確定出的區(qū)域的圖像通過所述電子終端設(shè)備中的無線收發(fā)模塊發(fā)送給所述服務(wù)器。較佳的,前述的基于手勢動作的字符識別系統(tǒng),其中所述各模塊均設(shè)置于一電子終端設(shè)備中。較佳的,前述的基于手勢動作的字符識別系統(tǒng),其中系統(tǒng)還包括壓縮模塊;所述壓縮模塊接收所述攝像模塊攝取的圖像,并輸出彩色圖像壓縮為2色或者4色后的圖像,所述區(qū)域模塊接收所述壓縮后的圖像。較佳的,前述的基于手勢動作的字符識別系統(tǒng),其中所述區(qū)域模塊包括第一子模塊;所述第一子模塊接收所述檢測模塊輸出的手勢動作信息,并向識別模塊輸出在對手勢動作周圍的預(yù)定區(qū)域進(jìn)行顏色直方圖轉(zhuǎn)換且在顏色直方圖轉(zhuǎn)換后的預(yù)定區(qū)域中基于區(qū)域連通性和/或占用面積的比例后確定出的用戶關(guān)注的文字所在的區(qū)域。較佳的,前述的基于手勢動作的字符識別系統(tǒng),其中所述區(qū)域模塊包括第二子模塊;所述第二子模塊接收所述檢測模塊輸出的手勢動作信息,并向識別模塊輸出在手勢動作穿過的圖像上的顏色向手勢動作周圍的預(yù)定區(qū)域中進(jìn)行封閉區(qū)域顏色填充操作且根據(jù)顏色填充操作的結(jié)果確定出的文字所在的區(qū)域。較佳的,前述的基于手勢動作的字符識別系統(tǒng),其中所述區(qū)域模塊包括第一子模塊、第二子模塊、和第三子模塊;所述第一子模塊接收所述檢測模塊輸出的手勢動作信息,并輸出在對手勢動作周圍的預(yù)定區(qū)域進(jìn)行顏色直方圖轉(zhuǎn)換且在顏色直方圖轉(zhuǎn)換后的預(yù)定區(qū)域中基于區(qū)域連通性和/或占用面積的比例后確定出的用戶關(guān)注的文字所在的區(qū)域;所述第二子模塊接收所述檢測模塊輸出的手勢動作信息,并輸出在手勢動作穿過的圖像上的顏色向手勢動作周圍的預(yù)定區(qū)域中進(jìn)行封閉區(qū)域顏色填充操作且根據(jù)顏色填充操作的結(jié)果確定出的文字所在的區(qū)域;所述第三子模塊接收所述第一子模塊和所述第二子模塊的輸出結(jié)果,并向識別模塊輸出文字所在的區(qū)域。。依據(jù)本實用新型提出的一種翻譯系統(tǒng),所述系統(tǒng)包括上述的基于手勢動作的字符識別系統(tǒng),且該翻譯系統(tǒng)還包括翻譯模塊,所述翻譯模塊與所述識別模塊連接,所述翻譯模塊輸出所述識別模塊識別出的文本格式的字符對應(yīng)的翻譯結(jié)果。較佳的,前述的翻譯系統(tǒng),所述翻譯模塊設(shè)置于具有攝像功能的便攜式電子終端設(shè)備中或者設(shè)置于服務(wù)器中;在所述翻譯模塊設(shè)置于服務(wù)器中的情況下,所述翻譯系統(tǒng)通過其收發(fā)模塊將所述翻譯模塊的翻譯結(jié)果發(fā)送給電子終端設(shè)備。借由上述技術(shù)方案,本實用新型的基于手勢動作的字符識別系統(tǒng)及翻譯系統(tǒng)至少具有下列優(yōu)點及有益效果本實用新型通過檢測用戶在攝取到的圖像上所進(jìn)行的選取需要進(jìn)行字符識別的內(nèi)容的手勢動作,并根據(jù)該手勢動作確定用戶關(guān)注的字符所在的區(qū)域,不但可以減少網(wǎng)絡(luò)的傳送時間,還可以有針對性的進(jìn)行字符識別,從而使字符識別的過程更加方便快捷,有利于字符識別技術(shù)的推廣應(yīng)用。綜上所述,本實用新型在技術(shù)上有顯著的進(jìn)步,并具有明顯的積極效果,誠為一新穎、進(jìn)步、實用的新設(shè)計。上述說明僅是本實用新型技術(shù)方案的概述,為了能夠更清楚了解本實用新型的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本實用新型的上述和其他目的、特征和優(yōu)點能夠更明顯易懂,以下特舉較佳實施例,并配合附圖,詳細(xì)說明如下。
圖1為本實用新型的設(shè)置于電子終端設(shè)備和服務(wù)器中的基于手勢動作的字符識別系統(tǒng)的示意圖;圖2為本實用新型的設(shè)置于電子終端設(shè)備中的基于手勢動作的字符識別系統(tǒng)的示意圖;圖3為本實用新型的設(shè)置于電子終端設(shè)備和服務(wù)器中的翻譯系統(tǒng)的示意圖;圖4為本實用新型的設(shè)置于電子終端設(shè)備中的翻譯系統(tǒng)的示意圖;圖5為本實用新型的翻譯過程的示意圖;圖6A為一彩色圖片;圖6B為一壓縮后的索引圖像;圖6C為在圖像上劃線后的結(jié)果示意圖;圖6D為在圖像上圈選出的文字示意圖;圖6E為在圖像上選取的區(qū)域;圖6F為光學(xué)字符識別示意圖;圖6G為顯示翻譯結(jié)果信息示意圖;圖7為本實用新型的手勢定義示意圖;圖8為本實用新型的手勢采集的曲線示意圖。
具體實施方式
為更進(jìn)一步闡述本實用新型為達(dá)成預(yù)定實用新型目的所采取的技術(shù)手段及功效,
以下結(jié)合附圖及較佳實施例,對依據(jù)本實用新型提出的基于手勢動作的字符識別系統(tǒng)及翻譯系統(tǒng)其具體實施方式
、結(jié)構(gòu)、步驟、特征及其功效,詳細(xì)說明如后。實施例一、基于手勢動作的字符識別系統(tǒng)。本實用新型實施例提供的基于手勢動作的字符識別系統(tǒng)可以設(shè)置于電子終端設(shè)備中,也可以設(shè)置于電子終端設(shè)備和服務(wù)器中。即本實用新型實施例提供的基于手勢動作的字符識別系統(tǒng)可以具體表現(xiàn)為一具有攝像功能的電子終端設(shè)備,也可以具體表現(xiàn)為一具有攝像功能的電子終端設(shè)備和與該電子終端設(shè)備無線連接的一服務(wù)器。當(dāng)然,該服務(wù)器可以同時與多個電子終端設(shè)備均無線連接。本實用新型實施例中的電子終端設(shè)備可以為移動電話、PDA(個人數(shù)字助理器)、 或者掌上計算機(jī)等具有攝像功能的便攜式數(shù)字設(shè)備。本實用新型不限制電子終端設(shè)備的具體表現(xiàn)形式。
以下結(jié)合附圖1對設(shè)置于電子終端設(shè)備和服務(wù)器中的基于手勢動作的字符識別系統(tǒng)進(jìn)行說明。圖1中示出的基于手勢動作的字符識別系統(tǒng)中的攝像模塊1、顯示模塊2、以及檢測模塊3設(shè)置于電子終端設(shè)備中,基于手勢動作的字符識別系統(tǒng)中的區(qū)域模塊4、以及識別模塊5設(shè)置于服務(wù)器中。另外,在基于手勢動作的字符識別系統(tǒng)還包括壓縮模塊6的情況下,壓縮模塊6設(shè)置于電子終端設(shè)備中。攝像模塊1可以為電子終端設(shè)備本身自帶的攝像單元。攝像模塊1主要用于攝取圖像。由于現(xiàn)有的電子終端設(shè)備自帶的攝像單元攝取的圖像基本上為彩色圖像,因此,該攝像模塊1攝取的圖像通常為彩色圖像。壓縮模塊6主要用于將攝像模塊1攝取的彩色圖像壓縮為2色或者4色的圖像, 壓縮后的圖像可以提供給顯示模塊2,由顯示模塊2顯示該壓縮后的圖像。在壓縮后的圖像不提供給顯示模塊2的情況下,攝像模塊1攝取的圖像直接通過顯示模塊2顯示出來。顯示模塊2主要用于顯示攝像模塊1攝取的圖像或者主要用于顯示壓縮模塊6壓縮后的圖像。該顯示模塊2可以包括電子終端設(shè)備本身自帶的顯示屏、以及顯示驅(qū)動模塊等。用于顯示圖像的顯示屏可以為觸摸屏,也可以為非觸摸屏。檢測模塊3主要用于檢測用戶在顯示模塊2顯示的圖像上所進(jìn)行的手勢動作。該手勢動作即選取需要進(jìn)行字符識別的內(nèi)容的手勢動作。也就是說,通過該手勢動作可以明確獲知用戶需要對顯示的圖像上的哪一部分內(nèi)容進(jìn)行字符識別。上述手勢動作可以具體為畫點、劃線(如直線、或者曲線)、或者劃區(qū)(如具有封閉空間的區(qū)域)等等。在手勢動作為劃線的情況下,用戶需要進(jìn)行字符識別的內(nèi)容是針對該線所經(jīng)過的圖像中的內(nèi)容的。檢測模塊3檢測到的手勢動作可以是用戶利用手指或者觸筆等輔助工具在觸摸屏上所作的手勢動作,例如,用戶利用手指在觸摸屏上劃線,該劃出的線條可以顯示在屏幕上,且該顯示的線條可以覆蓋在顯示的圖像上。檢測模塊3檢測到的手勢動作也可以是用戶通過鍵盤在顯示屏上所作的手勢動作等。一個具體的例子用戶利用上下左右鍵調(diào)整默認(rèn)大小的選擇框的位置,用戶利用“*” 鍵在水平方向上放大選擇框,利用“#”鍵在垂直方向上放大選擇框,利用“確定”鍵來確定當(dāng)前的選擇框即為手勢動作;另一個具體的例子用戶利用上下左右鍵調(diào)整默認(rèn)長短的選擇線條的位置,利用“*”鍵在水平方向上拉伸選擇線條,利用“ # ”鍵在水平方向上縮短選擇線條,利用“確定”鍵來確定當(dāng)前的選擇線條即為手勢動作。檢測模塊3檢測到的手勢動作信息以及攝像模塊1攝取的圖像可以通過電子終端設(shè)備中的無線收發(fā)模塊向服務(wù)器發(fā)送,例如,電子終端設(shè)備中的無線收發(fā)模塊基于GPRS、 3G、或者WIFI向服務(wù)器發(fā)送手勢動作信息和圖像。另外,在基于手勢動作的字符識別系統(tǒng)中包括壓縮模塊6的情況下,電子終端設(shè)備向服務(wù)器發(fā)送的信息可以是手勢動作信息和壓縮后的圖像信息。區(qū)域模塊4主要用于接收到的手勢動作信息和圖像信息確定圖像中用戶關(guān)注的文字(如中文、或者英文等外文、或者數(shù)字等)所在的區(qū)域。這里的用戶關(guān)注的文字所在的區(qū)域即需要進(jìn)行字符識別的圖片內(nèi)容區(qū)域。由于手勢動作可能是劃點或者劃線或者劃圈等,可能并沒有將需要進(jìn)行字符識別的內(nèi)容完全覆蓋住,因此,區(qū)域模塊4需要根據(jù)手勢動作進(jìn)行上下左右探索,以確定需要進(jìn)行字符識別的完整的內(nèi)容區(qū)域。例如,以劃線覆蓋的顏色為基準(zhǔn)在預(yù)定大小字符(如半個字符)范圍內(nèi)搜索具有相同顏色的區(qū)域。本實用新型中的區(qū)域模塊4可以不借助現(xiàn)有的結(jié)構(gòu)分析模塊來進(jìn)行區(qū)域的確定。區(qū)域模塊4確定出的區(qū)域可以是對圖像中的需要進(jìn)行字符識別的文字的圈選,即勾勒出圖像中的需要進(jìn)行字符識別的文字的輪廓。區(qū)域模塊4的一個具體的例子為區(qū)域模塊4包括第一子模塊、第二子模塊和第三子模塊。第一子模塊主要用于對手勢動作周圍的預(yù)定區(qū)域進(jìn)行顏色直方圖轉(zhuǎn)換,并在顏色直方圖轉(zhuǎn)換后的預(yù)定區(qū)域中基于區(qū)域連通性和/或占用面積的比例來確定用戶關(guān)注的文字所在的區(qū)域。例如,在手勢線條周圍取20像素寬的區(qū)域作為初始區(qū)域,對初始區(qū)域進(jìn)行顏色直方圖操作,獲得的顏色直方圖在大多數(shù)情況下有兩個主峰,即前景色和背景色,分別假設(shè)這兩種顏色為前景色,在手勢線條的上下范圍內(nèi)尋找文字的邊界,在尋找到文字的邊界后根據(jù)區(qū)域的連通性(背景傾向于連在一起)和前景色占總區(qū)域面積的比例(通常字符區(qū)域應(yīng)占總區(qū)域面積的75%以上)來確定用戶關(guān)注的文字所在的區(qū)域。當(dāng)然,前述的前景色所占的總區(qū)域面積的比例也可以為前景色與背景色的比例。針對文本顏色一致的情況,第一子模塊可以準(zhǔn)確的確定出文字所在的區(qū)域。第二子模塊主要用于在手勢動作穿過的圖像上的顏色向手勢動作周圍的預(yù)定區(qū)域中進(jìn)行封閉區(qū)域顏色填充操作,并根據(jù)顏色填充結(jié)果操作的結(jié)果確定用戶關(guān)注的文字所在的區(qū)域。例如,在單詞中的每個字母都是獨立顏色的情況下,顏色直方圖可能會存在若干個尖峰,第一子模塊判斷文字所在的區(qū)域較不準(zhǔn)確;第二子模塊可以在手勢線條穿越的路徑上,分別用路徑上的顏色向線條兩端進(jìn)行封閉區(qū)域顏色填充,背景色的填充結(jié)果可能是充滿整個區(qū)域且連接在一起,也可能是形成若干個小的區(qū)域(對于花色背景的情況),第二子模塊可以根據(jù)上述填充的結(jié)果確定用戶關(guān)注的文字的邊界,即確定用戶關(guān)注的文字所在的區(qū)域。第三子模塊主要用于根據(jù)第一子模塊和第二子模塊的輸出結(jié)果確定用戶關(guān)注的文字所在的區(qū)域。在第一子模塊和第二子模塊的判斷結(jié)果不一致時,第三子模塊可以采用權(quán)重值等算法來確定出用戶關(guān)注的文字所在的區(qū)域。本實用新型不限制第三子模塊確定用戶關(guān)注的文字所在區(qū)域時所采用的具體算法。另外,區(qū)域模塊4也可以僅包括第一子模塊和第二子模塊中的一個。還有,區(qū)域模塊4也可以采用現(xiàn)有的其它方法來確定用戶關(guān)注的文字所在的區(qū)域。需要特別說明的是,如果區(qū)域模塊4設(shè)置在電子終端設(shè)備中,則區(qū)域模塊4確定出的字符所在的區(qū)域會通過電子終端設(shè)備中的無線收發(fā)模塊向服務(wù)器發(fā)送,例如,電子終端設(shè)備中的無線收發(fā)模塊基于GPRS、3G、或者WIFI向服務(wù)器發(fā)送區(qū)域模塊4確定出的字符所在的區(qū)域的內(nèi)容。由于電子終端設(shè)備向服務(wù)器發(fā)送的內(nèi)容僅僅是區(qū)域模塊4確定出的字符所在的區(qū)域的內(nèi)容,因此,向服務(wù)器發(fā)送的圖片的大小會遠(yuǎn)遠(yuǎn)小于電子終端設(shè)備攝取的圖像的大小,從而可以極大的節(jié)約傳輸資源、縮短傳輸時間,進(jìn)而提高用戶體驗。識別模塊5主要用于對區(qū)域模塊4確定出的區(qū)域內(nèi)的圖像進(jìn)行光學(xué)字符識別,以獲得文本格式的字符。該文本格式的字符可以用于后續(xù)的多種應(yīng)用,如翻譯、解釋、存儲、朗誦、或者查詢價格等等。識別模塊5可以利用現(xiàn)有的光學(xué)字符識別技術(shù)進(jìn)行字符識別。服務(wù)器將識別模塊5識別出的文本格式的字符通過其收發(fā)模塊返回給電子終端設(shè)備,電子終端設(shè)備通過其無線收發(fā)模塊接收到服務(wù)器返回的文本格式的字符后,可以通過顯示模塊2顯示該文本格式的字符,電子終端設(shè)備還可以存儲該文本格式的字符。本實施例可以將電子終端設(shè)備中的無線收發(fā)模塊、以及服務(wù)器中的收發(fā)模塊作為基于手勢動作的字符識別系統(tǒng)中的一部分。
以下結(jié)合附圖2對設(shè)置于電子終端設(shè)備中的基于手勢動作的字符識別系統(tǒng)進(jìn)行說明。圖1中示出的設(shè)置于電子終端設(shè)備中的基于手勢動作的字符識別系統(tǒng)具體包括 攝像模塊1、顯示模塊2、檢測模塊3、區(qū)域模塊4、以及識別模塊5。另外,該基于手勢動作的字符識別系統(tǒng)還包括壓縮模塊6。圖2中示出的各模塊與圖1中示出的各模塊所作的操作基本相同,其區(qū)別包括檢測模塊3檢測出的手勢動作信息和攝像模塊1攝取的圖像信息并不會通過電子終端設(shè)備中的無線收發(fā)模塊向服務(wù)器發(fā)送,而是提供給設(shè)置在電子終端設(shè)備內(nèi)部的區(qū)域模塊4;或者區(qū)域模塊4確定出的圖像中的用戶關(guān)注的文字所在的區(qū)域并不會通過電子終端設(shè)備中的無線收發(fā)模塊向服務(wù)器發(fā)送,而是提供給設(shè)置在電子終端設(shè)備中的識別模塊5。另外,其區(qū)別還可以包括識別模塊5獲得的文本格式的字符不再需要在電子終端設(shè)備與服務(wù)器之間傳輸,識別模塊5獲得的文本格式的字符可以直接提供給顯示模塊2進(jìn)行顯示,也可以存儲在電子終端設(shè)備中。實施例二、翻譯系統(tǒng)。本實用新型實施例提供的翻譯系統(tǒng)可以設(shè)置于電子終端設(shè)備和服務(wù)器中(如附圖3所示),也可以設(shè)置于電子終端設(shè)備中(如附圖4所示)。即本實用新型實施例提供的翻譯系統(tǒng)可以具體表現(xiàn)為一具有攝像功能的電子終端設(shè)備,也可以具體表現(xiàn)為一具有攝像功能的電子終端設(shè)備和與該電子終端設(shè)備無線連接的一服務(wù)器。當(dāng)然,該服務(wù)器可以同時與多個電子終端設(shè)備均無線連接。本實施例中的電子終端設(shè)備同樣可以具體為移動電話、PDA (個人數(shù)字助理器)、 或者掌上計算機(jī)等具有攝像功能的便攜式數(shù)字設(shè)備。本實用新型不限制電子終端設(shè)備的具體表現(xiàn)形式。本實施例的翻譯系統(tǒng)在包含有上述實施例一的基于手勢動作的字符識別系統(tǒng)中的各模塊之外,還包含有翻譯模塊7。翻譯系統(tǒng)中包含的基于手勢動作的字符識別系統(tǒng)中的各模塊所執(zhí)行的操作基本上與上述實施例中的描述相同,相同的內(nèi)容在此不再重復(fù)說明。翻譯模塊7主要用于對將識別模塊5識別出的文本格式的字符進(jìn)行翻譯。這里的翻譯是指不同語言之間的翻譯,例如將外文(如英文等)翻譯為中文、或者將中文翻譯為外文、或者不同外文之間的翻譯等等。翻譯模塊7的翻譯結(jié)果應(yīng)由電子終端設(shè)備的顯示模塊2顯示出來。在翻譯模塊7 設(shè)置于服務(wù)器中的情況下,翻譯模塊7的翻譯結(jié)果可以通過服務(wù)器的收發(fā)模塊向電子終端設(shè)備發(fā)送。電子終端設(shè)備中的無線收發(fā)模塊接收到服務(wù)器發(fā)送來的翻譯結(jié)果信息后,該翻譯結(jié)果信息由電子終端設(shè)備中的顯示模塊2顯示出來。顯示模塊2顯示翻譯結(jié)果信息的一個具體的例子顯示模塊2可以將翻譯結(jié)果信息顯示在攝像模塊1攝取的圖像中的相應(yīng)區(qū)域附近,例如顯示模塊2將翻譯結(jié)果信息顯示在區(qū)域模塊4確定出的區(qū)域的左上角或者右上角或者左下角或者右下角方位等等。本實施例不限制翻譯結(jié)果信息的具體顯示方式。
以下結(jié)合附圖5-附圖7、以移動電話為例對本實用新型實施例的包含字符識別過程在內(nèi)的翻譯過程進(jìn)行詳細(xì)說明。附圖5是包含字符識別過程在內(nèi)的翻譯過程的示意圖。圖5中,首先,移動電話攝取圖像。在移動電話具有150萬以上像素、且具有自動聚焦功能的情況下,可以取得較好的字符識別效果。移動電話攝取的全彩色圖像如附圖6A所示。對于200萬像素的移動電話,如果使用JPGE壓縮格式,則該全彩色圖像的數(shù)據(jù)量大小通常在700KB左右。在移動電話攝取了全彩色圖像之后,對該全彩色圖像進(jìn)行壓縮??梢詫⒃撊噬珗D像根據(jù)色彩直方圖壓縮成2色或者4色的圖像(可以稱為索引圖像),如附圖6B所示。 壓縮后的圖像的數(shù)據(jù)量大約在70KB左右。對于數(shù)據(jù)傳輸能力比較強的網(wǎng)絡(luò),如WIFI、以及 3G數(shù)據(jù)網(wǎng)絡(luò),前述的壓縮步驟可以省略。移動電話檢測用戶的手勢動作,以獲取手勢動作信息(也可以稱為手勢動作數(shù)據(jù))。這里的手勢動作(Gesture)可以定義為用戶和圖像內(nèi)容直接交互的方式。實際上,對于需要翻譯的內(nèi)容,通常用戶是有明確的翻譯目標(biāo)的,例如,該翻譯目標(biāo)可能是用戶不認(rèn)識的一個單詞,也可能是一個包含若干個單詞的短語的含義,甚至一句話。通過手勢動作可以明確的表示出翻譯目標(biāo),該翻譯目標(biāo)可以稱為焦點。對于具有觸摸屏的移動電話,本實施例可以涉及如附圖7所示的三種手勢動作來確定焦點,即點擊、劃線(如直線、曲線、或者斜線等)、以及選取(選取也可以稱為劃區(qū))。 一個具體的例子采用劃線的手勢動作在圖6A攝取的圖像上進(jìn)行劃線后的結(jié)果可以如附圖6C所示,即用戶需要對圖像中的“Proceedings”、“AnalySiS”、以及“Recognition”進(jìn)行翻譯。對于不具有觸摸屏的移動電話,用戶可以通過鍵盤進(jìn)行點擊、劃線、以及選取操作,如先默認(rèn)用戶點擊了屏幕中央,之后根據(jù)用戶的按鍵情況確定手勢動作數(shù)據(jù)。從數(shù)據(jù)角度來看,不同的手勢動作對應(yīng)的手勢動作數(shù)據(jù)的內(nèi)容并不相同對于點擊,手勢動作數(shù)據(jù)是一個或多個2D的坐標(biāo)值;對于劃線,手勢動作數(shù)據(jù)是一個或多個線段; 對于選取,手勢動作數(shù)據(jù)是一個平面范圍。檢測出的曲線的一個具體的例子如附圖8所示,即移動電話中的應(yīng)用程序會以一個固定的時間間隔(如100ms)反復(fù)查詢指尖在屏幕上的位置(X,y),這樣,從指尖接觸屏幕到抬起的整個過程,就會得到由若干個坐標(biāo)點組成的序列(xl,yl),(x2,y2),…,(xn, yn),將這些坐標(biāo)點連成線繪制在圖片上,就構(gòu)成了畫在單詞上的手勢動作曲線。手勢動作的一個具體的例子為在使用手勢動作選擇單詞的時候,可以先通過圖片的縮放功能將待翻譯的內(nèi)容(如單詞)清晰顯示在移動電話的屏幕上,然后,用手指從想要翻譯的單詞的第一個字母依次劃到最后一個字母,如果字母排列不是在一條直線上,可以按照字母排列的方向劃線。移動電話將壓縮的圖像數(shù)據(jù)和手勢動作數(shù)據(jù)作為客戶端數(shù)據(jù)向服務(wù)器傳輸。服務(wù)器接收移動電話傳輸來的圖像數(shù)據(jù)和手勢動作數(shù)據(jù)。服務(wù)器根據(jù)接收到的手勢動作數(shù)據(jù)來確定焦點區(qū)域。焦點區(qū)域可以理解為在移動電話攝取的圖像內(nèi),用戶感興趣的需要翻譯的內(nèi)容所在的區(qū)域,即用戶關(guān)注的區(qū)域,該焦點區(qū)域可以表示為一個或多個矩形框。根據(jù)不同的手勢動作,服務(wù)器可以采用不同的焦點區(qū)域提取方式,例如對于點擊,服務(wù)器可以將包含點擊位置在內(nèi)的若干個單詞框確定為焦點區(qū)域;對于劃線,服務(wù)器可以將該線條劃過的若干個連續(xù)的單詞框確定為焦點區(qū)域;對于選取,服務(wù)器可以將選取框中包含的若干個單詞確定為焦點區(qū)域。在焦點區(qū)域的提取過程中,可以使用上述第一子模塊、第二子模塊、以及第三子模塊,以幫助準(zhǔn)確的提取焦點區(qū)域。在確定焦點區(qū)域過程中可以忽略圖像中的文字所在的背景。另外,可以根據(jù)手勢劃過區(qū)域的顏色確定文本的顏色。確定焦點區(qū)域的一個具體的例子包括在手勢劃過的路徑上,向路徑兩側(cè)搜索具有文本顏色的每一個字符區(qū)域的完整大小(即聯(lián)通區(qū)域)。在字符豎向0.5個字符內(nèi)范圍、以及水平向1個字符范圍內(nèi)搜索是否還有具有該顏色的字符,如果有,則將該字符加入進(jìn)來,其目的是不要漏掉字母“i”和字母“ j”上的點、以及手勢沒有完全選進(jìn)來的單詞的字母。將手勢線條劃過的灰白色區(qū)域連接起來就構(gòu)成了文本的選擇范圍(即焦點區(qū)域)。使用第一子模塊、第二子模塊、以及第三子模塊勾勒出的單詞的輪廓的一個具體例子如附圖6D所示,則焦點區(qū)域的提取結(jié)果如附圖6E和附圖6F的左側(cè)所示。在提取了焦點區(qū)域之后,用戶需要翻譯的若干單詞就變成了若干個需要識別的包含單詞的圖像(小的圖像區(qū)域)。服務(wù)器進(jìn)行文本識別過程,即服務(wù)器將包含單詞的圖像轉(zhuǎn)換成文字本身(即文本格式的字符),文本識別過程也可以被稱為0CR(0ptical Character Recognition,光學(xué)字符識別),識別出的文字為計算機(jī)可以識別的字符。一個具體的例子,針對附圖6E提取的焦點區(qū)域進(jìn)行文本識別后的結(jié)果如附圖6F的右側(cè)所示。在文本識別后,服務(wù)器通過查詞典就可以實現(xiàn)翻譯,從而將用戶選擇的內(nèi)容翻譯為用戶預(yù)先設(shè)定的目標(biāo)語言。一個具體的例子,在對附圖6F的右側(cè)所示的文本格式的單詞進(jìn)行詞典查詢后,翻譯的結(jié)果具體為Proceedings — η.論文集;Analysis — η.分析;Recognition — η.識別。附圖6F中包含“Recognition”單詞的JPEG圖片的大小是7. 6KB,如果由移動電話來確定焦點區(qū)域,則即使移動電話使用2G網(wǎng)絡(luò)也可以在不到Is的時間內(nèi)傳輸完成,從而大大的提高了用戶體驗。服務(wù)器將翻譯結(jié)果和翻譯結(jié)果在圖像中的位置信息作為服務(wù)器端數(shù)據(jù)向移動電話發(fā)送。移動電話根據(jù)接收到的位置信息將翻譯結(jié)果顯示給用戶,在顯示過程中,移動電話可以進(jìn)行用戶界面的顯示渲染,顯示渲染的一個具體例子如附圖6G所示。以上所述僅是本實用新型的較佳實施例而已,并非對本實用新型作任何形式上的限制,雖然本實用新型已以較佳實施例揭露如上,然而并非用以限定本實用新型,任何熟悉本專業(yè)的技術(shù)人員在不脫離本實用新型技術(shù)方案范圍內(nèi),當(dāng)可利用上述揭示的技術(shù)內(nèi)容作出些許更動或修飾為等同變化的等效實施例,但凡是未脫離本實用新型技術(shù)方案的內(nèi)容, 依據(jù)本實用新型的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾,均仍屬于本實用新型技術(shù)方案的范圍內(nèi)。
權(quán)利要求1.一種基于手勢動作的字符識別系統(tǒng),其特征在于,所述系統(tǒng)包括攝像模塊、顯示模塊、監(jiān)測模塊、區(qū)域模塊、以及識別模塊;攝取圖像的攝像模塊與顯示所述圖像的顯示模塊連接;所述檢測模塊與所述區(qū)域模塊連接,所述檢測模塊輸出檢測到的用戶在所述顯示的圖像上的手勢動作信息;所述區(qū)域模塊接收所述檢測模塊輸出的手勢動作信息,并輸出所述手勢動作信息對應(yīng)的用戶關(guān)注的文字所在的區(qū)域;所述識別模塊接收所述區(qū)域模塊輸出的區(qū)域,并輸出所述區(qū)域內(nèi)的圖像的光學(xué)字符識別后獲得的文本格式的字符。
2.如權(quán)利要求1所述的基于手勢動作的字符識別系統(tǒng),其特征在于所述攝像模塊、顯示模塊、和檢測模塊設(shè)置于一電子終端設(shè)備中,所述區(qū)域模塊和識別模塊設(shè)置于服務(wù)器中,且所述檢測模塊檢測到的手勢動作的數(shù)據(jù)和所述攝像模塊攝取的圖像通過所述電子終端設(shè)備中的無線收發(fā)模塊發(fā)送給所述服務(wù)器。
3.如權(quán)利要求1所述的基于手勢動作的字符識別系統(tǒng),其特征在于所述攝像模塊、顯示模塊、檢測模塊和區(qū)域模塊設(shè)置于一電子終端設(shè)備中,所述識別模塊設(shè)置于服務(wù)器中,且所述區(qū)域模塊確定出的區(qū)域的圖像通過所述電子終端設(shè)備中的無線收發(fā)模塊發(fā)送給所述服務(wù)器。
4.如權(quán)利要求1所述的基于手勢動作的字符識別系統(tǒng),其特征在于所述各模塊均設(shè)置于一電子終端設(shè)備中。
5.如權(quán)利要求2或3或4所述的基于手勢動作的字符識別系統(tǒng),其特征在于,所述系統(tǒng)還包括壓縮模塊;所述壓縮模塊接收所述攝像模塊攝取的圖像,并輸出彩色圖像壓縮為2色或者4色后的圖像,所述區(qū)域模塊接收所述壓縮后的圖像。
6.如權(quán)利要求1或2或3或4所述的基于手勢動作的字符識別系統(tǒng),其特征在于,所述區(qū)域模塊包括第一子模塊;所述第一子模塊接收所述檢測模塊輸出的手勢動作信息,并向識別模塊輸出在對手勢動作周圍的預(yù)定區(qū)域進(jìn)行顏色直方圖轉(zhuǎn)換且在顏色直方圖轉(zhuǎn)換后的預(yù)定區(qū)域中基于區(qū)域連通性和/或占用面積的比例后確定出的用戶關(guān)注的文字所在的區(qū)域。
7.如權(quán)利要求1或2或3或4所述的基于手勢動作的字符識別系統(tǒng),其特征在于,所述區(qū)域模塊包括第二子模塊;所述第二子模塊接收所述檢測模塊輸出的手勢動作信息,并向識別模塊輸出在手勢動作穿過的圖像上的顏色向手勢動作周圍的預(yù)定區(qū)域中進(jìn)行封閉區(qū)域顏色填充操作且根據(jù)顏色填充操作的結(jié)果確定出的文字所在的區(qū)域。
8.如權(quán)利要求1或2或3或4所述的基于手勢動作的字符識別系統(tǒng),其特征在于,所述區(qū)域模塊包括第一子模塊、第二子模塊、和第三子模塊;所述第一子模塊接收所述檢測模塊輸出的手勢動作信息,并輸出在對手勢動作周圍的預(yù)定區(qū)域進(jìn)行顏色直方圖轉(zhuǎn)換且在顏色直方圖轉(zhuǎn)換后的預(yù)定區(qū)域中基于區(qū)域連通性和/ 或占用面積的比例后確定出的用戶關(guān)注的文字所在的區(qū)域;所述第二子模塊接收所述檢測模塊輸出的手勢動作信息,并輸出在手勢動作穿過的圖像上的顏色向手勢動作周圍的預(yù)定區(qū)域中進(jìn)行封閉區(qū)域顏色填充操作且根據(jù)顏色填充操作的結(jié)果確定出的文字所在的區(qū)域;所述第三子模塊接收所述第一子模塊和所述第二子模塊的輸出結(jié)果,并向識別模塊輸出文字所在的區(qū)域。
9.一種翻譯系統(tǒng),其特征在于,所述系統(tǒng)包括上述權(quán)利要求1-8中任一權(quán)利要求所述的基于手勢動作的字符識別系統(tǒng),且該翻譯系統(tǒng)還包括翻譯模塊,所述翻譯模塊與所述識別模塊連接,所述翻譯模塊輸出所述識別模塊識別出的文本格式的字符對應(yīng)的翻譯結(jié)果。
10.如權(quán)利要求9所述的翻譯系統(tǒng),其特征在于所述翻譯模塊設(shè)置于具有攝像功能的便攜式電子終端設(shè)備中或者設(shè)置于服務(wù)器中; 在所述翻譯模塊設(shè)置于服務(wù)器中的情況下,所述翻譯系統(tǒng)通過其收發(fā)模塊將所述翻譯模塊的翻譯結(jié)果發(fā)送給電子終端設(shè)備。
專利摘要本實用新型是有關(guān)于一種基于手勢動作的字符識別系統(tǒng)及翻譯系統(tǒng)。其中的基于手勢動作的字符識別系統(tǒng)具體包括攝像模塊、顯示模塊、檢測模塊、區(qū)域模塊、以及識別模塊。攝取圖像的攝像模塊與顯示所述圖像的顯示模塊連接;所述檢測模塊與所述區(qū)域模塊連接,所述檢測模塊輸出檢測到的用戶在所述顯示的圖像上的手勢動作信息;所述區(qū)域模塊接收所述檢測模塊輸出的手勢動作信息,并輸出所述手勢動作信息對應(yīng)的用戶關(guān)注的文字所在的區(qū)域;所述識別模塊接收所述區(qū)域模塊輸出的區(qū)域,并輸出所述區(qū)域內(nèi)的圖像的光學(xué)字符識別后獲得的文本格式的字符。本實用新型提供的技術(shù)方案能夠方便快捷準(zhǔn)確的實現(xiàn)字符識別,有利于字符識別應(yīng)用的推廣,非常適于實用。
文檔編號G06F17/28GK202093528SQ20112009906
公開日2011年12月28日 申請日期2011年4月1日 優(yōu)先權(quán)日2011年4月1日
發(fā)明者馬磊 申請人:洛陽磊石軟件科技有限公司