專利名稱:視訊手寫文字輸入裝置及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文字輸入裝置,尤指一種適用于視訊手寫文字輸入裝置。
背景技術(shù):
近幾年來隨著科技日新月異,幾乎所有的電子產(chǎn)品都往重量輕、體積小、功能性強(qiáng) 的方向發(fā)展,例如個(gè)人數(shù)字助理、手機(jī)、筆記型計(jì)算機(jī)等,但由于體積的縮小導(dǎo)致過去常用 的輸入裝置例如手寫板、鍵盤、鼠標(biāo)及游戲桿等體積較大的裝置難以結(jié)合,可攜帶性的目 的也就大打折扣,因此,如何方便的對(duì)可移植性電子產(chǎn)品輸入信息便成了一重要的問題。
為了能讓一般大眾都能方便地輸入信息,許多人機(jī)互動(dòng)接口的研究都正在蓬勃發(fā) 展,最方便的方法莫過于直接使用手勢(shì)動(dòng)作操作計(jì)算機(jī)及使用指尖手寫輸入文字,為了檢 測(cè)手勢(shì)動(dòng)作或指尖位置,有人提出一種以手套為基礎(chǔ)(Glove-Based)的方法,其是使用裝 有感應(yīng)器的數(shù)據(jù)手套(DataGlove),可精確得知使用者手勢(shì)的許多信息,包括手指的接觸、 彎曲度、手腕的轉(zhuǎn)動(dòng)程度等,優(yōu)點(diǎn)是能得到精準(zhǔn)的手勢(shì)信息,但缺點(diǎn)是成本高昂、活動(dòng)范圍 受到限制,長(zhǎng)久將此設(shè)備帶在手上也會(huì)造成使用者的負(fù)擔(dān)。 另一種以視覺為基礎(chǔ)的方法,可細(xì)分為兩類一是建立模型為基礎(chǔ)的方法,另一是 以外觀輪廓的形狀信息為基礎(chǔ)的方法,建立模型為基礎(chǔ)的方法是使用兩臺(tái)以上的攝影機(jī)拍 攝手部動(dòng)作,然后計(jì)算出手在3D空間的位置,進(jìn)而與事先建立好的3D模型比對(duì),得知目前 的手勢(shì)動(dòng)作或是指尖位置,但此種方法計(jì)算量大,難以做到實(shí)時(shí)的應(yīng)用,目前較常用的方法 是以外觀輪廓的形狀信息為基礎(chǔ)的方法,其是用單一攝影機(jī)拍攝手部動(dòng)作,然后切割取出 手部邊緣或是形狀的信息,再根據(jù)這些信息做手勢(shì)辨識(shí)或是判斷指尖位置,由于此方法的 計(jì)算量較低,效果不錯(cuò),因此成為目前最常用的方法。 取得手勢(shì)動(dòng)作的信息或手寫文字的軌跡后,接著就要進(jìn)行手勢(shì)或手寫文字辨識(shí)的 動(dòng)作,常見的方法有三種隱藏式馬可夫模型(Hidden MarkovModel)、類神經(jīng)網(wǎng)絡(luò)(Neural Network)及動(dòng)態(tài)時(shí)間扭曲算法(Dynamic timewarp matching algorithm),其中以動(dòng)態(tài)時(shí) 間扭曲算法的辨識(shí)率較高,但所花費(fèi)的時(shí)間較久。因此,本發(fā)明定義了一些用來建構(gòu)文字模 型的基本筆劃,包括八方向筆畫、八個(gè)圓弧狀筆畫和兩個(gè)圓圈筆畫,依照1D在線模型,組合 出所有可能筆劃的一維序列,再以能容忍筆畫輸入、刪除、取代的動(dòng)態(tài)時(shí)間扭曲算法做文字 比對(duì),以增加比對(duì)的效能,達(dá)到可實(shí)時(shí)辨識(shí)的效果。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的問題,本發(fā)明的主要目的是提供一種視訊文字輸入裝置,其 包括有一圖像攝取單元、一圖像處理單元、一一維特征編碼單元、一文字辨認(rèn)單元、一顯示 單元、一筆畫特征數(shù)據(jù)庫以及一文字?jǐn)?shù)據(jù)庫。其中,圖像攝取單元用以攝取圖像;圖像處理 單元用以過濾出圖像中目標(biāo)物的移動(dòng)軌跡,目標(biāo)物可為一指尖,其方法先做圖像差異檢測(cè), 再做膚色檢測(cè),最后挑選出最符合目標(biāo)物的點(diǎn)的移動(dòng)軌跡;筆畫特征數(shù)據(jù)庫儲(chǔ)存有各種筆 畫及其對(duì)應(yīng)的編碼;一維特征編碼單元,對(duì)移動(dòng)軌跡進(jìn)行筆畫抽取,將筆畫按時(shí)間序列轉(zhuǎn)換為一維串行的編碼序列,筆畫種類包括有八方向、半圓、及圓形筆畫;文字?jǐn)?shù)據(jù)庫儲(chǔ)存有文 字,其包括有中文、英文、數(shù)字、及符號(hào);文字辨認(rèn)單元,對(duì)一維串行編碼和文字?jǐn)?shù)據(jù)庫進(jìn)行 文字比對(duì),找出相似程度最高的文字;顯示單元用以顯示文字辨認(rèn)單元找出的文字。
其中,圖像攝取單元可為網(wǎng)絡(luò)攝影機(jī)、行動(dòng)裝置上的攝取圖像的裝置、及嵌入式 裝置上的攝取圖像的裝置。文字辨認(rèn)單元使用動(dòng)態(tài)時(shí)間扭曲算法(Dynamic time warp matching algorithm)進(jìn)行文字比對(duì)。因此,通過本發(fā)明的視訊文字輸入裝置,便能達(dá)成有 效辨識(shí)視訊手寫文字并輸入文字的目的與功效。 本發(fā)明的另一目的是提供一種于視訊文字輸入裝置進(jìn)行文字輸入的方法,其中,
視訊文字輸入裝置包括有圖像攝取單元、圖像處理單元、一維特征編碼單元、文字辨認(rèn)單
元、顯示單元、儲(chǔ)存有各種筆畫及其對(duì)應(yīng)編碼的筆畫特征數(shù)據(jù)庫、及儲(chǔ)存有中文、英文、數(shù)
字、及符號(hào)的文字?jǐn)?shù)據(jù)庫。首先,圖像攝取單元攝取圖像,接著,圖像處理單元過濾出圖像中
目標(biāo)物的移動(dòng)軌跡,目標(biāo)物可為一指尖,其方法先做圖像差異檢測(cè),再做膚色檢測(cè),最后挑
選出最符合目標(biāo)物的點(diǎn)的移動(dòng)軌跡,然后, 一維特征編碼單元對(duì)移動(dòng)軌跡進(jìn)行筆畫抽取,并
搜尋該筆畫特征數(shù)據(jù)庫,將筆畫按時(shí)間序列轉(zhuǎn)換為一維串行的編碼序列,筆畫種類包括有
八方向、半圓、及圓形筆畫,文字辨認(rèn)單元再對(duì)一維串行編碼和文字?jǐn)?shù)據(jù)庫進(jìn)行文字比對(duì),
找出相似程度最高的文字,最后,顯示單元顯示文字辨認(rèn)單元所找出的文字。 其中,圖像攝取單元可為網(wǎng)絡(luò)攝影機(jī)、行動(dòng)裝置上的攝取圖像的裝置、及嵌入式
裝置上的攝取圖像的裝置。文字辨認(rèn)單元是使用動(dòng)態(tài)時(shí)間扭曲算法(Dynamic time warp
matching algorithm)進(jìn)行文字比對(duì)。因此,通過本發(fā)明于視訊文字輸入裝置進(jìn)行文字輸入
的方法,便能達(dá)成有效辨識(shí)視訊手寫文字并輸入文字的目的與功效。
圖1為本發(fā)明一較佳實(shí)施例的視訊文字輸入裝置的架構(gòu)圖。
圖2A B為本發(fā)明一較佳實(shí)施例的筆畫種類編碼示意圖。
圖3為本發(fā)明一較佳實(shí)施例的文字辨識(shí)過程示意圖。
圖4A C為本發(fā)明一較佳實(shí)施例的筆畫切斷示意圖。
圖5A B為本發(fā)明一較佳實(shí)施例的下筆及提筆手勢(shì)示意圖。
圖6為本發(fā)明一較佳實(shí)施例的視訊文字輸入方法流程圖。
圖7為本發(fā)明一較佳實(shí)施例以6為例說明文字辨識(shí)過程的分解圖,
主要元件符號(hào)說明
11圖像處理單元 13文字辨認(rèn)單元 15筆畫特征數(shù)據(jù)庫 60 70步驟 S 線段
10圖像攝取單元 12 —維特征編碼單元 14顯示單元 16文字?jǐn)?shù)據(jù)庫
S SS, S, S,,
具體實(shí)施例方式
為能讓讀者更了解本發(fā)明的技術(shù)內(nèi)容,特以一視訊文字輸入裝置為較佳具體實(shí)施 例說明如下,請(qǐng)先參閱圖l,圖1為本發(fā)明一較佳實(shí)施例的視訊文字輸入裝置的架構(gòu)圖,其包括一圖像攝取單元10、一圖像處理單元11、一一維特征編碼單元12、一文字辨認(rèn)單元13、 一顯示單元14、一筆畫特征數(shù)據(jù)庫15及一文字?jǐn)?shù)據(jù)庫16。其中,圖像攝取單元10為例如 網(wǎng)絡(luò)攝影機(jī)、行動(dòng)裝置上的攝取圖像的裝置、及嵌入式裝置上的攝取圖像的裝置從輸入的 影片中攝取圖像,圖像處理單元11先做圖像差異檢測(cè),再做膚色檢測(cè),以過濾出圖像中目 標(biāo)物,例如一指尖的移動(dòng)軌跡。 —維特征編碼單元12對(duì)移動(dòng)軌跡進(jìn)行筆畫抽取,請(qǐng)參閱圖2A B,圖2A B為本
發(fā)明一較佳實(shí)施例的筆畫種類編碼示意圖,其是用以建構(gòu)文字模型的基本筆劃,包括八方 向筆畫(圖2A的0-7)、八個(gè)圓弧狀筆畫(圖2B的(A)-(H))和兩個(gè)圓圈筆畫(圖2B的(0) 及(Q)),其皆儲(chǔ)存于筆畫特征數(shù)據(jù)庫15中,一維特征編碼單元12是依照1D在線模型,并 將筆畫按時(shí)間序列轉(zhuǎn)換為一維串行的編碼序列,文字辨認(rèn)單元13使用動(dòng)態(tài)時(shí)間扭曲算法 (Dy謹(jǐn)ictime warp matching algorithm)對(duì)一維串行編碼和文字?jǐn)?shù)據(jù)庫16儲(chǔ)存的文字, 例如中文、英文、數(shù)字、及符號(hào)進(jìn)行文字比對(duì),找出相似程度最高的文字,再輸出至顯示單元 14顯示之。 請(qǐng)參閱圖3,圖3為本發(fā)明一較佳實(shí)施例的文字辨識(shí)過程示意圖,本發(fā)明先以數(shù)字 「3」和「6」為范例大略說明文字辨識(shí)的過程,首先,圖像處理單元11過濾出使用者在攝影 機(jī)前以指尖寫「3」和「6」的移動(dòng)軌跡, 一維特征編碼單元12是依照1D在線模型及筆畫的 種類,將筆畫按時(shí)間序列轉(zhuǎn)換為一維串行的編碼序列,請(qǐng)同時(shí)參閱圖2B, 「3」的筆畫為二個(gè) 順時(shí)針的圓弧狀筆畫「D」所組成,其所對(duì)應(yīng)的編碼為E,因此3的一維編碼序列為「EE」;而 「6」的筆畫為逆時(shí)針的圓弧狀筆畫「C;」及「)」所組成,其所對(duì)應(yīng)的編碼分別為CA,因此6的 一維編碼序列為「CA」,最后,文字辨認(rèn)單元13使用動(dòng)態(tài)時(shí)間扭曲算法(Dynamic time warp matching algorithm)對(duì)「EE」及「CA」和文字?jǐn)?shù)據(jù)庫16中儲(chǔ)存的文字編碼進(jìn)行比對(duì),找出 數(shù)字3及6輸出到顯示單元14。 請(qǐng)參閱圖4,圖4為本發(fā)明一較佳實(shí)施例的筆畫切斷示意圖,實(shí)際上,以指尖手寫
文字的筆畫軌跡與持筆寫字的筆畫軌跡并不完全相同,以指尖手寫文字時(shí)因手指在一筆畫 和下一筆畫之間的連續(xù)移動(dòng),會(huì)產(chǎn)生一些多余的軌跡,造成辨識(shí)的困難度增加,以英文字
「E」為例,其筆畫順序?yàn)椤敢弧埂?!」「一」「一」,但以指尖寫字時(shí),在第一筆畫「一」和第二 筆畫「 I」之間因指尖的移動(dòng)會(huì)產(chǎn)生一多余「一」的筆畫,本發(fā)明為解決此問題,將一些會(huì)造 成多余筆畫的狀況定義為筆畫切斷,例如圖4A C的示意圖,如此便能增加筆畫的正確度, 進(jìn)而提高文字的辨識(shí)率。 請(qǐng)參閱圖5,圖5為本發(fā)明一較佳實(shí)施例的下筆及提筆手勢(shì)示意圖,本發(fā)明還定義 二種不同的手勢(shì),可結(jié)合Microsoft Office ME輸入法整合器,利用所定義的手勢(shì)進(jìn)行文 字輸入,下筆寫字時(shí)拇指不伸出,如圖5A所示,提筆移動(dòng)游標(biāo)時(shí)拇指伸出,如圖5B所示,因 此,本發(fā)明可利用拇指判斷使用者是要輸入文字或單純移動(dòng)鼠標(biāo)。 請(qǐng)參閱圖6,圖6為本發(fā)明一較佳實(shí)施例的視訊文字輸入方法流程圖,本發(fā)明的視 訊文字輸入裝置包括有一圖像攝取單元10、一圖像處理單元11、一一維特征編碼單元12、 一文字辨認(rèn)單元13、一顯示單元14、一儲(chǔ)存各種筆畫及其對(duì)應(yīng)編碼的筆畫特征數(shù)據(jù)庫15、 及一儲(chǔ)存有中文、英文、數(shù)字、及符號(hào)的文字?jǐn)?shù)據(jù)庫16。首先,圖像攝取單元10攝取圖像 傳送至圖像處理單元11 (步驟60),其計(jì)算所攝取的圖像的畫面差異值判斷是否有物體移 動(dòng)(步驟61,62),若無檢測(cè)到移動(dòng)則重新攝取圖像,若有則進(jìn)行指尖抽取(步驟63),接著判斷是否找到指尖(步驟64),若有則將指尖位置記錄下來過濾出指尖的移動(dòng)軌跡(步 驟65),若無找到指尖表示使用者已手寫完畢,則將軌跡傳送至一維特征編碼單元12,其對(duì) 移動(dòng)軌跡進(jìn)行筆畫抽取(步驟66),并搜尋筆畫特征數(shù)據(jù)庫15,將筆畫按時(shí)間序列轉(zhuǎn)換為 一維串行的編碼序列(步驟67),文字辨認(rèn)單元13使用動(dòng)態(tài)時(shí)間扭曲算法(Dynamic time warpmatching algorithm)對(duì)一維串行編碼和文字?jǐn)?shù)據(jù)庫進(jìn)行文字比對(duì)(步驟68),找出相 似程度最高的文字(步驟69),最后輸出至顯示單元14(步驟70),顯示文字辨識(shí)的結(jié)果。
請(qǐng)參閱圖7,本發(fā)明另以數(shù)字「6」為例詳細(xì)說明文字辨識(shí)的過程,當(dāng)圖像處理單元 11過濾出「6」的移動(dòng)軌跡后,將移動(dòng)軌跡依時(shí)間順序分為多個(gè)小段,即圖7中的S工 S2。, 每一小段為對(duì)應(yīng)一方向值,請(qǐng)同時(shí)參閱圖2(A)的八方向筆畫定義示意圖,S工線段為屬于圖 2(A)中157.5° 202.5°區(qū)間,意即S工線段所對(duì)應(yīng)的方向值為4,以此類推,S3線段所對(duì)
應(yīng)的方向值為5, Ss線段所對(duì)應(yīng)的方向值為6......等,接著對(duì)軌跡進(jìn)行平滑化處理,使線
段S工 S2。成為多個(gè)平滑段S'工 S' 13,再將多個(gè)平滑段中,方向變化于一預(yù)定范圍內(nèi)的平 滑段合并為組合段S S"9,每一組合段S S"9亦對(duì)應(yīng)至一方向值,再依據(jù)組合段的 對(duì)應(yīng)方向值,將移動(dòng)軌跡切割為多個(gè)筆畫,于本實(shí)施例中,組合段S "工 S " 5對(duì)應(yīng)的方向值 為45670,其所組成的筆畫為「C」,而組合段S"5 S"9對(duì)應(yīng)的方向值為01234,其所組成 的筆畫為「 二〉」,請(qǐng)同時(shí)參閱圖2 (B),筆畫「 C」及「 I)」分別對(duì)應(yīng)的編碼為「CA」,因此6的一 維編碼序列為「CA」,最后,文字辨認(rèn)單元13找出文字?jǐn)?shù)據(jù)庫16中與一維編碼序列「CA」最 相近的文字為「6」。 上述實(shí)施例僅是為了方便說明而舉例而已,本發(fā)明所主張的權(quán)利范圍自應(yīng)以申請(qǐng) 專利范圍所述為準(zhǔn),而非僅限于上述實(shí)施例。
權(quán)利要求
一種視訊文字輸入裝置,其特征在于,包括一圖像攝取單元,攝取圖像;一圖像處理單元,過濾出圖像中目標(biāo)物的移動(dòng)軌跡;一筆畫特征數(shù)據(jù)庫,儲(chǔ)存各種筆畫及其對(duì)應(yīng)的編碼;一一維特征編碼單元,對(duì)移動(dòng)軌跡進(jìn)行筆畫抽取,并搜尋該筆畫特征數(shù)據(jù)庫,將筆畫按時(shí)間序列轉(zhuǎn)換為一維串行的編碼序列;一文字?jǐn)?shù)據(jù)庫,儲(chǔ)存文字;一文字辨認(rèn)單元,對(duì)該一維串行編碼和該文字?jǐn)?shù)據(jù)庫進(jìn)行文字比對(duì),找出相似程度最高的文字;以及一顯示單元,顯示該文字辨認(rèn)單元找出的文字。
2. 如權(quán)利要求1所述的裝置,其特征在于,該圖像攝取單元包括網(wǎng)絡(luò)攝影機(jī)、行動(dòng)裝置上的攝取圖像的裝置、及嵌入式裝置上的攝取圖像的裝置。
3. 如權(quán)利要求1所述的裝置,其特征在于,該圖像處理單元過濾軌跡的方法是先做圖像差異檢測(cè),再做膚色檢測(cè),最后挑選出最符合目標(biāo)物的點(diǎn)的移動(dòng)軌跡。
4. 如權(quán)利要求1所述的裝置,其特征在于,該目標(biāo)物包括一指尖。
5. 如權(quán)利要求1所述的裝置,其特征在于,該筆畫特征數(shù)據(jù)庫儲(chǔ)存的筆畫種類包括八方向、半圓、及圓形筆畫。
6. 如權(quán)利要求1所述的裝置,其特征在于,該文字?jǐn)?shù)據(jù)庫儲(chǔ)存的文字包括中文、英文、數(shù)字、及符號(hào)。
7. 如權(quán)利要求1所述的裝置,其特征在于,該文字辨認(rèn)單元是使用動(dòng)態(tài)時(shí)間扭曲算法(Dynamic time warp matching algorithm)進(jìn)行文字比對(duì)。
8. —種于視訊文字輸入裝置進(jìn)行文字輸入的方法,該視訊文字輸入裝置包括有圖像攝取單元、圖像處理單元、一維特征編碼單元、文字辨認(rèn)單元、顯示單元、筆畫特征數(shù)據(jù)庫、及文字?jǐn)?shù)據(jù)庫,該方法包括下列步驟(A) 該圖像攝取單元攝取圖像;(B) 該圖像處理單元過濾出圖像中目標(biāo)物的移動(dòng)軌跡;(C) 該一維特征編碼單元對(duì)移動(dòng)軌跡進(jìn)行筆畫抽取,并搜尋該筆畫特征數(shù)據(jù)庫,將筆畫按時(shí)間序列轉(zhuǎn)換為一維串行的編碼序列;(D) 該文字辨認(rèn)單元對(duì)該一維串行編碼和該文字?jǐn)?shù)據(jù)庫進(jìn)行文字比對(duì),找出相似程度最高的文字;以及(E) 該顯示單元顯示該文字辨認(rèn)單元找出的文字。
9. 如權(quán)利要求8所述的方法,其特征在于,該步驟(B)中該圖像處理單元過濾軌跡的方法是先做圖像差異檢測(cè),再做膚色檢測(cè),最后挑選出最符合目標(biāo)物的點(diǎn)的移動(dòng)軌跡。
10. 如權(quán)利要求8所述的方法,其特征在于,該圖像攝取單元包括網(wǎng)絡(luò)攝影機(jī)、行動(dòng)裝置上的攝取圖像的裝置、及嵌入式裝置上的攝取圖像的裝置。
11. 如權(quán)利要求8所述的方法,其特征在于,該目標(biāo)物包括一指尖。
12. 如權(quán)利要求8所述的方法,其特征在于,該筆畫特征數(shù)據(jù)庫儲(chǔ)存的筆畫種類包括八方向、半圓、及圓形筆畫。
13. 如權(quán)利要求8所述的方法,其特征在于,該文字?jǐn)?shù)據(jù)庫儲(chǔ)存的文字包括中文、英文、數(shù)字、及符號(hào)。
14.如權(quán)利要求8所述的方法,其特征在于,該文字辨認(rèn)單元是使用動(dòng)態(tài)時(shí)間扭曲算法(Dynamic time warp matching algorithm)進(jìn)行文字比對(duì)。
全文摘要
本發(fā)明涉及一種視訊手寫文字輸入裝置及其方法,其包括有圖像攝取單元、圖像處理單元、一維特征編碼單元、儲(chǔ)存有中文、英文、數(shù)字及符號(hào)的文字?jǐn)?shù)據(jù)庫、文字辨認(rèn)單元及顯示單元。首先,圖像攝取單元攝取圖像,圖像處理單元過濾出圖像中指尖的移動(dòng)軌跡,其先做圖像差異檢測(cè)再做膚色檢測(cè),挑選出最符合目標(biāo)物的點(diǎn)的移動(dòng)軌跡,然后,一維特征編碼單元對(duì)移動(dòng)軌跡進(jìn)行筆畫抽取,將筆畫按時(shí)間序列轉(zhuǎn)換為一維串行的編碼序列,文字辨認(rèn)單元再對(duì)一維串行編碼和文字?jǐn)?shù)據(jù)庫進(jìn)行文字比對(duì),找出相似程度最高的文字,最后將辨認(rèn)單元所找出的文字輸出至顯示單元。
文檔編號(hào)G06F3/01GK101739118SQ20081017046
公開日2010年6月16日 申請(qǐng)日期2008年11月6日 優(yōu)先權(quán)日2008年11月6日
發(fā)明者劉東樺, 蔡明仁, 謝禎冏 申請(qǐng)人:大同大學(xué);大同股份有限公司