專利名稱:自由形式手寫文本中的分組線的制作方法
技術領域:
本發(fā)明涉及電子墨水的自由形式手寫組織。本發(fā)明的各個方面特別適用于將 自由形式電子墨水手寫組織成線。
背景技術:
在全世界范圍內(nèi),計算機日常用于各種目的。隨著計算機變得普遍,計算機 制造商不斷地尋求使它們更易掌握和用戶友好。 一種這樣的努力是開發(fā)自然輸入 法,諸如通過手寫提交數(shù)據(jù)。通過輸入筆或其它物體在數(shù)字轉(zhuǎn)換器上書寫以產(chǎn)生"電 子墨水",計算機用戶能摒棄與鍵盤關聯(lián)的體積大和不方便??梢栽谑褂面I盤笨拙 或不便時的任何情況下,由例如巡視的醫(yī)生、建筑工地的建筑師、遞送包裹的郵遞 員、在倉庫周圍走動的倉庫工人方便地使用手寫輸入。當使用鍵盤和鼠標不方便或 不適合時,諸如當作者正在走動、在安靜的會議中等時,使用手寫輸入尤其有用。 使用手寫輸入還是用于創(chuàng)建諸如算術公式、曲線、圖表和符號的某些類型的數(shù)據(jù)的 符號自然選擇。
雖然在許多情況下手寫輸入比鍵盤輸入更方便,但是用電子墨水書寫的文本 通常不能被大多數(shù)軟件應用程序直接操控。相反,必須對用電子墨水書寫的文本進
行分析以將其轉(zhuǎn)換成另一形式,諸如ASCII字符。該分析包括手寫識別進程,該 進程基于組成電子墨水文字的各個電子墨水筆劃之間的各種關系來識別字符。近年 來,手寫識別算法進步顯著,但當以某一角度書寫電子墨水時,其準確度下降。類 似地,當不能容易地區(qū)分各個的墨水筆劃組時,諸如當將兩個字被緊密地書寫在一 起時,許多識別算法不能正確地識別電子墨水。當將電子墨水實際上是圖表時,某 些識別算法也可能將電子墨水錯誤地識別為文字。
通過在使用手寫識別算法之前"解析"(例如通過分析其布局和/或"分類") 電子墨水,可大大改進許多識別算法的準確度。分類進程通常判定電子墨水筆劃是 圖表的一部分(即圖表墨水筆劃)還是手寫文本的一部分(即文本墨水筆劃)。用 于識別其它筆劃類型的分類算法也是可能的。布局分析進程通常將電子墨水筆劃分
組成有意義的關聯(lián),諸如文字、線和段落。
文本線是自由形式手寫中最常見的結構,并且對它們可靠檢測是更高級布局 分析和語義解析的基礎。自由形式墨水筆記是諸如文本塊、圖表、曲線和符號的復 雜結構的混合,并且不同結構的組合通常造成難以可靠地識別自由形式手寫中的文 本的離散線。例如,
圖1A表示自由形式手寫101A的潛在復雜性的示例。
圖1B僅示出將手寫文本的電子墨水筆劃分組成線的一個困難示例。手寫101B 包括項目符號103A-103D以及四組手寫文本105A-105D。如觀眾將注意到的,項 目符號103A對應于文本組105A,項目符號103B對應于文本組105B,項目符號 103C對應于文本組105C以及項目符號103D對應于文本組105D。觀眾還將意識 到組105A-105D的每一個應當被視為單個文本線。
手寫101可能會被現(xiàn)有的手寫解析技術錯誤地組織。例如,如該圖所示,項 目符號103A-103D已經(jīng)被錯誤地組織成單個垂直線。而且,文字組105A已經(jīng)被組 織成三個單獨線109A-109C。類似地,文字組105D己經(jīng)被組織成三個單獨線 111A-111C。手寫組織的該錯誤識別可使手寫識別引擎很難正確地識別例如項目符 號103A-103D。
除手寫識別外,解析函數(shù)(parsing function)可用來選擇用于編輯和其它操作 的手寫文本。因此,手寫的錯誤組織可能導致在分組中選擇和操控不正確的手寫, 這對用戶而言并不方便,甚至有害。
發(fā)明內(nèi)容
有利的是本發(fā)明的各個方向涉及用于有效和準確地將自由形式手寫組織成線 的技術。本發(fā)明的各個示例采用設計成找出將電子墨水筆劃劃分成線組并且使所得 線的"優(yōu)度"及其構形的一致性最大化的最簡單劃分的整體成本函數(shù)(global cost function)。本發(fā)明的某些實施方式基于線的線性回歸誤差以及構成該線的筆劃的水 平和垂直緊密度來度量線的"優(yōu)度"。筆劃分組的線一致性構形通過相鄰組之間的 角度差來度量。通過本發(fā)明的各個示例,整體成本函數(shù)還考慮了通過對筆劃進行分 組得到的線的數(shù)量來度量的筆劃劃分的復雜性。
對筆劃進行初始分組,并確定用于該初始分組的成本。通過本發(fā)明的某些示 例,使用基于書寫筆劃的時間順序創(chuàng)建的一維筆劃陣列來對筆劃進行初始分組。創(chuàng) 建該陣列的不同劃分,并通過動態(tài)編程,使用成本函數(shù)的簡化版本來標識用于該初 始分組的特定劃分。 然后,生成初始筆劃分組的可選分組??梢岳缤ㄟ^使用嘗試校正初始筆劃 分組中可能包含的欠分組和過分組誤差的分組技術來創(chuàng)建這些分組。然后,計算這 些可選筆劃分組的每一個的整體成本,并選擇從初始分組的整體成本產(chǎn)生最大整體 成本降低的筆劃分組。然后,重復可選分組創(chuàng)建、成本確定和評估以及分組選擇進 程,直到新的可選分組的整體成本不再降低為止。
附圖簡要描述
圖1A示出自由形式手寫的可能復雜性的示例。
圖1B示出已經(jīng)組織成筆劃組以形成線的手寫示例。
圖2和3示出根據(jù)本發(fā)明的各個實現(xiàn),可用于實現(xiàn)具有字符轉(zhuǎn)換功能的數(shù)據(jù)
輸入面板的操作環(huán)境示例。
圖4示出根據(jù)本發(fā)明的各個實現(xiàn)的手寫組織工具的一個示例。 圖5示出說明根據(jù)本發(fā)明的各個實現(xiàn)的手寫組織工具的操作的流程圖。 圖6示出根據(jù)本發(fā)明的各個實施方式,使用線性回歸技術對墨水筆劃組確定 的擬合線以及最大筆劃間距離《max (/)和《max(/)。
圖7A-7C圖形化地示出手寫文字的不同分組之間的線一致性的變體。 圖8示出六個線組的相鄰圖像的示例。
本發(fā)明的詳細描述 概述
本發(fā)明的各個示例提供用于將電子墨水的筆劃組成線的技術。這些技術將線 分組表示為最佳筆劃劃分問題。因此,假定N個筆劃的頁,這些技術在所有可能 劃分{兀|^£//}中確定筆劃集S的劃分7以優(yōu)化所得線的優(yōu)度及其構形的一致性和 簡單性。
在此將使用不同符號來描述本發(fā)明的不同方面。這些符號包括
w筆劃,^S,由樣本點/7,=(^),/ = 1,2,...,乂的數(shù)組表示。 /:假定線組,由筆劃集^K^組成。
;r :劃分成組kke//}的假定線,由線集{/: / e ;r}組成,其中,
V(w,戸,^AnS"^以及UhS,S。 實現(xiàn)環(huán)境
如本領域的普通技術人員將理解的,可以使用模擬電路實現(xiàn)本發(fā)明的各個示
例。然而,可更一般地使用執(zhí)行軟件指令的可編程計算設備來實現(xiàn)本發(fā)明的實施方 式。因此,現(xiàn)在將參照圖2和3描述本發(fā)明各個實施方式的實現(xiàn)環(huán)境的一個示例。
圖2示出可用于實現(xiàn)本發(fā)明各個實施方式的通用數(shù)字計算環(huán)境的一個示例。 具體地,圖2示出計算機200的示意圖。計算機200通常包括至少某些形式的計算 機可讀介質(zhì)。計算機可讀介質(zhì)是可由計算機200訪問的任何可用介質(zhì)。作為示例而 非限制,計算機可讀介質(zhì)可以包括計算機存儲介質(zhì)和通信介質(zhì)。計算機存儲介質(zhì)包 括用任何方法或技術實現(xiàn)的易失性和非易失性、可移動和不可移動介質(zhì),用于存儲 諸如計算機可讀指令、數(shù)據(jù)結構、程序模塊或其它數(shù)據(jù)的信息。計算機存儲介質(zhì)包 括,但不限于RAM、 ROM、 EEPROM、閃存或其它存儲技術、CD-ROM、數(shù)字多 功能盤(DVD)或其它光學存儲、盒式磁帶、磁帶、磁盤存儲或其它磁性存儲設 備、穿孔介質(zhì)、全息存儲,或能用來存儲所需信息并能由計算機200訪問的任何其 它介質(zhì)。
通信介質(zhì)通常將計算機可讀指令、數(shù)據(jù)結構、程序模塊或其它數(shù)據(jù)體現(xiàn)在諸 如載波或其它傳輸機制的調(diào)制數(shù)據(jù)信號中,并且包括任何信息傳送介質(zhì)。術語"調(diào) 制數(shù)據(jù)信號"表示以在該信號中編碼信息的方式設置或改變其一個或多個特征的信 號。作為示例而非限制,通信介質(zhì)包括諸如有線網(wǎng)絡或直接接線連接的有線介質(zhì), 以及諸如聲波、RF、紅外或其它無線介質(zhì)的無線介質(zhì)。以上任一個的組合也應當 包含在計算機可讀介質(zhì)的范圍內(nèi)。
如圖2所示,計算機200包括處理單元210、系統(tǒng)存儲器220和將包括系統(tǒng)存 儲器220的各種系統(tǒng)組件耦合到處理單元210的系統(tǒng)總線230。系統(tǒng)總線230可以 是若干類型的總線結構中任一種,包括存儲器總線或存儲器控制器、外圍總線和使 用各種總線架構中任一種的局域總線。系統(tǒng)存儲器220可以包括只讀存儲器(ROM) 240和隨機存取存儲器(RAM) 250。
包含在諸如啟動過程中幫助在計算機220內(nèi)的元件之間傳遞信息的基本例程 的基本輸入/輸出系統(tǒng)(BIOS) 260存儲在ROM 240中。計算機200也可以包括從 硬盤(未示出)讀取和向其寫入的硬盤驅(qū)動器270、從可移動磁盤290讀取或向其 寫入的磁盤驅(qū)動器280、以及從諸如CD ROM、 DVD ROM或其它光學介質(zhì)的可移 動光盤292讀取或向其寫入的光盤驅(qū)動器291。硬盤驅(qū)動器270、磁盤驅(qū)動器280 和光盤驅(qū)動器291分別通過硬盤驅(qū)動器接口 292、磁盤驅(qū)動器接口 293和光盤驅(qū)動 器接口 294連接到系統(tǒng)總線230。這些驅(qū)動器及其關聯(lián)計算機可讀介質(zhì)為個人計算 機200提供計算機可讀指令、數(shù)據(jù)結構、程序模塊和其它數(shù)據(jù)的非易失性存儲。本
領域的技術人員將會理解,可在示例性操作環(huán)境中使用能夠存儲可由計算機訪問的
數(shù)據(jù)的其它類型的計算機可讀介質(zhì),諸如盒式磁帶、閃存卡、數(shù)字視頻盤、Bernoulli 卡帶、隨機存取存儲器(RAM)、只讀存儲器(ROM)等。
多個程序模塊可存儲在硬盤驅(qū)動器270、磁盤290、光盤292、 ROM 240或 RAM 250上,包括操作系統(tǒng)295、 一個或多個應用程序296、其它程序模塊297和 程序數(shù)據(jù)298。用戶能通過諸如鍵盤201和定點設備202 (諸如鼠標)的輸入設備 將命令和信息輸入到計算機200中。其它輸入設備(未示出)可以包括麥克風、操 縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀等。這些和其它輸入設備通常通過耦合到 系統(tǒng)總線230的串行端口接口 206連接到處理單元210,但它們也可以通過諸如并 行端口、游戲端口或通用串行總線(USB)等的其它接口連接。此外,這些設備可 以經(jīng)由適當?shù)慕涌?(未示出)直接耦合到系統(tǒng)總線230。
監(jiān)視器207或其它類型的顯示設備也可以經(jīng)由諸如視頻適配器208的接口連 接到系統(tǒng)總線230。除監(jiān)視器207外,個人計算機通常包括其它外圍輸出設備(未 示出),諸如揚聲器和打印機。在一個示例中,提供筆式數(shù)字轉(zhuǎn)換器265和附屬筆 或輸入266以數(shù)字地捕獲自由手寫輸入。雖然在圖2中示出筆式數(shù)字轉(zhuǎn)換器265 和串行端口接口 206之間的連接,但是實際上,筆式數(shù)字轉(zhuǎn)換器265也可以直接耦 合到處理單元210,或者可以以諸如本領域公知的經(jīng)由并行端口或另一接口以及系 統(tǒng)230的任何適當方式耦合到處理單元210。此外,雖然在圖2中,數(shù)字轉(zhuǎn)換器265 示為與監(jiān)視器207分離,但是數(shù)字轉(zhuǎn)換器265的可用輸入?yún)^(qū)可以與監(jiān)視器207的顯 示區(qū)共同延伸。另外,數(shù)字轉(zhuǎn)換器265可以集成在監(jiān)視器207中,或可以作為覆蓋 或附加到監(jiān)視器207的單獨設備存在。
計算機200可使用到一個或多個諸如遠程計算機209的遠程計算機的邏輯連 接而在網(wǎng)絡化環(huán)境中操作。遠程計算機209可以是服務器、路由器、網(wǎng)絡PC、對 等設備或其它共用網(wǎng)絡節(jié)點,并且通常包括以上相關于計算機200描述的元件中的 多個或全部,盡管簡單起見,在圖2中僅示出存儲器存儲設備211。圖2中所示的 邏輯連接包括局域網(wǎng)(LAN) 212和廣域網(wǎng)(WAN) 213。這種網(wǎng)絡環(huán)境在使用有 線和無線連接的辦公室、企業(yè)內(nèi)部計算機網(wǎng)絡、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中十分常見。
當在LAN網(wǎng)絡環(huán)境中使用時,計算機200通過網(wǎng)絡接口或適配器214連接到 局域網(wǎng)212。當在WAN網(wǎng)絡環(huán)境中使用時,個人計算機200通常包括調(diào)制解調(diào)器 215或用于在諸如因特網(wǎng)的廣域網(wǎng)213上建立通信鏈路的其它裝置??蓛?nèi)置或外置 于計算機200的調(diào)制解調(diào)器215可以經(jīng)串行端口接口 206連接到系統(tǒng)總線230。在
網(wǎng)絡化環(huán)境中,相關于個人計算機200所示的程序模塊或其部分可以存儲在遠程存 儲器存儲設備中。
將會理解,所示的網(wǎng)絡連接是示例并且可使用用于在計算機之間建立通信鏈
路的其它技術。假定存在諸如TCP/IP、以太網(wǎng)、FTP、 HTTP、 UDP等的各種公知 協(xié)議中任何一個,并且該系統(tǒng)可在允許用戶從基于Web的服務器檢索網(wǎng)頁的用戶-服務器配置中操作。各種常規(guī)Web瀏覽器的任一種可用于顯示和操控網(wǎng)頁上的數(shù)據(jù)。
雖然圖2的環(huán)境示出本發(fā)明各個實施方式的操作環(huán)境的一個示例,但是應當 理解,也可以使用其它計算環(huán)境。例如,本發(fā)明的一個或多個示例可以使用具有比 圖2中所示以及以上描述的所有不同方面少的環(huán)境,并且這些方面可以以對普通技 術人員顯而易見的各種組合和子組合出現(xiàn),這。
圖3示出可根據(jù)本發(fā)明的各個方面使用的基于筆的個人計算機(PC) 301。圖 2的系統(tǒng)中的特征、子系統(tǒng)和功能的任一個或全部可包含在圖3的計算機301中。 基于筆的個人計算機系統(tǒng)301包括諸如液晶顯示器(LCD)屏幕的數(shù)字化平板顯示 器的大顯示表面302,其上顯示諸如窗口式的圖形用戶界面的多個圖形用戶界面 303。用戶可使用輸入筆266來在數(shù)字化顯示區(qū)上選擇、標示和書寫。適當?shù)臄?shù)字 化顯示面板的示例包括電磁筆式數(shù)字轉(zhuǎn)換器,諸如可從Mutoh Co.(現(xiàn)在稱為 FinePoint Innovations Co.)或Wacom Technology Co.購得的筆式數(shù)字轉(zhuǎn)換器。也可 以使用其它類型的筆式數(shù)字轉(zhuǎn)換器,例如光學數(shù)字轉(zhuǎn)換器和觸敏數(shù)字轉(zhuǎn)換器?;?筆的計算系統(tǒng)301對使用輸入筆266作出的表示進行解釋,以便于操作數(shù)據(jù)、輸入 文本和執(zhí)行諸如創(chuàng)建、編輯和修改電子數(shù)據(jù)表格、文字處理程序等的常規(guī)計算機應 用任務。
輸入筆266可以裝備有按鈕或其它部件來擴充其能力。在一個示例中,輸入 筆266可實現(xiàn)為其中一端構成書寫部分的"鉛筆"或"筆"。然后,輸入筆266的 另一端構成"擦除器"端,當在顯示器上移動時,它指示將顯示器上的電子墨水中 將被擦除的部分。也可使用其它類型的輸入設備,諸如鼠標、跟蹤球、鍵盤等等。 另夕卜,如果該顯示器是觸敏或近敏(proximity-sensitive)顯示器,則用戶可使用自 己的手指來選擇或指示所顯示的圖像的部分。因此,如本文所用的,術語"用戶輸 入設備"旨在具有寬泛定義并涵蓋關公知輸入設備的許多變體。
除與全性能的基于筆的計算系統(tǒng)或"平板PC"(例如可轉(zhuǎn)換膝上型計算機或 "筆錄(slate)"型平板PC) —起使用外,本發(fā)明的諸方面可與其它類型的基于筆
的計算系統(tǒng)和/或接受作為電子墨水的數(shù)據(jù)和/或接受筆或輸入筆輸入的其它設備 結合使用,這些設備諸如手持或掌上計算系統(tǒng);個人數(shù)字助理;袖珍型個人計算 機;移動和蜂窩式電話、尋呼機和其它通信設備;手表;器械;以及包括向用戶呈 現(xiàn)印刷或圖形信息和/或允許使用電子筆或輸入筆進行輸入的監(jiān)視器或其它顯示設 備和/或數(shù)字轉(zhuǎn)換器、或者能處理由另一設備收集的電子墨水的任何其它設備或系 統(tǒng)(例如能處理由平板PC收集的電子墨水的常規(guī)臺式計算機)。 用于手寫識別的工具
圖4示出可以根據(jù)本發(fā)明的各個示例實現(xiàn)的手寫組織工具401的一個示例。 該系統(tǒng)可以通過使用例如在圖1和2中所示的計算機100來實現(xiàn)。如圖4所示,工 具401具有筆劃分組生成模塊403和分組成本確定模塊405。如下文更詳細描述的, 筆劃分組生成模塊403接收電子墨水407。墨水筆劃之間的關系將通常通過使用諸 如樹形結構的數(shù)據(jù)結構來表示。該數(shù)據(jù)結構可以例如提供關于各個筆劃的時間和幾 何信息。而且,分組成線的筆劃可以例如與數(shù)據(jù)結構中的單個節(jié)點關聯(lián),或者可以 具有一些其它關聯(lián)以指示筆劃之間的關系。筆劃分組生成模塊403將墨水407組織 成初始筆劃組,其中每一組為一個手寫文本線。然后,分組生成模塊403生成作為 初始筆劃組的變體的一個或多個可選筆劃分組。
然后,分組成本確定模塊405確定由筆劃分組生成模塊403創(chuàng)建的各個筆劃 分組的成本。分組成本確定模塊405可以通過使用例如整體成本函數(shù)來計算各個筆 劃分組的成本,如下文詳細描述。分組成本確定模塊405選擇提供最大的成本降低 的可選筆劃分組(如果存在),并將所選筆劃分組提供給筆劃分組生成模塊403。 然后,筆劃分組生成模塊403從所選筆劃分組生成新的可選筆劃分組。然后,分組 成本確定模塊405確定各個新的可選分組的成本,并選擇提供最大的成本降低的新 的可選筆劃分組(如果存在)。然后,分組成本確定模塊405將新的所選筆劃分組 提供給筆劃分組生成模塊403。重復這一進程直到最新的可選筆劃分組集并不降低 當前所選筆劃分組的成本。至此,將當前所選筆劃分組作為筆劃分組選擇409輸出。
成本確定
現(xiàn)在參照圖5,該附圖示出根據(jù)本發(fā)明的各個實施方式的可使用的分組成本確 定模塊405的一種實現(xiàn)。如圖所示,分組成本確定模塊405包括線回歸誤差確定模 塊50K最大筆劃間距離確定模塊503、線構形一致性確定模塊505和成本確定模 塊507。如下文更詳細描述的,成本確定模塊使用成本函數(shù)來確定與筆劃到線的特 定分組關聯(lián)的成本。
本發(fā)明的各個實施方式可以使用任何所需成本函數(shù),但所示的實施方式采用 結合三個"似然(likelihood)"項的成本函數(shù)。SP,這些項包括反映組的安排是筆 劃到線的準確劃分的似然特征之前的筆劃分組的特征。成本函數(shù)還包括兩個"先驗
(prior)"項,反映關于自由形式手寫文本中的線劃分的先驗知識。更具體地,成 本確定模塊405的所示示例將各個筆劃組的線性回歸誤差以及最大垂直和水平筆 劃間差用作"似然"項。然后,它將組間的線構形一致性和分組的復雜性用作"先 驗"項。
對各個筆劃組,線回歸誤差確定模塊501通過度量組成該組中的筆劃的點從 擬合線的偏差來確定線性回歸誤差e^。例如在所示的實施方式中,線回歸誤差確 定模塊501使用總體最小二乘方技術來確定線的優(yōu)度。通過該總體最小二乘方線性 回歸技術,給定線中的筆劃點集/,線性總體最小二乘方線性回歸技術找到是乘方
擬合誤差之和最小化的的參數(shù)(",A;):
<formula>formula see original document page 12</formula>
其中,e^度量該點從擬合線的偏差并且反映筆劃集的線性。線段被線性回歸技術 和點邊界定義為/。
例如,圖6示出墨水筆劃組601。線回歸誤差確定模塊501通過使用線性回歸 技術來生成最符合組中的筆劃的整體線性方向的擬合線/ 603。線回歸誤差確定模 塊501還確定反映筆劃集的線性的線性回歸誤差e^。當然,本發(fā)明的各個實施方 式還可以使用任何其它所需的線性回歸技術,諸如最小平方回歸技術。如本領域的 普通技術人員將會理解的,各個可選回歸技術在處理離群(outlier)筆劃時更魯棒。 這些技術在本領域是公知的,因此不再贅述。
最大筆劃間距離確定模塊503通過使用擬合線603來確定最大筆劃間距離 《隨(0和《隨(0。如圖6所示,最大筆劃間距離《._(/)605是投影到擬合線601 上的最大筆劃間距離。則最大筆劃間距離dvmax(/)607是與擬合線601正交的方向上 的最大筆劃間距離。這些最大筆劃間距離反映筆劃集的水平和垂直緊密度。
對各個筆劃組,線構形一致性確定模塊505確定反映該筆劃分組的分段平滑 約束的該組的構形一致性e(/)。更具體地,各組的構形一致性^(/)可作為組和各個 鄰組之間的方位角差的相鄰長度加權和,艮P:
其中,a,是由擬合參數(shù)"A)確定的線段/的方位角。|/|是該線段的長度,通常表示線/的相對置信度。因此,可使用權重來使線組與更可靠鄰組更一致。在上述等 式中,p(r,a)是調(diào)節(jié)殘差r的影響的函數(shù)。在所示的示例中,p<formula>formula see original document page 13</formula>
則可將組兀的特定劃分或安排的整體一致性確定為所有線一致性之和.-
對本發(fā)明的其它實施方式,諸如Geman-McClure函數(shù)rho(r,sigma)=r-squared/ (r-squared+sigma-squared)的更魯棒的函數(shù)可適于調(diào)節(jié)角度差以減少過平滑,其 中相鄰線組具有非常不同的方位(例如,可能出現(xiàn)在主文本和符號文本之間)。
圖7A-7C圖形化地示出手寫文本的不同分組之間的線一致性的變體。隨著線 構形一致性下降,線一致性從圖7A所示的線分組下降到圖7C中所示的線分組。
為度量線構形的一致性,線構形一致性確定模塊505創(chuàng)建鄰近圖。在該圖中, 每一頂點對應于形成線的一筆劃組。然后,該圖的邊緣對應于線組之間的相鄰關系。 通過本發(fā)明的各個示例,如果一對擬合線組的擬合線段601之間的最小距離低于閾 值且沒有其它物體(線或圖)位于它們之間,則將它們視為鄰組。本發(fā)明的其它實 施方式在筆劃組是直接近鄰(即其間沒有其它物體)、或在確定的歐幾里得 (Euclidian)距離內(nèi)、或兩個或多個不同標準的組合時將其確定為鄰組。
圖8示出六個線組的相鄰圖801的示例。各個線組由灰色條表示,以及各個 邊緣由黑實線表示。如該圖所示,不考慮線組1和線組2之間的邊緣(虛線),因 為在它們之間存在劃線803 (即曲線)。
通過本發(fā)明的各個示例,組;r的特定劃分或安排的整體一致性能另外表示為
<formula>formula see original document page 13</formula>
其中,e表示相鄰圖G中的邊緣,以及/^^表示由e連接的兩個節(jié)點。代替對該圖 中所有節(jié)點求和,該表達式對所有邊緣求和。
在所示的實施方式中,成本確定模塊507通過使用考慮了分組的復雜性的線 性回歸誤差。. 、最大筆劃間距離《_(/)和《_(/)的加權和來計算與將筆劃劃分成 組關聯(lián)的成本。手寫墨水的復雜性7i是墨水所劃分成的線組數(shù)量。因此,成本確定 模塊507的所示示例確定筆劃分組的成本如下
<formula>formula see original document page 13</formula>
其中,,是控制各項的相對重要性的公式參數(shù)。通過本發(fā)明的各個示例, w) = l,W2 = l,w3 = 10000以及w4 = 100 ,但是這些值可以根據(jù)工具的訓練/調(diào)整而改變。 如下文更詳細描述的,最佳筆劃分組是使使用該函數(shù)獲得的成本最小化的分組。 生成筆劃分組
如上所述,筆劃分組生成模塊403生成筆劃的初始或基準分組。通過本發(fā)明
的某些實施方式,通過將時間上排序的筆劃的一維數(shù)組劃分成可選的組安排以形成 線來獲得該初始筆劃分組。然后,使用成本函數(shù)來分析各個可選分組安排。筆劃分
組生成模塊403可以例如使用采用了由上文詳所述的成本確定模塊507使用的整體 成本函數(shù)中的項的子集的成本函數(shù)。例如,筆劃分組生成模塊403可以使用函數(shù)
<formula>formula see original document page 14</formula>
其中,《_(/)是投影在擬合線601上的最大筆劃間距離。這種簡化通過搜索空間 的顯著減小來實現(xiàn),,并且它也可以賦予成本函數(shù)遞歸結構使動態(tài)編程可以應用。 作為實用加速,可基于筆劃鄰近和大小相似性將筆劃序列劃分成區(qū),并且僅在各個 區(qū)內(nèi)進行劃分。
一旦已經(jīng)確定初始筆劃分組,則筆劃分組生成模塊403基于初始筆劃分組使 用例如梯度下降法來生成可選筆劃分組。例如,本發(fā)明的各個實現(xiàn)可以生成兩類可 選分組。第一類可選分組通過合并作為如上所述的相鄰圖中的的鄰組的線組對來獲 得。該類可選分組趨于校正通常作為時間分組結果的有欠分組誤差。欠分組誤差可 以由例如較晚的"i"點和"t"交叉而導致。筆劃分組生成模塊403為初始筆劃分 組中各個相鄰對生成合并假設可選筆劃分組。
第二類可選分組通過嘗試校正初始筆劃分組中的任何高構形能量誤差而形
成。高構形能量誤差由屬于不同線的時間相鄰筆劃導致。這些誤差通常由例如填充 列表內(nèi)容之前或之后所寫的項目符號而導致。因此,其中組之一 (例如組"X") 具有超出閾值(例如30°)的與其鄰組的最大角度差的任何相鄰線組集是初始候選。 即,筆劃分組生成模塊403識別彼此近似平行但與組X具有相當?shù)慕嵌炔畹慕MX 的那些鄰組。然后,筆劃分組生成模塊403將這些鄰組用作分格以分離組X中的 筆劃。
本發(fā)明的某些示例可以選擇性地或附加地創(chuàng)建第三類可選分組以分離第三類 可選分組來分離y離群數(shù)據(jù)。通過這些可選分組,在形成線段/的筆劃組中,通過 非零《,值,以最大少間隔分離筆劃。如果較小筆劃集/。相比其當前線組/更接近 鄰近組《,則將較小筆劃集/。與相鄰組A7合并。 確定成本變化
如上所述,各個可選筆劃分組通過重新分組局部近鄰的筆劃來將現(xiàn)有的筆劃 分組;r。變成可選筆劃分組;r,。如圖9和IO所示,筆劃分組;r。 (901 )與筆劃分組;r,
(iooi)的不同之處僅在于著成暗灰色的線組,這些顯著可分別表示為^l和^h
{/°}和{/'}具有可表示為力,}的同一鄰組集,并且在圖9和IO中用亮灰色表示。 的分組保持完整,但其相鄰關系己被改變。顯然,W和A^是其構形受假設影響的 僅有線。因此,從;r。到;r,的整體成本可被局部地評價。
給定以迭代/的所選筆劃分組^ (可以是初始筆劃分組或后續(xù)所選筆劃分組), 筆劃分組生成模塊403生成可選筆劃分組隊列{^,7' = 1,2,...}。然后,分組成本確定 模塊405標識并接受提供最大整體成本降低的筆劃分組;r:。然后,筆劃分組生成 模塊403相應地創(chuàng)建新的可選筆劃分組集,且迭代該進程直到該隊列為空。
更具體地,給定迭代/的所選筆劃分組^,筆劃分組生成模塊403生成備用筆 劃分組安排的隊列^,7' = 1,2,...}。然后,分組成本確定模塊405標識并接受提供最 大整體成本降低的筆劃分組;r:。如果該筆劃分組;r:相對于《的整體成本并不降低 其整體成本,則該進程停止并將安排;r;選擇為線劃分。如果不是,接受《作為下 一迭代。通過將》1與所有受影響的邊緣一起從圖移除來更新該圖。新的可選安排 的新線frl與適當邊緣一起在該圖中被創(chuàng)建。
然后,更新可選安排的隊列。這包括移除沖突可選安排。如果/)n^-cD,則 筆劃到組;r;的安排與W沖突。然后,更新受影響的可用安排。如果其
W^^n^^0,則安排《受^影響。然后,計算構形成本,并生成新的可選安排。 這成為下一迭代,其中/ — / + 1。
一旦確定了具有最低成本函數(shù)的線組的安排,則更新反映電子墨水筆劃之間 的關系的數(shù)據(jù)結構以反映該線分組。
增量筆劃組織
雖然上述本發(fā)明的實施方式涉及電子墨水的"批量"處理,但是應該理解, 這些局部梯形下降優(yōu)化技術還為電子墨水的增量解析提供良好的解決方案。該用途 對實時墨水分析尤其有用。在線墨水數(shù)據(jù)通常是增量產(chǎn)生的。每次調(diào)用墨水解析器 時,輸入數(shù)據(jù)可以是解析結果加上若干新筆劃的頁。期望具有某種增量機制來將新 筆劃"處理"到現(xiàn)有的頁結構中。上述所述的類張馳的優(yōu)化算法可自然地執(zhí)行該任 務。通過本發(fā)明的某些實現(xiàn),該增量操作可以比批量操作更有效地獲得一致結果。
結論
雖然針對包括執(zhí)行本發(fā)明的當前較佳模式的具體示例描述了本發(fā)明,但是本 領域的技術人員應該理解,還存在落在如所附權利要求中所闡述的本發(fā)明的精神和 范圍內(nèi)的上述系統(tǒng)和技術的許多變型和改變。
權利要求
1.一種將電子墨水筆劃劃分成線的方法,包括從數(shù)據(jù)結構獲得多個電子墨水筆劃;將所述多個電子墨水筆劃劃分成初始組安排;將所述多個電子墨水筆劃劃分成至少一個可選組安排;對所述安排的每一個,使用該安排的特征來確定該安排的成本值;標識具有最低成本值的組安排;以及更新所述數(shù)據(jù)結構以指示所標識的安排中的每一筆劃組形成一個線。
2. 如權利要求1所述的方法,還包括通過使用梯度下降局部優(yōu)化技術來局部修改所述初始組安排,來將所述多個 電子墨水筆劃劃分成所述至少一個可選組安排。
3. 如權利要求2所述的方法,還包括通過局部修改所述初始組安排以合并相鄰的組對,來將所述多個電子墨水筆 劃劃分成所述至少一個可選組安排。
4. 如權利要求2所述的方法,還包括通過局部修改所述初始組安排以校正潛在的項目符號線誤差,來將所述多個 電子墨水筆劃劃分成所述至少一個可選組安排。
5. 如權利要求2所述的方法,還包括通過局部修改所述初始組安排以分離垂直離群數(shù)據(jù),來將所述多個電子墨水 筆劃劃分成所述至少一個可選組安排。
6. 如權利要求2所述的方法,還包括通過局部修改所述初始組安排以執(zhí)行以下操作中至少一個,來將所述多個電 子墨水筆劃劃分成所述至少一個可選組安排,所述操作包括 合并相鄰的組對,校正潛在的項目符號線誤差,以及 分離垂直離群數(shù)據(jù)。
7. 如權利要求2所述的方法,還包括通過以下操作,將所述多個電子墨水筆劃劃分成所述至少一個可選組安排 局部修改所述初始組安排以獲得第一組至少一個可選組安排; 確定所述第一組中可選安排的每一個的成本值;如果所述第一組中的可選安排之一的最低成本值小于所述初始安排的成 本值,則:局部修改所述第一組中具有最低成本值的可選安排以獲得第二組至 少一個可選組安排,以及確定所述第二組中可選安排的每一個的成本值;以及 如果所述第一組中的可選安排之一的最低成本值不小于所述初始安排的 成本值,則將所述初始組安排標識為具有最低成本值的組安排。
8. 如權利要求7所述的方法,還包括通過以下操作,將所述多個電子墨水筆劃劃分成所述至少一個可選組安排如果所述第二組中的可選安排之一的最低成本值小于所述第一組中具有最低成本值的可選安排的成本值,則局部地修改所述第二組中具有最低成本值的可選安排以獲得第三組 至少一個可選組安排,以及確定所述第三組中可選安排的每一個的成本值;以及 如果所述第二組中可選安排之一的最低成本值不小于所述初始安排的成本 值,則將所述第一組中具有最低成本值的組安排標識為具有最低成本值的組安排。
9. 如權利要求l所述的方法,其特征在于,所述組安排的特征包括反映和自由形式手寫文本中的線劃分有關的先驗知識 的先驗特征。
10. 如權利要求9所述的方法,其特征在于,所述特征包括所述安排中各個組的構形一致性。
11. 如權利要求9所述的方法,其特征在于,所述特征包括所述組安排的復雜性。
12. 如權利要求l所述的方法,其特征在于所述組安排的特征包括反映組安排是從筆劃到線的精確劃分的似然性的似然 性特征。
13. 如權利要求12所述的方法,其特征在于,所述特征包括所述安排中每一組的線優(yōu)度值。
14. 如權利要求13所述的方法,其特征在于,所述安排中每一組的所述線優(yōu) 度值是對組成該組的筆劃中的筆劃點距擬合線的偏差進行度量的線性回歸誤差值。
15. 如權利要求12所述的方法,其特征在于,所述特征包括每一組的最大水 平筆劃間距離,其中所述最大水平筆劃間距離是沿該組中筆劃的擬合線的方向上該 組中的兩個筆劃之間的最大距離。
16. 如權利要求12所述的方法,其特征在于,所述特征包括每一組的最大垂 直筆劃間距離,其中所述最大垂直筆劃間距離是沿與該組中筆劃的擬合線正交的方 向上該組中的兩個筆劃之間的最大距離。
17. —種用于將自由形式手寫劃分成線的裝置,包括筆劃分組生成模塊,用于將多個電子墨水筆劃劃分成初始組安排; 將所述多個電子墨水筆劃劃分成至少一個可選組安排;以及 分組成本確定模塊,對由所述筆劃分組生成模塊劃分的所述安排的每一個, 使用所述安排的特征來確定所述安排的成本值;以及 標識具有最低成本值的組安排。
18. 如權利要求17所述的方法,其特征在于,所述分組成本確定模塊包括 線回歸誤差確定模塊,確定度量組成一安排中各個組的筆劃中的筆劃點距擬合線的偏差的線性回歸誤差值;最大筆劃間距離確定模塊,確定每一組的最大水平筆劃間距離,其中所述最 大水平筆劃間距離是沿該組中筆劃的擬合線的方向上該組中的兩個筆劃之間的最 大距離;以及線構形一致性確定模塊,確定所述安排中每一組的構形一致性。
全文摘要
用于有效和準確地將自由形式手寫組織成線的技術。采用整體成本函數(shù)來找到將電子墨水筆劃劃分成線組并使所得線的“優(yōu)度”及其構形的一致性最大化的最簡單劃分。線的“優(yōu)度”可以基于其線性回歸誤差以及組成該線的筆劃的水平和垂直緊密度。筆劃分組的線一致性構形通過鄰組之間的角度差來度量。整體成本函數(shù)還考慮了由筆劃所分組成的線數(shù)量度量的筆劃劃分復雜性。
文檔編號G06K9/00GK101208709SQ200680018483
公開日2008年6月25日 申請日期2006年5月30日 優(yōu)先權日2005年5月30日
發(fā)明者C·李, H·蘇塔拓, M·葉, M·施利曼, S·拉互帕斯 申請人:微軟公司