專利名稱:用于手寫字符識(shí)別的基于書寫變體的書寫者自適應(yīng)的制作方法
用于手寫字符識(shí)別的基于書寫變體的書寫者自適應(yīng)扭旦 冃足計(jì)算機(jī)硬件、軟件和聯(lián)網(wǎng)的技術(shù)進(jìn)步已經(jīng)產(chǎn)生了能夠從基本上世界上任何地方彼此通信的高效的、成本有效的計(jì)算系統(tǒng)(例如,臺(tái)式計(jì)算機(jī)、膝上型計(jì) 算機(jī)、手持式計(jì)算機(jī)、蜂窩電話、服務(wù)器……)。這些系統(tǒng)持續(xù)進(jìn)展成更可靠 的、穩(wěn)健的且用戶友好的系統(tǒng)。結(jié)果,越來越多的企業(yè)和消費(fèi)者正在購(gòu)買計(jì)算 機(jī)并將其用作對(duì)傳統(tǒng)的紙件和口頭媒體的可行電子替換來交換信息。許多企業(yè) 和消費(fèi)者正在充分利用計(jì)算技術(shù)以提高效率并降低成本。例如,消費(fèi)者可掃描 并儲(chǔ)存文檔、創(chuàng)建帶有文本覆蓋的數(shù)字圖像相冊(cè)、搜索并檢索特定信息(例如, 具有各種類型的數(shù)據(jù)的網(wǎng)頁)、上傳來自數(shù)碼相機(jī)的圖片、查看財(cái)務(wù)報(bào)表、發(fā) 送和/或接收數(shù)字傳真、交換通訊(例如,電子郵件、聊天室、IP語音……) 等等。結(jié)果,這些計(jì)算系統(tǒng)和/或設(shè)備結(jié)合了各種用于輸入信息的技術(shù)和/或方法。 計(jì)算系統(tǒng)和/或設(shè)備利用諸如但不限于鍵盤、鍵區(qū)、觸摸墊、觸屏、揚(yáng)聲器、指 示筆(例如,掃描筆)、書寫墊……來便于輸入信息。然而,利用用戶手寫的 輸入設(shè)備會(huì)帶來每一用戶不能相似地利用數(shù)據(jù)輸入技術(shù)(例如,書寫)的用戶 個(gè)性化缺陷。用戶的手寫可以像用戶那樣獨(dú)特,其中這一獨(dú)特性可用于識(shí)別目的。在各 種計(jì)算系統(tǒng)和/或設(shè)備中實(shí)現(xiàn)的商業(yè)手寫識(shí)別系統(tǒng)試圖通過利用包括來自多個(gè) 完全不同的用戶的數(shù)據(jù)在內(nèi)的大型訓(xùn)練數(shù)據(jù)集來減少書寫者變化的影響。即使在有來自多達(dá)1500個(gè)用戶的手寫樣本可用的情況下,在手寫中也有足夠的變 化來唯一地識(shí)別每一用戶。從機(jī)器學(xué)習(xí)的觀點(diǎn)來看,這種變化使得手寫識(shí)別對(duì)于計(jì)算機(jī)而言是困難 的。盡管用戶內(nèi)字符(例如,來自同一用戶)具有較小的變化,但是用戶間字 符(例如,來自不同用戶)具有很大的變化,并且造成了識(shí)別錯(cuò)誤。結(jié)果,從 得自一組用戶(即使有數(shù)百個(gè)用戶)的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)并不必然會(huì)產(chǎn)生很好地推廣到未看到過的手寫風(fēng)格的模型。使用通用(例如,書寫者無關(guān))識(shí)別器的 計(jì)算機(jī)識(shí)別體驗(yàn)對(duì)于具有罕見的書寫風(fēng)格的用戶而言尤其拙劣。對(duì)于該不良性能的一種解釋是經(jīng)訓(xùn)練的通用識(shí)別器是不完善的,因?yàn)樗磳W(xué)習(xí)去識(shí)別未看到 過的用戶的書寫風(fēng)格。改善識(shí)別器對(duì)于未看見過的書寫風(fēng)格的性能的一種實(shí)用方法是書寫者自 適應(yīng)(或個(gè)性化)。個(gè)性化使得識(shí)別器能夠通過收集來自用戶的附加數(shù)據(jù)樣本 并從中進(jìn)行學(xué)習(xí)來自適應(yīng)到特定用戶的手寫。很清楚,這是對(duì)用戶所需的訓(xùn)練 樣本的數(shù)量、所實(shí)現(xiàn)的差錯(cuò)率的降低、以及對(duì)用戶而言察覺到的不便之間的折 衷。訓(xùn)練數(shù)據(jù)的量越大,個(gè)性化識(shí)別器也就越好,但是對(duì)基于樣本輸入和/或利 用這些樣本的訓(xùn)練的用戶也就越不便。概述以下提出了本發(fā)明的簡(jiǎn)化概述以便提供對(duì)此處所描述的某些方面的基本 理解。本概述并不是所要求保護(hù)的主題的廣泛綜述。它并不旨在確定所要求保 護(hù)的主題的關(guān)鍵或重要要素,也不旨在勾畫本發(fā)明的范圍。其唯一的目的是以 簡(jiǎn)化的形式提出所要求保護(hù)的本發(fā)明的某些概念,作為以后提出的更詳細(xì)描述 的序言。本發(fā)明涉及利用書寫變體(例如,字符形狀和/或風(fēng)格)訓(xùn)練的分類器來 幫助識(shí)別與手寫相關(guān)聯(lián)的字符的系統(tǒng)和/或方法。一個(gè)性化組件可經(jīng)由一接口來 接收與手寫字符相關(guān)的數(shù)據(jù),其中該個(gè)性化組件可通過采用用書寫變體數(shù)據(jù)訓(xùn) 練的分類器來提供對(duì)手寫字符的優(yōu)化的識(shí)別。該書寫變體數(shù)據(jù)可以是,例如, 與一手寫風(fēng)格相關(guān)的自動(dòng)生成和/或手動(dòng)生成的數(shù)據(jù)。該個(gè)性化組件可提供書寫 者自適應(yīng),其中書寫者自適應(yīng)可以是將通用(例如,書寫者無關(guān))手寫識(shí)別器 轉(zhuǎn)換成具有對(duì)任何特定用戶的改進(jìn)的準(zhǔn)確度的個(gè)性化(例如,書寫者相關(guān))識(shí) 別器的過程。此外,該個(gè)性化組件通過采用用書寫變體數(shù)據(jù)訓(xùn)練的第一分類器以及用非 書寫變體數(shù)據(jù)訓(xùn)練的第二訓(xùn)練器來提供優(yōu)化的手寫識(shí)別,其中該第一分類器和 該第二分類器的輸出可被組合。輸出組合可以由例如線性組合器、組合分類器、支持矢量機(jī)、線性分類器、 一系列規(guī)則等來實(shí)現(xiàn)。輸出組合提供了對(duì)手寫的增強(qiáng)的識(shí)別和/或分析。此外,輸出組合的采用可通過利用用戶手寫樣本來優(yōu)化。 根據(jù)所要求保護(hù)的主題的一方面,該個(gè)性化組件還可利用生成書寫變體數(shù) 據(jù)的書寫變體組件來訓(xùn)練至少一個(gè)分類器以提供經(jīng)優(yōu)化的手寫識(shí)別。該書寫變 體組件可以自動(dòng)、手動(dòng)或以其任意組合來生成書寫變體數(shù)據(jù)。例如,可以實(shí)現(xiàn) 群集來自動(dòng)從手寫字符中標(biāo)識(shí)書寫變體(例如,字符形狀和/或風(fēng)格)和/或書 寫變體數(shù)據(jù)。在另一示例中,書寫變體數(shù)據(jù)可利用手寫專家來手動(dòng)提供,以提 供與手寫相關(guān)聯(lián)的類型和/或風(fēng)格。此外,該書寫變體組件可以使用例如使用動(dòng)態(tài)時(shí)間扭曲(DRW)作為距離度量的分層附聚群集方法來標(biāo)識(shí)字符書寫風(fēng)格(例如,書寫變體和/或書寫變體數(shù)據(jù))。根據(jù)所要求保護(hù)的主題的另一方面,該個(gè)性化組件還可利用一分類器組件 來利用根據(jù)本發(fā)明的至少一個(gè)分類器。該分類器組件可以利用可用書寫變體數(shù) 據(jù)訓(xùn)練的第一分類器。例如,該第一分類器可以是神經(jīng)網(wǎng)絡(luò)。該分類器組件還 可利用可用非書寫變體數(shù)據(jù)訓(xùn)練的第二分類器。通過同時(shí)采用第一和第二分類 器兩者,可利用一組合組件來將完全不同的輸出相組合。該組合組件可利用諸 如線性組合器、組合分類器、線性分類器、支持矢量機(jī)等各種組合技術(shù)。在所 要求保護(hù)的主題的其它方面,提供了幫助分析與一特定用戶相關(guān)聯(lián)的手寫字符 的方法。以下描述和附圖詳細(xì)闡明了所要求保護(hù)的主題的某些說明性方面。然而, 這些方面僅指示了可采用本發(fā)明的原理的各種方式中的幾種,并且所要求保護(hù) 的主題旨在包括所有這些方面及其等效方面。當(dāng)結(jié)合附圖考慮時(shí),從以下本發(fā) 明的詳細(xì)描述中,所要求保護(hù)的主題的其它優(yōu)點(diǎn)和新穎特征將變得顯而易見。附圖簡(jiǎn)述
圖1示出了利用經(jīng)書寫變體訓(xùn)練的分類器來幫助識(shí)別與手寫相關(guān)聯(lián)的字 符的示例性系統(tǒng)的框圖。圖2示出了幫助利用書寫變體數(shù)據(jù)來采用手寫字符識(shí)別的示例性系統(tǒng)的 框圖。圖3示出了幫助可視化與對(duì)一字符的群集相關(guān)聯(lián)的結(jié)果的二叉樹的框圖。 圖4示出了可根據(jù)所要求保護(hù)的主題來利用的與各種手寫風(fēng)格相關(guān)聯(lián)的表的框圖。圖5示出了幫助利用書寫變體分類器和基礎(chǔ)分類器的示例性系統(tǒng)的框圖。圖6示出了根據(jù)本發(fā)明的幫助采用個(gè)性化器支持矢量機(jī)的示例性系統(tǒng)的框圖。圖7示出了幫助采用線性組合器來實(shí)現(xiàn)未個(gè)性化識(shí)別器的示例性系統(tǒng)的 框圖。圖8示出了幫助采用個(gè)性化器支持矢量機(jī)來識(shí)別手寫字符的示例性系統(tǒng) 的框圖。圖9示出了根據(jù)本發(fā)明的圖表結(jié)果。圖10示出了幫助利用經(jīng)書寫變體訓(xùn)練的分類器來識(shí)別與手寫相關(guān)聯(lián)的字 符的示例性系統(tǒng)的框圖。圖11示出了用于用書寫變體數(shù)據(jù)來訓(xùn)練至少一個(gè)分類器以提供手寫識(shí)別 的示例性方法。圖12示出了幫助提供經(jīng)優(yōu)化的手寫識(shí)別的示例性方法。圖13示出了其中可采用所要求保護(hù)的主題的新穎方面的一示例性聯(lián)網(wǎng)環(huán)境°圖14示出了可根據(jù)所要求保護(hù)的主題來采用的示例性操作環(huán)境。 詳細(xì)描述參考附圖來描述所要求保護(hù)的主題,在全部附圖中,相同的參考標(biāo)號(hào)用于 表示相同的元素。在以下描述中,出于解釋的目的,陳述了眾多具體細(xì)節(jié)以提 供對(duì)本發(fā)明的全面理解。然而,很明顯,所要求保護(hù)的主題可以在沒有這些具 體細(xì)節(jié)的情況下實(shí)施。在其它情況中,以框圖形式示出了公知的結(jié)構(gòu)和設(shè)備以 便于描述本發(fā)明。如此處所使用的,術(shù)語"組件"、"系統(tǒng)"、"接口"等指的是計(jì)算機(jī)相 關(guān)的實(shí)體,其或者是硬件、軟件(例如,在執(zhí)行中)和/或固件。例如,組件可 以是運(yùn)行在處理器上的進(jìn)程、處理器、對(duì)象、可執(zhí)行碼、程序和/或計(jì)算機(jī)。作 為說明,運(yùn)行在服務(wù)器上的應(yīng)用程序和該服務(wù)器都可以是組件。 一個(gè)或多個(gè)組 件可駐留在進(jìn)程中,并且組件可位于一臺(tái)計(jì)算機(jī)上和/或分布在兩臺(tái)或多臺(tái)計(jì)算機(jī)之間。此外,所要求保護(hù)的主題可被實(shí)現(xiàn)為方法、裝置或制品,它們使用標(biāo)準(zhǔn)編 程和/或工程技術(shù)來產(chǎn)生控制計(jì)算機(jī)實(shí)現(xiàn)所公開的主題的軟件、固件、硬件或其 任意組合。如此處所使用的術(shù)語"制品"旨在包含可從任何計(jì)算機(jī)可讀設(shè)備、 載體或介質(zhì)訪問的計(jì)算機(jī)程序。例如,計(jì)算機(jī)可讀介質(zhì)可包括但不限于,磁存 儲(chǔ)設(shè)備(例如,硬盤、軟盤、磁帶……)、光盤(例如,緊致盤(CD)、數(shù)字多功能盤(DVD)……)、智能卡以及閃存設(shè)備(例如,卡、棒、密鑰驅(qū)動(dòng) 器……)。另外,應(yīng)當(dāng)理解,可采用載波來承載諸如在發(fā)送和接收電子郵件或 訪問如因特網(wǎng)或局域網(wǎng)(LAN)等網(wǎng)絡(luò)時(shí)使用的計(jì)算機(jī)可讀電子數(shù)據(jù)。當(dāng)然, 本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,可對(duì)該配置作出許多修改而不背離所要求保護(hù)的 主題的范圍或精神。此外,此處使用詞語"示例性"來意指用作示例、實(shí)例或 說明。此處被描述為"示例性"的任何方面或設(shè)計(jì)并不一定要被解釋為相對(duì)于 其它方面或設(shè)計(jì)是優(yōu)選或有利的?,F(xiàn)在轉(zhuǎn)向附圖,圖1示出了幫助利用經(jīng)書寫變體訓(xùn)練的分類器來識(shí)別與手 寫相關(guān)聯(lián)的字符的系統(tǒng)100。系統(tǒng)100可包括能用書寫變體數(shù)據(jù)來訓(xùn)練分類器 (未示出)的個(gè)性化組件102,其中這一訓(xùn)練有助于識(shí)別手寫字符。書寫變體 數(shù)據(jù)可以是,例如,與手寫風(fēng)格相關(guān)的自動(dòng)生成和/或手動(dòng)生成的數(shù)據(jù)。個(gè)性化 組件102可以經(jīng)由接口組件104 (此處稱為"接口 104")接收與手寫樣本相 關(guān)的手寫字符和/或數(shù)據(jù),并至少部分地基于在訓(xùn)練分類器時(shí)對(duì)書寫變體數(shù)據(jù)的采用來提供經(jīng)優(yōu)化的手寫識(shí)別。例如,接收到的數(shù)據(jù)可以是來自用戶的手寫的 任何字符和/或輸入。例如,各種計(jì)算設(shè)備和/或系統(tǒng)利用手寫輸入,諸如但不 限于圖形輸入板、便攜式數(shù)據(jù)助理(PDA)、移動(dòng)通信設(shè)備、指示筆、掃描筆、 具有觸屏能力的交互式顯示設(shè)備等等。個(gè)性化組件102可提供書寫者自適應(yīng),其中書寫者自適應(yīng)可以是將通用 (例如,書寫者無關(guān))手寫識(shí)別器轉(zhuǎn)換成具有對(duì)任何特定用戶的改進(jìn)的準(zhǔn)確度 的個(gè)性化(例如,書寫者相關(guān))識(shí)別器的過程。個(gè)性化組件102可以用來自特 定用戶的幾個(gè)樣本來實(shí)現(xiàn)該自適應(yīng)技術(shù),而常規(guī)技術(shù)利用來自若干書寫者和/ 或用戶的大量數(shù)據(jù)來訓(xùn)練通用識(shí)別器。書寫變體數(shù)據(jù)可以手動(dòng)、自動(dòng)和/或以其任何組合來生成。例如,書寫變體數(shù)據(jù)可以采用任何適當(dāng)?shù)娜杭夹g(shù)(以下討論)來自動(dòng)生成。換言之,可以 實(shí)現(xiàn)用于通過群集來從手寫字符中標(biāo)識(shí)書寫變體(例如,字符形狀和/或風(fēng)格) 的自動(dòng)化方法。在另一示例中,書寫變體數(shù)據(jù)可以利用手寫專家來手動(dòng)提供以 提供與手寫相關(guān)聯(lián)的類型和/或風(fēng)格。另外,個(gè)性化組件102可以用書寫變體數(shù)據(jù)來訓(xùn)練分類器,并結(jié)合非基于 書寫變體的分類器實(shí)現(xiàn)這些結(jié)果以提供經(jīng)優(yōu)化的手寫識(shí)別。換言之,個(gè)性化組件102可以無縫地與現(xiàn)有識(shí)別器(例如,手寫字符識(shí)別器)集成并采用來自個(gè) 人的新樣本對(duì)其進(jìn)行同等的改進(jìn)。例如,個(gè)性化組件102可以將一字母和/或字 符與一特定風(fēng)格和/或書寫變體進(jìn)行匹配,而非簡(jiǎn)單地匹配一字母。由此,個(gè)性 化組件102可以利用在給定用戶的書寫樣本和/或示例的情況下可學(xué)習(xí)的映射 技術(shù)和/或功能。個(gè)性化組件102可利用來自常規(guī)和/或傳統(tǒng)分類器的輸出來應(yīng) 用映射功能和/或技術(shù)以提供每一字母和/或字符的概率以便優(yōu)化手寫識(shí)別。此外,系統(tǒng)100可以包括任何適當(dāng)和/或必要的接口組件104,該組件提供 了各種適配器、連接、通道、通信路徑等以便將個(gè)性化組件102集成到實(shí)際上 任何操作和/或數(shù)據(jù)庫系統(tǒng)中。另外,接口組件104可以提供能夠與個(gè)性化組件 102、數(shù)據(jù)、手寫數(shù)據(jù)、與經(jīng)優(yōu)化的手寫識(shí)別相關(guān)聯(lián)的數(shù)據(jù)以及經(jīng)優(yōu)化的手寫 識(shí)別交互的各種適配器、連接、通道、通信路徑等。圖2示出了幫助利用書寫變體數(shù)據(jù)來采用手寫字符識(shí)別的系統(tǒng)200。系統(tǒng) 200可包括個(gè)性化組件202,該組件可通過利用書寫變體數(shù)據(jù)訓(xùn)練分類器來提 供經(jīng)優(yōu)化的手寫識(shí)別。個(gè)性化組件202可經(jīng)由接口 104接收與手寫字符和/或符 號(hào)相關(guān)的數(shù)據(jù),其中個(gè)性化組件202可通過采用通過書寫變體訓(xùn)練的分類器來 推斷和/或識(shí)別該字符和/或符號(hào)。另外,個(gè)性化組件202還可結(jié)合用非書寫變 體訓(xùn)練的分類器來利用通過書寫變體訓(xùn)練的分類器??梢岳斫?,個(gè)性化組件202 可以基本上類似于如在圖1中描述的個(gè)性化組件102。個(gè)性化組件202可以包括自動(dòng)、手動(dòng)和/或以其任意組合來生成書寫變體 和/或書寫變體數(shù)據(jù)的書寫變體組件204??蓪?shí)現(xiàn)用于通過群集來從手寫字符中 標(biāo)識(shí)書寫變體(例如,字符形狀和/或風(fēng)格)的自動(dòng)化方法。在另一示例中,書 寫變體數(shù)據(jù)可以利用手寫專家來手動(dòng)提供以便提供與手寫相關(guān)聯(lián)的類型和/或 風(fēng)格。此外,書寫變體組件204可使用例如使用動(dòng)態(tài)時(shí)間扭曲(DTW)作為距 離度量的分層附聚群集方法來標(biāo)識(shí)字符書寫風(fēng)格(例如,書寫變體)。書寫變 體組件204可標(biāo)識(shí)和/或找出要根據(jù)本發(fā)明來采用的任何適當(dāng)?shù)臅鴮懽凅w數(shù)據(jù) 和/或書寫風(fēng)格。在基于西方拉丁語的手寫領(lǐng)域內(nèi)存在巨大的手寫風(fēng)格變化。然 而,可以存在可被稱為"書寫變體的"用戶可松散地遵照的手寫字符風(fēng)格。已 經(jīng)試圖構(gòu)建西方手寫風(fēng)格的分類表,但是至今為止沒有一種嘗試是存在的。這 可以與機(jī)器印刷字體形成對(duì)比,在機(jī)器印刷字體中,例如,可以有對(duì)字體和風(fēng) 格的偽標(biāo)準(zhǔn)分類。盡管如此,在任何特定國(guó)家的學(xué)校系統(tǒng)中,仍在教授少數(shù)手 寫風(fēng)格,并且在任何給定的學(xué)區(qū)中采用一特定的風(fēng)格。分層群集技術(shù)可用于從數(shù)據(jù)中學(xué)習(xí)字母手寫風(fēng)格。存在兩種主要方法1)檢測(cè)粗略子風(fēng)格的自頂向下方法;以及2)自底向上群集方法。書寫變體組件204可以例如至少部分地基于可在系統(tǒng)200 (例如,識(shí)別器)中直接使用的所獲得的風(fēng)格知識(shí)來采用自底向上方法。手寫字母%= {V, A ...,/^的群集C可以定義數(shù)據(jù)到一組《個(gè)不相交集 合(^,c2,…,c^的劃分,使得U二? =%。群集C是對(duì)每一字母和/或符號(hào)獨(dú)立地計(jì)算的。分層券桌算法產(chǎn)生莰^^對(duì)C,,C2,…,C^]的分層結(jié)構(gòu),使得(Vi 是C附的一個(gè)子集。該分層結(jié)構(gòu)可以用M步來構(gòu)建,其中步驟m處的群集可以 從步驟處產(chǎn)生的群集產(chǎn)生。在步驟1處,樣本集合Z中的每一成員和/或 一部分成員可表示其自己的一個(gè)群集。使用兩個(gè)群集的相異點(diǎn)函數(shù)£>(一,浐'), 可由書寫變體組件204應(yīng)用以下算法a)初始化C((;cW〉,...,{,}},其 中每一樣本本身是一個(gè)群集;以及b)對(duì)于m = 2, ...., M:通過合并C^一中兩 個(gè)最相似的群集和 來獲得新群集Cw。最接近的群集可由(^m'",fm/") = arg min化4,,forD(c^,c"來定義。群集相異點(diǎn)函數(shù)"(^,c"可以按照墨水樣本相異點(diǎn)函數(shù)"Oc、V)來定義。 每一墨水樣本可首先被各向同性地歸一化并在一固定大小的矩形內(nèi)居中。對(duì)于 墨水樣本A (包括例如S個(gè)筆畫)以及yf (包括例如S個(gè)筆畫)<formula>formula see original document page 10</formula>其中P和尸是樣本h《的相應(yīng)的重新采樣的坐標(biāo)矢量,7V是采樣點(diǎn)的個(gè)數(shù)。矢量尸中的元素; 具有三個(gè)坐標(biāo)(x,;;, 0,其中;c、 j是點(diǎn);?的笛卡爾坐標(biāo),而 e是同一點(diǎn)處的斜率的估計(jì)。采用此定義,具有不同筆畫計(jì)數(shù)的墨水樣本直到真正的最后之前都可能不 會(huì)被合并在同一群集中。在真正的最后,合并實(shí)際上已停止。Z)(c4,/) = max",",Z)(/,/)可以理解,利用最大值而非平均值或最小值來將具有不同筆畫數(shù)的兩個(gè)墨水樣 本之間的距離定義為oo有利于緊湊的群集。出于可視化的目的, 一墨水樣本可被選為群集代表。對(duì)每一群集的所選的代表可以是該群集的中心。對(duì)群集 一 的中心戶可被定義為相對(duì)于其余的群集成員墨水樣本具有最小中值距離的墨水樣本。膨rf (Z)(jc",x)) S膨rf (D(x',x)), Vx'£ c*簡(jiǎn)要地參考圖3,圖3示出了幫助可視化與對(duì)一字符的群集相關(guān)聯(lián)的結(jié)果 的二叉樹300的框圖。從書寫變體組件204得到的與對(duì)每一字母和/或符號(hào)的群 集相關(guān)的結(jié)果可以由稱為相異點(diǎn)樹圖(dissimilarity dendogram)的二叉樹300 來可視化。二叉樹300可以是所得的字母"K"的樹圖的一個(gè)示例??梢岳斫?, 二叉樹300可以包含一筆畫出現(xiàn)的次序和/或與筆畫的色調(diào)相關(guān)聯(lián)的濃度和/或 明度。書寫變體組件204可以自動(dòng)生成與書寫變體相關(guān)的群集,并且進(jìn)一步確定 所釆用的群集數(shù)。例如,對(duì)每一字母和/或符號(hào)的群集數(shù)可通過定義閾值A(chǔ) 。, 來確定,高于該閾值,不能出現(xiàn)進(jìn)一步的群集合并。換言之,合并停止時(shí)的活 動(dòng)群集表示相應(yīng)字母的風(fēng)格。因此,所得風(fēng)格數(shù)可以在各個(gè)字母之間不同,取 決于字母和/或符號(hào)形狀的相異性。簡(jiǎn)要地轉(zhuǎn)向圖4,示出了可根據(jù)所要求保護(hù)的主題利用的與各種手寫風(fēng)格 相關(guān)聯(lián)的第一表400和第二表402。第一表400可以是書寫變體組件204所利 用的當(dāng)被應(yīng)用于一較大的墨水樣本集時(shí)的分層群集算法的結(jié)果。第一表400示 出了對(duì)于字母q、 t和X的所得風(fēng)格以及在美國(guó)(US)書寫者之中的相對(duì)頻率。 可以理解,第一表400是一個(gè)示例,并且本發(fā)明并不限于此。換言之,個(gè)性化 組件202可將這些風(fēng)格映射到美國(guó)學(xué)校所教授的風(fēng)格。此外,可以理解和明白,已知的學(xué)校手寫風(fēng)格標(biāo)準(zhǔn)描述了一字母采用其最11終形式的外觀,而不考慮一字母是如何繪出的方式。然而,筆畫次序和筆畫方 向(跡線)可以提供可在如上所述書寫變體組件204的群集階段期間考慮的有價(jià)值的信息。第二表402示出了對(duì)于字母q、 t和X的風(fēng)格的示例以及其在英國(guó)(UK) 書寫者之中的相對(duì)頻率。通過比較美國(guó)和英國(guó)風(fēng)格(例如,分別是第一表400 和第二表402),可形成以下主觀觀察結(jié)果l)兩個(gè)集合中的主導(dǎo)風(fēng)格對(duì)于大 多數(shù)字母看上去是相同的,盡管頻率不同(例如,所示的對(duì)于字母q的美國(guó)和 英國(guó)風(fēng)格可示出一反例);2)某些邁緣(例如,低頻)風(fēng)格可存在于一個(gè)集合 中但不在另一集合中;以及3)即使邊緣風(fēng)格出現(xiàn)在兩個(gè)集合中,其頻率看上去 也是明顯不同的。當(dāng)應(yīng)用于分層群集時(shí)對(duì)DTW距離閾值的每一選擇可允許圖2的書寫變體 組件204產(chǎn)生一組不相交的群集。該距離閾值越大,所獲得的群集數(shù)就越少。 例如,可選擇閾值792來獲得對(duì)于IOO個(gè)字符(例如,包括歐元和英鎊符號(hào)的 可打印ASCII字符)的2002個(gè)獨(dú)特群集。有了 2002個(gè)群集以及100個(gè)字符, 對(duì)每一字符可以有表示該字符的各種書寫形式的大約20種書寫變體。返回到圖2,個(gè)性化組件202可以包括可采用要利用從書寫變體組件204 生成的書寫變體數(shù)據(jù)來訓(xùn)練的至少一個(gè)分類器的分類器組件206。另外,分類 器組件206可利用可在書寫變體數(shù)據(jù)上訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)分類器,以及可在 非書寫變體數(shù)據(jù)上訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò)分類器,其中第一和第二神經(jīng)網(wǎng)絡(luò)分類 器兩者的輸出可通過采用組合組件208 (以下討論)來組合??梢岳斫?,分類 器組件206可包括與利用非書寫變體數(shù)據(jù)、書寫變體數(shù)據(jù)和/或其任意組合來訓(xùn) 練分類器相關(guān)的任何合適的組件和/或數(shù)據(jù)。此外,分類器組件206可采用特征矢量作為對(duì)至少一個(gè)分類器的輸入。每 一手寫字符可被視為表示連續(xù)筆畫的(:c,j;力段的序列。接連書寫的一個(gè)或多個(gè) 筆畫可構(gòu)成一字符。例如,可處理每一手寫字符以獲得六十五(65)個(gè)多項(xiàng)式 特征??梢岳斫猓瑢?duì)于所要求保護(hù)的主題可應(yīng)用并利用任意適當(dāng)和/或替換的"特 征化"。用于字符的墨水首先可通過在字符的底部切斷墨水而被拆分成各段。因 此,分段可在y坐標(biāo)到達(dá)最小值并開始在另一方向上移動(dòng)的地方發(fā)生。每一段然后可以用切比雪夫(Chebyshev)多項(xiàng)式的形式來表示??蓮拿恳蛔址@得 包含65個(gè)特征的特征矢量。這些特征矢量然后作為輸入被饋入與分類器組件 206相關(guān)聯(lián)的每一神經(jīng)網(wǎng)絡(luò)。
分類器組件205還可利用書寫變體數(shù)據(jù)和特征矢量中的至少一個(gè)來訓(xùn)練 至少一個(gè)分類器??梢岳斫猓诸惼鹘M件206可以采用第一識(shí)別器和第二識(shí)別 器,其中第一和第二識(shí)別器可以利用特征矢量來訓(xùn)練。然而,還可以理解和明 白,本發(fā)明不受以下示例的限制。換言之,分類器組件206可以采用利用書寫
變體數(shù)據(jù)訓(xùn)練的至少一個(gè)分類器來提供經(jīng)優(yōu)化的手寫識(shí)別。
轉(zhuǎn)向圖5,示出了包括級(jí)聯(lián)的神經(jīng)網(wǎng)絡(luò)和線性分類器的第一識(shí)別器500(例 如,神經(jīng)網(wǎng)絡(luò),書寫變體神經(jīng)網(wǎng)絡(luò)(NN))。神經(jīng)網(wǎng)絡(luò)500具有2002個(gè)輸出, 并且可被訓(xùn)練以將字符特征矢量504映射到字符書寫變體。線性組合器(書寫 變體折疊器)506可以使用梯度下降來訓(xùn)練,以將2002個(gè)書寫變體折疊回100 個(gè)字符類。線性折疊器506可以被認(rèn)為是書寫變體-NN的一部分。第二識(shí)別器 502可以是不使用書寫變體信息并且可被訓(xùn)練為直接將特征矢量504映射到輸 出類的神經(jīng)網(wǎng)絡(luò)(例如,基礎(chǔ)NN)。這兩個(gè)神經(jīng)網(wǎng)絡(luò)都可以是各自具有兩層 的多層感知器(MLP)。書寫變體NN 500可具有1024個(gè)隱藏節(jié)點(diǎn),而基礎(chǔ) NN 502可具有600個(gè)隱藏節(jié)點(diǎn)。可以理解和明白,可使用后向傳播來用互熵 作為誤差函數(shù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
回頭參考圖2,個(gè)性化組件202可包括將與分類器組件206利用的至少一 個(gè)分類器相關(guān)聯(lián)的輸出相組合的組合組件208。注意,兩個(gè)神經(jīng)網(wǎng)絡(luò)(例如, 圖5的書寫變體NN 500和基礎(chǔ)NN502)具有完全不同的體系結(jié)構(gòu)。此外,書 寫變體NN 500可以使用書寫變體數(shù)據(jù)來訓(xùn)練,而后者則不然。由于這些差異, 可以預(yù)期到這兩個(gè)分類器所產(chǎn)生的誤差是明顯不同的。由此,組合組件208使 用這兩個(gè)分類器所構(gòu)建和/或采用的任何組合器將有可能具有低于其中任何一 個(gè)的差錯(cuò)率。
在一個(gè)示例中,組合組件208可采用線性技術(shù)210來組合至少兩個(gè)輸出集。 簡(jiǎn)單線性分類器(例如,線性組合器,它可以是線性技術(shù)210)可以組合書寫 變體NN和基礎(chǔ)NN的輸出,這包括書寫者無關(guān)(未個(gè)性化的)識(shí)別器。為進(jìn) 一步提高準(zhǔn)確度,書寫變體分類器輸出也可被直接饋入組合組件208。在另一示例中,組合組件208可利用個(gè)性化器技術(shù)212來組合與至少兩個(gè) 分類器相關(guān)聯(lián)的輸出。個(gè)性化器技術(shù)212可以將書寫者無關(guān)識(shí)別器自適應(yīng)到提 供新訓(xùn)練樣本的當(dāng)前用戶。換言之,個(gè)性化器技術(shù)212可以與兩個(gè)神經(jīng)網(wǎng)絡(luò)(以 上討論)級(jí)聯(lián),其中線性組合器(例如,由線性技術(shù)210實(shí)例化)可以用個(gè)性 化器技術(shù)212來替換,使得來自神經(jīng)網(wǎng)絡(luò)的輸出被個(gè)性化器技術(shù)212接收并利 用。
可以理解,盡管個(gè)性化器技術(shù)212可以替換線性技術(shù)210,但是可利用能 夠從數(shù)據(jù)中學(xué)習(xí)的任何適當(dāng)?shù)慕M合分類器和/或技術(shù)來替換線性組合器。組合組 件208可采用任何適當(dāng)?shù)慕M合分類器,其中這一組合分類器可以從數(shù)據(jù)中學(xué)習(xí) (例如,當(dāng)替換線性技術(shù)210的時(shí)候)??梢岳斫夂兔靼?,可出于至少以下原 因?qū)€(gè)性化器技術(shù)212選擇支持矢量機(jī)(SVM) : l)推廣一SVM的推廣特性 是公知的。由于從用戶收集的(每一類)樣本數(shù)可能非常少(例如,通常少于 例如10或15),因此重要的是可以用這些少數(shù)樣本來實(shí)現(xiàn)推廣。與SVM形 成對(duì)比,訓(xùn)練神經(jīng)網(wǎng)絡(luò)來用非常有限的訓(xùn)練數(shù)據(jù)進(jìn)行良好的推廣可能是有挑戰(zhàn) 性的;2)規(guī)則化一用小數(shù)據(jù)集實(shí)現(xiàn)良好推廣的最常見的方法是規(guī)則化。SVM提 供了一種自然的規(guī)則化方式??墒褂媚P瓦x擇過程來有效地控制容量并減少過 度適合(over-fitting)的機(jī)會(huì);3)多類—當(dāng)前多類SVM可使用幾個(gè)二類SVM 來構(gòu)建。這可允許在每一類的基礎(chǔ)上對(duì)準(zhǔn)確度進(jìn)行更好的控制。由于僅線性組 合器可被個(gè)性化,因此并非所有的二類SVM都是必需的。可以僅僅集中在包 括具有最高混亂性的那幾對(duì)類上;4)復(fù)雜度一當(dāng)使用一對(duì)一方法時(shí),二類分類 器的數(shù)目與C(n,2)成正比地增長(zhǎng)(例如,0("2)) 。 SVM中的支持矢量可以是 用戶提供的樣本的一個(gè)子集。由此,即使可能的類和分類器的數(shù)量迅速增長(zhǎng), 支持矢量的總數(shù)也可由用戶樣本的數(shù)量來界定,這可能是較小的。此外,由于 組合器可被個(gè)性化,因此可構(gòu)建C^,2)個(gè)分類器的較小的子集。所丟棄的每一 分類器可由指示要改為使用未個(gè)性化的識(shí)別器的輸出的單個(gè)位來表示(例如, 對(duì)于丟棄的對(duì),在SVM投票期間,相應(yīng)的未個(gè)性化組合器輸出對(duì)可以進(jìn)行比 較以獲得投票)。
簡(jiǎn)要地參考圖6,示出了根據(jù)本發(fā)明的幫助采用個(gè)性化器支持矢量機(jī)的示 例性系統(tǒng)600的框圖。由此,個(gè)性化器(SVM)可以替換如上所述的線性技術(shù)。系統(tǒng)200可利用各種數(shù)據(jù)集來提供實(shí)驗(yàn)結(jié)果。例如,可利用以下數(shù)據(jù)集來 提供經(jīng)優(yōu)化的手寫識(shí)別(例如,個(gè)性化實(shí)驗(yàn))。l)第一集合(例如,非個(gè)性化
集合)包括來自215個(gè)用戶的200,000個(gè)手寫字符。非個(gè)性化數(shù)據(jù)可用于構(gòu)建 非個(gè)性化識(shí)別器。2)第二集合(例如,個(gè)性化集合)包括來自21個(gè)用戶(例 如,不包括在來自第一集合的215個(gè)用戶中)的84,000個(gè)樣本。個(gè)性化集合可 被設(shè)計(jì)成用于評(píng)估個(gè)性化技術(shù)。
給定以下內(nèi)容,兩個(gè)集合中的數(shù)據(jù)可均勻地分布在100個(gè)可能的西方手寫 字符類上
ABCDEFGHIJKLMNOPQRSTUVWXYZ
abcdef ghi j klmnopqi:s tuvwxy z 0123456789
<formula>formula see original document page 15</formula>
兩個(gè)數(shù)據(jù)集中的墨水樣本可被特征化(以上對(duì)于特征矢量討論)以獲得描 述書寫變體組件204所采用的字符的特征矢量。該特征矢量可用于如上所述地 構(gòu)建識(shí)別器。
來自非個(gè)性化集合的200,000個(gè)墨水樣本可如上對(duì)于書寫變體組件204所 描述地分層地群集??梢詫?shí)現(xiàn)例如闔值792來獲得2002個(gè)書寫變體。這些群 集可用于對(duì)200,000個(gè)樣本中的每一個(gè)分配書寫變體標(biāo)簽。
通用識(shí)別器可包括兩個(gè)分類器:a)書寫變體NN(還包括書寫變體折疊器), 以及b)基礎(chǔ)NN。非個(gè)性化集合可以被混洗并被拆分成3部分要用于訓(xùn)練的 160,000個(gè)樣本,要用于確認(rèn)(例如,用于確定何時(shí)停止訓(xùn)練)的20,000個(gè)樣 本,以及要用于測(cè)試的其余20,000個(gè)樣本。通用識(shí)別器對(duì)非個(gè)性化數(shù)據(jù)集的報(bào) 告的準(zhǔn)確度是來自20,000測(cè)試集的準(zhǔn)確度。在每一幅圖中,在分類器上指示的 第一個(gè)百分比值是測(cè)試集的差錯(cuò)率。
書寫變體NN (例如,見圖5的500)可以是兩層的多層感知器(例如, 雙曲正切非線性度),其具有在隱藏層內(nèi)的1024個(gè)節(jié)點(diǎn)以及2002個(gè)輸出節(jié)點(diǎn) (例如,每一書寫變體一個(gè)輸出節(jié)點(diǎn))。書寫變體折疊器可以是將書寫變體 NN輸出映射到100個(gè)輸出類的簡(jiǎn)單線性組合器?;A(chǔ)NN (例如,見圖5的502)也可以是兩層的多層感知器(例如,雙曲正切非線性度),其具有600 個(gè)隱藏節(jié)點(diǎn)和100個(gè)輸出(例如,每一輸出類一個(gè)輸出)。
分類器(例如,書寫變體NN、書寫變體折疊器以及基礎(chǔ)NN)可以使用 例如后向傳播和互熵作為誤差度量而在非個(gè)性化集合上獨(dú)立地訓(xùn)練。所有權(quán)重 可在例如[-0.05,0.05]中隨機(jī)地均勻初始化,并且在以下實(shí)驗(yàn)中使用例如0.001 的學(xué)習(xí)速率。
通用組合器可以是具有2202個(gè)輸入和IOO個(gè)輸出的簡(jiǎn)單線性分類器。通 用組合器輸入包括書寫變體NN (2002)、書寫變體折疊器(100)和基礎(chǔ)NN (100)的輸出。
個(gè)性化器可以是使用多達(dá)C(100,2) = 4950個(gè)2類SVM的100類SVM。 可對(duì)21個(gè)用戶中的每一個(gè)訓(xùn)練一獨(dú)特的個(gè)性化器。個(gè)性化數(shù)據(jù)集中的84,000 個(gè)樣本可對(duì)21個(gè)用戶中的每一個(gè)產(chǎn)生每字符40個(gè)樣本??墒褂枚噙_(dá)每字符15 個(gè)樣本來訓(xùn)練個(gè)性化器。其余的每字符25個(gè)樣本可單純地用于測(cè)試目的。可 以理解,典型的用戶可能不會(huì)提供多于每字符15個(gè)樣本來訓(xùn)練個(gè)性化器。然 而,具有較大的測(cè)試集(例如,每字符30個(gè)樣本)可以提供評(píng)估個(gè)性化識(shí)別 器的性能的可靠方式。
利用A:= 5, 10,以及15個(gè)用戶樣本(每一類),可以對(duì)每一用戶構(gòu)建三個(gè) 不同的個(gè)性化器。這些A個(gè)樣本的集合可以被遞增地選擇(例如,可通過向& = 5的集合添加5個(gè)新樣本來獲得^= IO的集合)。A個(gè)樣本不僅能用于訓(xùn)練識(shí) 別器,而且還能用于規(guī)則化識(shí)別器??墒褂胏eil伙/2)個(gè)樣本來進(jìn)行訓(xùn)練,并可 使用floor(W2)個(gè)樣本來進(jìn)行模型選擇。如圖6所示實(shí)現(xiàn)RBF內(nèi)核。SVM模型 選擇可使用例如簡(jiǎn)單的網(wǎng)格搜索來執(zhí)行,其中(在{2—5,2'4,...,214,215}中,而 丫在{2—1(), 2-9,..., 23, 24}中。來自給出floor(W2)個(gè)樣本(例如,不用于訓(xùn)練SVM) 上的最佳差錯(cuò)率的模型的(C,力參數(shù)可被選擇用于個(gè)性化器。該差錯(cuò)率作為個(gè)性 化識(shí)別器的差錯(cuò)率來報(bào)告(以下討論)。
基礎(chǔ)NN (如可以在圖5的502處見到的)可以在非個(gè)性化數(shù)據(jù)集(例如, 包含215個(gè)用戶)上訓(xùn)練,并且達(dá)到7.8%的測(cè)試差錯(cuò)率。當(dāng)在來自個(gè)性化數(shù) 據(jù)集中的21個(gè)用戶(不包括在215個(gè)用戶中)的數(shù)據(jù)上測(cè)試時(shí),該差錯(cuò)率增 加到9.36%。這是差錯(cuò)率的20%的相對(duì)增加。差錯(cuò)率的這一較大的增加清楚地表明手寫風(fēng)格的用戶間變化要遠(yuǎn)小于用戶內(nèi)變化。書寫變體分類器可試圖不僅預(yù)測(cè)字符標(biāo)簽,而且還可預(yù)測(cè)字符的書寫風(fēng)格。在非個(gè)性化數(shù)據(jù)集上,書寫變體分類器可達(dá)到24.65%的差錯(cuò)率,這可被解釋為非常大的差錯(cuò)率。然而,當(dāng)2002個(gè)字符風(fēng)格被折疊成其相關(guān)聯(lián)的100個(gè)字符類(例如,實(shí) 現(xiàn)簡(jiǎn)單的級(jí)聯(lián)折疊器)時(shí),差錯(cuò)率降至8.25%。對(duì)于任何給定字符,簡(jiǎn)單折疊 器可以返回對(duì)應(yīng)于該字符的書寫變體輸出之和。可以理解,較好的折疊器可以解決不同類之間的易混淆的書寫變體。當(dāng)采 用一簡(jiǎn)單線性折疊器(例如,在所有2002個(gè)輸出上學(xué)習(xí)的加權(quán)和)時(shí)(可在 圖5的500處見到),非個(gè)性化測(cè)試差錯(cuò)率降至5.9%。然而,個(gè)性化測(cè)試集 上的差錯(cuò)率顯著地升到11.40%。這一差錯(cuò)率的增加(93%)要大于對(duì)基礎(chǔ)識(shí)別 器所觀察到的增加(20%),這表明書寫變體分布在非個(gè)性化數(shù)據(jù)集中的215 個(gè)用戶和個(gè)性化數(shù)據(jù)集中的21個(gè)用戶之間明顯變化。然而,即使書寫變體分 布變化,對(duì)于任何新用戶,分類器輸出上的概率分布也可基本類似于若干樣本 上的分布。換言之,盡管差錯(cuò)率增加,但新用戶的差錯(cuò)是可預(yù)測(cè)的。由此,個(gè) 性化器可學(xué)習(xí)減少這些差錯(cuò)。圖7示出了幫助采用線性組合器來實(shí)現(xiàn)未個(gè)性化識(shí)別器的示例性系統(tǒng)700 的框圖。該系統(tǒng)可包括手寫字符和/或符號(hào)702、特征704、基礎(chǔ)NN706、書寫 變體分類器708、書寫變體折疊器710 (也稱為"allog折疊器710")以及線 性組合器712。字符和/或手寫符號(hào)702可以與特征704 —起使用,其中可應(yīng)用 特征矢量(如上所述)。未個(gè)性化組合器可以是取書寫變體分類器708的2002 個(gè)輸出、書寫變體折疊器710的IOO個(gè)輸出以及來自基礎(chǔ)分類器706的IOO個(gè) 輸出作為輸入的線性分類器。這些輸入可被映射到100個(gè)輸出類。未個(gè)性化組 合器在非個(gè)性化數(shù)據(jù)集上可實(shí)現(xiàn)5.8%的測(cè)試差錯(cuò)率,并在個(gè)性化數(shù)據(jù)集上可 實(shí)現(xiàn)相應(yīng)的9.51%測(cè)試差錯(cuò)率。性能得到略微的改進(jìn)。圖8示出了幫助采用個(gè)性化器支持矢量機(jī)來識(shí)別手寫字符的示例性系統(tǒng) 800的框圖。系統(tǒng)800示出了可采用基本類似于以上描述并特別在圖6中所述 的個(gè)性化器(SVM)的個(gè)性化器(SVM)的個(gè)性化識(shí)別器。該獨(dú)特的個(gè)性化 識(shí)別器可以對(duì)個(gè)性化數(shù)據(jù)集中的21個(gè)用戶的每一個(gè)來構(gòu)建。個(gè)性化器可以將平均差錯(cuò)率從9.51%減少到5.64%。該差錯(cuò)率的超過40.6%的相對(duì)減少表明該 個(gè)性化器對(duì)于調(diào)整對(duì)每一個(gè)別用戶的識(shí)別器是有效的。轉(zhuǎn)向圖9,示出了根據(jù)本發(fā)明的圖表結(jié)果。圖表902和圖表904示出了在 使用15個(gè)樣本進(jìn)行個(gè)性化之前和之后對(duì)每一用戶的差錯(cuò)率。圖8的個(gè)性化器 可對(duì)21個(gè)用戶中的20個(gè)減少差錯(cuò)率。然而,在一個(gè)用戶(例如,與圖表902 相關(guān)聯(lián)的用戶12)上,差錯(cuò)數(shù)略微增加了3.7% (例如,相對(duì)增加)。用于每一個(gè)性化器的訓(xùn)練時(shí)間可以少于300秒(例如,5分鐘)。每一成 對(duì)SVM分類器(例如,對(duì)第一類取8個(gè)樣本,對(duì)第二類取8個(gè)樣本)可花費(fèi) 大約0.27毫秒在3.0 GHz處理器的機(jī)器上訓(xùn)練。訓(xùn)練4950個(gè)成對(duì)分類器可花 費(fèi)1.33秒。然而,這可使用網(wǎng)格搜索對(duì)用于模型選擇的255個(gè)(C,力設(shè)置中的 每一個(gè)重復(fù)。使用更高級(jí)的模型選擇方法可將該時(shí)間減少一個(gè)或兩個(gè)數(shù)量級(jí)。 此外,訓(xùn)練時(shí)間的減少可以通過僅構(gòu)建對(duì)應(yīng)于混亂矩陣中的最大值的成對(duì)分類 器來實(shí)現(xiàn)。沒有混亂的類對(duì)可從個(gè)性化器中丟棄。當(dāng)所有未個(gè)性化差錯(cuò)率都低 于15%時(shí),對(duì)于所利用的100個(gè)類問題,該簡(jiǎn)單方法可以產(chǎn)生超過6倍的速度 提高。此外,這一方法可在類的數(shù)量非常大時(shí)實(shí)現(xiàn)。例如,東亞語言(例如, 日語、中文、韓語等)通常具有幾千個(gè)字符。用戶可能期望僅對(duì)大多數(shù)誤識(shí)別 的字符提供幾個(gè)樣本。此外,大多數(shù)用戶可僅利用這些字符的一小部分。在個(gè)性化期間,對(duì)用戶所需的樣本數(shù)越大,個(gè)性化差錯(cuò)率就越低,但是用 戶不便也越大。此外,改進(jìn)的速率隨著樣本數(shù)的增加而消失??捎脕碜悦恳挥?戶的5、 10和15個(gè)樣本(例如,每一字符)來重復(fù)個(gè)性化實(shí)驗(yàn)。圖表906可 示出作為用戶樣本數(shù)的函數(shù)的個(gè)性化差錯(cuò)率。個(gè)性化差錯(cuò)率對(duì)于來自用戶的5、 10和15個(gè)樣本是7.37%、6.06%和5.64%。 這些值可以分別對(duì)應(yīng)于23%、 36%和41%的相對(duì)減少。差錯(cuò)率的降低在前5個(gè) 樣本中可以最高。差錯(cuò)率在15個(gè)樣本之后持續(xù)降低。然而,給定改進(jìn)速率, 看上去從用戶收集多于IO或15個(gè)樣本可能不能保證后續(xù)的差錯(cuò)率降低,盡管 這可由特定的用戶偏好來確定并且在本發(fā)明上不受限制。在另一示例中,可通過對(duì)基于墨水的失真的有判斷力的使用來擴(kuò)大訓(xùn)練樣 本數(shù)??蓮默F(xiàn)有墨水樣本(來自非個(gè)性化集合)假設(shè)或構(gòu)建簡(jiǎn)單失真模型。該 模型然后可用于產(chǎn)生用戶樣本中的10-20個(gè)折疊。使用失真對(duì)設(shè)計(jì)基于圖像的分類器是有效的。圖10示出了采用智能來幫助利用經(jīng)書寫變體訓(xùn)練的分類器識(shí)別與手寫相關(guān)聯(lián)的字符的示例性系統(tǒng)1000的框圖。系統(tǒng)1000可包括個(gè)性化組件1002、接 口組件104、數(shù)據(jù)、以及經(jīng)優(yōu)化的手寫識(shí)別,這些可基本類似于在先前各圖中 所描述的相應(yīng)的組件、數(shù)據(jù)以及識(shí)別。系統(tǒng)1000還包括智能組件1004。智能 組件1004可以由個(gè)性化組件1002用于利用書寫變體分類器和非書寫變體分類 器提供經(jīng)優(yōu)化的手寫字符識(shí)別。例如,智能組件1004可推斷手寫字符、手寫 字符的劣化、地區(qū)特有包、與書寫變體的關(guān)聯(lián)等等。可以理解,智能組件1004能夠從一組通過事件和/或數(shù)據(jù)捕捉的觀察中推 出或推斷系統(tǒng)、環(huán)境和/或用戶的狀態(tài)。例如,推斷可用于標(biāo)識(shí)特定的上下文或 動(dòng)作,或可生成狀態(tài)的概率分布。推斷可以是概率性的一即,基于數(shù)據(jù)和事件 的考慮計(jì)算感興趣的狀態(tài)的概率分布。推斷也可以指用于從一組事件和/或數(shù)據(jù) 組成更高級(jí)事件的技術(shù)。這類推斷導(dǎo)致從一組觀察的事件和/或儲(chǔ)存的事件數(shù)據(jù) 構(gòu)造新的事件或動(dòng)作,無論事件是否在相鄰的時(shí)間上相關(guān),也無論事件和數(shù)據(jù) 是來自一個(gè)還是若干個(gè)事件和數(shù)據(jù)源。各種分類(顯式和/或隱式訓(xùn)練的)方案 和/或系統(tǒng)(例如,支持矢量機(jī)、神經(jīng)網(wǎng)絡(luò)、專家系統(tǒng)、貝葉斯信任網(wǎng)絡(luò)、模糊 邏輯、數(shù)據(jù)融合引擎……)可用于執(zhí)行關(guān)于所要求保護(hù)的主題的自動(dòng)化和/或推 斷的動(dòng)作。分類器是將輸入屬性矢量x = (xl, x2, x3, x4, w)映射到該輸入屬于一個(gè)類 的置信度的函數(shù),即/f力co"y^wce(c/aw)。這一分類可采用基于概率和/或基 于統(tǒng)計(jì)的分析(例如,分解成分析效用和成本)來預(yù)測(cè)或推斷用戶期望自動(dòng)執(zhí) 行的動(dòng)作。支持矢量機(jī)(SVM)是可采用的分類器的一個(gè)示例。SVM通過找 出可能輸入空間中的超曲面來操作,其中,超曲面試圖將觸發(fā)準(zhǔn)則從非觸發(fā)事 件中分離出來。直觀上,這使得分類對(duì)于接近但不等同于訓(xùn)練數(shù)據(jù)的測(cè)試數(shù)據(jù) 正確??刹捎闷渌ㄏ蚝头嵌ㄏ蚰P头诸惙椒ò?,例如,單純貝葉斯、貝葉 斯網(wǎng)絡(luò)、決策樹、神經(jīng)網(wǎng)絡(luò)、模糊邏輯模型以及提供不同獨(dú)立性模式的概率分 類模型。此處所使用的分類也包括用于開發(fā)優(yōu)先級(jí)模型的統(tǒng)計(jì)回歸。呈現(xiàn)組件1006可提供各種類型的用戶界面以便于用戶與耦合到個(gè)性化組 件1002的任何組件之間的交互。如所述,呈現(xiàn)組件1006是可與個(gè)性化組件1002一起使用的單獨(dú)實(shí)體。然而,可以理解,呈現(xiàn)組件1006和/或類似的査看組件可以被結(jié)合到個(gè)性化組件1002和/或一單獨(dú)的單元中。呈現(xiàn)組件1006可以提供 一個(gè)或多個(gè)圖形用戶界面(GUI)、命令行界面等等。例如,可呈現(xiàn)向用戶提 供對(duì)數(shù)據(jù)進(jìn)行加載、導(dǎo)入、讀取等的區(qū)域或手段并可包括呈現(xiàn)這些動(dòng)作的結(jié)果 的區(qū)域的GUI。這些區(qū)域可包括己知的文本和/或圖形區(qū)域,包括對(duì)話框、靜 態(tài)控件、下拉菜單、列表框、彈出菜單、編輯控件、組合框、單選按鈕、復(fù)選 框、按鈕、以及圖形框。另外,可采用幫助呈現(xiàn)的工具,諸如用于導(dǎo)航的垂直 和/或水平滾動(dòng)條以及用于確定一區(qū)域是否可被查看的工具欄按鈕。例如,用戶 可以與耦合到個(gè)性化組件1002的一個(gè)或多個(gè)組件交互。用戶還可例如經(jīng)由諸如鼠標(biāo)、滾球、鍵區(qū)、鍵盤、筆和/或語音激活等各 種設(shè)備來與各區(qū)域交互以選擇并提供信息。通常,諸如鍵盤上的按鈕或回車鍵 等機(jī)制可用于隨后輸入信息以啟動(dòng)搜索。然而,可以理解,所要求保護(hù)的主題 不限于此。例如,僅僅高亮一復(fù)選框可啟動(dòng)信息傳送。在另一示例中,可采用 命令行界面。例如,該命令行界面可提示(例如,經(jīng)由顯示畫面上的文本消息 和音頻音調(diào))用戶通過提供文本消息來輸入信息。用戶然后可提供合適的信息, 諸如對(duì)應(yīng)于該界面提示中提供的選項(xiàng)的字母數(shù)字輸入,或?qū)μ崾局兴岢龅膯?題的回答??梢岳斫?,該命令行界面可結(jié)合GUI和/或API—起使用。另外, 該命令行界面可以結(jié)合具有有限圖形支持和/或低帶寬通信信道的硬件(例如, 顯卡)和/或顯示器(例如,黑白以及EGA) —起使用。圖11-12示出了根據(jù)所要求保護(hù)的主題的方法。為了簡(jiǎn)化解釋,該方法被 示出并描述為一系列動(dòng)作??梢岳斫夂兔靼?,本發(fā)明不受所示的動(dòng)作和/或動(dòng)作 的次序的限制,例如,動(dòng)作可以按各種次序和/或并發(fā)地發(fā)生,以及與此處未示 出和描述的其它動(dòng)作一起發(fā)生。此外,并非所有示出的動(dòng)作都是實(shí)現(xiàn)根據(jù)所要 求保護(hù)的主題的方法所必需的。另外,本領(lǐng)域的技術(shù)人員可以理解和明白,方 法可經(jīng)由狀態(tài)圖或事件被替換地表示為一系列相互關(guān)連的狀態(tài)。另外,還應(yīng)當(dāng) 理解,以下且在整個(gè)說明書中公開的方法能夠被儲(chǔ)存在制品上以便于將這些方 法傳輸并轉(zhuǎn)移到計(jì)算機(jī)。如此處所使用的術(shù)語制品旨在包含可從任何計(jì)算機(jī)可 讀設(shè)備、載體或介質(zhì)訪問的計(jì)算機(jī)程序。圖11示出了用書寫變體數(shù)據(jù)來訓(xùn)練至少一個(gè)分類器以提供手寫識(shí)別的方法IIOO。在參考標(biāo)號(hào)1102處,可生成書寫變體數(shù)據(jù)。書寫變體數(shù)據(jù)可以自動(dòng) 地、手動(dòng)地和/或以其任意組合來生成。例如,書寫變體數(shù)據(jù)可以釆用任何適當(dāng) 的群集技術(shù)(以上討論)來自動(dòng)生成。換言之,可實(shí)現(xiàn)用于通過群集從手寫字 符中標(biāo)識(shí)書寫變體(例如,字符形狀和/或風(fēng)格)的自動(dòng)方法。在另一示例中, 書寫變體數(shù)據(jù)可以利用手寫專家來手動(dòng)提供,以便基于例如地理區(qū)域、學(xué)區(qū)、語言和書寫風(fēng)格等來提供與手寫相關(guān)聯(lián)的類型和/或風(fēng)格??梢岳斫猓梢源嬖?稱為"書寫變體"的用戶可松散地遵照的手寫字符風(fēng)格。已經(jīng)嘗試了構(gòu)建西方 手寫風(fēng)格的分類表,但是至今沒有一種嘗試存在。盡管如此,在任何特定國(guó)家 的學(xué)校系統(tǒng)中,仍在教授少數(shù)手寫風(fēng)格,并且在任何給定的學(xué)區(qū)中采用一特定 的風(fēng)格。在參考標(biāo)號(hào)1104處,可利用書寫變體數(shù)據(jù)來訓(xùn)練分類器。例如,書寫變 體神經(jīng)網(wǎng)絡(luò)(NN)識(shí)別器可以與線性分類器級(jí)聯(lián),其中來自NN的輸出可以 將字符特征矢量映射到字符書寫變體數(shù)據(jù)??墒褂迷摃鴮懽凅w數(shù)據(jù)來訓(xùn)練線性 組合器(例如,書寫變體折疊器)。可以理解,該經(jīng)書寫變體訓(xùn)練的分類器可 以與經(jīng)非書寫變體訓(xùn)練的分類器組合以提高對(duì)于手寫識(shí)別的準(zhǔn)確度。在參考標(biāo)號(hào)1106處,可通過采用用書寫變體數(shù)據(jù)訓(xùn)練的分類器來對(duì)手寫字符提供經(jīng)優(yōu) 化的手寫識(shí)別。圖12示出了幫助提供經(jīng)優(yōu)化的手寫識(shí)別的方法1200。在參考標(biāo)號(hào)1202 處,可接收其上可實(shí)現(xiàn)手寫識(shí)別的手寫字符。在參考標(biāo)號(hào)1204處,可創(chuàng)建書寫變體并且可利用特征矢量。該書寫變體可以自動(dòng)地、手動(dòng)地和/或以其任意組 合來創(chuàng)建。例如,該書寫變體可以利用群集(例如,如上所述)來自動(dòng)創(chuàng)建。在參考標(biāo)號(hào)1206處,可用書寫變體數(shù)據(jù)來訓(xùn)練第一分類器,并且可用非 書寫變體數(shù)據(jù)來訓(xùn)練第二分類器。第一分類器可以是書寫變體分類器(例如, 如上所述的書寫變體NN)。第二分類器可以是基礎(chǔ)分類器(例如,如上所述 的基礎(chǔ)NN)。在參考標(biāo)號(hào)1208處,可組合第一和第二分類器的輸出。輸出組 合可通過諸如但不限于線性分類器(例如,lin組合器)、個(gè)性化器、RBF內(nèi) 核、支持矢量機(jī)(SVM)等的任何適當(dāng)?shù)慕M合器來實(shí)現(xiàn)。通過組合第一和第二 分類器的輸出,可對(duì)接收的手寫字符提供優(yōu)化且出眾的手寫識(shí)別。為了提供用于實(shí)現(xiàn)所要求保護(hù)的主題的各方面的附加上下文,圖13-14及以下討論旨在提供其中可實(shí)現(xiàn)本發(fā)明的各方面的合適的計(jì)算環(huán)境的簡(jiǎn)要、概括 描述。例如,如在先前各圖中所描述的,利用用書寫變體數(shù)據(jù)訓(xùn)練的至少一個(gè) 分類器來提供經(jīng)優(yōu)化的和/或增強(qiáng)的手寫識(shí)別的個(gè)性化組件可在這一合適的計(jì) 算環(huán)境中實(shí)現(xiàn)。盡管所要求保護(hù)的主題是在可運(yùn)行在本地計(jì)算機(jī)和/或遠(yuǎn)程計(jì)算 機(jī)上的計(jì)算機(jī)程序的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述的,然而本領(lǐng)域的 技術(shù)人員可以認(rèn)識(shí)到,本發(fā)明也可結(jié)合其它程序模塊來實(shí)現(xiàn)。 一般而言,程序 模塊包括執(zhí)行特定的任務(wù)和/或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型的例程、程序、組件、 數(shù)據(jù)結(jié)構(gòu)等等。此外,本領(lǐng)域的技術(shù)人員可以理解,本發(fā)明的方法可以采用其它計(jì)算機(jī)系 統(tǒng)配置來實(shí)施,包括單處理器或多處理器計(jì)算機(jī)系統(tǒng)、小型機(jī)、大型計(jì)算機(jī), 以及個(gè)人計(jì)算機(jī)、手持式計(jì)算設(shè)備、基于微處理器和/或可編程消費(fèi)電子產(chǎn)品等 等,其每一個(gè)可以在操作上與一個(gè)或多個(gè)相關(guān)聯(lián)的設(shè)備通信。所示的所要求保 護(hù)的主題的各方面也可以在其中某些任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè) 備來執(zhí)行的分布式計(jì)算環(huán)境中實(shí)施。然而,本發(fā)明的某些(如果不是全部)方 面可在獨(dú)立計(jì)算機(jī)上實(shí)施。在分布式計(jì)算環(huán)境中,程序模塊可以位于本地和/ 或遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。圖13是所要求保護(hù)的主題可與其交互的示例計(jì)算環(huán)境1300的示意框圖。系統(tǒng)1300包括一個(gè)或多個(gè)客戶機(jī)1310??蛻魴C(jī)1310可以是硬件和/或軟件(如, 線程、進(jìn)程、計(jì)算設(shè)備)。系統(tǒng)1300也包括一個(gè)或多個(gè)服務(wù)器1320。服務(wù)器 1320也可以是硬件和/或軟件(如,線程、進(jìn)程、計(jì)算設(shè)備)。例如,服務(wù)器 1320可容納線程,以通過使用本發(fā)明執(zhí)行變換??蛻魴C(jī)1310和服務(wù)器1320之間的一個(gè)可能的通信可以是適用于在兩個(gè)或 多個(gè)計(jì)算機(jī)進(jìn)程之間傳輸?shù)臄?shù)據(jù)分組的形式。系統(tǒng)1300包括可用于便于在客 戶機(jī)1310和服務(wù)器1320之間通信的通信框架1340??蛻魴C(jī)1310操作上連接 至可用于儲(chǔ)存對(duì)客戶機(jī)1310本地的信息的一個(gè)或多個(gè)客戶機(jī)數(shù)據(jù)存儲(chǔ)1350。 類似地,服務(wù)器1320操作上連接至可用于儲(chǔ)存對(duì)服務(wù)器1320本地的信息的一 個(gè)或多個(gè)服務(wù)器數(shù)據(jù)存儲(chǔ)1330。參考圖14,用于實(shí)現(xiàn)所要求保護(hù)的主題的各方面的示例性環(huán)境1400包括 計(jì)算機(jī)1412。計(jì)算機(jī)1412包括處理單元1414、系統(tǒng)存儲(chǔ)器1416和系統(tǒng)總線221418。系統(tǒng)總線1418將包括但不限于系統(tǒng)存儲(chǔ)器1416的系統(tǒng)組件耦合至處理 單元1414。處理單元1414可以是各種可用處理器的任一種。雙微處理器和其 它多處理器體系結(jié)構(gòu)也可用作處理單元1414。系統(tǒng)總線1418可以是若干種總線結(jié)構(gòu)類型的任一種,包括存儲(chǔ)器總線或 存儲(chǔ)器控制器、外圍總線或外部總線、和/或使用各類總線體系結(jié)構(gòu)的局部總線, 這些體系結(jié)構(gòu)包括但不限于,工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)、微通道體系結(jié)構(gòu)(MCA)、擴(kuò)展ISA (EISA)、智能驅(qū)動(dòng)電子設(shè)備(IDE) 、 VESA局部總線(VLB)、外圍部件互連(PCI),卡總線、通用串行總線(USB)、高級(jí)圖 形端口 (AGP)、個(gè)人計(jì)算機(jī)存儲(chǔ)卡國(guó)際協(xié)會(huì)總線(PCMCIA)、火線(IEEE 1394)以及小型計(jì)算機(jī)系統(tǒng)接口 (SCSI)。系統(tǒng)存儲(chǔ)器1416包括易失性存儲(chǔ)器1420和非易失性存儲(chǔ)器1422?;?輸入/輸出系統(tǒng)(BIOS)包括如在啟動(dòng)時(shí)幫助在計(jì)算機(jī)1412內(nèi)的元件之間傳輸 信息的基本例程,通常儲(chǔ)存在非易失性存儲(chǔ)器1422中。作為說明而非局限, 非易失性存儲(chǔ)器1422可包括只讀存儲(chǔ)器(ROM)、可編程ROM (PROM)、 電可編程ROM (EPROM)、電可擦除可編程ROM (EEPROM)或閃存。易 失性存儲(chǔ)器1420包括擔(dān)當(dāng)外部高速緩存的隨機(jī)存取存儲(chǔ)器(RAM)。作為說 明而非局限,RAM以許多形式可用,如靜態(tài)RAM (SRAM)、動(dòng)態(tài)RAM(DRAM)、同步DRAM (SDRAM)、雙數(shù)據(jù)率SDRAM (DDR SDRAM)、 增強(qiáng)型SDRAM (ESDRAM)、同步鏈路(Synchlink) DRAM (SLDRAM)、 存儲(chǔ)器總線(Rambus)直接RAM (RDRAM)、直接存儲(chǔ)器總線動(dòng)態(tài)RAM(DRDRAM)以及存儲(chǔ)器總線動(dòng)態(tài)RAM (RDRAM)。計(jì)算機(jī)1412也包括可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。 例如,圖14示出了盤存儲(chǔ)1424。盤存儲(chǔ)1424包括但不限于,諸如磁盤驅(qū)動(dòng)器、 軟盤驅(qū)動(dòng)器、磁帶驅(qū)動(dòng)器、Jaz驅(qū)動(dòng)器、Zip驅(qū)動(dòng)器、LS-100驅(qū)動(dòng)器、閃存卡 或記憶棒等設(shè)備。另外,盤存儲(chǔ)1424可單獨(dú)包括存儲(chǔ)介質(zhì)或與其它存儲(chǔ)介質(zhì) 組合,其它存儲(chǔ)介質(zhì)包括但不限于,諸如緊致盤ROM設(shè)備(CD-ROM) 、 CD 可記錄驅(qū)動(dòng)器(CD-R驅(qū)動(dòng)器)、CD可重寫驅(qū)動(dòng)器(CD-RW驅(qū)動(dòng)器)或數(shù)字 多功能盤ROM驅(qū)動(dòng)器(DVD-ROM)等光盤驅(qū)動(dòng)器。為便于盤存儲(chǔ)設(shè)備1424 連接到系統(tǒng)總線1418,通常使用可移動(dòng)或不可移動(dòng)接口,如接口 1426??梢岳斫?,圖14描述了擔(dān)當(dāng)用戶和合適的操作環(huán)境1400中描述的基本計(jì)算機(jī)資源之間的中介的軟件。這類軟件包括操作系統(tǒng)1428。操作系統(tǒng)1428可 儲(chǔ)存在盤存儲(chǔ)1424中,它用于控制并分配計(jì)算機(jī)系統(tǒng)1412的資源。系統(tǒng)應(yīng)用 程序1430利用操作系統(tǒng)1428通過儲(chǔ)存在系統(tǒng)存儲(chǔ)器1416或盤存儲(chǔ)1424上的 程序模塊1432和程序數(shù)據(jù)1434對(duì)資源的管理??梢岳斫?,本發(fā)明可用各種操 作系統(tǒng)或操作系統(tǒng)的組合來實(shí)現(xiàn)。用戶通過輸入設(shè)備1436向計(jì)算機(jī)1412輸入命令和信息。輸入設(shè)備1436 包括但不限于,諸如鼠標(biāo)、跟蹤球、指示筆、觸摸墊等定點(diǎn)設(shè)備、鍵盤、話筒、 操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀、TV調(diào)諧卡、數(shù)碼相機(jī)、數(shù)碼攝 像機(jī)、web攝像頭等等。這些和其它輸入設(shè)備通過系統(tǒng)總線1418經(jīng)由接口端 口 1438連接到處理單元1414。接口端口 1438包括,例如,串行端口、并行端 口、游戲端口以及通用串行總線(USB)。輸出設(shè)備1440使用與輸入設(shè)備1436 相同類型端口中的某一些。由此,例如,USB端口可用于向計(jì)算機(jī)1412提供 輸入,并從計(jì)算機(jī)1412輸出信息到輸出設(shè)備1440。提供了輸出適配器1442 以說明存在一些輸出設(shè)備1440,如監(jiān)視器、揚(yáng)聲器和打印機(jī),以及需要特殊適 配器的其它輸出設(shè)備1440。輸出適配器1442包括,作為說明而非局限,提供 輸出設(shè)備1440和系統(tǒng)總線1418之間的連接裝置的顯卡和聲卡。應(yīng)當(dāng)注意,其 它設(shè)備和/或設(shè)備的系統(tǒng)提供了輸入和輸出能力,如遠(yuǎn)程計(jì)算機(jī)1444。計(jì)算機(jī)1412可以使用到一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī),如遠(yuǎn)程計(jì)算機(jī)1444的邏 輯連接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)1444可以是個(gè)人計(jì)算機(jī)、服務(wù)器、 路由器、網(wǎng)絡(luò)PC、工作站、基于微處理器的電器、對(duì)等設(shè)備或其它常見的網(wǎng) 絡(luò)節(jié)點(diǎn)等等,并通常包括相對(duì)于計(jì)算機(jī)1412所描述的許多或所有元件。為簡(jiǎn) 明起見,僅對(duì)遠(yuǎn)程計(jì)算機(jī)1444示出了存儲(chǔ)器存儲(chǔ)設(shè)備1446。遠(yuǎn)程計(jì)算機(jī)1444 通過網(wǎng)絡(luò)接口 1448邏輯上連接至計(jì)算機(jī)1412,然后通過通信連接1450物理地 連接。網(wǎng)絡(luò)接口 1448包含諸如局域網(wǎng)(LAN)和廣域網(wǎng)(WAN)等有線和/ 或無線通信網(wǎng)絡(luò)。LAN技術(shù)包括光纖分布式數(shù)據(jù)接口 (FDDI)、銅纜分布式 數(shù)據(jù)接口 (CDDI)、以太網(wǎng)、令牌環(huán)等等。WAN技術(shù)包括但不限于,點(diǎn)對(duì)點(diǎn) 鏈路、諸如綜合業(yè)務(wù)數(shù)字網(wǎng)(ISDN)及其變體等電路交換網(wǎng)絡(luò)、分組交換網(wǎng) 絡(luò)以及數(shù)字用戶線(DSL)。24通信連接1450指用于將網(wǎng)絡(luò)接口 1448連接到總線1418的硬件/軟件。盡 管為說明的清晰性,示出通信連接1450在計(jì)算機(jī)1412內(nèi),然而它也可以對(duì)計(jì) 算機(jī)1412是外部的。僅出于示例性目的,連接到網(wǎng)絡(luò)接口 1448所必需的硬件 /軟件包括內(nèi)部和外部技術(shù),如包括常規(guī)電話級(jí)調(diào)制解調(diào)器、線纜調(diào)制解調(diào)器和 DSL調(diào)制解調(diào)器的調(diào)制解調(diào)器、ISDN適配器和以太網(wǎng)卡。上文所描述的包括本發(fā)明的示例。當(dāng)然,不可能為了描述所要求保護(hù)的主 題而描述組件或方法的每一可想象的組合,但是本領(lǐng)域的普通技術(shù)人員可以認(rèn) 識(shí)到,本發(fā)明的許多另外的組合和置換是可能的。因此,所要求保護(hù)的主題旨 在包含落入所附權(quán)利要求書的精神和范圍中的所有這樣的改變、修改和變化。特別地,關(guān)于由上述組件、設(shè)備、電路、系統(tǒng)等執(zhí)行的各種功能,除非另 外指明,否則用于描述這些組件的術(shù)語(包括對(duì)"裝置"的敘述)旨在對(duì)應(yīng)于 執(zhí)行所描述的組件的指定功能的任何組件(例如,功能上等效),即使在結(jié)構(gòu) 上不等效于所公開的執(zhí)行此處所示的所要求保護(hù)的主題的示例性方面中的功 能的結(jié)構(gòu)。在這一點(diǎn)上,還將認(rèn)識(shí)到,本發(fā)明包括系統(tǒng)以及具有用于執(zhí)行所要 求保護(hù)的主題的各種方法的動(dòng)作和/或事件的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀 介質(zhì)。另外,盡管本發(fā)明的具體特征是僅參考幾種實(shí)現(xiàn)中的一種來公開的,但是 如對(duì)任何給定或特定應(yīng)用所需且有利的,這一特征可以與其它實(shí)現(xiàn)的一個(gè)或多 個(gè)其它特征組合。此外,就在說明書和權(quán)利要求書中使用術(shù)語"包括"及其變 體而言,這類術(shù)語旨在以與術(shù)語"包含"類似的方式為包含性的。
權(quán)利要求
1.一種幫助分析手寫的系統(tǒng),包括接收至少一個(gè)手寫字符的接口組件;以及基于與手寫風(fēng)格相關(guān)的書寫變體數(shù)據(jù)來訓(xùn)練一分類器以提供對(duì)所述至少一個(gè)手寫字符的手寫識(shí)別的個(gè)性化組件。
2. 如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括生成書寫變體數(shù)據(jù)的 書寫變體組件。
3. 如權(quán)利要求2所述的系統(tǒng),其特征在于,所述書寫變體組件利用群集 技術(shù)自動(dòng)生成書寫變體數(shù)據(jù)。
4. 如權(quán)利要求2所述的系統(tǒng),其特征在于,所述群集技術(shù)的結(jié)果被可視 化為二叉樹和相異性樹圖中的至少一種。
5. 如權(quán)利要求3所述的系統(tǒng),其特征在于,所述群集技術(shù)是利用動(dòng)態(tài)時(shí) 間扭曲作為距離度量的分層附聚群集方法。
6. 如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括采用第一識(shí)別器的分 類器組件,所述第一識(shí)別器是利用多項(xiàng)式特征技術(shù)來提供其輸入的書寫變體神 經(jīng)網(wǎng)絡(luò)(書寫變體NN)。
7. 如權(quán)利要求6所述的系統(tǒng),其特征在于,所述書寫變體NN是利用書 寫變體數(shù)據(jù)來訓(xùn)練的。
8. 如權(quán)利要求6所述的系統(tǒng),其特征在于,所述第一識(shí)別器和所述書寫 變體NN利用簡(jiǎn)單折疊器、線性折疊器和書寫變體折疊器中的至少一個(gè)。
9. 如權(quán)利要求6所述的系統(tǒng),其特征在于,所述分類器組件采用第二識(shí) 別器,所述第二識(shí)別器是利用多項(xiàng)式特征技術(shù)來提供其輸入的基礎(chǔ)神經(jīng)網(wǎng)絡(luò)(基礎(chǔ)NN)。
10. 如權(quán)利要求9所述的系統(tǒng),其特征在于,所述基礎(chǔ)NN是利用非書寫 變體數(shù)據(jù)來訓(xùn)練的。
11. 如權(quán)利要求9所述的系統(tǒng),其特征在于,還包括能夠組合所述第一識(shí) 別器輸出和所述第二識(shí)別器輸出的組合組件。
12. 如權(quán)利要求11所述的系統(tǒng),其特征在于,所述組合組件采用線性組合器和線性分類器中的至少一個(gè)。
13. 如權(quán)利要求11所述的系統(tǒng),其特征在于,所述組合組件采用能夠從數(shù)據(jù)中學(xué)習(xí)的組合分類器。
14. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述組合分類器是支持矢 量機(jī)。
15. 如權(quán)利要求14所述的系統(tǒng),其特征在于,所述支持矢量機(jī)利用來自 用戶的手寫樣本進(jìn)行學(xué)習(xí)以便最優(yōu)地組合所述第一識(shí)別器輸出和所述第二識(shí)別器輸出。
16. 如權(quán)利要求l所述的系統(tǒng),其特征在于,所述個(gè)性化組件考慮因邊緣 引起的質(zhì)量劣化來推斷所述手寫字符。
17. 如權(quán)利要求l所述的系統(tǒng),其特征在于,所述書寫變體數(shù)據(jù)可以至少 部分地基于以下的至少一個(gè)地理區(qū)域、學(xué)區(qū)、語言以及書寫風(fēng)格。
18. —種幫助提供手寫識(shí)別的機(jī)器實(shí)現(xiàn)的方法,包括 生成書寫變體數(shù)據(jù);利用所述書寫變體數(shù)據(jù)來訓(xùn)練第一分類器;以及 提供對(duì)手寫字符的經(jīng)優(yōu)化的手寫識(shí)別。
19. 如權(quán)利要求18所述的方法,其特征在于,還包括接收手寫字符;自動(dòng)創(chuàng)建書寫變體數(shù)據(jù)并應(yīng)用一特征矢量; 用非書寫變體數(shù)據(jù)來訓(xùn)練第二分類器;以及利用線性組合器、個(gè)性化器、支持矢量機(jī)(SVM)、以及組合分類器中 的至少一個(gè)來組合所述第一和第二分類器的輸出。
20. —種幫助分析手寫的機(jī)器實(shí)現(xiàn)的系統(tǒng),包括 用于接收至少一個(gè)手寫字符的裝置;以及用于基于與手寫風(fēng)格相關(guān)的書寫變體數(shù)據(jù)來訓(xùn)練一分類器以提供對(duì)所述 至少一個(gè)手寫字符的手寫識(shí)別的裝置。
全文摘要
所要求保護(hù)的主題提供了幫助分析和/或識(shí)別手寫字符的系統(tǒng)和/或方法。一接口組件接收至少一個(gè)手寫字符。一個(gè)性化組件可基于與手寫風(fēng)格相關(guān)的書寫變體來訓(xùn)練分類器以提供對(duì)該至少一個(gè)手寫字符的手寫識(shí)別。另外,該個(gè)性化組件可采用任何適當(dāng)?shù)慕M合器來提供經(jīng)優(yōu)化的識(shí)別。
文檔編號(hào)G06F17/00GK101331476SQ200680047187
公開日2008年12月24日 申請(qǐng)日期2006年12月18日 優(yōu)先權(quán)日2005年12月19日
發(fā)明者A·A·阿布杜勒卡德, K·H·切拉皮拉, P·Y·西瑪?shù)?申請(qǐng)人:微軟公司