專利名稱:自適應(yīng)手寫識(shí)別的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明主要涉及手寫識(shí)別,更具體地,本發(fā)明涉及利用一般和特定用戶分類器的自適應(yīng)手寫識(shí)別的系統(tǒng)和方法。
發(fā)明的背景計(jì)算機(jī)已成為社會(huì)生活不可分割的一部分——人們每天更依賴于這項(xiàng)技術(shù)以利于工作和休閑活動(dòng)。這項(xiàng)技術(shù)的一個(gè)重大缺點(diǎn)是相比于其所起作用的“模擬”世界它具有“數(shù)字”屬性。計(jì)算技術(shù)工作于需要識(shí)別離散狀態(tài)來(lái)使得信息得以處理的數(shù)字領(lǐng)域。用簡(jiǎn)單的話來(lái)說(shuō),信息必須以一連串“開”和“關(guān)”的狀態(tài)輸入計(jì)算系統(tǒng)中。但是,人類生活在一個(gè)特殊的模擬世界,其中出現(xiàn)的事物決不是完全的黑或白,而看起來(lái)總是介于兩者之間或模棱兩可的。因此,數(shù)字和模擬之間的主要區(qū)別是數(shù)字需要隨時(shí)間而間斷的離散狀態(tài)(例如,不同的等級(jí)),而模擬是一直連續(xù)的。由于人類自然地以模擬的方式進(jìn)行操作,所以計(jì)算技術(shù)在同“非數(shù)字實(shí)體”或人類交互時(shí)已發(fā)展以減少它所具有的影響。
一組結(jié)構(gòu)化按鍵是最早的人機(jī)接口裝置之一,常用于打字機(jī)中。該接口系統(tǒng)適應(yīng)于交互,不是與機(jī)械按鍵和紙交互,而是適應(yīng)于觸發(fā)傳送至計(jì)算系統(tǒng)的離散狀態(tài)。因而,開發(fā)了計(jì)算機(jī)“鍵盤”,使人們能利用現(xiàn)有的熟悉接口結(jié)合不熟悉的技術(shù)。這簡(jiǎn)化了到計(jì)算機(jī)時(shí)代的過(guò)渡。不幸的是,不是每個(gè)想使用計(jì)算機(jī)的人都知道如何打字。這限制了能充分使用計(jì)算技術(shù)的計(jì)算機(jī)用戶的數(shù)量。對(duì)此,一種解決方法是引入圖形用戶接口,使用戶能從計(jì)算監(jiān)視器中選擇圖片來(lái)使計(jì)算機(jī)進(jìn)行工作。因此,常用被稱為“鼠標(biāo)”的指點(diǎn)和選擇裝置獲得對(duì)計(jì)算系統(tǒng)的控制。這就允許更多(數(shù)量)的人不用學(xué)習(xí)使用鍵盤就能利用計(jì)算技術(shù)。雖然,這類裝置使得使用計(jì)算技術(shù)變得更容易,但是它還沒有解決人類時(shí)代通信的老方法——手寫。
最初,技術(shù)著眼于嘗試向計(jì)算機(jī)輸入現(xiàn)有的用打字機(jī)打出的或已排字的信息。起先,使用掃描儀或光學(xué)圖片來(lái)“數(shù)字化”圖象(例如,向計(jì)算系統(tǒng)輸入圖象)。一旦圖象能被數(shù)字化到計(jì)算系統(tǒng)中,隨后,印好的或已排字的材料也能被數(shù)字化。但是,掃描的文本頁(yè)的圖象在傳給計(jì)算系統(tǒng)后不能作為文本被操縱。字符和單詞是“圖片”,不是實(shí)際可編輯的文本。因此,發(fā)展了光學(xué)字符識(shí)別(OCR)技術(shù),利用掃描技術(shù)將文本數(shù)字化為可編輯的頁(yè)。如果使用特定的文本字體使OCR軟件能夠?qū)呙璧膱D象轉(zhuǎn)化為可編輯文本,那么這項(xiàng)技術(shù)工作得相當(dāng)好。最初,這項(xiàng)技術(shù)只有大約50%到60%的正確率,但今天它已提高到接近98%到99%或更高的正確率。OCR技術(shù)甚至已發(fā)展到不僅能考慮識(shí)別文本字符,而且能保持圖形、頁(yè)格式甚至是字體特征的階段。
隨后,OCR技術(shù)達(dá)到的正確率水平,使得嘗試使用它來(lái)識(shí)別手寫似乎變得實(shí)際。畢竟,如果它能直接數(shù)字化到計(jì)算系統(tǒng)中,為什么還要通過(guò)鍵盤將手寫變換到文本?該方法的問題在于現(xiàn)有的OCR技術(shù)被調(diào)節(jié)為識(shí)別受限的或有限的可能種字體的選擇。因此,它能通過(guò)與預(yù)先存在的字體數(shù)據(jù)庫(kù)作比較來(lái)“識(shí)別”字符。如果字體是不連貫的,OCR軟件會(huì)返回陌生或“非存在”的字符,表明它沒有識(shí)別出該文本。手寫實(shí)為該問題的一個(gè)更為極端的情況。人在書寫的時(shí)候,他們自己的特殊風(fēng)格通過(guò)其書法體現(xiàn)出來(lái)。由于這種唯一性將人們同其它的每個(gè)人區(qū)分開來(lái),所以在法律文檔中使用簽名。正是由于這一特性,所以手寫甚至對(duì)于同個(gè)字符都有無(wú)限多的形態(tài)。顯然,為特定的字符存儲(chǔ)每個(gè)可能的手寫形態(tài)是不可能的。需要采取其它方法來(lái)使手寫識(shí)別成為實(shí)際。
在手寫識(shí)別上的一個(gè)更早嘗試包括了實(shí)際上根本不是手寫的“手寫”。系統(tǒng)通過(guò)“板”或能被數(shù)字化和轉(zhuǎn)化入該系統(tǒng)的書寫表面,使用“筆劃”或線作為計(jì)算系統(tǒng)的輸入。雖然,過(guò)去嘗試使筆劃完全成為被打印文本字母的象征,但是計(jì)算系統(tǒng)實(shí)際不識(shí)別手寫。實(shí)際上,這種方法實(shí)際地迫使人們?nèi)ミm應(yīng)所使用的機(jī)器或系統(tǒng)。之后,取得了進(jìn)一步的發(fā)展,實(shí)際地識(shí)別真正的手寫。此外,如果要求系統(tǒng)匹配字母每個(gè)可能的變化到給定數(shù)據(jù)庫(kù)中的一個(gè)字母,將耗費(fèi)無(wú)數(shù)的處理資源和時(shí)間。所以,一些最初的改進(jìn)是在至少是有限,即使是巨大的可能性群組的領(lǐng)域中取得的。結(jié)果技術(shù)對(duì)諸如郵件排序等操作(證明)是無(wú)價(jià)的。在這種情況下,可嘗試光學(xué)地識(shí)別諸如一個(gè)城市的名字。如果計(jì)算系統(tǒng)不能“理解”該名字,那么它可使用諸如一封郵件是來(lái)自哪個(gè)州以及系統(tǒng)是否識(shí)別城市名稱中至少一些字符等的上下文環(huán)境。這使得查找工作得以在州城市名稱的數(shù)據(jù)庫(kù)中繼續(xù)進(jìn)行,與此同時(shí)常消除差異導(dǎo)致更高地產(chǎn)生“可讀”地址。
當(dāng)然,在美國(guó)采用郵政編碼最小化了OCR技術(shù)讀取名字地址的重要性。因此,該技術(shù)主要的重點(diǎn)在于只識(shí)別數(shù)字而不是字母。它將所需的轉(zhuǎn)換限定于只是10個(gè)字符(O到9)。但是,依賴于地址、教育和其它因素,人們學(xué)寫的數(shù)字各不相同。最普通的變化數(shù)字是“2”和“4”。通常,人們書寫的2帶有或不帶有一個(gè)圈,所寫的4’上面或者閉或開。這些同一字符的不同變化手寫技術(shù)都要考慮,以便同一字符的不同變化都能被計(jì)算系統(tǒng)解釋為同個(gè)字符。由于具有有限的字符數(shù)量,并因而有數(shù)量的允許變化,OCR技術(shù)工作得非常高效。
可以理解的是識(shí)別數(shù)字是正確方向的第一步。但,大部分計(jì)算系統(tǒng)用戶更愿意系統(tǒng)直接識(shí)別字母表中的所有字符和諸如“#”“$”等特殊字符,而不只是數(shù)字。人們更喜歡要求機(jī)器去學(xué)習(xí)他們而不是去適應(yīng)機(jī)器的工作方式。所以,“學(xué)習(xí)”計(jì)算系統(tǒng)已逐漸形成以促進(jìn)人機(jī)接口的領(lǐng)域。通過(guò)使計(jì)算系統(tǒng)理解唯一的用戶手寫體的技術(shù),手寫識(shí)別已進(jìn)入更先進(jìn)的水平。在這種上下文環(huán)境中,使用各種方法來(lái)準(zhǔn)確地解釋和使用用戶在一段時(shí)間中的輸入。為加快學(xué)習(xí)過(guò)程,技術(shù)常常需要結(jié)構(gòu)化的用戶輸入或“注冊(cè)”信息來(lái)提高其性能。典型的注冊(cè)需要用戶書寫字符、數(shù)字、特殊字符和某些段落以調(diào)教計(jì)算系統(tǒng)用于識(shí)別。目前,這可能是非常漫長(zhǎng)的過(guò)程,通常在得到高正確率之前要花費(fèi)大量的時(shí)間。
雖然訓(xùn)練手寫識(shí)別的技術(shù)看起來(lái)很費(fèi)力,但是通過(guò)傳統(tǒng)計(jì)算系統(tǒng)接口具有這種能力的好處是巨大的。目前,多用戶向系統(tǒng)輸入信息的最有效方式是通過(guò)鍵盤。這是因?yàn)殒I盤在設(shè)計(jì)上常常是通用的,所以始終是標(biāo)準(zhǔn)接口,可容易地被許多不同的用戶使用。但是,對(duì)鍵盤的人體工程學(xué)(例如,使用裝置的人的舒適度)要求按鍵間隔特定的距離。這就驅(qū)使整個(gè)鍵盤只能到某個(gè)最小尺寸,使之不便于被便攜使用。雖然手持計(jì)算裝置等小巧而且易于攜帶,但是利用隱秘的筆劃識(shí)別和/或獲取技術(shù)對(duì)這些類型的裝置進(jìn)行數(shù)據(jù)輸入傾向于使得這些裝置的使用沉悶冗長(zhǎng)。用戶再次被要求來(lái)學(xué)習(xí)機(jī)器而不是機(jī)器學(xué)習(xí)用戶。一些制造商已嘗試生產(chǎn)更小更緊湊的鍵盤來(lái)克服這個(gè)不足,但這些“改進(jìn)”已證實(shí)為對(duì)用戶不便,因?yàn)榻Y(jié)果裝置是或者笨重和/或非人性化的。便攜和非便攜計(jì)算裝置證實(shí)在用戶能夠通過(guò)普通的手寫直接輸入信息時(shí)最有價(jià)值。它使得這些裝置能被類似的熟練和不熟練的用戶所使用。
發(fā)明的摘要下面描述本發(fā)明的簡(jiǎn)單摘要以提供本發(fā)明一些方面的基本了解。摘要不是本發(fā)明的廣泛性總覽。它不打算確定本發(fā)明的重要/關(guān)鍵元素,也不想劃定本發(fā)明的范疇。它唯一的目的是以簡(jiǎn)化的形式提出本發(fā)明的一些概念作為后面陳述的更詳細(xì)描述的前奏。
本發(fā)明主要涉及手寫識(shí)別,更具體的是涉及使用一般和特定用戶分類器的自適應(yīng)手寫識(shí)別的系統(tǒng)和方法。手寫樣本的一般和特定用戶特征通過(guò)自適應(yīng)手寫系統(tǒng)被量化,向特定用戶手寫識(shí)別提供最低程度的特定用戶注冊(cè)數(shù)據(jù)。通過(guò)允許一般和特定用戶分類器以幫助識(shí)別過(guò)程,特定用戶手寫的特征能從一些樣本字符中抽取出來(lái),并用來(lái)快速確定手寫字符的特征,不只是通過(guò)用戶輸入來(lái)確定特征。這使得自適應(yīng)手寫系統(tǒng)能適應(yīng)于一些字符,而不需要用戶開始就輸入這些字符的樣例作為注冊(cè)或“訓(xùn)練”數(shù)據(jù)。由于可使用減少的注冊(cè)數(shù)據(jù)集,使用本發(fā)明的注冊(cè)時(shí)間大大減少,而同時(shí)保持手寫識(shí)別處理中的高正確率。本發(fā)明通過(guò)以一般特征和特定用戶特征的形式識(shí)別手寫樣本的特征,完成了這一點(diǎn)。它由一般分類器處理一般特征,而通過(guò)一個(gè)或更多的特定用戶分類器將特定用戶的特征進(jìn)一步分類。對(duì)特定分類器呈現(xiàn)非常類似的特定用戶特征的字符組成“捆綁集”。所以,特征可外推至捆綁集中的其它字符,而不需要用戶輸入該特定捆綁集的所有字符,使大大減少訓(xùn)練本發(fā)明分類器的注冊(cè)時(shí)間,減少用戶在訓(xùn)練手寫識(shí)別分類器中的所花的力氣和時(shí)間,同時(shí)還保持識(shí)別的正確率成為可能。
本發(fā)明也通過(guò)使一般和特定用戶分類器能夠交互來(lái)幫助手寫識(shí)別。它允許根據(jù)手寫樣本得到不同的粒度。所以,如果一般分類器能容易地辨別出特征,那么該特征就能被快速地識(shí)別。但是,可能不清楚或“糊涂”的數(shù)據(jù)通過(guò)“混淆規(guī)則”進(jìn)行處理,混淆規(guī)則使用特定用戶后處理器技術(shù)來(lái)分類屬于特定混淆規(guī)則的字符。在本發(fā)明中可使用不同類型的后處理器分類,例如,適應(yīng)MLLR(最大似然線性回歸)的密度模型、直接密度模型和直接判別模型等等。使用不同模型和分類器的靈活性使本發(fā)明能容易地與現(xiàn)有手寫識(shí)別技術(shù)集成。所以,本發(fā)明能利用基于從多個(gè)用戶集體觀察的一般分類器和/或通過(guò)其它不是本發(fā)明中特定用戶分類器的方法,從一般分類器適應(yīng)得到的特定用戶分類器以提高手寫識(shí)別系統(tǒng)從特定用戶識(shí)別數(shù)據(jù)的能力。
本發(fā)明也大大增強(qiáng)便攜式軟件產(chǎn)品,諸如微軟視窗XPTablet(平板)PC。Tablet PC通過(guò)使用戶能像用寫字板一樣使用顯示器而提供簡(jiǎn)易的筆和紙,用他們自己的手寫輸入信息。然后,手寫輸入信息被容易地轉(zhuǎn)換成文本供諸如軟件應(yīng)用程序等組件使用,例如字處理器、電子表格和郵件。使用諸如本發(fā)明所提供的數(shù)字識(shí)別系統(tǒng),用戶也能標(biāo)記導(dǎo)入手寫識(shí)別兼容的軟件程序中的現(xiàn)有文檔。本發(fā)明快速解釋和適應(yīng)用戶的手寫到如Tablet PC等產(chǎn)品所能識(shí)別的形式。沒有本發(fā)明,手寫解釋將耗費(fèi)更長(zhǎng)的時(shí)間來(lái)處理,而且正確率更低。所以,便攜產(chǎn)品能通過(guò)使用本發(fā)明的實(shí)例來(lái)增加它們的使用。
針對(duì)前述和相關(guān)的目標(biāo)的實(shí)現(xiàn),在此也描述與下面描述和附屬的圖表相關(guān)的本發(fā)明的某些示例方面。這些方面是提示性的,但也只是運(yùn)用本發(fā)明的原理的各種方法中一小部分,本發(fā)明想要包括所有這樣的方面和它們的對(duì)等物。本發(fā)明的其它優(yōu)點(diǎn)和創(chuàng)新特征將從下面結(jié)合圖例考慮的本發(fā)明的詳述中變得透明。
附圖的簡(jiǎn)述
圖1是依照本發(fā)明的一個(gè)方面,手寫識(shí)別系統(tǒng)的框圖。
圖2是依照本發(fā)明的一個(gè)方面,手寫觀察過(guò)程的框圖。
圖3是依照本發(fā)明的一個(gè)方面,手寫觀察過(guò)程的另一框圖。
圖4還是依照本發(fā)明的一個(gè)方面,手寫觀察過(guò)程的另一框圖。
圖5是依照本發(fā)明的一個(gè)方面,特征集的圖。
圖6是依照本發(fā)明的一個(gè)方面,手寫字符特征的圖。
圖7是依照本發(fā)明的一個(gè)方面,捆綁集的圖。
圖8是依照本發(fā)明的一個(gè)方面,字符組捆綁集的實(shí)例。
圖9是依照本發(fā)明的一個(gè)方面,混淆規(guī)則的示例。
圖10是依照本發(fā)明的一個(gè)方面,特定用戶分類器實(shí)例的框圖。
圖11是依照本發(fā)明的一個(gè)方面,構(gòu)造手寫識(shí)別系統(tǒng)方法的流程圖。
圖12是依照本發(fā)明的一個(gè)方面,使用手寫識(shí)別系統(tǒng)方法的流程圖。
圖13是依照本發(fā)明的一個(gè)方面,分類特定用戶數(shù)據(jù)方法的流程圖。
圖14示出在其中本發(fā)明能運(yùn)行的實(shí)例操作環(huán)境。
圖15示出在其中本發(fā)明能運(yùn)行的另一實(shí)例操作環(huán)境。
本發(fā)明的詳述現(xiàn)在參照附圖描述本發(fā)明,其中相同的參考數(shù)字總是用來(lái)指相同的元素。在下面的描述中,出于說(shuō)明的目的,闡述無(wú)數(shù)特定的細(xì)節(jié)來(lái)提供對(duì)本發(fā)明的徹底的理解。但是,應(yīng)當(dāng)清楚的是本發(fā)明的實(shí)施可以沒有這些特定的細(xì)節(jié)。在其它實(shí)例中,在框圖表中示出眾所周知的結(jié)構(gòu)和裝置以幫助描述本發(fā)明。
本申請(qǐng)中所用的術(shù)語(yǔ)“組件”想指的是計(jì)算機(jī)相關(guān)的實(shí)體,或者是硬件、硬件和軟件的組合、軟件,或者是執(zhí)行中的軟件。例如,組件可以是,但不限于,處理器上運(yùn)行的進(jìn)程、處理器、對(duì)象、可執(zhí)行的東西、執(zhí)行的線程、程序和/或計(jì)算機(jī)。作為示例,運(yùn)行在服務(wù)器上的應(yīng)用程序和服務(wù)器都可以是計(jì)算機(jī)的組件。一個(gè)或更多的組件可駐留在一個(gè)進(jìn)程和/或執(zhí)行的線程中,組件可位于一臺(tái)計(jì)算機(jī)上和/或分布于兩個(gè)或多個(gè)計(jì)算機(jī)之間?!熬€程”是進(jìn)程中的實(shí)體,由操作系統(tǒng)內(nèi)核調(diào)度執(zhí)行。正如本領(lǐng)域所熟知的,每個(gè)線程有關(guān)聯(lián)的“上下文環(huán)境”,它是與線程執(zhí)行相關(guān)聯(lián)的易失數(shù)據(jù)。線程的上下文環(huán)境包括系統(tǒng)注冊(cè)表的內(nèi)容和屬于線程的進(jìn)程的虛擬地址。所以,實(shí)際包含線程上下文環(huán)境的數(shù)據(jù)在其執(zhí)行時(shí)各有不同。
本發(fā)明包括使通用分類模型能夠適應(yīng)于特定用戶以提高用戶分類正確率的系統(tǒng)和方法。很短的注冊(cè)時(shí)間(只需要很少一些實(shí)例)和快速的適應(yīng)性是本發(fā)明的特征。對(duì)于已經(jīng)通過(guò)本發(fā)明適應(yīng)于用戶的分類器,分類是基于(第一)一般的分類模型(對(duì)于所有用戶)和(第二)用作后處理器的一組小分類模型的組合。后處理器模型是針對(duì)特定用戶的,所以或者是自適應(yīng)的和/或者是直接從注冊(cè)數(shù)據(jù)學(xué)習(xí)的。這些模型或“雙向”分類器作用于如下文所述的不同特征集。要注意的是在這設(shè)置中,可用通過(guò)其它不是本發(fā)明中特定用戶分類器的方法從一般分類器適應(yīng)得到的特定用戶分類器來(lái)代替一般識(shí)別器被使用,出于表達(dá)簡(jiǎn)易性的考慮,(語(yǔ)義上不確切地)在下面被稱作一般分類器。
通常,特征向量能被分成具有一般特征的一部分和特定用戶特征的一個(gè)或多個(gè)部分。典型地,如果觀察的值對(duì)所有用戶都很類似,那么選擇特征為一般特征,而如果觀察的值對(duì)所有用戶很不相同,僅僅是對(duì)特定用戶非常相似,那就選擇特征為特定用戶特征。對(duì)于單字符手寫識(shí)別,特征向量的一般部分可由例如比例形狀相關(guān)的特征組成,而用戶特定部分由大小和位置特征組成。作為例子,對(duì)特定字符的比例觀察可在所有用戶中表現(xiàn)得非常類似,而不同字符的大小和位置(不帶縮放)可占特定用戶手寫個(gè)性化特征的重要部分。
通常,本發(fā)明的一個(gè)實(shí)例包括三個(gè)方面。第一方面是一般分類模型或在從多個(gè)用戶的觀察上訓(xùn)練的“分類器”。該模型所用的特征可以只是一般特征,或者是一般和特定用戶特征。第二方面包括多注冊(cè)分類模型,他們或者首先在來(lái)自多個(gè)用戶的觀察上訓(xùn)練,稍后再通過(guò)特定用戶的簡(jiǎn)短注冊(cè)得到的觀察來(lái)自適應(yīng)該特定用戶,或者直接在得到的注冊(cè)數(shù)據(jù)上訓(xùn)練。在這些模型中使用的特征只是特定用戶特征。第三方面是用于組合一般和特定用戶注冊(cè)分類模型或分類器的系統(tǒng)和/或方法。
在圖1中,示出依照本發(fā)明一個(gè)方面的手寫識(shí)別系統(tǒng)100的框圖。手寫識(shí)別系統(tǒng)100包括至少具有一個(gè)一般分類器組件104和/或至少一個(gè)特定用戶分類器組件的106的識(shí)別組件102。在這個(gè)本發(fā)明的實(shí)例中,一般分類器組件104包括一般分類器#1-N 108-112,其中N代表從1到無(wú)窮的任意整數(shù)。特定用戶分類器組件106包括特定用戶分類器#1-M114-118,其中M代表從1到無(wú)窮的任何整數(shù)。識(shí)別組件102接收和分析手寫數(shù)據(jù)120??山Y(jié)合使用一般分類器組件104和特定用戶分類器組件106以利于識(shí)別組件102進(jìn)行分析。在本發(fā)明的一個(gè)實(shí)例中,使用一般分類器組件104來(lái)提供在用戶中非常類似的手寫數(shù)據(jù)的分類,并且使用特定用戶分類器組件106來(lái)幫助確定特定用戶數(shù)據(jù)的分類。
為了使本發(fā)明能有效地分析手寫,它從各種數(shù)據(jù)源進(jìn)行訓(xùn)練或?qū)W習(xí)以識(shí)別手寫的方方面面。見圖2,示出依照本發(fā)明一個(gè)方面,手寫觀察過(guò)程200的框圖。在這個(gè)本發(fā)明的實(shí)例中,手寫觀察過(guò)程200包括具有一般分類器#1-N204-208的一般分類器組件202,其中N代表從1到無(wú)窮的任意整數(shù),以及包含來(lái)自多用戶#1-X 212-216的數(shù)據(jù)的手寫觀察數(shù)據(jù)210,其中X表示從1到無(wú)窮的任意整數(shù)。在過(guò)程200中,一般分類器組件202根據(jù)來(lái)自多用戶212-216的數(shù)據(jù)210訓(xùn)練它的分類器204-208。所用的用于訓(xùn)練一般分類器組件202的觀察可包括一般特征和/或特定用戶特征。
轉(zhuǎn)至圖3,該圖描述依照本發(fā)明一個(gè)方面,手寫觀察過(guò)程300的另一框圖。在這個(gè)本發(fā)明的實(shí)例中,手寫觀察過(guò)程300包括具有特定用戶分類器#1-M304-308的特定用戶分類器組件302,其中M表示從1到無(wú)窮的任意整數(shù);包含來(lái)自多用戶#1-X 312-316的數(shù)據(jù)的手寫觀察數(shù)據(jù)310,其中X表示從1到無(wú)窮的任意整數(shù);以及特定用戶注冊(cè)數(shù)據(jù)318。在過(guò)程300中,特定用戶分類器組件302根據(jù)來(lái)自多用戶312-316的數(shù)據(jù)來(lái)訓(xùn)練它的分類器304-308,然后基于特定用戶注冊(cè)數(shù)據(jù)318自適應(yīng)它的分類器304-308。所用的用于訓(xùn)練特定用戶分類器組件302的觀察只包括特定用戶特征。
參照?qǐng)D4,示出依照本發(fā)明一個(gè)方面,手寫觀察過(guò)程400的另一框圖。在這個(gè)本發(fā)明的實(shí)例中,手寫觀察過(guò)程400包括具有特定用戶分類器#1-M 404-408的特定用戶分類器組件402,其中M表示從1到無(wú)窮的任意整數(shù),和特定用戶注冊(cè)數(shù)據(jù)410。在過(guò)程400中,特定用戶分類器組件202根據(jù)特定用戶注冊(cè)數(shù)據(jù)410訓(xùn)練其分類器404-408,然后基于特定用戶注冊(cè)數(shù)據(jù)410自適應(yīng)它的分類器404-408。所使用的用于訓(xùn)練特定用戶分類器組件402的觀察只包括特定用戶特征。
轉(zhuǎn)至圖5,該圖示出依照本發(fā)明一個(gè)方面,特征集502的圖。為了進(jìn)一步說(shuō)明具有一般和特定用戶方面的特征集的概念,特征集502包括一般特征Fg504,其下標(biāo)“g”表示任意的一般特征;而特定用戶特征Fp 506,其下標(biāo)“p”表示任何特定用戶(或人)的特征。特定用戶特征506包括子特征Fp1-Fpn508-512。形式上,完全特征集F=FgUFp1UFp2U…UFpn,其中Fg是一般特征,而Fpi,i=1,…,n是特定用戶特征的子集。
這個(gè)概念在圖6中進(jìn)一步示出,其中描述了依照本發(fā)明的一個(gè)方面,手寫字符特征600的圖。在該圖中,字符“A”602對(duì)于字符“B”604是一般和特定用戶交叉分析的。在此例中,分析了三個(gè)子屬性606,610,即字符的形狀、大小和位置。于是在“A”和“B”間進(jìn)行比較,確定字符間是否有任何子屬性606,610是“普通”或者是一般的。FgA表示“A”的形狀,它與表示“B”形狀的FgB作比較。在此例中,形狀視作一般特征,在“A”和“B”間是唯一的。因此,形狀子特征的一般分類器能容易地區(qū)分此例中的“A”和“B”。出于示例的目的,子特征大小和位置視為特定用戶特征。在比較字符間的大小和位置時(shí),它們是完全相同的。所以能認(rèn)為“A”的特定用戶子特征608也完全表示“B”的那些子特征612。因此,特定用戶分類器只需要注冊(cè)的字符中的一個(gè)來(lái)識(shí)別其它字符的這些特征,減少了識(shí)別該字符所需要的特定用戶注冊(cè)的數(shù)據(jù)量。
短暫的用戶注冊(cè)是與所選的特定用戶特征很類似但同時(shí)一般特征又很不同的許多字符/類而定。例如上面的手寫例子,在考慮一般形狀子特征時(shí),“A”和“B”很不相同,而在只考慮大小和位置時(shí)看起來(lái)卻完全相同。在學(xué)習(xí)可適應(yīng)的特定用戶模型時(shí),在“A”上的觀察所以同在“B”上的觀察一樣的好,因此,要包括所有的字符只需要更少的觀察。這個(gè)概念表示為“捆綁”,綁在一起的類/字符表示為“捆綁集”。經(jīng)常要將特定用戶特征分成多特征集。這些特征的不同子集或子特征表現(xiàn)得各不相同。例如,“f”和“g”在只考慮大小特征時(shí)看起來(lái)完全相同,但考慮到位置特征時(shí)卻很不相同。
特定用戶特征的不同子集可導(dǎo)致產(chǎn)生所考慮的類/字符的不同捆綁集,如圖7所示。在此圖中,示出依照本發(fā)明的一個(gè)方面,捆綁集的圖700。圖700由類/字符列702、Fp1捆綁特征類704 Fp2捆綁特征類706組成。圖700示出相對(duì)于各種類/字符的特定用戶子特征Fp1和Fp2間的關(guān)系。類/字符表示為數(shù)字0-9,但也可以是字母等等。從圖700可以看出Fp1捆綁特征類704包括第一和第二Fp1捆綁集714、716。第一Fp1捆綁集714將類/字符0-5連在一起作為Fp1表示的特定用戶子特征的一個(gè)方面。第二Fp1捆綁集716將類/字符6-9連在一起作為由Fp1表示的特定用戶子特征的另一方面。這允許對(duì)特定用戶的子特征作更多限定的注冊(cè)要求。因此,特定用戶只需要為特定捆綁集中的一個(gè)類/字符提供Fp1子特征的注冊(cè)數(shù)據(jù)。同樣地,F(xiàn)p2捆綁特征類706包括第一、第二和第三Fp2捆綁集718-722。第一Fp2捆綁集718將類/字符0-2連到一起作為Fp2表示的特定用戶子特征的一個(gè)方面。第二Fp2捆綁集720將類/字符3-8連到一起作為這些相同子特征的另一方面。第三Fp2捆綁集722只包含類/字符9。雖然只示出兩個(gè)子特征類,但本發(fā)明可有任何數(shù)量的子特征類。類似地,每個(gè)類中的捆綁集的數(shù)量可比所示更多或更少。類甚至可能只有單一的捆綁集。線708-712表示根據(jù)Fp1和Fp2中的捆綁集,類/字符的最佳粒度劃分。因此,線710表示由Fp1類產(chǎn)生的劃分,而線708和712表示由Fp2類產(chǎn)生的劃分。這些被用于下文討論的一些小型后處理器。
為了進(jìn)一步示出捆綁集,圖8是依照本發(fā)明的一個(gè)方面,對(duì)于字符組的捆綁集的實(shí)例800。實(shí)例800由字符列802、Fp1捆綁特征(高度)列804和Fp2捆綁特征(寬度)列806組成。實(shí)例800示出字符列802中的手寫樣本字符“a”,“c”,“b”,“d”和“1”。Fp1捆綁特征(高度)列804表示具有相同數(shù)字的相同捆綁集。因此,帶有數(shù)字“1”的任意行說(shuō)明它與同個(gè)Fp1捆綁特征(高度)列804中其它帶有數(shù)字“1”的行具有相同的子特征。從Fp1高度特征列804可以清楚地知道“a”和“c”在捆綁集“1”中,而“b”,“d”和“1”在捆綁集“2”中。這說(shuō)明對(duì)于字符高度的子特征,“a”和“c”有非常類似的高度特征,同時(shí)“b”,“d”和“1”有非常類似的高度特征。所以,只包含“b”的注冊(cè)樣本也可用于提供“d”和“1”的高度子特征特性,減少了該子特征所需的注冊(cè)數(shù)據(jù)。同樣的情況也適用于“a”和“c”高度子特征。這些字符中的任意一個(gè)可用于構(gòu)造其它字符的高度子特征。
可應(yīng)用類似的過(guò)程到Fp2捆綁特征(寬度)列806。這里,捆綁集的相同成員由大寫字母“A”或“B”來(lái)說(shuō)明。從這里可以確定字符“a”,“c”,“b”和“d”具有非常類似的寬度特征和共同表示的捆綁集“A”,而字符“1”有其獨(dú)特的字符寬度,所以成為捆綁集“B”中的唯一字符。同樣地,特定用戶的注冊(cè)數(shù)據(jù)只需要包括捆綁集中的一個(gè)字符實(shí)例用于構(gòu)造同一捆綁集中任何字符的寬度,減少了需要的注冊(cè)數(shù)據(jù)。
本發(fā)明的效率也依賴于對(duì)一般特征是類似的(“或易被混淆的”)而對(duì)特定用戶特征是可區(qū)分的一些類/字符。作為例子,“c”和“C”的比例形狀特征看起來(lái)非常類似,而對(duì)于特定用戶的大小和位置特征卻有很大的區(qū)別。為這些類/字符定義“混淆規(guī)則”。混淆規(guī)則將類/字符與易被一般分類器混淆的一組類/字符相關(guān)聯(lián)。混淆規(guī)則的例子是c-{C},C-{c}和9-{q,g},分別具有下面的意思如果被一般分類器識(shí)別為“c”,那它有可能是“C”。如果被識(shí)別為“C”,那它有可能是“c”。以及,如果被識(shí)別為“9”,那它可能是“q”或“g”。類/字符在混淆規(guī)則集的左邊部分最多只出現(xiàn)一次。
參考圖9,為上述例子示出依照本發(fā)明的一個(gè)方面,混淆規(guī)則900的示例。該圖示出一組規(guī)則906-910,包括各種混淆規(guī)則的左側(cè)部分902和右側(cè)部分904。左側(cè)部分902通常指明會(huì)被一般分類器混淆的字符。右側(cè)部分904通常指明非常類似于左側(cè)部分902的易混淆字符的字符。規(guī)則集中規(guī)則的數(shù)量可以為由規(guī)則“Z”所指示的任何數(shù)量,其中Z表示從1到無(wú)窮的任意整數(shù)。作為例子,規(guī)則“Z”也示出在用戶寫“9”的時(shí)候,會(huì)被混淆的一般分類器。規(guī)則“Z”說(shuō)明“9”也可能是“q”或“g”。同樣,規(guī)則“1”906和“2”908說(shuō)明在分別遇到“c”和“C”時(shí)遵循的規(guī)則,如上文所述。
在本發(fā)明中,為每條規(guī)則構(gòu)造小型雙向分類器來(lái)確定字符是在規(guī)則的左側(cè)部分還是在右側(cè)部分。如果一般分類器得到的分類出現(xiàn)在規(guī)則的左側(cè)部分,那么小型特定用戶雙向分類器介入并確定分類是否正確,或是否是在規(guī)則右側(cè)部分的字符。如果此分類是右側(cè)部分,就有兩種可能性。如果規(guī)則的右側(cè)部分只由一個(gè)類/字符組成,原先的分類被覆蓋為此類/字符,而如果規(guī)則的右側(cè)部分由多個(gè)類/字符組成,可使用原先的一般分類器來(lái)確定這些可能性中正確的字符。
轉(zhuǎn)至圖10,描述了依照本發(fā)明的一個(gè)方面,特定用戶分類器實(shí)例1000的框圖。在本發(fā)明中可使用不同類型的注冊(cè)模型作為小型后處理器分類器或雙向分類器以利于手寫識(shí)別系統(tǒng)的分類。在這個(gè)本發(fā)明的實(shí)例中,實(shí)例1000包括特定用戶分類器組件1002和用于分類數(shù)據(jù)的各種模型,包括MLLR適應(yīng)的密度模型1004、直接密度模型1006、直接判別模型1008和模型“Y”1010,其中Y表示可用于提供特定用戶分類器組件1002想要的功能的任何模型。MLLR適應(yīng)的模型1004提供為混淆規(guī)則的每個(gè)字符構(gòu)造密度模型、使用注冊(cè)的數(shù)據(jù)適應(yīng)字符密度模型于特定用戶、以及使用適應(yīng)的模型來(lái)確定雙向分類的功能。為關(guān)聯(lián)于規(guī)則的Fpi中的特征構(gòu)造密度模型,此模型通常是具有對(duì)角的和/或完全協(xié)方差矩陣的高斯混合。可使用最大似然線性回歸的方法實(shí)現(xiàn)功能,如Leggeter和Woodland(1994);利用線性回歸的隱馬爾可夫的揚(yáng)聲器適應(yīng);研究報(bào)告;劍橋大學(xué)工程系和Gales和Woodland(1996);MLLR框架中的均值和方差適應(yīng);研究報(bào)告;劍橋大學(xué)工程系中所述,以便基于通過(guò)用戶短暫注冊(cè)時(shí)間得到的數(shù)據(jù)適應(yīng)這些模型于特定用戶。由于捆綁集的實(shí)現(xiàn),需要的數(shù)據(jù)量很小。然后,利用適應(yīng)的模型確定混淆規(guī)則的雙向分類。如果實(shí)例的密度對(duì)于混淆規(guī)則的左側(cè)部分比對(duì)于混淆規(guī)則右側(cè)部分更大,那么它是左側(cè)部分的分類。否則,是右側(cè)部分的分類。在本發(fā)明的其它實(shí)例中,適應(yīng)的特定用戶模型的可能性可通過(guò)例如乘法過(guò)程與一般模型相結(jié)合。
直接密度模型1006提供功能為特定用戶子特征集Fpi的每個(gè)捆綁集建立密度模型,并且利用捆綁集密度模型為混淆規(guī)則確定雙向分類。使用所有捆綁在一起的字符的注冊(cè)數(shù)據(jù)為每個(gè)捆綁集構(gòu)造密度模型。為定義捆綁集的特征建立單獨(dú)的密度模型。然后,利用這些模型進(jìn)行雙向分類。對(duì)于關(guān)聯(lián)于規(guī)則的特定用戶特征集Fpi,在混淆規(guī)則左側(cè)部分上的類/字符不應(yīng)與混淆規(guī)則右側(cè)部分上的類/字符在同一捆綁集中。在本發(fā)明的其它實(shí)例中,模型的可能性可通過(guò)例如乘法過(guò)程與一般模型結(jié)合。
直接判別模型1008利用觀察的注冊(cè)數(shù)據(jù)提供分類器模型,創(chuàng)建分類器模型為混淆規(guī)則確定雙向分類。利用注冊(cè)的數(shù)據(jù)建立分類器,其中類/字符的數(shù)據(jù)依照對(duì)不同特定用戶特征的捆綁集的最佳劃分而綁定。見圖7,橫線708-712。捆綁集和混淆規(guī)則應(yīng)當(dāng)以保證混淆規(guī)則左側(cè)部分上的類/字符與混淆規(guī)則右側(cè)部分上的類/字符不在同一捆綁集的方式構(gòu)造。然后,用這些模型進(jìn)行后處理器分類。
類似地,模型“Y”1010表示可提供用于利用注冊(cè)數(shù)據(jù)建立分類器和構(gòu)造分類器模型來(lái)確定雙向分類的功能的其它模型?!癥”表示能提供所要的功能從1到無(wú)窮的模型的任意數(shù)量。
考慮所示和上述的示例系統(tǒng),依照本發(fā)明實(shí)現(xiàn)的方法參照?qǐng)D11-13的流程圖可得到更好的理解。但出于解釋簡(jiǎn)易的目的,該方法以一系列的框圖來(lái)顯示和描述,可以理解和明白的是本發(fā)明不限于框圖的順序,因?yàn)橐勒毡景l(fā)明,一些框圖可以不同于所示和在此描述的順序發(fā)生和/或同時(shí)與其它框圖發(fā)生。而且,依照本發(fā)明,不是所有的框圖都需要實(shí)現(xiàn)此方法。
本發(fā)明可在由一個(gè)或多個(gè)組件執(zhí)行的諸如程序模塊等計(jì)算機(jī)可執(zhí)行指令的通用上下文環(huán)境中描述。通常,程序模塊包括運(yùn)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例行程序、程序、對(duì)象、數(shù)據(jù)結(jié)構(gòu)等等。典型地,程序模塊的功能可如所其所想,結(jié)合或分布于各種實(shí)施例中。
在圖11中,示出依照本發(fā)明的一個(gè)方面,構(gòu)造手寫識(shí)別系統(tǒng)的方法1100的流程圖。方法1100開始于1102,利用來(lái)自多個(gè)用戶1104的手寫數(shù)據(jù)建立至少一個(gè)一般分類器。一般分類器使用的數(shù)據(jù)可包括一般特征和/或特定用戶特征。一般分類器典型地用作分類手寫數(shù)據(jù)的第一處理器。在本發(fā)明的其它實(shí)例中,此功能由現(xiàn)有系統(tǒng)提供。然后,能利用來(lái)自特定用戶1106的數(shù)據(jù)適應(yīng)一般分類器。在本發(fā)明的其它實(shí)例中,是否以這種方式適應(yīng)一般分類器是可任選的。然后,利用來(lái)自特定用戶或特定用戶和多用戶1108的手寫數(shù)據(jù)為每個(gè)捆綁特征類構(gòu)造特定用戶分類器。然后,結(jié)合一般分類器和特定用戶分類器1110,結(jié)束該流程1112。在本發(fā)明的一個(gè)實(shí)例中,例如,結(jié)合的分類器使用如下。如果一般分類器作出的分類出現(xiàn)于規(guī)則左側(cè)部分上,那么特定用戶分類器介入并確定分類是否正確,或者是否分類可以是規(guī)則右側(cè)部分上的字符。如果此分類結(jié)果為右側(cè)部分,有兩種可能性。如果規(guī)則的右側(cè)部分只由一個(gè)類/字符組成,那么原先的分類用此類/字符覆蓋,而如果規(guī)則的右側(cè)部分由多個(gè)類/字符組成,可使用原先的一般分類器來(lái)確定這些可能性中正確的字符。
轉(zhuǎn)至圖12,該圖描述依照本發(fā)明的一個(gè)方面,使用手寫識(shí)別系統(tǒng)的方法1200的流程圖。方法1200開始于1202,建立具有第一和第二部分1204的混淆規(guī)則?;煜?guī)則給出關(guān)于符合混淆規(guī)則的類/字符的分類的向?qū)?。然后,為每個(gè)混淆規(guī)則1206提供具有第一和第二分類的雙向分類器。這使得特定用戶分類器在一般分類器混淆時(shí)能更利于類/字符的分類。然后,使用一般分類器確定手寫樣本1208的分類。然后,對(duì)于該分類是否符合第一分類1210進(jìn)行判定。第一分類通常表示混淆規(guī)則的第一部分(例如,“左側(cè)部分”)。如果不是,接受一般分類器的分類1212,結(jié)束該流程1214。但是,如果判定結(jié)果發(fā)現(xiàn)是在第一分類1210中,那么對(duì)于混淆規(guī)則的第二部分(例如,“右側(cè)部分”)是否包含多于一個(gè)字符進(jìn)行判定。如果該規(guī)則的右側(cè)部分只由一個(gè)類/字符組成,那么原先的分類被覆蓋為該類/字符1220,結(jié)束該流程1214。但是,如果該規(guī)則的右側(cè)部分由多類/字符組成,可用原先的一般分類器在這些可能性中確定正確的字符,結(jié)束該流程1214。
見圖13,該圖示出依照本發(fā)明的一個(gè)方面,用于分類特定用戶數(shù)據(jù)的構(gòu)造方法1300的流程圖。本發(fā)明可使用提供雙向分類器支持混淆規(guī)則的任何方法。圖13示出本發(fā)明可使用的一些實(shí)例。該方法1300開始于1302,確定是否使用基于MLLR的方法1304。如果是,那么基于多用戶訓(xùn)練數(shù)據(jù),為混淆規(guī)則中出現(xiàn)的每個(gè)字符構(gòu)造密度模型1312。為關(guān)聯(lián)于規(guī)則的Fpi中的特征構(gòu)造這些密度模型,此模型通常是具有對(duì)角的和/或完全協(xié)方差矩陣的高斯混合。最大似然線性回歸(MLLR)方法諸如在Leggeter和Woodland(1994)和Gales和Woodland(1996),同樣作者,中所述,然后基于通過(guò)用于用戶1314的短暫的注冊(cè)時(shí)間得到的數(shù)據(jù),用此方法適應(yīng)密度模型于特定用戶1314,結(jié)束該流程1310。由于使用捆綁集,所要的數(shù)據(jù)量很小。適應(yīng)的密度模型于是用作對(duì)混淆規(guī)則的雙向分類器。但是,如果不使用MLLR1304,那么就是否使用直接密度模型作出決定1306。如果是,利用捆綁到一起的所有字符的注冊(cè)數(shù)據(jù)為每個(gè)捆綁集構(gòu)造密度模型1316,結(jié)束該流程1310。對(duì)關(guān)聯(lián)于規(guī)則的特定用戶特征集Fpi,混淆規(guī)則左側(cè)上的類/字符不應(yīng)與該混淆規(guī)則右側(cè)的類/字符在同個(gè)捆綁集。然后該密度模型用作混淆規(guī)則的雙向分類器。但是,如果不使用直接密度模型1306,那么就是否使用直接判別模型作出決定1308。如果是,利用注冊(cè)數(shù)據(jù)構(gòu)造分類器,其中類/字符的數(shù)據(jù)根據(jù)對(duì)不同的特定用戶特征的捆綁集的最佳劃分而被綁定1318,結(jié)束該流程1310。一般而言,應(yīng)構(gòu)造捆綁集和混淆規(guī)則使混淆規(guī)則左側(cè)上的類/字符與該混淆規(guī)則右側(cè)的類/字符不在同一個(gè)捆綁集。然后,使用此模型作為對(duì)混淆規(guī)則的雙向分類器。但是,如果不使用直接判別模型1308,流程結(jié)束1310。流程1310的結(jié)束不是指排除本發(fā)明使用其它的模型。它只表示對(duì)于上述的本發(fā)明實(shí)例的例子,所討論的可能的三種模型方法的結(jié)束。
為了提供用于實(shí)現(xiàn)本發(fā)明的各個(gè)方面的其它上下文環(huán)境,圖14和下面的討論想要提供合適計(jì)算環(huán)境1400的簡(jiǎn)單通用描述,本發(fā)明的各個(gè)方面都可在其中實(shí)現(xiàn)。雖然上面已經(jīng)在運(yùn)行于本地和/或遠(yuǎn)程計(jì)算機(jī)上的計(jì)算機(jī)程序的計(jì)算機(jī)可執(zhí)行指令的通用上下文環(huán)境中對(duì)本發(fā)明作了描述,但本領(lǐng)域的熟練人員都知道本發(fā)明也可結(jié)合其它的程序模塊實(shí)現(xiàn)。通常,程序模塊包括運(yùn)行特定任務(wù)和/或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例行程序、程序、組件、數(shù)據(jù)結(jié)構(gòu)等等。而且,那些本領(lǐng)域的熟練人員都清楚本發(fā)明的方法可和其它計(jì)算機(jī)系統(tǒng)配置一起實(shí)施,包括單處理器或多處理器計(jì)算機(jī)系統(tǒng)、微型計(jì)算機(jī)、大型計(jì)算機(jī)、個(gè)人計(jì)算機(jī)、手持計(jì)算裝置、基于微處理器和/或可編程消費(fèi)電子元件等等,其中的每一個(gè)都可與一個(gè)或多個(gè)相關(guān)的裝置進(jìn)行有效的通信。所示的本發(fā)明的方面也可實(shí)施在分布計(jì)算環(huán)境中,其中的某些任務(wù)由通過(guò)通信網(wǎng)絡(luò)連接的遠(yuǎn)程處理裝置運(yùn)行。但是,本發(fā)明的一些方面,即使不是全部,可在計(jì)算機(jī)單機(jī)上實(shí)施。在分布計(jì)算環(huán)境中,程序模塊可位于本地和/或遠(yuǎn)程存儲(chǔ)裝置中。
在此申請(qǐng)中所用的術(shù)語(yǔ)“組件”想指的是計(jì)算機(jī)相關(guān)實(shí)體,或者是硬件、硬件和軟件的結(jié)合、軟件,或者是執(zhí)行中的軟件。例如,組件可以是,但不局限于,運(yùn)行在處理器上的進(jìn)程、處理器、對(duì)象、可執(zhí)行的東西、執(zhí)行的線程、程序和計(jì)算機(jī)。作為示例,運(yùn)行在服務(wù)器上的應(yīng)用程序和/或服務(wù)器可以是組件。另外,組件可包括一個(gè)或多個(gè)子組件。
參照?qǐng)D14,用于實(shí)現(xiàn)本發(fā)明各方面的示例系統(tǒng)環(huán)境包括傳統(tǒng)的計(jì)算機(jī)1402,它包括處理單元1404、系統(tǒng)內(nèi)存1406和連接包括系統(tǒng)內(nèi)存在內(nèi)的各種系統(tǒng)組件到處理單元1404的系統(tǒng)總線1408。處理單元1404可以是任何商業(yè)上可購(gòu)買的或?qū)S玫奶幚砥鳌A硗?,處理單元可?shí)現(xiàn)成由多于一個(gè)處理器通過(guò)諸如并行連接形成的多處理器。
系統(tǒng)總線1408可以是使用諸如PCI、VESA、Microchanel(微通道)、ISA和EISA,如此等等任何種類的傳統(tǒng)總線結(jié)構(gòu)的任何幾種類型的總線結(jié)構(gòu),包括內(nèi)存總線或內(nèi)存控制器、外圍總線和局域總線。系統(tǒng)內(nèi)存包括只讀存儲(chǔ)器(ROM)1410和隨機(jī)訪問存儲(chǔ)器(RAM)1412。含有基本例行指令幫助傳送計(jì)算機(jī)1402中元素間的信息的基本輸入輸出系統(tǒng)(BIOS)1414,如在啟動(dòng)過(guò)程中,存儲(chǔ)在ROM 1410中。
計(jì)算機(jī)1402也可包括,例如,硬盤驅(qū)動(dòng)器1416、如用于讀寫可移動(dòng)盤1420的磁盤驅(qū)動(dòng)器1418、以及如讀寫CD-ROM盤1424或其它光介質(zhì)的光盤驅(qū)動(dòng)器1422。硬盤驅(qū)動(dòng)器1416、磁盤驅(qū)動(dòng)器1418和光盤驅(qū)動(dòng)器1422通過(guò)各自的硬盤驅(qū)動(dòng)器接口1426、磁盤驅(qū)動(dòng)器接口1428和光盤驅(qū)動(dòng)器接口1430連接到系統(tǒng)總線1408。驅(qū)動(dòng)器1416-1422和與之相關(guān)的計(jì)算機(jī)可讀介質(zhì)為計(jì)算機(jī)1402提供數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、計(jì)算機(jī)可執(zhí)行指令等的非易失存儲(chǔ)。雖然上面的計(jì)算機(jī)可讀介質(zhì)的描述指的是硬盤、可移動(dòng)磁盤和CD,但那些本領(lǐng)域的熟練人員應(yīng)當(dāng)清楚計(jì)算機(jī)可讀的其它類型的介質(zhì),如盒式磁帶、閃存卡、數(shù)字視頻盤、Bernoulli卡盤等也可用于示例操作環(huán)境1400,而且任何這樣的介質(zhì)可包含計(jì)算機(jī)可執(zhí)行指令用于運(yùn)行本發(fā)明的方法。
大量的程序模塊可存儲(chǔ)在驅(qū)動(dòng)器1416-1422和RAM1412中,包括操作系統(tǒng)1432、一個(gè)或多個(gè)應(yīng)用程序1434、其它程序模塊1436以及程序數(shù)據(jù)1438。操作系統(tǒng)1432可以是任何合適的操作系統(tǒng)或操作系統(tǒng)的組合。作為例子,應(yīng)用程序1434可包括依照本發(fā)明的一個(gè)方面,自適應(yīng)的手寫識(shí)別系統(tǒng)。
用戶可以通過(guò)諸如鍵盤1440和指點(diǎn)裝置(如鼠標(biāo)1442)等一個(gè)或多個(gè)用戶輸入裝置向計(jì)算機(jī)1402輸入控制命令和信息。其它輸入裝置(未示出)可包括麥克風(fēng)、游戲桿、游戲手柄、衛(wèi)星式轉(zhuǎn)盤、無(wú)線遙控、掃描儀等等。這些和其它的輸入裝置常通過(guò)連接至系統(tǒng)總線1408的串行端口接口1444連接至處理單元1404,但也可由其它接口連接,如并行端口、游戲端口或通用串行總線(USB)。監(jiān)視器1446或其它類型的顯示裝置也通過(guò)諸如視頻適配器1448等接口連至系統(tǒng)總線1408。除了監(jiān)視器1446,計(jì)算機(jī)1402也可包括其它的外圍輸出裝置(未示出),如揚(yáng)聲器、打印機(jī)等等。
應(yīng)當(dāng)清楚的是計(jì)算機(jī)1402可使用到一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)1460的邏輯連接運(yùn)行于網(wǎng)絡(luò)環(huán)境中。遠(yuǎn)程計(jì)算機(jī)1460可以是工作站、服務(wù)器計(jì)算機(jī)、路由器、對(duì)等裝置或其它普通的網(wǎng)絡(luò)節(jié)點(diǎn),典型地包括許多或所有所述關(guān)于計(jì)算機(jī)1402的元素,雖然出于簡(jiǎn)潔的考慮,圖14中只示出存儲(chǔ)裝置1462。圖14中描述的邏輯連接可包括局域網(wǎng)(LAN)1464和廣域網(wǎng)(WAN)1466。這種網(wǎng)絡(luò)環(huán)境在辦公室、企業(yè)范圍的計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中都很普遍。
用于LAN網(wǎng)絡(luò)環(huán)境時(shí),例如,計(jì)算機(jī)1402通過(guò)網(wǎng)絡(luò)接口1464或適配器1468連接至局域網(wǎng)。用于WAN網(wǎng)絡(luò)環(huán)境時(shí),計(jì)算機(jī)1402典型地包括調(diào)制解調(diào)器(例如,電話、DSL、電纜等)1470,或連接至LAN上的通信服務(wù)器,或有其它的方法用于建立WAN 1446上的通信,如因特網(wǎng)。調(diào)制解調(diào)器1470相對(duì)于計(jì)算機(jī)1402可為內(nèi)置或外置,它通過(guò)串行端口接口1444連至系統(tǒng)總線1408。在網(wǎng)絡(luò)環(huán)境中,程序模塊(包括程序1434)和/或程序數(shù)據(jù)1438可存儲(chǔ)在遠(yuǎn)程存儲(chǔ)裝置1462中。應(yīng)當(dāng)清楚的是所示網(wǎng)絡(luò)連接只是示例性的,在執(zhí)行本發(fā)明的一個(gè)方面時(shí)也可用在計(jì)算機(jī)1402和1460間建立通信連接的其它方法(如有線或無(wú)線)。
除非另有說(shuō)明,依照計(jì)算機(jī)編程領(lǐng)域熟練人員的實(shí)踐,已參照諸如計(jì)算機(jī)1402或遠(yuǎn)程計(jì)算機(jī)1460等計(jì)算機(jī)所進(jìn)行的動(dòng)作和操作的符號(hào)表示,對(duì)本發(fā)明進(jìn)行了描述。這種動(dòng)作和操作有時(shí)被稱為被計(jì)算機(jī)執(zhí)行的。應(yīng)當(dāng)清楚的是動(dòng)作和字符號(hào)化表示的操作包括表示數(shù)據(jù)位的電子信號(hào)的處理單元的操縱,它產(chǎn)生結(jié)果轉(zhuǎn)換或電子信號(hào)表示的減少,以及內(nèi)存系統(tǒng)(包括系統(tǒng)內(nèi)存1406、硬盤驅(qū)動(dòng)器1416、軟盤驅(qū)動(dòng)1420、CD-ROM1424和遠(yuǎn)程存儲(chǔ)器1462)中存儲(chǔ)位置上數(shù)據(jù)位的保持,從而來(lái)重新配置或改變計(jì)算機(jī)系統(tǒng)的操作和其它的信號(hào)處理。保持這種數(shù)據(jù)位的存儲(chǔ)位置是物理位置,具有特定的電、磁或光屬性對(duì)應(yīng)于該數(shù)據(jù)位。
圖15是本發(fā)明可與之交互的實(shí)例計(jì)算環(huán)境1500的另一框圖。系統(tǒng)1500進(jìn)一步示出包括一個(gè)或多個(gè)客戶1502的系統(tǒng)??蛻?502可以是硬件和/或軟件(例如,線程、進(jìn)程、計(jì)算裝置)。系統(tǒng)1500也包括一個(gè)或多個(gè)服務(wù)器1504。服務(wù)器1504也可以是硬件和/或軟件(例如,線程、進(jìn)程、計(jì)算裝置)。例如,服務(wù)器1504通過(guò)使用本發(fā)明,可容納線程進(jìn)行轉(zhuǎn)換??蛻?502和服務(wù)器1504間一個(gè)可能的通信可以以數(shù)據(jù)包的形式在兩個(gè)或多個(gè)計(jì)算機(jī)進(jìn)程間傳送。系統(tǒng)1500包括通信框架108,它可用來(lái)幫助客戶1502和服務(wù)器1504間的通信??蛻?502可操作地連接到可用于存儲(chǔ)對(duì)于客戶1502的本地信息的一個(gè)或多個(gè)客戶數(shù)據(jù)存儲(chǔ)裝置1510。類似地,服務(wù)器1504可操作地連接到可用于存儲(chǔ)對(duì)于服務(wù)器1504的本地信息的一個(gè)或多個(gè)服務(wù)器數(shù)據(jù)存儲(chǔ)裝置1506。
在本發(fā)明的一個(gè)實(shí)例中,數(shù)據(jù)包在兩個(gè)或多個(gè)計(jì)算機(jī)組件間傳送幫助進(jìn)行手寫識(shí)別,該數(shù)據(jù)包包括,至少部分地包括,來(lái)自結(jié)合使用一般分類器和特定用戶分類器來(lái)分類手寫數(shù)據(jù)的手寫識(shí)別系統(tǒng)的手寫相關(guān)信息。
在本發(fā)明的另一實(shí)例中,存儲(chǔ)系統(tǒng)的計(jì)算機(jī)可執(zhí)行組件以利于手寫識(shí)別的計(jì)算機(jī)可讀媒體包括手寫識(shí)別系統(tǒng),該系統(tǒng)包括,或至少部分包括,可相互結(jié)合操作來(lái)分類手寫數(shù)據(jù)的一般分類器和特定用戶分類器。
應(yīng)當(dāng)清楚的是本發(fā)明的裝置、系統(tǒng)和/或方法可在手寫識(shí)別模式中使用以促進(jìn)計(jì)算機(jī)組件和類似相關(guān)的非計(jì)算機(jī)組件。而且,本領(lǐng)域的熟練人員將知道本發(fā)明的系統(tǒng)和/或方法可用于大批的電子相關(guān)技術(shù),包括,但不限于,計(jì)算機(jī)、服務(wù)器和/或手持電子裝置等等。
上面所述的包括本發(fā)明的實(shí)例。當(dāng)然,不可能為了描述本發(fā)明而描述組件或方法的每個(gè)可能的組合,但本領(lǐng)域的普通的熟練人員都可知道還有許多本發(fā)明的組合和改變都是可能的。因此,本發(fā)明試圖包括所有這種符合附加權(quán)利要求的精神實(shí)質(zhì)和范疇的改變、修改和變化。而且,術(shù)語(yǔ)“包括”所用的程度或者在詳細(xì)描述或者在權(quán)利要求中,這種術(shù)語(yǔ)是試圖包含的,在某種意義上類似于術(shù)語(yǔ)“包含”在權(quán)利要求中作轉(zhuǎn)換詞時(shí)的解釋。
權(quán)利要求
1.便于自適應(yīng)手寫識(shí)別的系統(tǒng),其特征在于,該系統(tǒng)包括接收手寫數(shù)據(jù)的組件;以及分析與其識(shí)別相關(guān)的手寫數(shù)據(jù)的識(shí)別組件,該識(shí)別組件使用與分析相關(guān)的至少一個(gè)一般分類器和至少一個(gè)特定用戶分類器。
2.如權(quán)利要求1所述的系統(tǒng),對(duì)于在多個(gè)用戶中呈現(xiàn)大量共性的手寫數(shù)據(jù)的一般特征,至少應(yīng)用一個(gè)一般分類器。
3.如權(quán)利要求2所述的系統(tǒng),一般特征包括,至少部分包括,從包含比例形狀特征、大小特征和位置特征的組中選擇的至少一個(gè)特征。
4.如權(quán)利要求1所述的系統(tǒng),對(duì)特定用戶呈現(xiàn)基本的唯一性的手寫數(shù)據(jù)的特定特征,至少應(yīng)用一個(gè)特定用戶分類器。
5.如權(quán)利要求4所述的系統(tǒng),特定特征包括,至少部分包括,從由大小特征和位置特征組成的組中選擇的至少一個(gè)特征。
6.如權(quán)利要求1所述的系統(tǒng),其特征在于,該系統(tǒng)進(jìn)一步包括多個(gè)特定用戶分類器,每個(gè)相關(guān)的特定用戶分類器都關(guān)聯(lián)于各自的特征集。
7.如權(quán)利要求6所述的系統(tǒng),特征集不相交。
8.如權(quán)利要求1所述的系統(tǒng),識(shí)別組件使用混淆規(guī)則,它將類/字符關(guān)聯(lián)于一般分類器容易混淆的一組類/字符。
9.如權(quán)利要求8所述的系統(tǒng),至少一個(gè)特定用戶分類器可覆蓋一般分類器。
10.如權(quán)利要求7所述的系統(tǒng),使用為混淆規(guī)則的各個(gè)字符構(gòu)造的密度模型。
11.如權(quán)利要求10所述的系統(tǒng),至少一個(gè)密度模型包括MLLR適應(yīng)的密度模型。
12.如權(quán)利要求7所述的系統(tǒng),使用為混淆規(guī)則的各個(gè)字符構(gòu)造的直接判別模型。
13.權(quán)利要求1所述的系統(tǒng),一般分類器是開始提供的一般分類器的適應(yīng)后的版本。
14.建立手寫識(shí)別系統(tǒng)的方法,其特征在于,該方法包括利用與多用戶關(guān)聯(lián)的手寫數(shù)據(jù),建立至少一個(gè)一般分類器;以及從特定用戶和包括特定用戶和多個(gè)用戶所構(gòu)成的組中選擇至少一個(gè),利用其所提供的手寫數(shù)據(jù),建立至少一個(gè)特定用戶分類器。
15.如權(quán)利要求14所述的方法,其特征在于,該方法進(jìn)一步包括使用一般分類模型和具有至少一個(gè)捆綁集的至少一個(gè)捆綁類來(lái)訓(xùn)練至少一個(gè)特定用戶分類器。
16.如權(quán)利要求15所述的方法,其特征在于,使用MLLR方法,利用與至少一個(gè)捆綁類的至少一個(gè)捆綁集關(guān)聯(lián)的數(shù)據(jù)來(lái)適應(yīng)一組模型。
17.如權(quán)利要求15所述的方法,其特征在于,利用與至少一個(gè)捆綁類的至少一個(gè)捆綁集相關(guān)聯(lián)的數(shù)據(jù)來(lái)建立一直接密度模型集。
18.如權(quán)利要求15所述的方法,其特征在于,利用與至少一個(gè)捆綁類的至少一個(gè)捆綁集相關(guān)聯(lián)的數(shù)據(jù)來(lái)建立一直接判別模型。
19.如權(quán)利要求18所述的方法,其特征在于,直接判別模型基于分類器,其具有捆綁于對(duì)至少一個(gè)特定用戶特征的至少一個(gè)捆綁集的至少一個(gè)最佳劃分的類/字符數(shù)據(jù)。
20.用于識(shí)別手寫的系統(tǒng),其特征在于,該系統(tǒng)包括用于一般確定通過(guò)來(lái)自多用戶的數(shù)據(jù)所訓(xùn)練的手寫信息分類的裝置;以及用于特定確定至少部分通過(guò)來(lái)自特定用戶的數(shù)據(jù)所訓(xùn)練的手寫信息分類的裝置;以及用于可操作地利用一般確定方法和特定確定方法來(lái)分類手寫數(shù)據(jù)的裝置。
21.如權(quán)利20所述的系統(tǒng),該系統(tǒng)進(jìn)一步包括用于為至少一個(gè)一般分類器混淆規(guī)則分類手寫數(shù)據(jù)的裝置。
22.如權(quán)利21所述的系統(tǒng),該系統(tǒng)進(jìn)一步包括基于至少一個(gè)混淆規(guī)則,用于覆蓋至少一個(gè)一般分類的裝置。
23.識(shí)別手寫的方法,其特征在于,該方法包括利用至少一個(gè)一般分類器處理手寫數(shù)據(jù),以建立至少一個(gè)數(shù)據(jù)的分類;以及利用至少一個(gè)特定用戶分類器來(lái)進(jìn)一步精化一般分類器的數(shù)據(jù)分類。
24.如權(quán)利23所述的方法,其特征在于,該方法進(jìn)一步包括為一般分類器建立至少一個(gè)混淆規(guī)則,每個(gè)混淆規(guī)則至少具有第一和第二部分;以及為每個(gè)混淆規(guī)則建立至少一個(gè)雙向分類器供至少一個(gè)特定用戶分類器使用,雙向分類器包括表示混淆規(guī)則至少第一部分的至少第一分類和表示混淆規(guī)則至少第二部分的至少第二部分分類。
25.如權(quán)利24所述的方法,雙向分類器包括,至少部分包括,從MLLR適應(yīng)的密度模型、直接密度模型和直接判別模型所構(gòu)成的組中選擇的至少一個(gè)模型。
26.如權(quán)利24所述的方法,雙向分類器包括通過(guò)至少一個(gè)適應(yīng)的特定用戶模型和至少一個(gè)一般模型的似然組合開發(fā)的模型。
27.如權(quán)利26所述的方法,該組合包括從適應(yīng)的特定用戶模型和一般模型的似然的乘法過(guò)程得到的結(jié)果。
28.如權(quán)利24所述的方法,其特征在于,該方法進(jìn)一步包括使用一般分類器確定何時(shí)數(shù)據(jù)在第一分類中;當(dāng)一般分類器確定數(shù)據(jù)在第一分類中時(shí),利用特定用戶分類器進(jìn)一步精化數(shù)據(jù);以及在數(shù)據(jù)被分在不是第一分類的分類中時(shí),接受一般分類器的確認(rèn)。
29.如權(quán)利28所述的方法,其特征在于,該方法進(jìn)一步包括當(dāng)利用特定用戶分類器時(shí),確定在混淆規(guī)則第二部分中的字符數(shù);當(dāng)只有一個(gè)字符在混淆規(guī)則的第二部分時(shí),覆蓋一般分類器;以及當(dāng)多于一個(gè)字符在混淆規(guī)則的第二部分時(shí),通過(guò)一般分類器將在混淆規(guī)則第二部分中的字符分類。
30.促進(jìn)手寫識(shí)別的在兩個(gè)或多個(gè)計(jì)算機(jī)組件間傳送的數(shù)據(jù)包,其特征在于,該數(shù)據(jù)包包括,至少部分包括,來(lái)自結(jié)合使用了一般分類器和特定用戶分類器分類手寫數(shù)據(jù)的手寫識(shí)別系統(tǒng)的手寫相關(guān)信息。
31.計(jì)算機(jī)可讀介質(zhì)已經(jīng)存儲(chǔ)在如權(quán)利要求1所述的系統(tǒng)的計(jì)算機(jī)可執(zhí)行組件上。
32.使用如權(quán)利要求23所述的方法的裝置,其特征在于,該裝置包括從計(jì)算機(jī)、服務(wù)器和手持電子裝置組成的組中選出的至少一個(gè)裝置。
33.使用如權(quán)利要求1所述的方法的裝置,其特征在于,該裝置包括從計(jì)算機(jī)、服務(wù)器和手持電子裝置組成的組中選出的至少一個(gè)裝置。
34.計(jì)算機(jī)可讀介質(zhì)已經(jīng)在其上面存儲(chǔ)了計(jì)算機(jī)可執(zhí)行指令,用于進(jìn)行如權(quán)利要求23所述的方法。
全文摘要
本發(fā)明利用手寫樣本的一般和特定用戶特征,用最小程度的特定用戶注冊(cè)數(shù)據(jù)提供自適應(yīng)的手寫識(shí)別。通過(guò)使一般和特定用戶分類器能促進(jìn)識(shí)別過(guò)程,可利用特定用戶的手寫特征快速確定而尚未由用戶輸入的這些手寫字符的特征。因此,可識(shí)別新的字符而不需要用戶首先輸入該字符作為注冊(cè)或“訓(xùn)練”數(shù)據(jù)。在本發(fā)明的一個(gè)實(shí)例中,一般特征的處理由在多用戶上訓(xùn)練的一般分類器來(lái)完成。在本發(fā)明的另一實(shí)例中,使用特定用戶分類器按要求對(duì)一般分類器的分類修改以提供特定用戶手寫識(shí)別。
文檔編號(hào)G06K9/68GK1573799SQ20041004220
公開日2005年2月2日 申請(qǐng)日期2004年4月21日 優(yōu)先權(quán)日2003年5月21日
發(fā)明者B·西森, C·A·米克 申請(qǐng)人:微軟公司