專利名稱:一種面向移動設(shè)備的多通道中文輸入法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于人機交互領(lǐng)域,具體涉及一種面向移動設(shè)備的多通道中文輸入法。
技術(shù)背景移動設(shè)備,如手機等,輸入主要依賴于鍵盤。在這些設(shè)備上,用戶需要輸入URL和 査詢內(nèi)容,輸入命令以及寫郵件和消息等,文本輸入是一個等待解決的難題。中文作為一 種表意語言,它的輸入給人機交互領(lǐng)域帶來了新的挑戰(zhàn)。中文與英文有著很大的差別。中 文的基本單元是字符,字符是聲音、結(jié)構(gòu)和含義的混合體(參考文獻Lin,M.,andSears,A. Graphics matter: a case study of mobile phone keypad design for Chinese input. Ext. Abstracts 2005. ACM Press (2005), 1593-1596)。總體來說,中文輸入方法可以被分成基于發(fā)音的、 基于結(jié)構(gòu)的以及基于其它編碼的方法。目前,移動設(shè)備上的主要輸入方法是基于發(fā)音的方 法以及基于筆劃的方法,"T9"。用戶可以用鍵盤輸入拼音或者漢字的筆劃,然后從候選 列表中選擇要輸入的字符。然而,移動設(shè)備上的按鍵往往比較小,并且每一個鍵對應(yīng)3到 4個拉丁字母,因此輸入幾個漢字都需要很多的按鍵次數(shù)。語音輸入和筆輸入是移動設(shè)備上可能取代鍵盤的方法。盡管語音和筆更加自然和直 觀,但它們是基于識別的方法。識別錯誤往往是不可避免的,受限于移動設(shè)備的計算能力, 這個問題變得更加嚴(yán)重。研究表明,多通道融合可以有效地減少識別錯誤和提髙輸入效率 (參考文獻Oviatt, S. Ten Myths of Multimodal Interaction, Communications of the ACM, 42,9(1999), 74-81)。對語音輸入和鍵盤輸入進行多通道融合,將會提高移動設(shè)備上的中 文輸入效率并擁有更低的錯誤率。目前已經(jīng)有一些工作研究多通道輸入。研究表明,融合多種互補信息的系統(tǒng)可以降低 系統(tǒng)識別的不確定性從而提高健壯性。Bo研究了移動設(shè)備上將語音和鍵盤結(jié)合用于文本輸 入的例子(參考文獻Hsu, B丄,Mahajan, M. and Acero, A. Multimodal Text Entry on Mobile Devices. IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) 2005)。 但系統(tǒng)將語音作為主要的輸入通道,將鍵盤作為確認(rèn)或糾錯通道。Speech Dasher用語音和 手勢輸入文本,手勢被用于確認(rèn)或糾錯(參考文獻Vertanen, K. Efficient Computer Interfaces Using Continuous Gestures, Language Models, and Speech. M.Phil Thesis, University of Cambridge, 2004) 。 Speech pen通過利用周圍的多通道識別預(yù)測日文手寫輸入的內(nèi)容,從 而降低日文手寫輸入的負(fù)擔(dān)(參考文獻Kurihara, K., Goto, M., Ogata, J. and Igarashi, T.Speech Pen: Predictive Handwriting based on Ambient Multimodal Recognition. In Proc. CHI 2006. ACM Press (2006), 851-860) 。 Kaiser利用同時出現(xiàn)的相關(guān)聯(lián)的手寫輸入和語音輸入, 可以識別不在詞典(out-of-vocabulary)的詞(參考文獻Kaiser, E.C. Using redundant speech and handwriting for learning new vocabulary and understanding abbreviations. In Proc ICMI 2006. ACM Press (2006), 347-356) 。 Ao和Wang用語音來糾正手寫中文識別中的錯誤(參 考文獻Ao, X., Wang, X.G., Tian, F., Dai, G.Z. and Wang, H.A. Crossmodal error dorrection of continuous handwriting recognition by speech. In Proc. IUI2007. ACM Press (2007), 243-250)。 移動設(shè)備的用戶可以熟練的使用移動設(shè)備上的拼音輸入法或者筆劃輸入法,不需要額 外的學(xué)習(xí)。因此,將基于鍵盤的精確的輸入方法與基于語音的模糊的輸入方法結(jié)合,是解 決移動設(shè)備上中文輸入問題的一個有前途的方法。發(fā)明內(nèi)容本發(fā)明的目的在于提供一種移動設(shè)備上的中文輸入方法,同時使用語音和鍵盤輸入中 文,提高輸入的效率。鍵盤輸入采用簡拼方法或者簡化的筆劃輸入方法。簡拼方法輸入一個詞語只需輸入詞 語中每個字的拼音的第一個字母,簡化的筆劃輸入方法則需要用戶輸入要輸入的詞語中每 個字的第一個筆劃。它們可以采用現(xiàn)有的技術(shù)。鍵盤輸入轉(zhuǎn)化為拼音表示。本發(fā)明在鍵盤 輸入的同時,用語音說出要輸入的詞語。語音識別結(jié)果同樣轉(zhuǎn)化為拼音,對鍵盤輸入產(chǎn)生 的大量輸入候選排序。然后,使用鍵盤從重排序后的候選列表中選擇最終的輸入。語音與 鍵盤輸入的同步和多通道融合是本發(fā)明的關(guān)鍵支撐技術(shù)。本發(fā)明的輸入法適用于各種支持語音輸入和鍵盤輸入的移動設(shè)備,如手機,PDA等。 支持的輸入范圍為漢語中常出現(xiàn)的詞語。單字可以被看成單字詞。基于語音和鍵盤的中文輸入方法(如圖2所示),其步驟為1) 移動設(shè)備接收語音輸入和鍵盤輸入;2) 同步語音和鍵盤輸入;3) 識別語音輸入,得到語音輸入候選,根據(jù)按鍵得到鍵盤輸入候選,并且將所有 輸入候選映射到拼音表示;4) 采用多通道融合方法對語音或鍵盤輸入的候選融合,得到重排序后的候選列 表;5) 將候選列表映射回漢字表示,從候選列表中選擇最終的輸入 所述同步語音輸入與鍵盤輸入用于獲取有效的輸入,其過程為獲取按鍵的時間以及 語音的時間;計算有效的語音時間。所述的有效語音時間為max{r(/VeCo"y n art'o"),r(/;7"^:e>^VeM)-/"terva/}與 r(Co"力/v^fto")之間的時間。r(Q ^/7 afc")是當(dāng)前輸入的中文詞語的確認(rèn)時刻, r(/VeCo",附加o")是前一個中文詞語的確認(rèn)時刻。r(i^^^/Vew)是用于輸入當(dāng)前詞語的第 一個按鍵的時刻。/"&rva/是一個常量,限制語音的有效輸入時間。所述輸入候選到拼音的映射是將語音輸入以及鍵盤輸入轉(zhuǎn)化為拼音表示。其中,鍵盤 輸入到拼音的映射具體步驟為對簡拼輸入來說,將按鍵對應(yīng)的數(shù)字映射到拉丁字母,得到鍵盤輸入對應(yīng)的所有簡拼 表示,并得到簡拼對應(yīng)的所有詞語;對簡化的筆劃輸入來說,得到按鍵對應(yīng)的所有詞語; 從而得到所有詞語對應(yīng)的拼音。所述多通道融合方法利用語音輸入對鍵盤輸入候選進行排序,從而使得最接近實際要 輸入的中文位于輸入候選列表的前面。其具體步驟為1) 計算某一語音候選 與鍵盤候選A的相似度TV(&, .),相似度與^和、間的編輯 距離(Vladimir Levenshtein 1965)相關(guān);2) 計算給定語音輸入、時,選擇鍵盤輸入A為最終輸入的概率P(AI^);3) 計算選擇鍵盤輸入^為最終輸入的概率/K^;4) 按p")降序的順序?qū)︽I盤輸入候選排序,得到重排序后的候選列表,由用戶使用 鍵盤完成最終的輸入結(jié)果。本發(fā)明的優(yōu)點和積極效果如下:1. 基于語音和鍵盤的多通道輸入法可以在保持輸入的自然性的同時提高輸入的效率。2. 語音和鍵盤的結(jié)合是一種新穎的輸入方法,結(jié)合兩者的優(yōu)點,可以提高語音的識別率3. 采用簡拼或簡化的筆劃輸入與語音輸入相結(jié)合,易于學(xué)習(xí)和使用
圖1本發(fā)明中語音輸入與鍵盤輸入同步的原理圖;圖2本發(fā)明中基于語音和鍵盤的中文輸入方法的流程圖;圖3簡拼和語音結(jié)合的應(yīng)用實例流程圖;圖4簡化的筆劃輸入和語音結(jié)合的應(yīng)用實例流程圖;圖5本發(fā)明中多通道融合方法的流程圖;圖6計算鍵盤輸入候選和語音輸入候選的相似度的流程圖;圖7計算給定語音輸入選擇某一鍵盤輸入候選作為最終輸入的概率的流程圖;圖8計算某一鍵盤輸入候選作為最終輸入的概率的流程圖;圖9拼音、筆劃、漢字、簡拼之間的轉(zhuǎn)換關(guān)系。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好的理解本發(fā)明,下面結(jié)合附圖和實施方式對本發(fā)明作進 一步的詳細說明。下面給出一個例子,使用本發(fā)明的方法輸入中文詞語"網(wǎng)絡(luò)"的過程。用簡拼輸入法 和語音結(jié)合輸入中文詞語"網(wǎng)絡(luò)"的過程,如圖3所示。步驟如下1) 移動設(shè)備上,按數(shù)字鍵9和5的同時用語音說出"網(wǎng)絡(luò)";2) 從"網(wǎng)絡(luò)、網(wǎng)羅、王羅"中選擇"網(wǎng)絡(luò)"作為最終的輸入。在移動設(shè)備上,9對應(yīng)的拉丁字母為"WXYZ" , 5對應(yīng)的拉丁字母為"JKL" , "95" 對應(yīng)的所有簡拼為"WJ, WK, WL, XJ, XK, XL, YJ, YK, YL, ZJ, ZK, ZL",每 個簡拼對應(yīng)所有可以用簡拼表示的拼音。其中,"WL"對應(yīng)的拼音為"wanliu, wangluo, weilai, weile, weili, wulun, wuli, wuliao"等,"WL"是"網(wǎng)絡(luò)"的簡拼;i吾音的前兩 個識別候選為"huangluo"和"wangluo"。融合后的候選拼音為"wangluo"。拼音映射 到漢字為"網(wǎng)絡(luò)、網(wǎng)羅、王羅",即可進行中文輸入。用簡化的筆劃輸入法和語音結(jié)合輸入中文詞語"網(wǎng)絡(luò)"的過程,如圖4所示。步驟如下1) 移動設(shè)備上,按下數(shù)字鍵2和5的同時用語音說出"網(wǎng)絡(luò)";2) 選擇"網(wǎng)絡(luò)"作為輸入。其中,2對應(yīng)"網(wǎng)"的第一個筆劃"I " , 5對應(yīng)"絡(luò)"的第一個筆劃。本發(fā)明的具體實施方式
如下1. 移動設(shè)備讀取鍵盤輸入信息和語音輸入信息;2. 首先對語音輸入和鍵盤輸入同步,如圖1所示。語音的有效時間為處于 max {r(尸reCow,w加'o"), r(/^WA^iVass) — /"tervcr/}禾B r(Q ^ WKtf/cw)之間的時間。圖1中第一個詞的有效語音開始時刻為r(F/rW^v戶/^)-/"^W,有效語音結(jié)束時刻為 確認(rèn)鍵按下的時刻,Interval的取值為Is 。第二詞的有效語音時間為 max(r(/VeCo"y Avwa"ow),r(F/rs^:e;;iVeM) —Thterva/} 禾口 r(Q / rwarf/o") 之間的時間,r(/veCo"y ""加'o")為第一個詞的確認(rèn)鍵按下時刻,r(7^^^ive^)為輸入第二個詞時第一個鍵的按下時刻,7tCo^mofc")為第二個詞的確認(rèn)鍵按下的時刻。識別有效時間內(nèi)的語音,得到語音識別的候選集合;同時,得到鍵盤輸入的候選集合,語音識別的候選集合和鍵盤 輸入的候選集合均保存在移動設(shè)備上。將候選轉(zhuǎn)化為拼音表示。拼音表示的語音識別候選 集合為S,鍵盤輸入候選集合為K。3. 將語音識別候選集合和鍵盤輸入候選集合映射到拼音表示,如圖9所示。對簡拼輸入來說,鍵盤候選依據(jù)簡拼(拼音)詞語對應(yīng)關(guān)系詞典,得到漢字詞語。之 后依據(jù)漢字與拼音對應(yīng)關(guān)系詞典將詞語轉(zhuǎn)換為拼音表示。對簡化的筆劃輸入來說,鍵盤候 選依據(jù)筆劃與漢字對應(yīng)關(guān)系,得到漢字詞語,之后轉(zhuǎn)換為拼音表示。所述簡拼與詞語對應(yīng)關(guān)系詞典,采用輸入法中常用的簡拼與詞語、拼音與漢字的對照詞典。語音候選則根據(jù)語音識別結(jié)果的返回類型,映射到語音候選的拼音表示。4. 多通道融合方法融合語音識別候選集合S和和鍵盤候選集合K進行多通道融合。 多通道融合的步驟如圖5所示,其步驟如下假定K含M個輸入候選,S含N個輸入候選,A是鍵盤輸入的第i個候選,^是語音輸入的第j個候選;1)計算&與^的相似度w(^^),如圖6所示,其詳細步驟如下計算&與s的編輯距離e&7—tfo/a"ce(^:,,s );編輯距離與常量a的和為eaf"—ffoto"ce(A,、.) + ";,得到A與的相似度w(A,;y),其中,常量a保證相似度計算時分母取值不為O,且給出編輯距離在相似度計算中所占的比重。a的取值大于0,本 實施例設(shè)置為1。2)計算給定語音~時,選擇鍵盤輸入&作為輸出的概率值P(A I ~ );所述計算給定~ 選擇A的概率p(AI、),如圖7所示,其詳細步驟如下計算i取1到M時所有"4,~)的和|>^,^.),表示為歸一化因子Z'(,/);計算(、 KK l /V,- , J ,. JA,A)與Z'(y')的比值),(力";從語音識別器(可采用微軟的speech SDK5.1)讀取語音識別的可信度(語音輸入被識/ 、 , 、w(A, ) ,、w(A,s,.)別為^的概率為P(s」),計算p(^與),(y)的乘積/K^x^^,得到給定 選擇&的概率P(Ak,)。3)計算選擇^作為輸入的概率p"),如圖8所示,按照輸入概率由高到低對K中 的輸入候選進行排序;其詳細步驟如下計算常量b與A的頻度々 ")的乘積"々^"), b給出頻度在計算;K&)時所占比重,其限定設(shè)置為0到1之間;計算j取1到N時P^I^的和lXAi"0; 1^(^l勺)與6x/re《")的和計算i取1至IJM時 6x/"《(A) + J]/7(A |。) 的和,有計算6 x勿)+i>(o》與z"的比值,得到選擇&作為輸入的概率p")。5.按照pft)對候選輸入列表進行重排序,優(yōu)選的輸入在候選輸入列表的前面。將候選列表映射回漢字,拼音與漢字之間映射具體為從拼音與漢字對應(yīng)關(guān)系詞典中得到拼音 對應(yīng)的漢字,從而得到漢字表示的輸入候選列表,由用戶使用鍵盤從重排序后的候選列表 中選擇最終輸入內(nèi)容。盡管為說明目的公開了本發(fā)明的具體實施例和附圖,其目的在于幫助理解本發(fā)明的內(nèi) 容并據(jù)以實施,但是本領(lǐng)域的技術(shù)人員可以理解在不脫離本發(fā)明及所附的權(quán)利要求的精 神和范圍內(nèi),各種替換、變化和修改都是可能的。本發(fā)明不應(yīng)局限于本說明書最佳實施例 和附圖所公開的內(nèi)容,本發(fā)明要求保護的范圍以權(quán)利要求書界定的范圍為準(zhǔn)。
權(quán)利要求
1.一種面向移動設(shè)備的多通道中文輸入方法,其步驟如下1)在移動設(shè)備上同時用鍵盤和語音輸入信息;獲取按鍵時間和語音輸入的時間,記錄每個輸入中文詞語的第一個鍵和確認(rèn)鍵按下時刻,計算有效語音時間;2)讀取有效語音時間內(nèi)的鍵盤輸入信息和語音識別信息,得到鍵盤輸入候選集合和語音識別候選集合;3)對上述語音識別候選集合和鍵盤輸入候選集合采用多通道融合方法融合,按照某個鍵盤輸入候選的輸入概率重排序候選集合,并將重排序后的候選集合映射回漢字,由用戶選擇最終輸入。
2. 如權(quán)利要求1所述的一種面向移動設(shè)備的多通道中文輸入方法,其特征在于,所述有效語音時間為max(r(/VeCo"力mj加OM),r(F〖"^Tey/Vess) - /wferra/j與r(Cow,rmofto )之間的時間; 其中r(Cb;^TOrf/o")是當(dāng)前輸入的中文詞語的確認(rèn)時刻,r(/VeCowy ATOrf/o")是前一個輸入的中 文詞語的確認(rèn)時刻;r(i^W/i^/Ve^)是當(dāng)前輸入的中文詞語的第一個按鍵的時刻;所述 /"/m;a/是限制語音的有效輸入時間的一個常量。
3. 如權(quán)利要求1所述的一種面向移動設(shè)備的多通道中文輸入方法,其特征在于,所述步 驟4)中的多通道融合方法如下1 )計算語音候選~與鍵盤候選&的相似度w(A,,、.);2) 計算給定語音輸入、時,選擇鍵盤輸入&為最終輸入的概率P(AI^);3) 計算選擇鍵盤輸入&為最終輸入的概率p");4) 按p")降序的順序?qū)︽I盤輸入候選排序,得到重排序后的候選列表。
4. 如權(quán)利要求3所述一種面向移動設(shè)備的多通道中文輸入方法,其特征在于所述相似度w(") 力,&加丄(* " + a'其中e"(化""ce(&A)為夂與、之間的編輯距離,a大于0。
5. 如權(quán)利要求4所述一種面向移動設(shè)備的多通道中文輸入方法,其特征在于所述 )=4)X ", 〈,其中,Z'(力S來。)'/^;)由識別器獲得,M表示鍵盤 輸入候選集合中的輸入候選個數(shù)。
6. 如權(quán)利要求5所述一種面向移動設(shè)備的多通道中文輸入方法,其特征在于所述<formula>formula see original document page 3</formula> | )MW = ^7 i,其中/r^")表示A的頻度,b的取值范圍為0到1,<formula>formula see original document page 3</formula>N表示語言識別候選集合中的輸入候選個數(shù)。
7. 如權(quán)利要求1所述的一種面向移動設(shè)備的多通道中文輸入方法,其特征在于,所述鍵 盤輸入是簡拼輸入或簡化的筆劃輸入。
8. 如權(quán)利要求1所述的一種面向移動設(shè)備的多通道中文輸入方法,其特征在于,所述移 動設(shè)備是支持?jǐn)?shù)字鍵盤輸入和語音輸入的移動設(shè)備。
全文摘要
本發(fā)明屬于人機交互領(lǐng)域,具體涉及一種面向移動設(shè)備的多通道中文輸入方法。本發(fā)明提供一種移動設(shè)備上的中文輸入方法,同時使用語音和鍵盤輸入中文。鍵盤輸入采用簡拼方法或者簡化的筆劃輸入方法,可以采用現(xiàn)有的技術(shù);鍵盤輸入轉(zhuǎn)化為拼音表示,本發(fā)明在鍵盤輸入的同時,用語音說出要輸入的詞語;語音識別結(jié)果同樣轉(zhuǎn)化為拼音,對鍵盤輸入產(chǎn)生的大量輸入候選排序;然后,使用鍵盤從重排序后的候選列表中選擇最終的輸入,通過語音與鍵盤輸入的同步和多通道融合,提高輸入的效率。
文檔編號G06F3/023GK101334704SQ200810115760
公開日2008年12月31日 申請日期2008年6月27日 優(yōu)先權(quán)日2008年6月27日
發(fā)明者姜映映, 戴國忠, 王宏安, 豐 田 申請人:中國科學(xué)院軟件研究所