專利名稱:一種盲文輸入方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別是涉及一種盲文輸入方法和系統(tǒng)。
背景技術(shù):
人機(jī)交互是盲人使用計(jì)算機(jī)的主要困難之一。人機(jī)交互包含輸入與輸出兩個(gè)方面。前者是指通過鍵盤、鼠標(biāo)等輸入設(shè)備將文字或指令輸入計(jì)算機(jī),后者則是指將文字或其它信息以視覺和語音方式輸出給用戶。由于語音合成技術(shù)日益成熟,將文字轉(zhuǎn)化為語音輸出已經(jīng)成為現(xiàn)實(shí),因此對盲人而言,文字輸入困難是制約其使用計(jì)算機(jī)的重要因素。盲人輸入文字困難一方面是由于視力障礙,另一方面是因?yàn)槊と耸褂玫臐h語盲文字與漢字不同。漢語盲文是基于布萊爾盲文體系,每個(gè)盲文字符均以兩列共6個(gè)點(diǎn)作為一個(gè)基本結(jié)構(gòu)(Ii ),這6個(gè)點(diǎn)有的凸起,有的不凸起,形成64種變化,即能表示64種不同的字符。在漢語盲文中,每種字符表示漢語拼音中的一個(gè)聲母、韻母或聲調(diào),不同的字符按照漢語拼音規(guī)則組成合法音節(jié)以表示漢字,也就是說漢語盲文是一種拼音性的文字。盲人日常書寫盲文是通過在紙上扎出不同的盲文字符,其書寫習(xí)慣與采用漢語拼音和標(biāo)準(zhǔn)鍵盤的普通拼音輸入法有很大差別。因此,盲人通過鍵盤使用現(xiàn)有的漢字輸入法輸入漢字是很困難的。為了解決盲人在計(jì)算機(jī)上輸入文字困難的問題,已經(jīng)出現(xiàn)一些幫助盲人實(shí)現(xiàn)漢字輸入的系統(tǒng),其實(shí)現(xiàn)方法主要有兩種一種是利用普通計(jì)算機(jī)的標(biāo)準(zhǔn)鍵盤和現(xiàn)有漢字輸入法并配合語音合成技術(shù)提示用戶,另一種是采用與盲文對應(yīng)的鍵盤設(shè)置和相應(yīng)的輸入法。 目前,多數(shù)盲人計(jì)算機(jī)系統(tǒng)支持上述第一種方法,但它存在兩個(gè)問題首先,標(biāo)準(zhǔn)鍵盤鍵數(shù)過多,不適合視力障礙者快速摸讀;其次,由于盲人對字形的觀念弱,而盲文使用的字音拼讀方法又與通過標(biāo)準(zhǔn)鍵盤輸入英文字符構(gòu)成的漢字拼音不同,導(dǎo)致盲人使用現(xiàn)有漢字輸入法很不方便。為解決這一問題,出現(xiàn)了上述第二種方法,即采用與盲文對應(yīng)的鍵盤設(shè)置和相應(yīng)輸入法,其主要思路是在標(biāo)準(zhǔn)鍵盤上定義6個(gè),或是采用專用的6鍵鍵盤,使得6個(gè)鍵分別對應(yīng)盲文的6個(gè)凸點(diǎn),當(dāng)6個(gè)鍵中的某一個(gè)或幾個(gè)同時(shí)按下時(shí),可對應(yīng)盲文中的一個(gè)盲符。這種方法與盲符相對應(yīng),相對來說更符合盲文的輸入習(xí)慣,但由于操作時(shí)候要同時(shí)按下多個(gè)鍵,不符合通常的按鍵習(xí)慣,因此往往需要一段時(shí)間的訓(xùn)練才能熟練使用。而且,采用這種方法的用戶輸入的是盲文,當(dāng)用戶需要與普通人交流時(shí),還需要將其轉(zhuǎn)換為漢字?,F(xiàn)有的漢語盲文到漢字的轉(zhuǎn)換通常是先將盲文轉(zhuǎn)換為拼音,再使用語言模型并結(jié)合規(guī)則將拼音轉(zhuǎn)換為漢字,但是這種方法在盲文到拼音和拼音到漢字兩次轉(zhuǎn)換中都有可能產(chǎn)生錯(cuò)誤,而且忽視了漢語盲文自身的特點(diǎn),導(dǎo)致漢語盲文到漢字轉(zhuǎn)換正確率并不高。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種盲文輸入方法和系統(tǒng)。其能夠有效利用漢語盲文自身特征,提高盲文轉(zhuǎn)換為漢字的正確率。為實(shí)現(xiàn)本發(fā)明的目的而提供的一種盲文輸入方法,包括下列步驟
步驟100.根據(jù)N-gram語言模型,結(jié)合漢語盲文分詞連寫規(guī)則,構(gòu)造盲漢轉(zhuǎn)換模型;步驟200.根據(jù)輸入的盲文句子B,列出其對應(yīng)的所有候選漢語句子S;步驟300.利用所述盲漢轉(zhuǎn)換模型,求得輸入的盲文句子為B時(shí)對應(yīng)的所有候選漢語句子S的概率值P (S I B),取P (S I B)值最大的對應(yīng)的漢語詞串的序列3 = 4, ... 作為最終漢語句子輸出。所述步驟100,包括下列步驟步驟110.利用已有真實(shí)盲文語料的訓(xùn)練方法,獲取漢語詞串為S時(shí)對應(yīng)的盲文B 的分詞連寫概率P (B ι S)I S) = V{bxb2...bm I Sxs2...sm) = ΠΡ(辦,I 丨)其中,PO^i | Si)表示漢語詞串
/=1
Si在分詞連寫規(guī)則下對應(yīng)一個(gè)盲文詞bi的概率;步驟120.根據(jù)N-gram語言模型,獲取漢語詞概率P (S) P(S) =P (W1W2. . . WT) =P (W1) P (W2 I W1)…P (Wi I Wi-^1WiW . . Wi^1) · · · P (WT I WT_n+1WT_n+2
...W1^1) (i = 1···Τ),其中的 N-gram 概率 P(Wi |Wi_n+lWi_n+2. . . Wi^1)通過大量的文本訓(xùn)練得到;步驟130.根據(jù)所述分詞連寫概率P (B I S)和所述漢語詞概率P (S),利用貝葉斯公
式P口 I B) =,構(gòu)造盲漢轉(zhuǎn)換模型。所述P(bi|Si)值的估算采用如下三種方法a. 0-1 規(guī)則法假設(shè)共有K條規(guī)則r2,. . .,ι·κ,若漢語詞串Si滿足規(guī)則r」,記作R(s,r」)=True, 否則記作R(s,rj) = False ;采用0,1兩個(gè)值定義分詞連寫概率,即當(dāng)滿足任一條規(guī)則時(shí), 定義其概率值為1,否則為0。b. α規(guī)則法
fa, ]r,,i (s,,r,) = 7>Me引入一個(gè)參數(shù)α,令P(Ak) = ^ J ’,采用α,1-α兩個(gè)值定義分
11 -a vr{, R(sl ’ r) = False
詞連寫概率;c.逐條規(guī)則統(tǒng)計(jì)法對不同的規(guī)則采用不同的α值,對于規(guī)則j = 1,2,..., K,分別估計(jì)α」;1 在訓(xùn)練集中,統(tǒng)計(jì)解碼時(shí)所有規(guī)則認(rèn)為可連寫的串,將串的個(gè)數(shù)記為;2:統(tǒng)計(jì)這C,個(gè)串中實(shí)際被連寫的串的個(gè)數(shù),記為(山_);3 計(jì)算 α j 的估計(jì)值式=c,U)/cr(j)。b中,所述參數(shù)α的值的選取有兩種方法方法一采用一個(gè)開發(fā)集調(diào)試,變換參數(shù)值,尋找使盲-漢轉(zhuǎn)換性能最好的參數(shù)值;方法二 采用一個(gè)訓(xùn)練集,在訓(xùn)練集上直接估計(jì)α的值,估計(jì)方法如下1 在訓(xùn)練集中,統(tǒng)計(jì)解碼時(shí)所有規(guī)則認(rèn)為可連寫的串,將串的個(gè)數(shù)記為q ;
1, BrjiR(S^rj) = True 0 VrjiR(S^rj) = Fahe
2 統(tǒng)計(jì)這q個(gè)串中實(shí)際被連寫的串的個(gè)數(shù),記為Ct ;3 計(jì)算 α 的估計(jì)值 =在步驟200中,利用盲文中的聲調(diào)信息,篩除聲調(diào)不相符的候選漢語句子。在步驟200中,采用基于盲文聲調(diào)信息的詞語選取方法記錄文中所有已出現(xiàn)的標(biāo)調(diào)詞和其轉(zhuǎn)換結(jié)果,當(dāng)后文中有未標(biāo)調(diào)詞出現(xiàn)時(shí),先和已經(jīng)記錄的標(biāo)調(diào)詞比較盲文字符是否相同,若相同,則這個(gè)盲文字符對應(yīng)的候選漢字即使已記錄的標(biāo)調(diào)詞的轉(zhuǎn)換結(jié)果。所述步驟300之后,包括下列步驟步驟400.根據(jù)自然語言規(guī)則對所述最終漢字句子進(jìn)行修改,并將修改的結(jié)果存入緩沖區(qū)作為自適應(yīng)語料,建立基于cache的自適應(yīng)模型,對盲漢轉(zhuǎn)換模型進(jìn)行調(diào)整,得到優(yōu)化的盲漢轉(zhuǎn)換模型。為實(shí)現(xiàn)本發(fā)明的目的還提供一種盲文輸入系統(tǒng),所述系統(tǒng),包括模型構(gòu)造模塊,用于根據(jù)N-gram語言模型,結(jié)合漢語盲文分詞連寫規(guī)則構(gòu)造盲漢轉(zhuǎn)換模型;候選搜索模塊,用于根據(jù)輸入的盲文句子B,列出其對應(yīng)的所有候選漢語句子S ;盲漢轉(zhuǎn)換模塊,用于利用所述盲漢轉(zhuǎn)換模型,求得輸入的盲文句子為B時(shí)對應(yīng)的所有候選漢語句子S的概率值P (S I B),取P (S I B)值最大的對應(yīng)的漢語詞串的序列S = S1,
作為最終漢語句子輸出。所述模型構(gòu)造模塊,包括分詞連寫概率獲取模塊,用于利用已有真實(shí)盲文語料的訓(xùn)練方法,獲取漢語詞串為S時(shí)對應(yīng)的盲文B的分詞連寫概率P (B I S)P(萬 I S) = P(ZJ1Z)2...^ 15,52-^) = 17^/1其中,P(bi|Si)表示漢語詞串
/=1
f
Si在分詞連寫規(guī)則下對應(yīng)一個(gè)盲文詞bi的概率;漢語詞概率獲取模塊,用于根據(jù)N-gram語言模型,獲取漢語詞概率P (S);P(S) =P (W1W2. . . WT) =P (W1) P (W2 I W1)…P (Wi I Wi-^1WiW . . Wi^1) · · · P (WT I WT_n+1WT_n+2 ...W1^1) (i = 1···Τ),其中的 N-gram 概率 P(Wi |Wi_n+lWi_n+2. . . Wi^1)通過大量的文本訓(xùn)練得到;模型計(jì)算模塊,用于根據(jù)所述分詞連寫概率P (B I S)和所述漢語詞概率P (S),利用
貝葉斯公式PC I B) = P(BlS(^(S),構(gòu)造盲漢轉(zhuǎn)換模型。所述P(biSi)值的估算采用如下三種方法a. 0-1 規(guī)則法假設(shè)共有K條規(guī)則r2,. . .,ι·κ,若漢語詞串Si滿足規(guī)則r」,記作R(s,r」)=True, 否則記作R(s,rj) = False ;采用0,1兩個(gè)值定義分詞連寫概率,即當(dāng)滿足任一條規(guī)則時(shí), 定義其概率值為1,否則為0。
1, BrjiR(^rj) = True 0 VrjtRisl,^) = False b. α規(guī)則法 引入一個(gè)參數(shù)α,令Ρ( , μ,)
BrrRi^r) = True ^rj,R(S^rl)- False
,采用α,1-α兩個(gè)值定義分
7詞連寫概率; c.逐條規(guī)則統(tǒng)計(jì)法對不同的規(guī)則采用不同的α值,對于規(guī)則j = 1,2,..., K,分別估計(jì)α」;1 在訓(xùn)練集中,統(tǒng)計(jì)解碼時(shí)所有規(guī)則r」認(rèn)為可連寫的串,將串的個(gè)數(shù)記為Cr(j);2:統(tǒng)計(jì)這C,個(gè)串中實(shí)際被連寫的串的個(gè)數(shù),記為(3山_);3 計(jì)算 α j 的估計(jì)值式 7 =c,{j)lcr{j)。b中,所述參數(shù)α的值的選取有兩種方法方法一采用一個(gè)開發(fā)集調(diào)試,變換參數(shù)值,尋找使盲_漢轉(zhuǎn)換性能最好的參數(shù)值;方法二 采用一個(gè)訓(xùn)練集,在訓(xùn)練集上直接估計(jì)α的值,估計(jì)方法如下1 在訓(xùn)練集中,統(tǒng)計(jì)解碼時(shí)所有規(guī)則認(rèn)為可連寫的串,將串的個(gè)數(shù)記為Ct ;2 統(tǒng)計(jì)這q個(gè)串中實(shí)際被連寫的串的個(gè)數(shù),記為Ct ;3 計(jì)算α的估計(jì)值 .A = Wr。所述系統(tǒng),還包括聲調(diào)信息篩除模塊,用于利用盲文中的聲調(diào)信息,篩除聲調(diào)不相符的候選漢語句子?;诿の穆曊{(diào)信息的詞語選取方法記錄文中所有已出現(xiàn)的標(biāo)調(diào)詞和其轉(zhuǎn)換結(jié)果, 當(dāng)后文中有未標(biāo)調(diào)詞出現(xiàn)時(shí),先和已經(jīng)記錄的標(biāo)調(diào)詞比較盲文字符是否相同,若相同,則這個(gè)盲文字符對應(yīng)的候選漢字即使已記錄的標(biāo)調(diào)詞的轉(zhuǎn)換結(jié)果。所述系統(tǒng),還包括語言模型自適應(yīng)模塊,用于根據(jù)自然語言規(guī)則對所述最終漢字句子進(jìn)行修改,并將修改的結(jié)果存入緩沖區(qū)作為自適應(yīng)語料,建立基于cache的自適應(yīng)模型,對盲漢轉(zhuǎn)換模型進(jìn)行調(diào)整,得到優(yōu)化的盲漢轉(zhuǎn)換模型。本發(fā)明的有益效果是融合現(xiàn)行盲文的多種特點(diǎn),使用語言模型并結(jié)合各種規(guī)則,能夠以很高的轉(zhuǎn)換正確率將用戶輸入的整句整篇盲文直接轉(zhuǎn)換為漢字,并且在此基礎(chǔ)上,利用已有的轉(zhuǎn)換結(jié)果進(jìn)行語言模型自適應(yīng),當(dāng)再有同樣輸入時(shí),產(chǎn)生語言模型自適應(yīng)調(diào)整后的結(jié)果,進(jìn)一步提高轉(zhuǎn)換的正確率。
圖1是本發(fā)明的盲文輸入方法的步驟流程圖;圖2是本發(fā)明中使用盲漢轉(zhuǎn)換模型得到最終轉(zhuǎn)換結(jié)果并輸出的步驟流程圖;圖3是本發(fā)明中構(gòu)造盲漢轉(zhuǎn)換模型的步驟流程圖;圖4是本發(fā)明的盲文輸入系統(tǒng)的工作方法的示意圖;圖5是本發(fā)明的盲文輸入系統(tǒng)的結(jié)構(gòu)圖;圖6是構(gòu)建詞網(wǎng)格的示意圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明的一種盲文輸入方法和系統(tǒng)進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明結(jié)合當(dāng)前最常用的現(xiàn)行盲文的特點(diǎn),提出了一種新的漢語盲文輸入方法。 在輸入的過程中,融合現(xiàn)行盲文的多種特點(diǎn),使用語言模型并結(jié)合各種規(guī)則,能夠以很高的轉(zhuǎn)換正確率將用戶輸入的整句整篇盲文直接轉(zhuǎn)換為漢字,并且在此基礎(chǔ)上,利用已有的轉(zhuǎn)換結(jié)果進(jìn)行語言模型自適應(yīng),當(dāng)再有同樣輸入時(shí),產(chǎn)生語言模型自適應(yīng)調(diào)整后的結(jié)果,進(jìn)一步提高轉(zhuǎn)換的正確率,從根本上解決了盲人使用計(jì)算機(jī)時(shí)輸入文字困難的問題。本發(fā)明的一種盲文輸入方法和系統(tǒng),基于N-gram語言模型,根據(jù)當(dāng)前字或詞之前的N-I個(gè)字或詞估計(jì)當(dāng)前盲文對應(yīng)某個(gè)具體字或詞的概率的統(tǒng)計(jì)語言模型。在此基礎(chǔ)上, 本發(fā)明主要包括三個(gè)創(chuàng)新點(diǎn)融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型、基于盲文聲調(diào)信息的詞語選取方法、語言模型自適應(yīng)。下面結(jié)合上述目標(biāo)詳細(xì)介紹本發(fā)明的一種盲文輸入方法,圖1是本發(fā)明的盲文輸入方法的步驟流程圖,如圖1所示,所述方法,包括下列步驟步驟100.對輸入的盲文詞串,列出其對應(yīng)的所有候選漢語句子S,使用融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型,得到最終轉(zhuǎn)換結(jié)果并輸出;漢語盲文是一種表音性文字,與漢語拼音類似,每個(gè)盲文字符對應(yīng)多個(gè)漢字候選。 通常采用N-gram語言模型處理漢語拼音到漢字的轉(zhuǎn)換問題。但是如果簡單的像拼音到漢字轉(zhuǎn)換那樣使用N-gram語言模型處理漢語盲文到漢字的轉(zhuǎn)換問題,會丟掉漢語盲文自身的信息,即漢語盲文最大的特征——分詞連寫規(guī)則,因此本發(fā)明提出了一種融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型。分詞連寫,是漢語盲文獨(dú)有的重要規(guī)則。所謂分詞,即是把一個(gè)個(gè)詞分開來寫;所謂連寫,即是按照盲文的特殊性,避免音節(jié)結(jié)構(gòu)過于松散,便于盲人摸讀,將一些詞連起來寫。在盲文中使用分詞連寫規(guī)則是為了更準(zhǔn)確清晰的表達(dá)語意,例如,幾個(gè)多音節(jié)詞組成的固定詞組表示國名、社會單位等專名概念,按詞分寫,如中華I人民I共和國;動詞跟事態(tài)助詞“著”“了”“過”連寫,如看見了。由于漢語盲文其獨(dú)特的分詞連寫規(guī)則與漢語中詞語的概念不同,有的盲文詞不能在我們已有的普通漢語詞典中找到與之直接對應(yīng)的中文詞, 如“看見了”在盲文規(guī)則是一個(gè)詞,而根據(jù)漢語習(xí)慣不把“看見了”當(dāng)作一個(gè)詞,而是“看見” 這個(gè)詞和“了”合成的一個(gè)詞組。根據(jù)盲文分詞連寫規(guī)則,這樣的詞很多,不能一一列舉,因此在轉(zhuǎn)換時(shí),對于每個(gè)這樣的盲文詞,將這個(gè)盲文詞中的字或者這個(gè)詞中包含的普通漢語詞拆開作為一個(gè)字或詞,如“看見了”可以拆為“看見”和“了”,“一小段”拆為“一”,“小”和 “段”。這樣,針對這個(gè)詞,對其拆分的單元使用融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型N-gram語言模型進(jìn)行轉(zhuǎn)換。而對于只表示一個(gè)字或者一個(gè)普通漢語詞的盲文字符,直接用N-gram語言模型進(jìn)行轉(zhuǎn)換即可。圖2是本發(fā)明中使用盲漢轉(zhuǎn)換模型得到最終轉(zhuǎn)換結(jié)果并輸出的步驟流程圖,如圖 2所示,所述步驟100,包括下列步驟步驟110.根據(jù)N-gram語言模型,結(jié)合漢語盲文分詞連寫規(guī)則,構(gòu)造盲漢轉(zhuǎn)換模型;融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型構(gòu)造如下假設(shè)輸入為一個(gè)盲文詞串B = bib2. . . bm,其中bji = 1,. . .,m)是盲文詞。也就是說,這個(gè)盲文句子由η個(gè)盲文詞組成。其中每一個(gè)盲文詞可對應(yīng)Hii (i = 1,…,η)個(gè)漢語詞。也就是說,盲文詞h對應(yīng)Hi1個(gè)漢語詞,盲文詞ID2對應(yīng)m2個(gè)漢語詞…盲文詞bn對應(yīng) mn個(gè)漢語詞,這樣,這個(gè)盲文句子就會對應(yīng)mi*m2*…*mn個(gè)漢語句子。然后通過計(jì)算,從這些漢語句子中選出一句作為最終轉(zhuǎn)換結(jié)果。其中X (j = 1,2, . . . m,)是一個(gè)長度為的漢語詞,即《,最終轉(zhuǎn)換結(jié)果為B對應(yīng)的漢語詞串S = S1S2-知。圖3是本發(fā)明中構(gòu)造盲漢轉(zhuǎn)換模型的步驟流程圖,如圖3所示,所述步驟110,包括下列步驟步驟111.利用已有真實(shí)盲文語料的訓(xùn)練方法,獲取漢語詞串為S時(shí)對應(yīng)的盲文B 的概率,稱為分詞連寫概率P (B ι S);在書寫盲文時(shí),根據(jù)盲文分詞連寫規(guī)則,同一個(gè)詞(詞組),可能會因?yàn)樵诓煌渥又械某煞植煌?,?dǎo)致這個(gè)盲文詞(詞組)的寫法不同(即可能連寫,也可能分開寫)。下面舉一個(gè)例子,“種菜”這個(gè)詞,在句子“小王種菜”中,動詞“種”充當(dāng)謂語動詞,在這種情況下,根據(jù)盲文分詞連寫規(guī)則,動詞“種”和賓語“菜”應(yīng)當(dāng)分寫,故這句的盲文應(yīng)該書寫為 "xiaowang zhong cai";而在句子“小王是種菜能手”中,動詞“種”和賓語“菜”組成的動賓短語作定語,在這種情況下,根據(jù)盲文分詞連寫規(guī)則,動詞“種”和賓語“菜”不應(yīng)當(dāng)分寫, 故這句的盲文應(yīng)該書寫為“xiaowang shi zhongcai nengshou”。從上面的例子,可以看出,相同的一個(gè)詞(詞組)由于在不同句子中代表的句子成分不同,在盲文分詞連寫規(guī)則的規(guī)定下可能連寫也可能分寫。而現(xiàn)有的方法很難精準(zhǔn)的判斷出一句話(中文)中的每一個(gè)詞的詞性以及句子成分,也就是說,對于給定一個(gè)漢語句子S,利用現(xiàn)有方法不能確定其對應(yīng)的盲文句子B是否完全符合盲文分詞連寫規(guī)則,即P(B|Q是不確定的。為此,我們提出了一種利用我們已有的真實(shí)盲文語料的訓(xùn)練方法若語料中有詞組既有連寫又有分寫的情況,那么我們使用一種基于統(tǒng)計(jì)的方法,得到每一個(gè)這種詞組的P (B I S)。有了這些基于經(jīng)驗(yàn)的P(B|Q概率值,在盲文到漢語的轉(zhuǎn)換時(shí),根據(jù)輸入的盲文B和轉(zhuǎn)換得到的結(jié)果S,利用事先訓(xùn)練得到的相應(yīng)P (B I S),進(jìn)行計(jì)算。由于各個(gè)盲文詞連寫與否是相互獨(dú)立的,因此P (B I S)可分解為
m?(B 丨幻=?(b、b2“.bm 丨 V2... )二 Πp^/ 丨
(=1其中,P(bi|Si)表示漢語詞串Si在分詞連寫規(guī)則下對應(yīng)一個(gè)盲文詞bi (即該詞串既不會被拆分為多個(gè)盲文詞,也不會作為一部分而包含于其它盲文詞,而恰好對應(yīng)獨(dú)立的盲文詞h)的概率。其中,P(bi I Si)值的估計(jì)可采用如下三種方法步驟Illa. 0-1規(guī)則法事實(shí)上,某一個(gè)漢語詞串是否應(yīng)連寫為一個(gè)盲文詞,是由中國盲文規(guī)范中的分詞連寫規(guī)則決定的。這些規(guī)則大約有幾百條,一般根據(jù)詞串中的詞的詞性、在句中的成分、詞串的長短等決定某一詞是否連寫。因此,可以根據(jù)這些規(guī)則決定分詞連寫的概率。假設(shè)共有K條規(guī)則r2, . . . rK, 若漢語詞串Si滿足規(guī)則r」,記作R(s,rj) = True,否則記作R(s,r」)=False.因此,基于這些規(guī)則,可采用0,1兩個(gè)值定義分詞連寫概率,即當(dāng)滿足任一條規(guī)則時(shí),定義其概率值為1,否則為0。
10
權(quán)利要求
1.一種盲文輸入方法,其特征在于,所述方法,包括下列步驟步驟100.根據(jù)N-gram語言模型,結(jié)合漢語盲文分詞連寫規(guī)則,構(gòu)造盲漢轉(zhuǎn)換模型; 步驟200.根據(jù)輸入的盲文句子B,列出其對應(yīng)的所有候選漢語句子S ; 步驟300.利用所述盲漢轉(zhuǎn)換模型,求得輸入的盲文句子為B時(shí)對應(yīng)的所有候選漢語句子S的概率值P (S I B),取P (S I B)值最大的對應(yīng)的漢語詞串的序列S = S1S2. . . Sffl作為最終漢語句子輸出。
2.根據(jù)權(quán)利要求1所述的盲文輸入方法,其特征在于,所述步驟100,包括下列步驟 步驟110.利用已有真實(shí)盲文語料的訓(xùn)練方法,獲取漢語詞串為S時(shí)對應(yīng)的盲文B的分詞連寫概率P (B I S)
3.根據(jù)權(quán)利要求2所述的盲文輸入方法,其特征在于,所述P(bi I Si)值的估算采用如下三種方法
4.根據(jù)權(quán)利要求3所述的盲文輸入方法,其特征在于,b中,所述參數(shù)α的值的選取有兩種方法方法一采用一個(gè)開發(fā)集調(diào)試,變換參數(shù)值,尋找使盲-漢轉(zhuǎn)換性能最好的參數(shù)值;方法二 采用一個(gè)訓(xùn)練集,在訓(xùn)練集上直接估計(jì)α的值,估計(jì)方法如下1在訓(xùn)練集中,統(tǒng)計(jì)解碼時(shí)所有規(guī)則認(rèn)為可連寫的串,將串的個(gè)數(shù)記為q ;2統(tǒng)計(jì)這q個(gè)串中實(shí)際被連寫的串的個(gè)數(shù),記為Ct ; 3:計(jì)算α的估計(jì)值0一^,、。
5.根據(jù)權(quán)利要求1所述的盲文輸入方法,其特征在于,在步驟200中,利用盲文中的聲調(diào)信息,篩除聲調(diào)不相符的候選漢語句子。
6.根據(jù)權(quán)利要求1所述的盲文輸入方法,其特征在于,在步驟200中,采用基于盲文聲調(diào)信息的詞語選取方法記錄文中所有已出現(xiàn)的標(biāo)調(diào)詞和其轉(zhuǎn)換結(jié)果,當(dāng)后文中有未標(biāo)調(diào)詞出現(xiàn)時(shí),先和已經(jīng)記錄的標(biāo)調(diào)詞比較盲文字符是否相同,若相同,則這個(gè)盲文字符對應(yīng)的候選漢字即使已記錄的標(biāo)調(diào)詞的轉(zhuǎn)換結(jié)果。
7.根據(jù)權(quán)利要求1所述的盲文輸入方法,其特征在于,所述步驟300之后,包括下列步驟步驟400.根據(jù)自然語言規(guī)則對所述最終漢字句子進(jìn)行修改,并將修改的結(jié)果存入緩沖區(qū)作為自適應(yīng)語料,建立基于cache的自適應(yīng)模型,對盲漢轉(zhuǎn)換模型進(jìn)行調(diào)整,得到優(yōu)化的盲漢轉(zhuǎn)換模型。
8.一種盲文輸入系統(tǒng),其特征在于,所述系統(tǒng),包括模型構(gòu)造模塊,用于根據(jù)N-gram語言模型,結(jié)合漢語盲文分詞連寫規(guī)則構(gòu)造盲漢轉(zhuǎn)換模型;候選搜索模塊,用于根據(jù)輸入的盲文句子B,列出其對應(yīng)的所有候選漢語句子S ;盲漢轉(zhuǎn)換模塊,用于利用所述盲漢轉(zhuǎn)換模型,求得輸入的盲文句子為B時(shí)對應(yīng)的所有候選漢語句子S的概率值P (S I B),取P (S I B)值最大的對應(yīng)的漢語詞串的序列S = S1W2. . . Sffl作為最終漢語句子輸出。
9.根據(jù)權(quán)利要求8所述的盲文輸入系統(tǒng),其特征在于,所述模型構(gòu)造模塊,包括 分詞連寫概率獲取模塊,用于利用已有真實(shí)盲文語料的訓(xùn)練方法,獲取漢語詞串為S時(shí)對應(yīng)的盲文B的分詞連寫概率P (B I S)mP(^I4S1) = P(V)2,.九 Iv2…=I )其中,P(bi|Si)表示漢語詞串&在‘=1 ,分詞連寫規(guī)則下對應(yīng)一個(gè)盲文詞bi的概率;漢語詞概率獲取模塊,用于根據(jù)N-gram語言模型,獲取漢語詞概率P (S);P(S) =P (W1W2. . . WT) =P (W1) P (W2 I W1)…P (Wi I Wi-JrtWiW · · WH) · · · P (WT I WT_n+1WT_n+2...W1^1) (i = 1···Τ),其中的N-gram概率P (Wi | Wi_n+lWi_n+2. . . Wi^1)通過大量的文本訓(xùn)練得到; 模型計(jì)算模塊,用于根據(jù)所述分詞連寫概率P (B I S)和所述漢語詞概率P (S),利用貝葉斯公式=,構(gòu)造盲漢轉(zhuǎn)換模型。
10.根據(jù)權(quán)利要求9所述的盲文輸入系統(tǒng),其特征在于,所述P(bi I Si)值的估算采用如下三種方法a. 0-1規(guī)則法假設(shè)共有K條規(guī)則巧,r2,. . .,rK,若漢語詞串Si滿足規(guī)則記作R(s,r」)=True,否則記作R(s,rj) = False ;采用0,1兩個(gè)值定義分詞連寫概率,即當(dāng)滿足任一條規(guī)則時(shí),定義其概率值為1,否則為O。
11.根據(jù)權(quán)利要求10所述的盲文輸入系統(tǒng),其特征在于,b中,所述參數(shù)α的值的選取有兩種方法方法一采用一個(gè)開發(fā)集調(diào)試,變換參數(shù)值,尋找使盲-漢轉(zhuǎn)換性能最好的參數(shù)值; 方法二 采用一個(gè)訓(xùn)練集,在訓(xùn)練集上直接估計(jì)α的值,估計(jì)方法如下1在訓(xùn)練集中,統(tǒng)計(jì)解碼時(shí)所有規(guī)則認(rèn)為可連寫的串,將串的個(gè)數(shù)記為q ;2統(tǒng)計(jì)這q個(gè)串中實(shí)際被連寫的串的個(gè)數(shù),記為Ct ;3計(jì)算α的估計(jì)值0盧=^,乂。
12.根據(jù)權(quán)利要求8所述的盲文輸入系統(tǒng),其特征在于,所述系統(tǒng),還包括聲調(diào)信息篩除模塊,用于利用盲文中的聲調(diào)信息,篩除聲調(diào)不相符的候選漢語句子。
13.根據(jù)權(quán)利要求8所述的盲文輸入系統(tǒng),其特征在于,基于盲文聲調(diào)信息的詞語選取方法記錄文中所有已出現(xiàn)的標(biāo)調(diào)詞和其轉(zhuǎn)換結(jié)果,當(dāng)后文中有未標(biāo)調(diào)詞出現(xiàn)時(shí),先和已經(jīng)記錄的標(biāo)調(diào)詞比較盲文字符是否相同,若相同,則這個(gè)盲文字符對應(yīng)的候選漢字即使已記錄的標(biāo)調(diào)詞的轉(zhuǎn)換結(jié)果。
14.根據(jù)權(quán)利要求8所述的盲文輸入系統(tǒng),其特征在于,所述系統(tǒng),還包括語言模型自適應(yīng)模塊,用于根據(jù)自然語言規(guī)則對所述最終漢字句子進(jìn)行修改,并將修改的結(jié)果存入緩沖區(qū)作為自適應(yīng)語料,建立基于cache的自適應(yīng)模型,對盲漢轉(zhuǎn)換模型進(jìn)行調(diào)整,得到優(yōu)化的盲漢轉(zhuǎn)換模型。
全文摘要
本發(fā)明公開了一種盲文輸入方法和系統(tǒng)。所述方法包括下列步驟步驟根據(jù)N-gram語言模型,結(jié)合漢語盲文分詞連寫規(guī)則,構(gòu)造盲漢轉(zhuǎn)換模型;根據(jù)輸入的盲文句子B,列出其對應(yīng)的所有候選漢語句子S;利用所述盲漢轉(zhuǎn)換模型,求得輸入的盲文句子為B時(shí)對應(yīng)的所有候選漢語句子S的概率值P(S|B),取P(S|B)值最大的對應(yīng)的漢語詞串的序列S=s1s2...sm作為最終漢語句子輸出。其能夠有效利用漢語盲文自身特征,提高盲文轉(zhuǎn)換為漢字的正確率。
文檔編號G09B21/02GK102156693SQ201110070320
公開日2011年8月17日 申請日期2011年3月23日 優(yōu)先權(quán)日2011年3月23日
發(fā)明者林守勛, 王向東, 王超, 錢躍良 申請人:中國科學(xué)院計(jì)算技術(shù)研究所