一種盲文輸入方法和系統(tǒng)的制作方法

文檔序號：2583243閱讀：316來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>辦公文教;裝訂;廣告設(shè)備的制造及其產(chǎn)品制作工藝

專利名稱：一種盲文輸入方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域，特別是涉及一種盲文輸入方法和系統(tǒng)。
背景技術(shù)：
人機(jī)交互是盲人使用計(jì)算機(jī)的主要困難之一。人機(jī)交互包含輸入與輸出兩個(gè)方面。前者是指通過鍵盤、鼠標(biāo)等輸入設(shè)備將文字或指令輸入計(jì)算機(jī)，后者則是指將文字或其它信息以視覺和語音方式輸出給用戶。由于語音合成技術(shù)日益成熟，將文字轉(zhuǎn)化為語音輸出已經(jīng)成為現(xiàn)實(shí)，因此對盲人而言，文字輸入困難是制約其使用計(jì)算機(jī)的重要因素。盲人輸入文字困難一方面是由于視力障礙，另一方面是因?yàn)槊と耸褂玫臐h語盲文字與漢字不同。漢語盲文是基于布萊爾盲文體系，每個(gè)盲文字符均以兩列共6個(gè)點(diǎn)作為一個(gè)基本結(jié)構(gòu)(Ii )，這6個(gè)點(diǎn)有的凸起，有的不凸起，形成64種變化，即能表示64種不同的字符。在漢語盲文中，每種字符表示漢語拼音中的一個(gè)聲母、韻母或聲調(diào)，不同的字符按照漢語拼音規(guī)則組成合法音節(jié)以表示漢字，也就是說漢語盲文是一種拼音性的文字。盲人日常書寫盲文是通過在紙上扎出不同的盲文字符，其書寫習(xí)慣與采用漢語拼音和標(biāo)準(zhǔn)鍵盤的普通拼音輸入法有很大差別。因此，盲人通過鍵盤使用現(xiàn)有的漢字輸入法輸入漢字是很困難的。為了解決盲人在計(jì)算機(jī)上輸入文字困難的問題，已經(jīng)出現(xiàn)一些幫助盲人實(shí)現(xiàn)漢字輸入的系統(tǒng)，其實(shí)現(xiàn)方法主要有兩種一種是利用普通計(jì)算機(jī)的標(biāo)準(zhǔn)鍵盤和現(xiàn)有漢字輸入法并配合語音合成技術(shù)提示用戶，另一種是采用與盲文對應(yīng)的鍵盤設(shè)置和相應(yīng)的輸入法。目前，多數(shù)盲人計(jì)算機(jī)系統(tǒng)支持上述第一種方法，但它存在兩個(gè)問題首先，標(biāo)準(zhǔn)鍵盤鍵數(shù)過多，不適合視力障礙者快速摸讀；其次，由于盲人對字形的觀念弱，而盲文使用的字音拼讀方法又與通過標(biāo)準(zhǔn)鍵盤輸入英文字符構(gòu)成的漢字拼音不同，導(dǎo)致盲人使用現(xiàn)有漢字輸入法很不方便。為解決這一問題，出現(xiàn)了上述第二種方法，即采用與盲文對應(yīng)的鍵盤設(shè)置和相應(yīng)輸入法，其主要思路是在標(biāo)準(zhǔn)鍵盤上定義6個(gè)，或是采用專用的6鍵鍵盤，使得6個(gè)鍵分別對應(yīng)盲文的6個(gè)凸點(diǎn)，當(dāng)6個(gè)鍵中的某一個(gè)或幾個(gè)同時(shí)按下時(shí)，可對應(yīng)盲文中的一個(gè)盲符。這種方法與盲符相對應(yīng)，相對來說更符合盲文的輸入習(xí)慣，但由于操作時(shí)候要同時(shí)按下多個(gè)鍵，不符合通常的按鍵習(xí)慣，因此往往需要一段時(shí)間的訓(xùn)練才能熟練使用。而且，采用這種方法的用戶輸入的是盲文，當(dāng)用戶需要與普通人交流時(shí)，還需要將其轉(zhuǎn)換為漢字?，F(xiàn)有的漢語盲文到漢字的轉(zhuǎn)換通常是先將盲文轉(zhuǎn)換為拼音，再使用語言模型并結(jié)合規(guī)則將拼音轉(zhuǎn)換為漢字，但是這種方法在盲文到拼音和拼音到漢字兩次轉(zhuǎn)換中都有可能產(chǎn)生錯(cuò)誤，而且忽視了漢語盲文自身的特點(diǎn)，導(dǎo)致漢語盲文到漢字轉(zhuǎn)換正確率并不高。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種盲文輸入方法和系統(tǒng)。其能夠有效利用漢語盲文自身特征，提高盲文轉(zhuǎn)換為漢字的正確率。為實(shí)現(xiàn)本發(fā)明的目的而提供的一種盲文輸入方法，包括下列步驟
步驟100.根據(jù)N-gram語言模型，結(jié)合漢語盲文分詞連寫規(guī)則，構(gòu)造盲漢轉(zhuǎn)換模型；步驟200.根據(jù)輸入的盲文句子B，列出其對應(yīng)的所有候選漢語句子S;步驟300.利用所述盲漢轉(zhuǎn)換模型，求得輸入的盲文句子為B時(shí)對應(yīng)的所有候選漢語句子S的概率值P (S I B)，取P (S I B)值最大的對應(yīng)的漢語詞串的序列3 = 4, ... 作為最終漢語句子輸出。所述步驟100，包括下列步驟步驟110.利用已有真實(shí)盲文語料的訓(xùn)練方法，獲取漢語詞串為S時(shí)對應(yīng)的盲文B 的分詞連寫概率P (B ι S)I S) = V{bxb2...bm I Sxs2...sm) = ΠΡ(辦,I 丨)其中，PO^i | Si)表示漢語詞串
/=1
Si在分詞連寫規(guī)則下對應(yīng)一個(gè)盲文詞bi的概率；步驟120.根據(jù)N-gram語言模型，獲取漢語詞概率P (S) P(S) =P (W1W2. . . WT) =P (W1) P (W2 I W1)…P (Wi I Wi-^1WiW . . Wi^1) · · · P (WT I WT_n+1WT_n+2
...W1^1) (i = 1···Τ)，其中的 N-gram 概率 P(Wi |Wi_n+lWi_n+2. . . Wi^1)通過大量的文本訓(xùn)練得到；步驟130.根據(jù)所述分詞連寫概率P (B I S)和所述漢語詞概率P (S)，利用貝葉斯公
式P口 I B) =，構(gòu)造盲漢轉(zhuǎn)換模型。所述P(bi|Si)值的估算采用如下三種方法a. 0-1 規(guī)則法假設(shè)共有K條規(guī)則r2，. . .，ι·κ，若漢語詞串Si滿足規(guī)則r」，記作R(s，r」)=True, 否則記作R(s，rj) = False ；采用0，1兩個(gè)值定義分詞連寫概率，即當(dāng)滿足任一條規(guī)則時(shí)，定義其概率值為1，否則為0。b. α規(guī)則法
fa, ]r,，i (s,，r,) = 7>Me引入一個(gè)參數(shù)α，令P(Ak) = ^ J ’，采用α，1-α兩個(gè)值定義分
11 -a vr{, R(sl ’ r) = False
詞連寫概率；c.逐條規(guī)則統(tǒng)計(jì)法對不同的規(guī)則采用不同的α值，對于規(guī)則j = 1,2,..., K，分別估計(jì)α」；1 在訓(xùn)練集中，統(tǒng)計(jì)解碼時(shí)所有規(guī)則認(rèn)為可連寫的串，將串的個(gè)數(shù)記為；2:統(tǒng)計(jì)這C,個(gè)串中實(shí)際被連寫的串的個(gè)數(shù)，記為(山_)；3 計(jì)算 α j 的估計(jì)值式=c,U)/cr(j)。b中，所述參數(shù)α的值的選取有兩種方法方法一采用一個(gè)開發(fā)集調(diào)試，變換參數(shù)值，尋找使盲-漢轉(zhuǎn)換性能最好的參數(shù)值；方法二采用一個(gè)訓(xùn)練集，在訓(xùn)練集上直接估計(jì)α的值，估計(jì)方法如下1 在訓(xùn)練集中，統(tǒng)計(jì)解碼時(shí)所有規(guī)則認(rèn)為可連寫的串，將串的個(gè)數(shù)記為q ；
1， BrjiR(S^rj) = True 0 VrjiR(S^rj) = Fahe
2 統(tǒng)計(jì)這q個(gè)串中實(shí)際被連寫的串的個(gè)數(shù)，記為Ct ；3 計(jì)算 α 的估計(jì)值 =在步驟200中，利用盲文中的聲調(diào)信息，篩除聲調(diào)不相符的候選漢語句子。在步驟200中，采用基于盲文聲調(diào)信息的詞語選取方法記錄文中所有已出現(xiàn)的標(biāo)調(diào)詞和其轉(zhuǎn)換結(jié)果，當(dāng)后文中有未標(biāo)調(diào)詞出現(xiàn)時(shí)，先和已經(jīng)記錄的標(biāo)調(diào)詞比較盲文字符是否相同，若相同，則這個(gè)盲文字符對應(yīng)的候選漢字即使已記錄的標(biāo)調(diào)詞的轉(zhuǎn)換結(jié)果。所述步驟300之后，包括下列步驟步驟400.根據(jù)自然語言規(guī)則對所述最終漢字句子進(jìn)行修改，并將修改的結(jié)果存入緩沖區(qū)作為自適應(yīng)語料，建立基于cache的自適應(yīng)模型，對盲漢轉(zhuǎn)換模型進(jìn)行調(diào)整，得到優(yōu)化的盲漢轉(zhuǎn)換模型。為實(shí)現(xiàn)本發(fā)明的目的還提供一種盲文輸入系統(tǒng)，所述系統(tǒng)，包括模型構(gòu)造模塊，用于根據(jù)N-gram語言模型，結(jié)合漢語盲文分詞連寫規(guī)則構(gòu)造盲漢轉(zhuǎn)換模型；候選搜索模塊，用于根據(jù)輸入的盲文句子B，列出其對應(yīng)的所有候選漢語句子S ；盲漢轉(zhuǎn)換模塊，用于利用所述盲漢轉(zhuǎn)換模型，求得輸入的盲文句子為B時(shí)對應(yīng)的所有候選漢語句子S的概率值P (S I B)，取P (S I B)值最大的對應(yīng)的漢語詞串的序列S = S1,
作為最終漢語句子輸出。所述模型構(gòu)造模塊，包括分詞連寫概率獲取模塊，用于利用已有真實(shí)盲文語料的訓(xùn)練方法，獲取漢語詞串為S時(shí)對應(yīng)的盲文B的分詞連寫概率P (B I S)P(萬 I S) = P(ZJ1Z)2...^ 15,52-^) = 17^/1其中，P(bi|Si)表示漢語詞串
/=1
f
Si在分詞連寫規(guī)則下對應(yīng)一個(gè)盲文詞bi的概率；漢語詞概率獲取模塊，用于根據(jù)N-gram語言模型，獲取漢語詞概率P (S)；P(S) =P (W1W2. . . WT) =P (W1) P (W2 I W1)…P (Wi I Wi-^1WiW . . Wi^1) · · · P (WT I WT_n+1WT_n+2 ...W1^1) (i = 1···Τ)，其中的 N-gram 概率 P(Wi |Wi_n+lWi_n+2. . . Wi^1)通過大量的文本訓(xùn)練得到；模型計(jì)算模塊，用于根據(jù)所述分詞連寫概率P (B I S)和所述漢語詞概率P (S)，利用
貝葉斯公式PC I B) = P(BlS(^(S)，構(gòu)造盲漢轉(zhuǎn)換模型。所述P(biSi)值的估算采用如下三種方法a. 0-1 規(guī)則法假設(shè)共有K條規(guī)則r2，. . .，ι·κ，若漢語詞串Si滿足規(guī)則r」，記作R(s，r」)=True, 否則記作R(s，rj) = False ；采用0，1兩個(gè)值定義分詞連寫概率，即當(dāng)滿足任一條規(guī)則時(shí)，定義其概率值為1，否則為0。
1, BrjiR(^rj) = True 0 VrjtRisl,^) = False b. α規(guī)則法引入一個(gè)參數(shù)α，令Ρ( , μ,)
BrrRi^r) = True ^rj,R(S^rl)- False
，采用α，1-α兩個(gè)值定義分
7詞連寫概率； c.逐條規(guī)則統(tǒng)計(jì)法對不同的規(guī)則采用不同的α值，對于規(guī)則j = 1,2,..., K，分別估計(jì)α」；1 在訓(xùn)練集中，統(tǒng)計(jì)解碼時(shí)所有規(guī)則r」認(rèn)為可連寫的串，將串的個(gè)數(shù)記為Cr(j)；2:統(tǒng)計(jì)這C,個(gè)串中實(shí)際被連寫的串的個(gè)數(shù)，記為(3山_)；3 計(jì)算 α j 的估計(jì)值式 7 =c,{j)lcr{j)。b中，所述參數(shù)α的值的選取有兩種方法方法一采用一個(gè)開發(fā)集調(diào)試，變換參數(shù)值，尋找使盲_漢轉(zhuǎn)換性能最好的參數(shù)值；方法二采用一個(gè)訓(xùn)練集，在訓(xùn)練集上直接估計(jì)α的值，估計(jì)方法如下1 在訓(xùn)練集中，統(tǒng)計(jì)解碼時(shí)所有規(guī)則認(rèn)為可連寫的串，將串的個(gè)數(shù)記為Ct ；2 統(tǒng)計(jì)這q個(gè)串中實(shí)際被連寫的串的個(gè)數(shù)，記為Ct ；3 計(jì)算α的估計(jì)值 .A = Wr。所述系統(tǒng)，還包括聲調(diào)信息篩除模塊，用于利用盲文中的聲調(diào)信息，篩除聲調(diào)不相符的候選漢語句子?；诿の穆曊{(diào)信息的詞語選取方法記錄文中所有已出現(xiàn)的標(biāo)調(diào)詞和其轉(zhuǎn)換結(jié)果，當(dāng)后文中有未標(biāo)調(diào)詞出現(xiàn)時(shí)，先和已經(jīng)記錄的標(biāo)調(diào)詞比較盲文字符是否相同，若相同，則這個(gè)盲文字符對應(yīng)的候選漢字即使已記錄的標(biāo)調(diào)詞的轉(zhuǎn)換結(jié)果。所述系統(tǒng)，還包括語言模型自適應(yīng)模塊，用于根據(jù)自然語言規(guī)則對所述最終漢字句子進(jìn)行修改，并將修改的結(jié)果存入緩沖區(qū)作為自適應(yīng)語料，建立基于cache的自適應(yīng)模型，對盲漢轉(zhuǎn)換模型進(jìn)行調(diào)整，得到優(yōu)化的盲漢轉(zhuǎn)換模型。本發(fā)明的有益效果是融合現(xiàn)行盲文的多種特點(diǎn)，使用語言模型并結(jié)合各種規(guī)則，能夠以很高的轉(zhuǎn)換正確率將用戶輸入的整句整篇盲文直接轉(zhuǎn)換為漢字，并且在此基礎(chǔ)上，利用已有的轉(zhuǎn)換結(jié)果進(jìn)行語言模型自適應(yīng)，當(dāng)再有同樣輸入時(shí)，產(chǎn)生語言模型自適應(yīng)調(diào)整后的結(jié)果，進(jìn)一步提高轉(zhuǎn)換的正確率。

圖1是本發(fā)明的盲文輸入方法的步驟流程圖；圖2是本發(fā)明中使用盲漢轉(zhuǎn)換模型得到最終轉(zhuǎn)換結(jié)果并輸出的步驟流程圖；圖3是本發(fā)明中構(gòu)造盲漢轉(zhuǎn)換模型的步驟流程圖；圖4是本發(fā)明的盲文輸入系統(tǒng)的工作方法的示意圖；圖5是本發(fā)明的盲文輸入系統(tǒng)的結(jié)構(gòu)圖；圖6是構(gòu)建詞網(wǎng)格的示意圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合附圖及實(shí)施例，對本發(fā)明的一種盲文輸入方法和系統(tǒng)進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。本發(fā)明結(jié)合當(dāng)前最常用的現(xiàn)行盲文的特點(diǎn)，提出了一種新的漢語盲文輸入方法。在輸入的過程中，融合現(xiàn)行盲文的多種特點(diǎn)，使用語言模型并結(jié)合各種規(guī)則，能夠以很高的轉(zhuǎn)換正確率將用戶輸入的整句整篇盲文直接轉(zhuǎn)換為漢字，并且在此基礎(chǔ)上，利用已有的轉(zhuǎn)換結(jié)果進(jìn)行語言模型自適應(yīng)，當(dāng)再有同樣輸入時(shí)，產(chǎn)生語言模型自適應(yīng)調(diào)整后的結(jié)果，進(jìn)一步提高轉(zhuǎn)換的正確率，從根本上解決了盲人使用計(jì)算機(jī)時(shí)輸入文字困難的問題。本發(fā)明的一種盲文輸入方法和系統(tǒng)，基于N-gram語言模型，根據(jù)當(dāng)前字或詞之前的N-I個(gè)字或詞估計(jì)當(dāng)前盲文對應(yīng)某個(gè)具體字或詞的概率的統(tǒng)計(jì)語言模型。在此基礎(chǔ)上，本發(fā)明主要包括三個(gè)創(chuàng)新點(diǎn)融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型、基于盲文聲調(diào)信息的詞語選取方法、語言模型自適應(yīng)。下面結(jié)合上述目標(biāo)詳細(xì)介紹本發(fā)明的一種盲文輸入方法，圖1是本發(fā)明的盲文輸入方法的步驟流程圖，如圖1所示，所述方法，包括下列步驟步驟100.對輸入的盲文詞串，列出其對應(yīng)的所有候選漢語句子S，使用融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型，得到最終轉(zhuǎn)換結(jié)果并輸出；漢語盲文是一種表音性文字，與漢語拼音類似，每個(gè)盲文字符對應(yīng)多個(gè)漢字候選。通常采用N-gram語言模型處理漢語拼音到漢字的轉(zhuǎn)換問題。但是如果簡單的像拼音到漢字轉(zhuǎn)換那樣使用N-gram語言模型處理漢語盲文到漢字的轉(zhuǎn)換問題，會丟掉漢語盲文自身的信息，即漢語盲文最大的特征——分詞連寫規(guī)則，因此本發(fā)明提出了一種融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型。分詞連寫，是漢語盲文獨(dú)有的重要規(guī)則。所謂分詞，即是把一個(gè)個(gè)詞分開來寫；所謂連寫，即是按照盲文的特殊性，避免音節(jié)結(jié)構(gòu)過于松散，便于盲人摸讀，將一些詞連起來寫。在盲文中使用分詞連寫規(guī)則是為了更準(zhǔn)確清晰的表達(dá)語意，例如，幾個(gè)多音節(jié)詞組成的固定詞組表示國名、社會單位等專名概念，按詞分寫，如中華I人民I共和國；動詞跟事態(tài)助詞“著”“了”“過”連寫，如看見了。由于漢語盲文其獨(dú)特的分詞連寫規(guī)則與漢語中詞語的概念不同，有的盲文詞不能在我們已有的普通漢語詞典中找到與之直接對應(yīng)的中文詞，如“看見了”在盲文規(guī)則是一個(gè)詞，而根據(jù)漢語習(xí)慣不把“看見了”當(dāng)作一個(gè)詞，而是“看見” 這個(gè)詞和“了”合成的一個(gè)詞組。根據(jù)盲文分詞連寫規(guī)則，這樣的詞很多，不能一一列舉，因此在轉(zhuǎn)換時(shí)，對于每個(gè)這樣的盲文詞，將這個(gè)盲文詞中的字或者這個(gè)詞中包含的普通漢語詞拆開作為一個(gè)字或詞，如“看見了”可以拆為“看見”和“了”，“一小段”拆為“一”，“小”和 “段”。這樣，針對這個(gè)詞，對其拆分的單元使用融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型N-gram語言模型進(jìn)行轉(zhuǎn)換。而對于只表示一個(gè)字或者一個(gè)普通漢語詞的盲文字符，直接用N-gram語言模型進(jìn)行轉(zhuǎn)換即可。圖2是本發(fā)明中使用盲漢轉(zhuǎn)換模型得到最終轉(zhuǎn)換結(jié)果并輸出的步驟流程圖，如圖 2所示，所述步驟100，包括下列步驟步驟110.根據(jù)N-gram語言模型，結(jié)合漢語盲文分詞連寫規(guī)則，構(gòu)造盲漢轉(zhuǎn)換模型；融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型構(gòu)造如下假設(shè)輸入為一個(gè)盲文詞串B = bib2. . . bm，其中bji = 1，. . .，m)是盲文詞。也就是說，這個(gè)盲文句子由η個(gè)盲文詞組成。其中每一個(gè)盲文詞可對應(yīng)Hii (i = 1，…，η)個(gè)漢語詞。也就是說，盲文詞h對應(yīng)Hi1個(gè)漢語詞，盲文詞ID2對應(yīng)m2個(gè)漢語詞…盲文詞bn對應(yīng) mn個(gè)漢語詞，這樣，這個(gè)盲文句子就會對應(yīng)mi*m2*…*mn個(gè)漢語句子。然后通過計(jì)算，從這些漢語句子中選出一句作為最終轉(zhuǎn)換結(jié)果。其中X (j = 1,2, . . . m,)是一個(gè)長度為的漢語詞，即《，最終轉(zhuǎn)換結(jié)果為B對應(yīng)的漢語詞串S = S1S2-知。圖3是本發(fā)明中構(gòu)造盲漢轉(zhuǎn)換模型的步驟流程圖，如圖3所示，所述步驟110，包括下列步驟步驟111.利用已有真實(shí)盲文語料的訓(xùn)練方法，獲取漢語詞串為S時(shí)對應(yīng)的盲文B 的概率，稱為分詞連寫概率P (B ι S)；在書寫盲文時(shí)，根據(jù)盲文分詞連寫規(guī)則，同一個(gè)詞(詞組)，可能會因?yàn)樵诓煌渥又械某煞植煌?，?dǎo)致這個(gè)盲文詞(詞組)的寫法不同(即可能連寫，也可能分開寫)。下面舉一個(gè)例子，“種菜”這個(gè)詞，在句子“小王種菜”中，動詞“種”充當(dāng)謂語動詞，在這種情況下，根據(jù)盲文分詞連寫規(guī)則，動詞“種”和賓語“菜”應(yīng)當(dāng)分寫，故這句的盲文應(yīng)該書寫為 "xiaowang zhong cai"；而在句子“小王是種菜能手”中，動詞“種”和賓語“菜”組成的動賓短語作定語，在這種情況下，根據(jù)盲文分詞連寫規(guī)則，動詞“種”和賓語“菜”不應(yīng)當(dāng)分寫，故這句的盲文應(yīng)該書寫為“xiaowang shi zhongcai nengshou”。從上面的例子，可以看出，相同的一個(gè)詞(詞組)由于在不同句子中代表的句子成分不同，在盲文分詞連寫規(guī)則的規(guī)定下可能連寫也可能分寫。而現(xiàn)有的方法很難精準(zhǔn)的判斷出一句話(中文)中的每一個(gè)詞的詞性以及句子成分，也就是說，對于給定一個(gè)漢語句子S，利用現(xiàn)有方法不能確定其對應(yīng)的盲文句子B是否完全符合盲文分詞連寫規(guī)則，即P(B|Q是不確定的。為此，我們提出了一種利用我們已有的真實(shí)盲文語料的訓(xùn)練方法若語料中有詞組既有連寫又有分寫的情況，那么我們使用一種基于統(tǒng)計(jì)的方法，得到每一個(gè)這種詞組的P (B I S)。有了這些基于經(jīng)驗(yàn)的P(B|Q概率值，在盲文到漢語的轉(zhuǎn)換時(shí)，根據(jù)輸入的盲文B和轉(zhuǎn)換得到的結(jié)果S，利用事先訓(xùn)練得到的相應(yīng)P (B I S)，進(jìn)行計(jì)算。由于各個(gè)盲文詞連寫與否是相互獨(dú)立的，因此P (B I S)可分解為
m？(B 丨幻=？(b、b2“.bm 丨 V2... )二 Πp^/ 丨
(=1其中，P(bi|Si)表示漢語詞串Si在分詞連寫規(guī)則下對應(yīng)一個(gè)盲文詞bi (即該詞串既不會被拆分為多個(gè)盲文詞，也不會作為一部分而包含于其它盲文詞，而恰好對應(yīng)獨(dú)立的盲文詞h)的概率。其中，P(bi I Si)值的估計(jì)可采用如下三種方法步驟Illa. 0-1規(guī)則法事實(shí)上，某一個(gè)漢語詞串是否應(yīng)連寫為一個(gè)盲文詞，是由中國盲文規(guī)范中的分詞連寫規(guī)則決定的。這些規(guī)則大約有幾百條，一般根據(jù)詞串中的詞的詞性、在句中的成分、詞串的長短等決定某一詞是否連寫。因此，可以根據(jù)這些規(guī)則決定分詞連寫的概率。假設(shè)共有K條規(guī)則r2, . . . rK, 若漢語詞串Si滿足規(guī)則r」，記作R(s，rj) = True，否則記作R(s，r」)=False.因此，基于這些規(guī)則，可采用0，1兩個(gè)值定義分詞連寫概率，即當(dāng)滿足任一條規(guī)則時(shí)，定義其概率值為1，否則為0。
10
權(quán)利要求
1.一種盲文輸入方法，其特征在于，所述方法，包括下列步驟步驟100.根據(jù)N-gram語言模型，結(jié)合漢語盲文分詞連寫規(guī)則，構(gòu)造盲漢轉(zhuǎn)換模型；步驟200.根據(jù)輸入的盲文句子B，列出其對應(yīng)的所有候選漢語句子S ；步驟300.利用所述盲漢轉(zhuǎn)換模型，求得輸入的盲文句子為B時(shí)對應(yīng)的所有候選漢語句子S的概率值P (S I B)，取P (S I B)值最大的對應(yīng)的漢語詞串的序列S = S1S2. . . Sffl作為最終漢語句子輸出。
2.根據(jù)權(quán)利要求1所述的盲文輸入方法，其特征在于，所述步驟100，包括下列步驟步驟110.利用已有真實(shí)盲文語料的訓(xùn)練方法，獲取漢語詞串為S時(shí)對應(yīng)的盲文B的分詞連寫概率P (B I S)
3.根據(jù)權(quán)利要求2所述的盲文輸入方法，其特征在于，所述P(bi I Si)值的估算采用如下三種方法
4.根據(jù)權(quán)利要求3所述的盲文輸入方法，其特征在于，b中，所述參數(shù)α的值的選取有兩種方法方法一采用一個(gè)開發(fā)集調(diào)試，變換參數(shù)值，尋找使盲-漢轉(zhuǎn)換性能最好的參數(shù)值；方法二采用一個(gè)訓(xùn)練集，在訓(xùn)練集上直接估計(jì)α的值，估計(jì)方法如下1在訓(xùn)練集中，統(tǒng)計(jì)解碼時(shí)所有規(guī)則認(rèn)為可連寫的串，將串的個(gè)數(shù)記為q ；2統(tǒng)計(jì)這q個(gè)串中實(shí)際被連寫的串的個(gè)數(shù)，記為Ct ； 3:計(jì)算α的估計(jì)值0一^,、。
5.根據(jù)權(quán)利要求1所述的盲文輸入方法，其特征在于，在步驟200中，利用盲文中的聲調(diào)信息，篩除聲調(diào)不相符的候選漢語句子。
6.根據(jù)權(quán)利要求1所述的盲文輸入方法，其特征在于，在步驟200中，采用基于盲文聲調(diào)信息的詞語選取方法記錄文中所有已出現(xiàn)的標(biāo)調(diào)詞和其轉(zhuǎn)換結(jié)果，當(dāng)后文中有未標(biāo)調(diào)詞出現(xiàn)時(shí)，先和已經(jīng)記錄的標(biāo)調(diào)詞比較盲文字符是否相同，若相同，則這個(gè)盲文字符對應(yīng)的候選漢字即使已記錄的標(biāo)調(diào)詞的轉(zhuǎn)換結(jié)果。
7.根據(jù)權(quán)利要求1所述的盲文輸入方法，其特征在于，所述步驟300之后，包括下列步驟步驟400.根據(jù)自然語言規(guī)則對所述最終漢字句子進(jìn)行修改，并將修改的結(jié)果存入緩沖區(qū)作為自適應(yīng)語料，建立基于cache的自適應(yīng)模型，對盲漢轉(zhuǎn)換模型進(jìn)行調(diào)整，得到優(yōu)化的盲漢轉(zhuǎn)換模型。
8.一種盲文輸入系統(tǒng)，其特征在于，所述系統(tǒng)，包括模型構(gòu)造模塊，用于根據(jù)N-gram語言模型，結(jié)合漢語盲文分詞連寫規(guī)則構(gòu)造盲漢轉(zhuǎn)換模型；候選搜索模塊，用于根據(jù)輸入的盲文句子B，列出其對應(yīng)的所有候選漢語句子S ；盲漢轉(zhuǎn)換模塊，用于利用所述盲漢轉(zhuǎn)換模型，求得輸入的盲文句子為B時(shí)對應(yīng)的所有候選漢語句子S的概率值P (S I B)，取P (S I B)值最大的對應(yīng)的漢語詞串的序列S = S1W2. . . Sffl作為最終漢語句子輸出。
9.根據(jù)權(quán)利要求8所述的盲文輸入系統(tǒng)，其特征在于，所述模型構(gòu)造模塊，包括分詞連寫概率獲取模塊，用于利用已有真實(shí)盲文語料的訓(xùn)練方法，獲取漢語詞串為S時(shí)對應(yīng)的盲文B的分詞連寫概率P (B I S)mP(^I4S1) = P(V)2,.九 Iv2…=I )其中，P(bi|Si)表示漢語詞串&在‘=1 ,分詞連寫規(guī)則下對應(yīng)一個(gè)盲文詞bi的概率；漢語詞概率獲取模塊，用于根據(jù)N-gram語言模型，獲取漢語詞概率P (S)；P(S) =P (W1W2. . . WT) =P (W1) P (W2 I W1)…P (Wi I Wi-JrtWiW · · WH) · · · P (WT I WT_n+1WT_n+2...W1^1) (i = 1···Τ)，其中的N-gram概率P (Wi | Wi_n+lWi_n+2. . . Wi^1)通過大量的文本訓(xùn)練得到；模型計(jì)算模塊，用于根據(jù)所述分詞連寫概率P (B I S)和所述漢語詞概率P (S)，利用貝葉斯公式=，構(gòu)造盲漢轉(zhuǎn)換模型。
10.根據(jù)權(quán)利要求9所述的盲文輸入系統(tǒng)，其特征在于，所述P(bi I Si)值的估算采用如下三種方法a. 0-1規(guī)則法假設(shè)共有K條規(guī)則巧，r2，. . .，rK，若漢語詞串Si滿足規(guī)則記作R(s，r」)=True,否則記作R(s，rj) = False ；采用0，1兩個(gè)值定義分詞連寫概率，即當(dāng)滿足任一條規(guī)則時(shí)，定義其概率值為1，否則為O。
11.根據(jù)權(quán)利要求10所述的盲文輸入系統(tǒng)，其特征在于，b中，所述參數(shù)α的值的選取有兩種方法方法一采用一個(gè)開發(fā)集調(diào)試，變換參數(shù)值，尋找使盲-漢轉(zhuǎn)換性能最好的參數(shù)值；方法二采用一個(gè)訓(xùn)練集，在訓(xùn)練集上直接估計(jì)α的值，估計(jì)方法如下1在訓(xùn)練集中，統(tǒng)計(jì)解碼時(shí)所有規(guī)則認(rèn)為可連寫的串，將串的個(gè)數(shù)記為q ；2統(tǒng)計(jì)這q個(gè)串中實(shí)際被連寫的串的個(gè)數(shù)，記為Ct ；3計(jì)算α的估計(jì)值0盧=^,乂。
12.根據(jù)權(quán)利要求8所述的盲文輸入系統(tǒng)，其特征在于，所述系統(tǒng)，還包括聲調(diào)信息篩除模塊，用于利用盲文中的聲調(diào)信息，篩除聲調(diào)不相符的候選漢語句子。
13.根據(jù)權(quán)利要求8所述的盲文輸入系統(tǒng)，其特征在于，基于盲文聲調(diào)信息的詞語選取方法記錄文中所有已出現(xiàn)的標(biāo)調(diào)詞和其轉(zhuǎn)換結(jié)果，當(dāng)后文中有未標(biāo)調(diào)詞出現(xiàn)時(shí)，先和已經(jīng)記錄的標(biāo)調(diào)詞比較盲文字符是否相同，若相同，則這個(gè)盲文字符對應(yīng)的候選漢字即使已記錄的標(biāo)調(diào)詞的轉(zhuǎn)換結(jié)果。
14.根據(jù)權(quán)利要求8所述的盲文輸入系統(tǒng)，其特征在于，所述系統(tǒng)，還包括語言模型自適應(yīng)模塊，用于根據(jù)自然語言規(guī)則對所述最終漢字句子進(jìn)行修改，并將修改的結(jié)果存入緩沖區(qū)作為自適應(yīng)語料，建立基于cache的自適應(yīng)模型，對盲漢轉(zhuǎn)換模型進(jìn)行調(diào)整，得到優(yōu)化的盲漢轉(zhuǎn)換模型。
全文摘要
本發(fā)明公開了一種盲文輸入方法和系統(tǒng)。所述方法包括下列步驟步驟根據(jù)N-gram語言模型，結(jié)合漢語盲文分詞連寫規(guī)則，構(gòu)造盲漢轉(zhuǎn)換模型；根據(jù)輸入的盲文句子B，列出其對應(yīng)的所有候選漢語句子S；利用所述盲漢轉(zhuǎn)換模型，求得輸入的盲文句子為B時(shí)對應(yīng)的所有候選漢語句子S的概率值P(S|B)，取P(S|B)值最大的對應(yīng)的漢語詞串的序列S＝s1s2...sm作為最終漢語句子輸出。其能夠有效利用漢語盲文自身特征，提高盲文轉(zhuǎn)換為漢字的正確率。
文檔編號G09B21/02GK102156693SQ201110070320
公開日2011年8月17日申請日期2011年3月23日優(yōu)先權(quán)日2011年3月23日
發(fā)明者林守勛, 王向東, 王超, 錢躍良申請人:中國科學(xué)院計(jì)算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載