專利名稱:漢語輸入變換處理裝置和漢語輸入變換處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及制作漢語文件時(shí)所用的漢語字詞處理器等的漢語輸入變換處理裝置,特別涉及到在對應(yīng)于輸入的讀法的單詞輸出其同音的候選詞時(shí),通過反映鄰接或先后(例如在兩個、三個詞節(jié)的情形)的單詞相互間的鄰接關(guān)系或反映稱作為“離合詞”的漢語特有的語言現(xiàn)象,而能輸出更正確的變換候選詞的漢語輸入變換處理裝置以及采用這種漢語輸入變換處理裝置的漢語輸入變換處理方法。
迄今,在漢語字詞處理器等的漢語輸入變換處理裝置中,具備有利用通常是對應(yīng)于表示漢語的漢字及其讀法的標(biāo)音符號(下面稱作拼音)的辭典,以拼音輸入漢語的讀法再將此拼音變換為漢字輸出的功能。這種功能稱作為拼音漢字變換功能(相當(dāng)于日語字詞處理器中的漢字變換功能)。
作為這類拼音漢字變換功能的先有技術(shù),例如已知有日本特開平6-290182號公報(bào)和日本特平開7-141354號公報(bào)等之中所記載的。
日本特開平6-290182號公報(bào)中公開了,以4個音節(jié)(=4個文字)的讀法為處理單位,檢查其是否同漢語語言現(xiàn)象中所謂“重辭”的情形相一致,而在合適時(shí)便以重辭形式生成變換候選詞。所謂重辭是指把兩個字的單詞“AB”以“ABAB”或“AABB”這樣的形式作緩和語氣的表示,或是使其起到曖昧的效果。例如使“研究”成為“研究研究”,使“上下”成為“上上下下”等。前者為書面的措辭,后者為口語的措辭。
日本特開平7-141354號公報(bào)中則公開了,根據(jù)兩音節(jié)的候選詞之間的意義近似度和使用頻率來提高漢字變換的正確率。
這些先有技術(shù)是以固定的單詞長度(四文字)以限定形式的語言措辭為基礎(chǔ),檢索輸入的讀法,確定相應(yīng)的變換候選詞,或者采用變換候選詞的所謂意義近似度的分組單詞的有意義碼,而把在有意義碼上近似的變換候選詞輸出。這里所謂的意義近似度是指單詞相互之間意義類似的程度,例如在把許多單詞分成社會、自然、心情、學(xué)術(shù)等組時(shí),對于同一組內(nèi)的單詞相互之間其接合程度便會加重。
采用上述的先有技術(shù),可以較正確地候選對應(yīng)于拼音讀法的單詞的同音詞。但是,自然語言的措辭確實(shí)是多種多樣,不能夠唯一性地加以確定,漢語自然也不例外。在這種情形下,像上述那樣固定單詞長度,或者檢查意義近似的單詞相互間結(jié)合程度的方法,在處理多式多樣的語言措辭形式時(shí)是有局限性的。
但是,漢語中一個漢字的發(fā)音必定成為一個音節(jié)。一個音節(jié)又進(jìn)一步由稱作“聲母”的開頭輔音(處于音節(jié)開頭的輔音)和稱作“韻母”的除去“聲母”的那部分(有元音、雙元音、鼻音化元音等)組成。此外還有表示音節(jié)抑揚(yáng)的稱作為“四聲”的聲調(diào)(類似于日語中的重音),一個音節(jié)便由聲母、韻母和四聲共三個要素組成。
聲母例b、p、m、f、d、t、n、l、zh、ch、sh、…韻母例、a、o、e、i、u、ai、en、ang、iong、…上表中,與日語拉丁字的輔音、元音不同,其特征之一是拉丁字母組合的長度不是一定的。
此外,漢語中的單詞大致都是從一個字到四個字組成的,具有四字以上的單詞即為合成詞或是名稱等,這在常用單詞中是少數(shù)(據(jù)北京師范大學(xué)現(xiàn)代化教育技術(shù)研究所的統(tǒng)計(jì)結(jié)果)。再有,在兩字以上的單詞中,同音詞(特別是含四聲時(shí))的詞匯少,與此相反,一個字組成的單詞情形中,同音詞就多,多數(shù)場合下不能唯一性地確定,這是漢語的特點(diǎn)。
例如作為讀法輸入的拼音文字串“Chi/yu”的情形(“/”表示用語或單詞的分段),盡管用戶期待的單詞如圖1A所示,但像圖1B所表明的,對于每個單詞卻可以有眾多個數(shù)的同音詞作為變換候選詞。
在上述情形下,當(dāng)采用前述日本特開平7-141354號公報(bào)中的方法,根據(jù)意義的近似度,有可能判斷圖1C或圖1D所示的變換候選詞(下面有劃線的詞表示用戶期待的詞)是正確的,但結(jié)果并不能找到優(yōu)先的候選詞。再有,圖1C或圖1D所示的變換候選詞在意義上雖然正確,但從語言上說,作為漢語則并非通常所用的。
這樣,上述先有技術(shù)在篩選漢語的對應(yīng)于拼音讀法的同音詞的候選詞上是受到限制的,可知它是不可能適應(yīng)這樣膨大的語言現(xiàn)象的。只要是不能有相應(yīng)的對策來適應(yīng)這種不勝其多的豐富紛繁的語言現(xiàn)象,就會有用戶難以把輸入的拼音正確地變換為漢語單詞的問題。
本發(fā)明正是鑒于上述實(shí)際情形提出的,目的在于提供這樣的漢語輸入變換處理裝置和漢語輸入變換處理方法,它們能在抽出對應(yīng)于漢語讀法拼音文字串的同音詞的變換候選詞時(shí),適合漢語特有的語言現(xiàn)象而選出更正確的變換候選詞。
根據(jù)本發(fā)明的觀點(diǎn)之一,提供的漢語輸入變換處理裝置具有這樣的特征,即它是一種由拼音輸入漢語的讀法,再把此輸入的拼音變換為漢字的漢語輸入變換處理裝置,且包括輸入顯示許多單詞讀法的拼音文字串的輸入裝置,對每個單詞存儲了拼音及與其相對應(yīng)的漢字的標(biāo)準(zhǔn)辭典;根據(jù)此標(biāo)準(zhǔn)辭典,把對應(yīng)于上述輸入裝置輸入的拼音文字串的各詞組的單詞作為變換候選詞檢索的辭典檢索裝置;存儲了在漢語語言上有相互關(guān)聯(lián)關(guān)系的單詞組合信息的擴(kuò)充辭典;從由上述辭典檢索裝置檢索出的變換候選詞中檢出同存儲于上述擴(kuò)充辭典中存儲的單詞組合相一致的單詞組合的單詞檢測裝置;以及把構(gòu)成上述單詞檢測裝置檢出的單詞組合的各單詞作為優(yōu)先候選詞輸出的輸出裝置。
根據(jù)上述結(jié)構(gòu),是把對應(yīng)于輸入拼音文字串中各詞組的單詞作為變換候選詞抽出后,便從這些變換候選詞中檢出在漢語語言上存在相互關(guān)聯(lián)關(guān)系(鄰接的單詞間或非鄰接的單詞間的關(guān)聯(lián)關(guān)系)的單詞組合,而把相應(yīng)的單詞作為為優(yōu)先候選詞輸出。這樣就能在抽出對應(yīng)于漢語讀法的拼音文字串的同音詞中變換候選詞時(shí),對應(yīng)于漢語特有的語言現(xiàn)象給用戶提示更正確的變換候選詞。
另外,根據(jù)本發(fā)明的另一觀點(diǎn),提供的漢語輸入變換處理裝置具有這樣的特征,即它是一種由拼音輸入漢語的讀法,再把此輸入的拼音變換為漢字的漢語輸入變換處理裝置,且包括輸入顯示許多詞讀法的拼音文字串的輸入裝置;對每個單詞存儲了拼音及與其相對應(yīng)的漢字的標(biāo)準(zhǔn)辭典;根據(jù)此標(biāo)準(zhǔn)辭典,把對應(yīng)于上述輸入裝置輸入的拼音文字串的各詞組的單詞作為變換候選詞檢索的辭典檢索裝置;存儲有與漢語語言現(xiàn)象的變形詞型有關(guān)的單詞組合信息的擴(kuò)充辭典;從由上述辭典檢索裝置檢索出的變換候選詞中檢出同存儲于上述擴(kuò)充辭典中的單詞組合相一致的單詞組合的單詞檢測裝置;以及把構(gòu)成由上述單詞檢測裝置檢出的單詞組合的各單詞作為優(yōu)先候選詞輸出的輸出裝置。
根據(jù)上述結(jié)構(gòu),當(dāng)把對應(yīng)于輸入拼音文字串中各詞組的單詞作為變換候選詞抽出后,便從這些變換候選詞中檢出例如存在有漢語的離合詞關(guān)系的單詞組合,而把相應(yīng)的單詞作為優(yōu)先候選詞輸出。這樣就能在抽出對應(yīng)于漢語讀法的拼音文字串的同音詞的變換候選詞時(shí),對應(yīng)于漢語特有的語言現(xiàn)象,給用戶提示更正確的變換候選詞。
本發(fā)明的其它目的與效果將在以下的描述中加以說明,其中一部分可以從此描述中認(rèn)清,或是通過實(shí)施本發(fā)明而得以完全理解。這樣,本發(fā)明的目的與效果,特別是可以通過以下所示的裝置及其組合來弄清楚。
所附的圖構(gòu)成了本說明書的一部分,它們示明了本發(fā)明的最佳實(shí)施形式,同時(shí)前面的一般性描述和后述的最佳實(shí)施形式都示明于附圖中,而這些附圖也用來說明本發(fā)明的原理。
圖1A~圖1D用來具體說明由現(xiàn)有的漢語輸入變換處理裝置來獲得變換候選詞。
圖2是示明依據(jù)本發(fā)明一實(shí)施形式的漢語輸入變換處理裝置的系統(tǒng)結(jié)構(gòu)的框圖。
圖3是示明根據(jù)圖2中系統(tǒng)結(jié)構(gòu)所實(shí)現(xiàn)的漢語輸入變換處理裝置的功能結(jié)構(gòu)的框圖。
圖4示明圖3中漢語輸入變換處理裝置內(nèi)的單詞間關(guān)聯(lián)信息存儲部的結(jié)構(gòu)。
圖5示明圖3中漢語輸入變換處理裝置內(nèi)所設(shè)單詞變形信息存儲部的結(jié)構(gòu)。
圖6是示明作為本發(fā)明第一實(shí)施形式的變換處理操作的流程圖。
圖7用于具體說明為上述第一實(shí)施形式的變換處理操作而示明的對應(yīng)于輸入拼音文字串的變換候選詞群。
圖8用于說明對應(yīng)于圖7的變換候選詞群的鄰接單詞間的關(guān)聯(lián)信息檢測處理。
圖9說明通過圖8的單詞間關(guān)聯(lián)信息檢測處理得到的變換結(jié)果。
圖10是示明作為本發(fā)明第二實(shí)施形式的變換處理操作的流程圖。
圖11用于具體說明為上述第二實(shí)施形式的變換處理操作而示明的對應(yīng)于輸入拼音文字串的變換候選詞群。
圖12用于說明對應(yīng)于圖11的變換候選詞群的鄰接單詞間的關(guān)聯(lián)信息檢測處理。
圖13說明通過圖12的單詞間關(guān)聯(lián)信息檢測處理得到的變換結(jié)果。
圖14是示明作為本發(fā)明第三實(shí)施形式的變換處理操作的流程圖。
圖15用于具體說明為上述第二實(shí)施形式的變換處理操作而示明的對應(yīng)于輸入拼音文字串的變換候選詞群。
圖16用于說明對應(yīng)于圖15的變換候選詞群的鄰接單詞間的關(guān)聯(lián)信息檢測處理。
圖17說明通過圖16的單詞間關(guān)聯(lián)信息檢測處理得到的變換結(jié)果。
下面參照
本發(fā)明的實(shí)施形式。
圖2是示明依據(jù)本發(fā)明一實(shí)施形式的漢語輸入變換處理裝置的系統(tǒng)結(jié)構(gòu)的框圖。本實(shí)施形式中的漢語輸入變換處理裝置,例如是把記錄的程序讀入磁盤等記錄媒體中,由根據(jù)此程序來控制其工作的計(jì)算機(jī)實(shí)現(xiàn)其作業(yè)。
如圖2所示,本實(shí)施形式的漢語輸入變換處理裝置包括CPU11、存儲器12、輸入裝置13、顯示裝置14、外存儲裝置15、打印裝置16和通信裝置17。
CPU11控制本裝置的全部操作,通過起動存儲于存儲器12中的程序進(jìn)行工作。此外,作為根據(jù)存儲于存儲器12中的程序能實(shí)現(xiàn)的功能,還有由應(yīng)用程序進(jìn)行的字處理等功能。
存儲器12例如由ROM和RAM等組成,存儲著本裝置所用的各種程序和字型(包括漢語字型)等數(shù)據(jù)。在此存儲器12中除有用于存儲實(shí)現(xiàn)字處理應(yīng)用程序等的程序數(shù)據(jù)的程序12a外,還設(shè)有輸入緩沖區(qū)12b、候選緩沖區(qū)12c與文件緩沖區(qū)12d等。
輸入緩沖區(qū)12b存儲為制成文件而輸入的中文漢字讀法的拼音文字串。候選緩沖區(qū)12c存儲通過拼音漢字變換得到的變換候選詞。文件緩沖區(qū)12d存儲由拼音漢字變換求得的中文漢字組成的文件數(shù)據(jù)。
輸入裝置13由鍵盤組成,進(jìn)行相對于本裝置的指令和數(shù)據(jù)等的輸入,用來執(zhí)行拼音文字串的輸入以及執(zhí)行對應(yīng)于此輸入的拼音文字串的拼音漢字變換指令(經(jīng)“變換”鍵操作的指令)等。
顯示裝置14例如由CRT(陰極射線管)和LCD(液晶顯示裝置)等組成,進(jìn)行通過輸入裝置13輸入的拼音文字串和拼音漢字變換結(jié)果等的顯示。
外存儲裝置15例如由HDD(硬盤驅(qū)動器)和CD-ROM(CD只讀存儲器)等組成,保存各種程序和文件等的數(shù)據(jù)。在此外存儲裝置15中除存儲有用于實(shí)現(xiàn)字處理的應(yīng)用程序外,還存儲有拼音漢字變換處理所用的辭典等數(shù)據(jù)。
打印裝置16用于進(jìn)行文件的打印等,它可以設(shè)于本裝置的內(nèi)部,也可以設(shè)于本裝置之外而加以連接。
通信裝置17例如通過專用的LAN(局域網(wǎng))或通信網(wǎng)絡(luò)等同外部裝置進(jìn)行數(shù)據(jù)的發(fā)送/接收控制。
下面說明由圖2所示系統(tǒng)的結(jié)構(gòu)所實(shí)現(xiàn)的漢語輸入變換處理裝置的功能結(jié)構(gòu)。
圖3是示明由圖2的系統(tǒng)結(jié)構(gòu)實(shí)現(xiàn)的漢語輸入變換處理裝置的功能結(jié)構(gòu)的框圖。如圖3所示,本實(shí)施形式中的漢語輸入變換處理裝置具有輸入部21、控制部22、辭典檢索部23、單詞辭典24、單詞同關(guān)聯(lián)信息檢測部25、單詞變形信息檢測部26、單詞間關(guān)聯(lián)信息存儲部27、單詞變形信息存儲部28、輸出部29。
輸入部21對輸入裝置13輸入的拼音文字串和變換指令等進(jìn)行輸入處理??刂撇?2進(jìn)行系統(tǒng)整體的控制??刂撇?2中包括負(fù)責(zé)從輸入拼音到變換為漢字的變換機(jī)器。
辭典檢索部23根據(jù)輸入的拼音文字串檢索單詞辭典24(標(biāo)準(zhǔn)辭典),從單詞辭典24中抽出對應(yīng)于輸入拼音文字串的各詞組的單詞。由此辭典檢索部23抽出的單詞作為對應(yīng)于輸入拼音文字串的變換候選詞,相對于各個詞組,存儲于存儲器12的候選緩沖區(qū)12c中。
單詞辭典24是用于拼音漢字變換的,對于各個單詞存儲有拼音和與其對應(yīng)的漢字、詞類等,拼音漢字變換處理中必要的信息。單詞辭典24存儲于作為標(biāo)準(zhǔn)辭典的外存儲裝置15中。
單詞間關(guān)聯(lián)信息檢測部25相對于單詞辭典24的檢索結(jié)果的單詞索引的變換候選詞(同音詞候選詞群),根據(jù)存儲于單詞間關(guān)聯(lián)信息存儲部27(擴(kuò)充辭典)中的單詞間關(guān)聯(lián)信息,檢測相互間存在關(guān)聯(lián)關(guān)系的單詞組合。
單詞變形信息檢測部26相對于單詞辭典24的檢索結(jié)果的單詞索引的變換候選詞(同音詞候選詞群),根據(jù)存儲于單詞變形信息存儲部28(擴(kuò)充辭典)中的單詞變形信息,檢出與特定的變形詞型(例如“離合詞”)相符的單詞組合。這里所謂的“離合詞”是漢語中特有的措辭方法,即把某個單詞(多為兩個文字的動詞)分為前半和后半而于其中間加入其他詞匯(1-2個修飾詞或賓語),以使單詞的措辭具體化或起到對程度和狀態(tài)等的修飾作用。
單詞間關(guān)聯(lián)信息存儲部27存儲有在漢語語言上具有相互關(guān)聯(lián)關(guān)系的單詞組合信息(參看圖4)。單詞變形信息存儲部28存儲例如“離合詞”等有關(guān)漢語特有語言現(xiàn)象的變形詞型的單詞組合信息(參看圖5)。此單詞間關(guān)聯(lián)信息存儲部27和單詞變形信息存儲部28存儲于作為擴(kuò)充辭典的外部存儲裝置15中,在拼音漢字變換時(shí)同單詞辭典24一起用作參考。
輸出部29對輸入的拼音文字串和與此輸入的拼音文字串相對應(yīng)的變換結(jié)果等,進(jìn)行于顯示裝置14上顯示的輸出處理。
圖4示明單詞間關(guān)聯(lián)信息存儲部27的結(jié)構(gòu)。
漢語中,存在著例如對于“去”(動詞)這樣的單詞連接上“學(xué)?!?各詞)這樣的單詞等在語言上存在相互關(guān)聯(lián)關(guān)系的單詞。用來存儲這類單詞間關(guān)聯(lián)信息的乃是單詞間關(guān)聯(lián)信息存儲部27。在此單詞關(guān)聯(lián)信息存儲部27中預(yù)寄存有前方和后方的單詞索引和詞類。前方和后方的單詞有時(shí)是鄰接的單詞,有時(shí)是非鄰接的單詞。這里雖說的是兩個單詞間的關(guān)聯(lián),但三個或更多的單詞間的關(guān)聯(lián)也與此相同。
此外,在圖4的單詞變形信息存儲部27中,還可設(shè)有對于每個離合詞型用來指定應(yīng)加入到前方單詞和后方單詞同的詞數(shù)的項(xiàng)目。
圖5示明單詞變形信息存儲部28的結(jié)構(gòu)。
漢語中存在著這樣的特有措辭方法,即把某個單詞分成前半和后半而在其中間加入別的辭匯(1-2個修飾詞或賓語),使單詞措辭具體化,或起到修飾程度和修飾狀態(tài)等的作用,這樣的單詞一般稱作“離合詞”,一般多為兩個文字的動詞(日語中サ變名詞那樣的詞匯)。用來存儲這種離合詞型式的是單詞變形信息存儲部28。在此單詞變形信息存儲部28中預(yù)寄存有用作離合詞的原始單詞及其離合詞型。
圖5中的離合措辭形式是用來便于理解離合詞型的例子,實(shí)際上它并未存儲于單詞變形信息存儲部28中。
下面說明本裝置的操作。
圖6是示明作為本發(fā)明的第一實(shí)施形式的變換處理操作的流程圖。在此第一實(shí)施形式中,特征是采用圖4中所示單詞間關(guān)聯(lián)信息存儲部27,把鄰接的單詞相互間有關(guān)聯(lián)關(guān)系的那種單詞作為優(yōu)先候選詞而輸出。
首先,通過輸入部21把中文的漢字讀法按拼音(字母的字串)輸入。所輸入的拼音文字串存儲于圖2所示的緩沖區(qū)12b中(步驟A11)。
在此,當(dāng)按壓變換鍵輸出變換指令后,控制部22即把緩沖區(qū)12b中的輸入拼音文字串送到辭典檢索部23中。辭典檢索部23從標(biāo)準(zhǔn)辭典的單詞辭典24中檢索對應(yīng)于輸入拼音文字串的各詞組(一個單詞部分的讀法)的單詞(索引),以其作為索引的變換候選詞抽出(步驟A12)。此時(shí)抽出的變換候選詞存儲于圖2所示的候選緩沖區(qū)12c中。這時(shí),對于各單詞存在同音詞(有相同讀法的不同漢字)的候選詞情形,把它們的全體候選詞也都存在于候選緩沖區(qū)12c中。
隨后,控制部22把相同的輸入拼音列輸送給單詞間關(guān)聯(lián)信息檢測部25。單詞間關(guān)聯(lián)信息檢測部25參考擴(kuò)充辭典的單詞間關(guān)聯(lián)信息存儲部,27,從候選緩沖區(qū)12c中檢出存在單詞間關(guān)聯(lián)關(guān)系的單詞組合(步驟A13)。這時(shí)在單詞間關(guān)聯(lián)信息存儲部27中,如圖4所示加入有前方和后方的索引以及詞類,在第一實(shí)施形式中,以變換候選詞中鄰接單詞的組合為對象,檢測候選緩沖區(qū)12c中有無存在關(guān)聯(lián)關(guān)系的單詞組合。
當(dāng)此檢測處理結(jié)果是候選緩沖區(qū)12c之中有相應(yīng)的單詞(變換候選詞)時(shí)(步驟A14的“是”),單詞間關(guān)聯(lián)信息檢測部25便抽出該變換候選詞,通知控制部22(步驟A15)。
控制部22接收來自單詞間關(guān)聯(lián)信息存儲部27的檢出結(jié)果,根據(jù)此檢出結(jié)果進(jìn)行確定候選緩沖區(qū)12c內(nèi)各變換候選詞的輸出位次等的變換處理(步驟A16)。此時(shí),如果在各單詞的同音詞候選詞中存在有相互關(guān)聯(lián)關(guān)系的單詞組合,則以該相應(yīng)的單詞為第一位。其他單詞則依從單詞辭典24中設(shè)定的優(yōu)先位次,以在同音詞候選詞中其位次位最高的單詞為第一位。
在決定了各變換候選詞的輸出位次后,控制部22便根據(jù)此輸出位次把各變換候選詞作為變換結(jié)果輸送給輸出部29(步驟19)。輸出部29進(jìn)行把輸入的拼音文字串改換為第一位的變換候選詞來顯示,而把其它的變換候選顯示于候選區(qū)上面等的處理。
下面以具體例子說明上述處理。
由輸入部21把從鍵盤等輸入的拼音文字串(拉丁字母)從控制部22輸送給辭典檢索部23。在此,由用戶按下“變換”鍵,由辭典檢索部23相對于輸入的拼音文字串檢索作為標(biāo)準(zhǔn)辭典的單詞辭典24中存在的索引候選詞,把全部這樣的候選詞作為變換候選詞,存儲于候選緩沖區(qū)12c中。
此處,控制部22將候選緩沖區(qū)12c中的變換候選詞輸送給單詞間關(guān)聯(lián)信息檢測部25。在單詞間關(guān)聯(lián)信息檢測部25中,參考圖4所示的單詞間關(guān)聯(lián)信息,檢測是否有相應(yīng)的單詞連接。單詞間關(guān)聯(lián)信息由前方和后方的索引以及詞類組成,相對于索引的變換候選詞在此關(guān)聯(lián)信息中檢測有無相符的,有相符的時(shí),即提高其候選的優(yōu)先位次輸出給控制部22。
例如,把“tachiyu”這樣的拼音文字串作為讀法信息輸入。
把上述文字串說成“ta/chi/yu”(“/”是表示將用語或單詞作分段),對各個用語分段,把各自對應(yīng)的單詞從單詞辭典24中作為變換候選詞抽出,得到了圖7所示的變換候選詞群。
然后,單詞間關(guān)聯(lián)信息檢測部25應(yīng)用上述變換候選詞群,按圖8所示,在候選緩沖區(qū)12c中的變換候選詞和單詞間關(guān)聯(lián)信息存儲部27中的單詞間(鄰接)關(guān)聯(lián)信息二者之間進(jìn)行核對,在兩者之間檢測前方索引信息和后方索引信息兩方一致的單詞組合。若有一致的單詞組合就把合適的單詞抽出,輸送給控制部22。
最后,把圖9所示的變換結(jié)果通過輸出部29提示給用戶。這時(shí),把有相互關(guān)聯(lián)關(guān)系的單詞作為第一位顯示,其它則以單詞辭典24中的第一位單詞顯示。圖中下面有劃線的詞表示用戶期待的單詞,實(shí)際上該下劃線并沒有顯示。
這樣,在漢語語言上相互有關(guān)聯(lián)關(guān)系的單詞便作為優(yōu)先候選詞輸出。由此可以通過拼音輸入求得語言上正確的變換結(jié)果,而能高效地形成漢語文章。
但是,上例中是相對于鄰接的單詞來檢查其關(guān)聯(lián)關(guān)系的,但在實(shí)際的漢語文章中,相關(guān)連的措辭有不少是分離成兩、三個詞節(jié)的。例如“動詞+賓語”的詞型常有發(fā)展到“動詞+~+賓語”的情形的。這里的“~”為助詞、副詞或數(shù)詞組等。
下面把核查這種非鄰接單詞間的關(guān)聯(lián)關(guān)系情形的處理作為第二實(shí)施形式說明。
圖10是示明作為本發(fā)明的第二實(shí)施形式的變換處理作業(yè)的流程圖。第二實(shí)施形式的特征是把在非鄰接單詞中有相互關(guān)聯(lián)關(guān)系的單詞作為優(yōu)先候選詞輸出。
首先通過輸入部21將中文漢字的讀法按拼音(字母的文字串)輸入。輸入的拼音文字串存于圖2所示的輸入緩沖區(qū)12b中(步驟B11)。
此時(shí)按下變換鍵,輸出變換指令后,控制部22即把存儲于輸入緩沖區(qū)12b中的輸入拼音文字串輸送給辭典檢索部23。辭典檢索部23檢索與從作為標(biāo)準(zhǔn)辭典的單詞辭典24中輸入的拼音文字串各詞節(jié)(一個單詞部分的讀法)相對應(yīng)的單詞(索引),以此作為索引的變換候選詞抽出(步驟B12)。這時(shí)抽出的變換候選詞存儲于圖2所示的候選緩沖區(qū)12c中。在此,對于各個單詞有同音詞(同一讀法的不同漢字)的候選詞時(shí),所有這些候選詞也都存儲于候選緩沖區(qū)12c中。
隨后,控制部22把同一輸入的拼音文字串輸送給單詞間關(guān)聯(lián)信息檢測部25。單詞間關(guān)聯(lián)信息檢測部25參考擴(kuò)充辭典的單詞間關(guān)聯(lián)信息存儲部27,從候選緩沖區(qū)12c中檢測具有單詞間關(guān)聯(lián)關(guān)系的單詞組合(步驟B13)。這時(shí),在單詞間關(guān)聯(lián)信息存儲部27中,如圖4所示,加入有前方和后方的索引以及詞類,在第二實(shí)施形式中,以變換候選詞中非鄰接的單詞為對象,檢測候選緩沖區(qū)12c中有無存在相互關(guān)聯(lián)關(guān)系的單詞組合。
當(dāng)上述檢查處理結(jié)果是候選緩沖區(qū)12c中有符合的單詞(變換候選詞)時(shí)(步驟B14的“是”),單詞間關(guān)聯(lián)信息檢測部25便抽出此變換候選詞通知控制部22(步驟B15)。
控制部22接收單詞間關(guān)聯(lián)信息存儲部27的檢出結(jié)果,進(jìn)行決定候選緩沖區(qū)12c內(nèi)各變換候選詞輸出位次等的變換處理(步驟B16)。此時(shí),各單詞的同音詞候選詞中要是有上述存在相互關(guān)聯(lián)關(guān)系的單詞組合時(shí),即以此符合需要的單詞為第一位。至于其它的單詞則依從單詞辭典24中所設(shè)定的優(yōu)先位次,以在同音語候選詞中其位次最高的單詞為第一位。
在決定了各變換候選詞的輸出位次后,控制部22便依這一輸出位次把各個變換候選詞作為變換結(jié)果送至輸出部29(步驟B19)。在輸出部29,進(jìn)行將輸入的拼音文字串變換為第一位變換候選詞來顯示,把其它的變換候選詞顯示于候選區(qū)之上的等等處理。
下面用具體例說明上述的處理。
例如,假設(shè)把“tachileyitiaoyu”這一拼音文字串作為讀法信息輸入。
把上述拼音文字串按各個用語切分成“ta/chi/le/yitiao/yu”(“/”表示對用語或單詞的分段),把它們分別對應(yīng)的單詞從單詞辭典24作為變換候選詞抽出,由此得到了圖11所示的變換候選詞群。
在此,單詞間關(guān)聯(lián)信息檢測部25應(yīng)用這一變換候選詞群,如圖12所示,在候選緩沖器12c中的變換候選詞和單詞間關(guān)聯(lián)信息存儲部27中的單詞間(非鄰接)關(guān)聯(lián)信息二者之間進(jìn)行核對,在兩者之間檢測前方索引信息和后方索引信息兩方一致的單詞組合。若有一致的單詞組合就把合適的單詞抽出輸送給控制部22。
最后,把圖13所示的變換結(jié)果通過輸出部29提供給用戶。這時(shí),把有相互關(guān)聯(lián)關(guān)系的單詞作為第一位顯示,其它則作為單詞辭典24中的第一位單詞顯示。圖中下面有劃線的詞表示用戶期待的單詞,實(shí)際上該下劃線并沒有顯示。
這樣,不限于相鄰的單詞之間,即使非鄰接的單詞之間,也能和上述第一實(shí)施形式相同地參考單詞間關(guān)聯(lián)信息,把符合條件的單詞作為優(yōu)先候選詞輸出,結(jié)果就能進(jìn)一步提高拼音漢字變換時(shí)的變換率。
至于單詞間分離到多少個詞以內(nèi)才能夠處理好的問題,看來是分離的詞數(shù)越多,產(chǎn)生和實(shí)際文章措辭(即用戶所希望的變換結(jié)果)不同的變換候選的可能性也越高,導(dǎo)致降低拼音變換的效果。從而最好采取不把分離的詞數(shù)設(shè)作固定值而是取可變值(即任選值)的形式。
漢語中存在著把一個單詞分成前半和后半,在其中間加入別的詞匯以起到使單詞措辭具體化或?qū)Τ潭群蜖顟B(tài)等進(jìn)行修飾作用的特有措辭方法。一般稱此為“離合詞”,如圖5所例示。
下面把核查這種離合詞型時(shí)的處理作為第三實(shí)施形式加以說明。
圖14是示明作為本發(fā)明的第三實(shí)施形式的變換處理操作的流程圖。此第三實(shí)施形式的特征是,采用圖3所示單詞變形信息存儲部28,把具有漢語中離合詞關(guān)系的單詞作為優(yōu)先候選詞輸出。
首先通過輸入部21將中文漢字的讀法按拼音(字母的文字串)輸入。所輸入的拼音文字串存儲于圖2所示的輸入緩沖區(qū)12b中(步驟C11)。
此時(shí)按下變換鍵,輸出變換指令后,控制部22即把存儲于輸入緩沖區(qū)12b中的輸入拼音文字串輸送給辭典檢索部23。辭典檢索部23檢索從標(biāo)準(zhǔn)辭典的單詞辭典24中輸入的拼音文字串各詞節(jié)(一個單詞部分的讀法)所對應(yīng)的單詞(索引),以此作為索引的變換候選詞抽出(步驟C12)。這時(shí)抽出的變換候選詞存儲于圖2所示的候選緩沖區(qū)12c中。
隨后,控制部22將同一輸入的拼音文字串輸送給單詞變形信息檢測部26。單詞變形信息檢測部26參考擴(kuò)充辭典單詞變形信息存儲部28,從候選緩沖區(qū)12c中檢出具有漢語中離合詞關(guān)系的單詞組合(步驟C13)。此時(shí),在單詞變形信息存儲部28中,加入有圖5所示的原始的單詞及其單詞的離合詞型,在第三實(shí)施形式中檢測候選緩沖區(qū)12c中有無合乎離合詞型的單詞。
當(dāng)此檢測處理結(jié)果是候選緩沖區(qū)12c中有相應(yīng)的單詞(變換候選詞)時(shí)(步驟C14的“是”),單詞變形信息檢測部26便抽出此變換候選詞,通知控制部22(步驟C15)。
控制部22接收來自單詞間關(guān)聯(lián)信息存儲部27的檢出結(jié)果,根據(jù)此檢出結(jié)果進(jìn)行確定候選緩沖區(qū)12c內(nèi)各變換候選詞的輸出位次等變換處理。這時(shí),在各單詞的同音詞候選詞中若是有符合上述離合詞型的,即以此單詞為第一位。其它的單詞則按單詞辭典24中所設(shè)定的優(yōu)先位次,而在同音詞候選詞中以其位次最高的單詞為第一位。
在確定了各變換候選詞的輸出位次后,控制部22即按此輸出位次把各變換候選詞作為變換結(jié)果輸送給輸出部29(步驟C19)。在輸出部29進(jìn)行把輸入的拼音文字串改換為第一位的變換候選詞加以顯示,而把其它的變換候選詞顯示于候選區(qū)上等處理。
下面以具體例子說明上述的處理。
例如,假設(shè)把“Wobangtademang”這一拼音文字串作為讀法信息輸入。
把這一文字串說成“wo/bang/ta/de/mang/”(“/”表示用語或單詞的分段),對各個用語分段,把各自對應(yīng)的單詞從單詞辭典24中作為變換候選詞抽出,得到了圖15所示的變換候選詞群。
此外,單詞變形信息檢測部26應(yīng)用這樣的變換候選詞群,如圖16所示,在候選緩沖區(qū)12c中的變換候選詞和單詞變形信息存儲部28中的單詞間關(guān)聯(lián)信息(離合詞型)兩者之間進(jìn)行核對,在兩者之間檢測先頭文字(第一文字)和后方文字(第二文字)兩方一致的單詞組合。若有一致的單詞組合就把此合適的單詞作為優(yōu)先候選詞,輸出給控制部22。
最后將圖17所示的變換結(jié)果通過輸出部29提示給用戶。此時(shí),以具有相互離合關(guān)系的單詞作為第一位顯示,其它則以單詞辭典24中的第一位單詞顯示。圖中下面有劃線的詞表示用戶期待的單詞,而下劃線實(shí)際上未顯示。
這樣,能把稱作離合詞的漢語特有的語言現(xiàn)象加以反映,進(jìn)行變換候選詞的篩選,而把合適的單詞作為優(yōu)先候選詞輸出。從而能用拼音輸入高效地形成漢語文章。
在以上各實(shí)施形式中,是在標(biāo)準(zhǔn)辭典的單詞辭典之外,把另設(shè)的單詞間關(guān)聯(lián)信息存儲部27和單詞變形信息存儲部28用作擴(kuò)充辭典,進(jìn)行拼音變換處理的配置,但也可把單詞間關(guān)聯(lián)信息和單詞變形信息記錄于單詞辭典24之中,構(gòu)成一部辭典,參考此辭典來進(jìn)行上述的拼音變換處理。
也可以把上述各實(shí)施形式說明的變換處理合并成為一個,作為一連串的變換處理實(shí)行。在這種情形下,可根據(jù)輸入的拼音文字串,分別檢索單詞辭典24、單詞間關(guān)聯(lián)信息存儲部27以及單詞變形信息存儲部28,檢出在相鄰單詞間或非相鄰單詞間存在相互關(guān)聯(lián)關(guān)系的單詞,同時(shí)檢出相當(dāng)于離合詞這類特定的變形詞型的單詞,把這樣的單詞作為優(yōu)先候選詞輸出。
另外,上述各實(shí)施形式中所述的作業(yè),可以作為能由計(jì)算機(jī)執(zhí)行的程序,寫入磁盤(軟盤、硬盤等)、光盤(CD-ROM,DVD等)、半導(dǎo)體存儲器等的記錄媒體中而適用于種種裝置,也能通過通信手段傳送而適用于種種裝置。實(shí)現(xiàn)本裝置的計(jì)算機(jī)例如可把記錄的程序讀入記錄媒體中,通過此種程序控制操作,進(jìn)行前述各種處理。
如上所述,根據(jù)本發(fā)明,采用存儲漢語語言上有相互關(guān)聯(lián)關(guān)系的單詞信息的擴(kuò)充辭典,就能進(jìn)行對應(yīng)于輸入拼音文字串的同音詞的變換候選詞的篩選,從而能優(yōu)先獲得反映漢語語言現(xiàn)象的變換結(jié)果,高效地形成漢語文章。
再有,也不限于相鄰的單詞,即使在離開了幾個詞的單詞之間也可以進(jìn)行同音詞的篩選,而能在更廣的范圍內(nèi)求得正確的變換結(jié)果。
再有,由于通過采用存儲了有關(guān)漢語語言現(xiàn)象中變形詞型的單詞信息的擴(kuò)充辭典,進(jìn)行了對應(yīng)于輸入拼音文字串的同音詞的變換候選詞的篩選,例如就能把對應(yīng)于“離合詞”等特定詞型的單詞作為變換結(jié)果優(yōu)先地求得,而能進(jìn)一步提高變換的成功率。
再有,本發(fā)明并不限于上述的實(shí)施形式,在它的原理范圍內(nèi)可以由種種變形來加以實(shí)現(xiàn)。
例如在前述實(shí)施形式中,是以拼音輸入后按下變換鍵來開始變換候選詞的顯示進(jìn)行說明的,但也可以取這樣的結(jié)構(gòu),即在輸入的同時(shí)讓變換候選詞顯示于預(yù)定的位置。這樣可以立即選擇所希望的單詞,而能更有效地實(shí)現(xiàn)漢語的輸入變換處理。
再有,在上述第一與第二實(shí)施形式中就結(jié)合標(biāo)準(zhǔn)辭典的檢索和具有單詞間關(guān)聯(lián)信息的擴(kuò)充辭典的檢索的情形進(jìn)行了說明,但可以根據(jù)需要,對使用/不使用具有單詞間關(guān)聯(lián)信息的擴(kuò)充辭典的檢索功能進(jìn)行轉(zhuǎn)換。同樣,在上述第三實(shí)施形式中,就結(jié)合標(biāo)準(zhǔn)辭典的檢索和具有單詞變形信息(離合詞型)的擴(kuò)充辭典的檢索這種情形進(jìn)行了說明,但也可以根據(jù)需要,對使用/不使用具有單詞變形信息的擴(kuò)充辭典的功能進(jìn)行轉(zhuǎn)換。
還有,也可以取這樣的結(jié)構(gòu),通過結(jié)合前述第一、第二與第三實(shí)施形式,進(jìn)行包括標(biāo)準(zhǔn)辭典檢索、具有單詞間關(guān)聯(lián)信息的擴(kuò)充辭典的檢索以及具有單詞變形信息(離合詞型)的檢索在內(nèi)的全部處理。
權(quán)利要求
1.漢語輸入變換處理裝置,是一種由拼音輸入漢語的讀法,再把此輸入的拼音變換為漢字的漢語輸入變換處理裝置,其特征在于,包括輸入顯示許多單詞讀法的拼音文字串的輸入裝置(21);對每個單詞存儲了拼音及與其相對應(yīng)的漢字的標(biāo)準(zhǔn)辭典(24);根據(jù)此標(biāo)準(zhǔn)辭典(24),把對應(yīng)于上述輸入裝置(21)輸入的拼音文字串的各詞組的單詞作為變換候選詞檢索的辭典檢索裝置(23);存儲有在漢語語言上有相互關(guān)聯(lián)關(guān)系的單詞組合信息的擴(kuò)充辭典(27);從由上述辭典檢索裝置(23)檢索出的變換候選詞中檢出同存儲于上述擴(kuò)充辭典(27)中存儲的單詞組合相一致的單詞檢測裝置(25);以及把構(gòu)成由上述單詞檢測裝置(25)檢出的單詞組合的各單詞作為優(yōu)先候選詞輸出的輸出裝置(29)。
2.權(quán)利要求1所述的漢語輸入變換處理裝置,其特征在于,所述單詞檢測裝置(25)相對于拼音文字串中相鄰的單詞組合進(jìn)行檢測。
3.權(quán)利要求1所述的漢語輸入變換處理裝置,其特征在于,所述單詞檢測裝置(25)相對于拼音文字串中非鄰接的單詞組合進(jìn)行檢測。
4.漢語輸入變換處理裝置,是一種由拼音輸入漢語的讀法,再把此輸入的拼音變換為漢字的漢語輸入變換處理裝置,其特征在于,包括輸入顯示許多單詞讀法的拼音文字串的輸入裝置(21);對每個單詞存儲了拼音及與其相對應(yīng)的漢字的標(biāo)準(zhǔn)辭典(24);把對應(yīng)于上述輸入裝置(21)輸入的拼音文字串的各詞組的單詞從上述標(biāo)準(zhǔn)辭典(24)作為變換候選詞檢索的辭典檢索裝置(23);存儲有關(guān)于漢語語言現(xiàn)象中變形詞型的單詞組合信息的擴(kuò)充辭典(28);從由上述辭典檢索裝置(23)檢索出的變換候選詞中檢出同存儲于上述擴(kuò)充辭典(28)中的單詞組合相一致的單詞組合的單詞檢測裝置(26);以及把構(gòu)成由上述單詞檢測裝置(26)檢出的單詞組合的各單詞作為優(yōu)先候選詞輸出的輸出裝置(29)。
5.權(quán)利要求4所述的漢語輸入變換處理裝置,其特征在于,所述擴(kuò)充辭典(28)存儲具有漢語中離合詞關(guān)系的單詞組合。
6.漢語輸入變換處理方法,是由拼音輸入漢語讀法,再把輸入的拼音變換為漢字的漢語輸入變換處理方法,其特征在于,配備有相對各個單詞存儲了拼音和與其對應(yīng)的漢字的標(biāo)準(zhǔn)辭典以及存儲了在漢語語言上有相互關(guān)聯(lián)關(guān)系的單詞組合信息的擴(kuò)充辭典,此方法包括下述步驟在輸入顯示許多單詞讀法的拼音文字串時(shí)(A11、B11),從上述標(biāo)準(zhǔn)辭典把對應(yīng)于前述輸入的拼音文字串的各詞組中單詞作為變換候選詞檢索(A12、B12);從上述檢索出的變換候選詞中檢出同前述擴(kuò)充辭典中存儲的單詞組合相一致的單詞組合(A13、B13);把構(gòu)成此檢出的單詞組合的各單詞作為優(yōu)先候選詞輸出(A14~A17、B14~B17)。
7.漢語輸入變換處理方法,是由拼音輸入漢語讀法,再把輸入的拼音變換為漢字的漢語輸入變換處理方法,其特征在于,配備有相對各個單詞存儲了拼音和與其對應(yīng)的漢字的標(biāo)準(zhǔn)辭典以及存儲了關(guān)于漢語語言現(xiàn)象中變形詞型的單詞組合信息的擴(kuò)充辭典,此方法包括下述步驟在輸入顯示許多單詞讀法的拼音文字串時(shí)(C11),從上述標(biāo)準(zhǔn)辭典把對應(yīng)于前述輸入的拼音文字串的各詞組中單詞作為變換候選詞檢索(C12);從上述檢索出的變換候選詞中檢出同前述擴(kuò)充辭典中存儲的單詞組合相一致的單詞組合(C13);把構(gòu)成此檢出的單詞組合的各單詞作為優(yōu)先候選詞輸出(C14)。
全文摘要
漢語輸入變換處理裝置,備有對于各單詞存儲有拼音及相應(yīng)漢字的單詞辭典(24)以及存儲有在漢語語言上有關(guān)聯(lián)關(guān)系的單詞組合信息的單詞間關(guān)聯(lián)信息存儲部(27);由檢索部(23)把對應(yīng)輸入拼音文字串中各詞組的單詞從辭典(24)作為變換候選詞檢索,從此變換候選詞中把同單詞間關(guān)聯(lián)信息存儲部(27)中的單詞組合一致(有互連關(guān)系)的單詞檢出后作為優(yōu)先候選詞由輸出部(29)輸出,由此能優(yōu)先獲得反映漢語語言現(xiàn)象的變換結(jié)果。
文檔編號G06F17/28GK1227369SQ99102310
公開日1999年9月1日 申請日期1999年2月13日 優(yōu)先權(quán)日1998年2月23日
發(fā)明者林哲洋, 中里茂美, 石冢靖 申請人:株式會社東芝