亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

新單詞自動學習方法及裝置和文字輸入系統(tǒng)的制作方法

文檔序號:6609787閱讀:158來源:國知局
專利名稱:新單詞自動學習方法及裝置和文字輸入系統(tǒng)的制作方法
技術領域
本發(fā)明涉及文字輸入,具體涉及一種用于對象語言文字輸入系統(tǒng) 的新單詞自動學習方法及使用該方法的裝置以及使用該方法的文字輸 入系統(tǒng),能夠提高諸如中文或者日文的輸入效率,并且適用于諸如手 機之類便攜式信息終端。
背景技術
西文之外的文字,諸如中文和日文之類的東方文字,向計算機之 類數(shù)字設備的輸入是長久以來困擾人們的問題。為了解決計算機處理 中文的問題,已經(jīng)開發(fā)出了各種各樣的文字輸入方法,來提高信息處 理的自動化水平。為了提高文字輸入效率,部分的文字輸入方法支持在輸入過程中 學習新單詞。通常有兩種學習新單詞的方法, 一種是手動添加新單詞 的方法,另一種是自動新單詞學習方法?,F(xiàn)有的手動添加新單詞的中文新單詞學習方法的一個例子是微 軟中文輸入法。在輸入過程中,用戶打開中文輸入系統(tǒng)自帶的新單詞 學習專用軟件,把遇到的新單詞添加到中文輸入系統(tǒng)所維護的詞典中, 從而在下次遇到該單詞時,就可以在候選條目中出現(xiàn)該單詞,便于用 戶選擇?,F(xiàn)有的手動添加新單詞的中文新單詞學習方法的另一個例子是陳 橋輸入法。根據(jù)該方法,用戶也可以在中文輸入時使用鍵盤上的按鍵 作為輔助鍵標出新單詞的起始位置和終止位置后,中文輸入系統(tǒng)對所 標出的新單詞進行記錄,供以后用戶輸入時使用。中國專利申請CN94104905.1和CN94106045.4披露了一種自動中 文新單詞學習方法。在該方法中,把出現(xiàn)的新單詞全部學習記錄下來,當用戶輸入新字串時,將新字串記錄為新單詞,以后累計計算用戶對 新單詞的使用頻度,保留使用頻度高的新單詞,刪除那些使用頻度低 的新單詞。上述中文輸入系統(tǒng)可以永久保存新單詞。自動中文新單詞學習方法的另一個例子是紫光拼音輸入法。根據(jù) 該方法,把出現(xiàn)的新單詞暫存在機器內(nèi)存中,累計計算新單詞的使用 頻度,并根據(jù)該使用頻度調(diào)整新單詞作為輸入候補的順序,供用戶選 擇使用。很明顯,手動中文新單詞學習方法不能在用戶連續(xù)輸入中文的同 時全自動地完成新單詞的學習。在新單詞的學習過程中,用戶要進行 一些手動操作輔助中文輸入系統(tǒng)完成新單詞的學習,給用戶造成了負 擔,降低了中文輸入的效率。另外,現(xiàn)有的自動新單詞學習方法都應用于可一次進行2個以上 漢字字串的拼音或其他文字代碼的變換的輸入模式下的。即,用戶一 次輸入對應2個漢字以上的字串的拼音串或其他文字代碼串,然后選 擇相對應的漢字,依靠該拼音串或其他文字代碼漢字串和所輸入的漢 字串的對應關系進行新單詞學習。但是,在應用于嵌入式設備、移動終端等的單漢字輸入系統(tǒng)(單 漢字輸入系統(tǒng)中,用戶每次只能輸入對應一個漢字的拼音、筆畫或者 其他代碼,進行一個漢字的轉(zhuǎn)換。單字輸入法主要出現(xiàn)于一些嵌入式設備,移動終端中,單字輸入方法的一個例子是手機里使用的T9輸 入法)中,每次都以單個漢字的拼音或其他文字代碼進行漢字變換, 不存在連續(xù)輸入兩個以上漢字的拼音串或其他文字代碼串的情況,依 靠拼音串或其他文字代碼串和漢字串的對應關系進行單詞學習的現(xiàn)有 的自動中文新單詞學習方法無法應用于單漢字輸入系統(tǒng)中進行單詞學 習。再者,現(xiàn)有的自動新單詞學習方法將詞典中沒有的字串立即存入 詞典中,在作為輸入候補使用,依靠對新單詞作為輸入候選項被選用 的次數(shù)的累計,判斷該新單詞在詞典中被繼續(xù)保留或刪除,當用戶輸 入不經(jīng)常使用的新單詞、甚至只是無意義的2個漢字以上的字串時, 現(xiàn)有的方法都會把它們當作新單詞存入詞典中,作為輸入候選項選用。7這樣,詞典和輸入候選項中會出現(xiàn)很多不經(jīng)常使用或無意義的字串, 影響中文輸入系統(tǒng)的處理效率和用戶選擇輸入候選項進行輸入的效率。發(fā)明內(nèi)容要解決的技術問題鑒于上述問題,完成了本發(fā)明。本發(fā)明的目的在于提供一種新單 詞自動學習方法及其裝置和文字輸入系統(tǒng),能夠提高諸如中文或者曰 文之類的對象語言文字的輸入效率,并且適用于諸如手機之類便攜式 信息終端。解決技術問題的手段在本發(fā)明的一個方面,提供了一種適用于包括單詞詞典的對象語 言文字輸入系統(tǒng)的新單詞自動學習方法,包括采集步驟,從輸入的 對象語言語料(material)中釆集新單詞詞典和單詞詞典中沒有的字串 作為采集字串,所述新單詞詞典用于保存所述單詞詞典中沒有的單詞; 第一保存步驟,將所述采集字串中沒有存在于臨時新字串詞典中的采 集字串作為臨時新字串保存在臨時新字串詞典中,以及將存在于所述 臨時新字串詞典中但沒有存在于新字串詞典中的采集字串作為新字串 保存在新字串詞典中;以及第二保存步驟,在利用對象語言文字輸入 系統(tǒng)進行對象語言文字輸入過程中用戶選擇被作為輸入候選項呈現(xiàn) 的、所述新字串詞典中的新字串時,將該新字串作為新單詞保存在所 述新單詞詞典中。優(yōu)選地,所述采集步驟包括用連續(xù)輸入的對象語言語料中的特定字符將所述對象語言語料切分為段(segment);以及將與新單詞詞 典和單詞詞典中的單詞不同的段作為采集字串來保存。優(yōu)選地,所述特定字符包含除了對象語言文字之外的字符和單字 成詞的對象語言文字的至少之一。優(yōu)選地,所述第一保存步驟包括在新字串詞典沒有保存所述采 集字串的情況下,將所述采集字串和臨時新字串詞典的字串相比較; 在臨時新字串詞典沒有保存所述采集字串的情況下,將所述采集字串作為臨時新字串詞典保存入臨時新字串詞典;以及在臨時新字串詞典保存有所述采集字串的情況下,將所述采集字串作為新字串保存入新 字串詞典,并將所述臨時新字串從臨時新字串詞典中刪除。優(yōu)選地,所述新字串詞典保存的新字串作為對象語言文字輸入系 統(tǒng)的輸入候選項來呈現(xiàn)給用戶。優(yōu)選地,所述新字串詞典中存儲了與所述新字串一一對應的新字 串標志位,并且所述新字串標志位具有預設的初始值。優(yōu)選地,所述第二保存步驟還包括在用戶選中其他輸入候選項作為輸入單詞的情況下,將所述新字 串標志位的值增加或減少預定數(shù)。優(yōu)選地,所述第二保存步驟還包括在用戶選中其他輸入候選項 作為輸入單詞的情況下,將所述新字串標志位的值增加或減少預定數(shù) 目。優(yōu)選地,所述新字串標志位的值為預定值時,將該新字串從新字 串詞典刪除。優(yōu)選地,在用戶不斷輸入對象語言語料的周時自動進行新單詞的 學習。優(yōu)選地,統(tǒng)計并保存所述采集字串,臨時新字串,新字串,新單 詞的詞頻。優(yōu)選地,所述輸入候選項是以詞頻來排序的。在本發(fā)明的第二方面,提供了一種新單詞自動學習裝置,適用于 包括單詞詞典的對象語言文字輸入系統(tǒng),所述新單詞自動學習裝置包括顯示單元,顯示所述對象語言輸入系統(tǒng)作為對象語言語料輸出的 對象語言字串、以及所述輸入的字串的一個以上的其他變換結(jié)果的候 選字串;新單詞詞典,存儲所述單詞詞典中沒有的單詞;字串采集單 元,在所述變換后的對象語言語料中采集單詞詞典和新單詞詞典中沒 有的字串;臨時新字串詞典,將由所述字串采集單元采集的采集字串 中沒有存在于新字串詞典和臨時新字串詞典中的采集字串作為臨時新 字串進行保存;新單詞詞典,將由所述字串采集單元采集的采集字串 中存在于臨時新字串詞典中但沒有存在于新字串詞典中的采集字串作為新字串進行保存;第一保存單元,將由所述字串采集單元采集的采 集字串中沒有存在于臨時新字串詞典和新字串詞典中的采集字串根據(jù)規(guī)定的條件保存在臨時新字串詞典或者新字串詞典中;以及第二保存 單元,在用戶從顯示于所述顯示單元的對象語言候選字串中選擇的候 選字串為新字串時,將其作為新單詞保存到所述新單詞詞典中。本發(fā)明的效果利用本發(fā)明的方法和裝置,在用戶輸入對象語言語料的同時完全 自動地學習新單詞,無需手動操作,提高了對象語言文字輸入的效率。另外,由于本發(fā)明使用用戶所輸入的對象語言語料中的特殊字符將對象語言語料分段,針對語料段進行新單詞學習操作,相對于利用拼音或其他文字代碼和字串的對應關系進行新單詞學習的現(xiàn)有的自動 新單詞學習方法不能應用于單字輸入的文字輸入系統(tǒng),本發(fā)明的新單詞自動學習方法能應用于適用于嵌入式設備的單字輸入的文字輸入系 統(tǒng)。另外,由于本發(fā)明對采集后的字串通過多重的使用頻度統(tǒng)計進行 篩選,刪除使用頻度較低的字串,只將使用頻度高的字串作為新單詞 存入新單詞詞典,提高了新單詞學習的準確率。另外,由于本發(fā)明對采集后的字串通過多重的使用頻度統(tǒng)計進行 篩選,刪除使用頻度較低的字串,只將使用頻度高的字串和新單詞詞 典的內(nèi)容提供給文字輸入系統(tǒng)用作候選項,提高了文字輸入的效率。另外,本發(fā)明將采集后的字串的詞頻(使用頻率)進行記錄,并 將所述字串提供給文字輸入系統(tǒng)作為輸入候選項使用時,將其詞頻也 提供給文字輸入系統(tǒng),作為文字輸入系統(tǒng)對候選項進行排序的依據(jù), 進一步提高了中文輸入的效率。另外,在文字輸入系統(tǒng)被關閉后,依然保存臨時新字串詞典,新 詞串詞典,新單詞辭典的內(nèi)容,使得每次的學習結(jié)果能不斷積累保留。


通過下面結(jié)合

本發(fā)明的優(yōu)選實施例,將使本發(fā)明的上述 及其它目的、特征和優(yōu)點更加清楚,其中-圖1是根據(jù)本發(fā)明實施例的中文輸入系統(tǒng)和新單詞自動學習裝置 的示意性結(jié)構(gòu)框圖;圖2是說明根據(jù)本發(fā)明實施例的新單詞自動學習方法的總體流程圖;圖3示出了在如圖2所示的各個步驟的執(zhí)行過程中中文輸入系統(tǒng) 和新單詞自動學習裝置之間的交互過程;圖4示出了臨時新字串詞典、新單詞詞典的所儲存的單詞信息以 及作為輸入候選項向中文輸入系統(tǒng)提供的單詞信息的數(shù)據(jù)結(jié)構(gòu);圖5示出了本發(fā)明實施例中所用的新字串詞典所儲存的單詞信息 的數(shù)據(jù)結(jié)構(gòu);圖6是描述字串采集的詳細過程的流程圖;圖7是描述新字串的判定的詳細過程的流程圖;以及圖8是描述新單詞的判定的詳細過程的流程圖。
具體實施方式
下面參照附圖對本發(fā)明的優(yōu)選實施例進行詳細說明,在描述過程 中省略了對于本發(fā)明來說是不必要的細節(jié)和功能,以防止對本發(fā)明的 理解造成混淆。圖1是根據(jù)本發(fā)明實施例的中文輸入系統(tǒng)和新單詞自動學習裝置 的示意性結(jié)構(gòu)框圖。如圖1所示,中文輸入系統(tǒng)100包括候選項輸出部分110,單詞 詞典120,語料輸出部分130和第一存儲區(qū)140。中文輸入系統(tǒng)100啟動后,從新字串詞典260和新單詞詞典270 中將新單詞學習裝置200所保存的新字串和新單詞讀入第一存儲區(qū) 140中。用戶通過按下鍵盤上的按鍵或者顯示在屏幕上的虛擬鍵盤上的按 鍵來輸入諸如拼音或者筆畫之類的代碼,候選項輸出部分110根據(jù)輸 入的代碼與單詞詞典120中的單詞、第一存儲區(qū)140中的新字串和新 單詞之間的對應關系,向用戶呈現(xiàn)這些備選單詞和字串。用戶從這些備選單詞和字串中選擇想要輸入的單詞或者字串,通過語料輸出部分130輸出,按照文字的輸入順序存儲在存儲器的其他 存儲區(qū)(例如第二存儲區(qū))或者顯示在屏幕上。根據(jù)本發(fā)明實施例的新單詞自動學習裝置200包括采集輸入的對 象語言語料中的字串作為采集字串的字串采集部分220、暫時存儲采集字串的第二存儲區(qū)230、用于確定臨時新字串和新字串并將其保存 的新字串保存部分240、用于保存臨時新字串詞典和新字串詞典中都 沒有的采集字串的臨時新字串詞典250、用于保存已經(jīng)存在于臨時新 字串詞典但是沒有存在于新字串詞典中的釆集字串的新字串詞典 260、用于確定并保存新單詞的新單詞保存部分210和用于將存在于新字串詞典但是沒有存在于新單詞詞典中的采集字串作為新單詞來保存 的新單詞詞典270。如上所述,在文字輸入過程中,語料輸出部分130實時將中文語 料存儲在第二存儲區(qū)230中,用于字串采集。字串采集部分220識別 輸入的語料中的特定字符,例如標點符號,數(shù)字,英文字母等其他國 家的文字字符之類除了對象語言語料之外的符號,以將輸入的語料切 分成各個字串。如果切分的字串已經(jīng)存儲在中文輸入系統(tǒng)100內(nèi)置的 單詞詞典120中或者已經(jīng)存儲在新單詞詞典270中,這意味著該字串 已經(jīng)不是新單詞,將其從第二存儲區(qū)230中刪除。如果未在單詞詞典 120中發(fā)現(xiàn)該字串,則將該字串作為臨時新字串保留在第二存儲區(qū)230 中。在上述過程中,所述特定字符不作為采集對象進行采集。接下來,新字串保存部分240將第二存儲區(qū)230中保存的采集字 串的內(nèi)容與新字串詞典260的內(nèi)容相比較。如果新字串詞典260已經(jīng) 保存所述采集字串,將所述采集字串從第二存儲區(qū)230中刪除。如果新字串詞典260沒有保存所述采集字串,再將所述采集字串 和臨時新字串詞典250中的內(nèi)容相比較,如果臨時新字串詞典250沒 有保存所述采集字串,則所述采集字串成為臨時新字串保存入臨時新 字串詞典250,并且將所述采集字串從第二存儲區(qū)230中刪除。如果臨時新字串詞典250保存有所述采集字串,所述采集字串成 為新字串保存入新字串詞典260,并且將所述采集字串從第二存儲區(qū) 230中刪除,將所述臨時新字串從臨時新字串詞典250中刪除。如上所述,所述新字串詞典260保存的新字串作為中文輸入系統(tǒng)100的輸入候選項使用。在用戶輸入文字的過程中,將用戶所選擇的結(jié)果輸入到新單詞保存部分210中,來判定新字串詞典260中存儲的新字串是否能夠成為 新單詞。當從輸入語料中檢測出所述新字串作為中文輸入系統(tǒng)100的輸入 候選項被用戶作為輸入單詞選中,新單詞保存部分210將所述新字串 作為新單詞保存入新單詞詞典270,并且將所述新字串從新字串詞典 270中刪除。當檢測出用戶選中其他輸入候選項作為輸入單詞,所述 新字串標志位(初始值為G)減l。所述新字串標志位為M(M為預設 值,MO)時,將該新字串從新字串詞典260刪除。圖5示出了本發(fā)明 實施例中所用的新字串詞典260所儲存的單詞信息的數(shù)據(jù)結(jié)構(gòu)。下面對照附圖2 8詳細說明本發(fā)明的新單詞自動學習方法的詳 細操作過程。圖2示出了本發(fā)明的新單詞自動學習方法的總體流程圖。如圖2 所示,在中文語料的連續(xù)輸入過程中(SllO),根據(jù)上述的特定字符 將輸入的語料切分成字串(S120)。然后,判斷采集的字串是否是新 字串(S130),并且進一步判斷新字串是構(gòu)能夠成為新單詞(S140)。 最后,將新字串和新單詞存儲在新字串詞典260和新單詞詞典270中。在圖3所示,在中文輸入系統(tǒng)IOO啟動之后,中文輸入系統(tǒng)IOO 將自身單詞詞典120中保存的單詞信息提供給新單詞自動學習裝置 200,新單詞自動學習裝置200將作為候選項保存的單詞信息,例如新 字串詞典260中的內(nèi)容和新單詞詞典中的內(nèi)容,提供到第一存儲區(qū)140 中,向用戶呈現(xiàn)候選輸入項。在字串采集過程中,中文輸入系統(tǒng)的語料輸出部分130連續(xù)向新 單詞自動學習裝置200的第二存儲區(qū)230提供用戶輸入的語料。在新字串判斷過程中,中文輸入系統(tǒng)IOO在向新單詞自動學習裝 置200提供語料的同時,新單詞自動學習裝置200將判斷的新字串作 為輸入候選信息提供到第一存儲區(qū)140中,作為用戶輸入文字過程中 呈現(xiàn)的備選項。在新單詞判斷過程中,中文輸入系統(tǒng)ioo在向新單詞自動學習裝 置200提供語料的同時,新單詞自動學習裝置200將更新后的新單詞 詞典中的新單詞作為候選項提供給第一存儲區(qū)"0,作為用戶輸入文 字過程中呈現(xiàn)的備選項。圖6是描述字串采集的詳細過程的流程圖。如圖6所示,用戶連 續(xù)輸入語料"科學技術飛快發(fā)展,"。字串采集部分220將相鄰的兩個 字符與已經(jīng)存儲在單詞字典120和新單詞詞典270中的單詞進行比較 (S121)0這里,假設"科學"禾Q "技術"存在于中文輸入系統(tǒng)100內(nèi)置的 單詞詞典120中,"發(fā)展"存在于新單詞詞典270中。"飛快"不在單 詞詞典120和新單詞詞典270中。然后,判斷該語料中是否存在單詞詞典120和新單詞詞典270中 存在的單詞或者新單詞(S122)。由于"飛快"不在單詞詞典120和 新單詞詞典270中,保存"飛快"到第二存儲區(qū)(S123)。接下來,判斷輸入的語料中是否出現(xiàn)上述的特定字符(S124)。 當檢測出特定字符","時,以","為分割的該段中文語料的字串采 集結(jié)束。(S125)。圖7是描述新字串的判定的詳細過程的流程圖。如圖7所示,新 字串保存部分240將第二存儲區(qū)230中保存的采集字串"飛快"與新 字串詞典250中的內(nèi)容相比較(S131)。新單詞詞典270在新字串詞典260中查找是否存在字串"飛快" (S132)。如果已經(jīng)存在,則從第二存儲區(qū)230中刪除采集字串"飛 快"(S137)。如果不存在,則在臨時新字串詞典260中查找是否存在 字串"飛快"(S133)。如果新字串詞典260中不存在"飛快",但臨時新字串詞典250 中已經(jīng)存在字串"飛快",則將字串"飛快"保存到新字串詞典,并且 修改該字串的詞頻(S135)。從臨時新字串詞典和第二存儲區(qū)230中 刪除字串"飛快"(S136),并將更新后的新字串詞典的內(nèi)容作為單詞 信息提供給中文輸入系統(tǒng)100作為候選項。圖4示出了臨時新字串詞典、新單詞詞典的所儲存的單詞信息以及作為輸入候選項向中文輸入系統(tǒng)提供的單詞信息的數(shù)據(jù)結(jié)構(gòu)。如圖 4所示,每個單詞(字串)與相應的詞頻相對應地存儲。中文輸入系 統(tǒng)IOO按照詞頻來每次向用戶呈現(xiàn)備選輸入項。如果新字串詞典260和臨時新字串詞典250中都不存在字串"飛 快",將字串"飛快"保存到臨時新字串詞典250 (S134),再刪除第 二存儲區(qū)230中的采集字串"飛快"(S137)。圖8是描述新單詞的判定的詳細過程的流程圖。如圖8所示,在 新字串詞典中剛保存的字串"飛快"對應的標志位設置為初始值0 (S141)0甩戶輸入拼音"feikuai"時,輸入候選項中出現(xiàn)"飛快"(S142)。 判定用戶是否將該輸入候選項作為輸入語料(S143)。當用戶選擇輸 入候選項"飛快"作為輸入語料時,從新字串詞典260刪除"飛快" (S146),將字串"飛快"保存到新單詞詞典270 (S147)。如果用戶選擇"飛快"以外的字串作為輸入候選項,則將新字串 詞典中字串"飛快"的對應標志位減預定的數(shù)目,例如1 (S144)。然后判斷標志位是否為M(M是預先設定值,M為小于0的整數(shù)) (S145)。當以上過程反復進行后,"飛快"的對應標志位等于M時, 刪除新字串詞典中字串"飛快"(S146),并且將更新后的新字串詞典 的內(nèi)容作為單詞信息提供給中文輸入系統(tǒng)作為候選項。圖5示出了本發(fā)明實施例中所用的新字串詞典所儲存的單詞信息 的數(shù)據(jù)結(jié)構(gòu)。如圖5所示,每個新字串不僅與相應的詞頻相對應,還 與其標志位相對應地存儲。從而,當標志位為預定值M時,可以將新 字串詞典260中的字串刪除。因此,根據(jù)本發(fā)明實施的方法在用戶連續(xù)輸入中文的同時,通過 對用戶連續(xù)輸入的中文語料進行的字串的采集,并對所采集的字串進 行概率統(tǒng)計分析,自動學習中文輸入系統(tǒng)100的單詞詞典120中沒有 的新單詞。整個過程不需要用戶進行任何操作,在用戶使用中文輸入 系統(tǒng)100進行輸入的同時自動完成。本發(fā)明的新單詞自動學習方法所涉及的計算簡單,資源占有較小, 并能支持包括"只能單字輸入的輸入系統(tǒng)"(無法進行詞單位的拼音變換)的各種輸入系統(tǒng),適用于嵌入式系統(tǒng)與移動終端。另外,本發(fā)明實施例的新單詞自動學習裝置200作為詞典新單詞學習模塊,可集成于中文輸入系統(tǒng)ioo中,也可作為獨立插件通過接口與中文輸入法連接,安裝于各種中文輸入系統(tǒng)。雖然在上述的實施例中,每當用戶選中該字串時,將標志位的值減去一個預定值,例如1。但是本發(fā)明并不局限于此,也可以將字串的標志位的值加上一個預定值。這樣可以取得與上述實施例相同的效果。至此已經(jīng)結(jié)合優(yōu)選實施例對本發(fā)明進行了描述。應該理解,本領 域技術人員在不脫離本發(fā)明的精神和范圍的情況下,可以進行各種其 它的改變、替換和添加。因此,本發(fā)明的范圍不局限于上述特定實施 例,而應由所附權利要求所限定。
權利要求
1.一種適用于包括單詞詞典的對象語言文字輸入系統(tǒng)的新單詞自動學習方法,包括采集步驟,從輸入的對象語言語料中采集新單詞詞典和單詞詞典中沒有的字串作為采集字串,所述新單詞詞典用于保存所述單詞詞典中沒有的單詞;第一保存步驟,將所述采集字串中沒有存在于臨時新字串詞典中的采集字串作為臨時新字串保存在臨時新字串詞典中,以及將存在于所述臨時新字串詞典中但沒有存在于新字串詞典中的采集字串作為新字串保存在新字串詞典中;以及第二保存步驟,在利用對象語言文字輸入系統(tǒng)進行對象語言文字輸入過程中用戶選擇被作為輸入候選項呈現(xiàn)的、所述新字串詞典中的新字串時,將該新字串作為新單詞保存在所述新單詞詞典中。
2. 如權利要求l所述的方法,其中所述采集步驟包括 用連續(xù)輸入的對象語言語料中的特定字符將所述對象語言語料切分為段;以及將與新單詞詞典和單詞詞典中的單詞不同的段作為釆集字串來保存。
3. 如權利要求2所述的方法,其中所述特定字符包含除了對象語 言文字之外的字符和單字成詞的對象語言文字的至少之一。
4. 如權利要求l所述的方法,其中所述第一保存步驟包括 在新字串詞典沒有保存所述采集字串的情況下,將所述采集字串和臨時新字串詞典的字串相比較;在臨時新字串詞典沒有保存所述采集字串的情況下,將所述采集 字串作為臨時新字串保存入臨時新字串詞典;以及在臨時新字串詞典保存有所述采集字串的情況下,將所述采集字 串作為新字串保存入新字串詞典,并將所述臨時新字串從臨時新字串 詞典中刪除。
5. 如權利要求4所述的方法,其中所述新字串詞典保存的新字串作為對象語言文字輸入系統(tǒng)的輸入候選項來呈現(xiàn)給用戶。
6. 如權利要求l所述的方法,其中所述第二保存步驟包括 在所述新字串作為對象語言文字輸入系統(tǒng)的輸入候選項被用戶作為輸入單詞選中的情況下,將所述新字串作為新單詞保存入新單詞詞典;以及將所述新字串從新字串詞典中刪除。
7. 如權利要求6所述的方法,其中,所述新字串詞典中存儲了與 所述新字串一一對應的新字串標志位,并且所述新字串標志位具有預 設的初始值。
8. 如權利要求7所述的方法,所述第二保存步驟還包括 在用戶選中其他輸入候選項作為輸入單詞的情況下,將所述新字串標志位的值增加或減少預定數(shù)。
9. 如權利要求8所述的方法,其中所述新字串標志位的值為預定 值時,將該新字串從新字串詞典刪除。
10. 如權利要求l所述的方法,其中,在用戶不斷輸入對象語言 語料的同時自動進行新單詞的學習。
11. 如權利要求l所述的方法,其中統(tǒng)計并保存所述采集字串, 臨時新字串,新字串,新單詞的詞頻。
12. 如權利要求11所述的方法,其中所述輸入候選項是以詞頻來 排序的。
13. —種新單詞自動學習裝置,適用于包括單詞詞典的對象語言 文字輸入系統(tǒng),所述新單詞自動學習裝置包括顯示單元,顯示所述對象語言輸入系統(tǒng)作為對象語言語料輸出的 對象語言字串、以及所述輸入的字串的一個以上的其他變換結(jié)果的候 選字串;新單詞詞典,存儲所述單詞詞典中沒有的單詞;字串采集單元,在所述變換后的對象語言語料中采集單詞詞典和新單詞詞典中沒有的字串;臨時新字串詞典,將由所述字串采集單元采集的采集字串中沒有存在于新字串詞典和臨時新字串詞典中的采集字串作為臨時新字串進行保存;新單詞詞典,將由所述字串采集單元釆集的采集字串中存在于臨 時新字串詞典中但沒有存在于新字串詞典中的采集字串作為新字串進行保存;第一保存單元,將由所述字串采集單元采集的采集字串中沒有存 .在于臨時新字串詞典和新字串詞典中的采集字串根據(jù)規(guī)定的條件保存 在臨時新字串詞典或者新字串詞典中;以及第二保存單元,在用戶從顯示于所述顯示單元的對象語言候選字 串中選擇的候選字串為新字串時,將其作為新單詞保存到所述新單詞 詞典中。
14. 如權利要求13所述的裝置,其中所述字串采集單元用連續(xù)輸入的對象語言語料中的特定字符將所述對象語言語料切分為段,以及 將與新單詞詞典和單詞詞典中的單詞不同的段作為采集字串來保存。
15. 如權利要求14所述的裝置,其中所述特定字符包含除了對象 語言文字之外的字符和單字成詞的對象語言文字至少之一。
16. 如權利要求13所述的裝置,其中,所述第一保存單元在新字 串詞典沒有保存所述采集字串的情況下,將所述采集字串和臨時新字 串詞典的字串相比較;在臨時新字串詞典沒有保存所述采集字串的情 況下,將所述采集字串作為臨時新字串保存入臨時新字串詞典;以及 在臨時新字串詞典保存有所述采集字串的情況下,將所述采集字串作 為新字串保存入新字串詞典,并將所述臨時新字串從臨時新字串詞典 中刪除。
17. 如權利要求16所述的裝置,其中所述新字串詞典保存的新字 串作為對象語言文字輸入系統(tǒng)的輸入候選項來呈現(xiàn)給用戶。
18. 如權利要求13所述的裝置,其中所述第二保存單元在所述新 字串作為對象語言文字輸入系統(tǒng)的輸入候選項被用戶作為輸入單詞選 中的情況下,將所述新字串作為新單詞保存入新單詞詞典;以及將所 述新字串從新字串詞典中刪除。
19. 如權利要求18所述的裝置,其中,所述新字串詞典中存儲了與所述新字串一一對應的新字串標志位,并且所述新字串標志位具有 預設的初始值。
20. 如權利要求19所述的裝置,所述第二保存單元在用戶選中其 他輸入候選項作為輸入單詞的情況下,將所述新字串標志位的值增加 或減少預定數(shù)。
21. 如權利要求20所述的裝置,其中所述新字串標志位為預定值 時,將該新字串從新字串詞典刪除。
22. 如權利要求13所述的裝置,其中在用戶不斷輸入對象語言語 料的同時自動進行新單詞的學習。
23. 如權利要求13所述的裝置,其中統(tǒng)計并保存所述采集字串, 臨時新字串,新字串,新單詞的詞頻。
24. 如權利要求23所述的裝置,其中所述輸入候選項是以詞頻來 排序的。
25. —種文字輸入系統(tǒng),包括如權利要求13所述的新單詞自動學 習裝置。
全文摘要
公開了一種適用于包括單詞詞典的對象語言文字輸入系統(tǒng)的新單詞自動學習方法,包括采集步驟,從輸入的對象語言語料中采集新單詞詞典和單詞詞典中沒有的字串作為采集字串,所述新單詞詞典用于保存所述單詞詞典中沒有的單詞;第一保存步驟,將所述采集字串中沒有存在于臨時新字串詞典中的采集字串作為臨時新字串保存在臨時新字串詞典中,以及將存在于所述臨時新字串詞典中但沒有存在于新字串詞典中的采集字串作為新字串保存在新字串詞典中;以及第二保存步驟,在利用對象語言文字輸入系統(tǒng)進行對象語言文字輸入過程中用戶選擇被作為輸入候選項呈現(xiàn)的、所述新字串詞典中的新字串時,將該新字串作為新單詞保存在所述新單詞詞典中。
文檔編號G06F3/023GK101324878SQ20071011184
公開日2008年12月17日 申請日期2007年6月15日 優(yōu)先權日2007年6月15日
發(fā)明者波 吳, 吳亞棟, 俊 薛 申請人:夏普株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1