亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

字典學習方法以及使用該方法的裝置,輸入方法以及使用該方法的用戶終端裝置的制作方法

文檔序號:6513928閱讀:185來源:國知局
專利名稱:字典學習方法以及使用該方法的裝置,輸入方法以及使用該方法的用戶終端裝置的制作方法
技術領域
本發(fā)明涉及一種自然語言處理,更具體地,涉及一種字典學習方法以及使用該字典學習方法的裝置,輸入方法以及使用該輸入方法的用戶終端裝置。
背景技術
隨著計算機、PDA以及移動電話在中國的廣泛應用,可以看出這些裝置的一個重要特征在于能夠使用戶實現(xiàn)中文輸入。在中國目前的移動終端市場,幾乎每一個移動電話都提供利用數(shù)字鍵盤的輸入方法。當前最廣泛使用的輸入方法為T9以及iTap。利用這種輸入方法,用戶可以使用十按鍵數(shù)字鍵盤輸入漢字的拼音或筆畫。附圖8A-8B示出用于拼音和筆畫輸入的示例鍵盤。該輸入方法根據(jù)用戶敲擊的按鍵順序給出漢字預測。當用戶輸入一個漢字的拼音時,用戶不需要按照最常規(guī)的輸入方法點擊按鍵三到四次輸入每個正確的字母。用戶僅需要根據(jù)該漢字的拼音點擊一系列按鍵,則輸入方法就會在一個候選列表中預測出正確的拼音和正確的漢字。例如,用戶想利用拼音“jin”輸入“今”,他不需要通過敲擊“5”(代表“jkl”)1次來輸入“j”,敲擊“4”(代表“ghi”)3次以及敲擊“6”(代表“mno”)2次,然而,他僅需敲擊“546”則輸入方法將給出預測拼音“jin”以及對應的預測候選漢字“進今金...”.圖9A示出利用最傳統(tǒng)的輸入方法輸入漢字“今”的T9的輸入序列。
對于當前的移動終端來說,用戶必須逐字地輸入漢字。雖然一些輸入方法宣稱可以根據(jù)用戶輸入給出預測結果,但實際上,這些輸入方法是逐字地給出預測的。對于每個漢字,用戶需要點擊按鍵若干次,并至少進行一次拼寫核對。鑒于此,本發(fā)明的發(fā)明人提供一種可以給出句子級以及詞級的預測的系統(tǒng)。
如上所述,目前T9和iTap是移動終端上最為廣泛使用的輸入方法。然而,這些輸入方法的速度不能夠令大多數(shù)的用戶滿意。需要多次點擊以及多次交互,即使僅輸入單個漢字。
存在上述問題的主要原因在于應用中文輸入方法的當前大部分數(shù)字鍵盤僅僅是基于漢字的(US 20030027601)。這是因為在漢字中,在詞之間并不存在清晰的界限。此外,對詞也沒有明確的定義。因此,這些輸入方法選擇將單個漢字看作是與其英文相對應的“詞”。然而,這將不可避免地導致依據(jù)單個漢字的數(shù)字序列的大量的冗余漢字,速度也因此明顯的降低。此外,由于僅能根據(jù)單個漢字獲得預測,所以基于漢字的輸入方法在很大程度上限制了詞預測的效果。也就是說,當前移動終端中所采用的輸入方法僅能夠將用戶輸入的數(shù)字序列轉換為漢字候選列表。用戶必須從候選列表中選出正確的漢字。用戶不能夠連續(xù)地輸入一個詞或一個句子。
例如,用戶想輸入詞“今天”。首先,用戶使用數(shù)字鍵盤輸入“546”,其表示漢字“今”的拼音“jin”。然后,向用戶顯示候選列表“進今金...”。其次,用戶必須從該列表中選出正確的漢字“今”.然后,向用戶顯示可以跟隨在漢字“今”之后的候選列表“天日年...”。用戶必須從該列表中選出正確的漢字“天”。圖9B示出輸入漢字詞“今天”的T9的輸入序列。
在PC平臺中,存在基于PC鍵盤的多種高級快速輸入方法,諸如微軟拼音,紫光拼音以及智能狂拼等。其中的一些方法可以給出句子級的預測,所有的上述方法可以給出詞級的預測。但是對于這些可以給出句子級預測的方法來說,字典的尺寸太大。例如,微軟拼音輸入的字典大小為20~70MB,智能狂拼所需要的存儲空間達到100MB。它們都采用統(tǒng)計語言模型(SLM)技術來形成可以進行句子預測的基于詞的SLM(典型地是詞雙元模型或詞三元模型)。然而這種SLM使用了預定的詞典并在字典中存儲了大量的詞雙元詞條和詞三元詞條,字典的尺寸將會不可避免地太大,從而不能夠安裝在移動終端上。此外,在移動終端平臺上的預測速度也非常慢。
另一個不利之處在于大多數(shù)的輸入方法沒有詞典或僅包括預定的詞典。因此,不能夠連續(xù)地輸入在語言中頻繁使用的多個重要的詞和短語,如“今天下午”。

發(fā)明內容
因此,考慮到上述問題提出本發(fā)明,以及本發(fā)明的目的是提供一種字典(dictionary)學習方法和利用該字典學習方法的裝置。此外,本發(fā)明也提供一種輸入方法以及一種使用該輸入方法的用戶終端裝置。該裝置從語料中學習字典。學習的字典包括優(yōu)化的詞典(lexicon),該詞典包括多個從語料中學習的重要的詞以及短語。然而,在該字典應用到隨后描述的輸入方法中時,它還包括詞性信息以及詞性雙元模型。用戶終端裝置使用Patricia樹(一種樹狀的數(shù)據(jù)結構)索引搜索字典。所述裝置接收用戶輸入并基于字典搜索的結果給出句子和詞預測,所述詞預測包括當前候選詞列表和預測候選詞列表。向用戶顯示預測結果。所以,用戶通過連續(xù)地輸入與詞或句子相對應的數(shù)字序列可以輸入詞或句子。從而用戶不需要針對每個漢字輸入數(shù)字序列并從候選詞列表中選出正確的漢字。因此輸入速度得到了很大改善。
根據(jù)本發(fā)明的第一方面,提供了一種字典學習方法,所述方法包括步驟從未標注的語料中學習詞典和統(tǒng)計語言模型;將所述詞典,統(tǒng)計語言模型以及輔助詞編碼信息整合為字典。
根據(jù)本發(fā)明的第二方面,所述字典學習方法還包括步驟從詞性已標注的語料中獲得所述詞典中每個詞的詞性信息和詞性雙元模型;將所述詞性信息以及詞性雙元模型添加到字典中。
根據(jù)本發(fā)明的第三方面,提供了一種字典學習裝置,其中所述裝置包括用于學習字典的字典學習處理模塊;存儲有未標注的語料的存儲單元;用于控制所述裝置的各部分的控制單元;其中,所述字典學習處理模塊包括詞典與統(tǒng)計語言模型學習單元,用于從未標注的語料中學習詞典和統(tǒng)計語言模型;字典整合單元,用于將所述詞典,統(tǒng)計語言模型以及輔助詞編碼信息整合為字典。
根據(jù)本發(fā)明的第四方面,其中所述字典學習裝置的存儲單元還存儲有詞性已標注的語料,以及字典學習處理模塊還包括詞性學習單元,用于從詞性已標注的語料中獲得所述詞典中每個詞的詞性信息和詞性雙元模型;以及字典整合單元將所述詞性信息以及詞性雙元模型添加到字典中。
根據(jù)本發(fā)明的第五方面,提供了一種用于處理用戶輸入的輸入方法,其中所述方法包括接收步驟,用于接收用戶輸入;解譯步驟,用于將用戶輸入解譯為編碼信息或用戶動作,其中基于字典預先獲得字典中的每個詞的編碼信息;用戶輸入預測與調整步驟,用于在接收到編碼信息和用戶動作時,根據(jù)字典中的統(tǒng)計語言模型和詞性雙元模型利用詞典索引中的Patricia樹給出句子與詞預測,并根據(jù)用戶動作調整句子和詞預測;顯示步驟,用于顯示句子和詞預測的結果。
根據(jù)本發(fā)明的第六方面,提供了一種用于處理用戶輸入的用戶終端裝置,其中所述裝置包括用戶輸入終端,用于接收用戶輸入;存儲單元,用于存儲字典和包括Patricia樹索引的字典索引;輸入處理單元,用于根據(jù)用戶輸入給出句子和詞預測;以及顯示器,用于顯示句子和詞預測的結果;其中,輸入處理單元包括輸入編碼解譯器,用于將用戶輸入解譯為編碼信息或用戶動作,其中基于字典預先獲得字典中的每個詞的編碼信息;用戶輸入預測與調整模塊,用于在接收到編碼信息和用戶動作時,根據(jù)字典中的統(tǒng)計語言模型和詞性雙元模型利用詞典索引中的Patricia樹索引給出句子和詞預測,并根據(jù)用戶動作調整句子和詞預測。
根據(jù)本發(fā)明,通過利用具有小尺寸的字典可以給出句子級預測和詞級預測。其中所述的字典通過本發(fā)明第四方面的字典學習裝置的學習處理而獲得。所述字典學習裝置從語料中提取大量的重要信息,并將其以特定內容和特定結構的形式保持,從而可以以非常小的尺寸進行存儲。與移動電話上的常規(guī)輸入方法不同,本發(fā)明的基本輸入單元是“詞”。這里所述的“詞”也包括從語料中學習的“短語”。根據(jù)所述字典的內容和結構,輸入方法可以給出句子級和詞級的預測。因此,與常規(guī)輸入方法例如T9和iTap相比較,輸入速度增加。
雖然與基于PC的輸入方法比較,例如與微軟拼音比較,其中微軟拼音可以給出句子和詞預測但是使用了尺寸較大的字典從而存儲預定的詞典以及對應的大量的詞雙元詞條或詞三元詞條,本發(fā)明學習的字典僅在優(yōu)化的詞典中存儲提取出的重要的語言信息以及對應詞單元的字典。因此,在字典中的所有信息對于語言處理來說都是必要的信息,這些信息僅需要較小的存儲成本。
如下詳細地描述了本發(fā)明的優(yōu)點1.可以學習包括優(yōu)化的詞典的字典。所述優(yōu)化的字典包括從語料中學習的多個重要的詞和短語。
2.所述學習的字典包括優(yōu)化的字典以及一些詞性信息。幫助給出句子和詞預測的所述字典的尺寸非常小,從而能夠在移動電話上使用。
3.利用Patricia樹索引為字典編索引。所述Patricia樹索引的使用有助于快速地搜索詞。因此,可以很容易地、快速地獲得句子和詞預測。


通過對參考附圖的下列優(yōu)選實施例的具體描述,本發(fā)明的上述特征和優(yōu)點將會變得非常明顯,其中圖1示出描述了本發(fā)明的字典學習裝置和用戶終端裝置之間的關系的示意圖;圖2A示出了由字典學習裝置學習的字典的示意結構的示例;圖2B示出了由字典學習裝置學習的字典的示意結構的另一示例;圖3示出了根據(jù)本發(fā)明的字典學習裝置的方框圖;圖4A示出了字典學習裝置的字典學習處理模塊的示例的詳細的方框圖;圖4B示出了字典學習裝置的字典學習處理模塊的另一示例的詳細的方框圖;圖5是一流程圖,用于解釋根據(jù)本發(fā)明的字典學習處理模塊中的詞典與統(tǒng)計語言模型學習單元執(zhí)行的學習詞典以及統(tǒng)計語言模型的過程;圖6是根據(jù)本發(fā)明的詞典優(yōu)化的流程圖;圖7示出根據(jù)本發(fā)明第一實施例的用戶終端裝置的方框圖;圖8A-8D示出用戶終端裝置的四個常規(guī)鍵盤的示意框圖;圖9A示出利用最常規(guī)的輸入方法輸入漢字“今”時T9的輸入序列;圖9B示出利用最常規(guī)的輸入方法輸入漢字“今天”時T9的輸入序列;圖10示出在本發(fā)明的用戶終端裝置的輸入處理單元的不同部分之間的連接關系的方框圖;圖11示出本發(fā)明的用戶終端裝置的顯示器的用戶界面的示例;圖12示出由本發(fā)明用戶終端裝置的字典加索引模塊執(zhí)行的構建Patricia樹索引的流程圖;圖13示出本發(fā)明排序結果和Patricia樹索引的示例;圖14示出由本發(fā)明用戶終端裝置的用戶輸入預測與調整模塊執(zhí)行的用戶輸入預測以及調整的過程的流程圖;圖15示出用戶終端裝置的輸入序列的示例;圖16示出根據(jù)本發(fā)明第二實施例的用戶終端裝置的方框圖。
具體實施例方式
下面將參考附圖1描述示出了本發(fā)明的字典學習裝置和用戶終端裝置之間的關系的示意圖。字典學習裝置1學習計算機可讀字典2。用戶終端裝置3使用字典2幫助用戶輸入文本。字典學習裝置1和用戶終端裝置3相互獨立。字典學習裝置1訓練的字典2還可以用于其它的應用。字典學習裝置1使用特定的字典學習方法以及特定的字典結構,以構建向用戶提供快速輸入的小尺寸的字典。
圖2A示出了由字典學習裝置學習的字典的示意結構的示例。在該示例中,部分2包括多個詞條(部分21)。所述的詞條不僅用于“詞”(例如,“打扮”),而且是“短語”(例如,“打扮整齊”,“打扮整齊”,“打扮整齊干凈”)。所述“短語”實際上是一復合詞(由一序列的詞構成)。為了避免在下述描述中的不便,術語“詞”指的是傳統(tǒng)的“詞”和傳統(tǒng)的“短語”兩者。一些其它詞的例子包括“今天”,“今天下午”,“今天下午八點”。部分21包括詞干(術語“詞干”和本發(fā)明中所述的詞的含義相同)(部分211),詞單元(部分212),該詞所具有的若干詞性(部分213)以及這些詞性的對應概率(部分214),一些輔助詞編碼信息(部分215)。部分215可以是拼音(漢字的發(fā)音)編碼信息或筆畫編碼信息或者是其它的編碼信息。將哪種類型的部分215添加到部分21中取決于字典的應用。在下面描述的示例中,也可以不包括部分215。最后,部分22,即詞性雙元模型也包含在該示例中。該部分也取決于應用并且可以不包括在其它的示例中。正如對本領域的普通技術人員所顯而易見的是字典2并不局限于漢字,它可以是任何類型的字典。對于日語,字典的所有部分與漢字相同,除了輔助詞編碼信息(部分215)應該是平假名編碼信息而非拼音編碼信息。例如,對于詞“今晚”,平假名編碼信息是“こんばん”。對于英語,字典的所有部分與漢字相同,除了應該省略輔助詞編碼信息,因為英語單詞編碼信息就是該單詞的字符序列。對于韓語,字典的所有部分與漢字相同,除了輔助詞編碼信息(部分215)應該是韓語筆畫編碼信息,而不是拼音編碼信息。例如,對于詞“ ”,韓語筆畫編碼信息是—. . | . | ”。隨后將描述由圖4A所示的示例裝置如何學習該字典。
圖2B示出了由字典學習裝置學習的字典的示意結構的另一示例。與圖2A所示的示例相比較,在該示例中的字典不包括該詞的詞性(部分213),這些詞性的對應概率(部分214)以及詞性雙元模型(部分22)。該字典的使用范圍可以比第一示例的范圍更廣。它可以用在手寫、語音識別后處理、輸入方法以及其它語言相關的應用中。隨后將描述由圖4B所示的示例裝置如何學習該字典。
下面將參考圖3和圖4A來描述學習圖2所示的字典的字典學習裝置1。如圖3和圖4A所示,字典學習裝置1包括通過內部總線103連接的CPU 101,附件102,存儲器104以及硬盤105。存儲器104存儲操作系統(tǒng)1041,字典學習處理模塊1042以及其它的應用程序1043。硬盤105存儲語料1051,字典學習文件1052以及其它的文件(未示出)。由字典學習裝置1學習的字典2也存儲在硬盤上。語料1051包括,例如,未標注的語料12和詞性已標注的語料1051。字典學習文件1052包括詞典11和統(tǒng)計語言模型14。字典學習處理模塊1042包括詞典與統(tǒng)計語言模型學習單元15,詞性學習單元以及字典整合單元17。
由字典學習處理模塊1042訓練生成最后的字典2。字典學習處理模塊1042讀取語料1051并將詞典11以及統(tǒng)計語言模型14寫在硬盤上并在硬盤上輸出最終的字典2。
詞典11由詞干的集合組成。起初,包括語言中的傳統(tǒng)詞的普通詞典可以用作詞典11。詞典與統(tǒng)計語言模型學習單元15將學習最終的詞典和統(tǒng)計語言模型,同時在此過程中對詞典11進行優(yōu)化。刪除詞典11中的一些不重要的詞以及添加一些重要的詞和短語。未標注的語料11是包括大量沒有分割為詞序列的文本但包括多個句子的文本語料(對于英語,一個句子可以通過一些例如空格的“標記”而分割為“詞”序列。但是這些“詞”僅僅是傳統(tǒng)“詞”,而不是包括了在本說明書中所稱的“詞”的傳統(tǒng)“短語”)。詞典與統(tǒng)計語言模型學習單元15處理詞典11以及未標注的語料12,然后創(chuàng)建統(tǒng)計語言模型14(初始并不存在)。統(tǒng)計語言模型14包括詞三元模型141以及詞單元模型142。然后,詞典與統(tǒng)計語言模型學習單元15使用統(tǒng)計語言模型14中的信息來優(yōu)化詞典11。詞典與統(tǒng)計語言模型學習單元15重復這一處理過程并創(chuàng)建最終的詞典11以及最終的詞單元模型142。
詞性已標注的語料13是利用對應詞性標注詞序列的語料。典型地,可以手工創(chuàng)建該語料,但其規(guī)模受到了限制。詞性學習單元16掃描詞性已標注的語料13的詞序列?;谠~典11,詞性16為詞典中的每一個詞統(tǒng)計詞性信息。計數(shù)一個詞的所有詞性以及其對應概率(字典2中的部分213)。對于詞典11中沒有在詞序列中出現(xiàn)的詞,手工地給予該詞一個詞性以及給出其對應的概率1。在該過程中利用傳統(tǒng)的雙元模型計算方法給出詞性雙元模型(字典2中的部分22)。
通過使用詞單元模型142,詞三元模型141,詞典11,以及詞性學習單元16給出的一些詞性信息,字典整合單元整合上述的所有數(shù)據(jù)并添加一些應用程序所需的輔助詞編碼信息(字典2中的部分215),從而創(chuàng)建圖2A中所描述的最終的字典2。
下面將參考圖3和圖4B描述學習字典的字典學習裝置的另一示例。與圖3和圖4B所示的示例相比較,語料1051僅包括已標注的語料。字典學習處理模塊1042不包括詞性學習單元16。因此,在該示例中并不考慮詞性相關的信息。字典整合單元17將詞三元模型141,詞單元模型142,詞典11以及一些應用程序所需的輔助詞編碼信息(字典2中的部分215)整合為如圖2B所示的最后的字典2。
圖5是一流程圖,用于解釋由詞典與統(tǒng)計語言模型學習單元15執(zhí)行的學習詞典以及統(tǒng)計語言模型的過程。首先,在步驟151將未標注的語料12分割為詞序列。對于該分詞步驟存在多種不同的方法。第一種方法是僅根據(jù)詞典使用最大匹配來分割語料12。第二種方法是在詞單元模型142存在的情況下,根據(jù)詞單元模型142利用最大似然來分割語料12;在詞單元模型142不存在的情況下,根據(jù)詞典利用最大匹配來分割語料12。最大似然是一種分詞的標準方法,如等式(1)所示S^{w1w2···wnS^}=argmaxsP(S{w1w2···wns})···(1)]]>在等式(1)中,S{w1w2...wns}表示詞序列w1w2...wns。P(S{w1w2...wns})表示該詞序列的似然概率。優(yōu)化的詞序列為 在步驟152,接收分割的詞序列,以及利用常規(guī)的SLM創(chuàng)建方法創(chuàng)建統(tǒng)計語言模型14,其中所述統(tǒng)計語言模型包括詞三元模型141以及詞單元模型142。
在步驟153,使用步驟152中創(chuàng)建的詞三元模型評價在步驟151產生的詞序列的困惑度(Perplexity)。如果是第一次計算困惑度,則處理直接進行到步驟154。否則,將新獲得的困惑度與舊的困惑度相比較。如果新的困惑度降低的數(shù)值超過了預定的閾值,則處理進行到步驟154;否則處理進行到步驟155。
在步驟154,根據(jù)新創(chuàng)建的詞三元模型141利用最大似然來將語料12重新分割為詞序列,并執(zhí)行步驟152。
在步驟155,根據(jù)統(tǒng)計語言模型中的一些信息將一些新詞添加到詞典中并從詞典中刪除一些不重要的詞,從而優(yōu)化了詞典。在下面的段落中將描述如何進行詞典優(yōu)化。一個新詞通常是詞三元模型141中的三元詞條或雙元詞條的詞序列組成的新詞。例如,如果“今天”,“下午”和“八點“都是當前詞典中的詞,則雙元詞條“今天 下午”或者三元詞條“今天 下午 八點”可能成為優(yōu)化后的詞典中的新詞。如果這兩個詞都被添加了,則優(yōu)化后的詞典應該包括詞“今天 下午”以及詞“今天 下午 八點”。
在步驟156,評價詞典。如果在步驟155詞典并沒有改變(沒有添加新詞也沒有刪除不重要的詞),則詞典與統(tǒng)計語言模型學習單元15停止該處理。否則該處理進行到步驟157。
在步驟157,由于詞三元模型141和詞單元模型142與新創(chuàng)建的詞典不再對應,因此詞三元模型141和詞單元模型142不再有效。此時根據(jù)新的詞典更新詞單元模型;從詞三元模型得到新詞的詞單元出現(xiàn)概率;并且刪除被刪除的詞單元詞條。最后,刪除詞三元模型141并重復執(zhí)行步驟151。
圖6示出了根據(jù)本發(fā)明的詞典優(yōu)化的流程圖。當詞典優(yōu)化開始時,存在兩條要執(zhí)行的路徑。一條是執(zhí)行步驟1551,另一條是執(zhí)行步驟1554??梢赃x擇任何一條路徑先執(zhí)行。
首先,在步驟1551,利用出現(xiàn)計數(shù)閾值過濾出所有的三元詞條(例如“今天 下午 八點”)以及雙元詞條(例如“今天 下午”),例如,在語料中出現(xiàn)次數(shù)超過100的所有詞條都被選擇到新詞候選列表中。由此創(chuàng)建了一個新詞候選列表。在步驟1552,通過互信息閾值過濾出所有的候選詞。如下定義了互信息
MI(w1,w2···wn)=f(w1,w2···wn)Σi=1nf(wi)-f(w1,w2···wn)···(2)]]>其中f(w1,w2...wn)表示詞序列(w1,w2...wn)的出現(xiàn)頻率。這里(w1,w2...wn)作為新候選詞,n等于2或3。例如,對于w1今天,w2下午以及w3八點,候選詞“今天 下午 八點”的互信息是 從候選詞列表中刪除互信息小于閾值的所有候選詞。
在步驟1553,為新候選詞列表中的每個候選詞計算相對熵。如下定義了相對熵D(w1,w2,···,wn)=f(w1,w2,···,wn)log[P(w1,w2,···,wn)f(w1,w2,···,wn)]···(3)]]>其中P(w1,w2,...,wn)是當前詞三元模型給出的詞序列(w1,w2...wn)的似然概率。然后在步驟1553,按照相對熵的降序順序排序所有的候選詞。
在進行到步驟1557之前,必須首先處理右邊的路徑(步驟1554~1556)。右邊的路徑是刪除一些不重要的詞(例如“革命委員會”)以及一些“偽詞”。當將一詞序列添加為新詞時,它可能是“偽詞”(例如“今天下”)。因此,需要刪除一些詞典詞條。
在步驟1554,通過出現(xiàn)計數(shù)閾值過濾出所有的詞,例如,在詞典中出現(xiàn)次數(shù)小于100的所有詞都被選擇到刪除詞候選列表中。由此創(chuàng)建了一個包括要刪除的候選詞的刪除候選詞列表。
在步驟1555,將刪除候選詞列表中的每個詞分割為其它的詞序列。例如,將革命委員會”分割為“革命”,“委員會”。該分詞方法與步驟151或步驟154所描述的分詞方法類似??梢允褂眠@兩個步驟中的任何一種方法。
與步驟1553類似,在步驟1556計算每個候選詞的相對熵。然后,以相對熵的升序順序排序所有的候選詞。
在步驟1557,采用策略依據(jù)兩個候選詞列表來確定應該添加多少新候選詞以及應該刪除多少候選詞,所述候選詞列表是一個是有關新詞的列表,另一個是有關刪除詞的列表。所述策略可以是一個規(guī)則或多個規(guī)則。例如,使用相對熵的閾值,或使用詞典中的詞的總數(shù)作為判斷手段,或者使用上述這兩種判斷手段。最后,更新該詞典。
如何進行詞典優(yōu)化是非常重要的。在詞典優(yōu)化過程中,將初始僅是一些詞序列的重要的短語添加到詞典中作為新詞,因此,可以將在初始的詞單元模型中并不存在的一些重要的語言信息提取到最終的詞單元模型中。并且,從初始的詞單元模型中刪除一些不重要的語言信息。所以,最終的詞單元模型可以保持有小尺寸而在進行語言預測時卻具有更好的性能。這也是本發(fā)明能夠提供一種小尺寸的詞典的同時能在進行句子和詞的預測時具有良好性能的重要的原因。
圖7示出了根據(jù)本發(fā)明第一實施例的用戶終端裝置的方框圖。如圖7所示,由總線34連接處理器31,用戶輸入終端32,顯示器33,RAM 35以及ROM(閃存)36并使其交互作用。輸入處理單元3601中包括輸入編碼解譯器362,字典加索引模塊363,用戶輸入預測與調整模塊364。在ROM 36上裝載有輸入處理單元3601,字典2,字典索引366,操作系統(tǒng)361以及其它的應用程序365。
圖8A-8D示出本發(fā)明所采用的用戶終端裝置的四個常規(guī)鍵盤的示意框圖。用戶輸入終端32可以是任何類型的用戶輸入裝置。如圖8A所示,一個示例的用戶輸入終端32是數(shù)字鍵盤,其中每個數(shù)字按鍵代表拼音編碼。按鍵321是數(shù)字“4”,代表拼音字符“g”或“h”或“i”。按鍵322是功能鍵,用戶可以使用這種按鍵進行一些動作。例如,點擊該按鍵若干次從而從候選列表中選出正確的候選詞。所述的示例的用戶輸入終端也可以應用于英文輸入。因此每個數(shù)字按鍵代表若干字母表字符。用戶輸入終端32的另一個例子是圖8B所示的數(shù)字鍵盤,其中每個數(shù)字按鍵代表若干筆畫編碼。在圖8B中,按鍵321是數(shù)字“4”,代表筆畫“、”。用戶輸入終端32的第三個例子是日語輸入所采用的數(shù)字鍵盤。在該例中,每個數(shù)字按鍵代表若干平假名。在圖8C中,按鍵321是數(shù)字“4”,代表平假名“た”或“ち”或“つ”或“て”或“と”。用戶輸入終端32的第四個例子是用于韓文輸入的數(shù)字鍵盤。在該例中,每個數(shù)字鍵盤代表若干韓語筆畫。在圖8D中,按鍵321是數(shù)字“4“,代表韓語 或 或 用戶輸入終端32的第五個例子是可以記錄筆跡的觸摸板。通過某些觸摸屏的筆可以記錄用戶的一些動作。
圖10示出了圖7所示的用戶終端裝置的輸入處理單元中的不同部分之間的連接關系的方框圖。在用戶輸入預測與調整模塊364工作之前,字典加索引模塊363讀取字典2并將字典索引366加到ROM 36中。字典索引366是基于對應詞編碼信息的字典2中的所有詞條的索引。對于第一個示例的用戶輸入終端32,詞的編碼信息是數(shù)字序列。例如,詞“今天”的拼音是“jintian”,所以其編碼信息是“5468426”。對于第二個示例的用戶輸入終端32,詞的編碼信息是數(shù)字序列。例如,詞“今天”的筆畫是 因此其編碼信息為“34451134”。對于第三個示例的用戶輸入終端32,詞的編碼信息也是數(shù)字序列。例如,詞“今晚”的平假名是“こんばん”,因此編碼信息是“205#0”。對于第四個示例的用戶輸入終端32,詞的編碼信息是數(shù)字序列。例如,詞“ 的韓語筆畫是“—. . | . | ”,因此編碼信息為“832261217235”。對于第五個示例的用戶輸入終端32,詞的編碼信息是Unicode(統(tǒng)一的字符編碼標準)序列。例如,詞“今天”的Unicode是“(4ECA)(5929)”,所以編碼信息為“(4ECA)(5929)”。
用戶輸入終端32接收用戶輸入并將其通過總線34發(fā)送到輸入編碼解譯器362。輸入編碼解譯器362將用戶輸入解譯為編碼信息或用戶動作,并將其傳送到用戶輸入預測與調整模塊364。該編碼信息可以是確定的或者是隨機的。對于第一個示例的用戶輸入終端32,輸入編碼解譯器362將每個按鍵點擊解譯為確定的數(shù)字代碼(“0”~”9”),代表幾個可能的拼音字符(“a”~”z”)。對于第二個示例的用戶輸入終端32,輸入編碼解譯器362將每個按鍵點擊解譯為確定數(shù)字代碼(“0”~”9”),代表筆畫字符(“—”~” 對于第三個示例的用戶輸入終端32,輸入編碼解譯器362將每個按鍵點擊解譯為確定數(shù)字代碼(“0”~”9”以及“#”),代表幾個可能的平假名。對于第四個示例的用戶輸入終端32,輸入編碼解譯器362將每個按鍵點擊解譯為確定數(shù)字代碼(“0”~”9”),代表幾個可能的韓語筆畫。對于第五個示例的用戶輸入終端32,輸入編碼解譯器362將每個筆跡解譯為隨機變量,其表示若干可能的Unicode以及對應概率。(輸入編碼解譯器362可以是手寫識別引擎,其將筆跡識別為一組候選漢字以及對應的概率)。
用戶輸入預測與調整模塊364接收由輸入編碼解譯器362發(fā)送的已解譯的編碼信息或用戶動作?;谠~典2和詞典索引366,產生用戶輸入結果并將其通過總線34發(fā)送到顯示器33。顯示器33向用戶顯示輸入方法產生的結果以及與該輸入方法相關的其它信息。圖11示出了用戶終端裝置的顯示器33的用戶界面。
該顯示器所顯示的用戶界面包括輸入狀態(tài)信息區(qū)域331以及輸入結果區(qū)域332。在區(qū)域331,顯示了用戶輸入3311和輸入方法狀態(tài)3312。區(qū)域3311指示已經由用戶輸入的當前數(shù)字序列。區(qū)域3312指示當前輸入方法是拼音的數(shù)字鍵盤輸入方法。在區(qū)域332,顯示了用戶輸入預測與調整模塊364給出的結果。句子預測3321是由用戶輸入預測與調整模塊364根據(jù)輸入的數(shù)字序列3311的陰影部分(當前詞部分)給出的所有當前候選詞的列表。在該列表中的所有候選詞具有相同的詞編碼信息,即,數(shù)字序列“24832”。當前的預測候選詞3323是有關所有預測的當前候選詞的列表,預測候選詞3323由用戶輸入預測與調整模塊364根據(jù)輸入的數(shù)字序列3311的陰影部分(當前的詞部分)給出。在該列表中所有候選詞的詞編碼信息的頭五個數(shù)字具有相同的數(shù)字序列“24832”。(出發(fā)點”248323426”,廚房”2483234”,出訪”2483234”)??梢愿淖冊擄@示器33的用戶界面的布局以及可以去除或改變每個組成部分。
圖12示出了由字典加索引模塊363執(zhí)行的構建Patricia樹索引的流程圖。在步驟3631,字典加索引模塊363讀取字典2。根據(jù)特定的用戶輸入終端,給出每個詞的編碼信息。然后,在步驟3632,首先根據(jù)詞條的編碼信息對詞條進行排序。如果兩個詞條的編碼信息是相同的,則利用詞單元進行排序。根據(jù)排序結果,構建該字典的Patricia樹索引。Patricia樹索引可以存儲大量的記錄并提供對記錄的快速連續(xù)的搜索。最后,將Patricia樹索引寫入字典索引中。
圖13示出了本發(fā)明排序結果和Patricia樹索引的示例。通過上述的Patricia樹索引使用字典索引366,用戶輸入預測與調整模塊364在接收到新的用戶輸入動作時執(zhí)行快速的詞搜索。例如,首先給出“2”,用戶輸入預測與調整模塊364一步就可以搜索到節(jié)點“2”,并將該節(jié)點記錄在存儲器中。在下一步,當輸入“3”時,用戶輸入預測與調整模塊364僅一步就從節(jié)點“2”搜索到節(jié)點“23”。在每個節(jié)點中,可以很容易地獲得用于計算對應的候選詞和預測候選詞的信息。
圖14示出由本發(fā)明用戶終端裝置1的用戶輸入預測與調整模塊364執(zhí)行的用戶輸入預測以及調整的過程的流程圖。在步驟3641,接收來自輸入編碼解譯器362的用戶輸入信息并判斷該信息是用戶動作還是編碼信息。如果是用戶動作信息,則將執(zhí)行步驟3648。否則將執(zhí)行步驟3642。
在步驟3642,使用用戶輸入編碼信息,并根據(jù)該編碼信息沿字典索引366的Patricia樹索引向前遞推一步。這意味著用戶輸入預測與調整模塊364存儲了當前Patricia樹節(jié)點的列表。當添加新的編碼信息時,使用列表中的節(jié)點作為起始點,步驟3642順著Patricia樹索引向前遞推一步以搜索新的Patricia樹節(jié)點。如果新的編碼信息為添加的初始編碼信息,則步驟3642從Patricia樹的根節(jié)點開始。也就是說,對于圖12中的示例Patricia樹,如果“2”為輸入的初始編碼信息,步驟3642從根節(jié)點開始檢索Patricia樹中的新節(jié)點“2”。然后,將“2”和根節(jié)點設置為當前的Patricia樹節(jié)點。如果“3”為輸入的第二編碼信息,在步驟3642,從當前節(jié)點“2”檢索新節(jié)點“23”以及從當前節(jié)點中的根節(jié)點檢索新節(jié)點“3”。最后,將節(jié)點“23”,節(jié)點“3”以及根節(jié)點設置為當前節(jié)點。
在步驟3643,如果沒有搜索到新的節(jié)點,則處理進行到步驟3644。這意味著該編碼信息無效。否則,處理進行到步驟3645。
在步驟3644,忽略該編碼信息并重置所有的結果和狀態(tài)為未加入此信息前的值。然后,處理返回到步驟3641等待下一用戶輸入信息。
在步驟3645,接收新的Patricia樹節(jié)點,并將其設置為當前的Patricia樹節(jié)點。每個當前節(jié)點表示所有輸入編碼信息的可能的當前詞的集合。然后在該步驟進行句子預測,從而確定最有可能的詞序列。最有可能的詞序列是最終的句子預測。例如,分別將“2”和“3”添加為第一和第二用戶輸入編碼信息。當前節(jié)點是“23”,“3”以及根節(jié)點。具有編碼信息“23”的詞是僅具有一個詞的詞序列。這也是一種可能的句子(“測”是可能的句子)。具有編碼信息“3”的詞可以在具有編碼信息“2”的詞之后并形成兩個詞序列“2”-“3”。這是另一種可能的句子(“阿 惡”為可能的句子,“啊 惡”也是可能的句子)。如何確定最可能的句子可以表述為給出編碼序列I,找出與I相對應的最可能的詞序列S(w1w2...wns)。根據(jù)等式(4)可以解決這一問題S^(w1w2···wnS^)=argmaxsΣi1∈POSw1,i2∈POSw2,···P(S(w1oi1w2oi2···wnsoins)|I)···(4)]]>POSw1是詞w1所具有的所有詞性的集合。Oin是詞wn的詞性之一。
由于需要使P(S)最大化,可以根據(jù)等式(5)求出P(S)P(S)=P(Oi1)P(w1)P(Oi1|w1)P(Oi1)P(Oi2|Oi1)P(w2)P(Oi2|w2)P(Oi2)]]>···P(Oins|Oins-1)P(wns)P(Oins|wns)P(Oins)···(5)]]>P(Oi1)和P(Oi2|Oi1)分別是詞性單元和詞性雙元。它們包含在詞性雙元模型中(在圖2示出的詞典2的部分22)。P(w1)是詞單元(字典2中的部分212)。P(Oi1|w1)是一個詞對應詞性的概率(字典2的部分214)。
在步驟3646,確定在句子預測中的當前詞。在步驟3646,根據(jù)該詞的Patricia樹節(jié)點,推出當前候選詞和預測的當前候選詞。例如,假設句子預測是“阿 惡”,當前詞是“惡”。則針對當前詞的Patricia樹節(jié)點是節(jié)點“3”。因此,當前候選詞列表僅包括一個詞“惡”,而預測的當前候選詞列表中沒有詞。
最后,在步驟3647輸出要顯示的結果,處理返回到3641等待下一個用戶輸入信息。
如果用戶輸入信息是用戶動作,則步驟3648根據(jù)結果采取一些對應的調整。例如,如果用戶從當前候選詞列表中選擇第二個詞,則應該將句子預測中的當前詞改變?yōu)楦鶕?jù)所選擇的詞的新的當前詞。例如,如果用戶根據(jù)該句子預測結果點擊“F2”(意指OK),則將如圖11所示的句子預測3321發(fā)送到當前的用戶應用程序,并清除區(qū)域332中的數(shù)字序列331以及所有的結果。
圖15示出使用圖8A所示的鍵盤的用戶終端裝置3的示例輸入序列。在該圖中,用戶通過第一示例的用戶輸入終端32使用拼音輸入漢字“今天下午”。
圖16示出根據(jù)本發(fā)明第二實施例的用戶終端裝置的方框圖。該實施例示出兩部分用戶終端裝置和計算機。而圖7所示的第一實施例僅包括一個移動終端。這兩個實施例之間的區(qū)別在于第二實施例的用戶終端裝置采用了計算機中的字典加索引模塊366。字典加索引模塊366處理字典并將字典索引366輸出到計算機的硬盤上。而將字典2和字典索引366裝載在用戶終端裝置的ROM(Flash)中??梢酝ㄟ^用戶輸入終端裝置提供商所提供的工具進行裝載處理。然后,用戶輸入預測與調整模塊364可以像第一實施例中的用戶終端裝置那樣工作。
從上述可以看出,雖然已經詳細的描述了示例性的實施例,本領域的普通技術人員將會明白可能會有各種修改,添加以及替換,而不偏離附后的權利要求書所要求的本發(fā)明的保護范圍以及本發(fā)明的精髓。
權利要求
1.一種字典學習方法,所述方法包括步驟從未標注的語料中學習詞典和統(tǒng)計語言模型;將所述詞典,統(tǒng)計語言模型以及輔助詞編碼信息整合為字典。
2.如權利要求1所述的字典學習方法,所述方法還包括步驟從詞性已標注的語料中獲得所述詞典中每個詞的詞性信息和詞性雙元模型;將所述詞性信息以及詞性雙元模型添加到所述字典中。
3.如權利要求1或2所述的字典學習方法,其中輔助詞編碼信息包括漢字編碼信息。
4.如權利要求1或2所述的字典學習方法,其中輔助詞編碼信息包括非漢字編碼信息。
5.如權利要求3所述的字典學習方法,其中漢字編碼信息至少包括拼音編碼信息和筆畫編碼信息之一。
6.如權利要求1或2所述的字典學習方法,其中從未標注的語料中學習詞典和統(tǒng)計語言模型的步驟包括下列步驟a)將未標注的語料分割為詞序列;b)利用所述詞序列創(chuàng)建統(tǒng)計語言模型,其中統(tǒng)計語言模型包括詞單元模型和詞三元模型;c)計算困惑度,并判斷是否是第一次計算困惑度或者困惑度降低的數(shù)值大于第一閾值;d)在c)的結果是肯定的情況下根據(jù)詞三元模型將語料重新分割為詞序列并執(zhí)行步驟b);e)在c)的結果是否定的情況下根據(jù)統(tǒng)計語言模型優(yōu)化詞典,從而添加新詞并刪除不重要的詞;f)更新詞單元模型,刪除無效的詞三元模型并執(zhí)行步驟a),直到詞典不再變化。
7.如權利要求6所述的字典學習方法,其中步驟a)根據(jù)下列等式對未標注的語料進行分割S^{w1w2···wns^}=argmaxsP(S{w1w2···wns}),]]>其中S{w1w2…wns}表示詞序列w1w2…wns,P(S{w1w2…wns})表示所述詞序列的似然概率。最優(yōu)的詞序列是S^{w1w2···wns^}.]]>
8.如權利要求7所述的字典學習方法,其中步驟d)包括根據(jù)詞典利用最大匹配對語料進行重新分割。
9.如權利要求6所述的字典學習方法,其中步驟a)包括根據(jù)詞典利用最大匹配對語料進行分割。
10.如權利要求9所述的字典學習方法,其中步驟d)包括根據(jù)詞典利用最大匹配對語料進行重新分割。
11.如權利要求6所述的字典學習方法,其中步驟e)包括步驟e1)根據(jù)第一出現(xiàn)計數(shù)閾值過濾出所有的三元詞條和雙元詞條,從而形成新候選詞列表;e2)根據(jù)互信息閾值從新候選詞列表中過濾出所有的候選詞作為第一候選詞;e3)針對在新候選詞列表中所有的第一候選詞計算相對熵,并按照相對熵降序順序對第一候選詞進行排序;e4)根據(jù)第二出現(xiàn)計數(shù)閾值過濾出所述詞典中的所有詞,從而形成刪除候選詞列表;e5)將刪除候選詞列表中的每個詞分割為一序列所述詞典中的其他詞,作為第二候選詞;e6)計算刪除候選詞列表中的所有第二候選詞的相對熵,并按照相對熵升序順序對第二候選詞進行排序;e7)確定應該添加的第一候選詞的數(shù)量以及刪除的第二候選詞的數(shù)量,并更新所述詞典。
12.如權利要求11所述的字典學習方法,其中步驟e2)根據(jù)下列等式計算所有的候選詞的互信息MI(w1,w2···wn)=f(w1,w2···wn)30Σi=1nf(wi)-f(w1,w2···wn)]]>其中(w1,w2…wn)是詞序列,f(w1,w2…wn)表示詞序列(w1,w2…wn)的出現(xiàn)頻率,n等于2或3。
13.一種字典學習裝置,其中所述裝置包括用于學習字典的字典學習處理模塊;存儲有未標注的語料的存儲單元;用于控制所述裝置的各部分的控制單元;其中,所述字典學習處理模塊包括詞典與統(tǒng)計語言模型學習單元,用于從未標注的語料中學習詞典和統(tǒng)計語言模型;字典整合單元,用于將所述詞典,統(tǒng)計語言模型以及輔助詞編碼信息整合為字典。
14.如權利要求13所述的字典學習裝置,其中所述存儲單元還存儲有詞性已標注的語料,以及字典學習處理模塊還包括詞性學習單元,用于從詞性已標注的語料中獲得所述詞典中每個詞的詞性信息和詞性雙元模型;以及字典整合單元將所述詞性信息以及詞性雙元模型添加到字典中。
15.如權利要求13或14所述的字典學習裝置,其中詞典與統(tǒng)計語言模型學習單元通過執(zhí)行下列處理從未標注的語料學習詞典和統(tǒng)計語言模型將未標注的語料分割為詞序列;利用所述詞序列創(chuàng)建統(tǒng)計語言模型,其中統(tǒng)計語言模型包括詞單元模型和詞三元模型;通過詞三元模型將所述語料重復分割為詞序列,并利用詞序列創(chuàng)建統(tǒng)計語言模型,直到不是第一次計算困惑度以及困惑度降低的數(shù)值小于第一閾值;根據(jù)統(tǒng)計語言模型優(yōu)化詞典,從而添加新詞并刪除不重要的詞;以及更新詞單元模型,刪除無效的詞三元模型并將未標注的語料分割為詞序列,直到詞典不再變化。
16.如權利要求15所述的字典學習裝置,其中詞典與統(tǒng)計語言模型學習單元通過執(zhí)行下列處理優(yōu)化詞典根據(jù)第一出現(xiàn)計數(shù)閾值過濾出所有的三元詞條和雙元詞條,從而形成新候選詞列表;根據(jù)互信息閾值將從新候選詞列表中過濾出所有的候選詞作為第一候選詞;針對在新候選詞列表中的所有的第一候選詞計算相對熵,并按照相對熵降序順序對第一候選詞進行排序;根據(jù)第二出現(xiàn)計數(shù)閾值過濾出所述詞典中的所有詞,從而形成刪除候選詞列表;將刪除候選詞列表中的每個詞分割為一序列所述詞典中的其他詞,作為第二候選詞;針對刪除候選詞列表中的所有第二候選詞計算相對熵,并按照相對熵升序順序對第二候選詞進行排序;確定應該添加的第一候選詞的數(shù)量以及刪除的第二候選詞的數(shù)量,并更新所述詞典。
17.如權利要求13所述的字典學習裝置,其中輔助詞編碼信息包括漢字編碼信息。
18.如權利要求13所述的字典學習裝置,其中輔助詞編碼信息包括非漢字編碼信息。
19.如權利要求17所述的字典學習裝置,其中漢字編碼信息至少包括拼音編碼信息和筆畫編碼信息之一。
20.一種用于處理用戶輸入的輸入方法,其中所述方法包括接收步驟,用于接收用戶輸入;解譯步驟,用于將用戶輸入解譯為編碼信息或用戶動作,其中基于字典預先獲得字典中的每個詞的編碼信息;用戶輸入預測與調整步驟,用于在接收到編碼信息或用戶動作時,根據(jù)字典中的統(tǒng)計語言模型和詞性雙元模型利用字典索引中的Patricia樹索引給出句子與詞預測,并根據(jù)用戶動作調整句子和詞預測;顯示步驟,用于顯示句子和詞預測的結果。
21.如權利要求20所述的用于處理用戶輸入的輸入方法,其中接收步驟接收漢字輸入。
22.如權利要求20所述的用于處理用戶輸入的輸入方法,其中接收步驟接收非漢字輸入。
23.如權利要求21所述的用于處理用戶輸入的輸入方法,其中所述漢字輸入包括拼音輸入,筆畫輸入以及筆跡輸入之一。
24.如權利要求20所述的用于處理用戶輸入的輸入方法,其中用戶輸入預測與調整步驟包括下列步驟a)接收解譯的編碼信息或用戶動作;b)如果接收到的是用戶動作則修改預測結果并執(zhí)行步驟h);c)根據(jù)編碼信息從所有的當前Patricia樹節(jié)點搜索所有可能的Patricia樹索引的新Patricia樹節(jié)點;d)如果不存在任何新Patricia樹節(jié)點,則忽略所述編碼信息并重置所有的搜索結果以及執(zhí)行步驟a);e)如果存在新Patricia樹節(jié)點,則將新Patricia樹節(jié)點設置為當前的Patricia樹節(jié)點;f)從當前的Patricia樹節(jié)點搜索所有的可能詞并給出句子預測;g)根據(jù)句子預測結果確定當前詞,并給出詞預測,所述詞預測包括候選詞列表和預測候選詞列表;以及h)輸出預測結果以顯示并返回執(zhí)行步驟a)。
25.如權利要求24所述的用于處理用戶輸入的輸入方法,其中步驟f)根據(jù)下列等式確定最可能的詞序列作為預測句子從而給出句子預測S^(w1w2···wns^)=argmaxsΣi1∈POSw1,i2∈POSw2,···P(S(w1oi1w2oi2···wnsoins)|I),]]>P(S)=P(Oi1)P(w1)P(Oi1|w1)P(Oi1)P(Oi2|Oi1)P(w2)P(Oi2|w2)P(Oi2)]]>···P(Oins|Oins-1)P(wns)P(Oins|wns)P(Oins),]]>其中POSw1是詞w1所具有的所有詞性的集合;Oin是詞wn的一個詞性;P(Oi1)和P(Oi2|Oi1)分別是詞性單元和詞性雙元;P(w1)是詞單元;以及P(Oi1|w1)是一個詞對應詞性的概率。
26.一種用于處理用戶輸入的用戶終端裝置,其中所述裝置包括用戶輸入終端,用于接收用戶輸入;存儲單元,用于存儲字典和包括Patricia樹索引的字典索引;輸入處理單元,用于根據(jù)用戶輸入給出句子和詞預測;以及顯示器,用于顯示句子和詞預測的結果;其中,輸入處理單元包括輸入編碼解譯器,用于將用戶輸入解譯為編碼信息或用戶動作,其中基于字典預先獲得字典中的每個詞的編碼信息;用戶輸入預測與調整模塊,用于在接收到編碼信息或用戶動作時,根據(jù)字典中的統(tǒng)計語言模型和詞性雙元模型利用字典索引中的Patricia樹索引給出句子和詞預測,并根據(jù)用戶動作調整句子和詞預測。
27.如權利要求26所述的用于處理用戶輸入的用戶終端裝置,其中輸入處理單元還包括字典加索引模塊,用于給出字典中每個詞條的編碼信息,根據(jù)編碼信息和詞單元對所有詞條進行排序,構建Patricia樹索引并將其添加到字典索引中。
28.如權利要求26和27所述的用于處理用戶輸入的用戶終端裝置,其中用戶輸入預測與調整模塊通過執(zhí)行下列處理給出句子和詞預測并調整句子和詞預測接收解譯的編碼信息或用戶動作;如果接收到的是用戶動作則修改預測結果并將結果輸出顯示;如果接收到的是編碼信息,則根據(jù)編碼信息從所有的當前Patricia樹節(jié)點搜索所有可能的Patricia樹索引的新Patricia樹節(jié)點;如果不存在任何新Patricia樹節(jié)點,則忽略所述編碼信息并重置所有的搜索結果,然后重復執(zhí)行接收解譯的編碼信息或用戶動作;如果存在新Patricia樹節(jié)點,則將新Patricia樹節(jié)點設置為當前的Patricia樹節(jié)點;從當前的Patricia樹節(jié)點搜索所有的可能詞并給出句子預測;根據(jù)句子預測結果確定當前詞,并給出詞預測,所述詞預測包括候選詞列表和預測候選詞列表;以及輸出預測結果以顯示。
29.如權利要求26所述的用于處理用戶輸入的用戶終端裝置,其中用戶輸入終端用于漢字輸入。
30.如權利要求26所述的用于處理用戶輸入的用戶終端裝置,其中用戶輸入終端用于非漢字輸入。
31.如權利要求29所述的用于處理用戶輸入的用戶終端裝置,其中用戶輸入終端可以是數(shù)字鍵盤,其中每個數(shù)字按鍵代表拼音編碼。
32.如權利要求29所述的用于處理用戶輸入的用戶終端裝置,其中用戶輸入終端可以是數(shù)字鍵盤,其中每個數(shù)字按鍵代表筆畫編碼。
33.如權利要求29所述的用于處理用戶輸入的用戶終端裝置,其中用戶輸入終端可以是觸摸板。
全文摘要
本發(fā)明公開了一種字典學習方法,所述方法包括步驟從未標注的語料中學習詞典和統(tǒng)計語言模型;將所述詞典,統(tǒng)計語言模型以及輔助詞編碼信息整合為小尺寸的字典。此外,還公開了一種在用戶終端裝置上使用的輸入方法以及一種用戶終端裝置,其中所述終端裝置上裝載有添加了詞性信息和詞性雙元模型的字典。因此,通過用戶終端裝置可以給出句子預測和詞預測,同時通過利用字典索引中的Patricia樹索引搜索字典從而加速輸入。
文檔編號G06F17/21GK1815467SQ200510006708
公開日2006年8月9日 申請日期2005年1月31日 優(yōu)先權日2005年1月31日
發(fā)明者許荔秦, 薛敏宇 申請人:日電(中國)有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1