專利名稱:應(yīng)用于手機(jī)短信查詢的拼音糾錯技術(shù)及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于手機(jī)擴(kuò)展功能技術(shù)領(lǐng)域,特別涉及一種應(yīng)用于手機(jī)短信査詢的拼音糾 錯技術(shù)及裝置。
背景技術(shù):
目前在短信上的應(yīng)用服務(wù)由于不具備自然語言處理技術(shù),只能是簡單的定制服務(wù) 等,用戶需要學(xué)會發(fā)送代碼等特定信息才能進(jìn)行簡單的應(yīng)用。而對于搜索和路徑這種 用戶需求復(fù)雜的應(yīng)用,這種方式遠(yuǎn)遠(yuǎn)不能滿足要求,還會因?yàn)榉爆嵉牟僮鞑襟E造成不 好的用戶體驗(yàn)。
手機(jī)用戶的一個特點(diǎn)為手機(jī)輸入法帶來的輸入的錯誤率較高的問題,目前手機(jī)上 輸入方法大部分為拼音輸入,而且在詞組數(shù)量、易用性方面遠(yuǎn)遠(yuǎn)不如電腦上的輸入法, 這就造成很多用戶在輸入的時候因?yàn)椴僮魇д`或者為了快捷,使用音似的錯別字或詞。 如經(jīng)??梢园l(fā)現(xiàn)類似這樣的短信"直到(知道)到東直門怎么走不?"。在本地搜索和 路況導(dǎo)航的應(yīng)用中,這種情況出現(xiàn)的更多,因?yàn)榇蟛糠值牡孛?、路名都不在輸入法?詞庫中,用戶為了方便往往用常用的音似詞組代替,在很多情況下,用戶甚至也不知 道某個地名、路名的正確寫法,只是知道讀音,而且路名、地名中有較多的生僻字, 用戶不知道如何輸入,只能用音似字或形似字代替。如"海龍大廈",用戶可能會輸入 成"海隆大廈"。"婺源"用戶可能會輸入成"無緣"或者"蝥源"。在系統(tǒng)層面上,傳 統(tǒng)的短信查詢系統(tǒng)采用基于關(guān)鍵字或者基于指令的搜索技術(shù),給用戶帶來了很大的不 便,而上述過程在應(yīng)用層面上很好的解決了這個問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于,對手機(jī)用戶通過自然語言文本輸入的文本進(jìn)行拼音糾錯。 為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種應(yīng)用于手機(jī)短信査詢的拼音糾錯技術(shù),包 含步驟一査找實(shí)體的同音、近音實(shí)體,對同音或近音錯別字進(jìn)行匹配糾錯;步驟 二査找實(shí)體的模糊音實(shí)體,對模糊音進(jìn)行匹配糾錯;步驟三査找實(shí)體的形似擴(kuò)展 詞,對縮寫詞進(jìn)行匹配糾錯。本發(fā)明還提供一種應(yīng)用于手機(jī)短信査詢的拼音糾錯裝置,包含査找實(shí)體的同音、 近音實(shí)體,對同音或近音錯別字進(jìn)行匹配糾錯的同音糾錯模塊;查找實(shí)體的模糊音實(shí) 體,對模糊音進(jìn)行匹配糾錯的模糊音糾錯模塊;査找實(shí)體的形似擴(kuò)展詞,對縮寫詞進(jìn) 行匹配糾錯的縮寫糾錯模塊。
本發(fā)明提供的技術(shù)方案的有益效果是針對手機(jī)輸入的特點(diǎn),對地名的識別應(yīng)用 拼音糾錯的技術(shù)以及縮寫識別的技術(shù),解決了用戶不知道地名具體寫法或者地名包含 生僻字時的問題,并方便用戶可以不用記住地名的完整名稱,更符合用戶習(xí)慣。通過 本發(fā)明,用戶自然語言輸入的查詢語句,變成了系統(tǒng)能理解的,由系統(tǒng)所掌握的地理 實(shí)體詞構(gòu)成的一個聯(lián)合査詢,便于后面的地理導(dǎo)航系統(tǒng)的進(jìn)一步處理。
圖1為本發(fā)明的自然語言處理技術(shù)流程圖2為本發(fā)明的拼音糾錯技術(shù)流程圖; 圖3為本發(fā)明的拼音糾錯裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方 式作進(jìn)一步地詳細(xì)描述。
本發(fā)明提供一種應(yīng)用于手機(jī)短信查詢的拼音糾錯技術(shù),是基于自然語言處理技術(shù) 的另一手機(jī)短信息查詢糾錯方法。圖1為本發(fā)明的自然語言處理技術(shù)流程圖。首先,
闡釋所述自然語言處理技術(shù),其處理過程為手機(jī)用戶輸入自然語言文本查詢語句(步 驟S101),如"從機(jī)場到海隆大廈怎么走?"分詞模塊進(jìn)行處理,借助常用詞詞典將
自然語言文本分割成常用詞(步驟S102),該句被分割為"從/機(jī)場/到/海/隆/大廈/怎么 /走/ /"。然后,文本被發(fā)送到詞性標(biāo)注模塊,該模塊借助詞性詞典及特征詞典,將常 用詞標(biāo)注詞性及特征(步驟S103),如"機(jī)場"被標(biāo)注為"通用地名","到"被標(biāo)注 為動詞,通過這樣的步驟,我們可以理解句子的結(jié)構(gòu),如主謂賓等;利用句法特征和
常用詞特征輔助對査詢語句的分類。再通過問句領(lǐng)域識別模塊,借助領(lǐng)域特征詞典及 領(lǐng)域問法特征詞典,將屬于"交通信息"的自然語言文本分發(fā)到實(shí)體識別模塊,這個 步驟需要結(jié)合疑問詞特征,如是否包含"哪里"、"怎么",動詞特征,如"走""到" "去",以及常用詞領(lǐng)域特征,如"通用地名"、"常用人名"等,理解查詢語句中的簡
單語義,根據(jù)語義特征對文本進(jìn)行分類(步驟S104)。將屬于"交通信息"的文本發(fā)送到實(shí)體識別模塊,借助領(lǐng)域相關(guān)實(shí)體詞典,識別出可能的領(lǐng)域?qū)嶓w(步驟S105)。 上述問題中的"機(jī)場"、"海隆大廈"被識別出。之后,在實(shí)體匹配模塊中進(jìn)行實(shí)體匹 配,利用POI實(shí)體詞典,識別出正確的實(shí)體的詞和可能是實(shí)體的詞串(步驟S106), 經(jīng)過此步,所有地名和可能的地名實(shí)體都被識別,如"王府井","東四環(huán)"。
圖2為本發(fā)明的拼音糾錯技術(shù)流程圖。然后,對可能是實(shí)體的詞串進(jìn)行拼音糾錯。 由于手機(jī)輸入法常常是簡單的拼音輸入法,容易出現(xiàn)同音或近音錯別字,如"中觀村",
"海隆大廈"等,我們利用同音糾錯模塊査找可能實(shí)體的同音實(shí)體進(jìn)行糾錯(歩驟 S201)。這一步的輸出為經(jīng)糾錯的實(shí)體匹配結(jié)果,上述"海隆大廈"被轉(zhuǎn)換為"海龍大 廈"。同時考慮各地口音特點(diǎn),再通過模糊音糾錯模塊,加入了基于模糊音的糾錯,如
"f"和"h"等(步驟S202)。再后,通過縮寫糾錯模塊添加形似縮寫實(shí)體匹配結(jié)果, 即將縮寫形似的詞匹配成正確的實(shí)體詞(步驟S203)。上述"機(jī)場"映射成"首都機(jī) 場"。最后,所有匹配實(shí)體被輸出。
如圖3所示,本發(fā)明還提供一種應(yīng)用于手機(jī)短信查詢的拼音糾錯裝置,包含同 音糾錯模塊1,查找可能為實(shí)體的同音實(shí)體進(jìn)行匹配,輸出經(jīng)匹配的正確實(shí)體;模糊
音糾錯模塊2,查找可能為實(shí)體的模糊音實(shí)體進(jìn)行匹配,輸出經(jīng)匹配的正確實(shí)體;縮
寫糾錯模塊3,將縮寫形似的詞匹配成正確的實(shí)體詞。
以上僅為本發(fā)明的典型實(shí)例而己,并非用來限定本發(fā)明的實(shí)施范圍。即凡依照本 發(fā)明申請專利范圍所作的均等變化與修飾,皆為本發(fā)明專利范圍所覆蓋。
權(quán)利要求
1. 一種應(yīng)用于手機(jī)短信查詢的拼音糾錯技術(shù),其特征在于,包含步驟一查找實(shí)體的同音、近音實(shí)體,對同音或近音錯別字進(jìn)行匹配糾錯;步驟二查找實(shí)體的模糊音實(shí)體,對模糊音進(jìn)行匹配糾錯;步驟三查找實(shí)體的形似擴(kuò)展詞,對縮寫詞進(jìn)行匹配糾錯。
2、 一種應(yīng)用于手機(jī)短信查詢的拼音糾錯裝置,其特征在于,包含 查找實(shí)體的同音、近音實(shí)體,對同音或近音錯別字進(jìn)行匹配糾錯的同音糾錯模塊; 查找實(shí)體的模糊音實(shí)體,對模糊音進(jìn)行匹配糾錯的模糊音糾錯模塊; 査找實(shí)體的形似擴(kuò)展詞,對縮寫詞進(jìn)行匹配糾錯的縮寫糾錯模塊。
全文摘要
本發(fā)明提供一種應(yīng)用于手機(jī)短信查詢的拼音糾錯技術(shù)及裝置,步驟一查找實(shí)體的同音、近音實(shí)體,對同音或近音錯別字進(jìn)行匹配糾錯;步驟二查找實(shí)體的模糊音實(shí)體,對模糊音進(jìn)行匹配糾錯;步驟三查找實(shí)體的形似擴(kuò)展詞,對縮寫詞進(jìn)行匹配糾錯。本發(fā)明的優(yōu)點(diǎn)在于針對手機(jī)輸入的特點(diǎn),對地名的識別應(yīng)用拼音糾錯的技術(shù)以及縮寫識別的技術(shù),解決了用戶不知道地名具體寫法或者地名包含生僻字時的問題,并方便用戶可以不用記住地名的完整名稱,更符合用戶習(xí)慣。通過本發(fā)明,用戶自然語言輸入的查詢語句,變成了系統(tǒng)能理解的,由系統(tǒng)所掌握的地理實(shí)體詞構(gòu)成的一個聯(lián)合查詢,便于后面的地理導(dǎo)航系統(tǒng)的進(jìn)一步處理。
文檔編號H04Q7/32GK101287228SQ20081011260
公開日2008年10月15日 申請日期2008年5月26日 優(yōu)先權(quán)日2008年5月26日
發(fā)明者皖 張, 嘯 胡, 楠 趙 申請人:北京捷訊暢達(dá)科技發(fā)展有限公司