亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種poi的容錯(cuò)搜索方法

文檔序號(hào):6331481閱讀:170來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種poi的容錯(cuò)搜索方法
技術(shù)領(lǐng)域
本發(fā)明屬于信息檢索技術(shù)領(lǐng)域,尤其涉及一種POI (興趣點(diǎn))的容錯(cuò)搜索方法。
背景技術(shù)
當(dāng)前社會(huì)信息的快速增長(zhǎng)給人們的生活帶來(lái)的巨大的變化。人們身邊都充斥著大量的信息,在這些海量信息中快速找到需要的信息,將很大程度地提高人們的工作效率。信息檢索技術(shù)的出現(xiàn),逐步滿(mǎn)足了人們的要求。信息檢索一詞出現(xiàn)于20世紀(jì)50年代,又稱(chēng)為信息存儲(chǔ)與檢索或者情報(bào)檢索,是指將信息按照一定的方式組織和存儲(chǔ)起來(lái),并根據(jù)信息用戶(hù)的需要找出有關(guān)信息的過(guò)程和技術(shù)。也就是說(shuō),包括“存”和“取”兩個(gè)環(huán)節(jié)和內(nèi)容,狹義的信息檢索就是信息檢索過(guò)程的后半部分,即從信息集合中找到所需要的信息的過(guò)程,也就是我們常說(shuō)的信息查詢(xún)(Information Search 或 Information Seek)0信息檢索的主要環(huán)節(jié)如下信息內(nèi)容分析和編碼,產(chǎn)生信息記錄及檢索標(biāo)識(shí);組織存儲(chǔ),將全部記錄按照文件、數(shù)據(jù)庫(kù)等形式組成有序的信息集合;用戶(hù)提交搜索請(qǐng)求,搜索和檢索結(jié)果的輸出。關(guān)鍵部分是信息提問(wèn)和信息集合的匹配和選擇,即對(duì)給定檢索請(qǐng)求與集合中的記錄進(jìn)行相似性比較,根據(jù)一定的匹配標(biāo)準(zhǔn)選出有關(guān)信息。POI (興趣點(diǎn))搜索是導(dǎo)航產(chǎn)品中重要的組成部分,而POI的數(shù)量達(dá)到了千萬(wàn),面對(duì)如此巨大的信息量,需要使用信息檢索技術(shù)來(lái)組織和檢索POI的信息。通常,POI的原始數(shù)據(jù)由地圖廠(chǎng)商提供,我們根據(jù)導(dǎo)航產(chǎn)品的實(shí)際情況重新組織和存儲(chǔ)數(shù)據(jù),建立索引文件。傳統(tǒng)的檢索技術(shù)基于關(guān)鍵詞匹配進(jìn)行檢索,往往存在查不全,查不準(zhǔn),檢索質(zhì)量不高的現(xiàn)象。特別是在POI檢索方面,用戶(hù)在導(dǎo)航之前需要查找目的地,而往往用戶(hù)在需要導(dǎo)航的時(shí)候,經(jīng)常是在一個(gè)陌生的地方,當(dāng)查找某個(gè)POI的時(shí)候,用戶(hù)很可能并不知道POI準(zhǔn)確的名字,這就增加了用戶(hù)輸入錯(cuò)誤關(guān)鍵字的可能性。傳統(tǒng)的方法只根據(jù)用戶(hù)輸入的關(guān)鍵字去搜索,很可能得不到用戶(hù)想要的結(jié)果,

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種當(dāng)用戶(hù)輸入與POI信息發(fā)音相同或相似的錯(cuò)誤關(guān)鍵字時(shí),仍能返回滿(mǎn)足用戶(hù)要求的POI結(jié)果的容錯(cuò)搜索方法。本發(fā)明一種POI的容錯(cuò)搜索方法,是在習(xí)有的漢字分詞索引的基礎(chǔ)上建立全拼索引,只有在輸入的漢字關(guān)鍵字通過(guò)漢字分詞索引出現(xiàn)無(wú)搜索結(jié)果的時(shí)侯,進(jìn)一步將關(guān)鍵字轉(zhuǎn)換成對(duì)應(yīng)的全拼組合,利用全拼索引搜索算法查找出與所述關(guān)鍵字拼音相同或相似的POI結(jié)果。所述的建立全拼索引,就是根據(jù)GBK字庫(kù)統(tǒng)計(jì)出漢字標(biāo)準(zhǔn)發(fā)音的種類(lèi),并將該標(biāo)準(zhǔn)發(fā)音按照字典排序方式排序,形成全拼索引項(xiàng)表;然后查看POI信息中各個(gè)漢字的發(fā)音,如果漢字的發(fā)音與全拼索引項(xiàng)表中某個(gè)發(fā)音相同,就將此POI信息的編號(hào)插入到全拼索引項(xiàng)表對(duì)應(yīng)發(fā)音的表中,依次建立POI全拼索引。所述的全拼索引搜索算法,就是分別將全拼組合中每個(gè)字的拼音與全拼索引項(xiàng)表進(jìn)行匹配,獲得包含POI信息的索引號(hào),再取交集得到包含POI結(jié)果的索引號(hào),并計(jì)算POI結(jié)果的權(quán)值,將這個(gè)權(quán)值作為排序的依據(jù)。所述的POI結(jié)果的權(quán)值的計(jì)算方法如下如果檢索出來(lái)的POI結(jié)果名字的全拼和關(guān)鍵字的全拼完全匹配,則此POI結(jié)果的權(quán)值為1 ;如果檢索出來(lái)的POI結(jié)果名字的全拼和關(guān)鍵字的全拼前綴匹配,則此POI結(jié)果的權(quán)值為2 ;如果關(guān)鍵字的全拼在POI結(jié)果名字的全拼中的中間或者后綴,則此POI結(jié)果的權(quán)值為3;如果關(guān)鍵字的全拼在POI結(jié)果名字的全拼中都有,并且是按照順序排序的,這樣的POI結(jié)果的權(quán)值就是4;如果關(guān)鍵字的全拼在POI結(jié)果名字的全拼中都有,但先后順序不同,這樣的POI結(jié)果的權(quán)值為5 ;最后,按照POI結(jié)果的權(quán)值從1至5進(jìn)行排序。本發(fā)明一種POI容錯(cuò)搜索方法,是在習(xí)有的漢字分詞索引的基礎(chǔ)上建立全拼索引,只有在用戶(hù)輸入的漢字關(guān)鍵字通過(guò)漢字分詞索引出現(xiàn)無(wú)搜索結(jié)果的時(shí)候,進(jìn)一步將該關(guān)鍵字轉(zhuǎn)換成對(duì)應(yīng)的全拼組合,利用全拼索引查找出與所述關(guān)鍵字拼音相同或相似的POI結(jié)果;本發(fā)明彌補(bǔ)了傳統(tǒng)搜索算法的不足,能夠在用戶(hù)錯(cuò)誤輸入搜索關(guān)鍵字的同音字的情況下,仍然可以返回滿(mǎn)足用戶(hù)要求的結(jié)果,提高了 POI搜索的容錯(cuò)能力。


圖1為本發(fā)明中倒排文件索引結(jié)構(gòu);圖2為本發(fā)明的流程示意圖。以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳述。
具體實(shí)施例方式POI搜索是建立在索引文件的基礎(chǔ)上實(shí)施的。POI搜索面對(duì)大量用戶(hù)的檢索請(qǐng)求,盡可能地將大運(yùn)算量的工作在索引建立時(shí)完成,檢索時(shí)運(yùn)算盡可能的少,對(duì)POI索引文件結(jié)構(gòu)采用倒排索引技術(shù),如圖1所示。倒排文件是大型信息檢索中使用最廣泛的文件索引方式,“倒排”表示依據(jù)檢索屬性來(lái)列舉相關(guān)文件,對(duì)POI搜索系統(tǒng)來(lái)說(shuō),倒排文件就是描述一個(gè)索引項(xiàng)集合元素和一個(gè)POI集合元素對(duì)應(yīng)關(guān)系的數(shù)據(jù)結(jié)構(gòu)。創(chuàng)建倒排索引包括建立正向索引和反向索引。分析完P(guān)OI源數(shù)據(jù)后,得到以POI源數(shù)據(jù)為主鍵的正向索引表,如圖1(a)所示。當(dāng)反向索引建立后,得到圖1(b)。這是一個(gè)表重組的過(guò)程,最終得到以索引詞為主鍵的最終的倒排文件索引,即反向索引。
一般的POI搜索都支持關(guān)鍵字的搜索,都建立了關(guān)鍵字的分詞索引,用戶(hù)輸入關(guān)鍵字,搜索服務(wù)器在索引文件中查找相應(yīng)的結(jié)果。在輸入錯(cuò)誤的情況下,不能找到用戶(hù)想知道的POI信息。例如,廈門(mén)的地名“揚(yáng)厝”,不熟悉的用戶(hù)可能錯(cuò)誤地輸入成“羊厝”或“楊厝”,由于沒(méi)有這樣的POI信息,所以就找不到搜索結(jié)果。本發(fā)明一種POI的容錯(cuò)搜索方法,主要是在習(xí)有的漢字分詞索引的基礎(chǔ)上建立全拼索引,只有在輸入的漢字關(guān)鍵字通過(guò)漢字分詞索引出現(xiàn)無(wú)搜索結(jié)果的時(shí)侯,進(jìn)一步將關(guān)鍵字轉(zhuǎn)換成對(duì)應(yīng)的全拼組合,利用全拼索引搜索算法查找出與所述關(guān)鍵字拼音相同或相似的POI結(jié)果。按照信息檢索的方法,具體實(shí)施過(guò)程分為數(shù)據(jù)的組織和用戶(hù)檢索的過(guò)程.具體包括以下幾個(gè)步驟(1)建立全拼索引由于POI搜索是基于文件搜索方式實(shí)現(xiàn)的,本發(fā)明建立全拼索引,就是將所有的POI信息,按發(fā)音相同或者相似的要求組織成為一個(gè)索引文件存放。目前,電腦上用到的漢字字庫(kù)一般都支持GBK字庫(kù),該GBK包含了 20902個(gè)漢,涵蓋了大陸GBK2312簡(jiǎn)體字和臺(tái)灣BIG5繁體字。根據(jù)GBK字庫(kù)漢字發(fā)音的統(tǒng)計(jì),目前漢字的發(fā)音為414種(去除音調(diào)的不同),在建立全拼索引時(shí),先將這414種標(biāo)準(zhǔn)發(fā)音按照字典排序方式排序,形成全拼索引項(xiàng)表;然后查看POI各個(gè)漢字的發(fā)音,如果漢字的發(fā)音與全拼索引項(xiàng)表中某個(gè)發(fā)音相同,就將此POI的編號(hào)插入到此項(xiàng)的表中,按照此方法完成POI全拼索引。在建立全拼索引文件的時(shí)候,也要注意發(fā)音相似的情況,特別是如下的發(fā)音力口 h卷舌音如z,c,s與zh, ch, sh的區(qū)別;漢字拼音后面有無(wú)g的情況如shan和shang ;漢字拼音中η和1的區(qū)別.如nian和lian。以下結(jié)合具體例子來(lái)說(shuō)明全拼索引的建立方法。例如Ρ0Ι原始數(shù)據(jù)如下(只取名字和全拼字段,其他信息略)POI 信息肯德基(ken de ji)在建立全拼索引的時(shí)候,已經(jīng)知道414個(gè)標(biāo)準(zhǔn)拼音的順序,如POI信息“肯德基”有三個(gè)發(fā)音ken、de、ji, ken在全拼索引項(xiàng)表中為巧4位,de在全拼索引項(xiàng)表中為64位,ji在全拼索引項(xiàng)表中為133位,所以POI信息“肯德基”的索引號(hào)就分別加入到全拼索引項(xiàng)表的這三個(gè)位置上,其他的POI在建立索引的時(shí)候用相同的方法來(lái)組織數(shù)據(jù)。(2)全拼索引搜索算法的實(shí)現(xiàn)如圖2所示,當(dāng)用戶(hù)輸入漢字關(guān)鍵字,通過(guò)漢字分詞索引進(jìn)行搜索,若無(wú)搜索結(jié)果,則將該關(guān)鍵字轉(zhuǎn)換成全拼組合,分別將全拼組合中每個(gè)字的拼音與全拼索引項(xiàng)表進(jìn)行匹配,獲得包含POI信息的索引號(hào),再取交集得到包含POI結(jié)果的索引號(hào)。當(dāng)含有多音字的時(shí)候,需要轉(zhuǎn)換成若干組的全拼組合,并將該多音字的多個(gè)全拼組合分別進(jìn)行搜索,這樣可以提高返回POI信息的準(zhǔn)確度。如用戶(hù)輸入關(guān)鍵字“肯德雞”,首先直接按照這個(gè)關(guān)鍵字通過(guò)漢字分詞索引進(jìn)行搜索,將得不到結(jié)果;本發(fā)明進(jìn)一步將“肯德雞”轉(zhuǎn)換成它的全拼組合“!^”,“如”,“^,按照全拼索引,分別找到第154位的“ken”,64位的“de”和133位的“ji”,分別取出它們包含的POI結(jié)果信息的索引號(hào),再取交集,這樣就可以找到POI結(jié)果的索引號(hào),以及此索引號(hào)對(duì)應(yīng)的POI信息“肯德基”,并且此POI結(jié)果的權(quán)值為1。(3)搜索結(jié)果排序搜索結(jié)果排序是搜索算法很重要的組成部分,是將最后滿(mǎn)足檢索要求的搜索結(jié)果呈現(xiàn)給用戶(hù),好的排序能夠給用戶(hù)帶來(lái)較好的體驗(yàn)。搜索結(jié)果排序的時(shí)候,先計(jì)算滿(mǎn)足要求POI結(jié)果的權(quán)值,將這個(gè)權(quán)值作為排序的依據(jù)。所述的POI結(jié)果的權(quán)值的計(jì)算方法如下如果檢索出來(lái)的POI結(jié)果名字的全拼和關(guān)鍵字的全拼完全匹配,則此POI結(jié)果的權(quán)值為1 ;如果檢索出來(lái)的POI結(jié)果名字的全拼和關(guān)鍵字的全拼前綴匹配,則此POI結(jié)果的權(quán)值為2 ;如果關(guān)鍵字的全拼在POI結(jié)果名字的全拼中的中間或者后綴,則此POI結(jié)果的權(quán)值為3;如果關(guān)鍵字的全拼在POI結(jié)果名字的全拼中都有,并且是按照順序排序的,這樣的POI結(jié)果的權(quán)值就是4;如果關(guān)鍵字的全拼在POI結(jié)果名字的全拼中都有,但先后順序不同,這樣的POI結(jié)果的權(quán)值為5 ;最后,按照POI結(jié)果的權(quán)值從1至5進(jìn)行排序。例如格式為 < 搜索關(guān)鍵字>VS<P0I結(jié)果名字><肯德雞>VS<肯德基 >,此POI結(jié)果的權(quán)值為1 ;<肯德雞>VS<肯德基遠(yuǎn)大路店 >,此POI結(jié)果的權(quán)值為2 ;<肯德雞>VS<北京肯德基遠(yuǎn)大路店 >,此POI結(jié)果的權(quán)值為3 ;<亞訊>VS<亞馬迅巴西燒烤 >,此POI結(jié)果的權(quán)值為4 ;<海滄建行>VS<中國(guó)建設(shè)銀行海滄支行 >,此POI結(jié)果的權(quán)值為5。本發(fā)明的發(fā)明重點(diǎn)在于在習(xí)有的漢字分詞索引的基礎(chǔ)上建立全拼索引,只有在用戶(hù)輸入的漢字關(guān)鍵字通過(guò)漢字分詞索引出現(xiàn)無(wú)搜索結(jié)果的時(shí)候,進(jìn)一步將該關(guān)鍵字轉(zhuǎn)換成對(duì)應(yīng)的全拼組合,利用全拼索引搜索算法查找出與所述關(guān)鍵字拼音相同或相似的POI結(jié)果;本發(fā)明彌補(bǔ)了傳統(tǒng)搜索算法的不足,能夠在用戶(hù)錯(cuò)誤輸入搜索關(guān)鍵字的同音字的情況下,返回滿(mǎn)足用戶(hù)要求的結(jié)果,提高了 POI搜索的容錯(cuò)能力。
權(quán)利要求
1.一種POI的容錯(cuò)搜索方法,其特征在于在習(xí)有的漢字分詞索引的基礎(chǔ)上建立全拼索引,只有在輸入的漢字關(guān)鍵字通過(guò)漢字分詞索引出現(xiàn)無(wú)搜索結(jié)果的時(shí)侯,進(jìn)一步將關(guān)鍵字轉(zhuǎn)換成對(duì)應(yīng)的全拼組合,利用全拼索引搜索算法查找出與所述關(guān)鍵字拼音相同或相似的POI結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種POI的容錯(cuò)搜索方法,其特征在于所述的建立全拼索引,就是根據(jù)GBK字庫(kù)統(tǒng)計(jì)出漢字標(biāo)準(zhǔn)發(fā)音的種類(lèi),并將該標(biāo)準(zhǔn)發(fā)音按照字典排序方式排序,形成全拼索引項(xiàng)表;然后查看POI信息中各個(gè)漢字的發(fā)音,如果漢字的發(fā)音與全拼索引項(xiàng)表中某個(gè)發(fā)音相同,就將此POI信息的編號(hào)插入到全拼索引項(xiàng)表對(duì)應(yīng)發(fā)音的表中,依次建立POI全拼索引。
3.根據(jù)權(quán)利要求1所述的一種POI的容錯(cuò)搜索方法,其特征在于所述的全拼索引搜索算法,就是分別將全拼組合中每個(gè)字的拼音與全拼索引項(xiàng)表進(jìn)行匹配,獲得包含POI信息的索引號(hào),再取交集得到包含POI結(jié)果的索引號(hào),并計(jì)算POI結(jié)果的權(quán)值,將這個(gè)權(quán)值作為排序的依據(jù)。
4.根據(jù)權(quán)利要求3所述的一種POI的容錯(cuò)搜索方法,其特征在于所述的POI結(jié)果的權(quán)值的計(jì)算方法如下如果檢索出來(lái)的POI結(jié)果名字的全拼和關(guān)鍵字的全拼完全匹配,則此POI結(jié)果的權(quán)值為1 ;如果檢索出來(lái)的POI結(jié)果名字的全拼和關(guān)鍵字的全拼前綴匹配,則此POI結(jié)果的權(quán)值為2;如果關(guān)鍵字的全拼在POI結(jié)果名字的全拼中的中間或者后綴,則此POI結(jié)果的權(quán)值為·3 ;如果關(guān)鍵字的全拼在POI結(jié)果名字的全拼中都有,并且是按照順序排序的,這樣的POI結(jié)果的權(quán)值就是4;如果關(guān)鍵字的全拼在POI結(jié)果名字的全拼中都有,但先后順序不同,這樣的POI結(jié)果的權(quán)值為5 ;最后,按照POI結(jié)果的權(quán)值從1至5進(jìn)行排序。
全文摘要
本發(fā)明一種POI容錯(cuò)搜索的方法,是在習(xí)有的漢字分詞索引的基礎(chǔ)上建立全拼索引,只有在用戶(hù)輸入的漢字關(guān)鍵字通過(guò)漢字分詞索引出現(xiàn)無(wú)搜索結(jié)果的時(shí)候,進(jìn)一步將該關(guān)鍵字轉(zhuǎn)換成對(duì)應(yīng)的全拼組合,利用全拼索引搜索算法查找出與所述關(guān)鍵字拼音相同或相似的POI結(jié)果;本發(fā)明彌補(bǔ)了傳統(tǒng)搜索算法的不足,能夠在用戶(hù)錯(cuò)誤輸入搜索關(guān)鍵字的同音字的情況下,返回滿(mǎn)足用戶(hù)要求的結(jié)果,提高了POI搜索的容錯(cuò)能力。
文檔編號(hào)G06F17/30GK102385597SQ20101027295
公開(kāi)日2012年3月21日 申請(qǐng)日期2010年8月31日 優(yōu)先權(quán)日2010年8月31日
發(fā)明者季剛, 時(shí)宜, 程行榮, 胡濤 申請(qǐng)人:廈門(mén)雅迅網(wǎng)絡(luò)股份有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1