專利名稱:一種電子地圖數(shù)據(jù)的排序方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種電子地圖數(shù)據(jù)的排序方法及裝置。
背景技術(shù):
隨著地理信息系統(tǒng)的發(fā)展與完善,電子地圖的設(shè)計(jì)開發(fā)技術(shù)也日趨成熟。
電子地圖中,有一類數(shù)據(jù)稱為興趣點(diǎn)數(shù)據(jù)(即Point of Interest, POI數(shù)據(jù)),是 指人們感興趣的數(shù)據(jù),如餐館、公園、商場(chǎng)等建筑物的地理信息,或是一些街 道的信息等等。通常,POI數(shù)據(jù)包括名稱、類別、經(jīng)度、綿度四個(gè)方面的信息, 有時(shí)也包括其他一些信息,如地址,電話、郵編等等。POI數(shù)據(jù)是電子地圖最 重要的元素之一,也是人們使用電子地圖時(shí)最為關(guān)注的信息。
一個(gè)電子地圖通常包含4艮多的POI數(shù)據(jù),這些POI數(shù)據(jù)涵蓋了該地圖范 圍內(nèi)的絕大部分地理信息。但是,該電子地圖中地理信息的重要程度有所不同, 如"天安門廣場(chǎng)"比"中關(guān)村廣場(chǎng)"重要,"北京大學(xué),,比"北京大學(xué)附屬中 學(xué)"重要,這種地理信息重要性的不同導(dǎo)致POI數(shù)據(jù)的重要性存在差異。
POI排序是指根據(jù)POI數(shù)據(jù)重要性的不同對(duì)POI數(shù)據(jù)進(jìn)行的排序,POI 數(shù)據(jù)的重要性體現(xiàn)在其所指代地理信息的重要性。POI排序可應(yīng)用在搜索引擎 的排序中,即根據(jù)POI數(shù)據(jù)的重要性對(duì)電子地圖的查詢結(jié)果進(jìn)行排序展示。
目前,還沒有比較成熟的POI排序方法。傳統(tǒng)上,電子地圖的開發(fā)商會(huì)請(qǐng) 一些編輯或者普通民眾,根據(jù)人們對(duì)POI數(shù)據(jù)的熟悉程度來對(duì)POI數(shù)據(jù)進(jìn)行 排序,這種根據(jù)熟悉程度進(jìn)行排序的核心思想是如果一個(gè)POI數(shù)據(jù)所指代的 地理位置非常重要,則它一定為人們所熟悉。這一思想具有一定的合理性,由 于電子地圖乃至實(shí)際的地理信息的使用者是普通民眾,因此被普通民眾熟悉的 地理信息應(yīng)該具有較高的重要性。
<旦是,這種方法存在如下問題
第一,雖然可以用熟悉程度來刻畫POI數(shù)據(jù)的重要程度,但是如何計(jì)算熟 悉程度是一個(gè)非常困難的問題。因此,上述人工排序的方法由于只有極小一部
分人參與,無法代表廣大用戶,所以排序效果沒有保障,排序效果差;而且, 由于人數(shù)較少,所以錯(cuò)誤率也比較高。
第二,由于POI數(shù)據(jù)量極大,而且更新很快,所以采用人工進(jìn)行排序非常 耗費(fèi)人力,而且成本非常昂貴。
因此,這種人工排序方法無法得到實(shí)際使用。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種電子地圖數(shù)據(jù)的排序方法及裝置, 以解決傳統(tǒng)的人工排序方法造成排序效果差、耗費(fèi)人力、成本太高的問題。
為解決上述技術(shù)問題,根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下 技術(shù)方案
一種電子地圖數(shù)據(jù)的排序方法,包括
提取出每個(gè)電子地圖數(shù)據(jù)的關(guān)鍵詞;
利用所述關(guān)鍵詞進(jìn)行搜索,獲取對(duì)應(yīng)每個(gè)電子地圖數(shù)據(jù)的搜索結(jié)果網(wǎng)頁集
合;
根據(jù)每個(gè)電子地圖數(shù)據(jù)的相應(yīng)搜索結(jié)果網(wǎng)頁集合,計(jì)算該電子地圖數(shù)據(jù)的
重要度;
按照所述重要度對(duì)所述電子地圖數(shù)據(jù)進(jìn)行排序。
其中,所述根據(jù)每個(gè)電子地圖數(shù)據(jù)的相應(yīng)搜索結(jié)果網(wǎng)頁集合,計(jì)算該電子
地圖數(shù)據(jù)的重要度,具體包括針對(duì)集合中每個(gè)搜索結(jié)果網(wǎng)頁,分別計(jì)算用于 表示網(wǎng)頁重要程度的第 一數(shù)值和用于表示網(wǎng)頁與關(guān)鍵詞匹配程度的第二數(shù)值; 根據(jù)相應(yīng)集合中所有搜索結(jié)果網(wǎng)頁的第 一數(shù)值和第二數(shù)值,計(jì)算該電子地圖數(shù) 據(jù)的重要度。
其中,所述根據(jù)相應(yīng)集合中所有搜索結(jié)果網(wǎng)頁的第一數(shù)值和第二數(shù)值,計(jì) 算該電子地圖數(shù)據(jù)的重要度,具體包括將集合中每個(gè)搜索結(jié)果網(wǎng)頁的第一數(shù) 值和第二數(shù)值相乘,然后再將集合中所有搜索結(jié)果網(wǎng)頁的相乘結(jié)果求和,得到 該電子地圖數(shù)據(jù)的重要度。
優(yōu)選的,所述第一數(shù)值通過計(jì)算網(wǎng)頁級(jí)別得到。
優(yōu)選的,所述計(jì)算該電子地圖數(shù)據(jù)的重要度之后,還包括根據(jù)電子地圖 數(shù)據(jù)所屬類別所具有的不同權(quán)重,將該電子地圖數(shù)據(jù)的重要度乘以該電子地圖
數(shù)據(jù)所屬類別的權(quán)重值,得到調(diào)整后的結(jié)果數(shù)據(jù),用于排序。
其中,所述提取出每個(gè)電子地圖數(shù)據(jù)的關(guān)鍵詞,具體包括提取出每個(gè)電 子地圖數(shù)據(jù)的名稱作為關(guān)4定詞。
優(yōu)選的,還包括^是取出每個(gè)電子地圖數(shù)據(jù)的地址信息,與名稱一同作為
關(guān)鍵詞。
優(yōu)選的,所述提取出每個(gè)電子地圖數(shù)據(jù)的關(guān)鍵詞之前,還包括對(duì)原始的 電子地圖數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括去除無關(guān)符號(hào)、字符編碼轉(zhuǎn)換、調(diào) 整統(tǒng)一格式;將預(yù)處理結(jié)果用于關(guān)鍵詞的提??;
優(yōu)選的,按照所述重要度對(duì)所述電子地圖數(shù)據(jù)進(jìn)行排序之后,還包括在 電子地圖檢索中,根據(jù)用戶輸入的查詢?cè)~返回相匹配的檢索結(jié)果,將檢索結(jié)果 中排序靠前的電子地圖凝:據(jù)優(yōu)先顯示。
優(yōu)選的,按照所述重要度對(duì)所述電子地圖^t據(jù)進(jìn)行排序之后,還包括在 圖層顯示時(shí),選取顯示范圍內(nèi)排序靠前的電子地圖數(shù)據(jù)進(jìn)行顯示。
優(yōu)選的,按照所述重要度對(duì)所述電子地圖數(shù)據(jù)進(jìn)行排序之后,還包括對(duì) 排序靠前的電子地圖數(shù)據(jù)進(jìn)行優(yōu)先更新。
本發(fā)明還提供了一種電子地圖數(shù)據(jù)的排序裝置,包括
關(guān)4定詞4^取單元,用于提取出每個(gè)電子地圖數(shù)據(jù)的關(guān)鍵詞;
查詢單元,用于利用所述關(guān)鍵詞進(jìn)行搜索,獲取對(duì)應(yīng)每個(gè)電子地圖數(shù)據(jù)的 搜索結(jié)果網(wǎng)頁集合;
計(jì)算單元,用于根據(jù)每個(gè)電子地圖數(shù)據(jù)的相應(yīng)搜索結(jié)果網(wǎng)頁集合,計(jì)算該 電子地圖數(shù)據(jù)的重要度;
排序單元,用于按照所述重要度對(duì)所述電子地圖數(shù)據(jù)進(jìn)行排序。
其中,所述計(jì)算單元具體包括第一計(jì)算子單元,用于針對(duì)集合中每個(gè)搜 索結(jié)果網(wǎng)頁,分別計(jì)算用于表示網(wǎng)頁重要程度的第一數(shù)值;第二計(jì)算子單元, 用于針對(duì)集合中每個(gè)搜索結(jié)果網(wǎng)頁,分別計(jì)算用于表示網(wǎng)頁與關(guān)鍵詞匹配程度 的第二數(shù)值;綜合計(jì)算子單元,用于根據(jù)每個(gè)電子地圖數(shù)據(jù)相應(yīng)集合中的所有 搜索結(jié)果網(wǎng)頁的第 一數(shù)值和第二數(shù)值,計(jì)算該電子地圖數(shù)據(jù)的重要度。
其中,所述綜合計(jì)算子單元將集合中每個(gè)搜索結(jié)果網(wǎng)頁的第 一數(shù)值和第二 數(shù)值相乘,然后再將集合中所有搜索結(jié)果網(wǎng)頁的相乘結(jié)果求和,得到該電子地圖數(shù)據(jù)的重要度。
優(yōu)選的,所述第 一計(jì)算子單元通過計(jì)算網(wǎng)頁級(jí)別得到第 一數(shù)值。
優(yōu)選的,所述裝置還包括調(diào)整單元,用于根據(jù)電子地圖數(shù)據(jù)所屬類別所
具有的不同權(quán)重,將該電子地圖數(shù)據(jù)的重要度乘以該電子地圖數(shù)據(jù)所屬類別的
權(quán)重值,得到調(diào)整后的結(jié)果lt據(jù),并輸出到排序單元用于排序。
其中,所述關(guān)鍵詞提取單元將提取出的電子地圖數(shù)據(jù)的名稱作為關(guān)鍵詞。 優(yōu)選的,所述關(guān)鍵詞提取單元還將提取出的電子地圖數(shù)據(jù)的地址信息,與
名稱一同作為關(guān)鍵詞。
優(yōu)選的,所述裝置還包括預(yù)處理單元,用于對(duì)原始的電子地圖數(shù)據(jù)進(jìn)行 預(yù)處理,并將預(yù)處理結(jié)果輸出到關(guān)鍵詞提取單元;其中,所述預(yù)處理包括去除 無關(guān)符號(hào)、字符編碼轉(zhuǎn)換、調(diào)整統(tǒng)一格式。
優(yōu)選的,所述裝置還包括檢索單元,用于在電子地圖檢索中,根據(jù)用戶 輸入的查詢?cè)~返回相匹配的檢索結(jié)果,將檢索結(jié)果中排序靠前的電子地圖數(shù)據(jù) 優(yōu)先顯示。
優(yōu)選的,所述裝置還包括圖層顯示單元,用于在圖層顯示時(shí),選取顯示 范圍內(nèi)排序靠前的電子地圖數(shù)據(jù)進(jìn)行顯示。
優(yōu)選的,所述裝置還包括數(shù)據(jù)更新單元,用于對(duì)排序靠前的電子地圖數(shù) 據(jù)進(jìn)行優(yōu)先更新。
本發(fā)明還提供了一種搜索引擎系統(tǒng),所述系統(tǒng)包括上述任一裝置實(shí)施例所 述的裝置。
根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明具有以下技術(shù)效果 首先,本發(fā)明利用互聯(lián)網(wǎng)技術(shù)對(duì)POI數(shù)據(jù)進(jìn)行排序,使用互聯(lián)網(wǎng)的網(wǎng)絡(luò)知 名度來刻畫POI數(shù)據(jù)的重要程度,而網(wǎng)絡(luò)知名度是根據(jù)關(guān)鍵詞(是從POI數(shù) 據(jù)中提取出)在搜索引擎中返回的結(jié)果網(wǎng)頁進(jìn)行計(jì)算得到。由于這種刻畫代表 了廣大網(wǎng)民乃至廣大群眾的認(rèn)識(shí),因此利用網(wǎng)絡(luò)知名度來對(duì)POI數(shù)據(jù)進(jìn)行排 序,排序的效果比較好,具有很好的群眾基礎(chǔ)和合理性。而且,使用機(jī)器自動(dòng) 對(duì)POI數(shù)據(jù)進(jìn)行打分和排序,極大地節(jié)省了人力,效率更高,成本非常低廉。 其次,在利用網(wǎng)絡(luò)知名度刻畫POI數(shù)據(jù)的重要程度時(shí),本發(fā)明主要使用了
網(wǎng)頁的重要程度、網(wǎng)頁與關(guān)鍵詞的匹配程度這兩個(gè)指標(biāo),而且每個(gè)指標(biāo)也有不 同的計(jì)算方法。
再次,本發(fā)明還充分考慮了 POI數(shù)據(jù)的類別對(duì)POI重要程度的影響,利 用POI數(shù)據(jù)的類別信息來對(duì)基本的網(wǎng)絡(luò)知名度得分進(jìn)行調(diào)整從而得到POI的
最終得分,從而更加準(zhǔn)確地刻畫了 POI數(shù)據(jù)的重要程度。
圖1是本發(fā)明實(shí)施例一所述一種電子地圖數(shù)據(jù)的排序方法流程圖; 圖2是本發(fā)明實(shí)施例二所述一種POI數(shù)據(jù)的排序方法流程示意圖; 圖3是本發(fā)明實(shí)施例所述一種電子地圖數(shù)據(jù)的排序裝置結(jié)構(gòu)圖。
具體實(shí)施例方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。 實(shí)施例一
針對(duì)傳統(tǒng)的POI人工排序方法,本發(fā)明實(shí)施例提供了 一種利用互聯(lián)網(wǎng)技術(shù) 進(jìn)行的排序方法。參照?qǐng)D1,是本發(fā)明實(shí)施例一所述一種電子地圖數(shù)據(jù)的排序 方法流程圖。本實(shí)施例中,所述電子地圖數(shù)據(jù)以POI數(shù)據(jù)為例進(jìn)行說明,但所 述電子地圖數(shù)據(jù)包括但不限于POI數(shù)據(jù)。
S101,提取出每個(gè)POI數(shù)據(jù)的關(guān)鍵詞;
本實(shí)施例需要從每個(gè)POI數(shù)據(jù)中提取出 一個(gè)關(guān)鍵詞,用來在互聯(lián)網(wǎng)的搜索 引擎中進(jìn)行查詢。由于每個(gè)POI數(shù)據(jù)具有一些屬性,包括名稱、類別、坐標(biāo)或 其它屬性信息,因此提取時(shí)可以從這些屬性信息中提取出最能代表這個(gè)POI 數(shù)據(jù)的詞作為關(guān)鍵詞。本實(shí)施例中,關(guān)鍵詞的基本部分是POI的名稱,因?yàn)槊?稱是POI數(shù)據(jù)最重要的部分。
優(yōu)選的,在提取POI數(shù)據(jù)的名稱時(shí),需要對(duì)名稱進(jìn)行一些處理,如去除名 稱中的分店、分公司等信息。因?yàn)槿绮惋?、公司這樣的名稱,里面經(jīng)常存在分 店、分公司的情況,而POI排序的目的是為了把總店、總公司排在靠前的位置, 所以這時(shí)就可以把這種分店、分公司的字符去除。如"xx公司五道口分店,,, 就可以4巴"五道口分店"去除,只剩"xx^^司"。
優(yōu)選的,也可以加入其它一些信息作為名稱的補(bǔ)充,如地址、區(qū)縣等。因 為有些名稱太短,不具有實(shí)際意義,如公廁、停車場(chǎng)等詞,這時(shí)候就可以把 POI的地址加入進(jìn)來,和名稱一起作為關(guān)^t詞,這樣處理的效果更好。
S102,利用所述關(guān)鍵詞進(jìn)行搜索,獲取對(duì)應(yīng)每個(gè)POI數(shù)據(jù)的搜索結(jié)果網(wǎng) 頁集合;
上述提取出的關(guān)鍵詞,在搜索引擎中進(jìn)行查詢并取得返回的結(jié)果集合。 S103,根據(jù)每個(gè)POI數(shù)據(jù)的相應(yīng)搜索結(jié)果網(wǎng)頁集合,計(jì)算該P(yáng)OI數(shù)據(jù)的 重要度;
本發(fā)明是利用互聯(lián)網(wǎng)的網(wǎng)絡(luò)知名度來刻畫POI數(shù)據(jù)的重要程度,而POI 的網(wǎng)絡(luò)知名度是根據(jù)對(duì)應(yīng)該P(yáng)OI的搜索結(jié)果網(wǎng)頁集合計(jì)算。其中,所述網(wǎng)絡(luò)知 名度是指一個(gè)名稱在網(wǎng)絡(luò)中的知名程度。
針對(duì)每個(gè)POI數(shù)據(jù),利用提取出的關(guān)鍵詞進(jìn)行查詢能夠得到多個(gè)搜索結(jié)果 網(wǎng)頁(即網(wǎng)頁集合),而每一個(gè)網(wǎng)頁具有兩個(gè)指標(biāo) 一個(gè)是網(wǎng)頁的重要程度, 另 一個(gè)是網(wǎng)頁與關(guān)鍵詞的匹配程度。本實(shí)施例主要利用所述兩個(gè)指標(biāo)來衡量 POI數(shù)據(jù)的網(wǎng)絡(luò)知名度。
由于每種指標(biāo)都有不同的計(jì)算方法,本實(shí)施例只采用其中 一種比較常用的 方法。對(duì)于網(wǎng)頁的重要程度,釆用計(jì)算網(wǎng)頁級(jí)別(PageRank)的方法。網(wǎng)頁的 PageRank是度量網(wǎng)頁重要程度的一種指標(biāo),是根據(jù)網(wǎng)頁之間的超鏈接來進(jìn)行 計(jì)算,源自于Google創(chuàng)始人<^是出的PageRank算法。當(dāng)然,也可以用網(wǎng)頁的流 量來表示網(wǎng)頁的重要程度。對(duì)于網(wǎng)頁與關(guān)鍵詞的匹配程度(MatchRank),通 常采用的計(jì)算方法是如果關(guān)4走詞在網(wǎng)頁中完整出現(xiàn),則匹配程度較高,如果 關(guān)鍵詞被切分后出現(xiàn),則匹配程度較低。本發(fā)明包含但不限于以上計(jì)算方法。
得到每個(gè)網(wǎng)頁的PageRank和MatchRank后,將每個(gè)網(wǎng)頁的PageRank和 MatchRank相乘,然后再將對(duì)應(yīng)同一個(gè)POI數(shù)據(jù)的所有網(wǎng)頁的相乘結(jié)果相加, 即得到一個(gè)POI凄t據(jù)的計(jì)算結(jié)果。本實(shí)施例中,采用對(duì)POI凝:據(jù)打分的方式, 所以所述計(jì)算結(jié)果得到的是一個(gè)對(duì)該P(yáng)OI數(shù)據(jù)的網(wǎng)絡(luò)知名度進(jìn)行刻畫的分值。
需要說明的是,上述根據(jù)網(wǎng)頁的PageRank和MatchRank采用相乘再相加 的計(jì)算來獲得一個(gè)POI分值的方法,僅作為本實(shí)施例的一種實(shí)現(xiàn)方式,本發(fā)明 包括但不限于所述方法。
S104,按照所述重要度對(duì)所述POI數(shù)據(jù)進(jìn)行排序。
得到每個(gè)POI數(shù)據(jù)的得分后,利用所述得分即可以對(duì)所有的POI數(shù)據(jù)進(jìn) 行排序。
由上述處理流程可知,本發(fā)明使用互聯(lián)網(wǎng)的網(wǎng)絡(luò)知名度來刻畫POI數(shù)據(jù)的 重要程度,由于這種刻畫代表了廣大網(wǎng)民乃至廣大群眾的認(rèn)識(shí),因此利用網(wǎng)絡(luò) 知名度來對(duì)POI數(shù)據(jù)進(jìn)行排序,排序的效果比較好,具有很好的群眾基礎(chǔ)和合 理性。而且,使用機(jī)器自動(dòng)對(duì)POI數(shù)據(jù)進(jìn)行打分和排序,極大地節(jié)省了人力,
效率更高,成本非常低廉。
實(shí)施例二
本發(fā)明實(shí)施例二提供了 一種具體應(yīng)用實(shí)例。
參照?qǐng)D2,是本發(fā)明實(shí)施例二所述一種POI數(shù)據(jù)的排序方法流程示意圖。 S201,對(duì)原始的POIIt據(jù)進(jìn)行預(yù)處理;
對(duì)原始POI數(shù)據(jù)進(jìn)行清洗過濾,主要功能是使數(shù)據(jù)符合一定的輸入標(biāo)準(zhǔn)。 所述預(yù)處理主要包括去除無關(guān)符號(hào)、字符編碼轉(zhuǎn)換、調(diào)整統(tǒng)一格式三個(gè)部分。 其中,
1) 去除無關(guān)符號(hào)由于數(shù)據(jù)的來源或者其他問題,數(shù)據(jù)中可能存在一些 無關(guān)符號(hào),這些符號(hào)沒有實(shí)際意義,如!、 #等符號(hào),還有亂碼等,需要將這些 無關(guān)符號(hào)去除,起到一個(gè)清洗過濾作用;
2) 字符編碼轉(zhuǎn)換使字符的編碼一致,可以有利于后面打分的公平。如 半角轉(zhuǎn)全角,繁體轉(zhuǎn)筒體等;
3) 調(diào)整格式數(shù)據(jù)的輸入格式應(yīng)該統(tǒng)一,這樣利于編程。
S202,針對(duì)預(yù)處理后的POI數(shù)據(jù),拔j又出每個(gè)POI數(shù)據(jù)的關(guān)鍵詞; 提取過程中,可以根據(jù)地名庫和別名庫識(shí)別出名稱中包含的分店、分公司
等信息,然后去除這些信息。例如"xx公司五道口分店",如果"五道口"是
地名庫中的一個(gè)詞,"分店"是特有詞庫中的詞,這樣就可以把"五道口分店"
去除,只剩"xx公司"。
S203,利用所述關(guān)鍵詞進(jìn)行搜索,獲取對(duì)應(yīng)每個(gè)POI數(shù)據(jù)的搜索結(jié)果網(wǎng)
頁集合;
S204,針對(duì)每個(gè)POI數(shù)據(jù),根據(jù)相對(duì)應(yīng)的搜索結(jié)果網(wǎng)頁集合計(jì)算得到用 于表示該P(yáng)OI數(shù)據(jù)重要程度的基本分值;
本實(shí)施例中,根據(jù)網(wǎng)頁的PageRank和MatchRank計(jì)算得到的分值作為POI 數(shù)據(jù)的基本分值,這個(gè)基本分值是對(duì)該P(yáng)OI數(shù)據(jù)的網(wǎng)絡(luò)知名度的刻畫。
S205 ,根據(jù)POI數(shù)據(jù)的類別信息調(diào)整所述基本分值;
由于POI數(shù)據(jù)具有很多類別,而不同類別的數(shù)據(jù)在網(wǎng)絡(luò)上具有不同的性 質(zhì)。例如,餐飲類的POI數(shù)據(jù)要比政府機(jī)關(guān)類的POI數(shù)據(jù)在網(wǎng)絡(luò)上更受到關(guān) 注,但是政府機(jī)關(guān)類的POI數(shù)據(jù)要比餐飲類的POI數(shù)據(jù)更為重要,因?yàn)樵趯?shí) 際生活中人們更關(guān)注政府機(jī)關(guān)類的POI數(shù)據(jù)。因此,為了平衡不同類別POI 數(shù)據(jù)的得分,本實(shí)施例引入了類別權(quán)重,需要根據(jù)類別的權(quán)重來調(diào)整POI的基 本得分,使得類別重要的POI得分提高,類別不重要的POI得分降低。類別 的權(quán)重可以根據(jù)經(jīng)驗(yàn)來設(shè)定,也可以使用一些訓(xùn)練數(shù)據(jù)來訓(xùn)練獲得。調(diào)整過程 是:用POI數(shù)據(jù)的基本得分乘以其所屬類別的權(quán)重大小,這樣就得到最終得分。
例如,有兩個(gè)POI數(shù)據(jù), 一個(gè)是北京大學(xué)第三醫(yī)院, 一個(gè)是郭林家常菜。 由于餐飲類的名稱在網(wǎng)頁中出現(xiàn)比較多,所以郭林家常菜的基本得分為5分, 而北京大學(xué)第三醫(yī)院的得分為4分。但是根據(jù)人們的經(jīng)驗(yàn)和習(xí)慣來說,醫(yī)院會(huì) 比餐飲類重要,所以醫(yī)院類的類別權(quán)重較大,設(shè)為1.5,而餐飲的權(quán)重較低, 設(shè)為0.8。這樣最終兩個(gè)POI的得分分別為北京大學(xué)第三醫(yī)院4 x 1.5=6,郭 林家常菜5 x 0.8=4。從而北京大學(xué)第三醫(yī)院比郭林家常菜的得分高,排序靠前, 這就符合了人們的 一般認(rèn)識(shí)。
S206,按照所述調(diào)整后的最終分值對(duì)所述POI數(shù)據(jù)進(jìn)行排序。
對(duì)比實(shí)施例一和實(shí)施例二,實(shí)施例二增加了預(yù)處理過程和基本分值的調(diào)整 過程。實(shí)施例二還充分考慮了 POI數(shù)據(jù)的類別對(duì)POI重要程度的影響,利用 POI數(shù)據(jù)的類別信息來對(duì)基本的網(wǎng)絡(luò)知名度得分進(jìn)行調(diào)整從而得到POI的最終 得分,從而更加準(zhǔn)確地刻畫了 POI數(shù)據(jù)的重要程度。
電子地圖POI數(shù)據(jù)的排序具有^f艮多實(shí)用價(jià)值,例如 1)查詢沖企索方面用戶在電子地圖查詢時(shí)輸入一個(gè)查詢?cè)~,會(huì)返回4艮多 檢索結(jié)果,這些才全索結(jié)果都與該查詢?cè)~匹配,但這些結(jié)果中往往還有重要程度
之分。如果對(duì)POI進(jìn)行排序后,就可以在匹配的同時(shí),把重要的POI顯示在 前面,不重要的放在后面,這樣更方便用戶使用。例如,查詢"全聚德",會(huì) 出現(xiàn)全聚德的很多分店和一些附屬公司或培訓(xùn)機(jī)構(gòu),它們都與這個(gè)查詢?cè)~匹 酉己,但是不能把一些附屬公司和培訓(xùn)機(jī)構(gòu)顯示在前面,因?yàn)橐话氵@些不太重要,
而應(yīng)該把重要的總店或者分店排在前面。再如查詢北京大學(xué),會(huì)出現(xiàn)北京大
學(xué)和它的附屬機(jī)構(gòu),北京大學(xué)應(yīng)該排在第一位,但它的眾多附屬機(jī)構(gòu)應(yīng)該有一 個(gè)排序的前后之分。
2) 圖層顯示方面電子地圖一般由很多圖層組成,當(dāng)用戶在查看某個(gè)圖 層時(shí),應(yīng)該將該圖層的POI顯示出來供用戶查看。但是用戶在某個(gè)圖層中關(guān)注 點(diǎn)的周圍也許有很多的POI,如果把這些POI全部顯示出來,則整個(gè)頁面會(huì)非 常雜亂且臃腫,這就不利于用戶查看。因此,需要按照重要程度來選取一部分 POI進(jìn)行顯示,這樣不但用戶可以查看到自己需要的信息,而且整個(gè)顯示效果 比較好。
3) 數(shù)據(jù)更新方面由于POI更新速度較快,而且更新量較大,如果在精 力有限的情況下可以只針對(duì)比較重要的數(shù)據(jù)先更新。
針對(duì)上述方法實(shí)施例,本發(fā)明還提供了 一種電子地圖數(shù)據(jù)的排序裝置實(shí)施 例。參照?qǐng)D3,是本發(fā)明實(shí)施例所述一種電子地圖凝:據(jù)的排序裝置結(jié)構(gòu)圖。所 述裝置主要包括
關(guān)鍵詞提取單元U32,用于提取出每個(gè)電子地圖數(shù)據(jù)的關(guān)鍵詞;
查詢單元U33,用于利用所述關(guān)鍵詞進(jìn)行搜索,獲取對(duì)應(yīng)每個(gè)電子地圖數(shù) 據(jù)的搜索結(jié)果網(wǎng)頁集合;
計(jì)算單元U34,用于根據(jù)每個(gè)電子地圖數(shù)據(jù)的相應(yīng)搜索結(jié)果網(wǎng)頁集合,計(jì) 算該電子地圖數(shù)據(jù)的重要度;
排序單元U36,用于按照所述重要度對(duì)所述電子地圖數(shù)據(jù)進(jìn)行排序。
其中,所述計(jì)算單元U34具體包括
第一計(jì)算子單元,用于針對(duì)集合中每個(gè)搜索結(jié)果網(wǎng)頁,分別計(jì)算用于表示 網(wǎng)頁重要程度的第一數(shù)值;網(wǎng)頁的重要程度可以由網(wǎng)頁級(jí)別(PageRank)來表 示,所以所述第一凝:值即指計(jì)算所得的PageRank;當(dāng)然,也可以用網(wǎng)頁的流量來表示;
第二計(jì)算子單元,用于針對(duì)集合中每個(gè)搜索結(jié)果網(wǎng)頁,分別計(jì)算用于表示
網(wǎng)頁與查詢?cè)~匹配程度的第二數(shù)值;網(wǎng)頁與查詢?cè)~的匹配程度(MatchRank) 可以由多種方法計(jì)算得到;
綜合計(jì)算子單元,用于針對(duì)每個(gè)電子地圖數(shù)據(jù),根據(jù)相對(duì)應(yīng)集合中的所有 搜索結(jié)果網(wǎng)頁的第 一數(shù)值和第二數(shù)值,計(jì)算用于表示該電子地圖數(shù)據(jù)重要程度 的結(jié)果數(shù)據(jù)。 一種計(jì)算方式是所述綜合計(jì)算子單元將集合中每個(gè)搜索結(jié)果網(wǎng) 頁的第 一數(shù)值和第二數(shù)值相乘,然后再將集合中所有搜索結(jié)果網(wǎng)頁的相乘結(jié)果 求和,得到該電子地圖數(shù)據(jù)的重要程度值。
其中,所述關(guān)鍵詞提取單元U32將提取出的電子地圖數(shù)據(jù)的名稱作為關(guān) 鍵詞;或者,將提^i出的電子地圖數(shù)據(jù)的地址信息,與名稱一同作為關(guān)4建詞。 優(yōu)選的,在提取名稱時(shí)去掉包含分店、分公司的信息。
優(yōu)選的,在本發(fā)明的另一裝置實(shí)施例中,所述裝置還包括調(diào)整單元U35, 用于根據(jù)電子地圖數(shù)據(jù)所屬類別所具有的不同權(quán)重,將該電子地圖數(shù)據(jù)的重要 度乘以該電子地圖數(shù)據(jù)所屬類別的權(quán)重值,得到調(diào)整后的結(jié)果數(shù)據(jù),并輸出到 排序單元U36用于排序。
優(yōu)選的,在本發(fā)明的另 一裝置實(shí)施例中,所述裝置還包括預(yù)處理單元U31, 用于對(duì)原始的電子地圖數(shù)據(jù)進(jìn)行預(yù)處理,并將預(yù)處理結(jié)果輸出到關(guān)鍵詞提取單 元U32;其中,所述預(yù)處理包括去除無關(guān)符號(hào)、進(jìn)行字符編碼轉(zhuǎn)換、調(diào)整統(tǒng)一 格式。
優(yōu)選的,在本發(fā)明的另一裝置實(shí)施例中,所述裝置還包括檢索單元U37, 用于在電子地圖檢索中,根據(jù)用戶輸入的查詢?cè)~返回相匹配的檢索結(jié)果,將檢 索結(jié)果中排序靠前的電子地圖數(shù)據(jù)優(yōu)先顯示。
優(yōu)選的,在本發(fā)明的另一裝置實(shí)施例中,所述裝置還包括圖層顯示單元 U38,用于在圖層顯示時(shí),選取顯示范圍內(nèi)排序靠前的電子地圖數(shù)據(jù)進(jìn)行顯示。
優(yōu)選的,在本發(fā)明的另一裝置實(shí)施例中,所述裝置還包括數(shù)據(jù)更新單元 U39,用于對(duì)排序靠前的電子地圖it據(jù)進(jìn)行優(yōu)先更新。
圖3所示裝置中未詳述的部分可以參見圖1、圖2所示方法的相關(guān)部分, 為了篇幅考慮,在此不再詳述。
此外,本發(fā)明還提供了一種搜索引擎系統(tǒng),所述系統(tǒng)包括上述任一裝置實(shí) 施例所述的裝置。所述搜索引擎系統(tǒng)在電子地圖數(shù)據(jù)的搜索應(yīng)用方面,能夠提 供更加優(yōu)質(zhì)的檢索結(jié)果。
以上對(duì)本發(fā)明所提供的 一種電子地圖數(shù)據(jù)的排序方法及裝置,進(jìn)行了詳細(xì)
施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域 的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改 變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1、一種電子地圖數(shù)據(jù)的排序方法,其特征在于,包括提取出每個(gè)電子地圖數(shù)據(jù)的關(guān)鍵詞;利用所述關(guān)鍵詞進(jìn)行搜索,獲取對(duì)應(yīng)每個(gè)電子地圖數(shù)據(jù)的搜索結(jié)果網(wǎng)頁集合;根據(jù)每個(gè)電子地圖數(shù)據(jù)的相應(yīng)搜索結(jié)果網(wǎng)頁集合,計(jì)算該電子地圖數(shù)據(jù)的重要度;按照所述重要度對(duì)所述電子地圖數(shù)據(jù)進(jìn)行排序。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)每個(gè)電子地圖數(shù) 據(jù)的相應(yīng)搜索結(jié)果網(wǎng)頁集合,計(jì)算該電子地圖數(shù)據(jù)的重要度,具體包括針對(duì)集合中每個(gè)搜索結(jié)果網(wǎng)頁,分別計(jì)算用于表示網(wǎng)頁重要程度的第 一數(shù) 值和用于表示網(wǎng)頁與關(guān)鍵詞匹配程度的第二數(shù)值;根據(jù)相應(yīng)集合中所有搜索結(jié)果網(wǎng)頁的第一數(shù)值和第二數(shù)值,計(jì)算該電子地 圖數(shù)據(jù)的重要度。
3、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)相應(yīng)集合中所有 搜索結(jié)果網(wǎng)頁的第一數(shù)值和第二數(shù)值,計(jì)算該電子地圖數(shù)據(jù)的重要度,具體包 括將集合中每個(gè)搜索結(jié)果網(wǎng)頁的第 一數(shù)值和第二數(shù)值相乘,然后再將集合中 所有搜索結(jié)果網(wǎng)頁的相乘結(jié)果求和,得到該電子地圖數(shù)據(jù)的重要度。
4、 根據(jù)權(quán)利要求2或3所述的方法,其特征在于所述第一數(shù)值通過計(jì) 算網(wǎng)頁級(jí)別得到。
5、 根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述計(jì)算該電子地圖 數(shù)據(jù)的重要度之后,還包括根據(jù)電子地圖數(shù)據(jù)所屬類別所具有的不同權(quán)重,將該電子地圖數(shù)據(jù)的重要 度乘以該電子地圖數(shù)據(jù)所屬類別的權(quán)重值,得到調(diào)整后的結(jié)果數(shù)據(jù),用于排序。
6、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取出每個(gè)電子地圖 數(shù)據(jù)的關(guān)鍵詞,具體包括提取出每個(gè)電子地圖數(shù)據(jù)的名稱作為關(guān)鍵詞。
7、 根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括提取出每個(gè)電子地圖數(shù)據(jù)的地址信息,與名稱一 同作為關(guān)鍵詞。
8、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取出每個(gè)電子地圖數(shù)據(jù)的關(guān)鍵詞之前,還包括對(duì)原始的電子地圖數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括去除無關(guān)符號(hào)、字符編碼轉(zhuǎn)換、調(diào)整統(tǒng)一格式;將預(yù)處理結(jié)果用于關(guān)鍵詞的提取。
9、 根據(jù)權(quán)利要求1所述的方法,其特征在于,按照所述重要度對(duì)所述電 子地圖數(shù)據(jù)進(jìn)行排序之后,還包括在電子地圖檢索中,根據(jù)用戶輸入的查詢?cè)~返回相匹配的檢索結(jié)果,將檢 索結(jié)果中排序靠前的電子地圖數(shù)據(jù)優(yōu)先顯示。
10、 根據(jù)權(quán)利要求1所述的方法,其特征在于,按照所述重要度對(duì)所述電 子地圖數(shù)據(jù)進(jìn)行排序之后,還包括在圖層顯示時(shí),選取顯示范圍內(nèi)排序靠前的電子地圖數(shù)據(jù)進(jìn)行顯示。
11、 根據(jù)權(quán)利要求1所述的方法,其特征在于,按照所述重要度對(duì)所述電 子地圖數(shù)據(jù)進(jìn)行排序之后,還包括對(duì)排序靠前的電子地圖數(shù)據(jù)進(jìn)行優(yōu)先更新。
12、 一種電子地圖數(shù)據(jù)的排序裝置,其特征在于,包括 關(guān)鍵詞提取單元,用于提取出每個(gè)電子地圖數(shù)據(jù)的關(guān)鍵詞; 查詢單元,用于利用所述關(guān)鍵詞進(jìn)行搜索,獲取對(duì)應(yīng)每個(gè)電子地圖數(shù)據(jù)的搜索結(jié)果網(wǎng)頁集合;計(jì)算單元,用于根據(jù)每個(gè)電子地圖數(shù)據(jù)的相應(yīng)搜索結(jié)果網(wǎng)頁集合,計(jì)算該 電子地圖數(shù)據(jù)的重要度;排序單元,用于按照所述重要度對(duì)所述電子地圖數(shù)據(jù)進(jìn)行排序。
13、 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述計(jì)算單元具體包括 第一計(jì)算子單元,用于針對(duì)集合中每個(gè)搜索結(jié)果網(wǎng)頁,分別計(jì)算用于表示網(wǎng)頁重要程度的第 一數(shù)值;第二計(jì)算子單元,用于針對(duì)集合中每個(gè)搜索結(jié)果網(wǎng)頁,分別計(jì)算用于表示 網(wǎng)頁與關(guān)鍵詞匹配程度的第二數(shù)值;綜合計(jì)算子單元,用于根據(jù)每個(gè)電子地圖數(shù)據(jù)相應(yīng)集合中的所有搜索結(jié)果網(wǎng)頁的第 一數(shù)值和第二數(shù)值,計(jì)算該電子地圖數(shù)據(jù)的重要度。
14、 根據(jù)權(quán)利要求13所述的裝置,其特征在于所述綜合計(jì)算子單元將集合中每個(gè)搜索結(jié)果網(wǎng)頁的第 一數(shù)值和第二數(shù)值 相乘,然后再將集合中所有搜索結(jié)果網(wǎng)頁的相乘結(jié)果求和,得到該電子地圖數(shù) 據(jù)的重要度。
15、 根據(jù)權(quán)利要求13所述的裝置,其特征在于所述第一計(jì)算子單元通 過計(jì)算網(wǎng)頁級(jí)別得到第 一數(shù)值。
16、 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括 調(diào)整單元,用于才艮據(jù)電子地圖數(shù)據(jù)所屬類別所具有的不同權(quán)重,將該電子地圖數(shù)據(jù)的重要度乘以該電子地圖數(shù)據(jù)所屬類別的權(quán)重值,得到調(diào)整后的結(jié)果 數(shù)據(jù),并輸出到排序單元用于排序。
17、 根據(jù)權(quán)利要求12所述的裝置,其特征在于所述關(guān)鍵詞提取單元將 提取出的電子地圖數(shù)據(jù)的名稱作為關(guān)鍵詞。
18、 根據(jù)權(quán)利要求17所述的裝置,其特征在于所述關(guān)鍵詞提取單元還 將提取出的電子地圖數(shù)據(jù)的地址信息,與名稱一 同作為關(guān)鍵詞。
19、 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括 預(yù)處理單元,用于對(duì)原始的電子地圖數(shù)據(jù)進(jìn)行預(yù)處理,并將預(yù)處理結(jié)果輸出到關(guān)4建詞提取單元;其中,所述預(yù)處理包括去除無關(guān)符號(hào)、字符編碼轉(zhuǎn)換、 調(diào)整統(tǒng)一^f各式。
20、 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括 檢索單元,用于在電子地圖檢索中,根據(jù)用戶輸入的查詢?cè)~返回相匹配的檢索結(jié)果,將檢索結(jié)果中排序靠前的電子地圖數(shù)據(jù)優(yōu)先顯示。
21、 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括 圖層顯示單元,用于在圖層顯示時(shí),選取顯示范圍內(nèi)排序靠前的電子地圖數(shù)據(jù)進(jìn)行顯示。
22、 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括 數(shù)據(jù)更新單元,用于對(duì)排序靠前的電子地圖數(shù)據(jù)進(jìn)行優(yōu)先更新。
23、 一種搜索引擎系統(tǒng),其特征在于,所述系統(tǒng)包括權(quán)利要求12至22 任一權(quán)利要求所述的裝置。
全文摘要
本發(fā)明公開了一種電子地圖數(shù)據(jù)的排序方法及裝置,以解決傳統(tǒng)的人工排序方法造成排序效果差、耗費(fèi)人力、成本太高的問題。所述方法包括提取出每個(gè)電子地圖數(shù)據(jù)的關(guān)鍵詞;利用所述關(guān)鍵詞進(jìn)行搜索,獲取對(duì)應(yīng)每個(gè)電子地圖數(shù)據(jù)的搜索結(jié)果網(wǎng)頁集合;根據(jù)每個(gè)電子地圖數(shù)據(jù)的相應(yīng)搜索結(jié)果網(wǎng)頁集合,計(jì)算該電子地圖數(shù)據(jù)的重要度;按照所述重要度對(duì)所述電子地圖數(shù)據(jù)進(jìn)行排序。本發(fā)明利用互聯(lián)網(wǎng)的網(wǎng)絡(luò)知名度來刻畫POI數(shù)據(jù)的重要程度,由于這種刻畫代表了廣大網(wǎng)民乃至廣大群眾的認(rèn)識(shí),因此這種排序效果比較好,具有很好的群眾基礎(chǔ)和合理性。而且,使用機(jī)器自動(dòng)對(duì)POI數(shù)據(jù)進(jìn)行打分和排序,極大地節(jié)省了人力,效率更高,成本非常低廉。
文檔編號(hào)G09B29/00GK101350154SQ20081022242
公開日2009年1月21日 申請(qǐng)日期2008年9月16日 優(yōu)先權(quán)日2008年9月16日
發(fā)明者佟子健, 登 王, 王云峰, 董正斌 申請(qǐng)人:北京搜狗科技發(fā)展有限公司