興趣點(diǎn)數(shù)據(jù)關(guān)聯(lián)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及地理信息技術(shù)領(lǐng)域,尤其涉及一種興趣點(diǎn)數(shù)據(jù)關(guān)聯(lián)方法及裝置。
【背景技術(shù)】
[0002] 在地理信息系統(tǒng)(GeographicInformationSystem,GIS)中,興趣點(diǎn)(PointOf Interest,P0I)通常指可以被人所關(guān)注的地點(diǎn),每個(gè)生產(chǎn)P0I數(shù)據(jù)的廠商都會(huì)建立自己的 P0I數(shù)據(jù)庫(kù),P0I數(shù)據(jù)庫(kù)中存儲(chǔ)有海量的P0I數(shù)據(jù),每條P0I數(shù)據(jù)包含P0I各方面的信息,例 如名稱、類型、地址、地理坐標(biāo)、行政區(qū)劃碼等。
[0003] 隨著P0I數(shù)據(jù)業(yè)務(wù)的發(fā)展,各生產(chǎn)P0I數(shù)據(jù)的廠商之間可能相互合作,合作方式包 括:將多個(gè)不同廠商的P0I數(shù)據(jù)庫(kù)中的P0I數(shù)據(jù)進(jìn)行融合,以為用戶提供更好的P0I數(shù)據(jù)。 由于多個(gè)廠商的P0I數(shù)據(jù)庫(kù)中存在關(guān)聯(lián)的P0I數(shù)據(jù),也就是描述同一P0I的P0I數(shù)據(jù),因 此,P0I數(shù)據(jù)關(guān)聯(lián)是P0I數(shù)據(jù)融合流程中的一個(gè)重要的環(huán)節(jié),其直接影響向用戶提供的P0I 數(shù)據(jù)的質(zhì)量。P0I數(shù)據(jù)關(guān)聯(lián)通常指在需要進(jìn)行數(shù)據(jù)融合的P0I數(shù)據(jù)庫(kù)中,查找相關(guān)聯(lián)的P0I 數(shù)據(jù),例如,若需要將P0I數(shù)據(jù)庫(kù)1中的數(shù)據(jù)與P0I數(shù)據(jù)庫(kù)2中的數(shù)據(jù)進(jìn)行融合,則在進(jìn)行 P0I數(shù)據(jù)關(guān)聯(lián)時(shí),針對(duì)P0I數(shù)據(jù)庫(kù)1中的各P0I數(shù)據(jù),分別在P0I數(shù)據(jù)庫(kù)2中查找相關(guān)聯(lián)的 P0I數(shù)據(jù),其中,P0I數(shù)據(jù)庫(kù)1稱為待關(guān)聯(lián)P0I數(shù)據(jù)庫(kù),P0I數(shù)據(jù)庫(kù)1中的各P0I數(shù)據(jù)稱為待 關(guān)聯(lián)P0I數(shù)據(jù),P0I數(shù)據(jù)庫(kù)2稱為目標(biāo)P0I數(shù)據(jù)庫(kù),P0I數(shù)據(jù)庫(kù)2中的各P0I數(shù)據(jù)稱為目標(biāo) P0I數(shù)據(jù)。
[0004] 如圖1所示,為現(xiàn)有技術(shù)中的P0I數(shù)據(jù)關(guān)聯(lián)方法流程圖,其具體處理過(guò)程如下:
[0005] 步驟11,使用通用詞庫(kù),對(duì)待關(guān)聯(lián)P0I數(shù)據(jù)的名稱進(jìn)行分詞處理,得到組成名稱的 各分詞。
[0006] 步驟12,獲得各分詞的權(quán)重值;在實(shí)際應(yīng)用,權(quán)重值的一種計(jì)算方式是,在通用詞 庫(kù)中獲取該分詞在語(yǔ)料中出現(xiàn)的次數(shù),然后計(jì)算次數(shù)與通用詞庫(kù)中分詞總量的比值,得到 該分詞的權(quán)重值。
[0007] 步驟13,將各分詞中權(quán)重值最大的分詞作為搜索關(guān)鍵詞,在目標(biāo)P0I數(shù)據(jù)庫(kù)中進(jìn) 行初步篩選,查詢出名稱包含該搜索關(guān)鍵詞的目標(biāo)P0I數(shù)據(jù)。
[0008] 步驟14,計(jì)算待關(guān)聯(lián)P0I數(shù)據(jù)和各目標(biāo)P0I數(shù)據(jù)之間的地理距離。
[0009] 步驟15,將待關(guān)聯(lián)P0I數(shù)據(jù)的類型和各目標(biāo)P0I數(shù)據(jù)的類型進(jìn)行匹配,以及將待關(guān) 聯(lián)P0I數(shù)據(jù)的地址和各目標(biāo)P0I數(shù)據(jù)的地址進(jìn)行匹配。
[0010] 步驟16,在類型匹配成功且地址匹配成功的各目標(biāo)P0I數(shù)據(jù)中,將和待關(guān)聯(lián)P0I數(shù) 據(jù)之間的地理距離最小的目標(biāo)P0I數(shù)據(jù),確認(rèn)為與待關(guān)聯(lián)P0I數(shù)據(jù)關(guān)聯(lián)的P0I數(shù)據(jù)。
[0011] 由上可見,在上述P0I數(shù)據(jù)關(guān)聯(lián)過(guò)程中,首先根據(jù)搜索關(guān)鍵詞進(jìn)行目標(biāo)P0I數(shù)據(jù)的 初步篩選,然后在篩選出的目標(biāo)P0I數(shù)據(jù)中進(jìn)一步查找關(guān)聯(lián)的P0I數(shù)據(jù),因此搜索關(guān)鍵詞的 選取非常重要,其直接影響初步篩選的結(jié)果,如果搜索關(guān)鍵詞選取合理,則根據(jù)搜索關(guān)鍵詞 就會(huì)篩選出與待關(guān)聯(lián)P0I數(shù)據(jù)非常相關(guān)的少量的目標(biāo)P0I數(shù)據(jù),那么就會(huì)大大節(jié)省后續(xù)查 找關(guān)聯(lián)的P0I數(shù)據(jù)的工作量,相反,如果搜索關(guān)鍵詞選取不合理,則根據(jù)搜索關(guān)鍵詞就會(huì)篩 選出海量的目標(biāo)POI數(shù)據(jù),那么就會(huì)使得后續(xù)查找關(guān)聯(lián)的POI數(shù)據(jù)的工作量非常大,影響了P0I數(shù)據(jù)關(guān)聯(lián)的處理效率?,F(xiàn)有技術(shù)進(jìn)行P0I數(shù)據(jù)關(guān)聯(lián)時(shí),根據(jù)各分詞的權(quán)重值來(lái)選取搜索 關(guān)鍵詞,由于分詞的權(quán)重值是由通用詞庫(kù)的規(guī)模以及構(gòu)造方式?jīng)Q定,因此極易出現(xiàn)搜索關(guān) 鍵詞選取不合理的情況,例如,待關(guān)聯(lián)P0I數(shù)據(jù)的名稱為"北京方恒假日酒店",對(duì)"北京方 恒假日酒店"進(jìn)行分詞得到的各分詞中,"酒店"這一分詞的權(quán)重值最大,而將"酒店"作為 搜索關(guān)鍵詞進(jìn)行目標(biāo)P0I數(shù)據(jù)的初步篩選,搜索出的目標(biāo)P0I數(shù)據(jù)的數(shù)量非常多,后續(xù)就需 要從海量的目標(biāo)P0I數(shù)據(jù)中進(jìn)一步查找關(guān)聯(lián)的P0I數(shù)據(jù),從而造成P0I數(shù)據(jù)關(guān)聯(lián)的處理效 率非常低。
【發(fā)明內(nèi)容】
[0012] 本發(fā)明實(shí)施例提供一種興趣點(diǎn)信息關(guān)聯(lián)方法及裝置,用以解決現(xiàn)有技術(shù)中P0I數(shù) 據(jù)關(guān)聯(lián)的處理效率非常低的問題。
[0013] 本發(fā)明實(shí)施例提供如下技術(shù)方案:
[0014] 本發(fā)明實(shí)施例提供一種興趣點(diǎn)信息關(guān)聯(lián)方法,包括:將待關(guān)聯(lián)興趣點(diǎn)P0I數(shù)據(jù)的 名稱進(jìn)行分詞處理,得到組成所述名稱的分詞;對(duì)各分詞進(jìn)行角色標(biāo)注,得到各分詞的角色 類型;按照預(yù)設(shè)的角色類型優(yōu)先級(jí)順序,從各分詞中選擇角色類型與預(yù)設(shè)的角色類型相同 且優(yōu)先級(jí)最高的分詞作為搜索關(guān)鍵詞;從目標(biāo)P0I數(shù)據(jù)庫(kù)中,獲取名稱中包含所述搜索關(guān) 鍵詞的目標(biāo)P0I數(shù)據(jù);從獲取到的目標(biāo)P0I數(shù)據(jù)中,確定與所述待關(guān)聯(lián)P0I數(shù)據(jù)關(guān)聯(lián)的目標(biāo) P0I數(shù)據(jù)。
[0015] 由上述技術(shù)方案可知,本發(fā)明實(shí)施例提出的P0I數(shù)據(jù)關(guān)聯(lián)方法中,不再根據(jù)各分 詞的權(quán)重值選取搜索關(guān)鍵詞,而是預(yù)先設(shè)置能夠反映待關(guān)聯(lián)P0I數(shù)據(jù)的名稱的個(gè)性化特點(diǎn) 的角色類型,在將待關(guān)聯(lián)P0I數(shù)據(jù)的名稱劃分為各分詞后,按照預(yù)設(shè)的角色類型優(yōu)先級(jí)順 序,從各分詞中選擇角色類型與預(yù)設(shè)的角色類型相同且優(yōu)先級(jí)最高的分詞作為搜索關(guān)鍵 詞,再根據(jù)選取的搜索關(guān)鍵詞進(jìn)行目標(biāo)P0I數(shù)據(jù)的初步篩選,由于選取為搜索關(guān)鍵詞的分 詞最能夠反映待關(guān)聯(lián)P0I數(shù)據(jù)的名稱的個(gè)性化特點(diǎn),因此通過(guò)搜索關(guān)鍵詞初步篩選出的目 標(biāo)P0I數(shù)據(jù)與待關(guān)聯(lián)P0I數(shù)據(jù)非常相關(guān),因此數(shù)量較少,從而大大節(jié)省了在初步篩選出的目 標(biāo)P0I數(shù)據(jù)中進(jìn)一步查找關(guān)聯(lián)的P0I數(shù)據(jù)的工作量,有效地提高了P0I數(shù)據(jù)關(guān)聯(lián)的處理效 率。
[0016] 優(yōu)選的,從獲取到的目標(biāo)P0I數(shù)據(jù)中,確定與所述待關(guān)聯(lián)P0I數(shù)據(jù)關(guān)聯(lián)的目標(biāo)P0I 數(shù)據(jù)之前,所述方法進(jìn)一步包括:從獲取到的名稱中包含所述搜索關(guān)鍵詞的目標(biāo)P0I數(shù)據(jù) 中,獲取行政區(qū)劃碼與待關(guān)聯(lián)P0I數(shù)據(jù)的行政區(qū)劃碼相同的目標(biāo)P0I數(shù)據(jù);所述從獲取到的 目標(biāo)P0I數(shù)據(jù)中,確定與所述待關(guān)聯(lián)P0I數(shù)據(jù)關(guān)聯(lián)的目標(biāo)P0I數(shù)據(jù)具體為:從獲取到的行政 區(qū)劃碼與待關(guān)聯(lián)P0I數(shù)據(jù)的行政區(qū)劃碼相同的目標(biāo)P0I數(shù)據(jù)中,確定與所述待關(guān)聯(lián)P0I數(shù) 據(jù)關(guān)聯(lián)的目標(biāo)P0I數(shù)據(jù)。由上可見,根據(jù)行政區(qū)劃碼,對(duì)使用搜索關(guān)鍵詞初步篩選出的目標(biāo) P0I數(shù)據(jù)進(jìn)行進(jìn)一步過(guò)濾,能夠進(jìn)一步節(jié)省查找關(guān)聯(lián)的P0I數(shù)據(jù)的工作量,提高P0I數(shù)據(jù)關(guān) 聯(lián)的處理效率。
[0017] 優(yōu)選的,從獲取到的目標(biāo)P0I數(shù)據(jù)中,確定與所述待關(guān)聯(lián)P0I數(shù)據(jù)關(guān)聯(lián)的目標(biāo)P0I 數(shù)據(jù)之前,所述方法進(jìn)一步包括:基于向量空間模型,確定所述搜索關(guān)鍵詞與獲取到的各目 標(biāo)P0I數(shù)據(jù)之間的文本匹配度;按照文本匹配度由大到小的順序,對(duì)獲取到的各目標(biāo)P0I數(shù) 據(jù)進(jìn)行排序;在排序后的各目標(biāo)POI數(shù)據(jù)中,按照文本匹配度由大到小的順序獲取預(yù)置數(shù) 目個(gè)目標(biāo)P0I數(shù)據(jù);所述從獲取到的目標(biāo)P0I數(shù)據(jù)中,確定與所述待關(guān)聯(lián)P0I數(shù)據(jù)關(guān)聯(lián)的目 標(biāo)P0I數(shù)據(jù)具體為:從獲取到的預(yù)置數(shù)目個(gè)目標(biāo)P0I數(shù)據(jù)中,確定與所述待關(guān)聯(lián)P0I數(shù)據(jù)關(guān) 聯(lián)的目標(biāo)P0I數(shù)據(jù)。由上可見,根據(jù)文本匹配度,對(duì)使用搜索關(guān)鍵詞初步篩選出的目標(biāo)P0I 數(shù)據(jù)進(jìn)行進(jìn)一步過(guò)濾,能夠進(jìn)一步節(jié)省查找關(guān)聯(lián)的P0I數(shù)據(jù)的工作量,提高P0I數(shù)據(jù)關(guān)聯(lián)的 處理效率。
[0018] 優(yōu)選的,所述預(yù)設(shè)的角色類型包含:行政區(qū)劃、主名稱、特定品牌名稱、修飾詞、行 業(yè)詞、后綴詞;所述按照預(yù)設(shè)的角色類型優(yōu)先級(jí)順序,從各分詞中選擇角色類型與預(yù)設(shè)的角 色類型相同且優(yōu)先級(jí)最高的分詞作為搜索關(guān)鍵詞具體包括:當(dāng)存在角色類型為主名稱的分 詞時(shí),則從各分詞中,選擇角色類型為主名稱的分詞作為搜索關(guān)鍵詞,結(jié)束流程;否則,當(dāng)不 存在角色類型為行政區(qū)劃的分詞時(shí),則按照特定品牌名稱、修飾詞、行業(yè)詞、后綴詞優(yōu)先級(jí) 由高到低的順序,從各分詞中選擇角色類型與特定品牌名稱、修飾詞、行業(yè)詞或后綴詞相同 且優(yōu)先級(jí)最高的分詞作為搜索關(guān)鍵詞;當(dāng)存在角色類型為行政區(qū)劃的分詞時(shí),則按照特定 品牌名稱、修飾詞、行業(yè)詞、后綴詞優(yōu)先級(jí)由高到低的順序,從各分詞中選擇角色類型與特 定品牌名稱、修飾詞、行業(yè)詞或后綴詞相同且優(yōu)先級(jí)最高的分詞和角色類型為行政區(qū)劃的 分詞的組合作為搜索關(guān)鍵詞。在P0I數(shù)據(jù)的名稱對(duì)應(yīng)的各分詞中,角色類型為主名稱的分 詞往往最能反映P0I數(shù)據(jù)的名稱的個(gè)性化特點(diǎn),因此,當(dāng)存在角色類型為主名稱的分詞時(shí), 將角色類型為主名稱的分詞作為搜索關(guān)鍵詞能夠使得通過(guò)搜索關(guān)鍵詞初步篩選出的目標(biāo) P0I數(shù)據(jù)與待關(guān)聯(lián)P0I數(shù)據(jù)非常相關(guān),從而大大節(jié)省了進(jìn)一步查找關(guān)聯(lián)的P0I數(shù)據(jù)的工作 量,有效地提高了P0I數(shù)據(jù)關(guān)聯(lián)的處理效率。
[0019] 優(yōu)選的,所述確定與所述待關(guān)聯(lián)P0I數(shù)據(jù)關(guān)聯(lián)的目標(biāo)P0I數(shù)據(jù)具體包括:根據(jù)待關(guān) 聯(lián)P0I數(shù)據(jù)與各獲取到的目標(biāo)P0I數(shù)據(jù)的屬性信息,確定待關(guān)聯(lián)P0I數(shù)據(jù)與各獲取到的目 標(biāo)P0I數(shù)據(jù)的P0I相似度;根據(jù)各目標(biāo)P0I數(shù)據(jù)的P0I相似度,確定與待關(guān)聯(lián)P0I數(shù)據(jù)關(guān)聯(lián) 的目標(biāo)P0I數(shù)據(jù)。由上可見,待關(guān)聯(lián)P0I數(shù)據(jù)與目標(biāo)P0I數(shù)據(jù)之間的P0I相似度是根據(jù)待 關(guān)聯(lián)P0I數(shù)據(jù)與目標(biāo)P0I數(shù)據(jù)的各屬性信息確定出的,因此P0I相似度能夠反映待關(guān)聯(lián)P0I 數(shù)據(jù)和目標(biāo)P0I數(shù)據(jù)針對(duì)各屬性信息的相關(guān)性,即使待關(guān)聯(lián)P0I數(shù)據(jù)的某一屬性信息存在 誤差,也能綜合考慮其他屬性信息,根據(jù)P0I相似度確定出關(guān)聯(lián)的P0I數(shù)據(jù),因此提高了P0I 數(shù)據(jù)關(guān)聯(lián)的關(guān)聯(lián)精度。
[0020] 優(yōu)選的,若P0I數(shù)據(jù)的屬性包含名稱、類型、地址、地理坐標(biāo),則所述根據(jù)待關(guān)聯(lián) P0I數(shù)據(jù)與獲取到的目標(biāo)P0I數(shù)據(jù)的屬性信息,確定待關(guān)聯(lián)P0I數(shù)據(jù)與各獲取到的目標(biāo)P0I 數(shù)據(jù)的P0I相似度,具體包括:根據(jù)待關(guān)聯(lián)P0I數(shù)據(jù)與目標(biāo)P0I數(shù)據(jù)的類型,確定待關(guān)聯(lián)P0I 數(shù)據(jù)與該目標(biāo)P0I數(shù)據(jù)的類型相似度;根據(jù)待關(guān)聯(lián)P0I數(shù)據(jù)的地址與該目標(biāo)P0I數(shù)據(jù)的地 址和/或地理坐標(biāo),確定待關(guān)聯(lián)P0I數(shù)據(jù)與該目標(biāo)P0I數(shù)據(jù)的地址相似度;根據(jù)待關(guān)聯(lián)P0I 數(shù)據(jù)與該目標(biāo)P0I數(shù)據(jù)的名稱,確定待關(guān)聯(lián)P0I數(shù)據(jù)與該目標(biāo)P0I數(shù)據(jù)的名稱相似度;根 據(jù)待關(guān)聯(lián)P0I數(shù)據(jù)的地理坐標(biāo)與該目標(biāo)P0I數(shù)據(jù)的地理坐標(biāo)和/或地址,確定待關(guān)聯(lián)P0I 數(shù)據(jù)與該目標(biāo)P0I數(shù)據(jù)的地理距離;根據(jù)所述類型相似度、地址相似度、名稱相似度以及地 理距離,確定待關(guān)聯(lián)P0I數(shù)據(jù)與該目標(biāo)P0I數(shù)據(jù)的P0I相似度。由上可見,待關(guān)聯(lián)P0I數(shù)據(jù) 與目標(biāo)P0I數(shù)據(jù)之間的P0I相似度是根據(jù)類型相似度、地址相似度、名稱相似度以及地理距 離確定出的,因此