一種興趣點數(shù)據(jù)的挖掘方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機處理的技術(shù)領(lǐng)域,特別是涉及一種興趣點數(shù)據(jù)的挖掘方法和一 種興趣點數(shù)據(jù)的挖掘裝置。
【背景技術(shù)】
[0002] 興趣點(Point of Interest,Ρ0Ι),又可以稱為"信息點",其包含多方面的信息, 如名稱、類別、經(jīng)度煒度等等。
[0003] 在地理信息系統(tǒng)中,一個POI可以是一棟房子、一個商鋪、一個郵筒、一個公交站 等。
[0004] 傳統(tǒng)的地理信息采集方法需要地圖測繪人員采用精密的測繪儀器去獲取一個興 趣點的經(jīng)煒度,然后再標(biāo)記下來。
[0005] 正因為POI數(shù)據(jù)的采集是一個非常費時費事的工作,對一個地理信息系統(tǒng)來說, POI的數(shù)量在一定程度代表著整個系統(tǒng)的價值。
[0006] 為了豐富地理信息系統(tǒng)的POI數(shù)據(jù)的數(shù)量,目前從網(wǎng)頁中挖掘POI數(shù)據(jù),大多是根 據(jù)網(wǎng)頁的結(jié)構(gòu)配置合適的模板,通過模板來提取。
[0007] 因為模板需要人工進(jìn)行配置,考慮到人工的成本,這種方法往往應(yīng)用于那些比較 大的網(wǎng)站,因為這些較大的網(wǎng)站包含較多結(jié)構(gòu)相似的網(wǎng)頁,配置一個模板可以從許多的網(wǎng) 頁提取較多的POI數(shù)據(jù)。
[0008] 但是,對于那些雖然包含POI數(shù)據(jù)、但并不是大量存在于同一個網(wǎng)站中的網(wǎng)頁,單 獨為其配置一個模板,可能只能提取少量的POI數(shù)據(jù),POI數(shù)據(jù)的提取效率很低,成本很高。
【發(fā)明內(nèi)容】
[0009] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的一種興趣點數(shù)據(jù)的挖掘方法和相應(yīng)的一種興趣點數(shù)據(jù)的挖掘裝置。
[0010] 依據(jù)本發(fā)明的一個方面,提供了一種興趣點數(shù)據(jù)的挖掘方法,包括:
[0011] 在網(wǎng)頁中提取與預(yù)設(shè)的興趣點數(shù)據(jù)匹配的地址數(shù)據(jù)和名稱數(shù)據(jù);
[0012] 計算所述網(wǎng)頁包含的地址數(shù)據(jù)在所述網(wǎng)頁中的第一文檔路徑;
[0013] 計算所述網(wǎng)頁包含的名稱數(shù)據(jù)在所述網(wǎng)頁中的第二文檔路徑;
[0014] 根據(jù)所述第一文檔路徑與所述第二文檔路徑識別屬于同一興趣點數(shù)據(jù)的地址數(shù) 據(jù)與名稱數(shù)據(jù)。
[0015] 可選地,預(yù)設(shè)的興趣點數(shù)據(jù)包括關(guān)聯(lián)的興趣點名稱與興趣點地址;
[0016] 所述在網(wǎng)頁中提取與預(yù)設(shè)的興趣點數(shù)據(jù)匹配的地址數(shù)據(jù)和名稱數(shù)據(jù)的步驟包 括:
[0017] 在網(wǎng)頁中提取地址數(shù)據(jù);
[0018] 判斷所述地址數(shù)據(jù)與所述興趣點地址是否匹配;若是,則在網(wǎng)頁中查找與所述興 趣點名稱匹配的名稱數(shù)據(jù)。
[0019] 可選地,所述在網(wǎng)頁中提取地址數(shù)據(jù)的步驟包括:
[0020] 對所述網(wǎng)頁中的文本數(shù)據(jù)進(jìn)行分詞處理,獲得一個或多個分詞;
[0021] 當(dāng)一個文本片段的分詞與預(yù)置的地址信息匹配時,將所述文本片段作為地址數(shù)據(jù) 進(jìn)行提取。
[0022] 可選地,所述計算所述網(wǎng)頁包含的地址數(shù)據(jù)在所述網(wǎng)頁中的第一文檔路徑的步驟 包括:
[0023] 計算每個地址數(shù)據(jù)在所述網(wǎng)頁中的第一子文檔路徑;
[0024] 當(dāng)所述第一子文檔路徑相同時,將所述第一子文檔路徑設(shè)置為所述網(wǎng)頁包含的地 址數(shù)據(jù)在所述網(wǎng)頁中的第一文檔路徑。
[0025] 可選地,所述計算所述網(wǎng)頁包含的名稱數(shù)據(jù)在所述網(wǎng)頁中的第二文檔路徑的步驟 包括:
[0026] 計算每個名稱數(shù)據(jù)在所述網(wǎng)頁中的第二子文檔路徑;
[0027] 當(dāng)所述第二子文檔路徑相同時,將所述第二子文檔路徑設(shè)置為所述網(wǎng)頁包含的名 稱數(shù)據(jù)在所述網(wǎng)頁中的第二文檔路徑。
[0028] 可選地,所述第一文檔路徑具有第一序號,所述第二文檔路徑具有第二序號;
[0029] 所述根據(jù)所述第一文檔路徑與所述第二文檔路徑識別屬于同一興趣點數(shù)據(jù)的地 址數(shù)據(jù)與名稱數(shù)據(jù)的步驟包括:
[0030] 提取序號相同的第一序號與第二序號;
[0031] 確認(rèn)所述第一序號所屬的地址數(shù)據(jù),與,所述第二序號所屬的名稱數(shù)據(jù)屬于同一 興趣點數(shù)據(jù)。
[0032] 根據(jù)本發(fā)明的另一方面,提供了一種興趣點數(shù)據(jù)的挖掘裝置,包括:
[0033] 網(wǎng)頁數(shù)據(jù)提取模塊,適于在網(wǎng)頁中提取與預(yù)設(shè)的興趣點數(shù)據(jù)匹配的地址數(shù)據(jù)和名 稱數(shù)據(jù);
[0034] 第一文檔路徑計算模塊,適于計算所述網(wǎng)頁包含的地址數(shù)據(jù)在所述網(wǎng)頁中的第一 文檔路徑;
[0035] 第二文檔路徑計算模塊,適于計算所述網(wǎng)頁包含的名稱數(shù)據(jù)在所述網(wǎng)頁中的第二 文檔路徑;
[0036] 興趣點數(shù)據(jù)識別模塊,適于根據(jù)所述第一文檔路徑與所述第二文檔路徑識別屬于 同一興趣點數(shù)據(jù)的地址數(shù)據(jù)與名稱數(shù)據(jù)。
[0037] 可選地,預(yù)設(shè)的興趣點數(shù)據(jù)包括關(guān)聯(lián)的興趣點名稱與興趣點地址;
[0038] 所述網(wǎng)頁數(shù)據(jù)提取模塊還適于:
[0039] 在網(wǎng)頁中提取地址數(shù)據(jù);
[0040] 判斷所述地址數(shù)據(jù)與所述興趣點地址是否匹配;若是,則在網(wǎng)頁中查找與所述興 趣點名稱匹配的名稱數(shù)據(jù)。
[0041] 可選地,所述網(wǎng)頁數(shù)據(jù)提取模塊還適于:
[0042] 對所述網(wǎng)頁中的文本數(shù)據(jù)進(jìn)行分詞處理,獲得一個或多個分詞;
[0043] 當(dāng)一個文本片段的分詞與預(yù)置的地址信息匹配時,將所述文本片段作為地址數(shù)據(jù) 進(jìn)行提取。
[0044] 可選地,所述第一文檔路徑計算模塊還適于:
[0045] 計算每個地址數(shù)據(jù)在所述網(wǎng)頁中的第一子文檔路徑;
[0046] 當(dāng)所述第一子文檔路徑相同時,將所述第一子文檔路徑設(shè)置為所述網(wǎng)頁包含的地 址數(shù)據(jù)在所述網(wǎng)頁中的第一文檔路徑。
[0047] 可選地,所述第二文檔路徑計算模塊還適于:
[0048] 計算每個名稱數(shù)據(jù)在所述網(wǎng)頁中的第二子文檔路徑;
[0049] 當(dāng)所述第二子文檔路徑相同時,將所述第二子文檔路徑設(shè)置為所述網(wǎng)頁包含的名 稱數(shù)據(jù)在所述網(wǎng)頁中的第二文檔路徑。
[0050] 可選地,所述第一文檔路徑具有第一序號,所述第二文檔路徑具有第二序號;
[0051 ] 所述興趣點數(shù)據(jù)識別模塊還適于:
[0052] 提取序號相同的第一序號與第二序號;
[0053] 確認(rèn)所述第一序號所屬的地址數(shù)據(jù),與,所述第二序號所屬的名稱數(shù)據(jù)屬于同一 興趣點數(shù)據(jù)。
[0054] 本發(fā)明實施例在網(wǎng)頁中提取與預(yù)設(shè)的興趣點數(shù)據(jù)匹配的地址數(shù)據(jù)和名稱數(shù)據(jù),通 過網(wǎng)頁包含的地址數(shù)據(jù)的第一文檔路徑及網(wǎng)頁包含的名稱數(shù)據(jù)的第二文檔路徑識別興趣 點數(shù)據(jù),實現(xiàn)了通過通用的方式挖掘興趣點數(shù)據(jù),避免了人工配置模板,大大提高了興趣點 數(shù)據(jù)的提取效率,降低了成本。
[0055] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠 更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0056] 通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0057] 圖1示出了根據(jù)本發(fā)明一個實施例的一種興趣點數(shù)據(jù)的挖掘方法實施例的步驟 流程圖;以及
[0058] 圖2示出了根據(jù)本發(fā)明一個實施例的一種興趣點數(shù)據(jù)的挖掘裝置實施例的結(jié)構(gòu) 框圖。
【具體實施方式】
[0059] 下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開 的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例 所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0060] 參照圖1,示出了根據(jù)本發(fā)明一個實施例的一種興趣點數(shù)據(jù)的挖掘方法實施例的 步驟流程圖,具體可以包括如下步驟:
[0061] 步驟101,在網(wǎng)頁中提取與預(yù)設(shè)的興趣點數(shù)據(jù)匹配的地址數(shù)據(jù)和名稱數(shù)據(jù);
[0062] 在本發(fā)明實施例中,爬蟲可以預(yù)先通過網(wǎng)頁間的鏈接關(guān)系,抓取互聯(lián)網(wǎng)的網(wǎng)頁并 保存,爬蟲抓取的網(wǎng)頁保存在網(wǎng)頁數(shù)據(jù)庫中形成大量的搜索資源。
[0063] 對于存在較多的POI數(shù)據(jù)、且POI數(shù)據(jù)分布具有規(guī)律的網(wǎng)頁,如用戶進(jìn)行餐飲、旅 游進(jìn)行點評的網(wǎng)站中的網(wǎng)頁,地圖網(wǎng)站中的網(wǎng)頁等等,可以通過配置模板進(jìn)行提取,從而獲 取到大量的POI數(shù)據(jù)。
[0064] 這些興趣點數(shù)據(jù),通??梢园P(guān)聯(lián)的興趣點名稱與興趣點地址等信息,其示例 可以如表1所示:
[0065] 表 1
[0067] 興趣點名稱與興趣點地址可以與存在較少的POI數(shù)據(jù)、且POI數(shù)據(jù)分布不具有規(guī) 律的網(wǎng)頁(即單網(wǎng)頁)中的地址數(shù)據(jù)和名稱數(shù)據(jù)。
[0068] 在本發(fā)明的一個可選實施例中,步驟101可以包括如下子步驟:
[0069] 子步驟S11,在網(wǎng)頁中提取地址數(shù)據(jù);
[0070] 在具體實現(xiàn)中,對于單網(wǎng)頁,可以預(yù)先獲取全國的省、市、縣(區(qū))、鄉(xiāng)鎮(zhèn)、道路等地 址信息,創(chuàng)建一個地址信息庫。
[0071] 對網(wǎng)頁中的文本數(shù)據(jù)可以進(jìn)行分詞處理,獲得一個或多個分詞,將該一個或多個 分詞在地址信息庫中進(jìn)行查詢。
[0072] 當(dāng)一個文本片段的分詞與預(yù)置的地址信息匹配時,將該文本片段作為地址數(shù)據(jù)進(jìn) 行提取。