篩選興趣點(diǎn)poi數(shù)據(jù)的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,本發(fā)明涉及篩選興趣點(diǎn)POI數(shù)據(jù)的方法及裝置。
【背景技術(shù)】
[0002]在地理信息系統(tǒng)中,一個(gè)POI (Point Of Interest,興趣點(diǎn))可以是一棟房子、一個(gè)商鋪、一個(gè)郵筒、一個(gè)公交站等。POI數(shù)據(jù)包括地址信息和POI名稱。
[0003]傳統(tǒng)的POI數(shù)據(jù)采集方法,需要技術(shù)人員采用精密的測(cè)繪儀器去獲取每個(gè)POI的經(jīng)瑋度信息,然后再標(biāo)記下來,這種方法比較費(fèi)時(shí)費(fèi)力,導(dǎo)致通過采集得到的POI數(shù)據(jù)的數(shù)量很少,地理信息系統(tǒng)很難根據(jù)數(shù)量很少的POI數(shù)據(jù)來提供高水平的服務(wù)。
[0004]互聯(lián)網(wǎng)上存在著大量的POI數(shù)據(jù),如果能從互聯(lián)網(wǎng)上收集包含POI數(shù)據(jù)的網(wǎng)頁,從收集的網(wǎng)頁中提取出這些POI數(shù)據(jù)供地理信息系統(tǒng)使用,則會(huì)大大節(jié)省人力和時(shí)間。但是互聯(lián)網(wǎng)上充斥著大量虛假的POI數(shù)據(jù),比如博客網(wǎng)頁內(nèi)容中包含“原文地址:http://xxx.XXX.xxx/xxx”,雖然包含“地址”字樣,但該地址是網(wǎng)絡(luò)地址或者說是URL (Uniform ResoureLocator,統(tǒng)一資源定位器),并不是POI數(shù)據(jù)中的地理地址信息,或可能存在POI數(shù)據(jù)中地址信息不準(zhǔn)確的情況,從而導(dǎo)致收集到的POI數(shù)據(jù)中不準(zhǔn)確POI數(shù)據(jù)的比例較高。
【發(fā)明內(nèi)容】
[0005]本發(fā)明針對(duì)現(xiàn)有技術(shù)的缺點(diǎn),提出一種用于篩選興趣點(diǎn)POI數(shù)據(jù)的方法和裝置,用以解決現(xiàn)有技術(shù)存在的收集較多不準(zhǔn)確的POI數(shù)據(jù)問題。
[0006]本發(fā)明根據(jù)一個(gè)方面,提供了一種篩選興趣點(diǎn)POI數(shù)據(jù)的方法,包括:
[0007]獲取包括POI數(shù)據(jù)的網(wǎng)頁頁面及所述網(wǎng)頁頁面的用戶關(guān)注度;
[0008]根據(jù)所述網(wǎng)頁頁面的用戶關(guān)注度,確定該網(wǎng)頁頁面中包括的POI數(shù)據(jù)的用戶關(guān)注度;
[0009]基于各POI數(shù)據(jù)的用戶關(guān)注度,對(duì)POI數(shù)據(jù)進(jìn)行篩選。
[0010]其中,獲取所述網(wǎng)頁頁面的用戶關(guān)注度的步驟,進(jìn)一步包括:
[0011]根據(jù)所述網(wǎng)頁頁面在第一時(shí)長(zhǎng)內(nèi)的用戶訪問次數(shù)和/或平均每次瀏覽時(shí)長(zhǎng),獲取所述網(wǎng)頁頁面的用戶關(guān)注度。
[0012]其中,當(dāng)所述網(wǎng)頁頁面中僅包括一個(gè)POI數(shù)據(jù)時(shí),根據(jù)所述網(wǎng)頁頁面的用戶關(guān)注度,確定該網(wǎng)頁頁面中包括的POI數(shù)據(jù)的用戶關(guān)注度的步驟,進(jìn)一步包括:
[0013]將所述網(wǎng)頁頁面的用戶關(guān)注度作為該網(wǎng)頁頁面中包括的POI數(shù)據(jù)的用戶關(guān)注度。
[0014]其中,當(dāng)所述網(wǎng)頁頁面中包括多個(gè)POI數(shù)據(jù)時(shí),根據(jù)所述網(wǎng)頁頁面的用戶關(guān)注度,確定該網(wǎng)頁頁面中包括的POI數(shù)據(jù)的用戶關(guān)注度的步驟,進(jìn)一步包括:
[0015]按照預(yù)定頻率抓取第二時(shí)長(zhǎng)內(nèi)所述網(wǎng)頁頁面中的頁面內(nèi)容;
[0016]提取每次抓取到的頁面內(nèi)容中的POI數(shù)據(jù);
[0017]判斷所述第二時(shí)長(zhǎng)所述網(wǎng)頁頁面的頁面內(nèi)容中POI數(shù)據(jù)是否發(fā)生變更;
[0018]當(dāng)POI數(shù)據(jù)發(fā)生變更時(shí),根據(jù)所述網(wǎng)頁頁面的用戶關(guān)注度,并結(jié)合所述網(wǎng)頁頁面中包括的POI數(shù)據(jù)的個(gè)數(shù),將所述網(wǎng)頁頁面的用戶關(guān)注度平均分配至該網(wǎng)頁頁面中的各POI數(shù)據(jù)。
[0019]當(dāng)POI數(shù)據(jù)發(fā)生未變更時(shí),將所述網(wǎng)頁頁面的用戶關(guān)注度作為該網(wǎng)頁頁面中包括的各POI數(shù)據(jù)的用戶關(guān)注度。
[0020]本發(fā)明根據(jù)另一個(gè)方面,還提供了一種篩選興趣點(diǎn)POI數(shù)據(jù)的裝置,包括:
[0021]獲取模塊,用于獲取包括POI數(shù)據(jù)的網(wǎng)頁頁面及所述網(wǎng)頁頁面的用戶關(guān)注度;
[0022]確定模塊,用于根據(jù)所述網(wǎng)頁頁面的用戶關(guān)注度,確定該網(wǎng)頁頁面中包括的POI數(shù)據(jù)的用戶關(guān)注度;
[0023]篩選模塊,用于基于各POI數(shù)據(jù)的用戶關(guān)注度,對(duì)POI數(shù)據(jù)進(jìn)行篩選。
[0024]其中,所述獲取模塊具體用于根據(jù)所述網(wǎng)頁頁面在第一時(shí)長(zhǎng)內(nèi)的用戶訪問次數(shù)和/或平均每次瀏覽時(shí)長(zhǎng),獲取所述網(wǎng)頁頁面的用戶關(guān)注度。
[0025]其中,當(dāng)所述網(wǎng)頁頁面中僅包括一個(gè)POI數(shù)據(jù)時(shí),所述確定模塊具體用于將所述網(wǎng)頁頁面的用戶關(guān)注度作為該網(wǎng)頁頁面中包括的POI數(shù)據(jù)的用戶關(guān)注度。
[0026]其中,當(dāng)所述網(wǎng)頁頁面中包括多個(gè)POI數(shù)據(jù)時(shí),所述確定模塊進(jìn)一步包括:
[0027]抓取單元,用于按照預(yù)定頻率抓取第二時(shí)長(zhǎng)內(nèi)所述網(wǎng)頁頁面中的頁面內(nèi)容;
[0028]提取單元,用于提取每次抓取到的頁面內(nèi)容中的POI數(shù)據(jù);
[0029]判斷單元,用于判斷所述第二時(shí)長(zhǎng)所述網(wǎng)頁頁面的頁面內(nèi)容中POI數(shù)據(jù)是否發(fā)生變更;
[0030]分配單元,用于當(dāng)POI數(shù)據(jù)發(fā)生變更時(shí),根據(jù)所述網(wǎng)頁頁面的用戶關(guān)注度,并結(jié)合所述網(wǎng)頁頁面中包括的POI數(shù)據(jù)的個(gè)數(shù),將所述網(wǎng)頁頁面的用戶關(guān)注度平均分配至該網(wǎng)頁頁面中的各POI數(shù)據(jù)。
[0031]當(dāng)POI數(shù)據(jù)發(fā)生未變更時(shí),所述確定模塊具體用于將所述網(wǎng)頁頁面的用戶關(guān)注度作為該網(wǎng)頁頁面中包括的各POI數(shù)據(jù)的用戶關(guān)注度。
[0032]由于用戶關(guān)注度越高的POI數(shù)據(jù),其包含信息的準(zhǔn)確率越高,同時(shí),網(wǎng)頁頁面的用戶關(guān)注度可直接反應(yīng)網(wǎng)頁頁面包括的各項(xiàng)信息的可信度和價(jià)值度,對(duì)于網(wǎng)頁頁面中包括的POI數(shù)據(jù),網(wǎng)頁頁面的用戶關(guān)注度也可以在很大程度上反應(yīng)POI數(shù)據(jù)的用戶關(guān)注度;因此,本發(fā)明的技術(shù)方案中,根據(jù)網(wǎng)頁頁面的用戶關(guān)注度來確定該網(wǎng)頁頁面中包括的POI數(shù)據(jù)的用戶關(guān)注度,并基于各POI數(shù)據(jù)的用戶關(guān)注度對(duì)POI數(shù)據(jù)進(jìn)行篩選,可根據(jù)POI數(shù)據(jù)的用戶關(guān)注度篩選出準(zhǔn)確率較高的POI數(shù)據(jù),解決了現(xiàn)有技術(shù)中難以從互聯(lián)網(wǎng)中收集到的較為準(zhǔn)確的大量POI數(shù)據(jù)的問題。
[0033]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0034]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0035]圖1為本發(fā)明一個(gè)實(shí)施例中篩選興趣點(diǎn)POI數(shù)據(jù)的方法的流程示意圖;
[0036]圖2為本發(fā)明一個(gè)優(yōu)選實(shí)施例中篩選興趣點(diǎn)POI數(shù)據(jù)的方法的流程示意圖;
[0037]圖3為本發(fā)明另一實(shí)施例中篩選興趣點(diǎn)POI數(shù)據(jù)的裝置的內(nèi)部結(jié)構(gòu)的框架示意圖;
[0038]圖4為本發(fā)明另一優(yōu)選實(shí)施例中篩選興趣點(diǎn)POI數(shù)據(jù)的裝置的內(nèi)部結(jié)構(gòu)的框架示意圖。
【具體實(shí)施方式】
[0039]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
[0040]本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個(gè)”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元件被“連接”或“耦接”到另一元件時(shí),它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個(gè)或更多個(gè)相關(guān)聯(lián)的列出項(xiàng)的全部或任一單元和全部組合。
[0041]本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語),具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語,應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會(huì)用理想化或過于正式的含義來解釋。
[0042]圖1為本發(fā)明一個(gè)實(shí)施例中篩選興趣點(diǎn)POI數(shù)據(jù)的方法的流程示意圖。
[0043]步驟SllO:獲取包括POI數(shù)據(jù)的網(wǎng)頁頁面及網(wǎng)頁頁面的用戶關(guān)注度;步驟S120:根據(jù)網(wǎng)頁頁面的用戶關(guān)注度,確定該網(wǎng)頁頁面中包括的POI數(shù)據(jù)的用戶關(guān)注度;步驟S130:基于各POI數(shù)據(jù)的用戶關(guān)注度,對(duì)POI數(shù)據(jù)進(jìn)行篩選。
[0044]由于用戶關(guān)注度越高的POI數(shù)據(jù),其包含信息的準(zhǔn)確率越高,同時(shí),網(wǎng)頁頁面的用戶關(guān)注度可直接反應(yīng)網(wǎng)頁頁面包括的各項(xiàng)信息的可信度和價(jià)值度,對(duì)于網(wǎng)頁頁面中包括的POI數(shù)據(jù),網(wǎng)頁頁面的用戶關(guān)注度也可以在很大程度上反應(yīng)POI數(shù)據(jù)的用戶關(guān)注度;因此,本發(fā)明的技術(shù)方案中,根據(jù)網(wǎng)頁頁面的用戶關(guān)注度來確定該網(wǎng)頁頁面中包括的POI數(shù)據(jù)的用戶關(guān)注度,并基于各POI數(shù)據(jù)的用戶關(guān)注度對(duì)POI數(shù)據(jù)進(jìn)行篩選,可根據(jù)POI數(shù)據(jù)的用戶關(guān)注度篩選出準(zhǔn)確率較高的P