選擇興趣點(diǎn)poi數(shù)據(jù)的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,本發(fā)明涉及選擇興趣點(diǎn)POI數(shù)據(jù)的方法及裝置。
【背景技術(shù)】
[0002]在地理信息系統(tǒng)中,一個(gè)POI (Point Of Interest,興趣點(diǎn))可以是一棟房子、一個(gè)商鋪、一個(gè)郵筒、一個(gè)公交站等。POI數(shù)據(jù)包括地址信息和POI名稱。
[0003]傳統(tǒng)的POI數(shù)據(jù)采集方法,需要技術(shù)人員采用精密的測繪儀器去獲取每個(gè)POI的經(jīng)瑋度信息,然后再標(biāo)記下來,這種方法比較費(fèi)時(shí)費(fèi)力,導(dǎo)致通過采集得到的POI數(shù)據(jù)的數(shù)量很少,地理信息系統(tǒng)很難根據(jù)數(shù)量很少的POI數(shù)據(jù)來提供高水平的服務(wù)。
[0004]互聯(lián)網(wǎng)上存在著大量的POI數(shù)據(jù),如果能從互聯(lián)網(wǎng)上收集包含POI數(shù)據(jù)的網(wǎng)頁,從收集的網(wǎng)頁中提取出這些POI數(shù)據(jù)供地理信息系統(tǒng)使用,則會(huì)大大節(jié)省人力和時(shí)間。但是從互聯(lián)網(wǎng)上中提取到準(zhǔn)確率較高POI數(shù)據(jù)有一定難度,例如,可能從互聯(lián)網(wǎng)中獲取到多個(gè)POI數(shù)據(jù)中,其具有相同的名稱信息但不同的地址信息,現(xiàn)有技術(shù)難以甄別出哪個(gè)POI數(shù)據(jù)中的名稱信息對(duì)應(yīng)的地址信息是準(zhǔn)確的,從而對(duì)收集到準(zhǔn)確的POI數(shù)據(jù)造成障礙。
【發(fā)明內(nèi)容】
[0005]本發(fā)明針對(duì)現(xiàn)有技術(shù)的缺點(diǎn),提出一種用于選擇興趣點(diǎn)POI數(shù)據(jù)的方法和裝置,用以解決現(xiàn)有技術(shù)存在的難以甄別具有相同名稱信息的多個(gè)POI數(shù)據(jù)的準(zhǔn)確性的問題。
[0006]本發(fā)明根據(jù)一個(gè)方面,提供了一種選擇興趣點(diǎn)POI數(shù)據(jù)的方法,包括:
[0007]獲取包括具有相同的名稱信息的不同POI數(shù)據(jù)的多個(gè)網(wǎng)頁頁面;
[0008]提取所述多個(gè)網(wǎng)頁頁面的用戶關(guān)注度信息;
[0009]根據(jù)各網(wǎng)頁頁面的用戶關(guān)注度信息,確定各網(wǎng)頁頁面中包括的一個(gè)或多個(gè)POI數(shù)據(jù)所對(duì)應(yīng)的用戶關(guān)注度;
[0010]基于用戶關(guān)注度對(duì)所述多個(gè)網(wǎng)頁頁面中包括的具有相同名稱信息的多個(gè)POI數(shù)據(jù)進(jìn)彳丁排序;
[0011]基于所述POI數(shù)據(jù)的排序選擇一個(gè)或多個(gè)所述POI數(shù)據(jù),作為對(duì)應(yīng)該相同的名稱信息的可信POI數(shù)據(jù)。
[0012]優(yōu)選地,提取所述多個(gè)網(wǎng)頁頁面中的用戶關(guān)注度信息的步驟,進(jìn)一步包括:
[0013]根據(jù)各網(wǎng)頁頁面在第一時(shí)長內(nèi)的用戶訪問次數(shù)和/或平均每次瀏覽時(shí)長,獲取各網(wǎng)頁頁面的用戶關(guān)注度信息。
[0014]當(dāng)網(wǎng)頁頁面中僅包括一個(gè)POI數(shù)據(jù)時(shí),可選地,根據(jù)各網(wǎng)頁頁面的用戶關(guān)注度信息,確定各網(wǎng)頁頁面中包括的一個(gè)或多個(gè)POI數(shù)據(jù)所對(duì)應(yīng)的用戶關(guān)注度的步驟,進(jìn)一步包括:
[0015]將網(wǎng)頁頁面的用戶關(guān)注度信息作為該網(wǎng)頁頁面中包括的一個(gè)POI數(shù)據(jù)的用戶關(guān)注度。
[0016]當(dāng)網(wǎng)頁頁面中包括多個(gè)POI數(shù)據(jù)時(shí),可選地,根據(jù)各網(wǎng)頁頁面的用戶關(guān)注度信息,確定各網(wǎng)頁頁面中包括的一個(gè)或多個(gè)POI數(shù)據(jù)所對(duì)應(yīng)的用戶關(guān)注度的步驟,進(jìn)一步包括:
[0017]按照預(yù)定頻率抓取第二時(shí)長內(nèi)各網(wǎng)頁頁面中的頁面內(nèi)容;
[0018]提取每次抓取到的頁面內(nèi)容中的POI數(shù)據(jù);
[0019]判斷所述第二時(shí)長內(nèi)各網(wǎng)頁頁面的頁面內(nèi)容中POI數(shù)據(jù)是否發(fā)生變更;
[0020]基于判斷結(jié)果選擇相應(yīng)的關(guān)注度分配規(guī)則;
[0021]基于所述相應(yīng)的關(guān)注度分配規(guī)則,根據(jù)各網(wǎng)頁頁面的用戶關(guān)注度,并結(jié)合各網(wǎng)頁頁面中包括的POI數(shù)據(jù)的個(gè)數(shù),確定各網(wǎng)頁頁面中包括的多個(gè)POI數(shù)據(jù)的用戶關(guān)注度。
[0022]其中,基于判斷結(jié)果選擇相應(yīng)的關(guān)注度分配規(guī)則,包括以下情形:
[0023]當(dāng)POI數(shù)據(jù)未發(fā)生變更時(shí),選擇將網(wǎng)頁頁面的用戶關(guān)注度信息作為該網(wǎng)頁頁面中包括的各POI數(shù)據(jù)的用戶關(guān)注度的關(guān)注度分配規(guī)則;或
[0024]當(dāng)POI數(shù)據(jù)發(fā)生變更時(shí),選擇將網(wǎng)頁頁面的用戶關(guān)注度信息平均分配至該網(wǎng)頁頁面中包括的各POI數(shù)據(jù)的用戶關(guān)注度的關(guān)注度分配規(guī)則。
[0025]優(yōu)選地,基于用戶關(guān)注度對(duì)所述多個(gè)網(wǎng)頁頁面中包括的具有相同名稱信息的多個(gè)POI數(shù)據(jù)進(jìn)行排序的步驟,進(jìn)一步包括:
[0026]提取多個(gè)POI數(shù)據(jù)中用戶關(guān)注度大于關(guān)注度閾值的至少兩個(gè)POI數(shù)據(jù);
[0027]基于用戶關(guān)注度對(duì)所述至少兩個(gè)POI數(shù)據(jù)進(jìn)行排序。
[0028]本發(fā)明根據(jù)另一個(gè)方面,還提供了一種選擇興趣點(diǎn)POI數(shù)據(jù)的裝置,包括:
[0029]獲取模塊,用于獲取包括具有相同的名稱信息的不同POI數(shù)據(jù)的多個(gè)網(wǎng)頁頁面;
[0030]提取模塊,用于提取所述多個(gè)網(wǎng)頁頁面的用戶關(guān)注度信息;
[0031]確定模塊,用于根據(jù)各網(wǎng)頁頁面的用戶關(guān)注度信息,確定各網(wǎng)頁頁面中包括的一個(gè)或多個(gè)POI數(shù)據(jù)所對(duì)應(yīng)的用戶關(guān)注度;
[0032]排序模塊,用于基于用戶關(guān)注度對(duì)所述多個(gè)網(wǎng)頁頁面中包括的具有相同名稱信息的多個(gè)POI數(shù)據(jù)進(jìn)行排序;
[0033]選擇模塊,用于基于所述POI數(shù)據(jù)的排序選擇一個(gè)或多個(gè)所述POI數(shù)據(jù),作為對(duì)應(yīng)該相同的名稱信息的可信POI數(shù)據(jù)。
[0034]優(yōu)選地,所述提取模塊具體用于根據(jù)各網(wǎng)頁頁面在第一時(shí)長內(nèi)的用戶訪問次數(shù)和/或平均每次瀏覽時(shí)長,獲取各網(wǎng)頁頁面的用戶關(guān)注度信息。
[0035]當(dāng)網(wǎng)頁頁面中僅包括一個(gè)POI數(shù)據(jù)時(shí),可選地,所述確定模塊具體用于將網(wǎng)頁頁面的用戶關(guān)注度信息作為該網(wǎng)頁頁面中包括的一個(gè)POI數(shù)據(jù)的用戶關(guān)注度。
[0036]當(dāng)網(wǎng)頁頁面中包括多個(gè)POI數(shù)據(jù)時(shí),可選地,所述確定模塊具體包括:
[0037]抓取單元,用于按照預(yù)定頻率抓取第二時(shí)長內(nèi)各網(wǎng)頁頁面中的頁面內(nèi)容;
[0038]提取單元,用于提取每次抓取到的頁面內(nèi)容中的POI數(shù)據(jù);
[0039]判斷單元,用于判斷所述第二時(shí)長內(nèi)各網(wǎng)頁頁面的頁面內(nèi)容中POI數(shù)據(jù)是否發(fā)生變更;
[0040]選擇單元,用于基于判斷結(jié)果選擇相應(yīng)的關(guān)注度分配規(guī)則;
[0041]確定單元,用于基于所述相應(yīng)的關(guān)注度分配規(guī)則,根據(jù)各網(wǎng)頁頁面的用戶關(guān)注度,并結(jié)合各網(wǎng)頁頁面中包括的POI數(shù)據(jù)的個(gè)數(shù),確定各網(wǎng)頁頁面中包括的多個(gè)POI數(shù)據(jù)的用戶關(guān)注度。
[0042]其中,基于判斷結(jié)果選擇相應(yīng)的關(guān)注度分配規(guī)則,包括以下情形:
[0043]當(dāng)POI數(shù)據(jù)未發(fā)生變更時(shí),選擇將網(wǎng)頁頁面的用戶關(guān)注度信息作為該網(wǎng)頁頁面中包括的各POI數(shù)據(jù)的用戶關(guān)注度的關(guān)注度分配規(guī)則;或
[0044]當(dāng)POI數(shù)據(jù)發(fā)生變更時(shí),選擇將網(wǎng)頁頁面的用戶關(guān)注度信息平均分配至該網(wǎng)頁頁面中包括的各POI數(shù)據(jù)的用戶關(guān)注度的關(guān)注度分配規(guī)則。
[0045]優(yōu)選地,所述排序裝置具體用于提取多個(gè)POI數(shù)據(jù)中用戶關(guān)注度大于關(guān)注度閾值的至少兩個(gè)POI數(shù)據(jù);基于用戶關(guān)注度對(duì)所述至少兩個(gè)POI數(shù)據(jù)進(jìn)行排序。
[0046]本發(fā)明的技術(shù)方案中,對(duì)包括具有相同的名稱信息的不同POI數(shù)據(jù)的多個(gè)網(wǎng)頁頁面,根據(jù)多個(gè)網(wǎng)頁頁面的用戶關(guān)注度信息來確定其中包括的POI數(shù)據(jù)所對(duì)應(yīng)的用戶關(guān)注度,再基于用戶關(guān)注度對(duì)POI數(shù)據(jù)進(jìn)行排序,進(jìn)而根據(jù)排序結(jié)果從中選擇對(duì)應(yīng)該相同的名稱信息的可信POI數(shù)據(jù);由于用戶關(guān)注度越高的POI數(shù)據(jù),其包含信息的準(zhǔn)確率越高,同時(shí),網(wǎng)頁頁面的用戶關(guān)注度可直接反應(yīng)網(wǎng)頁頁面包括的各項(xiàng)信息的可信度和價(jià)值度,對(duì)于網(wǎng)頁頁面中包括的POI數(shù)據(jù),網(wǎng)頁頁面的用戶關(guān)注度也可以在很大程度上反應(yīng)POI數(shù)據(jù)的用戶關(guān)注度;因此,根據(jù)用戶關(guān)注度可從具有相同的名稱信息的不同POI數(shù)據(jù)中選擇出可信度較高的POI數(shù)據(jù),解決了現(xiàn)有技術(shù)難以甄別出哪個(gè)POI數(shù)據(jù)中的名稱信息對(duì)應(yīng)的地址信息是準(zhǔn)確的問題,提高了對(duì)收集POI數(shù)據(jù)的準(zhǔn)確率。
[0047]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0048]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0049]圖1為本發(fā)明一個(gè)實(shí)施例中選擇興趣點(diǎn)POI數(shù)據(jù)的方法的流程示意圖;
[0050]圖2為本發(fā)明一個(gè)優(yōu)選實(shí)施例中選擇興趣點(diǎn)POI數(shù)據(jù)的方法的流程示意圖;
[0051]圖3為本發(fā)明另一實(shí)施例中選擇興趣點(diǎn)POI數(shù)據(jù)的裝置的內(nèi)部結(jié)構(gòu)的框架示意圖;
[0052]圖4為本發(fā)明另一優(yōu)選實(shí)施例中選擇興趣點(diǎn)POI數(shù)據(jù)的裝置的內(nèi)部結(jié)構(gòu)的框架示意圖。
【具體實(shí)施方式】
[0053]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
[0054]本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個(gè)”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元件被“連接”或“耦接”到另一元件時(shí),