OI數(shù)據(jù)的用戶關(guān)注度,對(duì)POI數(shù)據(jù)進(jìn)行篩選。
[0070]具體地,通過(guò)比較各個(gè)POI數(shù)據(jù)的用戶關(guān)注度與關(guān)注度閾值的關(guān)系,對(duì)POI數(shù)據(jù)進(jìn)行篩選。例如,判斷各個(gè)POI數(shù)據(jù)的用戶關(guān)注度與關(guān)注度閾值的大小關(guān)系,當(dāng)POI數(shù)據(jù)的用戶關(guān)注度大于或等于關(guān)注度閾值時(shí),確定該P(yáng)OI數(shù)據(jù)為可信POI數(shù)據(jù),當(dāng)POI數(shù)據(jù)的用戶關(guān)注度小于關(guān)注度閾值時(shí),確定該P(yáng)OI數(shù)據(jù)為不可信POI數(shù)據(jù),濾除該P(yáng)OI數(shù)據(jù)。
[0071]圖3為本發(fā)明另一實(shí)施例中篩選興趣點(diǎn)POI數(shù)據(jù)的裝置的內(nèi)部結(jié)構(gòu)的框架示意圖。
[0072]獲取模塊310獲取包括POI數(shù)據(jù)的網(wǎng)頁(yè)頁(yè)面及網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度;確定模塊320根據(jù)網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度,確定該網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù)的用戶關(guān)注度;篩選模塊330基于各POI數(shù)據(jù)的用戶關(guān)注度,對(duì)POI數(shù)據(jù)進(jìn)行篩選。
[0073]由于用戶關(guān)注度越高的POI數(shù)據(jù),其包含信息的準(zhǔn)確率越高,同時(shí),網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度可直接反應(yīng)網(wǎng)頁(yè)頁(yè)面包括的各項(xiàng)信息的可信度和價(jià)值度,對(duì)于網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù),網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度也可以在很大程度上反應(yīng)POI數(shù)據(jù)的用戶關(guān)注度;因此,本發(fā)明的技術(shù)方案中,根據(jù)網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度來(lái)確定該網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù)的用戶關(guān)注度,并基于各POI數(shù)據(jù)的用戶關(guān)注度對(duì)POI數(shù)據(jù)進(jìn)行篩選,可根據(jù)POI數(shù)據(jù)的用戶關(guān)注度篩選出準(zhǔn)確率較高的POI數(shù)據(jù),解決了現(xiàn)有技術(shù)中難以從互聯(lián)網(wǎng)中收集到的較為準(zhǔn)確的大量POI數(shù)據(jù)的問(wèn)題。
[0074]獲取模塊310獲取包括POI數(shù)據(jù)的網(wǎng)頁(yè)頁(yè)面及網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度。
[0075]其中,獲取模塊310獲取包括POI數(shù)據(jù)的網(wǎng)頁(yè)頁(yè)面,具體包括:從互聯(lián)網(wǎng)中獲取多個(gè)POI數(shù)據(jù);爬取包括地址信息的多個(gè)網(wǎng)頁(yè)頁(yè)面;將多個(gè)POI數(shù)據(jù)中的地址信息及多個(gè)網(wǎng)頁(yè)頁(yè)面包含的地址信息分別歸一化為經(jīng)瑋度信息;基于同一經(jīng)瑋度信息,在多個(gè)POI數(shù)據(jù)的經(jīng)瑋度信息與多個(gè)網(wǎng)頁(yè)頁(yè)面中經(jīng)瑋度信息中進(jìn)行匹配;對(duì)于具有相同經(jīng)瑋度信息的POI數(shù)據(jù)及網(wǎng)頁(yè)頁(yè)面,根據(jù)該P(yáng)OI數(shù)據(jù)對(duì)應(yīng)的POI名稱在該網(wǎng)頁(yè)頁(yè)面中進(jìn)行查找,確定該網(wǎng)頁(yè)頁(yè)面中是否包括該P(yáng)OI數(shù)據(jù)的POI名稱;當(dāng)該網(wǎng)頁(yè)頁(yè)面中包括該P(yáng)OI數(shù)據(jù)的POI名稱時(shí),確定該網(wǎng)頁(yè)頁(yè)面包括該興趣點(diǎn)POI數(shù)據(jù)。
[0076]首先,從互聯(lián)網(wǎng)中獲取多個(gè)POI數(shù)據(jù)。例如,可利用網(wǎng)絡(luò)爬蟲(chóng)類的程序,從互聯(lián)網(wǎng)中爬取多個(gè)包括POI數(shù)據(jù)的網(wǎng)頁(yè);隨后從多個(gè)包括POI數(shù)據(jù)的網(wǎng)頁(yè)中提取多個(gè)POI數(shù)據(jù)。POI數(shù)據(jù)包括地址信息和POI名稱;優(yōu)選地,POI數(shù)據(jù)還可以包括聯(lián)系方式、郵編和網(wǎng)絡(luò)標(biāo)簽等等。
[0077]隨后,爬取包括地址信息的多個(gè)網(wǎng)頁(yè)頁(yè)面。具體地,利用網(wǎng)絡(luò)爬蟲(chóng)類的程序,從互聯(lián)網(wǎng)中爬取包括地址關(guān)鍵詞的多個(gè)網(wǎng)頁(yè)頁(yè)面;提取多個(gè)網(wǎng)頁(yè)頁(yè)面中與地址關(guān)鍵詞相關(guān)聯(lián)的多個(gè)文本信息。例如,對(duì)于一個(gè)網(wǎng)頁(yè)頁(yè)面,提取該網(wǎng)頁(yè)頁(yè)面的文本內(nèi)容,在文本內(nèi)容中查找“地址”、“位于”或“坐落于”等可能包括地址信息的地址關(guān)鍵詞;提取地址關(guān)鍵詞附近的文本片段;根據(jù)設(shè)定的分隔符以及片段長(zhǎng)度對(duì)文本片段進(jìn)行分割,比如文本片段距離地址關(guān)鍵詞的文本長(zhǎng)度大于設(shè)定的閾值、和/或文本片段出現(xiàn)設(shè)定的分隔符(比如空格、逗號(hào)、句號(hào)等),則對(duì)文本片段進(jìn)行分割;將分割結(jié)果中,分割處(例如分隔符處)與地址關(guān)鍵詞之間的文本片段,作為該網(wǎng)頁(yè)頁(yè)面中與地址關(guān)鍵詞相關(guān)聯(lián)的文本信息;對(duì)于提取自網(wǎng)頁(yè)頁(yè)面中的每個(gè)文本信息,從該文本信息中提取出地址信息,作為該網(wǎng)頁(yè)頁(yè)面的地址信息。
[0078]接著,將多個(gè)POI數(shù)據(jù)中的地址信息及多個(gè)網(wǎng)頁(yè)頁(yè)面包含的地址信息分別歸一化為經(jīng)瑋度信息。預(yù)先獲取包括全國(guó)的省、市、縣(區(qū))、鄉(xiāng)鎮(zhèn)、道路等的地址信息、經(jīng)瑋度信息,以及地址信息與經(jīng)瑋度信息之間的對(duì)應(yīng)關(guān)系的地理信息庫(kù)。例如,對(duì)于每個(gè)POI數(shù)據(jù)中的地址信息,從預(yù)先獲取的地理信息庫(kù)中查找出該地址信息所對(duì)應(yīng)的經(jīng)瑋度信息,將查找出的經(jīng)瑋度信息確定為該P(yáng)OI數(shù)據(jù)的經(jīng)瑋度信息。同時(shí),對(duì)于每個(gè)網(wǎng)頁(yè)頁(yè)面包含的地址信息,從預(yù)先獲取的地理信息庫(kù)中查找出該地址信息所對(duì)應(yīng)的經(jīng)瑋度信息,將查找出的經(jīng)瑋度信息確定為該網(wǎng)頁(yè)頁(yè)面的經(jīng)瑋度信息。
[0079]隨后,基于同一經(jīng)瑋度信息,在多個(gè)POI數(shù)據(jù)的經(jīng)瑋度信息與多個(gè)網(wǎng)頁(yè)頁(yè)面中經(jīng)瑋度信息中進(jìn)行匹配。具體地,對(duì)于每個(gè)POI數(shù)據(jù),判斷各網(wǎng)頁(yè)頁(yè)面中,是否存在經(jīng)瑋度信息與該P(yáng)OI數(shù)據(jù)的經(jīng)瑋度信息相一致的網(wǎng)頁(yè)頁(yè)面,若是,則確定出該P(yáng)OI數(shù)據(jù)與該網(wǎng)頁(yè)頁(yè)面相匹配,即確定出該P(yáng)OI數(shù)據(jù)與該網(wǎng)頁(yè)頁(yè)面具有相同經(jīng)瑋度信息,否則,忽略該P(yáng)OI數(shù)據(jù)。
[0080]隨后,對(duì)于具有相同經(jīng)瑋度信息的POI數(shù)據(jù)及網(wǎng)頁(yè)頁(yè)面,根據(jù)該P(yáng)OI數(shù)據(jù)對(duì)應(yīng)的POI名稱在該網(wǎng)頁(yè)頁(yè)面中進(jìn)行查找,確定該網(wǎng)頁(yè)頁(yè)面中是否包括該P(yáng)OI數(shù)據(jù)的POI名稱。
[0081]接著,對(duì)于具有相同經(jīng)瑋度信息的POI數(shù)據(jù)及網(wǎng)頁(yè)頁(yè)面,當(dāng)該網(wǎng)頁(yè)頁(yè)面中包括該P(yáng)OI數(shù)據(jù)的POI名稱時(shí),確定該網(wǎng)頁(yè)頁(yè)面包括該興趣點(diǎn)POI數(shù)據(jù)。
[0082]其中,獲取模塊310獲取網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度,具體包括:根據(jù)網(wǎng)頁(yè)頁(yè)面在第一時(shí)長(zhǎng)內(nèi)的用戶訪問(wèn)次數(shù)和/或平均每次瀏覽時(shí)長(zhǎng),獲取網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度。其中,用戶訪問(wèn)次數(shù)可為用戶對(duì)指向網(wǎng)頁(yè)頁(yè)面的鏈接的點(diǎn)擊次數(shù)。
[0083]例如,根據(jù)該網(wǎng)頁(yè)頁(yè)面的頁(yè)面標(biāo)識(shí)在用戶歷史訪問(wèn)記錄中查詢,確定在第一時(shí)長(zhǎng)內(nèi),如近30日內(nèi),該網(wǎng)頁(yè)頁(yè)面對(duì)應(yīng)鏈接的用戶點(diǎn)擊次數(shù)和/或該網(wǎng)頁(yè)頁(yè)面的平均每次瀏覽時(shí)長(zhǎng),隨后基于關(guān)注度計(jì)算公式,通過(guò)對(duì)用戶點(diǎn)擊次數(shù)和/或平均每次瀏覽時(shí)長(zhǎng)賦予相應(yīng)的權(quán)重進(jìn)行加權(quán)計(jì)算,來(lái)確定網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度;其中,用戶歷史訪問(wèn)記錄中包括網(wǎng)頁(yè)頁(yè)面對(duì)應(yīng)鏈接的用戶點(diǎn)擊和/或用戶對(duì)網(wǎng)頁(yè)頁(yè)面的瀏覽記錄。
[0084]確定模塊320根據(jù)網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度,確定該網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù)的用戶關(guān)注度。
[0085]可選地,當(dāng)網(wǎng)頁(yè)頁(yè)面中僅包括一個(gè)POI數(shù)據(jù)時(shí),確定該網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù)的用戶關(guān)注度的方式具體為:將網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度作為該網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù)的用戶關(guān)注度。
[0086]可選地,如圖4所示,當(dāng)網(wǎng)頁(yè)頁(yè)面中包括多個(gè)POI數(shù)據(jù)時(shí),根據(jù)網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度,確定模塊包括抓取單元421 (圖中未示出)、提取單元422 (圖中未示出)、判斷單元423 (圖中未示出)和分配單元424 (圖中未示出)。
[0087]抓取單元421按照預(yù)定頻率抓取第二時(shí)長(zhǎng)內(nèi)網(wǎng)頁(yè)頁(yè)面中的頁(yè)面內(nèi)容;提取單元422提取每次抓取到的頁(yè)面內(nèi)容中的POI數(shù)據(jù);判斷單元423判斷第二時(shí)長(zhǎng)網(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容中POI數(shù)據(jù)是否發(fā)生變更;分配單元424當(dāng)POI數(shù)據(jù)發(fā)生變更時(shí),根據(jù)網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度,并結(jié)合網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù)的個(gè)數(shù),將網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度平均分配至該網(wǎng)頁(yè)頁(yè)面中的各POI數(shù)據(jù)。
[0088]抓取單元421按照預(yù)定頻率抓取第二時(shí)長(zhǎng)內(nèi)網(wǎng)頁(yè)頁(yè)面中的頁(yè)面內(nèi)容。
[0089]具體地,對(duì)于包括多個(gè)POI數(shù)據(jù)的網(wǎng)頁(yè)頁(yè)面,可利用網(wǎng)絡(luò)爬蟲(chóng)類的程序,從互聯(lián)網(wǎng)中按照預(yù)定頻率抓取在第二時(shí)長(zhǎng)內(nèi)該網(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容,如以I次/日的頻率,抓取180日內(nèi)該網(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容。
[0090]提取單元422提取每次抓取到的頁(yè)面內(nèi)容中的POI數(shù)據(jù)。
[0091 ] 例如,對(duì)于首次抓取到的頁(yè)面內(nèi)容,從中提取文本內(nèi)容,并在文本內(nèi)容中查找“地址”、“位于”或“坐落于”等可能包括地址信息的地址關(guān)鍵詞;提取地址關(guān)鍵詞附近的文本片段;根據(jù)設(shè)定的分隔符以及片段長(zhǎng)度對(duì)文本片段進(jìn)行分割,比如文本片段距離地址關(guān)鍵詞的文本長(zhǎng)度大于設(shè)定的閾值、和/或文本片段出現(xiàn)設(shè)定的分隔符(比如空格、逗號(hào)、句號(hào)等),則對(duì)文本片段進(jìn)行分割;將分割結(jié)果中,分割處(例如分隔符處)與地址關(guān)鍵詞之間的文本片段,作為該網(wǎng)頁(yè)頁(yè)面中與地址關(guān)鍵詞相關(guān)聯(lián)的文本信息;隨后,對(duì)于各個(gè)文本信息,從各個(gè)文本信息中提取出地址信息,并基于各個(gè)地址信息,分別提取距離其各自最近的名稱作為POI名稱,即提取到各個(gè)POI數(shù)據(jù)。對(duì)于之后抓取到的頁(yè)面內(nèi)容,可基于首次已確定的POI數(shù)據(jù)所在的頁(yè)面位置處直接提取。
[0092]判斷單元423判斷第二時(shí)長(zhǎng)網(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容中POI數(shù)據(jù)是否發(fā)生變更。
[0093]具體地,以I次/日的頻率抓取到180日內(nèi)該網(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容,即180張?jiān)摼W(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容,比較從180張網(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容中提到的各個(gè)POI數(shù)據(jù)是否相同,若相同則確定POI數(shù)據(jù)發(fā)生未變更。例如,一個(gè)網(wǎng)頁(yè)頁(yè)面中包括三個(gè)POI數(shù)據(jù),用P1、P2和P3表示;P1的POI名稱為大董烤鴨店(團(tuán)結(jié)湖店),P2的POI名稱為大董烤鴨店(東四十條店),P3的POI名稱為大董烤鴨店(玉淵潭店);以I次/日的頻率抓取到180日內(nèi)該網(wǎng)頁(yè)頁(yè)面的180張頁(yè)面內(nèi)容,提取該180張頁(yè)面內(nèi)容中P1、P2和P3分別對(duì)應(yīng)的POI名稱和地址信息,即比較180個(gè)Pl的POI名稱和地址信息、180個(gè)P2