亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種興趣點(diǎn)名稱的識(shí)別方法和裝置的制造方法

文檔序號(hào):8943043閱讀:265來(lái)源:國(guó)知局
一種興趣點(diǎn)名稱的識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)處理的技術(shù)領(lǐng)域,特別是涉及一種興趣點(diǎn)名稱的識(shí)別方法和一 種興趣點(diǎn)名稱的識(shí)別裝置。
【背景技術(shù)】
[0002] 興趣點(diǎn)(Point of Interest,Ρ0Ι),又可以稱為"信息點(diǎn)",其包含多方面的信息, 如名稱、類別、經(jīng)度煒度等等。
[0003] 在地理信息系統(tǒng)中,一個(gè)POI可以是一棟房子、一個(gè)商鋪、一個(gè)郵筒、一個(gè)公交站 等。
[0004] 傳統(tǒng)的地理信息采集方法需要地圖測(cè)繪人員采用精密的測(cè)繪儀器去獲取一個(gè)興 趣點(diǎn)的經(jīng)煒度,然后再標(biāo)記下來(lái)。
[0005] 正因?yàn)镻OI數(shù)據(jù)的采集是一個(gè)非常費(fèi)時(shí)費(fèi)事的工作,對(duì)一個(gè)地理信息系統(tǒng)來(lái)說(shuō), POI的數(shù)量在一定程度代表著整個(gè)系統(tǒng)的價(jià)值。
[0006] 為了豐富地理信息系統(tǒng)的POI數(shù)據(jù)的數(shù)量,目前從網(wǎng)頁(yè)中挖掘POI數(shù)據(jù),大多是根 據(jù)網(wǎng)頁(yè)的結(jié)構(gòu)配置合適的模板,通過(guò)模板來(lái)提取。
[0007] 但是,用戶并不一定會(huì)按照網(wǎng)頁(yè)的規(guī)定去發(fā)布信息,使得這些包含POI的網(wǎng)站中 充斥著大量的臟數(shù)據(jù),是錯(cuò)誤的POI數(shù)據(jù)。
[0008] 例如,某個(gè)網(wǎng)站約定網(wǎng)頁(yè)的一個(gè)區(qū)域是發(fā)布公司名稱,但是,有的用戶可能發(fā)布諸 如"世界五百?gòu)?qiáng)企業(yè)"等數(shù)據(jù),并非是一個(gè)真正的POI名稱。
[0009] 若后續(xù)應(yīng)用這些錯(cuò)誤的POI數(shù)據(jù)進(jìn)行導(dǎo)航等操作,操作的錯(cuò)誤率高,造成資源浪 費(fèi)。

【發(fā)明內(nèi)容】

[0010] 鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上 述問(wèn)題的一種興趣點(diǎn)名稱的識(shí)別方法和相應(yīng)的一種興趣點(diǎn)名稱的識(shí)別裝置。
[0011] 依據(jù)本發(fā)明的一個(gè)方面,提供了一種興趣點(diǎn)名稱的識(shí)別方法,包括:
[0012] 在網(wǎng)頁(yè)中提取興趣點(diǎn)數(shù)據(jù);所述興趣點(diǎn)數(shù)據(jù)包括興趣點(diǎn)名稱;
[0013] 將標(biāo)識(shí)同一對(duì)象的興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合;
[0014] 從所述興趣點(diǎn)名稱集合中識(shí)別錯(cuò)誤的第一目標(biāo)興趣點(diǎn)名稱。
[0015] 可選地,所述在網(wǎng)頁(yè)中提取興趣點(diǎn)數(shù)據(jù)的步驟包括:
[0016] 查找針對(duì)網(wǎng)頁(yè)配置的模板;
[0017] 在所述網(wǎng)頁(yè)中,依據(jù)所述模板指示的位置提取興趣點(diǎn)數(shù)據(jù)。
[0018] 可選地,所述興趣點(diǎn)數(shù)據(jù)還包括興趣點(diǎn)地址;
[0019] 所述將標(biāo)識(shí)同一對(duì)象的興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合的步驟包括:
[0020] 判斷所述興趣點(diǎn)地址是否相同或相似;若是,則將所述興趣點(diǎn)地址關(guān)聯(lián)的興趣點(diǎn) 名稱設(shè)置為興趣點(diǎn)名稱集合。
[0021] 可選地,所述從所述興趣點(diǎn)名稱集合中識(shí)別錯(cuò)誤的第一目標(biāo)興趣點(diǎn)名稱的步驟包 括:
[0022] 在所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱選取關(guān)鍵詞;
[0023] 依據(jù)所述關(guān)鍵詞從所述興趣點(diǎn)名稱中識(shí)別錯(cuò)誤第一的目標(biāo)興趣點(diǎn)名稱。
[0024] 可選地,所述在所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱選取關(guān)鍵詞的步驟包括:
[0025] 對(duì)所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱進(jìn)行分詞處理,獲得一個(gè)或多個(gè)分詞;
[0026] 查找所述分詞在預(yù)設(shè)的興趣點(diǎn)集合中的第一詞頻;
[0027] 將同一個(gè)興趣點(diǎn)名稱中第一詞頻最低的X個(gè)分詞,作為所述興趣點(diǎn)名稱的關(guān)鍵 詞,其中,X為正整數(shù)。
[0028] 可選地,所述在所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱選取關(guān)鍵詞的步驟還包括:
[0029] 當(dāng)所述分詞與預(yù)設(shè)的地址數(shù)據(jù)匹配時(shí),移除所述分詞。
[0030] 可選地,所述依據(jù)所述關(guān)鍵詞從所述興趣點(diǎn)名稱中識(shí)別錯(cuò)誤的第一目標(biāo)興趣點(diǎn)名 稱的步驟包括:
[0031] 計(jì)算所述關(guān)鍵詞在所述興趣點(diǎn)名稱集合中的第二詞頻;
[0032] 將所述第二詞頻最低的Y個(gè)關(guān)鍵詞所屬的興趣點(diǎn)名稱確定為錯(cuò)誤的第一目標(biāo)興 趣點(diǎn)名稱,其中,Y為正整數(shù)。
[0033] 根據(jù)本發(fā)明的另一方面,提供了一種興趣點(diǎn)名稱的識(shí)別裝置,包括:
[0034] 興趣點(diǎn)數(shù)據(jù)提取模塊,適于在網(wǎng)頁(yè)中提取興趣點(diǎn)數(shù)據(jù);所述興趣點(diǎn)數(shù)據(jù)包括興趣 點(diǎn)名稱;
[0035] 興趣點(diǎn)名稱集合設(shè)置模塊,適于將標(biāo)識(shí)同一對(duì)象的興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱 集合;
[0036] 錯(cuò)誤興趣點(diǎn)名稱識(shí)別模塊,適于從所述興趣點(diǎn)名稱集合中識(shí)別錯(cuò)誤的第一目標(biāo)興 趣點(diǎn)名稱。
[0037] 可選地,所述興趣點(diǎn)數(shù)據(jù)提取模塊還適于:
[0038] 查找針對(duì)網(wǎng)頁(yè)配置的模板;
[0039] 在所述網(wǎng)頁(yè)中,依據(jù)所述模板指示的位置提取興趣點(diǎn)數(shù)據(jù)。
[0040] 可選地,所述興趣點(diǎn)數(shù)據(jù)還包括興趣點(diǎn)地址;
[0041] 所述興趣點(diǎn)名稱集合設(shè)置模塊還適于:
[0042] 判斷所述興趣點(diǎn)地址是否相同或相似;若是,則將所述興趣點(diǎn)地址關(guān)聯(lián)的興趣點(diǎn) 名稱設(shè)置為興趣點(diǎn)名稱集合。
[0043] 可選地,所述錯(cuò)誤興趣點(diǎn)名稱識(shí)別模塊還適于:
[0044] 在所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱選取關(guān)鍵詞;
[0045] 依據(jù)所述關(guān)鍵詞從所述興趣點(diǎn)名稱中識(shí)別錯(cuò)誤第一的目標(biāo)興趣點(diǎn)名稱。
[0046] 可選地,所述錯(cuò)誤興趣點(diǎn)名稱識(shí)別模塊還適于:
[0047] 對(duì)所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱進(jìn)行分詞處理,獲得一個(gè)或多個(gè)分詞;
[0048] 查找所述分詞在預(yù)設(shè)的興趣點(diǎn)集合中的第一詞頻;
[0049] 將同一個(gè)興趣點(diǎn)名稱中第一詞頻最低的X個(gè)分詞,作為所述興趣點(diǎn)名稱的關(guān)鍵 詞,其中,X為正整數(shù)。
[0050] 可選地,所述錯(cuò)誤興趣點(diǎn)名稱識(shí)別模塊還適于:
[0051] 當(dāng)所述分詞與預(yù)設(shè)的地址數(shù)據(jù)匹配時(shí),移除所述分詞。
[0052] 可選地,所述錯(cuò)誤興趣點(diǎn)名稱識(shí)別模塊還適于:
[0053] 計(jì)算所述關(guān)鍵詞在所述興趣點(diǎn)名稱集合中的第二詞頻;
[0054] 將所述第二詞頻最低的Y個(gè)關(guān)鍵詞所屬的興趣點(diǎn)名稱確定為錯(cuò)誤的第一目標(biāo)興 趣點(diǎn)名稱,其中,Y為正整數(shù)。
[0055] 本發(fā)明實(shí)施例從網(wǎng)頁(yè)提取到興趣點(diǎn)數(shù)據(jù)中識(shí)別標(biāo)識(shí)同一對(duì)象的興趣點(diǎn)名稱,從而 識(shí)別錯(cuò)誤的第一目標(biāo)興趣點(diǎn)名稱,從而后續(xù)的操作中剔除這些錯(cuò)誤的POI數(shù)據(jù),降低了操 作的錯(cuò)誤率,減少了資源浪費(fèi)。
[0056] 上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說(shuō)明】
[0057] 通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0058] 圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種興趣點(diǎn)名稱的識(shí)別方法實(shí)施例1的步驟 流程圖;
[0059] 圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種興趣點(diǎn)名稱的識(shí)別方法實(shí)施例2的步驟 流程圖;
[0060] 圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種興趣點(diǎn)名稱的識(shí)別方法實(shí)施例3的步驟 流程圖;
[0061] 圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種興趣點(diǎn)名稱的識(shí)別裝置實(shí)施例1的結(jié)構(gòu) 框圖;
[0062] 圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種興趣點(diǎn)名稱的識(shí)別裝置實(shí)施例2的結(jié)構(gòu) 框圖;以及
[0063] 圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種興趣點(diǎn)名稱的識(shí)別裝置實(shí)施例3的結(jié)構(gòu) 框圖。
【具體實(shí)施方式】
[0064] 下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0065] 參照?qǐng)D1,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種興趣點(diǎn)名稱的識(shí)別方法實(shí)施例1 的步驟流程圖,具體可以包括如下步驟:
[0066] 步驟101,在網(wǎng)頁(yè)中提取興趣點(diǎn)數(shù)據(jù);
[0067] 在本發(fā)明實(shí)施例中,爬蟲可以預(yù)先通過(guò)網(wǎng)頁(yè)間的鏈接關(guān)系,抓取互聯(lián)網(wǎng)的網(wǎng)頁(yè)并 保存,爬蟲抓取的網(wǎng)頁(yè)保存在網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中形成大量的搜索資源。
[0068] 對(duì)于存在較多的POI數(shù)據(jù)、且POI數(shù)據(jù)分布具有規(guī)律的網(wǎng)頁(yè),如用戶進(jìn)行餐飲、旅 游進(jìn)行點(diǎn)評(píng)的網(wǎng)站中的網(wǎng)頁(yè),地圖網(wǎng)站中的網(wǎng)頁(yè)等等,可以查找針對(duì)網(wǎng)頁(yè)配置的模板,在網(wǎng) 頁(yè)中,依據(jù)模板指示的位置提取興趣點(diǎn)數(shù)據(jù),從而獲取到大量的POI數(shù)據(jù),其中包括關(guān)聯(lián)的 興趣點(diǎn)名稱、興趣點(diǎn)地址、URL(Uniform Resource Locator,統(tǒng)一資源定位符)等等。
[0069] 例如,某個(gè)網(wǎng)站的部分網(wǎng)頁(yè)結(jié)構(gòu)如下:
[0071] 其中,"***"為域名。
[0072] 在這個(gè)網(wǎng)站的模板中,在第一行可以提取到興趣點(diǎn)名稱,在最后一行可以提取到 興趣點(diǎn)地址。
[0073] 通過(guò)模板,在不同網(wǎng)站的網(wǎng)頁(yè)提取了如下興趣點(diǎn)數(shù)據(jù):
[0075] 其中," "和"#"為不同的域名。
[0076] 步驟102,將標(biāo)識(shí)同一對(duì)象的興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合;
[0077] POI數(shù)據(jù)一般都會(huì)標(biāo)識(shí)一個(gè)對(duì)象,如一棟房子、一個(gè)商鋪、一個(gè)郵筒、一個(gè)公交站 等。
[0078] 由于該對(duì)象的地址信息的準(zhǔn)確性一般比較高,因此,在本發(fā)明實(shí)施例中,可以通過(guò) 將興趣點(diǎn)地址進(jìn)行歸一化,判斷興趣點(diǎn)地址是否相同或相似;若是,則將興趣點(diǎn)地址關(guān)聯(lián)的 興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合。
[0079] 例如,"榆林榆陽(yáng)膚施路今日潮大酒店隔壁東恒百貨三樓"、"榆林榆陽(yáng)區(qū)膚施路今 日潮隔壁東恒百貨三樓第一營(yíng)業(yè)部"、"榆林榆陽(yáng)南門口東
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1