亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種poi信息差分方法和裝置制造方法

文檔序號(hào):6501752閱讀:163來(lái)源:國(guó)知局
一種poi信息差分方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種POI信息差分方法和裝置,所述方法包括如下步驟:將待差分POI信息拆解成多個(gè)第一特征詞;將多個(gè)第一特征詞進(jìn)行組合,并通過(guò)搜索引擎查詢獲取POI集合;計(jì)算POI集合中每個(gè)POI信息與待差分POI信息之間的第一相似度;根據(jù)所述第一相似度來(lái)選擇一個(gè)或者多個(gè)POI信息作為待差分POI信息的差分結(jié)果。本發(fā)明將待差分POI信息拆解成多個(gè)特征詞,將該特征詞進(jìn)行有效組合,查詢相關(guān)POI集合,計(jì)算集合中的POI與待差分POI信息之間的相似度,并根據(jù)相似度來(lái)輸出差分結(jié)果,該P(yáng)OI信息的差分方法利用這些拆分后的特征詞,能組合出更多的查詢條件,從而查詢出更多可能的結(jié)果,提高了系統(tǒng)的匹配率。
【專利說(shuō)明】一種P01信息差分方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及Ρ0Ι差分領(lǐng)域,特別是涉及一種Ρ0Ι信息差分方法和裝置。

【背景技術(shù)】
[0002] 在現(xiàn)階段作業(yè)員對(duì)第三方POI (Point of Interest,興趣點(diǎn))庫(kù)進(jìn)行差分,主要是 提取Ρ0Ι名稱與Ρ0Ι地址的主體詞,對(duì)電話進(jìn)行格式化,之后利用名稱與地址的主體詞,以 及電話、類型、坐標(biāo)這些信息,去原始庫(kù)中查找相關(guān)信息;在查詢的結(jié)果中尋找相似度高的 Ρ0Ι作為匹配的結(jié)果;其中相似度主要依賴名稱的主體與地址的主體相似度計(jì)算;計(jì)算的 方法主要采用編輯距離、Jaccard相似性系數(shù)等方法?,F(xiàn)有的這種差分方法,每天每人只能 差分出100-200條Ρ0Ι,隨著第三方Ρ0Ι信息急劇增多,傳統(tǒng)的差分方法已經(jīng)嚴(yán)重的影響地 理信息數(shù)據(jù)的生產(chǎn)。
[0003] 現(xiàn)有的Ρ0Ι差分的方法中通常情況下都是通過(guò)人為的建立第三方Ρ0Ι庫(kù)與原始庫(kù) 類別對(duì)照關(guān)系或者人為對(duì)第三方Ρ0Ι庫(kù)進(jìn)行類別標(biāo)注,來(lái)解決第三方P0I庫(kù)與原始庫(kù)類別 不統(tǒng)一帶來(lái)的誤差,但是這種方式非常籠統(tǒng),有一定誤差,不利于縮小匹配范圍;同時(shí)Ρ0Ι 坐標(biāo)主要來(lái)自第三方Ρ0Ι庫(kù),但是通常第三方庫(kù)的坐標(biāo)都有一定偏差,而且大多數(shù)第三方 P0I庫(kù)中都不包含坐標(biāo),同樣不利于縮小匹配范圍;在相似度的計(jì)算方法上,主要依賴地址 與名稱拆分后的主體相似度,這種方法用于計(jì)算地址的相似度并不準(zhǔn)確,因?yàn)榈刂肥欠值?理級(jí)別,在不同區(qū)會(huì)出現(xiàn)主體重名現(xiàn)象,而且不同地址才分后的地址級(jí)別權(quán)重應(yīng)該是變化 的;同時(shí)只靠名稱主體、地址主體、類別與坐標(biāo)去縮小匹配的范圍會(huì)照成部分匹配數(shù)據(jù)的遺 漏。
[0004] 總之,現(xiàn)有的Ρ0Ι差分系統(tǒng)匹配率低,耗費(fèi)時(shí)間長(zhǎng),增加了后續(xù)操作的難度。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的是提供一種Ρ0Ι信息差分方法和裝置,提高了 Ρ0Ι差分匹配率,減少 了耗費(fèi)時(shí)間。
[0006] 為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種Ρ0Ι信息差分方法,包括如下步驟:
[0007] 將待差分Ρ0Ι信息拆解成多個(gè)第一特征詞;
[0008] 將多個(gè)第一特征詞進(jìn)行組合,并通過(guò)搜索引擎查詢獲取Ρ0Ι集合;
[0009] 計(jì)算Ρ0Ι集合中每個(gè)Ρ0Ι信息與待差分Ρ0Ι信息之間的第一相似度;
[0010] 根據(jù)所述第一相似度來(lái)選擇一個(gè)或者多個(gè)Ρ0Ι信息作為待差分Ρ0Ι信息的差分結(jié) 果。
[0011] 優(yōu)選地,所述計(jì)算Ρ0Ι集合中每個(gè)Ρ0Ι信息與待差分Ρ0Ι信息之間的第一相似度, 進(jìn)一步包括:
[0012] 為Ρ0Ι信息中的各個(gè)第二特征詞分別分配一權(quán)重;
[0013] 計(jì)算各個(gè)第二特征詞與已有Ρ0Ι查詢庫(kù)的第二相似度;
[0014] 將Ρ0Ι信息中各個(gè)第二特征詞分配的權(quán)重和其對(duì)應(yīng)的第二相似度的乘積進(jìn)行求 和運(yùn)算,得到運(yùn)算結(jié)果;
[0015] 將該運(yùn)算結(jié)果作為所述Ρ0Ι信息與待差分Ρ0Ι信息之間的第一相似度。
[0016] 優(yōu)選地,所述Ρ0Ι信息的第二特征詞為名稱、地址、電話、類別中的一種或者多種;
[0017] 當(dāng)?shù)诙卣髟~為名稱時(shí),該名稱與已有Ρ0Ι查詢庫(kù)的第二相似度為:該名稱與已 有Ρ0Ι查詢庫(kù)的匹配結(jié)果;
[0018] 當(dāng)?shù)诙卣髟~為地址時(shí),該地址與已有Ρ0Ι查詢庫(kù)的第二相似度為:將該地址根 據(jù)級(jí)別劃分為多個(gè)子地址,為每個(gè)子地址分配一權(quán)重,將每個(gè)子地址同已有Ρ0Ι查詢庫(kù)進(jìn) 行匹配來(lái)獲取子相似度,并將每個(gè)子地址的權(quán)重與對(duì)應(yīng)匹配的子相似度的乘積進(jìn)行求和運(yùn) 算,得到的結(jié)果;
[0019] 當(dāng)?shù)诙卣髟~為電話時(shí),該電話與已有Ρ0Ι查詢庫(kù)的第二相似度為:該電話與已 有Ρ0Ι查詢庫(kù)的匹配結(jié)果;
[0020] 當(dāng)?shù)诙卣髟~為類別時(shí),該類別與已有Ρ0Ι查詢庫(kù)的第二相似度為:該類別與已 有Ρ0Ι查詢庫(kù)的匹配結(jié)果。
[0021] 優(yōu)選地,采用如下公式進(jìn)行計(jì)算該地址的第二相似度scoreadfc : η
[0022] scoreαΜ. level,; k^l
[0023] 其中n為地址劃分的級(jí)別總數(shù);levelk為不同級(jí)別的子地址匹配的子相似度;a k 為子地址對(duì)應(yīng)級(jí)別的權(quán)重

【權(quán)利要求】
1. 一種POI信息差分方法,其特征在于,包括如下步驟: 將待差分P0I信息拆解成多個(gè)第一特征詞; 將多個(gè)第一特征詞進(jìn)行組合,并通過(guò)搜索引擎查詢獲取P0I集合; 計(jì)算P0I集合中每個(gè)P0I信息與待差分P0I信息之間的第一相似度; 根據(jù)所述第一相似度來(lái)選擇一個(gè)或者多個(gè)P0I信息作為待差分P0I信息的差分結(jié)果。
2. 根據(jù)權(quán)利要求1所述的P0I信息差分方法,其特征在于,所述計(jì)算P0I集合中每個(gè) P0I信息與待差分P0I信息之間的第一相似度,進(jìn)一步包括: 為P0I信息中的各個(gè)第二特征詞分別分配一權(quán)重; 計(jì)算各個(gè)第二特征詞與已有P0I查詢庫(kù)的第二相似度; 將P0I信息中各個(gè)第二特征詞分配的權(quán)重和其對(duì)應(yīng)的第二相似度的乘積進(jìn)行求和運(yùn) 算,得到運(yùn)算結(jié)果; 將該運(yùn)算結(jié)果作為所述P0I信息與待差分P0I信息之間的第一相似度。
3. 根據(jù)權(quán)利要求2所述的P0I信息差分方法,其特征在于,所述P0I信息的第二特征詞 為名稱、地址、電話、類別中的一種或者多種; 當(dāng)?shù)诙卣髟~為名稱時(shí),該名稱與已有P0I查詢庫(kù)的第二相似度為:該名稱與已有P0I 查詢庫(kù)的匹配結(jié)果; 當(dāng)?shù)诙卣髟~為地址時(shí),該地址與已有P0I查詢庫(kù)的第二相似度為:將該地址根據(jù)級(jí) 別劃分為多個(gè)子地址,為每個(gè)子地址分配一權(quán)重,將每個(gè)子地址同已有P0I查詢庫(kù)進(jìn)行匹 配來(lái)獲取子相似度,并將每個(gè)子地址的權(quán)重與對(duì)應(yīng)匹配的子相似度的乘積進(jìn)行求和運(yùn)算, 得到的結(jié)果; 當(dāng)?shù)诙卣髟~為電話時(shí),該電話與已有P0I查詢庫(kù)的第二相似度為:該電話與已有P0I 查詢庫(kù)的匹配結(jié)果; 當(dāng)?shù)诙卣髟~為類別時(shí),該類別與已有P0I查詢庫(kù)的第二相似度為:該類別與已有P0I 查詢庫(kù)的匹配結(jié)果。
4. 根據(jù)權(quán)利要求3所述的P0I信息差分方法,其特征在于,采用如下公式進(jìn)行計(jì)算該地 址的第二相似度scoreaddr :
其中η為地址劃分的級(jí)別總數(shù);levelk為不同級(jí)別的子地址匹配的子相似度;a k為子 地址對(duì)應(yīng)級(jí)別的權(quán)重,
5. 根據(jù)權(quán)利要求3所述的P0I信息差分方法,其特征在于,當(dāng)?shù)诙卣髟~為地址時(shí),并 且該地址與已有P0I查詢庫(kù)同時(shí)存在坐標(biāo)時(shí),還計(jì)算該地址與已有P0I查詢庫(kù)距離,根據(jù)計(jì) 算的距離來(lái)得到第三相似度,將該第三相似度與該地址根據(jù)劃分的子地址計(jì)算的相似度進(jìn) 行比較,選擇其中一個(gè)作為該地址與已有P0I查詢庫(kù)的第二相似度。
6. 根據(jù)權(quán)利要求5所述的P0I信息差分方法,其特征在于,所述第三相似度采用如下公 式進(jìn)行計(jì)算: scoread&_2 = dist/dist_kind,其中,dist為所述地址與已有P0I查詢庫(kù)進(jìn)行查詢的距 離,dist_kind為給不同類預(yù)定的最大長(zhǎng)度。
7. 根據(jù)權(quán)利要求3-6中任何一項(xiàng)所述的POI信息差分方法,其特征在于,所述POI信息 中的第二特征詞為名稱、地址、電話和類別的組合時(shí),該P(yáng)0I信息與待差分P0I信息之間的 第一相似度score為: score = a *scorename+^ · socreaddress+x · socrephone+δ · socrekind, 其中,α、β、x、δ為分配的權(quán)重,且α+β + χ + δ =1 ;scorename為名稱第二相似度, scoreadfc地址第二相似度,scoreph_為電話第二相似度,scorekind為類別第二相似度。
8. -種P0I信息差分裝置,其特征在于,包括: 特征詞拆解模塊,用于將獲取的待差分P0I信息拆解成多個(gè)第一特征詞; P0I集合獲取模塊,用于將多個(gè)第一特征詞進(jìn)行組合并通過(guò)搜索引擎查詢獲取P0I集 合; 相似度確定模塊,用于計(jì)算P0I集合中每個(gè)P0I信息與待差分P0I信息之間的第一相 似度; 輸出模塊,用于根據(jù)第一相似度來(lái)選擇一個(gè)或者多個(gè)P0I信息作為待差分P0I信息的 差分結(jié)果。
9. 根據(jù)權(quán)利要求8所述的P0I信息差分裝置,其特征在于,所述相似度確定模塊進(jìn)一步 包括, 權(quán)重分配子模塊,用于為P0I信息中的各個(gè)第二特征詞分別分配一權(quán)重; 相似度計(jì)算子模塊,用于計(jì)算每個(gè)第二特征詞與已有P0I查詢庫(kù)的第二相似度; 求和運(yùn)算子模塊,用于將P0I信息中各個(gè)第二特征詞分配的權(quán)重和其對(duì)應(yīng)的第二相似 度的乘積進(jìn)行求和運(yùn)算; 運(yùn)算結(jié)果輸出子模塊,用于輸出作為第一相似度的該運(yùn)算結(jié)果。
10. 據(jù)權(quán)利要求9所述的P0I信息差分裝置,其特征在于,所述相似度計(jì)算子模塊進(jìn)一 步包括: 當(dāng)?shù)诙卣髟~為名稱時(shí),該名稱與已有P0I查詢庫(kù)的第二相似度為:該名稱與已有P0I 查詢庫(kù)的匹配結(jié)果; 當(dāng)?shù)诙卣髟~為地址時(shí),該地址與已有P0I查詢庫(kù)的第二相似度為:將該地址根據(jù)級(jí) 別劃分為多個(gè)子地址,為每個(gè)子地址分配一權(quán)重,將每個(gè)子地址同已有P0I查詢庫(kù)進(jìn)行匹 配來(lái)獲取子相似度,并將每個(gè)子地址的權(quán)重與對(duì)應(yīng)匹配的子相似度的乘積進(jìn)行求和運(yùn)算, 得到的結(jié)果; 當(dāng)?shù)诙卣髟~為電話時(shí),該電話與已有P0I查詢庫(kù)的第二相似度為:該電話與已有P0I 查詢庫(kù)的匹配結(jié)果; 當(dāng)?shù)诙卣髟~為類別時(shí),該類別與已有P0I查詢庫(kù)的第二相似度為:該類別與已有P0I 查詢庫(kù)的匹配結(jié)果。
【文檔編號(hào)】G06F17/30GK104102667SQ201310125396
【公開(kāi)日】2014年10月15日 申請(qǐng)日期:2013年4月11日 優(yōu)先權(quán)日:2013年4月11日
【發(fā)明者】羅麗俊 申請(qǐng)人:北京四維圖新科技股份有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1