亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

電子地圖興趣點數(shù)據(jù)冗余檢測方法和系統(tǒng)的制作方法

文檔序號:6464875閱讀:276來源:國知局
專利名稱:電子地圖興趣點數(shù)據(jù)冗余檢測方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別涉及一種電子地圖興趣點(Point of Interest, POI)數(shù)據(jù)冗余檢測方法和系統(tǒng)。
背景技術(shù)
興趣點(Point Of Interest, POI)數(shù)據(jù),通常包括名稱、類別、經(jīng)度、鄉(xiāng)爭 度等信息。電子地圖POI數(shù)據(jù)中,通常還會包含地址信息。這些信息是構(gòu)成電 子地圖信息的最重要的元素。 一般地, 一條POI數(shù)據(jù)代表電子地圖中的一個位
置實體。
在現(xiàn)有的電子地圖服務(wù)中,例如各大網(wǎng)站提供的電子地圖服務(wù)中,很多電 子地圖數(shù)據(jù)存在冗余。所謂冗余,是指兩條或多條POI數(shù)據(jù)代表電子地圖中的 同一位置實體。例如在圖1所示的某一網(wǎng)站提供的電子地圖服務(wù)中,以"北京 海淀區(qū)全聚德"進行搜索所得到的結(jié)果中,顯示出冗余數(shù)據(jù)的存在。如圖1 中的搜索結(jié)果1和3,盡管是兩條POI數(shù)據(jù),但是實際上代表的是地圖中的同 一位置。這兩條冗余數(shù)據(jù)坐標相同,名稱和地址分別如下
結(jié)果l名稱全聚德(玉泉路)
地址北京市海淀區(qū)復(fù)興^各44號
結(jié)果3 名稱全聚德玉泉路店
地址北京市海淀區(qū)復(fù)興^各44號
類似的,圖1中的搜索結(jié)果4和5,也是冗余數(shù)據(jù)。
如圖2所示的另一網(wǎng)站提供的電子地圖服務(wù)中所示,同樣以"北京海淀 區(qū)全聚德,,進4亍搜索所得到的結(jié)果中,也存在冗余數(shù)據(jù)。如圖2中的搜索結(jié) 果A和B,盡管是兩條POI數(shù)據(jù),但是實際上代表的是地圖中的同一位置。 這兩條冗余數(shù)據(jù)坐標相同,名稱和地址分別如下
結(jié)果A名稱全聚德(五道口店)
地址北京市海淀區(qū)中關(guān)村東路1號科技大廈AC座1層
結(jié)果B名稱全聚德烤鴨店(清華園店)
地址北京海淀區(qū)中關(guān)村東路1號院(清華科技園科技大廈A
座1樓)
另外,還存在由于名稱或地址描述中的錯字引起的冗余數(shù)據(jù),在此不再列舉。
但是,現(xiàn)有技術(shù)中,還沒有提出對上述電子地圖興趣點數(shù)據(jù)進行冗余檢測 的方法。

發(fā)明內(nèi)容
本發(fā)明實施例的目的是提供一種電子地圖興趣點數(shù)據(jù)冗余檢測方法和系 統(tǒng),以實現(xiàn)對電子地圖興趣點數(shù)據(jù)的冗余檢測。
為解決上述技術(shù)問題,本發(fā)明實施例提供一種電子地圖興趣點數(shù)據(jù)冗余檢
測方法和系統(tǒng)是這樣實現(xiàn)的
一種冗余檢測方法,包括對POI數(shù)據(jù)的名稱進行二元切分,為切分的二 元詞建立倒排索引,并為POI數(shù)據(jù)根據(jù)倒排索引中的出現(xiàn)頻率最低的詞搜索相 似POI數(shù)據(jù);對搜索到的具有名稱相似關(guān)系的POI數(shù)據(jù),進行名稱相似度計 算和地址相似度計算;根據(jù)POI數(shù)據(jù)的名稱相似度和地址相似度得到總相似 度;將總相似度與預(yù)設(shè)的閾值比較,大于預(yù)設(shè)閾值的,判定對應(yīng)POI數(shù)據(jù)為冗 余數(shù)據(jù)。
上述方法基礎(chǔ)上,所述名稱相似度計算,包括采用基于編輯距離的方式計
算,采用基于編輯距離的方式如下表示S名,J(U");其中,S
|x| x |y|
"表示基于編輯距離的相似度值,X和Y分別代表兩個字符串,Edit(X, Y) 代表X和Y的編輯距離,|X|、 lYl分別表示字符串X、 Y的長度;或者,采用
基于Jaccard系數(shù)的方式計算,所述基于Jaccard系數(shù)的方式如下表示 S 2=f^;其中,S"表示基于Jaccard系數(shù)的相似度值,X和Y分別代表
兩個字符串,XUY代表兩個字符串的所有字符,XHY代表來兩個字符串所 有相同的字符,取絕對值表示包含的字符的長度。 上述方法基礎(chǔ)上,所述進行名稱相似度計算,包括結(jié)合基于編輯距離的方
式與基于Jaccard系數(shù)的方式,并采用F-度量計算,如下表示
~~^——F -表示結(jié)合基于編輯距離的方式與基于Jaccard系數(shù)的 3丄+ (1 —3)丄
S名l S名2
方式計算的名稱相似度,3表示預(yù)先設(shè)定的加權(quán)值。
上述方法基礎(chǔ)上,所述進行地址相似度計算,包括采用基于Jaccard系
數(shù)的方式計算,所述采用基于Jaccard系數(shù)的方式計算如下表示Sw =
|X(1Y| —UY|;
其中,S旬表示基于Jaccard系數(shù)的相似度值,X和Y分別代表兩個字符串, X U Y代表兩個字符串的所有字符,X n Y代表來兩個字符串所有相同的字符, 取絕對值表示包含的字符的長度。
上述方法基礎(chǔ)上,所述進行地址相似度計算,包括根據(jù)預(yù)置的地址詞庫, 對POI數(shù)據(jù)的地址進行分詞;對于分詞后第一 POI數(shù)據(jù)的地址元素集合中每 一地址元素,計算與分詞后第二 POI數(shù)據(jù)的地址元素集合中每一地址元素的相 似度值,并找出最大相似度值,并作為所述第一POI數(shù)據(jù)中該地址元素與第二 POI數(shù)據(jù)地址元素的相似度值;將第一 POI數(shù)據(jù)地址中每一地址元素與第二 POI數(shù)據(jù)地址元素的相似度值累加,再除以兩個POI數(shù)據(jù)中地址元素個凄t平均 值,作為地址相似度值S 地2。
進一步,上述方法基礎(chǔ)上,對于分詞后第一 POI數(shù)據(jù)的地址元素集合中 每一地址元素,采用基于編輯距離的方式計算與分詞后第二 POI數(shù)據(jù)的地址元
素集合中每一地址元素的相似度值。
進一步,上述方法基礎(chǔ)上,所述地址詞庫包括預(yù)先設(shè)定的地名詞庫,該地
名詞庫中包括預(yù)先設(shè)定的地名數(shù)據(jù);相應(yīng)地,才艮據(jù)預(yù)置的地名詞庫,對POI 數(shù)據(jù)的地址按照預(yù)置的地名詞庫存在的地名數(shù)據(jù)進行分詞。
進一步,上述方法基礎(chǔ)上,所述地址詞庫還包括預(yù)先設(shè)定的地址后綴詞庫, 該地址后綴詞庫中包括預(yù)先設(shè)定的地址后綴凄t據(jù);相應(yīng)地,對于不在地名詞庫 中的地址,按照地址后綴詞庫將其分為一個詞。
進一步,所述進行地址相似度計算,包括結(jié)合基于Jaccard系數(shù)的方式與 基于分詞的方式并采用F-度量計算,如下表示Fw=^~~^——其中,
F地表示結(jié)合基于Jaccard系數(shù)的方式與基于分詞方式計算的地址相似度,3表 示預(yù)先設(shè)定的加權(quán)值。
上述方法基礎(chǔ)上,所述得到總相似度之后,比較總相似度與預(yù)設(shè)的閾值之 前,本方法還包括如果所述POI數(shù)據(jù)的電話相同,則將所述總相似度乘以一 個大于1的系數(shù)。
上述方法中,所述得到總相似度之后,比較總相似度與預(yù)設(shè)的閾值之前, 本方法還包括如果POI數(shù)據(jù)的名稱和/或地址的相應(yīng)位置的數(shù)字不同,則將 總相似度置為0。
上述方法中,所述得到總相似度之后,比較總相似度與預(yù)設(shè)的閾值之前, 冬方法還包括對于兩個POI數(shù)據(jù)存在名稱子串的情況,如果根據(jù)預(yù)置的位置 實體詞庫判斷剩余串中包括表示位置實體的詞語,則將總相似度置為0;或者,
如果剩余串中包括預(yù)置的特別后綴詞庫中的后綴,且后綴前為空或為地名,則 將總相似度乘以一個大于1的系數(shù);
如果剩余串中包括預(yù)置的特別后綴詞庫中的后綴,且后綴前為不空,也不 為地名,則將總相似度置為O。
上述方法中,所述得到總相似度之后,比較總相似度與預(yù)設(shè)的閾值之前, 本方法還包括對于兩個POI數(shù)據(jù)存在名稱子序列的情況,則將總相似度乘以 一個大于1的系數(shù)。
一種冗余^r測系統(tǒng),包括搜索單元,用于對POI H據(jù)的名稱進行二元 切分,為切分的二元詞建立倒排索引,并為POI凄史據(jù)根據(jù)倒排索引中的出現(xiàn)頻 率最低的詞搜索相似POI數(shù)據(jù);名稱相似度計算單元,用于對搜索到的具有名 稱相似關(guān)系的POI數(shù)據(jù),進行名稱相似度計算;地址相似度計算單元,用于對 搜索到的具有名稱相似關(guān)系的POI數(shù)據(jù),進行地址相似度計算;總相似度計算 單元,用于根據(jù)POI數(shù)據(jù)的名稱相似度和地址相似度得到總相似度;冗余數(shù)據(jù)
判斷單元,將總相似度與預(yù)設(shè)的閾值比較,大于預(yù)設(shè)閾值的,判定對應(yīng)POI 數(shù)據(jù)為冗余數(shù)據(jù)。
一種冗余^r測方法,包括對POI lt據(jù)的地址進行二元切分,為切分的 二元詞建立倒排索引,并為POI數(shù)據(jù)根據(jù)倒排索引中的出現(xiàn)頻率最低的詞搜索 相似POI數(shù)據(jù);對搜索到的具有地址相似關(guān)系的POI數(shù)據(jù),進行名稱相似度 計算和地址相似度計算;根據(jù)POI數(shù)據(jù)的名稱相似度和地址相似度得到總相似 度;將總相似度與預(yù)設(shè)的闊值比較,大于預(yù)設(shè)閾值的,判定對應(yīng)POI數(shù)據(jù)為冗 余數(shù)據(jù)。
由以上本發(fā)明實施例提供的技術(shù)方案可見,本發(fā)明對POI數(shù)據(jù)的名稱進行 二元切分,為切分的二元詞建立倒排索引,并為POI數(shù)據(jù)根據(jù)倒排索引中的出 現(xiàn)頻率最低的詞搜索相似POI數(shù)據(jù);對搜索到的具有名稱相似關(guān)系的POI數(shù) 據(jù),進行名稱相似度計算和地址相似度計算;將所述POI數(shù)據(jù)的名稱相似度和 地址相似度取平均值,得到總相似度;將總相似度與預(yù)設(shè)的閾值比較,大于預(yù) 設(shè)閾值的,判定對應(yīng)POI數(shù)據(jù)為冗余數(shù)據(jù)。這些對輸出的處理充分利用了 POI 數(shù)據(jù)的重要信息,并通過分別計算這些重要信息的相似度和31入對相關(guān)信息的 考慮,整合得到POI數(shù)據(jù)的相似度。這個相似度可以非常好的刻畫POI數(shù)據(jù) 的冗余情況,利用這個相似度可以檢測出POI數(shù)據(jù)的所有冗余數(shù)據(jù)。同時,本 發(fā)明實施例結(jié)合每種信息的實際情況加入一些規(guī)則,可以有效避免錯誤情況, 保證冗余^r測結(jié)果的準確率。


圖1為現(xiàn)有技術(shù)中某一網(wǎng)站提供的電子地圖服務(wù);
圖2為現(xiàn)有技術(shù)中某一網(wǎng)站提供的電子地圖服務(wù);
圖3為本發(fā)明方法實施例的流程圖4為本發(fā)明系統(tǒng)一個實施例的框圖5為本發(fā)明系統(tǒng)一個實施例的框圖6為本發(fā)明系統(tǒng)一個實施例的框圖7為本發(fā)明系統(tǒng)一個實施例的框圖8為本發(fā)明系統(tǒng)一個實施例的框圖; 圖9為本發(fā)明系統(tǒng)一個實施例的框圖; 圖IO為本發(fā)明系統(tǒng)一個實施例的框圖; 圖11為本發(fā)明系統(tǒng)一個實施例的框圖; 圖12為本發(fā)明系統(tǒng)一個實施例的框圖; 圖13為本發(fā)明系統(tǒng)一個實施例的框圖; 圖14為本發(fā)明系統(tǒng)一個實施例的框圖; 圖15為本發(fā)明系統(tǒng)一個實施例的框圖。
具體實施例方式
本發(fā)明實施例提供一種電子地圖興趣點數(shù)據(jù)冗余檢測方法和系統(tǒng)。
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和實施方
式對本發(fā)明實施例作進一步的詳細說明。
圖3示出了本發(fā)明冗余^r測方法一實施例的流程圖,如圖3所示,該方法
實施例包括
301:對POI數(shù)據(jù)的名稱進行二元切分,為切分的二元詞建立倒排索引(所 述對于名稱的二元切分以及倒排序可以對全部POI數(shù)據(jù)中每一 POI數(shù)據(jù)執(zhí) 行),并為POI數(shù)據(jù)根據(jù)倒排索引中的出現(xiàn)頻率最低的詞搜索相似POI數(shù)據(jù)。
這里所說的二元切分,即將名稱按照步長為2進行切分,這樣,長度為n (n個字)的名稱;故切分為n-l個二元詞,且前一個詞和后一個詞有一個7>共 字。舉個例子加以說明,對于"清華科技園搜狐",進行二元切分后為"清華/ 華科/科41/4支園/園^/搜狐"。
如上面的例子,分別對清華、華科、科技、技園、園搜、搜狐這些字段建 立倒排索引。倒排索引是一種索引的組織方式,例如,對于詞A, A出現(xiàn)在很 多POI數(shù)據(jù)的名稱中,則A的倒排索引為
A: POI數(shù)據(jù)l名稱,POI數(shù)據(jù)2名稱,...
為POI數(shù)據(jù)根據(jù)倒排索引中的出現(xiàn)頻率最低的詞搜索相似POI數(shù)據(jù)。例 如為某一 POI數(shù)據(jù)檢索具有相近名稱的POI數(shù)據(jù),可以對纟皮檢索的POI數(shù)據(jù)
的名稱進行二元切分,然后切分后的二元詞中頻率最少的一個或幾個二元詞進 行檢索,檢索出需要進行計算相似度的那些數(shù)據(jù)。例如對于上面的名稱,可以 只根據(jù)出現(xiàn)頻率較低的"園搜"和"搜狐"進行檢索,而不對"清華"、"科技"
這類出現(xiàn)頻率較高的詞進行檢索。其原因在于出現(xiàn)頻率較小的二元詞語一般 不是一個詞語,但它同樣包含了一定的語序信息,從而它可以作為一種名稱的 代表。同時,冗余數(shù)據(jù)之間往往擁有相同的且頻率不高的二元詞語。以這些詞 語作為特征來檢索,可以很好的將有可能冗余的POI數(shù)據(jù)匯集在一起,而將其 它不太可能是冗余的POI數(shù)據(jù)排除,因此可以大大地減少冗余檢測的計算量。 302:對搜索到的具有名稱相似關(guān)系的POI數(shù)據(jù),進行名稱相似度計算。 冗余數(shù)據(jù)的名稱一般具有很好的相似度,名稱相似度較低的POI數(shù)據(jù)不大 可能是冗余數(shù)據(jù)。
進行名稱相似度的計算,具體的,可以采用基于編輯距離相似度的計算,
也可以采用基于Jaccard系數(shù)的相似度計算。
基于編輯距離相似度的計算,可以通過如下公式表示
<formula>formula see original document page 16</formula>
S w表示基于編輯距離的相似度值,X和Y分別代表兩個字符串,其中 Edit(X, Y)是X和Y的編輯距離,|X|、 lYl分別表示字符串X、 Y的長度, 如X二abcde,則IX—5。 |X|1/2 x|lf 2表示兩個字符串的平均長度。
編輯距離是一個字符串經(jīng)過插入、替換、刪除操作變成另一個字符串的最 少操作次數(shù),如對于abcd和abdd。串a(chǎn)bcd把c替換成d,就變成了串a(chǎn)bdd。 因此它們的編輯距離為1。
公式(l)的原理是,首先計算兩個字符串的編輯距離,它表示了兩個字 符串的遠近程度。值越大,表示編輯距離越遠。之后,用兩個字符串的平均長 度減去編輯距離,再除以兩個字符串的平均長度,就得到這兩個字符串的相似 度值。相似度值越大,表示兩個字符串越接近。
基于Jaccard系數(shù)的相似度計算,可以通過如下公式表示
<formula>formula see original document page 17</formula>(2)
公式(2)中,S名2表示基于Jaccard系數(shù)的相似度值,XUY代表兩個字 符串的所有字符,XflY代表兩個字符串所有相同的字符。取絕對值表示集合 的大小。例如Xibcde, Y=acdef,則,
XUY = a, b, c, d, e, f
|X U Y| = 6
XflY = a, c, d, e
|X n Y| = 4
這個公式是計算字符串相似度的一種方式,它不考慮字符的順序。只是用 兩個字符串交集的字符數(shù)除以它們并集的字符數(shù),這個值越大,表示字符串越相似。
302中,對于名稱相似度的計算,可以采用基于編輯距離相似度的方式, 也可以采用基于Jaccard系數(shù)的相似度的方式。當然還存在其它文本相似度計 算的方式,也可以引入本發(fā)明實施例中,在此不再介紹。
此外,應(yīng)該注意的是,基于編輯距離的相似度計算考慮了字符串的語序, 而基于Jaccard系數(shù)的相似度計算不考慮字符串的語序。兩種方式各有優(yōu)點和 缺點,因此,這里,給出一種綜合利用上述兩種計算方式來計算名稱相似度的 方式。設(shè)上述兩種方式,即公式(1)和公式(2)的結(jié)果分別為Si和S2,則 可以采用F-度量,具體如下面公式<formula>formula see original document page 17</formula>
這樣得到的結(jié)果F名實際上是S "和S名2的加權(quán)調(diào)和平均值。加權(quán)值3可 以根據(jù)經(jīng)驗來設(shè)定,3越大,表示S,越重要;3越小,表示S2越重要。
303:對搜索到的具有名稱相似關(guān)系的POI數(shù)據(jù),進行地址相似度計算。 對于地址相似度的計算,可以采用多種方式,這里列舉兩種。 一種是直接利用基于Jaccard系數(shù)的方式計算兩個地址的相似度,該方式
17
與前面提到的利用Jaccard系數(shù)計算兩個名稱相似度類似,可以如下表示
s —剛 (4)
S地,表示基于Jaccard系數(shù)的相似度值。
另一種是基于分詞的計算方法。POI凄t據(jù)的地址在分詞后,地址由分詞后 的多個地址元素構(gòu)成。對于一個POI數(shù)據(jù)(第一 POI數(shù)據(jù))分詞后的地址元 素集合中每一地址元素,在另一 POI數(shù)據(jù)(第二 POI數(shù)據(jù))分詞后的地址元 素集合中尋找相似的地址元素。具體的,可以采用基于編輯距離的方式計算相 似度。之后,將最大相似度值作為所述第一POI數(shù)據(jù)中該地址元素與第二POI 數(shù)據(jù)地址元素的相似度值。依此,計算第一 POI數(shù)據(jù)中每一地址元素與第二 POI數(shù)據(jù)地址元素的相似度值。之后,將計算的每一地址元素的相似度值累加, 最后除以兩個POI數(shù)據(jù)中地址元素個數(shù)的平均值,得到第一 POI數(shù)據(jù)地址與 第二 POI數(shù)據(jù)地址的相似度值。基于分詞的方式計算得到的地址相似度可以用 S地2表示。其中所述地址元素個數(shù)的平均值可以是算術(shù)平均值(將兩個POI 數(shù)據(jù)中地址元素個數(shù)求和再除以2)、幾何平均值(兩個POI數(shù)據(jù)中地址元素 個數(shù)乘積的開方)、平方平均值等。
此外,還可以綜合上述兩種方式,采用F-度量進行組合,然后得到地址 的相似度。可以如下表示
顯然地,302和303之間沒有先后順序關(guān)系。
特別地,如果這里采用包含基于分詞的方式進行計算,則,該步驟之前, 還需要以下30A步驟。
30A:根據(jù)預(yù)置的地址詞庫,對POI數(shù)據(jù)的地址進行分詞。 整體說來,POI數(shù)據(jù)中,地址的相似性較低。 一般地址的寫法多樣而且比 較復(fù)雜,還可能出現(xiàn)多字、少字及錯字的情況。如果僅僅把地址處理為簡單字 符串,用一些字符串匹配算法(如后續(xù)介紹的最大公共子序列,編輯距離等)
來計算相似度,由于上述問題的存在,效果會比較差。
一般地,地址是由許多地址元素(具有最小地理涵義的單元)按照包含的 偏序關(guān)系組合而成,這些地址元素和它們的關(guān)系構(gòu)成了地址的特征。因此在后 續(xù)計算地址的相似度時,應(yīng)該首先將地址進行分割,將所有地址元素分割出來, 即是這里所說的地址分詞。
本發(fā)明實施例中,地址分詞可以采用地址詞庫實現(xiàn)。地址詞庫在這里可以 通過預(yù)先設(shè)定得到。這里所說的地址詞庫可以包括地名詞庫,或進一步的包含 地址后綴詞庫。
首先,關(guān)于地名詞庫,該詞庫中存有預(yù)先設(shè)定的地名。所說的地名是當前
村,公路、街道、樓盤、社區(qū)等的名稱)。地名一般是專有名詞。
按照地名詞庫,可以對POI數(shù)據(jù)的地址進行分詞。即,按照地名詞庫中存 在的地名,將POI數(shù)據(jù)的地址按詞分割為不同的詞。例如可以將地址"北京市 海淀區(qū)五道口"分割為"北京市/海淀區(qū)/五道口",這里,北京市、海淀區(qū)、五 道口都可以是按照地名詞庫進行分割后的結(jié)果。
其次,關(guān)于地址后綴詞庫。地址元素常常以一些固定詞語結(jié)尾,如北京市、
海淀區(qū)、三單元等。這些固定詞語包括區(qū),號,市,省,室,樓區(qū),園,街,
單元,元,幢,路,大街,村,小區(qū),寓,花園,公寓等,這里稱之為地址元 素的后綴。因此,可以預(yù)先設(shè)置后綴詞庫,以存儲這類地址后綴。
按照地址后綴詞庫,可以進一步實現(xiàn)對POI數(shù)據(jù)中的地址分詞。例如對于
不在地名詞庫中的地址,可以按照后綴詞庫將其分為一個詞?;蛘撸凑盏孛?詞庫分詞后的剩余地址中,將屬于地址后綴詞庫的單個地址后綴去除,或?qū)?于地址后綴詞庫的單個地址后綴與所述單個后綴之前的地址元素合并。這是由
于, 一般單個后綴不能構(gòu)成一個地址元素如"樓","區(qū),,等,需要將它們?nèi)?除或與其他地址元素合并。例如,可以將不能成為獨立地址元素的后綴與前面 的一個地址元素進行合并,形成"某某樓"、"某某區(qū)"。
另外,應(yīng)當注意的是,地址中常常包括數(shù)字類型的地址。而數(shù)字類型地址
元素的后綴常常被省略,改寫或?qū)戝e,如3號樓1605號會被省略為3-1605、 1 層會被改寫為l樓。對于這類數(shù)字地址元素時,這里,可以將數(shù)字單獨進行分 割,即如果一串數(shù)字(包括字母)后如果不是后綴,則將這串數(shù)字作為一個地 址元素。例如,31號樓,號樓屬于常用后綴,則31號樓被整個切分出來;如 果只有31,則把31切分出來。再例如,如果是31大,由于大不是后綴,則 單獨將31切分出來。按照上述規(guī)則,對于"3號樓1605號"和"3-1605"這 兩個地址,3號樓1605號被切分為3號樓和1605號,而3-1605被切分為3 和1605。后面在判斷時,如果數(shù)字部分都相等,可以判斷兩個地址等^f介。例 如3和3號樓的3相同,1605和1605號的1605相同,則這兩個地址等Y介。
另外,在有些POI數(shù)據(jù)的地址中,后綴常常被省略。如北京市會被簡化為 北京,海淀區(qū)會被簡化為海淀。基于這一特點,在地址分詞處理中,還可以將 按照后綴詞庫進行分詞的詞中的后綴去除,以與其它不包含后綴詞的地址分詞 后的詞盡量保持一致,從而利于后續(xù)地址相似度的計算。例如對于常用后綴, 如市、區(qū)等,就可以把去除后綴的部分保留下來,例如對于分詞后的北京市可 以只保留北京,對于分詞后的海淀區(qū)可以只保留海淀。當然,對于地名詞庫中 存在諸如"北京市"、"海淀區(qū),,這類詞的情況,相應(yīng)地,可以是將按照地名詞 庫分詞后的詞,再按照后綴詞庫去除其后綴。
30A并沒有在圖3中顯示出。
304:根據(jù)所述POI數(shù)據(jù)的名稱相似度和地址相似度得到總相似度。 本實施例中通過將所述POI數(shù)據(jù)的名稱相似度和地址相似度取平均值的 方式,得到總相似度。其中取平均值可以有多種方式,這里,仍然列舉采用 F-度量的方式說明。采用F-度量對名稱相似度和地址相似度取平均,得到的結(jié) 果作為總相似度。設(shè)F名為名稱相似度,F(xiàn)地為地址相似度,則總相似度F總?cè)?下計算
類似的,加權(quán)值3可以根據(jù)經(jīng)驗來設(shè)定,d越大,表示名稱相似度F名越重
要;3越小,表示地址相似度f地越重要??梢姡傁嗨贫萬總實際上是名稱相 似度f》和地址相似度f ^的加權(quán)調(diào)和平均值。
在得到總相似度之后,還可以引入其它規(guī)則對得到的總相似度進行修正。 以下介紹這些規(guī)則。這些規(guī)則可以單獨采用其中的一個,也可以將其中幾個組 合起來使用,當然也可以全部采用。
規(guī)則一電話規(guī)則
電話作為poi數(shù)據(jù)中的一種輔助信息,具有一定的參考意義。如果兩個 poi數(shù)據(jù)的電話相同,則這兩個地址很有可能是冗余的,或者,至少說明它們 具有一定的關(guān)系?;诖?,這里可以設(shè)置這樣的規(guī)則,如果poi數(shù)據(jù)的電話相 同,則將前述的總相似度乘以一個大于1的系數(shù),系數(shù)的具體值可以根據(jù)經(jīng)驗 設(shè)定。這樣可以增加滿足電話規(guī)則的poi數(shù)據(jù)在后續(xù)305中被判斷為是冗余數(shù) 據(jù)的可能性。
特別的,對于poi數(shù)據(jù)中電話號碼可能存在的格式混亂情況,需要先將
poi數(shù)據(jù)中的電話信息準確的提出出來。例如對于北京的poi數(shù)據(jù),在提:f又過
程中,要求電話號碼必須滿足8位,而且開頭為6或8,以便于上述電話規(guī)則 的使用。
規(guī)則二數(shù)字規(guī)則
無論是漢字類型的數(shù)字,還是阿拉伯數(shù)字,在poi數(shù)據(jù)的名稱和地址中都 有很重要的地位。 一般地,如果代表相同含義的兩個字符串中的數(shù)字不同,則 這兩個poi數(shù)據(jù)不是冗余數(shù)據(jù)。所述代表相同含義的字符串例如可以是名稱中 的第幾分公司,地址中有門牌號等。
在判斷poi數(shù)據(jù)是否冗余時,引入對名稱和/或地址中數(shù)字部分的考慮, 即如果poi數(shù)據(jù)的名稱和/或地址的相應(yīng)位置的數(shù)字不同,則不應(yīng)當在后續(xù)步 驟中判斷為冗余。具體的,可以將總相似度置為o,以在后續(xù)305中被判斷為 非冗余。
數(shù)字是否表示相同的含義,即數(shù)字的位置在名稱和/或地址中是否相同, 可根據(jù)它們的前后詞是否相同來進行判斷。
規(guī)則三名稱子串規(guī)則
有些POI數(shù)據(jù)的名稱, 一個是另一個的子串。所謂子串是指一個字符串是
另一個字符串的一部分,如"北京"和"京大"是"北京大學(xué)"的子串。對于
名稱中存在子串的情況,有可能這兩個POI數(shù)據(jù)是冗余,也有可能這兩個POI
數(shù)據(jù)不是冗余。這里,將子串從完整串中切出后,將剩下的部分稱為剩余串。 例如,"北京,,是"北京大學(xué),,的子串,則將"北京,,從"北京大學(xué),,中切出, 剩下"大學(xué),,這個詞,其為剩余串。對于存在名稱子串的情況,判斷是否是冗
余,可以按照下面內(nèi)容進行
(一) 、如果剩余串中包括表示位置實體的詞語,則這些POI數(shù)據(jù)不為冗 余。具體的,這里,可以將總相似度置為O,以保證在后續(xù)305中被判斷為不 是冗余數(shù)據(jù)。這類表示位置實體的詞語可以預(yù)置在一個位置實體詞庫中,其中 可以包括如游泳館,餐廳,歌舞廳,浴池等表示未知實體的詞語。
(二) 、如果剩余串包括"分公司,分部,分店"等詞,而且剩余串中的 這類詞之前是一個地名,則這些POI數(shù)據(jù)很有可能是冗余。此時,可以將總相 似度乘以一個大于1的系數(shù),以增加在后續(xù)305中判斷為冗余的可能性。反之, 如果剩余串中的這類詞之前不是地名或為空,則不為冗余,則可以將總相似度 置為0,以保證在后續(xù)305中被判斷為不是冗余數(shù)據(jù)。
上述"分公司,分部,分店"等詞,可以預(yù)置在一個分詞庫,則對于剩余 串,可以根據(jù)這個分詞庫進行判斷。 規(guī)則四名稱子序列規(guī)則
有些POI數(shù)據(jù)的名稱, 一個是另一個的子序列。所謂子序列是指一個字符 串是另 一個字符串的一些字符按照原有順序組合在一起的串,如"北大,,和"北 學(xué),,是"北京大學(xué)"的子序列。
如果兩個數(shù)據(jù)的名稱具有子序列關(guān)系,則認為名稱的相似度比較高。該規(guī) 則可以適用于針對名稱中存在全稱、簡稱的情況。
如果兩個POI數(shù)據(jù)的名稱存在子序列的情況,則將總相似度乘以一個大于 1的系數(shù),以增加在后續(xù)305中判斷為冗余的可能性。
305:將總相似度與預(yù)設(shè)的閾值比較,大于預(yù)設(shè)閾值的,判定對應(yīng)POI數(shù) 據(jù)為冗余數(shù)據(jù)。
上述流程中,對于名稱相似度和地址相似度的計算,可以是基于搜索到的 相似POI數(shù)據(jù),兩個數(shù)據(jù)作為一組進行計算。但是,很可能存在多組相關(guān)聯(lián)的 冗余數(shù)據(jù),例如一個組中數(shù)據(jù)A和數(shù)據(jù)B冗余,另 一個組中數(shù)據(jù)B和數(shù)據(jù)C 冗余,即是兩組冗余數(shù)據(jù)。而事實上,而這兩組冗余數(shù)據(jù)又是相關(guān)聯(lián)的,因此, A、 B、 C可以作為同一組冗余數(shù)據(jù)。
針對該情況,則本實施例還可以包括306。
306:將存在的多組相關(guān)聯(lián)的冗余數(shù)據(jù)合并。
將多組相關(guān)聯(lián)的冗余數(shù)據(jù)合并后,可以統(tǒng)一輸出,這樣1更于用戶觀察和進 行進一步的處理,例如將冗余組中的數(shù)據(jù)只保留一個數(shù)據(jù),而將其它數(shù)據(jù)刪除。 這里的合并過程可以是一個寬度搜索的過程,通過一條數(shù)據(jù)A,找到與它冗余 的數(shù)據(jù)B與之合并,再繼續(xù)深入,找出那些與數(shù)據(jù)B冗余的數(shù)據(jù)C進行合并, 直到最后所有相關(guān)聯(lián)的冗余數(shù)據(jù)都合并在一起。
306未在圖3中示出。
此外,在對POI數(shù)據(jù)的名稱進行二元切分之前,還可以對POI數(shù)據(jù)進行 以下"t喿作中的 一種或幾種
1. 去除名稱、地址中的無關(guān)符號,如逗號括號等。
具體的,可以預(yù)置一個無關(guān)符號詞庫,根據(jù)這個無關(guān)符號詞庫去除名稱、 地址中的無關(guān)符號。
2. 將名稱、地址中的全角字符統(tǒng)一轉(zhuǎn)換為半角字符或?qū)⒚Q、地址中的 半角字符統(tǒng)一轉(zhuǎn)換為全角字符。
3. 過濾格式不符合POI數(shù)據(jù)定義或有嚴重位置錯誤的數(shù)據(jù)。 前面提到,POI數(shù)據(jù)通常包括名稱、類別、經(jīng)度、綿度等信息,并且還可
能包含地址信息。不同信息的格式不同,例如名稱、地址信息中,應(yīng)當包含表 示地址的字符,如漢字字符。而經(jīng)度、煒度信息中應(yīng)當是數(shù)字(或包括表示經(jīng) 煒度的字母)的集合。如果經(jīng)度、緯度中包含有漢字字符,則顯然其格式是不
符合定義的。同樣的,如果名稱或地址中不包括漢字字符,而只是一串數(shù)字(或 包括字母)的集合,這樣也是不符合poi數(shù)據(jù)的格式定義的。這類情況的數(shù)據(jù), 應(yīng)當被過濾。
例如,對于北京市poi數(shù)據(jù)來講,所有位置的坐標都應(yīng)該在合適的范圍內(nèi),
對于坐標與合適范圍的坐標相差甚遠的數(shù)據(jù),例如被顯示到印度洋上的數(shù)據(jù),
應(yīng)當#:過濾#>。
4.根據(jù)預(yù)置的停用詞詞庫,去除poi數(shù)據(jù)名稱中的停用詞。
poi數(shù)據(jù)的名稱或地址中,存在很多出現(xiàn)頻率很高的詞,如"北京","公 司,,等,而這些詞幾乎不包含任何有用信息,它們反而會對名稱相似度計算和 地址相似度計算帶來副作用。因此,將這些詞去除,對提高冗余檢測的準確率 是一個非常有效的措施。
由以上實施例可見,本發(fā)明對輸出的處理充分利用了 poi數(shù)據(jù)的重要信 息,并通過分別計算這些重要信息的相似度和引入對相關(guān)信息的考慮,整合得 到poi數(shù)據(jù)的相似度。這個相似度可以非常好的刻畫poi數(shù)據(jù)的冗余情況,
利用這個相似度可以檢測出poi數(shù)據(jù)的所有冗余數(shù)據(jù)。同時,本發(fā)明實施例結(jié)
合每種信息的實際情況加入一些規(guī)則,可以有效避免錯誤情況,保證冗余檢測 結(jié)果的準確率。
以下介紹本發(fā)明冗余4企測系統(tǒng)的實施例,圖4示出了該實施例的框圖,如 圖4中,包括
搜索單元41,用于對poi數(shù)據(jù)的名稱進行二元切分,為切分的二元詞建 立倒排索引,并為poi數(shù)據(jù)根據(jù)倒排索引中的出現(xiàn)頻率最低的詞搜索相似poi 數(shù)據(jù);
名稱相似度計算單元42,用于對搜索到的具有名稱相似關(guān)系的poi數(shù)據(jù), 進行名稱相似度計算;
地址相似度計算單元43,用于對搜索到的具有名稱相似關(guān)系的poi數(shù)據(jù), 進行地址相似度計算;
總相似度計算單元44,用于將所述poi數(shù)據(jù)的名稱相似度和地址相似度
取平均值,得到總相似度;
冗余數(shù)據(jù)判斷單元45,將總相似度與預(yù)設(shè)的閾值比較,大于預(yù)設(shè)闊值的,
判定對應(yīng)POI數(shù)據(jù)為冗余數(shù)據(jù)。
優(yōu)選地,所述名稱相似度計算單元42的第一種實現(xiàn)方式為采用基于編輯 距離的方式對搜索到的具有名稱相似關(guān)系的POI數(shù)據(jù)進行名稱相似度計算,具 體參見公式(1)的相關(guān)描述
優(yōu)選地,所述名稱相似度計算單元42的第二種實現(xiàn)方式為采用基于 Jaccard系數(shù)的方式對搜索到的具有名稱相似關(guān)系的POI數(shù)據(jù)進行名稱相似度 計算,具體參見公式(2)的描述。
優(yōu)選地,所述名稱相似度計算單元42的第三種實現(xiàn)方式參見圖5所示, 可以包括名稱相似度第一計算單元51、名稱相似度第二計算單元52和名稱相 似度平均單元53;其中
名稱相似度第一計算單元51,采用基于編輯距離的方式對搜索到的具有 名稱相似關(guān)系的POI數(shù)據(jù)進行名稱相似度計算,如公式(1)所示的方法;
名稱相似度第二計算單元52,采用基于Jaccard系數(shù)的方式對搜索到的具 有名稱相似關(guān)系的POI數(shù)據(jù)進行名稱相似度計算,如公式(2)所示的方法;
名稱相似度平均單元53,用于采用F-度量對名稱相似度第一計算單元計 算的結(jié)果和名稱相似度第二計算單元計算的結(jié)果進行平均,參見公式(3)的 相關(guān)描述。。
優(yōu)選地,所述地址相似度計算單元43的第一種實現(xiàn)方式為采用基于 Jaccard系數(shù)的方式計算對搜索到的具有名稱相似關(guān)系的POI數(shù)據(jù)進行地址相 似度計算,具體方式參見公式(4)部分的相關(guān)描述
優(yōu)選地,所述地址相似度計算單元43的第二種實現(xiàn)方式可參見圖6所示, 可以包括
地址詞庫61,用于儲存預(yù)置的地址;
分詞單元62,用于對POI數(shù)據(jù)的地址進行分詞;
分詞相似度計算單元63,用于對于分詞后第一 POI數(shù)據(jù)的地址元素集合
中每一地址元素,計算與分詞后第二 POI數(shù)據(jù)的地址元素集合中每一地址元素 的相似度值,并找出最大相似度值,并作為所述第一POI數(shù)據(jù)中該地址元素與
第二 POI數(shù)據(jù)地址元素的相似度值;
相似度累加單元64,用于將第一 POI數(shù)據(jù)地址中每一地址元素與第二 POI 數(shù)據(jù)地址元素的相似度值累加,再除以兩個POI數(shù)據(jù)中地址元素個數(shù)的平均 值,作為地址相似度值S^。其中所述地址元素個數(shù)的平均值可以是算術(shù)平均 值(將兩個POI數(shù)據(jù)中地址元素個數(shù)求和再除以2)、幾何平均值(兩個POI 數(shù)據(jù)中地址元素個數(shù)乘積的開方)、平方平均值等。
優(yōu)選地,所述地址相似度計算單元43的第三種實現(xiàn)方式可參見圖7所示, 可以包括地址相似度第一計算單元71、地址相似度第二計算單元72,地址相 似度平均單元73,其中,
地址相似度第一計算單元71,釆用基于Jaccard系數(shù)的方式計算對搜索到 的具有名稱相似關(guān)系的POI數(shù)據(jù)進行地址相似度計算,地址相似度第二計算單元72,包括地址詞庫61,分詞單元62,分詞相似 度計算單元63,相似度累加單元64,其具體結(jié)構(gòu)參見地址相似度計算單元43 的第二種實現(xiàn)方式部分的描述。
地址相似度平均單元73,用于結(jié)合基于Jaccard系數(shù)的方式與基于分詞的 方式并采用F-度量計算參見公式(5)部分的相關(guān)描述。
優(yōu)選地,所述總相似度計算單元44將所述POI數(shù)據(jù)的名稱相似度和地址 相似度采用F-度量的方式取平均值。
優(yōu)選地,如圖8所示,所述系統(tǒng)還可以包括
電話規(guī)則處理單元81,如果所述POI數(shù)據(jù)的電話相同,用于將所述總相 似度計算單元44計算的總相似度乘以一個大于1的系數(shù)之后傳給所述冗余數(shù) 據(jù)判斷單元。
優(yōu)選地,如圖9所示,所述系統(tǒng)還可以包括
數(shù)字規(guī)則處理單元91,如果POI數(shù)據(jù)的名稱和/或地址的相應(yīng)位置的數(shù)字 不同,用于將所述總相似度計算單元44計算的總相似度置為0之后傳給所述
冗余數(shù)據(jù)判斷單元。
優(yōu)選地,如圖10所示,所述系統(tǒng)還可以包括
名稱相同MJ!'j處理單元101,對于名稱相同的兩個POItt據(jù),如果坐標距 離小于預(yù)置的公里數(shù),則將所述總相似度計算單元44計算的這兩個POI數(shù)據(jù) 的總相似度置為大于所述閾值,然后傳給所述冗余數(shù)據(jù)判斷單元。
優(yōu)選地,如圖ll所示,所述系統(tǒng)還可以包括
名稱子串規(guī)則處理單元111,對于所述總相似度計算單元計算的兩個POI 數(shù)據(jù)存在名稱子串的情況,
如果根據(jù)預(yù)置的位置實體詞庫判斷剩余串中包括表示位置實體的詞語,則 將所述總相似度計算單元44計算的總相似度置為0之后傳給所述冗余數(shù)據(jù)判 斷單元45;
如果剩余串中包括屬于預(yù)置的分詞庫中的詞,則將所述總相似度計算單元 44計算的總相似度乘以一個大于1的數(shù)值之后傳給所述冗余數(shù)據(jù)判斷單元45;
如果剩余串包括一些后綴如"店,圓,社"等,且如果該后綴前面為空或 為地名,則數(shù)據(jù)有可能是冗余。否則,很可能不為冗余。因此,本發(fā)明實施例 中還可以預(yù)置一個特別后綴詞庫,其中包括諸如"店,圓,社"等詞語,通過 預(yù)置的特別后綴詞庫,進一步達到判斷數(shù)據(jù)是否冗余的目的。具體的
如果剩余串中包括預(yù)置的特別后綴詞庫中的詞語,且后綴前為空或為地 名,則將所述總相似度計算單元44計算的總相似度乘以一個大于1的系數(shù)之 后傳給所述冗余數(shù)據(jù)判斷單元45;
如果剩余串中包括預(yù)置的特別后綴詞庫中的詞語,且后綴前為非空,也不 為地名,則將所述總相似度計算單元44計算的總相似度置為0之后傳給所述 冗余數(shù)據(jù)判斷單元45。
優(yōu)選地,如圖12所示,所述系統(tǒng)還可以包括
名稱子序列規(guī)則處理單元121,對于兩個POI數(shù)據(jù)存在名稱子序列的情況, 則將所述總相似度計算單元44計算的總相似度乘以一個大于1的系數(shù)之后傳 給所述冗余數(shù)據(jù)判斷單元45。 優(yōu)選地,如圖13所示,所述系統(tǒng)還可以包括
普通地址規(guī)則處理單元131,對于都包括預(yù)置的普通地址詞庫中普通地址 的兩個POI數(shù)據(jù),如果所述普通地址的地址后綴屬于地址后綴詞庫中的同 一地 址后綴,而普通地址不同,則將所述總相似度計算單元44計算的總相似度乘 以一個0至1之間的系數(shù),之后傳給所述冗余數(shù)據(jù)判斷單元45。
需要說明的是,基于上述圖8~圖13中所示,所述系統(tǒng)還可以同時包括 電話規(guī)則處理單元81,數(shù)字規(guī)則處理單元91,名稱相同規(guī)則處理單元101, 名稱子串規(guī)則處理單元111,名稱子序列規(guī)則處理單元121,普通地址規(guī)則處 理單元131這些單元中的多個。
優(yōu)選地,如圖14所示,所述系統(tǒng)還可以包括
合并單元141,用于將冗余數(shù)據(jù)判斷單元45得到的多組相關(guān)聯(lián)的冗余數(shù) 據(jù)合并。
優(yōu)選地,如圖15所示,所述系統(tǒng)還可以包括預(yù)處理單元151,用于在搜 索單元41進行搜索之前,對POI數(shù)據(jù)進行處理。所述預(yù)處理單元包括下面單 元中的一個或幾個的組合
第一操作單元,用于才艮據(jù)預(yù)置的無關(guān)符號詞庫去除名稱、地址中的無關(guān)符
號;
第二操作單元,用于將名稱、地址中的全角字符統(tǒng)一轉(zhuǎn)換為半角字符或?qū)?br> 名稱、地址中的半角字符統(tǒng)一轉(zhuǎn)換為全角字符;
第三操作單元,用于過濾格式不符合POI數(shù)據(jù)定義或有嚴重位置錯誤的 數(shù)據(jù);
第四操作單元,用于根據(jù)預(yù)置的停用詞詞庫,去除POI數(shù)據(jù)名稱中的停 用詞。
下面再給出一種冗余才企測方法的實施例,該實施例包括 對POI數(shù)據(jù)的地址進行二元切分,為切分的二元詞建立倒排索引,并為 POI數(shù)據(jù)根據(jù)倒排索引中的出現(xiàn)頻率最低的詞搜索相似POI數(shù)據(jù);
對搜索到的具有地址相似關(guān)系的POI數(shù)據(jù),進行名稱相似度計算和地址
相似度計算;
將所述POI數(shù)據(jù)的名稱相似度和地址相似度取平均值,得到總相似度; 將總相似度與預(yù)設(shè)的閾值比較,大于預(yù)設(shè)閾值的,判定對應(yīng)POI數(shù)據(jù)為
冗余數(shù)據(jù)。
可見該實施例與前述方法實施例的區(qū)別在于,前者是對POI數(shù)據(jù)的名稱進 行二元切分,為切分的二元詞建立倒排索引,并為POI數(shù)據(jù)根據(jù)倒排索引中的 出現(xiàn)頻率最低的詞搜索相似POI數(shù)據(jù);對搜索到的具有名稱相似關(guān)系的POI 數(shù)據(jù),進行名稱相似度計算和地址相似度計算。而后者是對POI數(shù)據(jù)的地址進 行二元切分,為切分的二元詞建立倒排索引,并為POI數(shù)據(jù)才艮據(jù)倒排索引中的 出現(xiàn)頻率最低的詞搜索相似POI數(shù)據(jù);對搜索到的具有地址相似關(guān)系的POI 數(shù)據(jù),進行名稱相似度計算和地址相似度計算。其中,前后兩個實施例中執(zhí)行 的建立倒排索引的方式,根據(jù)倒排索引中的出現(xiàn)頻率最低的詞搜索相似POI 凄史據(jù)的方式,以及進行名稱相似度計算和地址相似度計算的步驟相同。其它方 面,如總相似度的計算,總相似度與預(yù)設(shè)的閾值比較,判定冗余數(shù)據(jù)的方式兩 者也相同。并且,明顯地,后者的方法實施例也可以解決相同的技術(shù)問題,并 達到相同的技術(shù)效果。雖然通過實施例描繪了本發(fā)明實施例,本領(lǐng)域普通技術(shù) 人員知道,本發(fā)明有許多變形和變化而不脫離本發(fā)明的精神,因此,本發(fā)明將 不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎 特點相一致的最寬的范圍。
權(quán)利要求
1、一種冗余檢測方法,其特征在于,包括對POI數(shù)據(jù)的名稱進行二元切分,為切分的二元詞建立倒排索引,并為POI數(shù)據(jù)根據(jù)倒排索引中的出現(xiàn)頻率最低的詞搜索相似POI數(shù)據(jù);對搜索到的具有名稱相似關(guān)系的POI數(shù)據(jù),進行名稱相似度計算和地址相似度計算;根據(jù)POI數(shù)據(jù)的名稱相似度和地址相似度得到總相似度;將總相似度與預(yù)設(shè)的閾值比較,大于預(yù)設(shè)閾值的,判定對應(yīng)POI數(shù)據(jù)為冗余數(shù)據(jù)。
2、 如權(quán)利要求1所述的方法,其特征在于,所述名稱相似度計算,包括采用基于編輯距離的方式計算,采用基于編輯距離的方式如下表示<formula>formula see original document page 2</formula>其中,S"表示基于編輯距離的相似度值,X和Y分別代表兩個字符串, Edit(X, Y)代表X和Y的編輯距離,|X|、 lYl分別表示字符串X、 Y的長度?;蛘?,采用基于Jaccard系數(shù)的方式計算,所述基于Jaccard系數(shù)的方式如下表示<formula>formula see original document page 2</formula>其中,S名2表示基于Jaccard系數(shù)的相似度值,X和Y分別代表兩個字符串,XUY代表兩個字符串的所有字符,XHY代表來兩個字符串所有相同的 字符,取絕對值表示包含的字符的長度。
3、 如權(quán)利要求2所述的方法,其特征在于,所述進行名稱相似度計算, 包括結(jié)合基于編輯距離的方式與基于Jaccard系數(shù)的方式,并采用F-度量計算, 如下表示<formula>formula see original document page 2</formula>F名表示結(jié)合基于編輯距離的方式與基于Jaccard系數(shù)的方式計算的名稱相 似度,3表示預(yù)先設(shè)定的加權(quán)值。
4、 如權(quán)利要求l所述的方法,其特征在于,所述進行地址相似度計算,包括采用基于Jaccard系數(shù)的方式計算,所述采用基于Jaccard系數(shù)的方式計算 如下表示<formula>formula see original document page 3</formula>其中,S地!表示基于Jaccard系數(shù)的相似度值,X和Y分別代表兩個字符 串,XUY代表兩個字符串的所有字符,XHY代表來兩個字符串所有相同的 字符,取絕對值表示包含的字符的長度。
5、 如權(quán)利要求1所述的方法,其特征在于,所述進行地址相似度計算, 包括根據(jù)預(yù)置的地址詞庫,對POI數(shù)據(jù)的地址進行分詞;對于分詞后第一 POI數(shù)據(jù)的地址元素集合中每一地址元素,計算與分詞 后第二 POI數(shù)據(jù)的地址元素集合中每一地址元素的相似度值,并找出最大相似 度值,并作為所述第一 POI數(shù)據(jù)中該地址元素與第二 POI數(shù)據(jù)地址元素的相 似度值;將第一 POI數(shù)據(jù)地址中每一地址元素與第二 POI數(shù)據(jù)地址元素的相似度 值累加,再除以兩個POI數(shù)據(jù)中地址元素個數(shù)平均值,作為地址相似度值S地
6、 如權(quán)利要求5所述的方法,其特征在于,所述對于分詞后第一POI數(shù) 據(jù)的地址元素集合中每一地址元素,計算與分詞后第二 POI數(shù)據(jù)的地址元素集 合中每一地址元素的相似度值,包括對于分詞后第一 POI數(shù)據(jù)的地址元素集合中每一地址元素,采用基于編 輯距離的方式計算與分詞后第二 POI數(shù)據(jù)的地址元素集合中每一地址元素的 相似度值。
7、 如權(quán)利要求5所述的方法,其特征在于,所述地址詞庫包括預(yù)先設(shè)定 的地名詞庫,該地名詞庫中包括預(yù)先"&定的地名^:據(jù); 相應(yīng)地,所述根據(jù)預(yù)置的地址詞庫,對POI數(shù)據(jù)的地址進行分詞,包括 根據(jù)預(yù)置的地名詞庫,對POI數(shù)據(jù)的地址按照預(yù)置的地名詞庫存在的地 名數(shù)據(jù)進行分詞。
8、 如權(quán)利要求7所述的方法,其特征在于,所述地址詞庫還包括預(yù)先設(shè) 定的地址后綴詞庫,該地址后綴詞庫中包括預(yù)先設(shè)定的地址后綴數(shù)據(jù);相應(yīng)地,所述根據(jù)預(yù)置的地址詞庫,對POI數(shù)據(jù)的地址進行分詞,包括 對于不在地名詞庫中的地址,按照地址后綴詞庫將其分為 一個詞。
9、 如權(quán)利要求4或5所述的方法,其特征在于,所述進行地址相似度計 算,包括結(jié)合基于Jaccard系數(shù)的方式與基于分詞的方式并采用F-度量計算, 如下表示其中,F(xiàn)地表示結(jié)合基于Jaccard系數(shù)的方式與基于分詞方式計算的地址相 似度,3表示預(yù)先設(shè)定的加權(quán)值。
10、 如權(quán)利要求l所述的方法,其特征在于,所述得到總相似度之后,比 較總相似度與預(yù)設(shè)的閾值之前,本方法還包括如果所述POI數(shù)據(jù)的電話相同,則將所述總相似度乘以一個大于1的系數(shù)。
11、 如權(quán)利要求l所述的方法,其特征在于,所述得到總相似度之后,比 較總相似度與預(yù)設(shè)的閾值之前,本方法還包括如果POI數(shù)據(jù)的名稱和/或地址的相應(yīng)位置的數(shù)字不同,則將總相似度置為0。
12、 如權(quán)利要求l所述的方法,其特征在于,所述得到總相似度之后,比 較總相似度與預(yù)設(shè)的閾值之前,本方法還包括對于兩個POI數(shù)據(jù)存在名稱子串的情況,如果根據(jù)預(yù)置的位置實體詞庫 判斷剩余串中包括表示位置實體的詞語,則將總相似度置為0;或者,如果剩余串中包括預(yù)置的特別后綴詞庫中的后綴,且后綴前為空或為地 名,則將總相似度乘以一個大于1的系數(shù);如果剩余串中包括預(yù)置的特別后綴詞庫中的后綴,且后綴前為不空,也不 為地名,則將總相似度置為0。
13、 如權(quán)利要求l所述的方法,其特征在于,所述得到總相似度之后,比 較總相似度與預(yù)設(shè)的閾值之前,本方法還包括對于兩個POI數(shù)據(jù)存在名稱子序列的情況,則將總相似度乘以一個大于1 的系數(shù)。
14、 一種冗余檢測系統(tǒng),其特征在于,包括搜索單元,用于對POI數(shù)據(jù)的名稱進4亍二元切分,為切分的二元詞建立 倒排索引,并為POI數(shù)據(jù)根據(jù)倒排索引中的出現(xiàn)頻率最低的詞搜索相似POI 數(shù)據(jù);名稱相似度計算單元,用于對搜索到的具有名稱相似關(guān)系的POI數(shù)據(jù), 進行名稱相似度計算;地址相似度計算單元,用于對搜索到的具有名稱相似關(guān)系的POI數(shù)據(jù), 進行地址相似度計算;總相似度計算單元,用于根據(jù)POI數(shù)據(jù)的名稱相似度和地址相似度得到 總相似度;冗余數(shù)據(jù)判斷單元,將總相似度與預(yù)設(shè)的閾值比較,大于預(yù)設(shè)闊值的,判 定對應(yīng)POI數(shù)據(jù)為冗余數(shù)據(jù)。
15、 如權(quán)利要求14所述的系統(tǒng),其特征在于,所述名稱相似度計算單元 采用基于編輯距離的方式對搜索到的具有名稱相似關(guān)系的POI數(shù)據(jù)進行名稱 相似度計算,采用基于編輯距離的方式如下表示<formula>formula see original document page 5</formula>其中,S名1表示基于編輯距離的相似度值,X和Y分別代表兩個字符串, Edit(X, Y)代表X和Y的編輯距離,|X|、 lYl分別表示字符串X、 Y的長度?;蛘撸捎没贘accard系數(shù)的方式如下表示<formula>formula see original document page 6</formula>其中,S"表示基于Jaccard系數(shù)的相似度值,X和Y分別代表兩個字符 串,XUY代表兩個字符串的所有字符,XflY代表兩個字符串所有相同的字 符,取絕對值表示包含的字符的長度。
16、如權(quán)利要求14所述的系統(tǒng),其特征在于,所述名稱相似度計算單元, 包括名稱相似度第 一計算單元,采用基于編輯距離的方式對搜索到的具有名稱 相似關(guān)系的POI數(shù)據(jù)進行名稱相似度計算,名稱相似度第二計算單元,采用基于Jaccard系數(shù)的方式對搜索到的具有 名稱相似關(guān)系的POI數(shù)據(jù)進行名稱相似度計算,名稱相似度平均單元,用于采用F-度量對名稱相似度第一計算單元計算 的結(jié)果和名稱相似度第二計算單元計算的結(jié)果進行計算,如下表示<formula>formula see original document page 6</formula>F名表示結(jié)合基于編輯距離的方式與基于Jaccard系數(shù)的方式計算的名稱相 似度,5表示預(yù)先設(shè)定的加權(quán)值。
17、 如權(quán)利要求14所述的系統(tǒng),其特征在于,所述地址相似度計算單元, 采用基于Jaccard系數(shù)的方式計算對搜索到的具有名稱相似關(guān)系的POI數(shù)據(jù)進 行地址相似度計算,所述釆用基于Jaccard系數(shù)的方式計算如下表示<formula>formula see original document page 6</formula>其中,Sw表示基于Jaccard系數(shù)的相似度值,X和Y分別代表兩個字符 串,XUY代表兩個字符串的所有字符,XflY代表來兩個字符串所有相同的 字符,取絕對值表示包含的字符的長度。
18、 如權(quán)利要求14所述的系統(tǒng),其特征在于,所述地址相似度計算單元 包括地址詞庫,用于儲存預(yù)置的地址;分詞單元,用于對POI數(shù)據(jù)的地址進行分詞;分詞相似度計算單元,用于對于分詞后第一 POI數(shù)據(jù)的地址元素集合中 每一地址元素,計算與分詞后第二 POI數(shù)據(jù)的地址元素集合中每一地址元素的 相似度值,并找出最大相似度值,并作為所述第一POI數(shù)據(jù)中該地址元素與第 二 POI數(shù)據(jù)地址元素的相似度值;相似度累加單元,用于將第一 POI數(shù)據(jù)地址中每一地址元素與第二 POI 數(shù)據(jù)地址元素的相似度值累加,再除以兩個POI數(shù)據(jù)中地址元素個數(shù)的平均 值,作為地址相似度值S 地2。
19、如權(quán)利要求14所述的系統(tǒng),其特征在于,所述地址相似度計算單元, 包括地址相似度第一計算單元、地址相似度第二計算單元,地址相似度平均單 元,其中,地址相似度第一計算單元,采用基于Jaccard系數(shù)的方式計算對搜索到的 具有名稱相似關(guān)系的POI數(shù)據(jù)進行地址相似度計算,地址相似度第二計算單元,包括地址詞庫,分詞單元,分詞相似度計算單 元,相似度累加單元,其中地址詞庫,用于々者存預(yù)置的地址;分詞單元,用于對POI數(shù)據(jù)的地址進行分詞;分詞相似度計算單元,用于對于分詞后第一 POI數(shù)據(jù)的地址元素集合中 每一地址元素,計算與分詞后第二 POI數(shù)據(jù)的地址元素集合中每一地址元素的 相似度值,并找出最大相似度值,并作為所述第一POI數(shù)據(jù)中該地址元素與第 二 POI數(shù)據(jù)地址元素的相似度值;相似度累加單元,用于將第一 POI數(shù)據(jù)地址中每一地址元素與第二 POI 數(shù)據(jù)地址元素的相似度值累加,再除以兩個POI數(shù)據(jù)中地址元素個數(shù)平均值, 作為地址相似度值S地2,地址相似度平均單元,用于結(jié)合基于Jaccard系數(shù)的方式與基于分詞的方 式并采用F-度量計算。
20、 如權(quán)利要求14所述的系統(tǒng),其特征在于,還包括 電話規(guī)則處理單元,如果所述POI數(shù)據(jù)的電話相同,用于將所述總相似度計算單元計算的總相似度乘以一個大于1的系數(shù)之后傳給所述冗余數(shù)據(jù)判 斷單元。
21、 如權(quán)利要求14所述的系統(tǒng),其特征在于,還包括 數(shù)字規(guī)則處理單元,如果POI數(shù)據(jù)的名稱和/或地址的相應(yīng)位置的數(shù)字不同,用于將所述總相似度計算單元計算的總相似度置為0之后傳給所述冗余數(shù) 據(jù)判斷單元。
22、 如權(quán)利要求14所述的系統(tǒng),其特征在于,還包括 名稱子串規(guī)則處理單元,對于所述總相似度計算單元計算的兩個POI數(shù)據(jù)存在名稱子串的情況,如果根據(jù)預(yù)置的位置實體詞庫判斷剩余串中包括表示位置實體的詞語,則 將所述總相似度計算單元計算的總相似度置為0之后傳給所述冗余數(shù)據(jù)判斷單元;如果剩余串中包括預(yù)置的特別后綴詞庫中的后綴,且后綴前為空或為地 名,則將所述總相似度計算單元計算的總相似度乘以一個大于1的系數(shù)之后傳給所述冗余數(shù)據(jù)判斷單元;如果剩余串中包括預(yù)置的特別后綴詞庫中的后綴,且后綴前為不空,也不 為地名,則將所述總相似度計算單元計算的總相似度置為0之后傳給所述冗余 數(shù)據(jù)判斷單元。
23、 如權(quán)利要求14所述的系統(tǒng),其特征在于,還包括 名稱子序列規(guī)則處理單元,對于兩個POI數(shù)據(jù)存在名稱子序列的情況,則將所述總相似度計算單元計算的總相似度乘以一個大于1的系數(shù)之后傳給 所述冗余數(shù)據(jù)判斷單元。
24、 一種冗余檢測方法,其特征在于,包括對POI數(shù)據(jù)的地址進行二元切分,為切分的二元詞建立倒排索引,并為 POI數(shù)據(jù)根據(jù)倒排索引中的出現(xiàn)頻率最低的詞搜索相似POI數(shù)據(jù);對搜索到的具有地址相似關(guān)系的POI數(shù)據(jù),進行名稱相似度計算和地址 相似度計算;根據(jù)POI數(shù)據(jù)的名稱相似度和地址相似度得到總相似度; 將總相似度與預(yù)設(shè)的閾值比較,大于預(yù)設(shè)閾值的,判定對應(yīng)POI數(shù)據(jù)為 冗余數(shù)據(jù)。
全文摘要
本發(fā)明實施例公開了一種冗余檢測方法和系統(tǒng)。一種冗余檢測方法,包括對POI數(shù)據(jù)的名稱進行二元切分,為切分的二元詞建立倒排索引,并為POI數(shù)據(jù)根據(jù)倒排索引中的出現(xiàn)頻率最低的詞搜索相似POI數(shù)據(jù);對搜索到的具有名稱相似關(guān)系的POI數(shù)據(jù),進行名稱相似度計算和地址相似度計算;根據(jù)POI數(shù)據(jù)的名稱相似度和地址相似度得到總相似度;將總相似度與預(yù)設(shè)的閾值比較,大于預(yù)設(shè)閾值的,判定對應(yīng)POI數(shù)據(jù)為冗余數(shù)據(jù)。利用本發(fā)明,可以實現(xiàn)對電子地圖POI數(shù)據(jù)中的冗余檢測。
文檔編號G06F17/30GK101388023SQ200810119849
公開日2009年3月18日 申請日期2008年9月12日 優(yōu)先權(quán)日2008年9月12日
發(fā)明者闊 張, 董正斌 申請人:北京搜狗科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1