專(zhuān)利名稱(chēng):一種數(shù)據(jù)融合的方法、裝置及數(shù)據(jù)處理系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息處理技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)融合的方法、裝置及數(shù)據(jù)處理系統(tǒng)。
背景技術(shù):
興趣點(diǎn)(Point of Interset,POI)數(shù)據(jù),通常包括名稱(chēng)、類(lèi)別、地址、經(jīng)緯度等信息。POI數(shù)據(jù)的采集方式有多種,例如實(shí)地采集、互聯(lián)網(wǎng)采集等。由于采集方式的不同,造成采集到的同個(gè)POI數(shù)據(jù)可能存在不同的描述信息。如何將采集到的同個(gè)POI數(shù)據(jù)的不同的描述信息融合?關(guān)鍵是如何判斷采集到的多個(gè)POI數(shù)據(jù)是否是同一個(gè)POI數(shù)據(jù)?現(xiàn)有技術(shù)通過(guò)直接比較POI數(shù)據(jù)的名稱(chēng)來(lái)判斷所述POI數(shù)據(jù)是否是同一個(gè)POI數(shù)據(jù),錯(cuò)誤率較高,因?yàn)椴杉绞降牟煌琍OI數(shù)據(jù)的名稱(chēng)可 能并不完全相同,但表示的確是同一個(gè)POI數(shù)據(jù),例如名稱(chēng)I :全聚德(玉泉路)地址I :北京市海淀區(qū)復(fù)興路44號(hào);名稱(chēng)2 :全聚德玉泉路店地址2 :北京市海淀區(qū)復(fù)興路44號(hào);名稱(chēng)I和名稱(chēng)2雖然不同,但在地圖上表示的是同一位置,因此應(yīng)該認(rèn)為表示的是同一個(gè)POI數(shù)據(jù)。另外,由于POI數(shù)據(jù)的規(guī)模較大,通過(guò)兩兩比較POI數(shù)據(jù)的名稱(chēng)來(lái)判斷所述POI數(shù)據(jù)是否是同一個(gè)POI數(shù)據(jù),需要花費(fèi)大量的時(shí)間,成本較高且效率較低。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種數(shù)據(jù)融合的方法,旨在解決相同POI數(shù)據(jù)中不同描述信息的問(wèn)題。本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的,一種數(shù)據(jù)融合的方法,所述方法包括以下步驟接收輸入的數(shù)據(jù);判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù);當(dāng)預(yù)存的數(shù)據(jù)中存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),將所述輸入的數(shù)據(jù)中新的描述信息添加到所述相同的數(shù)據(jù)中。本發(fā)明實(shí)施例的另一目的在于提供一種數(shù)據(jù)融合的裝置,所述裝置包括數(shù)據(jù)接收單元,用于接收輸入的數(shù)據(jù);判斷單元,用于判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù);數(shù)據(jù)融合單元,用于當(dāng)預(yù)存的數(shù)據(jù)中存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),將所述輸入的數(shù)據(jù)中新的描述信息添加到所述相同的數(shù)據(jù)中。本發(fā)明實(shí)施例的再一目的在于提供一種數(shù)據(jù)處理系統(tǒng),所述數(shù)據(jù)處理系統(tǒng)包括所述數(shù)據(jù)融合裝置。在本發(fā)明實(shí)施例中,通過(guò)判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù),在存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),將所述輸入的數(shù)據(jù)中新的描述信息添加到所述相同的數(shù)據(jù)中,可有效豐富數(shù)據(jù)的信息,同時(shí)減少數(shù)據(jù)的冗余,提高用戶(hù)對(duì)搜索到的數(shù)據(jù)的滿意度。
圖I是本發(fā)明實(shí)施例一提供的數(shù)據(jù)融合方法的實(shí)現(xiàn)流程圖;圖2是本發(fā)明實(shí)施例二提供的判斷相同數(shù)據(jù)的具體實(shí)現(xiàn)流程圖;
圖3是本發(fā)明實(shí)施例三提供的數(shù)據(jù)融合裝置的組成結(jié)構(gòu)圖;圖4是本發(fā)明實(shí)施例三提供的判斷單元的組成結(jié)構(gòu)圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明實(shí)施例通過(guò)判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù),在存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),將所述輸入的數(shù)據(jù)中新的描述信息添加到所述相同的數(shù)據(jù)中,可有效豐富數(shù)據(jù)的信息,并減少數(shù)據(jù)的冗余,提高用戶(hù)對(duì)搜索到的數(shù)據(jù)的滿意度。為了說(shuō)明本發(fā)明所述的技術(shù)方案,下面通過(guò)具體實(shí)施例來(lái)進(jìn)行說(shuō)明。實(shí)施例一:圖I示出了本發(fā)明實(shí)施例一提供的數(shù)據(jù)融合方法的實(shí)現(xiàn)流程,該方法過(guò)程詳述如下在步驟SlOl中,接收輸入的數(shù)據(jù)。在本實(shí)施例中,所述數(shù)據(jù)包括但不局限于興趣點(diǎn)數(shù)據(jù)。在步驟S102中,判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù),如果判斷結(jié)果為“是”,則執(zhí)行步驟S103,如果判斷結(jié)果為“否”,則執(zhí)行步驟S104。在本實(shí)施例中,為了將采集到的數(shù)據(jù)中相同的數(shù)據(jù)中的不同描述信息融合,豐富數(shù)據(jù)信息,在接收到輸入的數(shù)據(jù)時(shí),將該輸入的數(shù)據(jù)與預(yù)存的數(shù)據(jù)進(jìn)行比較,判斷預(yù)存的數(shù)據(jù)中是否存在與該輸入的數(shù)據(jù)相同的數(shù)據(jù)。其中判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)的具體步驟如圖2所示。在步驟S103中,在存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),將所述輸入的數(shù)據(jù)中新的描述信息添加到所述相同的數(shù)據(jù)中。在本實(shí)施例中,所述融合指的是將多個(gè)同一數(shù)據(jù)的不同或者新的描述信息融合到一個(gè)數(shù)據(jù)上。例如數(shù)據(jù)I :名稱(chēng)I :全聚德(玉泉路)地址I :北京市海淀區(qū)復(fù)興路44號(hào)電話I :12345678 ;數(shù)據(jù)2
名稱(chēng)2 :全聚德玉泉路店地址2 :北京市海淀區(qū)復(fù)興路44號(hào)電話2 :87654321 ;經(jīng)過(guò)判斷發(fā)現(xiàn)數(shù)據(jù)I和數(shù)據(jù)2為同一數(shù)據(jù),對(duì)數(shù)據(jù)I和數(shù)據(jù)2進(jìn)行融合,融合后的數(shù)據(jù)為名稱(chēng)全聚德(玉泉路)或者全聚德玉泉路店地址北京市海淀區(qū)復(fù)興路44號(hào)電話12345678或者 87654321 ; 通過(guò)對(duì)相同數(shù)據(jù)中不同描述信息的融合,可有效豐富原數(shù)據(jù)的信息,提高了用戶(hù)對(duì)搜索到的數(shù)據(jù)的滿意度。而且,原有的相同數(shù)據(jù)中存在相同的信息,經(jīng)過(guò)融合后,減少了相同數(shù)據(jù)的冗余,節(jié)省了數(shù)據(jù)存儲(chǔ)的空間。在步驟S104中,在不存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),存儲(chǔ)所述輸入的數(shù)據(jù)。在本實(shí)施例中,在不存在與該輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),說(shuō)明該數(shù)據(jù)為新增數(shù)據(jù),則直接存儲(chǔ)該數(shù)據(jù),以便與下次輸入的數(shù)據(jù)進(jìn)行比較。在本發(fā)明實(shí)施例中,通過(guò)判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù),在存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),將所述輸入的數(shù)據(jù)中新的描述信息添加到所述相同的數(shù)據(jù)中,可有效豐富數(shù)據(jù)的信息,提高用戶(hù)對(duì)搜索到的數(shù)據(jù)的滿意度,同時(shí)減少了數(shù)據(jù)的冗余,節(jié)省了數(shù)據(jù)存儲(chǔ)的空間。實(shí)施例二 :圖2是本發(fā)明實(shí)施例二提供的判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)的具體實(shí)現(xiàn)流程在步驟S201中,對(duì)輸入的數(shù)據(jù)進(jìn)行預(yù)處理;在本實(shí)施例中,預(yù)處理過(guò)程包括但不限于地址經(jīng)緯度轉(zhuǎn)換、名稱(chēng)拆分、地址拆分
坐寸ο所述地址經(jīng)緯度轉(zhuǎn)換為在所述數(shù)據(jù)不存在經(jīng)緯度時(shí),通過(guò)所述數(shù)據(jù)的地址獲取經(jīng)緯度。所述名稱(chēng)拆分為將所述數(shù)據(jù)的名稱(chēng)拆分為地址前綴、核心部分、分店部分以及關(guān)鍵名(Keyname)加后綴大分類(lèi)部分。其中,地址前綴是通過(guò)對(duì)數(shù)據(jù)分詞后,根據(jù)地址詞序列表,獲取地址詞,再去掉地址詞的最后一個(gè)地址獲得的。例如“北京市昌平區(qū)回龍觀大酒樓”,地址詞是“北京市昌平區(qū)回龍觀”,去掉地址詞最后一個(gè)地址,則地址前綴是“北京市昌平區(qū)”,“回龍觀”保留到后面的核心部分;分店部分則是通過(guò)“ O ”和分店后綴列表來(lái)獲取分店后綴詞,再通過(guò)判斷分店后綴詞之前的詞是否是地址名或街道名來(lái)獲取完整的分店名;除去地址前綴和分店部分即為核心部分;最后,以核心部分為基礎(chǔ),通過(guò)比對(duì)Keyname配置表和后綴大分類(lèi)表,查找到對(duì)應(yīng)的keyname和后綴大分類(lèi)部分,其中Keyname配置表和后綴大分類(lèi)表是通過(guò)人工整理后獲得的。所述地址拆分為將所述數(shù)據(jù)的地址按照省、市、縣、地區(qū)、街道、級(jí)別劃分。例如將“北京市海淀區(qū)海淀大街38號(hào)銀科大廈38號(hào)”按照省I市I縣I地區(qū)I街道I級(jí)別劃分,以“ ! ”結(jié)尾拆分成“北京市111 !海淀區(qū)112 !海淀大街114 ! 30號(hào)116 !銀科大廈17 ! ”。在步驟S202中,對(duì)所述預(yù)處理后的數(shù)據(jù)的名稱(chēng)進(jìn)行二元詞切分,將切分后的每個(gè)詞與所述數(shù)據(jù)的經(jīng)緯度組合生成對(duì)應(yīng)的關(guān)鍵字;在本實(shí)施例中,對(duì)預(yù)處理后的數(shù)據(jù)的名稱(chēng)進(jìn)行二元詞切分,將切分后的每個(gè)詞與所述數(shù)據(jù)的經(jīng)緯度組合生成對(duì)應(yīng)的關(guān)鍵字(KEY),舉例說(shuō)明如下將數(shù)據(jù)的名稱(chēng)“Kfc中關(guān)村店”進(jìn)行二元詞切分,分割為kf|fc|c中I中關(guān)I關(guān)村I村店7個(gè)詞,然后對(duì)該數(shù)據(jù)的經(jīng)纟韋度做范圍驗(yàn)證,驗(yàn)證該數(shù)據(jù)是否在中國(guó)范圍內(nèi),即43. 005 < = latitude< =144. 015,18. O < = Iongtitude < = 54. O 是否成立,在成立時(shí)按照 lat_key =int((latitude-43. 005) *1000) /15 ;long_key = int ((longtitude-18. 000)*1000)/10進(jìn)行計(jì)算,其中,1000表示范圍在一公里以?xún)?nèi),10和15為常數(shù)。最后將每對(duì)詞(如“中關(guān)”)+lat_key+long_key來(lái)做KEY。在預(yù)存的KEY下都對(duì)應(yīng)有一個(gè)數(shù)據(jù)的列表,該列表包含了所有與該KEY相關(guān)的數(shù)據(jù),在接收到輸入的數(shù)據(jù)時(shí),先比較KEY,在KEY相同時(shí)才對(duì)其對(duì)應(yīng)的數(shù)據(jù)列表進(jìn)行比較,由此可以大大減少比對(duì)計(jì)算的次數(shù)。提高相同數(shù)據(jù)判斷的效率。 在步驟S203中,根據(jù)所述關(guān)鍵字搜索到預(yù)存的對(duì)應(yīng)的數(shù)據(jù)列表;在本實(shí)施例中,根據(jù)所述關(guān)鍵字,搜索輸入的數(shù)據(jù)所在的分片以及該輸入的數(shù)據(jù)經(jīng)緯度周?chē)?個(gè)分片中預(yù)存的對(duì)應(yīng)的數(shù)據(jù)列表。在步驟S204中,將輸入的數(shù)據(jù)與所述數(shù)據(jù)列表中的每個(gè)數(shù)據(jù)進(jìn)行相似度比較;在本實(shí)施例中,相似度比較的參數(shù)包括但不局限于以下至少一個(gè)相同核心詞、相同后綴大分類(lèi)、二元詞相似度比例、反文檔頻率綜合相似度、子串、子序列以及單字包含率。其中,所述相同核心詞經(jīng)預(yù)處理后直接獲取。在數(shù)據(jù)比較所述二元詞相似度比例(bigram_similar)時(shí),需要滿足以下條件t匕較的兩個(gè)數(shù)據(jù)的名稱(chēng)至少需要有兩個(gè)連續(xù)相同的字;比較的兩個(gè)數(shù)據(jù)的物理距離要在一千米以?xún)?nèi)。Bigranusimilar是通過(guò)統(tǒng)計(jì)二元詞切分后數(shù)據(jù)名稱(chēng)中相同詞的數(shù)量a和不同詞的數(shù)量b,然后按a/a+b計(jì)算得出的。例如“回龍觀鑫巴蜀水煮魚(yú)”和“鑫巴蜀水煮魚(yú)回龍觀店”,相同的詞有“回龍I龍觀I鑫巴I巴蜀I蜀水I水煮I煮魚(yú)”8對(duì),不同的詞有“觀鑫魚(yú)回 I 觀店” 3 對(duì),所以 bigram_similar 為 8/8+3 = O. 727。所述相同后綴大分類(lèi)(key_categorysuf_similar)是通過(guò)比較兩個(gè)數(shù)據(jù)的keyname加后綴大分類(lèi)部分得到的,具體過(guò)程舉例如下假設(shè)數(shù)據(jù)I的keyname為Ik,后綴分類(lèi)為Is,數(shù)據(jù)2的keyname為2k,后綴分類(lèi)為2s,具體的計(jì)算方法如下如果Ik不為空或者2k不為空//如果都有keyname{如果Ik不等于2k//keyname不同{key-categoty_simlar = O ;}Else 如果 Ik 等于 2k{如果Is不為空and 2s不為空//都有后綴大分類(lèi)
{如果Is等于2s //后綴大分類(lèi)相等{key_categoty_simlar = I !//keyname 相同后綴大分類(lèi)相同}Else//keyname相同但是后綴大分類(lèi)不同{key-categoty_simlar = O ;·}}Else{key-categoty_simlar = 2 -J/ 只 keyname 相同,沒(méi)有后綴}}}Else//都沒(méi)有 keyname{如果Is不為空and 2s不為空//都有后綴大分類(lèi){如果Is等于2s //后綴分類(lèi)相等{key-categoty_simlar = 3 ;// 沒(méi) keyname,后綴分類(lèi)相同}Else{key-categoty_simlar = O ;}}Else//沒(méi)有keyname也沒(méi)有分類(lèi)后綴{key-categoty_simlar = I ;}};當(dāng)兩個(gè)比較的數(shù)據(jù)滿足bigram_similar大于預(yù)設(shè)的閥值、大區(qū)域的分類(lèi)(例如學(xué)校和廣場(chǎng))和keyname不沖突且地址明確不同(兩個(gè)比較的數(shù)據(jù)物理距離大于30米)時(shí),再計(jì)算反文檔頻率綜合相似度(idissimilar)參數(shù)。所述反文檔頻率綜合相似度(idissimilar)是通過(guò)計(jì)算名稱(chēng)相似度、地址相似度、電話相似度和距離相似度得到的調(diào)和相似度,總體的計(jì)算公式是Idf_simiIar = O. 85*name_similar+0. 05*address_similar+0.05*phone_similar+O. 05*lating_similar其中最主要的是名稱(chēng)相似度(name_similar), name_similar的具體計(jì)算公式如下Name_similar = ff_same_scores_total*2/l_scores+2_scores其中,W_same_scores_total = Wsame_l*Wsame_l_scores+Wsame_2*Wsame_2_scores. . . +ffsame_n*ffsame_n_scoresl_scores = l_w_l*l_w_l_scores+. . . +l_w_t*l_w_t_scores2_scores = 2_w_l*2_w_l_scores+. . . +2_w_f*2_w_f_scoresWsame_i是對(duì)兩個(gè)數(shù)據(jù)的名稱(chēng)進(jìn)行二元詞切分后獲取的相同詞;Wsame_i_scores 是對(duì)每個(gè)相同詞預(yù)先統(tǒng)計(jì)好的分值(即權(quán)重)。通過(guò)name_similar計(jì)算方法可以降低數(shù)據(jù)的名稱(chēng)中一些非核心詞的影響,例如“海皇酒店”和“?;寿e館”,因?yàn)椤昂;省痹跀?shù)據(jù)的名稱(chēng)中出現(xiàn)的頻率較低,所以Wsame_scores(?;?就高,而“酒店” “賓館”在數(shù)據(jù)的名稱(chēng)中出現(xiàn)的頻率較高,所以Wsame_scores (酒店),ffsame_scores (賓館)分值就低,但 Wsame_scores (?;?*2/ffsame_scores (?;?*2+ffsame_scores (酒店)+ffsame_scores (賓館)的得分確很高,所以可以判定“?;示频辍焙汀昂;寿e館”為很相似,同理計(jì)算“海皇酒店”和“星海酒店”,得到的name_similar很低,所以可以判定“海皇酒店”和“星海酒店”為不相似。Lating_similar 的計(jì)算公式為L(zhǎng)ating_similar = MIN(100. 0/distance, I);所述地址相似度(address_similar)是將兩個(gè)比較的數(shù)據(jù)的地址劃分成省、市、縣、地區(qū)、街道、級(jí)別六個(gè)級(jí)別來(lái)進(jìn)行比較;所述電話相似度(phone_similar)的比較方式如下當(dāng)電話a和電話b完全相同時(shí)phone_similar = I ;當(dāng)電話a的后7位和電話b的后7位完全相同時(shí)phone_similar = O. 7 ;其他情況下phone_similar = O ;所述子串是指在長(zhǎng)串中連續(xù)出現(xiàn)的字符串,例如“abc”是“abcef”的子串;所述子序列是指在長(zhǎng)串中按順序出現(xiàn)的字符串,例如“abc”是“axbxc”的子序列;所述單字包含率是子串中的單字在長(zhǎng)串中出現(xiàn)的概率,例如“abc”中的"a"," b"在“abdef”中出現(xiàn)的概率為1/5 = 0.2。在本實(shí)施例中,通過(guò)對(duì)比較的數(shù)據(jù)進(jìn)行多維度的相似度計(jì)算,可有效減少相同數(shù)據(jù)判斷的錯(cuò)誤率,提高相同數(shù)據(jù)的召回率和相同數(shù)據(jù)判斷的效率。在步驟S205中,在所述相似度符合預(yù)設(shè)的閾值時(shí),判定所述比較的數(shù)據(jù)為同一數(shù)據(jù)。在本實(shí)施例中,根據(jù)計(jì)算得到的相似度,與預(yù)設(shè)的閾值進(jìn)行比較,判斷所述比較的數(shù)據(jù)是否為同一數(shù)據(jù),在所述相似度符合預(yù)設(shè)的閾值時(shí),判定所述比較的數(shù)據(jù)為同一數(shù)據(jù)。例如當(dāng)bigram_similar > = O. 8時(shí),判定所述比較的數(shù)據(jù)為同一數(shù)據(jù);當(dāng)bigram_similar < O. 2時(shí),判定所述比較的數(shù)據(jù)不是同一數(shù)據(jù);當(dāng)O. 4 < = bigram_similar < O. 8時(shí),如果idf_similar > O. 9或者數(shù)據(jù)的keyname和后綴大分類(lèi)都相同或者有子串或子序列關(guān)系,則先判定所述比較的數(shù)據(jù)為同一數(shù)據(jù),如果1(1乙8加11&1'<=0.9,且后綴大分類(lèi)都相同,并且除去后綴詞后idf_similar >= O. 5,則判定所述比較的數(shù)據(jù)為同一數(shù)據(jù);當(dāng)O.2 < = bigram_similar < 0. 4 時(shí),如果 O. 5 > cal_similar > O. I 且比較的兩個(gè)數(shù)據(jù)的名稱(chēng)有子串或子序列關(guān)系或數(shù)據(jù)的keyname和后綴分類(lèi)都相同,則判定所述比較的數(shù)據(jù)為同一數(shù)據(jù),其他情況則判定所述比較的數(shù)據(jù)不是同一數(shù)據(jù)。實(shí)施例三:圖3示出了本發(fā)明實(shí)施例三提供的數(shù)據(jù)融合裝置的組成結(jié)構(gòu),為了便于說(shuō)明,僅不出了與本發(fā)明實(shí)施例相關(guān)的部分。該數(shù)據(jù)融合裝置可以是運(yùn)行于數(shù)據(jù)處理系統(tǒng)內(nèi)的軟件單元、硬件單元或者軟硬件相結(jié)合的單元,也可以作為獨(dú)立的掛件集成到這些數(shù)據(jù)處理系統(tǒng)中或者運(yùn)行于這些數(shù)據(jù)處理系統(tǒng)的應(yīng)用系統(tǒng)中。該數(shù)據(jù)融合裝置包括數(shù)據(jù)接收單元31、判斷單元32、數(shù)據(jù)融合單元33和直接存儲(chǔ)單元34。其中,各單元的具體功能如下 數(shù)據(jù)接收單元31,用于接收輸入的數(shù)據(jù);判斷單元32,用于判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù),并在判斷結(jié)果為“是”時(shí),通過(guò)數(shù)據(jù)融合單元33將所述輸入的數(shù)據(jù)中新的描述信息添加到所述相同的數(shù)據(jù)中;在判斷結(jié)果為“否”時(shí),通過(guò)直接存儲(chǔ)單元34存儲(chǔ)所述輸入的數(shù)據(jù)。其中,所述判斷單元32還包括預(yù)處理模塊41、名稱(chēng)切分模塊42、搜索模塊43、相似度比較模塊44和判定模塊45 (如圖4所示),各模塊具體功能如下預(yù)處理模塊41,用于對(duì)輸入的數(shù)據(jù)進(jìn)行預(yù)處理;名稱(chēng)切分模塊42,用于對(duì)所述預(yù)處理后的數(shù)據(jù)的名稱(chēng)進(jìn)行二元詞切分,將切分后的每個(gè)詞與所述數(shù)據(jù)的經(jīng)緯度組合生成對(duì)應(yīng)的關(guān)鍵字;搜索模塊43,用于根據(jù)所述關(guān)鍵字搜索到預(yù)存的對(duì)應(yīng)的數(shù)據(jù)列表;相似度比較模塊44,用于將輸入的數(shù)據(jù)與所述數(shù)據(jù)列表中的每個(gè)數(shù)據(jù)進(jìn)行相似度比較;判定模塊45,用于在所述相似度符合預(yù)設(shè)的閾值時(shí),判定所述比較的數(shù)據(jù)為同一數(shù)據(jù)。在本實(shí)施中,各模塊的具體實(shí)現(xiàn)方式如上所述,在此不再贅述。在本發(fā)明實(shí)施例中,通過(guò)判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù),在存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),將所述輸入的數(shù)據(jù)中新的描述信息添加到所述相同的數(shù)據(jù)中,可有效豐富數(shù)據(jù)的信息,并減少數(shù)據(jù)的冗余,提高用戶(hù)對(duì)搜索到的數(shù)據(jù)的滿意度。而且,在對(duì)相同數(shù)據(jù)判斷的過(guò)程中,通過(guò)對(duì)比較的數(shù)據(jù)進(jìn)行多維度的相似度計(jì)算,可有效減少相同數(shù)據(jù)判斷的錯(cuò)誤率,提高相同數(shù)據(jù)的召回率和相同數(shù)據(jù)判斷的效率。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種數(shù)據(jù)融合的方法,其特征在于,所述方法包括以下步驟 接收輸入的數(shù)據(jù); 判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù); 當(dāng)預(yù)存的數(shù)據(jù)中存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),將所述輸入的數(shù)據(jù)中新的描述信息添加到所述相同的數(shù)據(jù)中。
2.如權(quán)利要求I所述的方法,其特征在于,所述判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)的步驟具體為 對(duì)輸入的數(shù)據(jù)進(jìn)行預(yù)處理; 對(duì)所述預(yù)處理后的數(shù)據(jù)的名稱(chēng)進(jìn)行二元詞切分,將切分后的每個(gè)詞與所述數(shù)據(jù)的經(jīng)緯度組合生成對(duì)應(yīng)的關(guān)鍵字; 根據(jù)所述關(guān)鍵字搜索到預(yù)存的對(duì)應(yīng)的數(shù)據(jù)列表; 將輸入的數(shù)據(jù)與所述數(shù)據(jù)列表中的每個(gè)數(shù)據(jù)進(jìn)行相似度比較;在所述相似度符合預(yù)設(shè)的閾值時(shí),判定所述比較的數(shù)據(jù)與所述輸入的數(shù)據(jù)為同一數(shù)據(jù)。
3.如權(quán)利要求2所述的方法,其特征在于,所述預(yù)處理過(guò)程包括地址經(jīng)緯度轉(zhuǎn)換、名稱(chēng)拆分、地址拆分; 所述地址經(jīng)緯度轉(zhuǎn)換為在數(shù)據(jù)不存在經(jīng)緯度時(shí),通過(guò)所述數(shù)據(jù)的地址獲取經(jīng)緯度; 所述名稱(chēng)拆分為將所述數(shù)據(jù)的名稱(chēng)拆分為地址前綴、核心部分、分店部分以及關(guān)鍵名加后綴大分類(lèi)部分; 所述地址拆分為將所述數(shù)據(jù)的地址按照省、市、縣、地區(qū)、街道、級(jí)別劃分。
4.如權(quán)利要求2所述的方法,其特征在于,所述相似度比較的參數(shù)包括以下至少一個(gè)相同核心詞、相同后綴大分類(lèi)、二元詞相似度比例、反文檔頻率綜合相似度、子串、子序列以及單字包含率。
5.如權(quán)利要求I所述的方法,其特征在于,所述方法還包括以下步驟 在不存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),存儲(chǔ)所述輸入的數(shù)據(jù)。
6.一種數(shù)據(jù)融合裝置,其特征在于,所述裝置包括 數(shù)據(jù)接收單元,用于接收輸入的數(shù)據(jù); 判斷單元,用于判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù);以及數(shù)據(jù)融合單元,用于當(dāng)預(yù)存的數(shù)據(jù)中存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),將所述輸入的數(shù)據(jù)中新的描述信息添加到所述相同的數(shù)據(jù)中。
7.如權(quán)利要求6所述的裝置,其特征在于,所述判斷單元還包括 預(yù)處理模塊,用于對(duì)輸入的數(shù)據(jù)進(jìn)行預(yù)處理; 名稱(chēng)切分模塊,用于對(duì)所述預(yù)處理后的數(shù)據(jù)的名稱(chēng)進(jìn)行二元詞切分,將切分后的每個(gè)詞與所述數(shù)據(jù)的經(jīng)緯度組合生成對(duì)應(yīng)的關(guān)鍵字; 搜索模塊,用于根據(jù)所述關(guān)鍵字搜索到預(yù)存的對(duì)應(yīng)的數(shù)據(jù)列表; 相似度比較模塊,用于將輸入的數(shù)據(jù)與所述數(shù)據(jù)列表中的每個(gè)數(shù)據(jù)進(jìn)行相似度比較;判定模塊,用于在所述相似度符合預(yù)設(shè)的閾值時(shí),判定所述比較的數(shù)據(jù)與所述輸入的數(shù)據(jù)為同一數(shù)據(jù)。
8.如權(quán)利要求7所述的裝置,其特征在于,所述預(yù)處理過(guò)程包括地址經(jīng)緯度轉(zhuǎn)換、名稱(chēng)拆分、地址拆分;所述地址經(jīng)緯度轉(zhuǎn)換為在數(shù)據(jù)不存在經(jīng)緯度時(shí),通過(guò)所述數(shù)據(jù)的地址獲取經(jīng)緯度; 所述名稱(chēng)拆分為將所述數(shù)據(jù)的名稱(chēng)拆分為地址前綴、核心部分、分店部分和關(guān)鍵字加后綴大分類(lèi)部分; 所述地址拆分為將所述數(shù)據(jù)的地址按照省、市、縣、地區(qū)、街道、級(jí)別劃分。
9.如權(quán)利要求7所述的裝置,其特征在于,所述相似度比較的參數(shù)包括以下至少一個(gè)相同核心詞、相同后綴大分類(lèi)、二元詞相似度比例、反文檔頻率綜合相似度、子串、子序列以及單字包含率。
10.如權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括 存儲(chǔ)單元,用于在不存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),存儲(chǔ)所述輸入的數(shù)據(jù)。
11.一種數(shù)據(jù)處理系統(tǒng),其特征在于,所述數(shù)據(jù)處理系統(tǒng)包括權(quán)利要求6至10任一項(xiàng)權(quán)利要求所述的數(shù)據(jù)融合裝置。
全文摘要
本發(fā)明適用于信息處理技術(shù)領(lǐng)域,提供了一種數(shù)據(jù)融合的方法、裝置及數(shù)據(jù)處理系統(tǒng),所述方法包括下述步驟接收輸入的數(shù)據(jù);判斷預(yù)存的數(shù)據(jù)中是否存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù);當(dāng)預(yù)存的數(shù)據(jù)中存在與所述輸入的數(shù)據(jù)相同的數(shù)據(jù)時(shí),將所述輸入的數(shù)據(jù)中新的描述信息添加到所述相同的數(shù)據(jù)中。本發(fā)明能夠?qū)⑾嗤瑪?shù)據(jù)中不同的描述信息融合,豐富數(shù)據(jù)的信息,提高用戶(hù)對(duì)搜索到的數(shù)據(jù)的滿意度。
文檔編號(hào)G06F17/30GK102789467SQ20111013176
公開(kāi)日2012年11月21日 申請(qǐng)日期2011年5月20日 優(yōu)先權(quán)日2011年5月20日
發(fā)明者張軒, 王東海 申請(qǐng)人:騰訊科技(深圳)有限公司