一種物聯(lián)網(wǎng)數(shù)據(jù)相似度處理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,特別是涉及一種物聯(lián)網(wǎng)數(shù)據(jù)相似度處理方法。
【背景技術(shù)】
[0002] 自Internet出現(xiàn)以來(lái),互聯(lián)網(wǎng)上的WEB頁(yè)面的數(shù)量就飛速增長(zhǎng)著,也恰是由于其 這種增長(zhǎng)速度,形成了世界上最大的信息資源庫(kù)。WEB信息整合技術(shù)就是對(duì)這一個(gè)信息資源 庫(kù)進(jìn)行有效處理,整合相關(guān)信息,為數(shù)據(jù)挖掘提供數(shù)據(jù)方面的支撐,以便更好地應(yīng)用于專業(yè) 領(lǐng)域中的信息服務(wù)。在當(dāng)前飛速發(fā)展的網(wǎng)絡(luò)時(shí)代,信息資源日益豐富,WEB信息整合已成為 信息時(shí)代的重要內(nèi)容,在多個(gè)領(lǐng)域中都有WEB信息整合的應(yīng)用。
[0003] 如在物聯(lián)網(wǎng)領(lǐng)域中,產(chǎn)品供貨商可以通過(guò)多個(gè)WEB交易平臺(tái)發(fā)布產(chǎn)品信息,而買 家可以從WEB交易平臺(tái)中獲取信息,并通過(guò)產(chǎn)品供貨商所發(fā)布的信息可以聯(lián)系到產(chǎn)品供貨 商進(jìn)行購(gòu)買;在這一過(guò)程中,就涉及到大量數(shù)據(jù)的處理。但是,由于每個(gè)WEB交易平臺(tái)對(duì)信 息的表述方式不盡相同,從而給信息整合帶來(lái)了一定的困難。另外,同一個(gè)產(chǎn)品供貨商去不 同的WEB交易平臺(tái)發(fā)布同一個(gè)產(chǎn)品可能會(huì)出現(xiàn)不同的表現(xiàn)形式,其會(huì)造成這些WEB產(chǎn)品交 易平臺(tái)上使用數(shù)據(jù)爬蟲獲取數(shù)據(jù),進(jìn)而會(huì)產(chǎn)生很多重復(fù)數(shù)據(jù),因此,針對(duì)來(lái)自不同WEB數(shù)據(jù) 源的、表述形式不一樣的產(chǎn)品數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)的清洗是非常有必要的,其是通過(guò)機(jī)器判 斷是否有重復(fù)數(shù)據(jù)的重要保障。
[0004] 產(chǎn)品數(shù)據(jù)的清洗過(guò)程中,最主要的是清除產(chǎn)品多條記錄中的相似重復(fù)記錄,以保 證建立一個(gè)全面、準(zhǔn)確、專業(yè)、符合數(shù)據(jù)質(zhì)量條件的產(chǎn)品數(shù)據(jù)庫(kù);此時(shí),就需要對(duì)多條記錄進(jìn) 行相似度計(jì)算。目前,數(shù)據(jù)相似度的計(jì)算主要是通過(guò)一一比對(duì)來(lái)實(shí)現(xiàn)的,其運(yùn)算速度非常 慢,消耗大量的時(shí)間成本。
【發(fā)明內(nèi)容】
[0005] 鑒于以上所述現(xiàn)有技術(shù)的缺陷和各種不足之處,本發(fā)明要解決的技術(shù)問(wèn)題在于提 供一種能夠節(jié)省大量時(shí)間成本的物聯(lián)網(wǎng)數(shù)據(jù)相似度處理方法。
[0006] 為實(shí)現(xiàn)上述目的,本發(fā)明提供一種物聯(lián)網(wǎng)數(shù)據(jù)相似度處理方法,包括以下步驟:
[0007]S1、從WEB交易平臺(tái)中獲取多條產(chǎn)品記錄,選出具有多個(gè)相同屬性的兩條產(chǎn)品記 錄,分別為第一產(chǎn)品記錄和第二產(chǎn)品記錄;
[0008]S2、將第一產(chǎn)品記錄的屬性保存在第一數(shù)組中,將第二產(chǎn)品記錄的屬性保存在第 二數(shù)組中;
[0009]S3、對(duì)第一產(chǎn)品記錄和第二產(chǎn)品記錄的各屬性分別按相應(yīng)的屬性函數(shù)計(jì)算相應(yīng)的 屬性相似度值,并將多個(gè)屬性的屬性相似度值保存在第三數(shù)組中;
[0010] S4、根據(jù)第一產(chǎn)品記錄和第二產(chǎn)品記錄各屬性的重要程度、并通過(guò)權(quán)重函數(shù)計(jì)算 各屬性的權(quán)重值,并將多個(gè)屬性的權(quán)重值保存在第四數(shù)組中;
[0011] S5、結(jié)合屬性相似度值的第三數(shù)組和權(quán)重值的第四數(shù)組,通過(guò)整體相似度函數(shù)計(jì) 算第一產(chǎn)品記錄和第二產(chǎn)品記錄的整體相似度。
[0012] 進(jìn)一步地,所述步驟S3中,屬性函數(shù)包括產(chǎn)品別稱匹配策略函數(shù)、產(chǎn)品價(jià)格轉(zhuǎn)換 匹配策略函數(shù)、規(guī)范化日期匹配策略函數(shù)、規(guī)范化產(chǎn)地匹配策略函數(shù)和編輯距離算法函數(shù)。
[0013] 優(yōu)選地,所述步驟S2中,第一產(chǎn)品記錄的屬性按照產(chǎn)品名稱、價(jià)格、生產(chǎn)日期、產(chǎn) 地的順序先后放入多個(gè)第一屬性數(shù)組中,多個(gè)第一屬性數(shù)組構(gòu)成所述第一數(shù)組。
[0014] 優(yōu)選地,所述步驟S2中,第二產(chǎn)品記錄的屬性按照產(chǎn)品名稱、價(jià)格、生產(chǎn)日期、產(chǎn) 地的順序先后放入多個(gè)第二屬性數(shù)組中,多個(gè)第二屬性數(shù)組構(gòu)成所述第二數(shù)組。
[0015] 本發(fā)明涉及的一種物聯(lián)網(wǎng)數(shù)據(jù)相似度處理方法具有以下有益效果:
[0016] 本申請(qǐng)將具有相同屬性的兩條產(chǎn)品記錄按照各自的屬性相似度和屬性權(quán)重值進(jìn) 行整體相似度的計(jì)算,其處理速度快,計(jì)算精度高,從而可以節(jié)省大量的時(shí)間成本。
[0017] 上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 并可依照說(shuō)明書的內(nèi)容予以實(shí)施,以下以本發(fā)明的較佳實(shí)施例并配合附圖對(duì)本專利進(jìn)行詳 細(xì)說(shuō)明。
【附圖說(shuō)明】
[0018] 圖1為本申請(qǐng)的流程圖。
[0019] 圖2為本申請(qǐng)中產(chǎn)品別稱匹配策略函數(shù)的流程圖。
[0020] 圖3為本申請(qǐng)中產(chǎn)品價(jià)格轉(zhuǎn)換匹配策略函數(shù)的流程圖。
[0021] 圖4為本申請(qǐng)中規(guī)范化日期匹配策略函數(shù)的流程圖。
[0022] 圖5為本申請(qǐng)中規(guī)范化產(chǎn)地匹配策略函數(shù)的流程圖。
【具體實(shí)施方式】
[0023] 下面結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)介紹。
[0024] 如圖1所示,本發(fā)明提供一種數(shù)據(jù)相似度處理方法,包括以下步驟:
[0025] S1、從WEB交易平臺(tái)中獲取多條產(chǎn)品記錄,選出具有多個(gè)相同屬性的兩條產(chǎn)品記 錄,分別為第一產(chǎn)品記錄A和第二產(chǎn)品記錄B。
[0026]S2、將第一產(chǎn)品記錄A的屬性保存在第一數(shù)組a□中,將第二產(chǎn)品記錄B的屬性保 存在第二數(shù)組b□中。
[0027] 第一產(chǎn)品記錄A和第二產(chǎn)品記錄B都具有n個(gè)屬性,故第一數(shù)組a□由n個(gè)第一屬 性數(shù)組3[0]、&[1]、&[2]、 &[3]、&[4]~8[11]構(gòu)成,第二數(shù)組13]由11個(gè)第二屬性數(shù)組13[0]、 b[l]、b[2]、b[3]、b[4]~b[n]構(gòu)成。同時(shí),第一產(chǎn)品記錄A的多個(gè)屬性按照產(chǎn)品名稱、價(jià) 格、生產(chǎn)日期、產(chǎn)地的順序先后依次保存在第一屬性數(shù)組中a[0]、a[l]、a[2]、a[3]中,而第 一屬性數(shù)組a[4]~a[n]用于保存第一產(chǎn)品記錄A的其他次要屬性;同理,第二產(chǎn)品記錄 B的多個(gè)屬性按照產(chǎn)品名稱、價(jià)格、生產(chǎn)日期、產(chǎn)地的順序先后依次保存在第一屬性數(shù)組中 b[0]、b[l]、b[2]、b[3]中,而第二屬性數(shù)組b[4]~b[n]用于保存第二產(chǎn)品記錄B的其他 次要屬性。
[0028]S3、對(duì)第一產(chǎn)品記錄A和第二產(chǎn)品記錄B的各屬性分別按相應(yīng)的屬性函數(shù)計(jì)算相 應(yīng)的屬性相似度值,并將多個(gè)屬性的屬性相似度值保存在第三數(shù)組c□中,該第三數(shù)組c[] 為double型數(shù)組。
[0029]所述步驟S3中,屬性函數(shù)包括產(chǎn)品別稱匹配策略函數(shù)Strategy_Name〇、產(chǎn)品價(jià) 格轉(zhuǎn)換匹配策略函數(shù)Strategy_Price()、規(guī)范化日期匹配策略函數(shù)Strategy_Date()、規(guī) 范化產(chǎn)地匹配策略函數(shù)Strategy_Origin()和編輯距離算法函數(shù)Edit_Distance()。
[0030]S4、根據(jù)第一產(chǎn)品記錄A和第二產(chǎn)品記錄B各屬性的重要程度、并通過(guò)權(quán)重函數(shù) Weight()計(jì)算各屬性的權(quán)重值,并將多個(gè)屬性的權(quán)重值保存在第四數(shù)組w□中,該第四數(shù) 組w□為double型數(shù)組。
[0031] S5、結(jié)合屬性相似度值的第三數(shù)組c□和權(quán)重值的第四數(shù)組w□,通過(guò)整體相似度 函數(shù)Sim()計(jì)算第一產(chǎn)品記錄A和第二產(chǎn)品記錄B的整體相似度Sim(A、B)。
[0032] 本申請(qǐng)將具有相同屬性的兩條產(chǎn)品記錄按照各自的屬性相似度和屬性權(quán)重值進(jìn) 行整體相似度的計(jì)算,其處理速度快,計(jì)算精度高,從而可以節(jié)省大量的時(shí)間成本。所以,本 發(fā)明有效克服了現(xiàn)有技術(shù)中的種種缺點(diǎn)而具高度產(chǎn)業(yè)利用價(jià)值。
[0033] 進(jìn)一步地,如圖2所示,所述產(chǎn)品別稱匹配策略函數(shù)Strategy_Name()包括以下步 驟:
[0034]N1、從文檔中選取一組數(shù)據(jù),放到集合S中;
[0035]N2、從集合的第一個(gè)元素開(kāi)始,每一個(gè)元素都用C++STL中的map容器保存起來(lái),與 第一個(gè)元素形成映射;
[0036]N3、對(duì)于記錄A、B的農(nóng)產(chǎn)品名稱這個(gè)屬性值,在map容器中找到對(duì)應(yīng)的映射值,對(duì) 它們進(jìn)