一種物聯(lián)網(wǎng)數(shù)據(jù)相似度處理方法

文檔序號(hào)：9453107閱讀：553來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種物聯(lián)網(wǎng)數(shù)據(jù)相似度處理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域，特別是涉及一種物聯(lián)網(wǎng)數(shù)據(jù)相似度處理方法。
【背景技術(shù)】
[0002] 自Internet出現(xiàn)以來(lái)，互聯(lián)網(wǎng)上的WEB頁(yè)面的數(shù)量就飛速增長(zhǎng)著，也恰是由于其這種增長(zhǎng)速度，形成了世界上最大的信息資源庫(kù)。WEB信息整合技術(shù)就是對(duì)這一個(gè)信息資源庫(kù)進(jìn)行有效處理，整合相關(guān)信息，為數(shù)據(jù)挖掘提供數(shù)據(jù)方面的支撐，以便更好地應(yīng)用于專業(yè) 領(lǐng)域中的信息服務(wù)。在當(dāng)前飛速發(fā)展的網(wǎng)絡(luò)時(shí)代，信息資源日益豐富，WEB信息整合已成為信息時(shí)代的重要內(nèi)容，在多個(gè)領(lǐng)域中都有WEB信息整合的應(yīng)用。
[0003] 如在物聯(lián)網(wǎng)領(lǐng)域中，產(chǎn)品供貨商可以通過(guò)多個(gè)WEB交易平臺(tái)發(fā)布產(chǎn)品信息，而買家可以從WEB交易平臺(tái)中獲取信息，并通過(guò)產(chǎn)品供貨商所發(fā)布的信息可以聯(lián)系到產(chǎn)品供貨商進(jìn)行購(gòu)買；在這一過(guò)程中，就涉及到大量數(shù)據(jù)的處理。但是，由于每個(gè)WEB交易平臺(tái)對(duì)信息的表述方式不盡相同，從而給信息整合帶來(lái)了一定的困難。另外，同一個(gè)產(chǎn)品供貨商去不同的WEB交易平臺(tái)發(fā)布同一個(gè)產(chǎn)品可能會(huì)出現(xiàn)不同的表現(xiàn)形式，其會(huì)造成這些WEB產(chǎn)品交易平臺(tái)上使用數(shù)據(jù)爬蟲獲取數(shù)據(jù)，進(jìn)而會(huì)產(chǎn)生很多重復(fù)數(shù)據(jù)，因此，針對(duì)來(lái)自不同WEB數(shù)據(jù) 源的、表述形式不一樣的產(chǎn)品數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)的清洗是非常有必要的，其是通過(guò)機(jī)器判斷是否有重復(fù)數(shù)據(jù)的重要保障。
[0004] 產(chǎn)品數(shù)據(jù)的清洗過(guò)程中，最主要的是清除產(chǎn)品多條記錄中的相似重復(fù)記錄，以保證建立一個(gè)全面、準(zhǔn)確、專業(yè)、符合數(shù)據(jù)質(zhì)量條件的產(chǎn)品數(shù)據(jù)庫(kù)；此時(shí)，就需要對(duì)多條記錄進(jìn) 行相似度計(jì)算。目前，數(shù)據(jù)相似度的計(jì)算主要是通過(guò)一一比對(duì)來(lái)實(shí)現(xiàn)的，其運(yùn)算速度非常慢，消耗大量的時(shí)間成本。

【發(fā)明內(nèi)容】

[0005] 鑒于以上所述現(xiàn)有技術(shù)的缺陷和各種不足之處，本發(fā)明要解決的技術(shù)問(wèn)題在于提供一種能夠節(jié)省大量時(shí)間成本的物聯(lián)網(wǎng)數(shù)據(jù)相似度處理方法。
[0006] 為實(shí)現(xiàn)上述目的，本發(fā)明提供一種物聯(lián)網(wǎng)數(shù)據(jù)相似度處理方法，包括以下步驟：
[0007]S1、從WEB交易平臺(tái)中獲取多條產(chǎn)品記錄，選出具有多個(gè)相同屬性的兩條產(chǎn)品記錄，分別為第一產(chǎn)品記錄和第二產(chǎn)品記錄；
[0008]S2、將第一產(chǎn)品記錄的屬性保存在第一數(shù)組中，將第二產(chǎn)品記錄的屬性保存在第二數(shù)組中；
[0009]S3、對(duì)第一產(chǎn)品記錄和第二產(chǎn)品記錄的各屬性分別按相應(yīng)的屬性函數(shù)計(jì)算相應(yīng)的屬性相似度值，并將多個(gè)屬性的屬性相似度值保存在第三數(shù)組中；
[0010] S4、根據(jù)第一產(chǎn)品記錄和第二產(chǎn)品記錄各屬性的重要程度、并通過(guò)權(quán)重函數(shù)計(jì)算各屬性的權(quán)重值，并將多個(gè)屬性的權(quán)重值保存在第四數(shù)組中；
[0011] S5、結(jié)合屬性相似度值的第三數(shù)組和權(quán)重值的第四數(shù)組，通過(guò)整體相似度函數(shù)計(jì) 算第一產(chǎn)品記錄和第二產(chǎn)品記錄的整體相似度。
[0012] 進(jìn)一步地，所述步驟S3中，屬性函數(shù)包括產(chǎn)品別稱匹配策略函數(shù)、產(chǎn)品價(jià)格轉(zhuǎn)換匹配策略函數(shù)、規(guī)范化日期匹配策略函數(shù)、規(guī)范化產(chǎn)地匹配策略函數(shù)和編輯距離算法函數(shù)。
[0013] 優(yōu)選地，所述步驟S2中，第一產(chǎn)品記錄的屬性按照產(chǎn)品名稱、價(jià)格、生產(chǎn)日期、產(chǎn) 地的順序先后放入多個(gè)第一屬性數(shù)組中，多個(gè)第一屬性數(shù)組構(gòu)成所述第一數(shù)組。
[0014] 優(yōu)選地，所述步驟S2中，第二產(chǎn)品記錄的屬性按照產(chǎn)品名稱、價(jià)格、生產(chǎn)日期、產(chǎn) 地的順序先后放入多個(gè)第二屬性數(shù)組中，多個(gè)第二屬性數(shù)組構(gòu)成所述第二數(shù)組。
[0015] 本發(fā)明涉及的一種物聯(lián)網(wǎng)數(shù)據(jù)相似度處理方法具有以下有益效果：
[0016] 本申請(qǐng)將具有相同屬性的兩條產(chǎn)品記錄按照各自的屬性相似度和屬性權(quán)重值進(jìn) 行整體相似度的計(jì)算，其處理速度快，計(jì)算精度高，從而可以節(jié)省大量的時(shí)間成本。
[0017] 上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，并可依照說(shuō)明書的內(nèi)容予以實(shí)施，以下以本發(fā)明的較佳實(shí)施例并配合附圖對(duì)本專利進(jìn)行詳細(xì)說(shuō)明。
【附圖說(shuō)明】
[0018] 圖1為本申請(qǐng)的流程圖。
[0019] 圖2為本申請(qǐng)中產(chǎn)品別稱匹配策略函數(shù)的流程圖。
[0020] 圖3為本申請(qǐng)中產(chǎn)品價(jià)格轉(zhuǎn)換匹配策略函數(shù)的流程圖。
[0021] 圖4為本申請(qǐng)中規(guī)范化日期匹配策略函數(shù)的流程圖。
[0022] 圖5為本申請(qǐng)中規(guī)范化產(chǎn)地匹配策略函數(shù)的流程圖。
【具體實(shí)施方式】
[0023] 下面結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)介紹。
[0024] 如圖1所示，本發(fā)明提供一種數(shù)據(jù)相似度處理方法，包括以下步驟：
[0025] S1、從WEB交易平臺(tái)中獲取多條產(chǎn)品記錄，選出具有多個(gè)相同屬性的兩條產(chǎn)品記錄，分別為第一產(chǎn)品記錄A和第二產(chǎn)品記錄B。
[0026]S2、將第一產(chǎn)品記錄A的屬性保存在第一數(shù)組a□中，將第二產(chǎn)品記錄B的屬性保存在第二數(shù)組b□中。
[0027] 第一產(chǎn)品記錄A和第二產(chǎn)品記錄B都具有n個(gè)屬性，故第一數(shù)組a□由n個(gè)第一屬性數(shù)組3[0]、&[1]、&[2]、 &[3]、&[4]~8[11]構(gòu)成，第二數(shù)組13]由11個(gè)第二屬性數(shù)組13[0]、 b[l]、b[2]、b[3]、b[4]~b[n]構(gòu)成。同時(shí)，第一產(chǎn)品記錄A的多個(gè)屬性按照產(chǎn)品名稱、價(jià) 格、生產(chǎn)日期、產(chǎn)地的順序先后依次保存在第一屬性數(shù)組中a[0]、a[l]、a[2]、a[3]中，而第一屬性數(shù)組a[4]~a[n]用于保存第一產(chǎn)品記錄A的其他次要屬性；同理，第二產(chǎn)品記錄 B的多個(gè)屬性按照產(chǎn)品名稱、價(jià)格、生產(chǎn)日期、產(chǎn)地的順序先后依次保存在第一屬性數(shù)組中 b[0]、b[l]、b[2]、b[3]中，而第二屬性數(shù)組b[4]~b[n]用于保存第二產(chǎn)品記錄B的其他次要屬性。
[0028]S3、對(duì)第一產(chǎn)品記錄A和第二產(chǎn)品記錄B的各屬性分別按相應(yīng)的屬性函數(shù)計(jì)算相應(yīng)的屬性相似度值，并將多個(gè)屬性的屬性相似度值保存在第三數(shù)組c□中，該第三數(shù)組c[] 為double型數(shù)組。
[0029]所述步驟S3中，屬性函數(shù)包括產(chǎn)品別稱匹配策略函數(shù)Strategy_Name〇、產(chǎn)品價(jià) 格轉(zhuǎn)換匹配策略函數(shù)Strategy_Price()、規(guī)范化日期匹配策略函數(shù)Strategy_Date()、規(guī) 范化產(chǎn)地匹配策略函數(shù)Strategy_Origin()和編輯距離算法函數(shù)Edit_Distance()。
[0030]S4、根據(jù)第一產(chǎn)品記錄A和第二產(chǎn)品記錄B各屬性的重要程度、并通過(guò)權(quán)重函數(shù) Weight()計(jì)算各屬性的權(quán)重值，并將多個(gè)屬性的權(quán)重值保存在第四數(shù)組w□中，該第四數(shù) 組w□為double型數(shù)組。
[0031] S5、結(jié)合屬性相似度值的第三數(shù)組c□和權(quán)重值的第四數(shù)組w□，通過(guò)整體相似度函數(shù)Sim()計(jì)算第一產(chǎn)品記錄A和第二產(chǎn)品記錄B的整體相似度Sim(A、B)。
[0032] 本申請(qǐng)將具有相同屬性的兩條產(chǎn)品記錄按照各自的屬性相似度和屬性權(quán)重值進(jìn) 行整體相似度的計(jì)算，其處理速度快，計(jì)算精度高，從而可以節(jié)省大量的時(shí)間成本。所以，本發(fā)明有效克服了現(xiàn)有技術(shù)中的種種缺點(diǎn)而具高度產(chǎn)業(yè)利用價(jià)值。
[0033] 進(jìn)一步地，如圖2所示，所述產(chǎn)品別稱匹配策略函數(shù)Strategy_Name()包括以下步驟：
[0034]N1、從文檔中選取一組數(shù)據(jù)，放到集合S中；
[0035]N2、從集合的第一個(gè)元素開(kāi)始，每一個(gè)元素都用C++STL中的map容器保存起來(lái)，與第一個(gè)元素形成映射；
[0036]N3、對(duì)于記錄A、B的農(nóng)產(chǎn)品名稱這個(gè)屬性值，在map容器中找到對(duì)應(yīng)的映射值，對(duì) 它們進(jìn)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：謝東;肖東;成運(yùn);
技術(shù)所有人：湖南人文科技學(xué)院;
我是此專利的發(fā)明人

上一篇：一種文件夾的解散方法及裝置的制造方法
上一篇：一種方便企業(yè)管理招聘網(wǎng)站的系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)相關(guān)技術(shù)

物聯(lián)網(wǎng)與大數(shù)據(jù)相關(guān)技術(shù)

物聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)相關(guān)技術(shù)

物聯(lián)網(wǎng)數(shù)據(jù)采集相關(guān)技術(shù)

物聯(lián)網(wǎng)數(shù)據(jù)相關(guān)技術(shù)

物聯(lián)網(wǎng)數(shù)據(jù)管理的特性相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種物聯(lián)網(wǎng)數(shù)據(jù)相似度處理方法