本公開涉及大數(shù)據(jù),尤其涉及一種數(shù)據(jù)質(zhì)量檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、相關(guān)技術(shù)中,數(shù)據(jù)質(zhì)量檢測(cè)對(duì)業(yè)務(wù)需求的發(fā)展、企業(yè)決策的有效性等具有重要作用?,F(xiàn)階段,數(shù)據(jù)質(zhì)量檢測(cè)通?;诤瘮?shù)依賴、條件函數(shù)依賴、關(guān)聯(lián)規(guī)則實(shí)現(xiàn),該方法通過(guò)以數(shù)據(jù)項(xiàng)分組及其可信度為依據(jù)的最小質(zhì)量規(guī)則計(jì)算準(zhǔn)則、挖掘算法以及采用質(zhì)量規(guī)則檢測(cè)錯(cuò)誤數(shù)據(jù)的方式進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè)。這種方式復(fù)雜度較高,資源消耗較大,適用性較差,
技術(shù)實(shí)現(xiàn)思路
1、本公開提供一種數(shù)據(jù)質(zhì)量檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。本公開的技術(shù)方案如下:
2、根據(jù)本公開實(shí)施例的第一方面,提供一種數(shù)據(jù)質(zhì)量檢測(cè)方法,包括:
3、將數(shù)據(jù)集劃分為多個(gè)子數(shù)據(jù)集;
4、通過(guò)主成分分析方法對(duì)所述子數(shù)據(jù)集進(jìn)行降維處理;
5、確定每個(gè)所述子數(shù)據(jù)集的初始相似中心點(diǎn);
6、根據(jù)相似度對(duì)每個(gè)所述子數(shù)據(jù)集進(jìn)行聚類處理,得到多個(gè)相似度類別簇;
7、基于所述多個(gè)相似度類別簇計(jì)算得到所述數(shù)據(jù)集的總相似度;
8、根據(jù)所述數(shù)據(jù)集的總相似度確定所述數(shù)據(jù)集的數(shù)據(jù)質(zhì)量。
9、在一種可能的實(shí)施方式中,所述確定每個(gè)所述子數(shù)據(jù)集的初始相似中心點(diǎn),包括:
10、對(duì)于每個(gè)所述子數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)x,確定數(shù)據(jù)點(diǎn)x的鄰域范圍內(nèi)的樣本點(diǎn)的樣本數(shù)量;
11、計(jì)算所述樣本點(diǎn)的平均距離;
12、在所述數(shù)據(jù)點(diǎn)x以所述平均距離為半徑的鄰域范圍內(nèi)的樣本點(diǎn)數(shù)量大于閾值的情況下,將所述數(shù)據(jù)點(diǎn)x確定為候選初始相似中心點(diǎn);
13、在所有所述候選初始相似中心點(diǎn)中,選取局部相似度最高的候選初始相似中心點(diǎn)ci;其中,ci表示第i次選擇的候選初始相似中心點(diǎn);
14、去除與所述候選初始相似中心點(diǎn)ci距離最遠(yuǎn)的候選初始相似中心點(diǎn);
15、在去除p個(gè)候選初始相似中心點(diǎn)的情況下,將余下的所述候選初始相似中心點(diǎn)確定為初始相似中心點(diǎn)。
16、在一種可能的實(shí)施方式中,所述閾值根據(jù)每個(gè)樣本點(diǎn)以所述平均距離為半徑的圓中包含的樣本點(diǎn)的平均數(shù)量確定。
17、在一種可能的實(shí)施方式中,所述根據(jù)相似度對(duì)每個(gè)所述子數(shù)據(jù)集進(jìn)行聚類處理,得到多個(gè)相似度類別簇,包括:
18、對(duì)于第j個(gè)子數(shù)據(jù)集,計(jì)算所述第j個(gè)子數(shù)據(jù)集中每個(gè)樣本數(shù)據(jù)到所述第j個(gè)子數(shù)據(jù)集的初始相似中心點(diǎn)的余弦相似度;
19、將除所述第j個(gè)子數(shù)據(jù)集之外的樣本數(shù)據(jù)歸至相似度最大的相似度類別簇;
20、迭代更新所述相似度類別簇的初始相似中心點(diǎn);
21、在滿足預(yù)設(shè)迭代條件的情況下,停止更新相似度類別簇的初始相似中心點(diǎn),得到多個(gè)相似度類別簇;其中,所述預(yù)設(shè)迭代條件包括迭代次數(shù)達(dá)到設(shè)定的迭代次數(shù)、相鄰兩次迭代過(guò)程的平方誤差的差值小于預(yù)設(shè)值中的至少一項(xiàng)。
22、在一種可能的實(shí)施方式中,所述基于所述多個(gè)相似度類別簇計(jì)算得到所述數(shù)據(jù)集的總相似度,包括:
23、對(duì)于每個(gè)相似度類別簇,計(jì)算相似度類別簇中的每個(gè)樣本數(shù)據(jù)到更新的相似度類別簇的初始相似中心點(diǎn)的修正余弦相似度;
24、對(duì)每個(gè)相似度類別簇的修正余弦相似度進(jìn)行求和處理,得到所述數(shù)據(jù)集的總相似度。
25、在一種可能的實(shí)施方式中,所述根據(jù)所述數(shù)據(jù)集的總相似度確定所述數(shù)據(jù)集的數(shù)據(jù)質(zhì)量,包括:
26、確定所述數(shù)據(jù)集的總相似度是否大于或等于預(yù)設(shè)相似度;
27、在所述數(shù)據(jù)集的總相似度大于或等于預(yù)設(shè)相似度的情況下,確定所述數(shù)據(jù)集的數(shù)據(jù)質(zhì)量低。
28、根據(jù)本公開實(shí)施例的第二方面,提供一種數(shù)據(jù)質(zhì)量檢測(cè)裝置,包括:
29、子集劃分模塊,用于將數(shù)據(jù)集劃分為多個(gè)子數(shù)據(jù)集;
30、降維模塊,用于通過(guò)主成分分析方法對(duì)所述子數(shù)據(jù)集進(jìn)行降維處理;
31、中心點(diǎn)確定模塊,用于確定每個(gè)所述子數(shù)據(jù)集的初始相似中心點(diǎn);
32、聚類模塊,用于根據(jù)相似度對(duì)每個(gè)所述子數(shù)據(jù)集進(jìn)行聚類處理,得到多個(gè)相似度類別簇;
33、計(jì)算模塊,用于基于所述多個(gè)相似度類別簇計(jì)算得到所述數(shù)據(jù)集的總相似度;
34、質(zhì)量檢測(cè)模塊,用于根據(jù)所述數(shù)據(jù)集的總相似度確定所述數(shù)據(jù)集的數(shù)據(jù)質(zhì)量。
35、根據(jù)本公開實(shí)施例的第三方面,提供一種電子設(shè)備,包括:
36、處理器;
37、用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;
38、其中,所述處理器被配置為執(zhí)行所述指令,以實(shí)現(xiàn)如第一方面中任一項(xiàng)所述的數(shù)據(jù)質(zhì)量檢測(cè)方法。
39、根據(jù)本公開實(shí)施例的第四方面,提供一種存儲(chǔ)介質(zhì),當(dāng)所述存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得電子設(shè)備能夠執(zhí)行如第一方面中任一項(xiàng)所述的數(shù)據(jù)質(zhì)量檢測(cè)方法。
40、根據(jù)本公開實(shí)施例的第五方面,提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一項(xiàng)所述的數(shù)據(jù)質(zhì)量檢測(cè)方法。
41、本公開的實(shí)施例提供的技術(shù)方案至少帶來(lái)以下有益效果:
42、在本公開實(shí)施例中,通過(guò)將數(shù)據(jù)集劃分為多個(gè)子數(shù)據(jù)集;通過(guò)主成分分析方法對(duì)所述子數(shù)據(jù)集進(jìn)行降維處理;確定每個(gè)所述子數(shù)據(jù)集的初始相似中心點(diǎn);根據(jù)相似度對(duì)每個(gè)所述子數(shù)據(jù)集進(jìn)行聚類處理,得到多個(gè)相似度類別簇;基于所述多個(gè)相似度類別簇計(jì)算得到所述數(shù)據(jù)集的總相似度;根據(jù)所述數(shù)據(jù)集的總相似度確定所述數(shù)據(jù)集的數(shù)據(jù)質(zhì)量。這樣,一方面,可以通過(guò)相似度的方式進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè),降低數(shù)據(jù)質(zhì)量檢測(cè)方法的復(fù)雜度,提高檢測(cè)準(zhǔn)確度、降低時(shí)間成本;另一方面,通過(guò)劃分子數(shù)據(jù)集和數(shù)據(jù)降維的方式進(jìn)行并行處理,還可以提高數(shù)據(jù)質(zhì)量檢測(cè)方法的運(yùn)行效率。
43、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
1.一種數(shù)據(jù)質(zhì)量檢測(cè)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)質(zhì)量檢測(cè)方法,其特征在于,所述確定每個(gè)所述子數(shù)據(jù)集的初始相似中心點(diǎn),包括:
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)質(zhì)量檢測(cè)方法,其特征在于,所述閾值根據(jù)每個(gè)樣本點(diǎn)以所述平均距離為半徑的圓中包含的樣本點(diǎn)的平均數(shù)量確定。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)質(zhì)量檢測(cè)方法,其特征在于,所述根據(jù)相似度對(duì)每個(gè)所述子數(shù)據(jù)集進(jìn)行聚類處理,得到多個(gè)相似度類別簇,包括:
5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)質(zhì)量檢測(cè)方法,其特征在于,所述基于所述多個(gè)相似度類別簇計(jì)算得到所述數(shù)據(jù)集的總相似度,包括:
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)質(zhì)量檢測(cè)方法,其特征在于,所述根據(jù)所述數(shù)據(jù)集的總相似度確定所述數(shù)據(jù)集的數(shù)據(jù)質(zhì)量,包括:
7.一種數(shù)據(jù)質(zhì)量檢測(cè)裝置,其特征在于,包括:
8.一種電子設(shè)備,其特征在于,包括:
9.一種存儲(chǔ)介質(zhì),當(dāng)所述存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得電子設(shè)備能夠執(zhí)行如權(quán)利要求1至6中任一項(xiàng)所述的數(shù)據(jù)質(zhì)量檢測(cè)方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述的數(shù)據(jù)質(zhì)量檢測(cè)方法。