亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)據(jù)質(zhì)量檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40319552發(fā)布日期:2024-12-18 12:56閱讀:8來(lái)源:國(guó)知局
數(shù)據(jù)質(zhì)量檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本公開涉及大數(shù)據(jù),尤其涉及一種數(shù)據(jù)質(zhì)量檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、相關(guān)技術(shù)中,數(shù)據(jù)質(zhì)量檢測(cè)對(duì)業(yè)務(wù)需求的發(fā)展、企業(yè)決策的有效性等具有重要作用?,F(xiàn)階段,數(shù)據(jù)質(zhì)量檢測(cè)通?;诤瘮?shù)依賴、條件函數(shù)依賴、關(guān)聯(lián)規(guī)則實(shí)現(xiàn),該方法通過(guò)以數(shù)據(jù)項(xiàng)分組及其可信度為依據(jù)的最小質(zhì)量規(guī)則計(jì)算準(zhǔn)則、挖掘算法以及采用質(zhì)量規(guī)則檢測(cè)錯(cuò)誤數(shù)據(jù)的方式進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè)。這種方式復(fù)雜度較高,資源消耗較大,適用性較差,


技術(shù)實(shí)現(xiàn)思路

1、本公開提供一種數(shù)據(jù)質(zhì)量檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。本公開的技術(shù)方案如下:

2、根據(jù)本公開實(shí)施例的第一方面,提供一種數(shù)據(jù)質(zhì)量檢測(cè)方法,包括:

3、將數(shù)據(jù)集劃分為多個(gè)子數(shù)據(jù)集;

4、通過(guò)主成分分析方法對(duì)所述子數(shù)據(jù)集進(jìn)行降維處理;

5、確定每個(gè)所述子數(shù)據(jù)集的初始相似中心點(diǎn);

6、根據(jù)相似度對(duì)每個(gè)所述子數(shù)據(jù)集進(jìn)行聚類處理,得到多個(gè)相似度類別簇;

7、基于所述多個(gè)相似度類別簇計(jì)算得到所述數(shù)據(jù)集的總相似度;

8、根據(jù)所述數(shù)據(jù)集的總相似度確定所述數(shù)據(jù)集的數(shù)據(jù)質(zhì)量。

9、在一種可能的實(shí)施方式中,所述確定每個(gè)所述子數(shù)據(jù)集的初始相似中心點(diǎn),包括:

10、對(duì)于每個(gè)所述子數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)x,確定數(shù)據(jù)點(diǎn)x的鄰域范圍內(nèi)的樣本點(diǎn)的樣本數(shù)量;

11、計(jì)算所述樣本點(diǎn)的平均距離;

12、在所述數(shù)據(jù)點(diǎn)x以所述平均距離為半徑的鄰域范圍內(nèi)的樣本點(diǎn)數(shù)量大于閾值的情況下,將所述數(shù)據(jù)點(diǎn)x確定為候選初始相似中心點(diǎn);

13、在所有所述候選初始相似中心點(diǎn)中,選取局部相似度最高的候選初始相似中心點(diǎn)ci;其中,ci表示第i次選擇的候選初始相似中心點(diǎn);

14、去除與所述候選初始相似中心點(diǎn)ci距離最遠(yuǎn)的候選初始相似中心點(diǎn);

15、在去除p個(gè)候選初始相似中心點(diǎn)的情況下,將余下的所述候選初始相似中心點(diǎn)確定為初始相似中心點(diǎn)。

16、在一種可能的實(shí)施方式中,所述閾值根據(jù)每個(gè)樣本點(diǎn)以所述平均距離為半徑的圓中包含的樣本點(diǎn)的平均數(shù)量確定。

17、在一種可能的實(shí)施方式中,所述根據(jù)相似度對(duì)每個(gè)所述子數(shù)據(jù)集進(jìn)行聚類處理,得到多個(gè)相似度類別簇,包括:

18、對(duì)于第j個(gè)子數(shù)據(jù)集,計(jì)算所述第j個(gè)子數(shù)據(jù)集中每個(gè)樣本數(shù)據(jù)到所述第j個(gè)子數(shù)據(jù)集的初始相似中心點(diǎn)的余弦相似度;

19、將除所述第j個(gè)子數(shù)據(jù)集之外的樣本數(shù)據(jù)歸至相似度最大的相似度類別簇;

20、迭代更新所述相似度類別簇的初始相似中心點(diǎn);

21、在滿足預(yù)設(shè)迭代條件的情況下,停止更新相似度類別簇的初始相似中心點(diǎn),得到多個(gè)相似度類別簇;其中,所述預(yù)設(shè)迭代條件包括迭代次數(shù)達(dá)到設(shè)定的迭代次數(shù)、相鄰兩次迭代過(guò)程的平方誤差的差值小于預(yù)設(shè)值中的至少一項(xiàng)。

22、在一種可能的實(shí)施方式中,所述基于所述多個(gè)相似度類別簇計(jì)算得到所述數(shù)據(jù)集的總相似度,包括:

23、對(duì)于每個(gè)相似度類別簇,計(jì)算相似度類別簇中的每個(gè)樣本數(shù)據(jù)到更新的相似度類別簇的初始相似中心點(diǎn)的修正余弦相似度;

24、對(duì)每個(gè)相似度類別簇的修正余弦相似度進(jìn)行求和處理,得到所述數(shù)據(jù)集的總相似度。

25、在一種可能的實(shí)施方式中,所述根據(jù)所述數(shù)據(jù)集的總相似度確定所述數(shù)據(jù)集的數(shù)據(jù)質(zhì)量,包括:

26、確定所述數(shù)據(jù)集的總相似度是否大于或等于預(yù)設(shè)相似度;

27、在所述數(shù)據(jù)集的總相似度大于或等于預(yù)設(shè)相似度的情況下,確定所述數(shù)據(jù)集的數(shù)據(jù)質(zhì)量低。

28、根據(jù)本公開實(shí)施例的第二方面,提供一種數(shù)據(jù)質(zhì)量檢測(cè)裝置,包括:

29、子集劃分模塊,用于將數(shù)據(jù)集劃分為多個(gè)子數(shù)據(jù)集;

30、降維模塊,用于通過(guò)主成分分析方法對(duì)所述子數(shù)據(jù)集進(jìn)行降維處理;

31、中心點(diǎn)確定模塊,用于確定每個(gè)所述子數(shù)據(jù)集的初始相似中心點(diǎn);

32、聚類模塊,用于根據(jù)相似度對(duì)每個(gè)所述子數(shù)據(jù)集進(jìn)行聚類處理,得到多個(gè)相似度類別簇;

33、計(jì)算模塊,用于基于所述多個(gè)相似度類別簇計(jì)算得到所述數(shù)據(jù)集的總相似度;

34、質(zhì)量檢測(cè)模塊,用于根據(jù)所述數(shù)據(jù)集的總相似度確定所述數(shù)據(jù)集的數(shù)據(jù)質(zhì)量。

35、根據(jù)本公開實(shí)施例的第三方面,提供一種電子設(shè)備,包括:

36、處理器;

37、用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;

38、其中,所述處理器被配置為執(zhí)行所述指令,以實(shí)現(xiàn)如第一方面中任一項(xiàng)所述的數(shù)據(jù)質(zhì)量檢測(cè)方法。

39、根據(jù)本公開實(shí)施例的第四方面,提供一種存儲(chǔ)介質(zhì),當(dāng)所述存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得電子設(shè)備能夠執(zhí)行如第一方面中任一項(xiàng)所述的數(shù)據(jù)質(zhì)量檢測(cè)方法。

40、根據(jù)本公開實(shí)施例的第五方面,提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一項(xiàng)所述的數(shù)據(jù)質(zhì)量檢測(cè)方法。

41、本公開的實(shí)施例提供的技術(shù)方案至少帶來(lái)以下有益效果:

42、在本公開實(shí)施例中,通過(guò)將數(shù)據(jù)集劃分為多個(gè)子數(shù)據(jù)集;通過(guò)主成分分析方法對(duì)所述子數(shù)據(jù)集進(jìn)行降維處理;確定每個(gè)所述子數(shù)據(jù)集的初始相似中心點(diǎn);根據(jù)相似度對(duì)每個(gè)所述子數(shù)據(jù)集進(jìn)行聚類處理,得到多個(gè)相似度類別簇;基于所述多個(gè)相似度類別簇計(jì)算得到所述數(shù)據(jù)集的總相似度;根據(jù)所述數(shù)據(jù)集的總相似度確定所述數(shù)據(jù)集的數(shù)據(jù)質(zhì)量。這樣,一方面,可以通過(guò)相似度的方式進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè),降低數(shù)據(jù)質(zhì)量檢測(cè)方法的復(fù)雜度,提高檢測(cè)準(zhǔn)確度、降低時(shí)間成本;另一方面,通過(guò)劃分子數(shù)據(jù)集和數(shù)據(jù)降維的方式進(jìn)行并行處理,還可以提高數(shù)據(jù)質(zhì)量檢測(cè)方法的運(yùn)行效率。

43、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。



技術(shù)特征:

1.一種數(shù)據(jù)質(zhì)量檢測(cè)方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)質(zhì)量檢測(cè)方法,其特征在于,所述確定每個(gè)所述子數(shù)據(jù)集的初始相似中心點(diǎn),包括:

3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)質(zhì)量檢測(cè)方法,其特征在于,所述閾值根據(jù)每個(gè)樣本點(diǎn)以所述平均距離為半徑的圓中包含的樣本點(diǎn)的平均數(shù)量確定。

4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)質(zhì)量檢測(cè)方法,其特征在于,所述根據(jù)相似度對(duì)每個(gè)所述子數(shù)據(jù)集進(jìn)行聚類處理,得到多個(gè)相似度類別簇,包括:

5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)質(zhì)量檢測(cè)方法,其特征在于,所述基于所述多個(gè)相似度類別簇計(jì)算得到所述數(shù)據(jù)集的總相似度,包括:

6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)質(zhì)量檢測(cè)方法,其特征在于,所述根據(jù)所述數(shù)據(jù)集的總相似度確定所述數(shù)據(jù)集的數(shù)據(jù)質(zhì)量,包括:

7.一種數(shù)據(jù)質(zhì)量檢測(cè)裝置,其特征在于,包括:

8.一種電子設(shè)備,其特征在于,包括:

9.一種存儲(chǔ)介質(zhì),當(dāng)所述存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得電子設(shè)備能夠執(zhí)行如權(quán)利要求1至6中任一項(xiàng)所述的數(shù)據(jù)質(zhì)量檢測(cè)方法。

10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述的數(shù)據(jù)質(zhì)量檢測(cè)方法。


技術(shù)總結(jié)
本公開關(guān)于一種數(shù)據(jù)質(zhì)量檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。其中,所述方法,包括:將數(shù)據(jù)集劃分為多個(gè)子數(shù)據(jù)集;通過(guò)主成分分析方法對(duì)所述子數(shù)據(jù)集進(jìn)行降維處理;確定每個(gè)所述子數(shù)據(jù)集的初始相似中心點(diǎn);根據(jù)相似度對(duì)每個(gè)所述子數(shù)據(jù)集進(jìn)行聚類處理,得到多個(gè)相似度類別簇;基于所述多個(gè)相似度類別簇計(jì)算得到所述數(shù)據(jù)集的總相似度;根據(jù)所述數(shù)據(jù)集的總相似度確定所述數(shù)據(jù)集的數(shù)據(jù)質(zhì)量。采用本公開實(shí)施例提供的方法,可以提高檢測(cè)準(zhǔn)確度、降低時(shí)間成本,提高數(shù)據(jù)質(zhì)量檢測(cè)方法的運(yùn)行效率。

技術(shù)研發(fā)人員:屈銳,姜峰,劉躍,高蘭芳,張智,張教寬,惠勇琦,李汶鑫,孫肖鶴
受保護(hù)的技術(shù)使用者:中國(guó)人民人壽保險(xiǎn)股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/17
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1