亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)據(jù)標注方法、裝置、設(shè)備、可讀存儲介質(zhì)和程序產(chǎn)品與流程

文檔序號:40389801發(fā)布日期:2024-12-20 12:12閱讀:7來源:國知局
數(shù)據(jù)標注方法、裝置、設(shè)備、可讀存儲介質(zhì)和程序產(chǎn)品與流程

本申請涉及人工智能,尤其涉及一種數(shù)據(jù)標注方法、裝置、設(shè)備、可讀存儲介質(zhì)和程序產(chǎn)品。


背景技術(shù):

1、數(shù)據(jù)標注通常涉及將原始數(shù)據(jù)與預定義的標簽或類別進行關(guān)聯(lián),以便訓練機器學習模型或進行其他數(shù)據(jù)分析任務(wù)。

2、現(xiàn)有技術(shù)中,通常通過人工對數(shù)據(jù)進行逐一打標,得到對應的標注后的數(shù)據(jù)以供模型的訓練學習。

3、但是,現(xiàn)有的這種數(shù)據(jù)標注方式,存在標注速度慢、標注準確性低等問題,導致最終數(shù)據(jù)標注效果差。


技術(shù)實現(xiàn)思路

1、本申請?zhí)峁┮环N數(shù)據(jù)標注方法、裝置、設(shè)備、可讀存儲介質(zhì)和程序產(chǎn)品,用于解決現(xiàn)有數(shù)據(jù)標注效果差的問題。

2、第一方面,本申請實施例提供一種數(shù)據(jù)標注方法,包括:

3、獲取數(shù)據(jù)集中每個第一數(shù)據(jù)的偽標簽的描述子;

4、根據(jù)所述描述子,對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇;

5、在每個目標類簇所包含的第一數(shù)據(jù)中選擇出第二數(shù)據(jù),獲取所述第二數(shù)據(jù)對應的標注結(jié)果;

6、基于所述第二數(shù)據(jù)的標注結(jié)果,標注所述第二數(shù)據(jù)所處目標類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù)。

7、在第一方面的一種可能設(shè)計中,所述對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇之前,還包括:

8、確定所述數(shù)據(jù)集中已標注偽標簽的第三數(shù)據(jù);

9、將偽標簽滿足第一設(shè)定條件的第三數(shù)據(jù),確定為所述第一數(shù)據(jù)。

10、在第一方面的另一種可能設(shè)計中,所述第一設(shè)定條件包括所述偽標簽的置信度小于或等于置信度閾值、所述偽標簽的尺寸不滿足設(shè)定尺寸要求中的一種或多種。

11、在第一方面的再一種可能設(shè)計中,所述方法還包括:

12、若所述第三數(shù)據(jù)的偽標簽的置信度大于所述置信度閾值,則基于所述偽標簽,生成所述第三數(shù)據(jù)的標注結(jié)果。

13、在第一方面的又一種可能設(shè)計中,所述偽標簽通過監(jiān)督訓練模型或半監(jiān)督訓練模型對無標數(shù)據(jù)進行預測生成;所述偽標簽的描述子基于所述偽標簽在對應的所述第一數(shù)據(jù)中所標識的區(qū)域的特征信息確定。

14、在第一方面的又一種可能設(shè)計中,所述根據(jù)所述描述子,對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇,包括:

15、根據(jù)每個第一數(shù)據(jù)的偽標簽的描述子,將所述數(shù)據(jù)集中的第一數(shù)據(jù)進行至少一次聚類操作至滿足聚類結(jié)束條件,將最后一次聚類操作獲得的各第二類簇確定為所述目標類簇;其中,第i+1次聚類操作包括:

16、確定當前待聚類的第一類簇;

17、基于第一類簇中各第一數(shù)據(jù)的偽標簽的描述子,對每個第一類簇中的第一數(shù)據(jù)進行聚類,得到至少一個第二類簇;

18、若所述至少一個第二類簇不滿足所述聚類結(jié)束條件,則進入第i+2次聚類操作;

19、其中,i為不小于0的整數(shù);所述i為0時,所述第一類簇為所述數(shù)據(jù)集中的第一數(shù)據(jù)組成的集合;所述i為大于0的整數(shù)時,所述第一類簇為第i次聚類操作得到的所述第二類簇。

20、在第一方面的又一種可能設(shè)計中,所述聚類結(jié)束條件包括如下至少一種:

21、得到的至少一個第二類簇的總數(shù)量小于第一閾值;

22、至少一個第二類簇中存在至少一個第三類簇,所述第三類簇包含的第一數(shù)據(jù)的總數(shù)量小于第二閾值;

23、聚類操作的總次數(shù)大于或等于第三閾值。

24、在第一方面的又一種可能設(shè)計中,所述對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇,包括:

25、將所述數(shù)據(jù)集中的第一數(shù)據(jù)聚類為n個第一類簇;

26、對每個第一類簇中的第一數(shù)據(jù)繼續(xù)進行聚類,得到m個第二類簇,每個第二類簇中包含的第一數(shù)據(jù)的數(shù)量約等于設(shè)定值;

27、對每個第二類簇中的第一數(shù)據(jù)再次進行聚類,得到k個細分簇,作為所述至少一個目標類簇,所述n,m和k均為設(shè)定值。

28、在第一方面的又一種可能設(shè)計中,所述對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇,包括:

29、獲取所述數(shù)據(jù)集中第一數(shù)據(jù)的總數(shù)量;

30、若所述數(shù)據(jù)集中第一數(shù)據(jù)的總數(shù)量大于閾值數(shù)量,則將所述數(shù)據(jù)集中的第一數(shù)據(jù)劃分為至少兩個批次;

31、依次對所述數(shù)據(jù)集中各個批次的第一數(shù)據(jù)進行聚類,形成所述至少一個目標類簇。

32、在第一方面的又一種可能設(shè)計中,所述第二數(shù)據(jù)對應的標注結(jié)果通過人工標注獲得或通過設(shè)定的標注模型自動標注獲得。

33、在第一方面的又一種可能設(shè)計中,所述基于所述第二數(shù)據(jù)的標注結(jié)果,標注所述第二數(shù)據(jù)所處目標類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù),包括:

34、將所述第二數(shù)據(jù)的標注結(jié)果,作為第二數(shù)據(jù)所處目標類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù)的標注結(jié)果;

35、或;

36、在所述第二數(shù)據(jù)所處目標類簇中,選取出與所述目標類簇的簇中心的距離滿足設(shè)定距離條件的目標數(shù)據(jù);

37、將所述第二數(shù)據(jù)的標注結(jié)果作為所述目標數(shù)據(jù)的標注結(jié)果。

38、在第一方面的又一種可能設(shè)計中,所述第一數(shù)據(jù)包括圖像、音頻、文本、多媒體信息、點云中的至少一項。

39、第二方面,本申請實施例提供一種數(shù)據(jù)標注裝置,包括:

40、描述子獲取模塊,用于獲取數(shù)據(jù)集中每個第一數(shù)據(jù)的偽標簽的描述子;

41、數(shù)據(jù)聚類模塊,用于根據(jù)所述描述子,對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇;

42、結(jié)果獲取模塊,用于在每個目標類簇所包含的第一數(shù)據(jù)中選擇出第二數(shù)據(jù),獲取所述第二數(shù)據(jù)對應的標注結(jié)果;

43、標注傳播模塊,用于基于所述第二數(shù)據(jù)的標注結(jié)果,標注所述第二數(shù)據(jù)所處目標類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù)。

44、第三方面,本申請實施例提供一種電子設(shè)備,包括:處理器,以及與所述處理器通信連接的存儲器;所述存儲器存儲計算機執(zhí)行指令;所述處理器執(zhí)行所述存儲器存儲的計算機執(zhí)行指令,以實現(xiàn)如上所述的方法。

45、第四方面,本申請實施例提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令,所述計算機執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)如上所述的方法。

46、第五方面,本申請實施例提供一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述的方法。

47、本申請實施例提供的數(shù)據(jù)標注方法、裝置、設(shè)備、可讀存儲介質(zhì)和程序產(chǎn)品,通過對數(shù)據(jù)集中海量的第一數(shù)據(jù)聚類成簇,然后從每個簇中選取出第二數(shù)據(jù)作為代表數(shù)據(jù),通過給與該代表數(shù)據(jù)一個標注結(jié)果,然后將這個標注結(jié)果擴散傳播到這個簇中的其它數(shù)據(jù)上,這樣相當于標注一個第二數(shù)據(jù),就可以實現(xiàn)對整個簇中其它數(shù)據(jù)的標注,提高標注效率。



技術(shù)特征:

1.一種數(shù)據(jù)標注方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇之前,還包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一設(shè)定條件包括所述偽標簽的置信度小于或等于置信度閾值、所述偽標簽的尺寸不滿足設(shè)定尺寸要求中的一種或多種。

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述偽標簽通過監(jiān)督訓練模型或半監(jiān)督訓練模型對無標數(shù)據(jù)進行預測生成;所述偽標簽的描述子基于所述偽標簽在對應的所述第一數(shù)據(jù)中所標識的區(qū)域的特征信息確定。

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述描述子,對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇,包括:

7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述聚類結(jié)束條件包括如下至少一種:

8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇,包括:

9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇,包括:

10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第二數(shù)據(jù)對應的標注結(jié)果通過人工標注獲得或通過設(shè)定的標注模型自動標注獲得。

11.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述第二數(shù)據(jù)的標注結(jié)果,標注所述第二數(shù)據(jù)所處目標類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù),包括:

12.根據(jù)權(quán)利要求1-11任一項所述的方法,其特征在于,所述第一數(shù)據(jù)包括圖像、音頻、文本、多媒體信息、點云中的至少一項。

13.一種數(shù)據(jù)標注裝置,其特征在于,包括:

14.一種電子設(shè)備,其特征在于,包括:處理器,以及與所述處理器通信連接的存儲器;

15.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令,所述計算機執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)如權(quán)利要求1至12任一項所述的方法。

16.一種計算機程序產(chǎn)品,其特征在于,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-12中任一項所述的方法。


技術(shù)總結(jié)
本申請?zhí)峁┮环N數(shù)據(jù)標注方法、裝置、設(shè)備、可讀存儲介質(zhì)和程序產(chǎn)品,該方法包括:獲取數(shù)據(jù)集中每個第一數(shù)據(jù)的偽標簽的描述子;根據(jù)所述描述子,對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇;在每個目標類簇所包含的第一數(shù)據(jù)中選擇出第二數(shù)據(jù),獲取所述第二數(shù)據(jù)對應的標注結(jié)果;基于所述第二數(shù)據(jù)的標注結(jié)果,標注所述第二數(shù)據(jù)所處目標類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù)。該方案通過從聚類后的簇中選取出第二數(shù)據(jù),給與標注結(jié)果,并將該標注結(jié)果擴散傳播到簇中的其它數(shù)據(jù),可以有效提高標注效率。

技術(shù)研發(fā)人員:寧天瑜,朱毅
受保護的技術(shù)使用者:浙江吉利控股集團有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1