本申請涉及人工智能,尤其涉及一種數(shù)據(jù)標注方法、裝置、設(shè)備、可讀存儲介質(zhì)和程序產(chǎn)品。
背景技術(shù):
1、數(shù)據(jù)標注通常涉及將原始數(shù)據(jù)與預定義的標簽或類別進行關(guān)聯(lián),以便訓練機器學習模型或進行其他數(shù)據(jù)分析任務(wù)。
2、現(xiàn)有技術(shù)中,通常通過人工對數(shù)據(jù)進行逐一打標,得到對應的標注后的數(shù)據(jù)以供模型的訓練學習。
3、但是,現(xiàn)有的這種數(shù)據(jù)標注方式,存在標注速度慢、標注準確性低等問題,導致最終數(shù)據(jù)標注效果差。
技術(shù)實現(xiàn)思路
1、本申請?zhí)峁┮环N數(shù)據(jù)標注方法、裝置、設(shè)備、可讀存儲介質(zhì)和程序產(chǎn)品,用于解決現(xiàn)有數(shù)據(jù)標注效果差的問題。
2、第一方面,本申請實施例提供一種數(shù)據(jù)標注方法,包括:
3、獲取數(shù)據(jù)集中每個第一數(shù)據(jù)的偽標簽的描述子;
4、根據(jù)所述描述子,對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇;
5、在每個目標類簇所包含的第一數(shù)據(jù)中選擇出第二數(shù)據(jù),獲取所述第二數(shù)據(jù)對應的標注結(jié)果;
6、基于所述第二數(shù)據(jù)的標注結(jié)果,標注所述第二數(shù)據(jù)所處目標類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù)。
7、在第一方面的一種可能設(shè)計中,所述對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇之前,還包括:
8、確定所述數(shù)據(jù)集中已標注偽標簽的第三數(shù)據(jù);
9、將偽標簽滿足第一設(shè)定條件的第三數(shù)據(jù),確定為所述第一數(shù)據(jù)。
10、在第一方面的另一種可能設(shè)計中,所述第一設(shè)定條件包括所述偽標簽的置信度小于或等于置信度閾值、所述偽標簽的尺寸不滿足設(shè)定尺寸要求中的一種或多種。
11、在第一方面的再一種可能設(shè)計中,所述方法還包括:
12、若所述第三數(shù)據(jù)的偽標簽的置信度大于所述置信度閾值,則基于所述偽標簽,生成所述第三數(shù)據(jù)的標注結(jié)果。
13、在第一方面的又一種可能設(shè)計中,所述偽標簽通過監(jiān)督訓練模型或半監(jiān)督訓練模型對無標數(shù)據(jù)進行預測生成;所述偽標簽的描述子基于所述偽標簽在對應的所述第一數(shù)據(jù)中所標識的區(qū)域的特征信息確定。
14、在第一方面的又一種可能設(shè)計中,所述根據(jù)所述描述子,對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇,包括:
15、根據(jù)每個第一數(shù)據(jù)的偽標簽的描述子,將所述數(shù)據(jù)集中的第一數(shù)據(jù)進行至少一次聚類操作至滿足聚類結(jié)束條件,將最后一次聚類操作獲得的各第二類簇確定為所述目標類簇;其中,第i+1次聚類操作包括:
16、確定當前待聚類的第一類簇;
17、基于第一類簇中各第一數(shù)據(jù)的偽標簽的描述子,對每個第一類簇中的第一數(shù)據(jù)進行聚類,得到至少一個第二類簇;
18、若所述至少一個第二類簇不滿足所述聚類結(jié)束條件,則進入第i+2次聚類操作;
19、其中,i為不小于0的整數(shù);所述i為0時,所述第一類簇為所述數(shù)據(jù)集中的第一數(shù)據(jù)組成的集合;所述i為大于0的整數(shù)時,所述第一類簇為第i次聚類操作得到的所述第二類簇。
20、在第一方面的又一種可能設(shè)計中,所述聚類結(jié)束條件包括如下至少一種:
21、得到的至少一個第二類簇的總數(shù)量小于第一閾值;
22、至少一個第二類簇中存在至少一個第三類簇,所述第三類簇包含的第一數(shù)據(jù)的總數(shù)量小于第二閾值;
23、聚類操作的總次數(shù)大于或等于第三閾值。
24、在第一方面的又一種可能設(shè)計中,所述對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇,包括:
25、將所述數(shù)據(jù)集中的第一數(shù)據(jù)聚類為n個第一類簇;
26、對每個第一類簇中的第一數(shù)據(jù)繼續(xù)進行聚類,得到m個第二類簇,每個第二類簇中包含的第一數(shù)據(jù)的數(shù)量約等于設(shè)定值;
27、對每個第二類簇中的第一數(shù)據(jù)再次進行聚類,得到k個細分簇,作為所述至少一個目標類簇,所述n,m和k均為設(shè)定值。
28、在第一方面的又一種可能設(shè)計中,所述對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇,包括:
29、獲取所述數(shù)據(jù)集中第一數(shù)據(jù)的總數(shù)量;
30、若所述數(shù)據(jù)集中第一數(shù)據(jù)的總數(shù)量大于閾值數(shù)量,則將所述數(shù)據(jù)集中的第一數(shù)據(jù)劃分為至少兩個批次;
31、依次對所述數(shù)據(jù)集中各個批次的第一數(shù)據(jù)進行聚類,形成所述至少一個目標類簇。
32、在第一方面的又一種可能設(shè)計中,所述第二數(shù)據(jù)對應的標注結(jié)果通過人工標注獲得或通過設(shè)定的標注模型自動標注獲得。
33、在第一方面的又一種可能設(shè)計中,所述基于所述第二數(shù)據(jù)的標注結(jié)果,標注所述第二數(shù)據(jù)所處目標類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù),包括:
34、將所述第二數(shù)據(jù)的標注結(jié)果,作為第二數(shù)據(jù)所處目標類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù)的標注結(jié)果;
35、或;
36、在所述第二數(shù)據(jù)所處目標類簇中,選取出與所述目標類簇的簇中心的距離滿足設(shè)定距離條件的目標數(shù)據(jù);
37、將所述第二數(shù)據(jù)的標注結(jié)果作為所述目標數(shù)據(jù)的標注結(jié)果。
38、在第一方面的又一種可能設(shè)計中,所述第一數(shù)據(jù)包括圖像、音頻、文本、多媒體信息、點云中的至少一項。
39、第二方面,本申請實施例提供一種數(shù)據(jù)標注裝置,包括:
40、描述子獲取模塊,用于獲取數(shù)據(jù)集中每個第一數(shù)據(jù)的偽標簽的描述子;
41、數(shù)據(jù)聚類模塊,用于根據(jù)所述描述子,對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇;
42、結(jié)果獲取模塊,用于在每個目標類簇所包含的第一數(shù)據(jù)中選擇出第二數(shù)據(jù),獲取所述第二數(shù)據(jù)對應的標注結(jié)果;
43、標注傳播模塊,用于基于所述第二數(shù)據(jù)的標注結(jié)果,標注所述第二數(shù)據(jù)所處目標類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù)。
44、第三方面,本申請實施例提供一種電子設(shè)備,包括:處理器,以及與所述處理器通信連接的存儲器;所述存儲器存儲計算機執(zhí)行指令;所述處理器執(zhí)行所述存儲器存儲的計算機執(zhí)行指令,以實現(xiàn)如上所述的方法。
45、第四方面,本申請實施例提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令,所述計算機執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)如上所述的方法。
46、第五方面,本申請實施例提供一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述的方法。
47、本申請實施例提供的數(shù)據(jù)標注方法、裝置、設(shè)備、可讀存儲介質(zhì)和程序產(chǎn)品,通過對數(shù)據(jù)集中海量的第一數(shù)據(jù)聚類成簇,然后從每個簇中選取出第二數(shù)據(jù)作為代表數(shù)據(jù),通過給與該代表數(shù)據(jù)一個標注結(jié)果,然后將這個標注結(jié)果擴散傳播到這個簇中的其它數(shù)據(jù)上,這樣相當于標注一個第二數(shù)據(jù),就可以實現(xiàn)對整個簇中其它數(shù)據(jù)的標注,提高標注效率。
1.一種數(shù)據(jù)標注方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇之前,還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一設(shè)定條件包括所述偽標簽的置信度小于或等于置信度閾值、所述偽標簽的尺寸不滿足設(shè)定尺寸要求中的一種或多種。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述偽標簽通過監(jiān)督訓練模型或半監(jiān)督訓練模型對無標數(shù)據(jù)進行預測生成;所述偽標簽的描述子基于所述偽標簽在對應的所述第一數(shù)據(jù)中所標識的區(qū)域的特征信息確定。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述描述子,對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述聚類結(jié)束條件包括如下至少一種:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇,包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述數(shù)據(jù)集中的第一數(shù)據(jù)進行聚類,形成至少一個目標類簇,包括:
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第二數(shù)據(jù)對應的標注結(jié)果通過人工標注獲得或通過設(shè)定的標注模型自動標注獲得。
11.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述第二數(shù)據(jù)的標注結(jié)果,標注所述第二數(shù)據(jù)所處目標類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù),包括:
12.根據(jù)權(quán)利要求1-11任一項所述的方法,其特征在于,所述第一數(shù)據(jù)包括圖像、音頻、文本、多媒體信息、點云中的至少一項。
13.一種數(shù)據(jù)標注裝置,其特征在于,包括:
14.一種電子設(shè)備,其特征在于,包括:處理器,以及與所述處理器通信連接的存儲器;
15.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令,所述計算機執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)如權(quán)利要求1至12任一項所述的方法。
16.一種計算機程序產(chǎn)品,其特征在于,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-12中任一項所述的方法。