本申請涉及數(shù)據(jù)分類,具體涉及一種分類模型的訓練方法、數(shù)據(jù)標注方法及裝置。
背景技術(shù):
1、數(shù)據(jù)分類分級的術(shù)語和概念較為復雜,需要深入的專業(yè)知識和數(shù)據(jù)分類分級專業(yè)知識才能正確理解,通常使用神經(jīng)網(wǎng)絡來進行分級分類,若模型分類的準確率較低,會導致數(shù)據(jù)分類準確度較低。
技術(shù)實現(xiàn)思路
1、本申請實施例提供一種分類模型的訓練方法、數(shù)據(jù)標注方法及裝置,可以提高數(shù)據(jù)分類的準確度。
2、第一方面,本申請?zhí)峁┑姆诸惸P偷挠柧毞椒?,包括?/p>
3、基于初始分類模型,對第一待標注文本數(shù)據(jù)進行分類,得到所述第一待標注文本數(shù)據(jù)的第一分類結(jié)果;
4、在所述第一分類結(jié)果不滿足預設條件的情況下,擴充所述第一待標注文本數(shù)據(jù)的屬性特征,得到第二待標注文本數(shù)據(jù);
5、基于所述初始分類模型,對所述第二待標注文本數(shù)據(jù)進行分類,得到所述第二待標注文本數(shù)據(jù)的第二分類結(jié)果;
6、在所述第二分類結(jié)果滿足所述預設條件的情況下,將所述第二分類結(jié)果確定為所述第一待標注文本數(shù)據(jù)的目標分類標簽;
7、基于所述第一待標注文本數(shù)據(jù)及其目標分類標簽,更新所述初始分類模型,得到目標分類模型。
8、第二方面,本申請?zhí)峁┑臄?shù)據(jù)標注方法,包括:
9、確定第四待標注文本數(shù)據(jù);
10、基于目標分類模型,對所述第四待標注文本數(shù)據(jù)進行分類,得到所述第四待標注文本數(shù)據(jù)的第四分類結(jié)果,其中,所述目標分類模型為第一方面任意一項所述的分類模型的訓練方法得到的目標分類模型;
11、基于所述第四分類結(jié)果,確定所述第四待標注文本數(shù)據(jù)的分類標簽,并基于所述分類標簽對所述第四待標注文本數(shù)據(jù)進行標注。
12、第三方面,本申請?zhí)峁┑姆诸惸P偷挠柧氀b置,包括:
13、第一分類模塊,用于基于初始分類模型,對第一待標注文本數(shù)據(jù)進行分類,得到所述第一待標注文本數(shù)據(jù)的第一分類結(jié)果;
14、擴充模塊,用于在所述第一分類結(jié)果不滿足預設條件的情況下,擴充所述第一待標注文本數(shù)據(jù)的屬性特征,得到第二待標注文本數(shù)據(jù);
15、第二分類模塊,用于基于所述初始分類模型,對所述第二待標注文本數(shù)據(jù)進行分類,得到所述第二待標注文本數(shù)據(jù)的第二分類結(jié)果;
16、確定模塊,用于在所述第二分類結(jié)果滿足所述預設條件的情況下,將所述第二分類結(jié)果確定為所述第一待標注文本數(shù)據(jù)的目標分類標簽;
17、更新模塊,用于基于所述第一待標注文本數(shù)據(jù)及其目標分類標簽,更新所述初始分類模型,得到目標分類模型。
18、第四方面,本申請?zhí)峁┑臄?shù)據(jù)標注裝置,包括:
19、確定模塊,用于確定第四待標注文本數(shù)據(jù);
20、分類模塊,用于基于目標分類模型,對所述第四待標注文本數(shù)據(jù)進行分類,得到所述第四待標注文本數(shù)據(jù)的第四分類結(jié)果;
21、標注模塊,用于基于所述第四分類結(jié)果,確定所述第四待標注文本數(shù)據(jù)的分類標簽,并基于所述分類標簽對所述第四待標注文本數(shù)據(jù)進行標注。
22、第五方面,本申請?zhí)峁┑碾娮釉O備,包括存儲器和處理器,存儲器存儲有計算機程序,處理器用于運行存儲器內(nèi)的計算機程序,實現(xiàn)本申請所提供的分類模型的訓練方法中的步驟或者數(shù)據(jù)標注方法中的步驟。
23、第六方面,本申請?zhí)峁┑挠嬎銠C可讀存儲介質(zhì),存儲有多條指令,該指令適于處理器進行加載,實現(xiàn)本申請所提供的分類模型的訓練方法中的步驟或者數(shù)據(jù)標注方法中的步驟。
24、第七方面,本申請?zhí)峁┑挠嬎銠C程序產(chǎn)品,包括計算機程序或指令,該計算機程序或指令被處理器執(zhí)行時實現(xiàn)本申請所提供的分類模型的訓練方法中的步驟或者數(shù)據(jù)標注方法中的步驟。
25、本申請中,相較于相關技術(shù),基于初始分類模型,對第一待標注文本數(shù)據(jù)進行分類,得到第一待標注文本數(shù)據(jù)的第一分類結(jié)果;在第一分類結(jié)果不滿足預設條件的情況下,擴充第一待標注文本數(shù)據(jù)的屬性特征,得到第二待標注文本數(shù)據(jù);基于初始分類模型,對第二待標注文本數(shù)據(jù)進行分類,得到第二待標注文本數(shù)據(jù)的第二分類結(jié)果;在第二分類結(jié)果滿足預設條件的情況下,將第二分類結(jié)果確定為第一待標注文本數(shù)據(jù)的目標分類標簽;基于第一待標注文本數(shù)據(jù)及其目標分類標簽,更新初始分類模型,得到目標分類模型。本申請在在第一待標注數(shù)據(jù)的分類結(jié)果不滿足預設條件的基礎上,采用擴充第一待標注數(shù)據(jù)的屬性特征的方式,得到具有豐富特征的第二待標注數(shù)據(jù),然后繼續(xù)對第二待標注數(shù)據(jù)進行分類,使分類結(jié)果能夠滿足預設條件,將第二待標注數(shù)據(jù)的分類結(jié)果作為第一待標注數(shù)據(jù)的分類標簽更新初始分類模型,得到目標分類模型,由于第二待標注數(shù)據(jù)具有更豐富的特征,將第二待標注數(shù)據(jù)的分類結(jié)果作為第一待標注數(shù)據(jù)的分類標簽更新初始分類模型,能夠提高分類模型的數(shù)據(jù)分類準確性。
1.一種分類模型的訓練方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的分類模型的訓練方法,其特征在于,所述擴充所述第一待標注文本數(shù)據(jù)的屬性特征,得到第二待標注文本數(shù)據(jù),包括:
3.根據(jù)權(quán)利要求2所述的分類模型的訓練方法,其特征在于,所述獲取第一目標數(shù)量的屬性特征,包括:
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)分類方法,其特征在于,所述預設條件為m個分類標簽的概率的最大值和次大值之間差值大于預設值,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的分類模型的訓練方法,其特征在于,所述初始分類模型通過如下步驟訓練得到:
6.根據(jù)權(quán)利要求5所述的分類模型的訓練方法,其特征在于,所述方法還包括:
7.一種數(shù)據(jù)標注方法,其特征在于,包括:
8.一種分類模型的訓練裝置,其特征在于,所述分類模型的訓練裝置包括:
9.一種數(shù)據(jù)標注裝置,其特征在于,所述數(shù)據(jù)標注裝置包括:
10.一種電子設備,其特征在于,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器用于運行所述存儲器內(nèi)的計算機程序,以執(zhí)行權(quán)利要求1至6任一項所述的分類模型的訓練方法中的步驟或者權(quán)利要求7所述的數(shù)據(jù)標注方法中的步驟。
11.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有多條指令,所述指令適于處理器進行加載,以執(zhí)行權(quán)利要求1至6任一項所述的分類模型的訓練方法中的步驟或者權(quán)利要求7所述的數(shù)據(jù)標注方法中的步驟。
12.一種計算機程序產(chǎn)品,包括計算機程序或指令,其特征在于,該計算機程序或指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6任一項所述的分類模型的訓練方法中的步驟或者權(quán)利要求7所述的數(shù)據(jù)標注方法中的步驟。