本申請(qǐng)涉及計(jì)算機(jī),尤其涉及一種企業(yè)稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練方法、設(shè)備及介質(zhì)。
背景技術(shù):
1、稅務(wù)風(fēng)險(xiǎn)是企業(yè)風(fēng)險(xiǎn)管控中的重要一環(huán),是企業(yè)健康穩(wěn)定發(fā)展過程中時(shí)刻提防的風(fēng)險(xiǎn)問題。隨著人工智能技術(shù)的發(fā)展,特別是以transformer為架構(gòu)的大模型的發(fā)展,進(jìn)一步促進(jìn)了稅務(wù)風(fēng)險(xiǎn)檢測(cè)技術(shù)的發(fā)展,利用大模型的理解、生成、推理等優(yōu)異能力,促進(jìn)稅務(wù)風(fēng)險(xiǎn)檢測(cè)的智能化發(fā)展。
2、但是,通過構(gòu)建企業(yè)稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù),訓(xùn)練稅務(wù)風(fēng)險(xiǎn)模型的過程中,數(shù)據(jù)集比較復(fù)雜,并且稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練過程不可控、更多依賴經(jīng)驗(yàn)準(zhǔn)則,從而模型性能測(cè)試欠佳時(shí),需要調(diào)整數(shù)據(jù)多次訓(xùn)練,才能達(dá)到滿足準(zhǔn)確性要求的稅務(wù)風(fēng)險(xiǎn)模型,造成時(shí)間資源浪費(fèi),從而導(dǎo)致企業(yè)稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練效率低下。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供一種企業(yè)稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練方法、設(shè)備及介質(zhì),用于解決企業(yè)稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練效率低下的問題。
2、本申請(qǐng)實(shí)施例采用下述技術(shù)方案:
3、一方面,本申請(qǐng)實(shí)施例提供了一種企業(yè)稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練方法,該方法包括:根據(jù)預(yù)先構(gòu)建的數(shù)據(jù)質(zhì)量指標(biāo),提取第一稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集的第一質(zhì)量指標(biāo)數(shù)據(jù);根據(jù)所述第一質(zhì)量指標(biāo)數(shù)據(jù)與所述稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集,對(duì)稅務(wù)風(fēng)險(xiǎn)模型架構(gòu)進(jìn)行訓(xùn)練,得到符合模型性能指標(biāo)的稅務(wù)風(fēng)險(xiǎn)模型,以及所述稅務(wù)風(fēng)險(xiǎn)模型的第一性能指標(biāo)數(shù)據(jù);構(gòu)建所述第一質(zhì)量指標(biāo)數(shù)據(jù)與所述第一性能指標(biāo)數(shù)據(jù)之間的正交實(shí)驗(yàn)表;對(duì)所述正交實(shí)驗(yàn)表進(jìn)行分析,得到數(shù)據(jù)質(zhì)量指標(biāo)與模型性能指標(biāo)之間的映射關(guān)系;在對(duì)所述稅務(wù)風(fēng)險(xiǎn)模型進(jìn)行非首次訓(xùn)練時(shí),接收第二稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集的第二質(zhì)量指標(biāo)數(shù)據(jù);根據(jù)所述映射關(guān)系,對(duì)所述第二質(zhì)量指標(biāo)數(shù)據(jù)進(jìn)行映射,得到第二性能指標(biāo)數(shù)據(jù);在所述第二性能指標(biāo)數(shù)據(jù)滿足要求時(shí),根據(jù)所述第二質(zhì)量指標(biāo)數(shù)據(jù)對(duì)所述稅務(wù)風(fēng)險(xiǎn)模型進(jìn)行非首次訓(xùn)練。
4、一個(gè)示例中,所述根據(jù)預(yù)先構(gòu)建的數(shù)據(jù)質(zhì)量指標(biāo),提取第一稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集的第一質(zhì)量指標(biāo)數(shù)據(jù),具體包括:確定數(shù)據(jù)質(zhì)量指標(biāo)包括數(shù)據(jù)總數(shù)量、單個(gè)數(shù)據(jù)的平均長(zhǎng)度、單個(gè)數(shù)據(jù)的平均長(zhǎng)度標(biāo)準(zhǔn)差、數(shù)據(jù)種類數(shù)量、單個(gè)種類的數(shù)據(jù)平均數(shù)量、單個(gè)種類的數(shù)據(jù)平均數(shù)量標(biāo)準(zhǔn)差、稅務(wù)風(fēng)險(xiǎn)種類數(shù)量、單個(gè)稅務(wù)風(fēng)險(xiǎn)種類的平均數(shù)量、單個(gè)稅務(wù)風(fēng)險(xiǎn)種類的平均數(shù)量標(biāo)準(zhǔn)差、噪聲數(shù)量;在第一稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集中,根據(jù)每種數(shù)據(jù)質(zhì)量指標(biāo)的量化方式,提取每種數(shù)據(jù)質(zhì)量指標(biāo)的第一質(zhì)量指標(biāo)數(shù)據(jù)。
5、一個(gè)示例中,所述方法還包括:在所述第一稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集中,通過對(duì)數(shù)據(jù)總數(shù)量進(jìn)行統(tǒng)計(jì),得到數(shù)據(jù)總數(shù)量;在第一稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集中,通過計(jì)算所有數(shù)據(jù)的數(shù)據(jù)長(zhǎng)度所對(duì)應(yīng)的平均值,得到單個(gè)數(shù)據(jù)的平均長(zhǎng)度;通過計(jì)算每條數(shù)據(jù)的數(shù)據(jù)長(zhǎng)度與單個(gè)數(shù)據(jù)的平均長(zhǎng)度之間的標(biāo)準(zhǔn)差,得到單個(gè)數(shù)據(jù)的平均長(zhǎng)度標(biāo)準(zhǔn)差。
6、一個(gè)示例中,所述方法還包括:對(duì)所述第一稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集進(jìn)行聚類,得到聚類中心的數(shù)量,將所述聚類中心的數(shù)量確定為數(shù)據(jù)種類數(shù)量;通過計(jì)算每個(gè)聚類中心的數(shù)據(jù)數(shù)量的平均值,得到單個(gè)種類的數(shù)據(jù)平均數(shù)量;通過計(jì)算每個(gè)聚類中心的數(shù)據(jù)數(shù)量與單個(gè)種類的數(shù)據(jù)平均數(shù)量之間的標(biāo)準(zhǔn)差,得到單個(gè)種類的數(shù)據(jù)平均數(shù)量標(biāo)準(zhǔn)差。
7、一個(gè)示例中,所述方法還包括:在所述第一稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集中,通過對(duì)稅務(wù)風(fēng)險(xiǎn)種類進(jìn)行統(tǒng)計(jì),得到稅務(wù)風(fēng)險(xiǎn)種類數(shù)量;在第一稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集中,通過計(jì)算稅務(wù)風(fēng)險(xiǎn)種類的數(shù)據(jù)數(shù)量所對(duì)應(yīng)的平均值,得到單個(gè)稅務(wù)風(fēng)險(xiǎn)種類的平均數(shù)量;通過計(jì)算每個(gè)稅務(wù)風(fēng)險(xiǎn)種類的數(shù)據(jù)數(shù)量與單個(gè)稅務(wù)風(fēng)險(xiǎn)種類的平均數(shù)量之間的標(biāo)準(zhǔn)差,得到單個(gè)稅務(wù)風(fēng)險(xiǎn)種類的平均數(shù)量標(biāo)準(zhǔn)差。
8、一個(gè)示例中,所述根據(jù)所述第一質(zhì)量指標(biāo)數(shù)據(jù)與所述稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集,對(duì)稅務(wù)風(fēng)險(xiǎn)模型架構(gòu)進(jìn)行訓(xùn)練,得到符合模型性能指標(biāo)的稅務(wù)風(fēng)險(xiǎn)模型,以及所述稅務(wù)風(fēng)險(xiǎn)模型的第一性能指標(biāo)數(shù)據(jù),具體包括:將所述稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集劃分為訓(xùn)練風(fēng)險(xiǎn)數(shù)據(jù)集和測(cè)試風(fēng)險(xiǎn)數(shù)據(jù)集;根據(jù)所述訓(xùn)練風(fēng)險(xiǎn)數(shù)據(jù)集的第一數(shù)據(jù)質(zhì)量指標(biāo)數(shù)據(jù)與所述稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集,對(duì)稅務(wù)風(fēng)險(xiǎn)模型架構(gòu)進(jìn)行訓(xùn)練,得到訓(xùn)練得分;在所述訓(xùn)練得分高于預(yù)設(shè)訓(xùn)練閾值時(shí),根據(jù)所述測(cè)試風(fēng)險(xiǎn)數(shù)據(jù)集的第一數(shù)據(jù)質(zhì)量指標(biāo)數(shù)據(jù)與所述測(cè)試風(fēng)險(xiǎn)數(shù)據(jù)集,對(duì)稅務(wù)風(fēng)險(xiǎn)模型架構(gòu)進(jìn)行測(cè)試,得到測(cè)試得分;在所述測(cè)試得分高于預(yù)設(shè)測(cè)試閾值時(shí),得到稅務(wù)風(fēng)險(xiǎn)模型;根據(jù)各自的權(quán)重,對(duì)所述訓(xùn)練得分與所述測(cè)試得分進(jìn)行加權(quán)求和,得到所述稅務(wù)風(fēng)險(xiǎn)模型的第一性能指標(biāo)數(shù)據(jù)。
9、一個(gè)示例中,所述對(duì)所述正交實(shí)驗(yàn)表進(jìn)行分析,得到數(shù)據(jù)質(zhì)量指標(biāo)與模型性能指標(biāo)之間的映射關(guān)系,具體包括:將數(shù)據(jù)質(zhì)量指標(biāo)作為自變量,將模型性能指標(biāo)作為因變量,通過線性回歸算法對(duì)正交實(shí)驗(yàn)表中的第一質(zhì)量指標(biāo)數(shù)據(jù)與第一性能指標(biāo)數(shù)據(jù)進(jìn)行擬合,得到線性方程;根據(jù)所述線性方程,得到數(shù)據(jù)質(zhì)量指標(biāo)與模型性能指標(biāo)之間的映射關(guān)系。
10、一個(gè)示例中,所述根據(jù)預(yù)先構(gòu)建的數(shù)據(jù)質(zhì)量指標(biāo),提取第一稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集的第一質(zhì)量指標(biāo)數(shù)據(jù)之前,所述方法還包括:獲取稅務(wù)原始數(shù)據(jù);對(duì)所述稅務(wù)原始數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理的稅務(wù)數(shù)據(jù);在所述預(yù)處理的稅務(wù)數(shù)據(jù)滿足要求時(shí),對(duì)所述預(yù)處理的稅務(wù)數(shù)據(jù)進(jìn)行標(biāo)注。
11、另一方面,本申請(qǐng)實(shí)施例提供了一種企業(yè)稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練設(shè)備,包括:至少一個(gè)處理器;以及,與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行上述任一項(xiàng)所述的一種企業(yè)稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練方法。
12、另一方面,本申請(qǐng)實(shí)施例提供了一種企業(yè)稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令能夠執(zhí)行上述任一項(xiàng)所述的一種企業(yè)稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練方法。
13、本申請(qǐng)實(shí)施例采用的上述至少一個(gè)技術(shù)方案能夠達(dá)到以下有益效果:
14、通過預(yù)先構(gòu)建多維度的數(shù)據(jù)質(zhì)量指標(biāo),從而可以直觀地衡量稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)的質(zhì)量,進(jìn)而在首次訓(xùn)練稅務(wù)風(fēng)險(xiǎn)模型時(shí),能夠提高首次訓(xùn)練的效率,進(jìn)一步地,構(gòu)建數(shù)據(jù)質(zhì)量指標(biāo)與模型性能指標(biāo)之間的正交關(guān)系,進(jìn)而基于正交關(guān)系,得到兩者之間的映射關(guān)系,從而在稅務(wù)風(fēng)險(xiǎn)模型進(jìn)行再次訓(xùn)練時(shí),可以基于映射關(guān)系,提前預(yù)測(cè)使用再次訓(xùn)練的風(fēng)險(xiǎn)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量對(duì)稅務(wù)風(fēng)險(xiǎn)模型進(jìn)行訓(xùn)練時(shí),是否可以訓(xùn)練出符合準(zhǔn)確性要求的模型,即,提前預(yù)測(cè)稅務(wù)風(fēng)險(xiǎn)模型的性能,從而實(shí)現(xiàn)了能夠確保采用的再次訓(xùn)練風(fēng)險(xiǎn)數(shù)據(jù)集,能夠訓(xùn)練出準(zhǔn)確性更高的稅務(wù)風(fēng)險(xiǎn)模型,提高稅務(wù)風(fēng)險(xiǎn)模型非首次訓(xùn)練的效率。
1.一種企業(yè)稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)先構(gòu)建的數(shù)據(jù)質(zhì)量指標(biāo),提取第一稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集的第一質(zhì)量指標(biāo)數(shù)據(jù),具體包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一質(zhì)量指標(biāo)數(shù)據(jù)與所述稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集,對(duì)稅務(wù)風(fēng)險(xiǎn)模型架構(gòu)進(jìn)行訓(xùn)練,得到符合模型性能指標(biāo)的稅務(wù)風(fēng)險(xiǎn)模型,以及所述稅務(wù)風(fēng)險(xiǎn)模型的第一性能指標(biāo)數(shù)據(jù),具體包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述正交實(shí)驗(yàn)表進(jìn)行分析,得到數(shù)據(jù)質(zhì)量指標(biāo)與模型性能指標(biāo)之間的映射關(guān)系,具體包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)先構(gòu)建的數(shù)據(jù)質(zhì)量指標(biāo),提取第一稅務(wù)風(fēng)險(xiǎn)數(shù)據(jù)集的第一質(zhì)量指標(biāo)數(shù)據(jù)之前,所述方法還包括:
9.一種企業(yè)稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練設(shè)備,其特征在于,包括:
10.一種企業(yè)稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,其特征在于,所述計(jì)算機(jī)可執(zhí)行指令能夠執(zhí)行上述權(quán)利要求1-8任一項(xiàng)所述的一種企業(yè)稅務(wù)風(fēng)險(xiǎn)模型訓(xùn)練方法。