亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向下游分析反饋的數(shù)據(jù)清洗方法及系統(tǒng)、電子設(shè)備

文檔序號(hào):40393575發(fā)布日期:2024-12-20 12:16閱讀:3來源:國知局
面向下游分析反饋的數(shù)據(jù)清洗方法及系統(tǒng)、電子設(shè)備

本申請(qǐng)涉及數(shù)據(jù)處理,尤其涉及一種面向下游分析反饋的數(shù)據(jù)清洗方法及系統(tǒng)、電子設(shè)備。


背景技術(shù):

1、隨著大數(shù)據(jù)技術(shù)的發(fā)展,數(shù)據(jù)量呈爆炸式增長,數(shù)據(jù)來源多樣化,數(shù)據(jù)的復(fù)雜度和多樣性不斷提高,數(shù)據(jù)質(zhì)量直接影響到數(shù)據(jù)分析和決策的準(zhǔn)確性和有效性。高質(zhì)量數(shù)據(jù)是數(shù)據(jù)分析的基礎(chǔ),但是現(xiàn)實(shí)中的數(shù)據(jù)往往存在各種問題,比如缺失值、異常值、重復(fù)值、不一致性等,存在這些問題的數(shù)據(jù)通常被稱為“臟數(shù)據(jù)”。臟數(shù)據(jù)會(huì)影響數(shù)據(jù)分析的準(zhǔn)確性和可信度,甚至導(dǎo)致錯(cuò)誤的結(jié)論和決策。

2、現(xiàn)有的數(shù)據(jù)清洗方法往往未能充分考慮到下游任務(wù)的特定需求。這種缺乏針對(duì)性的處理方式可能導(dǎo)致清洗后的數(shù)據(jù)仍然無法滿足特定分析的精確要求,從而影響分析結(jié)果的質(zhì)量和可信度?,F(xiàn)有方法通常側(cè)重于數(shù)據(jù)的一般性清理和標(biāo)準(zhǔn)化,而忽略了數(shù)據(jù)在具體分析任務(wù)中的適用性和有效性。為了提高數(shù)據(jù)清洗的針對(duì)性和實(shí)用性,亟需研究和開發(fā)面向下游分析任務(wù)反饋的數(shù)據(jù)清洗模型。這些模型應(yīng)當(dāng)能夠根據(jù)下游任務(wù)的具體要求,對(duì)數(shù)據(jù)進(jìn)行定制化處理,確保清洗后的數(shù)據(jù)不僅具備高質(zhì)量和一致性,還能夠直接滿足下游分析任務(wù)的需求。


技術(shù)實(shí)現(xiàn)思路

1、為了克服以上技術(shù)問題,本申請(qǐng)實(shí)施例提供一種面向下游分析反饋的數(shù)據(jù)清洗方法及系統(tǒng)、電子設(shè)備,來解決臟數(shù)據(jù)問題。該方法主要通過基于深度學(xué)習(xí)的方法,對(duì)數(shù)據(jù)進(jìn)行檢測(cè),并修復(fù)其中的臟數(shù)據(jù),使得數(shù)據(jù)更加準(zhǔn)確和可信。該方法能夠根據(jù)下游任務(wù)的需求,對(duì)數(shù)據(jù)進(jìn)行定制化處理,確保清洗后的數(shù)據(jù)能夠直接應(yīng)用于這些任務(wù)。

2、根據(jù)本申請(qǐng)實(shí)施例的第一方面,提供一種面向下游分析反饋的數(shù)據(jù)清洗方法,包括:

3、構(gòu)造一個(gè)多層感知機(jī)分類器作為下游任務(wù)模型;

4、將臟數(shù)據(jù)輸入所述下游任務(wù)模型,進(jìn)行分類任務(wù),并輸出分類結(jié)果的置信度,將所述置信度作為軟標(biāo)簽,所述軟標(biāo)簽包含下游任務(wù)的反饋信息;

5、將所述臟數(shù)據(jù)與軟標(biāo)簽一同輸入到錯(cuò)誤檢測(cè)模型中,所述錯(cuò)誤檢測(cè)模型首先用特征向量的形式組織錯(cuò)誤檢測(cè)結(jié)果,并根據(jù)生成的特征向量進(jìn)行聚類,聚類的過程中使用所述軟標(biāo)簽進(jìn)行加權(quán),最后根據(jù)聚類結(jié)果,選擇出一部分?jǐn)?shù)據(jù)樣本作為訓(xùn)練樣本;

6、將所述訓(xùn)練樣本進(jìn)行分層抽樣后輸入多個(gè)相同的錯(cuò)誤檢測(cè)模型中,收集不同錯(cuò)誤檢測(cè)模型的結(jié)果,使用投票法進(jìn)行集成,得到最終的錯(cuò)誤檢測(cè)結(jié)果;

7、基于樣本間交叉注意力機(jī)制構(gòu)建transformer神經(jīng)網(wǎng)絡(luò)模型,作為數(shù)據(jù)修補(bǔ)模型對(duì)所述臟數(shù)據(jù)進(jìn)行特征表示;

8、將所述最終的錯(cuò)誤檢測(cè)結(jié)果以及臟數(shù)據(jù)輸入修補(bǔ)模型,修補(bǔ)模型通過缺失數(shù)據(jù)插補(bǔ)任務(wù)以及原始數(shù)據(jù)重構(gòu)任務(wù)進(jìn)行訓(xùn)練,得到初步的數(shù)據(jù)修補(bǔ)結(jié)果;

9、根據(jù)所述反饋信息,持續(xù)優(yōu)化修補(bǔ)結(jié)果,當(dāng)修補(bǔ)模型收斂后得到最終的清洗結(jié)果。

10、根據(jù)本申請(qǐng)實(shí)施例的第二方面,提供一種面向下游分析反饋的數(shù)據(jù)清洗系統(tǒng),包括:

11、第一構(gòu)造模塊,用于構(gòu)造一個(gè)多層感知機(jī)分類器作為下游任務(wù)模型;

12、下游預(yù)測(cè)模塊,用于將臟數(shù)據(jù)輸入所述下游任務(wù)模型,進(jìn)行分類任務(wù),并輸出分類結(jié)果的置信度,將所述置信度作為軟標(biāo)簽,所述軟標(biāo)簽包含下游任務(wù)的反饋信息;

13、數(shù)據(jù)處理模塊,用于將所述臟數(shù)據(jù)與軟標(biāo)簽一同輸入到錯(cuò)誤檢測(cè)模型中,所述錯(cuò)誤檢測(cè)模型首先用特征向量的形式組織錯(cuò)誤檢測(cè)結(jié)果,并根據(jù)生成的特征向量進(jìn)行聚類,聚類的過程中使用所述軟標(biāo)簽進(jìn)行加權(quán),最后根據(jù)聚類結(jié)果,選擇出一部分?jǐn)?shù)據(jù)樣本作為訓(xùn)練樣本;

14、錯(cuò)誤檢測(cè)模塊,用于將所述訓(xùn)練樣本進(jìn)行分層抽樣后輸入多個(gè)相同的錯(cuò)誤檢測(cè)模型中,收集不同錯(cuò)誤檢測(cè)模型的結(jié)果,使用投票法進(jìn)行集成,得到最終的錯(cuò)誤檢測(cè)結(jié)果;

15、第二構(gòu)造模塊,用于基于樣本間交叉注意力機(jī)制構(gòu)建transformer神經(jīng)網(wǎng)絡(luò)模型,作為數(shù)據(jù)修補(bǔ)模型對(duì)所述臟數(shù)據(jù)進(jìn)行特征表示;

16、數(shù)據(jù)修補(bǔ)模塊,用于將所述最終的錯(cuò)誤檢測(cè)結(jié)果以及臟數(shù)據(jù)輸入修補(bǔ)模型進(jìn)行修補(bǔ),得到初步的數(shù)據(jù)修補(bǔ)結(jié)果,并進(jìn)行原始數(shù)據(jù)重構(gòu)任務(wù)以及缺失數(shù)據(jù)補(bǔ)全任務(wù)來訓(xùn)練修補(bǔ)模型;

17、反饋優(yōu)化模塊,用于根據(jù)所述反饋信息,持續(xù)優(yōu)化修補(bǔ)結(jié)果,當(dāng)修補(bǔ)模型收斂后得到最終的清洗結(jié)果。

18、根據(jù)本申請(qǐng)實(shí)施例的第三方面,提供一種電子設(shè)備,包括:

19、一個(gè)或多個(gè)處理器;

20、存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)程序;

21、當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如第一方面所述的方法。

22、根據(jù)本申請(qǐng)實(shí)施例的第三方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)指令,該指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述方法的步驟。

23、本申請(qǐng)的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:

24、與現(xiàn)有技術(shù)相比,本發(fā)明通過結(jié)合下游任務(wù)反饋,優(yōu)化數(shù)據(jù)修補(bǔ)策略,提升了數(shù)據(jù)修補(bǔ)的質(zhì)量和適用性、以及數(shù)據(jù)在下游任務(wù)上的性能;通過多數(shù)投票機(jī)制集成多個(gè)模型的結(jié)果,提升了錯(cuò)誤檢測(cè)的準(zhǔn)確率和模型的適應(yīng)能力;設(shè)計(jì)的樣本間交叉注意力機(jī)制,使數(shù)據(jù)修補(bǔ)模型不僅關(guān)注單個(gè)數(shù)據(jù)樣本,還考慮數(shù)據(jù)樣本之間的相互關(guān)系,修補(bǔ)模型通過綜合更多上下文信息,得出的數(shù)據(jù)清洗結(jié)果更準(zhǔn)確。

25、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本申請(qǐng)。



技術(shù)特征:

1.一種面向下游分析反饋的數(shù)據(jù)清洗方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的多層感知機(jī)分類器包含輸入層、輸出層、歸一化層、dropout層和輸出層;當(dāng)下游模型為錯(cuò)誤檢測(cè)提供指導(dǎo)時(shí),輸出層將直接輸出所有分類結(jié)果的置信度作為軟標(biāo)簽;當(dāng)下游模型進(jìn)行下游任務(wù)或者為補(bǔ)全模型提供反饋時(shí),輸出層還需要經(jīng)過softmax操作輸出具體的分類;在進(jìn)行回歸任務(wù)時(shí),輸出層將額外連接到一個(gè)輸出節(jié)點(diǎn)來輸出回歸值,此時(shí)的輸出層將退化為最后一個(gè)隱藏層。

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,s3具體包括:

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,s4具體包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,s5具體包括:

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,s6具體包括:

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,s7中,所述的下游任務(wù)模型對(duì)數(shù)據(jù)修補(bǔ)模型的反饋發(fā)生在數(shù)據(jù)修補(bǔ)模型訓(xùn)練的全過程;數(shù)據(jù)修補(bǔ)模型的優(yōu)化目標(biāo)是學(xué)習(xí)到的兩個(gè)階段的數(shù)據(jù)表征同下游任務(wù)反饋的損失結(jié)合起來的加權(quán)損失值;當(dāng)這個(gè)加權(quán)損失值收斂到一個(gè)較小的范圍時(shí),修補(bǔ)模型得到最終的清洗結(jié)果。

8.一種面向下游分析的數(shù)據(jù)清洗系統(tǒng),其特征在于,具體包括:

9.一種電子設(shè)備,其特征在于,包括:

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)指令,其特征在于,該指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述方法的步驟。


技術(shù)總結(jié)
本發(fā)明公開了一種面向下游分析反饋的數(shù)據(jù)清洗方法,包括:構(gòu)建多層感知機(jī)分類器執(zhí)行分類,生成軟標(biāo)簽;臟數(shù)據(jù)結(jié)合軟標(biāo)簽輸入錯(cuò)誤檢測(cè)模型,輸出特征向量形式的初步錯(cuò)誤檢測(cè)結(jié)果,通過聚類加權(quán)得聚類結(jié)果;選部分?jǐn)?shù)據(jù)訓(xùn)練,分層抽樣后輸入多個(gè)同構(gòu)錯(cuò)誤檢測(cè)模型,投票集成結(jié)果;利用交叉注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)修補(bǔ)模型處理錯(cuò)誤檢測(cè)輸出和臟數(shù)據(jù),經(jīng)特征提取、優(yōu)化融合產(chǎn)出修正數(shù)據(jù);下游模型反饋優(yōu)化修補(bǔ)過程,獲最終清洗數(shù)據(jù)。該方法主要通過基于深度學(xué)習(xí)的方法,對(duì)數(shù)據(jù)進(jìn)行檢測(cè),并修復(fù)其中的臟數(shù)據(jù),使得數(shù)據(jù)更加準(zhǔn)確和可信。該方法能夠根據(jù)下游任務(wù)的需求,對(duì)數(shù)據(jù)進(jìn)行定制化處理,確保清洗后的數(shù)據(jù)能夠直接應(yīng)用于這些任務(wù)。

技術(shù)研發(fā)人員:苗曉曄,楊再潤,吳洋洋,尹建偉
受保護(hù)的技術(shù)使用者:浙江大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1