亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

縱向聯(lián)邦學(xué)習(xí)中的隱私保護(hù)超高維特征篩選方法

文檔序號(hào):40396167發(fā)布日期:2024-12-20 12:19閱讀:6來源:國(guó)知局
縱向聯(lián)邦學(xué)習(xí)中的隱私保護(hù)超高維特征篩選方法

本發(fā)明涉及縱向聯(lián)邦學(xué)習(xí),特別是涉及一種縱向聯(lián)邦學(xué)習(xí)中的隱私保護(hù)超高維特征篩選方法。


背景技術(shù):

1、縱向聯(lián)邦學(xué)習(xí)(vfl)技術(shù)使不同數(shù)據(jù)方能夠在不共享原始數(shù)據(jù)的情況下,共同構(gòu)建更為精確的機(jī)器學(xué)習(xí)模型。這些數(shù)據(jù)方在同一批樣本上擁有不同的特征,但出于隱私保護(hù)的考慮,它們無(wú)法相互共享所持有的原始數(shù)據(jù)。縱向聯(lián)邦學(xué)習(xí)技術(shù)在精準(zhǔn)營(yíng)銷和金融風(fēng)控等領(lǐng)域具有廣泛的應(yīng)用潛力。

2、針對(duì)不同數(shù)據(jù)方的海量用戶數(shù)據(jù)開發(fā)機(jī)器學(xué)習(xí)模型是重要的研究課題。在此背景下,允許對(duì)加密數(shù)據(jù)進(jìn)行計(jì)算的加密協(xié)議成為了一種關(guān)鍵機(jī)制,它能夠在保護(hù)用戶隱私的同時(shí)實(shí)現(xiàn)模型訓(xùn)練?;诎踩喾接?jì)算(mpc)的加密協(xié)議相繼被開發(fā),用于在聚合數(shù)據(jù)上訓(xùn)練多種類型的機(jī)器學(xué)習(xí)模型,包括決策樹模型、線性回歸模型和基于神經(jīng)網(wǎng)絡(luò)架構(gòu)的模型。這些算法通過特征方(包含特征的數(shù)據(jù)方)和響應(yīng)方(包含響應(yīng)變量的數(shù)據(jù)方)的加密通訊,將各個(gè)特征方包含的海量數(shù)據(jù)特征放入給定模型中進(jìn)行共同訓(xùn)練,以求得到更高質(zhì)量的模型。

3、現(xiàn)有基于安全多方計(jì)算的機(jī)器學(xué)習(xí)方法研究集中于模型訓(xùn)練階段,較少關(guān)注冗余特征篩選這一重要環(huán)節(jié)。機(jī)器學(xué)習(xí)方法在大量冗余特征存在的情況下,將在帶來更高計(jì)算復(fù)雜度的同時(shí),增加估計(jì)誤差。然而數(shù)據(jù)采集技術(shù)的進(jìn)步帶來了海量特征。真實(shí)金融風(fēng)控場(chǎng)景中,每位借貸者的超高維特征被記錄在各類數(shù)據(jù)平臺(tái)中,如支付流水,出行記錄等,這其中有大量特征既不會(huì)對(duì)真實(shí)模型構(gòu)建產(chǎn)生貢獻(xiàn),又會(huì)帶來大量計(jì)算成本、通訊成本和數(shù)據(jù)加密成本。因此,在應(yīng)用機(jī)器學(xué)習(xí)模型之前,對(duì)這些海量特征進(jìn)行篩選是十分必要的。然而,現(xiàn)有的少數(shù)特征篩選方案或者主要關(guān)注特征與響應(yīng)之間的線性相關(guān)性,或者需要對(duì)于數(shù)據(jù)進(jìn)行分箱處理識(shí)別非線性相關(guān)性,前者存在模型假設(shè)錯(cuò)誤的風(fēng)險(xiǎn),后者在分箱過程中存在信息損失。

4、因此,本領(lǐng)域需要一種模型無(wú)關(guān)的聯(lián)邦學(xué)習(xí)超高維數(shù)據(jù)特征篩選方法,將綜合利用超高維假設(shè)檢驗(yàn)技術(shù)與特征篩選統(tǒng)計(jì)理論,在保護(hù)用戶隱私的前提下篩選出包含真實(shí)特征的集合,從而為采用縱向聯(lián)邦學(xué)習(xí)技術(shù)的機(jī)器學(xué)習(xí)方法提供支持,在保證計(jì)算成本基本穩(wěn)定的前提下,極大程度降低模型訓(xùn)練過程中的通訊成本和加密成本,并提高模型的穩(wěn)定性和可解釋性。而通訊成本和加密成本產(chǎn)生于特征方與響應(yīng)方的溝通之間,遠(yuǎn)大于單個(gè)數(shù)據(jù)方的計(jì)算成本。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于超高維假設(shè)檢驗(yàn)的特征篩選方法,該方法主要為縱向聯(lián)邦學(xué)習(xí)的機(jī)器學(xué)習(xí)聯(lián)合建模提供支持,旨在減少進(jìn)入機(jī)器學(xué)習(xí)聯(lián)合建模的特征數(shù)量,降低訓(xùn)練過程中的計(jì)算復(fù)雜度。

2、本發(fā)明的技術(shù)方案如下。

3、本發(fā)明第一方面提供一種縱向聯(lián)邦學(xué)習(xí)中的隱私保護(hù)超高維特征篩選方法,所述方法由第一數(shù)據(jù)方和第二數(shù)據(jù)方執(zhí)行,所述第一數(shù)據(jù)方擁有數(shù)據(jù)集的響應(yīng)變量,其中為事件,為控制;所述第二數(shù)據(jù)方擁有海量特征 x,其維度為 d,,所述特征篩選方法用于在從 d維特征 x中提取維子向量,其中;

4、所述方法包括:

5、步驟s1,所述第一數(shù)據(jù)方對(duì)響應(yīng)變量的控制進(jìn)行抽樣,并保留全部的事件,將數(shù)據(jù)集的大小減小為;其中表示事件的個(gè)數(shù),表示抽樣概率參數(shù);將抽樣數(shù)據(jù)集的距離矩陣加密為后將其傳輸給第二數(shù)據(jù)方;

6、步驟s2,所述第二數(shù)據(jù)方將自身存儲(chǔ)的特征與響應(yīng)變量的距離加密值在樣本中對(duì)齊,并將自身存儲(chǔ)的 d維特征劃分為多個(gè)不交的組,每個(gè)組構(gòu)成特征的一個(gè)子向量, m為第一次分組時(shí)每組的特征個(gè)數(shù);選擇獨(dú)立性檢驗(yàn)統(tǒng)計(jì)量 t,計(jì)算子向量與響應(yīng)變量的統(tǒng)計(jì)量的加密值,并得到原假設(shè)成立的條件下統(tǒng)計(jì)量的分布與拒絕域;

7、步驟s3,將統(tǒng)計(jì)量的加密值傳回所述第一數(shù)據(jù)方解密,得到統(tǒng)計(jì)量的明文;

8、步驟s4,所述第二數(shù)據(jù)方通過統(tǒng)計(jì)量以及其拒絕域確定是否拒絕原假設(shè)。若原假設(shè)沒有被拒絕,則將第 k個(gè)特征組視為與響應(yīng)變量獨(dú)立,從而將第 k個(gè)特征組視為冗余特征篩除;

9、步驟s5,重復(fù)所述步驟s2到所述步驟s4,將包含重要特征的小組不斷分裂為更小的組并執(zhí)行假設(shè)檢驗(yàn)方案,直至每個(gè)組內(nèi)特征的個(gè)數(shù)小于第一閾值;

10、步驟s6,對(duì)每個(gè)特征分別計(jì)算獨(dú)立性檢驗(yàn)統(tǒng)計(jì)量,篩除所有統(tǒng)計(jì)量絕對(duì)值小于第二閾值的獨(dú)立特征,最終篩選得到特征集合放入機(jī)器學(xué)習(xí)模型。

11、優(yōu)選地,所述步驟s1中,所述第一數(shù)據(jù)方的抽樣的過程進(jìn)一步包括:

12、對(duì)第 i個(gè)的控制樣本構(gòu)建隨機(jī)變量,當(dāng)時(shí),第 i個(gè)的控制被抽取到新樣本集中;其中表示控制的個(gè)數(shù),為預(yù)先指定的常數(shù)。

13、優(yōu)選地,在對(duì)數(shù)據(jù)抽樣以后,所述第一數(shù)據(jù)方將使用安全多方計(jì)算的加密方式構(gòu)距離矩陣,其中的每個(gè)元素,并將距離矩陣的密文傳輸給所述第二數(shù)據(jù)方。

14、優(yōu)選地,所述步驟s2中,所述第二數(shù)據(jù)方在接收到所述第一數(shù)據(jù)方的密文以后,選擇模型無(wú)關(guān)統(tǒng)計(jì)量進(jìn)行獨(dú)立性檢驗(yàn),所述模型無(wú)關(guān)統(tǒng)計(jì)量的選取滿足以下條件:

15、(1)統(tǒng)計(jì)量的密文能夠通過安全多方計(jì)算的方式被計(jì)算;

16、(2)統(tǒng)計(jì)量在原假設(shè)趨近于0;

17、(3)統(tǒng)計(jì)量在原假設(shè)被違背的條件下會(huì)顯著偏離于0;

18、(4)統(tǒng)計(jì)量是無(wú)模型的,能夠度量任意形式的相關(guān)性。

19、優(yōu)選地,所述統(tǒng)計(jì)量 t選取為基于距離協(xié)方差構(gòu)造的統(tǒng)計(jì)量,其具有如下形式:

20、構(gòu)造核函數(shù)為,

21、

22、則具有如下的廣義u統(tǒng)計(jì)量的形式,

23、。

24、優(yōu)選地,所述步驟s4中,在解密得到的明文后,若落入拒絕域內(nèi),則說明特征小組與響應(yīng)變量顯著不獨(dú)立,組內(nèi)的特征對(duì)于模型構(gòu)建是有意義的;否則認(rèn)為中的特征與響應(yīng)變量之間沒有顯著的相關(guān)性,因此將該組特征篩除。

25、優(yōu)選地,所述步驟s5中,每次將包含重要特征的小組分裂為兩個(gè)更小的組并執(zhí)行假設(shè)檢驗(yàn)方案,每個(gè)小組內(nèi)的特征個(gè)數(shù)變?yōu)槎种弧?/p>

26、優(yōu)選地,所述步驟s6中,所述機(jī)器學(xué)習(xí)模型使用縱向聯(lián)邦學(xué)習(xí)方法構(gòu)建。

27、本發(fā)明第二方面提供一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括處理器和存儲(chǔ)器;所述存儲(chǔ)器中存儲(chǔ)有至少一段程序,所述至少一段程序由所述處理器加載并執(zhí)行以實(shí)現(xiàn)如本發(fā)明第一方面任一項(xiàng)所述的一種縱向聯(lián)邦學(xué)習(xí)中的隱私保護(hù)超高維特征篩選方法。

28、本發(fā)明第三方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器加載并執(zhí)行以實(shí)現(xiàn)如本發(fā)明第一方面任一項(xiàng)所述的一種縱向聯(lián)邦學(xué)習(xí)中的隱私保護(hù)超高維特征篩選方法。

29、本發(fā)明的超高維特征篩選方案適用于任何機(jī)器學(xué)習(xí)模型訓(xùn)練前的特征篩選過程,且模型無(wú)關(guān),能夠識(shí)別響應(yīng)變量與特征之間任意模型形式的相關(guān)性。一方面,本發(fā)明考慮了對(duì)于稀少事件數(shù)據(jù)的抽樣方法,大幅降低了由樣本量帶來的傳輸成本,加密成本和計(jì)算成本。另一方面,本發(fā)明摒棄了傳統(tǒng)特征篩選方案的逐個(gè)篩選方案,考慮將相關(guān)特征放在一個(gè)組內(nèi)進(jìn)行聯(lián)合假設(shè)檢驗(yàn)。聯(lián)合假設(shè)檢驗(yàn)的特征篩選方法減少了統(tǒng)計(jì)量的計(jì)算次數(shù),從而大幅降低了由特征維度過高帶來的聯(lián)邦學(xué)習(xí)的傳輸成本和解密成本。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1