本發(fā)明涉及機器學(xué)習(xí)中對抗性環(huán)境下的訓(xùn)練數(shù)據(jù)污染問題的解決方法技術(shù)領(lǐng)域,尤其涉及一種基于遷移的對抗性環(huán)境下的防御毒化攻擊的學(xué)習(xí)方法。
背景技術(shù):
機器學(xué)習(xí)方法在越來越多的領(lǐng)域中得到應(yīng)用,隨之而來的安全問題也得到越來越多的關(guān)注。如在垃圾郵件過濾系統(tǒng)中,攻擊者會攻擊系統(tǒng)中機器學(xué)習(xí)方法部分來擾亂垃圾郵件過濾系統(tǒng)的過濾效果。因此,在存在攻擊者的情況下研究更加安全可靠的機器學(xué)習(xí)方法十分必要。對抗性環(huán)境下的機器學(xué)習(xí)即是研究在存在攻擊的環(huán)境下的機器學(xué)習(xí)。
毒化攻擊是指攻擊者通過攻擊訓(xùn)練集來誤導(dǎo)學(xué)習(xí)過程的攻擊方法。由于機器學(xué)習(xí)的主要學(xué)習(xí)內(nèi)容來自訓(xùn)練集,因此,即使訓(xùn)練集只有一小部分遭受毒化攻擊,仍會使得學(xué)習(xí)的效果大幅下降。如何抵御毒化攻擊是對抗性環(huán)境下安全的機器學(xué)習(xí)的重要研究領(lǐng)域。目前的算法主要有兩種防御方法:一是設(shè)計更好的學(xué)習(xí)方法,提高分類器的魯棒性;二是對遭受毒化攻擊的數(shù)據(jù)集進行過濾,從而使得分類器學(xué)習(xí)干凈的數(shù)據(jù)。
這些防御方法往往都是針對特定的數(shù)據(jù)集或?qū)W習(xí)算法進行設(shè)計和改進,并且對于十分有效的針對訓(xùn)練數(shù)據(jù)標簽進行攻擊的攻擊方法的防御方法仍待完善。
本發(fā)明借鑒遷移學(xué)習(xí)的概念和算法,結(jié)合數(shù)據(jù)集過濾和魯棒性的分類器的方法針對標簽攻擊提出了解決方法。遷移學(xué)習(xí)作為一種機器學(xué)習(xí)方法,它使用輔助領(lǐng)域的知識來幫助源領(lǐng)域的知識的學(xué)習(xí)。常用于語義識別領(lǐng)域。目前沒有將其應(yīng)用于對抗性環(huán)境中,發(fā)明人在知識儲備的過程中認識到遷移學(xué)習(xí)與對抗性環(huán)境下的毒化攻擊問題有一定的相關(guān)性,并首次將遷移學(xué)習(xí)應(yīng)用到毒化攻擊的防御方法設(shè)計中。原遷移學(xué)習(xí)方法在對抗性環(huán)境中易受攻擊樣本的誤導(dǎo),從而使得其防御表現(xiàn)大幅下降。本發(fā)明考慮攻擊樣本對遷移算法的影響,以少量干凈樣本為參照,并將其作為源領(lǐng)域任務(wù),將含有攻擊的大數(shù)據(jù)集樣本集作為輔助領(lǐng)域數(shù)據(jù),通過設(shè)計的算法將輔助領(lǐng)域數(shù)據(jù)中與源領(lǐng)域數(shù)據(jù)中相似的數(shù)據(jù)遷移到源領(lǐng)域任務(wù)的學(xué)習(xí)中,經(jīng)過多次的從不同的角度對待的源數(shù)據(jù)集的參照,獲得最終的魯棒性良好的分類器。從而達到防御毒化攻擊的目的。
技術(shù)實現(xiàn)要素:
為了克服現(xiàn)有技術(shù)存在的缺點與不足,本發(fā)明提供一種基于遷移的對抗性環(huán)境下的防御毒化攻擊的學(xué)習(xí)方法,是基于遷移學(xué)習(xí)算法,以少量干凈數(shù)據(jù)為參照目標,降低含有攻擊的大量數(shù)據(jù)集中的攻擊影響,從而獲得一個知識豐富且干凈的數(shù)據(jù)集構(gòu)造一個魯棒性良好的學(xué)習(xí)算法。
為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:基于遷移的對抗性環(huán)境下的防御毒化攻擊的學(xué)習(xí)方法,包括如下步驟:
s1、收集原始數(shù)據(jù)集并對其進行劃分成源數(shù)據(jù)集t和輔助數(shù)據(jù)集s,對源數(shù)據(jù)集t和輔助數(shù)據(jù)集s進行初始化權(quán)重;
s2、進入迭代過程,每次迭代賦予源數(shù)據(jù)集t不同權(quán)重,輔助數(shù)據(jù)集s給與迭代后更新的權(quán)重,若為第一次迭代,則輔助數(shù)據(jù)集s使用初始權(quán)重;根據(jù)每次迭代的結(jié)果調(diào)整下一次迭代的權(quán)重,多次迭代中不同重要度的源數(shù)據(jù)集t樣本為輔助數(shù)據(jù)集s樣本的權(quán)重更新提供參考,最終找到輔助數(shù)據(jù)集s中的一些與源數(shù)據(jù)集t樣本相似的樣本;
s3、使用多次迭代后輔助數(shù)據(jù)集s的權(quán)重與初始源數(shù)據(jù)集t的權(quán)重共同訓(xùn)練一個最終分類器lfinal。
進一步地,所述步驟s1具體為:
s11、將收集的原始數(shù)據(jù)集按已設(shè)定的比例rcl,分配成源數(shù)據(jù)集t和輔助數(shù)據(jù)集s;所述比例rcl為源數(shù)據(jù)集t和輔助數(shù)據(jù)集s之間的比例;
s12、初始化源數(shù)據(jù)集t的權(quán)重
進一步地,所述步驟s2具體為:
s21、設(shè)定總迭代次數(shù)為n,同時設(shè)定使用的現(xiàn)有技術(shù)已有的基本分類器lbase,進入迭代;
s22、基于源數(shù)據(jù)集t的初始權(quán)重
s23、將隨機權(quán)重為
s24、分別計算源數(shù)據(jù)集t和輔助數(shù)據(jù)集s在基礎(chǔ)分類器ln上的預(yù)測樣本hn(ti)、hn(si),從而計算源數(shù)據(jù)集t和輔助數(shù)據(jù)集s在基礎(chǔ)分類器ln上的訓(xùn)練誤差
s25、設(shè)定用于更新輔助數(shù)據(jù)集s的權(quán)重的參數(shù)βn:
s26、更新輔助數(shù)據(jù)集s的權(quán)重:
s27、重復(fù)步驟s22-s26,進入下一次迭代。
進一步地,所述步驟s3具體為:
s31、設(shè)定輔助數(shù)據(jù)集s各樣本的權(quán)重為所述步驟s2中最后一次迭代調(diào)整后的權(quán)重,設(shè)定源數(shù)據(jù)集t各樣本的權(quán)重為所述步驟s12中的初始權(quán)重
s32、根據(jù)s31的權(quán)重設(shè)定下訓(xùn)練基本分類器lbase從而獲得一個防御毒化攻擊的最終分類器lfinal;其中,所述最終分類器lfinal吸收了與源數(shù)據(jù)集t相似的輔助數(shù)據(jù)集s的樣本的知識,從而擴充學(xué)習(xí)到的具有防御毒化攻擊能力。
采用上述技術(shù)方案后,本發(fā)明至少具有如下有益效果:
1、本發(fā)明依據(jù)對抗性環(huán)境的特點,考慮攻擊數(shù)據(jù)對遷移算法本身的影響,結(jié)合遷移學(xué)習(xí)概念對標簽攻擊的數(shù)據(jù)集進行了有效的數(shù)據(jù)集過濾和魯棒學(xué)習(xí)算法,從而達到有效防御的目的;
2、本發(fā)明不受數(shù)據(jù)集類別局限,且不局限于一種特定的基本分類器;
3、本發(fā)明從干凈樣本的角度出發(fā),最終獲取含有攻擊樣本的數(shù)據(jù)集中的干凈的知識來構(gòu)建學(xué)習(xí);
4、本發(fā)明不僅能處理樣本中的攻擊樣本,同時能處理樣本中的奇異點。
附圖說明
圖1為本發(fā)明基于遷移的對抗性環(huán)境下的防御毒化攻擊的學(xué)習(xí)方法的步驟流程圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本申請作進一步詳細說明。
實施例
本發(fā)明為一種基于遷移的對抗性環(huán)境下的防御毒化攻擊的學(xué)習(xí)方法,如圖1所示,包括以下步驟:
1、劃分數(shù)據(jù)集,初始化權(quán)重:設(shè)定原始數(shù)據(jù)集,并初始化權(quán)重,具體包括以下兩個步驟:(1)依據(jù)設(shè)定的源數(shù)據(jù)集以及輔助數(shù)據(jù)集比例從原始數(shù)據(jù)中篩選出比例下的源數(shù)據(jù)集;(2)分別初始t及s的權(quán)重
2、多次迭代調(diào)節(jié)樣本權(quán)重。通過從不同角度學(xué)習(xí)源數(shù)據(jù)集,降低輔助數(shù)據(jù)集中的懷疑樣本的權(quán)重。
1)設(shè)定總迭代次數(shù)n,基本分類器lbase,常用lbase可為svm;
2)進入迭代:
a.基于t的初始權(quán)重,給t隨機一個權(quán)重
b.將權(quán)重為
c.分別計算t和s在ln上的預(yù)測樣本hn(ti)、hn(si),從而計算t和s在ln上的訓(xùn)練誤差。
d.設(shè)定
e.更新s上的樣本權(quán)重:
f.進入下一次迭代。
3、訓(xùn)練最終分類器lfinal:使用
盡管已經(jīng)示出和描述了本發(fā)明的實施例,對于本領(lǐng)域的普通技術(shù)人員而言,可以理解的是,在不脫離本發(fā)明的原理和精神的情況下可以對這些實施例進行多種等效的變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同范圍限定。