基于水軍檢測模型構(gòu)建方法和系統(tǒng)及水軍檢測方法
【專利摘要】本發(fā)明涉及水軍檢測模型構(gòu)建方法,包括步驟:對一組樣本數(shù)據(jù)進行任務(wù)分割得到多個任務(wù),平均特征抽取得到多個任務(wù)的訓(xùn)練樣本集;多任務(wù)特征選擇,得到多個任務(wù)的特征權(quán)重矩陣;設(shè)定一個閾值δ,判斷特征權(quán)重矩陣中的一個列向量中的最大值是否大于閾值δ,如是,下一步;否則,放棄所述列向量,執(zhí)行步驟5;將所述列向量添加到共享特征項集合中;判斷特征權(quán)重矩陣中是否存在未與閾值δ進行比較的列向量,如是,執(zhí)行步驟3;否則,下一步;輸入新的訓(xùn)練數(shù)據(jù)集;計算得到線性分類值;設(shè)置水軍閾值,使線性分類值大于水軍閾值時判定其為水軍。本發(fā)明利用多任務(wù)學(xué)習(xí)的方法建立水軍檢測模型,實現(xiàn)了方便快捷的識別出水軍用戶。
【專利說明】基于水軍檢測模型構(gòu)建方法和系統(tǒng)及水軍檢測方法【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及水軍檢測方法,尤其涉及一種基于多任務(wù)學(xué)習(xí)的水軍檢測模型構(gòu)建方法和系統(tǒng)及水軍檢測方法,屬于網(wǎng)絡(luò)安全領(lǐng)域。
【背景技術(shù)】
[0002]隨著社交網(wǎng)絡(luò)的普及,論壇已經(jīng)成為最熱門的上網(wǎng)應(yīng)用之一。但網(wǎng)絡(luò)論壇的開放性質(zhì)決定了很難對論壇中的信息進行絕對嚴格的監(jiān)管,這就導(dǎo)致論壇中出現(xiàn)了一批以獲利為目的,蓄意散播某些言論的網(wǎng)絡(luò)水軍。從“7.23”動車事故天價賠償事件到秦火火事件,網(wǎng)絡(luò)水軍對網(wǎng)絡(luò)環(huán)境甚至社會秩序造成很嚴重的影響,可見,對網(wǎng)絡(luò)水軍的識別和監(jiān)管,已經(jīng)迫在眉睫。
[0003]傳統(tǒng)的水軍檢測的機器學(xué)習(xí)的方法是建立一個統(tǒng)一的模型,采用的單一任務(wù)學(xué)習(xí)的方法,對于每一個任務(wù)都采用獨立訓(xùn)練的模式。這種學(xué)習(xí)方式存在幾方面的弊端:其一,訓(xùn)練集合中的樣本只反映單個任務(wù)的信息,學(xué)習(xí)的結(jié)果往往受到特定任務(wù)的限制。例如,現(xiàn)在新浪微博對于水軍的判斷的標(biāo)準(zhǔn)和論壇的標(biāo)準(zhǔn)是不一樣的,通過新浪微博的規(guī)則學(xué)習(xí)出來的水軍判定模型,應(yīng)用至其他論壇可能導(dǎo)致將正常用戶誤判為水軍用戶。其二,當(dāng)訓(xùn)練集合中的樣本量較少時,導(dǎo)致單一任務(wù)學(xué)習(xí)構(gòu)造的模型存在一定的信息特征丟失。而傳統(tǒng)方法通過過采樣技術(shù)生成的新樣本試圖解決這一問題,但生成的新樣本仍不能保證和原來樣本的特征屬性完全一致。
【發(fā)明內(nèi)容】
[0004]本發(fā)明將多任務(wù)學(xué)習(xí)應(yīng)用與水軍檢測問題中,以單一任務(wù)為標(biāo)準(zhǔn),能夠提取出各個任務(wù)學(xué)習(xí)過程中的共享用戶特征信息,提高水軍檢測的精度。多任務(wù)學(xué)習(xí)和傳統(tǒng)的單任務(wù)學(xué)習(xí)不同,它試圖通過共享不同任務(wù)之間的信息構(gòu)建一個聯(lián)合的學(xué)習(xí)模型。一方面,訓(xùn)練集合中的樣本均反映了單個任務(wù)的信息,訓(xùn)練集合中的樣本存在一定的差異性,可以根據(jù)差異度建立多個學(xué)習(xí)任務(wù),差異度相似的作為同一個任務(wù),將這些任務(wù)同時學(xué)習(xí),學(xué)習(xí)的過程中通過共享不同任務(wù)之間的信息,從而達到更好的學(xué)習(xí)效果;另一方面,對于特定數(shù)據(jù)樣本較少的情況,通過融合其他相關(guān)任務(wù)的數(shù)據(jù)學(xué)習(xí),從而對原始數(shù)據(jù)的信息進行補償學(xué)習(xí),避免信息特征丟失的情況。實際應(yīng)用中也證明了通過使用相關(guān)任務(wù)的數(shù)據(jù)確實能夠提高預(yù)測的精度。
[0005]本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種基于多任務(wù)學(xué)習(xí)的水軍檢測模型構(gòu)建方法。
[0006]本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種水軍檢測模型構(gòu)建方法,包括如下步驟:
[0007]步驟1:對一組給定的向量化的樣本數(shù)據(jù)先進行任務(wù)分割,得到對應(yīng)的多個任務(wù),對多個任務(wù)進行平均特征抽取,得到多個任務(wù)的訓(xùn)練樣本集;
[0008]步驟2:對多個任務(wù)的訓(xùn)練樣本集進行多任務(wù)特征選擇,得到多個任務(wù)的特征權(quán)重矩陣;
[0009]步驟3:設(shè)定一個閾值δ,判斷所述特征權(quán)重矩陣中的一個列向量中的最大值是否大于閾值δ,如果是,執(zhí)行步驟4 ;否則,放棄所述列向量,執(zhí)行步驟5 ;
[0010]步驟4:將所述列向量添加到共享特征項集合中;
[0011]步驟5:判斷特征權(quán)重矩陣中是否存在未與閾值δ進行比較的列向量,如果是,執(zhí)行步驟3;否則,執(zhí)行步驟6;
[0012]步驟6:輸入新的已知水軍特性的向量化的訓(xùn)練數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集與共享特征項集合進行匹配,將在集合中排列位置匹配的特征項集合在一起,得到新共享特征項集合;
[0013]步驟7:對新共享特征項集合通過感知器學(xué)習(xí)算法(Perceptron LearningAlgorithm)計算得到特征系數(shù),通過計算共享特征項集合與特征系數(shù)的乘積得到標(biāo)準(zhǔn)線性分類值;
[0014]步驟8:根據(jù)標(biāo)準(zhǔn)線性分類值的大小設(shè)置水軍閾值,使被測線性分類值大于水軍閾值時判定其數(shù)據(jù)來源于水軍,完成水軍判斷模型的構(gòu)建,結(jié)束。
[0015]本發(fā)明的有益效果是:本發(fā)明利用多任務(wù)學(xué)習(xí)的方法建立水軍檢測模型,實現(xiàn)了方便快捷的識別出水軍用戶。
[0016]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進。
[0017]進一步,還包括水軍檢測模型測試過程,所述水軍檢測模型測試過程包括以下步驟:
[0018]步驟9:給定一組已知是水軍的水軍用戶集合,采集水軍用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對每個維度的原始數(shù)據(jù)進行量化表示得到特征向量;
[0019]步驟10:將特征向量與步驟4中得到的共享特征項集合進行匹配,將位置匹配的特征項集合在一起,構(gòu)成水軍用戶低維的特征向量;
[0020]步驟11:結(jié)合水軍用戶低維的特征向量與步驟7中的特征系數(shù)計算得到水軍用戶的線性分類值;
[0021]步驟12:判斷線性分類值是否大于水軍閾值,如果是,執(zhí)行下一步,否則,將水軍閾值適當(dāng)減小并重新設(shè)置,返回執(zhí)行步驟9 ;
[0022]步驟13:給定一組已知不是水軍的正常用戶集合,采集正常用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對每個維度的原始數(shù)據(jù)進行量化表示得到特征向量;
[0023]步驟14:將特征向量與步驟4中得到的共享特征項集合進行匹配,將位置匹配的特征項集合在一起,構(gòu)成用戶低維的特征向量;
[0024]步驟15:結(jié)合正常用戶低維的特征向量與步驟7中的特征系數(shù)計算得到正常用戶的線性分類值;
[0025]步驟16:判斷線性分類值是否小于水軍閾值,如果是,執(zhí)行下一步,否則,將水軍閾值適當(dāng)增大并重新設(shè)置,返回執(zhí)行步驟9 ;
[0026]步驟17:完成對水軍檢測模型的測試,結(jié)束。
[0027]進一步,所述步驟2中采用求解正則化最小二乘法回歸實現(xiàn)多任務(wù)特征選擇。[0028]進一步,所述步驟I中的多個任務(wù)大小相同。
[0029]本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種基于多任務(wù)學(xué)習(xí)的水軍檢測模型構(gòu)建系統(tǒng)。
[0030]本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種基于多任務(wù)學(xué)習(xí)的水軍檢測模型構(gòu)建系統(tǒng),包括:任務(wù)分割抽取模塊、特征選擇模塊、閾值設(shè)定模塊、匹配模塊、線性分類值計算模塊和水軍模型模塊;
[0031]所述任務(wù)分割抽取模塊對一組給定的向量化的樣本數(shù)據(jù)先進行任務(wù)分割,得到對應(yīng)的多個任務(wù),對多個任務(wù)進行平均特征抽取,得到多個任務(wù)的訓(xùn)練樣本集;
[0032]所述特征選擇模塊對多個任務(wù)的訓(xùn)練樣本集進行多任務(wù)特征選擇,得到多個任務(wù)的特征權(quán)重矩陣;
[0033]所述閾值設(shè)定模塊用于設(shè)定一個閾值δ,判斷所述特征權(quán)重矩陣中的所有列向量中的最大值是否大于閾值I如果是,將所述列向量添加到共享特征項集合中;否則,放棄所述列向量;
[0034]所述匹配模塊用于接收新的已知水軍特性的向量化的訓(xùn)練數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集與共享特征項集合進行匹配,將位置匹配的特征項集合在一起,得到新共享特征項集合;
[0035]所述線性分類值計算模塊對新共享特征項集合通過感知器學(xué)習(xí)算法(PerceptronLearning Algorithm)計算得到特征系數(shù),計算共享特征項集合與特征系數(shù)的乘積得到線性分類值;
[0036]所述水軍模型模塊用于根據(jù)標(biāo)準(zhǔn)線性分類值的大小設(shè)置水軍閾值,使被測線性分類值大于水軍閾值時判定其數(shù)據(jù)來源于水軍,完成水軍判斷模型的構(gòu)建。
[0037]本發(fā)明的有益效果是:本發(fā)明利用多任務(wù)學(xué)習(xí)的方法建立水軍檢測模型,實現(xiàn)了方便快捷的識別出水軍用戶。
[0038]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進。
[0039]進一步,還包括特征提取模塊;
[0040]所述特征提取模塊用于接收給定一組已知水軍特性的用戶集合,采集用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對每個維度的原始數(shù)據(jù)進行量化表示得到特征向量,并將特征向量發(fā)送到匹配模塊;
[0041]所述匹配模塊將特征向量與匹配模塊中得到的共享特征項集合進行匹配,將位置匹配的特征項集合在一起,構(gòu)成用戶低維的特征向量并發(fā)送到線性分類值計算模塊;
[0042]所述線性分類值計算模塊結(jié)合用戶低維的特征向量與線性分類值計算模塊中的特征系數(shù)計算得到用戶的線性分類值,并將線性分類值發(fā)送到水軍模型模塊;
[0043]所述水軍模型模塊判斷線性分類值與水軍閾值相比較,如果水軍用戶的線性分類值大于水軍閾值,則無需調(diào)整水軍閾值;如果水軍用戶的線性分類值小于水軍閾值,將水軍閾值適當(dāng)減小并重新設(shè)置;如果正常用戶的線性分類值小于水軍閾值,則無需調(diào)整水軍閾值;如果正常用戶的線性分類值小于水軍閾值,將水軍閾值適當(dāng)增大并重新設(shè)置。
[0044]進一步,所述特征選擇模塊中采用求解正則化最小二乘法回歸實現(xiàn)多任務(wù)特征選擇。
[0045]本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種基于多任務(wù)學(xué)習(xí)的水軍檢測方法。[0046]本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種水軍檢測方法,具體包括以下步驟:
[0047]步驟1:接收被測用戶集合,采集被測用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對每個維度的原始數(shù)據(jù)進行量化表示得到被測特征向量;
[0048]步驟2:將被測特征向量與匹配模塊中共享特征項集合進行匹配,將位置匹配的特征項集合在一起,構(gòu)成被測用戶低維的特征向量;
[0049]步驟3:結(jié)合被測用戶低維的特征向量與線性分類值計算模塊中的特征系數(shù)計算得到被測用戶的線性分類值;
[0050]步驟4:判斷線性分類值是否大于水軍閾值,如果是,判定被測用戶為水軍;否則,判定被測用戶為正常用戶;
[0051]步驟5:結(jié)束水軍判斷過程。
【專利附圖】
【附圖說明】
[0052]圖1為本發(fā)明所述一種水軍檢測模型構(gòu)建方法流程圖;
[0053]圖2為本發(fā)明所述所述水軍檢測模型測試流程圖;
[0054]圖3為本發(fā)明所述一種基于多任務(wù)學(xué)習(xí)的水軍檢測模型構(gòu)建系統(tǒng)結(jié)構(gòu)圖;
[0055]圖4為本發(fā)明所述一種水軍檢測流程圖;
[0056]圖5為矩陣的〈I范數(shù)〉和〈1,2>范數(shù);
[0057]圖6為本發(fā)明所述的多任務(wù)特征水軍檢測架構(gòu)圖。
[0058]附圖中,各標(biāo)號所代表的部件列表如下:
[0059]1、任務(wù)分割抽取模塊,2、特征選擇模塊,3、閾值設(shè)定模塊,4、匹配模塊,5、線性分類值計算模塊,6、水軍模型模塊,7、特征提取模塊。
【具體實施方式】
[0060]以下結(jié)合附圖對本發(fā)明的原理和特征進行描述,所舉實例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。
[0061]如圖1所示,一種基于多任務(wù)學(xué)習(xí)的水軍檢測模型構(gòu)建方法,包括如下步驟:
[0062]步驟1:對一組給定的向量化的樣本數(shù)據(jù)先進行任務(wù)分割,得到對應(yīng)的多個任務(wù),對多個任務(wù)進行平均特征抽取,得到多個任務(wù)的訓(xùn)練樣本集;
[0063]步驟2:對多個任務(wù)的訓(xùn)練樣本集進行多任務(wù)特征選擇,得到多個任務(wù)的特征權(quán)
重矩陣;
[0064]步驟3:設(shè)定一個閾值δ,判斷所述特征權(quán)重矩陣中的一個列向量中的最大值是否大于閾值δ,如果是,執(zhí)行步驟4 ;否則,放棄所述列向量,執(zhí)行步驟5 ;
[0065]步驟4:將所述列向量添加到共享特征項集合中;
[0066]步驟5:判斷特征權(quán)重矩陣中是否存在未與閾值δ進行比較的列向量,如果是,執(zhí)行步驟3;否則,執(zhí)行步驟6;
[0067]步驟6:輸入新的已知水軍特性的向量化的訓(xùn)練數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集與共享特征項集合進行匹配,將在集合中排列位置匹配的特征項集合在一起,得到新共享特征項集合;[0068]步驟7:對新共享特征項集合通過感知器學(xué)習(xí)算法(Perceptron LearningAlgorithm)計算得到特征系數(shù),通過計算共享特征項集合與特征系數(shù)的乘積得到標(biāo)準(zhǔn)線性分類值;
[0069]步驟8:根據(jù)標(biāo)準(zhǔn)線性分類值的大小設(shè)置水軍閾值,使被測線性分類值大于水軍閾值時判定其數(shù)據(jù)來源于水軍,完成水軍判斷模型的構(gòu)建,結(jié)束。
[0070]如圖2所示,還包括水軍檢測模型測試過程,所述水軍檢測模型測試過程包括以下步驟:
[0071]步驟9:給定一組已知是水軍的水軍用戶集合,采集水軍用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對每個維度的原始數(shù)據(jù)進行量化表示得到特征向量;
[0072]步驟10:將特征向量與步驟4中得到的共享特征項集合進行匹配,將位置匹配的特征項集合在一起,構(gòu)成水軍用戶低維的特征向量;
[0073]步驟11:結(jié)合水軍用戶低維的特征向量與步驟7中的特征系數(shù)計算得到水軍用戶的線性分類值;
[0074]步驟12:判斷線性分類值是否大于水軍閾值,如果是,執(zhí)行下一步,否則,將水軍閾值適當(dāng)減小并重新設(shè)置,返回執(zhí)行步驟9 ;
[0075]步驟13:給定一組已知不是水軍的正常用戶集合,采集正常用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對每個維度的原始數(shù)據(jù)進行量化表示得到特征向量;
[0076]步驟14:將特征向量與步驟4中得到的共享特征項集合進行匹配,將位置匹配的特征項集合在一起,構(gòu)成正常用戶低維的特征向量;
[0077]步驟15:結(jié)合正常用戶低維的特征向量與步驟7中的特征系數(shù)計算得到正常用戶的線性分類值;
[0078]步驟16:判斷線性分類值是否小于水軍閾值,如果是,執(zhí)行下一步,否則,將水軍閾值適當(dāng)增大并重新設(shè)置,返回執(zhí)行步驟9 ;
[0079]步驟17:完成對水軍檢測模型的測試,結(jié)束。
[0080]所述步驟2中采用求解正則化最小二乘法回歸實現(xiàn)多任務(wù)特征選擇。
[0081]所述步驟I中的多個任務(wù)大小相同。
[0082]如圖3所示,一種基于多任務(wù)學(xué)習(xí)的水軍檢測模型構(gòu)建系統(tǒng),包括:任務(wù)分割抽取模塊1、特征選擇模塊2、閾值設(shè)定模塊3、匹配模塊4、線性分類值計算模塊5和水軍模型模塊6 ;
[0083]所述任務(wù)分割抽取模塊I對一組給定的向量化的樣本數(shù)據(jù)先進行任務(wù)分割,得到對應(yīng)的多個任務(wù),對多個任務(wù)進行平均特征抽取,得到多個任務(wù)的訓(xùn)練樣本集;
[0084]所述特征選擇模塊2對多個任務(wù)的訓(xùn)練樣本集進行多任務(wù)特征選擇,得到多個任務(wù)的特征權(quán)重矩陣;
[0085]所述閾值設(shè)定模塊3用于設(shè)定一個閾值δ,判斷所述特征權(quán)重矩陣中的所有列向量中的最大值是否大于閾值δ,如果是,將所述列向量添加到共享特征項集合中;否則,放棄所述列向量;
[0086]所述匹配模塊4用于接收新的已知水軍特性的向量化的訓(xùn)練數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集與共享特征項集合進行匹配,將位置匹配的特征項集合在一起,得到新共享特征項集合;
[0087]所述線性分類值計算模塊5對新共享特征項集合通過感知器學(xué)習(xí)算法(Perceptron Learning Algorithm)計算得到特征系數(shù),計算共享特征項集合與特征系數(shù)的乘積得到線性分類值;
[0088]所述水軍模型模塊6用于根據(jù)標(biāo)準(zhǔn)線性分類值的大小設(shè)置水軍閾值,使被測線性分類值大于水軍閾值時判定其數(shù)據(jù)來源于水軍,完成水軍判斷模型的構(gòu)建。
[0089]還包括特征提取模塊7 ;
[0090]所述特征提取模塊7用于接收給定一組已知水軍特性的用戶集合,采集用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對每個維度的原始數(shù)據(jù)進行量化表示得到特征向量,并將特征向量發(fā)送到匹配模塊4 ;
[0091]所述匹配模塊4將特征向量與匹配模塊中得到的共享特征項集合進行匹配,將位置匹配的特征項集合在一起,構(gòu)成用戶低維的特征向量并發(fā)送到線性分類值計算模塊5 ;
[0092]所述線性分類值計算模塊5結(jié)合用戶低維的特征向量與線性分類值計算模塊中的特征系數(shù)計算得到用戶的線性分類值,并將線性分類值發(fā)送到水軍模型模塊6 ;
[0093]所述水軍模型模塊6判斷線性分類值與水軍閾值相比較,如果水軍用戶的線性分類值大于水軍閾值,則無需調(diào)整水軍閾值;如果水軍用戶的線性分類值小于水軍閾值,將水軍閾值適當(dāng)減小并重新設(shè)置;如果正常用戶的線性分類值小于水軍閾值,則無需調(diào)整水軍閾值;如果正常用戶的線性分類值小于水軍閾值,將水軍閾值適當(dāng)增大并重新設(shè)置。
[0094]所述特征選擇模塊2中采用求解正則化最小二乘法回歸實現(xiàn)多任務(wù)特征選擇。
[0095]如圖4所示,一種水軍檢測方法,具體包括以下步驟:
[0096]步驟1:接收被測用戶集合,采集被測用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對每個維度的原始數(shù)據(jù)進行量化表示得到被測特征向量;
[0097]步驟2:將被測特征向量與匹配模塊中共享特征項集合進行匹配,將位置匹配的特征項集合在一起,構(gòu)成被測用戶低維的特征向量;
[0098]步驟3:結(jié)合被測用戶低維的特征向量與線性分類值計算模塊中的特征系數(shù)計算得到被測用戶的線性分類值;
[0099]步驟4:判斷線性分類值是否大于水軍閾值,如果是,判定被測用戶為水軍;否則,判定被測用戶為正常用戶;
[0100]步驟5:結(jié)束水軍判斷過程。
[0101]用戶屬性特征表示
[0102]“網(wǎng)絡(luò)水軍”的檢測過程,本質(zhì)是根據(jù)相關(guān)用戶信息進行用戶分類的過程,因此,在算法執(zhí)行前需要將用戶描述信息轉(zhuǎn)化為某種數(shù)學(xué)形式進行表示??陀^上,一個網(wǎng)絡(luò)論壇用戶包含很多描述信息,比如用戶注冊時間、歷次登陸時間、用戶名、密碼、登陸IP、瀏覽歷史記錄、發(fā)帖歷史記錄、回帖歷史記錄、論壇好友記錄、粉絲記錄、關(guān)注用戶記錄等。本專利中,我們選取其中比較有代表性的信息作為參考,對用戶進行分類,并據(jù)此提出用戶信息多屬性描述框架,框架結(jié)構(gòu)如表I所示。
【權(quán)利要求】
1.一種水軍檢測模型構(gòu)建方法,其特征在于,包括如下步驟: 步驟1:對一組給定的向量化的樣本數(shù)據(jù)先進行任務(wù)分割,得到對應(yīng)的多個任務(wù),對多個任務(wù)進行平均特征抽取,得到多個任務(wù)的訓(xùn)練樣本集; 步驟2:對多個任務(wù)的訓(xùn)練樣本集進行多任務(wù)特征選擇,得到多個任務(wù)的特征權(quán)重矩陣; 步驟3:設(shè)定一個閾值δ,判斷所述特征權(quán)重矩陣中的一個列向量中的最大值是否大于閾值δ,如果是,執(zhí)行步驟4 ;否則,放棄所述列向量,執(zhí)行步驟5 ; 步驟4:將所述 列向量添加到共享特征項集合中; 步驟5:判斷特征權(quán)重矩陣中是否存在未與閾值δ進行比較的列向量,如果是,執(zhí)行步驟3;否則,執(zhí)行步驟6; 步驟6:輸入新的已知水軍特性的向量化的訓(xùn)練數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集與共享特征項集合進行匹配,將在集合中排列位置匹配的特征項集合在一起,得到新共享特征項集合;步驟7:對新共享特征項集合通過感知器學(xué)習(xí)算法(Perceptron Learning Algorithm)計算得到特征系數(shù),通過計算共享特征項集合與特征系數(shù)的乘積得到標(biāo)準(zhǔn)線性分類值;步驟8:根據(jù)標(biāo)準(zhǔn)線性分類值的大小設(shè)置水軍閾值,使被測線性分類值大于水軍閾值時判定其數(shù)據(jù)來源于水軍,完成水軍判斷模型的構(gòu)建,結(jié)束。
2.根據(jù)權(quán)利要求1所述的一種基于多任務(wù)學(xué)習(xí)的水軍檢測模型構(gòu)建方法,其特征在于,還包括水軍檢測模型測試過程,所述水軍檢測模型測試過程包括以下步驟: 步驟9:給定一組已知是水軍的水軍用戶集合,采集水軍用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對每個維度的原始數(shù)據(jù)進行量化表示得到特征向量; 步驟10:將特征向量與步驟4中得到的共享特征項集合進行匹配,將位置匹配的特征項集合在一起,構(gòu)成水軍用戶低維的特征向量; 步驟11:結(jié)合水軍用戶低維的特征向量與步驟7中的特征系數(shù)計算得到水軍用戶的線性分類值; 步驟12:判斷線性分類值是否大于水軍閾值,如果是,執(zhí)行下一步,否則,將水軍閾值適當(dāng)減小并重新設(shè)置,返回執(zhí)行步驟9 ; 步驟13:給定一組已知不是水軍的正常用戶集合,采集正常用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對每個維度的原始數(shù)據(jù)進行量化表示得到特征向量; 步驟14:將特征向量與步驟4中得到的共享特征項集合進行匹配,將位置匹配的特征項集合在一起,構(gòu)成用戶低維的特征向量; 步驟15:結(jié)合正常用戶低維的特征向量與步驟7中的特征系數(shù)計算得到正常用戶的線性分類值; 步驟16:判斷線性分類值是否小于水軍閾值,如果是,執(zhí)行下一步,否則,將水軍閾值適當(dāng)增大并重新設(shè)置,返回執(zhí)行步驟9 ; 步驟17:完成對水軍檢測模型的測試,結(jié)束。
3.根據(jù)權(quán)利要求1或2所述的一種基于多任務(wù)學(xué)習(xí)的水軍檢測模型構(gòu)建方法,其特征在于,所述步驟2中采用求解正則化最小二乘法回歸實現(xiàn)多任務(wù)特征選擇。
4.根據(jù)權(quán)利要求3所述的一種基于多任務(wù)學(xué)習(xí)的水軍檢測模型構(gòu)建方法,其特征在于,所述步驟I中的多個任務(wù)大小相同。
5.一種基于多任務(wù)學(xué)習(xí)的水軍檢測模型構(gòu)建系統(tǒng),其特征在于,包括:任務(wù)分割抽取模塊、特征選擇模塊、閾值設(shè)定模塊、匹配模塊、線性分類值計算模塊和水軍模型模塊; 所述任務(wù)分割抽取模塊對一組給定的向量化的樣本數(shù)據(jù)先進行任務(wù)分割,得到對應(yīng)的多個任務(wù),對多個任務(wù)進行平均特征抽取,得到多個任務(wù)的訓(xùn)練樣本集; 所述特征選擇模塊對多個任務(wù)的訓(xùn)練樣本集進行多任務(wù)特征選擇,得到多個任務(wù)的特征權(quán)重矩陣; 所述閾值設(shè)定模塊用于設(shè)定一個閾值S,判斷所述特征權(quán)重矩陣中的所有列向量中的最大值是否大于閾值I如果是,將所述列向量添加到共享特征項集合中;否則,放棄所述列向量; 所述匹配模塊用于接收新的已知水軍特性的向量化的訓(xùn)練數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集與共享特征項集合進行匹配,將在集合中排列位置匹配的特征項集合在一起,得到新共享特征項集合; 所述線性分類值計算模塊對新共享特征項集合通過感知器學(xué)習(xí)算法(PerceptronLearning Algorithm)計算得到特征系數(shù),計算共享特征項集合與特征系數(shù)的乘積得到線性分類值; 所述水軍模型模塊用于根據(jù)標(biāo)準(zhǔn)線性分類值的大小設(shè)置水軍閾值,使被測線性分類值大于水軍閾值時判定其數(shù)據(jù)來源于水軍,完成水軍判斷模型的構(gòu)建。
6.根據(jù)權(quán)利要求5所述的一種基于多任務(wù)學(xué)習(xí)的水軍檢測模型構(gòu)建系統(tǒng),其特征在于,還包括特征提取模塊; 所述特征提取模塊用于接收給定一組已知水軍特性的用戶集合,采集用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對每個維度的原始數(shù)據(jù)進行量化表示得到特征向量,并將特征向量發(fā)送到匹配模塊; 所述匹配模塊將特征向量與匹配模塊中得到的共享特征項集合進行匹配,將位置匹配的特征項集合在一起,構(gòu)成用戶低維的特征向量并發(fā)送到線性分類值計算模塊; 所述線性分類值計算模塊結(jié)合用戶低維的特征向量與線性分類值計算模塊中的特征系數(shù)計算得到用戶的線性分類值,并將線性分類值發(fā)送到水軍模型模塊; 所述水軍模型模塊判斷線性分類值與水軍閾值相比較,如果水軍用戶的線性分類值大于水軍閾值,則無需調(diào)整水軍閾值;如果水軍用戶的線性分類值小于水軍閾值,將水軍閾值適當(dāng)減小并重新設(shè)置;如果正常用戶的線性分類值小于水軍閾值,則無需調(diào)整水軍閾值;如果正常用戶的線性分類值小于水軍閾值,將水軍閾值適當(dāng)增大并重新設(shè)置。
7.根據(jù)權(quán)利要求5或6所述的一種基于多任務(wù)學(xué)習(xí)的水軍檢測模型構(gòu)建系統(tǒng),其特征在于,所述特征選擇模塊中采用求解正則化最小二乘法回歸實現(xiàn)多任務(wù)特征選擇。
8.一種水軍檢測方法,其特征在于,具體包括以下步驟: 步驟1:接收被測用戶集合,采集被測用戶集合中所有用戶的行為特征和內(nèi)容特征的原始數(shù)據(jù),并對每個維度的原始數(shù)據(jù)進行量化表示得到被測特征向量; 步驟2:將被測特征向量與匹配模塊中共享特征項集合進行匹配,將位置匹配的特征項集合在一起,構(gòu)成被測用戶低維的特征向量;步驟3:結(jié)合被測用戶低維的特征向量與線性分類值計算模塊中的特征系數(shù)計算得到被測用戶的線性分類值; 步驟4:判斷線性分類值是否大于水軍閾值,如果是,判定被測用戶為水軍;否則,判定被測用戶為正常用戶; 步驟5:結(jié) 束水軍判斷過程。
【文檔編號】G06K9/66GK103955714SQ201410146467
【公開日】2014年7月30日 申請日期:2014年4月9日 優(yōu)先權(quán)日:2014年4月9日
【發(fā)明者】李倩, 牛溫佳, 管洋洋, 黃超, 孫衛(wèi)強, 李丹, 胡玥, 郭莉 申請人:中國科學(xué)院信息工程研究所