組合降采樣極限學(xué)習(xí)機的制作方法
【專利說明】組合降采樣極限學(xué)習(xí)機 所屬技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及模式識別技術(shù),具體涉及針對不平衡數(shù)據(jù)集的一種分類器。
【背景技術(shù)】
[0002] 隨著信息智能技術(shù)的飛速發(fā)展,機器學(xué)習(xí)技術(shù)蓬勃發(fā)展,其應(yīng)用領(lǐng)域方向更加廣 泛,技術(shù)發(fā)展更加深入,分類是機器學(xué)習(xí)和數(shù)據(jù)挖掘中重要的知識獲取手段之一。目前已有 許多分類算法如支持向量機(SVM)和神經(jīng)網(wǎng)絡(luò)等在各個領(lǐng)域得到了廣泛應(yīng)用。但現(xiàn)有的分 類算法通常假定用于訓(xùn)練的數(shù)據(jù)集是平衡的,即各類所含的樣例數(shù)大致相等。而絕大多的 實際情況并非如此,特別是在醫(yī)學(xué)領(lǐng)域,臨床病例中,正例(即患病例)遠遠少于負例(即 正常例)。在以下的論述中,我們將默認少數(shù)樣本為正樣本,多數(shù)樣本為負樣本。在數(shù)據(jù)不 平衡時,分類器會過多的關(guān)注多數(shù)類,而對少數(shù)類的分類靈敏度下降,但少數(shù)類的識別率往 往是我們所主要關(guān)注的。
[0003] 針對數(shù)據(jù)不平衡這一實際問題科研人員提出了多種解決方法,根據(jù)操作對象可分 為兩大類,即對樣本的重采樣法,和集成分類器法。
[0004] (1)最常見的樣本重采樣方法是降采樣,通過對多數(shù)數(shù)據(jù)進行降采樣,使正負例達 到平衡。專利"基于欠抽樣面向不平衡數(shù)據(jù)集的交通事件自動檢測方法"(CN103927874A) 就在實際交通事件自動檢測算法中使用了欠抽樣的方法,以得到新的相對平衡的訓(xùn)練集來 訓(xùn)練支持向量機。但該方法拋棄了一些負樣本,對樣本選擇的依賴性較強。
[0005] (2)另外一種樣本重采樣方法為過采樣法,即通過人工構(gòu)造少數(shù)類樣本,是少 數(shù)類樣本與多數(shù)類樣本數(shù)量達到平衡。專利"基于粒子群支持向量機的雷電近鄰預(yù)測方 法"(CN103679263A)在使用支持向量機對雷電臨近預(yù)測時針對有雷電樣本與無雷電樣本的 不平衡性,就通過對正樣本(雷電樣本)內(nèi)部隨機插值的過采樣方法,使SVM訓(xùn)練樣本中 的正負樣本數(shù)量達到平衡。而文獻[1]也提出了一種樣本過采樣法,即SMOTE(Synthetic Minority Over-sampling Technique):對少數(shù)數(shù)據(jù)過采樣,然后使用支持向量機分類方法 分類。通過過采樣方法得到的樣本是通過對已有的少數(shù)樣本按照一定規(guī)則進行內(nèi)部差值得 到的,可能與真實樣本的分布情況不符,且過采樣增加了處理數(shù)據(jù)量,學(xué)習(xí)難度增大,耗時 更長。
[0006] (3)集成分類器法是一種通過集成多個基分類器共同決策的機器學(xué)習(xí)技術(shù),文獻 [2]提出了一種組合降采樣支持向量機EUS-SVM(Ensemble of Under-Sampled SVMs):將多 數(shù)數(shù)據(jù)隨機分為N組,每組數(shù)據(jù)量與少數(shù)數(shù)據(jù)大致相同,每組均與少數(shù)數(shù)據(jù)組合并成一組 訓(xùn)練樣本,分別送入N個支持向量機(SVM :Support Vector Machine)基分類器中對分類器 進行訓(xùn)練。完成訓(xùn)練后,對于每個輸入的測試樣本,每個分類器都將得出一個分類結(jié)果,隨 后將這N個分類結(jié)果組合,并根據(jù)一定的判別準(zhǔn)則判定樣本最終類型。該方法在SVM學(xué)習(xí) 機的基礎(chǔ)上,采取了組合降采樣結(jié)構(gòu),降低了單分類器的錯誤率,提高了分類功能的穩(wěn)定性 和對少數(shù)樣本的識別能力,但由于有多個SVM并聯(lián),耗時量大大增加。
[0007] 從以上分析可以看出,樣本重采樣法較難還原樣本的真實分布,而集成分類器法 由于組合了多個分類器,則需要分類器的分類效率較高,訓(xùn)練消耗較小。EUS-SVM雖然克服 了單純降采樣的樣本選擇依賴性和不穩(wěn)定性,在不平衡樣本上能夠取得較好的少數(shù)樣本檢 出率,但SVM作為基分類器,其訓(xùn)練耗時較長,參數(shù)設(shè)置較為復(fù)雜,當(dāng)訓(xùn)練數(shù)據(jù)量較大,或少 數(shù)、多數(shù)樣本比例比較懸殊需要集合多個基分類器時,EUS-SVM需要訓(xùn)練多個SVM分類器, 其分類效率則較為堪憂。
[0008] 通過上述總結(jié)我們可以看出,各種改進算法在解決樣本不均衡問題的同時還存在 一些不足之處。
[0009] 參考文獻:
[0010] [l]Nitesh V. Chawla, Kevin ff. Bowyer, Lawrence 0. Hal 1, ff. Phi 1 ip Kegelmeyer,SMOTE:Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research 16(2002)321-357.
[0011] [2]Pilsung Kang, Sungzoon Cho,Ensemble of Under-Sampled SVMs for Data Imbalance Problems, International Conference on Neural Information Processing, 2006.
【發(fā)明內(nèi)容】
[0012] 本發(fā)明旨在克服現(xiàn)有技術(shù)的上述不足,提供一種針對不平衡類數(shù)據(jù)集的組合學(xué)習(xí) 機,克服樣本重采樣的樣本依賴性,并具有較高的分類效率和簡便的參數(shù)調(diào)整方法。本發(fā)明 的技術(shù)方案如下:
[0013] 一種組合降采樣極限學(xué)習(xí)機,包括下面的幾個方面:
[0014] (1)對于一個類數(shù)據(jù)不平衡的訓(xùn)練樣本,首先對其中的多數(shù)樣本(FP data)進行 隨機降采樣,根據(jù)多數(shù)樣本和少數(shù)樣本的比值N,將其分割成N個多數(shù)類子樣本FPi (i = 1,? ? ?,N);
[0015] (2)將N個多數(shù)類子樣本分別與少數(shù)樣本組合成N個訓(xùn)練子集Trainji = 1,? ? ?,N);
[0016] (3)用⑵得到的N個訓(xùn)練子集訓(xùn)練N個極限學(xué)習(xí)機,得到N個分類器;
[0017] (4)將測試樣本分別送入(3)得到的N個分類器,每個分類器得出一個分類結(jié)果。
[0018] (5)每個分類器的投票權(quán)重相同,設(shè)置一個決策閾值D,將分類結(jié)果組合后與決策 閾值D相比較,決定最終分類結(jié)果;通過調(diào)節(jié)決策閾值D,調(diào)整分類器對少數(shù)樣本的關(guān)注程 度,D越小則對少數(shù)樣本的關(guān)注度越高。
[0019] 本發(fā)明結(jié)合了組合降采樣支持向量機(EUS-SVM)的組合結(jié)構(gòu)和ELM算法的優(yōu)點, 保證所有樣本均為原始真實樣本,分類器功能更加穩(wěn)定,降低了單個分類器的分類偏差,且 可以通過對決策閾值D的調(diào)節(jié)來調(diào)整對正樣本的關(guān)注度。經(jīng)實驗比較,本發(fā)明在保證高準(zhǔn) 確度的情況下?lián)碛泻臅r短,效率高的絕對優(yōu)勢。
【附圖說明】
[0020] 圖1是EUS-SVM結(jié)構(gòu)圖。
[0021] 圖2是EUS-ELM結(jié)構(gòu)圖。
【具體實施方式】
[0022] 本發(fā)明受EUS-SVM方法的啟發(fā),繼承其組合降采樣結(jié)構(gòu),使用極限學(xué)習(xí)機 ELM (Extreme Learning Machine)替代組合結(jié)構(gòu)中的SVM作為基分類器,提出了 一種新的針 對不平衡數(shù)據(jù)集的學(xué)習(xí)機(EUS-ELM)。
[0023] 極限學(xué)習(xí)機(ELM)是一種基于源于BP神經(jīng)網(wǎng)絡(luò)的簡單學(xué)習(xí)算法,在訓(xùn)練前只需 要設(shè)置網(wǎng)絡(luò)隱層節(jié)點個數(shù),算法執(zhí)行過程中不需要調(diào)整網(wǎng)絡(luò)的輸入權(quán)值以及隱層單元的偏 置,并且產(chǎn)生唯一的最優(yōu)解,參數(shù)選擇容易、學(xué)習(xí)速度快且泛化性能好。使用ELM作為組合分 類器中的基分類器,可以大大提升分類效率,而且參數(shù)選擇更加簡便(可參見:M. Heath,K. Bowyer, D. Kopans, The Digital Database for Screening Mammography, in Proceedings of the Fifth International Workshop on Digital Mammography,212-218,Medical Physics Publishing, 2001)〇
[0024] 下面結(jié)合附圖和實施例對發(fā)明作進一步詳細的說明。
[0025] (1)取得測試和訓(xùn)練數(shù)據(jù):數(shù)字乳腺X線圖像(DDSM:Digital Database for Screening Mammography)[1]中取得的疑似腫瘤樣本。樣本數(shù)為1549,其中有401個經(jīng)醫(yī)師 確診并標(biāo)記的腫瘤正樣本,正負樣本比例約為1 :4。對每個樣本提取尺寸,形狀和紋理信息 等共34維特征。隨機選取1/4的正樣本和負樣本作為測試樣本,其余3/4作為訓(xùn)練樣本。
[0026] (2)對多數(shù)樣本,即負樣本(FP data)進行隨機降采樣,將其分割成4個子樣本 FPi (i = 1,. . .,4)。并將這4個子樣本分別與少數(shù)樣本TP data組合成4個訓(xùn)練集Trair^ (i =1,…,4) 〇
[0027] (3)使用這4個訓(xùn)練樣本分別訓(xùn)練4個ELM學(xué)習(xí)機,其激勵函數(shù)選擇Sigmoidal函 數(shù),并在[10, 100]范圍內(nèi)以10為步進采用10折交叉驗證搜索最佳節(jié)點數(shù)。
[0028] (4)將4個學(xué)習(xí)機并聯(lián),如圖2所示,并設(shè)定決策閾值D。這里我們認為這四個分 類器重要性相同,投票的權(quán)重一致。因此,我們設(shè)計一種簡單的決策閾值方法,設(shè)置一個決 策值D,對于一個測試樣本,第i個學(xué)習(xí)機投出的結(jié)果為Sc 〇rei (為正樣時記為1,負樣時為 〇),當(dāng)2 D時,這個樣本被認為是一個正樣本,否則為一個負樣本。通過調(diào)節(jié)決策 i=l 值D,可以調(diào)整分類器對少數(shù)樣本(正樣)的關(guān)注程度,D越小則對正樣的關(guān)注度越高。這 里,由于正負樣本的比例為1:4,并且有4個學(xué)習(xí)機,D e [1,2, 3, 4]。
[0029] (5)當(dāng)四個學(xué)習(xí)機完成訓(xùn)練后,將測試樣本分別送入得到的4個訓(xùn)練器,每個訓(xùn)練 器都將得出一個分類結(jié)果,根據(jù)(4)中的決策方法得出測試樣本的最終分類結(jié)果。
[0030] 表1,表2和表3分別列出了直接在不平衡數(shù)據(jù)集上使用SVM分類,隨機降采樣SVM 分類,SM0TE-SVM分類,EUS-SVM和EUS-ELM在決策值分別為1,2, 3, 4情況下分類性能的對 比結(jié)果。我們采用以下幾個指標(biāo)來評判分類效果及分類效率。
【主權(quán)項】
1. 一種組合降采樣極限學(xué)習(xí)機,包括下面的幾個方面: (2) 對于一個類數(shù)據(jù)不平衡的訓(xùn)練樣本,首先對其中的多數(shù)樣本(FP data)進行隨 機降采樣,根據(jù)多數(shù)樣本和少數(shù)樣本的比值N,將其分割成N個多數(shù)類子樣本FPi(i = 1,...,腳; (3) 將N個多數(shù)類子樣本分別與少數(shù)樣本組合成N個訓(xùn)練子集Train; (i = 1,...,腳; (4) 用(2)得到的N個訓(xùn)練子集訓(xùn)練N個極限學(xué)習(xí)機,得到N個分類器; (5) 將測試樣本分別送入(3)得到的N個分類器,每個分類器得出一個分類結(jié)果。 (6) 每個分類器的投票權(quán)重相同,設(shè)置一個決策闊值D,將分類結(jié)果組合后與決策闊值 D相比較,決定最終分類結(jié)果;通過調(diào)節(jié)決策闊值D,調(diào)整分類器對少數(shù)樣本的關(guān)注程度,D 越小則對少數(shù)樣本的關(guān)注度越高。
【專利摘要】本發(fā)明涉及一種組合降采樣極限學(xué)習(xí)機,包括:對于一個類數(shù)據(jù)不平衡的訓(xùn)練樣本,首先對其中的多數(shù)樣本(FP?data)進行隨機降采樣,根據(jù)多數(shù)樣本和少數(shù)樣本的比值N,將其分割成N個多數(shù)類子樣本;將N個多數(shù)類子樣本分別與少數(shù)樣本組合成N個訓(xùn)練子集;用得到的N個訓(xùn)練子集訓(xùn)練N個極限學(xué)習(xí)機,得到N個分類器;將測試樣本分別N個分類器,每個分類器得出一個分類結(jié)果;每個分類器的投票權(quán)重相同,設(shè)置一個決策閾值D,將分類結(jié)果組合后與決策閾值D相比較,決定最終分類結(jié)果。本發(fā)明具有較高的分類效率和簡便的參數(shù)調(diào)整方法。
【IPC分類】G06K9-62, G06K9-66
【公開號】CN104573708
【申請?zhí)枴緾N201410802451
【發(fā)明人】閔行, 褚晶輝, 呂衛(wèi)
【申請人】天津大學(xué)
【公開日】2015年4月29日
【申請日】2014年12月19日