亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

可收縮步長(zhǎng)的多類別集成學(xué)習(xí)分類方法

文檔序號(hào):8258883閱讀:254來(lái)源:國(guó)知局
可收縮步長(zhǎng)的多類別集成學(xué)習(xí)分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種可收縮步長(zhǎng)的多類別集成學(xué)習(xí)分類方法。
【背景技術(shù)】
[0002] 集成學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)中的一個(gè)重要研究方向。因?yàn)榧蓪W(xué)習(xí)有一定的理論 基礎(chǔ),并且實(shí)現(xiàn)簡(jiǎn)單,同時(shí)較其他分類方法有更高預(yù)測(cè)準(zhǔn)確度和抵御"過學(xué)習(xí)"的能力,所以 得到廣泛的認(rèn)可和應(yīng)用。隨著技術(shù)的進(jìn)步使得數(shù)據(jù)收集變得越來(lái)越容易,使用集成學(xué)習(xí)去 分類多類別的數(shù)據(jù)也變得越來(lái)越常見。
[0003] 使用集成學(xué)習(xí)分類是使用一系列基分類器進(jìn)行學(xué)習(xí),并使用某種規(guī)則把這些基分 類器的結(jié)果進(jìn)行整合,從而獲得比這些基分類器擁有更好學(xué)習(xí)效果和泛化能力的集成分類 器。當(dāng)類別數(shù)已知,但數(shù)據(jù)集中的數(shù)據(jù)類別未知時(shí),我們常常借助訓(xùn)練數(shù)據(jù)集來(lái)構(gòu)造集成學(xué) 習(xí)模型。
[0004] 在多類別情況下,特別是訓(xùn)練步長(zhǎng)固定時(shí),由于基分類器在每次模型訓(xùn)練時(shí)的"過 學(xué)習(xí)"程度不同等因素的影響,固定的步長(zhǎng)往往不能得到優(yōu)化的分類界面,最終無(wú)法獲得理 想預(yù)測(cè)精度,提供理想的分類預(yù)測(cè)參考。為了解決這個(gè)問題,有學(xué)者把集成學(xué)習(xí)轉(zhuǎn)化成最優(yōu) 化問題,在每次迭代中對(duì)訓(xùn)練步長(zhǎng)做線搜索,即每次迭代計(jì)算并估計(jì)最優(yōu)步長(zhǎng)。但是,即使 是使用線搜索,也只是獲得步長(zhǎng)的估計(jì)最優(yōu)值,而不是精確最優(yōu)值。另外,在每次迭代使用 線搜索計(jì)算而產(chǎn)生的時(shí)間代價(jià)較大。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于解決現(xiàn)有技術(shù)存在的問題,提供一種可收縮步長(zhǎng)的多類別集成 學(xué)習(xí)分類方法。
[0006] 為達(dá)到上述目的,本發(fā)明采用的如下技術(shù)方案: 一種可收縮步長(zhǎng)的多類別集成學(xué)習(xí)分類方法,其特征在于該方法具體步驟如下: A. 將原始數(shù)據(jù)進(jìn)行預(yù)處理,轉(zhuǎn)換成分類方法可以處理的數(shù)據(jù)格式,同時(shí)獲得訓(xùn)練數(shù)據(jù) 集和待分類數(shù)據(jù)集; B. 初始化訓(xùn)練數(shù)據(jù)集樣本權(quán)重; C. 從m=l到M迭代,依據(jù)訓(xùn)練數(shù)據(jù)集樣本權(quán)重以及訓(xùn)練步長(zhǎng),訓(xùn)練M個(gè)基分類器; D. 集成步驟C中的所有基分類器,得到最終判別分類器,對(duì)待分類數(shù)據(jù)集進(jìn)行分類; E. 將分類結(jié)果保存到文件中,提供分類預(yù)測(cè)的參考。
[0007] 上述步驟A的操作步驟如下: A1.訓(xùn)練數(shù)據(jù)集的預(yù)處理:每條數(shù)據(jù)必須有固定的f?個(gè)屬性值,在最后還要添加一個(gè) 類別屬性,表示這條數(shù)據(jù)的類別已知,總共為f+1個(gè)屬性值; A2.待分類數(shù)據(jù)集的預(yù)處理:待分類數(shù)據(jù)集的每條數(shù)據(jù)形式必須與訓(xùn)練數(shù)據(jù)集的前f 個(gè)屬性形式一致,并且無(wú)類別屬性值字段,總共為f個(gè)屬性值。
[0008] 上述步驟B中初始化訓(xùn)練數(shù)據(jù)集樣本權(quán)重的操作步驟是:令每個(gè)樣本的權(quán)重 Ci'=1/n,i=l, 2,3…n,其中n為樣本個(gè)數(shù)。
[0009] 上述步驟C的操作步驟如下: C1.依據(jù)訓(xùn)練數(shù)據(jù)集,以權(quán)重Wjll練得到基分類器(x:); C2).計(jì)算基分類器(Xi )錯(cuò)誤率:
【主權(quán)項(xiàng)】
1. 一種可收縮步長(zhǎng)的多類別集成學(xué)習(xí)分類方法,其特征在于該方法具體步驟如下: A. 將原始數(shù)據(jù)進(jìn)行預(yù)處理,轉(zhuǎn)換成分類方法可以處理的數(shù)據(jù)格式,同時(shí)獲得訓(xùn)練數(shù)據(jù) 集和待分類數(shù)據(jù)集; B. 初始化訓(xùn)練數(shù)據(jù)集樣本權(quán)重; C. 從m=l到M迭代,依據(jù)訓(xùn)練數(shù)據(jù)集樣本權(quán)重以及訓(xùn)練步長(zhǎng),訓(xùn)練M個(gè)基分類器; D. 集成步驟C中的所有基分類器,得到最終判別分類器,對(duì)待分類數(shù)據(jù)集進(jìn)行分類; E. 將分類結(jié)果保存到文件中,提供分類預(yù)測(cè)的參考。
2. 根據(jù)權(quán)利要求1所述的可收縮步長(zhǎng)的多類別集成學(xué)習(xí)分類方法,其特征在于所述步 驟A的操作步驟如下: A1.訓(xùn)練數(shù)據(jù)集的預(yù)處理:每條數(shù)據(jù)必須有固定的f?個(gè)屬性值,在最后還要添加一個(gè) 類別屬性,表示這條數(shù)據(jù)的類別已知,總共為f+1個(gè)屬性值; A2.待分類數(shù)據(jù)集的預(yù)處理:待分類數(shù)據(jù)集的每條數(shù)據(jù)形式必須與訓(xùn)練數(shù)據(jù)集的前f個(gè)屬性形式一致,并且無(wú)類別屬性值字段,總共為f個(gè)屬性值。
3. 根據(jù)權(quán)利要求1所述的可收縮步長(zhǎng)的多類別集成學(xué)習(xí)分類方法,其特征在 于,上述步驟B中初始化訓(xùn)練數(shù)據(jù)集樣本權(quán)重的操作步驟是:令每個(gè)樣本的權(quán)重 1/n,i=l, 2,3…n,其中n為樣本個(gè)數(shù)。
4. 根據(jù)權(quán)利要求1所述的可收縮步長(zhǎng)的多類別集成學(xué)習(xí)分類方法,其特征在于所述步 驟C的操作步驟如下: C-1.依據(jù)訓(xùn)練數(shù)據(jù)集,以權(quán)重訓(xùn)練得到基分類器T(m:f(Xf); C-2.計(jì)算基分類器(& )錯(cuò)誤率:
C-3.計(jì)算基分類器(X,)可信度:
其中變量r為基分類器當(dāng)前訓(xùn)練步長(zhǎng) C-4.從i=l到n,更新訓(xùn)練數(shù)據(jù)集樣本權(quán)重:
C-5.重新規(guī)范化%,使其總和為1 ; C-6.計(jì)算本次迭代后的判別分類器:
C-7.判斷是否需要收縮訓(xùn)練步長(zhǎng),如需,則收縮步長(zhǎng)并重新計(jì)算步驟C3),C4),C5),C6),保存本次迭代后的最終判別分類器£:?〇{〕, C-8若M次迭代結(jié)束,則退出迭代,否則跳轉(zhuǎn)到C1)繼續(xù)迭代。
5. 根據(jù)權(quán)利要求4所述的可收縮步長(zhǎng)的多類別集成學(xué)習(xí)分類方法,其特征在于所述步 驟C7中判斷是否需要收縮訓(xùn)練步長(zhǎng)的依據(jù)是:如果Margin(C+m-Hx〕)>Margin(rn(x〕) 并且Accuracy(COT_1(s) )〈Accuracy(CTO(x〕),則收縮步長(zhǎng)使得r=Pr(0<jSS])并重 新計(jì)算步驟C3),C4),C5),C6);否則,不做更改,最后,保存本次迭代后的最終判別分類器 Cra(x),其中Margin計(jì)算訓(xùn)練模型的空白邊界,Accuracy計(jì)算訓(xùn)練模型的訓(xùn)練準(zhǔn)確率,迭代 次數(shù)m 算法趨于收斂。
6. 根據(jù)權(quán)利要求1所述的可收縮步長(zhǎng)的多類別集成學(xué)習(xí)分類方法,其特征在于所述步 驟D的操作步驟如下: D1.集成并計(jì)算判別分類器,輸出M個(gè)基分類器集成后的判別分類器,采用的計(jì)算公 式為:
其中即為集成學(xué)習(xí)所輸出的判別分類器, 累加所有基分類器的判別概率,取K類中最大的即為判別結(jié)果, 其中包含的權(quán)重含有基分類器權(quán)重是經(jīng)過步長(zhǎng)調(diào)整后的權(quán)重; D2.使用步驟D1中計(jì)算的判別分類器,為待分類數(shù)據(jù)集中的所有樣本進(jìn)行分類。
【專利摘要】本發(fā)明涉及可收縮步長(zhǎng)的多類別集成學(xué)習(xí)分類方法,該方法首先將原始數(shù)據(jù)進(jìn)行預(yù)處理,轉(zhuǎn)換成分類方法可以處理的數(shù)據(jù)格式,獲得訓(xùn)練數(shù)據(jù)集和待分類數(shù)據(jù)集;然后初始化訓(xùn)練數(shù)據(jù)集樣本權(quán)重;然后依據(jù)訓(xùn)練數(shù)據(jù)集樣本權(quán)重以及訓(xùn)練步長(zhǎng),訓(xùn)練M個(gè)基分類器,其中根據(jù)需要收縮步長(zhǎng);然后集成所有基分類器,得到最終判別分類器,對(duì)待分類數(shù)據(jù)集進(jìn)行分類;最后將分類結(jié)果保存到文件中,提供分類預(yù)測(cè)的參考。本發(fā)明解決了因使用固定步長(zhǎng)導(dǎo)致的最終分類界面沒有最優(yōu)化,分類預(yù)測(cè)精度欠佳的問題,同時(shí)省去了使用線搜索估計(jì)帶來(lái)的時(shí)間開銷。
【IPC分類】G06K9-62, G06K9-66, G06F17-30
【公開號(hào)】CN104573012
【申請(qǐng)?zhí)枴緾N201510010781
【發(fā)明人】吳悅, 嚴(yán)超
【申請(qǐng)人】上海大學(xué)
【公開日】2015年4月29日
【申請(qǐng)日】2015年1月9日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1