亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于奇異值選擇的集成學(xué)習(xí)器的制作方法

文檔序號(hào):12272337閱讀:458來源:國知局

本發(fā)明涉及機(jī)器學(xué)習(xí)和圖像處理技術(shù)領(lǐng)域,特別涉及以二維及以上的張量數(shù)據(jù)為輸入樣本的分類方法,可用于目標(biāo)檢測、模式識(shí)別、行為識(shí)別。



背景技術(shù):

隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)迅猛發(fā)展,人類在短短幾十年內(nèi)面臨的信息量堪比人類以往所有時(shí)代信息量的總和。數(shù)據(jù)的不斷發(fā)展給人類的工作、生活和思維帶來了重大變革,數(shù)據(jù)的發(fā)展主要體現(xiàn)在兩個(gè)方面:一是數(shù)據(jù)的規(guī)模越來越大;二是數(shù)據(jù)的結(jié)構(gòu)越來越復(fù)雜,相比于傳統(tǒng)的紙張文字信息,網(wǎng)頁、黑白圖像、彩色圖像、醫(yī)學(xué)圖像、衛(wèi)星遙感圖像、視頻等各種各樣的信息格式不能用簡單的向量等結(jié)構(gòu)表示,需要更多的維度去表示數(shù)據(jù)對(duì)象的特征,因而導(dǎo)致了數(shù)據(jù)維數(shù)等信息量的增加。因此,可以說,“大數(shù)據(jù)”是信息時(shí)代的主題詞。

不同的分類算法可能得到不同的分類性能,但沒有一種分類算法能對(duì)所有的應(yīng)用都取得很好的結(jié)果。關(guān)于分類器的設(shè)計(jì),到目前為止,各種各樣的分類方法已被數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、模式識(shí)別和神經(jīng)生物學(xué)方面的研究者提出,如專家系統(tǒng)、關(guān)聯(lián)規(guī)則、決策樹、貝葉斯分類器、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、遺傳算法等,這些方法已經(jīng)被運(yùn)用到了不同領(lǐng)域,為科研事業(yè)的發(fā)展做出了貢獻(xiàn)。

雖然已經(jīng)提出的分類方法在某些領(lǐng)域獲得了一定的成功,然而在提到的大多數(shù)學(xué)習(xí)方法中,數(shù)據(jù)一般采用向量模式表示,為了使得基于向量模式下的學(xué)習(xí)算法能夠?qū)ΧS及以上的張量數(shù)據(jù)進(jìn)行學(xué)習(xí),通常需要先將張量模式的數(shù)據(jù)進(jìn)行向量化展開,然后再用傳統(tǒng)的學(xué)習(xí)算法進(jìn)行學(xué)習(xí)。以黑白圖像為例,簡單通過對(duì)圖像進(jìn)行拉伸,轉(zhuǎn)化為向量模式進(jìn)行處理,忽略原始圖像中像素之間的相對(duì)位置等數(shù)據(jù)固有的結(jié)構(gòu)信息,會(huì)破壞原始數(shù)據(jù)的時(shí)空結(jié)構(gòu),丟失數(shù)據(jù)結(jié)構(gòu)之間的相關(guān)信息。如果原始數(shù)據(jù)的規(guī)模較大,處理為向量模式會(huì)導(dǎo)致維數(shù)增多,有可能會(huì)導(dǎo)致“維數(shù)災(zāi)難”或“小樣本高維數(shù)”問題,從而使得到的分類器效果不佳。

因此,針對(duì)以上問題,有必要提供一種2D SVM集成學(xué)習(xí),既能不打破原有數(shù)據(jù)的時(shí)空結(jié)構(gòu),又能利用集成學(xué)習(xí)的優(yōu)點(diǎn),提升分類器的精度。



技術(shù)實(shí)現(xiàn)要素:

為了克服現(xiàn)有技術(shù)的上述缺點(diǎn),本發(fā)明提供了一種基于奇異值選擇的集成學(xué)習(xí)器,通過對(duì)樣本的部分奇異值進(jìn)行隨機(jī)選取,從而提高了各基分類器間的多樣性,獲得了泛化能力強(qiáng)的集成效果。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種基于奇異值選擇的集成學(xué)習(xí)器,包括如下步驟:

步驟一、對(duì)訓(xùn)練樣本集進(jìn)行歸一化預(yù)處理;

步驟二、從歸一化預(yù)處理后的訓(xùn)練樣本集中采用Bootstrap隨機(jī)抽樣方法有放回地抽樣,產(chǎn)生M個(gè)新的樣本集;

步驟三、對(duì)M個(gè)新的樣本集中的每個(gè)樣本進(jìn)行部分SVD分解,得到每個(gè)樣本相應(yīng)的奇異值和左右奇異向量;

步驟四、每次隨機(jī)抽取k個(gè)奇異值及其相應(yīng)的左右奇異向量,生成2D SVM基學(xué)習(xí)器,分別對(duì)M個(gè)新的樣本集進(jìn)行訓(xùn)練,得到M個(gè)2D SVM基分類器;

步驟五、根據(jù)相對(duì)多數(shù)投票準(zhǔn)則合并基分類器得到集成學(xué)習(xí)器,用得到的集成學(xué)習(xí)器對(duì)待分類樣本進(jìn)行分類識(shí)別。

與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果是:

(1)本發(fā)明解決了現(xiàn)有的分類器對(duì)矩陣對(duì)象(如圖像,EEG等)數(shù)據(jù)拉伸為高維向量帶來的運(yùn)算量龐大和維災(zāi)難以及數(shù)據(jù)的結(jié)構(gòu)信息丟失和內(nèi)在相關(guān)性破壞等問題。

(2)本發(fā)明通過樣本的部分奇異值分解,在得到的奇異值和奇異向量中隨機(jī)選取一定數(shù)量的奇異值和奇異向量,在某種程度上對(duì)樣本進(jìn)行了壓縮降噪。

(3)本發(fā)明通過奇異值選擇構(gòu)造了多樣性較大的基分類器,從而產(chǎn)生了泛化能力強(qiáng)的集成。

附圖說明

本發(fā)明將通過例子并參照附圖的方式說明,其中:

圖1為本發(fā)明的流程示意圖。

具體實(shí)施方式

一種基于奇異值選擇的集成學(xué)習(xí)器,如圖1所示,包括以下步驟:

步驟一、對(duì)訓(xùn)練樣本集進(jìn)行歸一化預(yù)處理得到

對(duì)訓(xùn)練樣本集進(jìn)行歸一化預(yù)處理的方法采用0-1標(biāo)準(zhǔn)化,是對(duì)原始樣本數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間,轉(zhuǎn)換函數(shù)如下:

其中,Xi,Xi'∈Rp×q是第i個(gè)樣本,yi∈Y,Y={C1,C2,…,CN}是樣本Xi,Xi'對(duì)應(yīng)的類標(biāo)簽,可以看出樣本Xi,Xi'是以二維矩陣的形式表示的;max(Xi)表示取訓(xùn)練樣本Xi中元素的最大值,min(Xi)表示取訓(xùn)練樣本Xi中元素的最小值,repmat{min(Xi)}∈Rp×q表示樣本最小值矩陣,矩陣中的元素都為min(Xi);最后用所有預(yù)處理后的訓(xùn)練樣本Xi'及其標(biāo)簽yi構(gòu)成預(yù)處理后的訓(xùn)練樣本集

步驟二、從歸一化后的訓(xùn)練樣本集中采用Bootstrap隨機(jī)抽樣方法有放回地抽樣,最終產(chǎn)生M個(gè)新的樣本集

對(duì)訓(xùn)練樣本集進(jìn)行有放回地均勻隨機(jī)抽樣,得到和原樣本集同樣大小的新樣本集。由于是有放回地均勻抽樣,所以樣本一次沒有被選中的概率可以表示為,當(dāng)n→∞時(shí),p≈0.368,因此,每個(gè)基學(xué)習(xí)器只使用了初始訓(xùn)練集中約63.2%的樣本,可以利用剩下約36.8%的樣本作驗(yàn)證集來對(duì)學(xué)習(xí)器的泛化性能進(jìn)行“包外估計(jì)”(OOB),這已經(jīng)被經(jīng)過證明是無偏估計(jì)的,所以在集成學(xué)習(xí)算法中不需要再進(jìn)行交叉驗(yàn)證或者單獨(dú)的測試集來獲取測試集誤差的無偏估計(jì)。

步驟三、對(duì)樣本集中的每個(gè)樣本進(jìn)行部分SVD分解,得到每個(gè)樣本相應(yīng)的奇異值和左右奇異向量:

(1)先對(duì)樣本Xi進(jìn)行SVD全分解,分解形式為:Xi=UΣVT,其中Xi∈Rp×q是一個(gè)二維的矩陣,U∈Rp×p是Xi的左奇異向量組成的矩陣,Σ∈Rp×q是Xi的奇異值組成的對(duì)角矩陣,VT∈Rq×q是Xi的右奇異向量組成的矩陣;

(2)大多數(shù)情況下,矩陣較大的部分奇異值就可以很好的表示矩陣的基本信息,用前r大的奇異值(即前r個(gè)較大的奇異值)來近似描述樣本Xi,這樣就對(duì)矩陣進(jìn)行了某種程度上的信息壓縮,部分奇異值分解形式如下:

其中σip,μip,vip為Xi的第p個(gè)奇異值及其對(duì)應(yīng)的左右奇異向量。

步驟四、每次隨機(jī)抽取k個(gè)奇異值及其相應(yīng)的左右奇異向量,生成2D SVM基學(xué)習(xí)器:

4.1對(duì)于二分類問題

給定一個(gè)訓(xùn)練數(shù)據(jù)集其中Xi∈Rp×q是第i個(gè)輸入樣本,yi∈{-1,1}是樣本Xi對(duì)應(yīng)的類標(biāo)簽,可以看出輸入樣本Xi是以矩陣的形式表示的。

4.1.1 2D SVM支持向量機(jī)定義如下:

s.t.yi(<W,Xi>+b)≥1-ξi,i=1,…,n (4)

ξi≥0,i=1,…,n (5)

其中,W為法矩陣決定了分類超平面的方向,b為位移項(xiàng)。

4.1.2通過拉格朗日乘子法可得到式(3)-(5)的拉格朗日函數(shù)如下:

其中αi≥0,βi≥0是拉格朗日乘子。

令L(W,b,α,β,ξ)對(duì)W,b,ξi的偏導(dǎo)數(shù)為零可得:

C=αii,i=1,…,n (9)

將式(7)-(9)代入式(4)即可得到式(3)-(5)的對(duì)偶問題如下:

0≤αi≤C,i=1,…,n (12)

其中,<Xi,Xj>是Xi與Xj的內(nèi)積。

4.1.3當(dāng)輸入樣本Xi是向量的形式時(shí),則優(yōu)化模型(3)-(5)退化為標(biāo)準(zhǔn)的支持向量機(jī)。如果我們采用輸入樣本的原始形式來計(jì)算<Xi,Xj>,則(3)-(5)的最優(yōu)解和線性支持向量機(jī)的解一樣。由于“維度災(zāi)難”和小樣本問題,支持向量機(jī)不能有效的處理矩陣樣本問題,則優(yōu)化模型(3)-(5)也會(huì)遇到同樣的問題。確切的說,優(yōu)化模型(3)-(5)的對(duì)偶形式僅依賴于樣本數(shù)據(jù)之間的內(nèi)積,而(10)中的<Xi,Xj>內(nèi)積運(yùn)算沒有很好的利用樣本數(shù)據(jù)的結(jié)構(gòu)信息。

考慮到矩陣的SVD分解能夠更好地體現(xiàn)矩陣數(shù)據(jù)的結(jié)構(gòu)信息和內(nèi)在相關(guān)性,利用矩陣的SVD分解來代替原始矩陣輸入,從而改進(jìn)矩陣內(nèi)積的計(jì)算.這樣做的好處是:一方面可以提高學(xué)習(xí)機(jī)的識(shí)別能力;另一方面可以加快學(xué)習(xí)機(jī)的學(xué)習(xí)速度。

4.1.4根據(jù)步驟三中對(duì)樣本進(jìn)行部分SVD分解得到每個(gè)樣本的r個(gè)奇異值和相應(yīng)的左右奇異向量,從中隨機(jī)選取k個(gè)奇異值及其相應(yīng)的左右奇異向量,分別為和則矩陣Xi和Xj的內(nèi)積計(jì)算如下:

把(13)代入(10)中,得:

0≤αi≤C,i=1,…,n (16)

由(7)可以看出,分類超平面的權(quán)重矩陣W可以表示為訓(xùn)練樣本在二維空間上線性組合,優(yōu)化模型(14)-(16)為2D-SVM,2D-SVM可以看出是線性支持向量機(jī)在二維矩陣上的擴(kuò)展,因此可以用SMO算法對(duì)優(yōu)化模型(14)-(16)進(jìn)行求解。

基學(xué)習(xí)器2D SVM分類器f(X)分類決策函數(shù)為:

其中σip、σq、uip、uq、vip和vq分別為Xi和X的奇異值以及對(duì)應(yīng)的左奇異向量和右奇異向量。

4.2對(duì)于2D SVM多分類問題

采用“一對(duì)一”(OvO)的策略,具體如下:

給定數(shù)據(jù)集yi∈{C1,C2,…,CN},OvO將這N個(gè)類別兩兩配對(duì),從而產(chǎn)生N(N-1)/2個(gè)二分類任務(wù),例如OvO將為區(qū)分類別Ci和Cj訓(xùn)練一個(gè)分類器,該分類器把Dt中的Ci類樣例作為正例,Cj類樣例作為反例。在測試階段,新樣本將同時(shí)提交給所有分類器,于是將得到N(N-1)/2個(gè)分類結(jié)果,最終結(jié)果可通過投票產(chǎn)生:即把被預(yù)測的最多的類別作為最終分類結(jié)果。

以上是對(duì)2D SVM的說明,類似支持向量機(jī)(SVM)的定義和推導(dǎo)說明。

<Xi,Xj>這里處理數(shù)據(jù)維度不同,SVM處理的是向量樣本的內(nèi)積,而本發(fā)明提出的2D SVM可以處理矩陣(如圖片像素組成的矩陣)樣本的內(nèi)積。

但是不能直接對(duì)兩個(gè)矩陣進(jìn)行內(nèi)積,所以進(jìn)行內(nèi)積之前,先對(duì)矩陣進(jìn)行SVD分解(對(duì)前R大的一部分奇異值進(jìn)行隨機(jī)選擇,類似隨機(jī)森林是為了得到多樣性好的基分類器),然后用所選的奇異值和奇異向量來代替原矩陣進(jìn)行內(nèi)積,這樣,1.可以避免矩陣?yán)上蛄吭斐傻慕Y(jié)構(gòu)破壞(如:圖片中兩像素原來是上下關(guān)系,拉成向量后位置關(guān)系破壞了)2.可以加快內(nèi)積的運(yùn)算速度。

最后,基于步驟二中的Bootstrap隨機(jī)抽樣方法得到M個(gè)新的樣本集對(duì)每個(gè)樣本集采用以上的訓(xùn)練方法,最終得到M個(gè)2D SVM基分類器{h1,h2,…,hM}。

步驟五、根據(jù)相對(duì)多數(shù)投票準(zhǔn)則合并基分類器得到集成學(xué)習(xí)器:

該步驟中,合并基分類器得到一個(gè)更強(qiáng)的分類器--集成學(xué)習(xí)器:

采用相對(duì)多數(shù)投票準(zhǔn)則合并基分類器,組合方式的數(shù)學(xué)表達(dá)如下:

最后,用得到的集成學(xué)習(xí)器對(duì)待分類樣本進(jìn)行分類識(shí)別。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1