專利名稱:一種基于隨機蕨的自舉弱學(xué)習(xí)方法及其分類器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機圖形圖像模式識別技術(shù)領(lǐng)域,特別涉及機器學(xué)習(xí),計算機視覺技術(shù)。
背景技術(shù):
隨著計算機技術(shù)的發(fā)展,研究復(fù)雜的信息處理過程成為可能。信息處理過程的一個重要形式就是模式識別,即主體對環(huán)境及客體的識別,而分類過程則是模式識別的基本任務(wù)。目前,Boosting自舉分類方法(這里主要指AdaBoost自適應(yīng)自舉方法)因其在檢測和識別中的實際應(yīng)用能力,在模式識別和機器學(xué)習(xí)任務(wù)中得到越來越廣泛的應(yīng)用,如醫(yī)學(xué)圖像分析,光學(xué)文字識別,語音識別,手寫識別,人臉識別,指紋識別,虹膜識別,文件分類,攝影測量與遙感,互聯(lián)網(wǎng)搜索引擎,信用評分等。在Boosting自舉分類器的訓(xùn)練過程中,不同的弱學(xué)習(xí)方法將決定Boosting自舉分類器的訓(xùn)練速度,收斂性和準(zhǔn)確率。弱學(xué)習(xí)方法主 要基于特征的選擇和閾值的確定。Leshem將AdaBoost算法應(yīng)用到交通管理信息系統(tǒng)中,利用弱學(xué)習(xí)器來訓(xùn)練道路交通數(shù)據(jù),并且預(yù)測道路交通流量情況,取得良好的效果。Lin將RealAdaBoost算法應(yīng)用到基于內(nèi)容的圖像檢索系統(tǒng)中,通過對圖像的類別短語進(jìn)行訓(xùn)練,達(dá)到降低噪聲的效果,實驗表明比KNN(K_nearest Neighbor)分類算法準(zhǔn)確性有所提高。Dai等人將AdaBoost算法應(yīng)用到區(qū)域圖像檢索中,通過使用AdaBoost弱分類器對特征反復(fù)訓(xùn)練,得到具有較小錯分率的強分類器,從而返回更加精確的查詢結(jié)果。為了解決不同的特征融合分類問題,Yin等人提出了一種改進(jìn)的boosting算法,使用一個弱分類器僅對某一個特征集進(jìn)行訓(xùn)練,最終根據(jù)權(quán)重將這些弱分類器組合成一個強分類器,該方法在手寫數(shù)字識別中取得了較好的效果。Viola等人提出了的樣本權(quán)重更新方法,被正確分類樣本權(quán)重減小,而錯誤分類樣本權(quán)重不變。AdaBoost在學(xué)習(xí)訓(xùn)練的過程中要解決的是每一輪樣本訓(xùn)練集的樣本分布問題,其中正負(fù)樣本的權(quán)重更新及錯分率的處理至關(guān)重要。對樣本進(jìn)行兩類劃分,以便保證弱分類器分得的樣本準(zhǔn)確率大于隨機猜測的準(zhǔn)確率。李闖等人提出了針對目標(biāo)檢測問題的改進(jìn)AdaBoost算法,采用了新的參數(shù)求解方法,弱分類器的加權(quán)參數(shù)不但與錯分率有關(guān),還與其對正樣本的識別能力有關(guān)。Kim等人提出了特征值是基于高斯概率分布的AdaBoost算法,通過特征值的分布與高斯概率分布的均值距離來判別正負(fù)樣本。謝紅躍等人提出一種AdaBoost樣本閾值和偏置計算方法,該方法依據(jù)樣本權(quán)重的大小計算出對應(yīng)的樣本閾值,并用來區(qū)分正確分類和錯誤分類的樣本,從而使得弱分類器劃分準(zhǔn)確性大于50%。鐘向陽等人提出基于多閾值弱學(xué)習(xí)的Adaboost檢測器,該方法采用分類樹作為弱學(xué)習(xí)器,以貪婪的方法用誤差測度減少最大化的劃分準(zhǔn)則劃分節(jié)點,并由此生成弱分類器,然后采用RAB或GAB方法在給定數(shù)據(jù)和標(biāo)簽的訓(xùn)練集上將這些弱分類器提升為強分類器。但是,這些弱學(xué)習(xí)方法要么收斂速度慢,要么準(zhǔn)確率不夠高,要么計算效率低。鑒于以上方法的不足,本發(fā)明提出基于隨機蕨的自舉弱學(xué)習(xí)方法,該方法收斂速度快,計算效率高,且最終得到的自舉分類器準(zhǔn)確率高。本發(fā)明方法采用的圖像特征融合局部二元模式特征(LBP)和類哈爾特征(haar-like),對對象局部區(qū)域進(jìn)行測量并編碼;然后,將樣例對應(yīng)的特征值作為隨機蕨的樣本輸入,隨機蕨對所有編碼進(jìn)行計數(shù);接著,根據(jù)隨機蕨記錄的樣本分布,選擇最好的編碼作為該特征對應(yīng)的判別特征值(閾值);最后,將得到的基于這種特征值編碼的隨機蕨弱分類器作為預(yù)測函數(shù)加入到自舉算法框架中,其余處理過程與自適應(yīng)自舉算法一致,最終得到一個強分類器。因此,本發(fā)明方法可以很好地解決成像環(huán)境復(fù)雜且對運算量要求嚴(yán)格的圖像模式識別問題。此外,本發(fā)明方法同時適合于離線和在線自舉分類器訓(xùn)練。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于隨機蕨的自舉弱學(xué)習(xí)方法及其分類器,它能實現(xiàn)快速收斂和高效的自舉弱學(xué)習(xí)方法,得到實時處理且準(zhǔn)確率高的分類器。
本發(fā)明實現(xiàn)是發(fā)明目的所采用的技術(shù)方案是一種基于隨機蕨的自舉弱學(xué)習(xí)方法及其分類器,所述方法包括如下內(nèi)容(I)選擇圖像特征和構(gòu)造隨機蕨采用的圖像特征融合局部二元模式特征(LBP)和類哈爾特征(haar-like),這些特征對圖像區(qū)域的梯度方向進(jìn)行測量,并量化輸出8種可能的編碼,如圖I、圖2和圖3所示,它們均為矩形特征。具體來說,先分別按照水平方向,垂直方向和對角方向?qū)⒕匦螀^(qū)域平分為兩部分,分別標(biāo)記為白色和黑色,然后,計算白色矩形像素值的和減去黑色矩形像素值的和,該值如果大于0,則編碼為1,否則為O。因此,對于一個特征,3個方向得到3位的二進(jìn)制編碼,即23 = 8種可能的值。如圖4所示,不同于一般隨機蕨的構(gòu)成,這里,隨機蕨簡化為僅包含一個特征,即蕨的值等于所包含的這個特征的值,而蕨中每個編碼的概率分布將由后續(xù)該編碼所接收到的樣例的個數(shù)及其標(biāo)記決定。(2)基于隨機蕨的弱學(xué)習(xí)方法對于自舉分類方法來說,其本質(zhì)為二元分類,因此,樣本集合由正樣例和負(fù)樣例兩類樣本組成。按照(I)的方法,在不同的位置,以不同的大小和寬高比,并根據(jù)自舉方法所需的迭代次數(shù),隨機生成對應(yīng)數(shù)量的特征及其對應(yīng)的蕨。基于隨機蕨的弱學(xué)習(xí)方法分為以下兩個方面⑴隨機蕨訓(xùn)練對隨機蕨的訓(xùn)練過程也是選擇判別特征值的過程。輸入樣本集合,對每一個蕨計算所有樣例對應(yīng)的特征值,該蕨記錄每個特征值編碼對應(yīng)的正樣例和負(fù)樣例的個數(shù)。K'為編碼j接收到的正樣例的個數(shù),為編碼j接收到的負(fù)樣例的個數(shù),Pj為編碼j對應(yīng)正樣例的概率,則蕨中每個編碼的概率計算為P1=N3pI ( N1p +N3k ),其中j = 0,1,. . .,M-1,這里M = 8。該蕨的判別特征值J為使P」最大的j值,即argmax(P;),
J這里J即為該隨機蕨的閾值。
(ii)隨機蕨評價根據(jù)隨機蕨訓(xùn)練所確定的閾值,隨機蕨對樣例的評價方法為如果樣例的特征值等于該隨機蕨的閾值,那么預(yù)測該樣例為正 樣例,輸出+1,否則預(yù)測為負(fù)樣例,輸出-I。該方法的技術(shù)流程圖如圖5所示。由于采用這樣的特征值編碼概率分布作為評價模型,因此這種隨機蕨結(jié)構(gòu)能夠始終保持較高的辨別能力。如果在以上的學(xué)習(xí)框架中加入更多的矩形特征類型,即增加相應(yīng)的隨機蕨編碼位數(shù),其分辨能力會得到進(jìn)一步的增強。同時,結(jié)合圖像積分圖的計算方法,可以快速地計算樣例的特征值,從而實現(xiàn)快速的分類器訓(xùn)練和識別過程。(3)構(gòu)建弱分類器對于離線自舉方法,其弱分類器的構(gòu)建過程如下。對每一次迭代進(jìn)行如下的步驟①按照(I)的方法構(gòu)造一個由隨機蕨組成的集合;②輸入樣本集合,按照(2)的方法對每一個隨機蕨計算所有的編碼概率并確定其閾值;③每個隨機蕨根據(jù)其閾值分別對樣本集合進(jìn)行評價分類;④選擇其中分類錯誤率最小的隨機蕨作為本次迭代產(chǎn)生并獲得的弱分類器,即作為自舉方法的預(yù)測函數(shù)輸入;⑤其余處理過程與自適應(yīng)自舉方法相同。對于在線自舉方法,樣本集合每次只包含一個樣例,因此其弱分類器的構(gòu)建過程如下。對每一次迭代進(jìn)行如下的步驟①根據(jù)特征選擇的方法,對每次迭代,即對每個特征選擇器,按照(I)的方法為其生成一個特征池(包含多個隨機特征)以及對應(yīng)的隨機蕨集合;②對每次樣本輸入,按照(2)的方法,對每一個隨機蕨重新計算所有的編碼概率并更新其閾值,即更新了對應(yīng)的弱分類器;③每個隨機蕨對該樣本進(jìn)行評價分類;④在隨機蕨集合中選擇分類錯誤率最小的隨機蕨作為本次選擇器的弱分類器并保存;⑤將分類錯誤率最大的隨機蕨從隨機蕨集合中刪除,同時隨機生成并加入一個新的蕨;⑥其余處理過程與在線自舉方法相同。以上特征池的操作與隨機蕨集合的操作須對應(yīng)進(jìn)行。需要說明的是,在線自舉方法中所包含的這些弱分類器在每次迭代之后可能相同也可能不同,只有在輸入的在線訓(xùn)練樣例足夠多之后,這些弱分器將逐步穩(wěn)定下來,也就是說,每個選擇器將逐步選擇得到分類準(zhǔn)確的隨機蕨特征。(4)結(jié)果分類器有了(3)中構(gòu)建得到的弱分類器,則可以生成最終的結(jié)果分類器,而該結(jié)果分類器即為所需的強分類器。對于離線自舉方法,設(shè)ht(x)為第t輪學(xué)習(xí)得到的弱分類器,CitS該弱分類器的權(quán)重。因此,經(jīng)過T輪訓(xùn)練得到T個最優(yōu)的弱分類器,最后組成一個強分類器Hstnmg(X)
權(quán)利要求
1.一種基于隨機蕨的自舉弱學(xué)習(xí)方法及其分類器,所述方法包括如下內(nèi)容 (1)選擇圖像特征和構(gòu)造隨機蕨 采用的圖像特征融合局部二元模式特征和類哈爾特征,這些特征對圖像區(qū)域的梯度方向進(jìn)行測量,并量化輸出8種可能的編碼,它們均為矩形特征。具體來說,先分別按照水平方向,垂直方向和對角方向?qū)⒕匦螀^(qū)域平分為兩部分,分別標(biāo)記為白色和黑色,然后,計算白色矩形像素值的和減去黑色矩形像素值的和,該值如果大于O,則編碼為1,否則為O ; 隨機蕨簡化為僅包含一個特征,即蕨的值等于所包含的這個特征的值,而蕨中每個編碼的概率分布將由后續(xù)該編碼所接收到的樣例的個數(shù)及其標(biāo)記決定; (2)基于隨機蕨的弱學(xué)習(xí)方法 基于隨機蕨的弱學(xué)習(xí)方法分為以下兩個方面 (i)隨機蕨訓(xùn)練 對隨機蕨的訓(xùn)練過程也是選擇判別特征值的過程。輸入樣本集合,對每一個蕨計算所有樣例對應(yīng)的特征值,該蕨記錄每個特征值編碼對應(yīng)的正樣例和負(fù)樣例的個數(shù),設(shè)^為編碼j接收到的正樣例的個數(shù),^為編碼j接收到的負(fù)樣例的個數(shù),Pj為編碼j對應(yīng)正樣例的概率,則蕨中每個編碼的概率計算為 Pj=Njp/ (N}p + Np, 其中j = O,1,. . .,M-1,這里M = 8。該蕨的判別特征值J為使P」最大的j值,即 J= argmax (P1), 這里J即為該隨機蕨的閾值; ( )隨機蕨評價 根據(jù)隨機蕨訓(xùn)練所確定的閾值,隨機蕨對樣例的評價方法為如果樣例的特征值等于該隨機蕨的閾值,那么預(yù)測該樣例為正樣例,輸出+1,否則預(yù)測為負(fù)樣例,輸出-I ; (3)構(gòu)建弱分類器 對于離線自舉方法,其弱分類器的構(gòu)建過程,對每一次迭代進(jìn)行如下的步驟 ①按照(I)的方法構(gòu)造一個由隨機蕨組成的集合; ②輸入樣本集合,按照(2)的方法對每一個隨機蕨計算所有的編碼概率并確定其閾值; ③每個隨機蕨根據(jù)其閾值分別對樣本集合進(jìn)行評價分類; ④選擇其中分類錯誤率最小的隨機蕨作為本次迭代產(chǎn)生并獲得的弱分類器,即作為自舉方法的預(yù)測函數(shù)輸入; ⑤其余處理過程與自適應(yīng)自舉方法相同; 對于在線自舉方法,樣本集合每次只包含一個樣例,因此其弱分類器的構(gòu)建過程,對每一次迭代進(jìn)行如下的步驟 ①根據(jù)特征選擇的方法,對每次迭代,即對每個特征選擇器,按照(I)的方法為其生成一個特征池(包含多個隨機特征)以及對應(yīng)的隨機蕨集合; ②對每次樣本輸入,按照(2)的方法,對每一個隨機蕨重新計算所有的編碼概率并更新其閾值,即更新了對應(yīng)的弱分類器; ③每個隨機蕨對該樣本進(jìn)行評價分類;④在隨機蕨集合中選擇分類錯誤率最小的隨機蕨作為本次選擇器的弱分類器并保存; ⑤將分類錯誤率最大的隨機蕨從隨機蕨集合中刪除,同時隨機生成并加入一個新的蕨; ⑥其余處理過程與在線自舉方法相同; (4)結(jié)果分類器 對于離線自舉方法,設(shè)ht(x)為第t輪學(xué)習(xí)得到的弱分類器,α,為該弱分類器的權(quán)重。因此,經(jīng)過T輪訓(xùn)練得到T個最優(yōu)的弱分類器,最后組成一個強分類器Hstnmg(X)
全文摘要
本發(fā)明提供了一種基于隨機蕨的自舉弱學(xué)習(xí)方法及其分類器,本發(fā)明屬于計算機圖形識別技術(shù)領(lǐng)域。圖形識別通常采用弱分類器的加權(quán)、高斯概率分布的均值距離來判別正負(fù)樣本?;虿捎梅诸悩渥鳛槿鯇W(xué)習(xí)器,用誤差測度減少最大化的劃分準(zhǔn)則劃分節(jié)點,然后將這些弱分類器提升為強分類器。但是,這些弱學(xué)習(xí)方法要么收斂速度慢,要么準(zhǔn)確率不夠高,要么計算效率低。本發(fā)明選擇圖像特征和構(gòu)造隨機蕨、基于隨機蕨的弱學(xué)習(xí)方法、基于隨機蕨的弱學(xué)習(xí)方法、構(gòu)建弱分類器、結(jié)果分類器等步驟可以很好地解決成像環(huán)境復(fù)雜且對運算量要求嚴(yán)格的圖像模式識別,實現(xiàn)快速收斂和高效的自舉弱學(xué)習(xí)方法,得到實時處理且準(zhǔn)確率高的分類器。主要用于各種模式識別場合。
文檔編號G06K9/62GK102708384SQ20121018006
公開日2012年10月3日 申請日期2012年6月4日 優(yōu)先權(quán)日2012年6月4日
發(fā)明者余南陽, 劉彬, 權(quán)偉, 陳錦雄 申請人:西南交通大學(xué)