專利名稱:基于主成分分析方法確定超平面的任務(wù)分解方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種智能信息處理技術(shù)領(lǐng)域的任務(wù)分解方法,具體是一種基于主成分分析方法確定超平面的任務(wù)分解方法。
背景技術(shù):
最小最大模塊化分類器(簡稱M3分類器)是一種新型的模式分類器。最小最大模塊化分類器按照訓(xùn)練集劃分將K類問題分解成多個(gè)二類問題,每個(gè)二類問題由一個(gè)基分類器進(jìn)行訓(xùn)練。各個(gè)基分類器的分類結(jié)果通過MIN單元和MAX單元組合成最終的分類結(jié)果,其中的基分類器可以是某種簡單的判別器,k-NN分類器、SVM或多層神經(jīng)網(wǎng)絡(luò)等。最小最大模塊化分類器在模式分類上具有分類精度高、訓(xùn)練速度快和大規(guī)模并行性的特點(diǎn),已經(jīng)被成功地應(yīng)用于解決文本分類、工業(yè)故障檢測、腦信號分類、詞性標(biāo)注等問題。
在傳統(tǒng)的最小最大模塊化分類器任務(wù)分解過程中,對于訓(xùn)練集的劃分是隨機(jī)進(jìn)行的。這種隨機(jī)的訓(xùn)練集劃分方法,不能保證不同的訓(xùn)練集劃分對最終組合分類器具有穩(wěn)定的、良好的分類精度。然而,對于彈性的分類來說,常常涉及到多種不同規(guī)模的任務(wù)分解需求,這就提出了基于訓(xùn)練集劃分的有效的任務(wù)分解問題。因此,是否能夠找到一種有效的任務(wù)分解方法,對于最小最大模塊化分類器是一件非常重要的任務(wù)。
經(jīng)對現(xiàn)有技術(shù)的文獻(xiàn)檢索,至今尚未發(fā)現(xiàn)與本發(fā)明主題相同或者類似的文獻(xiàn)報(bào)道。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有技術(shù)中存在的不足,提出一種基于主成分分析方法確定超平面的任務(wù)分解方法,使其用于最小最大模塊化分類器的任務(wù)分解,以實(shí)現(xiàn)保證彈性任務(wù)分解情形下的組合分類精度的目的。
本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的,本發(fā)明利用一組平行的超平面對各個(gè)單類訓(xùn)練集作分割,使用主成分分析方法中的散度矩陣的特征向量作為劃分的一組超平面的法向量,在訓(xùn)練集的超平面劃分中,采用訓(xùn)練樣本數(shù)量的加權(quán)排序?qū)崿F(xiàn)樣本的順序抽取,繼而將分割的訓(xùn)練子集按照最小最大模塊化分類器的要求實(shí)現(xiàn)指定的任務(wù)分解。具體描述為兩個(gè)步驟如下第一個(gè)步驟,所述的超平面法向量,其確定方法如下(1)計(jì)算所有樣本的均值m=Σk=1nxk]]>(2)計(jì)算該訓(xùn)練集所有輸入樣本的散度矩陣S=Σk=1n(xk-m)(xk-m)T]]>(3)計(jì)算散度矩陣的最大特征值e,取劃分超平面的法向量A=e。
其中,xk是第k個(gè)訓(xùn)練樣本,n是單類樣本數(shù)量,m是單類樣本均值,S是全部單類訓(xùn)練樣本的散度矩陣,e是S的最大特征值。
第二個(gè)步驟,所述的訓(xùn)練集的超平面劃分,具體實(shí)現(xiàn)如下(1)對于每個(gè)類別,按照第一個(gè)步驟確定相應(yīng)的超平面PAx=0;(2)計(jì)算單類訓(xùn)練集中所有樣本x的加權(quán)值d(x,P)=Ax;(3)對于所有這些值A(chǔ)x排序;(4)根據(jù)各個(gè)子集的樣本數(shù)量要求,順序抽取指定數(shù)量的樣本數(shù)量構(gòu)成劃分后的子樣本集;(5)對于各個(gè)單類劃分出來的各個(gè)單類訓(xùn)練子集,按照最小最大模塊化分類器的要求實(shí)現(xiàn)各個(gè)子任務(wù)生成,從而實(shí)現(xiàn)所要求的任務(wù)分解。
其中,P是超平面代號,A是按照第一個(gè)步驟確定的超平面法向量,x是任意一個(gè)單類訓(xùn)練樣本,d(x,P)表示所需的加權(quán)值。
最小最大模塊化分類器的實(shí)現(xiàn)分為兩個(gè)步驟,第一個(gè)步驟是多類到二類的分解以及對應(yīng)的結(jié)果合成,第二個(gè)步驟是二類問題的進(jìn)一步分解和對應(yīng)的結(jié)果合成。
對于一個(gè)多類問題,根據(jù)一類對一類分解策略實(shí)現(xiàn)任務(wù)分解,也就是對于一個(gè)K類問題,分別一一搭配不同類別的訓(xùn)練集,生成K(K-1)/2個(gè)訓(xùn)練集對,用對應(yīng)的K(K-1)/2個(gè)二類分類器進(jìn)行訓(xùn)練。從而實(shí)現(xiàn)了多類到二類問題的分解。記各個(gè)二類分類器為Mij,0<=i,j<k且i和j不等。如果Mij的分類結(jié)果為1,表明這個(gè)二類分類器支持i類的分類結(jié)果,如果分類輸出為0,則表明它支持j類的分類結(jié)果。對于每一個(gè)二類分類器Mij,將其結(jié)果取反作為分類器的Mij結(jié)果,這樣可以本發(fā)明可以調(diào)用K(K-1)個(gè)二類分類器。稱這樣一些二類分類器Mij,j=0,1,2,…,K-1,且i和j不等為一組二類分類器。i稱為它的組號。對于各個(gè)二類分類器的測試結(jié)果的組合,使用兩個(gè)階段來實(shí)現(xiàn),第一階段,在各組二類分類器中,所有的二類分類器輸出的分類結(jié)果Min操作作為該組的類別輸出,這里Min操作是從多個(gè)輸入中找出最小的輸入。第二階段,將第一階段的操作的所有結(jié)果進(jìn)行Max操作得到本階段的組合結(jié)果,這里Max操作是從多個(gè)輸入中找出最大的輸入。如果第二階段的組合結(jié)果是0,則組合分類結(jié)果本發(fā)明定義為未知類別,也就是不是任何已知的類別,如果第二階段的組合結(jié)果是1,則在Max過程中導(dǎo)致了這個(gè)結(jié)果的那一組二類分類器的組號作為最終的組合分類結(jié)果。
對于一個(gè)二類問題,將其類別輸出分別表示為0和1。設(shè),0類訓(xùn)練集劃分為n個(gè)模塊,1類訓(xùn)練集劃分為m個(gè)模塊。分別完全搭配這m個(gè)和n個(gè)訓(xùn)練集產(chǎn)生m*n個(gè)訓(xùn)練集對。如果每個(gè)訓(xùn)練集對由一個(gè)二值分類器來學(xué)習(xí),就將一個(gè)原始的較大規(guī)模的二類問題分解為m*n個(gè)較小規(guī)模二類問題。對于原始的二類問題,稱用于解決分解后產(chǎn)生的較小規(guī)模的二類問題的二值分類器為相應(yīng)的基分類器。
設(shè)原始分類問題中,用Tij表示劃分后的訓(xùn)練集對,其中i=1,2,...,m,j=1,...,n,相對應(yīng)的基分類器表示為Xij。最小最大組合定義了如何將這m*n個(gè)基分類器的分類結(jié)果重新合成為原始問題的分類結(jié)果。在組合之前,需要對m*n個(gè)基分類器進(jìn)行分組,對于一個(gè)固定的i,定義Xij,其中j=1,...,n,為一個(gè)1類組。i稱為該組的組號。分類結(jié)果的最小最大組合過程分為兩個(gè)階段第一階段,在各個(gè)1類組中,所有的基分類器輸出的分類結(jié)果Min操作作為該組的類別輸出,這里Min操作是從多個(gè)輸入中找出最小的輸入。第二階段,將第一階段的操作的所有結(jié)果進(jìn)行Max操作就得到組合后的最終分類結(jié)果,這里Max操作是從多個(gè)輸入中找出最大的輸入。
本發(fā)明提出了使用一種簡單的排序過程來實(shí)現(xiàn)這個(gè)超平面劃分過程,避免了巨量的聚類算法的時(shí)間消耗,同時(shí)它有效地保證了分解后產(chǎn)生的分類器組合的精度,避免了以往的隨機(jī)的樣本抽取過程無法保證最終的分類器組合精度的情況。此外,基于超平面劃分方法產(chǎn)生的最小最大模塊化分類器具有更好的測試性能。
具體實(shí)施例方式
以下結(jié)合本發(fā)明的內(nèi)容提供具體實(shí)施例實(shí)施例1數(shù)據(jù)集取自UCI數(shù)據(jù)庫和STATLOG benchmark repository的3組兩類數(shù)據(jù),數(shù)據(jù)特性如表1所示。
由于二類問題是所有分類問題的基礎(chǔ),多類問題總是可以通過二類問題組合的最小最大化等方法實(shí)現(xiàn),而本發(fā)明提出的技術(shù)也只需要考慮單類上的訓(xùn)練集分解,具體的實(shí)現(xiàn)和類別數(shù)特性無關(guān)。因此,二類問題分類效果展示足以本發(fā)明提出的技術(shù)的效果。
表1。數(shù)據(jù)集的類別信息和SVM訓(xùn)練參數(shù)
針對兩類較小規(guī)模的那個(gè)類別,依次分為2到26個(gè)模塊,較大的類別進(jìn)行對應(yīng)的劃分,使得劃分出來的單類樣本數(shù)量和較小類別的單類樣本數(shù)量相當(dāng)。兩種分類算法k-NN和RBF核的SVM用來進(jìn)行算法效果的驗(yàn)證工作。SVM訓(xùn)練參數(shù)如表1所示。k-NN算法均使用從1-40的40組不同k值進(jìn)行測試。
實(shí)施過程具體如下1、按照隨機(jī)劃分和本發(fā)明所提的方法分別進(jìn)行單類訓(xùn)練集上的指定模塊規(guī)模的劃分。
2、按照最小最大模塊化分類器的構(gòu)成方法進(jìn)行訓(xùn)練,分別使用k-NN分類器和SVM分類器。
3、對于測試集中的樣本進(jìn)行逐一測試,按照最小最大模塊化分類器的結(jié)果合成方法輸出測試結(jié)果。
通過比較隨機(jī)訓(xùn)練集劃分、法向量A=[1,1,…,1]的超平面劃分以及由主成分分析方法確定的超平面劃分的分類精度,所獲得的結(jié)論是,由主成分分析方法確定的超平面劃分的分類精度在所有數(shù)據(jù)集上是最佳的,同時(shí)分類精度曲線平穩(wěn),能夠有效保證更多模塊數(shù)量下的組合分類器的分類效果。在不同的數(shù)據(jù)集上的一致效果表明了本發(fā)明所提方法的通用性。
實(shí)施例2基分類器采用SVM算法。SVM訓(xùn)練參數(shù)如表1所示。針對兩類較小規(guī)模的那個(gè)類別,依次分為2到26個(gè)模塊,較大的類別進(jìn)行對應(yīng)的劃分,使得分出來的單類樣本數(shù)量和較小類別的單類樣本數(shù)量相當(dāng)。
實(shí)施過程具體如下1、按照隨機(jī)劃分和本發(fā)明所提的方法分別進(jìn)行單類訓(xùn)練集上的指定模塊規(guī)模的劃分。
2、按照最小最大模塊化分類器的構(gòu)成方法進(jìn)行SVM分類器訓(xùn)練。
3、對于測試集中的樣本進(jìn)行逐一測試,按照最小最大模塊化分類器的結(jié)果合成方法輸出測試結(jié)果。
通過比較隨機(jī)訓(xùn)練集劃分、法向量A=[1,1,…,1]的超平面劃分以及由主成分分析方法確定的超平面劃分的分類速度,所獲得的結(jié)論是,由主成分分析方法確定的超平面劃分在所有數(shù)據(jù)集上的分類速度是最快的。在不同的數(shù)據(jù)集上的一致效果表明了本發(fā)明所提方法的通用性。
權(quán)利要求
1.一種基于主成分分析方法確定超平面的任務(wù)分解方法,其特征在于,利用一組平行的超平面對各個(gè)單類訓(xùn)練集作分割,使用主成分分析方法中的散度矩陣的特征向量作為劃分的一組超平面的法向量,在訓(xùn)練集的超平面劃分中,采用訓(xùn)練樣本數(shù)量的加權(quán)排序?qū)崿F(xiàn)樣本的順序抽取,繼而將分割的訓(xùn)練子集按照最小最大模塊化分類器的要求實(shí)現(xiàn)指定的任務(wù)分解。
2.根據(jù)權(quán)利要求1所述的基于主成分分析方法確定超平面的任務(wù)分解方法,其特征是,所述的超平面法向量,其確定方法如下(1)計(jì)算所有樣本的均值m=Σk=1nxk]]>(2)計(jì)算該訓(xùn)練集所有輸入樣本的散度矩陣S=Σk=1n(xk-m)(xk-m)l]]>(3)計(jì)算散度矩陣的最大特征值e,取劃分超平面的法向量A=e。其中,xk是第k個(gè)訓(xùn)練樣本,n是單類樣本數(shù)量,m是單類樣本均值,S是全部單類訓(xùn)練樣本的散度矩陣,e是S的最大特征值。
3.根據(jù)權(quán)利要求1所述的基于主成分分析方法確定超平面的任務(wù)分解方法,其特征是,所述的訓(xùn)練集的超平面劃分,具體實(shí)現(xiàn)如下(1)確定相應(yīng)的超平面PAx=0;(2)計(jì)算單類訓(xùn)練集中所有待分樣本x的加權(quán)值d(x,P)=Ax;(3)對于所有這些值A(chǔ)x排序;(4)根據(jù)各個(gè)子集的樣本數(shù)量要求,順序抽取指定數(shù)量的樣本數(shù)量構(gòu)成劃分后的子樣本集;(5)對于各個(gè)單類劃分出來的各個(gè)單類訓(xùn)練子集,按照最小最大模塊化分類器的要求實(shí)現(xiàn)各個(gè)子任務(wù)生成,從而實(shí)現(xiàn)所要求的任務(wù)分解。其中,P是超平面代號,A是按照第一個(gè)步驟確定的超平面法向量,x是任意一個(gè)單類訓(xùn)練樣本,d(x,P)表示所需的加權(quán)值。
全文摘要
一種用于智能信息處理技術(shù)領(lǐng)域的基于超平面劃分過程可以用于最小最大模塊化分類器的任務(wù)分解,使用主成分分析方法來確定該超平面的方向。本發(fā)明提出了使用一種簡單的排序過程來實(shí)現(xiàn)這個(gè)超平面劃分過程,避免了巨量的聚類算法的時(shí)間消耗,同時(shí)它有效地保證了分解后產(chǎn)生的分類器組合的精度,避免了以往的隨機(jī)的樣本抽取過程無法保證最終的分類器組合精度的情況。此外,基于超平面劃分方法產(chǎn)生的最小最大模塊化分類器具有更好的測試性能。
文檔編號G06K9/62GK1713210SQ20051002771
公開日2005年12月28日 申請日期2005年7月14日 優(yōu)先權(quán)日2005年7月14日
發(fā)明者趙海, 呂寶糧 申請人:上海交通大學(xué)