一種離散值特征向量的快速監(jiān)督學(xué)習(xí)方法與分類系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種離散值特征向量的快速監(jiān)督學(xué)習(xí)方法與分類系統(tǒng),其包括第一步,為訓(xùn)練向量集合構(gòu)建一個(gè)超立方體的數(shù)據(jù)結(jié)構(gòu);第二步,用模式分類方法為超立方體的每個(gè)單元值賦值;第三步,測試向量通過查找超立方體的對應(yīng)單元值分類,以提高訓(xùn)練階段的空間復(fù)雜度來降低測試階段的時(shí)間復(fù)雜度。
【專利說明】一種離散值特征向量的快速監(jiān)督學(xué)習(xí)方法與分類系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種模式分類方法與系統(tǒng),尤其是一種離散值特征向量的快速監(jiān)督學(xué)習(xí)方法與分類系統(tǒng)。
【背景技術(shù)】
[0002]模式識別(Pattern Recognition)是指對表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關(guān)系的)信息進(jìn)行處理和分析,以對事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過程,是信息科學(xué)和人工智能的重要組成部分。模式識別又常稱作模式分類,從處理問題的性質(zhì)和解決問題的方法等角度,模式識別分為有監(jiān)督的分類(SupervisedClassification)和無監(jiān)督的分類(Unsupervised Classification)兩種。
其中監(jiān)督學(xué)習(xí)分為2個(gè)階段:
I模型構(gòu)造階段
A假定每個(gè)元組/樣本都屬于某個(gè)預(yù)定義的類,這些類由分類標(biāo)號屬性所定義 B用來構(gòu)造模型的元組/樣本集被稱為訓(xùn)練集(training set)
C模型一般表不為:分類規(guī)則,決策樹或者數(shù)學(xué)公式 2模型使用階段:
估計(jì)模型的準(zhǔn)確性
A用一些已知分類標(biāo)號的測試集和由模型進(jìn)行分類的結(jié)果進(jìn)行比較 B兩個(gè)結(jié)果相同所占的比率稱為準(zhǔn)確率 C測試集和訓(xùn)練集必須不相關(guān)。
現(xiàn)有的很多應(yīng)用中,由于模式分類算法的時(shí)間復(fù)雜度較高,監(jiān)督學(xué)習(xí)的測試階段耗時(shí)太多,影響了模式分類的廣泛應(yīng)用。。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的在于提出一種離散值特征向量的快速監(jiān)督學(xué)習(xí)方法與分類系統(tǒng),其能解決在模式分類中,監(jiān)督學(xué)習(xí)的測試階段耗時(shí)太多的問題。
為了達(dá)到上述目的,本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的:
一種離散值特征向量的快速監(jiān)督學(xué)習(xí)方法,其特征在于包括以下步驟:
第一步,為訓(xùn)練向量集合構(gòu)建一個(gè)超立方體的數(shù)據(jù)結(jié)構(gòu);
第二步,用模式分類方法為超立方體的每個(gè)單元值賦值;
第三步,測試向量通過查找超立方體的對應(yīng)單元值分類。
其中,所述訓(xùn)練向量集合的每個(gè)訓(xùn)練向量,為m維向量,其中每一維取值范圍長度為Ri7 1= I, 2,..., m,所述超立方體的尺寸為Κ1*Κ2*...*Κπι,超立方體的每一個(gè)索引值為向量對應(yīng)的每一維的特征值,超立方體的每個(gè)單元值為對應(yīng)向量的類別值。
優(yōu)選的,第二步中的模式分類方法包括以下步驟:
第I步,為訓(xùn)練向量集合的每個(gè)訓(xùn)練向量對應(yīng)的超立方體中的每個(gè)單元賦值; 第2步,如果超立方體中沒有賦值的單元數(shù)量為O,則結(jié)束,否則執(zhí)行第3步;
第3步,尋找下一個(gè)沒有賦值的單元,計(jì)算其超立方體鄰域中的已有賦值單元的每個(gè)類別的單元數(shù)量;
第4步,對這個(gè)沒有賦值的單元,如果該鄰域中已有賦值單元的數(shù)量不為O,執(zhí)行第5步,如果該鄰域中已有賦值單元的數(shù)量為O,執(zhí)行第3步;
第5步,該沒有賦值的單元的單元值為最多單元數(shù)量的類別值,并執(zhí)行第2步。
本發(fā)明實(shí)施例的另一目的在于提供一種離散值特征向量的快速監(jiān)督學(xué)習(xí)分類系統(tǒng),其特征在于包括:
超立方體構(gòu)建模塊,用于為訓(xùn)練向量集合構(gòu)建一個(gè)超立方體的數(shù)據(jù)結(jié)構(gòu);
超立方體賦值模塊,用于利用模式分類方法為超立方體的每個(gè)單元值賦值;
測試向量分類模塊,用于將測試向量通過查找超立方體的對應(yīng)單元值分類。
其中,所述訓(xùn)練向量集合的每個(gè)訓(xùn)練向量,為m維向量,其中每一維取值范圍長度為Ri7 1= I, 2,..., m,所述超立方體的尺寸為Κ1*Κ2*...*Κπι,超立方體的每一個(gè)索引值為向量對應(yīng)的每一維的特征值,超立方體的每個(gè)單元值為對應(yīng)向量的類別值。
優(yōu)選的,所述超立方體賦值模塊包括:
訓(xùn)練向量賦值模塊,用于為訓(xùn)練向量集合的每個(gè)訓(xùn)練向量對應(yīng)的超立方體中的每個(gè)單元賦值;
賦值單元數(shù)量判斷模塊,用于判斷超立方體中沒有賦值的單元數(shù)量,如果超立方體中沒有賦值的單元數(shù)量為O,則跳轉(zhuǎn)到結(jié)束模塊,否則跳轉(zhuǎn)到查找計(jì)算模塊;
查找計(jì)算模塊,用于尋找下一個(gè)沒有賦值的單元,并計(jì)算其超立方體鄰域中的已有賦值單元的每個(gè)類別的單元數(shù)量;
鄰域判斷模塊,用于對這個(gè)沒有賦值的單元進(jìn)行該鄰域中已有賦值單元的數(shù)量的判斷,如果該鄰域中已有賦值單元的數(shù)量不為O,則跳轉(zhuǎn)到單元賦值模塊,如果該鄰域中已有賦值單元的數(shù)量為O,則跳轉(zhuǎn)到查找計(jì)算模塊;
單元賦值模塊,用于對沒有賦值的單元進(jìn)行賦值,該沒有賦值的單元的單元值為鄰域中已有賦值單元中最多單元數(shù)量的類別值,并跳轉(zhuǎn)到賦值單元數(shù)量判斷模塊;
結(jié)束模塊,用于結(jié)束整個(gè)分類系統(tǒng)的運(yùn)行。
本發(fā)明具有如下有益效果:
在測試階段,由于測試樣本僅僅需要從超立方體中查找類別值,極大的加快了模式分類的效率。
【專利附圖】
【附圖說明】
[0004]圖1為離散值特征向量的快速監(jiān)督學(xué)習(xí)方法的原理方框圖;
圖2為一個(gè)僅僅已給訓(xùn)練向量賦值的超立方體示意圖;
圖3為一個(gè)已給所有可能的特征向量賦值的超立方體示意圖;
圖4為離散值特征向量的快速監(jiān)督學(xué)習(xí)方法第二步中的模式分類方法的原理方框圖; 圖5為一個(gè)經(jīng)過第一輪迭代后的超立方體示意圖;
圖6為一個(gè)經(jīng)過第二輪迭代后的超立方體示意圖;
圖7為離散值特征向量的快速監(jiān)督學(xué)習(xí)分類系統(tǒng)的原理方框圖; 圖8為離散值特征向量的快速監(jiān)督學(xué)習(xí)分類系統(tǒng)中超立方體賦值模塊的原理方框圖?!揪唧w實(shí)施方式】
[0005]下面,結(jié)合附圖以及【具體實(shí)施方式】,對本發(fā)明做進(jìn)一步描述。
模式識別(Pattern Recognition)是指對表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關(guān)系的)信息進(jìn)行處理和分析,以對事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過程,是信息科學(xué)和人工智能的重要組成部分。模式識別又常稱作模式分類,從處理問題的性質(zhì)和解決問題的方法等角度,模式識別分為有監(jiān)督的分類(S u P e r V i s e dClassification)和無監(jiān)督的分類(Unsupervised Classification)兩種。
利用一組已知類別的樣本調(diào)整分類器的參數(shù),使其達(dá)到所要求性能的過程,也稱為監(jiān)督訓(xùn)練或有教師學(xué)習(xí)。其中監(jiān)督學(xué)習(xí)分為2個(gè)階段:
I模型構(gòu)造階段
A假定每個(gè)元組/樣本都屬于某個(gè)預(yù)定義的類,這些類由分類標(biāo)號屬性所定義 B用來構(gòu)造模型的元組/樣本集被稱為訓(xùn)練集(training set)
C模型一般表不為:分類規(guī)則,決策樹或者數(shù)學(xué)公式 2模型使用階段:估計(jì)模型的準(zhǔn)確性
A用一些已知分類標(biāo)號的測試集和由模型進(jìn)行分類的結(jié)果進(jìn)行比較 B兩個(gè)結(jié)果相同所占的比率稱為準(zhǔn)確率 C測試集和訓(xùn)練集必須不相關(guān)。
正如人們通過已知病例學(xué)習(xí)診斷技術(shù)那樣,計(jì)算機(jī)要通過學(xué)習(xí)才能具有識別各種事物和現(xiàn)象的能力。用來進(jìn)行學(xué)習(xí)的材料就是與被識別對象屬于同類的有限數(shù)量樣本。監(jiān)督學(xué)習(xí)中在給予計(jì)算機(jī)學(xué)習(xí)樣本的同時(shí),還告訴計(jì)算各個(gè)樣本所屬的類別。若所給的學(xué)習(xí)樣本不帶有類別信息,就是無監(jiān)督學(xué)習(xí)。任何一種學(xué)習(xí)都有一定的目的,對于模式識別來說,就是要通過有限數(shù)量樣本的學(xué)習(xí),使分類器在對無限多個(gè)模式進(jìn)行分類時(shí)所產(chǎn)生的錯(cuò)誤概率最小。
監(jiān)督學(xué)習(xí)方法是目前研究較為廣泛的一種機(jī)器學(xué)習(xí)方法,例如神經(jīng)網(wǎng)絡(luò)傳播算法、決策樹學(xué)習(xí)算法等已在許多領(lǐng)域中得到成功的應(yīng)用。
監(jiān)督學(xué)習(xí)的訓(xùn)練階段與測試階段可以是相互獨(dú)立的,我們考慮以提高訓(xùn)練階段的空間復(fù)雜度的代價(jià)來降低測試階段的時(shí)間復(fù)雜度。
本發(fā)明實(shí)施例中,
如圖1所示,為本發(fā)明實(shí)施例提供的一種離散值特征向量的快速監(jiān)督學(xué)習(xí)方法的實(shí)現(xiàn)流程,圖中虛線框表示流程中涉及的步驟,實(shí)線框表示流程中涉及的數(shù)據(jù)結(jié)構(gòu),詳述如下:第一步,為訓(xùn)練向量集合構(gòu)建一個(gè)超立方體的數(shù)據(jù)結(jié)構(gòu);
第二步,用模式分類方法為超立方體的每個(gè)單元值賦值;
第三步,測試向量通過查找超立方體的對應(yīng)單元值分類。
其中,所述訓(xùn)練向量集合的每個(gè)訓(xùn)練向量,為m維向量,其中每一維取值范圍長度為Ri7 1= I, 2,..., m,所述超立方體的尺寸為Κ1*Κ2*...*Κπι,超立方體的每一個(gè)索引值為向量對應(yīng)的每一維的特征值,超立方體的每個(gè)單元值為對應(yīng)向量的類別值。
這樣以提高訓(xùn)練階段的空間復(fù)雜度的代價(jià)來降低測試階段的時(shí)間復(fù)雜度。這里我們以m=2的2類分類器來說明該算法,其中2個(gè)維度的取值范圍都是1-9,分別對應(yīng)圖2中的81個(gè)格子。這里9*9的格子對應(yīng)于流程中的超立方體,每個(gè)格子對應(yīng)超立方體中一個(gè)單元。
現(xiàn)有8個(gè)訓(xùn)練向量,[]內(nèi)的為其特征值,類別值可能取I或2,其特征值與類別值分別
為:
[2,6] =2; [2,7] =2; [3,6] =2; [3,7] =2;
[6,2]=1; [7, 3]=1; [8, 3]=1; [8,4]=1;
分別對應(yīng)圖2中已經(jīng)賦予類別值的8個(gè)格子。
如果我們在訓(xùn)練階段,通過一定的模式識別方法,能夠把空格(即超立方體中沒有賦值的單元)處所對應(yīng)的特征向量的類別值全部計(jì)算出來,如圖3所示,由于離散值特征向量的取值范圍全部包含在該超立方體中,則我們在測試階段,僅僅需要查找超立方體中對應(yīng)的單元值,就可以計(jì)算出對應(yīng)離散值特征向量的類別值。從而完成分類。
由于在測試階段,僅僅保護(hù)查找的I/O操作,無需計(jì)算,從而以提高訓(xùn)練階段的空間復(fù)雜度的代價(jià)來降低測試階段的時(shí)間復(fù)雜度。
如圖4所示,為本發(fā)明實(shí)施例提供的一種離散值特征向量的快速監(jiān)督學(xué)習(xí)方法的第二步中的模式分類方法實(shí)現(xiàn)流程,詳述如下:
第I步,為訓(xùn)練向量集合的每個(gè) 訓(xùn)練向量對應(yīng)的超立方體中的每個(gè)單元賦值;
第2步,如果超立方體中沒有賦值的單元數(shù)量為O,則結(jié)束,否則執(zhí)行第3步;
第3步,尋找下一個(gè)沒有賦值的單元,計(jì)算其超立方體鄰域中的已有賦值單元的每個(gè)類別的單元數(shù)量;
第4步,對這個(gè)沒有賦值的單元,如果該鄰域中已有賦值單元的數(shù)量不為O,執(zhí)行第5步,如果該鄰域中已有賦值單元的數(shù)量為O,執(zhí)行第3步;
第5步,該沒有賦值的單元的單元值為最多單元數(shù)量的類別值,并執(zhí)行第2步。
這里我們還是以m=2的2類分類器來說明該算法,其中2個(gè)維度的取值范圍都是1-9,分別對應(yīng)圖2中的81個(gè)格子。這里9*9的格子對應(yīng)于流程中的超立方體,每個(gè)格子對應(yīng)超立方體中一個(gè)單元。
訓(xùn)練向量與前述相同。
第I步,我們建立一個(gè)如圖2所示的超立方體,根據(jù)已知的訓(xùn)練向量,給其中8個(gè)單元賦予類別值。
第2步,如果超立方體中沒有賦值的單元數(shù)量不為O,執(zhí)行第3步;
第3、4、5步,為方便說明,我們這里選取的鄰域是4-鄰域,其余各種距離與形態(tài)的鄰域也都適用,而在多維向量的情況,各種鄰域?yàn)楦鞣N距離與形態(tài)的超立方體鄰域,也都適用于本發(fā)明的方法;
如圖5所示的81個(gè)格子的賦值,為經(jīng)過第一輪迭代后的格子的賦值圖,如圖6所示的81個(gè)格子的賦值,為經(jīng)過第一輪迭代后的格子的賦值圖,以此類推,經(jīng)過多輪迭代后,所有可能的特征向量都在超立方體中獲得類別值。為后續(xù)的測試階段的效率提高奠定了基礎(chǔ)。
本發(fā)明中提出的第二步中的這種模式分類方法,僅僅在鄰域中搜索相似樣本,而不用在全局搜索相似樣本,也有利于降低訓(xùn)練階段的時(shí)間復(fù)雜度。
如圖7所示,為本發(fā)明實(shí)施例提供的一種離散值特征向量的快速監(jiān)督學(xué)習(xí)分類系統(tǒng)的架構(gòu)原理,詳述如下:
快速監(jiān)督學(xué)習(xí)分類系統(tǒng),包括:
超立方體構(gòu)建模塊,用于為訓(xùn)練向量集合構(gòu)建一個(gè)超立方體的數(shù)據(jù)結(jié)構(gòu);
超立方體賦值模塊,用于利用模式分類方法為超立方體的每個(gè)單元值賦值;
測試向量分類模塊,用于將測試向量通過查找超立方體的對應(yīng)單元值分類。
其中,所述訓(xùn)練向量集合的每個(gè)訓(xùn)練向量,為m維向量,其中每一維取值范圍長度為Ri7 1= I, 2,..., m,所述超立方體的尺寸為Κ1*Κ2*...*Κπι,超立方體的每一個(gè)索引值為向量對應(yīng)的每一維的特征值,超立方體的每個(gè)單元值為對應(yīng)向量的類別值。
如圖8所示,為本發(fā)明實(shí)施例提供的一種離散值特征向量的快速監(jiān)督學(xué)習(xí)分類系統(tǒng)中的超立方體賦值模塊的架構(gòu)原理,詳述如下:
訓(xùn)練向量賦值模塊,用于為訓(xùn)練向量集合的每個(gè)訓(xùn)練向量對應(yīng)的超立方體中的每個(gè)單元賦值;
賦值單元數(shù)量判斷模塊,用于判斷超立方體中沒有賦值的單元數(shù)量,如果超立方體中沒有賦值的單元數(shù)量為O,則跳轉(zhuǎn)到結(jié)束模塊,否則跳轉(zhuǎn)到查找計(jì)算模塊;
查找計(jì)算模塊,用于尋找下一個(gè)沒有賦值的單元,并計(jì)算其超立方體鄰域中的已有賦值單元的每個(gè)類別的單元數(shù)量;
鄰域判斷模塊,用于對這個(gè)沒有賦值的單元進(jìn)行該鄰域中已有賦值單元的數(shù)量的判斷,如果該鄰域中已有賦值單元的數(shù)量不為O,則跳轉(zhuǎn)到單元賦值模塊,如果該鄰域中已有賦值單元的數(shù)量為O,則跳轉(zhuǎn)到查找計(jì)算模塊;
單元賦值模塊,用于對沒有賦值的單元進(jìn)行賦值,該沒有賦值的單元的單元值為鄰域中已有賦值單元中最多單元數(shù)量的類別值,并跳轉(zhuǎn)到賦值單元數(shù)量判斷模塊;
結(jié)束模塊,用于結(jié)束整個(gè)分類系統(tǒng)的運(yùn)行。
對于本領(lǐng)域的技術(shù)人員來說,可根據(jù)以上描述的技術(shù)方案以及構(gòu)思,做出其它各種相應(yīng)的改變以及變形,而所有的這些改變以及變形都應(yīng)該屬于本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種離散值特征向量的快速監(jiān)督學(xué)習(xí)方法,其特征在于包括以下步驟: 第一步,為訓(xùn)練向量集合構(gòu)建一個(gè)超立方體的數(shù)據(jù)結(jié)構(gòu); 第二步,用模式分類方法為超立方體的每個(gè)單元值賦值; 第三步,測試向量通過查找超立方體的對應(yīng)單元值分類; 其中,所述訓(xùn)練向量集合的每個(gè)訓(xùn)練向量,為《維向量,其中每一維取值范圍長度為4,1= I, 2,..., ?,所述超立方體的尺寸為產(chǎn)/(產(chǎn)…對:,超立方體的每一個(gè)索引值為向量對應(yīng)的每一維的特征值,超立方體的每個(gè)單元值為對應(yīng)向量的類別值。
2.如權(quán)利要求1所述的離散值特征向量的快速監(jiān)督學(xué)習(xí)方法,其特征在于, 第二步中的模式分類方法包括以下步驟: 第I步,為訓(xùn)練向量集合的每個(gè)訓(xùn)練向量對應(yīng)的超立方體中的每個(gè)單元賦值; 第2步,如果超立方體中沒有賦值的單元數(shù)量為O,則結(jié)束,否則執(zhí)行第3步; 第3步,尋找下一個(gè)沒有賦值的單元,計(jì)算其超立方體鄰域中的已有賦值單元的每個(gè)類別的單元數(shù)量; 第4步,對這個(gè)沒有賦值的單元,如果該鄰域中已有賦值單元的數(shù)量不為O,則執(zhí)行第5步,如果該鄰域中已有賦值單元的數(shù)量為O,則執(zhí)行第3步; 第5步,該沒有賦值的單元的單元值為鄰域中已有賦值單元中最多單元數(shù)量的類別值,并執(zhí)行第2步?!?br>
3.一種離散值特征向量的快速監(jiān)督學(xué)習(xí)分類系統(tǒng),其特征在于包括: 超立方體構(gòu)建模塊,用于為訓(xùn)練向量集合構(gòu)建一個(gè)超立方體的數(shù)據(jù)結(jié)構(gòu); 超立方體賦值模塊,用于利用模式分類方法為超立方體的每個(gè)單元值賦值; 測試向量分類模塊,用于將測試向量通過查找超立方體的對應(yīng)單元值分類; 其中,所述訓(xùn)練向量集合的每個(gè)訓(xùn)練向量,為《維向量,其中每一維取值范圍長度為4,1= I, 2,..., ?,所述超立方體的尺寸為產(chǎn)/(產(chǎn)…對:,超立方體的每一個(gè)索引值為向量對應(yīng)的每一維的特征值,超立方體的每個(gè)單元值為對應(yīng)向量的類別值。
4.如權(quán)利要求3所述的離散值特征向量的快速監(jiān)督學(xué)習(xí)分類系統(tǒng),其特征在于,所述超立方體賦值模塊包括: 訓(xùn)練向量賦值模塊,用于為訓(xùn)練向量集合的每個(gè)訓(xùn)練向量對應(yīng)的超立方體中的每個(gè)單元賦值; 賦值單元數(shù)量判斷模塊,用于判斷超立方體中沒有賦值的單元數(shù)量,如果超立方體中沒有賦值的單元數(shù)量為O,則跳轉(zhuǎn)到結(jié)束模塊,否則跳轉(zhuǎn)到查找計(jì)算模塊; 查找計(jì)算模塊,用于尋找下一個(gè)沒有賦值的單元,并計(jì)算其超立方體鄰域中的已有賦值單元的每個(gè)類別的單元數(shù)量; 鄰域判斷模塊,用于對這個(gè)沒有賦值的單元進(jìn)行該鄰域中已有賦值單元的數(shù)量的判斷,如果該鄰域中已有賦值單元的數(shù)量不為O,則跳轉(zhuǎn)到單元賦值模塊,如果該鄰域中已有賦值單元的數(shù)量為O,則跳轉(zhuǎn)到查找計(jì)算模塊; 單元賦值模塊,用于對沒有賦值的單元進(jìn)行賦值,該沒有賦值的單元的單元值為鄰域中已有賦值單元中最多單元數(shù)量的類別值,并跳轉(zhuǎn)到賦值單元數(shù)量判斷模塊; 結(jié)束模塊,用于結(jié)束整個(gè)分類系統(tǒng)的運(yùn)行。
【文檔編號】G06K9/66GK103858135SQ201380003066
【公開日】2014年6月11日 申請日期:2013年5月12日 優(yōu)先權(quán)日:2013年5月12日
【發(fā)明者】不公告發(fā)明人 申請人:黃勃