本發(fā)明涉及一種局部學(xué)習(xí)算法領(lǐng)域,特別是一種分類器鏈局部檢測(cè)與挖掘算法。
背景技術(shù):
:近年來,大數(shù)據(jù)已經(jīng)在很多領(lǐng)域得到廣泛應(yīng)用,例如社會(huì)媒體分析,視頻監(jiān)控,網(wǎng)絡(luò)安全監(jiān)控等,這些都需要對(duì)原始數(shù)據(jù)流進(jìn)行分析和處理獲得實(shí)時(shí)的有價(jià)值的信息?,F(xiàn)有處理資源有限的數(shù)據(jù)流挖掘問題的方法都是依賴負(fù)荷卸載,根據(jù)給定的數(shù)據(jù)特征決定舍棄的策略。由于舍棄的數(shù)據(jù)也會(huì)對(duì)下一個(gè)分類器起重要作用,因此,負(fù)荷卸載方法一般不能獲得點(diǎn)對(duì)點(diǎn)的最佳效果?,F(xiàn)有方法假設(shè)分類器的性能是已知的,并且需要分類器之間有效的信息交流,在實(shí)際應(yīng)用中往往無法實(shí)現(xiàn),同時(shí)這些方法不能進(jìn)行分布式處理。技術(shù)實(shí)現(xiàn)要素:有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明的目的就是提供一種分類器鏈局部檢測(cè)與挖掘算法,能夠利用局部學(xué)習(xí)算法對(duì)用于處理大數(shù)據(jù)流挖掘問題的分類器鏈進(jìn)行優(yōu)化,能夠選擇最佳的分類結(jié)構(gòu),實(shí)時(shí)學(xué)習(xí)分類器的效果;數(shù)據(jù)處理過程僅需要數(shù)據(jù)集的一條路徑,這樣使得處理延遲和處理器的內(nèi)存需求最小化。本發(fā)明的目的是通過這樣的技術(shù)方案實(shí)現(xiàn)的,分類器鏈局部檢測(cè)與挖掘算法,它包括有:在周期n內(nèi)選擇一個(gè)分類器a(n)對(duì)期望獎(jiǎng)勵(lì)e{r(n)}進(jìn)行最大化,設(shè)計(jì)的思路如下步驟:s1:每一個(gè)分類器m都在周期n內(nèi)選擇一個(gè)分類函數(shù)am(n)∈fm,a(n)代表了周期n內(nèi)的分類器鏈;s2:數(shù)據(jù)樣例x(n)進(jìn)入系統(tǒng)后,經(jīng)過分類器鏈生成分類概念最終的分類結(jié)果可以表示為s3:在周期結(jié)束時(shí)會(huì)顯示根據(jù)真標(biāo)簽z(n)實(shí)現(xiàn)的總獎(jiǎng)勵(lì)r(n)和總成本d(n);s4:如果每個(gè)分類器的每個(gè)分類函數(shù)的精度和預(yù)期成本是已知的,則解決方案為:即在每一個(gè)時(shí)間周期都選擇相同的分類器鏈對(duì)預(yù)期獎(jiǎng)勵(lì)進(jìn)行最大化;其中,a*最佳分類器鏈。進(jìn)一步,設(shè)計(jì)所述算法前還包括有分類器鏈系統(tǒng)的構(gòu)成設(shè)計(jì),分類器鏈系統(tǒng)的構(gòu)成設(shè)計(jì)步驟如下:1)一個(gè)包含了μ={1,2,…,m}個(gè)分類器的分布式大數(shù)據(jù)挖掘系統(tǒng),這些分類器以一種預(yù)先決定好的次序串聯(lián)在一起,未經(jīng)處理的數(shù)據(jù)流依次經(jīng)過這些分類器,假設(shè)m+1號(hào)分類器串聯(lián)在m號(hào)分類器之后;2)時(shí)間被分解為離散的周期,在每一個(gè)周期n內(nèi)有一個(gè)數(shù)據(jù)樣例x(n)進(jìn)入系統(tǒng);每一個(gè)數(shù)據(jù)樣例都有一系列概念y(n)=(y1(n),…,ym(n)),其中,ym(n)∈ym,(ym為概念ym(n)的值域)m=1,…,m;這些概念是未知的,需要通過分類器進(jìn)行挖掘;概念y1(n),…,ym(n)根據(jù)公式(1)共同決定了一個(gè)未知的實(shí)際真標(biāo)簽z(n)∈z,z為類別集合,σ為決定函數(shù):σ:y1×…×ym→z.(2)3)分類器鏈系統(tǒng)是為了確定一個(gè)數(shù)據(jù)樣例是否屬于目標(biāo)范疇,即ym(n)=em∈ym,其中em為輸入數(shù)據(jù)樣例,然后其中,1(·)是一個(gè)指示函數(shù),即分類器m∈m的任務(wù)是確保每一個(gè)概念ym(n)都對(duì)應(yīng)一個(gè)分類結(jié)果記為整合所有分類器的分類結(jié)果記為然后生成標(biāo)簽的最終分類;4)每一個(gè)分類器m都要處理對(duì)應(yīng)于概念m的分類問題,并維持一系列分類函數(shù)其中fm,n(n=1,2,3…km)為分類函數(shù),km為分類器m的分類函數(shù)個(gè)數(shù);假設(shè)對(duì)任意m,有km=k,k為各個(gè)分類器統(tǒng)一設(shè)定的檢測(cè)周期;在每一個(gè)時(shí)間周期n內(nèi),分類器m都要選擇一個(gè)分類函數(shù)am(n)∈fm對(duì)x(n)進(jìn)行分類,因此,a(n)=(a1(n),...am(n))代表了在時(shí)間周期n內(nèi)選擇的分類器鏈。進(jìn)一步,所述步驟s4中的所述精度、所述預(yù)期成本、所述預(yù)期獎(jiǎng)勵(lì)概念定義如下:s40:精度表示的是每一個(gè)數(shù)據(jù)樣例能正確的分類到其對(duì)應(yīng)的概念m的概率,分類器m的每一個(gè)分類函數(shù)fm,k都有一個(gè)未知的精度π(fm,k)∈[0,1];調(diào)用一個(gè)分類函數(shù)fm,k會(huì)導(dǎo)致一些通訊或計(jì)算上的成本,預(yù)期的成本可表示為d(fm,k),也是未知的;s41:分類器鏈a的精度π(a)依賴于每一個(gè)子分類器的精度,令π(a)=gσ(π(a1),...,π(am)),其中,gσ取決于決定函數(shù)σ;調(diào)用分類器鏈a的成本同樣也是單個(gè)分類器成本的函數(shù),令預(yù)期的成本為d(a)=h(d(a1),...d(am));s42:在不同的周期通過選擇不同的分類器鏈,系統(tǒng)可獲得依賴于分類器輸出和已發(fā)生成本的獎(jiǎng)勵(lì),定義周期n內(nèi)的獎(jiǎng)勵(lì)為r(n):其中,d(n)是周期n內(nèi)已發(fā)生的總成本;令分類器鏈a的預(yù)期獎(jiǎng)勵(lì)為μ(a)=π(a)-d(a)。進(jìn)一步,所述算法包括有檢測(cè)階段,檢測(cè)階段步驟如下:分為k·m個(gè)周期,進(jìn)一步可分為m個(gè)具有k個(gè)周期的子階段;每一個(gè)子階段專用于一個(gè)分類器的學(xué)習(xí)問題;對(duì)于分類器m,在第i個(gè)子階段的第k個(gè)周期(k=1,…,k),有:①如果i=m,選擇am(n)=fm,k;②如果i≠m,選擇對(duì)于在檢測(cè)階段任意的fm,k∈fm,單個(gè)分類器可采用自身的子階段已實(shí)現(xiàn)的獎(jiǎng)勵(lì)更新其獎(jiǎng)勵(lì)進(jìn)一步,所述算法還包括有挖掘階段,挖掘階段步驟如下:挖掘階段包含的周期是變化的;每一個(gè)分類器需要記錄截止到第n-1個(gè)階段末時(shí)所經(jīng)過的檢測(cè)階段的次數(shù),記為n(n);令為確定性函數(shù),其中,a為常量;③如果分類器將從第n個(gè)階段開始一個(gè)新的檢測(cè)階段;④如果每個(gè)分類器m選擇進(jìn)一步,所述算法中還包括有分類器鏈的局部學(xué)習(xí):s5:定義△a=μ(a*)-μ(a)為一個(gè)分類器鏈與最佳分類器鏈a*的預(yù)期總體獎(jiǎng)勵(lì)差異;為在其它分類器a-m給定了固定選擇的情況下,分類器鏈m的次最佳分類函數(shù)與最佳分類函數(shù)數(shù)之間的獎(jiǎng)勵(lì)差異;s6:令是一個(gè)決定能否正確區(qū)分最佳分類器鏈與次最佳分類器的重要參數(shù),因此,它決定了學(xué)習(xí)的速度;s7:定義是決定在鏈?zhǔn)街袉蝹€(gè)分類器選擇次最佳分類函數(shù)的最大后悔值(即性能損失)的重要參數(shù);因此,選擇次最佳分類器鏈的最大性能損失為m·△max;s8:定義為任意分類器鏈的獎(jiǎng)勵(lì)的邊界動(dòng)態(tài)范圍,其中,r(n|a)為給定的分類器鏈a的總體獎(jiǎng)勵(lì)隨機(jī)變量。由于采用了上述技術(shù)方案,本發(fā)明具有如下的優(yōu)點(diǎn):利用局部學(xué)習(xí)算法對(duì)用于處理大數(shù)據(jù)流挖掘問題的分類器鏈進(jìn)行優(yōu)化,同時(shí)采用一種具有有限反饋的多用戶多臂問題來模擬分類器鏈的學(xué)習(xí)問題。提出的算法是以一種協(xié)作并且分布式的方法進(jìn)行學(xué)習(xí),因此能夠選擇最佳的分類結(jié)構(gòu),實(shí)時(shí)學(xué)習(xí)分類器的效果;數(shù)據(jù)處理過程僅需要數(shù)據(jù)集的一條路徑,這樣使得處理延遲和處理器的內(nèi)存需求最小化。此外,提出的算法不需要通過分布式分類器中央單元的學(xué)習(xí)問題進(jìn)行運(yùn)行協(xié)作,因此,降低了各分類器之間的交流需要;同時(shí),提出的算法是根據(jù)綜合任務(wù)的挖掘效果進(jìn)行學(xué)習(xí),而不是根據(jù)子任務(wù)效果進(jìn)行學(xué)習(xí),從而減少了大量反饋信息。本發(fā)明的其他優(yōu)點(diǎn)、目標(biāo)和特征在某種程度上將在隨后的說明書中進(jìn)行闡述,并且在某種程度上,基于對(duì)下文的考察研究對(duì)本領(lǐng)域技術(shù)人員而言將是顯而易見的,或者可以從本發(fā)明的實(shí)踐中得到教導(dǎo)。本發(fā)明的目標(biāo)和其他優(yōu)點(diǎn)可以通過下面的說明書和權(quán)利要求書來實(shí)現(xiàn)和獲得。附圖說明本發(fā)明的附圖說明如下:圖1為本發(fā)明的分類器鏈局部學(xué)習(xí)算法模型。圖2為本發(fā)明的實(shí)時(shí)數(shù)據(jù)流挖掘的分類器鏈。圖3為本發(fā)明與隨機(jī)策略、ucb1方法的準(zhǔn)確性對(duì)比圖。圖4為本發(fā)明與隨機(jī)策略、安全試驗(yàn)法的準(zhǔn)確性對(duì)比圖。圖5為本發(fā)明與隨機(jī)策略、ucb1方法、安全試驗(yàn)法的學(xué)習(xí)后悔值。具體實(shí)施方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明。實(shí)施例1:如圖1至圖5所示,一種分類器鏈局部檢測(cè)與挖掘算法,它包括有:在周期n內(nèi)選擇一個(gè)分類器a(n)對(duì)期望獎(jiǎng)勵(lì)e{r(n)}進(jìn)行最大化,設(shè)計(jì)的思路如下步驟:s1:每一個(gè)分類器m都在周期n內(nèi)選擇一個(gè)分類函數(shù)am(n)∈fm,a(n)代表了周期n內(nèi)的分類器鏈;s2:數(shù)據(jù)樣例x(n)進(jìn)入系統(tǒng)后,經(jīng)過分類器鏈生成分類概念最終的分類結(jié)果可以表示為s3:在周期結(jié)束時(shí)會(huì)顯示根據(jù)真標(biāo)簽z(n)實(shí)現(xiàn)的總獎(jiǎng)勵(lì)r(n)和總成本d(n);s4:如果每個(gè)分類器的每個(gè)分類函數(shù)的精度和預(yù)期成本是已知的,則解決方案為:即在每一個(gè)時(shí)間周期都選擇相同的分類器鏈對(duì)預(yù)期獎(jiǎng)勵(lì)進(jìn)行最大化;其中,a*最佳分類器鏈。設(shè)計(jì)算法前還包括有分類器鏈系統(tǒng)的構(gòu)成設(shè)計(jì),分類器鏈系統(tǒng)的構(gòu)成設(shè)計(jì)步驟如下:1)一個(gè)包含了μ={1,2,…,m}個(gè)分類器的分布式大數(shù)據(jù)挖掘系統(tǒng),這些分類器以一種預(yù)先決定好的次序串聯(lián)在一起,未經(jīng)處理的數(shù)據(jù)流依次經(jīng)過這些分類器,假設(shè)m+1號(hào)分類器串聯(lián)在m號(hào)分類器之后;2)時(shí)間被分解為離散的周期,在每一個(gè)周期n內(nèi)有一個(gè)數(shù)據(jù)樣例x(n)進(jìn)入系統(tǒng);每一個(gè)數(shù)據(jù)樣例都有一系列概念y(n)=(y1(n),…,ym(n)),其中,ym(n)∈ym,(ym為概念ym(n)的值域)m=1,…,m;這些概念是未知的,需要通過分類器進(jìn)行挖掘;概念y1(n),…,ym(n)根據(jù)公式(1)共同決定了一個(gè)未知的實(shí)際真標(biāo)簽z(n)∈z,z為類別集合,σ為決定函數(shù):σ:y1×…×ym→z.(2)3)分類器鏈系統(tǒng)是為了確定一個(gè)數(shù)據(jù)樣例是否屬于目標(biāo)范疇,即ym(n)=em∈ym,其中em為輸入數(shù)據(jù)樣例,然后其中,1(·)是一個(gè)指示函數(shù),即分類器m∈m的任務(wù)是確保每一個(gè)概念ym(n)都對(duì)應(yīng)一個(gè)分類結(jié)果記為整合所有分類器的分類結(jié)果記為然后生成標(biāo)簽的最終分類;4)每一個(gè)分類器m都要處理對(duì)應(yīng)于概念m的分類問題,并維持一系列分類函數(shù)其中fm,n(n=1,2,3…km)為分類函數(shù),km為分類器m的分類函數(shù)個(gè)數(shù);假設(shè)對(duì)任意m,有km=k,k為各個(gè)分類器統(tǒng)一設(shè)定的檢測(cè)周期;在每一個(gè)時(shí)間周期n內(nèi),分類器m都要選擇一個(gè)分類函數(shù)am(n)∈fm對(duì)x(n)進(jìn)行分類,因此,a(n)=(a1(n),...am(n))代表了在時(shí)間周期n內(nèi)選擇的分類器鏈。步驟s4中的精度、預(yù)期成本、預(yù)期獎(jiǎng)勵(lì)概念定義如下:s40:精度表示的是每一個(gè)數(shù)據(jù)樣例能正確的分類到其對(duì)應(yīng)的概念m的概率,分類器m的每一個(gè)分類函數(shù)fm,k都有一個(gè)未知的精度π(fm,k)∈[0,1];調(diào)用一個(gè)分類函數(shù)fm,k會(huì)導(dǎo)致一些通訊或計(jì)算上的成本,預(yù)期的成本可表示為d(fm,k),也是未知的;s41:分類器鏈a的精度π(a)依賴于每一個(gè)子分類器的精度,令π(a)=gσ(π(a1),...,π(am)),其中,gσ取決于決定函數(shù)σ;調(diào)用分類器鏈a的成本同樣也是單個(gè)分類器成本的函數(shù),令預(yù)期的成本為d(a)=h(d(a1),...d(am));s42:在不同的周期通過選擇不同的分類器鏈,系統(tǒng)可獲得依賴于分類器輸出和已發(fā)生成本的獎(jiǎng)勵(lì),定義周期n內(nèi)的獎(jiǎng)勵(lì)為r(n):其中,d(n)是周期n內(nèi)已發(fā)生的總成本;令分類器鏈a的預(yù)期獎(jiǎng)勵(lì)為μ(a)=π(a)-d(a)。算法包括有檢測(cè)階段,檢測(cè)階段步驟如下:分為k·m個(gè)周期,進(jìn)一步可分為m個(gè)具有k個(gè)周期的子階段;每一個(gè)子階段專用于一個(gè)分類器的學(xué)習(xí)問題;對(duì)于分類器m,在第i個(gè)子階段的第k個(gè)周期(k=1,…,k),有:①如果i=m,選擇am(n)=fm,k;②如果i≠m,選擇對(duì)于在檢測(cè)階段任意的fm,k∈fm,單個(gè)分類器可采用自身的子階段已實(shí)現(xiàn)的獎(jiǎng)勵(lì)更新其獎(jiǎng)勵(lì)算法還包括有挖掘階段,挖掘階段步驟如下:挖掘階段包含的周期是變化的;每一個(gè)分類器需要記錄截止到第n-1個(gè)階段末時(shí)所經(jīng)過的檢測(cè)階段的次數(shù),記為n(n);令為確定性函數(shù),其中,a為常量;③如果分類器將從第n個(gè)階段開始一個(gè)新的檢測(cè)階段;④如果每個(gè)分類器m選擇算法中還包括有分類器鏈的局部學(xué)習(xí):s5:定義△a=μ(a*)-μ(a)為一個(gè)分類器鏈與最佳分類器鏈a*的預(yù)期總體獎(jiǎng)勵(lì)差異;為在其它分類器a-m給定了固定選擇的情況下,分類器鏈m的次最佳分類函數(shù)與最佳分類函數(shù)數(shù)之間的獎(jiǎng)勵(lì)差異;s6:令是一個(gè)決定能否正確區(qū)分最佳分類器鏈與次最佳分類器的重要參數(shù),因此,它決定了學(xué)習(xí)的速度;s7:定義是決定在鏈?zhǔn)街袉蝹€(gè)分類器選擇次最佳分類函數(shù)的最大后悔值(即性能損失)的重要參數(shù);因此,選擇次最佳分類器鏈的最大性能損失為m·△max;s8:定義為任意分類器鏈的獎(jiǎng)勵(lì)的邊界動(dòng)態(tài)范圍,其中,r(n|a)為給定的分類器鏈a的總體獎(jiǎng)勵(lì)隨機(jī)變量。算法分析如下:將提出的局部學(xué)習(xí)算法與廣泛學(xué)習(xí)的ucb1算法以及安全試驗(yàn)學(xué)習(xí)算法進(jìn)行對(duì)比。為了展現(xiàn)最壞情況下的性能,執(zhí)行一個(gè)隨機(jī)策略,即在每個(gè)周期隨機(jī)選擇一個(gè)分類器鏈。采用的數(shù)據(jù)集為某高校的學(xué)生信息,具有很大的數(shù)據(jù)量。對(duì)信息進(jìn)行處理分為公共信息、經(jīng)濟(jì)信息、學(xué)習(xí)信息、信用信息4類、包含15個(gè)屬性特征。圖3和圖4呈現(xiàn)了數(shù)據(jù)中關(guān)聯(lián)數(shù)據(jù)量不同時(shí)能正確分類到其類別下的準(zhǔn)確率。從圖中可以看到,隨著數(shù)據(jù)量的增加,ucb1算法和安全試驗(yàn)算法準(zhǔn)確率基本一致,而局部學(xué)習(xí)算法的準(zhǔn)確率明顯比其它方法更高。圖5呈現(xiàn)了當(dāng)m=4,k=3時(shí)四種方法的平均后悔值,曲線是超過100次試驗(yàn)獲得的平均值。由于ucb1算法將每個(gè)分類器鏈都當(dāng)做一個(gè)臂,因此收斂速度很慢;安全試驗(yàn)算法需要分類函數(shù)性能的準(zhǔn)確信息,而本例中這些信息不可獲得,因此該方法性能很差。在具備單調(diào)遞增特性下,提出的局部學(xué)習(xí)算法比安全試驗(yàn)算法和ucb1算法表現(xiàn)更突出,可以獲得更低的后悔值(性能損失)。表1不同分類器數(shù)量時(shí)的學(xué)習(xí)后悔值m=1m=2m=3m=4m=5隨機(jī)策略0.00450.02450.08140.19890.2954安全試驗(yàn)法0.00310.01650.05980.14560.1678ucb1算法0.00290.01510.05430.13520.1563局部學(xué)習(xí)算法0.00270.00270.00270.00700.0172在表1中進(jìn)一步展示了對(duì)不同分類器數(shù)目ucb1方法和提出的局部學(xué)習(xí)算法經(jīng)過105周期后的時(shí)間平均相對(duì)后悔值,每一個(gè)分類器的分類函數(shù)的數(shù)量都是固定的,即k=3。可以看到,隨著分類器數(shù)量的增加,提出方法的性能優(yōu)勢(shì)顯著增加;而ucb1算法和安全實(shí)驗(yàn)法其臂空間隨m的增加呈指數(shù)增長,導(dǎo)致當(dāng)m比較大時(shí)收斂速度很慢;隨機(jī)策略更是難以收斂。表2執(zhí)行復(fù)雜性比較隨機(jī)策略安全試驗(yàn)法ucb1算法局部學(xué)習(xí)算法信息交換o(km)o(m)o(m)0存儲(chǔ)要求o(km)o(km)o(km)o(km)后悔值o(akmlnn)o(kmlnn)o(kmlnn)o(klnn)表2比較了隨機(jī)策略、ucb1算法、安全試驗(yàn)法和提出算法的學(xué)習(xí)后悔值的執(zhí)行復(fù)雜性,可以看到,提出的算法執(zhí)行起來更簡單。由于采用了上述技術(shù)方案,本發(fā)明具有的有益效果:01)提出的算法是以一種協(xié)作并且分布式的方法進(jìn)行學(xué)習(xí),能夠選擇最佳的分類結(jié)構(gòu),實(shí)時(shí)學(xué)習(xí)分類器的效果;02)數(shù)據(jù)處理過程僅需要數(shù)據(jù)集的一條路徑,這樣使得處理延遲和處理器的內(nèi)存需求最小化;03)數(shù)據(jù)集經(jīng)過每個(gè)分類器時(shí)增加了對(duì)分類函數(shù)的選擇,從而避免采用所有可能的分類函數(shù)進(jìn)行分類,減少了分類的復(fù)雜性;04)提出的算法是根據(jù)綜合任務(wù)的挖掘效果進(jìn)行學(xué)習(xí),而不是根據(jù)子任務(wù)效果進(jìn)行學(xué)習(xí),從而減少了大量反饋信息,降低了各分類器之間的交流需要。最后說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制,盡管參照較佳實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本技術(shù)方案的宗旨和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。當(dāng)前第1頁12