本發(fā)明涉及一種分類方法和系統(tǒng),具體地涉及對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法和系統(tǒng)。
背景技術(shù):
:在線學(xué)習(xí)是一種不斷學(xué)習(xí)新數(shù)據(jù),并更新已有模型的機(jī)器學(xué)習(xí)方法,具有廣泛的應(yīng)用領(lǐng)域,例如流數(shù)據(jù)挖掘。概念漂移是在線學(xué)習(xí)所特有的一個(gè)問(wèn)題,是指時(shí)間上前后的數(shù)據(jù)概念之間存在沖突,無(wú)法用一個(gè)機(jī)器學(xué)習(xí)模型描述?,F(xiàn)實(shí)世界的不斷變化是概念漂移的根源。例如,在垃圾郵件分類應(yīng)用中,關(guān)于新年促銷的郵件在2月至10月會(huì)被當(dāng)作垃圾郵件,而在11月至12月則被認(rèn)為是普通郵件。參見(jiàn)圖1,圖1示出一種典型的現(xiàn)有在線學(xué)習(xí)方法100的示意圖。在方法100中,每當(dāng)獲得新數(shù)據(jù)110(步驟101),首先調(diào)用分類器120對(duì)新數(shù)據(jù)分類(步驟102)。這里的分類器120是機(jī)器學(xué)習(xí)中的分類器,例如支持向量機(jī)、決策樹、k最近鄰、神經(jīng)網(wǎng)絡(luò)等。分類結(jié)果130作為輸出反饋給用戶或其他程序(步驟103)。接下來(lái),獲得這個(gè)數(shù)據(jù)的真實(shí)類別(步驟104)。獲得真實(shí)類別的方法可以是自動(dòng)獲得,也可以是人工反饋。如果無(wú)法獲得某數(shù)據(jù)的真實(shí)類別140,并不會(huì)影響方法的繼續(xù)進(jìn)行。方法100將跳過(guò)這一數(shù)據(jù),不使用這個(gè)數(shù)據(jù)更新分類器120。接下來(lái),要檢測(cè)和處理概念漂移(步驟105)。首先,檢測(cè)概念漂移(步驟105a),當(dāng)檢測(cè)到概念漂移時(shí),對(duì)分類器120進(jìn)行更新,例如刪除分類器120中對(duì)應(yīng)舊概念的部分。最后,用數(shù)據(jù)和其真實(shí)類別更新分類器(步驟105b)。現(xiàn)有的在線學(xué)習(xí)方法使用統(tǒng)計(jì)學(xué)或降維的方法檢測(cè)概念漂移,檢測(cè)精度有限。確定分類器的哪一部分對(duì)應(yīng)舊概念也很困難。這些問(wèn)題導(dǎo)致現(xiàn)有的在線學(xué)習(xí)方法和系統(tǒng)的分類精度有限。由此可見(jiàn),由于存在概念漂移,現(xiàn)有的在線學(xué)習(xí)方法無(wú)法很好地實(shí)現(xiàn) 數(shù)據(jù)分類。因此,需要提供一種具備處理概念漂移能力的分類方法和系統(tǒng)。技術(shù)實(shí)現(xiàn)要素:在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。為解決上述問(wèn)題,本發(fā)明提供一種對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法和系統(tǒng)。根據(jù)本發(fā)明的一個(gè)方面,提供一種對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法,包括:a)分別利用在時(shí)間上從新到舊數(shù)量遞增的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)作為學(xué)習(xí)樣本對(duì)預(yù)定數(shù)量的一組分類器進(jìn)行訓(xùn)練;b)基于所述一組分類器的近期分類結(jié)果,從所述一組分類器中選擇對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器;以及c)利用所選擇的分類器對(duì)當(dāng)前的輸入數(shù)據(jù)進(jìn)行分類。根據(jù)本發(fā)明的另一個(gè)方面,提供一種對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng),包括:訓(xùn)練裝置,所述訓(xùn)練裝置分別利用在時(shí)間上從新到舊數(shù)量遞增的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)作為學(xué)習(xí)樣本對(duì)預(yù)定數(shù)量的一組分類器進(jìn)行訓(xùn)練;選擇裝置,所述選擇裝置基于所述一組分類器的近期分類結(jié)果,從所述一組分類器中選擇對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器;以及分類裝置,所述分類裝置利用所選擇的分類器對(duì)當(dāng)前的輸入數(shù)據(jù)進(jìn)行分類。與現(xiàn)有技術(shù)相比,本發(fā)明提出的方法和系統(tǒng)不需要特意地檢測(cè)概念漂移,能夠自動(dòng)處理概念漂移。此外,利用本發(fā)明提出的方法和系統(tǒng)對(duì)輸入數(shù)據(jù)進(jìn)行分類,能夠?qū)崿F(xiàn)很高的分類精度。通過(guò)以下結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施方式的詳細(xì)說(shuō)明,本發(fā)明的上述以及其他優(yōu)點(diǎn)將更加明顯。附圖說(shuō)明為了進(jìn)一步闡述本發(fā)明的以上和其他優(yōu)點(diǎn)和特征,下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)的說(shuō)明。所述附圖連同下面的詳細(xì)說(shuō)明一起包含在本說(shuō)明書中并且形成本說(shuō)明書的一部分。具有相同的功能和結(jié)構(gòu)的元件用相同的參考標(biāo)號(hào)表示。應(yīng)當(dāng)理解,這些附圖僅描述本發(fā)明的典型示例,而不應(yīng)看作是對(duì)本發(fā)明的范圍的限定。在附圖中:圖1是示出一種典型的現(xiàn)有在線學(xué)習(xí)方法的示意圖;圖2是示出根據(jù)本發(fā)明的一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法的示意圖;圖3是示出根據(jù)本發(fā)明的一種實(shí)施方式如何利用輸入數(shù)據(jù)對(duì)分類器進(jìn)行訓(xùn)練的示意圖;圖4是示出根據(jù)本發(fā)明的優(yōu)選實(shí)施方式如何選擇精度最高的分類器的示意圖;圖5是示出根據(jù)本發(fā)明的一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)的示意圖;圖6是示出根據(jù)本發(fā)明的另一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)的示意圖;圖7是示出根據(jù)本發(fā)明的一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)中的選擇裝置的示意圖;圖8是示出可用于實(shí)施根據(jù)本發(fā)明的實(shí)施方式的方法和系統(tǒng)的計(jì)算機(jī)的示意性框圖。具體實(shí)施方式在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見(jiàn),在說(shuō)明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施例的過(guò)程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來(lái)說(shuō),這種開發(fā)工作僅僅是例行的任務(wù)。在此,還需要說(shuō)明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的設(shè)備結(jié)構(gòu)和/或 處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。首先參照?qǐng)D2,圖2是示出根據(jù)本發(fā)明的一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法1000的示意圖。如圖2所示,方法1000包括如下步驟:訓(xùn)練分類器(步驟1001),選擇分類精度最高的分類器(步驟1002)以及對(duì)輸入數(shù)據(jù)進(jìn)行分類(步驟1003)。根據(jù)方法1000,首先分別利用在時(shí)間上從新到舊數(shù)量遞增的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)作為學(xué)習(xí)樣本對(duì)預(yù)定數(shù)量的一組分類器進(jìn)行訓(xùn)練(步驟1001)。其中,分類器的數(shù)量c是需要預(yù)先確定的參數(shù),并且分類器可以是任何機(jī)器學(xué)習(xí)的分類器,例如支持向量機(jī)、決策樹、k最近鄰、神經(jīng)網(wǎng)絡(luò)等。更具體地,分類器可以為svm分類器、隨機(jī)樹林分類器、決策樹分類器、knn分類器以及樸素貝葉斯分類器。本發(fā)明不以此為限,本領(lǐng)域的技術(shù)人員可以根據(jù)實(shí)際需要,選擇適合的分類器。此外,所述c個(gè)分類器可以是相同的分類器或不同的分類器,即可以只使用一種類型的分類器,也可以混合使用多種類型的分類器。在優(yōu)選實(shí)施方式中,在累積了預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)后進(jìn)行步驟1001。在優(yōu)選實(shí)施方式中,在步驟1001中用于對(duì)預(yù)定數(shù)量的一組分類器中的每個(gè)分類器進(jìn)行訓(xùn)練的學(xué)習(xí)樣本的數(shù)量si通過(guò)如下公式計(jì)算:si=i*n其中,i=1,……,c,c表示所述一組分類器中的分類器的數(shù)量,并且n表示用于對(duì)所述一組分類器中的第一個(gè)分類器進(jìn)行訓(xùn)練的近期輸入數(shù)據(jù)的數(shù)量。在優(yōu)選實(shí)施方式中,設(shè)定c個(gè)分類器中的第一個(gè)分類器使用n個(gè)近期輸入數(shù)據(jù)訓(xùn)練,第二個(gè)分類器使用2n個(gè)近期輸入數(shù)據(jù)訓(xùn)練,以此類推。c個(gè)分類器中,哪一個(gè)分類器作為第一個(gè),哪一個(gè)作為第二個(gè),對(duì)算法沒(méi)有影響,可以隨機(jī)決定。算法也不限于分別以n個(gè)、2n個(gè)、3n個(gè)這種等差數(shù)列遞增的輸入數(shù)據(jù)對(duì)各分類器進(jìn)行分類,任意的遞增方式都可以。選取訓(xùn)練數(shù)據(jù)時(shí),要從最近的已獲得其真實(shí)類別的數(shù)據(jù)開始取。因此,在上述優(yōu)選實(shí)施方式中,第一個(gè)分類器的訓(xùn)練數(shù)據(jù)是最近的n個(gè)數(shù)據(jù),第二個(gè)分類器是最近的2n個(gè)數(shù)據(jù),以此類推。以這種方式取得的訓(xùn)練數(shù)據(jù)能保證:無(wú)論概念漂移何時(shí)發(fā)生,總有一批訓(xùn)練數(shù)據(jù)最符合當(dāng)前數(shù)據(jù)分布。使用這批數(shù)據(jù)所訓(xùn)練的分類器也最適應(yīng)當(dāng)前分布。即,這個(gè)分類器會(huì) 在最近的一批數(shù)據(jù)上分類精度最高。因此,它的分類結(jié)果會(huì)被分類器融合方法選擇作為融合后的結(jié)果。參見(jiàn)圖3,圖3是示出根據(jù)本發(fā)明的一種實(shí)施方式如何利用輸入數(shù)據(jù)對(duì)分類器進(jìn)行訓(xùn)練的示意圖。假設(shè)當(dāng)前正在對(duì)第101個(gè)數(shù)據(jù)進(jìn)行分類,而概念漂移發(fā)生在第50個(gè)數(shù)據(jù)處。以前面的優(yōu)選實(shí)施方式為例,取n=10,則第1、5、10個(gè)分類器的訓(xùn)練數(shù)據(jù)如圖3所示。由于概念漂移發(fā)生在第50個(gè)數(shù)據(jù)處,第10個(gè)分類器的訓(xùn)練數(shù)據(jù)包含概念漂移前后的數(shù)據(jù),所以其在當(dāng)前數(shù)據(jù)分布上的分類精度應(yīng)該較低。第5個(gè)分類器的訓(xùn)練數(shù)據(jù)包含全部概念漂移后的數(shù)據(jù),所以其分類精度應(yīng)該是最高的。第1個(gè)分類器的訓(xùn)練數(shù)據(jù)僅包含漂移后的數(shù)據(jù),但其訓(xùn)練數(shù)據(jù)較少,分類精度應(yīng)該低于第5個(gè)分類器。依據(jù)分類器融合算法,第5個(gè)分類器的分類結(jié)果應(yīng)該作為融合后的結(jié)果。對(duì)分類結(jié)果的融合,將在后面的內(nèi)容中詳細(xì)描述。接著,在完成步驟1001之后,基于所述一組分類器的近期分類結(jié)果,從所述一組分類器中選擇對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器(步驟1002)。在優(yōu)選實(shí)施方式中,基于預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重,其中,在時(shí)間上越近期的輸入數(shù)據(jù)在分類器分類正確的情況下,對(duì)分類器的權(quán)重的貢獻(xiàn)越大,并且選擇權(quán)重最高的分類器作為對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器。本領(lǐng)域的技術(shù)人員容易理解的是,可以根據(jù)實(shí)際應(yīng)用設(shè)定用于計(jì)算分類器權(quán)重的近期輸入數(shù)據(jù)的數(shù)量m。參見(jiàn)圖4,圖4是示出根據(jù)本發(fā)明的優(yōu)選實(shí)施方式如何選擇精度最高的分類器的示意圖。如圖所示,步驟1002’可以包括如下步驟:利用預(yù)定數(shù)量的已知其真實(shí)類別的輸入數(shù)據(jù),計(jì)算每個(gè)分類器的權(quán)重(步驟1012)以及通過(guò)所計(jì)算的權(quán)重從分類器中選擇權(quán)重最高的分類器(步驟1022)。舉例來(lái)說(shuō),若用于計(jì)算分類器權(quán)重的近期輸入數(shù)據(jù)的數(shù)量m被設(shè)定為5,并且當(dāng)前處理的數(shù)據(jù)為第105個(gè)數(shù)據(jù),則利用此前已經(jīng)獲得真實(shí)類別的第100個(gè)至第104個(gè)數(shù)據(jù)計(jì)算各分類器的權(quán)重。本領(lǐng)域的技術(shù)人員容易理解的是,在變化實(shí)施方式中,近期輸入數(shù)據(jù)的真實(shí)類別可以是定時(shí)獲得的,或者是分批獲得的。在這種情況下,若在處理第105個(gè)數(shù)據(jù)時(shí),尚未獲知第104個(gè)數(shù)據(jù)的真實(shí)類別,則使用已獲得其真實(shí)類別的此前的輸入數(shù)據(jù)來(lái)計(jì)算權(quán)重,如可以利用第99個(gè)至第103 個(gè)數(shù)據(jù)來(lái)計(jì)算各分類器的權(quán)重。以此類推,在此不多加贅述。在進(jìn)一步優(yōu)選的實(shí)施方式中,在步驟1012中通過(guò)如下公式計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重wi:其中,m表示預(yù)定的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)的數(shù)量;其中,k表示已獲得其真實(shí)類別的近期輸入數(shù)據(jù)中的第k個(gè)近期輸入數(shù)據(jù),k=1,……,m;其中,rk表示第i個(gè)分類器對(duì)第k個(gè)近期輸入數(shù)據(jù)的分類結(jié)果,lk表示第k個(gè)近期輸入數(shù)據(jù)的真實(shí)類別;并且其中,當(dāng)?shù)趇個(gè)分類器對(duì)第k個(gè)近期輸入數(shù)據(jù)的分類正確時(shí),p(rk,lk)=1,否則,p(rk,lk)=0。下面對(duì)如何計(jì)算分類器的權(quán)重進(jìn)行詳細(xì)說(shuō)明。在獲得新數(shù)據(jù)后,各個(gè)分類器獨(dú)立對(duì)新數(shù)據(jù)進(jìn)行分類。因此,c個(gè)分類器會(huì)產(chǎn)生c個(gè)分類結(jié)果。算法依據(jù)每個(gè)分類器在最近的一批已獲得其真實(shí)類別的數(shù)據(jù)上的分類結(jié)果和其真實(shí)類別,為每個(gè)分類器計(jì)算一個(gè)權(quán)重wi。越新的數(shù)據(jù)對(duì)權(quán)重計(jì)算的影響越大,即在上述公式中的參數(shù)k針對(duì)越近期的數(shù)據(jù)其取值越小。換言之,最近期的數(shù)據(jù),其對(duì)應(yīng)的k值為1,倒數(shù)第二個(gè)最近期的數(shù)據(jù),其對(duì)應(yīng)的k值為2,倒數(shù)第三個(gè)最近期的數(shù)據(jù),其對(duì)應(yīng)的k值為3,以此類推。在獲得每個(gè)分類器的權(quán)重后,找到權(quán)重最大的分類器,并以這個(gè)分類器的分類結(jié)果作為融合后的結(jié)果。在優(yōu)選實(shí)施方式中,假設(shè)正在處理數(shù)據(jù)d6,權(quán)重在最近5個(gè)數(shù)據(jù)上計(jì)算,即m值取為5。在數(shù)據(jù)d6之前,已經(jīng)處理過(guò)數(shù)據(jù)d1-d5。在d1-d5中,d1是最舊的數(shù)據(jù),其對(duì)應(yīng)k值為5,d5是最新的數(shù)據(jù),其對(duì)應(yīng)k值為1。如果一個(gè)分類器對(duì)數(shù)據(jù)d1-d5的分類結(jié)果和d1-d5的實(shí)際類別如下表1,并且表1對(duì)應(yīng)的各數(shù)據(jù)的分類器分類結(jié)果rk和真實(shí)類別lk的值如表2所示。數(shù)據(jù)d1d2d3d4d5分類結(jié)果12345真實(shí)類別02365表1r5r4r3r2r112345l5l4l3l2l102365表2那么這個(gè)分類器在處理d6時(shí),基于數(shù)據(jù)d1-d5計(jì)算權(quán)重的公式如下所示:從而,如上所述計(jì)算每個(gè)分類器的權(quán)重,來(lái)從分類器中選擇分類精度最高的分類器。然后,方法1000進(jìn)行到最后一步,利用所選擇的分類器對(duì)當(dāng)前的輸入數(shù)據(jù)進(jìn)行分類(步驟1003)。在其他實(shí)施方式中,方法1000還可以包括利用存儲(chǔ)器存儲(chǔ)近期輸入數(shù)據(jù)及其真實(shí)類別。并且,在優(yōu)選實(shí)施方式中,通過(guò)如下公式計(jì)算所述存儲(chǔ)器存儲(chǔ)的近期輸入數(shù)據(jù)的最大數(shù)量q:q=c*n在如上所述的各種方法中,輸入數(shù)據(jù)的真實(shí)類別可以由用戶反饋得到或者自動(dòng)獲得。下面參照?qǐng)D5,圖5是示出根據(jù)本發(fā)明的一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)2000的示意圖。如圖所示,系統(tǒng)2000包括訓(xùn)練裝置2001、選擇裝置2002以及分類裝置2003。其中,訓(xùn)練裝置2001分別利用在時(shí)間上從新到舊數(shù)量遞增的已獲得其 真實(shí)類別的近期輸入數(shù)據(jù)作為學(xué)習(xí)樣本對(duì)預(yù)定數(shù)量的一組分類器進(jìn)行訓(xùn)練。選擇裝置2002基于所述一組分類器的近期分類結(jié)果,從所述一組分類器中選擇對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器。分類裝置2003利用所選擇的分類器對(duì)當(dāng)前的輸入數(shù)據(jù)進(jìn)行分類。在優(yōu)選實(shí)施方式中,在累積了預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)后利用所述訓(xùn)練裝置對(duì)所述一組分類器進(jìn)行訓(xùn)練。在優(yōu)選實(shí)施方式中,所述真實(shí)類別由用戶反饋得到或者自動(dòng)獲得。在優(yōu)選實(shí)施方式中,所述一組分類器中的分類器可以為相同的分類器或?yàn)椴煌姆诸惼?。在?yōu)選實(shí)施方式中,其中所述一組分類器中的分類器可以選自以下分類器中的一個(gè)或更多個(gè):svm分類器、隨機(jī)樹林分類器、決策樹分類器、knn分類器以及樸素貝葉斯分類器。本發(fā)明不以此為限,本領(lǐng)域的技術(shù)人員可以根據(jù)實(shí)際需要,選擇適合的分類器。在優(yōu)選實(shí)施方式中,選擇裝置2002基于預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重,并且根據(jù)權(quán)重來(lái)選擇分類器中分類精度最高的分類器。具體地,選擇裝置2002選擇權(quán)重最高的分類器作為對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器,其中,在時(shí)間上越近期的輸入數(shù)據(jù)在分類器分類正確的情況下,對(duì)分類器的權(quán)重的貢獻(xiàn)越大。參見(jiàn)圖6,圖6是示出根據(jù)本發(fā)明的一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)中的選擇裝置的示意圖。在如圖6所示的實(shí)施方式中,系統(tǒng)2000中的選擇裝置2002”可以包括計(jì)算單元2012和選擇單元2022。其中,計(jì)算單元2012利用預(yù)定數(shù)量的已知其真實(shí)類別的輸入數(shù)據(jù),計(jì)算每個(gè)分類器的權(quán)重。在優(yōu)選實(shí)施方式中,可以利用前面結(jié)合方法實(shí)施方式描述的公式計(jì)算每個(gè)分類器的權(quán)重,在此不再贅述。并且,選擇單元2022用于通過(guò)所計(jì)算的權(quán)重從分類器中選擇權(quán)重最高的分類器,作為分類精度最高的分類器。在優(yōu)選實(shí)施方式中,用于對(duì)預(yù)定數(shù)量的一組分類器中的每個(gè)分類器進(jìn)行訓(xùn)練的學(xué)習(xí)樣本的數(shù)量可以利用前面結(jié)合方法實(shí)施方式描述的公式計(jì)算,在此不再贅述?,F(xiàn)在參照?qǐng)D7,圖7是示出根據(jù)本發(fā)明的另一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)2000’的示意圖。在如圖7所示的 變化實(shí)施方式中,系統(tǒng)2000’包括訓(xùn)練裝置2001’、選擇裝置2002’、分類裝置2003’。與系統(tǒng)2000相比,系統(tǒng)2000’的區(qū)別在于,還包括存儲(chǔ)器2004。存儲(chǔ)器2004用于存儲(chǔ)近期輸入數(shù)據(jù)及其真實(shí)類別。在優(yōu)選實(shí)施方式中,可以利用前面結(jié)合方法實(shí)施方式描述的公式計(jì)算存儲(chǔ)器2004存儲(chǔ)的近期輸入數(shù)據(jù)的最大數(shù)量q,在此不再贅述。接下來(lái)參見(jiàn)圖8,圖8示出了可用于實(shí)施根據(jù)本發(fā)明的實(shí)施方式的方法和系統(tǒng)的計(jì)算機(jī)的示意性框圖。在圖8中,中央處理單元(cpu)801根據(jù)只讀存儲(chǔ)器(rom)802中存儲(chǔ)的程序或從存儲(chǔ)部分808加載到隨機(jī)存取存儲(chǔ)器(ram)803的程序執(zhí)行各種處理。在ram803中,還根據(jù)需要存儲(chǔ)當(dāng)cpu801執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。cpu801、rom802和ram803經(jīng)由總線804彼此連接。輸入/輸出接口805也連接到總線804。下述部件連接到輸入/輸出接口805:輸入部分806(包括鍵盤、鼠標(biāo)等等)、輸出部分807(包括顯示器,比如陰極射線管(crt)、液晶顯示器(lcd)等,和揚(yáng)聲器等)、存儲(chǔ)部分808(包括硬盤等)、通信部分809(包括網(wǎng)絡(luò)接口卡比如lan卡、調(diào)制解調(diào)器等)。通信部分809經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器810也可連接到輸入/輸出接口805。可拆卸介質(zhì)811比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等可以根據(jù)需要被安裝在驅(qū)動(dòng)器810上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分808中。在通過(guò)軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆卸介質(zhì)811安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖8所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)811。可拆卸介質(zhì)811的例子包含磁盤(包含軟盤(注冊(cè)商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(cd-rom)和數(shù)字通用盤(dvd))、磁光盤(包含迷你盤(md)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器。或者,存儲(chǔ)介質(zhì)可以是rom802、存儲(chǔ)部分708中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。本發(fā)明還提供一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行根據(jù)本發(fā)明的原理和構(gòu)思實(shí)現(xiàn)的方法。相應(yīng)地,用于承載上述存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲(chǔ)介質(zhì)也包括在本發(fā)明的范圍內(nèi)。所述存儲(chǔ)介質(zhì)包括但不限于軟盤、光盤、閃存、磁光盤、存儲(chǔ)卡、存儲(chǔ)棒等。典型應(yīng)用場(chǎng)景本發(fā)明主要應(yīng)用于流數(shù)據(jù)挖掘領(lǐng)域。例如,垃圾郵件分類,股票漲跌預(yù)測(cè),商品推薦等。在這些應(yīng)用中,系統(tǒng)要一邊進(jìn)行預(yù)測(cè)(分類,推薦等等),一邊用新得到的數(shù)據(jù)進(jìn)行更新。在垃圾郵件分類任務(wù)中,真實(shí)類別來(lái)自用戶“標(biāo)記垃圾郵件”或“標(biāo)記非垃圾郵件”。需要注意的是,這種標(biāo)記的數(shù)據(jù)只占全部郵件的一小部分。每周(或每幾周)收集一次當(dāng)周(或這幾周)的標(biāo)記數(shù)據(jù),作為訓(xùn)練數(shù)據(jù)保存起來(lái)。更新分類器的頻率可以是每周、每月等等。每次更新至少要利用最近數(shù)個(gè)月的數(shù)據(jù)。融合分類結(jié)果時(shí),權(quán)重計(jì)算至少使用近一周的數(shù)據(jù)。由于權(quán)重計(jì)算量較大,每次分類重新計(jì)算對(duì)效率有較大影響,可每天或每幾天計(jì)算一次權(quán)重。股票漲跌預(yù)測(cè)系統(tǒng)的實(shí)現(xiàn)與垃圾郵件分類基本相同。不同之處在于,每次漲跌預(yù)測(cè)后很快就能獲得實(shí)際的漲跌信息。因此,漲跌預(yù)測(cè)的正確與否可以自動(dòng)獲得,每次預(yù)測(cè)的數(shù)據(jù)都會(huì)被作為訓(xùn)練數(shù)據(jù)保存起來(lái)。在商品推薦中,不使用多個(gè)分類器,而是使用多個(gè)協(xié)同過(guò)濾模型。協(xié)同過(guò)濾模型的訓(xùn)練不同于分類器,只需要商品的瀏覽數(shù)據(jù)或訂單數(shù)據(jù),不需要推薦正確與否的數(shù)據(jù)。因此,可以在不同時(shí)間的瀏覽、訂單數(shù)據(jù)上直接訓(xùn)練多個(gè)協(xié)同過(guò)濾模型。在融合推薦結(jié)果時(shí),仍需要推薦正確與否的歷史數(shù)據(jù)來(lái)計(jì)算權(quán)重。推薦正確與否,可通過(guò)用戶實(shí)際選擇的商品、鏈接等來(lái)計(jì)算。還需要指出的是,在本發(fā)明的裝置、方法和系統(tǒng)中,各部件或各步驟是可以分解和/或重新組合的。這些分解和/或重新組合應(yīng)該視為本發(fā)明的等效方案。并且,執(zhí)行上述系列處理的步驟可以自然地按照說(shuō)明的順序按時(shí)間順序執(zhí)行,但是并不需要一定按時(shí)間順序執(zhí)行。某些步驟可以并行或彼此獨(dú)立地執(zhí)行。最后,還需要說(shuō)明的是,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者 是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。此外,在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。以上雖然結(jié)合附圖詳細(xì)描述了本發(fā)明的實(shí)施例,但是應(yīng)當(dāng)明白,上面所描述的實(shí)施方式只是用于說(shuō)明本發(fā)明,而并不構(gòu)成對(duì)本發(fā)明的限制。對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),可以對(duì)上述實(shí)施方式作出各種修改和變更而沒(méi)有背離本發(fā)明的實(shí)質(zhì)和范圍。因此,本發(fā)明的范圍僅由所附的權(quán)利要求及其等效含義來(lái)限定。附記附記1.一種對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法,包括:a)分別利用在時(shí)間上從新到舊數(shù)量遞增的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)作為學(xué)習(xí)樣本對(duì)預(yù)定數(shù)量的一組分類器進(jìn)行訓(xùn)練;b)基于所述一組分類器的近期分類結(jié)果,從所述一組分類器中選擇對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器;以及c)利用所選擇的分類器對(duì)當(dāng)前的輸入數(shù)據(jù)進(jìn)行分類。附記2.如附記1所述的方法,其中所述步驟b)進(jìn)一步包括:基于預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重,其中,在時(shí)間上越近期的輸入數(shù)據(jù)在分類器分類正確的情況下,對(duì)分類器的權(quán)重的貢獻(xiàn)越大;以及選擇權(quán)重最高的分類器作為對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器。附記3.如附記2所述的方法,其中通過(guò)如下公式計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重wi其中,m表示預(yù)定的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)的數(shù)量;其中,k表示已獲得其真實(shí)類別的近期輸入數(shù)據(jù)中的第k個(gè)近期輸入數(shù)據(jù),k=1,……,m;其中,rk表示第k個(gè)近期輸入數(shù)據(jù)的真實(shí)類別,lk表示第i個(gè)分類器對(duì)第k個(gè)近期輸入數(shù)據(jù)的分類結(jié)果;并且其中,當(dāng)?shù)趇個(gè)分類器對(duì)第k個(gè)近期輸入數(shù)據(jù)的分類正確時(shí),p(rk,lk)=1,否則,p(rk,lk)=0。附記4.如附記1所述的方法,其中步驟a)中用于對(duì)預(yù)定數(shù)量的一組分類器中的每個(gè)分類器進(jìn)行訓(xùn)練的學(xué)習(xí)樣本的數(shù)量si通過(guò)如下公式計(jì)算:si=i*n其中,i=1,……,c,c表示所述一組分類器中的分類器的數(shù)量,并且n表示用于對(duì)所述一組分類器中的第一個(gè)分類器進(jìn)行訓(xùn)練的近期輸入數(shù)據(jù)的數(shù)量。附記5.如附記3所述的方法,還包括利用存儲(chǔ)器存儲(chǔ)近期輸入數(shù)據(jù)及其真實(shí)類別。附記6.如附記4所述的方法,其中通過(guò)如下公式計(jì)算所述存儲(chǔ)器存儲(chǔ)的近期輸入數(shù)據(jù)的最大數(shù)量q:q=c*n。附記7.如附記1-6中的任一項(xiàng)所述的方法,其中在累積了預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)后進(jìn)行步驟a)。附記8.如附記1-6中的任一項(xiàng)所述的方法,其中步驟a)中的所述真實(shí)類別由用戶反饋得到或者自動(dòng)獲得。附記9.如附記1-6中的任一項(xiàng)所述的方法,其中所述一組分類器中 的分類器為相同的分類器或?yàn)椴煌姆诸惼?。附?0.如附記1-6中的任一項(xiàng)所述的方法,其中所述一組分類器中的分類器選自以下分類器中的一個(gè)或更多個(gè):svm分類器、隨機(jī)樹林分類器、決策樹分類器、knn分類器以及樸素貝葉斯分類器。附記11.一種對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng),包括:訓(xùn)練裝置,所述訓(xùn)練裝置分別利用在時(shí)間上從新到舊數(shù)量遞增的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)作為學(xué)習(xí)樣本對(duì)預(yù)定數(shù)量的一組分類器進(jìn)行訓(xùn)練;選擇裝置,所述選擇裝置基于所述一組分類器的近期分類結(jié)果,從所述一組分類器中選擇對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器;以及分類裝置,所述分類裝置利用所選擇的分類器對(duì)當(dāng)前的輸入數(shù)據(jù)進(jìn)行分類。附記12.如附記11所述的系統(tǒng),其中所述選擇裝置基于預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重,其中,在時(shí)間上越近期的輸入數(shù)據(jù)在分類器分類正確的情況下,對(duì)分類器的權(quán)重的貢獻(xiàn)越大,并且所述選擇裝置選擇權(quán)重最高的分類器作為對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器。附記13.如附記12所述的系統(tǒng),其中所述選擇裝置通過(guò)如下公式計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重wi,其中,n1表示預(yù)定的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)的數(shù)量;其中,k表示已獲得其真實(shí)類別的近期輸入數(shù)據(jù)中的第k個(gè)近期輸入數(shù)據(jù),k=1,……,m;其中,rk表示第k個(gè)近期輸入數(shù)據(jù)的真實(shí)類別,lk表示第i個(gè)分類器 對(duì)第k個(gè)近期輸入數(shù)據(jù)的分類結(jié)果;并且其中,當(dāng)?shù)趇個(gè)分類器對(duì)第k個(gè)近期輸入數(shù)據(jù)的分類正確時(shí),p(rk,lk)=1,否則,p(rk,lk)=0。附記14.如附記11所述的系統(tǒng),其中用于對(duì)預(yù)定數(shù)量的一組分類器中的每個(gè)分類器進(jìn)行訓(xùn)練的學(xué)習(xí)樣本的數(shù)量si通過(guò)如下公式計(jì)算:si=i*n其中,i=1,……,c,c表示所述一組分類器中的分類器的數(shù)量,并且n表示用于對(duì)所述一組分類器中的第一個(gè)分類器進(jìn)行訓(xùn)練的近期輸入數(shù)據(jù)的數(shù)量。附記15.如附記13所述的系統(tǒng),還包括存儲(chǔ)器,用于存儲(chǔ)近期輸入數(shù)據(jù)及其真實(shí)類別。附記16.如附記14所述的系統(tǒng),其中通過(guò)如下公式計(jì)算所述存儲(chǔ)器存儲(chǔ)的近期輸入數(shù)據(jù)的最大數(shù)量q:q=c*n。附記17.如附記11-16中的任一項(xiàng)所述的系統(tǒng),其中在累積了預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)后利用所述訓(xùn)練裝置對(duì)所述一組分類器進(jìn)行訓(xùn)練。附記18.如附記11-16中的任一項(xiàng)所述的系統(tǒng),其中所述真實(shí)類別由用戶反饋得到或者自動(dòng)獲得。附記19.如附記11-16中的任一項(xiàng)所述的系統(tǒng),其中所述一組分類器中的分類器為相同的分類器或?yàn)椴煌姆诸惼鳌8接?0.如附記11-16中的任一項(xiàng)所述的系統(tǒng),其中所述一組分類器 中的分類器選自以下分類器中的一個(gè)或更多個(gè):svm分類器、隨機(jī)樹林分類器、決策樹分類器、knn分類器以及樸素貝葉斯分類器。當(dāng)前第1頁(yè)12