對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法和系統(tǒng)與流程

文檔序號(hào)：11475703閱讀：213來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法和系統(tǒng)與流程

本發(fā)明涉及一種分類方法和系統(tǒng)，具體地涉及對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法和系統(tǒng)。
背景技術(shù)：
：在線學(xué)習(xí)是一種不斷學(xué)習(xí)新數(shù)據(jù)，并更新已有模型的機(jī)器學(xué)習(xí)方法，具有廣泛的應(yīng)用領(lǐng)域，例如流數(shù)據(jù)挖掘。概念漂移是在線學(xué)習(xí)所特有的一個(gè)問(wèn)題，是指時(shí)間上前后的數(shù)據(jù)概念之間存在沖突，無(wú)法用一個(gè)機(jī)器學(xué)習(xí)模型描述?，F(xiàn)實(shí)世界的不斷變化是概念漂移的根源。例如，在垃圾郵件分類應(yīng)用中，關(guān)于新年促銷的郵件在2月至10月會(huì)被當(dāng)作垃圾郵件，而在11月至12月則被認(rèn)為是普通郵件。參見(jiàn)圖1，圖1示出一種典型的現(xiàn)有在線學(xué)習(xí)方法100的示意圖。在方法100中，每當(dāng)獲得新數(shù)據(jù)110(步驟101)，首先調(diào)用分類器120對(duì)新數(shù)據(jù)分類(步驟102)。這里的分類器120是機(jī)器學(xué)習(xí)中的分類器，例如支持向量機(jī)、決策樹、k最近鄰、神經(jīng)網(wǎng)絡(luò)等。分類結(jié)果130作為輸出反饋給用戶或其他程序(步驟103)。接下來(lái)，獲得這個(gè)數(shù)據(jù)的真實(shí)類別(步驟104)。獲得真實(shí)類別的方法可以是自動(dòng)獲得，也可以是人工反饋。如果無(wú)法獲得某數(shù)據(jù)的真實(shí)類別140，并不會(huì)影響方法的繼續(xù)進(jìn)行。方法100將跳過(guò)這一數(shù)據(jù)，不使用這個(gè)數(shù)據(jù)更新分類器120。接下來(lái)，要檢測(cè)和處理概念漂移(步驟105)。首先，檢測(cè)概念漂移(步驟105a)，當(dāng)檢測(cè)到概念漂移時(shí)，對(duì)分類器120進(jìn)行更新，例如刪除分類器120中對(duì)應(yīng)舊概念的部分。最后，用數(shù)據(jù)和其真實(shí)類別更新分類器(步驟105b)。現(xiàn)有的在線學(xué)習(xí)方法使用統(tǒng)計(jì)學(xué)或降維的方法檢測(cè)概念漂移，檢測(cè)精度有限。確定分類器的哪一部分對(duì)應(yīng)舊概念也很困難。這些問(wèn)題導(dǎo)致現(xiàn)有的在線學(xué)習(xí)方法和系統(tǒng)的分類精度有限。由此可見(jiàn)，由于存在概念漂移，現(xiàn)有的在線學(xué)習(xí)方法無(wú)法很好地實(shí)現(xiàn) 數(shù)據(jù)分類。因此，需要提供一種具備處理概念漂移能力的分類方法和系統(tǒng)。技術(shù)實(shí)現(xiàn)要素：在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述，以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解，這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分，也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念，以此作為稍后論述的更詳細(xì)描述的前序。為解決上述問(wèn)題，本發(fā)明提供一種對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法和系統(tǒng)。根據(jù)本發(fā)明的一個(gè)方面，提供一種對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法，包括：a)分別利用在時(shí)間上從新到舊數(shù)量遞增的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)作為學(xué)習(xí)樣本對(duì)預(yù)定數(shù)量的一組分類器進(jìn)行訓(xùn)練；b)基于所述一組分類器的近期分類結(jié)果，從所述一組分類器中選擇對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器；以及c)利用所選擇的分類器對(duì)當(dāng)前的輸入數(shù)據(jù)進(jìn)行分類。根據(jù)本發(fā)明的另一個(gè)方面，提供一種對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)，包括：訓(xùn)練裝置，所述訓(xùn)練裝置分別利用在時(shí)間上從新到舊數(shù)量遞增的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)作為學(xué)習(xí)樣本對(duì)預(yù)定數(shù)量的一組分類器進(jìn)行訓(xùn)練；選擇裝置，所述選擇裝置基于所述一組分類器的近期分類結(jié)果，從所述一組分類器中選擇對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器；以及分類裝置，所述分類裝置利用所選擇的分類器對(duì)當(dāng)前的輸入數(shù)據(jù)進(jìn)行分類。與現(xiàn)有技術(shù)相比，本發(fā)明提出的方法和系統(tǒng)不需要特意地檢測(cè)概念漂移，能夠自動(dòng)處理概念漂移。此外，利用本發(fā)明提出的方法和系統(tǒng)對(duì)輸入數(shù)據(jù)進(jìn)行分類，能夠?qū)崿F(xiàn)很高的分類精度。通過(guò)以下結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施方式的詳細(xì)說(shuō)明，本發(fā)明的上述以及其他優(yōu)點(diǎn)將更加明顯。附圖說(shuō)明為了進(jìn)一步闡述本發(fā)明的以上和其他優(yōu)點(diǎn)和特征，下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)的說(shuō)明。所述附圖連同下面的詳細(xì)說(shuō)明一起包含在本說(shuō)明書中并且形成本說(shuō)明書的一部分。具有相同的功能和結(jié)構(gòu)的元件用相同的參考標(biāo)號(hào)表示。應(yīng)當(dāng)理解，這些附圖僅描述本發(fā)明的典型示例，而不應(yīng)看作是對(duì)本發(fā)明的范圍的限定。在附圖中：圖1是示出一種典型的現(xiàn)有在線學(xué)習(xí)方法的示意圖；圖2是示出根據(jù)本發(fā)明的一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法的示意圖；圖3是示出根據(jù)本發(fā)明的一種實(shí)施方式如何利用輸入數(shù)據(jù)對(duì)分類器進(jìn)行訓(xùn)練的示意圖；圖4是示出根據(jù)本發(fā)明的優(yōu)選實(shí)施方式如何選擇精度最高的分類器的示意圖；圖5是示出根據(jù)本發(fā)明的一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)的示意圖；圖6是示出根據(jù)本發(fā)明的另一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)的示意圖；圖7是示出根據(jù)本發(fā)明的一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)中的選擇裝置的示意圖；圖8是示出可用于實(shí)施根據(jù)本發(fā)明的實(shí)施方式的方法和系統(tǒng)的計(jì)算機(jī)的示意性框圖。具體實(shí)施方式在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見(jiàn)，在說(shuō)明書中并未描述實(shí)際實(shí)施方式的所有特征。然而，應(yīng)該了解，在開發(fā)任何這種實(shí)際實(shí)施例的過(guò)程中必須做出很多特定于實(shí)施方式的決定，以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo)，例如，符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件，并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外，還應(yīng)該了解，雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的，但對(duì)得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來(lái)說(shuō)，這種開發(fā)工作僅僅是例行的任務(wù)。在此，還需要說(shuō)明的一點(diǎn)是，為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明，在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的設(shè)備結(jié)構(gòu)和/或處理步驟，而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。首先參照?qǐng)D2，圖2是示出根據(jù)本發(fā)明的一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法1000的示意圖。如圖2所示，方法1000包括如下步驟：訓(xùn)練分類器(步驟1001)，選擇分類精度最高的分類器(步驟1002)以及對(duì)輸入數(shù)據(jù)進(jìn)行分類(步驟1003)。根據(jù)方法1000，首先分別利用在時(shí)間上從新到舊數(shù)量遞增的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)作為學(xué)習(xí)樣本對(duì)預(yù)定數(shù)量的一組分類器進(jìn)行訓(xùn)練(步驟1001)。其中，分類器的數(shù)量c是需要預(yù)先確定的參數(shù)，并且分類器可以是任何機(jī)器學(xué)習(xí)的分類器，例如支持向量機(jī)、決策樹、k最近鄰、神經(jīng)網(wǎng)絡(luò)等。更具體地，分類器可以為svm分類器、隨機(jī)樹林分類器、決策樹分類器、knn分類器以及樸素貝葉斯分類器。本發(fā)明不以此為限，本領(lǐng)域的技術(shù)人員可以根據(jù)實(shí)際需要，選擇適合的分類器。此外，所述c個(gè)分類器可以是相同的分類器或不同的分類器，即可以只使用一種類型的分類器，也可以混合使用多種類型的分類器。在優(yōu)選實(shí)施方式中，在累積了預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)后進(jìn)行步驟1001。在優(yōu)選實(shí)施方式中，在步驟1001中用于對(duì)預(yù)定數(shù)量的一組分類器中的每個(gè)分類器進(jìn)行訓(xùn)練的學(xué)習(xí)樣本的數(shù)量si通過(guò)如下公式計(jì)算：si＝i*n其中，i＝1，……，c，c表示所述一組分類器中的分類器的數(shù)量，并且n表示用于對(duì)所述一組分類器中的第一個(gè)分類器進(jìn)行訓(xùn)練的近期輸入數(shù)據(jù)的數(shù)量。在優(yōu)選實(shí)施方式中，設(shè)定c個(gè)分類器中的第一個(gè)分類器使用n個(gè)近期輸入數(shù)據(jù)訓(xùn)練，第二個(gè)分類器使用2n個(gè)近期輸入數(shù)據(jù)訓(xùn)練，以此類推。c個(gè)分類器中，哪一個(gè)分類器作為第一個(gè)，哪一個(gè)作為第二個(gè)，對(duì)算法沒(méi)有影響，可以隨機(jī)決定。算法也不限于分別以n個(gè)、2n個(gè)、3n個(gè)這種等差數(shù)列遞增的輸入數(shù)據(jù)對(duì)各分類器進(jìn)行分類，任意的遞增方式都可以。選取訓(xùn)練數(shù)據(jù)時(shí)，要從最近的已獲得其真實(shí)類別的數(shù)據(jù)開始取。因此，在上述優(yōu)選實(shí)施方式中，第一個(gè)分類器的訓(xùn)練數(shù)據(jù)是最近的n個(gè)數(shù)據(jù)，第二個(gè)分類器是最近的2n個(gè)數(shù)據(jù)，以此類推。以這種方式取得的訓(xùn)練數(shù)據(jù)能保證：無(wú)論概念漂移何時(shí)發(fā)生，總有一批訓(xùn)練數(shù)據(jù)最符合當(dāng)前數(shù)據(jù)分布。使用這批數(shù)據(jù)所訓(xùn)練的分類器也最適應(yīng)當(dāng)前分布。即，這個(gè)分類器會(huì) 在最近的一批數(shù)據(jù)上分類精度最高。因此，它的分類結(jié)果會(huì)被分類器融合方法選擇作為融合后的結(jié)果。參見(jiàn)圖3，圖3是示出根據(jù)本發(fā)明的一種實(shí)施方式如何利用輸入數(shù)據(jù)對(duì)分類器進(jìn)行訓(xùn)練的示意圖。假設(shè)當(dāng)前正在對(duì)第101個(gè)數(shù)據(jù)進(jìn)行分類，而概念漂移發(fā)生在第50個(gè)數(shù)據(jù)處。以前面的優(yōu)選實(shí)施方式為例，取n＝10，則第1、5、10個(gè)分類器的訓(xùn)練數(shù)據(jù)如圖3所示。由于概念漂移發(fā)生在第50個(gè)數(shù)據(jù)處，第10個(gè)分類器的訓(xùn)練數(shù)據(jù)包含概念漂移前后的數(shù)據(jù)，所以其在當(dāng)前數(shù)據(jù)分布上的分類精度應(yīng)該較低。第5個(gè)分類器的訓(xùn)練數(shù)據(jù)包含全部概念漂移后的數(shù)據(jù)，所以其分類精度應(yīng)該是最高的。第1個(gè)分類器的訓(xùn)練數(shù)據(jù)僅包含漂移后的數(shù)據(jù)，但其訓(xùn)練數(shù)據(jù)較少，分類精度應(yīng)該低于第5個(gè)分類器。依據(jù)分類器融合算法，第5個(gè)分類器的分類結(jié)果應(yīng)該作為融合后的結(jié)果。對(duì)分類結(jié)果的融合，將在后面的內(nèi)容中詳細(xì)描述。接著，在完成步驟1001之后，基于所述一組分類器的近期分類結(jié)果，從所述一組分類器中選擇對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器(步驟1002)。在優(yōu)選實(shí)施方式中，基于預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重，其中，在時(shí)間上越近期的輸入數(shù)據(jù)在分類器分類正確的情況下，對(duì)分類器的權(quán)重的貢獻(xiàn)越大，并且選擇權(quán)重最高的分類器作為對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器。本領(lǐng)域的技術(shù)人員容易理解的是，可以根據(jù)實(shí)際應(yīng)用設(shè)定用于計(jì)算分類器權(quán)重的近期輸入數(shù)據(jù)的數(shù)量m。參見(jiàn)圖4，圖4是示出根據(jù)本發(fā)明的優(yōu)選實(shí)施方式如何選擇精度最高的分類器的示意圖。如圖所示，步驟1002’可以包括如下步驟：利用預(yù)定數(shù)量的已知其真實(shí)類別的輸入數(shù)據(jù)，計(jì)算每個(gè)分類器的權(quán)重(步驟1012)以及通過(guò)所計(jì)算的權(quán)重從分類器中選擇權(quán)重最高的分類器(步驟1022)。舉例來(lái)說(shuō)，若用于計(jì)算分類器權(quán)重的近期輸入數(shù)據(jù)的數(shù)量m被設(shè)定為5，并且當(dāng)前處理的數(shù)據(jù)為第105個(gè)數(shù)據(jù)，則利用此前已經(jīng)獲得真實(shí)類別的第100個(gè)至第104個(gè)數(shù)據(jù)計(jì)算各分類器的權(quán)重。本領(lǐng)域的技術(shù)人員容易理解的是，在變化實(shí)施方式中，近期輸入數(shù)據(jù)的真實(shí)類別可以是定時(shí)獲得的，或者是分批獲得的。在這種情況下，若在處理第105個(gè)數(shù)據(jù)時(shí)，尚未獲知第104個(gè)數(shù)據(jù)的真實(shí)類別，則使用已獲得其真實(shí)類別的此前的輸入數(shù)據(jù)來(lái)計(jì)算權(quán)重，如可以利用第99個(gè)至第103 個(gè)數(shù)據(jù)來(lái)計(jì)算各分類器的權(quán)重。以此類推，在此不多加贅述。在進(jìn)一步優(yōu)選的實(shí)施方式中，在步驟1012中通過(guò)如下公式計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重wi：其中，m表示預(yù)定的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)的數(shù)量；其中，k表示已獲得其真實(shí)類別的近期輸入數(shù)據(jù)中的第k個(gè)近期輸入數(shù)據(jù)，k＝1，……，m；其中，rk表示第i個(gè)分類器對(duì)第k個(gè)近期輸入數(shù)據(jù)的分類結(jié)果，lk表示第k個(gè)近期輸入數(shù)據(jù)的真實(shí)類別；并且其中，當(dāng)?shù)趇個(gè)分類器對(duì)第k個(gè)近期輸入數(shù)據(jù)的分類正確時(shí)，p(rk,lk)＝1，否則，p(rk,lk)＝0。下面對(duì)如何計(jì)算分類器的權(quán)重進(jìn)行詳細(xì)說(shuō)明。在獲得新數(shù)據(jù)后，各個(gè)分類器獨(dú)立對(duì)新數(shù)據(jù)進(jìn)行分類。因此，c個(gè)分類器會(huì)產(chǎn)生c個(gè)分類結(jié)果。算法依據(jù)每個(gè)分類器在最近的一批已獲得其真實(shí)類別的數(shù)據(jù)上的分類結(jié)果和其真實(shí)類別，為每個(gè)分類器計(jì)算一個(gè)權(quán)重wi。越新的數(shù)據(jù)對(duì)權(quán)重計(jì)算的影響越大，即在上述公式中的參數(shù)k針對(duì)越近期的數(shù)據(jù)其取值越小。換言之，最近期的數(shù)據(jù)，其對(duì)應(yīng)的k值為1，倒數(shù)第二個(gè)最近期的數(shù)據(jù)，其對(duì)應(yīng)的k值為2，倒數(shù)第三個(gè)最近期的數(shù)據(jù)，其對(duì)應(yīng)的k值為3，以此類推。在獲得每個(gè)分類器的權(quán)重后，找到權(quán)重最大的分類器，并以這個(gè)分類器的分類結(jié)果作為融合后的結(jié)果。在優(yōu)選實(shí)施方式中，假設(shè)正在處理數(shù)據(jù)d6，權(quán)重在最近5個(gè)數(shù)據(jù)上計(jì)算，即m值取為5。在數(shù)據(jù)d6之前，已經(jīng)處理過(guò)數(shù)據(jù)d1-d5。在d1-d5中，d1是最舊的數(shù)據(jù)，其對(duì)應(yīng)k值為5，d5是最新的數(shù)據(jù)，其對(duì)應(yīng)k值為1。如果一個(gè)分類器對(duì)數(shù)據(jù)d1-d5的分類結(jié)果和d1-d5的實(shí)際類別如下表1，并且表1對(duì)應(yīng)的各數(shù)據(jù)的分類器分類結(jié)果rk和真實(shí)類別lk的值如表2所示。數(shù)據(jù)d1d2d3d4d5分類結(jié)果12345真實(shí)類別02365表1r5r4r3r2r112345l5l4l3l2l102365表2那么這個(gè)分類器在處理d6時(shí)，基于數(shù)據(jù)d1-d5計(jì)算權(quán)重的公式如下所示：從而，如上所述計(jì)算每個(gè)分類器的權(quán)重，來(lái)從分類器中選擇分類精度最高的分類器。然后，方法1000進(jìn)行到最后一步，利用所選擇的分類器對(duì)當(dāng)前的輸入數(shù)據(jù)進(jìn)行分類(步驟1003)。在其他實(shí)施方式中，方法1000還可以包括利用存儲(chǔ)器存儲(chǔ)近期輸入數(shù)據(jù)及其真實(shí)類別。并且，在優(yōu)選實(shí)施方式中，通過(guò)如下公式計(jì)算所述存儲(chǔ)器存儲(chǔ)的近期輸入數(shù)據(jù)的最大數(shù)量q：q＝c*n在如上所述的各種方法中，輸入數(shù)據(jù)的真實(shí)類別可以由用戶反饋得到或者自動(dòng)獲得。下面參照?qǐng)D5，圖5是示出根據(jù)本發(fā)明的一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)2000的示意圖。如圖所示，系統(tǒng)2000包括訓(xùn)練裝置2001、選擇裝置2002以及分類裝置2003。其中，訓(xùn)練裝置2001分別利用在時(shí)間上從新到舊數(shù)量遞增的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)作為學(xué)習(xí)樣本對(duì)預(yù)定數(shù)量的一組分類器進(jìn)行訓(xùn)練。選擇裝置2002基于所述一組分類器的近期分類結(jié)果，從所述一組分類器中選擇對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器。分類裝置2003利用所選擇的分類器對(duì)當(dāng)前的輸入數(shù)據(jù)進(jìn)行分類。在優(yōu)選實(shí)施方式中，在累積了預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)后利用所述訓(xùn)練裝置對(duì)所述一組分類器進(jìn)行訓(xùn)練。在優(yōu)選實(shí)施方式中，所述真實(shí)類別由用戶反饋得到或者自動(dòng)獲得。在優(yōu)選實(shí)施方式中，所述一組分類器中的分類器可以為相同的分類器或?yàn)椴煌姆诸惼?。在?yōu)選實(shí)施方式中，其中所述一組分類器中的分類器可以選自以下分類器中的一個(gè)或更多個(gè)：svm分類器、隨機(jī)樹林分類器、決策樹分類器、knn分類器以及樸素貝葉斯分類器。本發(fā)明不以此為限，本領(lǐng)域的技術(shù)人員可以根據(jù)實(shí)際需要，選擇適合的分類器。在優(yōu)選實(shí)施方式中，選擇裝置2002基于預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重，并且根據(jù)權(quán)重來(lái)選擇分類器中分類精度最高的分類器。具體地，選擇裝置2002選擇權(quán)重最高的分類器作為對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器，其中，在時(shí)間上越近期的輸入數(shù)據(jù)在分類器分類正確的情況下，對(duì)分類器的權(quán)重的貢獻(xiàn)越大。參見(jiàn)圖6，圖6是示出根據(jù)本發(fā)明的一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)中的選擇裝置的示意圖。在如圖6所示的實(shí)施方式中，系統(tǒng)2000中的選擇裝置2002”可以包括計(jì)算單元2012和選擇單元2022。其中，計(jì)算單元2012利用預(yù)定數(shù)量的已知其真實(shí)類別的輸入數(shù)據(jù)，計(jì)算每個(gè)分類器的權(quán)重。在優(yōu)選實(shí)施方式中，可以利用前面結(jié)合方法實(shí)施方式描述的公式計(jì)算每個(gè)分類器的權(quán)重，在此不再贅述。并且，選擇單元2022用于通過(guò)所計(jì)算的權(quán)重從分類器中選擇權(quán)重最高的分類器，作為分類精度最高的分類器。在優(yōu)選實(shí)施方式中，用于對(duì)預(yù)定數(shù)量的一組分類器中的每個(gè)分類器進(jìn)行訓(xùn)練的學(xué)習(xí)樣本的數(shù)量可以利用前面結(jié)合方法實(shí)施方式描述的公式計(jì)算，在此不再贅述?，F(xiàn)在參照?qǐng)D7，圖7是示出根據(jù)本發(fā)明的另一種實(shí)施方式的對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)2000’的示意圖。在如圖7所示的變化實(shí)施方式中，系統(tǒng)2000’包括訓(xùn)練裝置2001’、選擇裝置2002’、分類裝置2003’。與系統(tǒng)2000相比，系統(tǒng)2000’的區(qū)別在于，還包括存儲(chǔ)器2004。存儲(chǔ)器2004用于存儲(chǔ)近期輸入數(shù)據(jù)及其真實(shí)類別。在優(yōu)選實(shí)施方式中，可以利用前面結(jié)合方法實(shí)施方式描述的公式計(jì)算存儲(chǔ)器2004存儲(chǔ)的近期輸入數(shù)據(jù)的最大數(shù)量q，在此不再贅述。接下來(lái)參見(jiàn)圖8，圖8示出了可用于實(shí)施根據(jù)本發(fā)明的實(shí)施方式的方法和系統(tǒng)的計(jì)算機(jī)的示意性框圖。在圖8中，中央處理單元(cpu)801根據(jù)只讀存儲(chǔ)器(rom)802中存儲(chǔ)的程序或從存儲(chǔ)部分808加載到隨機(jī)存取存儲(chǔ)器(ram)803的程序執(zhí)行各種處理。在ram803中，還根據(jù)需要存儲(chǔ)當(dāng)cpu801執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。cpu801、rom802和ram803經(jīng)由總線804彼此連接。輸入/輸出接口805也連接到總線804。下述部件連接到輸入/輸出接口805：輸入部分806(包括鍵盤、鼠標(biāo)等等)、輸出部分807(包括顯示器，比如陰極射線管(crt)、液晶顯示器(lcd)等，和揚(yáng)聲器等)、存儲(chǔ)部分808(包括硬盤等)、通信部分809(包括網(wǎng)絡(luò)接口卡比如lan卡、調(diào)制解調(diào)器等)。通信部分809經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要，驅(qū)動(dòng)器810也可連接到輸入/輸出接口805。可拆卸介質(zhì)811比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等可以根據(jù)需要被安裝在驅(qū)動(dòng)器810上，使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分808中。在通過(guò)軟件實(shí)現(xiàn)上述系列處理的情況下，從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆卸介質(zhì)811安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，這種存儲(chǔ)介質(zhì)不局限于圖8所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)811。可拆卸介質(zhì)811的例子包含磁盤(包含軟盤(注冊(cè)商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(cd-rom)和數(shù)字通用盤(dvd))、磁光盤(包含迷你盤(md)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器。或者，存儲(chǔ)介質(zhì)可以是rom802、存儲(chǔ)部分708中包含的硬盤等等，其中存有程序，并且與包含它們的設(shè)備一起被分發(fā)給用戶。本發(fā)明還提供一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機(jī)器讀取并執(zhí)行時(shí)，可執(zhí)行根據(jù)本發(fā)明的原理和構(gòu)思實(shí)現(xiàn)的方法。相應(yīng)地，用于承載上述存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲(chǔ)介質(zhì)也包括在本發(fā)明的范圍內(nèi)。所述存儲(chǔ)介質(zhì)包括但不限于軟盤、光盤、閃存、磁光盤、存儲(chǔ)卡、存儲(chǔ)棒等。典型應(yīng)用場(chǎng)景本發(fā)明主要應(yīng)用于流數(shù)據(jù)挖掘領(lǐng)域。例如，垃圾郵件分類，股票漲跌預(yù)測(cè)，商品推薦等。在這些應(yīng)用中，系統(tǒng)要一邊進(jìn)行預(yù)測(cè)(分類，推薦等等)，一邊用新得到的數(shù)據(jù)進(jìn)行更新。在垃圾郵件分類任務(wù)中，真實(shí)類別來(lái)自用戶“標(biāo)記垃圾郵件”或“標(biāo)記非垃圾郵件”。需要注意的是，這種標(biāo)記的數(shù)據(jù)只占全部郵件的一小部分。每周(或每幾周)收集一次當(dāng)周(或這幾周)的標(biāo)記數(shù)據(jù)，作為訓(xùn)練數(shù)據(jù)保存起來(lái)。更新分類器的頻率可以是每周、每月等等。每次更新至少要利用最近數(shù)個(gè)月的數(shù)據(jù)。融合分類結(jié)果時(shí)，權(quán)重計(jì)算至少使用近一周的數(shù)據(jù)。由于權(quán)重計(jì)算量較大，每次分類重新計(jì)算對(duì)效率有較大影響，可每天或每幾天計(jì)算一次權(quán)重。股票漲跌預(yù)測(cè)系統(tǒng)的實(shí)現(xiàn)與垃圾郵件分類基本相同。不同之處在于，每次漲跌預(yù)測(cè)后很快就能獲得實(shí)際的漲跌信息。因此，漲跌預(yù)測(cè)的正確與否可以自動(dòng)獲得，每次預(yù)測(cè)的數(shù)據(jù)都會(huì)被作為訓(xùn)練數(shù)據(jù)保存起來(lái)。在商品推薦中，不使用多個(gè)分類器，而是使用多個(gè)協(xié)同過(guò)濾模型。協(xié)同過(guò)濾模型的訓(xùn)練不同于分類器，只需要商品的瀏覽數(shù)據(jù)或訂單數(shù)據(jù)，不需要推薦正確與否的數(shù)據(jù)。因此，可以在不同時(shí)間的瀏覽、訂單數(shù)據(jù)上直接訓(xùn)練多個(gè)協(xié)同過(guò)濾模型。在融合推薦結(jié)果時(shí)，仍需要推薦正確與否的歷史數(shù)據(jù)來(lái)計(jì)算權(quán)重。推薦正確與否，可通過(guò)用戶實(shí)際選擇的商品、鏈接等來(lái)計(jì)算。還需要指出的是，在本發(fā)明的裝置、方法和系統(tǒng)中，各部件或各步驟是可以分解和/或重新組合的。這些分解和/或重新組合應(yīng)該視為本發(fā)明的等效方案。并且，執(zhí)行上述系列處理的步驟可以自然地按照說(shuō)明的順序按時(shí)間順序執(zhí)行，但是并不需要一定按時(shí)間順序執(zhí)行。某些步驟可以并行或彼此獨(dú)立地執(zhí)行。最后，還需要說(shuō)明的是，術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素，而且還包括沒(méi)有明確列出的其他要素，或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。此外，在沒(méi)有更多限制的情況下，由語(yǔ)句“包括一個(gè)……”限定的要素，并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。以上雖然結(jié)合附圖詳細(xì)描述了本發(fā)明的實(shí)施例，但是應(yīng)當(dāng)明白，上面所描述的實(shí)施方式只是用于說(shuō)明本發(fā)明，而并不構(gòu)成對(duì)本發(fā)明的限制。對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)，可以對(duì)上述實(shí)施方式作出各種修改和變更而沒(méi)有背離本發(fā)明的實(shí)質(zhì)和范圍。因此，本發(fā)明的范圍僅由所附的權(quán)利要求及其等效含義來(lái)限定。附記附記1.一種對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法，包括：a)分別利用在時(shí)間上從新到舊數(shù)量遞增的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)作為學(xué)習(xí)樣本對(duì)預(yù)定數(shù)量的一組分類器進(jìn)行訓(xùn)練；b)基于所述一組分類器的近期分類結(jié)果，從所述一組分類器中選擇對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器；以及c)利用所選擇的分類器對(duì)當(dāng)前的輸入數(shù)據(jù)進(jìn)行分類。附記2.如附記1所述的方法，其中所述步驟b)進(jìn)一步包括：基于預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重，其中，在時(shí)間上越近期的輸入數(shù)據(jù)在分類器分類正確的情況下，對(duì)分類器的權(quán)重的貢獻(xiàn)越大；以及選擇權(quán)重最高的分類器作為對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器。附記3.如附記2所述的方法，其中通過(guò)如下公式計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重wi其中，m表示預(yù)定的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)的數(shù)量；其中，k表示已獲得其真實(shí)類別的近期輸入數(shù)據(jù)中的第k個(gè)近期輸入數(shù)據(jù)，k＝1，……，m；其中，rk表示第k個(gè)近期輸入數(shù)據(jù)的真實(shí)類別，lk表示第i個(gè)分類器對(duì)第k個(gè)近期輸入數(shù)據(jù)的分類結(jié)果；并且其中，當(dāng)?shù)趇個(gè)分類器對(duì)第k個(gè)近期輸入數(shù)據(jù)的分類正確時(shí)，p(rk,lk)＝1，否則，p(rk,lk)＝0。附記4.如附記1所述的方法，其中步驟a)中用于對(duì)預(yù)定數(shù)量的一組分類器中的每個(gè)分類器進(jìn)行訓(xùn)練的學(xué)習(xí)樣本的數(shù)量si通過(guò)如下公式計(jì)算：si＝i*n其中，i＝1，……，c，c表示所述一組分類器中的分類器的數(shù)量，并且n表示用于對(duì)所述一組分類器中的第一個(gè)分類器進(jìn)行訓(xùn)練的近期輸入數(shù)據(jù)的數(shù)量。附記5.如附記3所述的方法，還包括利用存儲(chǔ)器存儲(chǔ)近期輸入數(shù)據(jù)及其真實(shí)類別。附記6.如附記4所述的方法，其中通過(guò)如下公式計(jì)算所述存儲(chǔ)器存儲(chǔ)的近期輸入數(shù)據(jù)的最大數(shù)量q：q＝c*n。附記7.如附記1-6中的任一項(xiàng)所述的方法，其中在累積了預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)后進(jìn)行步驟a)。附記8.如附記1-6中的任一項(xiàng)所述的方法，其中步驟a)中的所述真實(shí)類別由用戶反饋得到或者自動(dòng)獲得。附記9.如附記1-6中的任一項(xiàng)所述的方法，其中所述一組分類器中的分類器為相同的分類器或?yàn)椴煌姆诸惼?。附?0.如附記1-6中的任一項(xiàng)所述的方法，其中所述一組分類器中的分類器選自以下分類器中的一個(gè)或更多個(gè)：svm分類器、隨機(jī)樹林分類器、決策樹分類器、knn分類器以及樸素貝葉斯分類器。附記11.一種對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的系統(tǒng)，包括：訓(xùn)練裝置，所述訓(xùn)練裝置分別利用在時(shí)間上從新到舊數(shù)量遞增的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)作為學(xué)習(xí)樣本對(duì)預(yù)定數(shù)量的一組分類器進(jìn)行訓(xùn)練；選擇裝置，所述選擇裝置基于所述一組分類器的近期分類結(jié)果，從所述一組分類器中選擇對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器；以及分類裝置，所述分類裝置利用所選擇的分類器對(duì)當(dāng)前的輸入數(shù)據(jù)進(jìn)行分類。附記12.如附記11所述的系統(tǒng)，其中所述選擇裝置基于預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重，其中，在時(shí)間上越近期的輸入數(shù)據(jù)在分類器分類正確的情況下，對(duì)分類器的權(quán)重的貢獻(xiàn)越大，并且所述選擇裝置選擇權(quán)重最高的分類器作為對(duì)近期輸入數(shù)據(jù)的分類精度最高的分類器。附記13.如附記12所述的系統(tǒng)，其中所述選擇裝置通過(guò)如下公式計(jì)算所述一組分類器中的每個(gè)分類器的權(quán)重wi，其中，n1表示預(yù)定的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)的數(shù)量；其中，k表示已獲得其真實(shí)類別的近期輸入數(shù)據(jù)中的第k個(gè)近期輸入數(shù)據(jù)，k＝1，……，m；其中，rk表示第k個(gè)近期輸入數(shù)據(jù)的真實(shí)類別，lk表示第i個(gè)分類器對(duì)第k個(gè)近期輸入數(shù)據(jù)的分類結(jié)果；并且其中，當(dāng)?shù)趇個(gè)分類器對(duì)第k個(gè)近期輸入數(shù)據(jù)的分類正確時(shí)，p(rk,lk)＝1，否則，p(rk,lk)＝0。附記14.如附記11所述的系統(tǒng)，其中用于對(duì)預(yù)定數(shù)量的一組分類器中的每個(gè)分類器進(jìn)行訓(xùn)練的學(xué)習(xí)樣本的數(shù)量si通過(guò)如下公式計(jì)算：si＝i*n其中，i＝1，……，c，c表示所述一組分類器中的分類器的數(shù)量，并且n表示用于對(duì)所述一組分類器中的第一個(gè)分類器進(jìn)行訓(xùn)練的近期輸入數(shù)據(jù)的數(shù)量。附記15.如附記13所述的系統(tǒng)，還包括存儲(chǔ)器，用于存儲(chǔ)近期輸入數(shù)據(jù)及其真實(shí)類別。附記16.如附記14所述的系統(tǒng)，其中通過(guò)如下公式計(jì)算所述存儲(chǔ)器存儲(chǔ)的近期輸入數(shù)據(jù)的最大數(shù)量q：q＝c*n。附記17.如附記11-16中的任一項(xiàng)所述的系統(tǒng)，其中在累積了預(yù)定數(shù)量的已獲得其真實(shí)類別的近期輸入數(shù)據(jù)后利用所述訓(xùn)練裝置對(duì)所述一組分類器進(jìn)行訓(xùn)練。附記18.如附記11-16中的任一項(xiàng)所述的系統(tǒng)，其中所述真實(shí)類別由用戶反饋得到或者自動(dòng)獲得。附記19.如附記11-16中的任一項(xiàng)所述的系統(tǒng)，其中所述一組分類器中的分類器為相同的分類器或?yàn)椴煌姆诸惼鳌８接?0.如附記11-16中的任一項(xiàng)所述的系統(tǒng)，其中所述一組分類器中的分類器選自以下分類器中的一個(gè)或更多個(gè)：svm分類器、隨機(jī)樹林分類器、決策樹分類器、knn分類器以及樸素貝葉斯分類器。當(dāng)前第1頁(yè)12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐卓然;侯翠琴;夏迎炬;孫俊
技術(shù)所有人：富士通株式會(huì)社
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

對(duì)在時(shí)間上逐一到達(dá)的輸入數(shù)據(jù)進(jìn)行分類的方法和系統(tǒng)與流程