本發(fā)明屬于計算機數(shù)據(jù)處理領域,尤其涉及一種自適應更新的數(shù)據(jù)處理方法和裝置。
背景技術:
:隨著互聯(lián)網(wǎng)技術的發(fā)展,出現(xiàn)了大量的網(wǎng)絡應用,例如:網(wǎng)絡社交、網(wǎng)絡閱讀、股票基金交易等等。網(wǎng)絡應用提供方為了向用戶推薦具有針對性的信息,通常會周期性地對當前的數(shù)據(jù)進行處理,然后,向用戶推送預測性的信息。為了提高預測效率和準確性,在大多數(shù)網(wǎng)絡應用中通常采用分類模型進行分類預測。隨機森林分類模型是應用比較普遍的分類模型之一,該分類模型由多棵決策樹組成,當待分類樣本進入隨機森林時,由該多棵決策樹進行分類,最后選取被所有決策樹選擇次數(shù)最多的類別作為最終的分類結(jié)果。在傳統(tǒng)應用中,通常采用離線的機器學習過程構(gòu)造該分類模型:通過對全量的用戶行為數(shù)據(jù)的學習、分析與訓練,得出關于分類的知識,從而完成對分類模型的構(gòu)建并部署上線。隨著時間的推移,在線上部署的分類模型通常會逐漸退化,其分類的準確率可能無法滿足要求。在傳統(tǒng)的機器學習領域,都是基于離線學習,隨著數(shù)據(jù)量的增大,處理能力越來越下降,特別在金融交易領域,信息瞬息萬變,會導致交易系統(tǒng)會有一定的滯后性。因此,亟需一種能夠自動進行更新的預測模型對數(shù)據(jù)進行處理。技術實現(xiàn)要素:本發(fā)明針對上述問題,提出一種通過對預測模型中的決策樹進行更新而實現(xiàn)自適應修改的數(shù)據(jù)處理方法以及裝置。本發(fā)明的第一方面提出了一種數(shù)據(jù)處理方法,其特征在于,包括:獲取預定時間段內(nèi)的增量數(shù)據(jù),并基于是否存在分類模型來確定生成決策樹的數(shù)量;若存在分類模型,則根據(jù)所述增量數(shù)據(jù)生成增量決策樹,并基于所述增量決策樹和所述分類模型中的模型決策樹和所述增量決策樹來對所述增量數(shù)據(jù)進行標簽預測,其中,所述增量決策樹的數(shù)量基于所述原始決策樹的數(shù)量來確定;確定所述分類模型中的模型決策樹和所述增量決策樹中的各個決策樹的綜合性能;基于所述各個決策樹的綜合性能,從所述分類模型中的模型決策樹和所述增量決策樹中選取預定數(shù)量的決策樹來作為更新后的所述分類模型中的模型決策樹。通過該實施方式中的數(shù)據(jù)處理方法,分類模型能夠基于當前新獲得的數(shù)據(jù)進行更新,適應數(shù)據(jù)的新的趨勢變化,進而保證了準確率。另外,由于增量決策樹的數(shù)量基于原始決策樹的數(shù)量來確定,因此分類模型的結(jié)構(gòu)、決策樹數(shù)量的配置將更為靈活,有益于提高適用性。在一種實施方式中,所述各個決策樹的綜合性能至少基于所述各個決策樹的建立時間以及針對所述增量數(shù)據(jù)的預測準確率來確定。該實施方式給出了如何確定決策樹的綜合性能??梢岳斫獾?,綜合性能還可以與其它的參數(shù)相關。通過確定決策樹的綜合性能,便可以對各個決策樹進行排序。具體地,排序的步驟包括:根據(jù)所述標簽預測的結(jié)果來確定所述各個決策樹針對所述增量數(shù)據(jù)的預測準確率;將所述各個決策樹的建立時間作為確定所述綜合性能的權重,并對所述增量數(shù)據(jù)的預測準確率進行排序;其中,建立時間長的決策樹的權重小于建立時間短的決策樹的權重。在一種實施方式中,根據(jù)所述增量數(shù)據(jù)生成所述增量決策樹包括:對所述增量數(shù)據(jù)有放回地抽取多個樣本集,并基于所述多個樣本集進而生成多個所述增量決策樹。在一種實施方式中,所述增量決策樹的數(shù)量的范圍為是所述分類模型中的模型決策樹的數(shù)量的10%至30%。在該實施方式中,對增量決策樹的數(shù)量進行了限定,在對分類模型進行更新的情況下,不影響分類模型的穩(wěn)定性。在一種實施方式中,所選取的預定數(shù)量的決策樹的數(shù)目數(shù)量等于所述分類模型中的原有的模型決策樹的數(shù)量。該實施方式對選擇的決策樹的數(shù)目進行了限定。在一種實施方式中,若不存在所述分類模型,則根據(jù)歷史數(shù)據(jù)創(chuàng)建包括模型決策樹的分類模型,其中,所述歷史數(shù)據(jù)是已分類的數(shù)據(jù)。本發(fā)明的第二方面提出了一種有形的計算機可讀存儲介質(zhì),該介質(zhì)包括指令,當該指令被執(zhí)行時,引起計算設備至少用于:獲取預定時間段內(nèi)的增量數(shù)據(jù),并基于是否存在分類模型來確定生成決策樹的數(shù)量;若存在分類模型,則根據(jù)所述增量數(shù)據(jù)生成增量決策樹,并基于所述增量決策樹和所述分類模型中的模型決策樹和所述增量決策樹來對所述增量數(shù)據(jù)進行標簽預測,其中,所述增量決策樹的數(shù)量基于所述原始決策樹的數(shù)量來確定;確定所述分類模型中的模型決策樹和所述增量決策樹中的各個決策樹的綜合性能;基于所述各個決策樹的綜合性能,從所述分類模型中的模型決策樹和所述增量決策樹中選取預定數(shù)量的決策樹來作為更新后的所述分類模型中的模型決策樹。在一種實施方式中,該指令引起所述計算設備至少基于所述各個決策樹的建立時間以及針對所述增量數(shù)據(jù)的預測準確率來確定所述各個決策樹的綜合性能。在一種實施方式中,確定所述各個決策樹的綜合性能的步驟包括:根據(jù)所述標簽預測的結(jié)果來確定所述各個決策樹針對所述增量數(shù)據(jù)的預測準確率;將所述各個決策樹的建立時間作為確定所述綜合性能的權重,并對所述增量數(shù)據(jù)的預測準確率進行排序;其中,建立時間長的決策樹的權重小于建立時間短的決策樹的權重。在一種實施方式中,根據(jù)所述增量數(shù)據(jù)生成所述增量決策樹包括:對所述增量數(shù)據(jù)有放回地抽取多個樣本集,進而基于所述多個樣本集來生成多個所述增量決策樹,所述增量決策樹的數(shù)量的范圍為是所述分類模型中的模型決策樹的數(shù)量的10%至30%。在一種實施方式中,所選取的預定數(shù)量的決策樹的數(shù)目數(shù)量等于所述分類模型中的原有的模型決策樹的數(shù)量。在一種實施方式中,該指令引起所述計算設備判斷出不存在所述分類模型時,根據(jù)歷史數(shù)據(jù)創(chuàng)建包括模型決策樹的分類模型,其中,所述歷史數(shù)據(jù)是已分類的數(shù)據(jù)。本發(fā)明的第三方面提出了一種用于數(shù)據(jù)處理的裝置,包括:增量數(shù)據(jù)輸入單元,其被配置為獲取預定時間段內(nèi)的增量數(shù)據(jù);判斷單元,其被配置為根據(jù)是否存在分類模型來生成表征存在所述分類模型的第一信號以及表征不存在所述分類模型的第二信號;決策樹生成單元,其耦合至所述增量數(shù)據(jù)輸入單元,并被配置為基于響應于所述第一信號來根據(jù)所述增量數(shù)據(jù)生成增量決策樹;標簽預測單元,其被配置為根據(jù)分類模型中的模型決策樹和所述增量決策樹來對所述增量數(shù)據(jù)進行標簽預測;決策樹選擇單元,其被配置為根據(jù)分類模型中的模型決策樹和所述增量決策樹中的各個決策樹的綜合性能來選擇預定數(shù)量的決策樹;以及模型更新單元,其被配置為將經(jīng)選擇的所述預定數(shù)量的決策樹作為更新后的所述分類模型中的模型決策樹。在一種實施方式中,所述決策樹選擇單元還包括:準確率確定單元,其被配置為根據(jù)所述標簽預測的結(jié)果來確定所述各個決策樹針對所述增量數(shù)據(jù)的預測準確率;決策樹綜合性能排序單元,其被配置為將所述各個決策樹的建立時間作為確定所述綜合性能的權重,并對所述增量數(shù)據(jù)的預測準確率進行排序;其中,建立時間長的決策樹的權重小于建立時間短的決策樹的權重。在一種實施方式中,所述數(shù)據(jù)處理裝置,還包括:歷史數(shù)據(jù)輸入單元,其被配置為獲取經(jīng)分類的歷史數(shù)據(jù);其中,所述決策樹生成單元耦合至所述歷史數(shù)據(jù)輸入單元,并被配置為基于響應于所述第二信號來根據(jù)所述歷史數(shù)據(jù)生成包含模型決策樹的所述分類模型。在一種實施方式中,所選取的預定數(shù)量的決策樹的數(shù)目數(shù)量等于所述分類模型中原有的模型決策樹的數(shù)量本發(fā)明通過增量數(shù)據(jù)進行分類模型的更新,使得分類模型能夠及時地或者近似實時地根據(jù)樣本數(shù)據(jù)的變化做出相應的調(diào)整,實現(xiàn)了分類模型與最新樣本數(shù)據(jù)的同步。同時,實現(xiàn)了通過初始的步驟,在模型的業(yè)務周期內(nèi),不再需要人工干預,大大節(jié)約了成本,具備智能化、高效性的特點。附圖說明參考附圖示出并闡明實施例。這些附圖用于闡明基本原理,從而僅僅示出了對于理解基本原理必要的方面。這些附圖不是按比例的。在附圖中,相同的附圖標記表示相似的特征。圖1為依據(jù)本發(fā)明實施例的數(shù)據(jù)處理方法的流程圖;圖2為依據(jù)本發(fā)明實施例的數(shù)據(jù)處理裝置的結(jié)構(gòu)圖;圖3為依據(jù)本發(fā)明實施例的決策樹選擇單元的架構(gòu)圖。具體實施方式在以下優(yōu)選的實施例的具體描述中,將參考構(gòu)成本發(fā)明一部分的所附的附圖。所附的附圖通過示例的方式示出了能夠?qū)崿F(xiàn)本發(fā)明的特定的實施例。示例的實施例并不旨在窮盡根據(jù)本發(fā)明的所有實施例。可以理解,在不偏離本發(fā)明的范圍的前提下,可以利用其他實施例,也可以進行結(jié)構(gòu)性或者邏輯性的修改。因此,以下的具體描述并非限制性的,且本發(fā)明的范圍由所附的權利要求所限定。對于相關領域普通技術人員已知的技術、方法和設備可能不作詳細討論,但在適當情況下,所述技術、方法和設備應當被視為說明書的一部分。對于附圖中的各單元之間的連線,僅僅是為了便于說明,其表示至少連線兩端的單元是相互通信的,并非旨在限制未連線的單元之間無法通信。發(fā)明人通過研究發(fā)現(xiàn),在傳統(tǒng)的機器學習領域,都是基于離線學習,隨著數(shù)據(jù)量的增大,處理能力越來越下降,特別在金融交易領域,信息瞬息萬變,會導致交易系統(tǒng)具有一定的滯后性。另外,雖然當前也存在一些基于在線學習的機器學習模型,然而由于結(jié)構(gòu)過于復雜導致效率較低,難以進行推廣應用,尤其是難以應用在需要快速給出分析結(jié)果的金融領域。首先對本申請中用到的一些術語進行說明。在本申請中,增量數(shù)據(jù)是指從數(shù)據(jù)存儲設備或服務器獲取的某一時間段(譬如,10分鐘、1小時或1天)內(nèi)的新增數(shù)據(jù)。決策樹是一種樹形結(jié)構(gòu),其中每個內(nèi)部節(jié)點表示一個屬性測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一種類別。字母t、k僅用于表征分類模型中的決策樹和根據(jù)增量數(shù)據(jù)生成的決策樹的數(shù)量不同,并不旨在將t、k限定為某一具體值。基于上述發(fā)明構(gòu)思,本發(fā)明提出了基于增量數(shù)據(jù)來生成增量決策樹,然后對分類模型進行更新??梢岳斫獾模撛隽繑?shù)據(jù)可以是來自經(jīng)由網(wǎng)絡傳輸?shù)慕鹑诋a(chǎn)品信息,譬如,價格、交易金額、交易量等等。在機器學習中,隨機森林分類模型是一個包含多個決策樹的分類器,并且其輸出的分類結(jié)果是由單個決策樹輸出的分類結(jié)果的總數(shù)而定。具體來說,隨機森林分類的基本思想是:從原始樣本集中有放回地隨機抽取n個樣本集,且每個樣本集的樣本容量都與原始樣本集一樣;對n個樣本集分別建立n個決策樹,每個決策樹都有一票選擇權來選擇分類結(jié)果,得到n種分類結(jié)果;根據(jù)n種分類結(jié)果對每個樣本進行投票表決以決定其最終分類。隨機森林生成的過程就是訓練每個決策樹的過程。訓練每個決策樹的過程包括如下步驟:(1)有放回地隨機選擇m個樣本,用這m個樣本來訓練一棵決策樹;(2)每個樣本有多個屬性,在決策樹中需要分裂節(jié)點時,從這多個屬性中隨機選取m個屬性,然后從這m個屬性中采用特定的策略選擇最佳屬性作為當前節(jié)點的分裂屬性;(3)決策樹的每個節(jié)點的分裂都按照步驟(2)進行,直到不能分裂為止。在實際的業(yè)務應用中,獲取用戶行為數(shù)據(jù)后,可以先利用已在線上部署的分類模型,即由預定數(shù)量的模型決策樹組成的分類模型,通過打分的方式進行類別預測,將得分最高的類別(選擇該類別的決策樹數(shù)量最多)作為預測類別,并基于該預測類別開展預先設定的業(yè)務應用,例如:按類別進行判斷價格的漲跌等。圖1為依據(jù)本發(fā)明實施例的數(shù)據(jù)處理方法的流程圖。該數(shù)據(jù)處理方法包括如下步驟:步驟s101:獲取增量數(shù)據(jù)。在該步驟中,從金融交易服務器或特定的存儲裝置中獲取預定時間段的增量數(shù)據(jù)。該預定時間段是指位于當前時間之前的一個時間段,其長度可以根據(jù)具體的需求進行設置,例如可以以天為單位、以小時為單位,甚至以分鐘為單位,只要所述時間段內(nèi)的用戶行為數(shù)據(jù)已經(jīng)處于可獲取的狀態(tài)并且已經(jīng)包含了實際的類別標簽信息。在本實施方式中以金融產(chǎn)品(譬如,股票)交易為例進行說明。例如,在股票交易系統(tǒng)中,獲取距離當前時間5分鐘的交易數(shù)據(jù),數(shù)據(jù)的標簽可以是上漲、下跌、平。在其他的實施方式中,數(shù)據(jù)的標簽也可能有多種其它的形式。步驟s102:判斷是否存在線上的分類模型。在該步驟中,將判斷是否存在能夠使用的分類模型,如果存在,則執(zhí)行步驟s103,否則執(zhí)行步驟s109。下面對基于分類模型是否存在不同場景分別進行闡述。場景1:存在分類模型步驟s103:對增量數(shù)據(jù)進行有放回抽樣,抽取k個樣本集。在該步驟中,對獲得的增量數(shù)據(jù)進行有放回抽樣,生成k個訓練樣本集,每個樣本都有類似如下所示的形式:(x1,x2,....xn:c),其中xi表示該樣本的具體屬性值,c則表示該樣本的實際類別。例如,在本實施例的一個具體例子中,在金融交易業(yè)務領域,采用分類模型對股票價格的趨勢進行分類預測,每個樣本的屬性可以選擇性地包括:股票名稱、價格、交易量等等屬性。步驟s104:基于k個樣本集,創(chuàng)建k個決策樹。在該步驟中,每個樣本集生長為相應的分類樹,即樹的每個節(jié)點均是選自于該樣本集的特征。步驟s105:基于分類模型中的模型決策樹和k個增量決策樹對增量數(shù)據(jù)進行標簽預測。在該步驟中,將基于分類模型中的模型決策樹(假設為t個)和k個增量決策樹對增量數(shù)據(jù)進行標簽預測(即,為分類預測),對未經(jīng)分類的增量數(shù)據(jù)進行分類,如此,共有t+k個決策樹對增量數(shù)據(jù)進行標簽預測。由于參與預測的決策樹總量的增加以及該k個增量決策樹往往能代表新的趨勢變化,從而利用有t+k個決策樹有利于提升分類模型預測的準確率。為了使得新增的k個決策樹不會損壞分類模型的準確性和適用性,這里k的取值范圍為0.1t至0.3t。步驟s106:獲得預測結(jié)果,并確定各決策樹的當前準確率和建立時間。在該步驟中,將基于步驟s105中所執(zhí)行的標簽預測而獲得預測結(jié)果。然后,將預測結(jié)果與真實的結(jié)果進行比對,可以確定各決策樹的當前準確率,即針對增量數(shù)據(jù)的預測準確率。相應地,還可以獲得每個決策樹的建立時間,即每個決策樹已經(jīng)存在的時間。在本實施方式中,準確率是指總的樣本集中預測標簽結(jié)果正確的比例。步驟s107:確定各決策樹的綜合性能。通過執(zhí)行步驟s106,已經(jīng)可以確定每個決策樹的預測準確率和建立時間。在本實施方式中,將通過該兩個參數(shù)來確定每個決策輸?shù)木C合性能。在一實施方式中,綜合性能指標=a*建立時間+b*預測準確率,其中,a、b分別為建立時間和準確率的權重,a、b的取值可以根據(jù)應用來進行調(diào)整。由此可知,決策樹的生成時間對綜合性能指標也產(chǎn)生影響,也就是說,最接近當前時間的決策樹的權重比離當前時間相隔長的決策樹的權重大。換而言之,通過對a、b值的配置,能夠使得當兩個決策樹的預測準確率相同,則具備較短的建立時間的決策樹的綜合性能將優(yōu)于具備較長的建立時間的決策樹的綜合性能??梢岳斫獾?,這里所例舉出來的綜合性能指標與建立時間、預測準確率之間的表達式僅僅旨在說明綜合性能指標與二者相關,并非用來限定綜合性能指標只能等于建立時間與預測準確率之和。下面結(jié)合表1對決策樹綜合性能的確定進行闡述。表1決策樹綜合性能決策樹id預測準確率建立時間(小時)綜合性能排序390%51185%52283%83480%84580%95在本實施方式中,引入了建立時間作為影響決策樹綜合性能的權重。對于兩個決策樹的預測準確率相同的情形,譬如,決策樹4和決策樹5的預測準確率均為80%,則進一步根據(jù)該兩個決策樹的建立時間來確定的該兩個決策樹的綜合性能,即,決策樹4由于建立時間短而被確定為綜合性能優(yōu)于決策樹5的綜合性能。步驟s108:基于決策樹的綜合性能,選擇預定數(shù)量的決策樹對分類模型進行更新。在該步驟中,將基于參與對增量數(shù)據(jù)進行標簽預測的所有決策樹的綜合性能來從中選擇預定數(shù)量的決策樹作為更新后的分類模型的模型決策樹。具體而言,基于決策樹的綜合性能來排序,以獲得表1中示出的依據(jù)綜合性能排序的決策樹序列,并根據(jù)排序結(jié)果選擇綜合性能優(yōu)秀的。由前述可知,當考慮建立時間的權重時,決策樹4的綜合性能將優(yōu)于決策樹5的綜合性能,因此若需要選擇4個決策樹丟棄1個決策樹,則決策樹5將被丟棄,將選擇決策樹1至4作為分類模型的模型決策樹,更新后的分類模型將用于對后續(xù)的增量數(shù)據(jù)進行預測。由上可知,為了在保證模型預測準確率的前提下,能夠?qū)崿F(xiàn)對模型進行更新,本發(fā)明提出增量決策樹的數(shù)量k由基于分類模型中的模型決策樹的數(shù)量t而確定。在本實施例中,增量決策樹的數(shù)量k的范圍為分類模型中的模型決策樹的數(shù)量t的10%至30%。進一步,k的具體值可以根據(jù)用戶的指令或應用場景隨機地在t的10%至30%之間確定,從而使得分類模型中的模型決策樹的數(shù)量t也可以產(chǎn)生相應的變化。在另一種實施方式中,通過執(zhí)行步驟s108,所選取的預定數(shù)量的決策樹的數(shù)量等于分類模型中的原有的模型決策樹的數(shù)量,即分類模型中的模型決策樹的數(shù)量始終保持為t個,丟棄的決策樹的數(shù)量等于增量決策樹的數(shù)量。為了更好地表達本發(fā)明的構(gòu)思,下面以t=200,k=40為例進行闡述。請再參考圖1,在此實施例中,通過執(zhí)行步驟s105,將使用t+k(即240)個決策樹對增量數(shù)據(jù)進行標簽預測,然后基于預測結(jié)果對決策樹的綜合性能進行排序。根據(jù)排序的結(jié)果,可以從該240個決策樹中選擇190、200或210個決策樹來作為分類模型的模型決策樹,進而完成對分類模型的更新。相應地,在下次利用該分類模型進行更新時,k可以是0.1t至0.3t中的任一數(shù)量或由用戶指定。再參考圖1,若步驟s102中判斷為不存在可以利用分類模型,則執(zhí)行步驟s109,即基于歷史數(shù)據(jù)生成模型決策樹,譬如,對歷史數(shù)據(jù)進行抽樣,形成t個樣本集,然后基于該t個樣本集生成t個模型決策樹??梢岳斫獾氖?,歷史數(shù)據(jù)是已分類的數(shù)據(jù)。再執(zhí)行步驟s110,基于前一步驟所生成的t個模型決策樹構(gòu)成分類模型。通過執(zhí)行該步驟,可以利用新創(chuàng)建的分類模型對增量數(shù)據(jù)進行標簽預測。基于上述方法,本發(fā)明還提出了一種用于數(shù)據(jù)處理的裝置。圖2為依據(jù)本發(fā)明實施例的數(shù)據(jù)處理裝置的架構(gòu)圖。數(shù)據(jù)處理裝置200,包括:增量數(shù)據(jù)輸入單元201,其被配置為獲取預定時間段內(nèi)的增量數(shù)據(jù);判斷單元202,其被配置為根據(jù)是否存在分類模型來生成表征存在分類模型的第一信號以及表征不存在分類模型的第二信號;決策樹生成單元203,其耦合至增量數(shù)據(jù)輸入單元,并被配置為基于第一信號來根據(jù)增量數(shù)據(jù)生成增量決策樹;標簽預測單元204,其被配置為根據(jù)分類模型中的模型決策樹和增量決策樹來對增量數(shù)據(jù)進行標簽預測;決策樹選擇單元205,其被配置為根據(jù)分類模型中的模型決策樹和增量決策樹中的各個決策樹的綜合性能來選擇預定數(shù)量的決策樹;以及模型更新單元206,其被配置為將經(jīng)選擇的預定數(shù)量的決策樹作為更新后的分類模型中的模型決策樹。由此,數(shù)據(jù)處理裝置200可以獲取增量數(shù)據(jù)后,利用分類模型對該增量數(shù)據(jù)行預測,并且還能夠基于該增量數(shù)據(jù)對分類模型進行更新,實現(xiàn)了模型的自適應更新。在一種實施方式中,決策樹選擇單元205所選取的預定數(shù)量的決策樹的數(shù)量等于分類模型中原有的模型決策樹的數(shù)量。數(shù)據(jù)處理裝置200還包括被配置為獲取經(jīng)分類的歷史數(shù)據(jù)的歷史數(shù)據(jù)輸入單元207。該歷史數(shù)據(jù)輸入單元207耦合至決策樹生成單元203,當判斷單元202未發(fā)現(xiàn)有可使用的分類模型時,決策樹生成單元203基于判斷單元202所生成的第二信號來根據(jù)歷史數(shù)據(jù)生成模型決策樹,進而生成可以使用的分類模型。圖3為依據(jù)本發(fā)明實施例的決策樹選擇單元的架構(gòu)圖。決策樹選擇單元205包括準確率確定單元2051和決策樹綜合性能排序單元2052,其中,準確率確定單元2051被配置為根據(jù)標簽預測的結(jié)果來確定各個決策樹針對增量數(shù)據(jù)的預測準確率,決策樹綜合性能排序單元2052被配置為基于各個決策樹的建立時間以及對增量數(shù)據(jù)的預測準確率進行排序;其中,建立時間長的決策樹的權重小于建立時間短的決策樹的權重。如此,使得模型能夠根據(jù)數(shù)據(jù)變化的趨勢來進行調(diào)整,有助于提升或保持模型的預測準確率。圖1中的數(shù)據(jù)處理方法的流程還代表機器可讀指令,該機器可讀指令包括由處理器執(zhí)行的程序。該程序可被實體化在被存儲于有形計算機可讀介質(zhì)的軟件中,該有形計算機可讀介質(zhì)如cd-rom、軟盤、硬盤、數(shù)字通用光盤(dvd)、藍光光盤或其它形式的存儲器。替代的,圖1中的示例方法中的一些步驟或所有步驟可利用專用集成電路(asic)、可編程邏輯器件(pld)、現(xiàn)場可編程邏輯器件(epld)、離散邏輯、硬件、固件等的任意組合被實現(xiàn)。另外,雖然圖1所示的流程圖描述了該數(shù)據(jù)處理方法,但可對該處理方法中的步驟進行修改、刪除或合并。如上所述,可利用編碼指令(如計算機可讀指令)來實現(xiàn)圖1的示例過程,該編程指令存儲于有形計算機可讀介質(zhì)上,如硬盤、閃存、只讀存儲器(rom)、光盤(cd)、數(shù)字通用光盤(dvd)、高速緩存器、隨機訪問存儲器(ram)和/或任何其他存儲介質(zhì),在該存儲介質(zhì)上信息可以存儲任意時間(例如,長時間,永久地,短暫的情況,臨時緩沖,和/或信息的緩存)。如在此所用的,該術語有形計算機可讀介質(zhì)被明確定義為包括任意類型的計算機可讀存儲的信號。附加地或替代地,可利用編碼指令(如計算機可讀指令)實現(xiàn)圖1的示例過程,該編碼指令存儲于非暫時性計算機可讀介質(zhì),如硬盤,閃存,只讀存儲器,光盤,數(shù)字通用光盤,高速緩存器,隨機訪問存儲器和/或任何其他存儲介質(zhì),在該存儲介質(zhì)信息可以存儲任意時間(例如,長時間,永久地,短暫的情況,臨時緩沖,和/或信息的緩存)。本發(fā)明沒有采用基于全量數(shù)據(jù)重新構(gòu)建分類模型的傳統(tǒng)離線計算方法,而是采用增量數(shù)據(jù)進行分類模型的更新,使得分類模型能夠及時地或者近似實時地根據(jù)樣本數(shù)據(jù)的變化做出相應的調(diào)整,實現(xiàn)了分類模型與最新樣本數(shù)據(jù)的同步。同時,實現(xiàn)了通過初始的步驟,在模型的業(yè)務周期內(nèi),不再需要人工干預,大大節(jié)約了成本,具備智能化、高效性的特點。因此,雖然參照特定的示例來描述了本發(fā)明,其中這些特定的示例僅僅旨在是示例性的,而不是對本發(fā)明進行限制,但對于本領域普通技術人員來說顯而易見的是,在不脫離本發(fā)明的精神和保護范圍的基礎上,可以對所公開的實施例進行改變、增加或者刪除。當前第1頁12