亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種處理缺失數(shù)據(jù)的新型決策樹分類器方法

文檔序號:6422745閱讀:271來源:國知局
專利名稱:一種處理缺失數(shù)據(jù)的新型決策樹分類器方法
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘與機器學(xué)習(xí)領(lǐng)域,涉及一種可以處理缺失數(shù)據(jù)的新型決策樹分類器的方法。
背景技術(shù)
隨著信息技術(shù)的高速發(fā)展,人們收集、存儲和訪問數(shù)據(jù)的數(shù)量越來越多,在這些大量的歷史數(shù)據(jù)背后蘊藏著豐富的有效知識。如何去發(fā)現(xiàn)和分析這些數(shù)據(jù)之間所存在的關(guān)系和規(guī)則在目前是個十分重要的課題。數(shù)據(jù)挖掘(DM)技術(shù)在這種背景下應(yīng)運而生了,它融合了數(shù)據(jù)庫,人工智能,機器學(xué)習(xí),統(tǒng)計學(xué)等多個領(lǐng)域的理論和知識。數(shù)據(jù)挖掘工具能夠?qū)ξ磥碲厔葸M行預(yù)測,可以很好的支持人們的決策。其中常用的方法有神經(jīng)網(wǎng)絡(luò),遺傳算法,決策樹,規(guī)則推理,貝葉斯分類等等。其中決策樹方法較容易被人們理解,輸出的精度高,因此在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用較為廣泛。但決策樹方法也有其缺點,比如它很難基于多個變量組合 發(fā)現(xiàn)規(guī)則,不同的決策樹分支之間的分裂也不平滑,傳統(tǒng)決策樹算法的計算復(fù)雜度較高等等。決策樹方法是目前應(yīng)用最廣泛的歸納推理算法之一,是一種逼近離散值函數(shù)的方法,也可以把它看作是一個布爾函數(shù)。它是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法,通常用來形成分類器和預(yù)測模型,著眼于從一組無次序、無規(guī)則的事例中推理出決策樹表示形成的分類規(guī)則。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點進行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點向下的分支,最后在決策樹的葉結(jié)點得到結(jié)論。因此從根到葉結(jié)點的一條路徑就對應(yīng)著一條合取規(guī)則,而整棵決策樹就對應(yīng)著一組析取表達式規(guī)則。到目前為止決策樹有很多實現(xiàn)算法。例如由Hunt等人提出的CLS,在1986年由Quinlan 提出的 ID3 和 1993 年提出的 C4. 5 算法,以及 CART, C5. 0, Fuzzy C4. 5,OCl,QUEST,和CAL5等。傳統(tǒng)決策樹算法的缺點包括(1)缺失數(shù)據(jù)的存在是導(dǎo)致分類器性能下降的一個重要原因,目前的分類器大多不能有效處理缺失數(shù)據(jù)的分類問題。(2)算法往往偏向于選擇取值較多的屬性,而在很多情況下屬性較多的屬性并不總是最優(yōu)的屬性。(3)在建樹時,每個結(jié)點僅含一個特征,是一種單變元的算法,特征間的相關(guān)性不夠緊。雖然在一棵樹上連在一起,但聯(lián)系還是松散的。(4)對燥聲比較敏感,不容易除去燥聲。也就是特征值取錯或類別給錯。(5)當(dāng)訓(xùn)練集增加時,ID3決策樹隨之變化。在建樹過程中,各特征的相互信息會隨例子的增加而改變,決策樹也隨之變化,這對變化的數(shù)據(jù)集的學(xué)習(xí)是不適合的。(6)算法雖然理論清晰,但它的計算比較復(fù)雜,在學(xué)習(xí)和訓(xùn)練數(shù)據(jù)集的過程中機器內(nèi)存占用率比較大,比較耗費資源,影響數(shù)據(jù)學(xué)習(xí)的時間和成本。

發(fā)明內(nèi)容
為了克服以上缺陷,本發(fā)明要解決的技術(shù)問題是提出一種同時解決估算缺失數(shù)據(jù)的可能屬性,以及遞歸地構(gòu)造決策樹的分枝,完成決策樹的構(gòu)造,精細了分類規(guī)則的處理缺失數(shù)據(jù)的新型決策樹分類器的方法。本發(fā)明所采用的技術(shù)方案為一種處理缺失數(shù)據(jù)的新型決策樹分類器方法,包括以下步驟a、將待處理的原始樣本數(shù)據(jù)集進行初始化設(shè)置,且將所述數(shù)據(jù)集進行權(quán)重值初始化分配;b、選擇一將所述數(shù)據(jù)集中的節(jié)點分裂為子節(jié)點的特征屬性;C、將樣本數(shù)據(jù)根據(jù)節(jié)點的特征屬性分類到各子節(jié)點;d、通過計算出各子節(jié)點選擇的特征量值將各子節(jié)點分裂出來;e、根據(jù)分裂出來的各子節(jié)點的樣本屬性確定葉子節(jié)點。根據(jù)本發(fā)明的另外一個實施例,一種處理缺失數(shù)據(jù)的新型決策樹分類器方法進一步包括所述數(shù)據(jù)集包括缺失數(shù)據(jù)、非缺失數(shù)據(jù)。
根據(jù)本發(fā)明的另外一個實施例,一種處理缺失數(shù)據(jù)的新型決策樹分類器方法進一步包括所述節(jié)點特征量值包括特征量的信息熵、特征量的信息增益率。根據(jù)本發(fā)明的另外一個實施例,一種處理缺失數(shù)據(jù)的新型決策樹分類器方法進一步包括計算出特征量的信息增益率將子節(jié)點分裂出來時,子節(jié)點所選擇的特征量就是最大信息增益率,則繼續(xù)分裂節(jié)點為子節(jié)點;若子節(jié)點所選擇的特征量不是最大信息增益率,則重新選擇分裂為子節(jié)點的特征屬性,直至子節(jié)點所選擇的特征量為最大信息增益率。根據(jù)本發(fā)明的另外一個實施例,一種處理缺失數(shù)據(jù)的新型決策樹分類器方法進一步包括在根據(jù)各子節(jié)點的樣本屬性確定葉子節(jié)點時,若每個子節(jié)點只含有同一類樣本,則將此節(jié)點設(shè)置為葉子節(jié)點,結(jié)束此節(jié)點的分裂;若每個子節(jié)點不只含有同一類樣本,則重新選擇分裂為子節(jié)點的特征屬性。本發(fā)明的有益效果是1、能夠?qū)θ笔?shù)據(jù)進行有效處理;2、可以生成可以理解的規(guī)則;3、計算量相對來說不是很大;4、可以處理連續(xù)和種類字段;5、可以清晰的顯示哪些字段比較重要;6、用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;7、相對于傳統(tǒng)的分類器算法在遇到缺失數(shù)據(jù)時將其舍棄的做法,本算法使得分類器在面對缺失數(shù)據(jù)的時候也可以按照其可能出現(xiàn)數(shù)據(jù)的概率對其進行分類。


圖I是本發(fā)明的優(yōu)選實施例的流程圖;圖中1、對原始數(shù)據(jù)進行初始化,2、為每個節(jié)點選擇一個特征屬性,3、將樣本根據(jù)節(jié)點的特征屬性分類到各子節(jié)點,4、計算各子節(jié)點選擇的特征量的信息熵,5、計算出特征量的信息增益率將子節(jié)點分裂出來,6、根據(jù)各子節(jié)點的樣本屬性確定葉子節(jié)點,7、結(jié)束。
具體實施例方式現(xiàn)在結(jié)合附圖和優(yōu)選實施例對本發(fā)明作進一步詳細的說明。這些附圖均為簡化的示意圖,僅以示意方式說明本發(fā)明的基本結(jié)構(gòu),因此其僅顯示與本發(fā)明有關(guān)的構(gòu)成。如圖I所示,一種處理缺失數(shù)據(jù)的新型決策樹分類器方法,包括以下步驟a、將待處理的原始樣本數(shù)據(jù)集進行初始化設(shè)置1,且將所述數(shù)據(jù)集進行權(quán)重值初始化分配,其中,所述數(shù)據(jù)集包括缺失數(shù)據(jù)、非缺失數(shù)據(jù)。b、選擇一將所述數(shù)據(jù)集中的節(jié)點分裂為子節(jié)點的特征屬性2 ;C、將樣本數(shù)據(jù)根據(jù)節(jié)點的特征屬性分類到各子節(jié)點3 ;
d、通過計算出各子節(jié)點選擇的特征量值將各子節(jié)點分裂出來,包括計算各子節(jié)點選擇的特征量的信息熵4、信息增益率;e、根據(jù)分裂出來的各子節(jié)點的樣本屬性確定葉子節(jié)點6。計算出特征量的信息增益率將子節(jié)點分裂出來5時,子節(jié)點所選擇的特征量就是最大信息增益率,則繼續(xù)分裂節(jié)點為子節(jié)點;若子節(jié)點所選擇的特征量不是最大信息增益率,則重新選擇分裂為子節(jié)點的特征屬性,直至子節(jié)點所選擇的特征量為最大信息增益率。在根據(jù)各子節(jié)點的樣本屬性確定葉子節(jié)點6時,若每個子節(jié)點只含有同一類樣本,則將此節(jié)點設(shè)置為葉子節(jié)點,結(jié)束此節(jié)點的分裂;若每個子節(jié)點不只含有同一類樣本,則重新選擇分裂為子節(jié)點的特征屬性。本發(fā)明的基本思想是為缺失數(shù)據(jù)和非缺失數(shù)據(jù)樣本分別分配一個權(quán)重,在分類過程中利用信息熵原理,選擇信息增益率最大的屬性作為分類屬性,給予每個分類節(jié)點概率,遞歸地構(gòu)造決策樹的分枝,完成決策樹的構(gòu)造,使得分類器在面對缺失數(shù)據(jù)的時候也可以按照其可能出現(xiàn)數(shù)據(jù)的概率對其進行分類。如圖I所示,該實施方式第一步開始于對原始數(shù)據(jù)進行初始化I。首先參照表I的數(shù)據(jù)格式來表示樣本,每一個樣本都擁有一個權(quán)值。權(quán)值初始值為I。權(quán)值代表每個樣本的重要性,如果一個樣本的權(quán)值為10,則代表在分類過程中此樣本的重要性相當(dāng)于10個權(quán)值為I的樣本。
權(quán)利要求
1.一種處理缺失數(shù)據(jù)的新型決策樹分類器方法,其特征在于包括以下步驟 a、將待處理的原始樣本數(shù)據(jù)集進行初始化設(shè)置,且將所述數(shù)據(jù)集進行權(quán)重值初始化分配; b、選擇一將所述數(shù)據(jù)集中的節(jié)點分裂為子節(jié)點的特征屬性; C、將樣本數(shù)據(jù)根據(jù)節(jié)點的特征屬性分類到各子節(jié)點; d、通過計算出各子節(jié)點選擇的特征量值將各子節(jié)點分裂出來; e、根據(jù)分裂出來的各子節(jié)點的樣本屬性確定葉子節(jié)點。
2.根據(jù)權(quán)利要求I所述的一種處理缺失數(shù)據(jù)的新型決策樹分類器方法,其特征在于所述數(shù)據(jù)集包括缺失數(shù)據(jù)、非缺失數(shù)據(jù)。
3.根據(jù)權(quán)利要求I所述的一種處理缺失數(shù)據(jù)的新型決策樹分類器方法,其特征在于所述特征量值包括特征量的信息熵、特征量的信息增益率。
4.根據(jù)權(quán)利要求3所述的一種處理缺失數(shù)據(jù)的新型決策樹分類器方法,其特征在于計算出特征量的信息增益率將子節(jié)點分裂出來時,子節(jié)點所選擇的特征量就是最大信息增益率,則繼續(xù)分裂節(jié)點為子節(jié)點;若子節(jié)點所選擇的特征量不是最大信息增益率,則重新選擇分裂為子節(jié)點的特征屬性,直至子節(jié)點所選擇的特征量為最大信息增益率。
5.根據(jù)權(quán)利要求I所述的一種處理缺失數(shù)據(jù)的新型決策樹分類器方法,其特征在于在根據(jù)各子節(jié)點的樣本屬性確定葉子節(jié)點時,若每個子節(jié)點只含有同一類樣本,則將此節(jié)點設(shè)置為葉子節(jié)點,結(jié)束此節(jié)點的分裂;若每個子節(jié)點不只含有同一類樣本,則重新選擇分裂為子節(jié)點的特征屬性。
全文摘要
本發(fā)明涉及一種處理缺失數(shù)據(jù)的新型決策樹分類器方法,包括以下步驟將待處理的原始樣本數(shù)據(jù)集進行初始化設(shè)置,且將所述數(shù)據(jù)集進行權(quán)重值初始化分配;選擇一將所述數(shù)據(jù)集中的節(jié)點分裂為子節(jié)點的特征屬性;將樣本數(shù)據(jù)根據(jù)節(jié)點的特征屬性分類到各子節(jié)點;通過計算出各子節(jié)點選擇的特征量值將各子節(jié)點分裂出來;根據(jù)分裂出來的各子節(jié)點的樣本屬性確定葉子節(jié)點;本發(fā)明能夠?qū)θ笔?shù)據(jù)進行有效處理;可以生成可以理解的規(guī)則;計算量相對來說不是很大;可以處理連續(xù)和種類字段;可以清晰的顯示哪些字段比較重要;用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。
文檔編號G06F17/30GK102750286SQ20111010023
公開日2012年10月24日 申請日期2011年4月21日 優(yōu)先權(quán)日2011年4月21日
發(fā)明者吳軍 申請人:常州藍城信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1