一種基于屬性間相關(guān)系數(shù)的數(shù)據(jù)分類方法

文檔序號：8445634閱讀：245來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于屬性間相關(guān)系數(shù)的數(shù)據(jù)分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域，涉及數(shù)據(jù)分類，具體地說是一種基于屬性間相關(guān)系數(shù) 的數(shù)據(jù)分類方法。
【背景技術(shù)】
[0002] 數(shù)據(jù)挖掘就是從數(shù)據(jù)庫中挖掘出數(shù)據(jù)間潛在的模式，再根據(jù)這些模式找出相應(yīng)的規(guī)律。數(shù)據(jù)挖掘技術(shù)通過使用計(jì)算機(jī)來對數(shù)據(jù)庫中大量數(shù)據(jù)進(jìn)行快速、有效的分析和處理，從中提取有用信息，并以一種形式化、可以理解的方式表達(dá)，以便決策。數(shù)據(jù)挖掘?qū)ι虅?wù)決策、知識庫、科學(xué)和醫(yī)學(xué)的研宄等都具有重要的應(yīng)用價值和十分廣闊的應(yīng)用前景。
[0003] 目前對數(shù)據(jù)挖掘的研宄主要集中在關(guān)聯(lián)規(guī)則挖掘、聚類、分類、序列模式發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等方面，其中由于分類挖掘在商業(yè)等領(lǐng)域中的廣泛應(yīng)用，使它成為數(shù)據(jù)挖掘中最活躍的研宄方向。分類的目的是提出一個分類函數(shù)或分類模型（分類器），該模型能把數(shù)據(jù)庫中的數(shù)據(jù)映射到給定類別中的某一個。
[0004] 由于分類技術(shù)能夠?qū)Ω鱾€行業(yè)提供良好的決策支持，在不同的行業(yè)有著多種不同領(lǐng)域方法的分類算法，例如決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、貝葉斯方法、粗略集方法等。在這些算法中，決策樹方法最容易理解，應(yīng)用領(lǐng)域也特別廣泛。決策樹學(xué)習(xí)是一種逼近離散值目標(biāo) 函數(shù)的方法，將從一組訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的函數(shù)表示為一棵決策樹，它是一種常用于預(yù)測模型的算法，通過將大量數(shù)據(jù)有目的的分類，從中找到一些具有價值的、潛在的信息。決策樹雖然生成模式簡單，但也存在如下問題：1)個別訓(xùn)練樣例的錯誤，可能導(dǎo)致決策樹的精確性較差；2)屬性間的相互關(guān)系強(qiáng)調(diào)不夠，容易導(dǎo)致決策樹中子樹的重復(fù)或有些屬性在決策樹的某一路徑上被多次檢驗(yàn)。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于克服上述已有技術(shù)的缺點(diǎn)，提出了一種基于屬性間相關(guān)系數(shù)的數(shù)據(jù)分類方法，以降低了個別訓(xùn)練樣例錯誤的敏感性；相關(guān)系數(shù)的引入，避免了屬性在路徑上出現(xiàn)多次檢驗(yàn)的現(xiàn)象。
[0006] 本發(fā)明步驟：首先，輸入樣本集和待分類數(shù)據(jù)集，并計(jì)算訓(xùn)練樣本集所有屬性的信息增益值GbM;其次，依據(jù)從大到小排序?qū)⒆畲笮畔⒃鲆嬷档膶傩赃x為決策樹中根節(jié)點(diǎn)冢的測試屬性；然后，計(jì)算根節(jié)點(diǎn)屬性（上層節(jié)點(diǎn)屬性）與剩余屬性集之間相關(guān)系數(shù) 的絕對值再根據(jù)夂值和不同屬性的屬性值進(jìn)行每一層節(jié)點(diǎn)的建立過程，并更新剩余屬性集i?;最后，直到所有屬性遍歷為止，生成決策樹，依據(jù)決策樹將待分類數(shù)據(jù)進(jìn)行分類，其具體步驟包括如下：步驟一、輸入樣本集和待分類數(shù)據(jù)集，計(jì)算訓(xùn)練樣本集所有屬性的信息增益值; 步驟二、對信息增益值依據(jù)從大到小排序，選取最大信息增益值Gb?的屬性作為決策樹中根節(jié)點(diǎn)的測試屬性；步驟三、計(jì)算根節(jié)點(diǎn)屬性（上一層節(jié)點(diǎn)屬性）與剩余屬性集之間相關(guān)系數(shù)的絕對值; 步驟四、根據(jù)值和不同屬性的屬性值進(jìn)行每一層節(jié)點(diǎn)的建立過程，并更新剩余屬性集及；步驟五、若剩余屬性集及不為空集，即所有屬性未遍歷完，繼續(xù)步驟三和四，直到所有屬性遍歷完，生成決策樹；步驟六、依據(jù)決策樹將待分類數(shù)據(jù)集進(jìn)行分類。
[0007] 本發(fā)明具有如下優(yōu)點(diǎn)： 1、本發(fā)明在建立決策樹過程中每一步都使用當(dāng)前的所有訓(xùn)練樣例，降低了個別訓(xùn)練樣本錯誤的敏感性，提高了分類的準(zhǔn)確性； 2、本發(fā)明通過計(jì)算屬性間的相關(guān)系數(shù)，強(qiáng)調(diào)了屬性之間的相關(guān)關(guān)系，解決了某些屬性在決策樹的某一路徑上被多次檢驗(yàn)的問題。
【附圖說明】
[0008] 圖1是本發(fā)明流程圖；圖2是本發(fā)明中決策樹子節(jié)點(diǎn)建立過程的流程圖；圖3是本發(fā)明一實(shí)施例(某企業(yè)客戶購買力）決策樹建立示意圖。
【具體實(shí)施方式】
[0009] 為了更清楚地說明本發(fā)明，根據(jù)對某公司客戶信息樣本數(shù)據(jù)這一實(shí)施例來進(jìn)行具體描述，其中屬性包括銷售頻率(對應(yīng)的屬性值有210、<10 )，年生產(chǎn)總值(對應(yīng)的屬性值有乏1000、< 1000 )，信譽(yù)程度(對應(yīng)的屬性值有不好、好)，客戶性質(zhì)（對應(yīng)的屬性值有私營、國營、民營)，產(chǎn)品行業(yè)(對應(yīng)的屬性值有工業(yè)和農(nóng)業(yè))，所屬省市(對應(yīng)的屬性值有湖南、江西、上海)，將使用本方法根據(jù)已分類的信息樣本數(shù)據(jù)建立決策樹，根據(jù)決策樹，可實(shí)現(xiàn)輸入客戶信息輸出客戶購買力的類別(對應(yīng)的類別有高、一般、低)。
[0010] 結(jié)合附圖和實(shí)施例，本發(fā)明的具體步驟如下：步驟一、輸入樣本集和待分類數(shù)據(jù)集，計(jì)算訓(xùn)練樣本數(shù)據(jù)的所有屬性依據(jù)信息增益值，具體步驟如下： 1) 已知待分類數(shù)據(jù)集￡)，訓(xùn)練樣本集公具有屬性集兒可分為w個不同類 Gp= 1,2,...，；)，即S= ,SsJ，其中勾表示類Cfi中的樣本數(shù)；屬性集2具有界種屬性，即3 = {4,4，...，4}且每種屬性40 =〗，2，...3)具有4個不同屬性值1[%，％2，...，％.」，則屬性值將樣本集j劃分，其樣本數(shù)集合為，其中表示在屬性^下屬性值為的樣本數(shù)；參考圖3所示，在本例中，，《=6，屬性集』={銷售頻率，年生產(chǎn)總值，信譽(yù)程度，客戶性質(zhì)，產(chǎn)品行業(yè)，所屬省市}，類表示客戶購買力高，類Q表示客戶購買力一般，類C3表示客戶購買力低； 2) 求樣本分類所需的期望信息，即總的信息熵值為/(?,S2^s1J=-21巧Iog2 (巧），其中Pi=Si/(S1+? +... +SM)，IAS戰(zhàn)；
【主權(quán)項(xiàng)】
1. 一種基于屬性間相關(guān)系數(shù)的數(shù)據(jù)分類方法，其特征在于，在數(shù)據(jù)分類過程中，先輸入樣本集和待分類數(shù)據(jù)集，計(jì)算樣本所有屬性的信息增益值并排序，然后根據(jù)所有屬性的信息增益值確定決策樹根節(jié)點(diǎn)的屬性，其次根據(jù) 屬性間相關(guān)系數(shù)的絕對值眾和不同屬性的屬性值，確定余下結(jié)點(diǎn)的屬性，最后直到所有屬性遍歷完，生成決策樹，再依據(jù)決策樹將待分類數(shù)據(jù)集進(jìn)行分類，所述方法至少包括以下步驟：步驟一、輸入樣本集和待分類數(shù)據(jù)集，計(jì)算訓(xùn)練樣本集所有屬性的信息增益值; 步驟二、對信息增益值?依據(jù)從大到小排序，選取最大信息增益值(??的屬性作為決策樹中根節(jié)點(diǎn)JF的測試屬性；步驟三、計(jì)算根節(jié)點(diǎn)屬性(上一層節(jié)點(diǎn)屬性）與剩余屬性集之間相關(guān)系數(shù)的絕對值f ; 步驟四、根據(jù)#值和不同屬性的屬性值進(jìn)行每一層節(jié)點(diǎn)的建立過程，并更新剩余屬性集M ; 步驟五、若剩余屬性集5不為空集，即所有屬性未遍歷完，繼續(xù)步驟三和四，直到所有屬性遍歷完，生成決策樹；步驟六、依據(jù)決策樹將待分類數(shù)據(jù)集進(jìn)行分類。
2. 根據(jù)權(quán)利要求1所述的一種基于屬性間相關(guān)系數(shù)的決策樹數(shù)據(jù)分類方法，其特征在于根節(jié)點(diǎn)F的測試屬性選取過程，至少還包括以下步驟： 1) 已知待分類數(shù)據(jù)集I)，訓(xùn)練樣本集公具有屬性集J，可分為μ個不同類 Ci p = ，即SffJ，其中巧表示類中的樣本數(shù)；屬性集2具有》種屬性，即j = {4,為,...,4}且每種屬性(先具有4個不同屬性值·，則屬性值將樣本集S劃分，其樣本數(shù)集合為(?, %SfoJ，其中s%表示在屬性4下屬性值為的樣本數(shù)； 2) 求樣本分類所需的期望信息，即總的信息熵值為/(?...4；) = _Σ灼loS2 ，其中Pi = ^/(?+?+...+sJ，1幻 ; 3) 計(jì)算樣本各屬性的平均信息期望
，zis聊'sm'…，= - Σog2 (pmh 其中 = sm/isw)+sm + 表示在屬性4下屬性值為％的類Ci的樣本數(shù)，s為訓(xùn)練樣本總數(shù)，lASm， 1 幻 Svfc ; 4) 求樣本各屬性的信息增益值GbwU)，即外W..,?)-邱為,）； 5) 根據(jù)信息增益值Gb?(為.）將屬性集』= 〖4,4^4)從大到小排序，并將最大信息增益值所對應(yīng)的屬性選為決策樹中根節(jié)點(diǎn)ir的測試屬性，即該節(jié)點(diǎn)有 Gaira(JF) = max(Gfai?(為)，...，〇
3. 根據(jù)權(quán)利要求1所述的一種基于屬性間相關(guān)系數(shù)的決策樹數(shù)據(jù)分類方法，其特征在于根節(jié)點(diǎn)屬性(上一層節(jié)點(diǎn)屬性)與剩余屬性集之間相關(guān)系數(shù)的絕對值夂的計(jì)算，至少還包括以下步驟： 1) 計(jì)算各屬性的方差和根節(jié)點(diǎn)屬性(上一層節(jié)點(diǎn)屬性）與剩余屬性集之間的協(xié)方差，即方差/)(4) = 5(4-5(4))2, ￡)(為）=5(為-5(4)f，協(xié)方差 Cov'd為）=￡(』4為)-·?(4〇五(為），其中?且; 2) 計(jì)算根節(jié)點(diǎn)屬性(上一層節(jié)點(diǎn)屬性）與剩余屬性集之間相關(guān)系數(shù)的絕對值P%即
其中 CUp1 <1。
4. 根據(jù)權(quán)利要求1所述的一種基于屬性間相關(guān)系數(shù)的決策樹數(shù)據(jù)分類方法，其特征在于根據(jù)P1值和不同屬性的屬性值進(jìn)行每一層節(jié)點(diǎn)的建立過程，至少還包括以下步驟： ο初始化剩余屬性集及，即，其中辠表示根節(jié)點(diǎn)的屬性； 2) 將p'從大到小進(jìn)行排序，即#=^1，/^...4:11，再選取前％個彳，并把其對應(yīng)的屬性作為根節(jié)點(diǎn)的子節(jié)點(diǎn)的測試屬性，并更新剩余屬性集Λ，即i?=l·[岑; 3) 依據(jù)屬性4斤=：1，2，...,4具有4個不同屬性值{%,^^...,%^，可將樣本集3 劃分為，計(jì)算根節(jié)點(diǎn)屬性Jff.(上一層節(jié)點(diǎn)屬性）下不同屬性值的信息量 '，...，= -Σ夕w(Pm)，其中Pm = 5雨/(%1+5[? + ...+5附,)，I。; 4) 求根節(jié)點(diǎn)屬性4r (上一層節(jié)點(diǎn)屬性）在不同屬性值~下，子節(jié)點(diǎn) 屬性的平均信息期望5(為），即
'勝XS))，其中巧(哪)=si(呵ft/(sp，)+s2(m冊 + …^ 表示除根節(jié)點(diǎn)屬性外的剩余屬性，屬性為T是屬性為的父節(jié)點(diǎn)屬性，表示屬性Jfff 中屬性值為％下，其子節(jié)點(diǎn)屬性4中屬性值為％并屬于類Cfi的樣本數(shù)，， l<x<vk, i<j<vt . 5) 求根節(jié)點(diǎn)屬性為^ (上一層節(jié)點(diǎn)屬性）在不同屬性值下子節(jié)點(diǎn)屬性 f目息增?值，即(為)4 bin，sIf^a，j (為），并分別將根節(jié)點(diǎn)屬性值 α...,i3WV下的(為）從大到小排序，選取(為M直大的作為根節(jié)點(diǎn)屬性(上一層節(jié)點(diǎn)屬性）不同屬性值對應(yīng)的子節(jié)點(diǎn)測試屬性，完成根節(jié)點(diǎn)（上一層節(jié)點(diǎn)）的子節(jié)點(diǎn)的建立過程； 6) 計(jì)算當(dāng)前剩余屬性集與上一層屬性相關(guān)系數(shù)的絕對值P'，比較同一剩余屬性與上一層屬性的眾值，選取大的作為上一層屬性結(jié)點(diǎn)的子節(jié)點(diǎn)的測試屬性，并更新剩余屬性集 R ' 7) 依據(jù)根節(jié)點(diǎn)（上一層節(jié)點(diǎn)）的子節(jié)點(diǎn)的建立過程中的步驟2)、3)、4)、5)以及步驟6)，來完成余下每層子節(jié)點(diǎn)的建立過程。
【專利摘要】本發(fā)明提出了一種基于屬性間相關(guān)系數(shù)的數(shù)據(jù)分類方法。本發(fā)明步驟：首先，輸入樣本集和待分類數(shù)據(jù)集，并計(jì)算訓(xùn)練樣本集所有屬性的信息增益值；其次，依據(jù)從大到小排序?qū)⒆畲笮畔⒃鲆嬷档膶傩赃x為決策樹中根節(jié)點(diǎn)的測試屬性；然后，計(jì)算根節(jié)點(diǎn)屬性(上一層節(jié)點(diǎn)屬性)與剩余屬性集之間相關(guān)系數(shù)的絕對值；再根據(jù)值和不同屬性的屬性值進(jìn)行每一層節(jié)點(diǎn)的建立過程，并更新剩余屬性集；最后，直到所有屬性遍歷為止，生成決策樹，依據(jù)決策樹將待分類數(shù)據(jù)進(jìn)行分類。本發(fā)明大大改善了傳統(tǒng)決策樹的效能，提高了決策樹的分類準(zhǔn)確性。
【IPC分類】G06F17-30
【公開號】CN104765839
【申請?zhí)枴緾N201510180290
【發(fā)明人】裴廷睿, 趙津鋒, 郭勛, 朱更明, 李哲濤, 田淑娟
【申請人】湘潭大學(xué)
【公開日】2015年7月8日
【申請日】2015年4月16日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：裴廷睿;趙津鋒;郭勛;朱更明;李哲濤;田淑娟;
技術(shù)所有人：湘潭大學(xué);
我是此專利的發(fā)明人

上一篇：一種大數(shù)據(jù)分布式存儲的方法和裝置的制造方法
上一篇：漢字字首排檢及信息處理方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于屬性間相關(guān)系數(shù)的數(shù)據(jù)分類方法