一種網(wǎng)絡(luò)物理系統(tǒng)混合數(shù)據(jù)分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種網(wǎng)絡(luò)物理系統(tǒng)數(shù)據(jù)分類方法,解決資源限制對(duì)網(wǎng)絡(luò)物理系統(tǒng)不同 類型數(shù)據(jù)分類低效問(wèn)題,屬于計(jì)算機(jī)技術(shù)、物聯(lián)網(wǎng)、網(wǎng)絡(luò)物理系統(tǒng)交叉應(yīng)用領(lǐng)域。
【背景技術(shù)】
[0002] 網(wǎng)絡(luò)物理系統(tǒng)利用網(wǎng)絡(luò)實(shí)現(xiàn)計(jì)算進(jìn)程與物理進(jìn)程之間的交互,一個(gè)集成計(jì)算,網(wǎng) 絡(luò),控制的下一代智能系統(tǒng)。通過(guò)3C融合和協(xié)作,實(shí)現(xiàn)大型工程的實(shí)時(shí)感知,動(dòng)態(tài)控制,信 息傳遞。它注重計(jì)算資源與物理資源的緊密結(jié)合與協(xié)調(diào),主要用于一些智能系統(tǒng)上如機(jī)器 人,智能導(dǎo)航、醫(yī)療、能源等多個(gè)重要發(fā)展領(lǐng)域等。
[0003] 數(shù)據(jù)挖掘是一種在海量數(shù)據(jù)中發(fā)現(xiàn)有用信息的技術(shù),是現(xiàn)在計(jì)算機(jī)技術(shù)中熱門的 方向。數(shù)據(jù)挖掘通過(guò)統(tǒng)計(jì),檢索,機(jī)器學(xué)習(xí)等技術(shù)實(shí)現(xiàn)從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏信息的目 標(biāo)。決策樹(shù)是數(shù)據(jù)挖掘分類算法的一個(gè)重要方法,是直觀運(yùn)用概率分布的一種圖解法。決 策樹(shù)的建立是用來(lái)輔助決策,是一種特殊的樹(shù)型結(jié)構(gòu),在機(jī)器學(xué)習(xí)中,決策樹(shù)是一個(gè)預(yù)測(cè)模 型,代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。決策樹(shù)中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象,而 每個(gè)分叉路徑則代表的某個(gè)可能的屬性值,而每個(gè)葉節(jié)點(diǎn)則對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng) 歷的路徑所表示的對(duì)象的值。在分類問(wèn)題中使用決策樹(shù)模型有很多的優(yōu)點(diǎn),根據(jù)決策樹(shù)可 以很容易地構(gòu)造出規(guī)則,而規(guī)則通常易于解釋和理解。決策樹(shù)模型也有一些缺點(diǎn),比如處理 缺失數(shù)據(jù)時(shí)的困難,過(guò)度擬合問(wèn)題的出現(xiàn),以及忽略數(shù)據(jù)集中屬性之間的相關(guān)性等。
【發(fā)明內(nèi)容】
[0004] 技術(shù)問(wèn)題:本發(fā)明目的是給出一種網(wǎng)絡(luò)物理系統(tǒng)混合數(shù)據(jù)分類方法,解決在較少 的時(shí)間和空間條件下對(duì)網(wǎng)絡(luò)物理系統(tǒng)不同類型數(shù)據(jù)分類低效問(wèn)題,減小資源限制對(duì)于分類 效率的影響。本發(fā)明利用決策樹(shù)解決網(wǎng)絡(luò)物理系統(tǒng)數(shù)據(jù)分類問(wèn)題。
[0005] 技術(shù)方案:本發(fā)明所述的網(wǎng)絡(luò)物理系統(tǒng)混合數(shù)據(jù)分類方法包含如下過(guò)程:收集用 戶輸入網(wǎng)絡(luò)物理系統(tǒng)數(shù)據(jù),根據(jù)相關(guān)的邏輯判斷條件,利用決策樹(shù)進(jìn)行數(shù)據(jù)分類。所述網(wǎng)絡(luò) 物理系統(tǒng)數(shù)據(jù)可以是離散值,也可以是連續(xù)值。
[0006] 本發(fā)明所述的網(wǎng)絡(luò)物理系統(tǒng)混合數(shù)據(jù)分類方法包括以下步驟:
[0007] 步驟1)收集用戶輸入的網(wǎng)絡(luò)物理系統(tǒng)的數(shù)據(jù)記錄,并設(shè)定數(shù)據(jù)記錄的類型。所述 的數(shù)據(jù)記錄包括數(shù)據(jù)值、屬性名稱、屬性值,這里數(shù)據(jù)記錄中不同的屬性由用戶指定,不同 的屬性對(duì)應(yīng)特定的值。所述數(shù)據(jù)記錄的類型是指離散型數(shù)據(jù)和連續(xù)型數(shù)據(jù)。
[0008] 步驟2)依次選擇網(wǎng)絡(luò)物理系統(tǒng)數(shù)據(jù)記錄構(gòu)建決策樹(shù)。
[0009] 步驟21)當(dāng)數(shù)據(jù)記錄是離散型數(shù)據(jù),則進(jìn)行如下步驟:
[0010] 步驟211)創(chuàng)建一個(gè)根節(jié)點(diǎn),該節(jié)點(diǎn)包括網(wǎng)絡(luò)物理系統(tǒng)當(dāng)前所有離散型的數(shù)據(jù)記 錄。
[0011] 步驟212)當(dāng)根節(jié)點(diǎn)中所有數(shù)據(jù)記錄的屬性值都相同,則將根節(jié)點(diǎn)標(biāo)記為葉子節(jié) 點(diǎn)C,并返回根節(jié)點(diǎn)。
[0012] 步驟213)當(dāng)根節(jié)點(diǎn)中所有數(shù)據(jù)記錄的屬性值不相同,則計(jì)算每種屬性的數(shù)據(jù)在 所有數(shù)據(jù)記錄中出現(xiàn)的次數(shù)與總的數(shù)據(jù)個(gè)數(shù)的比值,將這個(gè)比值作為該種屬性的信息增 益,選擇具有最大信息增益的屬性作為分裂屬性,根據(jù)這個(gè)分裂屬性將根節(jié)點(diǎn)分為兩部分。 所述的信息增益是一種選擇方式,看屬性能夠?yàn)榉诸愊到y(tǒng)帶來(lái)多少信息,帶來(lái)的信息越多, 該特征越重要。所述的分裂屬性是指節(jié)點(diǎn)分裂成不同節(jié)點(diǎn)所依據(jù)的原則,是一個(gè)判斷邏輯。
[0013] 步驟214)按照步驟211)至步驟213),對(duì)于新生成的節(jié)點(diǎn)遞歸進(jìn)行相同的步驟。
[0014] 步驟215)向用戶返回所生成決策樹(shù)的根節(jié)點(diǎn),該根節(jié)點(diǎn)代表所生成的決策樹(shù),這 個(gè)決策樹(shù)完成對(duì)網(wǎng)絡(luò)物理系統(tǒng)中離散型數(shù)據(jù)記錄的分類。
[0015] 步驟22)當(dāng)數(shù)據(jù)記錄是連續(xù)型數(shù)據(jù),則進(jìn)行如下步驟:
[0016] 步驟221)創(chuàng)建一個(gè)根節(jié)點(diǎn),該節(jié)點(diǎn)包括網(wǎng)絡(luò)物理系統(tǒng)當(dāng)前所有連續(xù)型的數(shù)據(jù)記 錄;
[0017] 步驟222)分別計(jì)算各個(gè)數(shù)據(jù)記錄作為分隔點(diǎn)的殘差平方和。所述的計(jì)算殘差平 方和的具體步驟為首先計(jì)算每一個(gè)數(shù)據(jù)記錄的數(shù)據(jù)值與當(dāng)前作為分隔點(diǎn)的數(shù)據(jù)記錄的數(shù) 據(jù)值的差,再計(jì)算所有數(shù)據(jù)記錄的數(shù)據(jù)值的平均值,然后計(jì)算每一個(gè)數(shù)據(jù)記錄的數(shù)據(jù)值與 所有數(shù)據(jù)記錄的數(shù)據(jù)值的平均值的差,最后將每一個(gè)數(shù)據(jù)記錄的數(shù)據(jù)值與作為分隔點(diǎn)的數(shù) 據(jù)記錄的數(shù)據(jù)值的差、每一個(gè)數(shù)據(jù)記錄的數(shù)據(jù)值與所有數(shù)據(jù)記錄的數(shù)據(jù)值的平均值的差這 兩個(gè)值之間的差的平方和作為當(dāng)前作為分隔點(diǎn)的數(shù)據(jù)記錄的殘差平方和。
[0018] 步驟223)選擇殘差平方和最小的數(shù)據(jù)記錄作為最佳分隔點(diǎn)。所述的最佳分隔點(diǎn) 是指分裂節(jié)點(diǎn)的一種原則。
[0019] 步驟224)將小于分隔點(diǎn)的數(shù)據(jù)數(shù)據(jù)記錄作為該分隔點(diǎn)的左子樹(shù);
[0020] 步驟225)將大于分隔點(diǎn)的數(shù)據(jù)數(shù)據(jù)記錄作為該分隔點(diǎn)的右子樹(shù)。
[0021] 步驟226)依據(jù)步驟221)至步驟224)對(duì)左子樹(shù)進(jìn)行構(gòu)建決策樹(shù);
[0022] 步驟227)依據(jù)步驟221)至步驟224)對(duì)右子樹(shù)進(jìn)行構(gòu)建決策樹(shù);
[0023] 步驟228)當(dāng)該節(jié)點(diǎn)屬性完全相同或只剩一個(gè)數(shù)據(jù)記錄,則將該節(jié)點(diǎn)標(biāo)記為葉節(jié) 占 .
[0024] 步驟229)選擇兩個(gè)相鄰葉子節(jié)點(diǎn),計(jì)算這兩個(gè)相鄰葉子節(jié)點(diǎn)的殘差平方和,再計(jì) 算這兩個(gè)相鄰葉子節(jié)點(diǎn)合并后的殘差平方和,然后比較這兩個(gè)相鄰葉子節(jié)點(diǎn)合并前后的殘 差平方和,當(dāng)合并后的小于合并前的,則將兩個(gè)葉子節(jié)點(diǎn)合并為一個(gè)節(jié)點(diǎn);
[0025] 步驟2210)重復(fù)步驟229),當(dāng)所有相鄰葉子節(jié)點(diǎn)都通過(guò)步驟229)進(jìn)行處理完畢, 向用戶返回所生成決策樹(shù)的根節(jié)點(diǎn),該根節(jié)點(diǎn)代表所生成的決策樹(shù),這個(gè)決策樹(shù)完成對(duì)網(wǎng) 絡(luò)物理系統(tǒng)中連續(xù)型數(shù)據(jù)記錄的分類。
[0026] 有益效果:本發(fā)明提供了一種基于決策樹(shù)的網(wǎng)絡(luò)物理系統(tǒng)混合數(shù)據(jù)分類方法,具 有如下的有益效果:
[0027] (1)本發(fā)明所述的基于決策樹(shù)的數(shù)據(jù)分類方法因?yàn)闆Q策樹(shù)算法利用分而治之的思 想,遞歸式地對(duì)高維度數(shù)據(jù)降維,分成一個(gè)個(gè)很容易處理的塊。
[0028] (2)本發(fā)明所述的基于決策樹(shù)的數(shù)據(jù)分類方法,可以將海量的數(shù)據(jù)進(jìn)行數(shù)據(jù)分類, 為后續(xù)的決策判斷提供科學(xué)依據(jù),作為后續(xù)開(kāi)發(fā)的基礎(chǔ)。
[0029] (3)本發(fā)明所述的基于決策樹(shù)的數(shù)據(jù)分類方法,雖然是用于最初的分析階段,但是 相比于其他的分類方法,比較高效。
【附