本發(fā)明涉及計算機數(shù)據(jù)處理領域,尤其涉及一種基于鄰域粗糙集和pca融合的數(shù)據(jù)分類預測方法。
背景技術:
近年來,信息化產業(yè)發(fā)展迅速,隨著云時代的來臨,大數(shù)據(jù)(bigdata)也吸引了越來越多的關注,大數(shù)據(jù)并不在“大”,而在于“有用”,因此對大數(shù)據(jù)價值的挖掘比數(shù)量更為重要,如何在有限的時間范圍內對數(shù)據(jù)進行處理、分析,進而獲得更多的知識,是當前計算機數(shù)據(jù)處理系統(tǒng)所面臨的嚴重挑戰(zhàn)。
由于信息的不確定性普遍存在,因此數(shù)據(jù)分類是機器學習的基本任務,是圖像視覺分析、文本分析、語音識別、輿情預警別等領域的基礎工作。數(shù)據(jù)分類包含兩種形式,即:監(jiān)督學習與無監(jiān)督學習。粗糙集理論是一種處理不確定性信息的數(shù)學工具,與概率論、模糊集等其他處理不確定性問題的理論和方法相比,是一種監(jiān)督學習,對問題的描述和處理更傾向于符合決策屬性,能更好地描述實際問題中屬性值對決策屬性具有某種偏好的特性,并且,現(xiàn)實應用中,數(shù)據(jù)缺失現(xiàn)象經常發(fā)生,不完備信息的決策受到了越來越廣泛的重視,成為智能信息處理的重要研究內容。盡管現(xiàn)有技術中有很多方案分別從信息學角度提出了眾多評價、預測方法,但是都存在一些問題,比如通常需要完備的數(shù)據(jù)集、評價方法中參數(shù)的率定人為因素較強、評價過程中需要大量參數(shù)、面向不同的對象評價結果適用性差等等。基于粗糙集的數(shù)據(jù)評價則只能給予某種級別的評判,在不同樣本數(shù)據(jù)的定量化比較方面不如主成分分析。因此,亟需一種新的技術手段,能夠克服上述技術問題,以形成相對完整、一致的評價描述,從而實現(xiàn)更加準確的識別和判斷。
技術實現(xiàn)要素:
鑒于以上所述現(xiàn)有技術的缺點,本發(fā)明提供一種基于鄰域粗糙集和pca融合的數(shù)據(jù)分類預測方法,以解決上述技術問題。
本發(fā)明提供的一種基于鄰域粗糙集和pca融合的數(shù)據(jù)分類預測方法,包括:
采集樣本數(shù)據(jù),形成樣本數(shù)據(jù)集s;
根據(jù)樣本數(shù)據(jù)集,計算鄰域粗糙集權重向量和主成分權重向量;
通過對所述鄰域粗糙集權重向量和主成分權重向量進行融合,獲取融合后的權重向量,形成新樣本數(shù)據(jù)集s’,并對原數(shù)據(jù)進行分類和預測。
進一步,通過如下公式對所述鄰域粗糙集權重向量和主成分權重向量進行融合,獲取融合后的權重向量:
其中,
如果k≠1,則融合后的權重構成權重分配向量,若k=1,則不存在融合后的權重向量。
融合后的權重向量d=<m(a1),m(a2),…,m(am)>,i=1,2……m。
進一步,根據(jù)所述融合后的權重向量,通過如下步驟構造新樣本數(shù)據(jù)集s’,
進一步,所述新樣本數(shù)據(jù)集s’通過如下步驟獲?。?/p>
依次將條件屬性集a={a1,a2,…,am}中的第i列所有樣本ai與增益量m(ai)相乘,獲取新樣本數(shù)據(jù)集s’的條件屬性集a’={a1’,a2’,…,am’};
約簡新樣本數(shù)據(jù)集s’中增益為0的屬性列。
進一步,在所述新樣本數(shù)據(jù)集s’中的所有子集中,選擇一個子集作為支持向量機的訓練樣本集,選擇其它子集作為測試樣本集,根據(jù)支持向量機的訓練樣本集建立支持向量機模型,根據(jù)支持向量機模型進行數(shù)據(jù)等級分類和預測。
進一步,所述新樣本數(shù)據(jù)集s’的樣本條數(shù)為n、列數(shù)為m’,通過如下公式對樣本數(shù)據(jù)集s中每條樣本數(shù)據(jù)進行評價:
其中,fi為樣本數(shù)據(jù)s中的第i條數(shù)據(jù)的綜合評價指數(shù),m'為新樣本數(shù)據(jù)集s’約簡后的列數(shù),s'ij為新樣本數(shù)據(jù)集s’約簡后的第i條,第j列的樣本數(shù)據(jù);
根據(jù)fi值對原樣本數(shù)據(jù)集s中樣本數(shù)據(jù)進行優(yōu)劣比較,fi值越大,則質量越差。
本發(fā)明的有益效果:本發(fā)明中的基于鄰域粗糙集和pca融合的數(shù)據(jù)分類預測方法,通過將鄰域粗糙集權重和pca權重融合,可以有效解決現(xiàn)有監(jiān)督學習和無監(jiān)督學習數(shù)據(jù)分類處理能力不足問題,實現(xiàn)了監(jiān)督學習和無監(jiān)督學習的結合,既能反映出樣本質量的好壞,給予不同樣本集優(yōu)劣程度的定量化描述,又能給予某種級別的評定,從而形成了完整、一致的評價描述,為計算機數(shù)據(jù)處理系統(tǒng)能夠挖掘更加有價值的知識提供了基礎。
附圖說明
圖1是本發(fā)明實施例中基于鄰域粗糙集和pca融合的數(shù)據(jù)分類預測方法的原理示意圖。
圖2是本發(fā)明實施例中基于鄰域粗糙集和pca融合的數(shù)據(jù)分類預測方法的流程示意圖。
具體實施方式
以下通過特定的具體實例說明本發(fā)明的實施方式,本領域技術人員可由本說明書所揭露的內容輕易地了解本發(fā)明的其他優(yōu)點與功效。本發(fā)明還可以通過另外不同的具體實施方式加以實施或應用,本說明書中的各項細節(jié)也可以基于不同觀點與應用,在沒有背離本發(fā)明的精神下進行各種修飾或改變。需說明的是,在不沖突的情況下,以下實施例及實施例中的特征可以相互組合。
需要說明的是,以下實施例中所提供的圖示僅以示意方式說明本發(fā)明的基本構想,遂圖式中僅顯示與本發(fā)明中有關的組件而非按照實際實施時的組件數(shù)目、形狀及尺寸繪制,其實際實施時各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變,且其組件布局型態(tài)也可能更為復雜。
如圖2所示,本實施例中的基于鄰域粗糙集和pca融合的數(shù)據(jù)分類預測方法,包括:
采集樣本數(shù)據(jù),形成樣本數(shù)據(jù)集s;
通過條件屬性集對所述樣本數(shù)據(jù)集s進行描述,并確定其決策屬性;
根據(jù)確定決策屬性后的樣本數(shù)據(jù)集,計算鄰域粗糙集權重向量和主成分權重向量;
通過對所述鄰域粗糙集權重向量和主成分權重向量進行融合,獲取融合后的權重向量和新的樣本數(shù)據(jù)集s’,并對原數(shù)據(jù)進行分類和預測。
在本實施例中,采集某一時間段的樣本數(shù)據(jù)集s,樣本數(shù)據(jù)集s中的樣本包含樣本條數(shù)為n,列數(shù)為m,可以通過條件屬性集a={a1,a2,…,am}描述,依據(jù)決策學習的規(guī)則確定屬性集a={a1,a2,…,am}的決策屬性后,樣本數(shù)據(jù)集s可描述為a={a1,a2,…,am,d},d為決策屬性類標號。對由條件屬性、決策屬性的數(shù)據(jù)集用鄰域粗糙集屬性權重的方法計算鄰域粗糙集權重向量:
r=<r(a1),r(a2),…,r(am)>,
再用主成分權重的方法計算主成分權重向量:
p=<p(a1),p(a2),…,p(am)>。
并且有:
和
在本實施例中,通過d-s數(shù)據(jù)融合的方法融合鄰域粗糙集權重向量和主成分權重向量,得到計算后的權重向量:
d=<m(a1),m(a2),…,m(am)>,
計算屬性ai的合成權重m(ai)=r(ai)⊕p(ai)的方法如下:
其中,
在本實施例中,采用d-s數(shù)據(jù)融合的方法融合鄰域粗糙集權重向量和主成分權重向量,獲取融合后的權重向量,根據(jù)所述融合后的權重向量,構造新樣本數(shù)據(jù)集s’,新樣本數(shù)據(jù)集s’由樣本數(shù)據(jù)集s的每列屬性乘以融合后的權重向量d中的權重值得到,即:
對屬性集a={a1,a2,…,am}依次將第i列所有樣本ai乘以增益量m(ai),即ai’=ai*m(ai),則新樣本數(shù)據(jù)集s’屬性集a’={a1’,a2’,…,am’}
在新樣本數(shù)據(jù)集s’中約簡增益為0的屬性列。
在本實施例中,從新樣本數(shù)據(jù)集s’中選擇一子集作為svm(supportvectormachine,支持向量機)的訓練樣本集,選擇其它子集作為測試樣本集,其他子集可以是剩余的子集中的部分子集,也可以是剩余的所有子集。選用svm的模型結構和訓練算法進行svm建模,并對測試樣本集進行數(shù)據(jù)等級分類、預測等評定,具體分類、預測的方法取決于svm模型結構的選擇,svm是一個有監(jiān)督的學習模型,通常用來進行模式識別、分類以及回歸分析,本實施例中通過svm自帶的分類、預測功能對樣本數(shù)據(jù)進行分類預測。
在本實施例中,還包括對樣本數(shù)據(jù)集進行數(shù)據(jù)決策評價,具體包括針對每一條樣本記錄,通過如下公式對每條樣本記錄進行評價:
其中,fi為樣本數(shù)據(jù)s中的第i條數(shù)據(jù)的綜合評價指數(shù),m'為樣本集約簡后的列數(shù),s'ij為新樣本數(shù)據(jù)集s’約簡后的第i條,第j列的樣本數(shù)據(jù);
根據(jù)fi值對原樣本數(shù)據(jù)集s中樣本數(shù)據(jù)進行優(yōu)劣比較,fi值越大,則質量越差。
下面列舉一個具體例子進行詳細說明:
采集某水域某月的水質檢測數(shù)據(jù),具體監(jiān)測數(shù)值如表1所示(其中①高錳酸鹽指數(shù)②化學需氧量③五日生化需氧量),該水域水質監(jiān)測值的多個月份數(shù)據(jù)構成樣本數(shù)據(jù)集s={a1,a2,…,a12}
表1
如表2所示,樣本數(shù)據(jù)集s經過融合權重向量(00.1000.110.09000.470.120.0500.07)
增益后形成的新數(shù)據(jù)集s’={0,0.10*a2,0,…,0.07*a12}
表2
約簡新樣本數(shù)據(jù)集s’中增益為0的屬性列,剩下的為s’={0.10*a2,…,0.07*a12}
用這個新樣本數(shù)據(jù)集s’中的一部分數(shù)據(jù),例如將前50%個數(shù)據(jù)樣本作為訓練集,后50%做測試集對測試集進行水質等級預測,通過svm模型預測出來第51%個數(shù)據(jù)樣本的水質等級為5.1,則取整數(shù),任務該樣本水質等級為5,本實施例中的水質等級可以根據(jù)實際情況進行定義,通過不同的閾值范圍,來反映不同的水質情況。
最后使用函數(shù)f=0.10*a2+…+0.07*a12來進行水質綜合評價,比較不同的原數(shù)據(jù)樣本的水質優(yōu)劣,函數(shù)值越大,水質越差。
上述實施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟悉此技術的人士皆可在不違背本發(fā)明的精神及范疇下,對上述實施例進行修飾或改變。因此,舉凡所屬技術領域中具有通常知識者在未脫離本發(fā)明所揭示的精神與技術思想下所完成的一切等效修飾或改變,仍應由本發(fā)明的權利要求所涵蓋。