一種多維數(shù)據(jù)的正交投影降維分類方法及系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及數(shù)據(jù)分類領域,尤其是一種多維數(shù)據(jù)的正交投影降維分類方法及系 統(tǒng)。
【背景技術】
[0002] 分類技術是數(shù)據(jù)挖掘、機器學習和模式識別中的一個重要研究領域,廣泛應用于 需要歸納與分析大量信息的行業(yè)及應用領域中。隨著大數(shù)據(jù)對處理海量數(shù)據(jù)的實時性高、 誤警率低的需求,這對分類技術在效率和準度上提出了極高的要求。尤其是在面對大規(guī)模、 高維度數(shù)據(jù)時,如何建立高效、可擴展的分類數(shù)據(jù)挖掘算法成了數(shù)據(jù)挖掘及其應用領域的 重要研究課題。
[0003] 目前針對多維數(shù)據(jù)的分類研究還處于起步階段,相關的分類算法較少。現(xiàn)有的多 維數(shù)據(jù)分類方法,大多算法復雜度高,運算量大,效率低,難于滿足大數(shù)據(jù)處理的高要求。
【發(fā)明內容】
[0004] 為解決上述技術問題,本發(fā)明的目的在于:提供一種算法復雜低和高效的,多維數(shù) 據(jù)的正交投影降維分類方法。
[0005] 本發(fā)明的另一目的在于:提供一種算法復雜低和高效的,多維數(shù)據(jù)的正交投影降 維分類系統(tǒng)。
[0006] 本發(fā)明解決其技術問題所采取的技術方案是:
[0007] -種多維數(shù)據(jù)的正交投影降維分類方法,包括:
[0008] S1、構建待處理的多維數(shù)據(jù)的訓練樣本集,并對構建的訓練樣本集進行正交投影, 得到相應的多個二維正交投影矩陣;
[0009] S2、對每個二維正交投影矩陣依次進行歸一化處理,得到歸一化處理后的二維正 交投影矩陣;
[0010] S3、對歸一化處理后的二維正交投影矩陣進行模糊處理,得到模糊處理后的二維 正交投影矩陣;
[0011] S4、計算待處理的多維數(shù)據(jù)在模糊處理后的二維正交投影矩陣上對應位置的取值 之和,然后根據(jù)計算的結果對待處理的多維數(shù)據(jù)進行分類。
[0012] 進一步,所述步驟S1,其包括:
[0013] S11、構建待處理的多維數(shù)據(jù)的訓練樣本集;
[0014] S12、將構建的訓練樣本集中的每列數(shù)據(jù)標準化到足以描述計算精度的空間;
[0015] S13、分別對構建的訓練樣本集中的每一類數(shù)據(jù)樣本,在維度上兩兩進行正交投 影,得到ICf個二維正交投影矩陣,其中,k為構建的訓練樣本集的類別,η為構建的訓練樣 本集的維數(shù)。
[0016] 進一步,所述步驟S13,其包括:
[0017] S131、創(chuàng)建個二維矩陣來描述k類η維數(shù)據(jù)集中的所有二維坐標平面;
[0018] S132、將構建的訓練樣本集中的所有數(shù)據(jù)逐類投影至步驟S131所創(chuàng)建的二維坐標 平面,并使相應的二維矩陣上的元素值自加1,最終得到個二維正交投影矩陣。
[0019] 進一步,所述步驟S2,其具體為:
[0020] 對每個二維正交投影矩陣依次進行歸一化處理,得到處理后的二維正交投影矩 陣,所述歸一化處理的計算公式為:
[0021]
[0022]其中,Θ為設定的權值調整參數(shù),mij為歸一化處理前二維正交投影矩陣中第i行第j 列元素的值,maxP為第p類的0個矩陣中元素的最大值,p = l,2,…,km、為處理后的二維 正交投影矩陣中第i行第j列元素的值。
[0023]進一步,所述步驟S3,其具體為:
[0024] 采用IIR濾波法、FIR濾波法、FFT法、小波變換法、方框模糊算法和高斯模糊算法中 的任意一種模糊算法對歸一化處理后的二維正交投影矩陣進行模糊處理,得到模糊處理后 的二維正交投影矩陣。
[0025] 進一步,所述高斯模糊算法中標準差參數(shù)〇的取值為 ,其中,Ph 為歸一化處理后的二維正交投影矩陣中的最高矩陣像素密度,Pi為歸一化處理后的二維正 交投影矩陣中的最低矩陣像素密度,矩陣像素密度為在十分之一矩陣大小的方框內所擁有 的像素數(shù)。
[0026]進一步,所述步驟S4,其包括:
[0027] S41、輸入待處理的數(shù)據(jù);
[0028] S42、在模糊處理后的每個類的g個二維正交投影矩陣中,分別讀取待處理的多維 數(shù)據(jù)在各個二維正交投影矩陣對應位置的取值;
[0029] S43、分別計算待處理的多維數(shù)據(jù)在每個類中所讀取的所有取值之和;
[0030] S44、根據(jù)計算的取值之和大小對待處理的多維數(shù)據(jù)進行分類。
[0031]進一步,所述步驟S44,其具體為:
[0032]從待處理的多維數(shù)據(jù)在k個類上的所有取值之和中找出取值之和最大值所對應的 類,然后將待處理的多維數(shù)據(jù)的類判斷為取值之和最大值所對應的類,若待處理的多維數(shù) 據(jù)在k個類上有兩個類的所有取值之和相同,則標記為無法判斷待處理的多維數(shù)據(jù)的類或 待處理的多維數(shù)據(jù)的類為異于訓練樣本集所指定的k個類的新類。
[0033]本發(fā)明解決其技術問題所采取的另一技術方案是:
[0034] 一種多維數(shù)據(jù)的正交投影降維分類系統(tǒng),包括:
[0035]正交投影模塊,用于構建待處理的多維數(shù)據(jù)的訓練樣本集,并對構建的訓練樣本 集進行正交投影,得到相應的多個二維正交投影矩陣;
[0036] 歸一化處理模塊,用于對每個二維正交投影矩陣依次進行歸一化處理,得到歸一 化處理后的二維正交投影矩陣;
[0037]模糊處理模塊,用于對歸一化處理后的二維正交投影矩陣進行模糊處理,得到模 糊處理后的二維正交投影矩陣;
[0038]分類模塊,用于計算待處理的多維數(shù)據(jù)在模糊處理后的二維正交投影矩陣上對應 位置的取值之和,然后根據(jù)計算的結果對待處理的多維數(shù)據(jù)進行分類;
[0039]所述正交投影模塊的輸出端依次通過歸一化處理模塊和模糊處理模塊進而與分 類模塊的輸入端連接。
[0040] 進一步,所述正交投影模塊,其包括:
[0041] 構建單元,用于構建待處理的多維數(shù)據(jù)的訓練樣本集;
[0042]標準化單元,用于將構建的訓練樣本集中的每列數(shù)據(jù)標準化到足以描述計算精度 的空間;
[0043]正交投影單元,用于分別對構建的訓練樣本集中的每一類數(shù)據(jù)樣本,在維度上兩 兩進行正交投影,得到A ·(:,個二維正交投影矩陣,其中,k為構建的訓練樣本集的類別,η為 構建的訓練樣本集的維數(shù);
[0044]所述構建單元依次通過標準化單元和正交投影單元進而與歸一化處理模塊的輸 入端連接。
[0045]本發(fā)明的方法的有益效果是:先通過正交投影得到相應的多個正交投影矩陣,然 后結合歸一化處理和模糊處理對得到的正交投影矩陣進行處理,最后再根據(jù)多維數(shù)據(jù)在二 維正交投影矩陣上對應位置的取值之和進行分類,通過正交投影將復雜的多維數(shù)據(jù)分類問 題轉化為由多個簡單的二維數(shù)據(jù)分類問題所組成的集合,降低了數(shù)據(jù)分類的維度,算法復 雜低,運算量小,極大提高了分類的運算效率。
[0046]本發(fā)明的系統(tǒng)的有益效果是:先通過正交投影模塊正交投影得到相應的多個正交 投影矩陣,然后結合歸一化處理和模糊處理對得到的正交投影矩陣進行處理,最后分類模 塊再根據(jù)多維數(shù)據(jù)在二維正交投影矩陣上對應位置的取值之和進行分類,通過正交投影將 復雜的多維數(shù)據(jù)分類問題轉化為由多個簡單的二維數(shù)據(jù)分類問題所組成的集合,降低了數(shù) 據(jù)分類的維度,算法復雜低,運算量小,極大提高了分類的運算效率。
【附圖說明】
[0047]圖1為本發(fā)明一種多維數(shù)據(jù)的正交投影降維分類方法的整體流程圖;
[0048] 圖2為本發(fā)明的分類算法的樣本訓練過程的流程圖;
[0049] 圖3為本發(fā)明實施的分類算法的樣本分類過程的流程圖;
[0050] 圖4為本發(fā)明一種多維數(shù)據(jù)的正交投影降維分類系統(tǒng)的整體結構圖。
【具體實施方式】
[0051] 參照圖1,一種多維數(shù)據(jù)的正交投影降維分類方法,包括:
[0052] S1、構建待處理的多維數(shù)據(jù)的訓練樣本集,并對構建的訓練樣本集進行正交投影, 得到相應的多個二維正交投影矩陣;
[0053]