一種基于多分類器融合的動態(tài)數(shù)據(jù)分級方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明公開一種動態(tài)數(shù)據(jù)分級方法,屬于計算機存儲技術(shù)領(lǐng)域,具體地說是一種 基于多分類器融合的動態(tài)數(shù)據(jù)分級方法。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)、云存儲時代的到來,云數(shù)據(jù)中心得到了飛速發(fā)展,使得高性能、低成 本的智能數(shù)據(jù)管理成為研宄熱點。由于復雜的應用環(huán)境導致數(shù)據(jù)具有時效性和空間性、數(shù) 據(jù)訪問和處理復雜性、存儲訪問需求多樣性等特征,所以需要對各種動態(tài)數(shù)據(jù)進行分級、分 層處理,以實現(xiàn)應用需求和存儲資源之間的合理映射,提高存儲設(shè)備的性價比。例如,通過 數(shù)據(jù)分級模型將數(shù)據(jù)分為熱點數(shù)據(jù)與冷數(shù)據(jù),將熱點數(shù)據(jù)放置到性能更加優(yōu)異的存儲設(shè)備 上,提升訪問性能,將不被經(jīng)常訪問的冷數(shù)據(jù)放置到低速設(shè)備上,降低存儲成本。隨著數(shù)據(jù) 中心規(guī)模的擴大,數(shù)據(jù)種類越來越多,應用場景也越來越復雜,基于單一分類器的動態(tài)數(shù)據(jù) 分級模式已不能適應新的需求。針對此問題,本發(fā)明提出了一種基于多分類器融合的智能 動態(tài)數(shù)據(jù)分級方法,提高復雜應用環(huán)境中數(shù)據(jù)分級的準確性,更合理的表述多應用多類型 數(shù)據(jù)的存儲層次,在提高數(shù)據(jù)分級的準確性的同時,進一步提升存儲性能。而且,由于多個 分類器通常都選擇簡單模型,可并行處理,因此,基于多分類器融合的動態(tài)數(shù)據(jù)分級方法還 可提高數(shù)據(jù)分級的處理速度,提升存儲效率。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明針對隨著數(shù)據(jù)中心規(guī)模的擴大,數(shù)據(jù)種類越來越多,應用場景也越來越復 雜,基于單一分類器的動態(tài)數(shù)據(jù)分級模式已不能適應新的需求的問題,提供一種基于多分 類器融合的動態(tài)數(shù)據(jù)分級方法,實現(xiàn)了提高復雜應用環(huán)境中數(shù)據(jù)分級的準確性,更合理的 表述多應用多類型數(shù)據(jù)的存儲層次。
[0004] 本發(fā)明提出的具體方案是: 一種基于多分類器融合的動態(tài)數(shù)據(jù)分級方法,具體步驟為: ① 對訓練集數(shù)據(jù)進行數(shù)據(jù)特征提取,形成初始數(shù)據(jù)特征集合; ② 對初始數(shù)據(jù)特征集合,進行數(shù)據(jù)特征預處理,篩選出最優(yōu)特征子集; ③ 對最優(yōu)特征子集,進行多分類器訓練,得出不同分類模型; ④ 將不同分類模型經(jīng)分類器融合形成動態(tài)數(shù)據(jù)分級模型,利用動態(tài)數(shù)據(jù)分級模型對動 態(tài)數(shù)據(jù)進行分級。
[0005] 所述的數(shù)據(jù)特征提取利用人工或機器進行,用映射或變換的方法將原始特征降 維,變換為與原始特征相比數(shù)量較少的新特征,形成初始數(shù)據(jù)特征集合。
[0006] 對所述的初始數(shù)據(jù)特征集合,選擇最有分類信息的特征,使用PCA、維度變換、粗糙 集屬性約簡中的一種或幾種方法進行篩選,篩選出最優(yōu)特征子集。
[0007] 根據(jù)應用場景和數(shù)據(jù)類型選擇多個分類器進行訓練,得到若干分類器模型,選擇 有監(jiān)督分類器,以及相對簡單的半監(jiān)督或無監(jiān)督分類器模型。
[0008] 不同分類模型的數(shù)據(jù)類別進行決策融合,根據(jù)各分類器的貢獻度,可得到融合分 類器模型如下:
【主權(quán)項】
1. 一種基于多分類器融合的動態(tài)數(shù)據(jù)分級方法,其特征是具體步驟為: ① 對訓練集數(shù)據(jù)進行數(shù)據(jù)特征提取,形成初始數(shù)據(jù)特征集合; ② 對初始數(shù)據(jù)特征集合,進行數(shù)據(jù)特征預處理,篩選出最優(yōu)特征子集; ③ 對最優(yōu)特征子集,進行多分類器訓練,得出不同分類模型; ④ 將不同分類模型經(jīng)分類器融合形成動態(tài)數(shù)據(jù)分級模型,利用動態(tài)數(shù)據(jù)分級模型對動 態(tài)數(shù)據(jù)進行分級。
2. 根據(jù)權(quán)利要求1所述的一種基于多分類器融合的動態(tài)數(shù)據(jù)分級方法,其特征是所述 的數(shù)據(jù)特征提取利用人工或機器進行,用映射或變換的方法將原始特征降維,變換為與原 始特征相比數(shù)量較少的新特征,形成初始數(shù)據(jù)特征集合。
3. 根據(jù)權(quán)利要求1或2所述的一種基于多分類器融合的動態(tài)數(shù)據(jù)分級方法,其特征是 對所述的初始數(shù)據(jù)特征集合,選擇最有分類信息的特征,使用PCA、維度變換、粗糙集屬性約 簡中的一種或幾種方法進行篩選,篩選出最優(yōu)特征子集。
4. 根據(jù)權(quán)利要求3所述的一種基于多分類器融合的動態(tài)數(shù)據(jù)分級方法,其特征是根據(jù) 應用場景和數(shù)據(jù)類型選擇多個分類器進行訓練,得到若干分類器模型,選擇有監(jiān)督分類器, 以及相對簡單的半監(jiān)督或無監(jiān)督分類器模型。
5. 根據(jù)權(quán)利要求4所述的一種基于多分類器融合的動態(tài)數(shù)據(jù)分級方法,其特征是不 同分類模型的數(shù)據(jù)類別進行決策融合,根據(jù)各分類器的貢獻度,可得到融合分類器模型如 下:
其中,Wij是分類器i對類別j的貢獻度,C u是分類器i判 斷數(shù)據(jù)屬于類別j的置信度。
6. 根據(jù)權(quán)利要求5所述的一種基于多分類器融合的動態(tài)數(shù)據(jù)分級方法,其特征是使用 的所述的決策融合方法有投票選舉法、遺傳算法、模糊積分融合中的一種或幾種。
7. 根據(jù)權(quán)利要求6所述的一種基于多分類器融合的動態(tài)數(shù)據(jù)分級方法,其特征是利用 所述的動態(tài)數(shù)據(jù)分級模型對動態(tài)數(shù)據(jù)進行分級過程為:計算待處理數(shù)據(jù)的分類特征,將其 與各分類器模型進行匹配,各分類器的分類并行處理,得到各分類器的決策結(jié)果C ij,利用生 成的動態(tài)數(shù)據(jù)分級模型進行計算,得到待處理數(shù)據(jù)的最終判別類別,完成與其余存儲層次 的映射。
【專利摘要】本發(fā)明公開一種基于多分類器融合的動態(tài)數(shù)據(jù)分級方法,屬于計算機存儲技術(shù)領(lǐng)域,具體步驟為:①對訓練集數(shù)據(jù)進行數(shù)據(jù)特征提取,形成初始數(shù)據(jù)特征集合;②對初始數(shù)據(jù)特征集合,進行數(shù)據(jù)特征預處理,篩選出最優(yōu)特征子集;③對最優(yōu)特征子集,進行多分類器訓練,得出不同分類模型;④將不同分類模型經(jīng)分類器融合形成動態(tài)數(shù)據(jù)分級模型,利用動態(tài)數(shù)據(jù)分級模型對動態(tài)數(shù)據(jù)進行分級;本發(fā)明的方法提高復雜應用環(huán)境中數(shù)據(jù)分級的準確性,更合理的表述多應用多類型數(shù)據(jù)的存儲層次,在提高數(shù)據(jù)分級的準確性的同時,進一步提升存儲性能。
【IPC分類】G06K9-62, G06F17-30
【公開號】CN104636493
【申請?zhí)枴緾N201510095551
【發(fā)明人】趙雅倩, 陳繼承
【申請人】浪潮電子信息產(chǎn)業(yè)股份有限公司
【公開日】2015年5月20日
【申請日】2015年3月4日