各種方 法的實現(xiàn),而本實施例中優(yōu)選的特性,即針對各方法實施例中所涉及的具體實現(xiàn)所提出的。 其--對應(yīng)性在此不作贅述。
[0169] 本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述各方法實施例的全部或部分步驟可以通 過程序指令相關(guān)的硬件來完成。前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中。該程 序在執(zhí)行時,執(zhí)行包括上述各方法實施例的步驟;而前述的存儲介質(zhì)包括:ROM、RAM、磁碟 或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0170] 最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制; 盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其 依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分或者全部技術(shù)特征 進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技 術(shù)方案的范圍。
【主權(quán)項】
1. 一種數(shù)據(jù)挖掘方法,其特征在于,所述方法應(yīng)用于分布式系統(tǒng),所述分布式系統(tǒng)包括 至少一個節(jié)點,所述方法包括: 確定數(shù)據(jù)挖掘流程的多個執(zhí)行步驟; 獲取所述各執(zhí)行步驟在運行過程中所需的物理資源與所述數(shù)據(jù)挖掘流程的輸入數(shù)據(jù) 所占的物理資源之間的對應(yīng)關(guān)系; 確定執(zhí)行所述各執(zhí)行步驟的節(jié)點,所述節(jié)點為所述各執(zhí)行步驟提供物理資源; 根據(jù)所述對應(yīng)關(guān)系和用于執(zhí)行相應(yīng)執(zhí)行步驟的節(jié)點所擁有的物理資源,確定執(zhí)行各個 步驟的節(jié)點所能處理的所述輸入數(shù)據(jù)的最大數(shù)據(jù)量; 根據(jù)所述執(zhí)行各個步驟的節(jié)點所能處理的輸入數(shù)據(jù)的最大數(shù)據(jù)量,確定所述分布式系 統(tǒng)所能處理的輸入數(shù)據(jù)的最大數(shù)據(jù)量; 根據(jù)所述分布式系統(tǒng)所能處理的輸入數(shù)據(jù)的最大數(shù)據(jù)量,對準備挖掘的數(shù)據(jù)按照所述 數(shù)據(jù)挖掘流程進行處理。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定數(shù)據(jù)挖掘流程的多個執(zhí)行步驟, 具體包括: 獲取執(zhí)行所述數(shù)據(jù)挖掘流程的多個執(zhí)行步驟,分析所述多個執(zhí)行步驟中產(chǎn)生的過程數(shù) 據(jù); 當(dāng)確定以所述過程數(shù)據(jù)作為輸入數(shù)據(jù)的執(zhí)行步驟個數(shù)為一個,并且所述確定出的一個 執(zhí)行步驟的輸入數(shù)據(jù)不包含除所述過程數(shù)據(jù)以外的其它的過程數(shù)據(jù)時; 合并產(chǎn)生所述過程數(shù)據(jù)的執(zhí)行步驟和以所述過程數(shù)據(jù)為輸入的執(zhí)行步驟為一個優(yōu)化 的執(zhí)行步驟。3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述確定數(shù)據(jù)挖掘流程的多個執(zhí)行步 驟,具體包括: 獲取執(zhí)行所述數(shù)據(jù)挖掘流程的多個執(zhí)行步驟,分析所述多個執(zhí)行步驟中產(chǎn)生的過程數(shù) 據(jù); 當(dāng)確定連續(xù)的兩個或兩個以上的執(zhí)行步驟,其每次處理的單位是單個樣本時; 合并所述兩個或兩個以上的執(zhí)行步驟。4. 根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,在所述對應(yīng)關(guān)系具體表現(xiàn)為比 值參數(shù)時,所述獲取所述各執(zhí)行步驟在運行過程中所需的物理資源與所述數(shù)據(jù)挖掘流程的 輸入數(shù)據(jù)所占的物理資源之間的對應(yīng)關(guān)系,具體包括: 針對所述多個執(zhí)行步驟中的每一個執(zhí)行步驟,確定所述執(zhí)行步驟運行時,其輸入數(shù)據(jù) 和輸出數(shù)據(jù)一共所占用的物理資源與所述數(shù)據(jù)挖掘流程的輸入數(shù)據(jù)占用的物理資源的比 值。5. 根據(jù)權(quán)利要求1-4任一項所述的方法,其特征在于,在所述執(zhí)行步驟具體為優(yōu)化的 執(zhí)行步驟,并且所述優(yōu)化的執(zhí)行步驟內(nèi)部產(chǎn)生的過程數(shù)據(jù)所占用的物理資源大于所述優(yōu)化 的執(zhí)行步驟的輸入數(shù)據(jù)和/或輸出數(shù)據(jù),則所述獲取所述各執(zhí)行步驟在運行過程中所需的 物理資源與所述數(shù)據(jù)挖掘流程的輸入數(shù)據(jù)所占的物理資源之間的對應(yīng)關(guān)系,具體包括: 確定所述過程數(shù)據(jù)所占用的物理資源、優(yōu)化的執(zhí)行步驟的輸入數(shù)據(jù)所占用的物理資源 和優(yōu)化的執(zhí)行步驟的輸出數(shù)據(jù)所占用的物理資源,三者分別與所述數(shù)據(jù)挖掘流程的輸入數(shù) 據(jù)所占的物理資源的三個比值中較大的兩個比值,求和計算得到所述優(yōu)化的執(zhí)行步驟在運 行過程中所需的物理資源與所述數(shù)據(jù)挖掘流程的輸入數(shù)據(jù)所占的物理資源之間的比值參 數(shù)。6. 根據(jù)權(quán)利要求1-5任一項所述的方法,其特征在于,所述根據(jù)執(zhí)行各個步驟的節(jié)點 所能處理的輸入數(shù)據(jù)的最大數(shù)據(jù)量,確定所述分布式系統(tǒng)所能處理的輸入數(shù)據(jù)的最大數(shù)據(jù) 量,還包括: 篩選各節(jié)點所能夠允許輸入數(shù)據(jù)的一個或多個最大數(shù)據(jù)量,并將所述一個或多個最大 數(shù)據(jù)量中最小的值作為所述分布式系統(tǒng)中運行所述數(shù)據(jù)挖掘流程所能處理的輸入數(shù)據(jù)的 最大數(shù)據(jù)量。7. 根據(jù)權(quán)利要求1-6任一項所述的方法,其特征在于,所述根據(jù)所述最大數(shù)據(jù)量,對準 備挖掘的數(shù)據(jù)按照所述數(shù)據(jù)挖掘流程進行處理,具體包括: 根據(jù)所述最大數(shù)據(jù)量,確定從準備挖掘的數(shù)據(jù)中選擇的數(shù)據(jù)列的最大數(shù)量K,所述K為 整數(shù); 從所述準備挖掘的數(shù)據(jù)中選擇K個數(shù)據(jù)列,所述K個數(shù)據(jù)列包括K-I個特征列和一個 目標(biāo)列。8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述從所述準備挖掘的數(shù)據(jù)中選擇K個數(shù) 據(jù)列,包括: 對所述準備挖掘數(shù)據(jù)中的特征列進行聚類計算,得到P個簇,所述P為整數(shù); 根據(jù)特征列與目標(biāo)列之間的相關(guān)性,從所述P個簇中篩選出K個數(shù)據(jù)列。9. 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述聚類計算對應(yīng)的聚類算法包括如下 中的任--種: K-Means聚類算法、層次聚類算法或密度聚類算法。10. 根據(jù)權(quán)利要求1至9任一項所述的方法,其特征在于,所述物理資源包括內(nèi)存資源、 硬盤資源、處理器核資源中的至少一種。11. 一種數(shù)據(jù)挖掘裝置,所述裝置應(yīng)用于分布式系統(tǒng),所述分布式系統(tǒng)包括至少一個節(jié) 點,其中,所述裝置包括:收發(fā)器、處理器和存儲器,其特征在于: 所述收發(fā)器,用于接收原始數(shù)據(jù)集,并將抽取得到的準備處理的輸入數(shù)據(jù)發(fā)送給各節(jié) 點處理; 所述存儲器,用于存儲原始數(shù)據(jù)集; 所述處理器,用于確定數(shù)據(jù)挖掘流程的多個執(zhí)行步驟;獲取所述各執(zhí)行步驟在運行過 程中所需的物理資源與所述數(shù)據(jù)挖掘流程的輸入數(shù)據(jù)所占的物理資源之間的對應(yīng)關(guān)系;確 定執(zhí)行所述各執(zhí)行步驟的節(jié)點,所述節(jié)點為所述各執(zhí)行步驟提供物理資源;根據(jù)所述對應(yīng) 關(guān)系和用于執(zhí)行相應(yīng)執(zhí)行步驟的節(jié)點所擁有的物理資源,確定執(zhí)行各個步驟的節(jié)點所能處 理的所述輸入數(shù)據(jù)的最大數(shù)據(jù)量;根據(jù)所述執(zhí)行各個步驟的節(jié)點所能處理的輸入數(shù)據(jù)的最 大數(shù)據(jù)量,確定所述分布式系統(tǒng)所能處理的輸入數(shù)據(jù)的最大數(shù)據(jù)量;根據(jù)所述分布式系統(tǒng) 所能處理的輸入數(shù)據(jù)的最大數(shù)據(jù)量,對準備挖掘的數(shù)據(jù)按照所述數(shù)據(jù)挖掘流程進行處理。12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述處理器還用于: 獲取執(zhí)行所述數(shù)據(jù)挖掘流程的多個執(zhí)行步驟,分析所述多個執(zhí)行步驟中產(chǎn)生的過程數(shù) 據(jù);當(dāng)確定以所述過程數(shù)據(jù)作為輸入數(shù)據(jù)的執(zhí)行步驟個數(shù)為一個,并且所述確定出的一個 執(zhí)行步驟的輸入數(shù)據(jù)不包含除所述過程數(shù)據(jù)以外的其它的過程數(shù)據(jù)時;合并產(chǎn)生所述過程 數(shù)據(jù)的執(zhí)行步驟和以所述過程數(shù)據(jù)為輸入的執(zhí)行步驟為一個優(yōu)化的執(zhí)行步驟。13. 根據(jù)權(quán)利要求11或12所述的裝置,其特征在于,在所述對應(yīng)關(guān)系具體表現(xiàn)為比值 參數(shù)時,所述處理器還用于: 針對所述多個執(zhí)行步驟中的每一個執(zhí)行步驟,確定所述執(zhí)行步驟運行時,其輸入數(shù)據(jù) 和輸出數(shù)據(jù)一共所占用的物理資源與所述數(shù)據(jù)挖掘流程的輸入數(shù)據(jù)占用的物理資源之間 的比值。14. 根據(jù)權(quán)利要求11-13任一項所述的裝置,其特征在于,在所述執(zhí)行步驟具體為優(yōu)化 的執(zhí)行步驟,并且所述優(yōu)化的執(zhí)行步驟內(nèi)部產(chǎn)生的臨時數(shù)據(jù)所占用的物理資源大于所述優(yōu) 化的執(zhí)行步驟的輸入和/或輸出數(shù)據(jù),所述處理器還用于: 根據(jù)所述臨時數(shù)據(jù)所占用的物理資源、優(yōu)化的執(zhí)行步驟的輸入數(shù)據(jù)所占用的物理資源 和優(yōu)化的執(zhí)行步驟的輸出數(shù)據(jù)所占用的物理資源,三者分別與所述數(shù)據(jù)挖掘流程的輸入數(shù) 據(jù)所占的物理資源的三個比值中較大的兩個比值,求和計算得到所述優(yōu)化的執(zhí)行步驟在運 行過程中所需的物理資源與所述數(shù)據(jù)挖掘流程的輸入數(shù)據(jù)所占的物理資源之間的比值參 數(shù)。15. 根據(jù)權(quán)利要求11-14任一項所述的裝置,其特征在于,所述處理器還用于: 篩選各節(jié)點所能夠允許輸入數(shù)據(jù)的一個或多個最大數(shù)據(jù)量,并將所述一個或多個最大 數(shù)據(jù)量中最小的值作為所述分布式系統(tǒng)中運行所述數(shù)據(jù)挖掘流程所能處理的輸入數(shù)據(jù)的 最大數(shù)據(jù)量。16. 根據(jù)權(quán)利要求11-15任一項所述的裝置,其特征在于,所述處理器還用于: 根據(jù)所述最大數(shù)據(jù)量,確定從準備挖掘的數(shù)據(jù)中選擇的數(shù)據(jù)列的最大數(shù)量K,所述K為 整數(shù); 從所述準備挖掘的數(shù)據(jù)中選擇K個數(shù)據(jù)列,所述K個數(shù)據(jù)列包括K-I個特征列和一個 目標(biāo)列。17. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述處理器還用于: 對所述準備挖掘數(shù)據(jù)中的特征列進行聚類計算,得到P個簇,所述P為整數(shù); 根據(jù)特征列與目標(biāo)列之間的相關(guān)性,從所述P個簇中篩選出K個數(shù)據(jù)列。
【專利摘要】本發(fā)明實施例提供一種數(shù)據(jù)挖掘方法及裝置。所述方法應(yīng)用于分布式系統(tǒng),所述分布式系統(tǒng)包括至少一個節(jié)點,所述方法包括:確定數(shù)據(jù)挖掘流程的多個執(zhí)行步驟;獲取所述各執(zhí)行步驟在運行過程中所需的物理資源與所述數(shù)據(jù)挖掘流程的輸入數(shù)據(jù)所占的物理資源之間的對應(yīng)關(guān)系;確定執(zhí)行所述各執(zhí)行步驟的節(jié)點,所述節(jié)點為所述各執(zhí)行步驟提供物理資源;根據(jù)所述執(zhí)行各個步驟的節(jié)點所能處理的輸入數(shù)據(jù)的最大數(shù)據(jù)量,確定所述分布式系統(tǒng)所能處理的輸入數(shù)據(jù)的最大數(shù)據(jù)量;根據(jù)所述分布式系統(tǒng)所能處理的輸入數(shù)據(jù)的最大數(shù)據(jù)量,對準備挖掘的數(shù)據(jù)按照所述數(shù)據(jù)挖掘流程進行處理。對于輸入的數(shù)據(jù)做了準確而有效的限定,從而保證系統(tǒng)正常運行。
【IPC分類】G06F17/30
【公開號】CN105205052
【申請?zhí)枴緾N201410239140
【發(fā)明人】譚衛(wèi)國, 汪芳山
【申請人】華為技術(shù)有限公司
【公開日】2015年12月30日
【申請日】2014年5月30日
【公告號】WO2015180340A1