亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

異構系統(tǒng)并行隨機森林優(yōu)化方法和系統(tǒng)的制作方法

文檔序號:9327555閱讀:509來源:國知局
異構系統(tǒng)并行隨機森林優(yōu)化方法和系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及機器學習領域,尤指一種異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng)和方法。
【背景技術】
[0002]近年來,隨著當今社會經(jīng)濟科技日新月異的發(fā)展,許多應用領域在迅速積累著大量的數(shù)據(jù),對這些數(shù)據(jù)進行分析以發(fā)掘數(shù)據(jù)蘊含的信息,成為幾乎所有領域的共同需求,而在實際應用中,機器學習在數(shù)據(jù)挖掘分析技術的作用日漸重要,受到了廣泛的關注。
[0003]現(xiàn)有技術中,機器學習中最常用的分類方法就是采用隨機森林算法,隨機森林是一種有監(jiān)督的集成學習分類技術,是通過大量分類樹的匯總來提高模型的預測精度。正是由于它的這種設計使得隨機森林算法對樣本數(shù)據(jù)中的不正常數(shù)據(jù)和噪聲等有很好的容忍性,對于數(shù)據(jù)比較復雜的分類問題有著較好的并行性和擴展性。
[0004]但是,采用現(xiàn)有技術,數(shù)據(jù)優(yōu)化過程中尋找最優(yōu)解時間比較長,在當前這個數(shù)據(jù)量以指數(shù)級增長的時代,顯然對于超大數(shù)據(jù)的處理顯得力不從心。

【發(fā)明內(nèi)容】

[0005]為了解決上述技術問題,本發(fā)明提供了一種異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng)和方法,能夠通過多個從節(jié)點對數(shù)據(jù)分片并行計算,從而加快了尋找最優(yōu)解的時間,使得整個系統(tǒng)效率大幅提升,不需受限于網(wǎng)絡帶寬不足、內(nèi)存容量小等情況,滿足了高性能應用對于大規(guī)模數(shù)據(jù)進行處理的要求。
[0006]第一方面,本發(fā)明提供了一種異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng),應用于中央處理器與協(xié)處理器混合異構集群,包括:一個主節(jié)點和多個從節(jié)點;
[0007]所述主節(jié)點用于將待計算的數(shù)據(jù)文件劃分成多個數(shù)據(jù)分片,分別發(fā)送數(shù)據(jù)分片給各所述從節(jié)點,接收各所述從節(jié)點構建好的決策樹生成隨機森林;
[0008]所述從節(jié)點用于接收所述主節(jié)點分配的所述數(shù)據(jù)分片進行計算,將計算后的最優(yōu)解構建決策樹發(fā)送到所述主節(jié)點。
[0009]第二方面,本發(fā)明提供了一種異構系統(tǒng)并行隨機森林優(yōu)化方法,應用于異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng),其特征在于,所述系統(tǒng)包括:一個主節(jié)點和多個從節(jié)點;
[0010]所述主節(jié)點調(diào)用將待計算的數(shù)據(jù)文件劃分成多個數(shù)據(jù)分片,分別發(fā)送數(shù)據(jù)分片給各所述從節(jié)點,接收各所述從節(jié)點構建好的決策樹生成隨機森林;
[0011]所述從節(jié)點接收所述主節(jié)點分配的所述數(shù)據(jù)分片進行計算,將計算后的最優(yōu)解構建決策樹發(fā)送到所述主節(jié)點。
[0012]與現(xiàn)有技術相比,本發(fā)明提供了一種異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng)和方法,包括:一個主節(jié)點和多個從節(jié)點;其中,主節(jié)點用于將待計算的數(shù)據(jù)文件劃分成多個數(shù)據(jù)分片,分別發(fā)送數(shù)據(jù)分片給各從節(jié)點,各從節(jié)點用于接收主節(jié)點分配的數(shù)據(jù)分片進行計算,將計算后的最優(yōu)解構建決策樹發(fā)送到主節(jié)點,從而生成隨機森林,通過多個從節(jié)點對數(shù)據(jù)分片并行計算,從而加快了尋找最優(yōu)解的時間,使得整個系統(tǒng)效率大幅提升,不需受限于網(wǎng)絡帶寬不足、內(nèi)存容量小等情況,滿足了高性能應用對于大規(guī)模數(shù)據(jù)進行處理的要求。
[0013]本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在說明書、權利要求書以及附圖中所特別指出的結構來實現(xiàn)和獲得。
【附圖說明】
[0014]附圖用來提供對本發(fā)明技術方案的進一步理解,并且構成說明書的一部分,與本申請的實施例一起用于解釋本發(fā)明的技術方案,并不構成對本發(fā)明技術方案的限制。
[0015]圖1為本發(fā)明實施例提供的異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng)實施例一的結構示意圖;
[0016]圖2為本發(fā)明實施例提供的異構系統(tǒng)并行隨機森林優(yōu)化方法實施例一的流程示意圖。
【具體實施方式】
[0017]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,下文中將結合附圖對本發(fā)明的實施例進行詳細說明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。
[0018]在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行。并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0019]本發(fā)明實施例涉及的異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng),應用于中央處理器與協(xié)處理器混合異構集群,具體可以是計算機集群或者服務器集群上,其中協(xié)處理器可以是圖形處理器(Graphics Processing Unit,簡稱:GPU)或者眾核處理器(Intel Many IntegratedCore,簡稱:MIC卡),但并不以此為限。
[0020]本發(fā)明實施例涉及的系統(tǒng)和方法,旨在解決現(xiàn)有技術中采用隨機森林的分類方法數(shù)據(jù)在優(yōu)化過程中尋找最優(yōu)解時間比較長,無法滿足超大規(guī)模數(shù)據(jù)處理的技術問題。
[0021]下面以具體地實施例對本發(fā)明的技術方案進行詳細說明。下面這幾個具體的實施例可以相互結合,對于相同或相似的概念或過程可能在某些實施例不再贅述。
[0022]圖1為本發(fā)明實施例提供的異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng)實施例一的結構示意圖,如圖1所示,該異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng)應用于中央處理器與協(xié)處理器混合異構集群,包括:一個主節(jié)點10和多個從節(jié)點20 ;
[0023]其中,所述主節(jié)點10用于將待計算的數(shù)據(jù)文件劃分成多個數(shù)據(jù)分片,分別發(fā)送數(shù)據(jù)分片給各所述從節(jié)點20,接收各所述從節(jié)點20構建好的決策樹生成隨機森林。
[0024]所述從節(jié)點20用于接收所述主節(jié)點分配的所述數(shù)據(jù)分片進行計算,將計算后的最優(yōu)解構建決策樹發(fā)送到所述主節(jié)點10。
[0025]具體的,主節(jié)點10將待計算的數(shù)據(jù)文件劃分成多個數(shù)據(jù)分片,一般數(shù)據(jù)文件為指數(shù)級超大規(guī)模數(shù)據(jù),可以調(diào)用庫函數(shù)劃分的數(shù)據(jù)分片大小為16M到64M,具體可以根據(jù)子節(jié)點20的計算能力來確定,可以對各數(shù)據(jù)分片進行編號,用廣播的方式將劃分好的數(shù)據(jù)分片按照編號順序分發(fā)到各從節(jié)點20上,但并不限于此。
[0026]—般來說從節(jié)點20設置越多,則處理大規(guī)模數(shù)據(jù)更準確,具體的可以根據(jù)需要處理的數(shù)據(jù)文件的大小來設置從節(jié)點20的數(shù)量,各從節(jié)點20接收主節(jié)點10分配得對應的數(shù)據(jù)分片后,各從節(jié)點20可以通過Bagging集成學習技術并行計算分配的數(shù)據(jù)分片,選擇計算后的結果中的最優(yōu)解分別構建決策樹,其中,該最優(yōu)解可以是求最小值,根據(jù)該最小值對應的數(shù)據(jù)分片構建決策樹,并發(fā)送給主節(jié)點10進行隨機森林的整合。
[0027]本發(fā)明實施例提供的異構系統(tǒng)并行隨機森林優(yōu)化系統(tǒng),應用于中央處理器與協(xié)處理器混合異構集群,包括至少一個主節(jié)點和多個從節(jié)點,其中,主節(jié)點用于將待計算的數(shù)據(jù)文件劃分成多個數(shù)據(jù)分片,分別發(fā)送數(shù)據(jù)分片給各從節(jié)點,各從節(jié)點用于接收主節(jié)點分配的數(shù)據(jù)分片進行計算,將計算后的最優(yōu)解構建決策樹發(fā)送到主節(jié)點,從而生成隨機森林,本發(fā)明實施例通過多個從節(jié)點對數(shù)據(jù)分片并行計算,從而加快了尋找最優(yōu)解的時間,使得整個系統(tǒng)效率大幅提升,不需受限于網(wǎng)絡帶寬不足、內(nèi)存容量小等情況,滿足了高性能應用對于大規(guī)模數(shù)據(jù)進行處理的要求。
[0028]進一步地,從節(jié)點20包括至少一個中央處理器210 (Central Processing Unit,簡稱:CPU)和多個協(xié)處理器 220 (Many Integrated Core,簡稱:MIC),
[0029]所述從節(jié)點20用于接收所述主節(jié)點10分配的所述數(shù)據(jù)分片,包括:所述中央處理器210接收所述數(shù)據(jù)分片,將所述數(shù)據(jù)分片劃分為多個數(shù)據(jù)分片子集,分配相應的所述數(shù)據(jù)分片子集給各所述線程,分發(fā)線程給各所述協(xié)處理器220 ;
[0030]具體的,為了更好地說明本實施例,假設該從節(jié)點20包括一個中央處理器210和4塊協(xié)處理器220,該中央處理器210將接收的數(shù)據(jù)分片劃分為多個數(shù)據(jù)分片子集,可以根據(jù)這4塊協(xié)處理器220的計算能力進行劃分,分配相應的數(shù)據(jù)分配子集給各線程,并分發(fā)線程給各協(xié)處理器220,線程與協(xié)處理器220是一一對應的,如果有4個線程,則分發(fā)I個線程給一個協(xié)處理器220。
[0031]所述從節(jié)點20用于計算所述數(shù)據(jù)分片并將計算后的最優(yōu)解構建決策樹發(fā)送到所述主節(jié)點10,包括:所述協(xié)處理器220接收對應的線程獲取相應的所述數(shù)據(jù)分片子集和初始值進行計算,根據(jù)計算后的結果獲取最優(yōu)分裂屬性構建決策樹發(fā)送給所述主節(jié)點10。
[0032]具體的,協(xié)處理器220接收對應的線程獲取相應的所述數(shù)據(jù)分片子集和初始值,該數(shù)據(jù)分片子集為需要進行計算處理的數(shù)據(jù)集合,該初始值是指構建初始決策樹需要的數(shù)據(jù),這些數(shù)據(jù)可以隨機產(chǎn)生,也可以固定的,計算過程可以采用幾何估算法、曲線擬合法和分布函數(shù)法獲取基尼(Gini)值的測算,根據(jù)計算后的Gini值,一般選擇Gini值最小的作為最優(yōu)分裂屬性構建決策樹。
[0033]進一步地,所述協(xié)處理器220用于接收對應的線程獲取相應的所述數(shù)據(jù)分片子集和初始值進行計算之前,還包括:
[0034]所述主節(jié)點10向各所述從節(jié)點20分配進程,所述進程向所述從節(jié)點內(nèi)所有設備發(fā)送調(diào)用請求進行計算的線程,接收各所述設備返回的調(diào)用請求進行計算的線程;其中,一個中央處理器作為一個設備,一塊協(xié)處理器作為一個設備。
[0035]具體的,在協(xié)處理器220獲取對應線程的數(shù)據(jù)分片子集和初始值進行計算之前,主節(jié)點20向各從節(jié)點20分配進程,該進程會向從節(jié)點20內(nèi)的所有設備發(fā)送調(diào)用請求的線程,該調(diào)用請求包括資源、地址等信息的請求,并接收各所述設備返回調(diào)用請求的線程,根據(jù)該調(diào)用請求的線程,所述協(xié)處理器220可以獲取到數(shù)據(jù)分片和初始值。每一個設備對應一個線程,其中,一個中央處理器可以作為一個設備,一塊協(xié)處理器可以作為一個設備,所有設備的數(shù)量即為所有處理器設備和協(xié)處理器設備的和。
[0036]進一步地,所述中央處理器210用于劃分數(shù)據(jù)分片為多個數(shù)據(jù)分片子集,是指:
[0037]所述中央處理器210按照所述協(xié)處理器220的數(shù)量將數(shù)據(jù)分片平均劃分成多個數(shù)據(jù)分片子集。
[0038]具體的,為了更好地說明本實施例,假設有M個線程,中央處理器210會將接收到主節(jié)點10分發(fā)的數(shù)據(jù)分片,將所述數(shù)據(jù)分片平均劃分成數(shù)據(jù)分片子集,所述數(shù)據(jù)分片子集則為1/M的數(shù)據(jù)分片,把每個數(shù)據(jù)分片子集分別發(fā)送給從節(jié)點20內(nèi)的各個協(xié)處理器220,這樣為
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1