;
[0048]圖5為本發(fā)明一種異構(gòu)系統(tǒng)的并行邏輯回歸方法實(shí)施例一的詳細(xì)原理流程圖;
[0049] 圖6為本發(fā)明一種異構(gòu)系統(tǒng)的并行邏輯回歸系統(tǒng)實(shí)施例二的結(jié)構(gòu)示意圖;
[0050] 圖7為本發(fā)明一種異構(gòu)系統(tǒng)的并行邏輯回歸系統(tǒng)實(shí)施例二的詳細(xì)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0051] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0052] 本發(fā)明提供了一種異構(gòu)系統(tǒng)的并行邏輯回歸方法,圖3示出了本發(fā)明異構(gòu)系統(tǒng)的 并行邏輯回歸方法實(shí)施例一的流程圖,包括:
[0053] 步驟S101:獲取邏輯回歸模型的目標(biāo)函數(shù);
[0054] 給定 M 個(gè)訓(xùn)練樣本(X1J1),(X2,y2)…(Xmjm),其中 Xj=Uji |i = l,2···Ν}為 N 維的 特征向量;yj為分類標(biāo)簽,取值為+1或_1,+1表示樣本為正樣本,-1表示樣本為負(fù)樣本。在LR 模型中,第j個(gè)樣本為正樣本的概率是:
[0056 ]其中評(píng)是?'!維的特征權(quán)重向量,也就是LR問題中要求解的模型參數(shù)。
[0057]求解LR問題,就是尋找一個(gè)合適的特征權(quán)重向量W,使得對(duì)于訓(xùn)練集里面的正樣 本,P(yj = l |W,Xj)值盡量大;對(duì)于訓(xùn)練集里面的負(fù)樣本,這個(gè)值盡量小,或P(yj = _l |W,Xj) 盡量大。用聯(lián)合概率來表示為求解:
[0059]對(duì)上式求log并取負(fù)號(hào),則等價(jià)于:
[0060]
,所以邏輯回歸模型的目標(biāo)函數(shù)為:
[0061]
,wSn維的當(dāng)前特征權(quán)重向量,Xj為N維的樣本特征 向量,yj為分類標(biāo)簽。
[0062] 步驟S102:并行計(jì)算所述目標(biāo)函數(shù)的梯度;
[0063] 上述的目標(biāo)函數(shù)的下降方向Dt,Dt = - Gt,Gt為目標(biāo)函數(shù)的梯度,
[0064] 如圖4所示,具體地,步驟S102包括:
[0065]步驟S201:將訓(xùn)練集中M個(gè)樣本的分類標(biāo)簽構(gòu)成一個(gè)M維的標(biāo)簽向量,將M個(gè)N維特 征向量構(gòu)成一個(gè)M*N的樣本矩陣,獲取m行η列的計(jì)算節(jié)點(diǎn),將所述標(biāo)簽向量和樣本矩陣按行 劃分,為每個(gè)計(jì)算節(jié)點(diǎn)分配M/m個(gè)特征向量和分類標(biāo)簽,將樣本矩陣和N維的當(dāng)前特征權(quán)重 向量按列劃分,為每個(gè)計(jì)算節(jié)點(diǎn)分配N/n維特征向量和當(dāng)前特征權(quán)重向量;
[0066] 總的參數(shù)服務(wù)器(nodeO)將數(shù)據(jù)按任務(wù)劃分,構(gòu)建所述服務(wù)器節(jié)點(diǎn)與其他子節(jié)點(diǎn) (n〇del,n〇de2···)服務(wù)器,即計(jì)算節(jié)點(diǎn)協(xié)同計(jì)算的框架,將整個(gè)訓(xùn)練數(shù)據(jù)集按照橫向以 instance為單位劃分到各個(gè)機(jī)器進(jìn)行分布式計(jì)算,按照縱向?qū)⒊缶S度的instance數(shù)據(jù)劃 分成多個(gè)子段進(jìn)行分布式的計(jì)算,之后以廣播的方式將劃分好的數(shù)據(jù)片段分發(fā)到所有子節(jié) 點(diǎn)服務(wù)器上,所述計(jì)算節(jié)點(diǎn)構(gòu)建所述CPU與重核(MIC)協(xié)處理器協(xié)同計(jì)算的框架,包括:所述 CPU將連接在同一單節(jié)點(diǎn)服務(wù)器的所述CPU與多個(gè)MIC協(xié)處理器作為協(xié)調(diào)計(jì)算的框架,該框 架中所有設(shè)備的數(shù)目為CHJ的數(shù)目和MIC協(xié)處理器的數(shù)目之和。
[0067] 分配之后同一樣本的特征對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)的行號(hào)相同,不同樣本相同維度的特征 對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)的列號(hào)相同,一個(gè)樣本的特征向量被拆分到同一行不同列的節(jié)點(diǎn)中,BP: Xr, k -〈X(r,I),k,· · ·,X(r,c),k,· · ·,X(r, η),k〉。
[0068]其中Xr,k表示第r行的第k個(gè)向量,X(r,c), k表示Xr,k在第c列節(jié)點(diǎn)上的分量。同樣的, 用W。表示特征向量W在第C列節(jié)點(diǎn)上的分量,即:W=〈Wl, . . .,W。,. . .,Wn>。目標(biāo)函數(shù)的梯度計(jì) 算公式依賴于兩個(gè)計(jì)算結(jié)果:特征權(quán)重向量Wt和特征向量Xj的點(diǎn)乘,標(biāo)量IXy jWt1Xj )-l]yj 和特征向量Xj的相乘。
[0069 ]步驟S202:令各計(jì)算節(jié)點(diǎn)分別進(jìn)行特征權(quán)重向量按列劃分的對(duì)應(yīng)分量和特征向量 按列劃分的對(duì)應(yīng)分量的點(diǎn)乘,對(duì)行號(hào)相同的計(jì)算節(jié)點(diǎn)的計(jì)算結(jié)果進(jìn)行并歸,分別得到每行 的當(dāng)前特征權(quán)重向量和對(duì)應(yīng)特征向量的點(diǎn)乘結(jié)果,將各所述點(diǎn)乘結(jié)果返回到每行對(duì)應(yīng)的計(jì) 算節(jié)點(diǎn)中;
[0070] 各計(jì)算節(jié)點(diǎn)并行計(jì)算點(diǎn)乘, 對(duì)行號(hào)相同的計(jì)算節(jié)點(diǎn)歸并點(diǎn)乘
計(jì)算得到的點(diǎn)乘結(jié)果需要返回到該行所有 計(jì)算節(jié)點(diǎn)中。
[0071] 步驟S203:令各計(jì)算節(jié)點(diǎn)分別根據(jù)各所述點(diǎn)乘結(jié)果和標(biāo)簽向量按行劃分的對(duì)應(yīng)分 量計(jì)算所述目標(biāo)函數(shù)梯度的中間標(biāo)量,并分別將各所述中間標(biāo)量和特征向量按行劃分的對(duì) 應(yīng)分量相乘,對(duì)列號(hào)相同的計(jì)算節(jié)點(diǎn)的計(jì)算結(jié)果進(jìn)行并歸,分別得到梯度向量每列的分量;
[0072] 各計(jì)算節(jié)點(diǎn)獨(dú)立計(jì)算標(biāo)量[0(yjWtTXj)-l]yj的行分量和特征向量Xj行分量的相乘, 計(jì)算G(r,CO,t,對(duì)列號(hào)相同的節(jié)點(diǎn)進(jìn)行歸并分別得到梯度向量每列的分量
[0073] 步驟S204:將所述梯度向量每列的分量進(jìn)行合并得到目標(biāo)函數(shù)的梯度。
[0074] 根節(jié)點(diǎn)接收梯度分量進(jìn)行合并得到目標(biāo)函數(shù)的梯度值Gt =〈G1>t,. . .,Gn,t>。
[0075] 步驟S103:根據(jù)計(jì)算結(jié)果確定目標(biāo)特征權(quán)重向量;
[0076] 步驟S103具體包括:
[0077] 步驟A:令迭代次數(shù)為0,確定迭代次數(shù)為0時(shí)的初始權(quán)重特征向量W0;
[0078] 步驟B:令迭代次數(shù)值加1,根據(jù)當(dāng)前權(quán)重特征向量并行計(jì)算所述目標(biāo)函數(shù)的梯度, 根據(jù)所述梯度計(jì)算搜索方向值,根據(jù)所述搜索方向值更新當(dāng)前權(quán)重特征向量;
[0079] 步驟C:判斷所述梯度值是否滿足預(yù)設(shè)迭代停止條件,如果是,則進(jìn)入步驟D,否則 返回步驟B;
[0080] 步驟D:將當(dāng)前特征權(quán)重向量確定為目標(biāo)特征權(quán)重向量。
[0081] 本實(shí)施例的詳細(xì)流程圖見圖5,在每個(gè)子節(jié)點(diǎn)上構(gòu)造一個(gè)決策樹中央處理器 (CPU),分發(fā)M個(gè)線程,并且為每個(gè)線程分配1/M的數(shù)據(jù)片段,也就是新的M個(gè)數(shù)據(jù)集M',針對(duì) 這M'個(gè)不同的數(shù)據(jù)集分別在不同的MIC卡上計(jì)算點(diǎn)乘結(jié)果。即對(duì)于M'中的第一個(gè)數(shù)據(jù)集 ΜΓ,ΜΓ對(duì)應(yīng)的線程把ΜΓ發(fā)送到對(duì)應(yīng)的MIC卡上,針對(duì)ΜΓ這個(gè)數(shù)據(jù)集計(jì)算點(diǎn)乘結(jié)果。對(duì)于 子節(jié)點(diǎn)的其他數(shù)據(jù)集M2',Μ3'等子數(shù)據(jù)集并行做同樣的操作。也就是每個(gè)MIC協(xié)處理器上都 有一個(gè)數(shù)據(jù)集,當(dāng)所有的數(shù)據(jù)集都計(jì)算完之后,把各個(gè)子節(jié)點(diǎn)點(diǎn)乘結(jié)果匯總到參數(shù)服務(wù)器 節(jié)點(diǎn)。
[0082] 應(yīng)用本實(shí)施例提供的一種異構(gòu)系統(tǒng)的并行邏輯回歸方法,將邏輯回歸模型的目標(biāo) 函數(shù)的梯度計(jì)算通過并行化的方式計(jì)算得到,將計(jì)算梯度使用的樣本的特征向量構(gòu)成樣本 矩陣,分類標(biāo)簽構(gòu)成標(biāo)簽向量,將樣本矩陣、標(biāo)簽向量和特征權(quán)重向量分別進(jìn)行劃分,劃分 后分配到批量的計(jì)算節(jié)點(diǎn)上分別計(jì)算再將結(jié)果并歸得到大量樣本的梯度值,從而根據(jù)并行 計(jì)算得到的梯度確定目標(biāo)特征權(quán)重向量,完成LR問題的求解,可以利用批量的計(jì)算節(jié)點(diǎn)高 效地進(jìn)行大規(guī)模樣本的LR問題的并行求解。
[0083] 本發(fā)明還提供了一種異構(gòu)系統(tǒng)的并行邏輯回歸系統(tǒng),圖6示出了本發(fā)明異構(gòu)系統(tǒng) 的并行邏輯回歸系統(tǒng)實(shí)施例二的結(jié)構(gòu)示意圖,包括:
[0084] 目標(biāo)函數(shù)確定模塊101,用于獲取邏輯回歸模型的目標(biāo)函數(shù);
[0085] 并行計(jì)算模塊102,用于并行計(jì)算所述目標(biāo)函數(shù)的梯度;
[0086] 目標(biāo)特征權(quán)重向量確定模塊103,用于根據(jù)計(jì)算結(jié)果確定目標(biāo)特征權(quán)重向量;
[0087] 如圖7所示,具體地所述并行計(jì)算模塊102包括:
[0088] 計(jì)算節(jié)點(diǎn)分配子模塊201,用于將訓(xùn)練集中