專利名稱:回歸預(yù)測(cè)方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于統(tǒng)計(jì)回歸分析和預(yù)測(cè),尤其涉及用于統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的回歸預(yù)測(cè)方法
及裝置。
背景技術(shù):
回歸分析(Regression Analysis)是一種統(tǒng)計(jì)學(xué)上對(duì)數(shù)據(jù)進(jìn)行分析的方法, 主要是希望探討數(shù)據(jù)之間是否有一種特定關(guān)系?;貧w分析是建立因變量Y(reSp0nSe variables)或稱依變量(dependent variables)與自變量 X(predictors)或稱獨(dú)變量 (independent variables)之間關(guān)系的模型。在統(tǒng)計(jì)機(jī)器學(xué)習(xí)里,回歸預(yù)測(cè)方法主要用于對(duì)數(shù)據(jù)做預(yù)測(cè)和分析。其中X—般是多維的數(shù)據(jù)而Y—般是數(shù)值型數(shù)據(jù),稱為多元回歸。根據(jù)回歸方程又可以分為線性回歸,非線性回歸等。最基本的線性回歸公式Y(jié)= βΧ+ ^?,F(xiàn)有的回歸預(yù)測(cè)方法存在著以下兩個(gè)問題首先,由于數(shù)據(jù)的缺失或未做特征選擇,使得有時(shí)原始數(shù)據(jù)點(diǎn)本身可能不包含足夠的信息來對(duì)輸出進(jìn)行回歸預(yù)測(cè)(該問題可以簡(jiǎn)稱為特征缺失);其次,由于數(shù)據(jù)點(diǎn)X的每個(gè)維度上的數(shù)據(jù)可能并非數(shù)值型,其可能不滿足數(shù)值的變化規(guī)律及變化范圍,如周期型的角度,布爾型的性別等,枚舉型的顏色等,這在一定程度上影響了回歸的效果和預(yù)測(cè)的精度(該問題可以簡(jiǎn)稱為特征異構(gòu))。為了解決以上問題,現(xiàn)有的方法都是依靠經(jīng)驗(yàn)來對(duì)特征進(jìn)行簡(jiǎn)單的格式轉(zhuǎn)換,不具有規(guī)范性和擴(kuò)充性。 當(dāng)數(shù)據(jù)集發(fā)生稍許變化的時(shí)候需要改變格式轉(zhuǎn)換方法。因此不能很好的解決特征缺失和特征異構(gòu)的問題。另外,隨著云計(jì)算技術(shù)的發(fā)展,出現(xiàn)了用于進(jìn)行大規(guī)模并行處理數(shù)據(jù)的平臺(tái),例如 MapReduce, Hadoop等。又有學(xué)者研究在這些平臺(tái)上實(shí)現(xiàn)回歸預(yù)測(cè)方法,以期望利用這些云計(jì)算平臺(tái)的并行性來提高回歸預(yù)測(cè)的性能。例如,基于MapReduce的局部線性加權(quán)回歸 LffLRdocally weighted linear regression),其根據(jù)新輸入的待預(yù)測(cè)數(shù)據(jù)點(diǎn),動(dòng)態(tài)地在原數(shù)據(jù)集里找到一些近鄰,用近鄰數(shù)據(jù)做局部的線性回歸得出預(yù)測(cè)函數(shù),也就是說對(duì)每個(gè)待預(yù)測(cè)數(shù)據(jù)點(diǎn)都需要做近鄰查找和回歸預(yù)測(cè)。首先根據(jù)自變量的相似度(也可以稱為距離), 找到待預(yù)測(cè)數(shù)據(jù)點(diǎn)的近鄰;然后根據(jù)近鄰進(jìn)行曲線擬合,得出預(yù)測(cè)函數(shù);最后通過預(yù)測(cè)函數(shù)對(duì)待測(cè)點(diǎn)的輸出值做出預(yù)測(cè)。LffLR的好處在于便于并行,并且是根據(jù)近鄰數(shù)據(jù)做預(yù)測(cè),考慮了自變量之間的關(guān)系,可以一定程度上提高預(yù)測(cè)的準(zhǔn)確率。但其由于跳過了對(duì)矩陣求逆的階段,因此無法考慮原數(shù)據(jù)點(diǎn)X的因變量Y之間以及原數(shù)據(jù)點(diǎn)X和待預(yù)測(cè)數(shù)據(jù)點(diǎn)Xnew的輸出之間的關(guān)系。 也就是說對(duì)于待預(yù)測(cè)數(shù)據(jù)點(diǎn)的近鄰不容易找得準(zhǔn)確,而近鄰的準(zhǔn)確與否對(duì)預(yù)測(cè)的結(jié)果好壞有著決定性的影響。另外,該方法也沒有解決特征缺失和特征異構(gòu)的問題。
發(fā)明內(nèi)容
因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種回歸預(yù)測(cè)的特征擴(kuò)充方法,利用原數(shù)據(jù)(X)對(duì)應(yīng)的預(yù)測(cè)值(y)來豐富數(shù)據(jù)點(diǎn)的信息以提升回歸預(yù)測(cè)的效果。
本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的一方面,本發(fā)明提供了一種用于回歸預(yù)測(cè)的特征擴(kuò)充方法YET(Y axis ExTension),所述方法包括在原數(shù)據(jù)點(diǎn)中選擇待預(yù)測(cè)數(shù)據(jù)點(diǎn)的鄰居,所述鄰居是跟待預(yù)測(cè)數(shù)據(jù)點(diǎn)在某個(gè)維度或某幾個(gè)維度上的值相等或相似的一系列原數(shù)據(jù)點(diǎn);利用這些鄰居及其對(duì)應(yīng)的因變量值來對(duì)原數(shù)據(jù)點(diǎn)和待預(yù)測(cè)數(shù)據(jù)點(diǎn)的維度進(jìn)行擴(kuò)充。又一個(gè)方面,提供了一種基于MapReduce的特征擴(kuò)充方法,所述方法包括步驟1)在原數(shù)據(jù)點(diǎn)中選擇待預(yù)測(cè)數(shù)據(jù)點(diǎn)的鄰居,所述鄰居是跟待預(yù)測(cè)數(shù)據(jù)點(diǎn)在某個(gè)維度或某幾個(gè)維度上的值相等或相似的一系列原數(shù)據(jù)點(diǎn);步驟2)將每個(gè)原數(shù)據(jù)點(diǎn)分發(fā)成D2-DJl份,其中D2為原數(shù)據(jù)點(diǎn)擴(kuò)充后的維數(shù),D1 為原數(shù)據(jù)點(diǎn)擴(kuò)充前的維數(shù),每份數(shù)據(jù)為(key,value),其中,key為需要接收本份數(shù)據(jù)的數(shù)據(jù)點(diǎn)的標(biāo)識(shí),value包括在接收本份數(shù)據(jù)的數(shù)據(jù)點(diǎn)要擴(kuò)充的維的序號(hào)和發(fā)送本份數(shù)據(jù)的原數(shù)據(jù)點(diǎn)對(duì)應(yīng)的因變量值;步驟3)每個(gè)原數(shù)據(jù)點(diǎn)基于所接收的數(shù)據(jù),提取value中包含的維的序號(hào)和因變量值來對(duì)自身的維度進(jìn)行擴(kuò)充。又一個(gè)方面,提供了一種回歸預(yù)測(cè)方法,所述方法包括步驟a)利用上述的特征擴(kuò)充方法對(duì)每個(gè)原數(shù)據(jù)點(diǎn)X的維度進(jìn)行擴(kuò)充,得到擴(kuò)充后的數(shù)據(jù)點(diǎn);步驟b)基于擴(kuò)充后的數(shù)據(jù)點(diǎn)對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行回歸預(yù)測(cè)。又一個(gè)方面,提供了一種基于MapReduce的回歸預(yù)測(cè)方法,該方法包括步驟41)利用上述的特征擴(kuò)充方法對(duì)每個(gè)原數(shù)據(jù)點(diǎn)X的維度進(jìn)行擴(kuò)充,得到擴(kuò)充后的數(shù)據(jù)點(diǎn);步驟42)基于擴(kuò)充后的數(shù)據(jù)點(diǎn),對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行相似度計(jì)算并分發(fā)數(shù)據(jù)對(duì) (key, value),其中,key為待預(yù)測(cè)數(shù)據(jù)點(diǎn)的標(biāo)識(shí),value為擴(kuò)充后的數(shù)據(jù)點(diǎn)的標(biāo)識(shí)及其與待預(yù)測(cè)數(shù)據(jù)點(diǎn)的相似度;步驟43)基于所計(jì)算的相似度,選出與待預(yù)測(cè)數(shù)據(jù)點(diǎn)最相近的K個(gè)擴(kuò)充后的數(shù)據(jù)點(diǎn),利用局部線性加權(quán)回歸方法對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行回歸預(yù)測(cè)。上述回歸預(yù)測(cè)方法中,所述步驟42)中對(duì)于不同的擴(kuò)充后的維度采用KL距離、 cosine距離或歐式距離來計(jì)算相似度。又一個(gè)方面,提供了一種基于MapReduce的回歸預(yù)測(cè)裝置,所述裝置包括用于利用上述的特征擴(kuò)充方法對(duì)每個(gè)原數(shù)據(jù)點(diǎn)X的維度進(jìn)行擴(kuò)充,得到擴(kuò)充后的數(shù)據(jù)點(diǎn)的裝置;用于基于擴(kuò)充后的數(shù)據(jù)點(diǎn),對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行相似度計(jì)算并分發(fā)數(shù)據(jù)對(duì)(key, value)的裝置,其中,key為待預(yù)測(cè)數(shù)據(jù)點(diǎn)的標(biāo)識(shí),value為擴(kuò)充后的數(shù)據(jù)點(diǎn)的標(biāo)識(shí)及其與待預(yù)測(cè)數(shù)據(jù)點(diǎn)的相似度;用于基于所計(jì)算的相似度,選出與待預(yù)測(cè)數(shù)據(jù)點(diǎn)最相近的K個(gè)擴(kuò)充后的數(shù)據(jù)點(diǎn), 利用局部線性加權(quán)回歸方法對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行回歸預(yù)測(cè)的裝置。又一個(gè)方面,提供了一種有監(jiān)督機(jī)器學(xué)習(xí)方法,所述方法包括
1)訓(xùn)練數(shù)據(jù)的特征抽取和維度約簡(jiǎn),形成數(shù)據(jù)點(diǎn)X(xl,x2....)和標(biāo)簽y的格式;2)利用上述的特征擴(kuò)充方法對(duì)數(shù)據(jù)點(diǎn)X進(jìn)行擴(kuò)充;3)選擇由擴(kuò)充后的數(shù)據(jù)點(diǎn)來預(yù)測(cè)y的模型公式,確定模型參數(shù)類型和參數(shù)個(gè)數(shù)并在訓(xùn)練集的基礎(chǔ)上進(jìn)行訓(xùn)練;4)利用模型和訓(xùn)練好的參數(shù)用在回歸預(yù)測(cè)或分類上,最終得到回歸預(yù)測(cè)結(jié)果或分
類結(jié)果。上述的機(jī)器學(xué)習(xí)方法中,步驟3)由X來預(yù)測(cè)y的模型公式為回歸預(yù)測(cè)模型;所述步驟4)利用上述的回歸預(yù)測(cè)方法來進(jìn)行預(yù)測(cè),并得到預(yù)測(cè)結(jié)果。上述的機(jī)器學(xué)習(xí)方法可以用于進(jìn)行天氣預(yù)報(bào)、疾病預(yù)測(cè)、用戶購(gòu)買行為預(yù)測(cè)、音樂推薦、網(wǎng)絡(luò)好友推薦,書籍推薦、比賽勝負(fù)預(yù)測(cè),信息檢索,垃圾郵件分類,新聞重要度預(yù)測(cè)寸。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于不僅考慮自變量X之間相似度,還考慮了原數(shù)據(jù)中因變量Y之間的相似度,從近鄰和近鄰的歷史的角度考慮了輸出值y發(fā)展的模式。相比以往未考慮數(shù)據(jù)發(fā)展模式的模型,本發(fā)明在數(shù)據(jù)集上,只增加了一個(gè)預(yù)處理的階段,不需要額外的資源就可以豐富數(shù)據(jù)點(diǎn)的信息;在執(zhí)行速度上,該預(yù)處理所增加的時(shí)間復(fù)雜度為掃描數(shù)據(jù)所需的N/M,其中N是數(shù)據(jù)點(diǎn)個(gè)數(shù),M是MapReduce的Mapper的個(gè)數(shù)。 在處理效果上,豐富了原數(shù)據(jù)點(diǎn)X的信息,并最終提高預(yù)測(cè)效果。
以下參照附圖對(duì)本發(fā)明實(shí)施例作進(jìn)一步說明,其中圖1為根據(jù)本發(fā)明實(shí)施例的回歸預(yù)測(cè)方法的流程示意圖;圖2為根據(jù)本發(fā)明實(shí)施例的回歸預(yù)測(cè)裝置的結(jié)構(gòu)示意圖;圖3為傳統(tǒng)線性回歸與使用本發(fā)明實(shí)施例的回歸預(yù)測(cè)的效果對(duì)比圖。
具體實(shí)施例方式為了使本發(fā)明的目的,技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖通過具體實(shí)施例對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明, 并不用于限定本發(fā)明。為了更好地理解本發(fā)明,首先介紹一些背景技術(shù)知識(shí)。MapReduce(Jeffrey Dean Sanjay Ghemawat. MapReduce :a flexible data processing tool [J]. Communications of the ACM, January 2010,v. 53 n. 1.)是近年來 google提出的一個(gè)大規(guī)模數(shù)據(jù)的并行框架(云計(jì)算框架),也是一種用于大規(guī)模數(shù)據(jù)處理的編程模型和規(guī)范,提供很好的底層封裝,方便編寫并行程序。MapReduce采用了分而治之的思想,基本形式有map (映射)和reduce (約簡(jiǎn))兩個(gè)處理階段,將大規(guī)模數(shù)據(jù)處理任務(wù)分為很多子任務(wù),并將子任務(wù)分配給若干個(gè)分布式的機(jī)器來并行完成批處理作業(yè)。其中map 階段是將原始的輸入(一般是key/value對(duì),即鍵/值對(duì))轉(zhuǎn)換成中間結(jié)果;而reduce階段則將之前產(chǎn)生的中間結(jié)果合并,排序與輸出。整個(gè)架構(gòu)幫助使用者完成了很多棘手的工作,解決了一些諸如數(shù)據(jù)分割,時(shí)序安排,數(shù)據(jù)和代碼的協(xié)同定位,進(jìn)程同步通訊,容錯(cuò)和失
6效處理,負(fù)載均衡等問題,并且使得這些功能對(duì)開發(fā)者透明。因此,開發(fā)者只需要實(shí)現(xiàn)map 和reduce等接口,不需要關(guān)注底層系統(tǒng)級(jí)的問題,就可以方便的完成分布式集群上并行程序的開發(fā)??梢杂肕apReduce來實(shí)現(xiàn)傳統(tǒng)的回歸預(yù)測(cè)方法。但在傳統(tǒng)的回歸預(yù)測(cè)方法中需要矩陣求逆或者梯度下降來求解,對(duì)矩陣求逆的運(yùn)算如果要實(shí)現(xiàn)分塊并行計(jì)算的話,每塊數(shù)據(jù)要執(zhí)行完畢都需要全局的信息,梯度下降也是如此。然而MapReduce框架本身的缺點(diǎn)是 全局信息不容易共享并且磁盤隨機(jī)訪問效率低。因此,這種傳統(tǒng)回歸預(yù)測(cè)軟件也不能很好地利用MapReduce框架的并行性來提高性能?;贛apReduce的局部線性加權(quán)回歸LWLR,根據(jù)近鄰數(shù)據(jù)做預(yù)測(cè),跳過了對(duì)矩陣求逆的階段,因此可以利用MapReduce的并行性。但正如上文所述,其存在對(duì)于新數(shù)據(jù)點(diǎn)的近鄰不容易找得準(zhǔn)確的問題,而且也沒有解決特征缺失或特征異構(gòu)的問題。LWLR的基本步驟是首先數(shù)據(jù)格式規(guī)整化,確認(rèn)好自變量X( —般是多維的,因此用大寫X,而X的各個(gè)維度也可以稱為屬性或列,)和因變量(一般是一維的預(yù)測(cè)值,因此用小寫y)y,每條數(shù)據(jù)的格式一般是0^),^),^)...^),7(力,其中下標(biāo)」e [l,n]代表每列屬性,上標(biāo)i e [l,m] 代表原數(shù)據(jù)點(diǎn)的編號(hào),原數(shù)據(jù)就表示為一個(gè)m*(n+l)的一個(gè)大矩陣。然后在接收到新的數(shù)據(jù)Xnrat (Xnratil, χη ,2,χη ,3,... Xnewjn)后,計(jì)算Xnew和每個(gè)原數(shù)據(jù)點(diǎn)X的歐式距離作為相似度、 然后選取最相近的K個(gè)原數(shù)據(jù)點(diǎn)、從Top K個(gè)點(diǎn)中訓(xùn)練出回歸模型h( θ ),最后根據(jù)訓(xùn)練出的回歸模型h( θ )來預(yù)測(cè)因變量y。(C. Chu, S. Kim, Y. A. Lin, etc. Map-reduce for machine learning on multicore[C]//NIPS 19,2007.)根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供了一種用于回歸預(yù)測(cè)的特征擴(kuò)充方法,該特征擴(kuò)充方法不僅考慮了原數(shù)據(jù)點(diǎn)(自變量X)之間關(guān)系,而且還考慮了原數(shù)據(jù)點(diǎn)的因變量Y之間關(guān)系。通過對(duì)X各個(gè)屬性進(jìn)行重新組合和擴(kuò)充,用原數(shù)據(jù)點(diǎn)的“鄰居”的因變量值y來豐富原數(shù)據(jù)點(diǎn)和待測(cè)數(shù)據(jù)點(diǎn)的特征。以下為方便說明,自變量記為X(X1; X2, X3- · ·),擴(kuò)充后自變量記為X+,自變量對(duì)應(yīng)的因變量記為Y(y1; y2, y3...)。待預(yù)測(cè)數(shù)據(jù)點(diǎn)記為Xnrat,預(yù)測(cè)結(jié)果輸出為ynOT。更具體地,該方法包括以下步驟步驟1,在原數(shù)據(jù)點(diǎn)中選擇待預(yù)測(cè)數(shù)據(jù)點(diǎn)的“鄰居”。該“鄰居”對(duì)應(yīng)的因變量y用于下面步驟2中擴(kuò)充新特征。在本實(shí)施例中“鄰居” 的定義跟待預(yù)測(cè)數(shù)據(jù)點(diǎn)XnOT在某個(gè)維度或某幾個(gè)維度上的值相等或相似的一系列原數(shù)據(jù)
點(diǎn)ο針對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)Xnew的每一維Xi,利用領(lǐng)域知識(shí)和經(jīng)驗(yàn),還可結(jié)合現(xiàn)有的挖掘模式方法如Apriori,GSP, Prefixspan等,找到需要的部分原數(shù)據(jù)(Xn,Xi2, Xi3...)作為“鄰居”,這些鄰居可以作為背景的離線知識(shí)。舉例說明利用領(lǐng)域知識(shí),例如根據(jù)某產(chǎn)品各屬性X預(yù)測(cè)某產(chǎn)品價(jià)格y,其中X某一列“產(chǎn)地”包含各個(gè)國(guó)家名,但經(jīng)驗(yàn)上認(rèn)為更大的區(qū)域是比較好的特征,如歐洲行貨,亞洲行貨等會(huì)對(duì)結(jié)果有更大的影響,因此可將該列同為歐洲的原數(shù)據(jù)視為“鄰居”,用它們的y 作為擴(kuò)充。又例如,利用模式挖掘,如一個(gè)簡(jiǎn)單的方法,根據(jù)之前訓(xùn)練得到的回歸方程,分析哪些特征有用(如較大的參數(shù)對(duì)應(yīng)的特征),哪些特征應(yīng)該有用但未起到相應(yīng)的作用(有直觀的作用如房屋面積χ相對(duì)于價(jià)格y,但參數(shù)較小)。這類特征的利用率比較不足,需要擴(kuò)充。再如根據(jù)用戶偏好X判斷其是否喜歡某商品y,統(tǒng)計(jì)信息發(fā)現(xiàn)“是否喜歡網(wǎng)上購(gòu)物”,“是否經(jīng)常晚睡”有很強(qiáng)關(guān)聯(lián)關(guān)系。則可以找到兩列相同或一列相同的作為“鄰居”,用它們的y作為擴(kuò)充,還可彌補(bǔ)“鄰居”不足的缺點(diǎn)。用類似以上信息作為已知的離線知識(shí), 則可以對(duì)新數(shù)據(jù)集和其他類似數(shù)據(jù)集做擴(kuò)充。步驟2,利用這些鄰居及其對(duì)應(yīng)的因變量y來對(duì)原數(shù)據(jù)點(diǎn)(自變量X)和待測(cè)數(shù)據(jù)點(diǎn)的維度進(jìn)行擴(kuò)充??梢詳U(kuò)充一個(gè)或多個(gè)維度,對(duì)X擴(kuò)充后的得到的自變量記為X+。對(duì)于擴(kuò)充的維度的個(gè)數(shù)可以根據(jù)實(shí)際需求、數(shù)據(jù)集大小以及可承受的算法復(fù)雜度來確定。對(duì)于擴(kuò)充哪些維度,可以根據(jù)領(lǐng)域知識(shí)、已有經(jīng)驗(yàn),模式挖掘、用戶偏好、用戶需求等等來進(jìn)行確定。下面結(jié)合具體實(shí)例來對(duì)上述的兩個(gè)步驟進(jìn)行更詳細(xì)的說明。例如,要對(duì)某單位的某些產(chǎn)品的銷量做預(yù)測(cè),已有一些原數(shù)據(jù),如表1所示的具體示例數(shù)據(jù),原數(shù)據(jù)是2011年10月之前的數(shù)據(jù),待預(yù)測(cè)的數(shù)據(jù)是108002。其中,自變量X的維度包含有原材料A的供應(yīng)量,原材料B的供應(yīng)量,月份,投入人數(shù),產(chǎn)品型號(hào)和產(chǎn)品顏色, 共六列(或六種屬性或維度);輸出值Y:產(chǎn)品的銷量。表 權(quán)利要求
1.一種用于回歸預(yù)測(cè)的特征擴(kuò)充方法,所述方法包括在原數(shù)據(jù)點(diǎn)中選擇待預(yù)測(cè)數(shù)據(jù)點(diǎn)的鄰居,所述鄰居是跟待預(yù)測(cè)數(shù)據(jù)點(diǎn)在某個(gè)維度或某幾個(gè)維度上的值相等或相似的一系列原數(shù)據(jù)點(diǎn);利用這些鄰居及其對(duì)應(yīng)的因變量值來對(duì)原數(shù)據(jù)點(diǎn)和待預(yù)測(cè)數(shù)據(jù)點(diǎn)的維度進(jìn)行擴(kuò)充。
2.一種基于MapReduce的特征擴(kuò)充方法,所述方法包括 步驟1)在原數(shù)據(jù)點(diǎn)中選擇待預(yù)測(cè)數(shù)據(jù)點(diǎn)的鄰居,所述鄰居是跟待預(yù)測(cè)數(shù)據(jù)點(diǎn)在某個(gè)維度或某幾個(gè)維度上的值相等或相似的一系列原數(shù)據(jù)點(diǎn);步驟2)將每個(gè)原數(shù)據(jù)點(diǎn)分發(fā)成D2-D1+l份,其中D2為原數(shù)據(jù)點(diǎn)擴(kuò)充后的維數(shù),D1為原數(shù)據(jù)點(diǎn)擴(kuò)充前的維數(shù),每份數(shù)據(jù)為(key,value),其中,key為需要接收本份數(shù)據(jù)的數(shù)據(jù)點(diǎn)的標(biāo)識(shí),value包括在接收本份數(shù)據(jù)的數(shù)據(jù)點(diǎn)要擴(kuò)充的維的序號(hào)和發(fā)送本份數(shù)據(jù)的原數(shù)據(jù)點(diǎn)對(duì)應(yīng)的因變量值;步驟3)每個(gè)原數(shù)據(jù)點(diǎn)基于所接收的數(shù)據(jù),提取value中包含的維的序號(hào)和因變量值來對(duì)自身的維度進(jìn)行擴(kuò)充。
3.一種回歸預(yù)測(cè)方法,所述方法包括步驟a)利用如權(quán)利要求1或2所述的方法對(duì)每個(gè)原數(shù)據(jù)點(diǎn)X的維度進(jìn)行擴(kuò)充,得到擴(kuò)充后的數(shù)據(jù)點(diǎn);步驟b)基于擴(kuò)充后的數(shù)據(jù)點(diǎn)對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行回歸預(yù)測(cè)。
4.一種基于MapReduce的回歸預(yù)測(cè)方法,該方法包括步驟41)利用如權(quán)利要求2所述的方法對(duì)每個(gè)原數(shù)據(jù)點(diǎn)X的維度進(jìn)行擴(kuò)充,得到擴(kuò)充后的數(shù)據(jù)點(diǎn);步驟42)基于擴(kuò)充后的數(shù)據(jù)點(diǎn),對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行相似度計(jì)算并分發(fā)數(shù)據(jù)對(duì)(key, value),其中,key為待預(yù)測(cè)數(shù)據(jù)點(diǎn)的標(biāo)識(shí),value為擴(kuò)充后的數(shù)據(jù)點(diǎn)的標(biāo)識(shí)及其與待預(yù)測(cè)數(shù)據(jù)點(diǎn)的相似度;步驟43)基于所計(jì)算的相似度,選出與待預(yù)測(cè)數(shù)據(jù)點(diǎn)最相近的K個(gè)擴(kuò)充后的數(shù)據(jù)點(diǎn),利用局部線性加權(quán)回歸方法對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行回歸預(yù)測(cè)。
5.根據(jù)權(quán)利要求4所述的回歸預(yù)測(cè)方法,所述步驟42)中對(duì)于不同的擴(kuò)充后的維度采用KL距離、cosine距離或歐式距離來計(jì)算相似度。
6.一種基于MapReduce的回歸預(yù)測(cè)裝置,所述裝置包括用于利用如權(quán)利要求2所述的方法對(duì)每個(gè)原數(shù)據(jù)點(diǎn)X的維度進(jìn)行擴(kuò)充,得到擴(kuò)充后的數(shù)據(jù)點(diǎn)的裝置;用于基于擴(kuò)充后的數(shù)據(jù)點(diǎn),對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行相似度計(jì)算并分發(fā)數(shù)據(jù)對(duì)(key, value)的裝置,其中,key為待預(yù)測(cè)數(shù)據(jù)點(diǎn)的標(biāo)識(shí),value為擴(kuò)充后的數(shù)據(jù)點(diǎn)的標(biāo)識(shí)及其與待預(yù)測(cè)數(shù)據(jù)點(diǎn)的相似度;用于基于所計(jì)算的相似度,選出與待預(yù)測(cè)數(shù)據(jù)點(diǎn)最相近的K個(gè)擴(kuò)充后的數(shù)據(jù)點(diǎn),利用局部線性加權(quán)回歸方法對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行回歸預(yù)測(cè)的裝置。
7.—種有監(jiān)督機(jī)器學(xué)習(xí)方法,所述方法包括1)訓(xùn)練數(shù)據(jù)的特征抽取和維度約簡(jiǎn),形成數(shù)據(jù)點(diǎn)X(xl,x2....)和標(biāo)簽y的格式;2)利用如權(quán)利要求1或2所述的特征擴(kuò)充方法對(duì)數(shù)據(jù)點(diǎn)X進(jìn)行擴(kuò)充;3)選擇由擴(kuò)充后的數(shù)據(jù)點(diǎn)來預(yù)測(cè)y的模型公式,確定模型參數(shù)類型和參數(shù)個(gè)數(shù)并在訓(xùn)練集的基礎(chǔ)上進(jìn)行訓(xùn)練;4)利用模型和訓(xùn)練好的參數(shù)用在回歸預(yù)測(cè)或分類上,最終得到回歸預(yù)測(cè)結(jié)果或分類結(jié)果。
8.根據(jù)權(quán)利要求7所述的機(jī)器學(xué)習(xí)方法,其中步驟3)中模型公式為回歸預(yù)測(cè)模型;所述步驟4)利用如權(quán)利要求3、4、5之一所述的回歸預(yù)測(cè)方法來進(jìn)行預(yù)測(cè),并得到預(yù)測(cè)結(jié)果。
9.根據(jù)權(quán)利要求7或8所述的機(jī)器學(xué)習(xí)方法,所述方法用于進(jìn)行天氣預(yù)報(bào)、疾病預(yù)測(cè)、 用戶購(gòu)買行為預(yù)測(cè)、音樂推薦、網(wǎng)絡(luò)好友推薦,書籍推薦、比賽勝負(fù)預(yù)測(cè),信息檢索,垃圾郵件分類,新聞重要度預(yù)測(cè)等。
全文摘要
本發(fā)明提供一種回歸預(yù)測(cè)方法,不僅考慮自變量X之間相似度,還考慮了原數(shù)據(jù)中因變量Y之間的相似度,從近鄰和近鄰的歷史的角度考慮了輸出值y發(fā)展的模式。相比以往未考慮數(shù)據(jù)發(fā)展模式的模型,該方法在數(shù)據(jù)集上,只增加了一個(gè)預(yù)處理的階段,不需要額外的資源就可以豐富數(shù)據(jù)點(diǎn)的信息;而且豐富了原數(shù)據(jù)點(diǎn)X的信息,最終提高預(yù)測(cè)效果。另外,可以在MapReduce框架上進(jìn)行實(shí)現(xiàn),利用其并行性來提高執(zhí)行速度。
文檔編號(hào)G06Q10/04GK102385719SQ20111033922
公開日2012年3月21日 申請(qǐng)日期2011年11月1日 優(yōu)先權(quán)日2011年11月1日
發(fā)明者張冠元, 張帥, 李銳, 李鵬, 王斌, 魯凱 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所