回歸預(yù)測(cè)方法及裝置的制作方法

文檔序號(hào)：6437049閱讀：160來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：回歸預(yù)測(cè)方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明屬于統(tǒng)計(jì)回歸分析和預(yù)測(cè)，尤其涉及用于統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的回歸預(yù)測(cè)方法
及裝置。
背景技術(shù)：
回歸分析(Regression Analysis)是一種統(tǒng)計(jì)學(xué)上對(duì)數(shù)據(jù)進(jìn)行分析的方法，主要是希望探討數(shù)據(jù)之間是否有一種特定關(guān)系?；貧w分析是建立因變量Y(reSp0nSe variables)或稱依變量(dependent variables)與自變量 X(predictors)或稱獨(dú)變量 (independent variables)之間關(guān)系的模型。在統(tǒng)計(jì)機(jī)器學(xué)習(xí)里，回歸預(yù)測(cè)方法主要用于對(duì)數(shù)據(jù)做預(yù)測(cè)和分析。其中X—般是多維的數(shù)據(jù)而Y—般是數(shù)值型數(shù)據(jù)，稱為多元回歸。根據(jù)回歸方程又可以分為線性回歸，非線性回歸等。最基本的線性回歸公式Y(jié)= βΧ+ ^?，F(xiàn)有的回歸預(yù)測(cè)方法存在著以下兩個(gè)問題首先，由于數(shù)據(jù)的缺失或未做特征選擇，使得有時(shí)原始數(shù)據(jù)點(diǎn)本身可能不包含足夠的信息來對(duì)輸出進(jìn)行回歸預(yù)測(cè)(該問題可以簡(jiǎn)稱為特征缺失)；其次，由于數(shù)據(jù)點(diǎn)X的每個(gè)維度上的數(shù)據(jù)可能并非數(shù)值型，其可能不滿足數(shù)值的變化規(guī)律及變化范圍，如周期型的角度，布爾型的性別等，枚舉型的顏色等，這在一定程度上影響了回歸的效果和預(yù)測(cè)的精度(該問題可以簡(jiǎn)稱為特征異構(gòu))。為了解決以上問題，現(xiàn)有的方法都是依靠經(jīng)驗(yàn)來對(duì)特征進(jìn)行簡(jiǎn)單的格式轉(zhuǎn)換，不具有規(guī)范性和擴(kuò)充性。當(dāng)數(shù)據(jù)集發(fā)生稍許變化的時(shí)候需要改變格式轉(zhuǎn)換方法。因此不能很好的解決特征缺失和特征異構(gòu)的問題。另外，隨著云計(jì)算技術(shù)的發(fā)展，出現(xiàn)了用于進(jìn)行大規(guī)模并行處理數(shù)據(jù)的平臺(tái)，例如 MapReduce, Hadoop等。又有學(xué)者研究在這些平臺(tái)上實(shí)現(xiàn)回歸預(yù)測(cè)方法，以期望利用這些云計(jì)算平臺(tái)的并行性來提高回歸預(yù)測(cè)的性能。例如，基于MapReduce的局部線性加權(quán)回歸 LffLRdocally weighted linear regression)，其根據(jù)新輸入的待預(yù)測(cè)數(shù)據(jù)點(diǎn)，動(dòng)態(tài)地在原數(shù)據(jù)集里找到一些近鄰，用近鄰數(shù)據(jù)做局部的線性回歸得出預(yù)測(cè)函數(shù)，也就是說對(duì)每個(gè)待預(yù)測(cè)數(shù)據(jù)點(diǎn)都需要做近鄰查找和回歸預(yù)測(cè)。首先根據(jù)自變量的相似度(也可以稱為距離)，找到待預(yù)測(cè)數(shù)據(jù)點(diǎn)的近鄰；然后根據(jù)近鄰進(jìn)行曲線擬合，得出預(yù)測(cè)函數(shù)；最后通過預(yù)測(cè)函數(shù)對(duì)待測(cè)點(diǎn)的輸出值做出預(yù)測(cè)。LffLR的好處在于便于并行，并且是根據(jù)近鄰數(shù)據(jù)做預(yù)測(cè)，考慮了自變量之間的關(guān)系，可以一定程度上提高預(yù)測(cè)的準(zhǔn)確率。但其由于跳過了對(duì)矩陣求逆的階段，因此無法考慮原數(shù)據(jù)點(diǎn)X的因變量Y之間以及原數(shù)據(jù)點(diǎn)X和待預(yù)測(cè)數(shù)據(jù)點(diǎn)Xnew的輸出之間的關(guān)系。也就是說對(duì)于待預(yù)測(cè)數(shù)據(jù)點(diǎn)的近鄰不容易找得準(zhǔn)確，而近鄰的準(zhǔn)確與否對(duì)預(yù)測(cè)的結(jié)果好壞有著決定性的影響。另外，該方法也沒有解決特征缺失和特征異構(gòu)的問題。

發(fā)明內(nèi)容
因此，本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷，提供一種回歸預(yù)測(cè)的特征擴(kuò)充方法，利用原數(shù)據(jù)(X)對(duì)應(yīng)的預(yù)測(cè)值(y)來豐富數(shù)據(jù)點(diǎn)的信息以提升回歸預(yù)測(cè)的效果。
本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的一方面，本發(fā)明提供了一種用于回歸預(yù)測(cè)的特征擴(kuò)充方法YET(Y axis ExTension)，所述方法包括在原數(shù)據(jù)點(diǎn)中選擇待預(yù)測(cè)數(shù)據(jù)點(diǎn)的鄰居，所述鄰居是跟待預(yù)測(cè)數(shù)據(jù)點(diǎn)在某個(gè)維度或某幾個(gè)維度上的值相等或相似的一系列原數(shù)據(jù)點(diǎn)；利用這些鄰居及其對(duì)應(yīng)的因變量值來對(duì)原數(shù)據(jù)點(diǎn)和待預(yù)測(cè)數(shù)據(jù)點(diǎn)的維度進(jìn)行擴(kuò)充。又一個(gè)方面，提供了一種基于MapReduce的特征擴(kuò)充方法，所述方法包括步驟1)在原數(shù)據(jù)點(diǎn)中選擇待預(yù)測(cè)數(shù)據(jù)點(diǎn)的鄰居，所述鄰居是跟待預(yù)測(cè)數(shù)據(jù)點(diǎn)在某個(gè)維度或某幾個(gè)維度上的值相等或相似的一系列原數(shù)據(jù)點(diǎn)；步驟2)將每個(gè)原數(shù)據(jù)點(diǎn)分發(fā)成D2-DJl份，其中D2為原數(shù)據(jù)點(diǎn)擴(kuò)充后的維數(shù)，D1 為原數(shù)據(jù)點(diǎn)擴(kuò)充前的維數(shù)，每份數(shù)據(jù)為(key，value)，其中，key為需要接收本份數(shù)據(jù)的數(shù)據(jù)點(diǎn)的標(biāo)識(shí)，value包括在接收本份數(shù)據(jù)的數(shù)據(jù)點(diǎn)要擴(kuò)充的維的序號(hào)和發(fā)送本份數(shù)據(jù)的原數(shù)據(jù)點(diǎn)對(duì)應(yīng)的因變量值；步驟3)每個(gè)原數(shù)據(jù)點(diǎn)基于所接收的數(shù)據(jù)，提取value中包含的維的序號(hào)和因變量值來對(duì)自身的維度進(jìn)行擴(kuò)充。又一個(gè)方面，提供了一種回歸預(yù)測(cè)方法，所述方法包括步驟a)利用上述的特征擴(kuò)充方法對(duì)每個(gè)原數(shù)據(jù)點(diǎn)X的維度進(jìn)行擴(kuò)充，得到擴(kuò)充后的數(shù)據(jù)點(diǎn)；步驟b)基于擴(kuò)充后的數(shù)據(jù)點(diǎn)對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行回歸預(yù)測(cè)。又一個(gè)方面，提供了一種基于MapReduce的回歸預(yù)測(cè)方法，該方法包括步驟41)利用上述的特征擴(kuò)充方法對(duì)每個(gè)原數(shù)據(jù)點(diǎn)X的維度進(jìn)行擴(kuò)充，得到擴(kuò)充后的數(shù)據(jù)點(diǎn)；步驟42)基于擴(kuò)充后的數(shù)據(jù)點(diǎn)，對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行相似度計(jì)算并分發(fā)數(shù)據(jù)對(duì) (key, value)，其中，key為待預(yù)測(cè)數(shù)據(jù)點(diǎn)的標(biāo)識(shí)，value為擴(kuò)充后的數(shù)據(jù)點(diǎn)的標(biāo)識(shí)及其與待預(yù)測(cè)數(shù)據(jù)點(diǎn)的相似度；步驟43)基于所計(jì)算的相似度，選出與待預(yù)測(cè)數(shù)據(jù)點(diǎn)最相近的K個(gè)擴(kuò)充后的數(shù)據(jù)點(diǎn)，利用局部線性加權(quán)回歸方法對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行回歸預(yù)測(cè)。上述回歸預(yù)測(cè)方法中，所述步驟42)中對(duì)于不同的擴(kuò)充后的維度采用KL距離、 cosine距離或歐式距離來計(jì)算相似度。又一個(gè)方面，提供了一種基于MapReduce的回歸預(yù)測(cè)裝置，所述裝置包括用于利用上述的特征擴(kuò)充方法對(duì)每個(gè)原數(shù)據(jù)點(diǎn)X的維度進(jìn)行擴(kuò)充，得到擴(kuò)充后的數(shù)據(jù)點(diǎn)的裝置；用于基于擴(kuò)充后的數(shù)據(jù)點(diǎn)，對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行相似度計(jì)算并分發(fā)數(shù)據(jù)對(duì)(key， value)的裝置，其中，key為待預(yù)測(cè)數(shù)據(jù)點(diǎn)的標(biāo)識(shí)，value為擴(kuò)充后的數(shù)據(jù)點(diǎn)的標(biāo)識(shí)及其與待預(yù)測(cè)數(shù)據(jù)點(diǎn)的相似度；用于基于所計(jì)算的相似度，選出與待預(yù)測(cè)數(shù)據(jù)點(diǎn)最相近的K個(gè)擴(kuò)充后的數(shù)據(jù)點(diǎn)，利用局部線性加權(quán)回歸方法對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行回歸預(yù)測(cè)的裝置。又一個(gè)方面，提供了一種有監(jiān)督機(jī)器學(xué)習(xí)方法，所述方法包括
1)訓(xùn)練數(shù)據(jù)的特征抽取和維度約簡(jiǎn)，形成數(shù)據(jù)點(diǎn)X(xl，x2....)和標(biāo)簽y的格式；2)利用上述的特征擴(kuò)充方法對(duì)數(shù)據(jù)點(diǎn)X進(jìn)行擴(kuò)充；3)選擇由擴(kuò)充后的數(shù)據(jù)點(diǎn)來預(yù)測(cè)y的模型公式，確定模型參數(shù)類型和參數(shù)個(gè)數(shù)并在訓(xùn)練集的基礎(chǔ)上進(jìn)行訓(xùn)練；4)利用模型和訓(xùn)練好的參數(shù)用在回歸預(yù)測(cè)或分類上，最終得到回歸預(yù)測(cè)結(jié)果或分
類結(jié)果。上述的機(jī)器學(xué)習(xí)方法中，步驟3)由X來預(yù)測(cè)y的模型公式為回歸預(yù)測(cè)模型；所述步驟4)利用上述的回歸預(yù)測(cè)方法來進(jìn)行預(yù)測(cè)，并得到預(yù)測(cè)結(jié)果。上述的機(jī)器學(xué)習(xí)方法可以用于進(jìn)行天氣預(yù)報(bào)、疾病預(yù)測(cè)、用戶購(gòu)買行為預(yù)測(cè)、音樂推薦、網(wǎng)絡(luò)好友推薦，書籍推薦、比賽勝負(fù)預(yù)測(cè)，信息檢索，垃圾郵件分類，新聞重要度預(yù)測(cè)寸。與現(xiàn)有技術(shù)相比，本發(fā)明的優(yōu)點(diǎn)在于不僅考慮自變量X之間相似度，還考慮了原數(shù)據(jù)中因變量Y之間的相似度，從近鄰和近鄰的歷史的角度考慮了輸出值y發(fā)展的模式。相比以往未考慮數(shù)據(jù)發(fā)展模式的模型，本發(fā)明在數(shù)據(jù)集上，只增加了一個(gè)預(yù)處理的階段，不需要額外的資源就可以豐富數(shù)據(jù)點(diǎn)的信息；在執(zhí)行速度上，該預(yù)處理所增加的時(shí)間復(fù)雜度為掃描數(shù)據(jù)所需的N/M，其中N是數(shù)據(jù)點(diǎn)個(gè)數(shù)，M是MapReduce的Mapper的個(gè)數(shù)。在處理效果上，豐富了原數(shù)據(jù)點(diǎn)X的信息，并最終提高預(yù)測(cè)效果。

以下參照附圖對(duì)本發(fā)明實(shí)施例作進(jìn)一步說明，其中圖1為根據(jù)本發(fā)明實(shí)施例的回歸預(yù)測(cè)方法的流程示意圖；圖2為根據(jù)本發(fā)明實(shí)施例的回歸預(yù)測(cè)裝置的結(jié)構(gòu)示意圖；圖3為傳統(tǒng)線性回歸與使用本發(fā)明實(shí)施例的回歸預(yù)測(cè)的效果對(duì)比圖。
具體實(shí)施例方式為了使本發(fā)明的目的，技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合附圖通過具體實(shí)施例對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。為了更好地理解本發(fā)明，首先介紹一些背景技術(shù)知識(shí)。MapReduce(Jeffrey Dean Sanjay Ghemawat. MapReduce :a flexible data processing tool [J]. Communications of the ACM, January 2010，v. 53 n. 1.)是近年來 google提出的一個(gè)大規(guī)模數(shù)據(jù)的并行框架(云計(jì)算框架)，也是一種用于大規(guī)模數(shù)據(jù)處理的編程模型和規(guī)范，提供很好的底層封裝，方便編寫并行程序。MapReduce采用了分而治之的思想，基本形式有map (映射)和reduce (約簡(jiǎn))兩個(gè)處理階段，將大規(guī)模數(shù)據(jù)處理任務(wù)分為很多子任務(wù)，并將子任務(wù)分配給若干個(gè)分布式的機(jī)器來并行完成批處理作業(yè)。其中map 階段是將原始的輸入(一般是key/value對(duì)，即鍵/值對(duì))轉(zhuǎn)換成中間結(jié)果；而reduce階段則將之前產(chǎn)生的中間結(jié)果合并，排序與輸出。整個(gè)架構(gòu)幫助使用者完成了很多棘手的工作，解決了一些諸如數(shù)據(jù)分割，時(shí)序安排，數(shù)據(jù)和代碼的協(xié)同定位，進(jìn)程同步通訊，容錯(cuò)和失
6效處理，負(fù)載均衡等問題，并且使得這些功能對(duì)開發(fā)者透明。因此，開發(fā)者只需要實(shí)現(xiàn)map 和reduce等接口，不需要關(guān)注底層系統(tǒng)級(jí)的問題，就可以方便的完成分布式集群上并行程序的開發(fā)?？梢杂肕apReduce來實(shí)現(xiàn)傳統(tǒng)的回歸預(yù)測(cè)方法。但在傳統(tǒng)的回歸預(yù)測(cè)方法中需要矩陣求逆或者梯度下降來求解，對(duì)矩陣求逆的運(yùn)算如果要實(shí)現(xiàn)分塊并行計(jì)算的話，每塊數(shù)據(jù)要執(zhí)行完畢都需要全局的信息，梯度下降也是如此。然而MapReduce框架本身的缺點(diǎn)是全局信息不容易共享并且磁盤隨機(jī)訪問效率低。因此，這種傳統(tǒng)回歸預(yù)測(cè)軟件也不能很好地利用MapReduce框架的并行性來提高性能?；贛apReduce的局部線性加權(quán)回歸LWLR，根據(jù)近鄰數(shù)據(jù)做預(yù)測(cè)，跳過了對(duì)矩陣求逆的階段，因此可以利用MapReduce的并行性。但正如上文所述，其存在對(duì)于新數(shù)據(jù)點(diǎn)的近鄰不容易找得準(zhǔn)確的問題，而且也沒有解決特征缺失或特征異構(gòu)的問題。LWLR的基本步驟是首先數(shù)據(jù)格式規(guī)整化，確認(rèn)好自變量X( —般是多維的，因此用大寫X，而X的各個(gè)維度也可以稱為屬性或列，)和因變量(一般是一維的預(yù)測(cè)值，因此用小寫y)y，每條數(shù)據(jù)的格式一般是0^)，^)，^)...^)，7(力，其中下標(biāo)」e [l，n]代表每列屬性，上標(biāo)i e [l，m] 代表原數(shù)據(jù)點(diǎn)的編號(hào)，原數(shù)據(jù)就表示為一個(gè)m*(n+l)的一個(gè)大矩陣。然后在接收到新的數(shù)據(jù)Xnrat (Xnratil, χη ,2，χη ,3，... Xnewjn)后，計(jì)算Xnew和每個(gè)原數(shù)據(jù)點(diǎn)X的歐式距離作為相似度、然后選取最相近的K個(gè)原數(shù)據(jù)點(diǎn)、從Top K個(gè)點(diǎn)中訓(xùn)練出回歸模型h( θ )，最后根據(jù)訓(xùn)練出的回歸模型h( θ )來預(yù)測(cè)因變量y。(C. Chu, S. Kim, Y. A. Lin, etc. Map-reduce for machine learning on multicore[C]//NIPS 19,2007.)根據(jù)本發(fā)明的一個(gè)實(shí)施例，提供了一種用于回歸預(yù)測(cè)的特征擴(kuò)充方法，該特征擴(kuò)充方法不僅考慮了原數(shù)據(jù)點(diǎn)(自變量X)之間關(guān)系，而且還考慮了原數(shù)據(jù)點(diǎn)的因變量Y之間關(guān)系。通過對(duì)X各個(gè)屬性進(jìn)行重新組合和擴(kuò)充，用原數(shù)據(jù)點(diǎn)的“鄰居”的因變量值y來豐富原數(shù)據(jù)點(diǎn)和待測(cè)數(shù)據(jù)點(diǎn)的特征。以下為方便說明，自變量記為X(X1; X2, X3- · ·)，擴(kuò)充后自變量記為X+，自變量對(duì)應(yīng)的因變量記為Y(y1; y2, y3...)。待預(yù)測(cè)數(shù)據(jù)點(diǎn)記為Xnrat，預(yù)測(cè)結(jié)果輸出為ynOT。更具體地，該方法包括以下步驟步驟1，在原數(shù)據(jù)點(diǎn)中選擇待預(yù)測(cè)數(shù)據(jù)點(diǎn)的“鄰居”。該“鄰居”對(duì)應(yīng)的因變量y用于下面步驟2中擴(kuò)充新特征。在本實(shí)施例中“鄰居” 的定義跟待預(yù)測(cè)數(shù)據(jù)點(diǎn)XnOT在某個(gè)維度或某幾個(gè)維度上的值相等或相似的一系列原數(shù)據(jù)
點(diǎn)ο針對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)Xnew的每一維Xi,利用領(lǐng)域知識(shí)和經(jīng)驗(yàn)，還可結(jié)合現(xiàn)有的挖掘模式方法如Apriori，GSP, Prefixspan等，找到需要的部分原數(shù)據(jù)(Xn，Xi2, Xi3...)作為“鄰居”，這些鄰居可以作為背景的離線知識(shí)。舉例說明利用領(lǐng)域知識(shí)，例如根據(jù)某產(chǎn)品各屬性X預(yù)測(cè)某產(chǎn)品價(jià)格y，其中X某一列“產(chǎn)地”包含各個(gè)國(guó)家名，但經(jīng)驗(yàn)上認(rèn)為更大的區(qū)域是比較好的特征，如歐洲行貨，亞洲行貨等會(huì)對(duì)結(jié)果有更大的影響，因此可將該列同為歐洲的原數(shù)據(jù)視為“鄰居”，用它們的y 作為擴(kuò)充。又例如，利用模式挖掘，如一個(gè)簡(jiǎn)單的方法，根據(jù)之前訓(xùn)練得到的回歸方程，分析哪些特征有用(如較大的參數(shù)對(duì)應(yīng)的特征)，哪些特征應(yīng)該有用但未起到相應(yīng)的作用(有直觀的作用如房屋面積χ相對(duì)于價(jià)格y，但參數(shù)較小)。這類特征的利用率比較不足，需要擴(kuò)充。再如根據(jù)用戶偏好X判斷其是否喜歡某商品y，統(tǒng)計(jì)信息發(fā)現(xiàn)“是否喜歡網(wǎng)上購(gòu)物”，“是否經(jīng)常晚睡”有很強(qiáng)關(guān)聯(lián)關(guān)系。則可以找到兩列相同或一列相同的作為“鄰居”，用它們的y作為擴(kuò)充，還可彌補(bǔ)“鄰居”不足的缺點(diǎn)。用類似以上信息作為已知的離線知識(shí)，則可以對(duì)新數(shù)據(jù)集和其他類似數(shù)據(jù)集做擴(kuò)充。步驟2，利用這些鄰居及其對(duì)應(yīng)的因變量y來對(duì)原數(shù)據(jù)點(diǎn)(自變量X)和待測(cè)數(shù)據(jù)點(diǎn)的維度進(jìn)行擴(kuò)充?？梢詳U(kuò)充一個(gè)或多個(gè)維度，對(duì)X擴(kuò)充后的得到的自變量記為X+。對(duì)于擴(kuò)充的維度的個(gè)數(shù)可以根據(jù)實(shí)際需求、數(shù)據(jù)集大小以及可承受的算法復(fù)雜度來確定。對(duì)于擴(kuò)充哪些維度，可以根據(jù)領(lǐng)域知識(shí)、已有經(jīng)驗(yàn)，模式挖掘、用戶偏好、用戶需求等等來進(jìn)行確定。下面結(jié)合具體實(shí)例來對(duì)上述的兩個(gè)步驟進(jìn)行更詳細(xì)的說明。例如，要對(duì)某單位的某些產(chǎn)品的銷量做預(yù)測(cè)，已有一些原數(shù)據(jù)，如表1所示的具體示例數(shù)據(jù)，原數(shù)據(jù)是2011年10月之前的數(shù)據(jù)，待預(yù)測(cè)的數(shù)據(jù)是108002。其中，自變量X的維度包含有原材料A的供應(yīng)量，原材料B的供應(yīng)量，月份，投入人數(shù)，產(chǎn)品型號(hào)和產(chǎn)品顏色，共六列(或六種屬性或維度)；輸出值Y:產(chǎn)品的銷量。表 權(quán)利要求
1.一種用于回歸預(yù)測(cè)的特征擴(kuò)充方法，所述方法包括在原數(shù)據(jù)點(diǎn)中選擇待預(yù)測(cè)數(shù)據(jù)點(diǎn)的鄰居，所述鄰居是跟待預(yù)測(cè)數(shù)據(jù)點(diǎn)在某個(gè)維度或某幾個(gè)維度上的值相等或相似的一系列原數(shù)據(jù)點(diǎn)；利用這些鄰居及其對(duì)應(yīng)的因變量值來對(duì)原數(shù)據(jù)點(diǎn)和待預(yù)測(cè)數(shù)據(jù)點(diǎn)的維度進(jìn)行擴(kuò)充。
2.一種基于MapReduce的特征擴(kuò)充方法，所述方法包括步驟1)在原數(shù)據(jù)點(diǎn)中選擇待預(yù)測(cè)數(shù)據(jù)點(diǎn)的鄰居，所述鄰居是跟待預(yù)測(cè)數(shù)據(jù)點(diǎn)在某個(gè)維度或某幾個(gè)維度上的值相等或相似的一系列原數(shù)據(jù)點(diǎn)；步驟2)將每個(gè)原數(shù)據(jù)點(diǎn)分發(fā)成D2-D1+l份，其中D2為原數(shù)據(jù)點(diǎn)擴(kuò)充后的維數(shù)，D1為原數(shù)據(jù)點(diǎn)擴(kuò)充前的維數(shù)，每份數(shù)據(jù)為(key，value)，其中，key為需要接收本份數(shù)據(jù)的數(shù)據(jù)點(diǎn)的標(biāo)識(shí)，value包括在接收本份數(shù)據(jù)的數(shù)據(jù)點(diǎn)要擴(kuò)充的維的序號(hào)和發(fā)送本份數(shù)據(jù)的原數(shù)據(jù)點(diǎn)對(duì)應(yīng)的因變量值；步驟3)每個(gè)原數(shù)據(jù)點(diǎn)基于所接收的數(shù)據(jù)，提取value中包含的維的序號(hào)和因變量值來對(duì)自身的維度進(jìn)行擴(kuò)充。
3.一種回歸預(yù)測(cè)方法，所述方法包括步驟a)利用如權(quán)利要求1或2所述的方法對(duì)每個(gè)原數(shù)據(jù)點(diǎn)X的維度進(jìn)行擴(kuò)充，得到擴(kuò)充后的數(shù)據(jù)點(diǎn)；步驟b)基于擴(kuò)充后的數(shù)據(jù)點(diǎn)對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行回歸預(yù)測(cè)。
4.一種基于MapReduce的回歸預(yù)測(cè)方法，該方法包括步驟41)利用如權(quán)利要求2所述的方法對(duì)每個(gè)原數(shù)據(jù)點(diǎn)X的維度進(jìn)行擴(kuò)充，得到擴(kuò)充后的數(shù)據(jù)點(diǎn)；步驟42)基于擴(kuò)充后的數(shù)據(jù)點(diǎn)，對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行相似度計(jì)算并分發(fā)數(shù)據(jù)對(duì)(key， value)，其中，key為待預(yù)測(cè)數(shù)據(jù)點(diǎn)的標(biāo)識(shí)，value為擴(kuò)充后的數(shù)據(jù)點(diǎn)的標(biāo)識(shí)及其與待預(yù)測(cè)數(shù)據(jù)點(diǎn)的相似度；步驟43)基于所計(jì)算的相似度，選出與待預(yù)測(cè)數(shù)據(jù)點(diǎn)最相近的K個(gè)擴(kuò)充后的數(shù)據(jù)點(diǎn)，利用局部線性加權(quán)回歸方法對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行回歸預(yù)測(cè)。
5.根據(jù)權(quán)利要求4所述的回歸預(yù)測(cè)方法，所述步驟42)中對(duì)于不同的擴(kuò)充后的維度采用KL距離、cosine距離或歐式距離來計(jì)算相似度。
6.一種基于MapReduce的回歸預(yù)測(cè)裝置，所述裝置包括用于利用如權(quán)利要求2所述的方法對(duì)每個(gè)原數(shù)據(jù)點(diǎn)X的維度進(jìn)行擴(kuò)充，得到擴(kuò)充后的數(shù)據(jù)點(diǎn)的裝置；用于基于擴(kuò)充后的數(shù)據(jù)點(diǎn)，對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行相似度計(jì)算并分發(fā)數(shù)據(jù)對(duì)(key， value)的裝置，其中，key為待預(yù)測(cè)數(shù)據(jù)點(diǎn)的標(biāo)識(shí)，value為擴(kuò)充后的數(shù)據(jù)點(diǎn)的標(biāo)識(shí)及其與待預(yù)測(cè)數(shù)據(jù)點(diǎn)的相似度；用于基于所計(jì)算的相似度，選出與待預(yù)測(cè)數(shù)據(jù)點(diǎn)最相近的K個(gè)擴(kuò)充后的數(shù)據(jù)點(diǎn)，利用局部線性加權(quán)回歸方法對(duì)待預(yù)測(cè)數(shù)據(jù)點(diǎn)進(jìn)行回歸預(yù)測(cè)的裝置。
7.—種有監(jiān)督機(jī)器學(xué)習(xí)方法，所述方法包括1)訓(xùn)練數(shù)據(jù)的特征抽取和維度約簡(jiǎn)，形成數(shù)據(jù)點(diǎn)X(xl，x2....)和標(biāo)簽y的格式；2)利用如權(quán)利要求1或2所述的特征擴(kuò)充方法對(duì)數(shù)據(jù)點(diǎn)X進(jìn)行擴(kuò)充；3)選擇由擴(kuò)充后的數(shù)據(jù)點(diǎn)來預(yù)測(cè)y的模型公式，確定模型參數(shù)類型和參數(shù)個(gè)數(shù)并在訓(xùn)練集的基礎(chǔ)上進(jìn)行訓(xùn)練；4)利用模型和訓(xùn)練好的參數(shù)用在回歸預(yù)測(cè)或分類上，最終得到回歸預(yù)測(cè)結(jié)果或分類結(jié)果。
8.根據(jù)權(quán)利要求7所述的機(jī)器學(xué)習(xí)方法，其中步驟3)中模型公式為回歸預(yù)測(cè)模型；所述步驟4)利用如權(quán)利要求3、4、5之一所述的回歸預(yù)測(cè)方法來進(jìn)行預(yù)測(cè)，并得到預(yù)測(cè)結(jié)果。
9.根據(jù)權(quán)利要求7或8所述的機(jī)器學(xué)習(xí)方法，所述方法用于進(jìn)行天氣預(yù)報(bào)、疾病預(yù)測(cè)、用戶購(gòu)買行為預(yù)測(cè)、音樂推薦、網(wǎng)絡(luò)好友推薦，書籍推薦、比賽勝負(fù)預(yù)測(cè)，信息檢索，垃圾郵件分類，新聞重要度預(yù)測(cè)等。
全文摘要
本發(fā)明提供一種回歸預(yù)測(cè)方法，不僅考慮自變量X之間相似度，還考慮了原數(shù)據(jù)中因變量Y之間的相似度，從近鄰和近鄰的歷史的角度考慮了輸出值y發(fā)展的模式。相比以往未考慮數(shù)據(jù)發(fā)展模式的模型，該方法在數(shù)據(jù)集上，只增加了一個(gè)預(yù)處理的階段，不需要額外的資源就可以豐富數(shù)據(jù)點(diǎn)的信息；而且豐富了原數(shù)據(jù)點(diǎn)X的信息，最終提高預(yù)測(cè)效果。另外，可以在MapReduce框架上進(jìn)行實(shí)現(xiàn)，利用其并行性來提高執(zhí)行速度。
文檔編號(hào)G06Q10/04GK102385719SQ20111033922
公開日2012年3月21日申請(qǐng)日期2011年11月1日優(yōu)先權(quán)日2011年11月1日
發(fā)明者張冠元, 張帥, 李銳, 李鵬, 王斌, 魯凱申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李銳;張帥;王斌;李鵬;張冠元;魯凱
技術(shù)所有人：中國(guó)科學(xué)院計(jì)算技術(shù)研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

裝置氣密性檢查方法相關(guān)技術(shù)

檢查裝置氣密性的方法相關(guān)技術(shù)

檢驗(yàn)裝置氣密性的方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

回歸預(yù)測(cè)方法及裝置的制作方法