一種提高大數(shù)據(jù)處理質(zhì)量的方法與流程

文檔序號(hào)：11154951閱讀：415來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于大數(shù)據(jù)處理及數(shù)據(jù)挖掘問(wèn)題領(lǐng)域，更具體地，涉及一類提高數(shù)據(jù)分析速度和數(shù)據(jù)分析質(zhì)量的數(shù)據(jù)處理技術(shù)。

背景技術(shù)：

現(xiàn)在的社會(huì)是一個(gè)高速發(fā)展的社會(huì)，科技發(fā)達(dá)，信息流通，人們之間的交流越來(lái)越密切，生活也越來(lái)越方便，大數(shù)據(jù)就是這個(gè)高科技時(shí)代的產(chǎn)物。計(jì)算機(jī)領(lǐng)域的發(fā)展，以及國(guó)際互聯(lián)網(wǎng)絡(luò)的出現(xiàn)，為求解大規(guī)模數(shù)據(jù)的優(yōu)化問(wèn)題提供了方便。進(jìn)入21世紀(jì)以來(lái)，求解大規(guī)模優(yōu)化問(wèn)題的算法設(shè)計(jì)以及理論創(chuàng)新已受到各研究領(lǐng)域?qū)＜业膹V泛關(guān)注。如何將大數(shù)據(jù)的分析和處理問(wèn)題轉(zhuǎn)化為求解規(guī)模龐大的數(shù)值優(yōu)化問(wèn)題，以及如何求解大規(guī)模的優(yōu)化問(wèn)題是當(dāng)下各領(lǐng)域研究者關(guān)注的重點(diǎn)之一。而早先的關(guān)于求解優(yōu)化問(wèn)題的工作主要集中于已有迭代算法中參數(shù)的選取，通過(guò)選取不同參數(shù)值得到了一些較為經(jīng)典的數(shù)值優(yōu)化算法，至今仍被廣泛應(yīng)用的有著名的梯度下降法、牛頓法等方法。然而在數(shù)值優(yōu)化算法中，算法的收斂速率是衡量該算法優(yōu)劣的重要指標(biāo)，因此如何加快算法的收斂速率顯得尤為重要。實(shí)質(zhì)上，當(dāng)求解大規(guī)模的優(yōu)化問(wèn)題時(shí)，初始迭代計(jì)算的約束是至關(guān)重要的

大數(shù)據(jù)具有數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、價(jià)值密度低、處理速度快等特點(diǎn)，研究求解大規(guī)模數(shù)據(jù)分析問(wèn)題的具有計(jì)算簡(jiǎn)便、存儲(chǔ)需求量小的高效率的算法具有十分重要的理論和實(shí)際意義。如何快速且高效的從各種各樣類型的數(shù)據(jù)中，快速獲得有價(jià)值信息，是大數(shù)據(jù)處理的首要目標(biāo)之一。而數(shù)據(jù)處理的本質(zhì)，等價(jià)于既快速又高效的求解最優(yōu)化的問(wèn)題。

實(shí)際上，最優(yōu)化這一概念是無(wú)處不在的，因此作為達(dá)到最優(yōu)的一種手段的最優(yōu)化方法，應(yīng)該是而且確實(shí)也是變化無(wú)窮的。運(yùn)籌學(xué)中所處理的問(wèn)題絕大部分都是最優(yōu)化問(wèn)題。用來(lái)解決這些問(wèn)題的方法，例如數(shù)學(xué)規(guī)劃、排隊(duì)論、決策分析、模擬技術(shù)等等，自然也就屬于最優(yōu)化方法這一范疇。除此之外，最優(yōu)化還包括工程控制、最優(yōu)控制、系統(tǒng)科學(xué)等。其中最優(yōu)控制主要用于對(duì)各種控制系統(tǒng)的優(yōu)化，例如，導(dǎo)彈系統(tǒng)的最優(yōu)控制，能保證用最少燃料完成飛行任務(wù)，用最短時(shí)間達(dá)到目標(biāo)；再如飛機(jī)、船舶、電力系統(tǒng)等的最優(yōu)控制，化工、冶金等工廠的最佳工況的控制。計(jì)算機(jī)接口裝置不斷完善和優(yōu)化方法的進(jìn)一步發(fā)展，還為計(jì)算機(jī)在線生產(chǎn)控制創(chuàng)造了有利條件。最優(yōu)控制的對(duì)象也將從對(duì)機(jī)械、電氣、化工等硬件系統(tǒng)的控制轉(zhuǎn)向?qū)ι鷳B(tài)、環(huán)境以至社會(huì)經(jīng)濟(jì)系統(tǒng)的控制。

最優(yōu)化方法討論的是決策問(wèn)題的最佳選擇之特性，構(gòu)造尋求最優(yōu)解的計(jì)算方法，研究這些計(jì)算方法的理論性質(zhì)及實(shí)際計(jì)算表現(xiàn)。伴隨著計(jì)算機(jī)的高速發(fā)展和優(yōu)化計(jì)算方法的進(jìn)步，較大規(guī)模的優(yōu)化問(wèn)題得到解決。因?yàn)樽顑?yōu)化問(wèn)題廣泛見于經(jīng)濟(jì)計(jì)劃、工程設(shè)計(jì)、生產(chǎn)管理、交通運(yùn)輸、國(guó)防等重要領(lǐng)域，它已受到政府部門、科研機(jī)構(gòu)和產(chǎn)業(yè)部門的高度重視。面對(duì)數(shù)據(jù)規(guī)模龐大等特點(diǎn)，現(xiàn)有的求解優(yōu)化問(wèn)題的數(shù)值算法無(wú)論是收斂速度，還是運(yùn)行時(shí)間及運(yùn)行內(nèi)存等方面，均不能滿足大數(shù)據(jù)處理的要求。

現(xiàn)有的處理優(yōu)化問(wèn)題的算法有很多，但主要還是較為經(jīng)典的梯度下降法、牛頓法和擬牛頓法，下面簡(jiǎn)稱含有梯度項(xiàng)的數(shù)值方法為梯度類方法。

i)梯度下降法：

梯度下降法是一種最優(yōu)化算法，是求解無(wú)約束優(yōu)化問(wèn)題最簡(jiǎn)單和最古老的方法之一，雖然現(xiàn)在已經(jīng)不再具有較強(qiáng)的實(shí)用性，但是許多有效算法都是以它為基礎(chǔ)進(jìn)行改進(jìn)和修正而得到的。最速下降法是用負(fù)梯度方向?yàn)?搜索方向的，最速下降法越接近目標(biāo)值，步長(zhǎng)越小，前進(jìn)越慢。

ii)牛頓法：

牛頓法是求解優(yōu)化問(wèn)題(1.1)的古老而有效的方法，相較于其他的求解無(wú)約束問(wèn)題的方法，該方法在找到最優(yōu)點(diǎn)時(shí)需要較少的迭代次數(shù)、函數(shù)值計(jì)算次數(shù)。古典的牛頓法的一個(gè)顯著的優(yōu)點(diǎn)是其局部二次收斂性，然而牛頓法成功的關(guān)鍵是利用了海塞Hesse矩陣提供的曲率信息，牛頓法要求計(jì)算目標(biāo)函數(shù)的二階導(dǎo)數(shù)，并且當(dāng)?shù)c(diǎn)遠(yuǎn)離問(wèn)題的解時(shí)，函數(shù)f的Hesse矩陣可能不正定甚至奇異，此時(shí)牛頓法失敗。

iii)擬牛頓法：

由上述牛頓法計(jì)算Hesse矩陣的工作量較大，并且有的目標(biāo)函數(shù)的Hesse矩陣很難計(jì)算，甚至不好求出，擬牛頓法就是構(gòu)造出目標(biāo)函數(shù)的曲率近似，且不需要明顯形式的Hesse矩陣，同時(shí)具有收斂速度快的有點(diǎn)。

考慮如下應(yīng)用最廣泛的擬牛頓法：L-BFGS方法

首先，假設(shè)目標(biāo)函數(shù)f(x)是二階連續(xù)可微的，利用Taylor展開可得

其中X(k+1)＝X(k)+α_kd_k，d_k＝-H_k▽f(X(k))。構(gòu)造▽²f(X(k))的合適的逼近矩陣B_k，使得如下等式成立

B_k+1S_k＝Y(jié)_k，

其中，S_k＝X(k+1)-X(k)，Y_k＝▽f(X(k+1))-▽f(X(k))。下一步迭代的B_k+1通過(guò)如下修正公式得到：

為了避免在每次迭代中求令相應(yīng)的可通過(guò)如下修正公式計(jì)算下一次迭代所需的H_k+1，

式中k取值為0，1，2……，當(dāng)k＝0初時(shí)取初始矩陣H₀為單位矩陣。

擬牛頓法是建立在牛頓法基礎(chǔ)上的優(yōu)化算法，該方法主要利用目標(biāo)函數(shù)值和一階導(dǎo)數(shù)的信息進(jìn)行迭代計(jì)算，其具有收斂速度快的特點(diǎn)，且避免了目標(biāo)函數(shù)二階導(dǎo)數(shù)的計(jì)算。但是當(dāng)問(wèn)題的維數(shù)非常大的時(shí)候，該方法需要非常大的存儲(chǔ)空間。

上述這些算法在處理大數(shù)據(jù)相關(guān)的問(wèn)題時(shí)，面臨著收斂速度慢、精度較低、以及計(jì)算量大和對(duì)內(nèi)存的要求較大等問(wèn)題，因此不適合用于求解與大數(shù)據(jù)相關(guān)的一些優(yōu)化問(wèn)題，以及對(duì)數(shù)據(jù)中所包含信息的開發(fā)和應(yīng)用等方面。

技術(shù)實(shí)現(xiàn)要素：

針對(duì)上述問(wèn)題，本發(fā)明提供了一種提高數(shù)據(jù)處理質(zhì)量的方法，用于求解與大數(shù)據(jù)相關(guān)的一些優(yōu)化問(wèn)題或求解目標(biāo)函數(shù)最小值的問(wèn)題，本發(fā)明所提供的方法解決現(xiàn)有技術(shù)存在的收斂速度慢、精度較低、以及計(jì)算量大和對(duì)內(nèi)存的要求較大等問(wèn)題

本發(fā)明提出的方法包括如下步驟：

(1)根據(jù)收集到的數(shù)據(jù)特性，對(duì)數(shù)據(jù)進(jìn)行處理：如果數(shù)據(jù)處理問(wèn)題是否是求解函數(shù)的最小值優(yōu)化問(wèn)題：是則轉(zhuǎn)步驟(2)；否則，轉(zhuǎn)化為求解最小值優(yōu)化問(wèn)題，轉(zhuǎn)步驟(2)；

(2)建立最小值優(yōu)化模型其中Rⁿ為實(shí)數(shù)域的n維向量，f(X)為目標(biāo)函數(shù)是一個(gè)二次連續(xù)可微的非線性函數(shù)，X為n維向量，其初值為X(0)；

(3)選取梯度類優(yōu)化方法，所述方法包括梯度下降法、牛頓法和L-BFGS方法；根據(jù)選取的優(yōu)化方法，引入Powerball函數(shù)，建立Powerball 迭代公式，進(jìn)行迭代；所述Powerball函數(shù)表達(dá)式為σ_γ(z)＝sign(z)|z|^γ，γ∈(0,1)為Power系數(shù)，z∈R；

對(duì)于梯度下降法，對(duì)應(yīng)的Powerball迭代公式為：

對(duì)于牛頓法，對(duì)應(yīng)的Powerball迭代公式為：

X(k+1)＝X(k)-(▽²f(X(k)))^-1σ_γ(▽f(X(k)))；

對(duì)于L-BFGS方法，對(duì)應(yīng)的Powerball迭代公式為：

其中，是目標(biāo)函數(shù)的Hesse矩陣的逼近矩陣，因此與Hesse矩陣有相同的維數(shù)；S_k＝X(k+1)-X(k)，是與X(k)有相同的維數(shù)的向量；Y_k＝▽f(X(k+1))-▽f(X(k))，即

這里，B_k是目標(biāo)函數(shù)Hesse矩陣的逼近矩陣，與Hesse矩陣有相同維數(shù)；

式中，▽f(X)為目標(biāo)函數(shù)f(X)的梯度；▽²f(X)為目標(biāo)函數(shù)f(X)的Hesse矩陣；k是迭代次數(shù)，取值為0，1，2……，α_k為第k次迭代時(shí)的步長(zhǎng)，X(k)為第k次迭代得到的逼近值；當(dāng)k＝0時(shí)，B_k初值取為單位矩陣，X(k)的初值可任意選??；σ_γ(·):R→R為Powerball函數(shù)σ_γ對(duì)目標(biāo)函數(shù)梯度的非線性變換即Powerball變換，對(duì)任意的向量X＝(x₁,...,x_n)^T，經(jīng)Powerball函數(shù)σ_γ的非線性變換，成為σ_γ(X)＝(σ_γ(x₁),...,σ_γ(x_n))^T；

(4)判斷收斂性，具體判斷方法如下：

當(dāng)目標(biāo)函數(shù)是強(qiáng)凸函數(shù)，且其梯度滿足L-Lipschitz條件，即滿足利普希茨條件，且其利普希茨系數(shù)為L(zhǎng)時(shí)，則判別迭代次數(shù)是否大于N；是則迭代結(jié)束，輸出最優(yōu)值X(k+1)；否則繼續(xù)迭代；

當(dāng)目標(biāo)函數(shù)不是強(qiáng)凸函數(shù)，或其梯度不滿足L-Lipschitz條件時(shí)，則判斷||X(k+1)-X(k)||＜ε是否成立，是則迭代結(jié)束，輸出最優(yōu)值X(k+1)；否則繼續(xù)迭代；ε為誤差精度，根據(jù)精度要求和計(jì)算量權(quán)衡；

其中，N為預(yù)設(shè)的迭代次數(shù)上限。

進(jìn)一步的，所述步驟(4)中的L-Lipschitz條件為：

對(duì)任意X,Y∈Rⁿ，函數(shù)f(X)滿足下式：

||▽f(Y)-▽f(X)||≤L||Y-X||；||·||表示向量的任意范數(shù)，L＞0為L(zhǎng)ipschitz常數(shù)，選取為目標(biāo)函數(shù)梯度的范數(shù)的一個(gè)上界；

所述強(qiáng)凸函數(shù)是指函數(shù)f(X)對(duì)任意X∈Rⁿ，

是凸函數(shù)；

上式中，||·||₂則表示取2-范數(shù)；為向量X二范數(shù)的平方，m為大于零的常數(shù)。

進(jìn)一步的，所述步驟(4)中，可以最少的迭代次數(shù)得到最優(yōu)值X(k)；其中為李雅普諾夫Lyapunov函數(shù)；

進(jìn)一步的，所述步驟(3)中，所述Power系數(shù)γ∈(0,1)取值大小，根據(jù)誤差精度ε確定；誤差精度ε越大，γ的取值越小，算法的收斂速度越快；

進(jìn)一步的，所述γ根據(jù)迭代次數(shù)自適應(yīng)方式選擇：

其中γ₀，γ₁分別為γ的初值和終值，其取值方式為初值γ₀越接近0越好，終值γ₁越靠近1越好，優(yōu)化值取γ₀＝0.1，γ₁＝0.9，N為迭代次數(shù)上限；初始迭代和后期迭代具有較快的收斂速度。

進(jìn)一步的，所述步驟(3)迭代方法如下：

(1)對(duì)于一位One-bit梯度下降法，令Powerball函數(shù)σ_γ(z)＝sign(z)|z|^γ中取γ＝0；此時(shí)σ_γ(z)＝sign(z)，z∈R，迭代公式為：

此時(shí)，在梯度計(jì)算時(shí)僅需要每個(gè)元素的符號(hào)，大大降低了數(shù)據(jù)轉(zhuǎn)換時(shí)對(duì)通信寬帶的要求，從而降低了對(duì)強(qiáng)凸函數(shù)最優(yōu)化的通信成本；

(2)在將大數(shù)據(jù)分析問(wèn)題轉(zhuǎn)化為求解優(yōu)化問(wèn)題時(shí)，目標(biāo)函數(shù)有時(shí)會(huì)是一些函數(shù)的和的形式，如下所示

其中f_i(X)，j＝1,2,…,l為滿足L-Lipschitz梯度的、二階連續(xù)可微的強(qiáng)凸函數(shù)，那么此時(shí)考慮對(duì)于隨機(jī)變量的Powerball方法，建立Powerball迭代公式如下；

其中是每一次迭代時(shí)隨機(jī)選取的。

進(jìn)一步的，所述步驟(4)中，m選為目標(biāo)函數(shù)的Hesse矩陣的最小特征值的絕對(duì)值。

關(guān)于Lipschitz條件，只要給了一個(gè)函數(shù)滿足Lipschitz條件，就可以取到Lipschitz常數(shù)L。L>0為L(zhǎng)ipschitz常數(shù)，通常選取為目標(biāo)函數(shù)梯度的范數(shù)的一個(gè)上界。

與現(xiàn)有技術(shù)相比，本發(fā)明針對(duì)大數(shù)據(jù)分析中提高數(shù)據(jù)分析速度和數(shù)據(jù)分析質(zhì)量的數(shù)據(jù)處理技術(shù)，著重解決在求解與大數(shù)據(jù)相關(guān)的一些優(yōu)化問(wèn)題的過(guò)程中算法的收斂速率的提升問(wèn)題，考慮尋找目標(biāo)函數(shù)的最小值，對(duì)給定的初值應(yīng)用迭代方法求解。通過(guò)在優(yōu)化算法中引入關(guān)于梯度項(xiàng)的非線性的Powerball函數(shù)，構(gòu)造Powerball迭代式。由于Powerball迭代方法的初始迭代收斂速度快，在大數(shù)據(jù)應(yīng)用背景下，受有效的計(jì)算資源的限制，優(yōu)化算法的初始迭代效率就尤為重要，Powerball方法是提高大數(shù)據(jù)優(yōu)化處理質(zhì)量的有效方法。對(duì)于傳統(tǒng)的優(yōu)化算法，隨著數(shù)據(jù)量的增大，優(yōu)化算法往往不能得到其最后收斂。本發(fā)明利用了算法在有限迭代步內(nèi)收斂的策略，在原優(yōu)化過(guò)程中中增加一個(gè)關(guān)于梯度項(xiàng)的含有動(dòng)力系數(shù)的非線性函數(shù)，在迭代過(guò)程中可選該動(dòng)力系數(shù)為某確定的常數(shù)也可以根據(jù)實(shí)際情況選取為隨迭代次數(shù)變化的變參數(shù)，不僅實(shí)現(xiàn)了在有限迭代次數(shù)內(nèi)達(dá)到快速收斂的效果，并給出了具體的迭代次數(shù)上限，提高了算法的收斂速率，避免了現(xiàn)有算法不可預(yù)測(cè)計(jì)算時(shí)間和計(jì)算量的問(wèn)題。同時(shí)，通過(guò)對(duì)其他標(biāo)準(zhǔn)方法進(jìn)行變形得到的Powerball方法，例如隨機(jī)梯度Powerball方法、L-BFGS Powerball方法等。具有收斂速度快、運(yùn)行時(shí)間短等優(yōu)點(diǎn)，可以很好的解決數(shù)據(jù)分析的速度和質(zhì)量。

附圖說(shuō)明

圖1為本發(fā)明提高收斂速率的優(yōu)化算法方法的流程示意圖；

圖2為給定誤差精度ε時(shí)Power系數(shù)γ最優(yōu)取值；

圖3為運(yùn)用梯度Powerball方法(γ＜1)和梯度法(γ＝1)求解實(shí)例中三個(gè)數(shù)據(jù)集的優(yōu)化問(wèn)題結(jié)果示意圖；

圖4為運(yùn)用L-BGFS Powerball方法(γ＜1)和L-BGFS(γ＝1)求解實(shí)例中三個(gè)數(shù)據(jù)集的優(yōu)化問(wèn)題結(jié)果示意圖。

具體實(shí)施方式

下面結(jié)合說(shuō)明書附圖和具體實(shí)施例，對(duì)本發(fā)明做進(jìn)一步闡述。

以下具體實(shí)施方式為本發(fā)明在大數(shù)據(jù)處理方面的一個(gè)具體實(shí)例，并不用以限定本發(fā)明的使用范圍，凡是可以轉(zhuǎn)化為優(yōu)化問(wèn)題的具體案例，都可以采用本方法。先根據(jù)上述發(fā)明內(nèi)容中所述驗(yàn)證收斂性；若收斂則可以采用本方法進(jìn)行求。

(1)該實(shí)例為數(shù)據(jù)處理的非直接優(yōu)化問(wèn)題，根據(jù)圖1所述，運(yùn)用二階可微的Logistic回歸的-正則化函數(shù)作為目標(biāo)函數(shù)，根據(jù)給定的數(shù)據(jù)對(duì) 本問(wèn)題的目標(biāo)是求解如下最小值問(wèn)題：

此時(shí)，記它的梯度滿足Lipschitz條件，也是二次可微的，則有求解問(wèn)題即且易知f(w)為強(qiáng)凸函數(shù)，其中w為滿足一定條件的參數(shù)向量，例如滿足某正態(tài)分布。

實(shí)施例1中選取三個(gè)數(shù)據(jù)集，利用式(1.4)對(duì)數(shù)據(jù)集進(jìn)行正則化，其中分別選取其中的對(duì)數(shù)據(jù)集KDD10和CTR選取λ＝1，對(duì)數(shù)據(jù)集RCV1選取λ＝0，可得如下表1所示的標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集分類：

表1

其中，RCV1是路透社新聞分類數(shù)據(jù)集，路透社是世界前三大的多媒體新聞通訊社，提供各類新聞和金融數(shù)據(jù)。那么可以利用其所收集到的數(shù)據(jù)進(jìn)行分析，例如通過(guò)分析各類新聞數(shù)據(jù)，可以準(zhǔn)確、及時(shí)、高效地對(duì)新聞進(jìn)行分類和發(fā)布，提高新聞的發(fā)布的及時(shí)性和高效性。KDD10是從2010年國(guó)際知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘競(jìng)賽中選取的數(shù)據(jù)，國(guó)際知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘競(jìng)賽是目前數(shù)據(jù)挖掘領(lǐng)域最有影響力的賽事。該比賽同時(shí)面向企業(yè)界和學(xué)術(shù)界，云集了世界數(shù)據(jù)挖掘界的頂尖專家、學(xué)者、工程師、學(xué)生等參加，通過(guò)競(jìng) 賽，為數(shù)據(jù)挖掘從業(yè)者們提供了一個(gè)學(xué)術(shù)交流和研究成果展示的理想場(chǎng)所。歷年的比賽題取自不同的挖掘領(lǐng)域，并都有很強(qiáng)的應(yīng)用背景。CTR是對(duì)廣告點(diǎn)擊率數(shù)據(jù)進(jìn)行采樣所得到的集合，廣告點(diǎn)擊率預(yù)估在精準(zhǔn)廣告投放過(guò)程中扮演了很重要的角色，預(yù)估的準(zhǔn)確性對(duì)廣告主的收益、廣告商的收益以及用戶的友好體驗(yàn)有著重大的影響，因此受到互聯(lián)網(wǎng)企業(yè)的廣泛關(guān)注。

(2)由給定的初值出發(fā)，這里該初值是隨機(jī)選取，根據(jù)如下經(jīng)典的梯度下降法，得到求解(1)中的優(yōu)化問(wèn)題的迭代公式

在上式中引入Powerball函數(shù)σ_γ(z)＝sign(z)|z|^γ，得到如下梯度Powerball方法，

并取分別選取γ的值為1、0.7、0.4、0.1，其中當(dāng)γ＝1時(shí)，即為原迭代公式本身，進(jìn)行迭代求解(1)中的優(yōu)化問(wèn)題。在求解過(guò)程中，首先，運(yùn)用標(biāo)準(zhǔn)的回溯線性搜索法選取步長(zhǎng)；其次，由于w為參數(shù)向量，當(dāng)k＝0時(shí)隨機(jī)的選取加權(quán)系數(shù)w的初值w₀，初始向量w₀中的分量可選為服從正態(tài)分布N(0,0.01)的隨機(jī)變量；最后，反復(fù)試驗(yàn)10次并取實(shí)驗(yàn)結(jié)果的均值作為最終的試驗(yàn)結(jié)果；得到結(jié)果如圖3所示，其中左側(cè)圖對(duì)應(yīng)的數(shù)據(jù)集為RCV1，中間圖對(duì)應(yīng)的數(shù)據(jù)集為KDD10，右側(cè)圖對(duì)應(yīng)的數(shù)據(jù)集為CTR。給定誤差精度ε＝10^-3時(shí)，改變?chǔ)玫娜≈担绂梅謩e取1、0.7、0.4、0.1，其中γ＝1時(shí)，為標(biāo)準(zhǔn)的梯度法。由圖3可知，引入非線性系數(shù)的Powerball方法加快了傳統(tǒng)方法的收斂速度；且當(dāng)γ越小時(shí)，Powerball算法的收斂速度越快；

(3)同樣的由任意給定的初值出發(fā)，選取如下L-BFGS方法

其中，B_kS_k＝Y(jié)_k S_k＝w(k+1)-w(k)，Y_k＝▽f(w(k+1))-▽f(w(k))，H_k+1＝H_k+ΔH_k。在上式中引入Powerball函數(shù)，得到如下對(duì)應(yīng)的L-BFGS Powerball方法

其中

采用上述方法對(duì)(1)中的優(yōu)化問(wèn)題進(jìn)行迭代求解。在求解過(guò)程中，首先，運(yùn)用標(biāo)準(zhǔn)的回溯線性搜索法選取步長(zhǎng)；其次，根據(jù)正態(tài)分布N(0,0.01)對(duì)加權(quán)系數(shù)w進(jìn)行初始化；最后，反復(fù)試驗(yàn)10次并取實(shí)驗(yàn)結(jié)果的均值作為最終的試驗(yàn)結(jié)果；得到結(jié)果如圖4所示，其中左側(cè)圖對(duì)應(yīng)的數(shù)據(jù)集為RCV1，中間圖對(duì)應(yīng)的數(shù)據(jù)集為News20，右側(cè)圖對(duì)應(yīng)的數(shù)據(jù)集為CTR。給定誤差精度ε＝10^-3時(shí)，改變?chǔ)玫娜≈?，例如γ分別取1、0.7、0.4、0.1，其中γ＝1時(shí)，為標(biāo)準(zhǔn)的L-BFGS法。由圖4可知，引入非線性系數(shù)的Powerball方法加快了傳統(tǒng)方法的收斂速度；且當(dāng)γ越小時(shí)，Powerball算法的收斂速度越快。

可見，本發(fā)明提出的方法能在有限迭代次數(shù)內(nèi)，實(shí)現(xiàn)較快的收斂，這在大數(shù)據(jù)處理中具有較強(qiáng)的優(yōu)勢(shì)。另一方面，本方法能提前設(shè)定符合精度要求的迭代次數(shù)，可以節(jié)省運(yùn)行時(shí)間、節(jié)約存儲(chǔ)空間。

本領(lǐng)域的技術(shù)人員容易理解，以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：袁燁
技術(shù)所有人：華中科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

數(shù)據(jù)質(zhì)量管理系統(tǒng)相關(guān)技術(shù)

質(zhì)量數(shù)據(jù)分析軟件相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種提高大數(shù)據(jù)處理質(zhì)量的方法與流程