處的值V-0BJ ; W遞增的方式找到最小的與加權(quán)更新函數(shù)相關(guān)的系數(shù),使得V-0BJ小于V-LA0F與經(jīng)調(diào)整的 精度的加權(quán)和;更新輔助函數(shù)、x_t、y_t、加權(quán)更新函數(shù)的權(quán)重、v_t W及化C ;判斷迭代是否 收斂,如果收斂,則迭代結(jié)束,否則繼續(xù)進(jìn)行迭代。
[0034] 輸出單元106'與輸出單元106的配置相同,即被配置為在執(zhí)行完所有迭代之后, 輸出所有中間解x_t的加權(quán)平均作為最終解。
[0035] 可W證明,普適隨機(jī)梯度方法和快速普適隨機(jī)梯度方法都可W得到收斂,而快速 普適隨機(jī)梯度方法具有更快的收斂速度。
[0036] 在上文描述根據(jù)本發(fā)明的實(shí)施例的用于執(zhí)行隨機(jī)梯度下降的裝置的過程中,顯然 還公開了一些處理或方法。下文中,在不重復(fù)上文中已經(jīng)討論過的某些細(xì)節(jié)的情況下給出 送些方法的概述,但是,應(yīng)當(dāng)注意,雖然是在描述用于執(zhí)行隨機(jī)梯度下降的裝置的過程中公 開了送些方法,然而,送些方法并不一定采用上述送些部件,或者并不一定由送些部件來執(zhí) 行。例如,可W部分地或者完全地用硬件和/或固件來實(shí)現(xiàn)用于執(zhí)行隨機(jī)梯度下降的裝置 的實(shí)施方式,而W下討論的用于執(zhí)行隨機(jī)梯度下降的方法也可W完全用計(jì)算機(jī)可執(zhí)行的程 序來實(shí)現(xiàn),雖然送些方法也可W采用用于執(zhí)行隨機(jī)梯度下降的裝置的硬件和/或固件。
[0037] 在此需要說明的是,圖1和圖2所示的用于執(zhí)行隨機(jī)梯度下降的裝置100和100' 及其組成單元的結(jié)構(gòu)僅僅是示例性的,本領(lǐng)域技術(shù)人員可W根據(jù)需要對圖1和圖2所示的 結(jié)構(gòu)框圖進(jìn)行修改。
[003引圖3示出了根據(jù)本發(fā)明的一個實(shí)施例的用于執(zhí)行隨機(jī)梯度下降的方法300的流程 圖。
[0039] 在步驟S302中,初始化與目標(biāo)函數(shù)的平滑度信息有關(guān)的通用常量ULC和預(yù)定精度 ε 〇
[0040] 在一個實(shí)施例中,還要對中間解義_1進(jìn)行初始化得到χ_0,并且初始化化egmann距 離函數(shù)。
[0041] 在步驟S304中,隨機(jī)選取與訓(xùn)練集中的特定樣本相關(guān)的分量損失函數(shù)來進(jìn)行迭 代,W根據(jù)通用常量和預(yù)定精度更新每次迭代的中間解,使得中間解更接近真實(shí)解。
[0042] 在一個實(shí)施例中,迭代步驟進(jìn)一步包括:構(gòu)建與化egmann距離函數(shù)和所選取的分 量損失函數(shù)相關(guān)的目標(biāo)函數(shù)的線性逼近(Xinearized Approximation of the Objective 化nction (LAOF)),得到目標(biāo)函數(shù)的線性逼近在化egmann映射的值v-LAOF W及與分量損失 函數(shù)相關(guān)的目標(biāo)函數(shù)在化egmann映射的值V-0BJ ; W遞增的方式找到最小的與化egmann 映射相關(guān)聯(lián)的系數(shù),使得V-0BJ小于V-LA0F與精度的加權(quán)和;用化egmann映射來更新中間 解x_t,并用所找到的最小的系數(shù)更新通用常量;W及判斷迭代是否收斂,如果收斂,則迭 代結(jié)束,否則繼續(xù)進(jìn)行迭代。
[004引在步驟S306中,在執(zhí)行完所有迭代之后,輸出所有中間解x_t的加權(quán)平均作為最 終解。
[0044] 圖4示出了根據(jù)本發(fā)明的另一個實(shí)施例的用于執(zhí)行快速隨機(jī)梯度下降的方法400 的流程圖。
[0045] 在步驟S402中,初始化化C、精度ε (大于零)、中間解x_t (得到x_0)、參考解y_ t (得到y(tǒng)_〇)、W及基于化egmann距離的輔助函數(shù),其中x_0 = y_0。
[004引在步驟S404中,找到輔助函數(shù)的最小值,表示為v_t。
[0047] 在步驟S406中,隨機(jī)選取與訓(xùn)練集中的特定樣本相關(guān)的分量損失函數(shù)。
[0048] 在步驟S408中,構(gòu)建與所選取的分量損失函數(shù)相關(guān)的目標(biāo)函數(shù)的線性逼近 (LA0F),使用v_t和y_t來構(gòu)建x_t和y_t各自的加權(quán)更新函數(shù),并得到目標(biāo)函數(shù)的線性逼 近在y_t處的值V-LA0F和與分量損失函數(shù)相關(guān)的目標(biāo)函數(shù)在x_t處的值V-0BJ。
[0049] 在步驟S410中,W遞增的方式找到最小的與加權(quán)更新函數(shù)相關(guān)的系數(shù),使得 V-0BJ小于V-LA0F與經(jīng)調(diào)整的精度的加權(quán)和。
[0050] 在步驟S412中,更新輔助函數(shù)、x_t、y_t、加權(quán)更新函數(shù)的權(quán)重、v_t W及化C。
[0051] 在步驟S414中,判斷迭代是否收斂,如果收斂,則迭代結(jié)束,否則繼續(xù)進(jìn)行迭代。
[0052] 最后,在步驟S416中,在執(zhí)行完所有迭代之后,輸出所有中間解x_t的加權(quán)平均作 為最終解。
[0053] 下面給出根據(jù)本發(fā)明的實(shí)施例用于執(zhí)行隨機(jī)梯度下降的具體實(shí)例。本發(fā)明可W解 決如下形式的問題:
[0054]
[0055] 其中g(shù)_t(x)是與訓(xùn)練集中的樣本相關(guān)的、具有化elder連續(xù)梯度的凸損失函數(shù), 而h(x)是凸懲罰函數(shù)(或稱為正則函數(shù))。
[0056] 函數(shù)具有程度V的化elder連續(xù)梯度的意思是:
[0057]
[0058] 送里列出在下面的實(shí)例中要使用的一些定義:
[0061] 其中d(x)是prox-函數(shù),其是具有等于1的凸參數(shù)的、可微分強(qiáng)凸函數(shù),其最小值 是0。
[0065] 基于W上定義,根據(jù)本發(fā)明的一個實(shí)施例的普適隨機(jī)梯度方法可W用機(jī)器偽代碼 表不如下:
[006引輸入:L0〉0 W及ε〉0 (其中,L。為ULC的初始值,ε為精度)
[0067] 1 ;對于 t = 0, 1,…,Τ 執(zhí)行:
[0068] 2:隨機(jī)選取與訓(xùn)練集中的特定樣本相關(guān)的一個分量損失函數(shù)址t(x),其中 kt£ {0,1,···,Τ}
[006引 3 ;找到最小的0使得
[0070] 4 ;設(shè)置
[0071] 5 :t = t+1
[007? 6 :結(jié)束
[007引輸出
[0074] 根據(jù)本發(fā)明的另一個實(shí)施例的快速普適隨機(jī)梯度方法可W用機(jī)器偽代碼表達(dá)如 下:
[007引輸入;L0〉0,ε〉0 W及 φ0(χ) = S (X。,X),A0= 0, y。= X。(其中,L。為 ULC 的初 始值,ε為精度,0。00為基于化egmann距離的輔助函數(shù),X。為初始中間解,y。為初始參 考解)
[0076] 1 ;對于 t = 0, 1,…,T 執(zhí)行:
[0077] 2:隨機(jī)選取與訓(xùn)練集中的特定樣本相關(guān)的一個分量損失函數(shù)址t(x),其中 kt£ {0,1,···,Τ}
[007引 3 ;找到Vt= arg min χΦι(χ) (Vt是輔助函數(shù)的最小值)
[007引 4 ;找到最小的it > 0使鴉
[0080] 確保W下關(guān)系:
[008引可W證明,USGM方法需要
次迭代來達(dá)到隨機(jī)收斂ε : E[fg(yT)]-E[fg(x*)]
[0089] 而要達(dá)到隨機(jī)收斂ε,快速USGM方法只需要次迭代,因此快速USGM比 USGM具有更快的收斂速度。
[0090] 具體地,根據(jù)本發(fā)明的實(shí)施例的用于執(zhí)行隨機(jī)梯度下降的裝置和方法例如可W用 于解決Lasso問題和Steiner問題。
[0091] Lasso問題可W用下式描述:
[0092]
[009引其中,a" X E Rn*i, bt是一個標(biāo)量。如果用A = [a 1曰2…3τ],b =比山2…bi·],郝上 面的問題就變?yōu)?minimizel |Ax-b| |2+μ I |x| |i〇
[0094] Lasso問題可W用在很多方面,比如人臉識別、說話人識別等。
[0095] 在基于稀疏表示的人臉識別中,人臉的稀疏表示是基于光照模型。即一張人臉圖 像,可W用數(shù)據(jù)庫中同一個人所有的人臉圖像的線性組合表示。而對于數(shù)據(jù)庫中其它人的 臉,其線性組合的系數(shù)理論上為零。由于數(shù)據(jù)庫中一般有很多個不同的人臉的多張圖像,女口 果把數(shù)據(jù)庫中所有的圖像的線性組合來表示送張給定的測試人臉,其系數(shù)向量是稀疏的。 因?yàn)槌怂蛷埡屯粋€人的人臉的圖像組合系數(shù)不為零外,其它的系數(shù)都為零。用上面的 公式表示就是,其中A表示數(shù)據(jù)庫中很多個不同的人臉的多張圖像所組成的矩陣,b表示待 識別的未知人臉,X為b在A上的分解系數(shù)。求解W上優(yōu)化問題即得到分解的稀疏表示。
[0096] 對于說話人識別和上面的情況類似,不再賞述。
[0097] 利用根據(jù)本發(fā)明的實(shí)施例的用于執(zhí)行隨機(jī)梯度下降的裝置和方法來求解上面的 問題,可W不考慮目標(biāo)函數(shù)的光滑度信息。
[0098] 在連續(xù)Steiner問題中,已知中必CiE Rn, i = 1,. . .,m。找到服務(wù)中必X的優(yōu)化