本發(fā)明涉及計算機視覺領(lǐng)域,特別涉及一種神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法及裝置。
背景技術(shù):
近幾年來,深度神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域的各類應(yīng)用中取得了巨大的成功,如圖像分類、目標(biāo)檢測、圖像分割等。但深度神經(jīng)網(wǎng)絡(luò)的模型往往包含大量的模型參數(shù),計算量大、處理速度慢,無法在一些低功耗、低計算能力的設(shè)備(如嵌入式設(shè)備、集成設(shè)備等)上進行實時計算。
基于前述問題,最近提出了很多深度神經(jīng)網(wǎng)絡(luò)加速算法,如網(wǎng)絡(luò)剪枝、網(wǎng)絡(luò)權(quán)重量化以及網(wǎng)絡(luò)知識蒸餾等方法。
除了基于神經(jīng)元的網(wǎng)絡(luò)剪枝外,其他網(wǎng)絡(luò)剪枝方法、網(wǎng)絡(luò)權(quán)重量化方法雖然能夠有效地減少神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),但并不能利用現(xiàn)有的深度學(xué)習(xí)框架以及設(shè)備進行加速。而網(wǎng)絡(luò)知識蒸餾方法由于其利用性能優(yōu)良的教師網(wǎng)絡(luò)(即teachernetwork,教師網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)量大、性能優(yōu)良、計算速度慢)提供的額外信息直接訓(xùn)練計算速度快但性能較差的學(xué)生網(wǎng)絡(luò)(即studentnetwork,學(xué)生網(wǎng)絡(luò)計算速度快、性能較差、網(wǎng)絡(luò)參數(shù)量小),能夠直接利用現(xiàn)有框架取得實際加速效果,因此知識蒸餾方法成為目前較為常用的網(wǎng)絡(luò)加速方法。
目前網(wǎng)絡(luò)知識蒸餾方法主要包括三種,分別是2014年hinton等人發(fā)表的論文“distillingtheknowledgeinaneuralnetwork”中提出的knowledgedistill(簡稱kd)方法,2015年romero等人發(fā)表的論文“fitnets:hintsforthindeepnets”提出的fitnets,以及2016年sergey發(fā)表的論文“payingmoreattentiontoattention:improvingtheperformanceofconvolutionalneuralnetworksviaattentiontransfer”提出的attentiontransfer(簡稱at)方法。
將教師網(wǎng)絡(luò)用t表示,學(xué)生網(wǎng)絡(luò)用s表示。在kd中,學(xué)生網(wǎng)絡(luò)的目標(biāo)函數(shù)如公式(1)所示:
式(1)中,
由于上式(1)的第二項kd采用了教師網(wǎng)絡(luò)輸出概率的分布來指導(dǎo)學(xué)生網(wǎng)絡(luò),在分類問題上能夠有效的提高學(xué)生網(wǎng)絡(luò)的性能。
與kd不同,fitnet采用了匹配中間特征的方法來將教師網(wǎng)絡(luò)的知識遷移到學(xué)生網(wǎng)絡(luò)中,學(xué)生網(wǎng)絡(luò)的目標(biāo)函數(shù)如以下公式(2)所示:
式(2)中,
fitnet通過匹配教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的中間層特征,將教師網(wǎng)絡(luò)中間層特征的特定知識遷移到學(xué)生網(wǎng)絡(luò),從而提升學(xué)生網(wǎng)絡(luò)的性能。
at與fitnet的方案原理較為相似,at交教師網(wǎng)絡(luò)中的注意力圖(即attentionmap)的知識遷移到學(xué)生網(wǎng)絡(luò)以提高學(xué)生網(wǎng)絡(luò)的性能,學(xué)生網(wǎng)絡(luò)的目標(biāo)函數(shù)如以下公式(3)所示:
式(3)中,
式(4)中,
現(xiàn)有技術(shù)存在的技術(shù)缺陷為:kd只能應(yīng)用于擁有softmax層的分類任務(wù)中而無法適用于回歸任務(wù),而且在類別數(shù)較少時其提供給學(xué)生網(wǎng)絡(luò)的指導(dǎo)信息較弱。fitnet直接匹配中間層特征的約束太過嚴格,使得無法與kd等其他方法有效地結(jié)合來訓(xùn)練得到性能優(yōu)良的學(xué)生網(wǎng)絡(luò)。at訓(xùn)練得到的學(xué)生網(wǎng)絡(luò)性能較差。綜上所述,采用現(xiàn)有的知識遷移方式訓(xùn)練得到的學(xué)生網(wǎng)絡(luò)無法兼顧較大適用范圍與精確性。
相關(guān)術(shù)語解釋:
教師網(wǎng)絡(luò)(teachernetwork):知識遷移過程中用以為學(xué)生網(wǎng)絡(luò)提供更加準確的監(jiān)督信息的高性能神經(jīng)網(wǎng)絡(luò)。
學(xué)生網(wǎng)絡(luò)(studentnetwork):計算速度快但性能較差的適合部署到對實時性要求較高的實際應(yīng)用場景中的單個神經(jīng)網(wǎng)絡(luò),學(xué)生網(wǎng)絡(luò)相比于教師網(wǎng)絡(luò),具有更大的運算吞吐量和更少的模型參數(shù)。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法及裝置,以解決現(xiàn)有知識遷移方式訓(xùn)練得到的學(xué)生網(wǎng)絡(luò)無法兼顧較大適用范圍與精確性的技術(shù)問題。
本發(fā)明實施例,一方面提供一種神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,該方法包括:
選取一個與學(xué)生網(wǎng)絡(luò)實現(xiàn)相同功能的教師網(wǎng)絡(luò);
基于匹配同一訓(xùn)練樣本數(shù)據(jù)對應(yīng)的第一中間層特征與第二中間層特征的分布來迭代訓(xùn)練所述學(xué)生網(wǎng)絡(luò)得到目標(biāo)網(wǎng)絡(luò),以實現(xiàn)將所述教師網(wǎng)絡(luò)的中間層特征的知識遷移到所述學(xué)生網(wǎng)絡(luò),其中:所述第一中間層特征為所述訓(xùn)練樣本數(shù)據(jù)輸入教師網(wǎng)絡(luò)后從教師網(wǎng)絡(luò)的第一特定網(wǎng)絡(luò)層輸出的特征圖,所述第二中間層特征為所述訓(xùn)練樣本數(shù)據(jù)輸入學(xué)生網(wǎng)絡(luò)后從學(xué)生網(wǎng)絡(luò)的第二特定網(wǎng)絡(luò)層輸出的特征圖。
本發(fā)明實施例,另一方面提供一種神經(jīng)網(wǎng)絡(luò)訓(xùn)練裝置,該裝置包括:
選取單元,用于選取一個與學(xué)生網(wǎng)絡(luò)實現(xiàn)相同功能的教師網(wǎng)絡(luò);
訓(xùn)練單元,用于基于匹配同一訓(xùn)練樣本數(shù)據(jù)對應(yīng)的第一中間層特征與第二中間層特征的分布來迭代訓(xùn)練所述學(xué)生網(wǎng)絡(luò)得到目標(biāo)網(wǎng)絡(luò),以實現(xiàn)將所述教師網(wǎng)絡(luò)的中間層特征的知識遷移到所述學(xué)生網(wǎng)絡(luò),其中:所述第一中間層特征為所述訓(xùn)練樣本數(shù)據(jù)輸入教師網(wǎng)絡(luò)后從教師網(wǎng)絡(luò)的第一特定網(wǎng)絡(luò)層輸出的特征圖,所述第二中間層特征為所述訓(xùn)練樣本數(shù)據(jù)輸入學(xué)生網(wǎng)絡(luò)后從學(xué)生網(wǎng)絡(luò)的第二特定網(wǎng)絡(luò)層輸出的特征圖。
本發(fā)明實施例提供的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方案,一方面,匹配教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的中間層特征,因此訓(xùn)練得到的學(xué)生網(wǎng)絡(luò)的適用范圍更廣,不局限于分類模型還可適用于回歸模型;另一方面,匹配教師網(wǎng)絡(luò)的中間層特征與學(xué)生網(wǎng)絡(luò)的中間層特征的分布,與現(xiàn)有技術(shù)直接匹配中間層所有特征的方式相比約束不嚴格,可以與其他方法有效結(jié)合來進一步提高學(xué)生網(wǎng)絡(luò)的性能,從而提高學(xué)生網(wǎng)絡(luò)的準確性。
附圖說明
附圖用來提供對本發(fā)明的進一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。
圖1為本發(fā)明實施例中神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法的流程圖;
圖2為本發(fā)明實施例中對學(xué)生網(wǎng)絡(luò)進行迭代訓(xùn)練得到目標(biāo)網(wǎng)絡(luò)的流程圖;
圖3為本發(fā)明實施例中神經(jīng)網(wǎng)絡(luò)訓(xùn)練裝置的結(jié)構(gòu)示意圖;
圖4為本發(fā)明實施例中訓(xùn)練單元的結(jié)構(gòu)示意圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護的范圍。
實施例一
參見圖1,為本發(fā)明實施例中神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法的流程圖,該方法包括:
步驟101、選取一個與學(xué)生網(wǎng)絡(luò)實現(xiàn)相同功能的教師網(wǎng)絡(luò)。
實現(xiàn)的功能如圖像分類、目標(biāo)檢測、圖像分割等。教師網(wǎng)絡(luò)性能優(yōu)良、準確率高,但是相對學(xué)生網(wǎng)絡(luò)其結(jié)構(gòu)復(fù)雜、參數(shù)權(quán)重較多、計算速度較慢。學(xué)生網(wǎng)絡(luò)計算速度快、性能一般或者較差、網(wǎng)絡(luò)結(jié)構(gòu)簡單??梢栽陬A(yù)先設(shè)置的神經(jīng)網(wǎng)絡(luò)模型的集合中選取一個與學(xué)生網(wǎng)絡(luò)實現(xiàn)的功能相同且性能優(yōu)良的網(wǎng)絡(luò)作為教師網(wǎng)絡(luò)。
步驟102、基于匹配同一訓(xùn)練樣本數(shù)據(jù)對應(yīng)的第一中間層特征與第二中間層特征的分布來迭代訓(xùn)練所述學(xué)生網(wǎng)絡(luò)得到目標(biāo)網(wǎng)絡(luò),以實現(xiàn)將所述教師網(wǎng)絡(luò)的中間層特征的知識遷移到所述學(xué)生網(wǎng)絡(luò)。
其中:所述第一中間層特征為所述訓(xùn)練樣本數(shù)據(jù)輸入教師網(wǎng)絡(luò)后從教師網(wǎng)絡(luò)的第一特定網(wǎng)絡(luò)層輸出的特征圖,所述第二中間層特征為所述訓(xùn)練樣本數(shù)據(jù)輸入學(xué)生網(wǎng)絡(luò)后從學(xué)生網(wǎng)絡(luò)的第二特定網(wǎng)絡(luò)層輸出的特征圖。
本發(fā)明實施例中,將訓(xùn)練樣本數(shù)據(jù)輸入教師網(wǎng)絡(luò)后,從教師網(wǎng)絡(luò)的第一特定網(wǎng)絡(luò)層輸出的特征圖統(tǒng)稱為第一中間層特征;將訓(xùn)練樣本數(shù)據(jù)輸入學(xué)生網(wǎng)絡(luò)后,從學(xué)生網(wǎng)絡(luò)的第二特定網(wǎng)絡(luò)層輸出的特征圖統(tǒng)稱為第二中間層特征。
優(yōu)選地,本發(fā)明實施例中第一特定網(wǎng)絡(luò)層為所述教師網(wǎng)絡(luò)中的一個中間網(wǎng)絡(luò)層或者為最后一個網(wǎng)絡(luò)層。
優(yōu)選地,本發(fā)明實施例中第二特定網(wǎng)絡(luò)層為所述學(xué)生網(wǎng)絡(luò)中的一個中間網(wǎng)絡(luò)層或者為最后一個網(wǎng)絡(luò)層。
優(yōu)選地,前述步驟102,具體可通過如圖2所示的方法實現(xiàn),該方法包括:
步驟102a、構(gòu)建所述學(xué)生網(wǎng)絡(luò)的目標(biāo)函數(shù),所述目標(biāo)函數(shù)包含任務(wù)損失函數(shù)和距離損失函數(shù),其中距離損失函數(shù)為用于衡量同一訓(xùn)練樣本數(shù)據(jù)對應(yīng)的第一中間層特征和第二中間層特征的分布距離的函數(shù)。
本發(fā)明實施例中,任務(wù)損失函數(shù)的表達式與學(xué)生網(wǎng)絡(luò)所要實現(xiàn)的任務(wù)相關(guān),例如學(xué)生網(wǎng)絡(luò)實現(xiàn)的任務(wù)為分類任務(wù)時,則任務(wù)損失函數(shù)的表達式為交叉熵損失函數(shù);還例如學(xué)生網(wǎng)絡(luò)實現(xiàn)的任務(wù)為回歸任務(wù)時,則任務(wù)損失函數(shù)的表達式為距離損失函數(shù)。
步驟102b、采用所述訓(xùn)練樣本數(shù)據(jù)對所述學(xué)生網(wǎng)絡(luò)進行迭代訓(xùn)練。
步驟102c、當(dāng)?shù)?xùn)練次數(shù)達到閾值或者所述目標(biāo)函數(shù)滿足預(yù)置的收斂條件時,得到所述目標(biāo)網(wǎng)絡(luò)。
優(yōu)選地,本發(fā)明實施例中,步驟102b中,每一次迭代訓(xùn)練用到的訓(xùn)練樣本數(shù)據(jù)不同,所述步驟102b具體實現(xiàn)可如下:
對所述學(xué)生網(wǎng)絡(luò)進行多次以下的迭代訓(xùn)練(以下稱為本次迭代訓(xùn)練,將用于本次迭代訓(xùn)練的訓(xùn)練樣本數(shù)據(jù)稱為當(dāng)前訓(xùn)練樣本數(shù)據(jù),本次迭代訓(xùn)練包括以下步驟a、步驟b和步驟c):
步驟a、將當(dāng)前訓(xùn)練樣本數(shù)據(jù)分別輸入所述教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò),得到當(dāng)前訓(xùn)練樣本數(shù)據(jù)對應(yīng)的第一中間層特征和第二中間層特征;
步驟b、根據(jù)所述當(dāng)前訓(xùn)練樣本數(shù)據(jù)及其對應(yīng)的第一中間層特征和第二中間層特征,計算所述目標(biāo)函數(shù)的取值,并根據(jù)所述目標(biāo)函數(shù)的取值調(diào)整所述學(xué)生網(wǎng)絡(luò)的權(quán)重;
步驟c、基于調(diào)整權(quán)重后的學(xué)生網(wǎng)絡(luò)進行下一次迭代訓(xùn)練。
優(yōu)選地,在前述步驟b中,根據(jù)所述目標(biāo)函數(shù)的取值調(diào)整所述學(xué)生網(wǎng)絡(luò)的權(quán)重,具體實現(xiàn)可如下:采用梯度下降優(yōu)化算法根據(jù)所述目標(biāo)函數(shù)的取值調(diào)整所述學(xué)生網(wǎng)絡(luò)的權(quán)重。
優(yōu)選地,在一個具體實例中,所述學(xué)生網(wǎng)絡(luò)的目標(biāo)函數(shù)可如下公式(5):
式(5)中,
優(yōu)選地,在前述步驟a與步驟b之間還包括:判斷ft與fs的高是否相同,若不相同則將兩者之中取值較大的高作為前述h;以及判斷ft與fs的寬是否相同,若不相同則將兩者之中取值較大的寬作為前述w;采用預(yù)置的插值算法將ft與fs的尺寸調(diào)整為h與w。
優(yōu)選地,本發(fā)明實施例中目標(biāo)函數(shù)中的
式(6)中,k(·,·)為預(yù)置的核函數(shù),ct為ft的通道數(shù),cs為fs的通道數(shù),
優(yōu)選地,所述k(·,·)為預(yù)置的線性核函數(shù)、多項式核函數(shù)、高斯核函數(shù)或者多個高斯核函數(shù)的組合等,本申請不做嚴格限定,本領(lǐng)域技術(shù)人員可以根據(jù)實際需要進行靈活設(shè)置。
具體實例如下:k(·,·)為下式(7)所示的線性核函數(shù);還或者k(·,·)為下式(8)所示的多項式核函數(shù);還或者k(·,·)為下式(9)所示的高斯核函數(shù)。
k(x,y)=xty式(7)
k(x,y)=(xty+c)d式(8)
實施例二
基于前述實施例一提供的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法的相同構(gòu)思,本發(fā)明實施例二還提供一種神經(jīng)網(wǎng)絡(luò)訓(xùn)練裝置,該裝置的結(jié)構(gòu)如圖3所述,包括選取單元31和訓(xùn)練單元32,其中:
選取單元31,用于選取一個與學(xué)生網(wǎng)絡(luò)實現(xiàn)相同功能的教師網(wǎng)絡(luò)。
實現(xiàn)的功能如圖像分類、目標(biāo)檢測、圖像分割等。教師網(wǎng)絡(luò)性能優(yōu)良、準確率高,但是相對學(xué)生網(wǎng)絡(luò)其結(jié)構(gòu)復(fù)雜、參數(shù)權(quán)重較多、計算速度較慢。學(xué)生網(wǎng)絡(luò)計算速度快、性能一般或者較差、網(wǎng)絡(luò)結(jié)構(gòu)簡單。可以在預(yù)先設(shè)置的神經(jīng)網(wǎng)絡(luò)模型的集合中選取一個與學(xué)生網(wǎng)絡(luò)實現(xiàn)的功能相同且性能優(yōu)良的網(wǎng)絡(luò)作為教師網(wǎng)絡(luò)。
本發(fā)明實施例中,將訓(xùn)練樣本數(shù)據(jù)輸入教師網(wǎng)絡(luò)后,從教師網(wǎng)絡(luò)的第一特定網(wǎng)絡(luò)層輸出的特征圖統(tǒng)稱為第一中間層特征;將訓(xùn)練樣本數(shù)據(jù)輸入學(xué)生網(wǎng)絡(luò)后,從學(xué)生網(wǎng)絡(luò)的第二特定網(wǎng)絡(luò)層輸出的特征圖統(tǒng)稱為第二中間層特征。
訓(xùn)練單元32,用于基于匹配同一訓(xùn)練樣本數(shù)據(jù)對應(yīng)的第一中間層特征與第二中間層特征的分布來迭代訓(xùn)練所述學(xué)生網(wǎng)絡(luò)得到目標(biāo)網(wǎng)絡(luò),以實現(xiàn)將所述教師網(wǎng)絡(luò)的中間層特征的知識遷移到所述學(xué)生網(wǎng)絡(luò),其中:所述第一中間層特征為所述訓(xùn)練樣本數(shù)據(jù)輸入教師網(wǎng)絡(luò)后從教師網(wǎng)絡(luò)的第一特定網(wǎng)絡(luò)層輸出的特征圖,所述第二中間層特征為所述訓(xùn)練樣本數(shù)據(jù)輸入學(xué)生網(wǎng)絡(luò)后從學(xué)生網(wǎng)絡(luò)的第二特定網(wǎng)絡(luò)層輸出的特征圖。
優(yōu)選地,第一特定網(wǎng)絡(luò)層為所述教師網(wǎng)絡(luò)中的一個中間網(wǎng)絡(luò)層或最后一個網(wǎng)絡(luò)層;和/或,所述第二特定網(wǎng)絡(luò)層為所述學(xué)生網(wǎng)絡(luò)中的一個中間網(wǎng)絡(luò)層或最后一個網(wǎng)絡(luò)層。
優(yōu)選地,訓(xùn)練單元32的結(jié)構(gòu)如圖4所示,包括構(gòu)建模塊321、訓(xùn)練模塊322和確定模塊323,其中:
構(gòu)建模塊321,用于構(gòu)建所述學(xué)生網(wǎng)絡(luò)的目標(biāo)函數(shù),所述目標(biāo)函數(shù)包含任務(wù)損失函數(shù)和用于衡量同一訓(xùn)練樣本數(shù)據(jù)對應(yīng)的第一中間層特征和第二中間層特征的分布距離的距離損失函數(shù);
本發(fā)明實施例中,任務(wù)損失函數(shù)的表達式與學(xué)生網(wǎng)絡(luò)所要實現(xiàn)的任務(wù)相關(guān),例如學(xué)生網(wǎng)絡(luò)實現(xiàn)的任務(wù)為分類任務(wù)時,則任務(wù)損失函數(shù)的表達式為交叉熵損失函數(shù);還例如學(xué)生網(wǎng)絡(luò)實現(xiàn)的任務(wù)為回歸任務(wù)時,則任務(wù)損失函數(shù)的表達式為距離損失函數(shù)。
訓(xùn)練模塊322,用于采用所述訓(xùn)練樣本數(shù)據(jù)對所述學(xué)生網(wǎng)絡(luò)進行迭代訓(xùn)練;
確定模塊323,用于當(dāng)?shù)?xùn)練模塊迭代訓(xùn)練次數(shù)達到閾值或者所述目標(biāo)函數(shù)滿足預(yù)置的收斂條件時,得到所述目標(biāo)網(wǎng)絡(luò)。
優(yōu)選地,所述訓(xùn)練模塊322具體用于:
對所述學(xué)生網(wǎng)絡(luò)進行多次以下的迭代訓(xùn)練(以下稱為本次迭代訓(xùn)練,將用于本次迭代訓(xùn)練的訓(xùn)練樣本數(shù)據(jù)稱為當(dāng)前訓(xùn)練樣本數(shù)據(jù),本次迭代訓(xùn)練包括以下步驟a、步驟b和步驟c):
步驟a、將用于本次迭代訓(xùn)練的當(dāng)前訓(xùn)練樣本數(shù)據(jù)分別輸入所述教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò),得到當(dāng)前訓(xùn)練樣本數(shù)據(jù)對應(yīng)的第一中間層特征和第二中間層特征;
步驟b、根據(jù)所述當(dāng)前訓(xùn)練樣本數(shù)據(jù)及其對應(yīng)的第一中間層特征和第二中間層特征,計算所述目標(biāo)函數(shù)的取值,并根據(jù)所述目標(biāo)函數(shù)的取值調(diào)整所述學(xué)生網(wǎng)絡(luò)的權(quán)重;
步驟c、基于調(diào)整權(quán)重后的學(xué)生網(wǎng)絡(luò)進行下一次迭代訓(xùn)練。
優(yōu)選地,在前述步驟b中,根據(jù)所述目標(biāo)函數(shù)的取值調(diào)整所述學(xué)生網(wǎng)絡(luò)的權(quán)重,具體實現(xiàn)可如下:采用梯度下降優(yōu)化算法根據(jù)所述目標(biāo)函數(shù)的取值調(diào)整所述學(xué)生網(wǎng)絡(luò)的權(quán)重。
優(yōu)選地,所述構(gòu)建模塊321構(gòu)建的目標(biāo)函數(shù)可如前述公式(5),距離損失函數(shù)的表達式可如前述公式(6),在此不在贅述。
本發(fā)明實施例提供的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方案,一方面,匹配教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的中間層特征,因此訓(xùn)練得到的學(xué)生網(wǎng)絡(luò)的適用范圍更廣,不局限于分類模型還可適用于回歸模型;另一方面,匹配教師網(wǎng)絡(luò)的中間層特征與學(xué)生網(wǎng)絡(luò)的中間層特征的分布,與現(xiàn)有技術(shù)直接匹配中間層所有特征的方式相比約束不嚴格,可以與其他方法有效結(jié)合來進一步提高學(xué)生網(wǎng)絡(luò)的性能,從而提高學(xué)生網(wǎng)絡(luò)的準確性。
以上是本發(fā)明的核心思想,為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實施例中的技術(shù)方案,并使本發(fā)明實施例的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖對本發(fā)明實施例中技術(shù)方案作進一步詳細的說明。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。