本發(fā)明涉及神經(jīng)網(wǎng)絡架構搜索,具體涉及一種基于分層-反饋機制和teg引導的可微神經(jīng)架構搜索方法。
背景技術:
1、深度卷積神經(jīng)網(wǎng)絡(dcnn)的發(fā)展在計算機視覺任務的成功中起到了至關重要的作用。然而,手工設計新的網(wǎng)絡架構不僅耗時耗力,還需要豐富的網(wǎng)絡訓練經(jīng)驗,難以擴展。神經(jīng)架構搜索(neural?architecture?search,nas)近年來被用來替代人工設計,能夠在給定的搜索空間中自動發(fā)現(xiàn)高效的網(wǎng)絡架構,從而減少了人力和成本投入。
2、盡管nas在自動化方面具有顯著優(yōu)勢,但仍面臨大量計算時間和資源消耗的問題。大多數(shù)nas方法主要依賴于驗證集,并進行基于精度的架構優(yōu)化。因此,頻繁地訓練和評估采樣架構成為阻礙搜索效率和解釋能力的主要瓶頸。即使采用了多種有效的啟發(fā)式方法進行信道近似或架構采樣,超網(wǎng)絡的訓練收斂速度依然非常緩慢。近似代理推理技術,如截斷訓練和提前停止,雖然可以加速搜索過程,但通常會引入嚴重的搜索偏差。
3、可微分架構搜索(differentiable?architecture?search,darts)因其相對較低的計算成本和競爭力的性能,已成為當前最受歡迎的nas方法之一。與傳統(tǒng)方法在一組離散的候選架構上進行搜索不同,darts將搜索空間松弛為連續(xù)空間,從而可以通過梯度下降對架構進行優(yōu)化。這種基于梯度優(yōu)化的效率將搜索成本從數(shù)千個gpu-days減少到僅幾個gpu-days。根據(jù)最近的nas調查,由于darts架構的簡潔和優(yōu)雅,相關的研究工作非常豐富。此外,梯度優(yōu)化在連續(xù)搜索策略中的應用,已成為nas領域的重要發(fā)展趨勢。
4、然而,現(xiàn)有的darts方法需要將搜索過程分為搜索和評估兩個步驟。搜索步驟使用一個淺層網(wǎng)絡來發(fā)現(xiàn)最優(yōu)的單元結構,而評估步驟將這些單元堆疊起來構建一個深層網(wǎng)絡以進行最終評估。這種方法導致搜索過程的優(yōu)化獨立于目標評價網(wǎng)絡。pdarts試圖通過逐步深化搜索網(wǎng)絡來緩解這種深度差距。而entrannas通過結合評估網(wǎng)絡模塊與搜索網(wǎng)絡模塊,構建了一個搜索網(wǎng)絡,以縮小這種差距。此外,snas和gdas分別采用了gumbel-softmax和改進的直通gumbel-softmax來緩解離散化引起的間隙,而autohas通過熵項增強了gdas,以同時搜索超參數(shù)和架構。盡管這些方法在一定程度上優(yōu)化了搜索和評估過程,但仍然將這兩個過程分開,導致搜索網(wǎng)絡中發(fā)現(xiàn)的架構性能與評估網(wǎng)絡實際性能的相關性有限。
5、另一方面,最近的一些研究對darts的有效性提出了質疑。li和talwalkar觀察到,即使是簡單的隨機搜索方法也可以找到優(yōu)于原始darts的架構。zela等人和liang等人表明,darts容易退化為充滿無參數(shù)操作(如跳過連接)的網(wǎng)絡,導致搜索架構的性能較差。為了緩解這些問題,yu等人提出了一種循環(huán)可微架構搜索方法,稱為cdarts。cdarts將搜索和評估網(wǎng)絡整合到一個統(tǒng)一的架構中,并以循環(huán)的方式聯(lián)合訓練兩個網(wǎng)絡,但仍存在著搜索訓練成本較高的問題。
6、最近,人們通過提出免訓練的nas來解決這個問題。研究發(fā)現(xiàn),即使在初始化時(即沒有梯度下降),樣本jacobian、neural?tangent?kernel和“synflow”等指標也與網(wǎng)絡的精度高度相關。這大大降低了搜索成本。然而,這些工作只驗證了一些高度定制的搜索方法,并以經(jīng)驗或特別的方式利用了深度網(wǎng)絡的有限屬性。此外,這些不需要訓練的指標仍然只追求最終的搜索性能,對搜索軌跡和不同搜索空間的解釋和理解提供的好處有限。為了解決這些問題,chen等人提出了一種統(tǒng)一的、可視化的、無需訓練的nas框架,稱為teg(trainability,expressivity,generalization),能夠提高搜索時間,同時提高了搜索模型的準確性。
7、盡管pdarts通過逐步增加網(wǎng)絡深度來改善搜索和評估之間的差距,cdarts通過引入循環(huán)反饋機制來聯(lián)合優(yōu)化搜索和評估網(wǎng)絡,但這些方法在架構選擇和性能優(yōu)化方面仍有改進空間。
技術實現(xiàn)思路
1、為解決上述技術問題,本發(fā)明提供一種基于分層-反饋機制和teg引導的可微神經(jīng)架構搜索方法,結合pdarts和cdarts優(yōu)點的創(chuàng)新方法,進一步引入teg指標,旨在優(yōu)化搜索效率和架構性能。在第一階段采用pdarts的分階段深度遞增,并結合teg指標優(yōu)化架構選擇,而在第二階段引入循環(huán)反饋機制,并利用teg指標進一步優(yōu)化最終深層網(wǎng)絡的性能。通過這種分層與反饋機制的整合,本發(fā)明的方法很大程度上提高了搜索效率,同時保持了較高的搜索模型的準確性。
2、為解決上述技術問題,本發(fā)明采用如下技術方案:
3、一種基于分層-反饋機制和teg引導的可微神經(jīng)架構搜索方法,包括以下步驟:
4、步驟一,分層搜索階段:基于可微分架構搜索方法進行神經(jīng)架構搜索,可微分架構搜索方法包括搜索步驟和評估步驟,搜索步驟中包含多個搜索階段,每個搜索階段對應一個搜索網(wǎng)絡,且隨著搜索階段的增加,對應的搜索網(wǎng)絡的單元的數(shù)量隨之增加,并逐漸接近評估步驟使用的評估網(wǎng)絡中的單元的數(shù)量;
5、在每個搜索階段開始時,計算當前搜索階段的搜索網(wǎng)絡的teg指標,并使用teg指標引導優(yōu)化當前搜索階段的搜索網(wǎng)絡參數(shù)ωs和架構權重α,
6、步驟二,反饋搜索階段:
7、評估網(wǎng)絡由最后一個搜索階段的搜索網(wǎng)絡擴充而來,將搜索網(wǎng)絡與評估網(wǎng)絡整合,并以循環(huán)的方式聯(lián)合訓練最后一個搜索階段的搜索網(wǎng)絡和評估網(wǎng)絡;
8、在聯(lián)合訓練的過程中,對每條可選邊逐步遞減對應的可選操作,直到僅剩下兩個權重最高的操作,最后在訓練集上取識別成功率最高的一組操作形成最終所需要的網(wǎng)絡。
9、進一步地,搜索步驟包括三個搜索階段,三個搜索階段對應的搜索網(wǎng)絡中的單元數(shù)量分別為5、8、11;評估步驟使用的評估網(wǎng)絡中的單元的數(shù)量為20。
10、進一步地,步驟一中,使用teg指標引導優(yōu)化當前搜索階段的搜索網(wǎng)絡參數(shù)ωs和架構權重α時,對應的雙層優(yōu)化問題為:
11、
12、其中,rteg為當前搜索階段的搜索網(wǎng)絡的teg指標;λω與λα是權重參數(shù),用于平衡損失和teg指標在總損失中的權重;與分別表示驗證損失函數(shù)與訓練損失函數(shù),表示網(wǎng)絡參數(shù)。
13、進一步地,所述將搜索網(wǎng)絡與評估網(wǎng)絡整合,以循環(huán)的方式聯(lián)合訓練最后一個搜索階段的搜索網(wǎng)絡和評估網(wǎng)絡,具體包括:
14、將體系架構搜索建模為搜索網(wǎng)絡與評估網(wǎng)絡的聯(lián)合優(yōu)化問題,聯(lián)合優(yōu)化問題的目標函數(shù)為:
15、
16、
17、其中ωe與為評估網(wǎng)絡的參數(shù),ωs與是搜索網(wǎng)絡的參數(shù);與分別表示驗證損失函數(shù)與訓練損失函數(shù),表示相應的權重參數(shù),rteg為當前搜索階段的搜索網(wǎng)絡的teg指標;
18、采用單獨學習和聯(lián)合學習兩個階段優(yōu)化聯(lián)合優(yōu)化問題的目標函數(shù);在單獨訓練階段,采用權重共享策略來更新ωe,根據(jù)搜索網(wǎng)絡的架構權重更新評估網(wǎng)絡的結構;評估網(wǎng)絡的權重通過搜索網(wǎng)絡的參數(shù)進行初始化;
19、在聯(lián)合學習階段,搜索算法通過內省蒸餾,利用評價網(wǎng)絡的特征反饋更新架構權重α;所述聯(lián)合優(yōu)化問題的目標函數(shù)進一步表述為:
20、
21、其中,表示使用固定的權重來優(yōu)化搜索網(wǎng)絡中的架構權重α,表示使用固定的架構權重α來優(yōu)化評估網(wǎng)絡中的權重ωe,表示內省蒸餾過程,用于將知識從評估網(wǎng)絡轉移到搜索網(wǎng)絡,且使用從評估網(wǎng)絡中得到的特征作為監(jiān)督信號來引導搜索網(wǎng)絡中架構權重α的更新。
22、與現(xiàn)有技術相比,本發(fā)明的有益技術效果是:
23、本發(fā)明提出了一種基于分層-反饋機制和teg引導的可微神經(jīng)架構搜索框架,稱為darts-hf-teg。本發(fā)明的方法分為兩個階段,第一階段為分層搜索階段采用分階段網(wǎng)絡深度遞增,并結合teg指標引導進行架構選擇;第二階段為反饋搜索階段,引入循環(huán)反饋機制,并利用teg指標進一步優(yōu)化最終深層網(wǎng)絡的性能。本發(fā)明在cifar、imagenet和nats-bench上的實驗和分析表明了該方法的有效性。具體來說,在darts搜索空間中,本發(fā)明在cifar10上實現(xiàn)了平均97.50%的top-1準確率(僅需0.16gpu-days),在imagenet上實現(xiàn)了75.9%的top-1準確率(僅需0.8gpu-days)。