本發(fā)明屬于三維圖像深度估計
技術領域:
,具體涉及一種基于多尺度CNN和連續(xù)CRF的單目圖像深度估計方法。
背景技術:
:視頻編輯過程中通常需要創(chuàng)建場景的三維模型來保證編輯的時空一致性,而從二維視頻創(chuàng)建場景的三維模型則需要有該場景的深度信息。3D電影和3D電視能給觀眾帶來身臨其景的真實感,傳統(tǒng)的3D視頻通常通過多臺攝像機從不同角度同步拍攝視頻并制作得到,然而這種3D視頻的同步處理和制作成本高昂、費時費力。最近幾年來,許多研究人員尋求通過已有的3D模型庫、深度估計技術從單視頻序列來制作生成3D視頻的方法,并取得了一定的成果。將2D視頻轉成3D視頻過程中很重要的一步是從2D視頻序列中估計出深度圖,得到深度信息之后既可以生成3D模型并投影得到另一視角的視頻序列,也可以根據(jù)雙目視差原理直接計算得到另一視角的視圖。目前深度信息的獲取可通過硬件和軟件兩種途徑。硬件獲取深度信息的設備有激光測距儀和微軟推出的3D體感攝像儀Kinect等,但激光測距儀價格昂貴,不利于推廣;Kinect雖然價格親民,但最大檢測距離不超過5米,且感知精度受光線和背景物體影響較大,對透明、鏡面反光等物體無法正確測距。軟件方法常見的主要有多視圖立體法(multi-viewstereo)、光度立體視覺法(photometricstereo)、色度成形法(shapefromshading)、散焦推斷法(depthfromdefocus)以及基于機器學習的方法等。根據(jù)多視圖幾何原理,對于一個靜止的場景,如果我們從不同位置拍攝了多幅圖像,而且不同圖像之間有公共內(nèi)容,那么理論上就能從這些圖像自動地恢復出攝像機的內(nèi)外參數(shù)以及場景的三維信息。如果僅考慮兩幅圖像之間的立體匹配,就轉化成了雙視圖立體匹配。光度立體技術是一種基于光照模型的三維重建算法,最早由加拿大不列顛哥倫比亞大學的Woodham提出,利用物體在不同光照條件下的圖像序列估計出物體的表面法向圖,并利用線積分等技術獲得最終的表面模型。光度立體計算法還被用于優(yōu)化其他方法獲得的初始3D模型以獲得更為精確的幾何結構。如果光度立體計算法的圖像序列的數(shù)目減少至單張,此技術則演變?yōu)樯瘸尚畏?。相機在拍攝時會聚焦到某個物體上,在焦平面外的物體會或多或少顯得模糊,其模糊的程度與其深度有關,根據(jù)其模糊程度來估計深度的方法稱為散焦推斷深度法。基于散焦法有許多改進的方法,如雙焦平面法和編碼光圈法等。人類之所以能準確感知到所見場景的深度信息,除了依賴于視覺系統(tǒng)的雙目視差進行感知外,還很大程度上依賴于在平時生活中積累的對所見物體的先驗知識。機器學習的方法則是模仿了人類的這一學習過程,也是對單目圖像進行深度估計用得最多的方法。美國斯坦福大學的Saxena等人提出采用基于監(jiān)督學習的算法來獲取場景的三維結構。Liu等改進了Saxena等人的方法,先對給定圖像進行語義分割,并用這些語義分割的結果作為約束,再用MRF(馬爾可夫隨機場)來推斷出深度信息,改進的方法比之前的方法有顯著的性能提升。近年來,深度學習框架被廣泛應用在自動語音識別、圖像識別、自然語言處理、藥物發(fā)現(xiàn)與毒理學、客戶關系管理、生物信息學等諸多領域。作為一種高性能的機器學習框架,深度學習方法也被應用到了單目圖像自動深度估計中。Eigen等首先用多尺度卷積神經(jīng)網(wǎng)絡(CNN)實現(xiàn)了一種端到端的單目圖像深度估計,然而因為輸出的結果尺寸受限,預測得到深度圖比輸入的原圖像要小很多,長和寬都只有原圖的1/16;后來,Eigen和Fergus對網(wǎng)絡結構進行了改進,先對原來實現(xiàn)的CNN的輸出進行上采樣,再與原輸入圖像的卷積的結果連接后,進一步用多個卷積層處理,使得神經(jīng)網(wǎng)絡更深,而最后的輸出深度圖的分辨率更高。FayaoLiu等也使用了深度卷積神經(jīng)網(wǎng)絡來從單目圖像預測深度信息,然而他們設計的CNN只用來預測單個深度值,該深度值代表了圖像中一個超像素的深度值。他們的框架中還集成了基于超像素的連續(xù)條件隨機場(CRF)來進一步優(yōu)化預測的深度,使其輸出結果更可靠?;诔袼氐姆椒梢垣@得跟原始輸入圖像一樣大小的深度圖,有更清晰的輪廓,然而因其CNN的推導是基于局部信息的,各項評估數(shù)據(jù)表明其準確程度遜于Eigen和Fergus的方法。技術實現(xiàn)要素:由于深度卷積神經(jīng)網(wǎng)絡(DCNN)的不變性對其完成高級任務非常有利,但其輸出因為不夠局部化而導致預測結果丟失細節(jié);為了克服DCNN這一缺點,本發(fā)明提供了一種基于多尺度CNN和連續(xù)CRF的單目圖像深度估計方法,包括如下步驟:(1)獲取足夠數(shù)量的樣本圖像,并對樣本圖像依次進行數(shù)據(jù)增強操作以及歸一化處理;(2)根據(jù)步驟(1)中歸一化后的樣本圖像分兩個階段訓練DCNN,DCNN共包括三個棧,前兩個棧通過第一階段訓練完成,第三個棧通過第二階段訓練完成;(3)對于待估計深度的輸入圖像I,根據(jù)DCNN的輸出建立關于輸入圖像I及其深度圖Y的條件概率分布函數(shù)P(Y|I):P(Y|I)=1Z(I)exp(-E(Y,I))]]>Z(I)=∫Yexp(-E(Y,I))dY]]>E(Y,I)=Σi(zi-yi)2+Σij(yi-yj)2[wij1exp(-||pi-pj||22σij12-||ci-cj||22σij22)+wij2exp(-||pi-pj||22σij32)]]]>其中:Z(I)為輸入圖像I對應的配分函數(shù),E(Y,I)為關于輸入圖像I及其深度圖Y的能量函數(shù),zi為第i個有效像素預測的對數(shù)深度值,yi和yj分別為第i個有效像素和第j個有效像素實際的對數(shù)深度值,pi和pj分別為第i個有效像素和第j個有效像素的坐標值,ci和cj分別為第i個有效像素和第j個有效像素的LAB顏色值,wij1、wij2、σij1、σij2和σij3均為CRF模型參數(shù),i和j均為自然數(shù)且1≤i≤N,1≤j≤N,N為有效像素的總數(shù);然后對函數(shù)P(Y|I)進行最大化求解,進而將求解得到的深度圖從對數(shù)空間轉換回線性空間即可獲得具有較高精確度且保留了物體輪廓細節(jié)信息的深度圖。所述的數(shù)據(jù)增強操作包括尺寸縮放、旋轉、平移、亮度縮放以及鏡像,所述的歸一化處理即減去樣本圖像的均值并除以均方差。所述DCNN的第一個棧為Imagenet預訓練網(wǎng)絡,即采用Alexnet模型的前7層或VGG16模型的前15層;第二個棧由5個卷積層組成,前4個卷積層均尾隨池化操作,最后1個卷積層為線性輸出,其中第1個卷積層的輸入為步驟(1)中歸一化處理后的樣本圖像,第2個卷積層的輸入則是第一個棧的輸出經(jīng)上采樣后與第1個卷積層池化后的輸出連接而成的特征,之后每一個卷積層的輸入均為前一個卷積層的輸出;第三個棧由4個卷積層組成,前3個卷積層均尾隨池化操作,最后1個卷積層為線性輸出,其中第1個卷積層的輸入為步驟(1)中歸一化處理后的樣本圖像,第2個卷積層的輸入則是第二個棧的輸出經(jīng)上采樣后與第1個卷積層池化后的輸出連接而成的特征,之后每一個卷積層的輸入均為前一個卷積層的輸出。所述第一階段訓練中所使用的損失函數(shù)L如下:L=1NΣidi2-12N2(Σidi)2+1NΣi[(▿xdi)2+(▿ydi)2]]]>其中:xi和分別是第i個有效像素的預測深度值和實際深度值,和分別表示di的水平梯度和垂直梯度。所述的步驟(3)中通過以下算式對函數(shù)P(Y|I)進行最大化求解:Y~=argmaxYP(Y|I)=A-1ZA=E+D-S]]>其中:Z為DCNN第三個棧的輸出經(jīng)雙線性插值上采樣和邊界補全后的深度圖,D為對角元素dii=∑jsij的對角矩陣,S為相似度矩陣且其中第i行第j列元素值E為N×N的單位矩陣。所述的CRF模型參數(shù)wij1、wij2、σij1、σij2和σij3可通過以下兩種優(yōu)化方法取得:第一種方法是將CRF集成到DCNN中統(tǒng)一用SGD(隨機梯度下降)法尋優(yōu),此時CRF的輸出與真實對數(shù)深度圖進行比較計算損失;第二種方法是CRF模型獨立調(diào)優(yōu),在一定的范圍內(nèi)用交叉驗證集數(shù)據(jù),步長從大到小循環(huán)尋優(yōu),此時DCNN的參數(shù)是固定不變的。本發(fā)明結合了多尺度CNN和連續(xù)CRF優(yōu)化思想,不僅能夠以較高的精確度估計出深度圖,又能使得到的深度圖輪廓清晰;本發(fā)明所估計的深度有比較高的分辨率,而且所得到的深度圖能保留場景中所有對象的深度細節(jié)信息,具有更好的視覺效果。附圖說明圖1為本發(fā)明深度估計方法的流程示意圖。圖2為超像素及其鄰域像素的示意圖。具體實施方式為了更為具體地描述本發(fā)明,下面結合附圖及具體實施方式對本發(fā)明的技術方案進行詳細說明。本發(fā)明基于CNN和CRF的單目圖像深度估計方法,包括如下步驟:(1)準備訓練數(shù)據(jù)。準備足夠數(shù)量的訓練樣本(訓練集數(shù)據(jù)可自己采集創(chuàng)建或從互連網(wǎng)下載一些已公開的深度數(shù)據(jù)集,如NYUDepthv2、KITTI等),并對訓練樣本進行縮放、旋轉、平移、亮度縮放和鏡像等數(shù)據(jù)增強操作,以使訓練得到的CNN有較強的泛化能力;進行縮放增強時,目標深度數(shù)據(jù)要作相應的調(diào)整,如原圖放大s倍,則目標深度縮小到原來的1/s;訓練集的輸入圖像調(diào)整到一定大小,并進行歸一化處理,即減去訓練圖像的均值并除以均方差;實際的深度圖也要調(diào)整到較小的尺度(訓練第1階段的目標大小為輸入長寬的1/4,第2階段目標大小為輸入長寬的1/2),并轉化到自然對數(shù)空間。(2)訓練DCNN。因為網(wǎng)絡較深,參數(shù)數(shù)量較大,為了避免出現(xiàn)梯度消失和過擬合現(xiàn)象,DCNN的訓練分成兩個階段進行。第1階段所訓練的網(wǎng)絡包括兩個棧,第1個棧是Imagenet預訓練網(wǎng)絡(Alexnet的前7層或VGG16的前15層),其結構和參數(shù)直接從Alexnet或VGG16遷移過來,在訓練過程中只作微調(diào);第2個棧由5個卷積層組成,前4個卷積層都尾隨一個池化層,最后1個是線性輸出:第1個卷積層的輸入是歸一化后的RGB輸入原圖,第2個卷積層的輸入則是第1個棧的輸出經(jīng)上采樣后與第1個卷積層池化后的輸出連接而成的特征,后面每一個卷積層的輸入都是前一個卷積層的輸出;該階段訓練所使用的損失函數(shù)為:L=1NΣidi2-12N2(Σidi)2+1NΣi[(▿xdi)2+(▿ydi)2]---(1)]]>第2階段訓練時,第1階段訓練所得的網(wǎng)絡參數(shù)固定不再變化,僅調(diào)整第3個棧的參數(shù),第3個棧包括4個卷積層,前3個卷積層都尾隨池化操作,最后一個卷積層是線性輸出,第1個卷積層的輸入是歸一化后的RGB輸入原圖,第2個卷積層的輸入則是上一個棧的輸出經(jīng)上采樣后與第1個卷積層池化后的輸出連接而成的特征,后面每一個卷積層的輸入都是前一個卷積層的輸出。本發(fā)明通過微調(diào)Imagenet預訓練DCNN(Alexnet和VGG16均可),將Imagenet預訓練的Alexnet或VGG16的卷積層和前兩個全連接層作為稠密特征提取器,再附加更多的卷積層使網(wǎng)絡更深性能更強,最后形成多尺度DCNN來預測給定圖像的稠密深度圖,這個多尺度DCNN的結構如圖1所示。圖1中的Imagenet預訓練網(wǎng)絡可以是Imagenet預訓練的Alexnet的前7層,也可以是VGG16的前15層,當輸入圖像大小與Imagenet的輸入訓練圖像大小不一致時,則只保留Alexnet的前5層或VGG16的前13層卷積層參數(shù),隨后的兩個全連接層要重新訓練。整個網(wǎng)絡的訓練過程分兩個階段進行,如圖1的虛線框所示。階段1所訓練的網(wǎng)絡由兩個網(wǎng)絡棧構成,歸一化后的圖像首先通過第一個網(wǎng)絡棧,即Imagenet預訓練網(wǎng)絡,經(jīng)過該網(wǎng)絡棧處理的輸出尺度會比輸入的原圖小很多,為了提高輸出的深度圖的分辨率并保留更多的局部細節(jié)信息,首先對第一個訓練棧的輸出進行長寬均為4倍的上采樣,然后將該結果與歸一化后的輸入圖像經(jīng)過一次卷積和池化的結果(選擇卷積核的大小和池化的步長使輸出尺度與上一棧的輸出大小相同)進行通道上的連接,連接的特征輸入給隨后的4個卷積層,用較小的步長和補零填充,特征的大小在經(jīng)過這4個層的過程中保持不變。在這4個卷積層中,前3個卷積層后都有修正線性單元(Rectifiedlinearunit,ReLU)的處理,最后1個卷積層則是線性的,輸出的是長寬約為輸入圖像1/4的預測深度圖。為了在訓練過程中根據(jù)損失的大小反向傳播調(diào)整網(wǎng)絡參數(shù),本發(fā)明把目標深度圖縮小至與輸出結果一樣的尺度,并轉化到對數(shù)空間,然后根據(jù)公式1計算損失。階段1訓練時僅調(diào)整圖1中上面虛線框內(nèi)的網(wǎng)絡參數(shù),每個層的學習率設置為:ImageNet預訓練網(wǎng)絡卷積層學習率為0.001,兩個全連接層學習率為0.1,第二個棧的第一個和最后一個卷積層學習率為0.001,中間三個卷積層學習率為0.01。階段1訓練得到的網(wǎng)絡輸出的深度圖尺寸較小,只有輸入圖像長寬的1/4,而且輪廓模糊,丟失細節(jié),因此本發(fā)明用階段2所訓練的網(wǎng)絡來進一步細化特征并由輸入圖像中的高分辨率細節(jié)來得到更精致的深度圖輸出。為了得到尺寸更大的深度圖輸出,本發(fā)明首先將階段1網(wǎng)絡的輸出的長寬方向都上采樣2倍,并把歸一化后的輸入圖像經(jīng)過一層卷積和池化層后與該上采樣的結果進行連接,再將該特征送入三個卷積層,輸出的結果長寬與階段1輸出經(jīng)上采樣后的長寬一致,即為原始輸入圖像長寬的1/2。將階段1訓練的那部分網(wǎng)絡參數(shù)固定,單獨訓練階段2的那部分網(wǎng)絡,該階段每個層的學習率設置為:第一個和最后一個卷積層學習率為0.001,中間的卷積層學習率為0.01,CRF層的學習率為0.1。DCNN雖然能大致可靠地預測出給定圖像中場景的粗糙深度圖,但無法精確的構畫出場景中各個對象的輪廓,因為經(jīng)過多次池化層的高層特征有更強的不變性和更大的感受野,雖然有利于分類,但對從高層特征推導位置細節(jié)的任務卻帶來了挑戰(zhàn)上。上述過程雖然已較充分地利用了多尺度結構來細化局部信息,但最終的預測結果仍然存在輪廓模糊的現(xiàn)象。為了在預測的深度圖中恢復出清晰的邊緣,本發(fā)明將稀疏連接CRF集成到多尺度深度學習CNN框架中。(3)采用CRF進行優(yōu)化預測。假如用I來表示輸入圖像,Y=(y1,…,yn)∈Rn對應I中所有像素的深度值,對于給定的I,可以用如下密度函數(shù)為Y建立條件概率分布模型:P(Y|I)=1Z(I)exp(-E(Y,I))---(2)]]>此處E(Y,I)是能量函數(shù),其中配分函數(shù)Z定義為:Z(I)=∫Yexp(-E(Y,I))dY(3)對輸入圖像I的深度預測可以通過求解如下最大化后驗概率得到:Y~=argmaxYP(Y|I)---(4)]]>能量函數(shù)E(Y,I)可以定義為單點勢能和成對勢能的組合,由DCNN中第3個棧的輸出經(jīng)雙線性插值上采樣和邊界補全后的深度圖與實際深度值的自然對數(shù)的歐氏距離作為能量函數(shù)中的單點勢能,根據(jù)輸入圖像的像素間位置、顏色等相似性為依據(jù)計算能量函數(shù)的成對勢能;如下:E(Y,I)=Σiu(yi,I)+Σijθij(yi,yj,I)(5)其中,u是單點勢能項,由CNN的輸出通過計算最小方差損失得到:u(yi,I)=(zi-yi)2(6)其中:zi和yi分別為第i個有效像素預測的對數(shù)深度和實際的對數(shù)深度值。成對勢能項定義為:θij(yi,yj,I)=(yi-yj)2Σm=1Kwmkm(fi,fj)---(7)]]>如圖1所示,輸入到CRF模型的除了DCNN初步預測的深度圖外,還有像素之間的相似度矩陣(即成對勢能),成對勢能是稀疏分布的,僅考慮那些相互處于對方鄰域中的像素之間的關系。為了確定兩個像素是否處于對方鄰域中,本發(fā)明首先將輸入圖像用SLIC算法分割成500個超像素,并將處于同一超像素中或處于相鄰超像素中的像素稱為鄰域像素,再在此基礎上確定鄰域和像素間相似度矩陣。如圖2所示,假如圖2中1~15個區(qū)域代表15個超像素,那么對第8個超像素內(nèi)的像素來說,第2、3、4、7、8、9、12、13、14個超像素內(nèi)的所有像素都是它們的鄰域像素。式7中的每個km是依賴于第i個像素的特征fi和第j個像素特征fj的高斯核,并由wm加權。處于同一超像素內(nèi)的像素之間分享一組高斯核參數(shù),而分處于相鄰超像素內(nèi)的像素之間分享另一組參數(shù)。在本發(fā)明中像素的特征由位置和顏色來描述,因此帶權高斯核定義為:w1exp(-||pi-pj||22σ12-||ci-cj||22σ22)+w2exp(-||pi-pj||22σ32)---(8)]]>其中,pi和pj分別為像素i,j的縱橫坐標,ci和cj分別為像素i,j的LAB顏色值,參數(shù)w和σ的值與像素i,j的相對位置有關,若兩個像素處于同一超像素內(nèi),則w和σ取相對較大的值;若兩個像素分別處于兩個不同的超像素內(nèi),但這兩個超像素相鄰,則w和σ取相對小一點的值;若兩個像素分別處于兩個不相鄰的超像素內(nèi),則兩個權重w均為0。式8中第1項同時依賴于位置和顏色,意味著如果兩個像素之間位置和顏色都很接近,則這一項越大,反之亦然,第2項僅依賴于位置。在計算相似性時,原圖像首先從RGB顏色空間轉換到Lab顏色空間,依賴于像素間關系的成對勢能概括如下:當像素i和j處于同一超像素內(nèi)時:θij(yi,yj,I)=(yi-yj)2[w1exp(-||pi-pj||22σ12-||ci-cj||22σ22)+w2exp(-||pi-pj||22σ32)]---(9)]]>當像素i和j分處于兩個相鄰超像素內(nèi)時:θij(yi,yj,I)=(yi-yj)2[w3exp(-||pi-pj||22σ42-||ci-cj||22σ52)+w4exp(-||pi-pj||22σ62)]---(10)]]>其他情況:θij(yi,yj,I)=0(11)從式9和式10可知,其實兩式除了參數(shù)不同,形式完全一致,因為考慮到越相近的像素之間聯(lián)系更大,因此w1、w2、σ1、σ2、σ3的值會比w3、w4、σ4、σ5、σ6的值相對大一些。參數(shù)w和σ需要進行優(yōu)化才能取得理想的結果,優(yōu)化方法有兩種:第一種是將CRF集成到DCNN中統(tǒng)一用SGD法尋優(yōu),此時CRF的輸出與真實對數(shù)深度圖進行比較計算損失;第二種是CRF模型獨立調(diào)優(yōu),在一定的范圍內(nèi)用交叉驗證集數(shù)據(jù),步長從大到小循環(huán)尋優(yōu),此時DCNN的參數(shù)是固定不變的。對CRF層而言,可以將它集成到DCNN中通過訓練獲得參數(shù)w1,…,w4和σ1,…,σ6的最優(yōu)值,也可以先訓練DCNN網(wǎng)絡,此時訓練的網(wǎng)絡到最后一個卷積層為止,將這個卷積層的輸出作為預測的深度,仍使用公式1計算損失進行反向傳播調(diào)整4個卷積層的網(wǎng)絡參數(shù),當然此時的目標深度圖的大小是階段1的目標圖的長寬的2倍;而將CRF作為單獨的后處理步驟,此時CRF的參數(shù)可以通過一個小的驗證數(shù)據(jù)集通過交叉驗證求解得到。本發(fā)明采用負的對數(shù)似然函數(shù)作為模型的損失函數(shù):L(W)=-log[P(Y|I)]=-log[1Z(I)exp(-E(Y,I))]---(12)]]>為了最小化式12所示的損失函數(shù)即最大化后驗概率P(Y|I),經(jīng)過一系列的推導,最終可得:Y~=argmaxYP(Y|I)=argmaxY-YTAY+2ZTY=A-1Z---(13)]]>此處Z為DCNN第三個棧的輸出經(jīng)雙線性插值上采樣和邊界補全后的深度圖,A是由下式?jīng)Q定的矩陣:A=E+D-S(14)其中:S是由決定的相似度矩陣,D是對角元素dii=∑jsij的對角矩陣,E是N×N的單位矩陣。式13中的就是最終獲得的恢復了邊緣細節(jié)的深度圖,當DCNN和CRF的參數(shù)尋優(yōu)完成后,只要將待估計深度的RGB圖像輸入到DCNN和CRF組成的系統(tǒng)中,將CRF輸出的深度圖從對數(shù)空間轉換回線性空間即可得到有較高精確度且保留了物體輪廓等細節(jié)信息的深度圖。室外場景和室內(nèi)場景的網(wǎng)絡參數(shù)是不一樣的,所以訓練時應使用室內(nèi)和室外兩套數(shù)據(jù)集來分別訓練兩個不同的系統(tǒng),分別用于室內(nèi)場景和室外場景的深度估計;以下給出了四種不同的具體實施方式:實施例11.使用NYUDepthv2數(shù)據(jù)集464個室內(nèi)場景中的249個場景的原始數(shù)據(jù)做訓練樣本,把其中的RGB圖像從640×480降采樣到320×240,然后用隨機平移的方式裁剪出304×228大小的圖像作為最終的輸入圖像。從每個場景中取1200個不同的圖像樣本,通過平移、旋轉、縮放、亮度縮放及鏡像等數(shù)據(jù)增強方式將訓練集樣本擴充至接近2000000個。2.進行階段1的訓練,其中第一個網(wǎng)絡棧采用ImageNet預訓練的Alexnet。3.固定階段1訓練得到的網(wǎng)絡參數(shù),進行階段2的訓練,其中包括了DCNN的后半部分和CRF部分的參數(shù)優(yōu)化。4.網(wǎng)絡輸出的結果為自然對數(shù)深度,求自然指數(shù)將深度數(shù)據(jù)恢復到線性空間。5.在用該網(wǎng)絡能估計任意室內(nèi)場景圖像的深度,但在使用時,需要將輸入圖像的大小調(diào)整為304×228才能進行深度估計。實施例21.使用NYUDepthv2數(shù)據(jù)集464個室內(nèi)場景中的249個場景的原始數(shù)據(jù)做訓練樣本,把其中的RGB圖像從640×480降采樣到320×240,然后用隨機平移的方式裁剪出304×228大小的圖像作為最終的輸入圖像。從每個場景中取1200個不同的圖像樣本,通過平移、旋轉、縮放、亮度縮放及鏡像等數(shù)據(jù)增強方式將訓練集樣本擴充至接近2000000個。2.進行階段1的訓練,其中第一個網(wǎng)絡棧采用ImageNet預訓練的VGG16網(wǎng)絡結構與參數(shù)。3.固定階段1訓練得到的網(wǎng)絡參數(shù),進行階段2的訓練,其中包括了DCNN的后半部分和CRF部分的參數(shù)優(yōu)化。4.網(wǎng)絡輸出的結果為自然對數(shù)深度,求自然指數(shù)將深度數(shù)據(jù)恢復到線性空間。5.在用該網(wǎng)絡能估計任意室內(nèi)場景圖像的深度,但在使用時,需要將輸入圖像的大小調(diào)整為304×228才能進行深度估計。實施例31.使用NYUDepthv2數(shù)據(jù)集464個室內(nèi)場景中的249個場景的原始數(shù)據(jù)做訓練樣本,把其中的RGB圖像從640×480降采樣到320×240,然后用隨機平移的方式裁剪出304×228大小的圖像作為最終的輸入圖像。從每個場景中取1200個不同的圖像樣本,通過平移、旋轉、縮放、亮度縮放及鏡像等數(shù)據(jù)增強方式將訓練集樣本擴充至接近2000000個。2.進行階段1的訓練,其中第一個網(wǎng)絡棧采用ImageNet預訓練的Alexnet。3.固定階段1訓練得到的網(wǎng)絡參數(shù),進行階段2的訓練,僅訓練DCNN的后半部分即圖1中第二個虛線框內(nèi)最后一個卷積層為止。4.從訓練集中每一個場景任取一個樣本作為交叉驗證CRF參數(shù)的數(shù)據(jù)集,用前面訓練好的DCNN的輸出及從輸入圖像計算得到的像素間稀疏相似矩陣數(shù)據(jù)以便對CRF的各項參數(shù)進行優(yōu)化計算。5.用訓練好的DCNN及優(yōu)化得到CRF構成圖1所示的系統(tǒng),處理輸入到該系統(tǒng)的任意室內(nèi)場景圖像,在使用時,需要將輸入圖像的大小調(diào)整為304×228才能進行深度估計。實施例41.使用NYUDepthv2數(shù)據(jù)集464個室內(nèi)場景中的249個場景的原始數(shù)據(jù)做訓練樣本,把其中的RGB圖像從640×480降采樣到320×240,然后用隨機平移的方式裁剪出304×228大小的圖像作為最終的輸入圖像。從每個場景中取1200個不同的圖像樣本,通過平移、旋轉、縮放、亮度縮放及鏡像等數(shù)據(jù)增強方式將訓練集樣本擴充至接近2000000個。2.進行階段1的訓練,其中第一個網(wǎng)絡棧采用ImageNet預訓練的VGG16網(wǎng)絡結構與參數(shù)。3.固定階段1訓練得到的網(wǎng)絡參數(shù),進行階段2的訓練,僅訓練DCNN的后半部分即圖1中第二個虛線框內(nèi)最后一個卷積層為止。4.從訓練集中每一個場景任取一個樣本作為交叉驗證CRF參數(shù)的數(shù)據(jù)集,用前面訓練好的DCNN的輸出及從輸入圖像計算得到的像素間稀疏相似矩陣數(shù)據(jù)以便對CRF的各項參數(shù)進行優(yōu)化計算。5.用訓練好的DCNN及優(yōu)化得到CRF構成圖1所示的系統(tǒng),處理輸入到該系統(tǒng)的任意室內(nèi)場景圖像,在使用時,需要將輸入圖像的大小調(diào)整為304×228才能進行深度估計。上述對實施例的描述是為便于本
技術領域:
的普通技術人員能理解和應用本發(fā)明。熟悉本領域技術的人員顯然可以容易地對上述實施例做出各種修改,并把在此說明的一般原理應用到其他實施例中而不必經(jīng)過創(chuàng)造性的勞動。因此,本發(fā)明不限于上述實施例,本領域技術人員根據(jù)本發(fā)明的揭示,對于本發(fā)明做出的改進和修改都應該在本發(fā)明的保護范圍之內(nèi)。當前第1頁1 2 3