本發(fā)明以遙感影像為研究對(duì)象,利用人工智能領(lǐng)域的最新研究成果——深度學(xué)習(xí)技術(shù),研究了一種遙感影像的快速檢索方法。首先采用全卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建多任務(wù)顯著性目標(biāo)檢測(cè)模型,計(jì)算遙感影像的深度顯著性特征;然后改進(jìn)深度網(wǎng)絡(luò)結(jié)構(gòu),加入哈希層學(xué)習(xí)得到二進(jìn)制哈希碼;最后綜合利用顯著性特征和哈希碼實(shí)現(xiàn)遙感影像準(zhǔn)確、快速檢索。本發(fā)明屬于計(jì)算機(jī)視覺領(lǐng)域,具體涉及深度學(xué)習(xí)、顯著性目標(biāo)檢測(cè)和圖像檢索等技術(shù)。
背景技術(shù):
遙感影像數(shù)據(jù)作為地理信息系統(tǒng)(Geographic Information System,GIS)、全球定位系統(tǒng)(Global Positioning System,GPS)、遙感測(cè)繪技術(shù)(remote sensing system,RS)三大空間信息技術(shù)中的基礎(chǔ)數(shù)據(jù),廣泛應(yīng)用于環(huán)境監(jiān)測(cè)、資源調(diào)查、土地利用、城市規(guī)劃、自然災(zāi)害分析和軍事等各個(gè)領(lǐng)域。近年來,隨著高分辨率遙感衛(wèi)星、成像雷達(dá)以及無人機(jī)駕駛飛機(jī)(Unmanned Aerial Vehicle)技術(shù)的發(fā)展,遙感影像數(shù)據(jù)進(jìn)一步呈現(xiàn)海量、復(fù)雜和高分辨率的特點(diǎn),實(shí)現(xiàn)遙感影像高效、準(zhǔn)確檢索對(duì)于促進(jìn)遙感影像信息的準(zhǔn)確提取和數(shù)據(jù)共享具有重要的研究意義和應(yīng)用價(jià)值。
圖像檢索技術(shù)由早期的基于文本的圖像檢索(Text-Based Image Retrieval,TBIR)逐漸發(fā)展為通過提取圖像特征實(shí)現(xiàn)基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR)。基于顯著性目標(biāo)的圖像檢索方法,能夠快速地從復(fù)雜場(chǎng)景中選擇少數(shù)幾個(gè)顯著的區(qū)域進(jìn)行優(yōu)先處理,從而有效降低數(shù)據(jù)處理復(fù)雜度,提高檢索效率。相比普通圖像檢索,遙感影像包含的信息復(fù)雜多變,目標(biāo)小且與背景區(qū)分不明顯,如果仍采用傳統(tǒng)的顯著性檢測(cè)方法將難以實(shí)現(xiàn)對(duì)遙感影像顯著性特征的準(zhǔn)確描述與分析。近年來,隨著人工智能領(lǐng)域的最新研究成果——深度學(xué)習(xí)技術(shù)的提出,例如:以全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Neural Network,F(xiàn)CNN)為代表的深度神經(jīng)網(wǎng)絡(luò),憑借其獨(dú)特的類似于人眼局部感受的卷積核以及類似于生物神經(jīng)的層次級(jí)聯(lián)結(jié)構(gòu),在圖像深度顯著性特征學(xué)習(xí)方面表現(xiàn)出優(yōu)良的魯棒性。其權(quán)值共享的特性也使得網(wǎng)絡(luò)參數(shù)大大減少,同時(shí)降低了對(duì)訓(xùn)練數(shù)據(jù)過擬合的風(fēng)險(xiǎn),比其他種類的深度網(wǎng)絡(luò)更易于訓(xùn)練,可以提高顯著性特征的表征準(zhǔn)確度。
考慮到遙感影像數(shù)量日益增加,圖像語(yǔ)義描述能力有限等問題,本發(fā)明以公開的大規(guī)模航拍圖像數(shù)據(jù)集(AID)、武漢大學(xué)遙感影像數(shù)據(jù)集(WHU-RS)及谷歌地球遙感影像為數(shù)據(jù)來源,提出一種基于深度顯著性的遙感影像快速檢索方法。首先,構(gòu)建基于全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Neural Network,F(xiàn)CNN)的多任務(wù)顯著性目標(biāo)檢測(cè)模型,在預(yù)訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)遙感影像不同層次的語(yǔ)義信息作為深度顯著性特征并轉(zhuǎn)換為一維列向量。進(jìn)一步微調(diào)神經(jīng)網(wǎng)絡(luò)模型,引入哈希層并增加訓(xùn)練樣本,將該模型學(xué)習(xí)到的遙感影像高維顯著性特征以二進(jìn)制哈希碼(Binary Hash Codes)的形式映射到低維空間,分別存儲(chǔ)顯著性特征向量和哈希碼構(gòu)建特征數(shù)據(jù)庫(kù)。通過訓(xùn)練好的模型提取待查詢的遙感圖像顯著性特征向量和哈希碼,對(duì)比特征數(shù)據(jù)庫(kù),計(jì)算哈希碼漢明距離(Hamming Distance)和顯著性特征向量歐氏距離(Euclidean Distance)度量相似度,實(shí)現(xiàn)遙感影像快速檢索。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明與已有的遙感影像檢索方法不同,利用深度學(xué)習(xí)技術(shù),提出一種基于深度顯著性的遙感影像快速檢索方法。首先,采用全卷積神經(jīng)網(wǎng)絡(luò)(FCNN)構(gòu)建多任務(wù)深度顯著性目標(biāo)檢測(cè)模型,將普通卷積神經(jīng)網(wǎng)絡(luò)(CNN)圖像級(jí)別的分類進(jìn)一步延伸到像素級(jí)別的分類。在大規(guī)模航拍圖像數(shù)據(jù)集(AID)上預(yù)訓(xùn)練網(wǎng)絡(luò),顯著性檢測(cè)任務(wù)和語(yǔ)義分割任務(wù)共享卷積層,綜合學(xué)習(xí)遙感影像的三層語(yǔ)義信息,有效去除特征冗余,準(zhǔn)確提取深度顯著性特征。其次,在該模型中加入哈希層,擴(kuò)充武漢大學(xué)遙感影像數(shù)據(jù)集(WHU-RS)微調(diào)神經(jīng)網(wǎng)絡(luò),利用深度神經(jīng)網(wǎng)絡(luò)通過隨機(jī)梯度下降算法(Stochastic Gradient Descent,SGD)實(shí)現(xiàn)增量學(xué)習(xí)的優(yōu)勢(shì),逐點(diǎn)學(xué)習(xí)二進(jìn)制哈希碼,實(shí)現(xiàn)高維顯著性特征降維,既可節(jié)省存儲(chǔ)空間又可提升檢索效率。同時(shí),相比傳統(tǒng)需要成對(duì)輸入訓(xùn)練樣本的哈希方法,本發(fā)明所采用的方法在大規(guī)模數(shù)據(jù)集上更易擴(kuò)展。將神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練和微調(diào)過程學(xué)習(xí)的顯著性特征轉(zhuǎn)化為一維列向量,和二進(jìn)制哈希碼一同構(gòu)建特征數(shù)據(jù)庫(kù)。最后,在圖像檢索階段采用由粗到細(xì)的檢索策略,綜合利用二進(jìn)制哈希碼和顯著性特征度量漢明距離和歐式距離,實(shí)現(xiàn)遙感影像快速、準(zhǔn)確檢索。本方法主要過程如附圖1所示,可分為以下三個(gè)步驟:基于深度顯著性的目標(biāo)檢測(cè)模型構(gòu)建、神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練并加入哈希層微調(diào)和多層次深度檢索。
(1)基于深度顯著性的目標(biāo)檢測(cè)模型構(gòu)建
為了有效提取圖像的顯著區(qū),本發(fā)明將構(gòu)建一種基于全卷積神經(jīng)網(wǎng)絡(luò)的多任務(wù)顯著性目標(biāo)檢測(cè)模型。該模型同時(shí)進(jìn)行兩個(gè)任務(wù):顯著性檢測(cè)和語(yǔ)義分割。顯著性檢測(cè)用于對(duì)遙感影像的深度特征學(xué)習(xí),計(jì)算深度顯著性,語(yǔ)義分割用于提取圖像內(nèi)部對(duì)象語(yǔ)義信息,消除顯著圖背景混淆,補(bǔ)充顯著性目標(biāo)缺失部分。
(2)神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練并加入哈希層微調(diào)
本發(fā)明選取大規(guī)模航拍圖像數(shù)據(jù)集(AID)作為標(biāo)準(zhǔn)數(shù)據(jù)集預(yù)訓(xùn)練網(wǎng)絡(luò)。為了使顯著性目標(biāo)檢測(cè)模型學(xué)習(xí)的顯著性特征對(duì)中國(guó)遙感影像的檢索有更好的魯棒性,在武漢大學(xué)遙感影像數(shù)據(jù)集(WHU-RS)的基礎(chǔ)上,在谷歌地球上下載了6050幅不同光照、拍攝角度、分辨率及尺寸的中國(guó)遙感影像,將WHU-RS數(shù)據(jù)集擴(kuò)充至7000幅圖像用于微調(diào)神經(jīng)網(wǎng)絡(luò)。
(3)多層次深度檢索
本發(fā)明提出了一種由粗糙到精細(xì)的檢索方案。粗糙檢索利用哈希層學(xué)習(xí)的二進(jìn)制哈希碼,通過漢明距離度量相似性。精細(xì)檢索將第13、15層卷積層生成的二維遙感影像特征圖映射為一維列向量,作為顯著性特征向量,通過歐氏距離度量相似性。使用基于排名的評(píng)價(jià)標(biāo)準(zhǔn),統(tǒng)計(jì)檢索結(jié)果的查準(zhǔn)率(Precision)。
1.一種基于深度顯著性的遙感影像快速檢索方法,其特征在于包括以下步驟:
步驟1:基于深度顯著性的目標(biāo)檢測(cè)模型構(gòu)建
輸入一幅RGB圖像,經(jīng)過15個(gè)卷積層進(jìn)行一系列卷積操作,然后進(jìn)行顯著性檢測(cè)任務(wù)和超像素目標(biāo)語(yǔ)義分割任務(wù)共享卷積層;前13個(gè)卷積層經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)VGGNet初化,卷積核大小為3×3,每個(gè)卷積層后采用修正線性單元ReLU作為激活函數(shù);第2、4、5、13卷積層后進(jìn)行最大值池化操作;第14、15卷積層的卷積核大小分別為7×7和1×1,第14、15卷積層后連接Dropout層;
通過上采樣構(gòu)建反卷積層,通過雙線性插值初始化其參數(shù),在訓(xùn)練學(xué)習(xí)上采樣函數(shù)中迭代更新;在顯著性目標(biāo)檢測(cè)任務(wù)中通過sigmoid閾值函數(shù)將輸出圖像標(biāo)準(zhǔn)化至[0,1],學(xué)習(xí)顯著性特征;在語(yǔ)義分割任務(wù)中用反卷積層對(duì)最后一個(gè)卷積層的特征圖進(jìn)行上采樣,并且將上采樣的結(jié)果進(jìn)行剪裁,使輸出圖像與輸入圖像大小相同;
步驟2:神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練并加入哈希層微調(diào)
步驟2.1:多任務(wù)顯著性目標(biāo)檢測(cè)模型預(yù)訓(xùn)練
FCNN預(yù)訓(xùn)練通過顯著性檢測(cè)任務(wù)和分割任務(wù)一同展開;χ表示N1幅寬高分別為W和Q的訓(xùn)練圖像的集合,Xi為其中第i幅圖像,Yijk表示第i幅寬高分別為j和k的圖像相應(yīng)的像素級(jí)真實(shí)分割圖,其中i=1…N1,j=1…W,k=1…Q;Z表示N2幅訓(xùn)練圖像的集合,Zn為其中第n幅圖像,n=1…N2,它有相應(yīng)的存在顯著性目標(biāo)的真實(shí)二值圖像Mn;θs為共享卷積層參數(shù),θh為分割任務(wù)參數(shù),θf為顯著性任務(wù)參數(shù);公式(1)、公式(2)分別為分割任務(wù)的交叉熵代價(jià)函數(shù)J1(χ;θs,θh)和顯著性檢測(cè)任務(wù)的平方歐式距離代價(jià)函數(shù)J2(Z;θs,θf),F(xiàn)CNN通過最小化兩個(gè)代價(jià)函數(shù)進(jìn)行訓(xùn)練:
公式(1)中,是指示函數(shù),hcjk是第c類置信分割圖的元素(j,k),c=1…C,h(Xi;θs,θh)是語(yǔ)義分割函數(shù),共返回C個(gè)目標(biāo)類的置信分割圖,C為預(yù)訓(xùn)練數(shù)據(jù)集包含的圖像類別公式(2)中,f(Zn;θs,θf)是顯著圖輸出函數(shù),F(xiàn)表示F-范數(shù)運(yùn)算;
接下來,用隨機(jī)梯度下降SGD方法,在對(duì)所有訓(xùn)練樣本進(jìn)行正則化的基礎(chǔ)上,最小化上述代價(jià)函數(shù);由于用于預(yù)訓(xùn)練的數(shù)據(jù)集沒有同時(shí)具有分割和顯著性標(biāo)注,因此分割任務(wù)和顯著性檢測(cè)任務(wù)交替進(jìn)行;訓(xùn)練過程需要將所有原始圖像大小歸一化;學(xué)習(xí)速率為0.001±0.01;動(dòng)量參數(shù)通常為[0.9,1.0],權(quán)值衰減因子通常為0.0005±0.0002,;隨機(jī)梯度下降學(xué)習(xí)進(jìn)程共進(jìn)行80000次以上迭代;詳細(xì)的預(yù)訓(xùn)練過程如下:
1)共享全卷積參數(shù)基于VGGNet初始化;
2)通過正態(tài)分布隨機(jī)初始化分割任務(wù)參數(shù)和顯著性任務(wù)參數(shù)
3)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò),更新這兩個(gè)參數(shù)為和
4)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò),更新相關(guān)參數(shù)為和
5)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò),獲得和
6)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò),更新相關(guān)參數(shù)為和
7)重復(fù)上述3-6步三次以獲得預(yù)訓(xùn)練最終參數(shù)θs,θh,θf;
步驟2.2:加入哈希層,針對(duì)目標(biāo)域微調(diào)網(wǎng)絡(luò)
在預(yù)訓(xùn)練好的網(wǎng)絡(luò)倒數(shù)第二層和最終的任務(wù)層中間,插入一個(gè)包含s個(gè)神經(jīng)元的全連接層,即哈希層H,將高維特征映射到低維空間,生成二進(jìn)制哈希碼進(jìn)行存儲(chǔ);哈希層H權(quán)重采用隨機(jī)投影構(gòu)造哈希值初始化,神經(jīng)元激活函數(shù)采用sigmoid函數(shù)使輸出值在0到1之間,神經(jīng)元個(gè)數(shù)為目標(biāo)二進(jìn)制碼的碼長(zhǎng);
微調(diào)過程通過反向傳播算法調(diào)節(jié)網(wǎng)絡(luò)權(quán)重;網(wǎng)絡(luò)微調(diào)為調(diào)節(jié)第十個(gè)卷積層之后的網(wǎng)絡(luò)權(quán)重;用于微調(diào)網(wǎng)絡(luò)的數(shù)據(jù)集數(shù)據(jù)量大小與預(yù)訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)集相比會(huì)減少10%-50%,相比預(yù)訓(xùn)練的網(wǎng)絡(luò)參數(shù),微調(diào)過程網(wǎng)絡(luò)參數(shù)迭代次數(shù)和學(xué)習(xí)速率降低1%-10%,動(dòng)量參數(shù)和權(quán)值衰減因子保持不變;
詳細(xì)的微調(diào)過程如下:
1)共享全卷積參數(shù)分割任務(wù)參數(shù)和顯著性任務(wù)參數(shù)通過預(yù)訓(xùn)練過程得到;
2)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò),更新這兩個(gè)參數(shù)為和
3)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò),更新相關(guān)參數(shù)為和
4)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò),獲得和
5)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò),更新相關(guān)參數(shù)為和
6)重復(fù)上述3-6步三次以獲得最終參數(shù)θs,θh,θf;
步驟3:多層次深度檢索
步驟3.1:粗糙檢索
步驟3.1.1:生成二進(jìn)制哈希碼
將一幅待查詢圖像Iq輸入到經(jīng)過微調(diào)的神經(jīng)網(wǎng)絡(luò),提取哈希層的輸出作為圖像簽名,用Out(H)表示;二進(jìn)制碼根據(jù)閾值二值化激活值得到;對(duì)每一個(gè)二進(jìn)制位r=1…s,根據(jù)公式(3)輸出二進(jìn)制碼:
其中,s是哈希層神經(jīng)元個(gè)數(shù),初始值設(shè)置范圍為[40,100];Γ={I1,I2,…,In}表示包含n幅圖像的用于檢索的數(shù)據(jù)集;相應(yīng)的每幅圖像的二進(jìn)制碼表示為ΓH={H1,H2,…,Hn},其中i=1…n,Hi∈{0,1}s表示s個(gè)神經(jīng)元生成的s位二進(jìn)制碼值分別為0或1;
步驟3.1.2:漢明距離度量相似性
兩個(gè)等長(zhǎng)字符串之間的漢明距離是兩個(gè)字符串對(duì)應(yīng)位置的不同字符的個(gè)數(shù);對(duì)于一幅待查詢圖像Iq和它的二進(jìn)制碼Hq,如果Hq和Hi∈ΓH之間的漢明距離小于設(shè)定的閾值,則定義一個(gè)包含m幅候選圖片(candidates)的候選池P={Ic1,Ic2,…,Icm},漢明距離小于5認(rèn)為兩幅圖像是相似的;
步驟3.2:精細(xì)檢索
步驟3.2.1:顯著性特征提取
將待查詢圖像Iq通過神經(jīng)網(wǎng)絡(luò)第13、15層卷積層生成的二維遙感影像特征圖分別映射為一維向量進(jìn)行存儲(chǔ);在后續(xù)檢索過程中分別對(duì)比采用不同特征向量的檢索結(jié)果決定最終選用哪一層卷積生成的特征圖提取遙感影像顯著性特征;
步驟3.2.2:歐式距離度量相似性
對(duì)于一幅查詢圖像Iq和一個(gè)候選池P,使用提取的顯著性特征向量從候選池P中挑選出排名前k幅圖像;Vq和分別表示查詢圖像q和Ici的特征向量;定義Iq和候選池P中第i幅圖像相應(yīng)特征向量之間的歐式距離si作為它們之間的相似性等級(jí),如公式(4)所示;
歐式距離越小,兩幅圖像間的相似性越大;每幅候選圖Ici根據(jù)和查詢圖像的相似度升序排序,排名前k的圖像則為檢索結(jié)果;
步驟3.3:檢索結(jié)果評(píng)價(jià)
使用基于排名的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)檢索結(jié)果進(jìn)行評(píng)價(jià);對(duì)于一幅查詢圖像q和得到的排名前k幅檢索結(jié)果圖像,查準(zhǔn)率Precision根據(jù)以下公式計(jì)算:
其中,Precision@k表示設(shè)定閾值k,在檢索到第k個(gè)正確結(jié)果為止,從第一個(gè)正確結(jié)果到第k個(gè)正確結(jié)果的平均正確率;Rel(i)表示查詢圖像q和排名第i幅圖像的相關(guān)性,Rel(i)∈{0,1},1代表查詢圖像q和排名第i幅圖像具有相同分類,即二者相關(guān),0則不相關(guān)。
本發(fā)明與現(xiàn)有技術(shù)相比,具有以下明顯的優(yōu)勢(shì)和有益效果:
首先,相比傳統(tǒng)人工提取遙感影像特征的方法,本發(fā)明利用全卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建深度顯著性目標(biāo)檢測(cè)模型,選擇國(guó)內(nèi)外遙感影像數(shù)據(jù)庫(kù)訓(xùn)練網(wǎng)絡(luò),綜合分析圖像的三層語(yǔ)義信息,自動(dòng)學(xué)習(xí)遙感影像顯著性特征。同時(shí),創(chuàng)新性地語(yǔ)義分割加入全卷積神經(jīng)網(wǎng)絡(luò)對(duì)遙感影像深度顯著性的學(xué)習(xí),有效完善學(xué)習(xí)到的顯著性特征。實(shí)驗(yàn)證實(shí),采用該模型在場(chǎng)景較為復(fù)雜的多目標(biāo)檢測(cè)數(shù)據(jù)集上,如微軟COCO數(shù)據(jù)集等均可提取到邊緣較清晰的顯著性目標(biāo)。深層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力可進(jìn)一步遷移至對(duì)遙感影像的顯著性特征學(xué)習(xí)。其次,本發(fā)明在全卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中引入哈希層,在學(xué)習(xí)遙感影像深度顯著性特征的同時(shí)生成二進(jìn)制哈希碼,既可節(jié)省存儲(chǔ)空間,又可提高后續(xù)檢索效率。最后,在進(jìn)行圖像檢索時(shí)采用由粗到細(xì)的檢索策略,綜合利用二進(jìn)制哈希碼和顯著性特征進(jìn)行相似性度量。實(shí)驗(yàn)證實(shí),在AlexNet神經(jīng)網(wǎng)絡(luò)中加入哈希層,并采用由粗到細(xì)的多層次檢索策略,在250萬張不同類別的普通圖像檢索中,統(tǒng)計(jì)返回排名前K幅相似圖像的準(zhǔn)確率,即topK查準(zhǔn)率,當(dāng)K取1000時(shí),topK查準(zhǔn)率平均可達(dá)88%,檢索時(shí)間約為1s。因此,將該方法遷移至遙感影像的檢索,對(duì)于實(shí)現(xiàn)遙感影像準(zhǔn)確、高效檢索切實(shí)可行并具有重要應(yīng)用價(jià)值。
附圖說明
圖1基于深度顯著性的遙感影像快速檢索方法流程圖;
圖2基于深度顯著性的目標(biāo)檢測(cè)模型架構(gòu)圖;
圖3加入哈希層的神經(jīng)網(wǎng)絡(luò)架構(gòu)圖;
圖4多層次檢索過程圖。
具體實(shí)施方式
根據(jù)上述描述,以下是一個(gè)具體的實(shí)施流程,但本專利所保護(hù)的范圍并不限于該實(shí)施流程。
步驟1:基于深度顯著性的目標(biāo)檢測(cè)模型構(gòu)建
顯著性區(qū)域,主觀理解為人眼視覺集中注意的區(qū)域,與人眼視覺系統(tǒng)(Human Visual System,HVS)緊密相關(guān),客觀而言則是針對(duì)圖像的某種特征,存在一個(gè)該特征最明顯的子區(qū)。因此,顯著性檢測(cè)問題的關(guān)鍵在于特征學(xué)習(xí)和提取。鑒于深度學(xué)習(xí)在這一方面具有的強(qiáng)大功能,本發(fā)明將全卷積神經(jīng)網(wǎng)絡(luò)用于顯著性檢測(cè)問題,提出了基于全卷積神經(jīng)網(wǎng)絡(luò)的多任務(wù)顯著性目標(biāo)檢測(cè)模型。該模型同時(shí)進(jìn)行兩個(gè)任務(wù):顯著性檢測(cè)任務(wù)和語(yǔ)義分割任務(wù)。顯著性檢測(cè)任務(wù)用于對(duì)遙感影像的深度特征學(xué)習(xí),計(jì)算深度顯著性,語(yǔ)義分割任務(wù)用于提取圖像內(nèi)部對(duì)象語(yǔ)義信息,消除顯著圖背景混淆,補(bǔ)充顯著性目標(biāo)缺失部分。
本發(fā)明提出的全卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)基于主流的開源深度學(xué)習(xí)框架Caffe實(shí)現(xiàn),具體模型結(jié)構(gòu)見附圖2。輸入一幅RGB圖像,經(jīng)過15個(gè)卷積層(Conv)進(jìn)行一系列卷積操作,顯著性檢測(cè)任務(wù)和超像素目標(biāo)語(yǔ)義分割任務(wù)共享卷積層。前13個(gè)卷積層經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)VGGNet初化,卷積核大小為3×3,每個(gè)卷積層后采用修正線性單元(Rectified Linear Unit,ReLU)作為激活函數(shù),從而加快收斂速度。第2、4、5、13卷積層后進(jìn)行最大值池化(Max Pooling)操作,降低特征維度,減少計(jì)算量的同時(shí)保證特征的不變性。第14、15卷積層的卷積核大小分別為7×7和1×1,每層卷積后連接Dropout層以解決復(fù)雜神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)潛在的過擬合現(xiàn)象,即模型過度學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié)而導(dǎo)致在實(shí)際測(cè)試中錯(cuò)誤率較高、泛化能力較差的問題。通過上采樣構(gòu)建反卷積層,通過雙線性插值初始化其參數(shù),在訓(xùn)練學(xué)習(xí)上采樣函數(shù)中迭代更新。在顯著性目標(biāo)檢測(cè)任務(wù)中通過sigmoid閾值函數(shù)將輸出圖像標(biāo)準(zhǔn)化至[0,1],學(xué)習(xí)顯著性特征。在語(yǔ)義分割任務(wù)中用反卷積層對(duì)最后一個(gè)卷積層的特征圖進(jìn)行上采樣,并且將上采樣的結(jié)果進(jìn)行剪裁(Crop),使輸出圖像與輸入圖像大小相同,從而對(duì)每個(gè)像素都產(chǎn)生了一個(gè)預(yù)測(cè),同時(shí)保留了原始輸入圖像中的空間信息。
步驟2:神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練并加入哈希層微調(diào)
本發(fā)明使用公開的大規(guī)模航拍圖像數(shù)據(jù)集(AID)用于神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練,旨在更好地學(xué)習(xí)遙感影像不同級(jí)別的語(yǔ)義特征。引入哈希層,利用擴(kuò)充的武漢大學(xué)遙感影像數(shù)據(jù)集(WHU-RS)進(jìn)一步微調(diào)網(wǎng)絡(luò),不但可以將神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的高維特征映射到低維,縮短檢索時(shí)間,還能使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征更具魯棒性。
步驟2.1:多任務(wù)顯著性目標(biāo)檢測(cè)模型預(yù)訓(xùn)練
步驟2.1.1:構(gòu)建預(yù)訓(xùn)練數(shù)據(jù)集
預(yù)訓(xùn)練階段選擇公開的大規(guī)模航拍圖像數(shù)據(jù)集(AID)作為標(biāo)準(zhǔn)數(shù)據(jù)集用于預(yù)訓(xùn)練。AID包含30個(gè)類別,10000幅航拍圖像,所有圖像均選自谷歌地球,經(jīng)專業(yè)的遙感技術(shù)領(lǐng)域人員標(biāo)注。每個(gè)分類的圖像都取自不同國(guó)家、地區(qū),在不同時(shí)間通過不同拍攝遙感探測(cè)儀拍攝,圖像尺寸為600×600像素,分辨率為0.5m/像素到8m/像素不等。相比其他數(shù)據(jù)集,該數(shù)據(jù)集類內(nèi)差距較小,類間差距較大,是目前航拍圖像數(shù)據(jù)集中規(guī)模最大的數(shù)據(jù)集。
步驟2.1.2:顯著性目標(biāo)檢測(cè)模型預(yù)訓(xùn)練
FCNN預(yù)訓(xùn)練通過顯著性檢測(cè)任務(wù)和分割任務(wù)一同展開。χ表示N1幅寬高分別為W和Q的訓(xùn)練圖像的集合,Xi為其中第i幅圖像,Yijk表示第i幅寬高分別為j和k的圖像相應(yīng)的像素級(jí)真實(shí)分割圖,其中i=1…N1,j=1…W,k=1…Q。Z表示N2幅訓(xùn)練圖像的集合,Zn為其中第n幅圖像,n=1…N2,它有相應(yīng)的存在顯著性目標(biāo)的真實(shí)二值圖像Mn。θs為共享卷積層參數(shù),θh為分割任務(wù)參數(shù),θf為顯著性任務(wù)參數(shù)。公式(1)、公式(2)分別為分割任務(wù)的交叉熵代價(jià)函數(shù)J1(χ;θs,θh)和顯著性檢測(cè)任務(wù)的平方歐式距離代價(jià)函數(shù)J2(Z;θs,θf),F(xiàn)CNN通過最小化兩個(gè)代價(jià)函數(shù)進(jìn)行訓(xùn)練:
公式(1)中,是指示函數(shù),hcjk是第c類置信分割圖的元素(j,k),c=1…C,h(Xi;θs,θh)是語(yǔ)義分割函數(shù),共返回C個(gè)目標(biāo)類的置信分割圖,C為預(yù)訓(xùn)練數(shù)據(jù)集包含的圖像類別,本發(fā)明中C取30;公式(2)中,f(Zn;θs,θf)是顯著圖輸出函數(shù),F(xiàn)表示F-范數(shù)運(yùn)算。
接下來,用隨機(jī)梯度下降(SGD)方法,在對(duì)所有訓(xùn)練樣本進(jìn)行正則化的基礎(chǔ)上,最小化上述代價(jià)函數(shù)。由于用于預(yù)訓(xùn)練的數(shù)據(jù)集沒有同時(shí)具有分割和顯著性標(biāo)注,因此分割任務(wù)和顯著性檢測(cè)任務(wù)交替進(jìn)行。由于訓(xùn)練過程需要將所有原始圖像大小歸一化,因此本發(fā)明將原始圖像重置大小為500×500像素用于預(yù)訓(xùn)練。學(xué)習(xí)速率是SGD學(xué)習(xí)方法的必要參數(shù),決定了權(quán)值更新的速度,設(shè)置得太大會(huì)導(dǎo)致代價(jià)函數(shù)振蕩,結(jié)果越過最優(yōu)值,太小會(huì)使收斂速度過慢,一般傾向于選取較小的學(xué)習(xí)速率,如0.001±0.01以保持系統(tǒng)穩(wěn)定。動(dòng)量參數(shù)和權(quán)值衰減因子可提高訓(xùn)練自適應(yīng)性,動(dòng)量參數(shù)通常為[0.9,1.0],權(quán)值衰減因子通常為0.0005±0.0002。通過實(shí)驗(yàn)觀察,本發(fā)明將學(xué)習(xí)速率設(shè)為10-10,動(dòng)量參數(shù)設(shè)為0.99,權(quán)值衰減因子取Caffe框架默認(rèn)值0.0005。隨機(jī)梯度下降(SGD)學(xué)習(xí)進(jìn)程通過NVIDIA GTX 1080GPU設(shè)備加速,共進(jìn)行80000次迭代。詳細(xì)的預(yù)訓(xùn)練過程如下:
1)共享全卷積參數(shù)基于VGGNet初始化;
2)通過正態(tài)分布隨機(jī)初始化分割任務(wù)參數(shù)和顯著性任務(wù)參數(shù)
3)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò),更新這兩個(gè)參數(shù)為和
4)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò),更新相關(guān)參數(shù)為和
5)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò),獲得和
6)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò),更新相關(guān)參數(shù)為和
7)重復(fù)上述3-6步三次以獲得預(yù)訓(xùn)練最終參數(shù)θs,θh,θf。
步驟2.2:加入哈希層,針對(duì)目標(biāo)域微調(diào)網(wǎng)絡(luò)
步驟2.2.1:構(gòu)建用于微調(diào)網(wǎng)絡(luò)的中國(guó)遙感影像數(shù)據(jù)集
選用擴(kuò)充的武漢大學(xué)遙感影像數(shù)據(jù)集(WHU-RS)用于神經(jīng)網(wǎng)絡(luò)微調(diào)。原始WHU-RS數(shù)據(jù)集包含19個(gè)場(chǎng)景分類,共950幅分辨率不等的遙感圖像,圖像尺寸為600×600像素,所有圖像均取自谷歌地球。結(jié)合中國(guó)的地形地貌,在原始數(shù)據(jù)集的基礎(chǔ)上重構(gòu)并且擴(kuò)展至7000幅遙感影像作為樣本庫(kù),每個(gè)類別包含超過200幅圖像。新增樣本圖像的光照、拍攝角度、分辨率及尺寸均不同,利于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更具魯棒性的顯著性特征。
步驟2.2.2:加入哈希層微調(diào)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)生成的特征向量維度較高,在大規(guī)模的圖像檢索中非常耗時(shí)。由于具有相似的圖像二進(jìn)制哈希碼相似,因此,本發(fā)明在預(yù)訓(xùn)練好的網(wǎng)絡(luò)倒數(shù)第二層和最終的任務(wù)層中間,插入一個(gè)包含s個(gè)神經(jīng)元的全連接層,即哈希層H,將高維特征映射到低維空間,生成二進(jìn)制哈希碼進(jìn)行存儲(chǔ),網(wǎng)絡(luò)結(jié)構(gòu)見附圖3。哈希層H權(quán)重采用隨機(jī)投影構(gòu)造哈希值初始化,神經(jīng)元激活函數(shù)采用sigmoid函數(shù)使輸出值在0到1之間,根據(jù)經(jīng)驗(yàn)設(shè)定閾值為0.5,神經(jīng)元個(gè)數(shù)為目標(biāo)二進(jìn)制碼的碼長(zhǎng)。哈希層不但提供了前一層的特征抽象,也是連接中級(jí)和高級(jí)圖像語(yǔ)義特征的橋梁。
微調(diào)過程通過反向傳播(Back Propagation)算法調(diào)節(jié)網(wǎng)絡(luò)權(quán)重。網(wǎng)絡(luò)微調(diào)可針對(duì)整個(gè)網(wǎng)絡(luò)或部分網(wǎng)絡(luò)進(jìn)行。由于低層網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)到的特征更為一般化,并且為了避免發(fā)生過擬合,本發(fā)明利用擴(kuò)充的WHU-RS數(shù)據(jù)集,重點(diǎn)調(diào)節(jié)高層網(wǎng)絡(luò),即第十個(gè)卷積層之后的網(wǎng)絡(luò)權(quán)重。通常,用于微調(diào)網(wǎng)絡(luò)的數(shù)據(jù)集數(shù)據(jù)量大小與預(yù)訓(xùn)練數(shù)據(jù)集相比會(huì)減少10%-50%,本發(fā)明中,微調(diào)網(wǎng)絡(luò)數(shù)據(jù)集包含7000幅圖像,明顯小于預(yù)訓(xùn)練時(shí)包含10000幅圖像的數(shù)據(jù)集,相比預(yù)訓(xùn)練的網(wǎng)絡(luò)參數(shù),微調(diào)過程網(wǎng)絡(luò)參數(shù)要適當(dāng)減小,迭代次數(shù)和學(xué)習(xí)速率可降低1%-10%。本發(fā)明中,微調(diào)過程將迭代次數(shù)減少至8000次,學(xué)習(xí)速率降低1%,為10-12,動(dòng)量參數(shù)和權(quán)值衰減因子保持不變,即分別設(shè)為0.99和0.0005。
詳細(xì)的微調(diào)過程如下:
1)共享全卷積參數(shù)分割任務(wù)參數(shù)和顯著性任務(wù)參數(shù)通過預(yù)訓(xùn)練過程得到;
2)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò),更新這兩個(gè)參數(shù)為和
3)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò),更新相關(guān)參數(shù)為和
4)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò),獲得和
5)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò),更新相關(guān)參數(shù)為和
6)重復(fù)上述3-6步三次以獲得最終參數(shù)θs,θh,θf。
步驟3:多層次深度檢索
深度卷積神經(jīng)網(wǎng)絡(luò)的淺層部分學(xué)習(xí)底層視覺特征,而深層部分可捕捉圖像語(yǔ)義信息。因此,本發(fā)明采用由粗到細(xì)的檢索策略實(shí)現(xiàn)快速、準(zhǔn)確的圖像檢索。特征提取及檢索過程見附圖4。
步驟3.1:粗糙檢索
首先檢索一系列有相似高級(jí)語(yǔ)義特征的候選區(qū),即在哈希層擁有相似的二進(jìn)制激活值,然后根據(jù)相似性度量進(jìn)一步生成相似圖像排名。
步驟3.1.1:生成二進(jìn)制哈希碼
將一幅待查詢圖像Iq輸入到經(jīng)過微調(diào)的神經(jīng)網(wǎng)絡(luò),提取哈希層的輸出作為圖像簽名,用Out(H)表示。二進(jìn)制碼根據(jù)閾值二值化激活值得到。對(duì)每一個(gè)二進(jìn)制位r=1…s,根據(jù)公式(3)輸出二進(jìn)制碼:
其中,s是哈希層神經(jīng)元個(gè)數(shù),個(gè)數(shù)過多會(huì)出現(xiàn)過擬合,建議初始值設(shè)置范圍為[40,100],具體數(shù)值根據(jù)實(shí)訓(xùn)練數(shù)據(jù)進(jìn)行調(diào)整,本發(fā)明中s設(shè)為48。Γ={I1,I2,…,In}表示包含n幅圖像的用于檢索的數(shù)據(jù)集。相應(yīng)的每幅圖像的二進(jìn)制碼表示為ΓH={H1,H2,…,Hn},其中i=1…n,Hi∈{0,1}s表示s個(gè)神經(jīng)元生成的s位二進(jìn)制碼值分別為0或1。
步驟3.1.2:漢明距離度量相似性
兩個(gè)等長(zhǎng)字符串之間的漢明距離是兩個(gè)字符串對(duì)應(yīng)位置的不同字符的個(gè)數(shù)。對(duì)于一幅待查詢圖像Iq和它的二進(jìn)制碼Hq,如果Hq和Hi∈ΓH之間的漢明距離小于設(shè)定的閾值,則定義一個(gè)包含m幅候選圖片(candidates)的候選池P={Ic1,Ic2,…,Icm},一般情況下,漢明距離小于5就可以認(rèn)為兩幅圖像是相似的。
步驟3.2:精細(xì)檢索
步驟3.2.1:顯著性特征提取
由于深度卷積網(wǎng)絡(luò)不同卷積層學(xué)習(xí)不同圖像不同級(jí)別的語(yǔ)義特征,其中,中高層卷積層學(xué)習(xí)到的特征更適用與圖像檢索任務(wù)。因此,將待查詢圖像Iq通過神經(jīng)網(wǎng)絡(luò)第13、15層卷積層生成的二維遙感影像特征圖分別映射為一維向量進(jìn)行存儲(chǔ)。在后續(xù)檢索過程中分別對(duì)比采用不同特征向量的檢索結(jié)果決定最終選用哪一層卷積生成的特征圖提取遙感影像顯著性特征。
步驟3.2.2:歐式距離度量相似性
對(duì)于一幅查詢圖像Iq和一個(gè)候選池P,使用提取的顯著性特征向量從候選池P中挑選出排名前k幅圖像。Vq和分別表示查詢圖像q和Ici的特征向量。定義Iq和候選池P中第i幅圖像相應(yīng)特征向量之間的歐式距離si作為它們之間的相似性等級(jí),如公式(4)所示。
歐式距離越小,兩幅圖像間的相似性越大。每幅候選圖Ici根據(jù)和查詢圖像的相似度升序排序,排名前k的圖像則為檢索結(jié)果。
步驟3.3:檢索結(jié)果評(píng)價(jià)
本發(fā)明使用基于排名的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)檢索結(jié)果進(jìn)行評(píng)價(jià)。對(duì)于一幅查詢圖像q和得到的排名前k幅檢索結(jié)果圖像,查準(zhǔn)率(Precision)根據(jù)以下公式計(jì)算:
其中,Precision@k表示根據(jù)實(shí)際需求設(shè)定閾值k,在檢索到第k個(gè)正確結(jié)果為止,從第一個(gè)正確結(jié)果到第k個(gè)正確結(jié)果的平均正確率;Rel(i)表示查詢圖像q和排名第i幅圖像的相關(guān)性,Rel(i)∈{0,1},1代表查詢圖像q和排名第i幅圖像具有相同分類,即二者相關(guān),0則不相關(guān)。