一種基于深度顯著性的遙感影像快速檢索方法與流程

文檔序號(hào)：12786904閱讀：221來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明以遙感影像為研究對(duì)象，利用人工智能領(lǐng)域的最新研究成果——深度學(xué)習(xí)技術(shù)，研究了一種遙感影像的快速檢索方法。首先采用全卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建多任務(wù)顯著性目標(biāo)檢測(cè)模型，計(jì)算遙感影像的深度顯著性特征；然后改進(jìn)深度網(wǎng)絡(luò)結(jié)構(gòu)，加入哈希層學(xué)習(xí)得到二進(jìn)制哈希碼；最后綜合利用顯著性特征和哈希碼實(shí)現(xiàn)遙感影像準(zhǔn)確、快速檢索。本發(fā)明屬于計(jì)算機(jī)視覺領(lǐng)域，具體涉及深度學(xué)習(xí)、顯著性目標(biāo)檢測(cè)和圖像檢索等技術(shù)。

背景技術(shù)：

遙感影像數(shù)據(jù)作為地理信息系統(tǒng)(Geographic Information System，GIS)、全球定位系統(tǒng)(Global Positioning System，GPS)、遙感測(cè)繪技術(shù)(remote sensing system，RS)三大空間信息技術(shù)中的基礎(chǔ)數(shù)據(jù)，廣泛應(yīng)用于環(huán)境監(jiān)測(cè)、資源調(diào)查、土地利用、城市規(guī)劃、自然災(zāi)害分析和軍事等各個(gè)領(lǐng)域。近年來，隨著高分辨率遙感衛(wèi)星、成像雷達(dá)以及無人機(jī)駕駛飛機(jī)(Unmanned Aerial Vehicle)技術(shù)的發(fā)展，遙感影像數(shù)據(jù)進(jìn)一步呈現(xiàn)海量、復(fù)雜和高分辨率的特點(diǎn)，實(shí)現(xiàn)遙感影像高效、準(zhǔn)確檢索對(duì)于促進(jìn)遙感影像信息的準(zhǔn)確提取和數(shù)據(jù)共享具有重要的研究意義和應(yīng)用價(jià)值。

圖像檢索技術(shù)由早期的基于文本的圖像檢索(Text-Based Image Retrieval，TBIR)逐漸發(fā)展為通過提取圖像特征實(shí)現(xiàn)基于內(nèi)容的圖像檢索(Content-Based Image Retrieval，CBIR)。基于顯著性目標(biāo)的圖像檢索方法，能夠快速地從復(fù)雜場(chǎng)景中選擇少數(shù)幾個(gè)顯著的區(qū)域進(jìn)行優(yōu)先處理，從而有效降低數(shù)據(jù)處理復(fù)雜度，提高檢索效率。相比普通圖像檢索，遙感影像包含的信息復(fù)雜多變，目標(biāo)小且與背景區(qū)分不明顯，如果仍采用傳統(tǒng)的顯著性檢測(cè)方法將難以實(shí)現(xiàn)對(duì)遙感影像顯著性特征的準(zhǔn)確描述與分析。近年來，隨著人工智能領(lǐng)域的最新研究成果——深度學(xué)習(xí)技術(shù)的提出，例如：以全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Neural Network，F(xiàn)CNN)為代表的深度神經(jīng)網(wǎng)絡(luò)，憑借其獨(dú)特的類似于人眼局部感受的卷積核以及類似于生物神經(jīng)的層次級(jí)聯(lián)結(jié)構(gòu)，在圖像深度顯著性特征學(xué)習(xí)方面表現(xiàn)出優(yōu)良的魯棒性。其權(quán)值共享的特性也使得網(wǎng)絡(luò)參數(shù)大大減少，同時(shí)降低了對(duì)訓(xùn)練數(shù)據(jù)過擬合的風(fēng)險(xiǎn)，比其他種類的深度網(wǎng)絡(luò)更易于訓(xùn)練，可以提高顯著性特征的表征準(zhǔn)確度。

考慮到遙感影像數(shù)量日益增加，圖像語(yǔ)義描述能力有限等問題，本發(fā)明以公開的大規(guī)模航拍圖像數(shù)據(jù)集(AID)、武漢大學(xué)遙感影像數(shù)據(jù)集(WHU-RS)及谷歌地球遙感影像為數(shù)據(jù)來源，提出一種基于深度顯著性的遙感影像快速檢索方法。首先，構(gòu)建基于全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Neural Network，F(xiàn)CNN)的多任務(wù)顯著性目標(biāo)檢測(cè)模型，在預(yù)訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)遙感影像不同層次的語(yǔ)義信息作為深度顯著性特征并轉(zhuǎn)換為一維列向量。進(jìn)一步微調(diào)神經(jīng)網(wǎng)絡(luò)模型，引入哈希層并增加訓(xùn)練樣本，將該模型學(xué)習(xí)到的遙感影像高維顯著性特征以二進(jìn)制哈希碼(Binary Hash Codes)的形式映射到低維空間，分別存儲(chǔ)顯著性特征向量和哈希碼構(gòu)建特征數(shù)據(jù)庫(kù)。通過訓(xùn)練好的模型提取待查詢的遙感圖像顯著性特征向量和哈希碼，對(duì)比特征數(shù)據(jù)庫(kù)，計(jì)算哈希碼漢明距離(Hamming Distance)和顯著性特征向量歐氏距離(Euclidean Distance)度量相似度，實(shí)現(xiàn)遙感影像快速檢索。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明與已有的遙感影像檢索方法不同，利用深度學(xué)習(xí)技術(shù)，提出一種基于深度顯著性的遙感影像快速檢索方法。首先，采用全卷積神經(jīng)網(wǎng)絡(luò)(FCNN)構(gòu)建多任務(wù)深度顯著性目標(biāo)檢測(cè)模型，將普通卷積神經(jīng)網(wǎng)絡(luò)(CNN)圖像級(jí)別的分類進(jìn)一步延伸到像素級(jí)別的分類。在大規(guī)模航拍圖像數(shù)據(jù)集(AID)上預(yù)訓(xùn)練網(wǎng)絡(luò)，顯著性檢測(cè)任務(wù)和語(yǔ)義分割任務(wù)共享卷積層，綜合學(xué)習(xí)遙感影像的三層語(yǔ)義信息，有效去除特征冗余，準(zhǔn)確提取深度顯著性特征。其次，在該模型中加入哈希層，擴(kuò)充武漢大學(xué)遙感影像數(shù)據(jù)集(WHU-RS)微調(diào)神經(jīng)網(wǎng)絡(luò)，利用深度神經(jīng)網(wǎng)絡(luò)通過隨機(jī)梯度下降算法(Stochastic Gradient Descent，SGD)實(shí)現(xiàn)增量學(xué)習(xí)的優(yōu)勢(shì)，逐點(diǎn)學(xué)習(xí)二進(jìn)制哈希碼，實(shí)現(xiàn)高維顯著性特征降維，既可節(jié)省存儲(chǔ)空間又可提升檢索效率。同時(shí)，相比傳統(tǒng)需要成對(duì)輸入訓(xùn)練樣本的哈希方法，本發(fā)明所采用的方法在大規(guī)模數(shù)據(jù)集上更易擴(kuò)展。將神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練和微調(diào)過程學(xué)習(xí)的顯著性特征轉(zhuǎn)化為一維列向量，和二進(jìn)制哈希碼一同構(gòu)建特征數(shù)據(jù)庫(kù)。最后，在圖像檢索階段采用由粗到細(xì)的檢索策略，綜合利用二進(jìn)制哈希碼和顯著性特征度量漢明距離和歐式距離，實(shí)現(xiàn)遙感影像快速、準(zhǔn)確檢索。本方法主要過程如附圖1所示，可分為以下三個(gè)步驟：基于深度顯著性的目標(biāo)檢測(cè)模型構(gòu)建、神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練并加入哈希層微調(diào)和多層次深度檢索。

(1)基于深度顯著性的目標(biāo)檢測(cè)模型構(gòu)建

為了有效提取圖像的顯著區(qū)，本發(fā)明將構(gòu)建一種基于全卷積神經(jīng)網(wǎng)絡(luò)的多任務(wù)顯著性目標(biāo)檢測(cè)模型。該模型同時(shí)進(jìn)行兩個(gè)任務(wù)：顯著性檢測(cè)和語(yǔ)義分割。顯著性檢測(cè)用于對(duì)遙感影像的深度特征學(xué)習(xí)，計(jì)算深度顯著性，語(yǔ)義分割用于提取圖像內(nèi)部對(duì)象語(yǔ)義信息，消除顯著圖背景混淆，補(bǔ)充顯著性目標(biāo)缺失部分。

(2)神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練并加入哈希層微調(diào)

本發(fā)明選取大規(guī)模航拍圖像數(shù)據(jù)集(AID)作為標(biāo)準(zhǔn)數(shù)據(jù)集預(yù)訓(xùn)練網(wǎng)絡(luò)。為了使顯著性目標(biāo)檢測(cè)模型學(xué)習(xí)的顯著性特征對(duì)中國(guó)遙感影像的檢索有更好的魯棒性，在武漢大學(xué)遙感影像數(shù)據(jù)集(WHU-RS)的基礎(chǔ)上，在谷歌地球上下載了6050幅不同光照、拍攝角度、分辨率及尺寸的中國(guó)遙感影像，將WHU-RS數(shù)據(jù)集擴(kuò)充至7000幅圖像用于微調(diào)神經(jīng)網(wǎng)絡(luò)。

(3)多層次深度檢索

本發(fā)明提出了一種由粗糙到精細(xì)的檢索方案。粗糙檢索利用哈希層學(xué)習(xí)的二進(jìn)制哈希碼，通過漢明距離度量相似性。精細(xì)檢索將第13、15層卷積層生成的二維遙感影像特征圖映射為一維列向量，作為顯著性特征向量，通過歐氏距離度量相似性。使用基于排名的評(píng)價(jià)標(biāo)準(zhǔn)，統(tǒng)計(jì)檢索結(jié)果的查準(zhǔn)率(Precision)。

1.一種基于深度顯著性的遙感影像快速檢索方法，其特征在于包括以下步驟：

步驟1：基于深度顯著性的目標(biāo)檢測(cè)模型構(gòu)建

輸入一幅RGB圖像，經(jīng)過15個(gè)卷積層進(jìn)行一系列卷積操作，然后進(jìn)行顯著性檢測(cè)任務(wù)和超像素目標(biāo)語(yǔ)義分割任務(wù)共享卷積層；前13個(gè)卷積層經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)VGGNet初化，卷積核大小為3×3，每個(gè)卷積層后采用修正線性單元ReLU作為激活函數(shù)；第2、4、5、13卷積層后進(jìn)行最大值池化操作；第14、15卷積層的卷積核大小分別為7×7和1×1，第14、15卷積層后連接Dropout層；

通過上采樣構(gòu)建反卷積層，通過雙線性插值初始化其參數(shù)，在訓(xùn)練學(xué)習(xí)上采樣函數(shù)中迭代更新；在顯著性目標(biāo)檢測(cè)任務(wù)中通過sigmoid閾值函數(shù)將輸出圖像標(biāo)準(zhǔn)化至[0,1]，學(xué)習(xí)顯著性特征；在語(yǔ)義分割任務(wù)中用反卷積層對(duì)最后一個(gè)卷積層的特征圖進(jìn)行上采樣,并且將上采樣的結(jié)果進(jìn)行剪裁，使輸出圖像與輸入圖像大小相同；

步驟2：神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練并加入哈希層微調(diào)

步驟2.1：多任務(wù)顯著性目標(biāo)檢測(cè)模型預(yù)訓(xùn)練

FCNN預(yù)訓(xùn)練通過顯著性檢測(cè)任務(wù)和分割任務(wù)一同展開；χ表示N₁幅寬高分別為W和Q的訓(xùn)練圖像的集合，Xi為其中第i幅圖像，Y_ijk表示第i幅寬高分別為j和k的圖像相應(yīng)的像素級(jí)真實(shí)分割圖，其中i＝1…N₁，j＝1…W，k＝1…Q；Z表示N₂幅訓(xùn)練圖像的集合，Z_n為其中第n幅圖像，n＝1…N₂，它有相應(yīng)的存在顯著性目標(biāo)的真實(shí)二值圖像M_n；θ_s為共享卷積層參數(shù)，θ_h為分割任務(wù)參數(shù)，θ_f為顯著性任務(wù)參數(shù)；公式(1)、公式(2)分別為分割任務(wù)的交叉熵代價(jià)函數(shù)J₁(χ；θ_s,θ_h)和顯著性檢測(cè)任務(wù)的平方歐式距離代價(jià)函數(shù)J₂(Z；θ_s,θ_f)，F(xiàn)CNN通過最小化兩個(gè)代價(jià)函數(shù)進(jìn)行訓(xùn)練：

公式(1)中，是指示函數(shù)，h_cjk是第c類置信分割圖的元素(j,k)，c＝1…C，h(Xi；θ_s,θ_h)是語(yǔ)義分割函數(shù)，共返回C個(gè)目標(biāo)類的置信分割圖，C為預(yù)訓(xùn)練數(shù)據(jù)集包含的圖像類別公式(2)中，f(Z_n；θ_s,θ_f)是顯著圖輸出函數(shù)，F(xiàn)表示F-范數(shù)運(yùn)算；

接下來，用隨機(jī)梯度下降SGD方法，在對(duì)所有訓(xùn)練樣本進(jìn)行正則化的基礎(chǔ)上，最小化上述代價(jià)函數(shù)；由于用于預(yù)訓(xùn)練的數(shù)據(jù)集沒有同時(shí)具有分割和顯著性標(biāo)注，因此分割任務(wù)和顯著性檢測(cè)任務(wù)交替進(jìn)行；訓(xùn)練過程需要將所有原始圖像大小歸一化；學(xué)習(xí)速率為0.001±0.01；動(dòng)量參數(shù)通常為[0.9,1.0]，權(quán)值衰減因子通常為0.0005±0.0002，；隨機(jī)梯度下降學(xué)習(xí)進(jìn)程共進(jìn)行80000次以上迭代；詳細(xì)的預(yù)訓(xùn)練過程如下：

1)共享全卷積參數(shù)基于VGGNet初始化；

2)通過正態(tài)分布隨機(jī)初始化分割任務(wù)參數(shù)和顯著性任務(wù)參數(shù)

3)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò)，更新這兩個(gè)參數(shù)為和

4)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò)，更新相關(guān)參數(shù)為和

5)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò)，獲得和

6)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò)，更新相關(guān)參數(shù)為和

7)重復(fù)上述3-6步三次以獲得預(yù)訓(xùn)練最終參數(shù)θ_s，θ_h，θ_f；

步驟2.2：加入哈希層，針對(duì)目標(biāo)域微調(diào)網(wǎng)絡(luò)

在預(yù)訓(xùn)練好的網(wǎng)絡(luò)倒數(shù)第二層和最終的任務(wù)層中間，插入一個(gè)包含s個(gè)神經(jīng)元的全連接層，即哈希層H，將高維特征映射到低維空間，生成二進(jìn)制哈希碼進(jìn)行存儲(chǔ)；哈希層H權(quán)重采用隨機(jī)投影構(gòu)造哈希值初始化，神經(jīng)元激活函數(shù)采用sigmoid函數(shù)使輸出值在0到1之間，神經(jīng)元個(gè)數(shù)為目標(biāo)二進(jìn)制碼的碼長(zhǎng)；

微調(diào)過程通過反向傳播算法調(diào)節(jié)網(wǎng)絡(luò)權(quán)重；網(wǎng)絡(luò)微調(diào)為調(diào)節(jié)第十個(gè)卷積層之后的網(wǎng)絡(luò)權(quán)重；用于微調(diào)網(wǎng)絡(luò)的數(shù)據(jù)集數(shù)據(jù)量大小與預(yù)訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)集相比會(huì)減少10％-50％，相比預(yù)訓(xùn)練的網(wǎng)絡(luò)參數(shù)，微調(diào)過程網(wǎng)絡(luò)參數(shù)迭代次數(shù)和學(xué)習(xí)速率降低1％-10％，動(dòng)量參數(shù)和權(quán)值衰減因子保持不變；

詳細(xì)的微調(diào)過程如下：

1)共享全卷積參數(shù)分割任務(wù)參數(shù)和顯著性任務(wù)參數(shù)通過預(yù)訓(xùn)練過程得到；

2)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò)，更新這兩個(gè)參數(shù)為和

3)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò)，更新相關(guān)參數(shù)為和

4)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò)，獲得和

5)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò)，更新相關(guān)參數(shù)為和

6)重復(fù)上述3-6步三次以獲得最終參數(shù)θ_s，θ_h，θ_f；

步驟3：多層次深度檢索

步驟3.1：粗糙檢索

步驟3.1.1：生成二進(jìn)制哈希碼

將一幅待查詢圖像I_q輸入到經(jīng)過微調(diào)的神經(jīng)網(wǎng)絡(luò)，提取哈希層的輸出作為圖像簽名，用Out(H)表示；二進(jìn)制碼根據(jù)閾值二值化激活值得到；對(duì)每一個(gè)二進(jìn)制位r＝1…s，根據(jù)公式(3)輸出二進(jìn)制碼：

其中，s是哈希層神經(jīng)元個(gè)數(shù)，初始值設(shè)置范圍為[40,100]；Γ＝{I₁,I₂,…,I_n}表示包含n幅圖像的用于檢索的數(shù)據(jù)集；相應(yīng)的每幅圖像的二進(jìn)制碼表示為Γ_H＝{H₁,H₂,…,H_n}，其中i＝1…n，H_i∈{0,1}^s表示s個(gè)神經(jīng)元生成的s位二進(jìn)制碼值分別為0或1；

步驟3.1.2：漢明距離度量相似性

兩個(gè)等長(zhǎng)字符串之間的漢明距離是兩個(gè)字符串對(duì)應(yīng)位置的不同字符的個(gè)數(shù)；對(duì)于一幅待查詢圖像I_q和它的二進(jìn)制碼H_q，如果H_q和H_i∈Γ_H之間的漢明距離小于設(shè)定的閾值，則定義一個(gè)包含m幅候選圖片(candidates)的候選池P＝{I_c1,I_c2,…,I_cm}，漢明距離小于5認(rèn)為兩幅圖像是相似的；

步驟3.2：精細(xì)檢索

步驟3.2.1：顯著性特征提取

將待查詢圖像I_q通過神經(jīng)網(wǎng)絡(luò)第13、15層卷積層生成的二維遙感影像特征圖分別映射為一維向量進(jìn)行存儲(chǔ)；在后續(xù)檢索過程中分別對(duì)比采用不同特征向量的檢索結(jié)果決定最終選用哪一層卷積生成的特征圖提取遙感影像顯著性特征；

步驟3.2.2：歐式距離度量相似性

對(duì)于一幅查詢圖像I_q和一個(gè)候選池P，使用提取的顯著性特征向量從候選池P中挑選出排名前k幅圖像；V_q和分別表示查詢圖像q和I_ci的特征向量；定義I_q和候選池P中第i幅圖像相應(yīng)特征向量之間的歐式距離s_i作為它們之間的相似性等級(jí)，如公式(4)所示；

歐式距離越小，兩幅圖像間的相似性越大；每幅候選圖I_ci根據(jù)和查詢圖像的相似度升序排序，排名前k的圖像則為檢索結(jié)果；

步驟3.3：檢索結(jié)果評(píng)價(jià)

使用基于排名的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)檢索結(jié)果進(jìn)行評(píng)價(jià)；對(duì)于一幅查詢圖像q和得到的排名前k幅檢索結(jié)果圖像，查準(zhǔn)率Precision根據(jù)以下公式計(jì)算：

其中，Precision@k表示設(shè)定閾值k，在檢索到第k個(gè)正確結(jié)果為止，從第一個(gè)正確結(jié)果到第k個(gè)正確結(jié)果的平均正確率；Rel(i)表示查詢圖像q和排名第i幅圖像的相關(guān)性，Rel(i)∈{0,1}，1代表查詢圖像q和排名第i幅圖像具有相同分類，即二者相關(guān)，0則不相關(guān)。

本發(fā)明與現(xiàn)有技術(shù)相比，具有以下明顯的優(yōu)勢(shì)和有益效果：

首先，相比傳統(tǒng)人工提取遙感影像特征的方法，本發(fā)明利用全卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建深度顯著性目標(biāo)檢測(cè)模型，選擇國(guó)內(nèi)外遙感影像數(shù)據(jù)庫(kù)訓(xùn)練網(wǎng)絡(luò)，綜合分析圖像的三層語(yǔ)義信息，自動(dòng)學(xué)習(xí)遙感影像顯著性特征。同時(shí)，創(chuàng)新性地語(yǔ)義分割加入全卷積神經(jīng)網(wǎng)絡(luò)對(duì)遙感影像深度顯著性的學(xué)習(xí)，有效完善學(xué)習(xí)到的顯著性特征。實(shí)驗(yàn)證實(shí)，采用該模型在場(chǎng)景較為復(fù)雜的多目標(biāo)檢測(cè)數(shù)據(jù)集上，如微軟COCO數(shù)據(jù)集等均可提取到邊緣較清晰的顯著性目標(biāo)。深層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力可進(jìn)一步遷移至對(duì)遙感影像的顯著性特征學(xué)習(xí)。其次，本發(fā)明在全卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中引入哈希層，在學(xué)習(xí)遙感影像深度顯著性特征的同時(shí)生成二進(jìn)制哈希碼，既可節(jié)省存儲(chǔ)空間，又可提高后續(xù)檢索效率。最后，在進(jìn)行圖像檢索時(shí)采用由粗到細(xì)的檢索策略，綜合利用二進(jìn)制哈希碼和顯著性特征進(jìn)行相似性度量。實(shí)驗(yàn)證實(shí)，在AlexNet神經(jīng)網(wǎng)絡(luò)中加入哈希層，并采用由粗到細(xì)的多層次檢索策略，在250萬張不同類別的普通圖像檢索中，統(tǒng)計(jì)返回排名前K幅相似圖像的準(zhǔn)確率，即topK查準(zhǔn)率，當(dāng)K取1000時(shí)，topK查準(zhǔn)率平均可達(dá)88％，檢索時(shí)間約為1s。因此，將該方法遷移至遙感影像的檢索，對(duì)于實(shí)現(xiàn)遙感影像準(zhǔn)確、高效檢索切實(shí)可行并具有重要應(yīng)用價(jià)值。

附圖說明

圖1基于深度顯著性的遙感影像快速檢索方法流程圖；

圖2基于深度顯著性的目標(biāo)檢測(cè)模型架構(gòu)圖；

圖3加入哈希層的神經(jīng)網(wǎng)絡(luò)架構(gòu)圖；

圖4多層次檢索過程圖。

具體實(shí)施方式

根據(jù)上述描述，以下是一個(gè)具體的實(shí)施流程，但本專利所保護(hù)的范圍并不限于該實(shí)施流程。

步驟1：基于深度顯著性的目標(biāo)檢測(cè)模型構(gòu)建

顯著性區(qū)域，主觀理解為人眼視覺集中注意的區(qū)域，與人眼視覺系統(tǒng)(Human Visual System，HVS)緊密相關(guān)，客觀而言則是針對(duì)圖像的某種特征，存在一個(gè)該特征最明顯的子區(qū)。因此，顯著性檢測(cè)問題的關(guān)鍵在于特征學(xué)習(xí)和提取。鑒于深度學(xué)習(xí)在這一方面具有的強(qiáng)大功能，本發(fā)明將全卷積神經(jīng)網(wǎng)絡(luò)用于顯著性檢測(cè)問題，提出了基于全卷積神經(jīng)網(wǎng)絡(luò)的多任務(wù)顯著性目標(biāo)檢測(cè)模型。該模型同時(shí)進(jìn)行兩個(gè)任務(wù)：顯著性檢測(cè)任務(wù)和語(yǔ)義分割任務(wù)。顯著性檢測(cè)任務(wù)用于對(duì)遙感影像的深度特征學(xué)習(xí)，計(jì)算深度顯著性，語(yǔ)義分割任務(wù)用于提取圖像內(nèi)部對(duì)象語(yǔ)義信息，消除顯著圖背景混淆，補(bǔ)充顯著性目標(biāo)缺失部分。

本發(fā)明提出的全卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)基于主流的開源深度學(xué)習(xí)框架Caffe實(shí)現(xiàn)，具體模型結(jié)構(gòu)見附圖2。輸入一幅RGB圖像，經(jīng)過15個(gè)卷積層(Conv)進(jìn)行一系列卷積操作，顯著性檢測(cè)任務(wù)和超像素目標(biāo)語(yǔ)義分割任務(wù)共享卷積層。前13個(gè)卷積層經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)VGGNet初化，卷積核大小為3×3，每個(gè)卷積層后采用修正線性單元(Rectified Linear Unit，ReLU)作為激活函數(shù)，從而加快收斂速度。第2、4、5、13卷積層后進(jìn)行最大值池化(Max Pooling)操作，降低特征維度，減少計(jì)算量的同時(shí)保證特征的不變性。第14、15卷積層的卷積核大小分別為7×7和1×1，每層卷積后連接Dropout層以解決復(fù)雜神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)潛在的過擬合現(xiàn)象，即模型過度學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié)而導(dǎo)致在實(shí)際測(cè)試中錯(cuò)誤率較高、泛化能力較差的問題。通過上采樣構(gòu)建反卷積層，通過雙線性插值初始化其參數(shù)，在訓(xùn)練學(xué)習(xí)上采樣函數(shù)中迭代更新。在顯著性目標(biāo)檢測(cè)任務(wù)中通過sigmoid閾值函數(shù)將輸出圖像標(biāo)準(zhǔn)化至[0,1]，學(xué)習(xí)顯著性特征。在語(yǔ)義分割任務(wù)中用反卷積層對(duì)最后一個(gè)卷積層的特征圖進(jìn)行上采樣,并且將上采樣的結(jié)果進(jìn)行剪裁(Crop)，使輸出圖像與輸入圖像大小相同，從而對(duì)每個(gè)像素都產(chǎn)生了一個(gè)預(yù)測(cè)，同時(shí)保留了原始輸入圖像中的空間信息。

步驟2：神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練并加入哈希層微調(diào)

本發(fā)明使用公開的大規(guī)模航拍圖像數(shù)據(jù)集(AID)用于神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練，旨在更好地學(xué)習(xí)遙感影像不同級(jí)別的語(yǔ)義特征。引入哈希層，利用擴(kuò)充的武漢大學(xué)遙感影像數(shù)據(jù)集(WHU-RS)進(jìn)一步微調(diào)網(wǎng)絡(luò)，不但可以將神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的高維特征映射到低維，縮短檢索時(shí)間，還能使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征更具魯棒性。

步驟2.1：多任務(wù)顯著性目標(biāo)檢測(cè)模型預(yù)訓(xùn)練

步驟2.1.1：構(gòu)建預(yù)訓(xùn)練數(shù)據(jù)集

預(yù)訓(xùn)練階段選擇公開的大規(guī)模航拍圖像數(shù)據(jù)集(AID)作為標(biāo)準(zhǔn)數(shù)據(jù)集用于預(yù)訓(xùn)練。AID包含30個(gè)類別，10000幅航拍圖像，所有圖像均選自谷歌地球，經(jīng)專業(yè)的遙感技術(shù)領(lǐng)域人員標(biāo)注。每個(gè)分類的圖像都取自不同國(guó)家、地區(qū)，在不同時(shí)間通過不同拍攝遙感探測(cè)儀拍攝，圖像尺寸為600×600像素，分辨率為0.5m/像素到8m/像素不等。相比其他數(shù)據(jù)集，該數(shù)據(jù)集類內(nèi)差距較小，類間差距較大，是目前航拍圖像數(shù)據(jù)集中規(guī)模最大的數(shù)據(jù)集。

步驟2.1.2：顯著性目標(biāo)檢測(cè)模型預(yù)訓(xùn)練

FCNN預(yù)訓(xùn)練通過顯著性檢測(cè)任務(wù)和分割任務(wù)一同展開。χ表示N₁幅寬高分別為W和Q的訓(xùn)練圖像的集合，Xi為其中第i幅圖像，Y_ijk表示第i幅寬高分別為j和k的圖像相應(yīng)的像素級(jí)真實(shí)分割圖，其中i＝1…N₁，j＝1…W，k＝1…Q。Z表示N₂幅訓(xùn)練圖像的集合，Z_n為其中第n幅圖像，n＝1…N₂，它有相應(yīng)的存在顯著性目標(biāo)的真實(shí)二值圖像M_n。θ_s為共享卷積層參數(shù)，θ_h為分割任務(wù)參數(shù)，θ_f為顯著性任務(wù)參數(shù)。公式(1)、公式(2)分別為分割任務(wù)的交叉熵代價(jià)函數(shù)J₁(χ；θ_s,θ_h)和顯著性檢測(cè)任務(wù)的平方歐式距離代價(jià)函數(shù)J₂(Z；θ_s,θ_f)，F(xiàn)CNN通過最小化兩個(gè)代價(jià)函數(shù)進(jìn)行訓(xùn)練：

公式(1)中，是指示函數(shù)，h_cjk是第c類置信分割圖的元素(j,k)，c＝1…C，h(Xi；θ_s,θ_h)是語(yǔ)義分割函數(shù)，共返回C個(gè)目標(biāo)類的置信分割圖，C為預(yù)訓(xùn)練數(shù)據(jù)集包含的圖像類別，本發(fā)明中C取30；公式(2)中，f(Z_n；θ_s,θ_f)是顯著圖輸出函數(shù)，F(xiàn)表示F-范數(shù)運(yùn)算。

接下來，用隨機(jī)梯度下降(SGD)方法，在對(duì)所有訓(xùn)練樣本進(jìn)行正則化的基礎(chǔ)上，最小化上述代價(jià)函數(shù)。由于用于預(yù)訓(xùn)練的數(shù)據(jù)集沒有同時(shí)具有分割和顯著性標(biāo)注，因此分割任務(wù)和顯著性檢測(cè)任務(wù)交替進(jìn)行。由于訓(xùn)練過程需要將所有原始圖像大小歸一化，因此本發(fā)明將原始圖像重置大小為500×500像素用于預(yù)訓(xùn)練。學(xué)習(xí)速率是SGD學(xué)習(xí)方法的必要參數(shù)，決定了權(quán)值更新的速度，設(shè)置得太大會(huì)導(dǎo)致代價(jià)函數(shù)振蕩，結(jié)果越過最優(yōu)值，太小會(huì)使收斂速度過慢，一般傾向于選取較小的學(xué)習(xí)速率，如0.001±0.01以保持系統(tǒng)穩(wěn)定。動(dòng)量參數(shù)和權(quán)值衰減因子可提高訓(xùn)練自適應(yīng)性，動(dòng)量參數(shù)通常為[0.9,1.0]，權(quán)值衰減因子通常為0.0005±0.0002。通過實(shí)驗(yàn)觀察，本發(fā)明將學(xué)習(xí)速率設(shè)為10^-10，動(dòng)量參數(shù)設(shè)為0.99，權(quán)值衰減因子取Caffe框架默認(rèn)值0.0005。隨機(jī)梯度下降(SGD)學(xué)習(xí)進(jìn)程通過NVIDIA GTX 1080GPU設(shè)備加速，共進(jìn)行80000次迭代。詳細(xì)的預(yù)訓(xùn)練過程如下：

1)共享全卷積參數(shù)基于VGGNet初始化；

2)通過正態(tài)分布隨機(jī)初始化分割任務(wù)參數(shù)和顯著性任務(wù)參數(shù)

3)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò)，更新這兩個(gè)參數(shù)為和

4)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò)，更新相關(guān)參數(shù)為和

5)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò)，獲得和

6)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò)，更新相關(guān)參數(shù)為和

7)重復(fù)上述3-6步三次以獲得預(yù)訓(xùn)練最終參數(shù)θ_s，θ_h，θ_f。

步驟2.2：加入哈希層，針對(duì)目標(biāo)域微調(diào)網(wǎng)絡(luò)

步驟2.2.1：構(gòu)建用于微調(diào)網(wǎng)絡(luò)的中國(guó)遙感影像數(shù)據(jù)集

選用擴(kuò)充的武漢大學(xué)遙感影像數(shù)據(jù)集(WHU-RS)用于神經(jīng)網(wǎng)絡(luò)微調(diào)。原始WHU-RS數(shù)據(jù)集包含19個(gè)場(chǎng)景分類，共950幅分辨率不等的遙感圖像，圖像尺寸為600×600像素，所有圖像均取自谷歌地球。結(jié)合中國(guó)的地形地貌，在原始數(shù)據(jù)集的基礎(chǔ)上重構(gòu)并且擴(kuò)展至7000幅遙感影像作為樣本庫(kù)，每個(gè)類別包含超過200幅圖像。新增樣本圖像的光照、拍攝角度、分辨率及尺寸均不同，利于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更具魯棒性的顯著性特征。

步驟2.2.2：加入哈希層微調(diào)網(wǎng)絡(luò)

深度神經(jīng)網(wǎng)絡(luò)生成的特征向量維度較高，在大規(guī)模的圖像檢索中非常耗時(shí)。由于具有相似的圖像二進(jìn)制哈希碼相似，因此，本發(fā)明在預(yù)訓(xùn)練好的網(wǎng)絡(luò)倒數(shù)第二層和最終的任務(wù)層中間，插入一個(gè)包含s個(gè)神經(jīng)元的全連接層，即哈希層H，將高維特征映射到低維空間，生成二進(jìn)制哈希碼進(jìn)行存儲(chǔ)，網(wǎng)絡(luò)結(jié)構(gòu)見附圖3。哈希層H權(quán)重采用隨機(jī)投影構(gòu)造哈希值初始化，神經(jīng)元激活函數(shù)采用sigmoid函數(shù)使輸出值在0到1之間，根據(jù)經(jīng)驗(yàn)設(shè)定閾值為0.5，神經(jīng)元個(gè)數(shù)為目標(biāo)二進(jìn)制碼的碼長(zhǎng)。哈希層不但提供了前一層的特征抽象，也是連接中級(jí)和高級(jí)圖像語(yǔ)義特征的橋梁。

微調(diào)過程通過反向傳播(Back Propagation)算法調(diào)節(jié)網(wǎng)絡(luò)權(quán)重。網(wǎng)絡(luò)微調(diào)可針對(duì)整個(gè)網(wǎng)絡(luò)或部分網(wǎng)絡(luò)進(jìn)行。由于低層網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)到的特征更為一般化，并且為了避免發(fā)生過擬合，本發(fā)明利用擴(kuò)充的WHU-RS數(shù)據(jù)集，重點(diǎn)調(diào)節(jié)高層網(wǎng)絡(luò)，即第十個(gè)卷積層之后的網(wǎng)絡(luò)權(quán)重。通常，用于微調(diào)網(wǎng)絡(luò)的數(shù)據(jù)集數(shù)據(jù)量大小與預(yù)訓(xùn)練數(shù)據(jù)集相比會(huì)減少10％-50％，本發(fā)明中，微調(diào)網(wǎng)絡(luò)數(shù)據(jù)集包含7000幅圖像，明顯小于預(yù)訓(xùn)練時(shí)包含10000幅圖像的數(shù)據(jù)集，相比預(yù)訓(xùn)練的網(wǎng)絡(luò)參數(shù)，微調(diào)過程網(wǎng)絡(luò)參數(shù)要適當(dāng)減小，迭代次數(shù)和學(xué)習(xí)速率可降低1％-10％。本發(fā)明中，微調(diào)過程將迭代次數(shù)減少至8000次，學(xué)習(xí)速率降低1％，為10^-12，動(dòng)量參數(shù)和權(quán)值衰減因子保持不變，即分別設(shè)為0.99和0.0005。

詳細(xì)的微調(diào)過程如下：

1)共享全卷積參數(shù)分割任務(wù)參數(shù)和顯著性任務(wù)參數(shù)通過預(yù)訓(xùn)練過程得到；

2)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò)，更新這兩個(gè)參數(shù)為和

3)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò)，更新相關(guān)參數(shù)為和

4)根據(jù)和利用SGD訓(xùn)練分割網(wǎng)絡(luò)，獲得和

5)根據(jù)和利用SGD訓(xùn)練顯著性網(wǎng)絡(luò)，更新相關(guān)參數(shù)為和

6)重復(fù)上述3-6步三次以獲得最終參數(shù)θ_s，θ_h，θ_f。

步驟3：多層次深度檢索

深度卷積神經(jīng)網(wǎng)絡(luò)的淺層部分學(xué)習(xí)底層視覺特征，而深層部分可捕捉圖像語(yǔ)義信息。因此，本發(fā)明采用由粗到細(xì)的檢索策略實(shí)現(xiàn)快速、準(zhǔn)確的圖像檢索。特征提取及檢索過程見附圖4。

步驟3.1：粗糙檢索

首先檢索一系列有相似高級(jí)語(yǔ)義特征的候選區(qū)，即在哈希層擁有相似的二進(jìn)制激活值，然后根據(jù)相似性度量進(jìn)一步生成相似圖像排名。

步驟3.1.1：生成二進(jìn)制哈希碼

將一幅待查詢圖像I_q輸入到經(jīng)過微調(diào)的神經(jīng)網(wǎng)絡(luò)，提取哈希層的輸出作為圖像簽名，用Out(H)表示。二進(jìn)制碼根據(jù)閾值二值化激活值得到。對(duì)每一個(gè)二進(jìn)制位r＝1…s，根據(jù)公式(3)輸出二進(jìn)制碼：

其中，s是哈希層神經(jīng)元個(gè)數(shù)，個(gè)數(shù)過多會(huì)出現(xiàn)過擬合，建議初始值設(shè)置范圍為[40,100]，具體數(shù)值根據(jù)實(shí)訓(xùn)練數(shù)據(jù)進(jìn)行調(diào)整，本發(fā)明中s設(shè)為48。Γ＝{I₁,I₂,…,I_n}表示包含n幅圖像的用于檢索的數(shù)據(jù)集。相應(yīng)的每幅圖像的二進(jìn)制碼表示為Γ_H＝{H₁,H₂,…,H_n}，其中i＝1…n，H_i∈{0,1}^s表示s個(gè)神經(jīng)元生成的s位二進(jìn)制碼值分別為0或1。

步驟3.1.2：漢明距離度量相似性

兩個(gè)等長(zhǎng)字符串之間的漢明距離是兩個(gè)字符串對(duì)應(yīng)位置的不同字符的個(gè)數(shù)。對(duì)于一幅待查詢圖像I_q和它的二進(jìn)制碼H_q，如果H_q和H_i∈Γ_H之間的漢明距離小于設(shè)定的閾值，則定義一個(gè)包含m幅候選圖片(candidates)的候選池P＝{I_c1,I_c2,…,I_cm}，一般情況下，漢明距離小于5就可以認(rèn)為兩幅圖像是相似的。

步驟3.2：精細(xì)檢索

步驟3.2.1：顯著性特征提取

由于深度卷積網(wǎng)絡(luò)不同卷積層學(xué)習(xí)不同圖像不同級(jí)別的語(yǔ)義特征，其中，中高層卷積層學(xué)習(xí)到的特征更適用與圖像檢索任務(wù)。因此，將待查詢圖像I_q通過神經(jīng)網(wǎng)絡(luò)第13、15層卷積層生成的二維遙感影像特征圖分別映射為一維向量進(jìn)行存儲(chǔ)。在后續(xù)檢索過程中分別對(duì)比采用不同特征向量的檢索結(jié)果決定最終選用哪一層卷積生成的特征圖提取遙感影像顯著性特征。

步驟3.2.2：歐式距離度量相似性

對(duì)于一幅查詢圖像I_q和一個(gè)候選池P，使用提取的顯著性特征向量從候選池P中挑選出排名前k幅圖像。V_q和分別表示查詢圖像q和I_ci的特征向量。定義I_q和候選池P中第i幅圖像相應(yīng)特征向量之間的歐式距離s_i作為它們之間的相似性等級(jí)，如公式(4)所示。

歐式距離越小，兩幅圖像間的相似性越大。每幅候選圖I_ci根據(jù)和查詢圖像的相似度升序排序，排名前k的圖像則為檢索結(jié)果。

步驟3.3：檢索結(jié)果評(píng)價(jià)

本發(fā)明使用基于排名的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)檢索結(jié)果進(jìn)行評(píng)價(jià)。對(duì)于一幅查詢圖像q和得到的排名前k幅檢索結(jié)果圖像，查準(zhǔn)率(Precision)根據(jù)以下公式計(jì)算：

其中，Precision@k表示根據(jù)實(shí)際需求設(shè)定閾值k，在檢索到第k個(gè)正確結(jié)果為止，從第一個(gè)正確結(jié)果到第k個(gè)正確結(jié)果的平均正確率；Rel(i)表示查詢圖像q和排名第i幅圖像的相關(guān)性，Rel(i)∈{0,1}，1代表查詢圖像q和排名第i幅圖像具有相同分類，即二者相關(guān)，0則不相關(guān)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張菁;梁西;陳璐;卓力;耿文浩;李嘉鋒
技術(shù)所有人：北京工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種水下圖像目標(biāo)檢測(cè)方法與流程
上一篇：一種新型高效篩粉機(jī)的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

遙感影像解譯方法相關(guān)技術(shù)

面向?qū)ο筮b感影像檢索相關(guān)技術(shù)

深度配音網(wǎng)相關(guān)技術(shù)

顯著性檢測(cè)方法相關(guān)技術(shù)

顯著性檢驗(yàn)方法相關(guān)技術(shù)

顯著性差異表示方法相關(guān)技術(shù)

方法顯著性差異相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于深度顯著性的遙感影像快速檢索方法與流程