本發(fā)明涉及視覺定位領(lǐng)域,尤其涉及一種智能視覺定位方法。
背景技術(shù):
1、視覺定位作為計(jì)算機(jī)視覺的基本任務(wù)之一,已廣泛應(yīng)用于自動(dòng)駕駛、同步定位與地圖構(gòu)建、虛擬現(xiàn)實(shí)等領(lǐng)域。視覺定位旨在根據(jù)查詢圖像估計(jì)相機(jī)在已知場(chǎng)景下的6-dof位姿,即相機(jī)在世界坐標(biāo)系下的三維位置坐標(biāo)和三維角度偏轉(zhuǎn)。近年來,相關(guān)學(xué)者針對(duì)室內(nèi)或室外街道場(chǎng)景下的視覺定位進(jìn)行了深入研究,取得了優(yōu)異的性能。然而,針對(duì)航空?qǐng)鼍暗囊曈X定位方法鮮有研究,嚴(yán)重限制了依賴導(dǎo)航的航空系統(tǒng)的發(fā)展。因此,探索一種智能視覺定位方法,以實(shí)現(xiàn)航空?qǐng)鼍跋孪鄼C(jī)的精確定位,具有重要的研究意義和應(yīng)用價(jià)值。
2、傳統(tǒng)的視覺定位算法通?;谑止ぴO(shè)計(jì)的特征來估計(jì)相機(jī)位姿,主要可分為基于幾何結(jié)構(gòu)的方法和基于圖像檢索的方法。其中,基于幾何結(jié)構(gòu)的方法首先提取查詢圖像中的特征點(diǎn),然后將提取到的2d特征點(diǎn)與場(chǎng)景模型中的3d坐標(biāo)點(diǎn)進(jìn)行匹配,最后根據(jù)得到的2d-3d匹配關(guān)系對(duì)相機(jī)位姿進(jìn)行解算?;趫D像檢索的方法則需要先通過匹配圖像的全局特征檢索出查詢圖像的最近鄰圖像,然后對(duì)兩張圖像的2d特征點(diǎn)進(jìn)行匹配,最后根據(jù)得到的2d-2d匹配關(guān)系對(duì)相機(jī)位姿進(jìn)行解算。盡管傳統(tǒng)方法已經(jīng)取得了很大的進(jìn)展,但受限于魯棒性差、泛化性低等問題,在一些光照變化劇烈、運(yùn)動(dòng)模糊等復(fù)雜場(chǎng)景中,可能會(huì)出現(xiàn)定位失敗的情況。
3、近年來,基于深度學(xué)習(xí)的視覺定位算法已經(jīng)逐漸展現(xiàn)出比傳統(tǒng)方法更加優(yōu)越的性能。kendall等人提出了基于卷積神經(jīng)網(wǎng)絡(luò)的視覺定位算法,通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)查詢圖像到相機(jī)位姿的映射關(guān)系,實(shí)現(xiàn)了視覺定位。然而,該方法僅在室內(nèi)或室外街道場(chǎng)景下取得了較好的性能,直接應(yīng)用于復(fù)雜的航空?qǐng)鼍皶r(shí)精度不佳。最近,yan等人提出了一種基于多模態(tài)合成數(shù)據(jù)的可擴(kuò)展航空視覺定位算法,該方法通過學(xué)習(xí)跨模態(tài)的視覺表示,提升了航空?qǐng)鼍跋乱曈X定位的精度。然而,現(xiàn)有方法僅采用卷積神經(jīng)網(wǎng)絡(luò)提取航拍圖像的特征,并未有效探索場(chǎng)景的全局上下文信息。此外,現(xiàn)有方法僅利用彩色圖像提取特征,缺乏明確的空間信息,因此在處理航拍圖像中廣泛存在的視覺偽影時(shí)魯棒性欠佳,難以滿足實(shí)際應(yīng)用的需求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種智能視覺定位方法,本發(fā)明旨在有效探索航拍圖像的全局上下文信息,并通過挖掘深度圖像蘊(yùn)含的空間信息,提升網(wǎng)絡(luò)對(duì)航拍圖像中廣泛存在的視覺偽影的魯棒性,從而實(shí)現(xiàn)有效的航空?qǐng)鼍耙曈X定位,詳見下文描述:
2、一種智能視覺定位方法,所述方法包括:
3、通過特征序列提取模塊以獲取彩色圖像特征序列和深度圖像特征序列,并作為多級(jí)深度嵌入transformer模塊的輸入;
4、所述多級(jí)深度嵌入transformer模塊由多個(gè)深度嵌入單元和transformer層組成,每個(gè)深度嵌入單元以特征序列作為輸入,旨在輸出空間感知增強(qiáng)的特征序列;
5、將多級(jí)深度嵌入transformer模塊得到的場(chǎng)景特征表示送入預(yù)測(cè)頭得到場(chǎng)景坐標(biāo)預(yù)測(cè)結(jié)果,水平梯度算子和垂直梯度算子分別作用于場(chǎng)景坐標(biāo)預(yù)測(cè)結(jié)果,生成場(chǎng)景坐標(biāo)預(yù)測(cè)結(jié)果的水平梯度和垂直梯度;水平梯度算子和垂直梯度算子也分別作用于深度圖像,生成深度圖像的水平梯度和垂直梯度;
6、使用深度引導(dǎo)的平滑約束、回歸損失和重投影損失訓(xùn)練智能視覺定位網(wǎng)絡(luò),構(gòu)建位姿求解器進(jìn)行位姿采樣和位姿細(xì)化。
7、其中,所述每個(gè)深度嵌入單元以特征序列作為輸入,旨在輸出空間感知增強(qiáng)的特征序列為:
8、將輸入的特征序列和分別經(jīng)過卷積層處理,生成低維度的潛在嵌入和
9、將潛在嵌入經(jīng)過一個(gè)λ-平滑的空間softmax層,生成一個(gè)類空間注意力的掩膜,將生成的掩膜gfovea與潛在嵌入點(diǎn)乘,生成空間增強(qiáng)嵌入
10、潛在嵌入和空間增強(qiáng)嵌入經(jīng)加權(quán)融合后,通過卷積層得到空間感知增強(qiáng)的特征序列計(jì)算公式表示為:
11、
12、其中,g3(·)表示一個(gè)卷積層,α和β表示可學(xué)習(xí)的權(quán)重參數(shù)。
13、其中,所述深度引導(dǎo)的平滑約束為:通過對(duì)和施加l1懲罰,并使用和的邊緣感知項(xiàng)對(duì)該懲罰進(jìn)行加權(quán)來實(shí)現(xiàn);如下:
14、
15、其中,dij表示查詢圖像在(i,j)位置的深度值,sij表示查詢圖像在(i,j)位置處由網(wǎng)絡(luò)預(yù)測(cè)的場(chǎng)景坐標(biāo)值。
16、其中,所述低維度的潛在嵌入和為:
17、
18、其中,g1(·)和g2(·)都由一個(gè)卷積層組成。
19、其中,所述空間增強(qiáng)嵌入為:
20、
21、其中,表示中在(i,j)位置的特征向量,γl表示一個(gè)可學(xué)習(xí)的權(quán)重參數(shù),表示點(diǎn)乘操作。
22、本發(fā)明提供的技術(shù)方案的有益效果是:
23、1、本發(fā)明利用transformer建模長(zhǎng)距離依賴關(guān)系的能力,挖掘航拍圖像的全局上下文信息;同時(shí),考慮到深度圖像具有描述物體空間位置的特性,通過在網(wǎng)絡(luò)中引入深度線索以顯式地感知空間信息,從而提升網(wǎng)絡(luò)對(duì)于視覺偽影的魯棒性,進(jìn)而提升航空?qǐng)鼍耙曈X定位的性能;
24、2、本發(fā)明設(shè)計(jì)了多級(jí)深度嵌入transformer模塊,通過自適應(yīng)地將深度圖像特征與彩色圖像特征融合,增強(qiáng)了網(wǎng)絡(luò)對(duì)航空?qǐng)鼍翱臻g結(jié)構(gòu)的感知能力,從而提升了網(wǎng)絡(luò)對(duì)于視覺偽影的魯棒性;此外,設(shè)計(jì)了深度引導(dǎo)的平滑損失,在深度信息的引導(dǎo)下,鼓勵(lì)網(wǎng)絡(luò)學(xué)習(xí)場(chǎng)景坐標(biāo)分段平滑的幾何特性,進(jìn)而提升場(chǎng)景坐標(biāo)的預(yù)測(cè)精度;
25、3、本發(fā)明通過在兩個(gè)航空?qǐng)鼍耙曈X定位的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,可以獲得優(yōu)于現(xiàn)有航空?qǐng)鼍耙曈X定位方法的性能。
1.一種智能視覺定位方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種智能視覺定位方法,其特征在于,所述每個(gè)深度嵌入單元以特征序列作為輸入,旨在輸出空間感知增強(qiáng)的特征序列為:
3.根據(jù)權(quán)利要求1所述的一種智能視覺定位方法,其特征在于,所述深度引導(dǎo)的平滑約束為:通過對(duì)和施加l1懲罰,并使用和的邊緣感知項(xiàng)對(duì)該懲罰進(jìn)行加權(quán)來實(shí)現(xiàn);如下:
4.根據(jù)權(quán)利要求2所述的一種智能視覺定位方法,其特征在于,所述低維度的潛在嵌入和為:
5.根據(jù)權(quán)利要求2所述的一種智能視覺定位方法,其特征在于,所述空間增強(qiáng)嵌入為: