本發(fā)明涉及視覺slam領域,具體是涉及一種融合rgb與深度特征的多模態(tài)視覺里程計。
背景技術:
1、伴隨著人工智能的迅猛發(fā)展,機器人產(chǎn)業(yè)也發(fā)展的如火如荼,在人們的生產(chǎn)、生活中扮演者日益重要的角色[1]。移動機器人,無人駕駛汽車等產(chǎn)品越來越多的出現(xiàn)人們視野中,想要實現(xiàn)自主運動就必需解決兩個問題,“同時定位”和“建立地圖”,也就是slam(simultaneous?localization?and?mapping)。slam一般分為視覺slam和激光slam。相較于激光slam對于設備的昂貴需求,視覺slam的傳感器為相機,成本則明顯更小,更利于推廣。
2、隨著深度學習在計算機視覺領域的發(fā)展,越來越多的研究者將深度學習與傳統(tǒng)視覺slam相結(jié)合,用深度學習的方法來代替?zhèn)鹘y(tǒng)視覺slam中的某一環(huán)節(jié)。深度學習和視覺里程計的結(jié)合是近年來的重點研究方向。視覺里程計的主要工作原理是通過兩個圖像連續(xù)幀之間的運動來估計相機位姿。在大量訓練數(shù)據(jù)的支持下,深度學習和視覺里程計的結(jié)合,舍去了前端點跟蹤、后端優(yōu)化求解的一系列過程,直接輸入圖像給出位姿估計結(jié)果,在惡劣環(huán)境下具有良好的估計效果。
3、現(xiàn)在大多數(shù)工作將相機的位姿估計問題轉(zhuǎn)化為彩色圖像的回歸分類,在上述的研究過程中,一個常見的問題是,圖像場景的變化,比如光照變化會極大的影響位姿估計的準確度。最近的研究表明,可以通過融合來自不同傳感器的信息特征來得到更好的相機位姿估計效果,融合rgb信息特征和深度特征是其中的一個方向。
技術實現(xiàn)思路
1、本發(fā)明的目的是融合rgb與深度特征的多模態(tài)視覺里程計。首先利用自監(jiān)督單目深度估計網(wǎng)絡得到逆深度圖,然后計算每個像素的最小再投影損失,減少單目視頻連續(xù)幀遮擋帶來的負面影響,以此來獲得更為優(yōu)秀的深度估計。然后采用基于信道交換融合的模式,將rgb和深度信息這兩種不同的模態(tài)信息融合,組成相對姿態(tài)輸出,最后結(jié)合雙流網(wǎng)絡,引入正則化優(yōu)化網(wǎng)絡模型,從而實現(xiàn)更好的訓練效果。
2、本發(fā)明解決上述問題的技術方案如下:一種融合rgb與深度特征的多模態(tài)視覺里程計,包括以下步驟:
3、s1,分析相鄰圖像幀的深度特征和rgb特征,得到逆深度圖
4、s2,計算每個像素的最小再投影損失,獲得優(yōu)秀的深度估計
5、s3,將rgb和深度信息這兩種不同模態(tài)的信息融合,組成相對姿態(tài)輸出
6、s4,結(jié)合雙流網(wǎng)絡,引入正則化優(yōu)化網(wǎng)絡模型,以實現(xiàn)更好的訓練效果
7、本發(fā)明的有益效果是:
8、本發(fā)明是一種融合rgb與深度特征的多模態(tài)視覺里程計,首先通過自我運動估計框架dlf-vo估計每個輸入幀的深度圖像和rgb特診,利用自監(jiān)督單目深度估計網(wǎng)絡得到逆深度圖,計算每個像素的最小再投影損失,減少單目視頻連續(xù)幀遮擋帶來的負面影響,以此來獲得更為優(yōu)秀的深度估計。然后采用多層融合的模式,融合編碼器中間層中出現(xiàn)的多個特征信息,并將rgb和深度信息這兩種不同模態(tài)的信息融合組成最終的相對姿態(tài)輸出。姿態(tài)估計模型具有雙流結(jié)構,利用信道交換cen策略同時保留rgb和深度模式的互補特征,根據(jù)騎重要性交換特征要素,最后引入正則化優(yōu)化網(wǎng)絡模型,以實現(xiàn)更好的訓練效果。使用融合rgb與深度特征的多模態(tài)視覺里程計,與傳統(tǒng)的基于單一信息特征分析的視覺里程計相比具有巨大優(yōu)勢。
1.一種融合rgb與深度特征的多模態(tài)視覺里程計,其特征在于,包括以下步驟:
2.根據(jù)權利要求1所述的一種融合rgb與深度特征的多模態(tài)視覺里程計,其特征在于,所述s1中利用到自監(jiān)督單目深度估計網(wǎng)絡得到逆深度圖。然后通過計算每個像素的最小再投影損失,減少單目視頻連續(xù)幀遮擋帶來的負面影響,以此來獲得更為優(yōu)秀的深度估計。
3.根據(jù)權利要求1所述的一種融合rgb與深度特征的多模態(tài)視覺里程計,其特征在于,所述s2中通過計算每個像素的最小再投影損失,減少由單目視頻連續(xù)幀遮擋帶來的負面影響,以此來獲得更為優(yōu)秀的深度估計,相對姿態(tài)估計器θpose預測連續(xù)幀之間的相對姿態(tài)作為自我運動的最終輸出:
4.根據(jù)權利要求1所述的一種融合rgb與深度特征的多模態(tài)視覺里程計,其特征在于,所述s3中在rgb特征信息和深度特征信息的融合過程中,利用信道交換策略同時保留rgb和深度特征的互補特征,根據(jù)其重要性交換特征要素。
5.根據(jù)權利要求1所述的一種融合rgb與深度特征的多模態(tài)視覺里程計,其特征在于,所述s3中在rgb特征信息和深度特征信息的融合過程中,為了模型產(chǎn)生奇異解,本文提出新的損失函數(shù)。
6.根據(jù)權利要求1所述的一種融合rgb與深度特征的多模態(tài)視覺里程計,其特征在于,所述s4中結(jié)合雙流網(wǎng)絡之后,引入正則化網(wǎng)絡優(yōu)化模型,提出了新的正則化損失,降低冗余信息對訓練模型的影響。