本發(fā)明屬于深度學習,具體涉及一種用于無人機視覺語言導航任務的數(shù)據(jù)增廣方法。
背景技術:
1、視覺和語言導航(vln)是一項具有挑戰(zhàn)性的任務,它要求智能體在未見過的真實環(huán)境中遵循人類自然語言指令進行自主導航,如“走下樓,走向餐桌,左轉(zhuǎn)到廚房,停在冰箱前面?!?/p>
2、解決vln任務在很大程度上依賴于正確解釋指令、感知環(huán)境和從交互中學習,這需要大量不同的視覺語言數(shù)據(jù)對模型進行訓練。然而,由于大規(guī)模導航數(shù)據(jù)收集過程的昂貴,視覺語言導航學習通常面臨數(shù)據(jù)稀缺問題。目前,已經(jīng)有很多方法來解決視覺語言導航數(shù)據(jù)稀缺問題,包括通過收集更多的人類注釋或創(chuàng)建新的環(huán)境來擴增數(shù)據(jù),然而,這種方法成本過高。此外,最近的方法傾向于利用大量自動生成的數(shù)據(jù)來推動智能體性能的極限,或者引入大規(guī)模預訓練方法來提高泛化能力,然而,自動生成的數(shù)據(jù)面臨著數(shù)據(jù)質(zhì)量低等問題。
3、基于城市級無人機的視覺語言導航任務(aerialvln)是一項更具挑戰(zhàn)性的任務。相比于室內(nèi)或地面vln任務,aerialvln有更大的行動空間、更大更復雜的室外環(huán)境、更長的路徑和指令序列,這些特點共同決定了aerialvln任務的復雜性。由于aerialvln任務的平均導航路徑長度在600米以上,這點決定了其相應的導航指令序列也會有更多更復雜的描述,因此針對于aerialvln任務的數(shù)據(jù)集增廣更加困難?,F(xiàn)有工作大多通過人工采集路徑并生成相應的指令描述來完成的,這種方法成本較高且效率低,顯然不能滿足大規(guī)模數(shù)據(jù)增廣的需求。還有一些工作旨在通過自動生成數(shù)據(jù)來實現(xiàn)大規(guī)模數(shù)據(jù)增廣,然而,大多數(shù)工作是針對室內(nèi)或地面vln任務進行的,將其直接遷移到aerialvln任務的數(shù)據(jù)增廣任務中會出現(xiàn)隨著路徑長度變長關鍵動作稀疏而無關語義冗余的“長平”問題。
4、視覺語言導航任務數(shù)據(jù)集主要包括兩個部分:路徑序列和導航指令,其中,生成豐富度高、符合人類語言習慣、具有豐富導航語義的導航指令是數(shù)據(jù)增廣面臨的主要挑戰(zhàn),很大程度上決定了智能體的性能?,F(xiàn)有方法大多利用特定場景的已有人工數(shù)據(jù)集訓練一個本地小模型來解決導航指令生成任務,然而這種方法經(jīng)常面臨著泛化能力不足、數(shù)據(jù)依賴性強、可遷移能力差等缺陷。典型方法主要有:
5、1)speaker-follower
6、speaker-follower方法由兩個主要組件組成:speaker模塊和follower模塊。follower模塊接收視覺輸入和語言指令,通過神經(jīng)網(wǎng)絡生成導航?jīng)Q策;speaker模塊則接收導航路徑,生成描述路徑的自然語言指令。通過現(xiàn)有數(shù)據(jù)集循環(huán)訓練,speaker模塊生成新的指令-路徑對以增加數(shù)據(jù)多樣性,follower模塊利用這些數(shù)據(jù)進行導航策略的學習。然而,speaker-follower方法有著對數(shù)據(jù)的高度依賴和模型復雜性的缺陷。生成的語言指令質(zhì)量和多樣性不足,影響導航策略的準確性。此外,訓練過程中需要同時優(yōu)化兩個復雜的模塊,增加了計算資源需求和模型訓練的難度。指令理解與路徑執(zhí)行的解耦以及評價指標的局限性也可能影響模型在實際環(huán)境中的表現(xiàn)。
7、2)ccc-speaker
8、ccc-speaker方法采用反事實循環(huán)一致學習框架,聯(lián)合訓練“speaker”和“follower”兩個模型,并引入一個“creator”模塊。具體來說,speaker生成描述導航路徑的指令,follower根據(jù)指令進行導航,而creator則負責生成反事實環(huán)境。通過循環(huán)一致性學習,follower生成路徑并由speaker驗證其正確性,反之亦然。這種方法不僅使用帶標簽的數(shù)據(jù)進行訓練,還可以在無標簽路徑上應用,增強模型的泛化能力。盡管ccc-speaker方法在提升導航模型性能方面具有顯著效果,但也存在一些缺陷。首先,該方法增加了訓練的復雜性和計算資源需求,因為需要同時訓練三個復雜的模塊(speaker、follower和creator)。其次,盡管反事實環(huán)境的生成可以增強模型的魯棒性,但生成的反事實環(huán)境質(zhì)量難以保證,可能會影響模型的訓練效果。此外,反事實環(huán)境的創(chuàng)建和現(xiàn)實環(huán)境的差異可能導致模型在實際應用中表現(xiàn)不穩(wěn)定。
9、3)aigen
10、aigen(adversarial?instruction?generation?for?vision-and-languagenavigation)方法是一種基于生成對抗網(wǎng)絡(gans)的架構,旨在生成有意義且結構良好的合成指令以提高導航代理的性能。該模型由一個transformer解碼器(gpt-2)和一個transformer編碼器(bert)組成。在訓練階段,解碼器生成描述代理路徑的句子,編碼器則負責區(qū)分指令的真假。通過對未標記的導航路徑生成合成指令,aigen可以顯著提高現(xiàn)成vln方法的性能,尤其是在habitat-matterport?3d(hm3d)數(shù)據(jù)集上生成217k條軌跡的指令,并在reverie和r2r數(shù)據(jù)集上進行了驗證,顯示出優(yōu)越的性能。盡管aigen方法在提升導航模型性能方面表現(xiàn)出色,但它也存在一些缺陷。首先,該方法的訓練過程復雜,需要大量的計算資源和時間,因為需要同時訓練生成器和鑒別器模塊。此外,aigen依賴于高質(zhì)量的物體檢測模型(如mask2former)來提取視覺特征,這一過程不僅耗時,而且在視覺特征提取過程中可能存在誤差,影響生成指令的質(zhì)量。最后,雖然aigen生成的指令在實驗中表現(xiàn)良好,但在真實環(huán)境中,其性能可能受到訓練數(shù)據(jù)集和生成對抗訓練一致性的限制,導致模型在實際應用中的穩(wěn)定性和泛化能力不佳。
11、4)edrop-speaker
12、edrop-speaker方法通過引入環(huán)境丟失(environmental?dropout)策略來提升視覺語言導航(vln)模型在未知環(huán)境中的泛化能力。該方法在訓練過程中采用兩階段策略:首先結合模仿學習和強化學習進行訓練,然后通過環(huán)境丟失生成新的未見環(huán)境數(shù)據(jù)。在環(huán)境丟失過程中,模型隨機丟棄視覺特征,以模擬真實世界中的視角缺失和變化,并利用反向翻譯生成新的路徑和指令,增強模型的泛化能力。實驗證明,通過在這些新生成的環(huán)境數(shù)據(jù)上進行微調(diào),模型在未知環(huán)境中的導航性能顯著提升。盡管edrop-speaker方法在提升模型泛化能力方面表現(xiàn)出色,但也存在一些缺陷。首先,該方法的訓練過程復雜,尤其是環(huán)境丟失和反向翻譯步驟,需要大量計算資源和時間。其次,環(huán)境丟失生成的新環(huán)境數(shù)據(jù)可能無法完全代表實際未知環(huán)境中的復雜變化,導致模型在實際應用中的穩(wěn)定性和可靠性可能受限。此外,生成的新數(shù)據(jù)質(zhì)量和多樣性在一定程度上依賴于現(xiàn)有數(shù)據(jù)的質(zhì)量,數(shù)據(jù)不足或質(zhì)量不高可能限制模型的性能提升。
技術實現(xiàn)思路
1、針對現(xiàn)有技術中的上述不足,本發(fā)明提供的一種用于無人機視覺語言導航任務的數(shù)據(jù)增廣方法,解決了現(xiàn)有技術中生成的自然語言導航指令質(zhì)量較差的問題。
2、為了達到上述發(fā)明目的,本發(fā)明采用的技術方案為:一種用于無人機視覺語言導航任務的數(shù)據(jù)增廣方法,包括如下步驟:
3、s1、獲取導航圖,使用啟發(fā)式搜索算法對導航圖進行搜索,得到路徑和動作序列,調(diào)用仿真器生成路徑對應的視覺觀察,并根據(jù)路徑、動作序列和視覺觀察,確定路徑-動作序列-視覺觀察對;
4、其中,每個路徑包括至少兩個路徑點;
5、s2、使用預訓練的視覺特征編碼器和預訓練的語言特征編碼器分別對現(xiàn)有視覺語言導航任務數(shù)據(jù)集、路徑-動作序列-視覺觀察對進行預處理,得到路徑-圖像特征-文本特征對;
6、現(xiàn)有視覺語言導航任務數(shù)據(jù)集中包括至少一個路徑-動作序列-視覺觀察-指令描述對數(shù)據(jù);
7、s3、使用基于相等性判斷的動態(tài)處理策略對路徑-圖像特征-文本特征對進行動態(tài)合并,得到合并后的路徑-圖像特征-文本特征對;
8、s4、根據(jù)視覺觀察和合并后的路徑-圖像特征-文本特征對,構造用于訓練投影層的訓練數(shù)據(jù)集;
9、s5、使用訓練數(shù)據(jù)集對投影層進行訓練,并基于現(xiàn)有視覺語言導航任務數(shù)據(jù)集使用模型微調(diào)方法對大語言模型進行微調(diào);
10、s6、使用duet模型的視覺空間表征模塊對合并后的路徑-圖像特征-文本特征對進行處理,得到路徑-圖像特征嵌入-文本特征嵌入對,并使用訓練后的投影層將路徑-圖像特征嵌入-文本特征嵌入對投影到微調(diào)后的大語言模型的語義空間,通過微調(diào)后的大語言模型輸出路徑-圖像特征嵌入-文本特征嵌入-指令描述對;
11、s7、使用語言評價指標對路徑-圖像特征嵌入-文本特征嵌入-指令描述對進行篩選,得到增廣數(shù)據(jù)。
12、上述方案的有益效果是:
13、(1)本發(fā)明利用duet模型的雙尺度視覺表征能力和大語言模型的上下文學習推理能力構建層次化指令生成體系結構,同時可以用提示模板或思維鏈使其生成效果更好,語言描述更加精確,更符合人類風格習慣,通過用現(xiàn)有數(shù)據(jù)集對其進行訓練并用lora進行微調(diào),使得生成指令更符合aerialvln風格,提高了生成指令的質(zhì)量。
14、(2)本發(fā)明中的duet模型可以對導航路徑上的空間視覺信息進行全局編碼和局部編碼,即其不僅關注當前空間視覺信息,同時關注全局歷史信息,因此,duet模型對路徑上空間視覺的表征不會隨著路徑序列的加長而出現(xiàn)衰退,并且本發(fā)明的動態(tài)處理策略可以減少冗余特征,最終生成的指令是簡潔而包含關鍵動作的,對于解決aerialvln任務的“長平”問題至關重要。
15、(3)本發(fā)明與典型的數(shù)據(jù)增廣方法例如數(shù)據(jù)插值和混合、噪聲注入和針對特定場景設計的專家模型相比,由于本發(fā)明利用的是大語言模型,得益于其大量豐富的語料進行預訓練,使得生成的數(shù)據(jù)具有豐富的導航語義信息且更符合人類的語言習慣。
16、進一步地,步驟s2中,預訓練的視覺特征編碼器為vit-b/16,預訓練的語言特征編碼器為bert;
17、步驟s2,具體包括:
18、s21、使用vit-b/16對路徑-動作序列-視覺觀察-指令描述對中的視覺觀察進行特征提取,得到第一圖像特征;
19、s22、使用bert對路徑-動作序列-視覺觀察-指令描述對中的動作序列和指令描述進行特征提取,得到第一文本特征;
20、s23、根據(jù)路徑-動作序列-視覺觀察-指令描述對、第一圖像特征和第一文本特征,確定第一路徑-圖像特征-文本特征對;
21、s24、使用vit-b/16對路徑-動作序列-視覺觀察對中的視覺觀察進行特征提取,得到第二圖像特征;
22、s25、使用bert對路徑-動作序列-視覺觀察對中的動作序列進行特征提取,得到第二文本特征;
23、s26、根據(jù)路徑-動作序列-視覺觀察對、第二圖像特征和第二文本特征,得到第二路徑-圖像特征-文本特征對;
24、s27、對第一路徑-圖像特征-文本特征對和第二路徑-圖像特征-文本特征對進行合并,得到路徑-圖像特征-文本特征對。
25、上述進一步方案的有益效果是:視覺特征編碼器能夠從圖像或視頻中自動提取有意義的特征表示,這些特征通常是對圖像內(nèi)容的高度概括且與任務相關的抽象描述,提高了后續(xù)任務處理的效率和效果。語言特征編碼器通過將文本數(shù)據(jù)轉(zhuǎn)化為高維的特征向量,語言特征編碼器能捕捉詞匯、短語乃至整個句子的語義信息,從而加深對文本意義的理解。
26、進一步地,步驟s3中,使用基于相等性判斷的動態(tài)處理策略對路徑-圖像特征-文本特征對進行動態(tài)合并,具體包括:
27、使用基于相等性判斷的動態(tài)處理策略,遍歷路徑-圖像特征-文本特征對中的文本特征,判斷相鄰的文本特征是否相同,若是,則將相鄰的文本特征分別對應的路徑-圖像特征-文本特征對進行合并,若否,則繼續(xù)遍歷路徑-圖像特征-文本特征對。
28、上述進一步方案的有益效果是:通過相等性判斷,可以快速識別出具有相同或相關聯(lián)路徑、圖像特征和文本特征的數(shù)據(jù)對,僅對這些匹配的數(shù)據(jù)進行合并,減少了不必要的遍歷和處理操作,提升了處理速度。減少了冗余信息,有助于解決aerialvln指令中關鍵信號稀疏的問題,使得生成的指令簡潔同時包含關鍵動作。
29、進一步地,步驟s4,具體包括:
30、s41、將合并后的路徑-圖像特征-文本特征對輸入duet模型的粗尺度編碼模塊中進行場景圖編碼,通過duet模型輸出路徑-場景圖編碼嵌入-文本特征對;
31、s42、使用圖像描述模型對視覺觀察進行處理,得到視覺觀察對應的自然語言描述;
32、s43、設計自然語言生成模板,并使用自然語言生成模板對大語言模型進行訓練;
33、s44、將路徑-場景圖編碼嵌入-文本特征對和自然語言描述輸入訓練好的大語言模型,通過訓練好的大語言模型輸出結構化自然語言描述;
34、s45、將結構化自然語言描述輸入語言編碼模塊,通過語言編碼模塊輸出場景圖編碼嵌入-自然語言編碼嵌入,作為用于訓練投影層的訓練數(shù)據(jù)集。
35、上述進一步方案的有益效果是:通過將圖像特征、文本特征與場景圖編碼相結合,實現(xiàn)了視覺和語言信息的深層次融合,促進了對復雜場景的綜合理解與表達。定制化的自然語言生成模板配合大語言模型訓練,能夠生成更加精準、結構化且符合特定應用場景的自然語言描述,提高了訓練數(shù)據(jù)集的實用性和可讀性。
36、進一步地,步驟s5,具體包括:
37、s51、使用隨機初始化的投影層將duet模型的全局空間視覺表征模塊與訓練好的大語言模型的語義空間進行連接,使用由instructblip初始化的q-former將duet模型的局部空間視覺表征模塊與訓練好的大語言模型的語義空間進行連接,形成投影層,并使用訓練數(shù)據(jù)集對投影層進行訓練,得到訓練好的投影層;
38、s52、將duet模型的視覺表征模塊和訓練好的投影層的參數(shù)凍結,并基于現(xiàn)有視覺語言導航任務數(shù)據(jù)集使用模型微調(diào)方法對訓練好的大語言模型進行微調(diào);
39、其中,duet模型的視覺表征模塊包括全局空間視覺表征模塊和局部空間視覺表征模塊。
40、上述進一步方案的有益效果是:全局表征覆蓋整體語義,局部表征聚焦細節(jié)信息,二者的融合讓模型能夠同時理解圖像的宏觀背景和微觀元素,提高了對復雜場景的理解能力。全局和局部視覺特征與語言特征的有效整合,可以增強視覺信息與文本描述之間的一致性,提升圖像內(nèi)容描述的準確性和豐富性。
41、進一步地,步驟s7中,語言評價指標包括bleu、meteor、rouge、cider、spice和nist。
42、上述進一步方案的有益效果是:通過標準化的語言評價指標,可以客觀地量化機器翻譯、文本摘要、對話系統(tǒng)等生成式任務的質(zhì)量。有助于開發(fā)者和研究人員了解模型的強項和弱點,指導模型的迭代優(yōu)化。
43、進一步地,步驟s52中,模型微調(diào)方法包括lora、qlora、adapter-tuning和prefix-tuning。
44、上述進一步方案的有益效果是:微調(diào)方法通過減少所需參數(shù)量、提高計算效率和靈活性,使得模型能夠更高效、針對性地應用于特定任務,同時也降低了實際應用中的資源門檻。