本發(fā)明涉及深度學(xué)習(xí)數(shù)據(jù)自動(dòng)化標(biāo)注,尤其涉及一種基于迭代推理的光學(xué)遙感圖像標(biāo)注引擎構(gòu)建方法及裝置。
背景技術(shù):
1、隨著深度學(xué)習(xí)的快速發(fā)展,尤其是在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和語(yǔ)音識(shí)別等領(lǐng)域,訓(xùn)練數(shù)據(jù)的需求日益增加。深度學(xué)習(xí)模型通常需要大量高質(zhì)量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,然而,人工標(biāo)注過(guò)程通常需要大量的人力資源,涉及到招聘、培訓(xùn)和管理標(biāo)注人員。這導(dǎo)致了高昂的成本,特別是在需要大規(guī)模標(biāo)注的情況下,經(jīng)濟(jì)負(fù)擔(dān)顯著。此外,人工數(shù)據(jù)標(biāo)注是一個(gè)耗時(shí)的過(guò)程,尤其是在需要精細(xì)標(biāo)注的任務(wù)中(如圖像分割、情感分析等)。人工標(biāo)注的速度往往無(wú)法滿足深度學(xué)習(xí)模型快速迭代和更新的需求,延緩了研究和產(chǎn)品開(kāi)發(fā)的進(jìn)程。
2、相比于自然圖像的人工標(biāo)注,遙感圖像的人工標(biāo)注還面臨著更多獨(dú)特的難點(diǎn)與挑戰(zhàn)。遙感圖像的標(biāo)注通常需要豐富的專業(yè)知識(shí),包括地理信息系統(tǒng)(gis)、環(huán)境科學(xué)等,這要求標(biāo)注人員具備更高的專業(yè)素養(yǎng)。遙感圖像通常包含多種地物類型(如水體、植被、城市等),這些地物在不同的環(huán)境條件下表現(xiàn)出不同的特征,導(dǎo)致標(biāo)注過(guò)程更加復(fù)雜。遙感圖像有不同的空間分辨率,低分辨率圖像可能導(dǎo)致目標(biāo)模糊,而高分辨率圖像則增加了標(biāo)注的細(xì)致程度要求。同一對(duì)象在不同分辨率的遙感圖像中呈現(xiàn)的形狀和大小差異顯著,標(biāo)注人員需要處理多尺度問(wèn)題,增加了識(shí)別和標(biāo)注的難度。
3、此外,在遙感圖像領(lǐng)域中,現(xiàn)存的公開(kāi)數(shù)據(jù)集在標(biāo)注規(guī)模、標(biāo)注模態(tài)和標(biāo)注粒度等方面存在著顯著的問(wèn)題。許多現(xiàn)有的遙感數(shù)據(jù)集往往只針對(duì)單一的視覺(jué)任務(wù)進(jìn)行標(biāo)注,這意味著單個(gè)數(shù)據(jù)集中的標(biāo)注信息往往只覆蓋了單一的標(biāo)注模態(tài)和標(biāo)注粒度。一方面,這導(dǎo)致遙感圖像中豐富的地物信息無(wú)法得到充分利用,另一方面,這種不全面的標(biāo)注模式導(dǎo)致模型僅能針對(duì)圖像中單一模態(tài)和單一粒度的信息進(jìn)行學(xué)習(xí),這種學(xué)習(xí)的不全面性限制了模型的應(yīng)用范圍和泛化能力。
4、綜合來(lái)看,針對(duì)遙感圖像來(lái)人工標(biāo)注深度學(xué)習(xí)模型訓(xùn)練數(shù)據(jù)雖然在某些情況下依然不可或缺,但其高成本、時(shí)間消耗、模態(tài)和粒度單一等局限性嚴(yán)重阻礙了計(jì)算視覺(jué)技術(shù)在遙感領(lǐng)域的大規(guī)模應(yīng)用。這促使研究者們探索自動(dòng)化標(biāo)注技術(shù)和其他替代方法,以提高標(biāo)注效率和質(zhì)量。
5、自動(dòng)化標(biāo)注技術(shù)主要涉及計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域。它的基本思路是利用現(xiàn)有的標(biāo)注數(shù)據(jù)、生成模型或半監(jiān)督學(xué)習(xí)等方法,自動(dòng)生成高質(zhì)量的標(biāo)注數(shù)據(jù),從而減少人工干預(yù)。在這一過(guò)程中,主要應(yīng)用的技術(shù)包括遷移學(xué)習(xí)、生成對(duì)抗網(wǎng)絡(luò)(gan)、自監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)等。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種基于迭代推理的光學(xué)遙感圖像標(biāo)注引擎構(gòu)建方法及裝置。
2、本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:一種基于迭代推理的光學(xué)遙感圖像標(biāo)注引擎構(gòu)建方法,包括如下步驟:
3、收集帶標(biāo)注的開(kāi)源光學(xué)遙感數(shù)據(jù)集;將所述開(kāi)源光學(xué)遙感數(shù)據(jù)集中的每個(gè)圖像設(shè)置一個(gè)標(biāo)注項(xiàng)的集合l,將集合l劃分為集合a、集合b和集合c;
4、針對(duì)所述集合a和集合b內(nèi)的每個(gè)標(biāo)注項(xiàng),分別構(gòu)建一個(gè)專家系統(tǒng),利用所述專家系統(tǒng)在所述開(kāi)源光學(xué)遙感數(shù)據(jù)集中的每張圖像上進(jìn)行推理,將推理結(jié)果進(jìn)行過(guò)濾后,與對(duì)應(yīng)的圖像在所述標(biāo)注項(xiàng)上的原始標(biāo)注內(nèi)容進(jìn)行融合,將融合后的標(biāo)注內(nèi)容作為所述圖像上標(biāo)注項(xiàng)的標(biāo)注內(nèi)容;
5、重復(fù)迭代以下步驟:利用所述開(kāi)源光學(xué)遙感數(shù)據(jù)集的每張圖像及所述圖像在集合a和集合b內(nèi)每個(gè)標(biāo)注項(xiàng)的標(biāo)注內(nèi)容訓(xùn)練一個(gè)多模態(tài)大模型m;針對(duì)所述集合a和集合b內(nèi)的每個(gè)標(biāo)注項(xiàng),基于所述多模態(tài)大模型m在所述開(kāi)源光學(xué)遙感數(shù)據(jù)集中的每張圖像上進(jìn)行推理,將推理結(jié)果進(jìn)行過(guò)濾后,與對(duì)應(yīng)的圖像在所述標(biāo)注項(xiàng)上的當(dāng)前標(biāo)注內(nèi)容進(jìn)行融合,將融合后的標(biāo)注內(nèi)容作為所述張圖像上標(biāo)注項(xiàng)的標(biāo)注內(nèi)容;
6、迭代完成后,針對(duì)所述集合c內(nèi)的每個(gè)標(biāo)注項(xiàng),采用人工標(biāo)注的方式獲取少量標(biāo)注項(xiàng)對(duì)應(yīng)的標(biāo)注樣本,利用所述標(biāo)注樣本對(duì)所述多模態(tài)大模型m進(jìn)行訓(xùn)練;
7、針對(duì)集合c內(nèi)的每個(gè)標(biāo)注項(xiàng),利用訓(xùn)練完成后的多模態(tài)大模型m在所述開(kāi)源光學(xué)遙感數(shù)據(jù)集的每張圖像上進(jìn)行推理,將推理結(jié)果進(jìn)行過(guò)濾后,與對(duì)應(yīng)的圖像在所述標(biāo)注項(xiàng)上的當(dāng)前標(biāo)注內(nèi)容進(jìn)行融合,將融合后的標(biāo)注內(nèi)容作為所述圖像上標(biāo)注項(xiàng)的標(biāo)注內(nèi)容;
8、重復(fù)迭代以下步驟:利用所述開(kāi)源光學(xué)遙感數(shù)據(jù)集的每張圖像及所述圖像在集合c內(nèi)每個(gè)標(biāo)注項(xiàng)的標(biāo)注內(nèi)容對(duì)訓(xùn)練后的多模態(tài)大模型m再次訓(xùn)練;針對(duì)集合c內(nèi)的每個(gè)標(biāo)注項(xiàng),基于再次訓(xùn)練后的多模態(tài)大模型m在所述開(kāi)源光學(xué)遙感數(shù)據(jù)集中的每張圖像上進(jìn)行推理,將推理結(jié)果進(jìn)行過(guò)濾后,與對(duì)應(yīng)的圖像在所述標(biāo)注項(xiàng)上的當(dāng)前標(biāo)注內(nèi)容進(jìn)行融合,將融合后的標(biāo)注內(nèi)容作為所述圖像上標(biāo)注項(xiàng)的標(biāo)注內(nèi)容;
9、迭代完成后,針對(duì)所述開(kāi)源光學(xué)遙感數(shù)據(jù)集的每個(gè)圖像,將兩次重復(fù)迭代后得到的標(biāo)注內(nèi)容作為所述圖像的最終標(biāo)注內(nèi)容,從而得到一個(gè)多粒度多模態(tài)的光學(xué)遙感圖像標(biāo)注數(shù)據(jù)集合。
10、進(jìn)一步地,所述開(kāi)源光學(xué)遙感數(shù)據(jù)集包括圖像分類數(shù)據(jù)集、目標(biāo)檢測(cè)數(shù)據(jù)集、visual?grounding數(shù)據(jù)集、實(shí)例分割數(shù)據(jù)集、圖像描述數(shù)據(jù)集和vqa數(shù)據(jù)集。
11、進(jìn)一步地,所述集合l包含7個(gè)元素,分別為:圖像的類別、圖像的簡(jiǎn)短描述、圖像中目標(biāo)之間的關(guān)系描述、圖像中每個(gè)對(duì)象的水平目標(biāo)框、圖像中每個(gè)對(duì)象的像素掩膜、圖像中每個(gè)對(duì)象的類別名稱以及圖像中每個(gè)對(duì)象的簡(jiǎn)短描述。
12、進(jìn)一步地,所述融合方式具體為:若當(dāng)前針對(duì)的標(biāo)注項(xiàng)為所述圖像中每個(gè)對(duì)象的水平目標(biāo)框的標(biāo)注項(xiàng),且該圖像在該標(biāo)注項(xiàng)上當(dāng)前的標(biāo)注內(nèi)容為空,則將過(guò)濾后的推理結(jié)果作為融合后的標(biāo)注內(nèi)容;若當(dāng)前針對(duì)的標(biāo)注項(xiàng)為所述圖像中每個(gè)對(duì)象的水平目標(biāo)框的標(biāo)注項(xiàng),且該圖像在該標(biāo)注項(xiàng)上當(dāng)前的標(biāo)注內(nèi)容不為空,則將過(guò)濾后的推理結(jié)果與當(dāng)前的標(biāo)注內(nèi)容進(jìn)行非極大值抑制處理,將處理結(jié)果作為融合后的標(biāo)注內(nèi)容;若當(dāng)前針對(duì)的標(biāo)注項(xiàng)不是所述圖像中每個(gè)對(duì)象的水平目標(biāo)框的標(biāo)注項(xiàng),且該圖像在該標(biāo)注項(xiàng)上當(dāng)前的標(biāo)注內(nèi)容不是人工標(biāo)注的,則將過(guò)濾后的推理結(jié)果作為融合后的標(biāo)注內(nèi)容;若當(dāng)前針對(duì)的標(biāo)注項(xiàng)不是所述圖像中每個(gè)對(duì)象的水平目標(biāo)框的標(biāo)注項(xiàng),且該圖像在該標(biāo)注項(xiàng)上當(dāng)前的標(biāo)注內(nèi)容是人工標(biāo)注的,則將該圖像當(dāng)前的標(biāo)注內(nèi)容作為融合后的標(biāo)注內(nèi)容;若當(dāng)前針對(duì)的標(biāo)注項(xiàng)不是所述圖像中每個(gè)對(duì)象的水平目標(biāo)框的標(biāo)注項(xiàng),且過(guò)濾后的推理結(jié)果為空,則將該圖像當(dāng)前的標(biāo)注內(nèi)容作為融合后的標(biāo)注內(nèi)容。
13、進(jìn)一步地,所述將集合l劃分為集合a、集合b和集合c具體為:若所述開(kāi)源光學(xué)遙感數(shù)據(jù)集中的同一類型標(biāo)注項(xiàng)的標(biāo)注樣本數(shù)量超過(guò)10萬(wàn)個(gè),則將該標(biāo)注項(xiàng)劃分到集合a;若所述開(kāi)源光學(xué)遙感數(shù)據(jù)集中的同一類型標(biāo)注項(xiàng)的標(biāo)注樣本數(shù)量少于10萬(wàn)個(gè),但開(kāi)源多模態(tài)大模型能夠針對(duì)該標(biāo)注項(xiàng)進(jìn)行高質(zhì)量的推理,則將該標(biāo)注項(xiàng)劃分到集合b;若所述開(kāi)源光學(xué)遙感數(shù)據(jù)集中的同一類型標(biāo)注項(xiàng)的標(biāo)注樣本數(shù)量少于10萬(wàn)個(gè),且開(kāi)源多模態(tài)大模型無(wú)法針對(duì)該標(biāo)注項(xiàng)進(jìn)行高質(zhì)量的推理,則將該標(biāo)注項(xiàng)劃分到集合c。
14、進(jìn)一步地,所述針對(duì)所述集合a和集合b內(nèi)的每個(gè)標(biāo)注項(xiàng),分別構(gòu)建一個(gè)專家系統(tǒng)中,所述針對(duì)集合a內(nèi)的每個(gè)標(biāo)注項(xiàng)構(gòu)建的專家系統(tǒng)由多個(gè)神經(jīng)網(wǎng)絡(luò)模型構(gòu)成,每個(gè)神經(jīng)網(wǎng)絡(luò)模型均基于所述開(kāi)源光學(xué)遙感數(shù)據(jù)集中包含的原始標(biāo)注內(nèi)容訓(xùn)練得到;所述針對(duì)集合b內(nèi)的每個(gè)標(biāo)注項(xiàng)構(gòu)建的專家系統(tǒng)由一個(gè)開(kāi)源多模態(tài)大模型構(gòu)成。
15、進(jìn)一步地,所述利用所述專家系統(tǒng)在所述開(kāi)源光學(xué)遙感數(shù)據(jù)集中的每張圖像上進(jìn)行推理中,針對(duì)集合a內(nèi)每個(gè)標(biāo)注項(xiàng)構(gòu)建的專家系統(tǒng)的推理過(guò)程包括:
16、專家系統(tǒng)中的每個(gè)神經(jīng)網(wǎng)絡(luò)模型單獨(dú)進(jìn)行推理;
17、將多個(gè)神經(jīng)網(wǎng)絡(luò)模型的推理結(jié)果基于投票的規(guī)則進(jìn)行融合,將融合后的推理結(jié)果輸出。
18、進(jìn)一步地,所述過(guò)濾方式采用基于置信度的過(guò)濾或基于啟發(fā)式規(guī)則的過(guò)濾。
19、進(jìn)一步地,所述重復(fù)迭代的步驟,迭代次數(shù)不超過(guò)3次。
20、本發(fā)明還提供了一種基于迭代推理的光學(xué)遙感圖像標(biāo)注引擎構(gòu)建裝置,包括存儲(chǔ)器和一個(gè)或多個(gè)處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí),用于實(shí)現(xiàn)所述的一種基于迭代推理的光學(xué)遙感圖像標(biāo)注引擎構(gòu)建方法。
21、本發(fā)明的有益效果在于:
22、1.能夠基于已有的單一標(biāo)注模態(tài)和標(biāo)注粒度的開(kāi)源光學(xué)遙感數(shù)據(jù)集自動(dòng)生成大規(guī)模的光學(xué)遙感圖像標(biāo)注數(shù)據(jù)集,降低數(shù)據(jù)標(biāo)注的難度和成本。
23、2.能夠支撐多模態(tài)多任務(wù)視覺(jué)模型在圖像分類、圖像描述、圖像問(wèn)答、圖像區(qū)域分類、圖像區(qū)域描述、圖像區(qū)域問(wèn)答、目標(biāo)檢測(cè)、vision?grounding、目標(biāo)掩膜提取、實(shí)例分割、引用表達(dá)分割等多種光學(xué)遙感圖像解譯任務(wù)上的訓(xùn)練,使單一模型具備處理各種空間層次結(jié)構(gòu)和語(yǔ)義粒度的能力。