本發(fā)明涉及視覺檢索,具體涉及一種基于特征細(xì)化與特征矯正的持續(xù)視覺檢索方法及系統(tǒng)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)數(shù)據(jù)的爆炸性增長,人們在日常生活中產(chǎn)生了大量以文本、圖像、視頻為主的多媒體數(shù)據(jù)。其中,視覺數(shù)據(jù)如圖像、視頻等,蘊含了豐富的視覺信息,并且其數(shù)量正在急劇增加。為了從海量視覺數(shù)據(jù)中高效、精準(zhǔn)地檢索出滿足用戶查詢需求的內(nèi)容,視覺檢索技術(shù)已成為工業(yè)界與學(xué)術(shù)界的研究熱點。具體來說,視覺檢索技術(shù)旨在從大規(guī)模視覺數(shù)據(jù)庫中搜索并返回與查詢數(shù)據(jù)相似的條目。目前,視覺檢索技術(shù)已廣泛應(yīng)用在智慧城市、智能電商、智慧醫(yī)療與版權(quán)保護等實際場景。然而,隨著視覺數(shù)據(jù)的高速增長,視覺檢索技術(shù)的可持續(xù)擴展能力在實際應(yīng)用中變得越來越重要。例如在智慧城市場景中,隨著監(jiān)控攝像頭數(shù)量的增加,涉及的監(jiān)控目標(biāo)也在增多,這要求行人和車輛重識別系統(tǒng)能夠?qū)崟r或近實時地對新增目標(biāo)進行建模,并實現(xiàn)精確檢索,以快速響應(yīng)安全事件的需求。在智能電商業(yè)務(wù)中,每天都有大量新興商品涌入市場。如果電商軟件不能及時更新其搜索系統(tǒng)以支持對新興商品的檢索,用戶體驗將受到嚴(yán)重影響。因此,考慮到實際應(yīng)用場景中數(shù)據(jù)的動態(tài)變化,開發(fā)一種能夠快速對新增類別進行建模和檢索的持續(xù)視覺檢索技術(shù)具有重要的現(xiàn)實意義。目前,持續(xù)視覺檢索技術(shù)提出了一系列學(xué)習(xí)技術(shù),以確保模型在學(xué)到新類別知識的同時不遺忘舊知識,從而提高檢索精度與模型更新的效率。例如,有方法通過引入最大平均差異(maximum?mean?discrepancy,mmd)損失來以最小化新舊模型生成的嵌入之間的差異。有的方法提出特征的后向兼容性需求,確保新生成的特征嵌入與數(shù)據(jù)庫中先前保存的嵌入具有可比性。
2、盡管現(xiàn)有方法考慮到了新特征與數(shù)據(jù)庫中已保存的特征之間的后向兼容性,能夠在不改變已保存數(shù)據(jù)庫特征的情況下對圖像檢索系統(tǒng)進行更新。然而,這些方法往往忽略了對“語義偏移”問題的深入研究,隨著時間推移往往遇到新特征與已保存特征距離過遠(yuǎn)的問題,導(dǎo)致檢索的精度下降。通過深入分析,研究人員發(fā)現(xiàn)造成“語義偏移”問題的一個主要原因是新舊類別之間的重疊語義。具體來說,新舊類別的樣本可能共享某些語義特征。例如,新類別“狗”可能與舊類別“貓”在毛色、背景等方面具有相似之處。在模型更新過程中,由于新類別樣本的訓(xùn)練數(shù)據(jù)占主導(dǎo)地位,模型會對新類別產(chǎn)生偏向。這可能導(dǎo)致模型錯誤地將這些重疊的語義特征,如毛色和背景,與新類別“狗”綁定,而包含重疊語義的舊類別“貓”會被錯誤地識別為新類別,從而造成舊類別的遺忘,限制了模型的可持續(xù)擴展能力。為了解決這一問題,需要開發(fā)出能夠識別并處理新類別間重疊語義的算法,以減少模型更新過程中的語義偏移,確保視覺檢索系統(tǒng)在持續(xù)學(xué)習(xí)中的精度和擴展性。
技術(shù)實現(xiàn)思路
1、為解決上述問題,本發(fā)明公開一種基于特征細(xì)化與特征矯正的持續(xù)視覺檢索方法及系統(tǒng),用于解決持續(xù)視覺檢索任務(wù)中遺忘問題,提升視覺檢索模型在面對動態(tài)變化的數(shù)據(jù)環(huán)境時的可持續(xù)擴展能力。
2、為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案包括以下內(nèi)容。
3、一種基于特征細(xì)化與特征矯正的持續(xù)視覺檢索方法,所述方法包括:
4、構(gòu)建視覺檢索模型,所述視覺檢索模型包括:骨干網(wǎng)絡(luò)、特征細(xì)化模塊、特征矯正模塊、嵌入層和分類器,所述特征細(xì)化模塊用于揭示所述骨干網(wǎng)絡(luò)輸出的特征圖譜m中的重要區(qū)域,所述特征矯正模塊用于訓(xùn)練所述視覺檢索模型時抑制新類別中與舊類別重疊的語義;
5、構(gòu)建第t個階段的訓(xùn)練數(shù)據(jù)集,并在第t個階段的訓(xùn)練數(shù)據(jù)集上訓(xùn)練視覺檢索模型ft,得到視覺檢索模型ft+1;其中,所述第t個階段的訓(xùn)練數(shù)據(jù)集包括:第t個階段出現(xiàn)的新數(shù)據(jù)和前t-1個階段中的重放數(shù)據(jù),t為正整數(shù);
6、基于訓(xùn)練后的視覺檢索模型ft+1獲取目標(biāo)圖像的視覺檢索結(jié)果。
7、進一步地,在t=1的情況下,所述在第t個階段的訓(xùn)練數(shù)據(jù)集上訓(xùn)練視覺檢索模型ft,得到視覺檢索模型ft+1,包括:
8、基于視覺檢索模型f1的骨干網(wǎng)絡(luò),生成第1個階段的訓(xùn)練數(shù)據(jù)集中數(shù)據(jù)xi的特征圖譜mi,i為自然數(shù),所述數(shù)據(jù)xi為第1個階段出現(xiàn)的新數(shù)據(jù);
9、將所述特征圖譜mi輸入特征細(xì)化模塊,得到細(xì)化特征圖譜m′i;
10、經(jīng)由嵌入層計算所述細(xì)化特征圖譜m′i的特征嵌入f1(xi),并將所述特征嵌入f1(xi)輸入分類器,來計算階段內(nèi)判別性損失
11、基于階段內(nèi)判別性損失對骨干網(wǎng)絡(luò)、嵌入層以及分類器進行端到端地學(xué)習(xí),以得到視覺檢索模型f2。
12、進一步地,在t>1的情況下,所述在第t個階段的訓(xùn)練數(shù)據(jù)集上訓(xùn)練視覺檢索模型ft,得到視覺檢索模型ft+1,包括:
13、基于視覺檢索模型ft的骨干網(wǎng)絡(luò),生成第t個階段的訓(xùn)練數(shù)據(jù)集中數(shù)據(jù)xi的特征圖譜mi,i為自然數(shù),所述數(shù)據(jù)xi為第t個階段出現(xiàn)的新數(shù)據(jù)或前t-1個階段中的回放數(shù)據(jù);
14、將所述特征圖譜mi輸入特征細(xì)化模塊,得到細(xì)化特征圖譜m′i;
15、計算所述細(xì)化特征圖譜m′i的特征嵌入ft(xi),并將所述特征嵌入ft(xi)輸入分類器,來計算階段內(nèi)判別性損失
16、基于前t-1個階段中的重放數(shù)據(jù)計算階段間數(shù)據(jù)一致性損失來確保第t個階段訓(xùn)練的視覺檢索模型與前t-1個階段中的視覺檢索保持一致;
17、從第t個階段的訓(xùn)練數(shù)據(jù)中構(gòu)造樣本對(xa,xn),并基于所述樣本對(xa,xn)計算相鄰階段一致性損失來將相似性知識從視覺檢索模型ft-1傳遞到視覺檢索模型ft;其中,xa為錨點樣本,xn為錨點樣本xa的困難負(fù)樣本;
18、基于前t-1個階段中的舊數(shù)據(jù)所對應(yīng)的細(xì)化特征圖譜對細(xì)化特征圖譜m′i進行矯正,并基于矯正特征圖譜計算特征矯正損失和特征一致性損失其中,所述特征矯正損失用于最大化矯正特征圖譜經(jīng)過嵌入層后生成的圖像嵌入與圖像xi對應(yīng)分類權(quán)重之間的相似度,所述特征一致性損失用于以矯正特征圖譜作為目標(biāo),最小化細(xì)化特征圖譜m′i和矯正特征圖譜之間的l2距離;
19、基于階段內(nèi)判別性損失階段間數(shù)據(jù)一致性損失鄰階段一致性損失特征矯正損失以及特征一致性損失對骨干網(wǎng)絡(luò)、嵌入層以及分類器進行端到端地學(xué)習(xí),以得到視覺檢索模型ft+1。
20、進一步地,將所述特征圖譜mi輸入特征細(xì)化模塊,得到細(xì)化特征圖譜m′i,包括:
21、在特征圖譜的通道維度上計算特征圖譜mi的平均特征圖a;
22、在特征圖譜的高和寬維度上計算平均特征圖a的均值,并將該均值作為判別區(qū)域重要程度的閾值τ;
23、根據(jù)閾值τ,計算特征圖譜mi的重要程度權(quán)重矩陣w;
24、將所述特征圖譜mi和所述重要程度權(quán)重矩陣w逐元素點乘,得到細(xì)化特征圖譜m′i。
25、進一步地,所述階段內(nèi)判別性損失其中,表示數(shù)據(jù)xi的類別yi對應(yīng)分類層權(quán)重的l2-歸一化表示,κ表示溫度系數(shù),c1:t表示第1個階段到第t個階段的已知類別集合。
26、進一步地,所述階段間數(shù)據(jù)一致性損失其中,c1:t-1表示第1個階段到第t-1個階段的已知類別集合,表示,表示屬于已知類別c的重放數(shù)據(jù),ξc表示已知類別c的原型嵌入。
27、進一步地,所述相鄰階段一致性損失其中,gt表示在第t個階段出現(xiàn)的數(shù)據(jù)庫圖像,m表示閾值。
28、進一步地,基于前t-1個階段中的舊數(shù)據(jù)所對應(yīng)的細(xì)化特征圖譜對細(xì)化特征圖譜m′i進行矯正,包括:
29、計算舊數(shù)據(jù)的特征嵌入
30、通過計算所述特征嵌入和所述特征嵌入ft(xi)的相似度,選取舊數(shù)據(jù)
31、對于選取的舊數(shù)據(jù)計算該舊數(shù)據(jù)的細(xì)化特征圖譜
32、使用細(xì)化特征圖譜對細(xì)化特征圖譜m′i進行矯正,得到矯正特征圖譜其中,μ為控制矯正強度的超參數(shù)。
33、進一步地,所述特征矯正損失所述特征一致性損失其中,表示數(shù)據(jù)xi的類別yi對應(yīng)分類層權(quán)重的l2-歸一化表示,表示矯正特征圖譜經(jīng)過嵌入層后生成的特征嵌入,κ表示溫度系數(shù),c1:t表示第1個階段到第t個階段的已知類別集合,c、h、w分為特征圖譜mi的通道數(shù)、高和寬。
34、一種基于特征細(xì)化與特征矯正的持續(xù)視覺檢索系統(tǒng),所述系統(tǒng)包括:
35、模型構(gòu)建模塊,構(gòu)建視覺檢索模型,所述視覺檢索模型包括:骨干網(wǎng)絡(luò)、特征細(xì)化模塊、特征矯正模塊、嵌入層和分類器,所述特征細(xì)化模塊用于揭示所述骨干網(wǎng)絡(luò)輸出的特征圖譜m中的重要區(qū)域,所述特征矯正模塊用于訓(xùn)練所述視覺檢索模型時抑制新類別中與舊類別重疊的語義;
36、模型訓(xùn)練模塊,用于構(gòu)建第t個階段的訓(xùn)練數(shù)據(jù)集,并在第t個階段的訓(xùn)練數(shù)據(jù)集上訓(xùn)練視覺檢索模型ft,得到視覺檢索模型ft+1;其中,所述第t個階段的訓(xùn)練數(shù)據(jù)集包括:第t個階段出現(xiàn)的新數(shù)據(jù)和前t-1個階段中的重放數(shù)據(jù),t為正整數(shù);
37、視覺檢索模塊,用于基于訓(xùn)練后的視覺檢索模型ft+1獲取目標(biāo)圖像的視覺檢索結(jié)果。
38、與現(xiàn)有技術(shù)相比,本發(fā)明至少具有以下有益效果。、
39、本發(fā)明設(shè)計了一個特征細(xì)化模塊,旨在強化模型對于具有類別判別性特征的提取能力,同時減少圖片中噪聲和背景語義對檢索效果的影響,有效緩解了新舊類別特征之間的語義重疊問題。進一步地,本發(fā)明提出了一個特征矯正模塊,通過對新舊類別特征圖譜的對比,實現(xiàn)對新類別特征圖譜的矯正。通過這種方法,本發(fā)明能夠確保模型在持續(xù)學(xué)習(xí)過程中,既能夠?qū)W習(xí)到新類別的特征,又不遺忘舊類別的知識。實驗結(jié)果表明,本發(fā)明的方法能夠顯著提升模型在持續(xù)學(xué)習(xí)場景中的檢索性能。這不僅證實了特征細(xì)化與特征矯正技術(shù)的有效性,也展示了本發(fā)明在提高視覺檢索系統(tǒng)可持續(xù)擴展能力方面的潛力。