一種基于上下文語義信息聚合的小目標圖像檢測方法

文檔序號：40393674發(fā)布日期：2024-12-20 12:16閱讀：5來源：國知局

本發(fā)明涉及一種基于上下文語義信息聚合的小目標圖像檢測方法，屬于計算攝像。

背景技術：

1、目標檢測(object?detection)是計算機視覺領域的一個核心任務，旨在從圖像或視頻中準確識別和定位物體。在目標檢測中，圖像去噪技術對于提高檢測性能和準確性至關重要。在目標檢測中，單階段檢測、兩階段檢測以及針對小目標的檢測方法，是技術人員研究的重要方向。

2、單階段檢測器，是一類直接從圖像中提取目標位置和類別的檢測模型，通常具有簡單的網(wǎng)絡結構和快速的推理速度，在實時應用和資源受限的環(huán)境中得到了廣泛應用。單階段檢測器的代表性算法包括yolo(you?only?look?once)系列和ssd(single?shotmultibox?detector)等。這些方法通過在圖像上采樣密集的候選框并直接對其進行分類和位置回歸來實現(xiàn)目標檢測。然而，單階段檢測器對于小目標和密集目標的處理相對較弱，在實際應用中，其性能受到了限制。

3、與單階段檢測器相對應，兩階段檢測器通常采用兩個階段的流程來完成目標檢測任務。首先，利用候選區(qū)域提取器(region?proposal?network,rpn)或其他方法生成候選框；然后，通過分類和位置回歸網(wǎng)絡對這些候選框進行進一步的處理。代表性的兩階段檢測器包括faster?r-cnn、mask?r-cnn等。這類方法通常具有更好的檢測性能，尤其是對于小目標和密集目標的識別能力更強。

4、針對小目標的檢測，是目標檢測領域的一個重要挑戰(zhàn)。因為小目標往往在圖像中尺寸較小、信息量較少，易受到噪聲和背景干擾的影響。為了解決這一問題，研究人員提出了許多針對小目標的檢測方法。這些方法通常包括增強模型的感受野、引入多尺度特征融合機制、改進損失函數(shù)等策略。此外，還有一些基于特征增強和遷移學習的方法，通過學習小目標和大目標特征之間的關系，將小目標特征擬合到大部秒特征空間中或利用預訓練好的大目標檢測模型知識來提升小目標檢測的性能。但是，這些的方法大多關注小目標與大目標特征之間的關聯(lián)，并引入復雜的先驗知識增強小目標表示，這往往忽略了小目標自身獨有的特征和小目標特征之間潛在關聯(lián)。

技術實現(xiàn)思路

1、本發(fā)明的目的是為了克服現(xiàn)有技術存在的不足和缺陷，創(chuàng)造性地提出一種基于上下文語義信息聚合的小目標圖像檢測方法，能夠在復雜的自然圖像特征中快速學習到同類小目標特征之間的內在關聯(lián)，在目標檢測的推理過程中將已經學習到的同類小目標特征之間的內在關聯(lián)和上下文信息與網(wǎng)絡提取到的小目標特征信息聚合，有效增強小目標的特征表示。

2、本發(fā)明的創(chuàng)新點包括：

3、第一，引入了一個簡單而有效的特征記憶模塊，該模塊旨在挖掘同類別小目標之間的潛在關聯(lián)信息，并將其保存為通用小目標特征信息。

4、第二，提出了一種基于上下文的特征聚合機制，利用從小目標中學習到的類別信息來增強小目標的特征表示，進一步增強了特征表示能力。

5、第三，通過多個階段的回歸頭逐步改進結果，實現(xiàn)了更準確的預測。這種綜合利用上下文信息和特征記憶的方法，使得小目標檢測在復雜場景下能夠更加魯棒地進行。

6、本發(fā)明采用以下技術方案實現(xiàn)。

7、一種基于上下文語義信息聚合的小目標圖像檢測方法，采用兩階段檢測模型，并引入基于上下文信息聚合的特征增強模塊和多級檢測頭輔助模型，以實現(xiàn)對小目標的準確檢測。

8、具體地，包括以下步驟：

9、首先，構建一個基于resnet主干網(wǎng)絡的小目標特征提取模塊。本發(fā)明使用在imagenet上預訓練過的resnet50模型來初始化主干網(wǎng)絡的權重，并將自然圖像輸入到主干網(wǎng)絡中進行圖像特征提取。

10、之后，設計一個特征金字塔，通過對主干網(wǎng)絡提取的圖像特征進行卷積處理，得到通道數(shù)相同的特征金字塔。由此，每一層特征都包含了不同深度的特征信息，有助于更全面地表征圖像。

11、然后，利用區(qū)域建議網(wǎng)絡(region?proposal?network)進行第一階段的回歸和分類，獲取檢測模型感興趣的區(qū)域(regions?of?interest)。通過以上處理，使得本發(fā)明能夠有效地從原始圖像中提取出潛在的小目標區(qū)域。

12、最后，構建第二階段的回歸和分類網(wǎng)絡，包括多級細化的檢測頭。這些檢測頭能夠逐步細化第一階段得到的感興趣區(qū)域，并根據(jù)不同階段采用不同的閾值來得到更精確的檢測結果。

13、有益效果

14、本發(fā)明，對比現(xiàn)有技術，具有以下優(yōu)點：

15、1.本發(fā)明不僅不需要復雜的模型結構和先驗知識，而且通過發(fā)掘小目標特征之間和特征內部的潛在關聯(lián)信息，學習并構建適用于小目標特征的特征記憶模塊。這個特征記憶模塊能夠保存和利用與小目標相關的特征信息，在檢測過程中對小目標特征進行增強表示，從而實現(xiàn)更精確的小目標檢測結果。

16、2.本發(fā)明是一種精確的、不依賴于特定數(shù)據(jù)集的通用小目標檢測方法，通過特征記憶模塊學習到的通用小目標特征可以有效應對不同環(huán)境復雜度圖像中的小目標檢測問題，具有很好的魯棒性和泛化性。可以應用于包括自動駕駛、無人機拍攝等實際應用領域，不需要依賴特定的數(shù)據(jù)集訓練就能達到良好的檢測識別效果，對科學研究和工業(yè)探測等領域的發(fā)展具有重要意義。

技術特征：

1.一種基于上下文語義信息聚合的小目標圖像檢測方法，其特征在于，包括以下步驟：

2.如權利要求1所述的一種基于上下文語義信息聚合的小目標圖像檢測方法，其特征在于，步驟1中，r＝rpn(b(i))，其中，r表示主干網(wǎng)絡在圖像i中提取的感興趣區(qū)域特征；

3.如權利要求2所述的一種基于上下文語義信息聚合的小目標圖像檢測方法，其特征在于，r的大小為n×256×7×7。

4.如權利要求1所述的一種基于上下文語義信息聚合的小目標圖像檢測方法，其特征在于，步驟3中，其中，表示從存儲在特征記憶模塊中的模型學習到的小目標類別的通用類別特征信息的表示，ainter是特征之間的上下文聚合方案，finter是一個大小為b×n×c的矩陣，融合了特征之間的語義上下文信息。

5.如權利要求1所述的一種基于上下文語義信息聚合的小目標圖像檢測方法，其特征在于，步驟4中，renh＝aenh(r,finter)，其中，aenh是一個融合模塊，旨在聚合原始特征r、特征之間的上下文信息finter。

6.如權利要求1所述的一種基于上下文語義信息聚合的小目標圖像檢測方法，其特征在于，使用一個特征記憶模塊來存儲通用小目標特征，引入特征存儲模塊m，其大小為(nc+1)×c′，用于存儲每個類別的小物體特征的通用分布信息，其中c′表示用于表示特征類別分布的超參數(shù)數(shù)量；

7.如權利要求6所述的一種基于上下文語義信息聚合的小目標圖像檢測方法，其特征在于，利用存儲損失函數(shù)，增強特征存儲模塊的學習能力，符號pi表示特征存儲模塊中與類別i對應的預測結果：

技術總結
本發(fā)明涉及一種基于上下文語義信息聚合的小目標圖像檢測方法，屬于計算攝像技術領域。本方法采用兩階段檢測模型，引入基于上下文信息聚合的特征增強模塊和多級檢測頭輔助模型，以實現(xiàn)對小目標的準確檢測。本方法能夠在復雜的自然圖像特征中快速學習到同類小目標特征之間的內在關聯(lián)，在目標檢測的推理過程中將已經學習到的同類小目標特征之間的內在關聯(lián)和上下文信息與網(wǎng)絡提取到的小目標特征信息聚合，有效增強小目標的特征表示。本方法不需要依賴特定的數(shù)據(jù)集訓練就能達到良好的檢測識別效果。

技術研發(fā)人員：付瑩,李奕宸,聶婧,王曉庸,高智杰
受保護的技術使用者：北京理工大學
技術研發(fā)日：
技術公布日：2024/12/19

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：付瑩,李奕宸,聶婧,王曉庸,高智杰
技術所有人：北京理工大學
我是此專利的發(fā)明人

上一篇：一種管道開孔劃線器的制作方法
上一篇：一種基于鋼結構裝配式的墻柱鋁模根部可調節(jié)加固裝置的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于上下文語義信息聚合的小目標圖像檢測方法