一種基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法

文檔序號(hào)：40397005發(fā)布日期：2024-12-20 12:20閱讀：16來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)視覺(jué)領(lǐng)域，具體涉及一種基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法。

背景技術(shù)：

1、在計(jì)算機(jī)視覺(jué)和行為分析領(lǐng)域，目標(biāo)個(gè)體的行為描述在視頻監(jiān)控中具有廣泛的應(yīng)用，尤其是在復(fù)雜場(chǎng)景中對(duì)多個(gè)個(gè)體進(jìn)行分析時(shí)。這種技術(shù)不僅可以提供詳細(xì)的情境分析，還能準(zhǔn)確評(píng)估潛在風(fēng)險(xiǎn)，確保公共場(chǎng)所的安全與和諧。目前，視頻級(jí)別的字幕方法無(wú)法為每個(gè)個(gè)體的特定行為提供細(xì)粒度描述，導(dǎo)致難以準(zhǔn)確識(shí)別個(gè)體身份。為了解決這一挑戰(zhàn)，提出了基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法。

2、現(xiàn)有的基于視頻級(jí)別的描述方法在細(xì)粒度行為描述方面表現(xiàn)不佳。許多現(xiàn)有方法僅能在幀級(jí)別的視頻描述任務(wù)上表現(xiàn)出色，例如對(duì)一整個(gè)視頻發(fā)生了什么進(jìn)行描述，或者以發(fā)生的事件為單位，對(duì)視頻中的幾個(gè)事件進(jìn)行描述。但是在實(shí)際場(chǎng)景中，經(jīng)常需要對(duì)具有特定特征的關(guān)鍵目標(biāo)進(jìn)行細(xì)粒度的行為描述，例如“穿著紅色夾克的人在超市門(mén)口與他人互動(dòng)的行為”。這些需求對(duì)模型的行為描述能力提出了更高的要求。

3、目前，大多數(shù)現(xiàn)有技術(shù)主要依賴于深度學(xué)習(xí)方法進(jìn)行視頻行為分析，這些方法通常包括幀級(jí)特征提取、事件檢測(cè)以及生成描述。雖然這些方法在特定場(chǎng)景和任務(wù)上表現(xiàn)良好，但在處理多變的真實(shí)世界場(chǎng)景時(shí)仍存在一定的局限性。例如，無(wú)論是對(duì)視頻進(jìn)行描述還是將視頻以事件為單位分成幾個(gè)事件對(duì)每個(gè)事件進(jìn)行描述，它們都是基于網(wǎng)絡(luò)提供的視頻，并不是真實(shí)世界監(jiān)控中的視頻；其次現(xiàn)有的描述方法無(wú)法對(duì)視頻中以個(gè)體為單位對(duì)其行為進(jìn)行描述，只能描述一整段視頻或者描述視頻中發(fā)生的事件。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)中的上述不足，本發(fā)明提供的一種基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法解決了現(xiàn)有描述方法無(wú)法對(duì)視頻中以個(gè)體為單位進(jìn)行行為描述的問(wèn)題。

2、為了達(dá)到上述發(fā)明目的，本發(fā)明采用的技術(shù)方案為：一種基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法，包括以下步驟：

3、s1：從視頻中提取幀，并利用預(yù)訓(xùn)練的視覺(jué)模型對(duì)提取的每幀圖像進(jìn)行特征提取，獲得幀特征；

4、s2：使用yolov7算法結(jié)合strongsort算法和osnet算法對(duì)視頻中的目標(biāo)個(gè)體進(jìn)行檢測(cè)和跟蹤，并利用所述視覺(jué)模型提取個(gè)體特征；

5、s3：利用deformable?transformer可變形解碼器將所述個(gè)體特征和所述幀特征結(jié)合，生成查詢特征；

6、s4：將所述查詢特征連接到定位頭和字幕生成頭，描述目標(biāo)個(gè)體行為，并采用損失函數(shù)進(jìn)行模型優(yōu)化，完成基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述。

7、進(jìn)一步地，所述s1中包括以下分步驟：

8、s11：從輸入視頻中以固定幀率均勻采樣視頻幀；

9、s12：采用預(yù)訓(xùn)練的視覺(jué)模型對(duì)所述視頻幀進(jìn)行特征提取，獲得特征圖；

10、s13：將所述特征圖的空間維度折疊成一維，形成設(shè)定尺寸的特征向量；

11、s14：將所述特征向量作為數(shù)據(jù)輸入transformer編碼器中，獲得幀特征。

12、進(jìn)一步地，所述s2中包括以下分步驟：

13、s21：使用yolov7算法結(jié)合strongsort算法和osnet算法對(duì)視頻中的每個(gè)個(gè)體進(jìn)行檢測(cè)，并將檢測(cè)到的個(gè)體在視頻中標(biāo)注邊界框；

14、s22：根據(jù)邊界框?qū)σ曨l幀進(jìn)行裁剪，提取出只包含目標(biāo)個(gè)體的圖像區(qū)域集合；

15、s23：對(duì)圖像區(qū)域集合中每個(gè)目標(biāo)個(gè)體均勻采樣，并統(tǒng)一調(diào)整尺寸，將調(diào)整后的圖像輸入視覺(jué)模型進(jìn)行個(gè)體特征提??；

16、s24：對(duì)提取的個(gè)體特征進(jìn)行池化處理，并將池化處理后的特征通過(guò)全連接層進(jìn)行格式轉(zhuǎn)換，完成個(gè)體特征的提取。

17、進(jìn)一步地，所述s3中deformable?transformer可變形解碼器采用了多尺度變形注意力機(jī)制，所述多尺度變形注意力機(jī)制的計(jì)算公式為：

18、

19、其中，為多尺度變形注意力機(jī)制，表示當(dāng)前處理的查詢特征向量，表示查詢向量對(duì)應(yīng)的標(biāo)準(zhǔn)化參考點(diǎn)位置，表示特征圖，表示特征圖的尺度層數(shù)，表示特征圖的尺度層數(shù)的取值，表示每個(gè)查詢參考點(diǎn)周圍的采樣點(diǎn)數(shù)，表示每個(gè)查詢參考點(diǎn)周圍的采樣點(diǎn)數(shù)的取值，表示由和計(jì)算得出的采樣位置的注意力權(quán)重，是特征轉(zhuǎn)換矩陣，是在特征圖上根據(jù)變形后的采樣位置提取的特征。

20、進(jìn)一步地，所述采樣位置的計(jì)算公式為：

21、

22、其中，表示轉(zhuǎn)換函數(shù)，表示查詢點(diǎn)，表示偏移量。

23、進(jìn)一步地，所述s4中損失函數(shù)為：

24、

25、其中，表示預(yù)測(cè)時(shí)間段和實(shí)際時(shí)間段之間的廣義iou損失，表示預(yù)測(cè)分類得分和實(shí)際標(biāo)簽之間的分類損失，表示預(yù)測(cè)詞概率與實(shí)際值之間的交叉熵?fù)p失，表示各種損失的權(quán)重。

26、本發(fā)明的有益效果是：本發(fā)明提出了一種基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法，該方法通過(guò)利用多頭自注意力機(jī)制和deformable?transformer可變形編碼器，能夠動(dòng)態(tài)地獲取視頻中目標(biāo)個(gè)體的關(guān)鍵行為特征，并通過(guò)持續(xù)優(yōu)化的參數(shù)進(jìn)化算法，實(shí)現(xiàn)精確的個(gè)體行為描述。

27、針對(duì)現(xiàn)有技術(shù)在復(fù)雜視頻監(jiān)控場(chǎng)景中對(duì)個(gè)體行為細(xì)粒度描述不足的問(wèn)題，本發(fā)明有效解決了檢測(cè)和跟蹤個(gè)體的穩(wěn)定性和準(zhǔn)確性問(wèn)題，特別是在長(zhǎng)時(shí)間的視頻數(shù)據(jù)處理中，表現(xiàn)出色。模型采用yolov7結(jié)合strongsort和osnet算法進(jìn)行個(gè)體檢測(cè)與跟蹤，通過(guò)預(yù)訓(xùn)練的視覺(jué)模型進(jìn)行特征提取，并使用多尺度變形注意力機(jī)制實(shí)現(xiàn)特征融合。實(shí)驗(yàn)結(jié)果表明，該方法在多個(gè)關(guān)鍵性能指標(biāo)上均優(yōu)于現(xiàn)有方法，顯著提高了行為描述的準(zhǔn)確性和細(xì)致度。

技術(shù)特征：

1.一種基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法，其特征在于，所述s1中包括以下分步驟：

3.根據(jù)權(quán)利要求1所述的基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法，其特征在于，所述s2中包括以下分步驟：

4.根據(jù)權(quán)利要求1所述的基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法，其特征在于，所述s3中deformable?transformer可變形解碼器采用了多尺度變形注意力機(jī)制，所述多尺度變形注意力機(jī)制的計(jì)算公式為：

5.根據(jù)權(quán)利要求4所述的基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法，其特征在于，所述采樣位置的計(jì)算公式為：

6.根據(jù)權(quán)利要求1所述的基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法，其特征在于，所述s4中損失函數(shù)為：

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法，涉及計(jì)算機(jī)視覺(jué)領(lǐng)域，包括：從視頻中提取幀，并利用預(yù)訓(xùn)練的視覺(jué)模型對(duì)提取的每幀圖像進(jìn)行特征提取，獲得幀特征；使用YOLOv7算法結(jié)合StrongSORT算法和OsNet算法對(duì)視頻中的目標(biāo)個(gè)體進(jìn)行檢測(cè)和跟蹤，并利用所述視覺(jué)模型提取個(gè)體特征；利用Deformable?Transformer可變形解碼器將所述個(gè)體特征和所述幀特征結(jié)合，生成查詢特征；將所述查詢特征連接到定位頭和字幕生成頭，描述目標(biāo)個(gè)體行為，并采用損失函數(shù)進(jìn)行模型優(yōu)化。本發(fā)明解決了現(xiàn)有描述方法無(wú)法對(duì)視頻中以個(gè)體為單位進(jìn)行行為描述的問(wèn)題。

技術(shù)研發(fā)人員：張艷寧,周玲茹,王鵬,吳鵬,張世周,田雪濤,席慶彪
受保護(hù)的技術(shù)使用者：西北工業(yè)大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張艷寧,周玲茹,王鵬,吳鵬,張世周,田雪濤,席慶彪
技術(shù)所有人：西北工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種刮板機(jī)中部槽維修定位工裝的制作方法
上一篇：一種鋁合金門(mén)窗包裝設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法