本發(fā)明目標(biāo)檢測(cè)、行人重識(shí)別和目標(biāo)跟蹤領(lǐng)域,具體涉及基于表征學(xué)習(xí)的跨攝像頭視頻行人搜索方法、終端設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
1、行人搜索是行人檢測(cè)和行人重識(shí)別的結(jié)合,即給定某個(gè)目標(biāo)行人,在跨攝像機(jī)未經(jīng)裁剪的監(jiān)控圖像中準(zhǔn)確檢測(cè)并標(biāo)識(shí)出該目標(biāo)行人,能夠同時(shí)回答“是誰(shuí),在哪”的問(wèn)題,很大程度上增強(qiáng)與提升智能視覺(jué)監(jiān)控的功能與效率。
2、然目前行人搜索已經(jīng)在cuhk-sysu和prw這兩個(gè)主流的數(shù)據(jù)集上取得了不錯(cuò)的效果,但是這兩個(gè)數(shù)據(jù)集的容均是圖像,與現(xiàn)實(shí)中的視頻監(jiān)控場(chǎng)景仍然存在一定偏差,難以在實(shí)際的監(jiān)控視頻系統(tǒng)中落地,因此,視頻行人搜索也是在多攝像頭多目標(biāo)跟蹤的基礎(chǔ)上被提出,多攝像頭多目標(biāo)跟蹤旨在從多個(gè)攝像機(jī)拍攝的視頻流中確定每個(gè)人在任何時(shí)候的位置,而視頻行人搜索在此基礎(chǔ)上增加了查詢(xún)模塊,在整個(gè)場(chǎng)景中跨攝像頭的視頻數(shù)據(jù)中找到要查詢(xún)行人的軌跡,所以,視頻行人搜索也可以認(rèn)為是多目標(biāo)跟蹤和視頻行人重識(shí)別的結(jié)合。
3、在數(shù)據(jù)集方面,多攝像頭多目標(biāo)跟蹤領(lǐng)域的一個(gè)重要數(shù)據(jù)集是dukemtmc,它是由杜克大學(xué)在2014年提出的校園監(jiān)控視頻數(shù)據(jù)集,被用在諸多視頻領(lǐng)域的研究中。但是在2019年dukemtmc卻因?yàn)殡[私問(wèn)題而被禁用,基于多攝像頭的視頻任務(wù)研究也因此遭到影響,這其中也包含視頻行人搜索。而其他視頻任務(wù),例如多目標(biāo)跟蹤、視頻行人重識(shí)別、視頻理解等等的數(shù)據(jù)集并不符合視頻行人搜索的要求,因此,視頻行人搜索也是面臨數(shù)據(jù)集缺失的挑戰(zhàn)。在特征方面,相對(duì)于圖像來(lái)說(shuō),視頻多了一個(gè)時(shí)間維度,擁有更加豐富的時(shí)空信息,這也是目前基于圖像的行人搜索中所沒(méi)有的,并且能夠避免模型對(duì)單幀圖像的依賴(lài),降低模型因單張圖像被遮擋所帶來(lái)的識(shí)別困難的影響,想要提升視頻行人重識(shí)別的精度,利用并且融合好這些行人的多幀特征是必然的,因此,如何利用這些時(shí)間維度的信息是視頻行人搜索的核心問(wèn)題。
4、因此,基于上述技術(shù)問(wèn)題需要設(shè)計(jì)一種新的跨攝像頭視頻行人搜索方法。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明目的:針對(duì)上述現(xiàn)有技術(shù),提出基于表征學(xué)習(xí)的跨攝像頭視頻行人搜索方法、終端設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),實(shí)現(xiàn)跨攝像頭的視頻行人搜索。
2、技術(shù)方案:
3、一種基于表征學(xué)習(xí)的跨攝像頭視頻行人搜索方法,包括:
4、獲取跨攝像頭視頻行人數(shù)據(jù),劃分訓(xùn)練集和測(cè)試集;構(gòu)建查詢(xún)集以及查詢(xún)集對(duì)應(yīng)的候選視頻庫(kù);
5、將跨攝像頭視頻行人數(shù)據(jù)輸入到目標(biāo)檢測(cè)網(wǎng)絡(luò)中,學(xué)習(xí)每個(gè)行人邊界框、邊界框的置信度分?jǐn)?shù)以及每個(gè)行人的特征;
6、獲取每個(gè)行人的軌跡以及每個(gè)軌跡的時(shí)序特征;
7、將查詢(xún)集中的行人軌跡特征向量與該行人在候選視頻庫(kù)中的所有行人軌跡特征向量進(jìn)行相似度計(jì)算,并且進(jìn)行精確度計(jì)算。
8、優(yōu)選的,獲取跨攝像頭視頻行人數(shù)據(jù),劃分訓(xùn)練集和測(cè)試集;構(gòu)建查詢(xún)集以及查詢(xún)集對(duì)應(yīng)的候選視頻庫(kù)具體包括:
9、獲取包含跨攝像頭視頻行人數(shù)據(jù)的跨攝像頭視頻行人搜索數(shù)據(jù)集mta-ps,將跨攝像頭視頻行人數(shù)據(jù)進(jìn)行圖像增強(qiáng)處理,然后將經(jīng)過(guò)圖像增強(qiáng)處理之后的跨攝像頭視頻行人數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集;構(gòu)建查詢(xún)集,將每個(gè)至少出現(xiàn)在兩個(gè)攝像頭下的行人隨機(jī)選取一幀圖像加入查詢(xún)集中,并將該行人出現(xiàn)在其他攝像頭下的視頻加入該行人的候選視頻庫(kù),并且選取不包含該行人的干擾視頻加入該行人的候選視頻庫(kù),保證查詢(xún)集中每個(gè)行人的候選視頻庫(kù)中至少包含五個(gè)視頻。
10、優(yōu)選的,將跨攝像頭視頻行人數(shù)據(jù)輸入到目標(biāo)檢測(cè)網(wǎng)絡(luò)中,學(xué)習(xí)每個(gè)行人邊界框、邊界框的置信度分?jǐn)?shù)以及每個(gè)行人的特征,具體包括:
11、將訓(xùn)練集采用基于darknet53的主干網(wǎng)絡(luò)進(jìn)行特征提取,構(gòu)建特征金字塔進(jìn)行多尺度的特征融合,輸出3個(gè)特征層組成的元組;
12、通過(guò)回歸、交并比、分類(lèi)以及重識(shí)別四個(gè)解耦頭分別對(duì)3個(gè)特征層組成的元組進(jìn)行回歸、預(yù)測(cè)、分類(lèi)以及提取重識(shí)別特征,其中回歸解耦頭輸出為1維向量,代表當(dāng)前邊界框的置信度分?jǐn)?shù),分類(lèi)解耦頭輸出為1維向量,代表行人類(lèi)別,交并比解耦頭輸出為4維向量,代表行人邊界框,重識(shí)別解耦頭輸出為128維向量,代表行人的特征,使用siamota策略篩選正負(fù)樣本,再使用正負(fù)樣本進(jìn)行身份損失、三元組損失和中心損失計(jì)算,生成行人邊界框、邊界框的置信度分?jǐn)?shù)、行人id以及行人的特征;
13、身份損失lid計(jì)算公式如下:
14、
15、其中,n是當(dāng)前幀圖像中行人數(shù)量,m是訓(xùn)練集中所有行人id的數(shù)量,i為當(dāng)前幀圖像中第i個(gè)行人,j為第i個(gè)行人對(duì)應(yīng)的真實(shí)值id,ii(j)是一個(gè)指示函數(shù),計(jì)算正樣本時(shí)為1,計(jì)算負(fù)樣本時(shí)為0,p(j)為第i個(gè)行人的id為真實(shí)值id的概率;
16、三元組ltri(i,j,k)損失計(jì)算公式如下:
17、ltri(i,j,k)=max(a+dij-dik,0),
18、其中a為邊界常數(shù),dij是相同id的行人邊界框?qū)?yīng)重識(shí)別特征之間的歐氏距離,dik是不同id的行人邊界框?qū)?yīng)重識(shí)別特征之間的歐氏距離(i,j)是相同id的行人邊界框?qū)?yīng)的重識(shí)別特征,(i,k)是不同id的行人邊界框?qū)?yīng)的重識(shí)別特征;
19、中心損失lc計(jì)算公式如下:
20、
21、其中xt為第t個(gè)圖像的行人重識(shí)別特征向量,yq是一個(gè)批次中第q幀的標(biāo)簽,表示第yq個(gè)行人id的特征中心;
22、將以上三個(gè)損失相加作為損失函數(shù),指導(dǎo)目標(biāo)檢測(cè)網(wǎng)絡(luò)的訓(xùn)練。
23、優(yōu)選的,獲取每個(gè)行人的軌跡以及每個(gè)軌跡的時(shí)序特征包括:
24、將測(cè)試集輸入到訓(xùn)練好的目標(biāo)檢測(cè)網(wǎng)絡(luò)中,獲取每幀圖像的行人邊界框、置信度分?jǐn)?shù)以及特征,根據(jù)分?jǐn)?shù)閾值獲取邊界框以及對(duì)應(yīng)的特征,高于分?jǐn)?shù)閾值的即為高分邊界框,低于分?jǐn)?shù)閾值則為低分邊界框;
25、采用卡爾曼濾波來(lái)預(yù)測(cè)每個(gè)軌跡在當(dāng)前幀圖像中的新位置;
26、將軌跡與高分邊界框進(jìn)行第一次關(guān)聯(lián),第一次關(guān)聯(lián)融合特征距離和交并比距離:
27、所述的特征距離:首先對(duì)當(dāng)前幀圖像中邊界框的行人重識(shí)別特征與軌跡中的行人重識(shí)別特征使用馬氏距離進(jìn)行相似度計(jì)算,將馬氏距離與在行人重識(shí)別特征上計(jì)算的余弦距離融合得到特征距離矩陣,具體計(jì)算公式如下:
28、df=λdr+(1-λ)dm,
29、其中λ是權(quán)重參數(shù),dr為邊界框的行人重識(shí)別特征與軌跡中的行人重識(shí)別特征計(jì)算出的馬氏距離矩陣,dm為邊界框的行人重識(shí)別特征與軌跡中的行人重識(shí)別特征計(jì)算出的余弦距離矩陣,df為馬氏距離矩陣與余弦距離矩陣加權(quán)后得到的特征距離矩陣;
30、所述的交并比距離,對(duì)邊界框與卡爾曼濾波預(yù)測(cè)出的邊界框使用交并比計(jì)算距離矩陣,得到交并比距離矩陣,具體計(jì)算公式如下:
31、
32、其中a和b分別代表當(dāng)前幀圖像的邊界框與卡爾曼濾波預(yù)測(cè)的邊界框;
33、得到特征距離矩陣后,使用馬氏距離將特征距離與運(yùn)動(dòng)信息融合,得到融合卡爾曼濾波運(yùn)動(dòng)信息的代價(jià)矩陣,具體計(jì)算公式如下:
34、
35、其中m是目標(biāo)行人,o是卡爾曼濾波預(yù)測(cè)的行人邊界框,μm是目標(biāo)行人預(yù)測(cè)狀態(tài)的均值,∑m是協(xié)方差矩陣,δ是權(quán)重參數(shù);
36、得到特征距離矩陣和交并比距離矩陣之后通過(guò)閾值篩選和門(mén)函數(shù)將特征距離矩陣和交并比距離矩陣融合,即選取特征距離矩陣和交并比距離矩陣中每個(gè)位置的最小代價(jià)放入代價(jià)矩陣中的對(duì)應(yīng)位置,得到融合后的代價(jià)矩陣,之后再將交并比距離矩陣與邊界框置信度分?jǐn)?shù)進(jìn)行融合,得到融合邊界框置信度分?jǐn)?shù)信息的特征距離,具體計(jì)算公式如下:
37、fcost(t,d)=1-(1-diou)×s(m,d),
38、其中s表示檢測(cè)分?jǐn)?shù)數(shù)組,d表示檢測(cè)結(jié)果;
39、之后通過(guò)匈牙利算法對(duì)當(dāng)前邊界框與現(xiàn)有的軌跡進(jìn)行分配,得到第一次關(guān)聯(lián)的匹配結(jié)果、未匹配的邊界框以及未匹配的軌跡,在匹配的過(guò)程中,每當(dāng)軌跡與當(dāng)前幀圖像的邊界框匹配成功,則會(huì)將該邊界框的行人特征以及長(zhǎng)期時(shí)序特征加入到該軌跡信息中;其中長(zhǎng)期時(shí)序特征的計(jì)算公式如下:
40、
41、其中β為時(shí)序特征權(quán)重,為上一幀圖像的長(zhǎng)期時(shí)序特征,為當(dāng)前幀圖像目標(biāo)行人的特征;
42、將未匹配軌跡再次與未匹配邊界框進(jìn)行第二次關(guān)聯(lián),第二次關(guān)聯(lián)只使用特征距離,對(duì)未匹配的軌跡特征與未匹配的邊界框的行人重識(shí)別特征,使用馬氏距離進(jìn)行相似度計(jì)算,得到代價(jià)矩陣,通過(guò)匈牙利算法對(duì)未匹配邊界框與現(xiàn)有的未匹配的軌跡進(jìn)行分配,刪除仍未匹配的邊界框,保留第二次仍未匹配的軌跡;第二次仍未匹配的軌跡會(huì)被歸為丟失狀態(tài),在一定幀數(shù)中若未再出現(xiàn)該軌跡則將其刪除;
43、為剩余高分邊界框生成新軌跡,其中生成新軌跡時(shí)會(huì)加入當(dāng)前幀圖像的行人特征,以便后續(xù)時(shí)序特征的計(jì)算。
44、優(yōu)選的,將查詢(xún)集中的行人軌跡特征向量與該行人在候選視頻庫(kù)中的所有行人的軌跡特征向量進(jìn)行相似度計(jì)算,并且進(jìn)行精確度計(jì)算包括:
45、將查詢(xún)集中圖像依次輸入至訓(xùn)練好的目標(biāo)檢測(cè)網(wǎng)絡(luò)中,得到查詢(xún)集的行人特征向量;
46、將每個(gè)軌跡所對(duì)應(yīng)的特征通過(guò)計(jì)算歐式距離進(jìn)行排序,將距離較近的特征計(jì)算平均值得到候選視頻庫(kù)中的行人特征向量,并將查詢(xún)集的行人特征向量與該行人在候選視頻庫(kù)中的所有行人特征向量進(jìn)行相似度計(jì)算并排序,得到跨攝像頭視頻行人搜索的結(jié)果。
47、一種終端設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),使得所述處理器執(zhí)行權(quán)利要求1至5中任一項(xiàng)權(quán)利要求所述一種基于表征學(xué)習(xí)的跨攝像頭視頻行人搜索方法的步驟。
48、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),使得所述處理器執(zhí)行權(quán)利要求1至5中任一項(xiàng)權(quán)利要求所述一種基于表征學(xué)習(xí)的跨攝像頭視頻行人搜索方法的步驟。
49、有益效果:本發(fā)明針對(duì)現(xiàn)實(shí)監(jiān)控場(chǎng)景下的視頻數(shù)據(jù)提出了聯(lián)合行人檢測(cè)、目標(biāo)跟蹤和行人重識(shí)別的網(wǎng)絡(luò),對(duì)目標(biāo)行人的數(shù)據(jù)進(jìn)行時(shí)序關(guān)聯(lián)并提取長(zhǎng)期時(shí)序特征,有利于在真實(shí)監(jiān)控場(chǎng)景中進(jìn)行跨攝像頭的行人搜索。