本發(fā)明涉及圖像處理領(lǐng)域,更具體地涉及一種對象追蹤方法和裝置。
背景技術(shù):
對行人、車輛等物體的檢測追蹤是諸多安防應(yīng)用中不可或缺的一環(huán)。在現(xiàn)有方法中,往往把物體檢測和物體追蹤分成兩個(gè)獨(dú)立的環(huán)節(jié)來解決這一問題。首先,在采集到的視頻的每一幀圖像中,檢測感興趣的物體,通過邊框把它們的位置和大小表示出來,然后根據(jù)空間位置、外觀相似程度等因素將在各幀圖像中檢測到的物體關(guān)聯(lián)在一起,從而進(jìn)行追蹤。在以上兩個(gè)環(huán)節(jié)中,都有可能引入額外的誤差。尤其是在檢測環(huán)節(jié)中,在擁擠環(huán)境下,邊框并不能很好地表示物體的位置。例如,在擁擠的人群中,大量的行人相互遮擋,因此邊框也相互遮擋。如果使用邊框來追蹤行人的軌跡,很容易因?yàn)楸黄渌藫踝?,而丟失信息,或引入錯(cuò)誤信息。因此,在一些方法中,通過像素級別的檢測,判斷每一幀中的每個(gè)像素是否屬于某個(gè)感興趣的物體。然而,在追蹤的過程中,由于需要比較不同幀中檢測物體的位置相關(guān)性和外觀相似程度,像素級別的檢測方法因?yàn)榻o出的對象形狀不規(guī)則,而帶來額外的困難。
技術(shù)實(shí)現(xiàn)要素:
考慮到上述問題而提出了本發(fā)明。本發(fā)明提供了一種對象追蹤方法和裝置。
根據(jù)本發(fā)明一方面,提供了一種對象追蹤方法。對象追蹤方法包括:
獲取視頻;
針對所述視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測該圖像中包含的對象在該圖像中的像素級檢測位置信息、并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息;以及
根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象。
示例性地,所述針對所述視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測該圖像中包含的對象在該圖像中的像素級檢測位置信息、并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息包括:
將所述至少部分幀的圖像中的每幀圖像輸入卷積神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第一特征;
將所述至少部分幀的圖像中的每幀圖像的第一特征輸入所述反饋式神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第二特征,其中,當(dāng)前圖像的第二特征與在所述當(dāng)前圖像之前的先前圖像和在所述當(dāng)前圖像之后的隨后圖像相關(guān);以及
基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。
示例性地,所述對象追蹤方法還包括:基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象中的感興趣的對象;
并且,在所述基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息的步驟中,僅確定所述感興趣的對象在該圖像中的像素級檢測位置信息,以及僅預(yù)測所述感興趣的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。
示例性地,所述基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息包括:
對于所述至少部分幀的圖像中的任一圖像,
將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致,以獲得該圖像的新特征圖,其中,所述新特征圖的特征值是第三特征,并且所述第三特征包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量;
將該圖像的第三特征中的、與每個(gè)由該圖像的第三特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn)相對應(yīng)的元素輸入回歸器,以獲得該圖像中的至少部分圖像點(diǎn)中的每個(gè)圖像點(diǎn)在該圖像中相對于該圖像點(diǎn)所屬對象的位移信息、在該圖像之前的特定數(shù)目的先前圖像中相對于該圖像點(diǎn)所屬對象的位移信息、以及在該圖像之后的特定數(shù)目的隨后圖像中相對于該圖像點(diǎn)所屬對象的位移信息;
對于所述至少部分圖像點(diǎn)中的每個(gè)圖像點(diǎn),根據(jù)該圖像點(diǎn)在該圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置,根據(jù)該圖像點(diǎn)在該圖像之前的特定數(shù)目的先前圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像之前的特定數(shù)目的先前圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置,根據(jù)該圖像點(diǎn)在該圖像之后的特定數(shù)目的隨后圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像之后的特定數(shù)目的隨后圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置;以及
對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像中的檢測中心點(diǎn)位置作為該圖像中包含的對象在該圖像中的像素級檢測位置信息,對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像之前的特定數(shù)目的先前圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像之前的特定數(shù)目的先前圖像中的預(yù)測中心點(diǎn)位置作為該圖像中包含的對象在該圖像之前的特定數(shù)目的先前圖像中的像素級預(yù)測位置信息,對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像之后的特定數(shù)目的隨后圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像之后的特定數(shù)目的隨后圖像中的預(yù)測中心點(diǎn)位置作為該圖像中包含的對象在該圖像之后的特定數(shù)目的隨后圖像中的像素級預(yù)測位置信息。
示例性地,所述對于所述至少部分幀的圖像中的任一圖像,將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致包括:
對于所述至少部分幀的圖像中的任一圖像,對該圖像的第二特征所對應(yīng)的初始特征圖進(jìn)行插值和/或剪切以將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致。
示例性地,在所述對于所述至少部分幀的圖像中的任一圖像,將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致之后,所述對象追蹤方法進(jìn)一步包括:
對于所述至少部分幀的圖像中的任一圖像,將該圖像的第三特征中的、與每個(gè)由該圖像的第三特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn)相對應(yīng)的元素輸入分類器,以確定該圖像中的每個(gè)圖像點(diǎn)屬于目標(biāo)對象的可能性。
示例性地,所述根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象包括:
對于所述至少部分幀的圖像中的任一圖像,將該圖像中的、每個(gè)屬于目標(biāo)對象的可能性超過可能性閾值的圖像點(diǎn)關(guān)聯(lián)到位于距離針對該圖像點(diǎn)所估計(jì)獲得的中心點(diǎn)位置最近的檢測中心點(diǎn)位置處的對象。
示例性地,所述反饋式神經(jīng)網(wǎng)絡(luò)包括正向反饋式神經(jīng)網(wǎng)絡(luò)和反向反饋式神經(jīng)網(wǎng)絡(luò),
所述正向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W1、V1和b1為所述正向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述視頻中的第t幀圖像的第一特征,Y_t為所述第t幀圖像的正向特征,Y_{t-1}為所述視頻中的第t-1幀圖像的正向特征;
所述反向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W2、V2和b2為所述反向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述第t幀圖像的第一特征,Z_t為所述第t幀圖像的反向特征,Z_{t+1}為所述視頻中的第t+1幀圖像的反向特征;
所述第t幀圖像的第二特征H_t通過以下公式計(jì)算:
其中,x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量,C為所述第t幀圖像的正向特征或反向特征的總頻道數(shù)。
示例性地,所述對象追蹤方法進(jìn)一步包括:
利用多個(gè)樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)、所述反饋式神經(jīng)網(wǎng)絡(luò)和所述回歸器進(jìn)行訓(xùn)練,其中,所述多個(gè)樣本圖像中包含的對象在每個(gè)樣本圖像中的位置信息是已標(biāo)注好的。
示例性地,所述卷積神經(jīng)網(wǎng)絡(luò)的數(shù)目是一個(gè)或多個(gè),所述利用多個(gè)樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)、所述反饋式神經(jīng)網(wǎng)絡(luò)和所述回歸器進(jìn)行訓(xùn)練包括:
對于所述多個(gè)樣本圖像中的任一樣本圖像,
將一個(gè)或多個(gè)所述卷積神經(jīng)網(wǎng)絡(luò)輸出的一個(gè)或多個(gè)初始輸出特征圖調(diào)整為與該樣本圖像的大小一致,以獲得一個(gè)或多個(gè)新輸出特征圖;
基于一個(gè)或多個(gè)新輸出特征圖構(gòu)建一個(gè)或多個(gè)損失函數(shù);以及
利用所構(gòu)建的一個(gè)或多個(gè)損失函數(shù)對一個(gè)或多個(gè)所述卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
示例性地,所述對于所述多個(gè)樣本圖像中的任一樣本圖像,將一個(gè)或多個(gè)所述卷積神經(jīng)網(wǎng)絡(luò)輸出的一個(gè)或多個(gè)初始輸出特征圖調(diào)整為與該樣本圖像的大小一致包括:
對于所述多個(gè)樣本圖像中的任一樣本圖像,對所述一個(gè)或多個(gè)初始輸出特征圖中的每一個(gè)進(jìn)行插值和/或剪切以將該初始輸出特征圖調(diào)整為與該樣本圖像的大小一致。
示例性地,所述根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象包括:
如果所述視頻中的特定圖像中包含的特定對象的像素級檢測位置信息與所述視頻中的一個(gè)或多個(gè)參照圖像中包含的一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息之間的關(guān)系滿足第一預(yù)設(shè)條件,則將所述特定對象和所述一個(gè)或多個(gè)參照對象關(guān)聯(lián)在一起,
其中,所述參照圖像與所述特定圖像相對應(yīng)。
示例性地,所述根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象包括:
如果所述視頻中的一個(gè)或多個(gè)參照圖像中包含的一個(gè)或多個(gè)參照對象在所述視頻中的特定圖像中的像素級預(yù)測位置信息滿足第二預(yù)設(shè)條件,并且在所述特定圖像中,在根據(jù)所述一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息所確定的預(yù)測位置處未檢測到與所述一個(gè)或多個(gè)參照對象相對應(yīng)的期望對象,則基于所述一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息確定與所述特定圖像相關(guān)的預(yù)測對象,并且將所述一個(gè)或多個(gè)參照對象與所述預(yù)測對象關(guān)聯(lián)在一起,
其中,所述參照圖像與所述特定圖像相對應(yīng)。
示例性地,所述根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象包括:
如果所述視頻中的特定圖像中包含的特定對象的像素級檢測位置信息與所述視頻中的所有參照圖像中包含的所有參照對象在所述特定圖像中的像素級預(yù)測位置信息之間的關(guān)系滿足第三預(yù)設(shè)條件,則確定所述特定對象是不可信對象,
其中,所述參照圖像與所述特定圖像相對應(yīng)。
根據(jù)本發(fā)明另一方面,提供了一種對象追蹤裝置。對象追蹤裝置包括:
視頻獲取模塊,用于獲取視頻;
檢測預(yù)測模塊,用于針對所述視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測該圖像中包含的對象在該圖像中的像素級檢測位置信息、并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息;以及
追蹤模塊,用于根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象。
示例性地,所述對象追蹤裝置進(jìn)一步包括感興趣對象確定模塊,用于基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象中的感興趣的對象;并且,檢測預(yù)測子模塊還用于在所述基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息的過程中,僅確定所述感興趣的對象在該圖像中的像素級檢測位置信息,以及僅預(yù)測所述感興趣的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。
示例性地,所述檢測預(yù)測模塊包括:
檢測預(yù)測子模塊,用于基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。
示例性地,所述檢測預(yù)測子模塊包括:
實(shí)際調(diào)整單元,用于對于所述至少部分幀的圖像中的任一圖像,將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致,以獲得該圖像的新特征圖,其中,所述新特征圖的特征值是第三特征,并且所述第三特征包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量;
位移信息獲得單元,用于對于所述至少部分幀的圖像中的任一圖像,將該圖像的第三特征中的、與每個(gè)由該圖像的第三特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn)相對應(yīng)的元素輸入回歸器,以獲得該圖像中的至少部分圖像點(diǎn)中的每個(gè)圖像點(diǎn)在該圖像中相對于該圖像點(diǎn)所屬對象的位移信息、在該圖像之前的特定數(shù)目的先前圖像中相對于該圖像點(diǎn)所屬對象的位移信息、以及在該圖像之后的特定數(shù)目的隨后圖像中相對于該圖像點(diǎn)所屬對象的位移信息;
中心點(diǎn)估計(jì)單元,用于對于所述至少部分幀的圖像中的任一圖像,對于所述至少部分圖像點(diǎn)中的每個(gè)圖像點(diǎn),根據(jù)該圖像點(diǎn)在該圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置,根據(jù)該圖像點(diǎn)在該圖像之前的特定數(shù)目的先前圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像之前的特定數(shù)目的先前圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置,根據(jù)該圖像點(diǎn)在該圖像之后的特定數(shù)目的隨后圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像之后的特定數(shù)目的隨后圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置;以及
聚類單元,用于對于所述至少部分幀的圖像中的任一圖像,對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像中的檢測中心點(diǎn)位置作為該圖像中包含的對象在該圖像中的像素級檢測位置信息,對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像之前的特定數(shù)目的先前圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像之前的特定數(shù)目的先前圖像中的預(yù)測中心點(diǎn)位置作為該圖像中包含的對象在該圖像之前的特定數(shù)目的先前圖像中的像素級預(yù)測位置信息,對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像之后的特定數(shù)目的隨后圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像之后的特定數(shù)目的隨后圖像中的預(yù)測中心點(diǎn)位置作為該圖像中包含的對象在該圖像之后的特定數(shù)目的隨后圖像中的像素級預(yù)測位置信息。
示例性地,所述實(shí)際調(diào)整單元包括:
實(shí)際調(diào)整子單元,用于對于所述至少部分幀的圖像中的任一圖像,對該圖像的第二特征所對應(yīng)的初始特征圖進(jìn)行插值和/或剪切以將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致。
示例性地,所述對象追蹤裝置進(jìn)一步包括:
可能性確定模塊,用于對于所述至少部分幀的圖像中的任一圖像,將該圖像的第三特征中的、與每個(gè)由該圖像的第三特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn)相對應(yīng)的元素輸入分類器,以確定該圖像中的每個(gè)圖像點(diǎn)屬于目標(biāo)對象的可能性。
示例性地,所述追蹤模塊包括:
圖像點(diǎn)關(guān)聯(lián)子模塊,用于對于所述至少部分幀的圖像中的任一圖像,將該圖像中的、每個(gè)屬于目標(biāo)對象的可能性超過可能性閾值的圖像點(diǎn)關(guān)聯(lián)到位于距離針對該圖像點(diǎn)所估計(jì)獲得的中心點(diǎn)位置最近的檢測中心點(diǎn)位置處的對象。
示例性地,所述反饋式神經(jīng)網(wǎng)絡(luò)包括正向反饋式神經(jīng)網(wǎng)絡(luò)和反向反饋式神經(jīng)網(wǎng)絡(luò),
所述正向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W1、V1和b1為所述正向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述視頻中的第t幀圖像的第一特征,Y_t為所述第t幀圖像的正向特征,Y_{t-1}為所述視頻中的第t-1幀圖像的正向特征;
所述反向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W2、V2和b2為所述反向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述第t幀圖像的第一特征,Z_t為所述第t幀圖像的反向特征,Z_{t+1}為所述視頻中的第t+1幀圖像的反向特征;
所述第t幀圖像的第二特征H_t通過以下公式計(jì)算:
其中,x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量,C為所述第t幀圖像的正向特征或反向特征的總頻道數(shù)。
示例性地,所述對象追蹤裝置進(jìn)一步包括訓(xùn)練模塊,用于利用多個(gè)樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)、所述反饋式神經(jīng)網(wǎng)絡(luò)和所述回歸器進(jìn)行訓(xùn)練,其中,所述多個(gè)樣本圖像中包含的對象在每個(gè)樣本圖像中的位置信息是已標(biāo)注好的。
示例性地,所述卷積神經(jīng)網(wǎng)絡(luò)的數(shù)目是一個(gè)或多個(gè),所述訓(xùn)練模塊包括:
訓(xùn)練調(diào)整子模塊,用于對于所述多個(gè)樣本圖像中的任一樣本圖像,將一個(gè)或多個(gè)所述卷積神經(jīng)網(wǎng)絡(luò)輸出的一個(gè)或多個(gè)初始輸出特征圖調(diào)整為與該樣本圖像的大小一致,以獲得一個(gè)或多個(gè)新輸出特征圖;
構(gòu)建子模塊,用于對于所述多個(gè)樣本圖像中的任一樣本圖像,基于一個(gè)或多個(gè)新輸出特征圖構(gòu)建一個(gè)或多個(gè)損失函數(shù);以及
訓(xùn)練子模塊,用于對于所述多個(gè)樣本圖像中的任一樣本圖像,利用所構(gòu)建的一個(gè)或多個(gè)損失函數(shù)對一個(gè)或多個(gè)所述卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
示例性地,所述訓(xùn)練調(diào)整子模塊包括:
訓(xùn)練調(diào)整單元,用于對于所述多個(gè)樣本圖像中的任一樣本圖像,對所述一個(gè)或多個(gè)初始輸出特征圖中的每一個(gè)進(jìn)行插值和/或剪切以將該初始輸出特征圖調(diào)整為與該樣本圖像的大小一致。
示例性地,所述追蹤模塊包括第一關(guān)聯(lián)子模塊,用于如果所述視頻中的特定圖像中包含的特定對象的像素級檢測位置信息與所述視頻中的一個(gè)或多個(gè)參照圖像中包含的一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息之間的關(guān)系滿足第一預(yù)設(shè)條件,則將所述特定對象和所述一個(gè)或多個(gè)參照對象關(guān)聯(lián)在一起,
其中,所述參照圖像與所述特定圖像相對應(yīng)。
示例性地,所述追蹤模塊包括第二關(guān)聯(lián)子模塊,用于如果所述視頻中的一個(gè)或多個(gè)參照圖像中包含的一個(gè)或多個(gè)參照對象在所述視頻中的特定圖像中的像素級預(yù)測位置信息滿足第二預(yù)設(shè)條件,并且在所述特定圖像中,在根據(jù)所述一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息所確定的預(yù)測位置處未檢測到與所述一個(gè)或多個(gè)參照對象相對應(yīng)的期望對象,則基于所述一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息確定與所述特定圖像相關(guān)的預(yù)測對象,并且將所述一個(gè)或多個(gè)參照對象與所述預(yù)測對象關(guān)聯(lián)在一起,
其中,所述參照圖像與所述特定圖像相對應(yīng)。
示例性地,所述追蹤模塊包括不可信確定子模塊,用于如果所述視頻中的特定圖像中包含的特定對象的像素級檢測位置信息與所述視頻中的所有參照圖像中包含的所有參照對象在所述特定圖像中的像素級預(yù)測位置信息之間的關(guān)系滿足第三預(yù)設(shè)條件,則確定所述特定對象是不可信對象,
其中,所述參照圖像與所述特定圖像相對應(yīng)。
根據(jù)本發(fā)明實(shí)施例的對象追蹤方法和裝置,通過基于當(dāng)前圖像預(yù)測對象在其他圖像中的位置信息及位置信息的比較來實(shí)現(xiàn)對象追蹤,這種對象追蹤方式非常簡單,計(jì)算量小,并且可以降低對象追蹤誤差。
附圖說明
通過結(jié)合附圖對本發(fā)明實(shí)施例進(jìn)行更詳細(xì)的描述,本發(fā)明的上述以及其它目的、特征和優(yōu)勢將變得更加明顯。附圖用來提供對本發(fā)明實(shí)施例的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明實(shí)施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中,相同的參考標(biāo)號通常代表相同部件或步驟。
圖1示出用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對象追蹤方法和裝置的示例電子設(shè)備的示意性框圖;
圖2示出根據(jù)本發(fā)明一個(gè)實(shí)施例的對象追蹤方法的示意性流程圖;
圖3示出根據(jù)本發(fā)明一個(gè)實(shí)施例的針對視頻中的每幀圖像利用反饋式神經(jīng)網(wǎng)絡(luò)檢測該圖像中包含的對象在該圖像中的像素級檢測位置信息并預(yù)測該圖像中包含的對象在視頻的其他圖像中的像素級預(yù)測位置信息的步驟的示意性流程圖;
圖4示出根據(jù)本發(fā)明一個(gè)實(shí)施例的基于至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息的步驟的示意性流程圖;
圖5示出根據(jù)本發(fā)明一個(gè)實(shí)施例的利用視頻中的圖像進(jìn)行對象追蹤的示意性流程圖;
圖6示出根據(jù)本發(fā)明一個(gè)實(shí)施例的對象追蹤裝置的示意性框圖;以及
圖7示出根據(jù)本發(fā)明一個(gè)實(shí)施例的對象追蹤系統(tǒng)的示意性框圖。
具體實(shí)施方式
為了使得本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更為明顯,下面將參照附圖詳細(xì)描述根據(jù)本發(fā)明的示例實(shí)施例。顯然,所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例,而不是本發(fā)明的全部實(shí)施例,應(yīng)理解,本發(fā)明不受這里描述的示例實(shí)施例的限制?;诒景l(fā)明中描述的本發(fā)明實(shí)施例,本領(lǐng)域技術(shù)人員在沒有付出創(chuàng)造性勞動(dòng)的情況下所得到的所有其它實(shí)施例都應(yīng)落入本發(fā)明的保護(hù)范圍之內(nèi)。
首先,參照圖1來描述用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對象追蹤方法和裝置的示例電子設(shè)備100。
如圖1所示,電子設(shè)備100包括一個(gè)或多個(gè)處理器102、一個(gè)或多個(gè)存儲裝置104、輸入裝置106、輸出裝置108和視頻采集裝置110,這些組件通過總線系統(tǒng)112和/或其它形式的連接機(jī)構(gòu)(未示出)互連。應(yīng)當(dāng)注意,圖1所示的電子設(shè)備100的組件和結(jié)構(gòu)只是示例性的,而非限制性的,根據(jù)需要,所述電子設(shè)備也可以具有其他組件和結(jié)構(gòu)。
所述處理器102可以是中央處理單元(CPU)或者具有數(shù)據(jù)處理能力和/或指令執(zhí)行能力的其它形式的處理單元,并且可以控制所述電子設(shè)備100中的其它組件以執(zhí)行期望的功能。
所述存儲裝置104可以包括一個(gè)或多個(gè)計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品可以包括各種形式的計(jì)算機(jī)可讀存儲介質(zhì),例如易失性存儲器和/或非易失性存儲器。所述易失性存儲器例如可以包括隨機(jī)存取存儲器(RAM)和/或高速緩沖存儲器(cache)等。所述非易失性存儲器例如可以包括只讀存儲器(ROM)、硬盤、閃存等。在所述計(jì)算機(jī)可讀存儲介質(zhì)上可以存儲一個(gè)或多個(gè)計(jì)算機(jī)程序指令,處理器102可以運(yùn)行所述程序指令,以實(shí)現(xiàn)下文所述的本發(fā)明實(shí)施例中(由處理器實(shí)現(xiàn))的客戶端功能以及/或者其它期望的功能。在所述計(jì)算機(jī)可讀存儲介質(zhì)中還可以存儲各種應(yīng)用程序和各種數(shù)據(jù),例如所述應(yīng)用程序使用和/或產(chǎn)生的各種數(shù)據(jù)等。
所述輸入裝置106可以是用戶用來輸入指令的裝置,并且可以包括鍵盤、鼠標(biāo)、麥克風(fēng)和觸摸屏等中的一個(gè)或多個(gè)。
所述輸出裝置108可以向外部(例如用戶)輸出各種信息(例如圖像和/或聲音),并且可以包括顯示器、揚(yáng)聲器等中的一個(gè)或多個(gè)。
所述視頻采集裝置110可以采集期望的視頻(例如用于對象追蹤的視頻),并且將所采集的視頻存儲在所述存儲裝置104中以供其它組件使用。視頻采集裝置110可以采用任何合適的設(shè)備實(shí)現(xiàn),例如獨(dú)立的照相機(jī)或移動(dòng)終端的攝像頭等。視頻采集裝置110僅是示例,電子設(shè)備100可以不包括視頻采集裝置110。
示例性地,用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對象追蹤方法和裝置的示例電子設(shè)備可以在諸如個(gè)人計(jì)算機(jī)或遠(yuǎn)程服務(wù)器等的設(shè)備上實(shí)現(xiàn)。
下面,將參考圖2描述根據(jù)本發(fā)明實(shí)施例的對象追蹤方法。圖2示出根據(jù)本發(fā)明一個(gè)實(shí)施例的對象追蹤方法200的示意性流程圖。如圖2所示,對象追蹤方法200包括以下步驟。
在步驟S210,獲取視頻。
視頻可以包括若干幀圖像,圖像中可以包含對象。本文所述的對象可以是任何期望追蹤或能夠追蹤的物體,例如行人、車輛等。視頻可以來自外部設(shè)備,由外部設(shè)備傳送到電子設(shè)備100進(jìn)行對象追蹤。此外,視頻也可以由電子設(shè)備100的視頻采集裝置110采集獲得。視頻采集裝置110可以將采集到的視頻傳送到處理器102,由處理器102進(jìn)行對象追蹤。視頻可以是原始視頻,也可以是對原始視頻進(jìn)行預(yù)處理后得到的視頻。
在步驟S220,針對視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測該圖像中包含的對象在該圖像中的像素級檢測位置信息、并預(yù)測該圖像中包含的對象在至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。
在本發(fā)明各個(gè)實(shí)施例中,視頻的至少部分幀的圖像可以為視頻中的部分視頻幀,也可以為視頻中的全部視頻幀。
示例性地,本文所述的位置信息可以包括對象在圖像中的具體坐標(biāo)。示例性地,位置信息可以進(jìn)一步包括對象的大小。像素級位置信息可以是對象的像素級別的分類,例如屬于同一對象的像素可以分為一類。通過像素級別的分類可以將不同的對象區(qū)分開。對于某一幀圖像來說,利用其圖像信息檢測出的對象在該圖像中的像素級位置信息可以稱為像素級檢測位置信息,利用其圖像信息預(yù)測出的對象在其他圖像中的像素級位置信息可以稱為像素級預(yù)測位置信息。對于視頻中的每幀圖像,均可以進(jìn)行這樣的檢測和預(yù)測。
由于對象的運(yùn)動(dòng)過程通常是連續(xù)的,在針對對象采集的多幀圖像中,對象所處的位置通常存在一定的相關(guān)性。因此,基于該相關(guān)性,對于視頻中的某一圖像來說,不僅可以直接檢測對象在當(dāng)前圖像中的位置,還可以預(yù)測同一對象在采集時(shí)間早于當(dāng)前圖像的一幀或多幀先前圖像中的位置,同理,也可以預(yù)測該對象在采集時(shí)間晚于當(dāng)前圖像的一幀或多幀隨后圖像中的位置。這樣的檢測和預(yù)測過程可以利用反饋式神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)。反饋式神經(jīng)網(wǎng)絡(luò)可以是事先訓(xùn)練好的。反饋式神經(jīng)網(wǎng)絡(luò)能夠綜合視頻中的不同圖像的信息,使得基于當(dāng)前圖像的信息預(yù)測其他圖像(先前圖像和/或隨后圖像)的信息成為可能,如下文所述。
反饋式神經(jīng)網(wǎng)絡(luò)的神經(jīng)元間連接構(gòu)成有向圖,通過將狀態(tài)在自身網(wǎng)絡(luò)中循環(huán)傳遞,反饋式神經(jīng)網(wǎng)絡(luò)可以接收廣泛的時(shí)間序列輸入。也就是說,對于存在時(shí)序關(guān)系的多幀圖像來說,將圖像按照時(shí)間順序輸入到反饋式神經(jīng)網(wǎng)絡(luò)中,反饋式神經(jīng)網(wǎng)絡(luò)可以將與每幀圖像相對應(yīng)的輸出結(jié)果重新返回到輸入處,這樣,可以建立當(dāng)前圖像與采集時(shí)間不同的先前圖像和/或隨后圖像之間的關(guān)聯(lián)。由此可以使得通過當(dāng)前圖像預(yù)測先前圖像和/或隨后圖像的某些信息(例如當(dāng)前圖像中包含的對象在先前圖像和/或隨后圖像中的位置信息)成為可能。
在步驟S230,根據(jù)視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象。
根據(jù)視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象可以包括根據(jù)視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息將視頻中的不同圖像中的相同對象關(guān)聯(lián)在一起。
下面舉例描述。假設(shè)基于視頻中的第t幀圖像的像素信息檢測到第t幀圖像中包含對象A,其中心點(diǎn)位于第t幀圖像的坐標(biāo)(x1,y1)處,并且預(yù)測到對象A的中心點(diǎn)在第t+1幀圖像中可能位于坐標(biāo)(x2,y2)處。然后,基于第t+1幀圖像的像素信息檢測到第t+1幀圖像中包含對象B,其中心點(diǎn)位于第t+1幀圖像的坐標(biāo)(x3,y3)處。如果經(jīng)比較,發(fā)現(xiàn)坐標(biāo)(x2,y2)與坐標(biāo)(x3,y3)之間的距離非常近,例如小于某個(gè)閾值,則可以認(rèn)為第t幀圖像中的對象A與第t+1幀圖像中的對象B是相同對象。在確認(rèn)第t幀圖像中的對象A與第t+1幀圖像中的對象B是相同對象的情況下,將這兩個(gè)對象關(guān)聯(lián)在一起,合并成一個(gè)對象,例如合并為對象1。示例性地,將相同對象關(guān)聯(lián)在一起的過程可以包括將該對象在不同圖像中的位置信息關(guān)聯(lián)在一起,以獲得對象的運(yùn)動(dòng)軌跡。例如,對于對象1來說,其中心點(diǎn)在第t幀圖像中位于坐標(biāo)(x2,y2)處,在第t+1幀圖像中位于坐標(biāo)(x3,y3)處,也就是說,可以認(rèn)為對象1在一段時(shí)間內(nèi)從坐標(biāo)(x2,y2)處運(yùn)動(dòng)到坐標(biāo)(x3,y3)處。根據(jù)上述原理,可以針對每幀圖像中的對象進(jìn)行像素級檢測位置信息和像素級預(yù)測位置信息的比較,將像素級檢測位置信息和像素級預(yù)測位置信息滿足要求的對象視為相同對象并進(jìn)行關(guān)聯(lián),最終可以將包含在不同圖像中的相同對象關(guān)聯(lián)在一起,即可以實(shí)現(xiàn)對象的追蹤。
與現(xiàn)有的對象追蹤方法相比,上述對象追蹤方法具有以下優(yōu)點(diǎn):
(1).追蹤過程極為簡單,計(jì)算量較小。本方法只需要將所預(yù)測的對象位置(例如對象的中心點(diǎn))與檢測出的對象位置(例如對象的中心點(diǎn))進(jìn)行比較即可,無需額外比較外觀相似程度。
(2).能夠有效處理被遮擋問題。在現(xiàn)有方法中,如果在視頻的一幀或多幀圖像中,某對象被遮擋,則該對象是無法檢測出的,而在本方法中,由于對象可能在之前和/或之后的多幀圖像中出現(xiàn),則根據(jù)其在未被遮擋的圖像中的信息估計(jì)其在被遮擋的圖像中的位置是可能的。
(3).能夠在一定程度上降低對象追蹤誤差。例如,如果某對象在某幀圖像中被漏檢,那么根據(jù)前后多幀圖像的信息,能夠預(yù)測出其在該幀圖像中的位置。另外,如果在某幀圖像中,一個(gè)對象是被誤檢的,那么根據(jù)前后多幀圖像的信息,可以判斷出該被檢測出的對象不可信。
根據(jù)本發(fā)明實(shí)施例的對象追蹤方法,通過基于當(dāng)前圖像預(yù)測對象在其他圖像中的位置信息及位置信息的比較來實(shí)現(xiàn)對象追蹤,這種對象追蹤方式非常簡單,計(jì)算量小,并且可以降低對象追蹤誤差。
示例性地,根據(jù)本發(fā)明實(shí)施例的對象追蹤方法可以在具有存儲器和處理器的設(shè)備、裝置或者系統(tǒng)中實(shí)現(xiàn)。
根據(jù)本發(fā)明實(shí)施例的對象追蹤方法可以部署在視頻采集端,例如,可以部署在個(gè)人終端處,諸如智能電話、平板電腦、個(gè)人計(jì)算機(jī)等。替代地,根據(jù)本發(fā)明實(shí)施例的對象追蹤方法還可以部署在服務(wù)器端(或云端)處。例如,可以在客戶端采集包含對象的視頻,客戶端將采集到的視頻傳送給服務(wù)器端(或云端),由服務(wù)器端(或云端)進(jìn)行對象追蹤。
圖3示出根據(jù)本發(fā)明一個(gè)實(shí)施例的針對視頻的至少部分幀的圖像中的每幀圖像利用反饋式神經(jīng)網(wǎng)絡(luò)檢測該圖像中包含的對象在該圖像中的像素級檢測位置信息并預(yù)測該圖像中包含的對象在至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息的步驟(步驟S220)的示意性流程圖。根據(jù)本實(shí)施例,上述步驟S220可以包括以下步驟。
在步驟S310,將至少部分幀的圖像中的每幀圖像輸入卷積神經(jīng)網(wǎng)絡(luò),以獲得至少部分幀的圖像中的每幀圖像的第一特征。
卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),其由若干卷積單元組成,每個(gè)卷積單元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元。每個(gè)卷積單元的參數(shù)可以通過反向傳播算法優(yōu)化得到。卷積運(yùn)算的目的是提取圖像的不同特征。例如,第一層卷積層可以提取一些低級的特征,如邊緣、線條和角等層級,更多層的網(wǎng)絡(luò)可以從低級特征中迭代提取更復(fù)雜的特征,最終獲得本文所述的第一特征。卷積神經(jīng)網(wǎng)絡(luò)的數(shù)目以及每個(gè)卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)可以根據(jù)需要而定,本發(fā)明不對此進(jìn)行限制。卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)可以進(jìn)行隨機(jī)初始化,也可以利用已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化,例如利用視覺幾何組(VGG),GoogleLeNet等網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化。對于這類已有的網(wǎng)絡(luò),可以選取其中的某些部分作為本文所述的卷積神經(jīng)網(wǎng)絡(luò)的一部分參與訓(xùn)練,也可以固定一部分參數(shù)不參與該卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
第一特征可以理解為類似熱力圖的特征圖。對于一個(gè)圖像(視頻中的一幀)來說,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取的第一特征可以是一個(gè)三維張量X,該三維張量X的三個(gè)維度可以分別代表特征圖的橫向坐標(biāo)、縱向坐標(biāo)和頻道。也就是說,第一特征可以包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量。應(yīng)該理解的是,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)的處理之后,獲得的特征圖的大小并不一定與輸入的圖像一致,其可能縮小,每個(gè)由第一特征中的橫向坐標(biāo)和縱向坐標(biāo)代表的圖像點(diǎn)可能對應(yīng)于視頻中的原始圖像中的一個(gè)區(qū)域。對于視頻中的原始圖像來說,其可以包括三個(gè)顏色分量,即紅色(R)、綠色(G)和藍(lán)色(B),則其頻道數(shù)是3。在利用卷積神經(jīng)網(wǎng)絡(luò)對原始圖像進(jìn)行處理之后,所獲得的特征圖的頻道數(shù)可能會大大增加,也就是說第二特征的頻道向量可能不再簡單是3維的向量,而變成例如512維、1024維等更多維度的向量。
在步驟S320,將至少部分幀的圖像中的每幀圖像的第一特征輸入反饋式神經(jīng)網(wǎng)絡(luò),以獲得至少部分幀的圖像中的每幀圖像的第二特征,其中,當(dāng)前圖像的第二特征與在當(dāng)前圖像之前的先前圖像和在當(dāng)前圖像之后的隨后圖像相關(guān)。
在計(jì)算當(dāng)前圖像的第二特征時(shí),可以將當(dāng)前圖像的第一特征和先前圖像的某些特征信息和/或隨后圖像的某些特征信息作為反饋式神經(jīng)網(wǎng)絡(luò)的輸入,輸出的將是當(dāng)前圖像的第二特征。
與第一特征類似地,第二特征也是一個(gè)三維張量,其可以用H表示。該三維張量H的三個(gè)維度可以分別代表特征圖的橫向坐標(biāo)、縱向坐標(biāo)和頻道。也就是說,第二特征可以包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量。同樣地,每個(gè)由第二特征中的橫向坐標(biāo)和縱向坐標(biāo)代表的圖像點(diǎn)可能對應(yīng)于視頻中的原始圖像中的一個(gè)區(qū)域。當(dāng)前圖像的第二特征綜合了在當(dāng)前圖像之前和之后的圖像的信息。
在步驟S330,基于至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。
如上文所述,當(dāng)前圖像的第二特征綜合了在當(dāng)前圖像之前和之后的圖像的信息,因此,根據(jù)當(dāng)前圖像的第二特征不僅可以獲知當(dāng)前圖像中包含的對象在當(dāng)前圖像中的像素級位置信息,而且可以預(yù)測當(dāng)前圖像中包含的對象在當(dāng)前圖像之前和/或之后的圖像中的像素級位置信息。例如,在步驟S330中,可以采用事先訓(xùn)練好的回歸器等計(jì)算當(dāng)前圖像中包含的對象在當(dāng)前圖像中的位置及在當(dāng)前圖像之前和/或之后的圖像中的位置。
圖4示出根據(jù)本發(fā)明一個(gè)實(shí)施例的基于至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息的步驟(步驟S330)的示意性流程圖。根據(jù)本實(shí)施例,上述步驟S330可以包括以下步驟。
在步驟S410,對于至少部分幀的圖像中的任一圖像,將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致,以獲得該圖像的新特征圖,其中,所述新特征圖的特征值是第三特征,并且所述第三特征包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量。
由于在卷積神經(jīng)網(wǎng)絡(luò)和反饋式神經(jīng)網(wǎng)絡(luò)中具有卷積層和池化層,因此,在經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)和反饋式神經(jīng)網(wǎng)絡(luò)的處理之后,所獲得的特征圖的大小會小于原始輸入的圖像的大小,為了實(shí)現(xiàn)像素級別的操作,可以將最終輸出的特征圖的大小恢復(fù)到與原始輸入的圖像一致,然后再進(jìn)行處理。在本發(fā)明實(shí)施例中,可以將當(dāng)前圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與當(dāng)前圖像的大小一致。調(diào)整后獲得的新特征圖的特征值可以用第三特征表示,第三特征與第二特征類似,也包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量。
舉例說明,視頻中的每幀圖像的大小可以是1280像素×720像素,在經(jīng)過多次卷積和池化之后,可能縮小為原始圖像的1/4,也就是說,反饋式神經(jīng)網(wǎng)絡(luò)輸出的第二特征所對應(yīng)的初始特征圖可能只有320像素×180像素那么大??梢圆捎美绮逯岛?或剪切的方式將初始特征圖增加為其原來大小的四倍,即變?yōu)榇笮∨c原始圖像大小(1280像素×720像素)一致的新特征圖。
與第二特征類似地,第三特征也是三維張量,可以用H'表示。對于每幀圖像來說,其第三特征中的橫向坐標(biāo)和縱向坐標(biāo)可以代表若干個(gè)圖像點(diǎn),每個(gè)圖像點(diǎn)對應(yīng)于該圖像中的一個(gè)像素。
在步驟S420,對于至少部分幀的圖像中的任一圖像,將該圖像的第三特征中的、與每個(gè)由該圖像的第三特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn)相對應(yīng)的元素輸入回歸器,以獲得該圖像中的至少部分圖像點(diǎn)中的每個(gè)圖像點(diǎn)在該圖像中相對于該圖像點(diǎn)所屬對象的位移信息、在該圖像之前的特定數(shù)目的先前圖像中相對于該圖像點(diǎn)所屬對象的位移信息、以及在該圖像之后的特定數(shù)目的隨后圖像中相對于該圖像點(diǎn)所屬對象的位移信息。
如上所述,第三特征是三維張量H',其三個(gè)維度可以分別代表新特征圖的橫向坐標(biāo)、縱向坐標(biāo)和頻道。
為了描述方便,可以將視頻中的第t幀圖像的第三特征表示為H'_t(x,y,c),其中x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量。頻道向量代表圖像(或特征圖)的顏色信息,而經(jīng)由顏色信息可以判斷對象在圖像(或特征圖)中的位置。對于某個(gè)圖像點(diǎn)(x,y)來說,第三特征中的與該圖像點(diǎn)相對應(yīng)的元素可以表示為H'_t[x,y,:]。第三特征中的與每個(gè)圖像點(diǎn)相對應(yīng)的元素也可以說是該圖像點(diǎn)對應(yīng)的特征。
可以將當(dāng)前圖像的每個(gè)圖像點(diǎn)對應(yīng)的特征,即H'_t[x,y,:],輸入到(1+2N)個(gè)回歸器,每個(gè)回歸器輸出在當(dāng)前圖像、或在當(dāng)前圖像之前的第n幀(n≤N)先前圖像、或在當(dāng)前圖像之后的第n幀(n≤N)隨后圖像中該圖像點(diǎn)(x,y)到對象中心點(diǎn)的位移?;貧w器可以是事先訓(xùn)練好的。示例性而非限制性地,回歸器可以是全連接神經(jīng)網(wǎng)絡(luò)。
在步驟S430,對于至少部分幀的圖像中的任一圖像,對于至少部分圖像點(diǎn)中的每個(gè)圖像點(diǎn),根據(jù)該圖像點(diǎn)在該圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置,根據(jù)該圖像點(diǎn)在該圖像之前的特定數(shù)目的先前圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像之前的特定數(shù)目的先前圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置,根據(jù)該圖像點(diǎn)在該圖像之后的特定數(shù)目的隨后圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像之后的特定數(shù)目的隨后圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置。
對于當(dāng)前圖像的每個(gè)圖像點(diǎn)來說,可以根據(jù)針對該圖像點(diǎn)檢測到的該圖像點(diǎn)在當(dāng)前圖像中與對象中心點(diǎn)的位移估計(jì)在當(dāng)前圖像中對象中心點(diǎn)的位置。同樣地,對于當(dāng)前圖像的每個(gè)圖像點(diǎn)來說,可以根據(jù)針對該圖像點(diǎn)預(yù)測的該圖像點(diǎn)在其他圖像中與對象中心點(diǎn)的位移估計(jì)在其他圖像中對象中心點(diǎn)的位置。
在步驟S440,對于至少部分幀的圖像中的任一圖像,對針對至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像中至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像中的檢測中心點(diǎn)位置作為該圖像中包含的對象在該圖像中的像素級檢測位置信息,對針對至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像之前的特定數(shù)目的先前圖像中至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像之前的特定數(shù)目的先前圖像中的預(yù)測中心點(diǎn)位置作為該圖像中包含的對象在該圖像之前的特定數(shù)目的先前圖像中的像素級預(yù)測位置信息,對針對至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像之后的特定數(shù)目的隨后圖像中至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像之后的特定數(shù)目的隨后圖像中的預(yù)測中心點(diǎn)位置作為該圖像中包含的對象在該圖像之后的特定數(shù)目的隨后圖像中的像素級預(yù)測位置信息。
通過簡單的聚類算法可以確定各圖像中的對象的中心點(diǎn)。例如,假設(shè)在第t幀圖像中,某一行人A包含在100像素×300像素的圖像塊中,則存在大約3萬的圖像點(diǎn)是屬于該行人A的。在步驟S430中,根據(jù)這3萬個(gè)圖像點(diǎn)可以估計(jì)獲得3萬個(gè)中心點(diǎn),代表行人A的中心點(diǎn)。應(yīng)當(dāng)理解,這3萬個(gè)中心點(diǎn)通常會有一些是重合的,并且大多數(shù)中心點(diǎn)都聚集在一個(gè)較小的區(qū)域內(nèi)。因此可以對這3萬個(gè)中心點(diǎn)進(jìn)行聚類,獲得一個(gè)最終的中心點(diǎn)位置,該最終的中心點(diǎn)位置是第t幀圖像中的檢測中心點(diǎn)位置。如果第t幀圖像中包含四個(gè)行人,則可以獲得四個(gè)檢測中心點(diǎn)位置。
對于預(yù)測位置信息,同樣可以通過聚類方式進(jìn)行處理。仍以上述行人A為例,在第t幀圖像中,有大約3萬個(gè)圖像點(diǎn)是屬于該行人A的。根據(jù)這3萬個(gè)圖像點(diǎn)中的每一個(gè)可以估計(jì)獲得在第t+1幀圖像中的一個(gè)中心點(diǎn)位置。因此,對于t+1幀圖像來說,可以估計(jì)得到大約3萬個(gè)中心點(diǎn)。對這3萬個(gè)中心點(diǎn)進(jìn)行聚類,可以獲得一個(gè)最終的中心點(diǎn)位置,該最終的中心點(diǎn)位置是所預(yù)測的、第t幀圖像中的行人A在第t+1幀圖像中的預(yù)測中心點(diǎn)位置。
根據(jù)上述方法,通過回歸器對每個(gè)圖像點(diǎn)對應(yīng)的特征進(jìn)行處理,可以在像素(對應(yīng)于圖像點(diǎn))級別上獲得對象在當(dāng)前圖像中的檢測位置信息,以及對象在先前和/或隨后圖像中的預(yù)測位置信息。
根據(jù)本發(fā)明實(shí)施例,上述步驟S410可以包括:對于至少部分幀的圖像中的任一圖像,對該圖像的第二特征所對應(yīng)的初始特征圖進(jìn)行插值和/或剪切以將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致。
如上文所述,為實(shí)現(xiàn)像素級別的操作,可以將反饋式神經(jīng)網(wǎng)絡(luò)輸出的第二特征所對應(yīng)的初始特征圖調(diào)整為與當(dāng)前圖像一致,調(diào)整方法可以是插值和/或剪切。本領(lǐng)域技術(shù)人員可以理解,插值和/或剪切的目的是實(shí)現(xiàn)對初始特征圖的縮放,其可以采用本領(lǐng)域常規(guī)技術(shù)實(shí)現(xiàn),在此不進(jìn)行贅述。例如,插值方法可以是常規(guī)的圖像插值方法,例如最鄰近元法、雙線性內(nèi)插法、三次內(nèi)插法等等。調(diào)整后獲得的特征圖即為新特征圖。通過插值和/或剪切可以簡單快速地實(shí)現(xiàn)初始特征圖的縮放。
根據(jù)本發(fā)明實(shí)施例,在步驟S410之后,對象追蹤方法400可以進(jìn)一步包括:對于至少部分幀的圖像中的任一圖像,將該圖像的第三特征中的、與每個(gè)由該圖像的第三特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn)相對應(yīng)的元素輸入分類器,以確定該圖像中的每個(gè)圖像點(diǎn)屬于目標(biāo)對象的可能性。
可以將上文所述的每個(gè)圖像點(diǎn)對應(yīng)的特征H'_t[x,y,:]輸入分類器,分類器輸出該圖像點(diǎn)是否屬于某個(gè)目標(biāo)對象(即感興趣的對象),例如行人、車輛等。例如,在利用分類器判斷圖像點(diǎn)是否屬于行人的情況下,分類器可以輸出一個(gè)在0和1之間的概率值,概率值越大說明圖像點(diǎn)屬于行人的概率越高。當(dāng)然,分類器還可以輸出更多種結(jié)果,用于表示更多的對象類型。分類器可以是事先訓(xùn)練好的。示例性而非限制性地,分類器可以是全連接神經(jīng)網(wǎng)絡(luò)。
通過分類器可以判斷圖像中的對象的類別,判斷對象是否是感興趣的對象,從而可以提供更多關(guān)于對象的信息,幫助實(shí)現(xiàn)對象追蹤。
根據(jù)本發(fā)明實(shí)施例,上述步驟S230可以包括:對于至少部分幀的圖像中的任一圖像,將該圖像中的、每個(gè)屬于目標(biāo)對象的可能性超過可能性閾值的圖像點(diǎn)關(guān)聯(lián)到位于距離該圖像點(diǎn)所估計(jì)獲得的中心點(diǎn)位置最近的檢測中心點(diǎn)位置處的對象。
可能性閾值可以是任何合適的閾值,其可以根據(jù)需要設(shè)定,本發(fā)明不對此進(jìn)行限制。例如,可能性閾值可以是90%。例如,在當(dāng)前圖像中,根據(jù)1000個(gè)圖像點(diǎn)估計(jì)獲得的中心點(diǎn)位置距離較近,在一個(gè)較小的區(qū)域內(nèi),則可以認(rèn)為它們屬于同一對象,假設(shè)為對象O。如上文所述,在進(jìn)行聚類之后,可以基于與1000個(gè)圖像點(diǎn)對應(yīng)的1000個(gè)中心點(diǎn)獲得一個(gè)最終的中心點(diǎn)位置,即檢測中心點(diǎn)位置。將這1000個(gè)圖像點(diǎn)的特征分別輸入分類器可以計(jì)算每個(gè)圖像點(diǎn)屬于行人的可能性。假設(shè)其中有800個(gè)圖像點(diǎn)屬于行人的可能性高于90%,則可以將這800個(gè)圖像點(diǎn)與檢測中心點(diǎn)位置處的對象O(也就是行人O)關(guān)聯(lián)起來。也就是說,通過上述方式,可以確定與行人O相關(guān)的800個(gè)像素,用這800個(gè)像素可以表征行人O,這是一種對行人的像素級檢測。基于此,可以實(shí)現(xiàn)對行人的像素級追蹤。
根據(jù)本發(fā)明實(shí)施例,上述反饋式神經(jīng)網(wǎng)絡(luò)可以是雙向卷積反饋式神經(jīng)網(wǎng)絡(luò),其可以包括正向反饋式神經(jīng)網(wǎng)絡(luò)和反向反饋式神經(jīng)網(wǎng)絡(luò)。示例性地,使用雙向卷積反饋式神經(jīng)網(wǎng)絡(luò),使視頻中的每幀圖像不僅能夠綜合在其之前的圖像的信息,還能夠綜合在其之后的圖像的信息。下面詳細(xì)描述。
如上文所述,反饋式神經(jīng)網(wǎng)絡(luò)的神經(jīng)元間連接構(gòu)成有向圖,通過將狀態(tài)在自身網(wǎng)絡(luò)中循環(huán)傳遞,反饋式神經(jīng)網(wǎng)絡(luò)可以接收更廣泛的時(shí)間序列輸入。在本發(fā)明中,該時(shí)間序列為一段視頻中的每幀圖像通過卷積神經(jīng)網(wǎng)絡(luò)提取的第一特征。根據(jù)本發(fā)明一實(shí)施例,可以采用一般的反饋式神經(jīng)網(wǎng)絡(luò),具有以下的表達(dá)公式:
Y_t=W*X_t+V*Y_{t-1}+b (1)
其中,w、v和b為反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為視頻中的第t幀圖像的第一特征,Y_t為第t幀圖像對應(yīng)的輸出結(jié)果,Y_{t-1}為視頻中的第t-1幀圖像對應(yīng)的輸出結(jié)果。
根據(jù)本發(fā)明另一實(shí)施例,可以采用卷積代替一般的反饋式神經(jīng)網(wǎng)絡(luò)中的乘法以獲得正向反饋式神經(jīng)網(wǎng)絡(luò)的表達(dá)公式,即采用卷積反饋式神經(jīng)網(wǎng)絡(luò)代替一般的反饋式神經(jīng)網(wǎng)絡(luò),如下所述:
其中,W1、V1和b1為所述正向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為視頻中的第t幀圖像的第一特征,Y_t為第t幀圖像的正向特征,Y_{t-1}為視頻中的第t-1幀圖像的正向特征。
由于采用這種以卷積代替乘法的方式,在綜合各幀圖像中的信息的時(shí)候,可以僅響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元,從而較一般的反饋式神經(jīng)網(wǎng)絡(luò),卷積反饋式神經(jīng)網(wǎng)絡(luò)可以使反饋式神經(jīng)網(wǎng)絡(luò)中的參數(shù)大大減小。在正向反饋式神經(jīng)網(wǎng)絡(luò)中,第t幀圖像對應(yīng)的輸出結(jié)果Y_t是一個(gè)三維張量。
所述反向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W2、V2和b2為所述反向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為第t幀圖像的第一特征,Z_t為第t幀圖像的反向特征,Z_{t+1}為視頻中的第t+1幀圖像的反向特征。
然后,可以將正向反饋式神經(jīng)網(wǎng)絡(luò)的結(jié)果和反向反饋式神經(jīng)網(wǎng)絡(luò)的結(jié)果合并在一起,獲得圖像的第二特征。合并方式如下。
所述第t幀圖像的第二特征H_t通過以下公式計(jì)算:
其中,x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量,C為所述第t幀圖像的正向特征或反向特征的總頻道數(shù)。
通過以上公式(2)和(3)可知正向特征和反向特征的總頻道是相同的,其是一個(gè)常數(shù)。例如,如果正向特征或反向特征中的頻道向量是一個(gè)512維的向量,則總頻道數(shù)是512。
通過公式(4)可以看出,第t幀圖像的第二特征H_t綜合了第t幀圖像的正向特征和反向特征,第二特征H_t分別包括正向特征的一部分和反向特征的一部分。由于第t幀圖像的正向特征與第t-1幀圖像相關(guān),第t幀圖像的反向特征與第t+1幀圖像相關(guān),因此利用公式(4),第t幀圖像的第二特征H_t可以與第t-1幀圖像和第t幀圖像相關(guān),也就是說,其綜合了第t-1幀圖像和第t幀圖像的圖像信息。
應(yīng)當(dāng)注意,本文所述的反饋式神經(jīng)網(wǎng)絡(luò)并不局限于以上實(shí)現(xiàn)方式,其還可以包括其他形式的反饋式神經(jīng)網(wǎng)絡(luò),包括但不限于長短期記憶網(wǎng)絡(luò)(LSTM)、門限循環(huán)單元(GRU)和注意力模型(Attention-based Model)等。例如,如果將雙向反饋式神經(jīng)網(wǎng)絡(luò)輸出的H_t序列作為輸入,再次輸入到與該雙向反饋式神經(jīng)網(wǎng)絡(luò)類似的反饋式神經(jīng)網(wǎng)絡(luò)中,就可以得到多層雙向反饋式神經(jīng)網(wǎng)絡(luò)。也就是說,步驟S320中采用的反饋式神經(jīng)網(wǎng)絡(luò)既可以包括單層的雙向反饋式神經(jīng)網(wǎng)絡(luò),也可以包括多層的雙向反饋式神經(jīng)網(wǎng)絡(luò)。
下面參考圖5進(jìn)一步描述利用反饋式神經(jīng)網(wǎng)絡(luò)等對視頻中的圖像進(jìn)行處理的過程。圖5示出根據(jù)本發(fā)明一個(gè)實(shí)施例的利用視頻中的圖像進(jìn)行對象追蹤的示意性流程圖。在圖5所示的實(shí)施例中,每幀圖像分別經(jīng)過了兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的處理,第二個(gè)卷積神經(jīng)網(wǎng)絡(luò)輸出的是本文所述的第一特征。應(yīng)當(dāng)理解,用于處理不同圖像的卷積神經(jīng)網(wǎng)絡(luò)是一樣的。同樣地,用于處理不同圖像的反饋式神經(jīng)網(wǎng)絡(luò)(RNN)、分類器、回歸器等都是一樣的。
在經(jīng)過兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)的處理之后,輸出的第一特征經(jīng)過了兩個(gè)反饋式神經(jīng)網(wǎng)絡(luò)的處理,獲得本文所述的第二特征。上面一層的反饋式神經(jīng)網(wǎng)絡(luò)是上文所述的正向反饋式神經(jīng)網(wǎng)絡(luò),其中,針對每幀圖像的RNN輸出結(jié)果用作針對后一幀圖像的RNN輸入。下面一層的反饋式神經(jīng)網(wǎng)絡(luò)是上文所述的反向反饋式神經(jīng)網(wǎng)絡(luò),其中,針對每幀圖像的RNN輸出結(jié)果用作針對前一幀圖像的RNN輸入。
反饋式神經(jīng)網(wǎng)絡(luò)下方的分類器指的是上文所述的用于確定圖像點(diǎn)屬于目標(biāo)對象的可能性的分類器。實(shí)際上,在反饋式神經(jīng)網(wǎng)絡(luò)與下方的分類器或回歸器之間還存在第二特征所對應(yīng)的初始特征圖的調(diào)整過程,圖5中并未示出。也就是說,反饋式神經(jīng)網(wǎng)絡(luò)輸出的第二特征并未直接輸入到下方的分類器或回歸器中,而是經(jīng)過一些中間過程之后獲得新特征圖,并將新特征圖所對應(yīng)的第三特征輸入下方的分類器或回歸器中。
根據(jù)本發(fā)明實(shí)施例,對象追蹤方法200可以進(jìn)一步包括:利用多個(gè)樣本圖像對卷積神經(jīng)網(wǎng)絡(luò)、反饋式神經(jīng)網(wǎng)絡(luò)和回歸器進(jìn)行訓(xùn)練,其中,多個(gè)樣本圖像中包含的對象在每個(gè)樣本圖像中的位置信息是已標(biāo)注好的。
可以通過大量的樣本數(shù)據(jù),對上述卷積神經(jīng)網(wǎng)絡(luò)、反饋式神經(jīng)網(wǎng)絡(luò)和回歸器進(jìn)行訓(xùn)練。當(dāng)然,在采用分類器判斷圖像點(diǎn)是否屬于目標(biāo)對象的實(shí)施例中,可以進(jìn)一步利用樣本數(shù)據(jù)對分類器進(jìn)行訓(xùn)練。
利用卷積神經(jīng)網(wǎng)絡(luò)、反饋式神經(jīng)網(wǎng)絡(luò)和回歸器處理樣本圖像的過程與參考圖3和圖4所描述的視頻中的圖像的處理步驟類似,本領(lǐng)域技術(shù)人員根據(jù)以上描述可以理解卷積神經(jīng)網(wǎng)絡(luò)、反饋式神經(jīng)網(wǎng)絡(luò)和回歸器的訓(xùn)練過程,不再贅述。
在經(jīng)過訓(xùn)練之后,可以得到卷積神經(jīng)網(wǎng)絡(luò)、反饋式神經(jīng)網(wǎng)絡(luò)和回歸器的各種參數(shù)。當(dāng)在實(shí)際應(yīng)用中進(jìn)行對象追蹤時(shí),這些參數(shù)是已知的,可以直接將訓(xùn)練好的網(wǎng)絡(luò)模型用于圖像的處理。
根據(jù)本發(fā)明實(shí)施例,卷積神經(jīng)網(wǎng)絡(luò)的數(shù)目是一個(gè)或多個(gè),上述步驟S230可以包括:對于多個(gè)樣本圖像中的任一樣本圖像,將一個(gè)或多個(gè)卷積神經(jīng)網(wǎng)絡(luò)輸出的一個(gè)或多個(gè)初始輸出特征圖調(diào)整為與該樣本圖像的大小一致,以獲得一個(gè)或多個(gè)新輸出特征圖;對于多個(gè)樣本圖像中的任一樣本圖像,基于一個(gè)或多個(gè)新輸出特征圖構(gòu)建一個(gè)或多個(gè)損失函數(shù);以及對于多個(gè)樣本圖像中的任一樣本圖像,利用所構(gòu)建的一個(gè)或多個(gè)損失函數(shù)對一個(gè)或多個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
繼續(xù)參考圖5,在圖5所示的網(wǎng)絡(luò)結(jié)構(gòu)中,共使用了兩個(gè)卷積神經(jīng)網(wǎng)絡(luò),對于每個(gè)卷積神經(jīng)網(wǎng)絡(luò)輸出的特征圖來說,其與原始輸入的圖像相比均會縮小??梢詫⒚總€(gè)卷積神經(jīng)網(wǎng)絡(luò)輸出的特征圖調(diào)整為與原始輸入的圖像一致。例如,沿用上文示例,假設(shè)視頻中的每幀圖像的大小是1280像素×720像素,則可以將第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)輸出的初始輸出特征圖調(diào)整為1280像素×720像素那么大,獲得一個(gè)新輸出特征圖,并且將第二個(gè)卷積神經(jīng)網(wǎng)絡(luò)輸出的初始輸出特征圖也調(diào)整為1280像素×720像素那么大,獲得另一個(gè)新輸出特征圖。隨后,可以利用這兩個(gè)新輸出特征圖分別構(gòu)建損失函數(shù),也就是說,在每個(gè)卷積神經(jīng)網(wǎng)絡(luò)的輸出端處構(gòu)建一個(gè)損失函數(shù),然后利用所構(gòu)建的損失函數(shù)對圖5所示的兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,也就是對卷積神經(jīng)網(wǎng)絡(luò)中的各個(gè)參數(shù)進(jìn)行訓(xùn)練。這種訓(xùn)練方式考慮到像素級別的信息,可以提高所訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)的精度。
根據(jù)本發(fā)明實(shí)施例,所述對于多個(gè)樣本圖像中的任一樣本圖像,將一個(gè)或多個(gè)卷積神經(jīng)網(wǎng)絡(luò)輸出的一個(gè)或多個(gè)初始輸出特征圖調(diào)整為與該樣本圖像的大小一致包括:對于多個(gè)樣本圖像中的任一樣本圖像,對一個(gè)或多個(gè)初始輸出特征圖中的每一個(gè)進(jìn)行插值和/或剪切以將該初始輸出特征圖調(diào)整為與該樣本圖像的大小一致。
與上文所述的第二特征所對應(yīng)的初始特征圖的調(diào)整類似,卷積神經(jīng)網(wǎng)絡(luò)輸出的初始輸出特征圖的調(diào)整也可以采用插值和/或剪切的方式,其可以采用本領(lǐng)域常規(guī)技術(shù)實(shí)現(xiàn),在此不進(jìn)行贅述。
根據(jù)本發(fā)明實(shí)施例,上述步驟S230可以包括:如果視頻中的特定圖像中包含的特定對象的像素級檢測位置信息與視頻中的一個(gè)或多個(gè)參照圖像中包含的一個(gè)或多個(gè)參照對象在特定圖像中的像素級預(yù)測位置信息之間的關(guān)系滿足第一預(yù)設(shè)條件,則將特定對象和一個(gè)或多個(gè)參照對象關(guān)聯(lián)在一起,其中,參照圖像與特定圖像相對應(yīng)。
特定圖像是視頻中的某一幀圖像,其與一個(gè)或多個(gè)參照圖像相對應(yīng)。例如,假設(shè)針對視頻中的每幀圖像,可以預(yù)測出對象在該圖像之前的兩幀先前圖像和在該圖像之后的兩幀隨后圖像中的位置信息,則對于第t幀圖像來說,其對應(yīng)的參照圖像是第t-2幀、第t-1幀、第t+1幀和第t+2幀這四個(gè)圖像,而對于第t+1幀圖像來說,其對應(yīng)的參照圖像是第t-1幀、第t幀、第t+2幀和第t+3幀這四個(gè)圖像,以此類推。
第一預(yù)設(shè)條件可以根據(jù)需要而設(shè)定,本發(fā)明不對此進(jìn)行限制。例如,如果第t幀圖像中包含的對象A在第t幀圖像中的檢測中心點(diǎn)位置、第t-2幀圖像中包含的對象B在第t幀圖像中的預(yù)測中心點(diǎn)位置、第t-1幀圖像中包含的對象C在第t幀圖像中的預(yù)測中心點(diǎn)位置、第t+1幀圖像中包含的對象D在第t幀圖像中的預(yù)測中心點(diǎn)位置以及第t+2幀圖像中包含的對象E在第t幀圖像中的預(yù)測中心點(diǎn)位置都比較相近,這些中心點(diǎn)都落入一個(gè)比較小的圖像區(qū)域內(nèi),則可以認(rèn)為對象A、B、C、D和E是相同對象,并且可以將它們關(guān)聯(lián)在一起。
當(dāng)然,以上根據(jù)中心點(diǎn)之間的距離判斷對象是否是相同對象的方式僅是示例而非限制,還可以采用其他方式基于對象的位置信息判斷對象是否是相同對象。例如,可以測定一些特征函數(shù),將對象的檢測中心點(diǎn)位置和預(yù)測中心點(diǎn)位置代入特征函數(shù)來確定對象是否是相同對象。此外,在獲知對象在連續(xù)多幀圖像中的位置的情況下,可以計(jì)算對象的運(yùn)動(dòng)速度,并且在判斷中心點(diǎn)位置之間的距離是否滿足預(yù)設(shè)條件時(shí)考慮對象的運(yùn)動(dòng)速度。
根據(jù)本發(fā)明實(shí)施例,上述步驟S230可以包括:如果視頻中的一個(gè)或多個(gè)參照圖像中包含的一個(gè)或多個(gè)參照對象在視頻中的特定圖像中的像素級預(yù)測位置信息滿足第二預(yù)設(shè)條件,并且在特定圖像中,在根據(jù)一個(gè)或多個(gè)參照對象在特定圖像中的像素級預(yù)測位置信息所確定的預(yù)測位置處未檢測到與一個(gè)或多個(gè)參照對象相對應(yīng)的期望對象,則基于一個(gè)或多個(gè)參照對象在特定圖像中的像素級預(yù)測位置信息確定與特定圖像相關(guān)的預(yù)測對象,并且將一個(gè)或多個(gè)參照對象與預(yù)測對象關(guān)聯(lián)在一起,其中,參照圖像與特定圖像相對應(yīng)。
第二預(yù)設(shè)條件可以根據(jù)需要而設(shè)定,本發(fā)明不對此進(jìn)行限制。
在某些圖像中,對象可能會被其他對象或某些不屬于追蹤對象的物體遮擋,導(dǎo)致從這些圖像中無法檢測到該對象。在這種情況下,可以利用在被遮擋的圖像之前或之后的圖像的信息來預(yù)測對象原本應(yīng)當(dāng)在被遮擋的圖像中出現(xiàn)的位置。例如,假設(shè)行人甲在第t幀圖像中被建筑物遮擋,但是在第t-1幀、第t+1幀和第t+2幀圖像中出現(xiàn),行人甲在這三幀圖像中分別被識別為對象O、對象P、對象Q。通過計(jì)算,發(fā)現(xiàn)對象O在第t幀圖像中的預(yù)測中心點(diǎn)位置、對象P在第t幀圖像中的預(yù)測中心點(diǎn)位置和對象Q在第t幀圖像中的預(yù)測中心點(diǎn)位置都比較相近,這些坐標(biāo)都落入一個(gè)比較小的圖像區(qū)域內(nèi),因此可以假定對象O、P和Q是相同對象。通過對象O、P和Q在第t幀圖像中的預(yù)測中心點(diǎn)位置可以確定一個(gè)大致的范圍,即本文所述的預(yù)測位置,視為行人甲原本應(yīng)當(dāng)出現(xiàn)的位置。然而,由于行人甲在第t幀圖像中被建筑物遮擋,導(dǎo)致預(yù)測位置處未檢測到任何對象。在這種情況下,可以假設(shè)在預(yù)測位置處存在一個(gè)預(yù)測對象,例如對象M。然后,可以將對象O、P、Q和M關(guān)聯(lián)在一起。這樣,可以根據(jù)第t-1幀、第t+1幀和第t+2幀圖像的信息推測出行人甲在第t幀圖像中的位置。
上面描述的示例中行人甲是被建筑物遮擋,因此在第t幀圖像的預(yù)測位置處未檢測到任何對象。在另外的示例中,行人甲可能被其他對象(例如行人乙)遮擋。這樣,在預(yù)測位置處可以檢測到對象,然而檢測到的對象并非與對象O、P和Q相對應(yīng)的期望對象行人甲。在這種情況下,仍然可以利用對象O、P和Q在第t幀圖像中的預(yù)測位置信息來預(yù)測行人甲在第t幀圖像中的位置。當(dāng)然,確定第t幀圖像的預(yù)測位置處的對象是否為期望對象的方式可以根據(jù)需要設(shè)定,例如可以基于對象的輪廓等來判斷。
對于對象被漏檢的情況,同樣可以采用本實(shí)施例的方式處理。也就是說,基于在當(dāng)前圖像之前和/或之后的圖像的信息可以預(yù)測被漏檢的對象在當(dāng)前圖像中的位置。因此,通過以上方式可以有效處理對象被遮擋或被漏檢的問題,從而可以提高對象追蹤精度。
根據(jù)本發(fā)明實(shí)施例,上述步驟S230可以包括:如果視頻中的特定圖像中包含的特定對象的像素級檢測位置信息與視頻中的所有參照圖像中包含的所有參照對象在特定圖像中的像素級預(yù)測位置信息之間的關(guān)系滿足第三預(yù)設(shè)條件,則確定特定對象是不可信對象,其中,參照圖像與特定圖像相對應(yīng)。
第三預(yù)設(shè)條件可以根據(jù)需要而設(shè)定,本發(fā)明不對此進(jìn)行限制。
例如,如果從第t幀圖像中檢測出對象K,然而根據(jù)在第t幀圖像之前和/或之后的若干幀參照圖像的信息,發(fā)現(xiàn)這些參照圖像中包含的參照對象在第t幀圖像中的預(yù)測中心點(diǎn)位置均與對象K的坐標(biāo)不相符,相距較遠(yuǎn),也就是說,對象K所在的位置處原本不應(yīng)當(dāng)出現(xiàn)對象。在這種情況下,可以認(rèn)為對象K是不可信對象。通過這種方式,可以減少由于誤檢而導(dǎo)致的對象追蹤誤差。
根據(jù)本發(fā)明一實(shí)施例,在步驟S210獲取視頻后,對象追蹤方法進(jìn)一步還可以包括從視頻中確定對象,例如,從視頻的每一幀圖像中包括的所有對象中確定目標(biāo)對象(感興趣的對象)。示例性地,可以基于在步驟S320中獲得的至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象中的目標(biāo)對象(感興趣的對象)。
在一些示例中,對于所述至少部分幀的圖像中的任一圖像,將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致,以獲得該圖像的新特征圖,其中,所述新特征圖的特征值是第三特征,并且所述第三特征包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量,將該圖像的第三特征中的、與每個(gè)由該圖像的第三特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn)相對應(yīng)的元素輸入分類器,以確定該圖像中的每個(gè)圖像點(diǎn)屬于目標(biāo)對象的可能性,例如,分類器輸出任一個(gè)圖像點(diǎn)屬于某個(gè)目標(biāo)對象(例如,車)的概率值大于概率閾值,則可以確定該圖像點(diǎn)屬于該目標(biāo)對象。
在另一些示例中,也可以不對第二特征所對應(yīng)的初始特征圖進(jìn)行調(diào)整,而直接將第二特征中的坐標(biāo)代表的圖像點(diǎn)輸入分類器,以確定該圖像中的每個(gè)圖像點(diǎn)屬于目標(biāo)對象的可能性,例如,分類器輸出任一圖像點(diǎn)屬于某個(gè)目標(biāo)對象(例如,車)的概率值大于概率閾值,則可以確定該圖像點(diǎn)屬于該目標(biāo)對象。需要說明的是,直接使用第二特征所對應(yīng)的初始特征圖的實(shí)施例較使用調(diào)整第二特征所對應(yīng)的初始特征圖后得到的新特征圖對應(yīng)的第三特征的實(shí)施例,運(yùn)算量相對較大,運(yùn)算速度較慢,因此,可以將使用調(diào)整第二特征所對應(yīng)的初始特征圖后得到的新特征圖對應(yīng)的第三特征的實(shí)施例作為優(yōu)先實(shí)施例。
進(jìn)一步地,在步驟S330中,僅確定所述目標(biāo)對象(感興趣的對象)在該圖像中的像素級檢測位置信息,以及僅預(yù)測所述目標(biāo)對象(感興趣的對象)在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。進(jìn)而根據(jù)該目標(biāo)對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤該目標(biāo)對象。其中,對目標(biāo)對象的追蹤的實(shí)施例可以參考前述實(shí)施例中的步驟S230。
總的來說,在本發(fā)明實(shí)施例中,使用基于反饋式神經(jīng)網(wǎng)絡(luò)的對象追蹤方法,結(jié)合多幀圖像的信息,可以在檢測對象的同時(shí)給出追蹤信息,從而能夠同時(shí)減少檢測和追蹤所帶來的誤差。
根據(jù)本發(fā)明另一方面,提供一種對象追蹤裝置。圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的對象追蹤裝置600的示意性框圖。
如圖6所示,根據(jù)本發(fā)明實(shí)施例的對象追蹤裝置600包括視頻獲取模塊610、檢測預(yù)測模塊620和追蹤模塊630。
視頻獲取模塊610用于獲取視頻。視頻獲取模塊610可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲裝置104中存儲的程序指令來實(shí)現(xiàn)。
檢測預(yù)測模塊620用于針對視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測該圖像中包含的對象在該圖像中的像素級檢測位置信息、并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。檢測預(yù)測模塊620可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲裝置104中存儲的程序指令來實(shí)現(xiàn)。
追蹤模塊630用于根據(jù)視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象。追蹤模塊630可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲裝置104中存儲的程序指令來實(shí)現(xiàn)。
根據(jù)本發(fā)明實(shí)施例,檢測預(yù)測模塊620可以包括第一特征獲得子模塊、第二特征獲得子模塊和檢測預(yù)測子模塊。
第一特征獲得子模塊用于將所述至少部分幀的圖像中的每幀圖像輸入卷積神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第一特征。第二特征獲得子模塊用于將所述至少部分幀的圖像中的每幀圖像的第一特征輸入所述反饋式神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第二特征,其中,當(dāng)前圖像的第二特征與在所述當(dāng)前圖像之前的先前圖像和在所述當(dāng)前圖像之后的隨后圖像相關(guān)。檢測預(yù)測子模塊用于基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。
根據(jù)本發(fā)明一實(shí)施例,所述對象追蹤裝置進(jìn)一步包括感興趣對象確定模塊,用于基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象中的感興趣的對象;并且,所述檢測預(yù)測子模塊還用于在所述基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息的過程中,僅確定所述感興趣的對象在該圖像中的像素級檢測位置信息,以及僅預(yù)測所述感興趣的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。
根據(jù)本發(fā)明實(shí)施例,檢測預(yù)測子模塊可以包括實(shí)際調(diào)整單元、位移信息獲得單元、中心點(diǎn)估計(jì)單元和聚類單元。實(shí)際調(diào)整單元用于對于所述至少部分幀的圖像中的任一圖像,將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致,以獲得該圖像的新特征圖,其中,所述新特征圖的特征值是第三特征,并且所述第三特征包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量。位移信息獲得單元用于對于所述至少部分幀的圖像中的任一圖像,將該圖像的第三特征中的、與每個(gè)由該圖像的第三特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn)相對應(yīng)的元素輸入回歸器,以獲得該圖像中的至少部分圖像點(diǎn)中的每個(gè)圖像點(diǎn)在該圖像中相對于該圖像點(diǎn)所屬對象的位移信息、在該圖像之前的特定數(shù)目的先前圖像中相對于該圖像點(diǎn)所屬對象的位移信息、以及在該圖像之后的特定數(shù)目的隨后圖像中相對于該圖像點(diǎn)所屬對象的位移信息。中心點(diǎn)估計(jì)單元用于對于所述至少部分幀的圖像中的任一圖像,對于所述至少部分圖像點(diǎn)中的每個(gè)圖像點(diǎn),根據(jù)該圖像點(diǎn)在該圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置,根據(jù)該圖像點(diǎn)在該圖像之前的特定數(shù)目的先前圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像之前的特定數(shù)目的先前圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置,根據(jù)該圖像點(diǎn)在該圖像之后的特定數(shù)目的隨后圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像之后的特定數(shù)目的隨后圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置。聚類單元用于對于所述至少部分幀的圖像中的任一圖像,對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像中的檢測中心點(diǎn)位置作為該圖像中包含的對象在該圖像中的像素級檢測位置信息,對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像之前的特定數(shù)目的先前圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像之前的特定數(shù)目的先前圖像中的預(yù)測中心點(diǎn)位置作為該圖像中包含的對象在該圖像之前的特定數(shù)目的先前圖像中的像素級預(yù)測位置信息,對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像之后的特定數(shù)目的隨后圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像之后的特定數(shù)目的隨后圖像中的預(yù)測中心點(diǎn)位置作為該圖像中包含的對象在該圖像之后的特定數(shù)目的隨后圖像中的像素級預(yù)測位置信息。
根據(jù)本發(fā)明實(shí)施例,所述實(shí)際調(diào)整單元包括:實(shí)際調(diào)整子單元,用于對于所述至少部分幀的圖像中的任一圖像,對該圖像的第二特征所對應(yīng)的初始特征圖進(jìn)行插值和/或剪切以將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致。
根據(jù)本發(fā)明實(shí)施例,所述對象追蹤裝置600進(jìn)一步包括:可能性確定模塊,用于對于所述至少部分幀的圖像中的任一圖像,將該圖像的第三特征中的、與每個(gè)由該圖像的第三特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn)相對應(yīng)的元素輸入分類器,以確定該圖像中的每個(gè)圖像點(diǎn)屬于目標(biāo)對象的可能性。
根據(jù)本發(fā)明實(shí)施例,所述追蹤模塊630包括:圖像點(diǎn)關(guān)聯(lián)子模塊,用于對于所述至少部分幀的圖像中的任一圖像,將該圖像中的、每個(gè)屬于目標(biāo)對象的可能性超過可能性閾值的圖像點(diǎn)關(guān)聯(lián)到位于距離針對該圖像點(diǎn)所估計(jì)獲得的中心點(diǎn)位置最近的檢測中心點(diǎn)位置處的對象。
根據(jù)本發(fā)明實(shí)施例,所述反饋式神經(jīng)網(wǎng)絡(luò)可以包括正向反饋式神經(jīng)網(wǎng)絡(luò)和反向反饋式神經(jīng)網(wǎng)絡(luò),
所述正向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W1、V1和b1為所述正向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述視頻中的第t幀圖像的第一特征,Y_t為所述第t幀圖像的正向特征,Y_{t-1}為所述視頻中的第t-1幀圖像的正向特征;
所述反向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W2、V2和b2為所述反向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述第t幀圖像的第一特征,Z_t為所述第t幀圖像的反向特征,Z_{t+1}為所述視頻中的第t+1幀圖像的反向特征;
所述第t幀圖像的第二特征H_t通過以下公式計(jì)算:
其中,x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量,C為所述第t幀圖像的正向特征或反向特征的總頻道數(shù)。
根據(jù)本發(fā)明實(shí)施例,所述對象追蹤裝置600可以進(jìn)一步包括訓(xùn)練模塊(未示出),用于利用多個(gè)樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)、所述反饋式神經(jīng)網(wǎng)絡(luò)和所述回歸器進(jìn)行訓(xùn)練,其中,所述多個(gè)樣本圖像中包含的對象在每個(gè)樣本圖像中的位置信息是已標(biāo)注好的。
根據(jù)本發(fā)明實(shí)施例,所述卷積神經(jīng)網(wǎng)絡(luò)的數(shù)目是一個(gè)或多個(gè),所述訓(xùn)練模塊包括:訓(xùn)練調(diào)整子模塊,用于對于所述多個(gè)樣本圖像中的任一樣本圖像,將一個(gè)或多個(gè)所述卷積神經(jīng)網(wǎng)絡(luò)輸出的一個(gè)或多個(gè)初始輸出特征圖調(diào)整為與該樣本圖像的大小一致,以獲得一個(gè)或多個(gè)新輸出特征圖;構(gòu)建子模塊,用于對于所述多個(gè)樣本圖像中的任一樣本圖像,基于一個(gè)或多個(gè)新輸出特征圖構(gòu)建一個(gè)或多個(gè)損失函數(shù);以及訓(xùn)練子模塊,用于對于所述多個(gè)樣本圖像中的任一樣本圖像,利用所構(gòu)建的一個(gè)或多個(gè)損失函數(shù)對一個(gè)或多個(gè)所述卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
根據(jù)本發(fā)明實(shí)施例,所述訓(xùn)練調(diào)整子模塊包括:訓(xùn)練調(diào)整單元,用于對于所述多個(gè)樣本圖像中的任一樣本圖像,對所述一個(gè)或多個(gè)初始輸出特征圖中的每一個(gè)進(jìn)行插值和/或剪切以將該初始輸出特征圖調(diào)整為與該樣本圖像的大小一致。
根據(jù)本發(fā)明實(shí)施例,所述追蹤模塊630可以包括第一關(guān)聯(lián)子模塊,用于如果所述視頻中的特定圖像中包含的特定對象的像素級檢測位置信息與所述視頻中的一個(gè)或多個(gè)參照圖像中包含的一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息之間的關(guān)系滿足第一預(yù)設(shè)條件,則將所述特定對象和所述一個(gè)或多個(gè)參照對象關(guān)聯(lián)在一起,其中,所述參照圖像與所述特定圖像相對應(yīng)。
根據(jù)本發(fā)明實(shí)施例,所述追蹤模塊630可以包括第二關(guān)聯(lián)子模塊,用于如果所述視頻中的一個(gè)或多個(gè)參照圖像中包含的一個(gè)或多個(gè)參照對象在所述視頻中的特定圖像中的像素級預(yù)測位置信息滿足第二預(yù)設(shè)條件,并且在所述特定圖像中,在根據(jù)所述一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息所確定的預(yù)測位置處未檢測到與所述一個(gè)或多個(gè)參照對象相對應(yīng)的期望對象,則基于所述一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息確定與所述特定圖像相關(guān)的預(yù)測對象,并且將所述一個(gè)或多個(gè)參照對象與所述預(yù)測對象關(guān)聯(lián)在一起,其中,所述參照圖像與所述特定圖像相對應(yīng)。
根據(jù)本發(fā)明實(shí)施例,所述追蹤模塊630可以包括不可信確定子模塊,用于如果所述視頻中的特定圖像中包含的特定對象的像素級檢測位置信息與所述視頻中的所有參照圖像中包含的所有參照對象在所述特定圖像中的像素級預(yù)測位置信息之間的關(guān)系滿足第三預(yù)設(shè)條件,則確定所述特定對象是不可信對象,其中,所述參照圖像與所述特定圖像相對應(yīng)。本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的對象追蹤系統(tǒng)700的示意性框圖。對象追蹤系統(tǒng)700包括視頻采集裝置710、存儲裝置720、以及處理器730。
視頻采集裝置710用于采集包含對象的視頻。視頻采集裝置710是可選的,對象追蹤系統(tǒng)700可以不包括視頻采集裝置710。
所述存儲裝置720存儲用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對象追蹤方法中的相應(yīng)步驟的程序代碼。
所述處理器730用于運(yùn)行所述存儲裝置720中存儲的程序代碼,以執(zhí)行根據(jù)本發(fā)明實(shí)施例的對象追蹤方法的相應(yīng)步驟,并且用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對象追蹤裝置中的視頻獲取模塊610、檢測預(yù)測模塊620和追蹤模塊630。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700執(zhí)行以下步驟:獲取視頻;針對所述視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測該圖像中包含的對象在該圖像中的像素級檢測位置信息、并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息;以及根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700所執(zhí)行的針對所述視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測該圖像中包含的對象在該圖像中的像素級檢測位置信息、并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息的步驟包括:將所述至少部分幀的圖像中的每幀圖像輸入卷積神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第一特征;將所述至少部分幀的圖像中的每幀圖像的第一特征輸入所述反饋式神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第二特征,其中,當(dāng)前圖像的第二特征與在所述當(dāng)前圖像之前的先前圖像和在所述當(dāng)前圖像之后的隨后圖像相關(guān);以及基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700進(jìn)一步執(zhí)行:基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象中的感興趣的對象;并且,在所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700所執(zhí)行的基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息的步驟中,僅確定所述感興趣的對象在該圖像中的像素級檢測位置信息,以及僅預(yù)測所述感興趣的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700所執(zhí)行的基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息的步驟包括:對于所述至少部分幀的圖像中的任一圖像,將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致,以獲得該圖像的新特征圖,其中,所述新特征圖的特征值是第三特征,并且所述第三特征包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量;將該圖像的第三特征中的、與每個(gè)由該圖像的第三特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn)相對應(yīng)的元素輸入回歸器,以獲得該圖像中的至少部分圖像點(diǎn)中的每個(gè)圖像點(diǎn)在該圖像中相對于該圖像點(diǎn)所屬對象的位移信息、在該圖像之前的特定數(shù)目的先前圖像中相對于該圖像點(diǎn)所屬對象的位移信息、以及在該圖像之后的特定數(shù)目的隨后圖像中相對于該圖像點(diǎn)所屬對象的位移信息;對于所述至少部分圖像點(diǎn)中的每個(gè)圖像點(diǎn),根據(jù)該圖像點(diǎn)在該圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置,根據(jù)該圖像點(diǎn)在該圖像之前的特定數(shù)目的先前圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像之前的特定數(shù)目的先前圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置,根據(jù)該圖像點(diǎn)在該圖像之后的特定數(shù)目的隨后圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像之后的特定數(shù)目的隨后圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置;以及對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像中的檢測中心點(diǎn)位置作為該圖像中包含的對象在該圖像中的像素級檢測位置信息,對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像之前的特定數(shù)目的先前圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像之前的特定數(shù)目的先前圖像中的預(yù)測中心點(diǎn)位置作為該圖像中包含的對象在該圖像之前的特定數(shù)目的先前圖像中的像素級預(yù)測位置信息,對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像之后的特定數(shù)目的隨后圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像之后的特定數(shù)目的隨后圖像中的預(yù)測中心點(diǎn)位置作為該圖像中包含的對象在該圖像之后的特定數(shù)目的隨后圖像中的像素級預(yù)測位置信息。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700所執(zhí)行的對于所述至少部分幀的圖像中的任一圖像,將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致的步驟包括:對于所述至少部分幀的圖像中的任一圖像,對該圖像的第二特征所對應(yīng)的初始特征圖進(jìn)行插值和/或剪切以將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致。
在一個(gè)實(shí)施例中,在所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700所執(zhí)行的對于所述至少部分幀的圖像中的任一圖像,將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致的步驟之后,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700進(jìn)一步執(zhí)行:對于所述至少部分幀的圖像中的任一圖像,將該圖像的第三特征中的、與每個(gè)由該圖像的第三特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn)相對應(yīng)的元素輸入分類器,以確定該圖像中的每個(gè)圖像點(diǎn)屬于目標(biāo)對象的可能性。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700所執(zhí)行的根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象的步驟包括:對于所述至少部分幀的圖像中的任一圖像,將該圖像中的、每個(gè)屬于目標(biāo)對象的可能性超過可能性閾值的圖像點(diǎn)關(guān)聯(lián)到位于距離針對該圖像點(diǎn)所估計(jì)獲得的中心點(diǎn)位置最近的檢測中心點(diǎn)位置處的對象。
在一個(gè)實(shí)施例中,所述反饋式神經(jīng)網(wǎng)絡(luò)包括正向反饋式神經(jīng)網(wǎng)絡(luò)和反向反饋式神經(jīng)網(wǎng)絡(luò),
所述正向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W1、V1和b1為所述正向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述視頻中的第t幀圖像的第一特征,Y_t為所述第t幀圖像的正向特征,Y_{t-1}為所述視頻中的第t-1幀圖像的正向特征;
所述反向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W2、V2和b2為所述反向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述第t幀圖像的第一特征,Z_t為所述第t幀圖像的反向特征,Z_{t+1}為所述視頻中的第t+1幀圖像的反向特征;
所述第t幀圖像的第二特征H_t通過以下公式計(jì)算:
其中,x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量,C為所述第t幀圖像的正向特征或反向特征的總頻道數(shù)。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700進(jìn)一步執(zhí)行:利用多個(gè)樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)、所述反饋式神經(jīng)網(wǎng)絡(luò)和所述回歸器進(jìn)行訓(xùn)練,其中,所述多個(gè)樣本圖像中包含的對象在每個(gè)樣本圖像中的位置信息是已標(biāo)注好的。
在一個(gè)實(shí)施例中,所述卷積神經(jīng)網(wǎng)絡(luò)的數(shù)目是一個(gè)或多個(gè),所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700所執(zhí)行的利用多個(gè)樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)、所述反饋式神經(jīng)網(wǎng)絡(luò)和所述回歸器進(jìn)行訓(xùn)練的步驟包括:對于所述多個(gè)樣本圖像中的任一樣本圖像,將一個(gè)或多個(gè)所述卷積神經(jīng)網(wǎng)絡(luò)輸出的一個(gè)或多個(gè)初始輸出特征圖調(diào)整為與該樣本圖像的大小一致,以獲得一個(gè)或多個(gè)新輸出特征圖;對于所述多個(gè)樣本圖像中的任一樣本圖像,基于一個(gè)或多個(gè)新輸出特征圖構(gòu)建一個(gè)或多個(gè)損失函數(shù);以及對于所述多個(gè)樣本圖像中的任一樣本圖像,利用所構(gòu)建的一個(gè)或多個(gè)損失函數(shù)對一個(gè)或多個(gè)所述卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700所執(zhí)行的對于所述多個(gè)樣本圖像中的任一樣本圖像,將一個(gè)或多個(gè)所述卷積神經(jīng)網(wǎng)絡(luò)輸出的一個(gè)或多個(gè)初始輸出特征圖調(diào)整為與該樣本圖像的大小一致的步驟包括:對于所述多個(gè)樣本圖像中的任一樣本圖像,對所述一個(gè)或多個(gè)初始輸出特征圖中的每一個(gè)進(jìn)行插值和/或剪切以將該初始輸出特征圖調(diào)整為與該樣本圖像的大小一致。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700所執(zhí)行的根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象的步驟包括:如果所述視頻中的特定圖像中包含的特定對象的像素級檢測位置信息與所述視頻中的一個(gè)或多個(gè)參照圖像中包含的一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息之間的關(guān)系滿足第一預(yù)設(shè)條件,則將所述特定對象和所述一個(gè)或多個(gè)參照對象關(guān)聯(lián)在一起,其中,所述參照圖像與所述特定圖像相對應(yīng)。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700所執(zhí)行的根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象的步驟包括:如果所述視頻中的一個(gè)或多個(gè)參照圖像中包含的一個(gè)或多個(gè)參照對象在所述視頻中的特定圖像中的像素級預(yù)測位置信息滿足第二預(yù)設(shè)條件,并且在所述特定圖像中,在根據(jù)所述一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息所確定的預(yù)測位置處未檢測到與所述一個(gè)或多個(gè)參照對象相對應(yīng)的期望對象,則基于所述一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息確定與所述特定圖像相關(guān)的預(yù)測對象,并且將所述一個(gè)或多個(gè)參照對象與所述預(yù)測對象關(guān)聯(lián)在一起,其中,所述參照圖像與所述特定圖像相對應(yīng)。
在一個(gè)實(shí)施例中,所述程序代碼被所述處理器730運(yùn)行時(shí)使所述對象追蹤系統(tǒng)700所執(zhí)行的根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象的步驟包括:如果所述視頻中的特定圖像中包含的特定對象的像素級檢測位置信息與所述視頻中的所有參照圖像中包含的所有參照對象在所述特定圖像中的像素級預(yù)測位置信息之間的關(guān)系滿足第三預(yù)設(shè)條件,則確定所述特定對象是不可信對象,其中,所述參照圖像與所述特定圖像相對應(yīng)。
此外,根據(jù)本發(fā)明實(shí)施例,還提供了一種存儲介質(zhì),在所述存儲介質(zhì)上存儲了程序指令,在所述程序指令被計(jì)算機(jī)或處理器運(yùn)行時(shí)用于執(zhí)行本發(fā)明實(shí)施例的對象追蹤方法的相應(yīng)步驟,并且用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對象追蹤裝置中的相應(yīng)模塊。所述存儲介質(zhì)例如可以包括智能電話的存儲卡、平板電腦的存儲部件、個(gè)人計(jì)算機(jī)的硬盤、只讀存儲器(ROM)、可擦除可編程只讀存儲器(EPROM)、便攜式緊致盤只讀存儲器(CD-ROM)、USB存儲器、或者上述存儲介質(zhì)的任意組合。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)或處理器運(yùn)行時(shí)可以使得計(jì)算機(jī)或處理器實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對象追蹤裝置的各個(gè)功能模塊,并且/或者可以執(zhí)行根據(jù)本發(fā)明實(shí)施例的對象追蹤方法。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)執(zhí)行以下步驟:獲取視頻;針對所述視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測該圖像中包含的對象在該圖像中的像素級檢測位置信息、并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息;以及根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的針對所述視頻的至少部分幀的圖像中的每幀圖像,利用反饋式神經(jīng)網(wǎng)絡(luò)檢測該圖像中包含的對象在該圖像中的像素級檢測位置信息、并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息的步驟包括:將所述至少部分幀的圖像中的每幀圖像輸入卷積神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第一特征;將所述至少部分幀的圖像中的每幀圖像的第一特征輸入所述反饋式神經(jīng)網(wǎng)絡(luò),以獲得所述至少部分幀的圖像中的每幀圖像的第二特征,其中,當(dāng)前圖像的第二特征與在所述當(dāng)前圖像之前的先前圖像和在所述當(dāng)前圖像之后的隨后圖像相關(guān);以及基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)進(jìn)一步執(zhí)行:基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象中的感興趣的對象;并且,在所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息的步驟中,僅確定所述感興趣的對象在該圖像中的像素級檢測位置信息,以及僅預(yù)測所述感興趣的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的基于所述至少部分幀的圖像中的、任一圖像的第二特征確定在該圖像中包含的對象在該圖像中的像素級檢測位置信息,并預(yù)測該圖像中包含的對象在所述至少部分幀的圖像中的其他圖像中的像素級預(yù)測位置信息的步驟包括:對于所述至少部分幀的圖像中的任一圖像,將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致,以獲得該圖像的新特征圖,其中,所述新特征圖的特征值是第三特征,并且所述第三特征包括橫向坐標(biāo)向量、縱向坐標(biāo)向量和頻道向量;將該圖像的第三特征中的、與每個(gè)由該圖像的第三特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn)相對應(yīng)的元素輸入回歸器,以獲得該圖像中的至少部分圖像點(diǎn)中的每個(gè)圖像點(diǎn)在該圖像中相對于該圖像點(diǎn)所屬對象的位移信息、在該圖像之前的特定數(shù)目的先前圖像中相對于該圖像點(diǎn)所屬對象的位移信息、以及在該圖像之后的特定數(shù)目的隨后圖像中相對于該圖像點(diǎn)所屬對象的位移信息;對于所述至少部分圖像點(diǎn)中的每個(gè)圖像點(diǎn),根據(jù)該圖像點(diǎn)在該圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置,根據(jù)該圖像點(diǎn)在該圖像之前的特定數(shù)目的先前圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像之前的特定數(shù)目的先前圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置,根據(jù)該圖像點(diǎn)在該圖像之后的特定數(shù)目的隨后圖像中相對于該圖像點(diǎn)所屬對象的位移信息估計(jì)在該圖像之后的特定數(shù)目的隨后圖像中該圖像點(diǎn)所屬對象的中心點(diǎn)位置;以及對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像中的檢測中心點(diǎn)位置作為該圖像中包含的對象在該圖像中的像素級檢測位置信息,對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像之前的特定數(shù)目的先前圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像之前的特定數(shù)目的先前圖像中的預(yù)測中心點(diǎn)位置作為該圖像中包含的對象在該圖像之前的特定數(shù)目的先前圖像中的像素級預(yù)測位置信息,對針對所述至少部分圖像點(diǎn)所估計(jì)獲得的、在該圖像之后的特定數(shù)目的隨后圖像中所述至少部分圖像點(diǎn)所屬對象的中心點(diǎn)位置進(jìn)行聚類,以獲得該圖像中包含的對象在該圖像之后的特定數(shù)目的隨后圖像中的預(yù)測中心點(diǎn)位置作為該圖像中包含的對象在該圖像之后的特定數(shù)目的隨后圖像中的像素級預(yù)測位置信息。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的對于所述至少部分幀的圖像中的任一圖像,將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致的步驟包括:對于所述至少部分幀的圖像中的任一圖像,對該圖像的第二特征所對應(yīng)的初始特征圖進(jìn)行插值和/或剪切以將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致。
在一個(gè)實(shí)施例中,在所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的對于所述至少部分幀的圖像中的任一圖像,將該圖像的第二特征所對應(yīng)的初始特征圖調(diào)整為與該圖像的大小一致的步驟之后,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)進(jìn)一步執(zhí)行:對于所述至少部分幀的圖像中的任一圖像,將該圖像的第三特征中的、與每個(gè)由該圖像的第三特征中的橫向坐標(biāo)和縱向坐標(biāo)所代表的圖像點(diǎn)相對應(yīng)的元素輸入分類器,以確定該圖像中的每個(gè)圖像點(diǎn)屬于目標(biāo)對象的可能性。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象的步驟包括:對于所述至少部分幀的圖像中的任一圖像,將該圖像中的、每個(gè)屬于目標(biāo)對象的可能性超過可能性閾值的圖像點(diǎn)關(guān)聯(lián)到位于距離針對該圖像點(diǎn)所估計(jì)獲得的中心點(diǎn)位置最近的檢測中心點(diǎn)位置處的對象。
在一個(gè)實(shí)施例中,所述反饋式神經(jīng)網(wǎng)絡(luò)包括正向反饋式神經(jīng)網(wǎng)絡(luò)和反向反饋式神經(jīng)網(wǎng)絡(luò),
所述正向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W1、V1和b1為所述正向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述視頻中的第t幀圖像的第一特征,Y_t為所述第t幀圖像的正向特征,Y_{t-1}為所述視頻中的第t-1幀圖像的正向特征;
所述反向反饋式神經(jīng)網(wǎng)絡(luò)用以下公式表示:
其中,W2、V2和b2為所述反向反饋式神經(jīng)網(wǎng)絡(luò)的參數(shù),X_t為所述第t幀圖像的第一特征,Z_t為所述第t幀圖像的反向特征,Z_{t+1}為所述視頻中的第t+1幀圖像的反向特征;
所述第t幀圖像的第二特征H_t通過以下公式計(jì)算:
其中,x表示橫向坐標(biāo)向量,y表示縱向坐標(biāo)向量,c表示頻道向量,C為所述第t幀圖像的正向特征或反向特征的總頻道數(shù)。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)進(jìn)一步執(zhí)行:利用多個(gè)樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)、所述反饋式神經(jīng)網(wǎng)絡(luò)和所述回歸器進(jìn)行訓(xùn)練,其中,所述多個(gè)樣本圖像中包含的對象在每個(gè)樣本圖像中的位置信息是已標(biāo)注好的。
在一個(gè)實(shí)施例中,所述卷積神經(jīng)網(wǎng)絡(luò)的數(shù)目是一個(gè)或多個(gè),所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的利用多個(gè)樣本圖像對所述卷積神經(jīng)網(wǎng)絡(luò)、所述反饋式神經(jīng)網(wǎng)絡(luò)和所述回歸器進(jìn)行訓(xùn)練的步驟包括:對于所述多個(gè)樣本圖像中的任一樣本圖像,將一個(gè)或多個(gè)所述卷積神經(jīng)網(wǎng)絡(luò)輸出的一個(gè)或多個(gè)初始輸出特征圖調(diào)整為與該樣本圖像的大小一致,以獲得一個(gè)或多個(gè)新輸出特征圖;對于所述多個(gè)樣本圖像中的任一樣本圖像,基于一個(gè)或多個(gè)新輸出特征圖構(gòu)建一個(gè)或多個(gè)損失函數(shù);以及對于所述多個(gè)樣本圖像中的任一樣本圖像,利用所構(gòu)建的一個(gè)或多個(gè)損失函數(shù)對一個(gè)或多個(gè)所述卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的對于所述多個(gè)樣本圖像中的任一樣本圖像,將一個(gè)或多個(gè)所述卷積神經(jīng)網(wǎng)絡(luò)輸出的一個(gè)或多個(gè)初始輸出特征圖調(diào)整為與該樣本圖像的大小一致的步驟包括:對于所述多個(gè)樣本圖像中的任一樣本圖像,對所述一個(gè)或多個(gè)初始輸出特征圖中的每一個(gè)進(jìn)行插值和/或剪切以將該初始輸出特征圖調(diào)整為與該樣本圖像的大小一致。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象的步驟包括:如果所述視頻中的特定圖像中包含的特定對象的像素級檢測位置信息與所述視頻中的一個(gè)或多個(gè)參照圖像中包含的一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息之間的關(guān)系滿足第一預(yù)設(shè)條件,則將所述特定對象和所述一個(gè)或多個(gè)參照對象關(guān)聯(lián)在一起,其中,所述參照圖像與所述特定圖像相對應(yīng)。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象的步驟包括:如果所述視頻中的一個(gè)或多個(gè)參照圖像中包含的一個(gè)或多個(gè)參照對象在所述視頻中的特定圖像中的像素級預(yù)測位置信息滿足第二預(yù)設(shè)條件,并且在所述特定圖像中,在根據(jù)所述一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息所確定的預(yù)測位置處未檢測到與所述一個(gè)或多個(gè)參照對象相對應(yīng)的期望對象,則基于所述一個(gè)或多個(gè)參照對象在所述特定圖像中的像素級預(yù)測位置信息確定與所述特定圖像相關(guān)的預(yù)測對象,并且將所述一個(gè)或多個(gè)參照對象與所述預(yù)測對象關(guān)聯(lián)在一起,其中,所述參照圖像與所述特定圖像相對應(yīng)。
在一個(gè)實(shí)施例中,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)運(yùn)行時(shí)使所述計(jì)算機(jī)所執(zhí)行的根據(jù)所述視頻中包含的對象的像素級檢測位置信息和像素級預(yù)測位置信息追蹤對象的步驟包括:如果所述視頻中的特定圖像中包含的特定對象的像素級檢測位置信息與所述視頻中的所有參照圖像中包含的所有參照對象在所述特定圖像中的像素級預(yù)測位置信息之間的關(guān)系滿足第三預(yù)設(shè)條件,則確定所述特定對象是不可信對象,其中,所述參照圖像與所述特定圖像相對應(yīng)。
根據(jù)本發(fā)明實(shí)施例的對象追蹤方法及裝置,通過基于當(dāng)前圖像預(yù)測對象在其他圖像中的位置信息及位置信息的比較來實(shí)現(xiàn)對象追蹤,這種對象追蹤方式非常簡單,計(jì)算量小,并且可以降低對象追蹤誤差。
盡管這里已經(jīng)參考附圖描述了示例實(shí)施例,應(yīng)理解上述示例實(shí)施例僅僅是示例性的,并且不意圖將本發(fā)明的范圍限制于此。本領(lǐng)域普通技術(shù)人員可以在其中進(jìn)行各種改變和修改,而不偏離本發(fā)明的范圍和精神。所有這些改變和修改意在被包括在所附權(quán)利要求所要求的本發(fā)明的范圍之內(nèi)。
本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
在本申請所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的設(shè)備和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的設(shè)備實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)設(shè)備,或一些特征可以忽略,或不執(zhí)行。
在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
類似地,應(yīng)當(dāng)理解,為了精簡本發(fā)明并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對其的描述中。然而,并不應(yīng)將該本發(fā)明的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如相應(yīng)的權(quán)利要求書所反映的那樣,其發(fā)明點(diǎn)在于可以用少于某個(gè)公開的單個(gè)實(shí)施例的所有特征的特征來解決相應(yīng)的技術(shù)問題。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域的技術(shù)人員可以理解,除了特征之間相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的對象追蹤裝置中的一些模塊的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
以上所述,僅為本發(fā)明的具體實(shí)施方式或?qū)唧w實(shí)施方式的說明,本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。