亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于檢測視頻中物體的方法、裝置和電子設(shè)備與流程

文檔序號:12734923閱讀:200來源:國知局
用于檢測視頻中物體的方法、裝置和電子設(shè)備與流程

本申請涉及物體檢測領(lǐng)域,具體涉及視頻中物體檢測領(lǐng)域,尤其涉及一種用于檢測視頻中物體的方法、裝置和電子設(shè)備。



背景技術(shù):

對視頻中物體的檢測技術(shù)是對靜態(tài)圖像中物體檢測技術(shù)在視頻領(lǐng)域的擴展,該技術(shù)需要在視頻的每一幀圖像中檢測一個或多個相同或不同的物體。

由于視頻中的目標(biāo)物體的運動狀態(tài)不確定,所以傳統(tǒng)的檢測圖像中的目標(biāo)物體的技術(shù)在視頻領(lǐng)域有所限制。



技術(shù)實現(xiàn)要素:

本申請?zhí)岢隽艘环N用于檢測視頻中物體的技術(shù)方案。

第一方面,本申請?zhí)峁┝艘环N用于檢測視頻中物體的方法,上述方法包括:確定待檢測的視頻中至少一圖像幀為檢測圖像幀;獲取上述檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域;分別提取各上述檢測圖像幀中各上述第一位置區(qū)域的第一特征和上述視頻中相對各上述檢測圖像幀時序連續(xù)的至少一在后圖像幀在各上述第一位置區(qū)域的第二特征;根據(jù)提取的各上述第一特征和各上述第二特征,預(yù)測各上述目標(biāo)物體分別在各上述至少一在后圖像幀中的運動信息;至少根據(jù)各上述目標(biāo)物體在各上述檢測圖像幀中的上述第一位置區(qū)域及各上述目標(biāo)物體在各上述至少一在后圖像幀中的運動信息的預(yù)測結(jié)果,確定各上述目標(biāo)物體在各上述至少一在后圖像幀中的位置區(qū)域。

在一些實施例中,上述確定待檢測的視頻中至少一圖像幀為檢測圖像幀,包括:將上述待檢測的視頻的第一圖像幀作為上述檢測圖像幀。

在一些實施例中,上述確定待檢測的視頻中至少一圖像幀為檢測圖像幀,包括:將上述待檢測的視頻的任一關(guān)鍵幀作為上述檢測圖像幀。

在一些實施例中,上述確定待檢測的視頻中至少一圖像幀為檢測圖像幀,包括:將上述待檢測的視頻中至少一已知各上述目標(biāo)物體的位置區(qū)域的圖像幀作為上述檢測圖像幀。

在一些實施例中,上述待檢測的視頻包括多個時序連續(xù)的視頻子段,至少兩個時序相鄰的視頻子段包括至少一共同圖像幀;以及上述確定待檢測的視頻中至少一圖像幀為檢測圖像幀,包括:將上述至少一共同圖像幀作為上述檢測圖像幀。

在一些實施例中,每一上述視頻子段中包括m個時序連續(xù)的圖像幀;以及上述確定待檢測的視頻中至少一圖像幀為檢測圖像幀,包括:將時序在前的m-1個圖像幀作為上述檢測圖像幀。

在一些實施例中,上述獲取上述檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域,包括:在上述檢測圖像幀中標(biāo)注各上述目標(biāo)物體對應(yīng)的第一位置區(qū)域。

在一些實施例中,上述獲取上述檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域,包括:根據(jù)上述檢測圖像幀中已知的各上述目標(biāo)物體的位置區(qū)域確定上述第一位置區(qū)域。

在一些實施例中,上述獲取上述檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域,包括:根據(jù)任兩個時序相鄰的視頻子段中時序在前的視頻子段中上述至少一共同圖像幀中各上述目標(biāo)物體的位置區(qū)域,確定時序在后的視頻子段中上述檢測圖像幀的第一位置區(qū)域。

在一些實施例中,上述獲取上述檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域,包括:根據(jù)各上述目標(biāo)物體在上述檢測圖像幀中的位置的外接矩形區(qū)域或外接輪廓區(qū)域,確定上述第一位置區(qū)域。

在一些實施例中,上述根據(jù)提取的各上述第一特征和各上述第二特征,預(yù)測各上述目標(biāo)物體分別在各上述至少一在后圖像幀中的運動信息,包括:根據(jù)各上述目標(biāo)物體在任一上述檢測圖像幀中的各第一特征及各上述目標(biāo)物體在任一在后圖像幀中的各第二特征,預(yù)測各上述目標(biāo)物體在上述任一在后圖像幀中的運動信息。

在一些實施例中,上述根據(jù)提取的各上述第一特征和各上述第二特征,預(yù)測各上述目標(biāo)物體分別在各上述至少一在后圖像幀中的運動信息,包括:對于每個視頻子段,根據(jù)時序在前的m-1個圖像幀的各第一特征、與上述各第一特征對應(yīng)的第一預(yù)設(shè)權(quán)重以及時序在后的第m個圖像幀的第二特征、與上述第二特征對應(yīng)的第二預(yù)設(shè)權(quán)重,預(yù)測各上述目標(biāo)物體在上述時序在后的第m個圖像幀中的運動信息,m為整數(shù),且m>1。

在一些實施例中,上述根據(jù)提取的各上述第一特征和各上述第二特征,預(yù)測各上述目標(biāo)物體分別在各上述至少一在后圖像幀中的運動信息,包括:根據(jù)提取的各上述第一特征和上述第二特征,利用預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)預(yù)測各上述目標(biāo)物體在上述時序在后的第m個圖像幀中的運動信息,其中,上述預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣包括上述第一預(yù)設(shè)權(quán)重以及上述第二預(yù)設(shè)權(quán)重。

在一些實施例中,響應(yīng)于m大于2,上述預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)通過以下訓(xùn)練步驟得到:將預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣分為第三權(quán)重和第四權(quán)重;將上述第三權(quán)重確定為上述m個圖像幀中的第1個圖像幀的特征的上述第一預(yù)設(shè)權(quán)重的初始值;將上述第四權(quán)重分別確定為第t個圖像幀的特征的上述第二預(yù)設(shè)權(quán)重的初始值,其中,2≤t≤m,且t為正整數(shù);上述預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò)通過以下訓(xùn)練步驟得到:分別提取已標(biāo)注的訓(xùn)練用視頻中時序相鄰的兩個樣本圖像幀中上述目標(biāo)物體的特征;根據(jù)提取的特征預(yù)測上述目標(biāo)物體在時序在后的樣本圖像幀中的運動信息;根據(jù)上述運動信息的預(yù)測結(jié)果和上述訓(xùn)練用視頻的標(biāo)注信息,調(diào)整第二神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣,直至滿足上述第二神經(jīng)網(wǎng)絡(luò)預(yù)定的訓(xùn)練完成條件。

在一些實施例中,上述根據(jù)各上述第一特征和各上述第二特征,預(yù)測各上述目標(biāo)物體分別在各上述至少一在后圖像幀中的運動信息,包括:根據(jù)各上述第一特征和各上述第二特征,確定各上述在后圖像幀在各上述第一位置區(qū)域中的各目標(biāo)物體相對上述檢測圖像幀在上述第一位置區(qū)域中的目標(biāo)物體的相對變化信息;至少根據(jù)各上述目標(biāo)物體的相對變化信息,預(yù)測各上述目標(biāo)物體在各上述在后圖像幀中的運動信息。

在一些實施例中,上述相對位置變化信息包括:上述在后圖像幀中的上述第一位置區(qū)域中心點在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量、上述在后圖像幀中的上述第一位置區(qū)域中心點在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量。

在一些實施例中,上述相對位置變化信息包括:上述在后圖像幀中的上述第一位置區(qū)域在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量、上述在后圖像幀中的上述第一位置區(qū)域在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量。

在一些實施例中,上述根據(jù)各上述目標(biāo)物體在各上述檢測圖像幀中的上述第一位置區(qū)域及各上述目標(biāo)物體在各上述至少一在后圖像幀中的運動信息的預(yù)測結(jié)果,確定各上述目標(biāo)物體在各上述至少一在后圖像幀中的位置區(qū)域,包括:根據(jù)上述第一位置區(qū)域、上述在后圖像幀中的上述第一位置區(qū)域中心點在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量、上述在后圖像幀中的上述第一位置區(qū)域中心點在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量、上述在后圖像幀中的上述第一位置區(qū)域在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量和上述在后圖像幀中的上述第一位置區(qū)域在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量,確定各上述目標(biāo)物體在各上述至少一在后圖像幀中的位置區(qū)域。

在一些實施例中,上述至少根據(jù)各上述目標(biāo)物體的相對變化信息,預(yù)測各上述目標(biāo)物體在各上述在后圖像幀中的運動信息,包括:根據(jù)上述在后圖像幀中的上述第一位置區(qū)域中心點在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量,和上述在后圖像幀中的上述第一位置區(qū)域中心點在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量,預(yù)測預(yù)測各上述目標(biāo)物體在各上述在后圖像幀中的運動信息;其中,各上述在后圖像幀中的上述第一位置區(qū)域中心點在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量根據(jù)各上述在后圖像幀中各上述目標(biāo)物體的第二特征較與其對應(yīng)的各上述目標(biāo)物體的第一特征在水平方向的移動量確定;上述在后圖像幀中的上述第一位置區(qū)域中心點在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量根據(jù)各上述在后圖像幀中各目標(biāo)物體的第二特征較與其對應(yīng)的各上述目標(biāo)物體的第一特征在豎直方向的移動量確定。

在一些實施例中,上述至少根據(jù)各上述目標(biāo)物體的相對變化信息,預(yù)測各上述目標(biāo)物體在各上述在后圖像幀中的運動信息,包括:根據(jù)上述在后圖像幀中的上述第一位置區(qū)域在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量和上述在后圖像幀中的上述第一位置區(qū)域在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量,預(yù)測各上述目標(biāo)物體在各上述在后圖像幀中的運動信息;其中,上述在后圖像幀中上述第一位置區(qū)域在水平方向上較上述檢測圖像幀中上述第一位置區(qū)域的變化量根據(jù)各上述在后圖像幀中各上述目標(biāo)物體的第二特征較與其對應(yīng)的各目標(biāo)物體的第一特征在水平方向的變化量確定;上述在后圖像幀中上述第一位置區(qū)域在豎直方向上較上述檢測圖像幀中上述第一位置區(qū)域的變化量根據(jù)各上述在后圖像幀中各上述目標(biāo)物體的第二特征較與其對應(yīng)的各目標(biāo)物體的第一特征在豎直方向的變化量確定。

在一些實施例中,上述至少根據(jù)各上述目標(biāo)物體在各上述檢測圖像幀中的上述第一位置區(qū)域及各上述目標(biāo)物體在各上述至少一在后圖像幀中的運動信息的預(yù)測結(jié)果,確定各上述目標(biāo)物體在各上述至少一在后圖像幀中的位置區(qū)域,包括:將上述第一位置區(qū)域作為各上述目標(biāo)物體在各上述在后圖像幀中的第二位置區(qū)域;根據(jù)上述在后圖像幀在上述第一位置區(qū)域中的各目標(biāo)物體相對上述檢測圖像幀在上述第一位置區(qū)域中的目標(biāo)物體的相對變化信息,更新上述第二位置區(qū)域,得到各上述目標(biāo)物體在各上述在后圖像幀中的位置區(qū)域。

在一些實施例中,上述方法還包括:響應(yīng)于各上述目標(biāo)物體在上述待檢測的視頻或上述視頻子段中的各圖像幀中的位置區(qū)域確定完成,提取各上述目標(biāo)物體在上述待檢測的視頻或上述視頻子段的各圖像幀中的位置區(qū)域中的第三特征;根據(jù)提取的各第三特征,分別確定各圖像幀中的目標(biāo)物體的類別。

在一些實施例中,每個上述待檢測的視頻或每一上述視頻子段包括n個時序連續(xù)的圖像幀,n>1,且n為整數(shù);以及上述提取各上述目標(biāo)物體在上述待檢測的視頻或上述視頻子段的各圖像幀中的位置區(qū)域中的第三特征,包括:按照時序順序提取上述n個圖像幀的第三特征;對于第i個圖像幀,對其第三特征和該圖像幀之前的i-1個圖像幀的第三特征進行編碼,直至對第n個圖像幀的第三特征編碼完成,其中,1≤i≤n。

在一些實施例中,上述根據(jù)提取的各第三特征,分別確定各圖像幀中的目標(biāo)物體的類別,包括:根據(jù)提取的各第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定各圖像幀的第三特征的解碼結(jié)果;根據(jù)各圖像幀的第三特征的解碼結(jié)果,分別確定各圖像幀中的目標(biāo)物體的類別。

在一些實施例中,上述根據(jù)提取的各第三特征和上述第n個圖像幀的第三特征的編碼結(jié)果,確定各圖像幀的第三特征的解碼結(jié)果,包括:按照時序倒序,對上述n個圖像幀的第三特征的編碼結(jié)果進行解碼;對于第j個圖像幀,根據(jù)第j個圖像幀的第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定第j個圖像幀的第三特征的解碼結(jié)果,直至上述n個圖像幀的第三特征解碼完成。

第二方面,本申請?zhí)峁┝艘环N用于檢測視頻中物體的方法,上述方法包括:確定至少一目標(biāo)物體在待檢測的視頻包括的各圖像幀中的位置區(qū)域;提取各上述目標(biāo)物體在上述待檢測的視頻或上述視頻子段的各圖像幀中的位置區(qū)域中的第三特征;根據(jù)提取的各第三特征,分別確定各圖像幀中的目標(biāo)物體的類別。

在一些實施例中,每個上述待檢測的視頻包括n個時序連續(xù)的圖像幀,n>1,且n為整數(shù);以及上述提取各上述目標(biāo)物體在上述待檢測的視頻或上述視頻子段的各圖像幀中的位置區(qū)域中的第三特征,包括:按照時序順序提取上述n個圖像幀的第三特征;對于第i個圖像幀,對其第三特征和該圖像幀之前的i-1個圖像幀的第三特征進行編碼,直至對第n個圖像幀的第三特征編碼完成,其中,1≤i≤n。

在一些實施例中,上述根據(jù)提取的各第三特征,分別確定各圖像幀中的目標(biāo)物體的類別,包括:根據(jù)提取的各第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定各圖像幀的第三特征的解碼結(jié)果;根據(jù)各圖像幀的第三特征的解碼結(jié)果,分別確定各圖像幀中的目標(biāo)物體的類別。

在一些實施例中,上述根據(jù)提取的各第三特征和上述第n個圖像幀的第三特征的編碼結(jié)果,確定各圖像幀的第三特征的解碼結(jié)果,包括:按照時序倒序,對上述n個圖像幀的第三特征的編碼結(jié)果進行解碼;對于第j個圖像幀,根據(jù)第j個圖像幀的第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定第j個圖像幀的第三特征的解碼結(jié)果,直至上述n個圖像幀的第三特征解碼完成。

第三方面,本申請?zhí)峁┝艘环N用于檢測視頻中物體的裝置,上述裝置包括:檢測圖像幀確定單元,用于確定待檢測的視頻中至少一圖像幀為檢測圖像幀;第一位置區(qū)域確定單元,用于獲取上述檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域;特征提取單元,用于分別提取各上述檢測圖像幀中各上述第一位置區(qū)域的第一特征和上述視頻中相對各上述檢測圖像幀時序連續(xù)的至少一在后圖像幀在各上述第一位置區(qū)域的第二特征;運動信息預(yù)測單元,用于根據(jù)提取的各上述第一特征和各上述第二特征,預(yù)測各上述目標(biāo)物體分別在各上述至少一在后圖像幀中的運動信息;位置區(qū)域確定單元,用于至少根據(jù)各上述目標(biāo)物體在各上述檢測圖像幀中的上述第一位置區(qū)域及各上述目標(biāo)物體在各上述至少一在后圖像幀中的運動信息的預(yù)測結(jié)果,確定各上述目標(biāo)物體在各上述至少一在后圖像幀中的位置區(qū)域。

在一些實施例中,上述檢測圖像幀確定單元進一步用于:將上述待檢測的視頻的第一圖像幀作為上述檢測圖像幀。

在一些實施例中,上述檢測圖像幀確定單元進一步用于:將上述待檢測的視頻的任一關(guān)鍵幀作為上述檢測圖像幀。

在一些實施例中,上述檢測圖像幀確定單元進一步用于:將上述待檢測的視頻的任一關(guān)鍵幀作為上述檢測圖像幀。

在一些實施例中,上述待檢測的視頻包括多個時序連續(xù)的視頻子段,至少兩個時序相鄰的視頻子段包括至少一共同圖像幀;以及上述檢測圖像幀確定單元進一步用于:將上述至少一共同圖像幀作為上述檢測圖像幀。

在一些實施例中,每一上述視頻子段中包括時序連續(xù)的m個圖像幀;以及上述檢測圖像幀確定單元進一步用于:將時序在前的m-1個圖像幀作為上述檢測圖像幀。

在一些實施例中,上述第一位置區(qū)域確定單元進一步用于:在上述檢測圖像幀中標(biāo)注各上述目標(biāo)物體對應(yīng)的第一位置區(qū)域。

在一些實施例中,上述第一位置區(qū)域確定單元進一步用于:根據(jù)上述檢測圖像幀中已知的各上述目標(biāo)物體的位置區(qū)域確定上述第一位置區(qū)域。

在一些實施例中,上述第一位置區(qū)域確定單元進一步用于:根據(jù)任兩個時序相鄰的視頻子段中時序在前的視頻子段中上述至少一共同圖像幀中各上述目標(biāo)物體的位置區(qū)域,確定時序在后的視頻子段中上述檢測圖像幀的第一位置區(qū)域。

在一些實施例中,上述第一位置區(qū)域確定單元進一步用于:根據(jù)各上述目標(biāo)物體在上述檢測圖像幀中的位置的外接矩形區(qū)域或外接輪廓區(qū)域,確定上述第一位置區(qū)域。

在一些實施例中,上述運動信息預(yù)測單元進一步用于:根據(jù)各上述目標(biāo)物體在任一上述檢測圖像幀中的各第一特征及各上述目標(biāo)物體在任一在后圖像幀中的各第二特征,預(yù)測各上述目標(biāo)物體在上述任一在后圖像幀中的運動信息。

在一些實施例中,上述運動信息預(yù)測單元進一步用于:對于每個視頻子段,根據(jù)時序在前的m-1個圖像幀的各第一特征、與上述各第一特征對應(yīng)的第一預(yù)設(shè)權(quán)重以及時序在后的第m個圖像幀的第二特征、與上述第二特征對應(yīng)的第二預(yù)設(shè)權(quán)重,預(yù)測各上述目標(biāo)物體在上述時序在后的第m個圖像幀中的運動信息,m為整數(shù),且m>1。

在一些實施例中,上述運動信息預(yù)測單元進一步用于:根據(jù)提取的各上述第一特征和各上述第二特征,利用預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)預(yù)測各上述目標(biāo)物體分別在各上述至少一在后圖像幀中的運動信息,其中,上述預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣包括上述第一預(yù)設(shè)權(quán)重以及上述第二預(yù)設(shè)權(quán)重。

在一些實施例中,響應(yīng)于m大于2,上述預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)通過以下第一訓(xùn)練模塊得到,上述第一訓(xùn)練模塊用于:將預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣分為第三權(quán)重和第四權(quán)重;將上述第三權(quán)重確定為上述m個圖像幀中的第1個圖像幀的的特征上述第一預(yù)設(shè)權(quán)重的初始值;將第四權(quán)重分別確定為第t個圖像幀的特征的上述第二預(yù)設(shè)權(quán)重的初始值,其中,2≤t≤m,且t為正整數(shù);上述預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò)通過第二訓(xùn)練模塊得到,上述第二訓(xùn)練模塊用于:分別提取已標(biāo)注的訓(xùn)練用視頻中時序相鄰的兩個樣本圖像幀中上述目標(biāo)物體的特征;根據(jù)提取的特征預(yù)測上述目標(biāo)物體在時序在后的樣本圖像幀中的運動信息;根據(jù)上述運動信息的預(yù)測結(jié)果和上述訓(xùn)練用視頻的標(biāo)注信息,調(diào)整第二神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣,直至滿足上述第二神經(jīng)網(wǎng)絡(luò)預(yù)定的訓(xùn)練完成條件。

在一些實施例中,上述運動信息預(yù)測單元包括:相對變化信息確定模塊,用于根據(jù)各上述第一特征和各上述第二特征,確定各上述在后圖像幀在各上述第一位置區(qū)域中的各目標(biāo)物體相對上述檢測圖像幀在上述第一位置區(qū)域中的目標(biāo)物體的相對變化信息;預(yù)測模塊,用于至少根據(jù)各上述目標(biāo)物體的相對變化信息,預(yù)測各上述目標(biāo)物體在各上述在后圖像幀中的運動信息。

在一些實施例中,上述相對位置變化信息包括:上述在后圖像幀中的上述第一位置區(qū)域中心點在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量、上述在后圖像幀中的上述第一位置區(qū)域中心點在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量。

在一些實施例中,上述相對位置變化信息包括:上述在后圖像幀中的上述第一位置區(qū)域在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量、上述在后圖像幀中的上述第一位置區(qū)域在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量。

在一些實施例中,上述位置區(qū)域確定單元包括:

位置區(qū)域確定模塊,用于根據(jù)上述第一位置區(qū)域、上述在后圖像幀中的上述第一位置區(qū)域中心點在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量、上述在后圖像幀中的上述第一位置區(qū)域中心點在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量、上述在后圖像幀中的上述第一位置區(qū)域在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量和上述在后圖像幀中的上述第一位置區(qū)域在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量,確定各上述目標(biāo)物體在各上述至少一在后圖像幀中的位置區(qū)域。

在一些實施例中,上述預(yù)測模塊進一步用于:根據(jù)上述在后圖像幀中的上述第一位置區(qū)域中心點在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量,和上述在后圖像幀中的上述第一位置區(qū)域中心點在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量,預(yù)測預(yù)測各上述目標(biāo)物體在各上述在后圖像幀中的運動信息;其中,各上述在后圖像幀中的上述第一位置區(qū)域中心點在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量根據(jù)各上述在后圖像幀中各上述目標(biāo)物體的第二特征較與其對應(yīng)的各上述目標(biāo)物體的第一特征在水平方向的移動量確定;上述在后圖像幀中的上述第一位置區(qū)域中心點在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量根據(jù)各上述在后圖像幀中各目標(biāo)物體的第二特征較與其對應(yīng)的各上述目標(biāo)物體的第一特征在豎直方向的移動量確定。

在一些實施例中,上述預(yù)測模塊進一步用于:根據(jù)上述在后圖像幀中的上述第一位置區(qū)域在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量和上述在后圖像幀中的上述第一位置區(qū)域在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量,預(yù)測各上述目標(biāo)物體在各上述在后圖像幀中的運動信息;其中,上述在后圖像幀中上述第一位置區(qū)域在水平方向上較上述檢測圖像幀中上述第一位置區(qū)域的變化量根據(jù)各上述在后圖像幀中各上述目標(biāo)物體的第二特征較與其對應(yīng)的各目標(biāo)物體的第一特征在水平方向的變化量確定;上述在后圖像幀中上述第一位置區(qū)域在豎直方向上較上述檢測圖像幀中上述第一位置區(qū)域的變化量根據(jù)各上述在后圖像幀中各上述目標(biāo)物體的第二特征較與其對應(yīng)的各目標(biāo)物體的第一特征在豎直方向的變化量確定。在一些實施例中,上述特征提取模塊進一步用于:根據(jù)提取的特征,確定上述標(biāo)注區(qū)域在上述待預(yù)測圖像中的相對位置信息,上述相對位置信息包括:上述標(biāo)注區(qū)域在水平方向的移動量、上述標(biāo)注區(qū)域在豎直方向的移動量、上述標(biāo)注區(qū)域在水平方向的寬度變化量、上述標(biāo)注區(qū)域在豎直方向的高度變化量;根據(jù)上述相對位置信息,確定上述目標(biāo)物體的運動趨勢;根據(jù)上述運動趨勢,預(yù)測上述目標(biāo)物體在上述其它至少一幀圖像中的位置。

在一些實施例中,上述位置區(qū)域確定單元用于:將上述第一位置區(qū)域作為各上述目標(biāo)物體在各上述在后圖像幀中的第二位置區(qū)域;根據(jù)上述在后圖像幀在上述第一位置區(qū)域中的各目標(biāo)物體相對上述檢測圖像幀在上述第一位置區(qū)域中的目標(biāo)物體的相對變化信息,更新上述第二位置區(qū)域,得到各上述目標(biāo)物體在各上述在后圖像幀中的位置區(qū)域。

在一些實施例中,上述裝置還包括:第三特征提取單元,用于響應(yīng)于各上述目標(biāo)物體在上述待檢測的視頻或上述視頻子段中的各圖像幀中的位置區(qū)域確定完成,提取各上述目標(biāo)物體在上述待檢測的視頻或上述視頻子段的各圖像幀中的位置區(qū)域中的第三特征;類別確定單元,用于根據(jù)提取的各第三特征,分別確定各圖像幀中的目標(biāo)物體的類別。

在一些實施例中,每個上述待檢測的視頻或每一上述視頻子段包括n個時序連續(xù)的圖像幀,n>1,且n為整數(shù);以及上述第三特征提取單元進一步用于:按照時序順序提取上述n個圖像幀的第三特征;對于第i個圖像幀,對其第三特征和該圖像幀之前的i-1個圖像幀的第三特征進行編碼,直至對第n個圖像幀的第三特征編碼完成,其中,1≤i≤n。

在一些實施例中,上述類別確定單元包括:解碼結(jié)果確定模塊,用于根據(jù)提取的各第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定各圖像幀的第三特征的解碼結(jié)果;類別確定模塊,用于根據(jù)各圖像幀的第三特征的解碼結(jié)果,分別確定各圖像幀中的目標(biāo)物體的類別。

在一些實施例中,上述解碼結(jié)果確定模塊進一步用于:按照時序倒序,對上述n個圖像幀的第三特征的編碼結(jié)果進行解碼;對于第j個圖像幀,根據(jù)第j個圖像幀的第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定第j個圖像幀的第三特征的解碼結(jié)果,直至上述n個圖像幀的第三特征解碼完成。

第四方面,本申請?zhí)峁┝艘环N用于檢測視頻中物體的裝置,上述裝置包括:第二位置區(qū)域確定單元,用于確定至少一目標(biāo)物體在待檢測的視頻包括的各圖像幀中的位置區(qū)域;第一特征提取單元,用于提取各上述目標(biāo)物體在上述待檢測的視頻或上述視頻子段的各圖像幀中的位置區(qū)域中的第三特征;第一類別確定單元,用于根據(jù)提取的各第三特征,分別確定各圖像幀中的目標(biāo)物體的類別。

在一些實施例中,每個上述待檢測的視頻包括n個時序連續(xù)的圖像幀,n>1,且n為整數(shù);以及上述第一特征提取單元進一步用于:按照時序順序提取上述n個圖像幀的第三特征;對于第i個圖像幀,對其第三特征和該圖像幀之前的i-1個圖像幀的第三特征進行編碼,直至對第n個圖像幀的第三特征編碼完成,其中,1≤i≤n。

在一些實施例中,上述第一類別確定單元包括:第一解碼結(jié)果確定模塊,用于根據(jù)提取的各第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定各圖像幀的第三特征的解碼結(jié)果;第一類別確定模塊,用于根據(jù)各圖像幀的第三特征的解碼結(jié)果,分別確定各圖像幀中的目標(biāo)物體的類別。

在一些實施例中,上述第一解碼結(jié)果確定模塊進一步用于:按照時序倒序,對上述n個圖像幀的第三特征的編碼結(jié)果進行解碼;對于第j個圖像幀,根據(jù)第j個圖像幀的第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定第j個圖像幀的第三特征的解碼結(jié)果,直至上述n個圖像幀的第三特征解碼完成。

第五方面,本申請?zhí)峁┝艘环N電子設(shè)備,包括:存儲器,存儲可執(zhí)行指令;一個或多個處理器,與存儲器通信以執(zhí)行可執(zhí)行指令從而完成以下操作:確定待檢測的視頻中至少一圖像幀為檢測圖像幀;獲取上述檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域;分別提取各上述檢測圖像幀中各上述第一位置區(qū)域的第一特征和上述視頻中相對各上述檢測圖像幀時序連續(xù)的至少一在后圖像幀在各上述第一位置區(qū)域的第二特征;根據(jù)提取的各上述第一特征和各上述第二特征,預(yù)測各上述目標(biāo)物體分別在各上述至少一在后圖像幀中的運動信息;至少根據(jù)各上述目標(biāo)物體在各上述檢測圖像幀中的上述第一位置區(qū)域及各上述目標(biāo)物體在各上述至少一在后圖像幀中的運動信息的預(yù)測結(jié)果,確定各上述目標(biāo)物體在各上述至少一在后圖像幀中的位置區(qū)域。

第六方面,本申請?zhí)峁┝艘环N電子設(shè)備,包括:存儲器,存儲可執(zhí)行指令;一個或多個處理器,與存儲器通信以執(zhí)行可執(zhí)行指令從而完成以下操作:確定至少一目標(biāo)物體在待檢測的視頻包括的各圖像幀中的位置區(qū)域;提取各上述目標(biāo)物體在上述待檢測的視頻或上述視頻子段的各圖像幀中的位置區(qū)域中的第三特征;根據(jù)提取的各第三特征,分別確定各圖像幀中的目標(biāo)物體的類別。

本申請?zhí)峁┑挠糜跈z測視頻中物體的方法和裝置,首先確定待檢測的視頻中的一個或多個圖像幀為檢測圖像幀,然后獲取檢測圖像幀中包含的各個目標(biāo)物體對應(yīng)的第一位置區(qū)域,再分別提取各個檢測圖像幀在上述第一位置區(qū)域的第一特征和與各檢測圖像幀時序連續(xù)的一個或多個在后圖像幀在上述第一位置區(qū)域的第二特征,根據(jù)提取的各第一特征和各第二特征,預(yù)測上述各個目標(biāo)物體在各在后圖像幀中的運動信息,最后根據(jù)上述第一位置區(qū)域和預(yù)測結(jié)果,確定各個目標(biāo)物體在各在后圖像幀中的位置區(qū)域。這樣,通過確定各個目標(biāo)物體在待檢測的視頻中各個圖像幀中的位置區(qū)域,就可以實現(xiàn)對視頻中的目標(biāo)物體的檢測,有效地提高了計算效率。

附圖說明

通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:

圖1是根據(jù)本申請的用于檢測視頻中物體的方法的一個實施例的流程圖;

圖1a是本申請的用于檢測視頻中物體的方法的檢測結(jié)果與現(xiàn)有技術(shù)的檢測結(jié)果的對比示意圖;

圖2是根據(jù)本申請的用于檢測視頻中物體的方法的另一個實施例的流程圖;

圖2a是圖2所示實施例中利用四維權(quán)重矩陣初始化16維權(quán)重矩陣的示意圖;

圖2b是圖2所示實施例中利用5幀預(yù)測模型構(gòu)建20幀預(yù)測模型的示意圖;

圖3是根據(jù)本申請的用于檢測視頻中物體的方法的又一個實施例的流程圖;

圖4是根據(jù)本申請的用于檢測視頻中物體的方法的又一個實施例的流程圖;

圖4a是是圖4所示實施例對應(yīng)的工作關(guān)系示意圖;

圖5是根據(jù)本申請的用于檢測視頻中物體的裝置的一個實施例的結(jié)構(gòu)示意圖;

圖6是根據(jù)本申請的用于檢測視頻中物體的裝置的另一個實施例的結(jié)構(gòu)示意圖;

圖7是適于用來實現(xiàn)本申請實施例的終端設(shè)備或服務(wù)器的計算機系統(tǒng)的結(jié)構(gòu)示意圖。

具體實施方式

下面結(jié)合附圖和實施例對本申請作進一步的詳細(xì)說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。

需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細(xì)說明本申請。

參考圖1,示出了根據(jù)本申請的用于檢測視頻中的物體的方法的一個實施例的流程100。本實施例的用于檢測視頻中的物體的方法,包括以下步驟:

步驟101,確定待檢測的視頻中至少一圖像幀為檢測圖像幀,獲取上述檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域。

在本實施例中,待檢測的視頻中可以包括多個時序連續(xù)的圖像幀,本實施例的方法運行于其上的電子設(shè)備(如終端或服務(wù)器)可以確定上述待檢測的視頻中的一個或多個圖像幀為檢測圖像幀。上述檢測圖像幀為一個時,其可以包含多個目標(biāo)物體,且上述多個目標(biāo)物體可以為同一種類的目標(biāo)物體,也可以為不同種類的目標(biāo)物體。上述檢測圖像幀為多個時,各檢測圖像幀之間可以是時序連續(xù)的,也可以是時序離散的。并且,各檢測圖像幀所包含的目標(biāo)物體的數(shù)量和/或種類可以相同,也可以不同。上述目標(biāo)物體可以是預(yù)設(shè)的各種類別的物體,例如可以包括飛機、自行車、汽車等各種交通工具,還可以包括鳥類、狗、獅子等各種動物。

在確定了檢測圖像幀后,可以利用各種圖像處理方法來獲取各檢測圖像幀中包含的各目標(biāo)物體對應(yīng)的第一位置區(qū)域,例如可以利用靜態(tài)區(qū)域提議方法對各檢測圖像幀進行檢測。

步驟102,分別提取各檢測圖像幀中各第一位置區(qū)域的第一特征和上述視頻中相對各檢測圖像幀時序連續(xù)的至少一在后圖像幀在各第一位置區(qū)域的第二特征。

在確定了各檢測圖像幀后,需要同時確定與各檢測圖像幀時序連續(xù)的至少一在后圖像幀。這樣,如果各檢測圖像幀為時序連續(xù)的,其與至少一在后圖像幀結(jié)合,仍然為時序連續(xù)的一組圖像;如果各檢測圖像幀為時序離散的,每個檢測圖像幀后都存在至少一在后圖像幀,則上述待檢測的視頻中包括多個離散的圖像組合,每個圖像組合包括至少兩個圖像幀。

由于在待檢測的視頻中,時序相鄰的兩圖像幀間的時間間隔很小,則目標(biāo)物體在此時序相鄰的兩圖像幀中的位置區(qū)域也很近,從而能夠更容易的在時序連續(xù)的多個圖像幀中預(yù)測目標(biāo)物體的位置區(qū)域,提高預(yù)測的準(zhǔn)確性。而對于離散的多個檢測圖像幀,由于各檢測圖像幀之間的時間間隔較大,避免了時序連續(xù)的多個檢測圖像幀由于位置區(qū)域相近造成的檢測資源浪費的現(xiàn)象,提高了有效檢測率。

本實施例中,在確定了檢測圖像幀和至少一在后圖像幀后,可以分別提取各檢測圖像幀在上述第一位置區(qū)域的第一特征和各在后圖像幀在上述第一位置區(qū)域的第二特征。在提取上述第一特征和第二特征時,可以利用卷積神經(jīng)網(wǎng)絡(luò)的卷積層來實現(xiàn)。

步驟103,根據(jù)提取的各第一特征和各第二特征,預(yù)測各目標(biāo)物體分別在各至少一在后圖像幀中的運動信息。

在提取了檢測圖像幀的各第一特征和各在后圖像幀的各第二特征后,可以利用提取的各第一特征和各第二特征來預(yù)測各目標(biāo)物體分別在各至少一在后圖像幀中的運動信息。上述運動信息可以包括但不限于以下至少之一:各目標(biāo)物體的運動趨勢、相對于檢測圖像幀移動的距離等信息。

步驟104,至少根據(jù)各目標(biāo)物體在各檢測圖像幀中的第一位置區(qū)域及各目標(biāo)物體在各至少一在后圖像幀中的運動信息的預(yù)測結(jié)果,確定各目標(biāo)物體在各至少一在后圖像幀中的位置區(qū)域。

本實施例中,根據(jù)各目標(biāo)物體在各檢測圖像幀中的第一位置區(qū)域以及其在各至少一在后圖像幀中的運動信息的預(yù)測結(jié)果,可以確定各目標(biāo)物體在各至少一在后圖像幀中的位置區(qū)域。在確定了各目標(biāo)物體在各檢測圖像幀和各在后圖像幀中的位置區(qū)域后,可基于獲取的位置區(qū)域進行進一步的應(yīng)用,例如可以根據(jù)各位置區(qū)域?qū)崿F(xiàn)對各目標(biāo)物體的檢測。

可以理解的是,在各目標(biāo)物體在各圖像幀中的位置區(qū)域確定完成后,時序連續(xù)的各圖像幀的位置區(qū)域連通可以形成貫穿與整個待檢測的視頻或視頻子段的管狀區(qū)域,此管狀區(qū)域中即包含了目標(biāo)物體的運動位置的信息,還包含了目標(biāo)物體在每個圖像幀中運動的=時間信息,即各圖像幀中的運動信息具有時間相關(guān)性。

與傳統(tǒng)的物體檢測方法(如靜態(tài)區(qū)域提議方法、以物體的準(zhǔn)確位置為目標(biāo)的回歸方法)相比,本申請的上述實施例提供的用于檢測視頻中物體的方法,既能夠保留目標(biāo)物體的運動的時間相關(guān)性,又能保證視頻中物體檢測的多樣性。具體參見圖1a,圖1a中示出了4行圖像,其中(a)行為待檢測的視頻中的原始圖像幀;(b)行為利用靜態(tài)區(qū)域提議方法得到的檢測結(jié)果,可以發(fā)現(xiàn)此方法中雖然檢測結(jié)果具有多樣性(標(biāo)注框的位置和/或大小各不相同,不同位置和/或大小的標(biāo)注框代表不同類別的檢測到的可能目標(biāo)物體),但各圖像幀的檢測結(jié)果之間沒有對應(yīng)關(guān)系,不能反應(yīng)目標(biāo)物體運動的時間相關(guān)性;(c)行為利用以物體的準(zhǔn)確位置為目標(biāo)的回歸方法得到的檢測結(jié)果,可知所有的標(biāo)注框都收斂到接近的位置,喪失了檢測結(jié)果的多樣性;(d)行為利用本申請的用于檢測視頻中物體的方法得到的檢測結(jié)果,可知該檢測結(jié)果中即保留了檢測的多樣性,又保留了時間相關(guān)性。

本申請的上述實施例提供的用于檢測視頻中物體的方法,首先確定待檢測的視頻中的一個或多個圖像幀為檢測圖像幀,然后獲取檢測圖像幀中包含的各個目標(biāo)物體對應(yīng)的第一位置區(qū)域,再分別提取各個檢測圖像幀在上述第一位置區(qū)域的第一特征和與各檢測圖像幀時序連續(xù)的一個或多個在后圖像幀在上述第一位置區(qū)域的第二特征,根據(jù)提取的各第一特征和各第二特征,預(yù)測上述各個目標(biāo)物體在各在后圖像幀中的運動信息,最后根據(jù)上述第一位置區(qū)域和預(yù)測結(jié)果,確定各個目標(biāo)物體在各在后圖像幀中的位置區(qū)域。這樣,通過預(yù)測各目標(biāo)物體在各在后圖像幀中的運動信息,并在上述運動信息預(yù)測完成后確定各個目標(biāo)物體在待檢測的視頻中各個圖像幀中的位置區(qū)域,就可以實現(xiàn)對視頻中的目標(biāo)物體的檢測,在提高了計算效率的同時,保留了目標(biāo)物體運動的時間信息,同時保證了檢測結(jié)果的多樣性。

在本實施例的一些可選的實現(xiàn)方式中,在上述步驟101中,可以通過以下方式來確定待檢測的視頻中至少一圖像幀為檢測圖像幀:將待檢測的視頻的第一圖像幀作為檢測圖像幀。

在本實現(xiàn)方式中,可以將待檢測的視頻中的第一個圖像幀作為檢測圖像幀,這樣可以依次對待檢測的視頻中的各圖像幀中的目標(biāo)物體進行檢測,既可以保證檢測的全面性,又不會降低檢測的準(zhǔn)確性。

在本實施例的一些可選的實現(xiàn)方式中,在上述步驟101中,還可以通過以下方式來確定待檢測的視頻中至少一圖像幀為檢測圖像幀:將待檢測的視頻的任一關(guān)鍵幀作為檢測圖像幀。

本實現(xiàn)方式中,上述關(guān)鍵幀可以是某一類目標(biāo)物體第一次出現(xiàn)的圖像幀,可以是目標(biāo)物體最完整的圖像幀(此處的完整是指目標(biāo)物體的整體全部出現(xiàn)在圖像幀中),也可以是出現(xiàn)目標(biāo)物體數(shù)量最多的圖像幀,還可以是出現(xiàn)目標(biāo)物體種類最多的圖像幀。可以理解的是,可以對待檢測的視頻中的各圖像幀進行遍歷,確定目標(biāo)物體的數(shù)量和/或種類和/或完整性,才可以確定各圖像幀中關(guān)鍵幀的位置和數(shù)量。

在本實施例的一些可選的實現(xiàn)方式中,在上述步驟101中,還可以通過以下方式來確定待檢測的視頻中至少一圖像幀為檢測圖像幀:將待檢測的視頻中至少一已知各目標(biāo)物體的位置區(qū)域的圖像幀作為檢測圖像幀。

本實現(xiàn)方式中,如果待檢測的視頻中存在一個或多個圖像幀,并且已知該一個或多個圖像幀中各目標(biāo)物體所在的位置區(qū)域,則將此一個或多個圖像幀作為檢測圖像幀。這樣,無需再對檢測圖像幀中的目標(biāo)物體進行檢測,可以進一步提高計算效率。

在本實施例的一些可選的實現(xiàn)方式中,可以將上述待檢測的視頻分為多個時序連續(xù)的視頻子段,并且定義兩個時序相鄰的視頻子段共有至少一個圖像幀。則上述步驟101中,還可以通過以下方式來確定待檢測的視頻中至少一圖像幀為檢測圖像幀:將上述共有的至少一個圖像幀作為檢測圖像幀。

本實現(xiàn)方式中,對于兩個時序相鄰的視頻子段,如果時序在前的視頻子段中的各圖像幀中的目標(biāo)物體的位置區(qū)域都已確定,對于時序在后的視頻子段來說,選擇共有的圖像幀作為檢測圖像幀,無需再對檢測圖像幀中的目標(biāo)物體進行檢測,可以進一步提高計算效率。

在本實施例的一些可選的實現(xiàn)方式中,可以定義每一上述視頻子段包括m個圖像幀,則上述步驟101中,還可以通過以下方式來確定待檢測的視頻中至少一圖像幀為檢測圖像幀:將時序在前的m-1個圖像幀作為檢測圖像幀。

本實現(xiàn)方式中,可以將每個視頻子段的前m-1個圖像幀作為檢測圖像幀,結(jié)合最后一個圖像幀即第m個圖像幀中的特征來預(yù)測第m個圖像幀中目標(biāo)物體的位置區(qū)域。這樣,可以提高檢測的準(zhǔn)確性。

在本實施例的一些可選的實現(xiàn)方式中,上述步驟101中可以通過以下方式實現(xiàn)獲取檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域:在各檢測圖像幀中標(biāo)注各目標(biāo)物體對應(yīng)的第一位置區(qū)域。

本實現(xiàn)方式中,在確定了各檢測圖像幀后,可以對上述檢測圖像幀中包含的目標(biāo)物體進行標(biāo)注,通過標(biāo)注的區(qū)域來確定各目標(biāo)物體的第一位置區(qū)域。

在本實施例的一些可選的實現(xiàn)方式中,上述步驟101中可以通過以下方式實現(xiàn)獲取檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域:根據(jù)檢測圖像幀中已知的各目標(biāo)物體的位置區(qū)域確定第一位置區(qū)域。

本實現(xiàn)方式中,如果待檢測的視頻中存在一個或多個圖像幀,并且已知該一個或多個圖像幀中各目標(biāo)物體所在的位置區(qū)域,則可以將已知的位置區(qū)域確定為第一位置區(qū)域。

在本實施例的一些可選的實現(xiàn)方式中,上述步驟101中可以通過以下方式實現(xiàn)獲取檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域:根據(jù)任兩個時序相鄰的視頻子段中時序在前的視頻子段中至少一共同圖像幀中各目標(biāo)物體的位置區(qū)域,確定時序在后的視頻子段中檢測圖像幀的第一位置區(qū)域。

本實現(xiàn)方式中,如果時序在前的視頻子段中的各圖像幀中的目標(biāo)物體的位置區(qū)域都已確定,對于時序在后的視頻子段來說,選擇共有的圖像幀作為檢測圖像幀,無需再對檢測圖像幀中的目標(biāo)物體進行檢測,可以進一步提高計算效率。

在本實施例的一些可選的實現(xiàn)方式中,上述步驟101中可以通過以下方式實現(xiàn)獲取檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域:根據(jù)各目標(biāo)物體在檢測圖像幀中的位置的外接矩形區(qū)域或外接輪廓區(qū)域,確定第一位置區(qū)域。

本實現(xiàn)方式中,在對檢測圖像幀中的目標(biāo)物體進行標(biāo)注時,可以采用但不限于目標(biāo)物體所在位置的外接矩形或其它外接輪廓對目標(biāo)物體進行標(biāo)注,則此時可以確定上述外接矩形區(qū)域或外接輪廓區(qū)域為第一位置區(qū)域。在利用外接矩形對目標(biāo)物體進行標(biāo)注時,可以采用但不限于目標(biāo)物體的最小外接矩形對目標(biāo)物體進行標(biāo)注。

繼續(xù)參考圖2,其示出了根據(jù)本申請的用于檢測視頻中物體的方法的另一個實施例的流程圖200。如圖2所示,本實施例的用于檢測視頻中物體的方法中在預(yù)測目標(biāo)物體在各在后圖像幀中的運動信息時,可以具體通過以下步驟來實現(xiàn):

步驟201,提取每一視頻子段中時序在前的m-1個圖像幀在各第一位置區(qū)域的各第一特征和時序在后的第m個圖像幀在各第一位置區(qū)域的第二特征。

本實施例中,定義每一視頻子段中包括m個圖像幀,并將時序在前的m-1個圖像幀作為檢測圖像幀,將第m個圖像幀作為在后圖像幀。在提取特征時,分別提取時序在前的m-1個圖像幀在各第一位置區(qū)域的各第一特征以及時序在后的第m個圖像幀在各第一位置區(qū)域的第二特征。

步驟202,對于每個視頻子段,根據(jù)提取的各第一特征、與各第一特征對應(yīng)的第一預(yù)設(shè)權(quán)重以及提取的第二特征、與上述第二特征對應(yīng)的第二預(yù)設(shè)權(quán)重,預(yù)測各目標(biāo)物體在時序在后的第m個圖像幀中的運動信息。

其中,m為大于1的整數(shù)。

在得到上述各第一特征和第二特征后,可基于第一預(yù)設(shè)權(quán)重對各第一特征進行加權(quán)處理,基于第二預(yù)設(shè)權(quán)重對各第二特征進行加權(quán)處理。

在本實施例的一些可選的實現(xiàn)方式中,在利用上述各第一特征和第二特征進行運動信息的預(yù)測時,可以利用預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)來預(yù)測,上述預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)包括權(quán)重矩陣,該權(quán)重矩陣包括上述第一預(yù)設(shè)權(quán)重和第二預(yù)設(shè)權(quán)重。

在本實施例的一些可選的實現(xiàn)方式中,上述預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)由圖2中未示出的以下訓(xùn)練步驟得到:

將預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣分為第三權(quán)重和第四權(quán)重;將第三權(quán)重確定為m個圖像幀中的第1個圖像幀的特征的第一預(yù)設(shè)權(quán)重的初始值;將第四權(quán)重分別確定為第t個圖像幀的特征的第二預(yù)設(shè)權(quán)重的初始值,其中,2≤t≤m,且m和t均為正整數(shù)。

當(dāng)待檢測的視頻的時間窗包括多個圖像幀或視頻子段包括多個圖像幀時,利用上述第三權(quán)重初始化時序連續(xù)的m個圖像幀中的第一個圖像幀的第一特征的權(quán)重,利用上述第四權(quán)重分別初始化時序連續(xù)的m個圖像幀中的第2~第m個圖像幀的第二特征的權(quán)重,即為上述第一預(yù)設(shè)權(quán)重和上述第二預(yù)設(shè)權(quán)重設(shè)置初始值,得到的初始第一神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣中包括上述第一預(yù)設(shè)權(quán)重的初始值和第二預(yù)設(shè)權(quán)重的初始值。通過訓(xùn)練上述初始第一神經(jīng)網(wǎng)絡(luò),上述權(quán)重由初始值調(diào)整為第一預(yù)設(shè)權(quán)重和第二預(yù)設(shè)權(quán)重,同時得到帶有新的(m-1)2維權(quán)重矩陣的第一神經(jīng)網(wǎng)絡(luò),就可以同時預(yù)測第2~第m個圖像幀中目標(biāo)物體的運動信息,有效地提高了運算效率。

以待檢測的視頻子段分別包括2個圖像幀和5個圖像幀的情形為例,具體參見圖2a和圖2b,圖2a中,用于檢測包括2個圖像幀的視頻子段的第二神經(jīng)網(wǎng)絡(luò)(也可稱為2幀預(yù)測模型),如第二卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣包括分別對應(yīng)2個圖像幀所提取特征的兩個權(quán)重部分—權(quán)重A(對應(yīng)上述第三權(quán)重)和權(quán)重B(對應(yīng)上述第四權(quán)重)。第二神經(jīng)網(wǎng)絡(luò)可以結(jié)合時序在前的一幀圖像的第一特征和時序在后的一幀圖像的第二特征以及上述權(quán)重A和權(quán)重B,來預(yù)測時序在后的一幀圖像中的目標(biāo)物體的運動信息。為了提高運算效率,可以利用第二神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣包含的兩個權(quán)重部分構(gòu)建用于檢測包括多個圖像幀的視頻子段的第一神經(jīng)網(wǎng)絡(luò)(如第一卷積神經(jīng)網(wǎng)絡(luò))的權(quán)重矩陣,圖2a中,右側(cè)虛線框中為用于檢測包括5個圖像幀的視頻子段的第一神經(jīng)網(wǎng)絡(luò)(也可稱為5幀預(yù)測模型),如第一卷積神經(jīng)網(wǎng)絡(luò)權(quán)重矩陣,則權(quán)重A為時序連續(xù)的5個圖像幀中的第1個圖像幀的特征的權(quán)重的初始值,權(quán)重B分別為時序連續(xù)的5幀圖像幀中的第2個圖像幀、第3個圖像幀、第4個圖像幀以及第5個圖像幀的特征的權(quán)重的初始值。基于已標(biāo)注的訓(xùn)練用視頻訓(xùn)練第一神經(jīng)網(wǎng)絡(luò),根據(jù)每次訓(xùn)練過程中的檢測結(jié)果反復(fù)調(diào)整第一神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣,直至滿足訓(xùn)練完成條件,訓(xùn)練完成的權(quán)重矩陣即包括上述第一預(yù)設(shè)權(quán)重和第二預(yù)設(shè)權(quán)重。帶有上述權(quán)重矩陣的訓(xùn)練后的第一神經(jīng)網(wǎng)絡(luò)可以同時預(yù)測目標(biāo)物體在第2個圖像幀、第3個圖像幀、第4個圖像幀以及第5個圖像幀中的位置區(qū)域。由此上述2幀預(yù)測模型可以結(jié)合第1個圖像幀和第2個圖像幀的特征,預(yù)測目標(biāo)物體在第2個圖像幀中的位置區(qū)域;上述5幀預(yù)測模型可以結(jié)合第1~第5個圖像幀的特征,預(yù)測目標(biāo)物體分別在第2~5個圖像幀中的位置區(qū)域。該方案有利于提高神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練速度,提高運算效率。

為了進一步地提高運算效率,可以利用上述5幀預(yù)測模型構(gòu)建長度更長的預(yù)測模型,以同時預(yù)測目標(biāo)物體在更多個圖像幀中的位置區(qū)域。如圖2b所示,可以利用5個上述5幀預(yù)測模型構(gòu)建20幀預(yù)測模型,由于每個5幀預(yù)測模型的最后一個圖像幀用于作為下一個5幀預(yù)測模型的第1個圖像幀,因此,5個上述5幀預(yù)測模型可以構(gòu)建20幀預(yù)測模型,等等。

可以理解的是,上述過程是一個初始化的過程,實際在應(yīng)用上述第一神經(jīng)網(wǎng)絡(luò)時,需要首先對第二神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,則預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò)通過以下訓(xùn)練步驟得到:

分別提取已標(biāo)注的訓(xùn)練用視頻中時序相鄰的兩個樣本圖像幀中目標(biāo)物體的特征;根據(jù)提取的特征預(yù)測目標(biāo)物體在時序在后的樣本圖像幀中的運動信息;根據(jù)運動信息的預(yù)測結(jié)果和訓(xùn)練用視頻的標(biāo)注信息,調(diào)整第二神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣,直至滿足第二神經(jīng)網(wǎng)絡(luò)預(yù)定的訓(xùn)練完成條件。

在訓(xùn)練上述第二神經(jīng)網(wǎng)絡(luò)時,需要先獲取已標(biāo)注的訓(xùn)練用視頻,可以理解的是,上述訓(xùn)練用視頻包括多個圖像幀,每個圖像幀中的目標(biāo)物體均已被標(biāo)注,這樣每個圖像幀可以作為樣本圖像幀。然后提取上述訓(xùn)練用視頻中時序相鄰的兩個樣本圖像幀中目標(biāo)物體的特征,根據(jù)提取的特征預(yù)測目標(biāo)物體在時序在后的樣本圖像幀中的運動信息,可以理解的是,根據(jù)此處的運動信息就可以確定目標(biāo)物體在時序在后的樣本圖像幀中的位置區(qū)域,將此位置區(qū)域與已標(biāo)注的位置區(qū)域同時輸入第二神經(jīng)網(wǎng)絡(luò),并調(diào)整第二神經(jīng)網(wǎng)絡(luò)的參數(shù),直到滿足第二神經(jīng)網(wǎng)絡(luò)的訓(xùn)練完成條件。上述訓(xùn)練完成條件可以是任何可以停止第二神經(jīng)網(wǎng)絡(luò)訓(xùn)練的條件,例如上述條件可以是預(yù)測確定的位置區(qū)域與標(biāo)注的位置區(qū)域之間的誤差小于預(yù)設(shè)值等等。

本申請的上述實施例提供的用于檢測視頻中物體的方法,在提取各檢測圖像幀的第一特征以及在后圖像幀的第二特征后,通過初始化并調(diào)整上述第一特征的權(quán)重和第二特征的權(quán)重,并結(jié)合上述調(diào)整后的權(quán)重,可以實現(xiàn)對上述在后圖像幀中的目標(biāo)物體的運動信息的更精準(zhǔn)的預(yù)測。

繼續(xù)參考圖3,其示出了根據(jù)本申請的用于檢測視頻中物體的方法的又一個實施例的流程300。如圖3所示,本實施例的用于檢測視頻中物體的方法中在預(yù)測目標(biāo)物體在各在后圖像幀中的運動信息時,可以具體通過以下步驟來實現(xiàn):

步驟301,根據(jù)各第一特征和各第二特征,確定各在后圖像幀在各第一位置區(qū)域中的各目標(biāo)物體相對檢測圖像幀在第一位置區(qū)域中的目標(biāo)物體的相對變化信息。

在提取了各第一特征和各第二特征后,可以利用預(yù)先訓(xùn)練的回歸網(wǎng)絡(luò)基于上述提取的特征,確定各在后圖像幀在各第一位置區(qū)域中的各目標(biāo)物體相對于檢測圖像幀在第一位置區(qū)域中的目標(biāo)物體的相對位置信息。

在本實施例的一些可選的實現(xiàn)方式中,上述相對位置信息可以包括:在后圖像幀中的第一位置區(qū)域中心點在水平方向上較檢測圖像幀中的第一位置區(qū)域中心點的移動量Δx、在后圖像幀中的第一位置區(qū)域中心點在豎直方向上較檢測圖像幀中的第一位置區(qū)域中心點的移動量Δy。

當(dāng)上述目標(biāo)物體在檢測圖像幀中的第一位置區(qū)域和在在后圖像幀中的第一位置區(qū)域為矩形、橢圓、圓形或其它規(guī)則的圖形時,可以確定其中心點。對于同一目標(biāo)物體,可以通過上述第一位置區(qū)域的中心點在水平方向上的移動量Δx確定該目標(biāo)物體在水平方向上的移動距離。同理,可以通過上述第一位置區(qū)域的中心點在豎直方向上的移動量Δy確定該目標(biāo)物體在豎直方向上的移動距離。

在本實施例的一些可選的實現(xiàn)方式中,上述相對位置信息還可以包括:在后圖像幀中的第一位置區(qū)域在水平方向上較檢測圖像幀中的第一位置區(qū)域的變化量Δw、在后圖像幀中的第一位置區(qū)域在豎直方向上較檢測圖像幀中的第一位置區(qū)域的變化量Δh。

本實現(xiàn)方式中,對于同一目標(biāo)物體,可以通過確定上述第一位置區(qū)域在水平方向上的寬度變化量Δw確定該目標(biāo)物體所在的位置區(qū)域在水平方向上的寬度。同理,可以通過確定上述第一位置區(qū)域在豎直方向上的高度變化量Δh確定該目標(biāo)物體所在的位置區(qū)域在豎直方向上的高度。

在本實施例的一些可選的實現(xiàn)方式中,上述相對變化信息可以根據(jù)以下公式來確定:

Δx=(xt-x1)/w1;Δy=(yt-y1)/h1;Δw=log(wt/w1);Δh=log(ht/h1)。

即根據(jù)第一位置區(qū)域的中心點在水平方向上的移動量Δx以及其在檢測圖像幀中沿水平方向的坐標(biāo)x1和寬度w1,確定第一位置區(qū)域的中心點在在后圖像幀中沿水平方向的坐標(biāo)xt;根據(jù)第一位置區(qū)域的中心點在豎直方向的移動量Δy以及其在檢測圖像幀中沿豎直方向的坐標(biāo)y1和高度h1,確定第一位置區(qū)域的中心點在在后圖像幀中沿豎直方向的坐標(biāo)yt;根據(jù)第一位置區(qū)域在水平方向的寬度變化量Δw以及其在檢測圖像幀中沿水平方向的寬度w1,確定第一位置區(qū)域在在后圖像幀中沿水平方向的寬度wt;根據(jù)第一位置區(qū)域在豎直方向的高度變化量Δh以及其在檢測圖像幀中沿豎直方向的高度h1,確定第一位置區(qū)域在在后圖像幀中沿豎直方向的高度ht。

步驟302,至少根據(jù)各目標(biāo)物體的相對變化信息,預(yù)測各目標(biāo)物體在各在后圖像幀中的運動信息。

本實施例中,可以根據(jù)得到的上述相對變化信息,來預(yù)測各目標(biāo)物體在各在后圖像幀中的運動信息。

在本實施例的一些可選的實現(xiàn)方式中,可以根據(jù)第一位置區(qū)域的中心點在水平方向上的移動量Δx以及第一位置區(qū)域的中心點在豎直方向的移動量Δy,預(yù)測各目標(biāo)物體在各在后圖像幀中的運動信息。

在本實施例的一些可選的實現(xiàn)方式中,可以根據(jù)第一位置區(qū)域在水平方向的寬度變化量Δw以及第一位置區(qū)域在豎直方向的高度變化量Δh,預(yù)測各目標(biāo)物體在各在后圖像幀中的運動信息。

在本實施例的一些可選的實現(xiàn)方式中,在得到上述相對變化信息后,還可以通過以下方式來確定各目標(biāo)物體在各至少一在后圖像幀中的位置區(qū)域:將上述第一位置區(qū)域作為各目標(biāo)物體在各在后圖像幀中的第二位置區(qū)域,根據(jù)上述相對變化信息,更新上述第二位置區(qū)域,得到各目標(biāo)物體在各至少一在后圖像幀中的位置區(qū)域。

本實現(xiàn)方式中,在確定了第一位置區(qū)域在在后圖像幀中沿水平方向的坐標(biāo)xt、在在后圖像幀中沿豎直方向的坐標(biāo)yt、在在后圖像幀中沿水平方向的寬度wt以及在在后圖像幀中沿豎直方向的高度ht后,可以根據(jù)上述相對變化信息更新上述第二位置區(qū)域的位置,并將更新后的第二位置區(qū)域作為各目標(biāo)物體在各至少一在后圖像幀中的位置區(qū)域。

本申請的上述實施例提供的用于檢測視頻中物體的方法,通過確定各相對變化信息,能夠準(zhǔn)確的確定各目標(biāo)物體在各至少一在后圖像幀中的位置區(qū)域,保證了目標(biāo)物體檢測的準(zhǔn)確性。

采用本申請實施例提供的任一種檢測視頻中物體的方法,獲得視頻包括的各圖像幀的位置區(qū)域之后,可基于獲得的各圖像幀的位置區(qū)域進行分類、圖像分割等任務(wù)的處理,具體實現(xiàn)手段本申請并不限制。下文將以分類任務(wù)為例進行說明??梢岳斫?,本申請實施例中的分類任務(wù)可采用本申請實施例體用的任一種檢測視頻中物體的方法來確定待檢測視頻中目標(biāo)物體在各圖像幀中的位置信息,也可采用現(xiàn)有技術(shù)的其他方法來檢測視頻中目標(biāo)物體在各圖像幀中位置信息,本申請實施例對此并不限制。

參考圖4,其示出了根據(jù)本申請的用于檢測視頻中物體的方法的又一個實施例的流程400。如圖4所示,本實施例的用于檢測視頻中物體的方法包括以下步驟(以下步驟可以在圖1所示的流程后執(zhí)行,也可在采用與圖1不同的方法獲得視頻中目標(biāo)物體在各圖像幀中的位置區(qū)域之后執(zhí)行,本申請實施例并不限制):

步驟401,提取各目標(biāo)物體在待檢測的視頻或視頻子段的各圖像幀中的位置區(qū)域中的第三特征。

本步驟可在響應(yīng)于對各目標(biāo)物體在待檢測的視頻或視頻子段中的各圖像幀中的位置區(qū)域確定完成時執(zhí)行,具體確定方法可采用本申請實施例提供的任一種檢測方法進行,也可采用其他方法確定,如標(biāo)注方式、逐圖像幀靜態(tài)檢測方式等等,本申請實施例并不限制。

本實施例中,在各目標(biāo)物體在各圖像幀中的位置區(qū)域確定完成后,時序連續(xù)的各圖像幀的位置區(qū)域連通可以形成貫穿與整個待檢測的視頻或視頻子段的管狀區(qū)域,然后可以提取上述位置區(qū)域的第三特征??梢岳斫獾氖牵捎谝呀?jīng)確定上述位置區(qū)域中包含目標(biāo)物體,所以提取的第三特征為各目標(biāo)物體的特征。

在本實施例的一些可選的實現(xiàn)方式中,設(shè)定每個待檢測的視頻或每個視頻子段包括n個時序連續(xù)的圖像幀,其中,n為大于1的整數(shù)。上述步驟401可以按照以下方式來實現(xiàn):按照時序順序提取n個圖像幀的第三特征;對于第i個圖像幀,對其第三特征和該圖像幀之前的i-1個圖像幀的第三特征進行編碼,直至對第n個圖像幀的第三特征編碼完成,其中,1≤i≤n。

本實現(xiàn)方式中,按照從第1個圖像幀到第n個圖像幀的順序,依次提取n個圖像幀的第三特征,然后對于每個圖像幀,都對該圖像幀的第三特征和在該圖像幀之前的各圖像幀的第三特征進行編碼,直到對第n個圖像幀的第三特征編碼完成。

在編碼時,可以采用但不限于可編碼的LSTM(Long short-term memory,長短期記憶)單元。其在編碼時可以讀入管狀區(qū)域的特征,從而可以對管狀區(qū)域的外觀和管狀區(qū)域所包含的目標(biāo)物體的運動信息進行編碼,從而可以得到每個圖像幀的第三特征的編碼信息。

步驟402,根據(jù)提取的各第三特征,分別確定各圖像幀中的目標(biāo)物體的類別。

根據(jù)提取的各目標(biāo)物體的第三特征,可以確定各目標(biāo)物體的類別??梢岳斫獾氖牵煌瑘D像幀中的目標(biāo)物體的類別可以相同,也可以不相同。

在本實施例的一些可選的實現(xiàn)方式中,上述步驟402可以進一步通過圖4中未示出的以下步驟來實現(xiàn):根據(jù)提取的各第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定各圖像幀的第三特征的解碼結(jié)果;根據(jù)各圖像幀的第三特征的解碼結(jié)果,分別確定各圖像幀中的目標(biāo)物體的類別。

在提取了各圖像幀的第三特征,并完成了對第n個圖像幀的第三特征的編碼后,對各圖像幀的第三特征及上述第n個圖像幀的編碼結(jié)果進行解碼,然后根據(jù)解碼結(jié)果,確定各圖像幀中的目標(biāo)物體的類別。

在解碼時,可以采用可解碼的LSTM單元實現(xiàn)上述解碼。

在本實施例的一些可選的實現(xiàn)方式中,在解碼時可以根據(jù)圖4中未示出的以下步驟實現(xiàn)對各圖像幀的第三特征的解碼:按照時序倒序,對n個圖像幀的第三特征的編碼結(jié)果進行解碼;對于第j個圖像幀,根據(jù)第j個圖像幀的第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定第j個圖像幀的第三特征的解碼結(jié)果,直至n個圖像幀的第三特征解碼完成。

在解碼時,按照從第n個圖像幀到第1個圖像幀的順序,依次對各個圖像幀的第三特征的編碼結(jié)果進行解碼。對于每個圖像幀,根據(jù)該圖像幀的第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定該圖像幀的解碼結(jié)果,直到n個圖像幀的第三特征的解碼完成。可以理解的是,第n個圖像幀的第三特征的編碼結(jié)果即為待檢測的視頻或視頻子段的管狀區(qū)域的編碼結(jié)果,在對每個圖像幀的第三特征的編碼結(jié)果進行解碼時,結(jié)合管狀區(qū)域的編碼結(jié)果和該圖像幀的第三特征對該圖像幀進行解碼,得到的解碼結(jié)果保留了各圖像幀中的目標(biāo)物體之間的時間相關(guān)性。

本實施例的用于檢測視頻中物體的方法,可以采用圖4a所示的結(jié)構(gòu)來完成,圖4a是圖4所示流程對應(yīng)的工作關(guān)系示意圖。圖4a中,首先在確定了各目標(biāo)物體在第1個圖像幀的第一位置區(qū)域后,形成多個管狀區(qū)域,然后預(yù)測各目標(biāo)物體在各圖像幀中的位置區(qū)域,對上述形成的管狀區(qū)域進行調(diào)整。在調(diào)整完成后,提取每個圖像幀在上述管狀區(qū)域的特征,得到每個圖像幀的特征后,按照從第1個圖像幀~最后一個圖像幀的順序依次對各圖像幀中的特征進行編碼,然后得到整個管狀區(qū)域的編碼結(jié)果。在編碼時,可以采用可編碼的LSTM。然后對得到的編碼結(jié)果進行解碼,具體的,在解碼時,結(jié)合每個圖像幀在管狀區(qū)域的特征以及得到的管狀區(qū)域的編碼結(jié)果,按照從最后一個圖像幀~第1個圖像幀的順序依次對各圖像幀中的特征進行解碼。在解碼時,可以采用可解碼的LSTM。在解碼后,可以根據(jù)解碼結(jié)果,對視頻中各圖像幀包含的目標(biāo)物體進行分類。

本申請的上述實施例提供的用于檢測視頻中物體的方法,在確定了各目標(biāo)物體在各圖像幀中的位置區(qū)域后,可以編碼各位置區(qū)域的第三特征,得到各目標(biāo)物體在整個管狀區(qū)域內(nèi)的綜合特征,再根據(jù)解碼結(jié)果實現(xiàn)對各目標(biāo)物體的分類時,綜合考慮了各目標(biāo)物體在整個管狀區(qū)域內(nèi)的全部特征,解碼上述管狀區(qū)域得到的編碼結(jié)果可以采用從最后一個圖像幀~第1個圖像幀的順序依次對各圖像幀中的特征進行解碼,也可以從采用第1個圖像幀~最后一個圖像幀的順序依次對各圖像幀中的特征進行解碼,但采用從最后一個圖像幀~第1個圖像幀的順序依次對各圖像幀中的特征進行解碼可以保證每個圖像幀中各目標(biāo)物體的檢測類別都是根據(jù)各目標(biāo)物體在整個管狀區(qū)域內(nèi)的全部特征確定的,提高對視頻中物體分類的準(zhǔn)確度。

繼續(xù)參見圖5,其示出了根據(jù)本申請的用于檢測視頻中物體的裝置的結(jié)構(gòu)示意圖。如圖5所示,本實施例的用于檢測視頻中物體的裝置500包括:檢測圖像幀確定單元501、第一位置區(qū)域確定單元502、特征提取單元503、運動信息預(yù)測單元504以及位置區(qū)域確定單元505。

其中,檢測圖像幀確定單元501,用于確定待檢測的視頻中至少一圖像幀為檢測圖像幀。

第一位置區(qū)域確定單元502,用于獲取上述檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域。

特征提取單元503,用于分別提取各上述檢測圖像幀中各上述第一位置區(qū)域的第一特征和上述視頻中相對各上述檢測圖像幀時序連續(xù)的至少一在后圖像幀在各上述第一位置區(qū)域的第二特征。

運動信息預(yù)測單元504,用于根據(jù)提取的各上述第一特征和各上述第二特征,預(yù)測各上述目標(biāo)物體分別在各上述至少一在后圖像幀中的運動信息。

位置區(qū)域確定單元505,用于至少根據(jù)各上述目標(biāo)物體在各上述檢測圖像幀中的上述第一位置區(qū)域及各上述目標(biāo)物體在各上述至少一在后圖像幀中的運動信息的預(yù)測結(jié)果,確定各上述目標(biāo)物體在各上述至少一在后圖像幀中的位置區(qū)域。

本申請的上述實施例提供的用于檢測視頻中物體的裝置,首先確定待檢測的視頻中的一個或多個圖像幀為檢測圖像幀,然后獲取檢測圖像幀中包含的各個目標(biāo)物體對應(yīng)的第一位置區(qū)域,再分別提取各個檢測圖像幀在上述第一位置區(qū)域的第一特征和與各檢測圖像幀時序連續(xù)的一個或多個在后圖像幀在上述第一位置區(qū)域的第二特征,根據(jù)提取的各第一特征和各第二特征,預(yù)測上述各個目標(biāo)物體在各在后圖像幀中的運動信息,最后根據(jù)上述第一位置區(qū)域和預(yù)測結(jié)果,確定各個目標(biāo)物體在各在后圖像幀中的位置區(qū)域。這樣,通過確定各個目標(biāo)物體在待檢測的視頻中各個圖像幀中的位置區(qū)域,就可以實現(xiàn)對視頻中的目標(biāo)物體的檢測,有效地提高了計算效率。

在本實施例的一些可選的實現(xiàn)方式中,上述檢測圖像幀確定單元501進一步用于:將上述待檢測的視頻的第一圖像幀作為上述檢測圖像幀。

在本實施例的一些可選的實現(xiàn)方式中,上述檢測圖像幀確定單元501進一步用于:將上述待檢測的視頻的任一關(guān)鍵幀作為上述檢測圖像幀。

在本實施例的一些可選的實現(xiàn)方式中,上述檢測圖像幀確定單元501進一步用于:將上述待檢測的視頻中至少一已知各上述目標(biāo)物體的位置區(qū)域的圖像幀作為上述檢測圖像幀。

在本實施例的一些可選的實現(xiàn)方式中,上述待檢測的視頻包括多個時序連續(xù)的視頻子段,至少兩個時序相鄰的視頻子段包括至少一共同圖像幀。則上述檢測圖像幀確定單元501進一步用于:將上述至少一共同圖像幀作為上述檢測圖像幀。

在本實施例的一些可選的實現(xiàn)方式中,每一上述視頻子段中包括時序連續(xù)的m個圖像幀。則上述檢測圖像幀確定單元501進一步用于:將時序在前的m-1個圖像幀作為上述檢測圖像幀。

在本實施例的一些可選的實現(xiàn)方式中,上述第一位置區(qū)域確定單元502進一步用于:在上述檢測圖像幀中標(biāo)注各上述目標(biāo)物體對應(yīng)的第一位置區(qū)域。

在本實施例的一些可選的實現(xiàn)方式中,上述第一位置區(qū)域確定單元502進一步用于:根據(jù)上述檢測圖像幀中已知的各上述目標(biāo)物體的位置區(qū)域確定上述第一位置區(qū)域。

在本實施例的一些可選的實現(xiàn)方式中,上述第一位置區(qū)域確定單元502進一步用于:根據(jù)任兩個時序相鄰的視頻子段中時序在前的視頻子段中上述至少一共同圖像幀中各上述目標(biāo)物體的位置區(qū)域,確定時序在后的視頻子段中上述檢測圖像幀的第一位置區(qū)域。

在本實施例的一些可選的實現(xiàn)方式中,上述第一位置區(qū)域確定單元502進一步用于:根據(jù)各上述目標(biāo)物體在上述檢測圖像幀中的位置的外接矩形區(qū)域或外接輪廓區(qū)域,確定上述第一位置區(qū)域。

在本實施例的一些可選的實現(xiàn)方式中,上述運動信息預(yù)測單元504進一步用于:根據(jù)各上述目標(biāo)物體在任一上述檢測圖像幀中的各第一特征及各上述目標(biāo)物體在任一在后圖像幀中的各第二特征,預(yù)測各上述目標(biāo)物體在上述任一在后圖像幀中的運動信息。

在本實施例的一些可選的實現(xiàn)方式中,上述運動信息預(yù)測單元504進一步用于:對于每個視頻子段,根據(jù)時序在前的m-1個圖像幀的各第一特征、與上述各第一特征對應(yīng)的第一預(yù)設(shè)權(quán)重以及時序在后的第m個圖像幀的第二特征、與上述第二特征對應(yīng)的第二預(yù)設(shè)權(quán)重,預(yù)測各上述目標(biāo)物體在上述時序在后的第m個圖像幀中的運動信息,m為整數(shù),且m>1。

在本實施例的一些可選的實現(xiàn)方式中,上述運動信息預(yù)測單元504進一步用于:根據(jù)提取的各上述第一特征和各上述第二特征,利用預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)預(yù)測各上述目標(biāo)物體分別在各上述至少一在后圖像幀中的運動信息,其中,上述預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣包括上述第一預(yù)設(shè)權(quán)重以及上述第二預(yù)設(shè)權(quán)重。

在本實施例的一些可選的實現(xiàn)方式中,在m大于2時,上述預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)通過以下第一訓(xùn)練模塊得到,上述第一訓(xùn)練模塊用于:

將預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣分為第三權(quán)重和第四權(quán)重;將上述第三權(quán)重確定為上述m個圖像幀中的第1個圖像幀的的特征上述第一預(yù)設(shè)權(quán)重的初始值;將第四權(quán)重分別確定為第t個圖像幀的特征的上述第二預(yù)設(shè)權(quán)重的初始值,其中,2≤t≤m,且t為正整數(shù)。

上述預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò)通過第二訓(xùn)練模塊得到,上述第二訓(xùn)練模塊用于:

分別提取已標(biāo)注的訓(xùn)練用視頻中時序相鄰的兩個樣本圖像幀中上述目標(biāo)物體的特征;根據(jù)提取的特征預(yù)測上述目標(biāo)物體在時序在后的樣本圖像幀中的運動信息;根據(jù)上述運動信息的預(yù)測結(jié)果和上述訓(xùn)練用視頻的標(biāo)注信息,調(diào)整第二神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣,直至滿足上述第二神經(jīng)網(wǎng)絡(luò)預(yù)定的訓(xùn)練完成條件。

在本實施例的一些可選的實現(xiàn)方式中,上述運動信息預(yù)測單元504進一步包括圖5中未示出的相對變化信息確定模塊和預(yù)測模塊。

其中,相對變化信息確定模塊,用于根據(jù)各上述第一特征和各上述第二特征,確定各上述在后圖像幀在各上述第一位置區(qū)域中的各目標(biāo)物體相對上述檢測圖像幀在上述第一位置區(qū)域中的目標(biāo)物體的相對變化信息。

預(yù)測模塊,用于至少根據(jù)各上述目標(biāo)物體的相對變化信息,預(yù)測各上述目標(biāo)物體在各上述在后圖像幀中的運動信息。

在本實施例的一些可選的實現(xiàn)方式中,上述相對位置變化信息包括:上述在后圖像幀中的上述第一位置區(qū)域中心點在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量、上述在后圖像幀中的上述第一位置區(qū)域中心點在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量。

在本實施例的一些可選的實現(xiàn)方式中,上述相對位置變化信息包括:上述在后圖像幀中的上述第一位置區(qū)域在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量、上述在后圖像幀中的上述第一位置區(qū)域在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量。

在本實施例的一些可選的實現(xiàn)方式中,上述位置區(qū)域確定單元505可以進一步包括圖5中未示出的位置區(qū)域確定模塊,用于根據(jù)上述第一位置區(qū)域、上述在后圖像幀中的上述第一位置區(qū)域中心點在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量、上述在后圖像幀中的上述第一位置區(qū)域中心點在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量、上述在后圖像幀中的上述第一位置區(qū)域在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量和上述在后圖像幀中的上述第一位置區(qū)域在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量,確定各上述目標(biāo)物體在各上述至少一在后圖像幀中的位置區(qū)域。

在本實施例的一些可選的實現(xiàn)方式中,上述預(yù)測模塊進一步用于:根據(jù)上述在后圖像幀中的上述第一位置區(qū)域中心點在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量,和上述在后圖像幀中的上述第一位置區(qū)域中心點在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量,預(yù)測預(yù)測各上述目標(biāo)物體在各上述在后圖像幀中的運動信息。

其中,各上述在后圖像幀中的上述第一位置區(qū)域中心點在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量根據(jù)各上述在后圖像幀中各上述目標(biāo)物體的第二特征較與其對應(yīng)的各上述目標(biāo)物體的第一特征在水平方向的移動量確定。

上述在后圖像幀中的上述第一位置區(qū)域中心點在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域中心點的移動量根據(jù)各上述在后圖像幀中各目標(biāo)物體的第二特征較與其對應(yīng)的各上述目標(biāo)物體的第一特征在豎直方向的移動量確定。

在本實施例的一些可選的實現(xiàn)方式中,上述預(yù)測模塊進一步用于:根據(jù)上述在后圖像幀中的上述第一位置區(qū)域在水平方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量和上述在后圖像幀中的上述第一位置區(qū)域在豎直方向上較上述檢測圖像幀中的上述第一位置區(qū)域的變化量,預(yù)測各上述目標(biāo)物體在各上述在后圖像幀中的運動信息。

其中,上述在后圖像幀中上述第一位置區(qū)域在水平方向上較上述檢測圖像幀中上述第一位置區(qū)域的變化量根據(jù)各上述在后圖像幀中各上述目標(biāo)物體的第二特征較與其對應(yīng)的各目標(biāo)物體的第一特征在水平方向的變化量確定。

上述在后圖像幀中上述第一位置區(qū)域在豎直方向上較上述檢測圖像幀中上述第一位置區(qū)域的變化量根據(jù)各上述在后圖像幀中各上述目標(biāo)物體的第二特征較與其對應(yīng)的各目標(biāo)物體的第一特征在豎直方向的變化量確定。

在本實施例的一些可選的實現(xiàn)方式中,上述位置區(qū)域確定單元505可以進一步用于:將上述第一位置區(qū)域作為各上述目標(biāo)物體在各上述在后圖像幀中的第二位置區(qū)域;根據(jù)上述在后圖像幀在上述第一位置區(qū)域中的各目標(biāo)物體相對上述檢測圖像幀在上述第一位置區(qū)域中的目標(biāo)物體的相對變化信息,更新上述第二位置區(qū)域,得到各上述目標(biāo)物體在各上述在后圖像幀中的位置區(qū)域。

在本實施例的一些可選的實現(xiàn)方式中,上述用于檢測視頻中物體的裝置500還可以包括圖5中未示出的第三特征提取單元和類別確定單元。

第三特征提取單元,用于響應(yīng)于各上述目標(biāo)物體在上述待檢測的視頻或上述視頻子段中的各圖像幀中的位置區(qū)域確定完成,提取各上述目標(biāo)物體在上述待檢測的視頻或上述視頻子段的各圖像幀中的位置區(qū)域中的第三特征。

類別確定單元,用于根據(jù)提取的各第三特征,分別確定各圖像幀中的目標(biāo)物體的類別。

在本實施例的一些可選的實現(xiàn)方式中,每個上述待檢測的視頻或每一上述視頻子段包括n個時序連續(xù)的圖像幀,n>1,且n為整數(shù)。上述第三特征提取單元可以進一步用于:按照時序順序提取上述n個圖像幀的第三特征;對于第i個圖像幀,對其第三特征和該圖像幀之前的i-1個圖像幀的第三特征進行編碼,直至對第n個圖像幀的第三特征編碼完成,其中,1≤i≤n。

在本實施例的一些可選的實現(xiàn)方式中,上述類別確定單元可以進一步包括圖5中未示出的解碼結(jié)果確定模塊和類別確定模塊。

其中,解碼結(jié)果確定模塊,用于根據(jù)提取的各第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定各圖像幀的第三特征的解碼結(jié)果。

類別確定模塊,用于根據(jù)各圖像幀的第三特征的解碼結(jié)果,分別確定各圖像幀中的目標(biāo)物體的類別。

在本實施例的一些可選的實現(xiàn)方式中,上述解碼結(jié)果確定模塊可以進一步用于:按照時序倒序,對上述n個圖像幀的第三特征的編碼結(jié)果進行解碼;對于第j個圖像幀,根據(jù)第j個圖像幀的第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定第j個圖像幀的第三特征的解碼結(jié)果,直至上述n個圖像幀的第三特征解碼完成。

圖6示出了根據(jù)本申請的用于檢測視頻中物體的裝置的結(jié)構(gòu)示意圖。如圖6所示,本實施例的用于檢測視頻中物體的裝置600包括:第二位置區(qū)域確定單元601、第一特征提取單元602以及第一類別確定單元603。

其中,第二位置區(qū)域確定單元601,用于確定至少一目標(biāo)物體在待檢測的視頻包括的各圖像幀中的位置區(qū)域。

第一特征提取單元602,用于提取各上述目標(biāo)物體在上述待檢測的視頻或上述視頻子段的各圖像幀中的位置區(qū)域中的第三特征。

第一類別確定單元603,用于根據(jù)提取的各第三特征,分別確定各圖像幀中的目標(biāo)物體的類別。

本申請的上述實施例提供的用于檢測視頻中物體的裝置,在確定了各目標(biāo)物體在各圖像幀中的位置區(qū)域后,可以根據(jù)各位置區(qū)域的第三特征實現(xiàn)對各目標(biāo)物體的分類,擴展了對視頻中物體檢測的功能。

在本實施例的一些可選的實現(xiàn)方式中,每個上述待檢測的視頻包括n個時序連續(xù)的圖像幀,n>1,且n為整數(shù)。則上述第一特征提取單元602可以進一步用于:按照時序順序提取上述n個圖像幀的第三特征;對于第i個圖像幀,對其第三特征和該圖像幀之前的i-1個圖像幀的第三特征進行編碼,直至對第n個圖像幀的第三特征編碼完成,其中,1≤i≤n。

在本實施例的一些可選的實現(xiàn)方式中,上述第一類別確定單元603可以進一步包括圖6中未示出的第一解碼結(jié)果確定模塊以及第一類別確定模塊。

其中,第一解碼結(jié)果確定模塊,用于根據(jù)提取的各第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定各圖像幀的第三特征的解碼結(jié)果。

第一類別確定模塊,用于根據(jù)各圖像幀的第三特征的解碼結(jié)果,分別確定各圖像幀中的目標(biāo)物體的類別。

在本實施例的一些可選的實現(xiàn)方式中,上述第一解碼結(jié)果確定模塊可以進一步用于:按照時序倒序,對上述n個圖像幀的第三特征的編碼結(jié)果進行解碼;對于第j個圖像幀,根據(jù)第j個圖像幀的第三特征和第n個圖像幀的第三特征的編碼結(jié)果,確定第j個圖像幀的第三特征的解碼結(jié)果,直至上述n個圖像幀的第三特征解碼完成。

附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。

描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括檢測圖像幀確定單元、第一位置區(qū)域確定單元、特征提取單元、運動信息預(yù)測單元及位置區(qū)域確定單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對該單元本身的限定,例如,檢測圖像幀確定單元還可以被描述為“確定待檢測的視頻中至少一圖像幀為檢測圖像幀的單元”。

本發(fā)明實施例還提供了一種電子設(shè)備,例如可以是移動終端、個人計算機(PC)、平板電腦、服務(wù)器等。下面參考圖7,其示出了適于用來實現(xiàn)本申請實施例的終端設(shè)備或服務(wù)器的電子設(shè)備700的結(jié)構(gòu)示意圖:如圖7所示,計算機系統(tǒng)700包括一個或多個處理器、通信部等,上述一個或多個處理器例如:一個或多個中央處理單元(CPU)701,和/或一個或多個圖像處理器(GPU)713等,處理器可以根據(jù)存儲在只讀存儲器(ROM)702中的可執(zhí)行指令或者從存儲部分708加載到隨機訪問存儲器(RAM)703中的可執(zhí)行指令而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚怼Mㄐ挪?12可包括但不限于網(wǎng)卡,上述網(wǎng)卡可包括但不限于IB(Infiniband)網(wǎng)卡。

處理器可與ROM 702和/或RAM 703通信以執(zhí)行可執(zhí)行指令,通過總線704與通信部712相連、并經(jīng)通信部712與其他目標(biāo)設(shè)備通信,從而完成本申請實施例提供的任一項方法對應(yīng)的操作,例如,確定待檢測的視頻中至少一圖像幀為檢測圖像幀;獲取上述檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域;分別提取各上述檢測圖像幀中各上述第一位置區(qū)域的第一特征和上述視頻中相對各上述檢測圖像幀時序連續(xù)的至少一在后圖像幀在各上述第一位置區(qū)域的第二特征;根據(jù)提取的各上述第一特征和各上述第二特征,預(yù)測各上述目標(biāo)物體分別在各上述至少一在后圖像幀中的運動信息;至少根據(jù)各上述目標(biāo)物體在各上述檢測圖像幀中的上述第一位置區(qū)域及各上述目標(biāo)物體在各上述至少一在后圖像幀中的運動信息的預(yù)測結(jié)果,確定各上述目標(biāo)物體在各上述至少一在后圖像幀中的位置區(qū)域?;蛲瓿杀旧暾垖嵤├峁┑娜我豁椃椒▽?yīng)的操作,例如,確定至少一目標(biāo)物體在待檢測的視頻包括的各圖像幀中的位置區(qū)域;提取各所述目標(biāo)物體在所述待檢測的視頻或所述視頻子段的各圖像幀中的位置區(qū)域中的第三特征;根據(jù)提取的各第三特征,分別確定各圖像幀中的目標(biāo)物體的類別。

此外,在RAM 703中,還可存儲有裝置操作所需的各種程序和數(shù)據(jù)。CPU 701、ROM 702以及RAM 703通過總線704彼此相連。在有RAM 703的情況下,ROM 702為可選模塊。RAM 703存儲可執(zhí)行指令,或在運行時向ROM 702中寫入可執(zhí)行指令,可執(zhí)行指令使CPU 701執(zhí)行上述通信方法對應(yīng)的操作。輸入/輸出(I/O)接口705也連接至總線704。通信部712可以集成設(shè)置,也可以設(shè)置為具有多個子模塊(例如多個IB網(wǎng)卡),并在總線704鏈接上。

以下部件連接至I/O接口705:包括鍵盤、鼠標(biāo)等的輸入部分706;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分707;包括硬盤等的存儲部分708;以及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分709。通信部分709經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器710也根據(jù)需要連接至I/O接口705??刹鹦督橘|(zhì)711,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器710上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分708。

需要說明的,如圖6所示的架構(gòu)僅為一種可選實現(xiàn)方式,在具體實踐過程中,可根據(jù)實際需要對上述圖6的部件數(shù)量和類型進行選擇、刪減、增加或替換;在不同功能部件設(shè)置上,也可采用分離設(shè)置或集成設(shè)置等實現(xiàn)方式,例如GPU 713和CPU 701可分離設(shè)置或者可將GPU 713集成在CPU 701上,通信部可分離設(shè)置,也可集成設(shè)置在CPU701或GPU 713上,等等。這些可替換的實施方式均落入本發(fā)明公開的保護范圍。

特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產(chǎn)品,其包括有形地包含在機器可讀介質(zhì)上的計算機程序,計算機程序包含用于執(zhí)行流程圖所示的方法的程序代碼,程序代碼可包括對應(yīng)執(zhí)行本申請實施例提供的方法步驟對應(yīng)的指令,例如,確定待檢測的視頻中至少一圖像幀為檢測圖像幀;獲取上述檢測圖像幀所包含的至少一目標(biāo)物體對應(yīng)的第一位置區(qū)域;分別提取各上述檢測圖像幀中各上述第一位置區(qū)域的第一特征和上述視頻中相對各上述檢測圖像幀時序連續(xù)的至少一在后圖像幀在各上述第一位置區(qū)域的第二特征;根據(jù)提取的各上述第一特征和各上述第二特征,預(yù)測各上述目標(biāo)物體分別在各上述至少一在后圖像幀中的運動信息;至少根據(jù)各上述目標(biāo)物體在各上述檢測圖像幀中的上述第一位置區(qū)域及各上述目標(biāo)物體在各上述至少一在后圖像幀中的運動信息的預(yù)測結(jié)果,確定各上述目標(biāo)物體在各上述至少一在后圖像幀中的位置區(qū)域?;驁?zhí)行本申請實施例提供的方法步驟對應(yīng)的指令,例如,確定至少一目標(biāo)物體在待檢測的視頻包括的各圖像幀中的位置區(qū)域;提取各所述目標(biāo)物體在所述待檢測的視頻或所述視頻子段的各圖像幀中的位置區(qū)域中的第三特征;根據(jù)提取的各第三特征,分別確定各圖像幀中的目標(biāo)物體的類別。在這樣的實施例中,該計算機程序可以通過通信部分709從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)711被安裝。在該計算機程序被CPU 701執(zhí)行時,執(zhí)行本申請的方法中限定的上述功能。

可能以許多方式來實現(xiàn)本發(fā)明的方法和裝置、設(shè)備。例如,可通過軟件、硬件、固件或者軟件、硬件、固件的任何組合來實現(xiàn)本發(fā)明的方法和裝置、設(shè)備。用于方法的步驟的上述順序僅是為了進行說明,本發(fā)明的方法的步驟不限于以上具體描述的順序,除非以其它方式特別說明。此外,在一些實施例中,還可將本發(fā)明實施為記錄在記錄介質(zhì)中的程序,這些程序包括用于實現(xiàn)根據(jù)本發(fā)明的方法的機器可讀指令。因而,本發(fā)明還覆蓋存儲用于執(zhí)行根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。

本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發(fā)明限于所公開的形式。很多修改和變化對于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描述實施例是為了更好說明本發(fā)明的原理和實際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計適于特定用途的帶有各種修改的各種實施例。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1