亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于對(duì)視頻中的物體設(shè)界的方法和設(shè)備與流程

文檔序號(hào):11808930閱讀:295來(lái)源:國(guó)知局
用于對(duì)視頻中的物體設(shè)界的方法和設(shè)備與流程

下文公開(kāi)了用于對(duì)視頻序列中的移動(dòng)物體設(shè)界的方法。這一方法用于對(duì)視頻中的區(qū)域或物體作注釋從而指示其位置和/或添加可用于各種目的的文本或上下文信息。例如,出于譴責(zé)的目的,這可用于隱藏或?qū)⒛:砑拥揭曨l區(qū)域。在另一示例中,對(duì)視頻中的區(qū)域作注釋允許建立地面實(shí)況(ground truth),該地面實(shí)況可用于評(píng)估諸如物體或面部檢測(cè)算法之類(lèi)的計(jì)算機(jī)視覺(jué)算法。還公開(kāi)了相應(yīng)的設(shè)備。



背景技術(shù):

該部分意為向讀者介紹本領(lǐng)域的各方面,其可與下面所描述和/或所聲明保護(hù)的本發(fā)明的各方面相關(guān)。相信本論述有助于向讀者提供背景信息以協(xié)助對(duì)本發(fā)明的各方面進(jìn)行更好的理解。相應(yīng)地,應(yīng)理解的是,這些陳述應(yīng)從該方面來(lái)閱讀,并不承認(rèn)為現(xiàn)有技術(shù)。

視頻注釋對(duì)于各種應(yīng)用是十分有用的,例如,出于譴責(zé)的目的來(lái)隱藏或模糊移動(dòng)物體。視頻注釋對(duì)于生成地面實(shí)況從而評(píng)估計(jì)算機(jī)視覺(jué)中的物體檢測(cè)算法(訓(xùn)練算法和測(cè)試其性能二者)也十分有用。直接的方法是手動(dòng)地對(duì)視頻序列的每個(gè)幀作注釋?zhuān)@可能十分乏味和耗時(shí)。當(dāng)要作注釋的物體是靜態(tài)的時(shí),或者當(dāng)其形狀不隨著視頻序列而變化時(shí),已知一些現(xiàn)有方法,在這些方法中,對(duì)一些幀作注釋并且跟蹤物體的軌跡。例如,美國(guó)專(zhuān)利7911482“用于圖像序列中的物體軌跡的有效注釋的方法和系統(tǒng)(Method and system for efficient annotation of object trajectories in image sequences)”公開(kāi)了對(duì)視頻中的物體作注釋的方法。該方法包括初始執(zhí)行視頻序列的初始時(shí)間子采樣。經(jīng)子采樣的圖像序列被顯示于交互屏上的兩個(gè)正交方向。用戶(hù)通過(guò)經(jīng)由交互屏跟蹤物體以在兩個(gè)正交的經(jīng)子采樣的序列上作注釋來(lái)繪制兩個(gè)正交軌跡。該方法還描述了獲得近地軌道(neo) 軌跡,該近地軌道軌跡進(jìn)一步被內(nèi)插到剩余的視頻序列中。然而,這一方法不能精確地對(duì)大小和形狀隨著視頻序列變化的物體作注釋。實(shí)際上,盡管現(xiàn)有方法可以捕獲移動(dòng)物體軌跡,但這些方法不能將視頻的每個(gè)幀的經(jīng)注釋區(qū)域的大小進(jìn)行調(diào)整以適應(yīng)要注釋的物體的變化的大小/形狀。因此,需要一些新的有效方法來(lái)自動(dòng)地對(duì)視頻序列中的變化大小和/或形狀的移動(dòng)物體作注釋?zhuān)鵁o(wú)需手動(dòng)編輯和注釋每個(gè)幀。



技術(shù)實(shí)現(xiàn)要素:

公開(kāi)了用于對(duì)視頻序列Fx,y,t中的物體設(shè)界的方法。該方法包括在視頻序列的每個(gè)幀中獲得位于要注釋的物體中的像素子集。以所獲得的像素子集為中心,對(duì)視頻序列Fx,y,t執(zhí)行空時(shí)切割,從而通過(guò)第一切片的水平串聯(lián)獲得第一圖像Fy,t,并且通過(guò)第二切片的垂直串聯(lián)獲得第二圖像Fx,t,其中第一切片包括所獲得的像素子集。所獲得的像素子集的軌跡顯示于第一圖像Fy,t和第二圖像Fx,t二者上。通過(guò)使用輪廓檢測(cè)方法,在第一圖像Fy,t和第二圖像Fx,t二者上、在所獲得的像素子集的軌跡周?chē)@得第一邊界和第二邊界。要注釋的物體周?chē)脑O(shè)界形態(tài)(bounding form)從視頻序列的每個(gè)幀中的四個(gè)點(diǎn)獲得,其中幀t的四個(gè)點(diǎn)的坐標(biāo)是從針對(duì)該幀t的位于第一圖像和第二圖像的第一邊界和第二邊界中的點(diǎn)的坐標(biāo)獲得的。有利地,設(shè)界形態(tài)是從四個(gè)點(diǎn)繪制的矩形,或者內(nèi)接在該矩形中的橢圓形,或者包括這四個(gè)點(diǎn)的橢圓形。

根據(jù)優(yōu)選實(shí)施例,例如通過(guò)用戶(hù)編輯第一圖像Fy,t和第二圖像Fx,t之一、調(diào)整所獲得子集的相應(yīng)(第一或第二)軌跡以及通過(guò)自動(dòng)再生成其他圖像Fy,t或Fx,t,來(lái)交互式地細(xì)調(diào)設(shè)界形態(tài)。更精確地,方法還包括:調(diào)整第一圖像中的像素子集的軌跡,獲得第二圖像的更新版本,獲得第二軌跡的更新版本,獲得第二圖像的更新版本上的第二軌跡的更新版本周?chē)牡谝贿吔绾偷诙吔绲母掳姹?,以及獲得物體周?chē)脑O(shè)界形態(tài)的更新版本。

根據(jù)特定優(yōu)勢(shì)的變體,第一切片是垂直切片,第二切片是水平切片。

根據(jù)特定優(yōu)勢(shì)的變體,第一切片中的每個(gè)切片相對(duì)于垂直方向而言是傾斜的,并且其傾斜度對(duì)于視頻序列的一組連續(xù)幀是恒定的。

根據(jù)特定優(yōu)勢(shì)的變體,第一切片相對(duì)于垂直方向的傾斜度是可由用戶(hù)在視頻序列的多個(gè)幀上進(jìn)行調(diào)整的,并且傾斜度進(jìn)一步被內(nèi)插到視頻序列的其余幀中。

根據(jù)特定優(yōu)勢(shì)的變體,像素子集是從如下中選擇的:

-單個(gè)像素,

-四個(gè)像素的塊,

-八個(gè)像素的塊,

-十六個(gè)像素的塊。

在第二方面,還公開(kāi)了基于每幀根據(jù)像素子集來(lái)對(duì)視頻序列中的物體設(shè)界的設(shè)備。該設(shè)備包括處理器,該處理器被配置為:

-從第一空時(shí)切割獲得第一圖像,其中,第一圖像是第一切片的水平串聯(lián),該第一切片包括沿著視頻序列的幀的像素子集;

-從第二空時(shí)切割獲得第二圖像,其中,第二圖像是第二切片的垂直串聯(lián),該第二切片包括沿著視頻序列的幀的像素子集,第二切片中的每一個(gè)與同一幀的第一切片相垂直;

-在第一圖像和第二圖像中的每一個(gè)上獲得基于每幀的像素子集的第一軌跡和第二軌跡;

-通過(guò)輪廓檢測(cè)方法在第一圖像和第二圖像中的每一個(gè)上、在第一軌跡和第二軌跡周?chē)@得第一邊界和第二邊界;

-在視頻序列的每個(gè)幀中、從物體周?chē)乃膫€(gè)點(diǎn)獲得設(shè)界形態(tài),其中幀t中的四個(gè)點(diǎn)的坐標(biāo)是從針對(duì)該幀t的位于第一圖像和第二圖像的第一邊界和第二邊界中的點(diǎn)的坐標(biāo)獲得的。

在第三方面,還公開(kāi)了基于每幀根據(jù)像素子集來(lái)對(duì)視頻序列中的物體設(shè)界的計(jì)算機(jī)程序。該計(jì)算機(jī)程序包括程序代碼指令,所述程序代碼指令可由處理器執(zhí)行,以:

-從第一空時(shí)切割獲得第一圖像,其中,第一圖像是第一切片的水平串聯(lián),該第一切片包括沿著視頻序列的幀的像素子集;

-從第二空時(shí)切割獲得第二圖像,其中,第二圖像是第二切片的垂直串聯(lián),該第二切片包括沿著視頻序列的幀的像素子集,第二切片中的每一 個(gè)與同一幀的第一切片相垂直;

-在第一圖像和第二圖像中的每一個(gè)上獲得基于每幀的像素子集的第一軌跡和第二軌跡;

-通過(guò)輪廓檢測(cè)方法在第一圖像和第二圖像中的每一個(gè)上、在第一軌跡和第二軌跡周?chē)@得第一邊界和第二邊界;

-在視頻序列的每個(gè)幀中、從物體周?chē)乃膫€(gè)點(diǎn)獲得設(shè)界形態(tài),其中幀t中的四個(gè)點(diǎn)的坐標(biāo)是從針對(duì)該幀t的位于第一圖像和第二圖像的第一邊界和第二邊界中的點(diǎn)的坐標(biāo)獲得的。

在第四方面,還公開(kāi)了基于每幀根據(jù)像素子集來(lái)對(duì)視頻序列中的物體設(shè)界的計(jì)算機(jī)程序產(chǎn)品。該計(jì)算機(jī)程序產(chǎn)品被存儲(chǔ)于非暫態(tài)計(jì)算機(jī)可讀介質(zhì)上,并且包括程序代碼指令,所述程序代碼指令可由處理器執(zhí)行,以:

-從第一空時(shí)切割獲得第一圖像,其中,第一圖像是第一切片的水平串聯(lián),該第一切片包括沿著視頻序列的幀的像素子集;

-從第二空時(shí)切割獲得第二圖像,其中,第二圖像是第二切片的垂直串聯(lián),該第二切片包括沿著視頻序列的幀的像素子集,第二切片中的每一個(gè)與同一幀的第一切片相垂直;

-在第一圖像和第二圖像中的每一個(gè)上獲得基于每幀的像素子集的第一軌跡和第二軌跡;

-通過(guò)輪廓檢測(cè)方法在第一圖像和第二圖像中的每一個(gè)上、在第一軌跡和第二軌跡周?chē)@得第一邊界和第二邊界;

-在視頻序列的每個(gè)幀中、從物體周?chē)乃膫€(gè)點(diǎn)獲得設(shè)界形態(tài),其中幀t中的四個(gè)點(diǎn)的坐標(biāo)是從針對(duì)該幀t的位于第一圖像和第二圖像的第一邊界和第二邊界中的點(diǎn)的坐標(biāo)獲得的。

盡管沒(méi)有明確描述,但本文的實(shí)施例可以任何組合或子組合的形式來(lái)使用。例如,本發(fā)明不限于所描述的像素子集和設(shè)界形態(tài)變體,并且可以使用像素子集或設(shè)界形態(tài)變體的任何安排。而且,本發(fā)明不限于所描述的空時(shí)切割特性,并且可以使用貫穿視頻序列來(lái)調(diào)整切片傾斜度的其他方式。

另外,所描述的設(shè)界方法的任何特性或?qū)嵤├c意為處理所公開(kāi)的方法和存儲(chǔ)程序指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)相兼容。

附圖說(shuō)明

在附圖中,示出了本發(fā)明的實(shí)施例,其示出了:

-圖1根據(jù)本發(fā)明的特定非限制性示例,描繪了對(duì)視頻中的物體設(shè)界的處理設(shè)備;

-圖2根據(jù)本發(fā)明的特定非限制性示例,表示了圖1的處理設(shè)備的示例性架構(gòu);

-圖3根據(jù)優(yōu)選實(shí)施例,示出了對(duì)視頻中的物體設(shè)界的方法;

-圖4根據(jù)優(yōu)選實(shí)施例,示出了視頻序列的示例、像素子集選擇的示例以及切割的示例;

-圖5根據(jù)優(yōu)選實(shí)施例,示出了空時(shí)切割結(jié)果的示例以及設(shè)界形態(tài)的示例;

-圖6根據(jù)替代實(shí)施例,示出了切割和設(shè)界的示例。

具體實(shí)施方式

圖1描繪了對(duì)視頻序列Fx,y,t中的物體設(shè)界的處理設(shè)備1,其中,像素子集是基于視頻序列Fx,y,t的每幀而獲得的。根據(jù)本發(fā)明的特定非限制性實(shí)施例,處理設(shè)備1包括輸入裝置10,該輸入裝置10被配置為接收視頻序列。視頻序列是從源獲得的。根據(jù)本發(fā)明的不同實(shí)施例,源屬于包括如下項(xiàng)的集合:

-本地存儲(chǔ)器,例如,視頻存儲(chǔ)器、RAM、閃存、硬盤(pán)、SD卡;

-存儲(chǔ)接口,例如,與大容量存儲(chǔ)設(shè)備、ROM、光盤(pán)或磁性架(magnetic support)的接口;

-通信接口,例如,電線接口(例如,總線接口、廣域網(wǎng)接口、局域網(wǎng)接口)或無(wú)線接口(例如,IEEE 802.11接口、藍(lán)牙接口、蜂窩移動(dòng)電話接口)。

輸入裝置10還被配置為從用戶(hù)接收關(guān)于幀的選擇數(shù)據(jù)。選擇數(shù)據(jù)是由用戶(hù)經(jīng)由選擇裝置(未表示)生成的,以獲得要注釋的物體中所包括的像素子集。根據(jù)本發(fā)明的不同實(shí)施例,選擇裝置屬于包括如下項(xiàng)的集合:

-觸摸屏傳感器及其隨附的基于控制器的固件,其能夠結(jié)合諸如筆或手指之類(lèi)的外部物體來(lái)選擇視頻序列的至少一個(gè)幀中的像素子集;

-鼠標(biāo),其與其他輸入信號(hào)(例如,鍵盤(pán)的一些鍵)結(jié)合并且與一些視頻顯示功能相關(guān)聯(lián)從而選擇視頻序列的至少一個(gè)幀中的像素子集。

更一般地,允許獲得要注釋的物體中所包括的像素子集的任何選擇裝置都符合本發(fā)明。

輸入裝置10被鏈接到處理模塊11,處理模塊11被配置為在視頻序列的至少一個(gè)幀中根據(jù)選擇數(shù)據(jù)來(lái)獲得像素子集,其中選擇數(shù)據(jù)表示要注釋的物體中所包括的位置,其中,視頻序列的至少一個(gè)幀從對(duì)視頻序列的時(shí)間子采樣來(lái)得到。有利地,處理模塊11被配置為通過(guò)將所選擇的經(jīng)子采樣的幀的像素子集內(nèi)插到其余幀來(lái)獲得視頻序列的每個(gè)幀中的像素子集。在變體中,處理模塊11處于設(shè)備1的外部,并且在該情形中,基于視頻序列的每幀的像素子集是由設(shè)備1經(jīng)由輸入裝置10來(lái)接收的。處理模塊11被鏈接至兩個(gè)空時(shí)切割模塊121和122,該空時(shí)切割模塊121和122被配置為獲得第一圖像和第二圖像。第一圖像是從空時(shí)切割模塊121通過(guò)第一切片的水平串聯(lián)獲得的,其中,第一切片包括針對(duì)視頻序列的幀由處理模塊11獲得的像素子集。第二圖像是從空時(shí)切割模塊122通過(guò)第二切片的垂直串聯(lián)獲得的,其中,第二切片包括針對(duì)視頻序列的幀由處理模塊11獲得的像素子集,并且其中,第二切片中的每個(gè)切片沿著視頻序列與同一幀的第一切片正交。

空時(shí)切割模塊121和122中的每一個(gè)分別被鏈接至處理模塊131和132,處理模塊131和132被配置為分別在第一圖像和第二圖像上分別獲得第一軌跡和第二軌跡。更精確地,處理模塊131被配置為沿著第一圖像的水平串聯(lián)的切片來(lái)串聯(lián)像素子集所占用的區(qū)域,從而產(chǎn)生第一軌跡。類(lèi)似地,處理模塊132被配置為沿著第二圖像的垂直串聯(lián)的切片來(lái)串聯(lián)像素子集所占用的區(qū)域,從而產(chǎn)生第二軌跡。根據(jù)特定實(shí)施例,所產(chǎn)生的第一軌跡和第二軌跡與第一圖像和第二圖像一起被處理模塊131和132發(fā)送至輸出裝置18(例如,顯示裝置)。像素子集的第一軌跡和像素子集的第二軌跡分別與第一圖像和第二圖像顯示于顯示裝置上。用戶(hù)可以決定調(diào)整相 應(yīng)的(第一或第二)圖像上的像素子集的第一軌跡或第二軌跡的位置,并且另一圖像(第二或第一)被重新計(jì)算。例如,用戶(hù)決定調(diào)整第一圖像上的第一軌跡。這通過(guò)經(jīng)由選擇裝置來(lái)向處理模塊131發(fā)送選擇數(shù)據(jù)來(lái)完成,處理模塊131經(jīng)由輸出裝置18向顯示裝置發(fā)送經(jīng)修改的圖像。處理模塊131向空時(shí)切割模塊122發(fā)送經(jīng)調(diào)整的像素子集的軌跡,空時(shí)切割模塊122被配置為根據(jù)第二切片的垂直串聯(lián)來(lái)重新計(jì)算第二圖像,其中第二切片包括從沿著視頻序列針對(duì)幀的經(jīng)更新軌跡獲得的像素子集。經(jīng)重新計(jì)算的第二圖像被發(fā)送至處理模塊132,以獲得第二圖像上的經(jīng)更新的像素子集的軌跡。所產(chǎn)生的經(jīng)重新計(jì)算的第二圖像和經(jīng)更新的第二軌跡將被發(fā)送至輸出裝置18并向用戶(hù)顯示。還適用如下類(lèi)似處理,其中用戶(hù)調(diào)整第二圖像上的像素子集的第二軌跡的位置,并且第一圖像被重新計(jì)算。

處理模塊131和132中的每一個(gè)還分別被鏈接到處理模塊141、142,處理模塊141、142被配置為在其相應(yīng)第一軌跡或第二軌跡周?chē)鄳?yīng)地獲得第一邊界和第二邊界。換言之,處理模塊131向處理模塊141發(fā)送與第一圖像和像素集合的第一軌跡相對(duì)應(yīng)的數(shù)據(jù),處理模塊141被配置為獲得第一軌跡周?chē)牡谝缓偷诙吔?。?lèi)似地,處理模塊132向處理模塊142發(fā)送與第二圖像和像素集合的第二軌跡相對(duì)應(yīng)的數(shù)據(jù),處理模塊142被配置為獲得第一軌跡周?chē)牡谝缓偷诙吔纭?/p>

處理模塊141和142中的每一個(gè)分別向處理模塊16發(fā)送第一圖像和第二圖像以及與其第一邊界和第二邊界相對(duì)應(yīng)的數(shù)據(jù),處理模塊16被配置為在要注釋的物體周?chē)@得設(shè)界形態(tài)。設(shè)界形態(tài)是在視頻序列的每個(gè)幀中、由基于每幀的四個(gè)點(diǎn)獲得的,其中幀t中的四個(gè)點(diǎn)的坐標(biāo)(X,Y)是從針對(duì)該幀t位于第一圖像和第二圖像的第一邊界和第二邊界中的點(diǎn)的坐標(biāo)獲得的。根據(jù)特定實(shí)施例,處理模塊16向視頻輸出裝置18發(fā)送所產(chǎn)生的經(jīng)注釋的視頻序列,其中,視頻序列的物體在每個(gè)幀中由所獲得設(shè)界形態(tài)來(lái)設(shè)界。

根據(jù)特定實(shí)施例,顯示裝置處于設(shè)備的外部,并且輸出裝置18發(fā)送數(shù)據(jù)以顯示于外部的顯示裝置上。根據(jù)本發(fā)明的不同實(shí)施例,顯示裝置(內(nèi)部或外部)屬于包括如下項(xiàng)的集合:

-個(gè)人計(jì)算機(jī)屏幕;

-TV屏幕;

-平板計(jì)算機(jī);

-智能電話屏幕。

更一般地,允許在視頻序列中要注釋的物體周?chē)@示設(shè)界形態(tài)的任何顯示裝置均符合本發(fā)明。

在變體中,設(shè)界形態(tài)和/或其相應(yīng)的四個(gè)點(diǎn)坐標(biāo)被存儲(chǔ)于存儲(chǔ)器中。如一示例,這樣的信息被存儲(chǔ)于遠(yuǎn)程存儲(chǔ)器或本地存儲(chǔ)器中,例如,視頻存儲(chǔ)器或RAM、硬盤(pán)。

圖2表示了根據(jù)本發(fā)明的特定非限制性實(shí)施例的處理設(shè)備1的示例性架構(gòu),其中,處理設(shè)備1被配置為對(duì)視頻序列中的物體設(shè)界。存儲(chǔ)器存儲(chǔ)視頻序列的幀,該視頻序列包括要注釋的物體。處理設(shè)備1包括一個(gè)或多個(gè)處理器210和內(nèi)部存儲(chǔ)器220(例如,RAM、ROM、EPROM),該處理器210例如可以是CPU、GPU和/或DSP(數(shù)字信號(hào)處理器的英文首字母縮寫(xiě))。處理設(shè)備1包括一個(gè)或若干個(gè)輸入/輸出接口230和電源240,該一個(gè)或若干個(gè)輸入/輸出接口230適于向顯示設(shè)備發(fā)送輸出信息和/或允許用戶(hù)輸入命令和/或數(shù)據(jù)(例如,鍵盤(pán)、鼠標(biāo)、觸摸板、網(wǎng)絡(luò)攝像頭、顯示器)和/或通過(guò)網(wǎng)絡(luò)接口進(jìn)行發(fā)送/接收,該電源240可以處于處理設(shè)備1的外部。

根據(jù)本發(fā)明的示例性且非限制性實(shí)施例,處理設(shè)備1還包括存儲(chǔ)于存儲(chǔ)器220中的計(jì)算機(jī)程序。計(jì)算機(jī)程序包括指令,當(dāng)該指令被處理設(shè)備1(尤其是處理器210)執(zhí)行時(shí),使得處理設(shè)備1實(shí)施參照?qǐng)D3所描述的處理方法。根據(jù)變體,計(jì)算機(jī)程序被存儲(chǔ)于處理設(shè)備1的外部的非暫態(tài)數(shù)字?jǐn)?shù)據(jù)支持上,例如,本領(lǐng)域已知的諸如SD卡、HDD、CD-ROM、DVD、只讀驅(qū)動(dòng)器和/或DVD驅(qū)動(dòng)器和/或DVD讀/寫(xiě)驅(qū)動(dòng)器之類(lèi)的外部存儲(chǔ)介質(zhì)。處理設(shè)備1因而包括讀取計(jì)算機(jī)程序的接口。另外,處理設(shè)備1可以通過(guò)相應(yīng)的USB端口(未示出)來(lái)訪問(wèn)一個(gè)或多個(gè)通用串行總線(USB)型存儲(chǔ)設(shè)備(例如,“存儲(chǔ)棒”)。根據(jù)示例性且非限制性實(shí)施例,處理設(shè)備1是屬于包括如下項(xiàng)的集合的設(shè)備:

-移動(dòng)設(shè)備;

-通信設(shè)備;

-游戲設(shè)備;

-平板(或平板計(jì)算機(jī));

-智能電話;

-膝上型計(jì)算機(jī);

-靜態(tài)圖片照相機(jī);

-視頻照相機(jī);

-靜態(tài)圖片服務(wù)器;

-視頻服務(wù)器(例如,廣播服務(wù)器、點(diǎn)播服務(wù)器或web服務(wù)器)。

圖3根據(jù)優(yōu)選實(shí)施例示出了用于對(duì)視頻序列中的物體設(shè)界的方法。在不具有任何限制或不失去一般性的情形下,為了清楚描述,如圖4所示,視頻序列40被視作具有三維(x,y,t)的容量,其中(x,y)表示幀400的空間維度,t表示時(shí)間維度。該容量還可被視為由一組空時(shí)2D切割片(cut)組成,每個(gè)空時(shí)2D切割片具有維度(x,t)或(y,t),其中,空時(shí)2D切割片是1D切片的串聯(lián),還被稱(chēng)為通過(guò)增加時(shí)間值在每個(gè)幀的選定的相同位置中的直接切片。

獲得像素子集的3D軌跡

在步驟S31中,根據(jù)從選擇裝置接收到的選擇數(shù)據(jù),在視頻序列40的至少一個(gè)幀400中獲得像素子集403??吹揭曨l序列40的至少一個(gè)幀400的用戶(hù)通過(guò)使用選擇裝置(例如,在觸摸屏上使用鼠標(biāo)或筆)在例如接近于要注釋的物體的中心處選擇所看到的至少一個(gè)幀的一部分。在第一變體中,在至少一個(gè)幀400上所獲得的像素子集403與所選擇的幀400的區(qū)域中所包括的像素相對(duì)應(yīng)。在第二變體中,在至少一個(gè)幀400上所獲得的像素子集403與位于所選擇的幀400的區(qū)域的中心處的單個(gè)像素相對(duì)應(yīng)。在另一變體中,在至少一個(gè)幀400上所獲得的像素子集403與位于所選擇的幀400的區(qū)域的中心處的四個(gè)像素的塊相對(duì)應(yīng)。在又一變體中,在至少一個(gè)幀400上所獲得的像素子集403與位于所選擇的幀400的區(qū)域的中心處的八個(gè)或十六個(gè)像素的塊相對(duì)應(yīng)。更一般地,從所選擇的區(qū)域獲得的任 何塊大小和形態(tài)均符合所公開(kāi)的方法。

在第一實(shí)施例中,像素子集403是根據(jù)上述所公開(kāi)的任何變體、基于從用戶(hù)接收到的選擇數(shù)據(jù)來(lái)在單個(gè)幀400中選擇的?;诿繋南袼刈蛹?03(被稱(chēng)為初始3D軌跡42)是通過(guò)將對(duì)于一個(gè)幀400而獲得的像素子集403的位置直線沿著對(duì)應(yīng)于視頻序列40的容量中的時(shí)間軸來(lái)內(nèi)插到序列40的所有幀中而獲得的。這在如下方面是有利的:需要用戶(hù)進(jìn)行單個(gè)的手動(dòng)注釋?zhuān)瑥亩@得初始3D軌跡,該初始3D軌跡隨后可按照稍后描述的交互式處理而被細(xì)調(diào)。

在第二實(shí)施例中,視頻序列被臨時(shí)子采樣為多個(gè)幀400,這些幀400由用戶(hù)手動(dòng)注釋?zhuān)瑥亩鶕?jù)上述任何變體基于從用戶(hù)接收到的選擇數(shù)據(jù)來(lái)獲得像素子集403。基于每幀的像素子集403是通過(guò)將經(jīng)子采樣像素子集的位置內(nèi)插到其余幀而獲得的,從而得到如圖4所示的初始3D軌跡41。

空時(shí)切割

在步驟S311中,第一圖像51(如圖5所示)是從第一空時(shí)切割來(lái)獲得的,其中,至少一個(gè)第一切片401是在視頻序列40的每個(gè)幀中獲得的,并且其中幀的第一切片401是直的切片,其特點(diǎn)是相對(duì)于垂直方向具有傾斜度、具有某一寬度并且針對(duì)該幀具有所獲得的像素子集403。有利地,第一切片401的寬度確切地是所獲得的像素子集403的寬度。但比所獲得像素403更小或更大的其他寬度也符合所公開(kāi)的方法。有利地,第一切片401中的每一個(gè)是垂直切片,如圖4所示。所獲得的針對(duì)視頻序列的所有幀的第一切片401是從左到右通過(guò)增加時(shí)間t的值而水平串聯(lián)的,從而產(chǎn)生如圖5所示的第一圖像51。從右到左通過(guò)增加時(shí)間t的值對(duì)第一切片401的水平串聯(lián)是該方法的可能變體。第一圖像51的切斷(abscise)是視頻序列40的時(shí)間t,并且對(duì)于給定的t值,第一圖像51的縱坐標(biāo)對(duì)應(yīng)于視頻序列在該時(shí)間t處的第一切片401。換言之,第一圖像51可被視作按照所獲得的像素子集的3D軌跡41、42以及第一切片401的傾斜度、在視頻序列容量40中的切割。如稍后進(jìn)一步的詳細(xì)描述,所公開(kāi)的空時(shí)切割在如下方面是有利的:該切割不是線性的(第一切片隨著時(shí)間相對(duì)于垂直變化的傾斜度)。

類(lèi)似地,在步驟S312中,第二圖像52(如圖5所示)是從第二空時(shí)切割來(lái)獲得的,其中,至少一個(gè)第二切片402是在視頻序列的每個(gè)幀中獲得的,其中幀的第二切片402是直的切片,其正交于同一幀的第一切片401并且其特點(diǎn)是具有某一寬度并且針對(duì)該幀具有所獲得的像素子集403。在第一切片401是垂直的情形中,相應(yīng)的第二切片402是水平的,如圖4所示。第一切片401和第二切片402之間的正交性是稍后描述的交互式處理中細(xì)調(diào)像素子集的3D軌跡的必要特征。有利地,第二切片402的寬度確切地是所獲得的像素子集403的寬度。但比所獲得像素403更小或更大的其他寬度也符合所公開(kāi)的方法。所獲得的針對(duì)視頻序列40的所有幀400的第二切片402是從上到下通過(guò)增加時(shí)間t的值而垂直串聯(lián)的,從而產(chǎn)生如圖5所示的第二圖像52。從下到上通過(guò)增加時(shí)間t的值對(duì)第二切片的垂直串聯(lián)是該方法的可能變體。第二圖像52的縱坐標(biāo)是視頻序列40的時(shí)間t,并且對(duì)于給定的t值,第二圖像52的切斷對(duì)應(yīng)于視頻序列在該時(shí)間t處的第二切片402。換言之,第二圖像52可被視作按照所獲得的像素子集的3D軌跡41、42以及第二切片402的傾斜度、在視頻序列容量40中的切割。

更正式地:

將視頻序列Fx,y,t視作像素立方體,其中,像素由其在該立方體中的坐標(biāo)(x,y,t)來(lái)限定。

使Tt=(x,y)為3D軌跡函數(shù),給定在時(shí)間t時(shí)位于像素子集中心的像素的坐標(biāo)(x,y)。

使Tt.x=x為投影3D軌跡函數(shù),給定在時(shí)間t時(shí)位于像素子集中心的像素的坐標(biāo)(x)。

第一圖像51可被視作矩陣I,像素集合為:

第二圖像52可被視作矩陣J,像素集合為:

其中,a和b是針對(duì)矩陣I和J的分別與水平軸和垂直軸相對(duì)應(yīng)的索引。

獲得邊界

在步驟S321中,通過(guò)沿著第一圖像51的水平串聯(lián)的第一切片401來(lái)串聯(lián)由像素子集占用的區(qū)域,從而在第一圖像51上獲得第一軌跡510,如圖5所示。第一軌跡510不同于前面所描述的3D軌跡41、42,因?yàn)槠鋵? 于第一圖像51。第一軌跡510是像素子集在第一圖像51上的軌跡,第一軌跡510表示要注釋的物體的中心。如果像素子集沿著視頻序列很好地位于要注釋的物體之內(nèi),并且要注釋的物體沿著視頻序列是清楚可見(jiàn)的,則帶狀物515在第一圖像51上是清楚可見(jiàn)的。

在步驟S331中,第一邊界511和第二邊界512是在第一圖像51上、在第一軌跡510的周?chē)@得的,從而得到第一帶狀物515。在第一變體中,第一邊界511和第二邊界512是用戶(hù)經(jīng)由選擇裝置放置于第一軌跡510周?chē)?。在第二變體中,第一邊界511和第二邊界512是通過(guò)自動(dòng)輪廓檢測(cè)技術(shù)而放置于第一軌跡510周?chē)?。有利地,手?dòng)和自動(dòng)技術(shù)的組合被用于在第一圖像51上、在第一軌跡510的周?chē)@得第一邊界511和第二邊界512。

類(lèi)似地,在步驟S322中,通過(guò)沿著第二圖像52的垂直串聯(lián)的第二切片402來(lái)串聯(lián)由像素子集占用的區(qū)域,從而在第二圖像52上獲得第二軌跡520,如圖5所示。第二軌跡520不同于前面所描述的3D軌跡41、42,因?yàn)槠鋵儆诘诙D像52。第二軌跡520是像素子集在第二圖像52上的軌跡,第二軌跡520表示要注釋的物體的中心。同樣,如果像素子集沿著視頻序列很好地位于要注釋的物體之內(nèi),并且要注釋的物體沿著視頻序列是清楚可見(jiàn)的,則帶狀物525在第二圖像52上是清楚可見(jiàn)的。

在步驟S332中,第一邊界521和第二邊界522是在第二圖像52上、在第二軌跡520的周?chē)@得的,從而得到第二帶狀物525。在第一變體中,第一邊界521和第二邊界522是用戶(hù)經(jīng)由選擇裝置放置于第二軌跡520周?chē)?。在第二變體中,第一邊界521和第二邊界522是通過(guò)自動(dòng)輪廓檢測(cè)技術(shù)而放置于第二軌跡520周?chē)摹S欣?,手?dòng)和自動(dòng)技術(shù)的組合被用于在第二圖像52上、在第二軌跡520的周?chē)@得第一邊界521和第二邊界522。

交互式細(xì)調(diào)

在步驟S321的子步驟S3210中,第一軌跡510在第一圖像51上例如由用戶(hù)經(jīng)由選擇裝置來(lái)調(diào)整。對(duì)第一圖像51上的第一軌跡510的位置的修改使得相應(yīng)像素子集403的位置沿著視頻序列容量40中該幀的第一切 片的方向產(chǎn)生修改。換言之,調(diào)整第一圖像51上的第一軌跡510允許調(diào)整視頻序列40中的像素子集403的3D軌跡。由于第一切片和第二切片之間的正交性,使得調(diào)整第一圖像51上的第一軌跡510不導(dǎo)致第二圖像52上的第二軌跡520產(chǎn)生變化。然而,由于像素子集的3D軌跡沿著第一切片的方向已演進(jìn),因而第二圖像52有利地可被重新生成。第二圖像52的更新版本是在步驟S312中,基于更新后的像素子集403的3D軌跡從第二空時(shí)切割獲得的。調(diào)整(S3210)第一圖像51上的第一軌跡510、基于更新后的像素子集從第二空時(shí)切割獲得(S312)第二圖像52、獲得(S322)第二圖像52上的第二軌跡520的序列可重復(fù)若干次,以使得對(duì)第一圖像51和第二圖像52上的第一軌跡510和第二軌跡520進(jìn)行細(xì)調(diào),從而產(chǎn)生交互式處理。

對(duì)稱(chēng)地,在步驟S322的子步驟S3220中,第二軌跡520在第二圖像52上例如由用戶(hù)經(jīng)由選擇裝置來(lái)調(diào)整。對(duì)第二圖像52上的第二軌跡520的位置的修改也使得相應(yīng)像素子集的位置沿著視頻序列容量40中該幀的第二切片的方向產(chǎn)生修改。這產(chǎn)生像素子集的更新的3D軌跡。第一圖像51的更新版本是在步驟S311中,基于更新后的像素子集的3D軌跡從第一空時(shí)切割獲得的。調(diào)整(S3220)第二圖像52上的第二軌跡520、基于更新后的像素子集的3D軌跡從第一空時(shí)切割獲得(S311)第一圖像51、獲得(S321)第一圖像51上的第一軌跡510的序列可重復(fù)若干次,以使得對(duì)第一圖像51和第二圖像52上的第一軌跡510和第二軌跡520進(jìn)行細(xì)調(diào)。

有利地,交互式細(xì)調(diào)第一圖像51和第二圖像52上的第一帶狀物515和第二帶狀物525是通過(guò)交替地進(jìn)行調(diào)整(S3210)第一軌跡510和獲得(S312)第二圖像與調(diào)整(S3220)第二軌跡520和獲得(S311)第一圖像來(lái)完成的。

有利地,交互式細(xì)調(diào)第一圖像51和第二圖像52上的第一帶狀物和第二帶狀物還包括:獲得(S331)第一軌跡510周?chē)牡谝贿吔?11和第二邊界512,以及獲得(S332)第二軌跡520周?chē)牡谝贿吔?21和第二邊界522。

顯然地,本領(lǐng)域技術(shù)人員還能通過(guò)輪廓檢測(cè)方法來(lái)在第一圖像(51) 和第二圖像(52)上在基于每幀的像素子集(403,603)周?chē)@得第一邊界(511,521)和第二邊界(403,603),從而跳過(guò)獲得第一軌跡和第二軌跡以及交互式細(xì)調(diào)。

獲得設(shè)界形態(tài)

在步驟S34中,在視頻序列的每個(gè)幀530、531、532中、在要注釋的物體周?chē)?、從四個(gè)點(diǎn)獲得設(shè)界形態(tài)540、541、542,其中幀t中的四個(gè)點(diǎn)的坐標(biāo)(X,Y)是從針對(duì)該幀t的位于第一圖像51和第二圖像52的第一邊界511、521和第二邊界512、522中的點(diǎn)的坐標(biāo)獲得的。換言之,從第一圖像51,在任何t值處,從針對(duì)t值的位于第一邊界511和第二邊界512中的點(diǎn)獲得兩個(gè)值Y1和Y2。類(lèi)似地,從第二圖像52,對(duì)于同一t值,從位于第一邊界521和第二邊界522中的點(diǎn)獲得兩個(gè)值X1和X2。對(duì)于幀t,四個(gè)點(diǎn)的坐標(biāo)為(X1,Y1)、(X2,Y2)、(X1,Y2)和(X2,Y1)。在第一變體中,設(shè)界形態(tài)是根據(jù)四個(gè)點(diǎn)繪制的矩形。在第二變體中,設(shè)界形態(tài)是根據(jù)四個(gè)點(diǎn)繪制的矩形的內(nèi)切橢圓形。在又一變體中,設(shè)界形態(tài)是包括四個(gè)點(diǎn)的橢圓形。當(dāng)物體例如為人臉時(shí),用橢圓形來(lái)對(duì)物體設(shè)界是有利的。

圖6根據(jù)替代實(shí)施例示出了對(duì)視頻序列中的物體設(shè)界的方法,其中,第一切片601相對(duì)于垂直方向60傾斜的角度為α。在該實(shí)施例中,與第一切片601正交的第二切片602相對(duì)于水平方向傾斜了相同角度α。在該實(shí)施例中,第一切片601不一定是垂直的,并且第二切片602不一定是水平的。盡管描述了該特性(第一切片的垂直性和第二切片602的水平性),但所述所有變體是可適用的。前述在步驟S34中根據(jù)四個(gè)點(diǎn)繪制的在幀600中的要注釋的物體周?chē)脑O(shè)界形態(tài)605相對(duì)于垂直方向與第一切片601針對(duì)同一幀600傾斜相同角度。

更精確地,要注釋的物體周?chē)脑O(shè)界形態(tài)605是根據(jù)從第一圖像和第二圖像提取的四個(gè)點(diǎn)獲得的,其中,在視頻序列的幀t中,四個(gè)點(diǎn)的坐標(biāo)(X,Y)是從針對(duì)該幀t的位于第一圖像和第二圖像的第一邊界和第二邊界中的點(diǎn)的坐標(biāo)獲得的。

使Y’1和Y’2為從針對(duì)任何t值的位于第一圖像的第一邊界和第二邊界中的點(diǎn)獲得的兩個(gè)值。

類(lèi)似地,使X’1和X’2為從針對(duì)任何t值的位于第二圖像的第一邊界和第二邊界中的點(diǎn)獲得的兩個(gè)值。對(duì)于幀t,四個(gè)點(diǎn)是從如下坐標(biāo)獲得的:(X’1,Y’1)、(X’2,Y’2)、(X’1,Y’2)和(X’2,Y’1)。

對(duì)于某一幀以像素子集603為中心、針對(duì)該幀t從與第一切片601的傾斜度相對(duì)應(yīng)的逆角度的旋轉(zhuǎn)隨后被實(shí)施于這四個(gè)點(diǎn)(X’1,Y’1)、(X’2,Y’2)、(X’1,Y’2)和(X’2,Y’1)中的每一個(gè)點(diǎn),從而得到四個(gè)點(diǎn)(X1,Y1)、(X2,Y2)、(X3,Y3)和(X4,Y4),而從這四個(gè)點(diǎn)獲得設(shè)界形態(tài)。

注意:考慮α是與第一切片相對(duì)于垂直方向的傾斜度相對(duì)應(yīng)的角度,逆角度為-α。

更正式地:

使Rt=(cx,cy,α)為以坐標(biāo)(cx,cy)的點(diǎn)為中心的角度(α)的旋轉(zhuǎn)。

使-Rt=(cx,cy,-α)為以坐標(biāo)(cx,cy)的點(diǎn)為中心的與逆角度相對(duì)應(yīng)的角度(-α)的旋轉(zhuǎn)。

使Rotate(I,r)為向圖像I施加旋轉(zhuǎn)r的函數(shù)。

將視頻序列Fx,y,t視為像素立方體,其中,像素由其在立方體中的坐標(biāo)(x,y,t)來(lái)限定,F(xiàn)’x’,y′,t被定義為從針對(duì)每個(gè)幀以像素子集603為中心的旋轉(zhuǎn)獲得的經(jīng)旋轉(zhuǎn)的像素立方體:

Rotate(Fx,y,t,Rt)=F′x′,y′,t,其中,Rt=(cx,cy,α)和(cx,cy)是像素子集603的中心的坐標(biāo),并且α是第一切片601相對(duì)于垂直方向的傾斜度。

在第一切片601相對(duì)于垂直方向60傾斜角度α的情形下,第一空時(shí)切割和第二空時(shí)切割被實(shí)施于經(jīng)旋轉(zhuǎn)的像素立方體F’x’,y′,t中。從位于第一圖像和第二圖像的第一邊界和第二邊界中的點(diǎn)獲得的坐標(biāo)對(duì)應(yīng)于經(jīng)旋轉(zhuǎn)的立方體F’x’,y′,t。

具有坐標(biāo)(X1,Y1)、(X2,Y2)、(X3,Y3)和(X4,Y4)的四個(gè)點(diǎn)(從其繪制設(shè)界形態(tài))是通過(guò)將旋轉(zhuǎn)-Rt=(cx,cy,-α)實(shí)施于位于第一圖像和第二圖像的第一邊界和第二邊界中的點(diǎn)來(lái)獲得的:

(Xk,Yk)=旋轉(zhuǎn)((X′i,Y′j),-Rt)其中k∈{1,2,3,4},i∈{1,2},j∈{1,2}

在第一變體中,第一切片601相對(duì)于垂直方向的傾斜度α對(duì)于視頻序列是恒定的。有利地,傾斜度α隨著視頻序列而變化,并且依賴(lài)于要注釋 的物體隨著視頻序列的傾斜度和幾何的變化。有利地,傾斜度α是用戶(hù)隨著視頻序列的時(shí)間作為交互式軌跡細(xì)調(diào)處理的一部分來(lái)調(diào)整的。例如,傾斜度α是由用戶(hù)對(duì)多個(gè)經(jīng)子采樣的幀來(lái)調(diào)整的,并且傾斜度α被內(nèi)插到其余幀中。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1