專利名稱:視頻序列中產(chǎn)生對象標(biāo)識圖象的裝置和方法
背景技術(shù):
發(fā)明領(lǐng)域本發(fā)明是關(guān)于由視頻序列提取出詢問對象的設(shè)備和方法及為詢問對象產(chǎn)生對象標(biāo)識圖象。
相關(guān)技術(shù)的描述在傳統(tǒng)技術(shù)中,為了在運(yùn)動圖象中產(chǎn)生對象標(biāo)識,詢問對象是在運(yùn)動視頻序列中由手工從每幅圖象提取出來的。最近,公布了無需多余操作的自動提取對象方法。
圖象自動提取對象方法包括了基于運(yùn)動的提取方法和基于特征的提取方法?;谶\(yùn)動的提取方法又包含了基于幀差的提取法,背景刪減提取法,運(yùn)動分析提取法。幀差提取法,如美國專利第5,500,904和5,109,435號中披露,由計算一幅圖象中連續(xù)的幀的不同亮度來提取運(yùn)動對象。背景刪減提取法,如美國專利第5,748,775號中披露,背景圖象是由該圖象的特征參數(shù)的暫短改變而得以恢復(fù),而對象區(qū)域是根據(jù)原圖象和背景的不同而提取的。在運(yùn)動分析提取法中,如美國聯(lián)邦專利第5,862,508號中披露,運(yùn)動區(qū)域是通過計算運(yùn)動對象的運(yùn)動方向及速度而被提取的。
然而,上述對象區(qū)域提取法只適用于對象的運(yùn)動速度在一定范圍內(nèi)。如果對象為靜止,或以很慢速度運(yùn)動,或以很高速度運(yùn)動,上述方法就很難應(yīng)用。
利用對象區(qū)域的特征值來解決問題包括了模板匹配提取法,如美國聯(lián)邦專利第5,943,442號中披露,多值閾值提取法,如美國專利第5,138,671號中披露,為一種特征值對照方法。為了利用這些方法從運(yùn)動圖象數(shù)據(jù)中提取出詢問對象,上述方法必須對所有有詢問對象的幀進(jìn)行解算,這樣就需要大量時間。
發(fā)明概要為了解決上述問題,本發(fā)明的一個目標(biāo)即為提供了一種設(shè)備和方法,用于在運(yùn)動圖象中產(chǎn)生對象標(biāo)識圖象,其中詢問對象區(qū)域可基于關(guān)鍵幀而在每一幀中自動被提取,而無需進(jìn)行任何手工操作,也無需考慮對象的運(yùn)動程度,且在各幀中產(chǎn)生基于相應(yīng)的詢問對象的信息而得到標(biāo)識的對象圖象。
為了達(dá)到本發(fā)明目標(biāo),提供了一種接收包含所要提取的詢問對象的視頻序列,及產(chǎn)生基于詢問對象的對象標(biāo)識圖象的方法。該方法包括如下步驟(a)將視頻序列分解為一段或多段片段(shot),每段片段包含了有相似畫面的一系列幀,在該段片段中選出一個或幾個關(guān)鍵幀;(b)從每個關(guān)鍵幀中提取基于初始對象區(qū)域的詢問對象;(c)根據(jù)基于初始對象區(qū)域的相應(yīng)詢問圖象,在每段片段的所有幀中跟蹤對象區(qū)域;以及,(d)根據(jù)相應(yīng)的詢問對象的信息,標(biāo)識在每一幀中跟蹤的對象區(qū)域。
為了達(dá)到本發(fā)明的該目標(biāo),提供了一種設(shè)備,用于接收包含所要提取的詢問對象的視頻序列及根據(jù)該詢問對象而產(chǎn)生對象標(biāo)識圖象。該設(shè)備包括一個攝影及關(guān)鍵幀設(shè)定單元,用于將視頻序列分解為一段或多段片段,每段片段包含了有相似畫面的一系列幀,在該段片段中選出一個或幾個關(guān)鍵幀;一個初始對象區(qū)域提取器,用于提取每個關(guān)鍵幀中基于初始對象區(qū)域的詢問對象;一個對象區(qū)域跟蹤器,用于標(biāo)識在每一幀中跟蹤的對象區(qū)域,在每段片段中的所有幀中跟蹤對象區(qū)域根據(jù)基于初始對象區(qū)域的相應(yīng)詢問圖象;一個對象標(biāo)識圖象產(chǎn)生器,用于根據(jù)相應(yīng)的詢問對象的信息,標(biāo)識在每一幀中跟蹤的對象區(qū)域。
插圖的簡要描述參照附圖,并通過描述優(yōu)選實(shí)施例,上述目標(biāo)及本發(fā)明的優(yōu)點(diǎn)將更為顯而易見。
圖1為應(yīng)用本發(fā)明的基于對象的交互式服務(wù)系統(tǒng)的框圖。
圖2為根據(jù)本發(fā)明的用于產(chǎn)生對象標(biāo)識圖象的設(shè)備的框圖。
圖3中3A和3B為本發(fā)明的用于產(chǎn)生對象標(biāo)識圖象的方法的流程圖。
圖4為分解為p段片段及每段片段的關(guān)鍵幀的視頻序列的一個例子。
圖5為分解為9段片段及每段片段的關(guān)鍵幀的視頻列的一個例子。
圖6為一個圖象幀及在此圖象幀中的詢問對象的一個例子。
圖7對象標(biāo)識和相應(yīng)的標(biāo)識號的一個例子。
圖8為對象被標(biāo)識并標(biāo)出質(zhì)心及包含對象的最小矩形的例子。
圖9為利用圖8中對象標(biāo)識的質(zhì)心及包含對象的最小矩形的坐標(biāo)值。
圖10顯示了應(yīng)用本發(fā)明的基于對象的交互式服務(wù)的一個實(shí)施例。
發(fā)明的詳細(xì)描述圖1為應(yīng)用于本發(fā)明的基于對象的交互式服務(wù)系統(tǒng)的流程示意圖。該基于對象的交互式服務(wù)系統(tǒng)包括用戶終端100,服務(wù)器120,用于視頻序列的圖象數(shù)據(jù)庫(DB)130,和用于感興趣的對象的對象數(shù)據(jù)庫DB140。
作為本發(fā)明的一個應(yīng)用例子,為基于對象交互式服務(wù)系統(tǒng)的服務(wù),如圖1中所示,在運(yùn)動圖象數(shù)據(jù)中的一個或多個對象區(qū)域-它們相應(yīng)于一個或多個詢問對象-將作為對象標(biāo)識圖象而得到產(chǎn)生。
參照圖1,每一用戶終端100包括一臺基于對象的對象交互圖象放映機(jī)或MPEG4放映機(jī),并通過網(wǎng)絡(luò)10運(yùn)用遠(yuǎn)程手段而連接到服務(wù)器120上。當(dāng)一用戶終端100與服務(wù)器120連接時,用戶可操作該交互放映設(shè)備,而在用戶終端的屏幕上觀看由服務(wù)器120提供的運(yùn)動圖象(視頻序列)。在通過基于圖象的交互放映設(shè)備觀看的同時,用戶可在任意視頻序列幀中選擇任何對象(即感興趣的對象)。
服務(wù)器120給每臺用戶終端提供儲存在圖象數(shù)據(jù)庫DB130的視頻序列,并通過引用對象數(shù)據(jù)庫DB140提供該用戶選定的該對象的詳細(xì)信息。此時,用戶可在觀看終端的RGB(或YUV)幀的同時,在另一幀觀看被選定對象的信息。
圖1中,服務(wù)器120管理著儲存各種視頻序列的圖象數(shù)據(jù)庫DB130,也同時管理著儲存著感興趣對象(如某一產(chǎn)品或人物)的對象數(shù)據(jù)庫DB140,DB140亦包括儲存的視頻序列的一些特殊圖象。DB130和140可在服務(wù)器120中實(shí)施。圖1中所示交互式服務(wù)系統(tǒng)可在互聯(lián)網(wǎng)環(huán)境下實(shí)現(xiàn)。在此情況下,服務(wù)器120可作為網(wǎng)絡(luò)服務(wù)器,每一用戶終端100包括一個網(wǎng)絡(luò)瀏覽器,并通過互聯(lián)網(wǎng)110聯(lián)接到網(wǎng)絡(luò)服務(wù)器120上。
下文中,將描述本發(fā)明由視頻序列中對產(chǎn)生對象標(biāo)識圖象的裝置和方法。
圖2為根據(jù)本發(fā)明的用于產(chǎn)生對象標(biāo)識圖象的設(shè)備的框圖。對象標(biāo)識圖象產(chǎn)生設(shè)備包括了一視頻序列接收單元200、一詢問圖象接收單元210、一個攝影及關(guān)鍵幀單元220、一個最初對象提取器230、一個對象區(qū)域跟蹤器240,和一個對象標(biāo)識圖象發(fā)生器250。
參照圖2,視頻序列接收單元200接收某一視頻序列,即一系列三原色幀數(shù)據(jù),如RGB(或YUV)圖象,并將接收到的視頻序列輸出到攝影及關(guān)鍵幀單元220。這里,視頻序列為一系列幀。每一幀可能是包含了詢問對象的圖象或是不包含詢問對象的圖象。
攝影鏡頭及關(guān)鍵幀單元220將輸入的視頻序列分解為一段或幾段片段,每段片段為一系列有相似畫面的幀,并將分解的片段的信息,如構(gòu)成每段片段的幀的信息,輸出到對象區(qū)域跟蹤器240。同樣,攝影鏡頭及關(guān)鍵幀單元220選出一關(guān)鍵幀(一代表幀(R))作為該段片段的代表。這里,每段片段中的關(guān)鍵幀數(shù)為一個或多個。
初始對象提取器230依次地接收詢問圖象,各詢問圖象包括從詢問圖象接收單元210輸出的詢問對象及從攝影鏡頭及關(guān)鍵幀單元220輸出的每段片段的關(guān)鍵幀。最初對象提取器230判定每段片段的關(guān)鍵幀是否包括從詢問圖象接收單元210輸入的相應(yīng)于詢問圖象的詢問對象的對象,提取與每段片段關(guān)鍵幀的詢問對象對應(yīng)的初始對象區(qū)域,并將初始對象區(qū)域轉(zhuǎn)換為二傳值化圖象、灰度圖象等等,以產(chǎn)生一段遮蔽(mask)圖象。在對所有的關(guān)鍵幀的每一詢問對象制成遮蔽圖象后,遮蔽(mask)圖象被輸出到對象區(qū)域跟蹤器240。
對象區(qū)域跟蹤器240接收由原始視頻序列分割的片段,各個詢問圖象卻包括一個詢問對像,及片段遮蔽圖象。對象區(qū)域跟蹤器240根據(jù)初始對象區(qū)域?qū)γ恳黄蔚乃袔械膶ο髤^(qū)域進(jìn)行跟蹤。特別是,對每一片段的所有幀的對象區(qū)域都根據(jù)相應(yīng)的根據(jù)有詢問對象而提取的初始對象區(qū)域而得到跟蹤。如果某一幀中存在一對象區(qū)域,幀中對象區(qū)域的位置和區(qū)域被確定,初始對象區(qū)域被轉(zhuǎn)換為二值化圖象,灰度圖象等,以產(chǎn)生一片段遮蔽圖象幀。這種對象區(qū)域跟蹤在每一片段的所有幀中得到進(jìn)行和重復(fù),直至產(chǎn)生所有詢問對象的幀遮蔽圖象。
對象標(biāo)識圖象產(chǎn)生器250根據(jù)每一幀中詢問對象而合并被跟蹤的幀遮蔽圖象。特別是,每一幀中的基于詢問對象的幀遮蔽圖象被合并為一單一對象標(biāo)識圖象幀,其中所有的對象都被標(biāo)識。例如,假設(shè)一個幀包含三個詢問對象,相應(yīng)于三個詢問對象的對象區(qū)域可以被標(biāo)上一位于1和255之間的象素值,而無詢問對象的其它象素區(qū)域可標(biāo)為“0”(關(guān))。
對象標(biāo)識圖象幀的信息由對象標(biāo)識圖象發(fā)生器250產(chǎn)生,相應(yīng)于被對象標(biāo)識圖象的真實(shí)對象的信息被儲存在圖1所示的對象數(shù)據(jù)庫DB140中。
圖S3A和3B為本發(fā)明的對象標(biāo)識圖象產(chǎn)生方法的流程圖。圖2中對象標(biāo)識圖象產(chǎn)生設(shè)備的操作將在圖3A和3B詳細(xì)描述。
從中將提取詢問對象的視頻序列被分割為一段或幾段片段,每段片段包含有相似畫面的一系列幀,每段片段中選出一個或幾個關(guān)鍵幀(步驟300到304)。通常,一段視頻序列可根據(jù)鏡頭的角度、人物或主題、地點(diǎn)、和亮度的變化,而被分解為多段片段。例如,就色彩而言,每段片段之間的變化程度大于構(gòu)成每段片段的幀之間的變化程度,感興趣的片段的兩個幀之間(如關(guān)鍵幀)的色彩的不同會被辨別出。
構(gòu)成每段片段的幀的某一幀被選為關(guān)鍵幀。每段片段的第一或中間的幀被選為關(guān)鍵幀。在本發(fā)明中只有每段片段的關(guān)鍵幀被用于決定每段片段中是否存在詢問對象。例如,如果有p段片段,則關(guān)鍵幀數(shù)等于p。
具體的來說,在圖3中,一視頻序列和詢問對象(1到n)被輸入(步驟300)。視頻序列被分解為一段或多段(1到p)片段,每段片段中選中一關(guān)鍵幀(步驟302)。然后,p個關(guān)鍵幀被緩存(步驟304)。圖4顯示了分解為p段片段的視頻序列的一個例子及它們的關(guān)鍵幀。圖4中,每段片段的第一個幀被選為關(guān)鍵幀,如關(guān)鍵幀KF-1,KF-2,KF-3,....,和KF-p。圖5顯示了從一段肥皂劇中提取的一視頻序列被分解為8段片段及選擇每段片段的關(guān)鍵幀的例子。圖5中,視頻序列共由619個幀組成并被分為9段片段,每段片段的關(guān)鍵幀由幀數(shù)來確定。
根據(jù)詢問對象從每一關(guān)鍵幀中提取出一對象區(qū)域(步驟306到312)。更可取的是,根據(jù)彩色直方圖或諸如構(gòu)成對象的多色區(qū)的組構(gòu)或結(jié)構(gòu),判定在各詢問對象中是否存在與一個詢問對象相似的對象。
具體的來說,n個詢問對象一一被輸入。第一個詢問對象被裝載(步驟306)。且檢查p個關(guān)鍵幀的每一幀中是否有與第一個詢問對象相似的一個對象,且如果這樣的對象存在,該對象作為相應(yīng)的關(guān)鍵幀的一個初始對象區(qū)域而得到提取(步驟308)。屬于該關(guān)鍵幀的初始對象區(qū)域的象素轉(zhuǎn)到開(“1”),其余的象素轉(zhuǎn)到關(guān)(“0”),并對此關(guān)鍵幀產(chǎn)生一段片段遮蔽圖象(步驟310)。判斷詢問對象數(shù)是否大于n(步驟312)。如果不是,下一個詢問對象被裝載(步驟314)。對n個詢問對象重復(fù)上述步驟。具體的來說,相應(yīng)于p個關(guān)鍵幀和n個詢問對象共產(chǎn)生n×p個片段遮蔽圖象(無對象區(qū)域的片段遮蔽圖象的象素都轉(zhuǎn)到關(guān)(“0”))。
基于初始對象區(qū)域,每段片段的所有幀的對象區(qū)域都被跟蹤(步驟316到330)。在前面步驟中基于詢問區(qū)域而從片段的每一關(guān)鍵幀中提取出的初始對象區(qū)域被延伸到每段片段的其余幀。特別是,將片段中每一關(guān)鍵幀中提取出的片段遮蔽圖象作為最初遮蔽圖象,在每段片段的所有幀中,根據(jù)相應(yīng)于詢問對象的詢問圖象的色彩信息,相應(yīng)于詢問對象的對象區(qū)域的位置和面積(范圍)得到跟蹤。通過檢查被跟蹤對象區(qū)域的相似性和利用運(yùn)動模型及色彩信息,通過考慮對象圖象面積和位置的變化,更精確的對象區(qū)域會被提取。
具體的來說,在裝載了第一個詢問對象(步驟316)的狀態(tài)下,裝載了第一詢問對象的一片段遮蔽圖象時(步驟318)。當(dāng)裝載的片段遮蔽圖象的象素轉(zhuǎn)到關(guān)(“0”)時,既,當(dāng)確定裝載的片段遮蔽圖象不包括一個相應(yīng)于第一詢問圖象的對象區(qū)域時(步驟320),下一段片段遮蔽圖象被裝載(步驟328)。特別是,如果確定裝載的片段遮蔽圖象不包括一個相應(yīng)于第一詢問圖象的對象區(qū)域時,將確定該片段數(shù)是否大于p(步驟326)。如果該片段數(shù)不大于p,下一片段遮蔽圖象被裝載(步驟328)。同時,當(dāng)確定對象區(qū)域存在于裝載的片段遮蔽圖象中,對象區(qū)域在對應(yīng)的片段的所有幀中被跟蹤(步驟322),從而根據(jù)第一個詢問對象為該相應(yīng)片段產(chǎn)生幀遮蔽圖象(步驟324)。對所有片段和所有詢問對象重復(fù)上述操作(步驟330和332)。
在每一幀中,基于詢問對象的幀圖象遮蔽被合并,并且存在于每一幀的詢問對象區(qū)域被標(biāo)識(步驟334)。當(dāng)一輸入視頻序列由m個幀組成并每一幀包含n個詢問對象時,n-乘-m個幀遮蔽圖象可通過上述過程生成并被合并為m個幀。然而,并非所有幀都包含n個詢問對象,所以產(chǎn)生的幀遮蔽圖象數(shù)少于n-乘-m個。每一詢問對象有一特定的界于0與255之間的色值,和詢問對象區(qū)域的象素一該象素對應(yīng)于詢問對象并存在于合并的幀中一具有分配給相應(yīng)的詢問對象的獨(dú)特色值。
圖6為一幀圖象及在此幀圖象中的詢問對象的例子。圖6中,左邊顯示的一個任意幀圖象有多個詢問對象,如辦公筆記本552、項鏈553、杯子554、衣服555、和背景551。
圖7為一用標(biāo)識數(shù)對象標(biāo)識的例子。如圖7所示,每一詢問對象有一唯一標(biāo)識數(shù)。這樣,當(dāng)每一幀中根據(jù)詢問對象產(chǎn)生的幀遮蔽圖象被合并時,每一幀遮蔽圖象被標(biāo)識了相應(yīng)的唯一標(biāo)識數(shù),如圖7右邊所示。
圖8為對象被標(biāo)識并標(biāo)出質(zhì)心及包含對象的最小矩形的例子。作為代表對象區(qū)域的另外一種方法,對象區(qū)域的質(zhì)心,由“X”標(biāo)志,包含對象區(qū)域的最小矩形或包含在一個幀中的對象區(qū)域內(nèi)的最小矩形可用于代替唯一標(biāo)識數(shù)。這里,P1和P2代表矩形的兩個對角。圖9為利用圖8中包含對象的最小矩形的質(zhì)心和坐標(biāo)值對象標(biāo)識的例子。
根據(jù)本發(fā)明,一視頻序列被分解為多段片段,每一片段由一系列有相似畫面的幀組成,通過判定片段的關(guān)鍵幀中是否存在一個對象圖象從每段片段中提取出一個最初對象圖象。基于從每一關(guān)鍵幀提取出的最初對象圖象,對象區(qū)域在該片段的所有幀中被跟蹤。然后,對象區(qū)域被標(biāo)識以產(chǎn)生對象標(biāo)識圖象。
因此,與傳統(tǒng)提取對象并產(chǎn)生對象標(biāo)識圖象的方法相比,本發(fā)明的應(yīng)用無須考慮對象的運(yùn)動程度而且提取詢問對象的時間減少。再者,本發(fā)明無須多余的手工操作即可提供對象交互式服務(wù)。
圖10顯示應(yīng)用本發(fā)明的基于對象的交互式服務(wù)的一個實(shí)施例。存在于每一幀的對象圖象被標(biāo)識為對象標(biāo)識圖象并儲存在對象數(shù)據(jù)庫DB140,參見圖1的描述。例如,當(dāng)一用戶點(diǎn)擊任意幀中婦女罩衫的任意部分時,如圖10右邊所示,利用基于對象的交互播放器,用戶瀏覽器被提供相應(yīng)于點(diǎn)擊的對象圖象的一對象信息,該信息被存儲在對象數(shù)據(jù)庫DB140中。圖10的右邊顯示對象信息的例子。
通過運(yùn)行來自計算機(jī)可用介質(zhì)的程序,本發(fā)明可在通用的數(shù)據(jù)計算機(jī)上實(shí)現(xiàn),該介質(zhì)包括但不限于存儲介質(zhì),如磁存儲介質(zhì)(如ROM,軟盤,硬盤,等)、光學(xué)可讀介質(zhì)(如CD-ROM,DVD,等)和載波(如,互聯(lián)網(wǎng)上的傳輸)。在通過網(wǎng)絡(luò)連接的分布式計算機(jī)系統(tǒng)中,有可讀程序編碼單元的計算機(jī)可用介質(zhì)亦可實(shí)現(xiàn)本發(fā)明。
如上所述,在根據(jù)本發(fā)明的在一視頻序列中產(chǎn)生對象標(biāo)識圖象的設(shè)備和方法中,根據(jù)詢問對象所產(chǎn)生的幀遮蔽圖象在每一幀中被合并,這樣,比較傳統(tǒng)的對象提取方法,由一個幀中提取多個詢問對象的時間可減少。因此,本發(fā)明可很容易的用于產(chǎn)生、編輯、和編碼基于對象的運(yùn)動圖象數(shù)據(jù)。本發(fā)明可廣泛地用于交互的互聯(lián)網(wǎng)傳播中,亦可用于準(zhǔn)備互聯(lián)網(wǎng)下的廣告材料,互聯(lián)網(wǎng)內(nèi)容,和作為書寫工具。
雖然結(jié)合本發(fā)明的優(yōu)選實(shí)施例對本發(fā)明進(jìn)行了具體的描述,但本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解的是,在不脫離如所附權(quán)利要求書限定的本發(fā)明的范圍的前提下,可進(jìn)行各種形式和細(xì)節(jié)上的改動。
權(quán)利要求
1.一種接收包括將提取的詢問對象的視頻序列及根據(jù)這些詢問對象產(chǎn)生對象標(biāo)識圖象的方法,該方法包括(a)將視頻序列分為一或多個片段,每個片段都是具有相似畫面的一系列幀,并從這些片段的每一個中選出一個或多個關(guān)鍵幀;(b)從每個關(guān)鍵幀中提取基于詢問對象的初始對象區(qū)域;(c)根據(jù)相應(yīng)的基于詢問圖象的初始對象區(qū)域,跟蹤每個片段的所有幀中的對象區(qū)域;以及(d)根據(jù)有關(guān)相應(yīng)的詢問對象的信息,標(biāo)識在每一幀中跟蹤的對象區(qū)域。
2.如權(quán)利要求1的方法,其中步驟(b)包括(b1)確定是否存在相似于每一關(guān)鍵幀中的每一詢問對象的一個對象,且如果在一關(guān)鍵幀中存在一相似對象,提取該相似對象以作為基于詢問對象的初始對象區(qū);以及(b2)提取該相似對象以作為基于詢問對象的初始對象區(qū)。
3.根據(jù)權(quán)利要求2的方法,其中步驟(c)包括(c1)根據(jù)相應(yīng)的基于詢問圖象的片段遮蔽圖象和相應(yīng)的詢問對象的視頻特征值,跟蹤這些片段的每一個的所有幀中的對象區(qū);以及(c2)通過把在各個幀中跟蹤的對象區(qū)的象素設(shè)定為一個第一值并把這些關(guān)鍵幀的每一個的其余象素設(shè)定為一個第二值,在這些片段的每一個的所有幀中產(chǎn)生基于詢問對象的幀遮蔽圖象。
4.根據(jù)權(quán)利要求3的方法,其中在步驟(d)中對象區(qū)每一個都在各個幀中用一個唯一的、設(shè)定給相應(yīng)的詢問圖象的號或各個幀中的相應(yīng)詢問圖象的坐標(biāo)信息進(jìn)行了標(biāo)識。
5.一種設(shè)備,用于接收包括將要被提取的詢問對象的一個視頻序列并根據(jù)這些詢問對象產(chǎn)生對象標(biāo)識圖象,該設(shè)備包括一個片段和關(guān)鍵幀設(shè)定單元,用于把視頻序列分成一或多個片段-每一個片段都是具有類似的畫面的一組幀,并用于從這些片段的每一個中選擇一或多個關(guān)鍵幀;一個初始對象區(qū)提取器,用于從關(guān)鍵幀的每一個提取基于詢問對象的初始對象區(qū);一個對象區(qū)跟蹤器,用于根據(jù)相應(yīng)的、基于詢問圖象的初始對象區(qū)跟蹤這些片段的每一個的所有幀中的對象區(qū);以及一個對象標(biāo)識圖象發(fā)生器,用于根據(jù)有關(guān)相應(yīng)詢問對象的信息對在各個幀中跟蹤的對象區(qū)進(jìn)行標(biāo)識。
6.根據(jù)權(quán)利要求5的設(shè)備,其中該初始對象區(qū)提取器判定在各個關(guān)鍵幀中是否存在有與各個詢問圖象類似的一個對象,且如果在一個關(guān)鍵幀中有一個類似對象則提取該類似對象作為一個相應(yīng)的基于詢問對象的初始對象區(qū),并通過把從這些關(guān)鍵幀的每一個提取的基于詢問對象的初始對象區(qū)的象素設(shè)定為一個第一值并把這些關(guān)鍵幀的每一個的其余象素設(shè)定為一個第二值而在這些片段的每一個的所有關(guān)鍵幀中產(chǎn)生基于詢問對象的片段遮蔽圖象。
7.根據(jù)權(quán)利要求6的設(shè)備,其中對象區(qū)跟蹤器根據(jù)相應(yīng)的基于詢問圖象的片段遮蔽圖象和相應(yīng)詢問對象的視頻特征值而對這些片段的每一個的所有幀中的對象區(qū)進(jìn)行跟蹤,并通過把這些幀的每一個中跟蹤的對象區(qū)的象素設(shè)定為一個第一值并把這些關(guān)鍵幀的每一個的其余象素設(shè)定為一個第二值而在這些片段的每一個的所有幀中產(chǎn)生基于詢問對象的幀遮蔽圖象。
8.根據(jù)權(quán)利要求5的設(shè)備,其中該對象標(biāo)識圖象發(fā)生器用以太網(wǎng)給相應(yīng)的詢問圖象的一個唯一的號或各個幀中的相應(yīng)詢問圖象的坐標(biāo)信息對各個幀中的每一個對象區(qū)進(jìn)行標(biāo)識。
9.一計算機(jī)可讀介質(zhì),其上有一種計算機(jī)程序,該程序用于接收包含將提取的詢問對象的視頻序列及根據(jù)這些詢問對象產(chǎn)生對象標(biāo)識圖象其中產(chǎn)生對象標(biāo)識圖象包括以下步驟(a)將視頻序列分為一或多個片段,每個片段都是具有相似畫面的一系列幀,并從這些片段的每一個中選出一個或多個關(guān)鍵幀;(b)從每個關(guān)鍵幀中提取基于詢問對象的初始對象區(qū)域;(c)根據(jù)相應(yīng)的基于詢問圖象的初始對象區(qū)域,跟蹤每個片段的所有幀中的對象區(qū)域;以及(d)根據(jù)有關(guān)相應(yīng)的詢問對象的信息,標(biāo)識在每一幀中跟蹤的對象區(qū)域。
全文摘要
提供一種在一視頻序列中基于詢問對象產(chǎn)生對象標(biāo)識圖象的裝置和方法。一視頻序列被分解為多段片段,每段片段由有相似畫面的一系列幀組成,通過判定片段的關(guān)鍵幀中是否存在一個對象圖象,一個初始對象區(qū)域在每一段片段中被提取?;谟擅恳魂P(guān)鍵幀中提取出的最初對象圖象,對象區(qū)域在片段的所有幀中被跟蹤。然后,對象區(qū)域被標(biāo)識產(chǎn)生對象標(biāo)識圖象。這樣,應(yīng)用產(chǎn)生對象標(biāo)識圖象的裝置和方法而無須考慮對象的運(yùn)動程度并且提取詢問對象的時間可減少。
文檔編號H04N5/91GK1367616SQ01125238
公開日2002年9月4日 申請日期2001年8月31日 優(yōu)先權(quán)日2001年1月20日
發(fā)明者李性德, 金昌容, 金智淵, 金相均, 文永秀, 樸斗植 申請人:三星電子株式會社