專利名稱:描述視頻內(nèi)容的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一個(gè)描述動(dòng)畫內(nèi)容的方法和裝置,其目的是為了根據(jù)一個(gè)能夠處理動(dòng)畫,尤其是視頻,DVD等等的計(jì)算機(jī)系統(tǒng)的動(dòng)畫內(nèi)容進(jìn)行有效的搜尋。
背景技術(shù):
雖然諸如視頻數(shù)據(jù)的動(dòng)畫易于被人們理解,但用計(jì)算機(jī)管理動(dòng)畫卻有一定的難度。即,難以根據(jù)一個(gè)原始視頻數(shù)據(jù)自身搜尋出內(nèi)容的含義,并且即使使用先進(jìn)的圖像處理技術(shù)目前也無法精確表示視頻數(shù)據(jù)的含義。
雖然通常根據(jù)管理員事先留下的注釋用計(jì)算機(jī)對(duì)諸如視頻數(shù)據(jù)的動(dòng)畫進(jìn)行管理,但使用注釋的方法在多個(gè)管理員中間缺乏注釋的一致性,此外,對(duì)大量視頻數(shù)據(jù)的復(fù)雜處理目前為止是一個(gè)大的問題。
作為一個(gè)候選解決方案,通過一個(gè)圖像處理中間結(jié)果和可事先登記的、內(nèi)容所具有的知識(shí)來描述視頻數(shù)據(jù)的元內(nèi)容被認(rèn)為是有希望的解決方案。
然而,盡管為了描述一個(gè)描述方法或用于特定搜尋或管理的搜索引擎可以使用特定內(nèi)容的多個(gè)圖像特征,但損失了總體的通用性并且無助于視頻搜尋的擴(kuò)展。
所以,期望使用一種具有總體通用性并且利用圖像特性的描述方法對(duì)視頻數(shù)據(jù)進(jìn)行描述,并且ISO(國際標(biāo)準(zhǔn)化組織)發(fā)起了被稱作MPEG-7的標(biāo)準(zhǔn)化活動(dòng)。
MPEG(運(yùn)動(dòng)圖像專家組)是一個(gè)推動(dòng)存儲(chǔ)彩色動(dòng)畫的編碼方法標(biāo)準(zhǔn)化的組織,并且迄今為止MPEG-1,MPEG-2和MPEG-4已經(jīng)標(biāo)準(zhǔn)化。
由于MPEG-7沒有規(guī)定圖像處理方法并且超出了所有標(biāo)準(zhǔn)的范圍,所以不但允許自動(dòng)處理,而且允許人工數(shù)據(jù)輸入。
然而,要求從視頻數(shù)據(jù)得到最初不可提取的場(chǎng)景的含義或記錄難以從視頻數(shù)據(jù)中檢測(cè)出的數(shù)據(jù)只會(huì)使數(shù)據(jù)輸入更復(fù)雜。
迄今為止,已經(jīng)有許多以結(jié)構(gòu)化方式表示視頻幀序列的例子。例如,安部的方法(“以未來狀態(tài)改變?yōu)殒I值搜尋動(dòng)畫的方法”,安部,外村,信學(xué)論,pp.512-519,1992(常規(guī)例子1))描述了一種動(dòng)態(tài)狀態(tài)改變,使得視頻搜尋中要搜尋的時(shí)間間隔可以不是固定的。
然而在安部的方法(常規(guī)例子1)中,由于狀態(tài)描述的信息覆蓋了全部幀,一個(gè)缺點(diǎn)是搜尋時(shí)間與用于搜尋的視頻長度成比例。并且,由于在一個(gè)圖像中通過重心表示一個(gè)對(duì)象,該方法與本發(fā)明利用一個(gè)對(duì)象的形狀變化的方法有根本的不同。
雖然在常規(guī)例子2中描述的方法(“一個(gè)TV足球游戲自動(dòng)視頻分析器”,Y.Gong,C.H-Chuan,L.T.Sin,ACCV′95,pp.509-513,1995年11月)嘗試使用運(yùn)動(dòng)員的位置和移動(dòng)信息,位置被分類成位置代碼,其中區(qū)域被粗略分成九個(gè)部分,并且移動(dòng)具有非常短的周期(若干個(gè)幀),因而通過將位置分類代碼和短周期內(nèi)的運(yùn)動(dòng)向量視作事件來執(zhí)行事件提取。
然而在常規(guī)例子2中,一個(gè)缺點(diǎn)是要提取的一個(gè)事件和描述是不可分的,此外可抽取事件變成一個(gè)非常有限的集合。
在常規(guī)例子3中描述的方法(“針對(duì)基于內(nèi)容的視頻索引的綜合圖像和語音分析”,Y-L.Chang,W.Zeng,I.Kamel,R.Alonso,ICMCS′96,pp.306-313,1996)采用了一種有限的方案,其中跟蹤屏幕上球和球門柱的位置并且只考慮其位置關(guān)系以便提取近距離的時(shí)間間隔以作為令人激動(dòng)的場(chǎng)景。
在常規(guī)例子4中描述的方法(“視頻中足球精彩場(chǎng)面的分析和呈現(xiàn)”,D.Yow,B.L.Yeo,M.Yeung,B.Liu,ACCV′95,pp.499-502,1995)執(zhí)行覆蓋美式足球的鏡頭提取,并且通過語音識(shí)別和基于圖像處理的屏幕行模式提取根據(jù)各個(gè)鏡頭中的一個(gè)關(guān)鍵字識(shí)別出諸如觸地得分的事件。
然而,常規(guī)例子3和4均不具有諸如運(yùn)動(dòng)員及其移動(dòng)的概念。
另一方面,雖然常規(guī)例子5(“通過使用移動(dòng)字眼的查詢進(jìn)行圖像搜尋的方法建議”,官森,粕谷,富永,圖像介質(zhì)處理研討會(huì)′96,I-8,13,1996)也是一個(gè)從視頻中分割出一個(gè)對(duì)象并且基于生命周期和一個(gè)對(duì)象位置的表示方法,但其既無參考平面概念又無一般通用性。
另外,常規(guī)例子6(“使用場(chǎng)景中短時(shí)間移動(dòng)描述進(jìn)行圖像內(nèi)容搜尋的方法建議”,官森,前田,越后,中野,飯作,MIRU-98,I-75,1998)也描述了一個(gè)將短時(shí)間移動(dòng)描述成一個(gè)單元的對(duì)象,但由于不同時(shí)采用表示時(shí)空軌跡的描述并且屬于一種取決于特定內(nèi)容的表示方法,這種方法缺乏可擴(kuò)充性。
常規(guī)例子7(“真實(shí)世界圖像序列的同時(shí)解釋及其自然語言描述足球系統(tǒng)”,E.Andre,G.Herzog,T.Rist,Proc.8th ECAI,pp.449-454,1988)是一個(gè)將場(chǎng)景描述和對(duì)象中間的交互當(dāng)作其元數(shù)據(jù)的系統(tǒng)。
然而,常規(guī)例子7的系統(tǒng)的目的是進(jìn)行從圖像到語音的介質(zhì)轉(zhuǎn)換,即一個(gè)自動(dòng)產(chǎn)生敘述的系統(tǒng),所以它不存儲(chǔ)產(chǎn)生的元數(shù)據(jù),并且與本發(fā)明不同,它不具有適合于內(nèi)容搜尋的數(shù)據(jù)結(jié)構(gòu)。
常規(guī)例子8(“用于高級(jí)內(nèi)容檢索的網(wǎng)球視頻自動(dòng)分類”,G.Sudhir,J.C.M.Lee,A.K.Jain,Proc.CAIVD-98,pp.81-90,1997)包括網(wǎng)球匹配,所以對(duì)象中間的交互描述僅限于簡單移動(dòng)和位置信息。
就其描述內(nèi)容而言,本發(fā)明僅限于基于“特征顏色”,“質(zhì)地”,“形狀”和“移動(dòng)”的處理結(jié)果。
在視頻中,引起注意的主題因其內(nèi)容而有所不同。所以,有必要根據(jù)內(nèi)容預(yù)定一個(gè)主題對(duì)象。
這里定義的一個(gè)對(duì)象由圖像中的一個(gè)塊狀區(qū)域構(gòu)成,并且可以提取其顏色,質(zhì)地,形狀和移動(dòng)。
它是這個(gè)對(duì)象區(qū)域的一個(gè)可以從視頻提取的屬性,并且難以為其內(nèi)容指定含義。
因此,提出了基于一個(gè)單獨(dú)的對(duì)象和多個(gè)對(duì)象之間的關(guān)系的描述技術(shù),并且將取決于事先登記的內(nèi)容的知識(shí)與對(duì)象描述關(guān)聯(lián)起來,因而可以根據(jù)一個(gè)對(duì)象在視頻中搜尋有意義的場(chǎng)景。
由于全部視頻數(shù)據(jù)幀的描述會(huì)導(dǎo)致存儲(chǔ)大量的冗余信息,所以用少量數(shù)據(jù)有效表示視頻內(nèi)容的描述是重要的。
本發(fā)明提出了一個(gè)對(duì)基于視頻內(nèi)容的解釋有效的描述方法。本發(fā)明的描述方法不但對(duì)一個(gè)對(duì)象或場(chǎng)景的搜尋有效,而且對(duì)諸如對(duì)象重用和內(nèi)容總結(jié)的應(yīng)用有效。
技術(shù)內(nèi)容本發(fā)明的一個(gè)目標(biāo)是提供一個(gè)用少量數(shù)據(jù)有效表示動(dòng)畫內(nèi)容的描述方法。
本發(fā)明的另一個(gè)目標(biāo)是提供一個(gè)對(duì)基于動(dòng)畫內(nèi)容的解釋有效的描述方法。
本發(fā)明的另一個(gè)目標(biāo)是提供一個(gè)不但用于一個(gè)對(duì)象或場(chǎng)景的搜尋,而且能夠用于諸如對(duì)象重用和內(nèi)容總結(jié)的應(yīng)用的描述方法。
本發(fā)明提出了根據(jù)可提取成圖像特征的數(shù)據(jù)針對(duì)一個(gè)單獨(dú)的對(duì)象和多個(gè)對(duì)象之間的關(guān)系進(jìn)行描述的方法。
即,本發(fā)明(1)通過使用表示各個(gè)對(duì)象的位置信息的參考平面來表示各個(gè)對(duì)象隨時(shí)間移動(dòng)的軌跡,(2)通過使用對(duì)象形狀的變化設(shè)置一個(gè)基于各個(gè)對(duì)象的動(dòng)作類型的描述單元,(3)將各個(gè)對(duì)象的動(dòng)作表示成一個(gè)行為區(qū)段,(4)包括一個(gè)能夠讀取并解釋基于視頻內(nèi)容的對(duì)象定義,動(dòng)作種類的定義,多個(gè)對(duì)象交互的場(chǎng)景解釋定義的描述設(shè)備。
附圖的簡要描述
圖1是示出對(duì)應(yīng)用本發(fā)明的計(jì)算機(jī)上的視頻數(shù)據(jù)進(jìn)行的分割的圖例。
圖2是示出被分配給應(yīng)用本發(fā)明的各個(gè)對(duì)象的一個(gè)行為區(qū)段的位置信息和動(dòng)作的圖例。
圖3是示出應(yīng)用本發(fā)明的各個(gè)對(duì)象的參考平面上的一個(gè)軌跡的圖例。
圖4是示出應(yīng)用本發(fā)明的計(jì)算機(jī)上的視頻數(shù)據(jù)處理流程概況及其主要步驟的圖例。
圖5是示出本發(fā)明的一個(gè)搜尋屏幕的圖例。
圖6是示出本發(fā)明的一個(gè)搜索結(jié)果的圖例。
具體實(shí)施例方式
圖像中一個(gè)對(duì)象的主要特征包括一個(gè)對(duì)象的“位置”及其“移動(dòng)速度”和“軌跡”。
然而,雖然對(duì)“位置”信息有常規(guī)的用法,但視頻描述中的位置主要只是對(duì)一個(gè)圖像平面的隱含使用,并且沒有根據(jù)內(nèi)容使用與圖像平面不同的背景的方法。
另外,一個(gè)圖像最初是一個(gè)投射到二維平面上的三維場(chǎng)景,并且有時(shí)在對(duì)象位于的平面而不是圖像平面上得到一個(gè)對(duì)象位置會(huì)更加方便。
通常,運(yùn)動(dòng)圖像就屬于從對(duì)象所屬的平面獲取對(duì)象位置比從一個(gè)圖像平面獲取對(duì)象位置更加方便的情況。
雖然一個(gè)等價(jià)于全球座標(biāo)系統(tǒng)的平面通常被用于描述真實(shí)世界的一個(gè)對(duì)象,但它在描述主題,目的方面與視頻是不同的,并且它總是將真實(shí)世界的一部分取作背景。
另一方面,由于一個(gè)圖像缺乏深度方向的信息,將連續(xù)的視頻幀投射到一個(gè)公共圖像平面上會(huì)更好。
基于上述考慮,有必要針對(duì)要搜尋的各個(gè)內(nèi)容預(yù)定確定對(duì)象位置的背景,這個(gè)背景被稱作參考平面并且在下面使用“區(qū)段描述”和“攝像機(jī)模型”的過程中對(duì)其加以描述。
這個(gè)描述方法允許對(duì)對(duì)象中間幾何關(guān)系比較重要的內(nèi)容進(jìn)行有效描述。
對(duì)參考平面,區(qū)段描述和攝像機(jī)規(guī)格的描述如圖7所示。然而,對(duì)攝像機(jī)規(guī)格的描述對(duì)于本發(fā)明而言不是必需的,而是可選的。
下面解釋各個(gè)對(duì)象的表示方法。一個(gè)對(duì)象在參考平面上移動(dòng)并且在上面執(zhí)行有意義的行為/動(dòng)作。
對(duì)于其中一個(gè)對(duì)象的行為是命中搜尋的主要因素的內(nèi)容,下列描述方法非常有效。
根據(jù)行為分解一個(gè)對(duì)象的表示單元,并且描述表示其行為區(qū)段的開始和終止幀以及它們之間的軌跡,以便還原出一個(gè)任意幀中的一個(gè)對(duì)象位置。
雖然沒有任何跡象表明在背景中各個(gè)對(duì)象的形狀有變化,但通過根據(jù)一個(gè)對(duì)象因形狀改變導(dǎo)致的行為指定這種形狀改變的含義,本發(fā)明允許保存一個(gè)描述單元的一個(gè)對(duì)象的含義。
圖8描述被表示成動(dòng)作(或描述成行動(dòng))。
下面是使用這個(gè)動(dòng)作的描述的一個(gè)例子。
動(dòng)作(“踢”,10(幀),240(幀),3,3,(120,180,0)(150,195,180)(180,223,230))通過這個(gè)動(dòng)作的描述,有關(guān)“一個(gè)對(duì)象(誰)在一個(gè)時(shí)間間隔內(nèi)(何時(shí))在一個(gè)軌跡表示的空間上(在哪里)表現(xiàn)出動(dòng)作ID指示的行為(什么)”的表示成為可能。
這里,共線逼近被用作表示軌跡的方法。共線逼近軌跡數(shù)據(jù),并且描述各個(gè)結(jié)點(diǎn)的參考平面上的結(jié)點(diǎn)數(shù)量,逼近座標(biāo)和動(dòng)作時(shí)間。因此,如果指定某個(gè)時(shí)間,則可以唯一確定此時(shí)一個(gè)對(duì)象的座標(biāo)值。
圖1是一個(gè)從概念上示出基于參考平面的描述,一個(gè)對(duì)象的行為區(qū)段和基于足球內(nèi)容中多個(gè)對(duì)象的描述和數(shù)據(jù)流的圖例。
首先,從視頻序列中分割出一個(gè)基于區(qū)域的視頻對(duì)象,并且通過跟蹤時(shí)間方向(131)上各個(gè)對(duì)象來獲取對(duì)象的生命周期。接著,根據(jù)對(duì)象的輪廓對(duì)對(duì)象動(dòng)作進(jìn)行分類,其中對(duì)象輪廓表示各個(gè)對(duì)象的形狀變化。針對(duì)所有這些行為區(qū)段執(zhí)行對(duì)象描述,即動(dòng)作描述(132)。
此時(shí),使用參考平面將對(duì)象的空間移動(dòng)表示成其軌跡。出現(xiàn)在全部視頻幀中的對(duì)象具有獨(dú)立的動(dòng)作描述,并且根據(jù)多個(gè)對(duì)象定義IAction(以后描述)。
為了簡單,這里描述的動(dòng)作軌跡被限制成兩點(diǎn)軌跡。另外,球的軌跡被用作IAct(以后描述)的空間表示。并且在這種情況下,以運(yùn)動(dòng)員的觸球(踢球或接球)為單位描述球的信息,其中不同運(yùn)動(dòng)員之間的觸球被視作傳球,相同運(yùn)動(dòng)員的連續(xù)觸球被視作運(yùn)球。
如果更詳細(xì)地查看圖1,則從視頻序列101和102(131)中分割出一個(gè)基于顏色,質(zhì)地和移動(dòng)的區(qū)域。雖然這個(gè)過程基本上是自動(dòng)的,但也可以通過一個(gè)工具在各個(gè)場(chǎng)地中對(duì)其進(jìn)行修改以便校正錯(cuò)誤提取的區(qū)域和過度分割的區(qū)域。
此后,分割的移動(dòng)區(qū)域被處理成視頻對(duì)象。并且,此時(shí)可以插入一個(gè)對(duì)象ID。根據(jù)分割區(qū)域發(fā)生重疊的區(qū)域的尺寸自動(dòng)確定對(duì)相鄰場(chǎng)地之間的一個(gè)區(qū)域的跟蹤。作為特殊對(duì)象,球當(dāng)前不被分割,并且通過一個(gè)在圖像上輸入球的位置的工具進(jìn)行人工輸入。圖1中的111示出了上述數(shù)據(jù)的概念圖例。
接著,通過跟蹤各個(gè)場(chǎng)地中的一個(gè)角落或有關(guān)背景中一個(gè)靜止對(duì)象的特征區(qū)域來恢復(fù)攝像機(jī)移動(dòng)參數(shù)。
在一個(gè)圖像平面上表示一個(gè)視頻對(duì)象的位置,其中需要根據(jù)攝像機(jī)的移動(dòng)進(jìn)行校正。所以,假定一個(gè)虛擬平面并且被恢復(fù)出一個(gè)移動(dòng)參數(shù)的視頻被投射到一個(gè)圖像平面上。因而,獲得了相當(dāng)于恢復(fù)視頻一個(gè)對(duì)象位置的數(shù)據(jù),其中視頻是從一個(gè)單獨(dú)的攝像機(jī)輸入的。并且,由于攝像機(jī)被設(shè)置成具有一個(gè)對(duì)地俯視角,可以將其處理成一個(gè)圖像平面上的一段距離,但通過自作為參考平面的天空向下將對(duì)象位置投射到地面,可以將其處理成一段真實(shí)距離。在圖1的Space 123中將這種情況表示成一個(gè)時(shí)間連續(xù)的概念圖例。
雖然在這個(gè)例子中分割的對(duì)象是一個(gè)隨時(shí)間改變形狀的視頻,但使用與內(nèi)部顏色信息無關(guān)的輪廓以便更加注意形狀的改變。由于輪廓的改變顯示出基于動(dòng)作的特定變化,所以在唯一空間呈現(xiàn)多個(gè)預(yù)定動(dòng)作模式的連續(xù)輪廓以便根據(jù)高階特征值獲得動(dòng)作所獨(dú)有的變化。
接著,當(dāng)在相同的唯一空間呈現(xiàn)輸入模式時(shí),通過尋找其最接近的預(yù)定模式來識(shí)別出移動(dòng)模式。這個(gè)過程需要獲得對(duì)象動(dòng)作系列中的一個(gè)動(dòng)作變化點(diǎn)。雖然可以從唯一空間獲得變化點(diǎn),但目前是人工輸入的。
通過多個(gè)動(dòng)作,并且僅僅在一個(gè)動(dòng)作變化點(diǎn)輸入一個(gè)動(dòng)作ID和一個(gè)幀號(hào)可以描述一個(gè)對(duì)象系列,這可以被解釋成之間的所有對(duì)象正在執(zhí)行相同的移動(dòng)。
如上所述,雖然圖1中描述的數(shù)據(jù)變換具有部分需要人工輸入支持的處理,但可以在一個(gè)期待將來能夠自動(dòng)進(jìn)行的過程中產(chǎn)生數(shù)據(jù)。
圖2是一個(gè)詳細(xì)示出與圖1中的TIME(124)相同的內(nèi)容的圖例,但主題視頻數(shù)據(jù)是不同的。
圖2中的水平軸292表示時(shí)間,垂直軸291表示一個(gè)對(duì)象ID。
描述了一個(gè)對(duì)象,使得圖2中輪廓201和202的變化時(shí)間點(diǎn)成為以識(shí)別的動(dòng)作ID為最小單元的描述的邊界。描述一個(gè)動(dòng)作ID的開始/結(jié)束時(shí)的時(shí)間間隔和對(duì)象位置。并且,為了跟蹤一個(gè)對(duì)象軌跡,描述了一個(gè)時(shí)間間隔內(nèi)多個(gè)時(shí)間點(diǎn)上的位置。因此,可以在所有的幀中逼近對(duì)象位置。
圖2中的200是基于時(shí)間間隔的對(duì)象概念圖例,其中對(duì)象1-6(203-208)表示運(yùn)動(dòng)員,(A)和(B)表示球隊(duì),對(duì)象X(209)表示球。
球209被描述成一個(gè)沒有動(dòng)作ID的對(duì)象。
例如,對(duì)象2(A)是球隊(duì)A的運(yùn)動(dòng)員并且在時(shí)間間隔214內(nèi)奔跑,在時(shí)間間隔224內(nèi)停止,在時(shí)間間隔234內(nèi)踢球,在時(shí)間間隔244內(nèi)奔跑,在時(shí)間間隔254內(nèi)踢球,并且在時(shí)間間隔264內(nèi)奔跑。這些動(dòng)作被記錄了開始時(shí)間,結(jié)束時(shí)間和一個(gè)對(duì)象位置(Px)。
圖3用實(shí)線示出了大約20秒的足球場(chǎng)景中主要運(yùn)動(dòng)員的移動(dòng),用點(diǎn)線示出了球的移動(dòng)。雖然圖3是一個(gè)詳細(xì)示出與圖1中的Space(123)相同的內(nèi)容的圖例,但主題視頻數(shù)據(jù)是不同的。
存在從實(shí)際足球場(chǎng)景中提取對(duì)象并且通過自動(dòng)提取攝像機(jī)移動(dòng)參數(shù)還原各個(gè)對(duì)象在場(chǎng)地上的移動(dòng)的情況。在圖3的情況下,一個(gè)足球場(chǎng)被設(shè)置成參考平面。
首先從位置312踢出球?qū)ο?點(diǎn)線),在被踢了若干次之后球到達(dá)接近球門340的位置314。
其中示出了一個(gè)運(yùn)動(dòng)員(實(shí)線)從位置322移動(dòng)到位置324并且另一個(gè)運(yùn)動(dòng)員從位置312啟動(dòng)并且移到位置314。
通過這種方式,可以跟蹤視頻數(shù)據(jù)中各個(gè)對(duì)象在參考平面上的軌跡。
接著,雖然通常有多個(gè)對(duì)象同時(shí)存在于一個(gè)圖像中并且分別具有不同的生命周期和含義,但可以為包括多個(gè)對(duì)象的行為的場(chǎng)景指定含義。
這種情況被描述成交互動(dòng)作(IAction)。IAction(或被描述成IAct)完全取決于內(nèi)容,并且針對(duì)各個(gè)內(nèi)容或各個(gè)視頻數(shù)據(jù)庫管理員可以使用不同的定義。
然而,為了促進(jìn)IAction描述的一致性并且使之應(yīng)用于一個(gè)搜索引擎,在本說明中規(guī)定通過與另一個(gè)IAction的邏輯操作和多個(gè)動(dòng)作定義IAction。
IAction的描述如圖9所述。
下面是使用這個(gè)IAction的描述的一個(gè)例子。
IAct(“傳球”,20(幀),35(幀),2,1,2,軌跡,2,(120,180,0)(160,230,15))IAction的上述描述是關(guān)于“何時(shí),何地,誰做什么”的描述。與上述動(dòng)作的差異在于其主題是多個(gè)對(duì)象并且以主動(dòng)方式指定位置。
在稍后提到的足球例子中,球的軌跡被用作一個(gè)事件的空間表示。
舉例解釋通過兩個(gè)對(duì)象規(guī)定其含義的“傳球”描述和其它對(duì)象的AND表示的“突破傳球”描述。
這里,假定上述Act和IAct描述的數(shù)據(jù)庫實(shí)際存在。為了方便突破傳球的定義是“在運(yùn)動(dòng)員A和B之間傳球,并且球穿過防守方的運(yùn)動(dòng)員C和D之間,其中在傳球時(shí)運(yùn)動(dòng)員C和D正在那里”。
在本發(fā)明中,為確定下列內(nèi)容而進(jìn)行定義。1.在某兩個(gè)運(yùn)動(dòng)員之間存在一個(gè)IAct(“傳球”)。2.該時(shí)間間隔內(nèi)存在兩個(gè)其它的防守方運(yùn)動(dòng)員(存在兩個(gè)與1共享一個(gè)時(shí)間間隔的動(dòng)作,并且執(zhí)行兩個(gè)動(dòng)作的對(duì)象屬于與1的對(duì)象不同的球隊(duì))。3.傳球通過兩個(gè)運(yùn)動(dòng)員之間的軌跡(在共享時(shí)間間隔內(nèi),球的軌跡與連接防守方兩個(gè)運(yùn)動(dòng)員的線條相交)。
這里,以圖10形式描述IAct語句。
一個(gè)突破傳球IAct的定義的例子如圖11所示。
以本發(fā)明的應(yīng)用為例,示出了足球比賽中的描述。在足球中,根據(jù)一個(gè)單獨(dú)的對(duì)象定義的比賽類型和根據(jù)多個(gè)對(duì)象的關(guān)系定義的動(dòng)作類型被用作描述項(xiàng)目。并且在足球中,球?qū)ο蟮拿枋霰挥米魈厥鈱?duì)象。
通過類似方式可以表示對(duì)球自身的描述,即在上述對(duì)象的動(dòng)作描述中省略一個(gè)動(dòng)作ID并且對(duì)象ID為球。
下列描述定義了足球內(nèi)容中的IAction,并且使用動(dòng)作和IAction的描述也可以用于其它內(nèi)容。
由于存在若干個(gè)應(yīng)用例子,例如除足球以外的運(yùn)動(dòng)項(xiàng)目,傳輸測(cè)量和視頻監(jiān)視等等,可以認(rèn)為上述方法是一個(gè)可用于諸如本發(fā)明的內(nèi)容的描述方法,其中關(guān)于對(duì)象的行為和在參考平面上的位置關(guān)系的表示是有效的。
這里,球?qū)ο笕缦滤觥?br>
球(開始時(shí)間,結(jié)束時(shí)間,結(jié)點(diǎn)數(shù)量,軌跡)一個(gè)在足球項(xiàng)目中使用的單獨(dú)對(duì)象存在下列動(dòng)作類型。
活動(dòng)={躺,坐,摔倒,抬手,沖入,手拋球,擲邊線球,跳,停,走,跑,滑動(dòng),踢,過頂踢}即,躺,坐,摔倒,抬手,沖入,手拋球,擲邊線球,跳,停,走,跑,滑動(dòng),踢,過頂踢,和通??梢钥紤]到的等等。
作為動(dòng)作的例子,描述一個(gè)傳球(表6中的線路1-26),一個(gè)長傳(表6中的線路28-39),一個(gè)回傳(表7中的線路1-14),一個(gè)交叉?zhèn)髑?表7中的線路16-33),一個(gè)有利傳球(表8中的線路1-18),傳中(表8中的線路20-38),和一個(gè)踢墻式傳球(表9中的線路1-36)。
由于已經(jīng)參照表5詳細(xì)解釋了對(duì)IAct的一個(gè)突破傳球例子的定義,這里不再提供對(duì)這些例子的詳細(xì)解釋。
另外,表10和表11示出了IAct中使用的輔助功能組。有關(guān)上述例子中使用的功能的含義參見輔助功能組。(圖12,圖13,圖14,圖15)圖4示出了搜尋視頻數(shù)據(jù)和相關(guān)數(shù)據(jù)分組所需的步驟。(圖16,圖17)
視頻數(shù)據(jù)401經(jīng)過圖像處理410的處理并且結(jié)果被存儲(chǔ)成數(shù)據(jù)組420。例如,根據(jù)一個(gè)區(qū)域分割過程獲得區(qū)域映射422,根據(jù)一個(gè)對(duì)象標(biāo)識(shí)獲得一個(gè)對(duì)象軌跡ID(424),根據(jù)動(dòng)作分類得到一個(gè)動(dòng)作ID(426),根據(jù)攝像機(jī)動(dòng)作恢復(fù)過程得到攝像機(jī)參數(shù)428,等等。
然而,這些過程不僅是完全自動(dòng)的過程,而且在直接從視頻數(shù)據(jù)401產(chǎn)生和人工輸入數(shù)據(jù)之后通過人工支持對(duì)數(shù)據(jù)進(jìn)行格式化。
根據(jù)這些數(shù)據(jù)組420獲得Act430,即基于對(duì)象的視頻描述。
并且,根據(jù)通過選擇視頻數(shù)據(jù)401事先獲得的定義,獲得針對(duì)視頻數(shù)據(jù)401的參考平面(Refplane)442的描述。
并且,通過選擇視頻數(shù)據(jù)401,獲得描述被給予一個(gè)由多個(gè)對(duì)象的行為構(gòu)成的場(chǎng)景的含義的場(chǎng)景描述IAct456,其中預(yù)定該描述以便解釋視頻數(shù)據(jù)401。
作為這個(gè)描述的一個(gè)應(yīng)用,為了搜尋視頻數(shù)據(jù)401,一個(gè)用戶會(huì)向搜索引擎460輸入用戶關(guān)鍵字470。搜索引擎460解釋用戶關(guān)鍵字470并且根據(jù)對(duì)象描述430和場(chǎng)景描述456返回一個(gè)時(shí)間間隔內(nèi)的對(duì)應(yīng)視頻數(shù)據(jù)401以便通過視頻顯示給用戶。
此時(shí),場(chǎng)景描述456通過處理Refplane 422和Act430返回一個(gè)對(duì)應(yīng)的時(shí)間間隔。
并且,允許用戶為搜索引擎460提供相當(dāng)于場(chǎng)景描述IAct 456的描述,并且針對(duì)一個(gè)用戶定義場(chǎng)景描述對(duì)Refplane 422和Act430進(jìn)行處理以便返回一個(gè)時(shí)間間隔內(nèi)的用戶定義場(chǎng)景并且通過視頻顯示給用戶。
圖5示出了一個(gè)搜尋視頻屏幕。
用戶通過在搜尋屏幕500中選擇必要的項(xiàng)目并且開始搜尋可以搜尋期望的場(chǎng)景。
在迄今為止所解釋的足球視頻的情況下,可以指定運(yùn)動(dòng)員510,時(shí)間520,位置(地方)530和動(dòng)作540。
對(duì)于指定運(yùn)動(dòng)員,可以考慮通過球隊(duì)名稱,個(gè)人名稱或位置對(duì)其進(jìn)行指定。
在指定動(dòng)作的情況下,可以使用在上述Action和IAction中定義的動(dòng)作。例如,可以使用諸如躺,坐,摔倒,抬手,沖入,手拋球,擲邊線球,跳,停,走,跑,滑動(dòng),踢或過頂踢的Action,或者使用諸如傳球,突破傳球或傳中的IAction。并且,用戶也可以重新定義一個(gè)場(chǎng)景。
在指定圖5中的一個(gè)動(dòng)作為突破傳球的情況下,圖6示出了一個(gè)場(chǎng)景搜索結(jié)果屏幕600。
例如,搜索結(jié)果在這種情況下有一個(gè),并且顯示場(chǎng)景開始時(shí)的圖像610。通常,通過點(diǎn)擊搜索結(jié)果的這個(gè)圖像610重放期望的場(chǎng)景。
通過采用本發(fā)明的上述結(jié)構(gòu),可以提供一個(gè)以較小的數(shù)據(jù)量有效表示視頻,DVD,CD-ROM,MPEG等的動(dòng)畫內(nèi)容的描述方法。
并且,通過采用本發(fā)明的結(jié)構(gòu)可以得到一個(gè)根據(jù)動(dòng)畫內(nèi)容有效地進(jìn)行解釋的描述方法。
并且,通過采用本發(fā)明的結(jié)構(gòu),可以提供一個(gè)動(dòng)畫描述方法,除了搜尋一個(gè)對(duì)象或場(chǎng)景之外,該方法能夠?qū)崿F(xiàn)諸如對(duì)象重用和內(nèi)容總結(jié)的應(yīng)用。
權(quán)利要求
1.一個(gè)動(dòng)畫內(nèi)容描述裝置,上述裝置包括(a)設(shè)置參考平面的裝置;(b)根據(jù)上述參考平面上的位置和預(yù)定動(dòng)作類型描述上述動(dòng)畫中的各個(gè)對(duì)象的裝置;和(c)使用上述描述各個(gè)對(duì)象的裝置描述各個(gè)場(chǎng)景的裝置。
2.一個(gè)動(dòng)畫內(nèi)容搜尋裝置,上述裝置包括(a)設(shè)置參考平面的裝置;(b)根據(jù)上述參考平面上的位置和預(yù)定動(dòng)作類型描述上述動(dòng)畫中的各個(gè)對(duì)象的裝置;(c)使用上述描述各個(gè)對(duì)象的裝置描述各個(gè)場(chǎng)景的裝置;和(d)使用上述描述各個(gè)對(duì)象的裝置和上述描述各個(gè)場(chǎng)景的裝置搜尋動(dòng)畫的裝置。
3.一個(gè)動(dòng)畫描述方法,上述方法包括的步驟有(a)確定表示被包含在上述動(dòng)畫中的對(duì)象位置的信息的參考平面;(b)表示各個(gè)對(duì)象在上述參考平面上的時(shí)間變化作為軌跡;(c)使用各個(gè)對(duì)象的形狀變化根據(jù)各個(gè)對(duì)象的預(yù)定動(dòng)作類型設(shè)置一個(gè)描述單元,以便將各個(gè)對(duì)象的動(dòng)作分配到各個(gè)動(dòng)作區(qū)段中;和(d)根據(jù)多個(gè)對(duì)象定義各個(gè)場(chǎng)景。
4.一個(gè)動(dòng)畫搜尋方法,上述方法包括的步驟有(a)設(shè)置表示被包含在上述動(dòng)畫中的對(duì)象位置的信息的參考平面;(b)表示各個(gè)對(duì)象在上述參考平面上的時(shí)間變化作為軌跡;(c)使用各個(gè)對(duì)象的形狀變化根據(jù)各個(gè)對(duì)象的預(yù)定動(dòng)作類型設(shè)置一個(gè)描述單元,以便將各個(gè)對(duì)象的動(dòng)作分配到各個(gè)動(dòng)作區(qū)段中;(d)根據(jù)多個(gè)對(duì)象定義各個(gè)場(chǎng)景;和(e)使用各個(gè)對(duì)象的上述動(dòng)作或上述場(chǎng)景搜尋一個(gè)特定場(chǎng)景。
5.一個(gè)動(dòng)畫描述方法,上述方法包括的步驟有(a)根據(jù)上述動(dòng)畫確定參考平面;(b)根據(jù)上述動(dòng)畫分割出一個(gè)區(qū)域映射,一個(gè)對(duì)象軌跡ID,一個(gè)動(dòng)作ID和一個(gè)攝像機(jī)參數(shù);(c)根據(jù)上述區(qū)域映射,上述對(duì)象軌跡ID,上述動(dòng)作ID和上述攝像機(jī)參數(shù)產(chǎn)生對(duì)各個(gè)對(duì)象的動(dòng)作的描述;和(d)使用上述對(duì)各個(gè)對(duì)象的動(dòng)作的描述產(chǎn)生場(chǎng)景描述。
6.一個(gè)動(dòng)畫描述方法,上述方法包括的步驟有(a)根據(jù)上述動(dòng)畫確定參考平面;(b)根據(jù)上述動(dòng)畫分割出一個(gè)區(qū)域映射,一個(gè)對(duì)象軌跡ID,一個(gè)動(dòng)作ID和一個(gè)攝像機(jī)參數(shù);(c)根據(jù)上述區(qū)域映射,上述對(duì)象軌跡ID,上述動(dòng)作ID和上述攝像機(jī)參數(shù)產(chǎn)生對(duì)各個(gè)對(duì)象的動(dòng)作的描述;和(d)使用上述對(duì)各個(gè)對(duì)象的動(dòng)作的描述產(chǎn)生場(chǎng)景描述。
7.一個(gè)動(dòng)畫描述方法,上述方法包括的步驟有(a)根據(jù)上述動(dòng)畫分割出一個(gè)區(qū)域映射,一個(gè)對(duì)象軌跡ID,一個(gè)動(dòng)作ID和一個(gè)攝像機(jī)參數(shù);(b)根據(jù)上述區(qū)域映射,上述對(duì)象軌跡ID,上述動(dòng)作ID和上述攝像機(jī)參數(shù)產(chǎn)生對(duì)各個(gè)對(duì)象的動(dòng)作的描述;和(c)使用上述對(duì)各個(gè)對(duì)象的動(dòng)作的描述產(chǎn)生場(chǎng)景描述。
8.一個(gè)記錄搜尋動(dòng)畫的管理數(shù)據(jù)的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),上述管理數(shù)據(jù)包括(a)由參考平面上的位置和預(yù)定動(dòng)作類型定義的有關(guān)各個(gè)對(duì)象的動(dòng)作的描述數(shù)據(jù);和(b)由上述動(dòng)作描述數(shù)據(jù)定義的場(chǎng)景描述數(shù)據(jù)。
9.一種記錄一個(gè)程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),上述程序使計(jì)算機(jī)執(zhí)行以下步驟(a)確定表示被包含在上述動(dòng)畫中的對(duì)象位置的信息的參考平面;(b)表示各個(gè)對(duì)象在上述參考平面上的時(shí)間變化作為軌跡;(c)使用各個(gè)對(duì)象的形狀變化根據(jù)各個(gè)對(duì)象的預(yù)定動(dòng)作類型設(shè)置一個(gè)描述單元,以便將各個(gè)對(duì)象的動(dòng)作分配到各個(gè)動(dòng)作區(qū)段中;和(d)根據(jù)多個(gè)對(duì)象定義各個(gè)場(chǎng)景。
全文摘要
一個(gè)使用少量數(shù)據(jù)有效描述動(dòng)態(tài)圖像數(shù)據(jù)內(nèi)容的方法,該方法包含步驟(1)通過使用一個(gè)表示有關(guān)對(duì)象位置的信息的參考平面來表示各個(gè)對(duì)象隨時(shí)間移動(dòng)的軌跡,(2)通過使用對(duì)象形狀的變化提供一個(gè)基于對(duì)象運(yùn)動(dòng)類型的描述單元,(3)對(duì)象運(yùn)動(dòng)被表示成一個(gè)運(yùn)動(dòng)區(qū)段,(4)讀取并解釋基于視頻內(nèi)容的對(duì)象定義,動(dòng)作類型的定義,基于對(duì)象交互的場(chǎng)景解釋定義。
文檔編號(hào)G06F17/30GK1338089SQ00803115
公開日2002年2月27日 申請(qǐng)日期2000年1月20日 優(yōu)先權(quán)日1999年1月26日
發(fā)明者越后富夫, 黑川雅人, 前田潤治, 阿爾貝托·富田 申請(qǐng)人:國際商業(yè)機(jī)器公司