亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

從多媒體內(nèi)容的低級特征中抽取高級特征的制作方法

文檔序號:6570996閱讀:397來源:國知局
專利名稱:從多媒體內(nèi)容的低級特征中抽取高級特征的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及多媒體內(nèi)容,具體地說涉及從多媒體內(nèi)容的低級特征中抽取高級特征。
背景技術(shù)
視頻分析可被定義為通過處理視頻來理解視頻內(nèi)容。這種理解的范圍遍及諸如檢測視頻中的鏡頭邊界的“低級”理解到諸如檢測視頻風(fēng)格的“高級”理解。通過分析低級特征如彩色、運(yùn)動、紋理、形狀等產(chǎn)生內(nèi)容描述可實現(xiàn)低級理解。內(nèi)容描述則可用于索引視頻。
建議采用的MPEG-7標(biāo)準(zhǔn)提供了這種內(nèi)容描述的框架。MPEG-7是MPEG委員會最新的標(biāo)準(zhǔn)化成果,被正式稱作“多媒體內(nèi)容描述接口”,見于“MPEG-7上下文,目標(biāo)和技術(shù)路線,”ISO/IEC N2861,1999年7月。
實質(zhì)上,此標(biāo)準(zhǔn)計劃把一組描述符與可被用于描述各類多媒體內(nèi)容的描述方案相結(jié)合。描述符和描述方案與內(nèi)容本身相關(guān)且便于快速有效地搜索特定用戶感興趣的材料。重要的是,此標(biāo)準(zhǔn)并不意味著要取代以前的編碼標(biāo)準(zhǔn),而是要建立在其它標(biāo)準(zhǔn)表示特別是MPEG-4的基礎(chǔ)之上,這是因為多媒體內(nèi)容可被分解為不同的目標(biāo)并且可給每個目標(biāo)分配唯一的一組描述符。另外,該標(biāo)準(zhǔn)獨立于存儲內(nèi)容所用的格式。
MPEG-7的主要應(yīng)用預(yù)期是搜索和檢索應(yīng)用,見ISO/IEC N2861,1999年7月的“MPEG-7應(yīng)用”。在一個簡單應(yīng)用環(huán)境下,用戶可規(guī)定一個特定視頻目標(biāo)的一些屬性。在此低級表示中,這些屬性可包括描述該特定視頻目標(biāo)的紋理、運(yùn)動和形狀的描述符。1999年6月4日由Lin等人提交的美國專利申請Sn.09/326,759“排序(ordering)圖象空間以表示目標(biāo)形狀的方法”中描述了一種表示和比較形狀的方法,并且1999年9月27日由Divakaran等人提交的美國專利申請Sn.09/406,444“視頻序列的活動性描述符”中描述了一種用于描述運(yùn)動活動性的方法。
為了獲得高級表示,我們可考慮把幾個低級描述符組合在一起的更詳細(xì)的描述方案。事實上,這些描述方案甚至可包含其它描述方案,見ISO/IEC N3113,1999年9月的“MPEG-7多媒體描述方案WD(V1.0)”和1999年8月30日由Lin等人提交的美國專利申請Sn.09/385,169“用于表示和比較多媒體內(nèi)容的方法”。
將由MPEG-7標(biāo)準(zhǔn)提供的描述符和描述方案可被認(rèn)為是低級語法或高級語義,其中語法信息指的是內(nèi)容的物理和邏輯信號方面,而語義信息指是的內(nèi)容的概念含義。
下面,這些高級語義特征有時也會被稱作“事件”。
對于視頻來說,語法事件可涉及特定視頻目標(biāo)的彩色、形狀和運(yùn)動。而語義事件一般指不能從低級描述符中抽取的信息,如事件的時間、名稱或位置,如視頻中的一個人的名字。
但是,諸如視頻風(fēng)格、事件語義等的高級或語義特征的自動或半自動抽取仍然是待解決的研究主題。例如,從足球事件的視頻中抽取運(yùn)動、彩色、形狀和紋理并根據(jù)抽取的低級特征建立與另一個足球視頻的低級相似性是容易的。這些技術(shù)已進(jìn)行了詳細(xì)描述。但是,通過其低級特征自動識別視頻為足球事件的視頻卻并不容易。
一些抽取技術(shù)在已有技術(shù)中是已知的,例如可見關(guān)于圖象和視頻數(shù)據(jù)庫的基于內(nèi)容的存取的IEEE研討會,1998,Chen等人的“ViBE視頻數(shù)據(jù)庫瀏覽和搜索程序的新范例”;關(guān)于圖象和視頻數(shù)據(jù)庫的存儲和檢索的SPIE會議,Vol.2670,1996年1月,Zhong等人的“視頻瀏覽和注釋的群集(clustering)方法”;IEEE CVPR,1998,Kender等人的“通過連續(xù)視頻相干性的視頻景物分割”;ICPR,Vol.C.1996年8月,Yeung等人的“視頻到故事單元的分割的限時群集”;以及關(guān)于視頻技術(shù)的電路和系統(tǒng)的IEEE會刊,Vol.5,NO.6,Dec.1995,Yeo等人的“,”。
這些技術(shù)大部分是先使用從各個幀抽取的低級特征把視頻分割為鏡頭。隨后,這些鏡頭利用抽取的特征聚集為景物。根據(jù)該抽取和聚集處理,這些技術(shù)通常建立視頻內(nèi)容的分層結(jié)構(gòu)。
使用這些方法的問題在于它們不靈活。因而難以進(jìn)行詳細(xì)的分析以彌補(bǔ)低級特征和諸如語義事件的高級特征之間的差別。而且,在分割處理的過程中會丟失太多的信息。
因此希望提供一種不必先把視頻分為鏡頭就能夠從視頻中抽取高級特征的系統(tǒng)和設(shè)備。
發(fā)明概要本發(fā)明的一個目的是利用基于幀的低級特征提供自動內(nèi)容分析。本發(fā)明首先在幀級抽取特征并在隨后根據(jù)每個抽取的特征標(biāo)記每一幀。例如,如果使用三個特征,彩色、運(yùn)動和音頻,則每一幀至少具有三個標(biāo)號,即彩色、運(yùn)動和音頻標(biāo)號。
這樣就把視頻簡化為多個標(biāo)號序列,其中有一個連續(xù)幀之間共用的特征的標(biāo)號序列。多個標(biāo)號序列保留了大量的信息,同時把視頻簡化為一種簡單的形式。本專業(yè)技術(shù)人員應(yīng)當(dāng)了解,編碼標(biāo)號所需的數(shù)據(jù)量的數(shù)量級比編碼視頻本身要小。這種簡單形式使能機(jī)器學(xué)習(xí)技術(shù),如HiddenMarkov模型(HMM)、Bayesian網(wǎng)絡(luò)、判定樹等,以執(zhí)行高級特征抽取。
根據(jù)本發(fā)明的過程提供了一種執(zhí)行良好的方法以組合低級特征。根據(jù)本發(fā)明的高級特征抽取系統(tǒng)提供了一種使能易于結(jié)合新特征的公開框架。而且,本發(fā)明可與視頻分析的傳統(tǒng)方法結(jié)合。本發(fā)明的系統(tǒng)提供可應(yīng)用于具有不同要求的應(yīng)用的不同粒度(granularities)的功能性。本發(fā)明還提供一種通過使用各個低級特征或其組合而靈活瀏覽或可視化的系統(tǒng)。最后,根據(jù)本發(fā)明的特征抽取可在壓縮域中執(zhí)行,以利于快速且優(yōu)選的實時系統(tǒng)性能。需要指出,即使壓縮域抽取是優(yōu)選的,但并不是必須在壓縮域中進(jìn)行抽取。
更具體地說,本發(fā)明提供一種用于從包含一個幀序列的視頻中抽取高級特征的系統(tǒng)和方法。低級特征從視頻的每一幀中抽取。視頻的每一幀根據(jù)抽取的低級特征進(jìn)行標(biāo)記以產(chǎn)生標(biāo)號序列。每個標(biāo)號序列與抽取的低級特征之一相關(guān)。標(biāo)號序列使用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行分析以抽取視頻的高級特征。


圖1是根據(jù)本發(fā)明的特征抽取系統(tǒng)的框圖;且圖2是多個標(biāo)號序列的框圖以及訓(xùn)練事件模型。
系統(tǒng)結(jié)構(gòu)圖1示出了一種用于根據(jù)本發(fā)明而從視頻中抽取低級和高級特征的系統(tǒng)100。系統(tǒng)100包括特征抽取級110、幀標(biāo)記級120和分析級(分析器)130。該系統(tǒng)還包括特征庫140。
第一級110包括一個或多個特征抽取塊(抽取器)111-113。第二級120包括一個或多個幀標(biāo)記塊(標(biāo)記器)121-123。第三級130包括邊界分析塊131、事件檢測塊132和類別分類塊133。
系統(tǒng)的輸入101是視頻101,即一個幀序列。視頻101最好是壓縮的,但在必要時也可結(jié)合在未壓縮域中抽取的特征。輸出109包括高級特征或事件109。
系統(tǒng)操作特征抽取塊111-113從視頻中抽取低級特征。這些特征使用存儲在特征庫140中的特征抽取程序141進(jìn)行抽取。每個抽取程序?qū)?yīng)一個相應(yīng)的描述符142。第二級120的塊121-123根據(jù)抽取的特征標(biāo)記視頻幀。標(biāo)號可以是描述符142。一幀可根據(jù)多個不同低級特征進(jìn)行標(biāo)記,這將在下面詳述。第二級的輸出是標(biāo)號序列129。第三級綜合該標(biāo)號序列以導(dǎo)出視頻101的內(nèi)容的高級特征或語義(事件)109。
特征抽取彩色特征I幀的DC系數(shù)可被容易且準(zhǔn)確地抽取。對于P和B幀來說,DC系數(shù)也可使用未完全解壓的運(yùn)動矢量來近似估計,如可見IEEE ICIPVol.2,1995,Yeo等人的“關(guān)于從MPEG視頻中的DC序列的抽取”。DC圖象的YUV值可被變換至不同的彩色空間且用于獲得彩色特征。
最常用的特征是彩色直方圖。它已被廣泛地用在圖象和視頻索引和檢索中,見關(guān)于圖案分析和機(jī)器智能的IEEE會刊,Nov.1996,Smith等人的“使用彩色和紋理的自動圖象檢索”。在此,我們使用RGB空間。每個通道我們使用四個接收器(bin),因而對于彩色直方圖來說總共使用64(4×4×4)個接收器。
運(yùn)動特征運(yùn)動信息大部分置于運(yùn)動矢量中。運(yùn)動矢量可從P和B幀中抽取。由于運(yùn)動矢量通常是真實光流的粗略且稀疏的近似,所以我們僅僅定性地使用運(yùn)動矢量。已經(jīng)提出了使用運(yùn)動矢量的許多不同方法,見關(guān)于圖象處理的Proc.IEEE國際會議,Vol.2,pp.722-726,1995,Tan等人的“攝像機(jī)運(yùn)動參數(shù)估計的一種新方法”;關(guān)于視頻技術(shù)的電路和系統(tǒng)的IEEETrans.,1999,Tan等人的“從具有應(yīng)用的壓縮視頻到視頻注釋的攝像機(jī)運(yùn)動的快速估計”;關(guān)于多媒體信號處理的Proc.IEEE專題討論會,1999,Kobla等人的“用于識別運(yùn)動視頻的慢速運(yùn)動重放序列的檢測”;關(guān)于圖象和視頻數(shù)據(jù)庫的存儲和檢索的Proc.SPIE會議VII,1999,Kobla等人的“使用視頻跟蹤的專用效果編輯檢測與現(xiàn)在技術(shù)的比較”;關(guān)于圖象和視頻數(shù)據(jù)庫的存儲和檢索的Proc.SPIE會議V,SPIE Vol.3022,pp.200-211,1997,Kobla等人的“使用MPEG視頻中的運(yùn)動矢量信息和DCT的壓縮域視頻索引技術(shù)”;以及Proc.ACM多媒體96,1996,Meng等人的“CVEPS-壓縮視頻編輯和分析系統(tǒng)”。
我們使用運(yùn)動矢量來估計整體運(yùn)動。攝像機(jī)運(yùn)動的六參數(shù)仿射模型用來把幀分類為全景拍攝(pan)、縮放和靜止,即無攝像運(yùn)動。我們也可使用運(yùn)動方向直方圖估計全景拍攝,并使用運(yùn)動矢量的收縮和擴(kuò)張的焦點(FOE和FOC)估計縮放。
音頻特征音頻特征與視頻特征具有強(qiáng)相關(guān)性且被證明為非常有助于與視頻特征一起進(jìn)行分割,見ICME2000,Sundaram等人的“使用視頻和音頻特征的視頻景物分割”以及ICASSP 2000,Sundaram等人的“使用多個特征、模型和時間標(biāo)度的音頻景物分割”。有十種不同的音頻特征可以使用倒譜通量、多通道蝸形分解、倒譜矢量、低能量分?jǐn)?shù)、零交叉率、譜(spectral)通量、能量、譜滾降點、零交叉率的方差和能量的方差。
幀標(biāo)記對于一個給定特征如彩色來說,我們使用“飛行式”動態(tài)群集來相應(yīng)地標(biāo)記每一幀。從上個簇變化開始,特征的幀間距被跟蹤并與幀組的當(dāng)前平均幀間距相比較。當(dāng)新的幀間距大于預(yù)定閾值時,新一組幀標(biāo)號開始。
該組幀的形心(centroid)與已注冊簇相比較。如果該組幀基本上接近當(dāng)前簇,則它被分配給此簇,并且該簇的形心被更新。否則就產(chǎn)生一個新簇。
當(dāng)新幀間距小時,它被加到當(dāng)前的連續(xù)幀的組中,并且平均幀間距被更新。在群集期間,每一幀根據(jù)其特征的簇進(jìn)行標(biāo)記。我們針對每個單個特征重復(fù)此過程,從而得到視頻的多個標(biāo)號序列129。
多個標(biāo)號流綜合我們在級130中的高級語義(事件)分析是以多個標(biāo)號序列129的分析為基礎(chǔ)的。
事件邊界分析每個標(biāo)號序列129表示如何向幀分配一個特定標(biāo)號。在一個特定標(biāo)號序列中的標(biāo)號簇之間的邊界表示此特征在某個方面所反映的內(nèi)容變化。例如,一個運(yùn)動標(biāo)號的序列將具有從靜態(tài)到快速的運(yùn)動轉(zhuǎn)換的邊界。
不同的特征可把視頻標(biāo)記為不同的標(biāo)號簇。也就是說,與已有技術(shù)不同,各種標(biāo)號序列的簇邊界并不是必須時間對準(zhǔn)的。通過比較不同的相鄰標(biāo)號序列的邊界,我們可把視頻的群集改進(jìn)為標(biāo)號序列,并且還確定不同標(biāo)號簇的邊界的對準(zhǔn)和未對準(zhǔn)的語義含義。
圖2表示幀序列(1-N)101和三個標(biāo)號序列201、202和203。序列201的標(biāo)號值(紅、綠和蘭)是以彩色特征為基礎(chǔ)的,序列202的標(biāo)號值(中和快)是以運(yùn)動特征為基礎(chǔ)的,且序列203的標(biāo)號值(有噪聲、大聲)是音頻特征。需要指出,在本例中,標(biāo)號簇的邊界并不總是時間對準(zhǔn)的。標(biāo)記吻合或轉(zhuǎn)換的方式可表示不同的語義含義。例如,當(dāng)有一個長全景時,在拍攝全景期間可能會有一個明顯的景物變化,使得彩色變化而運(yùn)動不變。另外,當(dāng)景物中的目標(biāo)突然改變運(yùn)動時,可存在運(yùn)動變化而沒有彩色變化。類似地,音頻標(biāo)號可保持恒定而彩色標(biāo)號變化。例如,在足球視頻中,繼之以伴有大噪聲的肉色景物的全景拍攝的綠場地上的快速運(yùn)動之前的慢速運(yùn)動可被歸類為“劃痕”事件。
需要指出,我們根據(jù)標(biāo)號序列的群集大大不同于已有技術(shù)的視頻到鏡頭的分割。我們的簇取決于不同的標(biāo)號,具有不同標(biāo)號的簇的邊界不一定是時間對準(zhǔn)的。在傳統(tǒng)的視頻分割中卻不是這樣。我們不僅分析標(biāo)號邊界本身,而且分析各類標(biāo)號之間的時間對準(zhǔn)關(guān)系和標(biāo)號的轉(zhuǎn)換關(guān)系。
事件檢測檢測事件的一種方式是先產(chǎn)生狀態(tài)轉(zhuǎn)移圖200,或Hidden Markov模型(HMM)。HMM通過標(biāo)號序列201-203產(chǎn)生。在圖200中,每個節(jié)點210表示各種事件(e1,…,e7)的概率且邊220表示事件之間的統(tǒng)計相依性(轉(zhuǎn)移概率)。HMM則可使用已知的訓(xùn)練視頻的標(biāo)號序列進(jìn)行訓(xùn)練。訓(xùn)練的HMM則可用于檢測新視頻中的事件。
多個標(biāo)號序列中的轉(zhuǎn)移可被耦合于HMM模型中,見ICIP98,Naphade等人的“概率多媒體目標(biāo)(Multijects)多媒體系統(tǒng)中的視頻索引和檢索的一種新方法”以及ICME2000,Kristjansson等人的“事件耦合的Hidden Markov模型”,其中HMM被用在涉及其它視頻的應(yīng)用中。我們使用未受管理的學(xué)習(xí)方法來檢測標(biāo)號序列201-203中重復(fù)、明顯或異常的模式。結(jié)合域知識,我們可建立已知事件模式和語義含義之間的關(guān)系。
類別分類同時,類別分類和邊界分析塊的輸出可用于“管理”自動事件檢測。視頻分類非常有助于提供視頻內(nèi)容的基本類別,這樣可進(jìn)一步應(yīng)用更專用于類別中的視頻的方法?;趲亩鄠€特征能夠使視頻分類。
分類器根據(jù)不同標(biāo)號的統(tǒng)計分析來建立。例如,在新聞視頻中,我們定位相當(dāng)頻繁出現(xiàn)的特定彩色標(biāo)號。這些標(biāo)號一般對應(yīng)于主持人,并可用來把新聞視頻與其它視頻區(qū)別開。在足球視頻中,因為攝像機(jī)跟蹤足球的不可預(yù)測運(yùn)動,所以我們定位非常頻繁變化的運(yùn)動標(biāo)號。在棒球視頻中,我們定位幾個不同彩色標(biāo)號之間的轉(zhuǎn)移的重復(fù),這幾個不同彩色標(biāo)號對應(yīng)于球場的通常景象,如擲球前揮動手臂的準(zhǔn)備動作、投擲、擊球和跑向一壘。所有這些信息結(jié)合在一起有助于我們把視頻內(nèi)容分類。
盡管本發(fā)明是以優(yōu)選實施例作為實例進(jìn)行描述的,但應(yīng)當(dāng)理解,在本發(fā)明的精神實質(zhì)和范圍之內(nèi)也可進(jìn)行其它各種適應(yīng)和改進(jìn)。因此,所附權(quán)利要求的目的就是涵蓋本發(fā)明的真正精神實質(zhì)和范圍之內(nèi)的所有這些變化和改進(jìn)。
權(quán)利要求
1.一種從包含幀序列的視頻中抽取高級特征的方法,包括從視頻的每一幀中抽取多個低級特征;根據(jù)抽取的低級特征標(biāo)記視頻的每一幀以產(chǎn)生多個標(biāo)號序列,每個標(biāo)號序列與多個抽取的低級特征之一相關(guān);分析多個標(biāo)號序列以抽取視頻的高級特征。
2.根據(jù)權(quán)利要求1的方法,其中視頻被壓縮。
3.根據(jù)權(quán)利要求1的方法還包括在存儲器中存儲特征抽取方法,針對從視頻中抽取的多個低級特征中的每個特征有一種特征抽取方法;且存儲使用每個相關(guān)特征抽取方法的每個低級特征的相應(yīng)描述符。
4.根據(jù)權(quán)利要求1的方法,其中根據(jù)描述符來標(biāo)記幀。
5.根據(jù)權(quán)利要求1的方法,其中低級特征包括彩色特征、運(yùn)動特征和音頻特征。
6.根據(jù)權(quán)利要求1的方法還包括跟蹤每個低級特征的幀間距;比較該幀間距與當(dāng)前平均幀間距;和如果該幀間距大于預(yù)定閾值,則開始新的標(biāo)號簇。
7.根據(jù)權(quán)利要求6的方法還包括在跟蹤每一幀的幀間距的同時更新平均幀間距。
8.根據(jù)權(quán)利要求1的方法還包括把具有相同值的標(biāo)號聚集為簇。
9.根據(jù)權(quán)利要求1的方法還包括通過標(biāo)號序列產(chǎn)生狀態(tài)轉(zhuǎn)移圖;利用訓(xùn)練視頻的訓(xùn)練標(biāo)號序列訓(xùn)練狀態(tài)轉(zhuǎn)移圖;和使用訓(xùn)練的狀態(tài)轉(zhuǎn)移圖檢測視頻的高級特征。
10.根據(jù)權(quán)利要求1的方法還包括把標(biāo)號序列分類。
11.根據(jù)權(quán)利要求1的方法,其中該分析根據(jù)低級特征之間的邊界而定。
12.一種用于從包含幀序列的視頻中抽取高級特征的系統(tǒng),包括多個特征抽取器,用于從視頻中抽取多個低級特征,其中每個特征有一個特征抽取器;多個幀標(biāo)記器,用于根據(jù)相應(yīng)抽取的低級特征標(biāo)記視頻幀;分析器,用于分析標(biāo)號序列以抽取視頻的高級特征。
全文摘要
一種從包含幀序列的視頻中抽取高級特征的方法。低級特征從視頻的每一幀中抽取。視頻的每一幀根據(jù)抽取的低級特征標(biāo)記以產(chǎn)生標(biāo)號序列。每個標(biāo)號序列與抽取的低級特征之一相關(guān)。標(biāo)號序列使用學(xué)習(xí)機(jī)器學(xué)習(xí)技術(shù)進(jìn)行分析以抽取視頻的高級特征。
文檔編號G06T7/20GK1337828SQ0114073
公開日2002年2月27日 申請日期2001年7月6日 優(yōu)先權(quán)日2000年7月6日
發(fā)明者A·迪瓦卡蘭, A·維特羅, H·森, P·徐, S·-F·昌 申請人:三菱電機(jī)株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1