專利名稱:對普通聲頻可視數(shù)據(jù)信號描述的基本實體關系模型的制作方法
對有關專利申請的參考本專利申請是基于1999年7月3日歸檔的60/142,325號美國暫時的專利申請,并要求對其的優(yōu)先權(quán)。本發(fā)明的背景I、本發(fā)明的領域。
本發(fā)明涉及用于描述多媒體信息的技術,更具體地是涉及到描述視頻和圖象信息,或聲頻信息的技術,以及這種信息的內(nèi)容。所揭示的技術用于數(shù)字數(shù)據(jù)信號(如多媒體信號)的對內(nèi)容敏感的索引和分類。
II、有關技術的描述隨著全球因特網(wǎng)的成熟及區(qū)域網(wǎng)及局域網(wǎng)的廣泛應用,數(shù)字多媒體信息已變得越來越為消費者及商業(yè)所接受。因此開發(fā)那些處理,過濾,搜索及組織數(shù)字多媒體信息,使得能從越來越龐大的原始信息中篩選有用信息的系統(tǒng)變得越來越重要。
在撰文當前專利申請時,已存在允許消費者/或商業(yè)搜索文本信息的解決方安葬。確實,如由yahoo.com,goto.com,excite.com等提供的許多基于文本的搜索引擎在萬維網(wǎng)(www)上可以得到并存在于大多數(shù)被訪問的web網(wǎng)站中,這表明對那樣的信息提取技術有大量的需求。
不幸的是對多媒體內(nèi)容不是那樣,因為對這樣的對象不存在公認的描述方法。
數(shù)字圖形和視頻的最近迅速增加為那些在搜索內(nèi)容時有大量資源的最終用戶帶來了新的機遇。可視信息從許多不同的來源以許多不同的格式在各個不同的方面到處可得到。這是個優(yōu)點,但同時也是挑戰(zhàn),因為用戶在搜索這種內(nèi)容時不能審閱大量數(shù)據(jù)。因此,必須讓用戶能有效地瀏覽內(nèi)容,或根據(jù)他們特定的需要實現(xiàn)詢問。但是為了在一個數(shù)字庫中提供那樣的功能,重要的是理解這些數(shù)據(jù)并合適地索引它。必須構(gòu)造索引,并必須根據(jù)用戶想如何訪問這種信息來構(gòu)造。
在傳統(tǒng)的方法中,使用文本標記于索引,一個編目人員手工指定一組關鍵字或表達式來描述一個圖形。然后用戶能實現(xiàn)基于文本的詢問或通過手工指定的編目瀏覽。與基于文本方法相反,在基于內(nèi)容檢索方面的現(xiàn)代技術將目光集中在基于它們可視內(nèi)容的索引圖象。用戶能通過樣本(如象此樣本的圖象)或用戶設計圖(如象此設計圖的圖象)實現(xiàn)詢問。更現(xiàn)代的工作試圖根據(jù)它們的內(nèi)容自動分類圖象一個系統(tǒng)分類每個圖象并指定一個標簽(如室內(nèi),室外,包含一面,等)。
在兩個范例中有分類的議題,尤其在基于內(nèi)容的檢索方面,這經(jīng)常被忽視。在合適的索引可視信息方面的主要困難可以歸納如下(1)在單個圖形中有大量的信息(如索引什么?),和(2)可能有不同層次的描述(如如何索引?)。例如,考慮穿著一套制服的男士的畫象??赡苡眯g語“制服”或“男士”來標簽此圖象。術語“男士”轉(zhuǎn)而能引出多個層次的信息概念上,(如在字典中男士的定義)物理上(大小,重量)和視覺上的(頭發(fā)顏色,衣服)及其他。因此,一個分類標簽包含明顯的(如在圖象中的人是男士而非女士),和隱含的或不確定信息(如單從那個術語不可能知道那個男士穿什么)。
在這方面,過去的嘗試是提供多媒體數(shù)據(jù)庫,它允許用戶使用包含在圖形中的視頻對象中的如顏色,紋理和形狀那樣的特征搜索圖形。但是,在20世紀末仍然不可能實現(xiàn)搜索因特網(wǎng)上或大多數(shù)區(qū)域網(wǎng)或局域網(wǎng)上的多媒體內(nèi)容,因為不存在這方面內(nèi)容的廣泛共識的描述。此外,對多媒體內(nèi)容搜索的要求不限于數(shù)據(jù)庫,并擴展到如數(shù)字廣播電視和多媒體電話那樣的其他應用中。
通過運動圖形專家組(Motion Picture Expert Group-“MPEG”)的MPEG-7的標準化的努力,一個開發(fā)此標準的工業(yè)界的試圖已經(jīng)形成一個多媒體描述架構(gòu)。在1996年10月開始,MPEG-7致力于標準化多媒體數(shù)據(jù)的內(nèi)容描述,以便于針對內(nèi)容的應用,如多媒體搜索,過濾,瀏覽和綜合。MPEG-7標準為對象的更完全的描述包含在國際標準化組織(International Organisation forStandardisation)文檔ISO/IEC JTC1/SC29/WG11 N2460(1998.10)中,其內(nèi)容在這是包含作為參考。
MPEG-7標準具有的目標是規(guī)定描述符以及用于描述符和它們關系的結(jié)構(gòu)(稱之為“描述型式”)的一組標準集以描述各種類型的多媒體信息。MPEG-7也提出定義其他描述符及對這些描述符和它們的關系的“描述型式”的標準化方法。此描述,即描述符及描述型式的結(jié)合應與內(nèi)容本身有關聯(lián),以允許快速并有效地搜索及過濾用戶感興趣的東西。MPEG-7還建議標準化一個語言,來規(guī)定描述型式,即描述定義語言(Description Definition Language--“DDL”),和用于二進制編碼多媒體內(nèi)容描述的型式。
在撰文當前專利申請時,MPEG征求技術投標,它將優(yōu)化的實現(xiàn)必要的描述型式,用于將來集成到MPEG標準中去。為了提供那樣的優(yōu)化描述型式,考慮3個不同的多媒體應用的方面。它們是分布式處理情況,內(nèi)容交換情況,和允許個性化觀看多媒體內(nèi)容的格式。
關于分布式處理,描述型式必須提供多媒體內(nèi)容的互換描述的能力,而與能進行多媒體內(nèi)容分布式處理的任何平臺,任何銷售商及任何應用無關??苫ゲ僮鞯膬?nèi)容描述的標準化意味著,從各種來源來的數(shù)據(jù)能加入到各種分布或應用中,如多媒體處理器,編輯器,檢索系統(tǒng),過濾工具等。這些應用中的某些可以從第三方提供,產(chǎn)生一個能用此多媒體數(shù)據(jù)的標準化描述工作的多媒體工具的提供者的子工業(yè)。
用戶應能訪問各個內(nèi)容提供者的網(wǎng)站來下載內(nèi)容和由某些低層或高層處理獲得的有關的索引數(shù)據(jù),并進而訪問若干工具提供者的網(wǎng)站來下載工具(如Java應用小程序),以便按照用戶的個人興趣以特別的方法處理異種數(shù)據(jù)描述,這種多媒體工具的一個例子是視頻編輯器。如果與每個視頻相關的描述是MPEG-7相容的,MPEG-7相容的視頻編輯器能管理和處理來自各種來源的視頻內(nèi)容。每個視頻可以帶有變化的描述細節(jié)程度,如攝影機運動,場景剪輯,標準及物體分段。
從可互操作的內(nèi)容描述標準得益非淺的第二情況是在各異種多媒體數(shù)據(jù)庫之間交換多媒體內(nèi)容。MPEG-7致力于提供表示,交換,翻譯和重復使用多媒體內(nèi)容的現(xiàn)有描述的方法。
當前,TV廣播提供者,無線電廣播提供者和其他內(nèi)容提供者管理并存儲巨量多媒體內(nèi)容。此內(nèi)容目前使用文本信息和專用的數(shù)據(jù)庫人工描述。沒有可互操作性的內(nèi)容描述,內(nèi)容的使用者需要投資人力來將由每個廣播者使用的描述手工翻譯成它們自己適用的型式。如果所有的內(nèi)容提供者包含同樣的型式的內(nèi)容描述型式,多媒體內(nèi)容描述的互換是可能的。
最后,應用該描述型式的多媒體播放者及觀看者必須為用戶提供創(chuàng)新的能力如由用戶配置進行數(shù)據(jù)的多重觀看。用戶應能改變顯示配置而不需要從內(nèi)容的廣播者以不同的程式再次下載數(shù)據(jù)。
上述的例子僅暗示了對于根據(jù)MPEG-7以標準方式提供的構(gòu)造豐富的數(shù)據(jù)的可能的使用。不幸的是,當前尚無現(xiàn)成的技術能大體上滿足分布式處理,內(nèi)容改變或個性化觀看等情況。尤其是,現(xiàn)有的技術不能根據(jù)一般的特征或語義關系提供捕捉嵌入在多媒體信息中的內(nèi)容的技術或提供組織這種內(nèi)容的技術。因此需要對一般的多媒體信息的有效的內(nèi)容描述型式的技術。
在MPEG漢城會議(1999年3月)期間,根據(jù)DS1(靜止圖象),DS3++(多媒體),DS4(應用),尤其是根據(jù)MPEG-7 Evaluation AHL(Lancaster,U.K.1999年2月)(AHG on MPEG-7 Evaluation Logistics,“Report of the Ad-hoc Groupon MPEG-7 Evaluation Logistics”,ISO/TEC JTC1/SC29/WG11 MPEG 99/N4524,漢城韓國,1999年3月)的DS2(視頻)組的某些建議產(chǎn)生了一個通用可視性描述型式(Generic Visual Description Scheme)(Video Group,“Generic VisualDescription Scheme for MPEG-7”,ISO/IEC JTC-1/SC29/WG11 MPEG99/N2694,漢城,韓國,1999年3月)。該通用可視性描述型式發(fā)展成對通用可視性描述型式的AHG描述型式(“AVDS”)(AHG on Description Scheme,“Generic Audio Visual Descrption Scheme for MPEG-7(Vo.3)”,ISO/IECJTC1/SC29/WG11 MPEG 99/M4677,溫哥華,加拿大,1999年7月)。GenericAVDS描述了視頻序列或映象的可視性內(nèi)容,以及部分地描述了聲頻序列的內(nèi)容,它不是針對多媒體或歸檔內(nèi)容。
Generic AVDS的基本構(gòu)成部分是語法結(jié)構(gòu)DS,語義結(jié)構(gòu)DS,語法-語義連接DS,和分析/語法模型DS。語法結(jié)構(gòu)DS由區(qū)域樹(region tree),片樹(Segment tree),和片/區(qū)域關系圖組成。類似地,語義結(jié)構(gòu)DS由對象樹(objecttree),事件樹(event tree)和對象/事件(object/event)關系圖組成。語法-語義連接DS提供將語法單元(區(qū)域,片段和片段/區(qū)域關系)與語義單元(對象,事件,和事件/對象關系)的正反向連接。分析/語法模型規(guī)定了語法與語義結(jié)構(gòu)之間的設計/登記/概念的對應關系。通常稱之為內(nèi)容單元的語義和語法單元具有相關的屬性。例如,用顏色/紋理,形狀,2D-幾何,運動,和變形描述一個區(qū)域。用類型,對象行為,和語義標記DS描述一個對象。
我們已認識到在Generic AVDS的當前描述中可能的缺點。Generic AVDS包括內(nèi)容單元和實體—關系圖。內(nèi)容單元具有相關的特征,實體-關系圖描述在內(nèi)容單元中的一般關系。這是根據(jù)實體-關系(ER)建模技術(P.P-S,Chen,“The Entity-Relation Model-Toward a United View of Data,ACM Transaction onDatabase Systems,Vol.1,No.1,pp-9-36,1976年3月)。但是在Generic AVDS中對這些單元的當前描述太一般,以致不能成為描述聲頻-視頻內(nèi)容的有力工具。Generic AVDS也包括層次及層次之間的連接,這些通常是物理上的層次模型。因此,Generic AVDS是不同的概念的和物理的模型的混合。此DS的其他限止是語義和語法結(jié)構(gòu)的剛性分隔,并缺乏其內(nèi)容單元的明確及統(tǒng)一的定義。
根據(jù)對書面上內(nèi)容的描述的傳統(tǒng)方法,Generic AVDS描述了圖象,視頻序列,和部分地描述聲頻序列(1)文檔的物理的或語法的結(jié)構(gòu)的定義;內(nèi)容表;(2)語義結(jié)構(gòu)的定義,索引;和(3)語義概念出現(xiàn)處的位置的定義,它包括(1)語法結(jié)構(gòu)DS;(2)語義結(jié)構(gòu)DS;(3)語法-語義連接DS;(4)分析/語法模型DS(5)可視化DS;(6)元信息DS;和(7)媒體信息DS。
語法DS用于規(guī)定一幅圖象或定義文檔的內(nèi)容表的視頻序列的物理結(jié)構(gòu)和信號特性。它包括(1)片段DS;(2)區(qū)域DS;和(3)片段/區(qū)域關系圖DS。分割DS可用于確定片段樹,后者規(guī)定了視頻節(jié)目的線性時間結(jié)構(gòu)。片段是在具有相關特征的視頻序列中一組連續(xù)的幀,特征包括時間DS;元信息DS,媒體信息DS。一個特殊類型的片段,即一個鏡頭包括編輯效果DS,關鍵幀DS,馬賽克DS,和攝象機運動DS。類似地,區(qū)域DS可用于定義區(qū)域樹。一個區(qū)域可定義為去具有相關特征的一幅圖象的一個視頻序列中的一組互相連接的像素,這些特征包括幾何DS,顏色/紋理DS,運動DS,變形DS,媒體DS,和元信息DS。片段/區(qū)域關系圖DS規(guī)定了在片段和區(qū)域之間的一般關系,如“To The Left of-到其左邊去”那樣的空間關系;“Sequential to-跟在其后面”那樣的時間關系;和如“Consist of-包括”那樣的語義關系。
語義DS用于借助語義對象和事件規(guī)定一幅圖象或一個視頻序列的語義特征。它能看成為一組索引。它包括(1)事件DS;(2)對象DS;和(3)事件/對象關系圖DS。事件DS可用于構(gòu)成事件樹,后者對片段DS中的片段定義一個語義索引表。事件包括一個標記DS。類似地,對象DS可用于構(gòu)成對象樹,后者對于在對象DS中的對象定義一個語義索引表。事件/對象圖DS規(guī)定了在事件和對象中的一般關系。
語法-語義連接DS在語法單元(片段,區(qū)域,或片段/區(qū)域關系)和語義單元(事件,對象,對事件/對象關系)之間是雙向的。分析/綜合模型DS規(guī)定了在語法和語義結(jié)構(gòu)DS之間設計/登記/概念的對應關系。媒體和元信息DS分別包含存儲媒體和作者產(chǎn)生的信息的描述符??梢暬疍S包括一組視圖DS,使一個視頻節(jié)目能有效的可視化。它包括下列視圖多分辨率空間一頻率略圖,關鍵幀,高亮度,事件,和其他視圖。這些視圖中每一個都是獨立定義的。Generic AV DS的缺點Generic AVDS包括具有相關特征的內(nèi)容單元(即區(qū)域,對象,片段,和區(qū)域)。它也包括實體—關系圖,描述根據(jù)實體—關系模型的內(nèi)容單元個的一般關系。當前DS的不足之處是去單元中的特征和關系可以具有廣泛的取值范圍,這就降低了它們的有用性及表達的能力。一個明確的例子是在對象單元中的語義標記特征。語義標記的值可以是一般的(“男人”),特定的(“JohaDoe”)或抽象的(“幸福-Happiness)概念。
導致本發(fā)明的研發(fā)的原始目標是對Generic AVDS定義明確的實體—關系結(jié)構(gòu)以解決這一不足之處。明確的實體—關系結(jié)構(gòu)將屬性和關系歸類到相關的類別。在此過程中,尤其在產(chǎn)生具體例子過程中(見在圖6-9中示出的棒球的例子),我們覺察到當前的Generic AV DS在關系到DS的全局設計方面的其他缺點。我們將在本章節(jié)中提到這些。在此應用中,我們提出完整的基本實體—關系模型,以試圖解決這些問題。
首先,使用一個實體-關系模型能表示Generic DS的完全的規(guī)定。作為一個例子,對在圖6中的棒球的例子的圖7-9中提供的實體-關系模型包括由Generic AV DS的大多數(shù)構(gòu)成部分(如事件DS,片段DS,對象DS,區(qū)域DS,語法-語義連接DS,片段/區(qū)域關系圖DS,和事件/對象關系圖DS)實現(xiàn)的功能以及更多的功能。實體-關系(E-R)模型是一個常見的高層概念的數(shù)據(jù)模型,它與作為層次的,關系的或面向?qū)ο蟮哪P偷鹊膶嶋H實現(xiàn)無關。當前的GenericDS版本看來多個概念的和實現(xiàn)的數(shù)據(jù)模型的混合,這些模型是實體關系模型(如片段/區(qū)域關系圖),層次模型(如區(qū)域DS,對象DS,和語法-語義連接DS),和面向?qū)ο竽P?發(fā)片段DS,可視片段DS,和聲頻片段DS)。
其次,在當前的Generic DS中語法和語義之間的分隔太固定。對于在圖6中的例子中,如當前Generic AV DS提出的那樣,我們已區(qū)分了擊球事件和擊球片段的描述(見圖7)。但是在此情況,將兩個單元合并成一個單獨的,具有語義和語法特征的擊球事件是更加方便。從事視頻索引工作的許多組主張語法結(jié)構(gòu)(內(nèi)容表片段和景)和語義結(jié)構(gòu)(語義索引事件)的如此區(qū)分,但是在描述在視頻序列中的圖象或動畫對象時,區(qū)分這些結(jié)構(gòu)的價值是不太明顯。“真實對象-Real Object”通常由它們的語義特征(如語義類別-人,貓等)和由它們的語法特征(如顏色,紋理,和運動)來描述。當前的Generic AVDS在區(qū)域和對象DS中區(qū)分“真實對象”的定義,這可以引起這些描述的低效率的處理。
最后,在Generic DS中,內(nèi)容單元,尤其是對象和事件缺乏明確的和統(tǒng)一的定義。例如,當前的Generic DS將一個對象定義成具有某些語義意義并包含其他對象的對象。雖然對象在對象DS中定義,事件/對象關系圖能描述去對象和事件中的一般關系。此外,對象通過語法-語義連接DS被連接到語法DS中的對應區(qū)域,因而,對象具有跨越Generic Visual DS的許多構(gòu)成部分的分布式定義,它是不太清楚。事件的定義十分相似并含糊不清。對Generic AV DS的實體-關系模型在P.P-S.Chen的文章“The Entity-Relation on Database Systens,Vol.1,No.1pp.9-36,1976年3月,首次提出的實體-關系(E-R)模型借助于實體和它們的關系描述數(shù)據(jù)。實體和關系均能用屬性描述。實體-關系模型的基本部分示于
圖1。實體,實體屬性,關系,和關系屬性很緊密地與名詞(如男孩和蘋果),形容詞(如年輕),動詞(如吃)及動詞補足語(如慢慢地)相對應,它們是描述一般數(shù)據(jù)的主要部分。能以視頻鏡頭描述的“一個年輕男孩慢慢地吃一個蘋果”。使用圖2中的實體-關系型表示。此建模技術已用于對圖形及其特征的內(nèi)容的建模用于圖象的檢索。
在本章節(jié)中,我們對當前的Generic AV DS提出基本實體-關系模型,以解決上面討論的缺點?;镜膶嶓w-關系模型索引(1)內(nèi)容單元的屬性,(2)這些內(nèi)容單元之間的關系,和(3)內(nèi)容單元本身。這些模型在圖5中畫出。我們提出的內(nèi)容構(gòu)成在提交到因特網(wǎng)Imaging 2000的A.James和S.-F.Chang的文章“A Conceptual Framework for Indexing Visual Information at Multiple Levels”中提出的索引可視信息的概念結(jié)構(gòu)的頂層。
發(fā)明概述本發(fā)明的一個目標是提供對一般多媒體信息的內(nèi)容描述型式。
本發(fā)明的另一個目標是提供用于實現(xiàn)標準的多媒體內(nèi)容描述型式的技術。
本發(fā)明的又一個目標是提供一個裝置,它使用戶能在因特網(wǎng)或區(qū)域或局域網(wǎng)上完成對多媒體的增強的內(nèi)容敏感的一般搜索。
本發(fā)明的另一個目標是提供系統(tǒng)和技術,用于根據(jù)一般特征或語義關系捕捉嵌入在多媒體信息中的內(nèi)容。
本發(fā)明的又一個目標是提供根據(jù)實體在語法和語義屬性的差異組織嵌入在多媒體信息中的內(nèi)容的技術。語法的屬性能歸類成不同層次類型/技術,全局分布,局部結(jié)構(gòu)和全局組成。語義屬性能歸類成不同層次普通對象,普通場景,特定對象,特定場景,抽象對象,和抽象場景。
本發(fā)明又一個目標是將實體關系分類成語法和語義的類別。語法關系可以歸類成空間的,時間的,和聲頻的類型。語義關系可以歸類成詞法的和表述的類別??臻g的和瞬時的關系可以是拓撲的或有方向的;聲頻關系可以是全局的局部的,或合成的;詞法的關系可以是同義詞,反義詞,亞詞(hyponymy)/超詞(hypernymy),部分詞(meronymy)/全詞(holonymy);和表述關系可以是動作(事件)或狀態(tài)。
本發(fā)明的又一個目標是借助于視頻和聲頻信號的分類描述每個層和實體關系。
本發(fā)明的另一個目標是通過索引內(nèi)容一單元屬性,內(nèi)容單元之間的關系,和內(nèi)容單元本身,提供解決這些問題的基本的和清楚的實體-關系。
此工作是基于在提交到因特網(wǎng)Imaging 2000的A.Jaimes和S.-F.Chang的文章“A Conceptual Frame-work for Indexing Visual Information of MultipleLevels”中提出的用于索引可視信息的概念性結(jié)構(gòu),它已經(jīng)采用并對Generic AVDS作了擴展。在另外的參考文獻中(如S.Paex A.B.Benitez,S.-F.Chang,C.-S.Li.J.R Smith,L.D.Bergman,A.Puri,C.Swain,和J.Osterman,“Proposal forMPEG-7 Image deseription Scheme,這是對1999年2月英國Lancaster的ISO/IECJTC1/SC29/WG11 MPEG 99/P480提出的的工作是恰當?shù)?,因為它區(qū)分了在內(nèi)容單元和在內(nèi)容單元(具有實本—關系圖和層次,一個實體—關系圖的特定情況)中的關系的規(guī)定的描述。通過這樣做,清楚地規(guī)定了一個E-R模型。
我們著眼于對于索引可視信息的多層描述問題。我們提出一個新穎的概念框架,它統(tǒng)一了在文獻中處于各不相同領域的概念,這些領域如認識上的心理,圖書館科學,藝術及更新的基于內(nèi)容的檢索。我們在可視與非可視之間作出區(qū)別并提供恰當?shù)慕Y(jié)構(gòu)。提出的10層可視結(jié)構(gòu)提供了根據(jù)語法(如顏色,紋理等)和語義(如對象,事件等)索引圖象的系統(tǒng)的方法,并包括在一般概念與可視概念之間的區(qū)分。我們在可視結(jié)構(gòu)不同層上定義了不同類型的關系(如語法的,語義的),并且還使用一個語義信息表來綜合有關圖象(如出現(xiàn)在非可視結(jié)構(gòu)中的圖象)的重要方面。
我們的結(jié)構(gòu)正確地放置當前技術水平的基于內(nèi)容的檢索技術,使它們與實際用戶需求及其他領域中的研究相關。使用如人們提出的結(jié)構(gòu)不僅通過理解用戶及他們的興趣深益,而且在按照用于訪問可視信息的描述層次表征基于內(nèi)容的檢索問題上得益。
本發(fā)明建議根據(jù)在提交給因特網(wǎng)Imaging 2000的A..Jaimes和S.-F.Chang的“A Conceptual Framework for Indexing Visual Information at Multiple Levels”中提出的10層概念結(jié)構(gòu)來索引內(nèi)容單元的屬性,該文章如圖3所示根據(jù)語法(如顏色和紋理)及語義(如語義標記)區(qū)分屬性,可視結(jié)構(gòu)的頭4層涉及語法,而余下6層涉及語義。語法層是類型/技術,全局分布,局部結(jié)構(gòu),和全局組成。語義層是普通對象,普通場景,特定對象,特定場景,抽象對象,和抽象場景。
我們還提出在Generic AV DS的實體—關系圖中的內(nèi)容單元之間關系的明顯類型。我們區(qū)分語法和語義的關系,如圖4所示。語法關系分成空間的,時間的和可視的??臻g的和時間的屬性分成拓撲和有方向的類別。語法屬性關系能進一步索引為全局的,局部的及組成。語義關系補分成詞法的和表述的。詞法關系被分類成同義詞,反義詞,亞詞/超詞,部分詞/全詞。表述關系能進一步索引為動作和事件。
供助內(nèi)容單元的類型,我們建議將它們分類成語法及語義單元。語法單元能分成區(qū)域,動畫—區(qū)域,和片段單元;語義單元能索引到對象,動畫對象,和事件單元。我們提供了這些單元的明顯并統(tǒng)一的定義,它們借助于單元的屬性和與其他單元之間的關系以提出的基本模型表示,還規(guī)定了在這些單元的某些之間的承繼關系。
加入到這里并作為本發(fā)明揭示內(nèi)容一部分的附圖示出了本發(fā)明的較佳實施例,并且于解釋本發(fā)明的原理。
附圖概述圖1是一個一般實體—關系(E-R)模型;圖2提供了對場景“一個年輕男孩在4分鐘吃了一個蘋果”的一個實體一關系模型的例子;圖3用一個金字塔表示索引可視結(jié)構(gòu);圖4示出如在可視結(jié)構(gòu)的不同層次上提出的關系;圖5示出內(nèi)容單元的每個提出的類型的基本模型;圖6圖示了一個棒球擊球事件圖象;圖7是對在圖6中顯示的棒球擊球事件圖象的擊球事件的概念描述;圖8是對圖6的擊球事件的擊球和投球事件的概念描述;圖9是對圖6的擊球事件現(xiàn)場對象的概念描述;圖10概念性地表示了非可視信息的分析;圖11示出如何在語義上使用可視的和非可視的信息來表征一個圖象或其部分;圖12示出去聲頻結(jié)構(gòu)的不同層次上的關系。在語法層中的單元按語法關系相聯(lián)系。在語義層中的單元接語法和語義關系相聯(lián)系。
較佳實施例的描述我們選擇在這里使用的建模技術,因為實體—關系模型是最廣泛使用的概念模型。它們達到高度的抽象性并與硬件及軟件無關。存在特定的過程將這些模型轉(zhuǎn)換成用于實施的物理模型,后者與硬件與軟件有關。物理模型的例子是層次模型,關系模型,和面向?qū)ο竽P?。在MPEG-7范圍的E-R概念框架在1999年7月加拿大溫哥華的ISO/IEC JTC1/SC29/WG11 MPEG 99的稿件J.R.Smith and C.-S.Li“An E-R Conceptual Modeling Framework for MPEG-7”中討論。
如圖5所示,我們對屬性(或MPEG7的描述符),關系,和內(nèi)容單元作出語法和語義之間的區(qū)分。語法涉及內(nèi)容單元安排的方法,而不考慮那樣安排的意義。另一方面語義,處理那些單元的意義及它們的安排的意義。如在本章節(jié)余下部分將討論的那樣,語法和語義屬性能涉及若干層次(語法層是類型,全局分布,局部結(jié)構(gòu),和全局組成;語義層是普通對象/場景,特定對象/場景,和抽象對象/場景),如圖3所示,類似地,語法和語義關系能進一步分成與不同層相關的子類型,語法關系歸類成在普通層與特定上的空間的,時間的和可視的關系;語義關系被歸類詞匯和表述的類;見圖4。根據(jù)單元相關的屬性類型及與其他單元的關系,我們提供語法及語義單元的緊湊及清楚的定義。然而,與Generic AV DS的重要差別在于我們的語義單元不僅包括語義屬性,還包括語法屬性。因此,如果一個應用寧肯不區(qū)分語法單元和語義單元,通過將所有單元作為語義單元實施它也可以這樣做。
為了闡明基本的實體-關系模型的解釋,我們將使用圖6-9中的例子。圖6示出表示成擊球事件和擊球片段(片段和事件如在Generic AV DS中定義的那樣)的棒球比賽的視頻鏡頭。圖7包括將擊球事件作為下列事件組合的可能的描述現(xiàn)場對象,擊球事件,投球事件,在投球與擊球事件之間的時間關系“Before-去前”,和某些可視性屬性。圖8表示投球和擊球以及它們之間關系的描述。投球事件是一個動作,即投手對象對球?qū)ο髨?zhí)行向擊球手對象的“投”。對投于對象我們提供某些語義屬性。擊球事件是一個動作,即擊球手對象在同樣的球?qū)ο笊蠄?zhí)行“擊球”。圖9示出將現(xiàn)場對象分解成3個不同區(qū)域,其中之一通過空間關系“在其頂上-On The Top of”與投手對象有關。提供這些區(qū)域之一的某些可視性屬性。屬性類型我們提出了在圖象和視頻描述中索引可視內(nèi)容單元(如區(qū)域,整個圖象,和事件)的10層概念結(jié)構(gòu)。此結(jié)構(gòu)僅對明確畫去實際的圖象或視頻序列(如繪畫的價格將不是可視內(nèi)容的一部分)。
提出的可視結(jié)構(gòu)包括10層頭4層涉及語法,而余下6層涉及語義。在圖3中給出可視結(jié)構(gòu)的概貌。在金字塔中層次越低,就需要越多的知識去完成索引。每層的寬度是所需知識量的指示。一個屬性的索引代價能作為該屬性的子屬性包含其中。語法層是類型/技術,全局分布,局部結(jié)構(gòu),和全局組成。語義層是普通對象,普通場景,特定對象,特定場景,抽象對象,和抽象場景。雖然這些分割的某些可能是不嚴格的,但還應考慮它們,因為在理解用戶搜索什么及他如何試圖在數(shù)據(jù)庫中找到它方面,這些分割具有直接的影響。它們也借助于所需的知識強調(diào)不同索引技術(人工的自動的)的局限性。
在圖3中,索引可視結(jié)構(gòu)由一個金字塔表示。很清楚,在金字塔中層次越低,為完成索引需要更多的知識與信息。每個層次的寬度是所需知識量的指示-例如,為命名在同一場景中的特定對象需要更多的信息。
在圖5中,語法屬性(語法DS)包括一個枚舉的屬性,層,其值是在可視結(jié)構(gòu)(圖3)中它對應的語法層一即類型,全局分布,局部結(jié)構(gòu),或全局組成一或“未規(guī)定”。語義屬性也包括一個枚舉的屬性,層,其值是在語義結(jié)構(gòu)(圖3)中它對應的語義層一即普通對象,普通場景,特定對象,特定場景,抽象對象,和抽象場景一或“未規(guī)定”,對不同類型的語法與語義屬性建模的另一種可能性是將語法和語義屬性單元進行子分類,以分別建立類型,全局分布,局部結(jié)構(gòu),和全局組成的語法屬性;或普通對象,普通場景,特定對象,特定場景,抽象對象,抽象場景屬性(這些類型中某些不應用于所有對象,動畫對象,和事件)。
可視結(jié)構(gòu)的每一層在下面解釋。其后討論各層之間的關系。根據(jù)此可視結(jié)構(gòu)和各層之間的關系,我們在下一章節(jié)中定義內(nèi)容單元的類型。類型/技術在最基本的層上,我們關心的是圖象或視頻序列的一般可視特征。圖象或視頻序列的描述或用于產(chǎn)生它的技術是非常一般的,但證明在組織一個可視數(shù)據(jù)庫時具有很大的重要性。例如,圖象可以放在如彩繪,黑與白,彩色照片,和繪畫那樣的類別。在此層次的有關分類型式可以在WebSEEK中自動做。對于在圖6中的類型是彩色視頻序列。全局分布在前一層次中的類型/技術給出圖象或視頻序列的有關可視特征的一般信息,但是關于可視內(nèi)容只給出少量信息。全局分布目的在于根據(jù)其全局內(nèi)容分類圖象或視頻序列,并借助于如空間敏感性(顏色),和頻率敏感性(紋理)那樣的低層覺特征來測量。內(nèi)容的各單獨部分尚未在此層處理(即在測量是全局性地進行的意義下對這些分布未給定“形式-form”),所以全局分布特征可以包括全局顏色(如主色調(diào),平均,直方圖),全局紋理(如粗糙度,定向性,對比度),全局形狀(如縱橫比),全局運動(如速度和加速度),攝影機運動,全局變形(如成長速度),和時間/空間尺度(如空間面積和時間尺度)。對于在圖6的擊球片段,作為全局分布屬性的彩色直方圖和時間區(qū)間被規(guī)定(見圖7)。
即使對于一個觀察者這些測量的某些難以量化,已將這些全局的低層特征成功地用于各種基于內(nèi)容的檢索系統(tǒng),來組織用于瀏覽的數(shù)據(jù)庫的內(nèi)容,并實現(xiàn)范例查詢。局部結(jié)構(gòu)在處理一個圖象或視頻序列的信息時,我們完成不同層次的組合。與不提供有關圖象或視頻序列的各個部分的任何信息的全局結(jié)構(gòu)相反,局部結(jié)構(gòu)層關注各構(gòu)成部分的概要和特征。在最基本的層上,那些構(gòu)成部分從低層處理得到并包括如點、線、風格、顏色和紋理那樣的單元。作為一個例子,一個二進制形狀表征碼(binary shape mask)描述了在圖6中的擊球片段(見圖7)。局部結(jié)構(gòu)的另外例子是時間/空間位置(如起始時間及重心),局部顏色(如M×N布局).,局部運動,局部變形,局部形狀/2D幾何(見定界方框)。
那樣的單元也已在基于內(nèi)容的檢索系統(tǒng)中使用,主要在如Viswal SEEK那樣的按用戶草圖查詢的界面中。這里涉及的不是對象,而是表示它們的基本單元以及這種單元的組合,例如一個正方形由4條線構(gòu)成。全局組成在此層,我們著限于由局部結(jié)構(gòu)給出的基本單元的特定安排或組成。換言之,我們作為整體分析此圖象,但只使用在以前層描述的的基本單元(如線和圓)于分析。全局組成涉及在該圖象中單元的安排或空間布局。在業(yè)內(nèi)的傳統(tǒng)分析描述如平衡、對稱、舉興趣中心(注意中心或焦點),主線索,和視角那樣的組成概念。但是,在此層沒有特定對象的知識,只考慮基本單元(如點、線、和圓)或基本單元的組。在圖6中Sand1區(qū)域的2D幾何是一個全局組成屬性(見圖9)。普通對象直到前一層不需要現(xiàn)實世界知識來實現(xiàn)索引,所以可以使用自動技術提取這些層上的相關信息。但是若干研究已證明,人類主要使用高層屬性來描述,分類的搜索可視資料。見C.Jongensen,“Image Attributes in Describing Tasksan Investgaton”,Informaton Processing & Management,34,(2/3),99.161-17,1998,C.Jongensen,“Rertrieving the UnretrievableArt,Aesthetics,andEmotion in Image Retrieval Systems”,SPIE Conference in Human Vision andElectronic Imaging,IS&T/SPIE99,Vol.3644,San Jose,CA,Jan 1999。對象是特別的重要,但是它們也能放置在不同層次的類別中-一個蘋果可以分類成一個Machintosh蘋果,一個蘋果,或一個水果。當涉及到普通對象時,我們感興趣于基本層的類別對象描述的最普通層,它能以日常知識加以識別。對在圖6中的投手對象,一個普通對象屬性可以是標記“男人”(見圖8)。普通場景正如一個映象或視頻序列能按出現(xiàn)其中的各個對象被索引,有可能根據(jù)可視資料所包含的所有對象集及它們的安排作為整體未索引該資料。場景類別的例子包括城市,風景,室內(nèi),室外,寂靜的生活畫面,和肖象。此層的方針是只需要普通知識。既不需知道特定的街道或建筑物的名字來確定它是一個城市的場景,也不需要知道個人的名字來得知該圖象是一個肖象。對于在圖6中的擊球事件,用值“擊球(Batting)”規(guī)定普通場景的屬性(見圖7)。特定對象與以前的層次相反,特定對象涉及已識別的已命名的對象。需要在圖象或視頻序列中的各對象的特定知識,且那樣的知識是客觀的,因為它依賴于已知的事實。實例包括個人(如在圖6中語義學標記“Peter who,Yankee隊運動員3#”或?qū)ο?如體育場名)。特定場景此層類似于一般場景,其差別是此處有有關場景的特定知識。雖然在該可視資料中不同的對象能以不同方式幫助確定所畫的特定場景,有時單獨一個對象已足夠。例如,清楚地顯示白宮的一張照片,只根據(jù)那個對象就能歸類成白宮的場景。對于在圖7中的擊球事件用值“由Yankee隊的#32運動員擊球”規(guī)定特定場景的屬性。抽象對象在此層使用有關該對象表示什么的專門知識。在完全是主觀上的感覺的意義上索引層是最為困難的,而且不同用戶的評估可以相差極大。此層的重要性在觀察者使用抽象的屬性描述圖象的實驗中示出。例如,在一張照片中的女人由一個觀察者看表現(xiàn)為憤怒,對另一個則表現(xiàn)為憂郁。對圖8中投手對象用值“速度”規(guī)定一個抽象對象屬性。抽象場景抽象場景層涉及圖象作為整體表示什么。它可以是非常主觀的。用戶有時如對對象那樣以抽象的術語描述圖象,如悲傷,幸福,權(quán)威,天堂,和樂園。對于圖7中的擊球事件,用值“好策略”規(guī)定抽象場景屬性。關系的類型在本章節(jié)中我們提出包含在Generic AV DS中的內(nèi)容單元之間關系的明確的類型。如圖4所示,在以前提出的可視結(jié)構(gòu)的不同層次上定義關系。為了表示在內(nèi)容單元中的關系,我們考慮在可視結(jié)構(gòu)中分成語法和語義。就下面討論的可視結(jié)構(gòu)的層次而論,我們提出的關系類型的某些界限并不固定。
可視結(jié)構(gòu)的語法層的關系只能發(fā)生在2D空間,因為在這些層上沒有對象的知識來確定3D關系。在語法層上,只能是語法關系,即空間(如“下一個”),時間(如“同時地”),和可見(如“更黑”)關系,它們唯一地根據(jù)語法知識。空間和時間屬性分類成拓撲類和有方向類??梢曣P系能進一步索引成全局的,局部的和組成。
在可視結(jié)構(gòu)的語義層,內(nèi)容單元之間的關系可以在3D由發(fā)生。如圖4所示,在這些層內(nèi)的單元不僅能與語義關系有關,而且與語法關系有關(如“一個人在另一個的旁邊”及“一個人是另一個的朋友”)。我們區(qū)分兩種不同類型的語義關系詞法關系,如同義詞,反義詞,亞詞/超詞和部分詞/全詞;表述關系涉及動作(事件)或狀態(tài)。
在圖4中,在可視結(jié)構(gòu)的不同層次上提出關系。在語法層中的單元按照一種類型的關系語法關系聯(lián)系。在語義層中的單元按照二種類型的關系語法和語義關系聯(lián)系。我們將在下面章節(jié)中用例子更廣泛地解釋語法和語義關系。表1和表2貫綜合了的索引結(jié)構(gòu),包括了例子。語法關系我們將語法關系分成三類空間的,時間的,和可視的。人們可能有爭議,認為空間和時間關系恰是可視關系中的特殊情況。我們以特定的方式定義空間和時間關系。對這些關系,我們將單元分別考慮成在空間和時間的邊界而不帶有關大小與持續(xù)期的信息。在表1中看到所提出的語法關系的類型的綜合及例子。
跟隨下文中的工作D.Hernandez“Qualitative Representation of SpatialKnowledge”,Lecture Notes in Artificial Intelligence,804,Springer-Verlag,Berlin,1994,我們將空間關系分成下列類別(1)拓撲的,即單元的邊界是如何相關的;和(2)定向或有方向的,即單元放置的互相位置(見表1)。拓撲關系的例子是“接近于”,“在其中”,和“鄰近于”;有方向關系的例子是“在其前面”,“在其左邊”,“在其頂上”。眾所周知的空間關系圖是2D弦,R2,和屬性關系圖。
以類似的方式我們將時間關系歸類成拓撲的和有方向的類別(見表1)。時間拓撲關系的例子是“同時發(fā)生”,“重疊(發(fā)生)”,“期間發(fā)生”;有方向時間關系的例子是“在前面發(fā)生”,和“在其后發(fā)生”。SMIL(World WideWeb Consortium,SMIL Web Site http//www.w3.org/Audio Video/#SMIL)的同時及順序的關系是時間的拓撲關系的例子。
可視關系根據(jù)單元的可視屬性或特征與那些單元聯(lián)系。這些關系能被索引成全局的,局部的和組成的類別(見表1)。例如,一個可視的全局關系可以是“更光滑”(根據(jù)全局的紋理特征),一個可視性局部關系可以是“加速更快”(根據(jù)全局的紋理特征),一個可視性局部關系可以是“加速更快”(根據(jù)運動特征),一個可視性組成關系可以是“更加對稱(根據(jù)2D幾何特征)。能使用可視關系根據(jù)任何可視特征的組合串聯(lián)視頻鏡頭/關鍵幀,可視特征包括顏色,紋理,2D幾何,時間,運動,變形,和攝影機運動。表1對語法關系的索引結(jié)構(gòu)和例子
以類似于可視結(jié)構(gòu)的單元有不同層次(普通,特定,和抽象)的方法,這些語法關系的類型(見表1)能以普通層次(“靠近”)或特定層次(離開0.5英尺)定義。例如,如“與其并”,“與其交”,“是其非”那樣操作關系是拓撲的,特定的關系,或是空間的,或是時間的(見表1)。
繼續(xù)棒球比賽的例子,圖7示出如何通過其組合單元(即擊球段,場景對象,擊球事件,和投球事件),和它們之間的關系(即從擊球事件到投球事件的時間關系“在前”)來定義擊球事件。擊球事件和它的組合單元通過空間一時間關系“由什么構(gòu)成”互相聯(lián)系。語義關系語義關系只能發(fā)生在10層概念結(jié)構(gòu)的語義層的內(nèi)容單元之中。我們將語義關系劃分成詞匯語義和表達關系。表2綜合了語義關系并包括例子。
表2語義關系的索引結(jié)構(gòu)和例子
詞法語義關系對應于在WordNet中使用的名詞之間的語義關系。這些關系是同義詞(管線類似于管道),反義詞(幸福與悲傷相反),亞詞(狗是一個動物),超詞(一個動物和一條狗),部分詞(音樂家是樂隊的成員),和全詞(樂隊由音樂家們組成)。
表述語義屬性涉及在兩個或多個單元之間的動作(事件)或狀態(tài)。動作關系的例子是“投”和“擊”。狀態(tài)關系的例子是“屬于”和“擁有”。圖8包括兩個動作關系“投”和“擊”。與只將表述語義分成動作的狀態(tài)不同,我們能使用在Work Net中使用的部分關系語義分解。Word Net將動詞分成15個語義領域身體關心及功能,改變,認識,通訊,競爭,消費,接觸,建立,情緒,運動,感覺,占有,社會接觸,和氣候動詞。只有那些與描述可視概念有關的領域能被使用。
至于這里提出的10層可視結(jié)構(gòu),我們能在不同的層次定義語義關系普通的,特定的,和抽象的。例如,一個變通的動作關系是“擁有股票”,一個特定的動作關系是“擁有80%的股票”,一個抽象的語義關系是“控制該公司”。
對于在圖6中的投球和擊球事件,圖8示出使用語義關系描述兩個對象的動作投手對象“投”球?qū)ο蟮綋羟蚴謱ο?,而擊球手對象“擊”球?qū)ο?。實體的類型到這里,我們已經(jīng)提出了在內(nèi)容單元中的屬性和類型的明顯類型。在此章節(jié),我們提出內(nèi)容單元(基本E-R模型的實體)的新類型,并提出每個內(nèi)容一單元類型的明顯和統(tǒng)一的定義。
我們根據(jù)(1)描述內(nèi)容單元的屬性和(2)將它們與其他內(nèi)容單元相關聯(lián)的關系來定義內(nèi)容單元的類型。以前,我們在10層可視結(jié)構(gòu)中索引內(nèi)容單元以可視屬性。金字塔的頭4個層對應于語法,而其他6個層對應于語義。此外,我們將關系分成兩類語法的和語義的。結(jié)果,我們提出了內(nèi)容單元的兩個基本類型語法的和語義的單元(見圖5)。語法單元只能具有語法屬性和關系(如顏色直方圖屬性和空間關系“在其頂上”);語義單元只能具有語法屬性和關系(如顏色直方圖屬性和空間關系“在其頂上”);語義單元不僅能有語義屬性和關系,還能有語法的屬性和關系(如一個對象能用顏色直方圖和語義標記描述符描述)。我們方法不同于當前的Generic AV DS在于我們的語義(或高層)單元包括語法和語義信息,解決了語法和語義結(jié)構(gòu)的固定區(qū)分問題。
如圖5所示,我們進一步將語法單元分類成區(qū)域,和片段單元。相似地,語義單元能分類成下列語義來對象,動畫對象,和事件。區(qū)域和對象是空間實體。片段和事件是時間實體。最后,動畫區(qū)域和動畫對象是混合的空間-時間實體。因此我們在章節(jié)中解釋每個類型。語法實體語法單元是在圖象或視頻數(shù)據(jù)中的內(nèi)容單元,它只由語法屬性,即類型,全局分布,局部結(jié)構(gòu),或全局組成屬性,來描述(見圖5)。語法單元只能通過可視關系與其他單元聯(lián)系。我們進一步將語法單元歸類成區(qū)域,動畫區(qū)域,和片段單元。這些單元通過承繼關系從語法單元導出。
區(qū)域單元是一個純粹的空間實體,它涉及一個圖象或一個視頻的一個任意的,連續(xù)的或不連續(xù)的一部分。一個區(qū)域由一組語法屬性和一個區(qū)域的固定義,它們通過空間和可視關系聯(lián)系(見圖5)。重要的是指出,組成具有空間,拓撲類型。區(qū)域的可能屬性是顏色,紋理,及2D幾何。
片段單元是一個純粹的時間實體,它與一個視頻序列的任意一組連續(xù)或不連續(xù)的幀聯(lián)系。一個片段由一組語法特征,和一個片段圖,動畫區(qū)域以及通過時間和可視關系聯(lián)系的區(qū)域定義(見圖5)。組成的聯(lián)系具有時間,拓撲類型。可能的片段屬性是攝影機運動,和語法特征。例如圖7中的擊球片段是一個片段單元,它用一個持續(xù)期(全局分布,語法的),和形狀表征碼(局部結(jié)構(gòu),語法的)屬性描述。這一片段具有與擊球事件的“包括”關系(空間一時間關系,語法的)。
動畫區(qū)域單元是一個混合的空間一時間實體,它涉及一個視頻的任意設置幀的任意片段。一個動畫幀由一組語法特征,一個動畫區(qū)域圖和通過組合,空間一時間關系,和可視關系聯(lián)系的區(qū)域定義(見圖5)。動畫幀能包含從區(qū)域和段單元來的任意特征。動畫區(qū)域是一個片段和在同一時間的區(qū)域。例如,在圖8中的投手區(qū)域是一個動畫區(qū)域,它由一個縱橫比(全局分布,語法的),一個形狀表征碼(局部結(jié)構(gòu),語法的),和一個對稱性(全局分布,語法的)屬性描述。此動畫區(qū)域是在Sand 3區(qū)域“的頂上”(空間時間關系,語法的)。語義實體語義單元是一個內(nèi)容單元,它不僅由語義特征而且由語法特征描述。語義單元通過語義和可視關系與其他單元聯(lián)系(見圖5)。因此,我們使用承繼關系從語法單元導出語義單元。我們進一步將語義單元歸類成對象,動畫時象和事件單元。純粹的語義屬性是標記,它通常是文本格式(如6-W語義標記,自由文本標記)。
一個對象單元是一個語義和空間實體;它聯(lián)系到一個圖象的一部分任意或視頻的一個幀。一個對象由一組語法和語義特征,和通過空間(組成是空間關系),可視的,和語義關系聯(lián)系的對象和區(qū)域的圖定義(見圖5)。對象是一個區(qū)域。事件單元是一個語義和時間的實體;它涉及一個視頻序列的一個任意一段。一個事件由一組語法和語義特征,和通過時間(組成是一個時間關系),可視的,和語義關系聯(lián)系的事件,片段、動畫區(qū)域,動畫對象,區(qū)域,及對象的一個圖定義。事件是具有語義屬性和關系的一個片段。例如,在圖7中的擊球事件是一個事件單元,它由一個“擊球”(普通場景,語義的)“由Yankee隊32號球員擊球“(特定場景,語義的)和一個“好策略”(抽象場景,語義的)屬性描述。擊球片段的語法屬性能應用于擊球事件(即我們可以不區(qū)分擊球事件和擊球片段,且可以將擊球片段的語法屬性賦予擊球事件)。擊球事件由現(xiàn)場對象,和投球事件和擊球事件組成,它代表兩個在擊球事件中的主要動作(即投球和擊球)。投球事件和擊球事件由一個“在前面”的關系(時間關系,語法的)相聯(lián)系。
最后,動畫對象單元是一個語義和空間一時間實體;它在任意一組視頻序列幀中與任意一段相聯(lián)系。一個動畫對象由一組語法和語義特征,和通過組成,空間一時間,可視,和語義關系聯(lián)系的動畫對象,動畫區(qū)域,區(qū)域和對象的一個圖定義(見圖5)。動畫對象是一個事件,同時是一個對象。例如,在圖8中的投手對象是一個通過“男人”(普通對象,語義的),“Yankee隊3號隊員”(特定對象,語義的),和一個“速度”(抽象對象,語義的)屬性描述的動畫對明。此動畫對象是在圖9中所示的Sand3區(qū)域“的頂部”(空間一時間關系,語法的)。投手區(qū)域的語法特征可應用于投手對象。我們?nèi)缭贕eneric AV DS中所規(guī)定的那樣區(qū)分此動畫對象的語法和語義屬性。但是,我們在這樣做時損失了靈活性和有效性,因為我們把“真實”對象的定義散布到不同的單元。
圖5提供了內(nèi)容單元每個提供的類型的基本模型。屬性、單元,和關系歸類成下列類別語法的和語義的。語法和語義屬性具有相關的屬性、層,其值對應于可視結(jié)構(gòu)的有關的層。語法單元進一步分成區(qū)域,片段和動畫區(qū)域。語義單元歸類為對象,動畫對象,和事件類別。
圖6畫出一示例性棒球擊球事件。
圖7按照本發(fā)明提供圖6中棒球比賽的擊球事件的概念描述。
圖8按照本發(fā)明對圖6中的擊球事件提供擊球和投球事件的概念描述。
圖9按照本發(fā)明對圖6中的擊球事件提供現(xiàn)場對象的概念描述。感覺對概念本發(fā)明也可以結(jié)合在分析和分類圖象的特征時的感覺的概念來說明。在索引圖象中一個內(nèi)在的困難是它們能被分析的方法的數(shù)目。單個圖象可以表示許多事情,不僅是因為它包含許多信息,而且因為我們在該圖象中所看到的能映射到許多個抽象概念。在那些可能的抽象的描述和只根據(jù)該圖象的可視方面更具體的描述之間的區(qū)別構(gòu)成索引中的重要步驟。
在下列章節(jié)中,我們作出感覺和概念之間的區(qū)分。然后我們提供對語法和語義的定義。并最后討論一般的概念空間及可視概念空間。當我們確定我們的索引結(jié)構(gòu)時,在基于內(nèi)容的檢索的范圍內(nèi)這些定義的重要性是顯然的。感覺對概念映象是信息的多維表示,但是在最基本的層上它們簡單地引起對光的響應(色調(diào)光或缺乏光)。但是在最復雜的層上,圖象代表抽象的想法,這在很大程度上取決于每個人的知識,經(jīng)驗,甚至特別的心情。我們能作出感覺和概念之間的區(qū)別。
感覺涉及到在明亮的可視系統(tǒng)中我們感官覺察到什么。這些光的圖案產(chǎn)生如紋理和顏色那樣的不同單元的感覺。當我們談到感覺時不發(fā)生解釋過程-不需要知識。
另一方面,一個概念關系到從特定的范例產(chǎn)生的抽象的或普通的概念。這樣,它隱含著背景知識的使用和對所覺察事物的內(nèi)去解釋。概念在它取決于個人的知識和解釋的意義上是非常抽象的一這趨于非常主觀的。語法和語義以感覺不需解釋相似的方法,語法涉及到可視單元安排的方法而不考慮那樣安排的意義。另一方面,語義處理這些單元的意義和它們的安排的意義。如在下面討論中所示的那樣,語法能涉及某些感性的層一從簡單的全局顏色和紋理到如線和圓那樣的局部幾何形式。語義也能在不同層次上處理。一般概念對可視概念這里我們希望強調(diào),一般概念與中視概念是不同的,而且這些可以隨個人而變化。
作為例子使用一個球,我們客到雖然一個可能的一般概念將球描述成一個圓形物質(zhì),不同的人可有不同的一般概念。一個排球運動員可以具有與棒球運動員不同的球的一概念,因為如上所述一個概念隱含背景知識和解釋。對不同的個人,自然具有非常不同的概念的解釋(或在此情況對實際對象的解釋)。我們將概念區(qū)分成一般概念和可視概念??梢哉J識到,用于球的一般概念和可視概念的屬性是不同的(可以命名用規(guī)則描述概念,但我們恰恰使用屬性來簡化此解釋)。
這些定義是有用的,因為它們指出了在基于內(nèi)容的檢索中非常重要的結(jié)果不同的用戶具有不同的概念(甚至簡單對象的概念),而且甚至簡單的對象一能在不同的概念層上看。尤其是,在一般概念(即幫助回答問題它是什么?)和可視概念(即幫助回答問題它看來象什么?)之間有重要的區(qū)別,而且在設計一個圖象數(shù)據(jù)庫時必須予以考慮。我們將這些想法應用于構(gòu)造我們的索引結(jié)構(gòu)。概念的分類結(jié)構(gòu)可以根據(jù)感覺的結(jié)構(gòu)??梢暸c非可視的內(nèi)容如在前面章節(jié)中已知,有很多信息層出現(xiàn)在圖象中,且當將它們組織到數(shù)字庫中時必須考慮它們的多維體。專建立一個概念性的索引結(jié)構(gòu)中的第一步是在可視與非可視內(nèi)容之間作出區(qū)別。映象的可視內(nèi)容對應于在觀察該映象時直接感覺到的事物(即由所討論的映象或視頻的可視內(nèi)容直接激發(fā)的描述符一線,形,顏色,物體等)。非可視的內(nèi)容對應于與該圖象密切相關但不是明顯由其外表給出的信息。如在繪畫中,價格,當前的擁有者等屬于非一可視類別。接著我們對圖象的可視內(nèi)容提出一個索引結(jié)構(gòu),并隨后是非可視信息的結(jié)構(gòu)??梢晝?nèi)容隨后的分析的每個層次僅從圖象獲得。觀察者的知識永遠起作用,但是這里的一般規(guī)則是,不是明顯從圖象獲得的信息不進入此類別(如一張畫的價格不是可視內(nèi)容的部分)。換言之,對可視由容使用的任何描述符是由所討論的圖象或視頻的可視內(nèi)容所激發(fā)。
我們的可視結(jié)構(gòu)包括10層頭4層涉及語法,余下6層涉及語義。此外,1到4層直接聯(lián)系到感覺,5到10層聯(lián)系到可視概念。雖然這些劃分中的某些是不嚴格的,應該考慮它們,因為它們在理解用戶搜索什么以及他們?nèi)绾味葓D在數(shù)據(jù)庫中尋找它方面具有直接的影響。他們也強調(diào)根據(jù)所需的知識不同索引技術(人工或自動的)的限制。在圖3中給出該結(jié)構(gòu)的一個概貌。從上到下觀察此圖,很清楚,在金字塔的較低層需要較多的知識和信息來完成索引。每層的寬度給出所需的知識量的指示,例如在一場景中命名特定對象需要更多的知識。每層在下面解釋,且其后出現(xiàn)各層之間關系的討論。
觀察此結(jié)構(gòu),明確的是大多數(shù)的基于內(nèi)容的檢索的努力集中在語法上(即,到4層)。但是完成在5至10層的語義分類的技術是非常希望的。我們提出的結(jié)構(gòu)幫助識別由特定技術處理或由給定的描述(如MPEG-7標記)提供的屬性的層次。類型/技術在最基本的層我們的興趣在于映象或視頻序列的一般可視特征。映象或視頻序列的類型的描述或用于產(chǎn)生此描述的技術是非常一般,但證明具有很大的重要性。例如映象可以放入如繪圖,黑與白(b&w),彩色照片,素描那樣的類別。在此層的有關分類型式已在概念上作出,并在WebSEEK中自動做。
在數(shù)字照相的情況,兩個主要類別可以是彩色和灰度,帶有影響一般可視特征的附加類別/描述。這些能包括顏色數(shù)目,壓縮型式,分辨率等。我們注意到,這些中某些可以與這黑描述的非可視索引狀況有某些重疊。全局分部在前一層中類型/技術給出有關映象或視頻序列的可視特征的一般信息,但只給出有關可視內(nèi)容的很少信息。全局分布目的在于根據(jù)圖象或視頻序列的全局內(nèi)容將其分類,并借助如色譜的敏感性(顏色),和頻率的敏感性(紋理)那樣的低層感覺特征來測量。在此層不處理內(nèi)容的單獨部分(即在測量是全局性進行的意義上對這些分布不給出“形式-form”)。因此,全局分布特征可以包括全局顏色(如主色調(diào),對比度),全局形狀(如縱橫比),全局運動(如速度,加速度,和軌跡),和時間/空間尺度(如空間面積和時間尺度),及其他。例如,考慮兩個具有類似紋理/顏色的圖象。在這特定的情況注意到,這些屬性十分有用,但如果用戶要搜索一個對象,它們就不那么有用。
雖然這些測量中的某些對一個觀察者而量難以量化,這些全局低層層特征已經(jīng)成功地用于各種基于內(nèi)容的檢索系統(tǒng)來實現(xiàn)范例查詢(QBIC,WebSEEK,Virage),并用于組織數(shù)據(jù)庫的內(nèi)容,用于瀏覽。局部結(jié)構(gòu)與不提供有關映象和視頻序列的各單獨部分的任何信息的全局結(jié)構(gòu)相反,局部結(jié)構(gòu)層關注映象的各部分的提取和特征。在最基本層上,那些部分從低層處理導出,并包括如點,線,包調(diào),顏色和紋理。在Visual Literacy文獻中,上述中某些被稱作為可視通信的“基本單元”并認為是基本語法符號。局部結(jié)構(gòu)屬性的另外例子是時間/空間位置(如起始時間)及(重心),局部顏色(如MXN布局),局部運動,局部變形,和局部形狀/2D幾何(如邊界框)。有各種圖象,其中這些類型的屬性是重要的。在X射線和顯微鏡的圖象中常常著重關注局部細節(jié)。那些單元也已用在基于內(nèi)容的檢索系統(tǒng)中,主要在按用戶草圖詢問的接口上。這里不關心對象,而是關心表示它們的基本單元及這種單元的組合,例如,一個正方形由4條線組成。在此意義上,我們此處能包括某些“基本形狀”,如圓,橢圓和多邊形。注意,這能考慮成人們在感覺到可視信息時完成的非?;镜摹胺纸M”的層。全局組成在此層我們的興趣在于由局部結(jié)局給出的基本單元的特定安排,但重點是在全局組成。換言之,我們將映象作為整體分析,但使用上述的基本單元(線,圓等)于分析。
全局組成討論在映象中單元的安排或空間布局。業(yè)內(nèi)的傳統(tǒng)分析描述如平衡,對稱,興趣中心(如注意力中心或焦點),主線,視角等。但是在此層沒有特定對象的知識;只考慮基本單元(即點,線等)及其組合。在此意義上,一個圖象的視圖被簡化成只包含基本語法符號的圖象一個圖象由線,圓,方塊等構(gòu)成的組表示。普通對象直到上一層,強調(diào)的是圖象的感覺方面。在上面任何層上不需要現(xiàn)實世界的知識來實現(xiàn)索引,而且自動化技術只依賴于低層處理。雖然對自動索引和分類這是個優(yōu)點,研究證明人類主要使用高層屬性描述,分類,和搜索圖象。對象是特別重要,但它們在不同層也放在類別中-一個蘋果能歸類成Macintosh蘋果,蘋果,或水果。當談到普通對象,我們著重于基本層分類對象描述的最一般層。在業(yè)內(nèi)的研究中,此層對應于預圖解(Pre-Iconography),且在信息科學中稱它為層的屬(generic)。在這些概念和我們的普通對象的定義的共同基礎想法是,為識別對象只需要一般的日常知識。例如,Macintosh蘋果應歸類成此層的蘋果即是那個對象的最一般的描述層。
在我們的定義和業(yè)內(nèi)以前使用的定義之間的可能差別基于下述事實,我們將可視對象定義為能見到的實體,某些時候不同于對象的傳統(tǒng)定義。象天空或海洋那樣的對象在傳統(tǒng)定義下可能不認為是對象,但對應于我們的可視對象(以及象汽車,房子等的傳統(tǒng)對象)。普通場景正象一個圖象能按照出現(xiàn)在其中的單個對象來索引那樣,有可能根據(jù)它包含的所有對象組和它們的安排作為整體來索引該圖象。場景類型的例子包括城市,風景,室內(nèi),室外,靜止生物,肖象等。在自動場景分類的某些工作已經(jīng)完成,而且在基本場景分類的研究也存在。
此層的準則是只需要一般知識。為確定是一個城市的場景不必要知道特定的街道或建筑物的名稱,為確定是一個肖象不需要知道人物的名字。特定對象與以前的層相反,特定對象討論能被識別和命名的對象。Shatford稱此層為在圖象中的對象需要的特定知識的細節(jié)(Specific),而且那樣的知識往往是客觀的,因為它依賴已知的事實。例子包括個人和對象。特定場景此層模擬一般場景,基差別在于有關于場景的特定知識。雖然在映象中的不同對象以不同的方式用于確定該圖象描畫出的一個特定場景,有時單元個對象已足夠。例如,一個清楚顯示埃菲爾鐵塔的照片能歸類成巴黎的場景,它只根據(jù)那個對象。抽象對象在此層,使用有關該對象代表什么的專門的或解釋性的知識。這在業(yè)內(nèi)稱之為Iconology(解釋)或大約(about)層。它是完全主觀的且在不同用戶之間的評估變化很大,在此意義下此索引層是最困難的層。此層的重要性在實驗中示出,其中觀察者使用抽象的屬性描述映象。例如,照片中的一個女人對一個觀察者可以表示憤怒,對另一個觀察者多半是憂郁。抽象場景抽象場景討論圖象作為整體表示什么。這是非常主觀的。有時用戶以感情的(如情緒)或抽象的(如氣氛,主題)術語描述映象。在抽象場景層的其他例子包括悲傷、幸福、權(quán)力、天堂和樂園。層之間的關系我們已選擇了金字塔表示,因為它直接反映了在我們結(jié)構(gòu)中固有的某些重要的結(jié)果。很清楚,在金字塔的較低層為了完成索引需要更多的知識和信息。此知識是由每層的寬度表示。但是,重要的是指出,此假設可以具有某些例外。例如,一個通常的觀察者可以不能夠確定用于創(chuàng)作一幅畫的技術,但是一個在藝術領域內(nèi)的專家能夠精確地確定使用什么。在此特定情況的索引在類型/技術層需要的知識比在普通對象層的要多(因為需要有關藝術技術的專門知識)。但是,在大多數(shù)情況為了索引所需要的知識在我們的結(jié)構(gòu)中從頂層到底層增加識別一個特定的場景(如紐約的中央公園)比確定普通場景層(如公園)需要更多的知識。
雖然層間的依賴關系存存,當觀察一個圖象時每一層可以看作獨立的景象或范圍,而且處理每一層的方法取決于數(shù)據(jù)庫,用戶和目的本質(zhì)??梢晝?nèi)容關系在本章節(jié)中我們簡單地提出對象映象單元之間的關系的表示。此結(jié)構(gòu)適應不同層次的關第,且基于以前提出的可視結(jié)構(gòu)。我們注意到,某些層次上的關系在應用于實施結(jié)構(gòu)的實體之間時(如從不同圖象的場景可以比較)最為有用。在每層中的單元按照兩類關系聯(lián)系語法與語義(只對5到10層)。例如,兩個圓(局部結(jié)構(gòu))可以空間上(如相鄰),時間上(如在前)和/或視覺上(如更黑)相聯(lián)系。在語義層的單元(如對象)可以具有語法和語義的關系(如兩個人互相挨著,他們是朋友)。此外,每個關系能在不同的層(普通的,特定的,和抽象的)上描述。我們注意到,在層1,6,8和10之間的關系在由結(jié)構(gòu)表示的實體之間(如在圖象之間,在圖象的各部分之間,在場景之間等)最有用。
可視結(jié)構(gòu)能分成語法/感覺和可視概念/語義。為表示關系,我們觀察那樣的劃分并考慮如下(1)一個對象的知識包含對象空間尺寸的知識,即它在空間中典型的,可能的,或?qū)嶋H的延伸的可分等及的特征;(2)空間知識隱含某結(jié)座標軸系的可用性,后者確定空間中對象之間某些尺寸和距離的指示。我們用此表明發(fā)生在可視結(jié)構(gòu)語法層中的關系只能發(fā)生在2D空間,因為不存在對象的知識(即不能確定在3D空間中的關系)。例如,在局部結(jié)構(gòu)層只考慮可視識別能力(Literacy)的基本單元,所以在那層上的關系只在這種單元之間考慮(即它不包括3D信息)。但是在5到10層的單元之間的關系能按照2D或3D描述。
以類似的方法,關系本身劃分成語法(即與感覺有關)類和語義(即與意義有關)類。語法關系可以發(fā)生在任何層的單元之間,但語義關系只能發(fā)在5到10層的單元之間。例如,繪畫中不同顏色之間語義關系能被確定(如顏色混合是暖色調(diào)-warm),但我們不把這些包括在我們的模型層上。
我們將空間關系劃分成下列類(1)拓撲的(即單元的邊界如何聯(lián)系)和(2)取向的(即單元如何互相有關地放量)。拓撲關系包括近、遠、接觸等,取向的關系包括與之針對,在其前面等。
時間關系討論單元在時間方面的連接(如在視頻中包括在前,在后,其間,等)。而可視關系討論可視特征(如蘭,黑,等)。語義關系與意義相聯(lián)系(如其主人,其朋友,等)。
以類似于可視結(jié)構(gòu)單元具有不同層(普通,特定,抽象)的方法可視聯(lián)系能在不同層上定義。語法關系可以是普通的(如近)或特定的(如數(shù)字距離測量)。語義關系可以是普通,特定,或抽象。
作為一個例子,空間的全局分布可用距離直方圖表示,局部結(jié)構(gòu)用局部構(gòu)成部分之間的關系(如可視單元之間的距離)表示,全局組成由可視單元之間的全局關系表示。非可視信息如在本章節(jié)開始所說明的那樣,非可視信息討論不直接是圖象一部分但以某種方式與其相關的信息。人們可以將屬性劃分成傳記的和關系的屬性。雖然對非可視信息可能由聲音,文字,超鏈接文本等組成,這里我們的目的是提出一個對索引給出一般準則的簡單準則,我們簡單地只集中在文本信息。圖10給出此結(jié)構(gòu)的概貌。傳記的信息真實抽象的來源可以是直接的(如自然景色的照片)或間接的(如雕塑,繪畫,建筑物、圖畫的圖象)。在兩種情況可以有傳記信息與圖象相聯(lián)系。在兩種情況可以有傳記信息與圖象相聯(lián)系。此信息本身能對圖象中的若干對象重復(如羅馬西斯廷教堂的天花板可以具有關繪畫和教堂本身的信息),只存在于該圖象,或完全不存在。在大多數(shù)情況,傳記信息不直接關系到該圖象的主題,而關系到作為整體的圖象。例子包含作者,日期,標題,素材,技術等。有關信息非可視信息的第二類直接以某種方式與圖象連接。有關的信息包含字幕,文章,聲音記錄等。
如上討論,在許多情況此信息有助于實現(xiàn)在可視結(jié)構(gòu)中的某些索引,因為它包含有關在映象中畫什么(即主題)的特定信息。在此情況,它在語義層一般非常有用,因為語義層需要通常只在圖象中不出現(xiàn)的更多的知識。但是,在某些情況,該信息不直接聯(lián)系該圖象的主題,而是以某種方式上該圖象相關。例如,一個伴隨著肖象的聲音記錄可以包括與所畫的人物毫無關系的聲音,雖然它們與該圖象聯(lián)系關且若需要的許可以被索引。物理屬性物理屬性簡單地關系到對作為一個物理對象的映象必須做的事。這可以包括圖象的位置,原始來源的位置,存儲(如大小,壓縮)等。在索引結(jié)構(gòu)之間的關系我們定義了一個語義信息表來匯集有關圖象的高層信息(見圖11)。此表能用于各個對象,對象組,整個場景,或圖象的各部分。在大多數(shù)情況可視及非可視住處被用于填入表內(nèi),單從可視內(nèi)容可能不容易確定如室內(nèi)/室外那樣簡單的場景類別;位置在映象中不明顯等。各個對象能根據(jù)非可視住處分類及命名,用于在可視對象和要領對象之間的映射。
在圖11中,可視與非可視住處能用于在語義上表征一個圖象或其各部分。這兩個形式住處用于回答語義表中的問題的方式可隨內(nèi)容而變。該表有助于回答軺下列的問題主題是什么(人物/對象等)?主題在做什么?主題在哪里?何時做?為什么做?該表能用于各個別對象,對象組,整個場景,或圖象的各部分。
當?shù)迷摫響糜趶?層開始的每一層時,在此結(jié)構(gòu)與可視結(jié)構(gòu)之間的關系十分明白。我們也注意到,該表提供了關于圖象的某些住處的緊湊表示,它不替代所提出的索引結(jié)構(gòu)。結(jié)構(gòu)組提供最完全的描述。
有了合適的索引結(jié)構(gòu),我們能著眼于如何能組織一個數(shù)字庫的內(nèi)容。在下一章節(jié)中,我們分析在組織和檢索圖象中起關鍵作用的問題。特征,相似性和歸類為了成功地建立圖象數(shù)字庫,不僅重要的是理解數(shù)據(jù),而且要理解人們關一類的論點。在本章節(jié)中我們討論在這方面重要的論點,并解釋我們是怎樣應用此要領于建立我們的圖象索引試驗基地。首先我們討論歸類。然后,我們討論在歸類中的層和結(jié)構(gòu)。最后我們提出有關屬性和相似性的某些論點。歸類和分類歸類可以定義為將一組實體作為等價的處理。類是實體或要領所屬的若干基本的和不同的分類,在類內(nèi)的實體看來更相似,而類之間的實體不那么相似。但是在歸類以前,重要的是對歸類的數(shù)據(jù)的本質(zhì)有一個理解。我們現(xiàn)集中討論能夠使用的類的類型。在分類的文獻中,研究者已識別兩種類(1)敏感的感覺類(如紋理,顏色或說話聲音/e/),和(2)普通知識(GK)類(如自然類—鳥,人造物—汽車,和事件—吃)。
在我們的結(jié)構(gòu)中我們識別如顏色和紋理那樣的敏感的感覺。但是GK類起了非常重要的作用,因為用戶主要關心出現(xiàn)在映象上的對象以及那個對象表示什么。認識心理學中的某些理論表示在GK類中的分類是如下做的規(guī)則使用實體的屬性值(如,規(guī)則在人們的類別中的一個圖像應有人在其中)。
原型類別的原型包括其類別的模型的特征屬性。這此進貫穿于類別成員之間最可能發(fā)生的屬性,但對類別的全體成既不必要也不充分。一個新的圖象根據(jù)它如何類似于該類的原形來分類(如風景類的原型能是簡單的日落的素描)。
模型按其最類似的模型的類分類的實例(如,替代對人的類別有一個規(guī)則的方法,我們可以在那上類中有一組例子圖象,并使用那些于分類)。
借助于將映象組織到一個數(shù)據(jù)庫此論據(jù)是有用的,因為我們能使用此技術來實現(xiàn)分類,并將結(jié)果提供給用戶。這些要領已被用于開發(fā)我們的圖像索引試驗基本中。類結(jié)構(gòu)類結(jié)構(gòu)是數(shù)字庫中的關鍵因素,并引起若干重要的議題,在此我們簡單的討論。應考慮下列議題在類之間的關系(如層次關系或?qū)嶓w關系),實現(xiàn)分類的抽象層(如由Rosch研究的)暗示者存在基本層和下級/上級層類,水平類結(jié)構(gòu)(即每個類應如何被組織且大每個類中單元的全體成員的程度能是模糊的或二進制的)等。
除了在索引可視信息時考慮不同的分析層次以外,測量相似性的方法是很重要的。有關相似性測量的問題包括考慮的層次(如部分對全體),審查的屬性,屬性的類型(如我們結(jié)構(gòu)的層),整個范圍是否可分等。圖象索引試驗基地我們開發(fā)了一個圖象索引試驗基地,它包含了這里提出的要領,根據(jù)這里列出的結(jié)構(gòu)使用不同的技術索引圖象。尤其是對類型/技術層我們使用了辨別分析。對于全局分布層我們使用全局顏色直方圖及Tamura紋理測量。在局部結(jié)構(gòu)層,通過使用自動分段以及相緣變換及投影直方釁的多驚訝分段彎曲直方圖我們能如VideoQ中那樣進行草圖查詢。通過完成自動分段和合并產(chǎn)生的區(qū)域得到圖象的圖標表示而獲得全局組成。
使用Visual Apprentice(可視學徒工)自動檢測普通對象。在VisualApprentice中通過定義一個對象定義層次(即規(guī)定一個對象及其各部分的模型),并提供帶有例子的系統(tǒng)建立可視對象檢測器。由在層次結(jié)構(gòu)中不同層次(區(qū)域,感覺的,對象部分,和對象)的系統(tǒng)自動學會多重分類器,并在實現(xiàn)自動分類時自動選擇最好的分類器并被組合。我們也使用AMOS系統(tǒng)實現(xiàn)對象的人工標記及對象的搜索。
在普通場景層我們完成城市對風景以及室外對室內(nèi)的分類。這可以利用OF*IIF技術自動地做,OF*IIF技術結(jié)合如可供使用的紋理特征(如從圖象的標題)及專門的對象檢測器(如面部或天空檢測器)實現(xiàn)圖象區(qū)域的聚類及分類。
有關特定對象的場景的住處使用一個提取人,地方等的名字的系統(tǒng),從有關的住處獲得。在抽象層的標記進行時用人工完成的。聲頻本發(fā)明的優(yōu)點的另一個說明性討論通過列出它結(jié)合表示聲頻內(nèi)容的數(shù)字信號的使用的一個范例描述而得到。
我們以前提出索引圖象的可視性內(nèi)容單元(如區(qū)域,整個映象,事件等)的一個10層概念結(jié)構(gòu)。在那個工作的分類只涉及用于視頻內(nèi)容的描述符(即本意不是對“元數(shù)據(jù)”的,例如,拍照人的名字不是可視描述符)。
在本文中,我們提出根據(jù)以前提出的10層概念結(jié)構(gòu)分類聲頻描述符(被包括在標準的MPEG-7聲頻部分)。我們提出的金字搭結(jié)構(gòu)包括與以前結(jié)合圖3和圖4描述的可視性結(jié)構(gòu)恰恰相同的層次。但是每個層次涉及聲頻單元而非可視單元。在原始結(jié)構(gòu)中,一個對象對應一個可視實體。在新的結(jié)構(gòu)中,一個對象對應一個聲頻實體(如人的語音)。
在語法和語義之間區(qū)分的重要性廣泛地被研究者在圖象和視頻索引的領域認識到。雖然我們未覺察到對聲頻內(nèi)容相似的研究,從考查的研究得出的結(jié)果建議,此區(qū)分在聲頻索引方面很有用。例如,在住處檢索和認識心重 學方面的研究已同個人如何使用不同的層描述(或索引)圖象/對象。雖然我們提出的某些劃分不嚴格,應該予以考慮這些劃分,因為它們在如何索引、處理聲頻內(nèi)容并將那樣的內(nèi)容向用戶(如應用或觀察者)表示方面具有直接的影響。
以前對可視屬性提出的結(jié)構(gòu)吸引了有關圖象索引的不同領域的研究,它也提供了能容易地應用于聲頻的緊湊并有組織的分類。該結(jié)構(gòu)是直覺的和高度起作用的,并強調(diào)需要,需求和不同索引技術(人工和自動)的限制。例如,對聲頻段的索引代價(計算的或以所化人力)通常在金字塔的較低層較高自動確定內(nèi)容的類型(音樂還是聲音),相對識別普通對象(如男人的聲音),相對壹對象(如比爾·克林頓的聲音)。這也隱含著,在較低層需要較多的住處/知識,而且如果一個用戶(如應用)對另一個用戶(如應用)作出一請求,有一個清晰度問題,牽涉及需要多少附加信息,或一個用戶從如5層聲頻分類器期望什么級別的“服務”。此外,屬性和關系的此等分解具有很大價值,因為人們經(jīng)常根據(jù)屬性作出比較。所提出的結(jié)構(gòu)的好處已在對視頻內(nèi)容的基本實驗中示出,且已經(jīng)作出進行核心實驗的努力。這些實驗以及允許對聲頻索引的該結(jié)構(gòu)的使用的靈活性意味著將這類描述符分類應到聲頻和視頻內(nèi)容的好處。
在此例中我們描述了聲頻屬性的分類。我們也描述聲頻的關系。描述符的分類該提出的聲頻結(jié)構(gòu)包含10層頭4層涉及語法,而余下6層涉及語義。聲頻結(jié)構(gòu)的概貌語法,而余下6層涉及語義。聲頻結(jié)構(gòu)的概貌能從圖3得出。每層的寬度是所需的知識/信息量的指示。語法層是類型/技術,全局分布,局部結(jié)構(gòu),和全局組成。語義層是普通對象,普通場景,特定對象,特定場景,抽象對象,和抽象場景。
語法層分類語法描述符,即通過低層特征描述內(nèi)容的那些描述符。在可視結(jié)構(gòu)中這些涉及出現(xiàn)在映象中的顏色和紋理。在本文的聲頻結(jié)構(gòu)中這些涉及聲頻信號的低層特征(它是音樂還是語音等)。例子包括基頻,諧音峰值等。
可視結(jié)構(gòu)的語義層分類了有關對象和場景的屬性。在聲頻結(jié)構(gòu)的語義層是類似的,其差別在于分類是基于從聲頻信號本身提取的屬性。如在可視情況一樣,在聲頻情況有可能識別對象(如男人的語音,小號的聲音等)和場景(如街上噪聲,歌劇,等)。
可視結(jié)構(gòu)的每層是類似的以前已經(jīng)予以解釋。接著,我們簡單地解釋每層,并描述它如何能用于聲頻描述符的分類。我們可交換地使用詞屬性和描述符,并對每一層給出直觀的例子,作出與可視結(jié)構(gòu)的模仿以幫助闡明此解釋。對于語義層設想典型的無線電新聞廣播是有用的,其中不同的實體可交換地使用個人,噪音,音樂,和場景(如在現(xiàn)場報導,在記者報導前,后或期間常聽到背景噪音或音樂)。類型/技術聲頻序列的類型的一般描述。例如音樂,噪聲,語音或它們的任意組合;立體聲,聲道數(shù),等。全局分布描述聲頻的全局內(nèi)容的屬性,通過低層特征測量。在此層的屬性是全局的,因為它們不涉及信號的各個別分量而涉及全局的描述。例如,一個信號可以描述成高斯噪音,這種描述是全局性的,因為它不考慮任何局部分量(如什么單元或低層特征描述此噪聲信號)。局部結(jié)構(gòu)涉及在聲頻段中各個低層語法部的提取和特征。與以前的層相反,這里的屬性意味著描述信號的的局部結(jié)構(gòu)。在一圖象中,局部單元由在該圖象中出現(xiàn)的基本語法符號給出(如線,圓等)。此層在聲頻中用作同樣的功能,所以任何低層(即不是如單詞說話內(nèi)容中的字母那樣語義的)局部描述符應在此層分類。全局組成根據(jù)基本單元(即局部結(jié)構(gòu)描述符)的特定安排或組成的一個聲頻片段的全局描述。雖然局部結(jié)構(gòu)著眼于聲頻的特定局部特征,全局組成著眼于局部單元的結(jié)構(gòu)(如它們是如何安排的)。例如,一個聲頻序列可用馬爾科夫鍵表示(建模),或用任何其他使用低層局部特征的結(jié)構(gòu)表示。普通對象直到前一層,為實現(xiàn)索引不需大量的知識,定量特能自動從聲頻片段提取并分類成所描述的語法層,但是,當前聲頻片段借助語義(如認識)描述時,對象起了重要的作用。然而,對象能放在不同層次的類別中,一個蘋果能分類成,Macintosh蘋果,蘋果,或水果。能基于聲頻片段識別一個對象,因而我們能作出相似的分類。例如,我們能說一個聲頻實體(如語音)對應一個男人,或?qū)葼?克林頓。在討論普通對象時,我們的興趣在于基本層類別這是用日常知識能識別的對象描述的最一般的層。這就意味著沒有所談論的對象的特定識別的知識(如爆炸聲,雨聲,敲擊聲,男人的語音,女人的語音等)。能在此層分類聲頻實體描述符。一般場景正如聲頻片段能按照各個對象索引,也可能根據(jù)其它包含的所有對象的集以及它們的安排作為整體索引該聲頻片段。聲頻場景類的例子包括街道噪聲,運動場,辦公室,人們交談,音樂會,新聞編輯室等。這層的準則是只需要一般知識。不需要識別特定的聲頻實體(如是誰的語音),或特定的聲頻場景(如是哪個音樂會)來獲得在此層的描述符。特定對象與以前的層相反,特定對象涉及已識別及已命名的聲頻實體。需要特定的知識,且那樣的知識通常是客觀的,因為它依賴已知的事實,在此層識別和命名品噪聲或聲音。例子包括個人的語音(如“比爾.克林頓”)或特征噪聲(如,紐約證券交易所的鈴聲),等。特定場景此層類似于普通場景,基差別在于存在有關在聲頻片段的場景的特定知識。例如,馬丁.路德.金的講話“我有一個夢”,此聲頻場景能被特定地識別及命名。1968年在月球著陸等。抽象對象在此層,使用讀聲頻實體代表了什么的主觀知識。此索引層是完全主觀的,在不同用戶這間的評估變化很大,在此意義上這是最困難的層。對于圖象,此層的重要性在實驗中示出,其中觀察者使用抽角屬性及其他來描述圖象。在一個聲頻段也能為對象賦予感情屬性。例如,一個聲音(如在電影中,在音樂中)可描述或恐怖的,幸福的等。抽象場景抽象場景層涉及,作為整體聲頻片段表示什么。這可以是非常主觀。例如,對于圖象已示出用戶有時用感情(如情緒)或抽象(如氣氛,題目)術語描述圖象。類似的描述也能指定給聲頻片段,例如,描述一個聲頻場景的屬性可以包括悲傷(如人在哭),幸福(如人在笑),等。關系關系的類型在本章節(jié),我們提出在我們提出的內(nèi)容單元之間的明顯的關系類型。這些關系類似于以前對可視內(nèi)容提出的那些關系。如圖12所示,關系在以前結(jié)合圖3提出的聲頻結(jié)構(gòu)的不同層次上定義。為表示在內(nèi)容單元之間的關系,我們考慮將基劃分為語法的和語義的。
在語法層,能有一個語法關系,即空間的(如“聲音A近似于聲音B”),時間的(如“同時的”),和聲頻的(“更響”)的關系,這些唯一地基于語法知識??臻g和時間屬性分成拓撲和有方向類。聲頻關系能進一步索引成全局的,局部的和組成的。如圖12所示,在這些層中的單元能夠不僅與語義關系,而且與語法關系相關(如“小號聲接近小提琴”、“小號音調(diào)補充小提琴音調(diào)”)。我們區(qū)分兩種不同類型的語義關系如同義詞,反義詞,亞詞/超詞,部分詞/全詞那樣的詞法關系;和關于動作(事件)或狀態(tài)的表達關系。
我們這里提出的關系模仿對視頻信號提出的關系,兩種情況的唯一差別在于使用的屬性,而不在于關系。例如,從一個圖象不可能說單元A比單元B更響。從一個聲頻段不可能說(除非在聲頻內(nèi)本身中明確地表述)單元A比單元B更黑。但是,關系的類型是相同的一個是聲頻,另一個是可視,但它們場是全局普通的(見表4)。
我們將用例子更透徹地解釋語法和語義關系。下面的表3和表4綜合了對關系的索引結(jié)構(gòu)并民括例子。語法關系我們將語法關系分成了類空間的,時間的,和聲頻的。人們可能爭辨,認為空間和時間關系只是聲頻關系的特殊情況。但是我們以專門的方法定義空間和時間關系,因為我們將單元分別看作空間和時間的邊界而沒有“關于”或持續(xù)期間的信息。見表3,它是所提出的語法關系類型的綜合以反例子。
我們將空間關系分成下列類型(1)拓撲的,即單元的邊界如何相關;和(2)定向的或有方向的,即單元互相相對地放置(見表表3)。注意,這些關系常常能從聲頻片段提取例如,所新聞報導的立體聲廣播,常常容易為聲頻實體指定語法屬性。例如,有可能評估一個聲音接近另一個聲音,或更確切地評估在不同的聲音來源之間的語法關系。在這方面,人們可以確定在信號中可以是不明顯的某些評細的拓撲的和有方向的關系。拓撲關系例子是“近于”,“在其中”,和“與其鄰接”;有方向關系的例子是“在其前面”,“在其左面”。注意,在這些關系和從可視信息中得到的關系之間差別依賴于關系本身的內(nèi)涵,單從聲頻確定某些空間關系可以是更加困難,但是在建立合成的聲頻模型時,這些關系起看非常重要的作用。
以相似的方式,我們將時間關系分類成拓撲的和有方向的類(見表3)。時間的拓撲關系的例子是“同時發(fā)生”,“重疊”,“在其間發(fā)生”;有方向的時間關系是“在前發(fā)生”,和“在后發(fā)生”。SMIL的同時和順序關系是時間的拓撲關系的例子。
聲頻關系根據(jù)它們的可視屬性或特征聯(lián)系聲頻實體。這些關系能夠被索引或全局的,局部的,和組成的類(見表3)。例如,一個聲頻全局關系能是“噪聲小于”(根據(jù)全面噪聲特征),一個聲頻局部關系能是“聲音大于”(根據(jù)局部響應測量),而一個聲頻組成關系能根據(jù)一個隱藏馬爾科夫(Hidden Markov)模型的結(jié)構(gòu)的比較。
聲頻結(jié)構(gòu)的單元具有不同的層(普通的,特定的,和抽象的),以與其類似的方法能夠在普動層(“近于”)或特定層(“距離10米),中定義語法關系的這些類型(見表3)。例如,如“與其并”,“與其交”,“是其非那樣的操作關系是拓撲的,特定的關系,或者是空間的,或者是時間的(見表3)。語義關系語義關系只能在10層概念結(jié)構(gòu)的語義層上的內(nèi)容單元之間發(fā)生。我們將語義關系劃分成詞法的和表述的關系。表4綜合了語義關系并包括例子。注意,因為語義關系根據(jù)內(nèi)容的理解,我們能對從聲頻內(nèi)容獲得的關系可以作出與對從可視內(nèi)容得到的關系作出一樣的分類。因此,此處語義關系等同于結(jié)合可視信號取的方法(即理解聲頻相對于理解一個圖象或視頻)。我們雖然有原始例子可以應用為了更清楚地作業(yè)解釋,我們使用與聲頻有關的例子。例如作為一個普通同義詞的例子,那個蘋果象那個桔子;如果說話人談及它們,蘋果和桔子能從聲頻被“識別”。
詞法語義關系對應于在WordNet中使用的名詞之間的語義關系。這些關系是同義詞(小提琴類似于中提琴),反義詞(長笛與鼓相反),亞詞(吉他是弦樂器),超詞(弦樂樂器和一個吉他),部分詞(音樂家是樂隊的成員),和全詞(樂隊由音樂家組成)。
表述語義屬性涉及在兩個或多個單元中的動作(事件)或狀態(tài)。動作關系的例子是“對其叫嚷”,和“擊打”(例擊球)。狀態(tài)關系的例子是“屬于”和“擁有”。不是僅將表述語義劃分成動作和狀態(tài),我們可以利用在WordNet中使用的部分關系語義分解。WordNet將動詞分成15個語義域身體照顧及功能的動詞,改變,認識,通訊,競爭,消費,接觸,建立,情緒,運動,感覺,擁有,社會交往,和氣象動詞。只有那些與可視概念的描述有關的域能被使用。
至于這里提出的10層聲頻結(jié)構(gòu)。我們能在不同的層上定義語義關系普通的,特定的,和抽象的。例如,一個普通動作關系是“擁有股票”,一個特定動作關系是“擁有80%股票”,而最后,一個抽象語義關系是“控制該公司”。表3語法關系的索引結(jié)構(gòu)及例子
表4語義關系的索引結(jié)構(gòu)和例子
本發(fā)明不僅包括用于為索引和/或分類的目的的多層數(shù)字信號(如多媒體信號)的分類方法,而且包括計算機實施的系統(tǒng)。上述的方法根據(jù)它們能用于處理這里討論類型的數(shù)字信號的任何系統(tǒng)中的事實已在某些一般原則中予以描述,一如任何在MPEG-7標準下與處理數(shù)字多媒體信號或文件相容的業(yè)內(nèi)認識的(或?qū)黹_發(fā)的)系統(tǒng)。
通常認為,因為對數(shù)字信號的標準的目的是促進對那樣信號發(fā)送,歸檔,和輸出的混合平臺(Cross-Platform)的兼容性,對實施本發(fā)明建立的系統(tǒng)給出系統(tǒng)特定的規(guī)定是不必要也是不希望的。相反的,業(yè)內(nèi)一般熟練人員認識到,使用業(yè)內(nèi)所熟知的所希望的硬件和軟件技術如何實施這時提出的普通技術。
為了給出廣泛的例子,人們能夠結(jié)合任何兼容設備考慮一個實現(xiàn)本發(fā)明的一個系統(tǒng)的實施例,用于處理,顯示,歸檔,或發(fā)送數(shù)字信號(包括視,聲頻,靜止圖象,及其他包含人的感覺內(nèi)容的數(shù)字信號,但不限于此)。那樣的系統(tǒng)可以是包括奔騰處理器,存儲器(如硬盤驅(qū)動器和隨機訪問存儲器容量),視頻顯示,和合適的多媒體附件的個人計算機工作站。總結(jié)本發(fā)明對當前的Generic AV DS提出基本的實本一關系模型,以便著于解決與其整體設計相關的缺點。該基本的實體一關系模型索引(1)內(nèi)容單元的屬性,(2)內(nèi)容單元之間的關系,和(3)內(nèi)容單元本身。我們選擇此建模技術,和(3)內(nèi)容單元本身。我們選擇此建模技術,因為實體一關系模型最廣泛地使用于概念模型。它們形成高度抽象性并與硬件及軟件無關。
我們對屬性(或MPEG-7描述符),關系,和內(nèi)容單元在語法和語義上作出區(qū)別。語法涉及內(nèi)容單元安排的方法而不考慮那樣安排的意義。另一方面,語義處理這些單元及其安排的意義。語法和語義屬性能涉及若干層。類似地,語法和語義關系能進一步分成與不同層有關的子一類型。我們根據(jù)它們的屬性及與其他單元的關系的類型提出這語法和語義單元的緊湊及明確的定義。但是與Generic AVDS的一個重要差別是我們的語義單元不僅包括語義屬性,也包括語法屬性。因此,如果一個應用寧可不區(qū)分語法及語義單元,通過只使用語義單元,它也能做。
本發(fā)明的上述例子及說明性實施例為解釋的目的列出。業(yè)內(nèi)普通熟練人員將認識到,這些講授的例子不限定本發(fā)明的精神與范圍的限止,本發(fā)明只受附后的權(quán)利要求的限止。
權(quán)利要求
1.一種索引多個數(shù)字信息信號的方法,其特征在于包括下列步驟(a)對每個信號(i)對信號內(nèi)容定義多個索引層;(ii)選擇至少一個所述的索引層;(iii)從與每個所述的選定的索引層有關的信號中提取特征;(b)對每個信號分類(信號之間)在同一選定的索引層的所述提取的特征之間的關系;和(c)對該信號將所述的提取的特征及關系組織到較高層的描述結(jié)構(gòu)中。
2.如權(quán)利要求1所述的方法,其特征在于所述的索引層包括與語法有關的層及與語義有關的層。
3.如權(quán)利要求2所述的方法,其特征在于與語法有關的層包括至少一個從與下列有關的層的組中選定的層(i)類型/技術(ii)全局分布(iii)局部結(jié)構(gòu);和(iv)全局組成。
4.如權(quán)利要求2所述的方法,其特征在于所述有關語義的層至少包括一個從與下列有關的層的組中選的層(i)普通對象;(ii)普通場景;(iii)特定對象;(iv)特定場景;(v)抽象對象;和(vi)抽象場景。
5.如權(quán)利要求1所述的方法,其特征在于所述的關系包括語義關系。
6.如權(quán)利要求5所述的方法,其特征在于所述的語義關系包括至少一個從包括下列關系的組中選出的關系(a)詞法的;和(b)表述的關系。
7.如權(quán)利要求1所述的方法,其特征在于所述的關系包括語法關系。
8.如權(quán)利要求7所述的方法,其特征在于所述的語法關系包括從包括下列關系的組中選出的關系(a)空間的;(b)時間的;和(c)可視的關系。
9.如權(quán)利要求1所述的文法,其特征在于所述數(shù)字信息信號包括多媒體數(shù)據(jù)文件。
10.如權(quán)利要求9所述的方法,其特征在于所述的方法被應用于把所述的數(shù)據(jù)文件組織在數(shù)字庫中。
11.如權(quán)利要求9所述的方法,其特征在于所述的數(shù)據(jù)文件包括視頻文件。
12.如權(quán)利要求9所述的方法,其特征在于所述的數(shù)據(jù)文件包括聲頻文件。
13.如權(quán)利要求1所述的方法,其特征在于至少一個所述的數(shù)字信息信號包括一個多媒體數(shù)據(jù)文件的一個片斷部分。
14.如權(quán)利要求13所述的方法,其特征在于所述數(shù)據(jù)文件的片斷部分對應于提供給用戶感覺的多媒體數(shù)據(jù)文件的人類可感知的子部分。
15.如權(quán)利要求14所述的方法,其特征在于所述的人類可感知的子部分包括在視頻圖象文件中的特定的人或?qū)ο蟮膱D象。
16.一個用于索引多個數(shù)字信息信號的系統(tǒng),其特征在于包括(a)至少一個用于接收信號的多媒體信息輸入接口;(b)一個計算機處理器,耦合到所述的至少一個多媒體信息輸入接口,用于(對每個信號)(i)對這些信號的內(nèi)容定義多個索引層;(ii)選擇至少一個所述的索引層;(iii)從與每個所述的選定的索引層有關的信息提取特征;而且用于對這些信號的每個分類(在這些信號之間)同一選定索引層的所述提取的特征之間的關系;并用于對這些信號把所述的提取的特征和關系組織到較高層的描述結(jié)構(gòu)中。
17.如權(quán)利要求16所述的系統(tǒng),其特征在于還包括(c)操作上與所述處理器耦合的數(shù)據(jù)存儲系統(tǒng),用于存儲與索引有關的信息。
18.一個用于分類多個數(shù)字信息信號的方法,其特征在于包括下列步驟(a)對這些信號中的每一個(i)對這些信號的內(nèi)容定義多個分類層,所述的分類層包括與概念及感覺有關的分類層;(ii)選擇至少一個所述的分類層;(iii)從與每個所述的選定的分類層有關的信號中提取特征;(b)對這些信號中的每一個分類(在這些信號之間)在同一選定的分類層的所述提取的特征之間的關系;和(c)對這些信號將所述的提取的特征和關系組織到較高層描述結(jié)構(gòu)。
全文摘要
提供用于從多媒體信息產(chǎn)生標準描述記錄的系統(tǒng)和方法。本發(fā)明使用基本的實體-關系模型于Generic AVDS,它把實體,實體屬性,和關系分類成相應的類型以便描述可視數(shù)據(jù)。它也涉及將實體關系分類成語法和語義屬性。語法屬性可歸類成不同的層:類型/技術,全局分布,局部結(jié)構(gòu),和全局組成。語義屬性能歸類成不同的層:普通對象,普通場景,特定對象,特定場景,抽象對象,和抽象場景。本發(fā)明還使用將實體關系分類為語法和語義類別的分類。語法關系能歸類成空間的,時間的,和可視類別。語義關系能歸類成詞法的和表述的類別。
文檔編號G06F17/30GK1372669SQ00812462
公開日2002年10月2日 申請日期2000年6月30日 優(yōu)先權(quán)日1999年7月3日
發(fā)明者A·貝尼特茲, A·賈米斯, 張世富, J·R·史密斯, 李中生 申請人:紐約市哥倫比亞大學托管會, Ibm公司