專利名稱:一種基于本體和注釋技術(shù)的視頻檢索方法
技術(shù)領(lǐng)域:
本發(fā)明屬于視頻檢索技術(shù)領(lǐng)域,具體涉及一種基于本體和注釋技術(shù)的視頻 檢索方法。
背景技術(shù):
隨著視頻數(shù)據(jù)的劇增,如何對(duì)大量的多媒體信息進(jìn)行組織和管理,實(shí)現(xiàn)快 速有效的視頻瀏覽和檢索,已成為當(dāng)今備受關(guān)注的焦點(diǎn)。目前大多數(shù)多媒體 的應(yīng)用還很少使用到媒體的語(yǔ)義信息,各種媒體的內(nèi)容之間沒有建立起聯(lián)系, 不能依據(jù)這些聯(lián)系來組織、處理和使用信息。因此,有必要釆用相應(yīng)的方法 和工具,對(duì)多媒體的數(shù)據(jù)按照不同的形式和來源,通過增加相關(guān)語(yǔ)義進(jìn)行注 釋,以便于對(duì)大量的多媒體信息進(jìn)行組織和管理,實(shí)現(xiàn)快速有效的視頻瀏覽 和檢索。國(guó)外通過注釋方法檢索視頻取得了一定的成果,對(duì)視頻的注釋方法主要有以下幾種 一用圖標(biāo)語(yǔ)言進(jìn)行視頻注釋的方法,該方法雖然直觀,但是由 于未引入有效的知識(shí)表示工具,因此不能有效描述視頻內(nèi)容。二利用相關(guān)反 饋技術(shù)進(jìn)行半自動(dòng)視頻注釋,不過該方法所應(yīng)用的本體沒有清晰描述子類間 關(guān)系,因此根據(jù)標(biāo)注獲得的關(guān)鍵詞未能有效描述視頻內(nèi)容和結(jié)構(gòu)。三基于規(guī) 則的視頻注釋方法,釆用模糊邏輯和規(guī)則挖掘的方法建立高層語(yǔ)義和低層特 征的映射進(jìn)行注釋。但是該方法主要基于分類學(xué),沒有進(jìn)一步挖掘子類間關(guān) 系和約東。國(guó)內(nèi)鄭鵬提出了基于注釋的視頻索引方法,該方法按鏡頭對(duì)視頻 進(jìn)行分段,對(duì)每一個(gè)鏡頭進(jìn)行注釋,然后根據(jù)應(yīng)用的需要建立視頻文檔,方 便用戶檢索。該方法能很好的反映視頻數(shù)據(jù)的語(yǔ)義特征,但是注釋需要全手 工進(jìn)行,使注釋的成本較高,而且注釋的結(jié)果與注釋者有很大的關(guān)系,注釋
不規(guī)范給檢索帶來了很大的困難。 發(fā)明內(nèi)容本發(fā)明的目的是在于為視頻檢索領(lǐng)域提供一種高效的、可靠的視頻檢索 方法。本發(fā)明的目的是通過如下方式實(shí)現(xiàn)的(1) 首先基于本體設(shè)計(jì)語(yǔ)義字典;(2) 對(duì)視頻提取重放鏡頭和關(guān)鍵幀;(3) 利用語(yǔ)義字典對(duì)鏡頭和關(guān)鍵幀進(jìn)行注釋;(4) 使用注釋信息對(duì)視頻進(jìn)行檢索。對(duì)視頻重放鏡頭的提取是通過計(jì)算每一幀與重放鏡頭模板之間的顏色直 方圖距離<formula>formula see original document page 5</formula>其中s,t兩幅圖像的幀號(hào),d(s,t)為圖像s和圖像t的直方圖距離,n為顏 色值的數(shù)目,s(i)為圖像s的第i個(gè)顏色值,t(i)為圖像t的第i個(gè)顏色值。當(dāng) 距離小于給定閾值3000時(shí),記為一次標(biāo)志匹配,若在該鏡頭開始之前發(fā)生了 奇數(shù)次匹配,則是重放鏡頭。關(guān)鍵幀提取是通過最短路徑約東的最小化失真率的算法,算法如下(1) 進(jìn)行壓縮域攝像機(jī)運(yùn)動(dòng)估計(jì),首先基于M估計(jì)進(jìn)行攝像機(jī)運(yùn)動(dòng)參數(shù) 估計(jì),并基于極線距離約東驗(yàn)證去除外點(diǎn)的正確性,并利用BFGS方法獲得參 數(shù)的最佳估計(jì),求出攝像機(jī)運(yùn)動(dòng)參數(shù);(2)<formula>formula see original document page 5</formula> (j為關(guān)鍵幀kf下標(biāo));(3) <formula>formula see original document page 5</formula>,(""'4)為 兩幀間的重疊部分<formula>formula see original document page 5</formula>為基于最短路徑的估計(jì)值),
<formula>formula see original document page 6</formula>(4) Repeat 3 until i=n-l。視頻的檢索是通過載入所有的注釋文件,把文件中的數(shù)據(jù)轉(zhuǎn)化成對(duì)應(yīng)的 數(shù)據(jù)結(jié)構(gòu),再檢索與輸入的檢索條件相匹配的注釋文件,得到符合條件的視 頻路徑及其起始和結(jié)束幀。本發(fā)明具有如下的有益效果,視頻注釋利用規(guī)范的領(lǐng)域詞匯描述視頻內(nèi) 容及其結(jié)構(gòu),應(yīng)用XML做為注釋信息的存儲(chǔ)形式,定義一個(gè)富有層次的視頻元 數(shù)據(jù)結(jié)構(gòu),結(jié)合XML的層次特征來表達(dá)視頻數(shù)據(jù)的層次關(guān)系,實(shí)現(xiàn)視頻數(shù)據(jù)的 非線性組織,可以實(shí)現(xiàn)更可靠、有效的視頻內(nèi)容注釋,使視頻檢索更加高效、 方便,具體來說有以下效果1. 本發(fā)明基于本體建立視頻注釋所需要的語(yǔ)義字典,對(duì)達(dá)成共知的領(lǐng)域 知識(shí)進(jìn)行規(guī)范的、明確的描述,并且,構(gòu)造的語(yǔ)義字典可以復(fù)用。2. 傳統(tǒng)的基于像素域的攝像機(jī)運(yùn)動(dòng)估計(jì)一般通過基于梯度的方法進(jìn)行 優(yōu)化參數(shù)計(jì)算,但是該方法要對(duì)幀中像素進(jìn)行計(jì)算,計(jì)算量非常大,時(shí)間復(fù)雜 度較高,因此我們對(duì)攝像機(jī)運(yùn)動(dòng)估計(jì)方法進(jìn)行改進(jìn),以攝像機(jī)參數(shù)為運(yùn)動(dòng)特 征,將關(guān)鍵幀選擇問題轉(zhuǎn)化為最短路徑選擇問題,改進(jìn)后的方法充分考慮了 視頻流的全局運(yùn)動(dòng),基于最短路徑建模選擇關(guān)鍵幀,能夠降低關(guān)鍵幀選擇的 失真率;其次由于我們的方法基于壓縮域,速度比較快,可以實(shí)現(xiàn)實(shí)時(shí)性。3. 對(duì)視頻進(jìn)行了鏡頭和關(guān)鍵幀提取,使視頻注釋具有高效性,因其注釋 是基于本體的,所以滿足視頻注釋的規(guī)范性、明確性。4. 利用注釋信息檢索重放鏡頭和關(guān)鍵幀的方法,用戶可以通過輸入所做 注釋的任何信息方便、快捷的檢索到重放鏡頭和關(guān)鍵幀,從而快速定位到用 戶檢索的視頻片段,改變了用戶傳統(tǒng)、單一的播放和觀看視頻的方式。
圖l是本發(fā)明語(yǔ)義字典;
圖2是本發(fā)明鏡頭注釋界面; 圖3是本發(fā)明關(guān)鍵幀注釋界面; 圖4是本發(fā)明檢索界面;具體實(shí)施方式
下面結(jié)合實(shí)施例對(duì)本發(fā)明做進(jìn)一步說明 實(shí)施例以體育視頻為例。1. 語(yǔ)義字典的建立。以體育領(lǐng)域中足球項(xiàng)目為例,足球語(yǔ)義字典包括視頻中可能出現(xiàn)的人物、 運(yùn)動(dòng)員當(dāng)前的動(dòng)作、運(yùn)動(dòng)員所在的位置和比賽類型,建立語(yǔ)義字典,如圖l所 示,然后以XML形式保存起來。2. 提取視頻重放鏡頭和關(guān)鍵幀。 2.1重放鏡頭提取首先通過用戶交互從視頻中選取重放鏡頭標(biāo)志匹配模板,對(duì)每一幀計(jì)算它和重放鏡頭標(biāo)志模板的距離。距離計(jì)算由下式給出 n<formula>formula see original document page 7</formula>其中s, t兩幅圖像的幀號(hào),d(s,t)為圖像s和圖像t的直方圖距離,n為顏 色值的數(shù)目,s(i)為圖像s的第i個(gè)顏色值,t(i)為圖像t的第i個(gè)顏色值。當(dāng) 距離小于給定閾值時(shí),記為一次標(biāo)志匹配。為避免重復(fù)匹配,約定若相鄰的 兩次匹配發(fā)生在最小間隔幀數(shù)以內(nèi),則只記為一次。根據(jù)標(biāo)志匹配的次數(shù)就 可以對(duì)鏡頭是否屬于重放進(jìn)行判斷。若在該鏡頭開始之前發(fā)生了偶數(shù)次(包 括次數(shù)為零)標(biāo)志匹配,則該鏡頭為正常鏡頭,若之前發(fā)生了奇數(shù)次匹配, 則是重放鏡頭。 2.2關(guān)鍵幀提取 以攝像機(jī)參數(shù)為運(yùn)動(dòng)特征,基于最短路徑約束的最小化失真率提取關(guān)鍵幀,其算法為(1) 進(jìn)行壓縮域攝像機(jī)運(yùn)動(dòng)估計(jì),首先基于M估計(jì)進(jìn)行攝像機(jī)運(yùn)動(dòng)參數(shù) 估計(jì),并基于極線距離約束驗(yàn)證去除外點(diǎn)的正確性,并利用BFGS方法獲得參 數(shù)的最佳估計(jì),求出攝像機(jī)運(yùn)動(dòng)參數(shù);(2) j=i=0,機(jī)=0,關(guān)鍵幀集合^—幀F(xiàn)0) (j為關(guān)鍵幀kf下標(biāo));(3) i=i+l, Ifi—《>r/and D"'4)>=L and A)<=義'(""'4)為 兩幀間的重疊部分,^"(4-2,A-') + ^A^-')為基于最短路徑的估計(jì)值), then j=j+l,《=i,(4 ) R印eat ( 3 ) until i=n-l。 3.視頻注釋。 3. l鏡頭注釋鏡頭注釋程序界面如圖2所示。 3. 2關(guān)鍵幀注釋關(guān)鍵幀注釋程序運(yùn)行界面如圖3所示。 具體注釋的步驟如下(1) 通過load或者是loadXML方法裝載XML文檔。(2) 添加各結(jié)點(diǎn)的屬性內(nèi)容?!碼nnotation〉是整個(gè)注釋文件的根節(jié)點(diǎn),添加它的屬性內(nèi)容鏡頭的路 徑(c:\shotl.mpg)、鏡頭所描述的體育項(xiàng)目(足球)、起始幀(832 )和結(jié)東 幀(1493 )。 〈annotation〉有三個(gè)子節(jié)點(diǎn)〈person〉、 <shotaction〉、 <gametype> 分別對(duì)應(yīng)語(yǔ)義詞典中的"人物"、"動(dòng)作"和"比賽類型"。^erson〉有三個(gè)子 節(jié)點(diǎn)〈type〉、 〈number〉和〈name〉。語(yǔ)義詞典中已經(jīng)歸納了所要注釋的六個(gè)體 育項(xiàng)目的所有〈type〉,用戶只要在其中選擇一種,例如選擇"運(yùn)動(dòng)員"。而 〈number〉和〈name〉則需要用戶自己輸入,例如number為10, name為戈麥斯。
〈gametype〉有兩個(gè)子節(jié)點(diǎn)〈sex〉和〈type〉共同描述了比賽的類型,列如"男子 國(guó)際比賽"。運(yùn)行后得到注釋結(jié)果如下〈annotation videoname-,, c:\shotl.mpg" videotype-,,足球,,起始幀=" 832"結(jié)束幀="1493>" <person>"ype〉運(yùn)動(dòng)員</type> <number>10</number> 〈name〉戈麥斯〈/name〉 </person><shotact ion〉射門〈/shotact ion> <gametype><36乂〉男子</36又>〈type〉國(guó)際比賽〈/type〉 </gametype> </annotation> (3 )將注釋結(jié)果以XML文件形式保存起來。 4.視頻檢索以鏡頭檢索為例,首先載入所有的鏡頭注釋XML文件,然后把文件中的數(shù) 據(jù)轉(zhuǎn)換成按照語(yǔ)義字典組織的數(shù)據(jù)結(jié)構(gòu)。鏡頭檢索過程中,輸入運(yùn)動(dòng)員的名 字"戈麥斯",輸入檢索的動(dòng)作"射門",就可以得到重放鏡頭的起始幀和 結(jié)東幀的位置,通過播放器跳到指定的位置。關(guān)鍵幀檢索過程中,輸入運(yùn)動(dòng) 員的名字"戈麥斯",動(dòng)作選擇"射門",位置選擇"中線",得到起始幀 和結(jié)束幀的位置,通過播放器跳到指定的關(guān)鍵幀,如圖4所示。
權(quán)利要求
1、 一種基于本體和注釋技術(shù)的視頻檢索方法,其特征在于該方法包括以下步驟(1) 首先基于本體設(shè)計(jì)語(yǔ)義字典;(2) 對(duì)視頻提取重放鏡頭和關(guān)鍵幀;(3) 利用語(yǔ)義字典對(duì)鏡頭和關(guān)鍵幀進(jìn)行注釋;(4) 使用注釋信息對(duì)視頻進(jìn)行檢索。
2、 如權(quán)利要求l所述的一種基于本體和注釋技術(shù)的視頻檢索方法,其特征在于對(duì)視頻重放鏡頭的提取是通過計(jì)算每一幀與重放鏡頭模板之間的顏色直方圖距離 nd(s, t)=sqrt(S (s(i)-t(i))2) i=0其中s,t兩幅圖像的幀號(hào),d(s,t)為圖像s和圖像t的直方圖距離,n為顏 色值的數(shù)目,s(i)為圖像s的第i個(gè)顏色值,t(i)為圖像t的第i個(gè)顏色值。當(dāng) 距離小于給定閾值3000時(shí),記為一次標(biāo)志匹配,若在該鏡頭開始之前發(fā)生了 奇數(shù)次匹配,則是重放鏡頭。
3、 如權(quán)利要求l所述的一種基于本體和注釋技術(shù)的視頻檢索方法,其特 征在于關(guān)鍵幀提取是通過最短路徑約東的最小化失真率的算法,算法如下(1) 進(jìn)行壓縮域攝像機(jī)運(yùn)動(dòng)估計(jì),首先基于M估計(jì)進(jìn)行攝像機(jī)運(yùn)動(dòng)參數(shù) 估計(jì),并基于極線距離約東驗(yàn)證去除外點(diǎn)的正確性,然后利用BFGS方法獲得 參數(shù)的最佳估計(jì),求出攝像機(jī)運(yùn)動(dòng)參數(shù);(2) j=i=0,私=0,關(guān)鍵幀集合玎H幀F(xiàn)O) (j為關(guān)鍵幀kf下標(biāo));(3) i=i+l, Ifi-《〉r/and "",4)>=L and "(A厶)<=4 ( 為兩幀間的重疊部分,^d(A-^^)+d(4,A-》為基于最短路徑的估計(jì)值),then j=j+l,《=i, ,;(4 ) R印eat ( 3 ) until i=n-l。
4、如權(quán)利要求l所述的一種基于本體和注釋技術(shù)的視頻檢索方法,其特 征在于視頻的檢索是通過載入所有的注釋文件,把文件中的數(shù)據(jù)轉(zhuǎn)化成語(yǔ) 義字典的數(shù)據(jù)結(jié)構(gòu),再檢索與輸入的檢索條件相匹配的注釋文件,得到符合 條件的視頻路徑及其起始和結(jié)東幀。
全文摘要
本發(fā)明公開了一種基于本體和注釋技術(shù)的視頻檢索方法,屬于視頻檢索技術(shù)領(lǐng)域?,F(xiàn)有的視頻檢索方法往往存在檢索詞不規(guī)范,檢索效率低的問題。針對(duì)現(xiàn)有技術(shù)中存在的不足,本發(fā)明提出了基于本體和注釋技術(shù)的視頻檢索方法,設(shè)計(jì)了基于本體的語(yǔ)義字典,并利用規(guī)范的領(lǐng)域詞匯描述視頻內(nèi)容及其結(jié)構(gòu),解決了檢索詞不規(guī)范的問題,通過對(duì)鏡頭和關(guān)鍵幀進(jìn)行注釋,并采用XML實(shí)現(xiàn)視頻數(shù)據(jù)的表示,定義一個(gè)富有層次的視頻元數(shù)據(jù)結(jié)構(gòu),結(jié)合XML的層次特征來表達(dá)視頻數(shù)據(jù)的層次關(guān)系,實(shí)現(xiàn)視頻數(shù)據(jù)的非線性組織,這樣使得視頻檢索更加高效、方便。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,本發(fā)明可以取得更高的檢索準(zhǔn)確率和更快的檢索速度。
文檔編號(hào)G06T7/20GK101122914SQ200710035739
公開日2008年2月13日 申請(qǐng)日期2007年9月14日 優(yōu)先權(quán)日2007年9月14日
發(fā)明者唐玉元, 敏 張, 李瑩瑩, 歐陽(yáng)建權(quán) 申請(qǐng)人:湘潭大學(xué)