專利名稱:一種聯(lián)合字幕和視頻圖像信息進(jìn)行場景分割和索引的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻索引與搜索技術(shù)領(lǐng)域,具體地說,本發(fā)明涉及一種聯(lián)合字幕和視
頻圖像信息進(jìn)行場景分割與索引的方法。
背景技術(shù):
大容量存儲設(shè)備制造技術(shù)的進(jìn)步,網(wǎng)絡(luò)數(shù)據(jù)傳輸速率的提高,以及持續(xù)改進(jìn)的高效視頻壓縮技術(shù)使數(shù)字視頻得以廣泛傳播和使用,改善了人們的娛樂文化生活。在海量視頻庫中尋找感興趣的視頻片段成為一個新的問題。視頻可被組織為包含場景、鏡頭和幀的樹型層次結(jié)構(gòu)。幀即圖像,是視頻中最基本的物理單元,鏡頭是由同一個攝像機連續(xù)捕獲的幀序列,它是視頻圖像序列的物理邊界。場景則由一個或多個連續(xù)鏡頭組成,這些鏡頭擁有類似的背景或?qū)ο?,并且在語義上相關(guān)、時間上相近,它表達(dá)的是具有完整語義的故事單元,是視頻圖像序列的語義邊界。目前,電影視頻內(nèi)容的瀏覽和檢索基本上是基于鏡頭進(jìn)行的,但作為電影最小拍攝單元,鏡頭數(shù)量眾多而且沒有完整的語義信息。對于一部電影,人們通常關(guān)注的是一些特定的場景(如人物對話或打斗的場景),檢索時也一般根據(jù)特定場景進(jìn)行,而不僅僅針對某個鏡頭。因此,有效地將視頻劃分為多個場景片段并為這些片段生成高層語義信息有利于提高視頻檢索質(zhì)量。 本發(fā)明主要討論電影類視頻進(jìn)行場景抽取和索引的方法。該類視頻進(jìn)行場景抽取的過程一般可以分為兩個步驟首先是根據(jù)視頻圖像的顏色、紋理等特征進(jìn)行鏡頭邊緣檢測,并抽取鏡頭內(nèi)的若干個幀作為鏡頭的關(guān)鍵幀來代表鏡頭內(nèi)容;然后將視覺內(nèi)容近似且連續(xù)的多個鏡頭劃分為一個組并作為一個場景。這種方法的缺陷首先在于鏡頭檢測容易受到干擾,例如對于漸變鏡頭有較高的誤判率,其次鏡頭視覺內(nèi)容的表示和鏡頭之間相似性的衡量方法目前也不夠成熟。這些原因?qū)е聢鼍俺槿〉牟槿屎筒闇?zhǔn)率都不是太理想,目前所報道的查全率和查準(zhǔn)率的最好結(jié)果均在70%左右。另一方面,采用上述方法抽取場景后,為支持高效的檢索,還必須為分割出來的視頻場景片段作標(biāo)注,例如說明場景發(fā)生的地點、主要人物和發(fā)生的事件等。這些工作耗時費力,而且由于個人主觀性的影響,會導(dǎo)致標(biāo)注結(jié)果的不客觀。
發(fā)明內(nèi)容
本發(fā)明的目的在于,克服現(xiàn)有技術(shù)中視頻場景抽取的查全率和查準(zhǔn)率都不是太理想,以及針對視頻場景搜索需人工為抽取出來的視頻場景片段作標(biāo)注,導(dǎo)致標(biāo)注結(jié)果的不客觀且工作耗時費力,從而提供一種聯(lián)合字幕和視頻圖像信息進(jìn)行場景分割與索引的方法。 為實現(xiàn)上述發(fā)明目的,本發(fā)明給出了一種聯(lián)合字幕和視頻圖像信息進(jìn)行場景分割與索引的方法,其特征在于,每條字幕持續(xù)時間段內(nèi)視頻幀集合作為進(jìn)行場景聚簇的最小單元,該方法包括如下步驟 11)獲得進(jìn)行場景聚簇的最小單元后,抽取至少3個或以上不連續(xù)的視頻幀作為該條字幕的視頻關(guān)鍵幀集合; 12)通過比較若干個相鄰最小單元關(guān)鍵幀的相似性,再結(jié)合字幕關(guān)聯(lián)轉(zhuǎn)移圖進(jìn)行連續(xù)字幕與視頻場景之間的歸屬關(guān)系劃分; 所述的字幕關(guān)聯(lián)轉(zhuǎn)移圖即對于字幕Di和Dj (i < j),如果有Di和Dj所對應(yīng)的視頻關(guān)鍵幀集合中存在相似的關(guān)鍵幀,則稱字幕Di可轉(zhuǎn)移到字幕Dj,此時創(chuàng)建一條從Di指向Dj的弧線,該弧線覆蓋的所有字幕都認(rèn)為屬于同一場景,如果不同弧線之間存在交叉,則要進(jìn)行弧線的合并操作。 所述的電影場景抽取方法,其特征在于,所述的字幕持續(xù)時間段內(nèi)視頻關(guān)鍵幀集合包括起始幀、結(jié)束幀和中點位置的幀。 所述的電影場景抽取方法,其特征在于,還包括步驟13),如果兩個相鄰字幕的視
頻關(guān)鍵幀有兩個或以上相似的,則判斷兩個相鄰字幕對應(yīng)的視頻幀屬于一個場景。
所述的電影場景抽取方法,其特征在于,進(jìn)一步包括針對相鄰字幕關(guān)鍵幀圖像不
相似的,再進(jìn)一步利用相鄰字幕在語義、詞形或時間方面的相關(guān)性進(jìn)一步確定字幕和場景
的歸屬關(guān)系,步驟包括 a)語義相關(guān)性判斷的步驟對于相鄰字幕Di和Di+1如果Di的文本中包含疑問詞或者Di+1的文本以連詞作為起始字符,則字幕Di和Di+1在語義上屬于同一場景;
b)詞形相關(guān)性判斷的步驟對字幕Di和Di+1所包含文本分別進(jìn)行分詞并抽取其中的實詞作為關(guān)鍵詞,如果Di和Di+1含有相同的關(guān)鍵詞,則字幕Di和Di+1在所涉及的主題上相近它們屬于同一場景; c)時間相關(guān)性判斷的步驟取字幕Di為中心的長度為L的窗口內(nèi)相鄰字幕平均出現(xiàn)時間間隔,如果字幕Di和Di+1的出現(xiàn)時間間隔與窗口 L內(nèi)字幕平均出現(xiàn)時間之比小于預(yù)定義的閾值則字幕Di和Di+1在出現(xiàn)時間上較為接近屬于同一場景。 所述的電影場景抽取方法,其特征在于,針對已經(jīng)基于連續(xù)字幕分離出的時間不連續(xù)的兩個相鄰場景,再利用基于字幕提供的時間信息結(jié)合關(guān)鍵幀相似性方法判斷這段不連續(xù)時間段內(nèi)的視頻關(guān)鍵幀圖像的相似性,根據(jù)兩個時間相鄰的不相似幀之間存在切換點,依次找到這段不連續(xù)時間段內(nèi)所有切換點,并找到切換點對應(yīng)的時刻(DB1+1+(i_l)/R),則可以獲得視頻所包含場景片段的精確分割時間。 所述的電影場景抽取方法,其特征在于,所述的關(guān)鍵幀的相似性利用圖像的SIFT特征進(jìn)行判斷,具體步驟包括 首先,要對視頻關(guān)鍵幀進(jìn)行提升小波變換抽取子帶,再對抽取的子帶圖像的三個顏色分量進(jìn)行歸一化處理,獲得進(jìn)行SIFT特征提取的目標(biāo)矩陣;
然后,基于該目標(biāo)矩陣進(jìn)行子帶圖像SIFT特征提??; 最后,利用雙向SIFT關(guān)鍵點匹配方法判定關(guān)鍵幀圖像的相似性,所述的雙向SIFT關(guān)鍵點匹配方法指如果子帶圖像A中的關(guān)鍵點x可匹配子帶圖像B中的關(guān)鍵點y并且y可匹配到x ;當(dāng)且僅當(dāng)從不同關(guān)鍵幀中選取的低頻和高頻子帶圖像都相似兩個關(guān)鍵幀才相似,子帶圖像相似的條件是能夠雙向匹配的SIFT關(guān)鍵點數(shù)量達(dá)到所設(shè)置的閾值。
所述的電影場景抽取方法,其特征在于,所述的SIFT特征提取的步驟包括
1)根據(jù)圖像頻域增強理論和DoG濾波算子,得到高斯圖像并構(gòu)建目標(biāo)矩陣的DoG尺度空間;
2)得到所有的高斯圖像后,通過在同一階尺度空間中比較圖像每個像素點與它臨近26個像素點的值確定該像素是否為局部極值點,局部極值點構(gòu)成了 SIFT候選關(guān)鍵點集合. 3)對于上一步驟選出的局部極值點,如果該極值點不是低對比度的點,其次它不是邊緣點,則將該極值點選取為SIFT關(guān)鍵點; 4)采用梯度直方圖統(tǒng)計方法確定梯度的大小和方向,生成關(guān)鍵點的SIFT特征向 本發(fā)明還給出了一種聯(lián)合字幕和視頻圖像信息進(jìn)行場景索引的方法,具體步驟包括 21)獲得進(jìn)行場景聚簇的最小單元后,抽取每條字幕持續(xù)時間段內(nèi)的視頻關(guān)鍵幀集合,所述的視頻關(guān)鍵幀集合包含字幕持續(xù)時間段內(nèi)的起始幀,結(jié)束幀及中點位置的幀;
22)通過比較若干個相鄰最小單元關(guān)鍵幀的相似性,再結(jié)合字幕關(guān)聯(lián)轉(zhuǎn)移圖進(jìn)行連續(xù)字幕的場景視頻分割; 23)針對相鄰字幕關(guān)鍵幀圖像不相似的,利用相鄰字幕在語義、詞形和時間方面的相關(guān)性進(jìn)一步確定字幕和場景的歸屬關(guān)系分割場景;
24)為分割的每個場景建立前向索引表; 25)對所有文本進(jìn)行分詞后,為每個詞建立其到關(guān)鍵詞表的倒排索引; 26)進(jìn)行視頻片段檢索時,首先對查詢字符串進(jìn)行分詞,提取其中的關(guān)鍵詞; 27)根據(jù)其編號在倒排索引表中查找包含它的前向索引表,如果多個前向索引表
中包含所有的關(guān)鍵詞,則此時將這些前向索引表中每個關(guān)鍵詞的詞頻相加作為衡量查詢串
與場景視頻片段相關(guān)度的標(biāo)準(zhǔn),該值越高相關(guān)性越高;如果前向索引包含的關(guān)鍵詞數(shù)量不
等,則包含的關(guān)鍵詞越多的其與查詢串的相關(guān)度越高,取相關(guān)度最高的視頻片段作為查詢結(jié)果。 所述的聯(lián)合字幕和視頻圖像信息進(jìn)行場景索引的方法,針對不包含字母的場景進(jìn)行必要的人工標(biāo)注或添加說明。 本發(fā)明所采用方法基于以下觀察結(jié)果某條字幕呈現(xiàn)時間段內(nèi)的視頻幀一般不出現(xiàn)場景切換點,這一現(xiàn)象的依據(jù)是場景作為一個完整的語義單元它所包含的對白具有完整性?;谶@一假設(shè),可以天然地切分出每條字幕持續(xù)時間段內(nèi)視頻幀作為進(jìn)行場景聚簇的最小單元。獲得進(jìn)行場景聚簇的最小單元后,抽取某些特殊的幀作為該視頻單元集合的關(guān)鍵幀,通過比較若干個相鄰最小單元關(guān)鍵幀的相似性可判定這些最小單元是否屬于同一場景。關(guān)鍵幀的相似性利用圖像的SIFT特征進(jìn)行判斷。SIFT (Scale Invariant FeatureTransform,尺度不變特征變換)算子所獲得的圖像SIFT特征向量對于圖像的尺度縮放、旋轉(zhuǎn)、平移以及一定程度的仿射和光照變化具有良好的不變性,同時由于包含了豐富的圖像內(nèi)容信息SIFT特征具有很強的特殊性,對圖像差異敏感區(qū)分能力強。由于與其他圖像特征算子相比優(yōu)勢明顯,雖然SIFT算子提出時間不長,但已在圖像檢索、計算機視覺等領(lǐng)域產(chǎn)生了廣泛影響。如果相鄰字幕屬于同一場景,則由于屬于同一場景的視頻圖像之間可能具有相似性如存在同樣的對象或背景等,通過提取相鄰字幕所對應(yīng)最小單元所包含關(guān)鍵幀圖像的SIFT特征,利用SIFT特征強勁的特征點匹配能力即可判定其相似性。通過上述方式可對字幕所屬的場景進(jìn)行基本的劃分,但是由于電影視頻攝制方法的多樣性,僅通過視頻圖像本身的相似性進(jìn)行場景分割是不夠的,例如同一場景中的遠(yuǎn)景和近景圖像可能并沒有 相似性,因此,本發(fā)明在上述基本劃分的基礎(chǔ)上通過分析相鄰字幕文本之間的相關(guān)性對基 本劃分作進(jìn)一步精化。將字幕劃分到不同的場景后,根據(jù)場景所包含字幕的時間特征即可 抽取出視頻場景片段,但是這種抽取方式不是無縫的——不同場景之間的視頻幀可能被遺 漏(因為不同字幕在時間上有一定的呈現(xiàn)間隔),為達(dá)到無縫的場景片段抽取還必須確定 相鄰場景之間的切換點。 由于SIFT特征具有多量性特點,例如對于隨機選取的一副640X272像素的視頻 圖像可產(chǎn)生上萬個關(guān)鍵點百萬個特征值,為避免"維數(shù)災(zāi)難",需要使用諸如主成分分析、非 負(fù)矩陣分解或小波變換等方法對特征向量進(jìn)行降維。在特征矩陣規(guī)模很大時,降維運算也 需要消耗大量的時間,為了加快處理速度特征矩陣規(guī)模不應(yīng)太大。為此,本發(fā)明不直接對視 頻關(guān)鍵幀圖像計算SIFT特征,而是首先對圖像進(jìn)行提升小波變換,之后只對若干子帶圖像 計算其SIFT特征并作為原始關(guān)鍵幀圖像的SIFT特征。這樣得到的特征矩陣規(guī)模較小(可 通過控制計算SIFT特征的子帶數(shù)控制特征矩陣規(guī)模),無須進(jìn)行降維,從這一點上看,本發(fā) 明方法實際上是前置了降維操作。提升小波變換方法是小波變換的高效實現(xiàn)方法,它極大 地降低了小波變換的計算復(fù)雜性和存儲器容量需求,具有快速、可進(jìn)行同址運算以及不需 要進(jìn)行傅立葉變換等優(yōu)點,由于其對傳統(tǒng)小波變換的巨大創(chuàng)新,被稱為第二代小波變換,這 也是本發(fā)明選擇其進(jìn)行降維操作的原因。 本發(fā)明的優(yōu)點在于,本發(fā)明給出了一種全新的聯(lián)合字幕和視頻圖像信息進(jìn)行場景 分割與索引的方法,該方法摒棄了耗時且不夠準(zhǔn)確的鏡頭分割過程,融合視頻圖像的相似 性與字幕文本的相關(guān)性對電影視頻進(jìn)行場景片段分割,不僅獲得了較高的準(zhǔn)確率,而且直 接使用字幕文本所包含的關(guān)鍵字對視頻片段進(jìn)行標(biāo)注避免了煩瑣的人工標(biāo)注。
的 圖1為聯(lián)合字幕和視頻圖像信息進(jìn)行場景分割與索引方法的流程示意圖; 圖2為關(guān)鍵幀圖像子帶選取示意圖; 圖3為子帶圖像SIFT特征抽取流程圖; 圖4為高斯差分(DoG)尺度空間示意圖; 圖5為基于字幕關(guān)聯(lián)轉(zhuǎn)移圖的場景檢測方法示意圖; 圖6為基于字幕的視頻場景片段前向索引表; 圖7為基于字幕的關(guān)鍵詞倒排索引。
具體實施例方式
本發(fā)明在對電影類視頻進(jìn)行場景片段抽取和索引時,使用了電影視頻圖像和字幕 這兩方面信息,達(dá)到較高精度的視頻場景片段抽取效果,并且可以為所抽取的場景視頻片 段自動匹配對應(yīng)字幕中所包含的關(guān)鍵字作為其索引,從而避免手工標(biāo)注。字幕一般是電影 中的人物對白,它具有三方面的屬性即其在電影中的出現(xiàn)時刻、消失時刻和字幕文本。目前 對于高清DVD電影,其字幕一般以外掛文件的形式隨視頻文件一起發(fā)布,易于獲得;對于內(nèi) 嵌型字幕(字幕文本疊加在視頻圖像上)則可通過視頻OCR技術(shù)提取字幕。每條字幕均包 含該字幕在視頻中的出現(xiàn)和消失時間,本發(fā)明正是通過利用這些時間信息結(jié)合視頻圖像特 征以及字幕文本的相關(guān)性對視頻場景片段進(jìn)行抽取。
下面,結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步地描述。
1總體流程 附圖1是本發(fā)明提出的基于字幕相關(guān)性和視頻圖像SIFT特征的電影場景片段抽 取與索引方法的總體流程框圖。所包含的主要處理步驟如下1)抽取每條字幕持續(xù)時間段 內(nèi)的視頻關(guān)鍵幀集合;2)對所抽取的關(guān)鍵幀圖像進(jìn)行提升小波變換,獲得子帶圖像;3)根 據(jù)一定規(guī)則選取若干子帶圖像進(jìn)行SIFT特征提取,作為關(guān)鍵幀圖像的特征向量;4)采用雙 向SIFT關(guān)鍵點匹配方法判定關(guān)鍵幀圖像的相似性;5)根據(jù)電影拍攝制作規(guī)則利用關(guān)鍵幀 之間的相似性判定若干相鄰字幕的場景歸屬關(guān)系;6)利用相鄰字幕在語義、詞形和時間等 方面的相關(guān)性對進(jìn)一步確定字幕和場景的歸屬關(guān)系;7)基于字幕提供的時間信息結(jié)合圖 像SIFT特征對視頻進(jìn)行無縫的場景片段分割;8)提取場景片段所對應(yīng)字幕文本的關(guān)鍵詞 作為其索引。下文對上述過程進(jìn)行具體描述。
2抽取字幕對應(yīng)的關(guān)鍵幀 稱一部電影視頻文件為V,假設(shè)V所包含的所有字幕為集合{Dn D2, ... , Di,...,
Dj,集合中的元素Di(l《i《m)表示按順序出現(xiàn)的第i個字幕為一個四元組{DIi, DBi, DEi,DCj,DIi為字幕的編號(按其在視頻中的出現(xiàn)順序),DBi為字幕在視頻中出現(xiàn)的時間, DEi為字幕在視頻中的結(jié)束時間,是字幕所包含的文本;V所包含的視頻幀序列為集合 (Fp&, ,F(xiàn)i, . ,F(xiàn)J ,集合中的元素FJ1《i《n)為按順序出現(xiàn)的第i個視頻圖像,視 頻的幀率假設(shè)為R幀/秒,則T秒時刻對應(yīng)的視頻幀編號N可用下式計算iV = |7X及」+ 1 , 由此可得字幕Di所對應(yīng)的視頻幀序列集合為FDi = {Fp, Fp+1,…,F(xiàn)p+k, . . . , Fq—p fq},其中
起始幀編號/ = L"Ax及」",結(jié)束幀編號f L必'^」"。由于視頻中的對象在字幕Di的 持續(xù)時段內(nèi)可能會有運動,這種運動可能導(dǎo)致FDi中視頻圖像的某些區(qū)域在某時刻被遮擋, 這些被遮擋的區(qū)域有可能存在SIFT關(guān)鍵點,因此不能僅在FDi選擇某一幀作為FDi的關(guān)鍵 幀。本發(fā)明選擇FDi中具有較長時間距離(這樣有利于暴露更多的SIFT關(guān)鍵點)的起始 幀、結(jié)束幀以及中點位置的幀作為字幕Di的對應(yīng)的關(guān)鍵幀集合記為KDi = {Fp,F(xiàn)p+(q—p)/2,F(xiàn)q}。 為便于敘述下文記字幕Di的三個關(guān)鍵幀為BDi, MDi和ED" KDi = {BD^ MD" EDj ,所有字幕 對應(yīng)的關(guān)鍵幀集合為(叫,KD^... ,KDi,... ,KD丄如果關(guān)鍵幀集合KDi和KDw中的某兩個 關(guān)鍵幀匹配則認(rèn)為KDi和KDi+1匹配,此時認(rèn)為字幕Di和Di+1是屬于同一場景中的字幕,判 定關(guān)鍵幀是否匹配的方法將在后文給出。
3關(guān)鍵幀圖像SIFT特征提取 為判定不同關(guān)鍵幀集合中某兩個關(guān)鍵幀之間的匹配關(guān)系,首先要抽取關(guān)鍵幀的 SIFT特征。本節(jié)給出進(jìn)行特征抽取的詳細(xì)過程。
3. 1基于提升小波變換的圖像子帶抽取 由于直接對關(guān)鍵幀圖像進(jìn)行SIFT特征提取,會導(dǎo)致特征維數(shù)太高,導(dǎo)致不必要的 計算資源浪費,因此使用提升小波變換提前對原始圖像進(jìn)行"降維"操作,并根據(jù)一定規(guī)則 選取適當(dāng)數(shù)量的子帶圖像計算其SIFT特征。提升小波變換過程可分為三步分裂、預(yù)測和 更新。我們以x[m,n]表示一個二維離散圖像信號。為了實現(xiàn)對該二維信號的小波分解,不 失一般性,我們假定先在水平方向?qū)υ撔盘栠M(jìn)行一維小波分解,然后在垂直方向再進(jìn)行一 次一維小波分解。如上所述采用提升方案后,每個一維小波變換過程可以被分解為分裂、 預(yù)測和更新這三個步驟。下面我們給出這幾個變換步驟的詳細(xì)說明
1)分裂將集合x[m,n]中元素進(jìn)行奇偶分組,得到奇數(shù)集x。[m,n]和偶數(shù)集Xe[m,
n],其中x。[m, n] = x[2m+l, n],而xe[m, n] = x[2m, n]。 2)預(yù)測利用xe [m, n]預(yù)測x。 [m, n],預(yù)測過程可用下式表示: 尸00[附,"]=2^,^[附,"+ 。 (1) 其中P是預(yù)測算子,定義了由預(yù)測點周圍的若干偶數(shù)點通過組合獲得預(yù)測值的算 法,一般情況下P是一個高通濾波器,Pi為濾波器系數(shù)值;利用預(yù)測值可將x。[m, n]用預(yù)測 殘差表示,預(yù)測殘差計算方法如下[w,w] = ;c。|>z,"] —P(X)[m,"] (2) 如果信號之間的相關(guān)性足夠強,所設(shè)計的預(yù)測算子合理,可以預(yù)期x。d[m, n]的能 量分布比x。[m, n]低很多;顯然此時集合x[m, n]可由xe[m, n]與x。d[m, n]重構(gòu)。
3)更新利用x。d[m,n]來更新xjm, n],可用公式表示如下
jce"|>j,"〗=;ce[w,"〗+ f/(xf )[w,ra] (3)
其中U是更新算子,可定義如下"<Xd)[w,"] = g^x。rf[m," + /| (4) 由于更新的目的是為了保證xjm,n]與x[m,n]具有相近的均值,因此更新算子U 是一個低通濾波器,&是濾波器的系數(shù)值。Pi和Uj的值在本實例中采用JPEG2000定義的 5/3小波的系數(shù)值,但是顯然采用其它系數(shù)值也在本專利保護(hù)范圍內(nèi)。對圖像矩陣x[m, n] 進(jìn)行一次小波變化并解交織后得到四個圖像子帶LL1、 HL1、 LH1和HH1,如附圖2所示,對LL1 子帶可再進(jìn)行新一輪的小波變換得到LL2、 HL2、 LH2和HH2,該過程可重復(fù)進(jìn)行直至達(dá)到指定 的分辨率等級。圖像子帶中,LL子帶在水平和垂直方向都平滑逼近原圖像,HH子帶在水平 和垂直方向細(xì)節(jié)逼近原圖像。子帶圖像的選取方法如下l)隨機選取某個關(guān)鍵幀圖像,對 該圖像進(jìn)行提升小波變換;2)取變換后LLK(R為變換次數(shù))子帶,采用3. 2給出的方法計算 該子帶的SIFT特征,如果產(chǎn)生的特征點數(shù)量大于閾值H,則對LLK的子帶圖像繼續(xù)進(jìn)行提升 小波變換并轉(zhuǎn)步驟2,否則結(jié)束并選取LLK和HH1子帶作為該部電影視頻進(jìn)行SIFT特征抽 取的圖像區(qū)域。上述子帶圖像選取方法保證了后續(xù)步驟中所獲得SIFT特征點數(shù)量維持在 一定規(guī)模。 3. 2子帶圖像SIFT特征生成 SIFT特征的實質(zhì)是圖像中SIFT關(guān)鍵點的特征向量,首先要確定子帶圖像中關(guān)鍵 點位置,然后利用關(guān)鍵點鄰域內(nèi)像素的梯度分布特征生成關(guān)鍵點的特征向量。子帶圖像 SIFT特征抽取流程框圖如附圖3所示,下面對每個步驟進(jìn)行具體介紹。
A.子帶圖像像素矩陣歸一化 對圖像進(jìn)行提升小波變換后,圖像顏色分量值的動態(tài)范圍有所增大,另一方面三 個顏色分量之間存在較強的相關(guān)性沒有必要對每個顏色分量都進(jìn)行SIFT特征提取,因此 必須對子帶圖像三個顏色分量矩陣進(jìn)行歸一化處理,以便于后繼處理。設(shè)子帶圖像塊為I, I.R、 I.G和I.B分別表示子帶圖像塊的RGB顏色分量矩陣,則可由下述公式獲得進(jìn)行子帶 圖像塊SIFT特征提取的目標(biāo)矩陣I. T :
/J = !_(/ / + 255)/2」
/<formula>formula see original document page 10</formula>
I. T = [I. R+I. G+I. B] / (255 X 3) 后繼步驟基于目標(biāo)矩陣I.T進(jìn)行,從該矩陣提取的特征向量作為I的特征向量。
B.建立尺度空間 根據(jù)圖像頻域增強理論,設(shè)定義如公式6所示的二維高斯濾波函數(shù)(其中o表示 高斯函數(shù)的方差), <formula>formula see original document page 10</formula>(6) 則子帶圖像目標(biāo)矩陣I. T(x, y)在不同尺度空間下的高斯圖像可以通過圖像與二 維高斯函數(shù)進(jìn)行巻積獲得,計算公式如下<formula>formula see original document page 10</formula> (7) 稱o為尺度空間因子,給定一個o就決定了一個高斯濾波器,用該濾波器對圖像 進(jìn)行濾波得到的尺度為Q的尺度空間圖像。DoG(Difference of Gaussians)濾波算子經(jīng) 常被用于圖像邊緣檢測,其定義如下 D(x, y, o ) = (G(x, y, ko )-G(x, y, o ))承I(x, y) = "x, y, ko )-"x, y, o ) (8) 為有效檢測出子帶圖像中的關(guān)鍵點,需要首先檢測DoG尺度空間中的局部極值 點,因此必須建立DoG尺度空間。根據(jù)公式8,相鄰尺度空間中的高斯圖像相減即可得到DoG 尺度空間圖像。公式8中k表示相鄰的兩副圖像之間的尺度比例,如果當(dāng)前的高斯圖像的 尺度為o ,則下一層高斯圖像的尺度參數(shù)為k。。假設(shè)尺度空間為n階,每一階有s層,為了 能夠在每一階的s層圖像中檢測極值點,需要產(chǎn)生s+2幅高斯差分圖像,因此共需產(chǎn)生s+3 副高斯圖像,這些圖像的尺度參數(shù)以k遞增,一般取s為3。當(dāng)同一階的高斯圖像全部產(chǎn)生 時,就跳到下一階的尺度空間中,下一階高斯尺度空間的第一幅圖像是當(dāng)前階尺度參數(shù)為 2o的高斯圖像通過l : 2亞采樣生成的,當(dāng)前階圖像的長度或?qū)挾饶骋恢禃r停止創(chuàng)建下一 階尺度空間。附圖4是DoG尺度空間的一個示意圖。
C. DoG尺度空間極值檢測 得到所有的高斯差分圖像后,通過在同一階尺度空間中比較圖像(第2至s+1層 圖像)每個像素點與它臨近26個像素點的值確定該像素是否為局部極值點,局部極值點構(gòu) 成了 SIFT候選關(guān)鍵點集合。假設(shè)某一階尺度空間尺度為o圖像像素點P的坐標(biāo)為(x,y, o),如果P的值P(x,y, o)大于其8-鄰域像素點的值且滿足公式9,則P為極值點。附圖 4中橢圓所在像素點即為P點所要比較的像素點。
P(x, y, o ) > P(x+i, y+i, k—1 o ) , i = _1,0, 1
(9)
P(x, y, o ) > P(x+i, y+i , k o ) , i G _1 , 0, 1
D.關(guān)鍵點的精確定位 對于上一步驟選出的極值點P(x, y, o )如果能夠通過以下兩步檢測首先該極值 點不是低對比度的點(關(guān)鍵點與周圍的點有必須顯著性差異),其次它不是邊緣點,則將該 極值點選取為SIFT關(guān)鍵點。
為找到低對比度的極值點,首先將公式8定義的DoG尺度空間函數(shù)D(x, y,。)使 用二次泰勒級數(shù)展開為 <formula>formula see original document page 11</formula> 其中D是極值點處的值,D的導(dǎo)數(shù)使用極值點處鄰域像素差分代替。X= (x,y, o) t是該極值點坐標(biāo)與所對應(yīng)的關(guān)鍵點之間的坐標(biāo)偏移量。對公式10求一階導(dǎo)數(shù),并令其等 于零,即可得函數(shù)D(X)的極值點X:
<formula>formula see original document page 11</formula> 將公式1—代回公式10可得<formula>formula see original document page 11</formula>
如果公式12求得的X的某一維的值超過0. 5,意味著極值點更接近于另一個像 素點,此時將極值點變更到該像素點,并重新計算公式11。求得后X,代入公式12后,計算 |D(X) 1,如果該值小于0.03則認(rèn)為P是低對比度的點,不選為關(guān)鍵點。將偏移X加到極值 點P的坐標(biāo)中作為關(guān)鍵點的精確位置坐標(biāo)。 DoG算子具有較強的邊緣響應(yīng),因此沿著邊緣的像素點即便對比度不高也很容易 被錯判為極值點,如果將這種極值點選為關(guān)鍵點則關(guān)鍵點對噪聲非常敏感。為了獲得穩(wěn)健 的關(guān)鍵點,還必須去除位于圖像邊緣的極值點。 一個DoG圖像中不穩(wěn)定的極值點在跨越邊 緣處有較大的曲率但在垂直邊緣方向則曲率較小。極值點P的這兩個曲率可以通過計算一 個2 X 2的Hessian矩陣H獲得 》 尸<formula>formula see original document page 11</formula> H中的二階偏導(dǎo)數(shù)通過對P點鄰域像素做二階差分獲得。H是一個實對稱二維矩 陣,因此具有兩個實特征值,其中幅值大的特征值所對應(yīng)的特征向量代表著P點曲率較大 的方向,幅值小者代表P點曲率較小的方向,通過求H這兩個特征值之間的大小對比關(guān)系即 可確定這兩個曲率的對比關(guān)系。用a表示H較大的特征值,13表示H較小的特征值,則根 據(jù)實對稱矩陣的跡為特征值之和以及矩陣行列式性質(zhì)有下列關(guān)系成立
Tr(H) = Pxx+Pyy = a+p (14)
Det(H) = PxxPyy_(Pxy)2 = a 13 令r表示大特征值與小特征值之間的比值,則有a = r|3 ,此時等式15的值僅依 賴于特征值之間的比值, <formula>formula see original document page 11</formula> 當(dāng)r = 1時等式取得最小值,r值增大等式的值也隨之增大。為檢查極值點P兩
個曲率之間的比值是否小于某一門限值r,此時只要檢測H是否滿足下列公式即可。 <formula>formula see original document page 11</formula>
通過這種方法不超過20次的浮點運算即可判定極值點是否為邊緣點,取r為10, 即將大小曲率之比超過10的極值點過濾掉。
E.生成關(guān)鍵點特征向量 本步驟生成關(guān)鍵點P(x,y, o)的特征向量。為生成特征向量,首先在找到最接近 尺度o的同一階高斯平滑圖像(不是DoG圖像),假設(shè)該圖像為L(x,y)。對L(x,y)中的 每個像素點采用下列公式計算其梯度大小及方向 w(x, = V(丄O, y+1)—丄O, _y—i)2 + (丄O+1, ;0—丄O _ 1, >02 (17) 9 (x, y) = tan—1 ((L (x, y+1) _L (x, y_l)) / (L (x+1 , y) _L (x_l , y))) 然后對于每一個關(guān)鍵點,采用梯度直方圖統(tǒng)計法確定其梯度的大小和方向。統(tǒng)計
關(guān)鍵點臨近一個窗口內(nèi)取所有鄰域像素的梯度方向梯度直方圖的范圍為0至360度,其中
每10度作為一個方向,總共36個方向。將統(tǒng)計得到的直方圖峰值所在的方向作為為關(guān)鍵點
的方向。關(guān)鍵點的方向確定后,為了確保旋轉(zhuǎn)不變性,首先將坐標(biāo)軸旋轉(zhuǎn)為關(guān)鍵點的方向,
以關(guān)鍵點為中心,取16X16的窗口,并將這個窗口切分為16個4X4的子窗口,在每個子窗
口中計算8個方向的梯度方向直方圖,統(tǒng)計每個方向的累加值,由此形成一個包含各個8個
方向向量的種子點。使用16X16的窗口內(nèi)的16個4X4的子塊的種子點所包含的向量作
為關(guān)鍵點的特征向量,每個關(guān)鍵點有16X8 = 128維的特征向量。 4關(guān)鍵幀相似性衡量 假設(shè)存在兩個關(guān)鍵幀圖像Bi和Bj, Bi和Bj被選取用于計算SIFT特征的圖像子 帶分別為{LLA ffi0和{LL/, HH/},各子帶對應(yīng)的SIFT關(guān)鍵點集合L1^(K) 、 HH^K)、 LL/(K)和HH/(K)。假設(shè)對于關(guān)鍵點集合X和Y,定義Xi G X禾P y」G Y的歐氏距離
《=Vn-&「,假設(shè)&在集合y中找到的距離最近的關(guān)鍵點為yP距離為dip,次近點
為y,距離為di,,如果存在(dip/diq) > 、,則稱A中關(guān)鍵點Xi與B中關(guān)鍵點yp匹配記為 Xi —yp, ^為小于1的常數(shù)。為了增強關(guān)鍵點匹配的魯棒性,減少錯誤匹配,本發(fā)明采用了 雙向關(guān)鍵點匹配方法,稱關(guān)鍵點Xi G X和yj G Y相似,當(dāng)且僅當(dāng)Xi — yj同時yj — Xi。如 果關(guān)鍵幀圖像低頻子帶關(guān)鍵點集合LLiE(K)中有A個元素在集合LL/(K)找到相似的關(guān)鍵 點,且存在下列關(guān)系;i/Min{LLT(K),l4(K)} > s2 ,則稱圖像子帶LLj與圖像子帶LL/相似, e 2為小于1的常數(shù)。使用類似方法判斷HH 是否與HH/相似,如果兩個圖像子帶都相似, 則關(guān)鍵幀圖像Bi和Bj相似,用A s A表示這種關(guān)系。
5基于關(guān)鍵幀相似性進(jìn)行字幕場景歸屬關(guān)系分析 本部分給出判定若干相鄰字幕是否屬于同一場景的方法。假設(shè)字幕Di和Dj(i〈j) 根據(jù)第2部分介紹的方法分別得到關(guān)鍵幀集合KDi = {KFn,KFi2,KFi3}和KD」={KF^KF^, KFj3}, 三《巧,),其中l(wèi)《k《3,1《1《3 (18) 如果公式18成立則字幕Di和Dj屬于同一場景,此時稱Di可關(guān)聯(lián)到Dj用Di □ Dj 表示,反之用Di口 lDj表示。為加快運算過程,本發(fā)明給出了一種不需要計算所有關(guān)鍵幀 SIFT特征的判斷方法,具體步驟如下 步驟l :使用第3部分介紹的方法,計算KFik(k的初始值為1)的SIFT特征,設(shè)置1 = l,轉(zhuǎn)下一步驟; 步驟2 :使用第3部分介紹的方法,計算KFjj的SIFT特征,使用第4部分介紹的方 法判斷是是否有《巧4 =《巧,成立,如果成立則記錄Di □ Dj,結(jié)束程序,否則轉(zhuǎn)下一步驟;
步驟3:設(shè)置1 = l+l,如果l不大于3轉(zhuǎn)步驟2,否則設(shè)置k二k+l,如果k的值不 大于3轉(zhuǎn)步驟l,否則設(shè)置Di口 lDj,結(jié)束程序。 電影視頻中同一場景中的鏡頭具有一下幾種組合關(guān)系1)連續(xù)性鏡頭,例如運動 物體在場景中不同位置的鏡頭;2)鏡頭和反轉(zhuǎn)鏡頭,例如多個人物之間對話時鏡頭可以在 不同的說話人之間切換;3)內(nèi)嵌(插入)鏡頭,這種情況是指一個鏡頭在沒結(jié)束前插入另 一個鏡頭,在插入鏡頭結(jié)束后又回到原來的鏡頭,例如回憶或聯(lián)想鏡頭的插入就屬于這種 情況。受電影視頻這種拍攝制作規(guī)則影響,對于在連續(xù)性鏡頭中的相鄰字幕,通過比較其關(guān) 鍵幀之間的相似性即可判定其是否屬于同一場景。對于后兩種情況,相似性鏡頭是交錯分 布的,相鄰字幕的關(guān)鍵幀不一定相似,但具有一定間隔的不同字幕之間的關(guān)鍵幀可能相似, 例如鏡頭在不同對話人之間周期性切換時就是如此,因此要對多條相鄰字幕進(jìn)行相似性分 析?;谝陨戏治?,本發(fā)明提出了一種基于字幕關(guān)聯(lián)轉(zhuǎn)移圖的視頻場景分割方法。對于字 幕Di和Dj (i < j),如果有Di □ Dj,則稱字幕Di可轉(zhuǎn)移到字幕Dj,此時創(chuàng)建一條從Di指向 Dj的弧線Di,j,該弧線覆蓋的所有字幕都認(rèn)為屬于同一場景,如附圖5中由于存在弧線Di,j, 因此字幕Di Di+1 Di+2 Dj被判定為屬于同一場景。如果不同弧線之間存在交叉,則要進(jìn)行弧 線的合并,即進(jìn)行同一場景字幕的合并。例如在附圖5中弧線和Di+2,j+2交叉,進(jìn)行合并 后得到新的弧Di,w,Di,w所覆蓋的字幕都屬于同一場景。下面給出本發(fā)明場景分割的具體 步驟 步驟1 :在視頻中才抽取字幕關(guān)鍵幀集合{KDp KD2,...,叫,...,KDm},設(shè)i = 1, 窗口 F的開始位置p = i+l,轉(zhuǎn)下一步驟; 步驟2 :對字幕Di使用KDi中的關(guān)鍵幀考察與從p開始后繼一個窗口 F內(nèi)所有字 幕的關(guān)聯(lián)性,如果窗口 F內(nèi)有多個字幕與Di相似,取F內(nèi)編號最大字幕設(shè)為Dj作為Di的最 終匹配字幕,分別標(biāo)記Di和Dj為弧線Di,j的起點和終點,設(shè)置i = i+l,p = j+1 ;如果Di在 窗口 F內(nèi)沒有找到可關(guān)聯(lián)的字幕,設(shè)置i = i+1 , p = max {i+1 , p};如果p《n轉(zhuǎn)步驟2,否 則轉(zhuǎn)步驟3 ; 步驟3:弧線合并
—、設(shè)置k二l,轉(zhuǎn)二; 二、檢查字幕Dk是否是某條弧線的起點,如果是轉(zhuǎn)三,否則令k = k+l,轉(zhuǎn)二 ;
三、獲取與Dk對應(yīng)的弧線終點字幕設(shè)為Sy令K二k,L二 1,h二K+l轉(zhuǎn)四;
四、如果h > L轉(zhuǎn)五,否則檢查字幕Dh是否是另一弧線的起點,如果是設(shè)該弧線的 終點設(shè)為Dj設(shè)置L = j+l, h = h+l轉(zhuǎn)四,否則設(shè)置h = h+l轉(zhuǎn)四; 五、設(shè)置K和L之間的字幕屬于同一場景,令k = L+l,如果k《n轉(zhuǎn)二,否則結(jié)束。
6基于字幕相關(guān)性進(jìn)一步確定字幕場景歸屬關(guān)系 電影一般實景拍攝,由于自然世界的復(fù)雜性和多樣性,僅依靠視頻圖像的相似性 對字幕的關(guān)聯(lián)關(guān)系進(jìn)行分析是不夠的,某些同一場景中的字幕其對應(yīng)的視頻幀可能完全不 同,因此還必須結(jié)合更高層次的電影語義信息以獲得更為精確的場景分割效果。字幕文本 作為電影高層語義信息的重要組成部分,蘊涵了很多進(jìn)行字幕關(guān)聯(lián)分析的線索。假設(shè)字幕Di和Dw被第五部分介紹的方法判定為Di □ lDw,本部分對存在這種關(guān)系的相鄰字幕從字
幕相關(guān)性的角度進(jìn)一步對其是否關(guān)聯(lián)進(jìn)行判斷。本發(fā)明將相鄰字幕的相關(guān)性定義為一個三
元函數(shù)F(a, e, Y),其中a代表相鄰字幕的主題相關(guān)性,相鄰字幕文本所涉及的主題一
致性越高則字幕的相關(guān)性越高,顯然談?wù)撏恢黝}的相鄰字幕一般是屬于同一場景的;P
代表相鄰字幕文本的詞形相似性,字幕文本是電影中人物的說話內(nèi)容,作為口語上下句之
間經(jīng)常會有字詞重復(fù),因此相鄰字幕之間字詞重合度越高,其相關(guān)性也越大;Y代表相鄰
字幕的時間接近性,一般而言,相鄰字幕出現(xiàn)的間隔時間越短,其相關(guān)性越強。定義F(a ,
P , Y)的值為0或l,如果為1則表示相鄰字幕關(guān)聯(lián),其取值規(guī)則如下F中的三個自變量
任意一個為1則F的值為l,否則F的值為0。 F中三個自變量的取值范圍也為0或l,其取
值方法介紹如下。
自變量a取值方法 假設(shè)字幕Di和Di+1對應(yīng)的字幕文本為和DCi+1,當(dāng)下列條件之一成立時a取值 為1否則為0。條件l:DCi包含疑問詞集合T中的任一元素,集合T二 H十么,怎么,怎樣, 誰,啥,咋,明〖,多少,何如,如何,為何,何不,呢,嗎};條件2 :DCi+1以連詞集合Q中的任一元 素作為起始字符,集合9= {還,抑或,而,但,才,又,于是,然后,接著,也,另,何況,況且,就 是,只,卻,所以,因而,便,或者,要么,一方面,或許,也許,可能K
自變量|3取值方法 對DCi進(jìn)行分詞,抽取其中的實詞即名詞,動詞,形容詞,副詞,代詞,數(shù)詞按從左 到右排列得實詞集合X二 {Xl, x2, ..., xJ,用同樣的方法獲得DCw的實詞集合Y二 {yi, y2, ... , yn}。統(tǒng)計X和Y相同關(guān)鍵詞的數(shù)量,如果數(shù)量超過不為0則P取值為1否則為0
自變量y取值方法 假設(shè)字幕Di在視頻中的消失時刻為DEi,字幕D^在視頻中出現(xiàn)時刻為DBw,則這 兩個相鄰字幕的出現(xiàn)間隔為Pi,i+1 = DBi+1-DEi,取以Di為中心的長度為L的窗口內(nèi)相鄰字幕 平均出現(xiàn)時間間隔= — D£,+A》/(丄+1) ( 19 ) 如果有Pi,w〉 e3*E(Pi,i+1)則取Y值為0否則為1, h為常數(shù),根據(jù)統(tǒng)計取其 值為10。 7視頻無縫場景片段分割 對字幕進(jìn)行關(guān)聯(lián)分析后,字幕被分割為多個關(guān)聯(lián)字幕集合(集合里的字幕屬于同 一場景),假設(shè)第i個關(guān)聯(lián)字幕集合為{Dk, Dk+1, . . . , Dpn 屬于場景Sp,以[DBk, DEj表 示該字幕集合對應(yīng)的視頻片段(DBk為視頻段的開始時刻,DEu為視頻段的結(jié)束時刻);第 i+1個關(guān)聯(lián)字幕集合為{D1+1, D1+1, . . . , Dp—p Dp} 屬于場景Sq,以[DB1+1, DEP]表示該字幕 集合對應(yīng)的視頻片段,由于DEi與DB1+1存在時間間隔,本專利稱[DEy DE1+1]視頻段為場景 切換過渡區(qū)域,本部分將給出在該過渡區(qū)域中尋找場景切換點的方法。由于,電影中的某些 場景可能不包含對白即沒有字幕,這些場景對應(yīng)視頻片段顯然位于場景切換過渡區(qū)域中, 此時還必須分割出該種類型場景片段。抽取過渡區(qū)域[DB1+1,DEP]中的視頻幀序列設(shè)為{巳, F2, . . . , Fn—p Fn},使用第4部分介紹的方法判定& (1《i < n)和Fi+1的相似性,如果判定 為不相似,那么認(rèn)為&和Fi+1之間存在一個場景切換點b, b所對應(yīng)的時刻為DB1+1+(i-l)/ R,假設(shè)最終得到的切換點序列為bp b2, . . . , bN+1(N > 0),則場景Sp的結(jié)束時刻為lv場景Sq的開始時刻為bN+1,當(dāng)N > 0時Sp與Sq之間所包含的每個無對白場景對應(yīng)的視頻片段為[bi, bi+1] (1《i《N)。對所有場景切換過渡區(qū)域進(jìn)行分析后,即獲得視頻所包含場景片段的精確分割時間。 8生成場景視頻片段索引 設(shè)對視頻進(jìn)行無縫分割后得到場景視頻片段集合{S15 S2, . . . , Sn—p Sn},其中包含字幕的場景可直接使用字幕中的文本作為高層語義信息,對其中不包含字幕的場景進(jìn)行必要的人工標(biāo)注或添加說明(如有必要也可對包含字幕的視頻片段添加必要說明),如此每個場景視頻片段Si都有相應(yīng)的高層語義文本,將這些文本作為檢索相應(yīng)視頻片段的索引信息。假設(shè)Si所對應(yīng)的高層語義文本為Ti,對文本Ti進(jìn)行分詞處理,并計算每個詞在Ti的詞頻,為每個場景Si建立如附圖6所示的前向索引表,其中TableID為表的編號,WordID是詞的編號,F(xiàn)requency是詞頻。對所有文本進(jìn)行分詞后,為加快檢索速度為每個詞建立其到關(guān)鍵詞表的倒排索引,如附圖7所示,每個關(guān)鍵詞可能在多個關(guān)鍵詞表中出現(xiàn)。進(jìn)行視頻片段檢索時,首先對查詢字符串進(jìn)行分詞,提取其中的關(guān)鍵詞,假設(shè)所獲得的關(guān)鍵詞集合為{、,k2,. . . ,kn—,對每個關(guān)鍵詞ki根據(jù)其編號在倒排索引表中查找包含它的前向索引表,如果多個前向索引表中包含所有的關(guān)鍵詞ki,則此時將這些前向索引表中每個ki的詞頻相加作為衡量查詢串與場景視頻片段相關(guān)度的標(biāo)準(zhǔn),該值越高相關(guān)性越高,如果前向索引包含的關(guān)鍵詞數(shù)量不等,則包含的關(guān)鍵詞越多的其與查詢串的相關(guān)度越高,取相關(guān)度最高的視頻片段作為查詢結(jié)果。 最后所應(yīng)說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參照實施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
一種聯(lián)合字幕和視頻圖像信息進(jìn)行場景分割的方法,其特征在于,該方法將每條字幕持續(xù)時間段內(nèi)視頻幀集合作為進(jìn)行場景聚簇的最小單元,包括如下步驟11)獲得進(jìn)行場景聚簇的最小單元后,抽取至少3個或以上不連續(xù)的視頻幀作為該條字幕的視頻關(guān)鍵幀集合;12)通過比較若干個相鄰最小單元關(guān)鍵幀的相似性,再結(jié)合字幕關(guān)聯(lián)轉(zhuǎn)移圖進(jìn)行連續(xù)字幕與視頻場景之間的歸屬關(guān)系劃分;所述的字幕關(guān)聯(lián)轉(zhuǎn)移圖即對于字幕Di和Dj(i<j),如果有Di和Dj所對應(yīng)的視頻關(guān)鍵幀集合中存在相似的關(guān)鍵幀,則稱字幕Di可轉(zhuǎn)移到字幕Dj,此時創(chuàng)建一條從Di指向Dj的弧線,該弧線覆蓋的所有字幕都認(rèn)為屬于同一場景,如果不同弧線之間存在交叉,則要進(jìn)行弧線的合并操作。
2. 根據(jù)權(quán)利要求1所述的聯(lián)合字幕和視頻圖像信息進(jìn)行場景分割的方法,其特征在 于,所述的字幕持續(xù)時間段內(nèi)視頻關(guān)鍵幀集合包括起始幀、結(jié)束幀和中點位置的幀。
3. 根據(jù)權(quán)利要求1所述的聯(lián)合字幕和視頻圖像信息進(jìn)行場景分割的方法,其特征在 于,還包括步驟13),如果兩個相鄰字幕的視頻關(guān)鍵幀有兩個或以上相似的,則判斷兩個相 鄰字幕對應(yīng)的視頻幀屬于一個場景。
4. 根據(jù)權(quán)利要求1所述的聯(lián)合字幕和視頻圖像信息進(jìn)行場景分割的方法,其特征在 于,進(jìn)一步包括針對相鄰字幕關(guān)鍵幀圖像不相似的,再進(jìn)一步利用相鄰字幕在語義、詞形或時間方面的相關(guān)性進(jìn)一步確定字幕和場景的歸屬關(guān)系,步驟包括a) 語義相關(guān)性判斷的步驟對于相鄰字幕Di和Di+1如果Di的文本中包含疑問詞或者 Di+1的文本以連詞作為起始字符,則字幕Di和Di+1在語義上屬于同一場景;b) 詞形相關(guān)性判斷的步驟對字幕Di和D^所包含文本分別進(jìn)行分詞并抽取其中的實詞作為關(guān)鍵詞,如果Di和Di+1含有相同的關(guān)鍵詞,則字幕Di和Di+1在所涉及的主題上相近 它們屬于同一場景;c) 時間相關(guān)性判斷的步驟取字幕Di為中心的長度為L的窗口內(nèi)相鄰字幕平均出現(xiàn)時 間間隔,如果字幕Di和Di+1的出現(xiàn)時間間隔與窗口 L內(nèi)字幕平均出現(xiàn)時間之比小于預(yù)定義 的閾值則字幕Di和Di+1在出現(xiàn)時間上較為接近屬于同一場景。
5 根據(jù)權(quán)利要求1所述的聯(lián)合字幕和視頻圖像信息進(jìn)行場景分割的方法,其特征在 于,針對已經(jīng)基于連續(xù)字幕分離出的時間不連續(xù)的兩個相鄰場景,再利用基于字幕提供的 時間信息結(jié)合關(guān)鍵幀相似性方法判斷這段不連續(xù)時間段內(nèi)的視頻關(guān)鍵幀圖像的相似性,根 據(jù)兩個時間相鄰的不相似幀之間存在切換點,依次找到這段不連續(xù)時間段內(nèi)所有切換點, 并找到切換點對應(yīng)的時刻(DBw+(i-l)/R),則可以獲得視頻所包含場景片段的精確分割 時間。
6. 根據(jù)權(quán)利要求1、4或5任一項所述的聯(lián)合字幕和視頻圖像信息進(jìn)行場景分割的方 法,其特征在于,所述的關(guān)鍵幀的相似性利用圖像的SIFT特征進(jìn)行判斷,具體步驟包括首先,要對視頻關(guān)鍵幀進(jìn)行提升小波變換抽取子帶,再對抽取的子帶圖像的三個顏色 分量進(jìn)行歸一化處理,獲得進(jìn)行SIFT特征提取的目標(biāo)矩陣; 然后,基于該目標(biāo)矩陣進(jìn)行子帶圖像SIFT特征提??;最后,利用雙向SIFT關(guān)鍵點匹配方法判定關(guān)鍵幀圖像的相似性,所述的雙向SIFT關(guān)鍵 點匹配方法指如果子帶圖像A中的關(guān)鍵點x可匹配子帶圖像B中的關(guān)鍵點y并且y可匹配到x ;當(dāng)且僅當(dāng)從不同關(guān)鍵幀中選取的低頻和高頻子帶圖像都相似兩個關(guān)鍵幀才相似,子 帶圖像相似的條件是能夠雙向匹配的SIFT關(guān)鍵點數(shù)量達(dá)到所設(shè)置的閾值。
7. 根據(jù)權(quán)利要求6所述的聯(lián)合字幕和視頻圖像信息進(jìn)行場景分割的方法,其特征在 于,所述的SIFT特征提取的步驟包括1) 根據(jù)圖像頻域增強理論和DoG濾波算子,得到高斯圖像并構(gòu)建目標(biāo)矩陣的DoG尺度 空間;2) 得到所有的高斯圖像后,通過在同一階尺度空間中比較圖像每個像素點與它臨近 26個像素點的值確定該像素是否為局部極值點,局部極值點構(gòu)成了 SIFT候選關(guān)鍵點集合;3) 對于上一步驟選出的局部極值點,如果該極值點不是低對比度的點,其次它不是邊 緣點,則將該極值點選取為SIFT關(guān)鍵點;4) 采用梯度直方圖統(tǒng)計方法確定梯度的大小和方向,生成關(guān)鍵點的SIFT特征向量。
8. —種聯(lián)合字幕和視頻圖像信息進(jìn)行場景索引的方法,具體步驟包括21) 獲得進(jìn)行場景聚簇的最小單元后,抽取每條字幕持續(xù)時間段內(nèi)的視頻關(guān)鍵幀集合, 所述的視頻關(guān)鍵幀集合包含字幕持續(xù)時間段內(nèi)的起始幀,結(jié)束幀及中點位置的幀;22) 通過比較若干個相鄰最小單元關(guān)鍵幀的相似性,再結(jié)合字幕關(guān)聯(lián)轉(zhuǎn)移圖進(jìn)行連續(xù) 字幕的場景視頻分割;23) 針對相鄰字幕關(guān)鍵幀圖像不相似的,利用相鄰字幕在語義、詞形和時間方面的相關(guān) 性進(jìn)一步確定字幕和場景的歸屬關(guān)系分割場景;24) 為分割的每個場景建立前向索引表;25) 對所有文本進(jìn)行分詞后,為每個詞建立其到關(guān)鍵詞表的倒排索引;26) 進(jìn)行視頻片段檢索時,首先對查詢字符串進(jìn)行分詞,提取其中的關(guān)鍵詞;27) 根據(jù)其編號在倒排索引表中查找包含它的前向索引表,如果多個前向索引表中包 含所有的關(guān)鍵詞,則此時將這些前向索引表中每個關(guān)鍵詞的詞頻相加作為衡量查詢串與場 景視頻片段相關(guān)度的標(biāo)準(zhǔn),該值越高相關(guān)性越高;如果前向索引包含的關(guān)鍵詞數(shù)量不等,則 包含的關(guān)鍵詞越多的其與查詢串的相關(guān)度越高,取相關(guān)度最高的視頻片段作為查詢結(jié)果。
9. 根據(jù)權(quán)利要求8所述的聯(lián)合字幕和視頻圖像信息進(jìn)行索引的方法,其特征在于,還 包括步驟針對不包含字母的場景進(jìn)行必要的人工標(biāo)注或添加說明。
全文摘要
本發(fā)明涉及一種聯(lián)合字幕和視頻圖像信息進(jìn)行場景分割與索引的方法,其特征在于,每條字幕持續(xù)時間段內(nèi)視頻幀集合作為場景聚簇的最小單元,包括步驟獲得場景聚簇的最小單元后,抽取至少3個或以上不連續(xù)的視頻幀作為該條字幕的視頻關(guān)鍵幀集合;使用雙向SIFT關(guān)鍵點匹配方法比較若干個相鄰最小單元關(guān)鍵幀的相似性,再結(jié)合字幕關(guān)聯(lián)轉(zhuǎn)移圖建立字幕與場景的初始?xì)w屬關(guān)系;對于被判定為不相似的連續(xù)最小聚簇單元利用其對應(yīng)字幕的相關(guān)性進(jìn)一步判斷其是否可以進(jìn)行合并;根據(jù)所確定的字幕場景歸屬關(guān)系進(jìn)行視頻場景抽取。對所抽取的視頻場景片段,使用該片段所包含的字幕文本所生成的前向和倒排索引作為檢索該視頻片段的依據(jù)。
文檔編號G06F17/30GK101719144SQ20091023688
公開日2010年6月2日 申請日期2009年11月4日 優(yōu)先權(quán)日2009年11月4日
發(fā)明者李松斌, 王勁林, 王玲芳 申請人:中國科學(xué)院聲學(xué)研究所