專利名稱:按位置聚類視頻的制作方法
按位置聚類視頻
背景技術(shù):
在查看視頻例如以便選擇某些期望的片段時,位置可以是用于各種任務(wù)的信息的有用的源。例如,用戶可以回憶起在兒童娛樂室中的家庭視頻快照包含用戶想要發(fā)送給親戚的特定景物,由此快速地定位在該位置拍攝的那些視頻的視頻片段(或代表性的圖像) 將是有用的。一般地,用戶可能想要按位置瀏覽或搜索視頻、注釋位置和/或創(chuàng)建位置特異的編輯?;谖恢玫木垲愃惴▏L試在這樣的任務(wù)中輔助用戶。然而,基于位置的聚類算法的一個顯著挑戰(zhàn)是在單個位置內(nèi)存在的各種各樣的外觀。例如,考慮在房屋的相同房間里面拍攝的視頻。取決于其中捕捉每一快照的視點,廣泛變化的外觀是可能的。
發(fā)明內(nèi)容
提供本概述以便以簡化形式介紹下面在詳細(xì)描述中進一步描述的代表性的概念的選集。本概述不旨在標(biāo)識所要求保護的本主題的關(guān)鍵特征或必要特征,也不旨在以將限制所要求保護的本主題的范圍的任何方式來使用。簡要地,在此描述的本主題的各方面涉及基于具有相似的位置來聚類表示視頻幀的快照的技術(shù),包括通過使用凝聚聚類來優(yōu)化全局能量函數(shù)。計算在快照對之間相似性分?jǐn)?shù)以及指示在快照之間的時間一致性的值。全局能量函數(shù)將各快照的相似性分?jǐn)?shù)數(shù)據(jù)和時間一致性數(shù)據(jù)(根據(jù)相對貢獻(xiàn)加權(quán))求和。在一種實現(xiàn)中,由最小生成樹的節(jié)點表示快照, 最小生成樹具有帶有權(quán)重的邊,這些權(quán)重至少部分地基于在由它們各自的節(jié)點表示的各快照之間的相似性分?jǐn)?shù)。通過借助于表示快照的一個關(guān)鍵幀(或從相同的快照取出的多個關(guān)鍵幀)來初始化群集并選擇群集的對,執(zhí)行凝聚聚類。每一對被合并成候選群集,將具有最低成本的經(jīng)合并的候選群集保留為新的群集。迭代地合并群集,直到滿足停止準(zhǔn)則或標(biāo)準(zhǔn)(例如,僅剩下某一數(shù)量的群集)。在結(jié)合附圖考慮時,可以從下列詳細(xì)描述明顯看出其他優(yōu)點。
作為示例闡釋本發(fā)明,且本發(fā)明不限于附圖,附圖中,相似的參考數(shù)字指示相似的元素,且附圖中圖1是示出用于基于位置聚類視頻的示例組件的框圖。圖2是表示經(jīng)由能量函數(shù)建模的中間群集。圖3是示出用于基于位置聚類視頻的示例步驟的流程圖。圖4示出可以將本發(fā)明的各種方面合并到其中的計算環(huán)境的說明性示例。詳細(xì)描述在此描述的技術(shù)的各種方面一般地涉及按位置聚類視頻,包括通過優(yōu)化包括聚類成本(數(shù)據(jù)項)和時間先驗的全局能量函數(shù)。在一個方面中,如在此描述的優(yōu)化群集,這在已經(jīng)確定快照的表示和在快照之間的距離度量之后發(fā)生。盡管如在此描述的按位置聚類很好地適合“家庭”視頻,但應(yīng)理解,這僅是一種類型的視頻。專業(yè)地捕捉的視頻(諸如在電視或電影上示出的),可以同樣地受益于在此描述的技術(shù),而不考慮在何時和何地進行按位置聚類(例如,在攝影室或觀眾的個人收藏中)。 因而,本發(fā)明不限于在此描述的任何特定的實施方式、方面、概念、結(jié)構(gòu)、功能或示例。相反, 在此描述的實施方式、方面、概念、結(jié)構(gòu)、功能或示例中的任何都是非限制性的,且可以以一般地在計算和視頻處理中提供益處和優(yōu)點的各種方式來使用本發(fā)明。圖1示出與按位置聚類視頻相關(guān)的各種方面。一般地,來自合適的源的輸入視頻 102被聚類機制104處理成快照106的群集。為達(dá)到這一目標(biāo),快照分離器108將視頻102 分離成快照110,每一快照包括一個或多個幀。一般地,在照相機從關(guān)閉變成打開時或以另外方式快速地改變正在捕捉的內(nèi)容時,確定快照邊界,這可以由包括已知技術(shù)的任何合適的檢測手段來完成;例如,微軟 Movie Maker(電影制作者)提供這樣的功能。一旦被分離成快照110,那么,就計算在每一快照之間的相似性分?jǐn)?shù),正如在圖1 中由相似性計算機制112所表示的。在一種實現(xiàn)中,在快照之間相似性由成對距離函數(shù)來確定,如下面所描述。在一種備選方案中,與其計算包括快照的一系列幀中的每一幀的分?jǐn)?shù),可以將快照的中心幀選擇為用于相似性比較的關(guān)鍵幀。作為另一備選方案,可以通過以固定采樣頻率采樣來將快照的某一減少數(shù)量的幀選擇為多個關(guān)鍵幀,例如每十幀(如果少于某一最小數(shù)量的幀則可能使用中心幀)。如下面所描述的,可以自動地將單個快照的多個關(guān)鍵幀聚類在一起。注意,基于各種幀計算馬賽克是可行的,然而,難以用這種方面進行縮放和移動 (例如,人們的移動)。為了建立關(guān)鍵幀的數(shù)值表示,然后可以比較這些數(shù)值表示以便得到相似性,一種實現(xiàn)計算紋元的直方圖以便針對紋元(texton)詞匯進行評估,例如具有使用隨機采樣的 5X5面片(patch)和k平均聚類來離線開發(fā)的1 紋元。更具體地,對于快照中的每一關(guān)鍵幀,在稠密網(wǎng)格中提取5 X 5面片。然后,將每一面片指派給最接近的紋元,并且通過在整個關(guān)鍵幀上聚類,產(chǎn)生紋元的直方圖。為了計算在一對紋元直方圖之間的距離且因而確定在各幀之間相似性,可以使用已知的卡方(Chi-Squared)距離計算。注意,備選方案是使用隱含狄利克雷分配(Latent Dirichlet Allocation)。注意,可以使用替代的機制來確定相似性。例如,一個替代的關(guān)鍵幀間距離函數(shù)是基于特征的。使用已知的技術(shù)來查找一組仿射不變特征(affine invariant feature)。使用詞匯樹(例如,百萬葉節(jié)點左右)將可視詞指派給按特征提取的每一圖像面片。使用公知的詞頻-逆文檔頻率(TF-IDF)評分概念來查找各圖像之間的相似性分?jǐn)?shù)。N個關(guān)鍵幀的相似性分?jǐn)?shù)基本上形成分?jǐn)?shù)的網(wǎng)格114,如圖1中所表示。如下面所描述的,從這些分?jǐn)?shù)產(chǎn)生群集并將其排列為一組最小生成樹116。一般地,這些最小生成樹 116由全局能量函數(shù)118處理以便獲得快照106的群集。在一種實現(xiàn)中,全局能量函數(shù)118包括兩個項,包括聚類成本(或數(shù)據(jù))項和時間先驗項E全局=E群集+ λΕ時間⑴其中是群集(數(shù)據(jù)項)的模型,Ewra是時間先驗項,且λ是權(quán)重。
在該群集模型中,在相同位置捕捉的一組快照將可能具有特征結(jié)構(gòu)。一些快照的對可以具有根本不同的視點,而其他對可以是非常相似的;然而,總體上,直觀上預(yù)期群集是適度稠密的且良好連接的。一般地,這些概念被嵌入到聚類成本中。聚類機制使用已知的凝聚聚類技術(shù)來優(yōu)化等式(1)中的全局能量E4m。一般地, 凝聚聚類最初將每一快照指派給其自己的群集;然而,注意,在允許每快照多于一個的關(guān)鍵幀的備選方案中,聚類算法被初始化為使得相同的快照的幀最初是相同的群集的部分。一旦初始化,就迭代地合并群集的對。在每一迭代中,考慮改變對兩個群集Ci和 Cj的每種可能的歸并的全局成本,且使用得到最低全局成本E4m的歸并。在僅剩下包含快照的單個群集(或剩下某一其他數(shù)量例如十個的群集)時,這進行到完成。換句話說,在移除k-Ι個最小生成樹以便計算第k個最小生成樹之后,可以通過計算多個最小生成樹來獲得視覺數(shù)據(jù)的結(jié)構(gòu)進行建模的聚類成本/數(shù)據(jù)項,在最小生成樹中,群集的模型是第k個最小生成樹的總長度(其中k與快照的數(shù)量成正比)。結(jié)果,代替很少適用于視覺數(shù)據(jù)的細(xì)長的群集或緊湊的群集,以適用于中間群集的能量函數(shù)的形式來使用中間群集的模型(類似于圖2的中間群集),該能量函數(shù)為其中MST是指最小生成樹,k = α (I Ci | _1)是任何給定節(jié)點的鄰居的數(shù)量的分?jǐn)?shù) (a e
),且其中= Ck-i _ MSTiCt1)0' = Ci(3)是可以通過從移除MST中的邊來計算的遞歸定義;也就是說,Cf是在從Ci移除序列中的k-Ι個MST之后獲得的圖。注意,為了避免圖變得不連貫的可能性,代替移除各邊,可以用快照匹配分?jǐn)?shù)的最大值來代替各邊。如上所述,在兩個快照之間的成對距離函數(shù)d(stl, st2)是群集Ci中它們之間的匹配成本,即是說,在時刻tl和t2在兩個快照Stl和st2的向量表示之間的距離。參數(shù)α的值的選擇給出對群集可以變得多細(xì)長的控制,由此對于α的合適的值, 等式O)中的聚類成本允許中間群集而不是細(xì)長群集。預(yù)期群集是相對地長的,這是因為房間的不同部分的外觀可以是非常不同的。在相同的時刻,預(yù)期可能的照相機視點和多個快照帶有相似的(受歡迎的)視點的閉聯(lián)集,由此也預(yù)期群集是相當(dāng)稠密的。在一種實現(xiàn)中,使用α =0.3的中間值。對于時間先驗項(Ewra,且λ作為加權(quán)因子),連續(xù)的快照更加可能示出相同的位置。一般地,時間先驗項基于更加可能在相同的位置捕捉到視頻中兩個連續(xù)的快照的可能性。因而,考慮來自視頻的時間序列的每一對鄰近快照,且對于在不同的群集中的每一對應(yīng)用懲罰(例如,通過圖1的時間不變性機制120),且不以另外方式添加。先前嘗試硬時域分割以便將視頻分解成在相同位置捕捉的場景,然而,家庭視頻中減少的時間一致性使得這樣的硬式?jīng)Q策是不適當(dāng)?shù)?;相反,使用軟式時間先驗來在結(jié)果中提供更多的時間一致性
權(quán)利要求
1.一種用于計算環(huán)境中的方法,包括處理由多個快照組成的輸入視頻,這包括確定 (306)指示快照是否在相同的位置被捕捉的所述快照之間的相似性,以及使用所述相似性作為(314)全局能量函數(shù)的部分以便按位置將快照聚類在一起。
2.如權(quán)利要求1所述的方法,其特征在于,所述使用相似性作為所述全局能量函數(shù)的部分包括處理表示將快照聚類在一起的成本的最小生成樹。
3.如權(quán)利要求1所述的方法,其特征在于,所述全局能量函數(shù)包括時間先驗項,并且所述方法進一步包括,應(yīng)用所述時間先驗項以便懲罰時間序列中在不同群集中的鄰近快照。
4.如權(quán)利要求1所述的方法,所述方法進一步包括,將所述輸入視頻分離成多組幀,并從每一組幀中選擇至少一個關(guān)鍵幀,作為表示該組的一個或多個快照。
5.如權(quán)利要求4所述的方法,其特征在于,所述組的關(guān)鍵幀包括在該組幀內(nèi)在時間上居中或基本上居中的幀。
6.如權(quán)利要求4所述的方法,其特征在于,選擇至少一個關(guān)鍵幀包括對來自所述一組幀的多個關(guān)鍵幀進行采樣,并且所述方法進一步包括,最初將從所述組采樣的所述多個關(guān)鍵幀聚類在一起。
7.如權(quán)利要求1所述的方法,其特征在于,所述確定在所述快照之間的相似性包括確定每一個所述快照的紋元直方圖。
8.如權(quán)利要求1所述的方法,其特征在于,所述確定在所述快照之間的相似性包括計算表示每一個所述快照的向量,其中所述向量強調(diào)所述快照中的背景信息勝過所述快照中的前景信息。
9.如權(quán)利要求1所述的方法,其特征在于,所述使用相似性包括選擇群集的對、將每一對歸并成經(jīng)合并的候選群集、保留具有最低成本的所述經(jīng)合并的候選群集以及迭代以便進一步合并群集直到滿足停止準(zhǔn)則或標(biāo)準(zhǔn)。
10.一種用于計算環(huán)境中的系統(tǒng),包括將表示視頻幀的快照聚類成具有相似的位置的快照的群集(106)的聚類機制(104),所述聚類包括通過基于快照對之間的相似性分?jǐn)?shù) (114)使用凝聚聚類來優(yōu)化全局能量函數(shù)(118)。
11.如權(quán)利要求10所述的系統(tǒng),其特征在于,所述聚類機制進一步基于在快照之間的時間一致性來優(yōu)化所述全局能量函數(shù)。
12.如權(quán)利要求11所述的系統(tǒng),其特征在于,所述全局能量函數(shù)基于相似性分?jǐn)?shù)數(shù)據(jù)和時間一致性數(shù)據(jù)的總和,其中使用加權(quán)因子來控制所述相似性分?jǐn)?shù)數(shù)據(jù)和時間一致性數(shù)據(jù)相對于彼此向所述總和貢獻(xiàn)多少。
13.如權(quán)利要求10所述的系統(tǒng),其特征在于,所述聚類機制將所述快照排列為最小生成樹的節(jié)點,所述最小生成樹具有帶有權(quán)重的邊,所述權(quán)重至少部分地基于在由它們各自的節(jié)點表示的快照之間的所述相似性分?jǐn)?shù)。
14.具有計算機可執(zhí)行指令的一個或多個計算機可讀介質(zhì),所述計算機可執(zhí)行指令在被執(zhí)行時,執(zhí)行以下步驟,步驟包括基于快照邊界檢測將視頻分離(302)成多組幀;從每一組幀選擇(304)至少一個關(guān)鍵幀;基于在每一組的所述一個或多個關(guān)鍵幀之間的相似性來計算(306)相似性分?jǐn)?shù);基于關(guān)鍵幀在時間上是否與另一關(guān)鍵幀一致來計算(314)時間數(shù)據(jù);以及使用(314)所述相似性分?jǐn)?shù)和所述時間數(shù)據(jù)來將由快照的關(guān)鍵幀表示的快照聚類在一起。
15.如權(quán)利要求14所述的一個或多個計算機可讀介質(zhì),其特征在于,一對關(guān)鍵幀的所述相似性分?jǐn)?shù)和所述時間數(shù)據(jù)對應(yīng)于成本,并且其中使用所述相似性分?jǐn)?shù)和所述時間數(shù)據(jù)來聚類快照包括選擇群集對、將每一對歸并成經(jīng)合并的候選群集、保留具有最低成本的所述經(jīng)合并的候選群集、以及迭代以便進一步合并各群集直到滿足停止準(zhǔn)則或標(biāo)準(zhǔn)。
全文摘要
所描述的是其中基于捕捉快照的位置來聚類視頻快照的技術(shù)。優(yōu)化全局能量函數(shù),該全局能量函數(shù)包括第一項,該第一項計算群集以使得適度稠密并良好連接,以便匹配在一個位置處捕捉的可能的快照,例如,基于在快照對之間的相似性分?jǐn)?shù)。第二項是鼓勵將連續(xù)的快照放置在相同的群集的時間先驗。快照可以被表示為最小生成樹的節(jié)點,該最小生成樹的節(jié)點具有帶有權(quán)重的邊,該權(quán)重基于在由它們各自的節(jié)點表示的快照之間的相似性分?jǐn)?shù)。通過選擇可用的群集對、歸并各對并保留具有最低成本的對來執(zhí)行凝聚聚類。迭代地合并群集,直到滿足停止準(zhǔn)則或標(biāo)準(zhǔn)(例如,僅剩下單個群集)。
文檔編號G06K9/00GK102388390SQ201080016629
公開日2012年3月21日 申請日期2010年4月1日 優(yōu)先權(quán)日2009年4月1日
發(fā)明者C·L·齊特尼克三世, G·F·施羅夫, S·J·貝克 申請人:微軟公司