專利名稱:一種提取視頻摘要的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻分析領(lǐng)域,特別涉及一種提取視頻摘要的方法及裝置。
背景技術(shù):
隨著計(jì)算機(jī)網(wǎng)絡(luò)及多媒體技術(shù)的快速發(fā)展,多媒體數(shù)據(jù)的應(yīng)用日益廣泛。 由于存儲代價(jià)的不斷降低以及數(shù)據(jù)壓縮技術(shù)的進(jìn)步,多媒體數(shù)據(jù)出現(xiàn)了爆炸性 的增長。海量的視頻數(shù)據(jù)增加了用戶檢索和瀏覽視頻的難度。視頻摘要技術(shù)能
讓用戶更有效的瀏覽^L頻的內(nèi)容,近年來得到了廣泛的關(guān)注。
作為基于內(nèi)容的視頻分析的一種主要應(yīng)用,近年來有大量的研究集中在視 頻摘要提取算法上。國內(nèi)也有較多基于內(nèi)容的視頻摘要方面的成果。其中,視 頻預(yù)覽是視頻摘要的 一種基本形式。最簡單的生成^L頻預(yù)覽的方法是應(yīng)用采樣, 也就是從原始視頻中采用快放的方式來提高整個(gè)視頻內(nèi)容的幀速率,從而形成 動(dòng)態(tài)的視頻瀏覽。這種方法生成速度很快,但是由于整個(gè)視頻的速度相比原始 視頻變得過快,使得并不能提供很好的視覺效果。于是保持原始的幀速率,選
該方式主要根據(jù)關(guān)鍵幀的內(nèi)容分析,將關(guān)鍵幀進(jìn)行周圍視頻片段的擴(kuò)展,并將 他們鏈接起來,從而形成一種較簡單的視頻瀏覽算法。
在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題 在動(dòng)態(tài)視頻摘要部分,已有的算法主要關(guān)注在關(guān)鍵幀層次的相似度分析。由 于這種算法在很大程度上依靠于關(guān)鍵幀的選取情況。當(dāng)兩個(gè)相似的鏡頭時(shí)長較 長,并且其中包含較大的鏡頭運(yùn)動(dòng)信息時(shí),所提取出的關(guān)鍵幀并不能保證足夠 相似,然而這些關(guān)鍵幀所代表的視頻序列卻很可能是非常相似的。因此,僅僅 從視頻關(guān)鍵幀層次做冗余分析,并不能在最大的程度上去除視頻的相似成分。
發(fā)明內(nèi)容
為了使提取的視頻摘要更加簡潔,本發(fā)明實(shí)施例提供了 一種提取視頻摘要
5的方法及裝置。所述^t術(shù)方案如下
一種提取視頻摘要的方法,所述方法包括 對原視頻分割,獲取原視頻的視頻鏡頭和關(guān)鍵幀;
將具有相似視頻特征的關(guān)鍵幀聚為 一類,并將所述聚為 一類的關(guān)鍵幀命名 為一個(gè)聚類;
從所述每個(gè)聚類中選取平均距離最小的關(guān)鍵幀作為保留關(guān)鍵幀,將所述保 留關(guān)鍵幀對應(yīng)的視頻鏡頭拼接成粗糙的視頻摘要;
在所述粗糙的視頻摘要中生成視頻片段并計(jì)算所述視頻片段的相似度,檢 測出視頻片段的相似度超過第三閾值的視頻片段,在所述粗糙視頻摘要中去除 所述檢測到的視頻片段,將所述粗糙視頻摘要保留下來的其他部分拼接成視頻 摘要。
所述將具有相似視頻特征的關(guān)鍵幀聚為 一類,具體包括
計(jì)算任意兩個(gè)所述關(guān)^t幀之間的距離;
將彼此距離小于或等于第 一 閾值的關(guān)4建幀聚為 一類。
所述從所述每個(gè)聚類中選取平均距離最小的關(guān)鍵幀作為保留關(guān)鍵幀,將所 述保留關(guān)鍵幀對應(yīng)的視頻鏡頭拼接成粗糙的視頻摘要,具體包括
計(jì)算所述聚類的一個(gè)關(guān)^l定幀與所述聚類其他關(guān)鍵幀之間的距離的平均值, 所述平均值為所關(guān)鍵幀的平均距離,對所述聚類的每個(gè)關(guān)鍵幀按上述方法計(jì)算 出各自的平均距離,選取平均距離最小的關(guān)鍵幀作為保留關(guān)鍵幀;
將所述選取的保留關(guān)鍵幀對應(yīng)的視頻鏡頭按時(shí)間順序拼接,獲得所述粗糙 的視頻摘要。
所述在粗糙的視頻摘要中生成視頻片段并計(jì)算所述視頻片段的相似度,具 體包括
計(jì)算所述粗糙的^L頻摘要的任意兩幀圖片之間的距離,若所述距離小于第 二閾值,從所述兩幀圖片中選取時(shí)間在后的一幀圖片,讀取在所述圖片之前的 相鄰的一幀圖片的相似度,將所述讀取的相似度增加預(yù)設(shè)的增量得到所述圖片 的相似度,在所述粗糙的視頻摘要中將相似度非零且連續(xù)增加的圖片組成視頻 片段,并以所述視頻片段包括的最大的圖片的相似度作為所述視頻片段的相似 度
一種提取視頻摘要的裝置,所述裝置包括獲得模塊,用于對原始視頻分割,獲得原視頻的視頻鏡頭和關(guān)鍵幀;
聚類模塊,用于將具有相似視頻特征的關(guān)鍵幀聚為一類,并將聚為一類的 關(guān)鍵幀命名為一個(gè)聚類;
拼接模塊,用于從每個(gè)聚類中選取平均距離最小的關(guān)鍵幀作為保留關(guān)鍵幀, 將所述保留關(guān)鍵幀對應(yīng)的鏡頭拼接成粗糙的視頻摘要;
去除模塊,用于在所述粗糙的視頻摘要生成視頻片段并計(jì)算所述視頻片段 的相似度,檢測出視頻片段的相似度超過第三閾值的視頻片段,在所述粗糙視 頻摘要中去除檢測到的視頻片段,將粗糙視頻摘要保留下來的其他部分拼接成 視頻摘要。
所述聚類模塊具體包括
計(jì)算單元,用于計(jì)算任意兩個(gè)所述關(guān)鍵幀之間的距離;
聚類單元,用于將彼此距離小于或等于第一閾值的關(guān)鍵幀聚為一類。
所述拼接模塊具體包括
選取單元,用于從計(jì)算所述聚類的一個(gè)關(guān)鍵幀與所述聚類的其他關(guān)鍵幀之 間的距離的平均值,所述平均值為所關(guān)鍵幀的平均距離,對所述聚類的每個(gè)關(guān) 鍵幀按上述方法計(jì)算出各自的平均距離,選取平均距離最小的關(guān)鍵幀作為保留 關(guān)鍵幀;
拼接單元,用于將所述保留關(guān)鍵幀對應(yīng)的視頻鏡頭按時(shí)間順序拼接,獲得 粗糙的視頻摘要。
所述去除模塊具體包括
生成單元,用于計(jì)算所述粗糙的視頻摘要的任意兩幀圖片之間的距離,若 所述距離小于第二閾值,從所述兩幀圖片中選取時(shí)間在后的一幀圖片,讀取在 所述圖片之前的相鄰的一幀圖片的相似度,將所述讀取的相似度增加預(yù)設(shè)的增 量得到所述圖片的相似度,在所述粗糙的視頻摘要中將相似度非零且連續(xù)增加 的圖片組成視頻片段,并以所述視頻片段包括的最大的圖片的相似度作為所述 視頻片段的相似度;
檢測單元,用于根據(jù)從生成單元生成的各視頻片段中,檢測出所述相似度 超過第三閾值的視頻片段;
去除單元,用于選取所述檢測到的第一個(gè)視頻片段,在所述粗糙的視頻摘 要中去除所述檢測到的其他視頻片段,將所述粗糙視頻摘要保留下來的其他部本發(fā)明實(shí)施例提供的技術(shù)方案的有益效果是
通過獲得原視頻的視頻鏡頭和原視頻的關(guān)鍵幀,對原視頻的關(guān)鍵幀進(jìn)行聚 類,從每個(gè)聚類中選取保留關(guān)鍵幀,將保留關(guān)鍵幀對應(yīng)的視頻鏡頭拼接成粗糙 的視頻摘要,在從粗糙的視頻摘要中檢測出視頻相似度超過第三閾值的視頻片 段,在粗糙的視頻摘要中去除檢測到的視頻片段,將粗糙的視頻摘要保留的其 他部分拼接成完整的視頻摘要,從而更有效的去除了視頻摘要中相似的內(nèi)容, 得到的視頻摘要更加簡潔并帶來較好的用戶體驗(yàn)。
圖l是本發(fā)明實(shí)施例提供一種提取視頻摘要的方法流程圖; 圖2是本發(fā)明實(shí)施例提供一種提取視頻摘要的方法詳細(xì)流程圖; 圖3是本發(fā)明實(shí)施例提供一種提取視頻摘要的裝置圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明 實(shí)施方式作進(jìn)一步地詳細(xì)描述。 實(shí)施例l
如圖1所示,本發(fā)明實(shí)施例提供了一種提取視頻摘要的方法,包括 步驟101:對原視頻分割,獲得原視頻的視頻鏡頭和原視頻的關(guān)鍵幀; 步驟102:將具有相似;阮頻特征的關(guān)鍵幀聚為一類,并將聚為一類的關(guān)鍵幀 命名為一個(gè)聚類;
本實(shí)施例中每個(gè)聚類的關(guān)鍵幀都描述相似的視頻內(nèi)容,這樣整個(gè)視頻的內(nèi) 容由若干個(gè)聚類的結(jié)果來表示。
步驟103:從每個(gè)聚類中選取平均距離最小的關(guān)鍵幀作為保留關(guān)鍵幀,將保 留關(guān)鍵幀對應(yīng)的視頻鏡頭拼接成粗糙的視頻摘要;
步驟104:在粗糙的視摘要中生成視頻片段并計(jì)算視頻片段的相似度,檢測 出視頻片段的相似度超過第三閾值的視頻片段,在粗糙的視頻摘要中去除檢測 到的視頻片段,將粗糙視頻摘要保留下來的其他部分拼接成視頻摘要。
在本實(shí)施例中視頻從整體結(jié)構(gòu)可以分為整個(gè)視頻、視頻場景、視頻鏡頭和視頻的關(guān)鍵幀四個(gè)層次。每個(gè)視頻鏡頭都是攝像機(jī)不間斷拍攝得到的連續(xù)的視 頻序列,也就是在攝像機(jī)一次開機(jī)和關(guān)機(jī)的過程中所得到的視頻序列。關(guān)鍵幀 是對視頻鏡頭的代表性的描述,用 一個(gè)或多個(gè)關(guān)鍵幀來代表整個(gè)視頻鏡頭的內(nèi) 容。
本實(shí)施例中獲得原視頻的視頻鏡頭和關(guān)鍵幀,對原視頻的關(guān)鍵幀進(jìn)行聚類, 從每個(gè)聚類中選取保留關(guān)鍵幀,將保留關(guān)鍵幀對應(yīng)的視頻鏡頭拼接成粗糙的視 頻摘要,在從粗糙的視頻摘要中檢測出視頻的相似度超過第三閾值的視頻片段, 在粗糙的視頻摘要中去除檢測到的視頻片段,將粗糙的視頻摘要的其他部分拼 接成完整的視頻摘要,從而更有效的去除了視頻摘要中相似的內(nèi)容,得到的視 頻摘要更加簡潔并帶來較好的用戶體驗(yàn)。
實(shí)施例2
如圖2所示, 一種提取視頻摘要的方法,具體包括
步驟201:對原視頻進(jìn)行分割,獲得原視頻的場景和視頻鏡頭,同時(shí)生成原 視頻的關(guān)鍵幀;
其中,視頻從整體結(jié)構(gòu)可以分為整個(gè)視頻、場景、^L頻鏡頭和視頻的關(guān)鍵: 幀四個(gè)層次。每個(gè)視頻鏡頭都是攝像機(jī)不間斷拍攝得到的連續(xù)的視頻序列,也 就是在攝像機(jī)一次開機(jī)和關(guān)機(jī)的過程中所得到的視頻序列。關(guān)鍵幀是對視頻鏡 頭的代表性的描述,用一個(gè)或多個(gè)關(guān)鍵幀來代表整個(gè)視頻鏡頭的內(nèi)容。
步驟202:計(jì)算任意兩個(gè)的關(guān)鍵幀之間的距離,將計(jì)算得到的距離存儲在距 離矩陣中;
例如有一段關(guān)鍵幀A、 B、 C、 D、 E,計(jì)算出A與B之間的距離為0.1、 A 與C之間的距離為0.13、 A與D之間的距離為0.13、 A與E之間的距離為0.16、 B與C之間的3巨離為0.16,B與D之間的距離為0.12、B與E之間的距離為0.17、 C與D之間的距離為0.14、C與E之間的距離為0.15、D與E之間的距離為0.12。 再將計(jì)算的距離保存在距離矩陣中,得到的距離矩陣為{{0, 0.1, 0.13, 0.13, 0.16}, {0.1, 0, 0.16, 0.12, 0.17}, {0.13, 0.16, 0, 0.14, 0.15}, {0.13, 0.12, 0.14, 0, 0.12}, {0.16, 0.17, 0.15, 0.12, 0}}。
本實(shí)施例中關(guān)鍵幀之間的距離采用色彩直方圖距離,若兩個(gè)關(guān)鍵幀之間的 距離不超過設(shè)置的第 一閾值,則這兩個(gè)關(guān)鍵幀的^L頻特征相似。步驟203:從距離矩陣中讀取關(guān)鍵幀之間的距離,將彼此距離小于或等于第 一閾值的關(guān)鍵幀聚為一類;將聚為一類的關(guān)鍵幀命名為一個(gè)聚類,如此,將視 頻的關(guān)鍵幀聚成若干個(gè)聚類,每個(gè)聚類中任意兩個(gè)關(guān)鍵幀之間的距離不超過第 一閾值;
例如一段關(guān)鍵幀A、 B、 C、 D、 E,從保存的距離矩陣中分別讀取彼此兩關(guān) 鍵幀之間的距離,將彼此之間的距離不超過第一閾值0.15的關(guān)鍵幀聚為一類, 如此,分成A、 B、 D和C、 E兩個(gè)聚類。
其中,由于每個(gè)聚類中包括的任意兩個(gè)關(guān)鍵幀之間的距離不超過第 一閾值, 使得每個(gè)聚類包括的所有關(guān)鍵幀都具有相似的視頻特征;如此,每個(gè)聚類包括 的關(guān)鍵幀都描述相似的視頻內(nèi)容,這樣整個(gè)視頻的內(nèi)容由若千個(gè)聚類的結(jié)果來 表示。
在本實(shí)施例中可以采用層次聚類的方法對視頻的關(guān)鍵幀進(jìn)行分段,該方法 的原理是每次都將最近兩個(gè)關(guān)鍵幀劃為一類,反復(fù)迭代,直到該類內(nèi)的關(guān)鍵幀 之間的最大距離超過第一閾值為止。
步驟204:從每個(gè)聚類中選取平均距離最小的關(guān)鍵幀作為保留關(guān)鍵幀; 具體地,從距離矩陣中讀取聚類的一個(gè)關(guān)鍵幀與聚類其他關(guān)鍵幀之間的距 離,再對讀取的距離計(jì)算出平均值,計(jì)算出的平均值為該關(guān)鍵幀的平均距離, 對聚類的每個(gè)關(guān)鍵幀按上述方法計(jì)算出平均距離,選取平均距離最小的關(guān)鍵幀 作為保留關(guān)4囊?guī)?br>
其中,對每個(gè)聚類的關(guān)鍵幀按上述方法進(jìn)行計(jì)算,再選取出各自對應(yīng)的保 留關(guān)鍵幀。
步驟205:將選取的保留關(guān)鍵幀對應(yīng)的視頻鏡頭按時(shí)間順序拼接,獲得粗糙 的視頻摘要;
步驟206:計(jì)算粗糙的視頻摘要的任意兩幀圖片之間的距離,將計(jì)算得到的 距離存儲在粗糙的視頻摘要的距離矩陣中;
其中,兩幀圖片之間的距離采用色彩直方圖距離,若兩幀圖片之間的距離 小于設(shè)置的第二閾值,則這兩幀圖片的內(nèi)容相似,另外,拼接的粗糙的視頻摘 要包括的每幀圖片的相似度起初為零。
步驟207:計(jì)算出粗糙視頻摘要的每個(gè)視頻片段的相似度,檢測所有視頻片 段的相似度超過設(shè)置的第三閾值的視頻片段;
10具體地,從粗糙的視頻摘要的距離矩陣中讀取任意兩幀圖片之間的距離, 若讀取的距離小于第二閾值,從該兩幀圖片中選取時(shí)間在后的一幀圖片,讀取 在選取的圖片之前的相鄰的圖片的相似度,將讀取的相似度增加預(yù)設(shè)的增量得 到該選取的一幀圖片的相似度,在粗糙的視頻摘要中將相似度非零且連續(xù)增加 的圖片組成視頻片段,并以視頻片段包括的最大的圖片的相似度作為該視頻片 段的相似度,然后,檢測出視頻片段的相似度超過第三閾值的視頻片段。
例如一段連續(xù)的圖片A0、 Bo、 Co、 E、 F、 A卜CP起初每幀圖片的相 似度都為零。讀取Ao、 A,之間的距離小于第二閾值,則將F的相似度增加預(yù)設(shè) 的增量2得到At的相似度2,讀取Bo、 B!之間的距離小于第二闊值,則將Ai 的相似度增加增量2得到B!的相似度4,讀取Co、 d之間的距離小于第二閾值, 則將B!的相似度的增加增量2得到d的相似度6,將相似度非零且連續(xù)增加的 圖片組成視頻片段A!、 d并以最大的相似度6作為視頻片段Ai、 d 的相似度,檢測出視頻片段的相似度超過第三闊值5的視頻片段A!、 B,、 d。
其中,本實(shí)施例相似度超過第三閾值的所有視頻片段的內(nèi)容相似。
步驟208:在粗糙的視頻摘要中去除檢測到的視頻片段,將粗糙視頻摘要保 留下來的其他部分拼接成完整的視頻摘要。
本實(shí)施例中將原視頻進(jìn)行分割得到原視頻的視頻鏡頭和原視頻的關(guān)鍵幀, 對原視頻的關(guān)鍵幀進(jìn)行聚類,再從每個(gè)聚類中選取保留關(guān)鍵幀,將保留關(guān)鍵幀 對應(yīng)的視頻鏡頭按時(shí)間順序拼接成粗糙的視頻摘要,在從粗糙的視頻摘要中檢 測出視頻的相似度超過第三閾值的視頻片段,從粗糙的視頻摘要中去除檢測到 的視頻片段,將粗糙的視頻摘要的其他部分拼接成完整的視頻摘要,從而更有 效的去除了視頻摘要中相似的內(nèi)容,得到的視頻摘要更加簡潔并帶來較好的用 戶體馬全。
實(shí)施例3
如圖3所示,本發(fā)明實(shí)施例提供了一種提取視頻摘要的裝置,包括 獲得模塊301,用于對原視頻分割,獲得原視頻的視頻鏡頭和原視頻的關(guān)鍵
幀;
聚類模塊302,用于將具有相似視頻特征的關(guān)鍵幀聚為一類,并將聚為一類 的關(guān)鍵幀命名為一個(gè)聚類;拼接模塊303,用于從每個(gè)聚類中選取平均距離最小和關(guān)鍵幀作為保留關(guān)鍵 幀,將保留關(guān)鍵幀對應(yīng)的視頻鏡頭拼接成粗糙的視頻摘要;
去除模塊304,用于在粗糙的視頻摘要中生成視頻片段并計(jì)算視頻片段的相 似度,檢測出視頻片段的相似度超過第三闞值的視頻片段,在粗糙的視頻摘要 中去除檢測到的視頻片段,將粗糙的視頻摘要保留下來的其他部分拼接成視頻 摘要。
其中,聚類模塊302具體包括
計(jì)算單元,用于計(jì)算任意兩個(gè)的關(guān)鍵幀之間的距離;
聚類單元,用于將4皮此距離小于或等于第一閾值的關(guān)4建幀聚為一類,并將 聚為 一類的關(guān)鍵幀命名為 一個(gè)聚類; 拼接模塊303具體包括
選取單元,用于計(jì)算聚類的一個(gè)關(guān)鍵幀與聚類其他關(guān)鍵幀之間的距離的平 均值,計(jì)算出的平均值為該關(guān)鍵幀的平均距離,對聚類的每個(gè)關(guān)鍵幀按上述方 法計(jì)算出平均距離,選取平均距離最小的關(guān)鍵幀作為保留關(guān)鍵幀;
拼接單元,用于將保留關(guān)鍵幀對應(yīng)的鏡頭按時(shí)間順序拼接,獲得粗糙的視 頻摘要;
去除模塊304具體包括
組成單元,用于計(jì)算粗糙的視頻摘要的任意兩幀圖片之間的距離,若計(jì)算 的距離小于第二閾值,從該兩幀圖片中選取時(shí)間在后的一幀圖片,讀取在選取 的一幀圖片之前的相鄰的一幀圖片的相似度,將讀取的相似度增加預(yù)設(shè)的增量 得到選取的一幀圖片的相似度,在粗糙的視頻摘要中將相似度非零且連續(xù)增加 的圖片組成視頻片段,并以該視頻片段包括的最大的圖片的相似度作為該視頻 片段的相似度;
檢測單元,用于從組成單元組成的各視頻片段中,檢測出視頻的相似度超 過第三閾值的視頻片段;
去除單元,用于在粗糙的視頻摘要中去除檢測出的視頻片段,將粗糙視頻 摘要保留下來的其他部分拼接成視頻摘要。
本實(shí)施例中分割模塊對原視頻進(jìn)行分割,獲得原視頻的視頻鏡頭,同時(shí)生 成原視頻的關(guān)鍵幀,聚類模塊將具有相似視頻特征的關(guān)鍵幀聚為一類,拼接模 塊從每個(gè)聚類中選取一個(gè)保留關(guān)鍵幀,將保留關(guān)鍵幀對應(yīng)的視頻鏡頭拼接成粗
12糙的視頻摘要,去除模塊檢測到視頻的相似度超過第三閾值的視頻片段,從粗糙的視頻摘要中去除檢測到的視頻片段,將粗糙的視頻摘要的其他部分拼接成視頻摘要,從而更有效的去除了視頻摘要中相似的內(nèi)容,得到的視頻摘要更加簡潔并帶來較好的用戶體驗(yàn)。
以上實(shí)施例提供的技術(shù)方案中的全部或部分內(nèi)容可以通過軟件編程實(shí)現(xiàn),
其軟件程序存儲在可讀取的存儲介質(zhì)中,存儲介質(zhì)例如計(jì)算機(jī)中的硬盤、光盤或軟盤。
以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1. 一種提取視頻摘要的方法,其特征在于,所述方法包括對原視頻分割,獲取原視頻的視頻鏡頭和關(guān)鍵幀;將具有相似視頻特征的關(guān)鍵幀聚為一類,并將所述聚為一類的關(guān)鍵幀命名為一個(gè)聚類;從所述每個(gè)聚類中選取平均距離最小的關(guān)鍵幀作為保留關(guān)鍵幀,將所述保留關(guān)鍵幀對應(yīng)的視頻鏡頭拼接成粗糙的視頻摘要;在所述粗糙的視頻摘要中生成視頻片段并計(jì)算所述視頻片段的相似度,檢測出視頻片段的相似度超過第三閾值的視頻片段,在所述粗糙視頻摘要中去除所述檢測到的視頻片段,將所述粗糙的視頻摘要保留下來的其他部分拼接成視頻摘要。
2. 根據(jù)權(quán)利要求1所述一種摘取視頻摘要的方法,其特征在于,所述將具有相似視頻特征的關(guān)鍵幀聚為一類,具體包括計(jì)算任意兩個(gè)所述關(guān)鍵幀之間的距離;將彼此距離小于或等于第 一閾值的關(guān)鍵幀聚為 一類。
3. 根據(jù)權(quán)利要求1所述一種提取視頻摘要的方法,其特征在于,所述從所述每個(gè)聚類中選取平均距離最小的關(guān)鍵幀作為保留關(guān)鍵幀,將所述保留關(guān)鍵幀對應(yīng)的視頻鏡頭拼接成粗糙的視頻摘要,具體包括計(jì)算所述聚類的一個(gè)關(guān)鍵幀與所述聚類其他關(guān)鍵幀之間的距離的平均值,所述平均值為所關(guān)鍵幀的平均距離,對所述聚類的每個(gè)關(guān)^:幀按上述方法計(jì)算出各自的平均距離,選取平均距離最小的關(guān)鍵幀作為保留關(guān)鍵幀;將所述選取的保留關(guān)鍵幀對應(yīng)的視頻鏡頭按時(shí)間順序拼接,獲得所述粗糙的視頻摘要。
4. 根據(jù)權(quán)利要求1所述一種提取視頻摘要的方法,其特征在于,所述在粗糙的視頻摘要中生成視頻片段并計(jì)算所述視頻片段的相似度,具體包括計(jì)算所述粗糙的視頻摘要的任意兩幀圖片之間的距離,若所述距離小于第二閾值,從所述兩幀圖片中選取時(shí)間在后的一幀圖片,讀取在所述圖片之前的相鄰的一幀圖片的相似度,將所述讀取的相似度增加預(yù)設(shè)的增量得到所述圖片的相似度,在所述粗糙的視頻摘要中將相似度非零且連續(xù)增加的圖片組成視頻片段,并以所述視頻片段包括的最大的圖片的相似度作為所述視頻片段的相似度。
5. —種提取視頻摘要的裝置,其特征在于,所述裝置包括獲得模塊,用于對原始視頻分割,獲得原視頻的視頻鏡頭和關(guān)鍵幀;聚類模塊,用于將具有相似視頻特征的關(guān)鍵幀聚為一類,并將聚為一類的關(guān)鍵幀命名為一個(gè)聚類;拼接模塊,用于從每個(gè)聚類中選取平均距離最小的關(guān)鍵幀作為保留關(guān)鍵幀,將所述保留關(guān)鍵幀對應(yīng)的鏡頭拼接成粗糙的視頻摘要;去除模塊,用于在所述粗糙的視頻摘要中生成視頻片段并計(jì)算所述視頻片段的相似度,檢測出視頻片段的相似度超過第三閾值的視頻片段,在所述粗糙視頻摘要中去除檢測到的視頻片段,將粗糙視頻摘要保留下來的其他部分拼接成^見頻摘要。
6. 根據(jù)權(quán)利要求5所述一種摘取視頻摘要的裝置,其特征在于,所述聚類模塊具體包括計(jì)算單元,用于計(jì)算任意兩個(gè)所述關(guān)鍵幀之間的距離;聚類單元,用于將彼此距離小于或等于第一閾值的關(guān)鍵幀聚為一類。
7. 根據(jù)權(quán)利要求5所述一種提取視頻摘要的裝置,其特征在于,所述拼接模塊具體包括選取單元,用于從計(jì)算所述聚類的一個(gè)關(guān)鍵幀與所述聚類的其他關(guān)鍵幀之間的距離的平均值,所述平均值為所關(guān)鍵幀的平均距離,對所述聚類的每個(gè)關(guān)鍵幀按上述方法計(jì)算出各自的平均距離,選取平均距離最小的關(guān)鍵幀作為保留關(guān)鍵幀;拼接單元,用于將所述保留關(guān)鍵幀對應(yīng)的視頻鏡頭按時(shí)間順序拼接,獲得粗糙的視頻摘要。
8.根據(jù)權(quán)利要求5所述一種提取視頻摘要的裝置,其特征在于,所述去除模塊具體包括生成單元,用于計(jì)算所述粗糙的視頻摘要的任意兩幀圖片之間的距離,若所述距離小于第二閾值,從所述兩幀圖片中選取時(shí)間在后的一幀圖片,讀取在所述圖片之前的相鄰的一幀圖片的相似度,將所述讀取的相似度增加預(yù)設(shè)的增量得到所述圖片的相似度,在所述粗糙的視頻摘要中將相似度非零且連續(xù)增加的圖片組成視頻片段,并以所述視頻片段包括的最大的圖片的相似度作為所述視頻片段的相似度;檢測單元,用于從生成單元生成的各視頻片段中,檢測出所述視頻片段的相似度超過第三閾值的視頻片段;去除單元,用于在所述粗糙的視頻摘要中去除所述檢測到的視頻片段,將所述粗糙視頻摘要保留下來的其他部分拼接成視頻摘要。
全文摘要
本發(fā)明公開了一種提取視頻摘要的方法及裝置,屬于視頻分析領(lǐng)域。所述方法包括獲取視頻鏡頭和關(guān)鍵幀;將具有相似視頻特征的關(guān)鍵幀聚為一類,并將聚為一類的關(guān)鍵幀命名為一個(gè)聚類;從每個(gè)聚類中選取平均距離最小的關(guān)鍵幀作為保留關(guān)鍵幀,將保留關(guān)鍵幀對應(yīng)的視頻鏡頭拼接成粗糙的視頻摘要;在粗糙的視頻摘要中生成視頻片段并計(jì)算所述視頻片段的相似度,檢測出視頻片段的相似度超過第三閾值的視頻片段,在粗糙的視頻摘要中去除檢測到的視頻片段,將保留下來的其他部分拼接成視頻摘要。所述裝置包括分割模塊,分段模塊,拼接模塊,去除模塊。本發(fā)明提取的視頻摘要更加簡潔并帶來較好的用戶體驗(yàn)。
文檔編號G06F17/30GK101464893SQ200810247499
公開日2009年6月24日 申請日期2008年12月31日 優(yōu)先權(quán)日2008年12月31日
發(fā)明者季向陽, 戴瓊海, 王好謙, 躍 高 申請人:清華大學(xué)