專利名稱:一種重要新聞事件檢測和摘要的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于視頻分析和檢索技術(shù)領(lǐng)域,具體涉及一種重要新聞事件檢測和摘要的方法。
背景技術(shù):
隨著電視臺視頻節(jié)目的積累、網(wǎng)上數(shù)字視頻的增加,以及數(shù)字圖書館、視頻點(diǎn)播、遠(yuǎn)程教學(xué)等大量的多媒體應(yīng)用,如何有效組織海量視頻數(shù)據(jù)庫,以方便人們的快速瀏覽和檢索,一直是計算機(jī)領(lǐng)域的熱點(diǎn)問題。在各種類型的視頻中,新聞視頻可以說是最重要的一種視頻形式。它不僅具有重要的現(xiàn)實利用價值,還具有寶貴的歷史珍藏價值,對于政府、電視臺、新聞媒體及普通用戶都是不可缺少的。目前,除了已有的海量新聞視頻庫以外,全世界每天都有大量的新聞報道,人們不可能觀看全世界所有國家所有頻道的所有新聞報道。在這種情況下,下列應(yīng)用對于人們是至關(guān)重要的,例如(1)人們需要觀看關(guān)于同一個新聞事件的不同報道,如關(guān)于倫敦爆炸事件的新聞匯總,以了解世界不同媒體的報道視角和報道內(nèi)容等;(2)在人們不知道當(dāng)天發(fā)生什么新聞事件的前提下,他們希望觀看當(dāng)天的重要新聞事件;(3)在每天新聞報道難以計數(shù)的情況下,人們也會希望看到當(dāng)天新聞報道的一個摘要。在上述這些應(yīng)用中,一個基本的問題是如何找到同一個事件的不同報道 全世界不同國家、不同地區(qū)、不同頻道對同一個新聞事件的報道,畫面及內(nèi)容會有很大區(qū)別。即使是同一國家的同一地區(qū)的同一頻道對同一個事件的報道,即使播出的時間不同,內(nèi)容也會有所差異。如黃金時間的簡短報道和其它時間的詳細(xì)報道。因此,讓計算機(jī)自動檢測不同的新聞報道是否屬于同一個事件,是現(xiàn)有技術(shù)面臨的一個非常困難的技術(shù)問題。在上述這些應(yīng)用中,要解決的兩個基本的問題是(1)如何度量兩個新聞視頻的相似度 (2)如何把同一事件的新聞報道聚類在一起 關(guān)于新聞視頻的研究,目前已經(jīng)有了一些工作。但大多數(shù)研究集中在新聞事件的檢測上。因為新聞視頻由新聞事件組成,而每一個新聞事件基本上先由播音員概要介紹該事件的主要內(nèi)容,然后是關(guān)于該事件的詳細(xì)報道。根據(jù)這個視頻結(jié)構(gòu),新聞事件檢測的基本方法是播音員的檢測,因為兩個播音員之間通常是一個新聞事件。播音員檢測的基本方法包括播音員建模的方法(文獻(xiàn)“Automatic parsing of news video,”[H.J.Zhang,Y.Gong,S.W.Smoliar,and S.Y.Tan,International Conference on Multimedia Computing and Systems,1994,pp.45-54.])和基于新聞結(jié)構(gòu)的聚類方法(文獻(xiàn)“The Segmentation ofNews Video into Story Units,”[L Chaisorn,T-S Chua,and C-H Lee,International Conference on Multimedia and Expo,2002.])。另外,一些大型的新聞視頻檢索系統(tǒng)也已經(jīng)出現(xiàn),如CMU的InfoMedia項目,目前已經(jīng)發(fā)展到InfoMedia II。國立新加坡大學(xué)的VideoQA系統(tǒng)。InfoMedia項目的最新進(jìn)展是提出了Video Collages,以此作為一個有效接口來瀏覽和檢索新聞視頻庫。該系統(tǒng)支持用戶通過地圖、文本和其它結(jié)構(gòu)化信息進(jìn)行的檢索。在VideoQA系統(tǒng)里,用戶通過文本信息進(jìn)行檢索,系統(tǒng)返回相關(guān)的新聞片斷作為答案。已有的新聞檢索系統(tǒng),主要是基于查詢的檢索用戶給出要查詢的新聞例子,系統(tǒng)檢索新聞視頻庫里是否有該新聞 如有,則返回檢索到的新聞作為答案。這種方法要求用戶必須有一個查詢例子,但是,當(dāng)用戶沒有查詢例子時,這種方法則無法檢索。實際上,沒有查詢例子的檢索,如查詢“今天的重要新聞是什么 ”,“播放今天重要新聞的一個摘要”等,即關(guān)于重要新聞事件檢測和摘要的方法,目前還沒有看到相關(guān)的工作、文獻(xiàn)和專利。
發(fā)明內(nèi)容
針對上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的是提出一種重要新聞事件檢測和摘要的方法。該方法能夠在新聞視頻數(shù)據(jù)庫里,自動檢測重要新聞,并按重要度從高到低形成用戶指定時間的新聞?wù)?,從而更加充分發(fā)揮視頻分析和檢索技術(shù)在當(dāng)今信息社會中的巨大作用。
本發(fā)明的目的是這樣實現(xiàn)的一種重要新聞事件檢測的方法,包括以下步驟(1)使用視頻片斷相似度的度量方法,計算出新聞視頻庫里所有新聞事件的相似度;(2)根據(jù)新聞事件的相似度,采用聚類算法,把所有新聞事件分割為一個個新聞事件聚類;(3)基于上述得到的事件聚類,根據(jù)聚類中的成員數(shù)目及播報的頻道和時間信息,檢測出新聞中的重要事件。
具體來說,在上述步驟(1)中,首先進(jìn)行鏡頭邊界檢測,把新聞視頻庫中的每個新聞事件分割為鏡頭;然后把每對相似鏡頭的相似值作為權(quán)值賦給G={X,Y,E}的每條邊,這時的G就轉(zhuǎn)化為一個帶權(quán)的二分圖,其中,X和Y表示兩個新聞事件,E表示事件X和Y中每對鏡頭的相似值。使用圖論的最優(yōu)匹配算法,計算兩個新聞事件X和Y的相似度為SimOM(X,Y)=ωOM(X,Y)min(p,q)---(1)]]>其中,ωOM(X,Y)是在最優(yōu)匹配算法以后得到的總權(quán)值。p和q表示事件X和Y的鏡頭數(shù)目,min(p,q)表示取p和q中的較小值,它的作用是把ωOM(X,Y)正則化到
。
更進(jìn)一步,步驟(1)中,進(jìn)行鏡頭邊界檢測最好使用時空切片算法。計算兩個新聞事件X和Y的相似度時,采用的圖論的最優(yōu)匹配算法最好是Kuhn-Munkres算法。
再具體來說,在上述步驟(2)中,采用的聚類算法如下給定新聞視頻庫中的所有事件,把所有事件之間的相似度建模為一個帶權(quán)圖G=(V,E),其中,V是新聞事件的集合,E是邊的集合,表示新聞事件之間的相似度。本發(fā)明分解G為一個個子圖(或聚類)。分解的原則是最小化聚類里的距離,同時最大化聚類間的距離?;谶@個原則,本發(fā)明采用了標(biāo)準(zhǔn)化分割算法(Normalized Cut),循環(huán)地分解G為事件的聚類。標(biāo)準(zhǔn)化分割算法可以全局優(yōu)化地分割G為兩個不相鄰的集合A和B,這是通過最小化下列公式實現(xiàn)的Ncut(A,B)=cut(A,B)volume(A)+cut(A,B)volume(B)---(2)]]>其中cut(A,B)=ΣX∈A,Y∈BSimOM(X,Y)---(3)]]>volume(A)=ΣX∈A,Y∈VSimOM(X,Y)---(4)]]>volume(B)=ΣX∈B,Y∈VSimOM(X,Y)---(5)]]>cut(A,B)是集合A中的事件和集合B中事件相似度的總和,volume(A)是集合A和集合V中事件相似度的總和,volume(B)是集合B和集合V中事件相似度的總和,SimOM(X,Y)是指公式(1),表示事件X與事件Y的相似度。公式(2)可以表示為D-12(D-W)D-12z=λz---(6)]]>其中,D和W是|V|×|V|的矩陣,D是一個對角陣,D(X,Y)=Σy∈VSimOM(X,Y),]]>W是一個對稱陣,W(X,Y)=SimOM(X,Y)。在公式(6),對應(yīng)第二小特征值的特征向量被用于找到集合A和B。0被選擇作為分割點(diǎn),分割特征向量成為對應(yīng)集合A和B的兩個部分。上述算法被循環(huán)使用,直到某個聚類里所有事件相似度的平均值小于μ+ασ,μ和σ分別是圖G中所有事件相似度的均值和方差,α是一個試驗參數(shù)。
更進(jìn)一步,步驟(3)中,檢測重要新聞事件并形成摘要使用下面兩個規(guī)則(A) 聚類大小規(guī)則即一個事件播報次數(shù)的多少決定它是否是重要事件,根據(jù)用戶指定的摘要時間,按照事件聚類成員的數(shù)目,從高到低選擇重要事件;(B) 播報的頻道和時間規(guī)則即如果幾個事件聚類中的成員數(shù)目一樣,則不同電視頻道播報的事件,比僅僅一個頻道播報的事件重要;和在不同時間段播報的同一事件,比僅僅一天的某一個時間播報的事件重要。
一種重要新聞事件摘要的方法,包括以下步驟(1)計算出新聞視頻庫里所有新聞事件的相似度;(2)根據(jù)新聞事件的相似度,采用聚類算法,把所有新聞事件分割為一個個新聞事件聚類;(3)基于上述得到的事件聚類,根據(jù)聚類中的成員數(shù)目及播報的頻道和時間信息,檢測出新聞中的重要事件;(4)通過聚類中的代表事件來表示檢測到的重要事件,并在選擇的重要事件聚類C中,選擇一個代表事件作為重要新聞?wù)?br>
再進(jìn)一步,在上述步驟(4)中,在選擇的重要事件聚類C中,選擇一個代表事件作為新聞?wù)姆椒ㄈ缦逻x擇在事件聚類中的中心點(diǎn)即中心事件作為該聚類的代表事件。中心事件Mc,是在該聚類中和所有其它事件的相似度的和是最大的事件,如下列公式所示Mc=maxx∈C{Σy∈CSimOM(x,y)}---(7)]]>其中,Mc表示選取的中心事件,max表示最大值,C表示選擇的重要事件聚類,SimOM(X,Y)表示兩個事件X和Y的相似度。
本發(fā)明的效果在于現(xiàn)有的視頻摘要方法主要是針對一段視頻進(jìn)行摘要,但如何在多個電視臺或電視頻道的新聞視頻數(shù)據(jù)庫里,自動檢測重要新聞,并按照重要度從高到低形成用戶指定時間的新聞?wù)?,現(xiàn)有技術(shù)并沒有涉及。本發(fā)明提出了這個應(yīng)用問題,并給出了解決這個問題的一個方法。采用本發(fā)明,不僅能夠檢測新聞視頻庫里的重要新聞事件,而且可以形成用戶指定時間長度的重要新聞?wù)?br>
本發(fā)明之所以具有如此顯著的技術(shù)效果,其原因在于
一、如前面技術(shù)內(nèi)容所述,本發(fā)明提出利用圖論的最優(yōu)匹配算法來度量兩個新聞事件的相似性,計算出新聞庫里所有新聞事件的相似度;二、然后,所有新聞事件被建模為一個完全的帶權(quán)圖,提出使用標(biāo)準(zhǔn)化分割算法(Normalized Cut)全局優(yōu)化地分割這個帶權(quán)圖為一個個事件聚類;三、最后,考慮結(jié)果聚類中的成員數(shù)目及播報的頻道和時間,重要新聞事件可以被自動檢測,并按照重要度的高低,形成用戶指定時間長度的新聞?wù)?。?0個小時新聞視頻庫上的試驗結(jié)果表明,本發(fā)明取得了很好的結(jié)果。
圖1是本發(fā)明的總體框架,是本發(fā)明中各步方法的流程示意圖;圖2是本發(fā)明對一個新聞事件的聚類結(jié)果。
具體實施例方式
下面結(jié)合附圖和具體實施方式
對本發(fā)明作進(jìn)一步詳細(xì)的描述。
圖1列出了本發(fā)明各步方法的流程示意圖,包括以下步驟1、鏡頭邊界檢測首先使用時空切片算法(spatio-temporal slice)進(jìn)行鏡頭邊界檢測,把新聞視頻庫中的每個新聞事件分割為鏡頭,關(guān)于時空切片算法的詳細(xì)描述可以參考文獻(xiàn)“Video Partitioning by Temporal Slice Coherency”[C.W.Ngo,T.C.Pong,and R.T.Chin,IEEE Transactions on Circuits and Systems for VideoTechnology,Vol.11,No.8,pp.941-953,August,2001]。
除了本發(fā)明所使用的時空切片算法以外,進(jìn)行鏡頭分割的方法還有多種,例如相鄰幀相減,相鄰幀的直方圖求差,壓縮域分割鏡頭等方法。這些方法都是本領(lǐng)域內(nèi)的公知技術(shù)。
2、計算新聞事件之間的相似度利用圖論的最優(yōu)匹配算法度量兩個新聞事件的相似度的方法如下把每對相似鏡頭的相似值作為杈值賦給G={X,Y,E}的每條邊,這時的G就轉(zhuǎn)化為一個帶權(quán)的二分圖,其中,X和Y表示兩個新聞事件,E表示事件X和Y中每對鏡頭的相似值。本實施例中,具體計算最優(yōu)匹配的Kuhn_Munkres算法如下(1)給出初始標(biāo)l(xi)=maxjωij,]]>l(yj)=0,i,j=1,2…,t,t=max(p,q),其中,p和q表示新聞事件X和Y的鏡頭數(shù)目;(2)求出邊集El={(xi,yj)|l(xi)+l(yj}=ωij)、Gl=(X,Y,El)及Gl中的一個匹配M;(3)如M已飽和X的所有結(jié)點(diǎn),則M即是G的最優(yōu)匹配,計算結(jié)束,否則進(jìn)行下一步;
(4)在X中找一M非飽和點(diǎn)x0,令A(yù)←{x0},B←φ,A,B是兩個集合;(5)若NGl(A)=B,]]>則轉(zhuǎn)第(9)步,否則進(jìn)行下一步,其中,NGl(A)⊆Yk,]]>是與A中結(jié)點(diǎn)鄰接的結(jié)點(diǎn)集合;(6)找一結(jié)點(diǎn)y∈NGl(A)-B;]]>(7)若y是M飽和點(diǎn),則找出y的配對點(diǎn)z,令A(yù)←A∪{z},B←B∪{y},轉(zhuǎn)第(5)步,否則進(jìn)行下一步;(8)存在一條從x0到y(tǒng)的可增廣路P,令M←ME(P),轉(zhuǎn)第(3)步;(9)按下式計算a值a=minxi∈Ayj∉NGl(A){l(xi)+l(yj)-ωij},]]>修改標(biāo)號 根據(jù)l′求El′及Gl′;(10)l←l′,Gl←Gl′,轉(zhuǎn)第(6)步;這樣,兩個事件X和Y的相似度定義為SimOM(X,Y)=ωOM(X,Y)min(p,q)---(1)]]>其中,ωOM(X,Y)是在Kuhn-Munkres算法以后得到的總權(quán)值。min(p,q)表示取p和q中的較小值,它的作用是把ωOM(X,Y)正則化到
。
視頻事件相似度的度量方法,除了本發(fā)明使用的最優(yōu)匹配方法以外,還有其它方法,如基于關(guān)鍵幀的直方圖相交法,動態(tài)規(guī)劃方法等。另外,實現(xiàn)最優(yōu)匹配的方法除了上述的Kuhn-Munkres算法以外,還有其它方法,如最大網(wǎng)絡(luò)流方法等。這些方法都是本領(lǐng)域內(nèi)的公知技術(shù)。
3、新聞事件聚類給定新聞視頻庫中的所有事件,把所有事件之間的相似度建模為一個帶權(quán)圖G=(V,E),其中,V是新聞事件的集合,E是邊的集合,表示新聞事件之間的相似度。本發(fā)明分解G為一個個子圖(或聚類)。分解的原則是最小化聚類里的距離,同時最大化聚類間的距離?;谶@個原則,本發(fā)明采用了標(biāo)準(zhǔn)化分割算法(Normalized Cut),循環(huán)地分解G為事件的聚類。標(biāo)準(zhǔn)化分割算法可以全局優(yōu)化地分割G為兩個不相鄰的集合A和B,這是通過最小化下列公式實現(xiàn)的Ncut(A,B)=cut(A,B)volume(A)+cut(A,B)volume(B)---(2)]]>其中
cut(A,B)=ΣX∈A,Y∈BSimOM(X,Y)---(3)]]>volume(A)=ΣX∈A,Y∈VSimOM(X,Y)---(4)]]>volume(B)=ΣX∈B,Y∈VSimOM(X,Y)---(5)]]>cut(A,B)是集合A中的事件和集合B中事件相似度的總和,volume(A)是集合A和集合V中事件相似度的總和。SimOM(X,Y)是指公式(1),表示事件X與事件Y的相似度。公式(2)可以表示為D-12(D-W)D-12z=λz---(6)]]>其中,D和W是|V|×|V|的矩陣,D是一個對角陣,D(X,Y)=Σy∈VSimOM(X,Y),]]>W是一個對稱陣,W(X,Y)=SimOM(X,Y)。在公式(6),對應(yīng)第二小特征值的特征向量被用于找到集合A和B。0被選擇作為分割點(diǎn),分割特征向量成為對應(yīng)集合A和B的兩個部分。上述算法被循環(huán)使用,直到某個聚類里所有事件相似度的平均值小于μ+ασ,μ和σ分別是圖G中所有事件相似度的均值和方差,α是一個試驗參數(shù)。
關(guān)于聚類的方法,除了本發(fā)明使用的標(biāo)準(zhǔn)化分割算法(Normalized Cut)以外,還有其它方法,如K-means方法,single pass方法等。這些方法都是本領(lǐng)域內(nèi)的公知技術(shù)。
4、重要新聞事件的檢測和摘要基于上述得到的事件聚類,根據(jù)聚類中的成員數(shù)目及播報的頻道和時間,可以檢測新聞中的重要事件。通過選擇聚類中的代表事件,可以表示檢測到的重要事件。當(dāng)用戶指定摘要時間,本實施例使用下面兩個規(guī)則選擇重要事件形成摘要(A)聚類大小。重要事件具有下列主要特征不同的電視臺和電視頻道會在不同的時間段重復(fù)播報重要事件。如伊拉克戰(zhàn)爭,倫敦爆炸事件,因為是重要新聞,世界上絕大多數(shù)電視臺都會在不同的時間段反復(fù)播報最新的進(jìn)展。因此,一個事件播報的次數(shù)可以決定它是否是重要事件。根據(jù)用戶指定的摘要時間,可以按照事件聚類成員的數(shù)目,從高到低選擇重要事件形成新聞?wù)?br>
(B)播報的頻道和時間。如果幾個事件聚類中的成員數(shù)目一樣,本發(fā)明采用下列兩個規(guī)則來決定這幾個事件哪個更重要。(1)頻道數(shù)目不同電視頻道播報的一個事件,比僅僅一個頻道播報的事件重要;(2)時間段在不同時間段播報的同一事件(例如,早上,中午,晚上),比僅僅一天的某一個時間播報的事件重要。在選擇的重要事件聚類C中,一個代表事件被選擇作為新聞?wù)姆椒ㄈ缦逻x擇在事件聚類中的中心點(diǎn)(中心事件)作為該聚類的代表事件。中心事件Mc,是在該聚類中和所有其它事件的相似度的和是最大的事件,如下列公式所示Mc=maxx∈C{Σy∈CSimOM(x,y)}---(7)]]>其中,Mc表示選取的中心點(diǎn)即中心事件,max表示最大值,C表示選擇的重要事件聚類,SimOM(X,Y)表示兩個事件X和Y的相似度。
關(guān)于在選擇的重要事件聚類C中,選擇一個代表事件作為重要新聞?wù)姆椒?,除了本發(fā)明使用的事件聚類中心點(diǎn)的方法以外,還有其它方法,如選擇聚類中時間長度最長的事件,或者時間長度居中的事件,或者時間長度最短的事件。
下面用試驗結(jié)果來說明本發(fā)明的實際效果。使用了10個小時的新聞視頻庫做試驗。這些新聞是從7個電視頻道在4天的時間里連續(xù)錄制的。通過觀察這些新聞視頻,同一個重要新聞事件,會被不同的電視頻道反復(fù)播報,不同的播報會有編輯和側(cè)重點(diǎn)的不同,但它們都會有一些共同的畫面,如主要人物、地點(diǎn)和事件等。即使同一個頻道,也會對重要事件在不同的時間段反復(fù)播報,播報的內(nèi)容也會有編輯和時間長短的區(qū)別。
試驗新聞視頻庫被分割為一個個新聞事件??偣灿?39個新聞事件。其中,報道超過一次的事件數(shù)目如表1所示,總共,有115次報道涉及41個事件。本發(fā)明的目標(biāo)是(1)把描繪同一事件的新聞報道分割到一個聚類里;(2)按照新聞事件重要度的高低,選取重要事件形成摘要。
表1 試驗數(shù)據(jù)庫中報道次數(shù)超過一次的新聞事件數(shù)目
(1)聚類本發(fā)明使用F-measure評價新聞事件聚類的性能。F-measure通過比較檢測到的聚類和正確結(jié)果聚類(ground-truth)來評價聚類的質(zhì)量。讓T表示正確結(jié)果聚類,D表示檢測到的聚類,F(xiàn)-measure定義為F=1ZΣCi∈T|Ci|maxCj∈D{F(Ci,Cj)}---(8)]]>
F(Ci,Cj)=2×Recall(Ci,Cj)×Precision(Ci,Cj)Recall(Ci,Cj)+Precision(Ci,Cj)---(9)]]>其中,Recall(Ci,Cj)=|Ci∩Cj||Ci|---(10)]]>Precision(Ci,Cj)=|Ci∩Cj||Cj|---(11)]]>Z=ΣCi∈T|Ci|]]>是正則化常量。F-measure的范圍在
,它的值越大,表示聚類結(jié)果越好,反之越差。使用本發(fā)明的標(biāo)準(zhǔn)化分割算法(Normalized Cut)以后,得到291個聚類,F(xiàn)-measure=0.8225。其中,正確聚類的結(jié)果T=290,檢測到的聚類D=291。一些重要新聞事件的聚類結(jié)果如表2所示。一些事件的聚類,如第1個事件和第3個事件的聚類,被分割成兩個聚類。另外,在表2的聚類結(jié)果里,也包括了錯誤的事件,如第1個事件的聚類里包括了2個錯誤事件;第2個事件的聚類里也包括了2個錯誤事件,這是由于錯誤事件和正確事件在背景顏色上的相似性,使得最優(yōu)匹配的相似度度量方法認(rèn)為它們相似。因為本發(fā)明選擇聚類的中心點(diǎn)(中心事件)作為聚類的代表,在形成新聞?wù)獣r,如表2所示的錯誤事件都沒有被選擇作為視頻摘要。圖2顯示了表2中事件6的聚類結(jié)果。雖然該事件的三個報道來自不同的頻道,但它們都被正確地分割到一個聚類里,并且沒有包括錯誤事件。
表2 重要新聞事件的聚類結(jié)果
(2)摘要當(dāng)用戶指定摘要的時間長度,本發(fā)明能夠根據(jù)事件重要度的高低自動形成摘要。如前所述,這是根據(jù)聚類大小和播報的頻道和時間來實現(xiàn)的,聚類的中心事件(中心點(diǎn))被選擇作為摘要。為了進(jìn)行試驗對比,基于正確的人工聚類結(jié)果,正確的人工摘要也被產(chǎn)生。例如,當(dāng)摘要時間等于10分鐘時,正確的人工摘要包括報道6次的3個事件和報道4次的3個事件(見表3)。表3顯示了摘要的結(jié)果。試驗結(jié)果表明,本發(fā)明能夠包括大多數(shù)正確的重要事件形成摘要。在摘要里,一些重要事件重復(fù)出現(xiàn)了,這是因為一些聚類被分割成多個聚類的結(jié)果。
表3重要新聞事件的摘要結(jié)果
本發(fā)明所述的方法并不限于具體實施方式
中所述的實施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
權(quán)利要求
1.一種重要新聞事件檢測的方法,包括以下步驟(1)計算出新聞視頻庫里所有新聞事件的相似度;(2)根據(jù)新聞事件的相似度,采用聚類算法,把所有新聞事件分割為一個個新聞事件聚類;(3)基于上述得到的事件聚類,根據(jù)聚類中的成員數(shù)目及播報的頻道和時間信息,檢測出新聞中的重要事件。
2.如權(quán)利要求1所述的一種重要新聞事件檢測的方法,其特征在于步驟(1)中,首先進(jìn)行鏡頭邊界檢測,把新聞視頻庫中的每個新聞事件分割為鏡頭;然后把每對相似鏡頭的相似值作為權(quán)值賦給G=(X,Y,E}的每條邊,這時的G就轉(zhuǎn)化為一個帶權(quán)的二分圖,其中,X和Y表示兩個新聞事件,E表示事件X和Y中每對鏡頭的相似值,使用圖論的最優(yōu)匹配算法,計算兩個新聞事件X和Y的相似度為SimOM(X,Y)=ωOM(X,Y)min(p,q)--(1)]]>其中,ωOM(X,Y)是在最優(yōu)匹配算法以后得到的總權(quán)值,p和q表示事件X和Y的鏡頭數(shù)目,min(p,q)表示取p和q中的最小值。
3.如權(quán)利要求2所述的一種重要新聞事件檢測的方法,其特征在于步驟(1)中,使用時空切片算法進(jìn)行鏡頭邊界檢測。
4.如權(quán)利要求2所述的一種重要新聞事件檢測的方法,其特征在于步驟(1)中,計算兩個新聞事件X和Y的相似度時,采用的圖論的最優(yōu)匹配算法是Kuhn-Munkres算法。
5.如權(quán)利要求1或4所述的一種重要新聞事件檢測的方法,其特征在于步驟(2)中,采用的聚類算法如下給定新聞視頻庫中的所有事件,把所有事件之間的相似度建模為一個帶權(quán)圖G=(V,E),其中,V是新聞事件的集合,E是邊的集合,表示新聞事件之間的相似度,本發(fā)明分解G為一個個子圖,分解的原則是最小化聚類里的距離,同時最大化聚類間的距離,基于這個原則,本發(fā)明采用了標(biāo)準(zhǔn)化分割算法,循環(huán)地分解G為事件的聚類,標(biāo)準(zhǔn)化分割算法可以全局優(yōu)化地分割G為兩個不相鄰的集合A和B,這是通過最小化下列公式實現(xiàn)的Ncut(A,B)=cut(A,B)volume(A)+cut(A,B)volume(B)---(2)]]>其中cut(A,B)=ΣX∈A,Y∈BSimOM(X,Y)---(3)]]>volume(A)=ΣX∈A,Y∈VSimOM(X,Y)---(4)]]>volume(B)=ΣX∈B,Y∈VSimOM(X,Y)---(5)]]>cut(A,B)是集合A中的事件和集合B中事件相似度的總和,volume(A)是集合A和集合V中事件相似度的總和,volume(B)是集合B和集合V中事件相似度的總和,SimOM(X,Y)是指公式(1),表示事件X與事件Y的相似度,公式(2)可以表示為D-12(D-W)D-12z=λz---(6)]]>其中,D和W是|V|×|V|的矩陣,D是一個對角陣,D(X,Y)=Σy∈VSimOM(X,Y),]]>W是一個對稱陣,W(X,Y)=SimOM(X,Y),在公式(6),對應(yīng)第二小特征值的特征向量被用于找到集合A和B,0被選擇作為分割點(diǎn),分割特征向量成為對應(yīng)集合A和B的兩個部分,上述算法被循環(huán)使用,直到某個聚類里所有事件相似度的平均值小于μ+ασ,μ和σ分別是圖G中所有事件相似度的均值和方差,α是一個試驗參數(shù)。
6.如權(quán)利要求5所述的一種重要新聞事件檢測的方法,其特征在于步驟(3)中,檢測重要新聞事件使用下面兩個規(guī)則(A)聚類大小規(guī)則即一個事件播報次數(shù)的多少決定它是否是重要事件,根據(jù)用戶指定的摘要時間,按照事件聚類成員的數(shù)目,從高到低選擇重要事件;(B)播報的頻道和時間規(guī)則即如果幾個事件聚類中的成員數(shù)目一樣,則不同電視頻道播報的事件,比僅僅一個頻道播報的事件重要;和在不同時間段播報的同一事件,比僅僅一天的某一個時間播報的事件重要。
7.如權(quán)利要求1所述的一種重要新聞事件檢測的方法,其特征在于步驟(3)中,檢測重要新聞事件使用下面兩個規(guī)則(A)聚類大小規(guī)則即一個事件播報次數(shù)的多少決定它是否是重要事件,根據(jù)用戶指定的摘要時間,按照事件聚類成員的數(shù)目,從高到低選擇重要事件形成新聞?wù)?B)播報的頻道和時間規(guī)則即如果幾個事件聚類中的成員數(shù)目一樣,則不同電視頻道播報的事件,比僅僅一個頻道播報的事件重要;和在不同時間段播報的同一事件,比僅僅一天的某一個時間播報的事件重要。
8.一種重要新聞事件摘要的方法,包括以下步驟(1)計算出新聞視頻庫里所有新聞事件的相似度;(2)根據(jù)新聞事件的相似度,采用聚類算法,把所有新聞事件分割為一個個新聞事件聚類;(3)基于上述得到的事件聚類,根據(jù)聚類中的成員數(shù)目及播報的頻道和時間信息,檢測出新聞中的重要事件;(4)通過聚類中的代表事件來表示檢測到的重要事件,并在選擇的重要事件聚類C中,選擇一個代表事件作為重要新聞?wù)?br>
9.如權(quán)利要求8所述的一種重要新聞事件摘要的方法,其特征在于步驟(4)在選擇的重要事件聚類C中,選擇一個代表事件作為新聞?wù)姆椒ㄈ缦逻x擇在事件聚類中的中心點(diǎn)即中心事件作為該聚類的代表事件,所述的中心事件M。是在該聚類中和所有其它事件的相似度的和是最大的事件,如下列公式所示Mc=maxx∈C{Σy∈CSimOM(x,y)}---(7)]]>其中,Mc表示選取的中心點(diǎn)即中心事件,max表示取最大值,C表示選擇的重要事件聚類,SimOM(X,Y)表示兩個事件X和Y的相似度。
全文摘要
本發(fā)明屬于視頻分析和檢索技術(shù)領(lǐng)域,具體涉及一種重要新聞事件檢測和摘要的方法?,F(xiàn)有的視頻摘要方法主要是針對一段視頻進(jìn)行摘要,但如何在多個電視臺或電視頻道的新聞視頻數(shù)據(jù)庫里,自動檢測重要新聞,并按照重要度從高到低形成用戶指定時間的新聞?wù)?,現(xiàn)有技術(shù)并沒有涉及。本發(fā)明首先使用視頻事件相似度的度量方法,計算出新聞視頻庫里所有新聞事件的相似度;然后,使用聚類算法,把同一新聞事件的不同報道分割為一個個聚類;最后,根據(jù)每個事件聚類中的成員數(shù)目及播報的頻道和時間,自動檢測重要新聞事件,并按照重要度高低,形成用戶指定時間的新聞?wù)?。實踐結(jié)果表明,本發(fā)明能夠有效檢測重要新聞并形成相應(yīng)的新聞?wù)?br>
文檔編號G06F17/30GK1710563SQ20051008421
公開日2005年12月21日 申請日期2005年7月18日 優(yōu)先權(quán)日2005年7月18日
發(fā)明者彭宇新, 吳於茜, 陳曉歐 申請人:北大方正集團(tuán)有限公司, 北京北大方正技術(shù)研究院有限公司, 北京大學(xué)計算機(jī)科學(xué)技術(shù)研究所