本發(fā)明涉及一種用于對視頻場景切換進行檢測的方法和裝置,能夠利用幀間特征點的匹配關(guān)系對視頻場景的切換幀進行檢測,并根據(jù)檢測結(jié)果來獲取各視頻場景的索引幀,并能夠利用對視頻場景的變化程度的分析來同時執(zhí)行粗檢測和細檢測,從而在場景漸變切換和突變切換的情形均實現(xiàn)切換幀的有效檢測。
背景技術(shù):
在媒體行業(yè),每天都有海量的視頻資料數(shù)據(jù)產(chǎn)生并需要對其進行存儲。如何有效地對這些視頻資料數(shù)據(jù)進行存儲和管理是一個亟待解決的技術(shù)問題。
在對視頻資料數(shù)據(jù)進行存儲和管理的過程中,根據(jù)視頻場景的不同,能夠?qū)σ曨l內(nèi)容進行分割的視頻場景分割技術(shù),正越來越受到媒體行業(yè)的重視。該視頻場景分割技術(shù)能夠有效提高視頻存儲、管理和查找的效率,并正在得到更廣泛的應用。
所謂視頻場景通常是指一次鏡頭連續(xù)拍攝所獲取的視頻內(nèi)容,其具有連貫性。因此,往往可以用視頻場景中的一幀的視頻內(nèi)容來作為整個視頻場景的代表。作為該視頻場景的代表的幀通常被成為索引幀。所謂視頻場景切換是指視頻內(nèi)容從一個視頻場景切換到另一個視頻場景的過程。在視頻場景切換的過程中通常會出現(xiàn)視頻內(nèi)容的不連貫,因此,有時會出現(xiàn)對視頻內(nèi)容的不同視頻場景進行分割的需求。所謂對視頻場景進行分割是指根據(jù)視頻場景的切換位置,將視頻內(nèi)容根據(jù)視頻場景的不同而分割成多個單一視頻場景的視頻片段。
對視頻場景進行分割的意義在于:對單一視頻場景的視頻片段 的管理比對整體的視頻的管理更具有效率。例如,可以將同類型場景的視頻片段進行集中管理,因此,當需要使用某一類型的視頻片段時,可以直接在該類型的視頻場景庫中進行,而避免在內(nèi)容更多更復雜的整體視頻庫中查找。
此外,單一視頻場景的視頻片段往往可以用其中某一幀的內(nèi)容來代表。通常,將該幀稱為索引幀(或者代表幀)。然后,采用利用索引幀來進行索引的方式可以有效地管理視頻場景的視頻片段,并快速地檢索到所需的視頻場景。例如,在一個有10000幀、100個場景的整體視頻內(nèi)容中,利用視頻場景分割技術(shù)可以獲取100個單一視頻場景的視頻片段,每個視頻片段選取一個幀作為索引幀,總共可以獲取100個索引幀,那么,在一次視頻場景的查找中,只需要檢索這100個索引幀,而不是整體的10000幀,極大地提高了效率。
對視頻場景進行分割的關(guān)鍵點在于找到視頻場景的切換位置(例如,切換幀)。視頻場景的切換通常分為兩類:突變切換和漸變切換。突變切換是指視頻場景的切換位置在于相鄰的兩幀之間;而漸變切換是指視頻場景的切換在大于兩幀的幀間逐漸進行的切換。
目前,已有一些技術(shù)能夠?qū)σ曨l場景進行分割。申請?zhí)枮閏n201110405542的專利申請?zhí)岢隽艘环N基于聚類的場景檢測方法。另一申請?zhí)枮閏n201410831291的專利申請?zhí)岢隽艘环N基于彩色信息的基于區(qū)域分割的場景檢測方法。此外,美國專利no:us8913872提出了一種基于區(qū)域分割和灰度均值的場景檢測方法。
但是,這些技術(shù)偏重于利用視頻內(nèi)容的諸如彩色信息等整體信息,因此對于視頻場景的漸變切換的檢測存在困難,而且對于視頻場景未切換,但局部變化較大的視頻場景會出現(xiàn)誤檢測的情形。
技術(shù)實現(xiàn)要素:
為了克服現(xiàn)有技術(shù)的上述缺陷提出了本發(fā)明。因此,本發(fā)明的目的之一是提出一種用于對視頻場景切換進行檢測的方法和裝置,能夠利用幀間特征點的匹配關(guān)系對視頻場景的切換幀進行檢測,并能夠利用對視頻場景的變化程度的分析來同時執(zhí)行粗檢測和細檢測,從而 在場景漸變切換和突變切換的情形均實現(xiàn)切換幀的有效檢測。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明,提出了一種用于對視頻場景切換進行檢測的方法,包括:提取步驟,從包括多個視頻場景的視頻片段的視頻內(nèi)容中提取各個視頻幀;以及檢測步驟,將規(guī)定間隔的兩個視頻幀確定為檢測幀,利用兩個檢測幀之間的特征點匹配率來檢測處于視頻場景的切換位置的切換幀。
優(yōu)選地,所述檢測步驟包括:執(zhí)行將相鄰的兩個視頻幀作為檢測幀的細檢測;以及執(zhí)行規(guī)定間隔的并非相鄰的兩個視頻幀作為檢測幀的粗檢測。
優(yōu)選地,所述檢測步驟還包括:將通過細檢測所檢測到的切換幀和通過粗檢測所檢測到的切換幀合在一起作為最終的切換幀。
優(yōu)選地,所述粗檢測中所采用的規(guī)定間隔是根據(jù)視頻內(nèi)容的相鄰幀之間的變化程度的統(tǒng)計值來確定的。
優(yōu)選地,所謂特征點匹配率由兩個檢測幀之間的匹配的特征點占第二個檢測幀中特征點總數(shù)的比例來表示。
優(yōu)選地,將特征點匹配率為零處的第二檢測幀確定為所述切換幀。
優(yōu)選地,本發(fā)明的方法還包括:針對各視頻場景,確定作為該視頻場景的視頻片段的代表的索引幀。
另外,根據(jù)本發(fā)明,還提出了一種用于對視頻場景切換進行檢測的裝置,包括:提取單元,從包括多個視頻場景的視頻片段的視頻內(nèi)容中提取各個視頻幀;以及檢測單元,將規(guī)定間隔的兩個視頻幀確定為檢測幀,利用兩個檢測幀之間的特征點匹配率來檢測處于視頻場景的切換位置的切換幀。
由此可見,本發(fā)明能夠自動對視頻場景切換進行檢測,通過利用對視頻場景的變化程度的分析和幀間特征點的匹配關(guān)系,能夠?qū)u變切換和突變切換進行有效的檢測。
附圖說明
通過參考以下組合附圖對所采用的優(yōu)選實施方式的詳細描述, 本發(fā)明的上述目的、優(yōu)點和特征將變得更顯而易見,其中:
圖1是用于說明將視頻內(nèi)容分割為單一視頻場景的視頻片段,并利用索引幀進行存儲和管理的視頻檢索系統(tǒng)的示意圖。
圖2是示出了具有不同的視頻場景的一段視頻內(nèi)容的示意圖。
圖3是示出了根據(jù)本發(fā)明的對視頻場景切換進行檢測的方法的一個應用場景的示意圖。
圖4是示出了根據(jù)本發(fā)明的獲取各視頻場景的索引幀的示意圖。
圖5是示出了根據(jù)本發(fā)明的對視頻場景切換進行檢測的方法中所利用的兩幀之間的特征點匹配關(guān)系的示意圖。
圖6是示出了突變切換和漸變切換這兩類視頻場景的切換的示意圖。
圖7是示出了根據(jù)本發(fā)明的對視頻場景切換進行檢測的方法中所利用的細檢測和粗檢測的示意圖。
圖8示出了將細檢測檢測到的視頻場景切換位置與粗檢測檢測到的視頻場景切換位置合在一起作為最終得到的檢測結(jié)果的示意圖。
圖9是示出了根據(jù)本發(fā)明的用于對視頻場景切換進行檢測的方法的流程圖。
圖10是示出了根據(jù)本發(fā)明的用于對視頻場景切換進行檢測的方法的兩個不同應用場景的示意圖。
具體實施方式
下面將參考附圖描述本發(fā)明的優(yōu)選實施例。在附圖中,相同的元件將由相同的參考符號或數(shù)字表示。此外,在本發(fā)明的下列描述中,將省略對已知功能和配置的具體描述,以避免使本發(fā)明的主題不清楚。
圖1是用于說明將視頻內(nèi)容分割為單一視頻場景的視頻片段,并利用索引幀進行存儲和管理的視頻檢索系統(tǒng)的示意圖。
圖1的左側(cè)表示各個不同的視頻內(nèi)容。各個視頻內(nèi)容的每一個包括多個單一視頻場景的視頻片段。每一個單一視頻場景的視頻片段可以由作為該視頻場景的代表的幀即索引幀來表示,如圖1的中部所示。關(guān)于為每一個視頻場景確定索引幀的具體方法,存在許多的已知方法, 例如可以選用一個視頻場景的中間幀,或者首尾幀中的一幀作為索引幀,在此不再具體描述。在視頻檢索系統(tǒng)中,為了對視頻資料數(shù)據(jù)進行存儲和管理,將代表各視頻場景的索引幀存儲在一個數(shù)據(jù)庫中,如圖1的右側(cè)所示。這樣,對視頻場景進行檢索則可以利用該數(shù)據(jù)庫來進行。
圖2是示出了具有不同的視頻場景的一段視頻內(nèi)容的示意圖。
如圖2所示,通常,視頻內(nèi)容由多個單一視頻場景的視頻片段構(gòu)成。如前面已經(jīng)描述過的,所謂視頻場景通常是指一次鏡頭連續(xù)拍攝所獲取的視頻內(nèi)容,其具有連貫性。由于對單一視頻場景的視頻片段的管理比對整體的視頻的管理更具有效率,所以需要將視頻內(nèi)容分割為多個單一視頻場景的視頻片段。利用以下所描述的本發(fā)明的對視頻場景切換進行檢測的方法,能夠有效地對這些視頻場景進行分割,進而確定各視頻場景的索引幀。
圖3是示出了根據(jù)本發(fā)明的對視頻場景切換進行檢測的方法的應用場景的示意圖。
如圖3所示,利用根據(jù)本發(fā)明的對視頻場景切換進行檢測的方法,能夠?qū)⒁粋€視頻內(nèi)容分割為多個單一視頻場景的視頻片段。對于每個視頻場景,可以利用已有的方法來確定其索引幀。然后,將該視頻內(nèi)容的各索引幀存儲在數(shù)據(jù)庫中。這樣,對諸如視頻場景的檢索可以通過在數(shù)據(jù)庫中對所存儲的索引幀進行檢索來實現(xiàn)。
圖4是示出了根據(jù)本發(fā)明的獲取各視頻場景的索引幀的示意圖。
為了提取各視頻場景的索引幀,需要首先確定各視頻場景的切換位置。在本發(fā)明中,可以利用對視頻場景切換進行檢測的方法,先確定構(gòu)成該視頻內(nèi)容的各視頻場景的切換幀,即,各視頻場景之間發(fā)生切換的位置處的幀。然后,在相鄰的兩個切換幀之間,即,針對每個視頻場景,通過已知的方法來獲取索引幀。在圖4所示的示例中,共示出了7個不同的場景。對于每一個視頻場景,獲得了相應的索引幀作為該視頻場景的代表,例如,圖4所示的索引幀1~7。
圖5是示出了根據(jù)本發(fā)明的對視頻場景切換進行檢測的方法中所利用的兩幀之間的特征點匹配關(guān)系的示意圖。
如背景部分所描述過的,在對視頻場景切換進行檢測的現(xiàn)有技術(shù)中,利用視頻內(nèi)容的諸如彩色信息等整體信息來檢測視頻場景的切換位置,因此對于視頻場景的漸變切換的檢測存在困難,甚至會出現(xiàn)誤檢測的情形。
在本發(fā)明的對視頻場景切換進行檢測的方法中,利用兩檢測幀之間的特征點匹配來對視頻場景的切換位置進行檢測。檢測幀是指一段視頻中用來進行檢測的幀,一般為相鄰兩幀或相鄰一定間隔的兩幀。特征點是通過一些已有的特征點提取算法在檢測幀中獲取的各幀的圖像中所包括的不同對象(物體)上的特征點,所謂特征點是指在圖像上利用一些算法提取的具有一定特征的像素點,例如在圖像中邊緣處的角點、交叉點,或在像素點一定領(lǐng)域內(nèi)具有某種統(tǒng)計特征的像素點。特征點具有一個表征該特征性質(zhì)的多維的特征向量。特征點提取算法包括諸如sift或surf算法。關(guān)于各幀圖像的特征點的提取已經(jīng)是公知的技術(shù),因此在此不再具體描述。
在本發(fā)明的對視頻場景切換進行檢測的方法中,利用了兩個檢測幀之間的特征點的匹配關(guān)系。所謂特征點匹配是指:計算兩個特征點的特征向量之間的歐式距離與某個閾值的大小關(guān)系,如果小于該閾值則兩特征點匹配,反之則不匹配。在本發(fā)明中,在對視頻場景切換位置進行檢測時,利用兩個檢測幀上提取的特征點進行特征點是否匹配的運算,從而確定兩個檢測幀之間特征點的匹配率。在特征點匹配率為零處的第二檢測幀確定為切換幀,即視頻場景的切換位置。
圖6是示出了突變切換和漸變切換這兩類視頻場景的切換的示意圖。
所謂突變切換是指視頻場景的切換位置在于相鄰的兩幀之間的切換,視頻場景的切換較為急劇。在圖6的上部所示的示例中,視頻場景的切換在兩幀之間迅速發(fā)生。而漸變切換是指視頻場景的切換在大于兩幀的幀間逐漸進行的切換,視頻場景的切換為漸進式的。在圖6下部所示的示例中,視頻場景的切換在5幀之間漸進發(fā)生。由于現(xiàn)有技術(shù)的對視頻場景切換的檢測是在兩個緊挨的相鄰檢測幀之間執(zhí)行的(參見如下所述的細檢測),因此通過現(xiàn)有技術(shù)的檢測方式無法對 漸變切換的切換位置進行檢測。這是在圖6下部所示的漸變切換的示例中,任意兩個相鄰檢測幀之間均存在類似的圖像內(nèi)容部分。因此,為了對漸變切換的切換位置進行檢測,需要對兩個檢測幀之間的間隔進行調(diào)整。例如,在圖6下部所示的漸變切換的示例中,可以將兩個檢測幀之間的間隔調(diào)整為5個幀,即,執(zhí)行如下所述的粗檢測。顯然,通過調(diào)整為每5個幀檢測一次,由于第1個幀和第5個幀之間沒有類似的圖像內(nèi)容部分(特征對象或特征點),因此能夠通過檢測來將漸變切換分割為兩個場景。
圖7是示出了根據(jù)本發(fā)明的對視頻場景切換進行檢測的方法中所利用的細檢測和粗檢測的示意圖。
如在圖6的說明中所提到過的,細檢測的檢測幀為緊挨著的相鄰兩幀。而粗檢測的檢測幀為有一定間隔的兩幀。細檢測和粗檢測的判定均通過兩個檢測幀之間的特征點匹配率來判定。例如,所謂特征點匹配率可以由兩個檢測幀之間的匹配的特征點占第二個檢測幀中特征點總數(shù)的比例來表示。如果特征點匹配率為0,那么一個視頻場景變換被檢測。此時,將該第二個檢測幀確定為切換幀。
作為粗檢測的檢測幀的間隔,可以通過以下的公式來計算:
interval=αn(4)
interval是粗檢測的檢測間隔;
δh是相鄰兩幀的灰度直方圖的差值;
n是表征一段視頻中灰度直方圖平均變化程度的參數(shù);
t是一段視頻的總幀數(shù);
α是表征n與interval關(guān)系的參數(shù);
i是灰度直方圖的尺度(從0-255);
δi是指兩個相鄰幀的灰度直方圖值為ith的像素數(shù)的差值。
例如,一段視頻具有n=32,通過(1),可以確定
通過上述公式(1)、(2)、(3)和(4),能夠根據(jù)視頻內(nèi)容的相鄰幀之間的變化程度的統(tǒng)計值來確定粗檢測的間隔。
圖8示出了將細檢測檢測到的視頻場景切換位置與粗檢測檢測到的視頻場景切換位置合在一起作為最終得到的檢測結(jié)果的示意圖。
由于漸變切換無法通過細檢測得出而僅能粗檢測來得到,因此,根據(jù)本發(fā)明的對視頻場景切換進行檢測的方法,需要將細檢測檢測到的視頻場景切換位置與粗檢測檢測到的視頻場景切換位置合在一起作為最終得到的檢測結(jié)果。如圖8所示,將細檢測檢測到的視頻場景的切換幀與粗檢測檢測到的視頻場景的切換幀合在一起作為最終得到的切換幀。由此,可以得到用于分割各個視頻場景的切換幀。
圖9是示出了根據(jù)本發(fā)明的用于對視頻場景切換進行檢測的方法的流程圖。
在步驟901,從輸入的視頻圖像中提取各個幀。在步驟903,利用相鄰幀之間的變化程度來確定粗檢測的間隔。然后,在步驟905,根據(jù)所確定的粗檢測間隔,進行粗檢測,計算兩個檢測幀之間的特征點匹配率。同時,在步驟911,在相鄰的兩個檢測幀之間進行細檢測,計算相鄰的兩個檢測幀之間的特征點匹配率。在步驟907,判斷粗檢測的特征點匹配率和細檢測的特征點匹配率是否為零。如果判斷為零(步驟907的“y”),則進入步驟913。在步驟913,將特征點匹配率為零處的檢測幀確定為切換幀,并記錄該切換幀的id。如果判斷為不為零(步驟907的“n”),則進入步驟909。在步驟909,判斷是否當前幀為最后一幀。如果為最后一幀(步驟909的“y”),則結(jié)束該檢測過程。如果不為最后一幀,則進入步驟905和911,繼續(xù)對切換幀進行確定。
圖10是示出了根據(jù)本發(fā)明的用于對視頻場景切換進行檢測的方法的兩個不同應用場景的示意圖。
如例子1所示,在視頻壓縮應用中,首先,將視頻分割為多個單一視頻場景的視頻片段,然后,對每個視頻片段根據(jù)長度提取出關(guān)鍵幀(即索引幀)。但是,每個場景至少有一個關(guān)鍵幀,這樣可以避免簡單根據(jù)時間間隔來提取關(guān)鍵幀并壓縮而錯失掉某些場景。
如例子2所示,在視頻檢索應用中,首先,將視頻分割為單一視頻場景的視頻片段。針對每個視頻片段,提取一個索引幀。然后,可以用這個索引幀來代表該視頻片段。這樣,就可以通過該索引幀快速找到這一視頻片段,不用去遍歷視頻的所有幀。
以上列舉了若干具體實施例來詳細闡明本發(fā)明,這些個例僅用于說明本發(fā)明的原理及其實施方法,而非對本發(fā)明的限制,在不脫離本發(fā)明的精神和范圍的情況下,本領(lǐng)域的技術(shù)人員還可以做出各種變形和改進。因此,本發(fā)明不應由上述實施例來限定,而應由所附權(quán)利要求及其等價物來限定。