專利名稱:一種新聞節(jié)目視頻分段方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多媒體處理技術(shù)領(lǐng)域,特別是涉及一種新聞節(jié)目視頻分段方法及系統(tǒng)。
背景技術(shù):
新聞節(jié)目是一種人們?nèi)粘I钪薪?jīng)常接觸的節(jié)目類型,隨著多媒體和網(wǎng)絡(luò)技術(shù)的發(fā)展,用戶收看新聞節(jié)目的途徑已經(jīng)不僅局限于電視播放,而是可以通過下載或者點播等多種形式觀看新聞節(jié)目。 和觀看其他類型視頻一樣,很多情況下,用戶可能并不需要每次都觀看完整的新聞節(jié)目內(nèi)容,而只關(guān)注其中的一些新聞片段。為了滿足上述應(yīng)用需求,一種常用的實現(xiàn)方式是,用戶在播放視頻時,通過"快進"、"快退"等操作,或者直接拖動播放進度條,找到特定的視頻播放時間點。但是,通常情況下用戶并不知道自己想要觀看的視頻片段應(yīng)該在整個視頻的什么位置,也就無法準(zhǔn)確定位播放時間點,這樣用戶可能需要多次的調(diào)整操作才能找到自己需要的內(nèi)容位置。 新聞節(jié)目一般是由多條新聞內(nèi)容組合而成,存在著較為明顯的分段依據(jù)。基于新聞節(jié)目的這種特點,可以將新聞節(jié)目視頻預(yù)先劃分成若干個段落,并加以適當(dāng)?shù)乃饕?,以滿足用戶的選擇播放需求。現(xiàn)有的新聞節(jié)目分段是主要是基于人工操作的方式,即由操作人員在視頻文件中手工標(biāo)記出分段點,這就要求操作人員首先要瀏覽過全部的新聞視頻,工作量大且繁瑣,處理效率較低。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明提供一種新聞節(jié)目視頻分段方法及系統(tǒng),以實現(xiàn)對新聞節(jié)目視頻的自動分段,技術(shù)方案如下
—種新聞節(jié)目視頻分段方法,包括 對視頻文件進行分析,檢測視頻文件中的關(guān)鍵幀,所述關(guān)鍵幀為視頻圖像中場景變化處的幀; 檢測所述關(guān)鍵幀中的播音員幀,所述播音員幀為具有播音員在播音室場景圖像的幀; 以所檢測出的播音員幀作為分段依據(jù),對視頻文件進行分段處理。
—種新聞節(jié)目視頻分段系統(tǒng),包括 關(guān)鍵幀檢測單元,用于對視頻文件進行分析,檢測視頻文件中的關(guān)鍵幀,所述關(guān)鍵幀為視頻圖像中場景變化處的幀; 播音員幀檢測單元,用于檢測所述關(guān)鍵幀中的播音員幀,所述播音員幀為具有播音員在播音室場景圖像的幀; 分段單元,用于以所檢測出的播音員幀作為分段依據(jù),對視頻文件進行分段處理。
本發(fā)明所提供的技術(shù)方案,利用新聞節(jié)目的固有特點,應(yīng)用圖像識別技術(shù)確定一些特定的視頻幀作為對視頻進行分段的依據(jù),其中,作為分段依據(jù)的特定視頻幀可以是播音員幀或標(biāo)題幀。應(yīng)用本發(fā)明技術(shù)方案,可以實現(xiàn)對新聞節(jié)目視頻的自動分段,從而有效減少視頻分段工作的人力和時間投入,提高處理效率。
為了更清楚地說明本發(fā)明或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)
描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中
記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以
根據(jù)這些附圖獲得其他的附圖。
圖1為新聞節(jié)目編排方式示意圖; 圖2為本發(fā)明的新聞節(jié)目視頻分段方法流程圖; 圖3為本發(fā)明關(guān)鍵幀檢測結(jié)果示意圖; 圖4(a)為新聞節(jié)目中的一種播音員位置示意圖; 圖4(b)為新聞節(jié)目中的另一種播音員位置示意圖; 圖5為本發(fā)明的播音員幀檢測結(jié)果示意圖; 圖6為新聞節(jié)目中的標(biāo)題字幕區(qū)域示意圖; 圖7為本發(fā)明標(biāo)題幀檢測結(jié)果示意圖; 圖8為本發(fā)明播音員幀與標(biāo)題幀的檢測結(jié)果示意圖; 圖9為本發(fā)明建立節(jié)目分段的示意圖; 圖10為本發(fā)明的新聞節(jié)目視頻分段系統(tǒng)的結(jié)構(gòu)示意圖; 圖11為本發(fā)明的新聞節(jié)目視頻分段系統(tǒng)的另一種結(jié)構(gòu)示意圖。
具體實施例方式
通過對現(xiàn)有技術(shù)的研究,發(fā)明人發(fā)現(xiàn)新聞節(jié)目具有以下特點一個完整的新聞節(jié)目, 一般是由若干個新聞片段組成,每個新聞片段在開始的時候由電視臺播音員做導(dǎo)播、然后是新聞的具體內(nèi)容和畫面;然后是下一個新聞片段的導(dǎo)播、下一個新聞片段的具體內(nèi)
容和畫面;......以此規(guī)律重復(fù),如圖l所示??梢?,盡管每個新聞片段的時長不同,但是
其編排方式是有一定的規(guī)律可循的,根據(jù)這種規(guī)律,"播音員"在做新聞分段時,是一個很重要的線索。找到了播音員,就能很快找到一個新聞片段的邊界。本發(fā)明則是基于這一規(guī)律,結(jié)合圖像處理等技術(shù),實現(xiàn)對新聞節(jié)目視頻的自動分段。 為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明中的附圖,對本發(fā)明中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護的范圍。
參見圖2所示,本發(fā)明所提供的新聞節(jié)目視頻的分段方法可以包括以下步驟
S201 ,對視頻文件進行分析,檢測視頻文件中的關(guān)鍵幀; 首先選擇待處理的視頻文件,打開視頻文件后可對其進行快速分析,這時系統(tǒng)通過鏡頭分割提取出視頻中的關(guān)鍵幀。這里所述的關(guān)鍵幀是通過分析視頻中鏡頭變換或前后圖像變化劇烈的小片段來獲取的,因為同一個場景中前后幀圖像的變化往往很小,所以通過此方法可使場景劃分更加準(zhǔn)確,同時減少冗余??梢詫㈥P(guān)鍵幀圖像顯示出來形成節(jié)目的
故事板,如圖3所示,使流式節(jié)目變成可非線性瀏覽的圖像列表。 S202,檢測關(guān)鍵幀中的播音員幀; 根據(jù)本說明書前面的分析可知,"播音員"是做新聞分段的一個重要線索,播音員出現(xiàn)的場景,可以認(rèn)為是一個新聞片段的開始。在S201中,已經(jīng)檢測到了整個視頻中涉及場景變換的關(guān)鍵幀,那么,通過在這些關(guān)鍵幀中進一步找出具有播音員在播音室場景圖像的幀,就可以將其作為視頻分段的依據(jù)。 對播音員幀的檢測,可以通過圖像匹配和/或人臉檢測等方式實現(xiàn)。 以新聞聯(lián)播為例,新聞播音室的環(huán)境在較長的時期內(nèi)都是固定不變的,因此可以
預(yù)先選取一張播音環(huán)境的標(biāo)準(zhǔn)圖片,將關(guān)鍵幀圖片分別與其進行匹配運算,其中,匹配運算
可以依據(jù)圖像灰度值、直方圖等參數(shù)來進行。通過進行匹配,可以將相似度大于某個預(yù)置閾
值的關(guān)鍵幀確定為播音員幀。 同理,在新聞節(jié)目的導(dǎo)播場景中,播音員的位置也是固定的,一般包括兩種形式一人居中或兩人分別占據(jù)左右,如圖4(a)和圖4(b)所示。根據(jù)這一規(guī)律,可以對關(guān)鍵幀圖像進行人臉檢測,如果檢測出關(guān)鍵幀中包含人臉,并且人臉?biāo)诘膮^(qū)域符合上述兩種情況,則可以將關(guān)鍵幀確定為播音員幀。 可以理解的是,在實際應(yīng)用中,為了獲得更好的播音員幀的檢測效果,也可以將上述兩種方式進行結(jié)合首先通過播音環(huán)境標(biāo)準(zhǔn)圖片與關(guān)鍵幀的圖像的對比,篩選出與播音室標(biāo)準(zhǔn)圖片相似度高的幀。再對篩選結(jié)果進行人臉檢測,獲得畫面中的人臉區(qū)域位置,最后找出人臉區(qū)域處于特定位置的幀。這樣,通過多次篩選,可以使檢測結(jié)果更為準(zhǔn)確。另一方面,人臉檢測需要消耗大量的系統(tǒng)資源,而對篩選后的關(guān)鍵幀進行人臉檢測處理,可以有效減少人臉檢測的數(shù)據(jù)量,從而獲得更快的檢測速度。 播音員幀的檢測結(jié)果如圖5所示,其中,圖像中的人頭標(biāo)識表示該幀為播音員幀,圖像下方的數(shù)字表示幀的編號。 S203,以所檢測出的播音員幀作為分段依據(jù),對視頻文件進行分段處理。 檢測出播音員幀后,就可以以這些播音員幀作為分段依據(jù),對視頻文件進行分段
處理。例如,以每個播音員幀作為分段的起始點,建立播放索引。當(dāng)然,在實際操作時,也可
以對檢測到的播音員幀再進行手工微調(diào),本發(fā)明對此并不進行限定。 在新聞節(jié)目中,一般對應(yīng)每段新聞內(nèi)容,都會在該段內(nèi)容播放時顯示新聞標(biāo)題字
幕,而標(biāo)題字幕的顯示一般也是在場景變換之后,基于這一特點,在本發(fā)明的另一個實施例
中,還可以進一步將具有新聞標(biāo)題字幕圖像的幀也作為視頻分段的依據(jù)。 參見圖6所示,以新聞聯(lián)播為例,新聞標(biāo)題落在白色底色區(qū)域上,且標(biāo)題固定出現(xiàn)
在圖像底部??赏ㄟ^直接判斷特殊幀是否存在白底區(qū)域來確定是否存在標(biāo)題區(qū)域。由于標(biāo)
題可能是一行或多行,所以區(qū)域位置并不是固定在某個高度。由于自然圖像中出現(xiàn)水平線
的幾率非常低,系統(tǒng)通過將圖像轉(zhuǎn)換為灰度圖像SOBEL算子圖像,檢測出邊緣水平線位置
來初步定位標(biāo)題區(qū)域所在位置,然后通過匹配標(biāo)題區(qū)域內(nèi)背景色再次確認(rèn)是否標(biāo)題區(qū)域。
當(dāng)然,根據(jù)具體新聞節(jié)目畫面設(shè)計的不同,也可以選用其他的標(biāo)題幀檢測方式,本發(fā)明對此
不需進行限定。 標(biāo)題幀的檢測結(jié)果如圖7所示,其中,圖像中的"T"標(biāo)識表示該幀為標(biāo)題幀,圖像下方的數(shù)字表示幀的編號。 由于每段新聞都有其相應(yīng)的標(biāo)題幀,因此,與播音員幀類似的,也可以利用標(biāo)題幀 來作為對新聞節(jié)目視頻分段的依據(jù)。當(dāng)然,在實際情況中,也可以結(jié)合這兩種特殊的幀類型 來實現(xiàn)對新聞節(jié)目視頻的分段。并且,可以理解的是,某些幀也可能既是播音員幀,同時也 是標(biāo)題幀,如圖8所示。 在根據(jù)特殊幀確定節(jié)目分段的起始位置之后,可以進一步為節(jié)目分段附加其他信 息。如圖9所示,為一種建立節(jié)目分段的示意圖。在圖的右上方列出了一些可作為片段海 報的預(yù)覽圖片,用戶可以自行在其中選擇一張合適的圖片作為片段海報。片段的標(biāo)題,可以 由用戶自行輸入,也可以通過對標(biāo)題幀圖像的字幕區(qū)域進行文字識別,以獲得的文本信息 作為視頻分段的標(biāo)題。進一步的,用戶也可以對新聞片段的內(nèi)容進行文字編輯,其中,由于 新聞播音員的發(fā)音都非常標(biāo)準(zhǔn),因此也可以通過語音識別技術(shù),將播音內(nèi)容自動轉(zhuǎn)換為文 本信息,用戶可以直接對所生成的文本進行適度編輯截取,作為新聞片段的內(nèi)容簡介。
相應(yīng)于上面的方法實施例,本發(fā)明還提供一種新聞節(jié)目視頻分段系統(tǒng),參見圖10 所示,包括 關(guān)鍵幀檢測單元1001 ,用于對視頻文件進行分析,檢測視頻文件中的關(guān)鍵幀,所述 關(guān)鍵幀為視頻圖像中場景變化處的幀; 播音員幀檢測單元1002,用于檢測所述關(guān)鍵幀中的播音員幀,所述播音員幀為 具有播音員在播音室場景圖像的幀; 分段單元1003,用于以所檢測出的播音員幀作為分段依據(jù),對視頻文件進行分段 處理。 其中,所述播音員幀檢測單元可以包括第一匹配子單元或第二匹配子單元
第一匹配子單元,用于將關(guān)鍵幀圖像與播音環(huán)境標(biāo)準(zhǔn)圖像進行匹配,如果相似度 大于預(yù)置的閾值,則將所述關(guān)鍵幀確定為播音員幀。 第二匹配子單元,用于對所述關(guān)鍵幀圖像進行人臉檢測,如果檢測出的人臉區(qū)域 與預(yù)置的播音員位置匹配,則將所述關(guān)鍵幀確定為播音員幀。
參見圖11所示,上述系統(tǒng)還可以進一步包括 標(biāo)題幀檢測單元1004,用于檢測所述關(guān)鍵幀中的標(biāo)題幀,所述標(biāo)題幀為具有新 聞標(biāo)題字幕圖像的幀; 所述分段單元1003,還可以以標(biāo)題幀檢測單元1004所檢測出的標(biāo)題幀作為分段 依據(jù),對視頻文件進行分段處理。 字幕文字識別單元1005,用于對標(biāo)題幀圖像的字幕區(qū)域進行文字識別,以獲得的 文本信息作為視頻分段的標(biāo)題。 為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當(dāng)然,在實施本 發(fā)明時可以把各單元的功能在同一個或多個軟件和/或硬件中實現(xiàn)。 通過以上的實施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可 借助軟件加必需的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì) 上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品 可以存儲在存儲介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備 (可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例或者實施例的某些
6部分所述的方法。 本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部 分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實 施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例 的部分說明即可。以上所描述的系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明 的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是 物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要 選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出 創(chuàng)造性勞動的情況下,即可以理解并實施。
本發(fā)明可用于眾多通用或?qū)S玫挠嬎阆到y(tǒng)環(huán)境或配置中。例如個人計算機、服務(wù)
器計算機、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂 盒、可編程的消費電子設(shè)備、網(wǎng)絡(luò)PC、小型計算機、大型計算機、包括以上任何系統(tǒng)或設(shè)備的
分布式計算環(huán)境等等。 本發(fā)明可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序 模塊。 一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組 件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實踐本發(fā)明,在這些分布式計算環(huán)境中,由 通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以 位于包括存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計算機存儲介質(zhì)中。 以上所述僅是本發(fā)明的具體實施方式
,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人 員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng) 視為本發(fā)明的保護范圍。
權(quán)利要求
一種新聞節(jié)目視頻分段方法,其特征在于,包括對視頻文件進行分析,檢測視頻文件中的關(guān)鍵幀,所述關(guān)鍵幀為視頻圖像中場景變化處的幀;檢測所述關(guān)鍵幀中的播音員幀,所述播音員幀為具有播音員在播音室場景圖像的幀;以所檢測出的播音員幀作為分段依據(jù),對視頻文件進行分段處理。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述檢測關(guān)鍵幀中的播音員幀,包括將關(guān)鍵幀圖像與播音環(huán)境標(biāo)準(zhǔn)圖像進行匹配,如果相似度大于預(yù)置的閾值,則將所述關(guān)鍵幀確定為播音員幀。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述檢測關(guān)鍵幀中的播音員幀,包括對所述關(guān)鍵幀圖像進行人臉檢測,如果檢測出的人臉區(qū)域與預(yù)置的播音員位置匹配,則將所述關(guān)鍵幀確定為播音員幀。
4. 根據(jù)權(quán)利要求1至3任一項所述的方法,其特征在于,進一步包括檢測所述關(guān)鍵幀中的標(biāo)題幀,所述標(biāo)題幀為具有新聞標(biāo)題字幕圖像的幀;以所檢測出的標(biāo)題幀作為分段依據(jù),對視頻文件進行分段處理。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,進一步包括對標(biāo)題幀圖像的字幕區(qū)域進行文字識別,以獲得的文本信息作為視頻分段的標(biāo)題。
6. —種新聞節(jié)目視頻分段系統(tǒng),其特征在于,包括關(guān)鍵幀檢測單元,用于對視頻文件進行分析,檢測視頻文件中的關(guān)鍵幀,所述關(guān)鍵幀為視頻圖像中場景變化處的幀;播音員幀檢測單元,用于檢測所述關(guān)鍵幀中的播音員幀,所述播音員幀為具有播音員在播音室場景圖像的幀;分段單元,用于以所檢測出的播音員幀作為分段依據(jù),對視頻文件進行分段處理。
7. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述播音員幀檢測單元包括第一匹配子單元,用于將關(guān)鍵幀圖像與播音環(huán)境標(biāo)準(zhǔn)圖像進行匹配,如果相似度大于預(yù)置的閾值,則將所述關(guān)鍵幀確定為播音員幀。
8. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述播音員幀檢測單元包括第二匹配子單元,用于對所述關(guān)鍵幀圖像進行人臉檢測,如果檢測出的人臉區(qū)域與預(yù)置的播音員位置匹配,則將所述關(guān)鍵幀確定為播音員幀。
9. 根據(jù)權(quán)利要求6至8任一項所述的系統(tǒng),其特征在于,進一步包括標(biāo)題幀檢測單元,用于檢測所述關(guān)鍵幀中的標(biāo)題幀,所述標(biāo)題幀為具有新聞標(biāo)題字幕圖像的幀;所述分段單元,還用于以所檢測出的標(biāo)題幀作為分段依據(jù),對視頻文件進行分段處理。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,進一步包括字幕文字識別單元,用于對標(biāo)題幀圖像的字幕區(qū)域進行文字識別,以獲得的文本信息作為視頻分段的標(biāo)題。
全文摘要
本發(fā)明公開了一種新聞節(jié)目視頻分段方法及系統(tǒng)。一種新聞節(jié)目視頻分段方法,包括對視頻文件進行分析,檢測視頻文件中的關(guān)鍵幀,所述關(guān)鍵幀為視頻圖像中場景變化處的幀;檢測所述關(guān)鍵幀中的播音員幀,所述播音員幀為具有播音員在播音室場景圖像的幀;以所檢測出的播音員幀作為分段依據(jù),對視頻文件進行分段處理。本發(fā)明利用新聞節(jié)目的固有特點,應(yīng)用圖像識別技術(shù)確定一些特定的視頻幀作為對視頻進行分段的依據(jù),可以實現(xiàn)對新聞節(jié)目視頻的自動分段,從而有效減少視頻分段工作的人力和時間投入,提高處理效率。
文檔編號H04N5/262GK101790049SQ20101012311
公開日2010年7月28日 申請日期2010年2月25日 優(yōu)先權(quán)日2010年2月25日
發(fā)明者徐佳宏, 肖友能, 陳金鴻 申請人:深圳市茁壯網(wǎng)絡(luò)股份有限公司