一種針對(duì)影視視頻的時(shí)間軸自動(dòng)產(chǎn)生方法
【專(zhuān)利摘要】本發(fā)明是一種針對(duì)影視視頻的時(shí)間軸自動(dòng)產(chǎn)生方法,包括以下步驟:(1)視頻場(chǎng)景分析,視頻場(chǎng)景分析分為兩個(gè)部分:i.通過(guò)視頻鏡頭分析,分析出子場(chǎng)景;ii.通過(guò)語(yǔ)音特征分析,對(duì)子場(chǎng)景聚類(lèi),聚類(lèi)為大場(chǎng)景;對(duì)于連續(xù)出現(xiàn)的子場(chǎng)景,通過(guò)過(guò)零率和短時(shí)能量,區(qū)分出噪音和語(yǔ)音,然后,比較連續(xù)子場(chǎng)景的平均過(guò)零率和短時(shí)能量,當(dāng)差異在預(yù)先設(shè)定的閾值內(nèi),則這兩個(gè)子場(chǎng)景屬于一個(gè)大場(chǎng)景,對(duì)子場(chǎng)景進(jìn)行聚類(lèi),聚類(lèi)為大場(chǎng)景;(2)場(chǎng)景里的語(yǔ)音時(shí)間軸切分;(3)整體視頻時(shí)間軸的切分;將不同場(chǎng)景所檢測(cè)得到的時(shí)間軸數(shù)據(jù)合并,即可得到整體的視頻時(shí)間軸。本發(fā)明的針對(duì)影視視頻的時(shí)間軸自動(dòng)產(chǎn)生方法,可以自動(dòng)提取出語(yǔ)音片段,產(chǎn)生字幕時(shí)間軸。
【專(zhuān)利說(shuō)明】一種針對(duì)影視視頻的時(shí)間軸自動(dòng)產(chǎn)生方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)軟件【技術(shù)領(lǐng)域】,尤指一種針對(duì)影視視頻的時(shí)間軸自動(dòng)產(chǎn)生方 法。
【背景技術(shù)】
[0002] 影視類(lèi)視頻的特點(diǎn)是:說(shuō)話(huà)人眾多;環(huán)境噪音干擾大;存在片首曲、片尾曲和配音 的干擾。現(xiàn)有技術(shù)對(duì)影視類(lèi)視頻的處理方法中,通常,影視類(lèi)視頻長(zhǎng)度為0.5-2小時(shí)。以1 小時(shí)的視頻為例,切分出時(shí)間軸,需要1-2小時(shí)的人工,需要投入比較大的人力,并且效率 工作效率較低。現(xiàn)有技術(shù)中,通過(guò)視頻鏡頭分析,分析出子場(chǎng)景的方法很多,郭小川的2011 年復(fù)旦大學(xué)碩士論文《基于內(nèi)容的視頻場(chǎng)景分析方法研究》中也介紹了關(guān)于視頻場(chǎng)景分析 方法的研究。所以在這樣的一個(gè)現(xiàn)有技術(shù)的基礎(chǔ)上,結(jié)合其他時(shí)間軸的切分技術(shù),來(lái)實(shí)現(xiàn)自 動(dòng)產(chǎn)生時(shí)間軸的方法顯得可行并且迫切。
【發(fā)明內(nèi)容】
[0003] 為了解決上述問(wèn)題,本發(fā)明提供一種針對(duì)影視視頻的時(shí)間軸自動(dòng)產(chǎn)生方法,可以 自動(dòng)提取出語(yǔ)音片段,產(chǎn)生字幕時(shí)間軸。
[0004] 本發(fā)明通過(guò)視頻分析得到子場(chǎng)景,再通過(guò)噪音特征聚類(lèi)得到大場(chǎng)景;并且對(duì)大場(chǎng) 景進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)得到時(shí)間軸,再進(jìn)行合并成整體時(shí)間軸。
[0005] 本發(fā)明是一種針對(duì)影視視頻的時(shí)間軸自動(dòng)產(chǎn)生方法,包括以下步驟: (1) 視頻場(chǎng)景分析,視頻場(chǎng)景分析分為兩個(gè)部分: i. 通過(guò)視頻鏡頭分析,分析出子場(chǎng)景; ii. 通過(guò)語(yǔ)音特征分析,對(duì)子場(chǎng)景聚類(lèi),聚類(lèi)為大場(chǎng)景;對(duì)于連續(xù)出現(xiàn)的子場(chǎng)景,通過(guò) 過(guò)零率和短時(shí)能量,區(qū)分出噪音和語(yǔ)音,然后,比較連續(xù)子場(chǎng)景的平均過(guò)零率和短時(shí)能量, 當(dāng)差異在預(yù)先設(shè)定的閾值內(nèi),則這兩個(gè)子場(chǎng)景屬于一個(gè)大場(chǎng)景,對(duì)子場(chǎng)景進(jìn)行聚類(lèi),聚類(lèi)為 大場(chǎng)景; (2) 場(chǎng)景里的語(yǔ)音時(shí)間軸切分; (3) 整體視頻時(shí)間軸的切分;將不同場(chǎng)景所檢測(cè)得到的時(shí)間軸數(shù)據(jù)合并,即可得到整體 的視頻時(shí)間軸。
[0006] 本發(fā)明的有益技術(shù)效果在于:本發(fā)明通過(guò)語(yǔ)音分析的方式,自動(dòng)得到影視視頻的 時(shí)間軸,主要用于給影視視頻加配字幕時(shí)的預(yù)處理,省去了人工調(diào)制的過(guò)程。
【具體實(shí)施方式】
[0007] 下面結(jié)合實(shí)施例,對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)描述。
[0008] 本發(fā)明是一種針對(duì)影視視頻的時(shí)間軸自動(dòng)產(chǎn)生方法,本實(shí)施例做以下假設(shè):(1) 視頻由多個(gè)場(chǎng)景構(gòu)成的;(2)每個(gè)場(chǎng)景的環(huán)境噪音和配音是穩(wěn)定的。在此假設(shè)下,針對(duì)影 視視頻的時(shí)間軸自動(dòng)產(chǎn)生方法包括以下步驟: (1)視頻場(chǎng)景分析,視頻場(chǎng)景分析分為兩個(gè)部分: i.通過(guò)視頻鏡頭分析,分析出子場(chǎng)景;通過(guò)視頻分析,將視頻分割為一個(gè)個(gè)的場(chǎng)景有 很多種方法。ii.通過(guò)語(yǔ)音特征分析,對(duì)子場(chǎng)景聚類(lèi),聚類(lèi)為大場(chǎng)景。比如說(shuō),一副室內(nèi)劇, 劇里有幾個(gè)演員,鏡頭在幾個(gè)演員之間切換。通過(guò)分析鏡頭,可以將這樣的場(chǎng)景切分出來(lái)。 但是,這樣的場(chǎng)景過(guò)于細(xì),而我們需要的是"室內(nèi)"這個(gè)大場(chǎng)景,這個(gè)大場(chǎng)景的語(yǔ)音背景、配 音背景是一致的,所以,需要同歸語(yǔ)音特征分析,對(duì)這樣的場(chǎng)景進(jìn)行聚類(lèi)。對(duì)于連續(xù)出現(xiàn)的 子場(chǎng)景,通過(guò)過(guò)零率和短時(shí)能量,區(qū)分出噪音和語(yǔ)音,然后,比較連續(xù)子場(chǎng)景的平均過(guò)零率 和短時(shí)能量,當(dāng)差異在預(yù)先設(shè)定的閾值內(nèi),則這兩個(gè)子場(chǎng)景屬于一個(gè)大場(chǎng)景,對(duì)子場(chǎng)景進(jìn)行 聚類(lèi),聚類(lèi)為大場(chǎng)景。
[0009] (2)場(chǎng)景里的語(yǔ)音時(shí)間軸切分;對(duì)一個(gè)場(chǎng)景內(nèi),由于背景音和環(huán)境音比較單一,可 以使用傳統(tǒng)的方法進(jìn)行語(yǔ)音端點(diǎn)檢測(cè),得到語(yǔ)音時(shí)間軸。比如,根據(jù)過(guò)零率和短時(shí)能量的雙 閾值端點(diǎn)檢測(cè)。
[0010] (3)整體視頻時(shí)間軸的切分;將不同場(chǎng)景所檢測(cè)得到的時(shí)間軸數(shù)據(jù)合并,即可得到 整體的視頻時(shí)間軸。
【權(quán)利要求】
1. 一種針對(duì)影視視頻的時(shí)間軸自動(dòng)產(chǎn)生方法,其特征在于,包括以下步驟: (1) 視頻場(chǎng)景分析,視頻場(chǎng)景分析分為兩個(gè)部分: i. 通過(guò)視頻鏡頭分析,分析出子場(chǎng)景; ii. 通過(guò)語(yǔ)音特征分析,對(duì)子場(chǎng)景聚類(lèi),聚類(lèi)為大場(chǎng)景;對(duì)于連續(xù)出現(xiàn)的子場(chǎng)景,通過(guò) 過(guò)零率和短時(shí)能量,區(qū)分出噪音和語(yǔ)音,然后,比較連續(xù)子場(chǎng)景的平均過(guò)零率和短時(shí)能量, 當(dāng)差異在預(yù)先設(shè)定的閾值內(nèi),則這兩個(gè)子場(chǎng)景屬于一個(gè)大場(chǎng)景,對(duì)子場(chǎng)景進(jìn)行聚類(lèi),聚類(lèi)為 大場(chǎng)景; (2) 場(chǎng)景里的語(yǔ)音時(shí)間軸切分; (3) 整體視頻時(shí)間軸的切分;將不同場(chǎng)景所檢測(cè)得到的時(shí)間軸數(shù)據(jù)合并,即可得到整體 的視頻時(shí)間軸。
【文檔編號(hào)】H04N21/81GK104159152SQ201410423608
【公開(kāi)日】2014年11月19日 申請(qǐng)日期:2014年8月26日 優(yōu)先權(quán)日:2014年8月26日
【發(fā)明者】程國(guó)艮, 袁翔宇, 王宇晨 申請(qǐng)人:中譯語(yǔ)通科技(北京)有限公司