一種針對講座視頻的時間軸自動產(chǎn)生方法
【專利摘要】本發(fā)明是一種針對講座視頻的時間軸自動產(chǎn)生方法,包括以下步驟:第一步,掃描一遍視頻,通過小波變換和自相關(guān)函數(shù)法檢測出基音頻率;第二步,尋找基音頻率的平均值μ和標(biāo)準(zhǔn)差σ,作為講話人的基因頻率;第三步,根據(jù)基音頻率,進(jìn)行初劃分,劃分為時間軸單元;第四步,對于每一個時間軸單元,計(jì)算其基音頻率相似性A及頻譜相似性B,對于A,B取兩個閾值,當(dāng)A和B均大于這兩個閾值時,認(rèn)為是演講人在說話,排除非演講人說話的時間軸,得到的時間軸為演講人說話的時間軸。本發(fā)明是一種針對視頻講座可以自動產(chǎn)生出高精度的講座視頻時間軸的方法。
【專利說明】一種針對講座視頻的時間軸自動產(chǎn)生方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)軟件【技術(shù)領(lǐng)域】,尤指一種針對講座視頻的時間軸自動產(chǎn)生方 法。
【背景技術(shù)】
[0002] 講座、演講、講話類視頻的特點(diǎn)是:(1)主講人單一;(2)環(huán)境噪音干擾??;(3)主 要的干擾是掌聲、笑聲、拖音和呼吸聲。通常,講座視頻長度為10分鐘-2小時。以1小時 的視頻為例,切分出時間軸,需要1-2小時的人工,浪費(fèi)人力物力。
【發(fā)明內(nèi)容】
[0003] 為解決上述問題,本發(fā)明提供一種可以自動產(chǎn)生出高精度的講座視頻時間軸的針 對講座視頻的時間軸自動產(chǎn)生方法。
[0004] 本發(fā)明是一種針對講座視頻的時間軸自動產(chǎn)生方法,使用頻率相似性和頻譜相似 性結(jié)合來得到時間軸語音段;并且采用二次掃描,根據(jù)過零率,得到更精確的時間軸語音 段,包括以下步驟: 第一步,掃描一遍視頻,通過小波變換和自相關(guān)函數(shù)法檢測出基音頻率; 第二步,尋找基音頻率的平均值μ和標(biāo)準(zhǔn)差σ,作為講話人的基因頻率; 第三步,根據(jù)基音頻率,進(jìn)行初劃分,劃分為時間軸單元; 第四步,對于每一個時間軸單元,計(jì)算其基音頻率相似性Α及頻譜相似性Β,所述頻率 相似性A,既是該時間軸的基音平均頻率,在以第二步計(jì)算得到的,基音頻率的平均值μ和 標(biāo)準(zhǔn)差σ所得到的正態(tài)分布上,所出現(xiàn)的概率;所述頻譜相似性Β的計(jì)算方式如下:每個 時間軸由Ν幀組成,計(jì)算每一幀與前一幀的基因頻率差的平均值D ;取一個閾值Κ,當(dāng)D〈K 時,B = 1,當(dāng)D>K時,B按線性衰減;對于A,B取兩個閾值,當(dāng)A和B均大于這兩個閾值時, 認(rèn)為是演講人在說話,排除非演講人說話的時間軸,得到的時間軸為演講人說話的時間軸。
[0005] 本發(fā)明的有益技術(shù)效果在于:本方法通過語音分析的方式,自動得到講座視頻的 時間軸,主要用于給講座、演講、講話類視頻加配字幕時的預(yù)處理,省去了人工調(diào)制的過程。 本方法可以自動產(chǎn)生出高精度的講座視頻時間軸,節(jié)省大量的人工。
【專利附圖】
【附圖說明】
[0006] 圖1為劃分的時間軸單元示意圖。
【具體實(shí)施方式】
[0007] 下面結(jié)合實(shí)施例,對本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)描述。
[0008] 本方法通過語音分析的方式,自動得到講座視頻的時間軸,主要用于給講座、演 講、講話類視頻加配字幕時的預(yù)處理,省去了人工調(diào)制的過程。
[0009] 講座、演講、講話類視頻的特點(diǎn)是: (1) 主講人單一; (2) 環(huán)境噪音干擾?。?(3) 主要的干擾是掌聲、笑聲、拖音和呼吸聲。
[0010] 本方法針對講座視頻的上述特點(diǎn),采用兩次掃描、三門閾法產(chǎn)生出時間軸,自動提 取出語音片段,產(chǎn)生字幕時間軸。
[0011] 本發(fā)明是一種針對講座視頻的時間軸自動產(chǎn)生方法,通過基音頻率對主講人的聲 音及其他聲音進(jìn)行分開,具體包括以下步驟: 第一步,掃描一遍視頻,通過小波變換和自相關(guān)函數(shù)法檢測出基音頻率。
[0012] 第二步,鑒于講話人固定,基音頻率也固定,尋找基音頻率的平均值μ和標(biāo)準(zhǔn)差 〇,作為講話人的基因頻率。
[0013] 第三步,根據(jù)基音頻率,進(jìn)行初劃分,劃分為時間軸單元,如圖1所示。
[0014] 第四步,對于每一個時間軸單元,計(jì)算其基音頻率相似性Α及頻譜相似性Β,所述 頻率相似性A,既是該時間軸的基音平均頻率,在以第二步計(jì)算得到的,基音頻率的平均值 μ和標(biāo)準(zhǔn)差σ所得到的正態(tài)分布上,所出現(xiàn)的概率;所述頻譜相似性B的計(jì)算方式如下:每 個時間軸由Ν幀組成,計(jì)算每一幀與前一幀的基因頻率差的平均值D ;取一個閾值Κ,當(dāng)D〈K 時,B = 1,當(dāng)D>K時,B按線性衰減;對于A,B取兩個閾值,當(dāng)A和B均大于這兩個閾值時, 認(rèn)為是演講人在說話,排除非演講人說話的時間軸,得到的時間軸為演講人說話的時間軸。
[0015] 由于人說話時,語音的頭部和尾部并不具有基音特征,因此,真實(shí)的說話的時間區(qū) 間比根據(jù)基音得到的時間區(qū)間要大一些,因此,對于根據(jù)基音得到的時間軸,需要在此時間 軸基礎(chǔ)上,向前或向后各分析0. 5秒的時間。計(jì)算這段時間的語音信號的過零率,如果過零 率的值較大,則認(rèn)為是語音,從而得到修正后的時間軸數(shù)據(jù)。
【權(quán)利要求】
1. 一種針對講座視頻的時間軸自動產(chǎn)生方法,其特征在于,包括以下步驟: 第一步,掃描一遍視頻,通過小波變換和自相關(guān)函數(shù)法檢測出基音頻率; 第二步,尋找基音頻率的平均值μ和標(biāo)準(zhǔn)差σ,作為講話人的基因頻率; 第三步,根據(jù)基音頻率,進(jìn)行初劃分,劃分為時間軸單元; 第四步,對于每一個時間軸單元,計(jì)算其基音頻率相似性Α及頻譜相似性Β,所述頻率 相似性A,既是該時間軸的基音平均頻率,在以第二步計(jì)算得到的,基音頻率的平均值μ和 標(biāo)準(zhǔn)差σ所得到的正態(tài)分布上,所出現(xiàn)的概率;所述頻譜相似性Β的計(jì)算方式如下:每個 時間軸由Ν幀組成,計(jì)算每一幀與前一幀的基因頻率差的平均值D ;取一個閾值Κ,當(dāng)D〈K 時,B = 1,當(dāng)D>K時,B按線性衰減;對于A,B取兩個閾值,當(dāng)A和B均大于這兩個閾值時, 認(rèn)為是演講人在說話,排除非演講人說話的時間軸,得到的時間軸為演講人說話的時間軸。
【文檔編號】H04N21/435GK104159145SQ201410423661
【公開日】2014年11月19日 申請日期:2014年8月26日 優(yōu)先權(quán)日:2014年8月26日
【發(fā)明者】程國艮, 袁翔宇, 王宇晨 申請人:中譯語通科技(北京)有限公司