片頭生成方法及生成系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種片頭生成方法,包括步驟:S101,拾取當(dāng)前聲音信號(hào),并對(duì)當(dāng)前聲音信號(hào)特征提取,建立當(dāng)前聲音模型;S102,判斷當(dāng)前聲音模型是否為新聲音模型,若是,則加入至聲音模型庫,并提取并保存當(dāng)前幀畫面,將當(dāng)前聲音的音量設(shè)定為初始音量,返回步驟S101;S103,若當(dāng)前聲音模型不是新聲音模型,判定當(dāng)前聲音音量與初始音量之間的差值的絕對(duì)值是否大于預(yù)定閾值,若是,則提取并保存當(dāng)前幀畫面,將當(dāng)前聲音的音量設(shè)定為初始音量,返回步驟S101;以及S104,將提取并保存的幀畫面生成片頭。本發(fā)明還對(duì)應(yīng)提供一種片頭的生成系統(tǒng)。本發(fā)明能夠解決現(xiàn)有終端不給所拍攝的視頻加片頭或者加片頭的方式不夠完善的問題。
【專利說明】片頭生成方法及生成系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子【技術(shù)領(lǐng)域】,尤其涉及一種片頭生成方法及視頻片頭生成系統(tǒng)。
【背景技術(shù)】
[0002]傳統(tǒng)的片頭生成方式主要是在視頻拍攝完成后,人工從視頻中抽取能反映主要內(nèi)容的幀畫面。這種方式工作量大,不夠智能。
[0003]尤其是隨著LTE (Long Term Evolution,長期演進(jìn))網(wǎng)絡(luò)的普及,LTE網(wǎng)絡(luò)會(huì)帶來足夠的網(wǎng)速,使得手機(jī)視頻的拍攝和上傳成為了潮流?,F(xiàn)有手機(jī)上傳的視頻都是最原始的視頻數(shù)據(jù),手機(jī)不會(huì)對(duì)視頻做任何處理工作,如剪輯、加片頭等等,因?yàn)檫@些工作費(fèi)時(shí)間,而且還需要利用電腦上專業(yè)的視頻編輯軟件才能完成。而所拍攝的視頻長度一般都會(huì)有幾十秒或幾分鐘或更長的時(shí)間,對(duì)于觀看者而言,觀看視頻是比較費(fèi)時(shí)間的,看完后也許會(huì)覺得后悔花時(shí)間來看整個(gè)視頻,認(rèn)為很不值得觀看。
[0004]所以有必要提供一種智能的片頭生成方案,讓終端在拍攝時(shí)自動(dòng)生成片頭,能很好地反應(yīng)整個(gè)視頻的關(guān)鍵內(nèi)容,給觀看者一個(gè)提示,起到摘要作用。
【發(fā)明內(nèi)容】
[0005]針對(duì)上述的缺陷,本發(fā)明提供一種片頭的生成方法及系統(tǒng),解決現(xiàn)有技術(shù)不給所拍攝的視頻加片頭或者加片頭的方式不夠完善的問題。
[0006]為了實(shí)現(xiàn)上述目的,本發(fā)明提供片頭的生成方法及系統(tǒng)。
[0007]一種片頭的生成方法,包括步驟:
[0008]S101,拾取當(dāng)前聲音信號(hào),并對(duì)當(dāng)前聲音信號(hào)特征提取,建立當(dāng)前聲音模型;
[0009]S102,判斷當(dāng)前聲音模型是否為新聲音模型,若是,則加入至聲音模型庫,并提取并保存當(dāng)前幀畫面,將當(dāng)前聲音的音量設(shè)定為初始音量,返回步驟SlOl ;
[0010]S103,若當(dāng)前聲音模型不是新聲音模型,判定當(dāng)前聲音音量與初始音量之間的差值的絕對(duì)值是否大于預(yù)定閾值,若是,則提取并保存當(dāng)前幀畫面,將當(dāng)前聲音的音量設(shè)定為初始音量,返回步驟SlOl ;以及
[0011]S104,將提取并保存的幀畫面生成片頭。
[0012]其中,當(dāng)前聲音為視頻的第一個(gè)聲音時(shí),建立當(dāng)前聲音模型并將聲音模型加入至聲音模型庫,自動(dòng)提取該當(dāng)前聲音模型對(duì)應(yīng)的幀畫面并保存。
[0013]其中,判斷當(dāng)前聲音模型是否為新聲音模型包括步驟:
[0014]拾取的第一個(gè)聲音,作為聲源I ;
[0015]對(duì)第一個(gè)聲音進(jìn)行特征提取,并建立聲音模型,將聲音模型加入至聲音模型庫;
[0016]繼續(xù)拾取當(dāng)前聲音,并對(duì)拾取的當(dāng)前聲音進(jìn)行特征提取,建立當(dāng)前聲音模型;以及將當(dāng)前聲音模型與聲音模型庫內(nèi)的聲音模型進(jìn)行比較,判斷當(dāng)前聲音模型是否存在于聲音模型庫內(nèi),若否則將當(dāng)前聲音模型加入聲音模型庫內(nèi),并將當(dāng)前聲音作為聲源i,其中,i大于或者等于2,并加入至聲音模型庫。[0017]其中,判斷當(dāng)前聲音模型是否為新聲音模型包括步驟:
[0018]拾取的第一個(gè)聲音,作為聲源I ;
[0019]對(duì)第一個(gè)聲音進(jìn)行特征提取,并建立聲音模型,將聲音模型加入至聲音模型庫;
[0020]繼續(xù)拾取當(dāng)前聲音,并對(duì)拾取的當(dāng)前聲音進(jìn)行特征提取,建立當(dāng)前聲音模型;
[0021]將當(dāng)前聲音模型與聲音模型庫內(nèi)的聲音模型進(jìn)行比較,判斷當(dāng)前聲音模型是否存在于聲音模型庫內(nèi);以及
[0022]采用聲音信號(hào)分離技術(shù)將當(dāng)前聲音信號(hào)分為若干單獨(dú)的聲音信號(hào),判斷單獨(dú)的聲音是否為新聲音,若是將單獨(dú)的聲音模型加入至聲音模型庫,并將單獨(dú)的聲音分別作為聲源i,其中,i大于或者等于2,并加入至聲音模型庫。
[0023]其中,采用盲源分離方法將當(dāng)前聲音信號(hào)將當(dāng)前聲音信號(hào)分為若干單獨(dú)的聲音信號(hào)。
[0024]一種片頭的生成方法,包括步驟:
[0025]拾取當(dāng)前聲音信號(hào),并對(duì)當(dāng)前聲音信號(hào)特征提取,建立當(dāng)前聲音模型;
[0026]判斷當(dāng)前聲音模型是否為新聲音模型,如是,則加入至聲音模型庫,并提取并保存當(dāng)前幀畫面;以及
[0027]將提取并保存的幀畫面生成片頭。
[0028]一種片頭的生成系統(tǒng),包括:
[0029]聲音拾取模塊,用于拾取當(dāng)前聲音;
[0030]聲音識(shí)別模塊,用于對(duì)當(dāng)前聲音信號(hào)特征提取,建立當(dāng)前聲音模型,并判定當(dāng)前聲首豐旲型是否為新聲首t旲型;
[0031]幀提取模型,用于在判定聲音模型為新聲音模型時(shí),提取并保存幀畫面;以及
[0032]生成模塊,用于將提取的幀畫面生成片頭。
[0033]其中,所述片頭的生成系統(tǒng)還包括音量比較模塊,用于判定當(dāng)前聲音音量與初始音量之間的差值的絕對(duì)值是否大于預(yù)定閾值,并在判定當(dāng)前聲音音量與初始音量之間的差值的絕對(duì)值大于預(yù)定閾值,將當(dāng)前聲音音量設(shè)定為初始音量。
[0034]其中,所述聲音識(shí)別模塊包括特征提取單元、建模單元及判定單元,所述特征提取單元用于對(duì)當(dāng)前聲音進(jìn)行特征提取,所述建模單元用于根據(jù)特征提取單元提取的特征建立當(dāng)前聲音模型,所述判定單元用于判定當(dāng)前聲音模型是否存在于聲音模型庫。
[0035]其中,所述聲音識(shí)別模塊還包括信號(hào)分離單元,用于將混合的當(dāng)前聲音信號(hào)分離
為單獨(dú)的聲音信號(hào)。
[0036]本技術(shù)方案提供的片頭的生成方法,通過對(duì)拍攝過程中是否有新聲音的出現(xiàn)及聲音音量的變化來提取幀畫面生成片頭,所提取的幀畫面能夠反應(yīng)視頻中場(chǎng)景的變化以及事態(tài)的發(fā)展。生成的片頭能夠反應(yīng)視頻中的場(chǎng)景變化或者人物及事物的出現(xiàn),使觀影者了解視頻的內(nèi)容。
【專利附圖】
【附圖說明】
[0037]圖1為本技術(shù)方案第一實(shí)施方式提供的片頭的生成方法的流程圖;
[0038]圖2為本技術(shù)方案第一實(shí)施方式提供的片頭的生成方法的具體流程圖;
[0039]圖3為本技術(shù)方案第一實(shí)施方式提供在簡單聲音環(huán)境判斷是否為新聲音的方法的具體流程圖;
[0040]圖4為本技術(shù)方案第一實(shí)施方式提供在復(fù)雜聲音環(huán)境判斷是否為新聲音的方法的具體流程圖;;
[0041]圖5為本技術(shù)方案第二實(shí)施方式提供的片頭的生成方法的流程圖;
[0042]圖6是本技術(shù)方案提供的片頭的生成系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0043]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0044]相對(duì)專業(yè)的影視作品拍攝,手機(jī)等移動(dòng)終端的視頻拍攝有一定的特殊性,其中最重要的就是手機(jī)拍攝一般只涉及一個(gè)鏡頭,不存在多個(gè)鏡頭進(jìn)行組合的情況,而且場(chǎng)景變化也顯得相對(duì)單調(diào),常常整個(gè)鏡頭都集中在一個(gè)場(chǎng)景中,或者局限于拍攝人四周的環(huán)境。在這種情況下,拍攝的人物環(huán)境及自然環(huán)境就顯得較為簡單,所產(chǎn)生的聲音也簡單,一般就是幾個(gè)人的聲音,或者一群人的聲音,或者一些來自自然界或環(huán)境的聲音。另外,由于這樣的拍攝沒有劇情的限制,拍攝人對(duì)拍攝什么都是很隨機(jī)的,常常會(huì)隨著對(duì)其周圍事物的興趣感的變化隨時(shí)改變手機(jī)鏡頭的方向,例如在拍攝舞臺(tái)上演員跳舞時(shí),開始是一些伴奏音樂,突然主角兒開始唱歌了,那么拍攝人的鏡頭可能會(huì)對(duì)準(zhǔn)歌手,或采用鏡頭放大的方式使得鏡頭聚焦到歌手身上。這樣一種變化完全是隨機(jī)的,是隨著鏡頭前聲音的變化而確定的,所以說移動(dòng)終端拍攝的特殊性決定了可以利用聲音的變化來確定視頻中哪些畫面是與內(nèi)容息息相關(guān)的關(guān)鍵畫面幀。
[0045]本技術(shù)方案就是基于對(duì)視頻中的聲音與畫面之間的關(guān)系,根據(jù)視頻拍攝過程中對(duì)聲音的識(shí)別而提取視頻中的關(guān)鍵幀,從而生成視頻片頭的方法。
[0046]請(qǐng)參閱圖1及圖2,本技術(shù)方案第一實(shí)施方式也提供一種片頭的生成方法,包括步驟:
[0047]S101,拾取當(dāng)前聲音信號(hào),并對(duì)當(dāng)前聲音信號(hào)特征提取,建立當(dāng)前聲音模型
[0048]從視頻拍攝開始,拍攝終端的聲音拾取裝置如麥克風(fēng)等能夠拾取聲音信號(hào)。所述聲音信號(hào)可以是被拍攝的人或者物發(fā)出的聲音,也可以是周圍環(huán)境的聲音。所述聲音信號(hào)特征包括統(tǒng)計(jì)特征及頻譜特征等,所述聲音模型根據(jù)所述聲音信號(hào)特征進(jìn)行建立。
[0049]S102,判斷當(dāng)前聲音模型是否為新聲音模型,若是,則加入至聲音模型庫,并提取并保存當(dāng)前幀畫面,將當(dāng)前聲音的音量設(shè)定為初始音量,并返回S101。
[0050]若否,則進(jìn)行S103。
[0051]本步驟具體為判斷當(dāng)前聲音模型是否存在于聲音模型庫內(nèi),即將當(dāng)前聲音模型與聲音模型庫內(nèi)的聲音模型進(jìn)行比較,若當(dāng)前聲音模型與聲音模型庫內(nèi)的某一聲音模型相同,則表明該聲音之前已經(jīng)出現(xiàn)過,不是新聲音模型。若當(dāng)前聲音模型與聲音模型庫內(nèi)的任一聲音模型均不相同,則表明該聲音之前沒有出現(xiàn)過,是新聲音模型。當(dāng)判斷為新聲音模型時(shí),則自動(dòng)提取該當(dāng)前聲音模型對(duì)應(yīng)的當(dāng)前幀并保存,將當(dāng)前聲音的音量設(shè)定為初始音量,并返回SlOlo
[0052]當(dāng)前聲音為視頻的第一個(gè)聲音時(shí),聲音模型庫內(nèi)還未添加有聲音模型,因此,第一個(gè)聲音模型為新聲音模型。因此,建立聲音模型之后,還將聲音模型加入至聲音模型庫,自動(dòng)提取該當(dāng)前聲音模型對(duì)應(yīng)的當(dāng)前幀并保存,并將第一個(gè)聲音的音量設(shè)定為初始音量。
[0053]當(dāng)前聲音為視頻的第一個(gè)聲音時(shí),聲音模型庫內(nèi)還添加有聲音模型,因此,第一個(gè)聲音模型為新聲音模型。因此,建立聲音模型之后,還將聲音模型加入至聲音模型庫,自動(dòng)提取該當(dāng)前聲音模型對(duì)應(yīng)的當(dāng)前幀并保存。
[0054]本步驟可以分為簡單聲音環(huán)境和復(fù)雜聲音環(huán)境兩種情況進(jìn)行判斷。在攝影時(shí),攝影者可以根據(jù)實(shí)際攝影場(chǎng)景的需要選擇簡單聲音環(huán)境模式或者復(fù)雜聲音環(huán)境模式。
[0055]簡單聲音環(huán)境為在這一場(chǎng)景下同時(shí)發(fā)出的聲音不多,每次只有一個(gè)聲音產(chǎn)生。在此種情況下,判斷當(dāng)前聲音模型是否為新聲音模型具體流程如圖3所示:
[0056]第一步,拾取的第一個(gè)聲音,作為聲源I。
[0057]所述第一個(gè)聲音可以是人或物發(fā)出的聲音。所述第一聲音為單獨(dú)的聲音。
[0058]第二步,對(duì)第一個(gè)聲音進(jìn)行特征提取,并建立聲音模型,將聲音模型加入至聲音模型庫。
[0059]第三步,拾取當(dāng)前聲音,并對(duì)拾取的當(dāng)前聲音進(jìn)行特征提取,建立當(dāng)前聲音模型。
[0060]第四步,將當(dāng)前聲音模型與聲音模型庫內(nèi)的聲音模型進(jìn)行比較,判斷當(dāng)前聲音模型是否存在于聲音模型庫內(nèi)。 [0061]若當(dāng)前聲音模型沒有存在于聲音模型庫,則將當(dāng)前聲音模型加入聲音模型庫內(nèi),并將當(dāng)前聲音作為聲源i,i=2,3,……,并加入至聲音模型庫,繼續(xù)拾取聲音。若當(dāng)前聲音存在于聲音模型庫,則繼續(xù)拾取聲音。
[0062]復(fù)雜聲音環(huán)境為在一個(gè)場(chǎng)景下存在多個(gè)聲音同時(shí)發(fā)生的情況,此時(shí)拾取的聲音是這多個(gè)聲音的混合,需要采用聲音信號(hào)分離的方法先將各種聲音信號(hào)分開,例如各種盲源分離方法等,然后再進(jìn)行識(shí)別。在此種情況下,判斷當(dāng)前聲音模型是否為新聲音模型具體流程如圖4所:
[0063]第一步,拾取的第一個(gè)聲音,作為聲源I。
[0064]所述第一個(gè)聲音可以是人或物發(fā)出的聲音??梢允菃为?dú)的聲音,也可能為復(fù)雜的聲音。
[0065]第二步,對(duì)第一個(gè)聲音進(jìn)行特征提取,并建立聲音模型,將聲音模型加入至聲音模型庫。
[0066]第三步,拾取當(dāng)前聲音,并對(duì)拾取的當(dāng)前聲音進(jìn)行特征提取,建立當(dāng)前聲音模型。
[0067]第四步,將當(dāng)前聲音模型與聲音模型庫內(nèi)的聲音模型進(jìn)行比較,判斷當(dāng)前聲音模型是否存在于聲音模型庫內(nèi)。
[0068]若當(dāng)前聲音存在于聲音模型庫,則繼續(xù)拾取聲音。若當(dāng)前聲音模型沒有存在于聲音模型庫,則進(jìn)行第五步。
[0069]第五步,采用聲音信號(hào)分離技術(shù)將當(dāng)前聲音信號(hào)分為若干單獨(dú)的聲音信號(hào),判斷單獨(dú)的聲音是否為新聲音,若是將單獨(dú)的聲音模型加入至聲音模型庫,并將單獨(dú)的聲音分別作為聲源i,i=2,3,……,并加入至聲音模型庫,繼續(xù)拾取聲音。
[0070]本步驟中,將當(dāng)前聲音信號(hào)分為若干單獨(dú)的聲音信號(hào)可以采用盲源分離方法等技術(shù)實(shí)現(xiàn)。
[0071]S103,若當(dāng)前聲音模型不是新聲音模型,判定當(dāng)前聲音音量與初始音量之間的差值的絕對(duì)值是否大于預(yù)定閾值,若是,則提取并保存當(dāng)前幀畫面,將當(dāng)前聲音的音量設(shè)定為初始音量,并返回SlOl。
[0072]當(dāng)前聲音音量與初始音量之間的差值的絕對(duì)值是否大于預(yù)定閾值,提取并保存當(dāng)前幀畫面,將當(dāng)前聲音的音量設(shè)定為初始音量,然后,循環(huán)進(jìn)行S201至S203。若當(dāng)前聲音音量與初始音量之間的差值的絕對(duì)值是否不大于預(yù)定閾值,則直接循環(huán)進(jìn)行SlOl至S103。
[0073]所述預(yù)定閾值可以根據(jù)實(shí)際拍攝的視頻的聲音音量的大小進(jìn)行確定。例如根據(jù)拍攝場(chǎng)景進(jìn)行選擇,對(duì)于相對(duì)比較安靜的拍攝場(chǎng)景,可以選擇閾值為5dB或更低,因?yàn)樵谶@樣一個(gè)場(chǎng)景中聲音變化相對(duì)是比較小的;而對(duì)于比較吵雜的拍攝場(chǎng)景,就可以選擇閾值為IOdB或更高,因?yàn)樵谶@種場(chǎng)合下聲音音量的起伏本來就比較大,如餐廳,車站等。
[0074]S104,將提取并保存的幀畫面生成片頭。
[0075]將抽取的幀畫面按照拍攝時(shí)間由先到后的順序,以預(yù)設(shè)時(shí)間間隔連接生成片頭。由于片頭中各幀畫面之間可能是斷續(xù)的,所以需要預(yù)設(shè)一個(gè)幀與幀之間轉(zhuǎn)換的時(shí)間間隔,優(yōu)選的,所述預(yù)設(shè)時(shí)間間隔為0.5秒,即每0.5秒播放片頭中的一個(gè)畫面幀。
[0076]還可以包括以下步驟:對(duì)生成的片頭設(shè)置標(biāo)示,將標(biāo)示顯示在片頭的視頻畫面上。在整個(gè)視頻拍攝完畢以后,可以將片頭加到所拍攝的整個(gè)視頻前面,同時(shí)給出片頭的標(biāo)示,以提示觀看者。
[0077]在拍攝視頻的過程中,場(chǎng)景中本來存在的事物從無活動(dòng)到活動(dòng),也可能開始發(fā)聲,也即從非主角變?yōu)閳?chǎng)景中的主角,聲音可能就成為了這個(gè)轉(zhuǎn)變的一個(gè)標(biāo)志性的特征;從一個(gè)場(chǎng)景變到另一個(gè)場(chǎng)景,可能也會(huì)出現(xiàn)新的聲音,新的聲音可作為一個(gè)場(chǎng)景轉(zhuǎn)換的標(biāo)志同一場(chǎng)景中,新的人物或事物的出現(xiàn),產(chǎn)生了新的聲音,那么這個(gè)人物或事物的出現(xiàn)就會(huì)改變這個(gè)場(chǎng)景的畫面。場(chǎng)景中事態(tài)的發(fā)展,可能導(dǎo)致聲音的變化,事態(tài)趨于平靜,可能聲音音量會(huì)下降,事態(tài)往高潮或矛盾方向發(fā)展,音量可能會(huì)提升。
[0078]本技術(shù)方案提供的片頭的生成方法,通過對(duì)拍攝過程中是否有新聲音的出現(xiàn)及聲音音量的變化來提取幀畫面生成片頭,所提取的幀畫面能夠反應(yīng)視頻中場(chǎng)景的變化以及事態(tài)的發(fā)展。生成的片頭能夠反應(yīng)視頻中的場(chǎng)景變化或者人物及事物的出現(xiàn),使觀影者了解視頻的內(nèi)容。
[0079]請(qǐng)參閱圖5,本技術(shù)方案第二實(shí)施方式提供一種視頻片頭的生成方法,所述方法包括步驟:
[0080]S201,拾取當(dāng)前聲音信號(hào),并對(duì)當(dāng)前聲音信號(hào)特征提取,建立當(dāng)前聲音模型。
[0081]從視頻拍攝開始,拍攝終端的聲音拾取裝置如麥克風(fēng)等能夠拾取聲音信號(hào)。所述聲音信號(hào)可以是被拍攝的人或者物發(fā)出的聲音,也可以是周圍環(huán)境的聲音。
[0082]S202,判斷當(dāng)前聲音模型是否為新聲音模型,如是,則加入至聲音模型庫,并提取并保存當(dāng)前幀畫面。
[0083]本步驟可以分為簡單聲音環(huán)境和復(fù)雜聲音環(huán)境兩種情況進(jìn)行判斷。具體的判斷方法與第一實(shí)施方式中步驟S102中提供的判斷方法相同,此處不再贅述。
[0084]S203,將提取并保存的幀畫面生成片頭。
[0085]將抽取的幀畫面按照拍攝時(shí)間由先到后的順序,以預(yù)設(shè)時(shí)間間隔連接生成片頭。由于片頭中各幀畫面之間可能是斷續(xù)的,所以需要預(yù)設(shè)一個(gè)幀與幀之間轉(zhuǎn)換的時(shí)間間隔,優(yōu)選的,所述預(yù)設(shè)時(shí)間間隔為0.5秒,即每0.5秒播放片頭中的一個(gè)畫面幀。[0086]還可以包括以下步驟:對(duì)生成的片頭設(shè)置標(biāo)示,將標(biāo)示顯示在片頭的視頻畫面上。在整個(gè)視頻拍攝完畢以后,可以將片頭加到所拍攝的整個(gè)視頻前面,同時(shí)給出片頭的標(biāo)示,以提示觀看者。
[0087]在拍攝視頻的過程中,場(chǎng)景中本來存在的事物從無活動(dòng)到活動(dòng),也可能開始發(fā)聲,也即從非主角變?yōu)閳?chǎng)景中的主角,聲音可能就成為了這個(gè)轉(zhuǎn)變的一個(gè)標(biāo)志性的特征;從一個(gè)場(chǎng)景變到另一個(gè)場(chǎng)景,可能也會(huì)出現(xiàn)新的聲音,新的聲音可作為一個(gè)場(chǎng)景轉(zhuǎn)換的標(biāo)志同一場(chǎng)景中,新的人物或事物的出現(xiàn),產(chǎn)生了新的聲音,那么這個(gè)人物或事物的出現(xiàn)就會(huì)改變這個(gè)場(chǎng)景的畫面。因此,本技術(shù)方案提供的片頭的生成方法,通過對(duì)拍攝過程中是否有新聲音的出現(xiàn)來提取幀畫面生成片頭,所提取的幀畫面能夠反應(yīng)視頻中場(chǎng)景的變化。生成的片頭能夠反應(yīng)視頻中的場(chǎng)景變化或者人物及事物的出現(xiàn),使觀影者了解視頻的內(nèi)容。
[0088]請(qǐng)參閱圖6,本技術(shù)方案第三實(shí)施方式提供一種片頭的生成系統(tǒng)100,所述片頭的生成系統(tǒng)包括聲音拾取模塊110、聲音識(shí)別模塊120、音量比較模塊130、幀提取模塊140及生成模塊150。
[0089]所述聲音拾取模塊110用于拾取當(dāng)前聲音。所述聲音識(shí)別模塊可以為麥克風(fēng)等。
[0090]所述聲音識(shí)別模塊120用于對(duì)當(dāng)前聲音信號(hào)特征提取,建立當(dāng)前聲音模型,并判定當(dāng)前聲音模型是否為新聲音模型。
[0091]所述聲音識(shí)別模塊120可以具體包括特征提取單元121、建模單元122及判定單元123。所述特征提取單元121用于對(duì)當(dāng)前聲音進(jìn)行特征提取。所述建模單元122用于根據(jù)特征提取單元121提取的特征建立當(dāng)前聲音模型。所述判定單元123用于判定當(dāng)前聲音模型是否存在于聲音模型庫。
[0092]所述聲音識(shí)別模塊120還可以進(jìn)一步包括信號(hào)分離單元124,所述信號(hào)分離單元124用于將混合的當(dāng)前聲音信號(hào)分離為單獨(dú)的聲音信號(hào)。
[0093]音量比較模塊130用于判定當(dāng)前聲音音量與初始音量之間的差值的絕對(duì)值是否大于預(yù)定閾值,并在判定當(dāng)前聲音音量與初始音量之間的差值的絕對(duì)值大于預(yù)定閾值,將當(dāng)前聲音音量設(shè)定為初始音量。
[0094]幀提取模型140用于在判定聲音模型為新聲音模型及當(dāng)前聲音與初始聲音的音量之差大于預(yù)定閾值時(shí),提取并保存幀畫面。
[0095]生成模塊150用于將提取的幀畫面生成片頭。
[0096]本實(shí)施方式提供的片頭的生成系統(tǒng)100還可以進(jìn)一步包括設(shè)置模塊160和顯示模塊170。所述設(shè)置模塊160用于對(duì)生成的片頭設(shè)置標(biāo)示。所述顯示模塊170用于將設(shè)置模塊160設(shè)置的標(biāo)示顯示在片頭的視頻畫面上。
[0097]可以理解的是,當(dāng)片頭的生成系統(tǒng)100僅用于生成包括新聲音出現(xiàn)的幀畫面組成的片頭是,本技術(shù)方案提供的片頭的生成系統(tǒng)100也可以不包括音量比較模塊130。
[0098]在拍攝視頻的過程中,場(chǎng)景中本來存在的事物從無活動(dòng)到活動(dòng),也可能開始發(fā)聲,也即從非主角變?yōu)閳?chǎng)景中的主角,聲音可能就成為了這個(gè)轉(zhuǎn)變的一個(gè)標(biāo)志性的特征;從一個(gè)場(chǎng)景變到另一個(gè)場(chǎng)景,可能也會(huì)出現(xiàn)新的聲音,新的聲音可作為一個(gè)場(chǎng)景轉(zhuǎn)換的標(biāo)志同一場(chǎng)景中,新的人物或事物的出現(xiàn),產(chǎn)生了新的聲音,那么這個(gè)人物或事物的出現(xiàn)就會(huì)改變這個(gè)場(chǎng)景的畫面。場(chǎng)景中事態(tài)的發(fā)展,可能導(dǎo)致聲音的變化,事態(tài)趨于平靜,可能聲音音量會(huì)下降,事態(tài)往高潮或矛盾方向發(fā)展,音量可能會(huì)提升。本技術(shù)方案提供的片頭的生成系統(tǒng),通過對(duì)拍攝過程中是否有新聲音的出現(xiàn)及聲音的變化來提取幀畫面生成片頭,所提取的幀畫面能夠反應(yīng)視頻中場(chǎng)景的變化以及事態(tài)的發(fā)展。生成的片頭能夠反應(yīng)視頻中的場(chǎng)景變化或者人物及事物的出現(xiàn),使觀影者了解視頻的內(nèi)容。
[0099]當(dāng)然,本發(fā)明還可有其它多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【權(quán)利要求】
1.一種片頭的生成方法,包括步驟: S101,拾取當(dāng)前聲音信號(hào),并對(duì)當(dāng)前聲音信號(hào)特征提取,建立當(dāng)前聲音模型; S102,判斷當(dāng)前聲音模型是否為新聲音模型,若是,則加入至聲音模型庫,并提取并保存當(dāng)前幀畫面,將當(dāng)前聲音的音量設(shè)定為初始音量,返回步驟SlOl ; S103,若當(dāng)前聲音模型不是新聲音模型,判定當(dāng)前聲音音量與初始音量之間的差值的絕對(duì)值是否大于預(yù)定閾值,若是,則提取并保存當(dāng)前幀畫面,將當(dāng)前聲音的音量設(shè)定為初始音量,返回步驟SlOl ;以及 S104,將提取并保存的幀畫面生成片頭。
2.如權(quán)利要求1所述的片頭的生成方法,其特征在于,當(dāng)前聲音為視頻的第一個(gè)聲音時(shí),建立當(dāng)前聲音模型并將聲音模型加入至聲音模型庫,自動(dòng)提取該當(dāng)前聲音模型對(duì)應(yīng)的幀畫面并保存。
3.如權(quán)利要求1所述的片頭的生成方法,其特征在于,判斷當(dāng)前聲音模型是否為新聲音模型包括步驟: 拾取的第一個(gè)聲音,作為聲源I ; 對(duì)第一個(gè)聲音進(jìn)行特征提取,并建立聲音模型,將聲音模型加入至聲音模型庫; 繼續(xù)拾取當(dāng)前聲音 ,并對(duì)拾取的當(dāng)前聲音進(jìn)行特征提取,建立當(dāng)前聲音模型;以及將當(dāng)前聲音模型與聲音模型庫內(nèi)的聲音模型進(jìn)行比較,判斷當(dāng)前聲音模型是否存在于聲音模型庫內(nèi),若否則將當(dāng)前聲音模型加入聲音模型庫內(nèi),并將當(dāng)前聲音作為聲源i,其中,i大于或者等于2,并加入至聲音模型庫。
4.如權(quán)利要求1所述的片頭的生成方法,其特征在于,判斷當(dāng)前聲音模型是否為新聲音模型包括步驟: 拾取的第一個(gè)聲音,作為聲源I ; 對(duì)第一個(gè)聲音進(jìn)行特征提取,并建立聲音模型,將聲音模型加入至聲音模型庫; 繼續(xù)拾取當(dāng)前聲音,并對(duì)拾取的當(dāng)前聲音進(jìn)行特征提取,建立當(dāng)前聲音模型;將當(dāng)前聲音模型與聲音模型庫內(nèi)的聲音模型進(jìn)行比較,判斷當(dāng)前聲音模型是否存在于聲音模型庫內(nèi);以及 若當(dāng)前聲音模型未存在于聲音模型庫內(nèi),米用聲音信號(hào)分離技術(shù)將當(dāng)前聲音信號(hào)分為若干單獨(dú)的聲音信號(hào),判斷單獨(dú)的聲音是否為新聲音,若是將單獨(dú)的聲音模型加入至聲音模型庫,并將單獨(dú)的聲音分別作為聲源i,其中,i大于或者等于2,并加入至聲音模型庫。
5.如權(quán)利要求4所述的片頭的生成方法,其特征在于,采用盲源分離方法將當(dāng)前聲音信號(hào)將當(dāng)前聲音信號(hào)分為若干單獨(dú)的聲音信號(hào)。
6.一種片頭的生成方法,包括步驟: 拾取當(dāng)前聲音信號(hào),并對(duì)當(dāng)前聲音信號(hào)特征提取,建立當(dāng)前聲音模型; 判斷當(dāng)前聲音模型是否為新聲音模型,如是,則加入至聲音模型庫,并提取并保存當(dāng)前幀畫面;以及 將提取并保存的幀畫面生成片頭。
7.一種片頭的生成系統(tǒng),包括: 聲音拾取模塊,用于拾取當(dāng)前聲音; 聲音識(shí)別模塊,用于對(duì)當(dāng)前聲音信號(hào)特征提取,建立當(dāng)前聲音模型,并判定當(dāng)前聲音模型是否為新聲音模型; 幀提取模型,用于在判定聲音模型為新聲音模型時(shí),提取并保存幀畫面;以及 生成模塊,用于將提取的幀畫面生成片頭。
8.如權(quán)利要求7所述的片頭的生成系統(tǒng),其特征在于,所述片頭的生成系統(tǒng)還包括音量比較模塊,用于判定當(dāng)前聲音音量與初始音量之間的差值的絕對(duì)值是否大于預(yù)定閾值,并在判定當(dāng)前聲音音量與初始音量之間的差值的絕對(duì)值大于預(yù)定閾值,將當(dāng)前聲音音量設(shè)定為初始音量。
9.如權(quán)利要求7所述的片頭的生成系統(tǒng),其特征在于,所述聲音識(shí)別模塊包括特征提取單元、建模單元及判定單元,所述特征提取單元用于對(duì)當(dāng)前聲音進(jìn)行特征提取,所述建模單元用于根據(jù)特征提取單元提取的特征建立當(dāng)前聲音模型,所述判定單元用于判定當(dāng)前聲音模型是否存在于聲音模型庫。
10.如權(quán)利要求9所述的片頭的生成方法,其特征在于,所述聲音識(shí)別模塊還包括信號(hào)分離單元,用于將混合的當(dāng)前聲音信號(hào)分離為單獨(dú)的聲音信號(hào)。
【文檔編號(hào)】G11B27/02GK103915106SQ201410127653
【公開日】2014年7月9日 申請(qǐng)日期:2014年3月31日 優(yōu)先權(quán)日:2014年3月31日
【發(fā)明者】李長寧 申請(qǐng)人:宇龍計(jì)算機(jī)通信科技(深圳)有限公司