本發(fā)明涉及視頻處理技術(shù)領(lǐng)域,尤其是涉及一種視頻剪輯方法及裝置。
背景技術(shù):
影視視頻是人們?nèi)粘I钪袕V泛接觸的一類視頻資源,隨著互聯(lián)網(wǎng)的迅速發(fā)展,影視視頻不只存在于傳統(tǒng)廣播電視系統(tǒng)中,也大量的出現(xiàn)在網(wǎng)絡(luò)資源庫中。近年來,由于影視視頻數(shù)量迅速增長,如何提高影視視頻的管理效率、如何更好地讓用戶點(diǎn)播到感興趣的影視視頻成為迫切需要解決的問題。
考慮到影視視頻都是圍繞影視人物來展開故事情節(jié)的,現(xiàn)有技術(shù)主要通過目標(biāo)人物的識別來提取感興趣人物的視頻片段,采用的方法如下:獲取待剪輯的影視視頻,從中提取關(guān)鍵幀,對每一個關(guān)鍵幀中的人臉進(jìn)行檢測和識別,當(dāng)檢測到的人臉是目標(biāo)人臉時,將此關(guān)鍵幀和與其相鄰的非關(guān)鍵幀作為視頻內(nèi)容提取出來,最后整合所有提取出的視頻內(nèi)容,得到該目標(biāo)人物的視頻片段,其中目標(biāo)人物指上述感興趣人物。
現(xiàn)有技術(shù)主要是基于對關(guān)鍵幀中目標(biāo)人物的識別來提取感興趣人物的視頻片段,但是當(dāng)影視視頻的背景雜亂、分辨率低、目標(biāo)人物的正臉被遮擋時,通過現(xiàn)有技術(shù)無法識別關(guān)鍵幀中的目標(biāo)人臉,導(dǎo)致包含目標(biāo)人物的部分視頻內(nèi)容丟失。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種視頻剪輯方法及裝置,以解決當(dāng)影視視頻的背景雜亂、分辨率低或者目標(biāo)人物的正臉被遮擋時,通過現(xiàn)有技術(shù)無法識別關(guān)鍵幀中的目標(biāo)人臉,導(dǎo)致包含目標(biāo)人物的部分視頻內(nèi)容丟失的技術(shù)問題。
第一方面,本發(fā)明實(shí)施例提供了一種視頻剪輯方法,包括:逐幀檢測待剪輯視頻中的人臉;判斷檢測到的所述人臉是否為目標(biāo)人臉;當(dāng)檢測到的所述人臉為所述目標(biāo)人臉時,確定所述目標(biāo)人臉?biāo)鶎俚囊曨l幀為剪輯的起始幀;從所述起始幀開始,根據(jù)所述目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度逐幀追蹤所述目標(biāo)人臉,確定剪輯的結(jié)束幀;根據(jù)所述起始幀和所述結(jié)束幀剪輯所述待剪輯視頻,得到剪輯完成的視頻。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第一種可能的實(shí)施方式,其中,所述根據(jù)所述目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度逐幀追蹤所述目標(biāo)人臉,確定剪輯的結(jié)束幀,包括:判斷當(dāng)前視頻幀是否滿足預(yù)設(shè)的矯正條件;當(dāng)所述當(dāng)前視頻幀不滿足所述預(yù)設(shè)的矯正條件時,根據(jù)所述目標(biāo)人臉在所述當(dāng)前視頻幀的下一個視頻幀中出現(xiàn)的置信度與預(yù)設(shè)置信度閾值之間的大小關(guān)系,確定剪輯的所述結(jié)束幀;當(dāng)所述當(dāng)前視頻幀滿足所述預(yù)設(shè)的矯正條件時,檢測所述當(dāng)前視頻幀中是否存在所述目標(biāo)人臉,當(dāng)所述當(dāng)前視頻幀中不存在所述目標(biāo)人臉時,確定所述當(dāng)前視頻幀為剪輯的所述結(jié)束幀。
結(jié)合第一方面的第一種可能的實(shí)施方式,本發(fā)明實(shí)施例提供了第一方面的第二種可能的實(shí)施方式,其中,所述根據(jù)所述目標(biāo)人臉在所述當(dāng)前視頻幀的下一個視頻幀中出現(xiàn)的置信度與預(yù)設(shè)置信度閾值之間的大小關(guān)系,確定剪輯的所述結(jié)束幀,包括:根據(jù)所述目標(biāo)人臉在所述當(dāng)前視頻幀中的位置計算所述目標(biāo)人臉在所述當(dāng)前視頻幀的所述下一個視頻幀中出現(xiàn)的置信度;當(dāng)所述目標(biāo)人臉在所述下一個視頻幀中出現(xiàn)的置信度小于所述預(yù)設(shè)置信度閾值時,檢測所述下一個視頻幀中是否存在所述目標(biāo)人臉;當(dāng)所述下一個視頻幀中不存在所述目標(biāo)人臉時,確定所述當(dāng)前視頻幀為剪輯的所述結(jié)束幀。
結(jié)合第一方面的第一種可能的實(shí)施方式,本發(fā)明實(shí)施例提供了第一方面的第三種可能的實(shí)施方式,其中,所述判斷當(dāng)前視頻幀是否滿足預(yù)設(shè)的矯正條件,包括:判斷所述當(dāng)前視頻幀與上一個滿足所述預(yù)設(shè)的矯正條件的視頻幀之間是否間隔預(yù)設(shè)時間或者間隔預(yù)設(shè)數(shù)量的視頻幀,其中,與所述起始幀之間間隔所述預(yù)設(shè)時間或者間隔所述預(yù)設(shè)數(shù)量的視頻幀為滿足所述預(yù)設(shè)的矯正條件的第一個視頻幀;當(dāng)所述當(dāng)前視頻幀與上一個滿足所述預(yù)設(shè)的矯正條件的視頻幀之間間隔所述預(yù)設(shè)時間或者間隔所述預(yù)設(shè)數(shù)量的視頻幀時,確定所述當(dāng)前視頻幀滿足所述預(yù)設(shè)的矯正條件,否則,不滿足所述預(yù)設(shè)的矯正條件。
結(jié)合第一方面的第二種可能的實(shí)施方式,本發(fā)明實(shí)施例提供了第一方面的第四種可能的實(shí)施方式,其中,所述根據(jù)所述目標(biāo)人臉在所述當(dāng)前視頻幀中的位置計算所述目標(biāo)人臉在所述當(dāng)前視頻幀的所述下一個視頻幀中出現(xiàn)的置信度,包括:采用基于SVM的Struck算法和KCF算法相結(jié)合的方式,根據(jù)所述目標(biāo)人臉在所述當(dāng)前視頻幀中的位置計算所述目標(biāo)人臉在所述當(dāng)前視頻幀的所述下一個視頻幀中出現(xiàn)的置信度。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第五種可能的實(shí)施方式,其中,所述判斷檢測到的所述人臉是否為目標(biāo)人臉,包括:計算檢測到的所述人臉分別對應(yīng)預(yù)先存儲的各個人臉的相似度;判斷所述相似度最大的預(yù)先存儲的人臉是否為所述目標(biāo)人臉;當(dāng)所述相似度最大的所述預(yù)先存儲的人臉為所述目標(biāo)人臉時,確定檢測到的所述人臉為所述目標(biāo)人臉。
結(jié)合第一方面上述的實(shí)施方式,本發(fā)明實(shí)施例提供了第一方面的第六種可能的實(shí)施方式,其中,所述逐幀檢測待剪輯視頻中的人臉,包括:逐幀檢測所述待剪輯視頻的圖像文件中的人臉;所述根據(jù)所述起始幀和所述結(jié)束幀剪輯所述待剪輯視頻,得到剪輯完成的視頻,包括:根據(jù)所述起始幀和所述結(jié)束幀分別剪輯所述待剪輯視頻的圖像文件和音頻文件,將剪輯后的所述圖像文件和剪輯后的所述音頻文件進(jìn)行合成,得到所述剪輯完成的視頻。
第二方面,本發(fā)明實(shí)施例還提供一種視頻剪輯裝置,包括:人臉檢測模塊,用于逐幀檢測待剪輯視頻中的人臉;目標(biāo)判斷模塊,用于判斷檢測到的所述人臉是否為目標(biāo)人臉;起始確定模塊,用于當(dāng)檢測到的所述人臉為所述目標(biāo)人臉時,確定所述目標(biāo)人臉?biāo)鶎俚囊曨l幀為剪輯的起始幀;結(jié)束確定模塊,用于從所述起始幀開始,根據(jù)所述目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度逐幀追蹤所述目標(biāo)人臉,確定剪輯的結(jié)束幀;剪輯模塊,用于根據(jù)所述起始幀和所述結(jié)束幀剪輯所述待剪輯視頻,得到剪輯完成的視頻。
結(jié)合第二方面,本發(fā)明實(shí)施例提供了第二方面的第一種可能的實(shí)施方式,其中,所述結(jié)束確定模塊包括:矯正判斷單元,用于判斷當(dāng)前視頻幀是否滿足預(yù)設(shè)的矯正條件;第一結(jié)束確定單元,用于當(dāng)所述當(dāng)前視頻幀不滿足所述預(yù)設(shè)的矯正條件時,根據(jù)所述目標(biāo)人臉在所述當(dāng)前視頻幀的下一個視頻幀中出現(xiàn)的置信度與預(yù)設(shè)置信度閾值之間的大小關(guān)系,確定剪輯的所述結(jié)束幀;第二結(jié)束確定單元,用于當(dāng)所述當(dāng)前視頻幀滿足所述預(yù)設(shè)的矯正條件時,檢測所述當(dāng)前視頻幀中是否存在所述目標(biāo)人臉,當(dāng)所述當(dāng)前視頻幀中不存在所述目標(biāo)人臉時,確定所述當(dāng)前視頻幀為剪輯的所述結(jié)束幀。
結(jié)合第二方面的第一種可能的實(shí)施方式,本發(fā)明實(shí)施例提供了第二方面的第二種可能的實(shí)施方式,其中,第一結(jié)束確定單元包括:第一計算子單元,用于根據(jù)所述目標(biāo)人臉在所述當(dāng)前視頻幀中的位置計算所述目標(biāo)人臉在所述當(dāng)前視頻幀的所述下一個視頻幀中出現(xiàn)的置信度;第一檢測子單元,用于當(dāng)所述目標(biāo)人臉在所述下一個視頻幀中出現(xiàn)的置信度小于所述預(yù)設(shè)置信度閾值時,檢測所述下一個視頻幀中是否存在所述目標(biāo)人臉;第一確定子單元,用于當(dāng)所述下一個視頻幀中不存在所述目標(biāo)人臉時,確定所述當(dāng)前視頻幀為剪輯的所述結(jié)束幀。
本發(fā)明實(shí)施例帶來了以下有益效果:在本發(fā)明實(shí)施例中,逐幀檢測待剪輯視頻中的人臉,判斷檢測到的人臉是否為目標(biāo)人臉,當(dāng)檢測到的人臉為目標(biāo)人臉時,確定此目標(biāo)人臉?biāo)鶎俚囊曨l幀為剪輯的起始幀,從起始幀開始,根據(jù)目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度逐幀追蹤目標(biāo)人臉,確定剪輯的結(jié)束幀,根據(jù)起始幀和結(jié)束幀剪輯待剪輯視頻,得到剪輯完成的視頻。由于本發(fā)明實(shí)施例中根據(jù)目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度在各個視頻幀中追蹤目標(biāo)人臉,確定剪輯的結(jié)束幀,計算目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度時,與影視視頻的背景、分辨率和目標(biāo)人物的正臉是否被遮擋沒有關(guān)系,因此當(dāng)影視視頻的背景雜亂、分辨率低或者目標(biāo)人物的正臉被遮擋時,通過本發(fā)明實(shí)施例提供的方法及裝置仍然可以追蹤到目標(biāo)人臉,因而避免了包含目標(biāo)人物的視頻內(nèi)容的丟失,剪輯完成的目標(biāo)人物的視頻片段更加完整。
本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。
附圖說明
為了更清楚地說明本發(fā)明具體實(shí)施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對具體實(shí)施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施方式,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明第一實(shí)施例提供的視頻剪輯方法的第一種流程示意圖;
圖2為本發(fā)明第一實(shí)施例提供的視頻剪輯方法的第二種流程示意圖;
圖3為本發(fā)明第一實(shí)施例提供的視頻剪輯方法的第三種流程示意圖;
圖4為本發(fā)明第一實(shí)施例提供的視頻剪輯方法的第四種流程示意圖;
圖5為本發(fā)明第二實(shí)施例提供的視頻剪輯裝置的第一種模塊組成示意圖;
圖6為本發(fā)明第二實(shí)施例提供的視頻剪輯裝置的第二種模塊組成示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
考慮到當(dāng)影視視頻的背景雜亂、分辨率低或者目標(biāo)人物的正臉被遮擋時,通過現(xiàn)有技術(shù)無法識別關(guān)鍵幀中的目標(biāo)人臉,導(dǎo)致包含目標(biāo)人物的部分視頻內(nèi)容丟失,本發(fā)明實(shí)施例提供的一種視頻剪輯方法及裝置,可以避免當(dāng)影視視頻的背景雜亂、分辨率低或者目標(biāo)人物的正臉被遮擋時包含目標(biāo)人物的視頻內(nèi)容的丟失,下面結(jié)合實(shí)施例進(jìn)行具體介紹。
為便于對本實(shí)施例進(jìn)行理解,首先對本發(fā)明實(shí)施例所公開的一種視頻剪輯方法進(jìn)行詳細(xì)介紹。
實(shí)施例一:
圖1是本發(fā)明第一實(shí)施例所提供的視頻剪輯方法的流程示意圖,該方法包括以下步驟:
步驟S110,逐幀檢測待剪輯視頻中的人臉。
要剪輯感興趣人物的視頻片段,首先要逐幀對待剪輯視頻進(jìn)行人臉檢測??梢圆捎萌魏文軌?qū)崿F(xiàn)人臉檢測的技術(shù)對待剪輯視頻進(jìn)行人臉檢測,例如OpenCV(Open Source Computer Vision Library,開源計算機(jī)視覺庫)或者人臉檢測器,其中OpenCV自帶分類器,可以進(jìn)行人臉檢測;人臉檢測器是目前常用的檢測人臉的技術(shù)。人臉檢測器的算法有很多,本實(shí)施例對具體的算法不做特定要求,例如可以采用基于Haar型特征的Adaboost算法,并用該算法學(xué)習(xí)形成瀑布型正面人臉檢測器來進(jìn)行正臉檢測?;贖aar型特征的Adaboost算法是目前正確率最高的算法之一,其速度遠(yuǎn)遠(yuǎn)快于其它算法。瀑布型正臉檢測器主要用于檢測較為規(guī)范的正臉,但不能很好的檢測到不同角度和形態(tài)的人臉。為了盡可能準(zhǔn)確地檢測到視頻中的人臉,優(yōu)選地,采用OKAO Vision人臉識別軟件來對人臉?biāo)叫D(zhuǎn)角度在-45度到+45度范圍內(nèi)的人臉進(jìn)行準(zhǔn)確檢測。與瀑布型正臉檢測器相比,OKAO Vision除了能夠檢測到幾乎全部的正臉以外,還能檢測到大部分可用于識別的側(cè)臉,因而能夠增強(qiáng)人臉識別效果,迅速確定剪輯的起始幀,快速獲得更多的可用于識別的人臉數(shù)據(jù)。
若步驟S110沒有檢測到人臉,則下一個視頻幀重新執(zhí)行步驟S110;若步驟S110檢測到人臉,則執(zhí)行步驟S120。
步驟S120,判斷檢測到的人臉是否為目標(biāo)人臉。
通過步驟S110檢測到人臉后,需要對此人臉進(jìn)行識別,判斷此人臉是否為目標(biāo)人臉,其中該目標(biāo)人臉指感興趣人物的人臉。本實(shí)施例中,通過以下三個子步驟(1)、(2)和(3)判斷檢測到的人臉是否為目標(biāo)人臉:
(1)計算檢測到的人臉分別對應(yīng)預(yù)先存儲的各個人臉的相似度。
(2)判斷上述相似度最大的預(yù)先存儲的人臉是否為目標(biāo)人臉。
(3)當(dāng)相似度最大的預(yù)先存儲的人臉為目標(biāo)人臉時,確定檢測到的人臉為目標(biāo)人臉。
在進(jìn)行上述三個子步驟之前,需要先獲得人臉識別模型,此人臉識別模型用于執(zhí)行上述三個子步驟,即判斷檢測到的人臉是否為目標(biāo)人臉。
優(yōu)選地,一種獲得人臉識別模型的具體過程如下:首先標(biāo)注人臉數(shù)據(jù),具體地,從互聯(lián)網(wǎng)上獲取包含各個影視人物的視頻及圖像文件,利用人臉檢測器獲取這些視頻及圖像文件中的所有人臉,根據(jù)人臉圖像的梯度值以及通過手工方式過濾掉低質(zhì)量的視頻或者圖像文件(不清晰,遮擋嚴(yán)重等)后,建立人名-標(biāo)簽對應(yīng)表,例如人名-標(biāo)簽對應(yīng)表為:李易峰-1、楊冪-2和趙麗穎-3,三者依次排序,其中李易峰-1表示所有李易峰的圖像用1標(biāo)注,楊冪-2表示所有楊冪的圖像用2標(biāo)注,趙麗穎-3表示所有趙麗穎的圖像用3標(biāo)注;其次建立人臉圖像訓(xùn)練庫,其中人臉圖像訓(xùn)練庫中包含預(yù)先存儲的各個人臉圖像,即包含上述標(biāo)注過的各個影視人物的不同姿態(tài)、不同表情的清晰人臉圖像,還包含非影視人物的圖像,該非影視人物的圖像用做訓(xùn)練的負(fù)樣本;再次將人臉圖像訓(xùn)練庫的所有圖像進(jìn)行尺度歸一化,例如可以利用雙線性插值方法將人臉圖像訓(xùn)練庫的所有圖像歸一化到相同的大??;最后利用歸一化的人臉圖像訓(xùn)練庫的所有圖像訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練完成后即可獲得人臉識別模型,訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)即為人臉識別模型。
具體地,利用訓(xùn)練好的人臉識別模型判斷檢測到的人臉是否為目標(biāo)人臉包括:將檢測到的人臉圖像進(jìn)行尺度歸一化,歸一化后的圖像大小與人臉庫中的圖像大小一致;計算檢測到的人臉分別對應(yīng)預(yù)先存儲的各個人臉的相似度,優(yōu)選地,采用在linux+caffe平臺下基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)識別算法,此算法識別目標(biāo)人臉的準(zhǔn)確率明顯高于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,并且利用GPU(Graphic Processing Unit,圖形處理器,又稱并行計算單元)加速,處理速度快,因此在聯(lián)合任務(wù)中可以在一定程度上彌補(bǔ)檢測、追蹤過程中的缺陷,使視頻剪輯的整體性能更好更穩(wěn)定;根據(jù)人名-標(biāo)簽對應(yīng)表獲取相似度最大的標(biāo)簽對應(yīng)的人名,判斷此人名是否為目標(biāo)人臉的人名;若相似度最大的標(biāo)簽對應(yīng)的人名是為目標(biāo)人臉的人名,則確定檢測到的人臉為目標(biāo)人臉,否則,確定檢測到的人臉不是目標(biāo)人臉。其中,檢測到的人臉對應(yīng)預(yù)先存儲的各個人臉的相似度可以是概率值,如檢測到的人臉對應(yīng)李易峰的相似度為80%,對應(yīng)胡歌的相似度為75%。
若檢測到的人臉不是目標(biāo)人臉,則下一個視頻幀重新執(zhí)行步驟S110和步驟S120,即繼續(xù)檢測和識別下一個視頻幀中的人臉是否為目標(biāo)人臉;若檢測到的人臉為目標(biāo)人臉,則執(zhí)行步驟S130。
步驟S130,當(dāng)檢測到的人臉為目標(biāo)人臉時,確定目標(biāo)人臉?biāo)鶎俚囊曨l幀為剪輯的起始幀。
當(dāng)檢測到的人臉為目標(biāo)人臉時,確定此時目標(biāo)人臉?biāo)鶎俚囊曨l幀為剪輯的起始幀,開始對該目標(biāo)人臉進(jìn)行追蹤。
步驟S140,從起始幀開始,根據(jù)目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度逐幀追蹤該目標(biāo)人臉,確定剪輯的結(jié)束幀。
當(dāng)確定出剪輯的起始幀后,從起始幀開始,根據(jù)目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度在各個視頻幀中追蹤該目標(biāo)人臉,確定剪輯的結(jié)束幀。其中,剪輯的起始幀為剪輯的第一幀,剪輯的結(jié)束幀為剪輯的最后一幀。
步驟S150,根據(jù)起始幀和結(jié)束幀剪輯待剪輯視頻,得到剪輯完成的視頻。
將剪輯的起始幀作為剪輯的第一幀,剪輯的結(jié)束幀作為剪輯的最后一幀,對待剪輯視頻進(jìn)行剪輯,得到剪輯完成的視頻。
在待剪輯視頻中,會有多段視頻包含目標(biāo)人物,對待剪輯視頻重復(fù)步驟S110至步驟S150可以獲得包含目標(biāo)人臉的多個剪輯完成的視頻,將多個剪輯完成的視頻按時間排序即可得到該目標(biāo)人物的視頻片段。
在本發(fā)明實(shí)施例中,逐幀檢測待剪輯視頻中的人臉,判斷檢測到的人臉是否為目標(biāo)人臉,當(dāng)檢測到的人臉為目標(biāo)人臉時,確定此目標(biāo)人臉?biāo)鶎俚囊曨l幀為剪輯的起始幀,從起始幀開始,根據(jù)目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度逐幀追蹤目標(biāo)人臉,確定剪輯的結(jié)束幀,根據(jù)起始幀和結(jié)束幀剪輯待剪輯視頻,得到剪輯完成的視頻。由于本發(fā)明實(shí)施例中根據(jù)目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度在各個視頻幀中追蹤目標(biāo)人臉,確定剪輯的結(jié)束幀,計算目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度時,與影視視頻的背景、分辨率和目標(biāo)人物的正臉是否被遮擋沒有關(guān)系,因此當(dāng)影視視頻的背景雜亂、分辨率低或者目標(biāo)人物的正臉被遮擋時,通過本發(fā)明實(shí)施例提供的方法仍然可以追蹤到目標(biāo)人臉,因而避免了包含目標(biāo)人物的視頻內(nèi)容的丟失,剪輯完成的目標(biāo)人物的視頻片段更加完整。
圖2為本發(fā)明第一實(shí)施例提供的視頻剪輯方法的第二種流程示意圖,如圖2所示,圖1中的步驟S140具體包括步驟S141、步驟S142和步驟S143。
步驟S141,判斷當(dāng)前視頻幀是否滿足預(yù)設(shè)的矯正條件。
具體的判斷方法為:判斷當(dāng)前視頻幀與上一個滿足預(yù)設(shè)的矯正條件的視頻幀之間是否間隔預(yù)設(shè)時間或者間隔預(yù)設(shè)數(shù)量的視頻幀,其中,與起始幀之間間隔預(yù)設(shè)時間或者間隔預(yù)設(shè)數(shù)量的視頻幀為滿足預(yù)設(shè)的矯正條件的第一個視頻幀;當(dāng)當(dāng)前視頻幀與上一個滿足預(yù)設(shè)的矯正條件的視頻幀之間間隔預(yù)設(shè)時間或者間隔預(yù)設(shè)數(shù)量的視頻幀時,確定此當(dāng)前視頻幀滿足預(yù)設(shè)的矯正條件,否則,不滿足預(yù)設(shè)的矯正條件。
例如預(yù)設(shè)時間為5秒,則與起始幀之間間隔5秒的視頻幀為滿足預(yù)設(shè)的矯正條件的第一個視頻幀,與第一個視頻幀之間間隔5秒的視頻幀為滿足預(yù)設(shè)的矯正條件的第二個視頻幀,與第二個視頻幀之間間隔5秒的視頻幀為滿足預(yù)設(shè)的矯正條件的第三個視頻幀,以此類推。又如預(yù)設(shè)數(shù)量為10幀,則與起始幀之間間隔10幀的視頻幀為滿足預(yù)設(shè)的矯正條件的第一個視頻幀,與第一個視頻幀之間間隔10幀的視頻幀為滿足預(yù)設(shè)的矯正條件的第二個視頻幀,與第二個視頻幀之間間隔10幀的視頻幀為滿足預(yù)設(shè)的矯正條件的第三個視頻幀,以此類推。
如圖2所示,若當(dāng)前視頻幀滿足預(yù)設(shè)的矯正條件,則對該當(dāng)前視頻幀進(jìn)行追蹤矯正,執(zhí)行步驟S143。
步驟S143,檢測當(dāng)前視頻幀中是否存在目標(biāo)人臉,當(dāng)當(dāng)前視頻幀中不存在目標(biāo)人臉時,確定當(dāng)前視頻幀為剪輯的結(jié)束幀。
當(dāng)前視頻幀滿足預(yù)設(shè)的矯正條件時,重新檢測和識別當(dāng)前視頻幀中是否存在目標(biāo)人臉,具體的檢測和識別方法與步驟S110和步驟S120相同,這里不再贅述。若當(dāng)前視頻幀中存在目標(biāo)人臉,則繼續(xù)追蹤目標(biāo)人臉,即下一個視頻幀重新執(zhí)行步驟S141;若當(dāng)前視頻幀中不存在目標(biāo)人臉,則確定當(dāng)前視頻幀為剪輯的結(jié)束幀。
如圖2所示,若當(dāng)前視頻幀不滿足預(yù)設(shè)的矯正條件,則開始對該目標(biāo)人臉進(jìn)行追蹤,執(zhí)行步驟S142。
步驟S142,根據(jù)目標(biāo)人臉在當(dāng)前視頻幀的下一個視頻幀中出現(xiàn)的置信度與預(yù)設(shè)置信度閾值之間的大小關(guān)系,確定剪輯的結(jié)束幀。
圖3為本發(fā)明第一實(shí)施例提供的視頻剪輯方法的第三種流程示意圖,如圖3所示,本實(shí)施例中,步驟S142可以通過以下四個子步驟S1421、S1422、S1423和S1424具體實(shí)施:
步驟S1421,根據(jù)目標(biāo)人臉在當(dāng)前視頻幀中的位置計算該目標(biāo)人臉在當(dāng)前視頻幀的下一個視頻幀中出現(xiàn)的置信度。
本實(shí)施例中,在對目標(biāo)人臉進(jìn)行追蹤時,需要根據(jù)目標(biāo)人臉在當(dāng)前視頻幀中的位置計算該目標(biāo)人臉在當(dāng)前視頻幀的下一個視頻幀中出現(xiàn)的置信度。具體地,根據(jù)目標(biāo)人臉在當(dāng)前視頻幀中的位置計算該目標(biāo)人臉在下一個視頻幀的每個位置出現(xiàn)的概率,選取其中最大的概率作為出現(xiàn)的置信度。比如計算得到目標(biāo)人臉在下一個視頻幀中的三個位置出現(xiàn)的概率分別為20%、40%、60%,則選取概率60%作為目標(biāo)人臉在下一個視頻幀出現(xiàn)的置信度。進(jìn)一步地,可以采用SVM(Support Vector Machine,支持向量機(jī))分類器找到目標(biāo)人臉在當(dāng)前視頻幀的位置,采用基于SVM的Struck算法來計算上述置信度。Struck算法主要提出一種基于結(jié)構(gòu)輸出預(yù)測的自適應(yīng)視覺目標(biāo)跟蹤的框架,通過明確引入輸出空間滿足跟蹤功能,能夠避免中間分類環(huán)節(jié),直接輸出跟蹤結(jié)果。同時,為了保證實(shí)時性,該算法還引入了閾值機(jī)制,防止跟蹤過程中支持向量的過增長。Struck算法使用了在線結(jié)構(gòu)輸出SVM學(xué)習(xí)方法去解決跟蹤問題。不同于常規(guī)算法訓(xùn)練一個分類器,Struck算法直接通過預(yù)測函數(shù):f:x→y,來預(yù)測每幀之間目標(biāo)位置發(fā)生的變化,其中y表示搜尋空間,例如yt∈y,上一幀中目標(biāo)的新位置為Pt-1,則在當(dāng)前幀中,目標(biāo)位置就為基于SVM的Struck算法具有良好的追蹤性能,但需要在線訓(xùn)練SVM分類器,非常耗時。也可以采用KCF算法,KCF算法通過核函數(shù)對多通道的Hog特征進(jìn)行了融合,使得訓(xùn)練所得的分類器對待檢測目標(biāo)的解釋力更強(qiáng)。KCF算法對光照變化、遮擋、非剛性形變、運(yùn)動模糊、背景雜亂和旋轉(zhuǎn)等影視視頻均能跟蹤良好。
考慮到KCF算法不需要在線訓(xùn)練SVM分類器,在準(zhǔn)確率較高的情況下運(yùn)算速度很快,優(yōu)選地,采用基于SVM的Struck算法和KCF算法相結(jié)合的方式計算在上述置信度,此方式具有良好的追蹤性能,同時具有較快的追蹤速度。例如,從起始幀開始追蹤的前10個視頻幀,每幀都采用基于SVM的Struck算法,以便獲得較好的SVM分類器,之后每追蹤10個視頻幀調(diào)用一次基于SVM的Struck算法,從而及時更新SVM分類器,期間9個視頻幀采用速度較快的KCF算法,即起始幀記為追蹤的第1個視頻幀,第1-10個視頻幀采用基于SVM的Struck算法,第11-19個視頻幀采用KCF算法,第20個視頻幀采用基于SVM的Struck算法,第21-29個視頻幀采用KCF算法,以此類推。
步驟S1422,判斷上述置信度是否小于預(yù)設(shè)置信度閾值。
本實(shí)施例中,存儲有預(yù)設(shè)置信度閾值,用于與步驟S1421得到的置信度進(jìn)行比較,從而判斷是否追蹤到目標(biāo)人臉。若上述計算得到的置信度大于等于預(yù)設(shè)置信度閾值,則繼續(xù)在下一個視頻幀中追蹤該目標(biāo)人臉,執(zhí)行步驟S141;若上述計算得到的置信度小于預(yù)設(shè)置信度閾值,則沒有追蹤到該目標(biāo)人臉,執(zhí)行步驟S1423。例如預(yù)設(shè)置信度閾值為60%,當(dāng)目標(biāo)人臉在當(dāng)前視頻幀的下一個視頻幀中出現(xiàn)的置信度大于等于60%時,確定追蹤到該目標(biāo)人臉,繼續(xù)在下一個視頻幀中追蹤該目標(biāo)人臉,執(zhí)行步驟S141;當(dāng)目標(biāo)人臉在當(dāng)前視頻幀的下一個視頻幀中出現(xiàn)的置信度小于60%時,確定沒有追蹤到該目標(biāo)人臉,執(zhí)行步驟S1423。
步驟S1423,檢測下一個視頻幀中是否存在目標(biāo)人臉。
當(dāng)目標(biāo)人臉在下一個視頻幀中出現(xiàn)的置信度小于上述預(yù)設(shè)置信度閾值時,需要檢測下一個視頻幀中是否存在目標(biāo)人臉,具體的檢測過程與步驟S110和步驟S120的相同,這里不再贅述。
若通過上述步驟S1423檢測到下一個視頻幀中存在目標(biāo)人臉,則繼續(xù)在下一個視頻幀中追蹤該目標(biāo)人臉,執(zhí)行步驟S141;若下一個視頻幀中不存在目標(biāo)人臉,則執(zhí)行步驟S1424。
步驟S1424,確定當(dāng)前視頻幀為剪輯的結(jié)束幀。
通過以上的方法確定剪輯的起始幀和結(jié)束幀后,執(zhí)行步驟S150,步驟S150與圖1相同,這里不再贅述。
通過如圖2和圖3所示的方法,當(dāng)影視視頻的背景雜亂、分辨率低、目標(biāo)人物的正臉被遮擋時,仍然可以追蹤到目標(biāo)人臉,因而避免了包含目標(biāo)人物的視頻內(nèi)容的丟失,剪輯完成的目標(biāo)人物的視頻片段更加完整。
考慮到采用上述方法確定剪輯的起始幀和結(jié)束幀時,主要依靠對目標(biāo)人臉的識別和追蹤,而對目標(biāo)人臉的識別和追蹤只與待剪輯視頻的圖像文件有關(guān),因此為了加快視頻剪輯的速度,上述圖1至圖3中,步驟S110,逐幀檢測待剪輯視頻中的人臉,具體為:逐幀檢測待剪輯視頻的圖像文件中的人臉,步驟S150,根據(jù)起始幀和結(jié)束幀剪輯待剪輯視頻,得到剪輯完成的視頻,具體為:根據(jù)起始幀和結(jié)束幀分別剪輯待剪輯視頻的圖像文件和音頻文件,將剪輯后的圖像文件和剪輯后的音頻文件進(jìn)行合成,得到剪輯完成的視頻。
對應(yīng)地,如圖4所示,本發(fā)明實(shí)施例提供了視頻剪輯方法的第四種流程示意圖,下面對本發(fā)明實(shí)施例所提供的視頻剪輯方法的第四種流程示意圖進(jìn)行詳細(xì)介紹。
首先對待剪輯視頻進(jìn)行轉(zhuǎn)碼,例如可以利用各種視頻轉(zhuǎn)碼工具對待剪輯視頻進(jìn)行轉(zhuǎn)碼,生成預(yù)定格式的視頻數(shù)據(jù)流;然后對該視頻數(shù)據(jù)流進(jìn)行分流,得到圖像文件和音頻文件;接下來主要對圖像文件進(jìn)行分析處理,獲取待剪輯視頻中的結(jié)構(gòu)化信息、目標(biāo)人臉的位置、剪輯的起始幀和結(jié)束幀以及起始幀和結(jié)束幀分別對應(yīng)的起始時間和結(jié)束時間;根據(jù)剪輯的起始幀和結(jié)束幀剪輯待剪輯視頻的圖像文件,根據(jù)剪輯的起始時間和結(jié)束時間剪輯待剪輯視頻的音頻文件;最后將剪輯后的圖像文件和剪輯后的音頻文件進(jìn)行合成,得到剪輯完成的視頻。
對圖像文件的具體處理過程包括以下步驟:
步驟S1001,檢測圖像文件中的人臉。
步驟S1002,判斷是否檢測到人臉。
步驟S1001和步驟S1002的具體過程與步驟S110的相同,這里不再贅述。若步驟S1002判斷出沒有檢測到人臉,則下一個視頻幀重新執(zhí)行步驟S1001;若步驟S1002判斷出檢測到人臉,則執(zhí)行步驟S1003。
步驟S1003,識別該人臉是否為目標(biāo)人臉。
對該人臉的具體識別過程與步驟S120的相同,這里不再贅述。若識別該人臉不是目標(biāo)人臉,則下一個視頻幀重新執(zhí)行步驟S1001;若識別該人臉為目標(biāo)人臉,則執(zhí)行步驟S1004和步驟S1005。
步驟S1004,確定剪輯的起始幀及起始時間Start 1。
同步驟S130,當(dāng)識別該人臉為目標(biāo)人臉時,確定此時目標(biāo)人臉?biāo)鶎俚囊曨l幀為剪輯的起始幀,目標(biāo)人臉?biāo)鶎俚囊曨l幀對應(yīng)的時間為剪輯的起始時間,其中剪輯的起始時間標(biāo)記為Start 1。
步驟S1005,追蹤目標(biāo)人臉。
由步驟S1004確定剪輯的起始幀及剪輯的起始時間Start 1后,開始對該目標(biāo)人臉進(jìn)行追蹤。具體的追蹤過程與步驟S140的相同,這里不再贅述。
步驟S1006,確定剪輯的結(jié)束幀及結(jié)束時間Finish 1。
若當(dāng)前視頻幀中的人臉不是目標(biāo)人臉,則確定該當(dāng)前視頻幀為剪輯的結(jié)束幀,該當(dāng)前視頻幀對應(yīng)的時間為剪輯的結(jié)束時間,其中剪輯的結(jié)束時間標(biāo)記為Finish 1。
根據(jù)上述方法確定的剪輯的起始幀和結(jié)束幀,將剪輯的起始幀作為剪輯的第一幀,剪輯的結(jié)束幀作為剪輯的最后一幀,剪輯待剪輯視頻的圖像文件,得到剪輯后的圖像文件。
對音頻文件的具體處理過程包括以下步驟:
步驟S2001,從Start 1開始剪輯音頻文件。
獲取圖像文件中標(biāo)記的剪輯的起始時間Start 1,從Start 1開始剪輯待剪輯視頻的音頻文件。
步驟S2002,在Finish 1停止剪輯音頻文件。
獲取圖像文件中標(biāo)記的剪輯的結(jié)束時間Finish 1,在Finish 1停止剪輯待剪輯視頻的音頻文件。
通過步驟S2001和步驟S2002可以獲得剪輯后的音頻文件。
通過對圖像文件和音頻文件的處理,得到了剪輯后的圖像文件和剪輯后的音頻文件,將剪輯后的圖像文件和剪輯后的音頻文件進(jìn)行合成,得到剪輯完成的視頻。
在待剪輯視頻中,會有多段視頻包含目標(biāo)人物,對待剪輯視頻重復(fù)圖4中的步驟可以獲得包含目標(biāo)人臉的多個剪輯完成的視頻,將多個剪輯完成的視頻按時間排序即可得到該目標(biāo)人物的視頻片段。
本發(fā)明實(shí)施例中,將待剪輯視頻分離成圖像文件和音頻文件,主要對圖像文件進(jìn)行分析處理,減少了處理的數(shù)據(jù)流,因而在保證視頻剪輯準(zhǔn)確度的同時,進(jìn)一步提高了視頻剪輯的速度。
基于上述分析可知,本發(fā)明實(shí)施例所提供的視頻剪輯方法具有以下有益效果:(1)通過對目標(biāo)人臉的追蹤,減少了包含目標(biāo)人物的視頻內(nèi)容的丟失,使剪輯完成的目標(biāo)人物的視頻片段更加完整;(2)實(shí)現(xiàn)了對目標(biāo)人物的視頻片段的自動剪輯,不需要人工觀看和手動剪輯影視視頻,減少了人力和時間的消耗;(3)采用基于SVM的Struck算法和KCF算法相結(jié)合的方式對目標(biāo)人臉進(jìn)行追蹤,具有良好的追蹤性能和較快的追蹤速度;(4)將待剪輯視頻分離成圖像文件和音頻文件,主要對圖像文件進(jìn)行分析處理,減少了處理的數(shù)據(jù)流,在保證視頻剪輯準(zhǔn)確度的同時,進(jìn)一步提高了視頻剪輯的速度。
實(shí)施例二:
對應(yīng)上述實(shí)施例一中的方法,本發(fā)明實(shí)施例還提供了一種視頻剪輯裝置,用于執(zhí)行上述實(shí)施例一中的方法。圖5為本發(fā)明第二實(shí)施例提供的視頻剪輯裝置的第一種模塊組成示意圖,如圖5所示,本實(shí)施例中的視頻剪輯裝置包括:人臉檢測模塊10,用于逐幀檢測待剪輯視頻中的人臉;目標(biāo)判斷模塊20,用于判斷檢測到的人臉是否為目標(biāo)人臉;起始確定模塊30,用于當(dāng)檢測到的人臉為目標(biāo)人臉時,確定目標(biāo)人臉?biāo)鶎俚囊曨l幀為剪輯的起始幀;結(jié)束確定模塊40,用于從起始幀開始,根據(jù)目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度逐幀追蹤目標(biāo)人臉,確定剪輯的結(jié)束幀;剪輯模塊50,用于根據(jù)起始幀和結(jié)束幀剪輯待剪輯視頻,得到剪輯完成的視頻。
本發(fā)明實(shí)施例中,人臉檢測模塊10逐幀檢測待剪輯視頻中的人臉,目標(biāo)判斷模塊20判斷檢測到的人臉是否為目標(biāo)人臉,當(dāng)檢測到的人臉為目標(biāo)人臉時,起始確定模塊30確定此目標(biāo)人臉?biāo)鶎俚囊曨l幀為剪輯的起始幀,從起始幀開始,結(jié)束確定模塊40根據(jù)目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度逐幀追蹤目標(biāo)人臉,確定剪輯的結(jié)束幀,剪輯模塊50根據(jù)起始幀和結(jié)束幀剪輯待剪輯視頻,得到剪輯完成的視頻。由于本發(fā)明實(shí)施例中根據(jù)目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度在各個視頻幀中追蹤目標(biāo)人臉,確定剪輯的結(jié)束幀,計算目標(biāo)人臉在各個視頻幀中出現(xiàn)的置信度時,與影視視頻的背景、分辨率和目標(biāo)人物的正臉是否被遮擋沒有關(guān)系,因此當(dāng)影視視頻的背景雜亂、分辨率低或者目標(biāo)人物的正臉被遮擋時,通過本發(fā)明實(shí)施例提供的裝置仍然可以追蹤到目標(biāo)人臉,因而避免了包含目標(biāo)人物的視頻內(nèi)容的丟失,剪輯完成的目標(biāo)人物的視頻片段更加完整。
圖6為本發(fā)明第二實(shí)施例提供的視頻剪輯裝置的第二種模塊組成示意圖,如圖6所示,上述結(jié)束確定模塊40包括:矯正判斷單元41,用于判斷當(dāng)前視頻幀是否滿足預(yù)設(shè)的矯正條件;第一結(jié)束確定單元42,用于當(dāng)當(dāng)前視頻幀不滿足預(yù)設(shè)的矯正條件時,根據(jù)目標(biāo)人臉在當(dāng)前視頻幀的下一個視頻幀中出現(xiàn)的置信度與預(yù)設(shè)置信度閾值之間的大小關(guān)系,確定剪輯的結(jié)束幀;第二結(jié)束確定單元43,用于當(dāng)當(dāng)前視頻幀滿足預(yù)設(shè)的矯正條件時,檢測當(dāng)前視頻幀中是否存在目標(biāo)人臉,當(dāng)當(dāng)前視頻幀中不存在目標(biāo)人臉時,確定該當(dāng)前視頻幀為剪輯的結(jié)束幀。
具體地,第一結(jié)束確定單元42包括:第一計算子單元,用于根據(jù)目標(biāo)人臉在當(dāng)前視頻幀中的位置計算目標(biāo)人臉在該當(dāng)前視頻幀的下一個視頻幀中出現(xiàn)的置信度;第一檢測子單元,用于當(dāng)目標(biāo)人臉在下一個視頻幀中出現(xiàn)的置信度小于預(yù)設(shè)置信度閾值時,檢測下一個視頻幀中是否存在該目標(biāo)人臉;第一確定子單元,用于當(dāng)下一個視頻幀中不存在目標(biāo)人臉時,確定當(dāng)前視頻幀為剪輯的結(jié)束幀。
具體地,矯正判斷單元41包括:矯正判斷子單元,用于判斷當(dāng)前視頻幀與上一個滿足預(yù)設(shè)的矯正條件的視頻幀之間是否間隔預(yù)設(shè)時間或者間隔預(yù)設(shè)數(shù)量的視頻幀,其中,與起始幀之間間隔預(yù)設(shè)時間或者間隔預(yù)設(shè)數(shù)量的視頻幀為滿足預(yù)設(shè)的矯正條件的第一個視頻幀;矯正確定子單元,用于當(dāng)當(dāng)前視頻幀與上一個滿足預(yù)設(shè)的矯正條件的視頻幀之間間隔預(yù)設(shè)時間或者間隔預(yù)設(shè)數(shù)量的視頻幀時,確定該當(dāng)前視頻幀滿足預(yù)設(shè)的矯正條件,否則,不滿足預(yù)設(shè)的矯正條件。
進(jìn)一步地,第一結(jié)束確定單元42中的第一計算子單元具體用于:采用基于SVM的Struck算法和KCF算法相結(jié)合的方式,根據(jù)目標(biāo)人臉在當(dāng)前視頻幀中的位置計算目標(biāo)人臉在該當(dāng)前視頻幀的下一個視頻幀中出現(xiàn)的置信度。
具體地,目標(biāo)判斷模塊20包括:相似度計算單元,用于計算檢測到的人臉分別對應(yīng)預(yù)先存儲的各個人臉的相似度;人臉判斷單元,用于判斷相似度最大的預(yù)先存儲的人臉是否為目標(biāo)人臉;目標(biāo)確定單元,用于當(dāng)相似度最大的預(yù)先存儲的人臉為目標(biāo)人臉時,確定檢測到的人臉為目標(biāo)人臉。
通過如圖6所示的裝置,當(dāng)影視視頻的背景雜亂、分辨率低、目標(biāo)人物的正臉被遮擋時,仍然可以追蹤到目標(biāo)人臉,因而避免了包含目標(biāo)人物的視頻內(nèi)容的丟失,剪輯完成的目標(biāo)人物的視頻片段更加完整。
考慮到采用上述模塊確定剪輯的起始幀和結(jié)束幀時,主要依靠對目標(biāo)人臉的識別和追蹤,而對目標(biāo)人臉的識別和追蹤只與待剪輯視頻的圖像文件有關(guān),因此為了加快視頻剪輯的速度,本發(fā)明實(shí)施例中,人臉檢測模塊10具體用于:逐幀檢測待剪輯視頻的圖像文件中的人臉;剪輯模塊50具體用于:根據(jù)起始幀和結(jié)束幀分別剪輯待剪輯視頻的圖像文件和音頻文件,將剪輯后的圖像文件和剪輯后的音頻文件進(jìn)行合成,得到剪輯完成的視頻。
本發(fā)明實(shí)施例中,將待剪輯視頻分離成圖像文件和音頻文件,主要對圖像文件進(jìn)行分析處理,減少了處理的數(shù)據(jù)流,因而在保證視頻剪輯準(zhǔn)確度的同時,進(jìn)一步提高了視頻剪輯的速度。
本發(fā)明實(shí)施例提供的視頻剪輯裝置,與上述實(shí)施例提供的視頻剪輯方法具有相同的技術(shù)特征,所以也能解決相同的技術(shù)問題,達(dá)到相同的技術(shù)效果。
基于上述分析可知,本發(fā)明實(shí)施例所提供的視頻剪輯裝置具有以下有益效果:(1)通過對目標(biāo)人臉的追蹤,減少了包含目標(biāo)人物的視頻內(nèi)容的丟失,使剪輯完成的目標(biāo)人物的視頻片段更加完整;(2)實(shí)現(xiàn)了對目標(biāo)人物的視頻片段的自動剪輯,不需要人工觀看和手動剪輯影視視頻,減少了人力和時間的消耗;(3)采用基于SVM的Struck算法和KCF算法相結(jié)合的方式對目標(biāo)人臉進(jìn)行追蹤,具有良好的追蹤性能和較快的追蹤速度;(4)將待剪輯視頻分離成圖像文件和音頻文件,主要對圖像文件進(jìn)行分析處理,減少了處理的數(shù)據(jù)流,在保證視頻剪輯準(zhǔn)確度的同時,進(jìn)一步提高了視頻剪輯的速度。
本發(fā)明實(shí)施例所提供的視頻剪輯方法及裝置的計算機(jī)程序產(chǎn)品,包括存儲了程序代碼的計算機(jī)可讀存儲介質(zhì),所述程序代碼包括的指令可用于執(zhí)行前面方法實(shí)施例中所述的方法,具體實(shí)現(xiàn)可參見方法實(shí)施例,在此不再贅述。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng)和裝置的具體工作過程,可以參考前述方法實(shí)施例中的對應(yīng)過程,在此不再贅述。
另外,在本發(fā)明實(shí)施例的描述中,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通。對于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機(jī)存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
在本發(fā)明的描述中,需要說明的是,術(shù)語“中心”、“上”、“下”、“左”、“右”、“豎直”、“水平”、“內(nèi)”、“外”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。此外,術(shù)語“第一”、“第二”、“第三”僅用于描述目的,而不能理解為指示或暗示相對重要性。
最后應(yīng)說明的是:以上所述實(shí)施例,僅為本發(fā)明的具體實(shí)施方式,用以說明本發(fā)明的技術(shù)方案,而非對其限制,本發(fā)明的保護(hù)范圍并不局限于此,盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),其依然可以對前述實(shí)施例所記載的技術(shù)方案進(jìn)行修改或可輕易想到變化,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改、變化或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明實(shí)施例技術(shù)方案的精神和范圍,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。