本公開涉及圖像處理技術(shù)領(lǐng)域,尤其涉及一種視頻識(shí)別方法和裝置。
背景技術(shù):
隨著社會(huì)的快速發(fā)展,科學(xué)技術(shù)的不斷進(jìn)步,人們所能觸及到的信息呈現(xiàn)幾何式的增長(zhǎng),人們?cè)絹碓叫枰柚畔⑺阉骷夹g(shù)在海量的信息中挖掘出有效信息。
目前的信息搜索技術(shù)對(duì)于文字的搜索效果較好,可以快速定位到包含有用戶預(yù)設(shè)關(guān)鍵詞的文章,但是對(duì)于一段視頻而言,若用戶希望觀看僅包含自己喜愛演員出場(chǎng)的視頻片斷,則只能通過拖動(dòng)視頻進(jìn)度按鈕或按下視頻快進(jìn)鍵進(jìn)行查找,費(fèi)時(shí)費(fèi)力,且定位不準(zhǔn)確。
技術(shù)實(shí)現(xiàn)要素:
為了解決現(xiàn)有技術(shù)中,對(duì)視頻中演員出場(chǎng)時(shí)間段無法定位的問題,本公開提供一種視頻識(shí)別方法和裝置,通過對(duì)視頻進(jìn)行片斷劃分,并在劃分后的視頻片斷中進(jìn)行人臉識(shí)別,確定出視頻片斷與人臉身份的對(duì)應(yīng)關(guān)系,從而可以為用戶推送僅包含有其所希望觀看的演員出場(chǎng)的視頻片斷,該方法有效且快速實(shí)現(xiàn)人臉識(shí)別,人臉視頻片斷定位,提升用戶觀賞視頻的用戶體驗(yàn)。
本公開提供一種視頻識(shí)別方法和裝置,所述技術(shù)方案如下:
根據(jù)本公開實(shí)施例的第一方面,提供一種視頻識(shí)別方法,包括:
獲取目標(biāo)視頻;
根據(jù)第一預(yù)設(shè)幀間隔,對(duì)所述目標(biāo)視頻進(jìn)行劃分,得到多個(gè)視頻片斷;
根據(jù)第二預(yù)設(shè)幀間隔,從每個(gè)所述視頻片斷中提取出第一幀圖像;
檢測(cè)所述第一幀圖像中是否包含人臉信息,將包含有人臉信息的第一幀圖像提取出來,得到第二人臉幀圖像;
基于預(yù)設(shè)識(shí)別模型,對(duì)所述第二人臉幀圖像中的人臉身份進(jìn)行識(shí)別,確定所述第二人臉幀圖像中包含的人臉標(biāo)識(shí);
根據(jù)所述人臉標(biāo)識(shí)與所述第二人臉幀圖像的對(duì)應(yīng)關(guān)系,根據(jù)所述第二人臉幀圖像與所述第二人臉幀圖像所歸屬的視頻片斷的對(duì)應(yīng)關(guān)系,形成所述人臉標(biāo)識(shí)、所述第二人臉幀圖像、所述視頻片斷的三方對(duì)應(yīng)關(guān)系表。
根據(jù)本公開實(shí)施例的第二方面,提供一種視頻識(shí)別裝置,包括:
第一獲取模塊,用于獲取目標(biāo)視頻;
第一劃分模塊,用于根據(jù)第一預(yù)設(shè)幀間隔,對(duì)所述目標(biāo)視頻進(jìn)行劃分,得到多個(gè)視頻片斷;
第二劃分模塊,用于根據(jù)第二預(yù)設(shè)幀間隔,從每個(gè)所述視頻片斷中提取出第一幀圖像;
檢測(cè)模塊,用于檢測(cè)所述第一幀圖像中是否包含人臉信息,將包含有人臉信息的第一幀圖像提取出來,得到第二人臉幀圖像;
識(shí)別模塊,用于基于預(yù)設(shè)識(shí)別模型,對(duì)所述第二人臉幀圖像中的人臉身份進(jìn)行識(shí)別,確定所述第二人臉幀圖像中包含的人臉標(biāo)識(shí);
匹配模塊,用于根據(jù)所述人臉標(biāo)識(shí)與所述第二人臉幀圖像的對(duì)應(yīng)關(guān)系,根據(jù)所述第二人臉幀圖像與所述第二人臉幀圖像所歸屬的視頻片斷的對(duì)應(yīng)關(guān)系,形成所述人臉標(biāo)識(shí)、所述第二人臉幀圖像、所述視頻片斷的三方對(duì)應(yīng)關(guān)系表。
本公開的實(shí)施例提供的方法及裝置可以包括以下有益效果:通過獲取目標(biāo)視頻;根據(jù)第一預(yù)設(shè)幀間隔,對(duì)目標(biāo)視頻進(jìn)行劃分,得到多個(gè)視頻片斷;根據(jù)第二預(yù)設(shè)幀間隔,從每個(gè)視頻片斷中提取出第一幀圖像;檢測(cè)第一幀圖像中是否包含人臉信息,將包含有人臉信息的第一幀圖像提取出來,得到第二人臉幀圖像;基于預(yù)設(shè)識(shí)別模型,對(duì)第二人臉幀圖像中的人臉身份進(jìn)行識(shí)別,確定第二人臉幀圖像中包含的人臉標(biāo)識(shí);根據(jù)人臉標(biāo)識(shí)與第二人臉幀圖像的對(duì)應(yīng)關(guān)系,根據(jù)第二人臉幀圖像與第二人臉幀圖像所歸屬的視頻片斷的對(duì)應(yīng)關(guān)系,形成人臉標(biāo)識(shí)、第二人臉幀圖像、視頻片斷的三方對(duì)應(yīng)關(guān)系表。從而可以根據(jù)確定出的視頻片斷與人臉標(biāo)識(shí)的對(duì)應(yīng)關(guān)系,為用戶推送僅包含有其所希望觀看的演員出場(chǎng)的視頻片斷,該方法有效且快速實(shí)現(xiàn)人臉識(shí)別,人臉視頻片斷定位,提升用戶觀賞視頻的用戶體驗(yàn)。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實(shí)施例, 并與說明書一起用于解釋本公開的原理。
圖1是根據(jù)一示例性實(shí)施例示出的一種視頻識(shí)別方法的流程圖;
圖2是根據(jù)另一示例性實(shí)施例示出的一種視頻識(shí)別方法的流程圖;
圖3是圖2所示實(shí)施例的一種視頻劃分方式的示意圖;
圖4是根據(jù)一示例性實(shí)施例示出的一種視頻識(shí)別裝置的流程圖;
圖5是根據(jù)另一示例性實(shí)施例示出的一種視頻識(shí)別裝置的流程圖。
通過上述附圖,已示出本公開明確的實(shí)施例,后文中將有更詳細(xì)的描述。這些附圖和文字描述并不是為了通過任何方式限制本公開構(gòu)思的范圍,而是通過參考特定實(shí)施例為本領(lǐng)域技術(shù)人員說明本公開的概念。
具體實(shí)施方式
這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說明,其示例表示在附圖中。下面的描述涉及附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本公開相一致的所有實(shí)施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
圖1是根據(jù)一示例性實(shí)施例示出的一種視頻識(shí)別方法的流程圖,如圖1所示,本實(shí)施例的視頻識(shí)別方法可以應(yīng)用于視頻提供商的視頻服務(wù)器中也可以應(yīng)用于接收視頻方的終端(客戶端設(shè)備)中,以下以應(yīng)用于視頻服務(wù)器中來舉例說明,本實(shí)施例的方法包括以下步驟:
該視頻處理方法包括以下步驟:
在步驟101中,獲取目標(biāo)視頻。
具體的,視頻本質(zhì)上是由一系列的靜態(tài)影像連接而成,通常來說連續(xù)的圖像變化每秒超過24幀畫面以上時(shí),根據(jù)視覺暫留原理,人眼無法辨別單幅的靜態(tài)畫面,看上去是平滑連續(xù)的視覺效果,這樣連續(xù)的畫面叫做視頻。通過對(duì)構(gòu)成目標(biāo)視頻的連續(xù)的幀圖像進(jìn)行人臉圖像的識(shí)別,可以實(shí)現(xiàn)對(duì)目標(biāo)視頻中出現(xiàn)的演員的識(shí)別。
在步驟102中,根據(jù)第一預(yù)設(shè)幀間隔,對(duì)目標(biāo)視頻進(jìn)行劃分,得到多個(gè)視頻片斷。
具體的,如前所述,視頻流之所以可以由一幀幀的靜態(tài)畫面構(gòu)成,主要是因?yàn)槿搜蹖?duì)于快速變化的單幅靜態(tài)畫面的識(shí)別能力有限,因此由靜態(tài)畫面組成的視頻,人眼看上去可以是平滑連續(xù)的視覺效果。因此,可以根據(jù)一定間隔區(qū)間內(nèi)包含的靜態(tài)畫面數(shù)量,將目標(biāo)視頻劃分為一個(gè)個(gè)的視頻片斷,并且從用戶觀看視頻的觀感效果來說,第一預(yù)設(shè)幀間隔可 以以分鐘為單位,如0.5分鐘、1分鐘,這樣當(dāng)從目標(biāo)視頻中提取出包含有用戶喜愛演員出場(chǎng)的視頻片斷時(shí),每段視頻的流動(dòng)性較好,沒有一幀幀畫面的跳躍感與突兀感。
在步驟103中,根據(jù)第二預(yù)設(shè)幀間隔,從每個(gè)視頻片斷中提取出第一幀圖像。
具體的,即使將完整視頻進(jìn)行分段處理后,每段視頻片斷內(nèi)包含的幀圖像的數(shù)量依舊很大,如前所述一秒鐘的視頻中可以包含有幾十幀的靜態(tài)圖像,若對(duì)每個(gè)視頻片斷中的每幀圖像都進(jìn)行人臉識(shí)別操作,運(yùn)算量巨大,識(shí)別速率不高。因此,可以在每個(gè)視頻片斷中抽取出一些特定的幀圖像,對(duì)這些特定的幀圖像進(jìn)行掃描,得到圖像中所包含的人臉特征信息,對(duì)特定幀圖像的提取可以根據(jù)處理器的處理性能進(jìn)行劃分,若處理器的處理性能高,第二預(yù)設(shè)幀間隔可以較小,由于第一幀圖像中可能包含有人臉信息,也可能未包含人臉信息,若第二預(yù)設(shè)幀間隔小則提高了從視頻片斷中提取到包含有人臉信息的幀圖像的幾率。優(yōu)選的,第一預(yù)設(shè)幀間隔大于第二預(yù)設(shè)幀間隔。
在步驟104中,檢測(cè)第一幀圖像中是否包含人臉信息,將包含有人臉信息的第一幀圖像提取出來,得到第二人臉幀圖像。
具體的,檢測(cè)第一幀圖像中是否包含人臉信息是指在該圖像中以一定的策略進(jìn)行搜索,以確定其中是否含有人臉信息,其中的人臉信息可以是單張人臉信息或多張人臉信息,并在該幀圖像中對(duì)人臉信息出現(xiàn)的位置進(jìn)行標(biāo)定,以確認(rèn)各個(gè)人臉信息在幀圖像中的坐標(biāo)位置。對(duì)第一幀圖像進(jìn)行篩選,將包含有人臉信息的第一幀圖像提取出來,得到第二人臉幀圖像。
在步驟105中,基于預(yù)設(shè)識(shí)別模型,對(duì)第二人臉幀圖像中的人臉身份進(jìn)行識(shí)別,確定第二人臉幀圖像中包含的人臉標(biāo)識(shí)。
具體的,現(xiàn)有技術(shù)中存在多種用于對(duì)圖像中的人臉身份進(jìn)行識(shí)別的算法,基于不同的算法,可以得到不同的識(shí)別模型,例如,采集大量人臉圖片作為樣本數(shù)據(jù),利用人工神經(jīng)網(wǎng)絡(luò)對(duì)樣本數(shù)據(jù)進(jìn)行訓(xùn)練,得到具有人工智能學(xué)習(xí)能力的神經(jīng)網(wǎng)絡(luò)模型,再采用該訓(xùn)練好的人工神經(jīng)網(wǎng)絡(luò)模型對(duì)待識(shí)別的人臉圖像進(jìn)行識(shí)別,得到識(shí)別結(jié)果。該訓(xùn)練好的人工神經(jīng)網(wǎng)絡(luò)模型即為預(yù)設(shè)識(shí)別模型。對(duì)所有第二人臉幀圖像進(jìn)行預(yù)處理后,作為輸入數(shù)據(jù)輸入到該預(yù)設(shè)識(shí)別模型中,可以得到每張第二人臉幀圖像中出現(xiàn)的人臉圖像的識(shí)別結(jié)果,即得到第二人臉幀圖像中包含的人臉標(biāo)識(shí),人臉標(biāo)識(shí)可以為視頻中演員的名字。
在步驟106中,根據(jù)人臉標(biāo)識(shí)與第二人臉幀圖像的對(duì)應(yīng)關(guān)系,根據(jù)第二人臉幀圖像與第二人臉幀圖像所歸屬的視頻片斷的對(duì)應(yīng)關(guān)系,形成人臉標(biāo)識(shí)、第二人臉幀圖像、視頻片斷的三方對(duì)應(yīng)關(guān)系表。
具體的,通過該三方對(duì)應(yīng)關(guān)系表,可以對(duì)某一特定人臉標(biāo)識(shí)進(jìn)行快速定位,以獲取到包含有該特定人臉標(biāo)識(shí)的視頻片斷,從而將這些包含有特定人臉標(biāo)識(shí)的視頻片斷提取并連續(xù)播放,以達(dá)到用戶僅觀看自己喜愛演員出場(chǎng)的視頻片斷的目的。
本實(shí)施例中,通過獲取目標(biāo)視頻;根據(jù)第一預(yù)設(shè)幀間隔,對(duì)目標(biāo)視頻進(jìn)行劃分,得到多個(gè)視頻片斷;根據(jù)第二預(yù)設(shè)幀間隔,從每個(gè)視頻片斷中提取出第一幀圖像;檢測(cè)第一幀圖像中是否包含人臉信息,將包含有人臉信息的第一幀圖像提取出來,得到第二人臉幀圖像;基于預(yù)設(shè)識(shí)別模型,對(duì)第二人臉幀圖像中的人臉身份進(jìn)行識(shí)別,確定第二人臉幀圖像中包含的人臉標(biāo)識(shí);根據(jù)人臉標(biāo)識(shí)與第二人臉幀圖像的對(duì)應(yīng)關(guān)系,根據(jù)第二人臉幀圖像與第二人臉幀圖像所歸屬的視頻片斷的對(duì)應(yīng)關(guān)系,形成人臉標(biāo)識(shí)、第二人臉幀圖像、視頻片斷的三方對(duì)應(yīng)關(guān)系表。從而可以根據(jù)確定出的視頻片斷與人臉標(biāo)識(shí)的對(duì)應(yīng)關(guān)系,為用戶推送僅包含有其所希望觀看的演員出場(chǎng)的視頻片斷,該方法有效且快速實(shí)現(xiàn)人臉識(shí)別,人臉視頻片斷定位,提升用戶觀賞視頻的用戶體驗(yàn)。
圖2是根據(jù)另一示例性實(shí)施例示出的一種視頻識(shí)別方法的流程圖,如圖2所示,本實(shí)施例的視頻處理方法可以應(yīng)用于視頻提供商的視頻服務(wù)器中也可以應(yīng)用于接收視頻方的終端(客戶端設(shè)備)中,以下以應(yīng)用于視頻服務(wù)器中來舉例說明,本實(shí)施例的方法包括以下步驟:
在步驟201中,獲取目標(biāo)視頻。
在步驟202中,根據(jù)第一預(yù)設(shè)幀間隔,對(duì)目標(biāo)視頻進(jìn)行劃分,得到多個(gè)視頻片斷。
在步驟203中,根據(jù)第二預(yù)設(shè)幀間隔,從每個(gè)視頻片斷中提取出第一幀圖像。
其中,第一預(yù)設(shè)幀間隔大于第二預(yù)設(shè)幀間隔。優(yōu)選的,第二預(yù)設(shè)幀間隔為5幀靜態(tài)畫面。
在步驟204中,檢測(cè)第一幀圖像中是否包含人臉信息,將包含有人臉信息的第一幀圖像提取出來,得到第二人臉幀圖像。
在步驟205中,從目標(biāo)視頻的描述信息中獲取與目標(biāo)視頻對(duì)應(yīng)的目標(biāo)人臉標(biāo)識(shí)。
具體的,描述信息指對(duì)于該目標(biāo)視頻的節(jié)目介紹,通常會(huì)包含視頻中主要演員的演員表,該演員表中的演員名稱可以被作為人臉標(biāo)識(shí),根據(jù)該人臉標(biāo)識(shí)對(duì)目標(biāo)視頻進(jìn)行識(shí)別,以確定哪些視頻片斷中包含該人臉標(biāo)識(shí)。在一幅幀圖像中,可能包含有多個(gè)人臉標(biāo)識(shí),對(duì)每個(gè)人臉標(biāo)識(shí)均進(jìn)行標(biāo)定,相較于僅對(duì)圖像中的指定人臉標(biāo)識(shí)進(jìn)行標(biāo)定,兩者的處理效率有很大的不同。因此,通過對(duì)目標(biāo)人臉標(biāo)識(shí)進(jìn)行獲取,可以加快在目標(biāo)視頻中定位目標(biāo)人臉的效率。
在步驟206中,根據(jù)目標(biāo)人臉標(biāo)識(shí)從識(shí)別模型數(shù)庫(kù)中調(diào)取與目標(biāo)人臉標(biāo)識(shí)對(duì)應(yīng)的第一預(yù)設(shè)識(shí)別模型。
在步驟207中,基于第一預(yù)設(shè)識(shí)別模型,對(duì)第二人臉幀圖像中的人臉身份進(jìn)行識(shí)別,在第二人臉幀圖像中確定第三人臉幀圖像,第三人臉幀圖像為包含有目標(biāo)人臉標(biāo)識(shí)的第二人臉幀圖像。
具體的,第一預(yù)設(shè)識(shí)別模型為具有針對(duì)性的識(shí)別模型,其可以更有針對(duì)性地識(shí)別出給定的目標(biāo)人臉。例如,用100位明星的10萬張照片訓(xùn)練得到識(shí)別模型,訓(xùn)練后該識(shí)別模型可以對(duì)該100位明星的其他照片進(jìn)行快速識(shí)別。也可以用10位明星或1位明星的10萬或其他數(shù)量的照片訓(xùn)練得到相應(yīng)的識(shí)別模型,通常來說,在相同訓(xùn)練條件下,識(shí)別模型所適用的范圍越窄,其對(duì)人臉識(shí)別的準(zhǔn)確度越高。因此,通過根據(jù)目標(biāo)人臉標(biāo)識(shí)從識(shí)別模型數(shù)庫(kù)中調(diào)取與目標(biāo)人臉標(biāo)識(shí)對(duì)應(yīng)的第一預(yù)設(shè)識(shí)別模型,并基于該特定的第一預(yù)設(shè)識(shí)別模型,對(duì)第二人臉幀圖像中的人臉身份進(jìn)行識(shí)別,從而可以在第二人臉幀圖像中確定出包含目標(biāo)人臉標(biāo)識(shí)的第三人臉幀圖像。從而使得對(duì)目標(biāo)人臉的識(shí)別準(zhǔn)確度提高。
在步驟208中,根據(jù)目標(biāo)人臉標(biāo)識(shí)與第三人臉幀圖像的對(duì)應(yīng)關(guān)系,根據(jù)第三人臉幀圖像與第三人臉幀圖像所歸屬的視頻片斷的對(duì)應(yīng)關(guān)系,形成目標(biāo)人臉標(biāo)識(shí)、第三人臉幀圖像、視頻片斷的三方對(duì)應(yīng)關(guān)系表。
可選的,在步驟206、根據(jù)目標(biāo)人臉標(biāo)識(shí)從識(shí)別模型數(shù)庫(kù)中調(diào)取與目標(biāo)人臉標(biāo)識(shí)對(duì)應(yīng)的第一預(yù)設(shè)識(shí)別模型之前,還可以包括:
根據(jù)目標(biāo)人臉標(biāo)識(shí),從圖片數(shù)庫(kù)中調(diào)取與目標(biāo)人臉標(biāo)識(shí)對(duì)應(yīng)的目標(biāo)人臉圖片數(shù)據(jù)包;
采用目標(biāo)人臉圖片數(shù)據(jù)包作為訓(xùn)練樣本,訓(xùn)練得到與目標(biāo)人臉標(biāo)識(shí)對(duì)應(yīng)的第一預(yù)設(shè)識(shí)別模型。
具體的,目標(biāo)人臉圖片數(shù)據(jù)包中包含有預(yù)設(shè)數(shù)量的與該目標(biāo)人臉標(biāo)識(shí)對(duì)應(yīng)的人臉圖像,即訓(xùn)練樣本;通常來說訓(xùn)練樣本的數(shù)量越多訓(xùn)練得到的識(shí)別模型的識(shí)別準(zhǔn)確率越高,但訓(xùn)練樣本的具體數(shù)量還需要根據(jù)采用的算法屬性而定。其中,訓(xùn)練算法可以采用深度卷積神經(jīng)網(wǎng)絡(luò)。
可選的,形成人臉標(biāo)識(shí)、第二人臉幀圖像、視頻片斷的三方對(duì)應(yīng)關(guān)系表之后,還包括:
接收終端發(fā)送的視頻推送請(qǐng)求,視頻推送請(qǐng)求中包含:待推送的人臉標(biāo)識(shí);
根據(jù)待推送的人臉標(biāo)識(shí)在三方對(duì)應(yīng)關(guān)系表進(jìn)行查找,將與待推送的人臉標(biāo)識(shí)對(duì)應(yīng)的視頻片斷推送給終端。
具體的,用戶可以在終端(手機(jī)、PAD等)上安裝適用于該視頻識(shí)別方法的應(yīng)用APP, 輸入其所希望觀看的演員的名字,云端根據(jù)該演員的名字,在預(yù)先對(duì)目標(biāo)視頻分析得到的三方對(duì)應(yīng)關(guān)系表中為用戶確定與該演員名字對(duì)應(yīng)的視頻片斷,并推送給終端,使用戶可以僅觀看該目標(biāo)視頻中有其喜愛演員出場(chǎng)的片斷,提高觀賞效果。
下面舉例說明該視頻識(shí)別方法對(duì)視頻中特定演員的定位過程:請(qǐng)參照?qǐng)D3,在圖3中,首先對(duì)目標(biāo)視頻(例如“奔跑吧兄弟”)進(jìn)行視頻片斷劃分,如圖3中A1~A6所示,劃分為6個(gè)視頻片斷;從該目標(biāo)視頻的描述信息中(如演職員介紹、影片介紹等)獲取該目標(biāo)視頻中所包含的主要演員信息;(例如包含“楊穎”、“鄧超”、“鄭凱”等);在數(shù)據(jù)庫(kù)中調(diào)取與演員標(biāo)識(shí)對(duì)應(yīng)的人臉圖片數(shù)據(jù)包,例如調(diào)取有關(guān)“楊穎”的海量圖片;將有關(guān)“楊穎”的海量圖片作為訓(xùn)練樣本,訓(xùn)練得到能夠識(shí)別目標(biāo)人臉是否為“楊穎”的識(shí)別模型。由于每個(gè)視頻片斷是由一個(gè)個(gè)的幀圖像構(gòu)成,且通常來說一秒鐘的視頻中就包含了幾十幀,根據(jù)視頻的清晰度不同,高清視頻中包含的幀圖像數(shù)量更多,因此若對(duì)目標(biāo)視頻中的每幀圖像進(jìn)行人臉檢測(cè),浪費(fèi)資源,且效率不高;同時(shí)對(duì)于用戶來說觀看自己喜歡演員的出場(chǎng)畫面,以分鐘為截?cái)鄦挝槐容^合理,以秒進(jìn)行視頻跳轉(zhuǎn),影響觀看感受。因此,視頻片斷的長(zhǎng)度優(yōu)選的可以定位在半分鐘、一分鐘。對(duì)于從視頻片斷中提取出的用于檢測(cè)人臉信息的第一幀圖像也不必每幀必檢,可以采用預(yù)設(shè)步長(zhǎng)的第二預(yù)設(shè)幀間隔進(jìn)行提取并檢測(cè)。如圖3中B所示,每個(gè)視頻片斷中提取出一定數(shù)量的幀圖像作為待檢測(cè)的第一幀圖像B。對(duì)提取出的第一幀圖像B進(jìn)行人臉檢測(cè),檢測(cè)算法可以采用AdaBoost迭代算法,該算法可以有效提高人臉圖像的檢出效率,同時(shí)提高檢測(cè)的準(zhǔn)確性。如圖3中C所示,將第一幀圖像B中檢出包含人臉圖像的第二人臉幀圖像C提取出來,用于進(jìn)行人臉識(shí)別。將第二人臉幀圖像C分別輸入到之前得到的“楊穎”、“鄧超”、“鄭凱”各自的識(shí)別模型中進(jìn)行識(shí)別,得到如圖3所示的第三人臉幀圖像D1、D2、D3、D4,其中D1中包含“楊穎”、D2中包含“鄧超”、D3中包含“楊穎”和“鄧超”、D4中包含“鄧超”、“鄭凱”等識(shí)別結(jié)果。如表1所示:確定出第三人臉幀圖像與視頻片斷的對(duì)應(yīng)關(guān)系,形成目標(biāo)人臉標(biāo)識(shí)、第三人臉幀圖像與視頻片斷的三方對(duì)應(yīng)關(guān)系表。
表1、目標(biāo)人臉標(biāo)識(shí)、第三人臉幀圖像與視頻片斷的三方對(duì)應(yīng)關(guān)系表
若接收到用戶選擇觀看有“楊穎”出現(xiàn)的視頻片斷的推送請(qǐng)求,則可以為其連續(xù)播放A2和A3視頻片斷,從而快速為用戶定位到其所希望看到的演員的視頻。
綜上,本實(shí)施例通過對(duì)視頻進(jìn)行片斷劃分,并在劃分后的視頻片斷中,針對(duì)特定人臉進(jìn)行特定人臉識(shí)別模型建立,并基于該特定人臉識(shí)別模型對(duì)各個(gè)視頻片斷中的特定人臉進(jìn)行識(shí)別,有效提高識(shí)別效率,可以為用戶快速推送僅包含有其所希望觀看的演員出場(chǎng)的視頻片斷,該方法有效且快速實(shí)現(xiàn)人臉識(shí)別,人臉視頻片斷定位,提升用戶觀賞視頻的用戶體驗(yàn)。
下述為本公開裝置實(shí)施例,可以用于執(zhí)行本公開方法實(shí)施例。對(duì)于本公開裝置實(shí)施例中未披露的細(xì)節(jié),請(qǐng)參照本公開方法實(shí)施例。
圖4是根據(jù)一示例性實(shí)施例示出的一種視頻識(shí)別裝置的流程圖,如圖4所示,該視頻識(shí)別裝置可以通過軟件、硬件或者兩者的結(jié)合實(shí)現(xiàn)成為電子設(shè)備的部分或者全部。該視頻處理裝置可以包括:
第一獲取模塊41,用于獲取目標(biāo)視頻。第一劃分模塊42,用于根據(jù)第一預(yù)設(shè)幀間隔,對(duì)目標(biāo)視頻進(jìn)行劃分,得到多個(gè)視頻片斷。第二劃分模塊43,用于根據(jù)第二預(yù)設(shè)幀間隔,從每個(gè)視頻片斷中提取出第一幀圖像。檢測(cè)模塊44,用于檢測(cè)第一幀圖像中是否包含人臉信息,將包含有人臉信息的第一幀圖像提取出來,得到第二人臉幀圖像。識(shí)別模塊45,用于基于預(yù)設(shè)識(shí)別模型,對(duì)第二人臉幀圖像中的人臉身份進(jìn)行識(shí)別,確定第二人臉幀圖像中包含的人臉標(biāo)識(shí)。匹配模塊46,用于根據(jù)人臉標(biāo)識(shí)與第二人臉幀圖像的對(duì)應(yīng)關(guān)系,根據(jù)第二人臉幀圖像與第二人臉幀圖像所歸屬的視頻片斷的對(duì)應(yīng)關(guān)系,形成人臉標(biāo)識(shí)、第二人臉幀圖像、視頻片斷的三方對(duì)應(yīng)關(guān)系表。
本實(shí)施例中,通過獲取目標(biāo)視頻;根據(jù)第一預(yù)設(shè)幀間隔,對(duì)目標(biāo)視頻進(jìn)行劃分,得到多個(gè)視頻片斷;根據(jù)第二預(yù)設(shè)幀間隔,從每個(gè)視頻片斷中提取出第一幀圖像;檢測(cè)第一幀圖像中是否包含人臉信息,將包含有人臉信息的第一幀圖像提取出來,得到第二人臉幀圖像;基于預(yù)設(shè)識(shí)別模型,對(duì)第二人臉幀圖像中的人臉身份進(jìn)行識(shí)別,確定第二人臉幀圖像中包含的人臉標(biāo)識(shí);根據(jù)人臉標(biāo)識(shí)與第二人臉幀圖像的對(duì)應(yīng)關(guān)系,根據(jù)第二人臉幀圖像與第二人臉幀圖像所歸屬的視頻片斷的對(duì)應(yīng)關(guān)系,形成人臉標(biāo)識(shí)、第二人臉幀圖像、視頻片斷的三方對(duì)應(yīng)關(guān)系表。從而可以根據(jù)確定出的視頻片斷與人臉標(biāo)識(shí)的對(duì)應(yīng)關(guān)系,為用戶推送僅包含有其所希望觀看的演員出場(chǎng)的視頻片斷,該方法有效且快速實(shí)現(xiàn)人臉識(shí)別,人臉 視頻片斷定位,提升用戶觀賞視頻的用戶體驗(yàn)。
圖5是根據(jù)另一示例性實(shí)施例示出的一種視頻識(shí)別裝置的流程圖,該視頻識(shí)別裝置可以通過軟件、硬件或者兩者的結(jié)合實(shí)現(xiàn)成為電子設(shè)備的部分或者全部?;谏鲜鲅b置實(shí)施例,第一預(yù)設(shè)幀間隔大于第二預(yù)設(shè)幀間隔。
可選的,該視頻識(shí)別裝置還包括:
第二獲取模塊47,用于從目標(biāo)視頻的描述信息中獲取與目標(biāo)視頻對(duì)應(yīng)的目標(biāo)人臉標(biāo)識(shí)。
相應(yīng)的,識(shí)別模塊45包括:
調(diào)取子模塊451,用于根據(jù)目標(biāo)人臉標(biāo)識(shí)從識(shí)別模型數(shù)庫(kù)中調(diào)取與目標(biāo)人臉標(biāo)識(shí)對(duì)應(yīng)的第一預(yù)設(shè)識(shí)別模型。
識(shí)別子模塊452,用于基于第一預(yù)設(shè)識(shí)別模型,對(duì)第二人臉幀圖像中的人臉身份進(jìn)行識(shí)別。
確定子模塊453,用于在第二人臉幀圖像中確定第三人臉幀圖像,第三人臉幀圖像為包含有目標(biāo)人臉標(biāo)識(shí)的第二人臉幀圖像。
相應(yīng)的,匹配模塊46,具體用于根據(jù)目標(biāo)人臉標(biāo)識(shí)與第三人臉幀圖像的對(duì)應(yīng)關(guān)系,根據(jù)第三人臉幀圖像與第三人臉幀圖像所歸屬的視頻片斷的對(duì)應(yīng)關(guān)系,形成目標(biāo)人臉標(biāo)識(shí)、第三人臉幀圖像、視頻片斷的三方對(duì)應(yīng)關(guān)系表。
可選的,該視頻識(shí)別裝置還包括:
圖片獲取模塊48,用于根據(jù)目標(biāo)人臉標(biāo)識(shí),從圖片數(shù)庫(kù)中調(diào)取與目標(biāo)人臉標(biāo)識(shí)對(duì)應(yīng)的目標(biāo)人臉圖片數(shù)據(jù)包。
訓(xùn)練模塊49,用于采用目標(biāo)人臉圖片數(shù)據(jù)包作為訓(xùn)練樣本,訓(xùn)練得到與目標(biāo)人臉標(biāo)識(shí)對(duì)應(yīng)的第一預(yù)設(shè)識(shí)別模型。
可選的,該視頻識(shí)別裝置還包括:
接收模塊50,用于接收終端發(fā)送的視頻推送請(qǐng)求,視頻推送請(qǐng)求中包含:待推送的人臉標(biāo)識(shí)。
查找模塊51,用于根據(jù)待推送的人臉標(biāo)識(shí)在三方對(duì)應(yīng)關(guān)系表進(jìn)行查找,將與待推送的人臉標(biāo)識(shí)對(duì)應(yīng)的視頻片斷推送給終端。
關(guān)于上述實(shí)施例中的裝置,其中各個(gè)模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實(shí)施例中進(jìn)行了詳細(xì)描述,此處將不做詳細(xì)闡述說明。
本領(lǐng)域技術(shù)人員在考慮說明書及實(shí)踐這里公開的發(fā)明后,將容易想到本公開的其它實(shí) 施方案。本申請(qǐng)旨在涵蓋本公開的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本公開的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識(shí)或慣用技術(shù)手段。說明書和實(shí)施例僅被視為示例性的,本公開的真正范圍和精神由下面的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本公開并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本公開的范圍僅由所附的權(quán)利要求來限制。