一種利用視頻數(shù)據(jù)進(jìn)行人臉識別訓(xùn)練的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及人臉識別領(lǐng)域,更具體地,涉及一種利用視頻數(shù)據(jù)進(jìn)行人臉識別訓(xùn)練的方法。
【背景技術(shù)】
[0002]人臉識別目前采用大量人工標(biāo)注的訓(xùn)練樣本去訓(xùn)練一個(gè)模型,使得模型能夠挖掘出同一個(gè)人的不同照片與不同人的照片之間的差異特點(diǎn)。訓(xùn)練樣本的標(biāo)注目前依賴于手工完成,也就是找到大量的個(gè)體,對每個(gè)個(gè)體產(chǎn)生或?qū)ふ也煌嵌?、光照下的照片。在操作層面,就是需要采集大量的人臉圖片,對每張圖片的個(gè)體進(jìn)行標(biāo)記,目前的人臉數(shù)據(jù)庫一般達(dá)到幾十萬規(guī)模,采用這種方式非常耗時(shí),人力成本非常高,且不具擴(kuò)展性。
【發(fā)明內(nèi)容】
[0003]本發(fā)明為克服人臉學(xué)習(xí)方法訓(xùn)練樣本存在的獲取成本高、標(biāo)注困難的問題,,提供一種利用視頻數(shù)據(jù)進(jìn)行人臉識別訓(xùn)練的方法,具體為利用視頻數(shù)據(jù)時(shí)間、空間和運(yùn)動(dòng)向量等特征進(jìn)行人臉識別訓(xùn)練數(shù)據(jù)快速、自動(dòng)獲取的方法。
[0004]為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下:
[0005]要獲取海量的人臉學(xué)習(xí)數(shù)據(jù),需要利用同一個(gè)人在視頻中在空間和時(shí)間上都會(huì)以連續(xù)序列出現(xiàn),且同一個(gè)人不可能在同一幀的其他位置出現(xiàn)這一基本原理。利用這個(gè)特點(diǎn)從視頻中挖掘出海量的人臉數(shù)據(jù)。
[0006]—種利用視頻數(shù)據(jù)進(jìn)行人臉識別訓(xùn)練的方法,具體步驟為:
[0007]I)視頻解碼:視頻可以看成是圖片的集合表達(dá)形式,通過解碼,獲得每一幀的圖片。
[0008]2)人臉檢測:將解碼獲得的圖像進(jìn)行人臉檢測,并將每一幀圖像中的人臉進(jìn)行抽取,獲得人臉圖像塊。
[0009]3)樣本挖掘:利用時(shí)空連續(xù)性、編碼運(yùn)動(dòng)向量、服飾信息、已訓(xùn)練好的模型實(shí)現(xiàn)附近幀間同一人臉的定位以及同一幀中不同人臉的定位。
[0010]4)人臉學(xué)習(xí)階段:利用輸入的挖掘樣本訓(xùn)練人臉模型,并將模型的輸出反饋到樣本挖掘模塊。
[0011 ] 一種利用視頻數(shù)據(jù)進(jìn)行人臉識別訓(xùn)練的系統(tǒng)包括:視頻解碼模塊,人臉檢測模塊,樣本挖掘模塊,人臉模型學(xué)習(xí)模塊等。
[0012]總體過程為:
[0013](I)運(yùn)行應(yīng)用,用戶上傳視頻文件。
[0014](2)啟動(dòng)視頻解碼,經(jīng)過視頻解碼模塊,將視頻數(shù)據(jù)解碼為一幀幀圖像。
[0015](3)啟動(dòng)人臉檢測,檢測每一幀圖像中的人臉信息并記錄相關(guān)信息。
[0016](4)將人臉檢測獲得的人臉數(shù)據(jù)傳入幀內(nèi)檢測,從而得到一組來自不同人臉的數(shù)據(jù),同時(shí)做好標(biāo)記。
[0017](5)將相鄰幀的人臉數(shù)據(jù)傳入幀間檢測,根據(jù)視頻幀間的信息,判斷人臉數(shù)據(jù)是否來自同一個(gè)人,并做好標(biāo)記。
[0018](6)由前兩步自動(dòng)標(biāo)記生成的數(shù)據(jù)中,抽取兩張來自同一個(gè)人和一張其他人的人臉數(shù)據(jù),作為一個(gè)訓(xùn)練樣本。多次抽取后將訓(xùn)練樣本傳入訓(xùn)練模型,訓(xùn)練人臉模型。
[0019]利用前一步獲得的人臉模型,重新檢測視頻中每一幀中的人臉,即重復(fù)第(3)步,并重復(fù)接下來步驟,直到獲得設(shè)定的精度。
[0020]上述第1)、2)步是常規(guī)的視頻解碼和人臉檢測操作,第3)、4)步是本發(fā)明提出的利用視頻數(shù)據(jù)進(jìn)行人臉識別訓(xùn)練方法的兩大創(chuàng)新點(diǎn)。第3)步是利用視頻數(shù)據(jù)的特點(diǎn)獲取訓(xùn)練樣本,為本發(fā)明的核心之一,第4)則是利用獲得的樣本數(shù)據(jù)訓(xùn)練模型,再獲得更高的精確度的情況下再次獲取樣本、訓(xùn)練模型,達(dá)到自適應(yīng)的目的。
【附圖說明】
[0021 ]圖1是系統(tǒng)的整體流程圖。
[0022]圖2是人臉自動(dòng)標(biāo)記流程圖。
[0023]圖3是自適應(yīng)、連續(xù)不斷人臉學(xué)習(xí)流程圖。
【具體實(shí)施方式】
[0024]附圖僅用于示例性說明,不能理解為對本專利的限制;
[0025]為了更好說明本實(shí)施例,附圖某些部件會(huì)有省略、放大或縮小,并不代表實(shí)際產(chǎn)品的尺寸;
[0026]對于本領(lǐng)域技術(shù)人員來說,附圖中某些公知結(jié)構(gòu)及其說明可能省略是可以理解的。
[0027]下面結(jié)合附圖和實(shí)施例對本發(fā)明的技術(shù)方案做進(jìn)一步的說明。
[0028]實(shí)施例1
[0029](一)總體功能架構(gòu)
[0030]本系統(tǒng)主要包括四個(gè)模塊:視頻解碼模塊,人臉檢測模塊,樣本挖掘模塊以及人臉學(xué)習(xí)模塊。
[0031]視頻解碼模塊的主要功能是將輸入的視頻信息離散成一幀幀的圖像。人臉檢測模塊則是檢測視頻解碼后的圖像中的人臉信息,作為首次人臉訓(xùn)練的樣本。樣本挖掘模塊則是利用視頻數(shù)據(jù)的特點(diǎn),給人臉檢測模塊獲得的人臉數(shù)據(jù)打上標(biāo)簽,確定哪些人臉圖像塊來自同一個(gè)人或者不同人。人臉學(xué)習(xí)模塊的任務(wù)是利用樣本挖掘后得到的帶標(biāo)簽數(shù)據(jù),訓(xùn)練得到人臉檢測模型,同時(shí)將該模型重新應(yīng)用于視頻解碼圖像中人臉的檢測。
[0032](二)實(shí)施流程
[0033]參見圖1,為本發(fā)明實(shí)施例的實(shí)現(xiàn)流程圖,包括以下步驟:
[0034]步驟1、程序啟動(dòng),用戶傳入視頻數(shù)據(jù)。
[0035]步驟2、解碼視頻數(shù)據(jù),將視頻轉(zhuǎn)換為一幀幀圖像。
[0036]步驟3、檢測每一幀圖像中的人臉,將人臉組合并且對人臉對打標(biāo)簽。
[0037]步驟4、將打好標(biāo)簽的數(shù)據(jù)傳入訓(xùn)練網(wǎng)絡(luò),訓(xùn)練模型。
[0038]步驟5、用訓(xùn)練好的模型應(yīng)用于人臉數(shù)據(jù)獲取,判斷是否滿足精度要求,若是,程序結(jié)束,輸出模型。若否,循環(huán)步驟3、4、5。
[0039](三)詳細(xì)結(jié)構(gòu)設(shè)計(jì)
[0040]圖2為本發(fā)明實(shí)施例的人臉自動(dòng)標(biāo)記流程圖。圖3是自適應(yīng)、連續(xù)不斷的人臉學(xué)習(xí)流程圖。
[0041 ] 1、人臉自動(dòng)標(biāo)記
[0042]在本實(shí)施例中,人臉自動(dòng)標(biāo)記模塊主要包括:人臉來源比對、人臉特征檢測、人臉特征比對等
[0043](I)人臉來源比對
[0044]根據(jù)視頻數(shù)據(jù)的特點(diǎn),同一人不可能在同一幀中的其他位置出現(xiàn)。將來自同一幀的人臉數(shù)據(jù)對標(biāo)記為不同人臉數(shù)據(jù)。如果人臉數(shù)據(jù)來自不同的視頻幀,則進(jìn)入人臉特征檢測階段。
[0045](2)人臉特征檢測
[0046]將來自不同幀的人臉數(shù)據(jù)傳入程序,對每一個(gè)人臉數(shù)據(jù)進(jìn)行特征提取,例如SIFT特征。由于視頻幀與幀之間的變化量很少,因此,可以通過求每組人臉數(shù)據(jù)對特征之間的差值與閥值之間的關(guān)系來確定是否屬于同一個(gè)人。
[0047]2、自適應(yīng)、連續(xù)不斷的人臉學(xué)習(xí)
[0048]在本實(shí)施例中,自適應(yīng)、連續(xù)不斷的人臉學(xué)習(xí)模塊包括:人臉模型學(xué)習(xí),準(zhǔn)確度驗(yàn)證,自適應(yīng)模型調(diào)整等。
[0049](I)人臉模型學(xué)習(xí)
[0050]利用人臉自動(dòng)標(biāo)記模塊獲得的人臉正負(fù)樣本數(shù)據(jù),采用深度學(xué)習(xí)方法,例如:卷積神經(jīng)網(wǎng)絡(luò),使用人臉識別算法,例如triplet-based gradient descent algorithm。學(xué)習(xí)得到可用于區(qū)分不同人臉的模型。
[0051 ] (2)準(zhǔn)確度檢測
[0052]將測試數(shù)據(jù)傳入學(xué)習(xí)得到的人臉模型,計(jì)算模型的誤差。如果誤差較小,說明模型滿足要求,將模型輸出,停止程序。如果誤差不滿足要求,則進(jìn)入連續(xù)不斷學(xué)習(xí)調(diào)整過程,直到精度滿足要求。
[0053](3)自適應(yīng)模型調(diào)整
[0054]如果準(zhǔn)確度沒有達(dá)到要求,程序進(jìn)入模型的自適應(yīng)調(diào)整階段。首先,是將獲得的模型應(yīng)用于來自不同幀的人臉塊的檢測,即用模型判斷不同幀人臉數(shù)據(jù)是否來自同一人。其次,根據(jù)相鄰幀的檢測結(jié)果,逐步擴(kuò)大不同幀之間的距離,例如從第7和第8幀兩幀的數(shù)據(jù)到第7和第9幀的數(shù)據(jù),逐步擴(kuò)大對比幀之間的時(shí)間,以達(dá)到擴(kuò)大同一人不同人臉數(shù)據(jù)之間的差距。
[0055]本發(fā)明利用視頻自動(dòng)構(gòu)造人臉訓(xùn)練樣本,其核心點(diǎn)在于,利用同一時(shí)刻同一個(gè)人不可能出現(xiàn)在兩個(gè)位置以及同一個(gè)人在短時(shí)間內(nèi)移動(dòng)具有連續(xù)性這樣的先驗(yàn)知識從視頻中自動(dòng)挖掘出匹配和不匹配樣本。
[0056]利用增加幀跨度構(gòu)造同一個(gè)人的難樣本方法,其核心點(diǎn)在于當(dāng)幀跨度增加時(shí),一個(gè)人的姿態(tài)和光照變化的程度都會(huì)增加。
[0057]相同或相似的標(biāo)號對應(yīng)相同或相似的部件;
[0058]附圖中描述位置關(guān)系的用于僅用于示例性說明,不能理解為對本專利的限制;
[0059]顯然,本發(fā)明的上述實(shí)施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實(shí)施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動(dòng)。這里無需也無法對所有的實(shí)施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種利用視頻數(shù)據(jù)進(jìn)行人臉識別訓(xùn)練的方法,具體步驟為: 1)視頻解碼:將輸入的視頻信息離散成一幀幀的圖像; 2)人臉檢測:將解碼獲得的圖像進(jìn)行人臉檢測,并將每一幀圖像中的人臉進(jìn)行抽取,獲得人臉圖像塊; 3)樣本挖掘:利用時(shí)空連續(xù)性、編碼運(yùn)動(dòng)向量、服飾信息、已訓(xùn)練好的模型實(shí)現(xiàn)附近幀間同一人臉的定位以及同一幀中不同人臉的定位; 4)人臉學(xué)習(xí)階段:利用輸入的挖掘樣本訓(xùn)練人臉模型,并將模型的輸出反饋到樣本挖掘模塊。
【專利摘要】本發(fā)明提出一種利用視頻數(shù)據(jù)進(jìn)行人臉訓(xùn)練的方法,其基本思想是同一個(gè)人在視頻中在空間和時(shí)間上都會(huì)以連續(xù)序列出現(xiàn),且同一個(gè)人不可能在同一幀的其他位置出現(xiàn),利用這個(gè)特點(diǎn)本發(fā)明自動(dòng)從視頻中挖掘出海量用于訓(xùn)練人臉模型的樣本數(shù)據(jù),從而實(shí)現(xiàn)持續(xù)不斷地、自適應(yīng)的人臉學(xué)習(xí)方法。
【IPC分類】G06K9/62, G06K9/00
【公開號】CN105654055
【申請?zhí)枴?br>【發(fā)明人】丁圣勇, 朝紅陽, 連凌淦
【申請人】廣東順德中山大學(xué)卡內(nèi)基梅隆大學(xué)國際聯(lián)合研究院, 中山大學(xué)
【公開日】2016年6月8日
【申請日】2015年12月29日