專利名稱:一種從流媒體文件中抓拍人臉的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及人臉測(cè)試技術(shù)模式識(shí)別和人工智能領(lǐng)域,特別是涉及一種復(fù)雜背景下從流媒體文件中抓拍人臉的方法。
背景技術(shù):
在生物特征識(shí)別中,人臉檢測(cè)占有極為重要的地位,它在訪問控制、司法應(yīng)用、電子商務(wù)和視頻監(jiān)控等領(lǐng)域都有廣泛的應(yīng)用。人臉檢測(cè)跟蹤是人臉識(shí)別系統(tǒng)的前端,是其它模塊處理的基礎(chǔ)。相對(duì)其它模塊,人臉檢測(cè)跟蹤模塊的技術(shù)相對(duì)成熟,基本能夠達(dá)到實(shí)際應(yīng)用的需求。早期曾經(jīng)出現(xiàn)過諸如支持向量機(jī),神經(jīng)網(wǎng)絡(luò)等經(jīng)典的人臉檢測(cè)技術(shù),但是直到Viola提出了基于Haar-Iike特征 和Discrete AdaBoost的層次型人臉檢測(cè)技術(shù)后,人臉檢測(cè)才真正成為一個(gè)從性能到速度都基本滿足實(shí)際應(yīng)用需求的技術(shù)。此后,基于其方法出現(xiàn)過很多改進(jìn)方法清華大學(xué)艾海州老師的碩士武勃提出的基于Haar-Iike特征和Real AdaBoost的巢型的人臉檢測(cè)技術(shù),該方法采用查找表(LUT,Look-Up Table)方式,使得每個(gè)弱特征的表示能力更強(qiáng),此外,巢型(Nest-structured)結(jié)構(gòu),更好的利用了前層信息,克服了層次型(Cascade)丟失前層信息的缺陷。中科院計(jì)算所高文老師處的Yan shengye在CVPR 2008發(fā)表的基于局部編碼二值模式特征(LAB, Locally Assembled Binary)和巢型Real AdaBoost的方法,其米用Schneiderman提出的Feature-Centric的方式來使用特征,克服了現(xiàn)有框架中在判定相鄰位置是否人臉時(shí),多次計(jì)算同一特征,從而造成冗余運(yùn)算的缺陷。該方法中提出的LAB特征,融合了 LBP特征中的二值編碼模式和Haar-Iike特征中的矩形區(qū)域亮度和特征,對(duì)于區(qū)域亮度模式很強(qiáng)的人臉模式表示能力很強(qiáng),而且,易于定點(diǎn)化。此外,F(xiàn)eature-Centric的方法在構(gòu)建多姿態(tài)人臉分類器時(shí),由于特征公用,處理速度得到大幅提高。此外,該論文中還采用了該作者提出的Matrix-Structural Learning的訓(xùn)練方法,該方法采用類似反樣本Bootstrap的方法對(duì)正樣本進(jìn)行Bootstrap,從而能夠挑選難分類的正樣本進(jìn)行訓(xùn)練,也使得大規(guī)模的使用正樣本成為可能,克服了計(jì)算機(jī)內(nèi)存的限制?,F(xiàn)有的人臉檢測(cè)技術(shù)一般是會(huì)對(duì)每一幀的視頻圖像進(jìn)行人臉檢測(cè),再從中提取抓拍出人臉。這種檢測(cè)速率無法滿足多路視頻接入的要求,存在著因?yàn)闊o法精確對(duì)齊人臉,人臉器官特征檢測(cè)不準(zhǔn)而導(dǎo)致的對(duì)齊精度不準(zhǔn)的問題。人臉跟蹤也是物體跟蹤技術(shù)的一個(gè)子領(lǐng)域,既具有物體跟蹤技術(shù)的一般特點(diǎn),也具有自己獨(dú)有的特點(diǎn)。經(jīng)典的方法中,既包括基于卡爾曼濾波的預(yù)測(cè)方法,也有在實(shí)際應(yīng)用中取得不錯(cuò)效果的基于Mean Shift、粒子濾波(Particles Filter)的方法,而基于直方圖(Histogram),自相關(guān)矩陣(Covariance Matrix)等特征匹配的方法也是一個(gè)方向。近年來,跟蹤被看作是物體和背景區(qū)域的一個(gè)兩類分類問題。基于這一思想,基于統(tǒng)計(jì)學(xué)習(xí)的方法被應(yīng)用在跟蹤中。其中,基于增量子空間的方法,Ensemble Tracking的方法,On-lineBoosting的方法被引入跟蹤,開闊了跟蹤方法的思路?,F(xiàn)有的人臉跟蹤技術(shù)被看作是對(duì)物體和背景區(qū)域的一個(gè)兩類分類的問題,只是把人臉與背景區(qū)域機(jī)械分開,缺少對(duì)人臉的跟蹤定位與分析,對(duì)相同人臉反復(fù)抓拍,造成存儲(chǔ)冗余。由于無法準(zhǔn)備對(duì)齊校對(duì)人臉,而且檢測(cè)方式使檢測(cè)速率無法滿足多路視頻接入的要求,又缺少對(duì)人臉的跟蹤定位和分析,相同個(gè)人反復(fù)抓拍,結(jié)果會(huì)造成存儲(chǔ)冗余。實(shí)際上,人臉的檢測(cè)和跟蹤是相輔相成的兩個(gè)問題,檢測(cè)可以用來作為跟蹤的初始條件,也可以用來驗(yàn)證跟蹤結(jié)果的可信程度,而跟蹤可以用來作為限定檢測(cè)的搜索范圍,也能用來確定檢測(cè)目標(biāo)在幀間的對(duì)應(yīng)關(guān)系。在實(shí)際應(yīng)用中,為了達(dá)到速度和效果的綜合效果,二者需要緊密結(jié)合,相輔相成。但在實(shí)際應(yīng)用中,仍存在監(jiān)控場(chǎng)景低幀率、相互遮擋、光照條件惡劣、超大人流量的人臉檢測(cè)跟 蹤等問題,需要綜合利用包括運(yùn)動(dòng)信息、膚色信息以及攝像機(jī)成像模型等各種限制信息,將檢測(cè)和跟蹤結(jié)合起來。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種從流媒體文件中抓拍人臉的方法。實(shí)現(xiàn)在復(fù)雜背景且多路視頻接入的情況下對(duì)人臉進(jìn)行檢測(cè)和跟蹤,在檢測(cè)上提高了人臉器官特征的檢測(cè)精度,更好地實(shí)現(xiàn)人臉精確對(duì)齊校正;同時(shí)在在檢測(cè)效率上大幅度提升,減少計(jì)算負(fù)荷,滿足多路視頻接入的功能;最后是通過跟蹤算法,避免了對(duì)同一人的重復(fù)抓拍,大幅度減少了照片存儲(chǔ)的數(shù)量,減少存儲(chǔ)冗余。本發(fā)明包括如下技術(shù)特征一種從流媒體文件中抓拍人臉的方法,至少包括以下步驟A、采用人臉級(jí)聯(lián)分類器對(duì)一幀輸入圖像進(jìn)行人臉檢測(cè),如果沒有檢測(cè)到人臉,則對(duì)新的輸入幀進(jìn)行檢測(cè);B、如果檢測(cè)到人臉,且為第一次檢測(cè)到,則使用人眼級(jí)聯(lián)分類器從該人臉中提取出人眼位置,根據(jù)眼睛的位置判斷人臉的傾斜和偏轉(zhuǎn)角度,如果人臉傾斜,通過校正技術(shù)對(duì)人臉進(jìn)行校正;C、在檢測(cè)到的人臉區(qū)域內(nèi)提取出顏色特征,使用Camshift算法對(duì)人臉進(jìn)行跟蹤,在新的輸入幀中標(biāo)明該人臉的位置;D、如果在新的一幀中通過人臉檢測(cè)得到的人臉區(qū)域與通過前一幀中的顏色特征確定的位置重合,那么認(rèn)為檢測(cè)到的人臉與前一幀中的人臉是同一個(gè)人臉,此時(shí)不保存該幀中檢測(cè)到的人臉,否則認(rèn)為該幀檢測(cè)到的人臉是另一個(gè)人的,轉(zhuǎn)到步驟B ;E、返回步驟A進(jìn)行新的迭代。具體的,所述人臉級(jí)聯(lián)分類器和人眼級(jí)聯(lián)分類器均是采用基于Adaboost算法的多個(gè)強(qiáng)分類器的級(jí)聯(lián)組合,且所述強(qiáng)分類器按逐級(jí)提高檢測(cè)精度的方式級(jí)聯(lián)排列。具體的,步驟B中,所述校正技術(shù)是指根據(jù)眼睛的位置判斷人臉的傾斜和偏轉(zhuǎn)角度,旋轉(zhuǎn)照片使雙眼處在水平線,并保持眼睛的距離大小一致。具體的,步驟C中,所述Camshift算法是根據(jù)前一幀檢測(cè)到的人臉的顏色特征,在下一幀中進(jìn)行匹配,通過顏色特征來判斷下一幀該人臉會(huì)到什么位置,如果這個(gè)位置與新一輪的人臉檢測(cè)的位置重合,那說明新檢測(cè)到的人臉其實(shí)是前一幀已經(jīng)檢測(cè)到的。本發(fā)明實(shí)現(xiàn)了人臉檢測(cè)與跟蹤算法的結(jié)合,人臉檢測(cè)的同時(shí)可以進(jìn)行人臉校正,同時(shí)根據(jù)跟蹤方法減少了對(duì)相同人臉的重復(fù)抓拍。由此,提高了檢測(cè)精度,更好地實(shí)現(xiàn)人臉精確對(duì)齊校正,同時(shí)在在檢測(cè)效率上大幅度提升,減少計(jì)算負(fù)荷,滿足多路視頻接入的功能;最后是通過跟蹤算法,避免了對(duì)同一人的重復(fù)抓拍,大幅度減少了照片存儲(chǔ)的數(shù)量,減少存儲(chǔ)冗余。
圖I為本發(fā)明的方法流程圖;圖2為本發(fā)明的級(jí)聯(lián)分類器的流程圖;圖3為本發(fā)明對(duì)人臉對(duì)齊校正的示意圖。
具體實(shí)施例方式本發(fā)明實(shí)現(xiàn)了基于人臉檢測(cè)與跟蹤算法的結(jié)合,在檢測(cè)上提高了人臉器官特征的 檢測(cè)精度,相比于現(xiàn)有技術(shù)能更好地實(shí)現(xiàn)人臉精確對(duì)齊校正;同時(shí)在在檢測(cè)效率上大幅度提升,減少計(jì)算負(fù)荷,滿足多路視頻接入的功能;最后是通過跟蹤算法,避免了對(duì)同一人的重復(fù)抓拍,大幅度減少了照片存儲(chǔ)的數(shù)量,減少存儲(chǔ)冗余。如圖I所示,具體的實(shí)施方法如下步驟一,采用人臉級(jí)聯(lián)分類器從一幀輸入圖像中檢測(cè)人臉,如果沒有人臉,則進(jìn)行新的輸入幀的檢測(cè)。以上的分類器是一種計(jì)算機(jī)判斷算法,對(duì)特定的輸入會(huì)輸出兩種結(jié)果是或者不是,即分類器是用來做二元標(biāo)定的。在人臉檢測(cè)中,分類器就是輸出兩個(gè)結(jié)果這是人臉或者這不是人臉。分類器的強(qiáng)弱是依據(jù)輸出的準(zhǔn)確性來區(qū)分的。弱分類器是指輸出結(jié)果的準(zhǔn)確性低,強(qiáng)分類器是由多個(gè)(為了滿足識(shí)別精度要求,本發(fā)明的人臉識(shí)別中使用了 162336個(gè))弱分類器組成的,檢測(cè)的準(zhǔn)確性高(至少在95%以上)。在人臉檢測(cè)中,一個(gè)弱分類器相當(dāng)于對(duì)一幅照片的某個(gè)地方做檢測(cè),比如檢測(cè)在特定的地方是不是有邊緣、線或者點(diǎn),如果檢測(cè)到了,那么這個(gè)弱分類器給出個(gè)有人臉的結(jié)果,反之則給出沒有檢測(cè)的結(jié)果。強(qiáng)分類器就是對(duì)162336個(gè)輸出的結(jié)果進(jìn)行綜合跟判定,判斷是不是人臉。所述的人臉級(jí)聯(lián)分類器為基于Adaboost算法迭代的級(jí)聯(lián)的強(qiáng)分類器。AdaBoost算法是一種迭代方法,它本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的。根據(jù)每輪訓(xùn)練中每個(gè)樣本的分類是否正確,以及上輪的總體分類準(zhǔn)確率,來確定每個(gè)樣本的權(quán)值。然后將每次訓(xùn)練得到的分類器級(jí)連起來,作為最后的決策分類器。AdaBoost算法的原理在于,在訓(xùn)練一個(gè)強(qiáng)分類器的時(shí)候需要事先準(zhǔn)備好一些標(biāo)準(zhǔn)的人臉正臉照片(大小相等,雙眼位置固定等)。人臉是有相似性的,比如說輪廓、對(duì)稱、臉頰跟額頭處比較光滑等等,從這些相似性中提取出的特征就可以用來做人臉檢測(cè)。這些特征可以用分類器來表達(dá)的樣本就一個(gè)弱分類器。上面說到,一個(gè)弱分類器相當(dāng)于對(duì)一幅照片的特定地方做檢測(cè),這個(gè)地方就是弱分類器的輸入,分類器通過一定的判斷條件輸出一個(gè)結(jié)果。對(duì)于訓(xùn)練庫上的人臉照片,假定在某個(gè)位置上有超過一半(或者更高的概率)以上的照片在這個(gè)地方都有一個(gè)點(diǎn)(或者線、邊緣等),那么我們可以認(rèn)為所有的人臉都應(yīng)該在這個(gè)地方有個(gè)點(diǎn)(或者線、邊緣等)。這樣一個(gè)弱分類器就有了個(gè)判斷條件,通過判斷條件對(duì)一張人臉照片進(jìn)行判定。一個(gè)弱分類器以及它對(duì)應(yīng)的判斷的條件和輸入就是一個(gè)樣本。如果某個(gè)樣本沒有被正確分類,在構(gòu)造下一個(gè)訓(xùn)練集時(shí),它被選中的概率會(huì)增加,如果相反,它被選中的概率就會(huì)降低;在訓(xùn)練分類器的同時(shí)進(jìn)行特征選擇,是每個(gè)特征對(duì)應(yīng)一個(gè)弱分類器,訓(xùn)練過程中從大量的弱分類器中選擇一個(gè)在當(dāng)前樣本權(quán)重分布情況下分類錯(cuò)誤最小的弱分類器作為本輪訓(xùn)練結(jié)果;如此循環(huán),經(jīng)過T次迭代后,選擇出T個(gè)特征,最終按照加權(quán)投票的方式合成一個(gè)強(qiáng)分類器。T個(gè)特征對(duì)應(yīng)于T個(gè)弱分類器,分類器都有對(duì)應(yīng)的判斷條件以及權(quán)重。權(quán)重越大,說明這個(gè)弱分類器的區(qū)分度越好。
權(quán)利要求
1.一種從流媒體文件中抓拍人臉的方法,其特征在于至少包括以下步驟 A、采用人臉級(jí)聯(lián)分類器對(duì)一幀輸入圖像進(jìn)行人臉檢測(cè),如果沒有檢測(cè)到人臉,則對(duì)新的輸入幀進(jìn)行檢測(cè); B、如果檢測(cè)到人臉,且為第一次檢測(cè)到,則使用人眼級(jí)聯(lián)分類器從該人臉中提取出人眼位置,根據(jù)眼睛的位置判斷人臉的傾斜和偏轉(zhuǎn)角度,如果人臉傾斜,通過校正技術(shù)對(duì)人臉進(jìn)行校正; C、在檢測(cè)到的人臉區(qū)域內(nèi)提取出顏色特征,使用Camshift算法對(duì)人臉進(jìn)行跟蹤,在新的輸入幀中標(biāo)明該人臉的位置; D、如果在新的一幀中通過人臉檢測(cè)得到的人臉區(qū)域與通過前一幀中的顏色特征確定的位置重合,那么認(rèn)為檢測(cè)到的人臉與前一幀中的人臉是同一個(gè)人臉,此時(shí)不保存該幀中檢測(cè)到的人臉,否則認(rèn)為該幀檢測(cè)到的人臉是另一個(gè)人的,轉(zhuǎn)到步驟B ; E、返回步驟A進(jìn)行新的迭代。
2.根據(jù)權(quán)利要求I所述的抓拍人臉的方法,其特征在于,所述人臉級(jí)聯(lián)分類器和人眼級(jí)聯(lián)分類器均是采用基于Adaboost算法的多個(gè)強(qiáng)分類器的級(jí)聯(lián)組合,且所述強(qiáng)分類器按逐級(jí)提高檢測(cè)精度的方式級(jí)聯(lián)排列。
3.根據(jù)權(quán)利要求I所述的抓拍人臉的方法,其特征在于,步驟B中,所述校正技術(shù)是指根據(jù)眼睛的位置判斷人臉的傾斜和偏轉(zhuǎn)角度,旋轉(zhuǎn)照片使雙眼處在水平線,并保持眼睛的距離大小一致。
4.根據(jù)權(quán)利要求I所述的抓拍人臉的方法,其特征在于,步驟C中,所述Camshift算法是根據(jù)前一幀檢測(cè)到的人臉的顏色特征,在下一幀中進(jìn)行匹配,通過顏色特征來判斷下一幀該人臉會(huì)到什么位置,如果這個(gè)位置與新一輪的人臉檢測(cè)的位置重合,那說明新檢測(cè)到的人臉其實(shí)是前一幀已經(jīng)檢測(cè)到的。
全文摘要
本發(fā)明提供一種從流媒體文件中抓拍人臉的方法,結(jié)合人臉檢測(cè)與跟蹤算法,在檢測(cè)上提高了人臉器官特征的檢測(cè)精度,相比于現(xiàn)有技術(shù)能更好地實(shí)現(xiàn)人臉精確對(duì)齊校正;同時(shí)在在檢測(cè)效率上大幅度提升,減少計(jì)算負(fù)荷,滿足多路視頻接入的功能;最后是通過跟蹤算法,避免了對(duì)同一人的重復(fù)抓拍,大幅度減少了照片存儲(chǔ)的數(shù)量,減少存儲(chǔ)冗余。
文檔編號(hào)G06K9/46GK102880864SQ201210356838
公開日2013年1月16日 申請(qǐng)日期2012年9月20日 優(yōu)先權(quán)日2012年4月28日
發(fā)明者程源, 王浩, 張道鵬, 范暉 申請(qǐng)人:王浩