亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種人臉跟蹤方法及裝置與流程

文檔序號(hào):12601254閱讀:243來(lái)源:國(guó)知局
一種人臉跟蹤方法及裝置與流程

本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,尤其是一種人臉跟蹤方法及裝置。



背景技術(shù):

在現(xiàn)有的人臉跟蹤技術(shù)中,一般是先通過(guò)人臉檢測(cè)找出視頻首幀中的人臉區(qū)域,再通過(guò)持續(xù)計(jì)算人臉區(qū)域中的顏色、角點(diǎn)或光流等特征,在下一幀中找到特征相匹配的區(qū)域作為下一幀的人臉區(qū)域,以此類推……以實(shí)現(xiàn)視頻中的人臉跟蹤。然而,上述方案受光照、人臉角度等影響較大,跟蹤效果較差,并且跟蹤框不穩(wěn)定、很容易出現(xiàn)跟蹤失敗的情況。

另一種改進(jìn)的人臉跟蹤方案是通過(guò)在線學(xué)習(xí)人臉區(qū)域中的特征來(lái)實(shí)現(xiàn)跟蹤,雖然能夠改善跟蹤效果,但在線學(xué)習(xí)會(huì)增加計(jì)算的復(fù)雜度,不適于在移動(dòng)端進(jìn)行實(shí)時(shí)人臉跟蹤。

鑒于上述人臉跟蹤方案的優(yōu)缺點(diǎn),考慮到在實(shí)際的人臉跟蹤中(比如,人臉視頻上妝),目標(biāo)對(duì)象常處于擺姿勢(shì)、做表情等運(yùn)動(dòng)過(guò)程中,需要對(duì)目標(biāo)的人臉進(jìn)行實(shí)時(shí)跟蹤以定位五官位置;同時(shí),在視頻圖像中,目標(biāo)對(duì)象常不止一個(gè),還需要對(duì)多個(gè)目標(biāo)同時(shí)進(jìn)行人臉跟蹤。這就導(dǎo)致跟蹤問(wèn)題很復(fù)雜,既要保證跟蹤準(zhǔn)確,又要解決跟蹤運(yùn)算量大的問(wèn)題。



技術(shù)實(shí)現(xiàn)要素:

為此,本發(fā)明提供了一種人臉跟蹤方法及裝置,以力圖解決或者至少緩解上面存在的至少一個(gè)問(wèn)題。

根據(jù)本發(fā)明的一個(gè)方面,提供了一種人臉跟蹤方法,包括步驟:通過(guò)對(duì)視頻序列中的當(dāng)前圖像幀做人臉檢測(cè),生成人臉基準(zhǔn)區(qū)域;通過(guò)深度學(xué)習(xí)方法從基準(zhǔn)區(qū)域中識(shí)別出該圖像幀中的人臉五官位置;根據(jù)該圖像幀的人臉五官位置選取人臉感興趣區(qū)域,作為下一圖像幀的基準(zhǔn)區(qū)域;以及重復(fù)上述識(shí)別步驟和選取步驟,以跟蹤視頻序列中每一圖像幀的人臉五官位置。

可選地,在根據(jù)本發(fā)明的人臉跟蹤方法中,還包括步驟:若檢測(cè)到當(dāng)前圖像幀中有多個(gè)人臉,則對(duì)每個(gè)人臉都生成一個(gè)人臉基準(zhǔn)區(qū)域;對(duì)每個(gè)人臉的基準(zhǔn)區(qū)域分別執(zhí)行上述識(shí)別步驟、選取步驟、和重復(fù)步驟,以跟蹤視頻序列中的多個(gè)人臉五官位置。

可選地,在根據(jù)本發(fā)明的人臉跟蹤方法中,根據(jù)該圖像幀的人臉五官位置選取人臉感興趣區(qū)域的步驟包括:根據(jù)識(shí)別出的人臉五官位置生成該圖像幀的子區(qū)域,其中子區(qū)域?yàn)榫匦?;以該子區(qū)域的中心為基準(zhǔn),將該子區(qū)域的長(zhǎng)、寬各放大第一數(shù)目倍,得到人臉感興趣區(qū)域。

可選地,在根據(jù)本發(fā)明的人臉跟蹤方法中,第一數(shù)目是根據(jù)視頻序列的幀頻計(jì)算得到。

可選地,在根據(jù)本發(fā)明的人臉跟蹤方法中,采用深度學(xué)習(xí)方法識(shí)別人臉五官位置的步驟包括:采用深度學(xué)習(xí)方法建立人臉對(duì)齊模型;以及由人臉對(duì)齊模型提取出人臉五官特征,其中,人臉對(duì)齊模型包括至少一個(gè)圖像卷積層。

可選地,在根據(jù)本發(fā)明的人臉跟蹤方法中,由人臉對(duì)齊模型提取出人臉五官特征的步驟包括:將基準(zhǔn)區(qū)域的圖像作為輸入圖像,輸入人臉對(duì)齊模型;通過(guò)圖像卷積層對(duì)輸入圖像進(jìn)行卷積、ReLU、池化的迭代操作;以及輸出預(yù)測(cè)的人臉五官特征點(diǎn)位置。

可選地,在根據(jù)本發(fā)明的人臉跟蹤方法中,池化操作包括:利用平均值進(jìn)行池化;或利用最大值進(jìn)行池化。

根據(jù)本發(fā)明的另一個(gè)方面,提供了一種人臉跟蹤裝置,包括:生成單元,適于對(duì)視頻序列中的當(dāng)前圖像幀做人臉檢測(cè),生成人臉基準(zhǔn)區(qū)域;識(shí)別單元,適于通過(guò)深度學(xué)習(xí)方法從基準(zhǔn)區(qū)域中識(shí)別出該圖像幀中的人臉五官位置、還適于從選取單元選取的下一圖像幀的基準(zhǔn)區(qū)域中識(shí)別出下一圖像幀的人臉五官位置,以跟蹤視頻序列中每一圖像幀的人臉五官位置;以及選取單元,適于根據(jù)該圖像幀的人臉五官位置選取人臉感興趣區(qū)域,作為下一圖像幀的基準(zhǔn)區(qū)域。

可選地,在根據(jù)本發(fā)明的人臉跟蹤裝置中,生成單元還適于在檢測(cè)到當(dāng)前圖像幀中有多個(gè)人臉時(shí),對(duì)每個(gè)人臉都生成一個(gè)人臉基準(zhǔn)區(qū)域;識(shí)別單元還適于識(shí)別出該圖像幀中每個(gè)人臉基準(zhǔn)區(qū)域?qū)?yīng)的人臉五官位置;以及選取單元還適于根據(jù)該圖像幀中的每個(gè)人臉的五官位置選取對(duì)應(yīng)的人臉感興趣區(qū)域,作為該人臉在下一圖像幀中對(duì)應(yīng)的基準(zhǔn)區(qū)域。

可選地,在根據(jù)本發(fā)明的人臉跟蹤裝置中,選取單元還適于根據(jù)識(shí)別出的人臉五官位置生成該圖像幀的子區(qū)域,其中子區(qū)域?yàn)榫匦?,并且以該子區(qū)域的中心為基準(zhǔn),將該子區(qū)域的長(zhǎng)、寬各放大第一數(shù)目倍,得到人臉感興趣區(qū)域。

可選地,在根據(jù)本發(fā)明的人臉跟蹤裝置中,選取單元包括:計(jì)算模塊,適于根據(jù)視頻序列的幀頻計(jì)算得第一數(shù)目。

可選地,在根據(jù)本發(fā)明的人臉跟蹤裝置中,識(shí)別單元包括:建模模塊,適于采用深度學(xué)習(xí)方法建立人臉對(duì)齊模型,其中人臉對(duì)齊模型包括至少一個(gè)圖像卷積層;提取模塊,適于利用人臉對(duì)齊模型輸出預(yù)測(cè)的人臉五官特征點(diǎn)位置。

可選地,在根據(jù)本發(fā)明的人臉跟蹤裝置中,提取模塊還適于將基準(zhǔn)區(qū)域的圖像作為輸入圖像,輸入人臉對(duì)齊模型、且適于對(duì)輸入圖像進(jìn)行卷積、ReLU、池化的迭代操作、輸出提取的人臉五官特征。

可選地,在根據(jù)本發(fā)明的人臉跟蹤裝置中,提取模塊還適于利用平均值進(jìn)行池化操作、或利用最大值進(jìn)行池化。

根據(jù)本發(fā)明的人臉跟蹤方案,通過(guò)引入基于深度學(xué)習(xí)的人臉對(duì)齊方案替代傳統(tǒng)跟蹤算法中人臉區(qū)域特征計(jì)算與匹配,能夠提高人臉對(duì)齊的精度、且具有很好的魯棒性、抗旋轉(zhuǎn)性和抗光性,在人臉識(shí)別精度方面有很好的表現(xiàn)。同時(shí),本方案不需要在線學(xué)習(xí)人臉特征,只需要根據(jù)上一圖像幀中識(shí)別到的人臉五官位置初步確定下一圖像幀的人臉區(qū)域,這就降低了計(jì)算的復(fù)雜度,能夠在移動(dòng)終端完成實(shí)時(shí)跟蹤。綜上,通過(guò)本方案,能夠準(zhǔn)確、快速地跟蹤視頻圖像中的人臉。

另外,通過(guò)采用ROI區(qū)域搜索,可以方便快速地對(duì)多個(gè)被攝目標(biāo)進(jìn)行跟蹤。

附圖說(shuō)明

為了實(shí)現(xiàn)上述以及相關(guān)目的,本文結(jié)合下面的描述和附圖來(lái)描述某些說(shuō)明性方面,這些方面指示了可以實(shí)踐本文所公開的原理的各種方式,并且所有方面及其等效方面旨在落入所要求保護(hù)的主題的范圍內(nèi)。通過(guò)結(jié)合附圖閱讀下面的詳細(xì)描述,本公開的上述以及其它目的、特征和優(yōu)勢(shì)將變得更加明顯。遍及本公開,相同的附圖標(biāo)記通常指代相同的部件或元素。

圖1示出了根據(jù)本發(fā)明的一個(gè)示例性實(shí)施方式的移動(dòng)終端100的構(gòu)造框圖;

圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的人臉跟蹤方法200的流程圖;

圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的人臉對(duì)齊模型中第一卷積層的結(jié)構(gòu)示意圖;以及

圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的人臉跟蹤裝置400的示意圖。

具體實(shí)施方式

下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

圖1為根據(jù)本發(fā)明的一個(gè)實(shí)施方式的移動(dòng)終端100構(gòu)造示意圖。參照?qǐng)D1,移動(dòng)終端100包括:存儲(chǔ)器接口102、一個(gè)或多個(gè)數(shù)據(jù)處理器、圖像處理器和/或中央處理單元104,以及外圍接口106。存儲(chǔ)器接口102、一個(gè)或多個(gè)處理器104和/或外圍接口106既可以是分立元件,也可以集成在一個(gè)或多個(gè)集成電路中。在移動(dòng)終端100中,各種元件可以通過(guò)一條或多條通信總線或信號(hào)線來(lái)耦合。傳感器、設(shè)備和子系統(tǒng)可以耦合到外圍接口106,以便幫助實(shí)現(xiàn)多種功能。例如,運(yùn)動(dòng)傳感器110、光傳感器112和距離傳感器114可以耦合到外圍接口106,以方便定向、照明和測(cè)距等功能。其他傳感器116同樣可以與外圍接口106相連,例如定位系統(tǒng)(例如GPS接收機(jī))、溫度傳感器、生物測(cè)定傳感器或其他感測(cè)設(shè)備,由此可以幫助實(shí)施相關(guān)的功能。

相機(jī)子系統(tǒng)120和光學(xué)傳感器122可以用于方便諸如記錄照片和視頻剪輯的相機(jī)功能的實(shí)現(xiàn),其中所述相機(jī)子系統(tǒng)和光學(xué)傳感器例如可以是電荷耦合器件(CCD)或互補(bǔ)金屬氧化物半導(dǎo)體(CMOS)光學(xué)傳感器。可以通過(guò)一個(gè)或多個(gè)無(wú)線通信子系統(tǒng)124來(lái)幫助實(shí)現(xiàn)通信功能,其中無(wú)線通信子系統(tǒng)可以包括射頻接收機(jī)和發(fā)射機(jī)和/或光(例如紅外)接收機(jī)和發(fā)射機(jī)。無(wú)線通信子系統(tǒng)124的特定設(shè)計(jì)和實(shí)施方式可以取決于移動(dòng)終端100所支持的一個(gè)或多個(gè)通信網(wǎng)絡(luò)。例如,移動(dòng)終端100可以包括被設(shè)計(jì)成支持GSM網(wǎng)絡(luò)、GPRS網(wǎng)絡(luò)、EDGE網(wǎng)絡(luò)、Wi-Fi或WiMax網(wǎng)絡(luò)以及BlueboothTM網(wǎng)絡(luò)的通信子系統(tǒng)124。音頻子系統(tǒng)126可以與揚(yáng)聲器128以及麥克風(fēng)130相耦合,以便幫助實(shí)施啟用語(yǔ)音的功能,例如語(yǔ)音識(shí)別、語(yǔ)音復(fù)制、數(shù)字記錄和電話功能。

I/O子系統(tǒng)140可以包括觸摸屏控制器142和/或一個(gè)或多個(gè)其他輸入控制器144。觸摸屏控制器142可以耦合到觸摸屏146。舉例來(lái)說(shuō),該觸摸屏146和觸摸屏控制器142可以使用多種觸摸感測(cè)技術(shù)中的任何一種來(lái)檢測(cè)與之進(jìn)行的接觸和移動(dòng)或是暫停,其中感測(cè)技術(shù)包括但不局限于電容性、電阻性、紅外和表面聲波技術(shù)。一個(gè)或多個(gè)其他輸入控制器144可以耦合到其他輸入/控制設(shè)備148,例如一個(gè)或多個(gè)按鈕、搖桿開關(guān)、拇指旋輪、紅外端口、USB端口、和/或指示筆之類的指點(diǎn)設(shè)備。所述一個(gè)或多個(gè)按鈕(未顯示)可以包括用于控制揚(yáng)聲器128和/或麥克風(fēng)130音量的向上/向下按鈕。

存儲(chǔ)器接口102可以與存儲(chǔ)器150相耦合。該存儲(chǔ)器150可以包括高速隨機(jī)存取存儲(chǔ)器和/或非易失性存儲(chǔ)器,例如一個(gè)或多個(gè)磁盤存儲(chǔ)設(shè)備,一個(gè)或多個(gè)光學(xué)存儲(chǔ)設(shè)備,和/或閃存存儲(chǔ)器(例如NAND,NOR)。存儲(chǔ)器150可以存儲(chǔ)操作系統(tǒng)152,例如Android、IOS或是Windows Phone之類的操作系統(tǒng)。該操作系統(tǒng)152可以包括用于處理基本系統(tǒng)服務(wù)以及執(zhí)行依賴于硬件的任務(wù)的指令。存儲(chǔ)器150還可以存儲(chǔ)應(yīng)用154。這些應(yīng)用在操作時(shí),會(huì)從存儲(chǔ)器150加載到處理器104上,并在已經(jīng)由處理器104運(yùn)行的操作系統(tǒng)之上運(yùn)行,并利用操作系統(tǒng)以及底層硬件提供的接口實(shí)現(xiàn)各種用戶期望的功能,如即時(shí)通信、網(wǎng)頁(yè)瀏覽、圖片管理等。應(yīng)用可以是獨(dú)立于操作系統(tǒng)提供的,也可以是操作系統(tǒng)自帶的。

根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供了一種具有人臉跟蹤功能的移動(dòng)終端100,可以通過(guò)在移動(dòng)終端100中布置相應(yīng)的人臉跟蹤裝置400來(lái)實(shí)現(xiàn)上述功能。

圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的在移動(dòng)終端100上實(shí)現(xiàn)人臉跟蹤方法200的流程圖。如圖2所示,該方法200始于步驟S210(生成步驟),將一個(gè)視頻序列表示為I0I1I2I3……,其中I0、I1......分別代表第一幀圖像、第二幀圖像……對(duì)其中的當(dāng)前圖像幀(例如I0)做人臉檢測(cè),根據(jù)檢測(cè)到的人臉區(qū)域裁切出一個(gè)人臉的基準(zhǔn)區(qū)域Face0。簡(jiǎn)單來(lái)講,人臉檢測(cè)(Face detection)就是判斷一幀圖像中是否包含人臉區(qū)域,若包含人臉則返回人臉的大小、位置等信息。人臉檢測(cè)技術(shù)相關(guān)的算法有很多,可以是基于幾何特征的方法、基于模板或者模型的方法,諸如模板匹配模型、膚色模型、ANN模型、SVM模型、Adaboost模型等等。在本方案中,對(duì)人臉檢測(cè)的具體算法不作限制,任何人臉檢測(cè)方法都可以與本方案的實(shí)施例相結(jié)合,以實(shí)現(xiàn)人臉跟蹤。

隨后在步驟S220中(識(shí)別步驟),通過(guò)深度學(xué)習(xí)方法從基準(zhǔn)區(qū)域Face0中識(shí)別出該圖像幀I0中的人臉五官位置。換句話說(shuō),由生成步驟檢測(cè)到的只是人臉區(qū)域的大致范圍,需要通過(guò)識(shí)別步驟進(jìn)一步得到人臉精確區(qū)域(或位置)。

具體地,采用深度學(xué)習(xí)方法訓(xùn)練建立起人臉對(duì)齊模型,然后通過(guò)人臉對(duì)齊模型提取人臉的五官位置。所謂人臉對(duì)齊,就是對(duì)檢測(cè)出的人臉區(qū)域,例如Face0,進(jìn)行定位操作以得到人臉五官的具體位置點(diǎn)。本方案采用深度學(xué)習(xí)方法建立對(duì)齊模型,以解決在真實(shí)場(chǎng)景中,姿態(tài)、表情等對(duì)人臉對(duì)齊的影響。

根據(jù)本發(fā)明的實(shí)施例,人臉對(duì)齊模型包括至少一個(gè)圖像卷積層。將步驟S210中計(jì)算出的基準(zhǔn)區(qū)域Face0對(duì)應(yīng)的圖像作為輸入圖像,輸入到人臉對(duì)齊模型,根據(jù)一種實(shí)現(xiàn)方式,由多個(gè)圖像卷積層對(duì)該輸入圖像進(jìn)行“卷積→ReLU→池化→卷積→ReLU→池化→卷積→ReLU→池化→…→卷積”的操作。

以其中第一卷積層為例,卷積層的結(jié)構(gòu)如圖3所示,對(duì)輸入圖像先進(jìn)行卷積運(yùn)算,提取圖像特征。

再由ReLU(Rectified Linear Units,經(jīng)校正過(guò)的線性單元)作為激活函數(shù),優(yōu)化算法,這里選取ReLU作激活函數(shù)主要是考慮到和使用別的激活函數(shù)的模型相比,ReLU不僅識(shí)別錯(cuò)誤率低、計(jì)算效率更高、而且可以形成了所謂"稀疏表征"(sparse representation),用少量的神經(jīng)元可以高效、靈活、穩(wěn)健地表達(dá)抽象復(fù)雜的概念。

然后,對(duì)經(jīng)過(guò)ReLU處理后的數(shù)據(jù)進(jìn)行池化(pooling)操作,可選地,池化操作可以是利用平均值或最大值進(jìn)行池化,本發(fā)明對(duì)此不作限制。

為提高網(wǎng)絡(luò)的泛化能力,在池化操作后,對(duì)數(shù)據(jù)進(jìn)行局部響應(yīng)歸一化處理。以下面的公式為例:

<mrow> <msub> <msup> <mi>b</mi> <mi>i</mi> </msup> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> <mo>=</mo> <msub> <msup> <mi>a</mi> <mi>i</mi> </msup> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> <mo>/</mo> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>+</mo> <mi>&alpha;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <mi>i</mi> <mo>-</mo> <mi>n</mi> <mo>/</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>i</mi> <mo>+</mo> <mi>n</mi> <mo>/</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow> </munderover> <msup> <mrow> <mo>(</mo> <mrow> <msub> <msup> <mi>a</mi> <mi>j</mi> </msup> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mi>&beta;</mi> </msup> </mrow>

其中,a表示每一個(gè)神經(jīng)元的激活,n是在同一個(gè)位置(x,y)上臨近的kernel map的數(shù)目,N是在這一層中卷積核的總數(shù)目,k、α、β都是預(yù)設(shè)的一些超參數(shù)(hyper-parameters),可選地,k=2,n=5,α=10-4,β=0.75。

根據(jù)實(shí)現(xiàn)方式,該人臉對(duì)齊模型中具有超過(guò)一層的圖像卷積層,且每一個(gè)圖像卷積層的結(jié)構(gòu)可能會(huì)有所不同,例如在五層卷積層結(jié)構(gòu)中,第三、四、五層的圖像卷積層可以不設(shè)置池化操作和局部響應(yīng)歸一化處理。

最后,再通過(guò)卷積層將卷積得到的特征進(jìn)行合并或組合,最終預(yù)測(cè)輸出人臉五官特征點(diǎn)的位置(即,特征點(diǎn)坐標(biāo)),其中人臉五官特征點(diǎn)可以包括鼻子、嘴唇、眼睛、眉毛、外輪廓點(diǎn)等??蛇x地,人臉對(duì)齊模型還可以包括全連接層,通過(guò)全連接層將卷積得到的特征進(jìn)行組合后輸出特征點(diǎn)位置,全連接層可以至少包括兩層,在第一個(gè)全連接層中,對(duì)輸入的特征進(jìn)行連通合并后,同樣輸入ReLU中進(jìn)行非線性化后再輸入到第二個(gè)全連接層進(jìn)行預(yù)測(cè),本發(fā)明對(duì)特征的合并方式不做限制。

本方案通過(guò)引入基于深度學(xué)習(xí)的人臉對(duì)齊方案替代傳統(tǒng)跟蹤算法中人臉區(qū)域特征計(jì)算與匹配,主要是考慮到深度學(xué)習(xí)算法在人臉對(duì)齊精度、魯棒性、抗旋轉(zhuǎn)、抗光等方面表現(xiàn)都十分優(yōu)異,而準(zhǔn)確的人臉特征識(shí)別可以提高跟蹤的效果。

隨后在步驟S230中(選取步驟),根據(jù)該圖像幀I0的人臉五官位置選取人臉感興趣區(qū)域,作為下一圖像幀I1的基準(zhǔn)區(qū)域Face1。

具體做法是:根據(jù)識(shí)別步驟(S220)中識(shí)別出的人臉五官位置點(diǎn)生成圖像幀I0的一個(gè)矩形子區(qū)域Box0(也就是人臉的精確區(qū)域),以圖在最小的區(qū)域范圍內(nèi)包含人臉五官,一般地,矩形子區(qū)域Box0的范圍是小于基準(zhǔn)區(qū)域Face0的。然后,以該矩形子區(qū)域Box0的中心為基準(zhǔn),將該子區(qū)域的長(zhǎng)、寬各放大第一數(shù)目倍,得到人臉感興趣區(qū)域(ROI區(qū)域),作為下一圖像幀I1的基準(zhǔn)區(qū)域Face1。根據(jù)本發(fā)明的一個(gè)實(shí)施例,第一數(shù)目根據(jù)視頻序列的幀頻計(jì)算得到。例如,正常流暢實(shí)時(shí)的視頻或攝像播放時(shí)的幀頻是30幀,那么兩幀之間相隔就是33ms,根據(jù)經(jīng)驗(yàn),兩幀之間人臉不會(huì)移動(dòng)超過(guò)四倍的人臉精確區(qū)域,因此選取第一數(shù)目為1,即Face1的面積=4*Box0的面積。

隨后在步驟S240中(重復(fù)步驟),重復(fù)上述S220識(shí)別步驟和S230選取步驟,以跟蹤視頻序列中每一圖像幀的人臉五官位置。展開來(lái)說(shuō),就是將Face1作為圖像幀I1的基準(zhǔn)區(qū)域;然后將Face1的圖像輸入到人臉對(duì)齊模型中,識(shí)別出人臉五官位置;再根據(jù)人臉五官位置生成圖像幀I1的子區(qū)域Box1,根據(jù)Box1生成下一圖像幀I2的基準(zhǔn)區(qū)域Face2;將Face2作為圖像幀I2的基準(zhǔn)區(qū)域;然后將Face2的圖像輸入到人臉對(duì)齊模型中……以此類推,這樣就跟蹤得到每一圖像幀的人臉五官位置。

根據(jù)一種實(shí)現(xiàn)方式,若檢測(cè)到當(dāng)前圖像幀中有多個(gè)人臉,則分別對(duì)每個(gè)人臉進(jìn)行人臉檢測(cè),生成多個(gè)人臉基準(zhǔn)區(qū)域;然后,對(duì)每個(gè)人臉的基準(zhǔn)區(qū)域分別執(zhí)行上述識(shí)別步驟、選取步驟、和重復(fù)步驟,以跟蹤視頻序列中的多個(gè)人臉五官位置。

故方法200引入深度學(xué)習(xí)方法進(jìn)行人臉對(duì)齊,在人臉識(shí)別精度方面有很好的表現(xiàn),同時(shí)又不需要在線學(xué)習(xí)人臉特征,降低了計(jì)算的復(fù)雜度,以實(shí)現(xiàn)移動(dòng)端的實(shí)時(shí)跟蹤,達(dá)到了準(zhǔn)確快速跟蹤視頻圖像中的人臉的技術(shù)效果。另外,因采用了ROI區(qū)域搜索,又可以方便快速的對(duì)多個(gè)被攝目標(biāo)進(jìn)行跟蹤。

圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的人臉跟蹤裝置400的示意圖。如圖4所示,該裝置400包括:生成單元410、識(shí)別單元420、和選取單元430。

假設(shè)視頻序列為I0I1I2I3……,生成單元410適于對(duì)該視頻序列中的當(dāng)前圖像幀I0做人臉檢測(cè),得到一個(gè)人臉的基準(zhǔn)區(qū)域Face0。人臉檢測(cè)技術(shù)相關(guān)的算法有很多,可以是基于幾何特征的方法、基于模板或者模型的方法,諸如模板匹配模型、膚色模型、ANN模型、SVM模型、Adaboost模型等等。在本方案中,對(duì)人臉檢測(cè)的具體算法不作限制,任何人臉檢測(cè)方法都可以與本方案的實(shí)施例相結(jié)合,以實(shí)現(xiàn)人臉跟蹤。

識(shí)別單元420適于從基準(zhǔn)區(qū)域Face0中進(jìn)一步確定人臉的精確位置,根據(jù)本發(fā)明的實(shí)施例,通過(guò)深度學(xué)習(xí)方法從基準(zhǔn)區(qū)域Face0中識(shí)別出該圖像幀中的人臉五官位置。

具體地,識(shí)別單元420包含建模模塊和提取模塊,其中建模模塊適于采用深度學(xué)習(xí)方法建立人臉對(duì)齊模型,其中人臉對(duì)齊模型包括至少一個(gè)圖像卷積層,然后提取模塊適于利用人臉對(duì)齊模型提取出人臉五官特征。本方案采用深度學(xué)習(xí)方法建立對(duì)齊模型,能夠很好地解決在真實(shí)場(chǎng)景中,姿態(tài)、表情等對(duì)人臉對(duì)齊的影響。

建模模塊適于選取大量的人臉圖像作為樣本數(shù)據(jù),通過(guò)深度學(xué)習(xí)方法訓(xùn)練建立起人臉對(duì)齊模型,根據(jù)本發(fā)明的實(shí)施例,人臉對(duì)齊模型包括至少一個(gè)圖像卷積層。其中,圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的圖像卷積層的結(jié)構(gòu)圖。

在測(cè)試階段,由提取模塊對(duì)輸入的基準(zhǔn)區(qū)域Face0的圖像,經(jīng)過(guò)“卷積→ReLU→池化→卷積→ReLU→池化…→卷積”的處理提取出人臉五官特征,具體過(guò)程如下:

圖像卷積層對(duì)該輸入的基準(zhǔn)區(qū)域Face0的圖像進(jìn)行“卷積→ReLU→池化→卷積→ReLU→池化→卷積→ReLU→池化→…→卷積”的操作。以其中第一卷積層為例,卷積層的結(jié)構(gòu)如圖3所示,對(duì)輸入圖像先進(jìn)行卷積運(yùn)算,提取圖像特征。

再由ReLU(Rectified Linear Units,經(jīng)校正過(guò)的線性單元)作為激活函數(shù)進(jìn)行校正,這里選取ReLU作激活函數(shù)主要是考慮到和使用別的激活函數(shù)的模型相比,ReLU不僅識(shí)別錯(cuò)誤率低、計(jì)算效率更高、而且可以形成所謂"稀疏表征"(sparse representation),用少量的神經(jīng)元可以高效、靈活、穩(wěn)健地表達(dá)抽象復(fù)雜的概念。

然后,對(duì)經(jīng)過(guò)ReLU處理后的數(shù)據(jù)進(jìn)行池化(pooling)操作,可選地,提取模塊424在進(jìn)行池化操作時(shí),可以利用平均值或最大值進(jìn)行池化,本發(fā)明對(duì)此不作限制。

為提高網(wǎng)絡(luò)的泛化能力,在池化操作后,對(duì)數(shù)據(jù)進(jìn)行局部響應(yīng)歸一化處理。以下面的公式為例:

<mrow> <msub> <msup> <mi>b</mi> <mi>i</mi> </msup> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> <mo>=</mo> <msub> <msup> <mi>a</mi> <mi>i</mi> </msup> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> <mo>/</mo> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>+</mo> <mi>&alpha;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <mi>i</mi> <mo>-</mo> <mi>n</mi> <mo>/</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>i</mi> <mo>+</mo> <mi>n</mi> <mo>/</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow> </munderover> <msup> <mrow> <mo>(</mo> <mrow> <msub> <msup> <mi>a</mi> <mi>j</mi> </msup> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mi>&beta;</mi> </msup> </mrow>

其中,a表示每一個(gè)神經(jīng)元的激活,n是在同一個(gè)位置(x,y)上臨近的kernel map的數(shù)目,N是在這一層中卷積核的總數(shù)目,k、α、β都是預(yù)設(shè)的一些超參數(shù)(hyper-parameters),可選地,k=2,n=5,α=10-4,β=0.75。

根據(jù)實(shí)現(xiàn)方式,該人臉對(duì)齊模型中具有超過(guò)一層的圖像卷積層,且每一個(gè)圖像卷積層的結(jié)構(gòu)可能會(huì)有所不同,例如在五層卷積層結(jié)構(gòu)中,第三、四、五層的圖像卷積層可以不設(shè)置池化操作和局部響應(yīng)歸一化處理。

最后,通過(guò)卷積層將卷積得到的特征進(jìn)行合并,輸出最終提取的人臉五官特征,其中人臉五官特征點(diǎn)可以包括鼻子、嘴唇、眼睛、眉毛、外輪廓點(diǎn)等。

根據(jù)另一種實(shí)施方式,人臉對(duì)齊模型還可以包括全連接層,由全連接層將卷積得到的特征進(jìn)行組合后,輸出預(yù)測(cè)的人臉特征點(diǎn)位置(即,特征點(diǎn)坐標(biāo))??蛇x地,全連接層至少包括兩層,且在第一個(gè)全連接層中,對(duì)輸入的特征進(jìn)行合并后,同樣輸入ReLU中進(jìn)行校正后再輸入到第二個(gè)全連接層進(jìn)行預(yù)測(cè),本發(fā)明對(duì)特征的合并方式不做限制。

選取單元430適于根據(jù)識(shí)別單元420識(shí)別到的人臉五官位置生成一個(gè)精準(zhǔn)的人臉區(qū)域,即,根據(jù)人臉五官位置裁切出一個(gè)矩形子區(qū)域Box0,以圖在最小的區(qū)域范圍內(nèi)包含人臉五官,一般地,矩形子區(qū)域Box0的范圍是小于基準(zhǔn)區(qū)域Face0的。再以該矩形子區(qū)域Box0的中心為基準(zhǔn),將該子區(qū)域的長(zhǎng)、寬各放大第一數(shù)目倍,得到人臉感興趣區(qū)域(ROI區(qū)域),作為下一圖像幀I1的基準(zhǔn)區(qū)域Face1。

根據(jù)本發(fā)明的一個(gè)實(shí)施例,選取單元430包括適于根據(jù)視頻序列的幀頻計(jì)算第一數(shù)目的計(jì)算模塊。例如,正常流暢實(shí)時(shí)的視頻或攝像播放時(shí)的幀頻是30幀,那么兩幀之間相隔就是33ms,根據(jù)經(jīng)驗(yàn),兩幀之間人臉不會(huì)移動(dòng)超過(guò)四倍的人臉精確區(qū)域,因此選取第一數(shù)目為1,即Face1的面積=4*Box0的面積。

根據(jù)本發(fā)明的實(shí)施方式,識(shí)別單元420還適于將選取單元430選取的下一圖像幀的基準(zhǔn)區(qū)域Face1對(duì)應(yīng)的圖像輸入到人臉對(duì)齊模型中,識(shí)別出下一圖像幀I1的人臉五官位置,并將其發(fā)送給與之耦接的選取單元430,由選取單元430根據(jù)人臉五官位置選取出圖像幀I1的子區(qū)域,并根據(jù)子區(qū)域生成ROI區(qū)域作為下一圖像幀I2的基準(zhǔn)區(qū)域Face2……以此類推,最終跟蹤到視頻序列中每一圖像幀的人臉五官位置。

根據(jù)本發(fā)明的實(shí)施方式,生成單元410還適于在檢測(cè)到當(dāng)前圖像幀中有多個(gè)人臉時(shí),對(duì)每個(gè)人臉都生成一個(gè)人臉基準(zhǔn)區(qū)域。而后識(shí)別單元420適于分別識(shí)別該圖像幀中每個(gè)人臉基準(zhǔn)區(qū)域?qū)?yīng)的人臉五官位置。再由選取單元430根據(jù)該圖像幀中的每個(gè)人臉的五官位置分別選取對(duì)應(yīng)的人臉感興趣區(qū)域,作為該人臉在下一圖像幀中對(duì)應(yīng)的基準(zhǔn)區(qū)域。這樣就解決了視頻圖像中多目標(biāo)的跟蹤難題。

應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多特征。更確切地說(shuō),如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。

本領(lǐng)域那些技術(shù)人員應(yīng)當(dāng)理解在本文所公開的示例中的設(shè)備的模塊或單元或組件可以布置在如該實(shí)施例中所描述的設(shè)備中,或者可替換地可以定位在與該示例中的設(shè)備不同的一個(gè)或多個(gè)設(shè)備中。前述示例中的模塊可以組合為一個(gè)模塊或者此外可以分成多個(gè)子模塊。

本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。

本發(fā)明公開了:

A6、如A5所述的方法,其中由人臉對(duì)齊模型提取出人臉五官特征的步驟包括:將基準(zhǔn)區(qū)域的圖像作為輸入圖像,輸入所述人臉對(duì)齊模型;通過(guò)圖像卷積層對(duì)輸入圖像進(jìn)行卷積、ReLU、池化的迭代操作;以及輸出預(yù)測(cè)的人臉五官特征點(diǎn)位置。

A7、如A6所述的方法,其中池化操作包括:利用平均值進(jìn)行池化;或利用最大值進(jìn)行池化。

B13、如B12所述的裝置,其中,提取模塊還適于將基準(zhǔn)區(qū)域的圖像作為輸入圖像,輸入人臉對(duì)齊模型、且適于對(duì)輸入圖像進(jìn)行卷積、ReLU、池化的迭代操作、輸出預(yù)測(cè)的人臉五官特征點(diǎn)位置。

B14、如B13所述的裝置,其中,提取模塊還適于利用平均值進(jìn)行池化操作、或利用最大值進(jìn)行池化。

此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。

此外,所述實(shí)施例中的一些在此被描述成可以由計(jì)算機(jī)系統(tǒng)的處理器或者由執(zhí)行所述功能的其它裝置實(shí)施的方法或方法元素的組合。因此,具有用于實(shí)施所述方法或方法元素的必要指令的處理器形成用于實(shí)施該方法或方法元素的裝置。此外,裝置實(shí)施例的在此所述的元素是如下裝置的例子:該裝置用于實(shí)施由為了實(shí)施該發(fā)明的目的的元素所執(zhí)行的功能。

如在此所使用的那樣,除非另行規(guī)定,使用序數(shù)詞“第一”、“第二”、“第三”等等來(lái)描述普通對(duì)象僅僅表示涉及類似對(duì)象的不同實(shí)例,并且并不意圖暗示這樣被描述的對(duì)象必須具有時(shí)間上、空間上、排序方面或者以任意其它方式的給定順序。

盡管根據(jù)有限數(shù)量的實(shí)施例描述了本發(fā)明,但是受益于上面的描述,本技術(shù)領(lǐng)域內(nèi)的技術(shù)人員明白,在由此描述的本發(fā)明的范圍內(nèi),可以設(shè)想其它實(shí)施例。此外,應(yīng)當(dāng)注意,本說(shuō)明書中使用的語(yǔ)言主要是為了可讀性和教導(dǎo)的目的而選擇的,而不是為了解釋或者限定本發(fā)明的主題而選擇的。因此,在不偏離所附權(quán)利要求書的范圍和精神的情況下,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)許多修改和變更都是顯而易見的。對(duì)于本發(fā)明的范圍,對(duì)本發(fā)明所做的公開是說(shuō)明性的,而非限制性的,本發(fā)明的范圍由所附權(quán)利要求書限定。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1