本發(fā)明涉及圖像處理領域,具體涉及一種人臉五官識別方法、裝置及系統(tǒng)。
背景技術:
人臉作為人體的一個重要生物特征,近幾年在圖像處理,視覺技術,信息安全等領域有著越來越重要的作用。而人臉中,五官的判別與定位技術是人臉識別、人臉跟蹤等應用的基礎。現(xiàn)有的人臉五官定位技術主要通過預測一些預先設計的關鍵點,如眼角、眉梢、嘴角等實現(xiàn)。一般常見的人臉關鍵點個數(shù)為每張人臉21個關鍵點。而這種基于人臉關鍵點定位的方式由于關鍵點位置少,識別準確度和精度都不高,對于一些需要細節(jié)的應用,如美圖,定妝等圖像處理應用,則很難滿足要求。
目前,利用人臉關鍵點定位的方式,為了達到美妝級別的精度,通常的做法是增加預測的關鍵點的數(shù)目,如將關鍵點個數(shù)增加為68個或106個。但該方法會遇到如下問題:1)增多的人臉關鍵點的標注數(shù)據(jù)仍不夠多;2)68點或106點仍沒有完全覆蓋五官的邊界,從關鍵點生成的五官區(qū)域通常是多邊形,形狀并不準確,依然難以達到美妝等應用的精度需求;3)人臉關鍵點會在邊界上有小范圍移動偏差(如眼睛中間的一點可能在前幀偏左,而后幀偏右),導致視頻上的結果會有抖動。
如圖1所示,圖1左圖為輸入圖片,中間為基于人臉關鍵點方式得到 的眼睛邊界圖片,右圖為基于人臉分割算法得到的眼睛邊界圖片。
現(xiàn)有技術中基于超像素分割的方案,超像素分割本身非常耗時,而之后的基于超像素的條件隨機場的推斷過程也需要花費大量時間,該方法無法將算法做到實用級別。另一類基于全卷積網(wǎng)絡的方法,由于達到較好效果需要的網(wǎng)絡層數(shù)較多,及需要精確結果的輸入圖像較大,也很難在保持結果的情況下將算法進行大規(guī)模加速。一般來說,基于全卷積網(wǎng)絡的方法在處理人臉分割需要中央處理器(centralprocessingunit,簡稱為cpu)計算時間大約1秒。這樣的速度很難適應實際的應用。
針對相關技術中,人臉五官識別的準確度、精度不高以及需要占用的cpu時間較長的問題,還未提出有效的解決方案。
技術實現(xiàn)要素:
因此,本發(fā)明要解決的技術問題在于克服現(xiàn)有技術中的人臉五官識別的準確度、精度不高以及需要占用的計算時間較長的問題,從而提供了一種人臉五官識別方法、裝置及系統(tǒng)。
根據(jù)本發(fā)明的一個方面,提供了一種人臉五官識別方法,包括:獲取第一人臉圖片;所述第一人臉圖片為完整人臉的圖片,包括至少一個第一子區(qū)域和至少一個第二子區(qū)域;其中,所述至少一個第一子區(qū)域對應第一類型器官,所述至少一個第二子區(qū)域對應第二類型器官,每個所述第一子區(qū)域的面積占所述第一人臉圖片的總面積的比例均大于或者等于預定閾值,每個所述第二子區(qū)域的面積占所述第一人臉圖片的總面積的比例均小于所述預定閾值;對所述第一人臉圖片進行分割定位,得到第二人臉圖片; 其中,所述第二人臉圖片包括對所述至少一個第一子區(qū)域進行精確分割定位得到的至少一個第三子區(qū)域和對所述至少一個第二子區(qū)域進行模糊分割定位得到的至少一個第四子區(qū)域;對各個所述第四子區(qū)域分別進行放大,對放大后的各個所述第四子區(qū)域進行精確分割定位,得到至少一個第五子區(qū)域;基于所述至少一個第三子區(qū)域和所述至少一個第五子區(qū)域生成第三人臉圖片。
可選地,對所述第一人臉圖片進行分割定位,得到第二人臉圖片包括:將所述第一人臉圖片輸入至第一全卷積網(wǎng)絡,得到所述第二人臉圖片;和/或,對各個所述第四子區(qū)域分別進行放大,對放大后的各個所述第四子區(qū)域進行精確分割定位,得到至少一個第五子區(qū)域包括:將放大后的各個所述第四子區(qū)域輸入至第二全卷積網(wǎng)絡,得到所述至少一個第五子區(qū)域。
可選地,所述第一全卷積網(wǎng)絡依次包括第一輸入層、第一組合層、第一反卷積層和第一輸出層,所述第二全卷積網(wǎng)絡依次包括第二輸入層、第二組合層、第二反卷積層和第二輸出層;其中,所述第一組合層包括:多個第一卷積層和第一池化層,所述第二組合層包括:多個第二卷積層和第二池化層。
可選地,所述多個第一卷積層的層數(shù)多于所述多個第二卷積層的層數(shù)。
可選地,所述第一池化層夾在所述多個第一卷積層中;所述第二池化層夾在所述多個第二卷積層中。
可選地,得到所述第二人臉圖片之后,對各個所述第四子區(qū)域分別進 行放大,對放大后的各個所述第四子區(qū)域進行精確分割定位,得到所述至少一個第五子區(qū)域之前包括:將所述第二人臉圖片的大小調整至所述第一人臉圖片的大小;和/或,生成所述第三人臉圖片之后包括:將所述至少一個第五子區(qū)域的大小放大至對應的所述至少一個第四子區(qū)域的大小。
可選地,將所述第二人臉圖片的大小調整至所述第一人臉圖片的大小包括:利用所述第一全卷積網(wǎng)絡的第一反卷積層將所述第二人臉圖片的大小調整至所述第一人臉圖片的大??;和/或,將所述至少一個第五子區(qū)域的大小放大至對應的所述至少一個第四子區(qū)域的大小包括:利用所述第二全卷積網(wǎng)絡的第二反卷積層將所述至少一個第五子區(qū)域的大小放大至對應的所述至少一個第四子區(qū)域的大小。
可選地,獲取所述第一人臉圖片包括:獲取原始人臉圖片;將所述原始人臉圖片縮小至預定大小得到所述第一人臉圖片。
可選地,第四人臉圖片的大小小于所述第一人臉圖片的大??;其中,所述第四人臉圖片包含放大后的各個所述第四子區(qū)域。
可選地,所述至少一個第一子區(qū)域包括以下至少之一:頭發(fā)區(qū)域或者臉區(qū)域,所述至少一個第二子區(qū)域包括以下至少之一:左眼及左眉區(qū)域、右眼及右眉區(qū)域、鼻子區(qū)域或者嘴區(qū)域。
根據(jù)本發(fā)明的另一個方面,還提供了一種人臉五官識別裝置,包括:獲取模塊,用于獲取第一人臉圖片;所述第一人臉圖片為完整人臉的圖片,包括至少一個第一子區(qū)域和至少一個第二子區(qū)域;其中,所述至少一個第 一子區(qū)域對應第一類型器官,所述至少一個第二子區(qū)域對應第二類型器官,每個所述第一子區(qū)域的面積占所述第一人臉圖片的總面積的比例均大于或者等于預定閾值,每個所述第二子區(qū)域的面積占所述第一人臉圖片的總面積的比例均小于所述預定閾值;第一分割定位模塊,用于對所述第一人臉圖片進行分割定位,得到第二人臉圖片;其中,所述第二人臉圖片包括對所述至少一個第一子區(qū)域進行精確分割定位得到的至少一個第三子區(qū)域和對所述至少一個第二子區(qū)域進行模糊分割定位得到的至少一個第四子區(qū)域;第二分割定位模塊,用于對各個所述第四子區(qū)域分別進行放大,對放大后的各個所述第四子區(qū)域進行精確分割定位,得到至少一個第五子區(qū)域;生成模塊,用于基于所述至少一個第三子區(qū)域和所述至少一個第五子區(qū)域生成第三人臉圖片。
可選地,所述第一分割定位模塊具體用于將所述第一人臉圖片輸入至第一全卷積網(wǎng)絡,得到所述第二人臉圖片;和/或,所述第二分割定位模塊具體用于將放大后的各個所述第四子區(qū)域輸入至第二全卷積網(wǎng)絡,得到所述至少一個第五子區(qū)域。
可選地,所述第一全卷積網(wǎng)絡依次包括第一輸入層、第一組合層、第一反卷積層和第一輸出層,所述第二全卷積網(wǎng)絡依次包括第二輸入層、第二組合層、第二反卷積層和第二輸出層;其中,所述第一組合層包括:多個第一卷積層和第一池化層,所述第二組合層包括:多個第二卷積層和第二池化層。
可選地,所述多個第一卷積層的層數(shù)多于所述多個第二卷積層的層數(shù)。
可選地,所述第一池化層夾在所述多個第一卷積層中;所述第二池化層夾在所述多個第二卷積層中。
可選地,所述裝置還包括:第一調整模塊,用于得到所述第二人臉圖片之后,對各個所述第四子區(qū)域分別進行放大,對放大后的各個所述第四子區(qū)域進行精確分割定位,得到所述至少一個第五子區(qū)域之前,將所述第二人臉圖片的大小調整至所述第一人臉圖片的大小;和/或,第二調整模塊,用于生成所述第三人臉圖片之后,將所述至少一個第五子區(qū)域的大小放大至對應的所述至少一個第四子區(qū)域的大小。
可選地,所述第一調整模塊具體用于利用所述第一全卷積網(wǎng)絡的第一反卷積層將所述第二人臉圖片的大小調整至所述第一人臉圖片的大小;和/或,所述第二調整模塊具體用于利用所述第二全卷積網(wǎng)絡的第二反卷積層將所述至少一個第五子區(qū)域的大小放大至對應的所述至少一個第四子區(qū)域的大小。
可選地,所述獲取模塊包括:獲取單元,用于獲取原始人臉圖片;調整單元,用于將所述原始人臉圖片縮小至預定大小得到所述第一人臉圖片。
可選地,第四人臉圖片的大小小于所述第一人臉圖片的大??;其中,所述第四人臉圖片包含放大后的各個所述第四子區(qū)域。
可選地,所述至少一個第一子區(qū)域包括以下至少之一:頭發(fā)區(qū)域或者臉區(qū)域,所述至少一個第二子區(qū)域包括以下至少之一:左眼及左眉區(qū)域、右眼及右眉區(qū)域、鼻子區(qū)域或者嘴區(qū)域。
根據(jù)本發(fā)明的再一個方面,還提供了一種人臉五官識別系統(tǒng),所述系統(tǒng)包括:攝像裝置,用于獲取第一人臉圖片;所述第一人臉圖片為完整人臉的圖片,包括至少一個第一子區(qū)域和至少一個第二子區(qū)域;其中,所述至少一個第一子區(qū)域對應第一類型器官,所述至少一個第二子區(qū)域對應第二類型器官,每個所述第一子區(qū)域的面積占所述第一人臉圖片的總面積的比例均大于或者等于預定閾值,每個所述第二子區(qū)域的面積占所述第一人臉圖片的總面積的比例均小于所述預定閾值;存儲裝置,用于對所述第一人臉圖片進行存儲;處理器,用于對所述第一人臉圖片進行分割定位,得到第二人臉圖片;其中,所述第二人臉圖片包括對所述至少一個第一子區(qū)域進行精確分割定位得到的至少一個第三子區(qū)域和對所述至少一個第二子區(qū)域進行模糊分割定位得到的至少一個第四子區(qū)域;對各個所述第四子區(qū)域分別進行放大,對放大后的各個所述第四子區(qū)域進行精確分割定位,得到至少一個第五子區(qū)域;基于所述至少一個第三子區(qū)域和所述至少一個第五子區(qū)域生成第三人臉圖片。
通過本發(fā)明,獲取第一人臉圖片;該第一人臉圖片為完整人臉的圖片,包括至少一個第一子區(qū)域和至少一個第二子區(qū)域;其中,該至少一個第一子區(qū)域對應第一類型器官,該至少一個第二子區(qū)域對應第二類型器官,每個該至少一個第一子區(qū)域的面積占該第一人臉圖片的總面積的比例均大于或者等于預定閾值,每個該至少一個第二子區(qū)域的面積占該第一人臉圖片的總面積的比例均小于該預定閾值;對該第一人臉圖片進行分割定位,得到第二人臉圖片;其中,該第二人臉圖片包括對該至少一個第一子區(qū)域進行精確分割定位得到的至少一個第三子區(qū)域和對該至少一個第二子區(qū)域進 行模糊分割定位得到的至少一個第四子區(qū)域;對各個該至少一個第四子區(qū)域分別進行放大,對放大后的各個該至少一個第四子區(qū)域進行精確分割定位,得到至少一個第五子區(qū)域;基于該至少一個第三子區(qū)域和該至少一個第五子區(qū)域生成第三人臉圖片,解決了現(xiàn)有技術中的人臉五官精準定位識別的準確度、精度不高以及需要占用的計算時間較長的問題,從而降低了子網(wǎng)絡所需的復雜度,減少了人臉分割需要的計算時間,提高了人臉五官識別的準確度和精度。
附圖說明
為了更清楚地說明本發(fā)明具體實施方式或現(xiàn)有技術中的技術方案,下面將對具體實施方式或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施方式,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為相關技術中人臉分割的眼睛邊界圖片示意圖;
圖2為本發(fā)明實施例的人臉五官識別方法的流程圖;
圖3為本發(fā)明實施例的人臉分割的整體網(wǎng)絡結構圖;
圖4為本發(fā)明實施例的人臉五官識別裝置的一個結構框圖;
圖5為本發(fā)明實施例的人臉五官識別裝置的另一個結構框圖;
圖6為本發(fā)明實施例的獲取模塊的結構框圖。
具體實施方式
下面將結合附圖對本發(fā)明的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
此外,術語“第一”、“第二”、“第三”僅用于描述目的,而不能理解為指示或暗示相對重要性。
此外,下面所描述的本發(fā)明不同實施方式中所涉及的技術特征只要彼此之間未構成沖突就可以相互結合。
實施例1
本實施例提供了一種人臉五官識別方法,圖2為本發(fā)明實施例的人臉五官識別方法的流程圖,如圖2所示,包括如下步驟:
步驟s202,獲取第一人臉圖片;該第一人臉圖片為完整人臉的圖片,包括至少一個第一子區(qū)域和至少一個第二子區(qū)域;其中,至少一個第一子區(qū)域對應第一類型器官,至少一個第二子區(qū)域對應第二類型器官,每個至少一個第一子區(qū)域的面積占第一人臉圖片的總面積的比例均大于或者等于預定閾值,每個至少一個第二子區(qū)域的面積占第一人臉圖片的總面積的比例均小于該預定閾值;
步驟s204,對第一人臉圖片進行分割定位,得到第二人臉圖片;其中,第二人臉圖片包括對至少一個第一子區(qū)域進行精確分割定位得到的至少一個第三子區(qū)域和對至少一個第二子區(qū)域進行模糊分割定位得到的至少一個第四子區(qū)域;
步驟s206,對各個至少一個第四子區(qū)域分別進行放大,對放大后的各個至少一個第四子區(qū)域進行精確分割定位,得到至少一個第五子區(qū)域;
步驟s208,基于至少一個第三子區(qū)域和至少一個第五子區(qū)域生成第三人臉圖片。
通過上述步驟,首先對占人臉面積較大的第一子區(qū)域進行精確分割定位和對占人臉面積較小的至少一個第二子區(qū)域進行模糊分割定位,然后再對經過模糊分割定位的至少一個第二子區(qū)域進行精確分割定位,相比于相關技術中,在人臉分割的過程中要想達到較好效果需要的網(wǎng)絡層數(shù)較多,需要計算時間較長,上述步驟解決了現(xiàn)有技術中人臉五官識別的準確度、精度不高以及需要占用的計算時間較長的問題,從而降低了子網(wǎng)絡所需的復雜度,減少了人臉分割需要的計算時間,提高了人臉五官識別的準確度和精度。其中,完整人臉的圖片,即,該圖片包含了一張完整的人臉。
上述步驟s206涉及到對各個第四子區(qū)域分別進行放大,對放大后的各個第四子區(qū)域進行精確分割定位,得到各個第五子區(qū)域。即,提取出第四子區(qū)域包含的各個器官對應的圖片,將每個器官對應的圖片進行放大,然后對放大后的每個器官對應的圖片進行精確分割定位,得到對應的每一個第五子區(qū)域。
可以通過多種方式獲取到第二人臉圖片,在一個可選實施例中,將第一人臉圖片輸入至第一全卷積網(wǎng)絡,得到第二人臉圖片。也可以通過多種方式獲取到上述至少一個第五子區(qū)域,在一個可選實施例中,將放大后的各個至少一個第四子區(qū)域輸入至第二全卷積網(wǎng)絡,得到至少一個第五子區(qū) 域。也就是說,可以通過全卷積網(wǎng)絡實現(xiàn)對圖片的分割定位。
在一個可選實施例中,第一全卷積網(wǎng)絡依次包括第一輸入層、第一組合層、第一反卷積層和第一輸出層,第二全卷積網(wǎng)絡依次包括第二輸入層、第二組合層、第二反卷積層和第二輸出層;其中,第一組合層包括:多個第一卷積層和第一池化層,第二組合層包括:多個第二卷積層和第二池化層。
上述第一子區(qū)域所占人臉面積較大,在一個可選實施例中,第一子區(qū)域包括以下至少之一:頭發(fā)區(qū)域或者臉區(qū)域。上述第二子區(qū)域所占人臉面積較小,在另一個可選實施例中,上述第二子區(qū)域包括以下至少之一:左眼及左眉區(qū)域、右眼及右眉區(qū)域、鼻子區(qū)域或者嘴區(qū)域。
在一個可選實施例中,還提出了一種兩階段全卷積網(wǎng)絡的人臉分割的方法,整體流程如圖3所示,首先,輸入128*128大小的人臉區(qū)域圖片,第一階段全卷積的網(wǎng)絡分為以下類別,背景,頭發(fā),臉,左眼及左眉,右眼及右眉,鼻子,嘴。其中,背景,頭發(fā),臉三類為精確分割定位,因為這三類占總體人臉面積比重較大。而其他的五官區(qū)域為模糊定位,只負責大概估計位置,并不承擔精確分割的目標。
第二階段網(wǎng)絡分別處理左眼區(qū)域、右眼區(qū)域、鼻子、和嘴。根據(jù)前一階段得到的位置采集附近區(qū)域,得到更精確的分割結果。其中眼的模型輸出眉毛和眼睛兩類,左右眼共享同一個模型。鼻子模型輸出鼻子一類。嘴的模型輸出上嘴唇、下嘴唇、和嘴中間區(qū)域三類。這一階段的眼睛區(qū)域和鼻子區(qū)域的輸入為64*64,嘴的輸入為32*64。
由于使用第一全卷積網(wǎng)絡進行人臉識別的過程中,需要對占人臉面積較大的各個第一子區(qū)域進行精確分割定位,因此,在一個可選實施例中,第一全卷積網(wǎng)絡的第一卷積層的層數(shù)多于第二全卷積網(wǎng)絡的第二卷積層的層數(shù)。從而更好的實現(xiàn)了對占人臉面積較大的各個第一子區(qū)域進行精確分割定位。
在一個可選實施例中,第一全卷積網(wǎng)絡和/或第二全卷積網(wǎng)絡的每個卷積層的卷積核大小為3*3,通道channel數(shù)量為32,部分卷積層步長stride為2。在另一個可選實施例中,第一池化層夾在多個第一卷積層中;第二池化層夾在多個第二卷積層中。
整個網(wǎng)絡結構如圖3所示。其中每一個卷積層下面的標示3*3*32/2代表該層卷積核大小為3*3,channel數(shù)為32,stride為2。卷積核的大小表示了每層特征對上層網(wǎng)絡的作用范圍大小,一個合適的卷積核大小可以控制合適的計算量,同時融合了相應的下層信息。卷積的channel數(shù)表示了卷積網(wǎng)絡的復雜程度,越大的channel數(shù)導致的網(wǎng)絡尺寸也更大,表達能力也會一定程度提高。合適的channel數(shù)也是計算復雜度和網(wǎng)絡標識能力的權衡。stride是為了使上層的特征變小,增加下層網(wǎng)絡的視野。其他pooling層和反卷積層使用同樣標記。
在一個可選實施例中,第一全卷積網(wǎng)絡的第一卷積層、第一反卷積層和第二全卷積網(wǎng)絡的第二卷積層、第二反卷積層之后均連接有非線性響應單元(rectifiedlinearunit,簡稱為relu)。其作用在于增加網(wǎng)絡非線性擾動能力,提高網(wǎng)絡表達能力。
在一個可選實施例中,對第一人臉圖片進行分割定位,得到第二人臉圖片之后,對各個至少一個第四子區(qū)域分別進行放大,對放大后的各個至少一個第四子區(qū)域進行精確分割定位,得到至少一個第五子區(qū)域之前,將該第二人臉圖片與第一理論值進行比較,得到第一差值,并使用該第一差值對該第二人臉圖片進行補償,在另一個可選實施例中,對放大后的各個該至少一個第四子區(qū)域進行精確分割定位,得到至少一個第五子區(qū)域之后包括:將該至少一個第五子區(qū)域與第二理論值進行比較,得到第二差值,并使用第二差值對該至少一個第五子區(qū)域進行補償。具體地,第一全卷積網(wǎng)絡之后包括第一軟最大損失函數(shù)層softmaxloss,第一softmaxloss用于將該第二人臉圖片與第一理論值進行比較,得到第一差值,并使用第一差值對該第二人臉圖片進行補償。在另一個可選實施例中,第二全卷積網(wǎng)絡之后包括第二軟最大損失函數(shù)層softmaxloss,第二softmaxloss用于將該第五子區(qū)域與第二理論值進行比較,得到第二差值,并使用第二差值對第五子區(qū)域進行補償。也就是說,最后反卷積層deconv8輸出的結果和數(shù)據(jù)的標準標注做softmaxloss。該網(wǎng)絡的卷積層通過對下層特征進行非線性加權,起到了信息歸納,融合的作用。池化層進行高層信息的歸納,因為它抽取了下層特征中響應最強的部分。
為了保證全卷積網(wǎng)絡輸出圖片的清晰度,在一個可選實施例中,得到第二人臉圖片之后,對各個至少一個第四子區(qū)域分別進行放大,對放大后的各個至少一個第四子區(qū)域進行精確分割定位,得到至少一個第五子區(qū)域之前將第二人臉圖片的大小調整至第一人臉圖片的大小。在另一個可選實施例中,生成第三人臉圖片之后,將至少一個第五子區(qū)域的大小放大至對 應的第四子區(qū)域的大小。在一個具體的可選實施例中,利用第一全卷積網(wǎng)絡的反卷積層將第二人臉圖片的大小調整至第一人臉圖片的大??;利用第二全卷積網(wǎng)絡的反卷積層將至少一個第五子區(qū)域的大小放大至對應的至少一個第四子區(qū)域的大小。即,反卷積層將輸出放大到輸入大小。該網(wǎng)絡結構可以進行微調來適應不同的性能和效率的權衡。
上述步驟s202涉及到獲取第一人臉圖片,在一個可選實施例中,獲取原始人臉圖片;將原始人臉圖片縮小至預定大小得到第一人臉圖片。也就是說,輸入第一全卷積網(wǎng)絡的圖片大小較普通全卷積分割網(wǎng)絡小,從而可以縮短第一全卷積網(wǎng)絡的處理時間。
上述步驟s206涉及到首先對第四子區(qū)域分別進行放大,然后將經過放大后的各個第四子區(qū)域輸入至第二全卷積網(wǎng)絡,在一個可選實施例中,第四人臉圖片的大小小于第一人臉圖片的大??;其中,第四人臉圖片包含放大后的各個至少一個第四子區(qū)域。也就是說,由于分別處理器官局部,所以每個器官局部的輸入仍然小于整體第一階段全臉輸入大小。
實施例2
本施例提供了一種人臉五官識別裝置,如圖4所示,該裝置包括:包括:獲取模塊42,用于獲取第一人臉圖片;該第一人臉圖片為完整人臉的圖片,包括至少一個第一子區(qū)域和至少一個第二子區(qū)域;其中,該至少一個第一子區(qū)域對應第一類型器官,該至少一個第二子區(qū)域對應第二類型器官,每個該至少一個第一子區(qū)域的面積占該第一人臉圖片的總面積的比例均大于或者等于預定閾值,每個該至少一個第二子區(qū)域的面積占該第一人 臉圖片的總面積的比例均小于該預定閾值;第一分割定位模塊44,用于對該第一人臉圖片進行分割定位,得到第二人臉圖片;其中,該第二人臉圖片包括對該至少一個第一子區(qū)域進行精確分割定位得到的至少一個第三子區(qū)域和對該至少一個第二子區(qū)域進行模糊分割定位得到的至少一個第四子區(qū)域;第二分割定位模塊46,用于對各個該至少一個第四子區(qū)域分別進行放大,對放大后的各個該至少一個第四子區(qū)域進行精確分割定位,得到至少一個第五子區(qū)域;生成模塊48,用于基于該至少一個第三子區(qū)域和該至少一個第五子區(qū)域生成第三人臉圖片。
可選地,第一分割定位模塊44具體用于將該第一人臉圖片輸入至第一全卷積網(wǎng)絡,得到該第二人臉圖片;和/或,第二分割定位模塊46具體用于將放大后的各個該至少一個第四子區(qū)域輸入至第二全卷積網(wǎng)絡,得到該至少一個第五子區(qū)域。
可選地,該第一全卷積網(wǎng)絡依次包括第一輸入層、第一組合層、第一反卷積層和第一輸出層,該第二全卷積網(wǎng)絡依次包括第二輸入層、第二組合層、第二反卷積層和第二輸出層;其中,該第一組合層包括:多個第一卷積層和第一池化層,該第二組合層包括:多個第二卷積層和第二池化層。
可選地,該第一全卷積網(wǎng)絡的該第一卷積層的層數(shù)多于該第二全卷積網(wǎng)絡的該第二卷積層的層數(shù)。
可選地,該第一池化層夾在該多個第一卷積層中;該第二池化層夾在該多個第二卷積層中。
圖5為本發(fā)明實施例的人臉五官識別裝置的另一個結構框圖,如圖5所述,該裝置還包括:第一調整模塊52,用于得到該第二人臉圖片之后,對各個該至少一個第四子區(qū)域分別進行放大,對放大后的各個該至少一個第四子區(qū)域進行精確分割定位,得到該至少一個第五子區(qū)域之前,將該第二人臉圖片的大小調整至該第一人臉圖片的大??;和/或,第二調整模塊54,用于生成該第三人臉圖片之后,將該至少一個第五子區(qū)域的大小放大至對應的該至少一個第四子區(qū)域的大小。
可選地,該第一調整模塊52具體用于利用該第一全卷積網(wǎng)絡的第一反卷積層將該第二人臉圖片的大小調整至該第一人臉圖片的大?。缓?或,該第二調整模塊54具體用于利用該第二全卷積網(wǎng)絡的第二反卷積層將該至少一個第五子區(qū)域的大小放大至對應的該至少一個第四子區(qū)域的大小。
圖6為本發(fā)明實施例的獲取模塊的結構框圖,如圖6所示,獲取模塊22包括:獲取單元222,用于獲取原始人臉圖片;調整單元224,用于將該原始人臉圖片縮小至預定大小得到該第一人臉圖片。
可選地,第四人臉圖片的大小小于該第一人臉圖片的大小;其中,該第四人臉圖片包含放大后的各個該至少一個第四子區(qū)域。
可選地,該至少一個第一子區(qū)域包括以下至少之一:頭發(fā)區(qū)域或者臉區(qū)域,該至少一個第二子區(qū)域包括以下至少之一:左眼及左眉區(qū)域、右眼及右眉區(qū)域、鼻子區(qū)域或者嘴區(qū)域。
實施例3
本實施例提供了一種人臉五官識別系統(tǒng),該系統(tǒng)包括:攝像裝置,用于獲取第一人臉圖片;該第一人臉圖片為完整人臉的圖片,包括至少一個第一子區(qū)域和至少一個第二子區(qū)域;其中,該至少一個第一子區(qū)域對應第一類型器官,該至少一個第二子區(qū)域對應第二類型器官,每個該至少一個第一子區(qū)域的面積占該第一人臉圖片的總面積的比例均大于或者等于預定閾值,每個該至少一個第二子區(qū)域的面積占該第一人臉圖片的總面積的比例均小于該預定閾值;存儲裝置,用于對該第一人臉圖片進行存儲;處理器,用于對該第一人臉圖片進行分割定位,得到第二人臉圖片;其中,該第二人臉圖片包括對該至少一個第一子區(qū)域進行精確分割定位得到的至少一個第三子區(qū)域和對該至少一個第二子區(qū)域進行模糊分割定位得到的至少一個第四子區(qū)域;對各個該至少一個第四子區(qū)域分別進行放大,對放大后的各個該至少一個第四子區(qū)域進行精確分割定位,得到至少一個第五子區(qū)域;基于該至少一個第三子區(qū)域和該至少一個第五子區(qū)域生成第三人臉圖片。
綜上所述,為了解決現(xiàn)有技術中,人臉五官識別的準確度和精度不高,無法滿足多細節(jié)且高精度的應用需求的問題,本發(fā)明提出了一種人臉五官識別方法、裝置及系統(tǒng),即人臉分割系統(tǒng)。通過這樣兩階段的網(wǎng)絡設計,簡化每個子網(wǎng)絡處理的任務量,降低子網(wǎng)絡所需的復雜度。這樣我可以使用較小的網(wǎng)絡來進行分割。同時對重點區(qū)域在第二階段精細分割,在保持比較大的輸入圖像尺寸的前提下,得到更加精確的結果。通過這樣兩階段全卷積網(wǎng)絡的設計,能夠極大的減小處理所需要的時間。使得傳統(tǒng)非常耗時的人臉分割算法,能夠在gpu上達到每秒300幀的處理量,在cpu上也 可以達到每秒處理50幅圖像,使算法能夠被實際應用所接受。與之前方案只生成稀疏的關鍵點相比,該方案可以得到輸入人臉圖像每個像素點的類別,從而實現(xiàn)高精度的人臉五官識別。
顯然,上述實施例僅僅是為清楚地說明所作的舉例,而并非對實施方式的限定。對于所屬領域的普通技術人員來說,在上述說明的基礎上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動仍處于本發(fā)明創(chuàng)造的保護范圍之中。