本發(fā)明屬于模式識別、計算機視覺、數(shù)字圖像處理等技術領域,更具體地涉及一種關鍵點定位方法。
背景技術:
關鍵點定位是計算機自動處理圖像的重要環(huán)節(jié)之一,其旨在快速、準確的定位出圖像中感興趣物體語義性較強的關鍵點,例如人臉圖像中的眼角、鼻尖和嘴角等。
就人臉關鍵點定位而言,現(xiàn)有技術中,傳統(tǒng)的基于模型驅動方法及新興的基于數(shù)據驅動方法均能較好地處理表情變化不大及輕微遮擋下的近正面人臉圖片。但受限于模型驅動方法的表達能力及數(shù)據驅動方法對異常點的敏感性,現(xiàn)有技術并未能較好地處理頭部姿態(tài)較大、表情夸張及存在嚴重遮擋的人臉圖片。另外,現(xiàn)有技術通常根據人臉檢測器的輸出結果對關鍵點定位進行初始化,這種初始化策略使得定位算法容易陷入局部最小值,從而在極端情況下甚至會致使算法完全失效。
技術實現(xiàn)要素:
基于以上問題,本發(fā)明的目的在于提出一種關鍵點定位方法,用于解決上述技術問題中的至少之一。
為實現(xiàn)上述目的,本發(fā)明提出一種關鍵點定位方法,包括以下步驟:
步驟s1、輸入圖片,采用預訓練的全卷積網絡獲取圖片中感興趣物體的每個關鍵點的響應圖;
步驟s2、基于每個關鍵點的響應圖,采用預訓練的點分布模型獲取每個關鍵點的初始定位;
步驟s3、基于加權約束均值漂移方法,迭代調整每個關鍵點的定位,最后得到每個關鍵點的最終定位。
進一步地,上述步驟s2具體包括以下步驟:
步驟s21、選擇每個關鍵點的響應圖中響應值最大的位置,作為每個關鍵點的粗略定位;
步驟s22、采用預訓練的點分布模型以最小重構誤差重構上述粗略定位,得到一定位形狀,并將定位形狀作為每個關鍵點的初始定位。
進一步地,上述步驟s3具體包括以下步驟:
步驟s31、提取每個關鍵點的響應圖中,以當前定位為中心的每個關鍵點的局部響應圖;
步驟s32、基于每個關鍵點的局部響應圖,計算置信度向量;
步驟s33、對每個關鍵點的局部響應圖進行歸一化,使每個關鍵點的局部響應圖的響應值求和為1;
步驟s34、基于歸一化后的局部響應圖計算均值漂移向量;
步驟s35、基于置信度向量和均值漂移向量,采用加權約束均值漂移方法計算點分布模型的參數(shù)更新量;
步驟s36、基于參數(shù)更新量,采用點分布模型更新所述每個關鍵點的定位;
步驟s37、判斷點分布模型的計算是否收斂或是否達到最大迭代次數(shù),是,則輸出每個關鍵點的最終定位,否,則重復步驟s31~s36。
進一步地,上述步驟s31中的每個關鍵點的局部響應圖的大小隨著迭代次數(shù)的增加而減小,直至其寬度小于預設值。
進一步地,上述置信度向量根據每個關鍵點的局部響應圖的響應情況計算;局部響應圖的響應值越大、響應位置越集中,置信度向量越大;置信度向量wi的表達式如下:
其中,sigmoid(·)為s型函數(shù),a、b為經驗參數(shù),ψi是第i個關鍵點對應的形狀索引坐標的集合,
進一步地,上述形狀索引坐標是局部響應圖在原響應圖中對應的坐標。
進一步地,上述均值漂移向量為通過對每個關鍵點的局部響應圖進行核密度估計計算得到;進行核密度估計時,高斯核函數(shù)的方差與每個關鍵點的局部響應圖的置信度成反比;均值漂移向量的表達式如下:
其中,ψi是第i個關鍵點對應的形狀索引坐標的集合,πyi是局部響應圖在坐標yi處的取值,
進一步地,上述采用加權約束均值漂移計算所述點分布模型的參數(shù)更新量的表達式如下:
δp=-(ρλ-1+jtwj)-1(ρλ-1pc-jtwv);
其中δp是點分布模型的參數(shù)更新量,ρ為平滑響應圖的自由參數(shù),a是點分布模型的參數(shù)p的高斯先驗分布的方差矩陣,j為點分布模型的雅可比矩陣,w=diag(wi)是以置信度向量wi為主對角元素的對角矩陣,pc表示當前的點分布模型參數(shù),v是均值漂移向量。
進一步地,上述全卷積網絡的回歸目標為每個關鍵點的理想響應圖;理想響應圖為一幅以關鍵點的真實定位為中心的二維高斯響應圖。
進一步地,上述點分布模型為每個關鍵點的定位形狀與模型參數(shù)的映射函數(shù);模型參數(shù)包括圖片中每個關鍵點定位形狀的仿射變換及非剛性變換參數(shù)。
進一步地,上述最大迭代次數(shù)根據實際情況調整,通??稍O置為10~20之間。
本發(fā)明提出的關鍵點定位方法,具有以下有益效果:
1、本發(fā)明使用全卷積網絡為每個關鍵點回歸獲取出其響應圖,并從這些響應圖中獲取關鍵點的初始定位。這種初始化策略較好地利用圖片的全局信息而使得算法不易受局部最小點的影響,因而能較好地應對物體的剛性及非剛性變換,例如人臉圖片中的頭部姿態(tài)及表情變化。
2、本發(fā)明采用點分布模型,能有效應對圖片中存在的遮擋情況;考慮到響應圖的置信度向量,并將其嵌入到加權約束均值漂移中,從而有機地融合全卷積網絡的表達能力和點分布模型的先驗推理能力。
3、本發(fā)明將數(shù)據驅動的表達能力及模型驅動的先驗推理能力有機地結合起來,使其能較好地應對圖片中因物體剛性及非剛性變換和遮擋引起的變化,極大地提高了關鍵點定位的魯棒性,為現(xiàn)實場景下的感興趣物體的關鍵點定位提供了一種新思路。
附圖說明
圖1是本發(fā)明提出的關鍵點定位方法的流程框圖;
圖2是本發(fā)明一實施例提出的關鍵點定位方法的流程圖;
圖3是本發(fā)明一實施例提出的關鍵點定位方法應用于人臉關鍵點定位的操作示意圖;
圖4(a)是本發(fā)明一實施例提出的關鍵點定位方法中關鍵點的響應圖示例;
圖4(b)是本發(fā)明一實施例提出的關鍵點定位方法中關鍵點的理想響應圖示例;
圖5是本發(fā)明一實施例提出的關鍵點定位方法中的輸入圖片、響應圖及各種定位的輸出示意圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實例,并參照附圖,對本發(fā)明進一步詳細說明。所描述的實施例子僅旨在便于對本發(fā)明的理解,而對其不起任何限定作用。
本發(fā)明將數(shù)據驅動的表達能力及模型驅動的先驗信息進行了有機的融合,其使用全卷積網絡為每個關鍵點回歸出其響應圖,并利用點分布模型從響應圖中獲取關鍵點的初始定位。此外,本發(fā)明將響應圖的置信度向量嵌入到加權約束均值漂移中,從而有機地融合全卷積網絡的表達能力和約束局部模型的先驗推理能力。對圖片中感興趣物體的非遮擋部分,對應關鍵點的定位結果更信賴于響應圖。而對圖片中感興趣物體的遮擋部分,對應關鍵點的定位結果更信賴于點分布模型的先驗信息。這樣,本發(fā)明能較好地應對圖片中因物體剛性及非剛性變換和遮擋引起的變化,極大地提高了關鍵點定位的魯棒性。
具體地,如圖1所示,本發(fā)明公開了一種關鍵點定位方法,包括如下三大步驟:
步驟s1、輸入圖片,采用預訓練的全卷積網絡獲取所述圖片中感興趣物體的每個關鍵點的響應圖;
步驟s2、基于每個關鍵點的響應圖,采用預訓練的點分布模型獲取每個關鍵點的初始定位;
步驟s3、基于加權約束均值漂移,迭代調整每個關鍵點的定位,得到每個關鍵點的最終定位。
具體地,全卷積網絡能有效學習感興趣物體的紋理信息,其輸出的響應圖對感興趣物體的縮放、旋轉和平移有較好的不變性,這使得算法能有效應對圖片中物體的剛性及非剛性變換(例如人臉圖片中因頭部姿態(tài)及表情引起的變化)。
具體地,利用點分布模型從響應圖中獲取關鍵點的初始定位,這種初始化策略能較好地利用圖片的全局信息而使得算法不易受局部最小點的影響,因此對圖片中感興趣物體的遮擋部分,對應關鍵點的定位結果更信賴于點分布模型的先驗信息,這樣,本發(fā)明能較好地應對圖片中遮擋引起的變化,并適用于不同的物體檢測器。
具體地,利用加權約束均值漂移方法,迭代地調整關鍵點定位。其中根據響應圖及當前定位計算的均值漂移向量指示著響應圖中似然概率密度高的方向,而響應圖的置信度作為對應均值漂移向量的權重。對于圖片中感興趣物體的遮擋部分,對應關鍵點響應圖的置信度較低,定位結果更信賴點分布模型約束下的推理結果。而對于圖片中感興趣物體的非遮擋部分,對應關鍵點響應圖的置信度較高,定位結果更信賴于響應圖給出的均值漂移結果。
優(yōu)選地,上述全卷積網絡的回歸目標為每個關鍵點的理想響應圖。
具體地,上述理想響應圖為一幅以關鍵點的真實定位為中心的二維高斯響應圖。
在一優(yōu)選實施例中,上述步驟s2具體包括以下步驟:
步驟s21、選擇每個關鍵點的響應圖中響應值最大的位置,作為每個關鍵點的粗略定位;
步驟s22、采用預訓練的點分布模型重構出一個逼近每個關鍵點的粗略定位的定位形狀,作為每個關鍵點的初始定位。
在另一優(yōu)選實施例中,上述步驟s3具體包括以下步驟:
步驟s31、提取每個關鍵點的響應圖中,以當前定位為中心的每個關鍵點的局部響應圖;
步驟s32、基于每個關鍵點的局部響應圖,計算置信度向量;
步驟s33、對每個關鍵點的局部響應圖進行歸一化,使每個關鍵點的局部響應圖的響應值求和為1;
步驟s34、基于歸一化后的局部響應圖計算均值漂移向量;
步驟s35、基于置信度向量和均值漂移向量,采用加權約束均值漂移計算點分布模型的參數(shù)更新量;
步驟s36、基于參數(shù)更新量,采用點分布模型更新每個關鍵點的定位;
步驟s37、判斷點分布模型的計算是否收斂或達到最大迭代次數(shù),是,則輸出每個關鍵點的最終定位,否,則重復步驟s31~s36。
最大迭代次數(shù)的預設值可根據實際情況調整,通??稍O置為10~20之間。
優(yōu)選地,上述步驟s31中的每個關鍵點的局部響應圖的大小隨著迭代次數(shù)的增加而減小,直至其寬度等于預設值。
優(yōu)選地,上述預設值的典型值為輸入圖片寬度的5%~15%。
優(yōu)選地,上述置信度向量根據每個關鍵點的局部響應圖的響應情況計算;局部響應圖的響應值越大、響應位置越集中,置信度向量越大。
上述置信度向量的表達式如下:
其中,sigmoid(·)為s型函數(shù),a、b為經驗參數(shù),ψi是第i個關鍵點對應的形狀索引坐標的集合,
具體地,上述形狀索引坐標是局部響應圖在原響應圖中對應的坐標。
優(yōu)選地,上述均值漂移向量為通過對每個關鍵點的局部響應圖進行核密度估計計算得到的;進行核密度估計時,高斯核函數(shù)的方差與每個關鍵點的局部響應圖的置信度成反比。
上述均值漂移向量的表達式如下:
其中,ψi是第i個關鍵點對應的形狀索引坐標集合,
上述采用加權約束均值漂移計算點分布模型的參數(shù)更新量的表達式如下:
δp=-(ρλ-1+jtwj)-1(ρλ-1pc-jtwv);(3)
其中δp是點分布模型的參數(shù)更新量,ρ為平滑響應圖的自由參數(shù),a是點分布模型的參數(shù)p的高斯先驗分布的方差矩陣,j為點分布模型的雅可比矩陣,w=diag(wi)是以置信度向量wi為主對角元素的對角矩陣,pc表示當前的點分布模型參數(shù),v是均值漂移向量。
優(yōu)選地,上述點分布模型為每個關鍵點的定位形狀與模型參數(shù)的映射函數(shù);所述模型參數(shù)包括所述圖片中每個關鍵點定位形狀的仿射變換及非剛性變換參數(shù)。
以下通過具體實施例對本發(fā)明提出的關鍵點定位方法進行詳細說明。
實施例
本實施例以人臉關鍵點定位為例,提出一種基于數(shù)據和模型混合驅動的關鍵點定位方法,適用于人臉關鍵點定位,能較好地應對現(xiàn)實場景中人臉圖片頭部姿態(tài)變化大、表情夸張及遮擋嚴重等情況,且適用于viola-jones人臉檢測器的各種變體。
下面以人臉關鍵點定位為例,參照附圖2~4,對本實施例提出的關鍵點定位方法的實施細節(jié)作進一步詳細說明:
步驟s1、將人臉圖片輸入到一個預訓練的全卷積網絡,從全卷積網絡的輸出端得到每個關鍵點的響應圖。如圖4(a)是一個關鍵點的響應圖示例;
該全卷積網絡由三個子網絡組成,分別為主網絡,融合網絡和上采樣網絡。主網絡、融合網絡及上采樣網絡的輸出均為每個關鍵點的響應圖,上采樣網絡輸出響應圖的尺寸與輸入圖片一致,而主網絡和融合網絡輸出響應圖的尺寸一樣且比輸入圖片小。主網絡最后一次池化后的特征層與輸出層的前一層特征層串連起來作為融合網絡的輸入。主網絡及融合網絡采用普通卷積核或膨脹卷積核或兩者的組合。將融合網絡的輸出作為上采樣網絡的輸入。上采樣網絡采用反卷積操作。
值得說明的是,上述全卷積網絡中的融合網絡能利用關鍵點間的空間依賴關系,使得輸出的響應圖更具判別性。而全卷積網絡中使用的膨脹卷積核相對普通卷積核更能合理地利用不同尺度下的紋理信息,并使得網絡模型更為精致。
上述全卷積網絡的訓練目標為
其中λ為網絡參數(shù),
需要說明的是,在本實施例中,訓練全卷積網絡時可先訓練主網絡和融合網絡,再使用其模型精調整個全卷積網絡。精調時,應使主網絡及融合網絡的學習率置為0。
步驟s2、基于每個關鍵點的響應圖,采用預訓練的點分布模型獲取每個關鍵點的初始定位,具體的包括以下步驟:
步驟s21、將每張響應圖的最大響應點位置作為其關鍵點的粗略定位;
步驟s22、將步驟s21得到的粗略定位投影到預訓練的點分布模型并得到關鍵點的初始定位。
本實施例所述的點分布模型表述如下:
其中x是關鍵點定位形狀,
其中,將粗略定位投影到點分布模型的具體步驟如下:
步驟s221、應用普魯克分析(procrustesanalysis),將粗略定位對齊到平均形狀
步驟s222、得到參數(shù)s、r、t和q后,應用點分布模型生成新的定位形狀作為關鍵點的初始定位。
步驟s3、基于加權約束均值漂移方法,迭代調整每個關鍵點的定位,得到每個關鍵點的最終定位;具體地包括以下步驟:
步驟s31、由當前定位獲得每個關鍵點的形狀索引坐標;
該形狀索引坐標指的是以關鍵點坐標為中心,大小為r×r的方格坐標集。這里所述的尺寸r隨著迭代次數(shù)增加而遞減,直至等于預設值,該預設值的典型值為輸入圖片寬度的8%;
步驟s32、根據形狀索引坐標從每個關鍵點的響應圖獲取其局部響應圖,對局部響應圖中索引坐標超出響應圖索引邊界的部分填0,計算局部響應圖的置信度向量;
其中第i張局部響應圖的置信度向量的表達式如公式(1)所示。公式(1)中的a和b取值分別為0.25和20。
步驟s33、對每個關鍵點的局部響應圖進行歸一化,使每個關鍵點的局部響應圖的響應值求和為1;
步驟s34、由局部響應圖計算其均值漂移向量;
其中計算第i張局部響應圖的均值漂移向量的表達式如公式(2)所示。
步驟s35、基于置信度向量和均值漂移向量,采用加權約束均值漂移計算點分布模型的參數(shù)更新量;
其中,參數(shù)更新量的表達式如公式(3)所示。
值得說明的是,本實施例中,加權約束均值漂移是基于約束關鍵點均值漂移(rlms)改進而來的,因此在對響應圖進行核密度估計(kde)時,對高斯核函數(shù)的方差用響應圖的置信度作調整,即如下式所示:
其中
值得說明的是,本實施例中,加權約束均值漂移可理解為交替地根據局部響應圖計算關鍵點的更新步長并對其施加點分布模型的約束,而響應圖的置信度較好地平衡了更新步長與點分布模型的關系,充分互補了數(shù)據驅動和模型驅動的優(yōu)勢。
步驟s36、應用參數(shù)更新,根據點分布模型得到關鍵點的更新定位;
步驟s37、判斷點分布模型的計算是否收斂或迭代次數(shù)達到預設值15,是,則輸出每個關鍵點的最終定位,否,則重復步驟s31~s36。
如圖5展示了若干輸入圖片及經過關鍵點定位方法各個步驟的輸出,其中第一列是輸入圖片,第二列是各關鍵點的響應圖與輸入圖片的疊加顯示,第三列是由響應圖中最大響應位置得到的粗略定位,第四列是將粗略定位投影到點分布模型得到的初始定位,第五列是使用加權約束均值漂移迭代得到的最終定位。從圖5中可看出,本實施例對現(xiàn)實場景中人臉圖片存在的頭部姿態(tài)變化大、表情夸張及遮擋嚴重等情況表現(xiàn)良好。
綜上所述,本實施例提出的關鍵點定位方法,其優(yōu)點在于充分融合了數(shù)據驅動的表達能力及模型驅動的先驗推理能力,與其他關鍵點定位方法相比,本實施例提出的方法對現(xiàn)實場景下的圖片中因感興趣物體的剛性及非剛性變換、遮擋及光照引起的變化情況表現(xiàn)更為魯棒、準確。
以上所述的具體實施例,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。