專利名稱:面部描述和識別的方法和裝置的制作方法
技術領域:
本發(fā)明涉及面部描述及識別的方法和裝置,本發(fā)明還涉及用于表示圖像,尤其是表示面部圖像中的面部的方法和裝置,以及對這種表示的使用。
背景技術:
記述傅立葉域中的面部識別的首篇文章可能是“Face Recognition inFourier Space”(published in Vision Interface′200038-44,Montreal,2000)。該文章記述了一種面部識別系統(tǒng),該面部識別系統(tǒng)使用基于從歸一化的面部圖像中計算的傅立葉譜的面部描述。通過在包含有處于所選擇頻率的傅立葉系數(shù)的特征向量之間尋找最接近的匹配來完成面部確認或識別。據(jù)報告,27個頻率系數(shù)的子集產(chǎn)生很好的結果(使用15個實系數(shù)和12個虛系數(shù))。這些系數(shù)的選擇是基于系數(shù)的相對方差;選擇顯示出最大方差的系數(shù)作為特征。該方法的實施十分受限;主要是因為對面部特征的選擇、后處理以及匹配的方法過于簡單化。
針對ISO/IEC 15938-3-AM1標準提出了一種使用傅立葉域特征、結合圖像域特征的面部表示的算法,在此將其稱為高級面部識別描述符(AFRD)。詳細的描述可以在標準ISO/IEC 15938-3/FPDAM1中找到,即Information Technology-Multimedia Content Description Interface-Part3Visual。不過,下面我們將簡要描述這種方法所基于的一些觀點,以幫助理解現(xiàn)有技術和本發(fā)明的區(qū)別。
AFRD包括四個面部特征要素·傅立葉特征·中心傅立葉特征·合成特征
·子區(qū)域合成特征因為只有基于傅立葉的表示是相關的(與上面的前兩個特征要素相對應),所以我們在此根據(jù)圖1更加詳細地對其進行描述。
由AFR方法使用的傅立葉域中的特征提取包括以下步驟1)將歸一化的面部圖像f分成4個和16個規(guī)則分圖像(所謂的多塊圖像f10,f11,..,f41,f12,...,f162);2)從所述歸一化面部圖像f中提取傅立葉譜(即實傅立葉系數(shù)和虛傅立葉系數(shù)),并且將其掃描入傅立葉譜向量x1f(步驟1);3)從所剪輯的歸一化面部圖像f10和多塊圖像f11,...,f41,f12,...,f162提取傅立葉系數(shù)的幅值,并且將其掃描入多塊傅立葉幅值向量x2f;4)使用PC-LDA映射ψ1f對在2)中計算的傅立葉譜向量x1f進行投影,隨后通過向量歸一化為單位向量y1f;5)使用PC-LDA映射ψ2f對在3)中通過多塊圖像計算的多塊傅立葉譜向量x2f進行投影,隨后通過向量歸一化為單位向量y2f;6)將在4)和5)中獲得的特征向量y1f,y2f組合(聯(lián)合(joining)),并且基于所聯(lián)合的特征向量來計算LDA投影ψ3f;7)對特征向量進行數(shù)字轉換(quantisation)。
將上述過程應用于整體歸一化的面部圖像以及面部圖像的中心部分,并且將傅立葉特征和中心傅立葉特征簡單地連接在一起,成為單個特征向量。
AFRD方法具有幾個局限。首先,該方法是一個很復雜的方案,主要是因為需要進行多次傅立葉變換(具體地必須計算44次變換)。其次,盡管執(zhí)行AFRD優(yōu)于其它的現(xiàn)有技術,但對于一些應用還是不夠充分。本發(fā)明的目的是要減小特征提取和匹配的復雜性,同時保持和改進整體性能。
EP1411459公開了一種提取特征向量的方法和裝置,該方法和裝置用于面部識別和檢索。提取并組合幾個特征向量,即1)對整個面部區(qū)域生成傅立葉特征向量(包括傅立葉譜和多塊傅立葉幅值)。通過在整個圖像上進行傅立葉變換來生成傅立葉譜分量。通過在整個圖像上進行傅立葉變換來計算多塊傅立葉幅值,并且通過將整個圖像分成4個和16個規(guī)則塊來獲得20個子圖像。然后使用PC-LDA映射來組合傅立葉系數(shù)的幅值。
2)以與傅立葉特征向量相似的方法,不同的是通過中心面部區(qū)域來生成中心傅立葉特征向量(包括傅立葉譜和幅值)。
3)針對整個面部區(qū)域生成整體強度特征向量。
4)針對預定數(shù)量的分面部區(qū)域生成局部強度特征向量。
5)通過將第一和第二歸一化向量與強度特征耦合來生成整體合成特征向量,而通過將第三和第四歸一化向量與局部強度特征向量耦合來生成中心合成特征向量。
美國專利申請0030169908記述了利用二次獨立分量分析(ICA)和主分量分析(PCA)來對面部進行識別和搜索的方法和裝置,其聲稱在各種照明條件下改進了識別性能。根據(jù)該方法和裝置,使用姿態(tài)和照明不變的面部描述符使得可以檢索人的面部,并可以鑒別特定個人。
美國專利申請0030165260記述了利用二次獨立分量分析(ICA)來對面部進行識別和搜索的方法和裝置。該方法進行如下操作對輸入的原始圖像進行PCA,并且通過從該原始圖像中去除高頻分量來生成低通濾波圖像,從原始圖像中減去該低通濾波圖像并獲得僅具有高頻分量的剩余圖像。對該剩余圖像再進行ICA,以生成與原始圖像相對應的特征信息。因為第一次ICA變換從灰度圖像中減去了獨立分量(即獨立基分量),因而所提出的二次ICA對于照明變化是穩(wěn)健的,因為應用該二次ICA來使殘余圖像與高通頻率分量相對應。
美國專利申請0030215115提出一種將面部圖像分成多個分面部圖像的面部識別裝置和方法。該裝置包括分面部分割單元,其將輸入的面部圖像分割成多個分面部圖像;面部描述符生成單元,其利用與各個分面部圖像相對應的變換矩陣來生成面部描述符,所述面部描述符是特征向量;登記面部描述符數(shù)據(jù)庫(DB),其存儲已登記的面部描述符;以及,鑒別單元,其通過對從面部描述符生成單元輸入的用于輸入面部圖像的面部描述符與已登記的面部描述符進行比較,并向各個分面部的比較結果提供與各個分面部相對應的預定權重,來鑒別所輸入的面部圖像。
美國專利申請0040073543記述了一種利用反復匹配的圖像檢索方法和裝置。這種反復匹配可以應用到基于任何方法的面部識別系統(tǒng)。該方法包括(a)通過檢索存儲在圖像數(shù)據(jù)庫中的N個基準圖像,對用戶所選的查詢圖像與基準圖像進行比較,來按匹配等級提取K個相似的圖像;以及(b)利用預定頻率對M個相似圖像(從K個相似圖像中選擇的、匹配等級較高的圖像)進行反復匹配,并重排該M個相似圖像的匹配等級。根據(jù)該方法和裝置,在通過使用由用戶選擇的查詢圖像而檢索的多個相似圖像中,選出匹配等級較高的M個相似圖像,并通過使用高匹配等級的相似圖像來對M個相似圖像進行反復匹配,從而按相似性順序重排這M個相似圖像并進行輸出。因此,可以大大提高匹配的準確性,并且可以使檢索工具由于反復檢索導致的負荷最小化。
因為前面所提到的,即使是在僅使用描述符的四域(Four-domain)特征(傅立葉部分)時,AFR描述符的提取也是非常復雜的。本文提出的方法使用具有改進性能的簡化傅立葉域方法。
發(fā)明內容
本發(fā)明的多個方面在所附的權利要求中作了闡述。
具體地,本發(fā)明的某些方面是1)使用在經(jīng)由D-LDA投影將整體和中心特征聯(lián)合并映射的傅立葉域中具有三個變換級的多級結構。(在現(xiàn)有技術中,在不經(jīng)過映射的情況下組合所聯(lián)合的傅立葉向量和中心傅立葉向量)。
2)面部分圖像的新集合,該集合與AFRD相比被簡化了并產(chǎn)生更好的性能。
3)使用稱為對偶空間LDA的更加適合的線性映射,其與AFRD中使用的PCA-LDA變換相對。
4)使用傅立葉譜中的不同的頻率分量。另外AFRD和本發(fā)明都使用水平方向低、垂直方向低的頻率分量,AFRD還掃描水平方向高、垂直方向低的分量,而所提出的發(fā)明則使用水平方向低、垂直方向高的分量。因此,所提出的本發(fā)明對垂直方向的面部特征更加敏感,這樣就具有較好的人之間的判別能力,并且對水平方向的面部局部誤差更不敏感。
本發(fā)明的另一方面提供一種面部識別方法、裝置和系統(tǒng),所使用的結構包括對基于頻率變換(應用于面部圖像及其多個部分)的系數(shù)進行的對偶空間線性判別分析(D-LDA)的多級組合。
與現(xiàn)有技術相比,這種新方法顯著地降低了提取復雜度,并且還提高了對面部姿態(tài)、照明條件以及其它因素的穩(wěn)健性,因此改進了識別或鑒別性能。
本發(fā)明的實施例將參照下面的附圖進行說明圖1是說明在應用于現(xiàn)有技術的AFR描述符中的傅立葉域中的特征提取的框圖;圖2示出了在優(yōu)選實施例中使用的多個分面部;圖3a示出了在優(yōu)選實施例中使用的頻率分量;以及圖3b示出了AFRD使用的頻率分量;圖4-9是說明根據(jù)本發(fā)明實施例的使用多級D-LDA結構的特征提取的框圖;圖4示出了在優(yōu)選實施例中使用的多級特征提取的總體方案,其中具體級在隨后的圖中示出;圖5示出了變換級;圖6示出了具有多個歸一化塊的初始判別級;圖7示出了具有多個可選的歸一化塊的中間判別級;圖8示出了最終判別級;圖9示出了利用優(yōu)選實施例的三個判別級的特征提取的優(yōu)選實施例結構;圖10更具體地說明了優(yōu)選實施例的結構。
具體實施例方式
表1對圖中的塊符號作了說明。基本組成部分是傅立葉變換(T,F(xiàn));以線性映射形式(具體地為Dual-LDA)的特征向量變換(判別變換)(D);歸一化(N)和數(shù)字轉換(Q)。如在結構框圖中所見,與用于AFR傅立葉域部分中的特征提取的42個圖像相對比,僅有6個輸入圖像f1,f1,1,f1,2,f2,f2,1,f2,2。圖2中示出了在優(yōu)選實施例中使用的這些圖像,并在下文中進行說明。請注意,所提出的方案使用3級判別結構,并且傅立葉面部特征是從在最終級DLDA映射中組合的整體和中心圖像區(qū)域提取的。
盡管僅在初始判別級(圖9)中示出了歸一化,但是也可以在隨后的判別級中進行歸一化。
表1-塊符號
在圖5-9和表1中示出了特征向量的組合,表示連接特征向量,即對于特征向量(V1)(V2),所組合的向量是(V1,V2)。
表2示出了傅立葉域中的哪些分量形成被組合的特征向量,參照圖3說明了圖像的傅立葉域。
如圖3和表2所示,僅使用傅立葉域中的某些區(qū)域。
通過參照說明書中提到的現(xiàn)有技術參考文獻,可以找到有關實現(xiàn)實施例步驟的進一步的背景詳述。
圖2示出了在優(yōu)選實施例中使用的多個分面部的細節(jié)。從圖片中可見,使用6個分量圖像f1-整個面部,f1.1-面部圖像的上部,f1.2-面部圖像的下部,f2-面部圖像的中心部,f2.1-中心部分的上部,以及f2.2-中心部分的下部。
求得這組面部圖像和多個分面部以給出優(yōu)良的結果(超過現(xiàn)有技術的性能),尤其是當與圖9所示的包括3級D-LDA變換的結構相組合時。
所提出的本發(fā)明利用例如根據(jù)LDA,PC-LDA,ICA和PCA方法獲得的任何線性映射而發(fā)揮功用,這些方法為本領域的技術人員公知。然而,通過使用對偶空間LDA(記載在以下文章中M.Z.Bober,K.Kucharskiand W.Skarbek“Face Recognition by Fisher and Scatter Linear DiscriminantAnalysis”;publicshed in Lecture Notes in Computer Science,PublisherSpringer-Verlag Heigelberg,Volume 2756/2003,Novermber 2003,pp.638-645 ISBN3-540-40730-8)。
通過如下偽代碼來概括對偶空間LCD算法的一個優(yōu)選實施例的實現(xiàn)DLDA算法輸入數(shù)據(jù)矩陣X=[x1,...,xL];N維、q、r維的xi;類成員向量I(I(i)=i如果從類j對象中提取xi)輸出經(jīng)修正的q、r,具有N行r列的D-LDA矩陣W步驟1.計算總平均值c和類形心(class centroid)c1,...,cJ2.將數(shù)據(jù)和形心分別歸一化為Y和Da.如果I(i)=i則yi:=(xi-cj)/Lj]]>(Lj-類j的實例數(shù)量),i=1,...,L,j=1,...,Jb.dj:=(cj-c)Lj/J]]>3.對獲得了所有非零奇異值(例如q0)的D執(zhí)行近似的SVDa.[U,Λ]:=asvd(D);//U具有q0列,Λ是對角的q0×q0矩陣b.Σ:=Λ;]]>//對Λ的每個元素取平方根4.修正q并選擇模型a.如果q>q0則q:=q0;b.U:=從U中取前q列;c.∑:=從∑中取前q列和q行;5.計算數(shù)據(jù)白化(whitening)矩陣A:=U∑-16.對Y進行白化操作yi:=Atyi,i=1,...,L7.對獲得了所有非零奇異值(例如r0)的D執(zhí)行近似的SVDa.[V,Λ′]:=asvd(Y);//V具有r0列,Λ′是對角的r0×r0矩陣b.Σ′:=Λ′;]]>//對Λ′的每個元素取平方根8.修正r并選擇模型a.如果r>r0則r:=r0;b.V:=從V中取走后r列;9.返回W:=AV。
用于特征選擇的頻率系數(shù)(實分量和虛分量以及幅值)在AFR方法和本發(fā)明方案中是不同的。參照圖3,在表2中總結了在每一級中用于特征選擇的系數(shù),圖3示出了圖像的傅立葉域的表示,具體來說,圖3(a)和3(b)示出了由該優(yōu)選實施例和AFRD(現(xiàn)有技術)使用的頻率分量所處的位置。如前面所提到的,AFRD和本發(fā)明的優(yōu)選實施例都使用了一組表示水平方向低、垂直方向低的頻率分量的系數(shù)。然而,盡管AFRD還掃描水平方向高、垂直方向低的分量,但所提出的本發(fā)明使用水平方向低、垂直方向高的分量,這些分量對垂直方向的面部特征更加敏感,從而導致較高的個人之間的判別能力。此外,該優(yōu)選實施例對水平方向的面部局部誤差更不敏感。
表2傅立葉域中特征選擇區(qū)域的左上和右下角
將面部匹配在兩個描述符之間的相似性測量進行計算,作為兩個特征向量之間差值的加權的L2模。也可以使用其它的面部匹配技術,諸如本領域的普通技術人員所公知的各種匹配技術。
對上述實施例的特征的可選擇執(zhí)行包括使用不同的方法來限定所述變換的各級的線性映射(例如使用ICA或PCA而不是LDA)使用不同的分面部使用不同的傅立葉系數(shù)使用不同的頻域變換(例如DCT變換)
在說明書中,圖像一詞表示整個圖像或圖像的一個區(qū)域,除了從上下文可以明顯看出來的部分。類似地,圖像或分圖像的區(qū)域可以表示是整個圖像。圖像包括幀或場,并涉及靜止圖像、或諸如電影或視頻之類的序列圖像中的一個圖像、或在相關的一組圖像中的一個圖像。
基于諸如圖像特征或區(qū)域的圖像內容將圖像分割成多個分圖像表示例如,分割成面部的上半部分和下半部分,或圍繞眼睛或鼻子,而不是簡單地提取中心面部區(qū)域。
該圖像可以是灰度級或彩色圖像,或是其它類型的多譜圖像,例如,IR、UV或其它電磁圖像、或者是聲像等。
本發(fā)明例如可以在計算機系統(tǒng)中通過合適的軟件和/或硬件改進來實現(xiàn)。本發(fā)明的多個方面可以以軟件和/或硬件形式提供,或者可以在專用應用程序裝置或專用應用程序模塊中提供,諸如芯片。在根據(jù)本發(fā)明一個實施例中,可以遠離其它組成部分而提供系統(tǒng)中的多個組成部分。例如,本發(fā)明可以以搜索引擎的形式實現(xiàn),該搜索引擎涉及存儲圖像和相關描述符的數(shù)據(jù)庫,其中例如通過互聯(lián)網(wǎng)遠端輸入查詢。可以將這些描述符以及與其相關的圖像單獨地存儲。
本發(fā)明例如可以用于確定一個圖像是否包含一個面部(例如人臉);利用訓練集來匹配一個面部圖像;或者例如使用不同的閾值來匹配或確定臉部的標識。本發(fā)明可以用在諸如安全系統(tǒng)之類的各種應用中。
本領域的普通技術人員還可以利用本發(fā)明來對在一特定統(tǒng)一類中的具有復雜變化特征的圖像對象進行匹配和識別,對本文所公開的技術進行改進,使得所選擇的參數(shù)與決定特征具體變化的特性最匹配,從而識別所考慮的對象類中的具體對象。
權利要求
1.一種表示圖像的方法,包括如下步驟(a)將圖像分割成多個分圖像;(b)將所述多個分圖像變換成頻域;(c)使用所述頻域中的經(jīng)變換的多個分圖像導出特征向量;(d)基于在步驟(c)中導出的特征向量,執(zhí)行至少三級判別變換。
2.一種表示包含有面部的圖像的方法,包括如下步驟(a)將面部圖像分割成多個分圖像;(b)將所述多個分圖像變換成頻域;(c)使用所述頻域中的經(jīng)變換的多個分圖像導出特征向量;以及(e)使用所述特征向量導出該圖像的表示,其中所述多個分圖像的分割是基于諸如多個面部特征或區(qū)域的圖像內容。
3.根據(jù)權利要求2所述的方法,包括基于所述特征向量執(zhí)行至少一級變換。
4.一種表示圖像的方法,包括如下步驟(a)將圖像分割成多個分圖像;(b)將所述多個分圖像變換成頻域;(c)使用所述頻域中的經(jīng)變換的多個分圖像導出特征向量;(f)通過使用對偶空間線性判別分析,基于所述特征向量執(zhí)行至少一級變換。
5.根據(jù)權利要求1或4所述的方法,用于表示面部圖像中的面部。
6.根據(jù)權利要求1、4或5所述的方法,其中所述分割成多個分圖像的步驟是基于諸如多個面部特征或區(qū)域的圖像內容。
7.根據(jù)權利要求1或3至6中的任何一項所述的方法,其中所述至少一級變換包括組合特征向量,并對所組合的特征向量進行變換以產(chǎn)生進一步的特征向量。
8.根據(jù)權利要求7所述的方法,其中至少三級判別變換的每一個包括組合特征向量,并對所組合的特征向量進行變換。
9.根據(jù)權利要求7或8所述的方法,其中對特征向量進行組合的級涉及對分圖像的多個實分量,多個虛分量和幅值中的至少兩個進行組合,并且/或者對不同圖像部分的多個實分量,多個虛分量和幅值中的至少兩個進行組合。
10.根據(jù)權利要求2、3、5或者6,或者引用權利要求5或6的權利要求7至9中的任一項所述的方法,其中所述多個分圖像包括或由以下圖像組成整個面部圖像、所述整個面部圖像的上半部分和下半部分、中心面部圖像以及所述中心面部圖像的上半部分和下半部分。
11.根據(jù)權利要求10所述的方法,包括導出用于所述整個面部圖像和所述中心面部圖像的虛分量和實分量的特征向量,導出用于所述整個面部圖像和中心面部圖像的上半部分的幅值的特征向量,導出用于所述整個面部圖像和中心面部圖像的下半部分的幅值的特征向量。
12.根據(jù)權利要求11所述的方法,其中第一級變換包括對如下各量進行組合和變換(i)用于所述整個面部圖像的實分量和虛分量;(ii)用于所述整個面部圖像的所述上半部分和下半部分的幅值;(iii)用于所述中心面部圖像的實分量和虛分量;以及(iv)用于所述中心面部圖像的上半部分和下半部分的幅值。
13.根據(jù)權利要求12所述的方法,其中第二級變換包括對以下各量進行組合和變換(v)(i)和(ii)的結果;以及(vi)(iii)和(iv)的結果。
14.根據(jù)權利要求13所述的方法,其中第三級變換包括以如下量進行組合和變換(vii)(v)和(vi)的結果。
15.根據(jù)前面任何一項權利要求所述的方法,其中所述至少一級變換涉及線性映射。
16.根據(jù)權利要求15所述的方法,其中所述線性映射是基于例如,主分量分析,線性判別分析,獨立分量分析,主分量線性判別分析,或對偶線性判別分析中的任何一種。
17.根據(jù)前面任何一項權利要求所述的方法,其中所述對頻域的變換涉及傅立葉變換。
18.根據(jù)權利要求17所述的方法,其中所述導出用于每個分圖像的特征向量的步驟包括選擇特定的預定傅立葉系數(shù)。
19.根據(jù)權利要求18所述的方法,包括選擇至少水平方向低/垂直方向高的頻率分量。
20.根據(jù)前面任何一項權利要求所述的方法,還包括歸一化和數(shù)字轉換。
21.一種表示圖像的方法,包括(a)將圖像分割成多個分圖像;(b)將所述多個分圖像變換成頻域;(c)使用所述經(jīng)變換的多個分圖像在頻域中導出特征向量;其中步驟(c)包括選擇至少水平方向低/垂直方向高的頻率分量。
22.一種通過使用前面任何一項權利要求所述的方法導出的描述符。
23.對如權利要求22所要求的描述符的使用,包括對所述描述符的發(fā)送、接收和存儲中的任何一種。
24.一種進行面部識別、檢測或分類的方法,包括對通過使用根據(jù)權利要求1至20中的任一項所述的方法導出的表示與所存儲的面部圖像的表示進行比較。
25.根據(jù)權利要求24所述的方法,其中所述所存儲的表示是通過使用根據(jù)權利要求1至20中的任一項所述的方法導出的。
26.一種適合于執(zhí)行如權利要求1至20、24或25中的任何一項所述的方法的裝置。
27.存儲如權利要求22中所要求的至少一個描述符的裝置。
28.一種計算機程序,用于執(zhí)行如權利要求1至20、24或25中的任何一項所述的方法。
29.一種計算機可讀存儲介質,其存儲如權利要求28所要求的計算機程序。
全文摘要
面部描述和識別的方法和裝置。一種面部識別方法、裝置和系統(tǒng),所使用的結構包括對基于頻率變換的系數(shù)進行的多次對偶空間線性判別分析(LDA),所述變換應用于面部圖像及其多個部分。與現(xiàn)有技術相比較,該新方法顯著降低了提取復雜度,并且還提高了對面部姿態(tài)、照明條件以及其它因素的穩(wěn)健性,因此提高了識別或鑒別性能。
文檔編號G06K9/00GK1700241SQ20051007092
公開日2005年11月23日 申請日期2005年5月17日 優(yōu)先權日2004年5月17日
發(fā)明者米羅斯瓦夫·博貝爾, 克日什托夫·庫哈爾斯基, 瓦迪斯瓦夫·斯卡爾貝克 申請人:三菱電機株式會社