專利名稱:圖像處理方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像處理,尤其涉及對包含候選人臉區(qū)域的圖像進行處理的方法和裝置。
背景技術(shù):
有許多眾所周知的技術(shù)用于檢測圖像中感興趣的區(qū)域,如人臉或其他感興趣的要識別的目標(biāo)。人臉檢測是一個令人特別感興趣的領(lǐng)域,因為人臉識別不僅對于圖像處理,而且對于身份鑒別和安全,以及人機界面都有重要性。人機界面不僅識別人臉的位置,如果人臉存在的話,其還能識別特殊的人臉,并可以理解面部表情和姿勢。
近來,報道了許多關(guān)于自動人臉檢測的研究。參考資料例如包括1996年5th IEEE International Workshop on Robot and HumanCommunication,第341到第346頁中的“Face Detection andRotations Estimation using Color Information”和1999年6月IEEE Transaction on Pattern Analysis and Machine Intelligence卷21第6號中的“Face Detection from Color Images Using a FuzzyPattern Matching Method”。
所有檢測人臉的常規(guī)方法,都有它們的優(yōu)點和不足,這取決于處理圖像時所用的不同算法。一些方法雖然準(zhǔn)確但卻復(fù)雜而耗時。
重要的是,沒有一種檢測人臉的常規(guī)方法將檢測結(jié)果存儲到圖像中,這就使得如果需要對人臉區(qū)域進行特殊處理時,對圖像進行進一步的處理很不方便。
因此,在該技術(shù)領(lǐng)域需要開發(fā)出一種方法和裝置,其能夠在圖像中識別人臉區(qū)域并將識別過程的結(jié)果存儲起來,用于對圖像作進一步處理。
發(fā)明內(nèi)容
本發(fā)明的第一個目的在于提供一種圖像處理的方法和裝置,其將候選人臉區(qū)域的信息存儲到圖像中,用于以后對圖像進行處理。
本發(fā)明的第二個目的在于提供一種對其中已存儲了候選人臉區(qū)域信息的圖像進行處理的方法和裝置。
為實現(xiàn)上述目的,本發(fā)明提供了一種圖像處理方法,其特征在于包括如下步驟識別上述圖像中的候選人臉區(qū)域;計算上述候選人臉區(qū)域表示人臉的概率;以及將上述概率作為附加信息存儲到上述圖像中。
本發(fā)明還提供了一種圖像處理方法,其特征在于包括如下步驟識別上述圖像中的候選人臉區(qū)域;計算上述候選人臉區(qū)域表示人臉的概率;通過將上述概率與一個閾值相比較,判斷上述候選人臉區(qū)域是否表示人臉;以及將上述判斷步驟的結(jié)果作為附加信息存儲到上述圖像中。
本發(fā)明還提供了一種對其中已存儲了候選人臉區(qū)域概率的圖像進行處理的方法,其特征在于包括如下步驟從上述圖像中檢索出一個候選人臉區(qū)域的概率;通過將檢索出的概率與一個閾值相比較,判斷上述候選人臉區(qū)域是否表示人臉;以及如果經(jīng)判斷上述候選人臉區(qū)域表示人臉,則在上述候選人臉區(qū)域中執(zhí)行一種針對人臉優(yōu)化了的獨特的處理方法。
本發(fā)明還提供了一種在其中已存儲了至少一個候選人臉區(qū)域概率的圖像中識別人的方法,其特征在于包括如下步驟從上述圖像中檢索出一個候選人臉區(qū)域的概率;通過將檢索出的概率與一個閾值相比較,判斷上述候選人臉區(qū)域是否表示人臉;以及如果經(jīng)判斷上述候選人臉區(qū)域表示人臉,則僅根據(jù)上述候選人臉區(qū)域識別人。
本發(fā)明還提供了一種圖像處理裝置,其特征在于包括候選人臉區(qū)域選擇器,用于在上述圖像中識別一個候選人臉區(qū)域;概率計算器,用于計算上述候選人臉區(qū)域表示人臉的概率;以及概率記錄器,用于將上述概率作為附加信息寫入上述圖像中。
本發(fā)明還提供了一種圖像處理裝置,其特征在于包括候選人臉區(qū)域選擇器,用于在上述圖像中識別一個候選人臉區(qū)域;概率計算器,用于計算上述候選人臉區(qū)域表示人臉的概率;以及判斷單元,用于通過將上述概率與一個閾值相比較,判斷上述候選人臉區(qū)域是否表示人臉;以及判斷結(jié)果記錄器,用于將上述判斷單元的輸出作為附加信息寫入上述圖像中。
本發(fā)明還提供了一種對其中已存儲了至少一個候選人臉區(qū)域概率的圖像進行處理的裝置,其特征在于包括概率提取器,用于從待處理圖像的數(shù)據(jù)中提取一個候選人臉區(qū)域的概率;人臉處理單元,用于使用一種針對處理人臉優(yōu)化了的算法對數(shù)據(jù)進行處理;以及判斷和控制單元,用于通過將上述概率與一個閾值相比較,判斷上述候選人臉區(qū)域是否表示人臉,并且,如果經(jīng)判斷上述候選人臉區(qū)域表示人臉,則啟動上述人臉處理單元,以便處理上述候選人臉區(qū)域的數(shù)據(jù)。
按照本發(fā)明的方法,候選人臉區(qū)域的識別結(jié)果將被存儲到圖像中,便于對圖像作進一步處理。
常規(guī)的圖像處理裝置也可被訓(xùn)練為具有檢測人臉的能力。按照本發(fā)明的人臉檢測方法既精確又迅速。
另外,本發(fā)明的方法可方便地與用于檢測人臉的常規(guī)方法中的不同算法相結(jié)合,以便適應(yīng)不同的情況。
本發(fā)明的其他特點和優(yōu)點可結(jié)合附圖從下面通過舉例對本發(fā)明的原理進行解釋的優(yōu)選實施例的說明中變得更清楚。
圖1是對本發(fā)明的實施例中的圖像處理裝置進行訓(xùn)練的方法的流程圖。
圖2是按照本發(fā)明的圖像處理方法的流程圖,其中使用了已經(jīng)用圖1所示方法訓(xùn)練過的圖像處理裝置。
圖3是按照本發(fā)明的另一圖像處理方法的流程圖,其中使用了多個用圖1所示方法訓(xùn)練過的圖像處理裝置。
圖4是另一圖像處理方法的流程圖,在處理的圖像中已存儲了至少一個候選人臉區(qū)域的概率。
圖5是在圖像中識別人的方法的流程圖,在圖像中已存儲了至少一個候選人臉區(qū)域的概率。
圖6是按照本發(fā)明的圖像處理裝置的示意框圖。
圖7是按照本發(fā)明的另一圖像處理裝置的示意框圖。
圖8是對其中已存儲了至少一個候選人臉區(qū)域概率的圖像進行處理的裝置的示意框圖。
圖9表示一個訓(xùn)練序列,包括1000個訓(xùn)練樣本,即圖像區(qū)域A1、A2、A3、...A1000。
圖10表示兩個用作檢測的圖像區(qū)域B1、B2。
圖11示意性示出一個圖像處理系統(tǒng),可在其中實現(xiàn)圖1至5所示的每種方法。
具體實施例方式
下面將對本發(fā)明作出詳細(xì)說明。在下面的說明中,關(guān)于如何在圖像中識別一個候選人臉區(qū)域,可參照由同一申請人于2000年9月15日提出申請,并于2002年4月10日公開的中國專利申請第00127067.2號。該申請在此被引用作為參考。但是中國專利申請第00127067.2號中公開的識別候選人臉區(qū)域的方法不構(gòu)成對本發(fā)明的限制。任何在圖像中識別候選人臉區(qū)域的常規(guī)方法都可以在本發(fā)明中使用。
圖1是對本發(fā)明的實施例中的圖像處理裝置進行訓(xùn)練的方法的流程圖。流程開始于步驟101。在步驟102,輸入多個圖像區(qū)域。這些圖像區(qū)域可以來自一個圖像或多個圖像。這些圖像區(qū)域中的一些圖像區(qū)域表示真人臉。事先知道哪些圖像區(qū)域表示真人臉。這些圖像區(qū)域被稱作“訓(xùn)練樣本”。在圖1中,訓(xùn)練樣本的數(shù)目為N,其中N為大于1的整數(shù)。
在步驟103,對在步驟102中輸入的每個圖像區(qū)域,應(yīng)用一種預(yù)定算法,這樣就生成一個M維向量,其中M為等于或大于1的整數(shù)。在M取值為1時,預(yù)定算法為每個輸入的圖像區(qū)域生成一個標(biāo)量。
使用上述方法,將生成多個M維向量。生成的M維向量數(shù)目與N相同。由于事先知道哪一個訓(xùn)練樣本(即,圖像區(qū)域)表示真人臉,也就會知道哪一個M維向量對應(yīng)真人臉。
本發(fā)明并不關(guān)心預(yù)定算法的具體過程,只要該算法能為每個輸入的圖像區(qū)域生成一個M維向量即可。因此,預(yù)定算法可為處理圖像數(shù)據(jù)的任何常規(guī)方法。由預(yù)定算法生成的向量表示出在其上應(yīng)用了預(yù)定算法的圖像區(qū)域的一些特征。參照圖9,將在后面給出這些算法的兩個例子(見例一和例二)。
步驟103之后,將生成N個M維向量,它們分布在M維空間中。
步驟104到108,構(gòu)成一種將M維空間分成多個子空間的方式,子空間的數(shù)目可表示為 并且相同數(shù)目的M維向量分布在子空間中。分布在每個子空間中的M維向量的數(shù)目可表示為N/Πj=1MKj,]]>其中,K1、K2、...、KM是大于1的整數(shù)。
應(yīng)當(dāng)注意,將M維空間劃分為 個子空間有多種方式。步驟104到108只是表示出了一個例子,不構(gòu)成對本發(fā)明的限制。
在步驟104,值“1”被賦給變量i。
在步驟105,將分布在每個子空間中的所有M維向量,根據(jù)待排列的M維向量的第i個分量的值,沿第i個軸排列。
在步驟106,將每個子空間中的第i個軸分為Ki個區(qū)間,這樣M維空間就被相應(yīng)地分為 個子空間,并且分布在每個子空間中的M維向量的數(shù)目為N/Πj=1iKj.]]>在步驟107,變量i增加1。
在步驟108,判斷變量i是否大于M。如果步驟108的判斷結(jié)果為否定的,則流程進入步驟105;否則進入步驟109。
在步驟109,計算每個子空間的概率。在一個子空間中,首先對對應(yīng)于真人臉的M維向量的數(shù)目進行計數(shù)。然后,將分布在該子空間中的M維向量的總數(shù),即N/Πj=1MKj,]]>去除上述對應(yīng)于真人臉的M維向量的數(shù)目。相除的結(jié)果作為該子空間的概率。一個子空間的概率是指分布在該子空間中的向量對應(yīng)于真人臉的概率。
在可選步驟110,例如將所有子空間的位置和概率存儲到圖像處理裝置的內(nèi)存或外存中。
在步驟111,訓(xùn)練流程結(jié)束。
為了使圖1所示的流程更容易理解,下面舉出兩個例子。
例一參照圖9,其表示由1000個訓(xùn)練樣本,即圖像區(qū)域A1、A2、A3、...、A1000組成的訓(xùn)練序列。因此,圖1中的N取值為1000。
在圖9中,事先知道哪一個圖像區(qū)域表示真人臉,哪一個圖像區(qū)域不表示真人臉。例如,圖像區(qū)域A1、A5表示真人臉,圖像區(qū)域A2、A3、A4、A6不表示人臉。
例一中應(yīng)用的預(yù)定算法生成了一個標(biāo)量,即一個在M=1時的M維向量。作為例子,本例中使用的預(yù)定算法生成屬于膚色的面積對于整個圖像區(qū)域的比例。
以圖像區(qū)域A1為例。圖像區(qū)域A1中的像素總數(shù)為10000,其中屬于膚色的像素數(shù)為8000。因此,屬于膚色的面積對于整個圖像區(qū)域的比例為8000/10000=0.8。
當(dāng)將上面的預(yù)定算法分別應(yīng)用于圖像區(qū)域A1、A2、...、A1000時,將得到1000個標(biāo)量,稱為訓(xùn)練標(biāo)量,如下所示0.8,0.2,0.3,0.5,0.7,0.1...
然后,沿著實數(shù)軸,以升序排列上面的訓(xùn)練標(biāo)量,得到序列...,0.1,...,0.2,...,0.3,...,0.5,...,0.7,...,0.8,...
然后,將實數(shù)軸分成M個區(qū)間,使得每個區(qū)間包括相同數(shù)目的訓(xùn)練標(biāo)量。每個區(qū)間中的訓(xùn)練標(biāo)量的數(shù)目等于N/M。
假設(shè)M=10,實數(shù)軸將被分為10個區(qū)間(即,10個子空間,每個子空間是一維的),例如(-∞,0.11],(0.11,0.2],(0.2,0.32],(0.32,0.39],(0.39,0.45],(0.45,0.56],(0.56,0.66],(0.66,0.73],(0.73,0.85],
(0.85,+∞)區(qū)間在左邊界為開,右邊界為閉,或左邊界為閉,右邊界為開。在每個區(qū)間中,即一維子空間中,有N/M=1000/10=100個訓(xùn)練標(biāo)量。
然后,計算每個區(qū)間的概率。對于按上述方法分成的10個區(qū)間,在這10個區(qū)間中,與真人臉對應(yīng)的訓(xùn)練標(biāo)量的數(shù)目為5,11,16,28,32,44,52,61,77,43。
每個區(qū)間中訓(xùn)練標(biāo)量的總數(shù)為N/M=1000/10=100。
則這10個區(qū)間中每個區(qū)間的概率分別為0.05,0.11,0.16,0.28,0.32,0.44,0.52,0.61,0.77,0.43。
在最后一步,存儲10個區(qū)間的位置和概率。
例二圖9表示包括1000個訓(xùn)練樣本,即圖像區(qū)域A1、A2、A3、...、A1000的訓(xùn)練序列。在該例中,僅使用A1、A2、A3、...、A900。因此,圖1中的N取值900。
如上所述,事先知道哪些圖像區(qū)域表示真人臉,哪些圖像區(qū)域不表示真人臉。例如,圖像區(qū)域A1、A5表示真人臉,圖像區(qū)域A2、A3、A4、A6不表示人臉。
例二中應(yīng)用的預(yù)定算法生成了一個二維向量,即M=2時的M維向量。作為例子,本例中使用的預(yù)定算法生成一個環(huán)形區(qū)域中灰度分布梯度與基準(zhǔn)分布梯度之間的平均和加權(quán)角度。對該算法詳細(xì)的解釋,請參考中國專利申請第01132807.x號。
當(dāng)將該算法分別應(yīng)用于圖像區(qū)域A1、A2、A3、...、A900時,將得到下面的被稱為訓(xùn)練向量的二維向量(0.23,0.14),(-0.6,-0.71),(0.44,0.51),(0.52,0.74),(-0.16,-0.22),(0.58,0.46),...
然后,在第1個軸,即實數(shù)軸,將這900個二維向量按它們第1個分量的值以升序進行排列,得到下面的序列...,(-0.6,-0.71),...,(-0.16,-0.22),...,(0.23,0.14),...,(0.44,0.51),...,(0.52,0.74),...,(0.58,0.46),...
然后,將實數(shù)軸分成P個區(qū)間,相應(yīng)地將二維空間分成P個子空間,使得P個子空間中每個子空間將包括N/P個二維向量。
假設(shè)P=10,這10個區(qū)間為(-∞,-0.6],(-0.6,-0.33],(-0.33,-0.12],(-0.12,0.09],(0.09,0.15],(0.15,0.26],(0.26,0.44],(0.44,0.57],(0.57,0.73],(0.73,+∞)。
所有區(qū)間在左邊界為開,右邊界為閉,或左邊界為閉,右邊界為開。
在每個子空間中,有N/M=90個訓(xùn)練向量。
然后,在每個子空間中,將這些訓(xùn)練向量按它們第2個分量的值以升序沿第2個軸進行排列。
例如,在與區(qū)間(-0.12,0.09]對應(yīng)的子空間中,分布了下列訓(xùn)練向量...,(-0.1,0.2),...,(-0.05,0.01),...,(-0.03,0.3),...,(0.01,-0.1),...,(0.03,-0.22),...,(-0.06,-0.5),...
按第2個分量值,將這些向量進行排列,得到下面的序列...,(-0.06,-0.5),...,(0.03,-0.22),...,(0.01,-0.1),...,(-0.05,0.01),...,(-0.1,0.2),...,(-0.03,0.3),...
在每個子空間中,將第2個軸分成Q個區(qū)間,從而將每個子空間分成Q個子空間,使得最后得到的每個子空間包括相同數(shù)目的二維向量,其數(shù)目為N/(P*Q)。
假設(shè)Q=9,對于通過劃分實數(shù)軸獲得的每個子空間,將第2個數(shù)軸分為9個區(qū)間。
以與(-0.12,0.09]區(qū)間對應(yīng)的子空間為例,得到的9個區(qū)間為(-∞,-0.5],(-0.5,-0.35],(-0.35,-0.18],(-0.18,0.04],(0.04,0.17],(0.17,0.31],(0.31,0.54],(0.54,0.77],(0.77,+∞)。
所有區(qū)間在左邊界為開,右邊界為閉,或左邊界為閉,右邊界為開。
在每個子空間中,有N/(P*Q)=10個訓(xùn)練向量。
以上述方式,最終將二維空間分為下列(P*Q)=90個子空間((-∞,-0.6],(-∞,-0.53]),...,((-∞,-0.6],(0.71,+∞)),((-0.6,-0.33],(-∞,-0.58]),...,((-0.6,-0.33],(0.56,+∞)),...\((-0.12,0.09],(-∞,-0.5]),...,((-0.12,0.09],(0.04,0.17]),...,((-0.12,0.09],(0.77,+∞))...\((0.73,+∞),(-∞,-0.65]),...,((0.73,+∞),(0.61,+∞))在每個子空間中,分布了N/(P*Q)=10個訓(xùn)練向量。
下一步,計算每個子空間的概率。
假設(shè)與真人臉對應(yīng)的訓(xùn)練向量的數(shù)目分別為1,...,2,0,...,3,...,3,...,8,...,2,...,0,...,1。
由于分布在每個子空間中的訓(xùn)練向量的總數(shù)為N/(P*Q)=900/(10*9)=10,則這90個子空間的概率為0.1,...,0.2,0,...,0.3,...,0.3,...,0.8,...,0.2,...,0,...,0.1。
在最后一步,存儲90個子空間的位置和概率。
在最后一步,存儲90個子空間的位置和概率。
圖2是按照本發(fā)明的圖像處理方法的流程圖,其中使用了已經(jīng)用圖1所示方法訓(xùn)練過的圖像處理裝置。流程開始于步驟201。在步驟202輸入一個圖像。為了檢測待處理圖像中的人臉,在步驟203識別該圖像中的一個候選人臉區(qū)域。在步驟204,將上述候選人臉區(qū)域的數(shù)據(jù)輸入到已經(jīng)利用圖1所示方法訓(xùn)練過的圖像處理裝置中。
在步驟205,在圖像處理裝置中,將已經(jīng)在圖像處理裝置的訓(xùn)練過程中使用的預(yù)定算法應(yīng)用于候選人臉區(qū)域的數(shù)據(jù),并且生成候選人臉區(qū)域的M維向量。
在步驟206,在上述 個子空間中識別上述M維向量所在的一個子空間。這些 個子空間是在圖像處理裝置的訓(xùn)練過程中形成的,并且它們的信息(例如,位置和概率)已被存儲在圖像處理裝置中。
在步驟207,將識別出的子空間的概率值賦于(由步驟203所識別的)候選人臉區(qū)域。
以這種方式,在已經(jīng)利用圖1所示方法訓(xùn)練過的圖像處理裝置中,可以容易地得到每個候選人臉區(qū)域的概率。同時,由于 個子空間的概率已被存儲在圖像處理裝置中,所以在檢測人臉時可以極大地減少計算量。
應(yīng)當(dāng)理解,步驟204到207只是構(gòu)成本發(fā)明的一個實施例,而并不構(gòu)成對本發(fā)明的限制。任何常規(guī)的方法都可以采用,只要如在步驟203所識別的候選人臉區(qū)域表示人臉的概率可由這些常規(guī)方法計算出即可。
在步驟208,通過將候選人臉區(qū)域的概率與一個閾值相比較,判斷候選人臉區(qū)域是否表示人臉。
在步驟209,將判斷的結(jié)果作為附加信息存儲到圖像中,例如,以預(yù)定的格式存儲到圖像的頭標(biāo)文件或腳注文件中。在步驟209,也可以將候選人臉區(qū)域的識別信息作為補充附加信息存儲到圖像中,例如,以預(yù)定的格式存儲到圖像的頭標(biāo)文件或腳注文件中。
在步驟210,將候選人臉區(qū)域的概率作為附加信息存儲到圖像中,例如,以預(yù)定的格式存儲到圖像的頭標(biāo)文件或腳注文件中。在步驟210,也可以將候選人臉區(qū)域的識別信息作為補充附加信息存儲到圖像中,例如,以預(yù)定的格式存儲到圖像的頭標(biāo)文件或腳注文件中。
在步驟209和210,存儲附加信息和補充附加信息的預(yù)定格式并不重要,不構(gòu)成對本發(fā)明的限制。任何存儲數(shù)據(jù)的常規(guī)格式或數(shù)據(jù)結(jié)構(gòu)都可以使用。
已經(jīng)存儲了判斷結(jié)果或概率的圖像可被廣泛地應(yīng)用。圖4和圖5將說明這類圖像的某些應(yīng)用。
上述流程結(jié)束于步驟211。
例三現(xiàn)在參照圖10,其表示出兩個供檢測的圖像區(qū)域B1、B2。如圖10所示,圖像區(qū)域B1表示人臉,而圖像區(qū)域B2不表示人臉。下面的說明將展示出本發(fā)明的檢測方法的出色結(jié)果。
以例一使用的算法為例。
如果圖像區(qū)域B1被識別為一個候選人臉區(qū)域,該算法將生成一個標(biāo)量0.75,其落入?yún)^(qū)間(0.73,0.85]中。由于該區(qū)間的概率為0.77,則圖像區(qū)域B1的概率也取值為0.77。
如果圖像區(qū)域B2被識別為一個候選人臉區(qū)域,該算法將生成一個標(biāo)量0.31,其落入?yún)^(qū)間(0.2,0.32]中。由于該區(qū)間的概率為0.16,則圖像區(qū)域B2的概率也取值為0.16。
很明顯,實際上表示人臉的候選人臉區(qū)域的概率增加了(從0.75到0.77),并且實際上不表示人臉的候選人臉區(qū)域的概率降低了(從0.31到0.16)。即,本發(fā)明的檢測人臉的精確度提高了。
例四再參照圖10,其表示出兩個供檢測的圖像區(qū)域B1、B2。
以例二使用的算法為例。
如果圖像區(qū)域B1被識別為一個候選人臉區(qū)域,該算法將生成一個二維向量(0.05,0.11),其落入子空間((-0.12,0.09],(0.04,0.17])中。由于該子空間的概率為0.8,則圖像區(qū)域B1的概率也取值為0.8。
如果圖像區(qū)域B2被識別為一個候選人臉區(qū)域,該算法將生成一個二維向量(-0.71,-0.66),其落入子空間((-∞,-0.6],(-∞,-0.53])中。由于該子空間的概率為0.1,則圖像區(qū)域B2的概率也取值為0.1。
本例中使用了一種不同的算法,與例三相比,檢測人臉的精確度進一步提高。
圖3是按照本發(fā)明的另一圖像處理方法的流程圖,其中使用了多個已經(jīng)用圖1所示方法訓(xùn)練過的圖像處理裝置。
流程開始于步驟301。然后,在步驟302,輸入一個圖像的數(shù)據(jù)。在步驟303,在輸入的圖像中識別一個候選人臉區(qū)域。
在步驟304到306,使用多個已經(jīng)用圖1所示方法訓(xùn)練過的圖像處理裝置,獲得候選人臉區(qū)域的多個被稱為中間概率的概率。多個圖像處理裝置的數(shù)目例如為K。K為等于或大于1的整數(shù)。使用單個圖像處理裝置得到概率的詳細(xì)過程與圖2中所示的方法類似。
在不同的圖像處理裝置中可以使用不同的算法。但是,當(dāng)然,對于每一個圖像處理裝置而言,在圖像處理裝置的訓(xùn)練過程中使用的算法應(yīng)與獲得概率的詳細(xì)過程中使用的算法相同。
步驟304到306之后,得到K個中間概率p1,p2,...,pK。
在步驟307,根據(jù)上述中間概率p1,p2,...,pK,利用下面的等式,計算出候選人臉區(qū)域的概率
p=α(1-Πi=1K(1-pi))]]>其中α為小于但非常接近1的因子。
應(yīng)當(dāng)理解,步驟304到307僅構(gòu)成本發(fā)明的實施例,并不構(gòu)成對本發(fā)明的限制。可以采用任何常規(guī)方法,只要如在步驟203所識別的候選人臉區(qū)域表示人臉的概率可由這些常規(guī)方法計算出即可。
在步驟308,通過將候選人臉區(qū)域的概率與一個閾值相比較,判斷候選人臉區(qū)域是否表示人臉。
在步驟309,將判斷的結(jié)果作為附加信息存儲到圖像中,例如,以預(yù)定的格式存儲到圖像的頭標(biāo)文件或腳注文件中。在步驟309,也可將候選人臉區(qū)域的識別信息作為補充附加信息存儲到圖像中,例如,以預(yù)定的格式存儲到圖像的頭標(biāo)文件或腳注文件中。
在步驟310,將候選人臉區(qū)域的概率作為附加信息存儲到圖像中,例如,以預(yù)定的格式存儲到圖像的頭標(biāo)文件或腳注文件中。在步驟310,也可將候選人臉區(qū)域的識別信息作為補充附加信息存儲到圖像中,例如,以預(yù)定的格式存儲到圖像的頭標(biāo)文件或腳注文件中。
在步驟309和310,存儲附加信息和補充附加信息的預(yù)定格式并不重要,不構(gòu)成對本發(fā)明的限制??梢圆捎萌魏纬R?guī)格式或數(shù)據(jù)結(jié)構(gòu)來存儲數(shù)據(jù)。
已經(jīng)存儲了判斷結(jié)果或概率的圖像可被廣泛地應(yīng)用。圖4和圖5將說明這類圖像的某些應(yīng)用。
上述流程結(jié)束于步驟311。
例五再參照圖10,其表示出兩個供檢測的圖像區(qū)域B1、B2。
如上面例三和例四所述,圖像區(qū)域B1的概率(即,中間概率)為0.77和0.8。
令α為0.9。=0.86。
如上面例三和例四所述,圖像區(qū)域B2的概率(即,中間概率)為0.16和0.1。
令α為0.9。
圖像區(qū)域B2的概率經(jīng)計算為0.9*(1-(1-0.16)*(1-0.1))=0.22。
從圖3及其說明中看出,很明顯如果K和α均取值為1,則圖3中所示方法與圖2中所示方法相同。
圖4是另一圖像處理方法的流程圖,在處理的圖像中已存儲了至少一個候選人臉區(qū)域的概率。流程開始于步驟401。在步驟402,接收到一個在其中已存儲了至少一個候選人臉區(qū)域概率的圖像。
如上所述,概率信息可以作為附加信息以預(yù)定的格式存儲在圖像的頭標(biāo)文件或腳注文件中。
在步驟403,從圖像中(例如從圖像的頭標(biāo)文件或腳注文件中)檢索出一個候選人臉區(qū)域的概率。
在步驟404,將檢索出的概率與一個閾值相比較。在步驟405,根據(jù)步驟404比較的結(jié)果,判斷當(dāng)前的候選人臉區(qū)域是否表示人臉。上述閾值可以這樣的方式選取,即任何具有大于該閾值的概率的候選人臉區(qū)域均表示人臉。
如果步驟405的判斷結(jié)果為肯定,即候選人臉區(qū)域表示人臉,流程進入步驟406;否則,進入步驟407。
在步驟406,在候選人臉區(qū)域中執(zhí)行針對人臉優(yōu)化了的獨特的處理方法。該獨特的處理方法可由打印機執(zhí)行,例如,用于圖11中的打印機1113的打印機驅(qū)動程序或應(yīng)用程序,從而人臉將以改進的打印質(zhì)量打印。該獨特的處理方法也可由顯示器執(zhí)行,例如用于圖11中的顯示器1114的應(yīng)用程序,從而人臉將以高質(zhì)量顯示。
在步驟407,在候選人臉區(qū)域中執(zhí)行普通的處理方法。
在步驟408,對圖像中不包含候選人臉區(qū)域的其他部分進行處理。如果存在其他的候選人臉區(qū)域,并且它們的概率已包含在圖像中,則如果存在其他的候選人臉區(qū)域,并且它們的概率已包含在圖像中,則流程進入步驟403。
該流程在步驟409結(jié)束。
圖5是在圖像中識別人的方法的流程圖,在圖像中已存儲了至少一個候選人臉區(qū)域的概率。流程開始于步驟501。在步驟502,接收到一個在其中已存儲了至少一個候選人臉區(qū)域概率的圖像。如上所述,概率信息可以作為附加信息以預(yù)定的格式存儲在圖像的頭標(biāo)文件或腳注文件中。在步驟503,從圖像中(例如從圖像的頭標(biāo)文件或腳注文件中)檢索出一個候選人臉區(qū)域的概率。
在步驟504,將檢索出的概率與一個閾值相比較。在步驟505,根據(jù)步驟504比較的結(jié)果,判斷當(dāng)前的候選人臉區(qū)域是否表示人臉。上述閾值可以這樣的方式選取,即任何具有大于該閾值的概率的候選人臉區(qū)域均表示人臉。
如果步驟505的判斷結(jié)果為肯定,即候選人臉區(qū)域表示人臉,流程進入步驟506;否則,進入步驟507。
在步驟506,僅根據(jù)候選人臉區(qū)域?qū)θ诉M行識別,而在步驟507,通常根據(jù)整個圖像對人進行識別。容易理解,如果僅根據(jù)一個人的臉而不是整個圖像對人進行識別,則對該人的識別過程將極大加快,并將提高精確度。
該流程結(jié)束于步驟508。
圖6是按照本發(fā)明的圖像處理裝置的結(jié)構(gòu)圖。601代表圖像輸入單元,602代表候選人臉區(qū)域選擇器,603代表向量生成器,604代表概率選擇器,605代表概率存儲器,606代表概率記錄器,607代表圖像輸出單元。本圖中所示的該裝置中的關(guān)鍵部件為向量生成器603,概率選擇器604和概率存儲器605。
如圖6所示,虛線框住的部件組成了概率計算器。雖然圖中示出該概率計算器由向量生成器603、概率選擇器604和概率存儲器605組成,但是應(yīng)當(dāng)理解,可以使用任何常規(guī)部件組成概率計算器。即,向量生成器603、概率選擇器604和概率存儲器605不構(gòu)成對概率計算器的限制。重要的是,概率計算器將計算一個候選人臉區(qū)域表示人臉的概率。
圖6中所示裝置已經(jīng)利用圖1所示的方法訓(xùn)練過,并且所有子空間的位置和概率已存儲在概率存儲器605中。概率存儲器605可使用任何形式,如ROM、EPROM、RAM、硬盤等等。對子空間位置和概率的不同存儲介質(zhì)和不同存儲方案,不構(gòu)成對本發(fā)明的限制。
圖像輸入單元601接收圖像,并將其數(shù)據(jù)輸入到該裝置中用于處理。候選人臉區(qū)域選擇器602選擇輸入圖像中的一部分,并將該部分識別為候選人臉區(qū)域。向量生成器603對候選人臉區(qū)域的數(shù)據(jù)執(zhí)行在圖像處理裝置的訓(xùn)練過程中已使用過的預(yù)定算法,生成候選人臉區(qū)域的M維向量。
由于向量生成器603使用的算法和在圖像處理裝置的訓(xùn)練過程中使用的算法相同,所以M維向量必然屬于其位置和概率已經(jīng)存儲在概率存儲器605中的一個子空間。
概率選擇器604根據(jù)由向量生成器603生成的M維向量,從概率存儲器605中檢索出一個概率。
概率記錄器606將由概率選擇器604檢索出的概率作為附加信息寫入被處理的圖像中,例如,以預(yù)定的格式寫入其頭標(biāo)文件或腳注文件中。概率記錄器606也可將候選人臉區(qū)域的識別信息作為補充附加信息寫入圖像中,例如,以預(yù)定的格式寫入圖像的頭標(biāo)文件或腳注文件中。
存儲附加信息和補充附加信息的預(yù)定格式并不重要,不構(gòu)成對本發(fā)明的限制??梢圆捎萌魏纬R?guī)格式或數(shù)據(jù)結(jié)構(gòu)來存儲數(shù)據(jù)。
圖像輸出單元607輸出圖像,用于進一步的處理。
圖7是按照本發(fā)明的另一圖像處理裝置的結(jié)構(gòu)圖。701代表圖像輸入單元,702代表候選人臉區(qū)域選擇器,703代表向量生成器,704代表概率選擇器,705代表概率存儲器。這些部件的功能與圖6中所示的相應(yīng)部件的功能相同。
如圖7所示,虛線框住的部件組成了概率計算器。雖然圖中示出該概率計算器由向量生成器703、概率選擇器704和概率存儲器705組成,但是應(yīng)當(dāng)理解,可以使用任何常規(guī)部件組成概率計算器。即,向量生成器703、概率選擇器704和概率存儲器705不構(gòu)成對概率計算器的限制。重要的是,概率計算器將計算一個候選人臉區(qū)域表示人臉的概率。
706代表判斷單元,707代表判斷結(jié)果記錄器,708代表圖像輸出單元。判斷單元706通過將概率選擇器704檢索出的概率與一個閾值相比較,判斷候選人臉區(qū)域是否表示人臉。判斷結(jié)果記錄器707將判斷單元706輸出的判斷結(jié)果作為附加信息寫入圖像中,例如,以預(yù)定的格式寫入圖像的頭標(biāo)文件或腳注文件中。判斷結(jié)果記錄器707也可將候選人臉區(qū)域的識別信息作為圖像的補充附加信息寫入圖像中,例如,以預(yù)定的格式寫入圖像的頭標(biāo)文件或腳注文件中。
存儲附加信息和補充附加信息的預(yù)定格式并不重要,不構(gòu)成對本發(fā)明的限制??梢圆捎萌魏纬R?guī)格式或數(shù)據(jù)結(jié)構(gòu)存儲數(shù)據(jù)。
圖像輸出單元708輸出圖像,用于進一步處理。
圖8是對其中已存儲了至少一個候選人臉區(qū)域概率的圖像進行處理的裝置的示意框圖。801代表圖像輸入單元,802代表概率提取器,803代表判斷和控制單元,804代表圖像處理單元,805代表針對人臉的算法,806代表針對普通圖像的算法,807代表圖像輸出單元。
圖像輸入單元801接收圖像,并將其數(shù)據(jù)輸入該裝置中用于處理。在圖像中已經(jīng)存儲了至少一個候選人臉區(qū)域的概率,例如是在圖2中的步驟210或圖3中的步驟310中,由圖6中的概率記錄器606存儲的。
概率提取器802從圖像中,例如從圖像的頭標(biāo)文件或腳注文件中檢索出一個候選人臉區(qū)域的概率。如果候選人臉區(qū)域的識別信息已被存儲在圖像中,則概率提取器802也將從圖像中檢索出候選人臉區(qū)域的識別信息,該識別信息將由圖像處理單元804使用。
判斷和控制單元803將檢索到的概率與一個閾值相比較,根據(jù)比較的結(jié)果確定當(dāng)前候選人臉區(qū)域是否表示人臉,并據(jù)此控制圖像處理單元804。
圖像處理單元804在判斷和控制單元803的控制下,使用不同的算法,如針對人臉的算法805和針對普通圖像的算法806,處理由圖像輸入單元801輸入的圖像。如果經(jīng)判斷和控制單元803判斷,候選人臉區(qū)域代表人臉,則圖像處理單元804將使用針對人臉的算法805,對從圖像中檢索出的識別信息識別出的候選人臉區(qū)域進行處理,否則將使用針對普通圖像的算法806進行處理。圖像處理單元804例如為一種打印機或顯示器中的用于處理待打印或待顯示數(shù)據(jù)的部件,或者一種用于識別物體或人的設(shè)備。
圖像輸出單元807輸出圖像,用于進一步的處理。
圖11表示一個圖像處理系統(tǒng),圖1至5所示的每種方法都可以在該系統(tǒng)中實現(xiàn)。圖11中所示的圖像處理系統(tǒng)包括CPU(中央處理單元)1101,RAM(隨機存取存儲器)1102,ROM(只讀存儲器)1103,系統(tǒng)總線1104,HD(硬盤)控制器1105,鍵盤控制器1106,串行接口控制器1107,并行接口控制器1108,顯示器控制器1109,硬盤1110,鍵盤1111,照相機1112,打印機1113和顯示器1114。在這些部件中,與系統(tǒng)總線1104相連的有CPU1101、RAM1102、ROM1103、HD控制器1105、鍵盤控制器1106,串行接口控制器1107,并行接口控制器1108和顯示器控制器1109。硬盤1110與HD控制器1105相連,鍵盤1111與鍵盤控制器1106相連,照相機1112與串行接口控制器1107相連,打印機1113與并行接口控制器1108相連,以及顯示器1114與顯示器控制器1109相連。
圖11中每個部件的功能在本技術(shù)領(lǐng)域都是眾所周知的,并且圖11所示的體系結(jié)構(gòu)也是常規(guī)的。這種體系結(jié)構(gòu)不僅適用于個人計算機,而且適用于手持設(shè)備,諸如掌上電腦,PDA(個人數(shù)據(jù)助理),數(shù)碼照相機,等等。在不同的應(yīng)用中,圖11中所示的某些部件可以被省略。例如,如果整個系統(tǒng)是一個數(shù)碼照相機,并行接口控制器1108和打印機1113可以被省略,并且該系統(tǒng)可實現(xiàn)為單片機。如果應(yīng)用軟件被存儲在EPROM或其他非易失性存儲器中,HD控制器1105和硬盤1110可以被省略。
圖11中所示的整個系統(tǒng)由通常作為軟件存儲在硬盤1110中(或如上所述,存儲在EPROM或其他非易失性存儲器中)的計算機可讀指令控制。軟件也可從網(wǎng)絡(luò)(圖中未示出)下載?;蛘叽鎯υ谟脖P1110中,或者從網(wǎng)絡(luò)下載的軟件可被加載到RAM1102中,并被CPU1101執(zhí)行,以便完成由軟件確定的功能。
對于本領(lǐng)域內(nèi)的熟練技術(shù)人員,無需創(chuàng)造性勞動即可在圖1到圖5所示的一個或多個流程圖的基礎(chǔ)上,開發(fā)出一種或多種軟件。這樣開發(fā)出的軟件將執(zhí)行如圖1所示的訓(xùn)練圖像處理裝置的方法,執(zhí)行如圖2所示的處理圖像的方法,執(zhí)行如圖3所示的處理圖像的方法,執(zhí)行如圖4所示的處理圖像的方法,或者執(zhí)行如圖5所示的在圖像中識別人的方法。
在某種意義上,圖11中所示的圖像處理系統(tǒng),如果得到根據(jù)圖1到5所示的流程圖開發(fā)出的軟件的支持,可以實現(xiàn)如圖6到圖8所示的圖像處理裝置同樣的功能。
雖然前面參照了本發(fā)明的特定實施例,但是對于本領(lǐng)域內(nèi)的技術(shù)人員而言,應(yīng)當(dāng)理解,這些僅是舉例進行說明,可以對這些實施例作出許多改變而不脫離本發(fā)明的原理,本發(fā)明的范圍由所附權(quán)利要求書確定。
權(quán)利要求
1.一種圖像處理方法,其特征在于包括以下步驟識別上述圖像中的一個候選人臉區(qū)域;計算上述候選人臉區(qū)域表示人臉的概率;以及將上述概率作為附加信息存儲到上述圖像中。
2.根據(jù)權(quán)利要求1所述的圖像處理方法,其特征在于還包括將上述候選人臉區(qū)域的識別信息作為補充附加信息存儲到上述圖像中的步驟。
3.根據(jù)權(quán)利要求2所述的圖像處理方法,其特征在于上述附加信息和上述補充附加信息是以預(yù)定的格式存儲到上述圖像的頭標(biāo)文件或腳注文件中的。
4.一種圖像處理方法,其特征在于包括以下步驟識別上述圖像中的一個候選人臉區(qū)域;計算上述候選人臉區(qū)域表示人臉的概率;通過將上述概率與閾值相比較,判斷上述候選人臉區(qū)域是否表示人臉;以及將上述判斷步驟的結(jié)果作為附加信息存儲到上述圖像中。
5.根據(jù)權(quán)利要求4所述的圖像處理方法,其特征在于還包括將上述候選人臉區(qū)域的識別信息作為補充附加信息存儲到上述圖像中的步驟。
6.根據(jù)權(quán)利要求5所述的圖像處理方法,其特征在于上述附加信息和上述補充附加信息是以預(yù)定的格式存儲到上述圖像的頭標(biāo)文件或腳注文件中的。
7.根據(jù)權(quán)利要求1至6中任一權(quán)利要求所述的圖像處理方法,其特征在于上述計算概率的步驟是使用K個經(jīng)K種訓(xùn)練方法訓(xùn)練的圖像處理裝置完成的,其中K為大于1的整數(shù),且上述K個圖像處理裝置的每一個裝置采用一種相應(yīng)的預(yù)定算法以便產(chǎn)生M維向量,并且其特征在于上述概率計算步驟包括以下步驟通過在上述K個圖像處理裝置的每一個裝置中執(zhí)行下面的步驟得到上述候選人臉區(qū)域的K個中間概率,p1,p2...,pK;輸入上述候選人臉區(qū)域的數(shù)據(jù);通過將相應(yīng)的預(yù)定算法應(yīng)用于上述候選人臉區(qū)域的輸入數(shù)據(jù),產(chǎn)生上述候選人臉區(qū)域的一個M維向量;在 個子空間中識別上述候選人臉區(qū)域的上述M維向量所在的子空間;以及將識別出的子空間的概率值賦于上述候選人臉區(qū)域的概率;以及利用下列等式計算上述候選人臉區(qū)域的概率p=α(1-Πi=1K(1-pi))]]>其中α為小于1但是非常接近1的因子。
8.根據(jù)權(quán)利要求7所述的圖像處理方法,其特征在于上述K種訓(xùn)練方法中的每一種方法包括以下步驟將N個圖像區(qū)域中的數(shù)據(jù)輸入上述圖像處理裝置中,其中N為大于1的整數(shù),并且N個圖像區(qū)域中的某些圖像區(qū)域表示人臉;通過分別將上述相應(yīng)的預(yù)定算法應(yīng)用于上述N個圖像區(qū)域的每一個區(qū)域的輸入數(shù)據(jù),產(chǎn)生上述N個圖像區(qū)域的N個M維向量,其中N個M維向量的某些向量對應(yīng)人臉,并且該N個M維向量分布在一個M維空間中;將上述M維空間分為 個子空間,使得分布在每個子空間中的M維向量的數(shù)目相同并且等于N/Πj=1MKj,]]>其中K1,K2...,KM為大于1的整數(shù);通過將分布在每個子空間中的M維向量的總數(shù)去除分布在同一子空間并且對應(yīng)人臉的M維向量的數(shù)目,來計算每個子空間的概率;以及將上述 個子空間的位置和概率存儲到上述圖像處理裝置中。
9.根據(jù)權(quán)利要求8所述的圖像處理方法,其特征在于K等于1且α等于1。
10.一種圖像處理方法,在所述圖像中已存儲了至少一個候選人臉區(qū)域的概率,其特征在于包括以下步驟從上述圖像中檢索出一個候選人臉區(qū)域的概率;通過對檢索出的概率與閾值進行比較來判斷上述候選人臉區(qū)域是否表示人臉;以及如果經(jīng)判斷上述候選人臉區(qū)域表示人臉,則在上述候選人臉區(qū)域中執(zhí)行針對人臉優(yōu)化了的獨特的處理方法。
11.一種在圖像中識別人的方法,在所述圖像中已存儲了至少一個候選人臉區(qū)域的概率,其特征在于包括以下步驟從上述圖像中檢索出一個候選人臉區(qū)域的概率;通過對檢索出的概率與閾值進行比較來判斷上述候選人臉區(qū)域是否表示人臉;以及如果經(jīng)判斷上述候選人臉區(qū)域表示人臉,則僅根據(jù)上述候選人臉區(qū)域識別人。
12.一種圖像處理裝置,其特征在于包括候選人臉區(qū)域選取器,用于識別上述圖像中的一個候選人臉區(qū)域;概率計算器,用于計算上述候選人臉區(qū)域表示人臉的概率;以及概率記錄器,用于將上述概率作為附加信息寫入上述圖像中。
13.根據(jù)權(quán)利要求12所述的圖像處理裝置,其特征在于上述概率記錄器還將上述候選人臉區(qū)域的識別信息作為補充附加信息寫入上述圖像中。
14.根據(jù)權(quán)利要求13所述的圖像處理裝置,其特征在于上述附加信息和上述補充附加信息是以預(yù)定的格式寫入上述圖像的頭標(biāo)文件或腳注文件中的。
15.一種圖像處理裝置,其特征在于包括候選人臉區(qū)域選取器,用于識別上述圖像中的一個候選人臉區(qū)域;概率計算器,用于計算上述候選人臉區(qū)域表示人臉的概率;以及判斷單元,通過對上述概率與閾值進行比較來判斷上述候選人臉區(qū)域是否表示人臉;以及判斷結(jié)果記錄器,用于將上述判斷單元的輸出作為附加信息寫入上述圖像中。
16.根據(jù)權(quán)利要求15所述的圖像處理裝置,其特征在于上述判斷結(jié)果記錄器還將上述候選人臉區(qū)域的識別信息作為補充附加信息寫入上述圖像中。
17.根據(jù)權(quán)利要求16所述的圖像處理裝置,其特征在于上述附加信息和上述補充附加信息是以預(yù)定的格式寫入上述圖像的頭標(biāo)文件或腳注文件中的。
18.根據(jù)權(quán)利要求12至17中任一權(quán)利要求所述的圖像處理裝置,其特征在于上述概率計算器包括概率存儲器,用于存儲 個子空間的位置和概率,上述位置和概率是由該裝置相應(yīng)的訓(xùn)練方法產(chǎn)生的;向量產(chǎn)生器,通過將預(yù)定的算法應(yīng)用于待處理圖像中的候選人臉區(qū)域的數(shù)據(jù),生成上述候選人臉區(qū)域的M維向量,上述預(yù)定算法與在上述相應(yīng)的訓(xùn)練方法中使用的算法相同;以及概率選取器,用于根據(jù)上述M維向量,從上述概率存儲器中選取概率。
19.一種圖像處理裝置,在所述圖像中已存儲了至少一個候選人臉區(qū)域的概率,其特征在于包括概率提取器,用于從待處理圖像的數(shù)據(jù)中提取候選人臉區(qū)域的概率;人臉處理單元,用于使用針對處理人臉優(yōu)化了的算法處理數(shù)據(jù);以及判斷和控制單元,用于通過將上述概率與閾值相比較,判斷上述候選人臉區(qū)域是否表示人臉,并且如果經(jīng)判斷上述候選人臉區(qū)域表示人臉,則啟動上述人臉處理單元以處理上述候選人臉區(qū)域的數(shù)據(jù)。
全文摘要
本發(fā)明提供了一種圖像處理方法,其特征在于包括以下步驟識別上述圖像中的候選人臉區(qū)域;計算上述候選人臉區(qū)域表示人臉的概率;以及將上述概率作為附加信息存儲到上述圖像中。本發(fā)明還提供了一種圖像處理的方法,其特征在于包括以下步驟識別上述圖像中的候選人臉區(qū)域;計算上述候選人臉區(qū)域表示人臉的概率;通過將上述概率與閾值相比較,判斷上述候選人臉區(qū)域是否表示人臉;以及將上述判斷步驟的結(jié)果作為附加信息存儲到上述圖像中。按照這些方法,識別候選人臉區(qū)域的結(jié)果將被存儲在圖像中,這使得對圖像的進一步處理更容易。
文檔編號G06F17/00GK1508752SQ02155468
公開日2004年6月30日 申請日期2002年12月13日 優(yōu)先權(quán)日2002年12月13日
發(fā)明者陳新武, 石田良弘, 紀(jì)新, 王立冰, 弘 申請人:佳能株式會社