本發(fā)明涉及人工智能技術(shù)領(lǐng)域,特別地,涉及一種基于自編碼器的自親緣關(guān)系識(shí)別方法。
背景技術(shù):
針對(duì)人臉圖像的研究一直是計(jì)算機(jī)視覺領(lǐng)域十分重要的內(nèi)容。人臉圖像的研究之所以重要,是因?yàn)槿四槺磉_(dá)了諸多個(gè)人信息,在社會(huì)生活的中有著特殊作用。在人工智能領(lǐng)域,模仿人類視覺完成對(duì)人臉的認(rèn)知已經(jīng)取得了豐碩的成果。如今在人臉識(shí)別、身份認(rèn)證等多個(gè)方面,計(jì)算機(jī)視覺已經(jīng)可以成功的替代人類。通過人臉圖像識(shí)別人物的親緣關(guān)系仍是新穎而富有挑戰(zhàn)的工作。
從人臉圖像中研究人物關(guān)系是近幾年興起的課題,近年來,相關(guān)的幾個(gè)數(shù)據(jù)庫和算法相繼被提出,然而大多數(shù)現(xiàn)有的數(shù)據(jù)庫都規(guī)模過小且標(biāo)準(zhǔn)不一。2014年召開了第一屆的親緣關(guān)系識(shí)別大賽,以統(tǒng)一的衡量體系來評(píng)估現(xiàn)下的一些方法,建立了兩個(gè)關(guān)于親緣關(guān)系的數(shù)據(jù)庫kinfacew-i和kinfacew-ii。
過去的五年在心理學(xué)、生物學(xué)和計(jì)算機(jī)視覺領(lǐng)域里,關(guān)于基于人臉圖像的人物關(guān)系識(shí)別主要分為兩個(gè)流派,一種是基于人工設(shè)計(jì)的描述子,另一種是基于相似性學(xué)習(xí)。對(duì)于基于描述子的方法來說,人們提取了一些重要的特征例如膚色、梯度直方圖、gabor梯度方向金字塔、顯著性信息、自相似特征和動(dòng)態(tài)表情等作為常用的人臉表征,還提出了一種基于空間金字塔的特征描述子作為人臉圖像的特征,改進(jìn)了的支撐向量機(jī)用以將兩個(gè)個(gè)體間的特征距離予以分類;在基于相似性學(xué)習(xí)的方法中,子空間和度量學(xué)習(xí)被用作來學(xué)習(xí)更好的特征空間來衡量面部樣本的相似性。具有代表性的算法包括:子空間學(xué)習(xí)和鄰近空間度量學(xué)習(xí),將多特征融合,學(xué)習(xí)一種區(qū)分性度量用以擴(kuò)大非親關(guān)系距離,縮小親緣關(guān)系距離,以達(dá)到識(shí)別目的。
然而,當(dāng)機(jī)器視覺試圖模擬人類視覺時(shí),往往難以模仿人類的社會(huì)經(jīng)驗(yàn),現(xiàn)如今的人工智能用以補(bǔ)足這個(gè)缺點(diǎn)的方式是大量的人工標(biāo)注數(shù)據(jù),以充分的訓(xùn)練來構(gòu)造更魯棒的模式識(shí)別算法。人物間的關(guān)系識(shí)別難度較普通人臉識(shí)別大上許多,比較對(duì)象從一種容貌和對(duì)應(yīng)的一個(gè)身份到一對(duì)人臉和某種關(guān)系,這種關(guān)系是經(jīng)過人類設(shè)定的。而當(dāng)一個(gè)人只擁有一個(gè)身份的同時(shí),關(guān)系與人物對(duì)、人物之間可以是多對(duì)多的復(fù)雜關(guān)系。
針對(duì)現(xiàn)有技術(shù)只能進(jìn)行人臉識(shí)別、無法進(jìn)行人物間關(guān)系識(shí)別的問題,目前尚未有有效的解決方案。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提出一種基于自編碼器的自親緣關(guān)系識(shí)別方法,能夠進(jìn)行人物間的自親緣關(guān)系識(shí)別。
基于上述目的,本發(fā)明提供的技術(shù)方案如下:
根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于自編碼器的自親緣關(guān)系識(shí)別方法,包括:
輸入人臉圖像并進(jìn)行預(yù)處理;
根據(jù)人臉圖像確定人物的身份特征;
構(gòu)建自編碼器并組成自編碼神經(jīng)網(wǎng)絡(luò);
在自編碼神經(jīng)網(wǎng)絡(luò)中對(duì)身份特征反復(fù)進(jìn)行前向傳播與反向傳播;
更新權(quán)重直到代價(jià)函數(shù)最小化并獲得身份特征的關(guān)聯(lián)特征;
根據(jù)關(guān)聯(lián)特征識(shí)別人臉圖像之間的自親緣關(guān)系。
在一些實(shí)施方式中,所述輸入人臉圖像并進(jìn)行預(yù)處理包括:
輸入待識(shí)別的人臉圖像;
對(duì)人臉圖像進(jìn)行人臉檢測與旋轉(zhuǎn)校正;
將人臉圖像剪切為指定尺寸的樣本。
在一些實(shí)施方式中,所述構(gòu)建自編碼器并組成自編碼神經(jīng)網(wǎng)絡(luò)包括:
根據(jù)稀疏因子構(gòu)建多層稀疏自編碼器;
根據(jù)逐層貪婪算法訓(xùn)練網(wǎng)絡(luò)初始值;
根據(jù)反向傳播算法調(diào)整網(wǎng)絡(luò)參數(shù)。
在一些實(shí)施方式中,所述根據(jù)稀疏因子構(gòu)建多層稀疏自編碼器包括:
根據(jù)指定的稀疏性參數(shù)與隱藏神經(jīng)元的平均活躍度確定稀疏因子;
根據(jù)稀疏因子與激活函數(shù)構(gòu)建多層稀疏自編碼器。
在一些實(shí)施方式中,所述根據(jù)逐層貪婪算法訓(xùn)練網(wǎng)絡(luò)初始值包括:
分層訓(xùn)練自編碼神經(jīng)網(wǎng)絡(luò)各層參數(shù);
將以前每一層訓(xùn)練好的輸出作為后一層的輸入;
根據(jù)訓(xùn)練好的網(wǎng)絡(luò)各層參數(shù)確定網(wǎng)絡(luò)初始值。
在一些實(shí)施方式中,所述根據(jù)反向傳播算法調(diào)整網(wǎng)絡(luò)參數(shù)包括:
根據(jù)數(shù)據(jù)集樣本在神經(jīng)網(wǎng)絡(luò)中前向傳播的結(jié)果確定代價(jià)函數(shù);
根據(jù)代價(jià)函數(shù)確定神經(jīng)網(wǎng)絡(luò)中每層每個(gè)神經(jīng)元的殘差;
根據(jù)每層每個(gè)神經(jīng)元的殘差計(jì)算代價(jià)函數(shù)對(duì)每層每個(gè)神經(jīng)元參數(shù)的偏導(dǎo);
根據(jù)代價(jià)函數(shù)對(duì)每層每個(gè)神經(jīng)元參數(shù)的偏導(dǎo)、網(wǎng)絡(luò)學(xué)習(xí)速率調(diào)整網(wǎng)絡(luò)參數(shù)。
在一些實(shí)施方式中,所述在自編碼神經(jīng)網(wǎng)絡(luò)中對(duì)身份特征反復(fù)進(jìn)行前向傳播與反向傳播包括:
從輸入層開始,根據(jù)網(wǎng)絡(luò)參數(shù)計(jì)算每一層的激活值;
從輸出層開始,根據(jù)兩身份特征計(jì)算一身份特征的輸出與另一身份特征的殘差;
根據(jù)一身份特征的輸出與另一身份特征的殘差計(jì)算代價(jià)函數(shù)對(duì)每層每個(gè)神經(jīng)元參數(shù)的偏導(dǎo);
根據(jù)代價(jià)函數(shù)對(duì)每層每個(gè)神經(jīng)元參數(shù)的偏導(dǎo),計(jì)算權(quán)重系數(shù)的變化量;
根據(jù)權(quán)重系數(shù)的變化量更新權(quán)重系數(shù)。
在一些實(shí)施方式中,所述人臉圖像之間的自親緣關(guān)系為同一人物。
在一些實(shí)施方式中,所述構(gòu)建自編碼神經(jīng)網(wǎng)絡(luò)為使用以年齡變化為主要線索的數(shù)據(jù)集樣本構(gòu)建自編碼神經(jīng)網(wǎng)絡(luò);根據(jù)人臉圖像確定人物的身份特征為人臉圖像屬于每一個(gè)年齡階段的概率。
從上面所述可以看出,本發(fā)明提供的技術(shù)方案通過使用輸入人臉圖像并進(jìn)行預(yù)處理、根據(jù)人臉圖像確定人物的身份特征、構(gòu)建自編碼器并組成自編碼神經(jīng)網(wǎng)絡(luò)、在自編碼神經(jīng)網(wǎng)絡(luò)中對(duì)身份特征反復(fù)進(jìn)行前向傳播與反向傳播、更新權(quán)重直到代價(jià)函數(shù)最小化并獲得身份特征的關(guān)聯(lián)特征、根據(jù)關(guān)聯(lián)特征識(shí)別人臉圖像之間的自親緣關(guān)系的技術(shù)手段,能夠進(jìn)行人物間的自親緣關(guān)系識(shí)別。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為根據(jù)本發(fā)明實(shí)施例的一種基于自編碼器的自親緣關(guān)系識(shí)別方法的流程圖;
圖2為根據(jù)本發(fā)明實(shí)施例的一種基于自編碼器的自親緣關(guān)系識(shí)別方法中,深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖;
圖3為根據(jù)本發(fā)明實(shí)施例的一種基于自編碼器的自親緣關(guān)系識(shí)別方法中,深度卷積神經(jīng)網(wǎng)絡(luò)中多卷積核的卷及區(qū)域圖;
圖4為根據(jù)本發(fā)明實(shí)施例的一種基于自編碼器的自親緣關(guān)系識(shí)別方法中,深度卷積神經(jīng)網(wǎng)絡(luò)的模型圖;
圖5為根據(jù)本發(fā)明實(shí)施例的一種基于自編碼器的自親緣關(guān)系識(shí)別方法中,深度卷積自編碼神經(jīng)網(wǎng)絡(luò)的總體結(jié)構(gòu)圖;
圖6為根據(jù)本發(fā)明實(shí)施例的一種基于自編碼器的自親緣關(guān)系識(shí)別方法中,深度身份卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖;
圖7為根據(jù)本發(fā)明實(shí)施例的一種基于自編碼器的自親緣關(guān)系識(shí)別方法中,深度自編碼網(wǎng)絡(luò)的結(jié)構(gòu)圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)一步進(jìn)行清楚、完整、詳細(xì)地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
基于上述目的,根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供了一種基于自編碼器的自親緣關(guān)系識(shí)別方法。
如圖1所示,根據(jù)本發(fā)明實(shí)施例提供的基于自編碼器的自親緣關(guān)系識(shí)別方法包括:
步驟s101,輸入人臉圖像并進(jìn)行預(yù)處理;
步驟s103,根據(jù)人臉圖像確定人物的身份特征;
步驟s105,構(gòu)建自編碼器并組成自編碼神經(jīng)網(wǎng)絡(luò);
步驟s107,在自編碼神經(jīng)網(wǎng)絡(luò)中對(duì)身份特征反復(fù)進(jìn)行前向傳播與反向傳播;
步驟s109,更新權(quán)重直到代價(jià)函數(shù)最小化并獲得身份特征的關(guān)聯(lián)特征;
步驟s111,根據(jù)關(guān)聯(lián)特征識(shí)別人臉圖像之間的自親緣關(guān)系。
在一些實(shí)施方式中,所述輸入人臉圖像并進(jìn)行預(yù)處理包括:
輸入待識(shí)別的人臉圖像;
對(duì)人臉圖像進(jìn)行人臉檢測與旋轉(zhuǎn)校正;
將人臉圖像剪切為指定尺寸的樣本。
在一些實(shí)施方式中,所述構(gòu)建自編碼器并組成自編碼神經(jīng)網(wǎng)絡(luò)包括:
根據(jù)稀疏因子構(gòu)建多層稀疏自編碼器;
根據(jù)逐層貪婪算法訓(xùn)練網(wǎng)絡(luò)初始值;
根據(jù)反向傳播算法調(diào)整網(wǎng)絡(luò)參數(shù)。
在一些實(shí)施方式中,所述根據(jù)稀疏因子構(gòu)建多層稀疏自編碼器包括:
根據(jù)指定的稀疏性參數(shù)與隱藏神經(jīng)元的平均活躍度確定稀疏因子;
根據(jù)稀疏因子與激活函數(shù)構(gòu)建多層稀疏自編碼器。
在一些實(shí)施方式中,所述根據(jù)逐層貪婪算法訓(xùn)練網(wǎng)絡(luò)初始值包括:
分層訓(xùn)練自編碼神經(jīng)網(wǎng)絡(luò)各層參數(shù);
將以前每一層訓(xùn)練好的輸出作為后一層的輸入;
根據(jù)訓(xùn)練好的網(wǎng)絡(luò)各層參數(shù)確定網(wǎng)絡(luò)初始值。
在一些實(shí)施方式中,所述根據(jù)反向傳播算法調(diào)整網(wǎng)絡(luò)參數(shù)包括:
根據(jù)數(shù)據(jù)集樣本在神經(jīng)網(wǎng)絡(luò)中前向傳播的結(jié)果確定代價(jià)函數(shù);
根據(jù)代價(jià)函數(shù)確定神經(jīng)網(wǎng)絡(luò)中每層每個(gè)神經(jīng)元的殘差;
根據(jù)每層每個(gè)神經(jīng)元的殘差計(jì)算代價(jià)函數(shù)對(duì)每層每個(gè)神經(jīng)元參數(shù)的偏導(dǎo);
根據(jù)代價(jià)函數(shù)對(duì)每層每個(gè)神經(jīng)元參數(shù)的偏導(dǎo)、網(wǎng)絡(luò)學(xué)習(xí)速率調(diào)整網(wǎng)絡(luò)參數(shù)。
在一些實(shí)施方式中,所述在自編碼神經(jīng)網(wǎng)絡(luò)中對(duì)身份特征反復(fù)進(jìn)行前向傳播與反向傳播包括:
從輸入層開始,根據(jù)網(wǎng)絡(luò)參數(shù)計(jì)算每一層的激活值;
從輸出層開始,根據(jù)兩身份特征計(jì)算一身份特征的輸出與另一身份特征的殘差;
根據(jù)一身份特征的輸出與另一身份特征的殘差計(jì)算代價(jià)函數(shù)對(duì)每層每個(gè)神經(jīng)元參數(shù)的偏導(dǎo);
根據(jù)代價(jià)函數(shù)對(duì)每層每個(gè)神經(jīng)元參數(shù)的偏導(dǎo),計(jì)算權(quán)重系數(shù)的變化量;
根據(jù)權(quán)重系數(shù)的變化量更新權(quán)重系數(shù)。
在一些實(shí)施方式中,所述人臉圖像之間的自親緣關(guān)系為同一人物。
在一些實(shí)施方式中,所述構(gòu)建自編碼神經(jīng)網(wǎng)絡(luò)為使用以年齡變化為主要線索的數(shù)據(jù)集樣本構(gòu)建自編碼神經(jīng)網(wǎng)絡(luò);根據(jù)人臉圖像確定人物的身份特征為人臉圖像屬于每一個(gè)年齡階段的概率。
綜上所述,借助于本發(fā)明上述的技術(shù)方案,通過使用輸入人臉圖像并進(jìn)行預(yù)處理、根據(jù)人臉圖像確定人物的身份特征、構(gòu)建自編碼器并組成自編碼神經(jīng)網(wǎng)絡(luò)、在自編碼神經(jīng)網(wǎng)絡(luò)中對(duì)身份特征反復(fù)進(jìn)行前向傳播與反向傳播、更新權(quán)重直到代價(jià)函數(shù)最小化并獲得身份特征的關(guān)聯(lián)特征、根據(jù)關(guān)聯(lián)特征識(shí)別人臉圖像之間的自親緣關(guān)系的技術(shù)手段,能夠進(jìn)行人物間的自親緣關(guān)系識(shí)別。
基于上述目的,根據(jù)本發(fā)明的第二個(gè)實(shí)施例,提供了一種基于自編碼器的自親緣關(guān)系識(shí)別方法。
機(jī)器學(xué)習(xí)的目的是要通過樣本學(xué)習(xí)到一個(gè)函數(shù),通過這個(gè)函數(shù)來預(yù)測將來的樣本值。要找到這個(gè)函數(shù)需要大量工作,建立起深度學(xué)習(xí)網(wǎng)絡(luò)是其中一種。在監(jiān)督學(xué)習(xí)中,假設(shè)有訓(xùn)練樣本集(xi,yi),那么神經(jīng)網(wǎng)絡(luò)可以用模型hw,b(x)來表示一種非線性函數(shù),其中(w,b)是用來擬合數(shù)據(jù)的參數(shù)。
神經(jīng)網(wǎng)絡(luò)由諸多神經(jīng)元組成,他們彼此相互連接,一個(gè)神經(jīng)元的輸出作為下一個(gè)神經(jīng)元的輸入。圖2示出的是一個(gè)典型的深度神經(jīng)網(wǎng)絡(luò)示意圖。神經(jīng)網(wǎng)絡(luò)的參數(shù)(w,b),其中
z(i+1)=w(i)x+b(i),a(i+1)=f(z(i+1))(1)
hw,b(x)=a(n)(2)
將輸入數(shù)據(jù)經(jīng)由網(wǎng)絡(luò)參數(shù)計(jì)算,輸出激活值的過程叫做前向傳播。其中函數(shù)f:
雖然深度網(wǎng)絡(luò)在理論上的簡潔性和較強(qiáng)學(xué)習(xí)特征能力是在十幾年前就被發(fā)掘的,但真正興起卻是近幾年的工作,原因是貪婪算法出現(xiàn)之前的網(wǎng)絡(luò)訓(xùn)練存在著巨大的困難。本發(fā)明實(shí)施例將分別闡述兩個(gè)對(duì)深度神經(jīng)網(wǎng)絡(luò)十分重要的算法,一個(gè)是逐層貪婪算法,另一個(gè)是反向傳導(dǎo)算法。
逐層貪婪算法:以往深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法是對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行隨機(jī)設(shè)定初始值,計(jì)算網(wǎng)絡(luò)激活值后根據(jù)網(wǎng)絡(luò)輸出與標(biāo)簽的差調(diào)整參數(shù),直至網(wǎng)絡(luò)收斂。這導(dǎo)致了以下的問題:隨機(jī)設(shè)定初始值會(huì)引發(fā)收斂到局部最小值問題,再者,用整體的誤差調(diào)整參數(shù)對(duì)低層級(jí)的參數(shù)影響太小,使得低層級(jí)的隱層難以有效的學(xué)習(xí)。逐層貪婪算法極大地改進(jìn)了深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法,使得網(wǎng)絡(luò)性能進(jìn)一步提高。逐層貪婪算法的主要思想為:分層訓(xùn)練各層參數(shù),每次只訓(xùn)練網(wǎng)絡(luò)中的一層。將已經(jīng)訓(xùn)練好的前
反向傳導(dǎo)算法:對(duì)數(shù)據(jù)集{(x1,y1)…(xm,ym)},通過樣本進(jìn)入神經(jīng)網(wǎng)絡(luò)進(jìn)行前向傳播得到結(jié)果y=hw,b(x)后,可以定義樣本(x,y)的代價(jià)函數(shù)為:
數(shù)據(jù)集整體的代價(jià)函數(shù)為:
公式中第二項(xiàng)的目的在于減小權(quán)重的幅度,防止過度擬合。
要求得參數(shù)(w,b),使得網(wǎng)絡(luò)的代價(jià)函數(shù)最小,不斷的迭代優(yōu)化中,可以使用梯度下降法不斷對(duì)參數(shù)進(jìn)行更新,其中α是學(xué)習(xí)速率:
反向傳導(dǎo)算法是用來計(jì)算偏導(dǎo)數(shù)
首先,神經(jīng)網(wǎng)絡(luò)進(jìn)行前向傳播,對(duì)每個(gè)j得到第lj層的輸出值。
對(duì)一個(gè)有著n層的網(wǎng)絡(luò)來說,計(jì)算第n層的每個(gè)神經(jīng)元i殘差:
這個(gè)殘差表示的是,第i個(gè)神經(jīng)元對(duì)最終輸出值與真實(shí)值的誤差的貢獻(xiàn)。
輸出層下的其它層l,都繼續(xù)計(jì)算殘差:
δl=(w(l))tδl+1·f′(z(l))(8)
反向傳導(dǎo)的意義正在以上兩步中體現(xiàn)了出來,即從后向前逐次求導(dǎo)。
計(jì)算偏導(dǎo)數(shù)值,用以更新權(quán)重。
計(jì)算得到偏導(dǎo)數(shù)后,即可根據(jù)公式(6)更新網(wǎng)絡(luò)權(quán)重,逐步減小j(w,b)的值,最終得以求解神經(jīng)網(wǎng)絡(luò)。
自動(dòng)編碼器(auto-encoder,ae)是一種無監(jiān)督的學(xué)習(xí)算法,深度自編碼器利用了圖3所示神經(jīng)網(wǎng)絡(luò)已有的深度結(jié)構(gòu),是一種用輸入重構(gòu)輸出的神經(jīng)網(wǎng)絡(luò)。即學(xué)習(xí)的函數(shù)為hw,b(x)≈x,網(wǎng)絡(luò)同樣也是應(yīng)用逐層貪婪算法訓(xùn)練,反向傳播算法調(diào)整網(wǎng)絡(luò)參數(shù)。輸入即會(huì)隨著層數(shù)不同而變換為不同的表示,這些表示就是原始輸入的特征。自編碼器為了重構(gòu)原始的輸入,就必須學(xué)習(xí)到數(shù)據(jù)中隱藏的重要特征。
一個(gè)恒等函數(shù)的學(xué)習(xí)看似簡單,但假如稀疏的限制就會(huì)迫使深度自編碼器學(xué)到有意義的特征。設(shè)定一個(gè)向量維度為n作為輸入數(shù)據(jù),網(wǎng)絡(luò)的一個(gè)隱藏層l2有m個(gè)隱藏神經(jīng)元。ae要完成的是輸入在域
加入稀疏性原則來自生物學(xué)上的啟發(fā),生物學(xué)上研究表明,人類視覺對(duì)某個(gè)輸入有所響應(yīng)時(shí)僅有一部分的神經(jīng)元是被激活的,其余大部分神經(jīng)元都是被抑制的。稀疏性原則的限制是要使得大部分的神經(jīng)元都是被抑制的。由于應(yīng)用了公式(3)中給出的sigmoid函數(shù)作為激活函數(shù),所以輸出接近0認(rèn)為是抑制狀態(tài),輸出靠近1是激活狀態(tài)。
要加入稀疏性原則,定義稀疏因子為:
其中
整個(gè)深度自編碼器的代價(jià)函數(shù)為:
其中,j(w,b)如之前公式(4)定義;β是控制稀疏性權(quán)重的參數(shù)。
卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetworks,cnn)受視覺系統(tǒng)的結(jié)構(gòu)啟發(fā)而產(chǎn)生,是目前解決圖像中模式識(shí)別問題效果最好的深度模型,在imagenet上取得了目前的最好成績。
卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到一種輸入到輸出的映射關(guān)系,這一過程中可以隱式的學(xué)習(xí)數(shù)據(jù)中暗藏的特征,而不需要任何精確數(shù)學(xué)表達(dá)式。卷積神經(jīng)網(wǎng)絡(luò)的諸多特點(diǎn)使其在圖像問題上有著巨大的優(yōu)勢。cnn的卷積神經(jīng)元設(shè)計(jì)使其十分適應(yīng)圖像數(shù)據(jù)的結(jié)構(gòu),局部感知和權(quán)值共享的特點(diǎn)減少了計(jì)算復(fù)雜度,也可以得到一定的空間不變性。而不斷加深的層次計(jì)算,也使得原始數(shù)據(jù)逐漸成為抽象程度更好的特征。
普通的神經(jīng)網(wǎng)絡(luò)采用的計(jì)算方式是全連接的方式,如圖3所示,全連接的運(yùn)算方式使得隱含層中每一個(gè)神經(jīng)元需要遍歷輸入圖像的每一個(gè)像素,這種方式會(huì)直接產(chǎn)生巨大的計(jì)算量。
為了降低參數(shù)數(shù)目,卷積神經(jīng)網(wǎng)絡(luò)采用了局部感受的方式。這與人類視覺系統(tǒng)對(duì)外界的認(rèn)知一致,首先感受局部的視野,綜合局部來掌握全局信息。實(shí)際的自然圖像中,由于圖像中有意義內(nèi)容的分布并非全局而是局部,并不需要每個(gè)神經(jīng)元對(duì)所有像素進(jìn)行感知。圖3所示的加入卷積核的卷積操作直接減少了所需計(jì)算的參數(shù)量。
進(jìn)一步減少參數(shù)的操作是權(quán)值共享。之所以可以應(yīng)用權(quán)值共享的思想,是因?yàn)樵谧匀粓D像中,并非所有的內(nèi)容都特征鮮明,不同部分的內(nèi)容可以共享同樣的特征,某一部分的特征可能在另一部分也是適用的。從統(tǒng)計(jì)學(xué)的角度來看,特征與其所在的位置無關(guān)。從某個(gè)位置學(xué)習(xí)到的特征可以作為一種探測器,當(dāng)這個(gè)特征與樣本的其它位置做卷積操作,得到的就是整個(gè)大尺寸圖像對(duì)于這個(gè)特征的不同激活值。
如果只設(shè)置一個(gè)大小為10*10的卷積核,會(huì)得到100個(gè)特征,這樣的特征提取并不充分。添加多個(gè)卷積核,如圖3所示,就可以學(xué)習(xí)到更多的特征,完成充分的特征提取。每個(gè)卷積核都會(huì)通過卷積操作生成新圖像,稱為特征圖(featuremap)。特征圖的個(gè)數(shù)與卷積核的個(gè)數(shù)一樣,如前文所說,將卷積核看作是探測器,特征圖實(shí)際上反映了原圖對(duì)某個(gè)卷積核所代表的特征的響應(yīng)。
卷積操作利用下面的公式進(jìn)行運(yùn)算:
其中,mj代表了要進(jìn)行卷積操作的第j個(gè)特征圖。
通過卷積操作獲取的特征降低了原始數(shù)據(jù)的維度,但這個(gè)數(shù)據(jù)依舊過于龐大,例如,輸入圖像是一個(gè)100×100的灰度圖像,如果定義了100個(gè)大小為10×10的卷積核,這一百個(gè)卷積核和圖像進(jìn)行卷積操作,得到的特征圖大小為:(100-10+1)×(100-10+1)=8,281。由于有100個(gè)特征,故所有特征圖的大小總共為828,100。如果將這樣的特征圖應(yīng)用于訓(xùn)練分類器等任務(wù),仍會(huì)面臨計(jì)算困難和過擬合(over-fitting)的現(xiàn)象。
之所以使用卷積操作和權(quán)值共享,依據(jù)的是圖像相對(duì)“靜態(tài)”的屬性,前文已經(jīng)默認(rèn)不同位置可能共享相同的特征,為了處理大尺寸圖像,可以對(duì)不同位置的特征進(jìn)行聚合統(tǒng)計(jì)。用某個(gè)區(qū)域的平均值(average-pooling)或者最大值(max-pooling)來替代該區(qū)域的值,這種操作叫做池化(pooling)。池化操作實(shí)際上完成了一種空間下采樣,不僅僅使得特征的維度有效降低,還會(huì)獲得一定的空間不變性。最大池化計(jì)算如下所示:
在公式中,ri表示了要進(jìn)行池化操作的區(qū)域,在一個(gè)步長為[m,n]的區(qū)域里,區(qū)域中最大值將成為這個(gè)區(qū)域的表征。
卷積核的二維設(shè)計(jì)和空間下采樣的操作,十分適用于圖像的數(shù)據(jù)特點(diǎn)。在圖像中的連續(xù)范圍里進(jìn)行池化,那所下采樣的特征實(shí)際上來自同一個(gè)卷積核,是對(duì)同一種特征的響應(yīng),這樣的池化使得特征具有了平移不變性。卷積神經(jīng)網(wǎng)絡(luò)在圖像處理方面有著獨(dú)特優(yōu)勢,總結(jié)上述特點(diǎn)如下:
第一,局部感受和權(quán)值共享的特殊結(jié)構(gòu)更適應(yīng)圖像數(shù)據(jù),布局模仿了生物神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)復(fù)雜性較其它神經(jīng)網(wǎng)絡(luò)模型大大降低。
第二,使用cnn所提取的特征來自對(duì)數(shù)據(jù)的學(xué)習(xí),而非人工設(shè)計(jì),使得特征更加高效,有通用性。cnn可以直接將圖像作為輸入,融合多層感知器,在提取圖像特征的同時(shí)直接處理分類、識(shí)別等問題。
第三,cnn網(wǎng)絡(luò)權(quán)值共享的特點(diǎn)保證了網(wǎng)絡(luò)運(yùn)算支持并行運(yùn)算,這一點(diǎn)大大提高了網(wǎng)絡(luò)訓(xùn)練的效率,在大數(shù)據(jù)時(shí)代極為重要。
在實(shí)際的cnn構(gòu)造中,常見的模型均使用多層卷積,卷積層和池化層交替進(jìn)行,最后加入全連接層。在cnn的底層,學(xué)到的特征通常是局部的,特征的全局化是隨著層級(jí)加深而進(jìn)行的,最終實(shí)現(xiàn)輸入數(shù)據(jù)的特征提取。
圖4示出的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是目前cnn的經(jīng)典結(jié)構(gòu),該模型采用2個(gè)gpu進(jìn)行并行計(jì)算。第一層、第二層、第四層和第五層的卷積層將參數(shù)分為了兩個(gè)部分,并行訓(xùn)練,相同的數(shù)據(jù)在兩個(gè)不同的gpu上進(jìn)行訓(xùn)練,得到的輸出直接連接作為下一層的輸入。
輸入是224×224×3大小的彩色圖像。
第一層為卷積層,共有96個(gè)大小為11×11的卷積核,每個(gè)gpu上48個(gè)。
第二層為池化層,采用最大池化方法(max-pooling),池化核大小為2×2。
第三層為卷積層,共有256個(gè)大小為5×5的卷積核,每個(gè)gpu上128個(gè)。
第四層為池化層,采用最大池化方法(max-pooling),池化核大小為2×2。
第五層為卷積層,共有384個(gè)大小為3×3的卷積核,每個(gè)gpu上192個(gè)。與上一層全連接。
第六層為卷積層,共有384個(gè)大小為3×3的卷積核,每個(gè)gpu上192個(gè)。這一層卷積層與上一層之間沒有加入池化層。
第七層為卷積層,共有256個(gè)大小為5×5的卷積核,每個(gè)gpu上128個(gè)。
第八層為池化層,采用最大池化方法(max-pooling),池化核大小為2×2。
第九層為全連接層:將第八層經(jīng)過池化的特征圖連接成一個(gè)4,096維的向量作為本層的輸入。
第十層為全連接層:輸入4,096維的向量到softmax層進(jìn)行softmax回歸,輸出的1,000維向量代表圖片屬于該類別的概率。
該模型在imagenetlsvrc中取得2012年的冠軍,top-5錯(cuò)誤率為15.3%。這個(gè)cnn網(wǎng)絡(luò)的訓(xùn)練集圖片數(shù)目約127萬,驗(yàn)證集約5萬,測試集約15萬。
如圖4所示的深度模型中,最后一層是softmax層。softmax回歸是一種在深度模型中常用的多分類器??梢酝ㄟ^衡量網(wǎng)絡(luò)輸出的標(biāo)簽與給定真實(shí)標(biāo)簽的錯(cuò)誤來進(jìn)行反向傳播。當(dāng)選取分類結(jié)果作為網(wǎng)絡(luò)的輸出時(shí),整個(gè)深度網(wǎng)絡(luò)可以被認(rèn)為是一個(gè)分類器。當(dāng)所需要的不是分類結(jié)果,而只是中間值,那么深度神經(jīng)網(wǎng)絡(luò)高層級(jí)的神經(jīng)元的激活值即是所需的特征。
事實(shí)上,深度神經(jīng)網(wǎng)絡(luò)的每一層都是原始數(shù)據(jù)的另一種特征,只是隨著網(wǎng)絡(luò)層級(jí)的加深,網(wǎng)絡(luò)普遍設(shè)計(jì)成越深越緊湊的結(jié)構(gòu),更深隱層的激活值往往更具有表達(dá)能力。
本發(fā)明實(shí)施例認(rèn)為,要想識(shí)別出兩人之間是否具有某種關(guān)系,一定要首先對(duì)兩個(gè)人物都有所了解。首先提取出分別代表兩個(gè)人物的身份特征,這一過程需要基于一個(gè)深度卷積自編碼網(wǎng)絡(luò),即圖中的deeepconvfidnet;在獲得各自的身份特征后,再對(duì)其之間的關(guān)系進(jìn)行學(xué)習(xí),這一過程基于一個(gè)深度自編碼器,即圖中的deepaefp。本發(fā)明將詳細(xì)給出需要構(gòu)建的兩種不同深度神經(jīng)網(wǎng)絡(luò)的構(gòu)造和訓(xùn)練過程,并將兩個(gè)網(wǎng)絡(luò)有效結(jié)合起來,用以提取關(guān)聯(lián)特征。
當(dāng)前的研究表明,雖然深度卷積網(wǎng)絡(luò)可以將提取特征和完成分類功能同時(shí)實(shí)現(xiàn),但對(duì)于人臉圖像來說,網(wǎng)絡(luò)本身對(duì)人臉識(shí)別的準(zhǔn)確率并不高,本發(fā)明應(yīng)用深度卷積網(wǎng)絡(luò)提取出代表個(gè)人身份的身份特征。在得到一對(duì)人物的身份特征后,利用多層自編碼器探尋兩者之間的關(guān)系。自編碼器的思想是利用輸入重構(gòu)目標(biāo)值,本發(fā)明旨在這個(gè)重構(gòu)過程中找到輸入和輸出的中間值來代表兩者的緊密關(guān)系。本發(fā)明整合了兩種深度網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)新的深度卷積自編碼神經(jīng)網(wǎng)絡(luò)(deepconvolutionalauto-encodernetworks,cnn-aenet),這個(gè)深度模型如圖5所示。本發(fā)明所設(shè)計(jì)的深度卷積自編碼神經(jīng)網(wǎng)絡(luò)通過輸入一對(duì)人物,最終學(xué)習(xí)出人物對(duì)之間的關(guān)聯(lián)項(xiàng)特征。
整個(gè)深度卷積自編碼神經(jīng)網(wǎng)絡(luò)定義為cnn-ae。在這個(gè)深度模型里,輸入圖像首先會(huì)經(jīng)過一個(gè)卷積神經(jīng)網(wǎng)絡(luò),定義為convfidnet(convolutionalnetworksforfacialid)。原始輸入經(jīng)過convfid網(wǎng)絡(luò)會(huì)被轉(zhuǎn)化更具有身份代表性的fid(facialid)。一對(duì)人物的fid將作為一個(gè)多層自編碼器的輸入,圖5所示的上方箭頭表示自編碼器前向運(yùn)算,下方箭頭表示自編碼網(wǎng)絡(luò)反向反饋。這個(gè)多層自編碼器被定義為ae-fp(auto-encoderforfacepairs)。網(wǎng)絡(luò)高層級(jí)的激活值會(huì)被取做關(guān)聯(lián)向量rf(relationalfeatures)。
將輸入人物對(duì)的人臉圖像(person1andperson2)定義為(p1,p2),本發(fā)明構(gòu)建的深度卷積自編碼網(wǎng)絡(luò)將完成以下學(xué)習(xí)過程:
為了得到有效的fid,必須構(gòu)建高效的convfid。圖6中給出了獲取身份特征的深度卷積神經(jīng)網(wǎng)絡(luò)convfid結(jié)構(gòu)。圖中展示了深度網(wǎng)絡(luò)的細(xì)節(jié),包括卷積核的大小和個(gè)數(shù)、卷積后特征圖的大小和個(gè)數(shù)、下采樣層的個(gè)數(shù)和下采樣步長。softmax回歸作為最后一層,用以將身份特征與身份標(biāo)簽匹配。最后一個(gè)卷積層是全連接層,輸入圖像最終將被網(wǎng)絡(luò)置為一個(gè)160維的向量,作為其身份特征。
為表示圖像的尺寸,本發(fā)明全篇使用x×y×c的形式表示,其中(x,y)代表圖像的尺寸,而c代表圖像的通道數(shù)。卷積核實(shí)際上也可以認(rèn)為是一個(gè)具有二維結(jié)構(gòu)的小圖像,故使用同樣的表達(dá)方法。
如圖6所示,輸入是一個(gè)大小為63×55×3的彩色圖像,這里需要注意,在訓(xùn)練中本發(fā)明為了得到更好的網(wǎng)絡(luò)效果,在訓(xùn)練時(shí)使用了不同尺寸的輸入,在其他尺度的圖像作為網(wǎng)絡(luò)輸入時(shí),經(jīng)過各層卷積核操作輸出的特征圖的大小會(huì)有所變化,會(huì)通過改變最后一層卷積層,使得全連接層的大小為160維的向量。
如圖6所示,輸入數(shù)據(jù)經(jīng)過convfid后會(huì)得到相應(yīng)的身份特征fid,一對(duì)fid即是aefp深度網(wǎng)絡(luò)的輸入值。圖7中給出了學(xué)習(xí)關(guān)聯(lián)特征的深度aefp網(wǎng)絡(luò)結(jié)構(gòu)以及網(wǎng)絡(luò)進(jìn)行前向傳播和反向反饋的方向。
組成多層自編碼神經(jīng)網(wǎng)絡(luò)的是多層稀疏自編碼器。如圖所示,本發(fā)明設(shè)計(jì)的aefpnet有3個(gè)隱層。在下面的公式中,a(i)代表第i層的激活值,當(dāng)i是第一層輸入層時(shí),a(i)即是輸入x。w(i,i+1)與b(i,i+1)均代表相鄰兩個(gè)隱層之間的權(quán)重與加權(quán)項(xiàng)。
z(i+1)=w(i,i+1)a(i)+b(i,i+1),a(i+1)=f(z(i+1))(14)
在訓(xùn)練網(wǎng)絡(luò)時(shí),加入深度學(xué)習(xí)中常用的策略:微調(diào)(fine-tune)?;舅枷胧菍⒄麄€(gè)自編碼神經(jīng)網(wǎng)絡(luò)當(dāng)做一個(gè)模型,每次迭代的時(shí)候?qū)W(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化。
微調(diào)網(wǎng)絡(luò)時(shí)按照如下的步驟進(jìn)行:
對(duì)網(wǎng)絡(luò)進(jìn)行一次前向傳播,從輸入層開始,計(jì)算公式(17),逐步獲得每一層的激活值。
對(duì)輸出層,用nl表示。令殘差
對(duì)接下來的低層次的各個(gè)隱層l,令:
δl=(w(l))tδl+1·f′(z(l))(16)
計(jì)算所需要的偏導(dǎo)數(shù):
計(jì)算權(quán)重系數(shù)的改變值:
更新權(quán)重:
重復(fù)上述步驟多次迭代來減小代價(jià)函數(shù)j(w,b;fid(1),fid(2))的值。
自編碼器是一種無監(jiān)督的深度學(xué)習(xí)構(gòu)造,本發(fā)明通過加深層數(shù)、精心設(shè)計(jì)神經(jīng)元的個(gè)數(shù)使得中間隱層的激活值可以再后續(xù)的驗(yàn)證中代表fid(1),fid(2)間的特征,稱之為關(guān)聯(lián)特征,這個(gè)關(guān)聯(lián)特征可以有效的代表在convfid中輸入的一對(duì)人物的關(guān)系。
fg-net是著名的年齡人臉圖像數(shù)據(jù)庫,這個(gè)數(shù)據(jù)庫提供了專門研究年齡在人臉圖像上的變化,數(shù)據(jù)庫總共包含了1,002張人臉圖像,針對(duì)82個(gè)不同人物,每一個(gè)人物大約有12張圖像。人臉的變化隨著年齡非常巨大。與其他人臉識(shí)別任務(wù)一樣,面臨著光照、姿態(tài)、表情、是否戴眼鏡、發(fā)色等的挑戰(zhàn)之外,還要克服巨大的面部特征差異。但這一研究非常具有現(xiàn)實(shí)意義,可以應(yīng)用于追捕逃犯、建立家譜、預(yù)測未來臉等。
fg-net數(shù)據(jù)庫有如下幾個(gè)特點(diǎn):
圖像對(duì)人物包含非常廣泛,包括了不同性別、種族、膚色,對(duì)人種的概括非常全面。
數(shù)據(jù)庫對(duì)年齡跨度并無硬性指標(biāo)。例如某些樣本最小的年齡從兩三歲,而某些樣本中的最小年紀(jì)就有二十歲。期間是平均每個(gè)人物的十二張圖片也并未按年齡間隔完全平均采集樣本。
數(shù)據(jù)庫中圖像質(zhì)量相差很大,有灰度圖像有彩色圖像,并且尺寸、大小、背景均有極大地跨度。
在驗(yàn)證本文算法時(shí),采取三倍交叉驗(yàn)證的方式。遍歷所有的親緣關(guān)系共5,779個(gè)自親緣關(guān)系為正樣本。構(gòu)建一個(gè)具有8,000對(duì)非自親緣關(guān)系的負(fù)樣本,在交叉驗(yàn)證中,每一份正樣本擁有1,926對(duì)人臉圖像,每一份負(fù)樣本擁有2,000對(duì)人臉圖像。
本文所提出的基于深度卷積神經(jīng)網(wǎng)絡(luò)的算法對(duì)識(shí)別親緣關(guān)系具有高于現(xiàn)有淺層算法的識(shí)別率。在自親緣關(guān)系中,fg-net數(shù)據(jù)庫相較于kinfacew-i和kinfacew-ii相比,難度加大的地方有以下幾點(diǎn):首先,圖像質(zhì)量參差不齊,較kfw數(shù)據(jù)有所下降。其次,人臉更為居中,圖像中含有了更多的包含背景、頭發(fā)等信息。再者,由于針對(duì)一個(gè)人物含有多個(gè)樣本,故自親緣問題包含了多個(gè)不同的關(guān)系。
在fg-net數(shù)據(jù)庫中,對(duì)每一個(gè)人物遍歷他所有的自親緣關(guān)系。即對(duì)于一個(gè)包含n張圖像的樣本,可以提取出
在自親緣問題中,年齡變化是人們最關(guān)心的問題。年齡變化實(shí)際是一個(gè)分類問題,在同一人物中根據(jù)年齡進(jìn)行分層和排序。本節(jié)將基于深度學(xué)習(xí)從人臉圖像中,對(duì)隨年齡變化引起的自親緣問題進(jìn)行分層,達(dá)成對(duì)輸入圖像年齡段的預(yù)測和排序。
首先,將年齡變化作為主要線索重新設(shè)置數(shù)據(jù)集。在fg-net中,一個(gè)人物最多包含18張照片,認(rèn)為是18個(gè)年齡階段。對(duì)所有18個(gè)年齡階段做分類,定義agen表示將年齡分為n段。如果n=3,即認(rèn)為每個(gè)人都有3種年齡,分別是老、中、青。具體到每一個(gè)人物的人臉圖像集,將數(shù)據(jù)分為3等份,分別標(biāo)記類別標(biāo)簽。如果n=15,則表示將年齡細(xì)分為15段,表示了更細(xì)致的年齡分層。
要根據(jù)年齡標(biāo)簽進(jìn)行分類,定義深度神經(jīng)網(wǎng)絡(luò)為age(w,b)。深度網(wǎng)絡(luò)的輸入是人臉圖像經(jīng)convfidnet計(jì)算過的身份特征fid,定義輸入為x,輸入的標(biāo)簽(y=agei)代表不同的年齡分層。fid是一個(gè)320維的向量,經(jīng)過三個(gè)隱層的計(jì)算后,被壓縮和提取成為一個(gè)40維的向量,進(jìn)入最后一層softmax回歸。softmax回歸求得的是這個(gè)輸入x分屬于每一個(gè)年齡階段的概率p(y=agej|x)。
softmax回歸由于其設(shè)計(jì)面向多分類問題,故在各種深度模型中被廣泛使用。softmax回歸模型是在多分類問題上重要的回歸模型,其實(shí)是邏輯回歸在多分類問題上的推廣。由于age(w,b)的目的是使得不同年齡階段的人臉圖像對(duì)應(yīng)輸出其年齡分層標(biāo)簽,故對(duì)數(shù)據(jù)的標(biāo)簽y值不止兩個(gè)。對(duì)于給定的一個(gè)輸入x,需要利用softmax回歸求得的是這個(gè)輸入x分屬于每一個(gè)類別的概率p(y=j(luò)|x)。對(duì)于有k個(gè)標(biāo)簽的數(shù)據(jù)來說,假設(shè)函數(shù)的輸出就是k個(gè)向量,每一維代表了對(duì)應(yīng)分類的估計(jì)概率。
假設(shè)函數(shù)的形式如下:
其中
將訓(xùn)練模型的參數(shù)θ使模型可以最小化如下的代價(jià)函數(shù):
公式中的{.}是一個(gè)示性函數(shù),括號(hào)中的表達(dá)值為真時(shí)函數(shù)值為1,否則為0。這個(gè)代價(jià)函數(shù)與邏輯回歸很相似,邏輯回歸解決的是二分類問題,softmax的代價(jià)函數(shù)對(duì)標(biāo)記的k個(gè)可能值進(jìn)行了累加。最終將輸x分類到j(luò)的可能性是:
在多分類問題中,softmax具有良好的性能,分類器對(duì)各個(gè)標(biāo)簽是互斥的。經(jīng)過神經(jīng)網(wǎng)絡(luò)agenet,輸入圖像將的到對(duì)年齡階段的分類。
人臉圖像通過已經(jīng)訓(xùn)練好的convfidnet的前向傳播可以獲取身份特征fid,在身份特征訓(xùn)練時(shí)的驗(yàn)證情況已知,身份特征對(duì)個(gè)體有很好的代表作用。為了觀察年齡所引起的成長和衰老過程在身份特征的表達(dá)中是否有所體現(xiàn),本文將利用統(tǒng)計(jì)學(xué)的方法進(jìn)行統(tǒng)計(jì)分析。選取fg-net中的一個(gè)人物。這個(gè)人物共有12張數(shù)據(jù)樣本,對(duì)這12張人臉圖像通過convfid計(jì)算后得到的160維的身份特征。
在某一些神經(jīng)元的響應(yīng)上,年紀(jì)較大的后三個(gè)直方圖與較為年輕的前三個(gè)有明顯的變化。另外神經(jīng)元具有極大的稀疏性。為了進(jìn)一步找出對(duì)年齡敏感的神經(jīng)元,定義為年齡響應(yīng)神經(jīng)元(ageactive),本文統(tǒng)計(jì)出10個(gè)按年齡排序時(shí),對(duì)每一個(gè)神經(jīng)元計(jì)算其方差,作為衡量每個(gè)神經(jīng)元針對(duì)年齡變化的離散程度。
其中m代表不同的人物,在fg-net數(shù)據(jù)庫中總共有82個(gè),故n=82。選取了20個(gè)對(duì)年齡變化最敏感的神經(jīng)元。我們用統(tǒng)計(jì)學(xué)的方法發(fā)現(xiàn)不同神經(jīng)元對(duì)年齡的響應(yīng)敏感程度不同。
綜上所述,借助于本發(fā)明上述的技術(shù)方案,通過使用輸入人臉圖像并進(jìn)行預(yù)處理、根據(jù)人臉圖像確定人物的身份特征、構(gòu)建自編碼器并組成自編碼神經(jīng)網(wǎng)絡(luò)、在自編碼神經(jīng)網(wǎng)絡(luò)中對(duì)身份特征反復(fù)進(jìn)行前向傳播與反向傳播、更新權(quán)重直到代價(jià)函數(shù)最小化并獲得身份特征的關(guān)聯(lián)特征、根據(jù)關(guān)聯(lián)特征識(shí)別人臉圖像之間的自親緣關(guān)系的技術(shù)手段,能夠進(jìn)行人物間的自親緣關(guān)系識(shí)別。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)硬件來完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(read-onlymemory,rom)或隨機(jī)存儲(chǔ)記憶體(randomaccessmemory,ram)等。所述計(jì)算機(jī)程序的實(shí)施例,可以達(dá)到與之對(duì)應(yīng)的前述任意方法實(shí)施例相同或者相類似的效果。
此外,典型地,本公開所述的裝置、設(shè)備等可為各種電子終端設(shè)備,例如手機(jī)、個(gè)人數(shù)字助理(pda)、平板電腦(pad)、智能電視等,也可以是大型終端設(shè)備,如服務(wù)器等,因此本公開的保護(hù)范圍不應(yīng)限定為某種特定類型的裝置、設(shè)備。本公開所述的客戶端可以是以電子硬件、計(jì)算機(jī)軟件或兩者的組合形式應(yīng)用于上述任意一種電子終端設(shè)備中。
此外,根據(jù)本公開的方法還可以被實(shí)現(xiàn)為由cpu執(zhí)行的計(jì)算機(jī)程序,該計(jì)算機(jī)程序可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中。在該計(jì)算機(jī)程序被cpu執(zhí)行時(shí),執(zhí)行本公開的方法中限定的上述功能。
此外,上述方法步驟以及系統(tǒng)單元也可以利用控制器以及用于存儲(chǔ)使得控制器實(shí)現(xiàn)上述步驟或單元功能的計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)實(shí)現(xiàn)。
此外,應(yīng)該明白的是,本發(fā)明所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(例如,存儲(chǔ)器)可以是易失性存儲(chǔ)器或非易失性存儲(chǔ)器,或者可以包括易失性存儲(chǔ)器和非易失性存儲(chǔ)器兩者。作為例子而非限制性的,非易失性存儲(chǔ)器可以包括只讀存儲(chǔ)器(rom)、可編程rom(prom)、電可編程rom(eprom)、電可擦寫可編程rom(eeprom)或快閃存儲(chǔ)器。易失性存儲(chǔ)器可以包括隨機(jī)存取存儲(chǔ)器(ram),該ram可以充當(dāng)外部高速緩存存儲(chǔ)器。作為例子而非限制性的,ram可以以多種形式獲得,比如同步ram(dram)、動(dòng)態(tài)ram(dram)、同步dram(sdram)、雙數(shù)據(jù)速率sdram(ddrsdram)、增強(qiáng)sdram(esdram)、同步鏈路dram(sldram)以及直接rambusram(drram)。所公開的方面的存儲(chǔ)設(shè)備意在包括但不限于這些和其它合適類型的存儲(chǔ)器。
本領(lǐng)域技術(shù)人員還將明白的是,結(jié)合這里的公開所描述的各種示例性邏輯塊、模塊、電路和算法步驟可以被實(shí)現(xiàn)為電子硬件、計(jì)算機(jī)軟件或兩者的組合。為了清楚地說明硬件和軟件的這種可互換性,已經(jīng)就各種示意性組件、方塊、模塊、電路和步驟的功能對(duì)其進(jìn)行了一般性的描述。這種功能是被實(shí)現(xiàn)為軟件還是被實(shí)現(xiàn)為硬件取決于具體應(yīng)用以及施加給整個(gè)系統(tǒng)的設(shè)計(jì)約束。本領(lǐng)域技術(shù)人員可以針對(duì)每種具體應(yīng)用以各種方式來實(shí)現(xiàn)所述的功能,但是這種實(shí)現(xiàn)決定不應(yīng)被解釋為導(dǎo)致脫離本公開的范圍。
結(jié)合這里的公開所描述的各種示例性邏輯塊、模塊和電路可以利用被設(shè)計(jì)成用于執(zhí)行這里所述功能的下列部件來實(shí)現(xiàn)或執(zhí)行:通用處理器、數(shù)字信號(hào)處理器(dsp)、專用集成電路(asic)、現(xiàn)場可編程門陣列(fpga)或其它可編程邏輯器件、分立門或晶體管邏輯、分立的硬件組件或者這些部件的任何組合。通用處理器可以是微處理器,但是可替換地,處理器可以是任何傳統(tǒng)處理器、控制器、微控制器或狀態(tài)機(jī)。處理器也可以被實(shí)現(xiàn)為計(jì)算設(shè)備的組合,例如,dsp和微處理器的組合、多個(gè)微處理器、一個(gè)或多個(gè)微處理器結(jié)合dsp核、或任何其它這種配置。
結(jié)合這里的公開所描述的方法或算法的步驟可以直接包含在硬件中、由處理器執(zhí)行的軟件模塊中或這兩者的組合中。軟件模塊可以駐留在ram存儲(chǔ)器、快閃存儲(chǔ)器、rom存儲(chǔ)器、eprom存儲(chǔ)器、eeprom存儲(chǔ)器、寄存器、硬盤、可移動(dòng)盤、cd-rom、或本領(lǐng)域已知的任何其它形式的存儲(chǔ)介質(zhì)中。示例性的存儲(chǔ)介質(zhì)被耦合到處理器,使得處理器能夠從該存儲(chǔ)介質(zhì)中讀取信息或向該存儲(chǔ)介質(zhì)寫入信息。在一個(gè)替換方案中,所述存儲(chǔ)介質(zhì)可以與處理器集成在一起。處理器和存儲(chǔ)介質(zhì)可以駐留在asic中。asic可以駐留在用戶終端中。在一個(gè)替換方案中,處理器和存儲(chǔ)介質(zhì)可以作為分立組件駐留在用戶終端中。
在一個(gè)或多個(gè)示例性設(shè)計(jì)中,所述功能可以在硬件、軟件、固件或其任意組合中實(shí)現(xiàn)。如果在軟件中實(shí)現(xiàn),則可以將所述功能作為一個(gè)或多個(gè)指令或代碼存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上或通過計(jì)算機(jī)可讀介質(zhì)來傳送。計(jì)算機(jī)可讀介質(zhì)包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì),該通信介質(zhì)包括有助于將計(jì)算機(jī)程序從一個(gè)位置傳送到另一個(gè)位置的任何介質(zhì)。存儲(chǔ)介質(zhì)可以是能夠被通用或?qū)S糜?jì)算機(jī)訪問的任何可用介質(zhì)。作為例子而非限制性的,該計(jì)算機(jī)可讀介質(zhì)可以包括ram、rom、eeprom、cd-rom或其它光盤存儲(chǔ)設(shè)備、磁盤存儲(chǔ)設(shè)備或其它磁性存儲(chǔ)設(shè)備,或者是可以用于攜帶或存儲(chǔ)形式為指令或數(shù)據(jù)結(jié)構(gòu)的所需程序代碼并且能夠被通用或?qū)S糜?jì)算機(jī)或者通用或?qū)S锰幚砥髟L問的任何其它介質(zhì)。此外,任何連接都可以適當(dāng)?shù)胤Q為計(jì)算機(jī)可讀介質(zhì)。例如,如果使用同軸線纜、光纖線纜、雙絞線、數(shù)字用戶線路(dsl)或諸如紅外線、無線電和微波的無線技術(shù)來從網(wǎng)站、服務(wù)器或其它遠(yuǎn)程源發(fā)送軟件,則上述同軸線纜、光纖線纜、雙絞線、dsl或諸如紅外先、無線電和微波的無線技術(shù)均包括在介質(zhì)的定義。如這里所使用的,磁盤和光盤包括壓縮盤(cd)、激光盤、光盤、數(shù)字多功能盤(dvd)、軟盤、藍(lán)光盤,其中磁盤通常磁性地再現(xiàn)數(shù)據(jù),而光盤利用激光光學(xué)地再現(xiàn)數(shù)據(jù)。上述內(nèi)容的組合也應(yīng)當(dāng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。
公開的示例性實(shí)施例,但是應(yīng)當(dāng)注公開的示例性實(shí)施例,但是應(yīng)當(dāng)注意,在不背離權(quán)利要求限定的本公開的范圍的前提下,可以進(jìn)行多種改變和修改。根據(jù)這里描述的公開實(shí)施例的方法權(quán)利要求的功能、步驟和/或動(dòng)作不需以任何特定順序執(zhí)行。此外,盡管本公開的元素可以以個(gè)體形式描述或要求,但是也可以設(shè)想多個(gè),除非明確限制為單數(shù)。
應(yīng)當(dāng)理解的是,在本發(fā)明中使用的,除非上下文清楚地支持例外情況,單數(shù)形式“一個(gè)”(“a”、“an”、“the”)旨在也包括復(fù)數(shù)形式。還應(yīng)當(dāng)理解的是,在本發(fā)明中使用的“和/或”是指包括一個(gè)或者一個(gè)以上相關(guān)聯(lián)地列出的項(xiàng)目的任意和所有可能組合。
上述本公開實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。