一種基于RGB?D相機(jī)和人臉識(shí)別的視障人士輔助方法與流程

文檔序號(hào)：12721117閱讀：456來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及模式分類，機(jī)器學(xué)習(xí)，人臉識(shí)別，視覺(jué)障礙人群輔助技術(shù)領(lǐng)域，尤其涉及一種基于RGB-D相機(jī)和人臉識(shí)別的視障人士輔助方法。

背景技術(shù)：

根據(jù)世界衛(wèi)生組織(WHO)的數(shù)據(jù)，全球有2.85億視障人士，其中有3900萬(wàn)是盲人。視障人士的日常生活中，識(shí)別周圍人的身份是突出的需求。在沒(méi)有其他設(shè)備的輔助下，視障人士只能通過(guò)辨別聲音來(lái)判斷，這在很大程度上受限于視障人士與其周圍人的熟悉程度，距離，環(huán)境嘈雜度等因素。傳統(tǒng)的人臉識(shí)別方法，一般采用彩色相機(jī)拍攝人臉圖像，并且需要保證正面的人臉和均勻的光照，這就要求采集人臉樣本的過(guò)程中，人臉盡量靠近相機(jī)并且正面面向相機(jī)。因此，設(shè)計(jì)一種專門面向視障人士的人臉識(shí)別系統(tǒng)，并使用簡(jiǎn)單自然的交互方式，將在很大程度上為視障人士提供方便。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的是利用RGB-D相機(jī)和人臉識(shí)別技術(shù)，解決視障人士的認(rèn)人和識(shí)人方面存在的不便利性，旨在為視障人士提供一種簡(jiǎn)單易用，交互方式人性化的輔助方法。

本發(fā)明通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)：一種基于RGB-D相機(jī)和人臉識(shí)別的視障人士輔助方法，具體步驟如下：(1)人臉的錄入和人臉數(shù)據(jù)庫(kù)的建立；(2)人臉圖像的矯正；(3)神經(jīng)網(wǎng)絡(luò)訓(xùn)練；(4)識(shí)別人臉；(5)3D立體聲用于識(shí)別結(jié)果的交互。

所述步驟(1)具體為：針對(duì)每一個(gè)識(shí)別對(duì)象，分別采集多幀連續(xù)的彩色圖像和深度圖像，進(jìn)一步通過(guò)RGB-D中的彩色圖像通道檢出人臉圖像，以第一幀中檢出的人臉圖像作為人臉跟蹤的初始化起點(diǎn)。若在第n幀中出現(xiàn)人臉漏檢或檢測(cè)錯(cuò)誤，則可以啟動(dòng)人臉跟蹤模式，檢出人臉的區(qū)域。錄入所有識(shí)別對(duì)象的人臉圖像數(shù)據(jù)和對(duì)應(yīng)的姓名，建立人臉數(shù)據(jù)庫(kù)。所述人臉跟蹤模式包括以下步驟：

第一，在第n-1幀的人臉檢出情況下，分別計(jì)算彩色圖和深度圖中的人臉區(qū)域的直方圖。彩色直方圖的橫坐標(biāo)為色度值，縱坐標(biāo)為每個(gè)色度值對(duì)應(yīng)的像素的個(gè)數(shù)；深度直方圖的橫坐標(biāo)為深度值，縱坐標(biāo)為每個(gè)深度值對(duì)應(yīng)的像素的個(gè)數(shù)。

第二，在第n幀中，計(jì)算彩色圖和深度圖的返向投影圖。彩色圖對(duì)應(yīng)的返向投影圖是將彩色圖中的每個(gè)像素點(diǎn)的色度值替換為彩色直方圖中對(duì)應(yīng)的縱坐標(biāo)而獲得；深度圖對(duì)應(yīng)的返向投影圖是將深度圖中的每個(gè)像素點(diǎn)的深度值替換為深度直方圖中對(duì)應(yīng)的縱坐標(biāo)而獲得。將兩個(gè)返向投影圖融合后，得到更符合實(shí)際情況的人臉區(qū)域預(yù)測(cè)。

第三，在融合后的返向投影圖中，應(yīng)用均值漂移算法(MeanShift)，，計(jì)算出第n幀人臉的區(qū)域。

所述步驟(2)具體為：

第一，調(diào)整人臉圖像的格式為統(tǒng)一大小，即100像素*100像素。

第二，檢出人臉區(qū)域的特征點(diǎn)，所述特征點(diǎn)包括臉頰輪廓、眼睛、眉毛、鼻子、嘴巴。所述特征點(diǎn)的檢出是基于彩色圖像的。

第三，以具有上述特征點(diǎn)的三維人臉模型為基準(zhǔn)坐標(biāo)系，根據(jù)彩色圖像中的特征點(diǎn)位置，對(duì)RGB-D進(jìn)行坐標(biāo)標(biāo)定，得到相機(jī)坐標(biāo)系。

第四，三維模型中的所有點(diǎn)被投影到所述相機(jī)坐標(biāo)系中。

第五，將彩色圖像投影到相機(jī)坐標(biāo)系下的三維模型中，賦予每個(gè)點(diǎn)的RGB信息；

第六，對(duì)賦值后的三維模型進(jìn)行正面投影，得到矯正后的人臉圖像。

第七，轉(zhuǎn)彩色人臉圖像為灰度圖，并做直方圖均衡化處理。

所述步驟(3)具體為：矯正得到的人臉圖像，大小統(tǒng)一為100像素*100像素，可以視作一個(gè)10000維的向量。然后通過(guò)主成分分析(PCA)進(jìn)行降維處理。

每一個(gè)人臉對(duì)應(yīng)一個(gè)由0和1組成的數(shù)據(jù)標(biāo)簽，第m個(gè)人臉的數(shù)據(jù)標(biāo)簽為[a₁,a₂,…a_m,…a_k]，其中，a_m＝1，其余為0，k為人臉總數(shù)；以降維后的數(shù)據(jù)作為輸入，數(shù)據(jù)標(biāo)簽作為輸出，用反向傳播算法(BP)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。

進(jìn)一步地，通過(guò)以下方法進(jìn)行識(shí)別：

采集待識(shí)別的人臉圖像，經(jīng)過(guò)所述矯正、降維處理，再輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)，在輸出向量的各個(gè)元素中，若只有一個(gè)是大于所述閾值(0.5)的，則判定輸入數(shù)據(jù)所屬的類別為此向量元素對(duì)應(yīng)的類；若有多于一個(gè)元素的值大于閾值或所有元素的值都小于閾值，則判定輸入數(shù)據(jù)不屬于訓(xùn)練時(shí)的數(shù)據(jù)集，在人臉識(shí)別中即為陌生人。

進(jìn)一步地，通過(guò)以下方法交互：

根據(jù)步驟(4)識(shí)別的人臉，獲得其姓名，進(jìn)一步根據(jù)深度圖可以獲知其方位和距離；以3D聲音播放姓名給使用者，3D聲音的角度用于指示人臉的方位，3D聲音的大小用于指示人臉的距離。

本發(fā)明的有益效果在于：

1.本發(fā)明為視障人士提供了一種識(shí)別其周圍人身份信息的方法。

2.本發(fā)明提出的人臉跟蹤方法能提高人臉檢出率，并且能自動(dòng)標(biāo)記圖像的標(biāo)簽。

3.本發(fā)明提出的人臉圖像矯正方法能去除頭部姿態(tài)變化和不均勻的光照對(duì)人臉識(shí)別的影響。

4.本發(fā)明提出的用神經(jīng)網(wǎng)絡(luò)訓(xùn)練和人臉識(shí)別系統(tǒng)，能達(dá)到實(shí)時(shí)人臉識(shí)別的效果。

5.本發(fā)明提出的3D立體聲音用于識(shí)別結(jié)果的交互，有效提高人臉識(shí)別系統(tǒng)使用過(guò)程的體驗(yàn)度。

附圖說(shuō)明

圖1是系統(tǒng)結(jié)構(gòu)示意圖；

圖2是人臉檢出結(jié)果圖；

圖3是灰度化處理后的彩色直方圖或深度直方圖；

圖4是融合后的反向投影圖；

圖5是矯正前和矯正后人臉圖像的對(duì)比圖。

具體實(shí)施方式

一種基于RGB-D相機(jī)和人臉識(shí)別的視障人士輔助方法，具體步驟如下：

(1)人臉的錄入和人臉數(shù)據(jù)庫(kù)的建立；

針對(duì)每一個(gè)待識(shí)別對(duì)象，分別采集多幀連續(xù)的彩色圖像和深度圖像，進(jìn)一步通過(guò)RGB-D相機(jī)中的彩色圖像通道檢出人臉圖像，以第一幀中檢出的人臉圖像作為人臉跟蹤的初始化起點(diǎn)。若在第n幀中出現(xiàn)人臉漏檢或檢測(cè)錯(cuò)誤，則可以啟動(dòng)人臉跟蹤模式，檢出人臉的區(qū)域。錄入所有待識(shí)別對(duì)象的人臉圖像數(shù)據(jù)和對(duì)應(yīng)的姓名，建立人臉數(shù)據(jù)庫(kù)。

所述人臉跟蹤模式包括以下步驟：

第一，在第n-1幀的人臉檢出情況下，如圖2所示(人臉區(qū)域被框出)，分別計(jì)算彩色圖和深度圖中的人臉區(qū)域的直方圖，如圖3所示。彩色直方圖的橫坐標(biāo)為色度值，縱坐標(biāo)為每個(gè)色度值對(duì)應(yīng)的像素的個(gè)數(shù)；深度直方圖的橫坐標(biāo)為深度值，縱坐標(biāo)為每個(gè)深度值對(duì)應(yīng)的像素的個(gè)數(shù)。

第二，在第n幀中，計(jì)算彩色圖和深度圖的返向投影圖，如圖4所示。彩色圖對(duì)應(yīng)的返向投影圖是將彩色圖中的每個(gè)像素點(diǎn)的色度值替換為彩色直方圖中對(duì)應(yīng)的縱坐標(biāo)而獲得；深度圖對(duì)應(yīng)的返向投影圖是將深度圖中的每個(gè)像素點(diǎn)的深度值替換為深度直方圖中對(duì)應(yīng)的縱坐標(biāo)而獲得。返向投影圖為灰度圖像，在所述彩色圖和深度圖分別對(duì)應(yīng)的返向投影圖中，灰度值越大的區(qū)域有更大的可能性是人臉區(qū)域；將兩個(gè)返向投影圖融合后，得到更符合實(shí)際情況的人臉區(qū)域預(yù)測(cè)。

第三，在融合后的返向投影圖中，應(yīng)用均值漂移算法(MeanShift)，計(jì)算出第n幀人臉的區(qū)域。

(2)人臉圖像的矯正

人臉的矯正是用于去除頭部姿態(tài)變化和不均勻的光照對(duì)人臉識(shí)別的影響。人臉識(shí)別相當(dāng)于一個(gè)分類問(wèn)題，在分類器的訓(xùn)練過(guò)程中，樣本的類間差異應(yīng)該較大而每一類的類內(nèi)差異應(yīng)該較小，所述頭部姿態(tài)變化和不均勻的光照會(huì)增大類內(nèi)差異，甚至達(dá)到和類間差異相當(dāng)?shù)某潭?，?duì)于這樣的樣本，在分類器訓(xùn)練過(guò)程中，分類器難以找到不同類之間的差異，結(jié)果就是分類器不具備正確分類的能力。同樣地，未經(jīng)矯正的人臉圖像在識(shí)別過(guò)程中更容易出錯(cuò)。

人臉圖像的矯正分為以下步驟：

第一，調(diào)整人臉圖像的格式為統(tǒng)一大小，即100像素*100像素。

第二，檢出人臉區(qū)域的特征點(diǎn)，所述特征點(diǎn)包括臉頰輪廓、眼睛、眉毛、鼻子、嘴巴。所述特征點(diǎn)的檢出是基于彩色圖像的。

第三，在一個(gè)通用的三維人臉模型中找到對(duì)應(yīng)特征點(diǎn)的三維坐標(biāo)，所述三維坐標(biāo)在世界坐標(biāo)系中。根據(jù)特征點(diǎn)在彩色圖像中的二維坐標(biāo)和相機(jī)參數(shù)，以及所述三維模型中的三維坐標(biāo)，計(jì)算得到世界坐標(biāo)系和相機(jī)坐標(biāo)系的轉(zhuǎn)換關(guān)系。

第四，三維模型中的所有點(diǎn)，依據(jù)所述坐標(biāo)系轉(zhuǎn)換關(guān)系，被投影到所述相機(jī)坐標(biāo)系中，由此得到了每個(gè)點(diǎn)的RGB信息。

第五，對(duì)賦值RGB信息后的人臉三維模型在正面方向上投影，得到矯正后的人臉圖像。

第六，轉(zhuǎn)彩色人臉圖像為灰度圖，并做直方圖均衡化處理。

如圖5所示為矯正前和矯正后人臉圖像的對(duì)比，其中a,b,c為校正前的圖像，d,e,f分別為對(duì)應(yīng)的校正后的圖像。

(3)神經(jīng)網(wǎng)絡(luò)訓(xùn)練

矯正得到的人臉圖像，大小統(tǒng)一為100像素*100像素，可以視作一個(gè)10000維的向量。這樣的維度對(duì)于需要實(shí)時(shí)計(jì)算的神經(jīng)網(wǎng)絡(luò)輸入來(lái)說(shuō)太大而不能接受。主成分分析(PCA)被運(yùn)用于預(yù)處理數(shù)據(jù)。所述數(shù)據(jù)預(yù)處理即為降維。

每一個(gè)人臉對(duì)應(yīng)于一個(gè)由0和1組成的數(shù)據(jù)標(biāo)簽，第m個(gè)人臉的數(shù)據(jù)標(biāo)簽為[a₁,a₂,…a_m,…a_k]，其中，a_m＝1，其余為0，k為人臉總數(shù)；以降維后的數(shù)據(jù)作為輸入，數(shù)據(jù)標(biāo)簽作為輸出，用反向傳播算法(BP)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。

(4)識(shí)別人臉

(5)3D立體聲用于識(shí)別結(jié)果的交互

對(duì)所述步驟(4)識(shí)別的人臉，獲得其姓名，進(jìn)一步根據(jù)深度圖可以獲知其方位和距離；以3D聲音播放姓名給使用者，3D聲音的角度用于指示人臉的方位，3D聲音的大小用于指示人臉的距離。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：于紅雷;趙向東;楊愷倫;胡偉健;汪凱巍
技術(shù)所有人：杭州視氪科技有限公司
我是此專利的發(fā)明人

上一篇：一種車標(biāo)識(shí)別方法、及啟動(dòng)方法與流程
上一篇：卡扣旋入式快速接頭的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

人臉識(shí)別相機(jī)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于RGB?D相機(jī)和人臉識(shí)別的視障人士輔助方法與流程