本發(fā)明涉及計算機視覺和模式識別技術領域,特別涉及一種基于唇部紋理結構的數(shù)字識別方法。
背景技術:
利用唇部圖像識別數(shù)字已經(jīng)為中國金融系統(tǒng)中活體檢測的關鍵一步。然而,由于唇部圖像的類內差異,被檢測對象頭部姿勢的變化以及非控制環(huán)境下光照的不同使得這一任務變得困難。要解決這些問題,從視頻數(shù)據(jù)中提取合適的特征表達是關鍵。
深度學習理論在語音識別、圖像目標分類與檢測等領域都取得了非常好的效果,尤其是深度卷積神經(jīng)網(wǎng)絡具有非常強的自主學習能力和高度的非線性映射。但是基于卷積神經(jīng)網(wǎng)絡的深度學習特征對時序信息的處理能力不強,現(xiàn)有方法大都是將視頻中的空間信息和時間信息分為兩個通道輸入到網(wǎng)絡中。這種方法忽略了視頻信息中空間信息與時間信息的內在差異,導致在視頻識別領域,只依靠卷積神經(jīng)網(wǎng)絡的分類模型難以取得非常高的識別精度。而長短時記憶網(wǎng)絡處理時序信息的能力很強,在視頻分類與視頻描述等領域取得了很好的效果,這為設計基于卷積神經(jīng)網(wǎng)絡與長短時記憶網(wǎng)絡的高精度分類模型提供了可能性。
技術實現(xiàn)要素:
為了解決唇語識別技術在交互式活體檢測時精度不高的問題,本發(fā)明提出了一種基于唇部紋理結構的數(shù)字識別方法,設計了一個基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型。通過卷積神經(jīng)網(wǎng)絡自主學習靜止唇部圖像的紋理特征,利用長短時記憶網(wǎng)絡處理特征序列,更好地利用了視頻數(shù)據(jù)中空間與時間信息,從而識別出視頻中人所說的數(shù)字。
本發(fā)明提出的一種基于唇部紋理結構的數(shù)字識別方法的技術方案如下:
一種基于唇部紋理結構的數(shù)字識別方法,所述方法包括以下步驟:
步驟S11:對包含單個數(shù)字的訓練視頻提取唇部運動視頻幀,并進行人工標注;
步驟S12:截取所述唇部運動視頻幀中每幀圖像的唇部運動圖片;
步驟S13:選取N個唇部運動圖片樣本送入基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型的特征提取功能模塊,提取出每個樣本所包含的唇部運動圖片相對應的特征,組成特征序列;
步驟S14:將所述步驟S13得到的特征序列送入基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型的感知機功能模塊輸出識別結果;
步驟S15:計算識別結果與真實結果之間的誤差,根據(jù)得到的誤差訓練所述基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型;
步驟S16:重復步驟S13至S15,按順序循環(huán)選取唇部運動圖片樣本序列,直至所述基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型收斂,得到所述基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型;
步驟S21:對待識別視頻提取唇部運動視頻幀;
步驟S22:截取所述步驟S21提取到的唇部運動視頻幀中每幀圖像的唇部運動圖片;
步驟S23:選取N個所述步驟S22得到的待識別唇部運動圖片序列送入訓練好的基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型的特征提取功能模塊,提取出待識別視頻所包含的唇部運動圖片相對應的特征序列;
步驟S24:將所述步驟S23中所得到的特征序列送入基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型的感知機功能模塊輸出識別結果。
可選地,所述步驟S11進一步包括以下步驟:
步驟S111:將包含單個數(shù)字的視頻轉換成幀;
步驟S112:對于每一幀進行人工標注;
步驟S113:將發(fā)音時存在唇部變化的幀挑選出來,得到唇部運動視頻幀。
可選地,所述步驟S112中,基于每一幀圖片對應的數(shù)字進行人工標注。
可選地,所述步驟S12還包括對于唇部運動圖片進行尺度歸一化的步驟。
可選地,所述步驟S13中,采用前向傳播算法提取每個樣本所包含的唇部運動圖片相對應的特征。
可選地,所述基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型包含特征提取功能模塊和感知機功能模塊。
可選地,所述步驟S15采用誤差反向傳播算法,基于識別結果與真實結果之間的誤差來訓練所述基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型,其中,所述模型通過卷積神經(jīng)網(wǎng)絡自主學習靜止唇部圖像的紋理特征,利用長短時記憶網(wǎng)絡來處理特征序列。
可選地,所述步驟S24中,將所述步驟S23中所得到的特征序列送入基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型計算得到待識別視頻中唇部運動與各個數(shù)字的唇部運動的相似度,然后依據(jù)相似度的大小進行數(shù)字識別,得到識別結果。
本發(fā)明的有益效果:針對唇語識別技術在交互式活體檢測中由于唇部圖像的類內差異,頭部姿勢變化和非控制環(huán)境下的光照變化等因素導致識別精度不高的問題,本發(fā)明構建了基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型,通過包含多種因素變化的訓練視頻訓練該模型,并優(yōu)化相應參數(shù),使得訓練得到的基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型對以上因素有一定的魯棒性,在交互式活體檢測時具有較高的精度。
附圖說明
圖1是根據(jù)本發(fā)明一實施例的基于唇部紋理結構的數(shù)字識別方法的流程圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。
本發(fā)明構建了基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型,該模型包含特征提取功能模塊和感知機功能模塊,本發(fā)明技術方案具體包括訓練過程和測試過程,圖1是根據(jù)本發(fā)明一實施例的基于唇部紋理結構的數(shù)字識別方法的流程圖,如圖1所示,所述方法包括以下步驟:
S1訓練過程:
步驟S11:對包含單個數(shù)字的訓練視頻提取唇部運動視頻幀,并進行人工標注;
所述步驟S11進一步包括以下步驟:
步驟S111:將包含單個數(shù)字的視頻轉換成幀;
步驟S112:對于每一幀進行人工標注;
該步驟中,基于每一幀圖片對應的數(shù)字進行人工標注。
步驟S113:將發(fā)音時存在唇部變化的幀挑選出來,得到唇部運動視頻幀:幀-1、……、幀-i、……、幀-N,其中,幀-1為視頻的第一幀,幀-i為視頻的第i幀,1≤i≤N,幀-N為視頻的最后一幀,N為一預設的數(shù)值,比如16。
步驟S12:截取所述唇部運動視頻幀中每幀圖像的唇部運動圖片;
在本發(fā)明一實施例中,所述步驟S12還包括對于唇部運動圖片進行尺度歸一化的步驟,所述唇部運動圖片通過縮放操作可歸一化至統(tǒng)一尺度,得到唇部-1、……、唇部-i、……、唇部-N。
步驟S13:選取N個唇部運動圖片樣本送入基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型的特征提取功能模塊,提取出每個樣本所包含的唇部運動圖片相對應的特征,組成特征序列:特征-1、……、特征-i、……、特征-N;
該步驟中,采用前向傳播算法提取每個樣本所包含的唇部運動圖片相對應的特征,在本發(fā)明一實施例中,所述卷積神經(jīng)網(wǎng)絡的參數(shù)配置為:第一層有96個7×7的卷積子,步長為2,并帶有3×3且步長為2的空間聚集層;第二層有384個5×5的卷積子,步長為2,并帶有3×3且步長為2的空間聚集層;第三層有512個3×3的卷積子,步長為1;第四層有512個3×3的卷積子,步長為1;第五層有384個3×3的卷積子,步長為1,并帶有3×3且步長為2的空間聚集層。
步驟S14:將所述步驟S13得到的特征序列送入基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型的感知機功能模塊輸出識別結果;
在本發(fā)明一實施例中,所述長短時記憶網(wǎng)絡含有256個隱藏單元。
步驟S15:計算識別結果與真實結果之間的誤差,根據(jù)得到的誤差訓練所述基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型;
在本發(fā)明一實施例中,所述步驟S15采用誤差反向傳播算法,基于識別結果與真實結果之間的誤差來訓練所述基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型,所述基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型包含特征提取功能模塊和感知機功能模塊,其中,所述模型通過卷積神經(jīng)網(wǎng)絡自主學習靜止唇部圖像的紋理特征,利用長短時記憶網(wǎng)絡來處理特征序列。
步驟S16:重復步驟S13至S15,按順序循環(huán)選取唇部運動圖片樣本序列,直至所述基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型收斂,得到所述基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型。
上述誤差反向傳播算法主要用于多層模型的訓練,其主體是激勵傳播以及權重更新兩個環(huán)節(jié)的反復迭代,直至達到收斂條件時停止。在激勵傳播階段,先將特征序列送入基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型的感知機功能模塊輸出識別結果,然后將識別結果與真實結果求差,從而獲得輸出層與監(jiān)督層的誤差。在權重更新階段,先將已知誤差與本層響應對前一層響應的函數(shù)的導數(shù)相乘,從而獲得兩層之間權重矩陣的梯度,然后沿著這個梯度的反方向以某個比例調整權重矩陣。隨后,將該梯度當作前一層的誤差從而計算前一層的權重矩陣。以此類推完成對整個模型的更新。
測試過程,該過程主要利用S1訓練過程中訓練好的基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型對待識別的視頻進行特征提取和相似度計算,從而進行數(shù)字識別。
步驟S21:對待識別視頻提取唇部運動視頻幀;
該步驟可參照步驟S11中所述方法,對待識別的視頻提取唇部運動視頻幀。
步驟S22:截取所述步驟S21提取到的唇部運動視頻幀中每幀圖像的唇部運動圖片;
該步驟可參照步驟S12中所述方法,截取所述步驟S21提取到的唇部運動視頻幀中每幀圖像的唇部運動圖片。
步驟S23:選取N個所述步驟S22得到的待識別唇部運動圖片序列送入訓練好的基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型的特征提取功能模塊,提取出待識別視頻所包含的唇部運動圖片相對應的特征序列;
步驟S24:將所述步驟S23中所得到的特征序列送入基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型的感知機功能模塊輸出識別結果。
所述步驟S24中,將所述步驟S23中所得到的特征序列送入基于卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡的模型計算得到待識別視頻中唇部運動與各個數(shù)字的唇部運動的相似度,然后依據(jù)相似度的大小進行數(shù)字識別,得到識別結果。
如上所述,本發(fā)明基于唇部紋理結構的數(shù)字識別方法利用深度學習中卷積神經(jīng)網(wǎng)絡較強的特征提取能力以及長短時記憶網(wǎng)絡對時序信息的處理能力,通過卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡根據(jù)視頻中對象的唇部運動識別數(shù)字。該方法對唇部圖像的類內差異,頭部姿勢變化和非控制環(huán)境下的光照變化有較強的魯棒性,有效地解決了唇語識別技術在交互式活體檢測中識別精度不高的問題。該方法可被廣泛應用于配有分辨率較高的攝像頭的場景,如:中國金融系統(tǒng)的交互式活體檢測等。
以上所述的具體實施例,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。