1.一種基于唇部紋理結(jié)構(gòu)的數(shù)字識別方法,其特征在于,所述方法包括以下步驟:
步驟S11:對包含單個(gè)數(shù)字的訓(xùn)練視頻提取唇部運(yùn)動視頻幀,并進(jìn)行人工標(biāo)注;
步驟S12:截取所述唇部運(yùn)動視頻幀中每幀圖像的唇部運(yùn)動圖片;
步驟S13:選取N個(gè)唇部運(yùn)動圖片樣本送入基于卷積神經(jīng)網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)的模型的特征提取功能模塊,提取出每個(gè)樣本所包含的唇部運(yùn)動圖片相對應(yīng)的特征,組成特征序列;
步驟S14:將所述步驟S13得到的特征序列送入基于卷積神經(jīng)網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)的模型的感知機(jī)功能模塊輸出識別結(jié)果;
步驟S15:計(jì)算識別結(jié)果與真實(shí)結(jié)果之間的誤差,根據(jù)得到的誤差訓(xùn)練所述基于卷積神經(jīng)網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)的模型;
步驟S16:重復(fù)步驟S13至S15,按順序循環(huán)選取唇部運(yùn)動圖片樣本序列,直至所述基于卷積神經(jīng)網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)的模型收斂,得到所述基于卷積神經(jīng)網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)的模型;
步驟S21:對待識別視頻提取唇部運(yùn)動視頻幀;
步驟S22:截取所述步驟S21提取到的唇部運(yùn)動視頻幀中每幀圖像的唇部運(yùn)動圖片;
步驟S23:選取N個(gè)所述步驟S22得到的待識別唇部運(yùn)動圖片序列送入訓(xùn)練好的基于卷積神經(jīng)網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)的模型的特征提取功能模塊,提取出待識別視頻所包含的唇部運(yùn)動圖片相對應(yīng)的特征序列;
步驟S24:將所述步驟S23中所得到的特征序列送入基于卷積神經(jīng)網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)的模型的感知機(jī)功能模塊輸出識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S11進(jìn)一步包括以下步驟:
步驟S111:將包含單個(gè)數(shù)字的視頻轉(zhuǎn)換成幀;
步驟S112:對于每一幀進(jìn)行人工標(biāo)注;
步驟S113:將發(fā)音時(shí)存在唇部變化的幀挑選出來,得到唇部運(yùn)動視頻幀。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟S112中,基于每一幀圖片對應(yīng)的數(shù)字進(jìn)行人工標(biāo)注。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S12還包括對于唇部運(yùn)動圖片進(jìn)行尺度歸一化的步驟。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S13中,采用前向傳播算法提取每個(gè)樣本所包含的唇部運(yùn)動圖片相對應(yīng)的特征。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于卷積神經(jīng)網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)的模型包含特征提取功能模塊和感知機(jī)功能模塊。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S15采用誤差反向傳播算法,基于識別結(jié)果與真實(shí)結(jié)果之間的誤差來訓(xùn)練所述基于卷積神經(jīng)網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)的模型,其中,所述模型通過卷積神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)靜止唇部圖像的紋理特征,利用長短時(shí)記憶網(wǎng)絡(luò)來處理特征序列。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S24中,將所述步驟S23中所得到的特征序列送入基于卷積神經(jīng)網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)的模型計(jì)算得到待識別視頻中唇部運(yùn)動與各個(gè)數(shù)字的唇部運(yùn)動的相似度,然后依據(jù)相似度的大小進(jìn)行數(shù)字識別,得到識別結(jié)果。