亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于深度殘差網(wǎng)絡(luò)和LSTM的圖像理解方法與流程

文檔序號:11143396閱讀:1069來源:國知局
一種基于深度殘差網(wǎng)絡(luò)和LSTM的圖像理解方法與制造工藝

本發(fā)明涉及圖像語義理解、深度學(xué)習(xí)領(lǐng)域,特別是一種基于深度殘差網(wǎng)絡(luò)和LSTM(Long Short-term Memory)的圖像理解方法。



背景技術(shù):

圖像理解是指對圖像語義的理解。它是以圖像為對象,知識為核心,研究圖像中何位置有何目標(biāo)、目標(biāo)之間的相互關(guān)系、圖像是何場景的一門科學(xué)。

圖像理解輸入的是圖像數(shù)據(jù),輸出的是知識,屬于圖像處理研究領(lǐng)域的高層內(nèi)容。其重點是在圖像目標(biāo)識別的基礎(chǔ)上進(jìn)一步研究圖像中各目標(biāo)的性質(zhì)及其相互關(guān)系,并得出對圖像內(nèi)容含義的理解以及對原來客觀場景的解釋,進(jìn)而指導(dǎo)和規(guī)劃行為。

目前常用的圖像理解方法主要是基于底層特征與分類器相結(jié)合的方法,先使用小波變換、尺度不變特征變換(SIFT)、邊緣提取等圖像處理算法對圖像進(jìn)行特征提取,然后使用潛在狄利克雷分布(LDA)、隱馬爾科夫模型(HMM)、支持向量機(SVM)等圖像識別和推理算法對提取出的特征進(jìn)行分類識別并建立語義模型。從算法實現(xiàn)上來看,目前常用的圖像理解算法存在泛化性差、魯棒性低、局部依賴性強、實現(xiàn)困難、識別率低等缺點。



技術(shù)實現(xiàn)要素:

本發(fā)明公布了一種基于深度殘差網(wǎng)絡(luò)和LSTM的圖像理解方法,該方法利用了深度殘差網(wǎng)絡(luò)在圖像特征提取和LSTM對時序序列建模方面的優(yōu)勢,深度殘差網(wǎng)絡(luò)和LSTM模型成了一個編碼-解碼框架,將圖像內(nèi)容信息轉(zhuǎn)化成自然語言,達(dá)到提取圖像的深層次信息的目的。

本發(fā)明的目的通過以下的技術(shù)方案實現(xiàn):基于深度殘差網(wǎng)絡(luò)和LSTM的圖像理解方法,其特征在于:應(yīng)用于從輸入圖像中提取抽象特征的深度殘差網(wǎng)絡(luò)模型、根據(jù)抽象特征生成自然語言的LSTM模型;具體包括如下步驟:

S1:下載訓(xùn)練數(shù)據(jù)集;

S2:對步驟S1數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行預(yù)處理;

S3:訓(xùn)練深度殘差網(wǎng)絡(luò)模型;

S4:訓(xùn)練LSTM模型;

S5:用步驟S3中訓(xùn)練好的深度殘差網(wǎng)絡(luò)模型提取待識別圖像的抽象特征;

S6:將步驟S5中提取的特征輸入到步驟S4訓(xùn)練好的LSTM模型中,LSTM模型根據(jù)特征生成自然語言。

優(yōu)選的,步驟S1中下載訓(xùn)練數(shù)據(jù)集:分別從http://www.image-net.org、http://mscoco.org這兩個網(wǎng)站下載ImageNet、MS-COCO公共圖像數(shù)據(jù)集;ImageNet數(shù)據(jù)集分為訓(xùn)練圖像集和測試圖像集,MS-COCO數(shù)據(jù)集分為訓(xùn)練圖像集合測試圖像集,對應(yīng)的,每張圖片有5個用于描述其內(nèi)容信息的自然語言語句。

優(yōu)選的,步驟S2預(yù)處理包括對ImageNet數(shù)據(jù)集和MS-COCO數(shù)據(jù)集兩種情況:

對于ImageNet數(shù)據(jù)集:每一張圖像,將圖像縮放到256×256大小,然后從圖像上中下左右5處截取5張大小為224×224的標(biāo)準(zhǔn)尺寸圖像,并將標(biāo)準(zhǔn)尺寸圖像與其相對應(yīng)的類別成對保存,一個“標(biāo)準(zhǔn)尺寸圖像-類別”對作為一個數(shù)據(jù);

對于MS-COCO數(shù)據(jù)集,預(yù)處理的步驟如下:

S2.1、將每一個自然語言語句與其對應(yīng)的圖像成對保存,一個“圖像-自然語句”對作為一個數(shù)據(jù);

S2.2、將“圖像-自然語句”對中的圖像維持長寬比不變并縮放,剪成224×224的標(biāo)準(zhǔn)尺寸圖像,并將標(biāo)準(zhǔn)尺寸圖像與其相對應(yīng)的類別成對保存,一個“標(biāo)準(zhǔn)尺寸圖像-自然語句”對作為一個數(shù)據(jù);

S2.3、統(tǒng)計所有自然語句中出現(xiàn)過的單詞,去重,排序,單詞總個數(shù)記為K;將每個單詞都用1×K的列向量來表示,列向量中下標(biāo)為單詞序號處置1,其他位置0,這樣一個向量稱為單詞向量,所有的“單詞-單詞向量”對構(gòu)成一個長度為K的字典DIC;

S2.4、將“圖像-自然語句”對中的自然語句用基于字典DIC的單詞向量表示,一個長度為C的自然語句y可以表示為:

優(yōu)選的,步驟S3中訓(xùn)練深度殘差網(wǎng)絡(luò)模型:包含46個卷積塊(用“conv+下標(biāo)”表示)、2個池化層、1個全連接層和1個softmax分類器;在每個卷積塊中,先用批歸一化(BN)方法對數(shù)據(jù)歸一化,然后使用修正線性單元(ReLu)對數(shù)據(jù)進(jìn)行非線性變換,最后進(jìn)行卷積操作。訓(xùn)練時使用隨機梯度下降(SGD)和反向傳播方法(BP),用預(yù)處理后的ImageNet數(shù)據(jù)集(“標(biāo)準(zhǔn)尺寸圖像-類別”對)作為樣本;對于每個樣本,標(biāo)準(zhǔn)尺寸圖像在網(wǎng)絡(luò)中向前傳播,經(jīng)過softmax層后輸出預(yù)測類別,再將預(yù)測類別與實際類別的差異反向傳播到網(wǎng)絡(luò)頭部,反向傳播過程中使用隨機梯度下降算法調(diào)整網(wǎng)絡(luò)參數(shù)。重復(fù)樣本輸入的過程,直到網(wǎng)絡(luò)收斂。

優(yōu)選的,步驟S4中訓(xùn)練LSTM模型:LSTM模型的基本結(jié)構(gòu)由LSTM神經(jīng)元構(gòu)成。LSTM模型包含C層LSTM神經(jīng)元(C為預(yù)先設(shè)定的自然語句的最大長度),能依次輸出C個單詞;這里使用的是預(yù)處理后的MS-COCO數(shù)據(jù)集(“標(biāo)準(zhǔn)尺寸圖像-自然語句”對)作為樣本;訓(xùn)練LSTM模型步驟如下:

S4.1、將標(biāo)準(zhǔn)尺寸圖像輸入到步驟S3的深度殘差網(wǎng)絡(luò)中,從conv5_3_c卷積塊末端提取抽象特征矩陣,大小為7*7*2048=49*2048,用表示;

S4.2、對于每一時刻t,根據(jù)以下公式動態(tài)生成一個圖像內(nèi)容向量:

eti=fatt(ai,ht-1)

其中,ai是抽象矩陣a中的向量,ht-1是上一時刻的隱藏狀態(tài)量,fatt是一個基于多層感知機的注意力模型,能夠自動確定時刻t更注意的抽象特征,αti是與ai對應(yīng)的權(quán)重,是動態(tài)生成的圖像內(nèi)容向量;

S4.3、對于每一時刻t,LSTM神經(jīng)元的前向傳導(dǎo)過程可以表示為:

ht=ottanh(ct)

其中,σ是sigmoid函數(shù),σ(x)=(1+e-x)-1,it、ft、ct、ot、ht分別表示t時刻輸入門、遺忘門、記憶單元、輸出門、隱藏層所對應(yīng)的狀態(tài)變量;Wi、Ui、Zi、Wf、Uf、Zf、Wo、Uo、Zo、Wc、Uc、Zc為LSTM模型學(xué)習(xí)到的權(quán)重矩陣,bi、bf、bc、bo是LSTM模型學(xué)習(xí)到的偏置項,是一個隨機初始化的嵌入矩陣,m是一個常數(shù),yt-1是上一時刻LSTM模型輸出的單詞;t=0時的ct、ht按下面公式初始化:

其中,fiinit,c、fiinit,h是兩個獨立的多層感知機;

S4.4、對于每一時刻t,通過最大化下面式子來求得輸出的單詞yt

其中,λ是一個常數(shù),C是樣本中自然語句的最大長度;

S4.5、根據(jù)交叉熵?fù)p失計算預(yù)測自然語句和樣本中自然語句的差異,然后使用反向傳播算法(BP)和基于RMSProp的隨機梯度下降(SGD)算法訓(xùn)練,令交叉熵最小。

S4.6、對于MS-COCO數(shù)據(jù)集中的每一個樣本,重復(fù)S4.1-S4.5步驟。

S4.7、重復(fù)S4.1-S4.6步驟20次。

優(yōu)選的,步驟S5中提取待識別圖像的特征的具體步驟為:

S7.1:使用步驟S2中對Imagenet數(shù)據(jù)集的圖像進(jìn)行預(yù)處理;

S7.2:將預(yù)處理后的圖像輸入到步驟S3訓(xùn)練好的深度殘差網(wǎng)絡(luò)中,從最底層卷積塊末端提取抽象特征矩陣,大小為7*7*2048=49*2048。

優(yōu)選的,步驟S6中LSTM模型根據(jù)圖像特征生成自然語句,對于每一時刻t,其中0≤t<C,使用步驟S4.1-S4.4生成一個單詞,所有單詞依次連接構(gòu)成自然語句。

本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點和有益效果:

1、本方法采用深度學(xué)習(xí)理論,使用大量圖像樣本訓(xùn)練深度殘差網(wǎng)絡(luò)模型和LSTM模型,能自動學(xué)習(xí)到圖像中的普遍模式,魯棒性強,適用范圍廣。

2、本發(fā)明方法采用的深度殘差網(wǎng)絡(luò)具有50層的極深結(jié)構(gòu),能夠充分提取圖像中的抽象特征;同時,本發(fā)明方法采用了LSTM模型,能夠恰當(dāng)?shù)貙ψ匀徽Z言等時序序列建模,將特征向量轉(zhuǎn)化成自然語言。深度殘差網(wǎng)絡(luò)與LSTM網(wǎng)絡(luò)結(jié)合,顯著提升了圖像理解的準(zhǔn)確度。

3、本發(fā)明引入了一種動態(tài)注意機制,能夠根據(jù)深度殘差網(wǎng)絡(luò)提取到的特征矩陣動態(tài)的生成合適特征向量,使得LSTM具有動態(tài)聚焦到圖像的不同位置的優(yōu)點。

附圖說明

圖1為本發(fā)明實施例的一種基于深度殘差網(wǎng)絡(luò)和LSTM的圖像理解方法的具體流程圖;

圖2為本發(fā)明實施例的一種基于深度殘差網(wǎng)絡(luò)和LSTM的圖像理解方法中步驟(3)的深度殘差網(wǎng)絡(luò)模型結(jié)構(gòu);

圖3為本發(fā)明實施例的一種基于深度殘差網(wǎng)絡(luò)和LSTM的圖像理解方法中步驟(3)的深度殘差網(wǎng)絡(luò)模型中卷積塊的具體結(jié)構(gòu);

圖4為本發(fā)明實施例的一種基于深度殘差網(wǎng)絡(luò)和LSTM的圖像理解方法中步驟(4)的LSTM模型中LSTM神經(jīng)元的結(jié)構(gòu)。

具體實施方式

下面結(jié)合實施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實施方式不限于此。

實施例

如圖1所示為本發(fā)明的方法流程圖,包括如下步驟:

(1)、下載訓(xùn)練數(shù)據(jù)集:分別從http://www.image-net.org、http://mscoco.org這兩個網(wǎng)站下載ImageNet、MS-COCO公共圖像數(shù)據(jù)集。ImageNet數(shù)據(jù)集分為訓(xùn)練圖像集和測試圖像集,訓(xùn)練圖像集含有1000個類別的圖片,每個類別1300張,測試圖像集含50000張圖片;MS-COCO數(shù)據(jù)集分為訓(xùn)練圖像集合測試圖像集,訓(xùn)練圖像集包含82783張圖片,測試圖像集包含40504張圖片,對應(yīng)的,每張圖片有5個用于描述其內(nèi)容信息的自然語言語句。

(2)、預(yù)處理:

對于ImageNet數(shù)據(jù)集:每一張圖像,將圖像縮放到256×256大小,然后從圖像上中下左右5處截取5張大小為224×224的標(biāo)準(zhǔn)尺寸圖像,并將標(biāo)準(zhǔn)尺寸圖像與其相對應(yīng)的類別成對保存,一個“標(biāo)準(zhǔn)尺寸圖像-類別”對作為一個數(shù)據(jù);

對于MS-COCO數(shù)據(jù)集,預(yù)處理的步驟如下:

2.1、將每一個自然語言語句與其對應(yīng)的圖像成對保存,一個“圖像-自然語句”對作為一個數(shù)據(jù);

2.2、將“圖像-自然語句”對中的圖像維持長寬比不變并縮放,剪成224×224的標(biāo)準(zhǔn)尺寸圖像,并將標(biāo)準(zhǔn)尺寸圖像與其相對應(yīng)的類別成對保存,一個“標(biāo)準(zhǔn)尺寸圖像-自然語句”對作為一個數(shù)據(jù);

2.3、統(tǒng)計所有自然語句中出現(xiàn)過的單詞,去重,排序,單詞總個數(shù)記為K;將每個單詞都用1×K的列向量來表示,列向量中下標(biāo)為單詞序號處置1,其他位置0,這樣一個向量稱為單詞向量,所有的“單詞-單詞向量”對構(gòu)成一個長度為K的字典DIC;

2.4、將“圖像-自然語句”對中的自然語句用基于字典DIC的單詞向量表示,一個長度為C的自然語句y可以表示為:

(3)、訓(xùn)練深度殘差網(wǎng)絡(luò)模型:深度殘差網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,包含46個卷積塊(用“conv+下標(biāo)”表示)、2個池化層、1個全連接層和一個softmax分類器。在每個卷積塊中,先用批歸一化(BN)方法對數(shù)據(jù)歸一化,然后使用修正線性單元(ReLu)對數(shù)據(jù)進(jìn)行非線性變換,最用進(jìn)行卷積操作。訓(xùn)練時使用隨機梯度下降(SGD)和反向傳播方法(BP),用預(yù)處理后的ImageNet數(shù)據(jù)集(“標(biāo)準(zhǔn)尺寸圖像-類別”對)作為樣本。具體參數(shù)已在圖2中標(biāo)明,例如,“conv2_1_a,1*1,64,1”表示該卷積塊名稱為conv2_1_a,卷積核大小為1×1,步長為1,輸出64個特征圖。

(4)、訓(xùn)練LSTM模型:圖4所示的是LSTM模型的基本結(jié)構(gòu)由LSTM神經(jīng)元組成。LSTM模型包含C層LSTM神經(jīng)元(C為預(yù)先設(shè)定的自然語句的最大長度),能依次輸出C個單詞。這里使用的是預(yù)處理后的MS-COCO數(shù)據(jù)集(“標(biāo)準(zhǔn)尺寸圖像-自然語句”對)作為樣本。訓(xùn)練LSTM模型步驟如下:

4.1、將標(biāo)準(zhǔn)尺寸圖像輸入到步驟(3)的深度殘差網(wǎng)絡(luò)中,從conv5_3_c卷積塊末端提取抽象特征矩陣,大小為7*7*2048=49*2048,用表示;

4.2、對于每一時刻t,根據(jù)以下公式動態(tài)生成一個圖像內(nèi)容向量:

eti=fatt(ai,ht-1)

其中,ai是抽象矩陣a中的向量,ht-1是上一時刻的隱藏狀態(tài)量,fatt是一個基于多層感知機的注意力模型,能夠自動確定時刻t更注意的抽象特征,αti是與ai對應(yīng)的權(quán)重,是動態(tài)生成的圖像內(nèi)容向量;

4.3、對于每一時刻t,LSTM神經(jīng)元的前向傳導(dǎo)過程可以表示為:

ht=ottanh(ct)

其中,σ是sigmoid函數(shù),σ(x)=(1+e-x)-1,it、ft、ct、ot、ht分別表示t時刻輸入門、遺忘門、記憶單元、輸出門、隱藏層所對應(yīng)的狀態(tài)變量。Wi、Ui、Zi、Wf、Uf、Zf、Wo、Uo、Zo、Wc、Uc、Zc為LSTM、模型學(xué)習(xí)到的權(quán)重矩陣,bi、bf、bc、bo是LSTM模型學(xué)習(xí)到的偏置項,是一個隨機初始化的嵌入矩陣,m是一個常數(shù),yt-1是上一時刻LSTM模型輸出的單詞;t=0時的ct、ht按下面公式初始化:

其中,finit,c、finit,h是兩個獨立的多層感知機;

4.4、對于每一時刻t,通過最大化下面式子來求得輸出的單詞yt

其中,λ是一個常數(shù),C是樣本中自然語句的最大長度;

4.5、根據(jù)交叉熵?fù)p失計算預(yù)測自然語句和樣本中自然語句的差異,然后使用反向傳播算法(BP)和基于RMSProp的隨機梯度下降(SGD)算法訓(xùn)練,令交叉熵最小。

4.6、對于MS-COCO數(shù)據(jù)集中的每一個樣本,重復(fù)4.1-4.5步驟。

4.7、重復(fù)4.1-4.6步驟20次。

(5)、用步驟(3)中訓(xùn)練好的深度殘差網(wǎng)絡(luò)模型提取待識別圖像的抽象特征。首先使用步驟(2)中對Imagenet數(shù)據(jù)集的圖像進(jìn)行預(yù)處理,然后將預(yù)處理后的圖像輸入到步驟(3)訓(xùn)練好的深度殘差網(wǎng)絡(luò)中,從最底層卷積塊末端提取抽象特征矩陣,大小為7*7*2048=49*2048。

(6)、將步驟(5)中提取的抽象特征輸入到步驟(4)訓(xùn)練好的LSTM模型中,對于每一時刻t,其中0≤t<C,使用步驟S4.1-S4.4生成一個單詞,所有單詞依次連接構(gòu)成自然語句。

上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受上述實施例的限制,其他的任何未背離本發(fā)明的精神實質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1