本申請涉及計算機(jī)視覺技術(shù)領(lǐng)域,具體涉及一種圖像處理方法、裝置及電子設(shè)備。
背景技術(shù):
計算機(jī)視覺是使用計算機(jī)及相關(guān)設(shè)備對生物視覺的一種模擬,在此領(lǐng)域,視覺注意力機(jī)制一直為人們所關(guān)注。人類可以通過視覺注意力機(jī)制快速掃描視野范圍內(nèi)的整體區(qū)域,并將與目標(biāo)物體無關(guān)的區(qū)域濾除,而僅僅關(guān)注目標(biāo)物體所在的區(qū)域。因此,注意力機(jī)制極大的提高了人類對于目標(biāo)物體的信息獲取效率。
技術(shù)實現(xiàn)要素:
本申請?zhí)岢隽艘环N圖像處理的技術(shù)方案。
第一方面,本申請?zhí)峁┝艘环N圖像處理方法,包括:提取待處理的圖像的特征,獲得上述圖像的第一特征圖;基于上述第一特征圖,生成上述圖像的注意力圖;融合上述注意力圖和上述第一特征圖,獲得融合圖;基于上述融合圖,再次提取上述圖像的特征。
在一些實施例中,上述基于上述第一特征圖,生成上述圖像的注意力圖,包括:對上述第一特征圖依次進(jìn)行n次下采樣處理,其中,n為大于或等于1的整數(shù);對第n次下采樣處理后的特征圖依次進(jìn)行n次上采樣處理,獲得上述圖像的注意力圖,其中,上述注意力圖的分辨率與上述第一特征圖相同。
在一些實施例中,上述對第n次下采樣處理后的特征圖依次進(jìn)行n次上采樣處理,包括:對第n-n次下采樣處理后的特征圖和第n次上采樣處理后的特征圖進(jìn)行卷積操作;對卷積操作后的特征圖進(jìn)行第n+1次上采樣處理,n為大于1且小于n的整數(shù)。
在一些實施例中,上述對第n-n次下采樣處理后的特征圖和第n次上采樣處理后的特征圖進(jìn)行卷積操作,包括:對上述第n-n次下采樣處理后的特征圖進(jìn)行卷積處理,得到卷積圖;將上述卷積圖中各像素的特征值與第n次上采樣處理后的特征圖中相應(yīng)像素的特征值相加;對相加后的特征圖進(jìn)行卷積操作。
在一些實施例中,上述對第n次下采樣處理后的特征圖依次進(jìn)行n次上采樣處理,還包括:對第n次下采樣處理后的特征圖進(jìn)行至少一次卷積操作;對最后一次卷積操作后的特征圖進(jìn)行第1次上采樣處理。
在一些實施例中,上述融合上述注意力圖和上述第一特征圖,獲得融合圖,包括:對上述第一特征圖進(jìn)行至少一次卷積操作;融合上述注意力圖和最后一次卷積操作后的第一特征圖,獲得上述融合圖。
在一些實施例中,上述融合上述注意力圖和上述第一特征圖,獲得融合圖,包括:至少對上述注意力圖進(jìn)行歸一化處理;融合歸一化處理后的注意力圖和上述第一特征圖,獲得上述融合圖。
在一些實施例中,上述至少對上述注意力圖進(jìn)行歸一化處理,包括:對上述注意力圖依次進(jìn)行至少一次卷積處理;對最后一次卷積處理后的注意力圖進(jìn)行歸一化處理。
在一些實施例中,上述融合上述注意力圖和上述第一特征圖,獲得融合圖,包括:將歸一化處理后的注意力圖中各像素的權(quán)重值與上述第一特征圖中相應(yīng)像素的特征值相乘,獲得上述融合圖。
在一些實施例中,上述融合上述注意力圖和上述第一特征圖,獲得融合圖,包括:將歸一化處理后的注意力圖中各像素的權(quán)重值與上述第一特征圖中相應(yīng)像素的特征值相乘,獲得相乘圖;將上述相乘圖中各像素的特征值與上述第一特征圖中相應(yīng)像素的特征值相加,獲得上述融合圖。
在一些實施例中,在上述基于上述融合圖,再次提取上述圖像的特征之后,上述方法還包括以下至少之一:根據(jù)再次提取的上述圖像的特征,檢測或識別上述圖像中包括的物體;根據(jù)再次提取的上述圖像的特征,確定上述圖像中包括的物體的類別;根據(jù)再次提取的上述圖像的特征,對上述圖像進(jìn)行分割。
第二方面,本申請?zhí)峁┝艘环N圖像處理裝置,上述裝置包括:第一特征提取單元,用于提取待處理的圖像的特征,獲得上述圖像的第一特征圖;注意力提取單元,用于基于上述第一特征圖,生成上述圖像的注意力圖;融合單元,用于融合上述注意力圖和上述第一特征圖,獲得融合圖;第二特征提取單元,用于基于上述融合圖,再次提取上述圖像的特征。
在一些實施例中,上述注意力提取單元包括:下采樣模塊,用于對上述第一特征圖依次進(jìn)行n次下采樣處理,其中,n為大于或等于1的整數(shù);上采樣模塊,用于對第n次下采樣處理后的特征圖依次進(jìn)行n次上采樣處理,獲得上述圖像的注意力圖,其中,上述注意力圖的分辨率與上述第一特征圖相同。
在一些實施例中,上述下采樣模塊進(jìn)一步用于:對第n-n次下采樣處理后的特征圖和第n次上采樣處理后的特征圖進(jìn)行卷積操作;對卷積操作后的特征圖進(jìn)行第n+1次上采樣處理,n為大于1且小于n的整數(shù)。
在一些實施例中,上述下采樣模塊進(jìn)一步用于:對上述第n-n次下采樣處理后的特征圖進(jìn)行卷積處理,得到卷積圖;將上述卷積圖中各像素的特征值與第n次上采樣處理后的特征圖中相應(yīng)像素的特征值相加;對相加后的特征圖進(jìn)行卷積操作。
在一些實施例中,上述上采樣模塊進(jìn)一步用于:對第n次下采樣處理后的特征圖進(jìn)行至少一次卷積操作;對最后一次卷積操作后的特征圖進(jìn)行第1次上采樣處理。
在一些實施例中,上述裝置還包括:第二卷積單元,用于對上述第一特征圖進(jìn)行至少一次卷積操作;以及上述融合單元,用于融合上述注意力圖和最后一次卷積操作后的第一特征圖,獲得上述融合圖。
在一些實施例中,上述裝置還包括:歸一化單元,用于至少對上述注意力圖進(jìn)行歸一化處理;以及上述融合單元,用于融合歸一化處理后的注意力圖和上述第一特征圖,獲得上述融合圖。
在一些實施例中,上述裝置還包括:第二卷積單元,用于對上述注意力圖依次進(jìn)行至少一次卷積處理;以及上述歸一化單元,用于對最后一次卷積處理后的注意力圖進(jìn)行歸一化處理。
在一些實施例中,上述融合單元進(jìn)一步用于:將歸一化處理后的注意力圖中各像素的權(quán)重值與上述第一特征圖中相應(yīng)像素的特征值相乘,獲得上述融合圖。
在一些實施例中,上述融合單元進(jìn)一步用于:將歸一化處理后的注意力圖中各像素的權(quán)重值與上述第一特征圖中相應(yīng)像素的特征值相乘,獲得相乘圖;將上述相乘圖中各像素的特征值與上述第一特征圖中相應(yīng)像素的特征值相加,獲得上述融合圖。
在一些實施例中,上述裝置還包括以下至少之一:檢測單元,用于根據(jù)再次提取的上述圖像的特征,檢測或識別上述圖像中包括的物體;分類單元,用于根據(jù)再次提取的上述圖像的特征,確定上述圖像中包括的物體的類別;分割單元,用于根據(jù)再次提取的上述圖像的特征,對上述圖像進(jìn)行分割。
第三方面,本申請還提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時完成以下操作:提取待處理的圖像的特征,獲得上述圖像的第一特征圖;基于上述第一特征圖,生成上述圖像的注意力圖;融合上述注意力圖和上述第一特征圖,獲得融合圖;基于上述融合圖,再次提取上述圖像的特征。
第四方面,本申請還提供了一種電子設(shè)備,其特征在于,包括:存儲器,存儲可執(zhí)行指令;一個或多個處理器,與存儲器通信以執(zhí)行可執(zhí)行指令從而完成以下操作:提取待處理的圖像的特征,獲得上述圖像的第一特征圖;基于上述第一特征圖,生成上述圖像的注意力圖;融合上述注意力圖和上述第一特征圖,獲得融合圖;基于上述融合圖,再次提取上述圖像的特征。
本申請?zhí)峁┑膱D像處理方法、裝置和電子設(shè)備,首先提取待處理的圖像的特征,得到上述圖像的第一特征圖,基于上述第一特征圖,生成上述圖像的注意力圖,再將注意力圖和第一特征圖融合,最后再基于得到的融合圖再次提取上述圖像的特征,從而實現(xiàn)了將注意力機(jī)制引入到圖像處理中,有效地提高了從圖像中獲取信息的效率。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述,本申請的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯:
圖1是根據(jù)本申請的用于檢測目標(biāo)物體的方法的一個實施例的流程圖;
圖2是根據(jù)本申請的用于檢測目標(biāo)物體的方法的生成注意力圖的流程示意圖;
圖3a是圖2所示的流程對應(yīng)的一種網(wǎng)絡(luò)結(jié)構(gòu)的示意圖;
圖3b是圖2所示的流程對應(yīng)的另一種網(wǎng)絡(luò)結(jié)構(gòu)的示意圖;
圖4是根據(jù)本申請的用于檢測目標(biāo)物體的方法的融合注意力圖和第一特征圖的流程示意圖;
圖5a是圖4所示的流程對應(yīng)的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;
圖5b是圖5a所示的神經(jīng)網(wǎng)絡(luò)的處理過程示意圖;
圖6是圖5a所示的神經(jīng)網(wǎng)絡(luò)構(gòu)成的深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;
圖7是根據(jù)本申請的圖像處理裝置的一個實施例的結(jié)構(gòu)示意圖;
圖8是適于用來實現(xiàn)本申請實施例的終端設(shè)備或服務(wù)器的計算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本申請作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細(xì)說明本申請。
參考圖1,示出了根據(jù)本申請的圖像處理方法的一個實施例的流程100。本實施例的圖像處理方法,包括以下步驟:
步驟101,提取待處理的圖像的特征,獲得上述圖像的第一特征圖。
在本實施例中,待處理的圖像可以是包含各種物體、建筑、人物、景色的圖像,其可以是靜態(tài)圖像,也可以是視頻中的一幀圖像。在提取上述待處理的圖像的特征時,可以利用神經(jīng)網(wǎng)絡(luò)中的一個或多個卷積層來實現(xiàn)。在提取了上述圖像的特征后,得到上述圖像的第一特征圖。
步驟102,基于第一特征圖,生成上述圖像的注意力圖。
在獲得上述待處理的圖像的第一特征圖后,可以對上述特征圖進(jìn)行一系列的處理,得到上述圖像的注意力圖。上述一系列的處理例如可以是:對第一特征圖進(jìn)行多次下采樣處理、對第一特征圖交替進(jìn)行下采樣和上采樣處理、對第一特征圖進(jìn)行多次下采樣處理后再進(jìn)行多次上采樣處理、對第一特征圖進(jìn)行卷積或平均池化等等。基于特征圖生成注意力圖的方式可采用本申請實施例下文提供的任一種方法,也可采用基于注意力機(jī)制生成注意力圖的其他現(xiàn)有方法,本申請實施例并不限制?;谟嬎銠C(jī)視覺技術(shù)的注意力機(jī)制生成的注意力圖可以包含上述待處理的圖像的全局信息,并且對上述全局信息中還包括注意力關(guān)注的特征的權(quán)重信息,可以模擬人的視覺系統(tǒng),重點(diǎn)關(guān)注圖像當(dāng)中權(quán)重大的特征信息,而不喪失圖像的全局信息。
步驟103,融合注意力圖和第一特征圖,獲得融合圖。
在得到注意力圖和第一特征圖后,可以將二者進(jìn)行融合,以獲得上述待處理的圖像中包含的所有物體、人物、景色的有效信息,也就是說,利用上述融合圖,能夠更有效地表達(dá)待處理的圖像中的物體、人物、景色等信息。
步驟104,基于上述融合圖,再次提取上述圖像的特征。
本實施例中,在得到上述融合圖后,可以再次提取上述圖像的特征,得到的特征可以進(jìn)行進(jìn)一步的應(yīng)用。在再次提取上述圖像的特征時,可以利用多個級聯(lián)的卷積層或殘差單元來實現(xiàn)。
在具體實踐中,本實施例的圖像處理方法,可以由神經(jīng)網(wǎng)絡(luò)來實現(xiàn)??梢岳斫獾氖?,為了實現(xiàn)更好的提取上述待處理的圖像的特征,可以多次重復(fù)上述神經(jīng)網(wǎng)絡(luò),以形成更深的神經(jīng)網(wǎng)絡(luò)。這樣,能夠得到待處理的圖像的更全面的全局信息,從而能夠提高對待處理的圖像的特征表達(dá)能力。
可以理解的是,上述神經(jīng)網(wǎng)絡(luò)在使用前可以利用帶有標(biāo)注信息的圖片來訓(xùn)練上述神經(jīng)網(wǎng)絡(luò),并根據(jù)訓(xùn)練結(jié)果反向傳播以修改神經(jīng)網(wǎng)絡(luò)的參數(shù),完成上述神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
本申請的上述實施例提供的圖像處理方法,首先提取待處理的圖像的特征,得到上述圖像的第一特征圖,基于上述第一特征圖,生成上述圖像的注意力圖,再將注意力圖和第一特征圖融合,最后再基于得到的融合圖再次提取上述圖像的特征,從而實現(xiàn)了將注意力機(jī)制引入到圖像處理中,有效地提高了從圖像中獲取信息的效率。
參考圖2,其示出了根據(jù)本申請的圖像處理方法的生成注意力圖的流程200。如圖2所示,本實施例中通過以下步驟生成待處理的圖像的注意力圖。
步驟201,對第一特征圖依次進(jìn)行n次下采樣處理。
本實施例中,n為整數(shù),且n≥1。在對步驟101中得到的第一特征圖進(jìn)行下采樣處理,可以獲得第一特征圖的全局信息。但下采樣的次數(shù)越多,得到的全局信息圖的維度與第一特征圖的維度相差就越大。本實施例中,上述下采樣操作可以通過以下但不限于以下方式來實現(xiàn):不同步長的池化層、不同步長的卷積層、平均池化層。
例如,利用步長為2的池化層對第一特征圖進(jìn)行下采樣時,假設(shè)第一特征圖的分辨率為224×224,經(jīng)過3次下采樣后,得到的特征圖的分辨率為28×28。由于經(jīng)過n次下采樣后得到的特征圖與第一特征圖的分辨率不同,雖然經(jīng)過n次下采樣后得到的特征圖中包含了第一特征圖的全局信息,但其無法指導(dǎo)分辨率為224×224的特征進(jìn)行學(xué)習(xí)。
步驟202,對第n次下采樣處理后的特征圖依次進(jìn)行n次上采樣處理。
本實施例中,在得到n次下采樣處理后的特征圖后,可以對上述特征圖進(jìn)行n次上采樣處理。這樣經(jīng)n次上采樣處理后的特征圖的分辨率與第一特征圖的分辨率相同。本實施例中,上述上采樣操作可以通過以下但不限于以下方式來實現(xiàn):解卷積層、最鄰近插值層、線性插值層。
例如,經(jīng)過3次下采樣后,得到的特征圖的分辨率為28×28,此特征圖再經(jīng)過3次上采樣處理后,得到的注意力圖的分辨率與第一特征圖的分辨率相同。
在本實施例的一些可選的實現(xiàn)方式中,在每次下采樣及每次上采樣處理后,還可以對經(jīng)下采樣處理得到的特征圖以及對經(jīng)上采樣處理得到的特征圖進(jìn)行卷積操作。在對經(jīng)上采樣處理得到的特征圖進(jìn)行卷積操作后,再進(jìn)行下一次的上采樣處理。即對第n-n次下采樣處理后的特征圖和第n次上采樣處理后的特征圖進(jìn)行卷積操作;對卷積操作后的特征圖進(jìn)行第n+1次上采樣處理。其中,n為正整數(shù),且1<n<n。
可以理解的是,本實現(xiàn)方式中,在對經(jīng)第n-1次上采樣處理得到的特征圖進(jìn)行卷積操作后,進(jìn)行第n次上采樣處理,并且,不需要對經(jīng)第n次上采樣處理得到的注意力圖進(jìn)行卷積操作。本實現(xiàn)方式中的卷積操作,可以利用卷積層來實現(xiàn),也可以利用殘差單元來實現(xiàn),本實現(xiàn)方式對此不做限定。上述殘差單元可以是包括兩個以上卷積層的網(wǎng)絡(luò)結(jié)構(gòu)。
本實現(xiàn)方式的圖像處理方法,不僅注意力圖的分辨率與第一特征圖的分辨率相同,得到的注意力圖可以用于指導(dǎo)后續(xù)對第一特征圖中的特征進(jìn)行學(xué)習(xí);同時,通過在每次下采樣處理和上采樣處理后,對得到的特征圖進(jìn)行卷積操作,能夠更好的學(xué)習(xí)得到的不同維度下特征圖中的特征。
在本實施例的一些可選的實現(xiàn)方式中,在對第n-n次下采樣處理后的特征圖和第n次上采樣處理后的特征圖進(jìn)行卷積操作時,還可以通過以下步驟來實現(xiàn):
對第n-n次下采樣處理后的特征圖進(jìn)行卷積處理,得到卷積圖;將卷積圖中各像素的特征值與第n次上采樣處理后的特征圖中相應(yīng)像素的特征值相加;對相加后的特征圖進(jìn)行卷積操作。
本實現(xiàn)方式中,n為正整數(shù),且1<n<n。n可以為一個預(yù)設(shè)值,也可以是根據(jù)第一特征圖的分辨率計算得到的值,并且可通過如下計算方法來確定n的值:設(shè)置下采樣處理后得到的特征圖的最小分辨率,根據(jù)第一特征圖的分辨率以及上述最小分辨率來確定能夠進(jìn)行的下采樣的次數(shù),即確定n的值。例如第一特征圖的分辨率為56×56,設(shè)置的最小分辨率為7×7,每次下采樣操作后,得到的特征圖的分辨率降為下采樣之前的特征圖的四分之一,則n最大為3。
由于本實現(xiàn)方式可以對第一特征圖進(jìn)行n次下采樣處理,然后再進(jìn)行n次上采樣處理,則在下采樣處理的過程中以及上采用處理的過程中會得到分辨率相同的特征圖。為了獲得待處理的圖像的更深層次的信息,可以對第n-n次下采樣處理后的特征圖進(jìn)行卷積處理,得到卷積圖。然后將卷積圖中各像素的特征值與第n次上采樣處理后的特征圖中相應(yīng)像素的特征值相加,然后對相加后的特征圖進(jìn)行卷積操作。
本實現(xiàn)方式的圖像處理方法,將在下采樣處理的過程中以及上采用處理的過程中得到的分辨率相同的特征圖相加,能夠獲得待處理的圖像的更深層次的信息。
在本實施例的一些可選的實現(xiàn)方式中,在對第n次下采樣處理后的特征圖依次進(jìn)行n次上采樣處理時,還可以通過以下步驟來實現(xiàn):
對第n次下采樣處理后的特征圖進(jìn)行至少一次卷積操作,并對最后一次卷積操作后的特征圖進(jìn)行第1次上采樣處理。
本實現(xiàn)方式中,在最后一次下采樣處理后,對得到的特征圖進(jìn)行卷積操作,得到全局信息圖。然后對上述全局信息圖再次進(jìn)行卷積操作,然后對再次進(jìn)行卷積操作后的特征圖進(jìn)行第一次上采樣處理。這樣,下采樣處理過程與上采樣處理過程為對稱的兩個處理過程,最后得到的注意力圖更能夠反映待處理的圖像中包含的特征信息。
在實踐中,本實現(xiàn)方式的圖像處理方法可以采用圖3a所示的網(wǎng)絡(luò)結(jié)構(gòu)來實現(xiàn)。如圖3a所示,本實現(xiàn)方式的網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層301、級聯(lián)的多個卷積層302、多個下采樣單元303、多個上采樣單元304、多個殘差單元305以及輸出層306??梢岳斫獾氖?,本實現(xiàn)方式中的卷積操作由殘差單元來實現(xiàn)。
其中,輸入層301用于輸入待處理的圖像。級聯(lián)的多個卷積層302用于提取待處理的圖像的特征,得到第一特征圖。可以理解的是,上述級聯(lián)的多個卷積層302也可以由殘差單元來實現(xiàn)。
每個下采樣單元303包括一個下采樣層3031和一個殘差單元3032,下采樣層3031用于對級聯(lián)的多個卷積層302得到的第一特征圖進(jìn)行下采樣處理,每經(jīng)過一次下采樣處理得到的特征圖的分辨率就相當(dāng)于第一特征圖分辨率的四分之一。每個殘差單元3032用于在每次下采樣處理后對下采樣處理后的特征圖進(jìn)行卷積操作,以提取下采樣處理后的特征圖的特征。舉例來說,第一特征圖的分辨率為56×56,經(jīng)過上述下采樣層3031的一次下采樣處理后,得到的圖像的分辨率為28×28,殘差單元3032提取上述28×28的圖像的特征。假如上述網(wǎng)絡(luò)結(jié)構(gòu)中包括3個下采樣單元303,則經(jīng)過第3個下采樣單元處理后的得到的特征圖的分辨率為7×7,且第3個下采樣單元的殘差單元提取了上述7×7的圖像的特征,得到了第一特征圖的全局信息圖??梢岳斫獾氖?,上述網(wǎng)絡(luò)結(jié)構(gòu)中的下采樣單元303的數(shù)目可以是任意的,本實現(xiàn)方式并不對此進(jìn)行限定。同時,可以理解的是,且每個下采樣單元中的殘差單元的結(jié)構(gòu)可以相同,即包括相同數(shù)量的卷積層,但各個卷積層的參數(shù)不同。
在得到第一特征圖的全局信息圖后,利用上采樣單元304對上述全局信息圖繼續(xù)處理。上述上采樣單元304可以包括一個殘差單元3041和上采樣層3042,殘差單元3041與殘差單元3032的結(jié)構(gòu)可以相同,但參數(shù)不同。
殘差單元3041用于提取上述殘差單元3032得到的全局信息圖的特征,在提取了上述特征后,經(jīng)上采樣層3042的上采樣處理,得到的特征圖的分辨率為全局信息圖分辨率的四倍。經(jīng)過與下采樣次數(shù)相同的上采樣處理后,最后得到的注意力圖的分辨率與第一特征圖的分辨率相同。
可以理解的是,圖3a中,下采樣單元303中的下采樣層可以通過最大池化層來實現(xiàn),上采樣單元304中的上采樣層可以通過雙線性插值層來實現(xiàn)。同時,每個下采樣單元303和上采樣單元304中還可以包括多個殘差單元。具體可參考圖3b,如圖3b所示,下采樣單元303’包括一個最大池化層和r個級聯(lián)的殘差單元,上采樣單元304’包括r個級聯(lián)的殘差單元和一個內(nèi)插層,且最后一個最大池化層和第一個雙線性插值層之間包括2r個級聯(lián)的殘差單元。并且上采樣過程中與下采樣過程中得到的相同分辨率的特征圖之間通過一個殘差單元卷積后可以相加,因此,在最后一個最大池化層之前和第一個雙線性插值層之后連接有一個殘差單元305’。
由于在下采樣和上采樣的過程中,會得到分辨率相同的特征圖,例如下采樣過程中會得到分辨率為28×28、14×14和7×7的特征圖,同樣的,在上采樣的過程中會得到分辨率為14×14、28×28和56×56的特征圖。在下采樣過程中得到的分辨率為14×14特征圖,可以經(jīng)一個殘差單元305處理后與上采樣過程中得到的分辨率為14×14特征圖中對應(yīng)像素的特征值相加,用于后續(xù)的上采樣;在下采樣過程得到的分辨率為28×28特征圖,可以經(jīng)一個殘差單元304處理后與上采樣過程中得到的分辨率為28×28特征圖中對應(yīng)像素的特征值相加,用于后續(xù)的上采樣。這樣的處理,可以捕捉待處理的圖像中包含的物體的多尺度特征,同時可以增強(qiáng)注意力所關(guān)注的各物體的特征的強(qiáng)度,抑制注意力不關(guān)注的其它物體的特征的強(qiáng)度。
參考圖4,其示出了根據(jù)本申請的圖像處理方法中融合注意力圖和第一特征圖所采用的流程400。如圖4所示,本實施例的融合操作具體可以通過以下步驟來實現(xiàn):
步驟401,至少對注意力圖進(jìn)行歸一化處理。
本實施例中,對注意力圖進(jìn)行歸一化處理,可以將注意力圖中各像素的權(quán)重值限定在[0,1]之間。上述歸一化操作,具體可以通過sigmoid函數(shù)來實現(xiàn),sigmoid函數(shù)是神經(jīng)網(wǎng)絡(luò)的閾值函數(shù),其可以將變量映射到[0,1]之間。
步驟402,融合歸一化處理后的注意力圖和第一特征圖,獲得融合圖。
在對注意力圖進(jìn)行歸一化處理后,然后將歸一化處理后的注意力圖和第一特征圖融合,得到融合圖。
本實施例中,對注意力進(jìn)行歸一化操作一方面可以方便后續(xù)的數(shù)據(jù)處理,一方面可以促進(jìn)后續(xù)的數(shù)據(jù)處理得到更準(zhǔn)確的結(jié)果。
在本實施例的一些可選的實現(xiàn)方式中,在步驟401中對注意力圖進(jìn)行歸一化處理前,可以先對注意力圖進(jìn)行至少一次卷積處理,然后對最后一次卷積處理后的注意力圖再進(jìn)行歸一化處理。
在實踐中,上述卷積操作可以通過卷積層來實現(xiàn),具體的,可以設(shè)置該卷積層的卷積核為1×1,這樣可以增強(qiáng)對注意力圖中所包含的特征的表達(dá)能力。
在本實施例的一些可選的實現(xiàn)方式中,在步驟402中融合注意力圖和第一特征圖時,可以將歸一化處理后的注意力圖中各像素的權(quán)重值與第一特征圖中相應(yīng)像素的特征值相乘,得到融合圖。
本實現(xiàn)方式中,由于注意力圖與第一特征圖的分辨率相同,因此注意力圖中的各像素可以與第一特征圖中的各像素一一對應(yīng)。并且,步驟401中已對注意力圖中各像素的權(quán)重值進(jìn)行歸一化處理,可以將歸一化處理后的權(quán)重值與第一特征圖中對應(yīng)像素的特征值利用相乘的方法進(jìn)行融合,將得到的相乘圖作為融合圖。
在本實施例的一些可選的實現(xiàn)方式中,在步驟402中得到上述相乘圖后,還可以將得到的相乘圖中各像素的特征值與第一特征圖中相應(yīng)像素的特征值相加,將相加后得到的特征圖作為融合圖。
由于得到的相乘圖中包含了待處理的圖像中的特征信息,這些特征信息可稱為有用信息。并且,不論是對注意力圖的處理,還是對特征圖的處理,都會降低待處理的圖像中的特征信息的信號強(qiáng)度,即降低了第一特征圖中各像素的特征值。信號強(qiáng)度的衰減不利于神經(jīng)網(wǎng)絡(luò)對特征的學(xué)習(xí),而對于上述有用信息的衰減則會直接影響神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力。
本實現(xiàn)方式中,將相乘圖中各像素的特征值與第一特征圖中相應(yīng)像素的特征值相加,一方面可以增加上述有用信息在整個融合圖各像素的特征值的比例,相當(dāng)于抑制了有用信息之外的其他信息,另一方面還可以防止信號強(qiáng)度的衰減。
在圖3所示的網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,結(jié)合圖1所示實施例所描述的方案,可以得到本實施例的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5a所示。圖5a中,神經(jīng)網(wǎng)絡(luò)500包括第一特征提取單元501、第一卷積單元502、注意力提取單元503、第二卷積單元504、歸一化單元505、融合單元506以及第二特征提取單元507。其中,第一特征提取單元501、第一卷積單元502以及第二特征提取單元507都由多個殘差單元形成,第一特征提取單元501包括p個級聯(lián)的殘差單元,第一卷積單元502包括t個級聯(lián)的殘差單元,第二特征提取單元507包括p個級聯(lián)的殘差單元。
第一特征提取單元501的作用相當(dāng)于圖3中級聯(lián)的多個卷積層302,用于提取待處理的圖像的特征,得到第一特征圖。第一卷積單元502可以進(jìn)一步提取第一特征圖的特征。注意力提取單元503的作用相當(dāng)于圖3中多個下采樣單元303、多個上采樣單元304以及多個殘差單元305,得到注意力圖。第二卷積單元504用于在對注意力圖進(jìn)行歸一化處理前對注意力圖進(jìn)行至少一次卷積操作。歸一化單元505用于對注意力圖進(jìn)行歸一化處理。融合單元506用于融合歸一化處理后的注意力圖和第一特征圖,得到融合圖。第二特征提取單元507用于再次提取融合圖的特征。
圖5a所示的神經(jīng)網(wǎng)絡(luò)的處理過程具體可參考圖5b,如圖5b所示,以x表示輸入的特征,即第一特征圖。利用圖5a所示的注意力提取單元503的感受野以及第一卷積單元502的感受野分別模擬人類視覺的注意力。圖5b中的左側(cè)分支相當(dāng)于注意力提取單元503,右側(cè)分支相當(dāng)于第一卷積單元502。
圖5b中的左側(cè)分支包括兩次下采樣與兩次上采樣,經(jīng)第一次下采樣后,得到的特征圖的分辨率為第一特征圖x分辨率的四分之一;經(jīng)第二次下采樣后,得到的特征圖的分辨率為第一特征圖x分辨率的十六分之一;然后經(jīng)第一次上采樣處理,得到的特征圖與第一次下采樣處理后得到的特征圖的分辨率相同;經(jīng)第二次上采樣處理,得到的特征圖與第一特征圖的分辨率相同。同時,經(jīng)過上述兩次下采樣處理和兩次上采樣處理,即在遍歷整個特征圖后,確定了圖像中注意力關(guān)注的特征的權(quán)重m(x)。
圖5b中的右側(cè)分支包括對第一特征圖x的卷積操作,得到特征t(x)。
最后,將得到的權(quán)重m(x)與特征t(x)進(jìn)行融合,得到融合圖,上述融合圖中包括融合后的特征(1+m(x))·t(x)。
可以理解的是,為了構(gòu)造更深層次的神經(jīng)網(wǎng)絡(luò),本實施例中,還可以將上述神經(jīng)網(wǎng)絡(luò)500作為子神經(jīng)網(wǎng)絡(luò),多次重復(fù)執(zhí)行,并可以將不同參數(shù)的子神經(jīng)網(wǎng)絡(luò)堆疊,得到如圖6所示的深度卷積神經(jīng)網(wǎng)絡(luò)600。深度卷積神經(jīng)網(wǎng)絡(luò)600可以包括多個子神經(jīng)網(wǎng)絡(luò),圖6中示意性的示出了三個子神經(jīng)網(wǎng)絡(luò),分別為子神經(jīng)網(wǎng)絡(luò)601、子神經(jīng)網(wǎng)絡(luò)602以及子神經(jīng)網(wǎng)絡(luò)603。每個子神經(jīng)網(wǎng)絡(luò)的參數(shù)可以相同,也可以不同。此處所指的子神經(jīng)網(wǎng)絡(luò)的參數(shù)可以包括:注意力提取單元中的下采樣和上采樣的次數(shù)、第一卷積單元中殘差單元的個數(shù)等等。并且,每個子神經(jīng)網(wǎng)絡(luò)可以重復(fù)多次,例如當(dāng)子神經(jīng)網(wǎng)絡(luò)601、子神經(jīng)網(wǎng)絡(luò)602以及子神經(jīng)網(wǎng)絡(luò)603各不相同時,深度卷積神經(jīng)網(wǎng)絡(luò)600可以包括m個子神經(jīng)網(wǎng)絡(luò)601、k個子神經(jīng)網(wǎng)絡(luò)602以及j個子神經(jīng)網(wǎng)絡(luò)603,其中,m、k、j均為正整數(shù)。
基于本實施例提出的圖像處理方法構(gòu)建的神經(jīng)網(wǎng)絡(luò),在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程可有效減小神經(jīng)網(wǎng)絡(luò)訓(xùn)練過所需調(diào)整的參數(shù)量,提高了對特征的學(xué)習(xí)效率;同時基于訓(xùn)練完成后的神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像處理的過程中,無需進(jìn)行調(diào)整參數(shù)的操作;通過相同次數(shù)的下采樣和上采樣操作,實現(xiàn)了全局信息的反向傳遞,從而促進(jìn)了注意力關(guān)注的有用信息的傳遞。
在本實施例的一些可選的實現(xiàn)方式中,待處理的圖像中可以包含多個物體,且上述多個物體可以為同一種類的物體,也可以為不同種類的物體。上述物體可以是各種類別的物體,例如可以包括飛機(jī)、自行車、汽車等各種交通工具,還可以包括鳥類、狗、獅子等各種動物。
在基于融合圖,再次提取了上述待處理的圖像的特征后,可以利用再次提取的特征,檢測或識別上述圖像中包括的物體。
進(jìn)一步的,還可以利用再次提取的特征,確定上述圖像中包括的物體的類別。
進(jìn)一步的,還可以利用再次提取的特征,對上述圖像進(jìn)行分割,將包含物體的部分分割出來。
本實現(xiàn)方式的圖像處理方法,在再次提取了待處理的圖像的特征之后,可以利用再次提取的特征實現(xiàn)不同的應(yīng)用,可滿足不同任務(wù)的圖像處理需求。例如,可以對圖像中包含的物體進(jìn)行檢測或識別,可應(yīng)用到無人駕駛或?qū)ぱb置中;可以對圖像中包含的物體進(jìn)行分類,可以應(yīng)用到軍事領(lǐng)域的偵測裝置中;可以對圖像進(jìn)行分割,可以應(yīng)用到進(jìn)一步的對物體的分析中。
作為對上述各圖所示方法的實現(xiàn),本申請?zhí)峁┝艘环N圖像處理裝置的一個實施例,該裝置實施例與圖1所示的方法實施例相對應(yīng),該裝置具體可以應(yīng)用于各種電子設(shè)備中。
如圖7所示,本實施例的圖像處理裝置700包括:第一特征提取單元701、注意力提取單元702、融合單元703以及第二特征提取單元704。
其中,第一特征提取單元701,用于提取待處理的圖像的特征,獲得上述圖像的第一特征圖。
注意力提取單元702,用于基于上述第一特征圖,生成上述圖像的注意力圖。
融合單元703,用于融合上述注意力圖和上述第一特征圖,獲得融合圖。
第二特征提取單元704,用于基于上述融合圖,再次提取上述圖像的特征。
在本實施例的一些可選的實現(xiàn)方式中,上述注意力提取單元702可以進(jìn)一步包括圖7中未示出的下采樣模塊和上采樣模塊。
下采樣模塊,用于對上述第一特征圖依次進(jìn)行n次下采樣處理,其中,n為大于或等于1的整數(shù);
上采樣模塊,用于對第n次下采樣處理后的特征圖依次進(jìn)行n次上采樣處理,獲得上述圖像的注意力圖,其中,上述注意力圖的分辨率與上述第一特征圖相同。
在本實施例的一些可選的實現(xiàn)方式中,上述下采樣模塊可以進(jìn)一步用于:對第n-n次下采樣處理后的特征圖和第n次上采樣處理后的特征圖進(jìn)行卷積操作;對卷積操作后的特征圖進(jìn)行第n+1次上采樣處理,n為大于1且小于n的整數(shù)。
在本實施例的一些可選的實現(xiàn)方式中,上述下采樣模塊還可以進(jìn)一步用于:對上述第n-n次下采樣處理后的特征圖進(jìn)行卷積處理,得到卷積圖;將上述卷積圖中各像素的特征值與第n次上采樣處理后的特征圖中相應(yīng)像素的特征值相加;對相加后的特征圖進(jìn)行卷積操作。
在本實施例的一些可選的實現(xiàn)方式中,上述上采樣模塊可以進(jìn)一步用于:對第n次下采樣處理后的特征圖進(jìn)行至少一次卷積操作;對最后一次卷積操作后的特征圖進(jìn)行第1次上采樣處理。在本實施例的一些可選的實現(xiàn)方式中,上述圖像處理裝置700還可以包括圖7中未示出的第二卷積單元,用于對上述第一特征圖進(jìn)行至少一次卷積操作。相應(yīng)的,融合單元703,用于融合上述注意力圖和最后一次卷積操作后的第一特征圖,獲得上述融合圖。
在本實施例的一些可選的實現(xiàn)方式中,上述圖像處理裝置700還可以包括圖7中未示出的歸一化單元,用于至少對上述注意力圖進(jìn)行歸一化處理。相應(yīng)的,融合單元703,用于融合歸一化處理后的注意力圖和上述第一特征圖,獲得上述融合圖。
在本實施例的一些可選的實現(xiàn)方式中,上述圖像處理裝置700還可以包括圖7中未示出的第二卷積單元,用于對上述注意力圖依次進(jìn)行至少一次卷積處理。相應(yīng)的,上述歸一化單元,用于對最后一次卷積處理后的注意力圖進(jìn)行歸一化處理。
在本實施例的一些可選的實現(xiàn)方式中,上述融合單元703還可以進(jìn)一步用于:將歸一化處理后的注意力圖中各像素的權(quán)重值與上述第一特征圖中相應(yīng)像素的特征值相乘,獲得上述融合圖。
在本實施例的一些可選的實現(xiàn)方式中,上述融合單元703還可以進(jìn)一步用于:將歸一化處理后的注意力圖中各像素的權(quán)重值與上述第一特征圖中相應(yīng)像素的特征值相乘,獲得相乘圖;將上述相乘圖中各像素的特征值與上述第一特征圖中相應(yīng)像素的特征值相加,獲得上述融合圖。
在本實施例的一些可選的實現(xiàn)方式中,上述圖像處理裝置700還可以包括圖7中未示出的以下至少一項:檢測單元、分類單元、分割單元。
其中,檢測單元,用于根據(jù)再次提取的上述圖像的特征,檢測或識別上述圖像中包括的物體。
分類單元,用于根據(jù)再次提取的上述圖像的特征,確定上述圖像中包括的物體的類別。
分割單元,用于根據(jù)再次提取的上述圖像的特征,對上述圖像進(jìn)行分割。
本申請的上述實施例提供的圖像處理裝置,首先提取待處理的圖像的特征,得到上述圖像的第一特征圖,基于上述第一特征圖,生成上述圖像的注意力圖,再將注意力圖和第一特征圖融合,最后再基于得到的融合圖再次提取上述圖像的特征,從而實現(xiàn)了將注意力機(jī)制引入到圖像處理中,有效地提高了從圖像中獲取信息的效率。
附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機(jī)程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機(jī)指令的組合來實現(xiàn)。
描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括第一特征提取單元、注意力提取單元、融合單元及第二特征提取單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對該單元本身的限定,例如,第一特征提取單元還可以被描述為“提取待處理的圖像的特征,獲得上述圖像的第一特征圖的單元”。
本發(fā)明實施例還提供了一種電子設(shè)備,例如可以是移動終端、個人計算機(jī)(pc)、平板電腦、服務(wù)器等。下面參考圖8,其示出了適于用來實現(xiàn)本申請實施例的終端設(shè)備或服務(wù)器的電子設(shè)備800的結(jié)構(gòu)示意圖:如圖8所示,計算機(jī)系統(tǒng)800包括一個或多個處理器、通信部等,上述一個或多個處理器例如:一個或多個中央處理單元(cpu)801,和/或一個或多個圖像處理器(gpu)813等,處理器可以根據(jù)存儲在只讀存儲器(rom)802中的可執(zhí)行指令或者從存儲部分808加載到隨機(jī)訪問存儲器(ram)803中的可執(zhí)行指令而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚?。通信?12可包括但不限于網(wǎng)卡,上述網(wǎng)卡可包括但不限于ib(infiniband)網(wǎng)卡。
處理器可與rom802和/或ram803通信以執(zhí)行可執(zhí)行指令,通過總線804與通信部812相連、并經(jīng)通信部812與其他目標(biāo)設(shè)備通信,從而完成本申請實施例提供的任一項方法對應(yīng)的操作,例如,提取待處理的圖像的特征,獲得上述圖像的第一特征圖;基于上述第一特征圖,生成上述圖像的注意力圖;融合上述注意力圖和上述第一特征圖,獲得融合圖;基于上述融合圖,再次提取上述圖像的特征。
此外,在ram803中,還可存儲有裝置操作所需的各種程序和數(shù)據(jù)。cpu801、rom802以及ram803通過總線804彼此相連。在有ram803的情況下,rom802為可選模塊。ram803存儲可執(zhí)行指令,或在運(yùn)行時向rom802中寫入可執(zhí)行指令,可執(zhí)行指令使cpu801執(zhí)行上述通信方法對應(yīng)的操作。輸入/輸出(i/o)接口805也連接至總線804。通信部812可以集成設(shè)置,也可以設(shè)置為具有多個子模塊(例如多個ib網(wǎng)卡),并在總線804鏈接上。
以下部件連接至i/o接口805:包括鍵盤、鼠標(biāo)等的輸入部分806;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚(yáng)聲器等的輸出部分807;包括硬盤等的存儲部分808;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分809。通信部分809經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器810也根據(jù)需要連接至i/o接口805??刹鹦督橘|(zhì)811,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器810上,以便于從其上讀出的計算機(jī)程序根據(jù)需要被安裝入存儲部分808。
需要說明的,如圖8所示的架構(gòu)僅為一種可選實現(xiàn)方式,在具體實踐過程中,可根據(jù)實際需要對上述圖8的部件數(shù)量和類型進(jìn)行選擇、刪減、增加或替換;在不同功能部件設(shè)置上,也可采用分離設(shè)置或集成設(shè)置等實現(xiàn)方式,例如gpu813和cpu801可分離設(shè)置或者可將gpu813集成在cpu801上,通信部可分離設(shè)置,也可集成設(shè)置在cpu801或gpu813上,等等。這些可替換的實施方式均落入本發(fā)明公開的保護(hù)范圍。
特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機(jī)軟件程序。例如,本公開的實施例包括一種計算機(jī)程序產(chǎn)品,其包括有形地包含在機(jī)器可讀介質(zhì)上的計算機(jī)程序,計算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼,程序代碼可包括對應(yīng)執(zhí)行本申請實施例提供的方法步驟對應(yīng)的指令,例如,提取待處理的圖像的特征,獲得上述圖像的第一特征圖;基于上述第一特征圖,生成上述圖像的注意力圖;融合上述注意力圖和上述第一特征圖,獲得融合圖;基于上述融合圖,再次提取上述圖像的特征。在這樣的實施例中,該計算機(jī)程序可以通過通信部分809從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)811被安裝。在該計算機(jī)程序被cpu801執(zhí)行時,執(zhí)行本申請的方法中限定的上述功能。
可能以許多方式來實現(xiàn)本發(fā)明的方法和裝置、設(shè)備。例如,可通過軟件、硬件、固件或者軟件、硬件、固件的任何組合來實現(xiàn)本發(fā)明的方法和裝置、設(shè)備。用于方法的步驟的上述順序僅是為了進(jìn)行說明,本發(fā)明的方法的步驟不限于以上具體描述的順序,除非以其它方式特別說明。此外,在一些實施例中,還可將本發(fā)明實施為記錄在記錄介質(zhì)中的程序,這些程序包括用于實現(xiàn)根據(jù)本發(fā)明的方法的機(jī)器可讀指令。因而,本發(fā)明還覆蓋存儲用于執(zhí)行根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。
本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發(fā)明限于所公開的形式。很多修改和變化對于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描述實施例是為了更好說明本發(fā)明的原理和實際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計適于特定用途的帶有各種修改的各種實施例。