本文所述的本主題總體上披露了一種用于檢測圖像中存在的對象的裝置和方法。換句話說,本技術(shù)披露了用于對象檢測的基于軟注意力的顯著性圖生成技術(shù)。
背景技術(shù):
1、有許多用于圖像中的對象檢測的算法,比如基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(r-cnn)、fast?r-cnn、faster?r-cnn、yolov2、單次檢測器(ssd)等。這些最先進(jìn)的算法在整個圖像中搜索目標(biāo)對象。這些算法在計算上效率低下,在生物學(xué)上也不可信。這會導(dǎo)致評估指標(biāo)性能較低,訓(xùn)練持續(xù)時間也較長。
2、在現(xiàn)實生活中,當(dāng)人類在圖像中搜索特定對象時,眼睛會在注視點之間快速移動(稱為掃視),然后才落到目標(biāo)對象上。眼睛移動的軌跡根據(jù)人類觀察者感興趣的對象而不同。每個注視點都表示圖像中人類所“關(guān)注”的區(qū)域。人類的視覺注意力被認(rèn)為是隨著眼睛移動而移動。然而,現(xiàn)有的技術(shù)傾向于處理整個輸入幀,而不是聚焦/搜索輸入幀中的判別特征。
3、因此,需要一種基于注意力的模型來定位圖像中的對象。
技術(shù)實現(xiàn)思路
1、本披露內(nèi)容克服了現(xiàn)有技術(shù)的一個或多個缺點并且提供了本披露內(nèi)容中討論的額外優(yōu)點。通過本披露內(nèi)容的技術(shù)實現(xiàn)了附加的特征和優(yōu)點。本文詳細(xì)描述了本披露內(nèi)容的其他實施例和方面,并且這些實施例和方面被視為所要求保護的本披露內(nèi)容的一部分。
2、在本披露內(nèi)容的一個非限制性實施例中,披露了一種用于檢測圖像中存在的對象的方法。該方法包括接收包括至少一個待檢測對象的輸入圖像,并通過使用軟注意力技術(shù)修改所接收的圖像的亮度來生成軟注意力圖像。該方法進(jìn)一步敘述了使用第一cnn模型處理所接收的輸入圖像以提取第一特征圖,并使用第二cnn模型處理軟注意力圖像以提取第二特征圖。該方法進(jìn)一步敘述了整合第一特征圖和第二特征圖以生成堆疊特征圖、處理堆疊特征圖以生成顯著性圖以及基于顯著性圖檢測至少一個對象。
3、在另一個非限制性實施例中,本披露內(nèi)容敘述了生成軟注意力圖像包括將所接收的輸入圖像的亮度通道乘以多元高斯函數(shù),使得所接收的輸入圖像的亮度被修改為在該多元高斯函數(shù)的中心處較高,并且隨著與該多元高斯函數(shù)中心的距離增加而降低。
4、在另一個非限制性實施例中,本披露內(nèi)容敘述了軟注意力圖像是通過以下方式生成的:將所接收的輸入圖像轉(zhuǎn)換為包括亮度通道的hsv圖像;將該hsv圖像的亮度通道乘以多元高斯函數(shù),使得該hsv圖像的亮度被修改為在該多元高斯函數(shù)的中心處較高,并且隨著與該多元高斯函數(shù)中心的距離增加而降低;在修改該hsv圖像的亮度之后,將修改后的hsv圖像轉(zhuǎn)換為rgb圖像,以生成該軟注意力圖像。
5、在另一個非限制性實施例中,本披露內(nèi)容敘述了基于顯著性圖檢測至少一個對象包括檢測該顯著性圖中的最高活動度,其中,該最高活動度對應(yīng)于該對象的位置。
6、在又一個非限制性實施例中,本披露內(nèi)容敘述了檢測顯著性圖中的最高活動度包括在該顯著性圖上創(chuàng)建多個輪廓;通過計算每個輪廓內(nèi)的平均像素值來計算每個輪廓的密度,其中,選擇密度最高的輪廓作為該對象的位置。
7、在又一個非限制性實施例中,本披露內(nèi)容敘述了該第一特征圖和該第二特征圖分別是使用一個或多個特征檢測器對所接收的圖像和該軟注意力圖像進(jìn)行卷積運算來生成的,并且該第一特征圖和該第二特征圖是矩陣的集合,其中,該矩陣集合包括表示所接收的輸入圖像和該軟注意力圖像的顏色、紋理、形狀和亮度中的至少一者的像素值。
8、在又一個非限制性實施例中,本披露內(nèi)容敘述了該堆疊特征圖包括從該第一特征圖和該第二特征圖的矩陣集合中獲得的合并矩陣,其中,合并矩陣包括表示所接收的輸入圖像和該軟注意力圖像的顏色、紋理、形狀和亮度中的至少一者的合并像素值。該顯著性圖包括從這些合并矩陣獲得的顯著性矩陣,其中,這些顯著性矩陣的顯著性像素值是所接收的輸入圖像內(nèi)的指示所接收的輸入圖像中的至少一個待檢測對象的區(qū)域。
9、在又一個非限制性實施例中,本披露內(nèi)容披露了一種檢測圖像中存在的對象的裝置。該裝置包括輸入/輸出(i/o)接口,其被配置為接收包括至少一個待檢測對象的輸入圖像。該裝置進(jìn)一步包括與該i/o接口操作性地耦合的軟注意力圖像生成單元。該軟注意力生成單元被配置為通過使用軟注意力技術(shù)修改所接收的圖像的亮度來生成軟注意力圖像。該裝置進(jìn)一步包括與該i/o接口和該軟注意力圖像生成單元操作性地耦合的注意力搜索單元。該注意力搜索單元被配置為使用第一cnn模型處理所接收的圖像以提取第一特征圖,使用第二cnn模型處理該軟注意力圖像以提取第二特征圖,使用整合模型整合該第一特征圖和該第二特征圖以生成堆疊特征圖,以及使用圖生成模型處理該堆疊特征圖以生成該顯著性圖。該裝置進(jìn)一步包括與該i/o接口、該軟注意力圖像生成單元和該注意力搜索單元操作性地耦合的處理單元。該處理單元被配置為基于該顯著性圖檢測該至少一個對象。
10、在又一個非限制性實施例中,本披露內(nèi)容敘述了生成軟注意力圖像,該軟注意力圖像生成單元被配置為將所接收的輸入圖像的亮度通道乘以多元高斯函數(shù),使得所接收的輸入圖像的亮度被修改為在該多元高斯函數(shù)的中心處較高,并且隨著與該多元高斯函數(shù)中心的距離增加而降低。
11、在又一非限制性實施例中,本披露內(nèi)容敘述了為了生成軟注意力圖像,該軟注意力圖像生成單元被配置為將所接收的輸入圖像轉(zhuǎn)換為包括亮度通道的hsv圖像;將該hsv圖像的亮度通道乘以多元高斯函數(shù),使得該hsv圖像的亮度被修改為在該多元高斯函數(shù)的中心處較高,并且隨著與該多元高斯函數(shù)中心的距離增加而降低;以及在修改該hsv圖像的亮度之后,將修改后的hsv圖像轉(zhuǎn)換為rgb圖像,以生成該軟注意力圖像。
12、在本披露內(nèi)容的又一個非限制性實施例中,為了基于該顯著性圖檢測該至少一個對象,該處理單元被配置為檢測該顯著性圖中的最高活動度,其中,該最高活動度對應(yīng)于該對象的位置。
13、在本披露內(nèi)容的又一個非限制性實施例中,為了檢測顯著性圖中的最高活動度,該處理單元被配置為在該顯著性圖上創(chuàng)建多個輪廓,并且通過計算每個輪廓內(nèi)的平均像素值來計算每個輪廓的密度。選擇密度最高的輪廓作為該對象的位置。
14、在本披露內(nèi)容的又一個非限制性實施例中,本技術(shù)披露了該第一特征圖和該第二特征圖分別是使用一個或多個特征檢測器對所接收的輸入圖像和軟注意力圖像進(jìn)行卷積運算來生成的。該第一特征圖和該第二特征圖是矩陣的集合,其中,該矩陣集合包括表示所接收的輸入圖像和該軟注意力圖像的顏色、紋理、形狀和亮度中的至少一者的像素值。
15、
16、在又一非限制性實施例中,本披露內(nèi)容敘述了該堆疊特征圖包括從該第一特征圖和該第二特征圖的矩陣集合中獲得的合并矩陣,其中,合并矩陣包括表示所接收的輸入圖像和該軟注意力圖像兩者的顏色、紋理、形狀和亮度中的至少一者的合并像素值,并且該顯著性圖包括從這些合并矩陣獲得的顯著性矩陣,其中,這些顯著性矩陣的顯著性像素值是所接收的輸入圖像內(nèi)的指示所接收的輸入圖像中的至少一個待檢測對象的區(qū)域。
17、前面的
技術(shù)實現(xiàn)要素:
僅是說明性的而不旨在以任何方式進(jìn)行限制。除了以上描述的說明性方面、實施例和特征之外,通過參考附圖和以下詳細(xì)描述,進(jìn)一步的方面、實施例和特征將變得顯而易見。