一種基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法
【專利摘要】本發(fā)明公開了了一種基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法。本發(fā)明首先收集多種類別的商標(biāo)圖片以及不包含商標(biāo)的圖片,并對(duì)包含商標(biāo)的圖片進(jìn)行標(biāo)注。然后初始化卷積神經(jīng)網(wǎng)絡(luò),使用商標(biāo)樣本與非商標(biāo)樣本訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。在測(cè)試圖片過程中,首先使用目標(biāo)區(qū)域選擇方法選取測(cè)試圖片中可能包含商標(biāo)的候選窗口,并對(duì)候選窗口進(jìn)行顏色空間轉(zhuǎn)換和尺度縮放處理。然后將候選窗口輸入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行識(shí)別,并將識(shí)別為商標(biāo)的候選窗口在測(cè)試圖片中標(biāo)示出來。本發(fā)明通過卷積神經(jīng)網(wǎng)絡(luò)將目標(biāo)區(qū)域特征提取與識(shí)別相結(jié)合,避免特征設(shè)計(jì)帶來的不確定性,并且對(duì)于旋轉(zhuǎn)、平移、尺度變化有很好的不變性,基于分割的目標(biāo)區(qū)域選擇在提高檢測(cè)速度的同時(shí)降低了誤檢率。
【專利說明】一種基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于目標(biāo)檢測(cè)與識(shí)別領(lǐng)域,涉及從圖像中檢測(cè)特定目標(biāo)尤其是商標(biāo)的方法。
【背景技術(shù)】
[0002]目前,隨著電視、網(wǎng)絡(luò)等大量信息媒體的迅猛發(fā)展,海量的廣告信息充斥在人們的生活中,如何通過廣告中包含的商標(biāo)分析廣告來源,對(duì)信息進(jìn)行有效的篩選過濾,以保證廣告的有效性以及消費(fèi)者接受信息的數(shù)量,成為了一個(gè)值得關(guān)注的問題。
[0003]受尺度變換、視角變換、光照條件、遮擋、背景干擾等情況的影響,準(zhǔn)確的檢測(cè)和識(shí)別復(fù)雜場(chǎng)景中的商標(biāo)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。已有的多數(shù)目標(biāo)檢測(cè)與識(shí)別方法基于傳統(tǒng)特征,在商標(biāo)受角度變化、光照條件、輕微形變影響時(shí),識(shí)別率有所下降,無法應(yīng)用于日常生活。另外一方面,傳統(tǒng)方法采用多尺度滑動(dòng)窗口的方式遍歷圖片尋找目標(biāo),這種方式導(dǎo)致需要識(shí)別的窗口數(shù)量急劇增加,實(shí)時(shí)性比較差。
[0004]卷積神經(jīng)網(wǎng)絡(luò)(Convolut1nal Neural Networks, CNNs)作為深度神經(jīng)網(wǎng)絡(luò)的一種,是為識(shí)別二維形狀而特別設(shè)計(jì)的一個(gè)多層感知器。這種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)平移、比例縮放、傾斜或者共他形式的變形具有高度不變性,在目標(biāo)分類、識(shí)別等領(lǐng)域取得了非常好的效果。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于提供一種基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法。
[0006]為實(shí)現(xiàn)上述目的,本發(fā)明所述的基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法包括如下步驟:
I)建立包含多種商標(biāo)圖片和非商標(biāo)圖片的樣本集,標(biāo)注樣本中商標(biāo)所在的局部區(qū)域,并進(jìn)行樣本預(yù)處理。
[0007]2)使用商標(biāo)所在區(qū)域以及不含商標(biāo)的區(qū)域訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),用于識(shí)別多種商標(biāo)及非商標(biāo)。
[0008]3)輸入待檢測(cè)的圖片,對(duì)其進(jìn)行目標(biāo)區(qū)域選擇,獲取圖片中可能包含商標(biāo)的局部區(qū)域。
[0009]4)對(duì)步驟3)得到的可能包含商標(biāo)的圖片局部區(qū)域進(jìn)行預(yù)處理,預(yù)處理后的結(jié)果作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,判定待檢測(cè)圖片中是否包含目標(biāo)以及目標(biāo)的位置。
[0010]所述的樣本集共包含10類商標(biāo)樣本以及I類不包含任何商標(biāo)的樣本。其中包含商標(biāo)的圖片中商標(biāo)部分均大于60*60像素。
[0011]所述樣本圖片標(biāo)注的方法為,對(duì)于圖片中包含商標(biāo)的局部區(qū)域,標(biāo)記可以包圍該區(qū)域的矩形框,并記錄該矩形框在樣本圖片中的相對(duì)位置。
[0012]所述樣本預(yù)處理的方法為,將樣本圖片中包含商標(biāo)的矩形區(qū)域作為正樣本,從不包含任何商標(biāo)的圖片中隨機(jī)選取局部區(qū)域作為負(fù)樣本,不考慮樣本的長(zhǎng)寬比,統(tǒng)一縮放為大小為28*28的灰度圖,由于各個(gè)商標(biāo)類別所包含的初始樣本個(gè)數(shù)不同,需要對(duì)其中樣本較少的類別進(jìn)行擴(kuò)充。擴(kuò)充樣本的方法是將樣本中包含商標(biāo)的矩形區(qū)域進(jìn)行多角度的旋轉(zhuǎn),為了避免旋轉(zhuǎn)不規(guī)則角度后需要進(jìn)行圖片填充,從而引入噪聲,使用的旋轉(zhuǎn)角度為90。 ,180° 和 270。。
[0013]所述的卷積神經(jīng)網(wǎng)絡(luò)設(shè)置為7層,其中第I層為輸入層,接受大小為28*28的灰度圖像作為輸入,第7層為輸出層,共11個(gè)節(jié)點(diǎn),分別代表10個(gè)商標(biāo)類別和I個(gè)非商標(biāo)類別;卷積神經(jīng)網(wǎng)絡(luò)的第2層與第4層為卷積層,分別通過多個(gè)大小為5*5的卷積核提取圖片的不同特征,其中,第2層包含6個(gè)大小為24*24特征映射圖,第4層包含12個(gè)大小為8*8的特征映射圖;卷積神經(jīng)網(wǎng)絡(luò)的第3層與第5層為下采樣層,將所連接前一層的2*2的鄰域下采樣為I個(gè)像素,采樣的間隔為2,其中第3層包含6個(gè)12*12的特征映射圖,第5層包含12個(gè)4*4的特征映射圖;卷積神經(jīng)網(wǎng)絡(luò)的第6層為全連接層,與第5層公196個(gè)節(jié)點(diǎn)全連接。
[0014]所述的對(duì)于待檢測(cè)的圖片進(jìn)行目標(biāo)區(qū)域選擇為,基于圖像分割的方法,選擇其中可能包含目標(biāo)的少數(shù)區(qū)域輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別,從而避免基于滑動(dòng)窗口的檢測(cè)方法帶來的時(shí)間開銷以及對(duì)檢測(cè)準(zhǔn)確率的影響。
[0015]步驟4)中預(yù)處理的方法為,將區(qū)域轉(zhuǎn)化為灰度圖,不考慮區(qū)域的長(zhǎng)寬比,將區(qū)域縮放至28*28。
[0016]本發(fā)明的有益效果如下:
本發(fā)明方法是一種快速的基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法,它基于卷積神經(jīng)網(wǎng)絡(luò),直接使用二維圖像作為輸入,避免人為設(shè)計(jì)特征帶來的不確定性,同時(shí)對(duì)于商標(biāo)的旋轉(zhuǎn)、平移、尺度變化有很好的不變性。本發(fā)明采用一種基于分割的目標(biāo)區(qū)域選擇,篩選出測(cè)試圖片中可能包含商標(biāo)的目標(biāo)區(qū)域,大量減少了需要識(shí)別的區(qū)域,不僅極大的提高了檢測(cè)速度,同時(shí)降低了基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)的誤檢率。
[0017]與傳統(tǒng)方法相比,本發(fā)明通過卷積神經(jīng)網(wǎng)絡(luò)將目標(biāo)區(qū)域特征提取與識(shí)別相結(jié)合,這一方法能夠避免人為設(shè)計(jì)特征帶來的不確定性,同時(shí)對(duì)于旋轉(zhuǎn)、平移、尺度變化有很好的不變性。在目標(biāo)檢測(cè)的過程中,采用了一種基于分割的目標(biāo)區(qū)域選擇方法,在提高檢測(cè)速度的同時(shí)降低了誤檢率。
【專利附圖】
【附圖說明】
[0018]圖1是本發(fā)明基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法的流程示意圖;
圖2是本發(fā)明所述卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖;
圖3是本發(fā)明在測(cè)試圖片上的檢測(cè)結(jié)果示意圖。
【具體實(shí)施方式】
[0019]本發(fā)明提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法,該方法在已經(jīng)標(biāo)注的商標(biāo)樣本集上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。在測(cè)試的過程中,首先通過目標(biāo)區(qū)域選擇篩選測(cè)試圖片的局部區(qū)域作為候選窗口,用已訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。圖1是本發(fā)明基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法的流程圖。如圖1所示,本發(fā)明基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法包括以下步驟:
步驟1,建立包含多種商標(biāo)圖片和非商標(biāo)圖片的樣本集,標(biāo)注樣本中商標(biāo)所在的局部區(qū)域,并進(jìn)行樣本預(yù)處理。
[0020]本發(fā)明使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行商標(biāo)識(shí)別,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的特征,需要收集大量的商標(biāo)圖片以保證網(wǎng)絡(luò)的充分訓(xùn)練。因此,所構(gòu)造的樣本集應(yīng)包含多種商標(biāo)類別,每一類商標(biāo)應(yīng)包含不少于1000張的樣本圖片。
[0021]所收集的商標(biāo)圖片應(yīng)保證分辨率高于100*100,圖片中包含的對(duì)應(yīng)商標(biāo)應(yīng)不小于60*60,同時(shí)圖片中包含的商標(biāo)應(yīng)邊界清晰,沒有明顯的遮擋。
[0022]對(duì)樣本集中的圖片進(jìn)行標(biāo)注,記錄包圍商標(biāo)的矩形框的左上頂點(diǎn)坐標(biāo)以及矩形框的長(zhǎng)、寬等信息。本發(fā)明將樣本集中標(biāo)注的商標(biāo)區(qū)域進(jìn)行輕微的平移及多角度旋轉(zhuǎn),平移的步長(zhǎng)不超過3個(gè)像素,旋轉(zhuǎn)角度為90度的整數(shù)倍。通過上述方法將每一類商標(biāo)的樣本集擴(kuò)充到8000個(gè),并劃分為訓(xùn)練集和測(cè)試集兩部分,其中訓(xùn)練集包括7000個(gè)樣本,測(cè)試集包括1000個(gè)樣本。
[0023]本發(fā)明所述的方法用于檢測(cè)圖片中是否包含商標(biāo)及商標(biāo)的位置,因此所述卷積網(wǎng)絡(luò)需要識(shí)別圖片中的背景區(qū)域。本發(fā)明從不包含商標(biāo)的圖片中隨機(jī)的選取8000個(gè)局部圖片作為訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的非商標(biāo)樣本,所述的隨機(jī)選取包含隨機(jī)選取背景圖片的位置及尺寸。本發(fā)明共使用非商標(biāo)樣本8000個(gè),其中7000個(gè)樣本用于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),1000個(gè)樣本用于測(cè)試。
[0024]將上述步驟得到的商標(biāo)與非商標(biāo)樣本的圖像由RGB三通道轉(zhuǎn)變?yōu)閱瓮ǖ阑叶葓D像。本發(fā)明所述的卷積神經(jīng)網(wǎng)絡(luò)輸入為固定尺度的二維圖像,因此,將提取的全部樣本縮放至28*28像素。
[0025]步驟2,使用商標(biāo)所在區(qū)域以及不含商標(biāo)的區(qū)域訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),用于識(shí)別多種商標(biāo)及非商標(biāo)。
[0026]本發(fā)明所述卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示,包括輸入輸出層在內(nèi)共7層。卷積神經(jīng)網(wǎng)絡(luò)的輸入為上述步驟所得的28*28的二維圖像。圖中第2層至第5層為交替出現(xiàn)的卷積層與下采樣層。所述卷積層包括多個(gè)特征映射圖,每個(gè)特征映射圖通過一個(gè)大小為5*5的卷積濾波器提取輸入的一種特征,每個(gè)特征映射圖有多個(gè)神經(jīng)元,通過卷積運(yùn)算,可以增強(qiáng)原信號(hào)特征,并且降低噪音。所述下采樣層利用圖像局部相關(guān)的特性進(jìn)行抽樣,將所連接的上一卷積層大小為2*2的鄰域中最大像素值作為下采樣層對(duì)應(yīng)像素的值,減少了數(shù)據(jù)處理量,同時(shí)保留了有用信息。所述第6層為全連接層,第7層為輸出層。
[0027]卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與傳統(tǒng)的反饋神經(jīng)網(wǎng)絡(luò)算法相近。將訓(xùn)練樣本分為多個(gè)批次,每次使用一批樣本對(duì)網(wǎng)絡(luò)進(jìn)行更新。首先將樣本及類別標(biāo)簽(X,Yp)輸入卷積神經(jīng)網(wǎng)絡(luò),經(jīng)過卷積、下采樣等計(jì)算過程輸出實(shí)際類別標(biāo)簽0p。然后計(jì)算實(shí)際輸出Op與樣本正確類別Yp的差,按極小化誤差的方法反向傳播,調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0028]步驟3,輸入測(cè)試圖片,使用目標(biāo)區(qū)域選擇的方法篩選圖片中可能包含商標(biāo)的區(qū)域。
[0029]本發(fā)明所述目標(biāo)區(qū)域選擇方法參考文獻(xiàn)“Selective search for objectrecognit1n(Uijlings J R R, van de Sande K E A, Gevers T, Internat1nal journalof computer vis1n, 2013, 104(2): 154-171) ”中的方法,對(duì)圖片進(jìn)行分割產(chǎn)生初始區(qū)域,并計(jì)算相鄰區(qū)域的相似度,將最相似的區(qū)域進(jìn)行合并,逐層向上合并直至產(chǎn)生的區(qū)域包含整個(gè)圖片。
[0030]本發(fā)明所述目標(biāo)區(qū)域選擇方法使用HSV顏色空間,該顏色空間對(duì)光線強(qiáng)度、陰影及高光有很好的不變性。所述方法使用多種相似度度量方法進(jìn)行區(qū)域合并,包括顏色、紋理等,以保證所述方法產(chǎn)生的區(qū)域足夠完備。
[0031]將采用多種相似度度量方法生成的區(qū)域合并,并移除其中重復(fù)的區(qū)域。由于測(cè)試圖片的大小有所差別,每張測(cè)試圖片產(chǎn)生的候選區(qū)域數(shù)量不同,均不超過2000個(gè)候選區(qū)域,與多尺度滑動(dòng)窗口的方法相比,需要卷積網(wǎng)絡(luò)識(shí)別的區(qū)域數(shù)量大大減少。
[0032]步驟4,將步驟3選取的多個(gè)局部區(qū)域根據(jù)步驟2所述的樣本處理方法歸一化至28*28,輸入到步驟2所訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)中,卷積神經(jīng)網(wǎng)絡(luò)輸出各局部區(qū)域的類別。
[0033]步驟5,將步驟4中卷積神經(jīng)網(wǎng)絡(luò)識(shí)別為商標(biāo)的區(qū)域在測(cè)試圖片中進(jìn)行標(biāo)示,生成最終檢測(cè)結(jié)果,檢測(cè)結(jié)果如圖3所示。
[0034]最后,應(yīng)當(dāng)指出,以上實(shí)施例僅是本發(fā)明較有代表性的例子。本領(lǐng)域的普通技術(shù)人員可在不脫離本發(fā)明的發(fā)明思想情況下,對(duì)于上述實(shí)施例做出種種修改或變化,因而本發(fā)明的保護(hù)范圍并不被上述實(shí)施例所限,而應(yīng)該是符合權(quán)利要求書提到的創(chuàng)新性特征的最大范圍。
【權(quán)利要求】
1.一種基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法,其特征在于該方法包括如下步驟: 1)建立包含多種商標(biāo)圖片和非商標(biāo)圖片的樣本集,標(biāo)注樣本中商標(biāo)所在的局部區(qū)域,并進(jìn)行樣本預(yù)處理; 2)使用商標(biāo)所在區(qū)域以及不含商標(biāo)的區(qū)域訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),用于識(shí)別多種商標(biāo)及非商標(biāo); 3)輸入待檢測(cè)的圖片,對(duì)其進(jìn)行目標(biāo)區(qū)域選擇,獲取圖片中可能包含商標(biāo)的局部區(qū)域; 4)對(duì)步驟3)得到的可能包含商標(biāo)的圖片局部區(qū)域進(jìn)行預(yù)處理,預(yù)處理后的結(jié)果作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,判定待檢測(cè)圖片中是否包含目標(biāo)以及目標(biāo)的位置。
2.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法,其特征在于:所述的樣本集共包含10類商標(biāo)樣本以及I類不包含任何商標(biāo)的樣本;其中包含商標(biāo)的圖片中商標(biāo)部分均大于60*60像素。
3.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法,其特征在于:樣本圖片標(biāo)注的方法為,對(duì)于圖片中包含商標(biāo)的局部區(qū)域,標(biāo)記可以包圍該區(qū)域的矩形框,并記錄該矩形框在樣本圖片中的橫坐標(biāo)、縱坐標(biāo)以及長(zhǎng)和寬。
4.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法,其特征在于:樣本預(yù)處理的方法是將樣本圖片中包含商標(biāo)的矩形區(qū)域作為正樣本,從不包含任何商標(biāo)的圖片中隨機(jī)選取局部區(qū)域作為負(fù)樣本,不考慮樣本的長(zhǎng)寬比,統(tǒng)一縮放為大小為28*28的灰度圖,由于各個(gè)商標(biāo)類別所包含的初始樣本個(gè)數(shù)不同,需要對(duì)其中樣本較少的類別進(jìn)行擴(kuò)充。
5.根據(jù)權(quán)利要求4所述的擴(kuò)充樣本較少的類別的方法,其特征在于:將樣本中包含商標(biāo)的矩形區(qū)域進(jìn)行多角度的旋轉(zhuǎn),為了避免旋轉(zhuǎn)不規(guī)則角度后需要進(jìn)行圖片填充,從而引入噪聲,所述的通過旋轉(zhuǎn)擴(kuò)充樣本的方法使用的旋轉(zhuǎn)角度為90°、180°和270°。
6.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法,其特征在于:所述的卷積神經(jīng)網(wǎng)絡(luò)設(shè)置為7層,其中第I層為輸入層,接受大小為28*28的灰度圖像作為輸入,第7層為輸出層,共11個(gè)節(jié)點(diǎn),分別代表10個(gè)商標(biāo)類別和I個(gè)非商標(biāo)類別。
7.根據(jù)權(quán)利要求6所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法,其特征在于:卷積神經(jīng)網(wǎng)絡(luò)的第2層與第4層為卷積層,分別通過多個(gè)5*5的卷積核提取圖片的不同特征,其中,第2層包含6個(gè)大小為24*24特征映射圖,第4層包含12個(gè)大小為8*8的特征映射圖;卷積神經(jīng)網(wǎng)絡(luò)的第3層與第5層為下采樣層,將所連接前一層的2*2的鄰域下采樣為一個(gè)像素,采樣的間隔為2,其中第3層包含6個(gè)12*12的特征映射圖,第5層包含12個(gè)4*4的特征映射圖;卷積神經(jīng)網(wǎng)絡(luò)的第6層為全連接層,共196個(gè)節(jié)點(diǎn)。
8.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法,其特征在于:對(duì)于待檢測(cè)的圖片,首先對(duì)其進(jìn)行目標(biāo)區(qū)域選擇,基于圖像分割的方法,選擇其中可能包含目標(biāo)的少量區(qū)域輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別,從而避免基于滑動(dòng)窗口的檢測(cè)方法帶來的時(shí)間開銷以及對(duì)檢測(cè)準(zhǔn)確率的影響。
9.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的商標(biāo)檢測(cè)方法,其特征在于:步驟4)中的預(yù)處理具體是:將區(qū)域轉(zhuǎn)化為灰度圖,不考慮區(qū)域的長(zhǎng)寬比,將區(qū)域縮放至28*28。
【文檔編號(hào)】G06K9/66GK104077577SQ201410314802
【公開日】2014年10月1日 申請(qǐng)日期:2014年7月3日 優(yōu)先權(quán)日:2014年7月3日
【發(fā)明者】陳純, 張瑞, 宋明黎, 阮瑩, 周星辰, 卜佳俊 申請(qǐng)人:浙江大學(xué)