專利名稱:一種基于多分類支持向量機的集裝箱箱號識別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機圖像處理技術(shù)領(lǐng)域,涉及集裝箱箱號自動識別技術(shù)。
背景技術(shù):
集裝箱是一種綜合性的大型周轉(zhuǎn)貨箱,集裝箱號指裝運出口貨物的集裝箱箱號, 全球所有的集裝箱都具有一個唯一的箱號與之對應(yīng)。標(biāo)準(zhǔn)箱號構(gòu)成基本概念采用IS06346標(biāo)準(zhǔn)1.第一部分由4位英文字母組成。前三位代碼主要說明箱主、經(jīng)營人,第四位代碼說明集裝箱類型。例如CBHU開頭的標(biāo)準(zhǔn)裝箱是表明箱主和經(jīng)營人為中遠集運。2.第二部分由6位數(shù)字組成。是箱體注冊碼,用于一個集裝箱箱體特有的唯一標(biāo)識。3.第三部分為校驗碼由前四位字母和6位數(shù)字經(jīng)過校驗規(guī)則運算得到,用于識別在校驗時是否發(fā)生錯誤。即第11位數(shù)字。本發(fā)明中集裝箱箱號識別是一種視頻光學(xué)字符自動識別,利用計算機視覺技術(shù)來完成對集裝箱箱號的識別。集裝箱箱號識別系統(tǒng)一般要求能實時識別通過港口的集裝箱箱號并通過計算機檢索系統(tǒng)查詢集裝箱的信息。典型的集裝箱箱號識別方法可以分為四個過程箱號采集、箱號定位、箱號字符分割和字符識別,而如何進行精確的字符識別是影響集裝箱箱號識別系統(tǒng)識別率高低的一個關(guān)鍵問題。雖然集裝箱箱號識別可以借鑒現(xiàn)有的一些通用的計算機字符識別方法,但很難達到理想的效果,究其原因,是因為集裝箱箱號字符識別具有自身的特點,而一般通用的字符識別方法都沒有將這些特點考慮進去,識別的效果不好也在情理之中,其特點為字符集小 (數(shù)字和字母)、箱號字體沒有統(tǒng)一的印刷標(biāo)準(zhǔn)(箱號字體的印刷因集裝箱所屬公司而有所不同)、干擾和幾何變形較多(如集裝箱背面還存在著很多非箱號的其他字符)、甚至出現(xiàn)箱號破損的情況。而且集裝箱箱號字符識別要求更高的識別率,上下文字符也沒有語義和概率上的相關(guān)性?,F(xiàn)有的計算機字符識別主要有以下幾種方法1.模板匹配的方法,利用字符輪廓、骨干、網(wǎng)絡(luò)或者投影等特征,與標(biāo)準(zhǔn)字符比對分類。但是,由于實際應(yīng)用集裝箱字符中存在的干擾和變形,因此常常沒有得到理想的效^ ο2.按字符特征分類的方法,找出能夠區(qū)別字符集中字符的特征集,如字符像素比例、孔洞數(shù)、字形結(jié)構(gòu)、筆畫特征等。由于特征算法實現(xiàn)起來比較困難,而且同樣由于噪聲干擾的問題,這一方法的識別率不高。3.神經(jīng)網(wǎng)絡(luò)的方法是目前比較成功的方法。但是要求輸入數(shù)據(jù)較多和網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計復(fù)雜等問題
發(fā)明內(nèi)容
本發(fā)明提供一種基于多分類支持向量機的集裝箱箱號識別方法,該方法基于多分類支持向量機,利用其良好的分類能力,直接對提取出來的集裝箱箱號字符進行自動分類識別,具有更高的識別率。本發(fā)明技術(shù)方案如下一種基于多分類支持向量機的集裝箱箱號識別方法,如
圖1所示,包括多分類支持向量機的訓(xùn)練過程和使用多分類支持向量機進行集裝箱箱號的識別過程一、多分類支持向量機的訓(xùn)練過程,包括如下步驟步驟1 字符圖像的二值化和歸一化處理。采集足夠多的集裝箱箱號字符圖像;然后對采集的所有集裝箱箱號字符圖像進行二值化處理、并歸一化成寬度為M個像素、高度為N個像素大小的尺寸。歸一化后的二值化集裝箱箱號字符圖像集記為圖像集Train。二值化閾值的取值范圍可取為[90,130],歸一化后的二值化集裝箱箱號字符圖像寬度M最好為16像素,高度N最好為32像素。步驟2 將步驟1所得的圖像集Train分成個字母圖像集Train_C_I和數(shù)字圖像集Train_N_I,其中字母圖像集Train_C_I包括A Z共計沈個子集,數(shù)字圖像集Train_ N_I包括0 9共計10個子集。步驟3 計算步驟2所得各個子集中所有圖像的特征向量,得到字母特征向量集 Train_C_V和數(shù)字特征向量集Train_N_V,其中字母特征向量集I~rain_C_V包括沈個子集, 數(shù)字特征向量集Train_N_V包括10個子集。所述特征向量為一個MXN+1維的行向量,其中前MXN維由每幅二值圖像的像素值按行首尾相接依次排列而成,第MXN+1維是區(qū)別36 個子集的標(biāo)簽。步驟4 將字母特征向量集Train_C_V中所有特征向量組合成字母特征向量矩陣 Train_C_V_M,同時將數(shù)字特征向量集Train_N_V中所有特征向量組合成數(shù)字特征向量矩陣 Train_N_V_M。步驟5 建立兩個多分類支持向量機分類器SV。和SVN。構(gòu)建兩個多分類支持向量機,分別采用字母特征向量矩陣Train_C_V_M和數(shù)字特征向量矩陣Train_N_V_M進行訓(xùn)練,訓(xùn)練過程中采用Adaboost算法,得到兩個多分類支持向量機分類器SVe和SVn。二、使用多分類支持支持向量機進行集裝箱箱號識別的過程,具體包括以下步驟步驟6 采集待識別集裝箱箱號圖像,經(jīng)定位、分割處理后得到11個的待識別的集裝箱箱號字符圖像;再對11個待識別的集裝箱箱號字符圖像進行步驟1所述的二值化和歸
一化處理。步驟7 計算11個歸一化后的二值化待識別集裝箱箱號字符圖像的特征向量,并將11個特征向量按待識別集裝箱箱號字符圖像在待識別集裝箱箱號中的位置順序依次定義為HL、)^。所述特征向量由每幅圖像的灰度值按行依次排列成。步驟8 對11個特征向量進行分類識別。由于集裝箱箱號由11個字符組成,11個字符中,前4個字符為英文字母,后7個字符為阿拉伯?dāng)?shù)字;所以對& &這4個特征向量,采用多分類支持向量機分類器SVc進行識別,得到待識別集裝箱箱號第1至第4個的標(biāo)簽,進而得到待識別集裝箱箱號第1至第4個字符識別結(jié)果;對X5 X11這7個特征向量,采用多分類支持向量機分類器SVn進行識另Ij,得到待識別集裝箱箱號第5至第11個的標(biāo)簽,進而得到待識別集裝箱箱號第5至第11 個字符識別結(jié)果。需要說明的是1、步驟1中,采集集裝箱箱號字符圖像時,應(yīng)當(dāng)在各種光照條件下采集,且保證每種字符的采集數(shù)量在20個以上。2、本發(fā)明所述的多分類支持向量機,對于內(nèi)核函數(shù)并沒有特別的限定,但若采用徑向基核函數(shù),會使得最終的識別準(zhǔn)確率更高。3、考慮到多分類支持向量機的特性,本發(fā)明在多分類向量機的訓(xùn)練過程中,采集集裝箱箱號字符圖像時,所采集的各種字符圖像的數(shù)量應(yīng)基本一致,以保證各字符平等地參與訓(xùn)練,從而減少由于訓(xùn)練次數(shù)差異帶來的識別偏差本發(fā)明的有益效果是本發(fā)明創(chuàng)新性地將多分類支持向量機和Adaboost算法應(yīng)用于集裝箱箱號識別, 利用其良好的分類能力,直接對提取出來的字符分類,相比于其他同領(lǐng)域的方案具有更高的識別率。本發(fā)明區(qū)別對待集裝箱箱號字符的前4位和后7位字符,將字符二值化圖像特征向量分成兩個集合,分別構(gòu)造兩個多分類支持向量機,并在識別過程中采用不同的支持向量機對需要識別的集裝箱箱號字符進行逐一識別,大大減少了計算量。
具體實施例方式一種基于多分類支持向量機的集裝箱箱號識別方法,如圖1所示,包括多分類支持向量機的訓(xùn)練過程和使用多分類支持向量機進行集裝箱箱號的識別過程一、多分類支持向量機的訓(xùn)練過程,包括如下步驟步驟1 字符圖像的二值化和歸一化處理。采集足夠多的集裝箱箱號字符圖像;然后對采集的所有集裝箱箱號字符圖像進行二值化處理、并歸一化成寬度為M個像素、高度為N個像素大小的尺寸。歸一化后的二值化集裝箱箱號字符圖像集記為圖像集Train。二值化閾值的取值范圍可取為[90,130],歸一化后的二值化集裝箱箱號字符圖像寬度M最好為16像素,高度N最好為32像素。步驟2 將步驟1所得的圖像集Train分成個字母圖像集Train_C_I和數(shù)字圖像集Train_N_I,其中字母圖像集Train_C_I包括A Z共計26個子集,數(shù)字圖像集Train_ N_I包括0 9共計10個子集。步驟3 計算步驟2所得各個子集中所有圖像的特征向量,得到字母特征向量集 Train_C_V和數(shù)字特征向量集Train_N_V,其中字母特征向量集Train_C_V包括26個子集, 數(shù)字特征向量集Train_N_V包括10個子集。所述特征向量為一個MXN+1維的行向量,其中前MXN維由每幅二值圖像的像素值按行首尾相接依次排列而成,第MXN+1維是區(qū)別36 個子集的標(biāo)簽。步驟4 將字母特征向量集Train_C_V中所有特征向量組合成字母特征向量矩陣 Train_C_V_M,同時將數(shù)字特征向量集Train_N_V中所有特征向量組合成數(shù)字特征向量矩陣 Train_N_V_M0步驟5 建立兩個多分類支持向量機分類器SV。和SVN。
構(gòu)建兩個多分類支持向量機,分別采用字母特征向量矩陣Train_C_V_M和數(shù)字特征向量矩陣Train_N_V_M進行訓(xùn)練,訓(xùn)練過程中采用Adaboost算法,得到兩個多分類支持向量機分類器SVe和SVn。二、使用多分類支持支持向量機進行集裝箱箱號識別的過程,具體包括以下步驟步驟6 采集待識別集裝箱箱號圖像,經(jīng)定位、分割處理后得到11個的待識別的集裝箱箱號字符圖像;再對11個待識別的集裝箱箱號字符圖像進行步驟1所述的二值化和歸
一化處理。步驟7 計算11個歸一化后的二值化待識別集裝箱箱號字符圖像的特征向量,并將11個特征向量按待識別集裝箱箱號字符圖像在待識別集裝箱箱號中的位置順序依次定義為HL、)^。所述特征向量由每幅圖像的灰度值按行依次排列成。步驟8 對11個特征向量進行分類識別。由于集裝箱箱號由11個字符組成,11個字符中,前4個字符為英文字母,后7個字符為阿拉伯?dāng)?shù)字;所以對& &這4個特征向量,采用多分類支持向量機分類器SVc進行識別,得到待識別集裝箱箱號第1至第4個的標(biāo)簽,進而得到待識別集裝箱箱號第1至第 4個字符識別結(jié)果;對\ X11這7個特征向量,采用多分類支持向量機分類器SVn進行識別,得到待識別集裝箱箱號第5至第11個的標(biāo)簽,進而得到待識別集裝箱箱號第5至第11 個字符識別結(jié)果。
權(quán)利要求
1.一種基于多分類支持向量機的集裝箱箱號識別方法,包括多分類支持向量機的訓(xùn)練過程和使用多分類支持向量機進行集裝箱箱號的識別過程一、多分類支持向量機的訓(xùn)練過程,包括如下步驟步驟1 字符圖像的二值化和歸一化處理;采集足夠多的集裝箱箱號字符圖像;然后對采集的所有集裝箱箱號字符圖像進行二值化處理、并歸一化成寬度為M個像素、高度為N個像素大小的尺寸;歸一化后的二值化集裝箱箱號字符圖像集記為圖像集I^ain ;步驟2 將步驟1所得的圖像集Train分成個字母圖像集Train_C_I和數(shù)字圖像集 ε η_Ν_Ι,其中字母圖像集I~rain_C_I包括A Z共計沈個子集,數(shù)字圖像集Train_N_I 包括0 9共計10個子集;步驟3:計算步驟2所得各個子集中所有圖像的特征向量,得到字母特征向量集Train_ C_V和數(shù)字特征向量集Train_N_V,其中字母特征向量集Train_C_V包括沈個子集,數(shù)字特征向量集Train_N_V包括10個子集;所述特征向量為一個MXN+1維的行向量,其中前MXN 維由每幅二值圖像的像素值按行首尾相接依次排列而成,第MXN+1維是區(qū)別36個子集的標(biāo)簽;步驟4:將字母特征向量集Train_C_V中所有特征向量組合成字母特征向量矩陣 Train_C_V_M,同時將數(shù)字特征向量集Train_N_V中所有特征向量組合成數(shù)字特征向量矩陣 Train_N_V_M ;步驟5 建立兩個多分類支持向量機分類器SV。和SVn ;構(gòu)建兩個多分類支持向量機,分別采用字母特征向量矩陣Train_C_V_M和數(shù)字特征向量矩陣Train_N_V_M進行訓(xùn)練,訓(xùn)練過程中采用Adaboost算法,得到兩個多分類支持向量機分類器SVe和SVn ;二、使用多分類支持支持向量機進行集裝箱箱號識別的過程,具體包括以下步驟步驟6 采集待識別集裝箱箱號圖像,經(jīng)定位、分割處理后得到11個的待識別的集裝箱箱號字符圖像;再對11個待識別的集裝箱箱號字符圖像進行步驟1所述的二值化和歸一化處理;步驟7 計算11個歸一化后的二值化待識別集裝箱箱號字符圖像的特征向量,并將11 個特征向量按待識別集裝箱箱號字符圖像在待識別集裝箱箱號中的位置順序依次定義為 X1^ x2> La110所述特征向量由每幅圖像的灰度值按行依次排列成;步驟8 對11個特征向量進行分類識別;由于集裝箱箱號由11個字符組成,11個字符中,前4個字符為英文字母,后7個字符為阿拉伯?dāng)?shù)字;所以對& &這4個特征向量,采用多分類支持向量機分類器SV。進行識別, 得到待識別集裝箱箱號第1至第4個的標(biāo)簽,進而得到待識別集裝箱箱號第1至第4個字符識別結(jié)果;對\ X11這7個特征向量,采用多分類支持向量機分類器SVn進行識別,得到待識別集裝箱箱號第5至第11個的標(biāo)簽,進而得到待識別集裝箱箱號第5至第11個字符識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于多分類SVM-Adaboost的集裝箱箱號識別方法,其特征在于,步驟1對采集的所有集裝箱箱號字符圖像進行二值化處理時,二值化閾值的取值范圍為[90,130]。
3.根據(jù)權(quán)利要求1所述的基于多分類SVM-Adaboost的集裝箱箱號識別方法,其特征在于,步驟1中歸一化后的二值化集裝箱箱號字符圖像寬度M為16像素,高度N為32像素。
4.根據(jù)權(quán)利要求1所述的基于多分類SVM-Adaboost的集裝箱箱號識別方法,其特征在于,步驟1采集集裝箱箱號字符圖像時,應(yīng)當(dāng)在各種光照條件下采集,且保證每種字符的采集數(shù)量在20個以上。
5.根據(jù)權(quán)利要求1所述的基于多分類SVM-Adaboost的集裝箱箱號識別方法,其特征在于,所述多分類支持向量機的內(nèi)核函數(shù)采用徑向基核函數(shù)。
6.根據(jù)權(quán)利要求1所述的基于多分類SVM-Adaboost的集裝箱箱號識別方法,其特征在于,在多分類向量機的訓(xùn)練過程中,采集集裝箱箱號字符圖像時,所采集的各種字符圖像的數(shù)量一致。
全文摘要
一種基于多分類支持向量機的集裝箱箱號識別方法,屬于計算機圖像處理技術(shù)領(lǐng)域。首先采集集裝箱箱號字符圖像,經(jīng)二值化和歸一化處理后分成字母圖像集和數(shù)字圖像集;然后構(gòu)建兩個多分類支持向量機,分別采用字母圖像集和數(shù)字圖像集的特征向量矩陣進行訓(xùn)練,訓(xùn)練過程中采用Adaboost算法,得到兩個多分類支持向量機分類器SVC和SVN;箱號識別過程中,將待識別集裝箱箱號分割成11個字符圖像,經(jīng)二值化和歸一化處理后,將第1至第4個特征向量輸入到SVC進行識別,第5至第11個特征向量輸入到SVN進行識別。本發(fā)明創(chuàng)新性地將支持向量機和Adaboost算法結(jié)合起來應(yīng)用于集裝箱箱號字符識別,相比于其他同領(lǐng)域的技術(shù)方案具有更高的識別率和較小的計算量。
文檔編號G06K9/66GK102289683SQ20111016879
公開日2011年12月21日 申請日期2011年6月22日 優(yōu)先權(quán)日2011年6月22日
發(fā)明者王偉, 馬爭 申請人:電子科技大學(xué)