一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法

文檔序號(hào)：6547618閱讀：381來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法
【專利摘要】本發(fā)明公開了一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法，該方法包括：根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)；使用給定分類數(shù)據(jù)集對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練；使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)對訓(xùn)練集圖像提取特征表達(dá)；將測試圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)，并進(jìn)行分類。本發(fā)明方法基于非線性卷積特征學(xué)習(xí)，可以以數(shù)據(jù)驅(qū)動(dòng)的方式實(shí)現(xiàn)模型對數(shù)據(jù)集的自適應(yīng)，從而更好的描述特定的數(shù)據(jù)集，通過任務(wù)驅(qū)動(dòng)的方式直接對K近鄰的誤差進(jìn)行優(yōu)化，使其能夠在K近鄰任務(wù)上取得更好的性能；并且在訓(xùn)練階段可以采用GPU進(jìn)行高效訓(xùn)練，在測試階段只需使用CPU就可以實(shí)現(xiàn)高效的K近鄰圖像分類，非常適用于大規(guī)模的圖像分類、檢索等任務(wù)。
【專利說明】一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)視覺中圖像分類【技術(shù)領(lǐng)域】，特別涉及一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法。
【背景技術(shù)】
[0002]圖像分類是計(jì)算機(jī)視覺最基本的研究問題之一，其要解決的問題就是給定一張圖像自動(dòng)判斷其中是否包含某類物體。圖像分類問題是視覺研究一個(gè)核心課題，許多其他視覺研究都要依賴和涉及圖像分類問題，如圖像中物體檢測、跟蹤，圖像分割，視頻中物體分類、檢測、跟蹤，行為分析，手勢識(shí)別等。
[0003]K近鄰圖像分類是一種圖像分類方法，是指在對圖像分類時(shí)采用的是K近鄰?fù)镀钡姆绞?，即K個(gè)最近的圖像中出現(xiàn)次數(shù)最多的類別預(yù)測為該測試樣本的類別。除了可以簡單、高效地實(shí)現(xiàn)對圖像進(jìn)行分類外，K近鄰分類還有很多其他特性。比如K近鄰圖像分類能夠獲取與測試圖像最接近的樣本，可以應(yīng)用在圖像檢索、人臉檢索、視頻檢索等領(lǐng)域。
[0004]由于傳統(tǒng)技術(shù)中分類器的選擇與圖像特征表達(dá)是兩個(gè)獨(dú)立的過程，而且K近鄰分類是一個(gè)非參數(shù)模型，其預(yù)測嚴(yán)重依賴于數(shù)據(jù)的空間分布，也即圖像特征表達(dá)，這就導(dǎo)致圖像特征表達(dá)對K近鄰分類而言不是最優(yōu)的，對分類性能造成影響。
[0005]近年來，圖像分類領(lǐng)域發(fā)展迅速，在分類技術(shù)方面取得了很多重要突破。當(dāng)前，詞包模型是圖像特征表達(dá)主流框架之一。詞包模型通過對密集提取的圖像塊的底層特征描述進(jìn)行統(tǒng)計(jì)特征描述，獲得對圖像的整體特征表達(dá)。詞包模型通常由底層特征描述、視覺單詞生成、底層特征編碼、特征匯聚、分類器訓(xùn)練與測試等步驟構(gòu)成，在分類器訓(xùn)練前，我們可以認(rèn)為詞包模型采用的是無監(jiān)督的方式對圖像進(jìn)行表達(dá)，不論是傳統(tǒng)的SIFT、HOG等底層特征還是詞包模型中層特征表達(dá)，都沒有利用到圖像的標(biāo)簽信息，因而這樣的特征表達(dá)對于K近鄰分類這樣的無參數(shù)模型來說，通常不是最優(yōu)的。

【發(fā)明內(nèi)容】

[0006]有鑒于此，本發(fā)明的主要目的是提供一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法，以實(shí)現(xiàn)在大尺度圖像數(shù)據(jù)集上更加快速、準(zhǔn)確的圖像分類。
[0007]為了達(dá)到上述目的，本發(fā)明采用以下技術(shù)方案:
[0008]一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法，包括:
[0009]數(shù)據(jù)集準(zhǔn)備，根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)；
[0010]模型訓(xùn)練，使用給定分類數(shù)據(jù)集對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練；
[0011]使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)對訓(xùn)練集圖像進(jìn)行特征表達(dá)提取；
[0012]將測試圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)，使用K近鄰方式對測試圖像進(jìn)行分類。
[0013]進(jìn)一步的，所述數(shù)據(jù)集準(zhǔn)備，根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，還包括:
[0014]至少通過以下方式中的一種或多種實(shí)現(xiàn)數(shù)據(jù)增強(qiáng):1)從原始圖像隨機(jī)裁剪去圖像四周的邊緣部分以產(chǎn)生出新的具有細(xì)微差別的樣本圖像；2)在原始圖像像素中加入隨機(jī)高斯噪聲產(chǎn)生出新的樣本圖像。
[0015]進(jìn)一步的，所述數(shù)據(jù)集準(zhǔn)備，根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，還包括:
[0016]將圖像樣本縮放到固定尺寸，并將像素拉直成一個(gè)向量作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。
[0017]進(jìn)一步的，所述模型訓(xùn)練，使用給定分類數(shù)據(jù)集對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，具體還包括:
[0018]使用卷積神經(jīng)網(wǎng)絡(luò)作為基本特征變換模型；
[0019]基于鄰分量分析期望錯(cuò)誤率作為損失函數(shù)對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練；
[0020]基于梯度的優(yōu)化方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練，并使用GPU進(jìn)行運(yùn)算。
[0021]進(jìn)一步的，所述使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)對訓(xùn)練集圖像進(jìn)行提取特征表達(dá)，包括:
[0022]將所有訓(xùn)練圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)，取出最后一層全連接層的響應(yīng)作為每張訓(xùn)練圖像的特征表達(dá)。
[0023]進(jìn)一步的，將訓(xùn)練集圖像的特征表達(dá)構(gòu)造成KD-樹并預(yù)先存儲(chǔ)。
[0024]進(jìn)一步的，所述將測試圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)，使用K近鄰方式對測試圖像進(jìn)行分類，包括:
[0025]對于給定測試圖像，將該圖像縮放到卷積神經(jīng)網(wǎng)絡(luò)模型輸入大小，然后送入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行前向計(jì)算，取出最后一層全連接層的響應(yīng)作為該測試圖像的特征表達(dá)，使用該表達(dá)在訓(xùn)練集圖像的特征表達(dá)中進(jìn)行K近鄰檢索，將特征表達(dá)最近的K個(gè)訓(xùn)練圖像中出現(xiàn)次數(shù)最多的類別預(yù)測為該測試圖像的類別。
[0026]進(jìn)一步的，所述基于鄰分量分析期望錯(cuò)誤率作為損失函數(shù)對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，具體包括:
[0027]采用鄰分量分析NCA來對K近鄰分類誤差進(jìn)行估計(jì)，給定N對訓(xùn)練樣本{(Xi，Yi) | i=I,…，N},其中Xi是圖像樣本，Yi是其對應(yīng)的標(biāo)簽，對于一個(gè)樣本Xi來說，另一個(gè)樣本Xj與Xi屬于同一個(gè)類別的概率定義為
【權(quán)利要求】
1.一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法，其特征在于，包括: 數(shù)據(jù)集準(zhǔn)備，根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)；模型訓(xùn)練，使用給定分類數(shù)據(jù)集對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練；使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)對訓(xùn)練集圖像進(jìn)行特征表達(dá)提??；將測試圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)，使用K近鄰方式對測試圖像進(jìn)行分類。
2.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法，其特征在于，數(shù)據(jù)集準(zhǔn)備，根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，還包括: 至少通過以下方式中的一種或多種實(shí)現(xiàn)數(shù)據(jù)增強(qiáng):1)從原始圖像隨機(jī)裁剪去圖像四周的邊緣部分以產(chǎn)生出新的具有細(xì)微差別的樣本圖像；2)在原始圖像像素中加入隨機(jī)高斯噪聲產(chǎn)生出新的樣本圖像。
3.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法，其特征在于，數(shù)據(jù)集準(zhǔn)備，根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，還包括: 將圖像樣本縮放到固定尺寸，并將像素拉直成一個(gè)向量作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。
4.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法，其特征在于，模型訓(xùn)練，使用給定分類數(shù)據(jù)集對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，具體還包括: 使用卷積神經(jīng)網(wǎng)絡(luò)作為基本特征變換模型；基于鄰分量分析期望錯(cuò)誤率作為損失函數(shù)對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練；基于梯度的優(yōu)化方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練，并使用GPU進(jìn)行運(yùn)算。
5.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法，其特征在于，使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)對訓(xùn)練集圖像進(jìn)行提取特征表達(dá)，包括: 將所有訓(xùn)練圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)，取出最后一層全連接層的響應(yīng)作為每張訓(xùn)練圖像的特征表達(dá)。
6.根據(jù)權(quán)利要求5所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法，其特征在于，將訓(xùn)練集圖像的特征表達(dá)構(gòu)造成KD-樹并預(yù)先存儲(chǔ)。
7.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法，其特征在于，將測試圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)，使用K近鄰方式對測試圖像進(jìn)行分類，包括: 對于給定測試圖像，將該圖像縮放到卷積神經(jīng)網(wǎng)絡(luò)模型輸入大小，然后送入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行前向計(jì)算，取出最后一層全連接層的響應(yīng)作為該測試圖像的特征表達(dá)，使用該表達(dá)在訓(xùn)練集圖像的特征表達(dá)中進(jìn)行K近鄰檢索，將特征表達(dá)最近的K個(gè)訓(xùn)練圖像中出現(xiàn)次數(shù)最多的類別預(yù)測為該測試圖像的類別。
8.根據(jù)權(quán)利要求4所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法，其特征在于，基于鄰分量分析期望錯(cuò)誤率作為損失函數(shù)對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，具體包括: 采用鄰分量分析NCA來對K近鄰分類誤差進(jìn)行估計(jì)，給定N對訓(xùn)練樣本{(Xi, Yi) I i =.1，…，N}，其中，Xi是圖像樣本，yi是其對應(yīng)的標(biāo)簽，對于一個(gè)樣本Xi來說，另一個(gè)樣本Xj與Xi屬于同一個(gè)類別的概率定義為
9.根據(jù)權(quán)利要求4所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法，其特征在于，基于梯度的優(yōu)化方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練具體包括以下方式之一:隨機(jī)梯度下降、共軛梯度法、擬牛頓法、L-BFGS。
【文檔編號(hào)】G06K9/62GK103984959SQ201410224860
【公開日】2014年8月13日申請日期:2014年5月26日優(yōu)先權(quán)日:2014年5月26日
【發(fā)明者】黃凱奇, 任偉強(qiáng), 張俊格申請人:中國科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃凱奇;任偉強(qiáng);張俊格
技術(shù)所有人：中國科學(xué)院自動(dòng)化研究所
我是此專利的發(fā)明人

上一篇：一種先進(jìn)的冷軋機(jī)板形輥包角計(jì)算方法
上一篇：一種抗信號(hào)干擾的方法及裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法