本發(fā)明涉及模式識(shí)別技術(shù)領(lǐng)域,具體涉及基于屬性學(xué)習(xí)的圖像識(shí)別方法。
背景技術(shù):
圖像識(shí)別是模式識(shí)別的一個(gè)重要應(yīng)用,圖像處理與識(shí)別技術(shù)始于20世紀(jì)中葉。1964年美國(guó)噴射推進(jìn)實(shí)驗(yàn)室(JPL)使用計(jì)算機(jī)對(duì)太空船送回的大批月球照片處理后得到了清晰逼真的圖像,這是圖像處理技術(shù)發(fā)展的重要里程碑,推動(dòng)了這門學(xué)科的誕生。
當(dāng)前智能手機(jī)設(shè)備仍受到一些硬件上的限制,如處理速率較低、運(yùn)行內(nèi)存較小、系統(tǒng)空間有限、待機(jī)時(shí)間較短等等,而常見的圖像識(shí)別技術(shù)往往需要很大的運(yùn)算量以及存儲(chǔ)空間,對(duì)運(yùn)行的硬件平臺(tái)具有較高的要求,因此利用移動(dòng)智能設(shè)備進(jìn)行圖像識(shí)別處理仍然存在一定的困難。但是,隨著手機(jī)照相分辨率不斷提升,帶有攝像頭的智能手機(jī)價(jià)格不斷降低,通過智能手機(jī)獲取圖片也成為一項(xiàng)主流的低成本圖像采集技術(shù),逐漸得到了廣泛應(yīng)用。
傳統(tǒng)的圖像識(shí)別方法有自適應(yīng)增強(qiáng)(Adaboost)和支持向量機(jī)(SVM)方法,它們?cè)趫D像識(shí)別上都取得了不錯(cuò)的結(jié)果。然而,為了達(dá)到良好的分類精度,這些系統(tǒng)需要很多人工標(biāo)注的訓(xùn)練數(shù)據(jù),對(duì)于每一類需要訓(xùn)練學(xué)習(xí)的對(duì)象通常有數(shù)百或數(shù)千的示例圖像。據(jù)估計(jì),人類能區(qū)分至少30000個(gè)相關(guān)對(duì)象類。為所有這些目標(biāo)類訓(xùn)練常規(guī)的分類器可能需要數(shù)以億計(jì)的標(biāo)注過的圖像,這是一個(gè)幾乎不可能完成的目標(biāo)。因此,許多減少訓(xùn)練圖像數(shù)量的方法被開發(fā)出來,但是所有這些學(xué)習(xí)方法仍然需要一些標(biāo)記過的訓(xùn)練實(shí)例來檢測(cè)可能的測(cè)試樣例。
最近的研究工作提出了使用圖像固有屬性進(jìn)行分類的方法。屬性是指可以由人指定名稱并且能在圖像中觀察到的特性(例如,“條紋”,“喇叭狀”)。它們都是有價(jià)值的新的語義線索。研究人員已經(jīng)顯示了它們?cè)诿娌框?yàn)證、目標(biāo)識(shí)別、對(duì)陌生對(duì)象描述,還有促進(jìn)‘零訓(xùn)練樣本’遷移學(xué)習(xí)方面的作用。一個(gè)對(duì)象除了它的類別之外,還有許多其他的特性。例如,一雙鞋子是黑色的,一件襯衫是帶條紋的,盤子是圓的,這些視覺屬性對(duì)認(rèn)識(shí)對(duì)象的外觀和把該對(duì)象描述給其他人是非常重要的。此外,不同的對(duì)象類別往往有共同的屬性,將它們模塊化后會(huì)明確地允許部分學(xué)習(xí)任務(wù)之間共享關(guān)聯(lián)到的屬性,或者允許以前學(xué)習(xí)到關(guān)于屬性的知識(shí)遷移到一個(gè)新的類別上面,這會(huì)減少訓(xùn)練需要的圖像數(shù)目并提高魯棒性。并且屬性作為級(jí)聯(lián)分類器的中間層,它們使得我們能夠檢測(cè)那些沒有訓(xùn)練樣本的對(duì)象類別。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服以往基于底層特征的圖像識(shí)別方法缺陷,提出一種基于屬性學(xué)習(xí)的圖像識(shí)別方法,并包含了屬性集自動(dòng)確定和用戶交互反饋等方案。此方法能夠在無監(jiān)督條件下提取圖像的優(yōu)選特征,并以具有較好語義表達(dá)能力的屬性作為區(qū)分個(gè)體的介質(zhì),且在由于光線、視角等因素而造成部分屬性缺失時(shí)對(duì)整體類別的判斷沒有太大影響,具有良好的識(shí)別魯棒性能。
本發(fā)明采用的技術(shù)方案如下:
本發(fā)明提出了一種安卓平臺(tái)下基于屬性學(xué)習(xí)和交互反饋的圖像在線識(shí)別、檢索方法,共分為三層:用戶層,服務(wù)器層和數(shù)據(jù)庫層。系統(tǒng)具體功能及實(shí)現(xiàn)步驟為:
識(shí)別功能:
S1.獲取待識(shí)別圖片:用戶可以選擇要識(shí)別的目標(biāo)對(duì)象圖像,客戶端主界面提供了兩個(gè)功能選項(xiàng),一個(gè)是進(jìn)入拍攝圖片的按鈕,另一個(gè)是選擇已經(jīng)拍攝好的圖片的按鈕;
S2.選擇圖片之后,客戶端對(duì)選擇的圖片提取特征;
S3.將提取好的特征壓縮打包,上傳到服務(wù)器;
S4.得到服務(wù)器返回的識(shí)別結(jié)果,并顯示識(shí)別結(jié)果;
S5.服務(wù)器端接收客戶端圖像特征;
S6.服務(wù)器端進(jìn)行類別模板訓(xùn)練:訓(xùn)練模塊用于管理員進(jìn)行圖像模板訓(xùn)練和管理,選擇服務(wù)器端系統(tǒng)中“添加類別”按鈕,添加圖像類別;系統(tǒng)還包括用戶管理類別模板的功能,選擇“查看類別”按鈕,可查看所有類別模板;選擇相應(yīng)的類別,可以查看該類別所具有的所有屬性列表,通過右擊選擇的類別模板,選擇刪除該類別;
S7.圖像識(shí)別:服務(wù)器端對(duì)接收的客戶端圖像特征進(jìn)行屬性分類獲取其所具備的屬性列表,并映射到相應(yīng)類別;服務(wù)器端默認(rèn)為自動(dòng)識(shí)別后將結(jié)果反饋至客戶端,若需在服務(wù)器端顯示識(shí)別結(jié)果,可選擇服務(wù)器端的“識(shí)別”按鈕,進(jìn)行圖像預(yù)測(cè)識(shí)別。
檢索功能:
S1.獲取用戶對(duì)所要檢索圖像的屬性描述,本系統(tǒng)客戶端提供參考屬性選項(xiàng)勾選,亦可由用戶增加?;蛲ㄟ^用戶提供的樣例圖像獲取其欲檢索圖像的屬性列表,相關(guān)方法步驟同“識(shí)別功能”步驟。
S2.服務(wù)器端獲取待檢屬性組合列表后,與數(shù)據(jù)庫中存放的類別模板所對(duì)應(yīng)的屬性列表進(jìn)行匹配,并按匹配度高低進(jìn)行排序,同時(shí)將匹配度前5位的類別其在數(shù)據(jù)庫中存儲(chǔ)的對(duì)應(yīng)樣例圖像反饋給客戶端用戶。
S3:用戶通過客戶端顯示的檢索結(jié)果,進(jìn)行確認(rèn)或選擇,同時(shí)將用戶的選擇結(jié)果反饋至服務(wù)器端,以調(diào)整屬性分類器參數(shù)。
進(jìn)一步,以上步驟所述圖像識(shí)別和檢索過程中采用基于屬性的交互反饋式圖像識(shí)別方法,包括:
第一步:數(shù)據(jù)庫的建立
運(yùn)用Microsoft SQLServer2012進(jìn)行數(shù)據(jù)庫的建立,將不同類別圖像錄入數(shù)據(jù)庫作為樣本庫;
第二步:圖像的預(yù)處理
采用圖像預(yù)處理程序?qū)颖編熘械膱D像進(jìn)行去噪、歸一化大小、亮度、對(duì)比度等操作,并進(jìn)行圖像增強(qiáng);
第三步:圖像的特征提取
對(duì)于樣本圖像,選擇使用顏色直方圖、顏色矩或者顏色集來提取顏色特征;用幾何法、模型法來提取尺度特征;用傅里葉形狀描述法、幾何參數(shù)法提取形狀特征。
第四步:屬性學(xué)習(xí)及圖像分類
系統(tǒng)的圖像識(shí)別與分類采用屬性學(xué)習(xí)方法,即利用訓(xùn)練好的各屬性分類器逐個(gè)對(duì)該圖像特征進(jìn)行測(cè)試,測(cè)定其是否具有當(dāng)前屬性,在這個(gè)過程中,采用排序功能,將屬性分類器中預(yù)測(cè)置信度高的結(jié)果排在前面,并展現(xiàn)予用戶;此時(shí),用戶可核查識(shí)別的屬性是否正確,并給予糾錯(cuò),否則默認(rèn)系統(tǒng)屬性測(cè)定結(jié)果正確,并將該測(cè)試圖像添加至所具屬性對(duì)應(yīng)的圖像池中,以便后續(xù)進(jìn)一步訓(xùn)練該屬性分類器;當(dāng)測(cè)定獲取了這些屬性組合后就可查詢屬性-類別映射表以獲知該待測(cè)圖像所屬類別,并反饋給用戶。
進(jìn)一步,所述屬性學(xué)習(xí)方法的實(shí)現(xiàn)包括:首先為每個(gè)屬性設(shè)定一個(gè)屬性分類器,將具有某屬性的樣本特征輸入屬性分類器,以此來訓(xùn)練屬性分類器,得到樣本與屬性之間的映射關(guān)系;再結(jié)合屬性與類別之間的映射關(guān)系,得到樣本與類別之間的關(guān)系;
具體是將樣本xt輸入卷積神經(jīng)網(wǎng)絡(luò)得到優(yōu)選特征,將優(yōu)選特征輸入各屬性分類器得到樣本xt具有屬性a1,a2,...,ak的后驗(yàn)概率,然后根據(jù)貝葉斯公式結(jié)合屬性類別映射關(guān)系表得到類別的后驗(yàn)概率,根據(jù)后驗(yàn)概率的排序來判斷樣本所屬的類別。
進(jìn)一步,所述屬性類別映射關(guān)系表是通過訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)出具有某屬性的樣本中屬于某類別的比例得到。
進(jìn)一步,所述屬性學(xué)習(xí)過程中屬性集的確定方法為基于交互的機(jī)器挖掘?qū)傩苑?,包括如下步驟:
第1步:從底層特征空間中產(chǎn)生一個(gè)候選屬性a,該候選屬性a須具有能夠提高現(xiàn)有屬性集A對(duì)類別Y的分類能力;
第2步:將該候選屬性a提交用戶,進(jìn)行命名;若該屬性不具可命名性,則丟棄該候選屬性,轉(zhuǎn)至第1步;若該屬性具有可命名性,則給予命名,并將該候選屬性并入原屬性集A=A∪a,形成新的屬性集A;
第3步:利用新的屬性集A及樣本來重新訓(xùn)練分類器h;
第4步:當(dāng)所需屬性數(shù)目達(dá)到既定數(shù)量,停止算法,否則轉(zhuǎn)至第1步。
進(jìn)一步,所述候選屬性的產(chǎn)生方法包括如下步驟:
第1步:利用現(xiàn)有屬性集A對(duì)訓(xùn)練樣本進(jìn)行類別Y分類,即分類器h:A→Y;
第2步:計(jì)算分類器h當(dāng)前的混淆矩陣,混淆矩陣的值表示類別i被分類器標(biāo)記為類別j的樣本數(shù)量;混淆矩陣也可看成是基于類別全連接圖的關(guān)聯(lián)矩陣,當(dāng)不同的兩個(gè)類別關(guān)聯(lián)性強(qiáng)時(shí)說明其混淆性強(qiáng);
第3步:通過圖論的歸一化分割,將原類別集分割成兩個(gè)或更多的聚類;
第4步:每一個(gè)聚類是原類別空間的一個(gè)子集,它表示在當(dāng)前屬性集下,類別間的混淆度;
第5步:使用最大間隔聚類法,通過無監(jiān)督迭代尋找一個(gè)在當(dāng)前已有的聚類情況下,使類別得到進(jìn)一步分開的超平面;
第6步:通過該超平面映射產(chǎn)生一個(gè)新的候選屬性。
本發(fā)明的有益效果:
1、本發(fā)明與傳統(tǒng)圖像識(shí)別方法相比,采用屬性學(xué)習(xí)的方法比不采用屬性學(xué)習(xí)的方法體現(xiàn)出更好的識(shí)別率,屬性學(xué)習(xí)具有語義性的優(yōu)點(diǎn),方便與用戶交互。同時(shí),屬性較之于類別數(shù)量較少,便于屬性分類器的復(fù)用,同時(shí)也便于屬性分類器的并行化訓(xùn)練與測(cè)試,且由于訓(xùn)練過程是迭代反饋的,降低了人工訓(xùn)練樣本的成本。
2、本發(fā)明與傳統(tǒng)的使用低層特征數(shù)據(jù)進(jìn)行識(shí)別相比,在有光線、視角、遮擋等因素影響的情況下體現(xiàn)出更好的魯棒性識(shí)別效果。
3、本發(fā)明與傳統(tǒng)的使用計(jì)算機(jī)識(shí)別圖像相比也具備明顯優(yōu)勢(shì),由于安卓系統(tǒng)平臺(tái)手機(jī)的便攜特性,并且隨著智能手機(jī)分辨率的不斷提升和其價(jià)格的不斷降低,圖像采集任務(wù)通過安卓智能手機(jī)來完成將更加低成本。同時(shí),利用安卓系統(tǒng)的性能,在智能手機(jī)端完成圖片的采集、預(yù)處理及特征提取,將分擔(dān)服務(wù)器的運(yùn)行壓力,減少數(shù)據(jù)的傳輸。
4、本發(fā)明與其他基于屬性的學(xué)習(xí)方法相比,采用了基于交互的機(jī)器挖掘?qū)傩苑ǎ趯傩约拇_定上既保證了分類的判別性要求,又滿足了用戶的語義性要求。
5、本發(fā)明在與其他圖像識(shí)別、檢索方法相比,系統(tǒng)在圖像識(shí)別和檢索過程中,采用交互模式反饋用戶相關(guān)結(jié)果,并利用用戶反饋情況來進(jìn)行系統(tǒng)的再訓(xùn)練和性能提升。
附圖說明
圖1是本發(fā)明所述屬性學(xué)習(xí)模型示意圖。
圖2是本發(fā)明所述基于屬性學(xué)習(xí)的圖像識(shí)別方法流程示意圖。
具體實(shí)施方式
本發(fā)明提出了一種安卓平臺(tái)下基于屬性學(xué)習(xí)和交互反饋的圖像在線識(shí)別、檢索方法,共分為三層:用戶層,服務(wù)器層和數(shù)據(jù)庫層。
用戶層為安卓智能手機(jī)端,負(fù)責(zé)與用戶交互,實(shí)現(xiàn)了用戶拍攝圖片,圖像特征提取與壓縮,服務(wù)器上傳,檢索屬性輸入,顯示識(shí)別、檢索結(jié)果。
服務(wù)器端分為三個(gè)部分:識(shí)別模塊、訓(xùn)練模塊、檢索匹配模塊。識(shí)別模塊響應(yīng)用戶發(fā)出的識(shí)別請(qǐng)求,檢索匹配模塊響應(yīng)用戶的檢索請(qǐng)求,訓(xùn)練模塊響應(yīng)管理員訓(xùn)練圖像類別模板的請(qǐng)求,訓(xùn)練好的模板存放在數(shù)據(jù)庫里面,當(dāng)識(shí)別模塊和檢索匹配模塊發(fā)出請(qǐng)求時(shí),將模板發(fā)送給識(shí)別模塊和檢索匹配模塊。
在C/S架構(gòu)方面,采用智能手機(jī)安卓系統(tǒng)平臺(tái)實(shí)現(xiàn)圖像的拍攝、預(yù)處理和特征提取,然后將提取的特征上傳至服務(wù)器并進(jìn)行學(xué)習(xí)和訓(xùn)練,這樣可減少數(shù)據(jù)的傳輸,分擔(dān)服務(wù)器的運(yùn)行壓力,在完成鑒別后將結(jié)果反饋給用戶。系統(tǒng)利用屬性的語義級(jí)描述能力,在圖像樣本與類別之間加入了一個(gè)屬性中間媒介層以進(jìn)行識(shí)別器的設(shè)計(jì)。該方法將視覺屬性作為人們可理解的對(duì)象類別間共享的性質(zhì),從而將用戶高層次的語義關(guān)系嵌入到機(jī)器識(shí)別模型中,為實(shí)現(xiàn)系統(tǒng)良好的交互性提供了途徑,同時(shí)便于進(jìn)行未見訓(xùn)練樣本而僅有用戶屬性語義描述的識(shí)別、檢索任務(wù)。考慮到被識(shí)別圖像中的物體種類的多樣性,系統(tǒng)通過反饋給用戶匹配度較高種類的樣本圖片和信息,由用戶與現(xiàn)實(shí)物體比對(duì),將選擇結(jié)果再返還給服務(wù)器,服務(wù)器利用反饋結(jié)果更新訓(xùn)練,以此來提高識(shí)別率。在所述屬性學(xué)習(xí)部分,為每個(gè)屬性設(shè)定一個(gè)屬性分類器,將具有某屬性的樣本特征輸入各個(gè)分類器,以此來訓(xùn)練屬性分類器。在所述屬性類別映射關(guān)系學(xué)習(xí)部分,通過訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)出具有某屬性的樣本中屬于某類別的比例,得到屬性類別映射關(guān)系表。在所述測(cè)試部分,將屬性特征輸入各個(gè)屬性分類器,得到樣本具有這些屬性的概率。最后根據(jù)屬性相關(guān)概率和屬性類別映射概率表推斷圖像類別后驗(yàn)概率,從而判斷圖像所屬類別。
在圖像識(shí)別和檢索過程中,采用交互模式反饋用戶相關(guān)結(jié)果。具體來說,在識(shí)別階段,該系統(tǒng)通過Android手機(jī)平臺(tái)獲取圖片,經(jīng)過系統(tǒng)識(shí)別后反饋出該圖片所具有的屬性組合,同時(shí)將該圖片所具有的屬性組合對(duì)應(yīng)類別的樣例圖像按識(shí)別置信度排序反饋給用戶,由用戶與現(xiàn)實(shí)物體比對(duì),將選擇結(jié)果再返還給服務(wù)器,服務(wù)器利用反饋結(jié)果更新訓(xùn)練,以此來提高識(shí)別率。同時(shí),用戶也可以通過確認(rèn)或否認(rèn)所識(shí)別出來的屬性是否具有或不具有(默認(rèn)為識(shí)別正確),將該待識(shí)別圖像加入到確認(rèn)具有屬性對(duì)應(yīng)的訓(xùn)練圖像庫中,以學(xué)習(xí)提升該系統(tǒng)的識(shí)別性能;在檢索環(huán)節(jié),當(dāng)用戶描述了所要檢索圖像的屬性列表后,系統(tǒng)將圖像庫中具有該屬性組合的類別所對(duì)應(yīng)的圖像以排序方式呈現(xiàn)給用戶,由用戶在其中選擇,并根據(jù)用戶的選擇,調(diào)整屬性分類器的參數(shù),從而提高系統(tǒng)檢索性能。同時(shí),系統(tǒng)支持用戶采用以圖搜圖方式進(jìn)行圖像檢索,同樣也是采取與用戶交互方式進(jìn)行,對(duì)輸入的樣例圖像識(shí)別出其擁有的屬性列表,并交由用戶確認(rèn)(默認(rèn)為識(shí)別正確),而后根據(jù)該屬性列表搜索相應(yīng)的目標(biāo)圖像,并排序后供用戶選擇確認(rèn)。
下面結(jié)合附圖和具體實(shí)施例對(duì)發(fā)明做出進(jìn)一步說明。
圖1為本發(fā)明屬性學(xué)習(xí)模型示意圖?;舅枷霝椋菏紫鹊玫綐颖九c屬性之間的映射關(guān)系,再結(jié)合屬性與類別之間的映射關(guān)系,得到樣本與類別之間的關(guān)系。具體來說,將樣本xt輸入卷積神經(jīng)網(wǎng)絡(luò)得到優(yōu)選特征,將優(yōu)選特征輸入各屬性分類器得到樣本xt具有屬性a1,a2,...,ak的后驗(yàn)概率,然后根據(jù)貝葉斯公式結(jié)合屬性類別映射關(guān)系得到類別的后驗(yàn)概率,根據(jù)后驗(yàn)概率的排序來判斷樣本所屬的類別。
圖2為本發(fā)明提出的基于屬性的交互反饋式圖像識(shí)別方法流程示意圖。
第一步:數(shù)據(jù)庫的建立
運(yùn)用Microsoft SQLServer2012進(jìn)行數(shù)據(jù)庫的建立,將來自www.tmall.com的300種不同類別圖像錄入數(shù)據(jù)庫作為樣本庫。
第二步:圖像的預(yù)處理
采用圖像預(yù)處理程序?qū)D像進(jìn)行去噪、歸一化大小、亮度、對(duì)比度等操作,并進(jìn)行圖像增強(qiáng)。
第三步:圖像的特征提取
對(duì)于樣本圖像,選擇使用顏色直方圖、顏色矩或者顏色集來提取顏色特征;用幾何法、模型法來提取尺度特征;用傅里葉形狀描述法、幾何參數(shù)法提取形狀特征。
第四步:屬性學(xué)習(xí)及圖像分類
系統(tǒng)的圖像識(shí)別與分類采用屬性學(xué)習(xí)方法,即利用訓(xùn)練好的各屬性分類器逐個(gè)對(duì)該圖像特征進(jìn)行測(cè)試,測(cè)定其是否具有當(dāng)前屬性。這一過程中,采用排序功能,將屬性分類器中預(yù)測(cè)置信度高的結(jié)果排在前面,并展現(xiàn)予用戶。此時(shí),若用戶具備相關(guān)知識(shí),則可核查識(shí)別的屬性是否正確,并給予糾錯(cuò),否則默認(rèn)系統(tǒng)屬性測(cè)定結(jié)果正確,并將該測(cè)試圖像添加至所具屬性對(duì)應(yīng)的圖像池中,以便后續(xù)進(jìn)一步訓(xùn)練該屬性分類器。最后,當(dāng)測(cè)定獲取了這些屬性組合后就可查詢屬性-類別映射表以獲知該待測(cè)圖像所屬類別,并反饋給用戶。
在商品圖像數(shù)據(jù)集上的實(shí)驗(yàn)表明,本發(fā)明方法的識(shí)別準(zhǔn)確率為84.7%,因著重以實(shí)時(shí)圖片為基礎(chǔ)并且充分利用語義級(jí)的屬性識(shí)別圖像,實(shí)現(xiàn)了用戶通過自己拍攝的目標(biāo)物體圖片來辨別是什么類別的需求。同時(shí),在檢索時(shí)用戶描述了目標(biāo)圖像的屬性后,能快速使用戶獲取理想的目標(biāo)圖片,并采用按置信度排序的方式反饋給用戶。此外,由于屬性相比于低層特征具有更好的語義表達(dá)性能,且對(duì)光線、視角的不敏感性,使得算法的識(shí)別效果更好。
上文所列出的一系列的詳細(xì)說明僅僅是針對(duì)本發(fā)明的可行性實(shí)施方式的具體說明,它們并非用以限制本發(fā)明的保護(hù)范圍,凡未脫離本發(fā)明技藝精神所作的等效實(shí)施方式或變更均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。