專利名稱:一種基于模塊化組合神經(jīng)網(wǎng)絡(luò)的機(jī)器嗅覺氣味識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及面向高維(≥60)、大樣本(≥60,000)、多類別(≥1,000)問題的一種模塊化組合神經(jīng)網(wǎng)絡(luò)分類器及其在機(jī)器嗅覺裝置中的應(yīng)用,該模塊化組合分類器使機(jī)器嗅覺裝置具有識(shí)別數(shù)千種氣味并估計(jì)其強(qiáng)度的能力。
背景技術(shù):
1989年在北大西洋公約組織(NATO)召開的化學(xué)感知國際學(xué)術(shù)會(huì)議上,學(xué)術(shù)界給機(jī)器嗅覺(也稱電子鼻)的定義是機(jī)器嗅覺是一種儀器,由性能重疊的多個(gè)氣敏傳感器和適當(dāng)?shù)哪J阶R(shí)別方法所組成,具有識(shí)別簡單或復(fù)雜氣味的能力。據(jù)說訓(xùn)練有素的專業(yè)人員能識(shí)別4,000種氣味,相比之下,機(jī)器嗅覺裝置的識(shí)別能力還十分有限,從文獻(xiàn)檢索結(jié)果看,僅為有限的幾種,至多10幾種。造成這種狀況的原因,除氣敏傳感器的靈敏度、選擇性、重復(fù)性等性能與人們的期望還有距離之外,一個(gè)主要因素是機(jī)器嗅覺目前所采用模式識(shí)別方法不能有效地解決高維、大樣本和多類別問題。
機(jī)器嗅覺中,不同濃度下同一種呈香物質(zhì)香氣強(qiáng)度的估計(jì),同分異構(gòu)包括手性物質(zhì)的判別是典型的同類別多區(qū)域分布問題。而且,氣味類別本來就十分繁多。當(dāng)傳感器數(shù)目較多,從每個(gè)傳感器響應(yīng)曲線上提取最大值、微分值和積分值等特征,加上溫度、濕度、壓力、流量等特征,這樣一來,樣本維數(shù)往往很高。為了使機(jī)器嗅覺裝置具有一定的容錯(cuò)性和推廣能力,往往需要采集大量的學(xué)習(xí)樣本。由此可見,機(jī)器嗅覺不僅要解決高維、大樣本多類別分類問題,而且要解決同類別多區(qū)域和不規(guī)則分布問題。
傳統(tǒng)的Bayes方法需要事先知道類別先驗(yàn)概率,需要估計(jì)類條件概率,不僅如此,當(dāng)同一類別的樣本維數(shù)較高且分布在不規(guī)則或多個(gè)區(qū)域時(shí),情況變得更加復(fù)雜起來。距離判別法的一個(gè)假設(shè)是同一類別的樣本分布在一個(gè)凸區(qū)域,因此,在解決香氣類別及其強(qiáng)度估計(jì)問題就會(huì)遇到困難。不僅如此,Euclid距離判別法分類正確率低;當(dāng)協(xié)方差陣奇異時(shí),Mahalanobis距離判別法失效。
K-近鄰法在每次做決策時(shí),要求將訓(xùn)練集所有樣本存入計(jì)算機(jī),要求計(jì)算待分類樣本與全部訓(xùn)練集樣本的距離并進(jìn)行比較,這樣一來,對(duì)高維大樣本多類別問題需要大量的存儲(chǔ)量和計(jì)算量。由于訓(xùn)練集樣本類別標(biāo)簽全部正確這一前提并不妥當(dāng),導(dǎo)致K-近鄰(K-NN)法分類正確結(jié)果的可信度較差。
由于統(tǒng)計(jì)判別方法存在種種問題,神經(jīng)網(wǎng)絡(luò)模式分類方法日益受到人們的重視。其中,前向多層感知器(Feedforward Multilayer Perceptrons,MLPs)和徑基函數(shù)(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)應(yīng)用最為廣泛。
與統(tǒng)計(jì)方法相比,前向單隱層感知器原理清楚,使用方便,對(duì)大多數(shù)模式識(shí)別問題,包括經(jīng)典的邏輯異或(XOR)問題等,都展現(xiàn)出良好的性能,但對(duì)變標(biāo)簽(Alternate-labels)問題、雙螺旋(Two-Spirals)問題等又顯得力不從心。不僅如此,前向多層感知器存在的學(xué)習(xí)時(shí)間長、隱節(jié)點(diǎn)數(shù)難以優(yōu)化確定、學(xué)習(xí)過程中易陷入局部極小點(diǎn)等缺陷在解決高維大樣本多類別問題時(shí)顯得尤其明顯。從文獻(xiàn)檢索結(jié)果看,前向多層感知器所識(shí)別的類別數(shù)最多為26(英文字母識(shí)別),這與機(jī)器嗅覺的要求差距甚遠(yuǎn)。
與前向單隱層感知器相比,RBF網(wǎng)絡(luò)具有學(xué)習(xí)速度快、學(xué)習(xí)過程不易陷入局部極小點(diǎn)等優(yōu)點(diǎn)。由于RBF核的局部敏感特性,使得RBF網(wǎng)絡(luò)能較有效的解決凹分布問題,但中心與寬度對(duì)RBF網(wǎng)絡(luò)的性能影響很大。聚類是目前確定其中心與寬度的主要方法,包括C-均值聚類、模糊聚類、局部聚類、整體聚類等方法。聚類方法對(duì)類間距離較大、類內(nèi)距離較小的小樣本低維數(shù)據(jù)較為有效,但對(duì)高維大樣本多類別問題尚無成功應(yīng)用之報(bào)道。中心與寬度的自適應(yīng)確定方法對(duì)高維大樣本問題同樣面臨存儲(chǔ)量大和運(yùn)算量大等問題。
一種分類器的能力是有限的,因此,20世紀(jì)90年代初人們提出了組合分類器問題。但是,人們一般選用分類能力不高的多個(gè)簡單分類器進(jìn)行組合,過多地將關(guān)注焦點(diǎn)放在多分類器輸出的融合上。例如,若干個(gè)線性分類器的組合,若干個(gè)Bayes分類器的組合等。輸出融合方法主要為大多數(shù)投票法、輸出線性組合法、輸出標(biāo)準(zhǔn)化后的概率組合法、矢量量化法(Vector Quantization,VQ)等。從文獻(xiàn)檢索結(jié)果看,組合分類器的應(yīng)用對(duì)象多為手寫數(shù)字例如郵政編碼的識(shí)別和話者獨(dú)立的語音識(shí)別,類別數(shù)僅為10類,與機(jī)器嗅覺中成千上萬中氣味的識(shí)別要求相差甚遠(yuǎn)。
將一個(gè)n類問題轉(zhuǎn)化為n個(gè)兩類問題是一種自然的做法,但會(huì)帶來訓(xùn)練樣本不平衡等問題。目前的模塊化分類器應(yīng)用對(duì)象的類別數(shù)也十分有限,最多為上述26個(gè)英文字母的識(shí)別。既然訓(xùn)練集樣本全部參加學(xué)習(xí)為計(jì)算機(jī)學(xué)習(xí)速度和存儲(chǔ)量所不允許,那么如何從海量的訓(xùn)練樣本集中選擇那些只對(duì)確定其中一個(gè)類別的決策邊界有關(guān)的樣本組成子集來確定一個(gè)個(gè)分類器模塊的結(jié)構(gòu)與參數(shù)是一個(gè)十分重要的問題,是本發(fā)明的主要研究內(nèi)容之一。事實(shí)上,那些距離很遠(yuǎn)的類別樣本對(duì)確定一個(gè)分類器模塊的結(jié)構(gòu)與參數(shù)并不起作用。
現(xiàn)有一種嗅覺模擬裝置及其嗅覺模擬測(cè)試方法(參見專利申請(qǐng)?zhí)?2111046.8),使用該套裝置檢測(cè)待測(cè)氣味,得到多維響應(yīng)信號(hào),需要經(jīng)計(jì)算機(jī)數(shù)據(jù)處理,最終得到氣味的類別、整體強(qiáng)度或簡單成分氣味濃度估計(jì)值。該發(fā)明沒有具體解決如何實(shí)現(xiàn)計(jì)算機(jī)數(shù)據(jù)處理。
發(fā)明內(nèi)容
本發(fā)明是對(duì)現(xiàn)有的一種嗅覺模擬裝置及其嗅覺模擬測(cè)試方法(參見專利申請(qǐng)?zhí)?2111046.8)的改進(jìn),利用模塊化組合神經(jīng)分類器通過學(xué)習(xí)大量氣味特征,將大量氣味特征記憶,通過識(shí)別比較,從而使機(jī)器嗅覺系統(tǒng)對(duì)具有對(duì)成千上萬種氣味進(jìn)行類別判斷和強(qiáng)度估計(jì)的能力。
本發(fā)明采用了下列技術(shù)方案機(jī)器嗅覺裝置通過對(duì)大量氣味的測(cè)量,得到大量學(xué)習(xí)樣本,模塊化組合神經(jīng)網(wǎng)絡(luò)分類器通過學(xué)習(xí)學(xué)習(xí)樣本,確定了最優(yōu)結(jié)構(gòu)和參數(shù),在識(shí)別氣味時(shí),將通過機(jī)器嗅覺裝置得到氣味的特征,與模塊化組合神經(jīng)網(wǎng)絡(luò)分類器記憶的氣味特征比較,確定該氣味的類別或強(qiáng)度;所述的模塊化組合神經(jīng)網(wǎng)絡(luò)分類器是由感知器模塊和RBF神經(jīng)網(wǎng)絡(luò)模塊所組成;所述的感知器模塊通過以下步驟確定其結(jié)構(gòu)和參數(shù)a.將一個(gè)復(fù)雜的n類問題轉(zhuǎn)化為n個(gè)較簡單的兩類問題;b.將氣味強(qiáng)度估計(jì)問題依擬合精度轉(zhuǎn)化為多個(gè)分類問題;
c.感知器模塊的特征分量的大小成比例變化到一定的范圍內(nèi);d.各感知器模塊的初始結(jié)構(gòu)由經(jīng)驗(yàn)公式確定,優(yōu)化結(jié)構(gòu)通過對(duì)隱層輸出矩陣進(jìn)行奇異值分解而確定;e.各個(gè)感知器模塊的初始訓(xùn)練子集僅由其對(duì)應(yīng)類別自身和與之最近類別的樣本組成,訓(xùn)練集其余部分作為交叉有效集;只有在該感知器模塊對(duì)交叉有效集中某一類別產(chǎn)生較大的推廣誤差的情況下,該交叉有效子集才被加入到訓(xùn)練子集;這時(shí),訓(xùn)練子集增大,交叉有效集變??;如此反復(fù),直到該模塊對(duì)整個(gè)訓(xùn)練集的誤差在允許范圍內(nèi)為止;所述的RBF神經(jīng)網(wǎng)絡(luò)模塊通過以下步驟確定其結(jié)構(gòu)和參數(shù)a.將一個(gè)復(fù)雜的n類問題轉(zhuǎn)化為n個(gè)較簡單的兩類問題;b.將氣味強(qiáng)度估計(jì)問題依擬合精度轉(zhuǎn)化為多個(gè)分類問題;c.RBF神經(jīng)網(wǎng)絡(luò)模塊,特征分量不變化;d.各個(gè)RBF神經(jīng)網(wǎng)絡(luò)模塊的初始訓(xùn)練子集為對(duì)應(yīng)感知器模塊學(xué)習(xí)完畢產(chǎn)生的訓(xùn)練子集,若一輪學(xué)習(xí)結(jié)束后,對(duì)交叉有效集中某一類別產(chǎn)生較大的推廣誤差的情況下,這個(gè)被錯(cuò)分類別的樣本被加入到訓(xùn)練子集,這時(shí),訓(xùn)練子集增大,交叉有效集變小,如此反復(fù),直到該模塊對(duì)整個(gè)訓(xùn)練集的誤差在允許范圍內(nèi)為止;所述的各個(gè)RBF神經(jīng)網(wǎng)絡(luò)模塊由單層RBF網(wǎng)絡(luò)和單層感知器串聯(lián)組成;所述的RBF神經(jīng)網(wǎng)絡(luò)模塊中的單層RBF網(wǎng)絡(luò)開始學(xué)習(xí)時(shí)只有一個(gè)核,對(duì)應(yīng)類別所有樣本的目標(biāo)輸出均為1,其余類別樣本的目標(biāo)輸出為0,若由此產(chǎn)生較大的訓(xùn)練子集推廣誤差,則廢棄該核,依次產(chǎn)生一個(gè)個(gè)新核,每個(gè)核應(yīng)盡可能多地包含對(duì)應(yīng)類別的樣本,由此產(chǎn)生的多個(gè)核將對(duì)應(yīng)類別所有樣本全部包含;若一個(gè)核的所有樣本已經(jīng)被同類別的一個(gè)或多個(gè)核包含,則刪除該核;所述的RBF網(wǎng)絡(luò)模塊中的單層感知器結(jié)構(gòu)已知,其權(quán)值與閾值由誤差反傳算法確定。
對(duì)于多層感知器模塊,其特征分量的大小成比例變化到
的范圍內(nèi)。各個(gè)感知器模塊的初始訓(xùn)練子集僅由其對(duì)應(yīng)類別自身和與之最近10個(gè)類別的樣本組成。所述的推廣誤差是指大于3.0%。所述的核的中心與寬度由誤差反傳算法自適應(yīng)確定;所述的組合神經(jīng)網(wǎng)絡(luò)分類器,對(duì)于新的氣味類別與強(qiáng)度,不需要整個(gè)分類器重新訓(xùn)練,只需生成一個(gè)新的分類器模塊,然后重新訓(xùn)練與之最距較近的有限幾個(gè)分類器模塊就足夠了。所述的組合神經(jīng)網(wǎng)絡(luò)分類器,其測(cè)試集樣本的類別由輸出值最大的分類器模塊所決定。
由于本發(fā)明采用了以上技術(shù)方案,因此具有以下的效果1.解決了選擇最小的子集訓(xùn)練前向感知器模塊和RBF神經(jīng)網(wǎng)絡(luò)模塊問題。使得二者與學(xué)習(xí)海量多類別樣本集得到的網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)具有相同的甚至更好的推廣能力。
2.解決了網(wǎng)絡(luò)學(xué)習(xí)過程中易陷入局部極小和學(xué)習(xí)速度慢的問題。由于將多類別問題簡化成多個(gè)簡單的兩類問題,一個(gè)個(gè)模塊僅用較小的子集進(jìn)行訓(xùn)練,陷入局部極小點(diǎn)的可能性大大減小。同時(shí),通過將輸入分量放大到
的范圍和將前向單隱層感知器的活化函數(shù)變換為f(x)=3(1+exp(-x/3.0))-1兩項(xiàng)措施,可大大加快感知器模塊的學(xué)習(xí)速度。
3.可有效地找到兩種類型神經(jīng)網(wǎng)絡(luò)分類器模塊的優(yōu)化結(jié)構(gòu)與參數(shù)。通過奇異值分解方法可有效確定前向單隱層感知器的優(yōu)化結(jié)構(gòu);通過網(wǎng)絡(luò)增長與修剪方法可有效地確定RBF網(wǎng)絡(luò)模塊的優(yōu)化結(jié)構(gòu)。同時(shí),通過誤差反傳算法自適應(yīng)確定RBF的中心與寬度,機(jī)器嗅覺裝置因此具有對(duì)成千上萬種氣味進(jìn)行類別判斷和強(qiáng)度估計(jì)的能力。
圖1是本發(fā)明機(jī)器嗅覺裝置原理示意圖。
圖2是本發(fā)明機(jī)器嗅覺裝置的具體結(jié)構(gòu)示意圖。
圖3是本發(fā)明模塊化組合神經(jīng)網(wǎng)絡(luò)分類器原理示意圖。
圖4是本發(fā)明組合神經(jīng)網(wǎng)絡(luò)分類器第j個(gè)模塊示意圖。
圖5是本發(fā)明前向單隱層感知器模塊自動(dòng)生成流程圖。
圖6是本發(fā)明RBF神經(jīng)網(wǎng)絡(luò)模塊自動(dòng)生成流程圖。
圖7是本發(fā)明模塊化組合神經(jīng)網(wǎng)絡(luò)分類器輸出結(jié)果融合流程圖。
圖8是本發(fā)明機(jī)器嗅覺裝置記憶(學(xué)習(xí))氣味流程圖。
圖9是本發(fā)明機(jī)器嗅覺裝置確定氣味類別與強(qiáng)度流程圖。
具體實(shí)施例方式
下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述本發(fā)明所基于嗅覺模擬裝置如圖2所示,本發(fā)明所解決的是如圖1所示虛框內(nèi)計(jì)算機(jī)所要解決的技術(shù)問題。
根據(jù)上述機(jī)器嗅覺裝置進(jìn)行氣味類別判斷和強(qiáng)度估計(jì)的方法,如圖2所示包括如下步驟a、將30ml的待測(cè)液體或固體樣品放置于250ml的樣品瓶內(nèi),在45±0.1℃條件下保溫30min。
b、操作人員將經(jīng)平衡的樣品瓶單向閥插入測(cè)試箱上的進(jìn)氣口,單向閥打開。微型隔膜泵將樣品瓶頂空的呈香物質(zhì)揮發(fā)氣以1.0l/min的流量吸入密封的氣體管道。這時(shí),待測(cè)氣味約以40mm/s的速度略過傳感器敏感膜表面,然后經(jīng)消毒后從排氣口排入大氣中。
c、當(dāng)氣體累積采樣流量達(dá)到100±1ml時(shí),進(jìn)氣電磁閥1關(guān)閉。然后,微型隔膜泵將環(huán)境空氣吸入以清洗管道。在1min的間隔內(nèi),操作人員將被測(cè)樣品瓶移走。
d、在氣體流動(dòng)過程中,氣敏傳感器陣列的響應(yīng)經(jīng)數(shù)據(jù)采集卡被記錄下來,并被存入數(shù)據(jù)存儲(chǔ)器中,由此得到多條響應(yīng)曲線。
e、從每一條響應(yīng)曲線上提取最大值、最大值之前的積分值和微分平均值,再加上環(huán)境溫濕度,這樣一來,表征每一種氣味的特征向量維數(shù)為50。
f、組合分類器根據(jù)對(duì)氣味一次測(cè)量得到的特征向量,在測(cè)得最大值10s之后給出氣味類別或強(qiáng)度等結(jié)果。
g、一個(gè)具體的測(cè)試過程如下環(huán)境空氣還原(120s)-氧氣或潔凈空氣還原(40s)-穩(wěn)定(5s)-采樣(10s)-保持(2s)-環(huán)境空氣清洗(120s)。
h、重復(fù)a~f步驟,進(jìn)行多次測(cè)試。
一、學(xué)習(xí)(記憶)過程如圖8所示,機(jī)器嗅覺裝置通過對(duì)大量呈香物質(zhì)揮發(fā)氣味的測(cè)量,得到大量的學(xué)習(xí)樣本,模塊化組合神經(jīng)網(wǎng)絡(luò)分類器通過學(xué)習(xí),確定了最優(yōu)結(jié)構(gòu)和參數(shù),由此將大量氣味特征記錄下來。
本發(fā)明對(duì)同一種類同一強(qiáng)度的氣味測(cè)量300個(gè)樣品,以此作為訓(xùn)練集一個(gè)子類。假設(shè)有2,000個(gè)不同種類與強(qiáng)度的氣味,訓(xùn)練集就包含60,000個(gè)樣本。如圖3所示,組合分類器一個(gè)個(gè)模塊的確定方法,包括如下步驟a、將一個(gè)n類問題轉(zhuǎn)化為n個(gè)兩類問題。
b、單隱層感知器模塊結(jié)構(gòu)與參數(shù)的確定,如圖5所示[b.1] 將所有輸入分量變換到
的范圍內(nèi)。具體做法是,找出訓(xùn)練集最大分量值,然后,訓(xùn)練集所有樣本乘以5再除以該最大值。第j個(gè)單隱層感知器模塊(如圖4所示)訓(xùn)練子集與結(jié)構(gòu)的確定[b.3] 初始隱節(jié)點(diǎn)數(shù)按公式s=2log2(m+1)確定。這里,m為輸入向量維數(shù)。隱單元和輸出單元的活化函數(shù)為f(x)=3(1+exp(-x/3.0))-1。由第j個(gè)子類樣本及其與之最近(以Euclid距離度量)的10個(gè)子類樣本組成初始訓(xùn)練子集,即僅包含3,300個(gè)樣本。屬于第j個(gè)子類的樣本,其目標(biāo)輸出為1,否則為0。訓(xùn)練集其余部分作為交叉有效集。以誤差反傳(Back-Propagation,BP)算法對(duì)感知器模塊j進(jìn)行訓(xùn)練。模塊學(xué)習(xí)性能用訓(xùn)練子集所有樣本的目標(biāo)輸出與其實(shí)際輸出的平均均方根誤差ε(Mean error of root-mean-squares)來度量。若ε≤0.05,則學(xué)習(xí)結(jié)束。若學(xué)習(xí)好后的模塊j對(duì)交叉有效集某一子類的分類誤差超過3.0%,該子類被加入訓(xùn)練子集。這時(shí),交叉有效集變小。對(duì)隱層實(shí)際輸出矩陣H進(jìn)行奇異值分解(Singular value decomposition,SVD)。以單個(gè)奇異值與H的Fibonacci范數(shù)值‖H‖F(xiàn)之比小于5%作為隱節(jié)點(diǎn)刪去的標(biāo)準(zhǔn)。由此,可確定感知器模塊j的最優(yōu)隱節(jié)點(diǎn)數(shù)。重復(fù)[b.6]~[b.7],直到生成最小訓(xùn)練子集為止。重復(fù)[b.2]~[b.9],直到所有感知器模塊的結(jié)構(gòu)與參數(shù)都被確定為止。
c、RBF神經(jīng)網(wǎng)絡(luò)模塊結(jié)構(gòu)與參數(shù)的自適應(yīng)確定,如圖6所示[c.1] 第j個(gè)RBF神經(jīng)網(wǎng)絡(luò)模塊訓(xùn)練子集與結(jié)構(gòu)的確定。該模塊結(jié)構(gòu)請(qǐng)見附圖4,由一個(gè)輸入節(jié)點(diǎn)數(shù)等于樣本維數(shù)m但輸出節(jié)點(diǎn)數(shù)待定的單層RBF網(wǎng)絡(luò)和一個(gè)輸入節(jié)點(diǎn)數(shù)待定但輸出節(jié)點(diǎn)數(shù)為1的單層感知器串聯(lián)組成。單層RBF網(wǎng)絡(luò)輸出節(jié)點(diǎn)數(shù)和后繼的單層感知器輸入節(jié)點(diǎn)數(shù)相等,但通過學(xué)習(xí)自適應(yīng)確定。以訓(xùn)練感知器模塊j的子集作為RBF網(wǎng)絡(luò)模塊j的初始訓(xùn)練子集。屬于第j個(gè)子類的樣本,其目標(biāo)輸出為1,否則為0。訓(xùn)練集其余部分作為交叉有效集。單層RBF網(wǎng)絡(luò)輸出單元采用Gaussian活化函數(shù)g(x)=exp(-x2/2),其總輸入由中心μ與寬度σ向量共同確定。一般說來,同一RBF的寬度分量互不相等,不同RBF的寬度與中心也互不相等,其最終值通過學(xué)習(xí)自適應(yīng)確定。單層RBF網(wǎng)絡(luò)的輸出節(jié)點(diǎn)(RBF核)依次自適應(yīng)生成。具體生成方法如下(c.4.1)首先用一個(gè)核將第j類樣本全部包含進(jìn)去,通過中心與寬度的自適應(yīng),使得對(duì)第j類樣本,核的實(shí)際輸出盡可能接近于1.0;反之,對(duì)其他類別的樣本,核的實(shí)際輸出盡可能接近于0.0。取分類閾值為0.5,如果由此引起訓(xùn)練子集分類錯(cuò)誤率超過3.0%,則拋棄該核,并按以下步驟生成新核(c.4.2)一個(gè)新核最初僅包含第j類按順序號(hào)未被現(xiàn)有核包含的第一個(gè)樣本。自適應(yīng)調(diào)整其中心與寬度,與之相近的同類別樣本不斷被加入,使之包含盡可能多的樣本。核不斷增大直到分類錯(cuò)誤率超過3.0%為止。對(duì)應(yīng)于被包含的樣本,該核的實(shí)際輸出應(yīng)大于0.5。
(c.4.3)重復(fù)(c.4.2)生成新核,直到第j類樣本全部被多個(gè)核包含為止。
(c.4.4)核的修剪。若某個(gè)核所包含的所有樣本已被屬于同類別的其他核所包含,則刪去該核。
(c.4.5)重復(fù)(c.4.2)~(c.4.4),單層RBF網(wǎng)絡(luò)的輸出節(jié)點(diǎn)數(shù)、核函數(shù)中心與寬度被確定,[c.5] 依據(jù)[c.4],后繼的單層感知器的結(jié)構(gòu)已確定,輸出單元活化函數(shù)為標(biāo)準(zhǔn)Sigmoid的,即f(x)=(1+exp(-x))-1。對(duì)一個(gè)輸出節(jié)點(diǎn)j,權(quán)值分量wj0與閾值wjh之比等于-0.5,但wjh>0,wj0<0。本發(fā)明取wjh=10.0,wj0=-5.0。若該RBF網(wǎng)絡(luò)模塊對(duì)交叉有效集某一子類的分類誤差超過3.0%,則將該子類移入訓(xùn)練子集。這時(shí),訓(xùn)練子集增大,交叉有效集變小。重復(fù)[c.4]~[c.5],直到RBF神經(jīng)網(wǎng)絡(luò)模塊對(duì)交叉有效集的分類誤差不超過3.0%為止。
重復(fù)[c.2]~[c.7],直到所有RBF神經(jīng)網(wǎng)絡(luò)模塊的結(jié)構(gòu)與參數(shù)都被確定為止。
二、識(shí)別過程如圖9所示,在識(shí)別階段,機(jī)器嗅覺裝置通過對(duì)待定氣味的一次測(cè)量,將得到的特征和上述模塊化組合神經(jīng)網(wǎng)絡(luò)記憶的氣味特征相比較,從而確定該氣味的類別或強(qiáng)度,并將結(jié)果與專業(yè)評(píng)香人員或色、質(zhì)譜分析結(jié)果相比較。
采用多分類器的融合,如圖7所示。分別根據(jù)前向單隱層感知器模塊和RBF神經(jīng)網(wǎng)絡(luò)模塊的最大輸出值確定一種待定的氣味的類別或強(qiáng)度。
1.若前向單隱層感知器模塊和RBF神經(jīng)網(wǎng)絡(luò)模塊同時(shí)給出一致的結(jié)果,則結(jié)論正確無疑。
2.若上述兩類型模塊給出不一致的結(jié)果,但至少一個(gè)模塊的實(shí)際輸出大于0.5,則最后結(jié)果以大者為準(zhǔn)。
3.若上述兩類型所有模塊的實(shí)際輸出均小于0.5,則機(jī)器嗅覺裝置認(rèn)為該氣味不屬于現(xiàn)有任何類別的氣味。
4.若上述兩類型各有一個(gè)或多個(gè)模塊的實(shí)際輸出大于0.5,則按分類器類型分別將輸出歸一化,依其中的大者確定該氣味的類別與強(qiáng)度。
權(quán)利要求
1.一種基于模塊化組合神經(jīng)網(wǎng)絡(luò)的機(jī)器嗅覺氣味識(shí)別方法,采用機(jī)器嗅覺裝置對(duì)多種氣味進(jìn)行識(shí)別,其特征在于機(jī)器嗅覺裝置通過對(duì)大量氣味的測(cè)量,得到大量學(xué)習(xí)樣本,模塊化組合神經(jīng)網(wǎng)絡(luò)分類器通過記憶這些學(xué)習(xí)樣本,確定其最優(yōu)結(jié)構(gòu)和參數(shù),在識(shí)別氣味時(shí),將通過機(jī)器嗅覺裝置得到氣味的特征,與模塊化組合神經(jīng)網(wǎng)絡(luò)分類器記憶的氣味特征比較,確定該氣味的類別或強(qiáng)度;所述的模塊化組合神經(jīng)網(wǎng)絡(luò)分類器是由前向單隱層感知器模塊和RBF神經(jīng)網(wǎng)絡(luò)模塊所組成;所述的前向單隱層感知器模塊通過學(xué)習(xí)大量學(xué)習(xí)樣本確定其結(jié)構(gòu)和參數(shù),包括步驟如下a.將一個(gè)復(fù)雜的n類問題轉(zhuǎn)化為n個(gè)較簡單的兩類問題;b.將氣味強(qiáng)度估計(jì)問題依擬合精度轉(zhuǎn)化為多個(gè)分類問題;c.感知器模塊的特征分量的大小成比例變化到一定的范圍內(nèi);d.各感知器模塊的初始結(jié)構(gòu)由經(jīng)驗(yàn)公式確定,優(yōu)化結(jié)構(gòu)通過對(duì)隱層輸出矩陣進(jìn)行奇異值分解而確定;e.各個(gè)感知器模塊的初始訓(xùn)練子集僅由其對(duì)應(yīng)類別自身和與之最近類別的樣本組成,訓(xùn)練集其余部分作為交叉有效集;只有在該感知器模塊對(duì)交叉有效集中某一類別產(chǎn)生較大的推廣誤差的情況下,該交叉有效子集才被加入到訓(xùn)練子集;這時(shí),訓(xùn)練子集增大,交叉有效集變小;如此反復(fù),直到該模塊對(duì)整個(gè)訓(xùn)練集的誤差在允許范圍內(nèi)為止;所述的RBF神經(jīng)網(wǎng)絡(luò)模塊通過學(xué)習(xí)大量學(xué)習(xí)樣本確定其結(jié)構(gòu)和參數(shù),包括下列步驟a.將一個(gè)復(fù)雜的n類問題轉(zhuǎn)化為n個(gè)較簡單的兩類問題;b.將氣味強(qiáng)度估計(jì)問題依擬合精度轉(zhuǎn)化為多個(gè)分類問題;c.RBF神經(jīng)網(wǎng)絡(luò)模塊,特征分量不變化;d.各個(gè)RBF神經(jīng)網(wǎng)絡(luò)模塊的初始訓(xùn)練子集為對(duì)應(yīng)的感知器模塊學(xué)習(xí)完畢產(chǎn)生的訓(xùn)練子集,若一輪學(xué)習(xí)結(jié)束后,對(duì)交叉有效集中某一類別產(chǎn)生較大的推廣誤差的情況下,這個(gè)被錯(cuò)分類別的樣本被加入到訓(xùn)練子集,這時(shí),訓(xùn)練子集增大,交叉有效集變小,如此反復(fù),直到該模塊對(duì)整個(gè)訓(xùn)練集的誤差在允許范圍內(nèi)為止;所述的各個(gè)RBF神經(jīng)網(wǎng)絡(luò)模塊由單層RBF網(wǎng)絡(luò)和單層感知器串聯(lián)組成;所述的RBF神經(jīng)網(wǎng)絡(luò)模塊中的單層RBF網(wǎng)絡(luò)開始學(xué)習(xí)時(shí)只有一個(gè)核,對(duì)應(yīng)類別所有樣本的目標(biāo)輸出均為1,其余類別樣本的目標(biāo)輸出為0,若由此產(chǎn)生較大的訓(xùn)練子集推廣誤差,則廢棄該核,依次產(chǎn)生一個(gè)個(gè)新核,每個(gè)核應(yīng)盡可能多地包含對(duì)應(yīng)類別的樣本,由此產(chǎn)生的多個(gè)核將對(duì)應(yīng)類別所有樣本全部包含;若一個(gè)核的所有樣本已經(jīng)被同類別的一個(gè)或多個(gè)核包含,則刪除該核;在單層RBF網(wǎng)絡(luò)結(jié)構(gòu)已確定的條件下,所述的RBF網(wǎng)絡(luò)模塊中的單層感知器結(jié)構(gòu)已知,其權(quán)值與閾值由誤差反傳算法確定。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述的多層感知器模塊,特征分量的大小成比例變化到
的范圍內(nèi)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于所述的各個(gè)感知器模塊的初始訓(xùn)練子集僅由其對(duì)應(yīng)類別自身和與之最近10個(gè)類別的樣本組成。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于所述的推廣誤差是指大于3.0%。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于核的中心與寬度由誤差反傳算法自適應(yīng)確定。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于對(duì)于新的氣味類別與強(qiáng)度,不需要整個(gè)分類器重新訓(xùn)練,只需生成一個(gè)新的分類器模塊,然后重新訓(xùn)練與之最距較近的有限幾個(gè)分類器模塊就足夠了。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于測(cè)試集樣本的類別由輸出值最大的分類器模塊所決定。
全文摘要
本發(fā)明是一種基于模塊化組合神經(jīng)網(wǎng)絡(luò)的機(jī)器嗅覺氣味識(shí)別方法。其特點(diǎn)是組合神經(jīng)網(wǎng)絡(luò)分類器由前向單隱層感知器模塊和RBF神經(jīng)網(wǎng)絡(luò)模塊所組成;各個(gè)分類器模塊均由若干個(gè)子模塊所組成,其結(jié)構(gòu)經(jīng)過增長和修剪兩個(gè)階段最終確定,中心、寬度、權(quán)值等參數(shù)通過誤差反傳算法確定。本發(fā)明提出的模塊化組合神經(jīng)網(wǎng)絡(luò)分類器通過以下三個(gè)途徑(1)將一個(gè)很復(fù)雜的多氣味識(shí)別問題轉(zhuǎn)化為多個(gè)較簡單的兩氣味識(shí)別問題;(2)將氣味強(qiáng)度估計(jì)問題按一定分辨率轉(zhuǎn)化為識(shí)別問題;(3)僅讓與分類區(qū)域有關(guān)的部分類別的樣本來訓(xùn)練每個(gè)子模塊,從而快速有效地解決了高維多類別海量樣本集的學(xué)習(xí)問題。利用本發(fā)明,機(jī)器嗅覺裝置就能識(shí)別成千上萬種氣味,并同時(shí)具有估計(jì)氣味強(qiáng)度的能力。
文檔編號(hào)G01N35/00GK1482453SQ0314153
公開日2004年3月17日 申請(qǐng)日期2003年7月11日 優(yōu)先權(quán)日2003年7月11日
發(fā)明者高大啟 申請(qǐng)人:華東理工大學(xué)