本發(fā)明涉及紅外光譜數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種快速識(shí)別紅外光譜數(shù)據(jù)分類的方法及系統(tǒng)。
背景技術(shù):
紅外光譜檢測具有快速、安全、低成本、無損的特點(diǎn),用紅外光譜來對(duì)物質(zhì)進(jìn)行快速檢測是一種行之有效的辦法。然而,現(xiàn)有對(duì)紅外光譜數(shù)據(jù)的常用模式識(shí)別方法,如偏最小二乘回歸算法(pls)方法及主成份分析法(pca)的空間重構(gòu)方法,都需要涉及復(fù)雜的不直觀的空間投影方法。
因此,亟需一種快速識(shí)別紅外光譜數(shù)據(jù)分類的方法,簡單直觀,且誤差較小。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例的目的在于提供一種快速識(shí)別紅外光譜數(shù)據(jù)分類的方法及系統(tǒng),簡單直觀,且誤差較小。
為了解決上述技術(shù)問題,本發(fā)明實(shí)施例提供了一種快速識(shí)別紅外光譜數(shù)據(jù)分類的方法,所述方法包括:
獲取樣品每一種類別各自對(duì)應(yīng)的紅外光譜數(shù)據(jù),并將所述獲取到的紅外光譜數(shù)據(jù)基于som聚類網(wǎng)絡(luò)進(jìn)行聚類計(jì)算,得到樣品的紅外光譜數(shù)據(jù)的特征信息;
確定樣品每一種類別的樣品數(shù),并獲取樣品每一種類別中每一個(gè)樣品數(shù)的紅外光譜數(shù)據(jù),且根據(jù)所述獲取到的樣品每一種類別中每一個(gè)樣品數(shù)的紅外光譜數(shù)據(jù),形成樣品每一種類別各自對(duì)應(yīng)的分類訓(xùn)練樣本矩陣以及樣品總訓(xùn)練樣本矩陣;其中,所述樣品每一種類別各自對(duì)應(yīng)的分類訓(xùn)練樣本矩陣是由同種類別的紅外光譜數(shù)據(jù)形成的以所述特征信息的維度為行數(shù)、樣品數(shù)為列數(shù)的矩陣;所述樣品總訓(xùn)練樣本矩陣是由不同種類別的紅外光譜數(shù)據(jù)形成的以所述特征信息的維度為行數(shù)、樣品數(shù)為列數(shù)的矩陣;
確定樣品未知類別的待測樣本數(shù)據(jù),且將所述待測樣本數(shù)據(jù)形成以所述特征信息的維度為行數(shù)的單列矩陣作為待測樣本矩陣,并根據(jù)所述形成的樣品總訓(xùn)練樣本矩陣以及待測樣本矩陣構(gòu)建二者線性關(guān)系,進(jìn)一步采用最小二乘回歸算法對(duì)所述構(gòu)建的線性關(guān)系求解,得到所述樣品總訓(xùn)練樣本矩陣與所述待測樣本矩陣之間形成的回歸系數(shù);
根據(jù)所述得到的回歸系數(shù)以及樣品每一種類別各自對(duì)應(yīng)的分類訓(xùn)練樣本矩陣,得到對(duì)應(yīng)于樣品每一種類別的估算樣本矩陣,并對(duì)比所述待測樣本矩陣分別與所述得到的對(duì)應(yīng)于樣品每一種類別的估算樣本矩陣之間的歐氏距離,確定歐氏距離為最小時(shí)所對(duì)應(yīng)估算樣本矩陣的類別為所述待測樣本數(shù)據(jù)的類別。
其中,所述樣品每一種類別各自對(duì)應(yīng)的紅外光譜數(shù)據(jù)采用行數(shù)為3000、列為1的矩陣來表示。
其中,特征信息的維度為294。
其中,所述樣品數(shù)為25個(gè)。
本發(fā)明實(shí)施例還提供了一種快速識(shí)別紅外光譜數(shù)據(jù)分類的系統(tǒng),所述系統(tǒng)包括:
數(shù)據(jù)維度選擇單元,用于獲取樣品每一種類別各自對(duì)應(yīng)的紅外光譜數(shù)據(jù),并將所述獲取到的紅外光譜數(shù)據(jù)基于som聚類網(wǎng)絡(luò)進(jìn)行聚類計(jì)算,得到樣品的紅外光譜數(shù)據(jù)的特征信息;
訓(xùn)練樣本矩陣獲取單元,用于確定樣品每一種類別的樣品數(shù),并獲取樣品每一種類別中每一個(gè)樣品數(shù)的紅外光譜數(shù)據(jù),且根據(jù)所述獲取到的樣品每一種類別中每一個(gè)樣品數(shù)的紅外光譜數(shù)據(jù),形成樣品每一種類別各自對(duì)應(yīng)的分類訓(xùn)練樣本矩陣以及樣品總訓(xùn)練樣本矩陣;其中,所述樣品每一種類別各自對(duì)應(yīng)的分類訓(xùn)練樣本矩陣是由同種類別的紅外光譜數(shù)據(jù)形成的以所述特征信息的維度為行數(shù)、樣品數(shù)為列數(shù)的矩陣;所述樣品總訓(xùn)練樣本矩陣是由不同種類別的紅外光譜數(shù)據(jù)形成的以所述特征信息的維度為行數(shù)、樣品數(shù)為列數(shù)的矩陣;
求解回歸系數(shù)單元,用于確定樣品未知類別的待測樣本數(shù)據(jù),且將所述待測樣本數(shù)據(jù)形成以所述特征信息的維度為行數(shù)的單列矩陣作為待測樣本矩陣,并根據(jù)所述形成的樣品總訓(xùn)練樣本矩陣以及待測樣本矩陣構(gòu)建二者線性關(guān)系,進(jìn)一步采用最小二乘回歸算法對(duì)所述構(gòu)建的線性關(guān)系求解,得到所述樣品總訓(xùn)練樣本矩陣與所述待測樣本矩陣之間形成的回歸系數(shù);
樣品類別識(shí)別單元,用于根據(jù)所述得到的回歸系數(shù)以及樣品每一種類別各自對(duì)應(yīng)的分類訓(xùn)練樣本矩陣,得到對(duì)應(yīng)于樣品每一種類別的估算樣本矩陣,并對(duì)比所述待測樣本矩陣分別與所述得到的對(duì)應(yīng)于樣品每一種類別的估算樣本矩陣之間的歐氏距離,確定歐氏距離為最小時(shí)所對(duì)應(yīng)估算樣本矩陣的類別為所述待測樣本數(shù)據(jù)的類別。
其中,所述樣品每一種類別各自對(duì)應(yīng)的紅外光譜數(shù)據(jù)采用行數(shù)為3000、列為1的矩陣來表示。
其中,所述特征信息的維度為294。
其中,所述樣品數(shù)為25個(gè)。
實(shí)施本發(fā)明實(shí)施例,具有如下有益效果:
本發(fā)明實(shí)施例通過som聚類網(wǎng)絡(luò)實(shí)現(xiàn)了紅外光譜數(shù)據(jù)的變量選擇,得到較少的更具特征的變量數(shù)據(jù),并結(jié)合線性回歸的算法,用訓(xùn)練樣本來線性表示預(yù)測樣本的方式,然后根據(jù)不同類別的訓(xùn)練樣本表示待測樣本的好壞來進(jìn)行判決,實(shí)現(xiàn)待測樣本的快速分類,因此具有簡單直觀,且誤差較小等優(yōu)點(diǎn)。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,根據(jù)這些附圖獲得其他的附圖仍屬于本發(fā)明的范疇。
圖1為本發(fā)明實(shí)施例提供的快速識(shí)別紅外光譜數(shù)據(jù)分類的方法的流程圖;
圖2本發(fā)明實(shí)施例提供的快速識(shí)別紅外光譜數(shù)據(jù)分類的系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,本發(fā)明實(shí)施例中,提出一種快速識(shí)別紅外光譜數(shù)據(jù)分類的方法,所述方法包括:
步驟s101、獲取樣品每一種類別各自對(duì)應(yīng)的紅外光譜數(shù)據(jù),并將所述獲取到的紅外光譜數(shù)據(jù)基于som聚類網(wǎng)絡(luò)進(jìn)行聚類計(jì)算,得到樣品的紅外光譜數(shù)據(jù)的特征信息;
具體過程為,利用som聚類網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)已知光譜數(shù)據(jù)的變量選擇,提升分類識(shí)別率。其中,樣品每一種類別各自對(duì)應(yīng)的紅外光譜數(shù)據(jù)采用行數(shù)為3000、列為1的矩陣來表示;特征信息的維度為294。
作為一個(gè)例子,以泥蚶的重金屬污染種類的紅外光譜識(shí)別為例,有五類泥蚶樣本,分別為泥蚶a,泥蚶b,泥蚶c,泥蚶d,泥蚶e,每個(gè)泥蚶樣品的紅外數(shù)據(jù)為3000×1的列矩陣,即每一種泥蚶每一個(gè)樣品數(shù)的紅外數(shù)據(jù)均采用行數(shù)為3000的單列矩陣。將光譜樣本的變量經(jīng)過som聚類網(wǎng)絡(luò),并選擇聚類數(shù)目的參數(shù),最后得到泥蚶的紅外光譜數(shù)據(jù)的特征信息的維度為294。
步驟s102、確定樣品每一種類別的樣品數(shù),并獲取樣品每一種類別中每一個(gè)樣品數(shù)的紅外光譜數(shù)據(jù),且根據(jù)所述獲取到的樣品每一種類別中每一個(gè)樣品數(shù)的紅外光譜數(shù)據(jù),形成樣品每一種類別各自對(duì)應(yīng)的分類訓(xùn)練樣本矩陣以及樣品總訓(xùn)練樣本矩陣;其中,所述樣品每一種類別各自對(duì)應(yīng)的分類訓(xùn)練樣本矩陣是由同種類別的紅外光譜數(shù)據(jù)形成的以所述特征信息的維度為行數(shù)、樣品數(shù)為列數(shù)的矩陣;所述樣品總訓(xùn)練樣本矩陣是由不同種類別的紅外光譜數(shù)據(jù)形成的以所述特征信息的維度為行數(shù)、樣品數(shù)為列數(shù)的矩陣;
具體過程為,根據(jù)樣品的類別標(biāo)簽將同類的訓(xùn)練樣本矩陣分在一起,即如把相同類別泥蚶樣本的紅外光譜數(shù)據(jù)放在一起。
在形成樣品總訓(xùn)練樣本矩陣過程中,是取樣品每一種類別中每一個(gè)樣品數(shù)的紅外光譜數(shù)據(jù),即已知樣品的類別,將不同種類別的紅外光譜數(shù)據(jù)形成的以特征信息的維度為行數(shù)、樣品數(shù)為列數(shù)的矩陣;而在形成樣品每一種類別各自對(duì)應(yīng)的分類訓(xùn)練樣本矩陣的過程中,是取樣品同種類別的紅外光譜數(shù)據(jù)形成的以特征信息的維度為行數(shù)、樣品數(shù)為列數(shù)的矩陣。其中,樣品數(shù)可設(shè)為25或其它。
作為一個(gè)例子,在上述泥蚶的重金屬污染種類的紅外光譜識(shí)別的例子中,將已知類別標(biāo)簽的每種泥蚶樣品數(shù)均設(shè)為25個(gè),然后將泥蚶樣本數(shù)據(jù)排成行為294,列為25的形式,并且a1的1~25列為第一類泥蚶a,a2的1~25列為第二類泥蚶b,以此類推,構(gòu)建樣品總訓(xùn)練樣本矩陣a和分類訓(xùn)練樣本矩陣ai。a=[ai]=[vi,1,vi,2,...,vi,n],對(duì)于第i類的矩陣數(shù)據(jù),存在n個(gè)訓(xùn)練樣本;i=1-5,n=25。
步驟s103、確定樣品未知類別的待測樣本數(shù)據(jù),且將所述待測樣本數(shù)據(jù)形成以所述特征信息的維度為行數(shù)的單列矩陣作為待測樣本矩陣,并根據(jù)所述形成的樣品總訓(xùn)練樣本矩陣以及待測樣本矩陣構(gòu)建二者線性關(guān)系,進(jìn)一步采用最小二乘回歸算法對(duì)所述構(gòu)建的線性關(guān)系求解,得到所述樣品總訓(xùn)練樣本矩陣與所述待測樣本矩陣之間形成的回歸系數(shù);
具體過程為,明確待測樣本矩陣y,即明確某一個(gè)需要識(shí)別其類別標(biāo)簽的樣本,做成行數(shù)為特征信息的維度、列數(shù)為1的矩陣。
對(duì)于待測樣本矩陣y,根據(jù)樣品總訓(xùn)練樣本矩陣a,形成線性關(guān)系y=ax,并進(jìn)行求解。由于對(duì)于紅外光譜數(shù)據(jù)來說,通常數(shù)據(jù)的特征信息的維度是大于樣本數(shù)的,也就是說,線性系統(tǒng)y=ax是超定的,通常可以得到一個(gè)唯一解。利用最小二乘法,求解出這個(gè)線性系統(tǒng)的系數(shù)
步驟s104、根據(jù)所述得到的回歸系數(shù)以及樣品每一種類別各自對(duì)應(yīng)的分類訓(xùn)練樣本矩陣,得到對(duì)應(yīng)于樣品每一種類別的估算樣本矩陣,并對(duì)比所述待測樣本矩陣分別與所述得到的對(duì)應(yīng)于樣品每一種類別的估算樣本矩陣之間的歐氏距離,確定歐氏距離為最小時(shí)所對(duì)應(yīng)估算樣本矩陣的類別為所述待測樣本數(shù)據(jù)的類別。
具體過程為,利用之前得到的每一種類別的分類訓(xùn)練樣本矩陣ai乘以對(duì)應(yīng)的最小二乘回歸系數(shù)
根據(jù)某一類的估算樣本矩陣
如圖2所示,為本發(fā)明實(shí)施例中,提供的一種快速識(shí)別紅外光譜數(shù)據(jù)分類的系統(tǒng),所述系統(tǒng)包括:
數(shù)據(jù)維度選擇單元110,用于獲取樣品每一種類別各自對(duì)應(yīng)的紅外光譜數(shù)據(jù),并將所述獲取到的紅外光譜數(shù)據(jù)基于som聚類網(wǎng)絡(luò)進(jìn)行聚類計(jì)算,得到樣品的紅外光譜數(shù)據(jù)的特征信息;
訓(xùn)練樣本矩陣獲取單元120,用于確定樣品每一種類別的樣品數(shù),并獲取樣品每一種類別中每一個(gè)樣品數(shù)的紅外光譜數(shù)據(jù),且根據(jù)所述獲取到的樣品每一種類別中每一個(gè)樣品數(shù)的紅外光譜數(shù)據(jù),形成樣品每一種類別各自對(duì)應(yīng)的分類訓(xùn)練樣本矩陣以及樣品總訓(xùn)練樣本矩陣;其中,所述樣品每一種類別各自對(duì)應(yīng)的分類訓(xùn)練樣本矩陣是由同種類別的紅外光譜數(shù)據(jù)形成的以所述特征信息的維度為行數(shù)、樣品數(shù)為列數(shù)的矩陣;所述樣品總訓(xùn)練樣本矩陣是由不同種類別的紅外光譜數(shù)據(jù)形成的以所述特征信息的維度為行數(shù)、樣品數(shù)為列數(shù)的矩陣;
求解回歸系數(shù)單元130,用于確定樣品未知類別的待測樣本數(shù)據(jù),且將所述待測樣本數(shù)據(jù)形成以所述特征信息的維度為行數(shù)的單列矩陣作為待測樣本矩陣,并根據(jù)所述形成的樣品總訓(xùn)練樣本矩陣以及待測樣本矩陣構(gòu)建二者線性關(guān)系,進(jìn)一步采用最小二乘回歸算法對(duì)所述構(gòu)建的線性關(guān)系求解,得到所述樣品總訓(xùn)練樣本矩陣與所述待測樣本矩陣之間形成的回歸系數(shù);
樣品類別識(shí)別單元140,用于根據(jù)所述得到的回歸系數(shù)以及樣品每一種類別各自對(duì)應(yīng)的分類訓(xùn)練樣本矩陣,得到對(duì)應(yīng)于樣品每一種類別的估算樣本矩陣,并對(duì)比所述待測樣本矩陣分別與所述得到的對(duì)應(yīng)于樣品每一種類別的估算樣本矩陣之間的歐氏距離,確定歐氏距離為最小時(shí)所對(duì)應(yīng)估算樣本矩陣的類別為所述待測樣本數(shù)據(jù)的類別。
其中,所述樣品每一種類別各自對(duì)應(yīng)的紅外光譜數(shù)據(jù)采用行數(shù)為3000、列為1的矩陣來表示。
其中,所述特征信息的維度為294。
其中,所述樣品數(shù)為25個(gè)。
實(shí)施本發(fā)明實(shí)施例,具有如下有益效果:
本發(fā)明實(shí)施例通過som聚類網(wǎng)絡(luò)實(shí)現(xiàn)了紅外光譜數(shù)據(jù)的變量選擇,得到較少的更具特征的變量數(shù)據(jù),并結(jié)合線性回歸的算法,用訓(xùn)練樣本來線性表示預(yù)測樣本的方式,然后根據(jù)不同類別的訓(xùn)練樣本表示待測樣本的好壞來進(jìn)行判決,實(shí)現(xiàn)待測樣本的快速分類,因此具有簡單直觀,且誤差較小等優(yōu)點(diǎn)。
值得注意的是,上述系統(tǒng)實(shí)施例中,所包括的各個(gè)系統(tǒng)單元只是按照功能邏輯進(jìn)行劃分的,但并不局限于上述的劃分,只要能夠?qū)崿F(xiàn)相應(yīng)的功能即可;另外,各功能單元的具體名稱也只是為了便于相互區(qū)分,并不用于限制本發(fā)明的保護(hù)范圍。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,所述的存儲(chǔ)介質(zhì),如rom/ram、磁盤、光盤等。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。