專利名稱:高精度分辨中藥材品種、產(chǎn)地及生長(zhǎng)方式的紅外光譜特征提取方法
技術(shù)領(lǐng)域:
本發(fā)明屬于對(duì)中藥材品種、產(chǎn)地及生長(zhǎng)方式的自動(dòng)識(shí)別方法的技術(shù)領(lǐng)域。
背景技術(shù):
中藥是中華民族在悠久的歷史進(jìn)程中與疾病斗爭(zhēng)的科學(xué)結(jié)晶和向人類貢獻(xiàn)的璀璨
瑰寶,療效突出。然而由于當(dāng)代全球醫(yī)療科技的迅猛發(fā)展,中藥的傳統(tǒng)優(yōu)勢(shì)地位正在 受到?jīng)_擊。目前我國(guó)中藥市場(chǎng)上存在著的一些質(zhì)量問(wèn)題,已對(duì)中醫(yī)藥的信譽(yù)、療效和 人們的生命健康帶來(lái)了不良的后果。
中藥材的質(zhì)量是中藥質(zhì)量的基礎(chǔ),中藥材質(zhì)量鑒別在中藥療效、安全及發(fā)展中扮演 著極其重要的作用。目前,中藥材的鑒別主要有二大方法(1)基于經(jīng)驗(yàn)的性狀鑒別, 及(2)理化鑒別方法。前者主要直接透過(guò)觀察藥材的形狀、顏色、氣味、尺寸及剖面 而鑒定其質(zhì)量,因此對(duì)觀察者要求極其嚴(yán)格,必須經(jīng)過(guò)長(zhǎng)期的經(jīng)驗(yàn)積累。但即使這樣, 此方法人為誤差依然較大。相比之下,理化鑒別以分離或以微區(qū)分析為基礎(chǔ),如色譜 指紋圖譜的應(yīng)用對(duì)于解決質(zhì)量的整體控制起到了一定的作用。但這種技術(shù)相對(duì)復(fù)雜、 費(fèi)時(shí)、成本高,而且屬于靈敏、精細(xì)的微觀方法,重復(fù)性較差。因此,這種方法不適 合從宏觀角度,定性的快速鑒定中藥材質(zhì)量。
中藥材的質(zhì)量決定于所含化學(xué)成分和各成分的比例,因而與它的產(chǎn)地及生長(zhǎng)方式有 著密不可分的關(guān)系。通過(guò)找出中藥材的真實(shí)來(lái)源地及生長(zhǎng)方式,從宏觀上為中藥材質(zhì) 量鑒別提供了一條快速而簡(jiǎn)易的可行方法。中藥材種類、產(chǎn)地及生長(zhǎng)方式的不同,將 會(huì)造成中藥材紅外光譜的差異。我們知道,用紅外光譜鑒定化合物,其優(yōu)點(diǎn)是簡(jiǎn)便、 迅速和可靠;同時(shí)樣品用量少、可回收;對(duì)樣品也無(wú)特殊要求,無(wú)論氣體、液體和固體均可進(jìn)行檢測(cè)。而自從20世紀(jì)70年代后期傅里葉變換技術(shù)引入紅外光譜領(lǐng)域以來(lái), 化合物紅外光譜的獲得已變得相當(dāng)容易、快速和精確,這就為通過(guò)紅外光譜鑒定中藥 材質(zhì)量提供了一個(gè)嶄新的平臺(tái)。將紅外光譜法與計(jì)算機(jī)和模式識(shí)別技術(shù)相結(jié)合,將 使中藥材質(zhì)量鑒定手段產(chǎn)生巨大的飛躍。根據(jù)模式識(shí)別原理,通過(guò)紅外頻譜識(shí)別中藥 材的品種、產(chǎn)地及生長(zhǎng)方式的過(guò)程可分為訓(xùn)練及判別二個(gè)基本階段。在訓(xùn)練階段中, 先利用紅外光譜儀獲取相當(dāng)數(shù)量的巳知真實(shí)產(chǎn)地和生長(zhǎng)方式的中藥材樣本的紅外光譜 圖,再利用信號(hào)處理技術(shù)對(duì)各光譜圖進(jìn)行預(yù)處理、特征提取和選擇。經(jīng)過(guò)訓(xùn)練階段, 這些中藥材樣本的紅外光譜原始測(cè)量數(shù)據(jù)映像為高維空間中的特征向量,不同種類、 產(chǎn)地和生長(zhǎng)方式的中藥材樣本的特征向量應(yīng)形成不同的集群。在判別階段中,送檢 的中藥材紅外光譜進(jìn)行一系列與訓(xùn)練階段一致的處理,被映像到訓(xùn)練樣本集的特征空 間中,再用分類算法判別其種類、產(chǎn)地和生長(zhǎng)方式。上述方法的核心關(guān)鍵是如何從中 藥材紅外光譜圖提取有效特征,更具體地說(shuō),是從紅外光譜的哪些頻率(波數(shù))點(diǎn)處 對(duì)光譜幅度進(jìn)行抽樣用以提取有效特征。目前已有一些科學(xué)工作者在這方面作了有益 的探索,例如憑藥物理論知識(shí)和經(jīng)驗(yàn)在某些特征峰所在處提取特征,或者通過(guò)貪婪搜
索法搜索特征譜段提取特征。這些方法有下列局限需要有關(guān)人員具有較高的藥物知
識(shí)水平和豐富的經(jīng)驗(yàn)積累,效率不高而缺少普遍適用性,不便于推廣到品種、產(chǎn)地及 生長(zhǎng)方式較多情況下的中藥材鑒別。
為了使基于紅外頻譜的對(duì)多種中藥材的品種、產(chǎn)地及生長(zhǎng)方式的自動(dòng)識(shí)別技術(shù)盡 早推廣應(yīng)用,異常迫切需要尋找出一個(gè)既具有普遍適用性,又能服務(wù)于高精度鑒別中 藥材品種、產(chǎn)地及生長(zhǎng)方式的紅外光譜特征提取方法。
發(fā)明內(nèi)容
技術(shù)問(wèn)題
本發(fā)明的目的是給出一個(gè)既具有普遍適用性,又能服務(wù)于高精度鑒別多種中藥材 品種、產(chǎn)地及生長(zhǎng)方式的紅外光譜特征提取方法,建立一個(gè)操作方便、顯示內(nèi)容豐富、 有利于開(kāi)發(fā)新算法的紅外光譜識(shí)別系統(tǒng)。為了使初始特征提取有利于紅外光譜分類, 本發(fā)明提出了一個(gè)能綜合反映紅外光譜中各頻率(波數(shù))點(diǎn)處的類間樣本差異與類內(nèi) 樣本差異的"類間類內(nèi)差異比"譜函數(shù)(也稱為VoM/MoV函數(shù))。為了有利于在特 征空間中采用簡(jiǎn)單而高效的算法判別送檢樣本的類別,本發(fā)明提出了一個(gè)實(shí)現(xiàn)訓(xùn)練樣 本特征向量在多維空間中分布最優(yōu)化的迭代算法。 技術(shù)方案s
本發(fā)明以下列條件作基礎(chǔ)對(duì)于要求鑒別的每一種中藥材(例如丹參、人參等), 己經(jīng)獲取了用傅里葉變換紅外光譜儀測(cè)得的、己知產(chǎn)地和生長(zhǎng)方式的相當(dāng)數(shù)量樣本的 紅外光譜。
對(duì)于要求鑒別的每一種中藥材,根據(jù)獲取的紅外光譜的特點(diǎn)進(jìn)行數(shù)據(jù)的預(yù)處理(包
括歸一化,去噪,求導(dǎo)等),然后求取類間類內(nèi)差異比譜函數(shù)(VoM/MoV函數(shù));根據(jù) VoM/MoV函數(shù)指示的位置,從紅外光譜的指紋區(qū)抽取經(jīng)過(guò)預(yù)處理的波形幅度值作為初 始特征;再通過(guò)K-L變換進(jìn)行維數(shù)壓縮并通過(guò)一種迭代算法實(shí)現(xiàn)訓(xùn)練樣本特征向量在 多維空間中的分布最優(yōu)化。對(duì)送檢的中藥材紅外光譜,進(jìn)行一系列與每一種中藥材訓(xùn) 練階段一致的處理,使之映像到訓(xùn)練樣本集的特征空間中,再用分類算法判別該中藥 材的種類、產(chǎn)地和生長(zhǎng)方式。為了操作方便、顯示內(nèi)容豐富、有利于開(kāi)發(fā)新算法,本 發(fā)明專門(mén)研制一套由Visual 〔++語(yǔ)言編寫(xiě)的軟件系統(tǒng)。該軟件系統(tǒng)不但使紅外光譜數(shù)據(jù)文件的調(diào)用、轉(zhuǎn)換和處理非常容易,而且具有科學(xué)計(jì)算可視化的功能,可以將每一歩 驟的結(jié)果以彩色圖形的方式及時(shí)顯示。
本發(fā)明提供一個(gè)既具有普遍適用性,又能高精度分辨中藥材品種、產(chǎn)地及生長(zhǎng)方 式的紅外光譜特征提取方法??梢愿呔取⒖焖偾彝瑫r(shí)檢測(cè)多品種中藥材的產(chǎn)地及生 長(zhǎng)方式,從而可從宏觀上定性檢測(cè)藥材的質(zhì)量及真假。
基于所發(fā)明的紅外光譜特征提取方法,可將在訓(xùn)練歩驟中的分類結(jié)果存于遠(yuǎn)程服
務(wù)器數(shù)據(jù)庫(kù),并對(duì)受測(cè)藥材光譜特征進(jìn)行網(wǎng)上査詢,可開(kāi)發(fā)出基于Web的快速及有效的
中藥材品種、產(chǎn)地及生長(zhǎng)方式在線檢測(cè)系統(tǒng)。
給定相當(dāng)數(shù)量的已知質(zhì)量級(jí)數(shù)的中藥材紅外光譜圖,本發(fā)明可快速測(cè)定受檢未知
藥材的真假及質(zhì)量級(jí)數(shù)。
本發(fā)明可用于對(duì)食品及飲品類的真、劣、假進(jìn)行快速準(zhǔn)確的檢測(cè)。
圖1是丹參的訓(xùn)練集樣本的產(chǎn)地及生長(zhǎng)方式顯示。
圖2是丹參的測(cè)試集樣本的產(chǎn)地及生長(zhǎng)方式顯示。
圖3是丹參訓(xùn)練集樣本在30維特征空間中A -x2平面上的投影顯示。
圖4是對(duì)丹參某個(gè)測(cè)試樣本的識(shí)別結(jié)果。
圖5是圖4結(jié)果在30維特征空間中x7 -^平面上的投影顯示。
圖6是系統(tǒng)對(duì)丹參錯(cuò)誤識(shí)別的整體顯示。
圖7是對(duì)人參的某個(gè)樣本的識(shí)別結(jié)果。
圖8是對(duì)不在識(shí)別范圍內(nèi)(其品種未對(duì)系統(tǒng)進(jìn)行過(guò)訓(xùn)練)的某個(gè)樣本的測(cè)試結(jié)果。 圖9是圖8的測(cè)試樣本與人參訓(xùn)練集樣本在30維特征空間中A -x2平面上的投影
10顯示。與其它對(duì)系統(tǒng)進(jìn)行過(guò)訓(xùn)練的中藥材相比,在特征空間中人參與該樣本最接近。
圖10是丹參訓(xùn)練集樣本紅外光譜經(jīng)歸一化和平滑之后的一階導(dǎo)數(shù)譜的"類間類內(nèi)
差異比譜函數(shù)"的一段。此段包含了指紋區(qū)。其余部分已被切除。
圖11是實(shí)現(xiàn)訓(xùn)練樣本特征向量在多維空間中分布最優(yōu)化的算法流圖。
具體實(shí)施例方式
由于所獲取的紅外光譜原始數(shù)據(jù)文件有可能是以不同的格式存儲(chǔ)的(例如*.asc或 氣sp),并且存儲(chǔ)的光譜幅度值可能是"百分透過(guò)率(percenttransmission)",也可能是"吸 光度(absorbance)"。為了方便后續(xù)處理,本方案第一步是將用于訓(xùn)練的每個(gè)數(shù)據(jù)文件 中的光譜幅度值讀取出來(lái)按統(tǒng)一的格式保存到單獨(dú)的文件目錄中(保存前,如果某幅 度值是吸光度,則轉(zhuǎn)換為百分透過(guò)率),并將中藥材的品種、產(chǎn)地和生長(zhǎng)方式信息以統(tǒng) 一規(guī)定的代碼添加到文件名中。
為了突出譜線的變化部分,消除各譜線基線不同帶來(lái)的影響,我們吸取了別人的經(jīng) 驗(yàn),對(duì)所有紅外光譜求取一階導(dǎo)數(shù),然后從一階導(dǎo)數(shù)譜中提取特征。由于各個(gè)原譜在 縱軸方向的幅度范圍也往往有明顯差異,而且往往迭加上了很多并不代表樣本特征的 很稠密的小幅度波紋。因此在求取一階導(dǎo)數(shù)前我們對(duì)原譜進(jìn)行某種歸一化以及平滑化 操作。
假定某一品種中藥材按產(chǎn)地和生長(zhǎng)方式可分為K類,第k類的樣本數(shù)為Nh每個(gè) 紅外光譜圖的波數(shù)數(shù)目為n。(如果這種中藥材紅外光譜圖的波數(shù)范圍不完全一致,例 如有的譜圖的波數(shù)范圍為4000cm—1 □ 400cm—1 ,另外的譜圖的波數(shù)范圍為 4000cm—1 □ 650ctT',則取其公有范圍內(nèi)的光譜圖數(shù)據(jù)作為后續(xù)處理的信號(hào)。在上述情 況下,"=4000-650 + 1 = 3351 )。我們用d(^,A)表示紅外光譜圖經(jīng)過(guò)預(yù)處理后第k類中的第j個(gè)譜圖的第z'個(gè)幅度值,其中,hl,2,…,";7' = l,2,一,7Vi; A-l,2,…,《
總的訓(xùn)練樣本數(shù)為
<formula>formula see original document page 12</formula>(1)
為了導(dǎo)出"類間類內(nèi)差異比"譜函數(shù)的定義,我們先給出幾個(gè)術(shù)語(yǔ):
第k類均值譜
<formula>formula see original document page 12</formula>(2)
第k類方差譜:
<formula>formula see original document page 12</formula>(3)
類內(nèi)方差均值譜(MoV,艮卩Mean of Variances):
<formula>formula see original document page 12</formula>(4)
類內(nèi)均值方差譜 (VoM,艮卩Variance of Means):
<formula>formula see original document page 12</formula>(5)
式中,
由式(4)和(5),我們可以針對(duì)該中藥材定義一種特殊的譜圖-
<formula>formula see original document page 12</formula>(6)
:類間類內(nèi)差異比'
譜函數(shù)(或者稱為VoM/MoV函數(shù)):
<formula>formula see original document page 12</formula>(7)
更一般地,定義V0M/M0V函數(shù)為<formula>formula see original document page 13</formula> (8)
其中p和q為大于0的整數(shù),根據(jù)分類效果選取。在統(tǒng)計(jì)的意義上,)^(/)和M,(0分 別描述了這種中藥材的紅外光譜在點(diǎn)Z處的類間差異和類內(nèi)差異的大小。從分類的目的 出發(fā),^(0越大越好,M「(0越小越好。在VoM/MoV函數(shù)值較大的z'處取紅外光譜幅 度值來(lái)提取特征,將可以使特征空間中不同類別間的特征向量平均距離大而相同類別 間的特征向量平均距離小,有利于分類。我們目前的方案是在求出VoMMoV函數(shù)之后, 用一種算法尋找出它在紅外光譜指紋區(qū)的若干個(gè)局部極大點(diǎn)、,4,…人,取這些點(diǎn)處的
光譜幅度值,將每個(gè)光譜圖轉(zhuǎn)化為",維特征向量。 一般取w,為60至90。.'
實(shí)際上我們能夠獲得的訓(xùn)練集樣本數(shù)不多。在此情況下,為了解決模式識(shí)別技術(shù)中 所謂的維數(shù)災(zāi)難問(wèn)題,本方案采用K-L變換將n,維特征向量降維為^維特征向量(取 =30左右)。在此過(guò)程中,我們得到一個(gè) xq的變換矩陣。
使訓(xùn)練樣本特征向量在多維空間中分布最優(yōu)化,以便能在特征空間中采用簡(jiǎn)單而高 效的算法對(duì)未知類別的樣本進(jìn)行分類,是本發(fā)明除"類間類內(nèi)差異比"譜函數(shù)之外的 另一創(chuàng)新點(diǎn)。
假定我們用鄧力表示經(jīng)過(guò)降維后第k類中的第j個(gè)特征向量,其中,
<formula>formula see original document page 13</formula>f是各類協(xié)方差矩陣的以(A^/AO加權(quán)的平均的協(xié)方差矩陣。它的各特征值往往彼 此相差很大,各類訓(xùn)練樣本在特征空間中呈現(xiàn)很扁平的分布,使得樣本間的歐氏距離 難以反映樣本間的相似性。我們通過(guò)一種迭代算法對(duì)特征向量進(jìn)行變換。在有限的幾 歩迭代后就可以使新5的各特征值幾乎完全相等。這時(shí),從平均意義上就可以認(rèn)為各 類樣本在特征空間中的分布是優(yōu)化的。樣本數(shù)越多的類,其樣本越呈"球形分布"。這 樣就可以在對(duì)未知類別的樣本進(jìn)行分類操作時(shí)用簡(jiǎn)單的分類算法。迭代過(guò)程將產(chǎn)生一 個(gè)"2>< 2的變換矩陣。
對(duì)送檢的中藥材紅外光譜,進(jìn)行與每一種中藥材訓(xùn)練階段一致的處理,使之映像到 每個(gè)訓(xùn)練樣本集的特征空間中。然后,用合適的分類算法判別該中藥材的種類、產(chǎn)地 和生長(zhǎng)方式。本方案目前采用的分類算法是改進(jìn)了的近鄰法。
本發(fā)明在Wsual 0++6.0編程的軟件系統(tǒng)中具體實(shí)施。該系統(tǒng)具有科學(xué)計(jì)算可視化 功能,有友好用戶界面。
我們先后共取得丹參、人參、天麻和淫羊霍4種中藥材的中紅外光譜圖,該系統(tǒng) 目前可全部鑒別它們。其中丹參的樣本數(shù)最多.,紅外光譜圖也較規(guī)范,因此下面主要 以丹參為例來(lái)說(shuō)明具體實(shí)施方式
。我們獲得了 940個(gè)丹參樣本的中紅外光譜。這些樣 本來(lái)自27個(gè)產(chǎn)地,生長(zhǎng)條件分為采挖野生(有些又進(jìn)一步細(xì)分為陰坡和陽(yáng)坡),野生 莖葉,采挖栽培(有些又進(jìn)一步細(xì)分為一年和二年),栽培莖葉,購(gòu)買(mǎi)野生,購(gòu)買(mǎi)栽培 等。我們的任務(wù)是既要對(duì)丹參的產(chǎn)地進(jìn)行區(qū)分,又要對(duì)同一產(chǎn)地的丹參生長(zhǎng)條件進(jìn) 行區(qū)分。類別總數(shù)有49類。訓(xùn)練樣本總數(shù)與類別總數(shù)相比是很少的,而且各類樣本數(shù) 目嚴(yán)重不均。因此,必須在信號(hào)的預(yù)處理和特征提取上狠下功夫,盡可能使同一類別 的特征向量相距較近而不同類別的特征向量相距較遠(yuǎn),然后針對(duì)小樣本情況考慮分類方法。
我們將樣本劃分為870個(gè)訓(xùn)練樣本和70個(gè)測(cè)試樣本。圖1及圖2顯示了丹參的訓(xùn)練集 樣本和測(cè)試集樣本的某些信息。圖l在地圖上顯示了不同訓(xùn)練集樣本的產(chǎn)地,該地圖的 下方有丹參樣本的其它數(shù)據(jù),如生長(zhǎng)條件等。圖2顯示了用于測(cè)試的丹參樣本的產(chǎn)地、 生長(zhǎng)條件及紅外光譜的文件名稱。
對(duì)于870個(gè)訓(xùn)練樣本,我們進(jìn)行下列操作
預(yù)處理對(duì)各樣本光譜的幅度進(jìn)行歸一化,用長(zhǎng)度為13的三角形窗進(jìn)行平滑,再求 一階導(dǎo)數(shù)譜。
求一階導(dǎo)數(shù)譜的"類間類內(nèi)差異比譜函數(shù)",將此函數(shù)的幅度歸一化后,切去對(duì)分類 無(wú)意義的部分,保留包含了紅外光譜圖指紋區(qū)的部分,如圖10所示。
求這一段中的局部極大點(diǎn)(此例中有64個(gè)),將其保存。在這些局部極大點(diǎn)處提取一 階導(dǎo)數(shù)譜的幅度,得到870個(gè)64維的特征向量。
求出這些特征向量總體的協(xié)方差矩陣及其特征向量和特征值,按K-L變換降維的原則 構(gòu)造出一個(gè)30x64的變換矩陣,將各特征向量降到30維。(之所以是30, 一是因?yàn)樽儞Q后 的新的特征向量總體的協(xié)方差矩陣的主對(duì)角線元素之和下降不多,僅比變換前下降6%左 右;二是可以保證對(duì)70個(gè)測(cè)試樣本有較高的正確識(shí)別率)。
對(duì)于降維后的訓(xùn)練樣本特征向量,用圖ll所示的迭代算法實(shí)現(xiàn)其在多維空間中的 分布最優(yōu)化。每次迭代循環(huán)中包含下列歩驟(1)由訓(xùn)練集所有樣本的特征向量計(jì)算出 每一類的均值向量及協(xié)方差矩陣;(2)將每一類的協(xié)方差矩陣以'樣本數(shù)的比率加權(quán)后求 和,得到平均協(xié)方差矩陣;(3)計(jì)算出該平均協(xié)方差矩陣的各個(gè)本征值及對(duì)應(yīng)的本征向 量;(4)將最大本征值和最小本征值的差與一個(gè)既定的微小閾值(此例中是0.001)比較;(5)如果最大本征值和最小本征值的差小于該既定閾值,則轉(zhuǎn)向歩驟(6);否則,將 各本征值的倒數(shù)組成的對(duì)角矩陣左乘本征向量矩陣的轉(zhuǎn)置矩陣,構(gòu)成一個(gè)變換矩陣;(6) 利用此變換矩陣對(duì)各特征向量進(jìn)行線性變換,所得結(jié)果作為新的特征向量,轉(zhuǎn)向歩驟 (1); (7)結(jié)束迭代,將各中間過(guò)程的變換矩陣相乘得到總的變換矩陣。
圖3顯示了經(jīng)過(guò)空間分布優(yōu)化的30維的丹參訓(xùn)練集樣本特征向量在一個(gè)平面上
的投影。圖中用連線標(biāo)出了某個(gè)類別的五個(gè)樣本??梢钥闯觯悇e的樣本在特征空 間里的距離是較近的。
訓(xùn)練集樣本特征向量經(jīng)過(guò)空間分布優(yōu)化后,即可利用一定的分類算法對(duì)未知類別 的樣本進(jìn)行識(shí)別了。如果系統(tǒng)對(duì)樣本的正確識(shí)別率高,則將處理過(guò)程和對(duì)分類有用的 數(shù)據(jù)保存?zhèn)溆谩7駝t,要重新考慮從預(yù)處理到分類算法的各個(gè)環(huán)節(jié)。
本發(fā)明采用的分類算法是改進(jìn)的近鄰法。圖4顯示了對(duì)丹參某個(gè)測(cè)試樣本的識(shí)
別結(jié)果。圖的右上方可以看到該樣本的紅外光譜。圖的下方顯示了最接近該測(cè)試樣本
的二十個(gè)訓(xùn)練集樣本。圖5顯示了這個(gè)測(cè)試樣本的特征向量及其二十個(gè)最接近的訓(xùn)練 集樣本的特征向量在一個(gè)平面上的投影。
圖6顯示了系統(tǒng)對(duì)中藥丹參的錯(cuò)誤識(shí)別率。對(duì)于未參與訓(xùn)練的70個(gè)不同產(chǎn)地、不 同生長(zhǎng)條件的丹參測(cè)試樣本,只有4個(gè)被錯(cuò)誤識(shí)別。這說(shuō)明本發(fā)明提供的特征提取和 分類方法是有效的。
圖7顯示了系統(tǒng)對(duì)人參的某個(gè)樣本的識(shí)別結(jié)果。結(jié)果是正確的。 圖8和圖9顯示了系統(tǒng)對(duì)一個(gè)在丹參、人參、天麻和淫羊霍4種中藥材范圍之外 的某個(gè)樣本的識(shí)別結(jié)果。由圖8中的數(shù)值可以看出,該樣本與所有品種的訓(xùn)練樣本在 特征空間中的距離都超出了一定范圍,因此本系統(tǒng)將該樣本視作不可識(shí)別的。圖9是 該樣本與人參訓(xùn)練集樣本特征向量的2維顯示。與其它三種對(duì)系統(tǒng)進(jìn)行過(guò)訓(xùn)練的中藥材相比,在特征空間中人參與該樣本最接近,但距離仍明顯偏大。
一個(gè)以紅外光譜特征識(shí)別樣本類別的系統(tǒng)可以通過(guò)服務(wù)器與互聯(lián)網(wǎng)連接,也可直接 與傅立葉變換紅外光譜儀連接。遠(yuǎn)程用戶可將需要識(shí)別的紅外光譜數(shù)據(jù)通過(guò)互聯(lián)網(wǎng)傳 送至系統(tǒng)。本地用戶可用光譜儀直接將待識(shí)別的實(shí)物樣品的紅外光譜數(shù)據(jù)輸入系統(tǒng)。 系統(tǒng)中的專用軟件將根據(jù)訓(xùn)練階段建立的數(shù)據(jù)庫(kù)和探索出的算法對(duì)輸入的紅外光譜進(jìn) 行一系列處理,最后完成識(shí)別任務(wù),并將結(jié)果以文字和圖形形式顯示給用戶。
1權(quán)利要求
1. 一種提取一個(gè)對(duì)象品種的紅外光譜特征的方法,包括以下步驟(1)根據(jù)最少一個(gè)分類條件,將該品種的對(duì)象分成多個(gè)類別,并提供屬于該品種的多個(gè)已知類別的樣本;(2)將該多個(gè)樣本以隨機(jī)方式分成一個(gè)訓(xùn)練樣本集及一個(gè)測(cè)試樣本集,該訓(xùn)練樣本集包括多個(gè)訓(xùn)練樣本,該測(cè)試樣本集包括多個(gè)測(cè)試樣本;(3)測(cè)定該多個(gè)樣本的紅外光譜;(4)對(duì)該多個(gè)訓(xùn)練樣本的紅外光譜進(jìn)行一系列預(yù)處理,獲得該多個(gè)訓(xùn)練樣本的一階導(dǎo)數(shù)譜;(5)從該多個(gè)訓(xùn)練樣本的一階導(dǎo)數(shù)譜,計(jì)算該品種的類間類內(nèi)差異比譜函數(shù);(6)將該類間類內(nèi)差異比譜函數(shù)歸一化;(7)求該類間類內(nèi)差異比譜函數(shù)的多個(gè)局部極大點(diǎn);(8)在該多個(gè)局部極大點(diǎn)提取該多個(gè)訓(xùn)練樣本的一階導(dǎo)數(shù)譜的幅度值,作為該多個(gè)訓(xùn)練樣本的原始特征向量;(9)對(duì)該多個(gè)訓(xùn)練樣本的原始特征向量進(jìn)行降維處理,得到一個(gè)降維矩陣;(10)對(duì)該多個(gè)降維后的特征向量進(jìn)行在多維特征空間中的分布優(yōu)化,得到一個(gè)總的變換矩陣,從而獲得該對(duì)象品種的紅外光譜特征;(11)確定距離閾值,設(shè)計(jì)分類算法,并根據(jù)該距離閾值及該分類算法對(duì)該多個(gè)測(cè)試樣本進(jìn)行試分類;以及(12)調(diào)節(jié)該距離閾值及該分類算法,重復(fù)步驟(4)到步驟(11),直至該試分類所測(cè)得的正確識(shí)別率高過(guò)一個(gè)既定的比率,然后將該類間類內(nèi)差異比譜函數(shù)及其多個(gè)局部極大點(diǎn)、該降維矩陣、該總的變換矩陣、該距離閾值及該分類算法儲(chǔ)存。
2. 如權(quán)利要求1所述的方法,其特征在于所述對(duì)象為中藥材,并且所述分類條件至少 包括產(chǎn)地及生長(zhǎng)條件。
3. 如權(quán)利要求l所述的方法,其特征在于所述分類算法為改進(jìn)了的近鄰法。
4. 如權(quán)利要求1所述的方法,其特征在于所述類間類內(nèi)差異比譜函數(shù)的計(jì)算,包括 以下歩驟(1) 從該品種各類訓(xùn)練樣本的一階導(dǎo)數(shù)譜的幅度值,計(jì)算出該品種的類內(nèi)均值方差 譜及類內(nèi)方差均值譜;(2) 將該類內(nèi)均值方差譜進(jìn)行乘方運(yùn)算,其指數(shù)為大于零的整數(shù),并根據(jù)分類效果 選取;(3) 將該類內(nèi)方差均值譜進(jìn)行乘方運(yùn)算,其指數(shù)為大于零的整數(shù),并根據(jù)分類效果選??;以及(4) 將歩驟(2)所得結(jié)果除以步驟(3)所得結(jié)果,計(jì)算出類間類內(nèi)差異比譜函數(shù)。
5. 如權(quán)利要求1所述的方法,其特征在于所述降維處理為K-L變換法。
6. 如權(quán)利要求1所述的方法,其特征在于所述預(yù)處理包括歸一化、平滑運(yùn)算及求導(dǎo)運(yùn)算。
7. 如權(quán)利要求l所述的方法,其特征在于所述特征向量分布優(yōu)化處理,包括以下步驟(1) 由該多個(gè)訓(xùn)練樣本的特征向量計(jì)算出該多個(gè)類別的均值向量及協(xié)方差矩陣;(2) 將該每一個(gè)類別的協(xié)方差矩陣以樣本數(shù)的比率加權(quán)后求和,得到平均協(xié)方差矩陣;(3) 計(jì)算出該平均協(xié)方差矩陣的多個(gè)本征值及對(duì)應(yīng)的本征向量;(4) 將最大本征值和最小本征值的差與一個(gè)既定的微小閾值進(jìn)行比較;(5) 如果最大本征值和最小本征值的差小于該既定的微小閾值,則轉(zhuǎn)向步驟(8);否則,將'各本征向量合并成為一個(gè)本征向量矩陣,并用相應(yīng)的各本征值的倒數(shù)組成的對(duì)角矩陣左乘該本征向量矩陣的轉(zhuǎn)置矩陣,其結(jié)果作為中間過(guò)程的變換矩陣;(6) 利用該中間過(guò)程的變換矩陣對(duì)該多個(gè)特征向量進(jìn)行線性變換,所得結(jié)果作為新的特征向量;(7) 重復(fù)步驟(1)至步驟(6),直至最大本征值和最小本征值的差比該既定的微小閾值為??;以及 .(8) 將該各中間過(guò)程的變換矩陣依次相乘,以最后一個(gè)在最左及第一個(gè)在最右,得到總的分布優(yōu)化變換矩陣;在步驟(1)至步驟(7)的迭代中,每一次迭代均會(huì)產(chǎn)生一個(gè)該中間過(guò)程變換矩陣,而且均會(huì)改善訓(xùn)練集樣本特征向量在該多維特征空間中的分布;這種迭代一直進(jìn)行到該平均協(xié)方差矩陣的最大本征值和最小本征值的差小于該既定閾值為止。 .
8. —種測(cè)別一個(gè)待識(shí)別對(duì)象的品種及類別的方法,包括以下歩驟G)提取多個(gè)對(duì)象品種的紅外光譜特征;(2) 測(cè)定該待識(shí)別樣本的紅外光譜并根據(jù)該多個(gè)品種提取其紅外光譜特征;以及(3) 將該多個(gè)品種的紅外光譜特征,對(duì)該待識(shí)別樣本的紅外光譜特征分別進(jìn)行比較與判定。
9. 如權(quán)利要求8所述的方法,其特征在于該多個(gè)對(duì)象品種中每個(gè)品種的紅外光譜特征提取,包括以下步驟(1) 根據(jù)最少一個(gè)分類條件,將該品種的對(duì)象分成多個(gè)類別,并提供屬于該品種的多個(gè)已知類別的樣本;(2) 將該多個(gè)樣本以隨機(jī)方式分成一個(gè)訓(xùn)練樣本集及一個(gè)測(cè)試樣本集,該訓(xùn)練樣本集包括多個(gè)訓(xùn)練樣本,該測(cè)試樣本集包括多個(gè)測(cè)試樣本;(3) 測(cè)定該多個(gè)樣本的紅外光譜;(4) 對(duì)該多個(gè)訓(xùn)練樣本的紅外光譜進(jìn)行一系列預(yù)處理,獲得該多個(gè)訓(xùn)練樣本的一階導(dǎo)數(shù)譜;(5) 從該多個(gè)訓(xùn)練樣本的一階導(dǎo)數(shù)譜,計(jì)算該品種的類間類內(nèi)差異比譜函數(shù);(6) 將該類間類內(nèi)差異比譜函數(shù)歸一化;(7) 求該類間類內(nèi)差異比譜函數(shù)的多個(gè)局部極大點(diǎn);(8) 在該多個(gè)局部極大點(diǎn)提取該多個(gè)訓(xùn)練樣本的一階導(dǎo)數(shù)譜的幅度值,作為該多個(gè)訓(xùn)練樣本的原始特征向量;(9) 對(duì)該多個(gè)訓(xùn)練樣本的原始特征向量進(jìn)行降維處理,得到一個(gè)降維矩陣;(10) 對(duì)該多個(gè)降維后的特征向量進(jìn)行在多維特征空間中的分布優(yōu)化,得到一個(gè)總的變換矩陣,從而獲得該對(duì)象品種的紅外光譜特征;(11) 確定距離閾值,設(shè)計(jì)分類算法,并根據(jù)該距離閾值及該分類算法對(duì)該多個(gè)測(cè)試樣本進(jìn)行試分類;以及(12) 調(diào)節(jié)該距離閾值及該分類算法,重復(fù)步驟(4)到步驟(11),直至該試分類所測(cè)得的正確識(shí)別率高過(guò)一個(gè)既定的比率,然后將該類間類內(nèi)差異比譜函數(shù)及其多個(gè)局部極大點(diǎn)、該降維矩陣、該總的變換矩陣、該距離閾值及該分類算法儲(chǔ)存。
10. 如權(quán)利要求9所述的方法,其特征在于所述對(duì)象為中藥材,并且所述分類條件至少包括產(chǎn)地及生長(zhǎng)條件。
11. 如權(quán)利要求9所述的方法,其特征在于所述分類算法為改進(jìn)了的近鄰法。
12. 如權(quán)利要求9所述的方法,其特征在于所述類間類內(nèi)差異比譜函數(shù)的計(jì)算,包括以下步驟(1) 從該品種各類訓(xùn)練樣本的一階導(dǎo)數(shù)譜的幅度值,計(jì)算出該品種的類內(nèi)均值方差譜及類內(nèi)方差均值譜;(2) .將該類內(nèi)均值方差譜進(jìn)行乘方運(yùn)算,其指數(shù)為大于零的整數(shù),并根據(jù)分類效果選取;(3) 將該類內(nèi)方差均值譜進(jìn)行乘方運(yùn)算,其指數(shù)為大于零的整數(shù),并根據(jù)分類效果 選??;以及(4) 將步驟(2)所得結(jié)果除以歩驟(3)所得結(jié)果,計(jì)算出類間類內(nèi)差異比譜函數(shù)。
13. 如權(quán)利要求9所述的方法,其特征在于所述降維處理為K-L變換法。
14. 如權(quán)利要求9所述的方法,其特征在于所述預(yù)處理包括歸一化、平滑運(yùn)算及求導(dǎo)運(yùn) 算。
15. 如權(quán)利要求9所述的方法,其特征在于所述特征向量分布優(yōu)化處理包括以下步驟(1) 由該多個(gè)訓(xùn)練樣本的特征向量計(jì)算出該多個(gè)類別的均值向量及協(xié)方差矩陣;(2) 將該每一個(gè)類別的協(xié)方差矩陣以樣本數(shù)的比率加權(quán)后求和,得到平均協(xié)方差矩 陣;(3) 計(jì)算出該平均協(xié)方差矩陣的多個(gè)本征值及對(duì)應(yīng)的本征向量;(4) 將最大本征值和最小本征值的差與一個(gè)既定的微小閾值進(jìn)行比較;(5) 如果最大本征值和最小本征值的差小于該既定的微小閾值,則轉(zhuǎn)向步驟(8); 否則,將各本征向量合并成為一個(gè)本征向量矩陣,并用相應(yīng)的各本征值的倒數(shù) 組成的對(duì)角矩陣左乘該本征向量矩陣的轉(zhuǎn)置矩陣,其結(jié)果作為中間過(guò)程的變換 矩陣;(6) 利用該中間過(guò)程的變換矩陣對(duì)該多個(gè)特征向量進(jìn)行線性變換,所得結(jié)果作為新 的特征向量;(7) 重復(fù)歩驟(1)至步驟(6),直至最大本征值和最小本征值的差比該既定的微 小閾值為?。灰约?8) 將該各中間過(guò)程的變換矩陣依次相乘,以最后一個(gè)在最左及第一個(gè)在最右,得 到總的分布優(yōu)化變換矩陣;在步驟(1)至歩驟(7)的迭代中,每一次迭代均會(huì)產(chǎn)生一個(gè)該中間過(guò)程變換 矩陣,而且均會(huì)改善訓(xùn)練集樣本特征向量在該多維特征空間中的分布;這種迭代 一直進(jìn)行到該平均協(xié)方差矩陣的最大本征值和最小本征值的差小于該既定閾值 為止。
16. —種以紅外光譜特征分辨中藥材樣本的品種和類別的系統(tǒng),包括(1) 儲(chǔ)存有多個(gè)品種和類別樣本的紅外光譜的數(shù)據(jù)庫(kù);(2) 與該數(shù)據(jù)庫(kù)及互聯(lián)網(wǎng)連接的服務(wù)器;(3) 與該服務(wù)器連接的客戶機(jī);以及(4) 安裝于該客戶機(jī)的軟件,該軟件具有通過(guò)圖像用戶接口傳送數(shù)據(jù)及對(duì)紅外光譜 進(jìn)行調(diào)用、轉(zhuǎn)換、處理和識(shí)別的功能;其特征在于用戶能夠通過(guò)互聯(lián)網(wǎng)將待識(shí)別樣本的紅外光譜傳送至該服務(wù)器進(jìn)行處理和識(shí)別,并可以通過(guò)該軟件的圖像用戶接口在互聯(lián)網(wǎng)瀏覽器上看到該識(shí)別結(jié)果及相關(guān)的圖表。 '
17.如權(quán)利要求16所述的系統(tǒng),其特征在于還包括與該數(shù)據(jù)庫(kù)連接的傅単葉變換紅外光譜儀,該光譜儀測(cè)定該待識(shí)別樣本的紅外光譜。
全文摘要
本發(fā)明披露了一種高精度分辨中藥材品種、產(chǎn)地及生長(zhǎng)方式的紅外光譜特征提取方法。此方法取得每個(gè)品種的中藥材樣本的紅外光譜后再將其預(yù)處理,根據(jù)產(chǎn)地及生長(zhǎng)方式將樣本分類,并計(jì)算該品種的類間類內(nèi)差異比譜函數(shù),取得該多個(gè)樣本的特征向量,再將該特征向量降維及進(jìn)行分布優(yōu)化,以獲得該品種的紅外光譜特征。
文檔編號(hào)G01N21/25GK101498661SQ200810005068
公開(kāi)日2009年8月5日 申請(qǐng)日期2008年1月30日 優(yōu)先權(quán)日2008年1月30日
發(fā)明者張曉明, 王太君 申請(qǐng)人:香港浸會(huì)大學(xué)