本發(fā)明屬于對近紅外光譜建立校正模型的化學計量學領域,具體涉及到計算機技術、化學計量學、模式識別、機器學習等方法。
背景技術:
隨著現(xiàn)代人類生活方式、飲食習慣的改變以及人口老齡化的加劇,糖尿病發(fā)病率近年來大幅上升,糖尿病及其并發(fā)癥所造成的影響己成為嚴重的公共衛(wèi)生問題之一。越來越多的糖尿病患者需要每天多次對體內血糖濃度進行定時或者依身體情況隨時監(jiān)測。一般患者每天需要檢測4-6次血糖,而現(xiàn)市場上所售的血糖儀大多為有創(chuàng)的,需要扎針取血,使患者遭受痛苦,而且還有可能引起傷口感染,不利于血糖的頻繁檢測。針對有創(chuàng)血糖檢測的嚴重缺陷,人們開始將注意力轉移至高效,便捷的無創(chuàng)血糖檢測上。
人體血糖濃度的無創(chuàng)測量,可以運用近紅外透射法測量耳垂部位,根據(jù)多個波長的吸光度來估算血糖濃度值。但是人體結構非常復雜,血液中各種成分相互影響,基于朗伯比爾定律的校正算法,如多元線性回歸、偏最小二乘回歸等方法,無法描述人體光譜吸光度的非線性特性,導致對血糖濃度的估計精度無法達到實用的精度標準。
技術實現(xiàn)要素:
鑒于近紅外光譜校正模型線性方法的局限性,本發(fā)明的目的是提供一種針對人體血糖濃度測量的非線性光譜校正算法。該算法通過擴展非線性因素和非線性降維等方法,增強了校正模型對人體的適應性,有效提高了血糖濃度的估計精度。
本發(fā)明的技術方法,包括如下步驟:
步驟一:對用LED-光電接收管獲取的5個波長的吸光度數(shù)據(jù)進行非線性擴展,擴展方式包括全部二項式擴展及對數(shù)擴展,如X12,X22,X32,X42,X52,X1*X2,X1*X3,X1*X4,X1*X5,X2*X3,X2*X4,log(X1)等;
步驟二:對原始數(shù)據(jù)和擴展后的數(shù)據(jù)合計25維數(shù)據(jù),運用流形學習降維理論中的局部線性嵌入(Locally linear embedding,LLE)算法,把25維數(shù)據(jù)降為10維;在LLE降維過程中,需要對參數(shù)k和d進行優(yōu)化;其中k為鄰域參數(shù),d為樣本本征維數(shù),k和d均取整數(shù);本方法采用網(wǎng)格搜索法選取k和d的最優(yōu)值;
步驟三:用連續(xù)投影算法 (Successive Projections Algorithm , SPA)從10維數(shù)據(jù)中選出對血糖濃度預測最敏感的5個波長數(shù)據(jù);
步驟四:對5個波長數(shù)據(jù)運用RBF神經(jīng)網(wǎng)絡建立校正模型,RBF神經(jīng)網(wǎng)絡輸入層節(jié)點選擇為5個,隱層節(jié)點選擇為10個,輸出層節(jié)點選擇為1個。
附圖說明
圖1為基于流形學習和RBF神經(jīng)網(wǎng)絡的近紅外無創(chuàng)血糖儀校正算法的流程圖。
具體實施方式
為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖,對本發(fā)明進行進一步詳細說明。應當說明的是,此處所描述的具體實施方式僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
步驟一中(圖1),對用LED-光電接收管獲取的5個波長的吸光度數(shù)據(jù)進行非線性擴展,擴展方式為全部二項式擴展何對數(shù)擴展,包括:X12,X22,X32,X42,X52,X1*X2,X1*X3,X1*X4,X1*X5,X2*X3,X2*X4,X2*X5,X3*X4,X3*X5,X4*X5,log(X1),log(X2),log(X3),log(X4),log(X5),一共25維數(shù)據(jù)。通過擴展,把非線性因素加入到模型中,增強了模型對非線性系統(tǒng)的適應能力。
步驟二中(圖1),對原始數(shù)據(jù)和擴展后的數(shù)據(jù)合計25維數(shù)據(jù)運用流形學習降維理論中的局部線性嵌入算法,把25維數(shù)據(jù)降為10維;局部線性嵌入算法的步驟為:
(1) 計算樣本X中任意兩點xi和xj間的歐氏距離dx(i,j),則距離矩陣為Dij=dx(i,j);(2)根據(jù)Dij找出樣本集X中的距離xi最近的k個點;
(3) 以表達式為為目標函數(shù)(其中),計算各點xi和其臨近點的線性重構系數(shù);
(4)已知ωij,以表達式為目標函數(shù),計算低維映射,即求解矩陣M=(I-W)T(I-W)的第2個到d+1個最小特征值對應的特征向量Y,其中I為單位 矩陣,W為N×N的方陣,若xi和xj為臨近點,Wij=ωij,否則Wij=0。
對緊鄰個數(shù)k和樣本本征維數(shù)d, 本方法采用網(wǎng)格搜索法選取k和d的最優(yōu)值。
步驟三中(圖1),對降維后的10維數(shù)據(jù),從中選擇對血糖濃度預測最敏感的5個波長數(shù)據(jù),SPA的步驟如下:
(1)初始化:n=1(第一次迭代),在光譜矩陣中任選一列向量xi,記為xk(0)(即k(0)=j);
(2)集合S定義為:,即還沒有被選擇進波長鏈的列向量,分別計算xj對S中向量的投影向量
(3)記錄最大投影的序號
(4)將最大的投影作為下輪的投影向量
(5)n=n+1,如果n<N ,回到(2)繼續(xù)投影。
這樣得到N×K對波長組合,對每一對xk(0)和N所決定的組合分別建立定標模型,使用預測RMSEP來判斷所建模型的優(yōu)劣。選出最小的RMSEP,它所對應的xk(0)*和N*即為最佳的波長組合。
步驟四中(圖1),對5個波長數(shù)據(jù)運用RBF神經(jīng)網(wǎng)絡建立校正模型。多變量插值的RBF神經(jīng)網(wǎng)絡具有優(yōu)秀的離散數(shù)據(jù)內插特性,可以提供最優(yōu)逼近功能,其網(wǎng)絡結構域與多層前向型網(wǎng)絡類似,是一種3層前向型網(wǎng)絡,由輸入層、隱含層、輸出層組成,隱含層神經(jīng)元傳遞函數(shù)是對中心點徑向對稱且衰減的非負非線性 函數(shù) ,從輸入層空間到隱含層的空間變換是線性的,從隱含層空間到輸出層空 間變換也是線性的。RBF具有結構簡單、訓練速度快、函數(shù)逼近能力和分類能力強、不存在局部最優(yōu)問題等優(yōu)點。本發(fā)明中RBF神經(jīng)網(wǎng)絡輸入層節(jié)點選擇為5個,隱層節(jié)點選擇為10個,輸出層節(jié)點選擇為1個。徑向基函數(shù)(RBF)形式為:
。
以上是本發(fā)明的較佳實施方式,但本發(fā)明的保護范圍不限于此。任何熟悉本領域的技術人員在本發(fā)明所揭露的技術范圍內,未經(jīng)創(chuàng)造性勞動想到的變換或替換,都應涵蓋在本發(fā)明的保護范圍之內。因此本發(fā)明的保護范圍應以權利要求所限定的保護范圍為準。