本發(fā)明屬于近紅外光透射法無創(chuàng)血糖檢測技術(shù)領(lǐng)域,具體涉及了一種組合優(yōu)化算法用于人體無創(chuàng)血糖檢測的近紅外光波長變量選擇方法。
背景技術(shù):
近年來,隨著化學計量學的發(fā)展和光學元件設計制造水平的提升,使得近紅外(NIR,Near infrared)光譜分析技術(shù)用于人體血糖的無創(chuàng)檢測的理念和實踐越來越成熟。通過LED近紅外光源透射法建立與人體血糖濃度間的回歸模型,可以用于對人體血糖濃度進行預測。工程應用中可供選擇的不同波長的LED較多。在NIR結(jié)合PLS方法建模中,若采用不同波長的LED光源個數(shù)過多,模型計算量很大,且在某些光譜區(qū)域,血糖的光譜信息很弱,有的和其它成分吸收譜峰重疊嚴重,建立的模型很容易產(chǎn)生過擬合現(xiàn)象。所以,通過特定方法篩選特征波長或波長區(qū)間有可能得到更好的定量校正模型。波長選擇一方面可以簡化模型,另一方面由于不相關(guān)或非線性變量的剔除,可以得到預測能力強、穩(wěn)健性好的校正模型。
在工程實際應用中,如何從眾多近紅外LED光源波長變量中篩選出合適的光源,迄今為止還沒有一個公認的篩選方法,特別是在人體無創(chuàng)血糖檢測近紅外光譜中波長選擇更是鮮有報道。目前發(fā)展出的一些計算方法,主要分為基于閾值的簡單判斷方法和基于搜索方式確定最佳波長組合的方法。閾值方法主要是以相關(guān)系數(shù)等作為指標,其適用性不是很高;基于搜索方法一般以選擇的波長建立PLS或PCR等線性回歸模型的均方根誤差(RMSE)作為優(yōu)化目標函數(shù),常用的搜索方法有逐步選擇算法、模擬退火算法、多鏈方法和遺傳算法等,但在實際人體無創(chuàng)血糖測量過程中,由于檢測條件和檢測方式變化多樣,這些搜索方法都存在一定的局限性,很難達到全局最優(yōu)結(jié)果。遺傳算法雖然應用非常廣泛,但由于NIR的初始群體是隨機選取的,叉變異過程也有較強的隨機性,每次波長選擇的結(jié)果不能保證一致,且根據(jù)經(jīng)驗,校正集中波長變量與樣本數(shù)的比值一般要小于4,否則得到的結(jié)果是不可靠的;總之通過單一搜索方法選擇的波長變量建立的模型其魯棒性并不是很高,模型需要頻繁的校正。
技術(shù)實現(xiàn)要素:
為了解決上述單一搜索方法選擇變量上會陷入局部最優(yōu)、模型魯棒性不強的技術(shù)問題,本發(fā)明提供了一種基于加權(quán)組合優(yōu)化方式選擇波長變量的方法,該方法以逐步選擇算法、連續(xù)投影算法和遺傳算法為基礎(chǔ),從中篩選出更為合理,魯棒性更高的波長變量,本發(fā)明包括如下步驟:
步驟1、通過臨床試驗得到的不同時間段不同濃度的人體血糖值,同時用多個不同波長的LED光源通過非侵入方式獲得人體血糖近紅外透射率光譜數(shù)據(jù);
步驟2、然后建立偏最小二乘回歸模型,以誤差均方根(RMSE)為指標,分別采用連續(xù)投影算法、遺傳算法和逐步選擇算法篩選出各自最優(yōu)波長變量組,作為初始變量組;
步驟3、再對三組變量進行得分評價,將模型復測定系數(shù)歸一化作為每組間的權(quán)值,組內(nèi)的得分由每個輔助變量對模型的貢獻程度t檢驗來得到,t越大,則該變量得分越高,考慮到組間各變量得分的平衡性,對每組內(nèi)變量的t檢驗得分也進行歸一化處理;
步驟4、對變量得分進行加權(quán),將步驟3得到的組間權(quán)值和組內(nèi)得分進行相乘,若組間變量相同則進行評分累加,最后得到的評分按高低排序;
步驟5、選擇評分最高的前k個波長變量作為最終輔助變量。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:
在近紅外LED光透射法用于無創(chuàng)血糖檢測中,將過多的波長變量篩選為數(shù)量更少的獨立變量,不僅降低了模型復雜度和大大提高了計算效率,而且去除了大多冗余信息,能夠提高模型預測能力;該方法綜合連續(xù)投影算法、遺傳算法和逐步選擇算法三種變量選擇算法,以各變量對模型貢獻度作為得分指標,模型復測定系數(shù)作為權(quán)重,加權(quán)優(yōu)化得出最優(yōu)變量組,能有效克服單一算法的局限性,減少了預測模型需要頻繁校正的現(xiàn)象,魯棒性更強;本發(fā)明涉及算法穩(wěn)定、效率高,適用于大規(guī)模的變量選擇優(yōu)化問題。
附圖說明
圖1為本發(fā)明提供的基于組合優(yōu)化的近紅外無創(chuàng)血糖檢測波長變量篩選方法的流程示意圖。
圖2為本發(fā)明提供的遺傳優(yōu)化算法示意圖。
具體實施方式
以下結(jié)合變量篩選流程圖對本發(fā)明作進一步的詳細說明,但本發(fā)明的保護范圍并不局限于此。
本發(fā)明方法的整體流程如圖1所示,基于組合優(yōu)化的近紅外無創(chuàng)血糖檢測波長變量篩選方法具體的實施步驟如下:
步驟一(圖1)、數(shù)據(jù)的獲取,通過臨床試驗獲得不同時間段人體血糖濃度值的數(shù)據(jù),同時使用多個不同波長的近紅外LED光源對手臂或耳垂部位進行掃描,為了測量準確,需要進行多次掃描取平均值,并對數(shù)據(jù)進行平滑預處理。
步驟二(圖1、圖2)、建立線性回歸(如PLSR、PCR等)校正模型;
PLSR的基本做法是首先在自變量集中提出第一成分t1(t1是x1、x2、…xm的線性組合,且盡可能多地提取原自變量中的變異信息);同時在因變量集中也提取第一成分u1,并要求t1與u1相關(guān)程度達到最大;然后建立因變量y1、y2、…yp與t1的回歸,如果回歸方程已達到滿意的精度,則算法中止;否則繼續(xù)對第二成分的提取,直到達到滿意的精度為止;若最終對自變量集提取個成分t1、t2、…tr,PLSR將通過建立y1、y2、…yp與t1、t2、…tr的回歸式,然后再表示為y1、y2、…yp與原自變量的回歸方程式,模型誤差均方根表示如下:
以RMSE作為評價模型預測效果的優(yōu)劣的指標。
步驟三(圖1)、根據(jù)步驟二,分別用連續(xù)投影算法、遺傳算法和逐步回歸法對原始光譜數(shù)據(jù)進行處理,以PLS模型誤差均方根為指標,選擇各自有效的波長變量組。連續(xù)投影算法步驟如下:
(1)初始化:n=1(第一次迭代),在光譜矩陣中任選一列向量xj,記為xk(0)(k(0)=j);
(2) 集合S定義為:,即還沒有被選擇進波長鏈的列向量,分別計算xj對S中向量的投影向量
(3)記錄最大投影的序號
(4)將最大的投影作為下輪的投影向量
這樣得到對波長組合,對每一對xk(0)和N所決定的組合分別建立定標模型,使用預測RMSE來判斷所建模型的優(yōu)劣,選出最小的RMSE,它所對應的xk(0)*和N*即為最佳的波長組合;
遺傳算法是仿照生物進化和遺傳的規(guī)律,根據(jù)“生存競爭”和“優(yōu)勝劣汰”的原則,從任一初始群體出發(fā),通過復制、交換、突變等操作,使優(yōu)勝者繁殖,劣汰者消失,一代一代重復同樣的操作,最終使解決問題逼近最優(yōu)解,將其用于波長變量篩選也是一個比較有效的方法。對群體進行編碼,編碼方式采用二進制0/1字符編碼,對變量數(shù)為m的問題,可用一個有m字符的字符串來表示每種變量組合,字符串中的每個字符用0或1表示,0代表對應的變量未被選中,1代表對應的變量選中,算法流程圖如圖2所示;
逐步選擇方法的原理是:每一步只引入或剔除一個自變量,自變量是否被引入或剔除則取決于其偏回歸平方和的F檢驗或校正決定系數(shù)。如方程中已引入了(m-1)個自變量,在此基礎(chǔ)上考慮再引入變量Xj。記引入Xj后方程(即含m個自變量)的回歸平方和為SS回歸,殘差為SS殘差;之前含(m-1)個自變量(不包含Xj )方程的回歸平方和為SS回歸(-j) ,則Xj的偏回歸平方和為 U = SS回歸-SS回歸(-j),檢驗統(tǒng)計量為:
如果Fj>Fa(1 ,n - m - 1)(a為置信度),則 Xj選入方程;否則,不入選。從方程中剔除無統(tǒng)計學作用的自變量,過程則相反,但檢驗一樣。
步驟四(圖1)、 經(jīng)過連續(xù)投影算法、遺傳算法和逐步回歸算法與PLS回歸建模結(jié)合,分別篩選得到N、M和P個變量的組合,再分別以該三組變量組進行回歸建模,并計算模型復測定系數(shù),和三組變量中每個變量的貢獻度,復測定系數(shù)計算公式如下:
三個模型得到的復測定系數(shù)分別為R12、R22和R32,復測定系數(shù)越大,說明模型回歸效果越好,為了計算得分平衡性,按如下公式對其進行歸一化,將歸一化后的w作為每組間的得分權(quán)值:
組內(nèi)得分則通過每個變量對模型的貢獻即顯著性t檢驗來求得:
其中,bj是第j個變量的回歸系數(shù),n樣本數(shù),m變量數(shù);, cii是c的對角線上第i個的元素,;然后對tj進行歸一化處理作為變量組內(nèi)的得分。
步驟五(圖1)、對三組變量進行加權(quán)打分,將三組變量中相同變量得分進行加權(quán)累積,公式如下:
其中,wi 是變量組間權(quán)值,tij是第j個變量在第i組內(nèi)的得分,對Tj進行高低排序,再按照一定原則選取前k個變量作為最終模型變量。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)任一來說,再不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視本發(fā)明的保護范圍。