本發(fā)明屬于生物信息學(xué)領(lǐng)域,尤其涉及一種基于AIC和改進熵權(quán)法的人體體成分預(yù)測方法。
背景技術(shù):
人體成分的變化在一定程度上反映了身體健康狀況的變化,人體成分的準確預(yù)測對人體營養(yǎng)狀況的調(diào)節(jié)及疾病的預(yù)防有著重要意義。影響人體成分的參數(shù)眾多,目前主要包括生理電阻抗參數(shù)和普通生理特征參數(shù)兩類。這些生理參數(shù)之間還存在著高度非線性、嚴重關(guān)聯(lián)的特點,現(xiàn)有的人體體成分模型難以滿足這一需要。
隨著醫(yī)療測量技術(shù)的不斷進步,可測得的生理特征大規(guī)模發(fā)展,并呈現(xiàn)出樣本少、維數(shù)高等特點,這給傳統(tǒng)生理數(shù)據(jù)的處理及分析帶來了巨大的挑戰(zhàn),其中冗余特征的存在間接加重了不利影響,導(dǎo)致人體體成分預(yù)測存在不足。
鑒于上述問題,有必要提出一種新的人體體成分預(yù)測方法,以解決上述問題。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)的不足,本發(fā)明提出了基于AIC和改進熵權(quán)法的人體體成分預(yù)測方法,從人體生理參數(shù)中選擇出最優(yōu)的一組特征參數(shù),可有效地減少特征參數(shù)間的冗余性,簡化人體成分預(yù)測的擬合模型;其次,利用改進熵權(quán)法求解出預(yù)測模型的未知系數(shù),從而得出人體體成分的預(yù)測模型;這樣建立的人體體成分預(yù)測模型可提高人體體成分預(yù)測精度,為人體體成分研究和臨床應(yīng)用提供更為有效的檢測手段。
為實現(xiàn)上述目的,本發(fā)明提供了基于AIC和改進熵權(quán)法的人體體成分預(yù)測方法,包括:
S1:選擇阻抗模型,收集數(shù)據(jù)并構(gòu)造生理信息樣本的原始特征集F;
S2:加入生理信息樣本的原始特征集F,構(gòu)造第一特征參數(shù)和第二特征參數(shù);
S3:使用赤池信息量準則,選用AIC穩(wěn)定模型;
S4:計算AIC的值,選擇AIC值最小的特征組合,得到特征參數(shù)矩陣,分析各特征參數(shù)對擬合模型的影響,修正特征參數(shù)矩陣;
S5:引入信息熵,計算統(tǒng)一矩陣;
S6:求解特征參數(shù)矩陣系數(shù),得到人體體成分擬合模型。
進一步地,五段阻抗值、性別、年齡、身高、體重、種族為第一特征;第一特征的平方、倒數(shù)及乘積等組合為第二特征;原始特征集F由第一特征和第二特征共同組成。
進一步地,赤池信息量準則AIC為:AIC=2k-ln(L),k為參數(shù)個數(shù),L為似然函數(shù)。
進一步地,選用的AIC穩(wěn)定模型為:AICH=logσ2+(m/n)logn,σ2為模型的方差,m為模型的最高參數(shù),n為參數(shù)個數(shù)。
進一步地,計算AIC的值并選取AIC值最小的特征組合,可得特征參數(shù)矩陣:[R1,R3,R4,R2R3,R3R5,S,A,H,W,R]T,并分析各特征參數(shù)對擬合模型的影響,修正特征參數(shù)矩陣,構(gòu)造最終的特征參數(shù)矩陣[R1,R3,R4,R2R3,R3R5,A,H,W]T,其中R1~R5為阻抗值,S為性別、A為年齡、H為身高、W為體重、R為種族、RiRj為阻抗值乘積。
更進一步地,種族R的值完全相等,構(gòu)造最終的擬合模型為:
Male:f=a1R1+a2R3+a3R4+a4R2R3+a5R3R5+a6A+a7H+a8W+ε1
Female:f=b1R1+b2R3+b3R4+b4R2R3+b5R3R5+b6A+b7H+b8W+ε2
式中,a1~a8,b1~b8為回歸系數(shù),ε1,ε1為誤差。
更進一步地,信息熵計算公式為:H(R1)=-∫xp(x)logp(x)dx。
更進一步地,人體體成分擬合模型求解步驟為:
S51:設(shè)評估事件有m個對象,n個參數(shù),xij為第i個對象下的第j個指標,根據(jù)公式或公式計算確定m行n列的決策矩陣Y={xij}m×n;
S52:消除對象的不同指標具有的不同量綱單位,形成統(tǒng)一矩陣:
S53:計算熵值公式中ej為第j個評估指標所對應(yīng)熵值;如果Y′ij=0,那么ej值在[0,1];
S54:計算權(quán)值公式中wj表示第j個指標的權(quán)值,n表示指標個數(shù)。
作為更進一步的,人體體成分擬合模型求解步驟還包括:
S55:計算綜合權(quán)值:
計算出各評價指標的熵權(quán)后,根據(jù)各個指標信息熵大小排序形成的標準分級數(shù),從而得到關(guān)于指標x的綜合權(quán)重;
準則集總熵為:
由于各評價指標的重要性已隱含在分級標準中,由分級標準值來確定常規(guī)權(quán)重λj,該權(quán)重計算公式如下:
其中λj為第j個指標的常規(guī)權(quán)重,k為特征選擇算法選擇出的參數(shù)指標的信息熵排序的標準分級數(shù)。
作為更進一步的,綜合常規(guī)權(quán)重λj和客觀權(quán)重wj得出新的改進熵權(quán)權(quán)值:
本發(fā)明由于采用以上技術(shù)方案,能夠取得如下的技術(shù)效果:從人體生理參數(shù)中選擇出最優(yōu)的一組特征參數(shù),可有效地減少特征參數(shù)間的冗余性,簡化人體成分預(yù)測的擬合模型;其次,利用改進熵權(quán)法求解出預(yù)測模型的未知系數(shù),從而得出人體體成分的預(yù)測模型;這樣建立的人體體成分預(yù)測模型可提高人體體成分預(yù)測精度,為人體體成分研究和臨床應(yīng)用提供更為有效的檢測手段。
附圖說明
圖1為本發(fā)明基于AIC和改進熵權(quán)法的人體體成分預(yù)測方法的流程圖;
圖2為人體體成分擬合模型求解步驟流程圖;
圖3為年齡為影響因子時,人體體成分的分布情況;
圖4為體重為影響因子時,人體體成分的分布情況;
圖5為身高為影響因子時,人體體成分的分布情況;
圖6為男性體成分預(yù)測結(jié)果示意圖;
圖7為女性體成分預(yù)測結(jié)果示意圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細描述。
在詳細說明基于AIC和改進熵權(quán)法的人體體成分預(yù)測方法之前,先介紹本方法所需要參數(shù)的收集以及相關(guān)計算公式。
首先,構(gòu)造人體生理參數(shù)原始特征集。利用五段人體阻抗測量儀測得五段阻抗值及人體的普通生理特征參數(shù),并選定五段阻抗值,性別,年齡,身高,體重,種族作為第一特征。然后,由第一特征通過代數(shù)變換產(chǎn)生第二特征,即將第一特征的平方、倒數(shù)及乘積等組合作為第二特征。原始特征由第一特征和第二特征共同組成,即原始特征集F由五段阻抗值R1~R5,阻抗值的組合1/Ri,RiRj(1≤i≤5,1≤j≤5),性別S,年齡A,身高H,體重W,種族Z組成。
由于擬合模型的特征參數(shù)及其組合的選擇數(shù)量多且較為復(fù)雜,為了得到盡可能簡單、準確的模型,本發(fā)明采用赤池信息量準則AIC作為評判標準,得到可以最好的解釋數(shù)據(jù)且包含最少自由參數(shù)的模型。
AIC的定義值為:
AIC=2k-ln(L)
式中,k為模型的獨立參數(shù)個數(shù),L為模型的極大似然函數(shù)。
當欲從一組可供選擇的模型中選擇一個最佳的模型時,選擇AIC為最小的模型是可取的,當兩個模型之間存在著相當大的差異時,這個差異出現(xiàn)于上式的L,而當L不出現(xiàn)顯著差異時,k則起作用,從而參數(shù)個數(shù)少的模型是好的模型。
考慮到體成分預(yù)測過程的復(fù)雜性,本文選用AIC穩(wěn)定模型:
AICH=logσ2+(m/n)logn
式中,σ2為模型的方差,m為模型的最高參數(shù),n為參數(shù)個數(shù)。
模型選擇結(jié)果如表1所示,按AIC值從小到大排列,式中,No.表示序號,n為變量個數(shù)。
表1模型選擇結(jié)果
基于上表結(jié)果,選取序號為1即AIC值最小的特征組合,可得特征參數(shù)矩陣:
[R1,R3,R4,R2R3,R3R5,S,A,H,W,R]T
由于本次試驗所選取的測試人員均為漢族,種族R的值完全相等,因此對擬合模型影響為零,所以可以將種族R從特征參數(shù)矩陣中移除。如圖3,圖4,圖5所示,性別、年齡、身高、體重都和人體預(yù)測模型存在直接相關(guān)性,可直接用于構(gòu)造擬合模型,除此之外,從圖中可以看出分別以年齡、體重、身高為影響因子時,性別的差異總是顯而易見的,因此將性別獨立出來處理模型,以便提高模型的精確度。
因此得到精簡后的特征參數(shù)矩陣:
[R1,R3,R4,R2R3,R3R5,A,H,W]T
利用該特征參數(shù)矩陣構(gòu)建出人體體成分預(yù)測模型,這里按照性別的不同得到兩個預(yù)測模型:
Male:f=a1R1+a2R3+a3R4+a4R2R3+a5R3R5+a6A+a7H+a8W+ε1
Female:f=b1R1+b2R3+b3R4+b4R2R3+b5R3R5+b6A+b7H+b8W+ε2
式中,a1~a8為男性擬合模型的未知系數(shù),ε1為誤差;b1~b8為女性擬合模型的未知系數(shù),ε2為誤差。
若令X=[x1,x2,x3,x4,x5,x6,x7,x8]=[R1,R3,R4,R2R3,R3R5,A,H,W],
A=[a1,a2,a3,a4,a5,a6,a7,a8],B=[b1,b2,b3,b4,b5,b6,b7,b8]
則擬合模型f可表示為:
Male:f(x)=AX′+ε
Female:f(x)=BX′+ε
實施例1
本實施例提供了一種基于AIC和改進熵權(quán)法的人體體成分預(yù)測方法,包括:
S1:考慮人體各部位的差異,選擇五段阻抗模型,收集數(shù)據(jù)并構(gòu)造生理信息樣本的原始特征集F;
S2:考慮其他一系列影響人體成分的生理參數(shù),加入生理信息樣本的原始特征集F,構(gòu)造第一特征參數(shù)和第二特征參數(shù);
目前五段人體阻抗模型是最為普遍被使用的分段阻抗模型,其將人體各部分的差異考慮在內(nèi),將人體分為右上肢、左上肢、軀干、右下肢、左下肢共五段阻抗。人體體成分建模除了考慮五段阻抗值R1~R5外,還要考慮其他一系列影響人體成分的生理參數(shù),包括性別S、年齡A、身高H、體重W、種族R等因素。這些特征參數(shù)分為第一特征參數(shù)、第二征參數(shù),其中R1~R5、S、A、H、W、R為第一征參數(shù);Ri2、倒數(shù)1/Ri及乘積RiRj(1≤i≤5,1≤j≤5)為第二征參數(shù),組合體成分預(yù)測模型的候選特征參數(shù)。
S3:使用赤池信息量準則作為評判標準,選用AIC穩(wěn)定模型;
赤池信息量準則AIC為:AIC=2k-ln(L),k為參數(shù)個數(shù),L為似然函數(shù)。
體成分預(yù)測過程復(fù)雜,選用AIC穩(wěn)定模型:
AICH=logσ2+(m/n)logn
式中,σ2為模型的方差,m為模型的最高參數(shù),n為參數(shù)個數(shù)。
S4:計算AIC的值,選擇AIC值最小的特征組合,得到特征參數(shù)矩陣:[R1,R3,R4,R2R3,R3R5,S,A,H,W,R]T。算征參數(shù)對擬合模型的影響,修正特征參數(shù)矩陣:[R1,R3,R4,R2R3,R3R5,A,H,W]T,
Male:f=a1R1+a2R3+a3R4+a4R2R3+a5R3R5+a6A+a7H+a8W+ε1
Female:f=b1R1+b2R3+b3R4+b4R2R3+b5R3R5+b6A+b7H+b8W+ε2
S5:引入信息熵,改進傳統(tǒng)熵權(quán)法,計算統(tǒng)一矩陣;信息熵計算公式為:H(R1)=-∫xp(x)logp(x)dx;
S6:求解特征參數(shù)矩陣系數(shù),得到人體體成分擬合模型。
實施例2
作為實施例1的補充,人體體成分擬合模型求解步驟為:
S51:假設(shè)評估事件有m個對象,n個參數(shù),xij為第i個對象下的第j個指標,則m行n列的決策矩陣Y={xij}m×n根據(jù)越大越優(yōu)型指標計算:
或越小越優(yōu)型指標計算:
S52:消除對象的不同指標具有的不同量綱單位,形成統(tǒng)一矩陣:為了使ln(Y′ij)有意義,一般可以假定:當Y′ij=0時,Y′ijln(Y′ij)=0。但Y′ij=1時,ln(Y′ij)也等于0,顯然與實際不符,并且有悖于熵的含義此,對Y′ij進行修改:
S53:計算熵值公式中ej為第j個評估指標所對應(yīng)熵值;如果Y′ij=0,那么ej值在[0,1];
S54:計算權(quán)值公式中wj表示第j個指標的權(quán)值,n表示指標個數(shù);
S55:計算綜合權(quán)值:
熵是不確定性的度量,熵權(quán)體現(xiàn)了在客觀信息中指標的評價作用的大小,是客觀的權(quán)重。先利用上述熵權(quán)法的思路計算出各評價指標的熵權(quán)后,根據(jù)各個指標信息熵大小排序形成的標準分級數(shù),從而得到關(guān)于指標x的綜合權(quán)重;
準則集總熵為:
由于各評價指標的重要性已隱含在分級標準中,由分級標準值來確定常規(guī)權(quán)重λj,該權(quán)重計算公式如下:
其中λj為第j個指標的常規(guī)權(quán)重,k為特征選擇算法選擇出的參數(shù)指標的信息熵排序的標準分級數(shù)。
綜合常規(guī)權(quán)重λj和客觀權(quán)重wj得出新的改進熵權(quán)權(quán)值:
使用構(gòu)造的人體體成分模型對樣本數(shù)據(jù)中80名男性和80名女性進行體成分預(yù)測,預(yù)測結(jié)果與韓國InBody770的體脂百分比測量值做相對誤差對比圖,從圖6,圖7中可以看出男性和女性的相對誤差的值都小于5%,結(jié)果表明,基于生理信息熵和改進熵權(quán)法的人體腹部脂肪含量預(yù)測值與測量值顯示了良好的相關(guān)性,預(yù)測具有相當?shù)臏蚀_性。
相較于現(xiàn)有技術(shù),本發(fā)明是提供一種基于AIC和改進熵權(quán)法的人體體成分預(yù)測方法,從人體生理參數(shù)中選擇出最優(yōu)的一組特征參數(shù),可有效地減少特征參數(shù)間的冗余性,簡化人體成分預(yù)測的擬合模型;其次,利用改進熵權(quán)法求解出預(yù)測模型的未知系數(shù),從而得出人體體成分的預(yù)測模型;這樣建立的人體體成分預(yù)測模型可提高人體體成分預(yù)測精度,為人體體成分研究和臨床應(yīng)用提供更為有效的檢測手段。
以上所述,僅為本發(fā)明較佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。