本發(fā)明屬于超聲診斷成像領(lǐng)域,涉及一種丙種球蛋白無反應(yīng)型川崎病的預(yù)測(cè)方法及預(yù)測(cè)系統(tǒng)。
背景技術(shù):
川崎病(kawasakidisease,kd)是一種好發(fā)于幼兒的全身性血管炎綜合征。1967年由日本學(xué)者川崎富作首次報(bào)告。大量的流行病學(xué)調(diào)查顯示,本病具有好發(fā)于亞洲人群、明顯季節(jié)性、高發(fā)于男性及高發(fā)于嬰幼兒等特點(diǎn)。目前國際上公認(rèn)川崎病是兒童后天性心臟病的首位病因。2004年美國心臟病協(xié)會(huì)根據(jù)循證醫(yī)學(xué)依據(jù)提出:川崎病血管內(nèi)皮功能持續(xù)性障礙(endothelialdysfunction,ecd),可能是冠狀動(dòng)脈粥樣硬化、缺血性心臟病發(fā)生的新的危險(xiǎn)因素。因此,川崎病血管損傷及內(nèi)皮功能障礙的預(yù)警研究在其并發(fā)癥防治的過程中具有重要意義。
目前認(rèn)為在急性期給予大劑量丙種球蛋白(intravenousimmunoglobulin,ivig)治療能降低冠狀動(dòng)脈損傷風(fēng)險(xiǎn),但有15-20%左右病人為ivig不敏感型川崎病,而研究表明,ivig不敏感型川崎病合并冠狀動(dòng)脈損害的幾率是ivig敏感者的九倍。由于丙種球蛋白無反應(yīng)型川崎病合并冠狀動(dòng)脈損害幾率較丙種球蛋白敏感型川崎病高,若能早期發(fā)現(xiàn)丙種球蛋白不敏感型川崎病,并對(duì)其進(jìn)行早期干預(yù)治療,可減少冠狀動(dòng)脈損傷機(jī)率。
現(xiàn)有技術(shù)中,主要采用以下幾種方案預(yù)警川崎病丙種球蛋白無反應(yīng),日本先后有三位學(xué)者進(jìn)行多中心研究提出丙種球蛋白無反應(yīng)的預(yù)測(cè)評(píng)分系統(tǒng)。kobayashit對(duì)日本13家醫(yī)療機(jī)構(gòu)2000年到2006年780名病人數(shù)據(jù)進(jìn)行總結(jié),得出丙種球蛋白高危因素評(píng)分系統(tǒng):血清鈉:133mmol/l,2分;初始治療時(shí)間≤4天,2分;谷草轉(zhuǎn)氨酶≥100iu/l,2分;中性粒細(xì)胞≥80%,2分;c反應(yīng)蛋白rp≥10mg/dl,1分;年齡≤12個(gè)月,1分;血小板計(jì)數(shù)≤300×109/l,1分,0-3分為低風(fēng)險(xiǎn),丙種球蛋白不敏感機(jī)率只有5%,≥4分為高風(fēng)險(xiǎn),丙種球蛋白不敏感發(fā)生機(jī)率為43%,當(dāng)評(píng)分≥7分時(shí),丙種球蛋白不敏感和冠狀動(dòng)脈損害發(fā)生機(jī)率尤其高,分別為75%和36%。
tetsuyasano研究了1999-2000年的112名川崎病患兒后提出c反應(yīng)蛋白≥7mg/dl,總膽紅素≥0.9mg/dl,谷草轉(zhuǎn)氨酶≥200iu/l三個(gè)指標(biāo)預(yù)測(cè)川崎病丙種球蛋白無反應(yīng),二個(gè)或二個(gè)以上指標(biāo)達(dá)到上述標(biāo)準(zhǔn)即提示丙種球蛋白無反應(yīng)。
egamik對(duì)1998-2004的320名日本川崎病病人數(shù)據(jù)分析后提出:嬰兒年齡小于6月,于病程4天之內(nèi)進(jìn)行治療的病人,血小板計(jì)數(shù)≤300×109/l,c反應(yīng)蛋白≥8mg/dl,各計(jì)1分,谷丙轉(zhuǎn)氨酶≥80iu/l計(jì)2分,以3分為界,大于3分為高風(fēng)險(xiǎn),敏感度為78%,特異度為76%,用此評(píng)分預(yù)測(cè)冠狀動(dòng)脈損害,敏感度為61%,特異度為81%,陽性預(yù)測(cè)值和陰性預(yù)測(cè)值分別為25%and87%。
adrianah提出當(dāng)?shù)氐谋N球蛋白預(yù)測(cè)系統(tǒng):桿狀核細(xì)胞百分比≥20%(2分),谷丙轉(zhuǎn)氨酶≥60iu/l(1分),根據(jù)年齡調(diào)整的血紅蛋白正常值(zhgb)≤-2.0(1分),0-1分為低風(fēng)險(xiǎn),2-5分為高風(fēng)險(xiǎn),這個(gè)評(píng)分系統(tǒng)敏感度和特異度分別為73.3%和61.9%。
北京兒童醫(yī)院pei-peifu也提出評(píng)分標(biāo)準(zhǔn):多形性皮疹(1分);肛周改變(1分);初始治療時(shí)間≤4天(2分);crp≥8mg/dl(2分);中性粒細(xì)胞比例≥80%(2分),≥4分者為高風(fēng)險(xiǎn)。
韓國學(xué)者myunghyunchoi在研究韓國兒童資料后提出適用于韓國兒童的評(píng)分系統(tǒng):男性,頸部淋巴結(jié)腫大,四肢末端改變,血小板計(jì)數(shù)≤368,000/mm3,總膽紅素≥0.4mg/dl,堿性磷酸酶≥227iu/l,乳酸脫氫酶≥268iu/l,c反應(yīng)蛋白>77.1mg/dl為丙種球蛋白無反應(yīng)高危因素,每項(xiàng)各計(jì)1分,以4分為界限,超過4分為高風(fēng)險(xiǎn)。
然而,國外研究不具有普遍適用性;美國學(xué)者adrianah研究1998-2006年當(dāng)?shù)蒯t(yī)院川崎病人資料后表示:與日本評(píng)分系統(tǒng)比較,只有egami提出的評(píng)分標(biāo)準(zhǔn)中的高危因素囊括于研究中的高危因素中,但egami評(píng)分用于當(dāng)?shù)鼗純侯A(yù)測(cè)丙種球蛋白無反應(yīng)型川崎病時(shí),會(huì)漏掉60%的病人,只有在預(yù)測(cè)當(dāng)?shù)氐膩喼奕巳簳r(shí)特異度和靈敏度能分別達(dá)到89.3%和33.3%。而adrianah評(píng)分在不同人群中的敏感度不同,白種人最高,西班牙人次之,而亞洲人最差。loombars也研究發(fā)現(xiàn)egami評(píng)分不適應(yīng)于美國。sarahdavies也提出kobayashi評(píng)分在美國不適用。各個(gè)人種的川崎病患者發(fā)病率不一,不同地區(qū)存在差異,各單項(xiàng)指標(biāo)及總評(píng)分差異無統(tǒng)計(jì)學(xué)意義,難以預(yù)測(cè)川崎病的丙種球蛋白無反應(yīng)并發(fā)癥。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種丙種球蛋白無反應(yīng)型川崎病的預(yù)測(cè)方法及預(yù)測(cè)系統(tǒng)。
為了實(shí)現(xiàn)上述發(fā)明目的之一,本發(fā)明一實(shí)施方式提供一種丙種球蛋白無反應(yīng)型川崎病的預(yù)測(cè)方法,所述方法包括:
s1、采集建立支持向量機(jī)(supportvectormachine,svm)模型的21項(xiàng)原始參數(shù);
所述建模原始參數(shù)包括:性別,年齡,就診時(shí)發(fā)熱時(shí)間,臨床分型,c-反應(yīng)蛋白(creactiveprotein,crp)檢測(cè)值,白細(xì)胞(whitebloodcell,wbc)值,血小板數(shù)(platelet,plt)值,血紅蛋白(hemoglobin,hb)值,谷丙轉(zhuǎn)氨酶(alanineaminotransferase,alt)值,谷草轉(zhuǎn)氨酶(aspartateaminotransferas,ast)值,白蛋白(albumin,alb)值,丙球蛋白使用時(shí)間,以及臨床診斷癥狀指標(biāo);
所述臨床診斷癥狀指標(biāo)包括:結(jié)膜充血,皮疹,口唇皸裂,楊梅舌,頸淋巴結(jié)腫大,手足硬腫,指趾脫皮,肛周脫皮,卡疤紅腫;
s2、對(duì)所述原始參數(shù)做離散化處理以獲得原始參數(shù)對(duì)應(yīng)的svm特征值;
s3、以svm特征值為基礎(chǔ)數(shù)據(jù)構(gòu)建svm模型,并通過所述svm模型預(yù)測(cè)丙種球蛋白無反應(yīng)型川崎病的發(fā)生概率。
作為本發(fā)明一實(shí)施方式的進(jìn)一步改進(jìn),所述步驟s2具體包括:
將所述21項(xiàng)原始參數(shù)中的發(fā)熱時(shí)間、丙球蛋白使用時(shí)間使用了具體的數(shù)值進(jìn)行表示,以形成對(duì)應(yīng)的svm特征值;
將21項(xiàng)原始參數(shù)中剩余的其他原始參數(shù)轉(zhuǎn)化為僅由“0”,“1”數(shù)值表示的離散化類別特征,以形成對(duì)應(yīng)的svm特征值。
作為本發(fā)明一實(shí)施方式的進(jìn)一步改進(jìn),所述步驟s2還包括:
調(diào)取離散類別庫,對(duì)應(yīng)所述離散類別庫將21項(xiàng)原始參數(shù)中年齡,crp檢測(cè)值,wbc值,plt值,hb值,alt值,ast值,alb值對(duì)應(yīng)的原始參數(shù)轉(zhuǎn)化為僅由“0”,“1”數(shù)值表示的離散化類別特征,以形成對(duì)應(yīng)的svm特征值;
所述離散類別庫包括:年齡,crp檢測(cè)值,wbc值,plt值,hb值,alt值,ast值,alb值的離散類別。
作為本發(fā)明一實(shí)施方式的進(jìn)一步改進(jìn),所述步驟s2具體包括:所述離散類別庫具體包括:
年齡對(duì)應(yīng)的離散類別為:類別1,<6個(gè)月;類別2,≥6個(gè)月;
crp檢測(cè)值對(duì)應(yīng)的離散類別為:類別1,crp≤1.0;類別2,1.0<crp≤3.0;類別3,3.0<crp<10.0;類別4,crp≥10.0;
wbc值對(duì)應(yīng)的離散類別為:類別1,wbc<10;類別2,10<=wbc<=20;類別3,wbc>20;
plt值對(duì)應(yīng)的離散類別為:類別1,plt≤150.0;類別2,150.0<plt≤350.0;類別3,plt>350;
hb值對(duì)應(yīng)的離散類別為:類別1,hb<120;類別2,120.0<hb≤140.0;類別3,hb>140.0;
alt值對(duì)應(yīng)的離散類別為:類別1,alt≤40;類別2,alt>40;
ast值對(duì)應(yīng)的離散類別為:類別1,ast≤40;類別2,ast>40;
alb值對(duì)應(yīng)的離散類別為:類別1,alb<36.0;類別2,36.0<alb≤55.0;類別3,alb>55.0。
作為本發(fā)明一實(shí)施方式的進(jìn)一步改進(jìn),所述步驟s3具體包括:
構(gòu)建svm過程中,采用5組交叉驗(yàn)證的方式選取svm模型的原始參數(shù),并記錄最優(yōu)的原始參數(shù)作為模型參數(shù)。
為了實(shí)現(xiàn)上述發(fā)明目的另一,本發(fā)明一實(shí)施方式提供一種川崎病丙種球蛋白無反應(yīng)的預(yù)測(cè)系統(tǒng),所述系統(tǒng)包括:數(shù)據(jù)采集模塊,用于采集建立svm模型的21項(xiàng)原始參數(shù);
所述建模原始參數(shù)包括:性別,年齡,就診時(shí)發(fā)熱時(shí)間,臨床分型,crp檢測(cè)值,wbc值,plt值,hb值,alt值,ast值,alb值,丙球蛋白使用時(shí)間,以及臨床診斷癥狀指標(biāo);
所述臨床診斷癥狀指標(biāo)包括:結(jié)膜充血,皮疹,口唇皸裂,楊梅舌,頸淋巴結(jié)腫大,手足硬腫,指趾脫皮,肛周脫皮,卡疤紅腫;
離散處理模塊,用于對(duì)所述原始參數(shù)做離散化處理以獲得原始參數(shù)對(duì)應(yīng)的svm特征值;
模型構(gòu)建預(yù)測(cè)模塊,用于以svm特征值為基礎(chǔ)數(shù)據(jù)構(gòu)建svm模型,并通過所述svm模型預(yù)測(cè)丙種球蛋白無反應(yīng)型川崎病的發(fā)生概率。
作為本發(fā)明一實(shí)施方式的進(jìn)一步改進(jìn),所述離散處理模塊具體用于:
將所述21項(xiàng)原始參數(shù)中的發(fā)熱時(shí)間、丙球蛋白使用時(shí)間使用了具體的數(shù)值進(jìn)行表示,以形成對(duì)應(yīng)的svm特征值;
將21項(xiàng)原始參數(shù)中剩余的其他原始參數(shù)轉(zhuǎn)化為僅由“0”,“1”數(shù)值表示的離散化類別特征,以形成對(duì)應(yīng)的svm特征值。
作為本發(fā)明一實(shí)施方式的進(jìn)一步改進(jìn),所述離散處理模塊還用于:
調(diào)取離散類別庫,對(duì)應(yīng)所述離散類別庫將21項(xiàng)原始參數(shù)中年齡,crp檢測(cè)值,wbc值,plt值,hb值,alt值,ast值,alb值對(duì)應(yīng)的原始參數(shù)轉(zhuǎn)化為僅由“0”,“1”數(shù)值表示的離散化類別特征,以形成對(duì)應(yīng)的svm特征值;
所述離散類別庫包括:年齡,crp檢測(cè)值,wbc值,plt值,hb值,alt值,ast值,alb值的離散類別。
作為本發(fā)明一實(shí)施方式的進(jìn)一步改進(jìn),所述離散類別庫具體包括:年齡對(duì)應(yīng)的離散類別為:類別1,<6個(gè)月;類別2,≥6個(gè)月;
crp檢測(cè)值對(duì)應(yīng)的離散類別為:類別1,crp≤1.0;類別2,1.0<crp≤3.0;類別3,3.0<crp<10.0;類別4,crp≥10.0;
wbc值對(duì)應(yīng)的離散類別為:類別1,wbc<10;類別2,10<=wbc<=20;類別3,wbc>20;
plt值對(duì)應(yīng)的離散類別為:類別1,plt≤150.0;類別2,150.0<plt≤350.0;類別3,plt>350;
hb值對(duì)應(yīng)的離散類別為:類別1,hb<120;類別2,120.0<hb≤140.0;類別3,hb>140.0;
alt值對(duì)應(yīng)的離散類別為:類別1,alt≤40;類別2,alt>40;
ast值對(duì)應(yīng)的離散類別為:類別1,ast≤40;類別2,ast>40;
alb值對(duì)應(yīng)的離散類別為:類別1,alb<36.0;類別2,36.0<alb≤55.0;類別3,alb>55.0。
作為本發(fā)明一實(shí)施方式的進(jìn)一步改進(jìn),模型構(gòu)建預(yù)測(cè)模塊具體用于:構(gòu)建svm過程中,采用5組交叉驗(yàn)證的方式選取svm模型的原始參數(shù),并記錄最優(yōu)的原始參數(shù)作為模型參數(shù)。
與現(xiàn)有技術(shù)相比,本發(fā)明的丙種球蛋白無反應(yīng)型川崎病的預(yù)測(cè)方法及預(yù)測(cè)系統(tǒng),采集真實(shí)的原始參數(shù)作為建模的基礎(chǔ)數(shù)據(jù),可靠性強(qiáng);進(jìn)一步的,將原始數(shù)據(jù)進(jìn)行離散化處理后獲得構(gòu)建svm模型的svm特征值,如此,數(shù)據(jù)格式統(tǒng)一、提升建模速度;通過svm模型預(yù)測(cè)川崎病的丙種球蛋白無反應(yīng)并發(fā)癥,提升了預(yù)測(cè)的概率,如此,可以對(duì)丙種球蛋白無反應(yīng)幾率高的病人進(jìn)行早期干預(yù)治療,縮短川崎病病人發(fā)熱時(shí)間,緩解臨床癥狀,縮短住院日,減少冠狀動(dòng)脈損傷幾率,對(duì)將來川崎病的診治具有重要意義和價(jià)值。
附圖說明
圖1是本發(fā)明第一實(shí)施方式提供的丙種球蛋白無反應(yīng)型川崎病的預(yù)測(cè)方法的流程圖;
圖2是本發(fā)明一實(shí)施方式中提供的丙種球蛋白無反應(yīng)型川崎病的預(yù)測(cè)系統(tǒng)的模塊示意圖。
具體實(shí)施方式
以下將結(jié)合附圖所示的實(shí)施方式對(duì)本發(fā)明進(jìn)行詳細(xì)描述。但實(shí)施方式并不限制本發(fā)明,本領(lǐng)域的普通技術(shù)人員根據(jù)這些實(shí)施方式所做出的結(jié)構(gòu)、方法、或功能上的變換均包含在本發(fā)明的保護(hù)范圍內(nèi)。
如圖1所示,圖1是本發(fā)明第一實(shí)施方式提供的丙種球蛋白無反應(yīng)型川崎病的預(yù)測(cè)方法,所述方法包括:
s1、采集建立svm模型的21項(xiàng)原始參數(shù);
所述建模原始參數(shù)包括:性別,年齡,就診時(shí)發(fā)熱時(shí)間,臨床分型,crp檢測(cè)值,wbc值,plt值,hb值,alt值,ast值,alb值,丙球蛋白使用時(shí)間,以及臨床診斷癥狀指標(biāo);所述臨床診斷癥狀指標(biāo)包括:結(jié)膜充血,皮疹,口唇皸裂,楊梅舌,頸淋巴結(jié)腫大,手足硬腫,指趾脫皮,肛周脫皮,卡疤紅腫。
本發(fā)明一具體示例中,開發(fā)數(shù)據(jù)為2006-2014年國內(nèi)某一地區(qū)960例川崎病病例,其中,丙種球蛋白無反應(yīng)組30例,丙種球蛋白敏感組930例;每一病例均具有對(duì)應(yīng)上述21項(xiàng)原始參數(shù)的具體參數(shù)值。
進(jìn)一步的,所述方法還包括:s2、對(duì)所述原始參數(shù)做離散化處理以獲得原始參數(shù)對(duì)應(yīng)的svm特征值。由于原始參數(shù)中包含了多種臨床檢測(cè)的原始值,直接在svm模型中使用原始參數(shù)不能反映出該檢測(cè)值的臨床意義。因此,針對(duì)所有臨床檢測(cè)的原始參數(shù),采用臨床定義的標(biāo)準(zhǔn)參考值的范圍,進(jìn)行臨床醫(yī)學(xué)意義上的離散化表示。經(jīng)過轉(zhuǎn)化,數(shù)值型的原始數(shù)據(jù)被轉(zhuǎn)化為具有臨床意義的類別特征。
本發(fā)明一具體示例中,由python程序開發(fā),采用統(tǒng)一的特征提取模型對(duì)始參數(shù)做離散化處理以獲得原始參數(shù)對(duì)應(yīng)的svm特征值。
優(yōu)選的,所述步驟s2具體包括:將所述21項(xiàng)原始參數(shù)中的發(fā)熱時(shí)間、丙球蛋白使用時(shí)間使用了具體的數(shù)值進(jìn)行表示,以形成對(duì)應(yīng)的svm特征值;將21項(xiàng)原始參數(shù)中剩余的其他原始參數(shù)轉(zhuǎn)化為僅由“0”,“1”數(shù)值表示的離散化類別特征,以形成對(duì)應(yīng)的svm特征值。
進(jìn)一步的,所述步驟s2還包括:根據(jù)臨床醫(yī)學(xué)知識(shí),調(diào)取離散類別庫,對(duì)應(yīng)所述離散類別庫將21項(xiàng)原始參數(shù)中年齡,crp檢測(cè)值,wbc值,plt值,hb值,alt值,ast值,alb值對(duì)應(yīng)的原始參數(shù)轉(zhuǎn)化為僅由“0”,“1”數(shù)值表示的離散化類別特征,以形成對(duì)應(yīng)的svm特征值;所述離散類別庫包括:年齡,crp檢測(cè)值,wbc值,plt值,hb值,alt值,ast值,alb值的離散類別。
所述離散類別庫具體包括:
年齡對(duì)應(yīng)的離散類別為:類別1,<6個(gè)月;類別2,≥6個(gè)月;
crp檢測(cè)值對(duì)應(yīng)的離散類別為:類別1,crp≤1.0;類別2,1.0<crp≤3.0;類別3,3.0<crp<10.0;類別4,crp≥10.0;
wbc值對(duì)應(yīng)的離散類別為:類別1,wbc<10;類別2,10<=wbc<=20;類別3,wbc>20;
plt值對(duì)應(yīng)的離散類別為:類別1,plt≤150.0;類別2,150.0<plt≤350.0;類別3,plt>350;
hb值對(duì)應(yīng)的離散類別為:類別1,hb<120;類別2,120.0<hb≤140.0;類別3,hb>140.0;
alt值對(duì)應(yīng)的離散類別為:類別1,alt≤40;類別2,alt>40;
ast值對(duì)應(yīng)的離散類別為:類別1,ast≤40;類別2,ast>40;
alb值對(duì)應(yīng)的離散類別為:類別1,alb<36.0;類別2,36.0<alb≤55.0;類別3,alb>55.0。
上述對(duì)應(yīng)所述離散類別庫將21項(xiàng)原始參數(shù)中年齡,crp檢測(cè)值,wbc值,plt值,hb值,alt值,ast值,alb值對(duì)應(yīng)的原始參數(shù)轉(zhuǎn)化為僅由“0”,“1”數(shù)值表示的離散化類別特征表示過程中,可以對(duì)0、1的表示含義自行定義;例如:{1,0}為男性,{0,1}為女性,同理,臨床分型,臨床診斷癥狀指標(biāo)中,同樣可以對(duì)0、1的表達(dá)方式進(jìn)行定義,例如:1表示病人出現(xiàn)相應(yīng)癥狀,0表示病人未出現(xiàn)相應(yīng)癥狀。
為了便于理解,本發(fā)明描述一具體示例供參考;一川崎病人病例,其對(duì)應(yīng)的原始參數(shù)如下所示:
性別:男;
年齡:28個(gè)月;
就診時(shí)發(fā)熱時(shí)間:5天;
臨床分型:完全川崎??;
c-反應(yīng)蛋白(crp):65.73;
白細(xì)胞(wbc):28.91;
血小板數(shù)(plt):600;
血紅蛋白(hb):103;
谷丙轉(zhuǎn)氨酶(alt):192.4;
谷草轉(zhuǎn)氨酶(ast):84.8;
白蛋白(alb):35.9;
丙球蛋白使用時(shí)間:5天;
結(jié)膜充血:是;
皮疹:是;
口唇皸裂:是;
楊梅舌:是;
頸淋巴結(jié)腫大:是;
手足硬腫:是;
指趾脫皮:是;
肛周脫皮:是;
卡疤紅腫:否;
對(duì)上述一個(gè)病人的原始參數(shù)做離散化處理以獲得原始參數(shù)對(duì)應(yīng)的svm特征值如下所示:
性別:{1,0}
年齡:{0,1}
就診時(shí)發(fā)熱時(shí)間:5天;
臨床分型:{1,0};
c-反應(yīng)蛋白(crp):{0,0,0,1}
白細(xì)胞(wbc):{0,0,1};
血小板數(shù)(plt):{0,0,1};
血紅蛋白(hb):{1,0,0}
谷丙轉(zhuǎn)氨酶(alt):{0,1};
谷草轉(zhuǎn)氨酶(ast):{0,1};
白蛋白(alb):{1,0,0};
丙球蛋白使用時(shí)間:5天;
結(jié)膜充血:{1};
皮疹:{1};
口唇皸裂:{1};
楊梅舌:{1};
頸淋巴結(jié)腫大:{1};
手足硬腫:{1};
指趾脫皮:{1};
肛周脫皮:{1};
卡疤紅腫:{0};
進(jìn)一步的,所示方法還包括:s3、以svm特征值為基礎(chǔ)數(shù)據(jù)構(gòu)建svm模型,并通過所述svm模型預(yù)測(cè)丙種球蛋白無反應(yīng)型川崎病的發(fā)生概率。
支持向量機(jī)(supportvectormachine,svm)是由cortes和vapnik于1995年提出的,它以訓(xùn)練誤差作為優(yōu)化問題的約束條件,以置信范圍值最小化作為優(yōu)化目標(biāo),是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的學(xué)習(xí)方法。svm以統(tǒng)計(jì)學(xué)習(xí)理論(statisticallearningtheory,slt)為基礎(chǔ),綜合考慮經(jīng)驗(yàn)風(fēng)險(xiǎn)與置信風(fēng)險(xiǎn),克服了傳統(tǒng)方法過學(xué)習(xí)和陷入局部最小的問題,具有很好的泛化能力,在解決小樣本、非線性及高維模式識(shí)別問題中表現(xiàn)出許多特有的優(yōu)勢(shì),同時(shí),svm通過核函數(shù)方法向高維空間映射時(shí)并不增加計(jì)算的復(fù)雜性,又可以有效地克服維數(shù)災(zāi)難問題。因此,svm已經(jīng)逐漸成為解決模式分類問題的首選工具。
svm基本思想:對(duì)于給定的線性可分訓(xùn)練樣本集t={(x,y),i=1,2,...,l},x∈rn,yi∈{+1,-1},尋找一個(gè)決策函數(shù)f(x)=sgn(g(x))來將訓(xùn)練集正確地分開,且分類超平面具有好的推廣能力。對(duì)于線性可分問題,分類超平面(w·x)+b=0必須使分類間隔的最大,可以轉(zhuǎn)化為:
s.t:y(i(w·xi)+b)≥1i=1,2,...,l(2)
對(duì)于線性不可分問題則需要通過引入一個(gè)非線性映射
s.t:yi((w·xi)+b)≥1-ξi=1,2,...,l(4)
用lagrange方法求解得
該式只包含待分類樣本與訓(xùn)練樣本中的支持向量的內(nèi)積運(yùn)算。對(duì)非線性問題,可以通過非線性變換轉(zhuǎn)化為某個(gè)高維空間中的線性問題,在變換空間求最優(yōu)分類面,然而這種變換卻不易實(shí)現(xiàn)。
根據(jù)泛函的有關(guān)理論,只要一種核函數(shù)k(xi,xj)滿足mercer條件,它就對(duì)應(yīng)某一變換空間中的內(nèi)積。因此,在最優(yōu)分類面中采用適當(dāng)?shù)膬?nèi)積函數(shù)k(xi,xj)就可以實(shí)現(xiàn)某一非線性變換后的線性分類,而計(jì)算復(fù)雜度卻沒有增加。相應(yīng)的分類函數(shù)也變?yōu)椋?/p>
本發(fā)明優(yōu)選實(shí)施方式中,構(gòu)建svm過程中,采用5組交叉驗(yàn)證的方式選取svm模型的原始參數(shù),并記錄最優(yōu)的原始參數(shù)作為模型參數(shù)。
采用5組交叉驗(yàn)證的方式選取svm模型的原始參數(shù)具體包括:將上述960例川崎病原始參數(shù)以病例為單位隨機(jī)分為5組,即每組192例病例,構(gòu)建svm過程中,共建立5個(gè)svm模型,每次以其中任意4組訓(xùn)練為一個(gè)svm模型,剩余一組做測(cè)試,之后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,記錄最優(yōu)的原始參數(shù)作為模型參數(shù)。如此,可以防止模型過擬合。
本發(fā)明具體示例中,將960例川崎病患者采用5組交叉驗(yàn)證的方式建立svm模型后,取概率大于0.0556時(shí)達(dá)到最好分類性能,其5次試驗(yàn)的auc平均值高達(dá)0.9967。
所述auc其對(duì)應(yīng)的英文全稱為:areaundercurve,其為評(píng)測(cè)svm模型在測(cè)試數(shù)據(jù)上預(yù)測(cè)好壞的指標(biāo),其數(shù)值越高,表示svm模型的預(yù)測(cè)性能越好。
所述概率是指,給定一個(gè)病例,將其具有的原始參數(shù)轉(zhuǎn)換為svm特征值并輸入至svm模型后,預(yù)測(cè)病例使用丙種球蛋白后,出現(xiàn)無反應(yīng)的概率。
另外,本發(fā)明具體示例中,svm模型建立過程中,核函數(shù)經(jīng)比較采用徑向基核函數(shù)(radicalbasisfunctions,簡稱rbf):k(xi,yi)=exp(-γ||xi-yi||2),其中γ為參數(shù)。該核函數(shù)是svm模型的內(nèi)建機(jī)制,通過核函數(shù)把輸入特征映射到高緯空間,尋找最優(yōu)分類界面;所述rbf是非線性核,其為核函數(shù)其中的一種,本實(shí)施方式中,采用rbf作為核函數(shù),可以更好的對(duì)數(shù)據(jù)的非線性關(guān)系建模。
結(jié)合圖2所示,本發(fā)明一實(shí)施方式提供的丙種球蛋白無反應(yīng)型川崎病的預(yù)測(cè)系統(tǒng),所述系統(tǒng)包括:數(shù)據(jù)采集模塊100、離散處理模塊200以及模型構(gòu)建預(yù)測(cè)模塊300。
數(shù)據(jù)采集模塊100用于采集建立svm模型的21項(xiàng)原始參數(shù);
所述建模原始參數(shù)包括:性別,年齡,就診時(shí)發(fā)熱時(shí)間,臨床分型,c-反應(yīng)蛋白(crp)檢測(cè)值,白細(xì)胞(wbc)值,血小板數(shù)(plt)值,血紅蛋白(hb)值,谷丙轉(zhuǎn)氨酶(alt)值,谷草轉(zhuǎn)氨酶(ast)值,白蛋白(alb)值,丙球蛋白使用時(shí)間,以及臨床診斷癥狀指標(biāo);所述臨床診斷癥狀指標(biāo)包括:結(jié)膜充血,皮疹,口唇皸裂,楊梅舌,頸淋巴結(jié)腫大,手足硬腫,指趾脫皮,肛周脫皮,卡疤紅腫。
本發(fā)明一具體示例中,開發(fā)數(shù)據(jù)為2006-2014年國內(nèi)某一地區(qū)960例川崎病病例,其中,丙種球蛋白無反應(yīng)組30例,丙種球蛋白敏感組930例;每一病例均具有對(duì)應(yīng)上述21項(xiàng)原始參數(shù)的具體參數(shù)值。
離散處理模塊200用于對(duì)所述原始參數(shù)做離散化處理以獲得原始參數(shù)對(duì)應(yīng)的svm特征值。由于原始參數(shù)中包含了多種臨床檢測(cè)的原始值,直接在svm模型中使用原始參數(shù)不能反映出該檢測(cè)值的臨床意義。因此,針對(duì)所有臨床檢測(cè)的原始參數(shù),采用臨床定義的標(biāo)準(zhǔn)參考值的范圍,進(jìn)行臨床醫(yī)學(xué)意義上的離散化表示。經(jīng)過轉(zhuǎn)化,數(shù)值型的原始數(shù)據(jù)被轉(zhuǎn)化為具有臨床意義的類別特征。
本發(fā)明一具體示例中,由python程序開發(fā),采用統(tǒng)一的特征提取模型對(duì)始參數(shù)做離散化處理以獲得原始參數(shù)對(duì)應(yīng)的svm特征值。
優(yōu)選的,離散處理模塊200具體用于將所述21項(xiàng)原始參數(shù)中的發(fā)熱時(shí)間、丙球蛋白使用時(shí)間使用了具體的數(shù)值進(jìn)行表示,以形成對(duì)應(yīng)的svm特征值;
將21項(xiàng)原始參數(shù)中剩余的其他原始參數(shù)轉(zhuǎn)化為僅由“0”,“1”數(shù)值表示的離散化類別特征,以形成對(duì)應(yīng)的svm特征值。
進(jìn)一步的,離散處理模塊200還用于根據(jù)臨床醫(yī)學(xué)知識(shí),調(diào)取離散類別庫,對(duì)應(yīng)所述離散類別庫將21項(xiàng)原始參數(shù)中年齡,crp檢測(cè)值,wbc值,plt值,hb值,alt值,ast值,alb值對(duì)應(yīng)的原始參數(shù)轉(zhuǎn)化為僅由“0”,“1”數(shù)值表示的離散化類別特征,以形成對(duì)應(yīng)的svm特征值。
所述離散類別庫包括:年齡,crp檢測(cè)值,wbc值,plt值,hb值,alt值,ast值,alb值的離散類別。
所述離散類別庫具體包括:
年齡對(duì)應(yīng)的離散類別為:類別1,<6個(gè)月;類別2,≥6個(gè)月;
crp檢測(cè)值對(duì)應(yīng)的離散類別為:類別1,crp≤1.0;類別2,1.0<crp≤3.0;類別3,3.0<crp<10.0;類別4,crp≥10.0;
wbc值對(duì)應(yīng)的離散類別為:類別1,wbc<10;類別2,10<=wbc<=20;類別3,wbc>20;
plt值對(duì)應(yīng)的離散類別為:類別1,plt≤150.0;類別2,150.0<plt≤350.0;類別3,plt>350;
hb值對(duì)應(yīng)的離散類別為:類別1,hb<120;類別2,120.0<hb≤140.0;類別3,hb>140.0;
alt值對(duì)應(yīng)的離散類別為:類別1,alt≤40;類別2,alt>40;
ast值對(duì)應(yīng)的離散類別為:類別1,ast≤40;類別2,ast>40;
alb值對(duì)應(yīng)的離散類別為:類別1,alb<36.0;類別2,36.0<alb≤55.0;類別3,alb>55.0。
上述對(duì)應(yīng)所述離散類別庫將21項(xiàng)原始參數(shù)中年齡,crp檢測(cè)值,wbc值,plt值,hb值,alt值,ast值,alb值對(duì)應(yīng)的原始參數(shù)轉(zhuǎn)化為僅由“0”,“1”數(shù)值表示的離散化類別特征表示過程中,可以對(duì)0、1的表示含義自行定義;例如:{1,0}為男性,{0,1}為女性,同理,臨床分型,臨床診斷癥狀指標(biāo)中,同樣可以對(duì)0、1的表達(dá)方式進(jìn)行定義,例如:1表示病人出現(xiàn)相應(yīng)癥狀,0表示病人未出現(xiàn)相應(yīng)癥狀。
模型構(gòu)建預(yù)測(cè)模塊300用于以svm特征值為基礎(chǔ)數(shù)據(jù)構(gòu)建svm模型,并通過所述svm模型預(yù)測(cè)丙種球蛋白無反應(yīng)型川崎病的發(fā)生概率。
本發(fā)明優(yōu)選實(shí)施方式中,模型構(gòu)建預(yù)測(cè)模塊300構(gòu)建svm過程中,采用5組交叉驗(yàn)證的方式選取svm模型的原始參數(shù),并記錄最優(yōu)的原始參數(shù)作為模型參數(shù)。
采用5組交叉驗(yàn)證的方式選取svm模型的原始參數(shù)具體包括:將上述960例川崎病原始參數(shù)以病例為單位隨機(jī)分為5組,即每組192例病例,構(gòu)建svm過程中,共建立5個(gè)svm模型,每次以其中任意4組訓(xùn)練為一個(gè)svm模型,剩余一組做測(cè)試,之后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,記錄最優(yōu)的原始參數(shù)作為模型參數(shù)。如此,可以防止模型過擬合。
本發(fā)明具體示例中,將960例川崎病患者采用5組交叉驗(yàn)證的方式建立svm模型后,取概率大于0.0556時(shí)達(dá)到最好分類性能,其5次試驗(yàn)的auc平均值高達(dá)0.9967。
所述auc其對(duì)應(yīng)的英文全稱為:areaundercurve,其為評(píng)測(cè)svm模型在測(cè)試數(shù)據(jù)上預(yù)測(cè)好壞的指標(biāo),其數(shù)值越高,表示svm模型的預(yù)測(cè)性能越好。
所述概率是指,給定一個(gè)病例,將其具有的原始參數(shù)轉(zhuǎn)換為svm特征值并輸入至svm模型后,預(yù)測(cè)病例使用丙種球蛋白后,出現(xiàn)無反應(yīng)的概率。
另外,本發(fā)明具體示例中,svm模型建立過程中,核函數(shù)經(jīng)比較采用徑向基核函數(shù)(radicalbasisfunctions,簡稱rbf):k(xi,yi)=exp(-γ||xi-yi||2),其中γ為參數(shù)。該核函數(shù)是svm模型的內(nèi)建機(jī)制,通過核函數(shù)把輸入特征映射到高緯空間,尋找最優(yōu)分類界面;所述rbf是非線性核,其為核函數(shù)其中的一種,本實(shí)施方式中,采用rbf作為核函數(shù),可以更好的對(duì)數(shù)據(jù)的非線性關(guān)系建模。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的模塊的具體工作過程,可以參考前述方法實(shí)施方式中的對(duì)應(yīng)過程,在此不再贅述。
綜上所述,本發(fā)明的丙種球蛋白無反應(yīng)型川崎病的預(yù)測(cè)方法及預(yù)測(cè)系統(tǒng),采集真實(shí)的原始參數(shù)作為建模的基礎(chǔ)數(shù)據(jù),可靠性強(qiáng);進(jìn)一步的,將原始數(shù)據(jù)進(jìn)行離散化處理后獲得構(gòu)建svm模型的svm特征值,如此,數(shù)據(jù)格式統(tǒng)一、提升建模速度;通過svm模型預(yù)測(cè)川崎病的丙種球蛋白無反應(yīng)并發(fā)癥,提升了預(yù)測(cè)的概率,如此,可以對(duì)丙種球蛋白無反應(yīng)幾率高的病人進(jìn)行早期干預(yù)治療,縮短川崎病病人發(fā)熱時(shí)間,緩解臨床癥狀,縮短住院日,減少冠狀動(dòng)脈損傷幾率,對(duì)將來川崎病的診治具有重要意義和價(jià)值。
為了描述的方便,描述以上裝置時(shí)以功能分為各種模塊分別描述。當(dāng)然,在實(shí)施本申請(qǐng)時(shí)可以把各模塊的功能在同一個(gè)或多個(gè)軟件和/或硬件中實(shí)現(xiàn)。
通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請(qǐng)可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn)。基于這樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以保存在保存介質(zhì)中,如rom/ram、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),信息推送服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施方式或者實(shí)施方式的某些部分所述的方法。
以上所描述的裝置實(shí)施方式僅僅是示意性的,其中所述作為分離部件說明的模塊可以是或者也可以不是物理上分開的,作為模塊顯示的部件可以是或者也可以不是物理模塊,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)模塊上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施方式方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
本申請(qǐng)可用于眾多通用或?qū)S玫挠?jì)算系統(tǒng)環(huán)境或配置中。例如:個(gè)人計(jì)算機(jī)、信息推送服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理模塊系統(tǒng)、基于微處理模塊的系統(tǒng)、置頂盒、可編程的消費(fèi)電子設(shè)備、網(wǎng)絡(luò)pc、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。
本申請(qǐng)可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本申請(qǐng),在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括保存設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)保存介質(zhì)中。
應(yīng)當(dāng)理解,雖然本說明書按照實(shí)施方式加以描述,但并非每個(gè)實(shí)施方式僅包含一個(gè)獨(dú)立的技術(shù)方案,說明書的這種敘述方式僅僅是為清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說明書作為一個(gè)整體,各實(shí)施方式中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實(shí)施方式。
上文所列出的一系列的詳細(xì)說明僅僅是針對(duì)本發(fā)明的可行性實(shí)施方式的具體說明,它們并非用以限制本發(fā)明的保護(hù)范圍,凡未脫離本發(fā)明技藝精神所作的等效實(shí)施方式或變更均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。