本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其是涉及一種基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的cap數(shù)據(jù)系統(tǒng)及方法。
背景技術(shù):
兒童社區(qū)獲得性肺炎(communityacquiredpneumonia,cap)是指既往健康兒童在院外(即社區(qū))由細(xì)菌、病毒、衣原體和支原體等多種微生物感染所致的肺炎。該病是兒童時(shí)期最常見的呼吸系統(tǒng)感染性疾病之一,是兒童住院的最常見原因之一。據(jù)統(tǒng)計(jì),我國住院兒童的24.5%-56.2%的病因是兒童肺炎;根據(jù)權(quán)威醫(yī)學(xué)期刊《柳葉刀》于2010年發(fā)表的研究,社區(qū)獲得性肺炎(cap)是中國的兒童患病死亡首因,我國衛(wèi)生部將其列為4種兒童常見病之首。
兒童社區(qū)獲得性肺炎由多種病原引起,其中細(xì)菌、病毒、支原體、衣原體這幾類最為常見,也有不少是多于一種病原的混合感染。修訂于2013年的《兒童社區(qū)獲得性肺炎管理指南》指出,影響cap病原檢測發(fā)現(xiàn)的因素包括:(1)cap患兒自身的免疫狀況、病原的繁殖數(shù)量與毒力作用,以及抗菌素等的使用對(duì)前二者的影響等綜合因素;(2)各種標(biāo)本采集、保管、運(yùn)送、檢驗(yàn)等各個(gè)流程環(huán)節(jié)的標(biāo)準(zhǔn)化、銜接與密切配合程度;(3)病原學(xué)檢測技術(shù)的敏感性與特異性;(4)地域、年份、衛(wèi)生環(huán)境、社會(huì)環(huán)境及社會(huì)經(jīng)濟(jì)因素、衛(wèi)生醫(yī)療條件等;(5)新發(fā)病原出現(xiàn)、病原的變異、抗菌藥物使用及耐藥性等??傮w來說,無論是在病原學(xué)還是臨床上,兒童cap的病原檢測存在許多困難。
現(xiàn)有的兒童cap病原學(xué)分析與檢測較為準(zhǔn)確的方法基本基于細(xì)菌培養(yǎng)、病毒的pr-pcr檢測等針對(duì)性檢測方法,這些檢測方法均需要較長時(shí)間才能得到結(jié)果。由于對(duì)于不同的病原的對(duì)抗藥物不同,兒童cap早期病原的檢測結(jié)果往往直接影響到治療方法以及治療藥物的選擇,檢測時(shí)間較長或不準(zhǔn)確的病原檢驗(yàn)結(jié)果,導(dǎo)致臨床治療的延誤或者藥物使用的錯(cuò)誤,甚至?xí)?dǎo)致對(duì)治療兒童的抗生素濫用。因此,研制新的兒童cap的早期病原分析數(shù)據(jù)系統(tǒng)及方法已十分迫切。
近年來,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,特別是醫(yī)療數(shù)據(jù)系統(tǒng)的標(biāo)準(zhǔn)化與大數(shù)據(jù)技術(shù)的相得益彰,一方面,電子病歷系統(tǒng)在許多先進(jìn)的醫(yī)院全面使用,通過電子病歷的記錄,患兒的大量化驗(yàn)以及治療數(shù)據(jù)均得以以電子形式長期保存;另一方面,大數(shù)據(jù)分析技術(shù)也可以通過這大量的醫(yī)療數(shù)據(jù),通過機(jī)器學(xué)習(xí)方法建立模型,從而指導(dǎo)和幫助醫(yī)生的判斷與治療。大數(shù)據(jù)技術(shù)分析在醫(yī)療領(lǐng)域有極大的輔助作用,通過計(jì)算機(jī)可以快速計(jì)算一般人腦難以處理的化驗(yàn)項(xiàng)目結(jié)果數(shù)據(jù),同時(shí)能夠不斷累積所有能得到數(shù)據(jù)的病例,這樣的數(shù)據(jù)積累與全面分析往往能更全面、準(zhǔn)確的輔助判斷一些醫(yī)療問題。通過機(jī)器學(xué)習(xí)方法輔助解決兒童cap病原的早期判斷是一個(gè)非常好的解決方案,機(jī)器學(xué)習(xí)技術(shù)可以在經(jīng)過數(shù)據(jù)訓(xùn)練后,做到在很短的時(shí)間內(nèi)綜合可以得到的有效的大量病人數(shù)據(jù),對(duì)兒童cap的病原做出初步早期判斷,對(duì)兒童cap的早期病原診斷與治療技術(shù)進(jìn)步有著非常重要的意義。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的cap數(shù)據(jù)系統(tǒng)及方法,重于在大量兒童cap醫(yī)療記錄中進(jìn)行有效性篩選,并將篩選后的醫(yī)療數(shù)據(jù)進(jìn)行數(shù)字化結(jié)構(gòu)化處理,生成醫(yī)療數(shù)據(jù)特征模塊和特權(quán)信息模塊,并輸入基于特權(quán)信息學(xué)習(xí)支持向量機(jī)svm+算法,以此形成基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的機(jī)器學(xué)習(xí)病原分析系統(tǒng);并以此進(jìn)行病原學(xué)分析,可以為臨床兒童cap早期病原判斷以及治療方案提供決策支持。
本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):
一種基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的cap數(shù)據(jù)系統(tǒng),包括:依次連接的醫(yī)療數(shù)據(jù)處理模塊、醫(yī)療數(shù)據(jù)特征生成與特權(quán)信息提取模塊、病原分析模塊;
所述醫(yī)療數(shù)據(jù)處理模塊,用于對(duì)大量cap患兒的醫(yī)療數(shù)據(jù)進(jìn)行篩選并進(jìn)行統(tǒng)計(jì)分析;
所述的醫(yī)療數(shù)據(jù)特征生成與特權(quán)信息提取模塊,用于按照檢測時(shí)間將檢測項(xiàng)目區(qū)分為普通醫(yī)療數(shù)據(jù)特征與特權(quán)信息,生成醫(yī)療數(shù)據(jù)特征矩陣和特權(quán)信息矩陣,并輸入病原分析模塊;
所述病原分析模塊通過基于特權(quán)信息學(xué)習(xí)的svm+算法訓(xùn)練,形成兒童cap早期病原診斷數(shù)據(jù)模型。
一種采用所述數(shù)據(jù)系統(tǒng)的方法,包括以下步驟:
第一步,篩選出有效的cap患兒列表,以及與這些cap患兒相關(guān)的有效數(shù)據(jù);
第二步,對(duì)所有篩選出的有效數(shù)據(jù)進(jìn)行統(tǒng)計(jì),選擇其中部分項(xiàng)目作為特權(quán)信息,其余的有效數(shù)據(jù)顯示為普通醫(yī)療數(shù)據(jù)特征;
第三步,將選擇出的患兒檢測項(xiàng)目結(jié)果以及患兒信息生成關(guān)于每一個(gè)有效cap患兒的醫(yī)療數(shù)據(jù)特征矩陣,并選擇特權(quán)信息,形成有效cap患兒的特權(quán)信息矩陣;
第四步,建立基于特權(quán)信息學(xué)習(xí)支持向量svm+算法,并利用該算法,使用第三步生成的兩個(gè)矩陣,建立基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎數(shù)據(jù)模型。
所述第一步中,cap患兒相關(guān)的有效數(shù)據(jù)篩選,具體包括以下步驟:
1.1)對(duì)所有醫(yī)療檢測數(shù)據(jù)進(jìn)行初級(jí)篩選,去除其中信息不全,或者結(jié)果無法量化的部分;
1.2)對(duì)每一個(gè)cap患兒的確診性以及病原確定性進(jìn)行篩查,并確保該患兒在數(shù)據(jù)源中有超過設(shè)定數(shù)量的有效檢測數(shù)據(jù)記錄,輸出一個(gè)有效的cap患兒列表;
1.3)針對(duì)每一個(gè)有效的cap患兒樣例,收集有效患兒信息、醫(yī)療檢測信息。
所述第二步中,特權(quán)信息篩選,具體包括以下步驟:
2.3.1)根據(jù)病原分析的經(jīng)驗(yàn),選擇設(shè)定的指標(biāo)檢測項(xiàng)目作為特權(quán)信息,其中設(shè)定的指標(biāo)檢測項(xiàng)目包括病毒prc檢測、細(xì)菌培養(yǎng)結(jié)果;
2.3.2)根據(jù)檢測項(xiàng)目時(shí)間,平均時(shí)間超過早期診斷時(shí)間的項(xiàng)目,確定為特權(quán)信息;
2.3.3)其余的病人信息以及其余檢測項(xiàng)目信息則作為普通醫(yī)療數(shù)據(jù)特征信息。
所述第三步中,將選擇出的患兒檢測項(xiàng)目結(jié)果以及患兒信息生成關(guān)于每一個(gè)有效cap患兒的醫(yī)療數(shù)據(jù)特征矩陣,并選擇特權(quán)信息,形成有效cap患兒的特權(quán)信息矩陣,具體包括以下步驟:
3.1)根據(jù)已知患兒信息計(jì)算患兒年齡,并將入院季節(jié)數(shù)值加入醫(yī)療數(shù)據(jù)特征矩陣,其中患兒信息包括出生日期和入院日期;
3.2)將檢測項(xiàng)目結(jié)果進(jìn)行數(shù)據(jù)挖掘處理;
3.3)將經(jīng)過數(shù)據(jù)處理和挖掘數(shù)值化的檢測結(jié)果分別生成醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣。
所述3.2)將檢測項(xiàng)目結(jié)果進(jìn)行數(shù)據(jù)挖掘處理具體為:
一部分?jǐn)?shù)據(jù)通過數(shù)據(jù)處理中常見的歸一化步驟,直接被作為一個(gè)維度的醫(yī)療數(shù)據(jù)特征;而對(duì)于非標(biāo)準(zhǔn)數(shù)值的檢測項(xiàng)目結(jié)果,包括正常n、偏高h(yuǎn)、偏低l,一部分的檢測項(xiàng)目結(jié)果為醫(yī)學(xué)上通用的化驗(yàn)檢測結(jié)果,包括陽性p、陰性n、可疑s,還有一部檢測結(jié)果為按照程度進(jìn)行的分級(jí),包括1-9級(jí),其中1級(jí)表示輕微,9級(jí)表示嚴(yán)重;
為了能將這些結(jié)果中的檢測項(xiàng)目進(jìn)行數(shù)據(jù)分析,需要根據(jù)如下的規(guī)則將這些結(jié)果轉(zhuǎn)化為數(shù)字,從而進(jìn)行數(shù)據(jù)處理和挖掘,并且這些數(shù)字需要符合其他數(shù)值型結(jié)果歸一化之后的規(guī)律:
3.2.1)正常n、偏高h(yuǎn)、偏低l分別對(duì)應(yīng)數(shù)字-1,0,1;
3.2.2)陽性p、陰性n、可疑s分別對(duì)應(yīng)數(shù)字1,0,0.5;
3.2.3)1-9級(jí)根據(jù)公式x-1/10轉(zhuǎn)化為數(shù)字。
所述3.3)將經(jīng)過數(shù)據(jù)處理和挖掘數(shù)值化的檢測結(jié)果分別生成醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣具體為:
3.3.1)按照橫向?yàn)椴煌瑱z測項(xiàng)目及信息種類,縱向?yàn)椴煌琧ap患兒的規(guī)則,排列生成一個(gè)醫(yī)療數(shù)據(jù)特征矩陣;若同一檢測項(xiàng)目,同一患兒有多條信息,則求取平均值;若某一項(xiàng)目某患兒沒有檢測結(jié)果,則以0代替,即得到醫(yī)療數(shù)據(jù)特征矩陣;
3.3.2)按照與3.3.1)所述規(guī)則,對(duì)確定為特權(quán)信息的患兒檢測項(xiàng)目結(jié)果進(jìn)行同樣的操作,得到特權(quán)信息矩陣。
所述第四步具體包括以下步驟:
4.1)基于機(jī)器學(xué)習(xí)中采用特權(quán)信息的svm+算法,利用在第三步中生成的醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣,利用采用特權(quán)信息的svm+算法進(jìn)行訓(xùn)練,建立基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎的數(shù)據(jù)分析模型;
4.2)將待診斷的新cap患兒信息數(shù)據(jù)與其早期的檢測項(xiàng)目數(shù)據(jù)構(gòu)成醫(yī)療數(shù)據(jù)特征矩陣向量,進(jìn)入已完成訓(xùn)練的基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎的數(shù)據(jù)分析模型,進(jìn)行醫(yī)療數(shù)據(jù)特征向量生成操作,得到對(duì)病原分析的判斷。
所述svm+模型在原本svm算法的基礎(chǔ)上加入了特權(quán)信息的部分,其模型表述為:
假設(shè)樣本數(shù)量為n的數(shù)據(jù)集t,
其中
所述模型決策函數(shù)為
其中x'為一個(gè)向量特征,k(xi,x')為特征向量的核函數(shù)。
所述svm+模型可以采用拉格朗日對(duì)偶方法得到優(yōu)化函數(shù):
其中α,β為拉格朗日系數(shù),均為n維的向量,其中α,β為拉格朗日系數(shù),均為n維的向量,其中
通過求解優(yōu)化函數(shù),即可以得到?jīng)Q策函數(shù)中的α以得到模型結(jié)果。
與現(xiàn)有技術(shù)相比,本發(fā)明可以通過基于特權(quán)信息學(xué)習(xí)支持向量機(jī)svm+算法,經(jīng)過對(duì)原始醫(yī)療數(shù)據(jù)的處理,將得到的醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣,用于機(jī)器學(xué)習(xí)模型的訓(xùn)練,從而獲得基于特權(quán)信息學(xué)習(xí)支持向量機(jī)svm+模型的兒童社區(qū)獲得性肺炎病原數(shù)據(jù)系統(tǒng)及方法,建立兒童社區(qū)獲得性肺炎早期病原分析系統(tǒng)。并通過待診cap兒童相關(guān)信息進(jìn)入該早期病原分析系統(tǒng)的分析,完成醫(yī)療數(shù)據(jù)特征向量的訓(xùn)練,得到該待診cap兒童的早期病原分析結(jié)構(gòu),對(duì)臨床醫(yī)學(xué)治療cap兒童有重大幫助。
附圖說明
圖1為本發(fā)明系統(tǒng)的結(jié)構(gòu)框圖;
圖2為本發(fā)明的流程圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明的一部分實(shí)施例,而不是全部實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都應(yīng)屬于本發(fā)明保護(hù)的范圍。
如圖1所示,本發(fā)明涉及一種基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎數(shù)據(jù)處理的系統(tǒng),包括:醫(yī)療數(shù)據(jù)處理模塊、醫(yī)療數(shù)據(jù)特征模塊與特權(quán)信息提取模塊、病原分析模塊。其中醫(yī)療數(shù)據(jù)處理模塊對(duì)大量cap患兒的醫(yī)療數(shù)據(jù)(化驗(yàn)檢測數(shù)據(jù)和影像學(xué)數(shù)據(jù)等)按照檢測類別項(xiàng)目、患兒信息、化驗(yàn)時(shí)間等幾個(gè)維度進(jìn)行分類或統(tǒng)計(jì),并經(jīng)過數(shù)據(jù)處理和挖掘,實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化。醫(yī)療數(shù)據(jù)特征生成與特權(quán)信息提取模塊,此模塊包含兩部分內(nèi)容:第一步驟,是根據(jù)統(tǒng)計(jì)結(jié)果選擇適合的檢測項(xiàng)目標(biāo)準(zhǔn)化數(shù)據(jù),加上表明患兒特征的標(biāo)準(zhǔn)化數(shù)據(jù),生成所有患兒的醫(yī)療數(shù)據(jù)特征矩陣;第二步驟,根據(jù)檢測項(xiàng)目的時(shí)間統(tǒng)計(jì)結(jié)果,截取出不屬于早期診斷時(shí)間的醫(yī)療數(shù)據(jù)信息部分,作為特權(quán)信息,并與患兒信息生成特權(quán)信息矩陣。將醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣輸入病原分析模塊,通過基于特權(quán)信息學(xué)習(xí)的svm+算法得到兒童cap早期病原診斷結(jié)果數(shù)據(jù)模型。
如圖2所示,本發(fā)明涉及上述的系統(tǒng)數(shù)據(jù)處理模塊方法,包括以下步驟:
第一步,篩選出有效的cap患兒列表,以及與這些cap患兒相關(guān)的有效數(shù)據(jù);
第二步,對(duì)所有篩選出的有效數(shù)據(jù)進(jìn)行統(tǒng)計(jì),選擇其中適宜的項(xiàng)目作為特權(quán)信息,其余的有效數(shù)據(jù)顯示為普通醫(yī)療數(shù)據(jù)特征;
第三步,將選擇出的檢測項(xiàng)目結(jié)果以及患兒信息生成關(guān)于每一個(gè)有效cap患兒的醫(yī)療數(shù)據(jù)特征矩陣以及特權(quán)信息矩陣;
第四步,建立基于特權(quán)信息學(xué)習(xí)支持向量svm+算法,并利用該算法,使用第三步生成的兩個(gè)矩陣,建立基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎數(shù)據(jù)模型;隨后利用待診斷的新的患兒信息,開展對(duì)病原的早期分析診斷,從而輔助支持醫(yī)生的早期診斷和治療。
所述第一步中,由于醫(yī)療數(shù)據(jù)來源于真實(shí)的醫(yī)院錄入系統(tǒng),屬于人工輸入與電子表單的混合插入,由于檢測結(jié)果的多變性會(huì)導(dǎo)致一些結(jié)果難以輸入或者因?yàn)槠涿枋稣Z言無法被電腦處理,同時(shí)由人工輸入的數(shù)據(jù)會(huì)存在一定的人為錯(cuò)誤,也由于檢測項(xiàng)目的不斷改變或者更新,一些預(yù)定之后未完成(即沒有結(jié)果)的檢測項(xiàng)目也會(huì)在醫(yī)院的錄入系統(tǒng)中被保存,這些檢測信息會(huì)導(dǎo)致醫(yī)療數(shù)據(jù)的統(tǒng)計(jì)出現(xiàn)偏差,同時(shí)嚴(yán)重影響醫(yī)療數(shù)據(jù)的質(zhì)量,導(dǎo)致其他數(shù)據(jù)處理模塊的處理準(zhǔn)確性下降以及耗費(fèi)時(shí)間增多,所以在醫(yī)療數(shù)據(jù)處理初始就篩除這些數(shù)據(jù)會(huì)對(duì)其后簡歷系統(tǒng)有極大的幫助。由于部分cap患兒為疑似(即無法確診)病例,而在確診的cap患兒中,還存在一部分無法判定感染病原的病例,由于我們的系統(tǒng)注重于對(duì)兒童cap早期病原的分析,這些疑似患兒或者不明確病原患兒的數(shù)據(jù)會(huì)干擾到機(jī)器學(xué)習(xí)模型的準(zhǔn)確性,所以必須謹(jǐn)慎確認(rèn)最終進(jìn)行訓(xùn)練的cap患兒樣例情況,以保證模型訓(xùn)練的質(zhì)量。
所述第一步篩選有效數(shù)據(jù),具體包括以下步驟:
1.1)對(duì)所有醫(yī)療檢測數(shù)據(jù)進(jìn)行初級(jí)篩選,去除其中信息不全,或者結(jié)果無法量化的部分;
1.2)對(duì)每一個(gè)cap患兒的確診性以及病原確定性進(jìn)行篩查,并確保該患兒在數(shù)據(jù)源中有足夠數(shù)量的有效檢測數(shù)據(jù)記錄,輸出一個(gè)有效的cap患兒列表;
1.3)針對(duì)每一個(gè)有效的cap患兒樣例,收集整理有效患兒信息、醫(yī)療檢測信息;
根據(jù)上述步驟,可以得到一個(gè)利于準(zhǔn)確數(shù)據(jù)分析、數(shù)據(jù)質(zhì)量較高的cap患兒樣例的資料表,這些患兒的資料數(shù)據(jù)將會(huì)成為之后系統(tǒng)中分析有效的數(shù)據(jù)源,為本發(fā)明的數(shù)據(jù)可信性提供保障。并且在cap患兒數(shù)據(jù)不斷增加等情況下,將新加入的患兒資料進(jìn)行數(shù)據(jù)篩查后,將新的符合條件的有效cap患兒加入列表,整理信息,激發(fā)后續(xù)模塊不斷更新數(shù)據(jù)以及模型,不斷對(duì)系統(tǒng)最后結(jié)果進(jìn)行更新優(yōu)化。
所述醫(yī)療數(shù)據(jù)處理第二步中,具體包括以下步驟:
2.1)按照檢測項(xiàng)目對(duì)所有有效的醫(yī)療檢測數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析;
上述步驟中,將屬于有效cap患兒資料按照化驗(yàn)大類(如血液化驗(yàn)、尿液化驗(yàn)等)以及檢測項(xiàng)目(紅細(xì)胞數(shù)量、白細(xì)胞數(shù)量等)進(jìn)行分類統(tǒng)計(jì),記錄每個(gè)大類的化驗(yàn)項(xiàng)目以及每個(gè)檢測項(xiàng)目的總共檢測人次數(shù)、實(shí)際檢測人數(shù)、項(xiàng)目檢測時(shí)間中位數(shù)等項(xiàng)目,這些結(jié)果可以幫助之后的醫(yī)療數(shù)據(jù)特征生成模塊選擇合適的檢測項(xiàng)目數(shù)據(jù)進(jìn)行特征生成。
2.2)篩選出對(duì)兒童cap病因的影響較大、且數(shù)據(jù)適合的檢測項(xiàng)目;
上述步驟中,由于現(xiàn)代醫(yī)療中的檢測項(xiàng)目多且雜,所有cap患兒醫(yī)療檢測數(shù)據(jù)中,存在一些無效檢測(檢測項(xiàng)目與兒童cap癥狀、病因均無關(guān)),一部分特異檢測(只針對(duì)特定患兒,如藥物過敏),以及一些尚未推廣的新檢測,這些檢測項(xiàng)目與兒童cap病原關(guān)聯(lián)較小或者尚未證實(shí),不適合作為兒童cap病原診斷的標(biāo)準(zhǔn)。同時(shí),一部分檢測項(xiàng)目的檢測人數(shù)占比較小,造成數(shù)據(jù)缺失率較大,會(huì)對(duì)之后的兒童cap早期病原分析造成影響,所以優(yōu)選的,該步驟可以通過醫(yī)學(xué)知識(shí)首先排除一部分檢測項(xiàng)目,再根據(jù)檢測項(xiàng)目的檢測人數(shù)占全部cap患兒比例確定是否將該項(xiàng)目加入進(jìn)一步的數(shù)據(jù)分析。
2.3)選取出適合作為特權(quán)信息的檢測項(xiàng)目;
上述步驟中,特權(quán)信息的定義為,在機(jī)器學(xué)習(xí)模型算法工程中,僅在訓(xùn)練數(shù)據(jù)集內(nèi)提供,而不在測試數(shù)據(jù)集中包含的信息。在我們的系統(tǒng)中,可以看作面對(duì)一個(gè)醫(yī)院新接診的cap患兒時(shí),對(duì)cap病原進(jìn)行早期診斷時(shí)醫(yī)生無法獲得的數(shù)據(jù),但這些數(shù)據(jù)我們可以在收集的全面的cap患兒數(shù)據(jù)中找到。例如,早期診斷的時(shí)間定義為入院72小時(shí)以內(nèi),則入院72小時(shí)后得到的檢測項(xiàng)目結(jié)果就無法在早期診斷中使用,但根據(jù)前文所述的兒童cap病原檢測技術(shù),許多能對(duì)病原確定有重要指向性的檢測都需要較長的時(shí)間,所以如果將這些檢測項(xiàng)目結(jié)果作為訓(xùn)練數(shù)據(jù)加入機(jī)器學(xué)習(xí)判斷兒童cap模型中,可以大大增加模型的準(zhǔn)確性。所以,優(yōu)選的,所述步驟可以是:
2.3.1)根據(jù)病原分析的經(jīng)驗(yàn),選擇一些特定的指標(biāo)檢測項(xiàng)目,如病毒prc檢測、細(xì)菌培養(yǎng)結(jié)果等作為特權(quán)信息;
2.3.2)根據(jù)檢測項(xiàng)目時(shí)間,平均時(shí)間超過早期診斷時(shí)間的項(xiàng)目,可以確定為特權(quán)信息;
2.3.3)其余的病人信息以及合適的其余檢測項(xiàng)目信息則作為普通醫(yī)療數(shù)據(jù)特征信息。
上述所述的醫(yī)療數(shù)據(jù)處理第二步中,隨著醫(yī)療數(shù)據(jù)處理模塊不斷增加,更多cap患兒數(shù)據(jù),對(duì)檢測項(xiàng)目的統(tǒng)計(jì)結(jié)果會(huì)有一定改變,一些新推廣的檢測項(xiàng)目就會(huì)在再次進(jìn)行所述步驟篩選中被留下,一部分項(xiàng)目可能會(huì)被剔除,通過醫(yī)療數(shù)據(jù)的不斷積累以及更新,會(huì)使系統(tǒng)分析越來越準(zhǔn)確。
所述第三步驟,具體包括以下步驟:
3.1)根據(jù)已知患兒信息(出生日期、入院日期)等計(jì)算患兒年齡,并將入院季節(jié)等數(shù)值加入醫(yī)療數(shù)據(jù)特征矩陣;
上述所述步驟中,由于兒童cap病原在不同患兒年齡,不同患病季節(jié)等條件下的分布中均有顯著差異,所以這部分信息會(huì)對(duì)病因早期診斷有非常大的影響,需要從患兒資料中提取或者計(jì)算獲得。
3.2)將檢測項(xiàng)目結(jié)果進(jìn)行數(shù)據(jù)挖掘處理;
上述所述步驟中,由于系統(tǒng)提取醫(yī)療數(shù)據(jù)檢測結(jié)果已經(jīng)在之前去除了其中不規(guī)則的部分?jǐn)?shù)據(jù),其中一些檢測項(xiàng)目原本結(jié)果為連續(xù)的數(shù)值,這些結(jié)果通過數(shù)據(jù)處理中常見的歸一化步驟,即可以直接被作為一個(gè)維度的醫(yī)療數(shù)據(jù)特征。然而許多其他的檢測項(xiàng)目結(jié)果并不是標(biāo)準(zhǔn)數(shù)值,這些結(jié)果有部分為經(jīng)過與一個(gè)正常值范圍進(jìn)行比對(duì)之后得到的結(jié)果如:n(正常)、h(偏高)、l(偏低),一部分的檢測項(xiàng)目結(jié)果為醫(yī)學(xué)上通用的化驗(yàn)檢測結(jié)果如:p(陽性)、n(陰性)、s(可疑),還有一部檢測結(jié)果為按照程度進(jìn)行的分級(jí),如1-9級(jí),其中1級(jí)表示輕微,9級(jí)表示嚴(yán)重。
優(yōu)選的,為了能將這些結(jié)果中部分純粹數(shù)字的檢測項(xiàng)目也可以進(jìn)行數(shù)據(jù)分析,我們需要根據(jù)如下的規(guī)則將這些結(jié)果轉(zhuǎn)化為數(shù)字,從而進(jìn)行數(shù)據(jù)處理和挖掘,并且這些數(shù)字需要符合其他數(shù)值型結(jié)果歸一化之后的規(guī)律,
i)n,h,l分別對(duì)應(yīng)數(shù)字-1,0,1;
ii)p,n,s分別對(duì)應(yīng)數(shù)字1,0,0.5;
iii)1-9級(jí)根據(jù)公式x-1/10轉(zhuǎn)化為數(shù)字;
上述規(guī)律可以在不為數(shù)字的檢測結(jié)果和數(shù)字之間建立一個(gè)映射關(guān)系,該映射關(guān)系能使得到轉(zhuǎn)化之后的數(shù)字結(jié)果和其他歸一化后的連續(xù)數(shù)值型結(jié)果處于同一個(gè)區(qū)間,有類似分布,使所有的數(shù)字結(jié)果可以一起加入之后的數(shù)據(jù)分析步驟。
3.3)將數(shù)據(jù)處理和挖掘的數(shù)值化的檢測結(jié)果分別加入醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣;
上述步驟中,將取得的患兒信息以及一部分檢測項(xiàng)目結(jié)果按照橫向?yàn)椴煌瑱z測項(xiàng)目及信息種類,縱向?yàn)椴煌琧ap患兒的規(guī)則,排列生成一個(gè)醫(yī)療數(shù)據(jù)特征矩陣;若同一檢測項(xiàng)目,同一患兒有多條信息,則求取平均值;若某一項(xiàng)目某患兒沒有檢測結(jié)果,則以0代替,即可以得到醫(yī)療數(shù)據(jù)特征矩陣。按照同樣的規(guī)則,對(duì)確定為特權(quán)信息的患兒檢測項(xiàng)目結(jié)果進(jìn)行同樣的操作,可以得到特權(quán)信息矩陣。
本發(fā)明所述的第四步中,是建立基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎分析模型,開展對(duì)病原的早期分析診斷,從而輔助支持醫(yī)生的早期診斷和治療。
主要步驟是:第一,基于機(jī)器學(xué)習(xí)中采用特權(quán)信息的svm+算法,利用在第三步中生成的醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣,利用采用特權(quán)信息的svm+算法進(jìn)行訓(xùn)練,建立基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎的數(shù)據(jù)系統(tǒng)分析模型;第二,將待診斷新的cap患兒信息數(shù)據(jù)與其早期的檢測項(xiàng)目數(shù)據(jù)等構(gòu)成醫(yī)療數(shù)據(jù)特征矩陣向量,進(jìn)入已完成訓(xùn)練的基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎早期病原診斷的分析模型,進(jìn)行醫(yī)療數(shù)據(jù)特征向量生成操作,得到對(duì)病原分析的判斷。這一發(fā)明對(duì)輔助臨床醫(yī)生在第一時(shí)間快速準(zhǔn)確進(jìn)行兒童社區(qū)獲得性肺炎早期診斷和治療具有重要意義。
所述svm+模型算法的目的,是將種類數(shù)量較多的兒童cap住院治療全程的檢測數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),與兒童cap早期診斷時(shí)獲得的較少的數(shù)據(jù)化驗(yàn)作為測試數(shù)據(jù),這不對(duì)稱的訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)作為機(jī)器學(xué)習(xí)的輸入,得到病原分析的模型,為此,采用將兒童cap住院治療全程的檢測數(shù)據(jù)中難以在早期診斷中獲得的部分作為特權(quán)信息的模式。
所述svm(支持向量機(jī))模型是90年代中期發(fā)展起來的基于統(tǒng)計(jì)學(xué)習(xí)理論的一種機(jī)器學(xué)習(xí)方法,通過尋求結(jié)構(gòu)化風(fēng)險(xiǎn)最小來提高學(xué)習(xí)機(jī)泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化,從而達(dá)到在統(tǒng)計(jì)樣本量較少的情況下,亦能獲得良好統(tǒng)計(jì)規(guī)律的目的。svm理念為選擇一個(gè)超平面將所有樣本分為兩類,使其兩分類之間間隔盡量大,即支持向量的最大化。定義這個(gè)超平面為(w,b)。給定一個(gè)樣本數(shù)量為n的數(shù)據(jù)集{t|(xi,yi),yi=±1,i=1,…n,},則兩分類的間隔可表示為
得到svm模型的目標(biāo)函數(shù):
由于超平面參數(shù)w,b可以按比例擴(kuò)大,并不影響優(yōu)化問題的解,所以限定γ||w||=1,則目標(biāo)函數(shù)可以轉(zhuǎn)化為
s.tyi(w·xi+b)≥1,i=1,…,n
為了使模型轉(zhuǎn)化為凸二次規(guī)劃問題,轉(zhuǎn)化優(yōu)化問題到等價(jià)問題
s.tyi(w·xi+b)≥1,i=1,…,n
為了將svm模型擴(kuò)展至線性不可分的情況,對(duì)于原優(yōu)化問題約束條件加入了松弛變量ξ,優(yōu)化目標(biāo)函數(shù)變?yōu)?/p>
根據(jù)拉格朗日對(duì)偶方法,我們可以得到
s.t.0≤αi≤ci=1,2.…,n
其中α為拉格朗日系數(shù),是一個(gè)n維的向量。
使優(yōu)化函數(shù)偏導(dǎo)為0,可以得到:
0≤αi≤c
進(jìn)行推導(dǎo)后得到
求解α的最優(yōu)值α'后,可以通過決策函數(shù)
所述svm+模型,即在原本svm的模型的基礎(chǔ)上加入了特權(quán)信息的部分,以方便下一步新的待診斷患兒。svm+模型所提出的方法,模仿了svm模型中松弛變量的概念,將特權(quán)信息作為一種對(duì)分類結(jié)果的軟間隔加入模型中,得到的svm+模型。
假設(shè)樣本數(shù)量為n的數(shù)據(jù)集
其中
同樣通過加入核技巧k(xi,xj)以及
其中α,β為拉格朗日系數(shù),均為n維的向量。
求解α,β的最優(yōu)值α',β'后,同樣可以通過決策函數(shù)
預(yù)測測試樣本的類別。
根據(jù)拉格朗日對(duì)偶方法求導(dǎo)之后,我們可以得到
其中α,β為拉格朗日系數(shù),均為n維的向量。
求解α,β的最優(yōu)值α',β'后,同樣可以通過決策函數(shù)
預(yù)測測試樣本的類別。
具體實(shí)施例
本發(fā)明在本實(shí)施例中的具體實(shí)施過程如下所示:
步驟1:建立檢測項(xiàng)目與結(jié)果數(shù)據(jù)庫,包括檢測的化驗(yàn)大類名稱、檢測項(xiàng)目名稱、檢測結(jié)果、檢測時(shí)間(檢測報(bào)告時(shí)間、患兒入院時(shí)間),對(duì)所有數(shù)據(jù)條目進(jìn)行篩選,去除其中信息不全、或者結(jié)果無法量化的條目;
步驟2:為經(jīng)過篩選的cap患兒建立患兒數(shù)據(jù)庫,包括患兒編號(hào)、年齡、性別、出生日期、入院時(shí)間、參與檢測的項(xiàng)目結(jié)果在數(shù)據(jù)庫中的記錄位置;
2.1,根據(jù)影像學(xué)二次診斷資料確認(rèn)患兒為cap確診患兒;
2.2,根據(jù)指標(biāo)性檢測項(xiàng)目結(jié)果(如病毒pcr檢測)與后期整理診斷資料(如出院小結(jié)等)確認(rèn)患兒有確定的被檢測出cap感染病原;
2.3,在檢測項(xiàng)目與結(jié)果數(shù)據(jù)庫中查找患兒的檢測項(xiàng)目數(shù)據(jù)記錄,對(duì)屬于該患兒的醫(yī)療檢測數(shù)據(jù)數(shù)量進(jìn)行統(tǒng)計(jì),確?;純河凶銐虻臋z測項(xiàng)目資料;
2.4,最終記錄下通過以上步驟篩選的患兒資料;
步驟3:對(duì)所有患兒數(shù)據(jù)庫中的患兒醫(yī)療檢測信息進(jìn)行統(tǒng)計(jì),獲取檢測種類,每種檢測次數(shù),檢測結(jié)果平均時(shí)間等信息;
3.1,綜合所有患兒數(shù)據(jù)庫檢測項(xiàng)目條目,建立檢測項(xiàng)目數(shù)據(jù)庫,包括檢測項(xiàng)目名稱,檢測項(xiàng)目所屬化驗(yàn)大類,檢測項(xiàng)目檢測人次,參與檢測項(xiàng)目患兒編號(hào);
3.2,根據(jù)檢測項(xiàng)目數(shù)據(jù)庫中每一個(gè)項(xiàng)目,參與檢測項(xiàng)目人數(shù)占總患兒數(shù)比值,檢測項(xiàng)目平均檢測時(shí)間;
步驟4:篩選出適合的作為醫(yī)療數(shù)據(jù)特征的檢測項(xiàng)目以及適合作為特權(quán)信息的檢測項(xiàng)目;
4.1,針對(duì)每一個(gè)檢測項(xiàng)目數(shù)據(jù)庫中的項(xiàng)目,若參與檢測項(xiàng)目人數(shù)占總患兒數(shù)比值高于30%,則該檢測項(xiàng)目適合作為醫(yī)療數(shù)據(jù)特征;
4.2,若該檢測項(xiàng)目屬于醫(yī)學(xué)指導(dǎo)中的病原指標(biāo)性檢測項(xiàng)目(如病毒pcr檢測),則檢測項(xiàng)目不作為醫(yī)療數(shù)據(jù)特征而作為特權(quán)信息;
4.3,若該檢測項(xiàng)目平均檢測時(shí)間大于72小時(shí),則檢測項(xiàng)目不作為醫(yī)療特征數(shù)據(jù)而作為特權(quán)信息;
步驟5,將檢測項(xiàng)目結(jié)果轉(zhuǎn)化為數(shù)值并統(tǒng)一數(shù)值范圍,進(jìn)行數(shù)據(jù)處理和挖掘;
5.1,判斷該檢測項(xiàng)目結(jié)果是否屬于連續(xù)數(shù)值,如果是,則對(duì)所有該項(xiàng)目檢測結(jié)果進(jìn)行歸一化計(jì)算;
5.2,判斷該檢測項(xiàng)目結(jié)果不屬于連續(xù)數(shù)值,根據(jù)之前所述轉(zhuǎn)化規(guī)則,通過其他結(jié)果與數(shù)字之間映射關(guān)系,得到對(duì)應(yīng)的數(shù)字結(jié)果;
步驟6,將檢測結(jié)果數(shù)值與患兒信息生成醫(yī)療數(shù)據(jù)特征矩陣以及特權(quán)信息矩陣;
6.1,將不同患兒作為縱軸,患兒信息項(xiàng)目(性別、年齡、入院時(shí)間等)以及不同檢測項(xiàng)目作為橫軸生成醫(yī)療數(shù)據(jù)特征矩陣;
6.2,將不同患兒作為縱軸,屬于特權(quán)信息的不同檢測項(xiàng)目作為橫軸生成特權(quán)信息矩陣;
6.3,若某一檢測項(xiàng)目,同一個(gè)患兒有多次結(jié)果的情況,則計(jì)算所有結(jié)果均值記入醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣;
6.4,若某一患兒沒有做該項(xiàng)目檢測,則以0記入醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣;
步驟7,根據(jù)患兒數(shù)據(jù)庫,按照不同患兒為縱軸,不同病原為橫軸,生成患兒病原標(biāo)簽矩陣,其中該患兒確定為該病原記錄為1,不確定該病原則記錄為-1;
步驟8,針對(duì)每一種病原,將醫(yī)療數(shù)據(jù)特征矩陣、特權(quán)信息矩陣,對(duì)應(yīng)的一列病原標(biāo)簽矩陣,作多個(gè)訓(xùn)練集;
步驟9,將每一個(gè)訓(xùn)練集輸入svm+模型,求解其優(yōu)化向量,形成基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的決策函數(shù)——即機(jī)器學(xué)習(xí)模型;
步驟10,對(duì)新的待診斷cap患兒收集數(shù)據(jù),處理為新的測試醫(yī)療特征向量;
10.1,收集新的患兒性別、年齡、入院時(shí)間等信息;
10.2,核對(duì)所有屬于醫(yī)療數(shù)據(jù)特征的檢測項(xiàng)目,若新的患兒進(jìn)行了該項(xiàng)檢測,則將檢測結(jié)果轉(zhuǎn)化為數(shù)值記錄;
10.3,將患兒信息項(xiàng)目(性別,年齡,入院時(shí)間等)以及不同檢測項(xiàng)目作為橫軸生成醫(yī)療數(shù)據(jù)特征向量;
步驟11,通過決策函數(shù),計(jì)算每種病原對(duì)應(yīng)的svm+模型的分類結(jié)果,并將病原分析結(jié)果輸出,為醫(yī)生對(duì)患兒的早期病原診斷作為重要參考;
11.1,計(jì)算決策函數(shù)的值;
11.2,若決策函數(shù)的值為1,則判斷患兒有該病原感染,若決策函數(shù)值為-1,則判斷該患兒沒有次病原感染;
11.3,若患兒有多個(gè)病原感染則判斷患兒為混合感染,若患兒沒有成功判別出任何病原,則需要加入更多醫(yī)療檢測項(xiàng)目重新計(jì)算。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到各種等效的修改或替換,這些修改或替換都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。