基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的CAP數(shù)據(jù)系統(tǒng)及方法與流程

文檔序號(hào)：11729618閱讀：379來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的CAP數(shù)據(jù)系統(tǒng)及方法與流程

本發(fā)明涉及信息處理技術(shù)領(lǐng)域，尤其是涉及一種基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的cap數(shù)據(jù)系統(tǒng)及方法。

背景技術(shù)：

兒童社區(qū)獲得性肺炎(communityacquiredpneumonia，cap)是指既往健康兒童在院外(即社區(qū))由細(xì)菌、病毒、衣原體和支原體等多種微生物感染所致的肺炎。該病是兒童時(shí)期最常見的呼吸系統(tǒng)感染性疾病之一，是兒童住院的最常見原因之一。據(jù)統(tǒng)計(jì)，我國住院兒童的24.5％-56.2％的病因是兒童肺炎；根據(jù)權(quán)威醫(yī)學(xué)期刊《柳葉刀》于2010年發(fā)表的研究，社區(qū)獲得性肺炎(cap)是中國的兒童患病死亡首因，我國衛(wèi)生部將其列為4種兒童常見病之首。

兒童社區(qū)獲得性肺炎由多種病原引起，其中細(xì)菌、病毒、支原體、衣原體這幾類最為常見，也有不少是多于一種病原的混合感染。修訂于2013年的《兒童社區(qū)獲得性肺炎管理指南》指出，影響cap病原檢測發(fā)現(xiàn)的因素包括：(1)cap患兒自身的免疫狀況、病原的繁殖數(shù)量與毒力作用，以及抗菌素等的使用對(duì)前二者的影響等綜合因素；(2)各種標(biāo)本采集、保管、運(yùn)送、檢驗(yàn)等各個(gè)流程環(huán)節(jié)的標(biāo)準(zhǔn)化、銜接與密切配合程度；(3)病原學(xué)檢測技術(shù)的敏感性與特異性；(4)地域、年份、衛(wèi)生環(huán)境、社會(huì)環(huán)境及社會(huì)經(jīng)濟(jì)因素、衛(wèi)生醫(yī)療條件等；(5)新發(fā)病原出現(xiàn)、病原的變異、抗菌藥物使用及耐藥性等?？傮w來說，無論是在病原學(xué)還是臨床上，兒童cap的病原檢測存在許多困難。

現(xiàn)有的兒童cap病原學(xué)分析與檢測較為準(zhǔn)確的方法基本基于細(xì)菌培養(yǎng)、病毒的pr-pcr檢測等針對(duì)性檢測方法，這些檢測方法均需要較長時(shí)間才能得到結(jié)果。由于對(duì)于不同的病原的對(duì)抗藥物不同，兒童cap早期病原的檢測結(jié)果往往直接影響到治療方法以及治療藥物的選擇，檢測時(shí)間較長或不準(zhǔn)確的病原檢驗(yàn)結(jié)果，導(dǎo)致臨床治療的延誤或者藥物使用的錯(cuò)誤，甚至?xí)?dǎo)致對(duì)治療兒童的抗生素濫用。因此，研制新的兒童cap的早期病原分析數(shù)據(jù)系統(tǒng)及方法已十分迫切。

近年來，隨著計(jì)算機(jī)技術(shù)的快速發(fā)展，特別是醫(yī)療數(shù)據(jù)系統(tǒng)的標(biāo)準(zhǔn)化與大數(shù)據(jù)技術(shù)的相得益彰，一方面，電子病歷系統(tǒng)在許多先進(jìn)的醫(yī)院全面使用，通過電子病歷的記錄，患兒的大量化驗(yàn)以及治療數(shù)據(jù)均得以以電子形式長期保存；另一方面，大數(shù)據(jù)分析技術(shù)也可以通過這大量的醫(yī)療數(shù)據(jù)，通過機(jī)器學(xué)習(xí)方法建立模型，從而指導(dǎo)和幫助醫(yī)生的判斷與治療。大數(shù)據(jù)技術(shù)分析在醫(yī)療領(lǐng)域有極大的輔助作用，通過計(jì)算機(jī)可以快速計(jì)算一般人腦難以處理的化驗(yàn)項(xiàng)目結(jié)果數(shù)據(jù)，同時(shí)能夠不斷累積所有能得到數(shù)據(jù)的病例，這樣的數(shù)據(jù)積累與全面分析往往能更全面、準(zhǔn)確的輔助判斷一些醫(yī)療問題。通過機(jī)器學(xué)習(xí)方法輔助解決兒童cap病原的早期判斷是一個(gè)非常好的解決方案，機(jī)器學(xué)習(xí)技術(shù)可以在經(jīng)過數(shù)據(jù)訓(xùn)練后，做到在很短的時(shí)間內(nèi)綜合可以得到的有效的大量病人數(shù)據(jù)，對(duì)兒童cap的病原做出初步早期判斷，對(duì)兒童cap的早期病原診斷與治療技術(shù)進(jìn)步有著非常重要的意義。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的cap數(shù)據(jù)系統(tǒng)及方法，重于在大量兒童cap醫(yī)療記錄中進(jìn)行有效性篩選，并將篩選后的醫(yī)療數(shù)據(jù)進(jìn)行數(shù)字化結(jié)構(gòu)化處理，生成醫(yī)療數(shù)據(jù)特征模塊和特權(quán)信息模塊，并輸入基于特權(quán)信息學(xué)習(xí)支持向量機(jī)svm+算法，以此形成基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的機(jī)器學(xué)習(xí)病原分析系統(tǒng)；并以此進(jìn)行病原學(xué)分析，可以為臨床兒童cap早期病原判斷以及治療方案提供決策支持。

本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn)：

一種基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的cap數(shù)據(jù)系統(tǒng)，包括：依次連接的醫(yī)療數(shù)據(jù)處理模塊、醫(yī)療數(shù)據(jù)特征生成與特權(quán)信息提取模塊、病原分析模塊；

所述醫(yī)療數(shù)據(jù)處理模塊，用于對(duì)大量cap患兒的醫(yī)療數(shù)據(jù)進(jìn)行篩選并進(jìn)行統(tǒng)計(jì)分析；

所述的醫(yī)療數(shù)據(jù)特征生成與特權(quán)信息提取模塊，用于按照檢測時(shí)間將檢測項(xiàng)目區(qū)分為普通醫(yī)療數(shù)據(jù)特征與特權(quán)信息，生成醫(yī)療數(shù)據(jù)特征矩陣和特權(quán)信息矩陣，并輸入病原分析模塊；

所述病原分析模塊通過基于特權(quán)信息學(xué)習(xí)的svm+算法訓(xùn)練，形成兒童cap早期病原診斷數(shù)據(jù)模型。

一種采用所述數(shù)據(jù)系統(tǒng)的方法，包括以下步驟：

第一步，篩選出有效的cap患兒列表，以及與這些cap患兒相關(guān)的有效數(shù)據(jù)；

第二步，對(duì)所有篩選出的有效數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，選擇其中部分項(xiàng)目作為特權(quán)信息，其余的有效數(shù)據(jù)顯示為普通醫(yī)療數(shù)據(jù)特征；

第三步，將選擇出的患兒檢測項(xiàng)目結(jié)果以及患兒信息生成關(guān)于每一個(gè)有效cap患兒的醫(yī)療數(shù)據(jù)特征矩陣，并選擇特權(quán)信息，形成有效cap患兒的特權(quán)信息矩陣；

第四步，建立基于特權(quán)信息學(xué)習(xí)支持向量svm+算法，并利用該算法，使用第三步生成的兩個(gè)矩陣，建立基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎數(shù)據(jù)模型。

所述第一步中，cap患兒相關(guān)的有效數(shù)據(jù)篩選，具體包括以下步驟：

1.1)對(duì)所有醫(yī)療檢測數(shù)據(jù)進(jìn)行初級(jí)篩選，去除其中信息不全，或者結(jié)果無法量化的部分；

1.2)對(duì)每一個(gè)cap患兒的確診性以及病原確定性進(jìn)行篩查，并確保該患兒在數(shù)據(jù)源中有超過設(shè)定數(shù)量的有效檢測數(shù)據(jù)記錄，輸出一個(gè)有效的cap患兒列表；

1.3)針對(duì)每一個(gè)有效的cap患兒樣例，收集有效患兒信息、醫(yī)療檢測信息。

所述第二步中，特權(quán)信息篩選，具體包括以下步驟：

2.3.1)根據(jù)病原分析的經(jīng)驗(yàn)，選擇設(shè)定的指標(biāo)檢測項(xiàng)目作為特權(quán)信息，其中設(shè)定的指標(biāo)檢測項(xiàng)目包括病毒prc檢測、細(xì)菌培養(yǎng)結(jié)果；

2.3.2)根據(jù)檢測項(xiàng)目時(shí)間，平均時(shí)間超過早期診斷時(shí)間的項(xiàng)目，確定為特權(quán)信息；

2.3.3)其余的病人信息以及其余檢測項(xiàng)目信息則作為普通醫(yī)療數(shù)據(jù)特征信息。

所述第三步中，將選擇出的患兒檢測項(xiàng)目結(jié)果以及患兒信息生成關(guān)于每一個(gè)有效cap患兒的醫(yī)療數(shù)據(jù)特征矩陣，并選擇特權(quán)信息，形成有效cap患兒的特權(quán)信息矩陣，具體包括以下步驟：

3.1)根據(jù)已知患兒信息計(jì)算患兒年齡，并將入院季節(jié)數(shù)值加入醫(yī)療數(shù)據(jù)特征矩陣，其中患兒信息包括出生日期和入院日期；

3.2)將檢測項(xiàng)目結(jié)果進(jìn)行數(shù)據(jù)挖掘處理；

3.3)將經(jīng)過數(shù)據(jù)處理和挖掘數(shù)值化的檢測結(jié)果分別生成醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣。

所述3.2)將檢測項(xiàng)目結(jié)果進(jìn)行數(shù)據(jù)挖掘處理具體為：

一部分?jǐn)?shù)據(jù)通過數(shù)據(jù)處理中常見的歸一化步驟，直接被作為一個(gè)維度的醫(yī)療數(shù)據(jù)特征；而對(duì)于非標(biāo)準(zhǔn)數(shù)值的檢測項(xiàng)目結(jié)果，包括正常n、偏高h(yuǎn)、偏低l，一部分的檢測項(xiàng)目結(jié)果為醫(yī)學(xué)上通用的化驗(yàn)檢測結(jié)果，包括陽性p、陰性n、可疑s，還有一部檢測結(jié)果為按照程度進(jìn)行的分級(jí)，包括1-9級(jí)，其中1級(jí)表示輕微，9級(jí)表示嚴(yán)重；

為了能將這些結(jié)果中的檢測項(xiàng)目進(jìn)行數(shù)據(jù)分析，需要根據(jù)如下的規(guī)則將這些結(jié)果轉(zhuǎn)化為數(shù)字，從而進(jìn)行數(shù)據(jù)處理和挖掘，并且這些數(shù)字需要符合其他數(shù)值型結(jié)果歸一化之后的規(guī)律：

3.2.1)正常n、偏高h(yuǎn)、偏低l分別對(duì)應(yīng)數(shù)字-1,0,1；

3.2.2)陽性p、陰性n、可疑s分別對(duì)應(yīng)數(shù)字1,0,0.5；

3.2.3)1-9級(jí)根據(jù)公式x-1/10轉(zhuǎn)化為數(shù)字。

所述3.3)將經(jīng)過數(shù)據(jù)處理和挖掘數(shù)值化的檢測結(jié)果分別生成醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣具體為：

3.3.1)按照橫向?yàn)椴煌瑱z測項(xiàng)目及信息種類，縱向?yàn)椴煌琧ap患兒的規(guī)則，排列生成一個(gè)醫(yī)療數(shù)據(jù)特征矩陣；若同一檢測項(xiàng)目，同一患兒有多條信息，則求取平均值；若某一項(xiàng)目某患兒沒有檢測結(jié)果，則以0代替，即得到醫(yī)療數(shù)據(jù)特征矩陣；

3.3.2)按照與3.3.1)所述規(guī)則，對(duì)確定為特權(quán)信息的患兒檢測項(xiàng)目結(jié)果進(jìn)行同樣的操作，得到特權(quán)信息矩陣。

所述第四步具體包括以下步驟：

4.1)基于機(jī)器學(xué)習(xí)中采用特權(quán)信息的svm+算法，利用在第三步中生成的醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣，利用采用特權(quán)信息的svm+算法進(jìn)行訓(xùn)練，建立基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎的數(shù)據(jù)分析模型；

4.2)將待診斷的新cap患兒信息數(shù)據(jù)與其早期的檢測項(xiàng)目數(shù)據(jù)構(gòu)成醫(yī)療數(shù)據(jù)特征矩陣向量，進(jìn)入已完成訓(xùn)練的基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎的數(shù)據(jù)分析模型，進(jìn)行醫(yī)療數(shù)據(jù)特征向量生成操作，得到對(duì)病原分析的判斷。

所述svm+模型在原本svm算法的基礎(chǔ)上加入了特權(quán)信息的部分，其模型表述為：

假設(shè)樣本數(shù)量為n的數(shù)據(jù)集t,其中xi為第i個(gè)樣本的特征向量，為第i個(gè)樣本的特權(quán)信息向量，yi為第i個(gè)樣本的標(biāo)簽信息，原svm模型中的松弛變量與特權(quán)信息關(guān)系為

其中部分即為特權(quán)信息所構(gòu)成的松弛向量軟間隔，c為軟間隔的懲罰參數(shù)，γ為特權(quán)信息的懲罰參數(shù)，，(w,b)為分割兩類樣本的超平面，(w^*,b^*)為特權(quán)信息偏移方向的超平面；

所述模型決策函數(shù)為

其中x'為一個(gè)向量特征，k(xi,x')為特征向量的核函數(shù)。

所述svm+模型可以采用拉格朗日對(duì)偶方法得到優(yōu)化函數(shù)：

其中α,β為拉格朗日系數(shù)，均為n維的向量，其中α,β為拉格朗日系數(shù)，均為n維的向量，其中為特權(quán)信息的核函數(shù)，通過求解優(yōu)化函數(shù)，即可以得到?jīng)Q策函數(shù)中的α以得到模型結(jié)果；

通過求解優(yōu)化函數(shù)，即可以得到?jīng)Q策函數(shù)中的α以得到模型結(jié)果。

與現(xiàn)有技術(shù)相比，本發(fā)明可以通過基于特權(quán)信息學(xué)習(xí)支持向量機(jī)svm+算法，經(jīng)過對(duì)原始醫(yī)療數(shù)據(jù)的處理，將得到的醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣，用于機(jī)器學(xué)習(xí)模型的訓(xùn)練，從而獲得基于特權(quán)信息學(xué)習(xí)支持向量機(jī)svm+模型的兒童社區(qū)獲得性肺炎病原數(shù)據(jù)系統(tǒng)及方法，建立兒童社區(qū)獲得性肺炎早期病原分析系統(tǒng)。并通過待診cap兒童相關(guān)信息進(jìn)入該早期病原分析系統(tǒng)的分析，完成醫(yī)療數(shù)據(jù)特征向量的訓(xùn)練，得到該待診cap兒童的早期病原分析結(jié)構(gòu)，對(duì)臨床醫(yī)學(xué)治療cap兒童有重大幫助。

附圖說明

圖1為本發(fā)明系統(tǒng)的結(jié)構(gòu)框圖；

圖2為本發(fā)明的流程圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例是本發(fā)明的一部分實(shí)施例，而不是全部實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例，都應(yīng)屬于本發(fā)明保護(hù)的范圍。

如圖1所示，本發(fā)明涉及一種基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎數(shù)據(jù)處理的系統(tǒng)，包括：醫(yī)療數(shù)據(jù)處理模塊、醫(yī)療數(shù)據(jù)特征模塊與特權(quán)信息提取模塊、病原分析模塊。其中醫(yī)療數(shù)據(jù)處理模塊對(duì)大量cap患兒的醫(yī)療數(shù)據(jù)(化驗(yàn)檢測數(shù)據(jù)和影像學(xué)數(shù)據(jù)等)按照檢測類別項(xiàng)目、患兒信息、化驗(yàn)時(shí)間等幾個(gè)維度進(jìn)行分類或統(tǒng)計(jì)，并經(jīng)過數(shù)據(jù)處理和挖掘，實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化。醫(yī)療數(shù)據(jù)特征生成與特權(quán)信息提取模塊，此模塊包含兩部分內(nèi)容：第一步驟，是根據(jù)統(tǒng)計(jì)結(jié)果選擇適合的檢測項(xiàng)目標(biāo)準(zhǔn)化數(shù)據(jù)，加上表明患兒特征的標(biāo)準(zhǔn)化數(shù)據(jù)，生成所有患兒的醫(yī)療數(shù)據(jù)特征矩陣；第二步驟，根據(jù)檢測項(xiàng)目的時(shí)間統(tǒng)計(jì)結(jié)果，截取出不屬于早期診斷時(shí)間的醫(yī)療數(shù)據(jù)信息部分，作為特權(quán)信息，并與患兒信息生成特權(quán)信息矩陣。將醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣輸入病原分析模塊，通過基于特權(quán)信息學(xué)習(xí)的svm+算法得到兒童cap早期病原診斷結(jié)果數(shù)據(jù)模型。

如圖2所示，本發(fā)明涉及上述的系統(tǒng)數(shù)據(jù)處理模塊方法，包括以下步驟：

第一步，篩選出有效的cap患兒列表，以及與這些cap患兒相關(guān)的有效數(shù)據(jù)；

第二步，對(duì)所有篩選出的有效數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，選擇其中適宜的項(xiàng)目作為特權(quán)信息，其余的有效數(shù)據(jù)顯示為普通醫(yī)療數(shù)據(jù)特征；

第三步，將選擇出的檢測項(xiàng)目結(jié)果以及患兒信息生成關(guān)于每一個(gè)有效cap患兒的醫(yī)療數(shù)據(jù)特征矩陣以及特權(quán)信息矩陣；

第四步，建立基于特權(quán)信息學(xué)習(xí)支持向量svm+算法，并利用該算法，使用第三步生成的兩個(gè)矩陣，建立基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎數(shù)據(jù)模型；隨后利用待診斷的新的患兒信息，開展對(duì)病原的早期分析診斷，從而輔助支持醫(yī)生的早期診斷和治療。

所述第一步中，由于醫(yī)療數(shù)據(jù)來源于真實(shí)的醫(yī)院錄入系統(tǒng)，屬于人工輸入與電子表單的混合插入，由于檢測結(jié)果的多變性會(huì)導(dǎo)致一些結(jié)果難以輸入或者因?yàn)槠涿枋稣Z言無法被電腦處理，同時(shí)由人工輸入的數(shù)據(jù)會(huì)存在一定的人為錯(cuò)誤，也由于檢測項(xiàng)目的不斷改變或者更新，一些預(yù)定之后未完成(即沒有結(jié)果)的檢測項(xiàng)目也會(huì)在醫(yī)院的錄入系統(tǒng)中被保存，這些檢測信息會(huì)導(dǎo)致醫(yī)療數(shù)據(jù)的統(tǒng)計(jì)出現(xiàn)偏差，同時(shí)嚴(yán)重影響醫(yī)療數(shù)據(jù)的質(zhì)量，導(dǎo)致其他數(shù)據(jù)處理模塊的處理準(zhǔn)確性下降以及耗費(fèi)時(shí)間增多，所以在醫(yī)療數(shù)據(jù)處理初始就篩除這些數(shù)據(jù)會(huì)對(duì)其后簡歷系統(tǒng)有極大的幫助。由于部分cap患兒為疑似(即無法確診)病例，而在確診的cap患兒中，還存在一部分無法判定感染病原的病例，由于我們的系統(tǒng)注重于對(duì)兒童cap早期病原的分析，這些疑似患兒或者不明確病原患兒的數(shù)據(jù)會(huì)干擾到機(jī)器學(xué)習(xí)模型的準(zhǔn)確性，所以必須謹(jǐn)慎確認(rèn)最終進(jìn)行訓(xùn)練的cap患兒樣例情況，以保證模型訓(xùn)練的質(zhì)量。

所述第一步篩選有效數(shù)據(jù)，具體包括以下步驟：

1.1)對(duì)所有醫(yī)療檢測數(shù)據(jù)進(jìn)行初級(jí)篩選，去除其中信息不全，或者結(jié)果無法量化的部分；

1.2)對(duì)每一個(gè)cap患兒的確診性以及病原確定性進(jìn)行篩查，并確保該患兒在數(shù)據(jù)源中有足夠數(shù)量的有效檢測數(shù)據(jù)記錄，輸出一個(gè)有效的cap患兒列表；

1.3)針對(duì)每一個(gè)有效的cap患兒樣例，收集整理有效患兒信息、醫(yī)療檢測信息；

根據(jù)上述步驟，可以得到一個(gè)利于準(zhǔn)確數(shù)據(jù)分析、數(shù)據(jù)質(zhì)量較高的cap患兒樣例的資料表，這些患兒的資料數(shù)據(jù)將會(huì)成為之后系統(tǒng)中分析有效的數(shù)據(jù)源，為本發(fā)明的數(shù)據(jù)可信性提供保障。并且在cap患兒數(shù)據(jù)不斷增加等情況下，將新加入的患兒資料進(jìn)行數(shù)據(jù)篩查后，將新的符合條件的有效cap患兒加入列表，整理信息，激發(fā)后續(xù)模塊不斷更新數(shù)據(jù)以及模型，不斷對(duì)系統(tǒng)最后結(jié)果進(jìn)行更新優(yōu)化。

所述醫(yī)療數(shù)據(jù)處理第二步中，具體包括以下步驟：

2.1)按照檢測項(xiàng)目對(duì)所有有效的醫(yī)療檢測數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析；

上述步驟中，將屬于有效cap患兒資料按照化驗(yàn)大類(如血液化驗(yàn)、尿液化驗(yàn)等)以及檢測項(xiàng)目(紅細(xì)胞數(shù)量、白細(xì)胞數(shù)量等)進(jìn)行分類統(tǒng)計(jì)，記錄每個(gè)大類的化驗(yàn)項(xiàng)目以及每個(gè)檢測項(xiàng)目的總共檢測人次數(shù)、實(shí)際檢測人數(shù)、項(xiàng)目檢測時(shí)間中位數(shù)等項(xiàng)目，這些結(jié)果可以幫助之后的醫(yī)療數(shù)據(jù)特征生成模塊選擇合適的檢測項(xiàng)目數(shù)據(jù)進(jìn)行特征生成。

2.2)篩選出對(duì)兒童cap病因的影響較大、且數(shù)據(jù)適合的檢測項(xiàng)目；

上述步驟中，由于現(xiàn)代醫(yī)療中的檢測項(xiàng)目多且雜，所有cap患兒醫(yī)療檢測數(shù)據(jù)中，存在一些無效檢測(檢測項(xiàng)目與兒童cap癥狀、病因均無關(guān))，一部分特異檢測(只針對(duì)特定患兒，如藥物過敏)，以及一些尚未推廣的新檢測，這些檢測項(xiàng)目與兒童cap病原關(guān)聯(lián)較小或者尚未證實(shí)，不適合作為兒童cap病原診斷的標(biāo)準(zhǔn)。同時(shí)，一部分檢測項(xiàng)目的檢測人數(shù)占比較小，造成數(shù)據(jù)缺失率較大，會(huì)對(duì)之后的兒童cap早期病原分析造成影響，所以優(yōu)選的，該步驟可以通過醫(yī)學(xué)知識(shí)首先排除一部分檢測項(xiàng)目，再根據(jù)檢測項(xiàng)目的檢測人數(shù)占全部cap患兒比例確定是否將該項(xiàng)目加入進(jìn)一步的數(shù)據(jù)分析。

2.3)選取出適合作為特權(quán)信息的檢測項(xiàng)目；

上述步驟中，特權(quán)信息的定義為，在機(jī)器學(xué)習(xí)模型算法工程中，僅在訓(xùn)練數(shù)據(jù)集內(nèi)提供，而不在測試數(shù)據(jù)集中包含的信息。在我們的系統(tǒng)中，可以看作面對(duì)一個(gè)醫(yī)院新接診的cap患兒時(shí)，對(duì)cap病原進(jìn)行早期診斷時(shí)醫(yī)生無法獲得的數(shù)據(jù)，但這些數(shù)據(jù)我們可以在收集的全面的cap患兒數(shù)據(jù)中找到。例如，早期診斷的時(shí)間定義為入院72小時(shí)以內(nèi)，則入院72小時(shí)后得到的檢測項(xiàng)目結(jié)果就無法在早期診斷中使用，但根據(jù)前文所述的兒童cap病原檢測技術(shù)，許多能對(duì)病原確定有重要指向性的檢測都需要較長的時(shí)間，所以如果將這些檢測項(xiàng)目結(jié)果作為訓(xùn)練數(shù)據(jù)加入機(jī)器學(xué)習(xí)判斷兒童cap模型中，可以大大增加模型的準(zhǔn)確性。所以，優(yōu)選的，所述步驟可以是：

2.3.1)根據(jù)病原分析的經(jīng)驗(yàn)，選擇一些特定的指標(biāo)檢測項(xiàng)目，如病毒prc檢測、細(xì)菌培養(yǎng)結(jié)果等作為特權(quán)信息；

2.3.2)根據(jù)檢測項(xiàng)目時(shí)間，平均時(shí)間超過早期診斷時(shí)間的項(xiàng)目，可以確定為特權(quán)信息；

2.3.3)其余的病人信息以及合適的其余檢測項(xiàng)目信息則作為普通醫(yī)療數(shù)據(jù)特征信息。

上述所述的醫(yī)療數(shù)據(jù)處理第二步中，隨著醫(yī)療數(shù)據(jù)處理模塊不斷增加，更多cap患兒數(shù)據(jù)，對(duì)檢測項(xiàng)目的統(tǒng)計(jì)結(jié)果會(huì)有一定改變，一些新推廣的檢測項(xiàng)目就會(huì)在再次進(jìn)行所述步驟篩選中被留下，一部分項(xiàng)目可能會(huì)被剔除，通過醫(yī)療數(shù)據(jù)的不斷積累以及更新，會(huì)使系統(tǒng)分析越來越準(zhǔn)確。

所述第三步驟，具體包括以下步驟：

3.1)根據(jù)已知患兒信息(出生日期、入院日期)等計(jì)算患兒年齡，并將入院季節(jié)等數(shù)值加入醫(yī)療數(shù)據(jù)特征矩陣；

上述所述步驟中，由于兒童cap病原在不同患兒年齡，不同患病季節(jié)等條件下的分布中均有顯著差異，所以這部分信息會(huì)對(duì)病因早期診斷有非常大的影響，需要從患兒資料中提取或者計(jì)算獲得。

3.2)將檢測項(xiàng)目結(jié)果進(jìn)行數(shù)據(jù)挖掘處理；

上述所述步驟中，由于系統(tǒng)提取醫(yī)療數(shù)據(jù)檢測結(jié)果已經(jīng)在之前去除了其中不規(guī)則的部分?jǐn)?shù)據(jù)，其中一些檢測項(xiàng)目原本結(jié)果為連續(xù)的數(shù)值，這些結(jié)果通過數(shù)據(jù)處理中常見的歸一化步驟，即可以直接被作為一個(gè)維度的醫(yī)療數(shù)據(jù)特征。然而許多其他的檢測項(xiàng)目結(jié)果并不是標(biāo)準(zhǔn)數(shù)值，這些結(jié)果有部分為經(jīng)過與一個(gè)正常值范圍進(jìn)行比對(duì)之后得到的結(jié)果如：n(正常)、h(偏高)、l(偏低)，一部分的檢測項(xiàng)目結(jié)果為醫(yī)學(xué)上通用的化驗(yàn)檢測結(jié)果如：p(陽性)、n(陰性)、s(可疑)，還有一部檢測結(jié)果為按照程度進(jìn)行的分級(jí)，如1-9級(jí)，其中1級(jí)表示輕微，9級(jí)表示嚴(yán)重。

優(yōu)選的，為了能將這些結(jié)果中部分純粹數(shù)字的檢測項(xiàng)目也可以進(jìn)行數(shù)據(jù)分析，我們需要根據(jù)如下的規(guī)則將這些結(jié)果轉(zhuǎn)化為數(shù)字，從而進(jìn)行數(shù)據(jù)處理和挖掘，并且這些數(shù)字需要符合其他數(shù)值型結(jié)果歸一化之后的規(guī)律，

i)n,h,l分別對(duì)應(yīng)數(shù)字-1,0,1；

ii)p,n,s分別對(duì)應(yīng)數(shù)字1,0,0.5；

iii)1-9級(jí)根據(jù)公式x-1/10轉(zhuǎn)化為數(shù)字；

上述規(guī)律可以在不為數(shù)字的檢測結(jié)果和數(shù)字之間建立一個(gè)映射關(guān)系，該映射關(guān)系能使得到轉(zhuǎn)化之后的數(shù)字結(jié)果和其他歸一化后的連續(xù)數(shù)值型結(jié)果處于同一個(gè)區(qū)間，有類似分布，使所有的數(shù)字結(jié)果可以一起加入之后的數(shù)據(jù)分析步驟。

3.3)將數(shù)據(jù)處理和挖掘的數(shù)值化的檢測結(jié)果分別加入醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣；

上述步驟中，將取得的患兒信息以及一部分檢測項(xiàng)目結(jié)果按照橫向?yàn)椴煌瑱z測項(xiàng)目及信息種類，縱向?yàn)椴煌琧ap患兒的規(guī)則，排列生成一個(gè)醫(yī)療數(shù)據(jù)特征矩陣；若同一檢測項(xiàng)目，同一患兒有多條信息，則求取平均值；若某一項(xiàng)目某患兒沒有檢測結(jié)果，則以0代替，即可以得到醫(yī)療數(shù)據(jù)特征矩陣。按照同樣的規(guī)則，對(duì)確定為特權(quán)信息的患兒檢測項(xiàng)目結(jié)果進(jìn)行同樣的操作，可以得到特權(quán)信息矩陣。

本發(fā)明所述的第四步中，是建立基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎分析模型，開展對(duì)病原的早期分析診斷，從而輔助支持醫(yī)生的早期診斷和治療。

主要步驟是：第一，基于機(jī)器學(xué)習(xí)中采用特權(quán)信息的svm+算法，利用在第三步中生成的醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣，利用采用特權(quán)信息的svm+算法進(jìn)行訓(xùn)練，建立基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎的數(shù)據(jù)系統(tǒng)分析模型；第二，將待診斷新的cap患兒信息數(shù)據(jù)與其早期的檢測項(xiàng)目數(shù)據(jù)等構(gòu)成醫(yī)療數(shù)據(jù)特征矩陣向量，進(jìn)入已完成訓(xùn)練的基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的兒童社區(qū)獲得性肺炎早期病原診斷的分析模型，進(jìn)行醫(yī)療數(shù)據(jù)特征向量生成操作，得到對(duì)病原分析的判斷。這一發(fā)明對(duì)輔助臨床醫(yī)生在第一時(shí)間快速準(zhǔn)確進(jìn)行兒童社區(qū)獲得性肺炎早期診斷和治療具有重要意義。

所述svm+模型算法的目的，是將種類數(shù)量較多的兒童cap住院治療全程的檢測數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，與兒童cap早期診斷時(shí)獲得的較少的數(shù)據(jù)化驗(yàn)作為測試數(shù)據(jù)，這不對(duì)稱的訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)作為機(jī)器學(xué)習(xí)的輸入，得到病原分析的模型，為此，采用將兒童cap住院治療全程的檢測數(shù)據(jù)中難以在早期診斷中獲得的部分作為特權(quán)信息的模式。

所述svm(支持向量機(jī))模型是90年代中期發(fā)展起來的基于統(tǒng)計(jì)學(xué)習(xí)理論的一種機(jī)器學(xué)習(xí)方法，通過尋求結(jié)構(gòu)化風(fēng)險(xiǎn)最小來提高學(xué)習(xí)機(jī)泛化能力，實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化，從而達(dá)到在統(tǒng)計(jì)樣本量較少的情況下，亦能獲得良好統(tǒng)計(jì)規(guī)律的目的。svm理念為選擇一個(gè)超平面將所有樣本分為兩類，使其兩分類之間間隔盡量大，即支持向量的最大化。定義這個(gè)超平面為(w,b)。給定一個(gè)樣本數(shù)量為n的數(shù)據(jù)集{t|(xi,yi),yi＝±1,i＝1,…n,}，則兩分類的間隔可表示為

得到svm模型的目標(biāo)函數(shù)：

由于超平面參數(shù)w,b可以按比例擴(kuò)大，并不影響優(yōu)化問題的解，所以限定γ||w||＝1，則目標(biāo)函數(shù)可以轉(zhuǎn)化為

s.tyi(w·xi+b)≥1,i＝1,…,n

為了使模型轉(zhuǎn)化為凸二次規(guī)劃問題，轉(zhuǎn)化優(yōu)化問題到等價(jià)問題

s.tyi(w·xi+b)≥1,i＝1,…,n

為了將svm模型擴(kuò)展至線性不可分的情況，對(duì)于原優(yōu)化問題約束條件加入了松弛變量ξ，優(yōu)化目標(biāo)函數(shù)變?yōu)?/p>

根據(jù)拉格朗日對(duì)偶方法，我們可以得到

s.t.0≤αi≤ci＝1,2.…,n

其中α為拉格朗日系數(shù)，是一個(gè)n維的向量。

使優(yōu)化函數(shù)偏導(dǎo)為0，可以得到：

0≤αi≤c

進(jìn)行推導(dǎo)后得到

求解α的最優(yōu)值α'后，可以通過決策函數(shù)預(yù)測測試樣本的類別。

所述svm+模型，即在原本svm的模型的基礎(chǔ)上加入了特權(quán)信息的部分，以方便下一步新的待診斷患兒。svm+模型所提出的方法，模仿了svm模型中松弛變量的概念，將特權(quán)信息作為一種對(duì)分類結(jié)果的軟間隔加入模型中，得到的svm+模型。

假設(shè)樣本數(shù)量為n的數(shù)據(jù)集原svm模型中的松弛變量與特權(quán)信息關(guān)系為則svm模型目標(biāo)函數(shù)可以演化為

其中部分即為特權(quán)信息所構(gòu)成的松弛向量軟間隔，c為軟間隔的懲罰參數(shù)，γ為特權(quán)信息的懲罰參數(shù)

同樣通過加入核技巧k(xi,xj)以及通過拉格朗日對(duì)偶方法，我們可以得到svm+模型的優(yōu)化函數(shù)

其中α,β為拉格朗日系數(shù)，均為n維的向量。

求解α,β的最優(yōu)值α',β'后，同樣可以通過決策函數(shù)

預(yù)測測試樣本的類別。

根據(jù)拉格朗日對(duì)偶方法求導(dǎo)之后，我們可以得到

其中α,β為拉格朗日系數(shù)，均為n維的向量。

求解α,β的最優(yōu)值α',β'后，同樣可以通過決策函數(shù)

預(yù)測測試樣本的類別。

具體實(shí)施例

本發(fā)明在本實(shí)施例中的具體實(shí)施過程如下所示：

步驟1：建立檢測項(xiàng)目與結(jié)果數(shù)據(jù)庫，包括檢測的化驗(yàn)大類名稱、檢測項(xiàng)目名稱、檢測結(jié)果、檢測時(shí)間(檢測報(bào)告時(shí)間、患兒入院時(shí)間)，對(duì)所有數(shù)據(jù)條目進(jìn)行篩選，去除其中信息不全、或者結(jié)果無法量化的條目；

步驟2：為經(jīng)過篩選的cap患兒建立患兒數(shù)據(jù)庫，包括患兒編號(hào)、年齡、性別、出生日期、入院時(shí)間、參與檢測的項(xiàng)目結(jié)果在數(shù)據(jù)庫中的記錄位置；

2.1，根據(jù)影像學(xué)二次診斷資料確認(rèn)患兒為cap確診患兒；

2.2，根據(jù)指標(biāo)性檢測項(xiàng)目結(jié)果(如病毒pcr檢測)與后期整理診斷資料(如出院小結(jié)等)確認(rèn)患兒有確定的被檢測出cap感染病原；

2.3，在檢測項(xiàng)目與結(jié)果數(shù)據(jù)庫中查找患兒的檢測項(xiàng)目數(shù)據(jù)記錄，對(duì)屬于該患兒的醫(yī)療檢測數(shù)據(jù)數(shù)量進(jìn)行統(tǒng)計(jì)，確?；純河凶銐虻臋z測項(xiàng)目資料；

2.4，最終記錄下通過以上步驟篩選的患兒資料；

步驟3：對(duì)所有患兒數(shù)據(jù)庫中的患兒醫(yī)療檢測信息進(jìn)行統(tǒng)計(jì)，獲取檢測種類，每種檢測次數(shù)，檢測結(jié)果平均時(shí)間等信息；

3.1，綜合所有患兒數(shù)據(jù)庫檢測項(xiàng)目條目，建立檢測項(xiàng)目數(shù)據(jù)庫，包括檢測項(xiàng)目名稱，檢測項(xiàng)目所屬化驗(yàn)大類，檢測項(xiàng)目檢測人次，參與檢測項(xiàng)目患兒編號(hào)；

3.2，根據(jù)檢測項(xiàng)目數(shù)據(jù)庫中每一個(gè)項(xiàng)目，參與檢測項(xiàng)目人數(shù)占總患兒數(shù)比值，檢測項(xiàng)目平均檢測時(shí)間；

步驟4：篩選出適合的作為醫(yī)療數(shù)據(jù)特征的檢測項(xiàng)目以及適合作為特權(quán)信息的檢測項(xiàng)目；

4.1，針對(duì)每一個(gè)檢測項(xiàng)目數(shù)據(jù)庫中的項(xiàng)目，若參與檢測項(xiàng)目人數(shù)占總患兒數(shù)比值高于30％，則該檢測項(xiàng)目適合作為醫(yī)療數(shù)據(jù)特征；

4.2，若該檢測項(xiàng)目屬于醫(yī)學(xué)指導(dǎo)中的病原指標(biāo)性檢測項(xiàng)目(如病毒pcr檢測)，則檢測項(xiàng)目不作為醫(yī)療數(shù)據(jù)特征而作為特權(quán)信息；

4.3，若該檢測項(xiàng)目平均檢測時(shí)間大于72小時(shí)，則檢測項(xiàng)目不作為醫(yī)療特征數(shù)據(jù)而作為特權(quán)信息；

步驟5，將檢測項(xiàng)目結(jié)果轉(zhuǎn)化為數(shù)值并統(tǒng)一數(shù)值范圍，進(jìn)行數(shù)據(jù)處理和挖掘；

5.1，判斷該檢測項(xiàng)目結(jié)果是否屬于連續(xù)數(shù)值，如果是，則對(duì)所有該項(xiàng)目檢測結(jié)果進(jìn)行歸一化計(jì)算；

5.2，判斷該檢測項(xiàng)目結(jié)果不屬于連續(xù)數(shù)值，根據(jù)之前所述轉(zhuǎn)化規(guī)則，通過其他結(jié)果與數(shù)字之間映射關(guān)系，得到對(duì)應(yīng)的數(shù)字結(jié)果；

步驟6，將檢測結(jié)果數(shù)值與患兒信息生成醫(yī)療數(shù)據(jù)特征矩陣以及特權(quán)信息矩陣；

6.1，將不同患兒作為縱軸，患兒信息項(xiàng)目(性別、年齡、入院時(shí)間等)以及不同檢測項(xiàng)目作為橫軸生成醫(yī)療數(shù)據(jù)特征矩陣；

6.2，將不同患兒作為縱軸，屬于特權(quán)信息的不同檢測項(xiàng)目作為橫軸生成特權(quán)信息矩陣；

6.3，若某一檢測項(xiàng)目，同一個(gè)患兒有多次結(jié)果的情況，則計(jì)算所有結(jié)果均值記入醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣；

6.4，若某一患兒沒有做該項(xiàng)目檢測，則以0記入醫(yī)療數(shù)據(jù)特征矩陣與特權(quán)信息矩陣；

步驟7，根據(jù)患兒數(shù)據(jù)庫，按照不同患兒為縱軸，不同病原為橫軸，生成患兒病原標(biāo)簽矩陣，其中該患兒確定為該病原記錄為1，不確定該病原則記錄為-1；

步驟8，針對(duì)每一種病原，將醫(yī)療數(shù)據(jù)特征矩陣、特權(quán)信息矩陣，對(duì)應(yīng)的一列病原標(biāo)簽矩陣，作多個(gè)訓(xùn)練集；

步驟9，將每一個(gè)訓(xùn)練集輸入svm+模型，求解其優(yōu)化向量，形成基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的決策函數(shù)——即機(jī)器學(xué)習(xí)模型；

步驟10，對(duì)新的待診斷cap患兒收集數(shù)據(jù)，處理為新的測試醫(yī)療特征向量；

10.1，收集新的患兒性別、年齡、入院時(shí)間等信息；

10.2，核對(duì)所有屬于醫(yī)療數(shù)據(jù)特征的檢測項(xiàng)目，若新的患兒進(jìn)行了該項(xiàng)檢測，則將檢測結(jié)果轉(zhuǎn)化為數(shù)值記錄；

10.3，將患兒信息項(xiàng)目(性別，年齡，入院時(shí)間等)以及不同檢測項(xiàng)目作為橫軸生成醫(yī)療數(shù)據(jù)特征向量；

步驟11，通過決策函數(shù)，計(jì)算每種病原對(duì)應(yīng)的svm+模型的分類結(jié)果，并將病原分析結(jié)果輸出，為醫(yī)生對(duì)患兒的早期病原診斷作為重要參考；

11.1，計(jì)算決策函數(shù)的值；

11.2，若決策函數(shù)的值為1，則判斷患兒有該病原感染，若決策函數(shù)值為-1，則判斷該患兒沒有次病原感染；

11.3，若患兒有多個(gè)病原感染則判斷患兒為混合感染，若患兒沒有成功判別出任何病原，則需要加入更多醫(yī)療檢測項(xiàng)目重新計(jì)算。

以上所述，僅為本發(fā)明的具體實(shí)施方式，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到各種等效的修改或替換，這些修改或替換都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邵欣蔚;金博;舒林華;查宏遠(yuǎn);于廣軍
技術(shù)所有人：華東師范大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于特權(quán)信息學(xué)習(xí)支持向量機(jī)的CAP數(shù)據(jù)系統(tǒng)及方法與流程