一種基于醫(yī)療體檢數(shù)據(jù)的糖尿病預(yù)測方法與流程

文檔序號：11919920閱讀：1050來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于大數(shù)據(jù)醫(yī)療領(lǐng)域，具體涉及一種醫(yī)療體檢數(shù)據(jù)的糖尿病預(yù)測方法。

背景技術(shù)：

隨著人們生活水平的提高、保健意識的增強，健康體檢逐漸成為一種社會時尚，人們已經(jīng)改變了只有在得病時才去醫(yī)院的傳統(tǒng)觀念，定期體檢已經(jīng)被大多數(shù)人所接受。因此，醫(yī)院積累了海量的電子體檢數(shù)據(jù)，使大數(shù)據(jù)有了用武之地。

大數(shù)據(jù)醫(yī)療是當(dāng)前的一個熱點，是指通過大數(shù)據(jù)相關(guān)技術(shù)，分析醫(yī)療領(lǐng)域的數(shù)據(jù)并挖掘其中的知識從而大幅度提高醫(yī)療服務(wù)。在過去的幾十年中，大數(shù)據(jù)已經(jīng)深深地影響了每一個企業(yè)，包括醫(yī)療保健行業(yè)。如今，大量的數(shù)據(jù)可以讓醫(yī)療保健更加高效，更加個性化。

今年，世界衛(wèi)生組織(WHO)發(fā)出警告，我國約有1.1億名糖尿病患者，約占中國成年人總數(shù)的1/10。若不盡快采取行動，減少不健康飲食和缺乏運動等生活方式中的危險因素，預(yù)計該數(shù)字將在2040年增至1.5億人，給民眾健康和社會經(jīng)濟帶來嚴(yán)重影響。糖尿病除了對患者及其家人朋友造成身心的傷害，也帶來巨大的經(jīng)濟損失。我國每年投入近1734億人民幣(250億美元)用于糖尿病管理；用于糖尿病的直接醫(yī)療支出占中國醫(yī)療支出的13％。這些數(shù)據(jù)還未包括糖尿病相關(guān)疾病給患者家庭和公司帶來的經(jīng)濟損失。將大數(shù)據(jù)引入糖尿病醫(yī)療領(lǐng)域，不但能減小醫(yī)生壓力，還能讓病人平時過得更舒服。

技術(shù)實現(xiàn)要素：

鑒于上述，本發(fā)明提供了一種基于醫(yī)療體檢數(shù)據(jù)的糖尿病預(yù)測方法，該方法是通過分析體檢數(shù)據(jù)中病人的各項數(shù)據(jù)指標(biāo)和醫(yī)生對病人體檢數(shù)據(jù)的診斷，建立體檢數(shù)據(jù)和體檢診斷之間的關(guān)聯(lián)，預(yù)測病人是否可能患糖尿病，從而輔助醫(yī)生進行更好的判斷，令病人更好的了解自身患病的風(fēng)險。

一種基于醫(yī)療體檢數(shù)據(jù)的糖尿病預(yù)測方法，包括以下步驟：

(1)對每個用戶的體檢數(shù)據(jù)進行處理，得到完整的體檢數(shù)據(jù)；

(2)將完整的患糖尿病的體檢數(shù)據(jù)作為正訓(xùn)練樣本，將完整的未患糖尿病的體檢數(shù)據(jù)作為負訓(xùn)練樣本；采用GBDT+LR模型進行訓(xùn)練，并根據(jù)模型的效果進行模型調(diào)整融合，得到最終預(yù)測模型；

(3)將處理后的新用戶的體檢數(shù)據(jù)作為預(yù)測樣本輸入到最終預(yù)測模型，得到新用戶的患糖尿病概率。

步驟1的具體步驟為：

(1-1)對每個用戶的體檢數(shù)據(jù)進行預(yù)處理，得到同一格式的體檢數(shù)據(jù)；

(1-2)對同一格式的體檢數(shù)據(jù)進行均衡化，得到均衡化的體檢數(shù)據(jù)；

(1-3)對均衡化的體檢數(shù)據(jù)進行數(shù)據(jù)缺失值填充，得到完整的體檢數(shù)據(jù)。

在步驟(1-1)中，進行體檢數(shù)據(jù)預(yù)處理的過程為：首先，對體檢數(shù)據(jù)中原生的診斷結(jié)果、體檢項目名稱以及體檢項目結(jié)果，采用自然語言處理方法進行分析，得到分析結(jié)果；然后，對分析結(jié)果進一步地清洗和標(biāo)準(zhǔn)化，轉(zhuǎn)換為同一格式的體檢數(shù)據(jù)，使更多資料可用。

在步驟(1-2)中，由于在體檢數(shù)據(jù)中，患糖尿病的用戶只占據(jù)其中的一部分，因此，通過擴大患糖尿病的體檢數(shù)據(jù)(小樣本)，縮小未患糖尿病的體檢數(shù)據(jù)(大樣本)的方法，得到數(shù)量相等的正負例訓(xùn)練樣本，以達到正負例樣本的均衡化，便于后續(xù)的模型使用。

數(shù)據(jù)樣本均衡化：在分類問題中，經(jīng)常會遇到正負例樣本數(shù)據(jù)量不等的情況，比如正例樣本為10w條數(shù)據(jù)，負例樣本只有1w條數(shù)據(jù)，此時需要進行樣本的均衡化，使得正負例樣本達到平衡。

對體檢數(shù)據(jù)進行均衡化的方法有三種，分別為：

(a)重采樣法：通過重復(fù)采樣患糖尿病的體檢數(shù)據(jù)以擴大患糖尿病的體檢數(shù)據(jù)的數(shù)量；以達到正負例訓(xùn)練樣本的均衡。

(b)欠采樣法：通過少量采樣未患糖尿病的體檢數(shù)據(jù)以縮小未患糖尿病的體檢數(shù)據(jù)的數(shù)量，以達到正負例訓(xùn)練樣本的均衡。

(c)權(quán)值調(diào)整法：通過改變患糖尿病的體檢數(shù)據(jù)與未患糖尿病的體檢數(shù)據(jù)的權(quán)值比例以使得正負例訓(xùn)練樣本的總權(quán)值一致，以達到正負例訓(xùn)練樣本的均衡。

作為優(yōu)選，采用重采樣法與欠采樣法結(jié)合的方式，即隨機采樣正例患糖尿病的體檢數(shù)據(jù)，并排序抽取缺失數(shù)據(jù)較少的負例未患糖尿病的體檢數(shù)據(jù)。這樣既擴大了正例樣本數(shù)據(jù)量，又篩選了較差的負例樣本。

在步驟(1-3)中，數(shù)據(jù)值缺失是指在數(shù)據(jù)獲取過程中因為自然原因和人為原因?qū)е聰?shù)據(jù)不完整，體檢數(shù)據(jù)中同樣也存在數(shù)據(jù)值缺失的情形，因此，需要對體檢數(shù)據(jù)進行缺失值填充。進行缺失值填充的方法包括三種，分別為：

(a)直接刪除法：直接刪除有缺失數(shù)據(jù)的體檢數(shù)據(jù)。

(b)計算樣本數(shù)據(jù)填充法：通過計算體檢數(shù)據(jù)的中位數(shù)、眾數(shù)、平均數(shù)以及隨機分布值等，填充體檢數(shù)據(jù)中的缺失值。

(c)綜合整個樣本數(shù)據(jù)填充法：找到最相似的體檢數(shù)據(jù)，利用其進行體檢數(shù)據(jù)的缺失值填充，或?qū)⑷笔卣髦涤成涓呔S空間。

作為優(yōu)選，本發(fā)明采用綜合整個樣本數(shù)據(jù)填充法進行數(shù)據(jù)缺失值填充，具體為：采用K最近鄰(k-Nearest Neighbor,kNN)算法對體檢數(shù)據(jù)缺失值進行預(yù)測，利用用戶自身其他特征尋找最相似的k個用戶，綜合k個用戶的相似性加權(quán)平均值進行體檢數(shù)據(jù)的缺失值填充，k為用戶的個數(shù)。

在步驟(2)中，采用GBDT(Gradient Boosting Decision Tree)與LR(Logistic Regression)模型進行訓(xùn)練，并根據(jù)模型的效果進行模型調(diào)整融合，得到最終的模型。

在步驟(3)中，首先，采用步驟(1-1)～步驟(1-3)對每個新用戶的體檢數(shù)據(jù)進行處理，然后，將處理后的新用戶的體檢數(shù)據(jù)作為預(yù)測樣本輸入到最終預(yù)測模型，得到新用戶的患糖尿病概率。

本發(fā)明基于醫(yī)療體檢數(shù)據(jù)的糖尿病預(yù)測方法是通過分析用戶的體檢數(shù)據(jù)，利用大數(shù)據(jù)分析的手段，判斷用戶的患糖尿病病風(fēng)險。從而促進各類糖尿病醫(yī)療應(yīng)用的發(fā)展，不僅為醫(yī)生的快速判斷提供輔助依據(jù)，同時使病人對自身的潛在隱患有更直觀的了解，具有的優(yōu)點如下：

(1)對醫(yī)療體檢數(shù)據(jù)進行預(yù)處理，將更多可用的體檢數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)數(shù)據(jù)，不僅增多了訓(xùn)練樣本，也能為更加復(fù)雜的體檢數(shù)據(jù)提供預(yù)測服務(wù)。

(2)結(jié)合體檢數(shù)據(jù)的特殊性，在擴大最終樣本數(shù)量的同時，對低質(zhì)量的樣本進行了篩選。

(3)使用了KNN算法填充缺失數(shù)值，并局部調(diào)整優(yōu)化，既可以利用已有數(shù)據(jù)進行推測，又不耗費過多計算資源。

(4)采用了GBDT+LR模型，既節(jié)省了人工處理分析特征的環(huán)節(jié)，又增強了非線性預(yù)測能力。

附圖說明

圖1為本發(fā)明基于醫(yī)療體檢數(shù)據(jù)的糖尿病預(yù)測方法的結(jié)構(gòu)圖；

圖2為醫(yī)療體檢數(shù)據(jù)的診斷結(jié)果清洗與標(biāo)準(zhǔn)化示意圖；

圖3為醫(yī)療體檢數(shù)據(jù)的體檢項目名稱和結(jié)果清洗與標(biāo)準(zhǔn)化示意圖；

圖4為正負例糖尿病體檢者數(shù)據(jù)均衡化示意圖；

圖5為數(shù)據(jù)缺失值填充方法分析圖；

圖6為部分體檢數(shù)據(jù)糖尿病預(yù)測結(jié)果圖。

具體實施方式

為了更為具體地描述本發(fā)明，下面結(jié)合附圖及具體實施方式對本發(fā)明的技術(shù)方案進行詳細說明。

如圖1所示，本發(fā)明基于醫(yī)療體檢數(shù)據(jù)的糖尿病預(yù)測方法的具體步驟如下：

步驟1，數(shù)據(jù)預(yù)處理：對每個用戶的體檢數(shù)據(jù)進行預(yù)處理，得到同一格式的體檢數(shù)據(jù)。

如圖2所示，對于原生的醫(yī)生診斷數(shù)據(jù)，由于出自不同醫(yī)生和具體的不同場景，產(chǎn)生的診斷結(jié)果是復(fù)雜的，不能直接使用。例如所需要判斷的糖尿病診斷中有糖尿病、糖尿病性視網(wǎng)膜病變、高度糖尿病發(fā)病風(fēng)險等，需要經(jīng)過數(shù)據(jù)清洗和標(biāo)準(zhǔn)化才能夠作為診斷的標(biāo)簽使用。經(jīng)過自然語言處理后，首先獲取所有和糖尿病有關(guān)的診斷詞，經(jīng)過人工評判和相關(guān)醫(yī)學(xué)知識的輔助，最終分成三個標(biāo)簽：糖尿病，疑似糖尿病，非糖尿病。同時，還有相關(guān)體檢項目名稱也需要進行清洗和標(biāo)準(zhǔn)化，如圖3所示。比如說糖化血紅蛋白項目，可能有糖化血紅蛋白A1、糖化血紅蛋白A1(HbA1)、糖化血紅蛋白、A1(HbA1)等，它們都是指代同一個體檢項目，只是在不同體檢套餐中有不同的名稱。除了體檢項目名稱，還有體檢項目結(jié)果也需要進行清洗標(biāo)準(zhǔn)化，例如：結(jié)果可能為拒檢、拒測、未檢、21、88cm、左手：135右手：129、76未、++32等，這些數(shù)據(jù)都會在清洗和標(biāo)準(zhǔn)化后有統(tǒng)一的數(shù)據(jù)格式和單位。

步驟2，數(shù)據(jù)樣本均衡化：對同一格式的體檢數(shù)據(jù)進行均衡化，得到均衡化的體檢數(shù)據(jù)。

如圖4，在數(shù)據(jù)標(biāo)準(zhǔn)化之后，可以獲取到一定數(shù)量的樣本數(shù)據(jù)，此事往往存在的問題是，正負例樣本不均衡，因為患糖尿病的用戶在所有的體檢用戶中只是占據(jù)了一個部分。為均衡化正負例樣本數(shù)據(jù)，本實施例采用的是隨機采樣正例患糖尿病用戶的數(shù)據(jù)，并排序抽取缺失數(shù)據(jù)較少的負例樣本數(shù)據(jù)。這樣既擴大了正例樣本數(shù)據(jù)量，又篩選了較差的負例樣本。

步驟3，缺失值填充：對均衡化的體檢數(shù)據(jù)進行數(shù)據(jù)缺失值填充，得到完整的體檢數(shù)據(jù)。

在均衡化的數(shù)據(jù)中，仍然存在許多數(shù)據(jù)缺失值，需要進行填充，如圖5。本實施例中選擇采用其他特征對缺失值進行預(yù)測。對于簡單計算數(shù)據(jù)的中值、均值等進行填充的方法，存在隨機性較大，會人為增加噪音的問題，會降低數(shù)據(jù)的準(zhǔn)確性。而對于把缺失特征值映射到高維空間的方法，則會增加計算量，需要較大的資源。選擇的采用其他特征對缺失值進行預(yù)測的方法，主要需要依賴其他變量的相關(guān)性，對于體檢數(shù)據(jù)而言較為適合。具體采用KNN算法計算該數(shù)據(jù)最相似的k條記錄，根據(jù)其相似性加權(quán)平均獲得最終的填充值。也就是利用用戶自身其他特征尋找最相似的k個用戶，并綜合k個用戶的值進行體檢數(shù)據(jù)的缺失值填充。

步驟4，模型訓(xùn)練：將完整的患糖尿病的體檢數(shù)據(jù)作為正訓(xùn)練樣本，將完整的未患糖尿病的體檢數(shù)據(jù)作為負訓(xùn)練樣本；采用GBDT+LR模型進行訓(xùn)練，并根據(jù)模型的效果進行模型調(diào)整融合，得到最終預(yù)測模型。

GBDT又叫MART(Multiple Additive Regression Tree)，是一種常用的非線性模型，它基于集成學(xué)習(xí)中的boosting思想，每次迭代都在減少殘差的梯度方向新建立一顆決策樹，迭代多少次就會生成多少顆決策樹。GBDT的思想使其具有天然優(yōu)勢可以發(fā)現(xiàn)多種有區(qū)分性的特征以及特征組合，決策樹的路徑可以直接作為LR輸入特征使用，省去了人工尋找特征、特征組合的步驟。LR是一種線性擬合模型，可以利用Logistic函數(shù)(或稱為Sigmoid函數(shù))變成分類器。

步驟5，模型預(yù)測：將處理后的新用戶的體檢數(shù)據(jù)作為預(yù)測樣本輸入到最終預(yù)測模型，得到新用戶的患糖尿病概率。

獲取到模型結(jié)果后，對于每一個新的用戶體檢數(shù)據(jù)，只需要自動化上述流程即可得到他的患糖尿病概率。如圖6所示的是部分體檢數(shù)據(jù)糖尿病預(yù)測結(jié)果圖，分析從圖6可得：利用該方法進行預(yù)測得到的糖尿病預(yù)測準(zhǔn)確率很好。

以上所述的具體實施方式對本發(fā)明的技術(shù)方案和有益效果進行了詳細說明，應(yīng)理解的是以上所述僅為本發(fā)明的最優(yōu)選實施例，并不用于限制本發(fā)明，凡在本發(fā)明的原則范圍內(nèi)所做的任何修改、補充和等同替換等，均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳健;周立水;顧盼;邱奇波;鄧水光;李瑩;尹建偉;吳朝暉
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

中醫(yī)防治糖尿病相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于醫(yī)療體檢數(shù)據(jù)的糖尿病預(yù)測方法與流程