亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種數(shù)據(jù)特征選擇和預(yù)測(cè)方法及裝置與流程

文檔序號(hào):12467082閱讀:197來(lái)源:國(guó)知局
本發(fā)明涉及機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域,主要是機(jī)器學(xué)習(xí)中的特征選擇方法,并結(jié)合梯度迭代決策樹(shù)和支持向量機(jī)模型,進(jìn)行數(shù)據(jù)特征選擇和預(yù)測(cè)的方法及裝置。
背景技術(shù)
:隨著計(jì)算機(jī)技術(shù)的發(fā)展,目前計(jì)算機(jī)已經(jīng)可以處理各種不同的數(shù)據(jù),幫助人們更加高效的完成任務(wù)。尤其在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)作為一項(xiàng)核心技術(shù)已經(jīng)被廣泛應(yīng)用到了很多具體問(wèn)題中去。支持向量機(jī)(SVM)是機(jī)器學(xué)習(xí)經(jīng)典的模型之一,它很高效同時(shí)還能獲得很好的預(yù)測(cè)結(jié)果。梯度迭代決策樹(shù)(GBDT)是當(dāng)前業(yè)界近年非常熱門的機(jī)器學(xué)習(xí)方法,它源自經(jīng)典的決策樹(shù)(DecisionTree)模型。近年來(lái),移動(dòng)醫(yī)療是近年來(lái)全球的一個(gè)市場(chǎng)熱點(diǎn),跨界融合是其基本特征,大數(shù)據(jù)的分析、預(yù)測(cè)和應(yīng)用更是前景無(wú)限。技術(shù)實(shí)現(xiàn)要素:基于上述問(wèn)題,本發(fā)明開(kāi)發(fā)建立有關(guān)用戶血壓數(shù)據(jù)序列的篩選模型,力爭(zhēng)為個(gè)性化用戶提供最優(yōu)化策略和直觀量化引導(dǎo),協(xié)助實(shí)現(xiàn)最大效果的干預(yù)措施,為用戶提供個(gè)性化的特征篩選服務(wù)。根據(jù)本發(fā)明一方面,提供了一種數(shù)據(jù)特征選擇和預(yù)測(cè)方法,該方法包括步驟:步驟S1、采集用戶信息和對(duì)應(yīng)的血壓觀測(cè)數(shù)據(jù),形成數(shù)據(jù)集,并從所述數(shù)據(jù)集中剔除異常值點(diǎn);步驟S2、從所述數(shù)據(jù)集中的用戶信息中提取用戶特征;步驟S3、從所述數(shù)據(jù)集中的血壓觀測(cè)數(shù)據(jù)提取血壓特征;步驟S4、將所提取的用戶特征和血壓特征進(jìn)行歸一化處理,處理結(jié)果作為訓(xùn)練樣本形成訓(xùn)練集,利用所述訓(xùn)練集中的訓(xùn)練樣本輸入至支持向量機(jī)模型和/或梯度迭代決策樹(shù)模型之中,訓(xùn)練得到預(yù)測(cè)模型。其中,所述用戶特征包括用戶的年齡、性別和身體質(zhì)量指數(shù);所述血壓特征包括高壓、低壓、心率和服藥情況。其中,步驟S3中所述血壓特征的提取包括:提取不同預(yù)測(cè)任務(wù)下的血壓特征;所述不同預(yù)測(cè)任務(wù)包括長(zhǎng)周期、短周期、粗粒度和細(xì)粒度預(yù)測(cè)任務(wù)。其中,步驟S4中所述利用所述訓(xùn)練集中的訓(xùn)練樣本輸入至支持向量機(jī)和/或梯度迭代決策樹(shù)模型之中,訓(xùn)練得到預(yù)測(cè)模型,包括:從所述訓(xùn)練集中提取同一用戶的用戶特征、單月的血壓特征的平均值、半月的血壓特征的平均值和第一預(yù)定采集時(shí)間內(nèi)的血壓特征的平均值,輸入至支持向量機(jī)模型中,所述支持向量機(jī)模型采用回歸模型,所述回歸模型的核函數(shù)采用線性核;將所述支持向量機(jī)模型的輸出與所述訓(xùn)練集中同一用戶在第二預(yù)定采集時(shí)間內(nèi)的血壓特征進(jìn)行比較,進(jìn)而更新所述支持向量機(jī)模型的參數(shù);所述第二預(yù)定采集時(shí)間晚于所述第一預(yù)定采集時(shí)間;迭代執(zhí)行上述步驟,直至所述支持向量機(jī)模型的參數(shù)收斂,得到第一預(yù)測(cè)模型。其中,步驟S4中所述利用所述訓(xùn)練集中的訓(xùn)練樣本輸入至支持向量機(jī)和/或梯度迭代決策樹(shù)模型之中,訓(xùn)練得到預(yù)測(cè)模型,包括:從所述訓(xùn)練集中提取同一用戶的用戶特征、單月的血壓特征的平均值、半月的血壓特征的平均值和第三預(yù)定采集時(shí)間內(nèi)的血壓特征的平均值,輸入至梯度迭代決策樹(shù)模型中,所述梯度迭代決策樹(shù)模型的損失函數(shù)采用為最小平方差函數(shù);將所述梯度迭代決策樹(shù)模型的輸出與所述訓(xùn)練集中同一用戶在第四預(yù)定采集時(shí)間內(nèi)的血壓特征進(jìn)行比較,進(jìn)而更新所述梯度迭代決策樹(shù)模型的參數(shù);所述第四預(yù)定采集時(shí)間晚于所述第三預(yù)定采集時(shí)間;迭代執(zhí)行上述步驟,直至所述梯度迭代決策樹(shù)的參數(shù)收斂,得到第二預(yù)測(cè)模型。其中,步驟S4中所述利用所述訓(xùn)練集中的訓(xùn)練樣本輸入至支持向量機(jī)和/或梯度迭代決策樹(shù)模型之中,訓(xùn)練得到預(yù)測(cè)模型,包括:從所述訓(xùn)練集中提取同一用戶的用戶特征、單月的血壓特征的平均值、半月的血壓特征的平均值和第一預(yù)定采集時(shí)間內(nèi)的血壓特征的平均值,輸入至支持向量機(jī)模型和中梯度迭代決策樹(shù)模型,所述支持向量機(jī)模型采用回歸模型,所述回歸模型的核函數(shù)采用線性核;所述梯度迭代決策樹(shù)模型的損失函數(shù)采用為最小平方差函數(shù);將所述支持向量機(jī)模型和所述梯度迭代決策樹(shù)模型的輸出分別與所述訓(xùn)練集中同一用戶在第二預(yù)定采集時(shí)間內(nèi)的血壓特征進(jìn)行比較,進(jìn)而分別更新所述支持向量機(jī)模型和所述梯度迭代決策樹(shù)模型的參數(shù);所述第二預(yù)定采集時(shí)間晚于所述第一預(yù)定采集時(shí)間;迭代執(zhí)行上述步驟,直至所述支持向量機(jī)模型和所述梯度迭代決策樹(shù)模型的參數(shù)收斂,得到第一預(yù)測(cè)模型。其中,步驟S1還包括從所述數(shù)據(jù)集中剔除異常值點(diǎn),包括:去除用戶的年齡不在預(yù)定年齡范圍內(nèi)的用戶信息和對(duì)應(yīng)的血壓數(shù)據(jù);去除用戶的身高不在預(yù)定身高范圍內(nèi)的用戶信息和對(duì)應(yīng)的血壓數(shù)據(jù);去除用戶的體重不在預(yù)定體重范圍內(nèi)的用戶信息和對(duì)應(yīng)的血壓數(shù)據(jù);去除用戶的血壓值不在預(yù)定血壓范圍內(nèi)的用戶信息和對(duì)應(yīng)的血壓數(shù)據(jù);去除用戶的心率不在預(yù)定心率范圍內(nèi)的用戶信息和對(duì)應(yīng)的血壓數(shù)據(jù)。根據(jù)本發(fā)明第二方面,提供了一種數(shù)據(jù)特征選擇和預(yù)測(cè)裝置,包括:采集模塊,用于采集用戶信息和對(duì)應(yīng)的血壓觀測(cè)數(shù)據(jù),形成數(shù)據(jù)集,并從所述數(shù)據(jù)集中剔除異常值點(diǎn);用戶特征提取模塊,用于從所述數(shù)據(jù)集中的用戶信息中提取用戶特征;血壓特征提取模塊,用于從所述數(shù)據(jù)集中的血壓觀測(cè)數(shù)據(jù)提取血壓特征;訓(xùn)練模塊,用于將所提取的用戶特征和血壓特征進(jìn)行歸一化處理,處理結(jié)果作為訓(xùn)練樣本形成訓(xùn)練集,利用所述訓(xùn)練集中的訓(xùn)練樣本輸入至支持向量機(jī)模型和/或梯度迭代決策樹(shù)模型之中,訓(xùn)練得到預(yù)測(cè)模型。其中,血壓特征提取模塊包括:血壓特征提取子模塊,用于提取不同預(yù)測(cè)任務(wù)下的血壓特征;所述不同預(yù)測(cè)任務(wù)包括長(zhǎng)周期、短周期、粗粒度和細(xì)粒度預(yù)測(cè)任務(wù)。本發(fā)明利用醫(yī)學(xué)知識(shí)指導(dǎo)數(shù)據(jù)的清洗和特征工程選取工作,有效提升模型的準(zhǔn)確性。附圖說(shuō)明圖1是本發(fā)明提出的數(shù)據(jù)特征選擇和預(yù)測(cè)方法的流程圖。具體實(shí)施方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。如圖1所示,本發(fā)明提出了一種數(shù)據(jù)特征選擇和預(yù)測(cè)方法,該方法包括步驟:步驟S1、采集用戶信息和對(duì)應(yīng)的血壓觀測(cè)數(shù)據(jù),形成數(shù)據(jù)集,并從所述數(shù)據(jù)集中剔除異常值點(diǎn);步驟S2、從所述數(shù)據(jù)集中的用戶信息中提取用戶特征;步驟S3、從所述數(shù)據(jù)集中的血壓觀測(cè)數(shù)據(jù)提取血壓特征;步驟S4、將所提取的用戶特征和血壓特征進(jìn)行歸一化處理,處理結(jié)果作為訓(xùn)練樣本形成訓(xùn)練集,利用所述訓(xùn)練集中的訓(xùn)練樣本輸入至支持向量機(jī)模型和/或梯度迭代決策樹(shù)模型之中,訓(xùn)練得到預(yù)測(cè)模型。在一實(shí)施例中,所述用戶特征包括用戶的年齡、性別和身體質(zhì)量指數(shù);所述血壓特征包括高壓、低壓、心率。步驟S3中所述血壓特征的提取包括:提取不同預(yù)測(cè)任務(wù)下的血壓特征;所述不同預(yù)測(cè)任務(wù)包括長(zhǎng)周期、短周期、粗粒度和細(xì)粒度預(yù)測(cè)任務(wù)。在一實(shí)施例中,本發(fā)明可以同時(shí)訓(xùn)練SVM模型和GBDT模型,并同時(shí)利用上述兩個(gè)模型對(duì)用戶血壓進(jìn)行預(yù)測(cè);在另一實(shí)施例中,還可以單獨(dú)訓(xùn)練SVM模型或GBDT模型,并利用訓(xùn)練好的SVM模型或GBDT模型進(jìn)行預(yù)測(cè)。在一本實(shí)施例中,步驟S4中所述利用所述訓(xùn)練集中的訓(xùn)練樣本輸入至支持向量機(jī)和/或梯度迭代決策樹(shù)模型之中,訓(xùn)練得到預(yù)測(cè)模型,包括:從所述訓(xùn)練集中提取同一用戶的用戶特征、單月的血壓特征的平均值、半月的血壓特征的平均值和第一預(yù)定采集時(shí)間內(nèi)的血壓特征的平均值,輸入至支持向量機(jī)模型中,所述支持向量機(jī)模型采用回歸模型,所述回歸模型的核函數(shù)采用線性核;將所述支持向量機(jī)模型的輸出與所述訓(xùn)練集中同一用戶在第二預(yù)定采集時(shí)間內(nèi)的血壓特征進(jìn)行比較,進(jìn)而更新所述支持向量機(jī)模型的參數(shù);所述第二預(yù)定采集時(shí)間晚于所述第一預(yù)定采集時(shí)間;迭代執(zhí)行上述步驟,直至所述支持向量機(jī)模型的參數(shù)收斂,得到第一預(yù)測(cè)模型。在另一實(shí)施例中,步驟S4中所述利用所述訓(xùn)練集中的訓(xùn)練樣本輸入至支持向量機(jī)和/或梯度迭代決策樹(shù)模型之中,訓(xùn)練得到預(yù)測(cè)模型,包括:從所述訓(xùn)練集中提取同一用戶的用戶特征、單月的血壓特征的平均值、半月的血壓特征的平均值和第三預(yù)定采集時(shí)間內(nèi)的血壓特征的平均值,輸入至梯度迭代決策樹(shù)模型中,所述梯度迭代決策樹(shù)模型的損失函數(shù)采用為最小平方差函數(shù);將所述梯度迭代決策樹(shù)模型的輸出與所述訓(xùn)練集中同一用戶在第四預(yù)定采集時(shí)間內(nèi)的血壓特征進(jìn)行比較,進(jìn)而更新所述梯度迭代決策樹(shù)模型的參數(shù);所述第四預(yù)定采集時(shí)間晚于所述第三預(yù)定采集時(shí)間;迭代執(zhí)行上述步驟,直至所述梯度迭代決策樹(shù)的參數(shù)收斂,得到第二預(yù)測(cè)模型。在其他實(shí)施例中,步驟S4中所述利用所述訓(xùn)練集中的訓(xùn)練樣本輸入至支持向量機(jī)和/或梯度迭代決策樹(shù)模型之中,訓(xùn)練得到預(yù)測(cè)模型,包括:從所述訓(xùn)練集中提取同一用戶的用戶特征、單月的血壓特征的平均值、半月的血壓特征的平均值和第一預(yù)定采集時(shí)間內(nèi)的血壓特征的平均值,輸入至支持向量機(jī)模型和中梯度迭代決策樹(shù)模型,所述支持向量機(jī)模型采用回歸模型,所述回歸模型的核函數(shù)采用線性核;所述梯度迭代決策樹(shù)模型的損失函數(shù)采用為最小平方差函數(shù);將所述支持向量機(jī)模型和所述梯度迭代決策樹(shù)模型的輸出分別與所述訓(xùn)練集中同一用戶在第二預(yù)定采集時(shí)間內(nèi)的血壓特征進(jìn)行比較,進(jìn)而分別更新所述支持向量機(jī)模型和所述梯度迭代決策樹(shù)模型的參數(shù);所述第二預(yù)定采集時(shí)間晚于所述第一預(yù)定采集時(shí)間;迭代執(zhí)行上述步驟,直至所述支持向量機(jī)模型和所述梯度迭代決策樹(shù)模型的參數(shù)收斂,得到第一預(yù)測(cè)模型。在一實(shí)施例中,步驟S1還包括從所述數(shù)據(jù)集中剔除異常值點(diǎn),包括:去除用戶的年齡不在預(yù)定年齡范圍內(nèi)的用戶信息和對(duì)應(yīng)的血壓數(shù)據(jù);去除用戶的身高不在預(yù)定身高范圍內(nèi)的用戶信息和對(duì)應(yīng)的血壓數(shù)據(jù);去除用戶的體重不在預(yù)定體重范圍內(nèi)的用戶信息和對(duì)應(yīng)的血壓數(shù)據(jù);去除用戶的血壓值不在預(yù)定血壓范圍內(nèi)的用戶信息和對(duì)應(yīng)的血壓數(shù)據(jù);去除用戶的心率不在預(yù)定心率范圍內(nèi)的用戶信息和對(duì)應(yīng)的血壓數(shù)據(jù)。下面通過(guò)具體的實(shí)施例詳細(xì)介紹本發(fā)明的技術(shù)方案。在一實(shí)施例中,本發(fā)明提出了一種數(shù)據(jù)特征選擇和預(yù)測(cè)方法,其包括:步驟101,收集用戶個(gè)人信息數(shù)據(jù)和血壓觀測(cè)數(shù)據(jù),并將所收集的用戶個(gè)人信息和血壓觀測(cè)數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)之中,所述用戶個(gè)人數(shù)據(jù)包括用戶年齡、性別、身高、體重、身體質(zhì)量指數(shù)(BMI)、測(cè)量時(shí)間等;所述血壓觀測(cè)數(shù)據(jù)包括高壓、低壓、心率、服藥情況、測(cè)量月份信息等。清洗數(shù)據(jù),根據(jù)相關(guān)醫(yī)學(xué)知識(shí)對(duì)用戶個(gè)人信息數(shù)據(jù)和血壓觀測(cè)數(shù)據(jù),刪去異常值點(diǎn)(即異常的用戶個(gè)人信息數(shù)據(jù)和血壓觀測(cè)數(shù)據(jù)),將數(shù)據(jù)集變?yōu)榭梢杂糜跈C(jī)器學(xué)習(xí)訓(xùn)練模型的目標(biāo)數(shù)據(jù)。異常值點(diǎn)的具體篩選規(guī)則:去除用戶個(gè)人信息數(shù)據(jù)中年齡不在預(yù)定年齡范圍內(nèi)的數(shù)據(jù),例如年齡大于110歲和小于10歲的用戶;去除身高不在預(yù)定身高范圍內(nèi)的數(shù)據(jù),例如身高小于120厘米或者大于200厘米的數(shù)據(jù);去除體重不再預(yù)定體重范圍內(nèi)的數(shù)據(jù),例如體重小于20kg或者大于130kg的數(shù)據(jù);去除血壓不在預(yù)定血壓范圍內(nèi)的數(shù)據(jù),例如低壓小于和大于該用戶歷史血壓測(cè)量平均值40的觀測(cè)數(shù)據(jù),去除高壓小于和大于該用戶歷史血壓測(cè)量平均值40的觀測(cè)數(shù)據(jù);去除心率為0的觀測(cè)數(shù)據(jù)。步驟102,從數(shù)據(jù)庫(kù)中選取用戶的特征,包括年齡、性別和身體質(zhì)量指數(shù)。根據(jù)權(quán)威醫(yī)學(xué)資料可知:用戶年齡越大,血壓越高;男性血壓普遍略高于女性;身體質(zhì)量指數(shù)(BMI)越高(近似代表越肥胖),血壓越高。提取特征包含:用戶個(gè)人信息數(shù)據(jù)中的年齡、性別(用0表示女性,1表示男性),并將身高、體重轉(zhuǎn)化為BMI(體重/身高的平方)。步驟S3,從數(shù)據(jù)庫(kù)中選取血壓特征,包括不同預(yù)測(cè)任務(wù)下的血壓特征,不同預(yù)測(cè)任務(wù)包括長(zhǎng)周期、短周期、粗粒度和細(xì)粒度等不同精度的預(yù)測(cè)任務(wù),在不同預(yù)測(cè)任務(wù)下,所選取的血壓特征包括高壓、低壓、心率、服藥情況。血壓觀測(cè)數(shù)據(jù)包括用戶高壓、低壓、心率、服藥情況、測(cè)量月份信息。在此步驟中,進(jìn)一步引入了不同的預(yù)測(cè)任務(wù)。例如長(zhǎng)周期和短周期預(yù)測(cè),分別表示將用戶連續(xù)6個(gè)月或3個(gè)月的血壓數(shù)據(jù)作為特征輸入,若有當(dāng)月無(wú)測(cè)量則用空缺值代替。粗粒度預(yù)測(cè)時(shí),將2個(gè)月或3個(gè)月用戶血壓測(cè)量平均值作為特征輸入,細(xì)粒度預(yù)測(cè)時(shí),將一個(gè)月或半個(gè)用戶血壓測(cè)量平均值作為特征輸入。步驟103,對(duì)特征數(shù)據(jù)(包括測(cè)量的高壓、低壓、心率以及用戶的BMI、年齡、性別等,即從訓(xùn)練數(shù)據(jù)中獲取的預(yù)定時(shí)間內(nèi)的特征數(shù)據(jù))及目標(biāo)數(shù)據(jù)(即從訓(xùn)練數(shù)據(jù)中得到的晚于所述預(yù)定時(shí)間的一段時(shí)間的血壓值作為目標(biāo)數(shù)據(jù))做歸一化處理,將數(shù)據(jù)的范圍控制在0和1之間。歸一化處理公式如下:其中最小值指的是這個(gè)特征在數(shù)據(jù)庫(kù)中存在的最小的一個(gè)值,最大值即是其中最大的一個(gè)值。對(duì)于月份信息的處理采用one-hot編碼,將整型數(shù)據(jù)展開(kāi)為0和1的編碼,通過(guò)1在序列中的位置來(lái)表達(dá)編碼的值,使得12個(gè)月份信息都轉(zhuǎn)化成同等的地位。步驟104,使用支持向量機(jī)(SVM)和梯度迭代決策樹(shù)(GBDT)對(duì)處理后的特征數(shù)據(jù)(包括用戶特征和血壓測(cè)量特征)和目標(biāo)數(shù)據(jù)進(jìn)行回歸學(xué)習(xí),構(gòu)建用戶未來(lái)血壓的預(yù)測(cè)模型。將以上用戶特征、血壓測(cè)量特征,以及每條血壓測(cè)量特征對(duì)應(yīng)的月份信息作為訓(xùn)練數(shù)據(jù)做歸一化處理,放入支持向量機(jī)(SVM)和梯度迭代決策樹(shù)(GBDT)模型之中,直到模型的參數(shù)收斂,此時(shí)得到的參數(shù)使得模型相對(duì)于訓(xùn)練數(shù)據(jù)達(dá)到最優(yōu)化。在SVM模型中通過(guò)實(shí)驗(yàn)證明,當(dāng)選取訓(xùn)練模型為回歸模型,核函數(shù)選為線性核(linearkernel)時(shí)效果最佳。在梯度迭代決策樹(shù)模型中,損失函數(shù)選取為最小平方差函數(shù)(leastsquareerror),用predict函數(shù)將預(yù)測(cè)標(biāo)簽輸出。為了驗(yàn)證本發(fā)明的實(shí)施效果,接下來(lái)以在真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果作進(jìn)一步的說(shuō)明。具體步驟如下:步驟201,由于單次血壓測(cè)量值無(wú)法準(zhǔn)確描述該用戶的血壓情況,因?yàn)閷?duì)于一個(gè)用戶采集一個(gè)月的血壓平均值整理到數(shù)據(jù)集中。步驟202,首先將所述數(shù)據(jù)集中的原始數(shù)據(jù)轉(zhuǎn)化為適合訓(xùn)練模型的特征,之后選取出連續(xù)六個(gè)月有觀測(cè)數(shù)據(jù)的用戶,這樣可以保證用戶測(cè)量的連續(xù)性,提升預(yù)測(cè)的準(zhǔn)確度。例如選用連續(xù)七個(gè)月份(N-5月到N+1月)有觀測(cè)記錄的用戶的數(shù)據(jù)做訓(xùn)練(例如采用8月份和9月份同時(shí)出現(xiàn)的用戶做訓(xùn)練),最后一個(gè)月N+1月作為訓(xùn)練目標(biāo);采用連續(xù)七個(gè)月份(N-4月到N+2月)有觀測(cè)記錄的用戶做測(cè)試(例如用9月和10月同時(shí)出現(xiàn)的用戶做測(cè)試),最后一個(gè)月N+2月作為測(cè)試目標(biāo)。步驟S3,SVM實(shí)驗(yàn)訓(xùn)練集目標(biāo)為N+1月的平均低壓,將模型輸出的預(yù)測(cè)結(jié)果與N+1月的數(shù)據(jù)進(jìn)行對(duì)比來(lái)更新模型參數(shù)。我們接下來(lái)提取出1)和2)兩種策略作為短周期和長(zhǎng)周期的典型。具體的訓(xùn)練集特征提取規(guī)則如下:1)N-2-N月:提取用戶的身高和體重轉(zhuǎn)化成的BMI(體重/身高的平方)、性別、年齡;N-2,N-1,N月單獨(dú)的平均高壓、低壓、心率、服藥情況;N-2,N-1,N月每半個(gè)月平均高壓、低壓、心率、服藥情況;N-2,N-1,N三月平均高壓、低壓、心率、服藥情況。2)N-5-N月:提取用戶的身高和體重轉(zhuǎn)化成的BMI(體重/身高的平方)、性別、年齡;用戶在N-5-N月單月的平均高壓、低壓、心率、服藥情況;N-5-N每半個(gè)月平均高壓、低壓、心率,服藥情況;每三個(gè)月的平均高壓,低壓,心率,服藥情況。步驟S4,SVM實(shí)驗(yàn)測(cè)試集提取規(guī)則如下:1)N-1-N+1月:對(duì)應(yīng)訓(xùn)練集N-2-N月,提取用戶的身高和體重轉(zhuǎn)化成的BMI(體重/身高的平方)、性別、年齡;N-1,N,N+1月單獨(dú)的平均高壓、低壓、心率,N-1,N,N+1月每半個(gè)月平均高壓、低壓、心率;N-1,N,N+1三月平均高壓、低壓、心率。2)N-4-N+1月:對(duì)應(yīng)訓(xùn)練集N-5-N月,將用戶的身高和體重轉(zhuǎn)化為BMI(體重/身高的平方)、性別、年齡;用戶在N-4-N+1月單月的平均高壓、低壓、心率、服藥;N-4-N+1每半個(gè)月平均高壓、低壓、心率,服藥;每三個(gè)月的平均高壓,低壓,心率,服藥。步驟S5,將訓(xùn)練集輸入到lib-SVM模型之中,做訓(xùn)練直至模型收斂,優(yōu)化模型參數(shù)。將特征輸入到訓(xùn)練好的模型中即可輸出預(yù)測(cè)結(jié)果,并與測(cè)試集目標(biāo)比較,得出低壓回歸的平均誤差。SVM模型構(gòu)建如下:首先,定義超平面(w,b)關(guān)于訓(xùn)練數(shù)據(jù)集的函數(shù)間隔為:其中,x是特征數(shù)據(jù),y為目標(biāo)數(shù)據(jù);因此最大間隔分類器目標(biāo)函數(shù)可以定義為:進(jìn)一步改寫為:其中,n為樣本個(gè)數(shù),yi表示第i個(gè)樣本的目標(biāo)數(shù)據(jù),xi表示第i個(gè)樣本的特征數(shù)據(jù);之后可以通過(guò)拉格朗日算子法將目標(biāo)函數(shù)與限制條件合并,改寫成一般的凸優(yōu)化問(wèn)題以便于計(jì)算。根據(jù)這個(gè)目標(biāo)函數(shù)可以得到一個(gè)最優(yōu)回歸超平面,通過(guò)此超平面可以進(jìn)行預(yù)測(cè)。需要在lib-SVM進(jìn)行相應(yīng)的設(shè)置,通過(guò)輸入指令來(lái)選擇合適的支持向量機(jī)核函數(shù)以及訓(xùn)練設(shè)置。-s表示SVM的設(shè)置類型,選擇4(nu-SVR,regression)為回歸模型,-t代表核函數(shù)的選擇,選擇0(linearkernel)為核函數(shù),通過(guò)實(shí)驗(yàn)證明此設(shè)置效果最佳。lib-SVM可以將訓(xùn)練所得的模型參數(shù)存儲(chǔ)下來(lái),利用svm_predict函數(shù)就可以對(duì)測(cè)試集進(jìn)行預(yù)測(cè)并評(píng)價(jià)模型性能。步驟S6,GBDT實(shí)驗(yàn)采用與SVM實(shí)驗(yàn)相同的特征提取規(guī)則,重復(fù)S3,S4,S5步驟。將訓(xùn)練集特征及目標(biāo)輸入到GBDT模型之中。采用開(kāi)源機(jī)器學(xué)習(xí)工具scikit-learn里封裝的GBDT工具包來(lái)實(shí)現(xiàn)GBDT回歸,數(shù)據(jù)只需要用Python從文件中導(dǎo)入并存儲(chǔ)成list格式。數(shù)據(jù)和標(biāo)簽分別對(duì)應(yīng)一個(gè)list,相同位置相對(duì)應(yīng)。GBDT模型構(gòu)建:GBDT的核心為決策樹(shù)(DecisionTree),決策樹(shù)的總體流程是這樣的:樹(shù)的每一個(gè)節(jié)點(diǎn)都會(huì)得到一個(gè)預(yù)測(cè)值,這個(gè)預(yù)測(cè)值等于屬于這個(gè)節(jié)點(diǎn)的所有特征的平均值。衡量最好的標(biāo)準(zhǔn)是最小化均方差。通過(guò)最小化均方差能夠找到最靠譜的分枝依據(jù)。梯度迭代(GradientBoosting)的核心思想是通過(guò)迭代多棵樹(shù)來(lái)共同決策。因此,可以得到GBDT的訓(xùn)練方法,即每一棵樹(shù)學(xué)的是之前所有樹(shù)結(jié)論和的殘差,這個(gè)殘差就是一個(gè)加預(yù)測(cè)值后能得到真實(shí)值的累加量。通過(guò)這種方法,GBDT可以綜合多個(gè)決策樹(shù)的預(yù)測(cè)并得到更加精確的預(yù)測(cè)結(jié)果。調(diào)用scikit-learn中的GradientBoostingRegressot函數(shù)來(lái)訓(xùn)練模型,決策樹(shù)的深度為3層,學(xué)習(xí)速率設(shè)為0.005。通過(guò)實(shí)驗(yàn)證明此設(shè)置效果最佳。訓(xùn)練完成后模型參數(shù)會(huì)被儲(chǔ)存起來(lái),通過(guò)調(diào)用predict函數(shù)就可以利用學(xué)出來(lái)的模型參數(shù)來(lái)對(duì)測(cè)試集進(jìn)行預(yù)測(cè),并評(píng)價(jià)模型性能。步驟S7,將血壓以10為區(qū)間劃分得出分級(jí)誤差,具體分級(jí)策略如表1所示。得到SVM與GBDT的實(shí)驗(yàn)結(jié)果分別如表2、表3所示,實(shí)驗(yàn)?zāi)繕?biāo)月份為10月。評(píng)價(jià)指標(biāo)說(shuō)明:平均誤差:所有數(shù)據(jù)預(yù)測(cè)值與真實(shí)值差值的平均值。分級(jí)誤差:所有數(shù)據(jù)得到分級(jí)結(jié)果與真實(shí)分級(jí)結(jié)果差值的平均值。相對(duì)準(zhǔn)確率:平均預(yù)測(cè)值/平均真實(shí)值表1血壓低壓值分類級(jí)別低壓值分類級(jí)別<80180-90290-1003100-1104>1105表2支持向量機(jī)(SVM)實(shí)驗(yàn)結(jié)果SVM預(yù)測(cè)用戶在2015年10月份的平均低壓實(shí)驗(yàn)表3梯度迭代決策樹(shù)(GBDT)實(shí)驗(yàn)結(jié)果GBDT預(yù)測(cè)用戶在2015年10月份的平均低壓實(shí)驗(yàn)步驟S8,將表2、3中所得實(shí)驗(yàn)結(jié)果與擬合數(shù)值基礎(chǔ)(Baseline)做比較。Baseline為直接用用戶9月的低壓數(shù)據(jù)擬合10月的數(shù)值,如表4所示。表4擬合數(shù)值基礎(chǔ)(Baseline)月份平均誤差平均誤差率分級(jí)誤差樣本數(shù)10月5.276920.06380.436913012通過(guò)表中的實(shí)驗(yàn)結(jié)果可以得出,與擬合數(shù)值基礎(chǔ)baseline的比較下,在低壓平均誤差方面有明顯的提升,SVM模型短周期和長(zhǎng)周期預(yù)測(cè)分別提升了10.37%和11.14%;GBDT模型短周期和長(zhǎng)周期的預(yù)測(cè)分別提升了10.75%和11.45%。在分級(jí)誤差方面,與baseline相比,SVM模型短周期和長(zhǎng)周期預(yù)測(cè)分別提升了2.85%和8.43%;GBDT模型短周期和長(zhǎng)周期的預(yù)測(cè)分別提升了8.43%和10.48%。以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1