本發(fā)明涉及生物醫(yī)學領域,特別涉及一種心血管代謝危險因素譜的識別模型構建系統(tǒng)、存儲介質及試劑盒。
背景技術:
1、心血管代謝危險因素譜包含:肥胖、高血壓、高血糖和高血脂。
2、心血管代謝危險因素譜不僅是心血管疾病的關鍵危險因素,也被報道和多種癌癥、神經退行性疾病的發(fā)病率增加有關。心血管代謝危險因素譜中多個危險因素常常共同出現(xiàn),根據(jù)2004年中華醫(yī)學會糖尿病學分會建議的分類標準(cds?2004),心血管代謝危險因素譜可根據(jù)心血管代謝危險因素(肥胖、高血壓、高血糖和高血脂)的個數(shù)分為:低風險(0個危險因素),中風險(1-2個危險因素),高風險(3-4個危險因素)。
3、然而,這種傳統(tǒng)的風險評估方式依賴于出現(xiàn)明顯臨床癥狀,且涉及體格檢查,問卷調查,血液學檢查等復雜程序,耗時長,需要患者全程配合。目前尚缺乏快速、便捷的心血管代謝危險因素譜風險評估工具。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供一種心血管代謝危險因素譜的識別模型構建系統(tǒng)、存儲介質及試劑盒。
2、為解決上述問題,本發(fā)明提供一種心血管代謝危險因素譜的識別模型構建系統(tǒng),包括:
3、采集模塊,用于收集血管代謝危險因素譜的低風險、中風險、高風險類型的各個受試者的血漿樣本,從各個血漿樣本中獲取低風險、中風險、高風險類型的血漿小分子代謝生物標志物及其相對濃度值;
4、特征選擇模塊,用于基于低風險、中風險、高風險類型的血漿小分子代謝生物標志物及其相對濃度值,進行機器學習,以篩選得到在心血管代謝危險因素譜的低風險、中風險、高風險類型的受試者之間存在顯著性差異的血漿小分子代謝生物標志物,作為特征選擇后的血漿小分子代謝生物標志物;
5、訓練模塊,用于基于低風險、中風險、高風險類型的各個受試者的特征選擇后的血漿小分子代謝生物標志物及其相對濃度值,訓練心血管代謝危險因素譜的中風險或高風險類型的預測模型;
6、識別模塊,用于獲取待檢測者的特征選擇后的血漿小分子代謝生物標志物及其相對濃度值,將待檢測者的特征選擇后的血漿小分子代謝生物標志物及其相對濃度值輸入所述預測模型,以得到待檢測者是否屬于心血管代謝危險因素譜的中風險或高風險類型的預測結果;
7、所述特征選擇后的血漿小分子代謝生物標志物,至少包括外周血漿中的如下代謝物生物標志物:乙酰乙酸,?二甲基甘氨酸,?肌氨酸酐,?胡蘿卜酸,?絲氨酸,?同型半胱氨酸硫酸內酯,?甘油酸,?煙酸,?同型半胱氨酸,?葡萄糖,?氨基乙磺酸,?尿酸,?琥珀酸,?蘇氨酸,?半胱氨酸,?哌啶酸,?氨乙基亞磺酸和赤酮酸。
8、進一步的,上述心血管代謝危險因素譜的識別模型構建系統(tǒng)中,所述采集模塊,用于獲取互不重疊的第一受試者群和第二受試者群,其中,第一受試者群和第二受試者群,均包括互不重疊的血管代謝危險因素譜的低風險、中風險、高風險類型的各個受試者;所述采集模塊,用于收集第一受試者群的第一血漿樣本,從各個第一血漿樣本中獲取血漿小分子代謝生物標志物及其相對濃度值,作為第一集合;所述采集模塊,用于收集第二受試者群的第二血漿樣本,從各個第二血漿樣本中獲取血漿小分子代謝生物標志物及其相對濃度值,作為測試集。
9、進一步的,上述心血管代謝危險因素譜的識別模型構建系統(tǒng)中,所述特征選擇模塊,用于使用kruskal-wallis秩和檢驗,在所述第一集合上對血漿代謝物生物標志物進行特征選擇,并設置顯著性閾值,以得到特征選擇后的血漿小分子代謝生物標志物。
10、進一步的,上述心血管代謝危險因素譜的識別模型構建系統(tǒng)中,所述訓練模塊,用于基于第一集合中的低風險、中風險、高風險類型的各個受試者的特征選擇后的血漿小分子代謝生物標志物及其相對濃度值,訓練心血管代謝危險因素譜的中風險或高風險類型的候選預測模型;基于所述測試集和第一集合,得到最終的心血管代謝危險因素譜的中風險或高風險類型的預測模型。
11、進一步的,上述心血管代謝危險因素譜的識別模型構建系統(tǒng)中,所述訓練模塊,用于將所述第一集合中的低風險和中風險的受試者的歸為第三類受試者,以得到第三類受試者群;將所述第一集合中的高風險的受試者歸為第四類受試者群,以得到第四類受試者群;所述訓練模塊,用于基于第三類受試者群和第四類受試者群的特征選擇后的血漿小分子代謝生物標志物及其相對濃度值,訓練心血管代謝危險因素譜的第一候選預測模型;基于所述第一候選預測模型,在測試集、第三類受試者群和第四類受試者群上的預測結果的表現(xiàn),得到最終的心血管代謝危險因素譜的高風險的預測模型,即第一預測模型;所述訓練模塊,用于將所述第一集合中的低風險的受試者的歸為第五類受試者,以得到第五類受試者群;將所述第一集合中的中風險和高風險的受試者歸為第六類受試者,以得到第六類受試者群;所述訓練模塊,用于基于第五類受試者群和第六類受試者群的特征選擇后的血漿小分子代謝生物標志物及其相對濃度值,訓練心血管代謝危險因素譜的第二候選預測模型;基于心血管代謝危險因素譜的第二候選預測模型,在所述測試集、第三類受試者群和第四類受試者群上的預測結果的表現(xiàn),得到最終的心血管代謝危險因素譜的中高風險的預測模型,即第二預測模型。
12、進一步的,上述心血管代謝危險因素譜的識別模型構建系統(tǒng)中,所述訓練模塊,用于將所第三類受試者群和第四類受試者群,分為5份互不重疊的數(shù)據(jù),每次將5份互不重疊的數(shù)據(jù)中,未選取過的1份數(shù)據(jù)作為第一內部驗證集,并且每次將剩余的4份數(shù)據(jù)作為第一訓練集;其中,第一內部驗證集和第一訓練集,均包括互不重疊的第三類受試者和第四類受試者;所述訓練模塊,用于基于每次的第一內部驗證集和第一訓練集,并使用極端梯度提升算法,循環(huán)訓練心血管代謝危險因素譜的高風險的預測模型5輪,以得到對應的5個表現(xiàn)滿足要求的第一候選預測模型;其中,極端梯度提升算法xgboostd?超參數(shù)設置為學習率eta=?0.3,子集的所有觀察值的最小權重和min_child_weight?=?1,樹的最大深度max_depth=?6,在樹的葉節(jié)點上進行進一步分枝所需的最小目標函數(shù)減少量gamma?=?0,構建每一棵樹時,樣本的采樣率subsample?=?0.8,構建每一顆樹時的特征采樣率colsample_bytree?=1,構建每一層時的特征采樣率colsample_bylevel?=?1,構建每一個葉子節(jié)點時的特征采樣率;colsample_bynode?=?1,l1正則化權重alpha?=?0,l2正則化權重lambda?=?1,最大迭代次數(shù)nrounds?=?200;所述訓練模塊,用于將所述測試集分別輸入5個表現(xiàn)滿足要求的第一候選預測模型進行預測,以得到第一候選預測模型在測試集上的預測結果,其中,第一候選預測模型在測試集上的預測結果,由5個表現(xiàn)滿足要求的第一候選預測模型投票決定,采用少數(shù)服從多數(shù)原則,得到第一候選預測模型在測試集上的預測結果;若第一候選預測模型,在所述測試集上的預測結果的表現(xiàn)的值高于預設表現(xiàn)閾值,且在所述測試集上的預測結果的表現(xiàn)和在所述第一內部驗證集上的預測結果的表現(xiàn)相差小于預設差值閾值,則將5個表現(xiàn)滿足要求的第一候選預測模型,作為最終的第一預測模型。
13、進一步的,上述心血管代謝危險因素譜的模型構建系統(tǒng)中,所述訓練模塊,用于將所第五類受試者群和第六類受試者群,分為5份互不重疊的數(shù)據(jù),每次將5份互不重疊的數(shù)據(jù)中,未選取過的1份數(shù)據(jù)作為第二內部驗證集,并且每次將剩余的4份數(shù)據(jù)作為第二訓練集;第二內部驗證集和第二訓練集,均包括互不重疊的第五類受試者和第六類受試者;所述訓練模塊,用于基于每次的第二內部驗證集和第二訓練集,并使用極端梯度提升算法,循環(huán)訓練心血管代謝危險因素譜的中高風險的預測模型5輪,以得到對應的5個表現(xiàn)滿足要求的第二候選預測模型;其中,極端梯度提升算法xgboostd?超參數(shù)設置為學習率eta?=?0.3,子集的所有觀察值的最小權重和min_child_weight?=?1,樹的最大深度max_depth?=?6,在樹的葉節(jié)點上進行進一步分枝所需的最小目標函數(shù)減少量gamma?=?0,構建每一棵樹時,樣本的采樣率subsample?=?0.8,構建每一顆樹時的特征采樣率colsample_bytree?=?1,構建每一層時的特征采樣率colsample_bylevel?=?1,構建每一個葉子節(jié)點時的特征采樣率;colsample_bynode?=?1,l1正則化權重alpha?=?0,l2正則化權重lambda?=?1,最大迭代次數(shù)nrounds?=?200;所述訓練模塊,用于將所述測試集分別輸入5個表現(xiàn)滿足要求的第二候選預測模進行預測,以得到第二候選預測模在測試集上的預測結果,其中,中第一候選預測模型在測試集上的預測結果,由5個表現(xiàn)滿足要求的中第一候選預測模型投票決定,采用少數(shù)服從多數(shù)原則,以得到第二候選預測模型在測試集上的預測結果;若第二候選預測模型,在所述測試集上的預測結果的表現(xiàn)的值高于預設表現(xiàn)閾值,且在所述測試集上的預測結果的表現(xiàn)和在所述第二內部驗證集上的預測結果的表現(xiàn)相差小于預設差值閾值,則將5個表現(xiàn)滿足要求的第二候選預測模型,作為最終的第二預測模型。
14、根據(jù)本發(fā)明的另一方面,還提供一種計算機可讀存儲介質,其上存儲有計算機可執(zhí)行指令,其中,該計算機可執(zhí)行指令被處理器執(zhí)行時使得該處理器執(zhí)行如下步驟:
15、采集模塊收集血管代謝危險因素譜的低風險、中風險、高風險類型的各個受試者的血漿樣本,從各個血漿樣本中獲取低風險、中風險、高風險類型的血漿小分子代謝生物標志物及其相對濃度值;特征選擇模塊基于低風險、中風險、高風險類型的血漿小分子代謝生物標志物及其相對濃度值,進行機器學習,以篩選得到在心血管代謝危險因素譜的低風險、中風險、高風險類型的受試者之間存在顯著性差異的血漿小分子代謝生物標志物,作為特征選擇后的血漿小分子代謝生物標志物;訓練模塊基于低風險、中風險、高風險類型的各個受試者的特征選擇后的血漿小分子代謝生物標志物及其相對濃度值,訓練心血管代謝危險因素譜的中風險或高風險類型的預測模型;識別模塊獲取待檢測者的特征選擇后的血漿小分子代謝生物標志物及其相對濃度值,將待檢測者的特征選擇后的血漿小分子代謝生物標志物及其相對濃度值輸入所述預測模型,以得到待檢測者是否屬于心血管代謝危險因素譜的中風險或高風險類型的預測結果;所述特征選擇后的血漿小分子代謝生物標志物,至少包括外周血漿中的如下代謝物生物標志物:乙酰乙酸,?二甲基甘氨酸,?肌氨酸酐,?胡蘿卜酸,?絲氨酸,?同型半胱氨酸硫酸內酯,?甘油酸,?煙酸,?同型半胱氨酸,?葡萄糖,?氨基乙磺酸,?尿酸,?琥珀酸,?蘇氨酸,?半胱氨酸,?哌啶酸,?氨乙基亞磺酸和赤酮酸。
16、根據(jù)本發(fā)明的另一方面,本發(fā)明還提供一種用于心血管代謝危險因素譜的識別的檢測試劑盒,所述檢測試劑盒中的代謝物生物標志物,至少包括外周血漿中的如下代謝物生物標志物:乙酰乙酸,?二甲基甘氨酸,?肌氨酸酐,?胡蘿卜酸,?絲氨酸,?同型半胱氨酸硫酸內酯,?甘油酸,?煙酸,?同型半胱氨酸,?葡萄糖,?氨基乙磺酸,?尿酸,?琥珀酸,?蘇氨酸,半胱氨酸,?哌啶酸,?氨乙基亞磺酸和赤酮酸。
17、與現(xiàn)有技術相比,本發(fā)明通過對血漿代謝物生物標志物的機器學習,得到心血管代謝危險因素譜的中風險或高風險類型的預測模型,表現(xiàn)出優(yōu)異的敏感性、特異性以及準確性的風險評估能力。實現(xiàn)對心血管代謝危險因素譜風險的高效評估能力。本發(fā)明僅需少量血漿作為檢測樣本,相較于傳統(tǒng)繁瑣的評價流程簡單方便,成本較低,易于為受試者所接受,適于方法的大范圍推廣。并且高的敏感性和特異性,使其還能夠用于心血管代謝危險因素譜藥物的篩選中。