本發(fā)明屬于疾病預(yù)警,具體是一種基于機器學(xué)習(xí)的呼吸系統(tǒng)疾病預(yù)測系統(tǒng)。
背景技術(shù):
1、呼吸系統(tǒng)疾病預(yù)測系統(tǒng)是一種利用空氣質(zhì)量數(shù)據(jù)來探索環(huán)境因素與呼吸系統(tǒng)疾病之間可能存在的關(guān)聯(lián),對于疾病的早期預(yù)警、公共衛(wèi)生決策以及針對特定區(qū)域采取相應(yīng)的防護措施,旨在提高對呼吸系統(tǒng)疾病的防控能力,更好地保障公眾健康,提前識別潛在風(fēng)險,降低呼吸系統(tǒng)疾病的發(fā)生率和嚴(yán)重程度。但是現(xiàn)有的呼吸系統(tǒng)疾病預(yù)測系統(tǒng)存在難以找到空氣污染物和呼吸系統(tǒng)疾病患者之間潛在關(guān)聯(lián)模式,原始數(shù)據(jù)復(fù)雜,不好直接進(jìn)行分析的技術(shù)問題;存在空氣污染物排放數(shù)據(jù)空間信息不完整,難以提取有價值的空氣污染物排放數(shù)據(jù)的技術(shù)問題;存在呼吸系統(tǒng)疾病預(yù)測存在誤差較大,誤導(dǎo)公共衛(wèi)生部門對疾病流行趨勢的判斷,從而影響制定有效的防控策略和措施的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、針對上述情況,為克服現(xiàn)有技術(shù)的缺陷,本發(fā)明提供的一種基于機器學(xué)習(xí)的呼吸系統(tǒng)疾病預(yù)測系統(tǒng),針對存在難以找到空氣污染物和呼吸系統(tǒng)疾病患者之間潛在關(guān)聯(lián)模式,原始數(shù)據(jù)復(fù)雜,不好直接進(jìn)行分析的技術(shù)問題,采用通過對數(shù)據(jù)的離散化處理,降低數(shù)據(jù)的復(fù)雜性,使得后續(xù)的數(shù)據(jù)分析和模型構(gòu)建更加高效和準(zhǔn)確,為深入研究空氣污染物對呼吸系統(tǒng)疾病的影響機制以及制定相關(guān)的環(huán)境保護和健康策略提供重要的依據(jù)和支持;針對存在空氣污染物排放數(shù)據(jù)空間信息不完整,難以提取有價值的空氣污染物排放數(shù)據(jù)的技術(shù)問題,采用多尺度信息融合技術(shù)將多尺度信息顆粒進(jìn)行融合,利用數(shù)據(jù)分布差異計算各尺度的顯著性,更好地把握數(shù)據(jù)特征;針對存在呼吸系統(tǒng)疾病預(yù)測存在誤差較大,誤導(dǎo)公共衛(wèi)生部門對疾病流行趨勢的判斷,從而影響制定有效的防控策略和措施的技術(shù)問題,采用abc算法對樹的參數(shù)進(jìn)行優(yōu)化修剪,構(gòu)建cart樹,對樹結(jié)構(gòu)進(jìn)行精確調(diào)控,實現(xiàn)對樹的有效修剪和節(jié)點設(shè)置,確保預(yù)測誤差最小。
2、本發(fā)明提供的一種基于機器學(xué)習(xí)的呼吸系統(tǒng)疾病預(yù)測系統(tǒng),包括數(shù)據(jù)準(zhǔn)備模塊、數(shù)據(jù)預(yù)處理模塊、特征提取模塊、構(gòu)建呼吸系統(tǒng)疾病預(yù)測模型模塊、分析模型輸出模塊和報告生成模塊;
3、所述數(shù)據(jù)準(zhǔn)備模塊具體為收集空氣污染物排放數(shù)據(jù)和呼吸系統(tǒng)疾病患者數(shù)量數(shù)據(jù);
4、所述數(shù)據(jù)預(yù)處理模塊具體為采用基于人工神經(jīng)網(wǎng)絡(luò)自組織圖的無監(jiān)督離散化技術(shù),通過競爭學(xué)習(xí)機制訓(xùn)練網(wǎng)絡(luò)使空氣污染物排放數(shù)據(jù)分布以學(xué)習(xí)潛在模式和特征,根據(jù)聚類區(qū)域?qū)⒖諝馕廴疚锱欧艛?shù)據(jù)進(jìn)行映射和離散化;
5、所述特征提取模塊具體為采用多標(biāo)簽多尺度學(xué)習(xí)策略挖掘潛在多重分類信息,利用相關(guān)差異擬合真實標(biāo)記,利用分布差異糾正比率偏差,對缺失標(biāo)簽多標(biāo)簽數(shù)據(jù)構(gòu)建模型并計算顯著性;
6、所述構(gòu)建呼吸系統(tǒng)疾病預(yù)測模型模塊具體為構(gòu)建cart樹,使用abc算法修剪樹葉并設(shè)置分割點,計算解向量的適應(yīng)度單元,訓(xùn)練誤差作為適應(yīng)度函數(shù),計算解向量的適應(yīng)度,保證學(xué)習(xí)模型預(yù)測誤差最?。?/p>
7、所述分析模型輸出模塊具體為進(jìn)行數(shù)據(jù)可視化,以直觀的圖表形式展示模型對呼吸系統(tǒng)疾病預(yù)測的結(jié)果;
8、所述報告生成模塊具體為對預(yù)測結(jié)果進(jìn)行詳細(xì)展示和說明,以便非專業(yè)人士也能有效理解,對模型整體進(jìn)行總結(jié)。
9、進(jìn)一步地,在數(shù)據(jù)準(zhǔn)備模塊中,所述數(shù)據(jù)準(zhǔn)備模塊具體為收集長時間序列的空氣污染物排放數(shù)據(jù)以及同期的呼吸系統(tǒng)疾病患者數(shù)量數(shù)據(jù),所述空氣污染物包括pm2.5、pm10、二氧化硫和氮氧化物。
10、進(jìn)一步地,在數(shù)據(jù)預(yù)處理模塊中,設(shè)有數(shù)據(jù)清洗單元和數(shù)據(jù)分析處理單元,所述數(shù)據(jù)預(yù)處理模塊,包括以下內(nèi)容:
11、數(shù)據(jù)清洗單元,收集空氣污染物排放數(shù)據(jù)和呼吸系統(tǒng)疾病患者數(shù)量數(shù)據(jù),去除噪聲、糾正錯誤數(shù)據(jù)和處理缺失值;
12、數(shù)據(jù)分析處理單元,使用基于人工神經(jīng)網(wǎng)絡(luò)自組織圖的無監(jiān)督離散化技術(shù)對空氣污染物排放數(shù)據(jù)進(jìn)行數(shù)據(jù)分析處理,包括以下內(nèi)容:
13、網(wǎng)絡(luò)初始化,確定自組織圖網(wǎng)絡(luò)的節(jié)點數(shù)量、拓?fù)浣Y(jié)構(gòu),并隨機初始化節(jié)點向量;
14、訓(xùn)練網(wǎng)絡(luò),將空氣污染物排放數(shù)據(jù)輸入到網(wǎng)絡(luò)中,通過競爭學(xué)習(xí)機制,讓節(jié)點逐漸適應(yīng)空氣污染物排放數(shù)據(jù)分布,用于學(xué)習(xí)空氣污染物排放數(shù)據(jù)中的潛在模式和特征;
15、形成聚類,訓(xùn)練后,網(wǎng)絡(luò)節(jié)點會形成不同的聚類區(qū)域,用于反映空氣污染物排放數(shù)據(jù)之間的相似性和關(guān)聯(lián)性;
16、離散化映射,將空氣污染物排放數(shù)據(jù)根據(jù)在網(wǎng)絡(luò)中所屬的聚類區(qū)域進(jìn)行映射和離散化,確定每個空氣污染物排放數(shù)據(jù)對應(yīng)的離散類別,所述離散類別包括按照污染物的濃度范圍進(jìn)行離散、按照污染物的類型進(jìn)行離散。
17、進(jìn)一步地,在特征提取模塊中,設(shè)有空間轉(zhuǎn)化單元、融合多尺度信息顆粒單元、擬合真實標(biāo)記單元、計算各尺度的顯著性單元和特征分類單元,所述特征提取模塊,包括以下內(nèi)容:
18、空間轉(zhuǎn)化單元,通過模糊鄰域粒度認(rèn)知機制,將單個數(shù)據(jù)空間轉(zhuǎn)化為多尺度模糊粒度空間,使用多標(biāo)簽多尺度學(xué)習(xí)策略來挖掘潛在的多重分類信息;
19、融合多尺度信息顆粒單元,構(gòu)建多尺度融合模糊粒度空間,保證空氣污染物排放數(shù)據(jù)空間中污染物信息的多樣性和完整性,計算多標(biāo)簽多尺度模糊依賴函數(shù)在k尺度下的值,所用公式如下:
20、;
21、式中,表示多標(biāo)簽多尺度模糊依賴函數(shù)在k尺度下的值,b表示空氣污染物排放類別數(shù)據(jù)集,u表示數(shù)據(jù)的全集,表示數(shù)據(jù)集中的第i個元素,i表示數(shù)據(jù)集中元素的索引,表示元素與空氣污染物排放類別數(shù)據(jù)集b在k尺度下的關(guān)聯(lián)程度,表示模糊標(biāo)簽集,在缺失標(biāo)簽的數(shù)據(jù)上重建新的標(biāo)簽集;
22、擬合真實標(biāo)記單元,遵循多尺度融合粒度空間中相關(guān)性較大的樣品具有更相似的標(biāo)簽的原則,并利用樣品粒度結(jié)構(gòu)中標(biāo)記和非標(biāo)記樣品之間相關(guān)性比的差異來擬合真實標(biāo)記;
23、計算各尺度的顯著性單元,利用數(shù)據(jù)中的分布差異來糾正比率偏差,對缺失標(biāo)簽的多標(biāo)簽數(shù)據(jù),構(gòu)建多尺度模糊粗糙集模型,計算各尺度的顯著性,所用公式如下:
24、;
25、式中,表示在尺度k下的顯著性,表示該尺度下數(shù)據(jù)分布差異,f表示根據(jù)分布差異計算顯著性的函數(shù)關(guān)系;
26、特征分類單元,定義多尺度融合模糊不確定性度量,探討特征與模糊標(biāo)集的相關(guān)性、特征間的冗余性和交互性,設(shè)計相應(yīng)的特征評價標(biāo)準(zhǔn),選擇判別特征進(jìn)行分類,從而提取出有價值的空氣污染物排放數(shù)據(jù)用于進(jìn)一步分析。
27、進(jìn)一步地,在構(gòu)建呼吸系統(tǒng)疾病預(yù)測模型模塊中,設(shè)有abc算法優(yōu)化樹單元、cart構(gòu)造單元、優(yōu)化變量單元和計算解向量的適應(yīng)度單元,所述構(gòu)建呼吸系統(tǒng)疾病預(yù)測模型模塊,包括以下內(nèi)容:
28、abc算法優(yōu)化樹單元,用abc算法來優(yōu)化和修剪樹的參數(shù),說明樹組件包括決策節(jié)點和葉節(jié)點,每個決策節(jié)點代表構(gòu)成樹規(guī)則的約束之一,基于該約束,根據(jù)其中一個決策變量的條件分析輸入樣本,計算與etc相關(guān)指標(biāo)的適應(yīng)度函數(shù),所用公式如下:
29、;
30、式中,表示與etc相關(guān)指標(biāo)的適應(yīng)度函數(shù),t表示指定目標(biāo)向量,c表示計算相關(guān)系數(shù)的函數(shù),n1表示樣本數(shù)量,、和表示特定樣本參數(shù),i、j和a都是樣本的索引;
31、cart構(gòu)造單元,cart構(gòu)造過程包括選擇輸入變量并確定這些變量的分割點,直到創(chuàng)建合適的樹,使用貪婪算法完成的,以最小化成本函數(shù),在每個拆分步驟中,選擇成本最低的點;
32、使用cart模型進(jìn)行分類,使用基尼雜質(zhì)指標(biāo)確定構(gòu)建樹的成本函數(shù),所用公式如下:
33、;
34、式中,gini表示基尼雜質(zhì),用于衡量數(shù)據(jù)集的混亂程度,c表示目標(biāo)類的數(shù)量,即要分類的不同類別總數(shù),pc1表示在當(dāng)前節(jié)點中,標(biāo)記為類別c1的訓(xùn)練實例所占的比例;
35、優(yōu)化變量單元,構(gòu)建初始cart模型后用abc算法修剪樹葉和設(shè)置分割點,對于具有n個決策節(jié)點和m個葉節(jié)點的決策樹,優(yōu)化變量,包括以下內(nèi)容:
36、n個實變量,每個變量對應(yīng)于決策樹的一個節(jié)點,所述變量的值表示該節(jié)點的分割點,由于問題的所有輸入變量都使用公式進(jìn)行歸一化,因此所有的變量的搜索邊界均為(0,1);
37、m個二進(jìn)制變量,每個二進(jìn)制變量對應(yīng)于樹的一個葉節(jié)點,在二進(jìn)制變量中,零值表示修剪樹結(jié)構(gòu)中與該葉節(jié)點相對應(yīng)的分支,one的值表示該節(jié)點在樹結(jié)構(gòu)中的維護;
38、abc算法中的每個解向量都具有異構(gòu)結(jié)構(gòu),在每個求解向量中,前n個元素用于確定決策節(jié)點的分割點,后m個元素指定樹結(jié)構(gòu)中葉節(jié)點的刪除和保留;
39、計算解向量的適應(yīng)度單元,將每個解向量應(yīng)用于初始樹結(jié)構(gòu),根據(jù)得到的樹計算解向量的適應(yīng)度,訓(xùn)練誤差準(zhǔn)則被用作abc算法中的適應(yīng)度函數(shù),將驗證樣本應(yīng)用于由解決方案向量修改的樹,并將樹的輸出標(biāo)簽與實際標(biāo)簽進(jìn)行比較,使用公式計算解向量的適應(yīng)度,所用公式如下:
40、;
41、式中,fit表示解向量的適應(yīng)度,e表示樹的輸出與實例的實際標(biāo)簽不同的驗證實例數(shù),n表示實變量的總數(shù),通過對求解向量使用所提出的結(jié)構(gòu),在修剪樹的同時有效地設(shè)置學(xué)習(xí)模型中的決策節(jié)點,在優(yōu)化算法中使用訓(xùn)練誤差準(zhǔn)則作為適應(yīng)度函數(shù),保證學(xué)習(xí)模型中預(yù)測誤差最小。
42、進(jìn)一步地,在分析模型輸出模塊中,具體為進(jìn)行數(shù)據(jù)可視化,以直觀的圖表形式展示模型對呼吸系統(tǒng)疾病預(yù)測的結(jié)果,包括不同疾病類別的預(yù)測比例柱狀圖和患者個體預(yù)測結(jié)果的走勢圖,分析在不同的空氣污染物排放數(shù)據(jù)下預(yù)測結(jié)果的差異變化趨勢和規(guī)律。
43、進(jìn)一步地,在報告生成模塊中,具體為呈現(xiàn)預(yù)測結(jié)果,包括各項指標(biāo)數(shù)值,圖表展示和案例分析,對預(yù)測結(jié)果進(jìn)行展示說明,使非專業(yè)人士也能較好地理解,總結(jié)模型的整體性能、有效性以及對呼吸系統(tǒng)疾病預(yù)測的價值。
44、采用上述方案本發(fā)明取得的有益效果如下:
45、(1)針對存在難以找到空氣污染物和呼吸系統(tǒng)疾病患者之間潛在關(guān)聯(lián)模式,原始數(shù)據(jù)復(fù)雜,不好直接進(jìn)行分析的技術(shù)問題,采用通過對數(shù)據(jù)的離散化處理,降低數(shù)據(jù)的復(fù)雜性,使得后續(xù)的數(shù)據(jù)分析和模型構(gòu)建更加高效和準(zhǔn)確,為深入研究空氣污染物對呼吸系統(tǒng)疾病的影響機制以及制定相關(guān)的環(huán)境保護和健康策略提供重要的依據(jù)和支持;
46、(2)針對存在空氣污染物排放數(shù)據(jù)空間信息不完整,難以提取有價值的空氣污染物排放數(shù)據(jù)的技術(shù)問題,采用多尺度信息融合技術(shù)將多尺度信息顆粒進(jìn)行融合,利用數(shù)據(jù)分布差異計算各尺度的顯著性,更好地把握數(shù)據(jù)特征;
47、(3)針對存在呼吸系統(tǒng)疾病預(yù)測存在誤差較大,誤導(dǎo)公共衛(wèi)生部門對疾病流行趨勢的判斷,從而影響制定有效的防控策略和措施的技術(shù)問題,采用abc算法對樹的參數(shù)進(jìn)行優(yōu)化修剪,構(gòu)建cart樹,對樹結(jié)構(gòu)進(jìn)行精確調(diào)控,實現(xiàn)對樹的有效修剪和節(jié)點設(shè)置,確保預(yù)測誤差最小。