本發(fā)明涉及一種代償期肝硬化的評估和篩查模型的建立方法,具體涉及一種基于隨機(jī)森林算法的乙肝代償期肝硬化篩查模型建立方法。
背景技術(shù):
肝硬化是臨床常見的一種消耗系統(tǒng)疾病,其發(fā)病原因主要與病毒性肝炎、長期飲酒、長期服用藥物、長期腹瀉以及家族史有關(guān)。對于晚期肝硬化患者而言,其臨床特征較為典型,因此診斷較為容易。但是,晚期肝硬化患者多為失代償階段,有些患者甚至已發(fā)展為肝功能衰竭,因此是否能在代償期篩查出來顯得尤為重要。如果肝硬化尚處于代償期就能得到明確診斷和及時(shí)治療,肝組織的纖維化可望逆轉(zhuǎn);與此相反,如果肝硬化已經(jīng)發(fā)展到失代償期,其纖維化將不可逆轉(zhuǎn)。所以,代償期肝硬化的評估和篩查是臨床關(guān)注和研究的重點(diǎn)。
國外對于代償期肝硬化的評估和篩查研究要早于國內(nèi),但研究對象主要是針對酒精性肝硬化和丙型肝炎所引起的肝硬化,對乙型肝炎引起的肝硬化研究則相對較少,這和國外肝硬化的主要病因有關(guān)。對于我國而言,世衛(wèi)組織2015年在媒體通報(bào)中表示,中國約有9000萬乙肝病毒慢性感染者,幾乎占全國人口的7%,占到了世界總數(shù)的1/3左右。大多數(shù)感染者沒有癥狀,因而不知道自己已被感染,但每10名慢性感染者中,就可能有3人出現(xiàn)危及生命的嚴(yán)重并發(fā)癥,如肝硬化和肝癌等。慢性乙肝在中國每年導(dǎo)致33萬多例癌癥相關(guān)死亡,是我國一個(gè)重要的公共衛(wèi)生問題。因此,作為乙肝大國,研究如何建立無創(chuàng)性乙肝代償期肝硬化篩查模型對我國的公共衛(wèi)生事業(yè)有著深遠(yuǎn)的意義。
目前,國內(nèi)外一致認(rèn)為肝臟組織活檢病理學(xué)檢查是精確診斷肝硬化的“金標(biāo)準(zhǔn)”。然而,該項(xiàng)檢查屬于有創(chuàng)檢查,存在取材誤差和并發(fā)癥,難于被患者接受;特別是無法反復(fù)多次進(jìn)行,不利于動(dòng)態(tài)觀察患者的病情進(jìn)展。為了克服肝臟組織活檢病理學(xué)檢查的缺陷,國外研究出了一整套關(guān)于肝硬化無創(chuàng)性篩查的方法,這些無創(chuàng)性方法在評價(jià)肝硬化程度、輔助制定治療策略以及選擇治療時(shí)機(jī)上都起到了重要作用。根據(jù)診斷指標(biāo)的類型,可將這些方法分為血清學(xué)篩查法和影像學(xué)篩查法。
血清學(xué)篩查包括直接標(biāo)志物、間接標(biāo)志物。直接標(biāo)志物反映了肝臟細(xì)胞外基質(zhì)的沉積和清除情況;間接標(biāo)志物反應(yīng)肝功能的改變。目前基于血清學(xué)的篩查模型是基于多種血清學(xué)標(biāo)志物的綜合模型。具體的方法有:Fibrotest、Forns、APRI、FIB-4、Hepascore、Fibrometer、ELF、Fibroindex、Hui模型、zeng模型。在這些方法中僅有Fibrotest、Fibroindex、Hui模型和zeng模型被用于乙肝肝硬化的無創(chuàng)性篩查,其他方法則只用于丙肝肝硬化的無創(chuàng)性篩查。
作為上述方法中典型代表的Fibrotest方法選取的指標(biāo)有:血中載脂蛋白A1、a2巨球蛋白、結(jié)合珠蛋白、γ-谷氨酰轉(zhuǎn)肽酶(γ-glutamyl transpeptidase,γ-GT)和總膽紅素5項(xiàng)指標(biāo),再結(jié)合年齡、性別和體質(zhì)指數(shù)進(jìn)行調(diào)整。Myers等對61例纖維化分期為F2~F4的乙肝感染者進(jìn)行研究,證實(shí)了Fibrotest可以篩查出顯著肝纖維化,減少了46%的肝穿刺率并保證了92%的準(zhǔn)確率。Fibrotest可以很好的區(qū)分輕度和重度肝硬化,但是對纖維化的逐級評估較為困難。張文勝等提出的Fibroindex方法以270例慢性乙肝患者血清學(xué)指標(biāo)與肝穿病理對照,建立了一個(gè)由年齡、血小板計(jì)數(shù)、γ-GT和透明質(zhì)酸4項(xiàng)指標(biāo)構(gòu)成的判別肝纖維化程度的指數(shù)模型,模型中的HA是進(jìn)行CLC診斷的最佳標(biāo)志物,但是由于血清透明質(zhì)酸檢驗(yàn)存在漏診問題,也降低了Fibroindex模型的準(zhǔn)確性。而Hui模型與Zeng模型的準(zhǔn)確度還有待進(jìn)一步驗(yàn)證。
血清學(xué)檢測在臨床上有95%的高應(yīng)用率、良好的重復(fù)使用性以及低費(fèi)用的特點(diǎn)。但是有些指標(biāo)并不僅是肝臟特異性指標(biāo),一些合并癥會(huì)造成相近的指標(biāo)值,這時(shí)則需要結(jié)合多種輔助方法進(jìn)行測定,保證檢測結(jié)果的準(zhǔn)確性。例如Gilbert綜合征或溶血癥患者在做Fibrotest和Hepascore時(shí)會(huì)有假陽性結(jié)果,因?yàn)檫@部分患者有高血膽紅素癥。類似的還有急性肝炎患者的天冬氨酸-血小板比值指數(shù)(APRI)也會(huì)產(chǎn)生假陽性結(jié)果,有時(shí)還要利用Forns指數(shù)、FIB-4、或纖維蛋白檢測(Fibrometertest)測試,檢測轉(zhuǎn)氨酶水平??傊?,血清學(xué)檢測在臨床上雖然具有高可用度,但是其血清指標(biāo)的復(fù)雜度導(dǎo)致需要結(jié)合多種輔助方法配合使用。
影像學(xué)篩查法根據(jù)檢查手段主要分為超聲篩查法和核磁共振篩查法。
在超聲篩查方面,瞬時(shí)彈力圖像(Transient Elastography,TE)以及最近被引入臨床使用的聲脈沖輻射力成像(ARFI)都取得了較好的效果。在過去的十年里,瞬時(shí)彈力圖像(TE)在肝硬化的各個(gè)階段都被證明是較為有效的方法。其優(yōu)點(diǎn)是高精確性、高可用性和良好預(yù)后判斷能力。但是,其最大的局限性表現(xiàn)為:只有80%的病人可以使用TE方法,并且當(dāng)病人有肥胖、腹水情況下不可使用。此外,該方法需要借助特定的儀并要求操作人員具有一定的實(shí)際使用經(jīng)驗(yàn)。特別地,對于中度肝纖維化,這種方法很難描述。另一方面,ARFI方法具有與TE相似的性能且檢測范圍更小、具有更高的可用性。ARFI在普通超聲機(jī)器上就可以實(shí)現(xiàn),比TE的使用限制條件更少,可以用于有腹水或者肥胖的病人。但是,ARFI這種方法的準(zhǔn)確度有待驗(yàn)證,與TE一樣,對于肝纖維各階段化無法描述,也無法評估預(yù)后情況。
核磁共振(Magnetic Resonance,MR)成像技術(shù)在篩查代償期肝硬化方面,甚至比TE要有更好的效果和更好的適用性。但是所取得的效果還有待進(jìn)一步驗(yàn)證。由于需要利用造影劑來提高其準(zhǔn)確性,使得用MR來輔助篩查需要支付高額的檢查費(fèi)用。此外,MR方法的等待時(shí)間很長,很少有病人愿意使用此方法。對于體內(nèi)有金屬植入物的患者,MR方法的效果會(huì)受到影響,因此在臨床應(yīng)用上有較大的局限性。
一些國際研究中心研究表明,就TE、ARFI以及肝臟組織活檢病理學(xué)檢查在肝纖維化各個(gè)階段的效果而言,TE的效果最好。但是當(dāng)肝纖維化程度較重甚至出現(xiàn)硬化時(shí),各種方法的效果則差不多。
總之,肝硬化無創(chuàng)性篩查方法在實(shí)際臨床上有著高應(yīng)用率、可重復(fù)性以及易于推廣等優(yōu)點(diǎn)。近些年來,通過臨床研究的不斷深入和各項(xiàng)新技術(shù)的開展,肝硬化無創(chuàng)性篩查方法將會(huì)越來越準(zhǔn)確地預(yù)測、分析肝纖維化程度,為臨床診斷以及治療方案的制定起到了重要的輔助作用。
隨著乙肝隨訪與臨床科研平臺(tái)的建立,未來我國對于相關(guān)研究的重點(diǎn)將是通過對臨床大樣本的研究,建立肝硬化無創(chuàng)篩查模型并動(dòng)態(tài)評估病情進(jìn)展,在電子數(shù)據(jù)平臺(tái)建立的基礎(chǔ)上,利用大數(shù)據(jù)分析技術(shù),為乙肝肝硬化治療提出更為科學(xué)合理的方案。
如今,計(jì)算機(jī)技術(shù)已廣泛深入領(lǐng)域,特別是醫(yī)療行業(yè)。在大數(shù)據(jù)時(shí)代,如何運(yùn)用計(jì)算機(jī)技術(shù)對現(xiàn)有醫(yī)療大數(shù)據(jù)進(jìn)行分析,從中獲取知識(shí)模型輔助臨床診斷是現(xiàn)階段醫(yī)療信息化的熱點(diǎn)方向。決策樹算法以其簡單、有效和便于理解等特點(diǎn)已廣泛應(yīng)用于醫(yī)療領(lǐng)域。但決策樹并不是穩(wěn)定的算法,因此常常被用于集成學(xué)習(xí)框架中的基分類器。其典型代表隨機(jī)森林(Random Forest)就是一種基于決策樹的集成分類算法。隨機(jī)森林由多棵決策樹構(gòu)成,其中每一棵決策樹都是在數(shù)據(jù)集的一個(gè)抽樣副本集上訓(xùn)練得到的。這些抽樣副本集又稱為袋子(Bag),每一袋的樣本數(shù)量與原始數(shù)據(jù)集的樣本數(shù)量相同。在創(chuàng)建子樹的每個(gè)結(jié)點(diǎn)過程中,根據(jù)Gini指數(shù)從一個(gè)隨機(jī)選擇的特征子集中選擇最優(yōu)特征用于分裂。隨機(jī)選擇的特征子集所包含的特征數(shù)量作為隨機(jī)森林的入口參數(shù)由用戶提供。最終的分類結(jié)果通過集成每個(gè)子樹的分類結(jié)果給出。
在隨機(jī)森林中,隨機(jī)化的方法主要有以下兩種方式:(1)采用Bootstrap自助采樣方法從原始數(shù)據(jù)集中進(jìn)行有放回地抽樣。(2)隨機(jī)化的特征選擇方式。通過使用隨機(jī)化的方法,可以降低森林中每個(gè)子樹的相關(guān)性,提升隨機(jī)森林的整體泛化能力。
在醫(yī)療領(lǐng)域,隨機(jī)森林被廣泛應(yīng)用。使用隨機(jī)森林對腦腫瘤患者進(jìn)行了預(yù)測,提高了預(yù)測精度。對比了分別用羅杰斯特回歸和隨機(jī)森林估計(jì)關(guān)于腸炎沙門氏菌感染的病例人群病因分值的有效性,結(jié)果顯示隨機(jī)森林比羅杰斯特回歸產(chǎn)生了更好的效果。利用隨機(jī)森林通過心率變異性來評估胎兒成熟年齡。綜上所述,隨機(jī)森林已在醫(yī)療領(lǐng)域得到了廣泛的應(yīng)用,是一種較為成熟的分類模型。
然而,就現(xiàn)有的隨機(jī)森林算法而言,由于采用Gini指數(shù)來選擇分裂節(jié)點(diǎn)構(gòu)建決策樹,使得構(gòu)建的決策樹對非均衡類分布敏感,從而導(dǎo)致隨機(jī)森林分類性能整體下降。主要原因在于:當(dāng)數(shù)據(jù)集中類分布不均衡時(shí),數(shù)據(jù)集中所含樣本的混雜程度就會(huì)降低,特別當(dāng)類分布高度傾斜時(shí),混雜程度還會(huì)進(jìn)一步降低。這時(shí)利用Gini指數(shù)選擇分裂屬性時(shí),可能會(huì)出現(xiàn)混雜度減少量(增益)很小甚至負(fù)增長,從而無法有效選擇分裂屬性,最終導(dǎo)致決策樹過早地停止生長,進(jìn)而無法有效劃分出少數(shù)類樣本。
另一方面,目前國內(nèi)外在肝硬化無創(chuàng)性篩查方法方面已經(jīng)取得了長足的進(jìn)步,并且隨著新的醫(yī)療技術(shù)的開展,這一進(jìn)步還將進(jìn)一步擴(kuò)大;但是這些無創(chuàng)性篩查模型多為單類別指標(biāo)且模型多為所選取指標(biāo)的線性組合,忽略了實(shí)際中往往還存在非線性關(guān)系這一事實(shí)。
技術(shù)實(shí)現(xiàn)要素:
為解決上述現(xiàn)有技術(shù)中的不足,本發(fā)明的目的是提供一種基于隨機(jī)森林算法的乙肝代償期肝硬化篩查模型建立方法,該方法采集南京江北人民醫(yī)院近三年來的乙肝患者和代償期肝硬化患者的血清指標(biāo)和B超的影像學(xué)特征等數(shù)據(jù)建立樣本數(shù)據(jù)庫,借助基于Hellinger距離的隨機(jī)森林算法建立一個(gè)無創(chuàng)性乙肝代償期肝硬化的預(yù)警模型。
本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的:
本發(fā)明提供一種基于隨機(jī)森林算法的乙肝代償期肝硬化篩查模型建立方法,其改進(jìn)之處在于,所述方法包括下述步驟:
(1)數(shù)據(jù)采集;
(2)數(shù)據(jù)預(yù)處理;
(3)建立基于隨機(jī)森林算法的乙肝代償期肝硬化篩查分類模型;
(4)測試并評價(jià)分類模型。
進(jìn)一步地,所述步驟(1)中,分別采集乙肝、乙肝代償期肝硬化患者信息,其包括血清指標(biāo)和B超的影像;對重復(fù)住院患者只取其第一次入院數(shù)據(jù),并排除以下病例:重疊其他肝炎病毒感染、合并甲狀腺疾病或自身免疫性疾病以及其它任何不適合此項(xiàng)研究情況的患者;
采集的血清指標(biāo)包括:白蛋白、高密度脂蛋白、低密度脂蛋白、總膽紅素、直接膽紅素、谷丙轉(zhuǎn)氨酶、谷草轉(zhuǎn)氨酶、血清Ⅳ型膠原測定、血清Ⅲ型膠原測定、層黏蛋白、血清透明質(zhì)酸酶測定、紅細(xì)胞壓積、紅細(xì)胞計(jì)數(shù)、白細(xì)胞計(jì)數(shù)、血小板、血紅蛋白、中性粒細(xì)胞絕對值、淋巴細(xì)胞絕對值、單核細(xì)胞絕對值、嗜酸性粒細(xì)胞絕對值、嗜堿性粒細(xì)胞絕對值、均紅細(xì)胞體積、平均血紅蛋白量、平均血紅蛋白濃度、紅細(xì)胞分布寬度、平均血小板體積、血小板分布寬度、凝血酶原時(shí)間、白球比、凝血酶原活動(dòng)度、血小板比積;
B超的影像學(xué)特征,包括:肝靜脈特征:1):正常、2):模糊、3):狹窄;肝實(shí)質(zhì)回聲特征;1):分布均勻、2):分布不均勻、3):斑狀、網(wǎng)狀、索狀或結(jié)節(jié)狀強(qiáng)回聲光團(tuán);肝臟表面形態(tài)特征:1):正常、2):不規(guī)則、3):鋸齒狀、波狀或結(jié)節(jié)狀;、肝臟邊緣特征:1):正常、2):尖端變鈍,但肝左葉形態(tài)正常、3):極度鈍化,肝左葉失去正常形態(tài);膽囊壁特征:1):正常、2):毛糙、3):增厚或雙邊征;脾臟面積特征:1):22cm以下、2):22cm—28cm、3):28cm以上。
數(shù)據(jù)集的特征:在初步收集了南京江北人民醫(yī)院近三年的乙肝患者和代償期肝硬化患者的血清指標(biāo)和B超的影像學(xué)特征等樣本數(shù)據(jù)后,發(fā)現(xiàn)慢性乙肝患者數(shù)為425例,代償期肝硬化患者僅為36例。由此可以看出總體類分布應(yīng)該是一個(gè)高度非均衡類分布。在這里用多數(shù)類表示慢性乙肝患者,用少數(shù)類表示代償期肝硬化患者。對于現(xiàn)有的隨機(jī)森林算法而言,由于采用Gini指數(shù)來選擇分裂節(jié)點(diǎn)構(gòu)建決策樹,使得構(gòu)建的決策樹對非均衡類分布敏感,從而導(dǎo)致隨機(jī)森林分類性能整體下降。主要原因在于:當(dāng)數(shù)據(jù)集中類分布不均衡時(shí),數(shù)據(jù)集中所含樣本的混雜程度就會(huì)降低,特別當(dāng)類分布高度傾斜時(shí),混雜程度還會(huì)進(jìn)一步降低。這時(shí)利用Gini指數(shù)選擇分裂屬性時(shí),可能會(huì)出現(xiàn)混雜度減少量(增益)很小甚至負(fù)增長,從而無法有效選擇分裂屬性,最終導(dǎo)致決策樹過早地停止生長,進(jìn)而無法有效劃分出少數(shù)類樣本即代償期肝硬化患者。因此,根據(jù)所采集的數(shù)據(jù)集特征,使用基于Hellinger距離的隨機(jī)森林算法模型建立一個(gè)無創(chuàng)性乙肝代償期肝硬化的預(yù)警模型。
進(jìn)一步地,所述步驟(2)中,對所收集的病例樣本數(shù)據(jù)進(jìn)行過濾和清洗工作,對于缺失的連續(xù)型數(shù)據(jù),則采用均值法補(bǔ)全;對于缺失的離散型數(shù)據(jù)則賦予同類樣本中出現(xiàn)頻率最高的離散值。
進(jìn)一步地,所述步驟(3)中,依據(jù)Hellinger距離計(jì)算,編制基于Hellinger距離的隨機(jī)森林算法模型;運(yùn)用5×2折交叉驗(yàn)證方法訓(xùn)練模型并驗(yàn)證之;在交叉驗(yàn)證過程中,每個(gè)數(shù)據(jù)集被分成數(shù)量相等的兩個(gè)子集,兩個(gè)實(shí)驗(yàn)分別在每個(gè)子集上運(yùn)行,其中一個(gè)子集用于訓(xùn)練,另一個(gè)子集用于測試;整個(gè)過程迭代5次,最后取10個(gè)實(shí)驗(yàn)的平均結(jié)果作為最終結(jié)果;所述步驟(3)包括下述步驟:
①采用Bootstrap方法從原始數(shù)據(jù)集中有放回地抽取數(shù)量相同的樣本作為副本集;
②在副本集上創(chuàng)建決策樹;
③最終待測樣本的分類結(jié)果通過集成每個(gè)子樹的分類結(jié)果采用投票表決方式給出。
進(jìn)一步地,所述步驟①中,所述Bootstrap方法指的是從原始數(shù)據(jù)集中有放回地抽取數(shù)量相同的樣本作為副本集,也稱為自助法。
進(jìn)一步地,所述步驟②中,在創(chuàng)建決策樹過程中,根據(jù)Hellinger距離從一個(gè)隨機(jī)選擇的特征子集中選擇具有最大值的特征用于分裂;隨機(jī)選擇的特征子集所包含的特征數(shù)量作為隨機(jī)森林的入口參數(shù)由用戶提供;
進(jìn)一步地,當(dāng)使用Hellinger距離作為決策樹算法中分裂屬性評價(jià)指標(biāo)時(shí),其計(jì)算如下所示:
其中,X表示對應(yīng)屬性;|X+|和|X-|分別表示數(shù)據(jù)集中代償期肝硬化患者(少數(shù)類)和慢性乙肝患者(多數(shù)類)的例數(shù);|X+j|和|X-j|表示屬性X的值為j且分別屬于代償期肝硬化患者(少數(shù)類)和慢性乙肝患者的病例數(shù)(多數(shù)類);p表示屬性X具有不同值的個(gè)數(shù);所得之值表示屬性X對代償期肝硬化患者(少數(shù)類)和慢性乙肝患者(多數(shù)類)的區(qū)分能力,該值越大表明區(qū)分能力越強(qiáng)。
進(jìn)一步地,所述步驟③中,增加隨機(jī)森林算法的輸出方式即在原有通過投票表決法來決定輸出值(其輸出值為是或者否)的基礎(chǔ)上增加概率連續(xù)值的輸出方式,以評估乙肝患者的病情進(jìn)展和預(yù)后情況;
假設(shè)建立的模型中包含N棵子樹,其中預(yù)測值為是,即預(yù)測為代償期肝硬化的子樹有K棵,K≤N,則概率P=K/N;當(dāng)P值較大時(shí),說明患者患肝硬化的可能性較大,考慮行肝臟組織活檢病理學(xué)檢查;另一方面,通過P值來評估乙肝患者的病情進(jìn)展和預(yù)后情況。
進(jìn)一步地,所述步驟(4)中,分別應(yīng)用受試者工作特征曲線和精度召回率曲線下面積AUroc和AUprc作為所建立模型的評價(jià)指標(biāo);
受試者工作特征曲線即ROC曲線是以真正率即靈敏度TPrate為縱坐標(biāo),假正率即特異度FPrate為橫坐標(biāo)繪制的曲線;ROC曲線以可視化的方式反映出收益和代價(jià),即真正率和假正率之間的平衡關(guān)系。在ROC空間,對角線代表一個(gè)隨機(jī)分類器,點(diǎn)(0,1)表示一個(gè)理想的最佳分類器。
精度召回率曲線即PR曲線以精度Precision為縱坐標(biāo),召回率Recall為橫坐標(biāo)繪制的曲線。在PR空間,精度=0.5的直線代表一個(gè)隨機(jī)分類器,點(diǎn)(1,1)表示一個(gè)理想的最佳分類器。PRC與ROC曲線存在很強(qiáng)的聯(lián)系,即如果一個(gè)分類算法在PR空間上具有優(yōu)勢,那么該算法在ROC空間同樣具有優(yōu)勢,反之不一定成立。特別在面對高度非均衡問題時(shí),PR曲線給出更加合理的結(jié)果,而ROC曲線則會(huì)給出過于樂觀的結(jié)果。這主要是由于高度非均衡問題中,多數(shù)類樣本個(gè)數(shù)要遠(yuǎn)遠(yuǎn)大于少數(shù)類樣本個(gè)數(shù),而多數(shù)類樣本被錯(cuò)分個(gè)數(shù)的增加并不會(huì)顯著改變FPrate即ROC曲線并不能準(zhǔn)確反應(yīng)這一現(xiàn)象。而PR曲線對應(yīng)的精度指標(biāo)可以準(zhǔn)確撲捉這一現(xiàn)象。因此,PR曲線更加適合在高度非均衡分類應(yīng)用場景下評價(jià)分類算法的性能。
為了對披露的實(shí)施例的一些方面有一個(gè)基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評述,也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍。其唯一目的是用簡單的形式呈現(xiàn)一些概念,以此作為后面的詳細(xì)說明的序言。
與最接近的現(xiàn)有技術(shù)相比,本發(fā)明提供的技術(shù)方案具有的優(yōu)異效果是:
本發(fā)明提供的方法采集南京江北人民醫(yī)院近三年來的乙肝患者和代償期肝硬化患者的血清指標(biāo)和B超的影像學(xué)特征等數(shù)據(jù)建立樣本數(shù)據(jù)庫,借助隨機(jī)森林算法建立一個(gè)無創(chuàng)性乙肝代償期肝硬化的預(yù)警模型。該模型應(yīng)具有以下意義:
(1)模型能夠有效地預(yù)測出乙肝患者(待測樣本)是否處于代償期肝硬化。
(2)模型能夠有效地給出出乙肝患者(待測樣本)處于代償期肝硬化的概率值,該值也可以用于評估乙肝患者的病情進(jìn)展和預(yù)后情況。
(3)傳統(tǒng)無創(chuàng)評估模型僅限于各種指標(biāo)間線性組合。通常情況下,各種指標(biāo)之間并不一定符合線性關(guān)系,因此建立的模型能夠表達(dá)不同指標(biāo)之間的非線性關(guān)系。
(4)傳統(tǒng)的無創(chuàng)評估模型都無法根據(jù)新增樣本進(jìn)行修正,特別是一些通過線性回歸建立的模型。本模型支持通過新增樣本進(jìn)行重新學(xué)習(xí),不斷優(yōu)化模型結(jié)構(gòu),提高模型的泛化能力。
(5)通過該模型的評估,可以減少不必要的肝臟組織活檢病理學(xué)檢查;但對于預(yù)測為代償期肝硬化的乙肝患者,可以考慮通過肝臟組織活檢病理學(xué)檢查來確診。
(6)將血清指標(biāo)與B超的影像學(xué)特征結(jié)合起來建立混合指標(biāo)模型,提高了模型的泛化能力。
帶來了經(jīng)濟(jì)效益和社會(huì)效益:
(1)經(jīng)濟(jì)效益:
①由于減少了不必要的肝臟組織活檢病理學(xué)檢查,降低了檢查成本,吸引更多的乙肝患者前來就診。
②在模型達(dá)到一定預(yù)測精度的基礎(chǔ)上,可以聯(lián)合其他項(xiàng)目開展相關(guān)檢查,增加收入。
(2)社會(huì)效益:
①由于減少了不必要的肝臟組織活檢病理學(xué)檢查,減少了醫(yī)生工作量。
②降低看病成本,減輕了部分患者的痛苦,減少了醫(yī)患矛盾。
③利用模型的輔助功能,使得醫(yī)生可以完成初步診斷。
④模型的篩查功能可以輔助于臨床教學(xué)。
應(yīng)用趨向和推廣應(yīng)用單位:本實(shí)施例在南京江北人民醫(yī)院實(shí)現(xiàn)建模并系統(tǒng)化,待系統(tǒng)穩(wěn)定和成熟后可推廣到其他醫(yī)院。
在初步收集了南京江北人民醫(yī)院近三年的乙肝患者和代償期肝硬化患者的血清指標(biāo)和B超的影像學(xué)特征等樣本數(shù)據(jù)后,發(fā)現(xiàn)慢性乙肝患者數(shù)為425例,代償期肝硬化患者僅為36例。由此可以看出總體類分布應(yīng)該是一個(gè)高度非均衡類分布。在這里用多數(shù)類表示慢性乙肝患者,用少數(shù)類表示代償期肝硬化患者。對于現(xiàn)有的隨機(jī)森林算法而言,由于采用Gini指數(shù)來選擇分裂節(jié)點(diǎn)構(gòu)建決策樹,使得構(gòu)建的決策樹對非均衡類分布敏感,從而導(dǎo)致隨機(jī)森林分類性能整體下降。主要原因在于:當(dāng)數(shù)據(jù)集中類分布不均衡時(shí),數(shù)據(jù)集中所含樣本的混雜程度就會(huì)降低,特別當(dāng)類分布高度傾斜時(shí),混雜程度還會(huì)進(jìn)一步降低。這時(shí)利用Gini指數(shù)選擇分裂屬性時(shí),可能會(huì)出現(xiàn)混雜度減少量(增益)很小甚至負(fù)增長,從而無法有效選擇分裂屬性,最終導(dǎo)致決策樹過早地停止生長,進(jìn)而無法有效劃分出少數(shù)類樣本即代償期肝硬化患者。
為了上述以及相關(guān)的目的,一個(gè)或多個(gè)實(shí)施例包括后面將詳細(xì)說明并在權(quán)利要求中特別指出的特征。下面的說明以及附圖詳細(xì)說明某些示例性方面,并且其指示的僅僅是各個(gè)實(shí)施例的原則可以利用的各種方式中的一些方式。其它的益處和新穎性特征將隨著下面的詳細(xì)說明結(jié)合附圖考慮而變得明顯,所公開的實(shí)施例是要包括所有這些方面以及它們的等同。
附圖說明
圖1是本發(fā)明提供的基于隨機(jī)森林算法的乙肝代償期肝硬化篩查模型建立方法的流程圖;
圖2是本發(fā)明提供的基于隨機(jī)森林算法實(shí)驗(yàn)數(shù)據(jù)顯示圖。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明的具體實(shí)施方式作進(jìn)一步的詳細(xì)說明。
以下描述和附圖充分地顯示出本發(fā)明的具體實(shí)施方案,以使本領(lǐng)域的技術(shù)人員能夠?qū)嵺`它們。其他實(shí)施方案可以包括結(jié)構(gòu)的、邏輯的、電氣的、過程的以及其他的改變。實(shí)施例僅代表可能的變化。除非明確要求,否則單獨(dú)的組件和功能是可選的,并且操作的順序可以變化。一些實(shí)施方案的部分和特征可以被包括在或替換其他實(shí)施方案的部分和特征。本發(fā)明的實(shí)施方案的范圍包括權(quán)利要求書的整個(gè)范圍,以及權(quán)利要求書的所有可獲得的等同物。在本文中,本發(fā)明的這些實(shí)施方案可以被單獨(dú)地或總地用術(shù)語“發(fā)明”來表示,這僅僅是為了方便,并且如果事實(shí)上公開了超過一個(gè)的發(fā)明,不是要自動(dòng)地限制該應(yīng)用的范圍為任何單個(gè)發(fā)明或發(fā)明構(gòu)思。
本發(fā)明擬采用基于Hellinger距離的隨機(jī)森林算法通過南京江北人民醫(yī)院近三年來收集的乙肝患者和代償期肝硬化患者的血清指標(biāo)和B超的影像學(xué)特征等樣本數(shù)據(jù)建立一個(gè)無創(chuàng)性乙肝代償期肝硬化的預(yù)警模型。通過該模型,不但能夠有效地預(yù)測乙肝患者(待測樣本)是否處于代償期肝硬化,而且還能夠評估乙肝患者的病情進(jìn)展和預(yù)后情況。通過該模型的評估,可以減少不必要的肝臟組織活檢病理學(xué)檢查。
(1)數(shù)據(jù)采集:
本實(shí)施例以南京江北人民醫(yī)院感染科自2013年以來的住院電子病歷數(shù)據(jù)為來源,分別采集乙肝、乙肝代償期肝硬化患者信息,其包括血清指標(biāo)和B超的影像。對重復(fù)住院患者只取其第一次入院數(shù)據(jù)。排除以下病例:重疊其他肝炎病毒感染、合并甲狀腺疾病或自身免疫性疾病以及其它任何不適合此項(xiàng)研究情況的患者。采集的血清指標(biāo)包括:白蛋白、高密度脂蛋白、低密度脂蛋白、總膽紅素、直接膽紅素、谷丙轉(zhuǎn)氨酶、谷草轉(zhuǎn)氨酶、血清Ⅳ型膠原測定、血清Ⅲ型膠原測定、層黏蛋白、血清透明質(zhì)酸酶測定、紅細(xì)胞壓積、紅細(xì)胞計(jì)數(shù)、白細(xì)胞計(jì)數(shù)、血小板、血紅蛋白、中性粒細(xì)胞絕對值、淋巴細(xì)胞絕對值、單核細(xì)胞絕對值、嗜酸性粒細(xì)胞絕對值、嗜堿性粒細(xì)胞絕對值、均紅細(xì)胞體積、平均血紅蛋白量、平均血紅蛋白濃度、紅細(xì)胞分布寬度、平均血小板體積、血小板分布寬度、凝血酶原時(shí)間、白球比、凝血酶原活動(dòng)度、血小板比積;
B超的影像學(xué)特征包括:肝靜脈(1:正常、2:模糊、3:狹窄),肝實(shí)質(zhì)回聲(1:分布均勻、2:分布不均勻、3:斑狀、網(wǎng)狀、索狀或結(jié)節(jié)狀強(qiáng)回聲光團(tuán))、肝臟表面形態(tài)(1:正常、2:不規(guī)則、3:鋸齒狀、波狀或結(jié)節(jié)狀)、肝臟邊緣(1:正常、2:尖端變鈍,但肝左葉形態(tài)正常、3:極度鈍化,肝左葉失去正常形態(tài))、膽囊壁(1-正常、2-毛糙、3-增厚或雙邊征)、脾臟面積(1:22cm以下、2:22cm—28cm、3:28cm以上)。
數(shù)據(jù)集的特征:在初步收集了南京江北人民醫(yī)院近三年的乙肝患者和代償期肝硬化患者的血清指標(biāo)和B超的影像學(xué)特征等樣本數(shù)據(jù)后,發(fā)現(xiàn)慢性乙肝患者數(shù)為425例,代償期肝硬化患者僅為36例。由此可以看出總體類分布應(yīng)該是一個(gè)高度非均衡類分布。在這里用多數(shù)類表示慢性乙肝患者,用少數(shù)類表示代償期肝硬化患者。對于現(xiàn)有的隨機(jī)森林算法而言,由于采用Gini指數(shù)來選擇分裂節(jié)點(diǎn)構(gòu)建決策樹,使得構(gòu)建的決策樹對非均衡類分布敏感,從而導(dǎo)致隨機(jī)森林分類性能整體下降。主要原因在于:當(dāng)數(shù)據(jù)集中類分布不均衡時(shí),數(shù)據(jù)集中所含樣本的混雜程度就會(huì)降低,特別當(dāng)類分布高度傾斜時(shí),混雜程度還會(huì)進(jìn)一步降低。這時(shí)利用Gini指數(shù)選擇分裂屬性時(shí),可能會(huì)出現(xiàn)混雜度減少量(增益)很小甚至負(fù)增長,從而無法有效選擇分裂屬性,最終導(dǎo)致決策樹過早地停止生長,進(jìn)而無法有效劃分出少數(shù)類樣本即代償期肝硬化患者。因此,根據(jù)所采集的數(shù)據(jù)集特征,使用基于Hellinger距離的隨機(jī)森林算法模型建立一個(gè)無創(chuàng)性乙肝代償期肝硬化的預(yù)警模型。
(2)數(shù)據(jù)預(yù)處理:
對所收集的病例樣本進(jìn)行過濾、清洗工作,對于缺失的連續(xù)型數(shù)據(jù),則采用均值法補(bǔ)全。對于缺失的離散型數(shù)據(jù)則賦予同類樣本中出現(xiàn)頻率最高的離散值。
(3)編制程序并建立分類模型:
依據(jù)Hellinger距離計(jì)算公式,編制基于Hellinger距離的隨機(jī)森林算法模型。在此基礎(chǔ)上,運(yùn)用5×2折交叉驗(yàn)證方法訓(xùn)練模型并驗(yàn)證之。在交叉驗(yàn)證過程中,每個(gè)數(shù)據(jù)集被分成數(shù)量相等的兩個(gè)子集,兩個(gè)實(shí)驗(yàn)分別在每個(gè)子集上運(yùn)行,其中一個(gè)子集用于訓(xùn)練,另一個(gè)子集用于測試。整個(gè)過程迭代5次,最后取10個(gè)實(shí)驗(yàn)的平均結(jié)果作為最終結(jié)果。
采用基于Hellinger距離的隨機(jī)森林算法來建立一個(gè)無創(chuàng)性乙肝代償期肝硬化的預(yù)警模型。該森林由多棵決策樹構(gòu)成,其中每一棵決策樹都是在數(shù)據(jù)集的一個(gè)抽樣副本集上訓(xùn)練得到的。具體步驟如下:
①采用Bootstrap方法從原始數(shù)據(jù)集中有放回地抽取數(shù)量相同的樣本作為副本集:
②在副本集上創(chuàng)建決策樹。在建樹過程中,根據(jù)Hellinger距離從一個(gè)隨機(jī)選擇的特征子集中選擇具有最大值的特征用于分裂;隨機(jī)選擇的特征子集所包含的特征數(shù)量作為隨機(jī)森林的入口參數(shù)由用戶提供;當(dāng)使用Hellinger距離作為決策樹算法中分裂屬性評價(jià)指標(biāo)時(shí),其計(jì)算如下所示:
其中,X表示對應(yīng)屬性;|X+|和|X-|分別表示數(shù)據(jù)集中代償期肝硬化患者(少數(shù)類)和慢性乙肝患者(多數(shù)類)的例數(shù);|X+j|和|X-j|表示屬性X的值為j且分別屬于代償期肝硬化患者(少數(shù)類)和慢性乙肝患者的病例數(shù)(多數(shù)類);p表示屬性X具有不同值的個(gè)數(shù)。所得之值表示屬性X對代償期肝硬化患者(少數(shù)類)和慢性乙肝患者(多數(shù)類)的區(qū)分能力,該值越大表明區(qū)分能力也越強(qiáng)。由于式中沒有子式與類別的先驗(yàn)概率相關(guān),因此上式具有對非均衡類分布不敏感的特點(diǎn)。
③最終待測樣本的分類結(jié)果通過集成每個(gè)子樹的分類結(jié)果采用投票表決方法給出。
增加原有隨機(jī)森林算法的輸出方式。原有隨機(jī)森林算法通過投票表決法來決定輸出值,其輸出值為‘是’或者‘否’。為了評估乙肝患者的病情進(jìn)展和預(yù)后情況,需要增加概率連續(xù)值的輸出方式。假設(shè)建立的模型中包含N棵子樹,其中預(yù)測值為‘是’即預(yù)測為代償期肝硬化的子樹有K棵(K≤N),則概率P=K/N。當(dāng)P值較大時(shí),說明患者患肝硬化的可能性較大,可考慮行肝臟組織活檢病理學(xué)檢查。另一方面,也可以通過P值來評估乙肝患者的病情進(jìn)展和預(yù)后情況。
(4)測試、評價(jià)模型:
采用受試者工作特征曲線(Receiver Operating Characteristic Curve,簡稱ROC曲線)和精度召回率曲線(PR曲線)(Precision-Recall Curves)的曲線下面積AUroc和AUprc作為所建立模型的評價(jià)指標(biāo)。從而從多各方面來評判所建立模型的分類性能和可靠性。
受試者工作特征曲線(ROC曲線)是以真正率(靈敏度,TPrate)為縱坐標(biāo),假正率(特異度,F(xiàn)Prate)為橫坐標(biāo)繪制的曲線。ROC曲線以可視化的方式反映出收益(真正率)和代價(jià)(假正率)之間的平衡關(guān)系。在ROC空間,對角線代表一個(gè)隨機(jī)分類器,點(diǎn)(0,1)表示一個(gè)理想的最佳分類器。空間中的每個(gè)點(diǎn)表示一個(gè)使用某個(gè)決策閥值的分類器的性能,通過改變不同的決策閥值就可以得到一個(gè)關(guān)于某個(gè)分類器的ROC曲線。然而,僅憑借ROC曲線并不容易比較出分類算法的性能除非曲線上的每個(gè)點(diǎn)都位于另一條曲線之上。因此,通常使用ROC曲線下面積(the Area under the ROC Curve,AUC)度量分類器的性能。該值范圍為[0,1],0.5表示一個(gè)隨機(jī)分類器,該值越大表示分類器的分類性能越好。
精度召回率曲線(PR曲線)(Precision-Recall Curves)以精度(Precision)為縱坐標(biāo),召回率(Recall)為橫坐標(biāo)繪制的曲線。在PR空間,點(diǎn)(1,1)表示一個(gè)理想的最佳分類器。精度=0.5的直線代表一個(gè)隨機(jī)分類器,PRC與ROC曲線存在很強(qiáng)的聯(lián)系,即如果一個(gè)分類算法在PR空間上具有優(yōu)勢,那么該算法在ROC空間同樣具有優(yōu)勢,反之不一定成立;特別在面對高度非均衡問題時(shí),PR曲線給出更加合理的結(jié)果,而ROC曲線則會(huì)給出過于樂觀的結(jié)果。這主要是由于高度非均衡問題中,多數(shù)類樣本個(gè)數(shù)要遠(yuǎn)遠(yuǎn)大于少數(shù)類樣本個(gè)數(shù),而多數(shù)類樣本被錯(cuò)分個(gè)數(shù)的增加并不會(huì)顯著改變FPrate即ROC曲線并不能準(zhǔn)確反應(yīng)這一現(xiàn)象。而PR曲線對應(yīng)的精度指標(biāo)可以準(zhǔn)確撲捉這一現(xiàn)象。因此,PR曲線更加適合在高度非均衡分類應(yīng)用場景下評價(jià)分類算法的性能。
在最后模型的驗(yàn)證中,AUroc和AUprc分別達(dá)到0.83和0.984。具體實(shí)驗(yàn)結(jié)果如表1所示。
表1參與實(shí)驗(yàn)的各種方法在兩種度量指標(biāo)下的實(shí)驗(yàn)結(jié)果
通過計(jì)算ROC曲線和PRC曲線下面積的方法來綜合評價(jià)該分類模型的有效性。實(shí)驗(yàn)中將所提出的基于Hellinger距離的隨機(jī)森林與隨機(jī)森林、平衡的隨機(jī)森林分別以ROC曲線和PR曲線下面積為評價(jià)指標(biāo)相比較。整個(gè)實(shí)驗(yàn)參數(shù)設(shè)置如下:(1)根據(jù)Breiman的推薦,參與實(shí)驗(yàn)的所有集成分類器都設(shè)置為100次迭代即有100棵子樹。(2)對于三種隨機(jī)森林算法,在建樹的每個(gè)結(jié)點(diǎn),隨機(jī)選擇的特征子集中所包含特征的個(gè)數(shù)被設(shè)置為2,因?yàn)檫@一設(shè)置獲得了最好的排名結(jié)果。整體實(shí)驗(yàn)框架如圖1所示。此外,從圖2中可以看出,基于Hellinger距離的隨機(jī)森林算法在所收集的乙肝患者數(shù)據(jù)集上比隨機(jī)森林、平衡的隨機(jī)森林算法取得了更好的分類性能。
本實(shí)施例建立的模型能夠表達(dá)不同指標(biāo)之間的非線性關(guān)系,從而可以克服傳統(tǒng)無創(chuàng)評估模型中各項(xiàng)指標(biāo)只有線性關(guān)系表示的不足。
本實(shí)施例建立的模型支持通過新增樣本進(jìn)行重新學(xué)習(xí),從而不斷優(yōu)化模型結(jié)構(gòu),提高模型的泛化能力,克服了傳統(tǒng)的無創(chuàng)評估模型都無法根據(jù)新增樣本進(jìn)行修正的缺點(diǎn)。
本實(shí)施例將血清指標(biāo)與B超的影像學(xué)特征結(jié)合起來建立混合指標(biāo)模型,提高了模型的泛化能力。
本實(shí)施例選擇已在醫(yī)療領(lǐng)域廣泛應(yīng)用的隨機(jī)森林算法為基本框架,通過改進(jìn)其對非均衡類分布敏感的特性,生成符合總體類分布的分類模型。在類分布非均衡的情況下,結(jié)合國內(nèi)外的最新研究成果和實(shí)際存在的醫(yī)學(xué)分類問題,提出一種基于Hellinger距離的隨機(jī)森林算法,以填補(bǔ)數(shù)據(jù)挖掘技術(shù)在肝硬化無創(chuàng)性篩查方面的研究空白。
應(yīng)用本發(fā)明提供的方法,可以根據(jù)乙肝患者和代償期肝硬化患者的血清指標(biāo)和B超的影像學(xué)特征等樣本數(shù)據(jù)建立一個(gè)無創(chuàng)性乙肝代償期肝硬化的預(yù)警模型。通過該模型,不但能夠有效地預(yù)測乙肝患者(待測樣本)是否處于代償期肝硬化,而且還能夠評估乙肝患者的病情進(jìn)展和預(yù)后情況。通過該模型的評估,可以減少不必要的肝臟組織活檢病理學(xué)檢查。
應(yīng)該明白,公開的過程中的步驟的特定順序或?qū)哟问鞘纠苑椒ǖ膶?shí)例。基于設(shè)計(jì)偏好,應(yīng)該理解,過程中的步驟的特定順序或?qū)哟慰梢栽诓幻撾x本公開的保護(hù)范圍的情況下得到重新安排。所附的方法權(quán)利要求以示例性的順序給出了各種步驟的要素,并且不是要限于所述的特定順序或?qū)哟巍?/p>
在上述的詳細(xì)描述中,各種特征一起組合在單個(gè)的實(shí)施方案中,以簡化本公開。不應(yīng)該將這種公開方法解釋為反映了這樣的意圖,即,所要求保護(hù)的主題的實(shí)施方案需要清楚地在每個(gè)權(quán)利要求中所陳述的特征更多的特征。相反,如所附的權(quán)利要求書所反映的那樣,本發(fā)明處于比所公開的單個(gè)實(shí)施方案的全部特征少的狀態(tài)。因此,所附的權(quán)利要求書特此清楚地被并入詳細(xì)描述中,其中每項(xiàng)權(quán)利要求獨(dú)自作為本發(fā)明單獨(dú)的優(yōu)選實(shí)施方案。
最后應(yīng)當(dāng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對其限制,盡管參照上述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,所屬領(lǐng)域的普通技術(shù)人員依然可以對本發(fā)明的具體實(shí)施方式進(jìn)行修改或者等同替換,這些未脫離本發(fā)明精神和范圍的任何修改或者等同替換,均在申請待批的本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。