專利名稱:基于復(fù)雜系統(tǒng)的中醫(yī)證候診斷量表制作的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及復(fù)雜系統(tǒng)學(xué)和醫(yī)學(xué)應(yīng)用領(lǐng)域,特別涉及一種復(fù)雜系統(tǒng)的量表制作方 法。所得結(jié)果主要用于醫(yī)學(xué)臨床診斷學(xué)、臨床療效評價、以及心理測量學(xué)等應(yīng)用領(lǐng)域。
背景技術(shù):
量表是由若干問題或評分條目組成的標(biāo)準(zhǔn)化測定表格。量表的作用和編制目的在 于力圖科學(xué)和精確地測量一些較抽象的或綜合性較強(qiáng)的概念?,F(xiàn)代的科學(xué)研究已經(jīng)遠(yuǎn)遠(yuǎn)超 越了具象的自然科學(xué)領(lǐng)域,擴(kuò)展到社會、群體或是個體的復(fù)雜行為或神經(jīng)心理狀態(tài)中。許多 概念是抽象、復(fù)雜而無法精確測量的,只能對通過測量這些狀態(tài)的某些表征或者研究對象 的主觀感受來間接的評價,這時量表就成為了最常用的和最可行的工具,并在各種研究領(lǐng) 域中被廣泛應(yīng)用。建立證候的量化診斷量表,首先必須要確定其包含的診斷所需基本要素。這些基 本要素包括望、聞、問、切得到的四診信息,病人自身的體征和病史等信息,甚至包括實(shí)驗(yàn)室 檢測的理化指標(biāo)信息。根據(jù)確定證候診斷基本要素過程中利用的數(shù)據(jù)信息范圍的不同,從 大的方面可以分為有監(jiān)督分析和無監(jiān)督分析兩大類。有監(jiān)督分析需要有用作參照的初始辯 證標(biāo)準(zhǔn),一般是臨床醫(yī)生的經(jīng)驗(yàn)辯證信息。而無監(jiān)督分析只從病人身上的癥狀體征等數(shù)據(jù) 信息出發(fā)提取證候要素,而不利用任何臨床醫(yī)生的經(jīng)驗(yàn)辯證信息。多元統(tǒng)計分析方法中用 以有監(jiān)督分析確定證候診斷基本要素的方法主要有回歸分析和判別分析等,這些方法首先 需要依據(jù)專家或醫(yī)生的判斷確定所研究的證候歸屬,建立最佳判別函數(shù)和回歸方程,有循 環(huán)論證的嫌疑,并不適用于建立客觀有效的證候診斷標(biāo)準(zhǔn)。多元統(tǒng)計方法中用以無監(jiān)督分 析確定證候診斷基本要素的方法主要有聚類分析、因子分析等。聚類分析不能實(shí)現(xiàn)同一個 癥狀信息在不同證候中出現(xiàn),因子分析要求的因子之間相互獨(dú)立與中醫(yī)證候與證候之間、 證候與癥狀之間存在廣泛聯(lián)系的特點(diǎn)不相符合。這些局限性在一定程度上限制了多元統(tǒng)計 分析方法在確定證候診斷基本要素上的應(yīng)用。在確定了證候診斷的基本要素之后,就應(yīng)當(dāng)考慮臨床上不同相關(guān)因素對于證候診 斷作用的差異性,并賦予相應(yīng)不同的貢獻(xiàn)分值。這個過程量化了相關(guān)因素所起的作用,是研 究證候量化診斷標(biāo)準(zhǔn)建立的關(guān)鍵問題。目前很多數(shù)理統(tǒng)計的方法在確定相關(guān)要素貢獻(xiàn)分值 上都得到了不同程度的應(yīng)用。簡單頻數(shù)法是基于診斷對象各指標(biāo)頻數(shù)大小推算指標(biāo)權(quán)重的 方法,它對數(shù)據(jù)分析沒有嚴(yán)格要求。條件概率法根據(jù)指標(biāo)出現(xiàn)頻率計算各相關(guān)要素的條件 概率并按其對各因素賦分,以某一癥狀的相對指數(shù)值反應(yīng)癥狀的實(shí)際權(quán)重。Logistic回歸 分析根據(jù)各變量比數(shù)比值即OR值的大小來評價變量對證候的貢獻(xiàn)大小。逐步線性回歸根 據(jù)各指標(biāo)的標(biāo)準(zhǔn)偏回歸系數(shù)及偏回歸平方和計算其對證候的貢獻(xiàn)值。結(jié)構(gòu)方程模型分析將 其中的通徑系數(shù)作為癥狀對證候的權(quán)重系數(shù)。這些方法在一定程度上豐富了數(shù)理統(tǒng)計賦分 方法的內(nèi)容,但也都不同程度上存在著不能全面刻畫變量間相互關(guān)系的問題。在確定了證候診斷的基本要素及其對證候的貢獻(xiàn)分值之后,必須確定每個證候診 斷對應(yīng)的閾值,只有這樣證候的診斷標(biāo)準(zhǔn)才算初步建立。確定證候診斷閾值,就是指的各相關(guān)要素的貢獻(xiàn)分值達(dá)到某個數(shù)值范圍即可診斷為該證候。利用閾值來診斷證候可以最大程 度上避免主觀因素,也為證候診斷標(biāo)準(zhǔn)的推廣應(yīng)用奠定基礎(chǔ)。目前用以確定證候診斷閾值 的研究方法仍處在探索階段。最大似然判別法將所研究的證候與非所研究的證候的兩類指 數(shù)分別累加,二者的差值即為所研究證型的相對指數(shù)值,而所研究證候中各項(xiàng)相關(guān)因素具 備時的得分相加須大于該分值診斷才能成立,最接近該分值的整數(shù)值即為診斷閾值。判別 分析法通過建立各證候的判別函數(shù),將各癥狀分值代入計算,將病例歸入函數(shù)值最大的一 類,或計算每一例的后驗(yàn)概率,將各病例歸入后驗(yàn)概率最大的一類。參考值估計法則是根據(jù) 病人診斷計分分布確定閾值,其基本原理是把癥狀權(quán)重回代,計算每個對象證候總分并對 其分布類型進(jìn)行正態(tài)性檢驗(yàn),總分服從正態(tài)分布時以單側(cè)下限作為該證候的診斷閾值,總 分分布為非正態(tài)性分布時,采用百分位數(shù)法的第5百分位數(shù)作為診斷閾值(95%參考值范 圍)。最佳臨界值法假設(shè)臨床醫(yī)生的辯證結(jié)果完全正確,它通過調(diào)整界值,以與臨床醫(yī)生辯 證結(jié)果準(zhǔn)確性最高的臨界值作為診斷的閾值。為了解決上述中醫(yī)證候的量表制作方法中存在的條目池確定、賦權(quán)和閾值的計算 不夠準(zhǔn)確的問題,我國啟動了一些科研項(xiàng)目來用于研究新的量表制作方法。本發(fā)明就得 到了以下項(xiàng)目的資助國家重大新藥創(chuàng)制項(xiàng)目(2009ZX09502-018),財政部公益行業(yè)專項(xiàng) (200807007)和國家自然科學(xué)基金(30902020)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于復(fù)雜系統(tǒng)的中醫(yī)證候診斷量表制作的方法,以解決 上述中醫(yī)證候的量表制作方法中存在的條目池確定、賦權(quán)和閾值的計算不夠準(zhǔn)確的問題。本發(fā)明提供的基于復(fù)雜系統(tǒng)的中醫(yī)證候診斷量表制作的方法包括下列步驟1)基于復(fù)雜系統(tǒng)的量表?xiàng)l目池確定,包括兩個子步驟復(fù)雜系統(tǒng)熵聚類和相同屬 性條目組合的合并;a)復(fù)雜系統(tǒng)熵聚類針對數(shù)據(jù)中的自變量數(shù)據(jù),使用自組織的復(fù)雜系統(tǒng)上聚類技 術(shù),將自變量進(jìn)行聚類,并自動確定類的個數(shù);b)相同屬性條目組合的合并對于各個類,進(jìn)行有監(jiān)督回代,并根據(jù)因變量判斷 其屬性,對于屬性相同的類,進(jìn)行條目組合的合并;2)條目賦權(quán),包括2個子步驟基于復(fù)雜系統(tǒng)不對稱互信息計算條目之間相關(guān)性、 不對稱互信息折算成整數(shù)的分子;a)相同屬性內(nèi)根據(jù)不對稱互信息原來計算條目之間的關(guān)聯(lián)性,提取出條目對之間 的雙向關(guān)聯(lián)性;b)根據(jù)雙向關(guān)聯(lián)性得到各個條目的權(quán)重,根據(jù)權(quán)重折算成各個屬性下各個條目的 整數(shù)分?jǐn)?shù),便于實(shí)際應(yīng)用;3)閾值確定,包括兩個子步驟計算出特異性,敏感性和準(zhǔn)確性、使用準(zhǔn)確性曲線 確定閾值;a)根據(jù)每個條目的分?jǐn)?shù),回代至原始數(shù)據(jù),根據(jù)屬性結(jié)果,算出特異性,敏感性和 準(zhǔn)確性;b)把設(shè)定的閾值從0變化至最高分,根據(jù)特異性,敏感性和準(zhǔn)確性的最高值對于 的分?jǐn)?shù)即確定為閾值。
4
下面進(jìn)一步描述各步驟中可以選用的較佳操作方法。所述第1)步a)步驟中,復(fù)雜系統(tǒng)熵聚類方法基于改進(jìn)的互信息刻畫變量之間的 相關(guān)性,在此基礎(chǔ)上提出聚類方法,之后把類回代到原始數(shù)據(jù)中對無監(jiān)督聚類方法進(jìn)行驗(yàn) 證以得到最優(yōu)的類數(shù)目和參數(shù),所述改進(jìn)的互信息基于Shannon熵的互信息,強(qiáng)相關(guān)癥狀 之間與相反癥狀之間用陽性出現(xiàn)率來區(qū)分開,所述陽性出現(xiàn)率是指兩個變量同時都為0的 概率;算出兩兩變量之間的改進(jìn)的互信息,形成一個NXN的矩陣,記為T= (Δ μ ‘ (i, j)),選定一個特定的變量i,在集合Set (i) = {Δ μ ‘ (i,j),j = 1,2... j乒i...N}中 取出值最大的前Z (1 ^ Z ^ N-1)個變量,形成一個有Z個元素的集合,記作D(i),將滿足 i e D(J)且j e D(i)的變量i和j聚在一起。所述第1)步b)步驟中所述有監(jiān)督回代是把各個類回代到四診信息變量中,然后 參考因變量的數(shù)據(jù)判斷類的敏感性,敏感性越大,類就越符合臨床。所述第2)步中權(quán)重的具體計算方法如下系統(tǒng)X = (X1,X2, -,XpI被有效分劃為
Si和5;,研究對象為Si = (X1,X2,…,Xk},1彡k < P,μ (Xi5Xj)表示變量Xi對變量Xj的關(guān) 聯(lián)度系數(shù),μ (Xj, Xi)表示變量&對變量Xi的關(guān)聯(lián)度系數(shù),1 < i, j ^ k,變量Xi對于子系 統(tǒng)Si的貢獻(xiàn)度為艮 所述第3)步a)步驟使用復(fù)雜系統(tǒng)計算過程中的敏感性、特異性和準(zhǔn)確性,將ROC 曲線下面積作為閾值指標(biāo)。本發(fā)明的基于復(fù)雜系統(tǒng)的中醫(yī)證候診斷量表制作的方法僅利用流行病學(xué)調(diào)查數(shù) 據(jù),方法主要操作在二維數(shù)據(jù)空間上,算法簡單有效,條目池確定、賦權(quán)和閾值的計算準(zhǔn)確, 在醫(yī)學(xué)臨床診斷學(xué)、臨床療效評價、以及心理測量學(xué)等量表應(yīng)用領(lǐng)域具有重要的應(yīng)用價值。
圖1為本發(fā)明的基于復(fù)雜系統(tǒng)的中醫(yī)證候診斷量表制作的方法流程圖;圖2為顯示復(fù)雜系統(tǒng)聚類方法的參數(shù)選擇的示圖;圖3-1 圖3-8分別為冠心病心絞痛8個證候(依次為氣滯證、氣虛證、痰濁證、 血瘀證、陰虛證、郁熱證、陽虛證、痰熱證)確定閾值的敏感性、特異性和準(zhǔn)確性的曲線。
具體實(shí)施例方式1方法概述本發(fā)明的目的在于提供一種針對現(xiàn)實(shí)世界中中醫(yī)證候的快速量表制作方法,所獲 得的模型能用于中醫(yī)臨床證候診斷和評價等應(yīng)用領(lǐng)域。本發(fā)明欲解決的技術(shù)問題是實(shí)現(xiàn)條 目池確定,賦權(quán)和閾值的準(zhǔn)確計算。為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)解決方案是使用復(fù)雜系統(tǒng)理論實(shí)現(xiàn)上述三者的準(zhǔn) 確計算,得到最優(yōu)的量表。由于中醫(yī)證候數(shù)據(jù)的復(fù)雜性和復(fù)雜度高,本發(fā)明采用復(fù)雜系統(tǒng)互信息理論以及無 監(jiān)督和有監(jiān)督相結(jié)合以提取隱含在數(shù)據(jù)中的信息。一般來說,傳統(tǒng)的統(tǒng)計學(xué)方法已經(jīng)有相 應(yīng)的量表建立方法,本發(fā)明中我們采用復(fù)雜系統(tǒng)理論主要出于如下兩點(diǎn)原因第一、中醫(yī)證候的數(shù)據(jù)具有非線性,離散性和復(fù)雜性三個特點(diǎn),使用傳統(tǒng)的統(tǒng)計理論很難挖掘到隱含在 數(shù)據(jù)中的深層次的規(guī)律。第二、之前的量表制作過程過多依賴因變量,導(dǎo)致得到的帶有較大 的主觀性,而復(fù)雜系統(tǒng)擅長于無監(jiān)督提取信息,能夠盡量客觀地挖掘出量表的信息。圖1表示了本發(fā)明的基于復(fù)雜系統(tǒng)的中醫(yī)證候診斷量表制作的方法的流程圖,具 體來講,主要包括以下步驟1)基于復(fù)雜系統(tǒng)的量表?xiàng)l目池確定,包括兩個子步驟復(fù)雜系統(tǒng)熵聚類和相同屬 性條目組合的合并;a)復(fù)雜系統(tǒng)熵聚類針對數(shù)據(jù)中的自變量數(shù)據(jù),使用自組織的復(fù)雜系統(tǒng)上聚類技 術(shù),將自變量進(jìn)行聚類,并自動確定類的個數(shù);b)相同屬性條目組合的合并對于各個類,進(jìn)行有監(jiān)督回代,并根據(jù)因變量判斷 其屬性,對于屬性相同的類,進(jìn)行條目組合的合并;2)條目賦權(quán),包括2個子步驟基于復(fù)雜系統(tǒng)不對稱互信息計算條目之間相關(guān)性、 不對稱互信息折算成整數(shù)的分子;a)相同屬性內(nèi)根據(jù)不對稱互信息原來計算條目之間的關(guān)聯(lián)性,提取出條目對之間 的雙向關(guān)聯(lián)性;b)根據(jù)雙向關(guān)聯(lián)性得到各個條目的權(quán)重,根據(jù)權(quán)重折算成各個屬性下各個條目的 整數(shù)分?jǐn)?shù),便于實(shí)際應(yīng)用;3)閾值確定,包括兩個子步驟計算出特異性,敏感性和準(zhǔn)確性、使用準(zhǔn)確性曲線 確定閾值;a)根據(jù)每個條目的分?jǐn)?shù),回代至原始數(shù)據(jù),根據(jù)屬性結(jié)果,算出特異性,敏感性和 準(zhǔn)確性;b)把設(shè)定的閾值從0變化至最高分,根據(jù)特異性,敏感性和準(zhǔn)確性的最高值對于 的分?jǐn)?shù)即確定為閾值。2基于復(fù)雜系統(tǒng)聚類的條目池確定證候的條目池的確定是量表制作的關(guān)鍵,選擇有效的條目池將對后續(xù)的驗(yàn)證提 供。使用無監(jiān)督聚類的條目池確定方法是目前的難點(diǎn)和熱點(diǎn),從事這方面的研究比較少,本 方面彌補(bǔ)了這方便的空白。條目池的確定的兩個子步驟原來如下。2. 1復(fù)雜系統(tǒng)聚類復(fù)雜系統(tǒng)熵聚類方法基于改進(jìn)的互信息刻畫變量之間的相關(guān)性,在此基礎(chǔ)上提出 聚類方法,之后把類回代到原始數(shù)據(jù)中對無監(jiān)督聚類方法進(jìn)行驗(yàn)證以得到最優(yōu)的類數(shù)目和 參數(shù)。2. 1. 1基于Shannon熵的互信息對于一個復(fù)雜系統(tǒng),可以表示為向量s = (X”X2,...,Xp)T (1)其中,不={Xia) (i = 1,2,…,p, a = 1,2,…,q)是描述系統(tǒng)特征的變量。令 Ci(i = l,2,…,p)為&分類的集合,Q的第a個元素q=a,則有Ci= {1,2,…,a,…
k},k彡q,并令na = j為事件&屬于Q第a類的數(shù)量。則變量&的熵定義為
6
Xi和Xj的聯(lián)合熵定義為 其中nab表示事件Xi屬于Ci的第a類同時X^屬于C^的第b類的數(shù)量。式⑵、(3)可分別表示成 有了上述熵的定義,下面給出互信息的定義。定義1.假設(shè)Xi η Xj = Φ,則稱熵μ (Xi,Xj) = H(Xi) +H (Xj) -H (Xi,Xj) (4)為Xi和Xj之間的關(guān)聯(lián)度。定義2.假設(shè)對任意i,j (i乒j),Xi Π Xj = Φ,ρ為任意正整數(shù),稱 為X1, X2,…,Xp之間的互信息·變量之間互信息的定義是對稱的,現(xiàn)實(shí)中事物之間的關(guān)系一般是不對稱的,定義 如下。 2. 1. 2改進(jìn)的互信息對上述定義的互信息在實(shí)際應(yīng)用時會碰到一些問題。比如中醫(yī)臨床中兩個強(qiáng)相關(guān) 的癥狀(比如神疲和乏力)之間的關(guān)聯(lián)度系數(shù)是很大,但是兩個相反的癥狀之間(比如浮 脈和沉脈)的關(guān)聯(lián)度系數(shù)也很大,甚至可能是最大的。這是因?yàn)榛バ畔⒌亩x可以另外表 示為
從上述定義可以看出Xi和Xj之間的互信息實(shí)際上表示為在確定Xj后所提供的關(guān) 于Xi的信息。所以一對強(qiáng)相關(guān)的癥狀之間的關(guān)聯(lián)度和另外一對完全相反的癥狀之間的關(guān)聯(lián) 度都很大,而且都大于0,這就導(dǎo)致我們后面聚類方法無法把這兩種類型的情況區(qū)分開。所 以這里我們提出一種改進(jìn)的互信息來解決這個問題。強(qiáng)相關(guān)癥狀之間與相反癥狀之間可以 用陽性出現(xiàn)率來區(qū)分開。陽性出現(xiàn)率是指兩個變量同時都為0的概率。強(qiáng)相關(guān)癥狀之間的 陽性出現(xiàn)率很大,而相反癥狀之間的陽性出現(xiàn)率理論上應(yīng)該是0,即不可能一個病人同時出 現(xiàn)這兩個相反癥狀。所以我們把互信息以及關(guān)聯(lián)度系數(shù)的定義重新寫成 其中Po(i,j)表示兩個變量Xi和Xj的陽性出現(xiàn)頻率,b是大于1的實(shí)數(shù),是懲罰 系數(shù)。S是閾值。選取合適的閾值不但可以把正相關(guān)和負(fù)相關(guān)分開,而且可以避免一些錯 誤數(shù)據(jù)帶來的干擾。2. 1.3變量的“親友團(tuán)”我們這里只算出兩兩變量之間的改進(jìn)的互信息,這樣就形成一個NXN的矩陣,記 為Τ=(Δμ' (i,j))。對角線的元素表示變量自己與自己的互信息,設(shè)置為0。一般的 方法都是選擇一個全體的閾值來確定是否相關(guān),但是這種做法有點(diǎn)“剛性”,而且這個閾值 的確定帶有太大的主觀性而且太絕對。所以我們這里采取一種相對的做法,選定一個特 定的變量i,在集合Set (i) = {Δ μ ‘ (i, j), j = 1,2... j ^ ...Ν}中取出值最大的前 Z(l^Z^N-l)個變量,形成一個有Z個元素的集合,記作D (i)。Z —般相對N來說是很小 的,所以這個集合可以叫做變量i的“親友團(tuán)”,因?yàn)樗渲械拿總€元素都與i很相關(guān)。2. 1.4基于“親友團(tuán)”的聚類算法對每個變量,我們都取它們各自的“親友團(tuán)”D(i),i = 1,2...N。如果兩個變量互 相在各自的親友團(tuán)里面,那么我們就認(rèn)為這兩個變量是強(qiáng)相關(guān)的。形式化描述就是變量i和j是強(qiáng)相關(guān)當(dāng)且僅當(dāng)i e D(J)且j e D(i)。只有強(qiáng) 相關(guān)才能聚在一起。以此類推,三個變量聚在一類里的當(dāng)且僅當(dāng)任意兩個變量都是強(qiáng)相關(guān) 的。由于Z是有限的,所以這個算法肯定收斂。類的個數(shù)是算法自動確定的,是變量個數(shù)N 和“親友團(tuán)”個數(shù)Z的函數(shù)。所以,一個類如果被聚出來,那么它必須符合三個條件。—個模式必須滿足三個條件才是類(1)模式中的癥狀個數(shù)大于2,因?yàn)榕R床上大部分證候至少需要三個四診信息才 能診斷(2)模式中的任意兩個癥狀必須強(qiáng)相關(guān),也就是說i G D(j)且 j e D(i)(3)不存在任何一個元素C,加入到類中,使得(2)成立。即類中的元素個數(shù)最大2. 2相同屬性的條目組合合并算法的驗(yàn)證需要把各個類回代到四診信息變量中,然后參考因變量的數(shù)據(jù)判斷類 的敏感性,敏感性越大,類就越符合臨床,所以最優(yōu)的類就對應(yīng)于最大的敏感性,以這個為 主線,算法的驗(yàn)證可以用三個步驟來完成步驟1 對于每一個類S,把它回代到變量數(shù)據(jù)中,如果這個類的所有變量都出現(xiàn) 在一個病人上,那么記下此病人的編號,遍歷全部病人數(shù)據(jù),統(tǒng)計出病例數(shù)L,記錄下來,列
在類S后面,并得到一個L維的向量?其每一個元素表示病人的編號。
?步驟2:把與向量^中編號對應(yīng)的辨證結(jié)果的L個9維的向量提取出來并把這些向 量相加得到一個也是9維的向量& W = (w i 二 1,2,...,8,9)中的每一個元素Wi表示在這L個病人中有Wi個病人是得第i個證候.顯然Wi < L,找出&中最大的數(shù)1^ ,記錄下這個數(shù)和 相應(yīng)的證候,列在病例數(shù)L后面。
, Wi步驟3 定義并算出類S的敏感性為=-f-所有的類的敏感性的平均就是算法
5
1 p
的敏感性,即Ιζ^Σ7^其中T表示算法的敏感性,P是類的個數(shù)。根據(jù)上述驗(yàn)證,屬性相 r s=\
?
同的條目組合合并即為每個證候?qū)τ诘臈l目池。3權(quán)重確定在確定證候診斷的條目池過程中,我們所得到的基本證型結(jié)果基本涵蓋了病例數(shù) 據(jù)中大部分關(guān)聯(lián)程度較高的癥狀集合。每一條基本證型的結(jié)果都經(jīng)過了中醫(yī)專家對各癥狀 集合的合并和歸納。因此,我們認(rèn)為,具備基本證型下所有的癥狀即為該基本證型的“完美” 病人。事實(shí)上,臨床很難存在這樣的“完美”病人,大多數(shù)的病人只具備其中的部分癥狀。而 研究某個癥狀對于基本證型的貢獻(xiàn)度,就是要研究如果具備這個癥狀會使得病人接近“完 美病人”的貢獻(xiàn)程度有多大。這個數(shù)值我們用變量癥狀對基本證型的貢獻(xiàn)度來衡量。在考 慮變量癥狀對基本證型的貢獻(xiàn)度時,同時還應(yīng)注意到變量之間關(guān)聯(lián)度的不對稱性。假設(shè)系統(tǒng)X = {X1; X2,…,XJ被有效分劃為Si和5.,其中我們所關(guān)心的研究對象
Si = (X1, X2,…,Xk},1彡k < P。μ (Xi, Xj)表示變量Xi對變量Xj的關(guān)聯(lián)度系數(shù),μ (Xj, Xi)表示變量&對變量Xi的關(guān)聯(lián)度系數(shù),1 < i, J^k0于是,變量Xi對于子系統(tǒng)Si的貢 獻(xiàn)度為 由于基于熵的互信息度量的是變量之間的任意統(tǒng)計相關(guān)性,因此基于互信息而定 義的貢獻(xiàn)度較之其他貢獻(xiàn)分值的定義有著先天的極大優(yōu)越性。以冠心病心絞痛為例,所得 到的基本證型各癥狀的貢獻(xiàn)度與中醫(yī)理論和臨床比較吻合,后續(xù)確定基本證型閾值及其檢 驗(yàn)的過程也能說明這點(diǎn)。為了使所得到的貢獻(xiàn)度能夠應(yīng)用于臨床,需要將這些貢獻(xiàn)度的數(shù)值按比例換算為 整數(shù)值。因?yàn)槊總€貢獻(xiàn)度的數(shù)值只在其所在的基本證型中有意義,也就是說不同基本證型 下的癥狀的貢獻(xiàn)度數(shù)值不具備可比性,因此,我們對不同的基本證型可以選擇不同的比例 予以換算為整數(shù)值。4閾值確定要確定基本證型的閾值,就必須利用到臨床醫(yī)生的診斷信息,即醫(yī)生對病人是否 具備該基本證型的判斷。而這部分診斷的數(shù)據(jù)和醫(yī)生的主觀因素極為密切。不同的醫(yī)生對 于同樣癥狀的病人可能有著不同的判斷,數(shù)據(jù)的一致性也會受到影響。為了盡量消除這部 分?jǐn)?shù)據(jù)的可能失真對于閾值確定的負(fù)面干擾,我們多次完全隨機(jī)地將病例樣本按3 1的 比例分組為運(yùn)算組和考核組。運(yùn)算組用以計算癥狀間的關(guān)聯(lián)度以提取癥狀,計算癥狀對基 本證型的貢獻(xiàn)度,確定基本證型的閾值,從而形成量化診斷標(biāo)準(zhǔn);而考核組用以對所形成的 量化診斷標(biāo)準(zhǔn)作前瞻性檢驗(yàn)。只有多次實(shí)驗(yàn)所得的癥狀對基本證型的貢獻(xiàn)度和基本證型的 閾值結(jié)果相近,才認(rèn)為結(jié)果為真實(shí)有效。
目前用以確定閾值的診斷試驗(yàn)評價方法主要以醫(yī)學(xué)統(tǒng)計方法為主。國內(nèi)外 有關(guān)診斷實(shí)驗(yàn)準(zhǔn)確性評價指標(biāo)主要有敏感性、特異性、準(zhǔn)確性、假陰性率、假陽性率、 Youden指數(shù)、一致率、似然比、優(yōu)勢比、陽性預(yù)測值、隱形預(yù)測值、ROC(Receive Operating Characteristic)曲線下面積等。我們對運(yùn)算組的數(shù)據(jù)采用多種指標(biāo)相結(jié)合的方法來確定 基本證型的相關(guān)閾值,并用考核組的數(shù)據(jù)來對閾值作檢驗(yàn)。下面介紹下運(yùn)用到的評價指標(biāo), 即靈敏度、特異性、準(zhǔn)確性和ROC曲線下面積。對于同一個病人,根據(jù)某個基本證型的量化標(biāo)準(zhǔn)診斷其為陰性或陽性,而根據(jù)臨 床醫(yī)生診斷其為非患者或患者。這樣,在運(yùn)算組的全部病例中就有如表3. 5所示的A、B、C、 D四類統(tǒng)計。表1量化標(biāo)準(zhǔn)診斷和臨床醫(yī)生診斷 于是有敏感性的定義ξ =^-χ 100% A + C有特異性的定義ξ = —X100%
B + D有準(zhǔn)確性的定義
a + ηξγ =--X100%
r A+B+C+DROC曲線即受試者工作特征曲線,是一種廣泛應(yīng)用于醫(yī)學(xué)診斷實(shí)驗(yàn)的定量評價方 法。它對每一個可能的診斷界值,以(1-特異性)為橫坐標(biāo),以(1-敏感性)為縱坐標(biāo)繪制 而成,其曲線下面積反映了診斷實(shí)驗(yàn)室準(zhǔn)確度的大小。ROC曲線不受患病率的影響,綜合了 敏感性和特異性兩個指標(biāo),而且考慮了所有可能的診斷界值的影響,因而能較客觀全面的 評價診斷實(shí)驗(yàn)室的準(zhǔn)確性。ROC曲線下面積實(shí)際的取值范圍為0. 5 1。一般地,對于一個 診斷試驗(yàn),ROC曲線下面積在0. 5 0. 7之間時診斷價值較低,在0. 7 0. 9之間時診斷價 值中等,在0.9以上時診斷價值較高。我們將此方法應(yīng)用于中醫(yī)臨床冠心病數(shù)據(jù),表1顯示了冠心病下自變量的名稱和 頻次。表2顯示了冠心病心絞痛8個證候的條目池及權(quán)重,表3列出了冠心病心絞痛8個 證候的閾值;圖2顯示復(fù)雜系統(tǒng)聚類方法的參數(shù)選擇,橫坐標(biāo)表示“親友團(tuán)”個數(shù),縱坐標(biāo)表 示信息利用率。圖3-1 圖3-8表示冠心病心絞痛8個證候的敏感性,特異性和準(zhǔn)確性曲 線,所述8個證候依次為氣滯、氣虛、痰濁證、血瘀證、陰虛證、郁熱證、陽虛證、痰熱證。表1 冠心病心絞痛四診信息變量名稱及其頻數(shù) 表2 冠心病心絞痛8個證候的條目池及權(quán)重
表3 冠心病心絞痛8個證候的閾值及其多個方法學(xué)評價指標(biāo) 本方法的特色在于使用無監(jiān)督方法確定條目池和賦權(quán),使用有監(jiān)督方法確定閾 值;另外一大創(chuàng)新在于使用復(fù)雜系統(tǒng)理論完成了這三個步驟,使得比傳統(tǒng)的方法更加符合 數(shù)據(jù)特點(diǎn),得到的準(zhǔn)確性更高。上述實(shí)驗(yàn)結(jié)果和利用復(fù)雜系統(tǒng)制作中醫(yī)證候量表的方法,可以用于中醫(yī)臨床診斷 和評價等領(lǐng)域,具有高可信度、操作簡單、應(yīng)用前景廣的特點(diǎn)。
權(quán)利要求
基于復(fù)雜系統(tǒng)的中醫(yī)證候診斷量表制作的方法,其特征在于,包括下列步驟1)基于復(fù)雜系統(tǒng)的量表?xiàng)l目池確定,包括兩個子步驟復(fù)雜系統(tǒng)熵聚類和相同屬性條目組合的合并;a)復(fù)雜系統(tǒng)熵聚類針對數(shù)據(jù)中的自變量數(shù)據(jù),使用自組織的復(fù)雜系統(tǒng)上聚類技術(shù),將自變量進(jìn)行聚類,并自動確定類的個數(shù);b)相同屬性條目組合的合并對于各個類,進(jìn)行有監(jiān)督回代,并根據(jù)因變量判斷其屬性,對于屬性相同的類,進(jìn)行條目組合的合并;2)條目賦權(quán),包括2個子步驟基于復(fù)雜系統(tǒng)不對稱互信息計算條目之間相關(guān)性、不對稱互信息折算成整數(shù)的分子;a)相同屬性內(nèi)根據(jù)不對稱互信息原來計算條目之間的關(guān)聯(lián)性,提取出條目對之間的雙向關(guān)聯(lián)性;b)根據(jù)雙向關(guān)聯(lián)性得到各個條目的權(quán)重,根據(jù)權(quán)重折算成各個屬性下各個條目的整數(shù)分?jǐn)?shù),便于實(shí)際應(yīng)用;3)閾值確定,包括兩個子步驟計算出特異性,敏感性和準(zhǔn)確性、使用準(zhǔn)確性曲線確定閾值;a)根據(jù)每個條目的分?jǐn)?shù),回代至原始數(shù)據(jù),根據(jù)屬性結(jié)果,算出特異性,敏感性和準(zhǔn)確性;b)把設(shè)定的閾值從0變化至最高分,根據(jù)特異性,敏感性和準(zhǔn)確性的最高值對于的分?jǐn)?shù)即確定為閾值。
2.按權(quán)利要求1所述的方法,其特征在于,所述第1)步a)步驟中,復(fù)雜系統(tǒng)熵聚類 方法基于改進(jìn)的互信息刻畫變量之間的相關(guān)性,在此基礎(chǔ)上提出聚類方法,之后把類回代 到原始數(shù)據(jù)中對無監(jiān)督聚類方法進(jìn)行驗(yàn)證以得到最優(yōu)的類數(shù)目和參數(shù),所述改進(jìn)的互信 息基于Shannon熵的互信息,強(qiáng)相關(guān)癥狀之間與相反癥狀之間用陽性出現(xiàn)率來區(qū)分開,所 述陽性出現(xiàn)率是指兩個變量同時都為O的概率;算出兩兩變量之間的改進(jìn)的互信息,形成 一個NXN的矩陣,記為T= (Δ μ ‘ (i,j)),選定一個特定的變量i,在集合Set(i)= {Δ μ ‘ (i,j),j = 1,2... j ^ ...Ν}中取出值最大的前Z(1彡Z彡N-l)個變量,形成一 個有Z個元素的集合,記作D(i),將滿足i e D(J)且j e D(i)的變量i和j聚在一起。
3.按權(quán)利要求1所述的方法,其特征在于,所述第1)步b)步驟中所述有監(jiān)督回代是把 各個類回代到四診信息變量中,然后參考因變量的數(shù)據(jù)判斷類的敏感性,敏感性越大,類就 越符合臨床。
4.按權(quán)利要求1所述的方法,其特征在于,所述第2)步中權(quán)重的具體計算方法如下 系統(tǒng)X = (X1,X2,…,Xp}被有效分劃為Si和&,研究對象為Si = (X1,X2, "^X1J,1彡k < p,μ (Xi, Xj)表示變量Xi對變量Xj的關(guān)聯(lián)度系數(shù),μ (Xj, Xi)表示變量Xj對變量Xi的關(guān)聯(lián)度^μ(χ χ\ + μ χ χ)系數(shù),1 ,變量Xi對于子系統(tǒng)Si的貢獻(xiàn)度為
5.按權(quán)利要求1所述的方法,其特征在于,所述第3)步a)步驟使用復(fù)雜系統(tǒng)計算過程 中的敏感性、特異性和準(zhǔn)確性,將ROC曲線下面積作為閾值指標(biāo)。
全文摘要
本發(fā)明涉及復(fù)雜系統(tǒng)科學(xué)和醫(yī)學(xué)量表制作領(lǐng)域的一種復(fù)雜系統(tǒng)理論體系建立中醫(yī)證候診斷量表的新方法。包括步驟基于復(fù)雜系統(tǒng)的量表?xiàng)l目池確定,條目賦權(quán),閾值確定。本發(fā)明的方法僅利用流行病學(xué)調(diào)查數(shù)據(jù),方法主要操作在二維數(shù)據(jù)空間上,算法簡單有效,量表制作結(jié)果準(zhǔn)確,在醫(yī)學(xué)臨床診斷學(xué)、臨床療效評價、以及心理測量學(xué)等量表應(yīng)用領(lǐng)域具有重要的應(yīng)用價值。
文檔編號G06F19/00GK101872390SQ20101022387
公開日2010年10月27日 申請日期2010年7月12日 優(yōu)先權(quán)日2010年7月12日
發(fā)明者王偉, 趙慧輝, 陳建新 申請人:王偉;趙慧輝;陳建新