本發(fā)明涉及一種基于數(shù)據(jù)流聚類的癌癥亞型發(fā)現(xiàn)與演化分析方法。
背景技術:
癌癥亞型的鑒定在揭示疾病發(fā)病機理和促進個性化治療方面起著重要的作用。經過幾十年的研究,癌癥的臨床診斷和腫瘤特異性標志物的鑒定仍然存在不確定性。因此研究高效的生物數(shù)據(jù)挖掘方法已經成為生物信息學發(fā)展的重要方向和迫切需求。
聚類分析作為一種先進的數(shù)據(jù)分析和知識發(fā)現(xiàn)技術,已經在許多領域取得了成功應用。在生物信息領域,該技術也已顯示出其巨大潛力。尤其是在基因表達數(shù)據(jù)分析方面,聚類分析已經得到了廣泛的應用并成為主要技術手段之一。不管何種聚類算法,首先需要計算樣本對象間的相似度,常用的基因表達模式相似度距離計算方法包括以下幾種:(a)基于幾何距離的相似度計算方法。幾何距離可以衡量研究對象在空間上的距離遠近關系,空間上相近的物體運用幾何距離可以判斷為同一類,而空間上較遠的物體則判斷為不同類。常見的幾何距離有馬氏距離、歐氏距離、切氏距離等。(b)線性相關系數(shù)。常用皮爾森相關系數(shù)來衡量基因表達模式的相似性。(c)非線性相關系數(shù)。某些在功能上有相關關系的基因雖然在表達上不具有嚴格的線性相關關系,但在時間點的波動趨勢上卻是相似的,在這種情況下可以用非線性相關模式來衡量基因間的距離。(d)互信息。線性與非線性相關系數(shù)都只能衡量基因間的單調相關關系,而對于那些在整個時間序列上基因間的表達沒有單調升降關系的相似性可以用信息熵進行衡量。
廣泛應用于基因表達數(shù)據(jù)的經典聚類算法有k均值聚類、層次聚類、基于模型聚類、自組織映射聚類(smo)、模糊c均值聚類。由于基因組數(shù)據(jù)結構的復雜性和多組學數(shù)據(jù)的發(fā)展,這些經典聚類算法的應用受到了極大限制。在此基礎上發(fā)展出針對癌癥基因表達數(shù)據(jù)聚類的新方法,包括子空間聚類、投影聚類、雙聚類等多種聚類技術。
(a)子空間聚類算法?;诰嚯x的子空間聚類通常根據(jù)空間范式距離度量樣本對象之間的相似性。其代表算法有clique算法和enclus算法。clique算法能夠自動發(fā)現(xiàn)任意子空間中的聚類結果,對數(shù)據(jù)集中的對象數(shù)和維數(shù)具有較好的可伸縮性,但對聚類結果維數(shù)的可伸縮性較差;enclus算法使用信息熵作為單元格是否有助于聚類形成的度量,能夠發(fā)現(xiàn)不同子空間中任意形狀的重疊聚類。基于模式的子空間聚類算法有p-clustering算法和tri-clustering算法。p-clustering算法通過在不同實驗條件下的表達模式差異來定義對象間的相似度,但它僅僅考慮了基因模式中垂直平移或成比例的模式,不能有效處理實驗噪聲;tri-clustering算法用于在三維微陣列矩陣中挖掘成比例模式,尋找滿足條件的極大tri-cluster。
(b)投影聚類算法。投影聚類的概念和子空間聚類非常相似。一個投影聚類是一組在相關維形成的子空間中高度相似的對象集合。投影聚類要求從所有可能的樣本劃分和特征選擇中發(fā)現(xiàn)一組使某個評估函數(shù)優(yōu)化的聚類結果,這些結果互不相交。doc和fastdoc是兩種基于超立方體的投影聚類算法,在測試足夠多的隨機中心點時能得到較好的聚類效果,但是巨大的測試次數(shù)會降低算法的效率。同時,doc和fastdoc算法對參數(shù)十分敏感。orclus算法選擇多個初始中心點形成初始對象集合,隨后在迭代過程中合并相似的投影聚類成員,逐步形成最終的k個投影聚類。orclus算法能發(fā)現(xiàn)任意形狀的類簇,但是對于主成分分析的計算代價很大,在高維上的算法效率低。dpclus算法是基于分裂方式的投影聚類算法,涉及大量通過奇異值分解求解協(xié)方差矩陣特征值的計算,代價很大,且需要人為指定聚類結果的個數(shù)和每個聚類包含的最小維數(shù)。
(c)雙聚類算法。雙聚類與子空間聚類和投影聚類有著密切的聯(lián)系。就每個單獨聚類結果來看,雙聚類與子空間聚類和投影聚類一樣,都由對象子集和屬性子集構成,具有局部特性;就聚類結果的相互關系和所用的技術特點來看,雙聚類與子空間聚類和投影聚類又存在一定的區(qū)別。比較具有代表性的雙聚類算法有biclustering算法、floc算法和samba算法。biclustering算法通過將表達矩陣中每個投影值當做三個獨立部分相互作用之和,引入平均平方剩余的概念來度量每一個子矩陣的內部一致性。yang等人同時提出了一個基于啟發(fā)式的算法floc,用來從給定的表達矩陣中發(fā)現(xiàn)滿足要求的k個聚類。samba算法是基于統(tǒng)計模型將雙聚類問題轉化成二分圖中最大權重字圖的搜索問題,為研究基因表達數(shù)據(jù)分析中的聚類技術開創(chuàng)了新的思路,局限性在于,限制每個頂點的“度”為一個常數(shù),阻礙了包含較多對象或較高維數(shù)的聚類結果生產。
技術實現(xiàn)要素:
為了克服已有基因表達數(shù)據(jù)聚類方式的精度較低的不足,本發(fā)明提供一種精度較高的基于數(shù)據(jù)流聚類的癌癥亞型精準發(fā)現(xiàn)與演化分析方法。
本發(fā)明解決其技術問題所采用的技術方案是:
一種基于數(shù)據(jù)流聚類的癌癥亞型精準發(fā)現(xiàn)與演化分析方法,包括以下步驟:
(a)基因表達數(shù)據(jù)流的初始化
對數(shù)據(jù)流的維度信息進行分析,并確定相似度距離計算方法;建立基因數(shù)據(jù)流對象的網(wǎng)格單元,并將數(shù)據(jù)按窗口投入網(wǎng)格中實現(xiàn)初始化;構建非均勻衰減模型,確定在線過程中數(shù)據(jù)流的非均勻衰減參數(shù)和網(wǎng)格密度信息更新方法;
(b)基因表達數(shù)據(jù)流在線實時聚類
將每個到達的數(shù)據(jù)點投入與之相對應的網(wǎng)格單元中,并在線維護網(wǎng)格;到達指定時間節(jié)點時,根據(jù)網(wǎng)格的密度信息對稀疏網(wǎng)格進行刪除;
(c)基因表達數(shù)據(jù)流離線精準聚類
將網(wǎng)格視作自帶密度信息的虛擬數(shù)據(jù)點,采用基于密度-距離分布的聚類方法對這些虛擬的數(shù)據(jù)點進行聚類,根據(jù)被確定的聚類中心點的密度信息對其他數(shù)據(jù)點進行快速的聚類劃分,最終輸出聚類結果;
(d)類簇演化遷移分析
將不同時間節(jié)點下的離線聚類結果按時間順序進行保存,用以分析各個類簇隨時間的變化情況,即基因表達數(shù)據(jù)的演化分析。
進一步,所述步驟(d)中,對于樣本類簇的演化分析包括兩方面的內容:一是對同一個類簇隨時間的遷移變化情況進行分析,它反映了某一癌癥亞型在一段時間內的自身屬性結構變化;二是研究不同類簇之間的關聯(lián)性隨時間發(fā)生的變化,它表示在治療過程中不同癌癥亞型之間相互影響及轉化關系的具體情況。;結合亞型演化的生物學意義,建立一個基于癌癥亞型基因表達數(shù)據(jù)的動態(tài)調控時序網(wǎng)絡模型,用以進一步分析亞型之間的轉化情況和相互聯(lián)系。
所述步驟(a)中,取基因數(shù)據(jù)流的初始數(shù)據(jù)流入在線聚類框架,建立首批在線網(wǎng)格,同時確立網(wǎng)格在線衰減模型的過程;網(wǎng)格的初始化包括確定每維屬性的劃分粒度、建立初始化網(wǎng)格和確定衰減模型參數(shù)。
所述步驟(b)中,采用非均勻衰減模型,根據(jù)當前時刻流入的數(shù)據(jù)的分散程度,使用不同的衰減系數(shù)λ對流入的數(shù)據(jù)進行衰減;
設數(shù)據(jù)流在tp時刻流入的數(shù)據(jù)點落在n個網(wǎng)格內,此時系統(tǒng)存在密度不為0的網(wǎng)格總數(shù)為n,則定義該時刻下數(shù)據(jù)的分散程度為:
ω=n/n(4)
可得ω∈(0,1],ω的大小可以反映當前時刻流入數(shù)據(jù)的分布集中程度;設數(shù)據(jù)流流入網(wǎng)格后,所有網(wǎng)格的密度均值為dave,現(xiàn)設定參數(shù)μ,令:
其中,sm表示所有密集網(wǎng)格的集合,sp表示所有稀疏網(wǎng)格的集合,μ為閾值;
在非均勻衰減模型中,對于任意網(wǎng)格den,該網(wǎng)格從稀疏網(wǎng)格變?yōu)槊芗W(wǎng)格的最小時間為:
其中,λhigh為最大衰減系數(shù),dbd表示用于劃分網(wǎng)格是否為高密度網(wǎng)格的網(wǎng)格閾值參數(shù),根據(jù)公式(6)計算出的單位檢測時間是在有效監(jiān)控數(shù)據(jù)流實時變化的前提下的最大間隔時間;
采用最低權值檢測機制,最低權值的閾值設定如下:
其中,t0表示網(wǎng)格的創(chuàng)建時間,tc表示當前時間;
所述步驟(c)中,利用選取置信區(qū)間的方式在與擬合曲線相應的正態(tài)分布曲線中尋找出奇異點的信息,此處奇異點表示落在置信區(qū)間以外的點,即是聚類的聚類中心,奇異點的個數(shù)代表了聚類中心的個數(shù)。采用正態(tài)曲線擬合并劃定置信區(qū)間的方法自動確定聚類中心的個數(shù),根據(jù)確定的聚類中心,將其余的點按密度快速劃分一次掃描完成聚類,最終輸出聚類結果。
本發(fā)明的技術構思為:隨著二代測序技術的推廣,高維基因表達譜數(shù)據(jù)不斷增加,一方面來自不同癌癥亞型的病患,另一方面來自于同一病患在診療過程中的不斷跟蹤檢測;為了實現(xiàn)基于基因表達數(shù)據(jù)的癌癥亞型精準發(fā)現(xiàn),采用在線/離線雙層數(shù)據(jù)流框架,設計一種基于網(wǎng)格的數(shù)據(jù)流快速聚類算法,對特征提取后的基因數(shù)據(jù)進行聚類分析,從而得到代表不同癌癥亞型的樣本類簇;每一個類簇表示一種潛在的癌癥亞型,同一個類簇中的樣本歸為同一種癌癥亞型。而類簇之間的差異則代表不同樣本在基因層面的表達差異。進一步的,對這些類簇在“在線框架”中隨時間的變化情況進行分析,研究每個類簇的演化特性和各個微簇之間的關聯(lián)特性,在基因層面反映患者的病癥變化情況。
本發(fā)明的有益效果主要表現(xiàn)在:精度較高。
附圖說明
圖1是面向基因表達數(shù)據(jù)的數(shù)據(jù)流聚類框架圖。
圖2是數(shù)據(jù)流初始化流程圖。
具體實施方式
下面結合附圖對本發(fā)明作進一步描述。
參照圖1和圖2,一種基于數(shù)據(jù)流聚類的癌癥亞型精準發(fā)現(xiàn)與演化分析方法,包括以下步驟:
(a)基因表達數(shù)據(jù)流的初始化?;驍?shù)據(jù)流數(shù)據(jù)預處理操作:對數(shù)據(jù)流的維度信息進行分析,并確定相似度距離計算方法;建立基因數(shù)據(jù)流對象的網(wǎng)格單元,并將數(shù)據(jù)按窗口投入網(wǎng)格中實現(xiàn)初始化;構建非均勻衰減模型,確定在線過程中數(shù)據(jù)流的非均勻衰減參數(shù)和網(wǎng)格密度信息更新方法。
(b)基因表達數(shù)據(jù)流在線實時聚類。為保證實時聚類要求,將每個到達的數(shù)據(jù)點投入與之相對應的網(wǎng)格單元中,并在線維護網(wǎng)格。到達指定時間節(jié)點時,根據(jù)網(wǎng)格的密度信息對稀疏網(wǎng)格進行刪除。這種刪除機制能夠有效提高在線過程的抗噪能力,同時降低算法運行時所需的存儲空間。在線過程對數(shù)據(jù)的快速處理有效地保持了網(wǎng)格信息的實時性和動態(tài)性。
(c)基因表達數(shù)據(jù)流離線精準聚類。將網(wǎng)格視作自帶密度信息的虛擬數(shù)據(jù)點,采用基于密度-距離分布的聚類方法對這些虛擬的數(shù)據(jù)點進行聚類,根據(jù)被確定的聚類中心點的密度信息對其他數(shù)據(jù)點進行快速的聚類劃分,最終輸出聚類結果。
(d)類簇演化遷移分析。將不同時間節(jié)點下的離線聚類結果按時間順序進行保存,用以分析各個類簇隨時間的變化情況,即基因表達數(shù)據(jù)的演化分析。對于樣本類簇的演化分析主要包括兩方面的內容:一是對同一個類簇隨時間的遷移變化情況進行分析,它反映了某一癌癥亞型在一段時間內的自身屬性結構變化;二是研究不同類簇之間的關聯(lián)性隨時間發(fā)生的變化,它表示在治療過程中不同癌癥亞型之間相互影響及轉化關系的具體情況。結合亞型演化的生物學意義,可以建立一個基于癌癥亞型基因表達數(shù)據(jù)的動態(tài)調控時序網(wǎng)絡模型,用以進一步分析亞型之間的轉化情況和相互聯(lián)系。
基因數(shù)據(jù)流初始化,取基因數(shù)據(jù)流的初始數(shù)據(jù)流入在線聚類框架,建立首批在線網(wǎng)格,同時確立網(wǎng)格在線衰減模型的過程。網(wǎng)格的初始化包括確定每維屬性的劃分粒度、建立初始化網(wǎng)格和確定衰減模型參數(shù)三部分,具體操作流程如圖2所示。
基因數(shù)據(jù)流的在線聚類,在hpstream的衰減模型中,衰減系數(shù)λ是人為設定的一個常量參數(shù),不能對噪聲點進行抑制,也不能對類簇的核心點進行信息保留。
采用非均勻衰減模型,其主要思路是:根據(jù)當前時刻流入的數(shù)據(jù)的分散程度,使用不同的衰減系數(shù)λ對流入的數(shù)據(jù)進行衰減,有效提高數(shù)據(jù)流聚類算法在在線過程中的抗噪能力。
設數(shù)據(jù)流在tp時刻流入的數(shù)據(jù)點落在n個網(wǎng)格內,此時系統(tǒng)存在密度不為0的網(wǎng)格總數(shù)為n,則定義該時刻下數(shù)據(jù)的分散程度為:
ω=n/n(4)
可得ω∈(0,1],ω的大小可以反映當前時刻流入數(shù)據(jù)的分布集中程度。ω越小,表示流入的數(shù)據(jù)分布地越集中;ω越大,表示流入的數(shù)據(jù)分布地越分散。設數(shù)據(jù)流流入網(wǎng)格后,所有網(wǎng)格的密度均值為dave,現(xiàn)設定參數(shù)μ,令:
其中,sm表示所有密集網(wǎng)格的集合,sp表示所有稀疏網(wǎng)格的集合,μ為閾值。使用非均勻衰減模型的目的是抑制分布分散的噪聲數(shù)據(jù)對在線聚類過程的干擾,同時加強對分布集中的核心點密度信息的保留,提高算法在在線聚類過程中的聚類性能。
在線聚類的網(wǎng)格更新與刪除策略。在非均勻衰減模型中,對于任意網(wǎng)格den,該網(wǎng)格從稀疏網(wǎng)格變?yōu)槊芗W(wǎng)格的最小時間為:
其中,λhigh為最大衰減系數(shù),dbd表示用于劃分網(wǎng)格是否為高密度網(wǎng)格的網(wǎng)格閾值參數(shù)。根據(jù)公式(6)計算出的單位檢測時間是在有效監(jiān)控數(shù)據(jù)流實時變化的前提下的最大間隔時間,能最大限度地相應減小網(wǎng)格列表的更新時間,降低算法的計算次數(shù),提高算法的準確率。
為刪除一些落入噪聲點的網(wǎng)格,采用最低權值檢測機制。最低權值的閾值設定如下:
其中,t0表示網(wǎng)格的創(chuàng)建時間,tc表示當前時間。
數(shù)據(jù)流的離線精準聚類:設計了在給定密度半徑下自動確定聚類中心的方法,實現(xiàn)密度半徑自適應,最終得到了基于密度-距離的參數(shù)自適應聚類方法。利用選取置信區(qū)間的方式在與擬合曲線相應的正態(tài)分布曲線中尋找出奇異點的信息,此處奇異點表示落在置信區(qū)間以外的點,即是聚類的聚類中心,奇異點的個數(shù)代表了聚類中心的個數(shù)。采用正態(tài)曲線擬合并劃定置信區(qū)間的方法自動確定聚類中心的個數(shù),根據(jù)確定的聚類中心,將其余的點按密度快速劃分一次掃描完成聚類,最終輸出聚類結果。
基因數(shù)據(jù)的演化分析。通過演化分析可以定量描述各個類簇隨時間的變化情況。對于患有疾病的樣本,其病理特征在基因層面表現(xiàn)為多種癌癥亞型,通過上述的數(shù)據(jù)流聚類方法能將具有相同癌癥亞型的樣本聚為一類,即一個類簇代表一種癌癥亞型。在治療期間,為探究一種藥物對這些癌癥亞型的影響,我們就需要分析在接受這種藥物治療之后,所有類簇的演化和遷移情況。類簇的演化遷移主要指類簇的特征發(fā)生了變化,如聚類中心位置的改變、類簇形狀的變化等。常見的類簇演化形式主要有四種:類簇的產生、類簇的消失、類簇的合并和類簇的分裂。結合生物學意義,我們對這些演化情況進行深入研究,建立一個基于癌癥亞型基因表達數(shù)據(jù)的動態(tài)調控時序網(wǎng)絡模型,詳細分析樣本數(shù)據(jù)隨時間的演化情況。