一種由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法及其應用和評價方法
【專利摘要】本發(fā)明提供的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法包括:設置和輸入n組芯片數(shù)據(jù);篩選多組間差異表達的分子;計算差異表達分子在任意兩組間的表達差異,得到每個分子的差異表達模式編碼;將具有相同編碼模式的分子歸為同一組,得到m個階段特異表達分組;采用單側Fisher精確檢驗進行富集分析,得到類別特異表達的分子集合;構建各狀態(tài)間的連接網絡,得到類別網。該方法有利于對疾病狀態(tài)進展的預測,對臨床的診療具有重要意義。此外,本發(fā)明還提供了一種評價由生物芯片數(shù)據(jù)構建的多類別特異表達分子集的分類能力的方法,以及一種由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法的應用。
【專利說明】一種由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法及其應用和評價方法
【技術領域】
[0001]本發(fā)明涉及生物信息學領域,具體涉及一種由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法及其應用和評價方法。
【背景技術】
[0002]隨著人類基因組測序的完成,基于高通量的生物芯片分析,可顯著提高尋找生物學標記的能力,極大的提高制藥業(yè)等行業(yè)的研發(fā)效率,加快產業(yè)化進程。一次芯片實驗可獲取大量分子的表達信息,如人類mRNA芯片可一次性檢測3萬左右的基因,人類microRNA芯片一次性可檢測1千左右的microRNA。
[0003]分析芯片數(shù)據(jù)最重要的步驟之一為合理的從大量分子表達信息中挖掘表達具有生物學意義的分子,即差異表達的分子。要進行差異表達的分析必須保證樣本類別至少為兩類。對于兩類樣本的芯片數(shù)據(jù),傳統(tǒng)的方法通常為倍數(shù)分析法或t檢驗。t檢驗可檢測兩類樣本的分子表達值的均值間是否存在顯著的統(tǒng)計學差異。對于多類樣本,傳統(tǒng)的方法為采用方差分析的方法。方差分析是從觀測變量的方差入手,研究眾多控制變量中哪些變量是對觀測變量有顯著影響的變量。
[0004]但是,僅從統(tǒng)計學角度出發(fā)會導致結果不具備實際應用價值。
[0005]因此,有必要提供一種兼顧統(tǒng)計分析、模式識別以及生物學意義對生物芯片數(shù)據(jù)進行差異表達分析,提高分析結果的實際應用價值的方法。
【發(fā)明內容】
[0006]為解決上述問題,本發(fā)明第一方面提供了一種由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法,該方法通過基于差異表達模式對生物芯片進行多類別的分析,綜合了統(tǒng)計學分析、模式識別以及生物學意義的優(yōu)勢。該方法還構建了類別網絡,有利于對疾病狀態(tài)進展的預測,對臨床的診療具有重要意義。本發(fā)明第二方面提供了一種評價由生物芯片數(shù)據(jù)構建的多類別特異表達分子集的分類能力的方法,本發(fā)明第三方面提供了一種由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法的應用。
[0007]第一方面,本發(fā)明提供了一種由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法,包括以下步驟:
[0008](1)設置和輸入η組芯片數(shù)據(jù);
[0009](2)篩選多組間差異表達的分子,包括:
[0010]對任意一個分子進行多組間的單因素方差分析,并為所得統(tǒng)計值設定閾值;判斷所得統(tǒng)計值是否符合閾值要求,如果判斷結果為否,則拋棄;如果判斷結果為是,則輸出識別結果,執(zhí)行下一步;
[0011](3)通過統(tǒng)計學檢驗的方法計算多組間差異表達分子在任意兩組間的表達差異,為所得統(tǒng)計值設定閾值;[0012]并針對多組間差異表達分子中的每個分子,構建長度為C?2的向量,如果所得統(tǒng)計
值高于閾值,則在向量中相應的位置記為0,反之,記為1,得到多組間差異表達分子中的每個分子的差異表達模式編碼;
[0013](4)根據(jù)步驟(3)所 得每個分子的差異表達模式編碼將分子進行分組,其中,具有相同編碼模式的分子歸為同一組,得到m個階段特異表達分組;
[0014](5)篩選多組間差異表達的分子,包括采用Fisher精確檢驗對所得m個階段特異表達分組進行富集分析,包括:
[0015]以基因注釋生物學信息為對照,對各階段特異表達分組中的每個分子進行注釋,保留各階段特異表達分組中可以富集到相同生物功能節(jié)點的分子,組成類別特異表達的分子集合;
[0016](6)根據(jù)類別特異分子集構建各狀態(tài)間的連接網絡,得到類別網。
[0017]本發(fā)明提供了一種由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法,該方法先采用統(tǒng)計學的方法篩選出差異表達分子,并統(tǒng)計差異表達分子的表達編碼模式,然后再結合生物注釋數(shù)據(jù)庫的已知信息,對差異表達分子的表達編碼模式進行富集分析,并構建了類別網絡。本發(fā)明提供的方法綜合了統(tǒng)計學分析、模式識別以及生物學意義的優(yōu)勢。該方法構建的類別網絡,有利于對疾病狀態(tài)進展的預測,對臨床的診療具有重要意義。
[0018]本發(fā)明提供的方法首先對任意一個分子進行多組間的單因素方差分析,篩選出多組間差異表達的分子,初步篩除非差異表達的分子。隨后,通過統(tǒng)計學檢驗的方法計算所得多組間差異表達分子在任意兩組間的表達差異,找出差異表達分子具體在哪兩組數(shù)據(jù)中存在表達差異;并為每個分子在不同組間的差異表達情況標記表達編碼0或1,將具有同一種表達編碼模式的分子歸為一類。之后結合現(xiàn)有的生物數(shù)據(jù)庫等信息,對歸類后的差異表達分子進行富集分析,篩選出具有生物意義的差異表達分子,為臨床等實際研究、應用提供參考。
[0019]優(yōu)選地,所述步驟(1)中,所述η不小于3,所述η組芯片數(shù)據(jù)的分組依據(jù)為根據(jù)不同生理狀態(tài)將數(shù)據(jù)進行分組。
[0020]優(yōu)選地,所述步驟(2)中,所述對任意一個分子進行多組間的單因素方差分析的方法為F分布檢驗,包括:
[0021]為每個分子計算統(tǒng)計量ρ值,計算公式為
[0022]p = P {F (r-1, n-r) > F}。
[0023]優(yōu)選地,所述步驟(2)中,所述所得統(tǒng)計值設定的閾值為0.05。
[0024]優(yōu)選地,所述步驟(2)中,所述判斷所得統(tǒng)計值是否符合閾值要求,如果判斷結果為否,則拋棄;如果判斷結果為是,則輸出識別結果,執(zhí)行下一步的過程包括:如果統(tǒng)計量P大于閾值,則拋棄此分子;如果統(tǒng)計量P不大于閾值,則輸出識別結果,執(zhí)行下一步,其中,所述閾值為0.05。
[0025]優(yōu)選地,所述步驟(3)中,所述計算多組間差異表達分子在任意兩組間的表達差異的統(tǒng)計學檢驗方法為t檢驗。
[0026]優(yōu)選地,所述步驟(3)中,所述為統(tǒng)計值設定的閾值為0.05。
[0027]優(yōu)選地,所述步驟(4)中,所述m為自然數(shù),且不大于2e。[0028]優(yōu)選地,所述步驟(5)中,所述對所得m個階段特異表達分組進行富集分析所采用的Fisher精確檢驗為單側Fisher精確檢驗。
[0029]所述步驟(5)中,所述對所得m個階段特異表達分組進行富集分析的方法優(yōu)選為采用單側Fisher精確檢驗,其他具有類似分析功能的統(tǒng)計學分析方法為本發(fā)明采用的單側Fisher精確檢驗的較差替代。
[0030]優(yōu)選地,所述步驟(5)中,所述基因注釋生物學信息為以下數(shù)據(jù)庫或信息:基因本體論數(shù)據(jù)庫的三個子庫、基因組位置信息、生物學通路信息、microRNA靶基因信息、轉錄因子和已知疾病信息中的一種或多種。
[0031]優(yōu)選地,所述步驟(5)中,所述基因注釋生物學信息包括但不限于以下數(shù)據(jù)庫或信息:基因本體論數(shù)據(jù)庫的三個子庫、基因組位置信息、生物學通路信息、microRNA靶基因信息、轉錄因子和已知疾病信息。
[0032]優(yōu)選地,所述步驟(5)中,所述保留各階段特異表達分組中可以富集到相同節(jié)點的分子的過程包括:對所得每個生物學功能節(jié)點的統(tǒng)計量P,設定閾值為0.05,如果統(tǒng)計值ρ大于閾值,則拋棄相應的節(jié)點;如果統(tǒng)計值P不大于閾值,則保留相應的節(jié)點,并保留富集到此節(jié)點的分子。
[0033]第二方面,本發(fā)明提供了一種評價由生物芯片數(shù)據(jù)構建的多類別特異表達分子集分類能力的方法,包括以下步驟:
[0034]S01、取如權利要求1步驟(5)所述的任一個類別特異表達分子集,每個分子集合中的樣本數(shù)目記為mB,給每 個分子集合標記組標簽,記為G^“GB,其中,mB和B為自然數(shù);
[0035]S02、采用k均值聚類對所述m組數(shù)據(jù)進行分析,得到C類,給每個類標記類標簽,記為Kr..K。,每類中的樣本數(shù)目記為S。,其中,S。和C為自然數(shù);
[0036]S03、對C類中的每個類別進行分析,將第K。類中來源于同一 Gb組的樣本數(shù)進行統(tǒng)計,分別記為nyn (^,將nyn GB除以相應的樣本數(shù)nv“mB進行標準化后,計算f_score的分值,計算的公式為:
[0037]f_score=n GB/mB/Sc,
[0038]將每個C類中具有最大f_SCOre的類標簽記為該類的最終的類標簽;
[0039]S04、若得到C類最終類標簽,且所述最終類標簽互不相同,則說明如權利要求1步驟(5)所述的多類別特異表達分子集的分類能力較好。
[0040]優(yōu)選地,所述步驟(7)中,根據(jù)類別特異分子集構建各狀態(tài)間的連接網絡,得到類別網的步驟包括:將每個類別作為網絡中的一個節(jié)點,如果兩個狀態(tài)間存在類別特異表達分子集,則將二者用邊連接起來。
[0041]第三方面,本發(fā)明提供了如第一方面所述的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法在分析基因表達譜數(shù)據(jù)、代謝組學生物芯片檢測數(shù)據(jù)及microRNA生物芯片檢測數(shù)據(jù)中的應用。
[0042]優(yōu)選地,如第一方面所述的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法在分析基因表達譜數(shù)據(jù)中的應用。
[0043]本發(fā)明提供了的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法及其應用和評價方法具有如下有益效果:
[0044](1)本發(fā)明提供的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法,通過基于差異表達模式對生物芯片進行多類別的分析,綜合了統(tǒng)計學分析、模式識別及生物學功能等多方面的優(yōu)勢;
[0045](2)本發(fā)明提供的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法,構建了類別網絡,有利于對疾病狀態(tài)進展的預測,對臨床的診療具有重要意義;
[0046](3)本發(fā)明還提供了一種評價由生物芯片數(shù)據(jù)構建的多類別特異表達分子集的分類能力的方法;
[0047](4)本發(fā)明提供的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法可用于分析基因表達譜數(shù)據(jù)、代謝組學生物芯片檢測數(shù)據(jù)及microRNA生物芯片檢測數(shù)據(jù)。
【專利附圖】
【附圖說明】
[0048]圖1為本發(fā)明方法的流程圖;
[0049]圖2為本發(fā)明實施例提供的本發(fā)明方法優(yōu)選的流程圖;
[0050]圖3為本發(fā)明實施例提供的差異表達模式分組及每種模式中基因的數(shù)目統(tǒng)計圖;
[0051]圖4為本發(fā)明實施例所構建的類別網絡圖。
【具體實施方式】
[0052]下面結合附圖,對發(fā)明做更進一步的解釋。
[0053]如圖1所示,本發(fā)明實施例提供一種由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法。步驟1是初始動作,包括用戶設置和輸入數(shù)據(jù);步驟2為篩選多類別間差異表達分子;步驟3計算多組間差異表達的分子在任意兩組間的差異表達;步驟4得出每個分子差異表達模式編碼;步驟5根據(jù)每個分子的差異表達模式編碼進行分子差異表達模式分組,并通過篩選得到類別特異表達的分子集合;步驟6為根據(jù)所得類別特異表達的分子集合構建類別網。
[0054]圖2為本發(fā)明實施例提供的本發(fā)明方法優(yōu)選的流程圖,是對圖2的進一步詳細說明。包括:
[0055]1、設置和輸入η組芯片數(shù)據(jù)
[0056]所述η不小于3,所述η組芯片數(shù)據(jù)的分組依據(jù)為根據(jù)不同生理狀態(tài)將數(shù)據(jù)進行分組。
[0057]比如A、B、C、D和E5個樣本,A、B為正常狀態(tài)的樣本,C為肝硬化狀態(tài)的樣本,D為肝細胞癌狀態(tài)的樣本,E為非腫瘤的癌旁狀態(tài)的樣本,則將A?E的所有樣本數(shù)據(jù)分為四個類別(組),即:正常狀態(tài)2個樣本,肝硬化狀態(tài)1個樣本,肝細胞癌狀態(tài)1個樣本,非腫瘤的癌旁狀態(tài)1個樣本。
[0058]2、篩選多類別間差異表達的分子
[0059]對任意一個分子進行多組間的單因素方差分析,并為所得統(tǒng)計值設定閾值;判斷所得統(tǒng)計值是否符合閾值要求,如果判斷結果為否,則拋棄;如果判斷結果為是,則輸出識別結果,執(zhí)行下一步。
[0060]該步驟可以篩選出多類別間差異表達的分子,作為候選差異表達分子,進入下一個步驟;并將多類別間非差異表達的分子篩除。
[0061]具體方法為:[0062]判斷所得統(tǒng)計值是否符合閾值要求的步驟為:
[0063]1)設零假設^為分子i在各組狀態(tài)間的表達有顯著差異;
[0064]2)為每個分子計算統(tǒng)計量ρ值,計算公式為
[0065]p = P {F (r-1, n-r) > F}
[0066]其中,統(tǒng)計量ρ值為服從自由度為(r-1,n-r)的F分布的隨機變量大于F的概率,F(xiàn)為設定的閾值;
[0067]F 分布中,
【權利要求】
1.一種由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法,其特征在于,包括以下步驟:(1)設置和輸入η組芯片數(shù)據(jù);(2)篩選多組間差異表達的分子,包括:對任意一個分子進行多組間的單因素方差分析,并為所得統(tǒng)計值設定閾值;判斷所得統(tǒng)計值是否符合閾值要求,如果判斷結果為否,則拋棄;如果判斷結果為是,則輸出識別結果,執(zhí)行下一步;(3)通過統(tǒng)計學檢驗的方法計算多組間差異表達分子在任意兩組間的表達差異,為所得統(tǒng)計值設定閾值;并針對多組間差異表達分子中的每個分子,構建長度為C?2的向量,如果所得統(tǒng)計值高于閾值,則在向量中相應的位置記為0,反之,記為1,得到多組間差異表達分子中的每個分子的差異表達模式編碼;(4)根據(jù)步驟(3)所得每個分子的差異表達模式編碼將分子進行分組,其中,具有相同編碼模式的分子歸為同一組,得到m個階段特異表達分組;(5)篩選多組間差異表達的分子,包括采用Fisher精確檢驗對所得m個階段特異表達分組進行富集分析,包括:以基因注釋生物學信息為對照,對各階段特異表達分組中的每個分子進行注釋,保留各階段特異表達分組中 可以富集到相同生物功能節(jié)點的分子,組成類別特異表達的分子集合;(6)根據(jù)類別特異分子集構建各狀態(tài)間的連接網絡,得到類別網。
2.如權利要求1所述的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法,其特征在于,所述步驟(1)中,所述η為不小于3的自然數(shù),所述η組芯片數(shù)據(jù)的分組依據(jù)為根據(jù)不同生理狀態(tài)將Q個樣本數(shù)據(jù)進行分組,其中,Q為不小于3的自然數(shù)。
3.如權利要求1所述的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法,其特征在于,所述步驟(2)中,所述對任意一個分子進行多組間的單因素方差分析的方法為F分布檢驗,包括:為每個分子計算統(tǒng)計量Ρ值,計算公式為p = P {F (r-1, n-r) > F};所述所得統(tǒng)計值設定的閾值為0.05 ;所述判斷所得統(tǒng)計值是否符合閾值要求,如果判斷結果為否,則拋棄;如果判斷結果為是,則輸出識別結果,執(zhí)行下一步的過程包括:如果統(tǒng)計量P大于閾值,則拋棄此分子;如果統(tǒng)計量P不大于閾值,則輸出識別結果,執(zhí)行下一步,其中,所述閾值為0.05。
4.如權利要求1所述的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法,其特征在于,所述步驟(3)中,所述計算多組間差異表達分子在任意兩組間的表達差異的統(tǒng)計學檢驗方法為t檢驗,所述為統(tǒng)計值設定的閾值為0.05。
5.如權利要求1所述的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法,其特征在于,所述步驟(4)中,所述m為自然數(shù),且不大于於。
6.如權利要求1所述的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法,其特征在于,所述步驟(5)中,所述對所得m個階段特異表達分組進行富集分析所采用的Fisher精確檢驗為單側Fisher精確檢驗;所述基因注釋生物學信息為以下數(shù)據(jù)庫或信息:基因本體論數(shù)據(jù)庫的三個子庫、基因組位置信息、生物學通路信息、miciORNA靶基因信息、轉錄因子和已知疾病信息中的一種或多種。
7.如權利要求1所述的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法,其特征在于,所述步驟(5)中,所述保留各階段特異表達分組中可以富集到相同節(jié)點的分子的過程包括:對所得每個生物學功能節(jié)點的統(tǒng)計量P,設定閾值為0.05,如果統(tǒng)計值ρ大于閾值,則拋棄相應的節(jié)點;如果統(tǒng)計值P不大于閾值,則保留相應的節(jié)點,并保留富集到此節(jié)點的分子。
8.如權利要求1所述的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法,其特征在于,所述步驟(6)中,根據(jù)類別特異分子集構建各狀態(tài)間的連接網絡,得到類別網的步驟包括:將每個類別作為網絡中的一個節(jié)點,如果兩個狀態(tài)間存在類別特異表達分子集,則將二者用邊連接起來。
9.一種評價由生物芯片數(shù)據(jù)構建的多類別特異表達分子集分類能力的方法,其特征在于,包括以下步驟:501、取如權利要求1步驟(5)所述的任一個類別特異表達分子集,每個分子集合中的樣本數(shù)目記為mB,給每個分子集合標記組標簽,記為G^“GB,其中,mB和B為自然數(shù);502、采用k均值聚類對 所述m組數(shù)據(jù)進行分析,得到C類,給每個類標記類標簽,記為IV..K。,每類中的樣本數(shù)目記為S。,其中,Sc和C為自然數(shù);503、對C類中的每個類別進行分析,將第K。類中來源于同一Gb組的樣本數(shù)進行統(tǒng)計,分別記為nyn eB,將nyn GB除以相應的樣本數(shù)nv“mB進行標準化后,計算f_score的分值,計算的公式為:f_score=n GB/mB/Sc,將每個C類中具有最大f_score的類標簽記為該類的最終的類標簽;504、若得到C類最終類標簽,且所述最終類標簽互不相同,則說明如權利要求1步驟(5)所述的多類別特異表達分子集的分類能力較好。
10.如權利要求1所述的由生物芯片數(shù)據(jù)構建多類別特異表達分子集及類別網的方法在分析基因表達譜數(shù)據(jù)、代謝組學生物芯片檢測數(shù)據(jù)及microRNA生物芯片檢測數(shù)據(jù)中的應用。
【文檔編號】G06F19/24GK103678954SQ201310680407
【公開日】2014年3月26日 申請日期:2013年12月11日 優(yōu)先權日:2013年12月11日
【發(fā)明者】王瑩瑩, 蔡云鵬 申請人:深圳先進技術研究院