本發(fā)明涉及數(shù)據(jù)的分析挖掘技術(shù),具體涉及一種基于基因芯片數(shù)據(jù)的疾病影響因素的挖掘方法。
背景技術(shù):
基因芯片(genechip),又稱dna微陣列(microarray),是由大量dna或寡核苷酸探針密集排列所形成的探針陣列?;蛐酒汛罅恳阎蛄刑结樇稍谕粋€基片上,根據(jù)堿基互補匹配的原理確定靶基因的序列。這樣,可以對生物細胞或組織中大量的基因信息進行分析[孫嘯,陸祖宏,謝建明.生物信息學基礎(chǔ)[m].清華大學出版社,2006.]。
對于基因芯片數(shù)據(jù)來說,最基本的應用就是運用不同的機器學習、數(shù)據(jù)分析挖掘方法,研究多個樣本之間相同基因的不同表達水平,來發(fā)現(xiàn)疾病與基因表達之間的關(guān)系。quackenbush等人對微陣列表達計算分析進行了一系列實驗,遠景是希望通過基因及其功能對疾病狀態(tài)進行分類,但實驗結(jié)論卻說明了微陣列數(shù)據(jù)處理和解釋尚不是一門精確的科學[quackenbushj.computationalanalysisofmicroarraydata.[j].naturereviewsgenetics,2001,2(6):418.]。在假設(shè)集群中的基因共享一些共同功能或調(diào)節(jié)元素的基礎(chǔ)上,使用了層次聚類算法進行分析,發(fā)現(xiàn)聚類結(jié)果依賴于實驗中的每一步,不同的選擇可以得到很不同的結(jié)果,聚類分析并不能給出絕對的答案。但這也是令人興奮的地方,使用不同的數(shù)據(jù)挖掘方法可以照亮數(shù)據(jù)間不同的關(guān)系,得到多種相關(guān)關(guān)系和探索方向,這些都可以作為生物科學實驗室的假設(shè),從而使對基因表達模式的研究更好地應用于人類對疾病狀態(tài)分類的研究。張潔等人將決策樹算法應用到來源于wtccc[https://www.wtccc.org.uk/]的冠心病被試者的基因芯片數(shù)據(jù)(其中包含4864名被試者的基因位點信息以及患者是否患病的0/1變量),去尋找與冠心病相關(guān)聯(lián)的易感位點,并建立模型預測新的被試者是否患?。蛔罱K挑選出來5個與冠心病相關(guān)聯(lián)的易感位點,并且得到了一個準確率穩(wěn)定在74%的患病預測模型[張潔.決策樹膜型在冠心病全基因組關(guān)聯(lián)研究中的應用[d].復旦大學,2013.]。李忠輝等人從ncbi數(shù)據(jù)庫geo中得到2型糖尿病胰島組織基因表達譜數(shù)據(jù),利用qlucoreomicsexploer[http://www.qlucore.com/],panther[http://pantherdb.org/],david[https://david.ncifcrf.gov/]等多種生物信息學軟件對基因表達譜數(shù)據(jù)進行了聚類分析、pca分析等研究,最終得到糖尿病胰島組織與正常胰島組織存在782個差異表達的基因;其中用到的多種生物信息學軟件都是計算機科學在基因數(shù)據(jù)研究中的典型應用[李中輝.ⅱ型糖尿病相關(guān)基因的生物信息學研究[d].南方醫(yī)科大學,2015.]。khan等人使用人工神經(jīng)網(wǎng)絡(luò)算法對小型圓形藍色細胞腫瘤(small-blue-round-celltumour,srbct)進行分類診斷;這些癌癥分屬4個不同的診斷類別,在臨床實踐中常常會出現(xiàn)診斷困境,而通過人工神經(jīng)網(wǎng)絡(luò)模型不但可以正確分類所有樣本,還確定了與分類最相關(guān)的基因,該研究表明了數(shù)據(jù)分析方法在疾病診斷中的潛在應用[khanj,weijs,ringnérm,etal.classificationanddiagnosticpredictionofcancersusinggeneexpressionprofilingandartificialneuralnetworks[j].naturemedicine,2001,7(6):673-679.]。statnikov等人在11個數(shù)據(jù)集上對各種多分類器進行實驗評估,結(jié)果發(fā)現(xiàn)預先執(zhí)行好的基因選擇算法可以顯著提高各模型的分類性能,并最終得到支持向量機(svm)算法在11個數(shù)據(jù)集的分類應用中具有最高的分類精度[statnikova,aliferiscf,tsamardinosi,etal.acomprehensiveevaluationofmulticategoryclassificationmethodsformicroarraygeneexpressioncancerdiagnosis[j].bioinformatics,2005,21(5):631-43.]。
可以看出,隨著基因芯片技術(shù)的不斷發(fā)展,利用基因芯片數(shù)據(jù)進行疾病研究已經(jīng)是當今疾病研究領(lǐng)域中重要的一環(huán)。然而根據(jù)上述相關(guān)工作的調(diào)研,我們發(fā)現(xiàn)雖然有研究提到了不同模型應用到同一數(shù)據(jù)集上會得到多種不同的結(jié)果,但大多數(shù)針對基因芯片數(shù)據(jù)的研究依然只采用了一至兩個計算模型就得到了相關(guān)的結(jié)論,然而這樣的結(jié)論是不全面的。
技術(shù)實現(xiàn)要素:
針對以上現(xiàn)有技術(shù)中存在的問題,本發(fā)明提出了一種基于基因芯片數(shù)據(jù)的疾病影響因素的挖掘方法,從基因表達的角度對疾病的形成進行一定的分析研究,為進一步的醫(yī)學實驗提供理論支持和假設(shè)。
挑選多個被測試者,被測試者包括正常人和患者,對每一個被測試者采用一個基因芯片進行檢測,基因芯片上每一個探針測得一個探針數(shù)據(jù),一個基因芯片檢測后得到的數(shù)據(jù)為一個檢測樣本,從而得到原始數(shù)據(jù)。
本發(fā)明的基于基因芯片數(shù)據(jù)的疾病影響因素的挖掘方法,包括以下步驟:
1)數(shù)據(jù)拆分:
按照被測試者中的正常人和患者,將原始數(shù)據(jù)進行有效拆分,拆分成患者樣本和正常人
樣本;
2)初步分析:
初步分析包括數(shù)據(jù)摘要、標準確定和初步結(jié)構(gòu):
a)數(shù)據(jù)摘要:數(shù)據(jù)摘要包括樣本大小、原始數(shù)據(jù)維度和各維度的意義;
b)標準確定:在分析前確定以下三個標準:一)探針在單一檢測樣本中為有效表達的評定標準——該探針所對應的探針數(shù)據(jù)的檢測p值的上限p0,認為當p<p0時,該探針在該單一檢測樣本中的表達被檢測到且探針數(shù)據(jù)有效;二)探針在正常人樣本或患者樣本中被確定為有效表達的評定標準——該探針在正常人樣本或患者樣本中為有效表達的占比r的下限r(nóng)0,即認為當r≥r0時,該探針在正常人樣本或患者樣本中為有效表達,且其所對應的探針數(shù)據(jù)有效;三)探針在正常人樣本或患者樣本中被確定為有效不表達的評定標準——該探針在正常人樣本或患者樣本中為有效表達的占比r的上限r(nóng)1,即認為當r≤r1時,該探針在正常人樣本或患者樣本中為有效不表達;當一個探針的有效表達占比在r0與r1之間時,認為該探針為不顯著探針,將該探針數(shù)據(jù)被作為無效數(shù)據(jù)忽略;
c)初步結(jié)果:根據(jù)步驟b)的標準,找到在患者樣本中有效表達而在正常人樣本中有效不表達的差異探針集合,以及在正常人樣本中有效表達而在患者樣本中有效不表達的差異探針集合,從而形成初步結(jié)果;
3)數(shù)據(jù)過濾:
經(jīng)過初步分析后,僅在患者樣本或正常人樣本中有效表達的探針與在兩個樣本中均有效不表達的探針將被過濾,而在兩個樣本中均有效表達的探針,探針數(shù)據(jù)為有效數(shù)據(jù),進入步驟4),分析有效數(shù)據(jù)的不同表達強度;
4)數(shù)據(jù)補全:
在兩個樣本中均有效表達的探針中,存在部分探針數(shù)據(jù)的檢測p值不滿足評定標準p0,這些探針的檢測強度數(shù)據(jù)將被看作是缺失值,對缺失值進行補全;
5)數(shù)據(jù)合并:
將完成補全的患者樣本和正常人樣本進行合并,形成完整數(shù)據(jù),對完整數(shù)據(jù)進行標準化處理后,對于患者樣本和正常人樣本貼上不同的標簽,作為步驟6)中核心選擇器的輸入;
6)設(shè)計核心選擇器:
將檢測樣本的不同探針看作是樣本的不同特征,從而將問題歸納成“特征選擇”問題,確定基選擇器的輸出、選擇基選擇器和組合基選擇器,從而形成核心選擇器:
a)基選擇器的輸出:基選擇器的輸出設(shè)計為其對所有特征的評分,由于各基選擇器的評分根據(jù)不同,所以各基選擇器在得到各特征的原始評分后,先將其歸一化到0~1之間再輸出,以此來消除評分標準不同帶來的差異;
b)選擇基選擇器:從過濾式方法的選擇器、包裹式方法的選擇器和嵌入式方法的選擇器中選出多個選擇器作為基選擇器;
c)組合基選擇器:各基選擇器評分的加權(quán)求和即為各特征的總評分,第i個基選擇器的權(quán)重wi為:
其中,ei為利用基選擇器i得到的評分最高的m(m≥1)個特征來執(zhí)行二聚類k-means算法后,聚類結(jié)果與真實類別標簽所產(chǎn)生的誤差個數(shù),n為樣本總數(shù),acci為基選擇器i在模型訓練中通過交叉驗證得到的最優(yōu)準確率;
7)按照步驟6)設(shè)計的核心選擇器執(zhí)行選擇算法;
8)結(jié)果輸出:
核心選擇器選出得分最高的前m個探針,之后利用基因芯片平臺數(shù)據(jù)得到每個探針對應的基因名稱,再通過層次聚類,得到結(jié)果。
進一步,對結(jié)果進行可視化分析,再綜合初步分析的結(jié)果,即可得到基因?qū)用嫔霞膊〉挠绊懸蛩亍?/p>
其中,在步驟2)中,檢測p值的上限p0在0~0.05之間;占比r的下限r(nóng)0在0.7~1之間;占比r的上限r(nóng)1在0~0.3之間。
在步驟4)中,缺失值補全的算法采用均值、中位數(shù)插值法,最近鄰(knn)插值法,奇異值分解(svd)法中的一種。
在步驟6)中,過濾式方法的選擇器包括皮爾遜相關(guān)系數(shù)選擇器、距離相關(guān)系數(shù)選擇器和最大信息系數(shù)選擇器。包裹式方法的選擇器包括遞歸特征消除選擇器和lvw(lasvegaswrapper)選擇器。嵌入式方法的選擇器包括決策樹選擇器、隨機森林(randomforest)選擇器、梯度提升決策樹(gbdt)選擇器、邏輯回歸選擇器、svm選擇器、樸素貝葉斯選擇器、l1正則化選擇器和l2正則化選擇器。
本發(fā)明的優(yōu)點:
本發(fā)明將原始數(shù)據(jù)有效拆分成患者樣本和正常人樣本,設(shè)定評定標準,對有效數(shù)據(jù)進行過濾、補全和合并后,設(shè)計核心選擇器,將檢測樣本的不同探針看作是樣本的不同特征,從而將問題歸納成“特征選擇”問題,核心選擇器選出排名最靠前的m個探針,利用基因芯片平臺數(shù)據(jù)得到每個探針對應的基因名稱,得到基因?qū)用嫔霞膊〉挠绊懸蛩?;本發(fā)明創(chuàng)新地提出了一種基于基因芯片數(shù)據(jù)對疾病基因?qū)用嬗绊懸蛩氐姆治鐾诰蚍椒?,為進一步的生物學實驗提供了更多的理論假設(shè)和支持。
附圖說明
圖1為本發(fā)明的基于基因芯片數(shù)據(jù)的疾病影響因素的挖掘方法的流程圖;
圖2為高血壓基因芯片表達聚類分析圖。
具體實施方式
下面結(jié)合附圖,通過具體實施例,進一步闡述本發(fā)明。
在本實施例中,原始數(shù)據(jù)為來自于ncbi的geo數(shù)據(jù)庫,編號為gse75360[https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=gse75360];采用illumina基因芯片humanht-12v4.0(對應geo平臺編號gpl10558[https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=gpl10558])測量了21名美國非裔婦女和白人婦女的外周血單核細胞(pbmc)中mrna的表達數(shù)據(jù),其中包括了10名高血壓患者和11名正常人。原始數(shù)據(jù)包含21個被測試者的pbmc細胞中的mrna在47231個探針上的檢測強度和檢測p值(detectionp-value);其中,檢測強度即為該探針所檢測基因序列的表達強度,而檢測p值是指該探針表達的可信度指標,通常認為該值越小越好,當≤0.05時,認為其檢測結(jié)果是具有顯著性的,即該確實檢測到該探針表達且其表達強度數(shù)據(jù)有效。
如圖1所示,本實施例的基于基因芯片數(shù)據(jù)的疾病影響因素的挖掘方法,包括以下步驟:
1)數(shù)據(jù)拆分:
按照被測試者中的11個正常人和10個患者,將原始數(shù)據(jù)進行有效拆分,拆分成患者樣本和正常人樣本。
2)初步分析:
初步分析包括數(shù)據(jù)摘要、標準確定和初步結(jié)構(gòu):
a)數(shù)據(jù)摘要:數(shù)據(jù)摘要包括樣本大小為11個正常人樣本和10個患者樣本,數(shù)據(jù)維度為二維,檢測強度和檢測p值(即可信度);
b)標準確定:本實施例中將三個標準p0、r0、r1分別設(shè)定為,p0=0.05,r0=0.8,r1=0.2,即檢測p值小于0.05的探針數(shù)據(jù)被認為所對應的探針對該單一檢測樣本為有效表達;探針的有效表達占比大于等于80%時,認為該探針在患者樣本或正常人樣本中為有效表達,小于等于20%時,認為其為有效不表達。
c)初步結(jié)果:如下表1所示:
表1基因芯片數(shù)據(jù)初步分析結(jié)果
3)數(shù)據(jù)過濾:
經(jīng)過數(shù)據(jù)過濾,得到16529個在兩類樣本中均為有效表達的探針,稱其探針數(shù)據(jù)為有效數(shù)據(jù)。
4)數(shù)據(jù)補全:
在有效數(shù)據(jù)中,高血壓樣本存在1.5875%的缺失值,正常人樣本存在1.0857%的缺失值,缺失值占比很低,選擇采用knn補全算法。兩個有效數(shù)據(jù)分別按照各自的最優(yōu)數(shù)據(jù)補全算法對自己的缺失值進行補全??可系臄?shù)組為探針的原始數(shù)據(jù),其第3個樣本數(shù)據(jù)因為檢測p值大于等于p0而被認定為缺失值,靠下的數(shù)組為補全算法完成后該探針的數(shù)據(jù);
5)數(shù)據(jù)合并:
將完成補全的患者樣本和正常人樣本進行合并,形成完整數(shù)據(jù),對完整數(shù)據(jù)進行標準化處理后,對于患者樣本和正常人樣本貼上不同的標簽,形成了21×16530的基因表達數(shù)據(jù)矩陣,其中最后一列為患者樣本或正常人樣本的標簽,作為步驟6)中核心選擇器的輸入;
6)設(shè)計核心選擇器:
將樣本中的不同探針看作是樣本的不同特征,從而將問題歸納成“特征選擇”問題,確定基選擇器的輸出、選擇基選擇器和組合基選擇器,從而形成核心選擇器:
a)基選擇器的輸出:基選擇器的輸出設(shè)計為其對所有特征的評分,由于各基選擇器的評分根據(jù)不同,所以各基選擇器在得到各特征的原始評分后,先將其歸一化到0~1之間再輸出,以此來消除評分標準不同帶來的差異;
b)選擇基選擇器:
本實施例一共選取了7個基選擇器:
1、皮爾遜相關(guān)系數(shù)(pearsoncorrelation)選擇器
2、距離相關(guān)系數(shù)(distancecorrelation)選擇器
3、遞歸特征消除(recursivefeatureelimination)選擇器
4、隨機森林(randomforest)選擇器
5、梯度提升決策樹(gbdt)選擇器
6、l1正則化選擇器
7、l2正則化選擇器
其中1、2屬于過濾式方法,3屬于包裹式方法,4~7均屬于嵌入式方法。
c)組合基選擇器:各基選擇器評分的加權(quán)求和即為各特征的總評分,第i個基選擇器的權(quán)重wi為:
其中,ei為聚類結(jié)果與真實類別標簽所產(chǎn)生的誤差個數(shù),利用基選擇器i得到的評分最高的m個特征來執(zhí)行二聚類k-means算法后,得到聚類結(jié)果,步驟1)中拆分成患者樣本和正常人樣本后就得到了真實類別,,n為樣本總數(shù),acci為基選擇器i在模型訓練中通過交叉驗證得到的最優(yōu)準確率;
7)按照步驟6)設(shè)計的核心選擇器執(zhí)行選擇算法,如下表2所示:
表2核心選擇器中各基選擇器的表現(xiàn)
8)結(jié)果輸出:
根據(jù)實際需要,最終由核心選擇器得到評分最高的30個探針,利用這30個探針數(shù)據(jù)執(zhí)行k-means聚類算法后,所有樣本均被正確聚類。將其中排名最靠前的10個探針展示在表3中,其中有的探針所檢測的mrna序列可能沒有與其相對應的基因。
表3總分排名靠前的10個探針的基本信息
用agnes層次聚類算法分別對21個檢測樣本和評分最高的30個探針在數(shù)據(jù)表達熱力圖(heatmap)上進行層次聚類,其結(jié)果以樹狀圖的形式展示,如圖2所示。圖中上側(cè)為樣本聚類,右側(cè)為探針(基因)聚類。
最后需要注意的是,公布實施例的目的在于幫助進一步理解本發(fā)明,但是本領(lǐng)域的技術(shù)人員可以理解:在不脫離本發(fā)明及所附的權(quán)利要求的精神和范圍內(nèi),各種替換和修改都是可能的。因此,本發(fā)明不應局限于實施例所公開的內(nèi)容,本發(fā)明要求保護的范圍以權(quán)利要求書界定的范圍為準。