本發(fā)明涉及醫(yī)學基因組學和計算生物學領域,具體涉及一種利用TCGA公共數(shù)據(jù)資源發(fā)現(xiàn)直腸癌相關miRNA的方法。
背景技術:
生物信息學是一門生命科學和計算機科學相結合的學科,研究生物信息的采集、處理、存儲、分析和解釋等,通過綜合利用生物學、計算機科學及信息技術來揭示復雜的生物數(shù)據(jù)所蘊藏的生物學奧秘。公共數(shù)據(jù)庫是開展生物信息學研究的重要工具。如何充分利用免費資源、高效整合數(shù)據(jù)、深入挖掘分析已成為生物信息學的一個重要課題。
美國政府發(fā)起的癌癥和腫瘤基因圖譜(The Cancer Genome Atlas,TCGA)計劃,試圖通過應用基因組分析技術,特別是采用大規(guī)模的基因組測序,將人類全部癌癥的基因組變異圖譜繪制出來,并進行系統(tǒng)分析,旨在找到所有致癌和抑癌基因的微小變異,了解癌細胞發(fā)生、發(fā)展的機制,在此基礎上取得新的診斷和治療方法,最后可以勾畫出整個新型“預防癌癥的策略”。2005年12月13日,這一項目由美國國家癌癥和腫瘤研究所(NCI)和國家人類基因組研究所(NHGRI)聯(lián)合進行,預計耗資1億美元,是迄今為止世界上所進行的最大一項基因工程。繪制癌癥基因圖譜有助于把研究人員從目前逐個追蹤基因的大量勞動中解放出來,便于迅速設計和找到針對性抗癌藥物。這項計劃是生物醫(yī)學研究中的一大轉折點,也是藥物治療的一大轉折點,人們用一種新的觀點去審視遺傳改變與惡性腫瘤的聯(lián)系,突破固有的知識的限制,嘗試研究某個病人一生的遺傳序列,然后用得到的信息去設計目標性強的、基于個性化的治療。
在癌癥醫(yī)學研究領域,TCGA試驗項目革命性的將癌癥生物學、基因組學技術、生物儲藏庫和生物信息學領域的最新成果協(xié)調發(fā)展和應用。目前,已成為最大的癌癥基因信息數(shù)據(jù)庫,收集了39種癌癥,262,293個樣本,mRNA/microRNA表達譜、拷貝數(shù)變異、突變、甲基化等大規(guī)模數(shù)據(jù),數(shù)據(jù)量依然在逐年遞增。TCGA推動了人們對癌癥基因組學認識的大幅度提高,并將繼續(xù)引領如何大規(guī)模的將分子數(shù)據(jù)真正應用到臨床的研究。雖然TCGA公開了大量數(shù)據(jù),但是樣本龐大,信息繁多,格式難以轉化,下載到的數(shù)據(jù)不能直接使用。而在我國,從事癌癥相關研究的科研人員大多不具備生物信息學背景,如何有效的從TCGA進行數(shù)據(jù)收集、預處理和分析是一個難點。
MicroRNA(miRNA)是一類內生的、長度約為20-24個核苷酸的小RNA,是最早發(fā)現(xiàn)的非編碼RNA。研究發(fā)現(xiàn),每個miRNA可以有多個靶基因,而幾個miRNA也可以調節(jié)同一個基因。這種復雜的調節(jié)網(wǎng)絡既可以通過一個miRNA來調控多個基因的表達,也可以通過幾個miRNA的組合來精細調控某個基因的表達。miRNA是眾多細胞過程的關鍵調控子,與發(fā)育和癌癥進程密切相關。人類目前已知的miRNA有兩千多個,對應的測序數(shù)據(jù)得到的表達數(shù)據(jù)達到兩千多維,雖然有些疾病相關miRNA已被發(fā)現(xiàn),但是大多數(shù)的相關miRNA有待于進一步研究。直腸癌是消化道最常見的惡性腫瘤之一,在我國的發(fā)病率,特別是經濟發(fā)達地區(qū),逐年上升。由于其早期診斷手段缺乏,在疾病確診時,往往已經發(fā)展到晚期。我國直腸癌發(fā)病年齡中位數(shù)在45歲左右,青年人發(fā)病率有升高的趨勢。直腸癌的病因目前仍不十分清楚,與多種因素有關。miRNA在作為直腸癌等疾病的新型臨床診斷標記物的開發(fā)應用上取得了很大進展,但仍有很多不足。而且因為科研成本等問題,很多研究人員缺乏資金支持,不能負擔實驗所需費用,也不能承受高通量技術服務費特別是大樣本量的高通量檢測費用,而生物信息學研究所需的投資有限卻可以做出高水平的工作,這是面臨同樣困境的工作者能夠繼續(xù)研究工作的最佳解決方案。目前的公共數(shù)據(jù)平臺,雖然大多公開免費,然而所提供下載供本地化分析的數(shù)據(jù)都是原始數(shù)據(jù),需要進行再次或多次處理才可以使用,給科研人員帶來極大不便。甚至不同數(shù)據(jù)庫使用的基因組注釋信息來源不同、標準不同,很多數(shù)據(jù)庫還會專門使用自己數(shù)據(jù)庫的特殊命名,也給工作者整合多個數(shù)據(jù)庫信息的工作帶來很大難度。再加上對miRNA功能機制了解的太少,分析手段單一簡單,因此如何合理利用網(wǎng)絡資源,有效地收集、整合、分析miRNA高通量大數(shù)據(jù),研究其潛在功能特別是預測與疾病相關miRNA成為該領域目前最急需解決的問題,也是科研人員特別是無生物信息學背景的實驗、臨床人員面臨的最大難點。
技術實現(xiàn)要素:
本發(fā)明的目的是提供利用TCGA公共數(shù)據(jù)資源發(fā)現(xiàn)直腸癌相關miRNA的方法,以解決不擅長整合現(xiàn)有網(wǎng)絡資源以及不能獨立完成miRNA相關的生物信息學分析等問題。
為實現(xiàn)上述目的,本發(fā)明采用的技術方案是:
一種利用TCGA數(shù)據(jù)庫資源發(fā)現(xiàn)直腸癌相關microRNA分子標志物的方法,包括如下步驟:
步驟1,樣本數(shù)據(jù)下載和整理:獲取miRNA表達數(shù)據(jù),選定目標疾病直腸癌和測序平臺,下載數(shù)據(jù),數(shù)據(jù)包含疾病樣本和對應的正常樣本;
步驟2,對步驟1得到的miRNA表達數(shù)據(jù)的差異表達分析;
步驟3,將經過步驟2處理后的miRNA表達數(shù)據(jù)按照變化幅度排序,變化率越大的排名越靠前,篩選排名靠前的10個miRNA表達數(shù)據(jù)作為相關miRNA表達數(shù)據(jù);
步驟4,應用靶基因預測網(wǎng)站或軟件作為預測miRNA靶基因的工具,獲取靶基因;
步驟5,對靶基因進行功能分析并找出與疾病相關的條目,構建網(wǎng)絡示意圖。
優(yōu)選的,所述的步驟1具體包括如下步驟:
步驟1.1,進入R語言工作界面,載入TCGAbiolinks包;
步驟1.2,在TCGA數(shù)據(jù)庫設定目標疾病直腸癌、測序平臺和miRNA文件類型;
步驟1.3,批量下載所需的標準化數(shù)據(jù);
步驟1.4,將上述步驟得到的數(shù)據(jù)進行合并,并去除極值,得到理論上有效的miRNA表達值。
優(yōu)選的,所述步驟1.1中,所述TCGAbiolinks包是一個最新的數(shù)據(jù)庫表達數(shù)據(jù)下載分析語言包。
優(yōu)選的,所述步驟1.2中,所述的TCGA數(shù)據(jù)庫是目前最大的癌癥基因信息數(shù)據(jù)庫,已收集了39種癌癥,262,293個樣本,涉及mRNA/microRNA表達譜、拷貝數(shù)變異、突變、甲基化等大規(guī)模數(shù)據(jù),且數(shù)據(jù)量在逐年遞增。
優(yōu)選的,所述步驟1.4中,所述極值數(shù)據(jù)是作為RNA表達值的標準化測序片段數(shù)目為零的數(shù)據(jù)。
優(yōu)選的,所述的步驟2中,差異表達分析選取1.5倍或者2倍的差異倍數(shù),選用三個標準Benjamini–Hochberg方法、FDR方法或者Bonforroni方法校正P-value得到差異表達的miRNA。
優(yōu)選的,所述的步驟4中,預測靶基因采用靶基因預測網(wǎng)站中已有數(shù)據(jù)資源整合和軟件預測算法兩種方式,需遵循預選基因至少被兩個以上預測算法或數(shù)據(jù)庫同時預測到;
所述的靶基因預測網(wǎng)站是miRWalk數(shù)據(jù)庫和TargetScan;
所述的預測軟件是TargetScan和miRanda。
優(yōu)選的,所述的步驟5中,所述的對mRNA的功能性分析基于DAVID數(shù)據(jù)庫信息,包括基因本體分析,代謝通路分析,疾病相關分析和調控網(wǎng)絡的構建;
所述的基因本體分析采用DAVID數(shù)據(jù)庫信息從生物過程、分子功能和細胞組分三個成分進行注釋和富集分析;
所述的代謝通路分析采用DAVID數(shù)據(jù)庫信息包含的KEGG、Reactome數(shù)據(jù)庫信息進行分析;
所述的疾病相關分析采用DAVID數(shù)據(jù)庫信息包含的GAD_DISEASE、GAD_DISEASE_CLASS和OMIM_DISEASE數(shù)據(jù)庫信息進行分析。
本發(fā)明的另一目的在于提供一種所述利用TCGA公共數(shù)據(jù)庫資源發(fā)現(xiàn)直腸癌相關microRNA分子標志物的系統(tǒng),技術方案為:
一種利用TCGA數(shù)據(jù)庫資源發(fā)現(xiàn)直腸癌相關microRNA分子標志物的系統(tǒng),所述系統(tǒng)包括:
樣本數(shù)據(jù)下載和整理模塊,用于獲取miRNA表達數(shù)據(jù),包含疾病樣本和對應的正常樣本;
差異表達分析模塊,用于對miRNA數(shù)據(jù)進行表達分析,統(tǒng)計差異顯著性,此過程需排除零值等極值影響;
篩選排名模塊,用于將差異表達的miRNA按照差異倍數(shù)絕對值排序,越大的排名越靠前,篩選一定數(shù)目的miRNA作為待研究miRNA;
選定靶基因模塊,用于應用miRWalk、TargetScan等靶基因預測網(wǎng)站或軟件作為預測miRNA靶基因的工具,獲取靶基因;
功能分析模塊,用于根據(jù)選中的mRNA,采用DAVID數(shù)據(jù)庫信息進行基因本體分析,代謝通路分析和疾病相關分析并圖形化展示。
本發(fā)明的再一個目的是提供上述利用TCGA數(shù)據(jù)庫資源發(fā)現(xiàn)直腸癌相關microRNA分子標志物的系統(tǒng)的應用。
所述的應用包括:
應用所述利用TCGA公共數(shù)據(jù)庫資源發(fā)現(xiàn)直腸癌相關microRNA分子標志物的方法的生物靶向治療系統(tǒng)。
應用所述利用TCGA公共數(shù)據(jù)庫資源發(fā)現(xiàn)直腸癌相關microRNA分子標志物的方法的生物藥物研制工藝。
應用所述利用TCGA公共數(shù)據(jù)庫資源發(fā)現(xiàn)直腸癌相關microRNA分子標志物的方法的致病機理系統(tǒng)。
應用所述利用TCGA公共數(shù)據(jù)庫資源發(fā)現(xiàn)直腸癌相關microRNA分子標志物的方法的致病風險預測系統(tǒng)。
有益效果:本發(fā)明提供的利用TCGA公共數(shù)據(jù)庫資源發(fā)現(xiàn)直腸癌相關microRNA分子標志物的方法,基于公共數(shù)據(jù)資源例如癌癥基因組圖譜TCGA數(shù)據(jù)庫的直腸癌miRNA測序數(shù)據(jù),運用生物信息學方法,對miRNA表達數(shù)據(jù)進行分析處理,識別與直腸癌相關的miRNA。本發(fā)明發(fā)現(xiàn)與直腸癌等癌癥復雜疾病相關的miRNA和多個風險基因,對復雜疾病的生物靶向治療、生物藥物研制、致病機理闡釋及風險預測等都有重要意義。本發(fā)明能解決不擅長整合現(xiàn)有網(wǎng)絡資源、不熟悉miRNA相關的最常用數(shù)據(jù)庫及前沿分析方法以及不能獨立完成miRNA相關的生物信息學分析等問題。本發(fā)明采用豐富多樣的生物信息學手段,整合權威性強普及率高的公共網(wǎng)絡資源,建立了一套完整的前沿的分析流程,能對miRNA高通量數(shù)據(jù)進行系統(tǒng)的全面的功能分析并發(fā)現(xiàn)直腸癌相關miRNA分子標志物??捎行Ю霉矓?shù)據(jù)庫的海量高通量數(shù)據(jù),降低科研成本,提高分析效率,作為開放性的數(shù)據(jù)分析方法,不僅適用于TCGA現(xiàn)有的miRNA數(shù)據(jù),還可實現(xiàn)與TCGA數(shù)據(jù)庫的同步更新和數(shù)據(jù)擴充。分析流程思路清晰,其實現(xiàn)方法簡單,可廣泛應用于生物學研究工作中,也可用于臨床相關應用。
附圖說明
圖1是本發(fā)明提供的利用TCGA公共數(shù)據(jù)庫資源發(fā)現(xiàn)直腸癌相關microRNA分子標志物的方法的分析流程圖;
圖2是直腸癌miRNA差異表達top1疾病相關網(wǎng)絡示意圖;表明has-miR-1224-3p在直腸癌樣本中差異表達top1,并且已被驗證與部分疾病相關。
圖3是直腸癌miRNA差異表達top2疾病相關網(wǎng)絡示意圖;表明has-miR-486-5p在直腸癌樣本中差異表達top2,并且已被驗證與部分疾病相關。
圖4是直腸癌miRNA差異表達top3疾病相關網(wǎng)絡示意圖。表明has-miR-328-3p在直腸癌樣本中差異表達top3,并且已被驗證與部分疾病相關。
具體實施方式
為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合實施例,對本發(fā)明作更進一步的說明。
如圖1所示,本發(fā)明的一種利用TCGA數(shù)據(jù)庫資源發(fā)現(xiàn)直腸癌相關microRNA分子標志物的方法,包括如下步驟:
步驟1,樣本數(shù)據(jù)下載和整理,獲取miRNA表達數(shù)據(jù),選定目標疾病直腸癌和測序平臺,下載數(shù)據(jù),數(shù)據(jù)包含疾病樣本和對應的正常樣本;
步驟2,對步驟1得到的miRNA表達數(shù)據(jù)的差異表達分析;
步驟3,將經過步驟2處理后的miRNA表達數(shù)據(jù)按照變化幅度排序,變化率越大的排名越靠前,篩選排名靠前的10個miRNA作為相關miRNA;
步驟4,應用靶基因預測網(wǎng)站或軟件作為預測miRNA靶基因的工具,獲取靶基因;
步驟5,對靶基因進行功能分析并找出與疾病相關的條目,構建網(wǎng)絡示意圖。
其中,步驟1具體包括如下步驟:
步驟1.1,進入R語言工作界面,載入TCGAbiolinks包;
步驟1.2,設定目標疾病、測序平臺和miRNA文件類型;
步驟1.3,批量下載所需的標準化數(shù)據(jù);
步驟1.4,將上述步驟得到的數(shù)據(jù)進行合并,并去除極值,得到理論上有效的miRNA表達值。
如圖1所示,步驟2中,差異表達miRNA的篩選包括選取1.5倍或者2倍的差異倍數(shù)(Fold change),選用國際最通用的三個標準Benjamini–Hochberg方法、FDR方法或者Bonforroni方法校正P-value得到差異表達的miRNA。
如圖1所示,預測靶基因采用靶基因預測網(wǎng)站中已有數(shù)據(jù)資源整合和軟件預測算法兩種方式,需遵循預選基因至少被兩個以上預測算法或數(shù)據(jù)庫同時預測到;所述的靶基因預測網(wǎng)站是miRWalk數(shù)據(jù)庫和TargetScan;所述的預測軟件是TargetScan和miRanda。
如圖1所示,步驟5中,miRNA的功能性分析包括基因本體分析,代謝通路分析,疾病相關分析和調控網(wǎng)絡的構建。
在本發(fā)明的一個實施方案中,在R平臺,使用TCGAbiolinks軟件包下載所需研究數(shù)據(jù)。
在本發(fā)明的一個實施方案中,在R平臺,對miRNA的結果進行錯誤發(fā)現(xiàn)率矯正??梢圆捎肂enjamini–Hochberg,F(xiàn)DR和Bonferroni方法。
Benjamini–Hochberg方法
上式中,α是給定的顯著性閥值;K代表樣本容量;M代表從小到大的排列順序。
FDR方法
上式中,M0代表零假設是真的時候的樣本總數(shù);M代表樣本容量;Q為顯著性閥值。
Bonferroni方法
P=α/k
上式中,α是給定的顯著性閥值;K是樣本容量。
在本發(fā)明的一個實施方案中,對miRNA靶基因預測采用miRWalk和TargetScan數(shù)據(jù)庫信息進行預測,同時通過預測軟件miRanda和TargetScan進行結合位點預測,最后選定靶基因的條件是至少被兩個預測軟件或數(shù)據(jù)庫同時預測到。
miRWalk數(shù)據(jù)庫
miRWalk是一個綜合性數(shù)據(jù)庫,不僅提供來自人類、小鼠和大鼠的miRNA的預測信息和經過驗證的位于其靶基因上的結位點,也提供mRNA的預測信息和驗證信息,共整合了13個公共數(shù)據(jù)庫資源,是整合數(shù)據(jù)庫資源最多的靶基因信息數(shù)據(jù)庫。
TargetScan數(shù)據(jù)庫
TargetScan是由microRNA領域大牛Bartel實驗室開發(fā)的數(shù)據(jù)庫?;诎衜RNA序列的進化保守等特征搜尋動物的microRNA靶基因。是預測microRNA靶標假陽性率最低的數(shù)據(jù)庫。
miRanda方法
miRanda是Enright等人于2003年開發(fā)一種miRNA靶標預測軟件。miRanda的核心思想主要是基于堿基互補,近似于Smith-Waterman算法,但對堿基配對的原則作出了改進,允許G-U間的錯配??紤]到miRNA與靶標位點結合時存在對5’端匹配程度要求較高的特性,軟件使用scale參數(shù)對5’端的11個堿基的得分作出矯正。而對結合能計算方面,miRanda基于ViennaRNA軟件包中RNAlib程序來計算miRNA-靶序列間的結合能。對于多個miRNA靶向同一位點的情況,miRanda采用貪婪算法選取得分最高結合能最低的結果。
TargetScan方法
Stark等人于2005年根據(jù)實驗結果分析miRNA靶標位點序列的結構需求,提出了miRNA具有一個7bp左右的核心序列,也就是種子序列。這段序列只允許Watson-Crick配對。作為靶標位點核心的種子序列通常在物種間高度保守。TargetScan基于這一原則對脊椎動物的miRNA靶標位點進行預測。首先根據(jù)miRNA在各物種間的保守情況將其劃分為廣泛保守、保守和弱保守的miRNA及家族,并考慮了靶標位點在多個物種間的保守性,并根據(jù)保守性的得分高低區(qū)分為保守靶標位點和弱保守的靶標位點。
在本發(fā)明的一個實施方案中,對靶基因采用DAVID數(shù)據(jù)庫信息從生物過程、分子功能和細胞組分三個成分進行基因本體注釋和富集分析,差異顯著可以用Benjamini–Hochberg,Bonferroni和FDR方法。
DAVID數(shù)據(jù)庫
基因的功能注釋在表達數(shù)據(jù)分析中是必需且關鍵的步驟。生物學知識的分布式性質經常需要研究者瀏覽很多可通過網(wǎng)絡訪問的數(shù)據(jù)庫而收集的信息,一次一個基因。一個更明智更便利的方法是提供基于查詢的對一個整合數(shù)據(jù)庫的訪問,該數(shù)據(jù)庫散布跨大量數(shù)據(jù)集的生物學上富集的信息,并顯示功能信息的圖形化摘要。DAVID就是這樣一個集注釋、可視化和整合發(fā)現(xiàn)于一身的數(shù)據(jù)庫,通過4個基于網(wǎng)絡的分析模塊:1)注釋工具——從多個公共數(shù)據(jù)庫中,對數(shù)個列表中的基因快速添加描述性數(shù)據(jù);2)GoCharts——基于用戶選擇的分類和術語特異性水平,將基因分配到基因本體論功能分類中;3)KeggCharts——將基因分配到KEGG代謝過程中,并使用戶在生物化學通路圖環(huán)境中查看基因成為可能;及4)DomainCharts——根據(jù)PFAM保守型蛋白質域將基因進行分組。分析結果和圖形化展示仍然動態(tài)的鏈接到原始數(shù)據(jù)和額外數(shù)據(jù)庫,因此提供深入及廣泛的數(shù)據(jù)覆蓋。由DAVID提供的功能通過促進從數(shù)據(jù)收集到生物學意義的轉換,加速了基因組范圍的數(shù)據(jù)集的分析。
在本發(fā)明的一個實施方案中,對靶基因采用DAVID數(shù)據(jù)庫信息整合的KEGG和Reactome數(shù)據(jù)庫信息進行代謝通路分析,差異顯著可以用Benjamini–Hochberg、Bonferroni和FDR方法。
KEGG數(shù)據(jù)庫
KEGG由日本京都大學生物信息學中心的Kanehisa實驗室于1995年建立。是國際最常用的生物信息數(shù)據(jù)庫之一,以“理解生物系統(tǒng)的高級功能和實用程序資源庫”著稱,也是代謝分析領域應用最廣最權威的數(shù)據(jù)庫。大致分為系統(tǒng)信息、基因組信息和化學信息三大類。進一步可細分為16個主要的數(shù)據(jù)庫。例如,基因組信息存儲在GENES數(shù)據(jù)庫里,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY數(shù)據(jù)庫里,包括圖解的細胞生化過程如代謝、膜轉運、信號傳遞、細胞周期,還包括同系保守的子通路等信息;KEGG的另一個數(shù)據(jù)庫LIGAND,包含關于化學物質、酶分子、酶反應等信息。
Reactome數(shù)據(jù)庫
反應組學(Reactome)是一個匯集了由專家撰寫,經同行評閱的有關人體內各項反應及生物學路徑的文獻的數(shù)據(jù)庫,該數(shù)據(jù)庫相當于一個有效的數(shù)據(jù)資源以及電子圖書。該庫目前發(fā)布了共計2975個人類蛋白、2907項生物學反應以及4455個引用文獻。該數(shù)據(jù)庫為人們提供了一個全新的從整體水平上對生物學途徑進行研究的工具,同時,它也是一個改良的搜索及數(shù)據(jù)挖掘工具,可以簡化與生物學途徑相關的數(shù)據(jù)搜索與研究。此外,對用戶提供的高通量數(shù)據(jù)組進行分析,也變得更為簡單。
在本發(fā)明的一個實施方案中,對靶基因采用DAVID數(shù)據(jù)庫信息包含的GAD_DISEASE、GAD_DISEASE_CLASS和OMIM_DISEASE信息進行疾病相關分析,差異顯著可以用Benjamini–Hochberg、Bonferroni和FDR方法。
GAD數(shù)據(jù)庫
疾病關聯(lián)數(shù)據(jù)庫(GAD)收集了多種復雜疾病與相關基因關系的數(shù)據(jù)庫。研究人員可以從數(shù)據(jù)庫免費獲取基因突變信息和基因與復雜疾病關系信息,為臨床大規(guī)模SNP篩查,突變研究疾病相關等提供便利。
在本發(fā)明的一個實施方案中,在得到基因的基因本體、代謝或者疾病相關信息后結合差異表達的miRNA,生成含有這些信息的網(wǎng)絡文件??梢杂肅ytoscape軟件打開,圖形化展示。
以下結合具體實施例對上述方案做進一步說明。應理解,這些實施例是用于說明本發(fā)明而不是限制本發(fā)明的范圍。實施例中采用的實施條件可以根據(jù)具體應用要求的條件做進一步調整,未注明的實施條件通常為常規(guī)實驗中的條件。
實施例
首先對原始數(shù)據(jù)進行過濾處理,然后去除低質量的數(shù)據(jù),得到有效的miRNA標準化的表達值。基于miRNA差異分析結果,可以基于其序列特征,進行靶基因預測。在上述分析的基礎上,可進行一系列的統(tǒng)計學和可視化分析。
1.miRNA表達值文件如表1所示
分析平臺:R平臺
分析軟件:TCGAbiolinks
表1
列名解釋:
2.miRNA表達分析結果如表2所示
分析平臺:R平臺
分析軟件:TCGAbiolinks
表2
列名解釋:
3.差異表達的miRNA結果如表3所示
分析平臺:R平臺
分析軟件:TCGAbiolinks
表3
列名解釋:
4.miRNA的靶基因預測及篩選
對miRNA的靶基因預測采用miRWalk和TargetScan數(shù)據(jù)庫信息、miRanda和TargetScan算法進行預測。
結果所示:
表4 miRWalk數(shù)據(jù)庫預測結果
列名解釋:
表5 miRWalk數(shù)據(jù)庫驗證結果
列名解釋:
表6 TargetScan數(shù)據(jù)庫預測結果
列名解釋:
miRanda算法是基于位點結合自由能和序列互補配對得分的方法。默認參數(shù)使用strict種子序列互補配對法,score得分大于140分,最小自由能為-15KJ/mol。
分析平臺:linux平臺
結果所示:
表7 miRanda結果
列名解釋:
TargetScan算法是在多重比對序列基礎上通過尋找保守的種子序列來識別其靶基因的方法。
分析平臺:perl平臺
結果如表8所示:
表8 TargetScan結果
列名解釋:
5.功能性分析
利用DAVID數(shù)據(jù)庫的信息對靶基因從生物過程、分子功能和細胞組成進行基因本體分析,代謝通路分析和疾病相關分析。能夠發(fā)現(xiàn)預測的miRNA與癌癥基因間的關聯(lián)性、與重要基因之間存在的風險通路。這些關聯(lián)分析和通路聯(lián)系可能是導致疾病發(fā)生的源頭。
分析軟件:DAVID
結果所示:
表9 生物通路富集分析
列名解釋
表10 分子功能富集分析
列名解釋:
表11 細胞組分富集分析
列名解釋:
表12 代謝通路富集分析
列名解釋:
表13 疾病相關分析
列名解釋:
6.miRNA潛在功能調控網(wǎng)絡的構建
分析平臺:R平臺
圖形化軟件:Cytoscape
以上顯示和描述了本發(fā)明的基本原理、主要特征和本發(fā)明的優(yōu)點。本行業(yè)的技術人員應該了解,本發(fā)明不受上述實例的限制,上述實例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下本發(fā)明還會有各種變化和改進,這些變化和改進都落入要求保護的本發(fā)明范圍內。本發(fā)明要求保護范圍由所附的權利要求書及其等同物界定。