亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

分析生物基因組基因表達(dá)、拷貝數(shù)變異的可視化方法與流程

文檔序號:11251232閱讀:1368來源:國知局

本發(fā)明屬于生物信息學(xué)或基因技術(shù)的技術(shù)領(lǐng)域,涉及一種分析生物基因組基因表達(dá)、拷貝數(shù)變異的可視化方法。



背景技術(shù):

隨著生物科學(xué)的發(fā)展,人類基因組計(jì)劃完成后,人類對生命現(xiàn)象的探索越來越深入。我們已經(jīng)知道人體基因約含3萬多個基因,它們由約30億個堿基對組成,分布在細(xì)胞核的23對染色體中。

dna序列總量實(shí)在是一個天文數(shù)字,然而研究dna及其編碼的功能大分子蛋白質(zhì),對逐日增多的序列和結(jié)構(gòu)進(jìn)行收集、整理、儲存、發(fā)布、提取和加工。并從中分析和發(fā)現(xiàn)新的序列,從而不斷揭示人體生理和病理過程的分子基礎(chǔ),為人類疾病的預(yù)防、診斷和治療提供依據(jù),其意義是十分重大的,并已形成了“生物信息學(xué)”一門新興學(xué)科。

全基因組基因表達(dá)量和拷貝數(shù)變異的可視化方式的研究,也是一個重要的內(nèi)容。目前全基因組基因表達(dá)量和拷貝數(shù)變異可視化方式,比較常見的有曼哈頓圖,這種圖,比較單一,其特點(diǎn)是直觀方便,

但是在兩種癌癥類型下進(jìn)行基因表達(dá)量或者拷貝數(shù)變異對比的時候,或者在同一個癌癥類型下正常類型樣本和腫瘤類型樣本的基因表達(dá)量或者拷貝數(shù)變異對比的時候不能直觀的反映哪種類型的癌癥或者哪種類型樣本的值大;

對于基因表達(dá)量,曼哈頓圖不能直觀顯示出基因是過表達(dá)呢還是表達(dá)不足;對于拷貝數(shù)變異,曼哈頓圖不能直觀顯示出基因是擴(kuò)增還是丟失。



技術(shù)實(shí)現(xiàn)要素:

為了解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種分析生物基因組基因表達(dá)、拷貝數(shù)變異的可視化方法,高級曼哈頓圖(deflectionplot),克服現(xiàn)有技術(shù)中在兩種癌癥類型下進(jìn)行基因表達(dá)量或者拷貝數(shù)變異比較,或者在同一個癌癥類型下正常類型樣本和腫瘤類型樣本的基因表達(dá)量或者拷貝數(shù)變異對比不能滿足需求的問題。

本發(fā)明的技術(shù)方案是:一種分析生物基因組基因表達(dá)、拷貝數(shù)變異的可視化方法,包括以下步驟:

(1)橫縱坐標(biāo)的確定:把每個染色體的所有基因(22條染色體,也就是22個圖),按照每個基因的起始位置作為橫坐標(biāo);用matlab軟件中的獨(dú)立樣本檢驗(yàn)函數(shù)ttest2,然后每個基因會得到一個p值,然后對p值進(jìn)行處理,-10log10(p)這個值始終是正的,我們將這個值作為縱坐標(biāo)的幅度值;

(2)顏色的確定:事先需要規(guī)定兩組樣本的顏色,然后用matlab中的中位數(shù)函數(shù),遍歷出這兩組樣本中每個基因的拷貝數(shù)的中位數(shù)值,然后比較每個基因的兩個中位數(shù),誰的中位數(shù)值大,則顏色就取規(guī)定的該中位數(shù)所屬組的顏色;

(3)y軸朝向的確定:在找到每個基因拷貝數(shù)中位數(shù)值大的所屬的樣本組后,拿這個大的基因拷貝數(shù)值中位數(shù)和該組所屬的癌癥類型中的正常樣本的基因拷貝數(shù)中位數(shù)值做差,做差后的結(jié)果,如果值是正值則縱軸方向朝上,如果值是負(fù)值則縱軸方向朝下;

(4)繪制線:用matlab中的line函數(shù);

(5)垂直虛線:因?yàn)橹行捏w也有具體的位置,同樣可以用line函數(shù),把虛線繪制出來;

(6)百分比值的確定:用bonferonni校正的p值為2*10的-6次,做水平虛線,然后計(jì)算每個染色體中的p臂或者q臂中,p值大于那條水平虛線閾值的基因個數(shù)占該染色體整個p臂或者q臂的比例。

所述步驟(2)兩組樣本可以是兩種癌癥樣本,或者是同一種癌癥下的腫瘤樣本和正常樣本。

本發(fā)明的有益效果是:相比之前的可視化方法,我們用的這種可視化方法,在兩種癌癥類型下進(jìn)行基因表達(dá)量或者拷貝數(shù)變異對比的時候,或者在同一個癌癥類型下正常類型樣本和腫瘤類型樣本的基因表達(dá)量或者拷貝數(shù)變異對比的時候可以直觀的反映哪種類型的癌癥或者哪種類型樣本的值大;

對于基因表達(dá)量,高級曼哈頓圖可以直觀顯示出基因是過表達(dá)呢還是表達(dá)不足;對于拷貝數(shù)變異,高級曼哈頓圖可以直觀顯示出基因是擴(kuò)增還是丟失。

附圖說明

圖1是關(guān)于肺腺癌和肺鱗狀細(xì)胞癌兩種癌癥類型的拷貝數(shù)變異的偏移圖;

其中基因組拷貝數(shù)在tcga數(shù)據(jù)集中將肺腺癌與肺鱗狀細(xì)胞癌的腫瘤樣本區(qū)分開來,紅色表示肺腺癌的偏移量較大,而藍(lán)色表示肺鱗狀細(xì)胞癌的偏移量較大;對應(yīng)于bonferonni校正的p值為2*10的-6次的虛線水平線;圖中的百分比顯示了每個臂的bonneferoni校正后兩種腫瘤類型之間的差異(基因百分比);垂直虛線將每個染色體的數(shù)據(jù)分割開來,單個染色體數(shù)據(jù)中的間隙表示中心體的位置。

具體實(shí)施方式

下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明進(jìn)行詳細(xì)描述。

以肺腺癌和肺鱗狀細(xì)胞癌來介紹這種可視化方法。對于一種癌癥類型,人體基因約含3萬多個基因,每個基因都有具體對應(yīng)的幾號染色體和對應(yīng)的具體的起始位置ucstart,我們把每個染色體的所有基因,按照每個基因的ucstart位置作為橫坐標(biāo);利用肺腺癌和肺鱗狀細(xì)胞癌這兩種癌癥對應(yīng)的腫瘤樣本的拷貝數(shù),我們用這兩組樣本做t檢驗(yàn),然后計(jì)算出每個基因的p值,-10log10(pvalue)值作為每個基因的縱坐標(biāo)的值。然后遍歷出這兩種癌癥腫瘤樣本每個基因的拷貝數(shù)的中位數(shù),然后比較每個基因在這兩種癌癥下的兩個中位數(shù),在這里我們規(guī)定紅色表示剛才被比較的那個基因的拷貝數(shù)中位數(shù)大的是肺腺癌,反之藍(lán)色表示剛才被比較的那個基因的拷貝數(shù)中位數(shù)大的是肺鱗狀細(xì)胞癌。然后找到基因拷貝數(shù)的中位數(shù)大的所屬的癌癥類型后,拿這個大的基因拷貝數(shù)中位數(shù)和所屬的癌癥類型中的正常樣本的基因拷貝數(shù)中位數(shù)做差,如果值是正的則縱軸方向朝上,如果值是負(fù)的則縱軸方向朝下。垂直虛線將每個染色體的數(shù)據(jù)分割開來,也就是將染色體p臂,q臂上的基因分隔開來。單個染色體數(shù)據(jù)中的間隙表示中心體的位置。

總之,本發(fā)明的可視化方法,在兩個癌癥類型下進(jìn)行拷貝數(shù)變異或者表達(dá)量對比,或者在同一個癌癥類型下腫瘤類型樣本和正常類型樣本的拷貝數(shù)變異或者表達(dá)量的對比,這兩種情況都可以做。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。



技術(shù)特征:

技術(shù)總結(jié)
本發(fā)明公開了一種分析生物基因組基因表達(dá)、拷貝數(shù)變異的可視化方法,每個染色體的所有基因,按照每個基因的起始位置作為橫坐標(biāo),用matlab軟件中的獨(dú)立樣本檢驗(yàn)函數(shù)ttest2,每個基因會得到一個P值,然后對P值進(jìn)行處理,然后規(guī)定兩組樣本的顏色,確定Y軸朝向,用matlab中的line函數(shù)繪制線,確定百分比值。本發(fā)明的可視化方法,在兩種癌癥類型下進(jìn)行基因表達(dá)量或者拷貝數(shù)變異對比的時候,或者在同一個癌癥類型下正常類型樣本和腫瘤類型樣本的基因表達(dá)量或者拷貝數(shù)變異對比的時候可以直觀的反映哪種類型的癌癥或者哪種類型樣本的值大;對于基因表達(dá)量,高級曼哈頓圖可以直觀顯示出基因是過表達(dá)呢還是表達(dá)不足;對于拷貝數(shù)變異,高級曼哈頓圖可以直觀顯示出基因是擴(kuò)增還是丟失。

技術(shù)研發(fā)人員:宋凱;畢家豪
受保護(hù)的技術(shù)使用者:天津大學(xué)
技術(shù)研發(fā)日:2017.04.21
技術(shù)公布日:2017.09.15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1