本發(fā)明屬于疾病基因數(shù)據(jù)處理,具體涉及一種致病基因數(shù)據(jù)庫(kù)的建立方法、數(shù)據(jù)庫(kù)及風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng),尤其是針對(duì)定居于廣州的亞健康中老年高收入人群的致病基因數(shù)據(jù)庫(kù)的建立方法、數(shù)據(jù)庫(kù)及風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)。
背景技術(shù):
1、人類健康受到遺傳和環(huán)境兩方面的共同影響。gwas(genome-wide?associationstudy,即全基因組關(guān)聯(lián)分析)研究通過(guò)大規(guī)模人群對(duì)比篩查研究,推斷出某一特定人群中遺傳突變和疾病之間的相關(guān)性。gwas的理論基礎(chǔ)是連鎖不平衡定律(linkagedisequilibrium,ld),既假設(shè)觀察到的snp(單核苷酸多態(tài)性)與真正的致病突變(causalvariant)之間存在很強(qiáng)的ld。通過(guò)基因突變檢測(cè),我們可以了解自己是否容易患上某些常見(jiàn)疾病(易感風(fēng)險(xiǎn)),如心腦血管疾病、自身免疫性疾病或腫瘤等。從而盡量避免接觸與特定疾病相關(guān)的有害物質(zhì),并定期進(jìn)行特定方向的診斷學(xué)監(jiān)測(cè),以便在疾病初起時(shí)早診斷、早治療,最大程度的降低疾病造成的損害。
2、但gwas?catalog(https://www.ebi.ac.uk/gwas/)是由美國(guó)基因組研究中心(nhgri)和歐洲生物信息中心(embl-ebi)共同開(kāi)發(fā)和制作的搜集所有已公布的gwas和相關(guān)結(jié)果的公開(kāi)數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)收集自2008年以來(lái)已發(fā)表的全基因組關(guān)聯(lián)研究的數(shù)據(jù)。截至2018年10月21日,在411種不同的期刊、3,153篇文章中共摘取61,613個(gè)獨(dú)特的snp位點(diǎn)與3,007種疾病的相關(guān)性條目90,428條。相關(guān)研究需符合一個(gè)嚴(yán)格的標(biāo)準(zhǔn)才能納入該數(shù)據(jù)庫(kù)。gwas?catalog數(shù)據(jù)庫(kù)為我們做基因突變檢測(cè)提供一個(gè)可靠的依據(jù)。
3、2019年3月21日,《細(xì)胞》雜志發(fā)表了一系列關(guān)于人類基因組測(cè)序研究的綜述和評(píng)論文章。文章一致認(rèn)為目前全球人類生物樣本庫(kù)中基因組數(shù)據(jù)所包含的族群多樣性遠(yuǎn)比人們所期望的要少得多,68%來(lái)自歐洲血統(tǒng)個(gè)體;而疾病易感位點(diǎn),特別是多基因疾病易感位點(diǎn),與地域等密切相關(guān)。在某個(gè)地區(qū)的高致病位點(diǎn),在另一個(gè)地區(qū)可能就不是。為此,2020年,中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所發(fā)布了11萬(wàn)個(gè)東北亞人群的所有snp位點(diǎn)突變頻率數(shù)據(jù)庫(kù)pgg.han:http://www.pgghan.org,此舉填補(bǔ)了東北亞人群在大規(guī)模可用參考基因組數(shù)據(jù)集上的空白?;诖藬?shù)據(jù)庫(kù),可以篩選東北亞人群的疾病易感位點(diǎn)。
4、進(jìn)一步地,考慮到不同的臨床表型人群會(huì)有不同的基因突變譜。上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院發(fā)布了10588個(gè)東北亞人的各種代謝疾病人群的所有snp位點(diǎn)突變頻率數(shù)據(jù)庫(kù)chinamap:http://www.mbiobank.com/。基于此數(shù)據(jù)庫(kù),可以篩選東北亞人的各種代謝疾病易感位點(diǎn)。
5、同樣的,生活在不同地域、不同的經(jīng)濟(jì)階層以及長(zhǎng)期的亞健康狀態(tài)也會(huì)影響基因突變譜,因此考察突變位點(diǎn)在特殊人群的突變情況,開(kāi)發(fā)出針對(duì)不同人群的基因數(shù)據(jù)是非常必要的。
技術(shù)實(shí)現(xiàn)思路
1、基于此,本發(fā)明提供一種致病基因數(shù)據(jù)庫(kù)的建立方法,在考慮地域影響的同時(shí),并評(píng)估不同經(jīng)濟(jì)階層以及長(zhǎng)期亞健康狀態(tài)對(duì)人群的影響,建立一套能夠準(zhǔn)確可靠地評(píng)估特定人群的健康風(fēng)險(xiǎn)的風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)。
2、本發(fā)明一方面提供一種致病基因數(shù)據(jù)庫(kù)的建立方法,包括如下步驟:
3、(1)獲取特定人群血液樣本,提取血液基因組dna,進(jìn)行全基因組測(cè)序;
4、(2)檢測(cè)樣本的突變位點(diǎn);
5、(3)以gwas?catalog數(shù)據(jù)庫(kù)為參考,依據(jù)步驟(2)得到檢測(cè)樣本的突變位點(diǎn)對(duì)gwascatalog數(shù)據(jù)庫(kù)進(jìn)行過(guò)濾,得到所述的致病基因位點(diǎn)數(shù)據(jù)庫(kù);所述過(guò)濾包括一次過(guò)濾和二次過(guò)濾,所述一次過(guò)濾是指篩選gwas?catalog數(shù)據(jù)庫(kù)中的突變位點(diǎn)在上述檢測(cè)樣本中的突變頻率,保留突變頻率<30%且>0的位點(diǎn);所述二次過(guò)濾是指過(guò)濾掉if<3的期刊雜志上所發(fā)表的致病位點(diǎn)。
6、本發(fā)明通過(guò)收集特定人群的血液,提取dna,進(jìn)行全基因組測(cè)序,考察gwascatalog數(shù)據(jù)庫(kù)收集的不同人群的突變位點(diǎn)在本研究要考察的特定人群的突變情況,進(jìn)一步結(jié)合突變頻率和文獻(xiàn)數(shù)據(jù)進(jìn)行位點(diǎn)過(guò)濾,其中,突變頻率<30%的位點(diǎn)才有可能是致病位點(diǎn),高頻率位點(diǎn)往往意味著是公眾所能耐受的突變;另外,突變頻率=0的位點(diǎn)意味著是本研究人群罕見(jiàn)突變位點(diǎn),對(duì)發(fā)病風(fēng)險(xiǎn)貢獻(xiàn)很小,同時(shí)增加背景噪聲。因此一次過(guò)濾保留突變頻率<30%且>0的位點(diǎn);進(jìn)而根據(jù)突變位點(diǎn)所發(fā)表論文的權(quán)威性,過(guò)濾掉if<3的期刊雜志進(jìn)行二次篩選,從而開(kāi)發(fā)出一套適用于特定人群的致病風(fēng)險(xiǎn)評(píng)估的致病基因位點(diǎn)數(shù)據(jù)庫(kù),提高患病風(fēng)險(xiǎn)精準(zhǔn)預(yù)測(cè)的能力。
7、在其中一個(gè)實(shí)施例中,所述特定人群是年齡為45-65歲,定居于廣州≥10年、月收入≥20000元、亞健康的人。
8、在其中一個(gè)實(shí)施例中,所述全基因組測(cè)序中,基因組dna制備成pe150?dna文庫(kù)進(jìn)行測(cè)序,每個(gè)樣品準(zhǔn)備超過(guò)1μg完整度良好的基因組dna,所述基因組完整度良好的判斷標(biāo)準(zhǔn)為:1%瓊脂糖凝膠電泳圖中dna主帶完整且>23kb。另外,也可以采用輕微降解的基因組dna也可進(jìn)行風(fēng)險(xiǎn)建庫(kù)。
9、在其中一個(gè)實(shí)施例中,對(duì)于構(gòu)建成功的dna文庫(kù)要求:pcr產(chǎn)物片段主帶在450bp±50bp,無(wú)dimer、無(wú)污染,消化并純化后的產(chǎn)物定量濃度大于0.78ng/μl。
10、在其中一個(gè)實(shí)施例中,所述全基因組測(cè)序的深度為10x-30x。
11、在其中一個(gè)實(shí)施例中,所述步驟(2)中依據(jù)dbsnp146數(shù)據(jù)庫(kù)檢測(cè)突變位點(diǎn)。
12、本發(fā)明的另一方面,還提供了上述的致病基因數(shù)據(jù)庫(kù)的建立方法得到的致病基因數(shù)據(jù)庫(kù)。
13、本發(fā)明的再一方面,還提供了一種風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng),包括:
14、數(shù)據(jù)獲取模塊,用于獲取待測(cè)樣本的基因檢測(cè)數(shù)據(jù);
15、數(shù)據(jù)分析模塊,用于將上述的基因檢測(cè)數(shù)據(jù)經(jīng)生物信息學(xué)分析后,代入上述的致病基因數(shù)據(jù)庫(kù)中進(jìn)行比對(duì)分析得出風(fēng)險(xiǎn)值r;
16、判定輸出模塊,用于將位點(diǎn)突變信息按照風(fēng)險(xiǎn)等級(jí)進(jìn)行輸出。
17、在其中一個(gè)實(shí)施例中,所述風(fēng)險(xiǎn)值r采用公式進(jìn)行計(jì)算,其中,n為某人檢出某種疾病的位點(diǎn)數(shù),n為該疾病的在建立的數(shù)據(jù)庫(kù)中的總位點(diǎn)數(shù);or值,全稱是odds?ratio,又稱比值比、風(fēng)險(xiǎn)暴露比,可從gwas?catalog數(shù)據(jù)庫(kù)獲取。通過(guò)構(gòu)建風(fēng)險(xiǎn)值矩陣,行為樣本數(shù)量,列為疾病種類,將每個(gè)樣本對(duì)應(yīng)的疾病風(fēng)險(xiǎn)值進(jìn)行排序,將風(fēng)險(xiǎn)值位于top?5%-1%之間定義為中風(fēng)險(xiǎn);r位于top?1%以內(nèi)的定義為高風(fēng)險(xiǎn),其余為低風(fēng)險(xiǎn)。
18、以某疾病所有n個(gè)風(fēng)險(xiǎn)位點(diǎn)的or值連乘為底,對(duì)某人檢出該疾病的n個(gè)風(fēng)險(xiǎn)位點(diǎn)的or值連乘取對(duì)數(shù)。通過(guò)取對(duì)數(shù)可以對(duì)風(fēng)險(xiǎn)因子進(jìn)行降維,避免單個(gè)風(fēng)險(xiǎn)因子因數(shù)值過(guò)大而主導(dǎo)風(fēng)險(xiǎn)評(píng)估。進(jìn)一步地,以總風(fēng)險(xiǎn)因子為底的目的是進(jìn)行標(biāo)準(zhǔn)化,使得不同個(gè)體不同疾病的風(fēng)險(xiǎn)值具有可比性。只計(jì)算已知風(fēng)險(xiǎn)位點(diǎn)的突變占比,據(jù)此評(píng)估疾病的風(fēng)險(xiǎn)等級(jí)。這樣不論單基因疾病還是多基因疾病均有較好的預(yù)測(cè)效果。因?yàn)榧膊〉闹虏』虮緛?lái)就有多有少,有的是單基因疾病(例如,地中海貧血),有的是多基因疾病(例如,癌癥)。
19、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
20、本發(fā)明的致病基因數(shù)據(jù)庫(kù)的建立方法,通過(guò)考察gwas?catalog數(shù)據(jù)庫(kù)收集的不同人群的突變位點(diǎn)在本研究的非gwas?catalog數(shù)據(jù)庫(kù)收集的特定人群的突變情況,進(jìn)一步結(jié)合突變頻率和文獻(xiàn)數(shù)據(jù)進(jìn)行位點(diǎn)過(guò)濾,及人群評(píng)估等,開(kāi)發(fā)出一套適用于特定人群的致病風(fēng)險(xiǎn)評(píng)估的致病基因數(shù)據(jù)庫(kù)。
21、本發(fā)明的致病基因數(shù)據(jù)庫(kù),收錄了大量特定人群的致病風(fēng)險(xiǎn)很高的位點(diǎn)記錄,通過(guò)對(duì)基因檢測(cè)位點(diǎn)與這些位點(diǎn)記錄進(jìn)行匹配分析,可以快速定位高風(fēng)險(xiǎn)致病位點(diǎn),減少遺漏的可能性,大大提高了臨床解讀工作的準(zhǔn)確性和效率。
22、本發(fā)明的致病基因數(shù)據(jù)庫(kù)可用于風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)中,通過(guò)對(duì)風(fēng)險(xiǎn)評(píng)估算法的優(yōu)化,可更好的適用于各種類型的疾病預(yù)測(cè),無(wú)論是單基因還是多基因疾病,另外也大大減少了非風(fēng)險(xiǎn)疾病的預(yù)測(cè),避免風(fēng)險(xiǎn)等級(jí)預(yù)測(cè)的偏差。