本發(fā)明涉及生物信息學技術領域,具體而言,涉及一種全基因組變異數(shù)據(jù)的注釋方法和注釋系統(tǒng)。
背景技術:
隨著測序技術的發(fā)展,成本的降低,在人類健康領域,人全基因組測序必將成為今后的主流趨勢,精準醫(yī)療將是測序的最終目的。準確注釋人類基因組的變異是實現(xiàn)精準醫(yī)療的必要手段。
變異位點發(fā)現(xiàn)是指尋找人個體基因組與人參考基因組中相同位置上不同的堿基類型,這些變異位點有可能是影響人類健康,或導致人類患病的致病位點?;诙鷾y序技術,測序得到的序列和基因組進行比對,從比對的結果中找出不同位置上測序序列和基因組序列的差異堿基,這就是變異位點。一個人的基因組中可能發(fā)現(xiàn)百萬個SNV、InDel(插入和缺失)變異,這些變異以ATCG四種堿基的各種組合形式出現(xiàn)。人類疾病就和這些變異有關,雖然可以發(fā)現(xiàn)百萬個變異,但是真正跟疾病相關的變異數(shù)量極少。科研工作者要在大量的變異位點中找到候選致病的基因和變異位點,這需要借助數(shù)據(jù)庫進行注釋分析,從注釋的結果中挖掘出和疾病、藥物等相關的變異位點。
現(xiàn)有的變異位點數(shù)據(jù)庫注釋方法或系統(tǒng)主要有以下幾點內容:
1)變異位點進行基因結構注釋:根據(jù)變異位點在基因組中的位置,注釋位點所在的基因名稱,基因結構區(qū)?;蚝徒Y構信息來源于knownGene數(shù)據(jù)庫,可獲得突變發(fā)生在什么基因上,發(fā)生在基因的什么結構區(qū)域,如外顯子、內含子或基因間區(qū)等,以及這種突變類型屬于無義突變、錯義突變還是同義突變。
2)位點有害性預測,根據(jù)變異位點是否影響蛋白翻譯過程中氨基酸的改變,進行有害性預測,常用的有SIFT,Ployphen兩種軟件進行打分。
3)人群位點頻率注釋,使用已知的數(shù)據(jù)庫注釋該變異位點在全球人群中的等位基因頻率。如使用單核苷酸多態(tài)性數(shù)據(jù)庫(dbSNP),人類千人基因組數(shù)據(jù)庫(1000genome),美國外顯子計劃數(shù)據(jù)庫(NHLBI Grand Opportunity Exome Sequencing Project)。
現(xiàn)有的注釋工具如美國費城兒童醫(yī)院開發(fā)并廣泛使用的Annovar,其基于上述幾點內容提供基因結構注釋;人群突變頻率注釋,但不包含特定種群(如中國人種群)頻率;在有害性分值注釋方面提供的軟件較多,沒有指導性注釋建議。
技術實現(xiàn)要素:
本發(fā)明旨在提供一種全基因組變異數(shù)據(jù)的注釋方法和注釋系統(tǒng),以提高注釋信息的完整性和準確性。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種全基因組變異數(shù)據(jù)的注釋方法。該方法包括以下步驟:S1,創(chuàng)建變異數(shù)據(jù)文件:采用國際標準的VCF格式儲存變異數(shù)據(jù)作為輸入文件;S2,多等位基因基因型分割:首先進行基因型判斷,與參考基因組不一致的堿基用1,2,3……表示,然后進行SNP和InDel的多等位基因型進行拆分,使得等位基因型都使用0和1表示;S3,InDel發(fā)生位置歸一化:采用向左對齊和簡約的歸一化方法進行InDel發(fā)生位置歸一化;以及S4,注釋:進行基因結構注釋、等位基因頻率注釋、變異位點的有害性預測以及致病性注釋。
進一步地,基因結構注釋包括根據(jù)數(shù)據(jù)庫注釋基因結構,構建基因編碼區(qū)、非編碼區(qū)、調控區(qū)、剪接體10bp區(qū)域的結構文件,以及突變類型文件。
進一步地,等位基因頻率注釋包括對于種群/地域/性別/病種等位基因頻率注釋。
進一步地,變異位點的有害性預測包括根據(jù)突變位點是否影響蛋白翻譯并導致翻譯有害氨基酸進行突變位點的有害性預測,使用SIFT,Polyphen,CADD,MutationTaster四種預測方法對突變位點進行打分,結果采取多分值累加計數(shù),在后續(xù)分析中滿足累加計數(shù)條件的會被優(yōu)先篩選;
進一步地,致病性注釋包括根據(jù)已研究報道的文獻以及數(shù)據(jù)庫,借助ClinVar、HGMD、GWASCatalog、PharmGKB、OMIM、DrugBank、Orphanet整理位點-疾病-藥物關系、基因-疾病-藥物關系,整合GTEx數(shù)據(jù)庫中的表達數(shù)量性狀,利用NCBI、KEGG、GO數(shù)據(jù)庫整理基因功能和通路,用整合好的數(shù)據(jù)庫對變異位點進行注釋。
進一步地,S1中,種群、疾病、性別作為可選的輸入?yún)?shù)。
進一步地,全基因組為人類全基因組。
根據(jù)本發(fā)明的另一方面,提供了一種全基因組變異數(shù)據(jù)的注釋系統(tǒng)。該注釋系統(tǒng),包括:數(shù)據(jù)錄入裝置,采用國際標準的VCF格式儲存變異數(shù)據(jù)作為輸入文件;基因型判斷裝置,在標準的VCF存儲格式里,與參考基因組一致的堿基類型用0表示,與參考基因組不一致的堿基類型用1,2,3……表示,根據(jù)該標準進行基因型判斷;多等位基因型分割裝置,用于進行SNP和InDel的多等位基因型進行拆分,使得等位基因型都使用0和1表示;InDel發(fā)生位置歸一化裝置,采用向左對齊和簡約的歸一化方法進行InDel發(fā)生位置歸一化;以及注釋裝置,進行基因結構注釋、等位基因頻率注釋、變異位點的有害性預測以及致病性注釋。
進一步地,注釋裝置包括:基因結構注釋裝置、等位基因頻率注釋裝置、變異位點的有害性預測裝置以及致病性注釋裝置。
進一步地,基因結構注釋裝置包括統(tǒng)計基因結構裝置和突變類型分類裝置。
進一步地,等位基因頻率注釋裝置包括:種群分類裝置、性別分類裝置和疾病分類裝置,種群分類裝置、性別分類裝置和疾病分類裝置的下游設置有MAF計算裝置,MAF計算裝置的下游設置有結果整合與篩選裝置和和中國人種群結果整合分析裝置。
應用本發(fā)明的技術方案,對全基因組變異數(shù)據(jù)結果(Variant Call Format(VCF))進行注釋,:包括基因結構注釋、等位基因頻率注釋、變異位點的有害性預測以及致病性注釋,提高了提高注釋信息的完整性;根據(jù)向左對齊和簡約(Left Alignment&Parsimony)標準修正了插入缺失(InDel)的發(fā)生位置,提高了InDel注釋的準確性。
附圖說明
構成本申請的一部分的說明書附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
圖1示出了根據(jù)本發(fā)明實施例1的全基因組變異數(shù)據(jù)的注釋方法的流程示意圖;
圖2示出了實施例1中多基因型的分割方法;
圖3示出了實施例1中實現(xiàn)多等位基因基因分型及InDel發(fā)生位置歸一化的流程及裝置示意圖;
圖4示出了實施例1中實現(xiàn)基因結構注釋的流程及裝置示意圖;以及
圖5示出了實施例1中實現(xiàn)種群/地域/性別/病種等位基因頻率注釋的流程及裝置示意圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本發(fā)明。
發(fā)明人發(fā)現(xiàn):近些年來,隨著科研認知的更新,內含子等非編碼區(qū)不再被認為是垃圾DNA,而是和啟動子、增強子等作為重要調控作用的元件,發(fā)揮著重要的作用。有些疾病源于調控區(qū)的變異而產生,注釋調控區(qū)域有助于找到疾病發(fā)生的原因?,F(xiàn)有的變異位點注釋方法或系統(tǒng)沒有考慮到全基因組的數(shù)據(jù)特點,對非編碼區(qū)和調控區(qū)的位點信息缺乏注釋,不便于后期對這些區(qū)域的變異進行篩選。
另外,現(xiàn)有的注釋工具缺乏對InDel發(fā)生位置的歸一化,導致大量InDel無法得到準確注釋,進而丟失了可能的致病性InDel變異。
有些致病位點在種群中發(fā)生頻率很低,屬于罕見的突變位點。由于遺傳多樣性和差異性的存在,同一個變異位點在不同種群/地域中的頻率是不一致的,所以,同一種疾病的致病變異在不同的人群中可能是不同的位點;或者即使是同一個位點,其在不同人群中發(fā)生頻率也是不一致的。因此,對變異位點的注釋必須要使用一致人群的頻率數(shù)據(jù)庫?,F(xiàn)有的變異位點注釋方法或系統(tǒng)沒有考慮到種群/地域差異性,這是非常關鍵的信息,無法注釋就不能挖掘種群特有的致病位點。另外,需要考慮性別區(qū)分注釋,否則無法挖掘具有性別偏好性疾病的致病位點,因此無法適用于現(xiàn)在各國精準醫(yī)療的需求。
現(xiàn)有的變異位點注釋方法或系統(tǒng)缺乏與疾病、藥物相關聯(lián)的注釋,而這些是科學研究以及臨床試驗獲得的真實已知的信息,可以為致病性位點和基因的挖掘提供有效的信息。這些有效的信息得不到注釋,給致病性變異位點的挖掘帶來的障礙。
綜上,現(xiàn)有基因組的注釋方法或系統(tǒng)的都展現(xiàn)出了不準確性,使用范圍局限性,不適應性。
針對發(fā)明人發(fā)現(xiàn)的上述技術問題,本發(fā)明提供了下列技術方案。
根據(jù)本發(fā)明一種典型的實施方式,提供一種全基因組變異數(shù)據(jù)的注釋方法。該方法包括以下步驟:S1,創(chuàng)建變異數(shù)據(jù)文件:采用國際標準的VCF格式儲存變異數(shù)據(jù)作為輸入文件;S2,多等位基因基因型分割:首先進行基因型判斷,與參考基因組一致的堿基用0表示,與參考基因組不一致的堿基用1,2,3……表示,然后進行SNP和InDel的多等位基因型進行拆分,使得等位基因型都使用0和1表示;S3,InDel發(fā)生位置歸一化:采用Left alignment&Parsimony的歸一化方法進行InDel發(fā)生位置歸一化;以及S4,注釋:進行基因結構注釋、等位基因頻率注釋、變異位點的有害性預測以及致病性注釋。
一個等位基因(Allele)存在多種基因型(Genotype)的情況;在相同或不同的人群/種群中,等位基因的不同的基因型頻率是不同的,這可能導致不同表型(Phenotype),不同疾病或發(fā)病率,因此必須要對多等位基因進行分類。
目前的變異檢測軟件檢測較為靈活,但也因此忽略的InDel的位置標識標準,導致同一個Indel在不同的檢測軟件結果中不同,因此需要對InDel位置進行歸一化處理,使其位置具有唯一性。
應用本發(fā)明的技術方案,對全基因組變異數(shù)據(jù)結果(Variant Call Format(VCF))進行注釋,:包括基因結構注釋、等位基因頻率注釋、變異位點的有害性預測以及致病性注釋,提高了提高注釋信息的完整性;根據(jù)向左對齊和簡約(Left Alignment&Parsimony)標準修正了插入缺失(InDel)的發(fā)生位置,提高了InDel注釋的準確性。
優(yōu)選的,基因結構注釋包括根據(jù)數(shù)據(jù)庫注釋基因結構,構建基因編碼區(qū)、非編碼區(qū)、調控區(qū)、剪接體10bp區(qū)域的結構文件,以及突變類型文件。
優(yōu)選的,等位基因頻率注釋包括對于種群/地域/性別/病種等位基因頻率注釋。
優(yōu)選的,變異位點的有害性預測包括根據(jù)突變位點是否影響蛋白翻譯并導致翻譯有害氨基酸進行突變位點的有害性預測,使用SIFT,Polyphen,CADD,MutationTaster四種預測方法對突變位點進行打分,結果采取多分值累加計數(shù),在后續(xù)分析中滿足累加計數(shù)條件的會被優(yōu)先篩選;其中,翻譯有害氨基酸是指從突變位點開始改,突變位點導致氨基酸改變進而影響蛋白功能的變化。
優(yōu)選的,致病性注釋包括根據(jù)已研究報道的文獻以及數(shù)據(jù)庫,借助ClinVar、HGMD、GWASCatalog、PharmGKB、OMIM、DrugBank、Orphanet整理變異位點-疾病-藥物關系、基因-疾病-藥物關系,整合GTEx數(shù)據(jù)庫中的表達數(shù)量性狀,利用NCBI、KEGG、GO數(shù)據(jù)庫整理基因功能和通路,用整合好的數(shù)據(jù)庫對變異位點進行注釋。
優(yōu)選的,S1中,種群、疾病、性別作為可選的輸入?yún)?shù)。
根據(jù)本發(fā)明一種典型的實施方式,全基因組為人類全基因組。
根據(jù)本發(fā)明一種典型的實施方式,提供一種全基因組變異數(shù)據(jù)的注釋系統(tǒng)。根據(jù)本發(fā)明的另一方面,提供了一種全基因組變異數(shù)據(jù)的注釋系統(tǒng)。該注釋系統(tǒng),包括:數(shù)據(jù)錄入裝置,采用國際標準的VCF格式儲存變異數(shù)據(jù)作為輸入文件;基因型判斷裝置,在標準的VCF存儲格式里,與參考基因組一致的堿基類型用0表示,與參考基因組不一致的堿基類型用1,2,3……表示,根據(jù)該標準進行基因型判斷;多等位基因基因型分割裝置,用于進行SNP和InDel的多等位基因型進行拆分使得等位基因型都使用0和1表示;;InDel發(fā)生位置歸一化裝置,采用向左對齊和簡約的歸一化方法進行Indel發(fā)生位置歸一化;以及注釋裝置,進行基因結構注釋、等位基因頻率注釋、變異位點的有害性預測以及致病性注釋。
進一步地,注釋裝置包括:基因結構注釋裝置、等位基因頻率注釋裝置、變異位點的有害性預測裝置以及致病性注釋裝置。
進一步地,基因結構注釋裝置包括統(tǒng)計基因結構裝置和突變類型分類裝置。
進一步地,等位基因頻率注釋裝置包括:種群分類裝置、性別分類裝置和疾病分類裝置,種群分類裝置、性別分類裝置和疾病分類裝置的下游設置有MAF計算裝置,MAF計算裝置的下游設置有結果整合與篩選裝置和和中國人種群結果整合分析裝置。
應用本發(fā)明的技術方案具有至少以下技術效果:
1)本發(fā)明除了對編碼區(qū)變異進行功能注釋外,還提供非編碼區(qū)和調控區(qū)變異的基因結構和功能注釋,為該區(qū)域致病位點的發(fā)現(xiàn)提供了可能。
2)本發(fā)明對InDel發(fā)生位置進行歸一化,保證InDel的準確注釋,有效地解決了候選致病InDel的篩選難題。
3)本發(fā)明的頻率注釋充分考慮了種群/地域/性別差異,借助一致人群的頻率注釋,大大提高了致病位點篩選的可靠性。
4)本發(fā)明提供位點-疾病-藥物、基因-疾病-藥物的關聯(lián),對基因與疾病之間的關聯(lián)提供了全面的信息,為致病變異的挖掘減少障礙。
5)本發(fā)明提供基因功能和通路注釋,在后續(xù)分析中可以通過疾病相關的重要功能通路找到參與功能通路的基因。
下面將結合實施例進一步說明本發(fā)明的有益效果。
實施例1
本實施例整合bzgip(v1.0)、tabix(v1.0)、BCFtools(v1.0)中的norm模塊、ANNOVAR軟件(version 2015-03-22)、自寫程序等模塊和軟件,整合了多種開放數(shù)據(jù)庫和內部數(shù)據(jù)庫,在Linux系統(tǒng)下運行。
以下對本實施例的注釋方法的詳細說明(如圖1所示):
1)變異數(shù)據(jù)文件:采用國際標準的VCF4.1格式儲存,作為輸入文件;其中種群、疾病、性別作為可選的輸入?yún)?shù)。
2)多等位基因(Multi-Allele)基因型分割:一個等位基因(Allele)存在多種基因型(Genotype)的情況;在相同或不同的人群/種群中,等位基因的不同的基因型頻率是不同的,這可能導致不同表型(Phenotype),不同疾病或發(fā)病率,因此必須要對Multi-Allele進行分類。首先進行基因型判斷,與參考基因組一致的堿基用0表示,與參考基因組不一致的堿基用1,2,3……表示,然后進行SNP和InDel的多等位基因型進行拆分,使得等位基因型都使用0和1表示;則等位基因基因型的表示方法示例:0/0,0/1,0/1,1/1,0/2,1/2等等。這里,0/2和1/2就屬于多等位基因,兩種基因型需要拆分開,進行后續(xù)的分析,具體拆分方式見如圖2。在本實施例中實現(xiàn)本步驟的流程及裝置主要是圖3所示,基因型數(shù)據(jù)進行基因型判斷裝置,然后進入多基因型分割裝置,最后進入InDel歸一化裝置進行歸一化處理。
3)InDel發(fā)生位置歸一化:目前的變異檢測軟件檢測較為靈活,但也因此忽略的InDel的位置標識標準,導致同一個InDel在不同的檢測軟件結果中不同,因此需要對InDel位置進行歸一化處理,使其位置具有唯一性。Left alignment&Parsimony是一種標準的歸一化方法,它的原理是:將變異位點的起始位置向左移動至不能移動為止,在保證等位基因InDel的長度都不為0的情況下,盡可能用最少堿基來表示,見圖3。
4)基因結構注釋:根據(jù)knownGene數(shù)據(jù)庫注釋的人類基因結構,構建基因編碼區(qū)(外顯子區(qū)),非編碼區(qū)(內含子,基因間區(qū)),調控區(qū)(基因結構上下游1Kb范圍內)(UTR,增強子,啟動子),剪接體10bp區(qū)域的結構文件,以及無義突變、錯義突變、同義突變等突變類型文件。將構建好的區(qū)域用于變異位點的注釋劃分,在本實施例中實現(xiàn)本步驟的流程及裝置見圖4,來自knownGene數(shù)據(jù)庫的數(shù)據(jù)進入統(tǒng)計基因結構裝置和突變類型裝置進行處理。
5)種群/地域/性別/病種等位基因頻率注釋:不同性別,疾病種類的人群存在遺傳多樣性和差異性。疾病的變異位點在不同的人群中其發(fā)生頻率不一致,甚至是不一樣。因此對變異位點的注釋必須要使用一致人群的數(shù)據(jù)庫頻率注釋。在本平臺中已對已知的人群、疾病、性別的變異信息進行歸類,并且擁有獨有的中國人種群變異數(shù)據(jù),注釋時選擇相應的人群,疾病種群即可完成精準最小等位基因頻率(MAF)注釋,在本實施例中實現(xiàn)本步驟的流程及裝置見圖5,人類群體基因組數(shù)據(jù)庫的數(shù)據(jù),進入群體分類裝置、性別分類裝置和疾病分類裝置進行處理,然后進入MAF計算裝置,最后進入結果整合與篩選裝置、中國人種群結果整合分析裝置。
6)變異位點的有害性預測:根據(jù)突變位點是否影響蛋白翻譯并導致翻譯有害氨基酸進行突變位點的有害性預測,使用SIFT,Polyphen,CADD,MutationTaster四種預測方法對突變位點進行打分,結果采取多分值累加計數(shù)。在后續(xù)分析中滿足累加計數(shù)條件的會被優(yōu)先篩選。
7)致病性注釋:先挖掘已研究報道的文獻以及數(shù)據(jù)庫,借助ClinVar、HGMD、GWASCatalog、PharmGKB、OMIM、DrugBank、Orphanet等整理位點-疾病-藥物關系、基因-疾病-藥物關系,整合GTEx數(shù)據(jù)庫中的表達數(shù)量性狀,利用NCBI、KEGG、GO等數(shù)據(jù)庫整理基因功能和通路。用整合好數(shù)據(jù)庫對變異位點進行注釋。
從以上的描述中,可以看出,本發(fā)明上述的實施例實現(xiàn)了如下技術效果:
本實施例的人類全基因組變異數(shù)據(jù)注釋系統(tǒng),整合了傳統(tǒng)注釋的優(yōu)點,解決了傳統(tǒng)注釋的缺點,實現(xiàn)了變異位點位置、功能人種等多復雜度的精準注釋,保證并提高了后續(xù)人類疾病精準分析的準確性。
本發(fā)明的技術方案,包含內含子區(qū)位點注釋、基因功能、通路注釋、基因-疾病-藥物、變異位點-疾病-藥物關聯(lián)注釋以及針對等位基因多基因型位點進行分類分型,降低罕見突變的檢測假陰性;本發(fā)明考慮了基因組種群/地域/性別差異,適用于亞洲/中國人群/各種群/各地域/性別進行疾病候選致病位點的發(fā)現(xiàn);注釋信息全面,準確性高,為后續(xù)數(shù)據(jù)挖掘提供更加精準的候選致病性位點。
以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。