1.一種全基因組變異數(shù)據(jù)的注釋方法,其特征在于,包括以下步驟:
S1,創(chuàng)建變異數(shù)據(jù)文件:采用國(guó)際標(biāo)準(zhǔn)的VCF格式儲(chǔ)存變異數(shù)據(jù)作為輸入文件;
S2,多等位基因基因型分割:首先進(jìn)行基因型判斷,與參考基因組一致的堿基用0表示,與參考基因組不一致的堿基用1,2,3……表示,然后進(jìn)行SNP和InDel的多等位基因型進(jìn)行拆分,使得等位基因型都使用0和1表示;
S3,InDel發(fā)生位置歸一化:采用向左對(duì)齊和簡(jiǎn)約的歸一化方法進(jìn)行InDel發(fā)生位置歸一化;以及
S4,注釋:進(jìn)行基因結(jié)構(gòu)注釋、等位基因頻率注釋、變異位點(diǎn)的有害性預(yù)測(cè)以及致病性注釋。
2.根據(jù)權(quán)利要求1所述的注釋方法,其特征在于,所述基因結(jié)構(gòu)注釋包括根據(jù)數(shù)據(jù)庫(kù)注釋基因結(jié)構(gòu),構(gòu)建基因編碼區(qū)、非編碼區(qū)、調(diào)控區(qū)、剪接體10bp區(qū)域的結(jié)構(gòu)文件,以及突變類型文件。
3.根據(jù)權(quán)利要求1所述的注釋方法,其特征在于,所述等位基因頻率注釋包括對(duì)于種群/地域/性別/病種等位基因頻率注釋。
4.根據(jù)權(quán)利要求1所述的注釋方法,其特征在于,所述變異位點(diǎn)的有害性預(yù)測(cè)包括根據(jù)突變位點(diǎn)是否影響蛋白翻譯并導(dǎo)致翻譯有害氨基酸進(jìn)行突變位點(diǎn)的有害性預(yù)測(cè),使用SIFT,Polyphen,CADD,MutationTaster四種預(yù)測(cè)方法對(duì)突變位點(diǎn)進(jìn)行打分,結(jié)果采取多分值累加計(jì)數(shù),在后續(xù)分析中滿足累加計(jì)數(shù)條件的會(huì)被優(yōu)先篩選。
5.根據(jù)權(quán)利要求1所述的注釋方法,其特征在于,所述致病性注釋包括根據(jù)已研究報(bào)道的文獻(xiàn)以及數(shù)據(jù)庫(kù),借助ClinVar、HGMD、GWASCatalog、PharmGKB、OMIM、DrugBank、Orphanet整理位點(diǎn)-疾病-藥物關(guān)系、基因-疾病-藥物關(guān)系,整合GTEx數(shù)據(jù)庫(kù)中的表達(dá)數(shù)量性狀,利用NCBI、KEGG、GO數(shù)據(jù)庫(kù)整理基因功能和通路,用整合好的數(shù)據(jù)庫(kù)對(duì)變異位點(diǎn)進(jìn)行注釋。
6.根據(jù)權(quán)利要求1所述的注釋方法,其特征在于,所述S1中,種群、疾病、性別作為可選的輸入?yún)?shù)。
7.根據(jù)權(quán)利要求1所述的注釋方法,其特征在于,所述全基因組為人類全基因組。
8.一種全基因組變異數(shù)據(jù)的注釋系統(tǒng),其特征在于,包括:
數(shù)據(jù)錄入裝置,采用國(guó)際標(biāo)準(zhǔn)的VCF格式儲(chǔ)存變異數(shù)據(jù)作為輸入文件;
基因型判斷裝置,在標(biāo)準(zhǔn)的VCF存儲(chǔ)格式里,與參考基因組一致的堿基類型用0表示,與參考基因組不一致的堿基類型用1,2,3……表示,根據(jù)該標(biāo)準(zhǔn)進(jìn)行基因型判斷;
多等位基因基因型分割裝置,用于進(jìn)行SNP和InDel的多等位基因型進(jìn)行拆分,使得等位基因型都使用0和1表示;
InDel發(fā)生位置歸一化裝置,采用向左對(duì)齊和簡(jiǎn)約的歸一化方法進(jìn)行InDel發(fā)生位置歸一化;以及
注釋裝置,進(jìn)行基因結(jié)構(gòu)注釋、等位基因頻率注釋、變異位點(diǎn)的有害性預(yù)測(cè)以及致病性注釋。
9.根據(jù)權(quán)利要求8所述的注釋系統(tǒng),其特征在于,所述注釋裝置進(jìn)一步包括:基因結(jié)構(gòu)注釋裝置、等位基因頻率注釋裝置、變異位點(diǎn)的有害性預(yù)測(cè)裝置以及致病性注釋裝置。
10.根據(jù)權(quán)利要求9所述的注釋系統(tǒng),其特征在于,所述基因結(jié)構(gòu)注釋裝置包括統(tǒng)計(jì)基因結(jié)構(gòu)裝置和突變類型分類裝置。
11.根據(jù)權(quán)利要求9所述的注釋系統(tǒng),其特征在于,所述等位基因頻率注釋裝置包括:種群分類裝置、性別分類裝置和疾病分類裝置,所述種群分類裝置、所述性別分類裝置和所述疾病分類裝置的下游設(shè)置有MAF計(jì)算裝置,所述MAF計(jì)算裝置的下游設(shè)置有結(jié)果整合與篩選裝置和和中國(guó)人種群結(jié)果整合分析裝置。