本發(fā)明屬于生物信息領(lǐng)域,涉及基因測(cè)序后對(duì)測(cè)序數(shù)據(jù)的分析,是一種計(jì)算基因突變的hgvs名稱的技術(shù)。
背景技術(shù):
:基因變異是在1949年被人類首次發(fā)現(xiàn)的。根據(jù)變異是否致病,區(qū)分了突變(mutation)和多態(tài)性位點(diǎn)(polymorphism)。突變一般是指特定dna序列與參考序列相比發(fā)生的致病性的改變。多態(tài)性位點(diǎn)即snp,指非致病的序列改變,一般將人群中發(fā)生頻率大于1%的序列改變界定為snp。隨著基因變異的累積,人們逐漸認(rèn)識(shí)到確認(rèn)變異的致病性并不是一件容易的事。condit、marshall和cotton[1-3]等研究單詞“mutation”和“polymorphism”的起源、演化和含義。由于“mutation”和“polymorphism”并沒有嚴(yán)格而清晰的界限,或者其致病性未能立刻獲得確認(rèn),且在人群中發(fā)生的頻率不易精確獲取,人類基因組變異協(xié)會(huì)建議使用更加中性的詞來(lái)表示序列的改變,如序列變異(sequencevariantorvariation)、改變(alteration)和等位基因變異(allelicvariant)等。鑒于此,在下文中,使用突變或基因變異,具有相同的含義,都不代表致病與否或致病性的程度。二十世紀(jì)60年代由victormckusick等人收集人類基因變異數(shù)據(jù)[4],并創(chuàng)立在線人類孟德爾遺傳(onlinemendelianinheritanceinman,omim)。以后出現(xiàn)了人類基因突變數(shù)據(jù)庫(kù)(humangenemutationdatabase,hgmd);特定基因的變異數(shù)據(jù)庫(kù),包括pahdb(pah基因數(shù)據(jù)庫(kù))、pdgene(帕金森疾病相關(guān)基因)和dgv(結(jié)構(gòu)變異數(shù)據(jù)庫(kù))等。在初始階段,這些數(shù)據(jù)庫(kù)缺乏對(duì)基因變異命名的統(tǒng)一格式,造成了提交和使用的混亂[5]。1994年richardcotton召集遺傳學(xué)家成立了人類基因組變異協(xié)會(huì)(humangeomevariationsociety,hgvs),提出關(guān)于基因變異命名方面的建議,逐漸成為遺傳學(xué)領(lǐng)域的國(guó)際準(zhǔn)則。根據(jù)hgvs的規(guī)則,變異的定位與參考序列相關(guān)。不同類型的參考序列有不同的標(biāo)記,“c.”用于冠名編碼dna序列,“g.”用于冠名基因組序列,"p."用于冠名蛋白質(zhì)序列,“m.”用于冠名線粒體序列,“r.”則用于冠名rna序列。人類基因組變異協(xié)會(huì)推薦使用編碼dna序列作為標(biāo)準(zhǔn)參考序列,以編碼序列的起始密碼子atg的a作為第一個(gè)堿基,依次排列。位于編碼區(qū)上游的5’端序列以-1、-2、-3等表示,位于編碼區(qū)下游的3’端序列以*1、*2、*3等表示。內(nèi)含子從每個(gè)內(nèi)含子序列的中間劃分,前半部分以前面外顯子最后一個(gè)減基位置和“+”表示,如c.79+lg>t;后半部分以后面外顯子的第一個(gè)堿基位置和“-”表示,如c.80-2a>c。">"表示替換,數(shù)字表示堿基改變的范圍,“del”、“dup”、“ins”和“inv”分別表示缺失、重復(fù)、插入、倒位。更詳細(xì)的描述見http://www.hgvs.org/mutnomen/。hgvs的命名規(guī)則也是2015年美國(guó)醫(yī)學(xué)遺傳學(xué)與基因組學(xué)學(xué)會(huì)(acmg)和美國(guó)分子病理學(xué)會(huì)(amp)所發(fā)布的基因變異解讀標(biāo)準(zhǔn)和指南中所推薦的命名規(guī)則[6]。該指南并指定了檢測(cè)基因變異命名是否符合hgvs規(guī)則的在線工具(https://mutalyzer.nl)。對(duì)于測(cè)序所得序列,經(jīng)過(guò)與參考序列比對(duì),可在序列上發(fā)現(xiàn)不同于參考序列的改變,即為基因變異。從變異位點(diǎn)給出hgvs名稱,根據(jù)hgvs名稱從數(shù)據(jù)庫(kù)中檢索變異,給出相關(guān)信息,這是基因測(cè)序分析人員的主要任務(wù)。根據(jù)參考序列及人工獲取hgvs命名是可行的,但比較費(fèi)時(shí)且容易出錯(cuò);而使用https://mutalyzer.nl網(wǎng)站的“descriptionextractor”工具進(jìn)行hgvs名稱自動(dòng)生成,又存在不能區(qū)分內(nèi)含子和外顯子的重大缺陷。因此我們開發(fā)了人類基因突變分析系統(tǒng),用于計(jì)算基因變異的hgvs名稱,并有據(jù)此調(diào)出hgmd數(shù)據(jù)庫(kù)結(jié)果的能力,為基因檢測(cè)的科研工作者和基因檢測(cè)臨床分析人員提供更多選擇。參考文獻(xiàn):[1]condit,cm.,p.j.achter,i.lauer,ande.sefcovic,thechangingmeaningsof"mutation:"acontextualizedstudyofpublicdiscourse.hummutat,2002.19(1):69-75.[2]marshall,j.h.,onthechangingmeaningsof"mutation".hummutat,2002.19(1):76-78.[3]cotton,r.g.,communicating"mutation:"modemmeaningsandconnotations.hummutat,2002.19(1):2-3.[4]ring,h.z.,p.y.kwok,andr.g.cotton,humanvariomeproject:aninternationalcollaborationtocataloguehumangeneticvariation.pharmacogenomics,2006.7(7):969-972.[5]叢培寬,全基因組外顯子測(cè)序發(fā)現(xiàn)x連鎖顯性遺傳性高度近視疾病的致病基因及人類基因變異數(shù)據(jù)庫(kù)lovd的創(chuàng)建,中國(guó)知網(wǎng),碩博論文,2014[6]richardss,azizn,bales,bickd,dass,gastier-fosterj,grodyww,hegdem,lyone,spectore10,voelkerdingk,rehmhl;acmglaboratoryqualityassurancecommittee.standardsandguidelinesfortheinterpretationofsequencevariants:ajointconsensusrecommendationoftheamericancollegeofmedicalgeneticsandgenomicsandtheassociationformolecularpathology.genetmed.2015may;17(5):405-24.doi:10.1038/gim.2015.30.epub2015mar5.技術(shù)實(shí)現(xiàn)要素:為了診斷遺傳病、癌癥等,需要對(duì)目的基因測(cè)序,將測(cè)序所得序列與參考序列比對(duì)后,對(duì)于所發(fā)現(xiàn)的變異,用戶希望盡快地和盡可能準(zhǔn)確地獲取該變異的hgvs名稱、致病性信息、遺傳方式信息等數(shù)據(jù)。因此我們?cè)O(shè)計(jì)了人類基因突變分析系統(tǒng)。人類基因變異分析系統(tǒng)典型的實(shí)現(xiàn)方案是由數(shù)據(jù)輸入界面、基因信息(含序列)數(shù)據(jù)庫(kù)、基因遺傳方式數(shù)據(jù)庫(kù)、hgmd數(shù)據(jù)庫(kù)、hgvs計(jì)算程序及數(shù)據(jù)輸出界面構(gòu)成。在非典型的實(shí)現(xiàn)方案中,對(duì)這些數(shù)據(jù)庫(kù)的增刪,順序調(diào)整,數(shù)據(jù)來(lái)源調(diào)整等,不構(gòu)成對(duì)本
發(fā)明內(nèi)容的根本改變。在數(shù)據(jù)輸入界面,系統(tǒng)規(guī)定的典型數(shù)據(jù)格式是:基因名稱,(變異位點(diǎn)參考序列/變異位點(diǎn)突變序列)變異位點(diǎn)之后一段序列,變異位點(diǎn)是純合型還是雜合型(用“c”代表純合型,用“z”代表雜合型)。這些信息可簡(jiǎn)化為:“gene(r/m)sz/c”。在此格式中,gene是不可缺失的,且應(yīng)使用標(biāo)準(zhǔn)的基因名稱。r為變異位點(diǎn)參考序列,m為變異位點(diǎn)突變序列,二者以斜杠隔開且必須同時(shí)存在。r和m皆可以代表一個(gè)堿基,也可以代表多個(gè)堿基,r和m缺失時(shí)可以用“-”代替。例如堿基缺失時(shí),m為“-”,堿基插入時(shí),r為“-”。z/c代表堿基雜合型或純合型,通過(guò)峰圖即可簡(jiǎn)單判斷,只允許輸入單個(gè)字母,也可以不輸入。典型的數(shù)據(jù)輸入格式之外的其它的非典型數(shù)據(jù)輸入格式,包括對(duì)數(shù)據(jù)項(xiàng)目的增刪、順序調(diào)整、格式調(diào)整等,不構(gòu)成對(duì)本
發(fā)明內(nèi)容的根本改變。對(duì)于所輸入的信息,人類基因突變分析系統(tǒng)中的hgvs運(yùn)算程序根據(jù)括號(hào)中的斜杠兩邊的堿基數(shù)量、是否存在短杠(“-”),以及括號(hào)后提供的序列在基因組序列中的情況來(lái)判斷突變型,根據(jù)括號(hào)后序列在基因組序列中的位置及突變類型來(lái)判斷突變?cè)赾ds坐標(biāo)上的位置,從而計(jì)算出hgvs名稱。在我們的典型設(shè)計(jì)方案中,本系統(tǒng)所能分析的基因突變類型包括:堿基置換(substitutions)、缺失(deletion)、重復(fù)(duplication)、插入(insertion)、倒位(inversion)、缺失/插入(indels)。在非典型的實(shí)現(xiàn)方案中,對(duì)以上突變類型數(shù)目的增刪,不構(gòu)成對(duì)本
發(fā)明內(nèi)容的根本改變。在算出hgvs名稱后,hgvs運(yùn)算程序可據(jù)此從數(shù)據(jù)庫(kù)中調(diào)出該突變的相關(guān)信息。在典型的實(shí)現(xiàn)方案中,所輸出的信息包括:突變基因,轉(zhuǎn)錄本,核苷酸變化,氨基酸變化,純合/雜合,遺傳方式,hgmd致病性,hgmd疾病,文獻(xiàn)等,并將這些信息輸出到系統(tǒng)的輸出界面。在非典型的實(shí)現(xiàn)方案中,對(duì)這些數(shù)據(jù)項(xiàng)目的增刪、順序調(diào)整、格式調(diào)整等,不構(gòu)成對(duì)本
發(fā)明內(nèi)容的根本改變。附圖說(shuō)明圖1,人類基因hgvs名稱生成及分析系統(tǒng)突變分析系統(tǒng)的系統(tǒng)構(gòu)架圖。分別由數(shù)據(jù)輸入界面、基因信息(含序列)數(shù)據(jù)庫(kù)、基因遺傳方式數(shù)據(jù)庫(kù)、hgmd數(shù)據(jù)庫(kù)、hgvs計(jì)算程序及數(shù)據(jù)輸出界面構(gòu)成。圖2,本發(fā)明的hgvs運(yùn)算程序的流程圖。信息按照一定的格式從左上角輸入后,經(jīng)過(guò)一系列的判斷,計(jì)算,數(shù)據(jù)庫(kù)調(diào)取,在右上角的信息輸出處得到該變異的一系列信息。具體實(shí)施方式以下具體實(shí)施的過(guò)程,采用的是以上“
發(fā)明內(nèi)容”中的典型方案。應(yīng)該理解,具體實(shí)施過(guò)程采用了典型方案的思路,不表示典型方案是達(dá)成本發(fā)明目的的最佳方案。應(yīng)該理解,本發(fā)明即便本發(fā)明的典型方案也并不限定于本文所描述的特定的方法、設(shè)計(jì)和流程。本文使用的術(shù)語(yǔ)僅為描述特定實(shí)施方式,并不意在限制本發(fā)明的范圍。此外,如本領(lǐng)域技術(shù)人員所理解的,可以采用各種不同的方式達(dá)成類似目的。例如改變編程使用的計(jì)算機(jī)語(yǔ)言、在不同的計(jì)算機(jī)系統(tǒng)中編程、在不同的機(jī)器上使用等。采用不同方式達(dá)到同樣目的,不構(gòu)成對(duì)本
發(fā)明內(nèi)容的改變。盡管參照具體實(shí)施方式公開了本發(fā)明,但可能對(duì)所述實(shí)施方式作出各種修飾、替換和改變而不脫離隨附說(shuō)明書和權(quán)利要求書中描述的本發(fā)明的完整范圍?;谠斒?、附圖、實(shí)施例和權(quán)利要求,可以明白所公開的主題的其他特征、目的和優(yōu)勢(shì)??衫门c本文所述那些基本上類似或等同的方法來(lái)實(shí)施或測(cè)試本發(fā)明公開的主題。人類基因突變分析系統(tǒng)已用多種計(jì)算機(jī)語(yǔ)言,在多種計(jì)算機(jī)系統(tǒng)中實(shí)現(xiàn)。其中在excel環(huán)境中,通過(guò)編程實(shí)現(xiàn)對(duì)編碼區(qū)分析的算法已經(jīng)申請(qǐng)軟件著作權(quán)。軟件名稱為:“人類基因編碼區(qū)突變的功能分析軟件”,登記號(hào)為:2015sr028115,授權(quán)日期為2015年2月9日。1.人類基因突變分析系統(tǒng)的設(shè)計(jì)目的人類基因突變分析系統(tǒng)是為一線的遺傳病基因檢測(cè)人員,特別是基于sanger測(cè)序進(jìn)行基因檢測(cè)的實(shí)驗(yàn)室人員設(shè)計(jì)和使用的。系統(tǒng)設(shè)計(jì)的首要原則是用戶體驗(yàn)的便利性,計(jì)算結(jié)果的準(zhǔn)確性和導(dǎo)出數(shù)據(jù)的權(quán)威性。在進(jìn)行sanger測(cè)序時(shí),用戶通常是針對(duì)明確的基因設(shè)計(jì)引物,擴(kuò)增后進(jìn)行測(cè)序,并將測(cè)序文件通過(guò)比對(duì)軟件與該基因的標(biāo)準(zhǔn)序列進(jìn)行比對(duì)。在比對(duì)的過(guò)程中,根據(jù)測(cè)序峰圖的情況,用戶可甄別哪些部位是測(cè)序過(guò)程中產(chǎn)生的系統(tǒng)性錯(cuò)誤,哪些部位是真實(shí)的變異位點(diǎn)。對(duì)于所發(fā)現(xiàn)的區(qū)別于參考序列的真實(shí)的變異位點(diǎn),用戶已經(jīng)知道的信息包括:基因名稱,變異位點(diǎn)參考序列,變異位點(diǎn)突變序列,變異位點(diǎn)上游和下游序列,以及通過(guò)變異位置是單峰還是套峰判斷變異為雜合型還是純合型等。其中在判斷純合型或雜合型時(shí),由于男性x染色體上基因,顯示為單峰的變異與常染色體基因的純合型變異表現(xiàn)相同但歸為半合型,用戶無(wú)需查閱基因定位于常染色體或性染色體,只將所見的純合型或雜合型輸入,系統(tǒng)可自動(dòng)判斷,并給出是否為半合型的提示。在系統(tǒng)上,用戶可以簡(jiǎn)單地輸入:基因名稱,(變異位點(diǎn)原始序列/變異位點(diǎn)突變序列)變異位點(diǎn)之后一段序列,變異位點(diǎn)是純合型還是雜合型(用“c”代表純合型,用“z”代表雜合型),中間以空格隔離。例如輸入:ugt1a1(g/a)gagcattttacaccttgaac,希望計(jì)算后可得到:突變基因:ugt1a1轉(zhuǎn)錄本:nm_000463核苷酸變化:c.211g>a氨基酸變化:p.gly71arg純合/雜合:純合型遺傳方式:arhgmd致病性:dfphgmd疾?。篽yperbilirubinaemia,associationwith文獻(xiàn):teng,clingenet,2007希望得到的信息中,突變基因是用戶輸入的基因名稱,轉(zhuǎn)錄本是用于計(jì)算hgvs名稱所用的基因轉(zhuǎn)錄本,核苷酸變化是計(jì)算得到的基于編碼序列的hgvs名稱,氨基酸變化是計(jì)算得到的基于蛋白質(zhì)序列的hgvs名稱,純合/雜合是用戶輸入的信息并經(jīng)過(guò)簡(jiǎn)單判斷,遺傳方式是這個(gè)基因或疾病的遺傳方式,hgmd致病性和hgmd疾病是判斷該突變是否致病,導(dǎo)致什么病的信息,文獻(xiàn)則是與這個(gè)判斷相關(guān)的文獻(xiàn)。一般來(lái)說(shuō),這些信息回答了用戶所關(guān)心的關(guān)于突變的最核心問(wèn)題:突變的標(biāo)準(zhǔn)hgvs名稱是什么,它是致病的嗎,如果致病,致病強(qiáng)度如何,可導(dǎo)致什么疾病,有什么文獻(xiàn)支持這個(gè)判斷等。hgvs網(wǎng)站給出了多種突變類型。其中基因微小突變包括:堿基置換(substitutions);缺失(deletion);重復(fù)(duplication);插入(insertion);倒位(inversion);缺失/插入(indels)等。本系統(tǒng)可對(duì)編碼dna水平的這些變異方式進(jìn)行分析,發(fā)生變異的位置包括編碼蛋白質(zhì)的外顯子區(qū)域,不編碼蛋白質(zhì)的外顯子區(qū)域,內(nèi)含子區(qū)域,5’-utr區(qū),3’-utr區(qū)等,并給出標(biāo)準(zhǔn)hgvs名稱。hgvs網(wǎng)站還包括其它類型的變異如序列重復(fù)數(shù)量變異,易位,嵌合體,未知序列長(zhǎng)片段變異等復(fù)雜情況,目前本系統(tǒng)尚不能處理??偠灾?,本系統(tǒng)的目的,是在用戶進(jìn)行序列比對(duì)遇到變異時(shí),只要發(fā)生變異的基因名稱是已知的,變異的類型不特殊,變異的位置位于基因序列之內(nèi),都可以以最簡(jiǎn)單方法的方式輸入系統(tǒng),系統(tǒng)反饋用戶關(guān)于這個(gè)突變的最主要的信息,實(shí)現(xiàn)基因突變分析的智能化、自動(dòng)化。2系統(tǒng)架構(gòu)為了實(shí)現(xiàn)以上目的,人類基因變異分析系統(tǒng)分別由數(shù)據(jù)輸入界面、基因信息(含序列)數(shù)據(jù)庫(kù)、基因遺傳方式數(shù)據(jù)庫(kù)、hgmd數(shù)據(jù)庫(kù)、hgvs計(jì)算程序及數(shù)據(jù)輸出界面構(gòu)成。該系統(tǒng)的框架結(jié)構(gòu)圖見說(shuō)明書附圖1。在數(shù)據(jù)輸入界面,用戶需輸入:基因名稱,(變異位點(diǎn)參考序列/變異位點(diǎn)突變序列)變異位點(diǎn)之后一段序列,變異位點(diǎn)是純合型還是雜合型(用“c”代表純合型,用“z”代表雜合型)。數(shù)據(jù)輸入界面支持輸入多行數(shù)據(jù)的分析?;蛐畔?shù)據(jù)庫(kù)所含基因列表來(lái)自hgmd數(shù)據(jù)庫(kù)2015年版本包含的5969個(gè)基因。基因信息包括基因名稱,來(lái)自ensembl數(shù)據(jù)庫(kù)的基因組序列,基因在hgmd數(shù)據(jù)庫(kù)所用的轉(zhuǎn)錄本名稱及序列等?;虻倪z傳方式相對(duì)復(fù)雜一些。同一基因在不同的遺傳病中可以有不同的遺傳方式,同一基因同一遺傳病在不同的個(gè)體中也可以有不同的遺傳方式。對(duì)人類的數(shù)萬(wàn)個(gè)基因而言,明確其遺傳方式的基因約有4000個(gè)。我們用以標(biāo)注基因遺傳方式的信息來(lái)自omim數(shù)據(jù)庫(kù)。hgmd數(shù)據(jù)庫(kù)見http://www.hgmd.cf.ac.uk/ac/index.php。hgmd分為公共版(publicversion)和專業(yè)版(professionalversion)。截止到2017年4月5日,公共版和專業(yè)版分別收錄了5528和7791個(gè)基因,分別包含141635和197952個(gè)突變。所收錄的突變類型包括外顯子錯(cuò)義突變,啟動(dòng)子區(qū)突變,剪接位點(diǎn)突變,插入突變,缺失突變及復(fù)雜性重組等。hgvs計(jì)算程序可將輸入的信息轉(zhuǎn)化為hgvs名稱。由于hgmd數(shù)據(jù)庫(kù)基本上遵循了hgvs的突變命名規(guī)則,因此hgvs計(jì)算程序可在生成的hgvs名稱后,通過(guò)該名稱從hgmd數(shù)據(jù)庫(kù)中調(diào)取與該突變有關(guān)的信息。這些信息包括:突變的致病性,突變導(dǎo)致的疾病,有關(guān)該突變的參考文獻(xiàn)等。hgvs計(jì)算程序計(jì)算后,將計(jì)算結(jié)果輸出到輸出界面,包括:突變基因,轉(zhuǎn)錄本,核苷酸變化,氨基酸變化,純合/雜合,遺傳方式,hgmd致病性,hgmd疾病,文獻(xiàn)等。3hgvs名稱運(yùn)算流程在數(shù)據(jù)輸入環(huán)節(jié),如前所述,用戶應(yīng)輸入:基因名稱,(變異位點(diǎn)參考序列/變異位點(diǎn)突變序列)變異位點(diǎn)之后一段序列,純合型/雜合型。這些信息可簡(jiǎn)化為:”gene(r/m)sz/c”。在此格式中,gene是不可缺失的,且應(yīng)使用標(biāo)準(zhǔn)的基因名稱。r為變異位點(diǎn)參考序列,m為變異位點(diǎn)突變序列,r和m皆可以代表一個(gè)堿基,也可以代表多個(gè)堿基,r和m在堿基缺失時(shí)可以用“-”代替。例如堿基缺失時(shí),m為“-”,堿基插入時(shí),r為“-”。z/c代表堿基雜合型或純合型,通過(guò)峰圖即可簡(jiǎn)單判斷,應(yīng)輸入單個(gè)字母,也可以不輸入。對(duì)于所輸入的信息,hgvs運(yùn)算程序根據(jù)括號(hào)中的斜杠兩邊的堿基數(shù)量、是否存在短杠(“-”),以及括號(hào)后提供的序列在基因組序列中的情況來(lái)判斷突變型,根據(jù)括號(hào)后序列在基因組序列中的位置及突變類型來(lái)判斷突變?cè)赾ds坐標(biāo)上的位置,從而計(jì)算出hgvs名稱。其具體的運(yùn)算流程見說(shuō)明書附圖2。在實(shí)際運(yùn)算中,程序涉及的內(nèi)容與判斷要多于流程圖。例如,如果輸入的基因不在基因庫(kù)中,應(yīng)如何處理;如果輸入的數(shù)據(jù)格式不對(duì),應(yīng)如何判斷和處理;純/雜合型未輸入應(yīng)如何應(yīng)對(duì);由于這些不是運(yùn)算的重點(diǎn),此處不再贅述。4與hgmd數(shù)據(jù)的對(duì)接通過(guò)hgvs計(jì)算程序得到某基因某變異的hgvs名稱后,可從遵循了hgvs命名規(guī)則的變異數(shù)據(jù)庫(kù)中檢索該變異,找到后從數(shù)據(jù)庫(kù)中調(diào)取與該變異有關(guān)的信息。常用的人類基因變異數(shù)據(jù)庫(kù)有clinvar,hgmd等,都基本遵循了hgvs突變命名規(guī)則。此處以hgmd為例。hgmd數(shù)據(jù)庫(kù)分為公共版和專業(yè)版。在公共版,對(duì)于堿基置換型的突變,數(shù)據(jù)庫(kù)提供了每個(gè)突變的登記號(hào)(accessionnumber),密碼子變化(codonchange),氨基酸變化(aminoacidchange),密碼子位置(codonnumber),基因組坐標(biāo)及hgvs的命名(genomiccoordinates&hgvsnomenclature),表型(phenotype),參考文獻(xiàn)(reference),評(píng)論(comments)等信息。其中基因組坐標(biāo)及hgvs的命名信息被掩蓋了,密碼子變化和氨基酸變化的信息進(jìn)行了圖片化處理,無(wú)法以文字格式拷貝。因此,使用hgmd公共版是不利于hgvs名稱的計(jì)算機(jī)檢索的。hgmd的專業(yè)版數(shù)據(jù)庫(kù)除了以上信息外,還包括突變的致病性分類(variantclass)等信息。所提供的hgvs名稱可拷貝。因此,通過(guò)hgvs計(jì)算測(cè)序所得hgvs名稱,可對(duì)接hgmd專業(yè)版數(shù)據(jù),獲取相關(guān)信息。5人類基因突變hgvs命名系統(tǒng)的使用方法對(duì)于從數(shù)據(jù)輸入界面輸入的基因突變數(shù)據(jù),hgvs計(jì)算程序計(jì)算hgvs名稱首先依賴于所輸入數(shù)據(jù)的格式。如前所述,系統(tǒng)規(guī)定的數(shù)據(jù)輸入格式為:gene(r/m)sz/cgene為基因的標(biāo)準(zhǔn)名稱,r為突變參考序列,m為突變序列,s為突變處后面的一段序列,該序列需為ncbi上gdna上的一段序列,不拘內(nèi)含子還是外顯子,也不拘5'utr區(qū)域或3'utr區(qū)域,但需大于10個(gè)堿基。如使用cds序列,如所圈選序列包含不同外顯子,在gdna序列中不能檢索,則無(wú)法計(jì)算。z/c代表突變?yōu)殡s合型還是純合型,可以不填。這種表示方式是比對(duì)時(shí)突變記錄的最簡(jiǎn)單和最直便的格式。不同突變類型的輸入格式簡(jiǎn)述如下:1)堿基置換情況,r和m分別是單個(gè)堿基,如atp7b(t/c)cccccagaccttctctgtgctg,表示cccccagaccttctctgtgctg序列前發(fā)生了t到c的變異。t為參考序列,c為突變序列。2)堿基缺失,缺失時(shí)m用-表示,如:atp7b(t/-)cccccagaccttctctgtgctg表示cccccagaccttctctgtgctg前面的t缺失。atp7b(cc/-)cccagaccttctctgtgctg表示cccagaccttctctgtgctg前面的兩個(gè)cc缺失。應(yīng)該注意的是,按照hgvs的規(guī)則,當(dāng)有連續(xù)相同的多個(gè)堿基缺失一個(gè)或幾個(gè)時(shí),應(yīng)按缺失后面的堿基來(lái)算。所以,agaccttctctgtgctg前面5個(gè)c缺失兩個(gè)c時(shí),應(yīng)記做:atp7b(cc/-)agaccttctctgtgctg,而不是(cc/-)cccagaccttctctgtgctg否則系統(tǒng)會(huì)給出錯(cuò)誤的結(jié)果。3)堿基插入,r用-表示,即序列中在無(wú)堿基處出現(xiàn)新的堿基,如atp7b(-/tt)agaccttctctgtgctg表示agaccttctctgtgctg前面原來(lái)沒有tt,突變后多了tt。4)堿基重復(fù),輸入格式與堿基插入相同。如插入的序列正好與前面等長(zhǎng)的序列相同,則系統(tǒng)自動(dòng)判斷為重復(fù)。其輸入格式與插入相同。例如:atp7b(-/a)gaccttctctgtgctg所插入的a前面也是a,故判定為堿基重復(fù)。5)缺失/插入,r和m其中至少一個(gè)的堿基數(shù)目要大于1,且不構(gòu)成倒位。如atp7b(ag/ttt)accttctctgtgctg表示原來(lái)accttctctgtgctg前面的ag變?yōu)閠tt6)倒位,r和m的長(zhǎng)度都必須大于1,且等長(zhǎng),且序列為反向,其格式與缺失/插入相同。如atp7b(ag/ga)accttctctgtgctg,系統(tǒng)自動(dòng)判斷ga是ag的倒位。應(yīng)該注意的是,目前hgmd數(shù)據(jù)庫(kù)并未遵循h(huán)gvs關(guān)于堿基倒位的規(guī)則。hgmd將倒位視為缺失/插入。以上數(shù)據(jù)整理如下:atp7b(t/c)cccccagaccttctctgtgctgatp7b(t/-)cccccagaccttctctgtgctgatp7b(-/tt)agaccttctctgtgctgatp7b(-/a)gaccttctctgtgctgatp7b(ag/ttt)accttctctgtgctgatp7b(ag/ga)accttctctgtgctg將這些數(shù)據(jù)輸入系統(tǒng),可得到以下結(jié)果。其中核苷酸變化就是編碼dna的hgvs名稱:突變基因轉(zhuǎn)錄本核苷酸變化氨基酸變化純合/雜合遺傳方式致病性hgmd疾病hgmd文獻(xiàn)atp7bnm_000053c.3419t>cp.val1140ala需輸入z或cardpwilsondiseaseliu,wjg,2004atp7bnm_000053c.3419delt無(wú)數(shù)據(jù)需輸入z或cardmwilsondiseasekumar,clingenet,2005atp7bnm_000053c.3424_3425instt無(wú)數(shù)據(jù)需輸入z或car無(wú)無(wú)無(wú)atp7bnm_000053c.3425dupa無(wú)數(shù)據(jù)需輸入z或car無(wú)無(wú)無(wú)atp7bnm_000053c.3425_3426delaginsttt無(wú)數(shù)據(jù)需輸入z或car無(wú)無(wú)無(wú)atp7bnm_000053c.3425_3426invag無(wú)數(shù)據(jù)需輸入z或car無(wú)無(wú)無(wú)(如在以上輸入的序列后面加上空格和c或z字母,在純和/雜合一欄將給出純合型或雜合型的結(jié)果)。6與“mutalyzer”結(jié)果的比較美國(guó)醫(yī)學(xué)遺傳學(xué)與基因組學(xué)學(xué)會(huì)(acmg)所推薦的網(wǎng)站https://mutalyzer.nl(以下稱為m系統(tǒng))是從突變序列生成hgvs名稱的專用工具。使用m系統(tǒng)生成基于cds序列的突變的hgvs名稱的方法是:打開https://mutalyzer.nl網(wǎng)站,點(diǎn)擊“descriptionextractor”,將參考序列輸入?yún)⒖夹蛄?referencesequence)框,再輸入樣品序列(samplesequence),兩條序列都必須是同一基因完整的cds序列,而后點(diǎn)擊“extractvariantdescription”,即可生成突變位點(diǎn)的hgvd命名格式。針對(duì)同一批的突變位點(diǎn),我們用人類突變分析系統(tǒng)(以下稱h系統(tǒng))和m系統(tǒng)分別進(jìn)行了處理,對(duì)兩個(gè)系統(tǒng)的使用方式和所得結(jié)果進(jìn)行了比較。我們選擇一個(gè)比較短的名為apoc2基因的cds區(qū),其序列為:atgggcacacgactcctcccagctctgtttcttgtcctcctggtattgggatttgaggtccaggggacccaacagccccagcaagatgagatgcctagcccgaccttcctcacccaggtgaaggaatctctctccagttactgggagtcagcaaagacagccgcccagaacctgtacgagaagacatacctgcccgctgtagatgagaaactcagggacttgtacagcaaaagcacagcagccatgagcacttacacaggcatttttactgaccaagttctttctgtgctgaagggagaggagtaa以上用于舉例的apoc2基因的cds區(qū)序列,第1-55堿基屬于第一外顯子,第56-215堿基屬于第二外顯子,第216-306堿基到屬于第三外顯子。在使用m系統(tǒng)時(shí),該序列需要始終存在于referencesequence框中。(1)堿基置換將第二個(gè)位置的t改為c,然后將改變后的序列輸入樣品序列(samplesequence)框中,則在m系統(tǒng)中,點(diǎn)擊“extractvariantdescription”,生成的hgvs名稱為:2t>c在h系統(tǒng)中,無(wú)需輸入?yún)⒖夹蛄校灰斎搿癮poc2(t/c)gggcacacgac”,即可得到:c.2t>c,兩者一致,而h系統(tǒng)更符合hgvs的規(guī)范。這是由于m系統(tǒng)不區(qū)分所輸入的序列是gdna還是cds或其它格式,需要由輸入者判斷,自行在其前加入g.或c.,以分別標(biāo)記序列類型,以下相同。(2)堿基缺失將第二個(gè)堿基刪除后輸入m系統(tǒng),得到:2del;h系統(tǒng)的輸入方法是:“apoc2(t/-)gggcacacgac”,可得到c.2delt,兩者一致,而h系統(tǒng)顯示了缺失的堿基名稱,更完整。(3)堿基插入在第二個(gè)堿基后插入c,m系統(tǒng)得到:2_3insc,h系統(tǒng)的輸入方法是:“apoc2(-/c)gggcacacgactc”,得:c.2_3insc,兩者一致。(4)堿基重復(fù)第三四五位置是g,其后插入一個(gè)g,應(yīng)為堿基重復(fù)。m系統(tǒng)得到:5dup;h系統(tǒng)的輸入方法是:“apoc2(-/g)cacacgactcctc”,得:c.5dupg,兩者一致,而h系統(tǒng)給出了重復(fù)的堿基名稱,更完整。(5)堿基倒位將第11位到14位的gact變?yōu)閠cag,顯然是倒位,m系統(tǒng)得到:11_14delinstcag,m系統(tǒng)認(rèn)為是插入缺失,h系統(tǒng)的輸入方法是:“apoc2(gact/tcag)cctcccagctctgtttct”,得:c.11_14invgact,顯然h系統(tǒng)符合hgvs的規(guī)則,而m系統(tǒng)所得結(jié)果以嚴(yán)格的hgvs命名規(guī)則來(lái)看是錯(cuò)誤的。(6)插入缺失將第三個(gè)g變?yōu)閏cc,m系統(tǒng)得:3delinsccc;h系統(tǒng)的輸入方法是:“apoc2(g/ccc)ggcacacgactc”,得:c.3delginsccc,兩者一直,而h系統(tǒng)給出了缺失的堿基名稱,更完整。(7)重復(fù)性序列(repeatsequence)對(duì)于重復(fù)性序列,兩個(gè)系統(tǒng)都不能以hgvs的格式處理。例如ar基因中存在兩段微衛(wèi)星重復(fù)序列,第一段為22個(gè)agc重復(fù),其標(biāo)準(zhǔn)命名應(yīng)該是:c.173_175[22],如減少一個(gè)agc重復(fù),名稱變?yōu)閏.173_175[21]。這種變化,在兩個(gè)系統(tǒng)中都無(wú)法生成為標(biāo)準(zhǔn)的hgvs命名格式,而是當(dāng)成del處理了。兩個(gè)系統(tǒng)的不同之處可歸結(jié)為:(1)數(shù)據(jù)的輸入格式不同。m系統(tǒng)需要輸入?yún)⒖夹蛄泻屯蛔兒蟮恼麄€(gè)序列,而突變后的整個(gè)序列需要用戶根據(jù)比對(duì)結(jié)果,在參考序列上編輯。h系統(tǒng)不需要輸入?yún)⒖夹蛄校瑑H將基因名稱和突變及突變后的一段序列輸入即可。所輸入的信息可以全部來(lái)自比對(duì)界面,而不需要另行打開基因序列的數(shù)據(jù)庫(kù)。因此,從使用效果看,h系統(tǒng)的數(shù)據(jù)輸入更為簡(jiǎn)便。(2)對(duì)內(nèi)含子計(jì)算能力不同。對(duì)m系統(tǒng)所輸入的參考序列,可以是基因組序列,也可以是cds序列。前者計(jì)算突變時(shí)給出突變的基因組名稱,應(yīng)以g.開頭,后者計(jì)算突變時(shí)給出突變的cds名稱,應(yīng)以c.開頭。但m系統(tǒng)不能區(qū)分所輸入的序列是外顯子還是內(nèi)含子,對(duì)于內(nèi)含子突變不能給出其突變的cds名稱。而內(nèi)含子的突變,特別是位于外顯子/內(nèi)含子交界處附近內(nèi)含子的突變,通常對(duì)轉(zhuǎn)錄本的剪切方式有重要影響。這屬于m系統(tǒng)hgvs名稱計(jì)算的重大缺陷。而h系統(tǒng)對(duì)輸入的數(shù)據(jù),不需要用戶區(qū)分序列是外顯子和內(nèi)含子,系統(tǒng)可根據(jù)輸入序列在基因上的位置自動(dòng)區(qū)分屬于內(nèi)含子還是外顯子,并給出相應(yīng)的hgvs名稱。(3)對(duì)倒位的計(jì)算能力不同。堿基倒位是一種特殊的插入缺失,在hgvs命名規(guī)則中,該突變類型歸于單獨(dú)的一類。然而m系統(tǒng)對(duì)此仍按缺失/插入處理,這是錯(cuò)誤的,至少是沒有嚴(yán)格遵守hgvs的規(guī)則。而h系統(tǒng)可以計(jì)算倒位型的突變。(4)輸出格式不同。m系統(tǒng)對(duì)于輸入的待檢測(cè)序列,可以編輯一個(gè)突變,也可以編輯多個(gè)突變,經(jīng)計(jì)算后給出每個(gè)突變的hgvs名稱。除此之外并不能給出突變的其它信息。而h系統(tǒng)可以一次輸入一行待測(cè)突變,也可以輸入多行突變,且多行突變可分屬不同的基因。所輸出的數(shù)據(jù),除了突變?cè)赿na水平的hgvs名稱外,還可以包括突變?cè)诘鞍踪|(zhì)水平的hgvs名稱,以及自動(dòng)調(diào)出與該突變及該基因有關(guān)的信息。結(jié)論是:在一般意義上,人類基因突變分析系統(tǒng)(h系統(tǒng))要優(yōu)于mutalyzer系統(tǒng)(m系統(tǒng))。當(dāng)前第1頁(yè)12