本發(fā)明涉及分子生物學(xué)、功能基因組學(xué)、生物信息學(xué)和分子診斷領(lǐng)域,更具體涉及一種針對東亞人群全基因組范圍內(nèi)的非編碼區(qū)的snps的dna芯片。
背景技術(shù):
盡管人類基因組已經(jīng)完成測序,但是蘊含在其中的大量的功能元件仍然未知。根據(jù)encode計劃最新公布的數(shù)據(jù),人類基因組74.7%的區(qū)域能夠轉(zhuǎn)錄,而編碼蛋白質(zhì)的基因的外顯子區(qū)只占人類基因組的2.94%。人類基因組上絕大多數(shù)的蛋白質(zhì)編碼基因已經(jīng)被鑒定并注釋,這就預(yù)示著人類基因組上還有大量的非編碼基因有待于發(fā)現(xiàn)。
在人類基因組草圖剛發(fā)布時,就有研究人員根據(jù)人類基因組的序列設(shè)計tilingarray(覆瓦芯片)來檢測基因組上具有轉(zhuǎn)錄活性的區(qū)域,在人類的21號和22號染色體上發(fā)現(xiàn)了大量能夠轉(zhuǎn)錄但是產(chǎn)物未知的基因區(qū)域。在基因組上發(fā)現(xiàn)長鏈非編碼基因的另一種方法是借助染色質(zhì)中組蛋白上的修飾。guttman等人在小鼠的基因組上找到了大約5000個k4-k36區(qū)域,這些區(qū)域轉(zhuǎn)錄出來的都是長鏈非編碼rna,由于這些區(qū)域都位于蛋白質(zhì)編碼基因的基因間區(qū),因此稱轉(zhuǎn)錄出來的長鏈非編碼rna為lincrna(largeintergenicnoncodingrnas)。后來khalil等人在人的基因組上得到了類似的結(jié)果。2010年guttman等人利用rna-seq技術(shù)在小鼠中發(fā)現(xiàn)了大量的長鏈非編碼rna,并且發(fā)現(xiàn)這些長鏈非編碼rna有類似于蛋白質(zhì)編碼基因的多外顯子基因結(jié)構(gòu)。在隨后的一年,cabili等人用同樣的方法在人的細(xì)胞中發(fā)現(xiàn)8000多條長鏈非編碼rna,并且整合了多種數(shù)據(jù)對這些長鏈非編碼rna的特征進(jìn)行了刻畫。gencode計劃利用rna-seq的方法在不同的人體組織和細(xì)胞中發(fā)現(xiàn)了大量的長鏈非編碼rna,從第七版開始發(fā)布長鏈非編碼rna的注釋,到目前為止已更新到第23版,共發(fā)布了27817條長鏈非編碼rna序列。noncode數(shù)據(jù)庫是最早收集非編碼rna序列的數(shù)據(jù)庫,目前已經(jīng)更新至第四版,是非編碼領(lǐng)域最權(quán)威的數(shù)據(jù)庫。從第三版開始,noncode數(shù)據(jù)庫開始收集長鏈非編碼rna序列。
單核苷酸多態(tài)性(snp)是一種廣泛存在的基因組變異方式。snp是指某個人群中的正常個體中,在基因組dna的單個堿基對位置上存在不同的堿基的情況。在snp位點出現(xiàn)的堿基中,出現(xiàn)次數(shù)最少的稱為最小等位,其頻率稱為最小等位頻率(maf)。通常認(rèn)為snp的出現(xiàn)是由基因組dna的突變引起的。人的基因組dna有30億個堿基對,在同一個位置發(fā)生兩次甚至三次突變的可能性極低,因此,snp位點通常都是二態(tài)(有兩個等位)。人類基因組dna中平均每67個堿基就有1個snp位點。但是這些snp位點在基因組上并不是均勻分布,編碼蛋白質(zhì)的外顯子區(qū)的snp位點密度比其他區(qū)域低。根據(jù)基因組中位置,snp可以分為基因編碼區(qū)snp、基因非編碼區(qū)snp和基因間區(qū)snp。蛋白質(zhì)編碼區(qū)的snp位點又分為兩種類型:同義和非同義。由于密碼子的兼并性,同義snp不改變蛋白質(zhì)序列,而非同義snp能夠改變蛋白質(zhì)序列。非同義snp又分為錯義和無義。不在蛋白質(zhì)編碼區(qū)的snp雖然不會改變蛋白質(zhì)的序列,但是可能通過其他的方式影響基因的表達(dá),例如位于啟動子區(qū)的snp位點可能影響轉(zhuǎn)錄因子的結(jié)合,從而影響基因的轉(zhuǎn)錄。
snp是繼第一代分子標(biāo)記rflp、第二代分子標(biāo)記微衛(wèi)星后的第三代分子標(biāo)記,普遍用于基于dna芯片技術(shù)的分子標(biāo)記技術(shù)。hapmap計劃和千人基因組計劃發(fā)現(xiàn)了大量的snp位點和在特定單體型內(nèi)具有代表性的tagsnp位點。到目前為止,dbsnp數(shù)據(jù)庫已經(jīng)收錄了人的五千多萬個已經(jīng)證實的snp位點?;赿na芯片技術(shù)的分子標(biāo)記技術(shù)的原理是首先在全基因組范圍內(nèi)對tagsnp位點設(shè)計等位特異的寡核苷酸探針,固定在芯片上,然后將要檢測的dna樣品與芯片雜交,再對芯片進(jìn)行掃描獲取snp位點的基因型?;赿na芯片技術(shù)的分子標(biāo)記技術(shù)最主要的應(yīng)用是全基因組關(guān)聯(lián)分析(genome-wideassociationstudies,gwass),gwas通常的研究策略是:case-control策略,就是通過比較患有疾病的人群(case)和正常人群(control)的遺傳變異發(fā)現(xiàn)疾病的易感位點。通過snp芯片可以從每個人的dna樣本中得到上百萬的遺傳學(xué)變異的基因型。如果一種類型的變異(一個等位基因)在病人中發(fā)生的比較頻繁,那么這個snp則被稱為與此種疾病相關(guān)。這些與疾病相關(guān)的snps用以標(biāo)記人基因組中可能影響疾病發(fā)生風(fēng)險的區(qū)域。與只對一個或多個基因區(qū)的遺傳變異進(jìn)行檢驗的方法相比,gwas研究的對象是整個基因組。因此,與針對特定基因組區(qū)域的研究不同,gwas針對整個基因組,不需要事先選定候選基因組區(qū)域。gwas能夠發(fā)現(xiàn)與疾病相關(guān)的易感位點中的snps和其它變異,但不能僅憑相關(guān)性來確定具體的致病基因。
美國affymetrix公司是基因芯片產(chǎn)業(yè)先行者,早在1989年就研制出了世界首張基因芯片。其開發(fā)的寡核苷酸原位光刻合成專利技術(shù)(light-controlledinsitusynthesisofdnamicroarrays),是目前最高密度的芯片制備技術(shù)。affymetrixgenechip芯片系統(tǒng)的硬件平臺由高度自動化的流體工作站、高通量芯片掃描儀,和相關(guān)探針序列描述和注釋數(shù)據(jù)庫等組成。高度自動化的處理減少手工操作時間,提高了數(shù)據(jù)重復(fù)性。affymetrix芯片采用原位光刻技術(shù)和嚴(yán)格的流程控制合成高密度基因芯片,可以在每平方厘米基片上合成超過400萬的探針。affymetrix芯片采用獨特的pm-mm探針設(shè)計方式,即針對每段參考序列設(shè)計一對25-mer探針,其中一個是完全匹配(perfectmatch,pm)探針,另一個是靠近序列中間的錯誤位點匹配(mismatch,mm)探針。檢測時將每對pm-mm探針的檢測信號綜合起來,這樣有助于區(qū)分特異性結(jié)合與非特異性結(jié)合的靶片段,從而提高探針靈敏度和特異性。這種pm-mm設(shè)計對于在復(fù)雜序列背景樣品中低豐度表達(dá)產(chǎn)物的檢測中有明顯優(yōu)勢。同時,使用多個探針來檢測snp,有效減少了探針雜交非專一性的影響,并通過合適的算法獲得更為有力的數(shù)據(jù)。
發(fā)明公開
本發(fā)明的目的是提供一種針對東亞人群全基因組范圍內(nèi)的非編碼區(qū)的snps的dna芯片,特別是一種針對東亞人群全基因組范圍內(nèi)的長鏈非編碼基因區(qū)域和mirna基因區(qū)域的snps的dna芯片。
本發(fā)明提供的針對東亞人群全基因組范圍內(nèi)的非編碼區(qū)的snps的dna芯片,是固定有特異探針的dna芯片;所述特異探針為用于檢測表1中3568個snp的探針(3568個snp的信息見表1的第一列和第二列)。
所述特異探針具體可由如下4119條探針組成:序列表的序列1所示的單鏈dna分子至序列表的序列4119所示的單鏈dna分子。
實施發(fā)明的最佳方式
以下的實施例便于更好地理解本發(fā)明,但并不限定本發(fā)明。下述實施例中的實驗方法,如無特殊說明,均為常規(guī)方法。下述實施例中所用的試驗材料,如無特殊說明,均為自常規(guī)生化試劑商店購買得到的。
實施例1、snps的篩選
長鏈非編碼基因區(qū)域的定義是基于申請人自主開發(fā)的非編碼rna數(shù)據(jù)庫(xie等,noncodev4:exploringtheworldoflongnon-codingrnagenes.nucleicacidsres.2014,42:d98-d103.http://www.noncode.org/)。noncode數(shù)據(jù)庫從大約10年前開始專門收錄各個物種的非編碼rna(除了rrna和trna),到目前為止,已經(jīng)更新至第四版本,其中包含人類的最新的54072個長鏈非編碼基因。本發(fā)明的發(fā)明人又收集的了gencode計劃(harrow等,gencode:thereferencehumangenomeannotationfortheencodeproject.genomeresearch.2012.22:1760-74.http://www.gencodegenes.org/)發(fā)布的最新的人類長鏈非編碼rna數(shù)據(jù)和humanlincrnacatalog數(shù)據(jù)集(cabili等,integrativeannotationofhumanlargeintergenicnoncodingrnasrevealsglobalpropertiesandspecificsubclasses.2011.genesdev25:1915-27)?;谏鲜鰯?shù)據(jù),共獲得了26977個長鏈非編碼基因區(qū)域。
mirna基因區(qū)域的定義基于noncode數(shù)據(jù)庫中收錄的人的1877個mirna前體序列,這些序列也收錄在mirbase數(shù)據(jù)庫(kozomara等,mirbase:annotatinghighconfidencemicrornasusingdeepsequencingdata.nucleicacidsres.2014.42:d68-d73)。
snp位點及基因型數(shù)據(jù)從千人基因組計劃最新發(fā)布的數(shù)據(jù)中獲取,只考慮東亞人群中的常見snp位點的基因型數(shù)據(jù)。將所有的snp位點按照非編碼基因區(qū)域分組,然后計算每一組內(nèi)的所有snp位點之間的r2值,篩選出具有代表性的snp位點,稱為tagsnp。共篩選出東亞人群特有的位于非編碼基因區(qū)的3568個tagsnp位點。
實施例2、芯片的制備
3568個tagsnp位點的信息以及檢測該snp位點的探針信息見表1。
表1
注:探針均為單鏈dna分子。
由affymetrix公司將用于檢測上述各個snp位點的探針(即序列表的序列1至序列4119所示的各個單鏈dna分子)分別固定在基片上,得到針對東亞人群全基因組范圍內(nèi)的非編碼區(qū)的snps的dna芯片(axiom陣列板)。
實施例3、芯片的應(yīng)用
采用實施例2制備的針對東亞人群全基因組范圍內(nèi)的非編碼區(qū)的snps的dna芯片對待測志愿者進(jìn)行檢測,具體方法如下:
1、采血,提取基因組dna。
2、取約200ng步驟1得到的基因組dna,采用試劑盒(axiom2.0reagentkit;affymetrix公司產(chǎn)品,貨號為901758)并按試劑盒說明書操作,與實施例2提供的針對東亞人群全基因組范圍內(nèi)的非編碼區(qū)的snps的dna芯片雜交,然后在genetitan多通道儀器上成像檢測(a/t用一種顏色標(biāo)記,g/c用另一種顏色標(biāo)記),得到待測志愿者基于各個snp位點的基因型。
部分結(jié)果見表2。
表2
工業(yè)應(yīng)用
目前用于gwas的snp芯片主要關(guān)注與蛋白質(zhì)編碼基因相關(guān)的snp位點,包括位于蛋白質(zhì)編碼基因外顯子區(qū)和轉(zhuǎn)錄調(diào)控區(qū)域的snp位點,國際上還沒有針對全基因組范圍內(nèi)非編碼基因,特別是長鏈非編碼rna的編碼基因的snp芯片,而長鏈非編碼rna與疾病的關(guān)系已經(jīng)得到越來越多的證實。
本發(fā)明提供的針對東亞人群全基因組范圍內(nèi)的非編碼區(qū)的snps的dna芯片,包含從26977個長鏈非編碼基因區(qū)域和1877個mirna基因區(qū)域中篩選出來的3568個snp,這些snp均為人類非編碼基因的轉(zhuǎn)錄區(qū)中具有代表性的snp。
本發(fā)明對于人類長鏈非編碼基因區(qū)域中的snp位點檢測具有重大的應(yīng)用價值,對于遺傳性疾病的風(fēng)險評估以及個性化治療具有重大的應(yīng)用前景。