專利名稱:確定轉(zhuǎn)錄活性的方法
相關(guān)申請(qǐng)本申請(qǐng)要求2001年12月11日提交的美國(guó)臨時(shí)專利申請(qǐng)系列號(hào)60/339655的優(yōu)先權(quán)。上述申請(qǐng)的全文在此引為參考。
背景技術(shù):
本發(fā)明涉及生物分析、微陣列和生物信息學(xué)。
DNA轉(zhuǎn)錄成RNA是一種基本機(jī)制,細(xì)胞通過(guò)它介導(dǎo)其生長(zhǎng)、功能和代謝。因此,對(duì)轉(zhuǎn)錄活性的了解對(duì)于揭示基因組的功能是重要的。
發(fā)明概述在一方面,本發(fā)明提供了使用寡核苷酸探針探察基因組的轉(zhuǎn)錄活性的方法和組成物。在優(yōu)選實(shí)施方案中,寡核苷酸探針被固定化以形成高密度的寡核苷酸探針陣列。
本發(fā)明的一些示例性的方法被用來(lái)探察人類第21和22染色體的轉(zhuǎn)錄活性(Kapranov等,“人類第21和22染色體的大規(guī)模轉(zhuǎn)錄活性”,Science296916-919(2002),在此引為參考)。人類第21和22染色體的序列表明其含有大約770個(gè)被明確鑒定和預(yù)測(cè)的基因。這些基因僅代表了一部分被轉(zhuǎn)錄為RNA的序列信息。正如在引用的文獻(xiàn)(Kapranov等,Science 296916-919(2002))中所顯示的,使用了從11個(gè)不同發(fā)育來(lái)源的人類細(xì)胞系獲得的胞質(zhì)中含有polyA的RNA構(gòu)建了這些染色體的轉(zhuǎn)錄活性區(qū)域的經(jīng)驗(yàn)圖譜。使用核中的含有polyA的RNA和核與胞質(zhì)的總RNA還構(gòu)建了其它的圖譜。這些圖譜是使用高密度的寡核苷酸陣列構(gòu)建的,可以探察3500萬(wàn)個(gè)堿基對(duì)的非重復(fù)基因組序列,在這些染色體上平均每30個(gè)堿基對(duì)間隔使用了25個(gè)核苷酸長(zhǎng)的探針。將這些結(jié)果與可以獲得的關(guān)于這兩個(gè)染色體的序列說(shuō)明相覆蓋,表明用于轉(zhuǎn)錄的基因組序列比根據(jù)預(yù)測(cè)和鑒定的外顯子所想象的多9倍。這些轉(zhuǎn)錄本代表了在以前的帶注釋的圖譜中沒(méi)有說(shuō)明的隱藏轉(zhuǎn)錄子組(transcriptome)。
上面的例子說(shuō)明了本發(fā)明的方法在了解基因組的生物功能方面的威力,并突出了對(duì)轉(zhuǎn)錄活性進(jìn)行大規(guī)模探察的需要。本發(fā)明的方法和組成物為后基因組時(shí)代創(chuàng)新性的生物學(xué)研究、臨床診斷學(xué)和藥物開發(fā)提供了工具。
在某些實(shí)施方案中,探察轉(zhuǎn)錄活性的方法包括以下的步驟從1個(gè)、2個(gè)或更多個(gè)細(xì)胞區(qū)室(例如細(xì)胞核、細(xì)胞質(zhì)等)中獲得總的或含有polyA的RNA樣品;將帶有polyA的或總的RNA或從RNA衍生的核酸與一個(gè)寡核苷酸探針陣列雜交,其中寡核苷酸探針陣列含有至少10000個(gè)被設(shè)計(jì)成完全匹配的(PM)探針的寡核苷酸,每個(gè)完全匹配的探針靶向來(lái)自一個(gè)基因組區(qū)域的不同的轉(zhuǎn)錄本序列;以及如果針對(duì)某個(gè)基因組序列的探針與靶雜交了就可以確定該基因組序列轉(zhuǎn)錄了。
盡管本發(fā)明的方法可以用于探察任何大小的基因組區(qū)域的轉(zhuǎn)錄活性,但本方法對(duì)于探察較大的基因組區(qū)域特別有用,例如至少20MB、50MB及更大的區(qū)域,或一個(gè)染色體或全基因組的25%、50%或100%的DNA序列。在某些實(shí)施方案中,使用了一套1、2、5、10、50或100個(gè)探針陣列探察了一個(gè)完整的基因組的DNA序列。
探針可以以至少1000、500、100、30、10或1個(gè)堿基對(duì)的分辨率靶向基因組的轉(zhuǎn)錄本序列。
使用本發(fā)明的方法可以檢測(cè)來(lái)自不同細(xì)胞區(qū)室,例如細(xì)胞質(zhì)或細(xì)胞核的RNA。
一般來(lái)說(shuō),每個(gè)寡核苷酸探針陣列含有至少10萬(wàn)、50萬(wàn)或80萬(wàn)個(gè)寡核苷酸探針,每個(gè)都靶向基因組不同區(qū)域的轉(zhuǎn)錄本序列。寡核苷酸被固定在功能點(diǎn)(feature)(每個(gè)被設(shè)計(jì)含有一個(gè)探針的區(qū)域是一個(gè)功能點(diǎn))上,大小小于20、15、14、10、8、5、2、1或0.5微米。
除了完全匹配的探針外,寡核苷酸陣列也可以含有被設(shè)計(jì)為錯(cuò)配(MM)探針的寡核苷酸。每個(gè)錯(cuò)配探針與完全匹配探針有一個(gè)或多個(gè)堿基的不同。在優(yōu)選實(shí)施方案中,錯(cuò)配探針與完全匹配探針的不同是在中間的位置上。也可以包括其它的對(duì)照探針。
完全匹配的探針一般根據(jù)基因組序列和所需的探察分辨率來(lái)選擇。在優(yōu)選實(shí)施方案中,基因組的重復(fù)序列被過(guò)濾掉,不用做探察區(qū)域。但是,在某些實(shí)施方案中這些序列的探察是有用的。
轉(zhuǎn)錄活性分布圖可以在不同條件下獲得,例如在細(xì)胞分化/發(fā)育過(guò)程中、正常及患病情況下、不同的生理和病理?xiàng)l件下、各種化學(xué)物質(zhì)處理時(shí)??梢詫?duì)這些分布圖進(jìn)行比較,以揭示可能與發(fā)育、生理、病理或毒理?xiàng)l件相關(guān)的轉(zhuǎn)錄活性。
轉(zhuǎn)錄活性的分布圖可以被用于指導(dǎo)新的轉(zhuǎn)錄本的驗(yàn)證和分離(克隆)。這些分布圖也可以被用于破解調(diào)控機(jī)制。此外,確定轉(zhuǎn)錄活性的分布圖可以用于臨床診斷、毒性測(cè)試(例如用于候選的藥物)以及藥物開發(fā)。
附圖簡(jiǎn)述被整合在本說(shuō)明書中并成為其一部分的附圖,說(shuō)明了本發(fā)明的實(shí)施方案,并與說(shuō)明書一起用于解釋本發(fā)明的原理
圖1A-1D是22號(hào)染色體(22q11.2)的DGCR中的四個(gè)區(qū)域的高分辨率圖譜。在每個(gè)圖譜中顯示了被分析的11個(gè)細(xì)胞系中的6個(gè)根據(jù)DGCR陣列預(yù)測(cè)的重疊群(contigs)。在陣列圖下方是來(lái)自該區(qū)域的Sanger手繪圖譜或來(lái)自dbEST的EST圖譜的草圖。由陣列圖建議所選定的區(qū)域使用RT-PCR進(jìn)一步分析。從這些分析得到的測(cè)序產(chǎn)物被作圖在Sanger和EST圖譜的下方。(圖1A)DCGR6基因區(qū)(GP序列15,833,950-15,840,390);(圖1B)DGCR2區(qū)(GP序列15,959,850-16,057,850);(圖1C)SLC25A125和5’側(cè)翼區(qū)(GP序列16,098,590-16,107,090);(圖1D)DGCR5外顯子1區(qū)(GP序列15,898,300-15,905,040)。
圖2A-2B顯示了對(duì)于21號(hào)染色體(圖2A)和22號(hào)染色體(圖2B)來(lái)說(shuō)陽(yáng)性探針與外顯子密度圖的相關(guān)性(5%假陽(yáng)性率)。對(duì)每個(gè)圖來(lái)說(shuō),最下方的圖描繪了在57kb的區(qū)段(bin)中(21號(hào)染色體上基因的平均基因組大小)陽(yáng)性探針的密度。在該圖上方是存在于每個(gè)區(qū)段的外顯子中的核苷酸的密度。與每個(gè)染色體草圖重疊的圖是在一個(gè)5.7MB的窗口內(nèi)計(jì)算的外顯子密度和陽(yáng)性探針密度的局部相關(guān)系數(shù)。在5.7MB的窗口內(nèi)陽(yáng)性外顯子密度的百分?jǐn)?shù)低于25%的區(qū)域中的相關(guān)系數(shù)沒(méi)有計(jì)算。因此,對(duì)外顯子相對(duì)稀少的21號(hào)染色體靠近著絲粒的區(qū)域,由于在該染色體區(qū)域中相對(duì)缺少外顯子密度的變化,沒(méi)有分析與陽(yáng)性探針密度的相關(guān)性。在陽(yáng)性探針密度圖上方是被選擇進(jìn)行RT-PCR和Northern雜交驗(yàn)證的區(qū)域(向下的箭頭)。在圖2B中22號(hào)染色體的DGCR區(qū)域以框標(biāo)出。DGCR的高分辨率圖譜顯示在圖1A-1D中。
圖3A-3D顯示了從11個(gè)細(xì)胞系中的7個(gè)獲得的帶有polyA的細(xì)胞質(zhì)RNA的Northern雜交分析(1NIHOVCAR-3;2Jurkat;3HepG2;4FHs 738Lu;5COLO 205;6CCRF-CEM;7A-375;8用DNA酶I處理的A-375)。下列探針是放射性標(biāo)記的并與濾膜雜交(圖3A)從22號(hào)染色體DGCR-3-2區(qū)域衍生的一個(gè)cDNA(實(shí)施例表3),代表了DGCR序列的277304-277569堿基對(duì);以及跨過(guò)22號(hào)染色體DGCR-2-1(圖3B)、21號(hào)染色體8(圖3C)和22號(hào)染色體DGCR-1-2(圖3D)的整個(gè)被證實(shí)的區(qū)域的cDNA。膠片被曝光3個(gè)星期。
本發(fā)明的上述的和其它的目的、特征和優(yōu)點(diǎn)將從下面本發(fā)明的優(yōu)選實(shí)施方案的更具體的描述中變得明顯,正如在附圖中說(shuō)明的那樣,相同的標(biāo)號(hào)指不同視圖的相同部分。圖不需要標(biāo)尺,重點(diǎn)被放在闡明本發(fā)明的原理上。
發(fā)明詳述下面描述本發(fā)明的優(yōu)選實(shí)施方案。
本發(fā)明有許多優(yōu)選實(shí)施方案,并依賴于許多專利、專利申請(qǐng)和其它的參考文獻(xiàn),其細(xì)節(jié)為專業(yè)人員所了解。因此,當(dāng)一個(gè)專利、專利申請(qǐng)或其它的參考文獻(xiàn)被引用或在后面重復(fù)時(shí),應(yīng)該理解為,為了所有的目的及被引用的待證問(wèn)題的目的,以其全文引為參考。
I、總則在本申請(qǐng)中,除非在上下文中有清楚的說(shuō)明,單數(shù)形式的“一個(gè)”、“一種”和“該”包括了復(fù)數(shù)的情況。例如,術(shù)語(yǔ)“一種試劑”包括許多的試劑,包括其混合物。
個(gè)體不限于人,也可以是其它的生物體,包括但不限于哺乳動(dòng)物、植物、細(xì)菌或從任何上述來(lái)源獲得的細(xì)胞。
在本公開中,本發(fā)明的各個(gè)方面可以以范圍的形式出現(xiàn)。應(yīng)該理解以范圍的形式進(jìn)行描述只是為了方便和簡(jiǎn)短,而不是對(duì)本發(fā)明的范圍進(jìn)行死板的限制。因此,對(duì)范圍的描述應(yīng)該被當(dāng)作具體地包括該范圍內(nèi)所有可能的小范圍以及單個(gè)數(shù)值。例如,對(duì)范圍的描述例如從1到6應(yīng)該被認(rèn)為具體地包括了小范圍例如從1到3、從1到4、從1到5、從2到4、從2到6、從3到6等,以及該范圍內(nèi)的每個(gè)數(shù),例如1、2、3、4、5和6。不論范圍有多寬都是這樣。
除非指明,本發(fā)明的實(shí)施可以使用本領(lǐng)域技術(shù)人員公知的有機(jī)化學(xué)、聚合物技術(shù)、分子生物學(xué)(包括重組技術(shù))、細(xì)胞生物學(xué)、生物化學(xué)和免疫學(xué)的常規(guī)技術(shù)和描述。這樣的常規(guī)的技術(shù)包括聚合物陣列合成、雜交、連接和使用標(biāo)記物檢測(cè)雜交。適當(dāng)技術(shù)的具體說(shuō)明可以參考下面的實(shí)施例。但是,其它等同的常規(guī)步驟當(dāng)然也可以使用。這樣的常規(guī)技術(shù)和描述可以在標(biāo)準(zhǔn)的實(shí)驗(yàn)室手冊(cè)中發(fā)現(xiàn),例如《基因組分析實(shí)驗(yàn)室手冊(cè)叢書》(第1到4卷)、《使用抗體實(shí)驗(yàn)室手冊(cè)》、《細(xì)胞實(shí)驗(yàn)室手冊(cè)》、《PCR引物實(shí)驗(yàn)室手冊(cè)》和《分子克隆實(shí)驗(yàn)室手冊(cè)》(以上都是由冷泉港實(shí)驗(yàn)室出版社出版),Stryer,L.編寫的《生物化學(xué)》(第4版)(1995),F(xiàn)reeman出版社,紐約,Gait,《寡核苷酸合成實(shí)用方法》1984,IRL出版社,倫敦,Nelson和Cox(2000),Lehninger編寫的《生物化學(xué)原理》(第3版),W.H.Freeman出版社,紐約,和Berg等編寫的《生物化學(xué)》(第5版)(2002),W.H.Freeman出版社,紐約,所有這些出版物在此為所有的目的以其全文引為參考。
本發(fā)明可以使用固相基質(zhì),包括在某些優(yōu)選實(shí)施方案中使用陣列。可以應(yīng)用于聚合物(包括蛋白)陣列合成的方法和技術(shù)在U.S.S.N09/536,841、WO 00/58516、美國(guó)專利Nos.5,143,854、5,242,974、5,252,743、5,324,633、5,384,261、5,405,783、5,426,186、5,451,683、5,482,867、5,491,074、5,527,681、5,550,215、5,571,639、5,578,832、5,593,839、5,599,695、5,624,711、5,631,734、5,795,716、5,831,070、5,837,832、5,856,101、5,858,659、5,936,324、5,968,740、5,974,164、5,981,185、5,981,956、6,025,601、6,033,860、6,040,193、6,090,555、6,136,269、6,269,846和6,428,752,以及PCT申請(qǐng)Nos.PCT/US99/00730(國(guó)際公布號(hào)WO99/36760)和PCT/US01/04285中有描述,所有這些專利在此為所有的目的以其全文引為參考。
在具體的實(shí)施方案中描述了合成技術(shù)的專利包括美國(guó)專利Nos.5,412,087、6,147,205、6,262,216、6,310,189、5,889,165和5,959,098。核酸陣列在上述的許多專利中有描述,但是也描述了將同樣的技術(shù)應(yīng)用于多肽陣列。
在本發(fā)明中使用的核酸陣列包括可以從Affymetrix(Santa Clara,CA)以商標(biāo)名GeneChip購(gòu)買到的陣列。示例的陣列被顯示在affymetrix.com的網(wǎng)址上。本發(fā)明也考慮了附著在固相基質(zhì)上的聚合物的許多應(yīng)用。這些應(yīng)用包括基因表達(dá)監(jiān)測(cè)、成形、文庫(kù)篩選、基因分型和診斷?;虮磉_(dá)監(jiān)測(cè)和成形的方法顯示在美國(guó)專利Nos.5,800,992、6,013,449、6,020,135、6,033,860、6,040,138、6,177,248和6,309,822中?;蚍中图捌鋺?yīng)用顯示在USSN 60/319,253、10/013,598和美國(guó)專利Nos.5,856,092、6,300,063、5,858,659、6,284,460、6,361,947、6,368,799和6,333,179中。其它的應(yīng)用體現(xiàn)在美國(guó)專利Nos.5,871,928、5,902,723、6,045,996、5,541,061和6,197,506中。
本發(fā)明在某些優(yōu)選實(shí)施方案中還考慮到了樣品制備的方法。在基因分型之前或同時(shí),可以使用多種機(jī)制將基因組樣品進(jìn)行擴(kuò)增,其中有些可以使用PCR。參見例如《PCR技術(shù)DNA擴(kuò)增的原理及應(yīng)用》(H.A.Erlich編,F(xiàn)reeman出版社,NY,NY,1992);《PCR方案方法與應(yīng)用指南》(Innis等編,Academic出版社,San Diego,CA,1990);Mattila等,NucleicAcids Res.19,4967(1991);Eckert等,PCR Methods and Applications 1,17(1991);《PCR》(McPherson等編,IRL出版社,Oxford);以及美國(guó)專利Nos.4,683,202、4,683,195、4,800,159、4,965,188和5,333,675,在此為所有的目的以其全文分別引為參考。樣品可在陣列上擴(kuò)增。例如參見美國(guó)專利6,300,070和美國(guó)專利申請(qǐng)09/513,300,在此引作參考。
其它適用的擴(kuò)增方法包括連接酶鏈反應(yīng)(LCR)(例如Wu和Wallace,Genomics 4,560(1989),Landegren等,Science 241,1077(1988)和Barringer等,Gene 89117(1990))、轉(zhuǎn)錄擴(kuò)增(Kwoh等,Proc.Natl.Acad.Sci.USA 86,1173(1989)和WO88/10315)、自持續(xù)序列復(fù)制(Guatelli等,Proc.Natl.Acad.Sci.USA,87,1874(1990)和WO90/06995)、靶多核苷酸序列的選擇性擴(kuò)增(美國(guó)專利No 6,410,276)、共有序列引發(fā)的聚合酶鏈反應(yīng)(CP-PCR)(美國(guó)專利No 4,437,974)、任意引發(fā)的聚合酶鏈反應(yīng)(AP-PCR)(美國(guó)專利No5,413,909和5,861,245)和基于核酸的序列擴(kuò)增(NABSA)(參見美國(guó)專利Nos.5,409,818、5,554,517和6,063,603),分別在此引為參考。其它可以使用的擴(kuò)增方法在美國(guó)專利Nos.5,242,794、5,494,810、4,988,617和USSN09/854,317中有描述,分別在此引為參考。
其它樣品制備的方法和減少核酸樣品復(fù)雜性的技術(shù)在Dong等,Genome Research 11,1418(2001)、美國(guó)專利No 6,361,947、6,391,592和美國(guó)專利申請(qǐng)Nos.09/916,135、09/920,491、09/910,292和10/013,598中有描述,在此為所有的目的引為參考。
進(jìn)行多核苷酸雜交分析的方法在技術(shù)上已經(jīng)發(fā)展成熟。雜交分析的步驟和條件依賴于具體的應(yīng)用而變化,并根據(jù)已知的通用結(jié)合方法進(jìn)行選擇,這些方法包括在Maniatis等編《分子克隆實(shí)驗(yàn)室手冊(cè)》(第二版,冷泉港出版社,NY,1989)、Berger和Kimmel《酶學(xué)方法》第152卷、《分子克隆技術(shù)指南》(Academic出版社,San Diego,CA,1987)、Young和Davism,P.N.A.S,801194(1983)中所描述的。實(shí)施可重復(fù)的、可控制的雜交反應(yīng)的方法和裝置已經(jīng)在美國(guó)專利5,871,928、5,874,219、6,045,996和6,386,749、6,391,623中描述,分別在此引為參考。
在某些優(yōu)選實(shí)施方案中,本發(fā)明還考慮到了配體間雜交的信號(hào)檢測(cè)。參見美國(guó)專利Nos.5,143,854、5,578,832、5,631,734、5,834,758、5,936,324、5,981,956、6,025,601、6,141,096、6,185,030、6,201,639、6,218,803和6,225,625,以及美國(guó)專利申請(qǐng)60/364,731和PCT申請(qǐng)PCT/US99/06097(公布號(hào)為WO99/47964),所有這些專利分別在此為所有的目的以其全文引為參考。
信號(hào)檢測(cè)以及強(qiáng)度數(shù)據(jù)處理的方法和裝置公開在例如美國(guó)專利5,143,854、5,547,839、5,578,832、5,631,734、5,800,992、5,834,758、5,856,092、5,902,723、5,936,324、5,981,956、6,025,601、6,090,555、6,141,096、6,185,030、6,201,639、6,218,803和6,225,625,美國(guó)專利申請(qǐng)60/364,731以及PCT申請(qǐng)PCT/US99/06097(公布號(hào)為WO99/47964),分別在此為所有目的以其全文引作參考。
本發(fā)明的實(shí)施也可以使用常規(guī)的生物學(xué)方法、軟件和系統(tǒng)。本發(fā)明的計(jì)算機(jī)軟件產(chǎn)品一般包括含有計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),該指令用于執(zhí)行本發(fā)明的方法的邏輯步驟。合適的計(jì)算機(jī)可讀介質(zhì)包括軟盤、CD-ROM/DVD/DVD-ROM、硬盤驅(qū)動(dòng)器、閃存、ROM/RAM、磁帶等。計(jì)算機(jī)可執(zhí)行指令可以用適當(dāng)?shù)挠?jì)算機(jī)語(yǔ)言或幾種語(yǔ)言的組合來(lái)編寫。基本的計(jì)算生物學(xué)方法在例如Setubal和Meidanis等,《計(jì)算生物學(xué)方法入門》(PWS出版公司,Boston,1997)、Salzberg,Searles,Kasif編寫的《分子生物學(xué)計(jì)算方法》(Elsevier出版社,Amsterdam,1998)、Rashidi和Buehler編寫的《生物信息學(xué)基礎(chǔ)在生物科學(xué)和醫(yī)學(xué)中的應(yīng)用》(CRC出版社,倫敦,2000),以及Ouelette和Bzevanis編寫的《生物信息學(xué)基因和蛋白分析實(shí)用指南》(Wiley & Sons公司出版,第二版,2001)中有描述。
本發(fā)明也將多種計(jì)算機(jī)程序產(chǎn)品和軟件用于各種目的,例如探針設(shè)計(jì)、數(shù)據(jù)管理、分析和儀器操作。參見美國(guó)專利Nos.5,593,839、5,795,716、5,733,729、5,974,164、6,066,454、6,090,555、6,185,561、6,188,783、6,223,127、6,229,911和6,308,170,在此引為參考。
此外,本發(fā)明的某些優(yōu)選實(shí)施方案中包括了通過(guò)網(wǎng)絡(luò)例如Internet提供遺傳信息的方法,如在美國(guó)專利申請(qǐng)10/063,559、60/349,546、60/376,003、60/394,574、60/403,381中所顯示。
II、詞匯表當(dāng)用于本文中時(shí),下面的術(shù)語(yǔ)具有下面的通用含義。
在本發(fā)明中,核酸可以包括任何嘧啶和嘌呤堿基的聚合物或寡聚物,優(yōu)選分別為胞嘧啶(C)、胸腺嘧啶(T)、尿嘧啶(U)、腺嘌呤(A)和鳥嘌呤(G)。參見Albert L.Lehninger編寫的《生物化學(xué)原理》第793-800頁(yè)(Worth出版社,1982)。事實(shí)上,本發(fā)明考慮到了任何脫氧核糖核苷酸、核糖核苷酸或肽核酸成分,以及它們的任何化學(xué)變體,例如這些堿基的甲基化、脫氧甲基化或糖基化形式等。聚合物或寡聚物在組成上可以是非均質(zhì)的或均質(zhì)的,可以從天然存在的來(lái)源分離出來(lái),也可以是人工的或合成產(chǎn)生的。此外,核酸可以是脫氧核糖核酸(DNA)或核糖核酸(RNA)、或其混合物,可以永久地或暫時(shí)地以單鏈或雙鏈形式、包括同源雙鏈體、異源雙鏈體和雜交體狀態(tài)存在。
寡核苷酸或多核苷酸是一個(gè)其長(zhǎng)度至少為2、優(yōu)選至少為8、更優(yōu)選至少為20個(gè)核苷酸的核酸,或能夠與多核苷酸特異性雜交的化合物。本發(fā)明的多核苷酸包括脫氧核糖核酸(DNA)或核糖核酸(RNA)序列,它們可以從天然來(lái)源分離出來(lái)、重組產(chǎn)生或人工合成和模擬。本發(fā)明的多核苷酸的另一個(gè)例子可以是肽核酸(PNA),其中組成的堿基通過(guò)肽鍵而不是磷酸二酯鍵連接起來(lái),這在Nielsen等,Science 2541497-1500(1991)和Nielsen Curr.Opin.Biotechnol.,1071-75(1999)中有描述。本發(fā)明還包括這樣的情況,其中含有非常規(guī)的堿基配對(duì)例如Hoogsteen堿基配對(duì),這樣的配對(duì)方式已經(jīng)在某些tRNA中被鑒定到并推測(cè)在三螺旋中存在。在本申請(qǐng)中“多核苷酸”和“寡核苷酸”可以互換使用。
“陣列”是有意產(chǎn)生的分子的集合體,可以通過(guò)合成或生物合成而制備。陣列中的分子彼此可以相同也可以不同。陣列可以表現(xiàn)為多種形式,例如可溶性分子的文庫(kù)、束縛到樹脂珠、硅芯片或其它固相支持物上的化合物的文庫(kù)。
核酸文庫(kù)或陣列是有意產(chǎn)生的核酸的集合體,可以以多種不同的形式(例如可溶性分子的文庫(kù)、束縛到樹脂珠、硅芯片或其它固相支持物上的寡核苷酸的文庫(kù))通過(guò)合成或生物合成而制備。此外,術(shù)語(yǔ)“陣列”的意義還包括那些可以通過(guò)將基本上任何長(zhǎng)度的核酸(例如從1到大約1000核苷酸單體長(zhǎng))點(diǎn)在基質(zhì)上而制備的核酸的文庫(kù)。此處所用的術(shù)語(yǔ)“核酸”是指任何長(zhǎng)度的核苷酸的聚合形式,可以是核糖核苷酸、脫氧核糖核苷酸或肽核酸(PNAs),其中含有嘌呤和嘧啶堿基、或其它天然的、化學(xué)或生物化學(xué)修飾的、非天然的或衍生的核苷酸堿基(參見美國(guó)專利No.6,156,501,在此引為參考)。多核苷酸的骨架可以含有通常在RNA或DNA中發(fā)現(xiàn)的糖和磷酸基團(tuán),或修飾的或取代的糖或磷酸基團(tuán)。多核苷酸可以含有修飾的核苷酸,例如甲基化的核苷酸和核苷酸類似物。核苷酸的序列可以被非核苷酸類的成分打斷。因此術(shù)語(yǔ)核苷、核苷酸、脫氧核苷和脫氧核苷酸一般都包括類似物,例如在本文中描述的那些。這些類似物是與天然存在的核苷或核苷酸具有同樣的某些結(jié)構(gòu)特征的分子,以便當(dāng)摻入到核酸或寡核苷酸序列中時(shí),可以在溶液中與天然存在的核酸序列雜交。一般來(lái)說(shuō),這些類似物是從天然存在的核苷和核苷酸通過(guò)堿基、核糖或磷酸二酯基團(tuán)的取代和/或修飾而衍生得到的。這樣的變化可以被定制,以便穩(wěn)定或去穩(wěn)定雜交體的形成,或增強(qiáng)與所需的互補(bǔ)核酸序列雜交的特異性。
“固相支持物”、“支持物”和“基質(zhì)”可以互換使用,用來(lái)指一個(gè)或一組具有剛性或半剛性表面的材料。在許多實(shí)施方案中,固相支持物的至少一個(gè)表面應(yīng)該是基本上平的,盡管在某些實(shí)施方案中,可能希望能夠?qū)⒉煌衔锏暮铣蓞^(qū)域用例如孔、升高的區(qū)域、針、蝕刻的溝槽等在物理上分開。在其它的實(shí)施方案中,固相支持物將具有珠、樹脂、凝膠、微球的形式或其它的幾何構(gòu)型。
組合合成策略組合合成策略是一種通過(guò)順序地加入試劑平行地合成多種聚合物序列的有序的策略,所述試劑可以用一個(gè)反應(yīng)物矩陣和一個(gè)轉(zhuǎn)換矩陣來(lái)代表,其乘積是一個(gè)產(chǎn)物矩陣。反應(yīng)物矩陣是待加入的一個(gè)1列×m行的建筑模塊的矩陣。轉(zhuǎn)換矩陣是二元數(shù)字的全集或一個(gè)子集,優(yōu)選為成列有序排列的1和m之間的數(shù)字?!岸呗浴笔沁@樣一種策略,其中通過(guò)至少兩個(gè)連續(xù)的步驟來(lái)照亮基質(zhì)目的區(qū)域的一部分,通常是一半。在二元合成策略中,所有能夠從一組有序的反應(yīng)試劑可能形成的化合物都被形成了。在大多數(shù)優(yōu)選實(shí)施方案中,二元合成是指也把以前的添加步驟化為因數(shù)的合成策略。例如在一個(gè)策略中,一個(gè)用于遮擋策略的轉(zhuǎn)換矩陣將以前照亮的區(qū)域分為兩半,對(duì)以前照亮的區(qū)域的大約一半進(jìn)行照亮,對(duì)剩下的一半進(jìn)行保護(hù)(同時(shí)也對(duì)以前保護(hù)的區(qū)域的大約一半進(jìn)行保護(hù)并對(duì)以前保護(hù)的區(qū)域的大約一半進(jìn)行照亮)??梢砸庾R(shí)到,二元的循環(huán)中可以間插非二元的循環(huán),只有一部分的基質(zhì)可以進(jìn)行二元流程。組合的“遮擋”策略中的合成使用光或其它空間選擇性的去保護(hù)或活化試劑從物質(zhì)上除去保護(hù)基團(tuán),以便加上其它物質(zhì)例如氨基酸。參見例如美國(guó)專利No.5,143,854。
單體是指能夠連接在一起形成寡聚物或聚合物的分子組中的任何成員。用于本發(fā)明的單體組,以多肽的合成為例,包括但不限于L-氨基酸、D-氨基酸或合成的氨基酸的組。在此所用的“單體”是指用于合成寡聚物的基本組中的任何成員。例如,L-氨基酸的二聚體形成了一個(gè)用于合成多肽的400個(gè)“單體”的基本組。在合成聚合物的連續(xù)步驟中可以使用不同的單體基本組。術(shù)語(yǔ)“單體”也指化學(xué)物質(zhì)亞基,它能夠與不同的化學(xué)物質(zhì)亞基結(jié)合形成比任何一個(gè)單獨(dú)的亞基大的化合物。
生物聚合物是指生物或化學(xué)部分的重復(fù)單位。具有代表性的生物聚合物包括但不限于核酸、寡核苷酸、氨基酸、蛋白、肽、激素、寡糖、脂、糖脂、脂多糖、磷脂、上述物質(zhì)的合成類似物,包括但不限于倒轉(zhuǎn)的核苷酸、肽核酸、異DNA(Meta-DNA),及上述物質(zhì)的組合?!吧锞酆衔锖铣伞卑ㄉ锞酆衔锏暮铣缮a(chǎn),既包括有機(jī)的也包括無(wú)機(jī)的。
與生物聚合物相關(guān)的是“生物單體”,它是指生物聚合物的單個(gè)單位,或不是生物聚合物的一部分的單個(gè)單位。因此,例如,核苷酸是寡核苷酸生物聚合物中的一個(gè)生物單體,氨基酸是蛋白或肽生物聚合物中的一個(gè)生物單體;例如親和素、生物素、抗體、抗體片段等也是生物單體。起始的生物單體或“生物單體起始物”是指通過(guò)活性親核試劑共價(jià)連接到聚合物表面上的第一個(gè)生物單體,或連接到結(jié)合在聚合物上的連接物或間隔物臂上的第一個(gè)生物單體,連接物或間隔物臂通過(guò)活性親核試劑結(jié)合在聚合物上。
“互補(bǔ)”是指例如在一個(gè)雙鏈DNA分子的兩條鏈之間或一個(gè)寡核苷酸引物與被測(cè)序或擴(kuò)增的單鏈核酸上的引物結(jié)合位點(diǎn)之間核苷酸或核酸的雜交或堿基配對(duì)?;パa(bǔ)的核苷酸通常是A和T(或A和U)、或C和G。兩個(gè)單鏈的RNA或DNA分子,當(dāng)一條鏈上的核苷酸經(jīng)過(guò)最適的排列和比較,帶有適當(dāng)?shù)暮塑账岵迦牖騽h除后,與另一條鏈的至少大約80%、通常至少大約90%到95%、更優(yōu)選為從大約98%到100%的核苷酸配對(duì),就可以被說(shuō)成是互補(bǔ)的。此外,當(dāng)RNA或DNA鏈在選擇性雜交條件下能夠與其互補(bǔ)物雜交時(shí),互補(bǔ)性也存在。一般來(lái)說(shuō),選擇性雜交將發(fā)生在當(dāng)在一個(gè)至少14到25個(gè)核苷酸的范圍內(nèi)具有至少大約65%的互補(bǔ)性、優(yōu)選至少大約75%的互補(bǔ)性、更優(yōu)選至少大約90%互補(bǔ)性時(shí)。參見M.Kanehisa Nucleic Acids Res.12203(1984),在此引為參考。
術(shù)語(yǔ)“雜交”是指兩個(gè)單鏈多核苷酸非共價(jià)地結(jié)合形成一個(gè)穩(wěn)定的雙鏈多核苷酸的過(guò)程。術(shù)語(yǔ)“雜交”也可以指三鏈的雜交。得到的(通常的)雙鏈多核苷酸是一個(gè)“雜交體”。形成穩(wěn)定的雜交體的多核苷酸的數(shù)目的比例在此被稱為“雜交程度”。
雜交的條件一般包括低于大約1M、更經(jīng)常低于大約500mM和低于大約200mM的鹽濃度。雜交溫度可以低至5℃,但是一般高于22℃,更典型高于大約30℃,優(yōu)選超過(guò)大約37℃。雜交通常在嚴(yán)緊條件下進(jìn)行,即在探針將與其靶序列雜交的條件。嚴(yán)緊的條件是序列依賴性的,在不同情況下有所不同。較長(zhǎng)的片段對(duì)特異性雜交可能需要較高的雜交溫度。盡管其它的因素包括堿基的組成和互補(bǔ)鏈的長(zhǎng)度、有機(jī)溶劑的存在和堿基錯(cuò)配的程度可能影響雜交的嚴(yán)緊性,但參數(shù)的組合要比任何單獨(dú)一個(gè)的絕對(duì)度量更為重要。一般來(lái)說(shuō),嚴(yán)緊的條件被選擇為比在設(shè)定的離子強(qiáng)度和pH下具體序列的熱熔點(diǎn)溫度(Tm)低大約5℃。Tm是(在確定的離子強(qiáng)度、pH和核酸組成下)50%互補(bǔ)于靶序列的探針與靶序列的雜交處于平衡狀態(tài)的溫度。
一般來(lái)說(shuō),嚴(yán)緊的條件包括在pH7.0到8.3、溫度至少25℃下,鹽濃度為至少0.01M到不超過(guò)1M的Na離子濃度(或其它的鹽)。例如,5XSSPE(750mM NaCl,50mM磷酸鈉,5mM EDTA,pH7.4)和溫度為25-30℃的條件適合于等位基因特異性的探針雜交。對(duì)于嚴(yán)緊的條件,參見例如Sambrook,F(xiàn)ritsche和Maniatis編寫的《分子克隆實(shí)驗(yàn)室手冊(cè)》(第二版)(冷泉港實(shí)驗(yàn)室出版社,1989)和Anderson編寫的《核酸雜交》(第一版)(BIOS科學(xué)出版有限公司,1999),在此因?yàn)樯鲜龅乃心康囊云淙囊秊閰⒖肌?br>
雜交探針是能夠以堿基特異性的方式與核酸的互補(bǔ)鏈結(jié)合的核酸(例如寡核苷酸。這樣的探針包括肽核酸,這在Nielsen等,Science2541497-1500(1991)和Nielsen Curr.Opin.Biotechnol.,1071-75(1999)中有描述,以及其它的核酸類似物和核酸模擬物。參見美國(guó)專利No.6156501。
探針探針是一個(gè)能夠被特定的靶識(shí)別的分子。在某些實(shí)施方案中,探針可以被固定化在表面上。在本發(fā)明中研究的探針的例子包括但不限于細(xì)胞膜受體的興奮劑和拮抗劑、毒素和毒液、病毒的抗原決定簇、激素(例如阿片樣肽、類固醇等)、激素受體、肽、酶、酶的底物、輔助因子、藥物、凝集素、糖、寡核苷酸、核酸、寡糖、蛋白和單克隆抗體。
靶對(duì)給定的探針具有親和性的分子。靶可以是天然存在的或人造的分子。它們也可以以其不被改變的狀態(tài)或與其它物質(zhì)結(jié)合的方式被使用。靶可以共價(jià)地或非共價(jià)地、直接地或通過(guò)特定的結(jié)合物質(zhì)與一個(gè)結(jié)合元件結(jié)合??梢栽诒景l(fā)明中使用的靶的例子包括但不限于抗體、細(xì)胞膜受體、與特定的抗原決定簇(例如在病毒、細(xì)胞或其它物質(zhì)上)具有反應(yīng)性的單克隆抗體和抗血清、藥物、寡核苷酸、核酸、肽、輔助因子、凝集素、糖、多糖、細(xì)胞、細(xì)胞膜和細(xì)胞器。在本技術(shù)領(lǐng)域中靶有時(shí)是指抗探針。在本文中使用的術(shù)語(yǔ)“靶”在意義上沒(méi)有區(qū)別。當(dāng)兩個(gè)大分子通過(guò)分子識(shí)別結(jié)合起來(lái)形成一個(gè)復(fù)合物時(shí),就形成了“探針-靶對(duì)”。
配體配體是被特定的受體識(shí)別的分子。與受體結(jié)合或反應(yīng)的試劑被稱作“配體”,這個(gè)術(shù)語(yǔ)只有對(duì)其配對(duì)的受體而言才具有確定的意義。術(shù)語(yǔ)“配體”除了表明該物質(zhì)能夠結(jié)合受體或與受體相互作用之外,并不暗指任何具體的分子大小或其它結(jié)構(gòu)或組成特征。配體也可以用作能夠結(jié)合受體的天然配體、或能夠作為興奮劑或拮抗劑的功能類似物??梢栽诒景l(fā)明中使用的配體的例子包括但不限于細(xì)胞膜受體的興奮劑和拮抗劑、毒素和毒液、病毒的抗原決定簇、激素(例如阿片樣肽、類固醇等)、激素受體、肽、酶、酶的底物、底物類似物、過(guò)渡態(tài)類似物、輔助因子、藥物、蛋白和抗體。
受體與給定的配體具有親和性的分子。受體可以是天然存在的或人造的分子。它們也可以以其不被改變的狀態(tài)或與其它物質(zhì)結(jié)合的方式被使用。受體可以共價(jià)地或非共價(jià)地、直接地或通過(guò)特定的結(jié)合物質(zhì)與一個(gè)結(jié)合元件結(jié)合??梢栽诒景l(fā)明中使用的受體的例子包括但不限于抗體、細(xì)胞膜受體、與特定的抗原決定簇(例如在病毒、細(xì)胞或其它物質(zhì)上)具有反應(yīng)性的單克隆抗體和抗血清、藥物、多核苷酸、核酸、肽、輔助因子、凝集素、糖、多糖、細(xì)胞、細(xì)胞膜和細(xì)胞器。在本技術(shù)領(lǐng)域中靶有時(shí)是指抗配體。在本文中使用的術(shù)語(yǔ)“受體”在意義上沒(méi)有區(qū)別。當(dāng)兩個(gè)大分子通過(guò)分子識(shí)別結(jié)合起來(lái)形成一個(gè)復(fù)合物時(shí),就形成了“配體-受體對(duì)”。其它可以在本發(fā)明中使用的受體的例子包括但不限于在美國(guó)專利No.5,143,854中顯示的那些分子,在此以其全文引為參考。
“有效量”是指足夠誘導(dǎo)所需的結(jié)果的量。
本文中使用的mRNA或mRNA轉(zhuǎn)錄本包括但不限于mRNA轉(zhuǎn)錄本前體、轉(zhuǎn)錄加工中間體、用于翻譯的成熟的mRNA和基因的轉(zhuǎn)錄本、或從mRNA轉(zhuǎn)錄本衍生的核酸。轉(zhuǎn)錄加工可以包括剪接、編輯和降解。在此所用的從mRNA轉(zhuǎn)錄本衍生的核酸是指最終以mRNA轉(zhuǎn)錄本或其一段序列為模板合成的核酸。因此從mRNA反轉(zhuǎn)錄得到的cDNA、從cDNA轉(zhuǎn)錄的cRNA、從cDNA擴(kuò)增的DNA、從擴(kuò)增的DNA轉(zhuǎn)錄的RNA等,都是從mRNA轉(zhuǎn)錄本衍生而來(lái)的,對(duì)這些衍生產(chǎn)物的檢測(cè)能夠指示樣品中原始的轉(zhuǎn)錄本的存在和/或豐度。因此,從樣品衍生的mRNA包括但不限于基因的mRNA轉(zhuǎn)錄本、mRNA反轉(zhuǎn)錄得到的cDNA、從cDNA轉(zhuǎn)錄的cRNA、從基因擴(kuò)增的DNA、從擴(kuò)增的DNA轉(zhuǎn)錄的RNA等。
片段、區(qū)段或DNA區(qū)段是指一個(gè)大的DNA多核苷酸或DNA的一部分。例如,一個(gè)多核苷酸可以被打碎或分成多個(gè)區(qū)段。各種使核酸片段化的方法在本技術(shù)領(lǐng)域內(nèi)是廣為人知的。這些方法可以在本質(zhì)上是例如化學(xué)的或物理的?;瘜W(xué)片段化方法可以包括用DNase部分降解;用酸部分脫嘌呤;使用限制性內(nèi)切酶;內(nèi)含子編碼的內(nèi)切核酸酶;基于DNA的切割方法,例如三螺旋和雜交體形成的方法,這種方法依靠核酸區(qū)段的特異性雜交以將切割試劑定位到核酸分子中的特定位置;或其它能夠在已知或未知的位置切割DNA的酶或化合物。物理片段化方法可以包括將DNA處于高剪切速率下。高剪切速率的產(chǎn)生可以通過(guò)例如將DNA通過(guò)內(nèi)部凹凸不平的空腔或通道運(yùn)動(dòng),或迫使DNA樣品通過(guò)一個(gè)限制了孔徑的流動(dòng)通道,例如橫截面大小在微米或亞微米級(jí)的孔道。其它的物理方法包括超聲和霧化。將物理和化學(xué)片段化相結(jié)合的方法同樣可以使用,例如通過(guò)加熱和離子介導(dǎo)的水解進(jìn)行片段化。參見例如Sambrook等編寫的《分子克隆實(shí)驗(yàn)室手冊(cè)》(第三版,冷泉港實(shí)驗(yàn)室出版社,冷泉港,紐約,2001年),在此為所有目的引為參考。這些方法可以被最適化以便將核酸消化成選定的大小范圍的片段??梢允褂玫拇笮〉姆秶鸀閺?00、200、400、700或1000到500、800、1500、2000、4000或10000堿基對(duì)。但是較大的大小范圍例如4000、10000或20000到10000、20000或500000堿基對(duì)也可以使用。參見例如Dong等,Genome Research 11,1418(2001)和美國(guó)專利Nos.6,361,947和6,391,592,在此引為參考。
引物是在適當(dāng)?shù)臈l件例如緩沖液和溫度下、在存在四種不同的核苷三磷酸和聚合試劑例如DNA或RNA聚合酶或反轉(zhuǎn)錄酶的情況下,能夠作為模板指導(dǎo)的DNA合成的起始點(diǎn)的單鏈寡核苷酸。在任何給定的情況下,引物的長(zhǎng)度依賴于例如引物的使用目的,一般來(lái)說(shuō)范圍從15到30個(gè)核苷酸。短的引物分子一般需要較低的溫度才能與模板形成足夠穩(wěn)定的雜交復(fù)合物。引物不需要反映出模板的準(zhǔn)確序列,但是必須具有足夠的互補(bǔ)性以便與這樣的模板雜交。引物位點(diǎn)是模板上與引物雜交的區(qū)域。引物對(duì)是一組引物,包括一個(gè)5’端上游引物,它與被擴(kuò)增序列的5’末端雜交,以及一個(gè)3’端下游引物,它與被擴(kuò)增序列的3’末端的互補(bǔ)鏈雜交。
基因組是一個(gè)生物體中所有的遺傳物質(zhì)。在某些情況下,術(shù)語(yǔ)基因組可以是指染色體DNA?;蚪M可以是多染色體的,以至于DNA在細(xì)胞中分布在多個(gè)單獨(dú)的染色體上。例如在人類中有22對(duì)染色體加上與性相關(guān)的XX或XY染色體對(duì)。從一個(gè)特定生物體的染色體中的遺傳物質(zhì)衍生的DNA是基因組DNA。術(shù)語(yǔ)基因組也可以指來(lái)自不具有染色體結(jié)構(gòu)的生物體的遺傳物質(zhì)。此外,術(shù)語(yǔ)基因組可以指線粒體DNA?;蚪M文庫(kù)是代表了一個(gè)基因組的全部或部分的DNA片段的集合體。通常情況下,基因組文庫(kù)是從一組隨機(jī)產(chǎn)生的、有時(shí)重疊的、代表了一個(gè)生物體的全部基因組或基因組的一部分的DNA片段中制備的克隆所組成的集合體。
等位基因是指細(xì)胞或種群中一個(gè)遺傳序列(例如基因)的一種特定形式,這種特定的形式與同樣基因的其它形式在基因序列中至少一個(gè)、通常多于一個(gè)變異位點(diǎn)上的序列不同。這些在不同的等位基因間不同的變異位點(diǎn)的序列被稱為“變異”、“多態(tài)性”或“突變”。在每個(gè)常染色體特異性的染色體位置或“位點(diǎn)”上個(gè)體擁有兩個(gè)等位基因,一個(gè)從父親繼承一個(gè)從母親繼承。如果在一個(gè)位點(diǎn)上有兩個(gè)不同的等位基因,這個(gè)個(gè)體在該位點(diǎn)上是“雜合的”。如果在一個(gè)位點(diǎn)上有兩個(gè)相同的等位基因,這個(gè)個(gè)體在該位點(diǎn)上是“純合的”。
多態(tài)性是指在一個(gè)種群中存在兩個(gè)或多個(gè)遺傳決定的可以替代的序列或等位基因。多態(tài)性標(biāo)記或位點(diǎn)是出現(xiàn)差異的位點(diǎn)。優(yōu)選的標(biāo)記具有至少兩個(gè)等位基因,在選定的種群中每個(gè)等位基因都以大于1%、更優(yōu)選為大于10%或20%的頻率出現(xiàn)。多態(tài)性可以包括一個(gè)或多個(gè)堿基的變化、插入、重復(fù)或缺失。多態(tài)性位點(diǎn)可以小到1個(gè)堿基對(duì)。多態(tài)性標(biāo)記包括限制性片段長(zhǎng)度多態(tài)性、串聯(lián)重復(fù)序列數(shù)量變化(VNTR’s)、超變區(qū)、小衛(wèi)星、二核苷酸重復(fù)、三核苷酸重復(fù)、四核苷酸重復(fù)、簡(jiǎn)單序列重復(fù)和插入元件例如Alu。第一個(gè)鑒定的等位基因形式被武斷地指定為參比形式,其它的等位基因形式被指定為可替代的或變異的等位基因。在選定的種群中出現(xiàn)頻率最高的等位基因形式有時(shí)被稱為野生型。二倍體生物在等位基因的形式上可以是純合的或雜合的。雙等位基因的多態(tài)性具有兩種形式。三等位基因的多態(tài)性有三種形式。單核苷酸多態(tài)性(SNPs)也包括在多態(tài)性中。
單核苷酸多態(tài)性(SNPs)是在人群中兩種可以替代的堿基都以明顯的頻率(>1%)出現(xiàn)的位置,是人類遺傳變異最常見的類型。該位點(diǎn)的前后通常具有高度保守的等位基因序列(例如在種群中只有不到1/100或1/1000的成員中發(fā)生變化的序列)。單核苷酸多態(tài)性通常是由于在多態(tài)性位點(diǎn)上由一個(gè)核苷酸代替了另一個(gè)核苷酸而引起的。換同(transition)是指用一個(gè)嘌呤代替另一個(gè)嘌呤或用一個(gè)嘧啶代替另一個(gè)嘧啶。換異(transversion)是指用一個(gè)嘧啶代替一個(gè)嘌呤,或反之亦然。單核苷酸多態(tài)性也可以由相對(duì)參比等位基因而言缺失了一個(gè)核苷酸或插入了一個(gè)核苷酸而引起。
基因分型是指對(duì)一個(gè)個(gè)體在基因組的一個(gè)或多個(gè)位置上攜帶的遺傳信息進(jìn)行確定。例如,基因分型可以包括確定在單個(gè)SNP中個(gè)體攜帶了哪個(gè)或哪些等位基因、或確定在多個(gè)SNPs中個(gè)體攜帶了哪個(gè)或哪些等位基因?;蛐涂梢允谴嬖谟趥€(gè)體的一個(gè)或多個(gè)多態(tài)性位點(diǎn)上的等位基因的身份。
連鎖不平衡或等位聯(lián)合(allelic association)意味著一個(gè)特定的等位基因或遺傳標(biāo)記與染色體上鄰近位置的一個(gè)特定的等位基因或遺傳標(biāo)記傾向性聯(lián)合的頻率,比預(yù)計(jì)的種群中任何特定的等位基因隨機(jī)的頻率要高。例如,如果位點(diǎn)X具有等位基因a和b,它們出現(xiàn)的頻率相同,連鎖的位點(diǎn)Y具有等位基因c和d,它們出現(xiàn)的頻率也相同,那么人們將預(yù)期ac組合出現(xiàn)的頻率是0.25。如果ac出現(xiàn)得更頻繁,那么等位基因a和c處于連鎖不平衡。連鎖不平衡可以是由于某些等位基因組合的自然選擇,也可以是因?yàn)橐粋€(gè)等位基因被引入種群中的時(shí)間太短,還沒(méi)有與連鎖的等位基因達(dá)到平衡。連鎖不平衡中的標(biāo)記在檢測(cè)對(duì)疾病(或其它表型)的易感性方面特別有用,盡管標(biāo)記本身不引起疾病。例如,一個(gè)標(biāo)記(X)本身不是一個(gè)致病因素,但是它與一個(gè)能夠引起某種表型的基因(Y)(包括調(diào)控序列)處于連鎖不平衡中,因此在基因Y還沒(méi)有被鑒定或不容易被檢測(cè)的情況下,可以檢測(cè)標(biāo)記X來(lái)指示對(duì)疾病的易感性。
III、確定轉(zhuǎn)錄活性的方法在一方面,本發(fā)明提供了使用寡核苷酸探針探察基因組的轉(zhuǎn)錄活性的方法。如同在實(shí)施例中顯示的,本發(fā)明的方法在揭示基因組的轉(zhuǎn)錄活性和提供關(guān)于基因組功能的有價(jià)值的信息方面是有力的工具。本方法在生物學(xué)、醫(yī)學(xué)、環(huán)境科學(xué)、工業(yè)生物技術(shù)、制藥工業(yè)和許多其它領(lǐng)域中有許多實(shí)際的應(yīng)用。
本發(fā)明的示例性的方法已經(jīng)被成功地應(yīng)用于揭示人類的21號(hào)和22號(hào)染色體的隱藏的轉(zhuǎn)錄活性(Kapranov,P.等,人類21號(hào)和22號(hào)染色體的大規(guī)模轉(zhuǎn)錄活性,Science,296916-919(2002),在此引為參考)。許多被揭示的轉(zhuǎn)錄本已經(jīng)被幾種不同的技術(shù)所證實(shí),包括常規(guī)的Northern印跡和RT-PCR。
在結(jié)合了對(duì)cDNA序列與染色體序列進(jìn)行比對(duì)和解釋基因組序列以預(yù)測(cè)編碼區(qū)的基礎(chǔ)上,人類基因組的轉(zhuǎn)錄活性區(qū)已經(jīng)被作圖(http//www.ncbi.nlm.nih.gov/LocusLink/;Rubin,G.M.等,Science 287,2012(2000);Caron,H.等,Science 291,1289(2001);Wright,F(xiàn).A.等,GenomeBiology 2,1(2001))。與其它方法相比,在該應(yīng)用中的方法提供了幾個(gè)優(yōu)點(diǎn),包括鑒定了通過(guò)以前的實(shí)驗(yàn)或序列分析沒(méi)有觀察到的新的轉(zhuǎn)錄區(qū)域,檢測(cè)到了沒(méi)有或幾乎沒(méi)有編碼能力的RNA轉(zhuǎn)錄本,以及/或鑒定了以前注釋的基因的可替代的RNA同工型。
在某些實(shí)施方案中,探察轉(zhuǎn)錄活性的方法包括以下的步驟從1個(gè)、2個(gè)或更多個(gè)細(xì)胞區(qū)室(例如細(xì)胞核、細(xì)胞質(zhì)等)中獲得含有polyA的RNA(或總的RNA)樣品;將含有polyA的RNA或從RNA衍生的核酸與一個(gè)寡核苷酸探針陣列雜交,其中的寡核苷酸探針陣列含有至少10000、50000、100000、500000或1000000個(gè)完全匹配的(PM)探針,每個(gè)完全匹配的探針靶向來(lái)自一個(gè)基因組區(qū)域的不同的轉(zhuǎn)錄本序列;以及如果針對(duì)某個(gè)基因組序列的探針與靶雜交了就可以確定該基因組序列被轉(zhuǎn)錄了。
在這種方法中,RNA樣品的制備是首先通過(guò)將細(xì)胞核與胞質(zhì)的細(xì)胞區(qū)室分離開來(lái),然后將RNA轉(zhuǎn)錄本分成總的RNA或含有polyA的RNA的部分。分離細(xì)胞核與胞質(zhì)的細(xì)胞區(qū)室以及分離RNAs和含有polyA的RNAs的方法在本技術(shù)領(lǐng)域內(nèi)是眾所周知的,示例性的方法在后面的實(shí)施例中有描述。
通過(guò)將注意力集中在特異性轉(zhuǎn)運(yùn)到細(xì)胞質(zhì)中并富集了大多數(shù)成熟的和加工形式的RNA的亞群,本方法允許對(duì)稀少的和有潛在興趣的RNA轉(zhuǎn)錄本進(jìn)行檢測(cè)和鑒定,由于稀釋效應(yīng)它們以前還沒(méi)有在這個(gè)RNA庫(kù)中被觀察到。但是,本發(fā)明的方法不限于用于帶有polyA的細(xì)胞質(zhì)RNAs。例如,在一個(gè)實(shí)施例中,使用高密度寡核苷酸探針陣列探察了從細(xì)胞核分離的含有polyA的RNAs。從細(xì)胞核獲得的轉(zhuǎn)錄本分布圖與從細(xì)胞質(zhì)RNA獲得的分布圖進(jìn)行比較,顯示了有趣的區(qū)別,可能與某些生物功能相關(guān)(數(shù)據(jù)未顯示)。
盡管將含有polyA的RNA與高密度寡核苷酸探針陣列直接進(jìn)行雜交是可能的,但通常情況下優(yōu)選使用衍生的核酸代替。衍生的核酸是使用樣品RNAs作為模板獲得的。衍生的核酸可以是DNAs(例如cDNAs)或RNAs(例如cRNAs)或它們的類似物或模擬物。許多方法可以被用來(lái)制造衍生的核酸,包括使用隨機(jī)引物進(jìn)行cDNA合成(參見示例性方案中的例子)。cRNAs可以使用cDNA作為模板通過(guò)一個(gè)體外轉(zhuǎn)錄反應(yīng)制備。核酸擴(kuò)增例如PCR、LCR、鏈置換擴(kuò)增、體外轉(zhuǎn)錄等可以被用來(lái)例如增加檢測(cè)的靈敏度。
重要的是注意到在制造衍生核酸的過(guò)程中,可能發(fā)生向5’或3’末端序列的某些傾向性,這依賴于用于制造衍生核酸的方法。在某些實(shí)施方案中,優(yōu)選使用無(wú)傾向性的或傾向性少的方法。在其它的實(shí)施方案中,可以將傾向于5’末端的方法和傾向于3’末端的方法結(jié)合使用以探察轉(zhuǎn)錄本的5’和3’末端。
一般來(lái)說(shuō),為了便于檢測(cè)將核酸進(jìn)行標(biāo)記。核酸標(biāo)記技術(shù)在本領(lǐng)域內(nèi)是眾所周知的,并在許多在此引為參考的專利/專利申請(qǐng)中有描述。在下面的實(shí)施例部分描述了一種優(yōu)選的標(biāo)記方法。本領(lǐng)域的專業(yè)技術(shù)人員將會(huì)認(rèn)識(shí)到本發(fā)明的方法的許多實(shí)施方案不依賴于具體的標(biāo)記方法。事實(shí)上,本方法也可以以不利用標(biāo)記的核酸檢測(cè)技術(shù)使用。
盡管本發(fā)明的方法可以被用于探察任何大小的基因組區(qū)域的轉(zhuǎn)錄活性,但本方法對(duì)于探察較大的基因組區(qū)域特別有用,例如至少20MB、50MB及更大的區(qū)域,或一個(gè)染色體中25%、50%或100%的DNA序列。在某些實(shí)施方案中,使用了一套1、2、5、10、50或100個(gè)探針陣列探察了一個(gè)完整的基因組的DNA序列。
探針可以以至少100、30、10或1堿基對(duì)的分辨率靶向基因組的轉(zhuǎn)錄本序列。
一般來(lái)說(shuō),每個(gè)寡核苷酸探針陣列含有至少10萬(wàn)、50萬(wàn)或80萬(wàn)個(gè)寡核苷酸探針,每個(gè)都靶向基因組不同區(qū)域的轉(zhuǎn)錄本序列。寡核苷酸探針可以是15、20、25、30、35、40、45、50、55或60個(gè)堿基長(zhǎng)。它們可以使用例如光指導(dǎo)的合成方法被合成在基質(zhì)上。此外,它們也可以被預(yù)先合成然后點(diǎn)在基質(zhì)上形成微陣列。但是,在優(yōu)選實(shí)施方案中,寡核苷酸是25聚體并使用光指導(dǎo)的合成方法合成。寡核苷酸被固定在功能點(diǎn)(feature)(每個(gè)被設(shè)計(jì)含有一個(gè)探針的區(qū)域是一個(gè)功能點(diǎn))上,大小小于20、15、14、10、8、5、2或1微米。
除了完全匹配的探針外,寡核苷酸陣列也可以含有一個(gè)或多個(gè)被設(shè)計(jì)為錯(cuò)配(MM)探針的寡核苷酸。每個(gè)錯(cuò)配探針與完全匹配探針有一個(gè)堿基的不同。在優(yōu)選實(shí)施方案中,錯(cuò)配探針與完全匹配探針的不同是在中間的位置上。也可以包括其它的對(duì)照探針。
完全匹配的探針一般根據(jù)基因組序列和所需的探察分辨率來(lái)選擇。在優(yōu)選實(shí)施方案中,基因組的重復(fù)序列被過(guò)濾掉而不用做探察區(qū)域。
在另一方面,本發(fā)明提供了確定探針對(duì)是否檢測(cè)了RNA靶的方法。在某些實(shí)施方案中,使用了PM與MM測(cè)量值的比率(R)和PM-MM值之差(D)的閾值范圍來(lái)作出陽(yáng)性檢測(cè)。一個(gè)具有扣除背景后的完全匹配強(qiáng)度PM和錯(cuò)配強(qiáng)度MM的探針對(duì),如果PM/MM的比率超過(guò)了某個(gè)比率的閾值R并且PM-MM的差超過(guò)差閾值D,就被稱為是陽(yáng)性的,否則被稱為陰性的。對(duì)閾值的改變導(dǎo)致不同水平的靈敏度和特異性。轉(zhuǎn)錄圖譜的產(chǎn)生可以使用R的范圍在1.1到1.5,D的范圍在4Q到12Q,其中的Q為功能點(diǎn)內(nèi)點(diǎn)陣(pixel)的變量,屬于芯片探針強(qiáng)度的第二個(gè)百分率數(shù)值,是對(duì)噪音變量的估計(jì)。
在某些實(shí)施方案中,特別是在高分辨率檢測(cè)例如1bp分辨率的情況下,希望通過(guò)詢問(wèn)鄰近的探針是否也具有超過(guò)R和D閾值的數(shù)值來(lái)增加每個(gè)探針對(duì)訪問(wèn)的可信度。通過(guò)設(shè)置鄰近探針的最小數(shù)量(minrun)和鄰近的探針之間的最大間隙(maxgap),具有相鄰的RNA運(yùn)行(重疊群)的圖譜可以建立??紤]到探針在漸進(jìn)的兩步過(guò)程中的局部行為可以對(duì)圖譜進(jìn)行改進(jìn)。例如,在第一次操作中,在陽(yáng)性探針對(duì)之間運(yùn)行的陰性探針對(duì),如果在運(yùn)行長(zhǎng)度上至多達(dá)到最大間隙堿基長(zhǎng)度,就可以被重新分類為陽(yáng)性的。在第二次操作中,陽(yáng)性探針對(duì)運(yùn)行的長(zhǎng)度少于最小數(shù)量堿基就可以被重新分類為陰性的。這個(gè)步驟的效果是減少假陰性和假陽(yáng)性的比例。示例性的最大間隙和最小數(shù)量的值可以分別為5和20。
計(jì)算機(jī)軟件和計(jì)算機(jī)系統(tǒng)被用于進(jìn)行數(shù)據(jù)分析。計(jì)算機(jī)軟件可以包括執(zhí)行數(shù)據(jù)分析方法(例如確定探針對(duì)是否檢測(cè)到了RNA)的計(jì)算機(jī)軟件編碼。計(jì)算機(jī)程序編碼一般儲(chǔ)存在適當(dāng)?shù)挠?jì)算機(jī)可讀介質(zhì)中,例如硬盤驅(qū)動(dòng)器、CD-Rom、DVD-Rom等。用于數(shù)據(jù)分析的計(jì)算機(jī)系統(tǒng)是用于執(zhí)行本發(fā)明的數(shù)據(jù)分析的計(jì)算機(jī)系統(tǒng)(包括計(jì)算機(jī)網(wǎng)絡(luò))。
在本發(fā)明的另一方面, 摻入的RNA轉(zhuǎn)錄本可以用作對(duì)照。例如,在分析人類轉(zhuǎn)錄本時(shí),含有特定序列缺失的細(xì)菌RNA轉(zhuǎn)錄本可以被放在每個(gè)含有polyA的RNA樣品中。細(xì)菌的轉(zhuǎn)錄本可以被用來(lái)估計(jì)靈敏度和假陽(yáng)性的比率(參見下面的實(shí)施例)。
轉(zhuǎn)錄活性的分布圖可以在不同條件下獲得,例如在正常及患病情況下、不同的生理和病理?xiàng)l件下、各種化學(xué)物質(zhì)處理時(shí)??梢詫?duì)這些分布圖進(jìn)行比較,以揭示可能與生理、病理或毒理?xiàng)l件相關(guān)的轉(zhuǎn)錄活性(參見例如美國(guó)專利NO.6,033,860)。
在本發(fā)明的一個(gè)方面,轉(zhuǎn)錄活性的分布圖可以被儲(chǔ)存在計(jì)算機(jī)數(shù)據(jù)庫(kù)中(例如一個(gè)相關(guān)的數(shù)據(jù)庫(kù))。分布圖可以以各種方式被搜索、概括和分析。
轉(zhuǎn)錄活性的分布圖可以被用于指導(dǎo)新的轉(zhuǎn)錄本的驗(yàn)證和分離(克隆)。例如,如果檢測(cè)到基因組的一個(gè)區(qū)域被轉(zhuǎn)錄了,可以設(shè)計(jì)引物進(jìn)行RT-PCR來(lái)證實(shí)和分離轉(zhuǎn)錄的序列(參見實(shí)施例部分中的例子)。分離的cDNA可以用于研究其功能。
在本發(fā)明的另一個(gè)方面,使用本發(fā)明的方法制作的轉(zhuǎn)錄活性的分布圖可用于臨床診斷。在這些應(yīng)用中,從一個(gè)病人樣品獲得的轉(zhuǎn)錄活性的分布圖可以與一個(gè)或多個(gè)參比的分布圖(患病的或正常的)進(jìn)行比較,以檢測(cè)與參比分布圖在轉(zhuǎn)錄活性形式上的相同性。參比的分布圖可以通過(guò)使用本發(fā)明的方法探察患病的或正常組織的轉(zhuǎn)錄活性來(lái)獲得。
轉(zhuǎn)錄活性分布圖作圖也可以用于體外毒性試驗(yàn)。在這樣的應(yīng)用中,使用一種化學(xué)化合物處理細(xì)胞培養(yǎng)物。細(xì)胞的轉(zhuǎn)錄活性可以被探察。轉(zhuǎn)錄活性的分布圖可以與參比分布圖進(jìn)行比較以檢測(cè)該化合物是否具有毒性。參比的分布圖可以通過(guò)測(cè)試已知有毒和無(wú)毒的化合物獲得有毒的和無(wú)毒的轉(zhuǎn)錄活性分布圖而產(chǎn)生。
同樣地,轉(zhuǎn)錄活性分布圖作圖可以用于試驗(yàn)侯選藥物。在這樣的應(yīng)用中,可以在細(xì)胞培養(yǎng)中測(cè)試侯選藥物以確定它是否誘導(dǎo)了預(yù)期的轉(zhuǎn)錄活性。
在本發(fā)明的另一個(gè)方面,使用本發(fā)明方法發(fā)現(xiàn)的轉(zhuǎn)錄活性可以被用來(lái)設(shè)計(jì)用于基因表達(dá)監(jiān)測(cè)的微陣列。例如,轉(zhuǎn)錄圖譜可以被用于鑒定新的轉(zhuǎn)錄本??梢栽O(shè)計(jì)靶向新的轉(zhuǎn)錄本的探針,并將其固定在基質(zhì)上形成一個(gè)能夠用于監(jiān)測(cè)該新的轉(zhuǎn)錄本的表達(dá)的微陣列。
本發(fā)明的探察陣列也可以用于大規(guī)模(例如基因組規(guī)模)檢測(cè)DNA蛋白結(jié)合位點(diǎn)、復(fù)制原點(diǎn)和其它的基因組活動(dòng)。將利用陣列探察基因組獲得的信息組合起來(lái),對(duì)于理解基因組的生物功能是一個(gè)有力的工具。
IV、實(shí)施例——21和22號(hào)染色體中的人類基因組大規(guī)模轉(zhuǎn)錄活性下面的實(shí)施例說(shuō)明了本發(fā)明的各個(gè)方面。
為了證明本發(fā)明方法的威力,本方法被用來(lái)在核苷酸水平上開發(fā)了人類基因組轉(zhuǎn)錄活性區(qū)域的經(jīng)驗(yàn)圖譜,并將該圖譜與從其它方法獲得的序列解釋建立了關(guān)聯(lián)。
寡核苷酸探針陣列產(chǎn)生了能夠以系統(tǒng)的方式探察人類21和22號(hào)染色體序列的帶有寡核苷酸探針的陣列,使用了均勻間隔的探針,可以探察每個(gè)堿基或平均每30個(gè)堿基對(duì)(bp)。這種方法的優(yōu)點(diǎn)有幾個(gè),包括鑒定了通過(guò)以前的實(shí)驗(yàn)或序列分析沒(méi)有觀察到的新的轉(zhuǎn)錄區(qū)域,檢測(cè)到了沒(méi)有或幾乎沒(méi)有編碼能力的RNA轉(zhuǎn)錄本,以及鑒定了以前注釋的基因的可替代的RNA同工型。
樣品制備這個(gè)鑒定21和22號(hào)染色體的轉(zhuǎn)錄活性區(qū)域的實(shí)驗(yàn)努力的一個(gè)重要方面是制備將要被作圖的靶細(xì)胞RNA轉(zhuǎn)錄本。RNA樣品的制備是首先通過(guò)將細(xì)胞核與胞質(zhì)的細(xì)胞區(qū)室分離開來(lái),然后將RNA轉(zhuǎn)錄本分成總的RNA或含有polyA的RNA的部分。在搜索21和22號(hào)染色體的轉(zhuǎn)錄活性區(qū)域時(shí)樣品的制備方法執(zhí)行了一種無(wú)傾向性的策略,允許將分析集中在被特異性轉(zhuǎn)運(yùn)到細(xì)胞質(zhì)中并富集了大多數(shù)成熟的和加工形式的RNA的亞群上。這樣,就允許對(duì)稀少的和有潛在興趣的RNA轉(zhuǎn)錄本進(jìn)行檢測(cè)和鑒定,由于稀釋效應(yīng)它們以前還沒(méi)有在這個(gè)RNA庫(kù)中被觀察到。
實(shí)驗(yàn)設(shè)計(jì)和誤差估計(jì)總共使用了11個(gè)來(lái)自各種發(fā)育來(lái)源的不同的細(xì)胞系來(lái)獲得RNAsA-375(黑素瘤,ATCC No CRL-1619);CCRF-CEM(急性成淋巴細(xì)胞白血?。籘成淋巴細(xì)胞);COLO 205(結(jié)腸直腸腺癌,ATCC No CCL-222);FHs738Lu(正常胎兒肺成纖維細(xì)胞,ATCC No HTB-157);HepG2(肝胚細(xì)胞瘤,ATCC No HB-8065);Jurkat(急性T細(xì)胞白血病);NCCIT(畸胎癌,ATCC NoCRL-2073);NIHOVCAR-3(卵巢腺癌,ATCC No HTB-161);PC3(前列腺癌,ATCC No CRL-1435);SK-N-AS(成神經(jīng)細(xì)胞瘤,ATCC No CRL-2137);U-87 MG(星形細(xì)胞瘤,ATCC No HTB-14)。Jurkat和CCRF-CEM從Jacques Corbeil博士處獲得(加州大學(xué)San Diego分校愛(ài)滋病研究中心和退伍軍人醫(yī)學(xué)研究基金會(huì))。每個(gè)細(xì)胞系的制備都將細(xì)胞核和細(xì)胞質(zhì)區(qū)室分離,并在每個(gè)細(xì)胞系中存在的RNAs被分級(jí)以獲得含有polyA的亞級(jí)分??偟募?xì)胞質(zhì)RNA及其含有polyA的級(jí)分通過(guò)使用RNeasy和Oligotex試劑盒(Qiagen)按照制造商的說(shuō)明進(jìn)行制備。將mRNA與隨機(jī)的六聚體(83.3ng/μg mRNA;Life Technologies)和細(xì)菌的對(duì)照轉(zhuǎn)錄本(參見下面)混合,在PE GeneAmp9600 PCR系統(tǒng)中按照下面的循環(huán)條件進(jìn)行擴(kuò)增70℃10分鐘,在用10分鐘降低到25℃,然后加入5x Superscript II第一條鏈緩沖液(Life Technologies)、DTT和四種dNTPs到終濃度分別為1x、10mM和0.5mM,然后在25℃保溫10分鐘。此時(shí)加入Superscript II RTase(200單位/μg mRNA;Life Technologies),然后用10分鐘將溫度升高到42℃,在42℃保溫60分鐘。
第一條鏈cDNA合成反應(yīng)的體積是20μl/3μl mRNA。在70℃ 15分鐘使反轉(zhuǎn)錄酶失活后,將第一條鏈cDNA分成20μl的等份,用做模板合成第二條鏈cDNA,使用SuperScript選擇系統(tǒng)cDNA合成手冊(cè)(LifeTechnologies)中描述的條件進(jìn)行。在第二條鏈合成反應(yīng)后,利用RNAseA/T1雞尾酒(Ambion)和RNAseH(Life Technologies)組合將mRNA模板降解。每個(gè)細(xì)胞系的第二鏈合成反應(yīng)液被合并,使用QIAquick PCR純化試劑盒(Qiagen)純化,乙醇沉淀,加入限量的DNAse I(Epicenter Technologies)消化產(chǎn)生50-100bp的片段。cDNA的標(biāo)記在70μl的體系中進(jìn)行,使用100個(gè)單位的末端轉(zhuǎn)移酶(Roche)和71.4μM生物素-N6-ddATP,37℃ 2小時(shí),然后直接用于雜交,雜交在下面的混合液中進(jìn)行30mM MES(Sigma M-2933),74mM MES·Na(Sigma M-3058),3M四甲基氯化銨(Sigma T-3411),0.1mg/ml鯡魚精子DNA(Life Technologies),0.02%Triton X-100,1X真核生物雜交對(duì)照物(Affymetrix),0.05nM對(duì)照的生物素化的寡聚體948或213(Affymetrix)。一般來(lái)說(shuō),每個(gè)雜交使用1-2μg雙鏈的標(biāo)記的cDNA。
雜交和檢測(cè)用于探察轉(zhuǎn)錄活性的寡核苷酸探針陣列(芯片)在45℃雜交16-18小時(shí)。使用如Affymetrix表達(dá)分析技術(shù)手冊(cè)中所述的抗體擴(kuò)增方案進(jìn)行清洗。芯片在GeneArray掃描儀上掃描,使用最高的PMT設(shè)置和2μm的點(diǎn)陣。每個(gè)樣品雜交三份。
因?yàn)閺脑搧喖?jí)分的RNA拷貝而來(lái)的cDNAs是標(biāo)記的并用做陣列的靶,在這個(gè)步驟中應(yīng)該小心以避免可能的DNA污染。來(lái)自NCCIT和COLO205細(xì)胞系的細(xì)胞質(zhì)含有polyA的RNA用無(wú)RNase的DNAse I(2單位/μgmRNA,Roche)在存在10mM Tris-乙酸(pH7.5)、10mM乙酸鎂、50mM乙酸鉀、1單位/μl ANTI-RNAse(Ambion)的情況下,于37℃處理1小時(shí)。作為DNAse I消化的對(duì)照,在反應(yīng)液中加入對(duì)照DNAs(1ng/μg mRNA),它們對(duì)應(yīng)于含有三個(gè)細(xì)菌的每個(gè)對(duì)照當(dāng)中的片段LYS 328-1344、PHE2016-3331、THR 247-2231的質(zhì)粒(參見下面對(duì)這些對(duì)照基因的完整的描述)。在DNAse I消化后,mRNA通過(guò)苯酚/氯仿抽提和乙醇沉淀進(jìn)行純化,用于cDNA的合成和與上述的21-22號(hào)染色體和DGCR陣列雜交。在已知的外顯子內(nèi)和解釋的區(qū)域外雜交的探針的數(shù)目被計(jì)算出來(lái),發(fā)現(xiàn)與相應(yīng)的未處理的樣品的數(shù)目相比沒(méi)有顯著的不同(數(shù)據(jù)未顯示)。作為另一個(gè)基因組DNA污染的對(duì)照,總的細(xì)胞質(zhì)RNA及其含有polyA的級(jí)分在RT-PCR反應(yīng)前預(yù)先用無(wú)DNAse的RNAse(Roche)處理。
此外,使用了可以購(gòu)買到的高密度寡核苷酸陣列(例如GeneChipHG_U-95探針陣列)對(duì)存在于細(xì)胞核和細(xì)胞質(zhì)中的RNAs的分離進(jìn)行了評(píng)估。來(lái)自每個(gè)細(xì)胞系的細(xì)胞質(zhì)或細(xì)胞核級(jí)分的總RNA如上所述使用隨機(jī)引物被轉(zhuǎn)化成單鏈cDNA,用DNAse I片段化,并用末端轉(zhuǎn)移酶進(jìn)行末端標(biāo)記,但是不進(jìn)行第二鏈cDNA的合成。將該cDNA與GeneChipHG_U-95A陣列雜交,實(shí)驗(yàn)進(jìn)行雙份。使用探針組38446_at對(duì)人類Xist基因的表達(dá)進(jìn)行監(jiān)測(cè),發(fā)現(xiàn)它是核特異性的,并且只存在于雌性來(lái)源的細(xì)胞系中。此外,許多含有LINE、HERV和其它類型的重復(fù)序列以及獨(dú)特區(qū)域的未知功能的cDNA在細(xì)胞核中經(jīng)常能夠被檢測(cè)到,但是在各個(gè)細(xì)胞系的細(xì)胞質(zhì)級(jí)分中不能檢測(cè)到。
存在于GeneChipHG_U-95A陣列(Affymetrix)上的被選擇用于探察X染色體失活基因(Xist)的寡核苷酸探針組被用來(lái)測(cè)試細(xì)胞核/細(xì)胞質(zhì)分離技術(shù)的質(zhì)量。對(duì)從Jurkat、CCRF-CEM、SK-N-AS、A375、HepG2、NCCIT和FHs 738Lu細(xì)胞系獲得的細(xì)胞核和細(xì)胞質(zhì)RNA級(jí)分的分析表明,Xist基因的表達(dá)只在雌性來(lái)源的CCRF-CEM、SK-N-AS和A375細(xì)胞系的細(xì)胞核RNA級(jí)分中才被檢測(cè)到。該基因的表達(dá)在雄性來(lái)源的細(xì)胞系的細(xì)胞核級(jí)分和任何細(xì)胞系獲得的細(xì)胞質(zhì)RNAs中都不能檢測(cè)到(數(shù)據(jù)未顯示)。此外,細(xì)胞核和細(xì)胞質(zhì)RNA區(qū)室的分離允許對(duì)低拷貝數(shù)RNAs進(jìn)行富集。
在伴隨細(xì)胞核和細(xì)胞質(zhì)的分級(jí)而富集了RNA后,能夠觀察到對(duì)總基因的表達(dá)的檢測(cè)增加了大約10-20%。
從11個(gè)細(xì)胞系的細(xì)胞質(zhì)含有polyA的RNA級(jí)分中制備的標(biāo)記cDNAs被雜交到高密度的寡核苷酸(25聚體)陣列上,單個(gè)的合成功能點(diǎn)為14×14微米。這些陣列含有大約800000個(gè)探察探針。使用這種探針密度利用了兩個(gè)陣列設(shè)計(jì)。第一個(gè)陣列設(shè)計(jì)對(duì)每個(gè)堿基使用了一個(gè)完全互補(bǔ)(PM)和錯(cuò)配(MM)互補(bǔ)的寡核苷酸探針組來(lái)探察22號(hào)染色體的362,901個(gè)連續(xù)的的核苷酸。這種單堿基探察設(shè)計(jì)(DGCR陣列)被用來(lái)對(duì)定位在22號(hào)染色體上(22q11.2)的DiGeorge氏綜合癥關(guān)鍵區(qū)域(DGCR)的RNA轉(zhuǎn)錄進(jìn)行作圖(Driscoll,D.A.等,Am.J.Hum.Genet.50,924(1992);Greenberg,F(xiàn).等,Am.J.Hum.Genet.43,605(1988);Cary,A.H.等,Am.J.Hum.Genet.51,964(1992))。第二個(gè)陣列設(shè)計(jì)使用了在三個(gè)陣列組上合成的1,011,768個(gè)探針對(duì)探察了21和22號(hào)染色體(21_22號(hào)染色體陣列)的三千五百萬(wàn)個(gè)非重復(fù)性的堿基對(duì)。寡核苷酸探針序列的選擇使用了Affmetrix開發(fā)的基于經(jīng)驗(yàn)的規(guī)則,并根據(jù)Unigene 95數(shù)據(jù)庫(kù)以及21和22號(hào)染色體的序列進(jìn)行修剪,去掉潛在的完全或部分的同源物。21_22號(hào)染色體陣列上的每個(gè)探針對(duì)探察平均30個(gè)堿基的非重復(fù)基因組序列。這些染色體的重復(fù)序列區(qū)使用RepeatMasker軟件進(jìn)行了鑒定(http//www.genome.washington.edu/UWGC/analysistools/repeatmask.htm)。數(shù)據(jù)分析確定一個(gè)探針對(duì)是否檢測(cè)到了一個(gè)RNA靶,是通過(guò)使用PM與MM測(cè)量值的比率(R)和PM-MM值的差(D)的閾值范圍來(lái)作出的。一個(gè)具有扣除背景后的完全匹配強(qiáng)度PM和錯(cuò)配強(qiáng)度MM的探針對(duì),如果PM/MM的比率超過(guò)了某個(gè)比率的閾值R并且PM-MM的差超過(guò)差閾值D,就被稱為是陽(yáng)性的,否則被稱為陰性的。對(duì)閾值的改變導(dǎo)致不同水平的靈敏度和特異性。圖譜的產(chǎn)生使用R的范圍在1.1到1.5,D的范圍在4Q到12Q,其中的Q為功能點(diǎn)內(nèi)點(diǎn)陣的變量,屬于芯片探針強(qiáng)度的第二個(gè)百分率數(shù)值,是對(duì)噪音變化的估計(jì)。由于用在DGCR陣列設(shè)計(jì)中的探察探針有重疊,因此對(duì)每個(gè)探針對(duì)通過(guò)詢問(wèn)鄰近的探針是否也具有超過(guò)R和D閾值的數(shù)值,有可能增加每個(gè)探針對(duì)訪問(wèn)的可信度。通過(guò)設(shè)置鄰近探針的最小數(shù)量(minrun)和鄰近探針之間的最大間隙(maxgap),具有相鄰的RNA運(yùn)行(重疊群)的圖譜可以建立??紤]到探針在漸進(jìn)的兩步過(guò)程中的行為可以對(duì)圖譜進(jìn)行改進(jìn)。在第一次操作中,在陽(yáng)性探針對(duì)之間運(yùn)行的陰性探針對(duì),如果在運(yùn)行長(zhǎng)度上至多達(dá)到最大間隙堿基長(zhǎng)度,就可以被重新分類為陽(yáng)性的。在第二次操作中,陽(yáng)性探針對(duì)運(yùn)行的長(zhǎng)度少于最小數(shù)量堿基就可以被重新分類為陰性的。這個(gè)步驟的效果是減少假陰性和假陽(yáng)性的比例。所用的最大間隙和最小數(shù)量的值分別為5和20。
由于在設(shè)計(jì)中所用的探針之間的距離,沒(méi)有建立21_22染色體陣列數(shù)據(jù)的重疊群。通過(guò)在任何細(xì)胞系實(shí)驗(yàn)中固定R和D閾值,有可能計(jì)算出假陽(yáng)性、特異性和靈敏度比率。含有特定的序列缺失的細(xì)菌RNA轉(zhuǎn)錄本被放置在每個(gè)含有polyA的RNA樣品中??莶菅挎邨U菌(Bacillus subtilis)的基因/操縱子被用來(lái)估計(jì)FP比率lys(LYS,1612bp,Acc.No.X17013);spo0B,obg,pheB,pheA(PHE,3360bp,Acc.No.M24537),thrC,thrB(THR,2400bp,Acc.No.X04603);jojC-birA(DAP,6540bp,Acc.No.L38424);trp操縱子(TRP,2525bp,Acc.No.K01391bp.1883-4404)。這些位點(diǎn)的完整序列被鋪在DGCR芯片上。對(duì)于21_22號(hào)染色體陣列,使用與其余的基因組序列相同的探針選擇規(guī)則從所用的每個(gè)基因/位點(diǎn)的下列區(qū)域中大約每30bp挑選一個(gè)探針LYS 328-1344;PHE 2016-3331;THR 247-2231;DAP1357-3196;TRP 1-2517。相應(yīng)于5個(gè)位點(diǎn)中每個(gè)的一種較小片段的多聚腺苷化轉(zhuǎn)錄本被產(chǎn)生用于評(píng)估陣列的靈敏度,而在摻入?yún)^(qū)域之外的細(xì)菌區(qū)域被用來(lái)確定FP比率。對(duì)應(yīng)于摻入的轉(zhuǎn)錄本的每個(gè)基因/位點(diǎn)的區(qū)域是LYS 817-1344;PHE 2852-3331;THR 1221-2231;DAP 1357-2493;TRP 1-1261。對(duì)照的細(xì)菌轉(zhuǎn)錄本在cDNA合成步驟之前以下列濃度(拷貝/細(xì)胞)被摻入到人類含polyA的制備物中LYS和PHE為3;THR和DAP為10;TRP為30,其中假設(shè)在人類細(xì)胞中有300000個(gè)不同的mRNA種類,并且一個(gè)轉(zhuǎn)錄本的平均大小為1300nt。
對(duì)這些陣列實(shí)驗(yàn)的假陰性(FN)比率的估計(jì)使用了該摻入的細(xì)菌RNA對(duì)照轉(zhuǎn)錄本和被確定為存在于從每個(gè)細(xì)胞系中提取的含有polyA的RNA樣品中的外顯子序列,通過(guò)反轉(zhuǎn)錄酶介導(dǎo)的PCR(RT-PCR)擴(kuò)增分析來(lái)進(jìn)行。在提取的含有polyA的RNA中檢測(cè)到了總共52/99的外顯子區(qū)域。從這些實(shí)驗(yàn),對(duì)于每個(gè)細(xì)胞系,對(duì)于一組固定的R和D值20,也可能確定假陽(yáng)性(FP)、靈敏度(Sn)和特異性(Sp)值。
某些靶假陽(yáng)性比率的圖的產(chǎn)生是通過(guò)固定最大間隙、最小數(shù)量和D值,然后在1.1到1.5的范圍內(nèi)調(diào)整R直到在細(xì)菌對(duì)照中達(dá)到了該靶假陽(yáng)性比率。如果在特定的R范圍內(nèi)不能達(dá)到靶比率,使用最接近達(dá)到的值。
對(duì)于探察22號(hào)染色體DGCR中的每個(gè)堿基的陣列來(lái)說(shuō),表1A說(shuō)明了在5%FP比率時(shí),細(xì)菌對(duì)照序列的Sn在47-65%的范圍內(nèi),人類外顯子RNA序列的Sn在15-26%的范圍內(nèi)。表1B為固定R和D值的21_22號(hào)染色體陣列實(shí)驗(yàn)提供了同樣的數(shù)據(jù)。這些數(shù)據(jù)突出了一點(diǎn),使用細(xì)菌對(duì)照序列作為對(duì)照評(píng)估Sn和Sp值可能獲得比使用人類外顯子序列作為對(duì)照更高的靈敏度。細(xì)菌和人類的Sn值的差別可以歸因于存在于細(xì)菌和人類靶之間濃度的差別,歸因于根據(jù)它們與在人類細(xì)胞中發(fā)現(xiàn)的競(jìng)爭(zhēng)性RNA的相互作用而推出的兩種類型的對(duì)照(人類和細(xì)菌的)在核苷酸組成和序列上的差別。
表1、靈敏度和特異性估算A.DGCR(22q 11.2)1細(xì)胞系 BacSp22BacSn3HumSn4pct.Pos5pct.PosUnq6A-3750.8570.4870.16721.72 14.561CCRF-0.8170.6130.22120.642 11.077CEMCOLO 205 0.8200.6520.18518.772 8.279FHs 738Lu0.7750.4730.26122.872 14.499HepG20.7950.5550.24023.203 15.82Jurkat 0.7830.5420.15320.064 9.876NCCIT0.8040.5450.16221.664 9.584NIH0.7850.5040.24320.721 10.908OVCAR-3PC3 0.7920.5590.16117.35 6.765SK-N-AS 0.8730.2590.10916.708 9.676U-87MG 0.8220.6410.18718.76 7.3351除了A-375(FP=3%)和SK-N-AS(FP=1.4%)之外,估算都是在FP比率大約5%時(shí)作出的,R值范圍從1.17到1.47(17,18)。2細(xì)菌的特異性。3細(xì)菌的靈敏度。4人類的靈敏度。5在全部360kb的DGCR中陽(yáng)性探針的百分率。6在360kb的DGCR的非重復(fù)性序列中陽(yáng)性探針的百分率。對(duì)于細(xì)菌對(duì)照FP比率被計(jì)算為在樣品中不存在細(xì)菌對(duì)照區(qū)域中稱作陽(yáng)性的探針的比例;BacSp2是從公式TP/(TP+FP)計(jì)算出來(lái)的,其中TP是在細(xì)菌對(duì)照的存在區(qū)域中陽(yáng)性探針的數(shù)量,F(xiàn)P是在細(xì)菌對(duì)照缺失的區(qū)域中陽(yáng)性探針的數(shù)量,以及BacSn從TP/(TP+FN)計(jì)算出來(lái),其中FN是在細(xì)菌對(duì)照的存在區(qū)域中陰性探針的數(shù)量。對(duì)于人類的DGCR區(qū)域HumSN是在相應(yīng)于已知的基因(DGCR6、DGCR2外顯子6-10、DGS-I、DGS-H、DGS-A、SLC25A1外顯子1-4和網(wǎng)格蛋白)和一個(gè)有效的位點(diǎn)RP8的52個(gè)外顯子或外顯子部分中稱作陽(yáng)性的探針的部分,這些基因和位點(diǎn)已經(jīng)通過(guò)RT-PCR被顯示存在于人類細(xì)胞系中。用于計(jì)算HumSn比率的區(qū)域的準(zhǔn)確座標(biāo)和描述可以在http;//www.netaffx.com/transcriptome上發(fā)現(xiàn)。
B.21-22號(hào)染色體1細(xì)胞系 BacSp2BacSnBacFp pct.Pospct.PosExnA-375 0.94 10.711 0.046 0.062 0.272CCRF-0.88 0.8610.121 0.115 0.44CEMCOLO 2050.858 0.8640.148 0.121 0.445FHs 738Lu 0.874 0.7350.117 0.094 0.341HepG2 0.886 0.8590.114 0.099 0.386Jurkat 0.926 0.7420.061 0.073 0.335NCCIT 0.904 0.7870.088 0.086 0.341NIH0.86 0.8170.139 0.107 0.433OVCAR-3PC3 0.853 0.8290.151 0.145 0.447SK-N-AS 0.949 0.6460.036 0.059 0.234U-87MG 0.839 0.8540.170.127 0.441對(duì)于所有的細(xì)胞系閾值被固定為R=1.3和D=12Q(17)。BacFP比率變量,參見表1A的注腳。
DGCR的高分辨圖譜正如預(yù)料的那樣,為21和22號(hào)染色體產(chǎn)生的圖譜是高度片段化的,其原因包括對(duì)于雜交使用了單獨(dú)一套熱力學(xué)條件,探針對(duì)的特異性雜交性質(zhì),間隔相對(duì)稀疏的探針對(duì)與部分互補(bǔ)序列的交叉雜交,以及為預(yù)測(cè)兩個(gè)相鄰陽(yáng)性探針之間的結(jié)構(gòu)關(guān)系而對(duì)開發(fā)算法的需要。減少圖譜片段化本質(zhì)的一個(gè)方法是增加探察探針的密度。DGCR(22q11.2)的轉(zhuǎn)錄活性區(qū)的圖譜是使用362,901個(gè)間隔為一個(gè)堿基對(duì)的寡核苷酸探針作出的。使用該陣列對(duì)重復(fù)性(42%)和非重復(fù)性(58%)的序列都進(jìn)行了探察。該區(qū)域的一部分的第一個(gè)轉(zhuǎn)錄圖譜是由Gong等構(gòu)建的(Gong,W.等,Human MolGenet 5,789(1996);Gong,W.等,Human Mol Genet 6,267(1997))。13個(gè)表征明確的基因(99個(gè)外顯子)和2個(gè)假基因已標(biāo)示在DGCR圖譜中。一個(gè)描述了被注釋的外顯子序列和基于陣列檢測(cè)到的轉(zhuǎn)錄活性區(qū)的位置的高分辨率圖譜已被開發(fā),來(lái)自該區(qū)域的4個(gè)被標(biāo)注的基因描繪在圖1A-1D中。重疊的探針對(duì)的應(yīng)用允許在該區(qū)域內(nèi)構(gòu)建重疊群,并有助于圖譜中碎片的去除。這個(gè)圖譜重疊群的形成,允許我們將11個(gè)細(xì)胞系中每種的FP比率的估算降低到大約3-5%,同時(shí)基于人類的對(duì)照序列的靈敏度范圍為15-25%(表1A)。與使用21和22號(hào)染色體的圖譜觀察到的相同,大部分檢測(cè)的轉(zhuǎn)錄本(59.4%-65.9%)的位置遠(yuǎn)離被注釋的外顯子和EST序列(表2B)。
表2被轉(zhuǎn)錄的基因組的比例A.21和22號(hào)染色體1
1(1,011,768個(gè)探針,26,516個(gè)查詢外顯子被標(biāo)注在已知的mRNAs例如RefSeqs、Sanger手繪mRNA和GenBank mRNAs中,ESTs不被包括作為基因組已表達(dá)的一部分。
B.DGCR(22q11.2)1.
1.該值是在213,009個(gè)探察非重復(fù)性堿基的探針的基礎(chǔ)上計(jì)算出來(lái)的,其中61,842個(gè)探針定位于被注釋的DGCR的表達(dá)區(qū)中;2.每一個(gè)單獨(dú)細(xì)胞系的靶FP比率。3.參考表2A中提到的數(shù)據(jù)庫(kù)以及對(duì)該區(qū)所有的ESTs圖譜。
通過(guò)結(jié)合使用更高分辨率的分析陣列,以及選擇從細(xì)胞核中特異性轉(zhuǎn)運(yùn)的最成熟的RNA轉(zhuǎn)錄本的亞級(jí)分,也可以獲得有關(guān)轉(zhuǎn)錄體被注釋部分的其他信息。例如,DiGeorge關(guān)鍵區(qū)基因6(DGCR6)是DGCR中的第一個(gè)基因(Demczuk,S.等,Human Mol Genet 5,633(1996))。利用DGCR陣列,這個(gè)被注釋區(qū)的轉(zhuǎn)錄活性的分析提供了關(guān)于該基因的外顯子和內(nèi)含子結(jié)構(gòu)的新的信息。圖1A顯示了當(dāng)前被注釋的DGCR6的結(jié)構(gòu),是用Sanger-手繪(hand curated)數(shù)據(jù)庫(kù)創(chuàng)建的(http//www.sanger.ac.uk/HGP/Chr22)。使用5%FP誤差估算由DGCR陣列產(chǎn)生的圖譜表明外顯子1和5也許比原先提到的要長(zhǎng),在內(nèi)含子3中有轉(zhuǎn)錄活性的證據(jù)。RT-PCR分析和后來(lái)對(duì)PCR產(chǎn)物的克隆/測(cè)序證實(shí)了陣列數(shù)據(jù),并且導(dǎo)致鑒定了DGCR6外顯子1和5的經(jīng)典的和可替代的兩種形式,以及內(nèi)含子3中的轉(zhuǎn)錄活性。有趣的是,Edelmann等最近的研究支持了這些數(shù)據(jù),即外顯子1長(zhǎng)度的延長(zhǎng)和未除去內(nèi)含子3的DGCR6的可替代的剪接形式(26.Edelmann,L.等,Genome Research 11,208(2001))。
對(duì)于22號(hào)染色體DGCR的三個(gè)其它區(qū)域的注釋也可以作出同樣的改變(圖1B-1D)。有十個(gè)外顯子的DGCR2基因(圖1B)在內(nèi)含子3(DGSyndD)和5(DGSyndE)中含有兩個(gè)非編碼基因(22)。RT-PCR分析和隨后的內(nèi)含子5中轉(zhuǎn)錄本的測(cè)序表明DGSyndE的延長(zhǎng)形式和該基因的5’轉(zhuǎn)錄本。另外限制性的RT-PCR分析為在DGCR2位點(diǎn)存在其它的轉(zhuǎn)錄本提供了確定的證據(jù)(圖1B)。同樣地,在DGCR5的內(nèi)含子1(圖1D)和高表達(dá)的SCL25A基因的5’區(qū)中也觀察到并證實(shí)存在新的轉(zhuǎn)錄本。對(duì)于在DGCR中觀察到的對(duì)陣列檢測(cè)的轉(zhuǎn)錄本的其它支持證據(jù)來(lái)自該區(qū)的ESTs圖譜。因此,這些圖譜不僅可用于估計(jì)已被轉(zhuǎn)錄的人類基因組的全部級(jí)分,而且可以指導(dǎo)進(jìn)一步的生物化學(xué)和分子工作以分離新的轉(zhuǎn)錄本。DGCR的完整序列以及21和22號(hào)染色體的非重復(fù)序列的高分辨率圖譜也可以獲得。
21和22號(hào)染色體的轉(zhuǎn)錄活性位點(diǎn)21和22號(hào)染色體分別有至少225個(gè)和545個(gè)表征明確和預(yù)測(cè)的基因。這些基因中大約有127和247個(gè)是充分表征的“已知基因”(Dunham,I等,Nature 402,489(1999);Hattori,M.等,Nature 405,311(2000))。這些表征明確的基因在21和22號(hào)染色體上分別有近1430和3134個(gè)外顯子(在Refseq、cmma和Sanger序列中最好的基因組比對(duì)已用于產(chǎn)生一個(gè)外顯子組集合的列表)。圖2A-2B提供了在21和22號(hào)染色體上以前識(shí)別的和用陣列預(yù)測(cè)的轉(zhuǎn)錄活性的概況。通過(guò)將21和22號(hào)染色體上的非重復(fù)性基因組序列(~35Mb)分成57Kb的增量(21號(hào)染色體上每個(gè)基因的平均長(zhǎng)度)(Hattori,M.等,Nature 405,311(2000)),在兩個(gè)染色體上總共產(chǎn)生了620個(gè)基因大小的位點(diǎn)。假如每個(gè)探察探針對(duì)之間的平均距離為30bp,每個(gè)位點(diǎn)的陽(yáng)性探針和外顯子的密度(它是這樣計(jì)算的,陽(yáng)性探針的分?jǐn)?shù)為在11個(gè)細(xì)胞系的至少8個(gè)中使用R=1.5和D=12Q所確定的陽(yáng)性探針對(duì)數(shù)量除以在21和22號(hào)染色體的非重疊的57Kb窗口中探察探針對(duì)的數(shù)量。)可以作圖并進(jìn)行比較。外顯子和陽(yáng)性探針密度之間的相關(guān)性,在兩個(gè)染色體序列的大多數(shù)的長(zhǎng)度中被證明是是非隨機(jī)的關(guān)系。在用來(lái)探察兩個(gè)染色體的大約35,000,000個(gè)非重復(fù)bp的1,011,768個(gè)探針對(duì)中,26,516個(gè)(2.6%)探針對(duì)被定位在4,564個(gè)表征明確的基因的標(biāo)注外顯子中。在11個(gè)細(xì)胞系的至少1個(gè)或5個(gè)中,分別總共有69.8%和40.7%的這些注釋所關(guān)注的探針檢測(cè)到了RNA轉(zhuǎn)錄本(表2A)。被檢測(cè)到的總的陽(yáng)性探針的百分率在11個(gè)細(xì)胞系的1或5個(gè)中分別是1,011,768個(gè)探針的34.8%和9.6%。這表明在11個(gè)細(xì)胞系的1或5個(gè)中分別有94%和88%的檢測(cè)轉(zhuǎn)錄本的探針被定位在標(biāo)注外顯子以外。這些陽(yáng)性探針中大約有50%的位置距離最近的標(biāo)注外顯子大于300bp。這反映在陽(yáng)性探針和外顯子密度之間緊密的相關(guān)性上。
作圖結(jié)果的證實(shí)在探針對(duì)水平上檢測(cè)一個(gè)互補(bǔ)RNA靶的誤差是使用摻入的和內(nèi)源的RNA對(duì)照序列通過(guò)測(cè)量FP和FN的比率來(lái)估算的。對(duì)用DGCR和21_22陣列檢測(cè)的RNAs的結(jié)構(gòu)的確定包括應(yīng)用三種不同的實(shí)驗(yàn)方法。在21和22號(hào)染色體上遠(yuǎn)離被標(biāo)注的外顯子的14個(gè)分散的基因大小的位置中,選擇了14個(gè)單獨(dú)的用陣列預(yù)測(cè)的轉(zhuǎn)錄位點(diǎn)作為獨(dú)立的證實(shí)和分析的位點(diǎn)(表3)。使用從陣列檢測(cè)到的陽(yáng)性探針區(qū)的序列衍生的引物,以細(xì)胞質(zhì)中含有polyA的RNA作為模板,進(jìn)行了反轉(zhuǎn)錄酶介導(dǎo)的PCR反應(yīng)(RT-PCR)(PT-PCR的過(guò)程使用C.therm.聚合酶一步RT-PCR系統(tǒng)來(lái)進(jìn)行(Roche)。RT-PCR方法參考制造商的說(shuō)明,使用10-50ng來(lái)自每個(gè)具體的細(xì)胞系的細(xì)胞質(zhì)含有polyA的RNA。為了看到產(chǎn)物至少需要40個(gè)循環(huán)的擴(kuò)增。PCR產(chǎn)物被克隆在pCR4-TOPO載體上(Invitrogen)并對(duì)產(chǎn)物的序列進(jìn)行測(cè)定)。從12個(gè)這樣的位點(diǎn)獲得的大小范圍大約為178至1036bp的預(yù)測(cè)的PCR產(chǎn)物被克隆和測(cè)序。這些PCR產(chǎn)物中有5個(gè)的核苷酸序列是染色體21或22所獨(dú)有的。剩余被分析的區(qū)域在其它染色體上具有同源的拷貝。從每一個(gè)同源位點(diǎn)轉(zhuǎn)錄的RNA產(chǎn)物與源于被分析的染色體的轉(zhuǎn)錄本是可以區(qū)別開的。在所有的情況中,至少一部分被檢測(cè)到的RNA轉(zhuǎn)錄本源自于染色體21或22的同源物,并且與已公布的人類基因組序列相關(guān)。對(duì)陣列預(yù)測(cè)的結(jié)果的其它置信度是通過(guò)由HepG2和NIHOVCAR-3細(xì)胞系的細(xì)胞質(zhì)RNA產(chǎn)生的cDNA文庫(kù)對(duì)12個(gè)位置中的9個(gè)產(chǎn)生預(yù)定長(zhǎng)度和序列的PCR產(chǎn)物而獲得的。在從cDNA文庫(kù)獲得PCR產(chǎn)物的9個(gè)位點(diǎn)中,部分的或全長(zhǎng)的克隆被分離和測(cè)序。最后,用來(lái)自11個(gè)細(xì)胞系中的7個(gè)的含有polyA的RNA作為靶進(jìn)行Northern雜交試驗(yàn)(A-375,CCRF-CEM,COLO205,F(xiàn)Hs738Lu,HepG2,Jurkat,NIHOVCAR-3)(Northern印跡試驗(yàn)使用標(biāo)準(zhǔn)技術(shù)進(jìn)行(Sambrook J.,F(xiàn)ritsch E.F,和Maniatis,T.,《分子克隆實(shí)驗(yàn)室手冊(cè)》第二版,冷泉港實(shí)驗(yàn)室出版社,冷泉港,NY)。從每個(gè)具體的細(xì)胞系獲得的3-5μg細(xì)胞質(zhì)含有polyA的RNA被上膠。DNA探針使用隨機(jī)的六聚體標(biāo)記試劑盒(Roche)用[α-32P]-dCTP(Amersham)標(biāo)記。濾膜在pH7.2的0.5M磷酸鈉緩沖液、1%牛血清白蛋白、7%SDS中于65℃雜交過(guò)夜。雜交后,濾膜于65℃在2XSSC、0.1%SDS,1XSSC、0.1%SDS和0.3XSSC、0.1%SDS中連續(xù)洗滌,每次洗15分鐘并暴露于X-光膠片3個(gè)星期。每一個(gè)被克隆和測(cè)序的RT-PCR產(chǎn)物被標(biāo)記,并作為探針用于這些雜交試驗(yàn)。在被試驗(yàn)的7個(gè)細(xì)胞系的至少1個(gè)中,位于21和22號(hào)染色體上的12個(gè)位點(diǎn)中的4個(gè)含有可以被鑒定的全長(zhǎng)轉(zhuǎn)錄本(圖3A-3D)。其中有一個(gè)位點(diǎn)(Chr21-9)與大小范圍為1-10Kb的異源轉(zhuǎn)錄本雜交(數(shù)據(jù)未顯示)。使用Northern雜交分析,分析了DGCR2區(qū)的另外4個(gè)位點(diǎn)。雜交結(jié)果指出了額外的兩個(gè)異源的轉(zhuǎn)錄子組。因此,通過(guò)Northern雜交分析,16個(gè)位點(diǎn)中的7個(gè)產(chǎn)生了可檢測(cè)的轉(zhuǎn)錄本,幾個(gè)位點(diǎn)以多個(gè)大小相同或不同的轉(zhuǎn)錄本為特征,其大小范圍從0.6到10kb。
總之,對(duì)細(xì)胞質(zhì)中含有polyA的RNA樣品和cDNA文庫(kù)的RT-PCR和序列分析表明,12/14由陣列實(shí)驗(yàn)預(yù)測(cè)是新的轉(zhuǎn)錄本的位點(diǎn)被轉(zhuǎn)錄了。此外,使用Northern雜交實(shí)驗(yàn)直接檢測(cè)和確定這些RNAs的全長(zhǎng)大小的實(shí)驗(yàn)揭示了它們通常是成熟的、已被加工的RNAs。有趣地是,某些Northern雜交產(chǎn)物表明從RT-PCR擴(kuò)增子收集得到的序列接近全長(zhǎng)或其大部分的大小。對(duì)這些擴(kuò)增子產(chǎn)物的序列分析表明在這些被鑒定部分的新的轉(zhuǎn)錄本中幾乎不存在編碼能力。最后,基于濾膜的雜交實(shí)驗(yàn)表明被觀測(cè)到的新的RNAs以非常低的拷貝數(shù)存在于在每一個(gè)細(xì)胞中,這為為什么以前沒(méi)有觀測(cè)到這些轉(zhuǎn)錄本提供了一些解釋。同時(shí)有7個(gè)位點(diǎn)缺乏可以被Northern雜交實(shí)驗(yàn)所檢測(cè)到的RNAs,這也與這些轉(zhuǎn)錄本的非常低的拷貝數(shù)的表象是一致的,重要的在于強(qiáng)調(diào)這些轉(zhuǎn)錄本是作為cDNA文庫(kù)的一部分加以檢測(cè)的,所述cDNA文庫(kù)使用其序列由陣列數(shù)據(jù)所建議的引物對(duì)而被檢查到的。
表3陣列檢測(cè)的轉(zhuǎn)錄本的RT-PCR證實(shí)1
1為根據(jù)芯片確定為陽(yáng)性的區(qū)域中的14個(gè)位點(diǎn)分別設(shè)計(jì)了幾個(gè)引物對(duì)。引物一般被挑選在或靠近陽(yáng)性探針或重疊群(在DGCR區(qū)域的情況下),與正向和反向引物之間的距離在200-500bp的數(shù)量級(jí)。一般來(lái)說(shuō),3到15個(gè)引物對(duì)被設(shè)計(jì)用于每一個(gè)位點(diǎn)。對(duì)于DGCR區(qū)域(Chr22 DGCR),5%FP圖譜用于引物的選擇,而對(duì)于染色體21區(qū)(Chr21),采用R=1.3和D=12的11個(gè)圖譜中的一個(gè)被使用。對(duì)于某些位點(diǎn),通過(guò)RT-PCR證實(shí)了一個(gè)以上的區(qū)域。每一個(gè)被證實(shí)的區(qū)域的起點(diǎn)與終點(diǎn)也被顯示在鋪于Chr22 DGCR位點(diǎn)的芯片上的DGCR區(qū)的序列的座標(biāo)上,或顯示在Chr21區(qū)的2000年10月凍結(jié)的Golden Path序列的座標(biāo)上。來(lái)自HepG2和NIHOVCAR-3的cDNA文庫(kù)被用于檢測(cè)克隆,所述克隆含有與從這些細(xì)胞系的含有polyA的RNAs分離到的相同的RT-PCR產(chǎn)物。在其它染色體上具有與在RT-PCR產(chǎn)物中被鑒定的相同的序列的位置由BLAT檢索(http//genome-test.cse.ucsc.edu/cgi-bin/hgBlat)顯示。在基因組上的其它地方鑒定到了同源物的所有情況下,觀察到了在21和22號(hào)染色體上對(duì)被探察的位點(diǎn)特異的RT-PCR產(chǎn)物,這是因?yàn)?1或22號(hào)染色體的位點(diǎn)特異性的SNPs。*對(duì)于這些位點(diǎn)沒(méi)有檢測(cè)到RT-PCR。N/T-未測(cè)試N/D-未檢測(cè)到。
結(jié)論該實(shí)施例顯示出本發(fā)明方法的示例性實(shí)施方案是探索轉(zhuǎn)錄子組的有力工具。例如,在本實(shí)施例中,從11個(gè)發(fā)育不同的細(xì)胞系獲得的細(xì)胞質(zhì)含有polyA的RNA表明了,轉(zhuǎn)運(yùn)至細(xì)胞質(zhì)的成熟RNA的轉(zhuǎn)錄位點(diǎn)可能比根據(jù)以前標(biāo)注的人類基因組的序列所解釋的位點(diǎn)要多9倍。
可以理解的是,以上描述目的是為了說(shuō)明而不是限制。對(duì)于本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō),看過(guò)上面的描述后,對(duì)本發(fā)明進(jìn)行多種改動(dòng)是顯而易見的。本發(fā)明的范圍將參考附帶的權(quán)利要求以及所有與這些權(quán)利要求所要求的范圍等同的范圍來(lái)確定。所有被引用的文獻(xiàn)、包括專利和非專利的文獻(xiàn),在此為所有的目的以其全文引為參考。
權(quán)利要求
1.一種確定基因組轉(zhuǎn)錄活性的方法,包括從細(xì)胞區(qū)室中獲得含有polyA的RNA樣品;將含有polyA的RNA或從該RNA衍生的核酸與一種寡核苷酸探針陣列雜交,其中寡核苷酸探針陣列含有至少10000個(gè)完全匹配(PM)的探針,其中每個(gè)完全匹配的探針靶向一個(gè)基因組區(qū)域的不同的轉(zhuǎn)錄本序列;以及如果針對(duì)基因組序列的探針與靶雜交了就可以確定該基因組序列被轉(zhuǎn)錄了。
2.權(quán)利要求1的方法,其中所述基因組區(qū)域是至少20MB。
3.權(quán)利要求2的方法,其中所述基因組區(qū)域是至少50MB。
4.權(quán)利要求3的方法,其中所述基因組區(qū)域是一個(gè)染色體中25%的DNA序列。
5.權(quán)利要求4的方法,其中所述基因組區(qū)域是一個(gè)染色體中50%的DNA序列。
6.權(quán)利要求5的方法,其中所述基因組區(qū)域是一個(gè)染色體的DNA。
7.權(quán)利要求6的方法,其中所述基因組區(qū)域是整個(gè)基因組的DNA序列。
8.權(quán)利要求2的方法,其中所述探針以至少100bps的分辨率靶向基因組的轉(zhuǎn)錄本序列。
9.權(quán)利要求2的方法,其中所述探針以至少30bps的分辨率靶向基因組的轉(zhuǎn)錄本序列。
10.權(quán)利要求2的方法,其中所述探針以至少10bps的分辨率靶向基因組的轉(zhuǎn)錄本序列。
11.權(quán)利要求2的方法,其中所述探針以1bp的分辨率靶向基因組的轉(zhuǎn)錄本序列。
12.權(quán)利要求2的方法,其中所述細(xì)胞區(qū)室是細(xì)胞核。
13.權(quán)利要求2的方法,其中所述細(xì)胞區(qū)室是細(xì)胞質(zhì)。
14.權(quán)利要求13的方法,其中所述寡核苷酸探針陣列含有至少100000個(gè)寡核苷酸探針,每個(gè)探針靶向一個(gè)基因組不同區(qū)域的轉(zhuǎn)錄本序列。
15.權(quán)利要求14的方法,其中所述寡核苷酸探針陣列含有至少500000個(gè)寡核苷酸探針,每個(gè)探針靶向一個(gè)基因組不同區(qū)域的轉(zhuǎn)錄本序列。
16.權(quán)利要求15的方法,其中所述寡核苷酸探針陣列含有至少800000個(gè)寡核苷酸探針,每個(gè)探針靶向一個(gè)基因組不同區(qū)域的轉(zhuǎn)錄本序列。
17.權(quán)利要求2的方法,其中所述寡核苷酸陣列還含有錯(cuò)配(MM)的探針,其中每個(gè)錯(cuò)配的探針與完全匹配的探針有一個(gè)堿基的差別。
18.權(quán)利要求17的方法,其中每個(gè)錯(cuò)配的探針與完全匹配的探針的差別在中間的位置上。
19.權(quán)利要求2的方法,其中完全匹配的探針靶向基因組非重復(fù)性序列的轉(zhuǎn)錄本。
20.權(quán)利要求17的方法,其中如果PM與MM的比率(R)達(dá)到一個(gè)閾值,RNA靶就被檢測(cè)到。
21.權(quán)利要求17的方法,其中如果PM與MM的差(D)達(dá)到一個(gè)閾值,RNA靶就被檢測(cè)到。
22.權(quán)利要求17的方法,其中如果PM與MM的比率(R)達(dá)到一個(gè)閾值并且PM與MM的差(D)達(dá)到一個(gè)閾值,RNA靶就被檢測(cè)到。
23.權(quán)利要求22的方法,其中R在從1.1到1.5的范圍內(nèi),以及D在從4Q到12Q的范圍內(nèi),其中Q是噪音的估計(jì)。
24.權(quán)利要求23的方法,其中Q是功能點(diǎn)內(nèi)點(diǎn)陣的變量,屬于探針陣列的探針強(qiáng)度的第二個(gè)百分率數(shù)值。
25.權(quán)利要求22的方法,其中檢測(cè)考慮到了相鄰探針的雜交行為。
26.權(quán)利要求25的方法,其中在陽(yáng)性探針之間運(yùn)行的陰性探針,如果在運(yùn)行長(zhǎng)度上至多達(dá)到探針間的最大間隙,就可以被重新分類為陽(yáng)性的。
27.權(quán)利要求26的方法,其中最大間隙是5。
28.權(quán)利要求26的方法,其中陽(yáng)性探針運(yùn)行的長(zhǎng)度少于最小運(yùn)行堿基數(shù)就可以被重新分類為假陽(yáng)性的。
29.權(quán)利要求28的方法,其中最小運(yùn)行堿基數(shù)是20。
30.一種比較兩個(gè)生物樣品轉(zhuǎn)錄活性的方法,包括從第一個(gè)樣品的一個(gè)細(xì)胞區(qū)室中獲得第一個(gè)含有polyA的RNA樣品;從第二個(gè)樣品的一個(gè)細(xì)胞區(qū)室中獲得第二個(gè)含有polyA的RNA樣品;將第一個(gè)和第二個(gè)含有polyA的RNA或從第一個(gè)和第二個(gè)含有polyA的RNA衍生的核酸與一種寡核苷酸探針陣列雜交,其中寡核苷酸探針陣列含有至少10000個(gè)完全匹配(PM)的探針,其中每個(gè)完全匹配的探針靶向一個(gè)基因組區(qū)域的不同的轉(zhuǎn)錄本序列;以及對(duì)于第一個(gè)和第二個(gè)樣品中的每個(gè),如果針對(duì)基因組序列的探針與靶雜交了就可以確定該基因組序列被轉(zhuǎn)錄了;以及在第一個(gè)和第二個(gè)樣品間比較被轉(zhuǎn)錄的序列。
31.權(quán)利要求30的方法,其中第一個(gè)和第二個(gè)含有polyA的RNA或從第一個(gè)和第二個(gè)含有polyA的RNA衍生的核酸是被差別標(biāo)記的。
32.權(quán)利要求31的方法,其中雜交包括將第一個(gè)和第二個(gè)含有polyA的RNA或從第一個(gè)和第二個(gè)含有polyA的RNA衍生的核酸與兩個(gè)同樣類型的寡核苷酸陣列雜交。
33.權(quán)利要求32的方法,其中所述基因組區(qū)域是至少20MB。
34.權(quán)利要求33的方法,其中所述基因組區(qū)域是至少50MB。
35.權(quán)利要求34的方法,其中所述基因組區(qū)域是一個(gè)染色體中25%的DNA序列。
36.權(quán)利要求35的方法,其中所述基因組區(qū)域是一個(gè)染色體中50%的DNA序列。
37.權(quán)利要求36的方法,其中所述基因組區(qū)域是一個(gè)染色體的DNA。
38.權(quán)利要求37的方法,其中所述基因組區(qū)域是整個(gè)基因組的DNA序列。
39.權(quán)利要求32的方法,其中所述探針以至少100bps的分辨率靶向基因組的轉(zhuǎn)錄本序列。
40.權(quán)利要求32的方法,其中所述探針以至少30bps的分辨率靶向基因組的轉(zhuǎn)錄本序列。
41.權(quán)利要求32的方法,其中所述探針以至少10bps的分辨率靶向基因組的轉(zhuǎn)錄本序列。
42.權(quán)利要求32的方法,其中所述探針以1bp的分辨率靶向基因組的轉(zhuǎn)錄本序列。
43.權(quán)利要求32的方法,其中所述細(xì)胞區(qū)室是細(xì)胞核。
44.權(quán)利要求43的方法,其中所述細(xì)胞區(qū)室是細(xì)胞質(zhì)。
45.權(quán)利要求44的方法,其中所述寡核苷酸探針陣列含有至少100000個(gè)寡核苷酸探針,每個(gè)探針靶向一個(gè)基因組不同區(qū)域的轉(zhuǎn)錄本序列。
46.權(quán)利要求45的方法,其中所述寡核苷酸探針陣列含有至少500000個(gè)寡核苷酸探針,每個(gè)探針靶向一個(gè)基因組不同區(qū)域的轉(zhuǎn)錄本序列。
47.權(quán)利要求46的方法,其中所述寡核苷酸探針陣列含有至少800000個(gè)寡核苷酸探針,每個(gè)探針靶向一個(gè)基因組不同區(qū)域的轉(zhuǎn)錄本序列。
48.權(quán)利要求32的方法,其中所述寡核苷酸陣列還含有錯(cuò)配(MM)的探針,其中每個(gè)錯(cuò)配的探針與完全匹配的探針有一個(gè)堿基的差別。
49.權(quán)利要求48的方法,其中每個(gè)錯(cuò)配的探針與完全匹配的探針的差別在中間的位置上。
50.權(quán)利要求49的方法,其中完全匹配的探針靶向基因組非重復(fù)性序列的轉(zhuǎn)錄本。
51.權(quán)利要求50的方法,其中如果PM與MM的比率(R)達(dá)到一個(gè)閾值,RNA靶就被檢測(cè)到。
52.權(quán)利要求50的方法,其中如果PM與MM的差(D)達(dá)到一個(gè)閾值,RNA靶就被檢測(cè)到。
53.權(quán)利要求52的方法,其中如果PM與MM的比率(R)達(dá)到一個(gè)閾值并且PM與MM的差(D)達(dá)到一個(gè)閾值,RNA靶就被檢測(cè)到。
54.權(quán)利要求53的方法,其中R在從1.1到1.5的范圍內(nèi),以及D在從4Q到12Q的范圍內(nèi),其中Q是噪音的估計(jì)。
55.權(quán)利要求53的方法,其中Q是功能點(diǎn)內(nèi)點(diǎn)陣的變量,屬于探針陣列的探針強(qiáng)度的第二個(gè)百分率數(shù)值。
56.權(quán)利要求55的方法,其中檢測(cè)考慮到了相鄰探針的雜交行為。
57.權(quán)利要求56的方法,其中在陽(yáng)性探針之間運(yùn)行的陰性探針,如果在運(yùn)行長(zhǎng)度上至多達(dá)到探針間的最大間隙,就可以被重新分類為陽(yáng)性的。
58.權(quán)利要求57的方法,其中最大間隙是5。
59.權(quán)利要求58的方法,其中陽(yáng)性探針運(yùn)行的長(zhǎng)度少于最小運(yùn)行堿基數(shù)就可以被重新分類為假陽(yáng)性的。
60.權(quán)利要求59的方法,其中最小運(yùn)行堿基數(shù)是20。
61.一種用于探察轉(zhuǎn)錄活性的寡核苷酸探針陣列,包括基質(zhì);固定在基質(zhì)上的至少100000個(gè)不同的寡核苷酸探針,其中每個(gè)探針靶向一個(gè)基因組的轉(zhuǎn)錄本。
62.權(quán)利要求61的寡核苷酸探針陣列,其中所述寡核苷酸探針以100bps的分辨率靶向基因組的轉(zhuǎn)錄本。
63.權(quán)利要求61的寡核苷酸探針陣列,其中所述寡核苷酸探針以30bps的分辨率靶向基因組的轉(zhuǎn)錄本。
64.權(quán)利要求61的寡核苷酸探針陣列,其中所述寡核苷酸探針以1bp的分辨率靶向基因組的轉(zhuǎn)錄本。
全文摘要
在本發(fā)明的某些實(shí)施方案中,提供了探察轉(zhuǎn)錄活性的方法。本方法利用了大量的寡核苷酸探針與從一個(gè)細(xì)胞區(qū)室中的RNA衍生的核酸之間的雜交。
文檔編號(hào)G06F19/00GK1602362SQ02824884
公開日2005年3月30日 申請(qǐng)日期2002年12月10日 優(yōu)先權(quán)日2001年12月11日
發(fā)明者托馬斯·R·金格萊斯 申請(qǐng)人:阿菲梅特里克斯公司