專利名稱:高通量篩選轉座子標記群體和大量平行的插入位點的序列鑒定方法
專利說明高通量篩選轉座子標記群體和大量平行的插入位點的序列鑒定方法 發(fā)明領域 本發(fā)明涉及分子生物學和遺傳學領域。發(fā)明涉及基于使用高通量測序技術的改進的鑒定群體中的基因突變體的策略。
背景技術:
現代植物基因組學研究使用轉座子標記群體通過反向遺傳方法來鑒定對農學性狀或普遍重要性狀有影響的基因。
因為轉座子群體通常被用于鑒定負責觀察到的表型的基因,它們是基因發(fā)現的補充工具,即所謂的正向遺傳方法。這在本領域中和反向遺傳方法是不同的,在反向遺傳方法中在感興趣的序列(基因)中鑒定突變事件。該方法中的限速步驟是和鑒定在基因或感興趣序列中攜帶突變的個體有關的篩選工作。下面,更詳細的描述了轉座子群體和篩選方法的原理,并描述了更有效的篩選方法,所述篩選方法提高了這些基因發(fā)現工具的價值。
轉座子是天然存在或人工設計的活動遺傳成分,且在基因組中多拷貝的。它們是不穩(wěn)定的,它們在基因組中的位置能夠通過在新位點中切除和插入而變化,且通常在生命周期中的任意的特定時期發(fā)生。轉座子群體對基因發(fā)現是有價值的,這是因為如果它們插入基因序列或其調控區(qū)中,它們能破壞基因功能。已知植物育種中使用的許多轉座子的序列,但是,一旦觀察到帶有有趣表型的植物,不知道哪個基因被轉座子插入而受影響了。通常,也不知道轉座子是否負責該表型,就是知道,也不知道哪個轉座子負責該表型。轉座子群體中的轉座子拷貝數量范圍是每個植物中從數十到數百個轉座子,這有賴于有機體和轉座子的。為了從序列特異的轉座子整合位點中獲得側翼序列,目前用于分析轉座子誘導的表型突變序列的篩選方法包括基于鎖定-PCR(linked-PCR)的方法。鎖定-PCR的局限是確定側翼序列需要從測序膠中獲得切割條帶,這是費時、難以自動化并且相對低通量(對于數千條帶不易采用)的。如果能使用一種簡單的方法收集所有或者至少部分的、整合在基因組中的轉座子的側翼序列,篩選轉座子群體將得到改進。這里我們試圖提供一種有效的方法來分析并使用優(yōu)選序列中的插入事件。
定義 在下面描述和范例中使用了一些術語。為了提供對于說明書和權利要求書的清晰并且一致的理解,包括指定這些術語的范圍,提供了下面的定義。除非本文另外定義,所使用的所有的技術和科學術語具有和本發(fā)明所屬領域的普通技術人員的常規(guī)理解相同的含義。公開的所有的發(fā)表文章、專利申請、專利和其它參考文獻在此處被整體引用的方式納入本文。
轉座子轉座子是在單個細胞的基因組中能來回移動到不同位置上(一個被稱為轉座的過程)的DNA序列。在該過程中,它們能引起突變并改變基因組中的DNA量。轉座子還被稱為“跳躍基因”或“活動遺傳成分”。有多種活動遺傳成分;根據其轉座機制它們能被分組。I型活動遺傳成分,或逆轉錄轉座子,通過被轉錄為RNA,并隨后通過逆轉錄酶回到DNA中而在基因組中移動,而I I型活動遺傳成分使用轉座酶在基因組中“切割并粘帖”它們,而使其在基因組內從一個位置直接移動到另一個位置。轉座能被復制,其中可轉座元件的一個拷貝仍保留在供給位點上,而另一個插入到目標位點上;或者轉座能保守地發(fā)生,其中可轉座元件從一個位點處被切除并插入到另一個位點。該術語包括,但不限于,在原核生物中發(fā)現的可轉座元件,例如插入序列(IS)、轉座子(Tn)或者細菌噬菌體例如Mu和D108。真核生物可轉座元件包括,但不限于在黑腹果蠅(D.melanogaster)中發(fā)現的Copia成分(Copia elements);TY成分,例如在酵母中發(fā)現的那些;TaI和Tnt 1可轉座元件,例如在擬南芥中發(fā)現的那些;在小鼠中發(fā)現的IAP;Tam或Cin可轉座元件,例如在金魚草中發(fā)現的那些;和AC、Spm、Bs、Cin、Dt和Mutator可轉座元件,例如在玉米中發(fā)現的那些。該術語還包括能復制或保守地將自身插入到宿主基因組中的、合成的可轉座元件,并且它們從基因組中的轉座或切除能被人工干預所控制。例如,能構建合成的可轉座元件,它缺少有功能的轉座酶(介導轉座的酶),但是通過操作性的將轉座酶基因連接到可誘導的啟動子上而反式提供轉座酶。
轉座子群體來自于一個有機體(通常是植物,但是也可能是其它有機體,例如果蠅和小鼠)的一群個體,其中每個個體在其基因組中攜帶有數個轉座子,并且每個轉座子可能影響一個或多個基因,導致不同的表型。典型的,從表達不穩(wěn)定性的表型性狀個體或變體中選擇獲得轉座子群體。轉座子群體的大小可以變化很大,對于特定目的,可以使用含有90、80、70、60、50、40、30或甚至僅20%原始群體的部分群體。
標簽一種短序列,能被加入到引物中或包括于引物序列中,或者被用作標記來提供唯一的識別符。這種序列識別符可以是唯一的、具有不同但是確定長度的堿基序列,專門用于確定特定的核酸樣品。例如4bp標簽提供了4(4次方)=256種不同的標簽。典型的范例是本領域已知的ZIP序列(Iannone等人Cytometry 39131-140,2000)。使用這種標簽,能通過進一步的處理確定PCR樣品的來源。對于來源于不同核酸樣品的聯(lián)合處理的產物,通常使用不同的標簽鑒定不同的核酸樣品。對于本發(fā)明,加入唯一的序列標簽用于確定植物個體在序列擴增產物集合中的坐標??梢允褂枚鄠€標簽。
加標簽指的是在核酸中加入標簽或標記的過程,使能夠將其和第二種或更多的核酸區(qū)分開??梢酝ㄟ^,例如,使用已加標簽的引物或通過本領域已知的其它任意方法在擴增中加入序列識別符,來進行加標簽。
限制性核酸內切酶限制性核酸內切酶或限制性酶是一種酶,識別雙鏈DNA分子中的特異性核酸序列(目標位點),并將在每個目標位點切割DNA分子的兩條鏈。
限制性片斷用限制性核酸內切酶消化產生的DNA分子被稱為限制性片斷。任何給定的基因組(或核酸,無論其起源)都將被特定的限制性核酸內切酶消化為不連續(xù)的限制性片斷。限制性核酸內切酶切割得到的DNA片段能被進一步用于多種技術中,并且例如通過凝膠電泳進行檢測。
連接連接酶催化的酶反應,其中兩個雙鏈DNA分子被共價交聯(lián)到一起,被稱為連接。通常,兩個DNA鏈都被共價交聯(lián)到一起,但是也有可能通過鏈的末端之一的化學或酶修飾來防止兩條鏈中的一條鏈的連接。這該情況下共價交聯(lián)將只發(fā)生在兩條DNA鏈中的一條鏈上。
合成的寡核苷酸單鏈DNA分子,優(yōu)選具有大約10到大約50個堿基,能被化學合成,被稱為合成的寡核苷酸。雖然有可能合成具有相關序列的分子家族,且該分子家族在核苷酸序列中的特定位置上具有不同核苷酸組成,但是一般而言,這些合成的DNA分子被設計為具有唯一的或想得到的核苷酸序列。術語合成的寡核苷酸被用于指具有設定的或想要的核苷酸序列的DNA分子。
接頭具有有限數量堿基對的短的雙鏈DNA分子,例如長度為大約10到大約30堿基對,如此設計使它們能被連接到限制性片段的末端。接頭通常由兩個具有互相部分互補的核苷酸序列的合成寡核苷酸組成。當在溶液中,在適當條件下混合這兩個合成寡核苷酸時,它們將互相退火形成雙鏈結構。退火后,接頭分子的一個末端被設計使其和限制性片段的末端匹配,并能連接至其上;接頭的另一個末端能被設計使其不能連接,但不總是這樣(雙連接接頭)。
接頭-連接的限制性片段頂端已經加上接頭的限制性片段。
核酸根據本發(fā)明,核酸可以包括嘧啶和嘌呤堿基的任意聚合物或寡聚物,分別優(yōu)選胞嘧啶、胸腺嘧啶和尿嘧啶,以及腺嘌呤和鳥嘌呤(參見Albert L.Lehninger,Principles of Biochemistry,793-800(Worth Pub.1982),其被整體引用并納入本文,以用于本文的各個方面)。本發(fā)明考慮了任意的脫氧核糖核苷酸、核糖核苷酸或肽核酸組分,以及它們的任意變體,例如這些堿基的甲基化、羥甲基化或糖基化形式,等等。該聚合物或寡聚物在組成方面可以是異源的或同源的,并且可以分離自天然產生的來源或者可以是人工的或合成的產物。此外,核酸可以是DNA或RNA,或者它們的混合物,并且可以以單鏈或雙鏈形式永久或暫時存在,包括同源雙鏈、異源雙鏈和雜交狀態(tài)。
測序術語測序指的是確定核酸樣品(例如,DNA或RNA)中的核苷酸順序(堿基序列)。
比對(Aligning和alignment)術語比對的意思是,根據相同或相似的核苷酸的長或短的延伸的存在情況,比較兩個或多個核苷酸序列。本領域中已知幾種核酸序列比對方法,下面將進一步解釋。有時,術語“匯集(assembly)”或“聚類(clustering)”被用作同義詞。
高通量篩選高通量篩選,通常簡寫為HTS,是一種用于科學實驗的方法,尤其和生物與化學領域相關。通過將現代機器人學和其它專業(yè)實驗室硬件相結合,該方法能讓研究人員有效的同時篩選大量樣品。
引物一般而言,術語引物指的是能起始DNA合成的DNA鏈。DNA聚合酶不能在沒有引物的情況下從頭合成DNA它在反應中只能延長已有的DNA鏈,在所述反應中互補鏈被用作模板來引導待組裝的核苷酸的順序。我們將把聚合酶鏈式反應(PCR)中使用的合成的寡核苷酸分子稱為引物。
增強親和力的引物含有修飾的核苷酸的引物,例如PNA或LNA,該修飾的核苷酸增加了引物的熱穩(wěn)定性,其中該引物能用于根據單個核苷酸序列差異進行的特異性更強的擴增。為了實現這個目的,經常包括了一個或多個修飾的核苷酸,優(yōu)選在引物的3′末端。
DNA擴增術語DNA擴增將被典型的用于表示使用PCR進行雙鏈DNA分子的體外合成。需要注意的是,已有其它擴增方法,并且它們有可能在本發(fā)明中使用而不偏離本發(fā)明的要旨。
選擇性雜交關于,在嚴格雜交條件下,和核酸序列雜交到非目標核酸序列上相比,核酸序列以可檢測的更高的程度(例如,優(yōu)選的比背景至少高2倍)雜交到特定的核酸目標序列上,以及關于大量排除非目標核酸。術語“嚴格條件”或“嚴格雜交條件”包括如下條件,在該條件下探針以可檢測的、和其它序列相比更高的程度(例如,優(yōu)選至少是背景的2倍)雜交到它的目標序列上。嚴格條件是序列依賴的,并且在不同的環(huán)境下將是不同的。通過控制雜交和/或清洗條件的嚴格性,能鑒定出和探針100%互補的目標序列(同源探查)。備選的,可以調整嚴格條件,以允許序列中的錯配,從而可檢測到較低程度的相似性(異源探查)。通常,探針長度小于100個核苷酸,優(yōu)選的長度不超過50或25。典型的,嚴格條件將是鹽濃度小于大約1.5M Na離子,典型的是大約0.01到1.0M Na離子濃度(或其它鹽),pH大約為7.0到8.3,并且對于短探針(例如,10到50個核苷酸),典型的溫度為至少大約30℃,對于長探針(例如,超過50個核苷酸),典型的至少大約60℃。還可以通過加入去穩(wěn)定劑例如甲酰胺來實現嚴格條件。
示例的低嚴格性條件包括在含有30到35%甲酰胺、1M NaCl,1%SDS(十二烷基硫酸鈉)的緩沖液下、37℃中的雜交以及在1×到2×SSC(20×SSC=3.0M NaCl/0.3M檸檬酸三鈉)、50到55℃中的清洗。示例的中度嚴格性條件包括在40到45%甲酰胺、1M NaCl,1%SDS、37℃中的雜交以及在0.5×到1×SSC、55到60℃中的清洗。示例的高嚴格性條件包括在50%甲酰胺、1M NaCl,1%SDS、37℃中的雜交以及在0.1×SSC、60到65℃中的清洗。典型地,特異性是雜交后清洗的作用,關鍵因素是最后清洗溶液的離子強度和溫度。對于DNA-DNA雜交,可以利用Meinkoth和Wahl的公式(Anal.Biochem.,138267-284(1984))Tm=81.5℃+16.6(logM)+0.41(%GC)-0.61(%甲酰胺)-500/L得到Tm的近似值,其中M是一價陽離子的摩爾濃度,%GC是DNA中的鳥苷和胞苷的百分比,%甲酰胺是甲酰胺在雜交溶液中的百分比,L是雜交堿基對長度。Tm是50%的互補目標序列雜交到完全匹配的探針上的溫度(在確定的離子強度和pH下)。每1%的錯配,Tm大約下降1℃;因此,能夠調節(jié)Tm、雜交和/或清洗條件來雜交到所需一致性的序列上。例如,如果尋找具有>90%一致性的序列,Tm通常減少10℃,選擇的嚴格條件為在給定的離子強度和pH下比特定序列與其互補體的熱溶解點(Tm)低大約5℃。但是,極度嚴格條件能在比熱溶解點(Tm)低1、2、3或4℃下進行雜交和/或清洗;中度嚴格條件能在比熱溶解點(Tm)低6、7、8、9或10℃下進行雜交和/或清洗;低嚴格條件能在比熱溶解點(Tm)低11、12、13、14、15或20℃下進行雜交和/或清洗。普通技術人員將能理解,在使用方程式,雜交和清洗成分,以及所需Tm時,也不言而喻地描述了雜交和/或清洗溶液的嚴格性的變化。如果想得到的錯配程度導致Tm值低于45℃(水溶液)或32℃(甲酰胺溶液),優(yōu)選增加SSC濃度,這樣能使用更高的溫度。在Tijssen,生物化學和分子生物學技術實驗室技術-用核酸探針雜交,第1部分,第2章“雜交原理概述和核酸探針分析策略”,Elsevier,N.Y.(1993);以及分子生物學技術通用操作流程(Current Protocols in Molecular Biology),第2章,Ausubel等人,Eds.,Greene Publishing and Wiley-Interscience,紐約(1995)中有針對核酸雜交的更全面的指南。
發(fā)明詳述 本發(fā)明已經發(fā)現,使用高通量測序策略能實現上述目標,并能有效篩選轉座子群體或含有攜帶由于轉座子插入引起的有趣表型的成員的群體,尋找在感興趣的基因中是否存在插入。
發(fā)明詳述 發(fā)明關于一種在轉座子群體成員中鑒定與感興趣的基因或序列相關的插入的方法,包括如下步驟 (a)分別地或以集合方式分離轉座子群體的基因組DNA; (b)可選的,集合步驟(a)中獲得的DNA; (c)使用一種或多種,優(yōu)選兩種或多種,更優(yōu)選兩種限制性內切酶切割DNA,優(yōu)選其中至少一種是不在轉座子內切割的頻繁切割限制性內切酶,并且優(yōu)選至少一種是在轉座子中切割的稀有切割限制性內切酶,將接頭和限制性片段連接,因此制備出接頭-連接的限制性片段; (d)用一對(優(yōu)選標記的)引物擴增接頭-連接的限制性片段,其中一個引物包含和(已知)轉座子序列的部分互補(能雜交)的片段,并進一步包括序列引物結合位點,其中另一個引物至少和接頭互補,其中一個或兩個引物都含有標簽; (e)任選的,集合步驟(d)中的擴增產物來創(chuàng)建一個擴增產物庫; (f)任選的,片段化庫中的擴增產物; (g)使用高通量測序測定(d)、(e)或(f)的片段的核苷酸序列; (h)任選的,在計算機中整理片段序列籍此來去除所有的接頭和/或轉座子相關序列信息; (i)鑒別出步驟(g)或(h)中能和數據庫中的核苷酸序列比對的一個或數個片段,從而將數據庫中的核苷酸序列和感興趣的表型相聯(lián)系; (j)鑒定含有步驟(i)的片段的轉座子群體成員; (k)任選的,根據步驟(i)的片段設計一個探針或PCR引物對,并使用它驗證轉座子在(j)中鑒定出的成員的基因組中的感興趣基因中的插入。
通常使用本領域中的常規(guī)方法完成DNA的分離來提供群體中每個成員的DNA樣品,例如從群體成員收集組織,提取DNA(例如使用Q-Biogene快速DNA試劑盒),定量和標準化來獲得每個樣品等量的DNA。作為范例,本發(fā)明依照1000株植物的轉座子群體進行了舉例說明。典型的,分離了群體中每個表現出感興趣表型的成員的DNA。
依照本發(fā)明的方法,根據是否存在感興趣的突變表型分離出基因組DNA中包含至少一個可轉座元件-加標簽的基因的個別有機體。因此提供了一種適用于鑒定并分離有機體的遺傳序列的方法,其中,位于所述遺傳序列側翼的可轉座元件斷裂所述有機體的基因組DNA與突變表型直接或間接地相關。優(yōu)選的,有機體的突變表型已知或者懷疑是由于可轉座元件的插入破壞單一基因,或者,至少無法排除這種插入事件。實際上,這意味著,根據是否存在突變表型將一組有機體進行分離。本領域技術人員將能理解,待分離的有機體集合應該在相似條件下生長或培養(yǎng),來避免非遺傳因素(例如,環(huán)境效果)導致的表型的分離。本發(fā)明的方法能應用于任意的、能被區(qū)分并分類為野生型或突變型的表型。能通過視覺的、生化的、農學的或形態(tài)學的方法檢測這種表型。技術人員將認可此處所使用的術語“野生型”和“突變型”是用于根據是否存在特定表型來區(qū)分有機體的自定義術語。本發(fā)明能應用于的有機體可以是真核的或原核的。當應用本發(fā)明的方法時,真核有機體可以是單倍體或雙倍體。在雙倍體有機體中可以從F1代表現出野生型表型,但是和轉座-加標簽基因相關的突變表型通常較多顯露為隱性突變,因此通常較多在F2代表現出來。因此,在優(yōu)選的發(fā)明實施方案中,有機體將來自于可轉座元件供體個體和沒有活性可轉座元件的受體近交個體之間交叉雜交產生的F2代。優(yōu)選的,本發(fā)明的方法將被應用于植物。在某些實施方案中,優(yōu)選的植物是單子葉植物,例如禾本科植物,包括示例性的物種玉蜀黍。在本發(fā)明的某些實施方案中,具有可轉座元件的有機體將是玉米植物,其來自于含有Mu-DR調控元件(Chomet等人(1991)Genetics 122447457)和高拷貝數量的Mu元件的Mu-供體個體與含有非活性Mu元件的受體近交個體雜交的F2代。有機體的基因組DNA將具有至少一個可轉座元件,優(yōu)選多個可轉座元件,例如至少5、10、25、50或100。基因組中的可轉座元件可以是相同或不同類型的??梢愿鶕绢I域中的可行方法以實驗衍生獲得包含可轉座元件的有機體。參見,例如,Chomet(1994)在The Maize Handbook,ed.Freeling和Walbot(Springer-Verlag,紐約),243-248頁。在優(yōu)選的實施方案中,可轉座元件是Mutator(Mu)。Robertson(1978)Mutation Res.5121-28,Chandler和Hardeman(1992)Advances in Genetics 3077-122)。末端-反轉-重復DNA(TIR)存在于許多可轉座元件中,包括Mu,其非常適合于本發(fā)明??赊D座元件的插入可以發(fā)生于可轉座元件-加標簽基因的DNA序列的內部或附近。用本發(fā)明的方法鑒定的可轉座元件-加標簽基因可以在基因編碼序列內部插入有可轉座元件,這樣基因的正常功能產物的轉錄被破壞,導致突變表型。此外,加標簽的基因可以具有插入到內含子內部的可轉座元件,因此影響了RNA剪接,這可能會破壞有功能的基因產物,因此產生突變表型。進一步,加標簽的基因可以具有插入到調控區(qū)域內部的可轉座元件,例如啟動子或增強子成分,因此基因表達得到增強或減弱,導致突變表型。對于本發(fā)明的方法所應用于的每種表型,至少一個具有野生型表型的有機體和至少一個突變體被分離??蛇x的,在分離的野生型群體中至少有2、4、5、10、15或20個有機體,在分離的突變體群體中至少有2、4、5、10、15或20個有機體。
例如可以使用3-D集合方案(Vandenbussche等人,2003,ThePlant Cell,15,2680-2693)集合分離的DNA。優(yōu)選使用等量的DNA進行集合。3D-集合方案可以包括10×10×10,得到30個集合(10+10+10),每個集合含有10×10=100個不同的DNA樣品。多種其它集合策略能被用于本發(fā)明,其例子為多維集合(包括3-D集合)或列、行或板集合。在某些實施方案中,能夠在獲得樣品階段中的DNA提取之前進行集合,這樣使DNA制備從1000個樣品減少到了30個(方法的步驟(a))。
集合步驟典型的用于在一輪PCR篩選后鑒定含有觀察到的轉座子插入的植物。集合DNA進一步用于在PCR擴增之前標準化DNA,來提供其在測序庫中更加相等的存在量。使用至少一種限制性內切酶限制性切割集合中的DNA。根據具體情況,即,基因組大小或轉座子數量,可以使用更多的內切酶。在某些實施方案中,能夠使用2種或更多種內切酶。對于多數基因組,2種內切酶就足夠了,并且因此這也是最優(yōu)選的。在某些實施方案中,尤其是對于大的或復雜的基因組,可以使用更多的內切酶。優(yōu)選的,內切酶提供相對短的50-500bp的限制性片段,但是這不是必須的。典型的,優(yōu)選至少一種頻繁切割內切酶,即,具有4或5堿基對識別序列的內切酶。有一種這樣的酶是Msel,但是可以買到并使用其它眾多種酶。并且也可以使用在其識別序列以外進行切割的酶(IIs型)或者提供平頭末端限制性片段的酶。一種優(yōu)選的聯(lián)用是是聯(lián)合使用一種稀有(6和更多堿基對識別序列)和一種頻繁切割酶。在對集合的DNA進行限制性切割后,或在其同時,將接頭連接到限制性片段上來提供接頭-連接的限制性片段??梢允褂靡环N或多種不同的接頭,例如兩種接頭,一種正向的,一種反向的接頭??蛇x擇的,對于所有片段可以使用一種接頭,或者可以使用數組接頭,其中在接頭突出末端部分含有核苷酸的置換,以此來提供索引接頭,可以用于預選步驟(Unrau等人,Gene,1994,145,163-169)。此外,對于平頭末端限制性片段,可以使用平頭末端接頭。接頭-連接是本領域所熟知的,并已在EP 534858中得到描述。在接頭連接之后,可以使用和接頭互補的一組引物(預)擴增接頭-連接的限制性片段。這可以用于(進一步)標準化集合中來自于每株植物的DNA的量,或者增加集合中DNA的總量用于集合的多重分析(即,分割樣品)并增強信噪比。
在可選的預擴增后,在本發(fā)明的步驟(d)中用一對引物擴增接頭-連接的限制性片段。其中一個引物至少和接頭的一部分互補,并且可以進一步和內切酶識別序列的殘余部分的一部分互補,并且可以進一步在其3′末端含有(隨機選擇的)選擇的核苷酸,這和EP534858中所描述的相似。設計引物組中的其它引物使其能退火到轉座子序列的邊界(部分)。典型的,引物和轉座子的保守序列重疊,并且優(yōu)選在其邊界處。優(yōu)選的,引物能在嚴格雜交條件下分別選擇性的雜交到可轉座元件上或接頭上。此外,引物可以和轉座子重疊(互補的)至少50、60、70、80、85、90、95%。引物平均長度大約為20bp的話,總計重疊大約10到19個堿基。這可以是有機體中的轉座子或轉座子家族的已知序列一致性序列或。植物中的典型的轉座子序列是已知的,例如參見De Keukeleire等人Chromosome Research,2004,12(2)117-123;Van den Broeck等人,The Plant Journal,1998,13(1),121-129;Gerats等人Plant Cell,1990,2,1121-1128,揭示了牽?;ㄖ械?84bp的dTphl轉座子系統(tǒng)。這些參考文獻顯示,轉座子家族的一致性序列是已知的,尤其是在轉座子的邊界處。得到這些保守序列后,能夠容易的設計合適的引物。例如,Hat家族(Hobo,Ac andTam3 in plants and animals。從下面的文章中可獲知轉座子成分以及其序列Atkinson PW,Warren WD,O′Brochta DA(1993)The hobotransposable element of Drosophila can becross-mobikized inhouseflies and excises like the Ac element of maize.Proc NatlAcad Sci USA 909693-9697;Capy P,Vitalis R,Langin T,HiguetD,Bazin C(1996)Relationships between transposable elementsbased upon the integrase-transposase domainsis there a commonancestor?J MoI Evol 42359-368;Esposito T,Gianfrancesco F,Ciccodicola A等人(1999)A novel pseudoautosomal human geneencodes a putative protein similar to Ac-like transposases.Hum MoI Genet 861-67;Grappin P,Audeon C,Chupeau MC,Grandbastien MA(1996)Molecular and functionalcharacterization of Slide,an Ac-like autonomous transposableelement from tobacco.MoI Gen Genet 252386-397;Handler AM,Gomez SP(1996)The hobo transposable element excises and hasrelated elements in tephridit species.Genetics 1431339-1347;Hehl R,Nacken WK,Krause A,Saedler H,Sommer H(1991)Structural analysis of Tam.3,atransposable element fromAntirrhinum ma jus,reveals homologies to the Ac element frommaize.Plant MoI Biol 16369-371;Huttley GA,McRae AF,CleggMT(1995)Molecular evolution of the Ac/Ds transposable elementfamily in pearl millet and other grasses.Genetics 1391411-1419;Kempken F,Windhofer F(2001)The IxAT familyaversatile transposon group common to plants,fungi,animals,and man.Chromosoma 1101-9.Warren WD,Atkinson PW,O′BrochtaDA(1995)The Australian bushfly Musca vetustissima containsa sequence related to transposons of the hobo,AC and Tam3 family.Gene 154133-134。
優(yōu)選的,定向并設計針對轉座子的引物使其向外面向目標轉座子。在某個實施方案中為了增強特異性,一個或兩個引物(優(yōu)選的,轉座子指向的引物)可以含有增強結合親和力的核苷酸。
使用一對加標簽的引物擴增接頭-連接的限制性片段的部分或片段,其中一個或兩個引物都可以被標記。優(yōu)選的,對于每個維度的每個集合,使用不同的引物。在上面的例證中,這意味著優(yōu)選30個正向引物和一個反向引物。正向和反向引物中的一個可以指向接頭,而另一個反向和正向引物可以指向靶向的轉座子。
優(yōu)選的每對引物(針對接頭的引物和針對轉座子的引物)可以進一步依賴性地包括一個或多個下述成分 (i)序列引物結合位點,能被用于下面的測序步驟, (ii)用于將引物(以及所得擴增產物)和群體的最初成員相聯(lián)系的標簽,和 (iii)小珠結合序列,用于結合到高通量測序步驟中所使用的小珠上。
在一個典型的實施方案中,針對轉座子的引物能具有下述結構,在3′-5′方向和5′-3′方向 序列引物結合位點---任選的標簽---轉座子特異性PCR引物序列或 小珠結合位點---任選的標簽---轉座子特異性PCR引物序列。
在一個典型的實施方案中,針對接頭的引物可以具有下述結構,在3′-5′方向和5′-3′方向 序列引物結合位點---任選的標簽---接頭特異性PCR引物序列或小珠結合位點---任選的標簽---接頭特異性PCR引物序列。
在某些實施方案中,在用于擴增時,針對轉座子的引物和針對接頭的引物在3′末端都可以含有1-10個隨機選擇的核苷酸,可以提供子集。見圖1。序列引物結合位點和轉座子特異性PCR引物序列的長度是普通PCR中常規(guī)使用的,即,獨立的,從大約10到大約30bp,優(yōu)選從15到25bp。優(yōu)選地,擴增的接頭連接序列的部分或片段對應于根據使用下述高通量測序技術在一輪運行中且測序的長度。在某些實施方案中,該部分或片段的長度在大約50bp到大約500bp之間,優(yōu)選的為從大約75bp到大約300bp,而優(yōu)選的為大約90bp到大約250bp之間.如上所述,該長度隨采用的測序技術(包括有待開發(fā)的那些技術)的變化而改變。
采用這組引物進行的擴增將以多擴增形式提供靶向的轉座子側翼序列的接頭連接的限制性片段(擴增子)。
通過使用含有標簽序列的引物(正向和/或反向),所述標簽對于代表集合所有維度的每種引物是唯一的,能知道每種標簽序列的特異性集合來源,因為序列引物退火到標簽上游,所以在每個擴增產物中都具有標簽序列。
在某些實施方案中,正向和反向引物都被加上標簽。在其它實施方案中,正向或反向引物中只有一個引物被加上標簽。選擇加一個或兩個標簽依賴于具體情況并依賴于高通量測序反應的閱讀長度和/或獨立驗證的必要性。例如,對于進行單向測序的100bp的PCR產物,只需要一個標簽。對于200bp的PCR產物和100bp的閱讀長度,雙標簽結合雙向測序是有益的,因為這使效率提高了2倍。它進一步提供了在相同步驟中獨立驗證的可能性。當使用兩個加標簽的引物雙向測序100bp PCR產物時,所有的峰圖(trace),無論其方向,將提供突變信息。因此兩個引物都提供了關于哪株植物含有哪個突變的“地址信息”。標簽可以是任意數量的核苷酸,但是優(yōu)選含有2、3、4或5個核苷酸。當變更4核苷酸時,有可能有256種標簽,而變更3核苷酸時,提供了64種不同的標簽。在使用的例證中,標簽優(yōu)選差異>1堿基,因此優(yōu)選的標簽是4bp長。使用這些引物的擴增得到了加標簽的擴增產物的庫。在某些實施方案中,能夠使用標簽系統(tǒng),其中擴增過程包括使用(1)包含連接到(b)簡并標簽片段(NNNN)的(a)5′-恒定片段的長引物,該引物連接到(c)一個轉座子或標簽特異性片段-3′和 (2)在以后的擴增中的一個短引物,其包含連接到(b)非簡并標簽片段-3′(即,在NNNN中的一個選擇)的(a)5′-恒定片段。優(yōu)選地以短少量使用長引物,過量使用短引物。對于每個集合的樣品,非簡并標簽片段可以是唯一的,例如,ACTG對于集合的樣品1,AATC對于集合的樣品2,等等。短引物退火到長引物的一個子集上??梢詫⒁锏暮愣ㄆ斡米餍蛄幸?。優(yōu)選的,庫包含等量的來自于所有擴增的集合的PCR產物。在用作例證的范例中,對于每個轉座子插入位點,庫包含1000植物x100bp=100kb序列需要測定。在該方法的步驟(e)中,可以集合擴增產物,優(yōu)選以等量或標準化量,因此創(chuàng)建擴增產物庫。示例性的,庫的復雜度將為對于每個轉座子插入位點,1000植物x 250-500bp=0.25-0.5Mb序列。庫中的擴增產物可以在片段測序前進行隨機片段化。能夠通過物理技術進行片段化,即,剪切、超聲處理或其它隨機片段化方法。在步驟(g)中,測定步驟(d)或(f)的至少部分(但是優(yōu)選所有的)片段的至少部分(但是優(yōu)選整個)核苷酸序列。在某些實施方案中,擴增產物的片段化步驟是任選的。例如,當測序技術的閱讀長度和PCR片段程度大致相等時,不需要片段化。同樣對于較大的PCR產物,如果只有部分片段被測序是可接受的,擴增產物的片段化也可以不是必須的。例如對于500bp PCR產物以及100(從每側)的閱讀長度,如果在測序之前沒有片段化,將剩下300bp未被測序。片段化的需求隨著測序技術的閱讀長度的增加而降低?;旧?,可以利用本領域已知的任意方法進行測序,例如雙脫氧鏈終止法(Sanger測序)。但是優(yōu)選的并且更有益的是使用高通量測序方法進行測序,例如WO 03/004690、WO 03/054142、WO 2004/069849、WO2004/070005、WO 2004/070007和WO 2005/003375(所有都以454LifeSciences公司的名義)中公開的方法,Seo等人(2004)Proc.Natl.Acad.Sci.USA 1015488-93,以及Helios公司的技術,Solexa,USGenomics,等等,在此處被以引用的方式納入本文。最優(yōu)選的,使用WO 03/004690、WO 03/054142、WO 2004/069849、WO 2004/070005、WO 2004/070007和WO 2005/003375(所有都以454Life Sciences公司的名義)中公開的儀器和/或方法進行測序,這些專利在此處被以引用的方式納入本文。當前描述的技術能夠在單一運行中測序4000萬堿基,比競爭技術快100倍,并且更便宜。它還將隨著每個反應閱讀長度的增加和/或平行反應數量的增加而增加。測序技術大致包括5步1)DNA的片段化和特異性接頭的連接來創(chuàng)建單鏈DNA(ssDNA)庫;2)ssDNA退火到小珠上,在油包水(water-in-oil)微反應器中乳化小珠并進行乳液PCR(emulsion PCR)來擴增小珠上的單個ssDNA分子;3)選擇/富集在其表面上含有擴增的ssDNA分子的小珠;4)在PicoTiterPlate
中沉淀攜帶DNA的小珠;和5)利用焦磷酸鹽光信號的產生在100,000個小孔中同時測序。
在優(yōu)選的實施方案中,測序包括步驟 (1)測序-接頭-連接的片段退火到小珠上,每個小珠退火有單一的片段; (2)在油包水微反應器中乳化小珠,每個油包水微反應器中包含單一小珠; (3)進行乳液PCR來擴增小珠表面上的接頭-連接的片段; (4)選擇/富集含有擴增的接頭-連接的片段的小珠; (6)將小珠裝填到孔中,每個孔包含單一小珠;和 (7)產生焦磷酸鹽信號。
在第一個步驟(1),存在于接頭連接的限制性片段中的接頭退火到小珠上。如前所概述的,測序接頭包括至少“關鍵”區(qū)域用于退火到小珠上,測序引物區(qū)域和PCR引物區(qū)域。特別的,擴增的接頭-連接的限制性片段現在在其一個末端處含有下面序列5′-序列引物結合位點---標簽---轉座子特異性PCR引物序列-3′,而在另一個末端可以存在如下片段5′-小珠退火序列---標簽---接頭特異性序列---限制性位點特異性序列(任選的)---(隨機的)選擇性序列(任選的)-3′。清楚的是,序列引物結合位點和小珠退火序列可以互換?,F在這種小珠退火序列可以用于將片段退火到小珠上,小珠攜帶有該末端的核苷酸序列。
因此,適宜的片段退火到小珠上,每個小珠與單一的適宜片段退火。對于適宜片段的集合,過量加入小珠來確保對于大部分(泊松分布)的小珠,每個小珠退火有單一的適宜片段。
在優(yōu)選的實施方案中,為了進一步增加轉座子篩選的效率,將轉座-派生的PCR產物定向擴增到小珠上用于測序是有益的。這可以通過使用接頭-尾的PCR引物進行轉座子PCR來完成,所述引物的Msel(或其它限制酶)側接頭的一條鏈和偶聯(lián)到測序小珠上的寡核苷酸互補。因此,測序反應將從轉座子側起始(因為測序朝小珠方向發(fā)生),導致序列從轉座子向外產生。
在下一步,在油包水微反應器中乳化小珠,每個油包水微反應器包含單一小珠。在油包水微反應器中存在PCR試劑,使PCR反應在微反應器中發(fā)生。隨后,打破微反應器,富集含有DNA(DNA陽性小珠)的小珠。
在下一步,將小珠裝填到孔中,每個孔包含單一小珠。優(yōu)選的,孔是PicoTiterTMPlate的部分,其能夠同時測序大量的片段。
在加入攜帶有酶的小珠后,使用焦磷酸測序測定片段的序列。在后續(xù)步驟中,在存在常規(guī)測序試劑下,向PicoTiterTMPlate和其中的小珠、酶珠中加入不同的脫氧核糖核苷酸,隨著脫氧核糖核苷酸的摻入,產生光信號并記錄下來。正確的核苷酸的摻入將產生能被檢測的焦磷酸測序信號。焦磷酸測序本身是本領域已知的,并在www.biotagebio.com;www.pyrosequencing.com/section technology中得到描述。該技術進一步應用于,例如,WO 03/004690、WO 03/054142、WO 2004/069849、WO 2004/070005、WO 2004/070007和WO2005/003375(所有都以454Life Sciences公司的名義),它們被以引用的方式納入本文。測序后,修剪從測序步驟直接獲得的片段序列,優(yōu)選在計算機中進行,以去除所有的小珠退火序列、測序引物、接頭或轉座子相關序列信息。這可以有助于在下一步中和已知的、來自于數據庫中的序列進行更好的比對,以鑒定所有可能的匹配(hit)。通過在計算機中進行這些,可以在一個獨立的數據庫字段中保存標簽提供的信息,以便于以后將發(fā)現的突變基因和DNA集合中的地址相聯(lián)系。
典型的,在已經修剪掉所有加入的接頭/引物和/或識別子序列的序列數據上進行比對或聚類,即,僅使用源自于核酸樣品的片段的序列數據。
用于比較目的的序列比對的方法是本領域所熟知的。在Smith和Waterman(1981)Adv.Appl.Math.2482;Needleman和Wunsch(1970)J.MoI.Biol.48443;Pearson和Lipman(1988)Proc.Natl.Acad.Sci.USA 852444;Higgins和Sharp(1988)Gene 73237-244;Higgins和Sharp(1989)CABIOS 5151-153;Corpet等人(1988)Nucl.Acids Res.1610881-90;Huang等人(1992)Computer Appl.in the Biosci.8155-65;和Pearson等人(1994)Meth.MoI.Biol.24307-31(將其以引用的方式納入本文)中描述了多種程序和比對算法。Altschul等人(1994)Nature Genet.6119-29(將其以引用的方式納入本文)發(fā)表了對序列比對方法和同源性計算的詳細考察。可以從數個來源獲得The NCBI Basic Local Alignment Search Tool(BLAST)(Altschul等人,1990),包括國家生物技術信息中心(the NationalCenter for Biological Information,NCBI,Bethesda,Md.)和在互聯(lián)網上,和序列分析程序blastp、blastn、blastx、tblastn和tblastx聯(lián)合使用??梢栽趆ttp://www.ncbi.nlm.nih.gov/BLAST/訪問使用。在<http://www.ncbi.nlm.nih.gov/BLAST/blast_help.html>有如何使用該程序確定序列一致性的說明。數據庫優(yōu)選包含EST序列、感興趣的物種的基因組序列和/或GenBank的非冗余序列數據庫或相似的序列數據庫??梢匀鏢hendure等人Science,VoI 309,Issue 5741,1728-1732中所述使用高通量測序方法。其范例是微電泳測序、雜交測序/基于雜交的測序(SBH)、對擴增分子的循環(huán)陣列測序、對單個分子的循環(huán)陣列測序、非循環(huán)、單分子、實時方法,例如,聚合酶測序、核酸外切酶測序、納米孔測序。為了得到最優(yōu)的結果,以足夠冗余度測序片段或擴增產物是有益的。冗余度使分辨測序錯誤和真正的基因組序列成為可能。在某些實施方案中,測序冗余度優(yōu)選為4,更優(yōu)選為至少5,但是在例證中可看到,超過6的冗余度,優(yōu)選的超過8或甚至超過10被認為是有益的,雖然對于發(fā)明構思不是必須的。
在方法的步驟(i)中,鑒定在數據庫中產生一個匹配(hit)的片段,并因此聯(lián)系到一個基因或感興趣的一種表型。根據這個信息,可以使用標簽來鑒定集合和/或植物。根據在數據庫中的匹配(hit),可以設計一個探針來用于鑒定感興趣的基因。
圖1描繪了在dtphl轉座子側翼序列的分布分析中,序列標簽的總體組成,包含(從右到左)唯一的基因組序列,轉座子(反向重復)序列和3D標簽。根據3D網格(10*10*10)組織100株植物的群體,其中根據沿著x、y和z坐標軸反應其位置的唯一的3D坐標(x,y,z)識別每株植物。X1到X10對應于序列標簽數1到10,對于Y和Z是相似的。在序列名中標簽碼數字被翻譯為標簽#,例如,AGAC對應于標簽07。圖片顯示了植物中具有集合坐標(3,17,24)的3D匹配(hit)。
圖2描繪了用特定的基因序列在插入側翼序列數據庫中進行的blast搜索的結果,所述特定的基因序列為牽?;ㄞD錄因子NAM-樣3基因(非頂端分生組織樣,gj|21105733|gb|AF509866.1);鑒定出了具有坐標2,12,30的一個插入匹配(hit)。這個結果表明能夠在特定的同源編碼序列中找到插入。
圖3描繪了用特定的但是異源的基因序列(擬南芥AGL62MADS基因盒)在數據庫中blast搜索的結果;鑒定出在具有坐標9,17,29的一個插入匹配;這個匹配指定了一個迄今仍未知的潛在的喇叭花中的MADS基因盒及其相應的突變。這個結果表明成功探明了在特定的異源編碼序列中的插入。
圖4提供了序列分析,其中根據3個水平對已有的318.000序列中的230.000子集已經完全排序 1)側翼序列的序列鑒定(根據插入位點排序)。所有鑒別相同插入的序列被稱為一組。
2)在組內,根據它們不同的3D序列標簽。
3)根據屬于一組的序列的拷貝數。
根據對230.000排序序列(來自于總共318.000序列)的20%的分析,推斷了下面的圖片。為了便于解釋這些圖片,在圖中顯示了3組序列,其代表3個獨立的轉座子插入位點。第一個例子鑒定了4個序列,各自的3D標簽跨越了5-8位置,再后面是轉座子的反向重復序列,在22位置結束,后面是基因組序列的延伸。坐標6-20-29定義了這個序列屬于群體中該特定坐標的植物。標簽01到標簽10X維,標簽11到標簽20Y維,標簽21到標簽30Z維。
圖5圖片顯示了相對維度分布對發(fā)生的拷貝數。
圖6在具有3個拷貝的3500個序列標簽中,294個具有3個唯一的坐標,這些意味著能追溯這些序列的植物來源。對于其它拷貝類型,4拷貝型的數量為532;5拷貝型的數量為622;6拷貝型的數量為478;以及其余類型為1500。這意味著已經鑒定了總共超過3000個能夠追溯其植物來源的序列標簽(從已有的318.000中的230.000中)。
圖74拷貝數型及其相對分布,對于估計的3D命中(hit)總數和在3D 454轉座子庫中的序列總數 圖8#插入位點(組)數量對拷貝數(全范圍)。每個序列標簽的拷貝數的分析顯示,在分析的230.000子集中,有大約16.000個唯一的片段;7500個片段具有2個拷貝;3500個具有3個拷貝;2500個具有4個拷貝;1500個具有5個拷貝;1000個具有6個拷貝;1350個具有7或8個拷貝;1100個具有9-11個拷貝;1400具有12-20個拷貝;950具有21-40個拷貝;而其余的具有剩余的拷貝。
圖9提供了顯示一些結果的圖片。對253.394序列子集的分析(總共318.000),只有1%的序列不含有可識別的標簽(描繪為??,右列)。對20%的230.000序列標簽子集的分析顯示了序列標簽在群體的不同樣品集合中的良好分布,從坐標23的超過6000到坐標15的30.000附近;平均大約8500。少于1%的片段不能指定特異性的坐標。
圖10靶向在Msel-ECORI限制性片段內的轉座子簡圖,其中使用針對接頭的引物和攜帶有標簽和小珠退火序列的針對轉座子的引物。
圖11擴增的接頭-連接的片段通過小珠退火序列退火到小珠上的簡圖(B)。片段含有標簽(T1和/或12)、接頭(AD)、最后剩下的限制性位點(RE)、片段本身的序列(SEQ)、轉座子特異性引物序列(TR)和用于起始測序步驟的序列引物結合位點(SPBS)。
實施例 使用下面的闡明原理的范例來闡明本發(fā)明。
通過使用新型高通量測序方法改進了轉座子群體篩選,例如454Life Sciences公司的方法。在目前本領域的狀況下,454 LifeSciences公司的技術在單次測序運行中大約產生40Mb的序列。目前的限制是閱讀長度大約為100-200bp/閱讀。假定篩選包含3072株植物平均具有200個轉座子的群體,來鑒定在特定基因中的轉座子標簽,方法如下 1)分離轉座子群體中的3072株植物的基因組DNA; 2)建立一個每株植物等量DNA的3-維集合方案(例如,15×15×14),得到44個集合(15+15+14=44),含有3072/14=219或3072/15=205種不同的DNA樣品(Vandenbussche等人,2003);這個集合步驟用于從序列數據中直接鑒別含有插入的個別植物。集合基因組DNA進一步用于在PCR擴增之前標準化DNA,以增加序列庫中所有DNA等量存在的機會; 3)從44個集合的DNA中使用每250-500bp切割基因組的單一限制性酶(例如,使用4-或5切割器;例如Msel)制備接頭連接的限制性片段模板(AFLP模板,見EP534858,Vos等人,NAR 1995,23,4407); 4)使用定位于轉座子序列邊界并朝外的PCR引物以及一個非選擇性的接頭引物進行單向PCR擴增,來以多擴增的形式擴增所有轉座子的側翼序列。每株植物含有200個轉座子,產生每個邊界200x大約250bp=50kb側翼序列,其中20kb在100bp閱讀長度的情況下被測序。對于3072株植物,這等于153Mb側翼序列,其中61Mb在100bp閱讀長度的情況下被測序; 5)來自于44個孔的等量PCR產物被集合在一起,創(chuàng)建了一個集合的PCR產物庫; 6)使用454 Life Sciences公司的基于合成測序(sequencing-by-synthesis)技術測序集合的PCR產物庫,不進行進一步的PCR產物片段化。結果得到大約200,000 100bp的序列,代表了對3072株植物的所有側翼序列平均0.33X(20/61Mb)的覆蓋。因此至少需要3輪測序運行,來靶向所有3072株植物的所有側翼序列的絕大多數; 7)Blast得到的序列來鑒定和EST或基因組序列的匹配; 8)根據其標簽鑒定在感興趣的基因中攜帶有轉座子插入的植物,任選的,產生探針或PCR引物來對其進行驗證。
實施例1 根據3-維策略如Vandenbussche等人(2003)和其它所述取樣1000株牽?;╓138植物的群體,得到30個集合的樣品(X1-X10,Y1-Y10和Z1-Z10),以三個坐標覆蓋了整個群體的每個個體。這樣就可以將所有特定PCR產物的來源追溯到在群體中的植物來源。
隨后使用一種在轉座子中切割的酶和一種特異性的但是在側翼基因組DNA中的隨機位置進行切割的酶消化DNA樣品。隨后連接接頭來進行后續(xù)的對所有消化片段的PCR擴增。將鏈霉素和素化的接頭連接到內部轉座子位點。
隨后純化DNA樣品,通過加入生物素小珠并使用磁體收集生物素化的片段。
隨后使用合適的轉座子展示操作流程擴增在每個DNA集合中的、從所有轉座子插入的所有側翼序列(VandenBroeck等人,1998)。
在范例中對于每個集合的樣品,X1-X10,Y1-Y10和Z1-Z10,使用不同的轉座子引物,以4核苷酸碼將相應的集合坐標摻入到其5′末端(3D-標簽)。
隨后根據本領域所述規(guī)程,在3個超集合(superpool)中集合所有的PCR產物,每個集合對應于每個維度,以用于樣品的標準化;通過這步,減少了存在于每個個體的以及因此存在于每個樣品中的片段的存在。這防止了待測序樣品中片段的過度表現。
使用包含Muni位點的特殊引物通過一輪PCR擴增將所獲得的單鏈分子轉換為雙鏈分子。
使用Munl/Msel消化獲得的產物,來用于后續(xù)的接頭序列的連接,隨后用于進一步的擴增或直接進行454(G20)測序。
隨后在一個超集合中集合這3個樣品,并按照操作說明所述進行Roche GS20/454測序過程。
開發(fā)了一個從1000株植物群體中通過轉座子展示擴增轉座子側翼序列和后續(xù)的高通量測序的操作流程。
操作程序概述 下面給出了操作程序的概述 -DNA制備(以3D形式取樣的1000株植物,得到30個集合的DNA樣品) -Munl/Msel消化(大約5μg集合的DNA) -生物素-Mun & Mse接頭連接 -純化(PCR純化柱,來去除生物素-Mun接頭和非常小的片段) -珠提取(富集Mun/Mse片段) -轉座子展示PCR擴增 -用MunACAC & Mse+0引物進行預擴增(富集轉座子側翼序列) -使用集合的特異性IR**outw & Mse+0引物的選擇性PCR(轉座子側翼序列的擴增) -第二次集合到″塊″、″行″和″列″集合 -標準化 -轉換為雙鏈分子 -Munl/Msel消化 -454-Mun-B & 454-Mse-A接頭連接 -使用生物素-AmpB & AmpA引物進行PCR擴增 -最終集合到一個樣品中 -454測序 DNA制備 以3D形式取樣1000株植物,得到30個集合的DNA樣品,每個代表100株植物;根據Vandenbussche等人,Plant Cell 15(11)2680-2693(2003)進行操作 Munl/Msel消化(大約5μg),30個樣品 在50μL H2O中含大約5μg DNA 加入20μL的混合物2μL Muni(10U/μL原液) 2μL Msel(10U/μL原液) 7μL NEB 4(10x原液) 0.7μL BSA(100x原液) 加H2O到20μL 溫育1.5小時37℃ 接頭連接 加30μL混合物8μL Mun1-生物素-接頭(5pmol/μL原液) 8μL Mse1-接頭(50pmol/μL原液) 3μL NEB 4(10x原液) 0.3μL BSA(100x原液) 3μL ATP(10mM原液) 3μL T4DNA連接酶(5WeissU/μL原液) 加H2O到30μL 溫育4小時37℃ 接頭序列 Mun I(生物素)接頭生物素-5′-CTCGTAGACTGCGTACG-3′ 3′-CTGACGCATGCTTAA-5′ MseI接頭5′-GACGATGAGTCCTGAG-3′ 3′-TACTCAGGACTCAT-5′ 純化30個樣品 純化DNA,使用Qiagen PCR純化試劑盒,用55μL EB緩沖液洗脫(5μL在1.5%瓊脂糖凝膠) 珠提取30個樣品 在200μL STEX中清洗25μL鏈霉親和素珠(約0.1mg MyOne珠,鏈霉親和素C1)一次,并在100μL結合緩沖液中重懸。
STEX 結合緩沖液 10mM Tris.C1(pH 8.0)10mM Tris.C1(pH 8.0) 1M NaCl 2M NaCl 1mM EDTA1mM EDTA 0.1%Triton X-100 0.1%Triton X-100 向500μL限制/連接混合物中加入100μL稀釋的(并清洗的)鏈霉親和素珠,并在旋轉器中室溫溫育60分鐘。使用磁體收集珠,并去上清。用200μL STEX清洗珠并轉到另一個管中。用200μL STEX清洗珠3次,并最終重懸于50μL ToiE中,轉到另一個管中(去除STEX孔)。
T01I E 10mM Tris.Cl(pH8.0) 0.1mM EDTA 轉座子展示PCR擴增預擴增30個樣品 取2μL模板DNA(混勻珠孔,DNA片段仍連接著)并加入 并根據下面的PCR設定溫育它們(PE 9600) 30″94℃ 15″94℃ 下降30″65℃>>56℃(∧=-0.7℃/循環(huán))13個循環(huán) 60″72℃ 15″94℃ 30″56℃22個循環(huán) 60″72℃ 引物序列 Mun I+ACAC5′-AGACTGTGTACGAATTGACAC-3′ Mse I+05′-GACGATGAGTCCTGAGTAA-3′ 在1.5%瓊脂糖凝膠中分析5μL,并用H2O 10倍稀釋樣品,并進行選擇性PCR擴增 轉座子展示PCR擴增 選擇性擴增30個樣品 取5μL模板DNA并 加入45μL混合物 并根據下面的PCR設定溫育它們(PE 9600) 30″94℃ 15″94℃ 降落30″65℃>>56℃(^t=-0.7℃/循環(huán))13個循環(huán) 60″72℃ 15″94℃ 30″56℃22個循環(huán) 60″72℃ 引物序列 IRoutw*5′-CATATATTAANNNNGTAGCTCCGCCCCTG-3′ 使用唯一的、利用NNNN位置指定的IRoutw引物擴增每個集合的樣品;這能將所獲得的序列定位到它們共同坐標的來源上。
MseI+05′-GACGATGAGTCCTGAGTAA-3′ 第二個集合30個樣品集合為3個樣品 將來自于每個維度的10個樣品的PCR產物集合在一起來創(chuàng)建3個樣品列/行/塊。
標準化 為了增強相對于許多或所有個體所共享的片段背景的獨特片段數量,根據常規(guī)已知的規(guī)程對二次集合的樣品進行標準化。該規(guī)程包括雜交和純化步驟,來獲得單鏈分子。
雜交(大約每個樣品10μg)3個樣品 沉淀集合樣品DNA并溶解于15-35μL 加入(相對體積)到15μL甲酰胺 4.5μL TE 3μL H2O 在礦物油下加熱到80℃3分鐘,加入 3μL緩沖液A 4.5μL H2O 在30℃下溫育探針O/N 緩沖液A 0.1M Tris.C1(pH8.0) 1.2M NaCl 50mM EDTA 利用HAP色譜純化3個樣品 利用標準HAP色譜如de Fatima Bonaldo et al.,Genome Research,6791-806(1996)所述選擇單鏈分子,并隨后轉化為雙鏈分子。
轉化為雙鏈分子3個樣品 一個PCR循環(huán),用″Mse+0和Mun位點″引物 加入到50μL樣品中 25μL混合物5μL MIBUS 796(10μM) 4μL dNTP(5mM) 7.5μL 10xPCR緩沖液 2.5μL MgCl2(50mM) 0.2μL PlatinumTaq DNA聚合酶 加H2O到25μL 引物序列 MIBUS 7965′-CATATACAATTGGACGATGAGTCCTGAGTAA-3′ 并根據下面的PCR設定溫育它們(PE 9600) 2′94℃ 1′56℃ 10′72℃ Munl/Mse消化3個樣品 模板DNA在65μL H2O 加25μL混合物 溫育1.5小時37℃ 454接頭連接 加入 4μL Munl-bio-接頭B(50pmol/μL原液) 4μL Mse1-接頭A(50pmol/μL原液) 2μL NEB 4(10x原液)0.2μL BSA(100x原液) 3μL ATP(10mM原液) 3μL T4DNA連接酶(5WeissU/μL原液) H2O到20μL 溫育4小時37℃ 接頭序列 MunI接頭B MIBUS 803 5′-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAG-3′ MIBUS795 3′-AGGGGACACACGGAACGGATAGGGGACAACGCACAGAGTCTTAA-5′ MseI接頭A MIBUS 800 5′-CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAG-3′ MIBUS 801 3′-GAGTAGGGACGCACAGGGTAGACAAGGGAGGGACAGAGTCAT-3′ PCR-擴增用于454測序3個樣品 擴增接頭引物A&B MIBUS 803生物素-5′-CCTATCCCCTGTGTGCCTTG-3′ MIBUS 8025′-CCATCTCATCCCTGCGTGTC-3′ 最終集合3個樣品到1個樣品 集合樣品來創(chuàng)建一個超集合,已準備好用于高通量測序454測序1個樣品 pGEM-T克隆用于插入大小分布檢測1個樣品 為了檢測標準化過程的效率,我們隨機分離了22個片段來測定其大小分布。取1μL PCR混合物(從超集合樣品中,用于454測序) 加4μL混合物1μL pGEM-T(4倍稀釋) 2.5μL 2x快速連接緩沖液 0.25μL連接酶 加H2O到4μL 溫育3小時37℃ 轉化進入大腸桿菌(DH5α細胞) 鋪板100μL在LB Amp平板上 溫育o/n 37℃ 挑取22個克隆 以煮沸產物進行PCR 使用AmpA/AmpB引物 并在2%瓊脂糖凝膠中運行 結論 獲得了平均102堿基對的318.000序列標簽的數據庫。根據3個水平對230.000序列的一個子集完全排序 1)序列的序列標識,其在轉座子的反向重復側翼(以CCGCCCCTG結尾)。標識相同插入的所有的序列被稱為一組。
2)在每組中,根據其5′序列中的不同的3D標簽對序列進行排序。
3)根據屬于一組的序列的拷貝數量。
根據對230.000排序的序列(總共318.000序列)的20%進行的分析推測數據。在圖1-9中描述了該分析。
序列表
<110>Keygene NV
<120>高通量篩選轉座子標記群體和大量平行的插入位點的序列鑒定的方法
<130>P27927PC00
<150>US60/735,878
<151>2005-11-14
<160>15
<170>PatentIn version 3.3
<210>1
<211>17
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>1
ctcgtagact gcgtacg 17
<210>2
<211>15
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>2
ctgacgcatg cttaa
<210>3
<211>16
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>3
gacgatgagt cctgag 16
<210>4
<211>14
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>4
tactcaggac tcat 14
<210>5
<211>21
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>521
agactgtgta cgaattgaca c
<210>6
<211>19
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>619
gacgatgagt cctgagtaa
<210>7
<211>29
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<220>
<221>misc_feature
<222>(11)..(14)
<223>N=A,C,T or G
<400>7
catatattaa nnnngtagct ccgcccctg 29
<210>8
<211>19
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>8
gacgatgagt cctgagtaa19
<210>9
<211>31
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>9
catatacaat tggacgatga gtcctgagta a 31
<210>10
<211>44
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>10
cctatcccct gtgtgccttg cctatcccct gttgcgtgtc tcag 44
<210>11
<211>44
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>11
aggggacaca cggaacggat aggggacaac gcacagagtc ttaa 44
<210>12
<211>44
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>12
ccatctcatc cctgcgtgtc ccatctgttc cctccctgtc tcag 44
<210>13
<211>42
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>13
gagtagggac gcacagggta gacaagggag ggacagagtc at42
<210>14
<211>20
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>1420
cctatcccct gtgtgccttg
<210>15
<211>20
<212>DNA
<213>人工序列
<220>
<223>接頭或引物
<400>15 20
ccatctcatc cctgcgtgtc
權利要求
1.鑒定在轉座子群體成員中和感興趣的基因或序列相關的插入的方法,包括步驟
(a)以個別的或以集合的方式,分離轉座子群體的基因組DNA;
(b)任選的,集合在步驟(a)中獲得的DNA;
(c)使用一種或多種,優(yōu)選的兩種或多種,最優(yōu)選的兩種限制性內切酶限制性切割DNA,優(yōu)選其中至少一種是不在轉座子內切割的頻繁切割限制性內切酶,并且優(yōu)選至少一種是在轉座子內切割的稀有切割限制性內切酶,將接頭和限制性片段連接,因此制備出接頭-連接的限制性片段;
(d)用一對(優(yōu)選標記的)引物擴增接頭-連接的限制性片段,其中一個引物包含和(已知)轉座子序列的部分互補(能雜交)的片段,并進一步包括一個序列引物結合位點,其中另一個引物至少和接頭互補,其中一個或兩個引物都含有標簽;
(e)任選的,集合步驟(d)中的擴增產物來創(chuàng)建一個擴增產物庫;
(f)任選的,片段化庫中的擴增產物;
(g)使用高通量測序測定(d)、(e)或(f)的片段的核苷酸序列;
(h)任選的,在計算機中整理片段序列籍此來去除所有的接頭和/或轉座子相關序列信息;
(i)鑒別出步驟(g)或(h)中能和數據庫中的核苷酸序列比對的一個或數個片段,從而將數據庫中的核苷酸序列和感興趣的表型相聯(lián)系;
(j)鑒定含有步驟(i)的片段的轉座子群體成員;
(k)任選的,根據步驟(i)的片段設計一個探針或PCR引物對,并使用它驗證轉座子在(j)中所鑒定出的成員的基因組中的感興趣基因中的插入。
2.根據權利要求1的方法,其中集合是3D-集合策略。
3.根據權利要求1或2的方法,其中數據庫包括EST序列、感興趣的物種的基因組序列和/或GenBank的非冗余序列數據庫或相似的序列數據庫。
4.根據權利要求1-3的方法,其中高通量測序基于Sanger測序,優(yōu)選通過毛細管電泳法。
5.根據權利要求1-3的方法,其中高通量測序是基于合成的測序,優(yōu)選焦磷酸測序。
6.根據權利要求1-4的方法,其中測序在固體支撐物上進行,例如小珠。
7.根據權利要求6的方法,其中測序包括步驟
(1)測序-接頭-連接的片段退火到小珠上,每個小珠退火有單一的片段;
(2)在油包水微反應器中乳化小珠,每個油包水微反應器中包含單一的小珠;
(3)進行乳液PCR(emulsion PCR),以在小珠表面上擴增接頭-連接的片段;
(4)選擇/富集含有擴增的接頭-連接的片段的小珠;
(6)將小珠裝填到孔中,每個孔包含單一的小珠;和
(7)產生焦磷酸鹽信號。
8.根據權利要求1-7的方法,其中引物中的至少一個含有增強結合親和力的一個或多個核苷酸。
全文摘要
本發(fā)明涉及鑒定在轉座子群體中的基因的方法,其包括分離基因組DNA,任選地集合DNA,使用酶對集合中的DNA進行限制化,連接接頭,用引物擴增接頭-連接的片段,引物之一互補于轉座子序列的邊界,高通量測序片段,將片段與數據庫中的已知序列進行比對進而鑒定基因候選物。
文檔編號C12Q1/68GK101310024SQ200680042375
公開日2008年11月19日 申請日期2006年11月8日 優(yōu)先權日2005年11月14日
發(fā)明者M·J·T·范艾克, A·G·M·杰拉茨, A·J·范圖南, M·M·A·萬丹布斯切 申請人:科因股份有限公司