專利名稱:檢測或量化核酸物類的方法和組合物的制作方法
技術領域:
本發(fā)明從總體上涉及核酸分析的方法和裝置,具體而言涉及核酸分析的方法和裝置。
背景技術:
確定核酸樣品中4種核苷酸的序列的速率是分子生物學、醫(yī)學和生物技術進一步發(fā)展的主要技術障礙。自1978年就使用涉及在凝膠中分離核酸分子的核酸測序方法。其他已證明的核酸測序方法是通過雜交進行測序(SBH)。
傳統(tǒng)的確定核苷酸序列的方法(即樣品中A、G、C和T的順序)是通過在特定的核苷酸處降解或復制鏈的雙脫氧鏈終止法制備出隨機終止的、不同標記的核酸片段混合物來進行的。然后將所得的1至500bp間的核酸片段在凝膠上分離,產生一個梯度帶,其中相鄰樣品在長度上有一個核苷酸的不同。
基于陣列的SBH方法不要求在分離、降解、合成或描繪核酸分子時對單一堿基的分辨。使用長度為K個堿基的短鏈寡核苷酸的錯配辨別雜交,可確定靶核酸的K堿基序列寡核苷酸的系列組成。通過唯一重疊評分(uniquelyoverlapping scored)的寡核苷酸組裝出靶核酸序列。
有幾種可能途徑能完成雜交測序。在稱為SBH Format 1的方法中,將核酸樣品排列,并用標記探針與樣品雜交。具有同組核酸樣品的影印膜可被用于平行評分幾種探針和/或探針可被多重復制。可將核酸樣品排列在尼龍膜或其他合適的支持物上并進行雜交。每一膜陣列可使用多次。Format 1對批量處理大量樣品特別有效。
在SBH Format 2中,將探針排列在各自序列相應的基質所在處,一標記的核酸樣品片段與排列的探針雜交。這種情況下,在與所有排列的探針同時進行雜交反應中可確定片段的序列信息。在測序其他核酸片段時,可再次使用同樣的寡核苷酸陣列。通過點滴(spotting)或原位合成探針可制備這些核苷酸陣列。
在SBH Format 3中,使用兩組探針。在一種實施方案中,可將一組排列成具有已知位置的探針陣列形式,將另一組標記的探針組儲存于多孔板上。在這種情況下,不必標記靶核酸。將靶核酸和一或多個被標記探針加入到已排列好的探針組。如果一個附著探針(attached probe)和一個標記探針在靶核酸上都鄰近雜交,那么它們將共價連接,產生一個相當于連接探針總長的可測序列。這種方法可測序長的核酸片段,如完整細菌基因組,無需將核酸亞克隆為小片段。
本發(fā)明中,SBH被用于有效地識別和測序一個或多個核酸樣品。這一方法常用于核酸診斷、法醫(yī)和制作基因圖譜中。它還可用于識別導致遺傳病癥和其他特征的突變、評估生物多樣性和產生多種其他形式的基于核酸序列的數(shù)據(jù)。
發(fā)明簡述本發(fā)明提供了一種用于檢測靶核酸物類的方法,包括以下步驟提供固定于一種基質的探針陣列和大量標記探針,選擇每一標記探針具有與靶核酸第一部分互補的第一核酸序列,并且固定于基質上的至少一個探針的核酸序列與靶核酸序列的第二部分互補,所述第二部分與第一部分相鄰;在合適的條件下將靶核酸加樣于陣列上使探針序列與互補序列雜交;將一標記探針引入該陣列;使固定于基質上的探針與靶核酸雜交;使標記探針與靶核酸雜交;將標記探針固定于陣列中相鄰的雜交探針上;檢測固定于陣列中探針上的標記探針。根據(jù)本發(fā)明的優(yōu)選方法,固定于基質上的探針陣列包括一組通用探針。根據(jù)本發(fā)明其他優(yōu)選方案,固定于基質上的至少兩個探針限定靶核酸序列的重疊序列,并且更為優(yōu)選的是至少兩個標記探針限定靶核酸序列的重疊序列。進一步來講,本發(fā)明另一方面提供了一種檢測已知序列靶核酸的方法,包括以下步驟將核酸樣品與一組附著于固體基質上的固定化寡核苷酸探針在雜交條件下接觸,其中固定化探針能與所述靶核酸序列的不同部分特異雜交;將靶核酸與一組標記的寡核苷酸探針在溶液中在雜交條件下進行接觸,其中標記探針能與所述靶核酸序列的相鄰于固定化探針的不同部分特異雜交;將固定化探針與正好鄰接于靶序列上固定化探針的標記探針共價連接(如使用連接酶);去除沒有連接上的標記探針;通過檢測連接于固定化探針上的所述標記探針的存在來檢測靶核酸的存在。本發(fā)明還提供了確定一組部分或完整已測序列基因中的一員在細胞型、組織或組織混合物中的表達的方法,包括下列步驟限定特異于已測序基因的固定或標記探針對;將未標記的核酸樣品和相應的標記探針與一陣列或多陣列固定探針雜交;在鄰接的雜交標記探針和固定探針之間形成共價鍵;去除未連接探針;通過檢測鍵合于探針陣列中預定位置上的標記探針來確定被測序基因的存在。在本發(fā)明一優(yōu)選實施方案中,靶核酸識別傳染性因子的存在。
此外,本發(fā)明還提供了一寡核苷酸探針陣列,含有一尼龍膜;在該尼龍膜上的大量寡核苷酸探針亞陣列,這些亞陣列包括許多單一的斑點(spot),每一點由許多同樣序列的寡核苷酸探針組成;位于該尼龍膜上亞陣列之間的許多疏水屏障,其中這些疏水屏障防止相鄰亞陣列間的交叉污染。
本發(fā)明還提供了一種在靶核酸上具有第一末端和第二末端的重復序列的測序方法,包括下列步驟(a)提供許多不同長度的間隔物寡核苷酸,其中間隔物寡核苷酸包括重復序列;(b)提供一個已知與重復序列第一末端相鄰的第一寡核苷酸;(c)提供許多第二寡核苷酸,其中之一與重復序列的第二末端相鄰,這些第二寡核苷酸是被標記的;(d)將第一寡核苷酸、多個第二寡核苷酸和一個間隔物寡核苷酸與靶核酸雜交;(e)連接雜交的寡核苷酸;(f)從未連接的寡核苷酸中分離出連接的寡核苷酸;(g)在連接的寡核苷酸中檢測標記。
本發(fā)明還提供了一種靶核酸上具有第一和第二末端的分支點序列的測序方法,包括下列步驟(a)提供與分支點序列第一部分互補的第一寡核苷酸,其中第一寡核苷酸從分支點序列的第一末端延伸至少一個核苷酸;(b)提供許多標記的第二寡核苷酸,其與分支點序列的第二部分互補,其中多個第二寡核苷酸從分支點序列的第二末端延伸至少一個核苷酸,并且從分支點序列第二末端延伸的第二寡核苷酸部分包括來自分支點序列的許多序列的互補序列;(c)將第一寡核苷酸、第二寡核苷酸之一與靶DNA雜交;(d)連接雜交的寡核苷酸;(e)從未連接的寡核苷酸分離連接的寡核苷酸;(f)檢測連接的寡核苷酸中的標記。
本發(fā)明還提供了使用預測對于靶核酸為陰性的探針來確定序列的方法。通過將靶核酸與“陰性”探針雜交來確定這些探針不與靶核酸形成完全匹配,從而確定靶序列。
本發(fā)明還提供了一種使用寡核苷酸探針分析核酸的方法,這些寡核苷酸探針復合有不同的標記,這樣在雜交反應中探針重復使用而沒有序列信息的損失(即不同的探針具有不同的標記,這樣不同探針與靶的雜交可被區(qū)別開)。在一優(yōu)選實施方案中,標記為放射性同位素或熒光分子或酶和帶電物質標記(electrophore mass label)。在一更優(yōu)選的實施方案中,將不同標記的寡核苷酸探針用于Format III SBH中,并將多個探針(多于2個,一個探針為固定化探針)連接在一起。
當與樣品中同源核酸相比靶的存在量很小時,本發(fā)明還提供了一種檢測具有已知序列的靶核酸存在的方法。在一優(yōu)選實施方案中,靶核酸是一個等位基因,在具有不同來源的核酸的樣品中以非常低的頻率存在。在另一優(yōu)選實施例中,靶核酸具有一突變序列,以非常低的頻率存在于核酸樣品中。
本發(fā)明還提供了一種使用單次凝膠測序來確定靶核酸序列的方法。單次凝膠測序的引物來自SBH獲得的序列,這些引物用于標準的桑格測序反應為靶核酸提供凝膠序列信息。然后將單次凝膠測序獲得的序列與SBH衍生序列相比來確定序列。
本發(fā)明還提供了一種使用單次凝膠測序解析分支點的方法。從SBH測序第一輪之后獲得的Sfs的末端識別單次凝膠測序反應的引物,這些引物用于標準桑格測序反應中以提供通過Sfs分支點的凝膠測序信息。然后將通過分支點的桑格測序結果與Sfs比較確認相鄰的Sfs,從而將Sfs排列起來。
本發(fā)明還提供了一種由PCR制備含有靶核酸樣品的方法,在SBH反應之前無需純化PCR產物。在Format I SBH中將PCR粗產物無需預先純化加樣于基質上,在引入標記探針之前可漂洗基質。
本發(fā)明還提供了一種用于分析靶核酸的裝置和方法。所述裝置包含兩陣列核酸,它們在所希望的時間被混合在一起。在一優(yōu)選實施方案中,其中一陣列核酸被標記。在另一優(yōu)選的實施方案中,將一種材料放置于兩陣列探針之間防止兩陣列核酸混合。當除去這種材料或使其可滲透時,兩陣列核酸被混合在一起。在另一優(yōu)選實施方案中,一陣列核酸是靶核酸,另一陣列核酸是寡核苷酸探針。在另一優(yōu)選實施方案中,兩陣列核酸均為寡核苷酸探針。在另一優(yōu)選實施方案中,一陣列核酸是寡核苷酸探針和靶核酸,另一陣列核酸是寡核苷酸探針。在另一優(yōu)選實施方案中,兩陣列核酸均為寡核苷酸探針和靶核酸。
本發(fā)明一個使用上述裝置的方法包括以下步驟提供固定于基質上的核酸陣列,提供第二核酸陣列,提供使第二陣列核酸與固定陣列核酸相接觸的條件,其中一核酸陣列是靶核酸,另一陣列是寡核苷酸探針,分析雜交結果。在一優(yōu)選實施方案中,固定陣列是靶核酸,第二陣列是標記的寡核苷酸探針。在另一優(yōu)選的實施方案中,在兩陣列之間放置了一種材料以防止核酸的混合,直至除去材料或使之可滲透核酸時,兩陣列核酸才能混合。
本發(fā)明第二個使用上述裝置的方法包括以下步驟提供兩陣列核酸探針,提供使兩陣列探針相互接觸的條件和靶核酸,將在靶核酸上相鄰的探針連接在一起,分析雜交結果。在一優(yōu)選實施方案中,一陣列探針被固定,另一陣列探針被標記。在更為優(yōu)選的實施方案中,在兩陣列之間放置了一種材料以防止探針的混合,直至除去材料或使之可滲透探針時,兩陣列探針才能混合。
另外,本發(fā)明還提供了寡核苷酸探針陣列被固定于其上的基質,其中,每一個探針與其相鄰的探針被一種阻礙樣品溶液流動的物理屏障分隔開。在一優(yōu)選實施方案中,物理屏障由疏水材料構成。
另外,本發(fā)明還提供了一種制備被物理屏障分隔的寡核苷酸探針陣列的方法。在一優(yōu)選實施方案中,使用一種噴墨頭將一種格柵置于基質上,提供了一種減少陣列反應體積的材料。
本發(fā)明還提供了寡核苷酸被固定于其上形成三維陣列的基質。這種三維陣列將讀取探針結果的高分辨力(每一層面每cm2具有相對低密度的探針)與三維空間的高信息容量(多個層面或探針)結合。
本發(fā)明還提供了一種寡核苷酸探針固定于其上的基質,其中寡核苷酸探針具有間隔基,間隔基增加了基質和寡核苷酸探針信息部分(如與靶結合并給出序列信息的寡核苷酸探針部分)的距離。在一優(yōu)選方案中,間隔基包括核糖和磷酸,其中磷酸與核糖通過5’和3’羥基形成酯從而與核糖共價結合,形成聚合物。
本發(fā)明還提供了一種將cDNA克隆分為相似序列組或等同序列組的方法,這樣可從每一組中選出一個有代表性的克隆進行測序。在一優(yōu)選實施方案中,在測序大量克隆時使用這種分組的方法,包括以下步驟用大量寡核苷酸探針探測每一個克?。淮_定哪個探針和每個克隆結合及每一探針的信號強度;通過識別以相似強度與相似探針結合的克隆將這些克隆分成許多組;每組至少測序一個克隆。在更為優(yōu)選的實施方案中,多個探針包含約50至約500個不同的探針。在另一優(yōu)選的實施方案中,多個探針包括約300個不同的探針。在最優(yōu)選的實施方案中,大量克隆是大量cDNA克隆。
本發(fā)明還涉及與分散顆粒復合(共價或非共價)的寡核苷酸探針,其中根據(jù)物理性質將顆粒分為許多組。在一優(yōu)選實施方案中,不同的探針附著于每組分散的顆粒上,通過識別分散顆粒的物理性質確定探針的同一性。在另一實施方案中,根據(jù)探針的物理性質來識別探針。物理性質包括任一可用來分辨分散顆粒的性質,包括例如大小、熒光、放射性、電磁荷或吸光度,或附著在顆粒上的標記如染料、放射性核素或EML。在一優(yōu)選實施方案中,通過一檢測顆粒大小、電荷、熒光或吸光度的流式細胞計數(shù)器來分離分散顆粒。
本發(fā)明還涉及使用與分散顆粒復合的探針來分析靶核酸的方法。這些探針可用于上述的任一方法,但是要通過分散顆粒的物理性質來識別探針。這些探針還可用于Format III步驟中,其中游離探針通過一個標記識別,復合于分散顆粒上的探針由物理性質識別。在一優(yōu)選實施方案中,探針用于用SBH測序靶核酸。
本發(fā)明還涉及使用降低互補多核苷酸鏈結合穩(wěn)定性(降低結合能)的試劑和提高互補多核苷酸鏈結合穩(wěn)定性(提高結合能)的試劑的方法。在一優(yōu)選實施方案中,該試劑是三烷基銨鹽、氯化鈉、磷酸鹽、硼酸鹽、有機溶劑如甲酰胺、乙二醇、二甲基亞砜和二甲基甲酰胺、尿素、鈲鹽、氨基酸類似物如甜菜堿、多胺如亞精胺和精胺或其他中和磷酸骨架負電荷的帶正電荷的分子、去污劑如十二烷基磺酸鈉、十二烷基肌氨酸鈉、小/大溝結合劑、帶正電荷的多肽和插入劑如吖啶、溴乙錠和炭疽菌素。在一優(yōu)選實施方案中,用一種試劑降低或提高互補多核苷酸對的Tm。在一更優(yōu)選的實施方案中,用試劑的混合物降低或提高互補多核苷酸對的Tm。在一最優(yōu)選的實施方案中,用一種試劑或試劑的混合物提高從錯配的互補多核苷酸中辯別完全匹配的互補多核苷酸的能力。在一優(yōu)選實施方案中,加入試劑或多種試劑從而AT堿基對的結合能約等于GC堿基對的結合能。通過加入試劑中和或屏蔽多核苷酸骨架中磷酸基團的負電荷可提高這些互補多核苷酸的結合能。
附圖的簡要描述
圖1為用于批量生產探針陣列的裝置的俯視圖。
圖2為用于批量生產探針陣列的裝置的側視圖。
圖3為用于批量生產探針陣列的裝置的分配單元的分解側視圖。
優(yōu)選實施方案的詳細描述Format I SBH適于同時分析多組樣品。在成千上萬個獨立的雜交反應中使用許多小膜片可在大的陣列上進行成千上萬個樣品的平行評分。DNA的識別涉及每個反應1-20個探針,某些情況下突變的識別涉及為每個樣品特異選擇或設計的1000多個探針。為鑒定突變的DNA片段的性質,可為第一輪雜交中檢測出的每種突變合成或選擇特異性探針。
可將DNA樣品制備成小陣列,這些小陣列可被合適的間隔物分隔開,可用選自排列在多孔板上的一組寡核苷酸探針同時檢測。小陣列可由一個或多個樣品組成。每個小陣列中DNA樣品可包括一個序列的突變體或個體樣品??蓪⑾噜忂B續(xù)的小陣列組合成較大的陣列。這類較大的陣列可包括相同的小陣列的重復陣列或可包括不同DNA片段樣品的陣列。通用組探針包括以預定精確度分析DNA片段的足夠的探針,如考慮到讀取每個堿基對(“bp”)的冗余性。這些組包括的探針可多于一個特定片段所必需的探針,但包括的探針可少于測試成千上萬個不同序列DNA樣品所必需的探針。
DNA或等位基因的識別和診斷測序方法可包括下列步驟1)從專用的、具代表性的或通用性組中篩選探針亞組,以與多個小陣列的每一陣列雜交;2)在平行分析的每個陣列的每一亞陣列上加入第一探針;3)進行雜交并對雜交結果進行評分;4)剝離先前使用過的探針;5)對要評分的剩余探針重復進行雜交、評分和剝離步驟;6)對所得結果進行處理得到最終的分析結果或確定其他要雜交的探針;7)對某些亞陣列進行再次雜交;8)對全套數(shù)據(jù)進行分析并得到最后的分析結果。
這種途徑提供了一種快速識別和測序一種類型(如DAN,RNA)的少量核酸樣品的方法,還提供了使用預先合成的一組易控大小探針平行分析呈亞陣列形式的多種樣品類型的方法。將兩種途徑結合產生出一種用來確定DNA同一性、DNA診斷和識別突變的有效而通用的方法。
對于識別已知序列,可使用一小組較短探針,代替較長的特定探針。在這一途徑中,盡管要對較多的探針進行評分,但可合成一組通用探針來覆蓋任一類型序列。例如,全套6堿基序列僅包括4096個探針,完整的7堿基序列僅包括16384個探針。
可使用兩種水平的雜交進行DNA片段的完整測序。一種水平是覆蓋每一堿基的一組足夠的探針至少雜交一次。為達到這一目的,可對一標準樣品合成一組特異性探針。使用這組探針的雜交結果顯示出在非標準樣品中是否和在哪里發(fā)生突變(不同)。并且,這組探針可包括確定“陽性”探針雜交結果的“陰性”探針。為確定變化的同一性,可使用附加的特異性探針與樣品雜交。該附加組探針具有“陽性”(突變序列)和“陰性”探針兩種探針,序列的變化由陽性探針識別由陰性探針確定。
在另一實施方案中,來自通用組的所有探針被評分。一組通用組探針允許以兩步法對每個樣品相對少量的探針進行評分,避免了時間的浪費。雜交過程可涉及連續(xù)檢測、在第一步用計算機處理首先進行雜交的一最佳亞組探針、然后第二步在所得結果的基礎上確定通用組中那些要評分的附加探針。兩組探針均具有確認組中陽性探針的陰性探針。并且,可隨后在一個單獨的步驟中通過將樣品與從SBH結果中識別的一組“陰性”探針雜交來確定所得序列。
在SBH序列拼合中,由于偶然性或生物學原因在分析DNA片段時重復出現(xiàn)的K-1寡核苷酸可被特別考慮。如果沒有其他信息,相對小的DNA片段可被完全拼合,每一堿基被讀取多次。
在拼合相對較長的片段時,由于一組陽性得分探針中的K-1序列(即比探針長度短的序列)的重復出現(xiàn)會引起錯讀。如果必須確定突變或相似序列這種問題不會存在(即K-1序列不是完全同樣被重復的)。可利用某序列的有關知識作為“模板”來正確拼合已知相似的序列(如數(shù)據(jù)庫中存在的序列),通過將用于未知序列的陽性探針排成陣列以顯示出在模板上的最佳匹配。
使用一個樣品陣列避免了在單一樣品或一小組樣品上對許多寡核苷酸的連續(xù)評分。這一途徑允許通過僅對一個物理目標操作來平行評分許多探針。可在相對短時間內測序長度為1000 bp的DNA樣品的亞陣列。如果將樣品在一個陣列中點滴為50個亞陣列且陣列被重復檢測10次,那么可評分500個探針。在篩查突變的發(fā)生時,可使用足夠的探針覆蓋每一個堿基三次。如果存在突變,幾個覆蓋的探針就會受影響。利用陰性探針同一性信息可作出具有兩堿基準確度的突變圖譜。為確定這種方式作圖中單一堿基的突變,可再附加使用15個探針。這些探針覆蓋了針對兩個有疑問位置的任一堿基的組合(假設沒有缺失和插入)??稍诤幸粋€所給樣品的50個亞陣列上在一個循環(huán)中評分這些探針。在完成多重標記彩色圖(即多重復制(multiplexing))中,將2至6個探針作為一個庫(pool),每個探針具有不同的標記如不同的熒光染料,由此減少雜交循環(huán)數(shù)和縮短測序過程。
在更為復雜的情況下,可能有兩個相鄰的突變或插入。可用較多的探針進行處理。例如,可用64個探針確定3個堿基的插入??赏ㄟ^雜交、在先前雜交結果的基礎上選擇一組新的探針幾個步驟處理最復雜的情況。
如果要分析的亞陣列包括一種類型的幾十或幾百個樣品,那么可發(fā)現(xiàn)它們中的有些含有一個或多個變化(突變、插入或缺失)。對于發(fā)生突變的每個片段,可評分一組特異探針。評分一種類型樣品的探針總數(shù)可以是數(shù)百個。對重復陣列平行評分有利于以較少循環(huán)評分數(shù)百個探針。此外,可收集相容的探針。陽性雜交可歸屬于用于檢測特定DNA片段的探針,因為這些片段通常在其組成堿基上有75%不同。
使用較大的一組較長探針可分析較長的靶。這些靶可以代表一個片段庫如外顯子克隆庫。
可利用一種特異雜交評分方法確定來自二倍體染色體組的待測序基因組片段中突變的存在。有兩種情況i)來自一條染色體的序列代表一個已知的等位基因,來自另一條染色體的序列代表一個新的突變;或ii)兩條染色體均含有新的但不同的突變。在這兩種情況下,所設計的對變化作出圖譜的掃描步驟給出了在突變位置兩倍的最大信號差異。并且,這種方法可用于識別個體攜帶的是哪個等位基因,對于該基因個體是否是純合的或雜合的。
通過將相應信號與純合及雜合對照相比較,可以有效獲得第一種情況中所需的兩倍信號差異的評分。這種途徑可確定每一個所給樣品中對于每一個特定探針雜交信號的相對減弱。這主要是因為對于與具有相同全匹配靶的不同核酸片段雜交的一個特定探針,雜交效率可有兩倍多的差異。并且,依據(jù)寡核苷酸探針數(shù)目,不同的突變位點可影響多于一個探針。兩至四個相連探針信號的減弱較為顯著地顯示出一個突變位點。可使用幾小組的選擇探針來檢測結果,這些探針中一個或幾個能給出全匹配信號,信號平均比來自含錯配雙鏈體的信號強8倍。
分隔的膜片允許非常靈活地組織試驗,以容納代表一個所給序列類型的相對較大數(shù)量的樣品或者以相對少量樣品代表的許多不同類型的樣品??梢蕴囟ǖ男士刂?-256個樣品??蓪⒋它c數(shù)范圍內亞陣列設計成與存儲和標記寡核苷酸所用的標準多孔板的形狀大小相吻合。對于不同數(shù)量的樣品可調節(jié)亞陣列的大小,或者可使用一些標準大小的亞陣列。如果一種類型的所有樣品不適合于一個亞陣列,可以使用附加的亞陣列或膜,并用同樣的探針進行處理。此外,通過調節(jié)每一個亞陣列的重復數(shù)目可改變完成識別或測序過程的時間。
此處所用的“中間片段”指長度為5至1000個堿基的寡核苷酸,優(yōu)選長度10至40個堿基。
在Format 3中,已知序列的第一組寡核苷酸探針在允許其與具有各自互補序列的核酸雜交的條件下被固定于一種固相支持物上。提供第二組被標記的寡核苷酸探針于溶液中。探針組內及探針組間可以是相同長度的也可以是不同長度的。可將待測序的核酸或其中間片段以雙鏈形式提供給第一組探針(特別是存在recA蛋白以允許在非變性條件下雜交時),或以單鏈形式提供并在允許不同互補程度的雜交條件下(例如,在允許辨別完全匹配和一個堿基對錯配雜交的的條件下)進行??稍谑褂玫诙M探針之前之后或同時將待測序的核酸或其中間片段提供給第一組探針。與靶上相鄰位點相結合的探針被連接在一起(如通過堆積相互作用或連接酶或能在相鄰探針間形成化學鍵的其他方法)。在使相鄰探針結合之后,洗去沒有通過化學鍵與第一組探針中的一員相結合而固定于表面的片段和探針,例如使用使雜交解鏈的高溫(達100℃)漂洗溶液。然后,使用適合于所用標記的方法(例如可以是化學發(fā)光、熒光、放射性、酶、光密度或帶電物質標記)來檢測第二組中結合的探針。
這里使用的核苷酸堿基“匹配”或“互補”指它們在特定的條件下通過氫鍵形成穩(wěn)定的雙鏈體。例如在雜交分析中通常采用的條件下,腺嘌呤(“A”)與胸腺嘧啶(“T”)匹配,而不是鳥嘌呤(“G”)或胞嘧啶(“C”)。與此類似,G匹配C,而不是A或T。其他以較差特異方式形成氫鍵的堿基如次黃嘌呤或通用堿基(“M”堿基,Nichols等1994)或其他被修飾的堿基如甲基化堿基與那些能在特定條件下形成穩(wěn)定雙鏈體的堿基互補。如果探針中每個堿基都是按照Watson和Crick的堿基配對原則與待測序核酸堿基通過氫鍵鍵合形成雙鏈體,那么認為探針“完全互補”或“完全匹配”(即沒有任何周圍序列的影響,對于一個特定探針形成的雙鏈體具有最大的結合能)?!巴耆パa”和“完全匹配”也指包含具有類似物或修飾核苷酸的探針。根據(jù)為類似物或修飾核苷酸選擇的“完全匹配原則”來判斷類似物或修飾核苷酸的“完全匹配”(如對一個特定類似物或修飾的核苷酸具有最大結合能的結合對)。根據(jù)該原則不形成結合對的探針中的每個堿基被認為在特異性雜交條件下是錯配的。
當每一個探針與待測序核酸完全匹配時可將一列探針拼合。然后可對這列探針進行分析,將其以最大重疊形式排序。通過將第一個探針與這列中其他每個探針比較來確定哪個探針在3’末端具有最長的與第二探針5’端堿基序列相同的堿基序列,可完成這種排序。之后,將第一第二探針重疊,通過將第二探針的5‘端與其他所有剩余探針的3’端比較并將第一探針的3’端與其他所有剩余探針的5’端比較來重復這個過程??蛇B續(xù)進行這一過程直至這列中沒有探針沒有被其他探針重疊。或者,可從陽性探針列中選擇出多于一個探針,并平行產生出多于一組的重疊探針(“序列核(sequence nucleus)”)。這種序列拼合的每種方法中的探針列可以是與待測序核酸完全互補的所有探針列或可以是其任一亞組。
可將探針的5‘端和3’端重疊得到較長的序列延伸。連續(xù)進行這種拼合探針的過程,直至由于分支點(在片段中一個探針被重復)、長于探針的重復序列或未克隆片段產生錯讀。在任何兩個相關性之間序列的延伸均稱為亞克隆序列片段(Sfs)。當由于獲得可選擇的合適的探針重疊,在序列拼合中產生錯讀時,可使用跨越可選擇重疊位點的較長的探針雜交、競爭雜交、將跨越錯讀位點探針對的可選擇末端與末端連接,或可使用單次凝膠分析(以提供Sfs的非錯讀排序)。
通過采用上述步驟,從與重疊或非重疊探針直至拼合的Sfs和中間片段或完整來源的DNA分子(如染色體)的全部序列的雜交模式(可與核酸樣品同一性有關以用作識別核酸樣品的特征)可以獲得任一所需水平的序列。
測序通??砂ㄒ韵虏襟E
(a)在允許一個片段與一個具有互補序列的固定化探針形成初級復合物的有效條件下,將固定化寡核苷酸探針的一陣列與一核酸片段相接觸;(b)在允許初級復合物與標記的寡核苷酸探針雜交的有效條件下,將初級復合物與這組標記的寡核苷酸探針在溶液中雜交,由此形成二級復合物,其中片段與固定化探針和標記探針均雜交;(c)從二級復合物中除去任一沒有雜交的與固定化探針相鄰的標記探針;(d)通過檢測標記物的存在而檢測相鄰的標記探針和未標記探針的存在;(e)通過將固定化探針和標記探針的已知序列相連接確定出片段的核酸序列。
選擇雜交和漂洗條件以檢測基本上完全匹配的雜交(如那些其中片段和探針在7個位置上有6個位置發(fā)生雜交的雜交),可選擇雜交和漂洗條件允許完全匹配的變異和一對堿基對錯配,或選擇雜交和漂洗條件允許僅僅檢測完全匹配的雜交。
可以按常規(guī)方法通過最優(yōu)化方法或探索研究來確定合適的雜交條件。這種方法和研究通常由那些制定實驗方案的本領域技術人員來進行。參見Ausubel等Current Protocols in Molecular Biology,Vol.1-2,John Wiley & Sons(1989);Sambrook等,Molecular Cloning A Laboratory Manual,第二版,Vols.1-3,ColdSprings Harbor Press(1989);和Maniatis等,Molecular CloningA LaboratoryManual,Cold Spring Harbor Laboratory Cold Spring Harbor,New York(1982),所有這些在此引為參考文獻。例如,溫度、組分濃度、雜交和漂洗時間、緩沖劑成分和其pH及離子強度這些條件均是可以改變的。
在標記探針和固定化探針沒有被物理或化學連接的實例中,可僅僅依據(jù)受控嚴緊性的漂洗步驟檢測。在這種情況下,由于相鄰探針之間的堆積作用,相鄰探針具有增強的結合親和力。為最優(yōu)化上述過程可改變實驗條件。
在固定化和標記探針被連接的實例中,可通過一種化學連接劑(如水溶性碳化二亞胺或溴化氰)進行連接,或可采用一種連接酶如市售的T4DNA連接酶。利用相鄰探針相對于非相鄰探針穩(wěn)定性的差別可選擇漂洗條件以區(qū)分相鄰的和非相鄰的標記的和固定化的探針。
可使用熒光染料、化學發(fā)光系統(tǒng)、放射性標記(如35S、3H、32P或33P)或可用質譜分析檢測的同位素來標記寡核苷酸探針。
當未知序列的核酸分子長于約45或50個堿基對時,可將該分子片段化,測定片段序列。通過限制酶消化、剪切或NaOH處理進行片段化??筛鶕?jù)分子大小(如通過凝膠電泳)分離片段,得到約10至40個堿基對的優(yōu)選片段長度。
可通過本領域已知的多種方法固定寡核苷酸,如使用核苷亞磷酰胺(nucleoside phosphoramidite)或膦酸氫化核苷(nucleoside hydrogen phosphorate)試劑通過一個磷酸基團的激光活化的光脫保護吸附??墒褂貌A?、尼龍、硅膠和碳氟化合物支持物。
可將寡核苷酸排成陣列,這些陣列可包括所有的或給定長度的所有探針的亞組或選擇長度的探針組。
可使用疏水分隔物分隔開探針或探針的亞陣列。可設計陣列用于不同用途(如作圖譜、部分測序、用于診斷目的的靶區(qū)域測序、mRNA測序及大規(guī)模測序)。通過選擇探針在基質上的組合和排列可設計一種特定的芯片專用于一個特定用途。
例如,可構建所有寡核苷酸探針為5個堿基長度的1024個固定化探針陣列(每個陣列含1024個不同的探針)。在該實例中的探針從信息意義上說是5堿基序列(實際上它們可以是較長的探針)??蓪⒌诙M1024個5堿基序列探針進行標記,每一個標記探針可與待測序片段一起被提供給固定化探針陣列。在該實例中,1024個陣列將被組合形成一個大的超級陣列或“超芯片”。在那些沿核酸片段一個固定化探針與一個標記探針末端與末端雜交的實例中,通過例如連接將兩個探針接合在一起,且在除去未結合的標記之后,通過具有一已知序列的固定化探針陣列中一點處標記的存在與已知序列標記探針上所施用的物質之間的關系,檢測與樣品片段互補的10堿基序列。樣品片段序列其實就是在標記探針序列中連續(xù)的固定化探針序列。以這種方式,通過僅利用5堿基序列的組合方法可以檢測出所有的一百萬種可能的10堿基序列,寡核苷酸合成所需的工作量僅是千分之一。
在一優(yōu)選實施方案中,將支持寡核苷酸探針陣列的基質分成許多部分,這樣陣列中每個探針可以通過例如是疏水材料的物理屏障與相鄰探針分隔開。在一優(yōu)選實施方案中,物理屏障的寬度為100μm至30μm。在一更優(yōu)選的實施方案中,每個探針中心至任何一個相鄰探針中心的距離是325μm??墒褂梅且苿庸潭ɑ|或固定于帶有噴墨沉積裝置如微滴量頭的旋轉鼓或盤的基質及合適的自動操縱系統(tǒng)如一種anorad gantry大量生產這種探針陣列。
在另一優(yōu)選實施方案中,寡核苷酸探針固定于一個三維陣列。該三維陣列由多層組成,每層可單獨進行分析且與其他層是分開的。該三維陣列可以是多種形式的,例如,可將陣列放置在具有許多凹槽的基質上,探針位于凹槽中的不同深度(每一層面由凹槽內相似深度處的探針組成);或可將陣列放置在具有不同深度凹槽的基質上,探針位于凹槽底部或位于將凹槽分隔的凸起處,或者可使用凸起與凹槽的一些組合(每一層面由在某一深度的所有探針組成);或者可將陣列放置于多個片層組成的基質上,所述片層層疊形成三維陣列。
這些陣列中的探針可包括增加基質表面與探針信息部分之間距離的間隔基。這些間隔基可以由能形成至少兩個共價鍵的原子如碳、硅、氧、硫、磷等組成,或可以由能形成至少兩個共價鍵的分子如糖一磷酸酯基團、氨基酸、肽、核苷、核苷酸、糖、碳水化合物、芳香環(huán)、烴環(huán)、直鏈和支鏈烷烴等組成。
可將待測序核酸樣品片段化或進行其他處理(如使用recA)以避免樣品二級結構妨礙雜交形成。例如可通過限制酶如Cvi JI消化、物理剪切(如用超聲)或用NaOH處理來使樣品片段化??赏ㄟ^凝膠電泳分離所得片段,并從凝膠中提取如約10個堿基至約40個堿基之間的合適長度的片段。在一優(yōu)選實施方案中,核酸樣品的“片段”不能與庫中其他片段相連。通過用磷酸酶(如小牛小腸磷酸酶)處理片段化的核酸可獲得這種片段庫。此外,在核酸樣品的桑格雙脫氧測序反應中使用隨機引物(如N5-N9,其中N=A、G、T或C)可獲得核酸樣品的不可連接片段。這將會產生具有與靶核酸互補序列的且終止于不能與其他片段連接的雙脫氧殘基的DNA片段。
通過在固定和標記探針間引入可裂解鍵,然后在完成一輪Format 3分析之后裂解該鍵可制備可再利用的Format 3 SBH陣列。標記探針可以是核糖核苷酸,或一個核糖核苷酸可被用作標記探針中的連接堿基,這樣通過RNAse或尿嘧啶-DNA糖基化處理或NaOH處理可隨后將這一探針除去。此外,可選擇裂解由化學連接產生的鍵。
其他改變包括使用修飾的寡核苷酸以提高特異性或效率,循環(huán)雜交以增強雜交信號,例如在為第一組標記探針選擇的最優(yōu)化條件(如溫度)下進行雜交循環(huán),隨后在為第二組標記探針選擇的最優(yōu)化條件下雜交。通過使用末端分別是四種核苷酸堿基A、T、C和G之一的探針的混合物(優(yōu)選等摩爾量的混合物)確定閱讀框中的移動。
對于片段的已排序的序列,分支點產生錯讀。雖然序列信息通過SBH確定,但可使用(i)以完整凝膠測序的成本的一部分進行長的可讀長度的單次凝膠測序;或(ii)與相關序列比較,對這種錯讀(“分支點”)發(fā)生處的雜交數(shù)據(jù)排序。從SBH序列信息或從已知載體信息如載體插入位點的側翼序列來識別用于通過分支點的單次凝膠測序的引物,在核酸樣品上進行標準桑格測序反應。從這種單次凝膠測序獲得的序列與讀入讀出分支點的Sfs比較以識別Sfs的順序。或者,通過將Sfs序列與相關序列對比并排序Sfs產生一個與相關序列最接近的序列,可排序Sfs。
此外,可通過單次凝膠測序確定靶片段中串聯(lián)重復核酸片段的數(shù)目。因為串聯(lián)重復很少發(fā)生在基因的蛋白編碼部分,所以僅當非編碼區(qū)之一被識別為具有特殊用途時(如如果它是一個重要的調節(jié)區(qū))才進行凝膠測序步驟。
關于一個僅約200個寡核苷酸探針的組顯示的雜交程度信息(約為完整測序的5%的勞動)限定了每個基因的唯一特征,可用來從文庫中分選cDNA以確定文庫是否含有同樣基因的多個拷貝。通過這些特征,可區(qū)別和查清相同的、相似的和不同的cDNA。
核酸及分離、克隆和測序核酸的方法是本領域技術人員熟知的。參見如Ausubel等,Current Protocols in Molecular Biology,第1-2卷,John Wiley & Sons(1989);Sambrook等,Molecular Cloning A Laboratory Manual,第2版,第1-3卷,Cold Spring Harbor Press(1989),這兩份文獻在此均引為參考。
SBH是一個發(fā)展成熟的技術,可由本領域技術人員熟知的多種方法進行。特別地,下列文獻中與雜交測序相關的技術在此引作參考Drmanac等,U.S.專利5,202,231(在此引為參考),1993年4月13日出版;Drmanac等,Genomics,4,114-128(1989);Drmanac等,Proceedings of the First Int′l.Conf.ElectrophoresisSupercomputing Human Genome,Cantor等編,World Scientific Pub.Co.,Singapore,47-59(1991);Drmanac等,Science 260,1649-1652(1993);Lehrach等,GenomeAnalysisGenetic and Physical Mapping,1,39-81(1990),Cold Spring HarborLaboratory Press;Drmanac等,Nucl.Acids Res.4691(1986);Stevanovic等,Gene,79,139(1989);Panusku等,Mol.Biol.Evol.,1,607(1990);Nizetic等,Nucl.Acids Res.,19,182(1991);Drmanac等,J.Biomol.Struct.Dyn.,5,1085(1991);Hoheisel等,Mol.Gen.,4,125-132(1991);Sterezoska等,Proc.Nat′l Acad.Sci.(USA),88,10089(1991);和Drmanac等,Nucl.Acids Res.,19,5839(1991);Drmanac等,Int.J.Genome Res.,1,59-79(1992)。
下述實施例詳細描述了本發(fā)明。根據(jù)本發(fā)明公開內容,本領域技術人員可以理解在本發(fā)明范圍內可作出許多其他實施方案和改變。因此,應認為本發(fā)明的較寬范圍不限制在下述實施例的公開范圍內。
實施例1探針組的制備可制備兩種類型的通用組探針。第一組是一組完整的(或至少一個非互補亞組)較短探針,例如所有4096(或約2000非互補)個6堿基序列,或所有16,384(或約8000非互補)7堿基序列。8堿基序列和更長探針的全部非互補亞組不太便于得到,因為它們包括32,000或更多的探針。
選擇一組第二種類型的的探針,為一個小的探針亞組,使用至少一個探針足以讀出任一序列中的每個bp。例如,16個二聚體中12個是足夠的。用于測序雙鏈DNA的7堿基序列、8堿基序列和9堿基序列的小的亞組可分別有約3000、10,000和30,000個探針。
還可選擇探針組識別已知序列的靶核酸,和/或識別已知序列靶核酸的等位基因或突變體。這類探針組含有足夠的探針,由此靶核酸的每個位置核苷酸至少被讀一次。通過失去與一個“陽性”探針的結合來識別等位基因或突變體。然后,通過用含每個可能的核苷酸變化和這些探針位置上變化組合的探針組探測靶核酸來確定這些等位基因或突變體的特異序列。
探針組還可以由50個探針至一個通用組探針組成(具有某一長度的所有探針),更為優(yōu)選的是該通用組由100-500個探針組成,且在一最優(yōu)選實施方案中,探針組含300個探針。在一優(yōu)選實施方案中,探針組是6-9個核苷酸長度,并被用于將cDNA克隆分組為相似序列或等同序列,這樣可從每個待測序組中選擇出單一代表性克隆。
利用標準化學方法制備末端有1至3個非特定的(混合的A、T、C和G)或通用(如M堿基或肌苷)堿基的探針。如果使用放射性標記,通過放射性標記亞磷基團探針可具有用于激酶化的5’末端羥基。或者,可使用以任一相容系統(tǒng)如熒光染料標記的探針。也可以使用其他形式的探針,如含有PNA(蛋白核酸)或改變雙鏈體穩(wěn)定性的修飾堿基的探針。
可將探針存放在條形編碼多孔板中。小數(shù)量的探針可使用96孔板;10,000或更多的探針優(yōu)選存放在384或864孔板。5至50個板層足以存放所有的探針。約5pg探針足以與一個DNA樣品雜交。因此,少量合成每個探針約50mg可分析1億個樣品。如果每三個樣品使用一個探針,且如果每個樣品長度為1000bp,那么使用一5000個探針組可測序多于300億個堿基(10個人體基因組)。
實施例2具有修飾的寡核苷酸的探針可將修飾的寡核苷酸探針導入雜交探針并在適當?shù)臈l件下使用。例如,可使用在C5位置為鹵素的嘧啶通過影響堿基堆積來提高雙鏈體穩(wěn)定性??墒褂?,6-二氨基嘌呤在與胸腺嘧啶形成的堿基對中提供第三個氫鍵,由此熱穩(wěn)定DNA雙鏈體。使用2,5-二氨基嘌呤可提高雙鏈體穩(wěn)定性,以允許更嚴格條件退火,從而提高雙鏈體形式的特異性,抑制本底問題和允許較短寡聚體的使用。
Hoheisel & Lehrach(1990)公開了這些修飾核苷酸的三磷酸模型的合成。
也可使用非判別堿基類似物或通用堿基,正如Nichols等人(1994)所設計。制備這種新的類似物1-(2-脫氧-D-呋喃核糖苷)-3-硝基吡咯(以M表示)用在寡核苷酸探針和引物中,以解決由遺傳密碼子簡并性引起的設計問題,或在僅僅可獲得片段肽序列數(shù)據(jù)時。這種類似物在使氫鍵作用最小化的同時使堆積最大化,而不從立體上破壞DNA雙鏈體。
設計這種M核苷類似物,使用連接于芳雜環(huán)上的非質子極性取代基以使堆積作用最大化,增強鏈內和鏈間堆積作用以減小氫鍵在堿基配對特異性中的作用。Nichols等人(1994)贊成使用3-硝基吡咯2-脫氧核糖核苷,因為其與對—硝基苯胺具有結構和電荷相似性,其衍生物是已知最小的雙鏈DNA插入劑。
也可獲得核苷M的二甲氧基三苯甲游基保護的亞磷酰胺插入到核苷酸中,用作測序和聚合酶鏈反應(PCR)的引物。Nichols等人(1994)公開了相當數(shù)量的核苷酸可被M取代而不損失引物的特異性。
M的獨特性質是其能夠取代連續(xù)核苷的長鏈,并仍可產生有效的測序引物。已報道了具有3、6和9個M取代的序列均給出可讀序列梯,用三個不同的含M的引物進行PCR均得到正確的擴增產品(Nichols等,1994)。
含3-硝基吡咯的寡核苷酸能用作引物有力地表明雙鏈體結構一定是由互補鏈形成的。具報道獲得的用于寡核苷酸對d(5-C2-T5XT5G2-3)和d(5-C2A5YA5G2-3)(其中X和Y可以是A、C、G、T或M)的光熱分布圖與DNA雙鏈向單鏈轉變觀察到的正常的S形圖相吻合。含XM堿基對(其中X是A、C、G或T,Y是M)的寡核苷酸的Tm值具報道均落入3℃范圍內(Nichols等,1994)。
實施例3選擇和標記探針當制備一陣列亞陣列時,限定在每個雜交循環(huán)中每一亞陣列上的待雜交的探針組。例如,可從通用組中選擇出一組384個探針,在4個循環(huán)的每一循環(huán)中可進行96探針探測。所選的在一個循環(huán)中雜交的探針優(yōu)選具有類似的G+C含量。
將選擇的用于每一循環(huán)的探針轉到一96孔板,然后如果它們在被存放前未被標記則通過激酶化或其他標記程序(如用穩(wěn)定的熒光染料)進行標記。
在第一輪雜交的基礎上,可對每個亞陣列限定一組新的探針用于附加循環(huán)。在某些循環(huán)中某些陣列可能不被使用。例如,如果64個患者樣品中僅8個顯示出突變,對每一突變首先評分8個探針,那么可在一個循環(huán)中對全部64個探針進行評分,32個亞陣列沒有被使用。然后,可用防止濾膜干燥的雜交緩沖液處理這些未被使用的亞陣列。
通過任何一種方便的途徑可從存放板中查找探針,如單道移液裝置或一種自動操縱平臺象Beckman Biomek 1000(Beckman Instruments,F(xiàn)ullerton,California)或一種Mega Two機器人(Megamation,Lawrenceville,New Jersey)??蓪?shù)據(jù)分析程序和探針控制程序結合在自動操縱平臺上。
可一個一個地查找探針并將探針加樣到雜交緩沖液覆蓋的亞陣列。優(yōu)選將已查找到的探針加到一個新板上并進行標記或與雜交緩沖液混合。優(yōu)選的查找方法是通過一個一個地存取存放板并從每個板移液(或通過金屬插頭(metalpins)轉移)足夠量的每個選擇探針到一個中間板的特定孔??墒褂靡粋€單獨可尋址移液管或插頭陣列以加速查找過程。
實施例4制備標記探針通過自動合成法可制備寡核苷酸探針,例如使用本領域技術人員熟知的方法及Applied Biosystems系統(tǒng)?;蛘?,使用利用多孔Teflon晶片堆的GenosysBiotechnologies Inc.方法可制備探針。
例如可用具有100-200um或100-400um點的陣列的放射性標記(35S、32P、33P并優(yōu)選33P)、非放射性同位素(Jacobsen等,1990)或熒光團(Brumbaugh等,1988)標記寡核苷酸探針。所有這種標記方法在本領域是常規(guī)方法,例如在Sambrook等人(1989)的相關部分和如Schubert等(1990)、Murakami等(1991)和Cate等(1991)描述的方法,這些在此均被引作參考。
關于放射性標記,常用方法是使用T4多核苷酸激酶進行末端標記或使用Klenow或平端T7聚合酶進行高度特異性標記。下面對此進行了描述。
合成的寡核苷酸在被合成時其5末端沒有磷酸基團,因此通過使用噬菌體T4多核苷酸激酶從[-32P]ATP或[-33P]ATP轉移-32P或-33P很容易進行標記。如果反應有效進行,那么這種探針的特異性活性可以與[-32P]ATP或[-33P]ATP本身一樣高。下面描述的反應是標記10pmol的寡核苷酸至高比活性。通過提高或減小反應大小、保持所有成分濃度不變可容易獲得不同量寡核苷酸的標記。
用1.0ul寡核苷酸(10pmol/ul);2.0ul 10 x噬菌體T4多核苷酸激酶緩沖液;5.0ul[-32P]ATP或[-33P]ATP(比活性5000Ci/mmol;溶液中為10mCi/ml)(10pmol)和11.4ul水制成反應混合物。在該反應混合物中加入8個單位(約1ul)的噬菌體T4多核苷酸激酶,37℃保溫45分鐘。在68℃加熱反應10分鐘以使噬菌體T4多核苷酸激酶失活。
然后,確定32P或33P轉移至寡核苷酸的效率及其比活性。如果探針的比活性是可接受的,將其純化。如果比活性太低,再加入8個單位的酶并在37℃再保溫30分鐘,在68℃加熱反應10分鐘以使酶失活。
通過如用乙醇沉淀、用溴化十六烷基銨基吡啶沉淀、通過bio-gel P-60色譜純或在Sep-Pak C18柱上色譜或通過聚丙烯酰胺凝膠電泳可純化放射性標記的寡核苷酸。
可使用來自E.coli DNA聚合酶I的Klenow片段合成與合成的寡核苷酸互補的一條DNA鏈,獲得高比活性探針。將一個短的引物與一個為所需放射性標記探針互補序列的寡核苷酸模板雜交。然后使用E.coli DNA聚合酶I的Klenow片段按模板所示方式插入[-32P]dNTP或[-33P]dNTP。反應之后,通過變性、隨后在變性條件下聚丙烯酰胺凝膠電泳將模板與產物分離。使用這種方法可產生每分子寡核苷酸含有幾個放射性原子的寡核苷酸探針。
為使用這種方法,可在微離心管(microfuge)中將獲得所需比活必需的且足以完成所有模板鏈合成的計算量的[a-32P]dNTP或[a-33P]dNTP混合。然后在試管中加入適當量的引物和模板DNA,引物比模板過量3至10倍的摩爾量。
然后加入0.1體積的10 x Klenow緩沖液,并混合好。每5ul反應體積再加入2-4個單位的E.Coli.DNA聚合酶I Klenow片段,混合并在4℃保溫2-3小時。如果需要的話,可通過移出少量(0.1ul)等份試樣并測量已由10%三氯乙酸(TCA)變?yōu)榭沙恋淼姆派湫圆糠?,監(jiān)測反應過程。
反應可用一等體積的凝膠裝載緩沖液稀釋,于80℃加熱3分鐘,將整個樣品裝載到變性聚丙烯酰胺凝膠上。電泳之后,凝膠被放射自顯影,使得探針被定位且從凝膠上移出。也可使用各種熒光探針標記的方法,如Brumbaugh等(1988)描述了熒光標記引物的合成。合成了在C-5上連接有12個原子的伯胺“連接臂”的脫氧尿苷類似物。類似物的合成為衍生2-脫氧尿苷通過有機金屬中間產物得到5(甲基丙烯酰)-2-脫氧尿苷。與二對甲氧三苯甲基氯反應產生相應的5-二對甲氧三苯甲基加合物。將甲酯水解、活化并與合適的單乙酰烷基二胺反應。純化之后,將所得的連接臂核苷轉化為適于化學合成寡核苷酸的核苷類似物。
然后,使用修飾的phosphoridite化學制備包括一或兩個連接臂的堿基的寡核苷酸。向25ul 500mM碳酸氫鈉(pH9.4)中的50nmol連接臂寡核苷酸溶液中加入20ul 300mM FITC的二甲基亞砜溶液。室溫下攪拌混合物6小時。從游離的FITC上分離寡核苷酸,洗脫形式為使用20mM乙酸胺(pH6)的1×30cmSephadex G-25柱,與第一個紫外吸收峰部分結合。
通常,在寡核苷酸5’-端進行起始熒光標記包括兩步。首先,在自動核酸合成中將N-保護的氨基烷基亞磷酰胺衍生物加在寡核苷酸5’-端。在除去所有的保護基團之后,將合適的熒光染料NSH酯與5’-氨基偶聯(lián)過夜,接著,使用逆相色譜HPLC或PAGE從過量染料中純化標記的寡核苷酸。
Schubert等人(1990)描述了亞磷酰胺的合成,其能在自動DNA合成中產生以熒光素標記的寡核苷酸。
Murakami等人也描述了熒光素標記的寡核苷酸的制備。
Cate等人(1991)描述了寡核苷酸探針的使用,探針直接連接于結合一種直接化學發(fā)光底物(AMPPD)的堿性磷酸酶上以允許探針檢測。
可從各種商業(yè)來源包括GENSET直接購買標記探針,不必合成。
其他標記包括能用作被標記抗體特異性結合物質的配體、化學發(fā)光劑、酶、能用作被標記配體特異性結合對的抗體等等。許多標記已被用在可快速使用的免疫分析中。其他標記還包括抗原、具有特異反應活性的基團和電化學可檢測基團。
通常,例如Xu等人在J.Chromatography 76495-102(1997)中描述了以電荷物質標記(“EML”)標記核酸。電荷物質(electrophore)是能用電子俘獲質譜(EC-MS)高靈敏檢測的化合物??墒褂帽绢I域熟知的可逆修飾核苷酸的化學方法(如熟知的核苷酸合成化學教導了許多將分子連接在核苷酸上用作保護基團的方法)將EML連接在探針上。使用各種熟知的電子俘獲質譜儀(如Finnigan Corporation出售的儀器)檢測EML。另外可用于檢測EML的技術包括如快速原子轟擊質譜(參見如Koster等,Biomedical Environ.Mass Spec.14111-116(1987));等離子體解吸質譜;電噴射/離子噴射(參見Fenn等,J.Phys.Chem.884451-59(1984),PCT申請WO90/14148,Smith等,Anal.Chem.62882-89(1990));和基體輔助的激光解吸/電離(Hillenkamp等,“Matrix AssistedUV-Laser Desorption/IonizationA new Approach to Mass Spectrometry of LargeBiomolecules.”(基體輔助的紫外激光解析/電離生物大分子質譜新方法)Biological Mass Spectrometry(生物質譜)(Burlingame和McCloskey編),ElsevierScience Publishers,(Elsevier科學出版社)Amsterdam,第49-60頁,1990);Huth-Fehre等“Matrix Assisted Laser Desorption Mass Spectrometry ofOligodeoxythymidylic Acids”(寡脫氧胸苷酸的基體輔助激光解析質譜),RapidCommunications in Mass Spectrometry,6209-13(1992))。
在優(yōu)選實施方案中,EML通過光敏感的共價鍵被連接于探針上。在通過激光或其他發(fā)射所需光波長的光源與靶核酸雜交后,從探針上釋放出EML。然后將EML進料到GC-MS(氣相色譜-質譜)或其他適合的儀器中并通過其質量被鑒別。
實施例5測序芯片和陣列的制備一個基本的例子是使用附著于50微米表面的6堿基序列得到一個大小3×3mm的芯片,其可被結合得到一個20×20cm的陣列.另一個例子是使用附著于10×10微米表面上的9堿基序列寡核苷酸產生一個大小5×5mm的9堿基序列芯片。可使用4000個這種單元芯片產生一個30×30cm的陣列。每一個陣列中4,000至16,000個寡芯片被排列成一個正方形陣列。根據(jù)所描述的也可將一塊板或管的集合以這種陣列裝配作為測序試劑盒的一部分。
陣列之間以物理形式或通過疏水表面被分離。使用疏水條分隔的一種可能方式是使用如加拿大多倫多QA實驗室生產的Iso-Grid Microbiology System這種技術。
疏水格柵薄膜濾器已在分析食品微生物學領域使用了約十年,它們呈現(xiàn)出獨特的延伸數(shù)字范圍和自動記數(shù)集群。一種可購買的格柵是QA有限實驗室(加拿大多倫多)的ISO-GRIDTM,其由一塊正方形(60×60cm)聚砜聚合物(GelmanTuffryn HT-450,孔大小0.45u)構成,上面印有由1600個(40×40)正方形池構成的一個黑色的疏水墨格柵。HGMF原來是通過真空過濾被細菌懸浮液接種,并在選擇的鑒別或選擇性培養(yǎng)基上保溫。
由于微生物的生長被限定在膜上已知位置和大小的格柵池中,HGMF的作用更象一種MPN裝置,而非傳統(tǒng)的板或薄膜濾器。Peterkin等人(1987)報道了這些HGMF當與一個HGMF復制器一起使用時可被用于復制和存儲基因文庫。一種這種裝置從ISO-GRID的1600池每一池中復制生長,并能制備出主HGMF的許多拷貝(Peterkin等,1987)。
Sharpe等(1989)也使用了QA實驗室的ISO-GRID HGMF、自動HGMF計數(shù)器(MI-100解釋器)和RP-100復制器。他們報道了一種保持和篩選許多微生物培養(yǎng)物的方法。
Peterkin和同事在之后描述了一種使用疏水格柵薄膜濾器篩選DNA探針的方法(Peterkin等,1989)。這些作者報道了直接在HGMF上的有效菌落雜交的方法。開始時由于DNA與HGMF印制其上的環(huán)氧砜聚合物結合能力差,得到的結果不好。但是據(jù)Peterkin等(1989)報道,在與DNA接觸之前用聚乙烯亞胺一種聚陽離子處理復制的保溫的HGMF可提高DNA與膜表面的結合。盡管這種早期工作使用細胞DNA吸附,與本發(fā)明目的不同,但所描述的方法可用于Format3 SBH中。
為了快速識別有用序列,Peterkin等(1989)使用來自各種克隆的放射性標記質粒DNA并測試其對在所制備的HGMF上的DNA的特異性。以這種方式,通過與HGMF影印復制品上的100個微生物的菌落雜交快速篩選來自重組質粒的DNA,其中HGMF復制品可方便地被復制。
使用小(2-3mm)芯片進行操作,平行進行成千上萬個反應。本發(fā)明溶液用于保存這些芯片及相應陣列中的探針。在一個實施例中,在一塊硅片上合成了含250,000個9堿基序列的芯片,形式為8×8mM板(15uM/寡核苷酸,Pease等,1994)以8×12格式(96芯片)排列,之間有1mM溝槽。通過多道移液管或插頭(pin)陣列加入探針,一個探針一塊芯片。為對所有4000個6堿基序列評分,必須使用42個芯片陣列,或使用不同的芯片或一組芯片重復使用多次。
在上述情況中,使用該申請的早期術語表,F(xiàn)=9;P=6;F+P=15。芯片可具有通式為BxNn的探針,其中x是特異堿基B的數(shù)量,n是非特異堿基的數(shù)量,這樣,x=4至10,n=1至4。為獲得更有效的雜交并避免任一支持物寡核苷酸的潛在影響,特異化堿基被非特異化堿基包圍,以通式(N)nBx(N)m表示。
在另一芯片實施方案中,將支持寡核苷酸探針陣列的基質劃分成幾個部分,這樣陣列中每個探針通過一種可以是疏水材料的物理屏障與相鄰探針分隔開。在一優(yōu)選實施方案中,物理屏障的寬度從300μm到30μm,每個物理屏障中心至相鄰物理屏障中心的距離至少為325μm。
在一優(yōu)選實施方案中,使用聯(lián)配在一種合適的自動操縱系統(tǒng)上的噴墨頭將疏水材料沉積在基質上,以形成所需寬度的屏障。例如,一種被用來提供所需疏水材料(如一種在溶劑揮發(fā)之后形成屏障的油基材料)懸浮液或溶液的微滴劑量頭,可聯(lián)配在一種無口向臺架(anorad gantry)系統(tǒng)上并適于合適的容納和分散體系,這樣可將疏水材料的格柵放置在所需基質上在基質上形成多孔。在疏水材料格柵形成之后,使用類似于形成格柵所用的但適于提供探針溶液或懸浮液的自動操縱系統(tǒng)將不同的探針點在每個孔中(或將探針混合物放置于每個孔中)。在一個實施方案中,使用同樣的自動操縱系統(tǒng)提供疏水格柵和探針。在該方案中,在提供了疏水格柵并準備好用于供給探針后沖洗去分散體系。
實施例6與支持物連接的寡核苷酸的制備通過化學方法例如使用自動寡核苷酸合成儀按常規(guī)操作直接合成寡核苷酸,可快速制備寡核苷酸即小的核酸片段。
通常,寡核苷酸可通過合適的反應基團連接在支持物上。這種基團是本領域熟知的,例如包括氨基(-NH2)、羥基(-OH)或羧基(COOH)。使用合適的支持物如玻璃、聚苯乙烯或特氟隆,可通過本領域熟知的任一方法制備與支持物連接的寡核苷酸。一種策略是準確點滴通過標準合成儀合成的寡核苷酸??赏ㄟ^多種方法達到固定化,包括如使用被動吸附(Inouye & Hondo,1990)、UV光(Nagata等,1985;Dahlen等,1987;Morriey & Collins,1989)或通過堿基被修飾的DNA的共價結合(Keller等,1988;1989)或在探針和支持物間形成酰胺鍵(Wall等,1995;Chebab等,1992;Zhang等,1991);所有這些在此均引為參考。
另一種可使用的方法是使用生物素-鏈酶抗生物素蛋白的強相互作用作為連接臂。例如,Broude等(1994)描述了生物素?;结樀氖褂?,但這些是固定化于鏈酶抗生物素蛋白包膜的磁化珠上的雙鏈體探針。可從Dynal,Oslo購買鏈酶抗生物素蛋白包膜珠。當然,同樣的化學連接法可應用于以鏈酶抗生物素蛋白包膜任何表面。可從各種來源如Operon Technologies (Alameda,CA)購買生物素化探針。
Nunc Laboratories(Naperville,IL)也銷售可使用的合適的材料。NuncLaboratories已開發(fā)了一種方法,DNA可被共價連接于稱為Covalink NH的微孔表面。Covalink NH是一種聚苯乙烯表面,接枝有用作進一步共價偶聯(lián)橋頭的仲胺基(-NH-)。可從Nunc Laboratories購買Covalink Modules。DNA分子可僅在5’-端通過氨基磷酸酯鍵連接于Covalink,可使多于1pmol的DNA分子固定化(Rasmussen等,1991)。
使用Covalink NH條在5’-端共價鍵合DNA分子已有描述(Rasmussen等,1991)。在該方法中,利用了一個氨基磷酸酯鍵(Chu等,1983)。當優(yōu)選僅使用單一共價鍵固定化時是有利的。氨基磷酸酯鍵將DNA與Covalink NH仲胺基連接,仲胺基位于間隔臂末端,通過一個2nm長的間隔臂共價接枝在聚苯乙烯表面。為通過一個氨基磷酸酯鍵將一個寡核苷酸與Covalink NH連接,寡核苷酸末端必須具有5’-端磷酸基團。甚至也可能將生物素共價鍵合于Covalink,然后使用鏈酶抗生物素蛋白結合探針。
更具體來說,連接方法包括將DNA溶于水中(7.5ng/ul)并于95℃變性10分鐘,在冰上冷卻10分鐘。然后將冰冷的0.1MpH7.0的1-甲基咪唑(1-MeIm7)加入到一終濃度為10mM的1-MeIm7中。再將A ssDNA溶液分散在位于冰上的Covalink NH條中(75ul/孔)。
制備新鮮的溶解于10mM 1-MeIm7的0.2M 1-乙基-3-(3-二甲基氨基丙基)-碳二亞胺(EDC),每孔加入25ul。條于50℃保溫5小時。保溫后用如Nunc-Immuno Wash漂洗條;首先每孔洗3次,然后將其用洗滌溶液浸泡5分鐘,最后再洗3次(漂洗溶液為加熱至50℃的0.4N NaOH,0.25%SDS)。
用于本發(fā)明的另一種合適的方法描述于PCT申請WO 90/03382(Southern &Maskos),在此引作參考。這種鍵合于支持物上寡核苷酸的制備方法包括以共價磷酸二酯鍵將核苷3’-試劑通過磷酸基團與支持物所帶的脂族羥基連接。然后在該與支持物連接的核苷上合成寡核苷酸,在標準條件下從合成的寡核苷酸鏈上去除保護基,而不會從支持物上裂解下寡核苷酸。合適的試劑包括核苷亞磷酰胺和膦酸氫化核苷。
可采用制備DNA探針的芯片上方法制備DNA探針陣列。例如,可尋址激光活化的光脫保護可被用于直接在玻璃表面化學合成寡核苷酸,如Fodor等人所述(1991),在此引作參考。如Van Ness等人(1991)所述也可在尼龍支持物上固定化探針;或使用Duncan & Cavalier(1988)的方法將探針連接在特氟隆上;所有這些在此引為參考。
如Van Ness等人(1991)所述,為將探針與尼龍支持物連接,要求通過烷基化將尼龍表面活化,用氰尿酰氯選擇活化寡核苷酸的5’-胺。
一種制備與支持物連接的寡核苷酸的具體方法是利用Pease等人(1994,在此引作參考)所述的發(fā)光合成。這些作者使用光石印技術制備固定化寡核苷酸探針陣列(DNA芯片)。這些方法利用光標記的5’-保護的N-乙?;?脫氧核苷亞磷酰胺、表面連接臂化學和多種組合合成法,其中,光被用來直接合成呈高度密集微型化陣列的寡核苷酸探針。以這種方式可制備一個空間限定的256個寡核苷酸探針的矩陣,如本文所述該矩陣被用于優(yōu)選的Format 3測序中。
當然,可從市場上方便地購買一個DNA芯片,如上述的光活化芯片。這時可與Santa Clara,CA 95051的Affymetrix和Beckman聯(lián)系。
在一優(yōu)選實施方案中,本發(fā)明探針包括一信息部分(與靶核酸雜交并給出序列信息的部分)、與基質(固相支持物)相連的反應活性基團和隨機化位置即在這些位置上可發(fā)現(xiàn)四個堿基的任何一個。一個優(yōu)選探針具有序列5’-(T)6-(N)3-(B)5,其中T=胸腺嘧啶(與固相支持物結合),N=A、C、G或T(隨機化位置),B=探針的5個信息位置(信息部分)。在一優(yōu)選實施方案中,探針可與支持物連接,間隔基位于探針末端或在探針內和(N)3的5’。間隔基可以由能形成至少兩個共價鍵的原子如碳、硅、氧、硫、磷等組成,或由能形成至少兩個共價鍵的分子如糖-磷酸基團、氨基酸、肽、核苷、核苷酸、糖、碳水化合物、芳香環(huán)、烴環(huán)、直鏈和支鏈烷烴等組成。
實施例7核酸片段的制備可從任一合適來源獲得待測序核酸,如cDNA、基因組DNA、染色體DNA、顯微解剖的染色體帶、粘粒或YAC插入物和RNA,包括沒有進行任何擴增步驟mRNA。例如,Sambrook等人(1989)描述了從哺乳動物細胞中分離高分子量DNA的三個方案(p.9.14-9.23)。
可制備核酸片段作為M13、質?;颚溯d體中的克隆和/或使用PCR或其他擴增方法直接從基因組DNA或cDNA中制備??稍诙嗫装逯兄苽浠蚍稚悠?。制備100-1000ng DNA樣品終體積為2-500ml??芍苯訉CR制備的靶核酸放置在Format I SBH用的基質上,無需純化。靶核酸一旦被固定于基質上,可漂洗基質或直接與探針退火。
然后,可使用本領域熟知的任何一種方法將核酸片段化,包括如使用Sambrook等(1989)9.24-9.28中所述的限制性酶,超聲剪切和NaOH處理。
低壓剪切也是合適的,如Schriefer等所述(1990,在此引為參考)。在這種方法中,在各種低壓至中等壓力下將DNA樣品通過一個小的弗氏壓碎器。一種拉桿裝置可控制施加到細胞上的低壓至中壓。這些研究的結果表明低壓剪切能用來替代聲法和酶法獲得DNA片段。
一個具體的制備片段化DNA的方法是使用Fitzgerald等(1992)描述的兩堿基識別內切核酸酶CviJI。這些作者描述了一種快速片段化和分級分離DNA呈特定大小的方法,這些DNA被設計為適于鳥槍法克隆和測序。本發(fā)明人預見該法也可特別用于產生隨機的但相對較小的DNA片段,用在本發(fā)明測序技術中。
限制性內切核酸酶CviJI通常在識別序列PuGCPy的G和C之間切割得到平端。改變這種酶(CviJI**)特異性的非典型反應條件得到一個DNA片段形式小分子pUC19(2688堿基對)的擬隨機分布。Fitzgerald等人(1992)使用CMJI**消化pUC19,通過快速凝膠過濾法進行大小分級分離和不進行末端修復直接連接至lac Z負M13克隆載體,定量評估了這種片段化方法的隨機性。76克隆的序列分析表明CviJI**限制pyGCPy和PuGCPu,以及PuGCPy位點,采集新序列數(shù)據(jù)的速度與隨機片段化一致。
正如文獻所報道的,與超聲法和瓊脂糖凝膠分級分離相比,這種方法的優(yōu)點包括需要較少量的DNA(0.2-0.5ug代替2-5ug);包括較少的步驟(無需預連接、末端修復、化學提取、或瓊脂糖凝膠電泳和洗脫)。在為Format 3測序準備DNA時也指出這些優(yōu)點是可利用的。
在一優(yōu)選實施方案中,制備核酸樣品“片段”以使它們不被相互連接。通過用磷酸酶(如牛小腸磷酸酶)處理經酶消化或物理剪切獲得的片段化核酸可得到這種片段庫?;蛘?,在與樣品核酸的桑格雙脫氧測序反應中使用5’-末端沒有磷酸的隨機引物(如N5-N9,其中N=A、G、T或C)可獲得樣品核酸的非可連接片段。這會產生與靶核酸序列互補的DNA片段,以雙脫氧殘基為末端不能與其他片段連接。
至于獲得或制備核酸片段的方法,使DNA變性得到可用于雜交的單鏈片段是重要的。通過將DNA溶液于80-90℃保溫2-5分鐘來達到這一目的。然后將溶液迅速冷卻至2℃以便在它們與芯片接觸之前防止DNA片段的復性。
實施例8DNA陣列的制備通過將DNA樣品點滴在如尼龍膜的支持物上可制備陣列。使用金屬插頭陣列(其位置相應于微滴板上的孔的陣列)可完成點滴通過將20nl的DNA溶液轉到尼龍膜上進行復制。通過膠版印刷,得到點滴的密度比孔的密度高。根據(jù)所用標記的類型可在1mm2內調節(jié)1至25個點。為避免點滴在一些預選數(shù)的行和列中,可形成分隔的亞陣列(次級排列)。一個亞陣列中的樣品可以是來自不同個體的相同的基因組片段DNA(或相同基因)或不同的重疊的基因組克隆。每個亞陣列可代表同一樣品的復制斑點。在一實施例中,可從64個患者擴增一個選擇的基因片段。對于每個患者,擴增基因片段可放置在一個96孔板(所有的96孔含同樣的樣品)。對64個患者中的每個患者制備一個樣品。通過使用一個96插頭裝置可將所有樣品點滴在8×12cm的膜上。亞陣列可包含64個樣品,每個樣品來自一個患者。當96個亞陣列是相同的情況時,點區(qū)域可以是1mm2,亞陣列之間的空間可為1mm。
另一種途徑是使用可被物理間隔物如在膜上形成的塑料格柵或疏水條分隔開的膜或板(獲自NUNC,Naperville,Illinois),格柵與提供于多孔板底部的膜的種類相似。優(yōu)選固定化物理間隔物不用在平的磷存儲屏或x-射線膜上曝光成像。
實施例9雜交和評分方法標記探針可與雜交緩沖液混合,優(yōu)選用多道移液管移液至亞陣列。為防止亞陣列間探針的混合(如果沒有在膜上印記疏水條或物理屏障)可將相應的塑料、金屬或陶瓷格柵緊密壓在膜上。并且,可將緩沖液體積減至每mm2約1ml或更少??墒褂们懊嫠龅奶结槤舛群碗s交條件,除了漂洗緩沖液可被快速傾倒在亞陣列的陣列上以允許探針的快速稀釋并由此防止顯著的交叉雜交。基于同樣的理由,可使用最小濃度的探針,雜交時間可延伸至最大實際水平。DNA檢測和測序時,已知一個“正?!毙蛄性试S使用連續(xù)的堆積相互作用現(xiàn)象以增強信號。除標記探針,還可在雜交反應中加入另外的未標記探針,其與標記探針末端對末端雜交。雜交量可增強幾倍。通過連接反應將探針相連。這種途徑對于解決DNA區(qū)形成“壓縮”是重要的。
在放射性標記探針的情況下,優(yōu)選使用磷存儲(phosphorstorage))技術可獲得濾膜的像。通過CCD相機、共焦顯微技術或其他方法可評分熒光標記。為正確計算和積分來自不同雜交實驗的數(shù)據(jù),根據(jù)每個點上的靶量校正原始信號。通過將每個探針信號除以在每個點上評分的所有探針的平均信號來校正每點靶DNA量的差異。可對校正信號評分,與來自不同實驗的數(shù)據(jù)比通常為1-100。并且,在每一亞陣列中,可使用幾個對照DNA,以確定在這些不含完全匹配靶的樣品中的平均本底信號。對于獲自二倍體(多倍體)評分的樣品,可使用純合子對照,以識別樣品中的雜合子。
實施例10與寡核苷酸雜交寡核苷酸可從Genosys Inc.,Houston,Texas購買或在Applied Biosystems381A DNA合成儀上合成。所使用的大多數(shù)探針不是經HPLC或凝膠電泳純化的。例如,可設計探針具有一個處于干擾素中的單一完全互補靶、含921bp EcoRI-Bgl II人B1-干擾素片段(Ohno和Tangiychi,Proc.Natl.Acad.Sci.744370-4374(1981))的M13克隆、和至少在M13載體本身一個末端堿基錯配的一個靶。
按照(Maniatis Molecular CloningA Laboratory Manual,Cold Spring HarborLaboratory Cold Spring Harbor,Mew York(1982))所述方法在10ml含T4多核苷酸激酶(5個單位,Amersham)、γ32p-ATP(3.3pM,10mCi Amersham 3000Ci/mM)和寡核苷酸(4pM,10ng)中進行寡核苷酸的終止標記。探針的比活性為2.5-5×109cpm/nM。
在以同樣溶液浸濕的Gene Screen膜上點滴單鏈DNA(在2-4ml的0.5NaOH,1.5M NaCl中),濾膜在0.05M Na2HPO4pH6.5中中和,在80℃的烤箱中烘干60分鐘,紫外照射1分鐘。然后,將濾膜保溫在雜交溶液(0.5MNa2HPO4pH7.2,7%月桂酰肌氨酸鈉)中室溫下5分鐘,放置在塑料培養(yǎng)皿表面。將含有4nM濃度32P末端標記的寡聚物探針的一滴雜交溶液(10ml,0.5M Na2HPO4pH7.2,7%月桂酰肌氨酸鈉)加在每張濾膜1-6個點上,用一片正方形聚乙烯(1×1cm)覆蓋,在保濕室中指示溫度下保溫3小時。終止雜交,將濾膜放置在6X SSC漂洗溶液中0℃下3×5分鐘除去未雜交探針。將濾膜干燥或進一步在指示時間和溫度下漂洗,放射自顯影。為測量辨別值,從放射自顯影之后干燥的濾膜上剪切下點(可使用一種磷顯像儀(Molecular Dynamics.Sunnyvale,California))放置在液體閃爍混合物中并計數(shù)。IF和M13點的未校正比率cpm以D值給出。
這里所述的條件允許與非常短的寡核苷酸雜交,但是保證在與靶核酸互補并結合的匹配和未匹配寡核苷酸之間的辨別。影響有效檢測特異性短序列雜交的因素基于在完全互補靶和在雜交中有一個錯配非完全互補靶之間的辯別程度(D)被確定。在試驗性測試中,完成28個長度6至8個核苷酸的探針與2個M13克隆或與結合在濾膜上的模型寡核苷酸的斑點印記雜交。下面給出了指導實驗程序的原則。
寡核苷酸與結合了靶核酸的濾膜雜交,在探針過量的條件下僅幾個比探針長的核苷酸,對于靶濃度是準一級反應。該反應被表示為St/So=e-kh[OP]t其中ST和SO是時間分別為t和t0時的靶序列濃度。(OP)是探針濃度,t是溫度。雜交反應的速率常數(shù)kh在0℃至30℃的范圍內僅有微小的增加(Porsclike和Eigen,J.Mol.Biol.62361(1971);Craig等,J.Mol.Biol.62383(1971))。對于雜交濃度(這里由于濾膜結合狀態(tài)由質量代替)雜交解鏈是一級反應,由下式表示Ht/Ho=e-kmt在該式中,Ht和Ho是時間分別為t和t0時的雜交濃度;km是依賴于溫度和鹽濃度的雜交解鏈的速率常數(shù)(Ikuta等,Nucl.Acids Res.15797(1987);Porsclike和Eigen,J.Mol.Biol.62361(1971);Craig等,J.Mol.Biol.62303(1971))。在雜交反應中,鏈關聯(lián)過程、逆反應、解鏈或鏈解離反應同樣進行。因此及時形成的雜交量是正反應和逆反應的結果。通過增加探針濃度和/或降低溫度可將平衡移向雜交形成。但是,在大量緩沖液的漂洗循環(huán)中,因為不存在探針,解鏈反應是主要的,逆反應雜交是次要的。該分析表明合適的短寡核苷酸雜交(SOH)條件對于探針濃度或溫度是變化的。
D或辯別值由下面四個方程式表示D=Hp(tw)/Hi(tw)Hp(tw)和Hi(tw)是漂洗時間tw之后分別為相同量的完全和非完全互補雙鏈體的剩余雜交量。對于一個給定的溫度,辯別D隨10倍長度的漂洗時間改變,當Hi=B即方程式5時達到最大值。
本底B代表體系可測的最低雜交信號。由于Hi的任何進一步減小是不可測的,D隨連續(xù)漂洗增加。漂洗經過tw僅降低相對于B的Hp,并被視為D的減小。由方程式3和方程式5得到的對于不完全雜交的最優(yōu)化漂洗時間tw為tw=-ln(B/Hi(to))/Km,i因為Hp被漂洗同樣的tw,結合這兩個方程式,可得到最優(yōu)化辨別函數(shù)D=eln(B/Hi(t0))km,p/km,iXHp(t0)/B作為T的函數(shù),由于最優(yōu)化漂洗溫度的選擇D的改變是重要的。通過將Arhenius方程K-=Ae-Ea/RT
代入前面的方程得到最后的方程式D=Hp((t0)/BX(B/Hi(t0))(Ap/Ai)e(Ea,i-Ea,p)/RT;其中B小于Hi(t0)。
因為完全雜交的活化能Ea,p和不完全雜交的活化能Ea,i可相等,或Ea,i小于Ea,p,D分別為獨立于溫度或隨溫度減小。這個結果意味著為在SOH中好的辨別值尋找嚴格溫度條件是不合理的。通過在較低溫度下漂洗,可獲得等同的或更好的辨別值,但漂洗時間隨溫度降低呈指數(shù)增加。如果Hi(to)相對于Hp(t0)成比例增加,辨別值隨T顯著降低。
低溫下的D依賴Hp(t0)/B比例的程度高于Hp(t0)/Hi(to)比例。這個結果表明最好在雜交中獲得足夠量的Hp,而不考慮這個步驟中可得到的辨別值。然后通過漂洗可達到更好的辨別值,因為完全雜交量越高用于示差解鏈顯示出效果的時間就越多。類似地,使用較大量的靶核酸可獲得必要的辨別值即使Km,p和Km,i之間僅有很小的差別。
外推一個比該簡單模型所覆蓋的更為復雜的情況,結果是,在與所給靶核酸內部具有許多末端錯配的探針雜交的情況中,在較低溫度下漂洗甚至更為重要。
使用所述的理論上的原則作為實驗指南,已獲得與長度6至8個核苷酸的探針的可信賴的雜交。所有實驗均用一飄浮的塑料片進行,該塑料片提供了一張放置在過濾器上的雜交溶液膜。這個程序允許探針量的最大減少,這些減少的標記損失在斑點印記雜交中。在磷酸雜交緩沖液中以高濃度月桂酰肌氨酸鈉代替基月桂酰硫酸鈉允許反應溫度從室溫降至12℃。類似地,4-6X SSC 10%的月桂酰肌氨酸鈉緩沖液允許在2℃的低溫下雜交。這些緩沖液中的去污劑是用于獲得具有高達40nM濃度的標記探針可容許本底。在具有50%G+C含量的8堿基序列原型即序列為TGCTCATG探針上確定短寡核苷酸雜交的熱力學基本特征。理論預測是該探針處在較不穩(wěn)定的8堿基序列中。其轉化焓與較穩(wěn)定的7堿基序列甚至長度為6個寡核苷酸的探針相似(Bresslauer等,Proc.Natl.Acad.Sci.U.S.A.833746(1986))。在1分鐘單位時間雜交解鏈50%的溫度參數(shù)Td是18℃。結果表明對于8bp雜交比對于一個11bp雙鏈體Td低15℃(Wallace等,Nucleic Acids Res.63543(1979))。
除使用模型寡核苷酸實驗之外,選擇M13載體作為短寡核苷酸雜交的實際驗證系統(tǒng)。主要目的是使用類似于在本發(fā)明方法各種用途中所用的靶顯示有用的末端錯配辨別值。以M13載體本身含末端錯配堿基這種方式選擇用于M13模型的寡核苷酸探針。一種含921bp人干擾素基因插入物的M13重組載體IF攜帶單一完全匹配靶。因此,在與M13載體本身相比較時,TF具有等同數(shù)量或較高數(shù)量的錯配靶。
使用較低溫度條件和斑點印記,在含完全和錯配靶的帶狀斑點和僅含錯配靶的斑點之間可獲得足夠的雜交信號的區(qū)別。這對于與大核酸對IF-M13雜交的6堿基序列寡核苷酸是正確的,對于7堿基序列和8堿基序列寡核苷酸也是正確的。
雜交信號取決于與探針反應所用濾膜上可獲得的靶量。必要的對照用來表明信號密度的區(qū)別不是兩斑點中核酸量不同的反應。與在IF和M13中具有相同數(shù)量和種類的靶的探針雜交,表明在斑點中具有等量的DNA。因為雜交形成效率隨雜交長度增加,用大量結合于濾膜上的寡核苷酸靶最佳檢測具有6個寡核苷酸的雙鏈體的信號。由于其較低的分子量,當與用作靶的核酸大分子相比較時,大量寡核苷酸靶分子可被結合于所給的表面區(qū)域。
為測量未純化DNA檢測的靈敏性,將不同量的噬菌體上清液點在濾膜上并與32P標記的8堿基序列雜交。含不多于0.5ng DNA的5千萬這樣少量的未純化噬菌體給出了可檢測信號,表明短寡核苷酸雜交方法的靈敏性是足夠的。反應時間短,增加了實用性。
正如上面理論部分所述,雜交平衡的產生取決于探針濃度和/或反應溫度。例如,對于相同量的靶4nM 8堿基序列在13℃時的信號水平比探針濃度為40nM時低3倍,通過提高雜交溫度至25℃信號水平降低4.5倍。
證明了低溫漂洗獲得最大化辨別值的實用性。為使現(xiàn)象可視,利用與載體特異探針的雜交,在M13斑點中使用的DNA比IF斑點中多50倍。以這種方式,與實際探針雜交之后的信號比在匹配情況中錯配的強。Hp/Hi比例為1∶4。7℃延時漂洗之后獲得信號密度轉換,沒有完全匹配的大量損失,所得比例為2∶1。相反,在25℃不可能獲得任何辨別,因為2分鐘漂洗匹配信號就已經降至本底水平;同時,錯配雜交信號仍是可檢測的。相比于7℃ 13℃時辨別值的損失沒有這么大,但清楚可視。如果考慮到在7℃時90分鐘和13℃時15分鐘當錯配雜交信號接近本底水平時代表各自條件下最佳漂洗時間,那么7℃時的量比13℃時多幾倍。為進一步證明這一點,在兩種溫度下,隨相同起始雜交量的漂洗改變辨別值的時間過程表明,溫度較低時最大化D較高。這些結果確證了隨溫度及在漂洗步驟開始兩種類型雜交量的比例,D的改變趨勢。
為顯示寡核苷酸雜交條件的通用性,我們觀察了在簡單M13系統(tǒng)中4個7堿基序列、10個8堿基序列和另外長度為12個寡核苷酸的14個探針的雜交。這些包括代表GC含量兩個極端的9堿基序列GTTTTTTAA和8堿基序列GGCAGGCG。雖然設想GC含量和序列影響短雜交的穩(wěn)定性(Bresslaue等,Proc.Natl.Acad.Sci.U.S.A.833746(1986)),但在獲得足夠的辨別值中低溫寡核苷酸條件適用于所有待測探針。因為用長度13個寡核苷酸的探針獲得的最佳辨別值是20,由于序列變化造成幾倍的降低是容易允許的。
M13系統(tǒng)的優(yōu)點是能顯示在辨別水平上靶DNA復雜性的效果。對于兩個8堿基序列其中沒有錯配靶或有5個錯配靶且僅一對GC不同,觀察到的辨別值分別是18.3和1.7。
為證明本方法的實用性,在由Bluescript載體文庫制備的一批51個質粒DNA斑點上測試了3個長度為8核苷酸的探針。存在一個探針對Bluescript載體是特異的但其不存在于M13中,而其他兩個探針具有是已知序列插入物的靶。這個系統(tǒng)允許使用陰性或陽性對照DNA與每個探針雜交。這個探針序列(CTCCCTTT)還具有一個干擾素插入物中的互補靶。因為當干擾素插入物在M13或Bluescript中為陽性時M13斑點是陰性的,所以雜交是序列特異性的。類似地,如果合適的靶存在于克隆中,那么與確證雜交的對照一起檢測在51個插入物中僅1個或在待測插入物中沒有靶序列的探針將會產生。
對于長度6-8個寡核苷酸的非常短寡核苷酸雜交的熱穩(wěn)定性曲線比長度11-12的寡核苷酸雜交的曲線至少低15℃(附圖1和Wallace等,Nucleic AcidsRes.63543-3557(1979))。但是,在低溫下與0.4-40nM實際濃度的寡核苷酸探針進行雜交反應,允許在一個已知或未知核酸靶中檢測互補序列。為完全確定一個未知核酸序列,可使用一整套65,535個8堿基序列探針。用于該目的的足量核酸存在于適宜的生物樣品中,如幾微升M13培養(yǎng)物、來自10ml細菌培養(yǎng)物或單一細菌菌落的質?;蛏儆?ml的標準PCR反應。6-10核苷酸長度的短寡核苷酸給出極佳的辨別值。單一末端錯配在雜交穩(wěn)定性的相對降低大于較長的探針。8堿基序列TGCTCATG的結果支持這一結論。在實驗中,具有G/T末端錯配的靶、與這種錯配形式靶的雜交是所有其他形式寡核苷酸最穩(wěn)定的。所得的這個辨別值與存在于19個堿基對雙鏈體中的內部G/T錯配是相同的或較大(Ikuta等,Nucl.Acids res.15797(1987))。利用這些區(qū)別特征使用短寡核苷酸雜交的雜交條件,允許非常準確地確定寡核苷酸靶。與容易檢測完全雜交和不完全雜交之間的區(qū)別相反,使用非常短的寡核苷酸可能存在的問題是足夠量雜交的制備。實際上,通過增加斑點中DNA的量和/或探針濃度或降低雜交溫度來幫助區(qū)別Hp和Hi。但是探針濃度高通常會提高本底。并且,實際使用的靶核酸量是有限的。使用較高濃度的去污劑十二烷基肌氨酸鈉解決了這個問題,用4nM探針可給出一個有效本底。利用探針與濾膜非特異性結合的競爭劑或改變雜交支持物材料可獲得進一步改進。再者,對于Ea小于45千卡/mol的探針(如對于許多7堿基序列和大多數(shù)6堿基序列),修飾的寡核苷酸比其未修飾的相反部分的雜交更穩(wěn)定(Asseline等,Proc.Natl.Acad.Sci.813297(1984))。本發(fā)明所述的針對短寡核苷酸雜交的雜交條件使用低溫能較好地辨別所有輸入序列和雙鏈體雜交。針對不同序列要達到雜交條件一致性所付出的代價僅為根據(jù)序列漂洗時間從幾分鐘增加至24小時。此外,可通過減小鹽濃度再減少漂洗時間。
雖然匹配雜交和錯配雜交具有極佳的辨別值,但在短寡核苷酸雜交中,錯配雜交信號與大多數(shù)由于末端錯配的錯配雜交一起存在。這限制了可用某一長度探針進行有效檢測的插入物大小。
序列復雜性對辨別值的影響可被忽略。然而,當用短寡核苷酸雜交對特異性非隨機序列限定序列信息時,復雜性影響是較顯著的,可使用合適的靶長度比例的探針解決這個問題。在統(tǒng)計學基礎上選擇長度比例,使得不大可能出現(xiàn)具有能消除或錯誤轉化辨別值的許多末端錯配的特異性序列。結果顯示在靶核酸插入物短于0.6、2.5和10kb時應分別使用長度6、7和8個核苷酸的寡核苷酸。
實施例11DNA測序多個亞陣列的一個陣列允許有效測序排列于影印復制的亞陣列形式中的一小組樣品;例如,可將64個樣品排列在一8×8mm的亞陣列上,16×24亞陣列可被影印復制在亞陣列之間有1mm寬間隔物的15×23cm膜上??芍苽湟恍┯坝∧?。例如,來自3072個7堿基序列的一個通用組探針被分在32個96孔板上,并用激酶標記。在一個雜交循環(huán)中可平行處理4張膜。在每張膜上,可評分384個探針。在兩個雜交循環(huán)中可評分所有探針??稍u分雜交密度,拼合序列如下。
如果單一樣品的一個亞陣列或多個亞陣列含幾個未知的特別是當使用相似樣品時,如果它們是基于預先評分探針的結果電腦選擇的,少量探針是足夠的。例如,如果探針AAAAAAA不是陽性的,則有一個小的變化,8個重疊探針任何一個是陽性的。如果AAAAAAA是陽性的,那么兩個探針通常是陽性的。這種情況下測序過程包括首先雜交一小組最小化重疊探針以限定陽性錨,然后順序選擇探針確證一個關于錨順序和大小及它們之間空間類型的最可能的假設。在該過程的第二階段,可使用2-10個探針的庫,選擇每個探針僅在一個DNA樣品中呈陽性,該DNA樣品與認為對庫中其他探針呈陽性的其他樣品不同。
該亞陣列途徑允許在解決分支問題過程中探針競爭(重疊探針)或探針協(xié)同(探針連續(xù)堆積)的有效實施。一組通用組探針雜交之后,序列拼合程序確定了候選序列亞片段(SFs)。進一步拼合SFs時,必須提供附加信息(來自DNA片段重疊序列、相似序列、單次凝膠序列或來自其他雜交或限制性圖譜數(shù)據(jù))。從SBH序列信息或已知載體信息如載體插入位點的側翼序列識別通過分支點單次凝膠序列的引物,在樣品DNA上進行標準桑格測序反應。將從單次凝膠測序獲得的序列與讀入和讀出分支點的SFs比較以識別SFs的順序。并且,單次凝膠測序可與SBH結合,從頭測序和再測序核酸。
也可使用競爭性雜交和連續(xù)堆積相互作用拼合SFs。這些途徑對于通過SBH測序大量核酸樣品商業(yè)價值有限,其中如果使用統(tǒng)一形式的陣列將標記探針施用于固定化在一個陣列上的樣品??蓱c幸的是,使用影印亞陣列分析少量樣品允許兩種途徑的有效實施。在每個影印的亞陣列上,使用探針庫可測試一個或多個DNA樣品的一個分支點,類似于解決點滴在相同亞陣列的不同樣品中的突變序列(參見上文)。
在本實施例所述的64個樣品中,如果每個樣品有約100個分支點,且如果在每一亞陣列中平行分析8個樣品,那么至少800個亞陣列檢測才能解決所有的分支點。這就意味著對于3072個基本檢測要附加800個檢測(25%)。更為優(yōu)選的是,對于一個分支點檢測兩次。如果亞陣列較小,附加檢測較少。例如,如果亞陣列由16個樣品組成,可評分200個附加檢測(6%)。使用7堿基序列探針(N1-2B7N1-2)和競爭性或協(xié)同性分支解決途徑或這兩種途徑,約4000次檢測可拼合約1000bp的片段。另外,使用8堿基序列探針(NB8N)12,000次檢測可拼合4kb或更長的片段。缺口探針如NB4NB3N或NB4NB4N可被用來減少分支點數(shù)。
實施例12通過瞬間附著至探針亞陣列進行DNA分析和標記探針的連接通過標準化學方法合成信息長度4至40個堿基的寡核苷酸探針,并存儲于試管或多孔板中。通過沉積或原位合成于分隔的支持物或一個較大支持物的不同部分上,排列出含1至10,000個探針的特異性探針組。在后種情況中,可用物理或疏水屏障分隔各部分或亞陣列。可通過原位合成制備探針陣列。合適大小的DNA樣品與一個或多個特異性陣列雜交。許多樣品可作為庫在相同亞陣列上被探測或用一個支持物內的不同亞陣列單獨探測。同時或隨后對樣品在每個亞陣列上加入單個標記探針或標記探針庫。如果附著和標記探針在樣品DNA中的互補靶末端與末端雜交,那么它們則被連接。通過從探針檢測標記測出發(fā)生的連接。
這種途徑是其中DNA樣品沒有永久附著在支持物情況下的所述DNA分析過程的改變方法。通過將探針固定在支持物上獲得瞬間附著。在這種情況中,無需排列靶DNA過程。此外,通過將短的標記探針與短的固定化探針結合連接允許檢測較長的寡核苷酸序列。
這種方法具有一些獨特的特征。首先,靶的瞬時附著允許其再使用。在連接發(fā)生后,可將靶釋放,留下標記被共價附著在支持物上。這一特點允許靶循環(huán)和使用少量的靶產生可檢測信號。在最優(yōu)化條件下,靶無需被擴增,如天然來源的DNA樣品可直接用于診斷和測序目的。通過在有效雜交和有效雙鏈體解鏈之間循環(huán)溫度可將靶釋放。更優(yōu)選的沒有循環(huán)??上薅囟群徒M分濃度以在游離靶和參與雜交的靶之間具有一個平衡,約50∶50%的水平。在這種情況下,連續(xù)產生被連接產品。對于不同目的不同的平衡比例是最優(yōu)化的。
電場可被用來增強靶的使用。開始時,可在每個亞陣列內使用水平場脈沖以較快速分選靶。在這個階段,平衡向雜交形成移動,可使用未標記探針。在靶分選階段之后,可進行適當?shù)钠?可通過一個限制樣品移動的垂直電場幫助漂洗)??梢氡鎰e雜交解鏈、雜交和連接收集靶及去除未使用靶的幾個循環(huán),以增強特異性。在下一步驟,加入標記探針,并可使用垂直電脈沖。提通過提高溫度,可獲得一個最優(yōu)化的游離和雜交靶的比例。垂直電場防止分選的靶的擴散。
可以各種不同的方式排列固定探針和標記探針組(特別指或選自通用探針組)亞陣列。例如,如果一個細菌基因組的短片段(約100-500bp)被部分或完全測序,可使用基于已知序列設計的小的探針陣列(長度為5-30個堿基)。假設被連接的僅2個堿基被評分,如果用每個亞陣列10個標記探針的一個不同庫探測,10個亞陣列每個具有10個探針,則允許檢測200個堿基。在辨別出整個雜交錯配的條件下,探針可被多于一個堿基取代,以用相同數(shù)量的探針覆蓋較長的靶。通過使用長的探針,可直接探測靶而無需擴增或從樣品剩余DNA中分離。還可同時分析(篩選)一個樣品中的幾個靶。如果所得結果顯示了突變的發(fā)生(或一個病原體),可再使用附加的探針庫檢測突變類型或病原體亞型。這是本方法的必要特征,當認為僅有少部分患者有感染或突變時,這一點在預防性診斷中非常有效。
在實施例所述的方法中,可使用各種不同的檢測方法,如放射性標記、熒光標記、酶或抗體(化學發(fā)光)、光散射或干涉過程可檢測的大分子或顆粒。
實施例13使用8堿基序列和9堿基序列測序靶來自8堿基序列和9堿基序列寡核苷酸雜交的數(shù)據(jù)結果表明,雜交測序具有高度準確性。在該實驗中,使用已知序列預測一系列連續(xù)重疊組分8堿基序列和9堿基序列寡核苷酸。
除了完全匹配寡核苷酸、錯配寡核苷酸,還檢測了發(fā)生在寡核苷酸和靶形成的雙鏈體內部或末端錯配的錯配寡核苷酸。在這些分析中,使用最低操作溫度以形成最大化雜交。在同樣或更低溫度下進行漂洗,以通過利用較大的錯配解離速率相對于匹配的寡核苷酸/靶雜交確保最大辨別。盡管絕對雜交率是序列獨立性的,這些條件表明可用于所有序列。
可假設的最小的不穩(wěn)定化錯配是簡單的末端錯配,這樣,雜交測序試驗能夠從末端錯配的寡核苷酸/靶雙鏈體辨別出完全匹配的寡核苷酸/靶雙鏈體。
在斑點印記格式中的105個雜交寡核苷酸中102個的辨別值大于2,允許高度準確序列的產生。這種體系還允許對序列在雜交形成和雜交不穩(wěn)定性上的效果進行分析。
從已知序列的105個寡核苷酸探針與靶核酸雜交的數(shù)據(jù)結果產生由PCR制備的人一干擾素基因已知部分的100個堿基對,即100bp靶序列。所用的寡核苷酸探針包括72個8堿基序列和21個9堿基序列寡核苷酸,其序列與靶完全互補。一組93個探針提供了靶序列連續(xù)重疊框,靶序列中e被1個或2個堿基取代。
為評估錯配效果,檢測12個附加探針的雜交,當與100bp待測靶序列雜交時,含至少一個末端錯配。還檢測了靶末端錯配的12個探針與4個其他所選對照核酸序列的雜交,這樣,12個寡核苷酸與4個對照DNA形成完全匹配雙鏈體雜交。由此,對實驗中所用的每個寡核苷酸,評估寡核苷酸和靶的內部錯配雜交、末端錯配雜交和完全匹配雙鏈體對雜交。通過限定靶DNA濃度通過檢測不同寡核苷酸探針與單一出現(xiàn)在共同擴增質粒DNA內的非靶位點的雜交,確定在與待測8堿基序列和9堿基序列寡核苷酸雜交中絕對DNA靶濃度的效果。
該實驗結果表明所有含與靶或對照DNA完全匹配互補序列的寡核苷酸雜交效果強于那些含錯配的寡核苷酸。為得到這一結論,我們檢測了每個探針的Hp和D值。Hp限定了待測靶和一個寡核苷酸探針間形成的雜交雙鏈體的量。通過對105個探針的雜交分配0和10之間的數(shù)值,顯示出105個探針中68.5%具有Hp大于2。
當D被定義為1)與2)之間的信號密度比率時,獲得辨別值(D),其中所述1)為含待測寡核苷酸和靶或對照核酸之間形成的完全匹配雙鏈體的斑點,2)為含相同寡核苷酸和靶或對照核酸內不同位點之間形成的錯配雙鏈體的斑點。D值的變化歸因于1)對允許可視本底之上信號的雜交效率的干擾,或2)在待測寡核苷酸和靶之間發(fā)現(xiàn)的錯配類型。該實驗中獲得的D值105個檢測的寡核苷酸探針中102個在2和40之間。該102個寡核苷酸組作為一個整體計算D值,D平均值為10.6。
寡核苷酸/靶雙鏈體顯示出末端錯配的有20種情況。其中5種情況中,D大于10。這些情況中大的D值多是歸因于非最穩(wěn)定(G/T和G/A)末端匹配引起的雜交不穩(wěn)定性。其他可能性是在寡核苷酸或靶序列中有一個錯誤。
存在于低Hp探針的靶中的錯誤作為一種可能性被排除,因為這種錯誤會影響其他8個重疊寡核苷酸每個的雜交。沒有明顯的由于其他重疊寡核苷酸序列錯配造成的不穩(wěn)定性,表明靶序列是正確的。在再檢測了7個新合成的寡核苷酸的雜交之后,存在于寡核苷酸序列中的錯誤作為一種可能性被排除。7個寡核苷酸中只有1個得到了一個較好的D值。雜交不穩(wěn)定性或不能形成雜交雙鏈體可導致低的雜交形成值。不能形成雜交雙鏈體是由于1)被選擇探針的自互補性或2)靶/靶自雜交。如果探針是自互補的,寡核苷酸/寡核苷酸雙鏈體的形成會強于寡核苷酸/靶雜交雙鏈體的形成。與此類似,如果靶是自互補的或可形成內部回文結構,那么靶/靶關聯(lián)占優(yōu)勢。在評估這些可能性時,探針分析顯示可疑探針不和其自身形成雜交。并且,在檢測靶/靶雜交的作用時,確定了一個可疑寡核苷酸探針與含相同靶的兩個不同DNA無效雜交。兩個不同DNA對于相同靶序列具有自互補區(qū)的低可能性導致這樣的結論,即靶/靶雜交對低雜交形成沒有幫助。因此這些結果表明雜交不穩(wěn)定性和不能形成雜交導致特定寡核苷酸的低雜交率。結果還表明低雜交率緣于某些寡核苷酸的特異序列。而且,結果表明如果使用9堿基序列和8堿基序列的寡核苷酸,會得到更可靠的序列結果。
這些結果表明利用所述方法,通過組成寡核苷酸的最大化和唯一重疊,能夠測定任何特異目的長核酸的序列。這些測序方法取決于每種寡核苷酸的組成,而不是它們的頻率和位置。
利用以下算法得到的序列具有很高的忠實性。當105個雜交值中,有4個不可靠時,得到的序列完全正確,這一事實表明該算法能夠消除雜交點產生的假陽性信號。通過雜交測序的忠實性源于短寡核苷酸雜交的“全或無”的動力學特性,以及完全匹配的雙鏈體和錯配雙鏈體的穩(wěn)定性的差異。匹配與末端錯配雙鏈體的穩(wěn)定性比值隨著雙鏈體長度的減小而增加。而且,由于雙鏈體長度減小,從而結合能減小,導致雜交效率降低。但是,提供的結果表明,在使用8堿基序列的寡核苷酸進行雜交時,影響雙鏈體穩(wěn)定性的因素和影響鑒別的因素達到平衡,此時雜交測序的方法高度精確。其它實施例中的結果表明,6、7、8個核苷酸的寡核苷酸可有效地用來對0.5kb(6堿基序列)、2kb(7堿基序列)、6kb(8堿基序列)的靶序列進行可靠測序。可以將長片段的序列重疊以產生完整的基因組序列。
實施例14所得數(shù)據(jù)的分析利用圖形分析程序,如DOTS程序(Drmanac等,1993)對圖形文件進行分析,并且利用程序,例如SCORES程序(Drmanac等,1994)中的統(tǒng)計函數(shù)進行測量評價。從信號的分布可以確定合適的閾值,將信號轉換為+/-輸出。利用檢測到的標記的位置,結合與標記位置對應的固定化探針和標記探針的已知序列,可以確定出片段的F+P核苷酸序列。由經計算機推導確定的重疊F+P序列可以拼合出完整的核酸序列或初始分子,如人染色體的序列亞片段。
一種選擇是,在序列拼合過程中將雜交信號(例如評分),轉換為+/-輸出。該情況下,從有很高評分的F+P序列(例如F+P序列AAAAAATTTTTT)開始拼合。四個可能的重疊探針AAAAATTTTTTA,AAAAATTTTTT,AAAAATTTTTTC和AAAAATTTTTTG,與另外三個起始處不同的探針(TAAAAATTTTTT,CAAAAATTTTTT,GAAAAATTTTTT)的評分相比較,得到3個結果(I)與其它6個探針相比,只有出發(fā)探針和4個重疊探針中的一個的評分明顯為正。在這種情況下,AAAAAATTTTTT序列將向右延伸一個核苷酸。(II)除了出發(fā)探針,沒有一個探針的評分明顯為正,拼合將停止,例如,AAAAAATTTTT序列在待測序DNA分子的末端。(III)重疊和/或另外三個探針中,有不止一個為正值,拼合因錯誤或分支而停止(Drmanac等,1989)。
在計算機推導過程中,使用應用現(xiàn)有算法的計算機程序(例如Pevzner,1989;Drmanac等,1991;Labat和Drmanac,1993;各文在此引用作為參考)。
除F+P外,如果檢測F(1個間隔)P,F(xiàn)(2間隔)P,F(xiàn)(3間隔)P或F(4間隔)P,應該采用適合所有數(shù)據(jù)組的算法,以便糾正潛在錯誤或解決存在分支的問題(見如Drmanac等,1989;Bains等,1988;在此引用作為參考)。
實施例15通過兩步雜交測序以下是描述發(fā)明人所設想的測序方法的實施例。首先,將整個芯片與多達1億堿基(人染色體)的DNA混合物雜交。雜交的實施原則可在一些論文中找到,如Drmanac等(1990);Khrapko等(1991);和Broude等(1994)。這些文章指明了適用于Format 3 SBH的初始步驟的雜交溫度范圍、緩沖液和漂洗步驟。
因為可提供的目的DNA濃度相對較低,本發(fā)明人特別設想在低溫(-2℃到5℃)、高鹽濃度雜交數(shù)小時。為了達到該目的,使用SSC緩沖液取代在10℃會沉淀的磷酸鈉緩沖液(Drmanac等,1990)。因為有第二步,所以漂洗不必太徹底(數(shù)分鐘),而使用循環(huán)雜交對高度復雜的DNA樣品進行測序時,可省略漂洗。雜交和漂洗使用相同的緩沖液以便能繼續(xù)使用標記探針進行第二步雜交。
使用簡單的機械設備對每一個陣列適當漂洗后,加入一個標記探針,例如,8×8mm的陣列加入6堿基序列的探針。使用96頭或96針的設備進行42次操作。同樣,如以前科學文獻中所述,可以采用多種不同的條件。
本發(fā)明人特別考慮使用以下條件。首先,在加入標記探針并于低溫(0-5℃)僅保溫數(shù)分鐘(因為加入寡核苷酸的濃度較高)后,根據(jù)F+P的長度,將溫度升至3-10℃,并加入漂洗緩沖液。此時,所用漂洗緩沖液應適用于任何連接反應(例如100mM的鹽濃度范圍)。加入連接酶后,將溫度升至15-37℃以便快速連接(少于30分鐘),然后進一步區(qū)分完全匹配和錯配的雜交體。
同樣在FORMAT 3 SBH中考慮使用陽離子去污劑,如Pontius & Berg所述(1991,在此引用作為參考)。這些作者描述了在DNA復性中使用兩種簡單的陽離子去污劑,十二烷基三甲基溴化銨(DTAB)和十六烷基三甲基溴化銨(CTAB)。
DTAB和CTAB是季銨鹽四甲基溴化銨(TMAB)的變體,即其中的一個甲基被十二碳(DTAB)或十六碳(CTAB)的烷基基團取代。TMAB是四甲基銨的溴鹽,四甲基銨用在核酸復性中消除G-C含量對解鏈溫度的影響。DTAB和CTAB與十二烷基磺酸鈉(SDS)結構相似,但SDS帶負電的硫酸根被帶正電的四胺取代。盡管SDS常用于雜交緩沖液以減少非特異性結合并抑制核酸酶,它不能明顯影響復性的效率。
當進行連接操作時,可以隨標記探針加入酶或在適當漂洗后加入酶以減少背景干擾。連接酶技術在分子生物學領域已非常完善,盡管以前它未被建議用于SBH方法。例如,Hood及其同事描述了一種連接酶介導的基因檢測技術(Landergren等,1988),可以對該技術簡單地修改而用于FORMAT 3 SBH。Wu和Wallance也描述了利用細菌噬菌體T4 DNA連接酶連接兩段相鄰的短合成寡核苷酸。他們的連接反應在50mM pH7.6 Tris鹽酸緩沖液,10mM MgCl2,1mM ATP,1mM DTT,和5%PEG中進行。加入T4 DNA連接酶(1單位;Bethesda研究實驗室)之前,將連接反應體系加熱至100℃,5-10分鐘后冷卻至0℃。大多數(shù)連接反應于30℃進行,并通過加熱至100℃ 5分鐘終止反應。
隨后進行最終漂洗,以適于對雜交產物或者連接的(F+P)長度的寡核苷酸進行區(qū)別檢測。該漂洗步驟在水中于40-60℃進行數(shù)分鐘以便洗去所有未連接的標記探針和其它化合物,從而最大限度地去除背景干擾。因為有共價結合的標記寡核苷酸,檢測得以簡化(沒有時間和低溫限制)。
根據(jù)所用標記物,使用不同的儀器對芯片顯象。對放射性標記物,使用磷存儲屏蔽技術(phosphor storage screen technology),并利用磷顯象儀作為掃描儀(分子動力學,Sunnyvale,CA)。將芯片放入盒中,覆蓋一個磷屏。曝光1-4小時后,掃描該屏,將圖象文件儲存在計算機硬盤中。檢測熒光標記物時,采用CCD相機和表面熒光顯微鏡術或共聚焦顯微鏡術。對于直接在CCD相機象素上生成的芯片,可以用Eggers等描述的方法進行檢測(1994,在此引用作為參考)。
在以探針為基礎的分析方法中,利用電荷耦合器件(CCD)檢測儀作為有力的支持以便對標記目的分子的分布進行定量檢測和顯象。這些設備利用了微電子的特性,即適于高度平行的檢測、超靈敏的檢測,高處理能力,數(shù)據(jù)獲得和計算結合。Eggers等(1994)描述在基于探針的檢測方法,如本發(fā)明所述FORMAT 3 SBH中使用CCD,由于高靈敏度和直接連接,能在數(shù)秒內完成定量分析。
完整的CCD探測方法使得能夠檢測芯片上的分子結合情況。探測儀迅速生成二維圖象,特征性地顯示樣品。使用基于CCD的分子探測儀時,將不同的生物學探針直接固定在CCD的象素上,或附在置于CCD表面的一個一次性蓋玻片上??梢允褂梅派湫酝凰亍⒒瘜W發(fā)光或熒光來標記樣品分子。
Format 3的例子中,一旦將樣品暴露于以CCD為基礎的探針陣列,在樣品和兩個互補探針結合的象素位置上將放射光子或放射性同位素衰變產物。接著,當標記樣品發(fā)出的帶電粒子或放射物入射到CCD的選通電極時,在硅中生成電子空穴對。隨后電子在相鄰CCD選通電極下聚集,并在顯示元件上顯示出來。在每個象素產生的光電子數(shù)和分子結合發(fā)生的次數(shù)近似成正比。所以,可以定量地測定分子結合(Eggers等,1994)。
將顯象陣列放置在樣品附近,收集率比使用透鏡的技術(例如見于傳統(tǒng)CCD相機中的技術)至少提高10倍。這就是說,樣品(放射物)和檢測儀(顯象陣列)緊密接觸,這可淘汰傳統(tǒng)的顯象光學儀器如透鏡和鏡子。
將放射性同位素作為指示基團結合到目的分子上,就能檢測到能量粒子。在微檢測儀中已成功地使用了能放射不同能量粒子的幾種指示基團,包括32P,33P,35S,14C和125L。能量較高的粒子(如32P)放射的離子,分子檢測靈敏度最高。而低能量的粒子(如35S),分辨率更好。因此,可按需求,選用不同的放射性同位素標記。一旦選定放射性同位素標記物,就可以如Eggers等所述(1994)通過計算信噪比(SNR)來預測檢測情況。
可替代的發(fā)光檢測過程包括使用連接在目的分子上的熒光或化學發(fā)光指示基團。熒光標記可以共價或通過相互作用與分子連接。熒光染料,比如溴乙錠,在近紫外區(qū)域(300-350nm)有強烈的吸收帶,在可見光區(qū)域(500-650nm)有主要的發(fā)射帶,這最適用于所用的CCD儀器,因為在激發(fā)波長,其量子效率比在熒光信號波長時低數(shù)個數(shù)量級。
從檢測發(fā)光的角度來看,多晶硅CCD選通電極有以下的內在特性,它能濾掉UV范圍的入射光,但對熒光指示基團生成的可見熒光高度敏感。這種內在的對UV激發(fā)的高分辨力,使得CCD有高信噪比(大于100),如引用的Eggers等的文章所述(1994)。
為了將探針固定在檢測儀上,可以在廉價的SiO2薄片上生產雜交基質,隨后在雜交和干燥后將其放置在CCD表面。這種方式較為經濟,因為DNA雜交在廉價的一次性SiO2薄片上進行,就使得價格較高的CCD探測儀能重新利用。另外,還可以將探針直接固定在CCD上,作為專用的探針基質。
為了將探針固定在SiO2外層,使用環(huán)氧硅烷和標準SiO2修飾化學法,在膜表面結合一層均勻的環(huán)氧樹脂層。然后通過與環(huán)氧環(huán)形成次級胺,將胺修飾的寡核苷酸探針連接至SiO2表面。連接后,在寡核苷酸的3堿基和SiO2表面直接生成17個分離的可旋轉鍵。為保證偶聯(lián)過程中胺完全脫質子,并最大可能地減少次級結構的形成,反應在0.1M KOH中進行,并于37℃保溫6小時。
通常在FORMAT 3 SBH中,每十億個點記錄信號。不必一次雜交所有的陣列(例如4000個5×5mm),而是可以連續(xù)使用較小數(shù)量的陣列。
增強雜交信號的一個可行方法是循環(huán)雜交。在一個循環(huán)中,大多數(shù)固定探針與DNA片段雜交,這些片段的尾部序列與標記探針不互補。通過升高溫度,雜交產物會解鏈。在下一個循環(huán)中,其中的一些(約0.1%)會和適宜的DNA片段雜交,并會連接上另外的標記探針。在這種情況下,同時和兩組探針錯配的DNA雜交產物會解鏈。
在循環(huán)雜交中,循環(huán)開始前即加入所有成分,T4的起始溫度是37℃,若為熱穩(wěn)定連接酶則溫度更高。然后將溫度降至15-37℃,芯片保溫10分鐘,再升高溫度至37℃或更高保持數(shù)分鐘,然后再降低溫度??芍貜脱h(huán)10次。在一個改變的方法中,可使用更高的最適溫度(10-50℃),不必進行循環(huán),連接反應時間更長(1-3小時)。
利用此處描述的過程,可以用標準的合成方法生成復雜的芯片,并且因為所需寡核苷酸數(shù)目相對較少能精確定位寡核苷酸。例如,如果合成了所有的7堿基序列的寡核苷酸(16384個探針),就可以確定256,000,000個14堿基序列的寡核苷酸。
本發(fā)明一個重要的改變方法是,每個堿基陣列使用一種以上不同標記的探針。這可以滿足兩個目的多樣化以便減少分別雜交陣列的數(shù)目;或者測定一系列更長的寡核苷酸序列,比如3×6或3×7的寡核苷酸序列。在此情況下,如果使用兩個標記物,幾乎可以確定3個連續(xù)寡核苷酸序列的特異序列,因為陽性位點必定對兩種標記均有足夠的信號。
還有一個更進一步的改變是使用含BxNy探針的芯片,其中y的范圍是1-4。這些芯片使得序列的閱讀框不同。使用適宜的各組標記探針或者有非特異末端位置(即某一末端簡并成分)的F和P探針,也可達到同樣效果。還可以采用通用堿基作為接頭的一部分,將特定序列的探針連接到固相支持物上。這樣,探針更易于雜交,并且結構更穩(wěn)定。如果一個探針有5個堿基,可以使用,例如3個通用堿基作為接頭。
實施例16由雜交數(shù)據(jù)確定序列當一個所給的重疊(N-1)堿基序列被復制2次或多次,將會打斷序列拼合??梢杂米詈笠粋€核苷酸不同的兩個N堿基序列之一來延展序列,這一分支點限制了序列的單一拼合。
在某些情況下,通過將與靶核酸雜交的已知寡核苷酸序列重新拼合,不能成功地得到靶核酸的完整序列。這是因為如果靶核酸的片段大小和用于雜交的寡核苷酸的大小不相適宜,會丟失一些信息。丟失信息的量和待測序靶核酸的長度成正比。但如果所用靶核酸足夠短,就能夠確定它們的序列。
重復序列分布在特定長度的DNA上會干擾序列的拼合??梢杂嬎愠鲞@些重復序列的可能頻率。推導時需要引入對一個與序列結構有關的參數(shù)的定義,序列亞片段(SF)。如果靶核酸序列的任何一部分是以(N-1)堿基序列起始和結束,該(N-1)堿基序列在靶序列中重復出現(xiàn)了兩次或多次,就會產生序列亞片段。因此,在本發(fā)明的方法中,亞片段是序列拼合過程中兩個分支點之間的序列。由于存在重疊的短末端,所有亞片段的總長度比實際的靶序列長。通常,如果沒有另外的信息,亞片段不能被拼合成線形的順序,因為它們的起始和末端是共同的(N-1)堿基序列。不同靶核酸的亞片段數(shù)目取決于其(N-1)堿基序列的重復數(shù)目。該數(shù)目取決于N-1的值和靶核酸的長度。
計算可能性可以判定兩個因素的相互關系。如果通過使用長為N-1,或平均距離為A0的重疊序列成功地將陽性N堿基序列排序了,Lf個堿基長的片段的N-1由公式1得出Nsf=1+A0XKXP(K,Lf)其中K大于或等于2,P(K,Lf)代表在Lf個堿基長的片段上,N堿基序列出現(xiàn)K次的可能性。在實施例18中描述了一個計算機程序,它能由N堿基序列的含量,形成任何給定序列的亞片段。
對一特定長度的探針,亞片段的數(shù)目隨片段長度的增加而增加。所得亞片段可能不是唯一的排列順序。盡管不完全,這一信息對比較序列分析和識別序列的功能特性很有用。這類信息可以稱為部分序列。另一種獲得部分序列的方法是只使用一個亞組的給定長度的寡核苷酸探針。
對隨機DNA序列的計算機模擬可能與根據(jù)理論預測的序列較好地吻合。例如,對于N-1=7〔使用一個8堿基序列或16個5’(A,T,C,G)B8(A,T,C,G)3’類型的10堿基序列〕,一個200個堿基的靶核酸平均會有3個亞片段。然而,因為有均值的彌散,靶核酸文庫應該有500bp的插入序列,從而使不到1/2000的靶序列有3個以上的亞片段。所以,當對隨機序列的長核酸進行測序時,理想情況下,應使用那些有足夠短的靶核酸插入片段的典型文庫。這樣通過重疊獲得的各個插入片段,能獲得長核酸的完整序列。
為了減少對過短片段的需求(例如針對8堿基序列探針的50個堿基的片段),可以利用重疊片段中包含的信息,這些信息存在于每個DNA隨機斷裂過程(如克隆或隨機PCR)。也可使用短物理核酸片段庫。使用8堿基序列或5’(A,T,C,G)B8(A,T,C,G)3’類型的10堿基序列,來對1兆堿基測序時,并不需要20,000個50bp的片段,而只要2100個樣品就足夠了。這一數(shù)字包括700個隨機的7kb克隆(基礎文庫),1250個庫,每個庫有20個500bp的克隆(亞片段排序文庫)和來自跳躍(或類似)文庫的150個克隆。利用所述樣品的雜交數(shù)據(jù),應用改進的算法(實施例18)重新測序。
實施例17算法本實施例描述了對一個長序列進行測序的算法,該序列寫為一個4字母的字母表,這個字母表是由出發(fā)核酸序列最小數(shù)目的分離、隨機片段中組成K元組(K-tuple)的字碼得來的,其中K是寡核苷酸探針的長度。該算法主要用于雜交測序(SBH)過程。它基于亞片段(SF)、信息片段(IF),以及利用物理核酸序列確定信息片段的可能性。
如前所述,亞片段可能是由拼合過程中的分支點造成的,分支點是由于在靶核酸中有重復的K-1寡核苷酸序列。在一個序列中,任何兩個長為K-1的重復字碼之間的序列片段即為亞片段。在測序過程中,K-1字碼的多次出現(xiàn)干擾了重疊K字碼的排序,導致序列仍處于亞片段的形式。因此,在分支點之間的順序不確定的片段稱為序列亞片段。
信息片段定義為由重疊物理序列片段的最近端決定的序列片段。
可以匯集一定數(shù)量的物理序列片段而不丟失其決定信息片段的能力。隨機匯集的片段總長度取決于測序過程中使用的K元組的長度。
該算法包括兩個主要部分。第一部分用于從序列中包含的K元組集來組成亞片段。亞片段可能被定位于一定大小的物理核酸序列的編碼區(qū)中,或定位于長核酸序列界定的信息片段中。兩種類型的片段都屬于基礎文庫。該算法未描述如何確定基礎文庫的信息片段中K元組含量,即測序過程中所用信息片段的制備步驟。
算法的第二部分確定所得亞片段的線性順序,以便重現(xiàn)基礎文庫的核酸片段的完整序列。為了該目的,使用了另一個文庫——排序文庫,它由隨機匯集的出發(fā)序列的片段組成。該算法不包括這樣的步驟,即將基礎文庫的片段組合以重現(xiàn)一個完整的大堿基序列。要實現(xiàn)這個目的,需要連接基礎文庫的片段,這是組成信息片段的前提條件。另一種可選擇的方法是,在存在共同末端序列的基礎上,利用查找它們的重疊,用該算法確定基礎文庫片段的序列。
該算法不需要了解在基礎和排序文庫中核酸序列中特定K元組的出現(xiàn)次數(shù),也不需要了解在片段的末端出現(xiàn)的是哪個K元組字碼。該算法可應用于不同長度K元組的混合組成。算法的概念使它可能應用于包含有假陽性和假陰性K元組的K元組集。只有在特殊的例子中,假K元組的含量才會嚴重影響確定序列的完整性和正確性。算法可用于優(yōu)化模擬試驗中的參數(shù),也可用于實際SBH試驗中進行的序列測定,例如基因組DNA的測序。在優(yōu)化參數(shù)的過程中,選擇片段實用和合適的寡核苷酸探針(K元組),和/或選擇已確定探針的適宜長度的片段及片段數(shù),都是尤為重要的。
算法的這一部分在由K元組組成來確定序列的過程中非常重要。它基于通過最大化重疊的方法對K元組進行唯一的排序。測序的主要障礙是特定的重復序列,及假陽性和假陰性K元組。算法此部分的目的是獲得最小數(shù)量及最大長度的具正確序列的可能亞片段。此部分包括一個基本步驟和數(shù)個控制步驟。這必須是一個兩步的過程,因為有些信息只有在獲得所有的主要亞片段后才能使用。
測序的主要問題是從K元組的字碼組成來獲得重復序列,而依照定義,這些組成不負載K元組出現(xiàn)次數(shù)的信息。整個算法的概念取決于解決該問題的基礎。簡而言之,有兩種相反的途徑1)在確定pSF的過程中,開始時獲得重復序列,或2)在亞片段最后排序的過程中,再獲得重復序列。在第一種情況下,pSF帶有多余的序列,而在第二種情況下,它們包含序列缺失。前者需要去掉多余的序列,而在第二種情況下,在最后拼合序列的過程中,需要重復使用某些亞片段。
這兩種途徑的差異在于,對K元組的單一重疊的規(guī)定的嚴格性不同。較寬松的標準為當且僅當K元組X的最右端的K-1末端存在于K元組Y的最左端時,K元組X和Y明確地最大重疊。該標準將造成重復序列和多余序列的產生。
另一個用于第二種途徑的標準較嚴格,它有一個附加的說明當且僅當K元組X的最右端的K-1末端存在于K元組Y的最左端,且Y的最左端K-1末端不出現(xiàn)在任何其它K元組的最右端時,K元組X和Y明確地最大重疊?;趪栏駱藴实乃惴ㄝ^為簡單,在此加以描述。
當最后一個K元組右端的K-1末端不出現(xiàn)在任何一個K元組的左端,或出現(xiàn)在多個K元組的左端,特定亞片段的延伸過程終止。如果它出現(xiàn)在唯一的一個K元組的左端,就要檢驗該標準的第二部分。如果另外還有一個不同于前一元組的K元組,特定亞片段的拼合終止于第一個最左端的位置;如果不存在這樣的K元組,就符合單一重疊的條件,特定的亞片段就可以向右延伸。
除了基本的標準,還有一個附加標準以便能使用不同長度的K元組。最大重疊是重疊對中較短的長度為K-1的K元組。pSF的產生從文件的第一個K元組開始,K元組在該文件中隨機顯示,并且與它們在核酸序列中的順序無關。因此,文件中的第一個K元組不一定是序列的開始,也不是特定亞片段的開始。利用所述標準定義的單一重疊將K元組排序,從而產生亞片段。從文件中刪除每個使用過的K元組。當再沒有K元組和最后一個元組明確重疊時,亞片段的構建終止,并開始構建另一個pSF。因為確定大多數(shù)亞片段時不是從它們的實際起始位置開始的,要將形成的pSF加入K元組文件,作為一個更長的K元組。另一種可能是,從開始的K元組向兩邊形成亞片段。當無法再形成重疊,即無法進行任何亞片段的延伸時,過程終止。
可以將pSF分為三類1)在K元組集正確的時,形成的具最大長度和正確序列的亞片段;2)由于將最大的和明確的重疊標準應用于不完全的K元組集或有假陽性K元組的集合,形成的短亞片段;以及3)序列不正確的pSF。2)中的不完全集是由于雜交試驗中的假陰性結果造成的,或者是由于使用了不正確的K元組。由于使用假陽性或假陰性K元組,可以形成a)錯誤連接的亞片段;b)帶有錯誤末端的亞片段;c)表現(xiàn)為假的最小亞片段的假陽性K元組。
就假陽性K元組而言,可能會存在這樣的K元組,它們含有多個錯誤堿基或在中間某處含有一個錯誤堿基,也可能在末端有一個錯誤堿基。后一種K元組將導致形成短的錯誤亞片段或錯誤連接的亞片段。前兩種K元組形成和K元組同樣長度的錯誤pSF。
如果有一個假陰性K元組,則因為不能形成最大重疊,會產生pSF。如果有一個其最左端或最右端有錯誤堿基的假陽性K元組,則因為無法形成明確重疊,會產生pSF。當文件中同時存在具共同K-1序列的假陽性和假陰性K元組,就會產生pSF,其中的一個pSF在相應末端帶有錯誤的K元組。
形成亞片段后,在進行亞片段排序的過程中糾正序列錯誤的亞片段,并將明確連接的pSF連接起來。第一步包括切除錯誤連接的pSF,以及通過明確連接pSF得到最終亞片段,該步驟描述如下。
有兩種條件會生成錯誤連接的亞片段。第一,當錯誤的K元組出現(xiàn)在長K-1的重復序列的拼合點時,就會發(fā)生錯誤。第二,重復序列短于K-1。這些情況分別又有兩種變化形式。第一種,重復序列之一是片段的末端。第二種變化,重復序列在片段的任何位置出現(xiàn)。在第一種可能中,出現(xiàn)錯誤連接需要文件中某些K元組的缺失(假陰性)。在第二種可能情況中,要求在文件中同時出現(xiàn)假陽性和假陰性K元組??紤]到K-1序列的重復性,當任何一端有內部重復時,只缺失一個K元組就已足夠。而對嚴格的內部重復來說,需要缺失兩個,這是因為在信息學上,一個序列的末端可以被認為是假陰性K元組的無限線形排列。在“短于K-1”的情況中,只考慮長度為K-2的重復序列,這些序列需要2或3個特異的錯誤K元組。很有可能這些是實際試驗中所能檢測到的唯一情況,其它情況要少見得多。
當重復序列不是在片段的末端時,對錯誤連接亞片段的檢測標準更嚴格。此時,可以另外檢測兩個亞片段,其中一個在最左端,另一個在最右端分別有K-2序列,該K-2序列還存在于錯誤連接的亞片段中。當重復序列位于片段的末端,只有一個亞片段含有K-2序列,該K-2序列在亞片段形成時在最左端或右端造成錯誤。
按照一般規(guī)則來切除錯誤連接的亞片段如果一個亞片段的長K-2的最左端或最右端序列還存在于其它任何亞片段,應將此亞片段切為兩個亞片段,每一個都含有K-2序列。該規(guī)則不包括那種重復末端的罕見情況,即重復末端在重復K-1序列上有多個假陰性K元組。而是利用來自重疊片段的信息或基礎文庫和排序文庫中的信息片段來識別這類錯誤連接的亞片段。另外,當在含有相同K-1序列的兩個位置均出現(xiàn)多個假陰性K元組時,錯誤連接的亞片段將保留。這種情況很少見,因為它需要至少有4個特異的假陰性K元組。如果將短于K-2的序列從一個亞片段尾到另一個亞片段頭結合在一起能得到特定的序列,可以引入附加的規(guī)則從長為K的序列上切除這些亞片段。
通過嚴格運用所述規(guī)則,為了保證結果的準確性要丟失一些完整性。某些亞片段盡管不是錯誤連接,仍被切除,因為它們符合錯接亞片段的特性。有幾種這類情況。例如,一個片段,除了至少兩個相同的K-1序列,它還含有來自K-1的K-2序列,或者是一個片段,含有至少重復兩次的任一K-2序列,并且在中間至少有一個含特定K-2序列的假陰性K元組,等等。
該部分算法的目的是減少pSF的數(shù)目,獲得最小數(shù)目的有正確序列的長亞片段。在兩種情況下,有可能產生單一的長亞片段或完整序列。第一種情況涉及重復的K-1字碼的特異順序。有些情況中,某些或所有最大限度延伸的pSF(第一類pSF)可以被唯一地排序。例如,在片段S-R1-a-R2-b-R1-c-R2-E中,S和E是片段的起始和末尾,a、b、c是對各自亞片段特異的不同序列,R1、R2是兩個串聯(lián)重復的K-1序列,產生了5個亞片段(S-R1、R1-a-R2、R2-b-R1、R1-c-R2和R2-E)??梢砸詢煞N方式將它們排序上述原始序列或者S-R1-c-R-b-R1-a-R2-E。相反,在一個重復序列的數(shù)目和類型相同,但排列順序不同的片段中,即S-R1-a-R1-b-R-c-R-E,就不存在其它能包含所有亞片段的序列。這種類型的例子只有在生成pSF以后,才能識別出來。它們顯示了在pSF形成過程中采取兩步進行的必要性。第二種情況是當文件含有假陰性和假陽性K元組時,在非重復的K-1序列位置上產生假的短亞片段,這種情況更重要。
兩類pSF的解決方法包括兩部分。首先,將表現(xiàn)為并不存在的最小亞片段的假陽性K元組刪除。所有長為K的K元組亞片段,如果沒有這樣兩個重疊,它們在一端長度大于K-a,在另一端長度大于K-b,就要刪除以便形成最大數(shù)量的連接。在我們的試驗中,a和b的數(shù)值分別為2和3,這似乎已足夠消除充分數(shù)量的假陽性K元組。
在第二步將能夠唯一地連接的亞片段連接在一起。連接的規(guī)則是當且僅當位于兩個亞片段的相應起始或末尾的重疊序列不在任何其它亞片段的起始和末尾出現(xiàn),這兩個亞片段可以明確地連接。
例外的情況是兩個亞片段之一有相同的起始和末尾。此時即使文件中還有另一個亞片段具有的相同末端,仍然可以進行連接。這里主要的問題在于重疊序列的精確界定。當重疊序列僅為一對亞片段擁有,但重疊序列短于K-2,或者是雖不短于K-2,但另外還存在帶有長于K-4的重疊序列的亞片段,則不能連接。同樣,pSF的規(guī)范末端和刪除一個(或少數(shù))末端堿基的末端都被看作是重疊序列。
這一步之后,可能會殘留一些假陽性K元組(作為最小亞片段)和一些帶有錯誤末端的亞片段。另外,在很少見的情況中,當一定數(shù)目的特定假K元組同時存在,會發(fā)生錯誤連接。在亞片段排序過程以及另外的對照步驟中,會檢測并解決這些問題,同時處理未被切除的錯接的亞片段。
所得短亞片段分為兩種。通常情況中,因為重復K-1序列的分布,可以將這些亞片段明確地連接。這可以在生成pSF的過程之后進行,它也是一個很好的例子,說明pSF生成過程必須分兩步。在使用含假陽性和/或假陰性K元組的文件的情況中,在非重復K-1序列的位置獲得短的pSF。就假陽性K元組而言,一個K元組可能含有多個錯誤堿基(或在中間某處有一個錯誤堿基),也可以是在末端有K元組。后者導致生成短的錯誤(或錯誤連接)亞片段。前者會造成與K元組長度相同的錯誤pSF。
算法中連接pSF的部分其目的是減少pSF數(shù),以生成最小數(shù)目的、更長的序列正確的亞片段。所有K元組亞片段,如果沒有這樣兩個重疊,它們在一端長度大于K-a,在另一端長度大于K-b,就要刪除以便形成最大數(shù)量的連接。這樣,大多數(shù)的假陽性K元組被棄除。連接的規(guī)則是當且僅當兩個亞片段的相應起始或末尾的重疊序列不在任何其它亞片段的起始和/或末尾出現(xiàn),可以將兩個亞片段明確連接。例外的情況是兩個亞片段之一有相同的起始和末尾。此時即使文件中還有另一個亞片段具有的相同末端,仍然可以進行連接。這里主要的問題在于重疊序列的精確界定。在K-1或K-2序列重復的點上至少存在兩個特定的假陰性K元組,以及假陰性和假陽性K元組的結合,都會毀壞或“遮蓋”某些重疊序列,并能形成明確的但連接錯誤的pSF。為了防止這種情況,為了準確性必須犧牲完整性當末端序列短于K-2,以及存在另外一個長于K-4的重疊序列時,連接不能進行,重疊序列由pSF的末端限定,或省略一個或少數(shù)末端堿基。
在非常少見的情況下,因為存在一定數(shù)目的某些特定假陽性和假陰性K元組,有些帶有錯誤末端的亞片段和假陽性K元組(作為最小亞片段)可能保留下來,或者會發(fā)生錯誤連接。在亞片段排序過程以及另外的對照步驟中,會檢測并解決這些問題,同時處理未被切除的錯接的亞片段。
亞片段排序的過程和其生成過程相似。如果把亞片段看成較長的K元組,就可借助重疊末端進行明確連接從而排序。明確連接的信息依據(jù)是將基礎文庫的片段所產生的亞片段分為各個組,代表這些片段的區(qū)段。該方法與解決此問題的生化方法類似,生化方法基于與有相關連接序列的長寡核苷酸發(fā)生的雜交。利用基礎文庫片段的適宜區(qū)段的K元組,使連接序列形成為亞片段。相關的區(qū)段由和基礎文庫各自片段重疊的排序文庫的片段表示。最短的區(qū)段是排序文庫的信息片段。較長的是數(shù)個相鄰的信息片段,或者是排序文庫和基礎文庫中的相應片段的全部重疊部分。為了減少單獨樣品的數(shù)目,將排序文庫的片段隨機匯集,并確定單一K元組的內容。
利用排序文庫中的眾多片段生成非常短的區(qū)段,因此減少了多次出現(xiàn)K-1序列的機會,而K-1序列的多次出現(xiàn)正是產生亞片段的原因。另外,那些含有基礎文庫中給定片段的不同區(qū)域的較長區(qū)段不含某些重復K-1片段。在每個區(qū)段中,由給定片段來給某對亞片段形成一個連接序列(連接亞片段)。排序過程分為三步(1)每個區(qū)段的K元組的生成;(2)在每個區(qū)段中生成亞片段;以及(3)區(qū)段亞片段的連接。初級區(qū)段的定義為,基礎文庫中特定片段的K元組組成與排序文庫中K元組組成的主要交叉部分和區(qū)別部分。次級(短)區(qū)段的定義為,初級區(qū)段K元組組成的交叉部分和差異部分。
這里存在一個在交叉部分和差異部分中,假陽性和陰性K元組均有聚集的問題。來自起始序列的假陰性K元組在交叉部分聚集,以及在兩個序列中隨機出現(xiàn)、但不存在于相關重疊區(qū)域的假陽性K元組都聚集在交叉部分(重疊部分)。另一方面,來自任一起始序列的大多數(shù)假陽性K元組都占據(jù)在交叉部分。這是一個利用了來自與該片段重疊的片段的信息減少單個片段的試驗錯誤的例子。假K元組由于另一個原因聚集在差異部分中。將來自起始序列的假陰性元組集擴大以收入從交叉部分得到的假陽性元組,假陽性元組集收入那些因錯誤而未包括在交叉部分的K元組,即交叉部分的假陰性元組。如果起始序列包括10%的假陰性信息,初級和次級交叉部分將分別包含19%和28%假陰性K元組。另一方面,如果基礎片段和庫的長度分別為500bp和10,000bp,則假陽性的數(shù)學預期值為77。然而,有可能恢復大多數(shù)丟失的K元組并除去大多數(shù)假陽性K元組。
首先,必須給特定區(qū)段確定K元組的基本組成作為一對K元組組成的交叉部分。隨后將所有帶有出發(fā)K元組組成的K元組包括在交叉部分中,該交叉部分在一個末端含有K-1序列,另一個末端含K-+序列,這些序列出現(xiàn)在基本集的兩個K元組的末端。差異部分的生成在此之后進行,以防止在生成差異部分時聚集假陽性元組。此后,在差異部分同樣擴大K元組集,區(qū)別之處是從交叉部分進行借位。將所有收入的K元組作為假陽性元組從交叉部分文件中刪除。
為每一對(基礎片段)X(排序文庫的一個庫)限定交叉部分(即一個通用K元組的集合)。如果在集合中,K元組的數(shù)目很大,就將集合按上述原則收入假陰性元組。從給定的基礎片段減去所得交叉部分集就得到初級差異部分集。依照上述原則,從交叉部分集將假陰性K元組收入到差異部分集,同時,將這些K元組作為假陽性從交叉部分集刪除。當基礎片段比匯集片段長時,差異部分可以代表兩個分離的區(qū)段,這一點會在一定程度上減少它在以后步驟中的應用。初級區(qū)段都是含大量K元組的各對(基礎片段)X(一群排序文庫)所生成的交叉部分和差異部分。通過比較所有可能的初級區(qū)段對的K元組集,獲得次級區(qū)段的K元組集。由與大量K元組形成交叉部分的各對來限定兩個差異部分。從重疊片段獲得的大多數(shù)信息都在此步被恢復,所以,從第三輪形成交叉部分和差異部分的過程中所得甚微。
(2)生成區(qū)段的亞片段的操作和上述基礎文庫片段的相同。
(3)連接亞片段的方法包括,從給定的帶有某些重疊末端的基礎文庫片段的亞片段中,順序確定正確連接的亞片段對。在有4個相關亞片段的情況中,兩個有相同的起始,兩個有相同的末尾??梢赃B接成4對不同的亞片段。通常2對是正確的,2對是錯誤的。為了找到正確的,在由一個給定基礎片段的所有初級和次級區(qū)段所生成的亞片段中,檢測每對是否存在連接序列。選擇連接序列的長度和位置,以避免對序列的偶然性干擾。連接序列長K+2或更長,在某對亞片段的二者中重疊序列的旁邊都有至少一個元件2。只有找到了兩個連接序列,而剩余的兩個沒有,才能進行連接。兩個連接在一起的亞片段取代文件中原來的亞片段,該過程循環(huán)往復。
在此步驟中生成重復序列。這意味著某些亞片段多次包含于已連接在一起的亞片段中。通過尋找將一個亞片段和兩個不同亞片段連接在一起的相關連接序列,可以識別出這些亞片段。
識別那些在構建pSF和將pSF連為長亞片段時生成的錯誤連接的亞片段,基于檢測在片段的區(qū)段所生成的亞片段的序列中是否存在來自給定基礎片段的亞片段序列。錯誤連接位置不會找到該序列,這說明亞片段連接錯誤。
除了所描述的亞片段排序的三個步驟,為了正確地生成更完整的序列,需要一些附加的控制步驟或適用于特異序列的步驟。
通過比較區(qū)段和亞片段的K元組的組成,決定某個亞片段歸屬哪個區(qū)段。由于K元組組成的錯誤(由于庫的最初錯誤和K元組出現(xiàn)頻率造成的統(tǒng)計錯誤),不可能準確劃分亞片段。因此,不采用“全或無”的劃分,而是確定某個亞片段屬于某給定區(qū)段的可能性(P(sf,s))。這個可能性是K元組長度、亞片段長度、排序文庫片段長度、庫集的大小及文件中假K元組百分比的函數(shù)(P(sf,s))=(Ck-F)/Lsf其中Lsf是亞片段的長度,Ck是給定亞片段/片段對的共同K元組數(shù),F(xiàn)是一個參數(shù),該參數(shù)包括K元組長度、基礎文庫片段、庫集大小和錯誤百分比之間的關系。
把屬于特定區(qū)段的亞片段當作冗余的短pSF,并進行明確連接。此處明確連接的定義稍有不同,因為它是基于這樣一種可能性,即有重疊末端的亞片段屬于所考慮區(qū)段的可能性。另外,比照這些亞片段在其它區(qū)段中的連接,可以控制明確連接的準確性。在不同區(qū)段中連接后,將所有既得的亞片段連接在一起,刪除長亞片段中包含的短亞片段,剩余的進入常規(guī)的連接過程。如果沒有將序列完整重現(xiàn),使用相同或較寬松的判斷所屬區(qū)段可能性的標準,重復進行亞片段的劃分和連接過程,然后進行明確連接。
當使用嚴格的標準來定義明確重疊時某些信息未被利用。這樣得到的不是完整序列,而是幾個亞片段,這些亞片段限定了給定片段的幾種可能性。使用較寬松的標準可以獲得精確且完整的序列。在一些情況下,例如發(fā)生錯誤連接時,可能獲得完整但錯誤的序列,或獲得“怪物(monster)”亞片段,它們相互間沒有連接。因此,對應基礎文庫的每一個片段可以獲得a)幾個可能的結果,其中一個正確,以及b)最可能正確的結果。另外,在極少情況下,由于生成亞片段過程中的錯誤,或由于所屬可能性的比率,不能產生明確的結果,或只產生一個最可能的結果。這些情況仍將保持為不完整序列,或者通過將這些數(shù)據(jù)與基礎文庫的其他重疊片段進行對照獲得明確的結果。
在一個隨機生成的50kb序列上驗證上述算法,該序列含有40%GC以模擬人類基因組。在序列的中部,插入了不同的All,和其它一些重復序列,總長度大約4kb。為了模擬體外SBH試驗,進行如下操作以獲得適當?shù)臄?shù)據(jù)。
—隨機限定60個5kb重疊“克隆”的位置來模擬制備基礎文庫—隨機確定1千個500bp“克隆”的位置以模擬排序文庫的制備。這些片段是從序列中提取出來的。建立20個片段的隨機庫集,確定庫集的K元組集并儲存在硬盤上。這些數(shù)據(jù)將用于亞片段排序階段對于整個人類基因組,同樣密度的克隆,基礎文庫需要4百萬個克隆,排序文庫有3百萬個克隆。用于幾乎所有基因組DNA的隨機克隆和通過基于凝膠的方法測序時的幾kb的克隆的數(shù)目要比7百萬個克隆大數(shù)倍。
由5kb片段的起始和末尾的信息,可以確定在序列中有117個“信息片段”。隨后確定單個“信息片段”含有的重疊K元組集。只使用和預先確定的列表吻合的K元組亞集。該列表包括65%的8堿基序列、30%的9堿基序列和5%的10-12堿基序列。根據(jù)這些數(shù)據(jù)進行亞片段的生成和排序。
在兩個試驗中,用模擬的數(shù)據(jù)對算法進行驗證。將50個信息片段的序列重現(xiàn),數(shù)據(jù)集(超過20,000bp)100%正確,26個信息片段(大約10,000bp)有10%的假K元組(5%假陽性和5%假陰性)。
在第一個試驗中,所有的亞片段都是正確的,僅有1/50的信息片段的序列沒有完全重現(xiàn),而是保持5個亞片段的形式。對排序文庫的重疊片段的位置進行分析,表明它們缺少將5個亞片段進行單一排序所需的信息?;谥丿B末端,可以以兩種方式連接亞片段1-2-3-4-5和1-4-3-2-5。唯一的區(qū)別在于亞片段2和4交換位置。因為亞片段2、3、4相對較短(總共約100bp),這里就有較大的機會,并確實出現(xiàn)了這種現(xiàn)象,就是在排序文庫中沒有片段起始于或結束于亞片段3區(qū)。
為了模擬真正的測序,在許多試驗中將一些假(“雜交”)數(shù)據(jù)包括在輸入資料中。在寡核苷酸雜交試驗中,在建議條件下,唯一會產生可疑數(shù)據(jù)的情況是相對于完全匹配雜交的末端錯配。因此,在模擬實驗,只有在任一末端與實際K元組相差一個元素的K元組被認為是假陽性。這些假元組集按如下方法制備。在信息片段的初始K元組集中加入有5%假陽性K元組的亞集。從集合中隨機挑出一個K元組,拷貝并在其起始或末尾改變一個核苷酸,得到假陽性K元組。隨后減去一個有5%隨機挑選的K元組的亞集。通過這種方式,得到了最復雜情況的統(tǒng)計學預期數(shù)目,在該情況中,正確的K元組被末端有一個錯誤堿基的K元組所取代。
按上述方法制備K元組集,導致10%的假數(shù)據(jù)。由于隨機性地選擇要拷貝、改變和除去的K元組,這個值隨情況而變。但是,這個百分比超過實際雜交試驗中可疑數(shù)據(jù)的數(shù)量的3-4倍。引入的10%錯誤導致基礎文庫片段(基礎文庫信息片段)和區(qū)段中亞片段的數(shù)量增加2倍。正如對含有假陽性的K元組集所預期的(見初級亞片段的產生),大約10%的最終亞片段在末端有一個錯誤堿基。未觀察到亞片段的錯誤連接,也未發(fā)現(xiàn)有錯誤順序的亞片段。在排序過程中,被檢測的26個信息片段中有4個未能重現(xiàn)完整序列。在這4個例子中,獲得的序列的形式是,包含于同一區(qū)段的幾個長亞片段和幾個短亞片段。該結果表明該算法原則能容許有大百分比的錯誤數(shù)據(jù)。
由其K元組組成成功地生成了序列,這可以用完整性和準確性來描述。在生成序列的過程中,可以定義兩個特定情況1)生成的序列中丟失了一部分信息,但知道其位置,并知道它們所屬的類型,2)所得的重現(xiàn)序列與獲得K元組組成的序列不匹配,但是檢測不出錯誤。假設算法發(fā)展到其理論極限,比如使用確切的K元組集,則只有第一種情況會發(fā)生。不完整導致一定數(shù)目的不能明確排序的亞片段,并造成難以確定單一序列的確切長度,即完全串聯(lián)重復的數(shù)量。
假K元組會導致生成錯誤序列。錯誤的原因不是由于算法的缺陷,而是由于K元組的給定組成明確代表著和初始序列不同的序列。根據(jù)文件中存在的K元組的種類,可以定義三類錯誤。假陰性K元組(不伴隨假陽性)造成“缺失”。假陽性造成“延伸(不等交換)”。伴有假陰性的假陽性是造成單獨的“插入”或“缺失”與“插入”結合的原因。當亞片段的兩個可能起始之間的所有K元組(或大多數(shù)K元組)是假陰性,就會造成缺失。由于序列中的每個位置都由K元組限定,通常情況下,發(fā)生缺失需要K個連續(xù)的假陰性。(當有10%的假陰性,K=8時,這種情況每108個元件會出現(xiàn)一次)。即使是使用含有10個基因組等價物的隨機文庫對哺乳動物基因組進行測序,這種情況也極少發(fā)生。
假陽性K元組造成的序列末端延伸是“插入”的一個特例,這是因為序列的末端可以被看作是假陰性K元組的無限線形排列??梢钥紤]生成一群假陽性K元組產生的比單個K元組長的亞片段。如果在重疊片段中產生亞片段,如排序文庫中的隨機物理片段,就能檢測出這種情況。假陽性和假陰性K元組特異結合,會造成插入,或是由插入代替缺失。在第一種情況中,連續(xù)假陰性的數(shù)目小于K。兩種情況都需要數(shù)個重疊的假陽性K元組。插入和刪除主要是理論上的可能性,沒有很多的實際反映,因為對假K元組的數(shù)量和特異性的要求實在太高。
在其它情況中,如果假陽性和假陰性的種類和最小數(shù)量未滿足要求,K元組組成上的錯誤只會導致生成不完整的序列。
通過將樣品核酸與已知序列的固定化探針以及溶液中的標記探針接觸,將SBH,核酸樣品測序。一旦將探針連接酶加入探針和樣品的混合物,也就是說,一旦用支持物使一個固定探針和一個標記探針與樣品接連雜交,兩個探針會通過連接酶的作用被化學地連接起來。漂洗后,在標記探針存在的情況下,只有化學連接在一起的固定探針和標記探針能被檢測出來。通過鑒定陣列特定位置的固定化探針,和鑒定標記探針,在一個位于Format 3上的陣列的一點有探針的情況下,用一個3底物的樣品,可以確定樣品的一部分序列。起決定作用的是所有連接在一起的探針對的最大重疊序列,可以重建樣品的序列。待測序樣品不能是10堿基對(bp)的核酸片段或寡核苷酸。優(yōu)選的樣品長4到1千個堿基。
探針是長度小于10堿基的片段,并且優(yōu)選是4-9個堿基。這樣,固定探針陣列可以包括所有給定長度的寡核苷酸,或者僅包括用于特定檢測的寡核苷酸。當使用所有給定長度的寡核苷酸時,中心寡核苷酸的數(shù)目為4N,N是探針的長度。
實施例18重新利用測序芯片當測序過程中采用連接操作時,通常的寡核苷酸芯片不能立即重新利用。本發(fā)明人認為可以以多種方式克服此缺點。
對于第二個探針(探針P),可以使用核糖核苷酸,這樣該探針隨后可以用RNA酶處理除去。RNA酶處理時可以使用RNA酶A,該酶是一個內切核酸酶,可特異作用于單鏈RNA3’嘧啶,并切除與鄰近核苷酸的磷酸連接。終產物為嘧啶3磷酸和帶有末端嘧啶3磷酸的寡核苷酸。RNA酶作用不需要輔助因子和2價陽離子。
為了利用RNA酶,通常如Sambrook等所述(1989,在此引入作為參考)將芯片在適宜的含RNA酶的緩沖液中保溫。適宜的條件是,每個8×8mm或9×9mm的陣列,使用30-50μl含RNA酶的緩沖液,于37℃保持10-60分鐘。然后用雜交緩沖液漂洗。
盡管其應用不廣泛,在特定實施方案中還可以使用尿嘧啶(如Craig等所述(1989),在此引入作為參考)。要除掉連接的探針,以便重復利用芯片,可以用大腸桿菌修復酶(尿嘧啶-DNA糖基化酶)來降解,該酶能從DNA去除尿嘧啶。
還可以在探針之間形成一種可特異切除的鍵,在檢測后切除它。例如,通過Shabarova等(1991)和Dolinnaya等(1988)描述的化學連接形成。兩篇文獻都在此詳細引入作為參考。
Shabarova等(1991)描述,用溴化氰作為濃縮劑來濃縮寡脫氧核苷酸。在他們的一步化學連接反應中,將寡核苷酸加熱到97℃,緩慢降溫至0℃,然后加入1μl10mM的BrCN乙腈溶液。
Dolinnaya等(1988)顯示了如何在DNA雙鏈體中引入將亞磷酰胺和焦磷酸之間的核苷酸間鍵合。他們也使用了化學連接方法來修飾DNA的糖磷酸主鏈,其中使用水溶性的碳二亞胺(CDI)作為偶聯(lián)劑。對磷酰胺鍵的選擇切除包括和15%乙酸在95℃接觸5分鐘。對焦磷酸鍵的選擇切除包括和吡啶∶水混合物(9∶1)以及新鮮蒸餾的(CF3CO2)O接觸。
實施例19診斷-評分已知的突變或全長基因重新測序在一個簡單例子中,目標可能是探尋DNA區(qū)段中是否發(fā)生了特定的已知突變。12個以下的探針已經足夠達到此目的,例如一個等位基因的5個陽性探針,另一個等位基因的5個陽性探針,每個等位基因的2個陰性探針。因為每份樣品需要評分的探針數(shù)少,可以平行地分析大量樣品。例如,在3個雜交循環(huán)中使用12個探針,可以分析64個病人的96個不同基因組位點或基因區(qū)段,分析在含有12×24個亞陣列的一個6×9in膜上進行,每個亞陣列有64個點,各代表64個病人的同一DNA區(qū)段。在本實施例中,可以在64個96孔板中制備樣品。每個板代表一個病人,每個孔代表待檢測的一個DNA片段。將64個板的樣品重復點4次,點在同一個膜的4個方向。
利用單道移液或單針轉移裝置(或者一列分別控制的移液管或針),可以選擇出96個區(qū)段中每一個的12個探針。選出的探針可以排列于12個96孔板中。如果探針沒有事先標記,則可以標記探針,然后將來自4個板的探針和雜交緩沖液混合,并且優(yōu)選用96道移液裝置加入到亞陣列。一個雜交循環(huán)后,優(yōu)選將膜在未稀釋的雜交緩沖液或漂洗緩沖液中于37-55℃保溫,可以剝離以前加上的探針。
可能一個等位基因的陽性探針是陽性探針,而另一個等位基因的陽性探針是陰性探針,這可用來確定存在2個等位基因中的哪一個。在該冗余計算系統(tǒng)中,允許每個探針的雜交有一定程度(約10%)的錯誤。
尤其當較小的冗余度就足夠時,可以用一組不完整的探針來計算大多數(shù)的等位基因,例如,能證明樣品中是否存在兩個等位基因之一的1個或兩個探針。例如,使用一組4000個8堿基序列,給兩等位基因之一上的隨機選擇位點找到至少1個陽性探針的可能性為91%??梢詢?yōu)化一組不完整探針以反映受檢樣品的G+C含量和其它的影響。
對全長基因測序時,可以在適宜數(shù)目的區(qū)段中擴增基因。對每個區(qū)段,都可以選擇一組探針(大約每個探針2-4個堿基)進行雜交。這些探針能鑒定出分析區(qū)段中的某位置是否有突變。如果檢測出區(qū)段(即含有這些區(qū)段的亞陣列)有一個或多個突變位點,可以將區(qū)段和另外的探針雜交來探求突變位點的確切序列。如果用隔兩個核苷酸的6堿基序列檢測DNA樣品,并且確定出突變位置被正雜交的探針TGCAAA和TATTCC包圍,還被3個陰性探針覆蓋CAAAAC、AAACTA和ACTATT,則突變的核苷酸在正常序列中該位置必定為A和/或C。它們可能是被單堿基突變,或在AA、AC或CT之間的1或2個核苷酸缺失和/或插入所改變。
一個途徑是選擇這樣一個探針,它將正雜交的探針TGCAAA向右延伸1個核苷酸,將探針TATTCC向左延伸一個核苷酸。利用這8個探針(GCAAAA、GCAAAT、GCAAAC、GCAAAG和ATATTC、TTATTC、CTATTC、GTATTC),確定了兩個可疑的核苷酸。
可以確定關于突變最可能的假說。例如,發(fā)現(xiàn)A突變?yōu)镚。這樣的結果會造成兩種可能。一種是只發(fā)生A→G的置換,還有一種是除置換外,還在剛確定的G和C之間插入了一些堿基。如果與橋接探針的結果是陰性的,可以對這些可能的原因進行檢測,首先使用至少一個含有突變位置的橋接探針(AAGCTA),和另外的8個探針(CAAAGA、CAAAGT、CAAAGC、CAAAGG和ACTATT、TCTATT、CCTATT、GCTATT)。有許多其它的方法來選擇解決突變的探針。
在二倍體的情況中,將檢測樣品和純合子對照的評分進行特別比較,以確定雜合子(見上文)。如果少數(shù)連續(xù)探針探針所覆蓋的區(qū)段在兩條染色體之一發(fā)生了突變,這些探針的信號估計會減弱大約兩倍。
實施例20鑒定造成遺傳疾病和其它性狀的基因(突變)在固定化的樣品陣列上,使用通用的長探針(8堿基序列或9堿基序列)組,可以不進行亞克隆將長達5-20kb的DNA片段測序。另外,快速測序的速度約為1千萬bp/天/雜交儀。這就可以對有科學和醫(yī)學意義的人基因和基因組大片段進行重復測序。要將50%的人基因重新測序,需要檢查1億bp。這可以在較短的時間以合理的花費完成。
可以通過多種方式將這種巨大的重新測序的能力用于鑒定編碼疾病和其它性狀的突變和/或基因?;旧希梢詫碓从谔囟膊』颊叩幕蚪MDNA或特定組織的mRNA(可轉化為cDNA)作為出發(fā)材料。由這兩種來源的DNA經克隆過程或體外擴增過程(如PCR)制備出適宜長度的分離基因或基因組片段。如果使用克隆技術,在測序前,應從文庫中篩選出最小的一組待測克隆。通過少量探針的雜交,可以有效地進行篩選,尤其是要挑選少量長于5kb的克隆時??寺】梢允闺s交數(shù)據(jù)量增加兩倍,卻不需要上萬的PCR引物。
該過程有一個改進的方法,可以用酶限制性剪切DNA來制備基因或基因組片段,例如用Hga I以如下方式剪切DNAFACFC(N5’)/CTGCG(N10’)。不同片段的5堿基突出末端不同。一個酶可以將一定數(shù)量的基因生成合適的片段。通過使用幾種酶在分別的反應中剪切cDNA或基因組DNA,可以將每個目的基因做適當?shù)丶羟?。在一種方法中,剪切過的DNA以大小篩分??梢詫⑦@樣(并任選用核酸外切酶III處理,該酶可從3’端逐個切除核苷酸,并增加末端的長度和特異性)制備的DNA片段懸浮于試管或多孔板中。從較小的一組具有共同部分和適宜長度的可變突出末端的DNA接頭中,為每個需要擴增的基因片段選擇一對接頭。將這些接頭連接,然后利用通用引物做PCR。由1000個接頭可以生成1百萬對接頭,因此在相同的條件下,利用與接頭的共同末端互補的一對通用引物,可以特異地擴增1百萬個不同的片段。
如果在幾位患者中重復發(fā)現(xiàn)一個DNA差異,且該序列變化是無義,或者可以改變相應蛋白的功能,突變的基因可能就是疾病的原因。通過分析大量有特異性狀的個體,可以將特定基因的功能等位基因變化和特定性狀聯(lián)系在一起。
這種方法使得不必對大量系譜進行完全地基因作圖,并且在沒有這類遺傳數(shù)據(jù)或信息時,該方法更有特殊的價值。
實施例21標記基因圖譜中單核苷酸多態(tài)性本申請中公開的技術適用于有效地鑒定具有單核苷酸多態(tài)性(SNUPs)的基因組片段。在10個個體中,將所述測序過程應用于大量序列已知的基因組片段(可以經克隆或體外擴增技術擴增這些片段),可以鑒定到足夠量的具有SNUPs的DNA片段。進一步將這些多態(tài)性片段作為SNUP標記。這些標記物或者以前就已被作圖(例如它們代表已被作圖的STSs),或者可以通過以下所述的篩選過程作圖。
通過擴增標記物并將它們排列成由亞陣列組成的陣列,可以將來自相關家族或群體的每個個體的SNUPs評分。亞陣列包含相同的從被檢個體擴增得到的標記物。對于每個標記物,與分析已知突變一樣,分別給兩個等位基因挑選并評分各一組陽性探針,每組為6個或更少。利用1個或1組標記與疾病的明顯關聯(lián),可以確定相關基因在染色體上的位置。由于其高效和低價,可以獲得成千個體的成千個標記。這個數(shù)據(jù)量使得對一個基因定位的分辨率不到1百萬bp,并且可以定位參與多基因疾病的基因。通過對來自相關正常個體和患病個體的特定區(qū)域進行測序,可以鑒定被定位的基因以便評分突變。
優(yōu)選用PCR擴增來自基因組DNA的標記物。每個標記物都需要一對特異引物?,F(xiàn)存標記可以被改變,或者可以通過用HgaI型限制酶剪切基因組DNA,并連接一對接頭來制備新的標記。
可以將SNUP標記擴增,或點樣成庫集以便減少獨立擴增反應的次數(shù)。在這個情況中,每個樣品都有更多的探針被評分。當匯集了4個標記物并點在12份復制膜上,4個循環(huán)后可以獲得48個探針(每個標記12個)。
實施例22DNA片段同一性的檢測和確認經限制性剪切、克隆或體外擴增(如PCR)獲得的DNA片段,通??梢栽谝淮卧囼炛斜昏b定??梢酝ㄟ^確認凝膠電泳上特定大小的DNA條帶對片段進行鑒定??蛇x擇地,可以制備特異寡核苷酸,通過雜交對受檢DNA樣品進行確認。此處建立的步驟可以更有效地鑒定大量樣品,而無需為每個片段制備特異寡核苷酸。在已知序列的基礎上,從每個片段的通用探針中,篩選出一組陽性和陰性探針。篩選出的陽性探針通常可以形成1個或幾個重疊的組,而陰性探針散布于整個插入序列中。
在YAC克隆上對STS作圖的過程中,這個技術可用于鑒定STS。在大約100個YAC克隆或YAC克隆的數(shù)個庫上檢測每個STS??梢詫⑦@100個反應的DNA點在一個亞陣列中。不同的STS可能代表連續(xù)的亞陣列。在數(shù)個雜交循環(huán)中,每個DNA樣品都會產生一個標志,該標志足夠證明或否定在指定YAC克隆中存在特定的STS。
為了減少獨立PCR反應的次數(shù)或所點樣品數(shù),分別可以在一個反應中同時擴增幾個STS,或將PCR樣品混合。在這種情況中,每個點必須有更多探針接受評分。STS的集合不依賴于匯集YAC,可用于單個YAC或YAC庫集。當標記了不同顏色的探針一起進行雜交時,該系統(tǒng)尤其有吸引力。
除了證明樣品中存在某DNA片段,還可以利用數(shù)個單獨探針或探針集的雜交強度來估計DNA的量。將所得強度與DNA量已知的對照樣品的強度進行比較,同時確定所有點樣樣品中的DNA量。因為鑒定DNA片段只需要少量探針,而N個堿基長的DNA可以有N個可能的探針,所以這種應用不需要一大組探針就足夠鑒定任何DNA片段。對于一個1000bp的片段,從1000個8堿基序列平均可以選出30個完全匹配的探針。
實施例23鑒定傳染性疾病生物和它們的變種基于DNA來檢測患者體內的病毒、細菌、真菌和其它寄生生物,通常比其它方法更為可靠和便宜。DNA檢測的主要優(yōu)點在于能夠鑒定特異株和變種,并且最終能進行更有效的治療。下面描述兩例應用。
通過擴增12個已知的抗菌素抗性基因,檢測在細菌感染中是否存在這些基因??梢詫碜?28個患者的擴增產物點在2個亞陣列中,然后在一個8×12cm膜上,可以將12個基因的24個亞陣列重復4次。對每個基因,選擇12個探針作陽性和陰性記號。進行3個循環(huán)的雜交。這些試驗中的通用探針最可能是小得多的一組探針。例如,對于一個1000bp的片段,一套1000個8堿基序列中,平均30個探針是陽性的,而通常10個探針就足夠進行高度可靠的鑒定。如實施例9所述,可以擴增數(shù)個基因并/或同時點樣,并且能確定特定DNA的量。擴增基因的量可以指示出感染程度。
另一個例子包括可能對HIV病毒的一個基因或整個基因組進行測序。因為病毒變化迅速,給選擇適宜的治療方法造成很多困難??梢杂蓙碜?4個患者的分離病毒去擴增DNA片段,并利用所述過程重新測序。在得到的序列的基礎上,可以選擇最佳治療方法。如果有兩個類型的病毒相混,其中一個含有基本序列(類似雜合子的情況),通過將突變體的雜交評分和其它樣品(尤其是和只含基本病毒型的對照樣品)的雜交評分作定量比較,可以確認突變體。如果樣品中兩個病毒類型之一在某位點發(fā)生變異,覆蓋此位點的3到4個探針的評分只有其它樣品的1/2。
實施例24法學鑒定和親緣鑒定序列多態(tài)性使基因組DNA各不相同。這樣可以分析從犯罪現(xiàn)場得到的血液或其它體液或組織,并且與犯罪嫌疑人的樣品進行對比。將足夠數(shù)量的多態(tài)性位點標記下來,形成樣品的獨特標志。SBH可以非常容易地標記單核苷酸的多態(tài)性從而形成這種標志。
可以將樣品和嫌疑犯的一組DNA片段(10-1000)進行擴增。將來自樣品及嫌疑犯的代表一個片段的DNA點在一個或幾個亞陣列上,每個亞陣列被復制4份。在3次循環(huán)中,12個探針可以確定出每份樣品(包括嫌疑犯的)中每個DNA位點是否存在等位基因A或B。將樣品和嫌疑犯的樣式進行匹配,可以發(fā)現(xiàn)犯罪嫌疑人。
可以用同樣的過程來證明或否定父母與孩子的親緣關系。從兒童和成人制備DNA并擴增多態(tài)性基因座;可以通過各自的雜交確定A或B等位基因的樣式。將所獲得的樣式與陽性及陰性對照一起進行比較,可以幫助確定家庭關系。在這種情況下,只需等位基因的重要部分與父母一方匹配就可確認。標記基因座數(shù)目眾多可以避免程序中的統(tǒng)計錯誤,或再次突變的掩蓋效果。
實施例25評估種群或物種的基因多樣性及生態(tài)小環(huán)境的生物多樣性對大量基因座(例如,數(shù)個基因或整個線粒體DNA)上的等位基因變異頻率進行檢測,導致建立了不同類型的結論,比如這樣一些結論,它們涉及環(huán)境對基因型、對種群的歷史和進化或者對種群易感性、對滅絕,及其它的影響。可以通過檢測特定的已知等位基因進行這些評估,或者通過對一些基因座進行完全的重新測序,重新測序可以確定基因的再次突變,后者可以揭示環(huán)境中的誘變劑和細微變化。
另外,通過對進化保守的DNA序列(如核糖體RNA的基因或高度保守的蛋白質的基因)進行重新測序,就可以對微生物世界的生物多樣性進行考查??梢詮沫h(huán)境中以及用保守序列的對應引物擴增的特定基因來制備DNA。優(yōu)選將DNA片段克隆在一個質粒載體上(或將其稀釋到這樣一個水平多孔板上的每個孔中含有1個分子,然后進行體外擴增)。可以依照前面描述的方式將這樣制備的克隆重測序。從而獲得兩類信息。首先,可以得到不同種的目錄以及每一種中個體的密度。另外一部分信息可以用來檢測生態(tài)因子或污染對生態(tài)系統(tǒng)的影響。這將揭示是否污染造成了一些物種的滅絕,或者物種間的豐度比被改變。這種方法同樣可以應用于化石中的DNA測序。
實施例26對核酸物類的檢測或定量利用一個探針對可以對DNA或RNA物類進行檢測和定量分析,該探針對包括一個固定在基質上的未標記探針和一個溶液中的已標記探針。在有標記探針和連接酶的情況下,通過將這些物類暴露于未標記的探針中可以進行檢測和定量。特別地,通過在樣品核酸主鏈上連接標記探針和未標記探針得到延伸的探針,形成延伸探針就指示存在所要檢測的物類。因此,除去未連接的標記探針后,如果基質上的陣列的特殊位點存在標記物,就表明存在一個樣品物類,標記物的量指示該物類的表達水平。
可選擇地,先將1或多個未標記的探針排列在基質上,而將1或多個標記探針導入溶液中。按照這樣一種方法,即利用在可辨別波長下發(fā)熒光的染料,可以使陣列上的探針多樣化。利用這種方式,用特異于待測物類的標記和未標記探針檢測加到陣列上的cDNA混合物,確定是否存在該cDNA物類及其表達水平。按照一個優(yōu)選的實施方案,可以通過選擇含有與被測cDNA有重疊序列的未標記與標記探針對,用這種方法測定cDNA的部分序列。
可以選擇探針以檢測特定病原體基因組的存在和數(shù)量,這是通過在組合物中加入選出的探針對,此探針對僅在目的病原基因組個體中結合。也就是,雖然沒有特異于病原體基因組的某個探針對,但探針對的結合卻是特異的。同樣,在cDNA的檢測或測序中,很可能會發(fā)生這種情況特定探針對于一個cDNA或其它類型的物類是非特異的。然而,可以通過這樣一個結果來決定特定物類的存在和數(shù)量,即位于一個獨特的陣列位置上的選擇探針的結合表明一個特定物類的存在。
不用聚合酶鏈式反應(PCR)或其它目的擴增過程,僅用一個固定化的檢測芯片就可以檢測一個帶有10kb或更大DNA的感染性介質。按照其它方法,通過經PCR擴增單個靶核酸序列以及利用對靶序列特異的標記探針進行雜交來檢測目的基因的存在,可以分析包括細菌和病毒在內的感染性介質的基因組。由于這種分析僅對單個靶序列有特異性,因此必須利用比如PCR這些方法擴增基因,提供足夠的靶序列以便給出一個可測的信號。
按照本實施例,它提供了一個利用Format 3型反應來檢測感染性介質的特有核酸序列的改進方法,其中要準備一個固相檢測芯片,此芯片含有由多種不同的固定寡核苷酸探針構成的陣列,探針對所研究的感染性介質具有特異性。單個的點包含由許多與靶核酸互補的未標記探針組成的混合物,它使對某物類特異的標記物濃縮于一個位置,從而比擴散或單個探針標記的敏感性更高。這種多探針可能是靶核酸序列的重疊序列,但也可能是非重疊序列,還可以是不相鄰的。這些探針優(yōu)選大約5-12個核苷酸長。
將一個核酸樣品加入探針陣列,樣品中的靶序列將與多個固定的探針雜交。選擇一組標記多探針,它們能夠特異地結合在與固定探針相鄰的靶序列上,然后將它們與樣品一起加到未標記寡核苷酸探針混合物的陣列上。將連接酶加入到芯片中來連接樣品上的相鄰探針。然后漂洗檢測芯片以除去未雜交和未連接的探針及樣品核酸,通過檢測有無標記物來確定是否存在樣品核酸。這種方法能給出可靠的檢測結果,它所使用樣品介質的摩爾濃度降低了1000倍。
本發(fā)明的另一方面,可以通過某些手段擴大標記探針產生的信號,如給游離探針加一個通用的尾巴,這個尾巴含有多個產色素、酶促或放射性的標記物,或者它本身易被另外一個多重標記了的探針介質特異性結合。通過這種方式就可以進行第二級的信號放大。第二級放大時可以使用標記的或未標記的探針。在這個第二級放大中,一個帶有多標記的長DNA樣品可以導致信號強度放大10-100倍,這可以使信號總共放大100,000倍。通過利用本實施例的兩個方面,不必使用PCR或其它擴增步驟,一個接近100,000倍的信號強度就能得到探針一DNA連接的陽性結果。
按照本發(fā)明的另一個方面,可以制備一個包含一整套探針(例如4096個6堿基序列的探針)的陣列或超陣列。這種陣列可以被用來對任何核酸物類進行檢測或進行部分到完全的測序,從這個意義上來說它們是通用的。一個陣列上的單個點可能包含一個物類的探針或探針的混合物,例如在一個反應中合成的N(1-3)B(4-6)N(1-3)類型的混合物(N表示所有的4種核苷酸,B表示一種特異的核苷酸,相關的數(shù)字表示堿基數(shù)目的范圍,如,1-3表示“1到3個堿基”)。通過收集同一長核酸物類的分子上不同部分的信號,這些混合物可以為低濃度的核酸物類提供較強的信號??梢詫⑦@個通用的探針組分成許多亞組,這些亞組點成被一些屏障分隔開的單位陣列,其中的屏障可以防止含有樣品和標記探針的雜交緩沖液發(fā)生擴散。
對一個序列已知的核酸物類進行檢測時,要選擇一種含更多寡核苷酸的序列,包括未標記的固定探針和溶液中的標記探針。標記探針可以是合成的或者選自預先合成的整套堿基序列(如7堿基序列)。將標記探針添加到相應的固定探針的單位陣列中。這樣一對固定和標記探針將與靶序列在鄰近位置雜交,一旦加入連接酶,探針就被共價地結合在一起。
如果一個單位陣列包含1個以上固定探針(分別處于差異部分或位于同一點上),所述探針在給定核酸物類中為陽性,那么可以將所有相應的標記探針混合起來加入到此單位陣列中。當所檢測的為混合核酸物類時,將標記探針混合就顯得尤為重要。一個復雜的核酸物類混合物的例子是一個細胞或組織中的mRNA。
按照本發(fā)明的一個實施方案,固定探針的單位陣列使得可以將每一個可能的固定探針與數(shù)量較少的標記探針的混合物一起使用。如果要實施一個多重標記方案,可以使用更復雜的標記探針的混合物。優(yōu)選的多重標記方法可以使用不同的熒光染料或者可以用質譜儀進行分離的分子標記物。
可選擇地,按照本發(fā)明的一個優(yōu)選實施方案,挑選一些較短的固定探針,這些探針通常與許多核酸序列雜交。將這些短的探針和標記探針的混合物結合使用,制備這些標記探針混合物是為了使得至少有一個標記探針對應于每個固定探針。優(yōu)選的混合物是那些其中沒有與多個固定探針對應的標記探針的混合物。
實施例27利用所有可能的10堿基序列查詢HIV病毒的片段在這個SBH格式III的實施例中,在尼龍膜(如Gene Screen)上制備一個結合了所有可能的5堿基序列(1024個可能的5堿基序列)的陣列。利用5’-TTTTTT-NNN-3’(N=所有4種堿基A,C,G,T,在合成的這一步,等摩爾加入所有4種堿基)的5’末端,合成結合的5堿基序列寡核苷酸。將這些寡核苷酸精確地點在尼龍膜上,經風干后,用紫外線處理將風干的點來固定寡核苷酸。用這種方法使寡核苷酸的密度達到每平方納米18個寡核苷酸。紫外線處理后,用含有緩沖液的去污劑于60-80℃處理尼龍膜。將寡核苷酸點劃分成10行10列的亞陣列,每個亞陣列有64個5堿基序列的點和36個對照點。16個亞陣列有1024個5堿基序列,它包含了所有可能的5堿基序列。
利用物理屏障,例如疏水帶,將陣列中的每個亞陣列分隔開,這樣可以避免每一個亞陣列與樣品雜交時,與相鄰亞陣列的交叉污染。在一個優(yōu)選實施方案中,疏水帶是用在合適溶劑中的(這種溶劑是本領域公知的)硅硐溶液(例如,普通硅硐膠和封口膠)制作的。用這種硅硐脂溶液在亞陣列之間形成線,這種線在溶劑蒸發(fā)后作為分隔小室的疏水條。
在這個Format III的實施例中,游離的或溶解的(不結合的)的5堿基序列是利用5’-NN-3’(N=所有4種堿基A,C,G,T)的3’末端合成的。在這個實施方案中,將游離的5堿基序列和結合的5堿基序列組合起來生成所有可能的10堿基序列,此10堿基序列是為了對20kb以下的已知DNA測序。將20kb的雙鏈DNA變性形成40kb的單鏈DNA序列。該40kb的ssDNA與4%的所有可能10堿基序列雜交。10堿基序列與已知靶序列結合的低頻率使得可以將待處理的游離或溶解(不結合的)5堿基序列匯合起來用于處理各亞陣列,而不丟失序列信息。在一個優(yōu)選實施方案中,將16個探針匯合在各個亞陣列,而且所有可能的5堿基序列存在于含游離5堿基序列的64個集合中。這樣,利用1024個亞陣列(每個游離5堿基序列的集合有16個亞陣列)就可以生成針對一份DNA樣品的所有可能的10堿基序列探針。
在這個實施方案中,目的DNA代表HIV病毒的2個600bp的片斷。用60個重疊的30堿基序列(每個30堿基序列與相鄰的30堿基序列有20個核苷酸的重疊)來表示這些600bp的片段。30堿基序列的集合模擬一個目的DNA,該DNA經本領域公知技術剪切、消化和/或隨機PCR處理而生成一個非常小的片斷的隨機庫。
如前面的Format III的實施例中所描述的,用放射性同位素、生物素、熒光染料等來標記游離的5堿基序列。標記的游離5堿基序列和結合5堿基序列一起與目的DNA進行雜交和連接。在一個優(yōu)選實施方案中,向反應體系中加入300-1000單位的連接酶。按照前面的實施例確定雜交條件。連接并去除目的DNA和過量的游離探針后,(利用前面實施例中描述的技術)分析陣列來確定標記探針的位置。
目的DNA中的已知DNA序列,以及每個亞陣列中的已知游離及結合5堿基序列預示著每個亞陣列中哪個結合5堿基序列將連接到標記的游離5堿基序列上。隨著每一目的DNA的變化,來自20個預測點的信號將丟失,并由預測序列獲得20個新的信號。在這10個新點中,結合5堿基序列的重疊序列決定了每個新點中,哪一個游離的標記5堿基序列被結合。
利用上述方法、陣列以及游離的標記5堿基序列集合,用所有可能的10堿基序列來檢測HIV的DNA序列。利用這種Format III的方法,我們可以正確地鑒定出被測片斷的“野生型”序列,同樣可以鑒定出引入這些片斷上的那些序列“突變”。
實施例28重復DNA序列的測序在一個實施方案中,在一個改進的Format III方法中,用“間隔區(qū)寡核苷酸”對目的DNA中的重復DNA序列進行測序。重復DNA序列(在第一輪SBH確定了重復序列)上的不同長度的間隔區(qū)寡核苷酸與目的DNA、第一個已知相鄰寡核苷酸以及第二個已知的或一組可能與間隔區(qū)的另一邊相鄰的寡核苷酸(從第一輪SBH得知)進行雜交。當一個與重復DNA片斷長度吻合的間隔區(qū)與靶序列雜交時,兩個相鄰的寡核苷酸能夠被連接在間隔區(qū)上。如果將第一個已知寡核苷酸序列固定在基質上,且第二個已知的或可能的寡核苷酸序列被標記,那么當一個適宜長度的間隔區(qū)與目的DNA雜交時,就會形成一個結合的連接產物,這個產物包括被標記的第二個已知的或可能的寡核苷酸。
實施例29利用FORMAT 3 SBH通過分支點測序在一個實施方案中,利用第三組寡核苷酸序列和改進的格式III方法,對目的DNA中的分支點進行測序。第一輪SBH后,編排序列時可能鑒定出一些分支點。這個問題可以這樣解決,通過與導致分支點的已知序列之一有部分重疊的寡核苷酸進行雜交,然后再與另外的一個寡核苷酸靶序列進行雜交,該寡核苷酸已被標記并且與分支點伸出的序列之一相對應。當適宜的寡核苷酸與目的DNA雜交后,可以將被標記的寡核苷酸與其它的寡核苷酸相連接。在一個優(yōu)選實施方案中,選擇第一種寡核苷酸,它被一個或幾個分支點處的核苷酸(這樣能識別一個分支序列)形成分支,第二種寡核苷酸也被選擇出來,它是從第一種寡核苷酸起始并讀入分支點序列。選擇一組第三種寡核苷酸,這種寡核苷酸對應所有可能的分支序列,并與分支點序列有一個或幾個核苷酸(與第一個寡核苷酸相對應)重疊。將這些寡核苷酸與目的DNA進行雜交,只有第三種帶有適當分支序列的寡核苷酸(它與第一個寡核苷酸的分支點相匹配)會與第一、第二寡核苷酸產生連接產物。
實施例30用于分析靶核酸的多重探針在本實施例中,用不同的標記物標記探針組,因此,組中的每個探針都能與其它探針區(qū)別開。這樣,這組探針能夠與核酸在同一個雜交反應中接觸而不會丟失任何探針信息。在一個優(yōu)選實施方案中,不同的標記物是不同的放射性同位素,或不同的熒光標記,或不同的EMLs。這些探針系列可以用于SBH的格式I、II或III中。
在Format I SBH中,一組區(qū)別標記的探針與固定在介質上的靶核酸進行雜交,所用雜交條件可以區(qū)分完全匹配與只有一個堿基對的錯配。與靶核酸相連接的特異探針可以通過它們不同的標記被識別,并且由這種連接信息至少部分地確定了完全匹配。
在Format II SBH中,用不同探針標記靶核酸并與探針陣列進行雜交。通過其不同標記物來識別與探針結合的特異靶核酸,并至少部分地由這些結合信息決定核酸的完全匹配。
在FormatIII SBH中,一組區(qū)別標記的探針和固定探針與靶核酸進行雜交,雜交條件能夠區(qū)分完全匹配與一堿基對的錯配。在靶核酸上鄰近一個固定探針的標記探針被結合到固定探針上,通過它們的不同標記來檢測并區(qū)分這種產物。
在一個優(yōu)選實施方案中,區(qū)別標記物是EMLs,可以利用電子俘獲質譜儀(EC-MS)對其進行檢測。可以由多種主鏈分子,特定優(yōu)選某些芳香鏈來制備EMLs,如參見Xu等,J.Chromatog.76495-102(1997)。將EML可逆地并且穩(wěn)定地連接在探針上,在探針與靶核酸雜交后,從探針上去除EML,并利用標準的EC-MS對其進行鑒定(如,可以通過氣相色譜-質譜儀檢測EC-MS)。
實施例31檢測低頻率靶核酸SBH Format III有足夠的辨別能力將這樣的序列鑒定出來,該序列和它僅一個核苷酸之差的類似序列在樣品中以1比99份存在。因此,可以用Format III來鑒定核酸樣品中濃度極低的核酸,例如一個來源于血液的樣品。
在一個實施方案中,這兩個序列是決定囊性纖維化的序列,不同之處在于其中一個缺失了3個核苷酸。這兩個序列的探針是固定在一個基質上,能區(qū)別缺失型和野生型的探針,以及一個二者共同的被標記的鄰接探針。利用這些靶序列和探針,用SBH FormatIII可檢測出存在于99個野生型中的一個缺失突變。
實施例32用于分析靶核酸的偏振片裝置和方法可以用兩個核酸陣列和任選的一種能阻止兩個陣列的核酸在需要前發(fā)生混合的材料來構造分析核酸的裝置??梢杂靡幌盗谢|支持裝置中的陣列,基質包括但不限于尼龍膜、硝酸纖維素膜或其它上文公開的材料。在優(yōu)選實施方案中,一種基質是一種被疏水帶分隔為小區(qū)的膜,或者是另外一種有小孔的支持物,孔中可以填塞凝膠或海棉。在本實施方案中,探針被放置于膜的一個小區(qū)或者小孔中,將凝膠、或海棉與一種溶液(帶有或不帶有靶核酸)加到膜上或孔中,這樣可以溶解探針。然后使這種溶有探針的溶液與第二陣列的核酸進行接觸。核酸可以是,但不限于是寡核苷酸探針或靶核酸,可以將探針或靶核酸標記??梢杂萌魏伪绢I域常用的標記物,包括,但不僅限于放射性同位素,熒光標記或電泳質量標記物來標記核酸。
將阻止核酸混和的材料放置在兩個陣列之間,其放置方式保證當這種材料被去除后,兩個陣列的核酸將混和在一起。材料的形態(tài)可以是片狀、膜或其它屏障形式,而且這種材料可由任何能夠阻止核酸混合的物質構成。
在SBH Format I中可以這樣來使用該裝置裝置的第一陣列含有固定在基質上的靶核酸,裝置的第二陣列帶有核酸探針,這些探針已被標記,并能夠除去從而對第一陣列上的靶核酸進行查詢。任選將這兩個陣列通過一層物質隔開,這種物質能夠阻止探針與靶核酸的接融,當除去這層物質后,探針就可與靶核酸相互作用。經過適當?shù)呐囵B(yǎng)及(任選的)漂洗步驟后,可以“讀”出靶核酸陣列以測定哪個探針能與靶核酸完全匹配。這種認讀可以是自動化的,也可以是人工的(如,通過肉眼識別放射自顯影圖)。在SBH Format II中,過程類似前面描述的過程,只是靶核酸被標記而探針被固定。
可選擇地,在SBH FormatIII中可以如下使用該裝置形成兩個核酸探針陣列,將兩個陣列或其中的一個的核酸探針標記,并可將其中一個陣列固定在基質上。用一層能阻止探針混和的物質將兩個陣列分隔開。通過加入靶核酸并除去阻擋層以使兩種探針與靶核酸相互混和來啟動Format II反應。結合到靶核酸上的相鄰位置的探針被聯(lián)接在一起(例如通過堿基堆積相互作用或通過與主鏈的共價鍵連接),讀出結果以確定哪些探針在鄰近位點與靶核酸相連。當一組探針被固定在基質上后,可以閱讀固定的那個陣列探針來確定另一陣列中的哪個探針與固定探針連接在一起。與上面的方法相同,這種閱讀方法可以是自動的(如,利用ELISA計數(shù)器)或人工的(如利用肉眼觀察放射自顯影圖)。
實施例33三維探針陣列在一個優(yōu)選實施方案中,將寡核苷酸探針固定在一個三維陣列中。三維陣列包括許多層,每一層都可以獨立并脫離其它層進行分析,或者三維陣列的所有層同時進行分析。三維陣列包括,例如,一種放置在基質上的陣列,基質上帶有多個凹陷,而探針位于這些凹陷內的不同深度(每一層面由位于凹陷內相似深度的探針構成);或者安置在這樣的基質上的陣列,所述基質帶有不同深度的凹陷,而探針位于凹陷的底部、分隔凹陷的峰、或峰和凹陷的結合部(每一個層面是由處于特定深度的所有探針組成);或者安置在由許多片狀層組成的基質上的陣列,這些片狀層形成三維陣列。
用于合成這些三維陣列的物質是本領域所公知的,其中包括本說明書先前提到的還適合作探針陣列的支持物的一些物質。另外,其它的一些能夠支持寡核苷酸探針的適宜物質,優(yōu)選是柔韌性的物質,也能夠用作基質。
實施例34cDNA克隆簇的信號處理利用標準PCR、SBH序列信號分析及桑格測序技術,由cDNA文庫得到許多不同的核酸序列。通過PCR擴增文庫的插入序列,擴增過程中使用了插入序列兩側的載體序列的特異引物。這些樣品被點在尼龍膜上并且用適當數(shù)量的寡核苷酸探針進行查詢,測量陽性結合探針的濃度,從而提供序列信號。將克隆聚集成具有相似或相同序列信號的簇,從每一簇中選出一個代表性的克隆進行凝膠測序。在一個典型的桑格測序流程中,利用反轉M13測序引物來推斷擴增到的插入片斷的5’端序列。將PCR產物純化,并進行熒光染料終止循環(huán)測序。用377Applied Biosystems(ABI)測序儀做單通道凝膠測序。經過這種方法選擇和測序的大多數(shù)克隆具有各不相同的序列,很少具有相同的序列。
實施例35高產量生產芯片在一個優(yōu)選實施方案中,一種用于大量生產探針陣列的裝置可能包含一個旋轉的鼓或盤,它與一個噴墨沉積裝置連接,(如微滴量頭);和一個合適的自動化系統(tǒng),例如一個anorad gantry。關于該裝置的一個特別優(yōu)選的實施方案將配合圖1-3進行描述。
裝置包含一個圓柱(1),其上結合有合適的基質。此基質可以是前面所描述的適用于探針陣列的任何基質。在一個優(yōu)選的實施方案中,基質是一種柔韌性的物質,陣列直接在基質上生成。在可選擇的實施方案中,柔韌性的基質結合在圓柱上,單個的芯片固定于基質上。然后在每個單獨的芯片上形成陣列。
在一個優(yōu)選的實施方案中,在基質或芯片上加上物理屏障來限定一個孔陣列。可以利用裝置將此物理屏障加到基質或芯片上,或可替代地,在芯片或基質尚未固定在圓柱(1)上之前就加上了物理屏障。然后將單個寡核苷酸探針點放置在每一個小孔中,每個孔中所放置的所有探針可能都有相同的序列,或者具有不同的序列。在一個更優(yōu)選的實施方案中,陣列中點在每個單獨孔中的探針與點于陣列中其它孔中的探針互不相同。由這些陣列就可以拼合含有多重陣列的測序芯片。
將基質或基質和芯片固定到圓柱(1)上后,一個發(fā)動機(未顯示)將轉動圓柱。通過本領域的公知技術,包括例如,利用一個固定的光感受器及隨圓柱轉動的光源,可以精確地測定圓柱的轉動速度。利用以上計算得到的精確轉速,一個分液器(3)沿著臂(2)移動,能夠將探針或其它試劑通過分液槍頭(8)加到基質或芯片上的精確位置。分液器通過流加管(7)從存貯器(6)中接收探針或反應物。存貯器(6)中裝有制造陣列所必需的探針及其它試劑。
圖3中描繪了分液器。分液器可以有1或多個分液槍頭(14和8)。每一個分液槍頭對應主體(12)上的一個樣品孔(13),通過樣品管(10)來接收探針或其它試劑。壓力管(11)向小室(9)加壓以達到1磅/英寸2,以使探針或試劑流過分液槍頭(14和8)。在每次變換探針或試劑時,都必須沖洗樣品管(10)、孔(13)及分液槍頭(14和8)。通過樣品管(10)或任選專門漂洗管(未顯示)來供應合適的漂洗緩沖液到樣品孔(13)中,或者任選將室的一部分或整個空間加滿漂洗緩沖液。需要時,通過一個排出管(未顯示)或通過樣品管(10)及分液槍頭(14和8)將漂洗緩沖液從樣品孔及室中移出。
利用分液方法將探針加到每個陣列或芯片上的所有適當位點后,去除圓柱中的基質(帶有或不帶有芯片)并結合上新的基質。
實施例36利用與分散顆粒復合的探針分析靶核酸在該實施方案中,用探針來查詢靶核酸,這些探針復合(共價或非共價)了許多分散顆粒。可以基于其物理學性質(或多個物理學性質)的不同將這些顆粒分散區(qū)別開來,具有不同物理學性質的顆粒與不同的探針相復合。在一個優(yōu)選實施方案中,探針是一個序列和長度已知的寡核苷酸。因此,利用每個顆粒的不同物理性質就可將探針鑒定出來。適用于該實施方案的探針包括在前面部分所描述的所有探針,包括那些從提供信息的意義上來說比全長探針要短的探針。
分散顆粒的物理特性可以是任何能使它們被劃分為組的特性,這些特性在本領域廣為人知。例如,可以基于它們的大小、熒光、吸光度、電磁電荷或重量,或者顆粒是否可以被標記染料、放射性核素或EML來將它們劃分為組。其它一些合適的標記包括可作為特異結合物的配體,這些結合物可結合標記抗體、化學發(fā)光劑、酶、可和標記配體特異結合的抗體,等等。許多標記物早已被應用于很方便采用的免疫分析中。其它的一些標記包括抗原、有特殊反應性的基團,和電化學可檢測的部分。還有其它一些標記,包括在前面部分提到的任何標記。這些標記和特性可用本領域常見的方法對其進行定量檢測,包括例如前面章節(jié)所描述的方法,并且可以基于檢測信號強度或信號類型來區(qū)別顆粒(例如對于同一顆??蓱貌煌娜玖厦芏然虿煌娜玖项愋妥鳛橐粋€標記)。在一個優(yōu)選的實施方案中,幾種物理特性被結合起來,從而利用不同的特性組合來辨別顆粒(如,10種大小和10種顏色結合起來可以區(qū)分100種顆粒群體)。
利用顆?!结樐軌蜷_發(fā)標準組合方法,因此,例如可以利用大約2000個反應容器合成所有可能的10堿基序列。進行第一組1024個反應在1024個不同的標記顆粒上合成所有可能的5個堿基序列。將產生的探針—顆?;旌显谝黄?,并平分到另外一組1024個反應容器中。用這些樣品進行第二組反應,在顆粒集合中的探針上合成所有可能的5堿基序列的延伸產物。利用物理學性質來鑒定每個探針的前5個核苷酸,利用反應器來鑒定每個探針的另5個核苷酸的特征。由此,利用2048個反應器合成了所有可能的10堿基序列探針。很容易將這個方法進行改進以便在大范圍的探針長度內合成所有可能的n堿基序列。
在一個優(yōu)選實施方案中,根據(jù)顆粒的熒光強度將它們分成組。用不同濃度的熒光標記制備每組顆粒,由此顆粒具有不同的熒光強度。熒光素的熒光強度與其濃度在1∶300到1∶300,000(Lockhart等,1986)的范圍內有關,在1∶3000到1∶300,000的濃度范圍內,呈線性關系(因此熒光素強度在大約1-300的范圍內呈線性)。在線性檢測范圍內,用熒光素(如,3-259)標記256組顆粒。256組顆??梢允顾锌赡艿?堿基序列連接到不同組的顆粒上。通過將顆粒匯集,具備了4個含有所有可能4堿基序列的集合,然后利用A,G,C,或T在每個集合中延伸探針,就可以形成所有可能的5個堿基序列。類似地,得到16個所有可能4堿基序列的集合,通過對每個集合進行兩個堿基(A,G,C,和T的兩個堿基的16種排列之一)的延伸,可以獲得所有可能的6堿基序列(7堿基序列需要64個集合,8堿基序列需256個集合,等等)。
用5堿基序列的探針(在4個集合中)來查詢一個靶核酸。該靶核酸用另外一種熒光染料或其它的不同標記物(如上所述)進行標記。將被標記的靶核酸與4個集合混合在一起,每個集合中的互補探針與靶核酸進行雜交。利用本領域公知的方法檢測這些雜交混合物,然后通過檢測每個顆粒的熒光強度來鑒定陽性雜交探針。在一個優(yōu)選實施方案中,使探針-顆粒以及靶核酸的混合物通過一個流式細胞器中或其它的分離儀器中,每次一個顆粒,檢測顆粒的標記和靶核酸從而決定哪些探針是與靶核酸互補的。
在一個可選擇的實施方案中,用另一種熒光染料或其它的標記(如上所述)標記一組游離探針,將每個單獨的游離探針與每個5堿基序列探針集合(4個集合)進行混合,然后使混合物與靶核酸進行雜交。當游離探針結合到靶核酸上的一個位點,此位點與5堿基序列的結合位點相鄰(游離探針的位點必須與可以連接的5堿基序列探針的末端相鄰)時,加入一種介質使游離探針與5堿基序列探針共價結合(參照前面部分有關合適介質的描述)。利用本領域的公知方法對顆粒進行分析,來檢測哪些顆粒(即具有游離探針標記的顆粒)已經與游離探針共價結合,并利用顆粒的熒光強度來鑒定5堿基序列探針。在一個非常優(yōu)選的實施方案中,使探針—顆粒、游離探針和靶核酸的混合物通過一個流式細胞器,每次一個顆粒,并檢測顆粒的標記和游離探針的標記來確定哪些探針與靶核酸互補。
在優(yōu)選的實施方案中,要用探針—顆粒復合物來分析靶核酸,所有或大部分的操作在一個單獨的裝置中就可以完成。該裝置具有一個或多個試劑室,將緩沖液和標記的靶核酸在其中充分混合(可以人工加入或自動添加靶核酸)。將混合物從試劑室分流到多個反應室,每個反應室具有一個探針顆粒復合物集。探針顆粒和靶核酸在一定的條件下反應,該條件允許互補探針與靶核酸發(fā)生結合。從反應室中去除(如通過漂洗)過量的靶核酸,即未結合的核酸,并利用靶核酸上的標記與顆粒的聯(lián)系鑒定結合在靶核酸上的顆粒。利用顆粒的物理學特性鑒定探針。在一個優(yōu)選實施方案中,除去過量靶核酸后,顆粒從反應室以單列通過一個孔道到達檢測儀。當單個的顆粒通過檢測儀器時,這些儀器將檢測靶核酸的標記和顆粒的物理學性質。在一個可選擇的優(yōu)選實施方案中,在去除過量靶核酸之前或之后,例如通過大小(如排阻層析),電荷(如,離子交換層析),和/或密度—重量這些物理學性質中的一種或全部來將顆粒分成組。然后利用檢測儀器分析這些分配好的顆粒。
在一個可選擇的實施方案中,試劑室中有緩沖液、靶核酸、探針—顆粒復合物集,和一個化學的或酶促的連接試劑。充分混合這些成份,然后在將其從試劑室等分到許多反應室中。每一個反應室都有一個標記的游離探針??蛇x擇地,將這個探針—顆粒復合物集合和游離探針一起放在反應室中,而不必將它們加入試劑室。另外,可以將游離探針加入試劑室,探針—顆粒集合可以加入到反應室。探針—顆粒、靶核酸和游離探針在一定條件下進行反應,該條件允許游離探針和顆粒探針與靶核酸上的相鄰位點結合,因此,游離探針被連接在探針—顆粒上。從反應室中清除(如,通過漂洗)過量的游離探針(即,未連接的)和靶核酸。利用游離探針標記與顆粒的聯(lián)系檢測已連接的探針,并利用顆粒的物理學性質鑒定與顆粒復合的探針。在一個優(yōu)選的實施方案中,除去過量的探針和靶核酸后,顆粒從反應室單列穿過一個通道到達檢測儀器。當單個顆粒通過檢測儀器時,此儀器將檢測以共價形式聯(lián)在顆粒上的游離探針標記以及顆粒的物理學性質。在一個可選擇的優(yōu)選實施方案中,清除過量探針和靶核酸之前或之后,利用顆粒的物理學特性,如借助它們的大小(如排阻層析),電荷(離子交換層析),和/或密度/重量將其歸組。利用檢測儀器分析分配好的顆粒。
在一個優(yōu)選的實施方案中,儀器中有一組第二反應室,探針顆粒集合被放置在第二反應室中。將靶核酸和緩沖液在試劑室中混和,然后注入含有標記游離探針的第一反應室。將探針和靶核酸混合,任選探針與靶核酸進行雜交。然后使標記探針及靶核酸的混合物流入含有探針顆粒集的第二反應室中。在第二反應室中,游離探針和探針-顆粒與靶核酸進行雜交,合適的探針被連接在一起。可以將連接試劑加入到試劑室中,或添加到任何一個反應室中,優(yōu)選加入第二反應室中。按上述方法分析第二反應室中的探針—顆粒的雜交產物。
在一個實施方案中,在分析前不必擴增(通過PCR或利用一個載體,例如λ文庫)靶核酸。由于樣品序列的復雜性增加,在本實施方案中優(yōu)選使用較長的游離探針和顆粒探針(即越過背景分辨出陽性反應)。
在這個實施例中所描述的探針—顆粒實施方案適用于以前描述過的任何應用,包括但不限于以前描述的診斷和測序應用。另外,可以按前面所述及的變化或改變,對這些探針—顆粒方案進行改進。
實施例37在有改變多核苷酸間的結合的試劑存在的情況下,互補多核苷酸的相互作用在這個實施方案中,通過添加一種或多種試劑,可以調整對互補多核苷酸結合過程中產生的完全匹配和錯配的辨別值。在一個優(yōu)選實施方案中,互補的多核苷酸是一個目的多核苷酸和一個多核苷酸探針。通過添加試劑可以調整區(qū)分完全匹配和錯配的能力,所述試劑可以是鹽,如三烷基銨鹽(例如TMAC,Ricelli等,核酸研究213785-3788(1993))、氯化鈉、磷酸鹽和硼酸鹽;可以是有機溶劑,如甲酰胺、乙二醇、二甲基亞砜以及二甲基甲酰胺、脲、鈲、氨基酸類似物比如甜菜堿(Henke等,核酸研究193957-3958(1997);Rees等,生物化學32137-144(1993)),多胺如亞精胺和精胺(Thomas等,核酸研究252396-2402(1997)),或能夠中和磷酸主鏈負電荷的帶正電荷的分子;可以是去污劑,如十二烷基磺酸鈉、十二烷基肌氨酸鈉,小/大溝結合試劑、正電荷多肽,和插入試劑如吖啶、溴乙錠、炭疽菌素。在一個優(yōu)選實施方案中,向雜交反應中加入混和的試劑,以便調整區(qū)分正確匹配與錯配的能力。其中一些試劑可以通過降低兩個互補鏈的熔解熵從而影響辨別值。
在一個優(yōu)選實施方案中,利用一些試劑提高了從錯誤匹配中區(qū)別正確匹配的能力。例如,一種常用變性劑甲酰胺,在Format III的反應中,與正確匹配相比,它對錯誤匹配有優(yōu)先的去穩(wěn)定作用。如前所述,啟始FormatIII反應,然后添加不同量的甲酰胺(0%,10%,20%,30%,40%,和50%)。在0%,可檢測到一個正確的匹配信號,同時背景(錯誤匹配)很高。在10%的甲酰胺中,有較好的正確匹配信號,同時背景/錯誤匹配信號降低。在20%的甲酰胺中,正確匹配的信號降低(但可測),同時背景/錯誤信號被清除。在30%-50%的甲酰胺中,沒有正確匹配或背景/錯誤匹配的信號。
在一個可選擇的實施方案中,用一種試劑來降低或增加一對互補多核苷酸的Tm。在一個更優(yōu)選的實施方案中,利用一些試劑的混合物來降低或增加一對互補多核苷酸的Tm。試劑可以以多種方式改變Tm,這里舉兩個例子(并不意味著限制本發(fā)明),(1)破壞兩個互補多核苷酸堿基對之間的氫鍵連接的試劑(Goodman,美國科學院學報9410493-10495(1997);Moran等,美國科學院學報9410506-10511(1997);Nguyen等,核酸研究253059-3065(1997)),(2)能中和或掩蓋多核苷酸的糖磷酸主鏈中的磷酸負電荷的試劑。(Thomas等,核酸研究252396-2402(1997))。通過加強或減弱(1)和/或(2),就可以調節(jié)互補多核苷酸對的Tm值。
在一個非常優(yōu)選的實施方案中,添加一種或多種試劑來降低GC堿基對的結合能,或者增加AT堿基對的結合能,或兩者同時進行。在一個優(yōu)選實施方案中,加入一種或多種試劑,使AT堿基對的結合能近似等于GC堿基對的結合能。這樣,兩個互補多核苷酸的結合能僅取決于其長度。通過加入可以中和或掩蓋多核苷酸主鏈中的磷酸基團的負電荷的一種試劑,可以增加這些互補多核苷酸的結合能。
本發(fā)明的范圍不僅局限于所列舉的實施方案,這些實施方案僅用來闡述發(fā)明的某一方面,具有相同功能的組合物和方法也在發(fā)明的范圍內。事實上,考慮了所述優(yōu)選實施方案后,本領域技術人員可以在應用本發(fā)明時進行各種修進和變化。因此,對本發(fā)明范圍的唯一限制是所附權利要求中列舉的。
本說明書中引用的所有文獻,在此全文引作參考。
權利要求
1.一個大量寡核苷酸探針的陣列,包括一種基質;一種形成物理屏障的材料,其中所述材料被放置在基質上形成多孔格柵;其中大量寡核苷酸探針被排列在多孔中形成一個陣列,其中每個孔含有一個固定在基質上的探針斑點。
2.權利要求1的陣列,其中每個獨立斑點具有的探針的序列不同于陣列中其他斑點處的其他探針的。
3.權利要求2的陣列,其中位于每個獨立斑點中的探針具有相同的序列。
4.權利要求1的陣列,其中一個斑點的中心與相鄰斑點的中心之間的距離至少為325μm。
5.一塊測序芯片,含有大量權利要求1的陣列。
6.一塊測序芯片,含有大量權利要求2的陣列。
7.一塊測序芯片,含有大量權利要求3的陣列。
8.權利要求1的陣列,其中寡核苷酸探針包含一個信息部分和一個反應基團,該反應基團用于將探針附著在基質上。
9.權利要求8的陣列,其中寡核苷酸探針進一步含有至少一個隨機化位點。
10.權利要求9的陣列,其中寡核苷酸探針進一步含有一個間隔基。
11.一個大量寡核苷酸探針的陣列,包含具有多個層面的基質,其中大量探針被固定于基質中的多個層面上。
12.權利要求11的陣列,其中每個層面可被單獨分析。
13.權利要求11的陣列,其中多種層面可被同時分析。
14.權利要求11的陣列,其中寡核苷酸探針包含一個信息部分和一個反應基團,該反應基團用于將探針附著在基質上。
15.權利要求14的陣列,其中寡核苷酸探針進一步含有至少一個隨機化位點。
16.權利要求15的陣列,其中寡核苷酸探針進一步含有一個間隔基。
17.一種分析靶核酸的方法,包括下列步驟將靶核酸與大量寡核苷酸探針接觸,其中所述探針與大量不同的分散顆粒復合,這些顆粒可基于一種物理性質而被相互區(qū)分開,且一個不同的探針與每一種類型分散顆粒相復合;檢測那些與靶核酸互補的探針;并從一組互補探針分析靶核酸。
18.權利要求17的方法,進一步包括將分散顆粒分離成級分,其中分散顆粒是基于物理性質而被分離的。
19.權利要求18的方法,其中互補探針組具有至少兩個重疊探針。
20.權利要求18的方法,其中靶核酸序列在分析步驟中被編輯。
21.權利要求18的方法,其中通過分散顆粒的物理性質識別互補探針。
22.權利要求18的方法,其中物理性質與選自染料、放射性核苷酸、EML和熒光分子的分子相關聯(lián)。
23.權利要求18的方法,其中物理性質選自大小、電荷、吸光度和重量。
24.權利要求23的方法,其中物理性質與物理性質的強度相關聯(lián)。
25.權利要求23的方法,其中物理性質與大量不同分子相關聯(lián)。
26.權利要求18的方法,其中探針的信息部分比探針全長短。
27.權利要求18的方法,其中靶核酸含有一個標記且通過靶核酸上的標記檢測互補探針。
28.權利要求17的方法,其中檢測步驟是通過將獨立的顆粒經過一個探測器而在獨立的分散顆粒上進行的。
29.權利要求28的方法,其中互補探針組具有至少兩個重疊探針。
30.權利要求28的方法,其中靶核酸序列在分析步驟中被編輯。
31.權利要求28的方法,其中通過分散顆粒的物理性質識別互補探針。
32.權利要求28的方法,其中物理性質與選自染料、放射性核苷酸、EML和熒光分子的分子相關聯(lián)。
33.權利要求28的方法,其中物理性質選自大小、電荷、吸光度和重量。
34.權利要求33的方法,其中物理性質與物理性質的強度相關聯(lián)。
35.權利要求33的方法,其中物理性質與大量不同分子相關聯(lián)。
36.權利要求28的方法,其中探針的信息部分比探針全長短。
37.權利要求28的方法,其中靶核酸含有一個標記且通過靶核酸上的標記檢測互補探針。
38.權利要求28的方法,進一步包括將靶核酸與大量游離的寡核苷酸接觸,將鍵合在靶核酸一個位點上的互補游離探針與一個與分散顆粒復合的互補探針共價連接,所述互補探針鍵合在靶核酸的一個位點上,該位點鄰接于游離探針鍵合的位點,及其中檢測步驟識別與分散顆粒探針共價連接的游離探針。
39.權利要求38的方法,其中互補的共價連接的探針組含有至少兩個重疊的共價連接探針。
40.權利要求38的方法,其中靶核酸序列在分析步驟中被編輯。
41.權利要求38的方法,其中通過分散顆粒的物理性質識別與分散顆粒復合的探針。
42.權利要求38的方法,進一步包括將分散顆粒分離成級分,其中分散顆粒是基于物理性質而被分離的。
43.權利要求42的方法,其中使用流式細胞計數(shù)器將分散顆粒分離成級分。
44.權利要求38的方法,其中物理性質與選自染料、放射性核苷酸、EML和熒光分子的分子相關聯(lián)。
45.權利要求38的方法,其中物理性質選自大小、電荷、吸光度和重量。
46.權利要求45的方法,其中物理性質與物理性質的強度相關聯(lián)。
47.權利要求45的方法,其中物理性質與大量不同分子相關聯(lián)。
48.權利要求38的方法,其中游離探針的信息部分比探針全長短。
49.權利要求38的方法,其中與分散顆粒復合的探針的信息部分比探針全長短。
50.權利要求38的方法,其中游離探針的信息部分及與分散顆粒復合的探針的信息部分比探針全長短。
51.一種分析靶核酸的方法,包括下列步驟在使得完全匹配與錯配相區(qū)別的條件下將靶核酸與探針接觸,其中加入一種增加完全匹配與錯配之間的差別的試劑;并檢測探針與靶核酸是否互補。
52.權利要求51的方法,其中試劑選自鹽、有機溶劑、尿素、鈲鹽、氨基酸類似物、多胺、其他中和磷酸骨架負電荷的帶正電荷的分子、去污劑、小/大溝結合劑、帶正電荷的多肽和插入劑。
53.權利要求52的方法,其中鹽選自三烷基銨鹽、氯化鈉、磷酸鹽和硼酸鹽。
54.權利要求52的方法,其中有機溶劑選自甲酰胺、乙二醇、二甲基亞砜和二甲基甲酰胺。
55.權利要求52的方法,其中氨基酸類似物是甜菜堿。
56.權利要求52的方法,其中多胺選自亞精胺和精胺。
57.權利要求52的方法,其中去污劑選自十二烷基磺酸鈉和十二烷基肌氨酸鈉。
58.權利要求52的方法,其中插入劑選自吖啶、溴乙錠和炭疽菌素。
59.權利要求51的方法,其中加入多種試劑。
60.權利要求59的方法,其中試劑選自鹽、有機溶劑、尿素、鈲鹽、氨基酸類似物、多胺、其他中和磷酸骨架負電荷的帶正電荷的分子、去污劑、小/大溝結合劑、帶正電荷的多肽和插入劑。
61.一種分析靶核酸的方法,包括下列步驟提供一個大量固定化寡核苷酸探針的陣列;提供大量標記的寡核苷酸探針;在使得與靶核酸形成完全匹配的探針區(qū)別于與靶核酸結合時有一個堿基錯配的探針的條件下,將靶核酸與固定化探針和標記探針接觸,其中加入能增加完全匹配與一個堿基對錯配之間的差別的試劑;將鍵合于靶核酸的一個位點的固定化探針與標記探針共價連接,所述標記探針雜交在靶核酸的一個位點,該位點鄰接于固定化探針鍵合的位點;并識別共價連接的固定化探針和標記探針。
62.權利要求61的方法,其中試劑選自鹽、有機溶劑、尿素、鈲鹽、氨基酸類似物、多胺、其他中和磷酸骨架負電荷的帶正電荷的分子、去污劑、小/大溝結合劑、帶正電荷的多肽和插入劑。
63.權利要求61的方法,其中試劑是甲酰胺。
64.權利要求61的方法,其中加入多種試劑。
全文摘要
本發(fā)明提供了一種用于檢測靶核酸物類的方法,使用固定于一種基質的一個探針陣列和大量標記探針。本發(fā)明還涉及附著于分散的顆粒上的寡核苷酸探針,其中根據(jù)物理性質將顆粒分為許多組。不同的探針附著于每組分散的顆粒上,根據(jù)其物理性質識別分散的顆粒從而確定探針的同一性。本發(fā)明進一步涉及使用降低互補多核苷酸鏈結合穩(wěn)定性(降低結合能)的試劑和提高互補多核苷酸鏈結合穩(wěn)定性(提高結合能)的試劑的方法。附圖描繪了批量生產探針陣列的裝置。
文檔編號C40B60/14GK1273609SQ98808165
公開日2000年11月15日 申請日期1998年8月14日 優(yōu)先權日1997年8月15日
發(fā)明者R·德爾馬納克, S·德爾馬納克, N·拜德亞 申請人:希斯克有限公司