包含聚合物單元的聚合物的分析的制作方法
【專利摘要】在聚合物(3)例如DNA中的聚合物單元的序列由涉及聚合物的至少一個測量的系列例如作為移位通過納米孔(1)的函數(shù)的離子電流來估計,其中每個測量值取決于k聚體,所述k聚體是k個聚合物單元(4)的組。提供了尤其是隱馬爾可夫模型(HMM)的概率模型,對于一組可能的k聚體,所述模型包括:表示從起源k聚體到目標(biāo)k聚體的過渡的機(jī)會的過渡權(quán)重;以及表示觀測k聚體的測量的給定值的機(jī)會的關(guān)于每個k聚體的發(fā)射權(quán)重。利用參考模型的分析技術(shù)例如維特比解碼來分析測量的系列,并基于通過由聚合物單元的序列產(chǎn)生的測量的系列的模型所預(yù)測的似然來估計在聚合物中的聚合物單元的至少一種估計的序列。在進(jìn)一步的實(shí)施方式中,在移位期間跨越納米孔施加不同的電壓以便改善聚合物單元的分辨力。
【專利說明】包含聚合物單元的聚合物的分析
[0001] 本發(fā)明總體上涉及通過進(jìn)行涉及聚合物的測量來分析包含聚合物單元的聚合物 例如但不限于多核苷酸的領(lǐng)域。本發(fā)明的第一方面特別涉及在聚合物中聚合物單元的序列 的估計。本發(fā)明的第二和第三方面涉及在聚合物的移位期間測量流過納米孔(nanopore) 的離子電流,用于聚合物的分析。
[0002] 存在許多類型的測量系統(tǒng),其提供聚合物的測量,用于分析聚合物和/或確定聚 合物單元的序列的目的。
[0003] 例如但不限于,一種類型的測量系統(tǒng)采用聚合物通過其移位的納米孔。系統(tǒng)的一 些性能取決于在納米孔中的聚合物單元,并進(jìn)行上述性能的測量。例如,可以通過將納米孔 放置在絕緣膜中并在有分析物分子存在的條件下測量通過納米孔的電壓驅(qū)動的離子轉(zhuǎn)運(yùn) 來產(chǎn)生測量系統(tǒng)。取決于納米孔的特性,通過它的獨(dú)特的離子電流特征,可以揭示分析物的 同一'丨生(特性,identity),尤其是電流單元(current block)的持續(xù)時間和程度以及電流 水平的變化。上述類型的使用納米孔的測量系統(tǒng)大有前途,尤其是在多核苷酸如DNA或RNA 的測序領(lǐng)域,并且一直是最近很大發(fā)展的主題。
[0004] 在廣泛的應(yīng)用范圍內(nèi),目前需要快速和廉價的核酸(例如DNA或RNA)測序技術(shù)。 現(xiàn)有技術(shù)是緩慢和昂貴的,主要是因為它們依靠擴(kuò)增技術(shù)來產(chǎn)生大量的核酸并需要大量的 用于信號檢測的專門熒光化學(xué)物質(zhì)。通過減少所需要的核苷酸和試劑的量,納米孔檢測有 可能提供快速和廉價的核酸測序。
[0005] 本發(fā)明涉及一種情況,其中每個測量的值取決于k個聚合物單元的組,其中k是正 整數(shù)(即'k聚體')。
[0006] 此外,典型的是,用于每個測量的值的許多類型的測量系統(tǒng),包括大多數(shù)目前已知 的生物納米孔,是取決于k聚體,其中k是復(fù)整數(shù)(plural integer)。這是因為,多于一個 的聚合物單元有助于觀測到的信號并且可以概念上被認(rèn)為是具有大于待測量的聚合物單 元的"鈍性讀出頭"的測量系統(tǒng)。在這樣的情況下,待解析的不同k聚體的數(shù)目增加到k的 乘方。例如,如果存在η個可能的聚合物單元,則待解析的不同k聚體的數(shù)目是n k。雖然 期望的是,在不同k聚體的測量之間具有清晰的分離,但常見的是,這些測量的一些是重疊 的。尤其是在k聚體中聚合物單元的高數(shù)目(即k的高值)的情況下,可以變得難以解析 由不同k聚體產(chǎn)生的測量,從而不利于導(dǎo)出關(guān)于聚合物的信息,例如聚合物單元的基本序 列的估計。
[0007] 因此,許多開發(fā)工作一直是針對可以改善測量的分辨率的測量系統(tǒng)的設(shè)計。這在 實(shí)際測量系統(tǒng)中是困難的,這是由于測量的變化,其可以在不同程度上由基本物理或生物 系統(tǒng)的內(nèi)在變化和/或由于待測量性能的較小幅度不可避免的測量噪聲產(chǎn)生。
[0008] 許多研究已旨在測量系統(tǒng)的設(shè)計,上述測量系統(tǒng)提供可分辨的測量,其取決于單 個聚合物單元。然而,這在實(shí)踐中已被證明是困難的。
[0009] 其它工作已接受取決于k聚體的測量,其中k是復(fù)整數(shù),但已旨在設(shè)計這樣的測量 系統(tǒng),其中來自不同k聚體的測量是彼此可分辨的。然而,實(shí)際限制再次意味著這是非常困 難的。由一些不同k聚體產(chǎn)生的信號的分布經(jīng)??梢灾丿B。
[0010] 原則上,也許可以結(jié)合來自k個測量的信息,其中k是復(fù)整數(shù),其各自部分地取決 于相同的聚合物單元以獲得在聚合物單元的水平上被解析的單值。然而,這在實(shí)踐中是困 難的。首先,這依賴于確定適宜的變換以變換一組k個測量的可能性。然而,對于許多測量 系統(tǒng),由于在基本物理或生物系統(tǒng)中相互作用的復(fù)雜性,這樣的變換并不存在或?qū)ζ浼右?確定是不切實(shí)際的。其次,即使對于給定測量系統(tǒng)而言這樣的變換可以原則上存在,但測量 的變化使得這種變換難以確定和/或變換仍可能提供不能彼此加以解析的值。第三,借助 于這樣的技術(shù),難以或不可能考慮到錯過的測量,即其中取決于給定k聚體的測量在聚合 物單元的序列中失去,如在實(shí)際測量系統(tǒng)中有時可以是這種情況,例如由于測量系統(tǒng)未能 進(jìn)行測量或由于在隨后數(shù)據(jù)處理中的錯誤。
[0011] 本發(fā)明的第一方面涉及提供這樣的技術(shù),其改善由取決于k聚體的這種測量來估 計在聚合物中聚合物單元的序列的準(zhǔn)確性。
[0012] 按照本發(fā)明的第一方面,提供了用于由涉及聚合物的至少一個測量的系列來估計 在聚合物中聚合物單元的序列的方法,其中每個測量的值取決于k聚體,k聚體是k個聚合 物單元的組,其中k是正整數(shù),上述方法包括:
[0013] 提供模型,對于一組可能的k聚體所述模型包括:
[0014] 過渡權(quán)重(transition weightings),其表示從起源k聚體(起點(diǎn)k聚體,origin k-mers)到目標(biāo) k聚體(目的 k聚體,destination k-mers)的過渡(轉(zhuǎn)變,transitions) 的機(jī)會(chances),以及
[0015] 關(guān)于每個k聚體的發(fā)射權(quán)重(emission weightings),其表示觀測k聚體的測量的 給定值的機(jī)會;以及
[0016] 利用其指的是模型的分析技術(shù)來分析測量系列,并基于通過由聚合物單元的序列 產(chǎn)生的測量系列的模型所預(yù)測的似然(可能性,likelihood)來估計在聚合物中的聚合物 單元的至少一種估計的序列。
[0017] 進(jìn)一步根據(jù)本發(fā)明的第一方面,提供了實(shí)施類似方法的分析設(shè)備。
[0018] 因此,本發(fā)明的第一方面利用了產(chǎn)生測量的測量系統(tǒng)的模型。給定任何測量系列, 模型表示已產(chǎn)生那些測量的k聚體的不同序列的機(jī)會。本發(fā)明的第一方面特別適合于這樣 的情況,其中每個測量的值取決于k聚體,其中k是復(fù)整數(shù)。
[0019] 上述模型考慮可能的k聚體。例如,在聚合物中,其中每個聚合物單元可以是4個 聚合物單元(或者更一般地η個聚合物單元)的一個,存在4 k種可能的k聚體(或者更一 般地nk種可能的k聚體),除非任何特定的k聚體物理上并不存在。對于可以存在的所有 k聚體,發(fā)射權(quán)重考慮到觀測測量的給定值的機(jī)會。關(guān)于每種k聚體的發(fā)射權(quán)重表示觀測k 聚體的測量的給定值的機(jī)會。
[0020] 過渡權(quán)重表示從起源k聚體到目標(biāo)k聚體的過渡的機(jī)會,因此,考慮到k聚體的機(jī) 會,在不同k聚體之間的過渡的測量取決于上述k聚體。因此過渡權(quán)重可以考慮到更多和 更少可能的過渡。通過舉例的方式,其中k是復(fù)整數(shù),對于給定起源k聚體,這可以表示與 非優(yōu)選過渡相比優(yōu)選過渡的更大的機(jī)會,所述優(yōu)選過渡是到具有其中第一(k-Ι)聚合物單 元是起源k聚體的最后(k-Ι)聚合物單元的序列的目標(biāo)k聚體的過渡,所述非優(yōu)選過渡是 到具有不同于起源k聚體以及其中第一(k-Ι)聚合物單元不是起源k聚體的最后(k-Ι)聚 合物單元的序列的目標(biāo)k聚體的過渡。例如,對于其中聚合物單元是天然存在的DNA堿基 的3聚體,狀態(tài)CGT具有到GTC、GTG、GTT和GTA的優(yōu)選過渡。通過舉例而非限制性地,模型 可以是其中過渡權(quán)重和發(fā)射權(quán)重是概率(probabilities)的隱馬爾可夫模型。
[0021] 這允許利用指的是模型的分析技術(shù)來分析測量系列?;谕ㄟ^由聚合物單元的序 列產(chǎn)生的測量系列的模型所預(yù)測的似然來估計在聚合物中的聚合物單元的至少一種估計 的序列。例如但不限于,分析技術(shù)可以是概率技術(shù)。
[0022] 尤其是,來自單獨(dú)k聚體的測量不需要是彼此可分辨的,并且并不需要存在從取 決于相同聚合物單元的k個測量的組到關(guān)于變換的值的變換,即觀測到的狀態(tài)的組并不需 要是較小數(shù)目的參數(shù)的函數(shù)(雖然這并不被排除)。相反,上述模型的使用可以提供準(zhǔn)確估 計,其中通過在考慮通過聚合物單元的序列產(chǎn)生的測量系列的模型所預(yù)測的似然時考慮到 多個測量。從概念上講,過渡權(quán)重可以被視為,在任何給定聚合物單元的估計中允許模型考 慮到至少k個測量,其部分取決于上述聚合物單元,并且確實(shí)還取決于來自在序列中的較 大距離的測量。在任何給定聚合物單元的估計中,上述模型可以有效地考慮到大量的測量, 從而給出可以是更準(zhǔn)確的結(jié)果。
[0023] 類似地,這樣的模型的使用可以允許分析技術(shù)考慮到從給定k聚體失去的測量和 /或考慮到在由給定k聚體產(chǎn)生的測量中的離群值(outliers)。這可以用過渡權(quán)重和/或 發(fā)射權(quán)重加以解釋。例如,過渡權(quán)重可以表示至少一些非優(yōu)選過渡的非零機(jī)會和/或發(fā)射 權(quán)重可以表示觀測所有可能的測量的非零機(jī)會。
[0024] 本發(fā)明的第二和第三方面涉及提供這樣的技術(shù),利用當(dāng)聚合物移位通過納米孔時 流過納米孔的離子電流的測量,其協(xié)助聚合物的分析。
[0025] 依據(jù)本發(fā)明的第二方面,提供了分析包含聚合物單元的聚合物的方法,該方法包 括:
[0026] 在聚合物移位通過納米孔期間,當(dāng)跨越納米孔施加電壓時,進(jìn)行測量,其取決于在 納米孔中k聚體的同一性,k聚體是聚合物的k個聚合物單元,其中k是正整數(shù),其中關(guān)于 單獨(dú)k聚體的測量包括在跨越納米孔施加的不同水平的所述電壓下進(jìn)行的分開測量;以及
[0027] 在所述不同水平的所述電壓下分析測量以確定至少部分聚合物的同一性。
[0028] 上述方法涉及進(jìn)行測量,其取決于在納米孔中k聚體的同一性,k聚體是聚合物的 k個聚合物單元,其中k是正整數(shù)。尤其是,關(guān)于單獨(dú)k聚體的測量包括在跨越納米孔施加 的不同水平的所述電壓下進(jìn)行的分開測量。本發(fā)明人已經(jīng)認(rèn)識到和證實(shí),上述在跨越納米 孔施加的不同水平的所述電壓下的測量提供另外的信息,而不是僅僅重復(fù)的。例如,在不同 電壓下的測量允許不同狀態(tài)的分辨率。例如,在給定電壓下不能被解析的一些k聚體可以 在另一電壓下被解析。
[0029] 本發(fā)明的第三方面提供了在跨越納米孔施加不同水平的電壓下進(jìn)行測量的方法, 其可以可選地應(yīng)用于本發(fā)明的第二方面。尤其是,根據(jù)本發(fā)明的第三方面,提供了對包含聚 合物單元的聚合物進(jìn)行測量的方法,該方法包括:
[0030] 當(dāng)跨越納米孔施加電壓時,進(jìn)行所述聚合物通過納米孔的移位;
[0031] 在聚合物通過納米孔的所述移位期間,以一定循環(huán),施加不同水平的所述電壓,以 及
[0032] 進(jìn)行取決于在納米孔中k聚體的同一性的測量,k聚體是聚合物的k個聚合物單 元,其中k是正整數(shù),上述測量包括以所述循環(huán)在所述不同水平的所述電壓下關(guān)于單獨(dú)k聚 體的分開測量,上述循環(huán)具有這樣的循環(huán)周期,其短于其中所述測量取決于所述單獨(dú)k聚 體的狀態(tài)。
[0033] 因此,本發(fā)明的第三方面提供了與本發(fā)明的第二方面相同的優(yōu)點(diǎn),尤其是測量提 供另外的信息,而不是僅僅重復(fù)的。在不同電壓下的測量提供了在隨后的測量分析中不同 狀態(tài)的分辨。例如,在給定電壓下不能被解析的一些狀態(tài)可以在另一電壓下被解析。
[0034] 這是基于這樣的創(chuàng)新,其中在聚合物通過納米孔的單個移位期間獲得在不同電壓 下的測量。這是通過以一定循環(huán)改變所述電壓的水平來實(shí)現(xiàn),選擇上述循環(huán)使得循環(huán)周期 短于待測量的狀態(tài)的持續(xù)時間。
[0035] 然而,在本發(fā)明的第二方面內(nèi),并不必需使用這種方法。作為一種替代方案,可以 在聚合物通過納米孔的不同移位期間,其可以是在相同方向上的移位,或可以包括在相反 方向上的移位,在不同量值的電壓下,進(jìn)行離子電流測量。
[0036] 因此,本發(fā)明的第二方面和第三方面的方法可以提供另外的信息,其改善隨后的 測量分析,以導(dǎo)出關(guān)于聚合物的信息??梢詫?dǎo)出的信息的類型的一些實(shí)例如下。
[0037] 分析可以用來導(dǎo)出在狀態(tài)之間過渡的時序。在這種情況下,通過在不同電位下測 量每種狀態(tài)所提供的另外的信息會改善準(zhǔn)確性。例如,在一種電壓下在兩種狀態(tài)之間的過 渡不能加以解析的情況下,通過在另一電壓下改變離子電流測量的水平可以確定上述過 渡。這潛在地允許鑒定這樣的過渡,其僅在一種電壓下工作將不是顯而易見的,或較高置信 度地確定過渡事實(shí)上并不發(fā)生。這種鑒定可以用于隨后的測量分析。
[0038] -般來說,相比于在一種電壓水平下可以獲得的,在不同電壓水平下進(jìn)行測量會 提供更多信息。例如在通過納米孔的離子流的測量中,可以獲自測量的信息包括電流水平 和針對特定狀態(tài)的信號變化(噪聲)。例如對于DNA通過納米孔的移位,包含核苷酸堿基G 的k聚體傾向于產(chǎn)生具有增加的信號變化的狀態(tài)??赡茈y以確定狀態(tài)的過渡是否已發(fā)生, 例如由于相應(yīng)的狀態(tài)具有類似的電流水平或其中一種或兩種相應(yīng)的狀態(tài)具有高信號變化。 對于不同電壓水平,針對特定狀態(tài)的電流水平和信號變化可以不同,因而在不同電壓水平 下的測量可以使得能夠確定高變化狀態(tài)或增加在確定狀態(tài)時的置信水平。因此,相比于另 一個電壓水平,在一種電壓水平下,可以更容易確定在狀態(tài)之間的過渡。
[0039] 分析可以是估計聚合物的同一性或估計在聚合物中聚合物單元的序列。在這種情 況下,由在不同電位下每個狀態(tài)的測量提供的另外的信息會改善估計的準(zhǔn)確性。
[0040] 在估計聚合物單元的序列的情況下,分析可以使用根據(jù)本發(fā)明的第一方面的方 法。因此,以任何組合,本發(fā)明的第一方面的特點(diǎn)可以與本發(fā)明的第二方面和/或第三方面 的特點(diǎn)結(jié)合。
[0041] 進(jìn)一步根據(jù)本發(fā)明的第二和第三方面,提供了用來實(shí)施類似方法的分析設(shè)備。
[0042] 為了允許更好的理解,現(xiàn)將通過非限制性實(shí)例參照附圖來描述本發(fā)明的實(shí)施方 式,其中:
[0043] 圖1是包括納米孔的測量系統(tǒng)的示意圖;
[0044] 圖2是隨著時間的推移通過測量系統(tǒng)測得的事件的信號圖;
[0045] 圖3是在包括納米孔的測量系統(tǒng)中兩種不同多核苷酸的測量的頻率分布圖;
[0046] 圖4和5分別是64個3聚體系數(shù)和1024個5聚體系數(shù)的圖(plot),其相對于來 自適用于實(shí)驗得出的電流測量的集合的一階線性模型的預(yù)測值;
[0047] 圖6是包含聚合物的測量的輸入信號的分析方法的流程圖;
[0048] 圖7是圖6的狀態(tài)檢測步驟的流程圖;
[0049] 圖8是圖6的分析步驟的流程圖;
[0050] 圖9和10分別是經(jīng)受狀態(tài)檢測步驟的輸入信號和產(chǎn)生的測量系列的曲線圖;
[0051] 圖11是躍遷矩陣(轉(zhuǎn)換矩陣,transition matrix)的圖形表示;
[0052] 圖12是在模擬實(shí)例中關(guān)于k聚體狀態(tài)的預(yù)期測量的圖;
[0053] 圖13示出模擬自圖12所示的預(yù)期測量的輸入信號;
[0054] 圖14示出源自圖13的輸入信號的一系列測量;
[0055] 圖15和16示出過渡權(quán)重的相應(yīng)的躍遷矩陣;
[0056] 圖17至19是具有分別為高斯、三角(triangular)和正方(square)的可能的分 布的發(fā)射權(quán)重的圖;
[0057] 圖20是在一組模擬測量和圖12所示的預(yù)期測量之間的電流的空間排列(電流的 空間比對,current space alignment)的圖;
[0058] 圖21是在實(shí)際k聚體和從圖20的模擬測量估計的k聚體之間的k聚體空間排列 的圖;
[0059] 圖22是在另一組模擬測量和圖12所示的預(yù)期測量之間的電流的空間排列的圖;
[0060] 圖23和24是在實(shí)際k聚體和分別借助于圖15和16的躍遷矩陣從圖22的模擬 測量估計的k聚體之間的k聚體空間排列的圖;
[0061] 圖25是具有小的非零背景的正方分布的發(fā)射權(quán)重的散布圖,其中分布集中于圖 12的預(yù)期測量上;
[0062] 圖26是在實(shí)際k聚體和借助于圖15的躍遷矩陣和圖25的發(fā)射權(quán)重從圖20的模 擬測量估計的k聚體之間的k聚體空間排列的圖;
[0063] 圖27是具有零背景的正方分布的發(fā)射權(quán)重的圖,其中分布集中于圖12的預(yù)期測 量上;
[0064] 圖28是在實(shí)際k聚體和借助于圖15的躍遷矩陣和圖27的發(fā)射權(quán)重從圖20的模 擬測量估計的k聚體之間的k聚體空間排列的圖;
[0065] 圖29是利用鏈霉親和素由保持在MS-(B2) 8納米孔中的DNA鏈獲得的電流測量的 散布圖;
[0066] 圖30是用于示例性訓(xùn)練過程的躍遷矩陣;
[0067] 圖31是圖30的躍遷矩陣的放大部分;
[0068] 圖32和33是分別對于源自靜態(tài)訓(xùn)練過程的64種k聚體的模型和上述模型平移 成大約400種狀態(tài)的模型的發(fā)射權(quán)重的圖;
[0069] 圖34是訓(xùn)練過程的流程圖;
[0070] 圖35是由圖34的訓(xùn)練過程確定的發(fā)射權(quán)重的圖;
[0071] 圖36是利用來自模型的預(yù)期測量在許多實(shí)驗上匯集的電流測量的圖;
[0072] 圖37是在實(shí)際k聚體和估計k聚體之間的k聚體空間排列的圖;
[0073] 圖38示出用實(shí)際序列校準(zhǔn)的估計k聚體的估計序列;
[0074] 圖39示出聚合物的有義和反義區(qū)的單獨(dú)的估計序列,以及通過處理來自以兩個 相應(yīng)的維度設(shè)置的有義和反義區(qū)的測量所導(dǎo)出的估計序列;
[0075] 圖40是在第一實(shí)例中在三種不同電壓下在納米孔中的一組DNA鏈的離子電流測 量的一組柱狀圖;
[0076] 圖41是在第二實(shí)例中在共同時間期間內(nèi)對納米孔中的單鏈的施加電位和生成的 離子電流的一對圖;
[0077] 圖42至45是在第二實(shí)例中分別水平索引在4個水平的電壓下每個DNA鏈的測得 電流的散布圖;
[0078] 圖46是在第二實(shí)例中相對于施加電壓測得的每個DNA鏈的電流圖;
[0079] 圖47是在第二實(shí)例中相對于施加電壓每個DNA鏈的電流測量的標(biāo)準(zhǔn)偏差圖;
[0080] 圖48是用于進(jìn)行離子電流測量的方法的流程圖;
[0081] 圖49和50各自是在第三實(shí)例中在共同時間期間內(nèi)施加電位和生成的離子電流的 一對圖;
[0082] 圖51是用于進(jìn)行離子電流測量的一種替代方法的流程圖;以及
[0083] 圖52a和52b是在相同的時間尺度上跨越納米孔施加的成形電壓步驟和產(chǎn)生的電 流的圖。本發(fā)明的所有方面可以應(yīng)用于如下聚合物范圍。
[0084] 聚合物可以是多核苷酸(或核酸)、多肽如蛋白、多糖、或任何其它聚合物。聚合物 可以是天然或合成的。
[0085] 在多核苷酸或核酸的情況下,聚合物單元可以是核苷酸。核酸通常是脫氧核糖核 酸(DNA)、核糖核酸(RNA)、cDNA或合成核酸(在本領(lǐng)域中已知的),如肽核酸(PNA)、甘油 核酸(GNA)、蘇糖核酸(TNA)、鎖核酸(LNA)或具有核苷酸側(cè)鏈的其它合成聚合物。核酸可 以是單鏈、是雙鏈、或包含單鏈和雙鏈區(qū)。通常,cDNA、RNA、GNA、TNA或LNA是單鏈的。本發(fā) 明的方法可以用來確定任何核苷酸。核苷酸可以是天然存在的或人工的。核苷酸通常包含 核堿、糖和至少一個磷酸酯基團(tuán)。核堿通常是雜環(huán)的。適宜的核堿包括嘌呤和嘧啶以及更 具體地腺嘌呤、鳥嘌呤、胸腺嘧啶、尿嘧啶和胞嘧啶。上述糖通常是戊糖。適宜的糖包括但 不限于核糖和脫氧核糖。核苷酸通常是核糖核苷酸或脫氧核糖核苷酸。核苷酸通常包含單 磷酸酯、二磷酸酯或三磷酸酯。
[0086] 核苷酸可以是損傷或表遺傳堿基。核苷酸可以被標(biāo)記或修飾以作為具有明顯信號 的標(biāo)記物。這種技術(shù)可以用來確定堿基的缺乏,例如,在多核苷酸中的無堿基單元或隔離 物。上述方法也可以應(yīng)用于任何類型的聚合物。
[0087]當(dāng)考慮修飾或損傷DNA (或類似系統(tǒng))的測量時,具有特別用途的是其中考慮互補(bǔ) 數(shù)據(jù)的方法。提供的另外的信息允許在較大數(shù)目的基本狀態(tài)之間加以區(qū)別。
[0088] 在多肽的情況下,聚合物單元可以是天然存在的或合成的氨基酸。
[0089] 在多糖的情況下,聚合物單元可以是單糖。
[0090] 本發(fā)明可以應(yīng)用于通過一范圍的測量系統(tǒng)進(jìn)行的測量(如下文進(jìn)一步討論的)。
[0091] 根據(jù)本發(fā)明的所有方面,測量系統(tǒng)可以是包括納米孔的納米孔系統(tǒng)。在這種情況 下,可以在聚合物移位通過納米孔期間進(jìn)行測量。聚合物通過納米孔的移位會產(chǎn)生在測得 特性中的特征信號,其可以被觀測到,并且可以作為總體被稱為"事件"。
[0092] 納米孔是孔,通過具有納米級的尺寸,其允許聚合物通過其中??梢詼y量取決于聚 合物單元移位通過孔的性能。上述性能可以與在聚合物和孔之間的相互作用相關(guān)。在孔的 狹窄區(qū)(constricted region)處可以發(fā)生聚合物的相互作用。測量系統(tǒng)測量性能,從而產(chǎn) 生取決于聚合物的聚合物單元的測量。
[0093] 納米孔可以是生物孔或固態(tài)孔。
[0094] 在納米孔是生物孔的情況下,它可以具有以下性能。
[0095] 生物孔可以是跨膜蛋白質(zhì)孔。根據(jù)本發(fā)明使用的跨膜蛋白質(zhì)孔可來自β_桶孔 (barrel pore)或α-螺旋束孔。β-桶孔包含桶或通道,其由β-鏈形成。適宜的β-桶 孔包括但不限于β-毒素,如α-溶血素、炭疽毒素和殺白細(xì)胞素,以及細(xì)菌的外膜蛋白/ 孔蛋白,如恥垢分枝桿菌孔蛋白(Mycobacterium smegmatis porin) (Msp),例如MspA、外膜 孔蛋白F(0mpF)、外膜孔蛋白G(0mpG)、外膜磷脂酶A和奈瑟菌自轉(zhuǎn)運(yùn)脂蛋白(NalP)。α-螺 旋束孔包含桶或通道,其由α-螺旋形成。適宜的α-螺旋束孔包括但不限于內(nèi)膜蛋白和 α外膜蛋白,如WZA和ClyA毒素??缒さ鞍卓梢栽醋訫sp或源自α-溶血素(a-HL)。
[0096] 跨膜蛋白質(zhì)孔通常源自Msp,優(yōu)選源自MspA。這樣的孔將是寡聚的并且通常包含 源自Msp的7、8、9或10個單體。孔可以是源自包含相同單體的Msp的同源寡聚體孔???替換地,孔可以是異寡聚體孔,該異寡聚體孔源自Msp,其包含至少一種不同于其它單體的 單體。上述孔還可以包含一種或多種構(gòu)建體,其包含源自Msp的兩種或更多種共價連接單 體。適宜的孔披露于美國臨時申請?zhí)?1/441,718(2011年2月11日提交)中。優(yōu)選地,上 述孔來自MspA或其同系物或旁系同源物(paralog)。
[0097] 生物孔可以是天然產(chǎn)生的孔或可以是突變體孔。典型孔描述于 W0-2010/109197,Stoddart D et al.,Proc Natl Acad Sci, 12 ; 106 (19):7702-7, Stoddart D et al.,Angew Chem Int Ed Engl. 2010 ;49(3):556-9,Stoddart D et al.,Nano Lett. 2010Sep8 ;10 (9) :3633-7,Butler TZ et al. , Proc Natl Acad Sci2008 ; 105(52) :20647-52,以及美國臨時申請61/441718中。
[0098] 生物孔可以是MS-(Bl) 8。編碼B1的核苷酸序列和B1的氨基酸序列示于下文(Seq ID:1 和 Seq ID:2)。
[0099] Seq ID 1:MS-(B1)8 = MS-(D90N/D91N/D93N/D118R/D134R/E139K)8
[0100] ATGGGTCTGGATAATGAACTGAGCCTGGTGGACGGTCAAGATCGTACCCTGACGGTGCAACAATGGGAT ACCTTTCTGAATGGCGTTTTTCCGCTGGATCGTAATCGCCTGACCCGTGAATGGTTTCATTCCGGTCGCGCAAAATA TATCGTCGCAGGCCCGGGTGCTGACGAATTCGAAGGCACGCTGGAACTGGGTTATCAGATTGGCTTTCCGTGGTCAC TGGGCGTTGGTATCAACTTCTCGTACACCACGCCGAATATTCTGATCAACAATGGTAACATTACCGCACCGCCGTTT GGCCTGAACAGCGTGATTACGCCGAACCTGTTTCCGGGTGTTAGCATCTCTGCCCGTCTGGGCAATGGTCCGGGCAT TCAAGAAGTGGCAACCTTTAGTGTGCGCGTTTCCGGCGCTAAAGGCGGTGTCGCGGTGTCTAACGCCCACGGTACCG TTACGGGCGCGGCCGGCGGTGTCCTGCTGCGTCCGTTCGCGCGCCTGATTGCCTCTACCGGCGACAGCGTTACGACC TATGGCGAACCGTGGAATATGAACTAA
[0101] Seq ID2:MS-(B1)8 = MS-(D90N/D91N/D93N/D118R/D134R/E139K)8
[0102] GLDNELSLVDGQDRTLTVQQWDTFLNGVFPLDRNRLTREWFHSGRAKYIVAGPGADEFEGTLELGYOIG FPWSLGVGINFSYTTPNILIMGNITAPPFGLNSVITPNLFPGVSISARLGNGPGIQEVATFSVRVSGAKGGVAVSN AHGTVTGAAGGVLLRPFARLIASTCDSVTTYGEPWNMN
[0103] 生物孔更優(yōu)選地是MS-(B2)8。除突變L88N之外,B2的氨基酸序列與Bl的氨基酸 序列相同。編碼B2的核苷酸序列和B2的氨基酸序列示于下文(Seq ID :3和Seq ID :4)。
[0104] Seq ID3:MS-(B2)8 = MS-(L88N/D90N/D91N/D93N/D118R/D134R ?E139K)8
[0105] ATGGGTCTGGATAATGAACTGAGCCTGGTGGACGGTCAAGATCGTACCCTGACGGTGCAACAATGGGAT ACCTTTCTGAATGGCGTTTTTCCGCTGGATCGTAATCGCCTGACCCGTGAATGGTTTCATTCCGGTCGCGCAAAATA TATCGTCGCAGGCCCGGGTGCTGACGAATTCGAAGGCACGCTGGAACTGGGTTATCAGATTGGCTTTCCGTGGTCAC TGGGCGTTGGTATCAACTTCTCGTACACCACGCCGAATATTAACATCAACAATGGTAACATTACCGCACCGCCGTTT GGCCTGAACAGCGTGATTACGCCGAACCTGTTTCCGGGTGTTAGCATCTCTGCCCGTCTGGGCAATGGTCCGGGCAT TCAAGAAGTGGCAACCTTTAGTGTGCGCGTTTCCGGCGCTAAAGGCGGTGTCGCGGTGTCTAACGCCCACGGTACCG TTACGGGCGCGGCCGGCGGTGTCCTGCTGCGTCCGTTCGCGCGCCTGATTGCCTCTACCGGCGACAGCGTTACGACC TATGGCGAACCGTGGAATATGAACTAA
[0106] Seq ID4:MS-(B2)8 = MS-(L88N/D90N/D91N/D93N/D118R/D134R/E139K)8
[0107] GLDNELSLVDGQDRTLTVQQWDTFLNGVFPLDRNRLTREWFHSGRAKYIVAGPGADEFEGTLELGYQIG FPWSLGVGINFSYTTPNININNGNITAPPFGLNSVITPNLFPGVSISARLGNGPGIQEVATFSVRVSGAKGGVAVSN AHGTVTGAAGGVLLRPFARLIASTCDSVTTYGEPWNMN
[0108] 可以將生物孔插入兩親層如生物膜,例如脂雙層中。兩親層是這樣的層,其由具有 親水性和親脂性的兩親分子如磷脂形成。兩親層可以是單層或雙層。兩親層可以是共嵌段 聚合物如由(Gonzalez-Perez et al.,Langmuir,2009, 25, 10447-10450)所披露的??商鎿Q 地,可以將生物孔插入固態(tài)層中。
[0109] 可替換地,納米孔可以是固態(tài)孔,其包含在固態(tài)層中形成的孔。
[0110] 固態(tài)層并不是生物起源的。換句話說,固態(tài)層不是源自或分離自生物環(huán)境如生物 體或細(xì)胞、或生物可利用結(jié)構(gòu)的合成制造形式。固態(tài)層可以由有機(jī)和無機(jī)材料形成,其包括 但不限于微電子材料,絕緣材料如Si3N4、A1203、和SiO,有機(jī)和無機(jī)聚合物如聚酰胺塑料 如Teflon?或彈性體如雙組分加成固化硅橡膠,以及玻璃。固態(tài)層可以由石墨烯形成。適 宜的石墨烯層披露于W02009/035647和W0-2011/046706中。
[0111] 固態(tài)孔通常是在固態(tài)層中的孔??梢杂没瘜W(xué)方式或其它方式來改性孔,以增強(qiáng) 其作為納米孔的性能。可以連同另外的元件一起來使用固態(tài)孔,其中上述另外的元件提 供聚合物的替代的或附加的測量,如隧道電極(Ivanov AP et al.,Nano Lett. 2011Janl2 ; 11 (1) :279-85)、或場效應(yīng)晶體管(FET)裝置(國際申請W02005/124888)。可以通過已知方 法,包括例如在W000/79257中描述的那些方法,來形成固態(tài)孔。
[0112] 在一種類型的測量系統(tǒng)中,可以使用流過納米孔的離子電流的測量。可以利用如 描述于 Stoddart D et al.,Proc Natl Acad Sci, 12 ; 106 (19) : 7702-7, Lieberman KR et al,J Am Chem Soc. 2010 ;132 (50) :17961-72和國際申請W0-2000/28312中的標(biāo)準(zhǔn)單通道記錄裝 置,來進(jìn)行這些和其它電子測量??商鎿Q地,可以利用例如描述于國際申請W0-2009/077734 和國際申請W0-2011/067559中的多通道系統(tǒng)來進(jìn)行電子測量。
[0113] 為了允許當(dāng)聚合物移位通過納米孔時進(jìn)行測量,可以通過聚合物結(jié)合部分來控制 移位速率。通常,借助于或針對施加場,該部分可以移動聚合物通過納米孔。該部分可以是 分子馬達(dá),其利用例如,在該部分是酶的情況下,酶促活性,或作為分子剎車。在聚合物是多 核苷酸的情況下,提出了許多方法來控制移位速率,包括使用多核苷酸結(jié)合酶。用于控制 多核苷酸的移位速率的適宜的酶包括但不限于聚合酶、螺旋酶、外切核酸酶、單鏈和雙鏈結(jié) 合蛋白、以及拓?fù)洚悩?gòu)酶,如促旋酶。對于其它聚合物類型,可以使用與上述聚合物類型相 互作用的部分。聚合物相互作用部分可以是任何披露于國際申請?zhí)朠CT/GB10/000133或 US61/441718(LiebermanKRet al,J Am ChemSoc. 2010 ; 132 (50) :17961-72)中,以及用于電 壓門控方案(Luan Bet al.,Phys Rev Lett. 2010 ;104(23) :238103)中的部分。
[0114] 可以以許多方式來使用聚合物結(jié)合部分以控制聚合物移動。借助于或針對施加 場,上述部分可以移動聚合物通過納米孔。上述部分可以用作分子馬達(dá),其利用例如,在上 述部分是酶的情況下,酶促活性,或作為分子剎車??梢酝ㄟ^控制聚合物通過孔的移動的分 子棘輪(molecular ratchet),來控制聚合物的移位。分子棘輪可以是聚合物結(jié)合蛋白。對 于多核苷酸,多核苷酸結(jié)合蛋白優(yōu)選是多核苷酸處理酶。多核苷酸處理酶是一種多肽,其能 夠與多核苷酸相互作用并改進(jìn)多核苷酸的至少一種性能。上述酶可以通過切割其來修飾多 核苷酸以形成單個核苷酸或核苷酸的較短鏈,如二或三核苷酸。上述酶可以通過定向它或 移動它到特定位置來修飾多核苷酸。多核苷酸處理酶并不需要顯示酶促活性,只要它能夠 結(jié)合靶多核苷酸并控制它通過孔的移動。例如,可以修飾上述酶以除去它的酶促活性,或可 以在防止它作為酶的條件下加以使用。下文更詳細(xì)地討論這樣的條件。
[0115] 多核苷酸處理酶可以源自核水解酶。在酶的構(gòu)建體中使用的多核苷酸處理酶更 優(yōu)選地源自任何酶分類(EC)組 3. 1. 11、3· 1. 13、3· 1. 14、3· 1. 15、3· 1. 16、3· 1. 21、3· 1. 22、 3· 1·25、3· 1·26、3· 1·27、3· 1.30和3. 1.31的成員。上述酶可以是披露于國際申請?zhí)朠CT/ GB10/000133(公開為 W02010/086603)中的任何酶。
[0116] 優(yōu)選的酶是聚合酶、外切核酸酶、螺旋酶和拓?fù)洚悩?gòu)酶,如促旋酶。適宜的酶包括 但不限于來自大腸桿菌的外切核酸酶I(SEQ ID N0:8)、來自大腸桿菌的外切核酸酶III酶 (SEQIDN0:10)、來自極端嗜熱菌(T·thermophilus)的RecJ(SEQIDN0:12)和噬菌體λ夕卜 切核酸酶(SEQ ID N0:14)以及它們的變體。包含示于SEQ ID N0:14中的序列或其變體的 三個亞單位相互作用以形成三聚體外切核酸酶。上述酶優(yōu)選源自Phi29DNA聚合酶。源自 Phi29聚合酶的一種酶包含示為SEQ ID N0:6或其變體的序列。
[0117] SEQ ID N0:6、8、10、12或14的變體是一種酶,該酶具有氨基酸序列,其不同于SEQ ID N0:6、8、10、12或14的氨基酸序列并且其保留多核苷酸結(jié)合能力。上述變體可以包括修 飾,其促進(jìn)多核苷酸的結(jié)合和/或促進(jìn)它在高鹽濃度和/或室溫下的活性。
[0118] 對于SEQ ID N0:6、8、10、12或14的氨基酸序列的整個長度,基于氨基酸同一性,變 體將優(yōu)選至少50 %同源于上述序列。更優(yōu)選地,對于整個序列,基于氨基酸同一性,變體多 肽可以是至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至 少90%以及更優(yōu)選地至少95%、97%或99%同源于SEQ ID N0:6、8、10、12或14的氨基酸 序列。對于200或更多,例如230、250、270或280或更多相鄰氨基酸的一段序列,可以存在 至少80%,例如至少85%、90%或95%的氨基酸同一性("硬同源性")。如上所述,確定同 源性。以上文討論的任何方式,參比SEQ ID N0:2,變體可以不同于野生型序列。如上文所 討論的,酶可以共價連接于孔。
[0119] 用于單鏈DNA測序的兩種策略是,借助于或針對施加電位,順式至反式和反式至 順式地使DNA移位通過納米孔。用于鏈測序的最有利的機(jī)制是在施加電位下單鏈DNA通過 納米孔的受控移位。逐漸地或持續(xù)地作用于雙鏈DNA的外切核酸酶可以用于孔的順側(cè)以在 施加電位下使剩余單鏈進(jìn)料通過,或在反向電位下用于反側(cè)。同樣,還可以以類似的方式 來使用解旋雙鏈DNA的螺旋酶。也有可能是這樣的測序應(yīng)用,其需要相對于施加電位的鏈 移位,但DNA必須在反向或沒有電位下首先被酶"捕獲"。在結(jié)合以后,借助于切換回來的 電位,鏈將順式至反式通過孔并通過電流而被保持處于伸展構(gòu)象。單鏈DNA外切核酸酶或 單鏈DNA依賴性聚合酶可以作為分子馬達(dá),以相對于施加電位,反式至順式,以受控分步方 式,通過孔,拉回最近移位的單鏈??商鎿Q地,單鏈DNA依賴性聚合酶可以作為分子剎車,其 用來放慢多核苷酸通過孔的移動。在臨時申請US61/441718或US臨時申請?zhí)?1/402903 中描述的任何部分、技術(shù)或酶可以用來控制聚合物移動。
[0120] 然而,替代類型的測量系統(tǒng)和測量也是可能的。
[0121] 以下是替代類型的測量系統(tǒng)的一些非限制性實(shí)例。
[0122] 測量系統(tǒng)可以是掃描探針顯微鏡。掃描探針顯微鏡可以是原子力顯微鏡(AFM)、掃 描隧道顯微鏡(STM)或另一種形式的掃描顯微鏡。
[0123] 在讀數(shù)器是AFM的情況下,相比于單個聚合物單元的維度,AFM尖端的分辨率可以 是較不精細(xì)的。因此,測量可以是多個聚合物單元的函數(shù)。AFM尖端可以被功能化,從而以 替代方式與聚合物單元相互作用或如果它未被功能化??梢砸越佑|模式、非接觸模式、輕敲 模式或任何其它模式來操作AFM。
[0124] 在讀數(shù)器是STM的情況下,相比于單個聚合物單元的維度,測量的分辨率可以是 較不精細(xì)的,使得測量是多個聚合物單元的函數(shù)??梢猿R?guī)地操作STM或進(jìn)行光譜測量 (STS)或以任何其它模式。
[0125] 替代類型的測量的一些實(shí)例包括但不限于電子測量和光學(xué)測量。J. Am. Chem. Soc. 2009, 1311652-1653披露了一種適宜的光學(xué)方法,其涉及熒光的測量??赡艿碾娮?測量包括:電流測量、阻抗測量、隧道效應(yīng)測量(例如如披露于Ivanov AP et al.,Nano Lett. 2011Janl2 ;11 (1) :279-85)、以及 FET 測量(例如如披露于國際申請 TO2005/124888 中)。光學(xué)測量可以與電子測量(Soni GV et al.,Rev Sci Instrum. 2010Jan ;81(1) :014301) 結(jié)合。測量可以是跨膜電流測量如通過納米孔的離子電流的測量。離子電流通??梢允荄C 離子電流,雖然原則上一種替代方法是使用AC電流(即,在施加 AC電壓下,流過的AC電流 的幅值)。
[0126] 在本文中,術(shù)語'k聚體'是指k個聚合物單元的組,其中k是正整數(shù),包括k是1 的情況,其中k聚體是單個聚合物單元。在一些情況下,提及k聚體,其中k是復(fù)整數(shù),是k 聚體的亞組,一般來說不包括k是1的情況。
[0127] 雖然理想地,借助于許多典型的測量系統(tǒng),測量將取決于單個聚合物單元,但其中 k是復(fù)整數(shù)的情況下測量取決于聚合物的k聚體。即,在其中k是復(fù)整數(shù)的情況下,每個測 量取決于k聚體中的每個聚合物單元的序列。通常,測量具有這樣的特性,其與在聚合物和 測量系統(tǒng)之間的相互作用相關(guān)。
[0128] 在本發(fā)明的一些實(shí)施方式中,優(yōu)選使用這樣的測量,其取決于聚合物單元的小組, 例如聚合物單元的雙聯(lián)體或三聯(lián)體(即,其中k = 2或k = 3)。在其它實(shí)施方式中,優(yōu)選使 用這樣的測量,其取決于聚合物單元的較大組,即,具有"寬"分辨率。這樣的寬分辨率特別 可用于檢查均聚物區(qū)。
[0129] 尤其是,在測量取決于k聚體(其中k是復(fù)整數(shù))的情況下,期望的是,對于盡可 能多的可能的k聚體,測量是可分辨的(即分離的)。通常,如果由不同k聚體產(chǎn)生的測量 很好分布于測量范圍和/或具有窄分布,這可以實(shí)現(xiàn)。通過不同的測量系統(tǒng),這可以在不同 程度上實(shí)現(xiàn)。然而,本發(fā)明的獨(dú)特優(yōu)勢在于,由不同k聚體產(chǎn)生的測量是可分辨的不是必不 可少的。
[0130] 圖1示意性地說明測量系統(tǒng)8的實(shí)例,該系統(tǒng)包括納米孔,其是插入生物膜2如兩 親層中的生物孔1。使包含一系列聚合物單元4的聚合物3移位通過生物孔1,如箭頭所示。 聚合物3可以是多核苷酸,其中聚合物單元4是核苷酸。聚合物3與生物孔1的活性部分 5相互作用,從而引起電性能如跨膜電流依賴于生物孔1內(nèi)的k聚體而變化。在此實(shí)例中, 活性部分5被示為與三個聚合物單元4的k聚體相互作用,但這不是限制性的。
[0131] 布置在生物膜2的每側(cè)上的電極6連接于電路7,其包括控制電路71和測量電路 72〇
[0132] 控制電路71被設(shè)置成將電壓提供到電極6,用于跨越生物孔1進(jìn)行施加。
[0133] 測量電路72被設(shè)置成測量電性能。因此,測量取決于在生物孔1內(nèi)的k聚體。
[0134] 由測量系統(tǒng)輸出并且其是根據(jù)本發(fā)明加以分析的輸入信號的典型類型的信號是 "噪聲階梯波",雖然不限于這種信號類型。具有這種形式的輸入信號的實(shí)例示于圖2中,其 用于利用包括納米孔的測量系統(tǒng)獲得的離子電流測量的情況。
[0135] 這種類型的輸入信號包括測量的輸入系列,其中連續(xù)的多個測量的組取決于相同 的k聚體。在每組中的多個測量具有恒定值,并經(jīng)受下文所討論的一些變化,因而形成信 號的"水平",其對應(yīng)于測量系統(tǒng)的狀態(tài)。上述信號在一組水平(其可以是較大組)之間移 動。鑒于儀表的采樣速率和在信號上的噪聲,可以認(rèn)為在水平之間的過渡是瞬間的,因此可 以通過理想化的步跟蹤來近似信號。
[0136] 對應(yīng)于每個狀態(tài)的測量在事件的時間范圍內(nèi)是恒定的,但對于大多數(shù)測量系統(tǒng)而 言將在短時間范圍內(nèi)經(jīng)受變化。變化可能起因于測量噪聲,例如產(chǎn)生自電路和信號處理, 尤其是在電生理學(xué)的特定情況下產(chǎn)生自放大器。由于待測量的性能的較小幅度,上述測量 噪聲是不可避免的。變化也可以來自在測量系統(tǒng)的基本物理或生物系統(tǒng)中的內(nèi)在變化或擴(kuò) 散。大多數(shù)測量系統(tǒng)將在更大或更小程度上經(jīng)歷上述內(nèi)在變化。對于任何給定測量系統(tǒng), 兩種變化源均可以起作用,或這些噪聲源的一種可以是占主導(dǎo)地位的。
[0137] 另外,通常沒有在組中測量的數(shù)目的先驗知識,其不可預(yù)測地變化。
[0138] 上述兩種變化因素以及測量的數(shù)目的知識的缺乏可以使得難以區(qū)分一些組,例如 在組較短和/或兩個連續(xù)組的測量的水平彼此接近的情況下。
[0139] 由于在測量系統(tǒng)中發(fā)生的物理或生物過程的結(jié)果,信號采用這種形式。因此,每組 測量可以被稱為"狀態(tài)"。
[0140] 例如,在包括納米孔的一些測量系統(tǒng)中,由聚合物通過納米孔的移位組成的事件 可以以棘輪方式發(fā)生。在棘輪移動的每個步驟期間,在跨越納米孔的給定電壓下,流過納米 孔的離子電流是恒定的,并經(jīng)受上述討論的變化。因此,每組測量與棘輪移動的步驟相關(guān)。 每個步驟對應(yīng)于一種狀態(tài),其中聚合物處于相對于納米孔的相應(yīng)位置。雖然在狀態(tài)期間過 程中,在精確位置方面,可以存在一些變化,但在狀態(tài)之間存在聚合物的大規(guī)模移動。取決 于測量系統(tǒng)的特性,由于在納米孔中結(jié)合事件的結(jié)果,狀態(tài)可以發(fā)生。
[0141] 單個狀態(tài)的持續(xù)時間可以取決于許多因素,如跨越孔施加的電位,用來對聚合物 作棘輪的酶的類型,而不管聚合物通過存在的酶、pH、鹽濃度和三磷酸核苷的類型被推動或 拉動通過孔。狀態(tài)的持續(xù)時間可能會通常在0. 5ms至3s之間變化,其取決于測量系統(tǒng),以 及對于任何給定納米孔系統(tǒng),具有在狀態(tài)之間的一些隨機(jī)變化。對于任何給定測量系統(tǒng),可 以實(shí)驗確定持續(xù)時間的預(yù)期分布。
[0142] 上述方法可以使用多個測量的輸入系列,各自采用上文描述的形式,其中在每個 系列中多個測量的連續(xù)組取決于相同的k聚體。可以記錄上述多個系列使得先驗已知的 是,來自相應(yīng)系列的哪些測量對應(yīng)和取決于相同的k聚體,例如如果同時獲取每個系列的 測量。這可能是這種情況,例如,如果測量具有由不同測量系統(tǒng)同步測得的不同性能??商?換地,可以不記錄上述多個系列,使得不是先驗已知的是,來自相應(yīng)系列的哪些測量對應(yīng)和 取決于相同的k聚體。這可能是這種情況,例如,如果在不同的時間進(jìn)行測量系列。
[0143] 根據(jù)下文討論的第三方面的方法,其中在跨越納米孔施加不同水平的電壓下進(jìn)行 測量,提供了關(guān)于每個水平的電壓的一系列測量。在這種情況下,考慮到用于談及的測量系 統(tǒng)的狀態(tài)的循環(huán)周期,來選擇測量的循環(huán)周期。理想地,循環(huán)周期短于所有狀態(tài)的持續(xù)時 間,其是通過選擇短于測量系統(tǒng)的最小預(yù)期循環(huán)周期的循環(huán)周期來實(shí)現(xiàn)。然而,有用的信息 可以獲自在短于僅僅一些狀態(tài)的持續(xù)時間的循環(huán)周期期間進(jìn)行的測量,例如短于狀態(tài)的持 續(xù)時間的平均60 %、70 %、80 %、90 %、95 %、或99 %。通常,循環(huán)周期可以是至多3s,更通常 至多2s或至多Is。通常,循環(huán)周期可以是至少0. 5ms,更通常至少lms或至少2ms。
[0144] 對于狀態(tài)的持續(xù)時間,可以施加多于一個的電壓循環(huán),例如2至10個之間的數(shù)目。
[0145] 關(guān)于每種k聚體,可以在一種電壓水平下進(jìn)行多個測量(或在多個電壓水平的每 個下進(jìn)行多個測量)。在一種可能的方式中,可以各自連續(xù)施加不同水平的電壓一時間段, 例如當(dāng)電壓波形是階梯波時,以及在相應(yīng)的時期期間中,在上述期間內(nèi)施加的一種電壓下 進(jìn)行多個測量的組。
[0146] 多個測量本身可以用于隨后的分析??商鎿Q地,在所述(或每個)電壓水平的一 個或多個匯總測量可以源自每個多個測量的組。一個或多個匯總測量可以源自在任何給定 電壓水平下關(guān)于任何給定k聚體以任何方式的多個測量,例如作為平均值或中值,或作為 統(tǒng)計變化的度量,例如標(biāo)準(zhǔn)偏差。然后一個或多個匯總測量可以用于隨后的分析。
[0147] 電壓循環(huán)可以選自許多不同波形。波形可以是非對稱、對稱、規(guī)則或不規(guī)則的。
[0148] 在循環(huán)的一個實(shí)例中,可以各自連續(xù)施加不同水平的電壓一時間段,即循環(huán)的部 分期間,具有在那些不同水平之間的過渡,例如矩形波或階梯波。在電壓水平之間的過渡可 以是尖銳的或可以是在一時間段內(nèi)斜線上升的(ramped)。
[0149] 在循環(huán)的另一個實(shí)例中,電壓水平可以連續(xù)變化,例如在不同水平之間是斜線上 升的,例如三角形或鋸齒波。在這種情況下,可以通過在循環(huán)內(nèi)對應(yīng)于所期望的電壓水平的 時間進(jìn)行測量來進(jìn)行在不同水平下的測量。
[0150] 信息可以源自在電壓坪區(qū)(voltage plateau)下的測量或源自斜率的測量。除在 不同電壓水平下進(jìn)行的測量之外,可以導(dǎo)出進(jìn)一步的信息,例如通過測量在一個電壓水平 和另一個電壓水平之間的瞬態(tài)形狀。
[0151] 在階梯電壓方案中,在電壓水平之間的過渡可以被成形,使得最小化任何電容瞬 態(tài)(capacitive transients)。考慮納米孔系統(tǒng)作為簡單的RC電路,電流,I,由下式給出, I =V/R+CdV/dt,其中V是施加電位,R是電阻(通常為孔的電阻),t是時間以及C是電容 (通常為雙層的電容)。在此模型系統(tǒng)中,在兩個電壓水平之間的過渡將遵循時間常數(shù)的指 數(shù),τ =RC,其中 V = V2-(V2-Vl)*exp(_t/T)。
[0152] 圖52a和52b示出這樣的情況,其中選擇在電壓水平之間過渡的時間常數(shù)τ,以致 過渡速度太快和太慢地被優(yōu)化。在電壓過渡太快的情況下,在測得的電流信號中看到尖峰 信號(過沖),而在太慢的情況下,則測得的信號并不足夠快速地變平(下沖)。在過渡速 度被優(yōu)化的情況下,測得的電流從理想的尖銳過渡變形的時間被最小化??梢愿鶕?jù)測量測 量系統(tǒng)的電性能,或根據(jù)測試不同的過渡,來確定過渡的時間常數(shù)τ。
[0153] 可以在兩種或更多種電壓水平下進(jìn)行測量。選擇電壓水平,以致在每個電壓水平 下的測量提供關(guān)于決定測量的k聚體的同一性的信息。因此,水平的選擇取決于測量系統(tǒng) 的特性。跨越納米孔施加的電位差的程度將取決于許多因素如兩親層的穩(wěn)定性、所使用的 酶的類型以及所期望的移位速度。通常,每個水平的電壓將具有相同的極性,雖然一般來 說,一個或多個水平的電壓可以具有與其它電壓相反的極性。一般來說,對于大多數(shù)納米孔 系統(tǒng),每個水平的電壓可以通常是10mV至2V之間(相對于接地)。因此,在電壓水平之間 的電壓差可以通常是至少10mV,更優(yōu)選至少20mV。在電壓水平之間的電壓差可以通常是至 多1. 5V,更通常至多400mV。較大電壓差傾向于在電壓水平之間產(chǎn)生電流的較大差異,因此 潛在地在相應(yīng)的狀態(tài)之間產(chǎn)生較大區(qū)別。然而,高電壓水平可以在系統(tǒng)中產(chǎn)生例如更多噪 聲或?qū)е峦ㄟ^酶的移位的破壞。相反地,較小電壓差傾向于產(chǎn)生電流的較小差異。可以選 擇最佳電位差,其取決于實(shí)驗條件或酶棘輪的類型。
[0154] 在一種電壓水平下測得的k聚體可以不一定是如在不同電壓水平下測得的相同 的k聚體。在不同電位下測得的k聚體之間,k值可以不同。如果是這種情況,然而有可能, 將存在這樣的聚合物單元,其是在不同電壓水平下測得的每種k聚體所共同的。不被理論 所限制,認(rèn)為,待測量的k聚體的任何差異可能是由于在納米孔內(nèi)在跨越納米孔施加的較 高電位差下聚合物的構(gòu)象變化引起的,從而導(dǎo)致通過讀取頭測得的聚合物單元的數(shù)目的變 化。這種構(gòu)象變化的程度可能取決于在一個值和另一個值之間電位的差異。
[0155] 可以存在其它可獲得的信息,作為測量的一部分,或來自另外的來源,其提供注冊 信息。上述其它信息可以使得能夠確定狀態(tài)。
[0156] 可替換地,信號可以采取任意形式。在這些情況下,還可以依據(jù)一組發(fā)射和過渡來 描述對應(yīng)于k聚體的測量。例如,取決于特定k聚體的測量可以包括以適合于通過這些方 法的描述的方式發(fā)生的一系列測量。
[0157] 可以實(shí)驗檢查給定測量系統(tǒng)提供取決于k聚體和k聚體的尺寸的測量的程度。例 如,可以合成已知的聚合物并保持在相對于測量系統(tǒng)的預(yù)定位置,以根據(jù)得到的測量來研 究測量如何取決于與測量系統(tǒng)相互作用的k聚體的同一性。
[0158] 一種可能的方式是使用一組聚合物,除在預(yù)定位置(其對于組中的每種聚合物是 不同的)處的k聚體之外,其還具有相同序列??梢宰兓痥聚體的尺寸和同一性以研究對 測量的影響。
[0159] 另一種可能的方式是使用一組聚合物,其中,在預(yù)定位置處,所研究的在k聚體 外部的聚合物單元對于組的每種聚合物是不同的。作為上述方式的實(shí)例,圖3是在包括 納米孔的測量系統(tǒng)中兩種多核苷酸的電流測量的頻率分布。在多核苷酸的一種(標(biāo)記 多T)中,在納米孔的區(qū)中的每個堿基是T(標(biāo)記多T),以及在多核苷酸的另一種(標(biāo)記 N11-TATGAT-N8)中,特定固定6聚體(具有序列TATGAT)左邊的11個堿基和右邊的8個堿 基被允許變化。圖3的實(shí)例示出,依據(jù)電流測量,兩種鏈的極好的分離。通過N11-TATGAT-N8 鏈看到的數(shù)值范圍也僅比通過多Τ看到的數(shù)值范圍稍寬。以這種方式和測量還具有其它序 列的聚合物,可以確定,對于談及的特定測量系統(tǒng),以良好的近似,測量取決于6聚體。
[0160] 這種方式、或類似方式,可以通用于任何測量系統(tǒng),其使得能夠確定位置和最小k 聚體描述。
[0161] 概率框架,尤其是在不同條件下或通過不同的檢測方法來施加多個測量的技術(shù)可 以使得能夠使用聚合物的較低k描述。例如在下文討論的有義和反義DNA測量的情況下,3 聚體描述可以足以確定基本聚合物k聚體,其中每個k聚體測量的更準(zhǔn)確的描述將是6聚 體。類似地,在多個電位下進(jìn)行測量的情況下,其中k具有較低值的k聚體描述,可以足以 確定基本聚合物k聚體,其中每個k聚體測量的更準(zhǔn)確的描述將是一個k聚體或多個k聚 體,其中k具有較高值。
[0162] 在一般的測量系統(tǒng)中,類似方法可以用來確定良好近似k聚體的位置和寬度。在 圖3的實(shí)例中,這是通過改變6聚體相對于孔的位置(例如,通過改變以前和以后N的數(shù) 目)來實(shí)現(xiàn),以檢測最佳逼近k聚體的位置以及增加和減少來自6的固定堿基的數(shù)目。k值 可以最少經(jīng)受足夠窄的值的擴(kuò)散。可以選擇k聚體的位置以最小化峰寬度。
[0163] 對于典型的測量系統(tǒng),通常的情況是,取決于不同k聚體的測量并不都是獨(dú)特地 可分辨的。例如,在圖3相關(guān)的測量系統(tǒng)中,可以觀察到,由具有固定6聚體的DNA鏈產(chǎn)生的 測量的范圍是大約2pA以及此系統(tǒng)的近似的測量范圍是30pA至70pA之間。對于6聚體, 存在4096種可能的k聚體。鑒于它們的每一種具有2pA的類似變化,很顯然,在40pA測量 范圍中,這些信號將不會是獨(dú)特可分辨的。甚至在一些k聚體的測量是可分辨的情況下,通 常被觀察到,許多其它k聚體的測量不是可分辨的。
[0164] 對于許多實(shí)際測量系統(tǒng),不可能確定變換k個測量的函數(shù),其各自部分地取決于 相同的聚合物單元,來獲得在聚合物單元的水平下被解析的單值,或者更一般地,不能通過 小于k聚體的數(shù)目的一組參數(shù)來描述k聚體測量。
[0165] 通過舉例的方式,現(xiàn)在將證明,對于包括納米孔的特定測量系統(tǒng),通過簡單的一階 線性模型并不能準(zhǔn)確地描述實(shí)驗得到的多核苷酸的離子電流測量。對于在下文更詳細(xì)描述 的兩個訓(xùn)練組,這得到說明。用于此證明的簡單的一階線性模型是:
[0166] 電流=總和[fn(Bn)]+E
[0167] 其中,fn是在測量系統(tǒng)中在每個位置η處發(fā)生的每個堿基Bn的系數(shù)以及E表示 起因于實(shí)驗可變性的隨機(jī)誤差。通過最小二乘法,將數(shù)據(jù)擬合于此模型,雖然可替換地可以 使用在本領(lǐng)域中已知的許多方法的任何一種。圖4和5是相對于電流測量的最好的模型擬 合的圖。如果通過此模型,數(shù)據(jù)得到充分描述,那么點(diǎn)應(yīng)在典型的實(shí)驗誤差(例如2pA)內(nèi) 緊密遵循對角線。這不是這種情況,其表明,通過用于系數(shù)的任何組的這種線性模型,數(shù)據(jù) 沒有得到充分描述。
[0168] 現(xiàn)在將描述分析輸入信號(其是噪聲階梯波)的具體方法,其具體實(shí)施本發(fā)明的 第一方面。以下方法涉及測量取決于k聚體的情況,其中k是2或更大,但相同方法可以以 簡化形式應(yīng)用于取決于k聚體(其中k是1)的測量。
[0169] 上述方法示于圖6中并且可以用示意性地示于圖6中的分析單元10來實(shí)施。分 析單元10接收和分析輸入信號,其包括來自測量電路72的測量。因而連接分析單元10和 測量系統(tǒng)8,并且共同構(gòu)成用于分析聚合物的設(shè)備。分析單元10還可以將控制信號提供到 控制電路7以選擇在測量系統(tǒng)8中跨越生物孔1施加的電壓,并可以按照施加電壓來分析 來自測量電路72的測量。
[0170] 可以布置包括分析單兀10和測量系統(tǒng)8的設(shè)備,如披露于以下任何之一: TO-2008/102210、TO-2009/07734、TO-2010/122293 和 / 或 W0-2011/067559。
[0171] 分析單元10可以通過在計算機(jī)設(shè)備中執(zhí)行的計算機(jī)程序來實(shí)施或可以通過專用 硬件裝置、或它們的任何組合來實(shí)施。在任何一種情況下,由上述方法使用的數(shù)據(jù)被存儲在 分析單元10的存儲器中。計算機(jī)設(shè)備,在使用的情況下,可以是任何類型的計算機(jī)系統(tǒng),但 通常具有常規(guī)結(jié)構(gòu)??梢杂萌魏芜m宜的編程語言來寫計算機(jī)程序。可以將計算機(jī)程序存儲 于計算機(jī)可讀存儲介質(zhì)中,上述計算機(jī)可讀存儲介質(zhì)可以具有任何類型,例如:記錄介質(zhì), 其可插入計算系統(tǒng)的驅(qū)動器以及其可以以磁、光或光磁方式來存儲信息;計算機(jī)系統(tǒng)的固 定記錄介質(zhì)如硬盤驅(qū)動器;或計算機(jī)存儲器。
[0172] 對輸入信號11進(jìn)行上述方法,上述輸入信號包含上文描述類型的一系列測量(或 者更一般地,任何數(shù)目的系列,如下文進(jìn)一步描述的),包括取決于相同k聚體的多個測量 的連續(xù)組,而沒有在任何組中測量的數(shù)目的先驗知識。這樣的輸入信號11的實(shí)例示于圖 2 (如先前所描述的)。
[0173] 在狀態(tài)檢測步驟S1中,處理輸入信號11以確定測量的連續(xù)組和導(dǎo)出測量系列12, 其由關(guān)于每個確定組的預(yù)定數(shù)目(是一個或多個)的測量組成。對由此導(dǎo)出的測量系列12 進(jìn)行分析步驟S2。狀態(tài)檢測步驟S1的目的是將輸入信號減少到預(yù)定數(shù)目的與每個k聚體 狀態(tài)相關(guān)的測量,以簡化分析步驟S2。例如噪聲階梯波信號,如圖2所示,可以被減少到這 樣的狀態(tài),其中與每個狀態(tài)相關(guān)的單個測量可以是平均電流。這種狀態(tài)可以被稱為水平。
[0174] 可以利用查找輸入信號11的衍生物中的短期增加的圖7所示的方法,來進(jìn)行狀態(tài) 檢測步驟S1,具體如下。
[0175] 在步驟S1-1中,區(qū)分輸入信號11以導(dǎo)出它的衍生物。
[0176] 在步驟S1-2中,來自步驟S1-1的衍生物經(jīng)受低通濾波以抑制高頻噪聲(分化傾 向于放大)。
[0177] 在步驟S1-3中,來自步驟S1-2的濾波衍生物被閾值化以檢測在測量的組之間的 過渡點(diǎn)(轉(zhuǎn)變點(diǎn)),從而確定數(shù)據(jù)的組。
[0178] 在步驟S1-4中,預(yù)定數(shù)目的測量來源于在步驟S1-3中確定的每組中的輸入信號 11。在最簡單的方法中,導(dǎo)出單個測量,例如作為在每個確定組中測量的平均值、中值、或位 置的其它度量。從步驟S1-4輸出的測量形成測量系列12。在其它方法中,導(dǎo)出關(guān)于每組的 多個測量。
[0179] 這種技術(shù)的常見簡化是使用滑動窗口分析,據(jù)此,比較兩個相鄰窗口的數(shù)據(jù)的平 均值。然后可以基于平均差異來直接設(shè)定閾值,或可以基于在兩個窗口中數(shù)據(jù)點(diǎn)的方差 (例如,通過計算史蒂特氏t統(tǒng)計量)來設(shè)定閾值。這些方法的獨(dú)特優(yōu)勢在于,可以應(yīng)用它 們,而沒有施加關(guān)于數(shù)據(jù)的許多假設(shè)。
[0180] 可以存儲與測得水平相關(guān)的其它信息,用于以后的分析。這樣的信息可以包括但 不限于:信號的變化;不對稱信息;觀察的置信度;組的長度。
[0181] 通過舉例的方式,圖9示出通過移動窗口 t檢驗而減小的實(shí)驗確定的輸入信號11。 尤其是,圖9示出輸入信號11作為淺色線。在狀態(tài)檢測以后的水平被示為重疊的,作為暗 色線。圖10示出針對整個譜圖導(dǎo)出的測量系列12,依據(jù)在過渡之間的平均值來計算每個狀 態(tài)的水平。
[0182] 然而,如在下文更詳細(xì)描述的,狀態(tài)檢測步驟S1是可選的,并且在下文進(jìn)一步描 述的替代方案中,可以被省略。在這種情況下,如由圖6中的虛線示意性地所示,對輸入信 號11本身進(jìn)行分析步驟S2,代替測量系列12。
[0183] 現(xiàn)將描述分析步驟S2。
[0184] 分析步驟S2使用一種分析技術(shù),其是指存儲在分析單元10中的模型13。分析步 驟S2估計在聚合物中聚合物單元的估計序列16,其基于通過由聚合物單元的序列產(chǎn)生的 測量系列12的模型13預(yù)測的似然。在最簡單的情況下,估計序列16可以是下述表示,其 為每個聚合物單元提供單個估計同一性。更一般地,估計序列16可以是按照一定最優(yōu)性準(zhǔn) 則的聚合物單元的序列的任何表示。例如,估計序列16可以包含多個序列,例如包括在部 分或所有的聚合物中一個或多個聚合物單元的多個估計同一性。
[0185] 現(xiàn)將考慮模型13的數(shù)學(xué)基礎(chǔ)。分析步驟S2還提供下文進(jìn)一步描述的質(zhì)量得分 17。
[0186] 在從其對電流采樣的隨機(jī)變量{Xi,X2, "·,Χη}的序列之間的關(guān)系可以通過簡單的 圖形模型Α來表示,其表示在變量之間的條件獨(dú)立性關(guān)系:
[0187] X「X2_X3_ …-Xn
[0188] 每個電流測量取決于被讀的k聚體,所以存在隨機(jī)變量以,S2,…,SJ的基本組, 其表示k聚體的基本序列以及借助于相應(yīng)的圖形模型B :
[0189] "^r ill i Q Q Q Q * * *~
[0190] 應(yīng)用于施加的電流區(qū)的這些模型利用了馬爾可夫(Markov)性能。在模型A中,如 果f(Xi)用來表示隨機(jī)變量Xi的概率密度函數(shù),那么馬爾可夫性能可以被表示為:
[0191] f(Xffl|Xffl_1) = f(Xffl|X1,X2,...,Xffl_ 1)
[0192] 在模型B中,馬爾可夫性能可以被表示為: _] p(Sffl|Sffl_1) =P(Sj
[0194] 精確地取決于如何編碼問題,用于解的自然的方法可以包括貝葉斯網(wǎng)絡(luò)、馬爾可 夫隨機(jī)場、隱馬爾可夫模型,并且還包括這些模型的變型,例如上述模型的有條件或最大熵 公式。在這些稍微不同的框架內(nèi),解的方法經(jīng)常是類似的。通常,模型13包括過渡權(quán)重14, 其表示從起源k聚體到目標(biāo)k聚體的過渡的機(jī)會;以及關(guān)于每種k聚體的發(fā)射權(quán)重15,其 表示觀測k聚體的測量的給定值的機(jī)會。在模型13是隱馬爾可夫模型的情況下,現(xiàn)將進(jìn)行 說明。
[0195] 在圖形模型B中,在本文給出的設(shè)置中,隱馬爾可夫模型(HMM)是自然表示。在 HMM中,在離散隨機(jī)變量S"^P Sm+1之間的關(guān)系是依據(jù)過渡權(quán)重14的躍遷矩陣加以定義,其 在這種情況下是概率,該概率表示在每個隨機(jī)變量可以采取的可能的狀態(tài)之間的過渡的概 率,即從起源k聚體到目標(biāo)k聚體。例如,常規(guī)地,躍遷矩陣的第(i,j)個元(entry)是過 渡權(quán)重14,其表示概率S m+1 = sm+u,鑒于Sm = SnU,即過渡到Sm+1的第j個可能的值的概率, 鑒于sm呈現(xiàn)它的第i個可能的值。
[0196] 圖11是Sm到Sm+1的躍遷矩陣的圖形表示。在這里,為便于說明,S m和Sm+1僅顯示 4個值,但在現(xiàn)實(shí)中將存在和不同k聚體一樣多的狀態(tài)。每個邊表示過渡,并且可以被標(biāo)記 有來自躍遷矩陣的元,其表示過渡概率。在圖11中,連接在S m層至Sm+1層中的每個節(jié)點(diǎn)的 四條邊的過渡概率將經(jīng)典地共計為1,雖然可以使用非概率權(quán)重。
[0197] 一般來說,期望的是,過渡權(quán)重14包含非二進(jìn)制變量的值(非二進(jìn)制值)。這允許 模型13表示在k聚體之間過渡的實(shí)際概率。
[0198] 考慮到模型13表示k聚體,所以任何給定k聚體具有k個優(yōu)選過渡,從起源k聚 體過渡到目標(biāo)k聚體,其具有這樣的序列,其中第一(k-Ι)聚合物單元是起源k聚體的最后 (k-ι)聚合物單元。例如在多核苷酸由4種核苷酸G、T、A和C組成的情況下,起源3聚體 TAC具有到3聚體ACA、ACC、ACT和ACG的優(yōu)選過渡。對于第一近似,從概念上講,可以認(rèn)為, 4種優(yōu)選過渡的過渡概率是相等的,為(0. 25),以及其它非優(yōu)選過渡的過渡概率是零,非優(yōu) 選過渡是從起源k聚體過渡到目標(biāo)k聚體,其具有不同于起源k聚體以及其中第一(k-1) 聚合物單元不是起源k聚體的最后(k-1)聚合物單元的序列。然而,雖然這種近似有利于 理解,但一般來說,過渡的實(shí)際機(jī)會可以從在任何給定測量系統(tǒng)中的這種近似進(jìn)行變化。這 可以由過渡權(quán)重14反映,其采用非二進(jìn)制變量的值(非二進(jìn)制值)??梢员硎镜纳鲜鲎兓?的一些實(shí)例如下。
[0199] 一個實(shí)例是,優(yōu)選過渡的過渡概率可能不是相等的。這允許模型13表示聚合物, 其中在序列中的聚合物之間存在相互關(guān)系。
[0200] 一個實(shí)例是,至少一些非優(yōu)選過渡的過渡概率可能是非零。這允許模型13考慮到 錯過的測量,即其中不存在這樣的測量,其取決于在實(shí)際聚合物中的一種(或多種)k聚體。 上述錯過的測量可以發(fā)生:由于在測量系統(tǒng)中的問題,以致測量不是物理上采取的,或由于 在隨后的數(shù)據(jù)分析中的問題,如狀態(tài)檢測步驟S1未能確定測量的組之一,例如由于給定組 太短或兩個組并不具有足夠分離的水平。
[0201] 盡管允許過渡權(quán)重14具有任何值的一般性,但通常它將是這種情況,過渡權(quán)重14 表示從起源k聚體到目標(biāo)k聚體的優(yōu)選過渡的非零機(jī)會,上述目標(biāo)k聚體具有這樣的序列, 其中第一(k-Ι)聚合物單元是起源k聚體的最后(k-Ι)聚合物單元,以及表示非優(yōu)選過渡 的較低機(jī)會。還通常地,過渡權(quán)重14表示至少一些所述非優(yōu)選過渡的非零機(jī)會,即使機(jī)會 可以接近零,或?qū)τ谝恍┍唤^對排除的過渡可以是零。
[0202] 為了允許在序列中單個錯過的k聚體,過渡權(quán)重14可以表示從起源k聚體到目標(biāo) k聚體的非優(yōu)選過渡的非零機(jī)會,上述目標(biāo)k聚體具有這樣的序列,其中第一(k-2)聚合物 單元是起源k聚體的最后(k-2)聚合物單元。例如,在多核苷酸由4種核苷酸組成的情況 下,對于起源3聚體TAC,存在到所有可能的開始于C的3聚體的過渡。我們可以將對應(yīng)于 這些單個錯過的k聚體的過渡定義為"跳過"。
[0203] 在分析包含關(guān)于每種k聚體的單個測量的測量系列12的情況下,那么過渡權(quán)重14 將表示對于每個測量12的過渡的高機(jī)會。取決于測量的特性,從起源k聚體過渡到與起源 k聚體相同的目標(biāo)k聚體的機(jī)會可以是零或接近于零,或可以類似于非優(yōu)選過渡的機(jī)會。
[0204] 類似地,在分析包含預(yù)定數(shù)目的關(guān)于每種k聚體的測量的測量系列12的情況下, 那么過渡權(quán)重14可以表示在關(guān)于相同的k聚體的測量12之間過渡的低或零機(jī)會??梢愿?變過渡權(quán)重14以允許起源k聚體和目標(biāo)k聚體是相同的k聚體。這允許,例如,錯誤地檢 測到的狀態(tài)過渡。我們可以將對應(yīng)于這些重復(fù)相同的k聚體的過渡定義為"停留"。我們注 意到,在k聚體中的所有聚合物單元是相同的均聚物的情況下,優(yōu)選過渡將是停留過渡。在 這些情況下,聚合物已移動一個位置,但k聚體保持相同的。
[0205] 類似地,在萬一分析測量系列12 (其中通常存在關(guān)于每種k聚體但具有未知量的 多個測量(其可以被稱為"粘著"的情況下,過渡權(quán)重14可以表示起源k聚體和目標(biāo)k 聚體是相同k聚體的相對較高概率,以及取決于物理系統(tǒng),在一些情況下,可以大于如上所 述的優(yōu)選過渡的概率,上述優(yōu)選過渡是從起源k聚體到目標(biāo)k聚體的過渡,其中第一(k-1) 聚合物單元與起源k聚體的最后(k-1)聚合物單元相同。
[0206] 此外,在分析輸入信號11而沒有利用狀態(tài)檢測步驟S1的情況下,那么這可以簡單 地通過使過渡權(quán)重14適應(yīng)于表示起源k聚體和目標(biāo)k聚體是相同k聚體的相對較高概率 來實(shí)現(xiàn)。這基本上允許進(jìn)行相同的分析步驟S2,其中模型13的適應(yīng)隱式地考慮到狀態(tài)檢 測。
[0207] 與每個k聚體相關(guān),存在發(fā)射權(quán)重15,其表示觀測k聚體的測量的給定值的概率。 因此,對于由圖11中的節(jié)點(diǎn)S m;i表示的k聚體狀態(tài),發(fā)射權(quán)重15可以被表示為概率密度函 數(shù)g (Xm | SnU),其描述從其采樣電流測量的分布。期望的是,發(fā)射權(quán)重15包含非二進(jìn)制變量 的值。這允許模型13表示不同電流測量的概率,一般來說,其可能不具有簡單的二進(jìn)制形 式。
[0208] 在狀態(tài)檢測步驟S1導(dǎo)出由關(guān)于每個確定組(例如平均值和方差)的多個測量組 成的測量系列12的情況下,發(fā)射權(quán)重15表示觀測k聚體的每種類型的測量的給定值的概 率。類似地,在更一般情況下,即對多個測量系列12進(jìn)行上述方法,上述多個測量系列被記 錄以致先驗已知的是,來自相應(yīng)系列的哪些測量對應(yīng)和取決于相同的k聚體,則發(fā)射權(quán)重 15再次表示觀測k聚體的每個系列的測量的給定值的概率。在這些情況下,可以應(yīng)用模型 13,其中利用發(fā)射權(quán)重15作為在多個維度上的概率密度函數(shù),其描述對于每個k聚體狀態(tài) 的多個測量的分布。一般來說,用于任何給定k聚體的發(fā)射權(quán)重15可以采用任何形式,其 反映測量的概率。在單個模型13內(nèi),并不需要不同k聚體具有有相同發(fā)射分布形式或參數(shù) 化的發(fā)射權(quán)重15。
[0209] 對于許多測量系統(tǒng),k聚體的測量具有特定預(yù)期值,其可以是擴(kuò)散的,這起因于待 測量的物理或生物特性的擴(kuò)散和/或測量誤差。這可以用模型13來建模,其中通過使用發(fā) 射權(quán)重15,其具有適宜的分布,例如單峰分布。
[0210] 然而,對于一些測量系統(tǒng),用于任何給定k聚體的發(fā)射權(quán)重15可以是多峰的,例如 物理上產(chǎn)生自在測量系統(tǒng)中兩種不同類型的結(jié)合和/或產(chǎn)生自在測量系統(tǒng)內(nèi)采用多種構(gòu) 象的k聚體。
[0211] 有利地,發(fā)射權(quán)重15可以表示觀測所有可能的測量的非零機(jī)會。這允許模型13 考慮到由給定k聚體產(chǎn)生的未預(yù)期測量,其是離群值。例如,可以在允許具有非零概率的離 群值的廣泛的支持下選擇發(fā)射權(quán)重15概率密度函數(shù)。例如在單峰分布的情況下,對于每個 k聚體的發(fā)射權(quán)重15可以具有高斯或拉普拉斯分布,其對于所有實(shí)數(shù)具有非零權(quán)重。
[0212] 可以是有利的是,允許發(fā)射權(quán)重15是任意定義的分布,以使得能夠精致地處理離 群值測量和處理具有多值發(fā)射的單狀態(tài)的情況。
[0213] 可以期望根據(jù)經(jīng)驗來確定發(fā)射權(quán)重15,例如在如下文所述的訓(xùn)練期期間。
[0214] 可以借助于跨越測量空間的任何適宜數(shù)目的二進(jìn)制(bins)來表示發(fā)射權(quán)重15的 分布。例如,在下文描述的情況下,通過在數(shù)據(jù)范圍上的500個二進(jìn)制來定義分布??梢酝?過在所有二進(jìn)制中具有非零概率(雖然在離群二進(jìn)制中較低)和類似概率(如果數(shù)據(jù)并不 屬于定義二進(jìn)制之一)來處理離群值測量??梢远x足夠數(shù)目的二進(jìn)制以近似所期望的分 布。
[0215] 因此,獨(dú)特優(yōu)勢可以源自使用表示至少一些所述非優(yōu)選過渡的非零機(jī)會的過渡權(quán) 重14和/或使用表示觀測所有可能的測量的非零機(jī)會的發(fā)射權(quán)重15。獨(dú)特優(yōu)勢還可以源 自使用對應(yīng)于觀測給定k聚體的測量范圍的相對機(jī)會的發(fā)射權(quán)重。
[0216] 為了強(qiáng)調(diào)這些優(yōu)點(diǎn),作為比較例,考慮用于導(dǎo)出序列的簡單的非概率方法。在此比 較例中,不允許在觀測值的給定范圍以外產(chǎn)生測量的k聚體以及不允許對應(yīng)于錯過的測量 的過渡(跳過),例如通過刪除邊和結(jié)點(diǎn)來減少圖11中過渡的數(shù)目。在上述比較例中,然后 搜索k聚體狀態(tài)的獨(dú)特的連接序列,其準(zhǔn)確地包含用于每個Si的一個節(jié)點(diǎn),以及對應(yīng)于聚 合物單元的基本序列。然而,因為此比較例依靠任意閾值來確定不允許的結(jié)點(diǎn)和邊,所以在 跳過的測量的情況下它未能找到任何路徑,這是因為在圖中并不存在適當(dāng)?shù)倪?。類似地,?離群測量的情況下,上述比較例將導(dǎo)致在圖11中的相應(yīng)節(jié)點(diǎn)被刪除,并再次變得不可能確 定通過該圖的正確路徑。
[0217] 相比之下,在分析步驟S2中使用模型13和分析技術(shù)如概率或加權(quán)方法的獨(dú)特優(yōu) 勢在于,可以避免這種崩潰情況。另一個優(yōu)點(diǎn)在于,在存在多個允許路徑的情況下,可以確 定最有可能的或一組可能的路徑。
[0218] 這種方法的另一獨(dú)特優(yōu)勢涉及檢測均聚物,即相同的聚合物單元的序列。基于模 型的分析使得能夠處理這樣的均聚物區(qū),其達(dá)到類似于有助于信號的聚合物單元的數(shù)目的 長度。例如6聚體測量可以確定長度可達(dá)6個聚合物單元的均聚物區(qū)。
[0219] 分析步驟S2的一種可能的形式示于圖8并且操作如下。
[0220] 在步驟S2-1中,參照模型13基于通過由k聚體的序列產(chǎn)生的測量系列12的模型 13所預(yù)測的似然,來估計k聚體的估計序列18。
[0221] 在步驟S2-2中,聚合物單元的估計序列16由在步驟S2-1中估計的k聚體的估計 序列18估計。
[0222] 在步驟S2-1和S2-2中,還提供了質(zhì)量得分,其分別表示k聚體的估計序列18和 聚合物單元的估計序列16的質(zhì)量,如下文進(jìn)一步討論的。
[0223] 在分析步驟S2中應(yīng)用的分析技術(shù)可以采用各種各樣的形式,其適用于模型13以 基于通過由聚合物單元的序列產(chǎn)生的測量系列12的模型13所預(yù)測的似然來提供在聚合物 中聚合物單元的估計序列16。例如在模型是HMM的情況下,在步驟S2-1中分析技術(shù)可以使 用任何已知的算法,例如前向后向(Forwards Backwards)算法或維特比(Viterbi)算法。 一般來說,這樣的算法可以避免通過狀態(tài)的序列的所有可能的路徑的似然(可能性)的蠻 力計算,而是利用基于似然的簡化的方法來確定狀態(tài)序列。
[0224] 在一個替代方案中,通過估計序列的單獨(dú)k聚體,或?qū)τ谠谛蛄兄械拿總€k聚體的 多個k聚體估計,基于通過由單獨(dú)k聚體產(chǎn)生的測量系列的模型所預(yù)測的似然,步驟S2-1 可以確定k聚體的序列18。作為實(shí)例,在步驟S2-1中分析技術(shù)使用前向后向算法的情況 下,基于通過由單獨(dú)k聚體產(chǎn)生的測量系列的模型所預(yù)測的似然,分析技術(shù)估計k聚體的序 列18。前向-后向算法在本領(lǐng)域中是眾所周知的。對于前向部分:利用過渡和發(fā)射權(quán)重, 從第一至最后測量,向前遞歸地計算結(jié)束于給定k聚體的所有序列的總似然。后向部分以 類似的方式進(jìn)行工作但從最后測量至第一測量。結(jié)合這些前向和后向概率以及連同數(shù)據(jù)的 總似然一起來計算來自給定k聚體的每個測量的概率。
[0225] 根據(jù)前向-后向概率,導(dǎo)出在序列18中每個k聚體的估計。這是基于與每個單獨(dú) k聚體相關(guān)的似然。一種簡單的方法是在每個測量中獲得最有可能的k聚體,這是因為前 向-后向概率表明在每個測量中k聚體的相對似然。
[0226] 在步驟S2-1中,還導(dǎo)出關(guān)于序列18中的單獨(dú)k聚體的質(zhì)量得分,其表示通過由包 括單獨(dú)k聚體的序列產(chǎn)生的測量系列12的模型13所預(yù)測的似然。這可以獲自在步驟S2-1 中進(jìn)行的分析,并提供另外的有用的信息。
[0227] 在另一種替代方案中,基于通過由k聚體的整個序列產(chǎn)生的測量系列的模型所預(yù) 測的似然,通過估計整個序列、或多個整個序列,步驟S2-1可以確定k聚體的序列18。作為 另一實(shí)例,在步驟S2-1中分析技術(shù)使用維特比算法的情況下,基于通過由k聚體的整個序 列產(chǎn)生的測量系列的模型所預(yù)測的似然,分析技術(shù)估計k聚體的序列18。維特比算法在本 領(lǐng)域中是眾所周知的。
[0228] 在步驟S2-1中,還導(dǎo)出關(guān)于在序列18中單獨(dú)k聚體的質(zhì)量得分,其表示通過由k 聚體的整個序列產(chǎn)生的測量系列12的模型13所預(yù)測的似然。這可以獲自在步驟S2-1中 進(jìn)行的分析,并提供另外的有用的信息。
[0229] 作為另一種替代方案,可以將步驟S2-1分為兩個階段,包括:第一階段:基于通過 由k聚體的整個序列產(chǎn)生的測量系列的模型所預(yù)測的似然,確定k聚體的整個序列;以及第 二階段:依據(jù)第一階段的結(jié)果,通過估計序列的單獨(dú)k聚體,或?qū)τ谠谛蛄兄械拿總€k聚體 的多個k聚體估計,來確定k聚體的序列18。作為實(shí)例,這種替代方案可以使用蠻力計算。
[0230] 在步驟S2-2中,利用任何適宜的技術(shù),由在步驟S2-1中估計的k聚體的估計序列 18估計聚合物單元的估計序列16。一種直接方法是以一對一關(guān)系使k聚體與聚合物單元 相關(guān)以及簡單地采取來自相關(guān)k聚體的單個聚合物單元。更復(fù)雜的方法利用來自在序列18 中包含每個給定的聚合物單元的估計k聚體的組的信息的組合來估計每個聚合物單元。例 如聚合物單元可以取自最有可能的那些估計k聚體。在步驟S2-1中,利用導(dǎo)出的關(guān)于估計 k聚體序列的質(zhì)量得分17,可以估計每個聚合物單元。
[0231] 在步驟S2-2中,還導(dǎo)出關(guān)于在序列16中的每個聚合物單元的質(zhì)量得分,其表示由 包括聚合物單元的序列產(chǎn)生的測量系列12的模型13所預(yù)測的似然。這可以獲自在步驟 S2-2中進(jìn)行的分析,例如基于每個k聚體和相關(guān)的聚合物單元的相對概率,以及提供另外 的有用的信息。
[0232] 在分析步驟S2中的上述技術(shù)不是限制性的。存在許多方法來利用模型,其中利用 概率或其它分析技術(shù)。估計k聚體的整個序列、單獨(dú)k聚體或基本聚合物單元的過程可以針 對特定的應(yīng)用設(shè)計。沒有必要進(jìn)行任何"硬"k聚體序列、k聚體或聚合物單元調(diào)用(calls)。 可以考慮所有k聚體序列、或可能的k聚體序列的亞組??梢钥紤]k聚體或k聚體的組,其 與k聚體序列相關(guān)或被認(rèn)為獨(dú)立于特定k聚體序列,例如相對于所有k聚體序列的加權(quán)和。 聚合物單元或聚合物單元的組與k聚體相關(guān)或被認(rèn)為獨(dú)立于特定k聚體,例如相對于所有 k聚體的加權(quán)和,那些k聚體依賴于、或獨(dú)立于k聚體序列或k聚體序列的組。
[0233] 通過實(shí)例的方式,可以考慮3聚體多核苷酸系統(tǒng)。有幾種方法來導(dǎo)出一組可能的 堿基估計。第一替代方案是考慮最有可能的路徑(維特比算法),導(dǎo)出與上述路徑相關(guān)的3 聚體狀態(tài)的組,以及使用來自k聚體的一個堿基,例如中心堿基,作為堿基調(diào)用。第二替代 方案是考慮所有路徑以導(dǎo)出在每個點(diǎn)處最有可能的k聚體(前向-后向算法)。于是,來自 最有可能的k聚體的一個堿基(例如中心堿基)可以是堿基估計。用來自k聚體導(dǎo)出堿基 估計的另一種替代方案將是總和所有k聚體,其中考慮到堿基之一(例如中心堿基)的貢 獻(xiàn)并采用最有可能的堿基作為估計。用來自k聚體導(dǎo)出堿基估計的另一種替代方案將是總 和來自在所有k聚體中的所有位置的貢獻(xiàn),以確定在每個位置處最有可能的估計。
[0234] 類似地,分析步驟S2可以估計k聚體的多個序列18和/或聚合物單元的多個序 列16。在這種情況下,可以存在導(dǎo)出的質(zhì)量得分,其是關(guān)于k聚體的每個的多個序列18和 /或聚合物單元的每個的多個序列16。以這種方式,分析步驟S2提供關(guān)于可能性較小的序 列的信息,其仍然可以用于一些應(yīng)用。
[0235] 給出的以上描述是依據(jù)模型13,其是HMM,其中過渡權(quán)重14和發(fā)射權(quán)重15是概 率,以及分析步驟S2使用其指的是模型13的概率技術(shù)。然而,可替換地可能的是,模型13 使用一種框架,其中過渡權(quán)重14和/或發(fā)射權(quán)重15不是概率,但以某種其它方式表示過渡 或測量的機(jī)會。在這種情況下,分析步驟S2可以使用分析技術(shù)而不是概率技術(shù),其是基于 由聚合物單元的序列產(chǎn)生的測量系列的模型13所預(yù)測的似然。分析步驟S2使用的分析技 術(shù)可以明確使用似然函數(shù),但一般來說這不是必需的。因此,在本發(fā)明的上下文中,術(shù)語"似 然"在一般意義上用于考慮到通過聚合物單元的序列產(chǎn)生的測量系列的機(jī)會,而無需計算 或利用正式似然函數(shù)。
[0236] 例如,可以用費(fèi)用(或距離)來表示過渡權(quán)重14和/或發(fā)射權(quán)重15,其表示過渡 或發(fā)射的機(jī)會,但不是概率,所以例如不會被限于總和為1。在這種情況下,分析步驟S2可 以使用一種分析技術(shù),其處理分析作為最小費(fèi)用路徑或最小路徑問題,例如如在運(yùn)籌學(xué)中 通??吹降姆治?。可以使用標(biāo)準(zhǔn)方法如迪科斯徹算法(Dijkstra's algorithm)(或其它更 有效的算法)。
[0237] 現(xiàn)將討論具體實(shí)例,其中模型13是HMM,其用來建模和分析來自鈍性讀出頭系統(tǒng) 的數(shù)據(jù)。在這里,通過如先前描述的狀態(tài)檢測步驟S1來首先處理輸入數(shù)據(jù)11。為簡單起 見,但不是限制性地,這種具體實(shí)例涉及用于多核苷酸的3聚體模型,上述多核苷酸具有4 種可能的堿基,以致存在64種可能的k聚體。介紹了一種模擬情況以能夠參照基本模型13 和狀態(tài)來說明關(guān)鍵點(diǎn)。
[0238] 在這種模擬情況下,隨機(jī)選擇3聚體電流水平,以致64種k聚體狀態(tài)的發(fā)射權(quán)重 15的最簡單的描述需要64個系數(shù)。通過如所描述的基于模型的分析來實(shí)現(xiàn)根據(jù)測量的k 聚體的基本序列的確定。
[0239] 圖12示出對于每個k聚體的最有可能的測量值。因此,這些值也是每個k聚體的 發(fā)射權(quán)重15的分布的中心值。在圖12中,按順序G、T、A、C,即狀態(tài)0 = "GGG"、狀態(tài)1 = "GGT"、...狀態(tài)62 = "CCA"、狀態(tài)63 = "CCC",來依次運(yùn)行k聚體狀態(tài)指數(shù)。在分析期間 使用K聚體狀態(tài)指數(shù),其中轉(zhuǎn)換回到"底空間(base space) "作為最后步驟。
[0240] 利用先前描述的系數(shù)來模擬來自給定序列的測量。例如序列ACTGTCAG是由3聚 體構(gòu)成:ACT、CTG、TGT、GTC、TCA、CAG。它們對應(yīng)于狀態(tài)指數(shù)45、52、17、7、30、56,其產(chǎn)生預(yù) 期測量:68. 5、46. 5、94. 9、51. 3、19. 5、52. 1。模擬測量示于圖13,作為輸入信號12,以及示 于圖14,作為通過狀態(tài)檢測步驟S1產(chǎn)生的測量系列12。
[0241] 在實(shí)踐中,進(jìn)行的任何測量具有與它們相關(guān)的錯誤。在模擬情況下,這通過將噪聲 加入預(yù)期測量中而考慮。
[0242] 還存在失去測量或插入假陽性測量的機(jī)會。在如現(xiàn)將描述的躍遷矩陣中可以考慮 到這些。
[0243] 現(xiàn)將考慮用于模擬情況的過渡權(quán)重14的躍遷矩陣。
[0244] 鑒于測量系列12和發(fā)射權(quán)重15的組,分析步驟S2確定基本序列的估計。從概 念上講,這可以被認(rèn)為是,分析步驟S2建模所有可能的過渡,相對于其,比較觀測到的序列 (雖然事實(shí)上分析步驟S2可以使用并不需要此的更有效的算法)。例如在所考慮的3聚體 的情況下,64種狀態(tài)的每一種具有到4種其它狀態(tài)的優(yōu)選過渡。
[0245] 圖15示出用于模擬模型的過渡權(quán)重14的躍遷矩陣,其中用于優(yōu)選過渡的過渡權(quán) 重14各自是0. 25以及用于非優(yōu)選過渡的過渡權(quán)重14各自是零。例如,可以看到,起源狀 態(tài)0 (GGG)可以以相等概率過渡到狀態(tài)0 (GGG)、1 (GGT)、2 (GGA)或3 (GGC)。
[0246] 圖16示出用于模擬模型的過渡權(quán)重14的躍遷矩陣的更復(fù)雜的情況,上述模擬模 型由圖15的模擬模型改進(jìn),其中通過允許用于非優(yōu)選過渡的非零過渡權(quán)重14,上述非優(yōu)選 過渡表示錯過的測量,即其中過渡被跳過。一般說來,如需要建?;緶y量系統(tǒng)時,躍遷矩 陣可以是任意復(fù)雜的。
[0247] 在操作測量系列12的情況下,其中我們已進(jìn)行狀態(tài)檢測S1,遠(yuǎn)離任何給定起源k 聚體的過渡概率通常較高,總之接近1。在圖15的第一實(shí)例中,躍遷矩陣需要過渡,除了在 4種均聚物情況下,其中優(yōu)選"過渡"的一種是到相同的k聚體。從任何狀態(tài)的4種優(yōu)選過 渡的每一種的概率是〇. 25。此矩陣不太可能能夠處理"真實(shí)世界"數(shù)據(jù),除非進(jìn)行其它適當(dāng) 的減輕,例如在發(fā)射權(quán)重15中的離群值處理。
[0248] 然而,對于需要處理或有可能發(fā)生的任何情況,可以允許非零過渡。在圖16的第 二實(shí)例中,優(yōu)選過渡的概率小于〇. 25,其中余數(shù)由停留和跳過概率組成。以類似的方式,也 可以允許多個跳過,達(dá)到任意水平的復(fù)雜性。
[0249] 可以調(diào)節(jié)過渡概率以考慮到可以測量在k聚體之間的過渡的容易性。例如在來自 兩個連續(xù)k聚體的信號是非常接近在一起的情況下,狀態(tài)檢測步驟S1可以錯過此過渡。在 這種情況下,在這兩個k聚體之間的躍遷矩陣元素可以在跳過第二k聚體的方向被加權(quán)。
[0250] 可以調(diào)節(jié)矩陣以考慮到在給定樣品中的任何序列偏向。
[0251] 在上述實(shí)例中,將發(fā)射和過渡權(quán)重固定于恒定值,但這不是必需的。作為一種替代 方案,對于待分析的測量系列的不同部分,可以變化發(fā)射權(quán)重和/或過渡權(quán)重,也許由關(guān)于 過程的另外的信息所引導(dǎo)。作為實(shí)例,其具有作為"停留"的解釋的過渡權(quán)重的矩陣的元素 可以被調(diào)節(jié),其取決于特定事件0反映聚合物的實(shí)際過渡的置信度。作為進(jìn)一步的實(shí)例, 可以調(diào)節(jié)發(fā)射權(quán)重以反映測量裝置的背景噪聲的系統(tǒng)漂移或?qū)κ┘与妷哼M(jìn)行的變化。對權(quán) 重的調(diào)節(jié)的范圍并不限于這些實(shí)例。
[0252] 在上述實(shí)例中,存在每個k聚體的單一表示,但這不是必需的。作為一種替代方 案,模型可以具有一些或所有k聚體的多個不同的表示,以致關(guān)于任何給定k聚體,可以存 在多組的過渡和/或發(fā)射權(quán)重。這里的過渡權(quán)重可以是在不同的起源和不同的目標(biāo)k聚體 之間,所以每個起源-目標(biāo)對可以具有多個權(quán)重,其取決于每個k聚體的不同表示的數(shù)目。 這些不同表示的許多可能的解釋中的一種是,k聚體被標(biāo)記有標(biāo)記,其指示不能直接觀測的 系統(tǒng)的某種行為,例如在移位通過納米孔期間聚合物可以采用的不同構(gòu)象或移位行為的不 同動力學(xué)。
[0253] 對于操作于原始輸入信號11而沒有進(jìn)行狀態(tài)檢測步驟S1的模型13,將上述方法 直接應(yīng)用于輸入系列的測量,其中多個測量的組取決于相同的k聚體而沒有在組中測量的 數(shù)目的先驗知識。在這種情況下,可以應(yīng)用非常類似的技術(shù),但對模型13進(jìn)行顯著調(diào)節(jié),這 是因為,遠(yuǎn)離任何給定起源k聚體狀態(tài)的過渡概率的總和現(xiàn)在遠(yuǎn)小于1。例如,如果平均而 言,系統(tǒng)對相同的k聚體進(jìn)行100次測量,則在躍遷矩陣中的對角線上的概率(表示沒有過 渡或這樣的過渡,其中起源k聚體和目標(biāo)k聚體是相同的k聚體)將是0. 99,并在所有其它 優(yōu)選和非優(yōu)選過渡之間具有〇. 01分裂。優(yōu)選過渡的組可以類似于那些用于狀態(tài)檢測情況 的組。
[0254] 考慮發(fā)射權(quán)重15,圖17至19示出用于模擬系數(shù)的發(fā)射分布,其分別是高斯、三角 和正方分布,雖然以這種方式可以定義任何任意分布(包括非參數(shù)分布)。
[0255] 為了表明,相對于噪聲,這些方法的穩(wěn)健性,將噪聲擾動加入模擬測量中。在此實(shí) 例中,將采樣自標(biāo)準(zhǔn)偏差5pA的高斯分布的隨機(jī)噪聲加入圖12所示的預(yù)期k聚體測量中。
[0256] 圖20示出,相比于圖12所示的預(yù)期測量,模擬測量(測量系列12),其表明可以看 到的添加的噪聲是嚴(yán)重的。
[0257] 應(yīng)用模型13,其中借助于過渡權(quán)重的適當(dāng)?shù)能S遷矩陣,例如圖16所示的躍遷矩 陣,以及用于發(fā)射權(quán)重15的適當(dāng)?shù)姆植?,在這種情況下為高斯分布。前向-后向算法用作分 析技術(shù)來估計在測量系列中的每個點(diǎn)處的最有可能的k聚體。相對于已知的k聚體序列, 比較估計的k聚體調(diào)用,如圖21所示。可以看到,甚至在這種嚴(yán)重的情況下,也正確估計大 多數(shù)狀態(tài)。
[0258] 現(xiàn)說明,相對于與在序列中的k聚體相關(guān)的失去測量的穩(wěn)健性。在這種情況下,模 擬測量的系列12,其中,除將噪聲加入預(yù)期k聚體測量之外(在此實(shí)例中,我們使用較不嚴(yán) 重的具有IpA標(biāo)準(zhǔn)偏差的噪聲的情況),還從數(shù)據(jù)隨機(jī)刪除k聚體測量,在這種情況下,具有 〇. 1的刪除概率。圖22示出相比于圖12所示的預(yù)期測量的模擬測量(測量系列12)。在 圖22中,可以看到失去的k聚體狀態(tài)(帶圓圈)。
[0259] 再一次,應(yīng)用預(yù)期k聚體測量的模型13,借助于過渡權(quán)重的適當(dāng)?shù)能S遷矩陣,在這 種情況下,借助于圖15和16所示的躍遷矩陣,以及發(fā)射權(quán)重15的適當(dāng)?shù)姆植迹谶@種情況 下為高斯分布。前向-后向算法用作分析技術(shù)來估計在測量系列12中的每個點(diǎn)處的最有 可能的k聚體。
[0260] 相對于已知的k聚體序列,比較估計的k聚體調(diào)用,如圖23和24分別針對圖15和 16的躍遷矩陣所示。在這里,當(dāng)相比于圖23時,在圖24中可以看到,正確稱為k聚體的數(shù) 目的改善,其中通過允許在模型過渡中的跳過。在存在由高置信度估計包圍的失去的k聚 體測量的情況下,失去的k聚體可以由周圍的k聚體估計。相比之下,對于不允許跳過的情 況,通過發(fā)射權(quán)重15來適應(yīng)失去數(shù)據(jù),上述發(fā)射權(quán)重具有并不達(dá)到零的分布,以便分析找 到通過k聚體的系列的路徑。在下一部分中進(jìn)一步討論在發(fā)射分布中的非零背景。
[0261] 現(xiàn)說明,相對于與在序列中的給定k聚體相關(guān)的離群測量的穩(wěn)健性。在關(guān)于失去 測量的先前說明中,其中過渡權(quán)重14并不允許跳過的狀態(tài)(S卩,具有圖15的躍遷矩陣),需 要使用具有并不達(dá)到零的分布的發(fā)射權(quán)重15,以便使分析能夠找到通過k聚體的序列的路 徑(雖然非常不可能的路徑)。在正方發(fā)射分布的簡單情況下,說明了對于所有測量具有非 零值的發(fā)射權(quán)重15的優(yōu)點(diǎn)。此實(shí)例使用圖20所示的模擬測量系列12,其中添加標(biāo)準(zhǔn)偏差 為5pA的噪聲。
[0262] 再一次,在這種情況下應(yīng)用預(yù)期k聚體測量的模型13,并借助于過渡權(quán)重14的躍 遷矩陣,其中不允許非優(yōu)選過渡,如圖15所示,以及借助于用于發(fā)射權(quán)重15的兩種不同的 分布。前向-后向算法用作分析技術(shù)來估計在測量系列12中的每個點(diǎn)處的最有可能的k 聚體。
[0263] 在第一種情況下,發(fā)射權(quán)重15具有正方分布,其具有小的非零背景(在這種情況 下1χ1(Γ 1(ι),如圖25所示,對于其,相對于在圖26中的已知的k聚體序列,比較估計的k聚 體調(diào)用。
[0264] 在第二種情況下,發(fā)射權(quán)重15具有正方分布,其具有如圖27所示的零背景,對于 其,相對于在圖28中的已知的k聚體序列,比較估計的k聚體調(diào)用。
[0265] 在發(fā)射權(quán)重15的分布中具有零背景的第二種情況下,借助于其中那些分布的 寬度太窄的發(fā)射分布,不存在通過k聚體序列的路徑。對于此實(shí)例,我們已使用寬度為 +/_14pA的發(fā)射分布,以致分析可以發(fā)現(xiàn)通過測量的路徑,如圖27所示。在這種情況下,不 是存在較少數(shù)目的路徑,各自具有高數(shù)目的正確狀態(tài),而是存在大量的路徑,其包含許多不 正確稱為的狀態(tài)。用于此實(shí)例的一組k聚體調(diào)用示于圖28中。
[0266] 在第一種情況下,其中允許在背景中小的非零發(fā)射,如圖25所示,可以容忍更窄 的分布,從而使得能夠正確估計更高數(shù)目的k聚體狀態(tài),如圖27所示,其提供比圖28更好 的結(jié)果。
[0267] 另外,此實(shí)例說明了概率方法的優(yōu)點(diǎn),其中通過比較正方分布情況與用于圖20和 21所示的實(shí)例的高斯發(fā)射,其提供比使用如圖27和28所示的正方分布更好的結(jié)果。
[0268] 現(xiàn)將討論模型13的訓(xùn)練,其是對于給定測量系統(tǒng)的發(fā)射權(quán)重15的求導(dǎo)。
[0269] 相比于上述模擬,在真實(shí)的測量系統(tǒng)中,來自每個k聚體的單個測量是預(yù)先未知 的但可來自訓(xùn)練集。一般說來,這涉及采取來自已知的聚合物的測量并利用訓(xùn)練技術(shù),其本 身常規(guī)用于HMM。
[0270] 在這些訓(xùn)練方法中,可以開發(fā)特定類型的序列,其是deBruijn序列,該序列是對 于給定k包含所有k聚體的最小長度序列。deBruijn序列的使用是用來最小化所需要的實(shí) 驗數(shù)目的有效方式。
[0271] 對于用來測量多核苷酸的包括納米孔的測量系統(tǒng),描述了兩種訓(xùn)練方法。第一種 方法使用來自"靜態(tài)"DNA鏈的測量,通過生物素/鏈霉親和素系統(tǒng),上述鏈被保持在納米孔 內(nèi)的特定位置。第二種方法使用來自移位通過納米孔的DNA鏈的測量并估計或"訓(xùn)練"系 數(shù),其中通過利用類似于針對k聚體估計所描述的概率框架。
[0272] 如下進(jìn)行第一靜態(tài)訓(xùn)練方法。
[0273] 這些實(shí)驗涉及利用生物素分子并以與由Stoddart D et al.,Proc Natl Acad Sci,12 ; 106 (19) : 7702-7描述的那些方式類似的方式,將DNA鏈連接于鏈霉親和素"錨狀 物"。在此系統(tǒng)中,k值是3。利用在400mMKCl中的MS-(B2)8,DNA鏈表示k = 3deBruijn 序列(SeqID:3)。在施加電位下在納米孔中捕捉上述鏈并記錄電流??梢杂靡幌盗蠨NA鏈 來重復(fù)實(shí)驗,其中序列被一個核苷酸提前,如列于以下表中。以這種方式,獲得在特定施加 電位如180mV下的電流水平的測量,其對應(yīng)于那些由移動鏈預(yù)期的結(jié)果,如列于以下表中。
[0274] Seq ID3 (k3De Bruijn):
[0275] ATAAGAACATTATGATCAGTAGGAGCACTACGACCTTTGTTCTGGTGCTCGTCCGGGCGCCCAAAT
[0276] 表 1 :
[0277]
【權(quán)利要求】
1. 一種由涉及聚合物的至少一個測量的系列來估計所述聚合物中的聚合物單元的序 列的方法,其中,每個測量的值取決于k聚體,所述k聚體是k個聚合物單元的組,其中k是 正整數(shù),所述方法包括: 提供模型,對于一組可能的k聚體,所述模型包括: 過渡權(quán)重,所述過渡權(quán)重表示從起源k聚體到目標(biāo)k聚體的過渡的機(jī)會,和 關(guān)于每個k聚體的發(fā)射權(quán)重,所述發(fā)射權(quán)重表示觀測該k聚體的測量的給定值的機(jī)會; 以及 利用參考所述模型的分析技術(shù)來分析所述測量的系列并且基于通過由聚合物單元的 序列產(chǎn)生的所述測量的系列的模型所預(yù)測的似然來估計所述聚合物中的聚合物單元的至 少一種估計的序列。
2. 根據(jù)權(quán)利要求1所述的方法,其中,所述過渡權(quán)重和所述發(fā)射權(quán)重中的至少一種包 含非二進(jìn)制變量的值。
3. 根據(jù)權(quán)利要求2所述的方法,其中,所述過渡權(quán)重和所述發(fā)射權(quán)重中的兩者包含非 二進(jìn)制變量的值。
4. 根據(jù)權(quán)利要求1至3中任一項所述的方法,其中,所述發(fā)射權(quán)重表示觀測所有可能的 測量的非零機(jī)會。
5. 根據(jù)權(quán)利要求1至4中任一項所述的方法,其中,關(guān)于每個k聚體的所述發(fā)射權(quán)重相 對于測量的值具有單峰或多峰分布。
6. 根據(jù)權(quán)利要求5所述的方法,其中,關(guān)于每個k聚體的所述發(fā)射權(quán)重相對于測量的值 具有高斯、拉普拉斯、正方或三角分布。
7. 根據(jù)權(quán)利要求1至6中任一項所述的方法,其中,k是復(fù)整數(shù)。
8. 根據(jù)權(quán)利要求7所述的方法,其中,所述過渡權(quán)重表示優(yōu)選過渡的非零機(jī)會,所述優(yōu) 選過渡是從起源k聚體到具有其中第一(k-Ι)聚合物單元是所述起源k聚體的最后(k-1) 聚合物單元的序列的目標(biāo)k聚體的過渡,并且表示非優(yōu)選過渡的較低機(jī)會,所述非優(yōu)選過 渡是從起源k聚體到具有不同于所述起源k聚體并且其中所述第一(k-Ι)聚合物單元不是 所述起源k聚體的最后(k-Ι)聚合物單元的序列的目標(biāo)k聚體的過渡。
9. 根據(jù)權(quán)利要求8所述的方法,其中,所述過渡權(quán)重表示至少一些所述非優(yōu)選過渡的 非零機(jī)會。
10. 根據(jù)權(quán)利要求9所述的方法,其中,所述過渡權(quán)重表示從起源k聚體到具有其中第 一(k-2)聚合物單元是所述起源k聚體的最后(k-2)聚合物單元的序列的目標(biāo)k聚體的非 優(yōu)選過渡的非零機(jī)會。
11. 根據(jù)權(quán)利要求1至10中任一項所述的方法,其中,所述分析技術(shù)是概率技術(shù)。
12. 根據(jù)權(quán)利要求1至11中任一項所述的方法,其中,所述過渡權(quán)重是概率,和/或所 述發(fā)射權(quán)重是概率。
13. 根據(jù)權(quán)利要求1至12中任一項所述的方法,其中,所述模型是隱馬爾可夫模型。
14. 根據(jù)權(quán)利要求1至13中任一項所述的方法,其中,所述分析步驟進(jìn)一步包括導(dǎo)出關(guān) 于所述估計序列或每個估計序列的質(zhì)量得分,所述質(zhì)量得分表示通過由聚合物單元的估計 序列產(chǎn)生的測量的系列的模型預(yù)測的似然。
15. 根據(jù)權(quán)利要求1至14中任一項所述的方法,其中,所述分析步驟進(jìn)一步包括導(dǎo)出關(guān) 于對應(yīng)于聚合物單元的估計序列的單獨(dú)k聚體的質(zhì)量得分,所述質(zhì)量得分表示通過由包括 所述單獨(dú)k聚體的序列產(chǎn)生的測量的系列的模型所預(yù)測的似然。
16. 根據(jù)權(quán)利要求1至15中任一項所述的方法,其中,所述分析步驟進(jìn)一步包括導(dǎo)出 關(guān)于對應(yīng)于聚合物單元的估計序列的k聚體的序列的質(zhì)量得分,所述質(zhì)量得分表示通過由 k聚體的給定序列產(chǎn)生的測量的系列的模型所預(yù)測的似然。
17. 根據(jù)權(quán)利要求1至16中任一項所述的方法,其中,所述分析步驟導(dǎo)出在所述聚合物 中的聚合物單元的多個估計序列。
18. 根據(jù)權(quán)利要求1至17中任一項所述的方法,其中,估計所述聚合物中的聚合物單元 的至少一種估計序列的步驟包括: 基于通過由單獨(dú)k聚體產(chǎn)生的測量的系列的模型所預(yù)測的似然來估計k聚體的序列; 以及 由k聚體的估計序列來估計聚合物單元的序列。
19. 根據(jù)權(quán)利要求1至18中任一項所述的方法,其中,估計所述聚合物中的聚合物單元 的至少一種估計序列的步驟包括: 基于通過由k聚體的整個序列產(chǎn)生的測量的系列的模型所預(yù)測的似然來估計k聚體的 至少一種序列;以及 由k聚體的估計序列來估計聚合物單元的序列。
20. 根據(jù)權(quán)利要求1至19中任一項所述的方法,其中,在所述至少一個測量的系列中, 測量的預(yù)定數(shù)目取決于每個k聚體,所述預(yù)定數(shù)目是一個或多個。
21. 根據(jù)權(quán)利要求20所述的方法,其中 所述方法包括接收至少一種輸入信號,所述輸入信號包含測量的輸入系列,其中,多個 測量的組取決于相同的k聚體,而沒有在所述組中測量的數(shù)目的先驗知識,以及 在所述分析步驟以前,處理所述至少一種輸入信號以確定測量的連續(xù)組以及導(dǎo)出關(guān)于 每個確定組的測量的所述預(yù)定數(shù)目,對由此導(dǎo)出的所述測量的系列或每個測量的系列進(jìn)行 所述分析步驟。
22. 根據(jù)權(quán)利要求1至19中任一項所述的方法,其中,在所述至少一個測量的系列中, 多個測量的組取決于相同的k聚體,而沒有在所述組中測量的數(shù)目的先驗知識。
23. 根據(jù)權(quán)利要求1至22中任一項所述的方法,進(jìn)一步包括進(jìn)行聚合物的所述測量。
24. 根據(jù)權(quán)利要求23所述的方法,其中,在所述聚合物移位通過納米孔期間進(jìn)行所述 聚合物的所述測量。
25. 根據(jù)權(quán)利要求24所述的方法,其中,進(jìn)行所述聚合物的移位,使得多個測量的組取 決于相同的k聚體。
26. 根據(jù)權(quán)利要求24或25所述的方法,其中,以棘輪方式進(jìn)行所述聚合物通過所述納 米孔的移位。
27. 根據(jù)權(quán)利要求24至26中任一項所述的方法,其中,所述聚合物是多核苷酸,并且所 述聚合物單元是核苷酸。
28. 根據(jù)權(quán)利要求24至27中任一項所述的方法,其中,所述測量的系列是在所述聚合 物移位通過納米孔期間進(jìn)行的測量。
29. 根據(jù)權(quán)利要求24至28中任一項所述的方法,其中,所述納米孔是生物孔。
30. 根據(jù)權(quán)利要求24至29中任一項所述的方法,其中,所述測量包括電流測量、阻抗測 量、隧道效應(yīng)測量、FET測量和光學(xué)測量中的一種或多種。
31. 根據(jù)權(quán)利要求24至30中任一項所述的方法,其中 對各自涉及所述聚合物的多個測量的系列進(jìn)行所述方法,其中每個測量的值取決于k 聚體, 所述分析技術(shù)處理以多個、各自的維度安排的多個測量的系列。
32. 根據(jù)權(quán)利要求31所述的方法,其中,每個測量的系列是相同聚合物的相同區(qū)的測 量。
33. 根據(jù)權(quán)利要求31所述的方法,其中,所述多個測量的系列包括測量的兩個系列,其 中測量的第一系列是聚合物的第一區(qū)的測量以及測量的第二系列是與所述第一區(qū)相關(guān)的 聚合物的第二區(qū)的測量。
34. 根據(jù)權(quán)利要求33所述的方法,其中,所述第一區(qū)和第二區(qū)是相同聚合物的相關(guān)區(qū)。
35. 根據(jù)權(quán)利要求33或34所述的方法,其中,所述相關(guān)區(qū)是互補(bǔ)的。
36. 根據(jù)權(quán)利要求1至35中任一項所述的方法,其中,所述模型被存儲在存儲器中。
37. 根據(jù)權(quán)利要求1至36中任一項所述的方法,其中,在硬件設(shè)備中或在計算機(jī)設(shè)備中 實(shí)施提供模型和分析測量的步驟。
38. -種被構(gòu)造成進(jìn)行根據(jù)權(quán)利要求1至37中任一項所述的方法的裝置。
39. -種用于由涉及聚合物的至少一個測量的系列來估計所述聚合物中的聚合物單元 的序列的分析裝置,其中每個測量的值取決于k聚體,所述k聚體是k個聚合物單元的組, 其中k是復(fù)整數(shù),所述方法包括: 存儲模型的存儲器,對于一組可能的k聚體,所述模型包括: 過渡權(quán)重,所述過渡權(quán)重表示從起源k聚體到目標(biāo)k聚體的過渡的機(jī)會,和 關(guān)于每個k聚體的發(fā)射權(quán)重,所述發(fā)射權(quán)重表示觀測該k聚體的測量的給定值的機(jī)會; 以及 分析單元,被構(gòu)造成利用參考所述模型的分析技術(shù)來分析所述測量的系列并且基于通 過由聚合物單元的序列產(chǎn)生的測量的系列的模型所預(yù)測的似然來估計所述聚合物中的聚 合物單元的至少一個估計的序列。
40. -種測序設(shè)備,包括: 測量裝置,被構(gòu)造成進(jìn)行聚合物的所述測量;以及 根據(jù)權(quán)利要求38或39所述的分析裝置。
41. 一種分析包含聚合物單元的聚合物的方法,所述方法包括: 在當(dāng)跨越所述納米孔施加電壓時聚合物移位通過納米孔期間,進(jìn)行取決于在所述納米 孔中的k聚體的同一性的測量,k聚體是所述聚合物的k個聚合物單元,其中k是正整數(shù), 其中關(guān)于單獨(dú)k聚體,所述測量包括在跨越所述納米孔施加的不同水平的所述電壓下進(jìn)行 的分開測量;以及 在所述不同水平的所述電壓下分析所述測量以確定至少部分所述聚合物的同一性。
42. 根據(jù)權(quán)利要求41所述的方法,其中,進(jìn)行測量的所述步驟包括: 在不同的移位中在不同的水平下跨越所述納米孔施加電壓時進(jìn)行所述聚合物通過納 米孔的多個移位; 在所述不同移位期間,在跨越所述納米孔的所述不同水平的所述電壓下,進(jìn)行所述k 聚體的測量。
43. 根據(jù)權(quán)利要求42所述的方法,其中,所述多個移位包括在通過所述納米孔的第一 方向上的移位和在通過所述納米孔的與所述第一方向相對的方向上的移位。
44. 根據(jù)權(quán)利要求41所述的方法,其中,進(jìn)行測量的所述步驟包括: 在跨越所述納米孔施加電壓時進(jìn)行所述聚合物通過納米孔的移位; 在所述聚合物通過所述納米孔的所述移位期間,以具有的循環(huán)周期短于其中所述測量 取決于所述單獨(dú)k聚體的狀態(tài)的持續(xù)時間的循環(huán),施加所述不同水平的所述電壓,并且以 所述循環(huán)在所述不同水平的所述電壓下,進(jìn)行關(guān)于所述單獨(dú)k聚體的所述分開測量。
45. -種對包含聚合物單元的聚合物進(jìn)行測量的方法,所述方法包括: 在跨越所述納米孔施加電壓時進(jìn)行所述聚合物通過納米孔的移位; 在所述聚合物通過所述納米孔的所述移位期間,以一定循環(huán)施加不同水平的所述電 壓,以及 進(jìn)行取決于所述納米孔中k聚體的同一性的測量,k聚體是所述聚合物的k個聚合物 單元,其中k是正整數(shù),所述測量包括以所述循環(huán)在所述不同水平的所述電壓下關(guān)于單獨(dú)k 聚體的分開測量,所述循環(huán)具有的循環(huán)周期短于其中所述測量取決于所述單獨(dú)的k聚體的 狀態(tài)。
46. 根據(jù)權(quán)利要求44或45所述的方法,其中,所述循環(huán)周期是至多3秒。
47. 根據(jù)權(quán)利要求44至46中任一項所述的方法,其中,所述循環(huán)周期是至少0. 5毫秒。
48. 根據(jù)權(quán)利要求44至47中任一項所述的方法,其中,各自連續(xù)地施加不同水平的所 述電壓持續(xù)所述循環(huán)的部分周期。
49. 根據(jù)權(quán)利要求48所述的方法,其中,以所述循環(huán)在所述不同水平的所述電壓之間 的過渡被成形為減少在由電壓變化引起的測量中的電容瞬態(tài)。
50. 根據(jù)權(quán)利要求45或權(quán)利要求46至49中任一項所述的方法,當(dāng)從屬于權(quán)利要求5 時,進(jìn)一步包括分析所述測量以確定所述聚合物的同一性。
51. 根據(jù)權(quán)利要求41至44或50中任一項所述的方法,其中,分析所述測量以估計所述 聚合物的同一性的步驟包括分析所述測量以估計在所述聚合物中的聚合物單元的序列。
52. 根據(jù)權(quán)利要求51所述的方法,其中,分析所述測量以估計所述聚合物中的聚合物 單元的序列的步驟包括: 提供模型,對于一組可能的k聚體,所述模型包括: 過渡權(quán)重,所述過渡權(quán)重表示從起源k聚體到目標(biāo)k聚體的過渡的機(jī)會,和 關(guān)于每個k聚體的發(fā)射權(quán)重,所述發(fā)射權(quán)重表示觀測該k聚體的測量的給定值的機(jī)會; 以及 利用參考所述模型并處理在跨越所述納米孔施加不同水平的電壓下進(jìn)行的測量作為 以多個維度的測量的分析技術(shù)來分析所述測量,并且基于通過由聚合物單元的序列產(chǎn)生的 測量的系列的模型所預(yù)測的似然來估計所述聚合物中的聚合物單元的至少一種估計的序 列。
53. 根據(jù)權(quán)利要求41至44、51或52中任一項所述的方法,其中,分析所述測量以確定 所述聚合物的同一性的步驟進(jìn)一步包括將在所述不同電壓水平下進(jìn)行的分開測量進(jìn)行比 較以確定在其中所述測量取決于所述單獨(dú)k聚體的狀態(tài)之間的過渡。
54. 根據(jù)前述權(quán)利要求中任一項所述的方法,其中,在所述不同水平的電壓之間的差異 在10mV至1. 5V的范圍內(nèi)。
55. 根據(jù)前述權(quán)利要求中任一項所述的方法,其中,所述不同水平由兩種不同水平構(gòu) 成。
56. 根據(jù)前述權(quán)利要求中任一項所述的方法,其中,所述不同水平的電壓具有相同的極 性。
57. 根據(jù)前述權(quán)利要求中任一項所述的方法,其中,所述測量是通過所述納米孔的離子 電流的測量。
58. 根據(jù)權(quán)利要求57所述的方法,其中,通過所述納米孔的離子電流的所述測量是通 過所述納米孔的DC離子電流的測量。
59. 根據(jù)前述權(quán)利要求中任一項所述的方法,包括: 在所述不同水平的所述電壓中的每一個下進(jìn)行多個測量的組;以及 由在所述不同水平中的每一個下的多個測量的每個組導(dǎo)出一個或多個匯總測量以構(gòu) 成關(guān)于單獨(dú)k聚體的所述分開測量。
60. 根據(jù)權(quán)利要求59所述的方法,其中,各自連續(xù)地施加不同水平的所述電壓一時間 期間,以及 在每個相應(yīng)時間期間過程中,在相應(yīng)期間過程中施加的所述不同水平的所述電壓之一 下,進(jìn)行多個測量的組之一。
61. 根據(jù)前述權(quán)利要求中任一項所述的方法,其中,所述聚合物是多核苷酸,并且所述 聚合物單元是核苷酸。
62. 根據(jù)前述權(quán)利要求中任一項所述的方法,其中,所述納米孔是生物孔。
63. 根據(jù)前述權(quán)利要求中任一項所述的方法,其中,以其中利用所述納米孔登記連續(xù)的 k聚體的棘輪方式進(jìn)行所述聚合物通過所述納米孔的所述移位。
64. 根據(jù)前述權(quán)利要求中任一項所述的方法,其中,通過分子棘輪來控制所述聚合物的 移位。
65. 根據(jù)權(quán)利要求64所述的方法,其中,所述分子棘輪是酶。
66. -種用于分析包含聚合物單元的聚合物的設(shè)備,所述設(shè)備包括: 納米孔,通過所述納米孔可以移位聚合物; 控制電路,被設(shè)置成在所述聚合物移位通過所述納米孔期間跨越所述納米孔施加電 壓;以及 測量電路,被設(shè)置成進(jìn)行取決于所述納米孔中的k聚體的同一性的測量,k聚體是所述 聚合物的k個聚合物單元,其中k是正整數(shù), 其中所述控制電路被設(shè)置成跨越所述納米孔施加不同水平的電壓,以及所述測量電路 被設(shè)置成在跨越所述納米孔施加的不同水平的所述電壓下進(jìn)行關(guān)于單獨(dú)k聚體的分開測 量;以及 分析單元,被設(shè)置成在所述不同水平的所述電壓下分析所述測量以確定至少部分的所 述聚合物的同一性。
67. 根據(jù)權(quán)利要求66所述的設(shè)備,其中,所述控制電路被設(shè)置成在所述聚合物通過納 米孔的不同移位期間跨越所述納米孔施加不同水平的電壓,以及所述測量電路被設(shè)置成在 不同水平的所述電壓下在所述不同移位期間進(jìn)行關(guān)于單獨(dú)k聚體的分開測量。
68. 根據(jù)權(quán)利要求66所述的設(shè)備,其中,所述控制電路被設(shè)置成在所述聚合物通過所 述納米孔的所述移位期間以具有的循環(huán)周期短于其中所述測量取決于所述單獨(dú)k聚體的 狀態(tài)的持續(xù)時間的循環(huán),施加所述不同水平的所述電壓,并且所述測量電路被設(shè)置成以所 述循環(huán)在所述不同水平的所述電壓下進(jìn)行關(guān)于單獨(dú)k聚體的分開測量。
69. -種用于測量包含聚合物單元的聚合物的設(shè)備,所述設(shè)備包括: 納米孔,通過所述納米孔可以移位聚合物; 控制電路,被設(shè)置成在所述聚合物通過納米孔的移位期間以具有的循環(huán)周期短于其中 所述測量取決于所述單獨(dú)的k聚體的狀態(tài)的持續(xù)時間的循環(huán),施加不同水平的所述電壓; 以及 測量電路,被設(shè)置成在跨越所述納米孔施加的不同水平的所述電壓下進(jìn)行關(guān)于單獨(dú)k 聚體的分開測量。
70. 根據(jù)權(quán)利要求69所述的設(shè)備,進(jìn)一步包括分析單元,所述分析單元被設(shè)置成在所 述不同水平的所述電壓下分析所述測量以確定至少部分所述聚合物的同一性。
【文檔編號】C12Q1/68GK104066850SQ201280057564
【公開日】2014年9月24日 申請日期:2012年9月21日 優(yōu)先權(quán)日:2011年9月23日
【發(fā)明者】斯圖爾特·威廉·里德, 加文·哈珀, 克萊夫·加文·布朗, 詹姆斯·安東尼·克拉克, 安德魯·約翰·赫倫 申請人:牛津楠路珀爾科技有限公司