本發(fā)明涉及處理適體數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。
背景技術(shù):
神經(jīng)網(wǎng)絡(luò)是采用模型的一個(gè)或多個(gè)層來(lái)針對(duì)所接收的輸入,生成輸出(諸如一個(gè)或多個(gè)分類(lèi))的機(jī)器學(xué)習(xí)模型。一些神經(jīng)網(wǎng)絡(luò)除輸出層外,還包括一個(gè)或多個(gè)隱藏層。每個(gè)隱藏層的輸出被用作網(wǎng)絡(luò)中的下一層的輸入,即,網(wǎng)絡(luò)的下一隱藏層或輸出層。網(wǎng)絡(luò)的每個(gè)層根據(jù)相應(yīng)的參數(shù)集的當(dāng)前值,通過(guò)所接收的輸入生成輸出。
技術(shù)實(shí)現(xiàn)要素:
通常,本說(shuō)明書(shū)描述用于處理適體數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。
通常,本說(shuō)明書(shū)中所述的主題的一個(gè)創(chuàng)新方面能體現(xiàn)在方法中,該方法包括動(dòng)作:獲得定義用于適體的序列的數(shù)據(jù),適體包括核堿基串;將定義用于適體的序列的數(shù)據(jù)編碼為神經(jīng)網(wǎng)絡(luò)輸入;以及使用神經(jīng)網(wǎng)絡(luò)來(lái)處理神經(jīng)網(wǎng)絡(luò)輸入以生成表征適體有多強(qiáng)地結(jié)合到特定目標(biāo)分子的輸出,其中所述神經(jīng)網(wǎng)絡(luò)已經(jīng)通過(guò)訓(xùn)練被配置為接收定義序列的數(shù)據(jù)和處理數(shù)據(jù)以生成表征適體有多強(qiáng)地結(jié)合到特定目標(biāo)分子的預(yù)測(cè)輸出。
實(shí)施方式能包括下述特征中的一個(gè)或多個(gè)。表征適體多強(qiáng)結(jié)合的輸出包括多個(gè)selex循環(huán)輸出,每個(gè)selex循環(huán)輸出與迭代selex過(guò)程中相應(yīng)的循環(huán)相對(duì)應(yīng),其中,每個(gè)selex循環(huán)輸出針對(duì)對(duì)應(yīng)的selex循環(huán)表征適體有多強(qiáng)地結(jié)合到特定目標(biāo)分子。與迭代selex過(guò)程中的在前selex循環(huán)相對(duì)應(yīng)的selex循環(huán)輸出是指示適體是否存在于用在后續(xù)selex循環(huán)的池中的二進(jìn)制值。用于ssl過(guò)程中的后一selex循環(huán)的selex循環(huán)輸出包括適體的高通量測(cè)序計(jì)數(shù),高通量測(cè)序計(jì)數(shù)指示適體有多強(qiáng)地結(jié)合到特定目標(biāo)分子。表征適體有多強(qiáng)地結(jié)合的輸出包括熒光水平矢量,其中每個(gè)熒光水平的亮度指示適體有多強(qiáng)地結(jié)合到特定目標(biāo)分子。神經(jīng)網(wǎng)絡(luò)為卷積神經(jīng)網(wǎng)絡(luò)。定義序列的數(shù)據(jù)包括指定適體的二級(jí)結(jié)構(gòu)的數(shù)據(jù)。指定二級(jí)結(jié)構(gòu)的數(shù)據(jù)包括指定適體中的氫鍵的模式的數(shù)據(jù)或適體的能量點(diǎn)陣圖矩陣的數(shù)據(jù)。編碼定義序列的數(shù)據(jù)包括將定義序列的數(shù)據(jù)轉(zhuǎn)換成多個(gè)獨(dú)熱矢量,每個(gè)獨(dú)熱矢量與適體中的相應(yīng)的核堿基相對(duì)應(yīng)。將突變迭代地應(yīng)用于所述序列以生成具有結(jié)合到特定目標(biāo)分子的最大強(qiáng)度的經(jīng)突變的序列,包括針對(duì)多個(gè)迭代中的每個(gè):將突變應(yīng)用于當(dāng)前經(jīng)突變的序列以生成新的經(jīng)突變的序列;使用神經(jīng)網(wǎng)絡(luò),處理新的經(jīng)突變的序列以生成表征新的經(jīng)突變的序列有多強(qiáng)地結(jié)合到特定目標(biāo)分子的輸出;使用神經(jīng)網(wǎng)絡(luò)來(lái)確定輸出是否指示新的經(jīng)突變的序列比當(dāng)前經(jīng)突變的序列更強(qiáng)地結(jié)合;以及基于輸出是否指示新的經(jīng)突變的序列比當(dāng)前經(jīng)突變的序列更強(qiáng)地結(jié)合,選擇將應(yīng)用在下一迭代中的另一突變。
另一創(chuàng)新方面包括獲得定義用于適體的多個(gè)序列的數(shù)據(jù),每個(gè)適體包括核堿基串,每個(gè)序列具有包括相應(yīng)的適體有多強(qiáng)地結(jié)合到特定目標(biāo)分子的特性的相應(yīng)的標(biāo)簽;編碼數(shù)據(jù)以生成用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù);以及用訓(xùn)練數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)被配置為輸出特定輸入序列有多強(qiáng)地結(jié)合到特定目標(biāo)分子的特性。
實(shí)施方式能包括下述特征中的一個(gè)或多個(gè)。神經(jīng)網(wǎng)絡(luò)被配置為輸出多個(gè)selex循環(huán)輸出,每個(gè)selex循環(huán)輸出與迭代selex過(guò)程中相應(yīng)的循環(huán)相對(duì)應(yīng),其中每個(gè)selex循環(huán)輸出針對(duì)對(duì)應(yīng)的selex循環(huán)表征輸入適體有多強(qiáng)地結(jié)合到特定目標(biāo)分子。用于訓(xùn)練數(shù)據(jù)中相應(yīng)的適體的每個(gè)標(biāo)簽進(jìn)一步包括用于相應(yīng)的多個(gè)selex循環(huán)的所述相應(yīng)的適體的多個(gè)二進(jìn)制值,用于所述相應(yīng)的selex循環(huán)的每個(gè)二進(jìn)制值指示適體是否存在于用在后續(xù)selex循環(huán)的池中,以及其中,神經(jīng)網(wǎng)絡(luò)輸出進(jìn)一步包括用于相應(yīng)多個(gè)selex循環(huán)的多個(gè)二進(jìn)制值,用于所述相應(yīng)的selex循環(huán)的每個(gè)二進(jìn)制值指示適體是否存在于用在后續(xù)selex循環(huán)的池中。用于訓(xùn)練數(shù)據(jù)中相應(yīng)的適體的每個(gè)標(biāo)簽進(jìn)一步包括用于相應(yīng)的多個(gè)selex循環(huán)的所述相應(yīng)的適體的多個(gè)高通量測(cè)序計(jì)數(shù),以及其中,神經(jīng)網(wǎng)絡(luò)輸出進(jìn)一步包括適體的多個(gè)高通量測(cè)序計(jì)數(shù),每個(gè)高通量測(cè)序計(jì)數(shù)指示適體有多強(qiáng)地結(jié)合到特定目標(biāo)分子。用于訓(xùn)練數(shù)據(jù)中相應(yīng)的適體的一個(gè)或多個(gè)標(biāo)簽進(jìn)一步包括用于相應(yīng)的適體的熒光水平矢量,以及其中,神經(jīng)網(wǎng)絡(luò)輸出進(jìn)一步包括熒光水平矢量,其中,每個(gè)熒光水平的亮度指示適體有多強(qiáng)地結(jié)合到特定目標(biāo)分子。定義用于適體的多個(gè)序列的數(shù)據(jù)包括針對(duì)每個(gè)適體,指定適體的二級(jí)結(jié)構(gòu)的數(shù)據(jù)。指定二級(jí)結(jié)構(gòu)的數(shù)據(jù)包括指定適體中的氫鍵的模式的數(shù)據(jù)或適體的能量點(diǎn)陣圖矩陣的數(shù)據(jù)。
能實(shí)現(xiàn)本說(shuō)明書(shū)中所述的主題的特定實(shí)施例以便實(shí)現(xiàn)下述優(yōu)點(diǎn)中的一個(gè)或多個(gè)。識(shí)別適體和特定目標(biāo)分子之間的結(jié)合強(qiáng)度的常規(guī)方法包括:將selex過(guò)程應(yīng)用至隨機(jī)選擇的適體,其通常耗力且經(jīng)常不能得出具有強(qiáng)特定結(jié)合的適體。有利地,神經(jīng)網(wǎng)絡(luò)能預(yù)測(cè)用于輸入適體與特定目標(biāo)分子的結(jié)合強(qiáng)度。特別,神經(jīng)網(wǎng)絡(luò)能預(yù)測(cè)用于在初始隨機(jī)池中未找到的新穎序列的selex循環(huán)輸出。因此,代替要求最佳適體出現(xiàn)在初始、相對(duì)小的隨機(jī)池中,科學(xué)家能預(yù)測(cè)所有可能序列的集合中,具有最強(qiáng)特定結(jié)合的適體。由此,神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)具有強(qiáng)特定結(jié)合的適體,而不是執(zhí)行可能會(huì)生成或可能不會(huì)生成具有強(qiáng)特定結(jié)合的多個(gè)selex循環(huán),這降低了成本和測(cè)試時(shí)間。神經(jīng)網(wǎng)絡(luò)還能同時(shí)模擬與多個(gè)目標(biāo)的結(jié)合,并且因此,識(shí)別很可能結(jié)合到目標(biāo)分子且不結(jié)合到已知背景分子的適體。在附圖和下述描述中,闡述本說(shuō)明書(shū)的主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)。通過(guò)說(shuō)明書(shū)、附圖和權(quán)利要求,該主題的其他特征、方面和優(yōu)點(diǎn)將變得顯而易見(jiàn)。
附圖說(shuō)明
圖1圖示了用于處理適體數(shù)據(jù)的示例系統(tǒng)。
圖2是用于在適體數(shù)據(jù)上訓(xùn)練神經(jīng)網(wǎng)絡(luò)的示例方法的流程圖。
圖3是用于使用神經(jīng)網(wǎng)絡(luò)處理適體數(shù)據(jù)的示例方法的流程圖。
圖4是用于使用神經(jīng)網(wǎng)絡(luò)通過(guò)迭代過(guò)程來(lái)識(shí)別適體的新突變的示例過(guò)程的流程圖。
不同圖中相同的參考數(shù)字和名稱(chēng)指示相同的元件。
具體實(shí)施方式
圖1圖示出示例適體處理系統(tǒng)100。系統(tǒng)100是被實(shí)現(xiàn)為一個(gè)或多個(gè)位置中的一個(gè)或多個(gè)計(jì)算機(jī)上的計(jì)算機(jī)程序的系統(tǒng)的示例,其中,能實(shí)現(xiàn)下述系統(tǒng)、組件和技術(shù)。
系統(tǒng)100包括神經(jīng)網(wǎng)絡(luò)104。在一些實(shí)施方式中,神經(jīng)網(wǎng)絡(luò)104是卷積神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)104接收適體數(shù)據(jù)102。適體數(shù)據(jù)102能是定義適體的序列的數(shù)據(jù)。適體是能利用親和度程度(即,強(qiáng)度)結(jié)合到(bindto)包括蛋白質(zhì)和肽的特定目標(biāo)分子的單鏈分子。
適體數(shù)據(jù)能包括用于適體的核苷酸堿基序列。在一些實(shí)施方式中,核苷酸堿基序列被編碼為獨(dú)熱(one-hot)矢量序列。例如,由矢量[1000]表示序列中的胞嘧啶分子,而由矢量[0100]表示胸腺嘧啶分子。
矢量能相互添加以形成值的矩陣,例如表示為圖像,其能被提供為神經(jīng)網(wǎng)絡(luò)104的張量輸入。例如,如果核苷酸堿基的序列為ctct,值的矩陣能是被添加到一起以形成該矩陣[1010010100000000]的相應(yīng)的核苷酸堿基的獨(dú)熱矢量。
通過(guò)圖示的方式,在該示例中,矩陣能表示4x4圖像,其中,將矩陣中的1表示為黑色像素,而將矩陣中的0表示為白色像素。表示該矩陣的圖像能被提供為神經(jīng)網(wǎng)絡(luò)104的輸入。在一些實(shí)施方式中,神經(jīng)網(wǎng)絡(luò)104在水平方向而不是垂直方向,在4x4圖像矩陣上執(zhí)行卷積。這使得預(yù)測(cè)能夠基于哪些核苷酸堿基彼此順序相鄰,而不是基于如何實(shí)現(xiàn)核苷酸的獨(dú)熱編碼。在一些其他實(shí)施方式中,矩陣能被提供為神經(jīng)網(wǎng)絡(luò)的位序列。
適體數(shù)據(jù)還能包括表征適體的二級(jí)結(jié)構(gòu)的數(shù)據(jù)。例如,該數(shù)據(jù)能指定適體中的氫鍵的模式或適體的能量點(diǎn)陣圖矩陣。二級(jí)結(jié)構(gòu)的特性能被表示為字節(jié)序列,例如,表示為值的獨(dú)熱矢量或矩陣,并且提供給神經(jīng)網(wǎng)絡(luò)104。在一些實(shí)施方式中,能將二級(jí)結(jié)構(gòu)的字節(jié)序列添加到通過(guò)核苷酸堿基序列所形成的值的矩陣以生成被提供為神經(jīng)網(wǎng)絡(luò)104的輸入的適體數(shù)據(jù)。
神經(jīng)網(wǎng)絡(luò)104能處理適體數(shù)據(jù)102以生成輸出106。輸出106表征適體有多強(qiáng)地結(jié)合到特定目標(biāo)分子。特別地,輸出106能與通過(guò)針對(duì)適體數(shù)據(jù)102的selex過(guò)程所生成的輸出相對(duì)應(yīng)。
selex過(guò)程(即,指數(shù)富集配體系統(tǒng)進(jìn)化(selex))通過(guò)適體池識(shí)別對(duì)特定目標(biāo)分子的結(jié)合強(qiáng)度。特別地,selex過(guò)程從初始適體池開(kāi)始并且通過(guò)多個(gè)selex循環(huán)來(lái)處理適體池。每個(gè)selex循環(huán)選擇結(jié)合目標(biāo)分子的適體池并且丟棄不結(jié)合到目標(biāo)分子的適體。在每個(gè)selex循環(huán)后,使用聚合酶鏈反應(yīng)(pcr),放大結(jié)果池。在pcr期間,與具有較弱結(jié)合強(qiáng)度的適體相比,易于更頻繁地復(fù)制具有較強(qiáng)結(jié)合強(qiáng)度的適體。
在多個(gè)selex循環(huán)后,適體池的成分指示會(huì)聚到潛在地指示與目標(biāo)分子的強(qiáng)結(jié)合強(qiáng)度的小數(shù)目的具有高計(jì)數(shù)(highcount)的適體,例如約上千。
通過(guò)圖示的方式,對(duì)selex過(guò)程,初始池能具有約1013個(gè)適體的大小。初始池能稱(chēng)為適體庫(kù)。該池由幾乎完全獨(dú)特的適體組成。在第一selex循環(huán)后(即,在丟棄未結(jié)合到目標(biāo)分子的適體并且富集結(jié)合的適體后),該池能99.3%是獨(dú)特的。在第二selex循環(huán)后,該池能為90%是獨(dú)特的并且具有約108適體的大小。在另一selex循環(huán)后,該池能小于10%是獨(dú)特的并且具有約106適體的大小。在又一selex循環(huán)后,池能小于5%是獨(dú)特的,并且具有約105適體的大小。在每個(gè)selex循環(huán)后,池會(huì)經(jīng)過(guò)高通量測(cè)序來(lái)識(shí)別該selex循環(huán)中,具有高計(jì)數(shù)的適體。
如上所述,輸出106與來(lái)自針對(duì)適體數(shù)據(jù)102的selex過(guò)程的輸出相對(duì)應(yīng)。換句話說(shuō),神經(jīng)網(wǎng)絡(luò)104在每個(gè)selex循環(huán)后,預(yù)測(cè)適體數(shù)據(jù)102中的輸入適體有多強(qiáng)地結(jié)合到目標(biāo)分子。
由此,輸出106能包括庫(kù)輸出108。在一些實(shí)施方式中,庫(kù)輸出108是輸入適體是否存在于初始適體池中的二進(jìn)制值,例如真或假。在一些其他實(shí)施方式中,庫(kù)輸出108是表示輸入適體存在于初始適體池中的似然率的0和1之間的置信度值。
輸出106能包括selex1輸出110。selex1輸出110是在執(zhí)行selex過(guò)程中的第一selex循環(huán)后的輸出。selex1輸出110還能是第一循環(huán)后,輸入適體是否存在于適體池中的置信度值或二進(jìn)制值。在一些實(shí)施方式中,神經(jīng)網(wǎng)絡(luò)104針對(duì)處于具有超出特定閾值的獨(dú)特適體的百分比的池中的selex輸出,生成二進(jìn)制或置信度值。這是因?yàn)榫哂懈擢?dú)特適體百分比的適體池通常對(duì)一個(gè)特定適體,不具有高適體數(shù),并且因此不指示具有對(duì)目標(biāo)分子的高結(jié)合強(qiáng)度的任何特定適體。
輸出106能包括selex2輸出和selex3輸出112,114。selex2和3輸出112,114分別是在執(zhí)行第二和第三selex循環(huán)后的輸出。用于這些selex循環(huán)中的每個(gè)的輸出能是相應(yīng)的selex循環(huán)中的多個(gè)輸入適體的預(yù)測(cè)計(jì)數(shù)。
在一些實(shí)施方式中,神經(jīng)網(wǎng)絡(luò)104在輸出106中,生成熒光值116的陣列或矢量。熒光值表示高亮,其指示輸入適體有多強(qiáng)地結(jié)合到在結(jié)合陣列中測(cè)量的目標(biāo)分子。
為生成輸出106,系統(tǒng)100能使用將在下文結(jié)合圖2描述的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練技術(shù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)101。
圖2是用于在適體數(shù)據(jù)上訓(xùn)練神經(jīng)網(wǎng)絡(luò)的示例過(guò)程200的流程圖。為了方便,將參考具有執(zhí)行軟件以實(shí)現(xiàn)過(guò)程200的一個(gè)或多個(gè)計(jì)算設(shè)備的系統(tǒng)(例如圖1的系統(tǒng)100),來(lái)描述過(guò)程200。
系統(tǒng)獲得定義用于適體的多個(gè)序列的數(shù)據(jù)(步驟202)。每個(gè)序列能被表示為多個(gè)獨(dú)熱矢量,如上參考圖1所述。
每個(gè)序列還能具有包括相應(yīng)的適體有多強(qiáng)結(jié)合到特定目標(biāo)分子的特性的相應(yīng)的標(biāo)簽。標(biāo)簽?zāi)芫哂杏蓤D1的輸出106所指定的數(shù)據(jù)。
特別地,標(biāo)簽?zāi)馨ㄓ糜谠谳^早的selex循環(huán)的相應(yīng)的適體的二進(jìn)制值。二進(jìn)制值能指示適體是否存在于用于該循環(huán)的適體池中,并且因此,適體是否存在于用在后續(xù)selex循環(huán)中的池中。標(biāo)簽還能包括用于后續(xù)selex循環(huán)的相應(yīng)的適體的高通量測(cè)序計(jì)數(shù)。在一些實(shí)施方式中,標(biāo)簽還能包括用于適體的熒光水平的矢量的數(shù)據(jù)。能通過(guò)結(jié)合陣列測(cè)量,獲得這些熒光水平的矢量。在一些其他實(shí)施方式中,標(biāo)簽?zāi)馨ńY(jié)合親和度值的矢量,其中,每個(gè)結(jié)合親和度值與結(jié)合到相應(yīng)的目標(biāo)分子的似然率相對(duì)應(yīng)。
系統(tǒng)編碼該數(shù)據(jù)以生成用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)(步驟s204)。系統(tǒng)能通過(guò)將該數(shù)據(jù)轉(zhuǎn)換成多個(gè)獨(dú)熱矢量,來(lái)編碼定義該序列的數(shù)據(jù),如上參考圖1所述。
該系統(tǒng)用訓(xùn)練數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)(步驟206)。即,該系統(tǒng)處理訓(xùn)練數(shù)據(jù)(即經(jīng)編碼的序列數(shù)據(jù))以生成預(yù)測(cè)輸出。系統(tǒng)確定每個(gè)預(yù)測(cè)輸出與標(biāo)簽的對(duì)應(yīng)部分之間的誤差。使用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練技術(shù)(例如,隨機(jī)梯度下降和反向傳播),系統(tǒng)使用該誤差來(lái)更新用在神經(jīng)網(wǎng)絡(luò)的每個(gè)層中的參數(shù)的值。在訓(xùn)練后,神經(jīng)網(wǎng)絡(luò)能通過(guò)輸入適體數(shù)據(jù)生成輸出,例如圖1的輸出106。
圖3是用于使用神經(jīng)網(wǎng)絡(luò)處理適體數(shù)據(jù)的示例過(guò)程300的流程圖。為了方便,將參考具有執(zhí)行軟件以實(shí)現(xiàn)過(guò)程300的一個(gè)或多個(gè)計(jì)算設(shè)備的系統(tǒng)(例如圖1的系統(tǒng)100),來(lái)描述過(guò)程300。
系統(tǒng)獲得定義用于適體的序列的數(shù)據(jù)(步驟302)。每個(gè)序列能被表示為多個(gè)獨(dú)熱矢量,如上參考圖1所述。在一些實(shí)施方式中,數(shù)據(jù)是表示序列的圖像。圖像能具有黑白像素,如上參考圖1所述。此外,在一些實(shí)施方式中,數(shù)據(jù)還能包括編碼適體的二級(jí)結(jié)構(gòu)的數(shù)據(jù)。
系統(tǒng)將定義序列的數(shù)據(jù)編碼為神經(jīng)網(wǎng)絡(luò)輸入(步驟304)。系統(tǒng)能通過(guò)將數(shù)據(jù)轉(zhuǎn)換成多個(gè)獨(dú)熱矢量,來(lái)編碼定義該序列的數(shù)據(jù),如上參考圖1所述。
系統(tǒng)使用神經(jīng)網(wǎng)絡(luò)處理神經(jīng)網(wǎng)絡(luò)輸入以生成表征適體有多強(qiáng)結(jié)合到特定目標(biāo)分子的輸出(步驟306)。如上參考圖2所述,訓(xùn)練神經(jīng)網(wǎng)絡(luò)。表征適體有多強(qiáng)結(jié)合到特定目標(biāo)分子的輸出能與selex循環(huán)輸出相對(duì)應(yīng)。
每個(gè)selex循環(huán)輸出能與在迭代selex過(guò)程中相應(yīng)的循環(huán)相對(duì)應(yīng),如上參考圖1所述。即,該系統(tǒng)能生成包括用于前幾個(gè)selex循環(huán)輸出的二進(jìn)制值和用于后續(xù)selex循環(huán)輸出的數(shù)值的輸出。二進(jìn)制值能指示適體是否存在于用在后續(xù)selex循環(huán)中的池中。用于后續(xù)selex循環(huán)輸出的數(shù)值能是所預(yù)測(cè)的計(jì)數(shù),例如,通過(guò)相應(yīng)的selex循環(huán)中,在相應(yīng)的池內(nèi)的適體的高通量測(cè)序所獲得。
在一些實(shí)施方式中,輸出還包括熒光值的矢量的陣列輸出。
盡管輸出(例如圖1的輸出106)指示輸入適體有多強(qiáng)地結(jié)合到特定目標(biāo)分子,可能存在與該輸入適體類(lèi)似的、更強(qiáng)地結(jié)合到特定目標(biāo)分子的適體。為識(shí)別這些更強(qiáng)適體,在生成輸出后,系統(tǒng)能將突變迭代地應(yīng)用于輸入適體的序列以識(shí)別具有到特定目標(biāo)分子最大結(jié)合強(qiáng)度的經(jīng)突變的序列。該迭代過(guò)程能識(shí)別具有高結(jié)合強(qiáng)度的適體,即使在selex過(guò)程期間,適體不在初始池中。
圖4是用于使用神經(jīng)網(wǎng)絡(luò)通過(guò)迭代過(guò)程,識(shí)別適體的新突變的示例過(guò)程400的流程圖。為了方便,將參考具有執(zhí)行軟件以實(shí)現(xiàn)過(guò)程400的一個(gè)或多個(gè)計(jì)算設(shè)備的系統(tǒng)(例如圖1的系統(tǒng)100)來(lái)描述過(guò)程400。
針對(duì)每個(gè)迭代,該系統(tǒng)將突變應(yīng)用于當(dāng)前經(jīng)突變的序列(即,第一迭代中的輸入適體的序列)以生成新的經(jīng)突變的序列(步驟402)。突變能隨機(jī)地改變序列中的多個(gè)核苷酸堿基。例如,突變能隨機(jī)地選擇兩個(gè)核苷酸堿基并且將它們改變成兩個(gè)其他核苷酸堿基。
系統(tǒng)能使用神經(jīng)網(wǎng)絡(luò)處理新的經(jīng)突變的序列以生成表征新的經(jīng)突變的序列有多強(qiáng)地結(jié)合到特定目標(biāo)分子的另一輸出(步驟404),例如,如上參考圖3所述。
系統(tǒng)使用神經(jīng)網(wǎng)絡(luò)來(lái)確定輸出是否指示新的經(jīng)突變的序列比當(dāng)前經(jīng)突變的序列更強(qiáng)地結(jié)合(步驟406)。即,該系統(tǒng)能將當(dāng)前經(jīng)突變的序列的特定selex循環(huán)的高通量測(cè)序計(jì)數(shù)與新的經(jīng)突變的序列的高通量測(cè)序計(jì)數(shù)進(jìn)行比較。如果用于新的經(jīng)突變的序列的高通量測(cè)序計(jì)數(shù)高于當(dāng)前經(jīng)突變的序列的高通量測(cè)序計(jì)數(shù),那么該系統(tǒng)確定新的經(jīng)突變的序列比當(dāng)前經(jīng)突變的序列更強(qiáng)地結(jié)合到目標(biāo)分子。否則,系統(tǒng)確定當(dāng)前經(jīng)突變的序列比新經(jīng)突變的序列更強(qiáng)地結(jié)合目標(biāo)分子。在一些實(shí)施方式中,系統(tǒng)考慮到跨多個(gè)selex循環(huán)當(dāng)前經(jīng)突變的序列和新的經(jīng)突變的序列之間的高通量測(cè)序計(jì)數(shù)的因素。通過(guò)示例的方式,該系統(tǒng)能跨用于每個(gè)序列的多個(gè)selex循環(huán),計(jì)算高通量測(cè)序計(jì)數(shù)的加權(quán)和以確定哪一序列更強(qiáng)地結(jié)合到目標(biāo)分子。
該系統(tǒng)基于輸出是否指示新的經(jīng)突變的序列比當(dāng)前經(jīng)突變的序列更強(qiáng)地結(jié)合,來(lái)選擇將應(yīng)用在下一迭代中的另一突變(步驟408)。即,如果新的經(jīng)突變的序列比當(dāng)前經(jīng)突變的序列更強(qiáng)地結(jié)合,該系統(tǒng)隨機(jī)地突變新的經(jīng)突變的序列并且重復(fù)上述過(guò)程。否則,系統(tǒng)隨機(jī)地突變當(dāng)前突變的序列并且重復(fù)上述過(guò)程。在一些實(shí)施方式中,系統(tǒng)將當(dāng)前經(jīng)突變的序列突變?yōu)橄惹拔刺幚磉^(guò)的序列。該系統(tǒng)能繼續(xù)對(duì)序列進(jìn)行突變,直到系統(tǒng)生成閾值數(shù)目的新的經(jīng)突變的序列為止,或如果經(jīng)過(guò)閾值數(shù)目的迭代,未找到更高結(jié)合強(qiáng)度。
該系統(tǒng)能將該過(guò)程重復(fù)預(yù)定多次。替選地,該系統(tǒng)能重復(fù)該過(guò)程,直到該系統(tǒng)在當(dāng)前經(jīng)突變的序列上迭代閾值多次為止。換句話說(shuō),當(dāng)系統(tǒng)不能在閾值多次內(nèi)生成比當(dāng)前經(jīng)突變的序列更強(qiáng)地結(jié)合的新的經(jīng)突變的序列時(shí),系統(tǒng)停止重復(fù)該過(guò)程。
能在包括在本說(shuō)明書(shū)中所公開(kāi)的結(jié)構(gòu)及其結(jié)構(gòu)等效物中或者在它們中的一項(xiàng)或者多項(xiàng)的組合中的數(shù)字電子電路中或者在有形地體現(xiàn)的計(jì)算機(jī)軟件或固件或者在計(jì)算機(jī)硬件中實(shí)現(xiàn)在本說(shuō)明書(shū)中描述的主題和功能操作的實(shí)施例。能將在本說(shuō)明書(shū)中描述的主題的實(shí)施例實(shí)現(xiàn)為一個(gè)或者多個(gè)計(jì)算機(jī)程序,即,編碼在有形非易失程序載體上的用于由數(shù)據(jù)處理裝置執(zhí)行或者控制數(shù)據(jù)處理裝置的操作的計(jì)算機(jī)程序指令的一個(gè)或者多個(gè)模塊。替選地或者另外地,能在人為生成的傳播的信號(hào)(例如,機(jī)器生成的電、光或者電磁信號(hào))上對(duì)程序指令編碼,該信號(hào)被生成用于對(duì)信息編碼以用于向適當(dāng)接收器裝置傳輸以供由數(shù)據(jù)處理裝置執(zhí)行。計(jì)算機(jī)存儲(chǔ)介質(zhì)能是機(jī)器可讀存儲(chǔ)設(shè)備、機(jī)器可讀存儲(chǔ)基底、隨機(jī)或者串行存取存儲(chǔ)器設(shè)備或者它們中的一項(xiàng)或者多項(xiàng)的組合。
術(shù)語(yǔ)“數(shù)據(jù)處理裝置”涵蓋用于處理數(shù)據(jù)的各種類(lèi)型的裝置、設(shè)備和機(jī)器,舉例而言包括可編程處理器、計(jì)算機(jī)、多個(gè)處理器或計(jì)算機(jī)。該裝置能包括專(zhuān)用邏輯電路,例如,fpga(現(xiàn)場(chǎng)可編程門(mén)陣列)或者asic(專(zhuān)用集成電路)。該裝置除了硬件之外,還能包括為所述計(jì)算機(jī)程序創(chuàng)建執(zhí)行環(huán)境的代碼,例如,構(gòu)成處理器固件、協(xié)議棧、數(shù)據(jù)庫(kù)管理系統(tǒng)、操作系統(tǒng)的代碼或者它們中的一項(xiàng)或者多項(xiàng)的組合的代碼。
計(jì)算機(jī)程序(也可以被稱(chēng)為或描述為程序、軟件、軟件應(yīng)用、應(yīng)用、模塊、軟件模塊、腳本或者代碼)能用任何形式的編程語(yǔ)言編寫(xiě),包括編譯或者解釋型語(yǔ)言、或聲明性或者過(guò)程語(yǔ)言,并且計(jì)算機(jī)程序能用任何形式部署,包括部署為獨(dú)立程序或者部署為適合于在計(jì)算環(huán)境中使用的模塊、組件、子例程或者其他單元。計(jì)算機(jī)程序可以,但是無(wú)需與文件系統(tǒng)中的文件相對(duì)應(yīng)。程序能被存儲(chǔ)于保持其他程序或者數(shù)據(jù)的文件(例如,存儲(chǔ)于標(biāo)記語(yǔ)言文檔中的一個(gè)或者多個(gè)腳本)的一部分中、專(zhuān)用于討論的程序的單個(gè)文件中,或者多個(gè)協(xié)同文件(例如,存儲(chǔ)一個(gè)或者多個(gè)模塊、子程序或者代碼部分的文件)中。計(jì)算機(jī)程序能被部署以便在一個(gè)計(jì)算機(jī)上或者在位于一個(gè)地點(diǎn)或者跨多個(gè)地點(diǎn)分布并且由數(shù)據(jù)通信網(wǎng)絡(luò)互連的多個(gè)計(jì)算機(jī)上執(zhí)行。
如在本說(shuō)明書(shū)中所使用的,“引擎”,或“軟件引擎”是指提供不同于輸入的輸出的軟件實(shí)現(xiàn)的輸入/輸出系統(tǒng)。引擎能是功能性的經(jīng)編碼的塊,諸如庫(kù)、平臺(tái)、軟件開(kāi)發(fā)套件(“sdk”)或?qū)ο?。每個(gè)引擎能被實(shí)現(xiàn)在包括一個(gè)或多個(gè)處理器和計(jì)算機(jī)可讀介質(zhì)上的任何適當(dāng)類(lèi)型的計(jì)算設(shè)備上,例如服務(wù)器、移動(dòng)電話、平板電腦、筆記本電腦、音樂(lè)播放器、電子書(shū)閱讀器、膝上型或臺(tái)式計(jì)算機(jī)、pda、智能電話、或包括一個(gè)或多個(gè)處理器和計(jì)算機(jī)可讀介質(zhì)的其他固定或便攜式設(shè)備。此外,引擎中的兩個(gè)或多個(gè)可以被實(shí)現(xiàn)在相同計(jì)算設(shè)備上,或不同的計(jì)算設(shè)備上。
在本說(shuō)明書(shū)中描述的過(guò)程和邏輯流程能由一個(gè)或者多個(gè)可編程計(jì)算機(jī)執(zhí)行,該一個(gè)或者多個(gè)可編程計(jì)算機(jī)執(zhí)行一個(gè)或者多個(gè)計(jì)算機(jī)程序以通過(guò)對(duì)輸入數(shù)據(jù)操作并且生成輸出來(lái)執(zhí)行功能。該過(guò)程和邏輯流還能由專(zhuān)用邏輯電路(例如,fpga(現(xiàn)場(chǎng)可編程門(mén)陣列)或者asic(專(zhuān)用集成電路))實(shí)現(xiàn),或裝置能被實(shí)現(xiàn)為專(zhuān)用邏輯電路,例如,fpga(現(xiàn)場(chǎng)可編程門(mén)陣列)或者asic(專(zhuān)用集成電路)
例如,適合于執(zhí)行計(jì)算機(jī)程序的計(jì)算機(jī)能基于通用或?qū)S梦⑻幚砥骰蛘咂鋬烧?,或者任何其他種類(lèi)的中央處理單元。通常,中央處理單元將從只讀存儲(chǔ)器或者隨機(jī)存取存儲(chǔ)器或者二者接收指令和數(shù)據(jù)。計(jì)算機(jī)的必要元件是用于實(shí)現(xiàn)或執(zhí)行指令的中央處理單元以及用于存儲(chǔ)指令和數(shù)據(jù)的一個(gè)或者多個(gè)存儲(chǔ)器設(shè)備。通常,計(jì)算機(jī)還將包括或操作耦合以從用于存儲(chǔ)數(shù)據(jù)的一個(gè)或者多個(gè)海量存儲(chǔ)設(shè)備(例如,磁盤(pán)、磁光盤(pán)或者光盤(pán))接收數(shù)據(jù)或向其傳送數(shù)據(jù)或兩者。然而,計(jì)算機(jī)無(wú)需具有這樣的設(shè)備。另外,計(jì)算機(jī)能被嵌入于另一設(shè)備中,僅舉幾例,例如,移動(dòng)電話、個(gè)人數(shù)字助理(pda)、移動(dòng)音頻或者視頻播放器、游戲機(jī)、全球定位系統(tǒng)(gps)接收器或者便攜存儲(chǔ)設(shè)備,例如,通用串行總線(usb)閃存驅(qū)動(dòng)。
適合于存儲(chǔ)計(jì)算機(jī)程序指令和數(shù)據(jù)的計(jì)算機(jī)可讀介質(zhì)包括所有形式的非易失性存儲(chǔ)器、介質(zhì)和存儲(chǔ)器設(shè)備,舉例而言包括半導(dǎo)體存儲(chǔ)器設(shè)備,例如,eprom、eeprom和閃速存儲(chǔ)器設(shè)備;磁盤(pán),例如,內(nèi)部硬盤(pán)或者可移動(dòng)盤(pán);磁光盤(pán);以及cd-rom和dvd-rom盤(pán)。處理器和存儲(chǔ)器能由專(zhuān)用邏輯電路補(bǔ)充或合并在專(zhuān)用邏輯電路中。
為了提供與用戶的交互,能在計(jì)算機(jī)上實(shí)現(xiàn)在本說(shuō)明書(shū)中描述的主題的實(shí)施例,該計(jì)算機(jī)具有用于向用戶顯示信息的顯示設(shè)備,例如,crt(陰極射線管)、lcd(液晶顯示器)監(jiān)視器或oled顯示器以及用戶能用來(lái)向計(jì)算機(jī)提供輸入的輸入設(shè)備,例如鍵盤(pán)、鼠標(biāo)或存在敏感顯示器或其他接口。其他種類(lèi)的設(shè)備也能用來(lái)提供與用戶的交互;例如,向用戶提供的反饋能是任何形式的感覺(jué)反饋,例如,視覺(jué)反饋、聽(tīng)覺(jué)反饋或者觸覺(jué)反饋;并且能用包括聲音、語(yǔ)音或者觸覺(jué)輸入的任何形式接收來(lái)自用戶的輸入。此外,計(jì)算機(jī)能通過(guò)向用戶使用的設(shè)備發(fā)送資源和從該設(shè)備接收資源,例如,通過(guò)響應(yīng)于從web瀏覽器所接收的請(qǐng)求,向用戶的客戶端設(shè)備上的web瀏覽器發(fā)送網(wǎng)頁(yè)來(lái)與用戶交互。
在本說(shuō)明書(shū)中描述的主題的實(shí)施例能在計(jì)算系統(tǒng)中實(shí)現(xiàn),該計(jì)算系統(tǒng)包括后端組件(例如,作為數(shù)據(jù)服務(wù)器),或者包括中間件組件(例如,應(yīng)用服務(wù)器)或者包括前端組件(例如,具有圖形用戶界面或者web瀏覽器的客戶端計(jì)算機(jī),用戶能通過(guò)它們與在本說(shuō)明書(shū)中描述的主題的實(shí)現(xiàn)方式交互),或者一個(gè)或者多個(gè)這樣的后端、中間件或者前端組件的任何組合。系統(tǒng)的組件能通過(guò)任何數(shù)字?jǐn)?shù)據(jù)通信形式或者介質(zhì)互連,例如,通信網(wǎng)絡(luò)。通信網(wǎng)絡(luò)的示例包括局域網(wǎng)(“l(fā)an”)和廣域網(wǎng)(“wan”),例如,互聯(lián)網(wǎng)。
計(jì)算系統(tǒng)能包括客戶端和服務(wù)器??蛻舳撕头?wù)器一般相互遠(yuǎn)離并且通常通過(guò)通信網(wǎng)絡(luò)交互??蛻舳撕头?wù)器的關(guān)系借助在相應(yīng)計(jì)算機(jī)上運(yùn)行并且相互具有客戶端-服務(wù)器關(guān)系的計(jì)算機(jī)程序而產(chǎn)生。
盡管本說(shuō)明書(shū)包含許多具體實(shí)現(xiàn)方式細(xì)節(jié),但是不應(yīng)將這些解釋為限制任何發(fā)明的范圍或可以要求保護(hù)的內(nèi)容的范圍,而是解釋為對(duì)具體發(fā)明的具體實(shí)現(xiàn)方式特有的特征的描述。在本說(shuō)明書(shū)中在分開(kāi)的實(shí)施例的場(chǎng)境中描述的某些特征也能在單個(gè)實(shí)施例中被組合實(shí)現(xiàn)。相反地,在單個(gè)實(shí)施例的場(chǎng)境中描述的各種特征也能在多個(gè)實(shí)施例中分開(kāi)地或者在任何適當(dāng)子組合中被實(shí)現(xiàn)。另外,雖然上文能將特征描述為在某些組合中動(dòng)作并且甚至起初這樣要求保護(hù),但是來(lái)自要求保護(hù)的組合的一個(gè)或者多個(gè)特征能在一些情況下從該組合中被刪除,并且要求保護(hù)的組合能涉及子組合或者子組合的變型。
類(lèi)似地,盡管在附圖中以特定順序描繪操作,但是這不應(yīng)被理解為要求以所示特定順序或者以依次順序執(zhí)行這樣的操作或者執(zhí)行所有所示操作以實(shí)現(xiàn)希望的結(jié)果。在某些境況中,多任務(wù)和并行處理會(huì)是有利的。另外,在上文描述的實(shí)施例中的各種系統(tǒng)模塊和組件的分離不應(yīng)被理解為在所有實(shí)施例中要求這樣的分離,并且應(yīng)當(dāng)理解描述的程序組件和系統(tǒng)一般能一起集成于單個(gè)軟件產(chǎn)品中或者被封裝到多個(gè)軟件產(chǎn)品中。
描述了主題的具體實(shí)施例。其他實(shí)現(xiàn)方式在所附權(quán)利要求的范圍內(nèi)。例如,在權(quán)利要求中記載的動(dòng)作能按不同順序被執(zhí)行而仍然實(shí)現(xiàn)希望的結(jié)果。作為一個(gè)示例,在附圖中描繪的過(guò)程未必需要所示特定順序或者依次順序以實(shí)現(xiàn)希望的結(jié)果。在某些實(shí)施方式中,多任務(wù)和并行處理會(huì)是有利的。