亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于確定高同源性區(qū)域中的基因型的方法與流程

文檔序號:11450631閱讀:1314來源:國知局
用于確定高同源性區(qū)域中的基因型的方法與流程

以下公開內(nèi)容總體上涉及確定基因型,并且更具體地,涉及確定與具有對應(yīng)的高度同源性同源物的基因相關(guān)聯(lián)的基因型。

技術(shù)背景

許多疾病源自因突變而失活的基因。因此,對此類突變的識別是臨床基因醫(yī)學(xué)的基本目標(biāo)。對于許多基因而言,這些突變相對易于從下一代測序(ngs)數(shù)據(jù)中找到。然而,對于多種重要且普遍的病癥的受試者的基因的子集而言,識別失活基因并計數(shù)其數(shù)量是具有挑戰(zhàn)性的,因為這些基因被基因組的其他同源部分有效地遮蔽。

解析與其他(通常功能失調(diào)的)區(qū)域高度同源的基因組區(qū)域的結(jié)構(gòu)和內(nèi)容是特別困難的,甚至在使用先進ngs工具的情況下同樣如此。不幸的是,這些技術(shù)障礙是尤其成問題的,因為許多這些困難區(qū)域具有疾病暗示。實際上,它們與功能失調(diào)區(qū)域的極大同源性導(dǎo)致基因與同源物之間頻繁的重排,這可能影響基因的功能性拷貝的數(shù)量。

因此,仍然需要檢測并確定受試者關(guān)于基因的基因型和/或攜帶狀態(tài),其中所述基因具有同源性同源物。

發(fā)明概述

允許確定高度同源性基因和對應(yīng)同源物的基因型的當(dāng)前技術(shù)是時間密集型和勞動密集型的,并且是昂貴的,從而使得它們不適于廣泛的臨床使用。

目前公開的方法可以可承受的且高通量的方式進行實踐。因此,節(jié)省了大量的時間、勞力和花費。此外,本發(fā)明方法解決解析在以下區(qū)域中的結(jié)構(gòu)/拷貝數(shù)/基因型的問題,在所述區(qū)域中ngs讀取與基因或其同源物的唯一比對受到損害。重要的是,這些損害的“高度同源性”區(qū)域是基于兩個特征:(1)給定的實驗中的ngs讀取的長度,以及(2)由比對軟件(例如bwa)所允許的錯配的量。

在一方面,本文提供一種用于確定個體關(guān)于感興趣基因的基因組結(jié)構(gòu)(即,基因型)的方法,其中感興趣基因具有高度同源性同源物。

在一個實施方案中,感興趣基因以及其同源物的序列信息使用針對外顯子的引物。在某些實施方案中,所述序列信息來自感興趣基因和/或同源物的內(nèi)含子。在某些實施方案中,所述序列信息來自基因間區(qū)。

在另一實施方案中,所述序列信息由下一代測序(ngs)生成。在一些實施方案中,ngs是高深度全基因組鳥槍測序(即,不使用富集探針)。在其他實施方案中,ngs是靶向測序,例如像雜交捕獲技術(shù)、多重擴增子富集、或使用于測序反應(yīng)的基因組特定區(qū)域富集的任何其他手段。在一些實施方案中,所述測序以多重測定進行。

在一個實施方案中,基因是smn1并且假基因是smn2。在一個實施方案中,改變的拷貝數(shù)的smn1的存在指示受試者可能是疾病脊髓性肌萎縮(sma)的攜帶者。

在另一個實施方案中,基因是cyp21a2并且假基因是cyp21a1p。在一個實施方案中,改變的拷貝數(shù)的cyp21a2的存在指示受試者可能是疾病先天性腎上腺皮質(zhì)增生癥(cah)的攜帶者。

在一個實施方案中,基因是hba1并且同源物是hba2(或反之亦然)。在一個實施方案中,改變的拷貝數(shù)的hba1或hba2的存在指示受試者可能是疾病α地中海貧血的攜帶者。

在另一實施方案中,基因是gba并且假基因是gbap。在一個實施方案中,改變的拷貝數(shù)的gba的存在指示受試者可能是疾病戈謝氏病(gaucher’sdisease)的攜帶者。

在一個實施方案中,基因是pms2并且假基因是pms2cl或多種其他假基因中的一種。截止2015年12月,存在15種假基因。假基因可選自但不限于稱為pms2cl的13種假基因,其中13種假基因中其他12種編號為pms2p1到pms2p12。在一個實施方案中,改變的拷貝數(shù)和/或改變基因和假基因的取向的倒位(例如,使假基因的部分與基因融合并且因此損害基因功能的那些倒位)的存在可指示受試者具有增加的患疾病林奇綜合征(lynchsyndrome)的風(fēng)險。

在一個實施方案中,基因是chek2,其具有多種假基因。截止2014年12月,存在七種假基因。所述假基因可選自但不限于在經(jīng)過驗證的數(shù)據(jù)庫(curateddatabase)中所列舉的chek2假基因。在一個實施方案中,通過與其假基因重組產(chǎn)生的突變(例如,假基因衍生的移碼突變)的存在可指示受試者具有增加的患疾病乳腺癌以及其他疾病的風(fēng)險。在本領(lǐng)域中熟知的是,七種假基因中僅一種已經(jīng)被命名,并且風(fēng)險主要與一種突變1100delc相關(guān)聯(lián)。然而,其他突變也導(dǎo)致患疾病的風(fēng)險?;颊咛幱诨祭?佛美尼綜合癥(lifraumenisyndrome)和其他可遺傳癌癥的風(fēng)險下。

在一方面,提供一種配置來執(zhí)行用于實施本文所述的方法的指令的計算機系統(tǒng)。

通過以下詳細(xì)描述,本發(fā)明的其他目的、特征和優(yōu)勢將變得顯而易見。然而,應(yīng)理解,盡管指示本發(fā)明的優(yōu)選實施方案,但是詳細(xì)描述和特定實施例僅通過說明的方式給出,因為在本發(fā)明的范圍和精神內(nèi)的各種改變和修改對于通讀此詳細(xì)描述的本領(lǐng)域技術(shù)人員而言將變得顯而易見。

附圖簡述

圖1示出基因以及其同源物(例如,在假基因的情況下是功能失調(diào)的同源物)的各種基因組結(jié)構(gòu)。在“正常的”樣品中,基因以及其同源物各自有兩個拷貝。對于許多具有同源物的基因而言(實際上,對于引起戈謝氏病、脊髓性肌萎縮(“sma”)、先天性腎上腺皮質(zhì)增生癥(“cah”)和α地中海貧血的基因以及與各種癌癥相關(guān)的多種基因而言),基因和同源物在染色體上彼此相對接近。示出經(jīng)歷基因和/或同源物的“缺失或復(fù)制”的染色體的一些實例?;蚺c同源物之間的重組可產(chǎn)生“融合”基因,所述“融合”基因一部分是“基因”并且一部分是“同源物”。最后,基因與同源物之間的序列的“互換”是相對頻繁的。

圖2是如本文所述的方法的流程圖。

圖3示出本發(fā)明的各種實施方案可在其中運行的示例性系統(tǒng)和環(huán)境。

圖4示出示例性計算系統(tǒng)。

圖5是smn1和smn2的拷貝數(shù)(“cn”)圖。對于10,000個樣品而言,使用本文所述的測序數(shù)據(jù)和cn分析來計算樣品的smn1和smn2的cn,并且然后使用這些值分別作為散點圖中的x坐標(biāo)和y坐標(biāo)。每個樣品的cn(smn1)(即,smn1的拷貝數(shù))通過基于正交qpcr的測定來驗證:通過此后一種測定確定具有1個、2個或3個拷貝的樣品分別由圓圈、三角形和正方形指示。應(yīng)注意,在具有cn(smn1)=1和cn(smn1)=2的點之間的測序數(shù)據(jù)中有非常清楚的間隔。實際上,使用cn(smn1)=1.4的截取值來將樣品分類為具有1個或2個smn1拷貝,基于測序的cn分析將不產(chǎn)生假陽性或假陰性。其他值得注意的特征或曲線包括:(1)最高點密度在(2,2)附近,這是軌跡的正常排列;(2)然而,許多樣品距離(2,2)很遠(yuǎn),和smn1與smn2之間頻繁的轉(zhuǎn)換/缺失/復(fù)制一致。

圖6示出gba和gbap的兩個拷貝數(shù)圖。對于兩個單一患者樣品,在九個不同位點處繪制gba以及其同源物/假基因gbap的cn值,從5’到3’(左到右)排列。頂部樣品(a)是正常的,因為它具有g(shù)ba和gbap兩者的兩個拷貝。然而,底部樣品(b)經(jīng)歷“互換”事件,其中g(shù)bap拷貝之一的3’端獲得gba衍生的序列。

圖7是hba1和hba2的拷貝數(shù)圖。所述曲線圖示出48個患者樣品在圍繞并包括hba2和hba1的區(qū)域中的cn值。粗線示出單個染色體的較大區(qū)段已缺失的單個樣品,因此其在圖的右側(cè)的大部分信號下降。正如所預(yù)期的,大部分樣品具有cn=2。三個樣品具有在z1與z2區(qū)域之間發(fā)生的短缺失。

圖8是示出用于cyp21a2基因以及其同源物cyp21a1p中的每個探針的拷貝數(shù)的圖。所述曲線圖示出48個患者樣品在基因cyp21a2(a;左)(其影響cah)以及其假基因cyp21a1p(b;右)中的cn值。x軸上的每個位置是基因中的不同位點,從5’到3’排列。三個粗跡線是已知經(jīng)歷使基因拷貝之一消除的融合事件的樣品,因此在左邊的基因曲線圖中它們的cn值是~1和~0。cyp21a2和cyp21a1p在整個演變過程中經(jīng)歷相當(dāng)多的互換/融合/缺失/復(fù)制,這是為何它們在以上曲線圖中的跡線比先前圖中針對戈謝氏病(圖6)和α地中海貧血(圖7)的cn跡線更參差不齊。應(yīng)注意,本文所述的cn分析方法的關(guān)鍵目標(biāo)之一是想要確定功能性基因拷貝(即,在此情況下是cyp21a2)的數(shù)量。由此,首先看到靠近5’端的位點并且使用它們的平均值來分解cn(cyp21a2)。接下來,考慮整個跡線(即,包括3’端)以確定所發(fā)生的重排列的類型。

圖9是示出樣品數(shù)據(jù)如何從原始讀取計數(shù)處理成可針對拷貝數(shù)變化解讀的值的圖。示出了在本文下文中進一步描述的六個步驟和五個示例性表(標(biāo)示為a、b、c、d和e)。

此專利的文件包含至少一幅彩色繪圖。在提出請求并支付必要費用后,本事務(wù)所將提供具有彩色繪圖的本專利或?qū)@霭嫖锏母北尽?/p>

詳細(xì)描述

現(xiàn)在將使用以下定義和實施例僅以參考的方式對本發(fā)明進行詳細(xì)描述。本文中所提及的所有專利和出版物(包括在此類專利和出版物內(nèi)所公開的所有序列)明確地以引用的方式并入。

除非在本文中另外定義,否則本文所使用的所有技術(shù)和科學(xué)術(shù)語均具有與本發(fā)明所屬領(lǐng)域的普通技術(shù)人員通常所理解的相同的意思。singleton等,dictionaryofmicrobiologyandmolecularbiology,第2版,johnwiley和sons,newyork(1994),以及hale和marham,theharpercollinsdictionaryofbiology,harperperennial,ny(1991)為本領(lǐng)域技術(shù)人員提供用于本發(fā)明中的許多術(shù)語的一般詞典。雖然在本發(fā)明的實踐或測試中可使用類似或等同于本文所描述的那些方法和材料的任何方法和材料,但是描述優(yōu)選的方法和材料。對于本領(lǐng)域的定義和術(shù)語,從業(yè)者可具體參考sambrook等,1989和ausubelfm等,1993。應(yīng)理解,本發(fā)明不限于所描述的具體方法、方案和試劑,因為這些方法、方案和試劑可變化。

數(shù)字范圍包括限定所述范圍的數(shù)字。術(shù)語“約”在本文中用于意指加上或減去數(shù)值的百分之十(10%)。例如,“約100”是指90與110之間的任何數(shù)字。

除非另有指出,否則分別地核酸從左至右以5'至3'取向書寫;氨基酸序列從左至右以氨基至羧基取向書寫。

本文所提供的標(biāo)題不是對本發(fā)明的各種方面或?qū)嵤┓桨傅南拗疲@些方面或?qū)嵤┓桨缚赏ㄟ^參考整個說明書來獲得。因此,即將在下文中定義的術(shù)語通過參考整個說明書而得到更充分地定義。

定義

如本文所用的,“純化”意指分子以包含所述分子的樣品的至少95重量%或至少98重量%的濃度存在于樣品中。

“分離”分子是與例如在其天然環(huán)境下通常與它締合的至少一種其他分子分開的核酸分子。分離的核酸分子包括在通常表達(dá)核酸分子的細(xì)胞中所含有的核酸分子,但是核酸分子存在于染色體外或存在于不同于其天然染色體位置的染色體位置處。

術(shù)語“%同源性”在本文中與本文中的術(shù)語“%同一性”互換使用,并且是指當(dāng)使用序列比對程序進行比對時,編碼發(fā)明性多肽或發(fā)明性多肽的氨基酸序列中的任一個的核酸序列之間的核酸或氨基酸序列同一性水平。在核酸的情況下,所述術(shù)語還適用于內(nèi)含子和/或基因間區(qū)域。

例如,如本文所用的,80%同源性意指相同的事物為通過定義的算法確定的80%序列同一性,并且因此給定序列的同源物在給定序列的長度上具有大于80%的序列同一性。序列同一性的示例性水平包括但不限于對給定序列,例如如本文所述的發(fā)明性多肽中任一種的編碼序列的80%、85%、90%、95%、98%或更大序列同一性。

可用于確定兩個序列之間的同一性的示例性計算機程序包括但不限于blast程序組,例如可在因特網(wǎng)上公開獲得的blastn、blastx和tblastx、blastp和tblastn以及blat。也參見altschul等,1990和altschul等,1997。

當(dāng)相對于基因庫dna序列和其他公開數(shù)據(jù)庫中的核酸序列評估給定的核酸序列時,通常使用blastn程序來實施序列查找。blastx程序優(yōu)選用于查找已經(jīng)在針對基因庫蛋白序列和其他公開數(shù)據(jù)庫中的氨基酸序列的所有閱讀框中翻譯的核酸序列。blastn和blastx兩者均使用默認(rèn)參數(shù)11.0的開放缺口罰分(opengappenalty)和1.0的延伸缺口罰分(extendedgappenalty)來運行,并利用blosum-62矩陣。(參見,例如altschul,s.f.等,nucleicacidsres.25:3389-3402,1997。)

為了確定兩個或更多個序列之間的“%同一性”而進行的所選序列的優(yōu)選比對使用例如以默認(rèn)參數(shù)操作的macvector版本13.0.7的clustal-w程序以及blosum30相似性矩陣來進行,所述默認(rèn)參數(shù)包括10.0的開放缺口罰分、0.1的延伸缺口罰分。

如本文所用的,“高度同源的”意指基因與其對應(yīng)的同源物之間的同源性在其長度對應(yīng)于ngs讀取長度的區(qū)域上大于90%。因此,如果基因中的任何區(qū)域與同源物是高度同源的,那么基因以及其同源物就稱為是“高度同源的”。ngs讀取長度的范圍可以是30nt至400nt、50nt至250nt、50nt至150nt或100nt至200nt。重要的是,基因具有同源物,并不需要整個基因的序列是“高度同源的”;僅需要基因中的一個區(qū)域是高度同源的。

如本文所用的術(shù)語“同源物”是指與位于受試者基因組中其他位置處的感興趣基因相同或幾乎相同的dna序列。同源物可以是另一個基因、“假基因”或不是基因的一部分的序列區(qū)段。

如本文所用的術(shù)語“突變”是指自生的和遺傳的序列變異,包括但不限于個體之間的變異或個體的序列與參考序列之間的變異。示例性突變包括但不限于snp、插入缺失(indel)、拷貝數(shù)變體、倒位、易位、染色體融合等。

如本文所用的“假基因”是非常類似于dna序列中的基因但是具有使其功能失調(diào)的至少一個變化的dna序列。所述變化可以是單個殘基突變。所述變化可產(chǎn)生剪接變體。所述變化可導(dǎo)致翻譯提前終止。假基因是功能性基因的功能失調(diào)相關(guān)基因。假基因的特征在于對已知基因(即,感興趣基因)的同源性和非功能性的組合。

基因的假基因數(shù)量不限于本文中所列舉的那些。假基因得到逐漸增加的認(rèn)識。因此,本領(lǐng)域的技術(shù)人員將能夠基于序列同源性或通過參考經(jīng)過驗證的基因庫例如像基因卡(genecards.org)、pseudogenes.org等來確定序列是否是假基因。

如本文所用的,“感興趣基因”是需要確定功能性拷貝的數(shù)量的基因。通常,由于兩個染色體各自具有感興趣基因的拷貝,所以感興趣基因具有兩個功能性拷貝。術(shù)語“感興趣基因”和“基因”可在本文中互換使用。

過程

在可能的情況下,將來自感興趣區(qū)域中的序列與雜交捕獲探針或pcr引物富集,所述雜交捕獲探針或pcr引物應(yīng)被設(shè)計來使得所捕獲和所測序的片段包含辨別基因與其同源物的至少一個序列。例如,雜交捕獲探針可被設(shè)計來與在基因與同源物/假基因之間不同的幾個堿基(“差別堿基(diffbases)”)相鄰地退火。在缺少此類辨別序列的情況下,應(yīng)使用多個探針來捕獲可辨別片段,以便減少每個特定探針的序列所固有的偏差影響。擴增子測序可用作雜交捕獲的替代方案,以作為實現(xiàn)靶向測序的手段。高深度全基因組測序可用作靶向測序的替代方案??墒褂梅从程囟ɑ蚪M區(qū)域的劑量的任何高通量定量數(shù)據(jù),無論它來自ngs、微陣列或任何其他高通量定量分子生物學(xué)技術(shù)。

具有基因衍生的或同源物衍生的堿基的ngs序列讀取的豐度允許區(qū)分正常個體(cn=2)與變種個體(cn≠2)。然而,另外的有用信息可甚至從不能辨別基因與同源物的序列讀取獲得,如在hba1和hba2的情況下,其中兩個相同基因的正常組合cn是4,并且任一基因的缺失導(dǎo)致合計cn≤3。應(yīng)注意,原則上,本文所述的cn分析可甚至應(yīng)用于高深度全基因組鳥槍測序(即,不使用富集探針)。

廣義地說,并且在一個實施例中,為了產(chǎn)生對區(qū)域的調(diào)用,進行以下過程,所述過程在圖2中示出為過程10。首先,在12處獲得感興趣序列。例如,讀取可以任何方式從與調(diào)用區(qū)域重疊(或者嚴(yán)格地說在其同源物的區(qū)域中)的bam文件中收集。這些讀取然后可使用其相關(guān)軟限幅信息來限幅。然后可舍棄來自對準(zhǔn)器的輔助信息,例如堿基到堿基的比對信息,并且讀取簡單地變?yōu)閴A基的序列。(在一些實施例中,可任選地進行基于映射質(zhì)量的過濾。)

基于辨別基因與同源物的堿基的存在,對基因或同源物的讀取進行區(qū)分。在此區(qū)分過程中所采用的辨別堿基取決于感興趣的特定基因。另外,區(qū)分可再次基于特定應(yīng)用,僅使用給定讀取中的辨別堿基的子集。在雜交捕獲探針序列自身成為所測序片段的一部分的實施方案中,所述雜交捕獲探針被設(shè)計成使得辨別堿基是在末端配對讀取的各端之一的末端處或末端附近。例如在此情況下,雜交捕獲探針長度是例如39個堿基,但是測序儀從捕獲的片段讀取了40個堿基。探針被設(shè)計成使得第40個堿基是辨別堿基,從而允許整個讀取(即,末端配對讀取的兩個端)基于第40個位置的堿基區(qū)分為基因或同源物。以上實施例中的精確數(shù)字(即,39和40)可改變并產(chǎn)生類似的結(jié)果。原則上,探針可短至10bp或長至1000bp,雖然20bp-100bp的長度范圍是最常見的。在類似于以上實施方案且探針成為所測序片段的一部分的實施方案中,測序儀讀取的長度必須超過探針長度至少1bp;然而,在單獨的捕獲片段包含足夠?qū)⒆x取適當(dāng)?shù)貐^(qū)分成基因或同源物的辨別堿基的實施方案中,那么測序不一定需要延伸超過探針的長度。

在圖9中示出實驗數(shù)據(jù)的示例性處理。示出了來自具有根據(jù)單個實驗(使用一個illumina流動池)的數(shù)據(jù)的表的摘錄。每一排是一個樣品。通常,在單個實驗中處理(即,測試)48個或96個樣品(即,“樣品x”=“樣品96”),雖然所述分析對于更多或更少樣品均是有效的。所述分析強有力地利用了以下事實:拷貝數(shù)突變是相對少見的,尤其是在與疾病相關(guān)的基因中;因此,預(yù)期大部分樣品將在每個位點處具有野生型拷貝數(shù)(“cn”)(即,cn=2)。

如圖9表a所示,位點可區(qū)分成測試位點(例如,“ts1”、“ts2”等)和對照位點(例如,“cs1”、“cs2”等)。測試位點(ts)相對于對照位點(cs)的解析取決于以下測定:例如,在戈謝氏病測定中,ts是gba或gbap中的位點,并且cs包括基因組中具有不在gba或gbap中的數(shù)據(jù)的任何位點。作為另一個實施例,對于sma測試,僅有兩個ts位點(一個針對smn1并且另一個針對smn2)。通常,對于每個實驗,有數(shù)百個cs。如果獨立進行cn分析,那么應(yīng)使用至少10個cs,其中50個或更多個是優(yōu)選的(基本地,需要足夠的位點來得到對中間值的穩(wěn)健測量,將在圖9表b中看到這一點)。

下一步驟在圖9表b中進行描繪,其中對cs原始讀取值的中間值進行計算。應(yīng)注意,表中的每個單元均可含有整數(shù)值的原始讀取或調(diào)整讀取的浮點數(shù),其中讀取數(shù)的調(diào)整可將類似于由于gc含量而引起的測序偏差的因素考慮在內(nèi)。應(yīng)注意,這僅涉及cs,因為初始假設(shè)是這些值具有cn=2;如果給定排的樣品具有cn突變并且ts的數(shù)量超過cs,那么此時包括ts可能使所述排的中間值偏斜。與使用表示平均值的均數(shù)不同,中間值對于離群讀取值是穩(wěn)健的,所述離群讀取值在測序數(shù)據(jù)中是普遍的;然而,仍然應(yīng)具有至少10個cs以得到中間值的良好表示。此步驟通過以下等式有效進行:

xi,j=ri,j/中間值(ri,cs1:ri,csx)

其中ri,j是樣品i在位點j處的原始讀取數(shù)。中間值在cs位點的組中的所有位點j上進行評估。xi,j是在樣品i在位點j處的“樣品歸一化深度值”;xi,j針對cs和ts兩者中的所有位點j進行計算。

如圖9中所提供的,表a中每個單元的值除以表b中單元的排的對應(yīng)值,并且商記錄在表c中。現(xiàn)在整個排的平均值是~1。然而,需要進一步歸一化,因為在數(shù)據(jù)采集中存在可能破壞對數(shù)據(jù)的解讀的位點特異性偏差。例如,注意tsx列中的值系統(tǒng)性地低于ts1或ts2中的值。因為在tsx處的此降低反映每個樣品中的cn變化是不真實的(尤其是因為假設(shè)cn變異很少見,因此預(yù)期此類變異不在每個樣品中),因此進行進一步歸一化(在圖9,表d中)來消除此系統(tǒng)性偏差。

歸一化以計算每列下的中間值開始。如圖9表d所示,這對于ts列和cs列兩者均已完成。然后,如圖9表e所示,表c中每個單元的值除以表d中每個單元的列的對應(yīng)值;然后將商乘以二,并且最后將乘積記錄在表e中。將商擴大2倍,因為除以平均值得到集中在1左右的歸一化值,但是已知此歸一化值對應(yīng)于生物正常cn2。此步驟通過以下等式有效進行:

cni,j=2*xi,j/中間值(xs1,j:xsx,j)

其中xi,j是來自以上的“樣品歸一化深度值”。中間值是在所有樣品上針對位點j進行計算。cni,j是樣品i中位點j的拷貝數(shù)的小數(shù)近似值。因為基因組中序列的拷貝數(shù)是整數(shù)值,所以每個cni,j可四舍五入至其最接近的整數(shù)值,并且調(diào)用的置信度可如本文所述地進行計算。

應(yīng)注意,在上述等式中所指示的最終歸一化步驟可在cn高度可變的情況下(即,在微弱多數(shù)部分或甚至小部分樣品具有cn=2的情況下)針對ts進行改變。例如,在圖8的右曲線圖中,大部分樣品對于ts“wl5,b08”和“wl5,b09”而言具有cn=0而不是cn=2。已經(jīng)在sma(圖5)和cah(圖8)的分析中遇到過此類ts。在這些有挑戰(zhàn)性的ts處的cn值可通過找到多模態(tài)高斯分布(multimodalgaussiandistribution)(使用在憑經(jīng)驗預(yù)期的整數(shù)cn值例如0、1、2和3下的模式)與憑經(jīng)驗觀察的數(shù)據(jù)的最佳最小平方偏差擬合來確定。每個樣品的cn值然后可通過找到對最佳擬合分布的整數(shù)模式的最小距離來確定。

最后的步驟是對數(shù)據(jù)的解讀。針對每種疾病(先天性腎上腺皮質(zhì)增生癥(cah)、脊髓性肌萎縮(sma)、戈謝氏病以及α地中海貧血),尋找cn信號偏離2的連續(xù)ts。應(yīng)注意,與具有集中在2處的cn值的其他樣品不同,圖9中的“樣品1”具有徘徊在1左右的cn值。這些數(shù)據(jù)表明樣品1在ts處具有將其cn從二降到一的cn突變。令人安心的是看到樣品1在cs處的cn值是~2,這表明分析是合理的(即,并不認(rèn)為樣品在基因組的任何位置處均具有cn突變,這是不真實的)。

值得注意的是,本文所述的cn分析是找到具有同源物的基因中其他類型的臨床相關(guān)性突變的關(guān)鍵性上游步驟。例如,除cn變體(圖1中所示)之外,單核苷酸多態(tài)性(snp)也可能破壞基因并且使其功能失調(diào)。用于識別snp的標(biāo)準(zhǔn)軟件使用cn作為參數(shù),其中具有snp的讀取的預(yù)期分?jǐn)?shù)是1/cn。因為基因組的大多數(shù)部分具有cn=2,所以當(dāng)讀取的1/2包含一個堿基(例如,c)并且另外1/2具有不同的堿基(例如,t)時,snp尋找軟件通過默認(rèn)方式將位點識別為snp。然而,對于具有cn變異的區(qū)域,具有snp的讀取的預(yù)期分?jǐn)?shù)可以是1(針對cn=1)、1/3(針對cn=3)等。關(guān)鍵地是,在cn分析如與本文所述的相同的分析不存在下,具有snp和cn=3兩者的受試者可能不能使snp被識別,因為其在數(shù)據(jù)中的表示(即,1/3)小于自然預(yù)期的分?jǐn)?shù)(即,1/2)。因此,本文中所描述的方式不僅對于在cn方面解析基因型是重要的,而且對于在找到其他突變?nèi)鐂np和短插入/缺失(“插入缺失”)方面解析基因型也是重要的。

因為通常對于給定的測試具有多個ts,所以可使用z得分來估計cn確定的置信度。以下是可使用的步驟:

a.針對每個ts列計算四位分差(“iqr”)。iqr是第75個與第25個百分位值之間的差值。假設(shè)正態(tài)分布統(tǒng)計,通過除以~1.33來將iqr轉(zhuǎn)換為標(biāo)準(zhǔn)偏差(“sd”)。使用iqr作為中間步驟以找到sd,因為iqr對于離群值是不敏感的,而sd可隨著離群值大幅度變化。這種對于離群值的關(guān)注是尤其重要的,因為具有cn突變的少見樣品實際上是每列中的離群值。

b.在得到每個ts列的sd的情況下,接下來列舉猜想(即,cn=1、cn=2等),并且針對每個猜想,確定觀察到的cn值的sd遠(yuǎn)離猜想的cn值多少(sd距離假設(shè)的平均值的這個數(shù)是z得分)。接下來,可將z得分轉(zhuǎn)換為概率,所述概率使得能夠鑒于數(shù)據(jù)評估所述猜想的可能性。將每個位點作為獨立的觀察進行處理,將穿過許多ts的概率計算為每個ts的概率的乘積。置信度得分實際上是對數(shù)差別得分(log-oddsscore),其中將最高概率的猜想的概率除以第二高概率猜想的概率,并且然后取此商的對數(shù)10。

本領(lǐng)域的技術(shù)人員將認(rèn)識到,可使用對離群值不敏感并產(chǎn)生數(shù)據(jù)的標(biāo)準(zhǔn)偏差的近似值的其他統(tǒng)計方式。對類似拷貝數(shù)的跨距(例如,具有cn=1的一系列相鄰位點,與較大缺失一致)的識別可以監(jiān)控的方式(例如,通過觀看或通過匹配已知的或猜想的重組位點)或非監(jiān)控的方式(例如,使用隱馬爾可夫模型(hiddenmarkovmodel))來識別。

示例性架構(gòu)和處理環(huán)境:

本文所述的系統(tǒng)和過程的某些方面和實施例可在其中運行的示例性環(huán)境和系統(tǒng)。如圖3所示,在一些實施例中,所述系統(tǒng)可根據(jù)客戶端-服務(wù)器模型(client-servermodel)來實現(xiàn)。所述系統(tǒng)可包括在用戶裝置102上執(zhí)行的客戶端部分和在服務(wù)器系統(tǒng)110上執(zhí)行的服務(wù)器端部分。用戶裝置102可包括任何電子裝置,諸如臺式電腦、膝上型電腦、平板電腦、pda、移動手機(例如,智能手機)等。

用戶裝置102可通過一個或多個網(wǎng)絡(luò)108與服務(wù)器系統(tǒng)110通信,所述網(wǎng)絡(luò)108可包括因特網(wǎng)、內(nèi)聯(lián)網(wǎng)或任何其他有線或無線的公共網(wǎng)絡(luò)或私人網(wǎng)絡(luò)。用戶裝置102上的示例性系統(tǒng)的客戶端部分可提供客戶端功能性,諸如面向用戶的輸入和輸出處理以及與服務(wù)器系統(tǒng)110的通信。服務(wù)器系統(tǒng)110可為駐留在相應(yīng)的用戶裝置102上的任何數(shù)量的客戶端提供服務(wù)器端功能性。另外,服務(wù)器系統(tǒng)110可包括一個或多個呼叫者服務(wù)器114,所述呼叫者服務(wù)器114可包括面向客戶端的i/o界面122、一個或多個處理模塊118、數(shù)據(jù)和模型儲存器120以及外部服務(wù)的i/o界面116。面向客戶端的i/o界面122可促進呼叫者服務(wù)器114的面向客戶端的輸入和輸出處理。一個或多個處理模塊118可包括如本文所述的各種問題和候選者得分模型。在一些實施例中,呼叫者服務(wù)器114可通過網(wǎng)絡(luò)108與外部服務(wù)124(諸如文本數(shù)據(jù)庫、訂閱服務(wù)、政府記錄服務(wù)等)通信以用于完成任務(wù)或采集信息。外部服務(wù)的i/o界面116可促進此類通信。

服務(wù)器系統(tǒng)110可在一個或多個獨立的數(shù)據(jù)處理裝置或計算機的分布式網(wǎng)絡(luò)上實現(xiàn)。在一些實施例中,服務(wù)器系統(tǒng)110可采用第三方服務(wù)提供商(即,第三方云服務(wù)提供商)的各種虛擬裝置和/或服務(wù)來提供服務(wù)器系統(tǒng)110的基礎(chǔ)計算資源和/或基礎(chǔ)設(shè)施資源。

雖然呼叫者服務(wù)器114的功能性在圖3中示出為包括客戶端部分和服務(wù)器端部分兩者,但是在一些實施例中,本文所述的某些功能(例如,關(guān)于用戶界面特征和圖形元素)可作為安裝在用戶裝置上的獨立應(yīng)用來實現(xiàn)。此外,功能性在系統(tǒng)的客戶端部分和服務(wù)器部分之間的劃分可在不同實施例中變化。例如,在一些實施例中,在用戶裝置102上執(zhí)行的客戶端可以是瘦客戶端,所述瘦客戶端僅提供面向用戶的輸入和輸出處理功能,并且向后端服務(wù)器授權(quán)系統(tǒng)的所有其他功能性。

應(yīng)注意,服務(wù)器系統(tǒng)110和客戶端102還可包括各種類型的計算機裝置中的任一種,其具有例如處理單元、存儲器(其可包括用于實施本文所述的功能中的一些或所有的邏輯或軟件)和通信界面以及其他常規(guī)計算機部件(例如,輸入裝置(諸如鍵盤/觸摸屏)和輸出裝置(諸如顯示器))。另外,服務(wù)器系統(tǒng)110和客戶端102中的一者或兩者通常包括邏輯(例如,http網(wǎng)絡(luò)服務(wù)器邏輯),或者被編程為格式化數(shù)據(jù),所述格式化數(shù)據(jù)從本地或遠(yuǎn)程數(shù)據(jù)庫或其他數(shù)據(jù)和內(nèi)容物來源訪問。為此,服務(wù)器系統(tǒng)110可利用各種網(wǎng)絡(luò)數(shù)據(jù)界面技術(shù),諸如公共網(wǎng)關(guān)接口(cgi)協(xié)議和相關(guān)應(yīng)用程序(或“腳本”)、“小服務(wù)程序”(即,在服務(wù)器系統(tǒng)110上運行的應(yīng)用程序)等來呈現(xiàn)信息并從客戶端102接收輸入。雖然在本文中以單數(shù)描述,但是服務(wù)器系統(tǒng)110可實際上包括多個計算機、裝置、數(shù)據(jù)庫、相關(guān)后端裝置等,從而進行通信(有線和/或無線)并合作來執(zhí)行一些或所有本文所述的功能。服務(wù)器系統(tǒng)110還可包括賬戶服務(wù)器(例如,電子郵件服務(wù)器)、移動服務(wù)器、媒體服務(wù)器等或者與其通信。

還應(yīng)注意,雖然本文所述的示例性方法和系統(tǒng)描述了用于執(zhí)行各種功能的單獨的服務(wù)器和數(shù)據(jù)庫系統(tǒng)的使用,但是其他實施方案可通過存儲操作來在單個裝置或多個裝置的任何組合(作為設(shè)計選擇,只要執(zhí)行所描述的功能性即可)上引起所描述的功能的軟件或編程來實現(xiàn)。類似地,所描述的數(shù)據(jù)庫系統(tǒng)可實現(xiàn)為單個數(shù)據(jù)庫、分布式數(shù)據(jù)庫、分布式數(shù)據(jù)庫的集合、具有冗余的在線或離線備份或其他冗余的數(shù)據(jù)庫等,并且可包括分布式數(shù)據(jù)庫或存儲網(wǎng)絡(luò)和相關(guān)處理智能。雖然沒有在圖中描繪出,但是服務(wù)器系統(tǒng)110(和本文所述的其他服務(wù)器和服務(wù))通常包括如在服務(wù)器系統(tǒng)中常見的此類本領(lǐng)域認(rèn)可的部件,包括但不限于處理器、ram、rom、計時器、硬件驅(qū)動器、相關(guān)儲存器等(參見例如圖4,在以下進行討論)。另外,所描述的功能和邏輯可包括在軟件、硬件、固件或其組合中。

圖4描繪示例性計算系統(tǒng)600,所述計算系統(tǒng)600被配置來執(zhí)行以上所述的過程中的任一個,包括各種調(diào)用和得分模型。在此情況下,計算系統(tǒng)600可包括例如處理器、存儲器、儲存器以及輸入/輸出裝置(例如,監(jiān)測器、鍵盤、磁盤驅(qū)動器、因特網(wǎng)連接件等)。然而,計算系統(tǒng)600可包括用于實施所述過程的一些或所有方面的電路或其他專用硬件。在一些操作性設(shè)置中,計算系統(tǒng)600可被配置為包括一個或多個單元的系統(tǒng),每個所述單元被配置來在軟件、硬件或其某一組合中實施所述過程的一些方面。

圖4描繪具有可用于執(zhí)行以上所述的過程的多個部件的計算系統(tǒng)600。主要系統(tǒng)1402包括母板1404,所述母板1404具有輸入/輸出(“i/o”)部分1406、一個或多個中央處理單元(“cpu”)1408以及存儲器部分1410,所述存儲器部分1410可具有與其相聯(lián)的閃存卡1412。i/o部分1406連接到顯示器1424、鍵盤1414、磁盤存儲單元1416以及媒體驅(qū)動單元1418。媒體驅(qū)動單元1418可讀取/編寫計算機可讀介質(zhì)1420,所述計算機可讀介質(zhì)1420可包含程序1422和/或數(shù)據(jù)。

基于以上所述過程的結(jié)果的至少一些值可保存以供后續(xù)使用。另外,非暫時性計算機可讀介質(zhì)可用于存儲(例如,有形地體現(xiàn))用于通過計算機執(zhí)行以上所述的過程中的任一個的一個或多個計算機程序。計算機程序可例如以通用編程語言(例如,pascal、c、c++、python、java)或某一專用的特定應(yīng)用語言來編寫。

本文描述了各種示例性實施方案。以非限制性意義對這些實施例進行參考。它們被提供來說明所公開的技術(shù)的可更廣泛應(yīng)用的方面。在不背離各種實施方案的正確精神和范圍的情況下,可做出各種改變并且可取代等同物。此外,為了使特定的場合、材料、物質(zhì)組成、方法、方法行為或步驟適應(yīng)各種實施方案的目的、精神和范圍,可進行許多修改。另外,如本領(lǐng)域技術(shù)人員將認(rèn)識到的,本文所描述并說明的每個單個變型具有離散組分和特征,所述離散組分和特征可易于與任何其他多個實施方案的特征分離或組合,而不背離各種實施方案的范圍或精神。所有此類修改意圖處于與本公開相關(guān)聯(lián)的權(quán)利要求書的范圍內(nèi)。

實施例

本發(fā)明在以下實施例中進一步詳細(xì)描述,所述實施例不意圖以任何方式限制要求保護的本發(fā)明范圍。附圖旨在被視為本發(fā)明的說明書和描述的組成部分。引用的所有參考文獻針對其中描述的所有內(nèi)容特定地以引用的方式并入本文。提供以下實施例來說明,但并非限制所要求保護的發(fā)明。

實施例1

調(diào)用基因/同源物拷貝數(shù)

此實施例說明了用于確定基因/同源物拷貝數(shù)的方法并且在圖9中示意性地示出。

所述方法包括以下步驟。

1.合并bwa(將ngs讀取與參考基因組比對的開放源碼計算機軟件程序)分配給基因或同源物的所有讀取。

2.基于讀取的序列(任選地調(diào)整讀取深度以將gc偏差考慮在內(nèi)),分別計數(shù)基因和同源物(例如,在辨別smn1與smn2的內(nèi)含子位置處)的深度(即,比對讀取的數(shù))。

3.計算50個其他對照位點(圖9中的“cs”)附近的深度

4.通過樣品的50個對照深度的中間值對每個樣品的基因和同源物深度進行歸一化。

5.通過由每個位點的中間值進行歸一化來進一步調(diào)整數(shù)據(jù),從而產(chǎn)生基于小數(shù)的拷貝數(shù)值(例如,1.21)。

6.基于對置信度的統(tǒng)計學(xué)評估進行拷貝數(shù)調(diào)用(即,將來自前一步驟的小數(shù)值映射為整數(shù)值)。

各種基因/同源物確定的結(jié)果在圖5-圖8中示出。

實施例2

使用雜交捕獲探針的拷貝數(shù)分析

此實施例說明了用于使用探針確定特定基因的基因/同源物拷貝數(shù)的方法,所述探針與在基因與同源物或假基因之間不同的堿基相鄰?fù)嘶稹?/p>

雜交捕獲探針被設(shè)計來與在cyp21a2與cyp21a1p之間不同的幾個堿基(“差別堿基”)相鄰地退火。所捕獲的片段的末端配對的ngs允許基于差別堿基將讀取指定為基因衍生的或假基因衍生的。使用以下兩個策略來識別cah變體:基于snp的調(diào)用和拷貝數(shù)分析。給定位置處基于snp的調(diào)用在由具有遠(yuǎn)離感興趣位置的基因衍生的差別堿基的讀取構(gòu)成的堆疊中查找有害的和/或假基因衍生的堿基。相比之下,拷貝數(shù)分析使用差別堿基的讀取深度來計算每個變體的相對豐度,并且有害變體被識別為具有過多拷貝數(shù)(以及,相反地,缺失拷貝數(shù)的基因衍生的序列)的假基因衍生的序列的那些變體。使用長范圍pcr和sanger測序來以驗證研究確認(rèn)變體。

測試正確地從受影響患者中識別陽性對照樣品的基因型,并且已經(jīng)對將近150,000個臨床樣品進行了驗證的cah測試。所觀察到的變體頻率與測序受影響患者的cyp21a2的先前研究一致。在基因和假基因的拷貝數(shù)中存在極大的多樣性:38%的患者具有至少一個單倍型,所述至少一個單倍型不僅具有基因和假基因的一個拷貝。基因與假基因之間的重組的證據(jù)是廣泛的,其中至少83%具有包含假基因衍生的堿基的cyp21a2單倍型。最后,測試識別了與特定少見的單倍型一致的化合物變體,例如,(1)三個cyp21a2拷貝,其中一個具有q319x突變,以及(2)具有順式v282l突變的cyp21a2和兩個cyp21a1p拷貝,單倍型富集在德系猶太人(ashkenazijewish)患者中。

應(yīng)理解,本文所述的實施例和實施方案僅出于說明性目的,并且將建議本領(lǐng)域技術(shù)人員根據(jù)它們進行各種修改或改變,并且它們被包括在本申請的精神和權(quán)限以及隨附權(quán)利要求書的范圍之內(nèi)。出于所有目的,本文所引用的所有出版物、專利和專利申請?zhí)卮艘砸玫姆绞秸w并入。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1