專利名稱:目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及基因工程技術(shù)領(lǐng)域,特別是涉及一種目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方 法及裝置。
背景技術(shù):
單核苷酸多態(tài)性(Single Nucleotide Polymorphisms,簡(jiǎn)稱SNP)位點(diǎn),是指在基 因組上單個(gè)核苷酸的變異形成的遺傳標(biāo)記,其數(shù)量很多,多態(tài)性豐富。單核苷酸多態(tài)性,主 要是指在基因組水平上由單個(gè)核苷酸的變異所引起的DNA序列多態(tài)性。它是人類可遺傳的 變異中最常見(jiàn)的一種,占所有已知多態(tài)性的90%以上。SNP在人類基因組中廣泛存在,平均 每500 1000個(gè)堿基對(duì)中就有I個(gè),估計(jì)其總數(shù)可達(dá)300萬(wàn)個(gè)甚至更多。
對(duì)目標(biāo)區(qū)域應(yīng)用第二代測(cè)序技術(shù)進(jìn)行測(cè)序后,通過(guò)一定的算法或者軟件運(yùn)算可以 得到目標(biāo)區(qū)域中潛在的SNP位點(diǎn),所得到的這些SNP位點(diǎn)在實(shí)際應(yīng)用中為了保證其準(zhǔn)確性 以及評(píng)估目標(biāo)區(qū)域測(cè)序好壞,通常會(huì)挑選一部分進(jìn)行質(zhì)控驗(yàn)證,如何從數(shù)以千計(jì)的SNP位 點(diǎn)中挑選較有代表性的一組SNP位點(diǎn)作為質(zhì)控位點(diǎn)進(jìn)行生物學(xué)實(shí)驗(yàn)驗(yàn)證是現(xiàn)在面臨的一 個(gè)難題。發(fā)明內(nèi)容
本發(fā)明主要解決的技術(shù)問(wèn)題是提供一種目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方法及裝 置,能夠從數(shù)以千計(jì)的SNP位點(diǎn)中挑選較有代表性的一組SNP作為質(zhì)控位點(diǎn)進(jìn)行生物學(xué)實(shí) 驗(yàn)驗(yàn)證。
為解決上述技術(shù)問(wèn)題,本發(fā)明采用的一個(gè)技術(shù)方案是提供一種目標(biāo)區(qū)域測(cè)序中 質(zhì)控位點(diǎn)選取方法,包括以下步驟在測(cè)序得到的核酸序列中選取目標(biāo)區(qū)域;對(duì)目標(biāo)區(qū)域 中的各單核苷酸多態(tài)性位點(diǎn),在數(shù)據(jù)庫(kù)中提取各單核苷酸多態(tài)性位點(diǎn)對(duì)于所有個(gè)體的基因 型,得到第一位點(diǎn)數(shù)據(jù),計(jì)算第一位點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等 位基因頻率;在實(shí)驗(yàn)樣本中,對(duì)預(yù)測(cè)所得的目標(biāo)區(qū)域內(nèi)的各單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選 后,合并每個(gè)實(shí)驗(yàn)個(gè)體目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn),得到第二位點(diǎn)數(shù)據(jù),計(jì)算第二位 點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻率;選取在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣 本中的次等位基因頻率最接近第一閾值且在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于第二閾值 的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)。
其中,計(jì)算第二位點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻 率的步驟之前,包括采用單核苷酸多態(tài)性位點(diǎn)預(yù)測(cè)軟件預(yù)測(cè)實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的單 核苷酸多態(tài)性位點(diǎn)。
其中,計(jì)算第二位點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻 率的步驟之前,包括對(duì)預(yù)測(cè)所得的實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩 選,所述對(duì)預(yù)測(cè)所得的實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選的條件參數(shù) 包括位點(diǎn)被測(cè)序數(shù)據(jù)覆蓋的層數(shù)、位點(diǎn)附近區(qū)域的拷貝數(shù)和單核苷酸多態(tài)性位點(diǎn)預(yù)測(cè)軟件的得分。
其中,在對(duì)預(yù)測(cè)所得的實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選的 步驟包括排除未出現(xiàn)在數(shù)據(jù)庫(kù)中的單核苷酸多態(tài)性位點(diǎn)。
其中,在選取在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的次等位基因頻率最接近第一閾值且在數(shù)據(jù) 庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于第二閾值的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)的步驟 之前,包括對(duì)目標(biāo)區(qū)域內(nèi)的各單核苷酸多態(tài)性位點(diǎn)在數(shù)據(jù)庫(kù)中得到的檢出率、在實(shí)驗(yàn)樣本 中得到的檢出率、在數(shù)據(jù)庫(kù)中得到的次等位基因頻率以及在實(shí)驗(yàn)樣本中得到的次等位基因 頻率分別進(jìn)行排序。
其中,在對(duì)目標(biāo)區(qū)域內(nèi)的各單核苷酸多態(tài)性位點(diǎn)在數(shù)據(jù)庫(kù)中得到的檢出率、在實(shí) 驗(yàn)樣本中得到的檢出率、在數(shù)據(jù)庫(kù)中得到的次等位基因頻率以及在實(shí)驗(yàn)樣本中得到的次等 位基因頻率分別進(jìn)行排序之后,包括根據(jù)排序結(jié)果選取在數(shù)據(jù)庫(kù)以及實(shí)驗(yàn)樣本中的次等 位基因頻率最接近O. 5且在數(shù)據(jù)庫(kù)以及實(shí)驗(yàn)樣本中的檢出率大于O. 97的一組單核苷酸多 態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)。
其中,在選取在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的次等位基因頻率最接近第一閾值且在數(shù)據(jù) 庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于第二閾值的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)的步驟 之后,包括分別計(jì)算所選取的質(zhì)控位點(diǎn)在數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體間的一致性,分 別得到數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體間的一致度,所述一致度為擁有不同位點(diǎn)個(gè)數(shù)樣本 對(duì)在總樣本對(duì)中的比例。
其中,在分別計(jì)算所挑選的質(zhì)控位點(diǎn)在數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體間的一致 性的步驟之后,包括根據(jù)擁有不同位點(diǎn)個(gè)數(shù)樣本對(duì)在總樣本對(duì)中的比例確定第三閾值來(lái) 作為判斷不同個(gè)體間所應(yīng)有的位點(diǎn)差異數(shù)。
為解決上述技術(shù)問(wèn)題,本發(fā)明采用的另一個(gè)技術(shù)方案是提供一種目標(biāo)區(qū)域測(cè)序 中質(zhì)控位點(diǎn)選取裝置,所述裝置包括選取模塊,用于在測(cè)序得到的核酸序列中選取目標(biāo)區(qū) 域;第一提取模塊,用于對(duì)目標(biāo)區(qū)域中的各單核苷酸多態(tài)性位點(diǎn),在數(shù)據(jù)庫(kù)中提取各單核苷 酸多態(tài)性位點(diǎn)對(duì)于所有個(gè)體的基因型,得到第一位點(diǎn)數(shù)據(jù);第二提取模塊,用于在實(shí)驗(yàn)樣本 中,對(duì)預(yù)測(cè)所得的目標(biāo)區(qū)域內(nèi)的各單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選后,合并每個(gè)實(shí)驗(yàn)個(gè)體目 標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn),得到第二位點(diǎn)數(shù)據(jù);第一計(jì)算模塊,用于計(jì)算第一位點(diǎn)數(shù) 據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻率以及計(jì)算第二位點(diǎn)數(shù)據(jù)中的 各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻率;取值模塊,用于選取在數(shù)據(jù)庫(kù)及實(shí) 驗(yàn)樣本中的次等位基因頻率最接近第一閾值且在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于第二 閾值的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)。
其中,預(yù)測(cè)模塊,用于采用單核苷酸多態(tài)性位點(diǎn)預(yù)測(cè)軟件預(yù)測(cè)實(shí)驗(yàn)樣本中目標(biāo)區(qū) 域內(nèi)的單核苷酸多態(tài)性位點(diǎn),并將預(yù)測(cè)結(jié)果發(fā)給篩選模塊。
其中,篩選模塊,用于對(duì)預(yù)測(cè)所得的實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位 點(diǎn)進(jìn)行篩選,排除未出現(xiàn)在數(shù)據(jù)庫(kù)中的單核苷酸多態(tài)性位點(diǎn),并將篩選結(jié)果發(fā)給所述第二 提取模塊,所述篩選模塊對(duì)預(yù)測(cè)所得的實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn)進(jìn)行 篩選的條件參數(shù)包括位點(diǎn)被測(cè)序數(shù)據(jù)覆蓋的層數(shù)、位點(diǎn)附近區(qū)域的拷貝數(shù)和單核苷酸多態(tài) 性位點(diǎn)預(yù)測(cè)軟件的得分。
其中,排序模塊,用于對(duì)目標(biāo)區(qū)域內(nèi)的各單核苷酸多態(tài)性位點(diǎn)在數(shù)據(jù)庫(kù)中得到的檢出率、在實(shí)驗(yàn)樣本中得到的檢出率、在數(shù)據(jù)庫(kù)中得到的次等位基因頻率以及在實(shí)驗(yàn)樣本 中得到的次等位基因頻率分別進(jìn)行排序,并將排序結(jié)果發(fā)給取值模塊。
其中,所述取值模塊根據(jù)排序結(jié)果選取在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的次等位基因頻率 最接近O. 5且在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于O. 97的一組單核苷酸多態(tài)性位點(diǎn)作為 質(zhì)控位點(diǎn)。
其中,第二計(jì)算模塊,用于分別計(jì)算所選取的質(zhì)控位點(diǎn)在數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn) 樣本個(gè)體間的一致性,分別得到數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體間的一致度,所述一致度 為擁有不同位點(diǎn)個(gè)數(shù)樣本對(duì)在總樣本對(duì)中的比例。
其中,確定模塊,用于根據(jù)所述擁有不同位點(diǎn)個(gè)數(shù)樣本對(duì)在總樣本對(duì)中的比例確 定第三閾值來(lái)作為判斷不同個(gè)體間所應(yīng)有的位點(diǎn)差異數(shù)。
本發(fā)明的有益效果是區(qū)別于現(xiàn)有技術(shù)難以挑選到具有代表性的質(zhì)控位點(diǎn)的缺 陷,本發(fā)明先對(duì)目標(biāo)區(qū)域中的各SNP位點(diǎn),在數(shù)據(jù)庫(kù)中提取各SNP位點(diǎn)對(duì)于所有個(gè)體的基因 型,得到第一位點(diǎn)數(shù)據(jù),計(jì)算第一位點(diǎn)數(shù)據(jù)中的各SNP位點(diǎn)的檢出率(call rate)以及次等 位基因頻率(maf);同時(shí)在實(shí)驗(yàn)樣本中,對(duì)預(yù)測(cè)所得的目標(biāo)區(qū)域內(nèi)的各單核苷酸多態(tài)性位 點(diǎn)進(jìn)行篩選后,合并每個(gè)實(shí)驗(yàn)個(gè)體目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn),得到第二位點(diǎn)數(shù)據(jù), 計(jì)算第二位點(diǎn)數(shù)據(jù)中的各SNP位點(diǎn)的檢出率以及次等位基因頻率;然后選取在數(shù)據(jù)庫(kù)及實(shí) 驗(yàn)樣本中的次等位基因頻率最接近第一閾值且在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于第二 閾值的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)。通過(guò)本發(fā)明,能從目標(biāo)區(qū)域中數(shù)以千記的 SNP位點(diǎn)中挑選出一組SNP位點(diǎn)作為質(zhì)控位點(diǎn)進(jìn)行生物學(xué)實(shí)驗(yàn)驗(yàn)證,設(shè)定的第一閾值和第 二閾值能確保挑選出的一組SNP位點(diǎn)最有代表性;另外,本發(fā)明只需計(jì)算目標(biāo)區(qū)域中各SNP 位點(diǎn)在數(shù)據(jù)庫(kù)中的call rate和maf以及在實(shí)驗(yàn)樣本中的call rate和maf,再根據(jù)call rate,maf以及設(shè)定的閾值來(lái)選取質(zhì)控位點(diǎn),因此該種質(zhì)控位點(diǎn)選取方法簡(jiǎn)單易操作。
圖1是本發(fā)明目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方法實(shí)施例的步驟流程圖2是本發(fā)明目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取裝置實(shí)施例的原理框圖。
具體實(shí)施方式
下面,結(jié)合具體實(shí)施例及附圖,對(duì)本發(fā)明作出詳細(xì)說(shuō)明。
請(qǐng)參閱圖1,本發(fā)明的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方法實(shí)施例中,包括以下步 驟
步驟101 :在測(cè)序得到的核酸序列中選取目標(biāo)區(qū)域;
選擇已完成測(cè)序的特定的基因組區(qū)域,如單核苷酸多態(tài)性位點(diǎn)區(qū)域,作為目標(biāo)區(qū) 域。
步驟102 :對(duì)目標(biāo)區(qū)域中的各單核苷酸多態(tài)性位點(diǎn),在數(shù)據(jù)庫(kù)中提取各單核苷酸 多態(tài)性位點(diǎn)對(duì)于所有個(gè)體的基因型,得到第一位點(diǎn)數(shù)據(jù),計(jì)算第一位點(diǎn)數(shù)據(jù)中的各單核苷 酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻率;在實(shí)驗(yàn)樣本中,對(duì)預(yù)測(cè)所得的目標(biāo)區(qū)域內(nèi)的 各單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選后,合并每個(gè)實(shí)驗(yàn)個(gè)體目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位 點(diǎn),得到第二位點(diǎn)數(shù)據(jù),計(jì)算第二位點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻率;
其中,call rate的定義能夠檢測(cè)到基因型的個(gè)體數(shù)與總的個(gè)體數(shù)之商。maf的 定義為所有等位基因型中等位基因頻率在特定群體中較低的等位基因的頻率。
其中,得到的第二位點(diǎn)數(shù)據(jù)滿足以下三個(gè)條件
I)測(cè)序數(shù)據(jù)唯一覆蓋層數(shù)大于等于10層;
2)該位點(diǎn)附近區(qū)域拷貝數(shù)為I ;
3) SOAPsnp軟件所得一致基因型質(zhì)量值大于等于40。
當(dāng)然,上述僅僅是對(duì)得到的第二位點(diǎn)數(shù)據(jù)所滿足條件的一個(gè)例子的說(shuō)明,因此,在 其他實(shí)施例中,測(cè)序數(shù)據(jù)唯一覆蓋層數(shù)大于等于的層數(shù)不限于10層,而該位點(diǎn)附近區(qū)域拷 貝數(shù)也不限于1,SOAPsnp軟件所得一致基因型質(zhì)量值也不限于大于等于40。
步驟103 :選取在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的次等位基因頻率最接近第一閾值且在數(shù) 據(jù)庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于第二閾值的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)。
其中,上述的數(shù)據(jù)庫(kù)為人類基因組單體型圖(Haplotype Map, HapMap)數(shù)據(jù)庫(kù)。 HapMap數(shù)據(jù)庫(kù)的定義國(guó)際人類基因組單體型圖計(jì)劃建立的一個(gè)免費(fèi)向公眾開(kāi)放關(guān)于人 類疾病(及疾病對(duì)藥物反應(yīng))相關(guān)基因的數(shù)據(jù)庫(kù),共有270個(gè)人的基因組中常見(jiàn)的SNP位 點(diǎn)數(shù)據(jù)以及由群體中頻率大于1%的那些共同遺傳的相鄰SNP位點(diǎn)組合成的單體型數(shù)據(jù)。
為了從目標(biāo)區(qū)域的各SNP位點(diǎn)中挑選出能作為質(zhì)控位點(diǎn)的一組SNP位點(diǎn),把一個(gè) SNP位點(diǎn)在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的maf為O. 5定義為第一閾值,把該位點(diǎn)在HapMap數(shù)據(jù)庫(kù) 及實(shí)驗(yàn)樣本中的call rate為O. 97定義為第二閾值,則能作為質(zhì)控位點(diǎn)的一組SNP位點(diǎn)中 的每一個(gè)SNP位點(diǎn)既要滿足其在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本的maf最接近第一閾值又要滿足其在 HapMap數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的call rate大于第二閾值。
步驟102中,先對(duì)目標(biāo)區(qū)域中的各單核苷酸多態(tài)性位點(diǎn),在數(shù)據(jù)庫(kù)中提取各單核 苷酸多態(tài)性位點(diǎn)對(duì)于所有個(gè)體的基因型,得到第一位點(diǎn)數(shù)據(jù),計(jì)算第一位點(diǎn)數(shù)據(jù)中的各單 核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻率;然后在實(shí)驗(yàn)樣本中,對(duì)預(yù)測(cè)所得的目標(biāo) 區(qū)域內(nèi)的各單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選后,合并每個(gè)實(shí)驗(yàn)個(gè)體目標(biāo)區(qū)域內(nèi)的單核苷酸多 態(tài)性位點(diǎn),得到第二位點(diǎn)數(shù)據(jù),計(jì)算第二位點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以 及次等位基因頻率,或者
先在實(shí)驗(yàn)樣本中,對(duì)預(yù)測(cè)所得的目標(biāo)區(qū)域內(nèi)的各單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選 后,合并每個(gè)實(shí)驗(yàn)個(gè)體目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn),得到第二位點(diǎn)數(shù)據(jù),計(jì)算第二位 點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻率;然后對(duì)目標(biāo)區(qū)域中的各 單核苷酸多態(tài)性位點(diǎn),在數(shù)據(jù)庫(kù)中提取各單核苷酸多態(tài)性位點(diǎn)對(duì)于所有個(gè)體的基因型,得 到第一位點(diǎn)數(shù)據(jù),計(jì)算第一位點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因 頻率;
本發(fā)明通過(guò)選取目標(biāo)區(qū)域,對(duì)目標(biāo)區(qū)域中的各SNP位點(diǎn),在HapMap數(shù)據(jù)庫(kù)中提取 各SNP位點(diǎn)對(duì)于所有個(gè)體的基因型,得到第一位點(diǎn)數(shù)據(jù),計(jì)算第一位點(diǎn)數(shù)據(jù)中的各SNP位點(diǎn) 的檢出率以及次等位基因頻率;在實(shí)驗(yàn)樣本中,對(duì)預(yù)測(cè)所得的目標(biāo)區(qū)域內(nèi)的各SNP位點(diǎn)進(jìn) 行篩選后,合并每個(gè)實(shí)驗(yàn)個(gè)體目標(biāo)區(qū)域內(nèi)的SNP位點(diǎn),得到第二位點(diǎn)數(shù)據(jù),計(jì)算第二位點(diǎn)數(shù) 據(jù)中的各SNP的檢出率以及次等位基因頻率;選取在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的次等位基因頻 率最接近第一閾值且在HapMap數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于第二閾值的一組SNP位點(diǎn)作為質(zhì)控位點(diǎn)。這樣選取的一組SNP作為質(zhì)控位點(diǎn)是較有代表性的,在本發(fā)明實(shí)施例中 甚至是最有代表性的,且該種質(zhì)控位點(diǎn)的選取方法簡(jiǎn)單易操作。
在另一實(shí)施例中,在計(jì)算第二位點(diǎn)數(shù)據(jù)中的各SNP位點(diǎn)的call rate以及maf的 步驟之前,包括采用SNP位點(diǎn)預(yù)測(cè)軟件(如SOAPSnp)預(yù)測(cè)實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的SNP 位點(diǎn)。SOAPSnp軟件是一款華大基因自主研發(fā)的基于第二代測(cè)序技術(shù)數(shù)據(jù)的SNP位點(diǎn)檢測(cè) 軟件。所述 SOAPSnp 軟件的下載地址http://soap. genomics, org. cn/soapsnp. html。當(dāng) 然,預(yù)測(cè)實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的SNP位點(diǎn)的方法還有其它,在此不再贅述。本實(shí)施例中, 采用SOAPSnp軟件預(yù)測(cè)實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的SNP位點(diǎn),具有預(yù)測(cè)效率高、預(yù)測(cè)準(zhǔn)確性較 高、預(yù)測(cè)全面的特點(diǎn)。
在另一實(shí)施例中,在計(jì)算第二位點(diǎn)數(shù)據(jù)中的各SNP位點(diǎn)的call rate以及maf的 步驟之前,包括對(duì)預(yù)測(cè)所得的實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的SNP位點(diǎn)進(jìn)行篩選,所述對(duì)預(yù)測(cè)所 得的實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的SNP位點(diǎn)進(jìn)行篩選的條件參數(shù)包括位點(diǎn)被測(cè)序數(shù)據(jù)覆蓋的 層數(shù)、位點(diǎn)附近區(qū)域的拷貝數(shù)和SNP位點(diǎn)預(yù)測(cè)軟件的得分。
在另一實(shí)施例中,在對(duì)預(yù)測(cè)所得的實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的SNP位點(diǎn)進(jìn)行篩選 的步驟中,排除未出現(xiàn)在HapMap數(shù)據(jù)庫(kù)中的SNP位點(diǎn)。本實(shí)施例中由于排除了未出現(xiàn)在 HapMap數(shù)據(jù)庫(kù)中的SNP位點(diǎn),因此提高了合并每個(gè)實(shí)驗(yàn)個(gè)體目標(biāo)區(qū)域內(nèi)的各SNP位點(diǎn)、得到 第二位點(diǎn)數(shù)據(jù)的效率。
在另一實(shí)施例中,在選取在HapMap數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的maf最接近第一閾值且 在HapMap數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的call rate大于第二閾值的一組SNP位點(diǎn)作為質(zhì)控位點(diǎn) 的步驟之前,包括對(duì)各SNP位點(diǎn)在HapMap數(shù)據(jù)庫(kù)中得到的call rate、在實(shí)驗(yàn)樣本中得到 的call rate>HapMap在數(shù)據(jù)庫(kù)中得到的maf以及在實(shí)驗(yàn)樣本中得到的maf分別進(jìn)行排序。 本實(shí)驗(yàn)例中通過(guò)對(duì)call rate以及maf分別進(jìn)行排序,可以十分清楚地得知HapMap數(shù)據(jù)庫(kù) 中的call rate大小順序、實(shí)驗(yàn)樣本中的call rate大小順序、數(shù)據(jù)庫(kù)中的maf大小順序以 及實(shí)驗(yàn)樣本中的maf的大小順序,方便取值。
在另一實(shí)施例中,對(duì)各SNP位點(diǎn)在HapMap數(shù)據(jù)庫(kù)中得到的call rate、在實(shí)驗(yàn)樣本 中得到的call rate、HapMap在數(shù)據(jù)庫(kù)中得到的maf以及在實(shí)驗(yàn)樣本中得到的maf分別進(jìn) 行排序的步驟之后,包括根據(jù)排序結(jié)果選取在HapMap數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的maf最接近 O. 5且在HapMap數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的call rate大于O. 97的一組SNP位點(diǎn)作為質(zhì)控位 點(diǎn)。本實(shí)施例為了使所選取的質(zhì)控位點(diǎn)在大部分個(gè)體中均能檢測(cè)得到,選取在HapMap數(shù)據(jù) 庫(kù)及實(shí)驗(yàn)樣本中的檢出率為O. 97以上的單核苷酸多態(tài)性位點(diǎn),閾值O. 97可以根據(jù)實(shí)際情 況進(jìn)行變動(dòng),但變動(dòng)的底限為O. 90,即閾值可為O. 90,但不能低于O. 90 ;同時(shí),為了使所選 質(zhì)控位點(diǎn)有足夠的多態(tài)性以至于在質(zhì)控過(guò)程中被區(qū)分開(kāi),選取在HapMap數(shù)據(jù)庫(kù)中及實(shí)驗(yàn) 樣本中次等位基因頻率最接近O. 5的若干SNP位點(diǎn)作為質(zhì)控位點(diǎn),所選SNP位點(diǎn)個(gè)數(shù)視實(shí) 際情況而定,一般為20個(gè)或以上。
在另一實(shí)施例中,在選取在HapMap數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的maf最接近第一閾值 且在HapMap數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的call rate大于第二閾值的一組SNP位點(diǎn)作為質(zhì)控位 點(diǎn)的步驟之后,包括分別計(jì)算所選取的質(zhì)控位點(diǎn)在HapMap數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本 個(gè)體間的一致性,分別得到HapMap數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體間的一致度,所述一致 度為擁有不同位點(diǎn)個(gè)數(shù)樣本對(duì)在總樣本對(duì)中的比例。本實(shí)施例中,通過(guò)對(duì)作為質(zhì)控位點(diǎn)的SNP位點(diǎn)分別進(jìn)行在HapMap數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體間的一致性的計(jì)算,分別得到 HapMap數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體間的一致度,一方面以確保所選取的質(zhì)控位點(diǎn)具有 足夠的代表性,能夠區(qū)分開(kāi)所有樣本;另一方面,根據(jù)一致度,可以確定第三閾值來(lái)作為判 斷不同個(gè)體間所應(yīng)有的位點(diǎn)差異數(shù)。
在另一實(shí)施例中,在根據(jù)分別計(jì)算所挑選的質(zhì)控位點(diǎn)在HapMap數(shù)據(jù)庫(kù)個(gè)體間以 及實(shí)驗(yàn)樣本個(gè)體間的一致性的步驟之后,包括根據(jù)擁有不同位點(diǎn)個(gè)數(shù)樣本對(duì)在總樣本對(duì) 中的比例確定第三閾值來(lái)作為判斷不同個(gè)體間所應(yīng)有的位點(diǎn)差異數(shù)。對(duì)于不同的實(shí)驗(yàn)樣 本,一致度確定的第三閾值不同,在此不再一一贅述。
下面,提供一應(yīng)用例對(duì)本發(fā)明進(jìn)行更詳細(xì)的說(shuō)明。
步驟一在測(cè)序得到的核酸序列中選取9587個(gè)目標(biāo)區(qū)域。
步驟二 對(duì)目標(biāo)區(qū)域中的各SNP位點(diǎn),在HapMap數(shù)據(jù)庫(kù)中提取各SNP位點(diǎn)對(duì)于 HapMap數(shù)據(jù)庫(kù)中所有個(gè)體的基因型,得到第一位點(diǎn)數(shù)據(jù),所述第一位點(diǎn)數(shù)據(jù)包括下述文件 類型的數(shù)據(jù)
SNP編號(hào)、SNP位置信息、個(gè)體I基因型、個(gè)體2基因型......;
每一行代表一個(gè)位點(diǎn),一共有2285個(gè)位點(diǎn)被選擇。
步驟三采用SOAPSnp軟件預(yù)測(cè)實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的SNP位點(diǎn),得到實(shí)驗(yàn)樣本 目標(biāo)區(qū)域內(nèi)的SNP位點(diǎn)預(yù)測(cè)結(jié)果;
步驟四對(duì)實(shí)驗(yàn)樣本目標(biāo)區(qū)域內(nèi)的SNP位點(diǎn)預(yù)測(cè)結(jié)果進(jìn)行篩選,篩選的條件為
I)測(cè)序數(shù)據(jù)唯一覆蓋層數(shù)大于等于10層;
2)該位點(diǎn)附近區(qū)域拷貝數(shù)為I ;
3) SOAPsnp所得一致基因型質(zhì)量值大于等于40。
并且為了提高效率,不在HapMap數(shù)據(jù)庫(kù)中的SNP位點(diǎn)不作考慮,根據(jù)以上條件參 數(shù),得到實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的SNP位點(diǎn)篩選結(jié)果。步驟五合并每個(gè)實(shí)驗(yàn)個(gè)體目標(biāo)區(qū)域 內(nèi)的各SNP位點(diǎn),得到第二位點(diǎn)數(shù)據(jù),所述第二位點(diǎn)數(shù)據(jù)包括下述文件類型的數(shù)據(jù)
SNP編號(hào)、SNP位置信息、個(gè)體I基因型、個(gè)體2基因型......;
每一行代表一個(gè)位點(diǎn),一共有1834個(gè)位點(diǎn)被選擇。
步驟六根據(jù)步驟二與步驟五所得到的結(jié)果,分別計(jì)算這些SNP位點(diǎn)在HapMap數(shù) 據(jù)庫(kù)中以及實(shí)驗(yàn)樣本中的call rate以及maf。
步驟七對(duì)各SNP位點(diǎn)在HapMap數(shù)據(jù)庫(kù)中得到的call rate、在實(shí)驗(yàn)樣本中得到 的call rate、在HapMap數(shù)據(jù)庫(kù)中得到的maf以及在實(shí)驗(yàn)樣本中得到的maf分別進(jìn)行排序, 根據(jù)排序結(jié)果取在HapMap數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的maf最接近O. 5并且在HapMap數(shù)據(jù)庫(kù)及 實(shí)驗(yàn)樣本中callrate盡可能高的SNP位點(diǎn)作為質(zhì)控位點(diǎn),在本應(yīng)用例中,總共取31個(gè)SNP 位點(diǎn)作為質(zhì)控位點(diǎn),其在HapMap數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的call rate均在O. 97以上,且在 HapMap數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的maf均為O. 4以上。
步驟八分別計(jì)算所選取的質(zhì)控位點(diǎn)在HapMap數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體 間的一致性。在本應(yīng)用例中從所得到的31個(gè)SNP位點(diǎn)中挑選其中次等位基因頻率最高的 20個(gè),計(jì)算得到這些SNP位點(diǎn)在HapMap數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體間的一致度,一致 度為擁有不同位點(diǎn)個(gè)數(shù)樣本對(duì)在總樣本對(duì)中的比例。
步驟九根據(jù)擁有不同位點(diǎn)個(gè)數(shù)樣本對(duì)在總樣本對(duì)中的比例確定一個(gè)閾值(第三閾值)作為判斷不同個(gè)體間所應(yīng)有的位點(diǎn)差異數(shù)。如下表所示的實(shí)驗(yàn)樣本個(gè)體間的一致性,當(dāng)實(shí)驗(yàn)個(gè)體間不同位點(diǎn)少于8個(gè)時(shí),差異個(gè)體對(duì)占所有成對(duì)樣本數(shù)目的比例為少于 5%,即當(dāng)一致度為少于5%時(shí),確定第三閾值為8,由第三閾值可以推論得知,如果某個(gè)個(gè)體此20個(gè)不同位點(diǎn)中存在8個(gè)以上軟件預(yù)測(cè)結(jié)果與質(zhì)譜實(shí)驗(yàn)結(jié)果或其它方式驗(yàn)證SNP的實(shí)驗(yàn)結(jié)果不一致時(shí),此個(gè)體將會(huì)被定義為測(cè)序數(shù)據(jù)不可靠。由下表可知,所挑選的20個(gè)SNP 位點(diǎn)能夠明確區(qū)分開(kāi)兩個(gè)個(gè)體,具有代表性。
權(quán)利要求
1.一種目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方法,其特征在于,包括以下步驟 在測(cè)序得到的核酸序列中選取目標(biāo)區(qū)域; 對(duì)目標(biāo)區(qū)域中的各單核苷酸多態(tài)性位點(diǎn),在數(shù)據(jù)庫(kù)中提取各單核苷酸多態(tài)性位點(diǎn)對(duì)于所有個(gè)體的基因型,得到第一位點(diǎn)數(shù)據(jù),計(jì)算第一位點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻率;在實(shí)驗(yàn)樣本中,對(duì)預(yù)測(cè)所得的目標(biāo)區(qū)域內(nèi)的各單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選后,合并每個(gè)實(shí)驗(yàn)個(gè)體目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn),得到第二位點(diǎn)數(shù)據(jù),計(jì)算第二位點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻率; 選取在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的次等位基因頻率最接近第一閾值且在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于第二閾值的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)。
2.根據(jù)權(quán)利要求1所述的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方法,其特征在于 計(jì)算第二位點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻率的步驟之前,包括采用單核苷酸多態(tài)性位點(diǎn)預(yù)測(cè)軟件預(yù)測(cè)實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn)。
3.根據(jù)權(quán)利要求1所述的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方法,其特征在于 計(jì)算第二位點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻率的步驟之前,包括對(duì)預(yù)測(cè)所得的實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選,所述對(duì)預(yù)測(cè)所得的實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選的條件參數(shù)包括位點(diǎn)被測(cè)序數(shù)據(jù)覆蓋的層數(shù)、位點(diǎn)附近區(qū)域的拷貝數(shù)和單核苷酸多態(tài)性位點(diǎn)預(yù)測(cè)軟件的得分。
4.根據(jù)權(quán)利要求3所述的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方法,其特征在于 在對(duì)預(yù)測(cè)所得的實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選的步驟包括排除未出現(xiàn)在數(shù)據(jù)庫(kù)中的單核苷酸多態(tài)性位點(diǎn)。
5.根據(jù)權(quán)利要求1 4任一項(xiàng)所述的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方法,其特征在于 在選取在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的次等位基因頻率最接近第一閾值且在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于第二閾值的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)的步驟之前,包括對(duì)目標(biāo)區(qū)域內(nèi)的各單核苷酸多態(tài)性位點(diǎn)在數(shù)據(jù)庫(kù)中得到的檢出率、在實(shí)驗(yàn)樣本中得到的檢出率、在數(shù)據(jù)庫(kù)中得到的次等位基因頻率以及在實(shí)驗(yàn)樣本中得到的次等位基因頻率分別進(jìn)行排序。
6.根據(jù)權(quán)利要求5所述的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方法,其特征在于 在對(duì)目標(biāo)區(qū)域內(nèi)的各單核苷酸多態(tài)性位點(diǎn)在數(shù)據(jù)庫(kù)中得到的檢出率、在實(shí)驗(yàn)樣本中得到的檢出率、在數(shù)據(jù)庫(kù)中得到的次等位基因頻率以及在實(shí)驗(yàn)樣本中得到的次等位基因頻率分別進(jìn)行排序之后,包括根據(jù)排序結(jié)果選取在數(shù)據(jù)庫(kù)以及實(shí)驗(yàn)樣本中的次等位基因頻率最接近O. 5且在數(shù)據(jù)庫(kù)以及實(shí)驗(yàn)樣本中的檢出率大于O. 97的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)。
7.根據(jù)權(quán)利要求1所述的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方法,其特征在于 在選取在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的次等位基因頻率最接近第一閾值且在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于第二閾值的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)的步驟之后,包括分別計(jì)算所選取的質(zhì)控位點(diǎn)在數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體間的一致性,分別得到數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體間的一致度,所述一致度為擁有不同位點(diǎn)個(gè)數(shù)樣本對(duì)在總樣本對(duì)中的比例。
8.根據(jù)權(quán)利要求7所述的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方法,其特征在于 在分別計(jì)算所挑選的質(zhì)控位點(diǎn)在數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體間的一致性的步驟之后,包括根據(jù)擁有不同位點(diǎn)個(gè)數(shù)樣本對(duì)在總樣本對(duì)中的比例確定第三閾值來(lái)作為判斷不同個(gè)體間所應(yīng)有的位點(diǎn)差異數(shù)。
9.一種目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取裝置,其特征在于,所述裝置包括 選取模塊,用于在測(cè)序得到的核酸序列中選取目標(biāo)區(qū)域; 第一提取模塊,用于對(duì)目標(biāo)區(qū)域中的各單核苷酸多態(tài)性位點(diǎn),在數(shù)據(jù)庫(kù)中提取各單核苷酸多態(tài)性位點(diǎn)對(duì)于所有個(gè)體的基因型,得到第一位點(diǎn)數(shù)據(jù); 第二提取模塊,用于在實(shí)驗(yàn)樣本中,對(duì)預(yù)測(cè)所得的目標(biāo)區(qū)域內(nèi)的各單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選后,合并每個(gè)實(shí)驗(yàn)個(gè)體目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn),得到第二位點(diǎn)數(shù)據(jù); 第一計(jì)算模塊,用于計(jì)算第一位點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻率以及計(jì)算第二位點(diǎn)數(shù)據(jù)中的各單核苷酸多態(tài)性位點(diǎn)的檢出率以及次等位基因頻率; 取值模塊,用于選取在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的次等位基因頻率最接近第一閾值且在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于第二閾值的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)。
10.根據(jù)權(quán)利要求9所述的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取裝置,其特征在于 預(yù)測(cè)模塊,用于采用單核苷酸多態(tài)性位點(diǎn)預(yù)測(cè)軟件預(yù)測(cè)實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn),并將預(yù)測(cè)結(jié)果發(fā)給篩選模塊。
11.根據(jù)權(quán)利要求9所述的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取裝置,其特征在于 篩選模塊,用于對(duì)預(yù)測(cè)所得的實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選,排除未出現(xiàn)在數(shù)據(jù)庫(kù)中的單核苷酸多態(tài)性位點(diǎn),并將篩選結(jié)果發(fā)給所述第二提取模塊,所述篩選模塊對(duì)預(yù)測(cè)所得的實(shí)驗(yàn)樣本中目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選的條件參數(shù)包括位點(diǎn)被測(cè)序數(shù)據(jù)覆蓋的層數(shù)、位點(diǎn)附近區(qū)域的拷貝數(shù)和單核苷酸多態(tài)性位點(diǎn)預(yù)測(cè)軟件的得分。
12.根據(jù)權(quán)利要求9 11任一項(xiàng)所述的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取裝置,其特征在于 排序模塊,用于對(duì)目標(biāo)區(qū)域內(nèi)的各單核苷酸多態(tài)性位點(diǎn)在數(shù)據(jù)庫(kù)中得到的檢出率、在實(shí)驗(yàn)樣本中得到的檢出率、在數(shù)據(jù)庫(kù)中得到的次等位基因頻率以及在實(shí)驗(yàn)樣本中得到的次等位基因頻率分別進(jìn)行排序,并將排序結(jié)果發(fā)給取值模塊。
13.根據(jù)權(quán)利要求9所述的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取裝置,其特征在于 所述取值模塊根據(jù)排序結(jié)果選取在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的次等位基因頻率最接近O. 5且在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于O. 97的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)。
14.根據(jù)權(quán)利要求9所述的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取裝置,其特征在于 第二計(jì)算模塊,用于分別計(jì)算所選取的質(zhì)控位點(diǎn)在數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體間的一致性,分別得到數(shù)據(jù)庫(kù)個(gè)體間以及實(shí)驗(yàn)樣本個(gè)體間的一致度,所述一致度為擁有不同位點(diǎn)個(gè)數(shù)樣本對(duì)在總樣本對(duì)中的比例。
15.根據(jù)權(quán)利要求14所述的目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取裝置,其特征在于確定模塊,用于根據(jù)所述擁有不同位點(diǎn)個(gè)數(shù)樣本對(duì)在總樣本對(duì)中的比例確定第三閾值來(lái)作為判斷不同個(gè)體間所應(yīng)有的位點(diǎn)差異數(shù)。
全文摘要
本發(fā)明公開(kāi)了一種目標(biāo)區(qū)域測(cè)序中質(zhì)控位點(diǎn)選取方法及裝置,所述方法包括選取目標(biāo)區(qū)域;在數(shù)據(jù)庫(kù)中提取各單核苷酸多態(tài)性位點(diǎn)對(duì)于所有個(gè)體的基因型,得到第一位點(diǎn)數(shù)據(jù),根據(jù)該數(shù)據(jù)計(jì)算檢出率以及次等位基因頻率;在實(shí)驗(yàn)樣本中,對(duì)預(yù)測(cè)所得的目標(biāo)區(qū)域內(nèi)的各單核苷酸多態(tài)性位點(diǎn)進(jìn)行篩選后,合并每個(gè)實(shí)驗(yàn)個(gè)體目標(biāo)區(qū)域內(nèi)的單核苷酸多態(tài)性位點(diǎn),得到第二位點(diǎn)數(shù)據(jù),根據(jù)該數(shù)據(jù)計(jì)算檢出率以及次等位基因頻率;選取在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的次等位基因頻率最接近第一閾值且在數(shù)據(jù)庫(kù)及實(shí)驗(yàn)樣本中的檢出率大于第二閾值的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)。這樣選取的一組單核苷酸多態(tài)性位點(diǎn)作為質(zhì)控位點(diǎn)是較有代表性的,且該種質(zhì)控位點(diǎn)選取方法簡(jiǎn)單易操作。
文檔編號(hào)G06F19/20GK103020490SQ201110287949
公開(kāi)日2013年4月3日 申請(qǐng)日期2011年9月26日 優(yōu)先權(quán)日2011年9月26日
發(fā)明者蔣濤, 李英睿, 汪建, 王俊, 楊煥明 申請(qǐng)人:深圳華大基因科技有限公司, 深圳華大基因研究院