專利名稱:一種染色體同線性同源區(qū)域的檢測方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于基因工程領(lǐng)域,尤其涉及一種染色體同線性同源區(qū)域的檢測方法和系 統(tǒng)。
背景技術(shù):
基因復(fù)制是指DNA片段在基因組中復(fù)制出一個(gè)或更多的拷貝,這種DNA片段可以
是一小段基因組序列、整條染色體、甚至是整個(gè)基因組?;驈?fù)制是基因組進(jìn)化最主要的驅(qū)
動(dòng)力之一,是產(chǎn)生具有新功能的基因和進(jìn)化出新物種的主要原因之一。 基因復(fù)制現(xiàn)象廣泛存在,據(jù)估計(jì),酵母基因組在1億年前發(fā)生過一次全基因組的
復(fù)制。全基因復(fù)制現(xiàn)象在脊椎動(dòng)物體內(nèi)非常罕見,但是在植物體內(nèi)卻非常普遍。很多植物
都在祖先階段或是近期發(fā)生過全基因組復(fù)制,如雙子葉植物中的祖先基因組復(fù)制事件和楊
樹近期的全基因組復(fù)制事件。從化石記錄來看,被子植物是在地球上某一時(shí)期產(chǎn)生之后,迅
速蔓延發(fā)展的。呈現(xiàn)出一系列突發(fā)的進(jìn)化特點(diǎn),包括產(chǎn)生新的組織結(jié)構(gòu),如原始花瓣,心皮
和萼片等。 一些研究結(jié)果顯示,大豆、馬鈴薯、煙草都發(fā)生過近期的全基因組復(fù)制事件,而在
玉米和葡萄中發(fā)生的全基因組復(fù)制事件卻極其古老?,F(xiàn)在人們期望能夠通過人工選擇農(nóng)作
物品種的基因復(fù)制,生產(chǎn)出具有快生長、產(chǎn)量高、個(gè)頭大等特性的作物。 同線性是指基因組染色體間所含基因及基因的順序均高度保守,但由于物種內(nèi)存 在不同程度的重組,基因順序有時(shí)存在變化。通過檢測基因組序列的同線性同源區(qū)域,可以 掌握物種基因復(fù)制事件。目前,檢測基因組序列的同線性同源區(qū)域的方法主要是對完整的 基因組序列同線性同源區(qū)域定位的直接觀察(即采用目測的方式),其復(fù)雜程度如圖5a所 示,其中圖5a中的每條線表示一對基因的同源關(guān)系。比如,擬南芥是第一個(gè)基因組完全測 序植物,把對應(yīng)的同源關(guān)系區(qū)域用一條線來表示,沿著染色體具有許多同線性同源區(qū)域,這 就是全基因組復(fù)制的遺留物,然而,由于全基因組復(fù)制經(jīng)常發(fā)生在幾百萬至幾億年之前,其 產(chǎn)成的基因的快速和大規(guī)模缺失,以及后來又發(fā)生的其他復(fù)制事件(串聯(lián)重復(fù)和隨機(jī)轉(zhuǎn)座 事件),通過目測從點(diǎn)圖或線圖中(復(fù)雜程度參見圖5a)去識別祖先發(fā)生的全基因組復(fù)制事 件變得極其困難。如果在物種內(nèi)部通過目測識別同線性同源區(qū)域已經(jīng)足夠困難的話,那么 在物種之間進(jìn)行同線性同源區(qū)域的識別就變得更為困難,而且在一些情況下是完全不可行 的。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種染色體同線性同源區(qū)域的檢測方法,旨在解決現(xiàn)有的采用目測方式檢測染色體同線性同源區(qū)域時(shí)復(fù)雜度高、檢測效率低的問題。 本發(fā)明是這樣實(shí)現(xiàn)的,一種染色體同線性同源區(qū)域的檢測方法,所述方法包括下
述步驟 將參考基因集中的參考基因定位到與染色體對應(yīng)的目標(biāo)基因組上,形成基因拷貝 座位; 根據(jù)所述基因拷貝座位,將重疊的基因拷貝聚類到一起,形成模糊位點(diǎn)基因代表 座位; 根據(jù)所述模糊位點(diǎn)代表基因座位,利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法檢測染色體的 同線性同源區(qū)域。 本發(fā)明的另一目的在于提供一種染色體同線性同源區(qū)域檢測系統(tǒng),所述系統(tǒng)包 括 參考基因定位單元,用于將參考基因集中的參考基因定位到與染色體對應(yīng)的目標(biāo) 基因組上,構(gòu)成基因拷貝座位; 基因拷貝聚類單元,用于根據(jù)所述參考基因定位單元得到的基因拷貝座位,將重 疊的基因拷貝聚類到一起,形成模糊位點(diǎn)基因代表座位; 同線性檢測單元,用于根據(jù)所述基因拷貝聚類單元得到的模糊位點(diǎn)代表基因座 位,利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法檢測染色體的同線性同源區(qū)域。 在本發(fā)明實(shí)施例中,通過將參考基因集中的參考基因定位到目標(biāo)基因組上,得到 基因拷貝座位,再將有重疊的基因拷貝聚類到一起,形成模糊位點(diǎn)代表基因座位,最后根據(jù) 得到的模糊位點(diǎn)代表基因座位,利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法即可自動(dòng)檢測到染色體的 同線性同源區(qū)域,且本發(fā)明實(shí)施例提供的檢測方法敏感度高,復(fù)雜度低,避免了目測時(shí)主觀 因素對染色體同線性同源區(qū)域檢測的影響。
圖1是本發(fā)明的染色體同線性同源區(qū)域的檢測方法的一個(gè)實(shí)施例的流程圖;
圖2是本發(fā)明的染色體同線性同源區(qū)域的檢測方法的另一個(gè)實(shí)施例的流程圖;
圖3是本發(fā)明實(shí)施例提供的將參考基因集中的所有參考基因定位到目標(biāo)基因組 上的示意圖; 圖4a是本發(fā)明實(shí)施例提供的原始的在兩個(gè)染色體上的模糊位點(diǎn)代表基因座位的 示意圖; 圖4b是本發(fā)明實(shí)施例提供的根據(jù)圖4a所示的原始的在兩個(gè)染色體上的模糊位點(diǎn) 代表基因座位進(jìn)行打分的實(shí)現(xiàn)示意圖; 圖4c是本發(fā)明實(shí)施例提供的根據(jù)圖4b所示得打分過程得到的分值和打分路徑示 意圖; 圖4d是本發(fā)明實(shí)施例提供的根據(jù)圖4c所示的最優(yōu)打分路徑得到的染色體同線性 同源的基因示意圖; 圖5a是現(xiàn)有技術(shù)提供的通過目測方式檢測染色體同線性同源區(qū)域的結(jié)果示意 圖; 圖5b是本發(fā)明實(shí)施例提供的染色體同線性同源區(qū)域檢測方法的檢測結(jié)果示意圖; 圖6是本發(fā)明實(shí)施例提供的檢測葡萄與楊樹基因組所發(fā)生的全基因復(fù)制事件的 效果圖; 圖7是本發(fā)明的染色體同線性同源區(qū)域檢測系統(tǒng)的一個(gè)實(shí)施例的結(jié)構(gòu)框圖; 圖8是本發(fā)明的染色體同線性同源區(qū)域檢測系統(tǒng)的另一個(gè)實(shí)施例的結(jié)構(gòu)框圖。
具體實(shí)施例方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。 在本發(fā)明實(shí)施例中,將參考基因集中的參考基因定位到目標(biāo)基因組上,得到基因 拷貝座位,再將目標(biāo)基因組上有重疊的基因拷貝聚類到一起,形成模糊位點(diǎn)代表基因座位, 最后根據(jù)得到的模糊位點(diǎn)代表基因座位,利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法自動(dòng)檢測到染色 體的同線性同源區(qū)域。 圖1示出了本發(fā)明的染色體同線性同源區(qū)域的檢測方法的一個(gè)實(shí)施例的流程圖, 詳述如下 在步驟S102中,將參考基因集中的參考基因定位到目標(biāo)基因組上,形成基因拷貝 座位。 在本發(fā)明實(shí)施例中,通過將參考基因集中的所有參考基因定位到目標(biāo)基因組上, 可以搜索到參考基因在目標(biāo)基因組上的基因拷貝。當(dāng)檢測種內(nèi)染色體之間的同線性同源區(qū) 域時(shí),采用物種內(nèi)的兩條染色體作為目標(biāo)基因組,采用物種自身的基因集作為參考基因集, 即可敏感地搜索到所有基因拷貝;當(dāng)檢測物種之間染色體的同線性同源區(qū)域時(shí),采用物種 間的兩條染色體作為目標(biāo)基因組,將兩個(gè)物種的基因集混和起來作為參考基因集,以便敏 感地搜索到所有的基因拷貝。 其中將參考基因集中的參考基因定位到目標(biāo)基因組上的具體示例過程如圖3所 示,當(dāng)參考基因集包括參考基因A和參考基因B時(shí),則將參考基因A定位到目標(biāo)基因組上 時(shí),參考基因A可以與目標(biāo)基因組上的兩個(gè)基因片段比對上,從而搜索到與參考基因A對應(yīng) 的基因拷貝;將參考基因B定位到目標(biāo)基因組上時(shí),參考基因B可以與目標(biāo)基因組上的多個(gè) 基因片段比對上,從而搜索到多個(gè)與參考基因B對應(yīng)的基因拷貝。在本發(fā)明一個(gè)實(shí)施例中, 可以直接通過例如NCBI-blast軟件包中的tblastn把參考基因集定位到目標(biāo)基因組上,以 搜索基因拷貝。其中tblastn能夠比對上低度同源的區(qū)域。在使用上述軟件時(shí),一般將期 望值(e值)設(shè)置為l-10或者更小,其他參數(shù)可以采用默認(rèn)值。 將參考基因集中的所有參考基因定位到目標(biāo)基因組上,搜索到基因拷貝后,將一 個(gè)參考基因在目標(biāo)基因組上定位的相鄰區(qū)域連接起來(例如采用solar程序),構(gòu)成該參考 基因在對應(yīng)的基因拷貝座位,對于參考基因集中的每個(gè)參考基因均進(jìn)行上述過程,即可形 成參考基因集在目標(biāo)基因組上的基因拷貝座位。下面舉例說明形成基因拷貝座位
將連續(xù)的小的比對片段,按照得到最大覆蓋度(相對于基因長度)的原則,提出 一些最佳組合的小片段,從而構(gòu)成一個(gè)拷貝座位。如當(dāng)A基因(長度為1000bp)在基因 組上比對出來的三個(gè)片段是l-200bp(對應(yīng)A基因的l-200bp)、100-220bp(對應(yīng)A基因的100-220bp)和600-800bp(對應(yīng)A基因上200-400bp),那么經(jīng)過solar處理之后,去除掉了 基本被片段l完全包含的2片段,最終保留了基因組的l-200bp,600-800bp兩個(gè)片段,構(gòu)成 了A基因的一個(gè)基因拷貝座位。 其中,處理多個(gè)參考基因的過程是獨(dú)立的,就是說,處理每個(gè)基因的座位的時(shí)候, 可以并行處理其他基因在基因組上的比對。 在步驟S104中,根據(jù)基因拷貝座位,將目標(biāo)基因組上重疊的基因拷貝聚類到一 起,形成模糊位點(diǎn)基因代表座位。 同源基因在基因組上的拷貝存在著重疊區(qū)域甚至完全重疊的情況。在本發(fā)明一個(gè) 實(shí)施例中,例如采用perl腳本對基因拷貝進(jìn)行位置判斷,檢測重疊的基因拷貝,當(dāng)重疊區(qū) 域占每個(gè)重疊的基因拷貝的百分比大于預(yù)設(shè)值時(shí),將重疊的基因拷貝聚合到一起,形成模 糊位點(diǎn)代表基因座位,每個(gè)模糊位點(diǎn)代表基因座位表示與一個(gè)或者多個(gè)基因同源。
舉例說明如下如果參考基因A定位到了 1號染色體的1Kbp至3Kbp區(qū)域,而參考 基因B定位到1號染色體的1. 2Kbp至3. 3Kbp區(qū)域,則二者的重疊區(qū)域是1. 2Kbp至3Kbp, 總長為1.8Kbp,當(dāng)重疊區(qū)域占兩個(gè)參考基因?qū)?yīng)的基因拷貝的百分比均大于預(yù)設(shè)值(如 50% )時(shí),則將兩個(gè)參考基因?qū)?yīng)的基因拷貝聚合到一起,形成模糊位點(diǎn)代表基因座位,由 于重疊區(qū)域占參考基因A對應(yīng)的基因拷貝的百分比為1. 8/(3-1) =90%,重疊區(qū)域占參考 基因B對應(yīng)的基因拷貝的百分比為1.8/(3.3-1.2) =86%,均大于50%。按照每相鄰兩 個(gè)基因拷貝至少有50%的重疊區(qū)域(相對于較短的基因拷貝來說)才會聚到一起的原則, 把所有的滿足上述條件的基因拷貝聚合到一起,形成模糊位點(diǎn)代表基因座位,如1號染色 體上的1Kbp至3. 3Kbp的模糊位點(diǎn)代表基因座位就是A/B,每個(gè)模糊位點(diǎn)代表基因座位至少 和一個(gè)基因同源,同時(shí)可以和多個(gè)基因同源。經(jīng)上述步驟處理后,原始的在兩個(gè)染色體上的 模糊位點(diǎn)代表基因座位的效果如圖4a所示。 在步驟S106中,根據(jù)得到的模糊位點(diǎn)代表基因座位,利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位 算法檢測染色體的同線性同源區(qū)域。 其中利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法檢測染色體的同線性同源區(qū)域的一個(gè)示例 步驟如下將兩條染色體對應(yīng)的目標(biāo)基因組上的模糊位點(diǎn)代表基因座位中的每連續(xù)預(yù)設(shè)個(gè) (該預(yù)設(shè)個(gè)可以根據(jù)經(jīng)驗(yàn)進(jìn)行設(shè)定,如5、7、10、15個(gè)或者其他數(shù)量)模糊位點(diǎn)代表基因座位 作為一組,將整個(gè)染色體對應(yīng)的目標(biāo)基因組拆分為若干小的片段,然后利用動(dòng)態(tài)規(guī)劃模糊 位點(diǎn)比對算法對兩個(gè)目標(biāo)基因組中的每兩組模糊位點(diǎn)代表基因座位中的兩兩模糊位點(diǎn)代 表基因座位進(jìn)行比對,并根據(jù)比對結(jié)果和與對比結(jié)果對應(yīng)的權(quán)重計(jì)算分值,得到打分路徑。 當(dāng)某組模糊位點(diǎn)代表基因座位存在分值超過閾值的打分路徑時(shí),則確定在染色體的該組模 糊位點(diǎn)代表基因座位區(qū)域檢測到染色體的同線性同源區(qū)域,否則確定在染色體的該組模糊 位點(diǎn)代表基因座位區(qū)域未檢測到染色體的同線性同源區(qū)域。 比對結(jié)果通常包括匹配、錯(cuò)配和空位,與對比結(jié)果對應(yīng)的權(quán)重可以根據(jù)經(jīng)驗(yàn)設(shè)置, 通常為匹配結(jié)果設(shè)置獎(jiǎng)勵(lì)性權(quán)重,為錯(cuò)配和空位結(jié)果設(shè)置懲罰性權(quán)重,且abs (錯(cuò)配的權(quán) 重)> abs (空位的權(quán)重)(abs表示取絕對值)。在本發(fā)明實(shí)施例中,當(dāng)兩個(gè)模糊位點(diǎn)代表 基因座位具有相同的基因(稱為匹配)時(shí),則權(quán)重為2;當(dāng)兩個(gè)模糊位點(diǎn)代表基因座位不具 有相同的基因(稱為錯(cuò)配)時(shí),則權(quán)重為-3;當(dāng)相鄰模糊位點(diǎn)代表基因座位之間需添加一 個(gè)虛擬的座位才能令前后比對一致(稱為空位)時(shí),則權(quán)重為-1。
請參閱圖4b和圖4c,其中圖4b為根據(jù)圖4a所示的原始的在兩個(gè)染色體對應(yīng)的目 標(biāo)基因組上的模糊位點(diǎn)代表基因座位計(jì)算分值的過程,圖4c為根據(jù)圖4b所示得打分過程 得到的分值和打分路徑示意圖。將一條染色體上的模糊位點(diǎn)代表基因座位A/B與另一條染 色體上的模糊位點(diǎn)代表基因座位A/T進(jìn)行比對,由于兩個(gè)模糊位點(diǎn)代表基因座位包括相同 的基因A(即匹配),從而得2分;由于一條染色體上的相鄰兩個(gè)模糊位點(diǎn)代表基因座位A/ B和C之間需要添加一個(gè)虛擬的座位才能令模糊位點(diǎn)代表基因座位A/B和A/T的比對結(jié)果 與模糊位點(diǎn)代表基因座位C和C/S的比對結(jié)果一致,從而得-1分;將得到的分值累加得到 分值為1分。根據(jù)上述原理,即可根據(jù)圖4b所示的打分過程得到圖4c所示的打分路徑,包 括多條打分路徑,其中分值最高的打分路徑為最優(yōu)路徑。 當(dāng)根據(jù)上述動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法得到的打分路徑中至少有一條路徑的分 值高于預(yù)設(shè)閾值(如6分)時(shí),則判定在染色體的上述區(qū)域(從其中一條染色體的模糊位 點(diǎn)代表基因座位A/B到模糊位點(diǎn)代表基因座位J/K/L與另一條染色體的模糊位點(diǎn)代表基因 座位A/T到模糊位點(diǎn)代表基因座位K的區(qū)域內(nèi))檢測到同線性同源區(qū)域,否則判定在染色 體的上述區(qū)域內(nèi)未檢測到同線性同源區(qū)域。 圖2示出了本發(fā)明的染色體同線性同源區(qū)域的檢測方法的另一個(gè)實(shí)施例的流程 圖。圖2中的步驟202、204和206可以參見圖1中步驟102、104和106的對應(yīng)描述,為簡 潔起見在此不再詳細(xì)描述。和圖1不同之處在于,在步驟202之后,還包括
步驟203,計(jì)算基因拷貝覆蓋對應(yīng)的參考基因區(qū)域的百分含量,當(dāng)該百分含量低于 預(yù)設(shè)值時(shí),過濾掉該基因拷貝座位。 其具體示例過程如下計(jì)算基因拷貝覆蓋對應(yīng)的參考基因區(qū)域的百分含量,過濾 掉百分含量低于預(yù)設(shè)值(如50% )的基因拷貝座位,以過濾掉不完整或者可信度低的基因 拷貝。其中計(jì)算基因拷貝覆蓋對應(yīng)的參考基因區(qū)域的百分含量的過程如下將定位到目標(biāo) 基因組上的基因片段投射到參考基因上,計(jì)算出該參考基因?qū)?yīng)的基因拷貝覆蓋整個(gè)參考 基因的百分含量。 請參閱圖3,如果參考基因A長1000bp,把參考基因A定位到1號染色體上,定位
出兩個(gè)區(qū)域, 一個(gè)是染色體上l-305bp (對應(yīng)參考基因A的l-300bp,長度差異為堿基的插
入刪除導(dǎo)致),另一個(gè)是染色體上1001-1300bp (對應(yīng)參考基因A上299-600bp),這樣,將
所有定位區(qū)域(l-300bp和299-600bp)投射到參考基因A上,即為l-600bp定位到1號染
色體的l-1300bp這個(gè)區(qū)間,則該參考基因A對應(yīng)的基因拷貝覆蓋參考基因A的百分比為
600/1000 = 60%,因此,參考基因A對應(yīng)的基因拷貝座位是完整的;當(dāng)該百分比小于50%
時(shí),則參考基因A對應(yīng)的基因拷貝座位為不完整的或者可信度低的,將被過濾掉。 在上面的實(shí)施例中,針對定位到目標(biāo)基因組上的基因拷貝可能不完整或者可信度
低的問題,通過濾掉可信度較低的基因拷貝座位,避免了目標(biāo)基因組上的不完整或者可信
度低的基因拷貝造成的檢測的運(yùn)算復(fù)雜度大、檢測效果不精確的問題。 —般來說,根據(jù)每連續(xù)預(yù)設(shè)個(gè)模糊位點(diǎn)代表基因座位,采用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定
位算法就已經(jīng)可以檢測倒染色體同線性同源區(qū)域,但考慮到預(yù)設(shè)個(gè)數(shù)的模糊位點(diǎn)代表基因
座位中的基因拷貝不足以代表整個(gè)染色體的復(fù)制,如當(dāng)將每io個(gè)模糊位點(diǎn)代表基因座位
中的基因拷貝作為一組進(jìn)行同線性同源區(qū)域的檢測時(shí),由于io個(gè)模糊位點(diǎn)代表基因座位
中的基因拷貝跨越的基因組范圍一般為100Kbp到1M,這不足以代表整個(gè)染色體的復(fù)制,為了使染色體同線性同源區(qū)域的檢測結(jié)果更接近實(shí)際結(jié)果,在本發(fā)明另一實(shí)施例中,該方法 還包括下述步驟 將每組模糊位點(diǎn)代表基因座位作為一個(gè)新的座位,并將每組模糊位點(diǎn)代表座位的 最優(yōu)打分路徑的分值作為新的座位的分值,采用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法在每連續(xù)預(yù)設(shè) 個(gè)新的座位區(qū)域檢測染色體的同線性同源區(qū)域。 在本發(fā)明實(shí)施例中,當(dāng)將每組模糊位點(diǎn)代表基因座位作為一個(gè)新的座位時(shí),將該
組模糊位點(diǎn)代表基因座位的最優(yōu)路徑的得分值作為該新的座位的分值。 如將連續(xù)預(yù)設(shè)個(gè)模糊位點(diǎn)代表基因座位ABCDEFGH定義為新的座位,命名為la,且
將連續(xù)預(yù)設(shè)個(gè)模糊位點(diǎn)代表基因座位ABCDEFGH經(jīng)步驟S106后得到的最優(yōu)路徑的分值作為
該新的座位A'的分值,這樣,可以將步驟S106后得到的連續(xù)預(yù)設(shè)個(gè)模糊位點(diǎn)代表基因座位
都定義為新的座位,再采用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)比對算法從染色體的每連續(xù)預(yù)設(shè)個(gè)新的座位
區(qū)域檢測染色體的同線性同源區(qū)域。 當(dāng)在染色體的上述區(qū)域內(nèi)檢測到同線性同源區(qū)域時(shí),為了得到染色體上述區(qū)域內(nèi) 具體的哪些基因之間是同線性同源的,在本發(fā)明另一實(shí)施例中,該方法還包括下述步驟 根據(jù)動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法得到的最優(yōu)打分路徑得到染色體同線性同源的 基因。 當(dāng)根據(jù)動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法得到的打分路徑如圖4c所示,其中箭頭標(biāo)記 為最優(yōu)打分路徑,縱向箭頭表示包括橫向的模糊位點(diǎn)代表基因座位的染色體序列需加一個(gè) 空位(用"-"代替),橫向街頭表示包括縱向的模糊位點(diǎn)代表基因座位的染色體序列需加一 個(gè)空位,對角線走向的箭頭代表匹配或者錯(cuò)配。則根據(jù)圖4c所示的最優(yōu)打分路徑得到的染 色體同線性同源的基因如圖4d所示。 由于染色體經(jīng)常發(fā)生倒置現(xiàn)象,如座位順序?yàn)锳、 B、 C發(fā)生倒置后就變成座位順序 為C、B、A了,為了使染色體同線性同源區(qū)域的檢測結(jié)果更加精確,在本發(fā)明另一實(shí)施例中, 該方法還包括下述步驟 將染色體上的模糊位點(diǎn)代表基因座位進(jìn)行倒序操作,并重新執(zhí)行步驟S106檢測 染色體同線性同源區(qū)域。 本發(fā)明實(shí)施例提供的染色體同線性同源區(qū)域的檢測方法的檢測結(jié)果如圖5b所 示,與圖5a所示的通過目測檢測染色體同線性同源區(qū)域的結(jié)果相比較,復(fù)雜度明顯下降, 同時(shí)避免了目測時(shí)主觀因素對染色體同線性同源的判斷的影響。 請參閱圖6,為采用染色體同線性同源區(qū)域檢測方法檢測葡萄與楊樹基因組所發(fā) 生的全基因復(fù)制事件的效果圖。其中編號為1、2、3的染色體分別為葡萄的6、8、13號染色 體,編號為P1到P13的染色體分別為楊樹的l-19號染色體。圖中的每條線表示一對同線性 同源區(qū)域。因?yàn)槠咸讶旧w(圖中1,2,3號)中有相當(dāng)多區(qū)域都能比對到楊樹4個(gè)區(qū)域, 即l對4的關(guān)系,說明在楊樹和葡萄分化之后,楊樹又發(fā)生了兩次全基因組復(fù)制(2*2)。
圖7示出了本發(fā)明的染色體同線性同源區(qū)域檢測系統(tǒng)的另一個(gè)實(shí)施例的結(jié)構(gòu)圖。 如圖7所示,該檢測系統(tǒng)包括參考基因定位單元71、基因拷貝聚類單元72和同線性檢測單 元73。其中,參考基因定位單元71用于將參考基因集中的參考基因定位到與染色體對應(yīng)的 目標(biāo)基因組上,形成基因拷貝座位;當(dāng)檢測種內(nèi)染色體之間的同線性同源區(qū)域時(shí),采用物種 內(nèi)的兩條染色體作為目標(biāo)基因組,采用物種自身的基因集作為參考基因集,即可敏感的搜索到所有基因拷貝;當(dāng)檢測物種之間染色體的同線性同源區(qū)域時(shí),采用物種間的兩個(gè)染色 體作為目標(biāo)基因組,為了敏感的搜索到所有的基因拷貝,需要將兩個(gè)物種的基因集混和起
來作為參考基因集?;蚩截惥垲悊卧?2,用于根據(jù)參考基因定位單元71得到的基因拷貝 座位,將重疊的基因拷貝聚類到一起,形成模糊位點(diǎn)基因代表座位。同源基因在基因組上的 拷貝存在著重疊區(qū)域甚至完全重疊的情況,在本發(fā)明一個(gè)實(shí)施例中,例如采用perl腳本對 基因拷貝進(jìn)行位置判斷,并將有重疊的基因拷貝聚合到一起,形成模糊位點(diǎn)代表基因座位, 每個(gè)模糊位點(diǎn)代表基因座位表示與一個(gè)或者多個(gè)基因同源。同線性檢測單元73,用于根據(jù) 基因拷貝聚類單元72得到的模糊位點(diǎn)代表基因座位,利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法檢 測染色體的同線性同源區(qū)域。 圖8示出了本發(fā)明的染色體同線性同源區(qū)域檢測系統(tǒng)的另一個(gè)實(shí)施例的結(jié)構(gòu)圖, 為了便于說明,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分。如圖8所示,該染色體同線性同源區(qū) 域檢測系統(tǒng)包括參考基因定位單元81、基因拷貝過濾單元87、基因拷貝聚類單元82和同線 性檢測單元83其中 參考基因定位單元81將參考基因集中的所有參考基因定位到目標(biāo)基因組上,構(gòu) 成基因拷貝座位?;蚩截愡^濾單元87,用于當(dāng)參考基因?qū)?yīng)的基因拷貝覆蓋該參考基因 區(qū)域的百分含量低于預(yù)設(shè)值時(shí),過濾掉該參考基因?qū)?yīng)的基因拷貝座位。例如, 一種過濾的 具體過程如下計(jì)算參考基因?qū)?yīng)的基因拷貝覆蓋該參考基因區(qū)域的百分含量,過濾掉百 分含量低于預(yù)設(shè)值(如50% )的基因拷貝的座位信息,以過濾掉不完整或者可信度低的基 因拷貝。其中計(jì)算參考基因?qū)?yīng)的基因拷貝覆蓋該參考基因區(qū)域的百分含量的過程如下 將定位到目標(biāo)基因組上的基因片段投射到參考基因上,計(jì)算出覆蓋整個(gè)參考基因的百分含 量?;蚩截惥垲悊卧?2將定位到目標(biāo)基因組上重疊的基因拷貝聚類到一起,形成模糊位 點(diǎn)基因代表座位。其具體實(shí)現(xiàn)流程如上,在此不再贅述。同線性檢測單元83根據(jù)得到的模 糊位點(diǎn)代表基因座位,利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法檢測染色體的同線性同源區(qū)域。
在該實(shí)施例中,由于定位到目標(biāo)基因組上的基因拷貝可能不完整或者可信度低, 為了避免目標(biāo)基因組上的不完整或者可信度低的基因拷貝造成的檢測的運(yùn)算復(fù)雜度大,檢 測效果不精確的問題。 根據(jù)本發(fā)明的染色體同線性同源區(qū)域檢測系統(tǒng)的一個(gè)實(shí)施例,同線性檢測單元83
包括基因座位分組模塊831、基因座位比對模塊832和同線性判斷模塊833。 其中,基因座位分組模塊831將兩條染色體對應(yīng)的目標(biāo)基因組上的模糊位點(diǎn)代表
基因座位中每連續(xù)預(yù)設(shè)個(gè)模糊位點(diǎn)代表基因座位劃分為一組,將整個(gè)染色體對應(yīng)的目標(biāo)基
因組拆分為若干小的片段。 基因座位比對模塊832利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)比對算法對兩條染色體對應(yīng)的目 標(biāo)基因組上的每兩組模糊位點(diǎn)代表基因座位中的兩兩模糊位點(diǎn)代表基因座位進(jìn)行比對,并 根據(jù)比對結(jié)果和對應(yīng)的權(quán)重計(jì)算分值,得到對應(yīng)的打分路徑。 同線性判斷模塊833在染色體的一組區(qū)域內(nèi)至少有一條打分路徑的分值超過閾 值時(shí),判定在染色體的所述組區(qū)域檢測到染色體的同線性同源區(qū)域,否則判定在染色體的 所述組區(qū)域未檢測到染色體的同線性同源區(qū)域。其具體過程如上所述,在此不再贅述。
—般來說,根據(jù)每組預(yù)設(shè)個(gè)模糊位點(diǎn)代表基因座位,采用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位 算法就已經(jīng)可以檢測倒染色體同線性同源區(qū)域,但考慮到一組模糊位點(diǎn)代表基因座位中的基因拷貝不足以代表整個(gè)染色體的復(fù)制,如當(dāng)將每io個(gè)模糊位點(diǎn)代表基因座位中的基因 拷貝作為一組進(jìn)行同線性同源區(qū)域的檢測時(shí),由于io個(gè)模糊位點(diǎn)代表基因座位中的基因 拷貝跨越的基因組范圍一般為100Kbp到IM,這不足以代表整個(gè)染色體的復(fù)制,為了使染色 體同線性同源區(qū)域的檢測結(jié)果更接近實(shí)際結(jié)果,在本發(fā)明另一實(shí)施例中,該系統(tǒng)還包括基 因座位重定義單元84,其將基因座位分組模塊831得到的每組模糊位點(diǎn)代表基因座位定義 為一個(gè)新的座位,并將基因座位比對模塊832得到的每組模糊位點(diǎn)代表座位的最優(yōu)打分路 徑的得分值作為新的座位的分值。此時(shí),同線性檢測單元83還用于根據(jù)基因座位重定義單 元84重新定義的新的座位,采用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法在每連續(xù)預(yù)設(shè)個(gè)新的座位檢 測染色體的同線性同源區(qū)域。 當(dāng)同線性檢測單元83在染色體的每組模糊位點(diǎn)代表基因座位區(qū)域內(nèi)檢測到同線 性同源區(qū)域,或者在染色體的每連續(xù)預(yù)設(shè)個(gè)新的座位區(qū)域內(nèi)檢測到同線性同源區(qū)域時(shí),為 了得到染色體上述區(qū)域內(nèi)具體的哪些基因之間是同線性同源的,在本發(fā)明另一實(shí)施例中, 該系統(tǒng)還包括同線性基因確定單元85,其根據(jù)動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法得到的最優(yōu)打分 路徑得到染色體同線性同源的基因。 當(dāng)根據(jù)動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法得到的打分路徑如圖4c所示,其中箭頭標(biāo)記 為最優(yōu)打分路徑,縱向箭頭表示包括橫向的模糊位點(diǎn)代表基因座位的染色體序列需加一個(gè) 空位(用"-"代替),橫向街頭表示包括縱向的模糊位點(diǎn)代表基因座位的染色體序列需加一 個(gè)空位,對角線走向的箭頭代表匹配或者錯(cuò)配。則根據(jù)圖4c所示的最優(yōu)打分路徑得到的染 色體同線性同源的基因如圖4d所示。 由于染色體經(jīng)常發(fā)生倒置現(xiàn)象,如座位順序?yàn)锳、 B、 C發(fā)生倒置后就變成座位順序 為C、B、A了,為了使染色體同線性同源區(qū)域的檢測結(jié)果更加精確,在本發(fā)明另一實(shí)施例中, 該系統(tǒng)還包括基因座位倒置單元86,其將基因拷貝聚類單元82得到染色體上的模糊位點(diǎn) 代表基因座位進(jìn)行倒序操作。在進(jìn)行倒序操作后,同線性檢測單元83重新檢測染色體同線 性同源區(qū)域。 在本發(fā)明實(shí)施例中,通過將參考基因集中的參考基因定位到目標(biāo)基因組上,得到 基因拷貝座位,再將有重疊的基因拷貝聚類到一起,形成模糊位點(diǎn)代表基因座位,最后根據(jù) 得到的模糊位點(diǎn)代表基因座位,利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法即可自動(dòng)檢測到染色體的 同線性同源區(qū)域,且本發(fā)明實(shí)施例提供的檢測方法敏感度高,復(fù)雜度下降,避免了目測時(shí)主 觀因素對染色體同線性同源的判斷的影響;同時(shí)本發(fā)明實(shí)施例通過過濾掉不完整或者可信 度低的基因拷貝,從而降低了檢測時(shí)的運(yùn)算量,提高了檢測準(zhǔn)確性;另外本發(fā)明實(shí)施例在進(jìn) 行第一輪檢測后,將第一輪的檢測結(jié)果作為新的座位,進(jìn)行第二輪檢測,從而進(jìn)一步提高了 染色體同線性同源區(qū)域的檢測準(zhǔn)確性。 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
一種染色體同線性同源區(qū)域的檢測方法,其特征在于,所述方法包括下述步驟將參考基因集中的參考基因定位到與染色體對應(yīng)的目標(biāo)基因組上,形成基因拷貝座位;根據(jù)所述基因拷貝座位,將重疊的基因拷貝聚類到一起,形成模糊位點(diǎn)基因代表座位;根據(jù)所述模糊位點(diǎn)代表基因座位,利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法檢測染色體的同線性同源區(qū)域。
2. 如權(quán)利要求l所述的方法,其特征在于,在所述將參考基因集中的參考基因定位到與染色體對應(yīng)的目標(biāo)基因組上,形成基因拷貝座位的步驟之后,所述方法還包括下述步驟計(jì)算參考基因?qū)?yīng)的基因拷貝覆蓋所述參考基因區(qū)域的百分含量,并在所述百分含量低于預(yù)設(shè)值時(shí),過濾掉所述參考基因?qū)?yīng)的基因拷貝座位。
3. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述基因拷貝座位,將重疊的基因拷貝聚類到一起,形成模糊位點(diǎn)基因代表座位的步驟具體為根據(jù)所述基因拷貝座位檢測重疊的基因拷貝;當(dāng)重疊區(qū)域占每個(gè)重疊的基因拷貝的百分比均大于預(yù)設(shè)值時(shí),將重疊的基因拷貝聚類到一起,形成模糊位點(diǎn)基因代表座位。
4. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述模糊位點(diǎn)代表基因座位,利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法檢測染色體的同線性同源區(qū)域的步驟具體為將每個(gè)染色體對應(yīng)的目標(biāo)基因組中每連續(xù)預(yù)設(shè)個(gè)模糊位點(diǎn)代表基因座位劃分為一組;對不同染色體對應(yīng)的目標(biāo)基因組中的每兩組模糊位點(diǎn)代表基因座位中的兩兩模糊位點(diǎn)代表基因座位進(jìn)行比對,并根據(jù)比對結(jié)果和對應(yīng)的權(quán)重計(jì)算分值,得到對應(yīng)的打分路徑;當(dāng)染色體對應(yīng)的目標(biāo)基因組中的一組區(qū)域內(nèi)至少有一條打分路徑的分值超過閾值時(shí),則確定在所述染色體的所述組區(qū)域檢測到染色體的同線性同源區(qū)域,否則確定在所述染色體的所述組區(qū)域未檢測到染色體的同線性同源區(qū)域。
5. 如權(quán)利要求4所述的方法,其特征在于,所述方法還包括下述步驟將每組模糊位點(diǎn)代表基因座位作為一個(gè)新的模糊位點(diǎn)代表基因座位,并將每組模糊位點(diǎn)代表座位的最優(yōu)打分路徑的分值作為新的座位的分值;采用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法檢測染色體的每連續(xù)預(yù)設(shè)個(gè)新的座位區(qū)域中的同線性同源區(qū)域。
6. 如權(quán)利要求4所述的方法,其特征在于,所述方法還包括下述步驟根據(jù)所述打分路徑中的最優(yōu)打分路徑得到染色體同線性同源的基因。
7. 如權(quán)利要求1至4任一權(quán)利要求所述的方法,其特征在于,所述方法還包括下述步驟將染色體對應(yīng)的目標(biāo)基因組上的模糊位點(diǎn)代表基因座位進(jìn)行倒序操作;采用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法檢測染色體的每連續(xù)預(yù)設(shè)個(gè)模糊位點(diǎn)代表基因座位區(qū)域中的同線性同源區(qū)域。
8. —種染色體同線性同源區(qū)域檢測系統(tǒng),其特征在于,所述系統(tǒng)包括參考基因定位單元,用于將參考基因集中的參考基因定位到與染色體對應(yīng)的目標(biāo)基因組上,形成基因拷貝座位;基因拷貝聚類單元,用于根據(jù)所述參考基因定位單元得到的基因拷貝座位,將重疊的基因拷貝聚類到一起,形成模糊位點(diǎn)基因代表座位;同線性檢測單元,用于根據(jù)所述基因拷貝聚類單元得到的模糊位點(diǎn)代表基因座位,利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法檢測染色體的同線性同源區(qū)域。
9. 如權(quán)利要求8所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括基因拷貝過濾單元,用于計(jì)算參考基因?qū)?yīng)的基因拷貝覆蓋所述參考基因區(qū)域的百分含量,并在所述百分含量低于預(yù)設(shè)值時(shí),過濾掉所述參考基因?qū)?yīng)的基因拷貝座位。
10. 如權(quán)利要求8所述的系統(tǒng),其特征在于,所述同線性檢測單元包括基因座位分組模塊,用于將每個(gè)染色體對應(yīng)的目標(biāo)基因組中每連續(xù)預(yù)設(shè)個(gè)模糊位點(diǎn)代表基因座位劃分為一組;基因座位比對模塊,用于對不同染色體對應(yīng)的目標(biāo)基因組中的每兩組模糊位點(diǎn)代表基因座位中的兩兩模糊位點(diǎn)代表基因座位進(jìn)行比對,并根據(jù)比對結(jié)果和對應(yīng)的權(quán)重計(jì)算分值,得到對應(yīng)的打分路徑;同線性判斷模塊,用于在染色體對應(yīng)的目標(biāo)基因組中的一組區(qū)域內(nèi)至少有一條打分路徑的分值超過閾值時(shí),判定在染色體的所述組區(qū)域檢測到染色體的同線性同源區(qū)域,否則判定在染色體的所述組區(qū)域未檢測到染色體的同線性同源區(qū)域。
11. 如權(quán)利要求10所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括基因座位重定義單元,用于將所述基因座位分組模塊得到的每組模糊位點(diǎn)代表基因座位作為一個(gè)新的座位,并將所述基因座位比對模塊得到的每組模糊位點(diǎn)代表座位的最優(yōu)打分路徑的得分值作為新的座位的分值;此時(shí),所述同線性檢測單元還用于根據(jù)所述基因座位重定義單元重新定義的新的座位,采用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法檢測染色體的每連續(xù)預(yù)設(shè)個(gè)新的座位區(qū)域內(nèi)的同線性同源區(qū)域。
12. 如權(quán)利要求10所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括同線性基因確定單元,用于根據(jù)所述基因座位比對模塊得到的打分路徑中的最優(yōu)打分路徑得到染色體同線性同源的基因。
13. 如權(quán)利要求8所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括基因座位倒置單元,用于將染色體對應(yīng)的目標(biāo)基因組上的模糊位點(diǎn)代表基因座位進(jìn)行倒序操作;此時(shí),所述同線性檢測單元重新采用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法檢測染色體的每連續(xù)預(yù)設(shè)個(gè)模糊位點(diǎn)代表基因座位區(qū)域中的同線性同源區(qū)域。
全文摘要
本發(fā)明適用于基因工程領(lǐng)域,提供了一種染色體同線性同源區(qū)域的檢測方法和系統(tǒng),所述方法包括下述步驟將參考基因集中的參考基因定位到目標(biāo)基因組上,形成基因拷貝座位;根據(jù)所述基因拷貝座位,將重疊的基因拷貝聚類到一起,形成模糊位點(diǎn)基因代表座位;根據(jù)所述模糊位點(diǎn)代表基因座位,利用動(dòng)態(tài)規(guī)劃模糊位點(diǎn)定位算法檢測染色體的同線性同源區(qū)域。本發(fā)明實(shí)施例提供的染色體同線性同源區(qū)域的檢測方法可自動(dòng)檢測到染色體同線性同源區(qū)域,且敏感度高,復(fù)雜度低,避免了目測時(shí)主觀因素對染色體同線性同源區(qū)域檢測的影響。
文檔編號C12Q1/68GK101794346SQ20091025246
公開日2010年8月4日 申請日期2009年12月11日 優(yōu)先權(quán)日2008年12月12日
發(fā)明者李瑞強(qiáng), 楊煥明, 汪建, 王俊, 白寅琪 申請人:深圳華大基因研究院;深圳華大基因科技有限公司