專利名稱:一種ssr分子標(biāo)記冗余性的生物信息學(xué)分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及分子生物技術(shù)領(lǐng)域和計算機技術(shù)領(lǐng)域,尤其涉及一種SSR分子標(biāo)記冗余性的生物信息學(xué)分析方法。
背景技術(shù):
SSR(Simple Sequence Repeat)作為重要的分子標(biāo)記已經(jīng)廣泛應(yīng)用于遺傳圖譜加密、基因定位、基因發(fā)掘、遺傳多樣性分析和分子標(biāo)記輔助選擇育種等研究方面。不同研究者由于不同的研究目的,從公共數(shù)據(jù)庫中的序列和自有序列中開發(fā)的SSR標(biāo)記可能存在冗余性,這樣大大增加了研究的工作量。為了減少研究的重復(fù)性,降低經(jīng)濟成本,需要有相關(guān)工具去發(fā)掘冗余引物。目前,有一些軟件可以分析序列的冗余性,比如BLASTclust (BLAST包,http://blast.ncbi. nlm. nih. gov/Blast. cgi ? CMD = ffeb&PAGE_TYPE = BlastDocs&DOC TYPE = Download)、 CD-HIT(http://www. bioinformatics. org/project/filelist. php ? group_id = 350)禾口 seqmatchall (EMBOSS 包,http://emboss, sourceforge. net/)。這些程序只能分析一對引物的正向或反向引物,不能同時分析一對引物是否冗余,而seqmatchall不能分析序列的反向互補序列,所以沒有合適的軟件分析一對引物的冗余性。對SSR研究熱度現(xiàn)在處于上升趨勢,對SSR標(biāo)記中的冗余性分析也勢在必行,目前沒有相關(guān)程序分析SSR分析標(biāo)記。
發(fā)明內(nèi)容
針對以上問題開發(fā)了 SSR分子標(biāo)記冗余性大規(guī)模分析的方法,方便研究者充分利用網(wǎng)絡(luò)資源,同時提高研究者的工作效率,為進一步生物學(xué)研究奠定基礎(chǔ)。具體是本發(fā)明提供一種SSR分子標(biāo)記冗余性的生物信息學(xué)分析方法。一種SSR分子標(biāo)記冗余性的生物信息學(xué)分析方法,包括以下步驟Al,下載公共數(shù)據(jù)庫中的相關(guān)SSR分子標(biāo)記或者自己開發(fā)的SSR分子標(biāo)記;A2,對腳本進行預(yù)處理,轉(zhuǎn)化成FASTA格式;A3,把處理好的FASTA文件備份一個文件,后綴名為“.bk",使用該備份文件作為輸入,對各個物種的SSR分子標(biāo)記分別比對,查詢相似性序列;A4,從A3得到的結(jié)果中按照相似匹配分值不低于81%同時沒有g(shù)ap過濾一對引物,然后提取相似引物編號;A5,把所有相似引物寫入一行,輸出最終結(jié)果文件out. list。所述的生物信息學(xué)分析方法,步驟A4利用eXtr_ps2. pi腳本從A3得到的結(jié)果中按照相似匹配分值不低于81%同時沒有g(shù)ap過濾一對引物,然后提取相似引物編號;匹配分值計算公式如下
權(quán)利要求
1.一種SSR分子標(biāo)記冗余性的生物信息學(xué)分析方法,其特征在于,包括以下步驟 Al,下載公共數(shù)據(jù)庫中的相關(guān)SSR分子標(biāo)記或者自己開發(fā)的SSR分子標(biāo)記;A2,對所述SSR分子標(biāo)記進行預(yù)處理,轉(zhuǎn)化成FASTA格式;A3,把處理好的FASTA文件備份一個文件,使用該備份文件作為輸入,對各個物種的 SSR分子標(biāo)記分別比對,查詢相似性序列;A4,從A3得到的結(jié)果中按照相似匹配分值不低于81% ;同時沒有g(shù)ap;來過濾一對引物,然后提取相似引物編號;A5,把所有相似引物寫入一行,輸出最終結(jié)果文件out. list。
2.根據(jù)權(quán)利要求1所述的生物信息學(xué)分析方法,其特征在于,步驟A4中匹配分值計算公式如下S 匹配分值;a 查詢序列和目標(biāo)序列匹配上的序列長度(bp) ;1 目標(biāo)序列長度(bp); m:錯配個數(shù)。
全文摘要
本發(fā)明公開了一種SSR分子標(biāo)記冗余性的生物信息學(xué)分析方法,包括以下步驟A1,下載公共數(shù)據(jù)庫中的相關(guān)SSR分子標(biāo)記或者自己開發(fā)的SSR分子標(biāo)記;A2,對所述SSR分子標(biāo)記進行預(yù)處理,轉(zhuǎn)化成FASTA格式;A3,把處理好的FASTA文件備份一個文件,后綴名為“.bk”,使用該備份文件作為輸入,對各個物種的SSR分子標(biāo)記分別比對,查詢相似性序列;A4,從A3得到的結(jié)果中按照相似匹配分值不低于81%;同時沒有g(shù)ap;來過濾一對引物,然后提取相似引物編號;A5,把所有相似引物寫入一行,輸出最終結(jié)果文件out.list。同一研究者開發(fā)時間不同造成在同一物種中開發(fā)的SSR分子標(biāo)記存在有冗余,利用本發(fā)明的方法可以達到去冗余的目的。
文檔編號C12Q1/68GK102156824SQ20101060158
公開日2011年8月17日 申請日期2010年12月23日 優(yōu)先權(quán)日2010年12月23日
發(fā)明者吳慎杰, 姚景珍, 李朋波, 楊六六, 王為, 王長彪, 董哲生 申請人:山西省農(nóng)業(yè)科學(xué)院棉花研究所