專利名稱:基于序列相似性與頻譜3-周期性的基因識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及DNA序列相似性計算、頻譜3-周期性強(qiáng)度計算以及根據(jù)這兩種性質(zhì)所實現(xiàn)的基因識別方法,屬于生物信息學(xué)中的基因識別技術(shù)領(lǐng)域。
背景技術(shù):
DNA是生物遺傳信息的載體,是一種長鏈聚合物,由腺嘌呤(Adenine,A),鳥嘌呤(Guanine, G),胞卩密唳(Cytosine, C),胸腺卩密唳(Thymine, T)這四種核苷酸(nucleotide)符號按一定的順序連接而成。其中帶有遺傳訊息的DNA片段稱為基因(Gene)(見
圖1第一行)。在真核生物的DNA序列中,基因通常被劃分為許多間隔的片段(見圖1第二行),其中編碼蛋白質(zhì)的部分,即編碼序列(Coding Sequence)片段,稱為外顯子(Exon),不編碼的部分稱為內(nèi)含子(Intron)。外顯子在DNA序列剪接(Splicing)后仍然會被保存下來,并可在蛋白質(zhì)合成過程中被轉(zhuǎn)錄(transcription)、復(fù)制(replication)而合成為蛋白質(zhì)。DNA序列通過遺傳編碼來儲存信息,指導(dǎo)蛋白質(zhì)的合成,把遺傳信息準(zhǔn)確無誤地傳遞到蛋白質(zhì)(protein)上去并實現(xiàn)各種生命功能。對大量、復(fù)雜的基因序列的分析,傳統(tǒng)生物學(xué)解決問題的方式是基于分子實驗的方法,其代價高昂。諾貝爾獎獲得者W.吉爾伯特(Walter Gilbert,1932—,第一個制備出混合脫氧核糖核酸的科學(xué)家)1991年曾經(jīng)指出:“現(xiàn)在,基于全部基因序列都將知曉,并以電子可操作的方式駐留在數(shù)據(jù)庫中,新的生物學(xué)研究模式的出發(fā)點應(yīng)是理論的。一個科學(xué)家將從理論推測出發(fā),然后再回到實驗中去,追蹤或驗證這些理論假設(shè)。”隨著世界人類基因組工程計劃的順利完成,通過物理或數(shù)學(xué)的方法從大量的DNA序列中獲取豐富的生物信息,對生物學(xué)、醫(yī)學(xué)、藥學(xué)等諸多方面都具有重要的理論意義和實際價值,也是目前生物信息學(xué)領(lǐng)域的一個研究熱點。
基因預(yù)測,是一個尚未完全解決的問題,也是當(dāng)前生物信息學(xué)的一個最基礎(chǔ)、最首要的問題。對于預(yù)測,一類方法是基于統(tǒng)計學(xué)的,這類方法在對基因信息了解不多的情況下,基因識別的準(zhǔn)確率會明顯下降。因此在目前基因預(yù)測研究中,采用信號處理與分析方法來發(fā)現(xiàn)基因編碼序列也受到廣泛重視。對于基因序列首先要進(jìn)行數(shù)字映射,將其轉(zhuǎn)換為指示序列。然后,對指示序列做離散傅里葉變換,可以計算平方功率譜,求信噪比等。科學(xué)家發(fā)現(xiàn),基因序列存在頻譜3-周期特性,這個特性是區(qū)分外顯子和內(nèi)含子的重要特征。同時,也有人認(rèn)為頻譜3-周期特性的存在是由于“密碼子”使用的偏向性導(dǎo)致的。目前,有一些通過頻譜3-周期特性進(jìn)行基因識別的算法。但是,在目前的頻譜3-周期特性進(jìn)行基因識別的方法中,所選取的特定基因類型的DNA序列,將其信噪比R的判別閾值取為&=2,帶有一定的主觀性、經(jīng)驗性。對不同的基因類型,所選取的判別閾值應(yīng)該是不同的。否則,根據(jù)某個固定閾值去判斷,有可能將本來是外顯子的片段誤認(rèn)為是內(nèi)含子,造成基因識別的準(zhǔn)確度下降。因此,我們希望對待測序列先做相似性分析,以與之最相近的基因信噪比閾值作為該序列的判別閾值,然后計算每一位核苷酸的頻譜3-周期性強(qiáng)度及斜率,根據(jù)所選判別閾值識別出外顯子,從而最大程度保證基因識別的精度。
發(fā)明內(nèi)容
發(fā)明目的針對現(xiàn)有利用頻譜3-周期性進(jìn)行基因識別的方法中閾值選取的不足,本發(fā)明提出了一種基于序列相似性與頻譜3-周期性的基因識別方法,通過利用核苷酸頻率特征矩陣來描述DNA序列,對不同序列通過計算核苷酸頻率特征矩陣相似度來確定DNA序列的相似度,并根據(jù)相似度選定信噪比閾值;計算序列核苷酸頻譜3-周期性強(qiáng)度以及序列中每個核苷酸位置處的斜率來區(qū)分外顯子與內(nèi)含子,并修正處理最終確定外顯子段,從而提聞基因識別的準(zhǔn)確度。技術(shù)方案:一種基于序列相似性與頻譜3-周期性的基因識別方法,主要包括DNA特征值計算和基因識別算法兩部分,其中:所述DNA特征值計算包括構(gòu)建核苷酸頻率特征矩陣、計算DNA序列相似度、頻譜3-周期性強(qiáng)度計算及每一位核苷酸的斜率計算,所述基因識別算法包括利用序列相似度確定信噪比閾值、判斷每一位核苷酸是否屬于外顯子以及最后對外顯子段進(jìn)行修正;步驟1,對待識別DNA序列構(gòu)建其核·苷酸頻率特征矩陣,根據(jù)DNA序列相似度計算公式計算該DNA序列與已知物種序列的相似度,以相似度最近已知物種的信噪比閾值作為所述DNA序列識別時所用的信噪比閾值R0 ;步驟2,對待測DNA序列的每一位核苷酸計算其頻譜3-周期性強(qiáng)度以及該核苷酸位置處的斜率,用步驟I所得的信噪比閾值Rtl來區(qū)分外顯子與內(nèi)含子;步驟3,對外顯子段進(jìn)行修正,對于步驟2識別的結(jié)果,若外顯子長度小于預(yù)設(shè)值,則應(yīng)將其歸為內(nèi)含子;若內(nèi)含子長度小于預(yù)設(shè)值,則應(yīng)歸為外顯子;最終得到基因識別結(jié)果。所述核苷酸頻率特征矩陣是三個四階矩陣,如下所示:
權(quán)利要求
1.一種基于序列相似性與頻譜3-周期性的基因識別方法,其特征在于,包括DNA特征值的求解和基因識別兩部分,其中:所述DNA特征值的求解包括構(gòu)建核苷酸頻率特征矩陣、計算DNA序列相似度、頻譜3-周期性強(qiáng)度計算及每一位核苷酸的斜率計算;所述基因識別包括利用序列相似度確定信噪比閾值、判斷每一位核苷酸是否屬于外顯子以及對外顯子段進(jìn)行修正; 步驟1,對待識別DNA序列構(gòu)建其核苷酸頻率特征矩陣,根據(jù)DNA序列相似度計算公式計算該DNA序列與已知物種序列的相似度,以相似度最近已知物種的信噪比閾值作為所述DNA序列識別時所用的信噪比閾值Rtl ; 步驟2,對待測DNA序列的每一位核苷酸計算其頻譜3-周期性強(qiáng)度以及該核苷酸位置處的斜率,用步驟I所得的信噪比閾值Rtl來區(qū)分外顯子與內(nèi)含子; 步驟3,對外顯子段進(jìn)行修正,對于步驟2識別的結(jié)果,若外顯子長度小于預(yù)設(shè)值,則應(yīng)將其歸為內(nèi)含子;若內(nèi)含子長度小于預(yù)設(shè)值,則應(yīng)歸為外顯子;最終得到基因識別結(jié)果。
2.如權(quán)利要求1所述的基于序列相似性與頻譜3-周期性的基因識別方法,其特征在于,所述步驟2的具體實施步驟如下: 步驟2-1,初始化核苷酸位置游標(biāo)i=l ; 步驟2-2,對DNA序列第i個位置處的核苷酸計算其在*位置處的總功率譜值以及背景噪聲的三周期信號比S [i],此時N=i ; 步驟2-3,計算第i個位置處的核苷酸的斜率slope [i]; 步驟2-4,若S[i]≤Rtl,且slope [i] > O成立,則該位置處的核苷酸屬于外顯子;否則屬于內(nèi)含子; 步驟2-5,令位置游標(biāo)i=i+l ; 若i未超過DNA序列長度,則轉(zhuǎn)向步驟2-2 ;否則結(jié)束步驟2。
3.如權(quán)利要求2所述的基于序列相似性與頻譜3-周期性的基因識別方法,其特征在于,所述核苷酸頻率特征矩陣是三個四階矩陣,如下所示:
4.如權(quán)利要求3所述的基于序列相似性與頻譜3-周期性的基因識別方法,其特征在于,所述DNA序列相似度的計算定義為計算序列所對應(yīng)的核苷酸頻率特征矩陣的相似度;對于兩個DNA序列S1與S2,分別對其求得核苷酸頻率特征矩陣;對兩個基因序列在X,y,z位置上的相似性(!(Sx1, Sx2),(!(Sy1, Sy2),(KSz1, Sz2)定義如下:
5.如權(quán)利要求4所述的基于序列相似性與頻譜3-周期性的基因識別方法,其特征在AT于,所述頻譜3-周期性強(qiáng)度計算需要計算DNA序列在+位置處的總功率譜值,然后計算 DNA序列背景噪聲的三周期信號比;在長度為N的DNA序列S=StlS1 S2…Slri中,將核苷酸符號 b e I= ( A, T,G,C }出現(xiàn)在該序列的 O,3,6,...N — 3 與 1,4,7,...N — 2 以及 2,5,8,...MN -1等位置上的頻數(shù)分別記為xb,yb和zb,則得到序列在τ處的總功率譜值如下:
全文摘要
本發(fā)明公開一種基于序列相似性與頻譜3-周期性的基因識別方法,屬于生物信息學(xué)中的基因識別領(lǐng)域。所述基因識別方法利用核苷酸頻率特征矩陣來描述DNA序列;對不同序列通過計算核苷酸頻率特征矩陣相似度來確定DNA序列的相似度,并根據(jù)相似度選定信噪比閾值;通過計算序列核苷酸頻譜3-周期性強(qiáng)度以及序列中每個核苷酸位置處的斜率來區(qū)分外顯子與內(nèi)含子,并通過修正處理最終確定外顯子段。本發(fā)明解決了對于給定DNA序列,根據(jù)頻譜3-周期性基因識別算法中信噪比閾值過于單一,閾值確定過程缺乏考慮基因類別的問題。
文檔編號G06F19/22GK103218544SQ20131011550
公開日2013年7月24日 申請日期2013年4月3日 優(yōu)先權(quán)日2013年4月3日
發(fā)明者馮鈞, 盛震宇, 陳煥霖, 金圣韜, 唐志賢, 朱躍龍, 萬定生, 李士進(jìn), 徐黎明, 史涯晴, 許瀟, 馮讀慶, 朱康康, 姜康 申請人:河海大學(xué)