專(zhuān)利名稱:一種基于多序列比對(duì)遺傳算法的處理方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別涉及一種基于多序列比對(duì)遺傳算法的處理方法及裝置。
背景技術(shù):
目前,序列比對(duì)(Sequence Alignment, SA)是分析探究生物信息本質(zhì)特征最基本、最重要的一項(xiàng)關(guān)鍵技術(shù),通過(guò)序列比對(duì)可以發(fā)現(xiàn)生物序列中的功能、結(jié)構(gòu)和進(jìn)化等重要信息。多序列比對(duì)(Multiple Sequence Alignment,MSA)是生物信息中對(duì)多重序列進(jìn)行比對(duì)的基本的有效方法,具有極為重要而廣泛的應(yīng)用,對(duì)于其他相近或相關(guān)學(xué)科在特征信息識(shí)另O、檢測(cè)、故障診斷、制藥醫(yī)療和信息處理等方面也有較好地應(yīng)用和重要的借鑒作用。生物序列的比對(duì)是生物信息學(xué)中最基本、最重要的一項(xiàng)處理工作,通過(guò)序列比對(duì)可以揭示并發(fā)現(xiàn)生物序列中的功能、結(jié)構(gòu)以及進(jìn)化信息,在序列分析、基因識(shí)別、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、生物進(jìn)化樹(shù)的構(gòu)建等領(lǐng)域中有著廣泛的應(yīng)用。生物序列的信息量巨大,對(duì)其進(jìn)行比對(duì)操作花費(fèi)時(shí)間太大,所以,序列比對(duì)的啟發(fā)式算法與并行計(jì)算已經(jīng)成為研究的一個(gè)熱點(diǎn)問(wèn)題?,F(xiàn)在,國(guó)內(nèi)外在序列比對(duì)算法的方面的研究,主要采用為確定多個(gè)序列之間的相似性及同源性,而將它們按照一定的規(guī)律排列與比較,其計(jì)算量與信息處理繁雜程度非常獨(dú)大,采用傳統(tǒng)一般方法根本無(wú)法實(shí)現(xiàn)。將多個(gè)序列排列一起標(biāo)明其相似之處。序列中可以插入間隔(常用表示)。對(duì)應(yīng)的相同或相似的符號(hào)(在核酸中是A,T/U,C,G,在蛋白質(zhì)中是氨基酸殘基的單字母表示)排列在同一列上。比對(duì)中錯(cuò)配與突變相應(yīng),空位與插入或缺失對(duì)應(yīng)。這一方法常用于研究由共同原祖進(jìn)化而來(lái)的序列,特別是如蛋白質(zhì)序列或DNA序列等生物序列。序列比對(duì)還可用于語(yǔ)言進(jìn)化或文本間相似性之類(lèi)的研究。生物信息學(xué)是一門(mén)新興的交叉學(xué)科,所研究的對(duì)象是生物學(xué)的觀測(cè)數(shù)據(jù),研究方法則是從各種計(jì)算模型技術(shù)衍生出來(lái)的.數(shù)學(xué)中的各個(gè)領(lǐng)域如統(tǒng)計(jì)學(xué)、概率論、運(yùn)籌學(xué)、計(jì)算數(shù)學(xué)等均在生物信息學(xué)中有廣泛的應(yīng)用。雖然在序列比對(duì)的啟發(fā)式算法與并行計(jì)算新技術(shù)、新方法、新應(yīng)用層出不窮,如多重序列比對(duì)的遺傳算法、蟻群求解算法Ant-Align、聚類(lèi)分析法、粒子群算法、模擬退火算法、A星算法、傅立葉變換法等,但是,在比對(duì)精度、速度、穩(wěn)定性等方面都有一定程度的缺陷或不足,特別是在具體關(guān)鍵算法方面需要進(jìn)行進(jìn)一步改進(jìn)、創(chuàng)新和完善。由于生物序列較長(zhǎng),求解序列比對(duì)特別是多重序列比對(duì)的計(jì)算復(fù)雜度較高??梢宰C明,即使對(duì)于最簡(jiǎn)單的計(jì)分函數(shù),尋找最優(yōu)的多重序列比對(duì)也是一個(gè)NP-完全問(wèn)題。在實(shí)際計(jì)算中不太可能用精確的算法求得多重序列的準(zhǔn)確比對(duì),而只能用啟發(fā)式的算法在合理的時(shí)間內(nèi)求得近似解。本文研究了對(duì)生物序列如何用啟發(fā)式的算法,在綜合考慮解的正確性以及計(jì)算速度兩方面因素的前提下,求得質(zhì)量較高的多序列比對(duì)。目前,國(guó)內(nèi)外雖然在序列比對(duì)的啟發(fā)式算法與并行計(jì)算新技術(shù)、新方法、新應(yīng)用層出不窮,如多重序列比對(duì)的遺傳算法、蟻群求解算法Ant-Align、聚類(lèi)分析法、粒子群算法、模擬退火算法、A星算法、傅立葉變換法和其他神經(jīng)網(wǎng)絡(luò)等方法及單一算法,但是,在比對(duì)精度、速度、穩(wěn)定性等方面都有一定程度的缺陷或不足,特別是在具體關(guān)鍵算法方面需要進(jìn)行進(jìn)一步改進(jìn)、創(chuàng)新和完善。,有效的解決了局部收斂的問(wèn)題,加強(qiáng)了算法尋求全局最優(yōu)解的能力,但是,在比對(duì)精度、速度、穩(wěn)定性等方面都有一定程度的缺陷或不足。目前,采用的單一粗糙集(Roug Set, RS)處理處理模糊性與不確定性信息技術(shù),或LVQ神經(jīng)網(wǎng)絡(luò)分類(lèi)識(shí)別算法,雖然在局部最優(yōu)解收斂等某些方面有所提高,但在多序列比對(duì)效率和速度方面尚有不足。針對(duì)現(xiàn)有技術(shù)遺傳算法存在的收斂慢和易陷入局部最優(yōu)的不足,以及目前屬性約簡(jiǎn)算法計(jì)算復(fù)雜度高,不適合規(guī)模數(shù)據(jù)約簡(jiǎn)的弱點(diǎn)和在描述屬性集合等方面的不足的問(wèn)題,提出一種基于多序列比對(duì)遺傳算法的處理方法及裝置是信息處理技術(shù)領(lǐng)域目前急待解決的問(wèn)題之一。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提出了一種基于多序列比對(duì)遺傳算法的處理方法及裝置,通過(guò)構(gòu)建簡(jiǎn)約分類(lèi)識(shí)別模型,并對(duì)具體的實(shí)際問(wèn)題確定參數(shù)集,接著對(duì)確定的參數(shù)集進(jìn)行編碼設(shè)計(jì),然后簡(jiǎn)約分類(lèi)初始化后的子種群,最后對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,依據(jù)判斷結(jié)果進(jìn)行處理,本方案有助于高效比對(duì)識(shí)別,彌補(bǔ)了遺傳算法存在的收斂慢和易陷入局部最優(yōu)的不足,以及目前屬性約簡(jiǎn)算法計(jì)算復(fù)雜度高,不適合規(guī)模數(shù)據(jù)約簡(jiǎn)的弱點(diǎn)和在描述屬性集合等方面的不足,提高了處理效率。為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的一種基于多序列比對(duì)遺傳算法的處理方法,包括步驟一、構(gòu)建簡(jiǎn)約分類(lèi)識(shí)別模型;步驟二、對(duì)具體的實(shí)際問(wèn)題確定參數(shù)集;步驟三、對(duì)確定的參數(shù)集進(jìn)行編碼設(shè)計(jì);步驟四、簡(jiǎn)約分類(lèi)初始化后的子種群;步驟五、對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,依據(jù)判斷結(jié)果進(jìn)行處理。優(yōu)選的,上述步驟一中,簡(jiǎn)約分類(lèi)識(shí)別模型為結(jié)合粗糙集與神經(jīng)網(wǎng)絡(luò)的分類(lèi)識(shí)別模型。優(yōu)選的,利用粗糙集約簡(jiǎn)預(yù)處理模塊對(duì)初始數(shù)據(jù)及學(xué)習(xí)樣本進(jìn)行約簡(jiǎn),并對(duì)神經(jīng)網(wǎng)絡(luò)提供輸入樣本。優(yōu)選的,上述步驟一中,簡(jiǎn)約分類(lèi)識(shí)別模型中采用可辨識(shí)矩陣的屬性化簡(jiǎn)約算法,選出保證分類(lèi)正確的最小條件屬性集。優(yōu)選的,上述步驟一中,簡(jiǎn)約分類(lèi)識(shí)別模型包括但不限于數(shù)據(jù)預(yù)處理、構(gòu)建分類(lèi)器、智能子系統(tǒng)以及分類(lèi)識(shí)別知識(shí)庫(kù)。優(yōu)選的,上述步驟三中,所述編碼設(shè)計(jì)是采用二維編碼的多序列比對(duì)方式,以字符矩陣表示比對(duì)編碼方案。優(yōu)選的,上述步驟四中,是將子種群進(jìn)行簡(jiǎn)約分類(lèi)初始化。優(yōu)選的,上述步驟五中,進(jìn)一步包括對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,若性能滿足則對(duì)最優(yōu)解進(jìn)行解碼操作。 優(yōu)選的,上述步驟五中,進(jìn)一步包括對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,如性能不滿足則將結(jié)果種群和平均適應(yīng)度值進(jìn)行記錄,并進(jìn)行選擇、交叉和變異處理。
一種基于多序列比對(duì)遺傳算法的處理裝置,包括分類(lèi)識(shí)別模型構(gòu)建單元、參數(shù)集單元、編碼設(shè)計(jì)單元、初始化單元及判斷處理單元,通過(guò)構(gòu)建簡(jiǎn)約分類(lèi)識(shí)別模型,并對(duì)具體的實(shí)際問(wèn)題確定參數(shù)集,接著對(duì)確定的參數(shù)集進(jìn)行編碼設(shè)計(jì),然后簡(jiǎn)約分類(lèi)初始化后的子種群,最后對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,依據(jù)判斷結(jié)果進(jìn)行處理優(yōu)選的,上述分類(lèi)識(shí)別模型構(gòu)建單元用于構(gòu)建簡(jiǎn)約分類(lèi)識(shí)別模型。優(yōu)選的,上述編碼設(shè)計(jì)單元用于對(duì)確定的參數(shù)集進(jìn)行編碼設(shè)計(jì)。優(yōu)選的,上述初始化單元用于簡(jiǎn)約分類(lèi)初始化后的子種群。優(yōu)選的,上述判斷處理單元用于對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,依據(jù)判斷結(jié)果進(jìn)行處理。綜上所述,本發(fā)明提供了一種基于多序列比對(duì)遺傳算法的處理方法及裝置,通過(guò)構(gòu)建簡(jiǎn)約分類(lèi)識(shí)別模型,并對(duì)具體的實(shí)際問(wèn)題確定參數(shù)集,接著對(duì)確定的參數(shù)集進(jìn)行編碼設(shè)計(jì),然后簡(jiǎn)約分類(lèi)初始化后的子種群,最后對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,依據(jù)判斷結(jié)果進(jìn)行處理,本方案有助于高效比對(duì)識(shí)別,彌補(bǔ)了遺傳算法存在的收斂慢和易陷入局部最優(yōu)的不足,以及目前屬性約簡(jiǎn)算法計(jì)算復(fù)雜度高,不適合規(guī)模數(shù)據(jù)約簡(jiǎn)的弱點(diǎn)和在描述屬性集合等方面的不足,提高了處理效率。
圖I為本發(fā)明一具體實(shí)施例方法流程圖;圖2為本發(fā)明實(shí)施例的簡(jiǎn)約分類(lèi)識(shí)別模型示意圖;圖3為本發(fā)明之新改進(jìn)的遺傳算法流程圖;圖4為本發(fā)明一具體實(shí)施例的裝置示意圖。
具體實(shí)施例方式本發(fā)明實(shí)施例提供的一種基于多序列比對(duì)遺傳算法的處理方法及裝置,通過(guò)構(gòu)建簡(jiǎn)約分類(lèi)識(shí)別模型,并對(duì)具體的實(shí)際問(wèn)題確定參數(shù)集,接著對(duì)確定的參數(shù)集進(jìn)行編碼設(shè)計(jì),然后簡(jiǎn)約分類(lèi)初始化后的子種群,最后對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,依據(jù)判斷結(jié)果進(jìn)行處理,本方案有助于高效比對(duì)識(shí)別,彌補(bǔ)了遺傳算法存在的收斂慢和易陷入局部最優(yōu)的不足,以及目前屬性約簡(jiǎn)算法計(jì)算復(fù)雜度高,不適合規(guī)模數(shù)據(jù)約簡(jiǎn)的弱點(diǎn)和在描述屬性集合等方面的不足,提高了處理效率。生物信息學(xué)(Bioinformatics)是21世紀(jì)揭示生命科學(xué)的核心領(lǐng)域,是以計(jì)算機(jī)為工具對(duì)生物信息進(jìn)行儲(chǔ)存、檢索和分析的新交叉學(xué)科。序列比對(duì)(SA)是分析探究生物信息本質(zhì)特征最基本、最重要的一項(xiàng)關(guān)鍵技術(shù),通過(guò)序列比對(duì)可以發(fā)現(xiàn)生物序列中的功能、結(jié)構(gòu)和進(jìn)化等重要信息。多序列比對(duì)(MSA)是生物信息中對(duì)多重序列進(jìn)行比對(duì)的基本的有效方法,具有極為重要而廣泛的應(yīng)用。由于生物序列的信息量過(guò)于龐雜,進(jìn)行處理復(fù)雜度極高且為NP難題,尚無(wú)快速高效的直接方法,所以,探尋高效的多序列比對(duì)啟發(fā)式或近似方法成為研究的熱點(diǎn)。為使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,下面參照附圖并舉實(shí)施例,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。本方案的主要思路為為了探究一種高效的多序列比對(duì)算法,經(jīng)過(guò)對(duì)多序列比對(duì)遺傳算法、粗糙集與LVQ(Learning vector quantization)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特性的描述和分析,結(jié)合RS粗糙集理論與LVQ神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)約簡(jiǎn)及智能分類(lèi)識(shí)別中具有的獨(dú)特優(yōu)勢(shì)并優(yōu)化集成,提出并構(gòu)建一種基于RS粗糙集-LVQ神經(jīng)網(wǎng)絡(luò)簡(jiǎn)約模型及一種改進(jìn)的多序列比對(duì)新遺傳算法和流程,并進(jìn)行算法主要技術(shù)的實(shí)現(xiàn),模擬檢驗(yàn)表明新算法具有更好的敏感性和準(zhǔn)確度,以及處理數(shù)據(jù)的能力及速度。本發(fā)明實(shí)施例提供一種基于多序列比對(duì)遺傳算法的處理方法,如圖I所示,具體 步驟包括步驟一、構(gòu)建簡(jiǎn)約分類(lèi)識(shí)別模型;具體而言,在本發(fā)明實(shí)施例中,粗糙集RS理論是一種處理模糊性與不確定性的有效工具,本方案結(jié)合RS和LVQ神經(jīng)網(wǎng)絡(luò)二者的優(yōu)勢(shì),提出并建立了一種RS-LVQ神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)約分類(lèi)識(shí)別模型,如圖2所示。簡(jiǎn)約分類(lèi)識(shí)別模型為結(jié)合粗糙集與神經(jīng)網(wǎng)絡(luò)的分類(lèi)識(shí)別模型。粗糙集RS與LVQ神經(jīng)網(wǎng)絡(luò)集成可通過(guò)預(yù)處理簡(jiǎn)約增強(qiáng)分類(lèi)效果。先利用RS約簡(jiǎn)預(yù)處理模塊對(duì)初始數(shù)據(jù)及學(xué)習(xí)樣本進(jìn)行約簡(jiǎn),為L(zhǎng)VQ神經(jīng)網(wǎng)絡(luò)提供更簡(jiǎn)煉的輸入樣本,即利用粗糙集約簡(jiǎn)預(yù)處理模塊對(duì)初始數(shù)據(jù)及學(xué)習(xí)樣本進(jìn)行約簡(jiǎn),并對(duì)神經(jīng)網(wǎng)絡(luò)提供輸入樣本。RS是一類(lèi)符號(hào)化的分析方法,所有的屬性值均使用定性數(shù)據(jù),因此需要對(duì)其空值進(jìn)行處理,并將連續(xù)的屬性離散化。本模型中采用可辨識(shí)矩陣的屬性化簡(jiǎn)約算法,簡(jiǎn)約掉數(shù)據(jù)中大量的冗余、影響小或不可識(shí)別的屬性,有效選出保證分類(lèi)正確的最小條件屬性集。其次,構(gòu)建RS-LVQ分類(lèi)器及專(zhuān)家系統(tǒng)。以約簡(jiǎn)后形成的學(xué)習(xí)樣本對(duì)NN神經(jīng)網(wǎng)絡(luò)(Neural Networks, NN)系統(tǒng)進(jìn)行學(xué)習(xí)與訓(xùn)練,構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)。NN的輸入為R個(gè)神經(jīng)元,按LVQ神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)過(guò)程修正權(quán)值,并訓(xùn)練網(wǎng)絡(luò)。由數(shù)據(jù)預(yù)處理所得最小條件屬性集和相應(yīng)原始數(shù)據(jù)形成測(cè)試樣本集,對(duì)已訓(xùn)練好的LVQ網(wǎng)絡(luò)分類(lèi)測(cè)試。若測(cè)試結(jié)果滿足要求,可由分類(lèi)器中已知分類(lèi)識(shí)別特征或知識(shí)庫(kù)定義的規(guī)則構(gòu)建專(zhuān)家系統(tǒng),進(jìn)行分析、預(yù)測(cè)及分類(lèi)識(shí)別。最后,利用簡(jiǎn)約分類(lèi)識(shí)別效果模塊檢測(cè)判斷是否達(dá)到要求,并通過(guò)專(zhuān)家系統(tǒng)與分類(lèi)識(shí)別知識(shí)庫(kù)交互更新并協(xié)同優(yōu)化處理,再與粗糙集可辨識(shí)矩陣集成,對(duì)不必要或條件屬性及決策屬性影響小的屬性進(jìn)行屬性簡(jiǎn)約分類(lèi)。簡(jiǎn)約分類(lèi)識(shí)別模型包括但不限于數(shù)據(jù)預(yù)處理、構(gòu)建分類(lèi)器、智能子系統(tǒng)以及分類(lèi)識(shí)別知識(shí)庫(kù)。進(jìn)一步的,本案中LVQ神經(jīng)網(wǎng)絡(luò)算法是一個(gè)有監(jiān)督學(xué)習(xí)過(guò)程,需先明確集中訓(xùn)練模式的標(biāo)識(shí)。利用此算法可減少訓(xùn)練集中連接向量的誤分類(lèi)量,提高系統(tǒng)分類(lèi)性能,其實(shí)現(xiàn)步驟為(I)輸入樣本向量X到競(jìng)爭(zhēng)層,計(jì)算第i個(gè)輸入樣本點(diǎn)與競(jìng)爭(zhēng)勝出后子類(lèi)別《C之間的歐式距離d(x,ω0) (i = 1,2,...,R,ω為網(wǎng)絡(luò)初始權(quán)值),在輸出陣列中找出最大輸出單元C,搜尋最適合的子類(lèi)別并將其歸屬。(2)監(jiān)督學(xué)習(xí)分類(lèi)。將傳入線性分類(lèi)層,產(chǎn)生學(xué)習(xí)正誤結(jié)果;根據(jù)分類(lèi)結(jié)果的正誤,適當(dāng)修改競(jìng)爭(zhēng)層網(wǎng)絡(luò)權(quán)值,找到最合適的權(quán)值點(diǎn)。設(shè)X所屬類(lèi)型已知為r,在第一階段學(xué)習(xí)中c的類(lèi)別為S,則 r ( +1) = ^(0 + XO [40 -^¢0]; r =s' 叫(尤 +1) = (β) - μ{^)[χ{£) - OJf ( )];
L ω^. ( +1) = CUi (O;^ φ c
執(zhí)行所有訓(xùn)練模式構(gòu)成一個(gè)循環(huán)迭代,經(jīng)過(guò)反復(fù)迭代達(dá)到預(yù)先定義的循環(huán)代數(shù)。其中,學(xué)習(xí)速率μ (t)在O和I之間,以確保收斂隨循環(huán)代數(shù)增加而減少。當(dāng)i = c時(shí)若r=S表示分類(lèi)正確;當(dāng)i = c時(shí)若r古S分類(lèi)錯(cuò)誤,對(duì)此神經(jīng)網(wǎng)絡(luò)輸入R個(gè)神經(jīng)元,按上述步驟修正權(quán)值,完成網(wǎng)絡(luò)訓(xùn)練。當(dāng)X分類(lèi)結(jié)果正確時(shí),子類(lèi)別向樣本空間中的樣本點(diǎn)逼近,反之則遠(yuǎn)離樣本點(diǎn)。非最大輸出單元權(quán)值不變,多次迭代后可找出子類(lèi)別適當(dāng)?shù)臋?quán)值完成分類(lèi)。步驟二、對(duì)具體的實(shí)際問(wèn)題確定參數(shù)集;具體而言,在本發(fā)明實(shí)施例中,遺傳算法GA是一種建立在自然選擇和進(jìn)化過(guò)程中的全局性隨機(jī)搜索算法,可利用內(nèi)在的并行性求解大規(guī)模問(wèn)題。GA與傳統(tǒng)優(yōu)化搜索方法不同,更適合于處理復(fù)雜及非線性問(wèn)題,在解決NP難題中也取得了較好的效果。具有全局搜索能力和隱含并行性兩大優(yōu)勢(shì),前者使GA具有很強(qiáng)的魯棒性,可避免陷入局部收斂;后者可有效提高算法處理速度??衫脗€(gè)體的適應(yīng)度值,通過(guò)選擇、交叉和變異等遺傳操作求出全局最優(yōu)解。由于GA存在著收斂速度慢和易陷入局部最優(yōu)的不足,時(shí)常影響其實(shí)效。改進(jìn)遺傳算法是通過(guò)如下方式進(jìn)行對(duì)復(fù)雜的GA先進(jìn)行分層,低層中的每一個(gè)體經(jīng)過(guò)一段時(shí)間后均可獲得位于個(gè)體串上一些特定位置的優(yōu)良模式,通過(guò)高層操作,將優(yōu)良模式盡可能組合以獲得包含多個(gè)優(yōu)良模式的新個(gè)體,并為其提供更平等競(jìng)爭(zhēng)機(jī)會(huì)。將多種群GA與基本GA相比,更接近于自然種族的進(jìn)化,隨著時(shí)間變化各種族之間將發(fā)生某些基因交換,不斷增加的優(yōu)良品質(zhì)將被各種群完全繼承。單一種群的GA已較好地解決了很多問(wèn)題,采用有子種群(多種群)GA也將同樣獲得很好結(jié)果。每個(gè)子種群像單種群GA —樣獨(dú)立運(yùn)算,各子種群的GA在設(shè)置特性上有較大差異,可提高其局部搜索能力,為后續(xù)高層GA產(chǎn)生更多種類(lèi)的優(yōu)良模式,這種改進(jìn)的GA稱為分層遺傳算法HGA。具體而言,在本方案中,是利用RS-LVQ神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)約分類(lèi)識(shí)別模型,在此基礎(chǔ)上先對(duì)具體的實(shí)際問(wèn)題確定參數(shù)集。步驟三、對(duì)確定的參數(shù)集進(jìn)行編碼設(shè)計(jì);具體而言,在本發(fā)明實(shí)施例中,是采用二維編碼的多序列比對(duì)方式,以字符矩陣B [N, η]表示比對(duì)編碼方案。其中N為序列的個(gè)數(shù),n = nmax(si)*l. 2為字符矩陣的列。步驟四、簡(jiǎn)約分類(lèi)初始化后的子種群;具體而言,在本發(fā)明實(shí)施例中,種群初始化是將傳統(tǒng)初始化可視為單點(diǎn)隨機(jī)方法,可增強(qiáng)種群多樣性,擴(kuò)大種群搜索范圍;針對(duì)多序列比對(duì)的多點(diǎn)隨機(jī)初始化方法,在隨機(jī)基礎(chǔ)上利用生物進(jìn)化中在非位點(diǎn)間加入新不如在位點(diǎn)插入具有連續(xù)較長(zhǎng)更體現(xiàn)進(jìn)化的思路,在初始化序列時(shí)由需插入的長(zhǎng)度與字符矩陣中η的比值選擇插入位點(diǎn)個(gè)數(shù)和各位點(diǎn)插入數(shù)。適應(yīng)度函數(shù)確定是通過(guò)以流行的SP(Sum of pairs)目標(biāo)函數(shù)為衡量標(biāo)準(zhǔn),計(jì)算序列相似得分,對(duì)序列末尾都為的列不計(jì)分。SP函數(shù)計(jì)算得分越高序列比對(duì)效果越好,可將一個(gè)最佳比對(duì)轉(zhuǎn)換為尋找一個(gè)使SP分值最高的比對(duì)方案。SP函數(shù)
F (S*) =,cos t ( xiI. j , xi2. j )中的S*表不一個(gè)序列比對(duì)方案,各種情
況取值為 cost(x, y) = sin(x, y), VX, y G Σ (由具體打分矩陣定其值)cost (X, -) = G, vx G 乙(6為“-”罰分)
特殊情況cost (-, -)=0進(jìn)一步的,在本方案中是經(jīng)過(guò)簡(jiǎn)約分類(lèi)初始化后的m個(gè)子種群,即將子種群進(jìn)行簡(jiǎn)約分類(lèi)初始化。步驟五、對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,依據(jù)判斷結(jié)果進(jìn)行處理。具體而言,在本發(fā)明實(shí)施例中,是對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,依據(jù)判斷結(jié)果進(jìn)行處理。進(jìn)一步的,當(dāng)對(duì)其獨(dú)立運(yùn)行遺傳算法GA并判斷其性能,若滿足則對(duì)最優(yōu)解進(jìn)行解碼操作,否則將結(jié)果種群和平均適應(yīng)度值記錄到r [I,2,... m,1,2,... η]及bi中,經(jīng)過(guò)對(duì)R 選擇、交叉和變異處理,再對(duì)m個(gè)新子種群重新開(kāi)始GA算法。即,對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,若性能滿足則對(duì)最優(yōu)解進(jìn)行解碼操作;如性能不滿足則將結(jié)果種群和平均適應(yīng)度值進(jìn)行記錄,并進(jìn)行選擇、交叉和變異處理。進(jìn)一步的,遺傳操作主要包括選擇、交叉和變異三種操作,具體實(shí)現(xiàn)如下選擇操作低層采用輪盤(pán)賭選擇法選擇算子。高層則由各子種群的平均適應(yīng)度值選擇算子,對(duì)其結(jié)果種群選擇操作。其結(jié)果種群由平均適應(yīng)度值高/低而被復(fù)制/淘汰,所以,為體現(xiàn)了優(yōu)勝劣汰原則,高層以“輪盤(pán)賭選擇法”及“均勻隨機(jī)方法”選擇算子,并給各子種群的個(gè)體一公平競(jìng)爭(zhēng)機(jī)會(huì),以增強(qiáng)種群多樣性。交叉操作低層交叉算子以傳統(tǒng)單點(diǎn)交叉為基礎(chǔ),先判斷要進(jìn)行交叉的父代序列是否相同,相同時(shí)再次隨機(jī)挑選,該算子中交叉的基本單位是父代個(gè)體的一條序列。對(duì)各序列都需判斷可進(jìn)行交叉操作的位點(diǎn)并記錄,若無(wú)可交叉位點(diǎn),則該序列不交叉操作;若一序列有多個(gè)可交叉位點(diǎn),則可任選交叉位點(diǎn)操作。高層GA中交叉操作以個(gè)體為單位,對(duì)子種群操作,類(lèi)似也采用單點(diǎn)交叉法的低層交叉算子。變異操作是模仿基因突變的方法,改變局部的個(gè)體,以保持群體多樣性的有效操作。以GA中算子貢獻(xiàn)度較高的4個(gè)變異算子Local Shuff le、Block Shuff le、Union、Divide作為低層GA中不同子種群的變異算子。采用Mutate算子作為高層變異算子,刪除父代個(gè)體序列中各空位并重新插入形成新個(gè)體。算法終止條件各子群的最佳個(gè)體適應(yīng)度值相等,且在后續(xù)的480代中最佳適應(yīng)度值都不再發(fā)生改變。序列比對(duì)時(shí)可用Clean UpCap Columns算子清除不必要的由于粗糙集決策表和LVQ神經(jīng)網(wǎng)絡(luò)本質(zhì)上都包含“if. . . then”規(guī)則,只描述方法不同,基于二者的這種本質(zhì)聯(lián)系,可利用RS-LVQ神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)約分類(lèi)識(shí)別模型及算法對(duì)輸入比對(duì)分類(lèi)識(shí)別數(shù)據(jù)影響小的屬性進(jìn)行約簡(jiǎn),以降低模式分類(lèi)系統(tǒng)的復(fù)雜程度。還可將遺傳算法用到并行計(jì)算和群集環(huán)境中,方法是直接將每個(gè)節(jié)點(diǎn)當(dāng)成一個(gè)并行的種群,然后有機(jī)體根據(jù)不同的繁殖方法從一個(gè)節(jié)點(diǎn)遷移到另一節(jié)點(diǎn)。在上述過(guò)程中,在本方案中進(jìn)行具體選擇、交叉或變異操作和處理步驟,并進(jìn)行編程實(shí)現(xiàn)及修改完善與調(diào)試,即可實(shí)現(xiàn)新改進(jìn)遺傳算法??傊?,本方案通過(guò)深入分析研究遺傳算法(Genetic Algorithm, GA)通過(guò)模擬自然進(jìn)化過(guò)程搜索最優(yōu)解的方法的特點(diǎn)和優(yōu)勢(shì),以及存在的收斂速度慢和易陷入局部最優(yōu)的不足。借助粗糙集(Roug Set, RS)處理模糊性與不確定性的優(yōu)勢(shì),以及其知識(shí)庫(kù)中的知識(shí)(屬性)并非同等重要且有冗余的特點(diǎn),通過(guò)簡(jiǎn)約部分影響小的屬性利于簡(jiǎn)捷高效比對(duì)識(shí)另O。針對(duì)目前已有的基于粗糙集理論的屬性約簡(jiǎn)算法計(jì)算復(fù)雜度高,不適用于規(guī)模數(shù)據(jù)約簡(jiǎn)的弱點(diǎn),通過(guò)基于可辨識(shí)矩陣的屬性約簡(jiǎn)算法,將有關(guān)屬性區(qū)分信息聚集其中,可以方便地得到信息表的屬性核,并將RS與LVQ神經(jīng)網(wǎng)絡(luò)集成,以RS-LVQ神經(jīng)網(wǎng)絡(luò)簡(jiǎn)約分類(lèi)識(shí)別模型簡(jiǎn)約屬性初始化,可使新改進(jìn)后的分層遺傳算法(Hierarchic Genetic Algorithm,HGA)的多序列比對(duì)更加快速高效。粗糙集RS具有處理模糊性與不確定性的優(yōu)勢(shì),以及可簡(jiǎn)約其知識(shí)庫(kù)中的知識(shí)(屬性)非重要且有冗余屬性的特點(diǎn),通過(guò)屬性約簡(jiǎn)可使分類(lèi)識(shí)別簡(jiǎn)捷高效。利用可辨識(shí)矩陣,經(jīng)過(guò)屬性值約簡(jiǎn),可使規(guī)則最簡(jiǎn)或數(shù)據(jù)約簡(jiǎn)量最大,選擇的屬性組合達(dá)到優(yōu)化。神經(jīng)網(wǎng)絡(luò)(Neural Networks, NN)是一具有概括抽象能力、自學(xué)習(xí)與自適應(yīng)和內(nèi)在并行計(jì)算等特性的智能化信息處理技術(shù),在分類(lèi)識(shí)別中具有獨(dú)特優(yōu)勢(shì)。由Kohonen提出的LVQ神經(jīng)網(wǎng)絡(luò)是一種基于監(jiān)督學(xué)習(xí)的自組織神經(jīng)網(wǎng)絡(luò)模型,可選擇最佳匹配神經(jīng)元及權(quán)向量自適應(yīng)更新,根據(jù)分類(lèi)識(shí)別結(jié)果修正競(jìng)爭(zhēng)層的網(wǎng)絡(luò)權(quán)值改進(jìn)輸出。LVQ網(wǎng)絡(luò)的特點(diǎn)是結(jié)構(gòu)簡(jiǎn)單,可對(duì)線性輸入數(shù)據(jù)分類(lèi),還可處理多維及含噪數(shù)據(jù),其學(xué)習(xí)速率隨迭代次數(shù)增加而減小,通過(guò)自身訓(xùn)練可自動(dòng)對(duì)輸入模式進(jìn)行分類(lèi)識(shí)別。采用LVQ網(wǎng)絡(luò)分類(lèi),可彌補(bǔ)應(yīng)用最廣泛的BP (Back Propagation)算法的訓(xùn)練時(shí)間長(zhǎng)、收斂速度慢、易陷入局部極小等缺點(diǎn)。多序列比是生物信息處理中最基本的核心問(wèn)題,隨著大量龐雜數(shù)據(jù)的急劇增加,對(duì)多序列比對(duì)算法的敏感性、準(zhǔn)確性和運(yùn)算速度已經(jīng)成為研究的重點(diǎn)和熱點(diǎn)。本文提出的一種基于粗糙集RS和LVQ神經(jīng)網(wǎng)絡(luò)新改進(jìn)的多序列比對(duì)遺傳算法,利用粗糙集與LVQ神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用中,處理模糊性與不確定性數(shù)據(jù)的優(yōu)勢(shì)和具有概括抽象能力、自學(xué)習(xí)與自適應(yīng)及內(nèi)在并行計(jì)算等特性,以及其知識(shí)庫(kù)中的知識(shí)(屬性)并非同等重要且有冗余的特點(diǎn),通過(guò)簡(jiǎn)約部分影響小、冗余或難識(shí)別的屬性,有助于高效比對(duì)識(shí)別,彌補(bǔ)了遺傳算法存在的收斂慢和易陷入局部最優(yōu)的不足,以及目前現(xiàn)有的基于粗糙集理論的屬性約簡(jiǎn)算法計(jì)算復(fù)雜度高,不適合規(guī)模數(shù)據(jù)約簡(jiǎn)的弱點(diǎn)和在描述屬性集合等方面的不足,實(shí)驗(yàn)結(jié)果表明新改進(jìn)算法在多序列比對(duì)中具有較高的可行性和有效性,是一種有效的新思路。圖3為新改進(jìn)的遺傳算法流程圖。利用RS-LVQ神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)約分類(lèi)識(shí)別模型,可進(jìn)一步改進(jìn)HGA,新改進(jìn)后的GA的流程為先對(duì)具體的實(shí)際問(wèn)題確定參數(shù)集,然后對(duì)此參數(shù)集進(jìn)行編碼設(shè)計(jì),經(jīng)過(guò)簡(jiǎn)約分類(lèi)初始化后的m個(gè)子種群,對(duì)其獨(dú)立運(yùn)行GA并判斷其性能,若滿足則對(duì)最優(yōu)解進(jìn)行解碼操作,否則將結(jié)果種群和平均適應(yīng)度值記錄到r[l,2,. . . m,1,2, . . . η]及bi中,經(jīng)過(guò)對(duì)R選擇、交叉和變異處理,再對(duì)m個(gè)新子種群重新開(kāi)始GA算法。另外,本發(fā)明實(shí)施例還提供一種基于多序列比對(duì)遺傳算法的處理裝置。如圖4所示,為本發(fā)明實(shí)施例提供的一種基于多序列比對(duì)遺傳算法的處理裝置示意圖。—種基于多序列比對(duì)遺傳算法的處理裝置,包括分類(lèi)識(shí)別模型構(gòu)建單元11、參數(shù)集單元22、編碼設(shè)計(jì)單元33、初始化單元44及判斷處理單元55。分類(lèi)識(shí)別模型構(gòu)建單元11,用于構(gòu)建簡(jiǎn)約分類(lèi)識(shí)別模型;具體而言,在本發(fā)明實(shí)施例中,粗糙集RS理論是一種處理模糊性與不確定性的有效工具,本方案結(jié)合RS和LVQ神經(jīng)網(wǎng)絡(luò)二者的優(yōu)勢(shì),提出并建立了一種RS-LVQ神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)約分類(lèi)識(shí)別模型,如圖2所示。粗糙集RS與LVQ神經(jīng)網(wǎng)絡(luò)集成可通過(guò)預(yù)處理簡(jiǎn)約增強(qiáng)分類(lèi)效果。先利用RS約簡(jiǎn)預(yù)處理模塊對(duì)初始數(shù)據(jù)及學(xué)習(xí)樣本進(jìn)行約簡(jiǎn),為L(zhǎng)VQ神經(jīng)網(wǎng)絡(luò)提供更簡(jiǎn)煉的輸入樣本。RS是一類(lèi)符號(hào)化的分析方法,所有的屬性值均使用定性數(shù)據(jù),因此需要對(duì)其空值進(jìn)行處理,并將連續(xù)的屬性離散化。本模型中采用可辨識(shí)矩陣的屬性化簡(jiǎn)約算法,簡(jiǎn)約掉數(shù)據(jù)中大量的冗余、影響小或不可識(shí)別的屬性,有效選出保證分類(lèi)正確的最小條件屬性集。其次,構(gòu)建RS-LVQ分類(lèi)器及專(zhuān)家系統(tǒng)。以約簡(jiǎn)后形成的學(xué)習(xí)樣本對(duì)NN神經(jīng)網(wǎng)絡(luò)(Neural Networks, NN)系統(tǒng)進(jìn)行學(xué)習(xí)與訓(xùn)練,構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)。NN的輸入為R個(gè)神經(jīng)元,按LVQ神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)過(guò)程修正權(quán)值,并訓(xùn)練網(wǎng)絡(luò)。由數(shù)據(jù)預(yù)處理所得最小條件屬性集和相應(yīng)原始數(shù)據(jù)形成測(cè)試樣本集,對(duì)已訓(xùn)練好的LVQ網(wǎng)絡(luò)分類(lèi)測(cè)試。若測(cè)試結(jié)果滿足要求,可由分類(lèi)器中已知分類(lèi)識(shí)別特征或知識(shí)庫(kù)定義的規(guī)則構(gòu)建專(zhuān)家系統(tǒng),進(jìn)行分析、預(yù)測(cè)及分類(lèi)識(shí)別。最后,利用簡(jiǎn)約分類(lèi)識(shí)別效果模塊檢測(cè)判斷是否達(dá)到要求,并通過(guò)專(zhuān)家系統(tǒng)與分類(lèi)識(shí)別知識(shí)庫(kù)交互更新并協(xié)同優(yōu)化處理,再與粗糙集可辨識(shí)矩陣集成,對(duì)不必要或條件屬性及決策屬性影響小的屬性進(jìn)行屬性簡(jiǎn)約分類(lèi)。進(jìn)一步的,本案中LVQ神經(jīng)網(wǎng)絡(luò)算法是一個(gè)有監(jiān)督學(xué)習(xí)過(guò)程,需先明確集中訓(xùn)練模式的標(biāo)識(shí)。利用此算法可減少訓(xùn)練集中連接向量的誤分類(lèi)量,提高系統(tǒng)分類(lèi)性能,其實(shí)現(xiàn)步驟為(I)輸入樣本向量X到競(jìng)爭(zhēng)層,計(jì)算第i個(gè)輸入樣本點(diǎn)與競(jìng)爭(zhēng)勝出后子類(lèi)別《C之間的歐式距離d(x,ω0) (i = 1,2,...,R,ω為網(wǎng)絡(luò)初始權(quán)值),在輸出陣列中找出最大輸出單元C,搜尋最適合的子類(lèi)別并將其歸屬。(2)監(jiān)督學(xué)習(xí)分類(lèi)。將傳入線性分類(lèi)層,產(chǎn)生學(xué)習(xí)正誤結(jié)果;根據(jù)分類(lèi)結(jié)果的正誤,適當(dāng)修改競(jìng)爭(zhēng)層網(wǎng)絡(luò)權(quán)值,找到最合適的權(quán)值點(diǎn)。設(shè)X所屬類(lèi)型已知為r,在第一階段學(xué)習(xí)中c的類(lèi)別為S,則
權(quán)利要求
1.一種基于多序列比對(duì)遺傳算法的處理方法,其特征在于,所述方法包括步驟一、構(gòu)建簡(jiǎn)約分類(lèi)識(shí)別模型;步驟二、對(duì)具體的實(shí)際問(wèn)題確定參數(shù)集;步驟三、對(duì)確定的參數(shù)集進(jìn)行編碼設(shè)計(jì);步驟四、簡(jiǎn)約分類(lèi)初始化后的子種群;步驟五、對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,依據(jù)判斷結(jié)果進(jìn)行處理。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟一中,簡(jiǎn)約分類(lèi)識(shí)別模型為結(jié)合粗糙集與神經(jīng)網(wǎng)絡(luò)的分類(lèi)識(shí)別模型。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,利用粗糙集約簡(jiǎn)預(yù)處理模塊對(duì)初始數(shù)據(jù)及學(xué)習(xí)樣本進(jìn)行約簡(jiǎn),并對(duì)神經(jīng)網(wǎng)絡(luò)提供輸入樣本。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟一中,簡(jiǎn)約分類(lèi)識(shí)別模型中采用可辨識(shí)矩陣的屬性化簡(jiǎn)約算法,選出保證分類(lèi)正確的最小條件屬性集。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟一中,簡(jiǎn)約分類(lèi)識(shí)別模型包括但不限于數(shù)據(jù)預(yù)處理、構(gòu)建分類(lèi)器、智能子系統(tǒng)以及分類(lèi)識(shí)別知識(shí)庫(kù)。
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟三中,所述編碼設(shè)計(jì)是采用二維編碼的多序列比對(duì)方式,以字符矩陣表示比對(duì)編碼方案。
7.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟四中,是將子種群進(jìn)行簡(jiǎn)約分類(lèi)初始化。
8.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟五中,進(jìn)一步包括對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,若性能滿足則對(duì)最優(yōu)解進(jìn)行解碼操作。
9.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟五中,進(jìn)一步包括對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,如性能不滿足則將結(jié)果種群和平均適應(yīng)度值進(jìn)行記錄,并進(jìn)行選擇、交叉和變異處理。
10.一種基于多序列比對(duì)遺傳算法的處理裝置,其特征在于,所述裝置包括分類(lèi)識(shí)別模型構(gòu)建單元、參數(shù)集單元、編碼設(shè)計(jì)單元、初始化單元及判斷處理單元,通過(guò)構(gòu)建簡(jiǎn)約分類(lèi)識(shí)別模型,并對(duì)具體的實(shí)際問(wèn)題確定參數(shù)集,接著對(duì)確定的參數(shù)集進(jìn)行編碼設(shè)計(jì),然后簡(jiǎn)約分類(lèi)初始化后的子種群,最后對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,依據(jù)判斷結(jié)果進(jìn)行處理。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述分類(lèi)識(shí)別模型構(gòu)建單元用于構(gòu)建簡(jiǎn)約分類(lèi)識(shí)別模型。
12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述編碼設(shè)計(jì)單元用于對(duì)確定的參數(shù)集進(jìn)行編碼設(shè)計(jì)。
13.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述初始化單元用于簡(jiǎn)約分類(lèi)初始化后的子種群。
14.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述判斷處理單元用于對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,依據(jù)判斷結(jié)果進(jìn)行處理。
全文摘要
本發(fā)明提供了一種基于多序列比對(duì)遺傳算法的處理方法及裝置,通過(guò)構(gòu)建簡(jiǎn)約分類(lèi)識(shí)別模型,并對(duì)具體的實(shí)際問(wèn)題確定參數(shù)集,接著對(duì)確定的參數(shù)集進(jìn)行編碼設(shè)計(jì),然后簡(jiǎn)約分類(lèi)初始化后的子種群,最后對(duì)子種群進(jìn)行算法計(jì)算并判斷其性能,依據(jù)判斷結(jié)果進(jìn)行處理,本方案有助于高效比對(duì)識(shí)別,彌補(bǔ)了遺傳算法存在的收斂慢和易陷入局部最優(yōu)的不足,以及目前屬性約簡(jiǎn)算法計(jì)算復(fù)雜度高,不適合規(guī)模數(shù)據(jù)約簡(jiǎn)的弱點(diǎn)和在描述屬性集合等方面的不足,提高了處理效率。
文檔編號(hào)G06F19/24GK102622535SQ201210045408
公開(kāi)日2012年8月1日 申請(qǐng)日期2012年2月27日 優(yōu)先權(quán)日2012年2月27日
發(fā)明者賈鐵軍 申請(qǐng)人:上海電機(jī)學(xué)院