專利名稱:一種基于mtDNA遺傳信息聚類分析的區(qū)域人口結(jié)構(gòu)分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及遺傳信息研究區(qū)域人口結(jié)構(gòu)的技術(shù)領(lǐng)域,特別涉及一種基于mtDNA遺傳信息聚類分析的區(qū)域人口結(jié)構(gòu)分析方法。
背景技術(shù):
人口結(jié)構(gòu)和組成與結(jié)構(gòu),通常是以民族、性別、年齡等因素為指標(biāo)進(jìn)行宏觀統(tǒng)計學(xué)分析和匯總,對人口結(jié)構(gòu)的認(rèn)識停留在直觀信息的統(tǒng)計分析上,存在工作量大,統(tǒng)計信息誤差大等缺點(diǎn)。嘗試從分子水平和基因序列信息表征區(qū)域人口的結(jié)構(gòu)和特征,使區(qū)域人口打上分子特征標(biāo)示,為區(qū)域人口成分界定和類群界定提供新的技木通道已經(jīng)成為研究的熱點(diǎn)。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的缺陷,本發(fā)明的目的在于提供一種基于mtDNA遺傳信息聚類分析的區(qū)域人口結(jié)構(gòu)分析方法,用遺傳算法和k-modes模型嵌合的聚類算法對區(qū)域人群mtDNA序列進(jìn)行聚類分析,實(shí)現(xiàn)對區(qū)域人口結(jié)構(gòu)進(jìn)行類群標(biāo)識和類群結(jié)構(gòu)劃分,以mtDNA多態(tài)性位點(diǎn)標(biāo)識人口類別聚類分析方法カ求提高遺傳算法收斂速度捜索性能,達(dá)到高穩(wěn)定性的聚類分析結(jié)果。為了實(shí)現(xiàn)上述任務(wù),本發(fā)明采取如下的技術(shù)解決方案一種基于mtDNA遺傳信息聚類分析的區(qū)域人ロ結(jié)構(gòu)分析方法,包括下列步驟步驟一、選擇樣本來源根據(jù)數(shù)據(jù)庫資源信息量,選擇mtDNA高變I區(qū)長度為350bp序列,選擇mtDNA高變I區(qū)在16026-16399區(qū)間序列,長度為350bp,進(jìn)行聚類分析,依據(jù)數(shù)據(jù)庫提供的原始數(shù)據(jù),隨機(jī)選取所選區(qū)域內(nèi)的人口 mtDNA數(shù)據(jù)在這個區(qū)間內(nèi)具有完整信息的樣本100-200個;步驟ニ、構(gòu)建遺傳算法的K-modes聚類嵌合的分析模型遺傳算法以個體適應(yīng)度的大小來確定該個體被遺傳到下一代群體中的概率,在遺傳K-modes算法中,采用聚類緊密度指標(biāo)作為個體的適應(yīng)度值,個體S的適應(yīng)度函數(shù)定義為
[
權(quán)利要求
1.一種基于mtDNA遺傳信息聚類分析的區(qū)域人口結(jié)構(gòu)分析方法,其特征在于,包括下列步驟 步驟一、選擇樣本來源根據(jù)數(shù)據(jù)庫資源信息量,選擇mtDNA高變I區(qū)長度為350bp序列,選擇mtDNA高變I區(qū)在16026-16399區(qū)間序列,長度為350bp,進(jìn)行聚類分析,依據(jù)數(shù)據(jù)庫提供的原始數(shù)據(jù),隨機(jī)選取所選區(qū)域內(nèi)的人口 mtDNA數(shù)據(jù)在這個區(qū)間內(nèi)具有完整信息的樣本100-200個; 步驟二、構(gòu)建遺傳算法的K-modes聚類嵌合的分析模型 遺傳算法以個體適應(yīng)度的大小來確定該個體被遺傳到下一代群體中的概率,在遺傳K-modes算法中,采用聚類緊密度指標(biāo)作為個體的適應(yīng)度值,個體S的適應(yīng)度函數(shù)定義為
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述的基于遺傳算法的K-modes模型算法執(zhí)行步驟為 一、初始化種群,使每個個體表示一種分類方案,并對其進(jìn)行編碼; 二、從種群中選擇一個個體,對序列對象進(jìn)行編碼,對編碼后的序列對象進(jìn)行聚類; 三、通過公式(I)計算聚類結(jié)果的聚類內(nèi)緊密度值,并將該值作為個體的適應(yīng)度值返回; 四、有未被選擇的個體則返回到步驟(二);如果種群中所有個體都被選擇過,通過循環(huán)語句判斷算法是否已完成規(guī)定的f (S)迭代次數(shù),若已完成規(guī)定的f (S)迭代次數(shù)則轉(zhuǎn)到步驟(六);否則進(jìn)入到步驟(五); 五、根據(jù)各個體的適應(yīng)度值和遺傳算法的參數(shù)采用精英保留策略,選擇出適應(yīng)度最高的個體,利用隨機(jī)概率選擇個體,通過交叉運(yùn)算和變異運(yùn)算的相互配合來優(yōu)化種群,并返回到步驟(二); 六、輸出最終結(jié)果,退出。
全文摘要
一種基于mtDNA遺傳信息聚類分析的區(qū)域人口結(jié)構(gòu)分析方法,采用遺傳算法和k-modes模型嵌合的聚類算法對區(qū)域人群mtDNA遺傳序列信息進(jìn)行聚類分析,通過研究類群分布規(guī)律及各聚類中心之間的距離,統(tǒng)計在各個類群的樣本數(shù),計算出各個類群中的人口分布密度;從而對所選區(qū)域的人口結(jié)構(gòu)特征作出分析;利用數(shù)據(jù)庫中區(qū)域人群mtDNA序列數(shù)據(jù),采用遺傳算法嵌合K-modes的分析方法,給出定量的mtDNA分子標(biāo)識的類群結(jié)構(gòu)劃分方法,從而分析研究區(qū)域人群結(jié)構(gòu)特征,具有較好的聚類效果和穩(wěn)定性,適用于區(qū)域群體大規(guī)模mtDNA數(shù)據(jù)聚類分析。
文檔編號G06F17/30GK102629255SQ20121004975
公開日2012年8月8日 申請日期2012年2月29日 優(yōu)先權(quán)日2012年2月29日
發(fā)明者劉曉剛, 劉芳娥, 吳曉明, 夏娟娟, 張虎勤, 杜建強(qiáng), 郭燕 申請人:西安交通大學(xué)