亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于網(wǎng)絡(luò)分析的群lasso特征分群方法

文檔序號:9579514閱讀:939來源:國知局
一種基于網(wǎng)絡(luò)分析的群lasso特征分群方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于生物工程技術(shù)領(lǐng)域,主要涉及生物信息學(xué)和生物數(shù)據(jù)挖掘,具體涉及 一種基于網(wǎng)絡(luò)分析的群lasso特征分群方法。
【背景技術(shù)】
[0002] 生物工程是以生物學(xué)(主要是基因遺傳學(xué)、細胞學(xué)和生物化學(xué))的理論為基礎(chǔ),結(jié) 合機械、電子計算機、化工等現(xiàn)代工程技術(shù),充分運用分子生物學(xué)的最新成就,自覺操縱遺 傳物質(zhì),再對這些改造的工程細胞株進行培養(yǎng),通過細胞增殖以生產(chǎn)大量有用代謝產(chǎn)物或 發(fā)揮它們獨特生理功能的一門新興技術(shù)。其廣泛的用途主要應(yīng)用于醫(yī)藥衛(wèi)生、食品輕工、農(nóng) 牧漁業(yè)、能源化工、冶金工業(yè)、環(huán)境保護等諸多方面。生物工程技術(shù)的合理應(yīng)用將為解決人 類面臨的糧食、健康、環(huán)境、能源等重大問題開辟廣闊的前景。
[0003] 生物工程與計算器微電子技術(shù)、新材料、新能源等被列為21世紀科學(xué)技術(shù)的核 心。由于生命科學(xué)和計算機科學(xué)的有機結(jié)合,從而可以通過綜合利用生物學(xué),計算機科學(xué)和 信息技術(shù)而揭示大量而復(fù)雜的生物數(shù)據(jù)所賦有的生物學(xué)奧秘。
[0004] 生物工程著眼于分子層面,是對基因進行改造和重組而后進行培養(yǎng)增殖。對于改 造后的細胞植株要想快速培養(yǎng)應(yīng)用于生物醫(yī)藥時,首先應(yīng)從海量未知基因選擇出并找到影 響細胞增殖的相關(guān)基因,這也是整個工程中至關(guān)重要的一步。另外,對于基因進行有效地分 群,了解其生物意義,還可以開發(fā)出基于這些基因的價格低廉的疾病基因芯片。
[0005] 目前為止基因的選擇方法可以分為:濾波法、包裝方法、內(nèi)含法。雖然這些方法成 功地應(yīng)用于聯(lián)合的基因選擇和微陣列分類,但是卻不能較好的將其應(yīng)用于較多的基因分群 之中,也不能揭示出基因與基因之間的相互作用。為了成群地選擇特征的同時并能夠進行 精度預(yù)測,2006年Yuan和Lin提出能按照預(yù)先分好的群進行基因選擇的群lasso,Meier etal將其擴展到邏輯斯諫回歸。為了能夠同時產(chǎn)生分群的稀疏性和群內(nèi)稀疏性,Simon etal提出了稀疏群lasso而且通過增廣坐標下降算法發(fā)展了一個算法來擬合這個模型; Vincent等人將它拓展到了多項式稀疏群lasso和發(fā)展了求解算法。盡管群lasso,稀疏群 lasso和它們的拓展已經(jīng)成功地應(yīng)用到微陣列分類和基因選擇,但是它們高度賴于群的劃 分。傳統(tǒng)的群lasso模型及其推廣模型大多采用數(shù)據(jù)集中編寫程序進行隨機自動分群,常 常出現(xiàn)分群只與數(shù)據(jù)有關(guān),與實際應(yīng)用背景無關(guān)(無生物學(xué)意義)。從生物學(xué)角度來說,很 容易根據(jù)基因調(diào)控網(wǎng)絡(luò)將基因成群地劃分,然而對于復(fù)雜的生物過程卻很難探測基因通路 并構(gòu)建調(diào)控網(wǎng)絡(luò)。因此,對群lasso及其推廣模型進行特征分群是生物信息學(xué)、計算生物學(xué) 等領(lǐng)域的一個急需解決的挑戰(zhàn)性問題。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的是克服上述方法中存在的缺陷,提出了一種具有可靠性的基于網(wǎng)絡(luò) 分析的群lasso及其推廣模型的分群方法,以構(gòu)建分層聚類樹并利用動態(tài)樹剪切算法識別 出影響細胞增殖的重要變量模塊,并根據(jù)精簡的網(wǎng)絡(luò)模塊對特征進行分群,進而簡化特征 分群難度并提高模型進行特征選擇的可靠性。
[0007] 本發(fā)明為實現(xiàn)上述目的采用如下技術(shù)方案,通過對實驗數(shù)據(jù)進行預(yù)處理將其分為 兩個數(shù)據(jù)集并通過相似性測量和冪鄰接函數(shù)構(gòu)建出鄰接矩陣;然后利用差異性測量分別構(gòu) 建出兩類樣本的分層聚類樹并利用動態(tài)剪切樹算法,計算出不同數(shù)據(jù)樣本中的重要模塊; 而后用負樣本模塊來簡化正樣本模塊,得到精簡模塊;最后根據(jù)特征變量分群,構(gòu)建稀疏群 lasso模型。其實現(xiàn)步驟如下:
[0008] (1)對于具體實驗所得到的"小樣本,超高維"數(shù)據(jù),為了降低數(shù)據(jù)運行程序的負 擔,依據(jù)實際實驗背景,將原始數(shù)據(jù)中的異常數(shù)據(jù),小關(guān)聯(lián)數(shù)據(jù)篩選出來去掉,從而得到分 群預(yù)處理數(shù)據(jù)集X= [\山Xn;
[0009] (2)根據(jù)分類任務(wù)的類別,將分群預(yù)處理數(shù)據(jù)集X分為兩類,即X+,X;通過相似性 測量和冪鄰接函數(shù),分別構(gòu)建出鄰接矩陣,f:
[0010] ⑶將鄰接矩陣轉(zhuǎn)化為拓撲重疊矩陣,Ω+ =[(:<]_&- 利用差異性測 量分別構(gòu)建正樣本和負樣本的分層聚類樹;
[0011] (4)利用動態(tài)剪切樹算法,分別計算出正樣本中的重要模塊和負樣本中的重要模 塊;
[0012] (5)根據(jù)實際的實驗背景,利用負樣本中的模塊來簡化正樣本中的模塊,得到q個 精簡模塊;根據(jù)精簡后的網(wǎng)絡(luò)模塊,把相應(yīng)的變量分為特征群,余下的每一個變量分別看作 一個特征群,進而完成特征分群任務(wù);
[0013] (R)枏抿Η術(shù)分雔笛^&1忽蛙紅亦看·分成η個雔.拔1???? 爐型:
[0014]
[0015] 本發(fā)明在構(gòu)建數(shù)據(jù)網(wǎng)絡(luò)時,首先將實驗測試的原始數(shù)據(jù)預(yù)處理,并分成兩個數(shù)據(jù) 集,便于網(wǎng)絡(luò)的構(gòu)建,此外也有利于以后根據(jù)動態(tài)聚類樹顯示的結(jié)果,將實驗?zāi)K進行精 簡,將分群過程簡化。
[0016] 本發(fā)明在精簡模塊時,根據(jù)顯示的正樣本和負樣本的分層聚類樹圖,選擇出兩個 樣本在分層聚類樹中顯示相同顏色的模塊,比較出兩樣本中具有相同數(shù)據(jù)特征的變量,并 篩選出來去掉,從而得出精簡后的正樣本模塊,使得基于網(wǎng)絡(luò)模塊進行特征分群更具有生 物意義。
【附圖說明】
[0017] 圖1是本發(fā)明的總流程圖;
[0018] 圖2是構(gòu)建網(wǎng)絡(luò)模塊并據(jù)此對特征分群示意圖;
[0019] 圖3是利用本發(fā)明對肝再生細胞增值數(shù)據(jù)構(gòu)建的正樣本模塊分層聚類樹圖;
[0020] 圖4是利用本發(fā)明對肝再生細胞增值數(shù)據(jù)識別出的正樣本模塊重要性圖;
[0021] 圖5是利用本發(fā)明對肝再生細胞增值數(shù)據(jù)識別出的簡化正樣本模塊變量數(shù)目表;
[0022] 圖6是利用本發(fā)明識別出的部分與肝再生細胞增殖相關(guān)基因表。
【具體實施方式】
[0023] 以下通過實施例對本發(fā)明的上述內(nèi)容做進一步詳細說明,但不應(yīng)該將此理解為本 發(fā)明上述主題的范圍僅限于以下的實施例,凡基于本發(fā)明上述內(nèi)容實現(xiàn)的技術(shù)均屬于本發(fā) 明的范圍。
[0024] 參照附圖1,本發(fā)明的實施步驟如下:
[0025] 步驟1 :用基因探針探測出大鼠肝切除后肝細胞樣本在2、6、12、24小時的基因表 達譜數(shù)據(jù),將其標記為正樣本數(shù)據(jù);同樣方法可得未進行肝切除的對照組數(shù)據(jù),將其標記為 負樣本數(shù)據(jù);將原始數(shù)據(jù)中的基因變異、異常數(shù)據(jù)和小關(guān)聯(lián)數(shù)據(jù)篩選出來去掉,從而得到分 群預(yù)處理數(shù)據(jù),其中未知變量(特征)為6995個。
[0026] 步驟2 :上述分群預(yù)處理數(shù)據(jù),其為在4個時間節(jié)點采集的正負兩類基因表達譜 數(shù)據(jù),每一類包含36個樣本,每一個樣本包含6995個變量(特征),從而構(gòu)建數(shù)據(jù)網(wǎng)絡(luò) 集 …X:), " =U,"_36)為實驗樣本數(shù)據(jù)集, &= 1,2,· ··Μ)為對照實驗樣本數(shù)據(jù)集。
[0027] 步驟3 :依據(jù)相似性測量和冪鄰接函數(shù),將預(yù)處理數(shù)據(jù)集Χ+,X轉(zhuǎn)化為鄰接網(wǎng)絡(luò)矩 陣I=[<,],,~乂 =仏
[0028] Π1)依?相類伸系教類系表達式:
[0029]
[0030]xh,x]為預(yù)處理數(shù)據(jù)網(wǎng)絡(luò) 1 = ) 個變量的時間向量;cor(xh,x])為第h個變量和第j個變量的相關(guān)系數(shù);從而將原始數(shù)據(jù)網(wǎng) 絡(luò)轉(zhuǎn)化為相關(guān)性系數(shù)網(wǎng)絡(luò)矩陣s(hj) (h,j= 1,2,…,6995)。
[0031] (3. 2)利用冪鄰接函數(shù)% ,其中β,彡1并且h,j= 1,2···,6995,β,由近似 的無標度拓撲準則,結(jié)合具體實驗背景得β' = 9,計算出的矩陣Ah_j(h,j= 1,2,…,6995), 即為鄰接網(wǎng)絡(luò)矩陣。
[0032] 步驟4 :由公式/?=!>/乂/?···,3600)得到一個變量與群體變量的相關(guān)度矩 陣,將1按照從大到小進行排序,分別在不同數(shù)據(jù)集中挑選出前3600個相關(guān)度較強的變 量。
[0033] 說明4值越大說明此變量與其余變量相關(guān)性越強,在數(shù)據(jù)網(wǎng)絡(luò)中越重要,此變量 在群體變量中的份量越重,此變量即為所找的變量,所以要在前面m個{(,值較大的變量中 進行分群。
[0034] 步驟5 :在上面選擇的3600個變量中將鄰接矩陣轉(zhuǎn)化為拓撲重疊矩陣, Ω1 =[ω,^,:Χ?,,,ΩΗω,,]Λ^2;計算出每個集合中的變量之間的相異系數(shù)巧,構(gòu)建出實驗樣 本和對照樣本分層聚類樹;利用動態(tài)剪切樹算法,分別識別出實驗樣本中的重要模塊和對 照
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1