本發(fā)明屬于生物信息學(xué)領(lǐng)域,涉及一種基于圖注意力網(wǎng)絡(luò)的疾病相關(guān)pirna分類方法,其中包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)等技術(shù)。
背景技術(shù):
1、pirna是一類與piwi蛋白家族成員相互作用的小rna分子,它們?cè)诨虺聊娃D(zhuǎn)座元件調(diào)控中扮演著關(guān)鍵角色。在人類癌癥中,特別是種系和體細(xì)胞組織中,piwi蛋白和與其相互作用的pirna的表達(dá)與較差的臨床預(yù)后相關(guān),這表明它們?cè)诎┌Y發(fā)展中可能發(fā)揮著重要作用。因此,精確且高通量的分類與疾病相關(guān)的pirna對(duì)于優(yōu)先選擇潛在的實(shí)驗(yàn)篩選候選物至關(guān)重要。通過計(jì)算分類,可以減少實(shí)驗(yàn)室工作量,節(jié)約成本和時(shí)間,快速識(shí)別潛在的藥物靶點(diǎn)相互作用,從而加速候選物質(zhì)進(jìn)入實(shí)驗(yàn)驗(yàn)證階段。利用機(jī)器學(xué)習(xí)方法分類與疾病相關(guān)的pirna,可以通過分析大量的分子結(jié)構(gòu)和生物信息數(shù)據(jù),加速藥物發(fā)現(xiàn)和設(shè)計(jì)過程。這些方法不僅可以縮短藥物研發(fā)周期,降低研發(fā)成本,還能促進(jìn)新藥物的發(fā)現(xiàn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提出了一種基于圖注意力網(wǎng)絡(luò)的疾病相關(guān)pirna分類方法,該方法對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理后直接輸入到深層架構(gòu),使用圖注意力網(wǎng)絡(luò)處理圖結(jié)構(gòu)數(shù)據(jù),并應(yīng)用參數(shù)值為450的swish激活函數(shù)緩解梯度消失問題。
2、一種基于圖注意力網(wǎng)絡(luò)的疾病相關(guān)pirna分類方法,包括數(shù)據(jù)預(yù)處理、圖注意力網(wǎng)絡(luò)訓(xùn)練、加載并分類數(shù)據(jù)三個(gè)步驟,具體步驟如下:
3、步驟1、使用數(shù)據(jù)加載函數(shù),得到鄰接矩陣a、節(jié)點(diǎn)特征x;進(jìn)行數(shù)據(jù)完整性檢查,確保所有必要的數(shù)據(jù)組件均已正確加載且未損壞;對(duì)鄰接矩陣添加自環(huán)處理,即在每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的對(duì)角線位置上加上1;直接將原始數(shù)據(jù)特征送入深層架構(gòu)進(jìn)行特征提取和分類。
4、步驟2、定義一個(gè)包含兩個(gè)圖注意力層的深層架構(gòu),第一個(gè)圖注意力層應(yīng)用參數(shù)值為450的swish激活函數(shù),第二個(gè)圖注意力層使用softmax?激活函數(shù),對(duì)輸入值進(jìn)行非線性映射和平滑梯度處理;在圖注意力層中對(duì)權(quán)重矩陣和注意力機(jī)制的權(quán)重應(yīng)用l2正則化;在每個(gè)圖注意力層之后配置dropout層;利用預(yù)先訓(xùn)練好的模型權(quán)重來初始化圖注意力層,然后進(jìn)行訓(xùn)練并保存訓(xùn)練好的模型。
5、步驟3、通過步驟1定義的數(shù)據(jù)加載函數(shù)加載數(shù)據(jù),并預(yù)處理;將預(yù)處理后的數(shù)據(jù)輸入步驟2中訓(xùn)練好的模型,并將模型輸出的分類概率轉(zhuǎn)換為具體的類別標(biāo)簽;最后,分析和解釋每個(gè)pirna分類結(jié)果。
6、一種基于圖注意力網(wǎng)絡(luò)的疾病相關(guān)pirna分類方法,步驟1的實(shí)現(xiàn)過程如下:
7、使用load_data函數(shù)加載圖數(shù)據(jù)集,返回鄰接矩陣a、節(jié)點(diǎn)特征x以及訓(xùn)練、驗(yàn)證和測(cè)試標(biāo)簽y_train、y_val、y_test,以及對(duì)應(yīng)的索引idx_train、idx_val、idx_test。鄰接矩陣a是一個(gè)形狀為?( n, n)?的方陣,其中 n是圖中節(jié)點(diǎn)的數(shù)量,矩陣中的每個(gè)元素a[ i][ j]表示節(jié)點(diǎn) i和節(jié)點(diǎn) j之間是否存在邊;對(duì)數(shù)據(jù)進(jìn)行完整性檢查,確保所有必要的數(shù)據(jù)組件均已正確加載且未損壞;為了讓模型在處理每個(gè)節(jié)點(diǎn)時(shí)能夠考慮到節(jié)點(diǎn)自身的特征,對(duì)鄰接矩陣添加自環(huán)處理,即在每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的對(duì)角線位置上加上1,即a=a+;表示鄰接矩陣添加的自環(huán);分配訓(xùn)練集、驗(yàn)證集和測(cè)試集的標(biāo)簽以及構(gòu)建相應(yīng)的索引;預(yù)處理后直接將原始數(shù)據(jù)特征送入深層架構(gòu)進(jìn)行特征提取和分類。
8、一種基于圖注意力網(wǎng)絡(luò)的疾病相關(guān)pirna分類方法,步驟2的實(shí)現(xiàn)過程如下:
9、定義一個(gè)包含兩個(gè)圖注意力層的深層架構(gòu),其中第一圖注意力層接收每個(gè)節(jié)點(diǎn)的特征向量,記為x_in;該層包含attn_heads個(gè)注意力頭,每個(gè)頭的輸出特征維度為8;并通過參數(shù)值為450的swish激活函數(shù)進(jìn)行非線性變換,對(duì)輸入值進(jìn)行非線性映射和平滑梯度處理,同時(shí)應(yīng)用l2正則化進(jìn)行權(quán)重衰減;第一個(gè)圖注意力層的輸出經(jīng)過dropout處理后,送入第二個(gè)圖注意力層;第二個(gè)圖注意力層接收鄰接矩陣,通過注意力機(jī)制來加權(quán)鄰接節(jié)點(diǎn)的特征以捕捉節(jié)點(diǎn)間的復(fù)雜依賴關(guān)系。最后,采用softmax激活函數(shù),輸出每個(gè)節(jié)點(diǎn)屬于兩個(gè)類別的概率分布;同樣使用l2正則化,防止模型過擬合;利用預(yù)先訓(xùn)練好的模型權(quán)重來初始化圖注意力層,然后進(jìn)行訓(xùn)練并保存訓(xùn)練好的模型,以便進(jìn)行后續(xù)的分類任務(wù)。
10、一種基于圖注意力網(wǎng)絡(luò)的疾病相關(guān)pirna分類方法,步驟3的實(shí)現(xiàn)過程如下:
11、對(duì)新的pirna數(shù)據(jù)進(jìn)行分類,首先通過步驟1中的load_data函數(shù)加載數(shù)據(jù),這包括每個(gè)pirna的鄰接矩陣a、特征矩陣x。在數(shù)據(jù)預(yù)處理階段,對(duì)鄰接矩陣a添加自環(huán)以增強(qiáng)模型對(duì)節(jié)點(diǎn)自身特征的關(guān)注;加載步驟2中保存的模型;將預(yù)處理后的數(shù)據(jù)輸入模型,模型輸出每個(gè)pirna的分類概率,最終根據(jù)這些概率確定每個(gè)pirna的最終分類結(jié)果。
1.一種基于圖注意力網(wǎng)絡(luò)的疾病相關(guān)pirna分類方法,其特征在于,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理后直接輸入到深層架構(gòu),使用圖注意力網(wǎng)絡(luò)處理圖結(jié)構(gòu)數(shù)據(jù),并應(yīng)用參數(shù)值為450的swish激活函數(shù)緩解梯度消失問題,包括數(shù)據(jù)預(yù)處理、圖注意力網(wǎng)絡(luò)訓(xùn)練、加載并分類數(shù)據(jù)三個(gè)步驟,其具體步驟如下: