本發(fā)明屬于結(jié)構(gòu)生物學(xué)分析
技術(shù)領(lǐng)域:
,特別涉及一種用于冷凍電鏡分析的單顆粒圖像聚類方法。
背景技術(shù):
:冷凍電鏡技術(shù)是一種把樣本置入超冷的環(huán)境中再利用電子顯微鏡進(jìn)行二維圖像采樣進(jìn)而生成樣本三維模型的技術(shù)。與x射線晶體學(xué)和核磁共振技術(shù)這兩種成熟的結(jié)構(gòu)生物學(xué)研究手段相比,冷凍電鏡技術(shù)具有可直接獲得分子的形貌信息和相位信息,能夠解析那些不適合應(yīng)用x射線晶體學(xué)和核磁共振技術(shù)進(jìn)行分析的蛋白質(zhì)等優(yōu)點(diǎn)。隨著生物樣品制備技術(shù)的完善,電子顯微鏡設(shè)備的進(jìn)步以及數(shù)字圖像處理技術(shù)的發(fā)展,電子顯微學(xué)已經(jīng)成為一種公認(rèn)的研究生物大分子、超分子復(fù)合體及亞細(xì)胞結(jié)構(gòu)的有力手段。最常用的冷凍電鏡方法是單顆粒圖像分析,單顆粒圖像分析是將大量的二維投影圖像生成三維模型的技術(shù)。但是目前電子顯微鏡得到的圖像信噪比極低,所以為了得到比較精確的三維模型必須收集大量的單顆粒圖像數(shù)據(jù),在數(shù)千到數(shù)萬(wàn)張圖像的量級(jí)。所以,在進(jìn)行三維重構(gòu)之前需要對(duì)圖像進(jìn)行聚類,從而確保每一類中的圖像屬于從同一投影方向生成的投影圖。而單顆粒圖像的特點(diǎn)表現(xiàn)為信噪比極低,常常低于1/30,所以傳統(tǒng)的圖像聚類算法在單顆粒圖像上已經(jīng)不再適用。目前常用的單顆粒圖像聚類算法大多是基于kmeans算法的變種。spider軟件采用的是首先濾波去噪,然后對(duì)像素空間進(jìn)行pca降維,最后采用分裂的kmeans方法進(jìn)行聚類。eman2軟件采用的是,對(duì)圖像進(jìn)行特征提取,然后在特征空間進(jìn)行kmeans聚類。xmipp軟件采用的是直接在像素空間進(jìn)行分裂的kmeans聚類,但是聚類準(zhǔn)則是xmipp提出的一種特殊的方法。不論是在特征空間還是像素空間進(jìn)行聚類,現(xiàn)在流行的算法的相似性度量都是兩兩相似性度量,即兩幅圖像的相似性的得出只需要這兩幅圖像。但是由于單顆粒圖像的噪聲很大,導(dǎo)致兩兩相似性的度量結(jié)果已經(jīng)不再可靠。由于相似性度量是聚類中最基本的問題,一旦相似性度量不準(zhǔn)確,之后的步驟也就失去了意義。再者,輸入的單顆粒圖像數(shù)據(jù)本身具有類的結(jié)構(gòu)信息,變現(xiàn)為屬于同一類的圖像之間距離比較近,只是由于噪聲的影響類間距離變小,類內(nèi)距離變大,這使得用傳統(tǒng)的方法難以區(qū)分類。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供一種用于冷凍電鏡分析的單顆粒圖像聚類方法,采用網(wǎng)絡(luò)的方法,利用全局的結(jié)構(gòu)信息來抑制噪聲的影響。一種單顆粒圖像聚類方法,用于單顆粒圖像分析,包括以下步驟:步驟一:接受用戶輸入初始類數(shù)目k0,最終類的數(shù)目kn和輸入數(shù)據(jù)集,隨機(jī)初始化數(shù)據(jù)集為k0個(gè)類,計(jì)算類中心,對(duì)輸入數(shù)據(jù)集建立共享k最近鄰網(wǎng)絡(luò);步驟二:進(jìn)行一次kmeans聚類,度量輸入圖像和類中心相似度時(shí),將類中心加入網(wǎng)絡(luò)中,并更新網(wǎng)絡(luò),計(jì)算節(jié)點(diǎn)之間的基于網(wǎng)絡(luò)的相似性(structuralsimilarity);步驟三:判斷當(dāng)前類的數(shù)目k是否等于用戶輸入kn,如果是,輸出各個(gè)類和類平均圖像,并退出,否則分裂最大的類并返回步驟二繼續(xù)執(zhí)行。步驟二的具體實(shí)現(xiàn)包括:進(jìn)行一次kmeans,即對(duì)每一個(gè)輸入圖像,計(jì)算該圖像和所有類中心的jaccard相似性并指派該圖像屬于相似性最大的類中心代表的類,對(duì)所有圖像指派結(jié)束之后更新類中心和共享k最近鄰網(wǎng)絡(luò),再對(duì)每幅圖像進(jìn)行指派,如此重復(fù)直到收斂或者迭代次數(shù)達(dá)到設(shè)定的上限;建立共享k最近鄰網(wǎng)絡(luò)時(shí)有如下公式(1):sim(xi,c)>sim(xi,xj),sim(ci,cj)>sim(ci,xi)(1)其中c為類平均圖像,xi,xj,為任意兩幅輸入圖像,sim是建立共享k最近鄰網(wǎng)絡(luò)時(shí)采用的兩兩相似性計(jì)算方法,每個(gè)類維護(hù)一個(gè)共享k最近鄰網(wǎng)絡(luò),該網(wǎng)絡(luò)是在原來的共享k最近鄰網(wǎng)絡(luò)的基礎(chǔ)上加入當(dāng)前類中心圖像得到的,其中jaccard相似性度量方法為:其中sxy為兩幅圖像的jaccard相似性,γ(x)為x的鄰域。進(jìn)一步的,分裂最大的類時(shí),統(tǒng)計(jì)類中的圖像和類平均圖像的jaccard相似性,將相似性值按高低排列,取前50%為一類,剩下的為一類,并分別計(jì)算這兩類的類中心等信息,然后刪除原來的類信息,保留兩個(gè)新生成的類。本發(fā)明的基于網(wǎng)絡(luò)相似性度量的單顆粒圖像聚類算法,是在單顆粒圖像聚類領(lǐng)域首次應(yīng)用了基于網(wǎng)絡(luò)的相似性度量方法,與目前領(lǐng)域內(nèi)存在的其他各類方法相比,運(yùn)算時(shí)間大致相同的情況下具有更高的精度。本發(fā)明旨在解決低信噪比情況下的單顆粒圖像聚類問題。本發(fā)明與現(xiàn)有領(lǐng)域內(nèi)的方法相比,其顯著優(yōu)點(diǎn):采用基于網(wǎng)絡(luò)的相似性度量方法,使得算法在低信噪比的情況下仍然適用。附圖說明圖1是本發(fā)明基于網(wǎng)絡(luò)相似性度量的單顆粒圖像聚類算法的系統(tǒng)結(jié)構(gòu)圖。圖2是本發(fā)明實(shí)施例中數(shù)據(jù)集的四幅代表圖像。圖3是本發(fā)明實(shí)施例中得到的類中心圖像。圖4是本發(fā)明實(shí)施例中類中心的真實(shí)值。具體實(shí)施方式下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的說明。圖1給出了本發(fā)明的單顆粒圖像聚類方法系統(tǒng)結(jié)構(gòu)圖:首先初始化類中心,對(duì)輸入數(shù)據(jù)建立共享k最近鄰網(wǎng)絡(luò)。接下來的步驟從算法頂層來看是一個(gè)分裂的kmeans算法。從算法細(xì)節(jié)來看,我們采用基于網(wǎng)絡(luò)的相似性作為kmeans中的相似性度量方法。下面進(jìn)行具體闡述:第一步:接受用戶輸入初始類數(shù)目k0,最終類的數(shù)目kn和輸入數(shù)據(jù)集。初始化數(shù)據(jù)集為k0個(gè)類,初始化類中心。對(duì)輸入數(shù)據(jù)集建立共享k最近鄰網(wǎng)絡(luò)。第二步:進(jìn)行一次kmeans。即對(duì)每一個(gè)輸入圖像,計(jì)算該圖像和所有類中心的jaccard相似性并指派該圖像屬于相似性最大的類中心代表的類。對(duì)所有圖像指派結(jié)束之后更新類中心和共享k最近鄰網(wǎng)絡(luò),再對(duì)每幅圖像進(jìn)行指派,如此重復(fù)直到收斂或者迭代次數(shù)達(dá)到設(shè)定的上限。由于單顆粒圖像的信噪比很低但類平均圖像的信噪比很高,所以我們?cè)诮⒐蚕韐最近鄰網(wǎng)絡(luò)時(shí)導(dǎo)致有如下結(jié)果:sim(xi,c)>sim(xi,xj),sim(ci,cj)>sim(ci,xi)(1)其中c為類平均圖像,xi,xj,為任意兩幅輸入圖像,sim是建立共享k最近鄰網(wǎng)絡(luò)時(shí)采用的兩兩相似性計(jì)算方法,這里我們采用correntropy。所以,如果我們一次性把所有類平均圖像加入輸入圖像的網(wǎng)絡(luò)中,類平均圖像一定是互相連接的,這些不必要的邊在網(wǎng)絡(luò)中會(huì)帶來干擾,這與我們考察類平均圖像和輸入圖像的相似性的目的相違背。所以,我們采取的方式是每個(gè)類維護(hù)一個(gè)共享k最近鄰網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)是在原來的共享k最近鄰網(wǎng)絡(luò)的基礎(chǔ)上加入當(dāng)前類中心圖像得到的。其中jaccard相似性度量方法為:其中sxy為兩幅圖像的jaccard相似性。γ(x)為x的鄰域。第三步:判斷當(dāng)前的類的數(shù)目是否達(dá)到用戶輸入kn,如果達(dá)到則輸出各個(gè)類和類中心,退出,否則分裂最大的類,更新當(dāng)前類的數(shù)目,返回執(zhí)行第二步。分裂最大的類時(shí),我們統(tǒng)計(jì)類中的圖像和類平均圖像的jaccard相似性,將相似性值按高低排列,取前50%為一類,剩下的為一類,并分別計(jì)算這兩類的類中心等信息。然后刪除原來的類信息,保留兩個(gè)新生成的類。實(shí)例:現(xiàn)有一個(gè)數(shù)據(jù)集,包含四個(gè)類,每個(gè)類有60幅圖像,信噪比為1/30。我們每個(gè)類選取一副圖像顯示如圖2所示。使用本發(fā)明方法的軟件處理結(jié)果輸出如下:真實(shí)類1真實(shí)類2真實(shí)類3真實(shí)類4輸出類155100輸出類245430輸出類305540輸出類410360所以,我們得到本方法的準(zhǔn)確率為92.92%。輸出的類中心圖像為圖3。類中心的真實(shí)值為圖4所示。從結(jié)果可以看出,本方法有效的對(duì)低信噪比的單顆粒圖像進(jìn)行聚類,在當(dāng)前數(shù)據(jù)集中的準(zhǔn)確率達(dá)到了92.92%。上述實(shí)施例不以任何方式限制本發(fā)明,凡是采用等同替換或等效變換的方式獲得的技術(shù)方案均落在本發(fā)明的保護(hù)范圍內(nèi)。當(dāng)前第1頁(yè)12