本發(fā)明設(shè)計(jì)重疊細(xì)胞分割后的異常像素點(diǎn)重構(gòu)。
背景技術(shù):
近年來宮頸癌高發(fā),已經(jīng)成為威脅婦女生命的社會(huì)問題。在全世界女性中,每年新診斷子宮頸癌約52.76萬人,近26.50萬人死于該病,其中90%死者位于不發(fā)達(dá)地區(qū)。中國(guó)每年新發(fā)現(xiàn)子宮頸癌例數(shù)約7.5萬,占全球?qū)m頸癌新發(fā)總?cè)藬?shù)的1/7,3.5萬人死于此病。目前有效的宮頸癌篩查方法是宮頸脫落細(xì)胞涂片病理檢查。該方法需要經(jīng)驗(yàn)豐富的病理醫(yī)生在鏡下觀察病變細(xì)胞后再做出診斷,這將耗費(fèi)大量的人力物力,難以適應(yīng)現(xiàn)實(shí)的需求。計(jì)算機(jī)輔助閱片技術(shù)能有效解決這一問題,典型的有dna倍體分析。該技術(shù)首先用feulgen對(duì)細(xì)胞核染色,然后識(shí)別圖像上的各類細(xì)胞及垃圾雜質(zhì)并將上皮細(xì)胞挑選出來,最后采用圖像測(cè)量的方法測(cè)定細(xì)胞核內(nèi)dna含量作為判斷異常細(xì)胞的依據(jù)。
細(xì)胞分割的目的在于將圖像分割為單個(gè)的細(xì)胞,并以細(xì)胞為單位進(jìn)行分析,這是dna倍體分析的前提。細(xì)胞圖片中不可避免的會(huì)出現(xiàn)一些重疊細(xì)胞,而重疊細(xì)胞的分割分后會(huì)出現(xiàn)像素點(diǎn)異常問題。這將導(dǎo)致細(xì)胞的紋理、灰度以及最重要的光密度等特征出現(xiàn)偏差,降低細(xì)胞dna測(cè)量精度和診斷的準(zhǔn)確率。無論哪種圖像修復(fù)方法,其基本立足點(diǎn)在于利用現(xiàn)有樣本的先驗(yàn)知識(shí)去修復(fù)受損區(qū)域的像素。因此先驗(yàn)知識(shí)是否重要,以及是否能被很好利用,這直接影響著修復(fù)的質(zhì)量。然而在細(xì)胞重構(gòu)中,一個(gè)細(xì)胞有效的像素非常有限,導(dǎo)致訓(xùn)練數(shù)據(jù)不充分,這使得目前的方法都難以取得理想的效果。本文提出一種基于gmm-ubm(gaussianmixturemodels,gmmuniversalbackgroundmodel,ubm)模型的重疊區(qū)域重構(gòu)方法,以有效解決這一問題。gmm用于對(duì)每個(gè)細(xì)胞像素點(diǎn)分布建模,含有大量參數(shù)需要訓(xùn)練。較小的數(shù)據(jù)量無法滿足這一要求。gmm-ubm用大量數(shù)據(jù)訓(xùn)練一個(gè)通用的ubm模型,再利用每個(gè)細(xì)胞特有的信息自適應(yīng)一個(gè)特異性的gmm模型。該模型在說話人識(shí)別領(lǐng)域得到了廣泛的應(yīng)用,在少量數(shù)據(jù)方面適應(yīng)能力較強(qiáng)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是為了解決重疊細(xì)胞的分割分后會(huì)出現(xiàn)像素點(diǎn)異常問題,而提出的一種基于gmm-ubm模型的重疊區(qū)域重構(gòu)方法。
上述發(fā)明目的主要是通過以下技術(shù)方案實(shí)現(xiàn)的。
s1、隨機(jī)選取同一標(biāo)本的1000個(gè)單細(xì)胞數(shù)據(jù),做訓(xùn)練數(shù)據(jù)。
s2、利用em算法訓(xùn)練通用的高斯混合模型ubm。
混合高斯模型的概率密度公式如下:
式中m為混合度通常根據(jù)實(shí)驗(yàn)結(jié)果指定,本文中m=3,πk表示第k個(gè)單高斯模型的權(quán)重,n(x,μk,c)為第k個(gè)單高斯模型的概率密度,其中
其中μk為數(shù)學(xué)期望、c為協(xié)方差矩陣。
em算法是一種從存在隱含變量的數(shù)據(jù)集中求解概率模型參數(shù)的最大似然估計(jì)方法;高斯混合模型的訓(xùn)練就是em算法實(shí)現(xiàn)的,其中的隱含變量為πk;通過式1、2可知gmm模型需要確定的參數(shù)有πk、μk、c;em算法估計(jì)高斯混合模型有兩個(gè)步驟;e步驟,通過初始化或者上一步的結(jié)果已知各個(gè)高斯分量的參數(shù),去估計(jì)每個(gè)高斯分量的權(quán)值,權(quán)值
式中為第i個(gè)樣本在第k個(gè)單高斯模型中的概率;
式中nk表示屬于第k個(gè)高斯分量的樣本個(gè)數(shù)。
s3、隨機(jī)選取分割后細(xì)胞正常部分信息,利用map算法自適應(yīng)高斯混合模型gmm。
map算法分為兩步:第一步同em算法的e步驟相同,計(jì)算如式3所示的各個(gè)高斯分量的權(quán)值,并計(jì)算如下所示的參數(shù):
第二步由nk得到修正因子,來更新舊的ubm的參數(shù),對(duì)于高斯分量k,參數(shù)計(jì)算的表達(dá)式分別如下:
其中,γ讓所有的混合權(quán)值的和為1,βkπ,βkμ,βkc為高斯分量的權(quán)重、均值向量、協(xié)方差矩陣的修正因子,它的作用是平衡gmm模型的新舊參數(shù),它的值越大,說明數(shù)據(jù)越充分,也就是新參數(shù)越可信;而如果它越小,就說明數(shù)據(jù)的數(shù)量較少,對(duì)gmm模型估計(jì)也變得較不準(zhǔn)確,它的定義式如下:
式中λρ為關(guān)系因子是約束修正因子βkρ的變化尺度(ρ∈{π,μ,c}),λ通常取16。
s4、利用重疊細(xì)胞分割方法分割重疊細(xì)胞。
s5、利用gmm模型隨機(jī)生成符合約束條件的灰度值來修改異常部分。
計(jì)算機(jī)輔助閱片的dna倍體分析系統(tǒng)的診斷原理是:將疑似腫瘤細(xì)胞的圖片羅列出來,即找到di>2.5的細(xì)胞圖片;di的計(jì)算公式如式13所示,由于淋巴細(xì)胞的dna含量相對(duì)穩(wěn)定故利用標(biāo)本中淋巴細(xì)胞的iod均值作為standard值;iod值的計(jì)算公式如下所示:
其中,為對(duì)應(yīng)像素點(diǎn)的光密度值如下:
其中,代表背景的平均灰度值,代表像素點(diǎn)的灰度值;針對(duì)重疊部分灰度值異常問題,所需生成的灰度值要使其不影響原始細(xì)胞的iod值,那么就要限制其值在一個(gè)有效的值域y內(nèi);即新生成的灰度值的光密度值要在原始細(xì)胞正常部分的光密度值均值的兩側(cè),值域y的計(jì)算公式如下所示:
式中odm為細(xì)胞核正常部分的光密度均值,ods為細(xì)胞核正常部分的光密度標(biāo)準(zhǔn)差,由計(jì)算可知值域
s6、利用中值濾波平滑新生成部分。
s7、利用fmm算法修復(fù)新生成部分與正常部分的銜接邊緣。
修補(bǔ)區(qū)域的選取以兩個(gè)細(xì)胞重疊為例,設(shè)這兩個(gè)細(xì)胞的邊緣輪廓點(diǎn)集合為c1、c2,兩個(gè)重疊細(xì)胞的重疊部分輪廓點(diǎn)的集合m;首先求取集合m,它由兩部分組成,即在輪廓c1內(nèi)的輪廓c2上的點(diǎn)和在輪廓c2內(nèi)的輪廓c1上的點(diǎn)。然后將集合m膨脹得到的區(qū)域d就是待修復(fù)區(qū)域;fmm算法原理:假設(shè)修復(fù)區(qū)域d中p點(diǎn)的灰度值,以點(diǎn)p為中心選取一個(gè)小鄰域βε,q為其中的一點(diǎn),點(diǎn)p修改值的計(jì)算公式如下:
式中△i(q)為q點(diǎn)的亮度梯度值,w(p,q)=dir(p,q)·dst(p,q)·lev(p,q),其中dir(p,q)為方向因子,dst(p,q)為幾何距離因子,lev(p,q)為水平集距離因子。
發(fā)明效果
本發(fā)明提供了一種基于gmm-ubm模型的重疊區(qū)域重構(gòu)方法。本算法首先選取大量單細(xì)胞圖片數(shù)據(jù)訓(xùn)練一個(gè)ubm,用于對(duì)所有細(xì)胞的灰度值建模。然后用每個(gè)細(xì)胞的正常部分自適應(yīng)一個(gè)gmm用于對(duì)該細(xì)胞灰度值的分布建模。對(duì)每個(gè)細(xì)胞的重疊部分,用其gmm隨機(jī)生成灰度值填充到重疊區(qū)域,并為防止隨機(jī)值失衡,加入嚴(yán)格的灰度值限制。利用中值濾波的方法平滑新生成部分的粗糙紋理。為了解決新生成部分與背景和正常部分的過渡不平滑問題,提出利用fmm(fastmatchingmethod,fmm)圖像修復(fù)算法來根據(jù)銜接邊緣的信息來修復(fù)銜接部分。實(shí)驗(yàn)表明,該方法可以有效地調(diào)整細(xì)胞的紋理、灰度、光密度等特征值,減少dna含量測(cè)量的誤差,降低異常像素點(diǎn)對(duì)分類器識(shí)別率的影響。
附圖說明
圖1重疊細(xì)胞分離過程圖示;
圖2本文算法的實(shí)現(xiàn)過程圖;
圖3多種重疊細(xì)胞重構(gòu)后的效果圖。
具體實(shí)施方法
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
實(shí)施例1:
如圖1所示本文提供的重疊細(xì)胞分割后的異常像素點(diǎn)重構(gòu)方法,包含模型訓(xùn)練和細(xì)胞重構(gòu):
所述模型訓(xùn)練包含步驟:
s1、隨機(jī)選取同一標(biāo)本的1000個(gè)單細(xì)胞數(shù)據(jù),做訓(xùn)練數(shù)據(jù);
s2、利用em算法訓(xùn)練通用的高斯混合模型ubm;
s3、隨機(jī)選取分割后細(xì)胞正常部分信息,利用map算法自適應(yīng)高斯混合模型gmm;
所述細(xì)胞重構(gòu)包含步驟:
s4、利用重疊細(xì)胞分割方法分割重疊細(xì)胞;
s5、利用gmm模型隨機(jī)生成符合約束條件的灰度值來修改異常部分;
s6、利用中值濾波平滑新生成部分;
s7、利用fmm算法修復(fù)新生成部分與正常部分的銜接邊緣。
本發(fā)明實(shí)施例在模型訓(xùn)練階段選取同一標(biāo)本的大量數(shù)據(jù)作為特征向量,利用em算法重復(fù)迭代得到一個(gè)通用的ubm模型;再通過重疊細(xì)胞分割算法得到分割后的細(xì)胞,并選取分割后細(xì)胞的正常部分信息,利用map算法自適應(yīng)一個(gè)該細(xì)胞特有的gmm模型;在細(xì)胞重構(gòu)階段利用該模型預(yù)測(cè)出符合約束條件的灰度值,并將新生成部分平滑化處理;最后利用fmm算法修復(fù)過渡明顯的邊緣部分。
下面對(duì)本發(fā)明實(shí)施例進(jìn)行詳細(xì)的說明:
本發(fā)明實(shí)施例采用6張不同重疊形式的細(xì)胞,應(yīng)用本發(fā)明算法實(shí)現(xiàn)分割后細(xì)胞的重構(gòu)具體實(shí)現(xiàn)下。
如圖1所示模型訓(xùn)練包含步驟。
、隨機(jī)選取同一標(biāo)本的1000個(gè)單細(xì)胞數(shù)據(jù),做訓(xùn)練數(shù)據(jù)。
首先識(shí)別并分割出同一標(biāo)本的1000個(gè)單細(xì)胞圖片,然后從每個(gè)圖片的細(xì)胞核中隨機(jī)選取300個(gè)灰度值,最后將30萬灰度數(shù)據(jù)作為特征向量輸入。
s2、利用em算法訓(xùn)練通用的高斯混合模型ubm;gmm通過幾個(gè)高斯模型的加權(quán)和形成的概率分布對(duì)數(shù)據(jù)類別進(jìn)行建?;旌细咚鼓P偷母怕拭芏裙饺缦拢?/p>
式中m為混合度通常根據(jù)實(shí)驗(yàn)結(jié)果指定,本文中m=3,πk表示第k個(gè)單高斯模型的權(quán)重,n(x,μk,c)為第k個(gè)單高斯模型的概率密度,其中
其中μk為數(shù)學(xué)期望、c為協(xié)方差矩陣。
em算法是一種從存在隱含變量的數(shù)據(jù)集中求解概率模型參數(shù)的最大似然估計(jì)方法。高斯混合模型的訓(xùn)練就是em算法實(shí)現(xiàn)的,其中的隱含變量為πk。通過式1、2可知gmm模型需要確定的參數(shù)有πk、μk、c。em算法估計(jì)高斯混合模型有兩個(gè)步驟。e步驟,通過初始化或者上一步的結(jié)果已知各個(gè)高斯分量的參數(shù),去估計(jì)每個(gè)高斯分量的權(quán)值,權(quán)值如下式所示;m步驟,基于估計(jì)的權(quán)值,再去確定高斯分量的參數(shù),第k個(gè)高斯分量的期望μk和協(xié)方差矩陣ck如下式所示。重復(fù)這兩個(gè)步驟,直到波動(dòng)很小,近似達(dá)到極值;
式中為第i個(gè)樣本在第k個(gè)單高斯模型中的概率;
式中nk表示屬于第k個(gè)高斯分量的樣本個(gè)數(shù)。
、隨機(jī)選取分割后細(xì)胞正常部分信息,利用map算法自適應(yīng)高斯混合模型gmm。
最大后驗(yàn)(maximumaposteriori,map)估計(jì)方法根據(jù)經(jīng)驗(yàn)數(shù)據(jù)獲得對(duì)難以觀察量的點(diǎn)估計(jì),將被估計(jì)量的先驗(yàn)分布融合到其中,所以它可以看作是規(guī)則化的最大似然估計(jì)。首先選取分割后細(xì)胞的所有正常部分灰度值,訓(xùn)練數(shù)據(jù)集為x={x1,x2,…,xt}。然后利用map算法計(jì)算特異性混合高斯的參數(shù)。map算法分為兩步:第一步同em算法的e步驟相同,計(jì)算如式3所示的各個(gè)高斯分量的權(quán)值,并計(jì)算如下所示的參數(shù):
第二步由nk得到修正因子,來更新舊的ubm的參數(shù),對(duì)于高斯分量k,參數(shù)計(jì)算的表達(dá)式分別如下:
其中,γ讓所有的混合權(quán)值的和為1,βkπ,βkμ,βkc為高斯分量的權(quán)重、均值向量、協(xié)方差矩陣的修正因子,它的作用是平衡gmm模型的新舊參數(shù),它的值越大,說明數(shù)據(jù)越充分,也就是新參數(shù)越可信;而如果它越小,就說明數(shù)據(jù)的數(shù)量較少,對(duì)gmm模型估計(jì)也變得較不準(zhǔn)確,它的定義式如下:
式中λρ為關(guān)系因子是約束修正因子βkρ的變化尺度(ρ∈{π,μ,c}),λ通常取16。
所述細(xì)胞重構(gòu)包含步驟:
s4、利用重疊細(xì)胞分割方法分割重疊細(xì)胞;
作者在一篇論文中提出基于識(shí)別的重疊細(xì)胞核分割方案,重疊細(xì)胞核分割關(guān)鍵在于找到重疊位置和符合實(shí)際情況的分離線。如果細(xì)胞之間存在重疊現(xiàn)象,那么重疊后的細(xì)胞一定會(huì)存在相應(yīng)的凹點(diǎn)。這樣就把尋找重疊位置的問題轉(zhuǎn)換成了求解整個(gè)輪廓的凹點(diǎn)的問題。該方法采用基于曲率計(jì)算的凹點(diǎn)檢測(cè)法。但是由于輪廓的不平滑性導(dǎo)致了很多假凹點(diǎn)的出現(xiàn),為了區(qū)分真假凹點(diǎn),該方法通過分類器識(shí)別出重疊細(xì)胞核的類別來確定凹點(diǎn)數(shù)目,為凹點(diǎn)檢測(cè)提供依據(jù)。n個(gè)串聯(lián)重疊細(xì)胞核的凹點(diǎn)位置是凹陷程度最深的前2(n-1)個(gè)點(diǎn);n個(gè)并聯(lián)細(xì)胞核的凹點(diǎn)位置是凹陷程度最深的前n個(gè)點(diǎn)。具體過程如圖2,首先分割出細(xì)胞輪廓如圖2a所示并利用分類器識(shí)別出該細(xì)胞的類別,再根據(jù)細(xì)胞核類別找到準(zhǔn)確的凹點(diǎn)位置如圖2b所示,然后根據(jù)多種重疊形式的子輪廓分割方案來分割出子輪廓如圖2c所示,最后用橢圓擬合還原分離線并添加到子輪廓上,得到完整的子細(xì)胞核輪廓如圖2d所示。
、利用gmm模型隨機(jī)生成符合約束條件的灰度值來修改異常部分;
重疊細(xì)胞分割后,得到的單細(xì)胞中包含重疊部分,即單細(xì)胞矩陣c=a∪n,其中矩陣a表示細(xì)胞中重疊部分,矩陣n表示細(xì)胞中非疊部分。利用每個(gè)細(xì)胞的高斯混合模型和約束條件y,生成一些符合高斯分布的灰度值修改矩陣a。生成方法利用產(chǎn)生式模型的原理,首先利用均勻分布生成(0,1)之間的數(shù)值。然后根據(jù)每個(gè)單高斯的權(quán)重來判斷其屬于哪個(gè)高斯分量。最后利用該高斯分量生成一個(gè)隨機(jī)的灰度值,但是該灰度值一定要在約束條件y內(nèi)否則將重新生成。重復(fù)上述操作直到將矩陣a的值修改完畢。約束條件y的計(jì)算方式如下。
計(jì)算機(jī)輔助閱片的dna倍體分析系統(tǒng)的診斷原理是:將疑似腫瘤細(xì)胞的圖片羅列出來,即找到di>2.5的細(xì)胞圖片。di的計(jì)算公式如式13所示,由于淋巴細(xì)胞的dna含量相對(duì)穩(wěn)定故利用標(biāo)本中淋巴細(xì)胞的iod均值作為standard值。iod值的計(jì)算公式如下所示:
其中,
其中,代表背景的平均灰度值,
式中odm為細(xì)胞核正常部分的光密度均值,ods為細(xì)胞核正常部分的光密度標(biāo)準(zhǔn)差。由計(jì)算可知值域
、利用中值濾波平滑新生成部分;
由于新生成部分的紋理粗糙與細(xì)胞正常部分的紋理不相符。本文利用中值率波的方式平滑矩陣得到矩陣aa。
、利用fmm算法修復(fù)新生成部分與正常部分的銜接邊緣;
新生成部分與原細(xì)胞合并后其邊緣部分過于突出。為了解決這個(gè)問題,本文將新生成部分的邊緣區(qū)域當(dāng)做的標(biāo)記圖像,利用標(biāo)記圖像的周圍像素點(diǎn)的灰度值通過fmm算法進(jìn)行修補(bǔ)。
修補(bǔ)區(qū)域的選取以兩個(gè)細(xì)胞重疊為例,設(shè)這兩個(gè)細(xì)胞的邊緣輪廓點(diǎn)集合為c1、c2,兩個(gè)重疊細(xì)胞的重疊部分輪廓點(diǎn)的集合m。首先求取集合m,它由兩部分組成,即在輪廓c1內(nèi)的輪廓c2上的點(diǎn)和在輪廓c2內(nèi)的輪廓c1上的點(diǎn)。然后將集合m膨脹得到的區(qū)域d就是待修復(fù)區(qū)域。fmm算法原理:假設(shè)修復(fù)區(qū)域d中p點(diǎn)的灰度值,以點(diǎn)p為中心選取一個(gè)小鄰域βε,q為其中的一點(diǎn),點(diǎn)p修改值的計(jì)算公式如下:
式中△i(q)為q點(diǎn)的亮度梯度值,w(p,q)=dir(p,q)·dst(p,q)·lev(p,q),其中dir(p,q)為方向因子,dst(p,q)為幾何距離因子,lev(p,q)為水平集距離因子。
最終的實(shí)現(xiàn)效果如圖3示,從圖中可以看出重構(gòu)后的細(xì)胞可以有效地消除異常像素點(diǎn),對(duì)比分割后的細(xì)胞更接近與原細(xì)胞。
本發(fā)明還可有其它多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,本領(lǐng)域技術(shù)人員當(dāng)可根據(jù)本發(fā)明做出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。