專利名稱:用于在計(jì)算機(jī)輔助肺結(jié)核假陽(yáng)性降低中克服不平衡事例數(shù)目的層化方法
相關(guān)申請(qǐng)本申請(qǐng)/專利來(lái)源于由所提名申請(qǐng)人于2004年11月19日申請(qǐng)的申請(qǐng)?zhí)枮?0/629751的美國(guó)臨時(shí)專利申請(qǐng)。本申請(qǐng)與通常擁有、共同未決的Philips申請(qǐng)PHUS040505(779361)、PHUS040500(778964)和PHUS040499(778965)有關(guān)。
本發(fā)明涉及計(jì)算機(jī)輔助檢測(cè)系統(tǒng)和方法。本發(fā)明更確切地涉及這樣的系統(tǒng)和方法,所述系統(tǒng)和方法用于假陽(yáng)性減少計(jì)算機(jī)輔助檢測(cè)(CAD)結(jié)果,尤其是高分辨率、薄片計(jì)算層析成像(HRCT)圖像,在CAD系統(tǒng)訓(xùn)練期間利用支持向量機(jī)(support vector machine,SVM)對(duì)失衡數(shù)據(jù)集(訓(xùn)練數(shù)據(jù)集)實(shí)現(xiàn)利用層化(stratification)的CAD后分類,從而在保存適當(dāng)靈敏度的情況下生成很高的特異性(減少所報(bào)告假陽(yáng)性的數(shù)目)。
當(dāng)前計(jì)算機(jī)相關(guān)系統(tǒng)的速度和成熟支持更快、更高級(jí)的醫(yī)學(xué)圖像系統(tǒng)的開(kāi)發(fā)。處理和處理后所生成的數(shù)據(jù)量的增加導(dǎo)致創(chuàng)建大量應(yīng)用程序來(lái)自動(dòng)分析醫(yī)學(xué)圖像數(shù)據(jù)。也就是說(shuō),已經(jīng)開(kāi)發(fā)了各種數(shù)據(jù)處理軟件和系統(tǒng)來(lái)幫助內(nèi)科醫(yī)師、臨床醫(yī)師、放射科醫(yī)師等等來(lái)評(píng)估醫(yī)學(xué)圖像以識(shí)別和/或診斷并評(píng)估醫(yī)學(xué)圖像。例如,計(jì)算機(jī)輔助檢測(cè)(CAD)算法和系統(tǒng)已經(jīng)發(fā)展為從多片CT(multi-slice CT,MSCT)掃描中自動(dòng)識(shí)別“可疑”部位(例如損傷)。鑒于其固有的準(zhǔn)確地圖示解剖結(jié)構(gòu)的大小、形狀和位置以及異?;驌p傷的能力,CT或者計(jì)算層析成象是通常用于通過(guò)圖像診斷疾病的成像模態(tài)。
CAD系統(tǒng)自動(dòng)檢測(cè)(識(shí)別和描繪)形態(tài)學(xué)上感興趣部位(例如,損傷、結(jié)核、微鈣化),以及其他可能是臨床相關(guān)的結(jié)構(gòu)上可檢測(cè)的條件/部分。當(dāng)再現(xiàn)并顯示醫(yī)學(xué)圖像時(shí),CAD系統(tǒng)標(biāo)記或者高亮度顯示(識(shí)別)所研究部位。所述標(biāo)記將引起放射科醫(yī)師對(duì)可疑部位的注意。例如,在對(duì)尋找可能癌變結(jié)核的肺圖像的分析過(guò)程中,CAD系統(tǒng)將標(biāo)記檢測(cè)到的結(jié)核。因而,CAD系統(tǒng)結(jié)合了放射科醫(yī)師的專業(yè)知識(shí)以自動(dòng)提供關(guān)于醫(yī)學(xué)圖像數(shù)據(jù)中異常的檢測(cè)的第二意見(jiàn)。通過(guò)支持對(duì)疑似癌變的損傷或者結(jié)核的早期檢測(cè),CAD系統(tǒng)實(shí)現(xiàn)了早期干預(yù),理論上向病人提供了更好的預(yù)后。
CAD及其他機(jī)器學(xué)習(xí)系統(tǒng)的大多數(shù)現(xiàn)有工作都遵循有監(jiān)督學(xué)習(xí)的相同方法。所述CAD系統(tǒng)從具有已知基礎(chǔ)事實(shí)(ground truth)的大量數(shù)據(jù)開(kāi)始。在訓(xùn)練數(shù)據(jù)上“訓(xùn)練”CAD系統(tǒng),以識(shí)別被認(rèn)為具有充足的鑒別能力來(lái)區(qū)分基本事實(shí)的特征集,所述基本事實(shí)也就是非訓(xùn)練數(shù)據(jù)中的結(jié)核或者非結(jié)核。對(duì)本領(lǐng)域技術(shù)人員而言的挑戰(zhàn)包括提取簡(jiǎn)化了在類別之間進(jìn)行鑒別的特征,理論上查找特征池內(nèi)的最相關(guān)子集。一旦被訓(xùn)練,那么CAD系統(tǒng)就可以對(duì)非訓(xùn)練數(shù)據(jù)進(jìn)行操作,其中從CAD描繪的候選部位中提取特征并分類所述特征。
CAD系統(tǒng)可以合并不同種類的信息(例如基于圖像的特征與病人數(shù)據(jù)),或者它們可以發(fā)現(xiàn)例如基于相似度的方法。技術(shù)人員應(yīng)當(dāng)理解任何計(jì)算機(jī)驅(qū)動(dòng)決策支援系統(tǒng)的精確性受到已經(jīng)由學(xué)習(xí)過(guò)程分類的模式集的可用性(也就是受到訓(xùn)練集)的限制。假陽(yáng)性標(biāo)記(來(lái)自CAD系統(tǒng)的輸出)是指向根本不是結(jié)核、而是傷痕、支氣管壁增厚、運(yùn)動(dòng)假象、脈管分支等的那些標(biāo)記。其中CAD輔助結(jié)果表示所調(diào)查部位的底線事實(shí)(例如,結(jié)核),具體而言臨床醫(yī)生將忽略他/她不研究的部位。本領(lǐng)域的技術(shù)人員應(yīng)該理解在診斷上下文中,“真陽(yáng)性”經(jīng)常指的是真正惡性的檢測(cè)結(jié)核。然而,在CAD上下文中,即使標(biāo)記指向良性的或者鈣化的結(jié)核,所述標(biāo)記也被認(rèn)為是真陽(yáng)性標(biāo)記。從而在CAD中不定義“真陰性”并且不能給出標(biāo)準(zhǔn)化的特異性。因此,CAD性能通常由靈敏度(檢出率)以及假陽(yáng)性率或者每個(gè)CT研究的假陽(yáng)性標(biāo)記限定(qualify),因而,十分需要一種能輸出最小假陽(yáng)性的CAD系統(tǒng)。
在完成自動(dòng)檢測(cè)處理之后(有或者沒(méi)有標(biāo)記),大多數(shù)CAD系統(tǒng)自動(dòng)調(diào)用一個(gè)或多個(gè)工具以應(yīng)用于用戶和CAD檢測(cè)的損傷(部位),從而例如消除冗余,實(shí)現(xiàn)解釋工具等等。所以,已知各種用于減少CAD中的假陽(yáng)性的技術(shù)。例如,W.A.H.Mousa和M.A.U.Khan在Proc.of IEEE ICIP′2002中公開(kāi)了題為“Lung Nodule Classification Utilizing SupportVector Machines”的他們的假陽(yáng)性減少技術(shù)。K.Suzuki,S.G.ArmatoIII,F(xiàn).Li,S.Sone,K.Doi在“Massive training artificial neuralnetwork(MTANN)for reduction of false positives in computerizeddetection of lung nodules in low-dose computed tomography”Med.Physics 30(7),July 2003,pp.1602-1617中描述了一種最小化假陽(yáng)性的嘗試,以及Z.Ge,B.Sahiner,H.-P.Chan,L M.Hadjiski,J.Wei,N.Bogot,P.N.Cascade,E.A.Kazerooni,C.Zhou在“Computeraided detection of lung nodulesfalse positive reduction usinga 3D gradient field method”,Medical Imaging 2004Image Processing,pp.1076-1082中描述了一種最小化假陽(yáng)性的嘗試。
FPR系統(tǒng)用于CAD后處理中以改善特異性。例如,R.Wiemker,et al.在他們的COMPUTER-AIDED SEGMENTATION OF PULMONARY NODULESAUTOMATED VASCULATURE CUTOFF IN THIN-AND THICK-SLICE CT,2003Elsevier Science BV中論述了最大化CAD算法的敏感性以在薄片CT中將肺結(jié)核同結(jié)核周圍的維管結(jié)構(gòu)有效地分離(以彌補(bǔ)部分體積的影響)。預(yù)定目標(biāo)是減少分類錯(cuò)誤。然而,Wiemker的CAD系統(tǒng)和方法不使用成熟的機(jī)器學(xué)習(xí)技術(shù),其也不優(yōu)化FPR的特征提取和選擇方法。例如,雖然Mousa,et al.利用支持向量機(jī)將真實(shí)的結(jié)核同非結(jié)核(EP)相區(qū)分,但是他們的系統(tǒng)基于非常簡(jiǎn)單化的特征提取單元,所述特征提取單元可能限制而不是改善了特異性。
另一個(gè)已知的問(wèn)題是由CAD算法生成的假結(jié)核的數(shù)目遠(yuǎn)大于真實(shí)的結(jié)核(不平衡事例(case)問(wèn)題),因此降低了機(jī)器學(xué)習(xí)的性能。失衡訓(xùn)練事例問(wèn)題指的是在機(jī)器學(xué)習(xí)中一類的事例數(shù)目明顯少于另一類中事例數(shù)目的情況。這種失衡將導(dǎo)致機(jī)器學(xué)習(xí)中意外動(dòng)作是大家熟知的。機(jī)器學(xué)習(xí)組所采用的一種通用方法是人工再平衡。這樣做被稱作“向上取樣”(復(fù)制少數(shù)的事例)和“向下取樣”(忽略多數(shù)的事例)。Provost,F(xiàn).“Learning with Imbalanced Data Sets 101,”AAAI 2000。
在肺結(jié)核假陽(yáng)性降低中失衡訓(xùn)練事例問(wèn)題特別突出。然而,這是因?yàn)橛衅畹哪繕?biāo)(保存真結(jié)核并減少盡可能多的假結(jié)核)而不是追求整個(gè)分類的精確性(大多數(shù)其他機(jī)器學(xué)習(xí)算法的目標(biāo))。本發(fā)明描述了一種新的、特別適合于這種有偏差目標(biāo)處理的層化方法,并克服了不平衡事例數(shù)目問(wèn)題。
因此本發(fā)明的目的在于提供一種基于CAD的系統(tǒng)和方法,所述系統(tǒng)和方法通過(guò)實(shí)施新的層化方法從而在特異性,也就是假陽(yáng)性降低方面,或者在有偏差目標(biāo)處理方面得到明確改善,從而克服了本領(lǐng)域中公知的不平衡事例問(wèn)題。結(jié)果改善了CAD處理中的特異性。
在此公開(kāi)的創(chuàng)新的CAD和假陽(yáng)性降低(FPR)系統(tǒng)因此包括機(jī)器學(xué)習(xí)子系統(tǒng),該子系統(tǒng)用于CAD后處理。所述子系統(tǒng)包括特征提取器,用于選擇最相關(guān)特征的遺傳算法(genetic algorithm,GA),以及支持向量機(jī)(SVM)。SVM根據(jù)保留全部真陽(yáng)性識(shí)別這樣的約束條件,將由CAD檢測(cè)的候選部位限制為一些基本事實(shí),例如,部位/體積到底是結(jié)核還是非結(jié)核。首先必須在訓(xùn)練數(shù)據(jù)集上訓(xùn)練CAD或者FPR系統(tǒng),其包括導(dǎo)出最相關(guān)特征以供CAD后機(jī)器學(xué)習(xí)SVM使用,從而在改善CAD特異性的情況下進(jìn)行分類。
圖1是描繪利用支持向量機(jī)(SVM)在從計(jì)算層析成象(CT)醫(yī)學(xué)圖像進(jìn)行計(jì)算機(jī)輔助檢測(cè)(CAD)中實(shí)現(xiàn)假陽(yáng)性降低(FPR)的系統(tǒng)的圖;圖2是描繪支持向量機(jī)的基本思想的圖;圖3是識(shí)別本發(fā)明的示例性處理的處理流程圖;圖4描繪了基于GA的特征子集選擇處理;以及圖5是突出顯示用于肺結(jié)核假陽(yáng)性降低的層化方法的系統(tǒng)級(jí)圖;以及圖6提供了根據(jù)結(jié)核大小對(duì)所檢測(cè)的假結(jié)核的統(tǒng)計(jì)分析。
在圖像數(shù)據(jù)集合(例如,CT)中檢測(cè)肺結(jié)核的計(jì)算機(jī)輔助基礎(chǔ)目標(biāo)不是指派由機(jī)器進(jìn)行診斷,而是實(shí)現(xiàn)基于機(jī)器的算法或者方法來(lái)支持放射科醫(yī)師提出他的/她的判定,也就是指出可疑對(duì)象的位置以便提升總靈敏度(檢出率)。CAD或者其他臨床決策支持系統(tǒng)的主要問(wèn)題是必然發(fā)生假的標(biāo)記(所謂的假陽(yáng)性)和真陽(yáng)性標(biāo)記會(huì)一同出現(xiàn)。
臨床研究表明測(cè)量的CAD檢出率,和測(cè)量的由有經(jīng)驗(yàn)的放射科醫(yī)師的檢出率不同,其取決于進(jìn)行讀取的放射科醫(yī)師的數(shù)目。參與讀取可疑損傷、微鈣化等的有經(jīng)驗(yàn)讀取者越多,則將會(huì)發(fā)現(xiàn)越多數(shù)量的損傷(在一個(gè)圖像內(nèi))。所述技術(shù)領(lǐng)域的技術(shù)人員應(yīng)當(dāng)注意到無(wú)論是由CAD還是由熟練的專業(yè)人員讀取,描繪絕對(duì)靈敏度的任何圖都可能很容易被誤解釋。也就是說(shuō),來(lái)自臨床研究的數(shù)據(jù)趨向于支持由輔助CAD軟件能夠更容易檢測(cè)到很多結(jié)核,而這些結(jié)核可能在不利用CAD系統(tǒng)的情況下為讀取的放射科醫(yī)師所忽略。本發(fā)明增加了特異性(更好的FPR),同時(shí)保持了靈敏度(真實(shí)結(jié)核查找)。
包括假陽(yáng)性降低處理的基于CAD的系統(tǒng)具有一項(xiàng)重要的工作,那就是識(shí)別醫(yī)學(xué)圖像數(shù)據(jù)中檢測(cè)到的“可對(duì)之行動(dòng)的”結(jié)構(gòu),其中所述系統(tǒng)諸如由Wiemker、Mousa等人所描繪的那些系統(tǒng)之類。一旦識(shí)別(也就是,被分割),那么提取重要特征的全面集合并用于分類。本領(lǐng)域的技術(shù)人員將意識(shí)到計(jì)算機(jī)驅(qū)動(dòng)決策支持或者CAD系統(tǒng)的準(zhǔn)確性受到用作訓(xùn)練集合的已知病理學(xué)的模式或部位集合的可用性的限制。即使是諸如由Wiemker,R.,T.Blaffert1所描述的現(xiàn)有技術(shù)CAD算法也可能導(dǎo)致大量的假陽(yáng)性,這將導(dǎo)致相關(guān)風(fēng)險(xiǎn)和低用戶接受度的不必要介入。此外,當(dāng)前假陽(yáng)性降低算法經(jīng)常被開(kāi)發(fā)用于胸部放射圖像或者厚片CT掃描,未必能在來(lái)源于HRCT的數(shù)據(jù)上很好的運(yùn)行。
所以,創(chuàng)新的CAD/FPR系統(tǒng)和方法包括CAD子系統(tǒng)或者處理,用于識(shí)別候選部位,并分割所述部位。在訓(xùn)練期間,訓(xùn)練數(shù)據(jù)集合內(nèi)的所分割部位被傳遞至特征提取器或者傳遞至用于實(shí)現(xiàn)特征提取處理的處理器。本發(fā)明通過(guò)實(shí)施下文中詳細(xì)描述的層化方法解決了本領(lǐng)域稱之為有偏差目標(biāo)問(wèn)題或者失衡數(shù)據(jù)集問(wèn)題的問(wèn)題。特征提取獲得由來(lái)自所檢測(cè)結(jié)構(gòu)的3D和2D特征組成的特征池。特征池被傳送至遺傳算法(geneticalgorithm,GA)子系統(tǒng)或者GA處理器(CAD后),其處理特征池以實(shí)現(xiàn)最優(yōu)特征子集。最優(yōu)特征子集包括在創(chuàng)新CAD或者FPR系統(tǒng)內(nèi)提供對(duì)SVM而言足夠鑒別能力的特征,以便對(duì)候選部位/體積進(jìn)行分類。
此后,CAD處理“新的”圖像數(shù)據(jù),對(duì)在非訓(xùn)練數(shù)據(jù)內(nèi)發(fā)現(xiàn)的候選部位進(jìn)行分割。從候選部位中提取(在訓(xùn)練期間所確定的)特征子集,以供“已訓(xùn)練”分類器(SVM)使用,從而判斷所述候選特征是否能夠在具有恰當(dāng)特異性的情況下進(jìn)行適當(dāng)?shù)姆诸悺?chuàng)新的FPR或者CAD系統(tǒng)能夠借此在精確、具有充足特異性的情況下在高分辯率和薄片CT(HRCT)中檢測(cè)小的肺結(jié)核,以及類似地在包括訓(xùn)練集、包括新的和新穎的基于3D特征的特征中檢測(cè)小的肺結(jié)核。例如,具有片厚<=1毫米的HRCT數(shù)據(jù)提供了允許檢測(cè)非常小結(jié)核的充足細(xì)節(jié)的數(shù)據(jù)。檢測(cè)更小結(jié)核的能力需要新的方法來(lái)可靠地檢測(cè)和鑒別候選部位,正如在下文的權(quán)利要求中所闡Options to improve the performance of the computer aided detection of lungnodules in thin-slice CT.2003,Philips Research LaboratoriesHamburg以及Wiemker,R.,T.Blaffert在他們的Computer Aided TumorVolumetry in CT Data,Invention disclosure.2002,Philips Research,Hamburg。述的那樣。
將參照?qǐng)D1清楚描述本發(fā)明的FPR系統(tǒng)400的優(yōu)選實(shí)施方式。FPR系統(tǒng)400包括CAD子系統(tǒng)420和FPR子系統(tǒng)430,所述CAD子系統(tǒng)420用于識(shí)別并分割滿足特定標(biāo)準(zhǔn)的感興趣部位或體積。優(yōu)選地,CAD子系統(tǒng)420包括CAD處理器410,并還可以包括分割單元430,以對(duì)醫(yī)學(xué)圖像數(shù)據(jù)執(zhí)行低級(jí)處理和分割。本領(lǐng)域的技術(shù)人員將理解CAD系統(tǒng)必須執(zhí)行分割功能以描繪供進(jìn)一步分析的候選部位,不論所述分割功能被作為CAD子系統(tǒng)實(shí)現(xiàn),還是作為獨(dú)立分割單元實(shí)現(xiàn),以便支持CAD處理(諸如分割單元430)。CAD子系統(tǒng)420用于分割感興趣的候選部位或者體積,例如結(jié)核,無(wú)論是在訓(xùn)練數(shù)據(jù)上操作還是研究“新的”候選部位,并指示參數(shù)調(diào)節(jié)處理以實(shí)現(xiàn)穩(wěn)定分割。
在訓(xùn)練模式中,特征提取十分重要,這是因?yàn)樗艽笥绊懥薋PR系統(tǒng)的總體性能。不正確提取整個(gè)特征集合或者池的情況下,GA處理器450就不能夠精確確定具有最好鑒別能力和最小尺寸的最優(yōu)特征子集(以便避免過(guò)度擬合(over-fitting)并增加概括能力)。由包括FPR子系統(tǒng)430的特征提取單元440提取或者生成特征池。特征池然后由遺傳算法處理器450進(jìn)行操作,來(lái)識(shí)別特征池的“最優(yōu)”子集。當(dāng)利用特征子集來(lái)操作非訓(xùn)練數(shù)據(jù)時(shí),GA處理后面的意圖是由已訓(xùn)練的CAD系統(tǒng)將特異性最大化為基本事實(shí),就如由SVM460推算的那樣。也就是,GA處理器450生成或者識(shí)別特征子集,其中在訓(xùn)練之后當(dāng)由SVM利用所述特征子集時(shí)增加所分割非訓(xùn)練數(shù)據(jù)中識(shí)別部位的特異性。關(guān)于對(duì)特征的選擇和數(shù)目這二者來(lái)確定GA識(shí)別的特征子集(僅僅在訓(xùn)練期間),其中所述特征應(yīng)當(dāng)被SVM以充足特異性來(lái)利用從而在非訓(xùn)練數(shù)據(jù)上使用時(shí)最小化假陽(yáng)性識(shí)別。也就是說(shuō),一旦訓(xùn)練,那么當(dāng)系統(tǒng)在非訓(xùn)練數(shù)據(jù)上操作時(shí)CAD系統(tǒng)就不再使用GA。
基于GA的特征選擇處理由共同擁有、共同未決的申請(qǐng)編號(hào)為US040120(ID公開(kāi)#-779446)的Philips申請(qǐng)所披露,將其內(nèi)容引入于此以供參考。GA的特征子集的選擇通過(guò)創(chuàng)建大量由多個(gè)“基因”組成的“染色體”開(kāi)始。每個(gè)基因表示一個(gè)所選的特征。由染色體所表示的特征集用來(lái)在訓(xùn)練數(shù)據(jù)上訓(xùn)練SVM。染色體的適合度是由所產(chǎn)生的SVM執(zhí)行得多好來(lái)評(píng)估的。在本發(fā)明中,存在三個(gè)使用的適合度功能靈敏度、特異性和染色體中所包括的特征數(shù)。三個(gè)適合度功能被排序以不同的優(yōu)先級(jí);換句話說(shuō),靈敏度具有第一優(yōu)先級(jí),特異性具有第二優(yōu)先級(jí),特征數(shù)具有第三優(yōu)先級(jí)。這被稱作分層的適合度功能。該處理開(kāi)始時(shí),通過(guò)隨機(jī)選擇特征以形成染色體的方式來(lái)生成染色體總數(shù)。所述算法(也就是GA)然后迭代搜索能很好執(zhí)行(具有高適合度)的那些染色體。
每當(dāng)生成時(shí),GA評(píng)估總體中每個(gè)染色體的適合度,并通過(guò)兩個(gè)主進(jìn)化操作-變異和交叉來(lái)從當(dāng)前染色體中創(chuàng)建新的染色體。“好的”染色體中的基因很可能被保持給下一代,而具有較差性能的基因很可能被丟棄。最后通過(guò)該適者生存的處理來(lái)查找到最佳解(也就是,許多特征)。通過(guò)知曉包括最優(yōu)數(shù)目特征的最優(yōu)特征子集來(lái)實(shí)現(xiàn)假陽(yáng)性降低(FPR),所述假陽(yáng)性降低將降低誤分類事例的總數(shù)。在確定特征子集之后,其被用于訓(xùn)練SVM。
如上所述的,失衡訓(xùn)練事例問(wèn)題指的是在機(jī)器學(xué)習(xí)中一個(gè)分類中的事例數(shù)目明顯少于另一個(gè)分類中的事例數(shù)目的情況。這種失衡將導(dǎo)致機(jī)器學(xué)習(xí)的意外動(dòng)作是公知的。機(jī)器學(xué)習(xí)組所采用的一種通用方法是利用“向上抽樣”(復(fù)制來(lái)自少數(shù)的事例)和“向下抽樣”(忽略來(lái)自多數(shù)的事例)來(lái)人工地再平衡它們。Provost,F(xiàn).“Learning with imbalance DataSets 101,”AAAI 2000。在此講授和要求的新穎的層化方法特別適合于解決有偏差目標(biāo)方法并克服不平衡事例數(shù)目問(wèn)題。
訓(xùn)練之后,CAD子系統(tǒng)420通過(guò)生成二元或者三元圖像的方式來(lái)從背景中描繪出候選結(jié)核(包括在非訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)的非結(jié)核),在所述二元或者三元圖像中標(biāo)示出哪里是結(jié)核部位、哪里是背景部分、以及哪里是肺壁(或者“剪切”)部位。一旦收到灰度級(jí)和所標(biāo)示的候選部位或者體積,特征提取器440就計(jì)算(提取)諸如2D和3D形狀特征、基于直方圖的特征等之類的任何相關(guān)特征來(lái)作為特征池。所述特征被提供給SVM,所述SVM已經(jīng)在從訓(xùn)練數(shù)據(jù)提取的最佳特征子集上得到訓(xùn)練。
本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解SVM將“原始”特征空間映射到一些更高維的特征空間,其中如圖2所示訓(xùn)練集被超平面所分割。基于SVM的分類器具有幾個(gè)內(nèi)部參數(shù),其可能影響它的性能。根據(jù)經(jīng)驗(yàn)優(yōu)化這種參數(shù)以實(shí)現(xiàn)可能達(dá)到最好的總準(zhǔn)確度。此外,在供SVM使用以前標(biāo)準(zhǔn)化特征值,以避免具有大的數(shù)值范圍的特征比具有較小數(shù)值范圍的特征有優(yōu)勢(shì),這是在此講授的有創(chuàng)造性的系統(tǒng)和處理的焦點(diǎn)。標(biāo)準(zhǔn)化特征價(jià)也使得計(jì)算更加簡(jiǎn)單。并且因?yàn)楹诵闹低ǔHQ于特征向量的內(nèi)積,所以大的屬性值可能導(dǎo)致數(shù)值問(wèn)題。
范圍內(nèi)的標(biāo)度(scale)如下x′=(x-mi)/(Mi-mi),
其中x′是“標(biāo)度”值;x是原始值;Mi是最大特征值;以及mi是最小特征值。
利用包括其病理學(xué)已知的訓(xùn)練數(shù)據(jù)或者部位的肺結(jié)核數(shù)據(jù)集、利用被稱作“留一法(leave-one-out)和k折驗(yàn)證(k-fold validation)”來(lái)驗(yàn)證創(chuàng)新的FPR系統(tǒng)。實(shí)現(xiàn)驗(yàn)證,創(chuàng)造的FPR系統(tǒng)顯示為減少了大多數(shù)假結(jié)核,同時(shí)幾乎保留所有幀結(jié)核。
圖3是描繪根據(jù)本發(fā)明可以實(shí)現(xiàn)的處理的流程圖。在圖3中,方框500表示在醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集上訓(xùn)練分類器,其中對(duì)所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集而言關(guān)于特定感興趣部位或體積的基本事實(shí)是已知的。所述步驟可以包括在醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集上訓(xùn)練分類器,其中選擇所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集以包括大量真假結(jié)核,并且自動(dòng)進(jìn)行分割。從訓(xùn)練數(shù)據(jù)內(nèi)的每個(gè)所分割部位和體積中識(shí)別/提取特征池,并利用遺傳算法處理器來(lái)處理所述特征池以識(shí)別最優(yōu)特征子集,根據(jù)所述最優(yōu)特征子集來(lái)訓(xùn)練支持向量機(jī)。因此實(shí)現(xiàn)了用于降低肺結(jié)核假陽(yáng)性的層化方法。
方框510表示這樣的步驟其中如果訓(xùn)練數(shù)據(jù)包括失衡數(shù)目的真陽(yáng)性和假陽(yáng)性,那么實(shí)施層化處理。方框520表示訓(xùn)練后步驟,其在新的或者非訓(xùn)練的醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測(cè)關(guān)于基本事實(shí)(例如結(jié)核或者非結(jié)核)作為識(shí)別候選者的部位或者體積。方框530表示分割候選部位的步驟,方框540表示處理所分割的候選部位的步驟,以便提取那些特征,也就是由GA確定為對(duì)恰當(dāng)分類而言最相關(guān)的特征的特征子集。然后,如塊550所示,支持向量機(jī)在改善特異性并保持靈敏度的情況下識(shí)別非訓(xùn)練候選部位的真陽(yáng)性識(shí)別。
就那件事而論,如方框510所示,在圖5中圖示了所述方法的詳細(xì)說(shuō)明,其中步驟1顯示了根據(jù)結(jié)核尺寸將假結(jié)核集分成三個(gè)子集。如在圖6內(nèi)被標(biāo)識(shí)為“事例數(shù)目”的表格所示的統(tǒng)計(jì)分析中顯示了事例數(shù)目分布。
在步驟2,機(jī)器學(xué)習(xí)使用最大假結(jié)核(例如>4mm)和所有真結(jié)核。選擇最大假結(jié)核的首要原因是其事例數(shù)目與真結(jié)核相當(dāng)。次要原因是從最大假結(jié)核中提取的圖象特征被認(rèn)為是更易于區(qū)分。我們使用的特定機(jī)器學(xué)習(xí)技術(shù)是支持向量機(jī)(SVM)。
在步驟3中,根據(jù)機(jī)器學(xué)習(xí)生成分類器。因?yàn)檫@兩個(gè)分類中的事例數(shù)目是相當(dāng)?shù)?,所以分類器能夠在施加不同的交叉?yàn)證方法(cross-validation methods)之后保持幾乎所有的真結(jié)核并能夠減少接近90%的大假結(jié)核。
在步驟4中,在步驟3中提到的分類器被用于保持較小的假結(jié)核,并且結(jié)果顯示移除了大多數(shù)的假結(jié)核。整體而言,層化處理經(jīng)證明是一種克服不平衡事例問(wèn)題的好方法。對(duì)有偏差目標(biāo)問(wèn)題而言,因?yàn)槠涫紫却_保保持盡可能多的真結(jié)核(第一優(yōu)先級(jí)),然后再減少假結(jié)核(第二優(yōu)先級(jí))。因此,該方法不同于其他解決失衡數(shù)據(jù)集問(wèn)題的方法,所述其他方法設(shè)法提升整體分類的精確性,也就是在雙方向上減少錯(cuò)誤分類的事例上相同的優(yōu)先級(jí)。其特別用于向肺結(jié)核假陽(yáng)性降低這樣的偏見(jiàn)目標(biāo)問(wèn)題。
值得注意的是執(zhí)行創(chuàng)新的方法所需的、或者驅(qū)動(dòng)創(chuàng)新的FPR分類器的軟件可以包括用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的有序列表。因而,所述軟件可以被具體化為任何計(jì)算機(jī)可讀取介質(zhì),所述計(jì)算機(jī)可讀取介質(zhì)供指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用或者與指令執(zhí)行系統(tǒng)、裝置或設(shè)備結(jié)合起來(lái)使用,諸如基于計(jì)算機(jī)的系統(tǒng)、包含處理器的系統(tǒng)、或者其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備中取出指令并執(zhí)行所述指令的系統(tǒng)之類。在本文檔上下文中,“計(jì)算機(jī)可讀取介質(zhì)”可以是包括、存儲(chǔ)、通信、傳遞或傳送程序以供指令執(zhí)行系統(tǒng)、裝置、或設(shè)備使用或者與指令執(zhí)行系統(tǒng)、裝置、或設(shè)備結(jié)合起來(lái)使用的任何裝置。
計(jì)算機(jī)可讀取介質(zhì)例如可以是、但是不限于是電、磁、光、電磁、紅外線或半導(dǎo)體系統(tǒng)、裝置、設(shè)備或者傳播介質(zhì)。計(jì)算機(jī)可讀取介質(zhì)的更具體實(shí)例(非窮舉列表)將包括下列具有一個(gè)或多個(gè)線路的電連接(電),便攜式計(jì)算機(jī)磁盤(pán)(磁性),隨機(jī)存取存儲(chǔ)器(RAM)(磁性),只讀存儲(chǔ)器(ROM)(磁性),可擦可編程序只讀存儲(chǔ)器(EPROM)或者閃速存儲(chǔ)器)(磁性),光纖(光)以及便攜式光盤(pán)只讀存儲(chǔ)器(CDROM)(光)。應(yīng)當(dāng)注意計(jì)算機(jī)可讀取介質(zhì)甚至可以是紙張或者能在其上打印程序的另外的適當(dāng)介質(zhì),所述程序可以被電捕獲,例如經(jīng)由對(duì)該紙張或其他介質(zhì)的光學(xué)掃描、然后編譯、解釋或者相反在必要時(shí)以適當(dāng)?shù)姆绞竭M(jìn)行處理,然后存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中。
應(yīng)當(dāng)強(qiáng)調(diào)的是本發(fā)明的上述實(shí)施方式,尤其是任何“優(yōu)選”實(shí)施方式(一個(gè)或多個(gè))僅僅是實(shí)施的可能實(shí)例,其僅僅是闡述以清楚地理解本發(fā)明的原理。此外,在基本上不脫離本發(fā)明的精神和原理的情況下可以對(duì)本發(fā)明的上述實(shí)施方式做出許多變化和修改。所有這種修改和變化被認(rèn)為是受到當(dāng)前說(shuō)明書(shū)的教導(dǎo),包含在本發(fā)明的范圍內(nèi),并受到所附權(quán)利要求的保護(hù)。
權(quán)利要求
1.一種用于在醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)計(jì)算機(jī)輔助檢測(cè)(CAD)感興趣部位或者體積(“部位”)的方法,包括CAD處理以檢測(cè)并描繪候選部位,以及在訓(xùn)練階段中的CAD后機(jī)器學(xué)習(xí)以最大化特異性并減少在處理非訓(xùn)練數(shù)據(jù)之后所報(bào)告的假陽(yáng)性數(shù)目,所述方法包括下述步驟在醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集上訓(xùn)練分類器,其中選擇所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集以包括大量對(duì)于基本事實(shí)已知為真和已知為假的部位,利用所述CAD處理識(shí)別并分割所述部位,提取特征以創(chuàng)建特征池來(lái)限定所述部位,向特征池應(yīng)用遺傳算法處理器以確定供支持向量機(jī)(SVM)使用的最小特征子集,以便利用改善的特異性在非訓(xùn)練數(shù)據(jù)內(nèi)識(shí)別候選部位,其中如果所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)失衡,則對(duì)所述失衡數(shù)據(jù)執(zhí)行層化處理;在訓(xùn)練之后,在非訓(xùn)練數(shù)據(jù)內(nèi)檢測(cè)候選部位;分割在非訓(xùn)練數(shù)據(jù)內(nèi)識(shí)別的候選部位;提取與每個(gè)所分割候選部位有關(guān)的候選特征集;以及依照訓(xùn)練過(guò)程、根據(jù)具有實(shí)際特異性的候選特征集將候選部位映射到基本事實(shí)空間中。
2.根據(jù)權(quán)利要求1所述的方法,其中所述訓(xùn)練步驟還包括對(duì)訓(xùn)練數(shù)據(jù)中的每一個(gè)候選部位,確定在訓(xùn)練期間由GA優(yōu)化的特征子集的尺寸,以及包括所述子集的實(shí)際特征。
3.根據(jù)權(quán)利要求1所述的方法,其中所述訓(xùn)練步驟還包括將在訓(xùn)練數(shù)據(jù)內(nèi)的每個(gè)部位內(nèi)所識(shí)別的特征池定義為染色體,其中每個(gè)基因表示一個(gè)特征,并且其中遺傳算法最初通過(guò)隨機(jī)選擇特征來(lái)繁殖染色體,以及迭代搜索具有較高適合度的那些染色體,其中每次生成都重復(fù)評(píng)估,并利用變異和交叉,在訓(xùn)練階段期間生成新的且更適合的染色體。
4.根據(jù)權(quán)利要求3所述的方法,其中所述確定步驟包括在兩個(gè)階段應(yīng)用GA,包括a)關(guān)于其特征集和特征數(shù)識(shí)別每個(gè)染色體;以及b)對(duì)于每個(gè)染色體,分析所識(shí)別特征集和所識(shí)別的特征數(shù),以便根據(jù)不同染色體的出現(xiàn)次數(shù)和平均誤差數(shù)目來(lái)確定特征的最優(yōu)尺寸。
5.根據(jù)權(quán)利要求1所述的方法,其中所述訓(xùn)練步驟包括利用過(guò)濾掩碼來(lái)識(shí)別壁像素。
6.根據(jù)權(quán)利要求1所述的方法,其中如果所述數(shù)據(jù)是失衡的而使得假結(jié)核數(shù)目明顯多于真結(jié)核數(shù)目,那么所述層化處理根據(jù)一個(gè)標(biāo)準(zhǔn)選擇大量假結(jié)核從而使假結(jié)核數(shù)目和真結(jié)核數(shù)目相互平衡。
7.一種包括計(jì)算機(jī)可讀指令集的計(jì)算機(jī)可讀取介質(zhì),當(dāng)所述計(jì)算機(jī)可讀指令被下載到通用計(jì)算機(jī)上時(shí)就執(zhí)行如在權(quán)利要求1中所闡述的方法。
8.一種用于在醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測(cè)和識(shí)別感興趣部位和/或體積(“部位”)的系統(tǒng),包括CAD子系統(tǒng)和假陽(yáng)性降低(FPR)子系統(tǒng),用于通過(guò)改善的特異性將部位映射到兩種基本事實(shí)狀態(tài)之一,借此最小化由系統(tǒng)所報(bào)告的假陽(yáng)性的數(shù)目,包括CAD子系統(tǒng),用于識(shí)別和描繪在圖像數(shù)據(jù)內(nèi)檢測(cè)到的感興趣部位;與CAD子系統(tǒng)通信的假陽(yáng)性降低子系統(tǒng),其首先被在訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練,隨后通過(guò)改善的特異性對(duì)非訓(xùn)練數(shù)據(jù)內(nèi)的候選部位進(jìn)行操作,包括特征提取器,用于提取與每個(gè)CAD描繪候選部位相對(duì)應(yīng)的特征池;與特征提取器通信的遺傳算法,以便從用于訓(xùn)練的CAD描繪部位的特征池中確定最優(yōu)特征子集;以及與特征提取器和GA通信的支持向量機(jī)(SVM),用于在訓(xùn)練后根據(jù)最優(yōu)特征子集映射在非訓(xùn)練數(shù)據(jù)內(nèi)檢測(cè)到的每個(gè)CAD描繪候選部位;其中所述系統(tǒng)通過(guò)下述方式被在包括具有已知基本事實(shí)的候選部位的圖像數(shù)據(jù)上訓(xùn)練從每個(gè)所分割部位中提取特征池,利用GA識(shí)別所提取特征的最優(yōu)子集,以便所述系統(tǒng)在對(duì)非訓(xùn)練數(shù)據(jù)執(zhí)行操作期間顯示充足的鑒別能力以通過(guò)改善的特異性映射候選部位,以及其中在訓(xùn)練集中發(fā)現(xiàn)假陽(yáng)性數(shù)目超過(guò)真陽(yáng)性總數(shù)的情況,則層化子系統(tǒng)重新整理訓(xùn)練數(shù)據(jù)以便在訓(xùn)練中存在近似相等數(shù)目的真陽(yáng)性和假陽(yáng)性。
9.根據(jù)權(quán)利要求8所述的醫(yī)學(xué)圖像分類系統(tǒng),其中所述CAD子系統(tǒng)還包括分割子系統(tǒng),所述分割子系統(tǒng)在訓(xùn)練期間提供讀者輸入以更好地描繪用于訓(xùn)練的部位。
10.根據(jù)權(quán)利要求8所述的醫(yī)學(xué)圖像分類系統(tǒng),其中GA在訓(xùn)練以及對(duì)非訓(xùn)練數(shù)據(jù)操作這二者中都對(duì)分層適合度范例操作。
11.一種用于分類在醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測(cè)到的對(duì)象以使得在假陽(yáng)性分類中標(biāo)記減少的方法,包括下述步驟CAD處理以檢測(cè)和描繪出現(xiàn)在醫(yī)學(xué)圖像數(shù)據(jù)中的對(duì)象;CAD后處理以生成具有充足鑒別能力的特征集,以便所描繪對(duì)象可以通過(guò)最大的特異性被分類;其中在訓(xùn)練階段期間,CAD處理已知訓(xùn)練數(shù)據(jù)集以便分割訓(xùn)練數(shù)據(jù)內(nèi)的對(duì)象,從所分割對(duì)象中提取的特征池/為所分割對(duì)象計(jì)算的特征池,以及機(jī)器學(xué)習(xí)優(yōu)化來(lái)自特征池的特征子集,其中如果訓(xùn)練集的真陽(yáng)性和假陽(yáng)性的部位數(shù)目失衡,那么依照層化處理執(zhí)行訓(xùn)練以便利用和失衡訓(xùn)練數(shù)據(jù)不同的平衡練數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,并且其中在訓(xùn)練之后,由CAD處理描繪的候選對(duì)象被執(zhí)行CAD后處理,包括對(duì)象特征提取,從而考慮到CAD后機(jī)器學(xué)習(xí)而通過(guò)高特異性分類對(duì)象。
12.一種用于訓(xùn)練分類器的方法,所述分類器對(duì)在醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測(cè)到的形態(tài)學(xué)上感興趣部位進(jìn)行分類,其中所述訓(xùn)練包括根據(jù)層化方法選擇數(shù)據(jù)以訓(xùn)練分類器,所述層化方法包括根據(jù)部位尺寸將假陽(yáng)性部位池分隔到N個(gè)子集中,以便第N子集包括最大部位子集;利用第N子集和所有真實(shí)部位執(zhí)行機(jī)器學(xué)習(xí)處理;根據(jù)所述機(jī)器學(xué)習(xí)生成分類器;以及向剩余的N-1個(gè)子集中的每一個(gè)應(yīng)用該分類器。
全文摘要
一種用于對(duì)在HRCT醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測(cè)的感興趣部位進(jìn)行計(jì)算機(jī)輔助探測(cè)(CAD)并分類的方法。所述方法包括用于對(duì)識(shí)別部位/體積為結(jié)核或者非結(jié)核的的特異性和靈敏度進(jìn)行最大化的CAD后機(jī)器學(xué)習(xí)技術(shù)。該部位被CAD處理識(shí)別,并被自動(dòng)分割。從每個(gè)所分割部位中識(shí)別并提取特征池,并利用遺傳算法處理特征池以識(shí)別最優(yōu)特征子集,其中數(shù)據(jù)層化方法被用于平衡不同類別中的事例數(shù)目。由GA確定的子集被用于訓(xùn)練支持向量機(jī),從而對(duì)在非訓(xùn)練數(shù)據(jù)內(nèi)發(fā)現(xiàn)的候選部位/體積進(jìn)行分類。
文檔編號(hào)G06T7/00GK101061491SQ200580039688
公開(kāi)日2007年10月24日 申請(qǐng)日期2005年11月21日 優(yōu)先權(quán)日2004年11月19日
發(fā)明者L·趙, K·P·李, L·博羅茨基 申請(qǐng)人:皇家飛利浦電子股份有限公司