專利名稱:用于心磁圖分類的機器學(xué)習(xí)的使用的制作方法
背景技術(shù):
雖然心磁圖(MCG)早在二十世紀(jì)六十年代的時候就作為可能的診斷工具被引入,但是它花費了近三十年的時間才成功地表明其臨床價值?,F(xiàn)在,它代表全世界醫(yī)院中由內(nèi)科醫(yī)師采用的心臟病學(xué)中浮現(xiàn)的新技術(shù)之一。MCG方法的臨床應(yīng)用明顯受益于現(xiàn)代多通道傳感器技術(shù)、成熟的軟件以及硬件中的最新改善,所述硬件允許使用所述設(shè)備而無磁性屏蔽室。
MCG研究是快速的、安全的并且是完全非侵害的。因此,這些為患者提供了更大的便利。目前,許多組織從事建立參考數(shù)據(jù)和數(shù)據(jù)標(biāo)準(zhǔn)化庫的工作。存在多種臨床應(yīng)用,為此,MCG已經(jīng)提供了臨床上有益的結(jié)果。例如,MCG可以診斷并且定位急性心肌梗塞、區(qū)分心肌梗塞患者有否惡性心室心律不齊的易感性,檢測心室肥厚和心臟移植之后的排斥,定位心室預(yù)激發(fā)的位置和許多類型的心律不齊,以及揭示胎兒心律不齊和傳導(dǎo)干擾[40]。另外,最近已經(jīng)研究了MCG的許多其它的臨床應(yīng)用心肌病的檢測和風(fēng)險層化(擴張、肥大、心律不齊、糖尿病性的),自發(fā)心室纖維性顫動之后的風(fēng)險層化,心肌耐久性的檢測和定位以及胎兒生長和神經(jīng)系統(tǒng)完整性的后續(xù)檢查。某些研究已經(jīng)明顯地表明MCG很靈敏,所以會在極化過程中、例如在心肌梗塞之后或者在遺傳性長-QT綜合癥[42]中改變??梢栽赱41]中找到MCG應(yīng)用以及目前使用的分析技術(shù)的最相關(guān)的概述。
然而,重點問題在于減少或者消除因MCG數(shù)據(jù)的人類翻譯而引入的變化,并且明顯改善基于機器的分類性能以及概括質(zhì)量,同時維護與實時診斷兼容的計算機處理時間。
當(dāng)把人工智能(機器學(xué)習(xí))應(yīng)用于測量數(shù)據(jù)時,始終執(zhí)行的三個基本步驟是1.數(shù)據(jù)測量,2.測量數(shù)據(jù)的預(yù)處理,3.自適應(yīng)分類器的訓(xùn)練。將此基本方案并入EKG/ECG數(shù)據(jù)或者其它生物數(shù)據(jù)的專利包括美國專利5,092,343;5,280,792;5,465,308;5,680,866;5,819,007;6,128,608;6,248,063;6,443,889;6,572,560;6,714,925;以及6,728,691。
使用人工智能進行MCG場圖分析十分局限于日期。把人工智能應(yīng)用于分析生物磁性信號的一篇參考文獻是第5,417,211號美國專利,其公開了一種用于對活體身體內(nèi)部進行的電生理學(xué)活動生成的場圖進行分類的方法,包括如下步驟使用多通道測量設(shè)備來測量作為對象身體外部的電生理學(xué)活動結(jié)果而出現(xiàn)的場圖,生成對應(yīng)于已測量場圖的特征向量,把所述特征向量提供給自適應(yīng)分類器,并且利用訓(xùn)練場圖來訓(xùn)練自適應(yīng)分類器,其中所述訓(xùn)練場圖是已經(jīng)由電生理學(xué)活動的可定位代理模型生成的。所述方法還包括步驟在自適應(yīng)分類器的輸出端生成每個場圖的概率值,其表明可以由所選的可定位替代模型來生成每一場圖的概率。類似于上面引用的EKG/ECG參考文獻,此文獻論述了對測量數(shù)據(jù)的機器學(xué)習(xí)的普遍適用性,但是沒有提及如何改善分類性能以及概括質(zhì)量的具體內(nèi)容。
在所有情況中,用于確定成功的兩個關(guān)鍵措施是分類性能以及概括質(zhì)量。雖然對非最佳預(yù)處理的數(shù)據(jù)的訓(xùn)練會導(dǎo)致劣質(zhì)的分類結(jié)果,但是所謂的過度訓(xùn)練可以防止自適應(yīng)分類器歸納到實際世界數(shù)據(jù)的固有識別。
成功的關(guān)鍵在于數(shù)據(jù)的最佳預(yù)處理,這一點迄今為止還沒有通過此處引用的任何參考文獻來實現(xiàn)。對于識別所有特征來講,最重要的是確定所探查的數(shù)據(jù)集所屬的分類。對于識別那些特征而言,這一點既不明顯也非不重要。此外,這些特征可以根據(jù)生物系統(tǒng)的不同以及測量數(shù)據(jù)的類型的不同而有所不同。因此,大部分基于人工智能的過程由于執(zhí)行預(yù)處理的方式不同而存在差異。
正如此處將要詳細公開的那樣,使用內(nèi)核變換以及小波變換對數(shù)據(jù)進行預(yù)處理用于機器學(xué)習(xí),從而為成功進行機器學(xué)習(xí)方法提供了基礎(chǔ),就準(zhǔn)確分類、概括質(zhì)量以及處理速度而言,所述方法明顯改進了現(xiàn)有技術(shù)。這些內(nèi)容在此處引用的任何現(xiàn)有技術(shù)中均沒有公開或者建議。
發(fā)明內(nèi)容
此處公開了在心磁圖中使用機器學(xué)習(xí)進行圖形識別,所述心磁圖用于測量由心臟的電生理學(xué)活動發(fā)射的磁場。使用直接內(nèi)核方法來把異常的MCG心臟圖形與正常的圖形加以區(qū)分。對于無監(jiān)督學(xué)習(xí)來說,引入了基于直接內(nèi)核的自組織映射。對于有監(jiān)督的學(xué)習(xí)來說,使用了直接內(nèi)核部分最小平方以及(直接)內(nèi)核脊回歸。然后把這些結(jié)果與標(biāo)準(zhǔn)的支持向量機以及內(nèi)核部分最小平方相比較。在測試以前,基于訓(xùn)練數(shù)據(jù)的有效子集來調(diào)整用于這些方法的超參數(shù)(hyper-parameters)。還研究的是使用本地、垂直、水平以及二維(全局)馬氏(Mahanalobis)縮放、小波變換以及通過過濾進行變量選擇來探查的預(yù)處理。對于所有三種方法來說類似的是,所述結(jié)果促進、超出了通過已訓(xùn)練專家實現(xiàn)的分類質(zhì)量。
此處公開了一種用于分類心動描記數(shù)據(jù)的設(shè)備以及相關(guān)聯(lián)的方法,包括把內(nèi)核變換應(yīng)用于從用來感測電磁心臟活動的傳感器獲取的感測數(shù)據(jù),產(chǎn)生變換數(shù)據(jù),之后使用機器學(xué)習(xí)分類已變換數(shù)據(jù)。
在所述的權(quán)利要求書中闡明了被認(rèn)為具有新穎性的本發(fā)明的特征。然而參照如下結(jié)合附圖進行的描述可以理解本發(fā)明連同其進一步的目的和優(yōu)勢,所述附圖概述如下。
圖1舉例說明了在包括6×6柵格的36個通道中經(jīng)由一個心動周期收集的已過濾和平均的瞬態(tài)MCG軌跡。
圖2是舉例說明正確圖形和錯誤圖形數(shù)目(基于36個測試數(shù)據(jù)的負(fù)和正情況)以及心磁圖數(shù)據(jù)的執(zhí)行時間的圖表。支持向量機庫(Support vector machine library,SVMLib)和內(nèi)核部分最小平方(kernel partial least square,K-PLS)使用時間域,而其余的方法使用D-4小波域。
圖3是舉例說明了用于為心磁圖數(shù)據(jù)創(chuàng)建預(yù)測模型的不同方法的質(zhì)量測量的圖表。
圖4是基于小波變換數(shù)據(jù)的K-PLS的35種測試情況的錯誤曲線圖。
圖5是示出了錯誤陽性和錯誤陰性之間可能的權(quán)衡的接收操作器特性(ROC)曲線。
圖6是基于(左側(cè))直接內(nèi)核主分量分析(Direct KernelPrincipal Component Analysis,DK-PCA)和(右側(cè))直接內(nèi)核PLS(Direct Kernel PLS,DK-PLS)的73個訓(xùn)練數(shù)據(jù)的投影?;疾〉那闆r作為填充的圓圈示出。沒有示出測試數(shù)據(jù)。
圖7舉例說明了在圍包模式中、基于9×18直接內(nèi)核自組織映射(DK-SOM)顯示在自組織映射上的測試數(shù)據(jù)。
圖8舉例說明了對測試數(shù)據(jù)集使用不同技術(shù)進行局部缺血預(yù)測的結(jié)構(gòu)。
圖9是直接內(nèi)核方法作為數(shù)據(jù)預(yù)處理步驟的操作示意圖。
圖10是舉例說明用于直接內(nèi)核方法的利用內(nèi)核定中來進行數(shù)據(jù)預(yù)處理的流程圖。
圖11是自組織映射(SOM)的典型結(jié)構(gòu)。
圖12是此處公開的用于心動描記數(shù)據(jù)的自動分類的技術(shù)列表。
具體實施例方式
此公開內(nèi)容描述了在心磁圖(MCG)中使用直接內(nèi)核方法和支持向量機進行圖形識別,所述心磁圖用于測量因人類心臟的電生理學(xué)活動發(fā)射的磁場。用于MCG的基于SQUID的測量設(shè)備目前基于單獨開發(fā),其中所述設(shè)備可用于普通的醫(yī)院房間(不特別地屏蔽電磁干擾)。所述系統(tǒng)的操作是計算機控制的,并且很大程度上是自動的。使用適當(dāng)軟件來進行精確的24位控制,并且用于通過過濾、求平均、電/磁活動定位、心臟電流重構(gòu)和診斷分?jǐn)?shù)推導(dǎo)之后獲取數(shù)據(jù)。
MCG記錄的翻譯還遺留有問題。因此,此公開內(nèi)容考慮了用于自動翻譯MCG測量結(jié)果以便最小化用于分析的人類輸入的方法。測試集中于檢測局部缺血,在許多可能導(dǎo)致心臟病發(fā)作的普通心臟疾病中出現(xiàn)的條件,這在美國是死亡的主要原因,但是這僅是示例性的,而不是限制性的。
在科學(xué)上,此公開內(nèi)容考慮了兩類獨立的問題(患病的心臟與健康的心臟),其中描述符(數(shù)據(jù)點)的數(shù)目超出數(shù)據(jù)集的數(shù)目。因此,此公開內(nèi)容現(xiàn)在集中于用于解決此問題的兩個任務(wù)上。
第一個待答復(fù)的問題是所述問題是線性還是非線性的,這是因為這樣做可確定可解決所述問題的可能候選功能的分類(通稱為“假設(shè)”或者“機器學(xué)習(xí)技術(shù)”)。我們的目標(biāo)在于保持獨立的過程自身的線性,并且在預(yù)處理中如果有,則編碼非線性的。后者可以通過在執(zhí)行實際機器學(xué)習(xí)之前把(非線性)內(nèi)核變換應(yīng)用于所述數(shù)據(jù)來實現(xiàn)(我們把對內(nèi)核變換數(shù)據(jù)進行操作的技術(shù)稱為“非線性”技術(shù))。因此,如果所述數(shù)據(jù)包含非線性,那么與非線性的技術(shù)相比,純粹的線性方法將顯示出低劣的性能。
第二個目的在于得到(或者開發(fā))用于實際上解決獨立問題的機器學(xué)習(xí)技術(shù)。此處的焦點不是在于得到最佳的解決方案,而是得到用于對所述數(shù)據(jù)同樣執(zhí)行良好的一類技術(shù)。這有助于構(gòu)建在選擇模型以及它們的歸納能力方面的信心(把正確地分類訓(xùn)練集中沒有的數(shù)據(jù)的一假設(shè)的能力稱為其“歸納”)。易于開發(fā)對所述訓(xùn)練數(shù)據(jù)最佳地執(zhí)行,但是無法預(yù)測看不見的數(shù)據(jù)(所述現(xiàn)象經(jīng)常稱為過度訓(xùn)練)的模型。然而,只基于少數(shù)數(shù)據(jù)利用優(yōu)良的預(yù)測來構(gòu)造(并且調(diào)整)模型是非常困難的。
我們將從論述數(shù)據(jù)獲取和預(yù)處理開始。特別的是,我們討論對于不同的學(xué)習(xí)方法,哪種預(yù)處理適合。此后,我們呈現(xiàn)核心結(jié)果不同機器學(xué)習(xí)技術(shù)對于我們的問題的性能比較,以及評估預(yù)測質(zhì)量并且調(diào)整參數(shù)選擇的方法。此后,我們討論特征選擇。
數(shù)據(jù)獲取和預(yù)處理通過在彼此相鄰的位置中進行四次順序測量來在軀干上面的36個位置處獲取MCG數(shù)據(jù)。在每個位置中,九個傳感器使用1000赫茲的采樣速率在90秒內(nèi)測量心臟磁場,其中所述1000赫茲的采樣速率可產(chǎn)生36個單獨時序。對于缺血診斷來說,需要0.5赫茲至20赫茲的帶寬,應(yīng)用了使用六次貝塞耳(Bessel)濾波器特性的處于100赫茲的硬件低通濾波器,繼之以應(yīng)用使用同一特性、只是更高次的處于20赫茲的附加數(shù)字低通濾波器。為了消除剩余隨機噪聲分量,使用心動周期的R峰最大值作為觸發(fā)點來平均完整的時序。對于自動分類來說,我們通常使用來自心動周期J點和T峰[5]之間的時窗的數(shù)據(jù),其中從測量數(shù)據(jù)內(nèi)插了32個均勻間隔的點的值。所述訓(xùn)練數(shù)據(jù)包括73種情況,這些情況易于由已訓(xùn)練專家從視覺上進行分類。對一組36種情況進行測試,所述情況包括患者的心磁圖誤導(dǎo)或者執(zhí)行可視分類的已訓(xùn)練專家收到干擾。
在該情況下,通過首先從每個信號中減掉偏離值來預(yù)處理數(shù)據(jù)。然后,我們探查對于我們的多變量時序信號而言最有效的預(yù)處理,包括本地、垂直、水平和二維(全局)馬氏縮放以及小波變換。一個重要的考慮是保護數(shù)據(jù)局部性(locality),這是通過對每個信號應(yīng)用多布(Daubechies)-4小波變換[3]來實現(xiàn)的。由于在每個內(nèi)插的時間信號中的相對小的數(shù)據(jù)集(32),所以選擇它。只有用于觀察輸入端中的數(shù)據(jù)局部性的SOM和K-PLS方法不要求這種變換。接下來,我們對數(shù)據(jù)進行馬氏縮放,首先對所有36個信號進行,然后垂直地(對除基于SOM方法之外所有信號)進行。圖1中示出了被內(nèi)插至ST段[5]中32個等間隔點并且在對單個信號的每一個進行馬氏縮放之后的36個信號的典型數(shù)據(jù)集。
MCG數(shù)據(jù)分類的預(yù)測建模機器學(xué)習(xí)的目的在于授權(quán)一些對計算機做出智能決策的某些基礎(chǔ)。在其當(dāng)前形式中,機器學(xué)習(xí)的顯著部分是基于穩(wěn)固的分類、回歸工具和特征選擇方法的開發(fā)。
在心臟診斷環(huán)境中,機器學(xué)習(xí)的最終目的是將能夠識別有意義的特征,所述特征可以解釋所述模型并且允許公式化已經(jīng)透明的專家規(guī)則。
機器學(xué)習(xí)的關(guān)鍵因素是防止過度訓(xùn)練。Tikhonov調(diào)整的概念在這樣做的機器學(xué)習(xí)中是一種十分有效的概念。機器學(xué)習(xí)中的第二方面是需要構(gòu)造可靠的非線性方法。支持向量機(SVM)以及其它基于內(nèi)核的方法,諸如內(nèi)核主分量分析、內(nèi)核脊回歸以及部分最小平方都是在機器學(xué)習(xí)方法中并合非線性及調(diào)整的有效方法。
機器學(xué)習(xí)中的當(dāng)前問題是特征遠多于數(shù)據(jù)的較大問題、在數(shù)據(jù)中存在許多不確定因素以及噪音的問題以及具有混合模式的無序多類分類問題。
對適當(dāng)預(yù)處理的需要是高度隨域而定的,只是探查不同的預(yù)處理方法,并且在此預(yù)處理階段中并入域的專業(yè)知識是使機器學(xué)習(xí)方法工作的關(guān)鍵因素。
我們的目的在于不僅識別“最佳”的機器學(xué)習(xí)方法,而且識別用于對數(shù)據(jù)同樣執(zhí)行得很好的一類技術(shù)。因此,我們考慮SVM作為機器學(xué)習(xí)集體中的主要工具。我們還使用其它基于內(nèi)核的方法,其可以比SVM更易于在硬件中調(diào)整或者易于實現(xiàn),但是期望可以與SVM同等地執(zhí)行。
成功進行機器學(xué)習(xí)的一個關(guān)鍵在于數(shù)據(jù)的預(yù)處理。許多不同的預(yù)處理情況是值得考慮的。我們在如下四個類型的預(yù)處理當(dāng)中加以區(qū)別1.歸一化需要這樣做以便使得數(shù)據(jù)可比較。這通常指的是數(shù)據(jù)被按比例縮放并且不偏離。然而,這里人們有許多選擇。
2.信息定位通過定位,我們指的是應(yīng)用變換,所述變換用于重排數(shù)據(jù)如此使得系數(shù)被首先呈現(xiàn),其中所述系數(shù)包含大多數(shù)信息。一個突出的例子是用于甚至保留信息的局部性的小波變換。
3.特征選擇這通常對已經(jīng)變換的數(shù)據(jù)進行操作。這指的是不包含或者包含很少信息的系數(shù)被剪切,以便減少輸入域的維數(shù)。這對于加速學(xué)習(xí)是尤其有益的。
4.內(nèi)核變換所述內(nèi)核變換是做出使回歸模型非線性的一種簡明的方式。內(nèi)核是包含數(shù)據(jù)集的相似性測量的矩陣或者在數(shù)據(jù)集的自身數(shù)據(jù)之間,或者與其它的數(shù)據(jù)一起(例如,支持向量[2])。很明顯,這樣做提供了用于改善心動圖分類的方法的各種組合。
首先轉(zhuǎn)向歸一化,這在機器學(xué)習(xí)中是普遍的過程,以便居中所有的描述符并且使它們具有均一方差。然后對響應(yīng)應(yīng)用相同的過程。定中以及方差歸一化的此過程稱為馬氏縮放。雖然馬氏縮放不是預(yù)處理所述數(shù)據(jù)的唯一方式,但是這大概是進行全面應(yīng)用預(yù)處理最普遍的并且是最穩(wěn)固的方式。如果我們把特征向量表示為 那么馬氏縮放將產(chǎn)生重新縮放的特征向量 并且可以被概括為z→′=z→-z→sld(z→)----(1)]]>其中 表示平均值,而std 表示屬性 的標(biāo)準(zhǔn)偏差。當(dāng)36個時序分別單獨地被縮放(沿時間軸)時,我們將參照“水平馬氏縮放”,當(dāng)處于一個時間的所有36個點都被縮放時,參照“垂直馬氏縮放”,并且當(dāng)處于所有32個時間的36個點都被縮放時,參照“全局馬氏縮放”。
接下來我們轉(zhuǎn)向定位。一方面,應(yīng)用小波變換[10]有助于定位信息的“熱點”,而另一方面,定位不有助于所述信號的“冷區(qū)”。使小波變換比傅里葉變換更加適當(dāng)?shù)膶傩栽谟趩蝹€小波函數(shù)被空間定位。傅里葉正弦和余弦函數(shù)不是。小波變換不具有基函數(shù)的單個集合,只具有可能的基函數(shù)的無窮集。
“母函數(shù)”或者“分析小波”φ(x)的擴張和翻譯定義了正交基,亦稱小波基Φ(s,l)=2-s2Φ(2-sx-l)----(2)]]>變量s和1是整數(shù),用于縮放和擴張母函數(shù)Φ(x)以便生成小波,諸如多布小波系列??s放索引(index)s表明小波的寬度,而位置索引1給出其位置。應(yīng)注意的是,所述母函數(shù)通過2的冪來重新縮放或者“擴張”,并且通過整數(shù)被平移(translate)。使小波基特別有興趣的是由縮放和擴張引起的自相似性。一旦我們了解所述母函數(shù),那么我們就可獲知與所述基有關(guān)的每件事。
為了以不同的分辯率跨過(span)我們的數(shù)據(jù)域,把所述分析小波用于縮放公式W(x)=Σk=-1N-2(-1)kck+1Φ(2x+k)----(3)]]>
其中W(x)是母函數(shù)Φ(x)的縮放函數(shù),而ck是小波系數(shù)。所述小波系數(shù)必須滿足線性并且滿足以下形式的二次約束Σk=0N-1ck=2,Σk=0N-1ckck+21=2δ1,0----(4)]]>其中δ是Δ函數(shù)而1是位置索引。
小波的最有用特征之一是科學(xué)家可以容易地用它來選擇將適用于給定問題的給定小波系統(tǒng)的定義系數(shù)。在多布的論文[3]中,她開發(fā)了特定的小波系統(tǒng)族,所述族可很好地用于表示多項式行為。對于MCG時序來說,所謂的“多布4”小波示出了最佳性能。
我們現(xiàn)在轉(zhuǎn)向內(nèi)核變換。內(nèi)核變換及其調(diào)整是改善心動圖分類能力的重要成分。因此,我們將比較詳細地解釋此概念,并且強調(diào)當(dāng)應(yīng)用內(nèi)核變換時通常忽略的某些主要問題。
內(nèi)核變換是使回歸模型非線性的一種簡明方式。內(nèi)核變換至少可以追溯到二十世紀(jì)初期,當(dāng)時哈爾勃特(Hilbert)把內(nèi)核引入數(shù)學(xué)文獻中。內(nèi)核是包含數(shù)據(jù)集的相似性測量的矩陣或者在數(shù)據(jù)集自身的數(shù)據(jù)之間,或者與其它的數(shù)據(jù)一起。內(nèi)核的典型用途是作為主分量分析中的相關(guān)矩陣,其中特征內(nèi)核包含屬性或者特征之間的線性相似性測量。在支持向量機中,所述內(nèi)核條目是數(shù)據(jù)之間而不是特征之間的相似性測量,并且這些相似性測量通常是非線性的。存在許多可能的非線性相似性測量,但是為了便于進行數(shù)值處理,所述內(nèi)核必須滿足某些條件,所謂的美世(Mercer)條件[2、11、15]。
K→nn=k11k12...k1nk21k22...k2n...kn1kn2...knn----(5)]]>上面的表達式引入了對于n個數(shù)據(jù)而言的數(shù)據(jù)內(nèi)核矩陣的通用結(jié)構(gòu) 所述內(nèi)核矩陣是一對稱矩陣,其中每個條目均包含兩個數(shù)據(jù)向量之間的(線性或者非線性)相似性。存在許多不同的可能性來定義相似性尺度,諸如作為線性相似性測量的點積,以及作為非線性相似性測量的徑向基函數(shù)(Radial Basis Function)內(nèi)核或者RBF內(nèi)核。所述RBF內(nèi)核是最廣泛使用的非線性內(nèi)核,并且其條目是通過如下公式定義的,所述公式為kij≡e||x‾j-x‾i||2σ2----(6)]]>應(yīng)注意的是,在上面的內(nèi)核定義中,所述內(nèi)核條目包含依照負(fù)指數(shù)的數(shù)據(jù)點之間的歐氏(Euclidean)距離,這是相異性(而不是相似性)測量。所述負(fù)指數(shù)還包含自由參數(shù)σ,其是RBF內(nèi)核的帕爾遜(Parzen)窗口寬度。用于選擇帕爾遜窗口的適當(dāng)選擇通常通過對外部有效集合進行附加調(diào)整、也稱為超調(diào)整(hyper-tunning)來確定。對于σ的精確選擇不是關(guān)鍵,對于模型質(zhì)量的穩(wěn)定性而言,對σ的選擇通常存在相對較寬的范圍。
這里把內(nèi)核變換作為數(shù)據(jù)變換應(yīng)用于獨立的預(yù)處理階段。我們實際上利用非線性數(shù)據(jù)內(nèi)核來替代所述數(shù)據(jù),并且應(yīng)用傳統(tǒng)的線性預(yù)測模型。對數(shù)據(jù)的非線性內(nèi)核變換使用傳統(tǒng)的線性算法的方法被引入,并且這里被定義為“直接內(nèi)核方法”。這種直接內(nèi)核方法的簡潔和優(yōu)勢在于在所述內(nèi)核中獲取了問題的非線性方面,并且對于所應(yīng)用的算法而言是透明的。
人們還可以在神經(jīng)網(wǎng)絡(luò)類型的流程圖中表示所述內(nèi)核變換,并且第一隱蔽層現(xiàn)在會產(chǎn)生內(nèi)核變換數(shù)據(jù),并且第一層的權(quán)重往往僅僅是訓(xùn)練數(shù)據(jù)的描述符。第二層包含可以利用數(shù)值方法計算的權(quán)重,所述方法諸如是內(nèi)核脊回歸(參見圖9)。當(dāng)使用徑向基函數(shù)的內(nèi)核時,此類神經(jīng)網(wǎng)絡(luò)看上去往往與徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)[17、18]非常相似,除了第二層的權(quán)重被不同地計算。
通過定中所述內(nèi)核來處理偏離值(bias)同樣重要。參見通用的預(yù)測方程y→^n=Xnmw→m----(7)]]>其中把權(quán)向量 應(yīng)用于數(shù)據(jù)矩陣Xnm,以便達到(預(yù)測的)輸出 沒有恒定的偏移項。對于被定中的數(shù)據(jù)而言,原來該偏移項(“偏離值”)始終是零,并且無須被明確地包括。不是應(yīng)用公式7,可以把包括該偏離值的更加通用的預(yù)測模型寫為如下形式y(tǒng)‾^n=Xnmw→m+b----(8)]]>
其中b是偏離項。因為我們使其首先通過馬氏縮放來定中數(shù)據(jù),所以此偏離項是零,并且可以忽略。
當(dāng)處理內(nèi)核時,由于需要某些類型的偏離值,所以情況更加復(fù)雜。這里我們將只給出一個技巧,在實際情況中很適用,并且參見文獻,所述文獻更加詳細的說明了原因[11、12、16、19]。即使當(dāng)應(yīng)用內(nèi)核變換之前把數(shù)據(jù)進行馬氏縮放時,所述內(nèi)核仍需要某些類型的居中以便能夠忽略預(yù)測模型中的偏離項。用于居中內(nèi)核的簡單明了的方式是從訓(xùn)練數(shù)據(jù)內(nèi)核的每一列減去平均值,并且當(dāng)居中測試內(nèi)核時,存儲此平均值用于以后調(diào)用。用于居中所述內(nèi)核的第二個步驟是再次審查最新獲得的垂直居中的內(nèi)核,此次是逐行進行的,并且從每一水平行減去行平均值。
測試數(shù)據(jù)的內(nèi)核需要依照一致的方式來被定中,隨后是類似的過程。在該情況下,來自訓(xùn)練數(shù)據(jù)內(nèi)核的已存儲列平均值將被用于測試數(shù)據(jù)內(nèi)核的垂直居中。然后水平居中這種垂直居中的測試內(nèi)核,即,為每一行計算垂直居中的測試內(nèi)核的平均值,并且垂直居中的測驗內(nèi)核的每一水平條目由該條目減去行平均值的值來替代。
如上所述,用于居中內(nèi)核的此算法的優(yōu)勢在于其同樣適用于矩形的數(shù)據(jù)內(nèi)核。圖10中示出了用于預(yù)處理所述數(shù)據(jù)、對此數(shù)據(jù)應(yīng)用內(nèi)核變換、然后定中所述訓(xùn)練數(shù)據(jù)、有效數(shù)據(jù)以及測試數(shù)據(jù)的內(nèi)核的流程圖。
無監(jiān)督的以及有監(jiān)督的學(xué)習(xí)方法兩者都被探查。對于無監(jiān)督學(xué)習(xí)來說,由于經(jīng)常把SOM應(yīng)用于新穎檢測并且自動簇集,所以使用了直接內(nèi)核(DK)-SOM。所使用的DK-SOM具有打開邊緣的9×18六邊形網(wǎng)絡(luò)。對于有監(jiān)督的學(xué)習(xí)來說,使用了四個基于內(nèi)核的回歸算法在從復(fù)數(shù)數(shù)據(jù)空間中提取相關(guān)參數(shù)中有效的經(jīng)典的支持向量機;由羅斯帕(Rosipal)[10]提議的內(nèi)核部分最小平方K-PLS;直接內(nèi)核部分最小平方(DK-PLS);以及最小平方支持向量機(即,LS SVM,亦稱內(nèi)核脊回歸)。
支持向量機或者SVM由于它們的效率、模型靈活性、預(yù)測功效以及理論的透明度已經(jīng)被經(jīng)證明是令人棘手的機器學(xué)習(xí)工具[2、11、15]。雖然SVM的非線性屬性可以僅僅歸因于內(nèi)核變換,但是諸如自組織映射或者SOM[9]之類的其它方法因為它們并合各種基于鄰域的操縱而原本就是非線性的。不同于SVM,SOM的主要用途是經(jīng)常作為可視化工具[4]來揭示二維映射的高維數(shù)數(shù)據(jù)的底層類似/簇結(jié)構(gòu),而不是用于回歸或者分類預(yù)測。
內(nèi)部使用、開發(fā)所述Analyze/StripMiner軟件包用于分析[14],但是對于所述SVM模型來說,還使用了SVMLib[1]。使用所述訓(xùn)練集,DK-SOM、SVM、DK-PLS以及LS-SVM中的參數(shù)值在測試之前被優(yōu)化。結(jié)果與通過已訓(xùn)練專家實現(xiàn)的分類質(zhì)量相似,并且對于所有已測試方法均類似,即便這些方法使用了不同的數(shù)據(jù)預(yù)處理。因為這表明在任何測試方法中沒有過度訓(xùn)練,所以這是非常重要的。DK-PLS、SVMLib以及LS-SVM之間的協(xié)議尤其好,并且對于這些數(shù)據(jù)而言,這些方法之間沒有明顯差異。圖2和3中示出了所述結(jié)果。圖2列出了對于陽性和陰性情況而言,正確分類的圖形數(shù)目和錯誤的數(shù)目。圖3提供了預(yù)測質(zhì)量的附加測量。圖8中示出了進一步的結(jié)果。在圖8中,RMSE表示均方根誤差(越小越好),而CC[%]指的是正確分類情況的百分比。對于DK-PLS方法獲得了最佳的結(jié)果,其還顯示出了最佳的穩(wěn)定性。這早已勝過三個組合的標(biāo)準(zhǔn)測試(ECG、ECHO以及Troponinl)的預(yù)測準(zhǔn)確性,對于這些患者來講,它是58%。
調(diào)整之后,SVM的帕爾遜窗口寬度σ被選擇為10。在SVMLib中,調(diào)整參數(shù)C被設(shè)置為1/λ,如[10]中所建議的那樣?;谝勒掌渌鼞?yīng)用[14]和縮放實驗的經(jīng)歷,對于n個數(shù)據(jù)內(nèi)核,根據(jù)如下公式來確定脊參數(shù)λλ=min{1;(n1500)32}----(9)]]>更普遍的是,憑經(jīng)驗,我們已經(jīng)發(fā)現(xiàn)λ與數(shù)據(jù)n的數(shù)目到3/2次冪成比例。
直接內(nèi)核方法(DK-PLS以及LS-SVM)、K-PLS和傳統(tǒng)的基于內(nèi)核的SVM(SVMLib)之間的協(xié)議表明對由此公式產(chǎn)生的脊參數(shù)接近最佳的選擇。
現(xiàn)在轉(zhuǎn)向用于評定模型質(zhì)量、用于回歸問題的尺度,獲取錯誤的另一個方式是通過均方根誤差索引或者RMSE,依照如下公式把它定義為均方差的平均值(對于訓(xùn)練集或者測試集),所述公式為RMSE=1nΣi(y‾i-yi)2----(10)]]>
雖然均方根誤差是用于比較不同預(yù)測方法對同一數(shù)據(jù)的性能的有效方法,但是從RMSE將取決于數(shù)據(jù)的響應(yīng)被縮放的程度的意義上講,它不是絕對的尺度。為了克服此障礙,還使用了附加的誤差測量,其較少取決于響應(yīng)值的縮放和幅值。用于評定已訓(xùn)練模型質(zhì)量的第一尺度是r2,將其依照如下公式定義為響應(yīng)的目標(biāo)值和預(yù)測值之間的平方的相關(guān)系數(shù),所述公式為r2=Σi=1ntmin(y‾i-y‾)(yi-y‾)Σi=1ntmin(y‾i-y‾)2Σi=1ntmin(yi-y‾)2----(11)]]>其中ntrain表示訓(xùn)練集中數(shù)據(jù)點的數(shù)目。r2采用零和單數(shù)之間的值,并且r2的值越高,模型越佳。使用r2來評定模型質(zhì)量的明顯缺陷在于它只表示線性相關(guān),表明如果把 作為y的函數(shù)來描繪,那么跟隨一行的預(yù)測有多好。雖然當(dāng)r2是單數(shù)時,人們往往期待接近完美的模型,但是情況不總是這樣。第二種及用于評定已訓(xùn)練模型質(zhì)量的更為有效的措施是所謂的“按壓r平方”,或者R2,經(jīng)常用于chemometric建模[6],其中R2被定義為[7]R2=1-Σi=1ntmin(yi-y^i)2Σi=1ntmin(yi-y‾)2----(12)]]>R2被認(rèn)為是比r2更好的測量,因為它同樣考慮到殘差。正如r2一樣,R2的范圍在零和單數(shù)之間,并且R2的值越高,模型越佳。R2的尺度通常小于r2。對于較大數(shù)據(jù)集來說,R2勢必收斂至r2,并且r2和R2之間對于這種數(shù)據(jù)的比較經(jīng)常揭示隱藏的偏離值。
為了評定有效集和測試集的質(zhì)量,我們引入了類似的尺度,q2和Q2,其中對于測試居中的數(shù)據(jù)而言,把q2和Q2分別定義為1-r2和1-R2。對于對測試數(shù)據(jù)理想預(yù)測的模型來說,我們往往期待q2和Q2將為零。引入在訓(xùn)練集和測試集之間對稱的尺度的理由實際上是為了避免混亂。把Q2和q2的值應(yīng)用于有效(validation)集或測試集,并且人們往往期待這些值非常低,以便具有良好的預(yù)測模型。把R2和r2的值應(yīng)用于訓(xùn)練數(shù)據(jù),并且易于通知如果預(yù)測值接近實際值,那么它們兩個都接近單數(shù)。因此,它們中的任何明顯不同于1表明模型具有劣質(zhì)的預(yù)測能力。
諸如局部最小二乘方的線性方法同所述內(nèi)核方法比較起來產(chǎn)生了低劣的預(yù)測模型。對于K-PLS和DK-PLS來說,選擇了5個隱伏變量,但是結(jié)果并非關(guān)鍵地取決于隱伏變量數(shù)目的正確選擇。還嘗試了直接內(nèi)核主分量分析(DK-PCA),這是K-PCA的直接內(nèi)核方案[11-12,16],但是結(jié)果對主分量數(shù)目的選擇更加敏感,而不是與使用其它的直接內(nèi)核方法獲得的結(jié)果一樣。
圖4中示出了基于小波變換數(shù)據(jù)和DK-PLS的心磁圖數(shù)據(jù)的典型預(yù)測結(jié)果??梢詮脑搱D看出的是,在預(yù)測值中,總共六個數(shù)據(jù)點被錯誤分類(一個健康的或者陰性情況,和五個缺血情況)?;谕ㄟ^專用方法獲得的隨時間變化的磁場的二維可視顯示,這些情況對于已訓(xùn)練專家來講還難以正確識別。
對于醫(yī)療數(shù)據(jù)來說,能夠在錯誤陰性和錯誤陽性情況之間或者在靈敏度和特殊性之間(它們是與錯誤陽性和錯誤陰性相關(guān)的不同尺度)做出權(quán)衡通常是非常重要的。在機器學(xué)習(xí)方法中,這種權(quán)衡可以容易地通過改變用于翻譯所述分類的閾值來實現(xiàn)。例如,在圖4中,人們可以朝向更加理想的水平來轉(zhuǎn)變判別閾值,而不是使用零作為判別值,由此影響了錯誤陽性/錯誤陰性的比例。
對于上述情況,判別值方面的這種改變的所有可能結(jié)果的概要可以依照ROC曲線顯示出來,如圖5所示。ROC曲線(或者接收器操作者特性)的概念源自二十世紀(jì)四十年代用于識別飛行器的雷達設(shè)備的早期開發(fā),并且在[13]中予以概述。
圖6顯示了基于(左側(cè))直接內(nèi)核主分量分析(DK-PCA)和(右側(cè))直接內(nèi)核PLS(DK-PLS)的73個訓(xùn)練數(shù)據(jù)的投影?;疾〉那闆r被示為填充的圓圈。圖6的右側(cè)示出基于與圖6左側(cè)示出的DK-PCA的結(jié)果相比較的DK-PLS的最初兩個分量的不同分類之間的清楚的分離和較寬的邊緣。最初依照明暗交叉顯示在這些圖(pharmaplot)上的測試數(shù)據(jù)示出了兩種方法的健康和患病情況之間的優(yōu)異差別。
圖7中示出了基于直接內(nèi)核SOM的在圍包模式中六邊形網(wǎng)絡(luò)上的典型9×18自組織映射。所述圍包模式指的是左右邊界(以及頂部和底部邊界)彼此匯合,并且所述映射是環(huán)狀投影的展示。黑色六角形表明患病的情況,而明亮的六角形表明健康的情況。完全彩色的六邊形表明訓(xùn)練數(shù)據(jù)的位置,而白色和黑色陰影編號是健康和患病測試情況的圖形識別符。大部分錯分類實際上出現(xiàn)在映射中的邊界區(qū)上。映射中的單元通過半監(jiān)督的學(xué)習(xí)而成為彩色的,即,包含36×32或者1152個特征的每一數(shù)據(jù)向量通過表明彩色的附加場來擴充。就權(quán)重向量而言,數(shù)據(jù)向量中的彩色條目依照類似方式被更新,但是不使用它們來計算用于確定成功單元的距離尺度。用于普通SOM實現(xiàn)方式的得到的映射與直接內(nèi)核DK-SOM獲得的那些非常映射相似。用于在128兆奔騰III計算機上生成DK-SOM的執(zhí)行時間是28秒,而不是生成普通SOM所需的960秒,這是因為在對數(shù)據(jù)進行內(nèi)核變換之后,數(shù)據(jù)大小有效地從原始的1152降至73(訓(xùn)練數(shù)據(jù)的數(shù)目)。采用學(xué)習(xí)向量量化[9],在監(jiān)控模式下執(zhí)行對SOM和DK-SOM的精細調(diào)整。雖然基于SOM和DK-SOM的結(jié)果仍是優(yōu)異的,但是它們沒有利用基于其它內(nèi)核方法(SVMLib、LS-SVM和K-PLS)獲得的那些結(jié)果好。
特征選擇在先前部分中呈現(xiàn)的結(jié)果是使用所有1152(36×32)個描述符獲得的。如果人們可以依照時間或者小波信號并且對于為每位患者在不同位置測量的36個心磁圖信號的那些信號而言,精確識別用于進行優(yōu)良二進制分類所需的最重要信息的位置,那么這往往可以給所屬領(lǐng)域的專家提供最有價值的信息。這種信息可以通過特征選擇來推導(dǎo)。
特征選擇、即對于數(shù)據(jù)向量的最重要的輸入?yún)?shù)的識別可以依照兩種不同的方式來進行過濾模式和圍包模式。通常,這兩個方法互相獨立地被采用;然而,在此公開內(nèi)容及其關(guān)聯(lián)的權(quán)利要求書的范圍內(nèi),它們也可以結(jié)合使用。
在過濾模式中,基于規(guī)定的并且通常是無監(jiān)督的過程來刪去特征。這種過程的例子可以是消除包含四個σ離群值的描述符列,就像對于化學(xué)計量學(xué)的PLS應(yīng)用中經(jīng)常發(fā)生的情況那樣。還極為普遍的是,在過濾模式中略去“遠親(cousin)”描述符,即顯示出與其它描述符95%以上相關(guān)性的特征。根據(jù)建模方法,略去遠親描述符并且只保留以下的描述符往往是慣例,所述描述符(i)示出了與響應(yīng)變量最高的相關(guān)性,或者(ii)對領(lǐng)域?qū)<揖哂凶钋宄挠蛲该鞫纫员憬忉屗瞿P汀?br>
特征選擇的第二模式基于所述圍包模式。人們希望只保留擁有優(yōu)良預(yù)測模型必需的最相關(guān)的特征。建模質(zhì)量經(jīng)常在適當(dāng)選擇最佳特征子集之后得以改善。確定特征的正確子集可以基于不同的概念來進行,并且由此生成的特征子集經(jīng)常取決于建模方法。在繞回模式中的特征選擇通常通過使用訓(xùn)練集和有效集來進行,并且使用有效集來確認(rèn)所述模型沒有通過選擇描述符的虛假集合而過度訓(xùn)練。對于特征選擇的兩個通??蓱?yīng)用的方法基于遺傳算法和靈敏度分析的使用。
利用遺傳算法方式的思想將能夠自訓(xùn)練集獲得最佳的特征子集,而且對于有效集也示出了良好的性能。
靈敏度分析的概念[8]采用了特征的凸顯性,即,一旦已經(jīng)構(gòu)造了預(yù)測模型,所述模型就用于每一描述符的平均值,并且所述描述符在最小值和最大值之間一次一個地被調(diào)節(jié)。描述符的靈敏度是預(yù)測響應(yīng)方面中的變化。前提在于當(dāng)描述符的靈敏度很低時,它大概不是做出良好模型的主要描述符。在一個迭代步驟期間可以略去幾個最小靈敏的特征,并且把靈敏度分析過程重復(fù)多次,直到剩余接近最佳的特征集。遺傳算法方案和靈敏度分析方案都是正確的軟計算方法,并且要求不多的啟發(fā)和經(jīng)驗。兩個方案的優(yōu)勢在于遺傳算法和靈敏度方法是通用的方法,這些方法不依賴于特定的建模方法。
有關(guān)機器學(xué)習(xí)的進一步評述我們首先致力于為什么我們不簡單地使用支持向量機(SVM)作為解決線性和非線性問題的現(xiàn)有解決方案的問題,而不是在此回顧所有可利用的機器學(xué)習(xí)技術(shù)。科學(xué)上,如上所述,我們的目標(biāo)是找到一類對于給定問題同樣很好地執(zhí)行以便確保穩(wěn)定解決方案的技術(shù)。在此類技術(shù)中,最佳模型是最易于調(diào)整并且執(zhí)行迅速的一個。把這些模型相對于作為標(biāo)準(zhǔn)的SVM進行比較可以有助于驗證任何最新開發(fā)的技術(shù)的性能。
就有監(jiān)督的學(xué)習(xí)而言,我們在此就有監(jiān)督的學(xué)習(xí)中的所謂機器學(xué)習(xí)悖論給予一簡短描述,這是開發(fā)大量的模型以便找到二難推論的出路的原因。
通常把數(shù)據(jù)矩陣表示為XNm,把響應(yīng)向量表示為 假定在數(shù)據(jù)集中存在N個數(shù)據(jù)點以及m個描述特征。我們想要通過歸納從XNm推斷出 表示為XNm⇒y→N,]]>依照這種方式,我們推斷由n個訓(xùn)練數(shù)據(jù)點導(dǎo)出的模型,而且對采樣以外的數(shù)據(jù)(即,N-n個有效數(shù)據(jù)以及測試數(shù)據(jù)點)執(zhí)行很好的工作。換言之,我們旨在構(gòu)造所述類型的線性預(yù)測模型
y‾^n=Xnmw→m----(13)]]>此公式假定已知的權(quán)重向量 所述向量必須在先前步驟中確定,在最佳的情況下,實際學(xué)習(xí)滿足公式Xnmw→m=yn→----(14)]]>這里,Xnm是訓(xùn)練數(shù)據(jù),并且 表示已知的回答(“標(biāo)簽”)。
應(yīng)注意的是,所述數(shù)據(jù)矩陣通常是不對稱的。如果是這樣的情況,那么通過使用數(shù)據(jù)矩陣的逆矩陣來找到答案將是簡單明了的。因此,我們將應(yīng)用偽逆的變換,這通常將不會產(chǎn)生對y的精確預(yù)測,但是將從最小平方的意義上依照最佳的方式來預(yù)測y。以下舉例說明了對權(quán)重向量的偽逆的解(XmnTXmn)w→mn=XmnTy→n]]>(XmnTXmn)-1(XmnTXmn)w→m=(XmnT)-1XmnTy→n----(15)]]>w→m=(XmnTXmn)-1XmnTy→n]]>w→m=(KF)mm-1XmnTy→n]]>KF=XTmnXnm是所謂的“特征內(nèi)核矩陣”,并且機器學(xué)習(xí)悖論的理由學(xué)習(xí)只是因為特征中的冗余而進行——但是,KF是病態(tài)的(等級不足)。正如先前表明的那樣,存在多種方式來解決所述悖論
1.通過利用主分量(計算特征內(nèi)核的本征向量)來固定KF的等級不夠[18]2.通過調(diào)整使用KF+λI而非KF(脊回歸)[17,20 23]3.通過本地學(xué)習(xí)我們使用了四個基于內(nèi)核的回歸算法在從復(fù)數(shù)數(shù)據(jù)空間中提取相關(guān)參數(shù)中有效的標(biāo)準(zhǔn)支持向量機[2、1215];由羅斯帕(Rosipal)提議的內(nèi)核部分最小平方K-PLS[10];直接內(nèi)核部分最小平方(DK-PLS),以及最小平方支持向量機(即,LS-SVM,亦稱內(nèi)核脊回歸[24-28])。另外,我們測試了直接內(nèi)核主分量分析(DK-PCA)。
部分最小平方(PLS)是QSAR和化學(xué)度量中標(biāo)準(zhǔn)分析方法的其中之一[29]。內(nèi)核PLS(K-PLS)是最近開發(fā)的PLS非線性方案,由羅斯帕和特喬(Trejo)介紹[10]。K-PLS與SVM功能等效,但是不同于SVM,結(jié)果變得更加穩(wěn)定。K-PLS目前用于預(yù)測與人血清蛋白的綁定親合性。
在基于此公開內(nèi)容的工作中,我們改善了K-PLS到DK-PLS,并且利用了在Analyze/Stripminer程序中開發(fā)K-PLS、DK-PLS、DK-PCA和LS-SVM的代碼的早期經(jīng)驗[14]。K-PLS和DK-PLS之間的差異在于特征(數(shù)據(jù))內(nèi)核矩陣在K方法中被使用,而在DK方法中,此矩陣由(非線性的)內(nèi)核變換矩陣來替代。對于計算矩陣求逆來說,我們應(yīng)用了穆勒(Mφller)的比例共軛梯度算法[30],這是在Analyze/Stripminer程序中實現(xiàn)的。
轉(zhuǎn)向無監(jiān)督學(xué)習(xí),我們注意到所述SOM[9、17、31-36]是由科荷南(Kohonen)開發(fā)的無監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。所述SOM是基于競爭學(xué)習(xí)的迭代方法。它提供從高維數(shù)輸入數(shù)據(jù)空間到較低維輸出映射的映射,通常是一維或者二維映射,參見圖11。分量(或者數(shù)據(jù)點)被載入輸入層,并且使用競爭學(xué)習(xí)算法來訓(xùn)練所述SOM[4]。所述權(quán)重依照如下公式被更新w→mnew=(1-α)w→mold+αx→m,]]>其中α是學(xué)習(xí)率參數(shù)。作為學(xué)習(xí)的結(jié)果,所述輸入數(shù)據(jù)將被映射到“獲勝”神經(jīng)元。作為此過程的結(jié)果,所述SOM經(jīng)常用于維數(shù)減少和簇集。此外,SOM的區(qū)別特征在于它依照這樣的一種方式來保留輸入數(shù)據(jù)從高維數(shù)輸入空間到輸出映射上的拓?fù)浣Y(jié)構(gòu),所述方式為輸入數(shù)據(jù)之間的相對距離被更多或更少的保留[38]。在輸入空間中彼此靠近定位的輸入數(shù)據(jù)點被映射至輸出映射上的附近的神經(jīng)元。基于SOM的觀察法是數(shù)據(jù)探測的通用工具。它們用于數(shù)據(jù)的簇集、相關(guān)檢測和投影[4、39]。
傳統(tǒng)的SOM是一種基于高維數(shù)輸入數(shù)據(jù)到低維數(shù)輸出映射上的投影的方法。這里公開的是一種新的的基于內(nèi)核的SOM。所述內(nèi)核SOM現(xiàn)在基于數(shù)據(jù)的內(nèi)核表示被訓(xùn)練,而不是基于原始數(shù)據(jù)訓(xùn)練。這里使用內(nèi)核變換數(shù)據(jù)不足以“揭示”數(shù)據(jù)中的非線性,這是因為SOM原本是非線性的,但是因為所述內(nèi)核具有更少的有效特征而增加(學(xué)習(xí))速度。
概括地說,我們已經(jīng)使用并且開發(fā)了一組圖12中呈現(xiàn)的機器學(xué)習(xí)工具。
結(jié)束語MCG數(shù)據(jù)的二進制分類表示急待解決的問題,但是如果MCG在臨床實踐中成功的話,其方案是非常重要的。把現(xiàn)有的諸如SOM和SVM的機器學(xué)習(xí)技術(shù)應(yīng)用于MCG日期將產(chǎn)生74%的預(yù)測準(zhǔn)確性。非常顯著的改善是通過首先把數(shù)據(jù)變換為小波域,并且另外對小波系數(shù)應(yīng)用內(nèi)核變換并且甚至通過單獨應(yīng)用內(nèi)核變換而不是小波變換來實現(xiàn)。這樣做使預(yù)測的準(zhǔn)確性增加至83%。
如羅斯帕[10]提議的那樣,內(nèi)核PLS(K-PLS)、直接內(nèi)核PLS(DK-PLS)、支持向量機(SVMLib)和最小平方SVM(LS-SVM)之間的結(jié)果的協(xié)議通常是優(yōu)異的。在該情況下,DK-PLS給出優(yōu)越性能,但是基于內(nèi)核方法之間的差異不是很顯著。這種卓越的協(xié)議顯示出了直接內(nèi)核方法的穩(wěn)固性。只有當(dāng)通過公式(1)選擇脊參數(shù)接近最佳時,才可以實現(xiàn)它。在支持向量機中,這種選擇還定義了調(diào)整參數(shù)C,并且C被取為1/λ。
獲得的結(jié)果對于醫(yī)療團體來說是十分有意義的。對于檢測由冠狀動脈血管學(xué)定義的缺血而言,DK-PLS被使用達到92%的靈敏度和75%的特異性(specificity)。應(yīng)注意的是,MCG是一種純功能性的工具,對于心臟生理電學(xué)中的異常十分靈敏,因此,可只診斷疾病的影響。然而,金標(biāo)(冠狀動脈血管學(xué))是一種純解剖工具,并且診斷缺血性心臟病的原因。由于MCG檢測金標(biāo)無法看見的異常,所以它將始終生成“假陽性”,這解釋了這種應(yīng)用中相對低的特異性。
應(yīng)注意的是,這里把內(nèi)核變換作為數(shù)據(jù)變換應(yīng)用于以單獨的預(yù)處理階段。數(shù)據(jù)實際上由非線性數(shù)據(jù)內(nèi)核替代,并且然后應(yīng)用傳統(tǒng)的線性預(yù)測模型。對定義的數(shù)據(jù)的非線性內(nèi)核變換使用傳統(tǒng)線性算法的方法被引入,并且這里被稱為“直接內(nèi)核方法”。這種直接內(nèi)核方法的簡潔和優(yōu)勢在于在所述內(nèi)核中獲取了問題的非線性方面,并且對于所應(yīng)用的算法而言是透明的。
雖然此處論述的內(nèi)核性質(zhì)上是高斯型曲線,但是這只是示例性的,而不是限制性的。例如,還可以使用所謂的樣條內(nèi)核,但是是非限制性的,并且將其視作包括在這公開內(nèi)容內(nèi)。
雖然已經(jīng)舉例說明并且描述了本發(fā)明的某些優(yōu)選的特征,但是本領(lǐng)域技術(shù)人員將會想出多種修改、改變和替換。因此,將理解的是,所附的權(quán)利要求書意在覆蓋落入本發(fā)明真正精神內(nèi)的所有這種修改和變化。
參考文獻[1]C.-C.Chang and C.-J.Lin,LibSVM,OSU,seehttp://www.csie.ntu.edu.tw/~cjlin/libsvmSVMLib. N.Cristianini and J.Shawe-Taylor Support Vector Machines and Other Kernel-Based LearningMethods,Cambridge University Press. I.Daubechies ,Ten Lectures on Wavelets,Siam,Philadelphia,PA. G.Deboeck and T.Kohonen(Eds.) Visual Explorations in Finance with Self-Organiztng Maps,Springer. V.Froelicher,K.Shetler,and E.Ashley “Better Decisions through ScienceExercise TestingScores.”Progress in Cardiovascular Diseases,Vol.44(5),pp.385-414. A.Golbraikh and A.Tropsha “Beware of q2!”Journal of Molecular Graphics and Modelling,Vol 20,pp.269-276. R.A.Johnson and D.W.wichem Applied Multivariate Statistical Analysis,2 ed.,Prentice Hall. R.H.Kewley,and M.J.Embrechts “Data Strip Mining for the Virtual Design of Pharmaceuticals withNeural Networks,”IEEE Transactions on Neural Networks,Vol.11(3),pp.668-679. T.Kohonen Self-Orgaizing Maps,2ndEdition,Springer. R.Rosipal and L.J.Trejo “Kernel Partial Least Squares Regression in Reproducing Kernel HilbertSpaces,”Journal of Machine Learning Research,Vol.2,pp.97-128. B.Schlkopf and A.J.Smola Learning with Kernels,MIT Press. B.Schlkopf,A.Smola,and K-R Müller “Nonlinear Component Analysis as a Kernel EigenvalueProblem,”Neural Computation,Vol.10,1299-1319,1998. J.A.Swets,R.M.Dawes,and J.Monahan “Better Decisions through Science,”Scientific American,pp.82-87. The Analyze/StripMiner,the description and the code are available athttp://www.drugmining.com. V.Vapnik Statistical Learning Theory,John Wiley & Sons. W.Wu,D.L.Massarat and S.de Jong “The Kernel PCA Algorithm for Wide Data.Part IIFast Cross-Validation and Application in Classification of NIR Data,”Chemometrics and Intelligent Laboratory Systems,Vol.37,pp.271-280. A.E.Hoerl,and R.W.Kennard “Ridge RegressionBiased Estimation for Non-Orthogonal Problems,”Technometrics,Vol.12,pp.69-82. J.Principe,N.R.Euliano,and W.C.Lefebre Neural and Adaptive SystemsFundamentals throughSimulations,John Wiley & Sons,Inc. W.Wu,D.L.Massarat and S.de Jong “The Kernel PCA Algorithm for Wide Data.Part ITheory andAlgorithms,”Chemometrics and Intelligent Laboratory Systems,Vol.36,pp.165-172. Vladimir Cherkassky and Filip Mulier Learning from DataConcepts,Theory,and Methods,JohnWiley & Sons,Inc. S.Haykin Neural NetworksA Comprehensive Foundation(2ndEd.),Prentice Hall. A.N.Tikhonov “On Solving Incorrectly Posed Problems and Method of Regularization,”DokladyAkademii Nauk USSR,Vol.151,pp.501-504. A.N.Tikhonov and V.Y.Arsenin Solutions of ill-Posed Problems,W.H.Winston,Washington D.C. Evgeniou,T.,Pontil,and M.Poggio,T. “Statistical Learning TheoryA Primer,”International Journalof Computer Vision,Vol.38(1),pp.9-13. T.Evgeniou,M.Pontil,and T.Poggio “Regularization Networks and Support Vector Machines,”inAdvances in Large Margin Classifiers,MIT Press. Poggio,T.,and Smale S., “The Mathematics of LearningDealing with Data,”To appear in Notices ofthe AMS,May 2003. Suykens,J.A.K.and Vandewalle,J. “Least-Squares Support Vector Machine Classifiers,”NeuralProcessing lrtters,Vol.9(3),pp.293-300,Vol.14,pp.71-84. Suykens,J.A.K.,van Gestel,T.de Brabanter,J.De Moor,M.,and Vandewalle,J. Least SquaresSupport Vector Machines,World Scientific Pub Co,Singapore. Svante Wold,Michael Sjstrm,and Lennart Eriksson “PLS-Regressiona Basic Tool ofChemometrics,”Chemometrics and Intelligent Laboratory Systems,58109-130. Mller,M.F., “A Scaled Conjugate Gradient Algorithm for Fast Supervised Learning,”NeuralNetworks,Vol.6,pp.525-534. H.Ritter,T.Kohonen,“Self-Organizing Semantic Maps,”Biological Cybernetics,vol.61,pp.241-254,1989. T.Kohonen,Self Organization and Associative Memory,2nd ed.,Springer-Verlag,1988. T.Kohonen,“The Self-Organizing Map,”Neurocomputing,21(1)1-6,November 1998. T.Kohonen,“Thing You Haven’t Heard about the Self-Organizing Map,”IEEE International Conference onNeural Network,vol.3,pp.1147-1156,1993. T.Kohonen,“Generalization ofthe Self-Organizing Map,”International Joint Conference on NeuralNetworks,vol.1,pp.21-26,1993. G.Deboeck and T.Kohonen,Visual Explorations in Finance with Self-Organizing Maps,Springer,2000. H.C.Card,G.K.Rosendakl,D.K.Mcneill,and R.D.Mcleod,“Competitive Learning Algorithms andNeurocomputer Architecture,”IEEE Transactions on Computers,vol.47,no.8,pp.847-858,August 1998. J.S.Kirk,and J.M.Zurada,“Motivation for Genetically-Trained Topography-Preserving Map,”InternationalJoint Conference on Neural Networks 2002,vol.1,pp.394-399,2002. J.Vesanto,J.Himberg,M.Siponen,and A.Ollisimula,“Enhancing SOM Based Data Visualization,”Proceedings of the Intemational Conference on Soft Computing and Information/Intelligent Systems,pp.64-67,1998. G.Stroink,W.Moshage,S.Achenbach“Cardiomagnetism”.InMagnetism in Medicine,W.Andr,H.Nowak,eds.BerlinWiley VCH;1998;136-189. M.Mkijrvi,J.Montonen,J.Nenonen“Clinical application of magnetocardiographic mapping”inCardiacmapping,M.Shenasa,M.Borgreffe,G.Breithardt,Eds.Mount Kisco,NYFutura Publishing Co,2003. M.Mkijrvi,K.Brockmeier,U.Leder,et al.“New trends in clinical magnetocardiography”.In Biomag96Proc.of the 10th Internat.Conf.on Biomagnetism,Aine C.,et al.,eds.,New YorkSpringer,2000;410-417.
權(quán)利要求
1.一種用于分類心動描記數(shù)據(jù)的方法,所述方法包括如下步驟在使用機器學(xué)習(xí)來分類所述變換數(shù)據(jù)之前,把內(nèi)核變換應(yīng)用于從感測電磁心臟活動的傳感器獲取的感測數(shù)據(jù),產(chǎn)生變換數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,還包括如下步驟在應(yīng)用所述內(nèi)核變換之前,使用小波變換把所述感測數(shù)據(jù)轉(zhuǎn)換為小波域。
3.如權(quán)利要求1所述的方法,為分類心磁圖數(shù)據(jù),還包括如下步驟從貼近患者心臟的磁傳感器處獲取所述感測數(shù)據(jù)。
4.如權(quán)利要求2所述的方法,為分類心磁圖數(shù)據(jù),還包括如下步驟從貼近患者心臟的磁傳感器處獲取所述感測數(shù)據(jù)。
5.如權(quán)利要求1所述的方法,還包括如下步驟使用機器學(xué)習(xí)來分類所述變換數(shù)據(jù)。
6.如權(quán)利要求2所述的方法,還包括如下步驟使用機器學(xué)習(xí)來分類所述變換數(shù)據(jù)。
7.如權(quán)利要求3所述的方法,還包括如下步驟使用機器學(xué)習(xí)來分類所述變換數(shù)據(jù)。
8.如權(quán)利要求4所述的方法,還包括如下步驟使用機器學(xué)習(xí)來分類所述變換數(shù)據(jù)。
9.如權(quán)利要求1所述的方法,所述內(nèi)核變換滿足美世條件。
10.如權(quán)利要求1所述的方法,所述內(nèi)核變換包括徑向基函數(shù)。
11.如權(quán)利要求1所述的方法,所述應(yīng)用內(nèi)核變換的步驟包括如下步驟把所述變換數(shù)據(jù)分配至神經(jīng)網(wǎng)絡(luò)的第一隱蔽層;應(yīng)用訓(xùn)練數(shù)據(jù)描述符作為所述神經(jīng)網(wǎng)絡(luò)的所述第一隱蔽層的權(quán)重;并且數(shù)值計算所述神經(jīng)網(wǎng)絡(luò)的第二隱蔽層的權(quán)重。
12.如權(quán)利要求11所述的方法,所述數(shù)值計算所述第二隱蔽層的所述權(quán)重的步驟還包括如下步驟使用內(nèi)核脊回歸來計算所述第二隱蔽層的所述權(quán)重。
13.如權(quán)利要求1所述的方法,所述應(yīng)用內(nèi)核變換的步驟包括如下步驟應(yīng)用直接內(nèi)核變換。
14.如權(quán)利要求1所述的方法,還包括如下步驟使用自組織映射(SOM)來分類所述變換數(shù)據(jù)。
15.如權(quán)利要求1所述的方法,還包括如下步驟使用直接內(nèi)核自組織映射(DK-SOM)來分類所述變換數(shù)據(jù)。
16.如權(quán)利要求1所述的方法,還包括如下步驟使用內(nèi)核部分最小平方(K-PLS)機器學(xué)習(xí)來分類所述變換數(shù)據(jù)。
17.如權(quán)利要求1所述的方法,還包括如下步驟使用直接內(nèi)核部分最小平方(DK-PLS)機器學(xué)習(xí)來分類所述變換數(shù)據(jù)。
18.如權(quán)利要求1所述的方法,還包括如下步驟使用最小平方支持向量機(LS-SVM)來分類所述變換數(shù)據(jù)。
19.如權(quán)利要求1所述的方法,還包括如下步驟使用直接內(nèi)核主分量分析(DK-PCA)來分類所述變換數(shù)據(jù)。
20.如權(quán)利要求1所述的方法,還包括如下步驟使用支持向量機(SVM/SVMLib)來分類所述變換數(shù)據(jù)。
21.如權(quán)利要求20所述的方法,所述使用支持向量機(SVM/SVMLib)來分類所述變換數(shù)據(jù)的步驟還包括如下步驟對于一n數(shù)據(jù)內(nèi)核,把SVMLib調(diào)整參數(shù)C設(shè)置為C=1/λ,其中所述λ與n的3/2次冪成比例。
22.如權(quán)利要求20所述的方法,所述使用支持向量機(SVM/SVMLib)來分類所述變換數(shù)據(jù)的步驟還包括如下步驟對于一n數(shù)據(jù)內(nèi)核,把SVMLib調(diào)整參數(shù)C設(shè)置為C=1/λ,其中λ=min{1;(n1500)32}.]]>
23.如權(quán)利要求2所述的方法,所述把所述感測數(shù)據(jù)轉(zhuǎn)換為小波域的步驟包括如下步驟把多布小波變換應(yīng)用于所述感測數(shù)據(jù)。
24.如權(quán)利要求2所述的方法,還包括如下步驟從所述小波數(shù)據(jù)中選擇用于改善心動描記數(shù)據(jù)的所述分類的特征。
25.如權(quán)利要求24所述的方法,所述選擇所述特性的步驟還包括如下步驟刪去從所述小波數(shù)據(jù)中所選的不期望特征。
26.如權(quán)利要求25所述的方法,所述刪去所選的不期望特征的步驟還包括如下步驟從所述小波數(shù)據(jù)中刪去外圍的數(shù)據(jù)。
27.如權(quán)利要求25所述的方法,所述刪去所選的不期望特征的步驟還包括如下步驟從所述小波數(shù)據(jù)中刪去遠親描述符。
28.如權(quán)利要求24所述的方法,所述選擇所述特征的步驟還包括如下步驟只保留從所述小波數(shù)據(jù)選擇的期望特征。
29.如權(quán)利要求28所述的方法,所述只保留所選的期望特征的步驟還包括如下步驟使用訓(xùn)練數(shù)據(jù)集;并且使用有效數(shù)據(jù)集來確認(rèn)不存在所述訓(xùn)練集的過度訓(xùn)練。
30.如權(quán)利要求29所述的方法,所述只保留所選的期望特征的步驟還包括如下步驟使用遺傳算法以從所述訓(xùn)練數(shù)據(jù)集中獲得特征的最佳子集;并且使用所述遺傳算法來評估所述有效數(shù)據(jù)集的性能。
31.如權(quán)利要求29所述的方法,所述只保留所選的期望特征的步驟還包括如下步驟測量來自所述小波數(shù)據(jù)的所述特征的與所述特征的預(yù)測響應(yīng)相關(guān)的靈敏度;并且從所述特征中刪去低靈敏度特征,所述低靈敏度特征比來自所述特征的其它高靈敏度特征具有相對更低的靈敏度。
32.如權(quán)利要求24所述的方法,所述選擇所述特征的步驟還包括如下步驟從所述小波數(shù)據(jù)中刪去所選的不期望特征;并且只保留從所述小波數(shù)據(jù)選擇的期望特征。
33.如權(quán)利要求1所述的方法,還包括如下步驟歸一化所述感測數(shù)據(jù)。
34.如權(quán)利要求33所述的方法,所述歸一化所述感測數(shù)據(jù)的步驟還包括如下步驟馬氏縮放所述感測數(shù)據(jù)。
35.如權(quán)利要求1所述的方法,還包括如下步驟定中所述內(nèi)核變換的內(nèi)核。
36.如權(quán)利要求35所述的方法,所述定中所述內(nèi)核的步驟包括如下步驟從訓(xùn)練數(shù)據(jù)內(nèi)核的每一列中減去列平均值;當(dāng)定中測試數(shù)據(jù)內(nèi)核時,存儲所述列平均值用于稍后重新調(diào)用;從所述訓(xùn)練數(shù)據(jù)內(nèi)核的每行中減去行平均值。
37.如權(quán)利要求36所述的方法,所述定中所述內(nèi)核的步驟還包括如下步驟把所述已存儲的列平均值添加至所述測試數(shù)據(jù)內(nèi)核的每一列;對于每一行,計算所述測試數(shù)據(jù)內(nèi)核的平均值;并且從所述測試數(shù)據(jù)內(nèi)核的每一水平條目減去所述行平均值。
38.一種用于分類心動描記數(shù)據(jù)的設(shè)備,包括計算機化的存儲,處理以及編程用于在使用機器學(xué)習(xí)來分類所述變換數(shù)據(jù)之前,把內(nèi)核變換應(yīng)用于從用來感測電磁心臟活動的傳感器獲取的感測數(shù)據(jù),產(chǎn)生變換數(shù)據(jù)。
39.如權(quán)利要求38所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于在應(yīng)用所述內(nèi)核變換之前,使用小波變換把所述感測數(shù)據(jù)轉(zhuǎn)換為小波域。
40.如權(quán)利要求38所述的設(shè)備,為分類心磁圖數(shù)據(jù),還包括輸入用于從貼近患者心臟的磁傳感器處獲取所述感測數(shù)據(jù)。
41.如權(quán)利要求39所述的設(shè)備,為分類心磁圖數(shù)據(jù),還包括輸入用于從貼近患者心臟的磁傳感器處獲取所述感測數(shù)據(jù)。
42.如權(quán)利要求38所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于使用機器學(xué)習(xí)來分類所述變換數(shù)據(jù)。
43.如權(quán)利要求39所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于使用機器學(xué)習(xí)來分類所述變換數(shù)據(jù)。
44.如權(quán)利要求40所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于使用機器學(xué)習(xí)來分類所述變換數(shù)據(jù)。
45.如權(quán)利要求41所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于使用機器學(xué)習(xí)來分類所述變換數(shù)據(jù)。
46.如權(quán)利要求38所述的設(shè)備,其中內(nèi)核變換滿足Mercer條件。
47.如權(quán)利要求38所述的設(shè)備,所述內(nèi)核變換包括徑向基函數(shù)。
48.如權(quán)利要求38所述的設(shè)備,所述用于應(yīng)用內(nèi)核變換的計算機化的存儲、處理以及編程還包括計算機化存儲、處理以及編程用于把所述變換數(shù)據(jù)分配至神經(jīng)網(wǎng)絡(luò)的第一隱蔽層;應(yīng)用訓(xùn)練數(shù)據(jù)描述符作為所述神經(jīng)網(wǎng)絡(luò)的所述第一隱蔽層的權(quán)重;并且數(shù)值計算所述神經(jīng)網(wǎng)絡(luò)的第二隱蔽層的權(quán)重。
49.如權(quán)利要求48所述的設(shè)備,所述用于數(shù)值計算所述第二隱蔽層的所述權(quán)重的計算機化的存儲、處理以及編程還包括計算機化存儲、處理以及編程用于使用內(nèi)核脊回歸來計算所述第二隱蔽層的所述權(quán)重。
50.如權(quán)利要求38所述的設(shè)備,所述用于應(yīng)用內(nèi)核變換的計算機化的存儲、處理以及編程還包括計算機化存儲、處理以及編程用于應(yīng)用直接內(nèi)核變換。
51.如權(quán)利要求38所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于使用自組織映射(SOM)來分類所述變換數(shù)據(jù)。
52.如權(quán)利要求38所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于使用直接內(nèi)核自組織映射(DK-SOM)來分類所述變換數(shù)據(jù)。
53.如權(quán)利要求38所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于使用內(nèi)核部分最小平方(K-PLS)機器學(xué)習(xí)來分類所述變換數(shù)據(jù)。
54.如權(quán)利要求38所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于使用直接內(nèi)核部分最小平方(DK-PLS)機器學(xué)習(xí)來分類所述變換數(shù)據(jù)。
55.如權(quán)利要求38所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于使用最小平方支持向量機(LS-SVM)來分類所述變換數(shù)據(jù)。
56.如權(quán)利要求38所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于使用直接內(nèi)核主分量分析(DK-PCA)來分類所述變換數(shù)據(jù)。
57.如權(quán)利要求38所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于使用支持向量機(SVM/SVMLib)來分類所述變換數(shù)據(jù)。
58.如權(quán)利要求57所述的設(shè)備,所述用于使用支持向量機(SVM/SVMLib)變換來分類所述變換數(shù)據(jù)的計算機化的存儲、處理以及編程還包括計算機化的存儲、處理以及編程用于對于一n數(shù)據(jù)內(nèi)核,把SVMLib調(diào)整參數(shù)C設(shè)置為C=1/λ,其中所述λ與所述n的3/2次冪成比例。
59.如權(quán)利要求57所述的設(shè)備,所述計算機化的存儲、處理以及編程用于使用支持向量機(SVM/SVMLib)變換來分類所述變換數(shù)據(jù)還包括計算機化存儲、處理以及編程用于對于一n數(shù)據(jù)內(nèi)核,把SVMLib調(diào)整參數(shù)C設(shè)置為C=1/λ,其中λ=min{1;(n1500)32}.]]>
60.如權(quán)利要求39所述的設(shè)備,所述用于把所述感測數(shù)據(jù)轉(zhuǎn)換為小波域的計算機化的存儲、處理以及編程包括計算機化的存儲、處理以及編程用于把多布小波變換應(yīng)用于所述感測數(shù)據(jù)。
61.如權(quán)利要求39所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于從所述小波數(shù)據(jù)中選擇用于改善心動描記數(shù)據(jù)的所述分類的特征。
62.如權(quán)利要求61所述的設(shè)備,所述用于選擇所述特征的計算機化的存儲、處理以及編程還包括計算機化的存儲、處理以及編程用于從所述小波數(shù)據(jù)中刪去所選的不期望特征。
63.如權(quán)利要求62所述的設(shè)備,所述用于刪去所選擇的不期望特征的計算機化的存儲、處理以及編程包括計算機化的存儲、處理以及編程用于從所述小波數(shù)據(jù)中刪去外圍的數(shù)據(jù)。
64.如權(quán)利要求62所述的設(shè)備,所述用于刪去所選擇的不期望特征的計算機化的存儲、處理以及編程包括計算機化的存儲、處理以及編程用于從所述小波數(shù)據(jù)中刪去遠親描述符。
65.如權(quán)利要求61所述的設(shè)備,所述用于選擇所述特征的計算機化的存儲、處理以及編程還包括計算機化的存儲、處理以及編程用于只保留從所述小波數(shù)據(jù)選擇的期望特征。
66.如權(quán)利要求65所述的設(shè)備,所述用于只保留所選擇的期望特征的計算機化的存儲、處理以及編程還包括計算機化的存儲、處理以及編程用于使用訓(xùn)練數(shù)據(jù)集;并且使用有效數(shù)據(jù)集來確認(rèn)不存在所述訓(xùn)練集的過度訓(xùn)練。
67.如權(quán)利要求66所述的設(shè)備,所述計算機化的存儲、處理以及編程用于只保留所選擇的期望特征還包括計算機化的存儲、處理以及編程用于使用遺傳算法以從所述訓(xùn)練數(shù)據(jù)集中獲得特征的最佳子集;并且使用所述遺傳算法來評估所述有效數(shù)據(jù)集的性能。
68.如權(quán)利要求66所述的設(shè)備,所述用于只保留所選擇的期望特征的計算機化的存儲、處理以及編程還包括計算機化的存儲、處理以及編程用于測量來自所述小波數(shù)據(jù)的所述特征的與所述特征的預(yù)測響應(yīng)相關(guān)的靈敏度;并且從所述特性中刪去低靈敏度的特征,所述低靈敏度的特征比來自所述特征的其它高靈敏度特征具有相對更低的靈敏度。
69.如權(quán)利要求61所述的設(shè)備,所述用于選擇所述特征的計算機化的存儲、處理以及編程還包括計算機化的存儲、處理以及編程用于從所述小波數(shù)據(jù)中刪去所選的不期望特征;并且只保留從所述小波數(shù)據(jù)選擇的期望特征。
70.如權(quán)利要求38所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于歸一化所述感測數(shù)據(jù)。
71.如權(quán)利要求70所述的設(shè)備,所述用于歸一化所述感測數(shù)據(jù)的計算機化的存儲、處理以及編程包括計算機化的存儲、處理以及編程用于馬氏縮放所述感測數(shù)據(jù)。
72.如權(quán)利要求38所述的設(shè)備,還包括計算機化的存儲,處理以及編程用于定中所述內(nèi)核變換的內(nèi)核。
73.如權(quán)利要求72所述的設(shè)備,所述用于定中所述內(nèi)核的計算機化的存儲、處理以及編程包括計算機化的存儲、處理以及編程用于從訓(xùn)練數(shù)據(jù)內(nèi)核的每一列中減去列平均值;當(dāng)定中測試數(shù)據(jù)內(nèi)核時,存儲所述列平均值用于稍后重新調(diào)用;從所述訓(xùn)練數(shù)據(jù)內(nèi)核的每行中減去行平均值。
74.如權(quán)利要求73所述的設(shè)備,所述用于定中所述內(nèi)核的計算機化的存儲、處理以及編程還包括計算機化的存儲、處理以及編程用于把所述已存儲的列平均值添加至所述測試數(shù)據(jù)內(nèi)核的每一列;對于每一行,計算所述測試數(shù)據(jù)內(nèi)核的平均值;并且從所述測試數(shù)據(jù)內(nèi)核的每一水平條目減去所述行平均值。
全文摘要
此處公開了在心磁圖中使用機器學(xué)習(xí)進行圖形識別,所述心磁圖用于測量由心臟的電生理學(xué)活動發(fā)射的磁場。使用直接內(nèi)核方法來把異常的MCG心臟圖形與正常的圖形分開。對于無監(jiān)督學(xué)習(xí)來說,引入了基于直接內(nèi)核的自組織映射。對于有監(jiān)督的學(xué)習(xí)來說,使用了直接內(nèi)核部分最小平方以及(直接)內(nèi)核脊回歸。然后把這些結(jié)果與標(biāo)準(zhǔn)的支持向量機以及內(nèi)核部分最小平方相比較。在測試以前,對于訓(xùn)練數(shù)據(jù)的有效子集來調(diào)整用于這些方法的超參數(shù)。而且使用本地、垂直、水平以及二維(全局)馬氏縮放、小波變換以及通過過濾進行變量選擇來探查是最有效的預(yù)處理。對于所有三種方法來說類似的是,所述結(jié)果促進、超出了通過已訓(xùn)練專家實現(xiàn)的分類質(zhì)量。由此,公開了一種用于分類心動描記數(shù)據(jù)的設(shè)備以及相關(guān)聯(lián)的方法,包括把內(nèi)核變換應(yīng)用于從用來感測電磁心臟活動的傳感器獲取的感測數(shù)據(jù),產(chǎn)生變換數(shù)據(jù),之后使用機器學(xué)習(xí)分類已變換數(shù)據(jù)。
文檔編號A61B5/04GK1816303SQ200480018683
公開日2006年8月9日 申請日期2004年7月1日 優(yōu)先權(quán)日2003年7月1日
發(fā)明者卡斯滕·斯特尼克爾, 馬克·J·恩布克斯, 伯勒斯洛·K·希曼斯基 申請人:卡迪爾馬格成像公司