本申請是申請日為2013年11月11日,申請?zhí)枮?01380058287.7,發(fā)明名稱為“自動特征分析、比較和異常檢測的方法(原發(fā)明名稱為:自動特征分析、比較和異常檢測)”的申請的分案申請。相關申請的交叉引用本申請要求2012年11月9日遞交的美國臨時專利申請?zhí)枮?1/724,813的優(yōu)先權,其公開內(nèi)容通過引用以其整體并入本文。利益聲明在政府的支持下根據(jù)陸軍研究辦公室(aro)授權的資助w81xwh-09-1-0266做出了本發(fā)明。政府對本發(fā)明具有一定的權利。本公開內(nèi)容涉及自動數(shù)據(jù)分析。更具體地,其涉及用于自動特征分析、比較和異常檢測的系統(tǒng)、設備和方法。
背景技術:
:用于從一組數(shù)據(jù)提取特征的類似技術可適用于不同組的數(shù)據(jù)。例如,地質(zhì)調(diào)查可收集關于地球或火星的區(qū)域數(shù)據(jù)。收集的數(shù)據(jù)可包括可視化的圖像、x射線圖像、質(zhì)譜分析、化學樣品,等等。某些可視化特征可說明某些礦物的存在,而x射線圖像或超光譜圖像可給出該礦物存在的不同可能性。在這種情況下,人為干預通??赡苁潜匾?,以確定每組數(shù)據(jù)(諸如可視化圖像相對x射線圖像)的相對重要性和可靠性。技術實現(xiàn)要素:在本公開的第一方面中,描述了計算機實現(xiàn)方法,計算機實現(xiàn)方法包括:提供感測和分析設備,該感測和分析設備包括配置成檢測描述多個物理對象的多個物理特征的多個傳感器;基于多個物理特征,由感測和分析設備產(chǎn)生表示多個對象的多個特征向量,其中多個特征向量包括描述多個物理特征的多個分量,其中多個分量的每個分量具有一個數(shù)值范圍,其中多個物理特征中的每個物理特征由在每個特征向量內(nèi)的至少一個分量表示;由感測和分析設備將每個分量的數(shù)值范圍轉(zhuǎn)換為0到1之間的范圍,其中所述轉(zhuǎn)換是通過以下公式執(zhí)行的:其中f1ij是第i個對象和第j個特征分量的歸一化值,origfij是第i個對象的第j個原特征分量值,minfj和maxfj是第j個特征分量的最小值和最大值,從而獲得第一多個歸一化的特征向量,其包括第一多個歸一化分量,且還包括關于第一多個歸一化特征向量的每個第一歸一化特征向量的每個物理特征的分量的總數(shù);對于第一多個特征向量的每個第一歸一化特征向量,由感測和分析設備將每個第一歸一化特征向量的每個物理特征的多個歸一化分量除以第一歸一化特征向量的每個物理特征的分量的總數(shù),從而獲得第二多個歸一化特征向量;由感測和分析設備通過以下公式對第二多個歸一化特征向量進行歸一化:其中f2ij是第二多個歸一化特征向量的特征向量的分量,且f3ij是第三多個歸一化特征向量的每個特征向量的合成分量;由感測和分析設備對第三多個歸一化特征向量進行聚類,從而獲得多個聚類的歸一化特征向量;由感測和分析設備將主要分量分析應用于多個聚類的歸一化特征向量,從而獲得距離標志值和第一評估的多個歸一化特征值;由感測和分析設備基于閾值,通過對多個聚類的歸一化特征向量的每個特征向量進行計數(shù)來計算數(shù)量標志值,從而獲得第二評估的多個歸一化特征向量;基于第一評估的多個歸一化特征向量和第二評估的多個歸一化特征向量,由感測和分析設備分析多個物理對象。本申請還涉及以下內(nèi)容:1)一種計算機實施的方法,包括:提供感測和分析設備,所述感測和分析設備包括配置成檢測描述多個物理對象的多個物理特征的多個傳感器;通過所述感測和分析設備,基于所述多個物理特征產(chǎn)生表示多個對象的多個特征向量,其中,所述多個特征向量包括描述所述多個物理特征的多個分量,其中,所述多個分量的每個分量具有數(shù)值范圍,其中,所述多個物理特征的每個物理特征由每個特征向量中的至少一個分量表示;通過所述感測和分析設備,將每個分量的所述數(shù)值范圍轉(zhuǎn)換至0和1之間的范圍,其中,所述轉(zhuǎn)換通過以下公式執(zhí)行其中,f1ij是第i個對象和第j個特征分量的歸一化的值,origfij是第i個對象的第j個原特征分量值,minfj和maxfj是第j個特征分量的最小值和最大值,從而獲得第一多個歸一化特征向量,其包括第一多個歸一化分量,且還包括所述第一多個歸一化特征向量的每個第一歸一化特征向量的每個物理特征的全部數(shù)量的分量;對于所述第一多個特征向量的每個第一歸一化特征向量,由所述感測和分析設備將每個第一歸一化特征向量的每個物理特征的所述多個歸一化分量除以所述第一歸一化特征向量的每個物理特征的分量的總數(shù),從而獲得第二多個歸一化特征向量;由所述感測和分析設備通過以下公式歸一化所述第二多個歸一化特征向量:其中,f2ij是所述第二多個歸一化特征向量的特征向量的分量,且f3ij是第三多個歸一化特征向量的每個特征向量的合成分量;通過所述感測和分析設備,聚類所述第三多個歸一化特征向量,從而獲得多個聚類的歸一化特征向量;通過所述感測和分析設備將主分量分析應用到所述多個聚類的歸一化特征向量,從而獲得距離標志值和第一評估的多個歸一化特征向量;通過所述感測和分析設備,基于閾值通過計數(shù)所述多個聚類的歸一化特征向量的每個特征向量計算數(shù)量標志值,從而獲得第二評估的多個歸一化特征向量;通過所述感測和分析設備基于所述第一評估的多個歸一化特征向量或所述第二評估的多個歸一化特征向量分析所述多個物理對象。2)根據(jù)1)所述的計算機實施的方法,其中,所述聚類包括:通過所述感測和分析設備定義第一參數(shù)t1和第二參數(shù)t2,其中,所述第二參數(shù)大于所述第一參數(shù);通過所述感測和分析設備計算聚類cj的聚類中心cj,其中,j是第一計數(shù)參數(shù);通過所述感測和分析設備計算所述第三多個歸一化特征向量的每個特征向量和所述聚類中心cj之間的距離d(f3i,cj),其中,每個特征向量稱為f3i,且其中,i是第二計數(shù)參數(shù);通過所述感測和分析設備基于所述第一參數(shù)t1和所述第二參數(shù)t2分配所述第三多個歸一化特征向量的每個特征向量f3i到所述聚類cj,其中,所述分配包括迭代步驟a)-c):a)如果所述距離d(f3i,cj)小于所述第一參數(shù)t1,則所述特征向量f3i被分配到具有所述聚類中心cj的聚類cj;b)如果所述距離d(f3i,cj)大于所述第二參數(shù)t2,則所述特征向量f3i不被分配到具有所述聚類中心cj的所述聚類cj,增加j且所述特征向量f3i被分配到具有所述聚類中心cj的所述聚類cj;c)如果所述距離d(f3i,cj)大于所述第一參數(shù)t1,但小于所述第二參數(shù)t2,則推后所述分配;其中,一旦達到所期望的條件,就停止所述迭代,且聚類每個特征向量f3i,從而獲得多個聚類的歸一化特征向量。3)根據(jù)1)所述的計算機實施的方法,其中,所述聚類采用有序聚類、k均值聚類或水平集分析聚類。4)根據(jù)1)-3)中任一項所述的計算機實施的方法,其中,所述多個物理特征包括:顏色;反照率;形狀;程度;傾斜度;緊密度;大??;材質(zhì);多光譜數(shù)據(jù);超光譜數(shù)據(jù);光譜數(shù)據(jù);生物污染濃度;化學污染濃度;放射性污染。5)根據(jù)1)-4)中任一項所述的計算機實施的方法,其中,所述分析用于感興趣區(qū)域的劃分或劃定;異常檢測;自主交通工具控制;或勘探設備的指導。6)根據(jù)1)-5)中任一項所述的計算機實施的方法,其中,所述分析用于地質(zhì)、采礦、資源分配、或偵察。7)根據(jù)1)-3)中任一項所述的計算機實施的方法,其中,所述分析用于醫(yī)學診斷并且所述多個物理特征包括:患者特定數(shù)據(jù);血液檢查結果;尿液或糞便檢查結果;x射線、ct、mri、fmri、或超聲圖像;多光譜數(shù)據(jù);超光譜數(shù)據(jù);脈沖;心率;眼壓;顱內(nèi)壓;血壓;肺容積。8)根據(jù)1)-3)中任一項所述的計算機實施的方法,其中,所述分析用于金融市場并且所述多個物理特征包括數(shù)據(jù)線上感測的電信號,其中,所述電信號描述了數(shù)據(jù),所述數(shù)據(jù)包括:股票價值;開盤價;收盤價;整個交易期間的出價;黃金價格;股票指數(shù);交易量。9)根據(jù)1)-3)中任一項所述的計算機實施的方法,其中,所述分析用于視野,并且所述多個物理特征包括:盲區(qū)周界、圓齒、不可見的測試位置的絕對數(shù)量、受損視野的面積、絕對視覺山體積損失、損失的面積等級、保存的面積等級、損失面積等級的倒數(shù)、保存面積等級的倒數(shù)。10)根據(jù)1)-9)中任一項所述的計算機實施的方法,其中,minfj和maxfj由用戶定義。11)根據(jù)2)所述的計算機實施的方法,其中,所述距離是歐幾里得距離。12)根據(jù)1)-11)中任一項所述的計算機實施的方法,還包括通過所述感測和分析設備基于時變分析所述多個物理對象。附圖說明并入本說明書中并構成本說明書的一部分的附圖示出了本公開內(nèi)容的一個或多個實施例,并與示例性實施例的描述一起,用于解釋本公開內(nèi)容的原理和實現(xiàn)。圖1示出了agfa的一般工作流程。圖2示出了作為聚類的示意性實例的一批幾何形狀。圖3示出了示例性感測和分析設備。圖4描述了用于實現(xiàn)本公開內(nèi)容的實施例的目標硬件的示例性實施例。具體實施方式本公開內(nèi)容涉及自動數(shù)據(jù)分析,其可應用數(shù)據(jù)聚合和提取來自各種應用領域的特征。用于從一組數(shù)據(jù)提取特征的類似技術可適用于不同組的數(shù)據(jù)。例如,地質(zhì)調(diào)查可收集關于地球或火星的區(qū)域數(shù)據(jù)。收集的數(shù)據(jù)可包括可視化的圖像、x射線圖像、質(zhì)譜分析、化學樣品,等等。在本公開內(nèi)容中,描述方法以在特征空間中聚合這些數(shù)據(jù),定義描述它們的數(shù)學實體,從數(shù)據(jù)提取特征,并輸出得到的分析。例如,某些可視化特征可說明某些礦物的存在,而x射線圖像或超光譜圖像可給出該礦物存在的不同可能性。在這種情況下,人為干預通??赡苁潜匾?,以確定每組數(shù)據(jù)(諸如可視化圖像相對x射線圖像)的相對重要性和可靠性。在本公開內(nèi)容中,數(shù)學實體(即特征向量)被用于以允許自動比較分析的格式(特征向量)來表達包含在不同組的數(shù)據(jù)(例如,可視化圖像和x射線圖像)中的信息。本公開內(nèi)容的自動化系統(tǒng)、設備或方法可因此執(zhí)行不同組的數(shù)據(jù)的特征的自動化分析。相似的方法可用于其它應用,例如醫(yī)療診斷、金融系統(tǒng)和軍事偵察。因此,這樣的方法、設備或系統(tǒng)可稱為自動全局特征分析器(agfa)。對于每個應用,agfa可提取和遞送組成特征向量的特征。一旦產(chǎn)生特征向量,則agfa框架可運行。因此,agfa可聚類數(shù)據(jù),并可基于特征空間找到異常。換句話說,數(shù)據(jù)可被在特征空間中轉(zhuǎn)換并且然后可以被在該空間中分析。通過該轉(zhuǎn)換,數(shù)據(jù)的自動分析是可能的,而與數(shù)據(jù)的來源無關。此外,agfa也可允許對象基于其各自的特征向量,彼此相互比較。在一些實施例中,也可通過分析在不同時間的特征向量之間的差異進行時變分析。例如,相同的特征向量可在時間1和時間2與其自身相比較。圖1示出了agfa(105)如何可以適用于特征空間(110)中的各種應用,并且可以針對每個應用(110)給出輸出(115)。例如,關于地質(zhì)、采礦、資源分配、和(軍事)偵察的應用,特征空間將包含由特定特征組成的特征向量。在一些實施例中,待包括在特征向量中的一系列特征可包括:顏色;反照率(亮度);分割對象的圓周的橢圓擬合,得到半長軸和半短軸,其比率可以是對象有多圓的量度;程度;傾斜度(angularity);緊密度;大??;用于質(zhì)地評估的伽柏濾波器;多光譜數(shù)據(jù);超光譜數(shù)據(jù);光譜數(shù)據(jù);生物污染濃度;化學污染濃度;放射性污染。對以上特征應用agfa之后,一些可能的結果可包括:感興趣區(qū)域的劃分/劃定;異常檢測;自主交通工具控制;勘探設備的指導。在一些實施例中,本公開內(nèi)容的方法可適用于小行星開采。作為另一個實例,用于醫(yī)學診斷的,可能的特征可包括:病人的特定數(shù)據(jù),諸如:年齡、身高、體重、性別;血液檢查結果;尿液/糞便檢查結果;x射線、ct、mri、fmri、超聲波的圖像/結果;多光譜數(shù)據(jù);超光譜數(shù)據(jù);脈沖;心率;眼壓;顱內(nèi)壓;血壓;肺活量。對以上特征應用agfa之后,一些可能的結果可包括:醫(yī)療診斷;手術(如腹腔鏡手術)設備的指導;用于腫瘤治療的感興趣區(qū)域的劃分/劃定;異常檢測。作為另一個實例,關于金融市場的,可能的特征可包括:股票價值;開盤價;收盤價;整個交易期間的出價;黃金價格;股票指數(shù)(道瓊斯、標普500等);交易量(例如,股票的交易量)。對以上特征應用agfa之后,一些可能的結果可包括:買入/持有/賣出的決定;趨勢的異常檢測。agfa應用的另一個實例是視野。在某些情況下,在人眼中的視野缺損的醫(yī)療診斷可大規(guī)模地進行(例如,全世界的數(shù)千到數(shù)百萬人),或其可僅遠程地進行,例如,在地球上偏遠地區(qū)、或?qū)τ谠诘交鹦堑目臻g任務的宇航員的情況、或?qū)τ诰幼≡谠虑蛏系娜祟悺T谶@樣的情況下,用于視野缺損的檢測的自動化系統(tǒng)可以是有利的。在這樣的情況下,在沒有臨床專家時,根據(jù)下列數(shù)值方法,集成的自動特征描述系統(tǒng)可分析3d計算機化的閾值阿姆斯勒網(wǎng)格(3d-ctag)視野數(shù)據(jù),并客觀地確定和特征化存在的視野缺損(例如,盲區(qū),如以缺少的視覺面積的形式):(1)視野數(shù)據(jù)轉(zhuǎn)換,包括視野損失的面積和體積,丟失和保存的面積等級,以及斜率分布;和(2)盲區(qū)數(shù)據(jù)轉(zhuǎn)換,包括盲區(qū)周界/圓齒(scallopedness)和盲區(qū)中心位置。如對于本領域的技術人員已知的是,阿姆斯勒測試是視野測試。agfa框架還可同樣適用于其它視野測試數(shù)據(jù),例如,適用于漢弗里(humphrey)視野分析器。視野數(shù)據(jù)轉(zhuǎn)換每對比度水平視野面積損失計算可系統(tǒng)地評估原始3d-ctag數(shù)據(jù),首先針對在數(shù)據(jù)中呈現(xiàn)的差異對比度敏感度水平的數(shù)量n,然后針對平方度的數(shù)量(例如,網(wǎng)格點)中的面積(表示為ai,其中0%≤i≤100%代表百分比對比度水平)和在每個對比度水平的視野損失的百分比百分比和面積因此記錄了視野損失,其為對比度敏感度的函數(shù),帶有指示在呈現(xiàn)的最低對比度的完好視力的最高水平(100)。計算損失和保存的面積等級:通過將在最高測試對比度水平的盲區(qū)面積(ah)除以在最低測試對比度水平的盲區(qū)面積(a100)來計算損失面積等級(lag)。該面積比例然后乘以對比度敏感度比例因子其包括盲區(qū)深度(100-h)除以總深度(100),然后求平方值,以消除簡并。完整的量度因此是通過將在最低測試對比度水平的保留的視野面積(a100)除以在最高測試對比度水平的保留的視野面積(ah),然后乘以如上所述的對比度敏感度比例因子來計算保留的面積等級(pag):如果對比度敏感度比例因子不被平方,則在這兩項量度中(即lag和pag)可發(fā)生簡并:例如,淺的盲區(qū)可具有這樣的大的面積比率,以致于其lag和pag與具有充分小的面積比例的陡峭盲區(qū)的lag和pag相匹配。視野損失的體積計算:在對比度敏感度小于100的每個水平的數(shù)據(jù)點的數(shù)量乘以在每個數(shù)據(jù)點的對比度敏感度中的損失以確定視野損失的體積(∑{i}ai(100-i))。視野損失的體積然后除以全部測試的視野體積以確定損失的視野體積的百分比。視野損失的斜率等級(和斜率等級的直方圖):例如,在水平(x)方向和垂直(y)方向上獨立地確定斜率等級。斜率等級定義為對比度敏感度的損失(例如,100-i)除以其中發(fā)生損失的等級數(shù)(δx或δy):針對水平斜率等級是和針對垂直斜率等級是斜率直方圖描述了在垂直方向或水平方向的斜率等級的分布??捎孟嗤姆绞教幚韽拿^(qū)的中心計算的徑向斜率等級。盲區(qū)數(shù)據(jù)轉(zhuǎn)換盲區(qū)中心對于每個測試的對比度敏感度水平的所有盲區(qū)數(shù)據(jù)點的x值和y值進行平均以獲得在每個測試對比度敏感度水平的盲區(qū)中心的坐標。各自的中心與整個視野的數(shù)據(jù)點一起以3d方式繪制。隨后對中心進行平均以獲得平均中心。然后,計算從每個中心到平均中心的距離的平均距離和標準差。所有中心和每個盲區(qū)的平均中心然后被繪制到散點圖上。盲區(qū)周界通過掃描關于點的盲區(qū)中的點列表,確定和記錄在每個測試對比度敏感度水平的盲區(qū)周界點,所述點水平和/或垂直鄰近于在各自水平的非盲區(qū)的點(即,具有大于當前水平的對比度敏感度水平的對比度敏感度水平)。圓齒圓齒測量評估了在關于曲率波動的每個對比度敏感度水平的盲區(qū)周界。在周界上的所有的點按順序編號。從第一點(p=1)開始,計算沿著周界(p)的每個點和向下了用戶定義的索引偏移(x)的周界點的列表(p+x)的點之間的歐幾里得距離。對所有歐幾里德距離進行平均,并隨后顯示為直方圖。例如,使用兩個不同的用戶定義索引偏移對每個對比度敏感度水平執(zhí)行該過程。尖峰的直方圖(即,一個峰)說明帶光滑周界(不是圓齒的)的盲區(qū);朝向直方圖左端的峰值說明更緊密彎曲的周界(即,小曲率半徑),而朝向直方圖右端的峰值說明帶大曲率半徑的周界。指數(shù)的一般集合也對視物變形癥做出解釋為了也對視物變形癥的現(xiàn)象做出解釋(即阿姆斯勒網(wǎng)格線的失真或起伏代替了那些網(wǎng)格線的缺失),可為在3d中的失真視覺(即,視物變形癥)和視野缺損(即,盲區(qū))的自動特征描述應用更普遍的算法的超集??梢允褂妹枋隽艘曇叭睋p的以下客觀的特征指數(shù):不可見測試位置的絕對#:不考慮對比度,不可見阿姆斯勒網(wǎng)格點的數(shù)值計數(shù)。不可見測試位置的相對#:不考慮對比度,不可見測試位置的絕對數(shù)量除以可用測試位置的全部數(shù)量的百分比表示。在xx%對比度的受損的視野面積:在給定的阿姆斯勒網(wǎng)格對比度標記為不可見的阿姆斯勒網(wǎng)格點的數(shù)量;在xx%對比度的受損的視野的相對面積:在給定的阿姆斯勒網(wǎng)格對比度標記為不可見的阿姆斯勒網(wǎng)格點的數(shù)量除以在給定的以[百分比]表示的阿姆斯勒網(wǎng)格對比度的可用測試位置的全部數(shù)量;絕對視覺山(hill-of-vision)“體積”損失:不可見的視野面積的總和乘以各自的以[deg2百分比]形式測量的測試對比度水平(以%形式)。相對視覺山“體積”損失:絕對體積損失除以以[百分比]形式測量的全部測試視覺山。損失面積等級(lag):在最高測試對比度水平的現(xiàn)有盲區(qū)面積除以在最低測試對比度水平的現(xiàn)有盲區(qū)面積,乘以以[百分比]對比度形式測量的實際盲區(qū)深度。保存面積等級(pag):在最低測試對比度水平的現(xiàn)有保存的視野面積除以在最高測試對比度水平的現(xiàn)有保存的視野面積,乘以以[百分比]對比度形式測量的實際盲區(qū)深度。損失面積等級倒數(shù)(ilag):在最低測試對比度水平的現(xiàn)有盲區(qū)面積除以在最高測試對比度水平的現(xiàn)有盲區(qū)面積,乘以以[百分比]對比度形式測量的實際盲區(qū)深度。保存面積等級倒數(shù)(ipag):在最高測試對比度水平的現(xiàn)有保存的視野面積除以在最低測試對比度水平的現(xiàn)有保存的視野面積,乘以以[百分比]對比度形式測量的實際盲區(qū)深度。上面的特征指數(shù)使被檢者的視野的時變的定性分析和定量分析成為可能。存在以上列出的指數(shù)和本領域技術人員已知的其它指數(shù)的修改的實施例。在下文中,將使用視野測試的實例來描述agfa的不同特性。本領域技術人員將理解,雖然用特定的實例描述了agfa方法,但是可預期不同的應用。在一些實施例中,agfa可包括標志計算的步驟。標志計算步驟可包括特征向量歸一化過程。特征向量歸一化過程agfa可用于分析對象。例如,對象可以是視野數(shù)據(jù)集、圖像中的巖石等。每個對象可具有分配的帶全部特征分量值的特征(分量)向量。換句話說,特征向量可包括不同的分量,每個分量具有特定的值。特征分量值可具有不同的范圍(按照最大值和最小值)。此外,特征分量可具有離散值或連續(xù)值。為了比較圖像中的對象,有必要對它們進行歸一化,以便使特征分量值獨立于特征中的分量的范圍和數(shù)量。換句話說,可給對象分配特征向量。特征向量可包括不同的分量。每個分量可具有不同于其它分量的一定的范圍。為了比較特征向量,可以有利地歸一化每個分量的范圍以使比較特征向量成為可能。例如,基于兩個特征,諸如顏色(r、g、b分量,每個具有整數(shù)值范圍[0,255])和傾斜度(具有僅一個分量且實際值范圍[0,1]),比較兩個對象是不可能的。在該實例中,如相比于傾斜度特征,顏色特征具有三倍數(shù)量的分量。因此,如果基于分量的數(shù)量分配權重,則顏色特征將具有三倍于傾斜度特征的權重。此外,相比于傾斜度特征的[0,1],每個顏色分量將具有[0,255]的范圍。因此,顏色分量可貢獻比傾斜度高的255倍權重。為了克服這個問題,可應用三步歸一化過程,以便歸一化每個分量到[0,1]的范圍。該歸一化過程也使得該比較獨立于特征中的分量的數(shù)量。在一些實施例中,在歸一化的第一步中,被稱為最小-最大歸一化,使用下面公式將特征分量值轉(zhuǎn)換為[0,1]的實際值范圍內(nèi):其中,f1ij是第i個對象和第j個特征分量的最小-最大歸一化值,origfij是第i個對象的第j個原特征分量值,minfj和maxfj是第j個特征分量的最小值和最大值。每個特征分量的最小值和最大值可以是關于模型內(nèi)的特征的理論范圍,例如,對于rgb顏色,范圍為[0,255]。在其它實施例中,最小值和最大值可以是理論范圍的特定子集范圍,例如對于在對象的特定集合中的rgb顏色,最小值和最大值可以是理論范圍的特定子集范圍[20,120],其中不存在低于20或高于120的值。在又一些其它實施例中,最小值和最大值可以是用戶定義的。在歸一化的第二步中,其也可被稱為特征維度歸一化,每個特征分量值可通過以下公式除以在該特征中分量的數(shù)量:其中f2ij是第i個對象和第j個特征分量的特征維度歸一化值,且nj是第j個特征的維度數(shù)量。在歸一化的第三步中,其也被稱為絕對歸一化,應用下面的公式:上述三個歸一化步驟確保特征值在實際值范圍[0,1]內(nèi),并獨立于分量的數(shù)量。這確保了每個特征分量值在對象的特征分析中發(fā)揮相同作用,例如,以確定對象是否是異常的。在特征向量歸一化過程之后,標志計算步驟可包括有序聚類。有序聚類在一些實施例中,在先前步驟中獲得的特征分量向量可表征圖像中的對象。針對確定一個對象或多個對象是否異常的下一個步驟是將對象分類到不同的組中。在一個實施例中,可應用有序聚類方法,其實時將輸入的向量分組到自然數(shù)數(shù)目的聚類中。這種方法優(yōu)于其它聚類方法(如k-均值聚類)的可能的優(yōu)點是不需要提供向量將被分組成的聚類的數(shù)量。該方法不僅對向量進行聚類,而且確定聚類的自然數(shù)數(shù)目。存在可使用的其它(監(jiān)督或無監(jiān)督)聚類方法,例如水平集合分析。這種算法自動根據(jù)數(shù)據(jù)本身確定聚類的自然數(shù)數(shù)目,并為本領域技術人員所熟知。如本領域技術人員所熟知的,基本有序聚類方法包括單個閾值,具有與聚類中心的距離低于該閾值的向量被分組到特定聚類中,基本上一遍(onepass)聚類所有向量。在一些實施例中,本公開內(nèi)容中實現(xiàn)的有序聚類方法不同于所述基本方法,其實質(zhì)在于,存在兩個閾值,并且聚類所有向量的遍數(shù)可多于一遍。在有序聚類的基本形式中,第一輸入向量被分類成第一聚類,且也成為它的中心。如果向量到特定聚類中心之間的距離低于預先定義的閾值,則下一個輸入向量被分類到現(xiàn)有聚類中的一個,且如果向量到特定聚類中心之間的距離不低于預先定義的閾值,則向量被分類到新的聚類。本方法的可能的缺點是聚類的構造和聚類的成員取決于向量在其中到達的順序,因為所有的向量在一遍中被聚類。另一個可能的缺點是,閾值的選擇影響結果,即,改變閾值產(chǎn)生不同數(shù)量的聚類或帶不同成員的相同數(shù)量的聚類。在本公開內(nèi)容的一些實施例中,應用不同的方法,當計算向量和聚類中心之間的距離時其考慮歐幾里得距離。其構成了標準有序聚類方法的改進版本。在本公開內(nèi)容中,該改進方法可被稱為確定性有序聚類。在確定性有序聚類中,選擇兩個閾值t1和t2(t2>t1),使得如果向量f3i和最近的聚類中心cj之間的歐幾里德距離d(f3i,cj)低于t1,則向量屬于相應的聚類。如果d(f3i,cj)高于t2,則向量f3i不屬于聚類cj。然而,如果t1<d(f3i,cj)<t2,則向量f3i不一定屬于cj,并推遲對其分類。兩個閾值的引入克服了選擇只有一個最能反映該數(shù)據(jù)的閾值的值的難度。此外,在不確定情況下推遲向量的分類導致了多遍的情況,并且克服了由于輸入數(shù)據(jù)或向量的順序引起的可能的缺點。例如,在1989年的patternrecognition的22:449-53中的trahaniasp等人的anefficientsequentialclusteringmethod中描述了確定性有序聚類,其公開內(nèi)容通過引用以其整體并入本文。在其它實施例中,也可使用k均值聚類,然而其與有序聚類不同,要求事先提供聚類的數(shù)量。有序聚類之后,標志計算步驟可包括主分量分析。主分量分析在上一部分中解釋的特征分量向量的聚類可根據(jù)在圖像和數(shù)據(jù)集中檢測的其它對象來提供關于處于異常的任何對象的信息。該異??梢允翘卣髦械娜魏我粋€特征或一組特征或特征的組合(例如,“指紋”)。然而,該方法可不必能夠確定異常是否對進一步研究的興趣是真實的。圖2示出了作為聚類的示意性實例的幾何形狀的集合。在圖2中,每個幾何形狀代表一個對象。在圖2中,對象(201、202、203、204、206、207、208、210、211、212、213)由于它們具有相似的形狀所以可聚類在一起,而對象號(205)是例外,其具有與其它對象(201、202、203、204、206、207、208、210、211、212、213)相似的形狀,但具有不同的圖案或紋理,且對象號(209)也是例外,其具有不同于其它對象(201、202、203、204、206、207、208、210、211、212、213)的形狀。因此,兩個對象(205、209)不應與剩余的對象(201、202、203、204、206、207、208、210、211、212、213)聚類。兩個對象(205、209)是異常的,并應聚類到其自身。根據(jù)對圖2的人類視覺檢查,可能理解對象(205、209)具有不同的形狀或圖案或紋理。然而,就其意義而言,沒有人類視覺檢查的自動聚類方法,不指定什么程度的異常為“真”異常。換句話說,對象(205)的圖案或紋理異?;?qū)ο?209)的形狀異常是否對于進一步研究具有任何真實意義,且如果具有任何真實意義,到什么程度。因此,異常的意義不能脫離聚類步驟單獨量化??赏ㄟ^主分量分析步驟執(zhí)行異常意義的這種量化。在其它實例中,可存在其它差異,諸如顏色而不是圖案或紋理。主分量分析(pca)可定義為正交線性變換,其將數(shù)據(jù)變換到新的坐標系,使得由該數(shù)據(jù)的任何投影的最大方差位于第一坐標(稱為第一主分量),第二最大方差在第二主分量上,等等。這種方法對于本領域技術人員是已知的,并且,例如在2002年的wileyonlinelibrary的jolliffei.t.的principalcomponentanalysis中進行了描述,其公開內(nèi)容通過引用以其整體并入本文。主分量的數(shù)量不大于變量或向量的數(shù)量。目的在于確定每個聚類的第一主分量,其可表示用于在特征向量空間中沿著該分量或這些分量的方向的特征向量的組成分量或多個組成分量的最大方差。在圖2中的對象的聚類在表1中詳細說明。表1:使用確定性有序聚類獲得的聚類和關于在圖2中的對象的特征分量向量的對應成員。所用的閾值為t1=0.15和t2=0.17。聚類號屬于聚類的對象號1201、202、203、204、206、207、208、210、211、212、21322053209在圖2的對象的實例中,目的是確定每個聚類的第一主分量。特征分量值的數(shù)量n變?yōu)樘卣鞣至肯蛄康木S度。如果f是m×n的矩陣,其中m是在聚類中的特征分量向量的數(shù)量,且每個向量形成矩陣的一行,則用于評估主分量的典型方法是分解f的協(xié)方差矩陣以確定其特征值和特征向量。例如,在1992年的cambridgeuniversitypress的press等人的numericalrecipesinc中,可找到這個過程的實例,其公開內(nèi)容通過引用以其整體并入本文。特征向量是沿著主分量的單位向量,且特征值是其對應的大小。使用以下公式,利用單值分解(singlevaluedecomposition)可確定特征向量和特征值:covf=u*d*v'其中covf是矩陣f的n×n的協(xié)方差矩陣,u是矩陣covf的特征向量的n×n的酉矩陣,d是具有n個對角線值為特征值的n×m的矩形對角矩陣,而v'是m×n的酉矩陣。最大特征值是聚類的第一主分量的大小,換句話說,最大特征值量化具有在該聚類內(nèi)的向量的最大方差的方向。特征值是特征向量的長度,其中,特征向量給出了聚類的主分量的最大方差的方向。例如,表2給出了表1和圖2的聚類的最大特征值。表2:使用表1中的確定性有序聚類確定的聚類中的每個聚類的最大特征值。為了確定兩個聚類是否不相交,可在特征空間中進行聚類中心之間的歐幾里德距離與每個聚類的最大特征值的總和的比較。如果歐幾里得距離小于總和,則兩個聚類重疊,如果歐幾里得距離不小于總和,則這兩個聚類在特征空間上是不相交的。在另一個實施例中,屬于各個特征值的相應的特征向量可投影到兩個聚類之間的各自距離向量上,以獲得更準確的距離測量值。如果兩個聚類是不相交的,即,該歐幾里得距離小于最大特征值的總和,則很可能屬于聚類之一的對象與屬于其它聚類的對象關于它們的特征顯著不同。如果聚類重疊,則沒有異常。該性質(zhì)可通過距離標志進行量化;如果聚類是不相交的,則距離標志可設置為紅色(用數(shù)字表示,例如,值1),且如果聚類重疊,則距離標志可設置為綠色(用數(shù)字表示,例如,值0)。繼續(xù)表1和2的實例,表3給出了表2的三個聚類之間的成對關系的距離標志值。從表3中可見,所有聚類各自不相交,因為它們距離標志具有值1。本領域技術人員將理解,不同的值可用于說明聚類是不相交的。例如,在一些實施例中,距離標志可設置為0以說明不相交的聚類,或在又一個實施例中,距離標志可取與重疊或分離的程度成比例的連續(xù)值(例如,0和1之間)。在一些實施例中,可采用不同類型的距離代替歐幾里得距離。表3:使用表1中的確定性有序聚類確定的聚類對之間的距離標志。聚類號碼聚類號碼距離標志121131231聚類是否是異常的不一定由距離標志單獨決定??杉俣?,具有較少數(shù)量的對象的聚類是異常的且該性質(zhì)可由數(shù)量標志來表示。例如,如果在聚類中的對象的數(shù)量小于其它聚類中的對象的數(shù)量的10%(例如,用戶定義的閾值),則數(shù)量標志可設置為紅色(用數(shù)字表示,例如,值1),否則數(shù)量標志可設置為綠色(用數(shù)字表示,例如,值0)。繼續(xù)表3的實例,該步驟的結果在表4中詳細說明。從表4可見,聚類1和2的數(shù)量標志是1,聚類1和3的數(shù)量標志是1,且聚類2和3的數(shù)量標志是0。在其它實施例中,對于數(shù)量標志可使用不同的值。在一些實施例中,可使用不同的閾值。例如,該閾值可以是20%而不是10%,或甚至不同于10%或20%的另一個所選的值。在另一個實施例中,數(shù)量標志可取反映一個聚類和另一個聚類之間的聚類成員的數(shù)量的比例的連續(xù)值(例如,在0和1之間)。表4:使用表1中的確定性有序聚類確定的聚類對之間的數(shù)量標志。聚類號碼聚類號碼數(shù)量標志121131230可基于每個不同的聚類對之間的距離和相應聚類的最大特征值的總和設置該距離標志。在其它實施例中,可使用不同的標志??苫诟鱾€聚類中的成員數(shù)量設置數(shù)量標志。在其它實施例中,可使用不同的標志。標志計算之后,特征向量的分析可應用于所期望的特定應用。例如,標志計算可應用于視野比較和時變分析。視野比較和時變分析為了視野分類目的,上述方法中得到的指數(shù),可一起用于形成特征向量,其是特定檢查結果(即,視野)的特征。其結果是,例如,用基于網(wǎng)頁的綜合視野測試和診斷系統(tǒng)評估的視野,可經(jīng)由它們各自的特征向量相互比較(在特征向量的適當歸一化后),并可檢測到異常。本公開內(nèi)容包括在按照上述方法(例如包括距離標志指數(shù)和數(shù)量標志指數(shù))確定這些向量之后,允許特征向量進行比較的優(yōu)勢??苫谧詣尤痔卣鞣治鰞x(agfa)由自動分類系統(tǒng)來執(zhí)行視野之間的比較、以及一組視野(諸如隨時間推移而獲得的特定患者的一組視野)之間的異常檢測。在視野數(shù)據(jù)分類的情況下,特征向量可包括本公開內(nèi)容中上面列出的相對特征指數(shù):不可見測試位置的相對#,相對于視覺山的體積損失、lag、ilag、pag、ipag。如與絕對特征指數(shù)相對,使用特征向量的相對特征指數(shù)的原因是得到的特征向量大部分獨立于各自的視野檢查規(guī)范,諸如測試的視野面積和呈現(xiàn)的對比度水平。另外,在不同的測試機器上用不同的檢測參數(shù)設置進行的不同視野的比較可能成為有問題的。在其它應用中,特征指數(shù)可不同于所列出的用于視場比較的那些特征指數(shù)。例如,本公開內(nèi)容中上述已列出的用于金融市場和其它應用的特征指數(shù)。對于視野比較的情況,特征向量可使被檢者視野的時變的定性分析和定量分析兩者成為可能。可通過計算下面每個被檢者的不同3d-ctag檢查結果之間的比可比量化特性來評估這些時變:重疊參數(shù):定義為兩個特征向量之間的范圍從-1到+1的n維標量積,用-1表示兩個視野彼此完全相反/不相似的情況,0表示兩個視野彼此正交的情況,并用+1表示兩個視野相同的情況,當然還包括在這些值之間的所有連續(xù)變化。重疊參數(shù)是兩個特征向量之間的相似性的量度。海明距離(hammingdistance):定義為特征向量分量之間的平方差之和,除以特征向量的維度n。海明距離總是>=0,且是兩個特征向量之間的相似性的量度。歐幾里得距離:定義為特征向量分量之間的平方差之和的平方根。歐幾里得距離總是>=0,且也是兩個特征向量之間的相似性的量度。此外,除其它聚類技術外,agfa還可執(zhí)行有序聚類以基于各自的特征向量將一個患者或幾個患者的視野檢查分組到相似的聚類中,并可隨后基于聚類間的比較執(zhí)行異常分析。異常被定義為特定的特征向量,或特定特征向量的分量(例如,不可見測試位置的相對#,相對于視覺山的體積損失、lag、ilag、pag、ipag),其與其它特征向量(或在其它特征向量中相同的分量)顯著不同。結合重疊參數(shù)、海明距離和歐幾里得距離,聚類和異常檢測可提供視野分類和比較的手段。此外,由agfa提供的該工具集可允許通過分析代表在給定時間的各個視野的基本特征向量來評估隨時間的推移(即,時變)的視野惡化或改善。特征向量也可用作到人工神經(jīng)網(wǎng)絡(諸如單層或多層感知器系統(tǒng),以及用于初步診斷生成的霍普菲爾德吸引子網(wǎng)絡)的輸入。特別地,霍普菲爾德吸引子網(wǎng)絡對在給定檢查站/設備上被測試的各個視野面積和幾何結構的適應是簡單的,因為無需關于給定的檢查站/設備的實際視野幾何結構做出霍普菲爾德吸引子網(wǎng)絡的神經(jīng)元的空間排列假設??陀^上推導的視野、盲區(qū)、以及視物變形特征數(shù)據(jù)可以:1、經(jīng)由統(tǒng)計方法和人工神經(jīng)網(wǎng)絡(例如參見,如在2004年第49(13)期的physmedbiol的第2799-2809頁的finkw的“neuralattractornetworkforapplicationinvisualfielddataclassification”中描述的視野分類神經(jīng)網(wǎng)絡的3d-ctag適應版本;其公開內(nèi)容通過引用以其整體并入本文)概率預測疾病。2、使用來源于自主行星探索的分類方法,表示隨著時間變化的患者視野中的定性和定量的時變二者(參見例如,自動全局特征分析器agfa(fink等人,2005;fink等人,2008);其公開內(nèi)容通過引用以其整體并入本文)。同樣地,成熟的綜合視野測試和診斷系統(tǒng)能夠:1、檢測和診斷早期影響視覺性能的條件,允許治療對策的及時應用;2、監(jiān)測隨著時間推移的條件的治療性處理的效率和效能。在本公開內(nèi)容中所描述的方法可以是通過硬件設備來實現(xiàn)的計算機。這種硬件設備可包括處理器和存儲器,以及多個傳感器。如本領域技術人員所理解的,傳感器可包括多種不同的傳感器。例如,攝像機傳感器、放射性傳感器、磁傳感器、電傳感器、化學傳感器、紅外傳感器、光譜分析儀、質(zhì)譜傳感器、壓力傳感器、濕度傳感器、血糖傳感器、溫度傳感器、地震傳感器、鹽度傳感器、速度傳感器和加速度計、電壓表、磁力計等。在一些實施例中,硬件設備可稱為感測和分析設備。在一些實施例中,該設備可以是智能電話或平板電腦。圖3示出了示例性感測和分析設備,包括處理器(305)、存儲器(310)和多個傳感器(320、325、330、335、340、345)。圖4是用于實施圖1和2的實施例的目標硬件(10)(例如,計算機系統(tǒng))的示例性實施例。該目標硬件包括處理器(15)、內(nèi)存條(20)、本地接口總線(35)和一個或多個輸入/輸出設備(40)。處理器可執(zhí)行關于圖1和2的實現(xiàn)的且如基于存儲在存儲器(20)中的一些可執(zhí)行程序(30)由操作系統(tǒng)(25)提供的一個或多個指令。這些指令經(jīng)由本地接口(35)被傳送至處理器(15),并如由特定于本地接口和所述處理器(15)的某些數(shù)據(jù)接口協(xié)議制定。應注意的是,本地接口(35)是一些元件的符號表示,諸如一般針對在基于處理器的系統(tǒng)的多個元件之間提供地址、控制和/或數(shù)據(jù)連接的控制器、緩存(高速緩存)、驅(qū)動器、中繼器和接收器。在一些實施例中,處理器(15)可裝配有一些本地存儲器(高速緩存),其中其可存儲將被執(zhí)行以增加一些執(zhí)行速度的指令中的一些指令。通過處理器執(zhí)行指令可能需要使用一些輸入/輸出設備(40),諸如從存儲在硬盤上的文件的輸入數(shù)據(jù)、從鍵盤輸入命令、從觸摸屏輸入數(shù)據(jù)和/或命令、將數(shù)據(jù)輸出到顯示器、或?qū)?shù)據(jù)輸出到usb閃存驅(qū)動器。在一些實施例中,操作系統(tǒng)(25)通過作為中心元件,來收集程序執(zhí)行所需的各種數(shù)據(jù)和命令并提供這些數(shù)據(jù)和命令到微處理器來促進這些任務。在一些實施例中,雖然目標硬件設備(10)的基本架構將如在圖4中所描述的保持不變,但可不存在操作系統(tǒng),且所有任務在處理器(15)的直接控制下。在一些實施例中,可并行配置使用多個處理器以提高執(zhí)行速度。在這種情況下,可以專門為并行執(zhí)行定制可執(zhí)行的程序。此外,在一些實施例中,處理器(15)可執(zhí)行圖1和圖2的實施的一部分,且可使用放置在由目標硬件(10)經(jīng)由本地接口(35)可訪問的輸入/輸入位置的專門硬件/固件來實施某個其它部分。目標硬件(10)可包括多個可執(zhí)行程序(30),其中每個都可獨立地或以彼此組合的方式運行。在本公開內(nèi)容中描述的方法和系統(tǒng)可在硬件、軟件、固件或它們的任意組合中實施。描述為框、模塊或部件的特征可一起(例如,在邏輯設備(諸如集成邏輯設備)中)或單獨(例如,作為單獨連接的邏輯設備)實施。本公開內(nèi)容的方法的軟件部分可包括計算機可讀介質(zhì),其包括指令,當執(zhí)行時其執(zhí)行至少一部分所描述的方法。該計算機可讀介質(zhì)可包括,例如,隨機存取存儲器(ram)和/或只讀存儲器(rom)。該指令可由處理器(例如,數(shù)字信號處理器(dsp)、專用集成電路(asic)、現(xiàn)場可編程邏輯陣列(fpga)、圖形處理單元(gpu)或通用gpu)執(zhí)行。已經(jīng)描述了本公開的一些實施例。然而,應理解的是,可做出各種修改而不脫離本公開內(nèi)容的精神和范圍。因此,其它實施例在所附權利要求的范圍之內(nèi)。提供以上所闡述的實例給本領域普通技術人員,作為如何制造和使用本公開內(nèi)容的實施例的完整的公開和描述,且不旨在限制一個發(fā)明者/多個發(fā)明者視為其公開內(nèi)容的范圍。對于本領域技術人員是明顯的以上描述的用于執(zhí)行本文公開的方法和系統(tǒng)的模式的修改旨在處于所附權利要求的范圍之內(nèi)。在說明書中提到的所有專利和出版物表明本公開內(nèi)容所屬的
技術領域:
的技術人員的技術水平。在本公開內(nèi)容中引用的所有參考通過引用并入到如同每個參考已經(jīng)通過引用以其整體單獨地并入的相同程度。應當理解的是,本公開內(nèi)容并不限于特定的方法或系統(tǒng),其當然可以變化。還應當理解的是,本文所用的術語僅用于描述特定實施例的目的,并不旨在進行限制。如在本說明書和所附權利要求中使用的,單數(shù)形式“一(a)”、“一個(an)”和“該(the)”包括復數(shù)的參照對象,除非內(nèi)容另有明確說明。術語“多個”包括兩個或多于兩個參照對象,除非內(nèi)容另有明確說明。除非另有定義,否則本文使用的所有技術和科學術語具有如本公開內(nèi)容所屬的
技術領域:
的一個普通技術人員通常理解的相同含義。當前第1頁12