專利名稱:用分級顯像法觀察多維數(shù)據(jù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多維數(shù)據(jù)的處理。尤其是本發(fā)明涉及通過分級顯像法來分析多維數(shù)據(jù)。
背景技術(shù):
當(dāng)今信息時代大量使用了計算機和其他信息通信裝置,可以經(jīng)常從大量資源中搜集數(shù)據(jù)。另外,許多數(shù)據(jù)庫里也存在大量數(shù)據(jù)。大多數(shù)收集來的數(shù)據(jù)僅用作建檔的目的,并因此大多數(shù)情況下都是沒有經(jīng)過整理地存儲。從大量多維、并且可能是無條理的數(shù)據(jù)中(可能包括非數(shù)值數(shù)據(jù))篩選提取出對特定用途有用的信息是一項重要的挑戰(zhàn)。
例如目前商業(yè)上有持續(xù)增長的需求,就是為了保持其在商業(yè)市場上的競爭力,能夠有效地分析他們和/或其他人收集的數(shù)據(jù)并從中提取有用信息,以及用提取出的信息來改進(jìn)商業(yè)運作。但是這一般是很艱苦的工作。因為收集到的數(shù)據(jù)一般有很多領(lǐng)域(換句話說,即許多維度),很難理解收集到的多維數(shù)據(jù)巨大主體的含義。
考慮到多維數(shù)據(jù)能夠便于理解數(shù)據(jù)的目的,希望能得到如下問題的答案(i)數(shù)據(jù)點相對于其他數(shù)據(jù)點的位置在哪里?(ii)數(shù)據(jù)點周圍的環(huán)境如何?(iii)對于時序數(shù)據(jù),系統(tǒng)是如何隨著時間變化的?(iv)如何用搜尋到的數(shù)據(jù)表示系統(tǒng)?(v)如何用優(yōu)化的數(shù)據(jù)表示系統(tǒng)?數(shù)據(jù)點之間的距離能夠為這些和數(shù)據(jù)點有關(guān)的問題(如上述問題)提供有價值的信息。在大多數(shù)情況下,能夠很容易地計算出兩個數(shù)據(jù)點之間的距離。即使是非數(shù)值數(shù)據(jù),也能限定并測定出距離或差異。
但是含有大量數(shù)據(jù)點的數(shù)據(jù)集可能存在一個問題。盡管能夠?qū)?shù)據(jù)集中的每個數(shù)據(jù)點和每對數(shù)據(jù)點計算出各個成對的距離,但是得到的距離集也還是一個巨大的多維數(shù)據(jù)集,并且其含義不一定比數(shù)據(jù)點容易理解。
可以用統(tǒng)計方法從數(shù)據(jù)集中搜集一些信息,例如用市場分析來發(fā)現(xiàn)相關(guān)規(guī)則。但是統(tǒng)計分析一般只能提供有關(guān)數(shù)據(jù)集整體的一些特征信息,而仍無法回答考慮了特定數(shù)據(jù)點的問題,例如上述問題(i)-(v)。
可以用群集法(Clustering)把數(shù)據(jù)集中的數(shù)據(jù)點分離成各個群集,能夠推斷出其圖樣間關(guān)系。同一群集內(nèi)的數(shù)據(jù)點一般來說認(rèn)為是互相靠近的,盡管這并不是必需的。例如,這種假設(shè)對于遠(yuǎn)離群集中心的數(shù)據(jù)點是容易令人誤解的。圖1中描述了一個實例。群集1中的A點比起群集1中的C點實際上更靠近群集2中的B點。因此盡管A點和C點在同一群集內(nèi),也可能A點和B點更相似。
對很大的數(shù)據(jù)集進(jìn)行分析時,數(shù)據(jù)的良好可視性能夠?qū)斫鈹?shù)據(jù)起到很重要的作用。圖1顯示了一個用顯像(visualization)很好理解數(shù)據(jù)的實例。人們收集的大多數(shù)信息常常通過顯像獲得。一般來說,視覺收集到的信息量是其他四種感覺總共收集的信息量的幾倍。人們還擁有比常規(guī)計算機更快速識別圖像的主要特征的突出能力。因此對很大的數(shù)據(jù)集的分析中,對多維數(shù)據(jù)良好的顯像能夠幫助理解數(shù)據(jù)。
常規(guī)的顯像技術(shù)用于理解二維(2-D)和三維(3-D)數(shù)據(jù)。例如傳統(tǒng)上,這些數(shù)據(jù)的分析過程是繪制數(shù)據(jù)點,用于確定數(shù)據(jù)是否能用線性、拋物線或其他適合數(shù)據(jù)的函數(shù)形式來描述,以及是否能夠用在數(shù)據(jù)的參數(shù)模型中?;诶L圖的數(shù)據(jù)分析技術(shù)經(jīng)常用來處理物理、化學(xué)或其他實驗中收集的數(shù)據(jù),其中繪圖作為數(shù)據(jù)的顯像并在尋找數(shù)據(jù)點之間關(guān)系時起到實質(zhì)上的作用。如果數(shù)據(jù)是2-D或3-D,例如僅有一或兩個變量參數(shù)的定義明確的實驗中的數(shù)據(jù),基于繪圖的數(shù)據(jù)分析技術(shù)可能是很有效的。
如果數(shù)據(jù)是從商業(yè)運作或社會環(huán)境中收集得來,一般來說要同時追蹤許多參數(shù),因此會收集到高維(大于三維)的巨大數(shù)據(jù)集。高維數(shù)據(jù)集中的數(shù)據(jù)點不能用常規(guī)的信息媒介(例如計算機控制的數(shù)據(jù)設(shè)備,如打印機、繪圖儀、顯示器等)直接繪制。
曾經(jīng)有提議用減維技術(shù)對整個多維數(shù)據(jù)集作單視圖(下文中稱為“單鏡頭拍攝(one-shot)”)。但是減維后的單視圖不能提供獲得所需結(jié)果的充分顯像,例如多維數(shù)據(jù)空間中特定區(qū)域內(nèi)的不同群集數(shù)據(jù)點的分離。
另外一種已知用于分析多維數(shù)據(jù)集的技術(shù)包括從數(shù)據(jù)集中選擇兩個或三個域,并基于選定的域繪制數(shù)據(jù)點,然后對另幾個域的子集重復(fù)選擇和繪制步驟。通過檢測各個域(即維數(shù))的相應(yīng)子集的繪圖,能夠推斷出一些圖樣間關(guān)系的信息。但是選定維的繪圖僅能夠提供側(cè)視圖(與從任意角度觀測相對),而且基于察看多個側(cè)視圖來理解數(shù)據(jù)的分布也并不是容易的工作。例如大多數(shù)人在理解中度復(fù)雜的機器部件的三視圖紙時都存在困難。
因此通過上述的以及常規(guī)的視覺技術(shù)不能夠很容易地理解多維數(shù)據(jù)集中數(shù)據(jù)點之間的關(guān)系。
現(xiàn)在迫切需要一種能夠?qū)Χ嗑S數(shù)據(jù)集的整體及數(shù)據(jù)細(xì)節(jié)都能提供智能化視圖的顯像方法。
發(fā)明內(nèi)容
本發(fā)明提供了一種對于多維數(shù)據(jù)的分級顯像方法。實施例中,該方法包括(a)對多維數(shù)據(jù)集進(jìn)行第一次減維處理以得到第一個顯像,(b)從多維數(shù)據(jù)集中選擇與第一個減維顯像的選定區(qū)域相關(guān)的子集,以及(c)對選定的多維數(shù)據(jù)集的子集進(jìn)行第二次減維處理以獲得至少一個補充顯像。
補充顯像一般比第一個顯像具有更高的細(xì)節(jié)水平。對于進(jìn)一步的子集(即選擇子集的子集)重復(fù)(b)和(c)可以獲得更多細(xì)節(jié)化顯像的序列,直到獲得一個足夠細(xì)節(jié)化、并具有期望水平的分離點的減維顯像為止。例如可以選擇與選定區(qū)域中的子域相關(guān)的下一個子集,然后對于該子集重復(fù)(b)和(c)。與下一個子集相關(guān)的子域可能包括混合部分。與足夠細(xì)節(jié)化的顯像相關(guān)的“視角”能夠獲得該多維數(shù)據(jù)集的整體或部分視圖,這對于特定目的是很有利的。第一個顯像可能有一個視角,而補充顯像可能有不同的視角。
第二次減維處理可以使用和第一次減維處理中相同的減維技術(shù)??勺鬟x擇的,第二次減維處理和第一次減維處理也可以分別使用不同的減維技術(shù)。
減維處理包括采用連續(xù)減維技術(shù)以獲得減維顯像序列。該方法可能還包括從多維數(shù)據(jù)集中選擇至少兩個數(shù)據(jù)點用于距離預(yù)測。如果這兩個點在任何一個顯像中距離很遠(yuǎn),那么它們在原多維空間中也距離很遠(yuǎn)。而且,如果減維技術(shù)中使用了PCA(主元素分析),減維距離中最大值是原空間中實際距離的估計下限。
該方法還包括使用了分級群集樹,通過為群集樹上每個節(jié)點按其需求產(chǎn)生顯像,用來產(chǎn)生分級顯像級,例如如果群集還包含了分類問題中的混合類別圖樣。
多維數(shù)據(jù)集可能包括非數(shù)值數(shù)據(jù),可以在減維之前預(yù)處理成數(shù)值格式。
補充顯像可以用測試集中的多維數(shù)據(jù)(或其他額外多維數(shù)據(jù),如當(dāng)前采集的數(shù)據(jù)),通過和第二次多維處理相應(yīng)的映射進(jìn)行鑒定。
作為結(jié)果的顯像在許多任務(wù)域中都很有用,如分級、分類、進(jìn)程監(jiān)測、搜尋和最優(yōu)化,等等,都在預(yù)處理時作為一種更為定量的方法以及另一種方法的結(jié)果的有效性。
例如,能夠根據(jù)和多維數(shù)據(jù)集相關(guān)的一個或多個特征采用該方法對數(shù)據(jù)集進(jìn)行分類。另一個實施例中可以在生產(chǎn)過程中采集多維數(shù)據(jù)集,且采用該方法獲得預(yù)測生產(chǎn)特性的信息。
另外,多維數(shù)據(jù)集可能對應(yīng)于系統(tǒng)收集的數(shù)據(jù)。使用該方法能夠獲得診斷系統(tǒng)故障時的信息或者在系統(tǒng)內(nèi)出現(xiàn)故障之前預(yù)測故障。可選地(或額外地),還可以使用該方法獲得系統(tǒng)最優(yōu)化或?qū)?yōu)的信息。
根據(jù)下面的詳細(xì)描述并參照其中的附圖能夠更清楚地了解本發(fā)明的特征圖1顯示了在一個示范性的二維數(shù)據(jù)空間內(nèi)群集的示圖;圖2A顯示了根據(jù)本發(fā)明的一個實施例對多維數(shù)據(jù)進(jìn)行分級顯像方法的流程圖;圖2B顯示了根據(jù)另一個實施例對多維數(shù)據(jù)進(jìn)行分級顯像方法的流程圖;圖3A顯示了一個示范性多維數(shù)據(jù)集的顯像框圖;圖3B顯示了圖3A中所示的顯像內(nèi)一個區(qū)域的減維顯像象框圖;圖3C顯示了圖3B中所示的顯像內(nèi)一個子區(qū)域的減維顯像框圖;圖4A顯示了第二個示范性多維數(shù)據(jù)集的顯像框圖;圖4B顯示了圖4A中所示的顯像內(nèi)一個區(qū)域的減維顯像框圖;圖4C顯示了圖4B中所示的顯像內(nèi)一個子區(qū)域的減維顯像框圖;圖4D顯示了圖4C中所示的顯像內(nèi)一個子區(qū)域的減維顯像框圖;圖4E顯示了用測試集的數(shù)據(jù)對圖4D中所示的顯像進(jìn)行鑒定的框圖。
具體實施例方式
本發(fā)明提供了用于通過分級顯像(下文中稱為“分級顯像方法”)分析多維數(shù)據(jù)集的工具(方法和系統(tǒng)的形式)。
分級顯像方法包括一個至少有兩個或多個不同細(xì)節(jié)水平的減維顯像。顯像中的區(qū)域的數(shù)據(jù)點(如子集)能夠被分離,并通過減維技術(shù)產(chǎn)生數(shù)據(jù)子集的新顯像??梢詫π嘛@像的子域(即子集的子集)重復(fù)數(shù)據(jù)點的分離過程以及用減維產(chǎn)生數(shù)據(jù)點組的顯像,一直到獲得了期望的細(xì)節(jié)水平(即數(shù)據(jù)點的分離)為止。顯像序列組成一個層次(下面將討論)并構(gòu)成分級顯像實例。層次中每一個顯像都有一個相應(yīng)的視角,能夠?qū)τ谔囟康奶峁┲饾u增強的測定能力。盡管層次中的顯像只基于數(shù)據(jù)集中的數(shù)據(jù)子集,仍可以用和特定減維顯像相應(yīng)的視角來觀察整個數(shù)據(jù)集,這在一些情況下對于特定的目的能夠提供更好的全局視圖(對于整個數(shù)據(jù)集)。
分級顯像方法能夠應(yīng)用于常規(guī)上采用單視圖顯像的任務(wù)域。使用分級顯像能夠提供新信息,其具有比單視圖技術(shù)更佳的測定能力。分級顯像能夠提供期望的細(xì)節(jié)水平的信息,并且它的計算能力也不比單視圖更復(fù)雜,因為其只對感興趣的區(qū)域(通常是混合區(qū)域,如不同類別的點混合在一起的區(qū)域)重復(fù)處理。
通過分級顯像,能夠回答(或至少暗示了明顯的答案)如示例問題(i)-(v)。前三個問題[(i)-(iii)]可以直接用分級顯像來解答。搜尋通常包括在選定提示點周圍發(fā)現(xiàn)最近點,而這也能用尋找近鄰點來實現(xiàn)。最后一個問題(v)的答案能夠通過對分級顯像進(jìn)行靈敏度分析來獲得。靈敏度分析包括改變一個域的值同時保持其他域的值不變,并監(jiān)測數(shù)據(jù)點的變化。
可以列出許多可以使用的減維技術(shù),包括通過Karhunen-Loève(K-L)變換進(jìn)行線性主元分析(PCA),PCA的神經(jīng)網(wǎng)絡(luò)實現(xiàn),自組織映射(SOM),自聯(lián)想映射技術(shù),再生拓?fù)溆成?GTM),非線性變量保持(NLVC)映射以及正交量化映射(EOM),這些方法在美國專利No.5,734,796,6,134,537和6,212,509中進(jìn)行了描述,下文結(jié)合了它們作為參考,以及Sammon的非線性映射和神經(jīng)網(wǎng)絡(luò)實現(xiàn),J.W.Sammon Jr,“A nonlinear mapping for data structureanalysis,”IEEE Trans.Comput.,Vol.C-18,pp.401-409,1969,以及Y.H.Pao和Z.Meng描述的受約距離比率(DRC)映射,“Visualizationand the understanding of multidimensional data,”Eng.Applicat.Artif.Intell.,vol.11,pp.659-667,1998。
分級顯像是一種有效的技術(shù),能夠獲得高維數(shù)據(jù)集中圖樣之間的圖樣間位置關(guān)系信息。當(dāng)使用連續(xù)減維技術(shù)時,如果兩個數(shù)據(jù)點在層次中的任何一個顯像內(nèi)距離很遠(yuǎn),那么它們在原數(shù)據(jù)空間中也距離很遠(yuǎn)。尤其是如下所述,如果用PCA作為減維技術(shù),層次中的顯像內(nèi)的最大距離(兩個數(shù)據(jù)點之間)被認(rèn)為是原數(shù)據(jù)空間內(nèi)兩個數(shù)據(jù)點之間真實距離的下限。
顯像中的數(shù)據(jù)點可以用性質(zhì)、特性、特征等來修飾/注解。一系列顯像能夠把不同類別、性質(zhì)、特性、特征等的數(shù)據(jù)點在多維數(shù)據(jù)空間的特定區(qū)域內(nèi)進(jìn)行分離。
依據(jù)一個實施例參照圖2A描述一種對多維數(shù)據(jù)進(jìn)行分級顯像的方法。對多維數(shù)據(jù)集進(jìn)行第一次減維處理得到第一個顯像(步驟S21)。選擇第一減維顯像的一個區(qū)域,并確定與第一減維顯像的選定區(qū)域相關(guān)的多維數(shù)據(jù)集的子集(步驟S22)。對子集的數(shù)據(jù)進(jìn)行第二次減維處理以得到補充顯像(步驟S23)。如果補充減維顯像沒有足夠細(xì)節(jié)化(步驟S24),再選擇與補充減維顯像的一個子域相應(yīng)的下一個子集(步驟S25),然后對這個子集進(jìn)行減維處理以得到一個更細(xì)節(jié)化的顯像(步驟S23)。
第二次減維技術(shù)可以采用和第一次減維技術(shù)中相同的減維技術(shù)。可選地,第二次減維處理和第一次減維處理也可以分別使用不同的減維技術(shù)。
用減維技術(shù)也能夠獲得可以接受的多維數(shù)據(jù)的顯像。盡管許多情況下數(shù)據(jù)都是高維的,但很多領(lǐng)域都不是完全獨立的。許多領(lǐng)域的變化可能是由幾個參數(shù)變化引起的,而這些參數(shù)甚至可能不在該數(shù)據(jù)集內(nèi)。
例如當(dāng)聯(lián)邦儲備委員會調(diào)整利率時,大多數(shù)情況下利率調(diào)整會影響許多商業(yè)行為,而這會導(dǎo)致很多數(shù)據(jù)集的許多域發(fā)生變化。在這些示范性情況下,許多數(shù)據(jù)域發(fā)生變化的原因僅是聯(lián)邦儲備委員會的一個決定。一般來說,不建議用數(shù)據(jù)變化的原因(例如聯(lián)邦儲備委員會的決定)來注解收集的數(shù)據(jù)。
減維技術(shù)一般用于從高維數(shù)據(jù)中提取決定性的部分。然后將減維后的數(shù)據(jù)繪圖。因為幾乎所有的減維技術(shù)都能夠用于獲得數(shù)據(jù)顯像,對選定的目的(例如分類)產(chǎn)生單視圖不是很適合的。許多情況下用單個2-D或3-D顯像不能夠完全表示多維數(shù)據(jù)的決定性部分。另外,整個數(shù)據(jù)集的單視圖不能產(chǎn)生多維數(shù)據(jù)決定性部分的期望部分的正確重點,而這個重點能夠把數(shù)據(jù)點分離成期望的群集。
為了解決上述圖片中描述的兩難局面,本發(fā)明提供了分級顯像方法。依據(jù)一個實施例,分級顯像方法首先用合適的減維技術(shù)對整個數(shù)據(jù)集進(jìn)行單視圖顯像。在較高的水平下,當(dāng)映射的一些部分已經(jīng)達(dá)到期望特性(如分類問題中不同類別點的分離),有可能得到的映射對于一個或幾個其他區(qū)域還沒有很好的效果(如不同類別的點仍然混合在一起)。對于混合區(qū)域,挑選出區(qū)域內(nèi)數(shù)據(jù)點的子集,并產(chǎn)生子集的新顯像。這與將原顯像放大不相同,因為新顯像的參數(shù)僅根據(jù)選定區(qū)域的數(shù)據(jù)點進(jìn)行調(diào)整。
如果任何產(chǎn)生的顯像中不止一個區(qū)域要重復(fù)處理,就可以在該點產(chǎn)生顯像序列。不同細(xì)節(jié)水平的顯像集構(gòu)成了分級顯像。但是盡管層次中的顯像是基于數(shù)據(jù)子集,仍可以用和特定減維顯像相應(yīng)的視角來觀察整個數(shù)據(jù)集,在一些情況下對于特定的目的能夠提供更好的全局視圖。
可以對新顯像的子域重復(fù)選擇感興趣的子集并產(chǎn)生其新顯像的過程,直到獲得具有充分分離點的期望細(xì)節(jié)水平。為了獲得更精確的圖樣間關(guān)系表示,可以使用連續(xù)減維技術(shù)如K-L變換或EOM。當(dāng)使用連續(xù)減維技術(shù)來產(chǎn)生顯像時,如果兩個數(shù)據(jù)點在層次的任一個顯像中距離很遠(yuǎn),那么它們在原數(shù)據(jù)空間中也距離很遠(yuǎn),盡管反過來一般并不正確。因此如果連續(xù)減維方法中使用了PCA,層次的所有顯像中任意兩個選定點之間最大的距離認(rèn)為是它們在原空間中實際距離的下限。
上述命題的證明是非常直接的。對于數(shù)據(jù)集中的點p1,p2,原空間中的坐標(biāo)分別是[X11,x12,...,x1n]和[X21,x22,...,X2n],而轉(zhuǎn)換后的空間中的坐標(biāo)是[y11,y12,...,y1n]和[y21,y22,...,y2n]。可以用K-L變換產(chǎn)生轉(zhuǎn)換后的空間,這產(chǎn)生了提供了兩點之間最大距離d的顯像,并且y坐標(biāo)對應(yīng)于主元素的遞減序列。因為K-L變換是距離變量,如下的方程(1)成立(n是原空間的維數(shù))d=(x21-x11)2+(x22-x12)2+···+(x2n-x1n)2]]>=(y21-y11)2+(y22-y12)2+···+(y2n-y1n)2---(1)]]>減維顯像上兩個點之間的距離d’用如下的公式(2)表示(m是減維空間的維數(shù))d′=(y21-y11)2+(y22-y12)2+···+(y2m-y1m)2---(2)]]>因為m<n,顯然d’<d,即d’是d的下限。
因為可以依據(jù)實施例人工選擇混合區(qū)域,依據(jù)另一個實施例,使用分級群集樹并根據(jù)需求(例如,如果群集仍然存在分類問題的混合類別圖樣)對群集樹上每個節(jié)點產(chǎn)生顯像,能夠自動產(chǎn)生分級顯像,。優(yōu)點是能夠?qū)崿F(xiàn)自動處理。但是因為分級群集的配置可能小于最優(yōu)值,在一些情況下對不太感興趣的區(qū)域可能會產(chǎn)生大于必需數(shù)量的顯像。群集樹及其他群集(以及決策樹)技術(shù)的討論參見美國臨時申請No.60/374,020,標(biāo)題為“AUTOMATIC NEURAL-NET MODELGENERATION AND MAINTENANCE”,No.60/374,041,標(biāo)題為“METHOD AND APPARATUS FOR DISCVERINGEVOLUTIONARY CHANGES WITHIN A SYSTEM”,以及No.60/374,977,標(biāo)題為“AUTOMATIC MODEL MAINTENANCETHROUGH LOCAL NETS”。
許多情況下多維數(shù)據(jù)集都是感興趣的數(shù)據(jù),并且是顯像任務(wù)的最終目標(biāo)。但是在其他情況下,初始數(shù)據(jù)集(例如從現(xiàn)在正在監(jiān)測的系統(tǒng)或進(jìn)程中采集的歷史數(shù)據(jù))可以離線使用,通過分級顯像方法用于識別與相應(yīng)視角一致的合適的減維顯像。然后用從感興趣的進(jìn)程或系統(tǒng)采集的補充數(shù)據(jù)(例如見圖2B)對相應(yīng)視角的顯像進(jìn)行在線鑒定。所述鑒定可用來例如診斷或預(yù)測進(jìn)程或系統(tǒng)中的故障,或者用來把進(jìn)程或系統(tǒng)最優(yōu)化。
相比單視圖顯像技術(shù),分級顯像有著明顯的優(yōu)點,其能夠按照需求提供更細(xì)節(jié)化的信息。另外,分級顯像比起單視圖顯像中使用的基本減維方法,并沒有更大的計算強度,因為僅對混合區(qū)域做循環(huán)處理。
對于單視圖顯像技術(shù),分級顯像可以應(yīng)用到許多任務(wù)領(lǐng)域,如分級,分類,進(jìn)程監(jiān)測以及最優(yōu)化等等。分級顯像尤其適于量化預(yù)測和決策。尤其是顯像中數(shù)據(jù)分布易于預(yù)測的優(yōu)點使其對于連續(xù)更定量的處理方法在選擇操作范圍時非常有用。當(dāng)待選的數(shù)據(jù)點繪制在顯像圖上,可以根據(jù)其近鄰點的特性快速預(yù)測出它的穩(wěn)定性。顯像方法的其他應(yīng)用在美國專利No.5,734,796,6,134,537和6,212,509中進(jìn)行了描述和/或建議,這里將其內(nèi)容作為參考。
下面討論幾個實例。提供實例的目的在于理解本發(fā)明的主題,但并不傾向于也不應(yīng)該直譯為限制在下文中權(quán)利要求的范圍內(nèi)。
化合物構(gòu)成實例第一個實例涉及預(yù)測具有三種成分元素的化合物構(gòu)成問題。每種元素的五個屬性構(gòu)成了15個特征的數(shù)據(jù)集。這五個屬性是電負(fù)度,價電子個數(shù),門捷列夫數(shù),熔解溫度以及Zunger半徑。
圖3A顯示了數(shù)據(jù)集的特定2-D顯像。在圖3A的圖中,用開圓來表示化合物構(gòu)成圖樣(下文中稱為“模板(former)”)。用黑實心圓來表示非模板。一些區(qū)域分別是模板或非模板占多數(shù)。如果未知圖樣落入這些區(qū)域中的一個,就很容易決策出這個新圖樣是模板或非模板。但是還是存在混合區(qū)域。表示新圖樣的灰圓位于混合區(qū)域中。還不能決策出其是模板還是非模板。因此圖3A中所示的單顯像不足以解決分類問題。為了確定灰圓的圖樣,采用了分級顯像方法。
圖3A中所示的新圖樣周圍矩形框內(nèi)的圖樣被選定,然后產(chǎn)生一個新的顯像,如圖3B所示。盡管圖3B顯示了該圖樣進(jìn)一步分成兩類,但混合區(qū)域內(nèi)仍然存在新圖樣,混合區(qū)域用矩形框劃界。
對圖3B中所示的矩形框內(nèi)的數(shù)據(jù)點進(jìn)行分級顯像遞歸應(yīng)用,產(chǎn)生了圖3C中所示的新顯像。圖3C中可以清楚看出新圖樣落入非模板的區(qū)域內(nèi),它更有可能是非模板。該圖樣的實際群集是非化合物構(gòu)成。
新聞實例第二個實例包括從新聞存儲庫中對選定新聞的分類。數(shù)據(jù)集是從新聞報導(dǎo)庫隨機選擇三個局部類別的新聞產(chǎn)生的。這三個局部類別是“crude”,“earn”和“ship”。選擇這三個主體是因為(a)它們是圖書館中超過一百個故事的幾個主題中的三個,并且(b)它們在概念上看起來相對較遠(yuǎn),因此希望它們在顯像上是可分離的。新聞分成了訓(xùn)練集和測試集。因為原始數(shù)據(jù)不是數(shù)值格式,它們先用路標(biāo)(signpost)變換方法進(jìn)行預(yù)處理,如美國臨時專利申請No.60/374,064中描述,標(biāo)題為“PROCESSING MIXED NUMERIC AND/ORNON-NUMRTIC DATA”,這里將其內(nèi)容作為參考。
訓(xùn)練集中新聞獲得的顯像如圖4A所示。黑圓表示主題“earn”的新聞,而灰色和開圓分別表示主題“crude”和“ship”的新聞。圖4A顯示了兩個截然不同的組,每個組中都有三個主題的新聞。在每個組中,能夠觀察到新聞基于主題的一定分離。較小的組表示只有題目沒有主題文字的所有新聞。圖4A的高水平視圖明顯強調(diào)了新聞主體是否含有文字的不同。但是目標(biāo)是在于區(qū)別不同主題的新聞,因此采用了分級顯像。
圖4B到圖4D示出了三個連續(xù)水平的分級顯像,每個顯像都是用前一個顯像中選定區(qū)域內(nèi)的圖形生成的。選擇更局域化的區(qū)域能夠?qū)⒉煌黝}的新聞進(jìn)行更好的分離。圖4B示出了基于圖4A中的矩形框內(nèi)圖形的新顯像。主題“crude”和“ship”以及一部分“earn”的新聞仍混合在圖4B內(nèi)的顯像中。
圖4C顯示了基于圖4B中的矩形框內(nèi)圖形的細(xì)節(jié)化級別更高的新顯像?;谥黝}進(jìn)行新聞分離就更明顯了。但是主題“ship”的新聞和一些主題“crude”和“earn”的新聞仍然很接近。
圖4D示出了基于圖4C中的矩形框內(nèi)圖形的細(xì)節(jié)化級別更高的新顯像。其能夠很好的基于主題進(jìn)行新聞分類,除了很少的幾個例外。
圖4D中的顯像用測試集的數(shù)據(jù)進(jìn)行鑒定。圖4E采用和圖4D相同的映射,測試集內(nèi)數(shù)據(jù)的圖形顯像。和圖4D相同,基于不同主題的新聞分類也是很明顯的??梢钥闯霰M管圖4D中的映射只基于數(shù)據(jù)集的一部分,與顯像相應(yīng)的特定視角實際上對于基于所有圖形預(yù)測新聞主題的目的很有用。圖4D中的不同主題的相同類型的新聞分類可以再用新的新聞進(jìn)行觀察。
上述討論的實例闡釋了分級顯像提供的數(shù)據(jù)分布預(yù)測和數(shù)據(jù)穩(wěn)定性能夠延伸到以前未確定的問題。
例如現(xiàn)在信息時代中大多數(shù)混雜的數(shù)據(jù)是包括非數(shù)值數(shù)據(jù)的混合數(shù)據(jù)。對混合數(shù)據(jù)進(jìn)行分析是非常困難的,尤其是數(shù)據(jù)來自不同數(shù)據(jù)源時?;ゲ幌嗤姆菙?shù)值數(shù)據(jù)圖樣可能有相似的含義和/或效果。如上所述,可以使用分級顯像,混合數(shù)據(jù)經(jīng)過路標(biāo)變換成數(shù)值格式進(jìn)行預(yù)處理后再進(jìn)行分級顯像,以獲得數(shù)據(jù)的更智能化的減維顯像。
另一個實例中,進(jìn)程(或系統(tǒng))監(jiān)測一般是困難的任務(wù),其包括對多維數(shù)據(jù)的監(jiān)測(例如公司環(huán)境中的進(jìn)程或系統(tǒng)中收集來的)。如化合物構(gòu)成實例所闡釋,可以用分級顯像方法來預(yù)測進(jìn)程或系統(tǒng)產(chǎn)生的產(chǎn)品特性。另外,許多情況下,它對調(diào)整進(jìn)程或系統(tǒng)的選點也很有用,例如當(dāng)進(jìn)程或系統(tǒng)出現(xiàn)故障時,基于多維進(jìn)程數(shù)據(jù)樣本的測試來診斷或預(yù)測這種故障??梢詫v史進(jìn)程數(shù)據(jù)進(jìn)行分級顯像(如離線),用相應(yīng)視角來識別進(jìn)程數(shù)據(jù)的減維顯像,能夠?qū)收线M(jìn)行就緒診斷或預(yù)測。隨后帶有相應(yīng)視角的顯像可以用于在線系統(tǒng)中,用于實時(或偽實時)進(jìn)程數(shù)據(jù)的驗證。
分級顯像在需要分析多維數(shù)據(jù)的商業(yè)周期的其他階段也很有用,包括設(shè)計,工程,開發(fā),市場,銷售,訓(xùn)練,支持和客戶支持。另外,可以使用分級顯像對不同工業(yè)的多維數(shù)據(jù)進(jìn)行分析,包括零售,技術(shù),汽車,金融服務(wù),保健和醫(yī)療,電子商務(wù)等。
本發(fā)明的分級顯像方法能集成到軟件實現(xiàn)的系統(tǒng)中,也能嵌入一個或多個存儲在傳統(tǒng)程序存儲設(shè)備或計算機可讀介質(zhì)上的計算機程序或軟件模塊,和/或由計算機網(wǎng)絡(luò)或其他傳輸介質(zhì)進(jìn)行傳輸。分級顯像方法可以和圖形建模和/或表示程序進(jìn)行結(jié)合,其能夠通過用戶交互提供透視選擇性(例如,可旋轉(zhuǎn)的。從而用戶能夠從用戶選定的透視圖觀察多維數(shù)據(jù)集的減維(如3-D)顯像。
分級顯像方法可以集成到預(yù)測分析系統(tǒng)和軟件中。例如,可以把預(yù)測分析軟件用于旅館業(yè)收集到的多維數(shù)據(jù)。旅館商業(yè)能夠用預(yù)測分析軟件來預(yù)測作為配套因子(如價格,舒適度,一年中的時段等)的函數(shù)的上座率。一般來說期望能觀察到數(shù)據(jù)內(nèi)容中的預(yù)測上座率。但是因為數(shù)據(jù)包括了很多會影響旅館數(shù)量的因子,不可能(或至少在實際上)用單個多維視圖表示多維數(shù)據(jù)。很明顯從上述討論中,能夠用分級顯像方法來確定適于研究預(yù)測占座率的減維顯像。旅館業(yè)數(shù)據(jù)的減維顯像能夠用于偽實時選擇旅館商業(yè)的合適價格,這能夠使得旅館得到足夠的上座率同時又有最優(yōu)的效益。
上述特定實施例是例證性的,而對這些實施例進(jìn)行許多修正也不會偏離本發(fā)明的主旨或所附權(quán)利要求書的范圍。不同例證性的實施例的原理和/或特征可以互相結(jié)合和/或互相取代,這都沒有超出所附權(quán)利要求書的范圍。
對于本領(lǐng)域技術(shù)人員閱讀下列美國申請,其他修正也是很明顯的,此處這些申請的內(nèi)容作為參考(a)序列號60/374,064,2002年4月19日提交,標(biāo)題為“PROCESSING MIXED NUMERIC AND/OR NON-NUMERICDATA”;(b)序列號60/374,020,2002年4月19日提交,標(biāo)題為“AUTOMATIC NEURAL-NET MODEL GENERATION ANDMAINTENANCE”;(c)序列號60/374,024,2002年4月19日提交,標(biāo)題為“VIEWING MULTI-DIMENSIONAL DATA THROUGHHIERARCHICAL VISUALIZATION”;(d)序列號60/374,041,2002年4月19日提交,標(biāo)題為“METHOD AND APPARATUS FOR DISCOVERINGEVOLUTIONARY CHANGES WITHINA SYSTEM”;(e)序列號60/373,977,2002年4月19日提交,標(biāo)題為“AUTOMATIC MODEL MAINTENANCE THROUGH LOCALNETS”;(f)序列號60/373,780,2002年4月19日提交,標(biāo)題為“USINGNEURAL NETWORKS FOR DATA MINING”;以及(g)序列號(代理機構(gòu)卷號No.66209),2003年4月28日提交,標(biāo)題為“VIEWING MULTI-DIMENSIONAL DATATHROUGH HIER ARCHICALVISU ALIZATION”。
權(quán)利要求
1.對多維數(shù)據(jù)進(jìn)行分級顯像的方法,其包括(a)對多維數(shù)據(jù)集進(jìn)行第一次減維處理以獲得第一個顯像;(b)當(dāng)需要更多細(xì)節(jié)時,選擇與第一個減維顯像中選定區(qū)域相關(guān)的多維數(shù)據(jù)集的一個子集;以及(c)對多維數(shù)據(jù)集的選定子集進(jìn)行第二次減維處理以獲得至少一個補充顯像。
2.如權(quán)利要求1中所述的方法,其特征在于對選定區(qū)域的子區(qū)域相關(guān)的另外一個子集重復(fù)步驟(b)和(c)。
3.如權(quán)利要求1中所述的方法,其特征在于子區(qū)域包括混合部分。
4.如權(quán)利要求1中所述的方法,其特征在于重復(fù)步驟(b)和(c),直到獲得具有期望水平的分離點的減維顯像為止。
5.如權(quán)利要求4中所述的方法,其特征在于每個顯像有一個相應(yīng)的視角,并且根據(jù)和具有期望級別的分離點的減維顯像相應(yīng)視角來獲得對多維數(shù)據(jù)集的視圖。
6.如權(quán)利要求1中所述的方法,其特征在于每個顯像有一個相應(yīng)的視角,并且根據(jù)和至少一個補充顯像中選定的一個相關(guān)的視角來獲得對多維數(shù)據(jù)集的視圖。
7.如權(quán)利要求1中所述的方法,其特征在于第一個顯像具有第一個視角,而補充的顯像具有和第一個視角不同的第二個視角。
8.如權(quán)利要求1中所述的方法,其特征在于至少一個補充顯像具有比第一個顯像高的細(xì)節(jié)化級別。
9.如權(quán)利要求1中所述的方法,其特征在于第二次減維處理使用了和第一次減維處理相同的減維技術(shù)。
10.如權(quán)利要求1中所述的方法,其特征在于第一次減維處理和第二次減維處理也可以分別使用不同的減維技術(shù)。
11.如權(quán)利要求1中所述的方法,其特征在于第二次減維處理包括使用一種連續(xù)減維技術(shù)以獲得減維顯像序列。
12.權(quán)利要求11中的方法還包括在多維數(shù)據(jù)集中選擇兩個數(shù)據(jù)點用于距離預(yù)測,其中如果兩個數(shù)據(jù)點在任何一個減維顯像中相距很遠(yuǎn),這兩個數(shù)據(jù)點在原始多維數(shù)據(jù)空間中也相距很遠(yuǎn)。
13.如權(quán)利要求12中所述的方法,其特征在于連續(xù)減維技術(shù)包括主元件分析,且減維距離中最大距離是這兩個選定數(shù)據(jù)點在原始多維空間中實際距離預(yù)測的下限。
14.權(quán)利要求1中所述的方法還包括使用群集樹為群集樹的每個節(jié)點生成一個顯像,從而自動生成分級顯像級。
15.如權(quán)利要求1中所述的方法,其特征在于步驟(b)中選擇的子集對應(yīng)于混合區(qū)域。
16.如權(quán)利要求1中所述的方法,其特征在于多維數(shù)據(jù)集包括非數(shù)值數(shù)據(jù),并在減維處理之前經(jīng)過預(yù)處理,轉(zhuǎn)換成數(shù)值格式。
17.如權(quán)利要求1中所述的方法,其特征在于額外顯像用測試集的數(shù)據(jù),通過使用和第二次減維處理相應(yīng)的映射進(jìn)行鑒定。
18.如權(quán)利要求1中所述的方法,其特征在于用該方法能夠依據(jù)數(shù)據(jù)集的一個或多個特征對多維數(shù)據(jù)集進(jìn)行分類。
19.如權(quán)利要求1中所述的方法,其特征在于多維數(shù)據(jù)集是在生產(chǎn)過程中獲得,且該方法用于獲得預(yù)測生產(chǎn)特性的信息。
20.如權(quán)利要求1中所述的方法,其特征在于多維數(shù)據(jù)集對應(yīng)于系統(tǒng)中獲得的數(shù)據(jù),且該方法用于獲得診斷系統(tǒng)故障的信息。
21.如權(quán)利要求1中所述的方法,其特征在于多維數(shù)據(jù)集對應(yīng)于系統(tǒng)中獲得的數(shù)據(jù),且該方法用于在系統(tǒng)出現(xiàn)故障之前獲得預(yù)測故障的信息。
22.如權(quán)利要求1中所述的方法,其特征在于多維數(shù)據(jù)集對應(yīng)于系統(tǒng)中獲得的數(shù)據(jù),且該方法用于獲得優(yōu)化系統(tǒng)的信息。
23.如權(quán)利要求1中所述的方法,其特征在于多維數(shù)據(jù)集對應(yīng)于系統(tǒng)中獲得的數(shù)據(jù),且該方法用于獲得搜尋系統(tǒng)的信息。
24.機器可讀的程序存儲設(shè)備,明確地嵌入了該機器可執(zhí)行指令的程序,來執(zhí)行權(quán)利要求1中所述方法的步驟。
25.如權(quán)利要求24中所述的程序存儲設(shè)備,其特征在于重復(fù)步驟(b)和(c),直到獲得具有期望級別的分離點的足夠細(xì)節(jié)化的顯像為止。
26.如權(quán)利要求24中所述的程序存儲設(shè)備,其特征在于對選定區(qū)域的子區(qū)域相關(guān)的另外一個子集重復(fù)步驟(b)和(c)。
27.計算機系統(tǒng),包括處理器;以及計算機系統(tǒng)可讀的程序存儲設(shè)備,明確地嵌入了處理器可執(zhí)行指令的程序,來執(zhí)行權(quán)利要求1中所述方法的步驟。
28.如權(quán)利要求27中所述的計算機系統(tǒng),其特征在于重復(fù)步驟(b)和(c),直到獲得具有期望級別的分離點的足夠細(xì)節(jié)化的顯像為止。
29.如權(quán)利要求27中所述的計算機系統(tǒng),其特征在于對選定區(qū)域的子區(qū)域相關(guān)的另外一個子集重復(fù)步驟(b)和(c)。
30.嵌入傳輸介質(zhì)中的計算機數(shù)據(jù)信號,其中嵌入了計算機可執(zhí)行的指令用于執(zhí)行權(quán)利要求1中的方法。
全文摘要
提供了一種用于對多維數(shù)據(jù)進(jìn)行分級顯像的方法。對一個多維數(shù)據(jù)集進(jìn)行第一減維處理,以獲得第一個顯像。選擇與維度減少的第一顯像的一個選定區(qū)域相關(guān)的多維數(shù)據(jù)集的子集。對多維數(shù)據(jù)集的所選定的子集進(jìn)行第二減維處理,以獲得至少一個補充的顯像。
文檔編號G06F15/18GK1647109SQ03808839
公開日2005年7月27日 申請日期2003年4月15日 優(yōu)先權(quán)日2002年4月19日
發(fā)明者鮑約翰, 孟卓, 段保福 申請人:計算機聯(lián)合思想公司