專利名稱:基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種天體光譜數(shù)據(jù)分析與處理領(lǐng)域,具體來說是涉及一種天體光譜數(shù)據(jù)的相關(guān)性分析方法及其系統(tǒng)。
背景技術(shù):
天文學(xué)是依賴于觀測的基礎(chǔ)研究科學(xué),觀測設(shè)備的先進程度就決定了天文學(xué)的發(fā)展水平,因而天文光譜的實測能力成為學(xué)科前進中的一個嚴(yán)重的“瓶頸”。目前天文光譜“瓶頸”的主要難題之一,是天文望遠(yuǎn)鏡設(shè)計上難以做到兼?zhèn)浯罂趶胶痛笠晥?。迄今為止,由“成像巡天”記錄下來的?shù)以百億計的天文目標(biāo)中,只有很小一部分(約萬分之一)進行過光譜測量。天體光譜測量效率低的原因是分光之后探測器上的光流量減少,而且一臺望遠(yuǎn)鏡同一時間只能觀測一個天體的光譜,不同于成像觀測,一次可以同時記錄下成千上萬個目標(biāo)。解決光譜測量的低效率,首先需要能夠測量多個天文目標(biāo)光譜的技術(shù)。同時,要做到跨世紀(jì)所需要的大天區(qū)范圍內(nèi)的大規(guī)模光譜測量,還必須具備兩個條件一是望遠(yuǎn)鏡口徑必須足夠大,二是由于待測天體分布在全天(約4萬平方度),望遠(yuǎn)鏡必須有足夠大的視場。可是普通4米級望遠(yuǎn)鏡視場只有十分之幾度(約合0.1平方度)?,F(xiàn)有的施密特望遠(yuǎn)鏡視場雖有五、六度(合二十幾平方度),但是受施密特改正板材料和工藝的限制口徑只有一米多。
我國計劃建造的LAMOST(The Large Sky Area Multi-Object Fiber SpectroscopicTelescope)是一架橫臥南北方向的中星儀式反射施密特望遠(yuǎn)鏡。它具有4m口徑,采用多鏡面加主動光學(xué)技術(shù)和并行可控式光纖定位創(chuàng)新技術(shù),在1.5h曝光時間內(nèi),可以以10埃的光譜分辨率觀測到20.5mag的暗弱天體光譜。LAMOST相對于在5度視場的1.75m焦面上放置4000根光纖,然后連接到多臺光譜儀上,同時獲得4000個天體的光譜,因此它將成為大口徑兼大視場光學(xué)望遠(yuǎn)鏡的世界之最,而且是天體光譜獲取率最高的望遠(yuǎn)鏡。預(yù)計每個觀測夜晚將收集2到4萬條光譜的數(shù)據(jù),LAMOST所觀測到的光譜數(shù)據(jù)容量將有可能達(dá)到4TB。
從海量天體光譜數(shù)據(jù)提取光譜數(shù)據(jù)特征和物理化學(xué)性質(zhì)之間存在的、隱含的相關(guān)性知識,對探索宇宙具重要的理論和實踐意義。這些規(guī)律主要還是通過經(jīng)驗手段和人工獲得,但對于如此龐大的數(shù)據(jù),利用傳統(tǒng)人工分析數(shù)據(jù)的方式將無法滿足實際需求,而且通過人工獲得的知識不夠準(zhǔn)確,甚至是模糊的。因此,急需一種新的以計算機為主的數(shù)據(jù)分析技術(shù)來解決這一問題。關(guān)聯(lián)規(guī)則描述數(shù)據(jù)集中項目之間存在的關(guān)聯(lián)關(guān)系,因此采用關(guān)聯(lián)規(guī)則來描述、分析光譜數(shù)據(jù)特征和物理化學(xué)性質(zhì)之間存在的相關(guān)性是可行性的和有價值的。
數(shù)據(jù)挖掘(datamining)是一個從大量的數(shù)據(jù)中發(fā)現(xiàn)潛在知識的過程,是半自動或自動的從海量數(shù)據(jù)中發(fā)現(xiàn)模式、相關(guān)性、變化、反常規(guī)律性的過程。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘領(lǐng)域中重要的研究內(nèi)容之一,描述了交易數(shù)據(jù)集屬性之間存在的某種關(guān)聯(lián)關(guān)系。自從1993年以來,數(shù)據(jù)挖掘領(lǐng)域的研究者在挖掘關(guān)聯(lián)規(guī)則上做了大量工作,使之成為一個具有重要意義和實用價值的數(shù)據(jù)挖掘技術(shù)。
關(guān)聯(lián)規(guī)則挖掘主要分為兩步一是生成所有頻繁模式集;二是由頻繁模式集生成聯(lián)規(guī)則。由于第二步容易實現(xiàn),因此關(guān)聯(lián)規(guī)則挖掘的效率主要取決于頻繁模式挖掘。目前,頻繁模式挖掘主要采用Apriori和FP-tree兩類方法,Apriori方法的優(yōu)點是思路比較清晰,以遞歸統(tǒng)計為基礎(chǔ),剪切生成頻繁集;主要缺點是,在生成頻繁模式的過程中,需要產(chǎn)生大量的候選項和多次遍歷數(shù)據(jù)庫,I/O代價太高,難以適應(yīng)海量高維數(shù)據(jù)。FP-tree方法是J.Han提出的不產(chǎn)生候選項目集挖掘方法,主要缺點是FP樹需要占用大量內(nèi)存。近年來,國內(nèi)外學(xué)者對關(guān)聯(lián)規(guī)則挖掘進行了深入研究,大多數(shù)是FP-tree的改進方法,有以下共同缺點,第一目前沒有作為天體光譜數(shù)據(jù)數(shù)據(jù)相關(guān)性分析手段;第二效率上不能適應(yīng)天體光譜數(shù)據(jù)的海量、高維和稀疏等特征;第三構(gòu)造的FP樹過于龐大,且沒有針對性。
本發(fā)明受到了國家自然科學(xué)基金(60573075)和山西省自然科學(xué)基金(2006011041)項目的資助。
發(fā)明內(nèi)容
為了解決天體光譜數(shù)據(jù)相關(guān)性分析的問題,本發(fā)明提供一種基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析方法,該方法以關(guān)聯(lián)規(guī)則,來描述天體光譜波的特征同其物理化學(xué)性質(zhì)之間存在的、未知的相關(guān)性(天體規(guī)律),使其成為一種天體光譜數(shù)據(jù)相關(guān)性分析手段。在此方法的基礎(chǔ)上,提供一種基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng)。
完成上述發(fā)明任務(wù)的方案是一種基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析方法,以發(fā)現(xiàn)天體光譜波的特征同其物理化學(xué)性質(zhì)之間存在的、未知的相關(guān)性(天體規(guī)律),具體步驟如下a.對天體光譜數(shù)據(jù)進行歸一化、離散化處理,生成用于相關(guān)性分析的天體光譜數(shù)據(jù)集;b.取得背景知識的描述并設(shè)定最小支持度,根據(jù)所述背景知識和所述最小支持度構(gòu)造出天體光譜數(shù)據(jù)集的約束頻繁模式樹,并在約束頻繁模式樹上挖掘出約束頻繁模式;c.設(shè)定最小置信度,根據(jù)所述最小置信度和所述約束頻繁模式,挖掘出描述天體光譜數(shù)據(jù)特征與其物理化學(xué)性質(zhì)之間相關(guān)性的關(guān)聯(lián)規(guī)則。
所述步驟b更具體包括以下步驟b1、利用一階謂詞邏輯描述背景知識,并設(shè)定衡量關(guān)聯(lián)規(guī)則重要程度的最小支持度;
b2、掃描天體光譜數(shù)據(jù)集,判斷天體光譜數(shù)據(jù)集中的每一條交易數(shù)據(jù)是否滿足所述背景知識,從而將原數(shù)據(jù)集中的交易數(shù)據(jù),分解為兩個不相交的交易數(shù)據(jù)子集,并采用滿足背景知識的交易數(shù)據(jù)子集和設(shè)定的最小支持度,構(gòu)造天體光譜數(shù)據(jù)集的約束頻繁模式樹;b3、利用設(shè)定的最小支持度和約束頻繁模式樹,挖掘出天體光譜數(shù)據(jù)的約束頻繁模式;所述步驟c具體是指找出約束頻繁模式后,計算每一個頻繁模式的置信度,將其與用戶設(shè)定的最小置信度相比較,以得到關(guān)聯(lián)規(guī)則,并且在獲取關(guān)聯(lián)規(guī)則之后給出每一條規(guī)則的具體含義。
所要處理的天體光譜數(shù)據(jù)為高維、海量、稀疏數(shù)據(jù),其中高維是指天體光譜數(shù)據(jù)的屬性達(dá)到了1000維以上;海量是指LAMOST望遠(yuǎn)鏡每天要獲取將近4T的數(shù)據(jù)量;稀疏是指任何一條天體光譜數(shù)據(jù)的重要信息,可用某些特征線上體現(xiàn)出來。
一種基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng),包含以下裝置天體光譜數(shù)據(jù)預(yù)處理裝置,用于對天體光譜數(shù)據(jù)進行歸一化、離散化處理,生成用于相關(guān)性分析的天體光譜數(shù)據(jù)集;約束頻繁模式樹的構(gòu)造裝置,用于取得背景知識的描述并設(shè)定最小支持度,根據(jù)所述背景知識和所述最小支持度構(gòu)造出天體光譜數(shù)據(jù)集的約束頻繁模式樹;約束頻繁模式的挖掘裝置,用于在所述約束頻繁模式樹上挖掘出約束頻繁模式;關(guān)聯(lián)規(guī)則挖掘裝置,用于設(shè)定最小置信度,根據(jù)所述最小置信度和所述約束頻繁模式,挖掘出描述天體光譜數(shù)據(jù)特征與其物理化學(xué)性質(zhì)之間相關(guān)性的關(guān)聯(lián)規(guī)則。
基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng),其特征在于所述天體光譜數(shù)據(jù)預(yù)處理裝置對天體光譜數(shù)據(jù)的歸一化先采用中值濾波器方法進行處理,并根據(jù)光譜形狀、流量、峰寬等特征,進行離散化處理,建立用于相關(guān)性分析的天體光譜數(shù)據(jù)集。
基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng),其特征在于所述約束頻繁模式樹的構(gòu)造裝置根據(jù)背景知識和設(shè)定最小支持度,構(gòu)造出天體光譜數(shù)據(jù)集的約束頻繁模式樹。
基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng),其特征在于所述頻繁模式挖掘裝置在約束頻繁模式樹上,根據(jù)最小支持度挖掘出約束頻繁模式。
基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng),其特征在于所述關(guān)聯(lián)規(guī)則挖掘裝置將設(shè)定最小置信度,根據(jù)所述最小置信度和所述約束頻繁模式,挖掘出描述天體光譜數(shù)據(jù)特征與其物理化學(xué)性質(zhì)之間相關(guān)性的關(guān)聯(lián)規(guī)則。
基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng),其特征在于所要處理的天體光譜數(shù)據(jù)為高維、海量、稀疏數(shù)據(jù),其中高維是指天體光譜數(shù)據(jù)的屬性達(dá)到了1000維以上;海量是指LAMOST望遠(yuǎn)鏡每天要獲取將近4T的數(shù)據(jù)量;稀疏是指任何一條天體光譜數(shù)據(jù)的重要信息,可用某些特征線上體現(xiàn)出來。
本發(fā)明涉及一種基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析方法,該方法提高了關(guān)聯(lián)規(guī)則挖掘的效率,同時也保證了挖掘結(jié)果的針對性和高效性。具體來講本發(fā)明具有以下優(yōu)點1、將基于約束頻繁模式的關(guān)聯(lián)規(guī)則挖掘方法應(yīng)用在天體光譜數(shù)據(jù)相關(guān)性分析中,為發(fā)現(xiàn)天體光譜數(shù)據(jù)特征與其物理化學(xué)性質(zhì)之間的相關(guān)性,提供了一種新方法。
2、為適應(yīng)天體光譜數(shù)據(jù)高維、海量、稀疏的特征,提出一種基于背景知識的約束頻繁模式樹,該樹將背景知識融合在FP樹中,僅生成滿足約束條件的頻繁模式樹,去除了FP樹中大量多余信息,大大減少了存儲空間,降低了樹的規(guī)模,提高構(gòu)造效率。
3、在約束頻繁模式樹基礎(chǔ)上,提出了一種基于約束頻繁模式的頻繁模式挖掘方法CFP-Growth,該方法由于將掃描數(shù)據(jù)庫轉(zhuǎn)化為遍歷約束頻繁模式樹,大大減少掃描數(shù)據(jù)庫次數(shù),提高挖掘效率,同時也保證了挖掘結(jié)果的針對性和高效性。
4、給出了基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng),通過天體光譜數(shù)據(jù)預(yù)處理裝置、約束頻繁模式樹的構(gòu)造裝置、約束頻繁模式的挖掘裝置和關(guān)聯(lián)規(guī)則挖掘裝置,挖掘出描述天體光譜數(shù)據(jù)特征與其物理化學(xué)性質(zhì)之間相關(guān)性的關(guān)聯(lián)規(guī)則。
圖1是本發(fā)明所述方法的流程2是本發(fā)明所述方法的實施例流程3是本發(fā)明所述系統(tǒng)的光譜數(shù)據(jù)離散參數(shù)設(shè)置裝置4是本發(fā)明所述系統(tǒng)的頻繁模式挖掘裝置5是本發(fā)明所述系統(tǒng)的關(guān)聯(lián)規(guī)則挖掘裝置圖具體實現(xiàn)方式本發(fā)明涉及一種天體光譜數(shù)據(jù)相關(guān)性分析方法,主要解決以下問題1、約束頻繁模式樹的存儲結(jié)構(gòu);2、天體光譜數(shù)據(jù)的歸一化、離散化;3、頻繁模式的高效挖掘;4、挖掘未知天體光譜規(guī)律的正確性和針對性。
針對上述幾個問題,下面結(jié)合附圖和具體實施例來詳細(xì)描述本發(fā)明。
如圖1和圖2所示,本實施例包含如下步驟第一、通過對原始天體光譜數(shù)據(jù)的預(yù)處理,包括數(shù)據(jù)的歸一化、離散化,形成面向相關(guān)分析的天體光譜數(shù)據(jù)集。
光譜數(shù)據(jù)是一系列連續(xù)的數(shù)據(jù),它由每一個波長處對應(yīng)著不同的流量和這條光譜的物理化學(xué)性質(zhì)組成,這樣的數(shù)據(jù)由于不能直觀描述光譜波的特征,也不能適應(yīng)數(shù)據(jù)挖掘的要求,因而需要進行預(yù)處理。預(yù)處理分為兩個部分,流量的預(yù)處理和物理化學(xué)性質(zhì)的預(yù)處理。流量預(yù)處理中,天體光譜要描述峰的強度和寬度。比如可將波峰的強度分為五種情況強、較強、較弱、弱、無;將峰的寬度分為三種情況窄、寬、特寬。在離散化的過程中,用一維的數(shù)據(jù)來取代二維特征向量的存儲,即將峰的強度和寬度兩兩組合,分別為強窄、強寬、強特寬、較強窄、較強寬、較強特寬、較弱窄、較弱寬、較弱特寬、弱窄、弱寬、弱特寬、無等共13種情況。物理化學(xué)性質(zhì)的預(yù)處理主要包括溫度、光度、化學(xué)豐度和微湍流的預(yù)處理,將每一個物理化學(xué)性質(zhì)劃分為幾種不同的情況,同樣用單個字符進行表示。
第二、利用一階謂詞邏輯描述的背景知識和設(shè)定的最小支持度,構(gòu)造出天體光譜數(shù)據(jù)的約束頻繁模式樹。
為了描述方便,這里引入背景知識和約束頻繁模式樹的概念。設(shè)r是交易數(shù)據(jù)庫中的關(guān)系表名個體變量,f是表示關(guān)系表到屬性的映射的函詞,k是支持度(0≤k≤1),則背景知識G可由如下謂詞公式,通過邏輯運算符組成合適公式。
(1)Interesting(f(r))(2)support(f(r),k)→Interesting(f(r))(3)Interested(f(r))→Interesting(f(r))其中第一個謂詞公式表示,用戶直接給出的有趣項目集;第二個謂詞公式表示,在以往的歷史挖掘中,如果項目集f(r)的支持度大于k,那么在新的挖掘中它也是有趣的模式集;第三個謂詞公式表示,如果f(r)在以往的挖掘中是有趣的模式集,那么在新的挖掘中它也是有趣的模式集。
約束頻繁模式樹是滿足下列條件的樹型結(jié)構(gòu)①包含一個標(biāo)為“null”的根節(jié)點(用root表示),根節(jié)點的孩子是項前綴子樹集合,該樹還包含頻繁項目頭表;②項目前綴子樹中的每一節(jié)點包含3個域item-name,count,node-link,其中,item-name記錄項目名,count記錄能到達(dá)該節(jié)點的路徑所表示的交易的數(shù)目,node-link為指向FP-tree中具有相同的item-name值的下一節(jié)點,當(dāng)下一個節(jié)點不存在時,node-link為null;③頻繁項目頭表的每一表項包含兩個域item-name,head of node-link,其中head of node-link為指向FP-tree中具有相同的item-name值的首節(jié)點的指針;④如果從根節(jié)點到葉子節(jié)點的路徑中,所描述的任一頻繁模式P,滿足G(P)=True,其中G為背景知識。
對于給定的交易數(shù)據(jù)D,最小支持度σmin、背景知識G,由于任意約束頻繁模式P,滿足G(P)=True,所以只有D中的交易T滿足G所構(gòu)造出的FP-Tree,才能包含約束頻繁模式,因此可按以下步驟,采用兩次掃描數(shù)據(jù)庫來完成約束頻繁模式樹的構(gòu)造
1)掃描事務(wù)數(shù)據(jù)庫一次,收集1-頻繁模式的集合和它們的支持度,對1-頻繁模式按支持度降序排序,結(jié)果為頻繁項表L;2)創(chuàng)建約束頻繁模式樹的根節(jié)點,以“null”標(biāo)記;3)對于D中每個交易T,如果T中不滿足背景知識,則掃描下一個交易,否則,執(zhí)行4);4)將T中頻繁項按L中的次序排序為T′,并按如下來更新約束頻繁模式樹(1)在約束頻繁模式樹中,尋找與T′的最長前綴匹配的路徑;(2)對于該匹配路徑上的節(jié)點,其計數(shù)增加1;(3)找出T′中未匹配的后綴,以確定最長匹配前綴中的最后一個頻繁項所對應(yīng)的節(jié)點,作為根節(jié)點,依次在約束頻繁模式樹創(chuàng)建孩子節(jié)點,并置其計數(shù)值為1;第三、依據(jù)設(shè)定的最小支持度,挖掘出基于約束頻繁模式樹的約束頻繁模式。
挖掘約束頻繁模式通過以下的CFP_growth方法1)ifTree含單個路徑P2)for路徑P中節(jié)點的每個組合(記作β)3)產(chǎn)生模式βα,其支持度是support=β中節(jié)點的最小支持度;4)else for each ai在Tree的頭部{5)產(chǎn)生一個模式β=aiα,其支持度support=ai.support;6)構(gòu)造β的條件模式基,然后構(gòu)造β的條件約束頻繁模式樹β;7)ifTree β≠ф8)CFP_growth(Tree β,β);}9)end第四、依據(jù)設(shè)定的最小置信度,從約束頻繁模式,挖掘出描述天體光譜數(shù)據(jù)特征與其物理化學(xué)性質(zhì)之間相關(guān)性的關(guān)聯(lián)規(guī)則。
一旦找出頻繁模式,可以直接產(chǎn)生關(guān)聯(lián)規(guī)則。只要計算每一個頻繁模式的置信度,然后將其與用戶設(shè)定的最小置信度相比較,則可得到強關(guān)聯(lián)規(guī)則。在獲取關(guān)聯(lián)規(guī)則之后還需給出每一條規(guī)則的具體含義,比如在最小支持為2%,最小置信度為85%的前提下,挖掘出這樣一條關(guān)聯(lián)規(guī)則3810_強窄,3850_弱窄,4130_弱窄==>化學(xué)_2,微湍流_2(6.3%,86%),其含義是,如果在波長為3810處有很強且很窄的峰,在波長為3850處有很弱且很窄的峰,在波長為4130處有很弱且很窄的峰,那么此光譜的化學(xué)豐度的范圍為-3~-0.5,且微湍流的值為1,該規(guī)則的支持度(即規(guī)則的重要程度)為6.3%,置信度(即規(guī)則的可信程度)為86%。將這條規(guī)則與總結(jié)光譜數(shù)據(jù)經(jīng)驗得出的波的特征和物理化學(xué)性質(zhì)關(guān)系進行比較,發(fā)現(xiàn)它與K型星的特征基本類似,說明知識發(fā)現(xiàn)的過程是成功的。
權(quán)利要求
1.一種基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析方法,其特征在于a.對天體光譜數(shù)據(jù)進行歸一化、離散化處理,生成用于相關(guān)性分析的天體光譜數(shù)據(jù)集;b.取得背景知識的描述并設(shè)定最小支持度,根據(jù)所述背景知識和所述最小支持度構(gòu)造出天體光譜數(shù)據(jù)集的約束頻繁模式樹,并在約束頻繁模式樹上挖掘出約束頻繁模式;c.設(shè)定最小置信度,根據(jù)所述最小置信度和所述約束頻繁模式,挖掘出描述天體光譜數(shù)據(jù)特征與其物理化學(xué)性質(zhì)之間相關(guān)性的關(guān)聯(lián)規(guī)則。
2.如權(quán)利要求1所述的基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析方法,其特征在于,所述步驟b更具體包含b1、利用一階謂詞邏輯描述背景知識,并設(shè)定衡量關(guān)聯(lián)規(guī)則重要程度的最小支持度;b2、掃描天體光譜數(shù)據(jù)集,判斷天體光譜數(shù)據(jù)集中的每一條交易數(shù)據(jù)是否滿足所述背景知識,從而將原數(shù)據(jù)集中的交易數(shù)據(jù),分解為兩個不相交的交易數(shù)據(jù)子集,并采用滿足背景知識的交易數(shù)據(jù)子集和設(shè)定的最小支持度,構(gòu)造天體光譜數(shù)據(jù)集的約束頻繁模式樹;b3、利用設(shè)定的最小支持度和約束頻繁模式樹,挖掘出天體光譜數(shù)據(jù)的約束頻繁模式。
3.如權(quán)利要求1所述的基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析方法,其特征在于,所述步驟c具體是指找出約束頻繁模式后,計算每一個頻繁模式的置信度,將其與用戶設(shè)定的最小置信度相比較,以得到關(guān)聯(lián)規(guī)則,并且在獲取關(guān)聯(lián)規(guī)則之后給出每一條規(guī)則的具體含義。
4.如權(quán)利要求1、2或3所述的基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析方法,其特征在于所要處理的天體光譜數(shù)據(jù)為高維、海量、稀疏數(shù)據(jù),其中高維是指天體光譜數(shù)據(jù)的屬性達(dá)到了1000維以上;海量是指LAMOST望遠(yuǎn)鏡每天要獲取將近4T的數(shù)據(jù)量;稀疏是指任何一條天體光譜數(shù)據(jù)的重要信息,可用某些特征線上體現(xiàn)出來。
5.一種基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng),其特征在于,包含以下裝置天體光譜數(shù)據(jù)預(yù)處理裝置,用于對天體光譜數(shù)據(jù)進行歸一化、離散化處理,生成用于相關(guān)性分析的天體光譜數(shù)據(jù)集;約束頻繁模式樹的構(gòu)造裝置,用于取得背景知識的描述并設(shè)定最小支持度,根據(jù)所述背景知識和所述最小支持度構(gòu)造出天體光譜數(shù)據(jù)集的約束頻繁模式樹;約束頻繁模式的挖掘裝置,用于在所述約束頻繁模式樹上挖掘出約束頻繁模式;關(guān)聯(lián)規(guī)則挖掘裝置,用于設(shè)定最小置信度,根據(jù)所述最小置信度和所述約束頻繁模式,挖掘出描述天體光譜數(shù)據(jù)特征與其物理化學(xué)性質(zhì)之間相關(guān)性的關(guān)聯(lián)規(guī)則。
6.根據(jù)權(quán)利要求5所述的基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng),其特征在于所述天體光譜數(shù)據(jù)預(yù)處理裝置對天體光譜數(shù)據(jù)的歸一化先采用中值濾波器方法進行處理,并根據(jù)光譜形狀、流量、峰寬等特征,進行離散化處理,建立用于相關(guān)性分析的天體光譜數(shù)據(jù)集。
7.根據(jù)權(quán)利要求5所述的基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng),其特征在于所述約束頻繁模式樹的構(gòu)造裝置根據(jù)背景知識和設(shè)定最小支持度,構(gòu)造出天體光譜數(shù)據(jù)集的約束頻繁模式樹。
8.根據(jù)權(quán)利要求5所述的基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng),其特征在于所述頻繁模式挖掘裝置在約束頻繁模式樹上,根據(jù)最小支持度挖掘出約束頻繁模式。
9.根據(jù)權(quán)利要求5所述的基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng),其特征在于所述關(guān)聯(lián)規(guī)則挖掘裝置將設(shè)定最小置信度,根據(jù)所述最小置信度和所述約束頻繁模式,挖掘出描述天體光譜數(shù)據(jù)特征與其物理化學(xué)性質(zhì)之間相關(guān)性的關(guān)聯(lián)規(guī)則。
10.如權(quán)利要求5至9任一項所述的基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng),其特征在于所要處理的天體光譜數(shù)據(jù)為高維、海量、稀疏數(shù)據(jù),其中高維是指天體光譜數(shù)據(jù)的屬性達(dá)到了1000維以上;海量是指LAMOST望遠(yuǎn)鏡每天要獲取將近4T的數(shù)據(jù)量;稀疏是指任何一條天體光譜數(shù)據(jù)的重要信息,可用某些特征線上體現(xiàn)出來。
全文摘要
本發(fā)明涉及一種天體光譜數(shù)據(jù)相關(guān)性分析方法,用于天體光譜知識的發(fā)現(xiàn)。首先對天體光譜數(shù)據(jù)進行歸一化和離散化處理,形成面向天體光譜數(shù)據(jù)相關(guān)性分析的數(shù)據(jù)集;其次利用背景知識和最小支持度,構(gòu)造出天體光譜的約束頻繁模式樹,并挖掘約束頻繁模式;最后依據(jù)最小置信度,由約束頻繁模式,生成描述光譜數(shù)據(jù)特征與物理化學(xué)性質(zhì)之間相關(guān)性的關(guān)聯(lián)規(guī)則。本發(fā)明與現(xiàn)有技術(shù)相比,提出一種新的天體光譜數(shù)據(jù)相關(guān)性分析方法,和一種約束頻繁模式樹構(gòu)造及約束頻繁模式挖掘方法,以適應(yīng)天體光譜數(shù)據(jù)的高維、海量、稀疏的特征,并在此基礎(chǔ)上,給出了基于約束頻繁模式的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng)。
文檔編號G01J3/28GK101071078SQ200710111689
公開日2007年11月14日 申請日期2007年6月14日 優(yōu)先權(quán)日2007年6月14日
發(fā)明者趙旭俊, 張繼福, 蔡江輝, 胡立華, 楊海峰 申請人:太原科技大學(xué)