亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于提取核特征早期預測多變量時間序列類別的分類方法

文檔序號:6382965閱讀:412來源:國知局

專利名稱::基于提取核特征早期預測多變量時間序列類別的分類方法
技術(shù)領域
:本發(fā)明涉及時間序列的數(shù)據(jù)挖掘
技術(shù)領域
,特別是涉及基于核特征早期預測多變量時間序列類別的分類方法。
背景技術(shù)
:近年來,在時間序列挖掘領域中,對于多變量時間序列數(shù)據(jù)挖掘中的分類問題已經(jīng)成為一大熱點,廣泛應用于多媒體、醫(yī)學、制造工業(yè)、金融應用等應用領域。針對多變量時間序列的分類問題,國內(nèi)外學者已經(jīng)提出了多種方法構(gòu)建多變量時間序列分類器。為了提聞分類的準確率,IyadBatal等學者基于提取多變量時間序列的抽象特征,將多變量時間序列數(shù)據(jù)轉(zhuǎn)換為布爾向量,最后采用傳統(tǒng)機器學習方法進行分類。HyunjinYoon等學者提出了基于主成分分析法選擇最優(yōu)特征子集,保留了特征間的相互關聯(lián)信息。文獻IyadBatal,LuciaSacchi,RiccardoBellazzi,MilosHauskrecht.MultivariateTimeSeriesClassificationwithTemporalAbstractions,ProceedingsoftheTwenty-SecondInternationalFLAIRSConference,2009;HyunjinYoon,KiyoungYang,andCyrusShahab1.Featuresubsetselectionandfeaturerankingformultivariatetimeseries,IEEEtransactionsonknowledgeanddataengineering,2005,17(9):1186-1198.針對多變量時間序列中數(shù)據(jù)長度不一致的問題,C.Orsenigo等學者基于固定基數(shù)擴展彎曲距離,將多變量時間序列轉(zhuǎn)換為等長序列,并構(gòu)建了一種離散支持向量機分類器。為解決多變量時間序列中數(shù)據(jù)維度過高的問題,XiaoqingWeng等學者基于線性投影映射(LPP)技術(shù)對數(shù)據(jù)進行降維后,在低維空間中以最近鄰算法(INN)進行分類,提高分類的準確率和效率。文獻C.Orsenigo,C.Vercellis.CombiningdiscreteSVMandfixedcardinalitywarpingdistancesformultivariatetimeseriesclassification,PatternRecognition,2010,43(I):3787-3794;XiaoqingWeng,JunyiShen.Classificationofmultivariatetimeseriesusinglocalitypreservingprojections,Knowledge-BasedSystems,2008,21(7):581-587.上述文獻主要是針對多變量時間序列的分類問題,并未對提前預測其類別進行探討。然而,提前預測時序數(shù)據(jù)的類別,在醫(yī)學、工業(yè)、商業(yè)和軍事等領域有著廣泛的應用。如醫(yī)學上對于某些疾病的分析,若在監(jiān)測心電圖、腦電圖等時間序列數(shù)據(jù)的過程中盡早判斷其異常情況,能實現(xiàn)對相關疾病的盡早診斷和有效治療。針對于單變量時間序列的早期分類問題,ZhengzhengXing等深入研究了最近鄰個體間關聯(lián)的穩(wěn)定性,提出了一種基于1-NN的早期分類方法。為了深入研究分類過程的可解釋性,她們提出了提取早期特征用于構(gòu)建分類器的方法。文獻ZhengzhengXing,JianPeijPhilipSYu.Earlypredictionontimeseries:anearestneighborapproach,IJCAI2009;ZhengzhengXing,JianPeijPhilipS.YujKeWang.Extractinginterpretablefeaturesforearlyclassificationontimeseries,SDM2011。針對于多變量時間序列的早期分類問題,MohamedFGhalwash提出了多變量特征的概念(Multivariateshapelet),它由所有變量時間序列中相同時間段的子序列構(gòu)成;以加權(quán)信息增益作為特征性能的評價標準,提出了基于提取多變量特征進行早期分類的方法技術(shù)°文獻MohamedFGhalwash,ZoranObradovic.Earlyclassificationofmultivariatetemporalobservationsbyextractionofinterpretableshapelets,willbeappearedinBMCBioinformatics。然而,多變量時間序列中各變量時間序列的特征并非出現(xiàn)同一起點且保持同一長度,因此需要進一步研究以發(fā)現(xiàn)和提取多變量時間序列的特征,提高分類的準確率。同時,為保證分類準確率的同時提前判別其類別,在特征選擇和提取時綜合考慮特征的性能,包括其準確率、召回率和早期度。
發(fā)明內(nèi)容為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于提取核特征早期預測多變量時間序列類別的分類方法。本發(fā)明的技術(shù)方案為一種基于提取核特征早期預測多變量時間序列類別的分類方法,包括下列步驟步驟1,對訓練數(shù)據(jù)集中多變量時間序列,提取各變量的時間序列中子序列作為候選特征,并基于準確率和召回率獲取每個候選特征的閾值;從各變量的候選特征中選擇準確率達到預定值的候選特征構(gòu)成變量的特征集;步驟2,對步驟I所得各變量的特征集按類別分別聚類得到若干個簇,在每個簇中選取性能最佳的特征為核特征,每個變量的各簇核特征的并構(gòu)成各變量的核特征集;所有變量的核特征集的并集為多變量時間序列的核特征集;步驟3,根據(jù)步驟2所得多變量時間序列的核特征集,分類預測檢測數(shù)據(jù)集中多變量時間序列的類別。而且,步驟I中,某候選特征f的閾值8獲取方式為,求候選特征f與訓練集數(shù)據(jù)中所有樣本對應變量時間序列的相似度,對候選特征f與所有樣本對應變量時間序列的相似度進行排序,按序取相鄰兩相似度的中點得到若干候選閾值,并基于F-measure方法根據(jù)準確率和召回率評價各候選閾值的性能,選取最優(yōu)性能的候選閾值作為候選特征f的閾值S。而且,步驟3進行分類采用基于多數(shù)投票原則的分類器,包括通過度量各變量的時間序列的與相應核特征集中特征的相似度,若某變量的時間序列與相應核特征集中的某一特征匹配成功,則該變量的時間序列類別為匹配特征的類別;若多數(shù)變量的時間序列類別一致,此類別即為多變量時間序列的類別?;蛘?,步驟3進行分類采用基于規(guī)則的分類器,包括基于各變量的核特征集和指定的約束條件,產(chǎn)生規(guī)則集,每條規(guī)則由一個或者多個特征構(gòu)成,但最多只包含各變量的一個核特征;基于規(guī)則集,預測多變量時間序列的類別。而且,步驟2在每個簇中選取性能最佳的特征為核特征時,評估某特征f的性能Quality(f)的函數(shù)如下,Quality(f)=1/(w0/Earliness(f)+W1ZPrecision(f)+w2/Recall(f)),其中wQ、w:>w2,分別表示早期度Earliness、準確率Precision、召回率Recall的權(quán)重。本發(fā)明針對多變量時間序列的特點,提出了一種提取多變量時間序列核特征的有效方法,通過構(gòu)造分類器對多個多變量時間序列數(shù)據(jù)進行分類與分析,能有效提高對多變量時間序列的分類準確度和早期度。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為(1)提出一種提取多變量時間序列核特征的有效方法。為了提取各個變量時間序列本質(zhì)特性,我們對各變量時間序列分別進行特征提取。(2)對于各變量特征,采用聚類方法減少冗余特征并剔除噪音,提高分類的穩(wěn)定性。(3)為提高分類的效率、精度和早期度,基于準確率、召回率和早期度等特性提出一種綜合評價特征性能的方法,并選取每個簇中的最優(yōu)特征作為相應變量的核特征。(4)基于各變量的核特征,提出了兩種簡單且有效的分類器構(gòu)造方法。通過實驗驗證本發(fā)明所提方法和算法的正確性和有效性,實驗結(jié)果表明該分類器能夠達到較高的準確率與較好的早期度。圖1為本發(fā)明實施例針對多變量時間序列構(gòu)建分類器的方法流程圖;圖2為對Wafer的abnormal類別數(shù)據(jù)集第1個變量時間序列所提取的特征圖;圖3為對Wafer的abnormal類別數(shù)據(jù)集第2個變量時間序列所提取的特征圖;圖4為對Wafer的abnormal類別數(shù)據(jù)集第3個變量時間序列所提取的特征圖;圖5為對Wafer的abnormal類別數(shù)據(jù)集第4個變量時間序列所提取的特征圖;圖6為對Wafer的abnormal類別數(shù)據(jù)集第5個變量時間序列所提取的特征圖;圖7為對Wafer的abnormal類別數(shù)據(jù)集第6個變量時間序列所提取的特征圖。具體實施例方式以下結(jié)合附圖和實施例詳細說明本發(fā)明技術(shù)方案。本發(fā)明針對早期預測多變量時間序列分類問題,提出了一種提取多變量時間序列核特征的有效方法。通過對多變量時間序列各個變量時間序列進行核特征的提取與選擇,再以各變量的核特征集,通過兩種簡單且有效的分類方法構(gòu)建分類器。本發(fā)明實施例以Wafer數(shù)據(jù)集為具體實例,Wafer數(shù)據(jù)含2個類別(分別記為abnormal類別與normal類別),每個數(shù)據(jù)包括6個變量,即每個數(shù)據(jù)包括6個變量的時間序列。訓練數(shù)據(jù)集含192個數(shù)據(jù),測試數(shù)據(jù)集含48個數(shù)據(jù)。為了減弱時間序列數(shù)據(jù)的縮放和偏移對度量其相似性的影響,實施例采用z-score方法對Wafer訓練數(shù)據(jù)集所有數(shù)據(jù)的各個變量時間序列分別進行規(guī)范化。圖2為Wafer數(shù)據(jù)集的abnormal類別第1個變量時間序列所提取的特征圖;圖3為Wafer數(shù)據(jù)集的abnormal類別第2個變量時間序列所提取的特征圖;圖4為Wafer數(shù)據(jù)集的abnormal類別第3個變量時間序列所提取的特征圖;圖5為Wafer數(shù)據(jù)集的abnormal類別第4個變量時間序列所提取的特征圖;圖6為Wafer數(shù)據(jù)集的abnormal類別第5個變量時間序列所提取的特征圖7為Wafer數(shù)據(jù)集的abnormal類別第6個變量時間序列所提取的特征圖。如圖1所示,基于以上Wafer數(shù)據(jù)集,實施例通過以下步驟對Wafer數(shù)據(jù)集構(gòu)建早期預測多變量時間序列類別分類系統(tǒng)步驟1,對各變量的時間序列,通過提取所有子序列產(chǎn)生候選特征集,并基于準確率和召回率評價其性能,以獲取每個候選特征的最佳閾值。為保證特征能表示相應變量時間序列的本質(zhì)特性,對步驟I中各變量的候選特征集,選擇其中準確率達到預定值的候選特征,構(gòu)成特征集。首先進行特征的提取??商崛∮柧毤忻總€樣本的各個變量時間序列的所有子序列作為侯選特征,建議提取子序列的長度范圍為3至L/3,L為各變量時間序列的長度。實施例為了特征能體現(xiàn)出各變量的本質(zhì)特性,針對Wafer訓練數(shù)據(jù)集中數(shù)據(jù)的6個變量分別進行候選特征(子序列)的生成、特征的提取。對Wafer數(shù)據(jù)集的各個變量生成候選特征集,候選特征的長度從3遞增到Wafer數(shù)據(jù)時間序列長度的1/3。候選特征f可以符號f(s,8,c)表示,其中s表示子序列段,8表示閾值,c表示該候選特征f的類別,與產(chǎn)生s的相應變量時間序列類別一致。在各候選特征的閾值的選取時,為保證其分類準確率和召回率,采用F-measure評價方法使得該特征性能處于最優(yōu)狀態(tài)。實施例為了確定各侯選特征的閾值,首先求候選特征與訓練中所有樣本對應變量時間序列的相似度。候選特征f的閾值S求取方式如下,首先,求候選特征f與訓練集中所有樣本對應變量時間序列的相似度。由于歐氏距離法的計算簡單且有效,此處采用歐氏距離法度量兩者的相似度。為了解決兩者不等長的問題,可采用滑動窗口法,即以特征的長度為窗口,從每個變量時間序列起點開始滑動取得所有長度為窗口的子序列,依次度量所有子序列和該候選特征的相似性,取最優(yōu)值作為該候選特征與對應變量時間序列的相似度。其次,對候選特征f與所有樣本對應變量時間序列的相似度進行排序,按序取相鄰兩相似度的中點得到若干候選閾值,并基于F-measure方法評價各候選閾值的特征性能,選取最優(yōu)性能的候選閾值作為候選特征f的閾值S。為便于實施參考起見,提供候選特征f的F-measure的評價方法具體實現(xiàn)說明如下F-measure(f)=2/(1/Precision(f)+1/Recall(f)),Precision與Recall分別表示準確率與召回率。其中,候選特征f的準確率Precision(f)、召回率Recall(f)計算公式如下權(quán)利要求1.一種基于提取核特征早期預測多變量時間序列類別的分類方法,其特征在于,包括下列步驟步驟1,對訓練數(shù)據(jù)集中多變量時間序列,提取各變量的時間序列中子序列作為候選特征,并基于準確率和召回率獲取每個候選特征的閾值;從各變量的候選特征中選擇準確率達到預定值的候選特征構(gòu)成變量的特征集;步驟2,對步驟I所得各變量的特征集按類別分別聚類得到若干個簇,在每個簇中選取性能最佳的特征為核特征,每個變量的各簇核特征的并構(gòu)成各變量的核特征集;所有變量的核特征集的并集為多變量時間序列的核特征集;步驟3,根據(jù)步驟2所得多變量時間序列的核特征集,分類預測檢測數(shù)據(jù)集中多變量時間序列的類別。2.根據(jù)權(quán)利要求1所述的基于提取核特征早期預測多變量時間序列類別的分類方法,其特征在于步驟I中,某候選特征f的閾值S獲取方式為,求候選特征f與訓練集數(shù)據(jù)中所有樣本對應變量時間序列的相似度,對候選特征f與所有樣本對應變量時間序列的相似度進行排序,按序取相鄰兩相似度的中點得到若干候選閾值,并基于F-measure方法根據(jù)準確率和召回率評價各候選閾值的性能,選取最優(yōu)性能的候選閾值作為候選特征f的閾值8。3.根據(jù)權(quán)利要求1所述的基于提取核特征早期預測多變量時間序列類別的分類方法,其特征在于步驟3進行分類采用基于多數(shù)投票原則的分類器,包括通過度量各變量的時間序列的與相應核特征集中特征的相似度,若某變量的時間序列與相應核特征集中的某一特征匹配成功,則該變量的時間序列類別為匹配特征的類別;若多數(shù)變量的時間序列類別一致,此類別即為多變量時間序列的類別。4.根據(jù)權(quán)利要求1所述的基于提取核特征早期預測多變量時間序列類別的分類方法,其特征在于步驟3進行分類采用基于規(guī)則的分類器,包括基于各變量的核特征集和指定的約束條件,產(chǎn)生規(guī)則集,每條規(guī)則由一個或者多個特征構(gòu)成,但最多只包含各變量的一個核特征;基于規(guī)則集,預測多變量時間序列的類別。5.根據(jù)權(quán)利要求1或2或3或4所述的基于提取核特征早期預測多變量時間序列類別的分類方法,其特征在于步驟2在每個簇中選取性能最佳的特征為核特征時,評估某特征f的性能Quality(f)的函數(shù)如下,Quality(f)=I/(w0/Earliness(f)+W1ZPrecision(f)+w2/Recall(f)),其中Wc^WpW2,分別表示早期度Earliness、準確率Precision、召回率Recall的權(quán)重。全文摘要針對早期預測多變量時間序列分類問題,本發(fā)明提出了基于提取核特征早期預測多變量時間序列類別的分類方法,為提取各個變量時間序列本質(zhì)特性,首先對各變量時間序列分別進行特征提取,并采用聚類方法減少冗余特征與剔除噪音,提高分類的穩(wěn)定性。其次,為提高分類的效率、精度和早期度,基于準確率、召回率和早期度等提出一種綜合評價特征性能的方法,選擇每個簇中的最優(yōu)特征作為該變量的核特征。最后,基于各變量的核特征集,提出了兩種簡單且有效的分類器構(gòu)造方法。通過實驗驗證本發(fā)明所提方法和算法的正確性和有效性,實驗結(jié)果表明該分類器能夠達到較高的準確率與較好的早期度。文檔編號G06K9/62GK103020643SQ20121050750公開日2013年4月3日申請日期2012年11月30日優(yōu)先權(quán)日2012年11月30日發(fā)明者何國良,段勇申請人:武漢大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1