一種數(shù)據(jù)處理方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種數(shù)據(jù)處理方法和裝置,該方法包括:獲取時(shí)間序列,所述時(shí)間序列中包括有多個(gè)不同時(shí)間點(diǎn)對(duì)應(yīng)的數(shù)據(jù)點(diǎn);基于累積和控制圖尋找所述時(shí)間序列中的拐點(diǎn),以將所述時(shí)間序列分割成以所述拐點(diǎn)為分割點(diǎn)的預(yù)設(shè)數(shù)量個(gè)初始子時(shí)間序列;對(duì)于任意一個(gè)所述初始子時(shí)間序列,依據(jù)所述初始子時(shí)間序列的模式變化,將所述初始子時(shí)間序列分割為多個(gè)不同模式的目標(biāo)子時(shí)間序列;依次對(duì)所述目標(biāo)子時(shí)間序列進(jìn)行符號(hào)化,得到符號(hào)化后的時(shí)間序列并存儲(chǔ)。該方法有利于提高對(duì)時(shí)間序列挖掘的有效性。
【專利說明】一種數(shù)據(jù)處理方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)分析【技術(shù)領(lǐng)域】,更具體的說是涉及一種數(shù)據(jù)處理方法和裝置。
【背景技術(shù)】
[0002]時(shí)間序列是一種重要的高維數(shù)據(jù)類型,將某一個(gè)現(xiàn)象的某一個(gè)統(tǒng)計(jì)指標(biāo)在不同時(shí)間上的各個(gè)數(shù)值,隨著時(shí)間先后順序排列而成的序列。即,時(shí)間序列實(shí)際上可以理解為隨著時(shí)間次序而變化的一系列數(shù)據(jù)。
[0003]時(shí)間序列被廣泛應(yīng)用于氣象、航天、通信等領(lǐng)域。為了能夠獲取到更多有效信息,需要對(duì)時(shí)間序列進(jìn)行挖掘。然而目前對(duì)時(shí)間序列的挖掘的過程中,往往會(huì)單獨(dú)對(duì)時(shí)間序列中各個(gè)局部進(jìn)行分析,忽略了時(shí)間序列中整體趨勢(shì)特征,進(jìn)而影響到數(shù)據(jù)挖掘的有效性,進(jìn)而不能從時(shí)間序列中獲取到更加準(zhǔn)確有效的信息。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明提供了一種數(shù)據(jù)處理方法和裝置,以提高對(duì)時(shí)間序列挖掘的有效性。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種數(shù)據(jù)處理方法,包括:
[0006]獲取時(shí)間序列,所述時(shí)間序列中包括有多個(gè)不同時(shí)間點(diǎn)對(duì)應(yīng)的數(shù)據(jù)點(diǎn);
[0007]基于累積和控制圖尋找所述時(shí)間序列中的拐點(diǎn),以將所述時(shí)間序列分割成以所述拐點(diǎn)為分割點(diǎn)的預(yù)設(shè)數(shù)量個(gè)初始子時(shí)間序列;
[0008]對(duì)于任意一個(gè)所述初始子時(shí)間序列,依據(jù)所述初始子時(shí)間序列的模式變化,將所述初始子時(shí)間序列分割為多個(gè)不同模式的目標(biāo)子時(shí)間序列;
[0009]依次對(duì)所述目標(biāo)子時(shí)間序列進(jìn)行符號(hào)化,得到符號(hào)化后的時(shí)間序列并存儲(chǔ)。
[0010]優(yōu)選的,所述基于累積和控制圖尋找所述時(shí)間序列中的拐點(diǎn),以將所述時(shí)間序列分割成以所述拐點(diǎn)為分割點(diǎn)的預(yù)設(shè)數(shù)量個(gè)初始子時(shí)間序列,包括:
[0011]A、將所述時(shí)間序列作為當(dāng)前時(shí)間序列;
[0012]B、計(jì)算所述當(dāng)前時(shí)間序列中各數(shù)據(jù)點(diǎn)的均值
【權(quán)利要求】
1.一種數(shù)據(jù)處理方法,其特征在于,包括: 獲取時(shí)間序列,所述時(shí)間序列中包括有多個(gè)不同時(shí)間點(diǎn)對(duì)應(yīng)的數(shù)據(jù)點(diǎn); 基于累積和控制圖尋找所述時(shí)間序列中的拐點(diǎn),以將所述時(shí)間序列分割成以所述拐點(diǎn)為分割點(diǎn)的預(yù)設(shè)數(shù)量個(gè)初始子時(shí)間序列; 對(duì)于任意一個(gè)所述初始子時(shí)間序列,依據(jù)所述初始子時(shí)間序列的模式變化,將所述初始子時(shí)間序列分割為多個(gè)不同模式的目標(biāo)子時(shí)間序列; 依次對(duì)所述目標(biāo)子時(shí)間序列進(jìn)行符號(hào)化,得到符號(hào)化后的時(shí)間序列并存儲(chǔ)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于累積和控制圖尋找所述時(shí)間序列中的拐點(diǎn),以將所述時(shí)間序列分割成以所述拐點(diǎn)為分割點(diǎn)的預(yù)設(shè)數(shù)量個(gè)初始子時(shí)間序列,包括: A、將所述時(shí)間序列作為當(dāng)前時(shí)間序列;
_ m B、計(jì)算所述當(dāng)前時(shí)間序列中各數(shù)據(jù)點(diǎn)的均值PΣ tIim其中,當(dāng)前時(shí)間序列
?=1 ,Τ=?!, t2,...,tm, m為所述當(dāng)前時(shí)間序列的長度; C、設(shè)定初始累積和Stl=O; D、計(jì)算所述當(dāng)前時(shí)間序列中各個(gè)數(shù)據(jù)點(diǎn)的累積和\=U(V),其中,i=l,2,…,m; E、將累積和最大值所對(duì)應(yīng)的數(shù)據(jù)點(diǎn)確定為拐點(diǎn),以所述拐點(diǎn)為分割點(diǎn)將所述當(dāng)前時(shí)間序列分割為兩個(gè)待定子時(shí)間序列; F、分別將所述待定子序列作為所述當(dāng)前時(shí)間序列,返回執(zhí)行所述步驟A,直至將所述時(shí)間序列分割為預(yù)設(shè)數(shù)量個(gè)子序列,得到預(yù)設(shè)數(shù)量個(gè)初始子時(shí)間序列。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依據(jù)所述初始子時(shí)間序列的模式變化,將所述初始子時(shí)間序列分割為多個(gè)不同模式的目標(biāo)子時(shí)間序列,包括: 按照所述初始子時(shí)間序列中各數(shù)據(jù)點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)的先后順序,依次確定所述初始子時(shí)間序列中引起模式變化的目標(biāo)數(shù)據(jù)點(diǎn),得到以所述目標(biāo)數(shù)據(jù)點(diǎn)為分割點(diǎn)分割出的多個(gè)不同模式的目標(biāo)子時(shí)間序列。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述按照所述初始子時(shí)間序列中各數(shù)據(jù)點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)的先后順序,依次確定所述初始子時(shí)間序列中引起模式變化的目標(biāo)數(shù)據(jù)點(diǎn),得到以所述目標(biāo)數(shù)據(jù)點(diǎn)為分割點(diǎn)分割出的多個(gè)不同模式的目標(biāo)子時(shí)間序列,包括: A、將所述初始子時(shí)間序列作為當(dāng)前待處理子序列; B、計(jì)算所述當(dāng)前待處理子序列中,排序靠前的N個(gè)數(shù)據(jù)點(diǎn)組成的線段的第一斜率,其中N為預(yù)先設(shè)定的自然數(shù),且N大于等于二 ; C、計(jì)算所述當(dāng)前待處理子序列中,排序靠前的N+1個(gè)數(shù)據(jù)點(diǎn)組成的線段的第二斜率; E、如果所述第一斜率與所述第二斜率的差值的絕對(duì)值大于預(yù)設(shè)的斜率變化值,則將所述N+1個(gè)數(shù)據(jù)點(diǎn)中排序最后的數(shù)據(jù)點(diǎn)確定為所述目標(biāo)數(shù)據(jù)點(diǎn),并將排序位于所述目標(biāo)數(shù)據(jù)點(diǎn)之后的數(shù)據(jù)點(diǎn)組成的序列作為當(dāng)前待處理子序列,返回執(zhí)行步驟B,直至所述目標(biāo)數(shù)據(jù)點(diǎn)為所述時(shí)間序列中排序末尾的數(shù)據(jù)點(diǎn); D、如果所述第一斜率與所述第二斜率的差值的絕對(duì)值小于所述預(yù)設(shè)的斜率變化值,則將所述第二斜率作為所述第一斜率,并將所述當(dāng)前待處理子序列中第一個(gè)數(shù)據(jù)點(diǎn)之后的數(shù)據(jù)點(diǎn)組成的序列作為當(dāng)前待處理子序列,返回執(zhí)行步驟C,直至當(dāng)前待處理子序列中包含的數(shù)據(jù)點(diǎn)個(gè)數(shù)小于或等于N個(gè)為止。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依次對(duì)所述目標(biāo)子時(shí)間序列進(jìn)行符號(hào)化,得到符號(hào)化后的時(shí)間序列并存儲(chǔ),包括: 根據(jù)所述目標(biāo)子時(shí)間序列的模式,以及與所述目標(biāo)子時(shí)間序列相鄰的目標(biāo)子時(shí)間序列的模式,對(duì)所述目標(biāo)子時(shí)間序列進(jìn)行符號(hào)化。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述目標(biāo)子時(shí)間序列的模式,以及與所述目標(biāo)子時(shí)間序列相鄰的目標(biāo)子時(shí)間序列的模式,對(duì)所述目標(biāo)子時(shí)間序列進(jìn)行符號(hào)化,包括: 當(dāng)所述目標(biāo)子時(shí)間序列為上升趨勢(shì)的時(shí)間序列時(shí),將所述目標(biāo)子序列符號(hào)化為οι 當(dāng)所述目標(biāo)子時(shí)間序列為下降趨勢(shì)的時(shí)間序列時(shí),將所述目標(biāo)子時(shí)間序列符號(hào)化為10:., 當(dāng)所述目標(biāo)子時(shí)間序列為持平趨勢(shì)的時(shí)間序列,且所述目標(biāo)子時(shí)間序列之前緊鄰的目標(biāo)子時(shí)間序列為上升趨勢(shì)時(shí),則將所述目標(biāo)子時(shí)間序列符號(hào)化為11;: 當(dāng)所述目標(biāo)子時(shí) 間序列為持平趨勢(shì)的時(shí)間序列,且所述目標(biāo)子時(shí)間序列之前緊鄰的目標(biāo)子時(shí)間序列為下降趨勢(shì)時(shí),則將所述目標(biāo)子時(shí)間序列符號(hào)化為00)!.其中,a表示所述目標(biāo)子序列的斜率,b指所述目標(biāo)子序列中最后一個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)值。
7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的方法,其特征在于,在將所述時(shí)間序列分割成以所述拐點(diǎn)為分割點(diǎn)的預(yù)設(shè)數(shù)量個(gè)初始子時(shí)間序列之前,還包括: 將所述時(shí)間序列轉(zhuǎn)換為均值為0,標(biāo)準(zhǔn)差為I的標(biāo)準(zhǔn)時(shí)間序列; 貝U,在對(duì)所述目標(biāo)子時(shí)間序列進(jìn)行符號(hào)化之前,還包括: 將所述目標(biāo)子時(shí)間序列轉(zhuǎn)化為均值為0,標(biāo)準(zhǔn)差為I的標(biāo)準(zhǔn)子時(shí)間序列。
8.一種數(shù)據(jù)處理裝置,其特征在于,包括: 獲取單元,用于獲取時(shí)間序列,所述時(shí)間序列中包括有多個(gè)不同時(shí)間點(diǎn)對(duì)應(yīng)的數(shù)據(jù)占.初始分割單元,用于基于累積和控制圖尋找所述時(shí)間序列中的拐點(diǎn),以將所述時(shí)間序列分割成以所述拐點(diǎn)為分割點(diǎn)的預(yù)設(shè)數(shù)量個(gè)初始子時(shí)間序列; 再分割單元,用于對(duì)于任意一個(gè)所述初始子時(shí)間序列,依據(jù)所述初始子時(shí)間序列的模式變化,將所述初始子時(shí)間序列分割為多個(gè)不同模式的目標(biāo)子時(shí)間序列; 符號(hào)化單元,用于依次對(duì)所述目標(biāo)子時(shí)間序列進(jìn)行符號(hào)化,得到符號(hào)化后的時(shí)間序列并存儲(chǔ)。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述再分割單元,包括: 再分割子單元,用于按照所述初始子時(shí)間序列中各數(shù)據(jù)點(diǎn)對(duì)應(yīng)的時(shí)間點(diǎn)的先后順序,依次確定所述初始子時(shí)間序列中引起模式變化的目標(biāo)數(shù)據(jù)點(diǎn),得到以所述目標(biāo)數(shù)據(jù)點(diǎn)為分割點(diǎn)分割出的多個(gè)不同模式的目標(biāo)子時(shí)間序列。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述再分割子單元,包括:初始化單元,用于將所述初始子時(shí)間序列作為當(dāng)前待處理子序列; 第一計(jì)算單元,用于計(jì)算所述當(dāng)前待處理子序列中,排序靠前的N個(gè)數(shù)據(jù)點(diǎn)組成的線段的第一斜率,其中N為預(yù)先設(shè)定的自然數(shù),且N大于等于二 ; 第二計(jì)算單元,用于計(jì)算所述當(dāng)前待處理子序列中,排序靠前的N+1個(gè)數(shù)據(jù)點(diǎn)組成的線段的第二斜率; 第一分割比較單元,用于如果所述第一斜率與所述第二斜率的差值的絕對(duì)值大于預(yù)設(shè)的斜率變化值,則將所述N+1個(gè)數(shù)據(jù)點(diǎn)中排序最后的數(shù)據(jù)點(diǎn)確定為所述目標(biāo)數(shù)據(jù)點(diǎn),并將排序位于所述目標(biāo)數(shù)據(jù)點(diǎn)之后的數(shù)據(jù)點(diǎn)組成的序列作為當(dāng)前待處理子序列,返回所述第一計(jì)算單元,直至所述目標(biāo)數(shù)據(jù)點(diǎn)為所述時(shí)間序列中排序末尾的數(shù)據(jù)點(diǎn); 第二分割比較單元,用于如果所述第一斜率與所述第二斜率的差值的絕對(duì)值小于所述預(yù)設(shè)的斜率變化值,則將所述第二斜率作為所述第一斜率,并將所述當(dāng)前待處理子序列中第一個(gè)數(shù)據(jù)點(diǎn)之后的數(shù)據(jù)點(diǎn)組成的序列作為當(dāng)前待處理子序列,返回所述第二計(jì)算單元,直至當(dāng)前待處理子序列中包含的數(shù)據(jù)點(diǎn)個(gè)數(shù)小于或等于N個(gè)為止。
11.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述符號(hào)化單元,包括: 符號(hào)化子單元,用于根據(jù)所述目標(biāo)子時(shí)間序列的模式,以及與所述目標(biāo)子時(shí)間序列相鄰的目標(biāo)子時(shí)間序列的模式,對(duì)所述目標(biāo)子時(shí)間序列進(jìn)行符號(hào)化。
【文檔編號(hào)】G06F19/00GK103942425SQ201410147955
【公開日】2014年7月23日 申請(qǐng)日期:2014年4月14日 優(yōu)先權(quán)日:2014年4月14日
【發(fā)明者】楊樹強(qiáng), 尹洪, 陳志坤, 金松昌, 賈焰, 韓偉紅, 周斌, 李愛平 申請(qǐng)人:中國人民解放軍國防科學(xué)技術(shù)大學(xué)