亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于分段線性表示的時間序列流數(shù)據(jù)降維與簡化表示方法與流程

文檔序號:11707785閱讀:1017來源:國知局
一種基于分段線性表示的時間序列流數(shù)據(jù)降維與簡化表示方法與流程

本發(fā)明涉及一種基于分段線性表示的時間序列流數(shù)據(jù)降維與簡化表示方法,尤其涉及了一種基于分段線性表示(piecewiselinearrepresentation,plr)的“海量”、“高維”時間序列流數(shù)據(jù)的數(shù)據(jù)降維與簡化表示方法,屬于大數(shù)據(jù)分析與數(shù)據(jù)挖掘的技術領域。



背景技術:

隨著互聯(lián)網(wǎng)時代的到來,移動通信技術、物聯(lián)網(wǎng)技術得到了廣泛的應用與推廣。各種商業(yè)交互活動、制造業(yè)的各種傳感器設備和檢測設備都產(chǎn)生了大量的、基于時間的業(yè)務數(shù)據(jù)信息,這種數(shù)據(jù)信息不僅與某一具體時刻密切相關,從整體上看數(shù)據(jù)信息還具有時間連續(xù)性的特點:像流水一樣的不斷被產(chǎn)生,因此可以被稱為時間序列流數(shù)據(jù)(streamingtimeseries)。面對這些“海量”、“高維”、“連續(xù)”的數(shù)據(jù)序列,我們無法采用基于傳統(tǒng)靜態(tài)數(shù)據(jù)的一般處理方法直接對時序流數(shù)據(jù)進行相應的數(shù)據(jù)分析與數(shù)據(jù)挖掘操作,需要首先對時間序列流數(shù)據(jù)進行相應的數(shù)據(jù)降維操作與數(shù)據(jù)簡化表示。

分段線性表示是目前主流的時間序列數(shù)據(jù)降維和數(shù)據(jù)簡化表示的重要方法之一,它與人類視覺的數(shù)據(jù)觀測規(guī)律相吻合,是非常直觀和簡潔的數(shù)據(jù)表示方法。通過對時序數(shù)據(jù)進行“分段線性表示”,可以以較低的數(shù)據(jù)維度為分布式數(shù)據(jù)存儲設計索引邊界函數(shù),也可以極大地提高相似序列檢索的計算效率。目前分段線性表示的時間序列數(shù)據(jù)簡化方法廣泛應用于海量時間序列數(shù)據(jù)分析與挖掘的研究之中,是時間序列數(shù)據(jù)分類、聚類、異常點監(jiān)測、數(shù)據(jù)預測、數(shù)據(jù)子序列匹配等熱點問題研究方法的基礎和前提。

目前傳統(tǒng)的分段線性表示方法可以分為以下三類:

●基于“自頂向下”(topdown)的分段線性表示(plr_td)

●基于“自底向上”(bottomup)的分段線性表示(plr_bu)

●基于“滑動窗口”(slidewindow)的分段線性表示(plr_sw)

這三種方法均有各自的特點,相應的分段精度與分段效率也有相應的差異。針對時間序列流數(shù)據(jù)的降維與簡化表示操作,應該在保證處理效率的基礎上盡可能的提高數(shù)據(jù)表示的精確性。

這三種方法均有各自的特點,相應的分段精度與分段效率也有相應的差異。目前基于plr_td和plr_bu的數(shù)據(jù)表示方法相比plr_sw來說,無法滿足時間序列流數(shù)據(jù)在“實時性”(online)方面的處理要求。plr_sw雖然以“滑動窗口”的形式對流數(shù)據(jù)進行實時處理,相比于plr_bu和plr_td來說,處理后的數(shù)據(jù)表示精度低、數(shù)據(jù)線性表示擬合誤差大。具體情況如表1所示:

表1

傳統(tǒng)數(shù)據(jù)降維和簡化表示方法存在無法兼顧“實時性”和數(shù)據(jù)表示精度的問題。



技術實現(xiàn)要素:

針對現(xiàn)有技術的不足,本發(fā)明提供了一種基于分段線性表示的時間序列流數(shù)據(jù)降維與簡化表示方法;在滿足時間序列流數(shù)據(jù)處理“實時性”的基礎上,采用相應的優(yōu)化策略大幅度提高數(shù)據(jù)表示的精確性。即將plr_sw和plr_bu的相應數(shù)據(jù)處理策略進行有效的整合與優(yōu)化,對時間序列流數(shù)據(jù)的處理效率和數(shù)據(jù)表示精度進行了有效的統(tǒng)一。

本發(fā)明所要解決的技術問題是:如何對大規(guī)模時間序列流數(shù)據(jù)的進行高效的數(shù)據(jù)降維操作并對相應的數(shù)據(jù)進行簡化表示,處理過程需要對不影響數(shù)據(jù)趨勢的相關信息進行有效的篩除,同時保留能夠反映數(shù)據(jù)趨勢和數(shù)據(jù)變化規(guī)律的相應數(shù)據(jù)信息。

本發(fā)明以時間序列數(shù)據(jù)分段的核心算法plr為基礎,結合滑動窗口(slidewindow)分段線性表示(plr_sw)以及基于時間序列數(shù)據(jù)趨勢的斜率計算(slopecalculation,sc)在線性時間復雜度的條件下對時序流數(shù)據(jù)進行初始分段并在尋找初始分段點的同時記錄反映數(shù)據(jù)趨勢的數(shù)據(jù)趨勢點(trendpoints),隨后在初始分段的基礎上利用基于自底向上(bottomup)的分段線性表示(plr_bu)對數(shù)據(jù)的初始分段進行相應的優(yōu)化,使分段后的數(shù)據(jù)擬合誤差在用戶可接受的范圍內。

本方法對時間序列流數(shù)據(jù)所進行分段壓縮處理效率較高,一定程度上滿足了流數(shù)據(jù)處理的基本要求,此外本方法在掃描數(shù)據(jù)的過程中會對反映數(shù)據(jù)趨勢的關鍵數(shù)據(jù)點進行標記,并利用這些關鍵數(shù)據(jù)趨勢點對初始分段后的數(shù)據(jù)分段進行“分裂”與“合并”優(yōu)化操作,既保證了關鍵的數(shù)據(jù)趨勢與數(shù)據(jù)特征不會在分段的過程中丟失,同時也對高維時間序列流數(shù)據(jù)進行了數(shù)據(jù)降維操作,實現(xiàn)了數(shù)據(jù)壓縮(簡化表示)的目的。經(jīng)過以上的數(shù)據(jù)分段簡化表示,時間序列流數(shù)據(jù)的數(shù)據(jù)特征得到了相應的突出,數(shù)據(jù)表達得到了簡化。因此本方法為接下來可能進行的基于時間序列流數(shù)據(jù)的分類、聚類、數(shù)據(jù)預測以及相似序列匹配與檢索等相應科研工作,打下了良好的研究基礎。

術語解釋:

1、單點最大數(shù)據(jù)擬合誤差(maximumerrorforsinglepoint,me_sp),是指在某一數(shù)據(jù)段的所有數(shù)據(jù)點中與擬合直線的垂直距離最大的數(shù)據(jù)點;

2、分段最大數(shù)據(jù)擬合誤差(maximumerrorforentiresegment,me_es),是指所有數(shù)據(jù)段中的擬合誤差最大的數(shù)據(jù)段;

3、數(shù)據(jù)趨勢點斜率變化參數(shù)(μ),是指在篩選數(shù)據(jù)趨勢點時所指定的斜率變化門限值;

4、數(shù)據(jù)趨勢點時間范圍參數(shù)(ρ),是指在篩選數(shù)據(jù)趨勢點時所指定的時間范圍門限值。

本發(fā)明的技術方案為:

一種基于分段線性表示的時間序列流數(shù)據(jù)降維與簡化表示方法,包括步驟如下:

s1,預設數(shù)據(jù)分段與壓縮參數(shù),包括單點最大數(shù)據(jù)擬合誤差me_sp、分段最大數(shù)據(jù)擬合誤差me_es、數(shù)據(jù)趨勢點斜率變化參數(shù)μ、數(shù)據(jù)趨勢點時間范圍參數(shù)ρ;

單點最大數(shù)據(jù)擬合誤差me_sp、分段最大數(shù)據(jù)擬合誤差me_es是用戶預先指定的優(yōu)化參數(shù),通過me_sp和me_es,可以對數(shù)據(jù)表示的精度進行限制并優(yōu)化,可以實現(xiàn)以用戶指定的數(shù)據(jù)精度,進行相應的數(shù)據(jù)簡化表示。數(shù)據(jù)趨勢斜率度量參數(shù)(μ)和時間范圍度量參數(shù)(ρ),是篩選數(shù)據(jù)趨勢點的重要參數(shù),他們可以根據(jù)數(shù)據(jù)趨勢的不同進行靈活的設定,以滿足相應的數(shù)據(jù)表達要求。根據(jù)用戶對數(shù)據(jù)表達所反映的數(shù)據(jù)變化趨勢詳盡程度的要求,將參數(shù)從小到大進行調節(jié)。

s2,對時間序列流數(shù)據(jù)以滑動窗口(slidewindow)的方式進行數(shù)據(jù)掃描,掃描后的數(shù)據(jù)全部進入流數(shù)據(jù)緩沖區(qū);

a.掃描數(shù)據(jù)的同時,進行以斜率運算(slopecalculation)為基礎,并以預設參數(shù)單點最大數(shù)據(jù)擬合誤差me_sp為門限值,進行時間序列流數(shù)據(jù)的初始分段,并標記時間序列流數(shù)據(jù)初始分段點;

b.掃描數(shù)據(jù)的同時,記錄所有的時間序列流數(shù)據(jù)趨勢點(trendpoints);

s3,以分段最大數(shù)據(jù)擬合誤差me_es作為門限值,對流數(shù)據(jù)緩沖區(qū)中的初始分段數(shù)據(jù)片段進行擬合誤差評估,判斷初始分段數(shù)據(jù)片段的擬合誤差是否超過分段最大數(shù)據(jù)擬合誤差me_es,如果初始分段數(shù)據(jù)片段的擬合誤差不超過分段最大數(shù)據(jù)擬合誤差me_es,則保留該初始分段數(shù)據(jù)片段,并將其標記為“不可分”,最大程度的保持初始數(shù)據(jù)分段(數(shù)據(jù)降維)的結果;如果初始分段數(shù)據(jù)片段的擬合誤差超過分段最大數(shù)據(jù)擬合誤差me_es,則對該初始分段數(shù)據(jù)片段內部進行二次優(yōu)化分段;

s4,將流數(shù)據(jù)緩沖區(qū)中標記為“不可分”數(shù)據(jù)分段移出流數(shù)據(jù)緩沖區(qū),判斷是否還有待處理的時間序列流數(shù)據(jù),如果有,返回步驟s2,否則,結束。該操作將滿足me_sp和me_es參數(shù)限制的盡可能多的數(shù)據(jù)分段,依次移出數(shù)據(jù)緩沖區(qū),按照傳統(tǒng)方法只有第一個數(shù)據(jù)分段可以直接移出緩沖區(qū),本方法是建立在分段最大數(shù)據(jù)擬合誤差me_es與數(shù)據(jù)趨勢點的基礎上,因此可以將第一個數(shù)據(jù)分段后面緊接著的連續(xù)“不可分”數(shù)據(jù)分段,以及連續(xù)兩個“不可分”數(shù)據(jù)段之間的獨立數(shù)據(jù)分段,全部移出數(shù)據(jù)緩沖區(qū)。此處設計的優(yōu)勢在于,最大限度的保證了數(shù)據(jù)降維與簡化表示的操作結果,突破了傳統(tǒng)的基于“自底向上”的分段線性表示的局限性,在全面掌握數(shù)據(jù)趨勢的基礎上,一次性的將多個滿足要求的數(shù)據(jù)分段移出數(shù)據(jù)緩沖區(qū),提高了時序流數(shù)據(jù)降維與簡化表示的處理效率。

根據(jù)本發(fā)明優(yōu)選的,所述步驟a中,進行基于斜率計算的線段劃分,斜率計算會與me_sp相結合;設定時間序列流數(shù)據(jù)t=(…,ai,…,aj,…),ai表示時間序列流數(shù)據(jù)中某一個具體的時間序列數(shù)據(jù)點,簡稱為時序點,時序點ai包括具體的時刻ti及該時刻的實測數(shù)據(jù)值xi,ai=(xi,ti);時序點aj包括具體的時刻tj及該時刻的實測數(shù)據(jù)值xj,aj=(xj,tj);包括:

對時間序列流數(shù)據(jù)t中的每個時序點依次順序掃描,經(jīng)過每一個時序點時觀察該時序點的斜率上下界,并判斷斜率上下界是否超過單點最大數(shù)據(jù)擬合誤差me_sp;即:

設定從時序點ai開始掃描,me_sp=σ,經(jīng)過時序點aj時,時序點aj的斜率上下界的具體表示如下所示:將連接時序點ai和時序點aj所形成的直線表示為line(ai,aj);連接時序點ai和時序點aj所形成直線line(ai,aj)的斜率表示為sline(ai,aj);連接時序點ai和(aj-σ)所形成直線的斜率表示為slow(ai,aj),連接時序點ai和(aj+σ)所形成直線的斜率表示為sup(ai,aj);如果max{slow(ai,aj)}≥min{sup(ai,aj)},則將時間序列流數(shù)據(jù)t=(ai,…,aj)表示為線段(ai,aj),即line(ai,aj),完成時間序列流數(shù)據(jù)的一次初始線性分段,并以時序點aj為起始點繼續(xù)進行數(shù)據(jù)掃描;如果max{slow(ai,aj)}<min{sup(ai,aj)},則繼續(xù)掃描下一個時序點aj+1;最終得到初始數(shù)據(jù)分段。

此處設計的優(yōu)勢在于,基于滑動窗口的數(shù)據(jù)掃描操作,最大限度的滿足的時間序列流數(shù)據(jù)的分段效率,初始分段將單點最大數(shù)據(jù)擬合誤差me_sp以斜率計算的形式進行度量,會進一步加速初始“分段線性表示”的執(zhí)行速度。

根據(jù)本發(fā)明優(yōu)選的,所述步驟b中,記錄所有的數(shù)據(jù)趨勢點,數(shù)據(jù)趨勢點的選取嚴格按照用戶預先指定的斜率變化閥值以及時間范圍閥值,進行數(shù)據(jù)趨勢點的篩選。此方法是在前期研究成果的基礎上對篩選算法的進一步優(yōu)化升級,并對后續(xù)操作(初始數(shù)據(jù)片段的“分裂”與“重組”)的性能進行大幅度的提升:包括:設定時間序列流數(shù)據(jù)t=(…,ai-1,ai,ai+1…,aj,…),ai表示時間序列流數(shù)據(jù)中某一個具體的時間序列數(shù)據(jù)點,簡稱為時序點,時序點ai包括具體的時刻ti及該時刻的實測數(shù)據(jù)值xi,ai=(xi,ti);時序點ai-1包括具體的時刻ti-1及該時刻的實測數(shù)據(jù)值xi-1,ai-1=(xi-1,ti-1);時序點ai+1包括具體的時刻ti+1及該時刻的實測數(shù)據(jù)值xi+1,ai+1=(xi+1,ti+1);時序點aj包括具體的時刻tj及該時刻的實測數(shù)據(jù)值xj,aj=(xj,tj);假設ai是某一數(shù)據(jù)分段的起始點,ai同時被標記為數(shù)據(jù)趨勢點。當aj與ai滿足式(ⅰ)和式(ⅱ)時,aj為數(shù)據(jù)趨勢點;

tj-ti≥ρ(ⅰ)

此處設計的優(yōu)勢在于,數(shù)據(jù)趨勢點的選取摒棄了前期研究成果對各種轉折點、極值點、拐點、以及階躍點的分類與匯總,直接從斜率的角度對數(shù)據(jù)趨勢進行了統(tǒng)一的判定與篩選,大大提高了數(shù)據(jù)趨勢點的選取速度,通過對時序流數(shù)據(jù)中的數(shù)據(jù)趨勢點的標記,獲取反映數(shù)據(jù)趨勢的全部數(shù)據(jù)趨勢點。

根據(jù)本發(fā)明優(yōu)選的,所述步驟s3,如果初始分段數(shù)據(jù)片段的擬合誤差超過分段最大數(shù)據(jù)擬合誤差me_es,則對該初始分段數(shù)據(jù)片段內部進行二次優(yōu)化分段,包括步驟如下:

設定初始分段數(shù)據(jù)片段在時序點ai的擬合誤差超過分段最大數(shù)據(jù)擬合誤差me_es,則該初始分段數(shù)據(jù)片段從不超過時序點ai并且離ai最近的數(shù)據(jù)趨勢點aj處進行分裂,按照該方法完成所有的分裂操作。

根據(jù)本發(fā)明優(yōu)選的,所述步驟s4,包括步驟如下:

(1)將流數(shù)據(jù)緩沖區(qū)中標記為“不可分”數(shù)據(jù)分段,以及連續(xù)兩個標記為“不可分”的數(shù)據(jù)分段之間的獨立數(shù)據(jù)分段,依次移出流數(shù)據(jù)緩沖區(qū);

(2)將流數(shù)據(jù)緩沖區(qū)中剩余的相鄰數(shù)據(jù)分段進行合并,合并后的數(shù)據(jù)分段的擬合誤差不能超過me_es。

根據(jù)前兩步操作獲得的初始數(shù)據(jù)分段和數(shù)據(jù)趨勢點,在第三步對各個數(shù)據(jù)分段內部的數(shù)據(jù)擬合誤差進行誤差累加,一旦累加誤差超過了me_es所規(guī)定的數(shù)值,這說明該初始數(shù)據(jù)分段不滿足數(shù)據(jù)表示精度的要求,需要進行數(shù)據(jù)段的分裂操作。假設數(shù)據(jù)分段在某一個數(shù)據(jù)點ai處超過了預設的me_es門限值,該數(shù)據(jù)分段將會從不超過ai并且離ai最近的數(shù)據(jù)趨勢點aj處進行分裂,并繼續(xù)向后處理。分裂操作全部結束之后,需要將滿足me_sp和me_es參數(shù)限制的第一個數(shù)據(jù)分段以及其后連續(xù)的“不可分”狀態(tài)的數(shù)據(jù)分段,以及連續(xù)兩個“不可分”數(shù)據(jù)段之間的“單一”、“可分”數(shù)據(jù)分段,依次移出數(shù)據(jù)緩沖區(qū)。兩個“不可分”數(shù)據(jù)段之間的“單一”、“可分”數(shù)據(jù)段的分裂方式只有一種,且受me_es的限制無法再次合并,因此可以隨“不可分”數(shù)據(jù)分段一起移出緩沖區(qū),進一步提升流數(shù)據(jù)處理的效率。最后將緩沖區(qū)中剩余的相鄰數(shù)據(jù)分段進行合并,注意要點是相鄰的數(shù)據(jù)段進行合并。合并與否的唯一限制是合并后的數(shù)據(jù)分段的擬合誤差不能超過me_es所規(guī)定的門限值。

此處設計的優(yōu)勢在于,以me_es為標準,在最大限度的保持數(shù)據(jù)降維結果的同時,優(yōu)化了初始數(shù)據(jù)分段(簡化表示)的擬合精度,并以數(shù)據(jù)趨勢點作為分裂點進行數(shù)據(jù)分段的優(yōu)化,突出了相應時間序列流數(shù)據(jù)的數(shù)據(jù)變化趨勢和變化規(guī)律。

本發(fā)明的有益效果為:

1、本發(fā)明以基于滑動窗口的數(shù)據(jù)掃描方式為主結合斜率計算、基于數(shù)據(jù)趨勢點的分裂操作以及自底向上的數(shù)據(jù)分段重組操作,最大限度的保證了數(shù)據(jù)降維的結果,并對數(shù)據(jù)簡化表示的擬合精度進行了相應的優(yōu)化,在保證數(shù)據(jù)降維和簡化表示處理效率的基礎上,提高了數(shù)據(jù)表示的精確性。

2、本發(fā)明對時間序列流數(shù)據(jù)所進行分割壓縮處理效率較高,一定程度上滿足了流數(shù)據(jù)處理的基本要求,此外本方法在掃描數(shù)據(jù)的過程中會對反映數(shù)據(jù)趨勢的關鍵數(shù)據(jù)點進行標記,并利用這些關鍵數(shù)據(jù)趨勢點對初始分割后的數(shù)據(jù)分段進行“分裂”與“合并”優(yōu)化操作,既保證了關鍵的數(shù)據(jù)趨勢與數(shù)據(jù)特征不會在分割的過程中丟失,同時也對高維時間序列流數(shù)據(jù)進行了數(shù)據(jù)降維操作,實現(xiàn)了數(shù)據(jù)壓縮(簡化表示)的目的。經(jīng)過以上的數(shù)據(jù)分割簡化表示,時間序列流數(shù)據(jù)的數(shù)據(jù)特征得到了相應的突出,數(shù)據(jù)表達得到了簡化。因此本方法為接下來可能進行的基于時間序列流數(shù)據(jù)的分類、聚類、數(shù)據(jù)預測以及相似序列匹配與檢索等相應科研工作,打下了良好的研究基礎。

附圖說明

圖1為本發(fā)明的一種基于分段線性表示的時間序列流數(shù)據(jù)降維與簡化表示方法示意圖;

圖2為本發(fā)明的一種基于分段線性表示的時間序列流數(shù)據(jù)降維與簡化表示方法流程圖;

圖3為本發(fā)明的一種基于分段線性表示的時間序列流數(shù)據(jù)降維與簡化表示方法的斜率計算示意圖;

圖4為本發(fā)明的一種基于分段線性表示的時間序列流數(shù)據(jù)降維與簡化表示方法的數(shù)據(jù)處理標準化運行時間對比圖。

具體實施方式

下面結合說明書附圖和實施例對本發(fā)明作進一步限定,但不限于此。

實施例

一種基于分段線性表示的時間序列流數(shù)據(jù)降維與簡化表示方法,如圖2所示,包括步驟如下:

s1,預設數(shù)據(jù)分段與壓縮參數(shù),包括單點最大數(shù)據(jù)擬合誤差me_sp、分段最大數(shù)據(jù)擬合誤差me_es、數(shù)據(jù)趨勢點斜率度量參數(shù)μ、數(shù)據(jù)趨勢點時間范圍度量參數(shù)ρ;

單點最大數(shù)據(jù)擬合誤差me_sp、分段最大數(shù)據(jù)擬合誤差me_es是用戶預先指定的優(yōu)化參數(shù),通過me_sp和me_es,可以對數(shù)據(jù)表示的精度進行限制并優(yōu)化,可以實現(xiàn)以用戶指定的數(shù)據(jù)精度,進行相應的數(shù)據(jù)簡化表示。數(shù)據(jù)趨勢點斜率度量參數(shù)(μ)和數(shù)據(jù)趨勢點時間范圍度量參數(shù)(ρ),是篩選數(shù)據(jù)趨勢點的重要參數(shù),他們可以根據(jù)數(shù)據(jù)趨勢的不同進行靈活的設定,以滿足相應的數(shù)據(jù)表達要求。根據(jù)用戶對數(shù)據(jù)表達所反映的數(shù)據(jù)變化趨勢詳盡程度的要求,將參數(shù)從小到大進行調節(jié)。

s2,對時間序列流數(shù)據(jù)以滑動窗口(slidewindow)的方式進行數(shù)據(jù)掃描,掃描后的數(shù)據(jù)全部進入流數(shù)據(jù)緩沖區(qū);時間序列流數(shù)據(jù)如圖1中(a)所示;圖1中(a)到(b)是基于滑動窗口的初始數(shù)據(jù)分段過程;菱形數(shù)據(jù)點表示時間序列流數(shù)據(jù)初始分段的起點和終點,正方形數(shù)據(jù)點分別表示時間序列流數(shù)據(jù)的數(shù)據(jù)趨勢點;

a.掃描數(shù)據(jù)的同時,進行以斜率運算(slopecalculation)為基礎,并以預設參數(shù)單點最大數(shù)據(jù)擬合誤差me_sp為門限值,進行時間序列流數(shù)據(jù)的初始分段,并標記時間序列流數(shù)據(jù)初始分段點;設定時間序列流數(shù)據(jù)t=(…,ai,…,aj,…),ai表示時間序列流數(shù)據(jù)中某一個具體的時間序列數(shù)據(jù)點,簡稱為時序點,時序點ai包括具體的時刻ti及該時刻的實測數(shù)據(jù)值xi,ai=(xi,ti);時序點aj包括具體的時刻tj及該時刻的實測數(shù)據(jù)值xj,aj=(xj,tj);包括:

對時間序列流數(shù)據(jù)t中的每個時序點依次順序掃描,經(jīng)過每一個時序點時觀察該時序點的斜率上下界,并判斷斜率上下界是否超過單點最大數(shù)據(jù)擬合誤差me_sp;即:

設定從時序點ai開始掃描,me_sp=σ,經(jīng)過時序點aj時,時序點aj的斜率上下界的具體表示如下所示:將連接時序點ai和時序點aj所形成的直線表示為line(ai,aj);連接時序點ai和時序點aj所形成直線line(ai,aj)的斜率表示為sline(ai,aj);連接時序點ai和(aj-σ)所形成直線的斜率表示為slow(ai,aj),連接時序點ai和(aj+σ)所形成直線的斜率表示為sup(ai,aj);如果max{slow(ai,aj)}≥min{sup(ai,aj)},則將時間序列流數(shù)據(jù)t=(ai,…,aj)表示為線段(ai,aj),即line(ai,aj),完成時間序列流數(shù)據(jù)的一次初始線性分段,并以時序點aj為起始點繼續(xù)進行數(shù)據(jù)掃描;如果max{slow(ai,aj)}<min{sup(ai,aj)},則繼續(xù)掃描下一個時序點aj+1;最終得到初始數(shù)據(jù)分段。如圖3所示,圖3中橫坐標代表16個時序點,選取slow(ai,aj)函數(shù)的最大值max{slow(1:16)}以及sup(ai,aj)函數(shù)的最小值min{sup(1:16)},當兩條直線發(fā)生相交時,完成一次初始數(shù)據(jù)分段。

此處設計的優(yōu)勢在于,基于滑動窗口的數(shù)據(jù)掃描操作,最大限度的滿足的時間序列流數(shù)據(jù)的分段效率,初始分段將單點最大數(shù)據(jù)擬合誤差me_sp以斜率計算的形式進行度量,會進一步加速初始“分段線性表示”的執(zhí)行速度。

b.掃描數(shù)據(jù)的同時,記錄所有的時間序列流數(shù)據(jù)趨勢點(trendpoints);利用數(shù)據(jù)趨勢度量參數(shù)(μ)和(ρ)篩選滿足斜率變化門限值要求以及時間范圍門限值要求的數(shù)據(jù)趨勢點。其目的是為了大幅度的加速第三步:初始分段數(shù)據(jù)片段的“分裂”與“重組”操作。包括:時序點ai包括具體的時刻ti及該時刻的實測數(shù)據(jù)值xi,ai=(xi,ti);時序點aj包括具體的時刻tj及該時刻的實測數(shù)據(jù)值xj,aj=(xj,tj);假設ai是某一數(shù)據(jù)分段的數(shù)據(jù)趨勢點。當aj與ai滿足式(ⅰ)和式(ⅱ)時,aj為數(shù)據(jù)趨勢點;

tj-ti≥ρ(ⅰ)

此處設計的優(yōu)勢在于,數(shù)據(jù)趨勢點的選取摒棄了前期研究成果對各種轉折點、極值點、拐點、以及階躍點的分類與匯總,直接從斜率的角度對數(shù)據(jù)趨勢進行了統(tǒng)一的判定與篩選,大大提高了數(shù)據(jù)趨勢點的選取速度,通過對時序流數(shù)據(jù)中的數(shù)據(jù)趨勢點的標記,獲取反映數(shù)據(jù)趨勢的全部數(shù)據(jù)趨勢點。

s3,以分段最大數(shù)據(jù)擬合誤差me_es作為門限值,對流數(shù)據(jù)緩沖區(qū)中的初始分段數(shù)據(jù)片段進行擬合誤差評估,判斷初始分段數(shù)據(jù)片段的擬合誤差是否超過分段最大數(shù)據(jù)擬合誤差me_es,如果初始分段數(shù)據(jù)片段的擬合誤差不超過分段最大數(shù)據(jù)擬合誤差me_es,則保留該初始分段數(shù)據(jù)片段,并將其標記為“不可分”,最大程度的保持初始數(shù)據(jù)分段(數(shù)據(jù)降維)的結果;如果初始分段數(shù)據(jù)片段的擬合誤差超過分段最大數(shù)據(jù)擬合誤差me_es,則對該初始分段數(shù)據(jù)片段內部進行二次優(yōu)化分段;包括步驟如下:設定初始分段數(shù)據(jù)片段在時序點ai的擬合誤差超過分段最大數(shù)據(jù)擬合誤差me_es,則該初始分段數(shù)據(jù)片段從不超過時序點ai并且離ai最近的數(shù)據(jù)趨勢點aj處進行分裂,如圖1中(b)、(c)所示,以me_es為參照,對分段中的擬合誤差進行累加。分段的擬合誤差累加值均沒有超過me_es的限制將其標記為“不可分”,而數(shù)據(jù)分段中的擬合誤差累加值已超過me_es的限制,則需要進行分裂操作,將該數(shù)據(jù)從不超過累加誤差的最近的數(shù)據(jù)趨勢點處進行分裂。按照該方法完成所有的分裂操作。

s4,將流數(shù)據(jù)緩沖區(qū)中標記為“不可分”數(shù)據(jù)分段移出流數(shù)據(jù)緩沖區(qū),判斷是否還有待處理的時間序列流數(shù)據(jù),如果有,返回步驟s2,否則,結束。從圖1中(c)到(d)將第一個數(shù)據(jù)分段、標記為“不可分”的數(shù)據(jù)分段、以及兩個被標記為“不可分”的數(shù)據(jù)分段之間的單一、“可分”數(shù)據(jù)分段(以新的分裂形式進行表示)一起移出緩沖區(qū)。剩余數(shù)據(jù)分段將會從數(shù)據(jù)趨勢點出進行分裂,并嘗試與其前后相鄰的數(shù)據(jù)分段進行合并操作,合并操作同樣會受me_es的限制。迭代循環(huán)下一次的流數(shù)據(jù)簡化表示操作,將完成初始分割操作的后續(xù)數(shù)據(jù)分段移入緩沖區(qū)。

此處設計的優(yōu)勢在于,以me_es為標準,在最大限度的保持數(shù)據(jù)降維結果的同時,優(yōu)化了初始數(shù)據(jù)分段(簡化表示)的擬合精度,并以數(shù)據(jù)趨勢點作為分裂點進行數(shù)據(jù)分段的優(yōu)化,突出了相應時間序列流數(shù)據(jù)的數(shù)據(jù)變化趨勢和變化規(guī)律。

本發(fā)明所提出的基于數(shù)據(jù)趨勢點(trendpoints)的“分段線性”數(shù)據(jù)表示方法,簡稱為plr_tp,與我們前期研究成果:continuoussegmentationalgorithmbasedonturningpoints(cs_tp)以及傳統(tǒng)的時間序列流數(shù)據(jù)表示方法:slidingwindowandbottom-up(swab)、feasiblespacewindow(fsw)、stepwisefsw(sfsw),在不同的私有數(shù)據(jù)集和開源數(shù)據(jù)集上分別進行數(shù)據(jù)表示精度和數(shù)據(jù)表示效率的比較。為了更加清晰的比較相關方法的優(yōu)劣,我們以swab的數(shù)據(jù)表示結果為標準值1,在相同的門限值me_sp下,所獲得的標準化數(shù)據(jù)擬合誤差,如下表2所示。

表2

表2中,jmshsd:濟南市供熱時間序列數(shù)據(jù),longda:龍大食品有限公司冷凍時間序列數(shù)據(jù),ecg:心電圖時間序列數(shù)據(jù),phone:手機信號時間序列數(shù)據(jù),powerplant:發(fā)動機時間序列數(shù)據(jù),wind:風力時間序列數(shù)據(jù)。

根據(jù)表2所示結果,plr_tp的數(shù)據(jù)表示能夠提供比傳統(tǒng)方法(swab、fsw、sfsw)更高的數(shù)據(jù)擬合精度,擬合精度平均提高16%以上。與cs_tp方法相比,plr_tp的數(shù)據(jù)表示精度略有提升(cs_tp也是目前很好的數(shù)據(jù)表示方法之一),但是plr_tp對時間序列流數(shù)據(jù)的處理效率相比cs_tp平均提高了25%,如圖4所示。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1