本發(fā)明涉及對技術(shù)設(shè)備中測量信號的證實,該技術(shù)設(shè)備比如是具有用于壓力、電壓、電流等的多個傳感器的能量生成設(shè)備。特別地,本發(fā)明涉及一種用于檢測傳感器測量結(jié)果的兩個或更多個數(shù)據(jù)流中的依賴性的方法、涉及一種電子模塊以及涉及一種計算機程序。
用于技術(shù)值(比如電壓、電流、壓力等)的傳感器通常用在大規(guī)模無線傳感器網(wǎng)絡(luò)(wsn)中。傳感器網(wǎng)絡(luò)可以用于遠(yuǎn)程監(jiān)控技術(shù)設(shè)備和工業(yè)工廠。這種進(jìn)步已經(jīng)刺激了對于對高維流送數(shù)據(jù)起作用的過程和應(yīng)用的需要。流送數(shù)據(jù)分析涉及其中在信息的無限制的流中處理記錄的應(yīng)用。該類型的數(shù)據(jù)的性質(zhì)和量使傳統(tǒng)的批量學(xué)習(xí)極其困難,且自然地適合于在數(shù)據(jù)上以一遍(即,以在線方式)起作用的算法。為了實現(xiàn)從批量到在線算法的轉(zhuǎn)變,基于窗口的和增量的算法是流行的,常常有利于在確切結(jié)果上的啟發(fā)法。
代替于僅僅依賴于單流統(tǒng)計來例如檢測異?;蛘业綌?shù)據(jù)中的模式,本發(fā)明涉及其中許多傳感器被用于極為靠近地監(jiān)控或監(jiān)控密切有關(guān)的現(xiàn)象(例如,在空間上極為靠近的溫度傳感器或大型渦輪機中的電壓和轉(zhuǎn)子速度傳感器)的環(huán)境。
在現(xiàn)有技術(shù)中,已知若干途徑以檢測成對相關(guān)性或數(shù)據(jù)流的對或組之間的依賴性。成對相關(guān)性的最佳已知指示符是皮爾遜(pearson)的相關(guān)性系數(shù)ρ,其實質(zhì)上是兩個隨機變量之間的歸一化協(xié)方差。然而,對ρ的直接計算是過分昂貴的,并且更成問題的是,它僅僅是線性關(guān)系或經(jīng)線性變換的關(guān)系的合適指示符。時間序列中的非線性已經(jīng)在某種程度上被研究且可能例如由于方差中的移位或僅在底層過程由非線性函數(shù)確定的情況下發(fā)生。
因此,本發(fā)明的目的是提供減少傳感器信號測量結(jié)果中的誤差的選項。此外,傳感器數(shù)據(jù)分析應(yīng)當(dāng)被加速且應(yīng)當(dāng)特別地以線性執(zhí)行時間而可執(zhí)行。
根據(jù)第一方面,本發(fā)明涉及一種用于檢測被記錄在技術(shù)設(shè)備上、特別是能量生成設(shè)備中的傳感器測量結(jié)果的至少兩個數(shù)據(jù)流的依賴性的方法。所述方法包括以下步驟:
-捕獲傳感器數(shù)據(jù)的流;
-定義具有滑動窗口的形式的用于分析的數(shù)據(jù)結(jié)構(gòu),所述滑動窗口在傳感器數(shù)據(jù)的相應(yīng)流上增量地移動,使得在相繼的窗口之間存在重疊。優(yōu)選地,在某個時間階段內(nèi)并行地在傳感器數(shù)據(jù)的所有流上移動窗口。
-在滑動窗口內(nèi)的數(shù)據(jù)上應(yīng)用基于熵的算法以用于計算數(shù)據(jù)流依賴性,而同時增量地移動滑動窗口,其中滑動窗口中的僅更新的數(shù)據(jù)由基于熵的算法處理。
數(shù)據(jù)流是傳感器信號測量數(shù)據(jù)的序列。所述序列可以是數(shù)字或其它值或者數(shù)字或模擬信號的序列。通常,并行處理多個數(shù)據(jù)流。特別地,至少兩個流被比較,并且所有流可以成對地被比較。數(shù)據(jù)流可以是直接從傳感器捕獲的或者可以是從存儲器儲存器讀入的。
滑動窗口是一種數(shù)據(jù)結(jié)構(gòu),其在數(shù)據(jù)流上虛擬地移動。滑動窗口可以被理解為具有可配置的長度或?qū)挾惹野ㄒ欢康臄?shù)或數(shù)字的數(shù)據(jù)集。窗口在所有流上并行地移動并包含來自從指定長度的時間段來的所有流的數(shù)據(jù)。
傳感器信號可以源于能量生成設(shè)備或其部分(比如渦輪機)或源于其它技術(shù)設(shè)備。傳感器信號可以是指溫度、壓力、電壓、電流、電阻等的測量結(jié)果,且通常被表示為實數(shù)但可以被分類地表示(例如“高”、“低”、“正?!?、“安全”、“不安全”等)。
基于熵的算法基于相應(yīng)數(shù)據(jù)流的互信息。
在優(yōu)選的實施例中,滑動窗口的寬度在配置階段中被配置。配置階段在算法的執(zhí)行時間之前被執(zhí)行且服務(wù)于定義可配置的參數(shù)。
在另一優(yōu)選的實施例中,所述方法是實時地執(zhí)行的。這意味著利用每新數(shù)據(jù)恒定量的處理步驟來執(zhí)行所述方法:
-用于數(shù)據(jù)的離散化(至少針對具有在線離散化的本發(fā)明的omid實施例)
-用于更新概率分布
-用于計算依賴性評分,
-其中以上提及的相應(yīng)步驟構(gòu)建在彼此上。
在另一優(yōu)選的實施例中,在輸出設(shè)備上提供結(jié)果,所述結(jié)果表示在傳感器數(shù)據(jù)流之間是否存在依賴性以及如果是則依賴性是否被正確地表示。結(jié)果可以以圖形方式被表示,特別是以基于直方圖的格式。
通常,所述方法用于檢測數(shù)據(jù)流中的誤差和/或相關(guān)性。
優(yōu)選地,滑動窗口的寬度被配置,諸如,提供相繼窗口之間的最小重疊。
作為優(yōu)勢,待分析的相應(yīng)數(shù)據(jù)流可以包括連續(xù)和/或離散的數(shù)據(jù)。
在本發(fā)明的實施例——所謂的mid實施例中,數(shù)據(jù)流的依賴性以逐窗口的方式被計算。優(yōu)選地,該實施例被用作所謂的omid實施例(參見下文)內(nèi)的中間步驟。在mid途徑中,離散化僅僅基于相應(yīng)窗口內(nèi)的、在相應(yīng)時間點處已知的數(shù)據(jù)。該實施例允許增量處理。在該所謂的mid實施例中,值的離散化可以隨窗口而改變。因此,有必要為每個窗口重新計算熵。
在本發(fā)明的更優(yōu)選的實施例——所謂的omid實施例中,數(shù)據(jù)流的依賴性以增量的方式并且——特別地——借助于在線離散化而被計算。在這方面,術(shù)語“在線”是指在沒有傳感器數(shù)據(jù)的整個數(shù)據(jù)流的在先知識的情況下的離散化。換言之,傳感器數(shù)據(jù)可以以在線方式從傳感器讀入。在該實施例中,用于處理互信息的算法被適配成omid,所述omid是用以檢測數(shù)據(jù)流之間的依賴性的便利的全局度量。在該所謂的omid實施例中,僅針對更新的窗口數(shù)據(jù)的新增量而處理熵,而在以上提及的mid實施例中,總是針對窗口中的所有數(shù)據(jù)而處理熵。
根據(jù)另一方面,本發(fā)明涉及一種用于檢測被記錄在技術(shù)設(shè)備上、特別是能量生成設(shè)備中的傳感器測量結(jié)果的至少兩個數(shù)據(jù)流的依賴性的電子模塊,包括:
-輸入接口,其被適配用于從傳感器捕獲傳感器數(shù)據(jù)的流;
-具有滑動窗口的形式的用于分析的數(shù)據(jù)結(jié)構(gòu),所述滑動窗口在傳感器數(shù)據(jù)的相應(yīng)流上增量地移動,使得在相繼的窗口之間存在重疊;以及
-處理器,其被適配成在滑動窗口內(nèi)的數(shù)據(jù)上應(yīng)用基于熵的算法以用于計算數(shù)據(jù)流依賴性,而同時增量地移動滑動窗口,其中滑動窗口中的僅更新的數(shù)據(jù)由基于熵的算法處理。
在另一方面中,本發(fā)明涉及一種有形地體現(xiàn)機器可讀指令的程序的計算機程序產(chǎn)品,所述程序可由數(shù)字處理裝置執(zhí)行以便在所述程序在所述數(shù)字處理裝置上執(zhí)行的情況下執(zhí)行根據(jù)前述權(quán)利要求之一的方法。
算法利用傳感器對之間的信息(其在某種意義上是冗余的或更確切地說是共享的信息)來證實測量結(jié)果。手頭的任務(wù)于是變成可靠且高效地計算和報告數(shù)據(jù)流的對或組之間的依賴性。根據(jù)本發(fā)明,可以檢測不尋常的傳感器讀數(shù)。有可能在其中這些讀數(shù)一方面由于所監(jiān)控的系統(tǒng)中的實際改變所致或另一方面由于測量不確定性所致的情況之間進(jìn)行區(qū)分。
算法用于基于時間序列之間的互信息來檢測高容量和高維數(shù)據(jù)流中的依賴性。本途徑的三重優(yōu)勢是:互信息捕獲全局依賴性,在算法上適合于以增量方式計算,且能夠被高效地計算以應(yīng)對高數(shù)據(jù)容量而無需近似捷徑。這導(dǎo)致計算起來顯著更快且同時更精確的依賴性度量。
在另一方面中,本發(fā)明涉及一種體現(xiàn)機器可讀指令的程序的有形性,所述程序可由數(shù)字處理裝置、比如計算機執(zhí)行以執(zhí)行用于檢測源于技術(shù)設(shè)備的兩個或更多個傳感器數(shù)據(jù)流中的依賴性的方法。所述程序可以被存儲在計算機可讀介質(zhì)上。
附圖說明
圖1示出了針對數(shù)據(jù)流的互信息的成對計算和滑動窗口的示意性表示,其中窗口大小w=5并且|s|=3。
圖2示出了ol數(shù)據(jù)集上的roc曲線下方的區(qū)域;并且
圖3示出了ol數(shù)據(jù)集上的f1值,其中被虛線分離的區(qū)域示出期望相關(guān)性的不同水平處的性能。
圖4表示pa數(shù)據(jù)集上的roc曲線下方的區(qū)域;并且
圖5示出了pa數(shù)據(jù)集上的f1值,其中被虛線分離的區(qū)域示出期望相關(guān)性的不同水平處的性能。
圖6表示na數(shù)據(jù)集上的roc曲線下方的區(qū)域;并且
圖7示出了na數(shù)據(jù)集上的f1值,其中被虛線分離的區(qū)域示出期望相關(guān)性的不同水平處的性能。
圖8表示在5個運行上平均的執(zhí)行時間,其中在(從左到右)ol、pa、na數(shù)據(jù)集上有增大的窗口長度。
圖9是算法i/mid和算法ii/omid的正式化的概念。
圖10是根據(jù)本發(fā)明的實施例的具有相應(yīng)模塊的框圖;并且
圖11是示出了用于不同相關(guān)性檢測算法的處理時間的圖。
具體實施方式
{dionisio2004}主張,互信息是隨機變量之間的依賴性的實際度量,其與線性相關(guān)性系數(shù)直接可比,但具有以下附加優(yōu)勢:在沒有底層理論概率分布或均值-方差模型的知識的情況下以線性和非線性關(guān)系為目標(biāo)捕獲全局依賴性。
statstream{zhu2002}和peaksimilarity{seliniotaki2014}是監(jiān)控流相關(guān)性的算法。二者都采用離散傅里葉變換(dft)的變體以基于dft的數(shù)據(jù)壓縮質(zhì)量來檢測相似性。更具體地,它們利用:dft將時間序列的信息內(nèi)容中的大多數(shù)壓縮在少數(shù)系數(shù)中,并在這些系數(shù)上開發(fā)相似性度量。statstream還使用散列法來減少執(zhí)行時間。
根據(jù)本發(fā)明的算法基于互信息。算法的準(zhǔn)確性和執(zhí)行時間與基于dft的度量和相關(guān)性系數(shù)相比。
互信息
互信息是源自香農(nóng)(shannon)信息論的構(gòu)思,且可以被認(rèn)為是一個變量根據(jù)另一個變量的可預(yù)測性。針對算法而利用其性質(zhì)中的一些。由于數(shù)學(xué)方面是相當(dāng)眾所周知的且例如在別處被廣泛地描述,所以僅基本背景和所需的概念將在此處被提及。
變量x和y之間的互信息被定義為:
或者等同地被定義為香農(nóng)熵h(x)和條件熵h(x|y)之間的差:
香農(nóng)熵和條件熵被定義為:
i(x;y)被限制在0和max(h(x),h(y))=log(max(|x|,|y|))之間,因此我們可以定義歸一化的
接下來,我們想要為時間t處的流
圖1展示了具有三個維度的流的基本窗口途徑。
更新互信息
為了將互信息整合到流送算法中,我們利用dt和dt+1之間的重疊。我們隱式地假定為1的步長k,其意味著:我們以可能的最小增量移動窗口以實現(xiàn)最佳分辨率。在一些情況下,可能期望更大的步長,但相同的原理一般適用,只要相繼窗口之間的重疊較大或
從等式1中我們立即看到,對于dt的計算,我們僅需要針對每對(si,sj)的概率p(x,y)以及針對n個流si的p(x)。此外,一旦我們從時間t移動一個時間步到t+1,我們就能夠從dt更新dt+1,這是因為大多數(shù)所涉及的概率以及由此在必要的總和中的大多數(shù)項保持恒定。隨著數(shù)據(jù)上的窗口繼續(xù)移動,過時的元素mt掉落出并且新的元素mt+w+1進(jìn)入。針對每個流的概率p(mt)和p(mt+w+1)以及相應(yīng)的聯(lián)合概率需要被調(diào)整成p'(mt)等,其在恒定時間中完成。
例如,對于特定的對sit+1、sjt+1,我們已經(jīng)知道
并使用
并同樣地定義
并在條件熵求和中更新所有聯(lián)合概率
與等式6相比,我們擺脫了雙重和,這將昂貴的對數(shù)運算的次數(shù)從二次減少至線性(分別在si和sj的樣本空間的大小方面)。此外,在實踐中,?(m)和?(m,n)合意地常常等于零,從而進(jìn)一步減少所需的運算次數(shù)。總而言之,我們將時間復(fù)雜度降低至
概率分布函數(shù)(pdf)的在線估計
為了確定我們需要以計算熵和互信息的(經(jīng)驗)概率分布函數(shù),剩下兩個問題。首先,數(shù)據(jù)流常常包含名義事件數(shù)據(jù)和真實值二者。因此,我們的模型需要應(yīng)對連續(xù)和離散的數(shù)據(jù)類型二者。其次,單流值和聯(lián)合概率二者的底層分布通常未知且必須根據(jù)數(shù)據(jù)而估計。
存在用公式表示概率分布估計的三種基本途徑:參數(shù)方法、基于內(nèi)核的方法和分倉(binning)。參數(shù)方法需要對隨機過程的特定假定,并且基于內(nèi)核的方法具有大量的可調(diào)諧參數(shù),其中明智的選擇是困難的并且調(diào)整不善將導(dǎo)致偏置或錯誤的結(jié)果。{dionisio2004}分倉或基于直方圖的估計器因此是對于連續(xù)數(shù)據(jù)而言更安全且更可行的選擇,其已經(jīng)被很好地研究,且自然適合于離散數(shù)據(jù)。它們已經(jīng)令人信服地被用在不同應(yīng)用中。{dionisio2004}量化、觀察的有限數(shù)目和直方圖的有限界限——依賴于特定的應(yīng)用——可能導(dǎo)致偏置的結(jié)果。然而,{dionisio2004}主張,既等距又等概率的分倉導(dǎo)致互信息的一致估計器。
在兩種基本的離散化方式(等寬度或等頻率)中,等寬度的分倉執(zhí)行起來在算法上略微更容易,這是因為僅有必要保持跟蹤當(dāng)前最小值和最大值。等頻率的分倉需要更多努力,但已經(jīng)被示出為用于互信息的更好估計器。我們在分離的實驗集中對此進(jìn)行了確認(rèn)并因此將等頻率的分倉用于我們的度量。
對于我們的算法,我們可以在逐窗口的基礎(chǔ)上離散化,或采用在線離散器。對于后者,我們選擇pid。逐窗口的離散化向我們給出對數(shù)據(jù)的局部視圖,這是因為它僅依賴于窗口中的數(shù)據(jù)的性質(zhì),但也限于當(dāng)前可用的數(shù)據(jù)。另一方面,在線離散化結(jié)合測量結(jié)果上的先前知識,即,到目前為止所見的分布的全局密度。
常規(guī)的等頻率離散化對所有值進(jìn)行分類并將它們劃分在相等大小的倉中。那對于當(dāng)前窗口、流的局部區(qū)段而言是合理的,但對于整個流而言顯然不可能。立即離散化和對數(shù)據(jù)上以單遍進(jìn)行的分布的全局視圖利用在線離散化步驟而實現(xiàn)。給線性運行時間帶來直方圖邊界,具有在
我們因此具有兩個變體來計算
基于窗口的離散化可能改變窗口中的直方圖邊界,且因此改變每一步處的底層經(jīng)驗概率分布。它保證了針對當(dāng)前窗口的正確邊界,但必須利用每一個窗口中的每個值而重新計算。與omid一起使用的離散化不太精確,但在當(dāng)前窗口之外是穩(wěn)定的(每個值被指派到獨立于窗口位置的相同倉),這允許在(上面的)“更新互信息”章節(jié)中描述的更新過程。這意味著針對mid的更大準(zhǔn)確性和針對omid的更好運行時間。我們在(下面的)“實驗評估”章節(jié)中評估和比較這兩種變體的實際結(jié)果。
圖9以抽象概念語言(即,以偽代碼)示出了兩種算法mid和omid。
實驗評估
我們對照用于流相關(guān)性監(jiān)控的兩種其它算法且在三個數(shù)據(jù)集上評估m(xù)id和omid。針對個體數(shù)據(jù)集的結(jié)果在圖2至7中被示出。表i和ii示出了將方法與彼此比較的概覽。
數(shù)據(jù)集
我們使用三個數(shù)據(jù)集來評估具有不同數(shù)目的時間步和維度的我們的算法,范圍從總計32.000到830萬個測量結(jié)果。它們已經(jīng)用于一致地仿真高容量數(shù)據(jù)流并允許方法的比較。
nasdaq(na)包含來自2014年和2015年的100個股市指數(shù)的每日進(jìn)程信息,其中總計有320天內(nèi)的600個指示符(包括例如開放和高的進(jìn)程或交易量)。
personalactivity(pa)是運動捕獲的數(shù)據(jù)集,其中若干傳感器已經(jīng)被置于四處移動的五個人身上。傳感器記錄他們的三維位置。該數(shù)據(jù)集包含各自來自5.255個時間步的75個數(shù)據(jù)點。
office(ol)是由berkley研究實驗室給出的數(shù)據(jù)集,其從被置于實驗室辦公室中的傳感器收集了關(guān)于溫度、濕度、光和電壓的數(shù)據(jù)。我們使用32個傳感器的子集,這是因為在集合中存在大的間隙。子集仍包含已利用缺失值指示符填入的一些間隙??偣?,這些數(shù)據(jù)集包含65.537個時間步上的128個測量結(jié)果。
實驗設(shè)置
窗口大小w確定我們感興趣的相關(guān)性的尺度且最后必須由用戶選擇。出于該評估的目的,我們針對傳感器數(shù)據(jù)集將它設(shè)置成等同于30秒且針對股市數(shù)據(jù)集將它設(shè)置成等同于4周。用于離散化的倉的數(shù)目b需要足夠小以避免直方圖中的單元集,但需要足夠大以映射數(shù)據(jù)分布。作為折衷,我們針對實驗而選擇了b=20。我們計算每個維度與每個其它維度(例如,電壓與溫度)的依賴性。因此,對于數(shù)據(jù)集
評估準(zhǔn)則
我們選擇了在從弱到強相關(guān)性的六個相關(guān)性水平處評估我們的算法,其中我們將分別具有處于0.66、0.75、0.85、0.9、0.95和0.99以上的相關(guān)性系數(shù)的經(jīng)窗口化的流對視為感興趣的。因此,我們將每一個窗口分類為0或1。對于每一個水平,我們提供roc曲線下方的區(qū)域作為分類度量,其獨立于數(shù)據(jù)集中真陽性的數(shù)目。該數(shù)目自然隨期望的相關(guān)性水平而變化。此外,我們報告沿針對每個算法的精確率召回率曲線的最大f1度量,即,精確率和召回率的調(diào)和均值。
結(jié)果
圖2至7示出了針對這三個數(shù)據(jù)集的f1度量(±標(biāo)準(zhǔn)差)和auc(±標(biāo)準(zhǔn)差)。已經(jīng)通過向每對流窗口分配均勻地從[0,1]中選為依賴性度量的隨機值來確定隨機。
下表1示出了所有數(shù)據(jù)集的直接概覽:數(shù)字指示24個實驗中行相對于列的auc中的顯著改善(雙側(cè)t-測試中p值<0.1)。omid評分總計51:
所有數(shù)據(jù)集的直接概覽:數(shù)字指示24個實驗中行相對于列的auc中的顯著改善(雙側(cè)t-測試中p值<0.1)。omid評分總計51。
下表ii示出了所有數(shù)據(jù)集的直接概覽:數(shù)字指示24個實驗中行相對于列的f1值中的顯著改善(雙側(cè)t-測試中p值<0.1)。mid和omid評分各自40贏。
考慮到roc曲線下方的區(qū)域,我們看到我們的以基于窗口的版本存在的方法清楚地在除一個外的所有數(shù)據(jù)集中勝過其它相關(guān)性度量。通常,等頻率分倉顯得更好,但具有僅一個值的集群使直方圖邊界偏斜向具有極少信息的一個大倉和若干單元集倉。在該情況下,就這一次,等寬度分倉更好地應(yīng)對偏斜并實現(xiàn)與增量度量(未示出)可比的結(jié)果。增量分倉自身也很好地應(yīng)對缺失的值,這是因為直方圖邊界并不強烈依賴于局部集群(參見3)。
增量版本omid由于在分倉中不可避免的精確率損失而在直接與mid相比時一般表現(xiàn)得并不同樣好,但仍遠(yuǎn)勝于基于dft的度量。在36個情況中的24個和36個中,mid和omid相比于基于dft的度量而有所改善。基于窗口的度量和增量度量之間的差異在所有18個情況中在統(tǒng)計上顯著(雙側(cè)t-測試中p值<0.05),6個情況有利于omid,12個情況有利于mid,但對于omid有總體最佳性能。表1示出了針對auc的成對比較的完全矩陣。
f1值示出了類似的圖景:在所有三個數(shù)據(jù)集中,omid相比于其它方法而有所改善。再一次,我們看到執(zhí)行omid與mid不相上下且分別在36個情況中的30個和28個中二者都勝過基于dft的方法。表ii示出了針對f1值的成對比較的完全矩陣。
總而言之,盡管我們預(yù)期了由于輕微波動的離散化所致的某種劣化,但是omid表現(xiàn)得與mid等同地好,且在應(yīng)對異常(比如數(shù)據(jù)中的缺失值)時甚至經(jīng)證明更好。作為對于相關(guān)性系數(shù)的代理,二者都比基于dft的方法顯著更好地起作用。令我們驚訝的是,兩種基于dft的度量在一些數(shù)據(jù)集中表現(xiàn)得勉強優(yōu)于隨機。
執(zhí)行時間
所有實驗已經(jīng)在具有intelxeon1.80ghzcpu和消費者等級硬件、運行具有當(dāng)前64位內(nèi)核的linux且以python3.4實現(xiàn)的pc上執(zhí)行。圖8示出了在不同相關(guān)性度量的5次運行上的執(zhí)行時間。
考慮到成對依賴性的數(shù)目逐漸變?yōu)樗O(jiān)控的維度的數(shù)目中的二次,那么計算速度是應(yīng)對高維數(shù)據(jù)的要素。清楚地,相關(guān)性系數(shù)的直接計算對于大數(shù)據(jù)集以及窗口內(nèi)的較高數(shù)據(jù)容量而言不具競爭性。mid顯得大約與peaksim和statstream不相上下。最快的度量是增量版本omid,這是由于窗口大小僅通過計算中的開銷(例如,通過減緩計算的較少零概率)間接地影響計算時間。
結(jié)論
本發(fā)明涉及一種用于檢測傳感器數(shù)據(jù)的多個數(shù)據(jù)流中的依賴性的高效方法,其在圖10中被示意性地表示。
傳感器測量結(jié)果被記錄在技術(shù)設(shè)備20上,特別是能量生成設(shè)備中。電子模塊包括輸入接口1,輸入接口1被適配用于從技術(shù)能量設(shè)備20的不同傳感器s1、s2、s3、……捕獲傳感器數(shù)據(jù)的流。設(shè)備20還可以分布在若干工廠和實體上。以滑動窗口的形式提供用于分析的數(shù)據(jù)結(jié)構(gòu)10,該滑動窗口在傳感器數(shù)據(jù)的相應(yīng)流上增量地移動,使得在滑動窗口中相繼的窗口之間存在重疊。處理器p,其被適配成在滑動窗口內(nèi)的數(shù)據(jù)上應(yīng)用基于熵的算法以用于計算數(shù)據(jù)流依賴性,而同時增量地移動滑動窗口,其中滑動窗口中的僅更新的數(shù)據(jù)由基于熵的算法(omid)處理。傳感器數(shù)據(jù)之間的所檢測的依賴性和/或相關(guān)性的結(jié)果被轉(zhuǎn)發(fā)到輸出接口2,且可以以基于直方圖的方式在顯示設(shè)備m上顯示。處理器p可以連接到儲存介質(zhì)mem。
圖11示出了針對用于檢測相關(guān)性的不同方法的處理時間。最頂部的黑線示出了相關(guān)性系數(shù)的樸素處理,而最下部的虛線示出了根據(jù)本發(fā)明的互信息的計算,并且其它三條線示出了每個不同計算和近似。曲線圖示出了與以秒為單位的處理時間(在y坐標(biāo)上)相比的增大的窗口長度和粒度(在x坐標(biāo)上)。
我們將互信息、來自信息論的構(gòu)思開發(fā)成一種可有助于評估傳感器讀數(shù)或其它流送數(shù)據(jù)的度量。我們描述了增量算法來以與數(shù)據(jù)流的長度呈線性的時間復(fù)雜度計算我們的基于互信息的度量。利用合適的在線離散化來實現(xiàn)線性執(zhí)行時間。我們在具有高達(dá)830萬個記錄的三個真實生活數(shù)據(jù)集上且對照用以檢測數(shù)據(jù)流中的相關(guān)性的兩種其它算法評估了我們的算法。它與可比的非增量版本一樣準(zhǔn)確且在應(yīng)對數(shù)據(jù)中的局部間隙時甚至更好。
在另外的實施例中,將針對來自成對的依賴性的搜索擴展到3個或更多個流的組可以是可能的,這提高了計算復(fù)雜度但帶來了將分析擴展到基于熵的自組織群集的潛力?;バ畔⒔o流分析帶來不同的視角,其獨立于關(guān)于數(shù)據(jù)流的分布或數(shù)據(jù)流之間的關(guān)系的假定。
文獻(xiàn):
dionisio2004--
a.dionisio,r.menezes和d.a.mendes,“mutualinformation:ameasureofdependencyfornonlineartimeseries”physicaa:statisticalmechanicsanditsapplications,vol.344,no.1,pp.326-329,2004.
seliniotaki2014--
a.seliniotaki,g.tzagkarakis,v.christofides和p.tsakalides,“streamcorrelationmonitoringforuncertainty-awaredataprocessingsystems”于信息、智能、系統(tǒng)和應(yīng)用,iisa2014,第5屆關(guān)于ieee的國際會議,2014,pp.342-347中.
zhu2002--
y.zhu和d.shasha,“statstream:statisticalmonitoringofthousandsofdatastreamsinrealtime”在第28屆關(guān)于非常大數(shù)據(jù)庫的國際會議的會刊中.vldb資助,2002,pp.358-369。