亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于事件查詢的索引加速模式匹配方法、裝置及存儲介質(zhì)

文檔序號:40399195發(fā)布日期:2024-12-20 12:22閱讀:8來源:國知局
一種用于事件查詢的索引加速模式匹配方法、裝置及存儲介質(zhì)

本發(fā)明涉及時序數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種用于事件查詢的索引加速模式匹配方法、裝置及存儲介質(zhì)。


背景技術(shù):

1、物聯(lián)網(wǎng)設(shè)備的快速增長讓我們能夠收集到更多真實世界物理數(shù)據(jù),從而增強我們對周圍環(huán)境的感知能力。在海量的物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)中,識別特定的模式信息對于幫助用戶做出更好的決策顯得尤為重要??紤]以下三個應(yīng)用場景:

2、(1)智能電網(wǎng)監(jiān)測場景:每個電樁/電箱都配備了電流、電壓和溫度傳感器。在某個時刻,如果發(fā)現(xiàn)某個電流傳感器顯示電流急劇增加,并且該傳感器附近的溫度傳感器在接下來的一段時間內(nèi)溫度上升到較高的閾值,這可能表明電樁附近的電線發(fā)生斷裂并導(dǎo)致了火災(zāi)。因此,需要監(jiān)控設(shè)備發(fā)出報警,以便及時通知相關(guān)人員處理電線斷裂起火的問題。

3、(2)礦業(yè)車輛智能跟蹤場景:每輛運輸車都配備了傳感器,車間配有自動稱重和高度測量設(shè)備。礦車司機需要在規(guī)定時間內(nèi)完成礦物的開采、稱重、測量和卸載工作,以確保每次運輸符合安全規(guī)定,并將礦物卸載到指定地點。智能調(diào)度中心會實時監(jiān)測車輛狀態(tài)信息(這里把同一時刻監(jiān)測到的信息視為一個事件),根據(jù)合規(guī)運輸趟數(shù)的礦物總重量,自動為司機每日結(jié)算報酬。

4、(3)集群監(jiān)控場景:管理節(jié)點會實時追蹤每個任務(wù)調(diào)度時的關(guān)鍵硬件資源使用情況。如果發(fā)現(xiàn)某臺機器上的大部分任務(wù)在短時間內(nèi)經(jīng)歷了提交、調(diào)度、終止或逐出的連續(xù)事件,并且該機器的cpu和內(nèi)存使用率很高,這表明可能有計算密集型任務(wù)正在運行。因此,在該任務(wù)完成前,管理節(jié)點應(yīng)將其他任務(wù)轉(zhuǎn)移到其他機器上執(zhí)行。

5、在上述三個應(yīng)用場景中,多個原始事件與屬性值和時間窗口約束關(guān)系結(jié)合起來,形成了一個復(fù)雜的事件模式。要檢測上述模式,就需要運用模式匹配技術(shù)。然而,在海量數(shù)據(jù)的情況下,模式匹配技術(shù)在挖掘出用戶定義的模式面臨著高延遲的挑戰(zhàn)。這種高延遲主要源于昂貴的磁盤讀取和內(nèi)存中的計算操作。因此,在復(fù)雜事件識別過程中,如何有效地減少磁盤讀取和內(nèi)存中的計算開銷以降低查詢延遲,成為當前亟待解決的問題。

6、著名的關(guān)系型數(shù)據(jù)庫,例如mysql、postgresql和oracle等,基本都使用到了樹型索引b+樹來加速屬性謂詞過濾。然而,b+樹查詢選擇率高的謂詞時,一方面,其需要從磁盤中讀取索引來獲取滿足條件的事件,導(dǎo)致昂貴的磁盤讀取開銷;另一方面,獲取完滿足條件的事件之后,還需要對這些事件進行排序(匹配引擎要求輸入有序的事件集合以產(chǎn)生匹配結(jié)果),當數(shù)據(jù)量很大時,排序會帶來昂貴的計算開銷。因此,傳統(tǒng)樹型索引在通用復(fù)雜事件查詢場景下很難對復(fù)雜事件查詢帶來好查詢加速效果。


技術(shù)實現(xiàn)思路

1、為了克服傳統(tǒng)樹型索引在通用復(fù)雜模式查詢場景下難以快速獲取與匹配相關(guān)的事件的問題,本發(fā)明設(shè)計了一種索引加速模式匹配方法,可以有效地降低索引的空間開銷,查詢時可保證無需排序即可獲取有序事件,此外本方法利用查詢模式中的時間窗口約束條件來避免不必要的磁盤訪問操作,提升了從磁盤上讀取匹配有關(guān)的事件效率,降低了模式匹配的查詢延遲。

2、為了實現(xiàn)以上發(fā)明目的,本發(fā)明的技術(shù)方案如下:

3、一種用于事件查詢的索引加速模式匹配方法,包括以下步驟:

4、(1)分配一個緩沖池,其中每個緩沖用于存儲不同類型的事件,當事件被持久化到磁盤后,將其插入到有相同事件類型的緩沖中以備構(gòu)建索引;

5、(2)當緩沖池達到指定容量后,依次將緩沖中的數(shù)據(jù)刷新到索引塊的集群中,保證集群中數(shù)據(jù)時間戳有序且存儲連續(xù),并為該集群構(gòu)造區(qū)域地圖,記錄集群中的屬性范圍信息;

6、(3)當所有集群都構(gòu)造完畢后,將索引塊不同類別的數(shù)據(jù)進行壓縮,并為壓縮后的索引屬性構(gòu)造范圍位圖,然后將索引塊序列化到磁盤上,清空緩沖池內(nèi)容;

7、(4)對于給定的待查詢的模式,預(yù)估模式中每個變量的整體選擇率并進行排序,選取選擇率最小的變量進行查詢,并得到其查詢結(jié)果,生成匹配區(qū)間集合,并將其存入映射字典中;

8、(5)從尚未查詢的變量中依次選取選擇率最低的變量進行查詢,更新匹配區(qū)間集合,并將每個變量的查詢結(jié)果存入映射字典中;

9、(6)根據(jù)映射字典存儲的查詢結(jié)果,從磁盤上獲取有關(guān)事件,將它們傳輸?shù)狡ヅ湟嬷羞M行匹配,獲取最終的查詢結(jié)果。

10、優(yōu)選的,所述索引塊是對索引結(jié)構(gòu)分塊進行組織的基本單元,每個索引塊中包含多個集群,每個集群存儲相同類型的事件,其事件類型只存儲一次,集群中的屬性范圍信息包括:索引塊id、時間范圍、屬性值范圍、索引塊存儲區(qū)域中的一項或多項,使用范圍位圖(一種支持范圍查詢的位圖結(jié)構(gòu))對屬性進行索引。

11、優(yōu)選的,索引塊的集群存儲了時間戳列表、物理記錄標識符列表,以及索引屬性的范圍位圖,在對索引塊進行序列化之前,對時間戳列表、物理記錄標識符列表和索引屬性列表分別進行差分壓縮(即列表元素的壓縮值=元素原始值-列表元素的最小值),以減少索引塊的存儲空間大小,且差分壓縮能保證索引塊解壓無需過多額外的計算開銷。

12、優(yōu)選的,在從磁盤上獲取模式有關(guān)的事件過程中,為使得查詢時盡可能跳過無關(guān)索引塊訪問,使用貪心策略依次選用選擇率最低的變量進行查詢,并且查詢時檢查該變量對應(yīng)每個集群存儲內(nèi)容的時間戳范圍是否與匹配區(qū)間集合有重疊、每個集群存儲屬性值范圍是否與查詢范圍有重疊,如果都重疊,則查詢該集群中的內(nèi)容;否則,只要這兩個條件中有一個沒有重疊,該集群下的事件無法參與到最終的匹配,則跳過此集群的查詢以避免無關(guān)的索引塊訪問。

13、優(yōu)選的,匹配區(qū)間集合由整體選擇率最低的變量查詢事件結(jié)果生成,假設(shè)某個查詢的事件時間戳是t,查詢的窗口是w,則這個事件生成的匹配區(qū)間θ為:

14、

15、這里首變量是指該變量對應(yīng)的事件始終出現(xiàn)在匹配結(jié)果的第一個位置,尾變量是指該變量對應(yīng)的事件始終出現(xiàn)在匹配結(jié)果的最后一個位置。

16、優(yōu)選的,在檢查到變量對應(yīng)的集群的時間戳范圍與匹配區(qū)間集合部分元素有重疊時,標記該元素被訪問過,在完成一個變量的查詢后,刪除匹配區(qū)間集合中沒有被訪問過的元素,縮小匹配區(qū)間的范圍,減少磁盤訪問次數(shù),進而降低磁盤的讀取開銷。

17、優(yōu)選的,在查詢完單個變量對應(yīng)的磁盤上有關(guān)集群后,再去對應(yīng)緩沖中查詢是否有事件滿足查詢條件,如果有,則將查詢結(jié)果追加到該變量查詢結(jié)果中,以保證查詢結(jié)果的準確性。

18、一種用于事件查詢的索引加速模式匹配處理裝置,包括:

19、第一構(gòu)建模塊,用于分配一個緩沖池,其中每個緩沖用于存儲不同類型的事件,當事件被持久化到磁盤后,將其插入到有相同事件類型的緩沖中以備構(gòu)建索引;

20、第二構(gòu)建模塊,用于當緩沖池達到指定容量后,依次將緩沖中的數(shù)據(jù)刷新到索引塊的集群中,保證集群中數(shù)據(jù)時間戳有序且存儲連續(xù),并為該集群構(gòu)造區(qū)域地圖信息,記錄集群存儲的事件時間范圍、屬性最大最小值信息,以及集群所在索引塊的位置;

21、第三構(gòu)建模塊,用于當所有集群都構(gòu)造完畢后,將索引塊不同類別的數(shù)據(jù)進行壓縮,并為壓縮后的索引屬性構(gòu)造范圍位圖,然后將索引塊序列化到磁盤上,清空緩沖池內(nèi)容;

22、第一查詢模塊,用于對于給定待查詢的模式,預(yù)估模式中每個變量的整體選擇率并進行排序,選取選擇率最小的變量進行查詢,并得到其查詢結(jié)果,生成匹配區(qū)間集合,并將其存入映射字典中;

23、第二查詢模塊,用于從尚未查詢的變量中依次選取選擇率最低的變量進行查詢,更新匹配區(qū)間集合,并將每個變量的查詢結(jié)果存入映射字典中;

24、第三查詢模塊,用于根據(jù)映射字典存儲的查詢結(jié)果,從磁盤上獲取有關(guān)事件,將它們傳輸?shù)狡ヅ湟嬷羞M行匹配,獲取最終的查詢結(jié)果。

25、本發(fā)明還提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的用于事件查詢的索引加速模式匹配方法的步驟。

26、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點和有益效果:本發(fā)明通過將索引分塊,并將相同類型的事件組織在一起,使得一個集群下的事件類型只存儲一次,減少了事件類型的存儲冗余;通過在將索引塊序列化到磁盤時,對屬性值、時間戳和物理記錄標識符列表進行壓縮,降低索引空間大??;通過使用范圍位圖索引數(shù)據(jù),能夠保證查詢中的單個變量查詢結(jié)果使用合并操作而非排序操作即獲取時間戳有序的查詢結(jié)果。由于處理復(fù)雜事件查詢是按變量的,在查詢過程中,額外利到了查詢窗口約束,避免了無關(guān)索引塊訪問,減少了磁盤讀取操作,進而提升了查詢速率。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1