亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于業(yè)務流程日志和實體軌跡配對的行為模式挖掘方法

文檔序號:10725080閱讀:284來源:國知局
基于業(yè)務流程日志和實體軌跡配對的行為模式挖掘方法
【專利摘要】本發(fā)明公開了一種基于業(yè)務流程日志和實體軌跡配對的行為模式挖掘方法。本發(fā)明將事件日志數(shù)據(jù)集轉(zhuǎn)換成實體軌跡數(shù)據(jù)集,通過使用合成聚類算法來對這些實體軌跡數(shù)據(jù)集進行分層聚類,得到一個實體軌跡ID向?qū)?,以該向?qū)錇樗饕玫桨袑嶓w軌跡數(shù)據(jù)集的配對矩陣;然后再通過遍歷該配對矩陣將活動名稱屬性相同的元素劃分在一起得到活動塊,并根據(jù)活動塊中的活動名稱屬性和活動執(zhí)行者屬性組合出現(xiàn)的次數(shù)之和、各自出現(xiàn)的次數(shù)選擇出較頻繁的活動塊和組合并得到這些頻繁的活動塊和活動塊中頻繁的組合之間的結構關系。本發(fā)明從協(xié)作的角度出發(fā)挖掘非結構化業(yè)務流程中存在的一些固定行為模式,對于非結構化業(yè)務流程的有效分析具有很重要的意義。
【專利說明】
基于業(yè)務流程日志和實體軌跡配對的行為模式挖掘方法
技術領域
[0001] 本發(fā)明屬于業(yè)務流程管理中的流程挖掘領域,具體涉及到一種基于實體軌跡配對 的非結構化業(yè)務流程日志的行為模式挖掘的方法。
【背景技術】
[0002] 在業(yè)務流程管理(BPM)領域中,流程挖掘的目標是改進流程,其中常見的產(chǎn)品開發(fā) 的流程往往是非結構化的,因為它們的頻繁度不高(相比于生產(chǎn)流程),并且依賴于創(chuàng)造力 和解決問題的能力。比如說從SCM(軟件配置管理)系統(tǒng)中挖掘事件日志,然后對這些日志進 行流程挖掘,發(fā)現(xiàn)使用傳統(tǒng)的流程挖掘方法得到的流程模型都是"意大利面"式的,因此常 常把這類業(yè)務流程稱為非結構化業(yè)務流程。
[0003] 這種非結構化的業(yè)務流程經(jīng)過挖掘得到的"意大利面"式的流程模型在分析上存 在一定的難度,所以人們常常使用傳統(tǒng)的啟發(fā)式挖掘算法過濾掉低頻行為得到流程模型, 或者通過模糊挖掘算法對得到的復雜流程模型進行抽象和提取,但最終得到的模型仍難以 理解。這種現(xiàn)象并不是由挖掘算法引起的,而是因為這種流程是由執(zhí)行者自主決策的,所以 它們的結構化程度本身較低,也正是由于這些自主行為從而導致了"意大利面"式流程模型 的產(chǎn)生。
[0004] 基于上述這種現(xiàn)象,研究者提出了從活動及其執(zhí)行者角度進行流程挖掘的方法, 將"意大利面"式的流程模型轉(zhuǎn)換為"寬面條式"流程模型,從而實現(xiàn)對這類非結構化業(yè)務流 程進行有效的分析和改進。從活動及其執(zhí)行者的角度來分析這種非結構化流程可以發(fā)現(xiàn)它 在實際的執(zhí)行中存在的一些固定、頻繁的行為模式(哪些發(fā)生比較頻繁的活動經(jīng)常由哪些 執(zhí)行者執(zhí)行),通過這種行為意義上的流程挖掘能夠發(fā)現(xiàn)隱含的一些比較固定的協(xié)作行為 模式(子流程),從而幫助流程分析者更好地分析這種復雜的業(yè)務流程。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明針對現(xiàn)有技術的不足,提供了一種基于實體軌跡配對的非結構化業(yè)務流程 日志的行為模式挖掘方法。
[0006] 本發(fā)明方法的具體步驟是:
[0007] 步驟(1)將業(yè)務流程系統(tǒng)中記錄的流程日志數(shù)據(jù)進行預處理,得到標準格式的事 件日志數(shù)據(jù)集,該事件日志數(shù)據(jù)集中的每一行對應一個流程事件,包括實例ID、事件ID和事 件屬性,其中事件屬性包括時間戳屬性、活動名稱屬性和活動執(zhí)行者屬性。
[0008] 步驟(2)根據(jù)步驟(1)中得到的事件日志數(shù)據(jù)集的時間戳屬性,按照事件執(zhí)行活動 的先后順序,提取事件日志數(shù)據(jù)集中的活動名稱屬性和活動執(zhí)行者屬性,得到一個實例ID 對應的實體軌跡Ti,然后合并所有實例ID對應的實體軌跡得到實體軌跡數(shù)據(jù)集T= {1\,..., Ti...,Tn},其中η為自然數(shù)。
[0009] 步驟(3)在步驟(2)中獲得的實體軌跡數(shù)據(jù)集中去掉異常的、不完整的實體軌跡, 然后再對實體軌跡數(shù)據(jù)集中的實體軌跡的活動名稱屬性和活動執(zhí)行者屬性進行字符編碼, 將字符編碼后的活動名稱屬性和活動執(zhí)行者屬性的組合稱為實體軌跡數(shù)據(jù)集的元素。
[0010] 步驟(4)通過合成聚類算法(AHC)將實體軌跡數(shù)據(jù)集進行分層聚類,得到一個實體 軌跡ID向?qū)?,該實體軌跡ID向?qū)涞娜~子節(jié)點分別用對應的實體軌跡的實例ID表示,對 于給定的實體軌跡數(shù)據(jù)集TilTi,. . .,Tl . .,Tn},合成聚類算法的過程如下:
[0011] ①將Τ中的每個實體軌跡看作是具有單個成員的類cFm},這些類構成了Τ的 一個類集合C={ci, . . .,Ci-l,Ci,Ci+l, . . .,Cj-l,Cj,Cj + l, . . .,cn},其中每個類分別對應實體 軌跡ID向?qū)渲械娜~子節(jié)點。
[0012]②計算C中任意每對類(Cl,Cj)之間的平均距離。
[0013] ③選取平均距離最小的類對(Cl,Cj),將cdPw合并為一個新類ck,類 ck對應為實體 軌跡ID向?qū)渲蠧i和Cj分別對應的兩個節(jié)點的父節(jié)點,然后在C中去除 Ci和Cj、增加 ck得到一 個新的類集合C = { C1,· · ·,Ci-1,Ci+l,Ck,Cj-1,Cj+l · · ·,Cn} 〇
[0014] ④重復上述②和③步驟,直到類集合C中只剩下一個類為止。
[0015] 步驟(5)首先將實體軌跡ID向?qū)渥钕聦拥拿總€父節(jié)點中對應的類中的葉子節(jié)點 所代表的實體軌跡配對(即:在各個實體軌跡中插入空格使它們在相同位置對應相同的元 素達到最多數(shù)目,使之形成最佳配對);然后再將該層中各個父節(jié)點的最佳配對進行配對, 使之形成當前層的最佳配對;自下而上遍歷實體軌跡ID向?qū)涞纳蠈痈腹?jié)點,重復執(zhí)行上 述步驟,直到最終得到一個包含所有實體軌跡的配對矩陣,該配對矩陣的每一行代表不同 的實體軌跡,每一列代表實體軌跡中的元素以及為了達到最佳配對而插入的空格。
[0016] 步驟(6)遍歷步驟(5)中得到的包含所有實體軌跡的配對矩陣,以實體軌跡元素中 的活動名稱屬性為單位進行劃分(即將活動名稱屬性相同的元素劃分在一起),得到一個個 的活動塊,其中塊中的每一行代表不同的實體軌跡、每一列代表實體軌跡中具體的活動名 稱屬性和活動執(zhí)行者屬性的組合,并以每個組合在對應活動塊中的出現(xiàn)次數(shù)作為該組合在 該活動塊中的組合支持度,以每個活動塊中所有組合的出現(xiàn)次數(shù)之和作為該活動塊的活動 塊支持度;然后選取活動塊支持度從高到低排列中的前q個活動塊(代表業(yè)務流程執(zhí)行中經(jīng) 常發(fā)生的活動)和該q個活動塊中組合支持度從高到低排列中的前P個組合(代表這些活動 在業(yè)務流程執(zhí)行中經(jīng)常出現(xiàn)的行為模式,即活動經(jīng)常由哪些執(zhí)行者執(zhí)行),獲取這q個活動 塊之間以及這些活動塊中的前P個組合之間的結構關系(如順序結構、并發(fā)結構等),即為挖 掘得到的業(yè)務流程行為模式。
[0017] 本發(fā)明所提供的針對非結構化業(yè)務流程日志的基于實體軌跡配對的行為模式挖 掘方法由一組功能模塊組成,它們包括:事件日志數(shù)據(jù)集的預處理模塊、實體軌跡數(shù)據(jù)集生 成模塊、實體軌跡ID向?qū)渖赡K、實體軌跡數(shù)據(jù)集配對模塊和行為模式發(fā)現(xiàn)模塊。
[0018] 事件日志數(shù)據(jù)集的預處理模塊首先將業(yè)務流程系統(tǒng)中記錄的事件日志數(shù)據(jù)進行 關鍵字段的提取和填補,得到標準格式的事件日志數(shù)據(jù)集。
[0019] 實體軌跡數(shù)據(jù)集生成模塊主要是對上一模塊中得到的日志數(shù)據(jù)集實例化處理,即 根據(jù)事件日志數(shù)據(jù)集的時間戳屬性,按照事件執(zhí)行活動的先后順序,提取事件日志數(shù)據(jù)集 中的活動名稱屬性和活動執(zhí)行者屬性得到一個實例ID對應的實體軌跡,合并所有實例ID對 應的實體軌跡得到實體軌跡數(shù)據(jù)集;然后去掉異常的、不完整的實體軌跡,最后再對實體軌 跡中的活動名稱屬性和活動執(zhí)行者屬性進行字符編碼。
[0020] 實體軌跡ID向?qū)渖赡K通過合成聚類算法(AHC)來對上一模塊中得到的實體 軌跡數(shù)據(jù)集進行分層聚類,得到包含所有實體軌跡的一個實體軌跡ID向?qū)?,便于下一個 模塊中對實體軌跡進行高效的配對。
[0021] 實體軌跡數(shù)據(jù)集配對模塊以上一模塊中得到的實體軌跡ID向?qū)錇樗饕?,首先?實體軌跡ID向?qū)渥钕聦拥拿總€父節(jié)點中對應的類中的葉子節(jié)點所代表的實體軌跡配對; 然后再將該層中各個父節(jié)點的最佳配對進行配對;再自下而上遍歷實體軌跡ID向?qū)涞纳?層父節(jié)點,重復執(zhí)行上述步驟,直到最終得到一個包含所有實體軌跡的配對矩陣。
[0022] 行為模式發(fā)現(xiàn)模塊通過遍歷上一模塊中得到的包含所有實體軌跡數(shù)據(jù)集的配對 矩陣,將活動名稱屬性相同的元素劃分在一起得到活動塊,并把活動塊中所有活動名稱屬 性和活動執(zhí)行者屬性組合的出現(xiàn)次數(shù)之和以及這些組合各自出現(xiàn)的次數(shù)分別作為這些活 動塊的活動塊支持度和各個組合的組合支持度,然后篩選出活動塊支持度較高的活動塊和 活動塊中的組合支持度較高的組合并得到這些活動塊之間和活動塊中組合之間的層次結 構關系。
[0023] 本發(fā)明提出的方法基于基因序列配對的思想,將事件日志數(shù)據(jù)集轉(zhuǎn)換成實體軌跡 數(shù)據(jù)集,通過使用合成聚類算法(AHC)來對這些實體軌跡數(shù)據(jù)集進行分層聚類,得到一個實 體軌跡ID向?qū)?,以該向?qū)錇樗饕捎脻u進式的多序列配對的方法得到包含所有實體 軌跡數(shù)據(jù)集的配對矩陣;然后再通過遍歷該配對矩陣將活動名稱屬性相同的元素劃分在一 起得到活動塊,并根據(jù)活動塊中的活動名稱屬性和活動執(zhí)行者屬性組合出現(xiàn)的次數(shù)之和、 各自出現(xiàn)的次數(shù)選擇出較頻繁的活動塊(業(yè)務流程執(zhí)行中經(jīng)常出現(xiàn)的活動)和組合(業(yè)務流 程執(zhí)行中經(jīng)常出現(xiàn)的活動分別由哪些執(zhí)行者執(zhí)行,即行為模式)并得到這些頻繁的活動塊 和活動塊中頻繁的組合之間的結構關系。與傳統(tǒng)的流程挖掘方法相比,采用本發(fā)明所陳述 的方法從協(xié)作的角度出發(fā)挖掘非結構化業(yè)務流程中存在的一些固定行為模式,而并不只是 進行簡單的低頻度活動過濾,因此對于非結構化業(yè)務流程的有效分析具有很重要的意義。
【附圖說明】
[0024]圖1方法架構圖;
[0025]圖2行為模式層次結構圖;
[0026]圖3實體軌跡配對圖。
【具體實施方式】
[0027]本發(fā)明所提供的針對非結構化業(yè)務流程日志的基于實體軌跡配對的行為模式挖 掘方法的【具體實施方式】主要分6步(如圖1所示):
[0028] (1)將業(yè)務流程系統(tǒng)中記錄的流程日志數(shù)據(jù)進行預處理得到標準格式的事件日志 數(shù)據(jù)集(如表1所示),該事件日志數(shù)據(jù)集中的每一行對應一個流程事件,包括實例ID、事件 ID和事件屬性,其中事件屬性包括時間戳屬性、活動名稱屬性和活動執(zhí)行者屬性:
[0029] 業(yè)務流程系統(tǒng)中記錄的日志數(shù)據(jù)可能就是簡單的一行數(shù)據(jù)或者是記錄在Excel表 格中的含有很多屬性的一行記錄,為了降低其他屬性對研究的干擾,我們僅對關鍵的字段 進行提取和填補,得到一個包含實例ID、事件ID、時間戳、活動名稱、活動執(zhí)行者5個屬性的 事件日志數(shù)據(jù)集(如表1所示):
[0030] 表1事件日志數(shù)據(jù)集
[0033] (2)根據(jù)步驟(1)中得到的事件日志數(shù)據(jù)集的時間戳屬性,按照事件執(zhí)行活動的先 后順序,提取事件日志數(shù)據(jù)集中的活動名稱屬性和活動執(zhí)行者屬性,得到一個實例ID對應 的實體軌跡,合并所有實例ID對應的實體軌跡得到實體軌跡數(shù)據(jù)集:
[0034] 上述得到的標準格式的事件日志數(shù)據(jù)集中的每一條記錄是以事件ID為標識符,實 例化處理就是將事件日志數(shù)據(jù)集的格式轉(zhuǎn)換成以實例ID為唯一標識符的記錄,每一個實例 ID對應的所有事件按照時間戳屬性根據(jù)活動發(fā)生的先后順序組成一個軌跡序列,這個軌跡 序列能夠表示一個完整的實例執(zhí)行流程,軌跡中的元素是活動名稱屬性和活動執(zhí)行者屬性 的組合,稱為實體,因此得到一個實體軌跡,記作Ti,其中i表示實例ID,實體軌跡中的元 素一一活動名稱屬性和活動執(zhí)行者屬性的組合,記作實體用ES表示,使用符號0表示活動執(zhí) 行者集合,〇= {Mj | j = l ,2,3...},符號Mj表示活動執(zhí)行者個體,符號Λ表示所有活動名稱的 集合,那么就有有£5 ?Ξ ΟχΔ。.例如針對軟件開發(fā)流程來說,該開發(fā)流程中的所有出現(xiàn)過的 活動名稱構成的活動集合Λ為{WriteRequ irements,ReviseRequirements, WriteDocuments,ReviseDocuments,WriteCode,TestCode} D根據(jù)表1 中的標準日志數(shù)據(jù)集 可以得到如下的流程實例對應的實體軌跡:
[0035] Ti:MiffriteRequirements,M4ReviseRequirements jMsffriteDocuments , MeReviseDocuments ,M7ffriteCode jMsTestCode ,M9TestCode
[0036] T2: Mi WriteRequirements,M2WriteRequirements,M4ReviseRequirements, IVbWriteDocuments,]VbWriteDocuments,M6ReviseDocuments,M7WriteCode,M8TestCode
[0037] T3: Mi WriteRequirements,M2WriteRequirements,M4ReviseRequirements, MgffriteDocuments jMsffriteDocuments ,MeReviseDocuments ,M7ffriteCode jMsTestCode , IVbTestCode
[0038] T4:MiffriteRequirements ,M2ffriteRequirements,M3ffriteRequirements, IVUReviseRequirements,M9WriteDocuments,M6ReviseDocuments,M7WriteCode,M8TestCode
[0039] T5:MiffriteRequirements ,M2ffriteRequirements,M3ffriteRequirements, IVUReviseRequirements,M9WriteDocuments,M5WriteDocuments,M6ReviseDocuments, MyffriteCode jMsTestCode
[0040] ............
[0041] (3)對上述步驟(2)中得到的實體軌跡數(shù)據(jù)集進行一些預處理操作:去掉異常的、 不完整的實體軌跡,并對實體軌跡中的元素(活動名稱屬性和活動執(zhí)行者屬性的組合)進行 字符編碼:
[0042] ①遍歷上述得到的實體軌跡數(shù)據(jù)集,剔除有缺失的活動執(zhí)行者屬性或者活動名稱 屬性的實體軌跡;
[0043]②對上述①中得到的實體軌跡進行字符編碼,即使用能夠區(qū)分不同元素的字符代 替復雜的活動名稱屬性和活動執(zhí)行者屬性的組合,從而簡化得到如下的序列:
[0044] Ti: MiffR, M4RR, MsffD, MeRD, MyffC, MsTC, MgTC
[0045] T2: MiffR, M2ffR, M4RR, MgffD, MsffD, MeRD, MyffC, MsTC
[0046] T3: MiffR, M2ffR, M4RR, MgffD, MsffD, MeRD, MyffC, MsTC, MgTC
[0047] T4: MiffR, M2ffR, MsffR, M4RR, MgffD, MeRD, MyffC, MsTC
[0048] T5: MiffR, M2ffR, M3WR, M4RR, MgffD, MsffD, MeRD, MyffC, MsTC
[0049] (4)通過合成聚類算法(AHC)來對這些實體軌跡數(shù)據(jù)集進行分層聚類,得到一個實 體軌跡ID向?qū)?,該實體軌跡ID向?qū)涞娜~子節(jié)點分別用其對應的實體軌跡ID表示,對于 給定的實體軌跡數(shù)據(jù)集TilTi,. . .,Tl . .,Tn},合成聚類算法的過程如下:
[0050] ①將Τ中的每個實體軌跡看作是具有單個成員的類(^={1^},這些類構成了Τ的 一個聚類c= {ci, . . .,Ci-i,Ci,Ci+i, . . .,Cj-i,Cj,Cj+i, . · .,cn},其中每個類作為實體軌跡ID 向?qū)渲械娜~子節(jié)點;
[0051]②計算C中任意每對類(Cl,Cj)之間的平均距離
;其中dd, Tj)代表的是兩個實體軌跡之間對應位置上的元素字符串之間的編輯距離;
[0052]③選取平均距離最小的類對(Cl,Cj),將(^和^合并為一個新類Ck,類Ck對應為實體 軌跡ID向?qū)渲蠧i和Cj分別對應的兩個節(jié)點的父節(jié)點,然后在C中去除Ci和 Cj、增加 ck得到一 個新的類集合C = { C1,· · ·,Ci-1,Ci+l,Ck,Cj-1,Cj+l · · ·,Cn};
[0053] ④重復上述②③步驟,直到類集合C中只剩下一個類為止;
[0054] (5)首先將實體軌跡ID向?qū)渥钕聦拥拿總€父節(jié)點中對應的類中的葉子節(jié)點所代 表的實體軌跡配對(即:在各個實體軌跡中插入空格使它們在相同位置對應相同的元素達 到最多數(shù)目,使之形成最佳配對);然后再將該層中各個父節(jié)點的最佳配對進行配對,使之 形成當前層的最佳配對;自下而上遍歷實體軌跡ID向?qū)涞纳蠈痈腹?jié)點,重復執(zhí)行上述步 驟,直到最終得到一個包含所有實體軌跡的配對矩陣:
[0055] ①兩軌跡配對:
[0056] 軌跡配對即為把兩條未知的軌跡進行排列,通過字母的匹配,刪除和插入操作,使 得兩條軌跡達到同樣長度,在操作的過程中,盡可能保持相同的字母對應在同一個位置。假 設有一對軌跡1'1 = 81^&(3,12 = &0&0&(1,那么軌跡在進行配對時,它們的各自元素可能出現(xiàn)的 對應情況為(a,b)或(a,_)或(_,b),其中(a,b)表示^中的活動a對應^中的活動b,(a,_)表 示刪除T沖的活動a,(-,b)表示在T沖插入活動b。設7^分別為對后的軌跡,m為配 對后的軌跡長度,則有兩個軌跡配對的得分函數(shù)為
,即兩個軌跡的配對 得分是它們每一個元素配對的累加和,其中:
[0058]由于兩個軌跡在配對時可能會有多種不同的配對方案,例如對于Τι,T2來說,配對 的形式可能會有多種,這里僅列舉以下的三種配對形式:
[0060] (i)若設定a = b時S(a,b) = l ;a乒b時S(a,b) = _l; I(a,b) = _l,按照上面的得分函 數(shù)計算可得到這三種配對的得分分別是1,-4,_9,得分最高也就是配對效果最好的,因此可 知第一種配對效果是最好的。
[0061 ] (ii)若設定a = b時S(a,b) = 2;a辛b時S(a,b) = 1; I(a,b) = _l,貝lj上述三種配對得 分分別是5,5,9,那么配對效果最好的分別是前兩種。
[0062] (iii)若設定a = b時S(a,b) = 1 ;a辛b時S(a,b) = _1; I(a,b) = 1,則這三種得分分 別是7,-2,9,那么配對效果最好的是最后一種。
[0063] 因此為了解決上述這種現(xiàn)象,使用下面描述的動態(tài)規(guī)劃算法找到最佳配對。
[0064] ②使用動態(tài)規(guī)劃算法發(fā)現(xiàn)最佳配對:
[0065] 使用二維表格的形式,其中一個軌跡沿頂部展開,一個軌跡沿左側(cè)展開。通過以下 三個途徑(方向)到達每個單元格:a.來自上面的單元格,代表將左側(cè)的字符與空格配對;b. 來自左側(cè)的單元格,代表將上面的字符與空格配對;c.來自左上側(cè)的單元格,代表左側(cè)和上 面的字符配對(可能匹配也可能不匹配)。而該單元格的值來自于以下3個值中的最大值:1) 上方的值減1;2)左邊的值減1;3)如果該單元格所在的行于所在的列對應的字符相等,則為 左上值加1,否則為左上值減1。(具體可見下面的例子)
[0066] (i)首先初始化表格:填充表格中第一行和第一列的元素的得分和指針,需要使用 位于頂部的第一個軌跡中的字符,并使用空格,而不是使用左側(cè)從上到下的軌跡中的第一 個字符。由于空格的得分是-1,所以每次使用空格的時候,就給前一個左側(cè)的單元格減1分, 其中定義第一個單元格的得分為〇,所以第一行的元素得分就是〇,-1,-2,_3,...這樣的序 列。
[0067] (ii)然后填充剩下的單元格:對于每個單元格,都有三種選擇對應三種得分,最后 要從中選擇得分最多的。由于可以從上面、左側(cè)、左上側(cè)分別計算當前單元格的得分和指 針,現(xiàn)在假設是要配對的軌跡,是生成的配對的軌跡。從上面到達單元格相當于 將左面的字符從!^加入瓦,跳過上面的T 2中的當前字符,并在g中加入一個空格,也就是把 左側(cè)的字符與空格進行配對。由于一個空格的配對得分是-1,所以當前單元格的得分要從 上面的單元格得分減1得到。類似的,將左邊的單元格得分減1,可以從左側(cè)到達空單元格, 也就是把上面軌跡中的字符與空格進行配對。
[0068] (iii)再將上面的字符加入到ξ中,將左邊的字符加入到芳中,這就相當于從左上 側(cè)進入空白單元格。這兩個字符將會匹配,在這種情況下,新的得分就是左上側(cè)單元格的得 分減1。在這三種可能性當中,選擇得分最大的一個(如果得分相等,可以從得分高的單元格 中從任選一個)。接著需要得到實際的配對字符串以及配對的得分,其中右下角單元格 中的得分包含Ti,T 2的最大配對得分。
[0069] (iv)最后將得到的配對軌跡芳,瓦,從右下角單元格開始沿著指針回溯,反向構建 瓦萬。從表格的構建過程可知,從上向下對應著將左側(cè)字符從h加入到芳中,將空格加入f 中;從左向右對應著將上面的字符從T2加入到5中,將空格加入芳中;而向下和向右移動意 味著分別將來自!^;的字符加入元石中。
[0070] 例如,針對上面的一對軌跡Ti = abcac,T2 = acacad,設二維表格Fi,j為i行j列表格, 其中?(0,0) = 0^(0,1)=0^(1,0)=0,根據(jù)上面的方法進行填充表格,1^為1'1軌跡中的第 i個元素,療為T2軌跡中的第j個元素,通過以下公式計算F(i,j):

[0073] 然后根據(jù)單元格中記錄的指針信息,采用回溯法得到最佳配對路徑:即1F(5,6) - 2F(5,5)43F(5,4)-2F(4,3)4lF(3,2)4〇F(2,l)4lF(l,l)4〇F(0,0),配對結果為:
[0074] T2 a - c a c a d
[0075] T\ m b c a c --
[0076] ③多軌跡配對:使用一對軌跡配對之和的方法實現(xiàn)多軌跡配對,假設有n條軌跡集 合,A為它們的配對結果,其中^為其中互不相同的兩條軌跡,則有
。其中,軌跡集合Α與另外的軌跡集合Β進行配對時,方法與步 驟②中的一樣,但計算公式需要修改為:
[0078] 其中,負CLCi)代表配對集合A中的第i列與配對集合B中的第j列替換,定義
4(4表示配對集合X中第i列中元素 a的頻度,
表示配對集合A中第i列的插入得分,其中的W(a,6)是當配 對集合A中第i-Ι列元素為a,第i列元素 b的頻度。
[0079] 然后將上述方法應用在實體軌跡數(shù)據(jù)集中得到最佳的配對(示例可見圖3):按照 上述步驟(4)中得到的實體軌跡ID向?qū)溥M行索引,首先將實體軌跡ID向?qū)渥钕聦拥拿?個父節(jié)點中對應的類中的葉子節(jié)點所代表的實體軌跡按照步驟①②配對,然后再將該層中 各個父節(jié)點的最佳配對按照步驟③進行配對,使之形成當前層的最佳配對;自下而上遍歷 實體軌跡ID向?qū)涞纳蠈痈腹?jié)點,重復執(zhí)行上述步驟①②③,直到最終得到一個包含所有 實體軌跡的配對矩陣。
[0080] (6)遍歷步驟(5)中得到的包含所有實體軌跡的配對矩陣,以實體軌跡元素中的活 動名稱屬性為單位進行劃分(即將活動名稱屬性相同的元素劃分在一起),得到一個個的活 動塊,其中塊中每一行代表不同的實體軌跡、每一列代表實體軌跡中具體的活動名稱屬性 和活動執(zhí)行者屬性的組合,并以每個組合在對應活動塊中的出現(xiàn)次數(shù)作為該組合在該活動 塊中的組合支持度,以每個活動塊中所有組合的出現(xiàn)次數(shù)之和作為該活動塊的活動塊支持 度;然后選取活動塊支持度從高到低排列中的前q個活動塊(代表業(yè)務流程執(zhí)行中經(jīng)常發(fā)生 的活動)和該q個活動塊中組合支持度從高到低排列中的前P個組合(代表這些活動在業(yè)務 流程執(zhí)行中經(jīng)常出現(xiàn)的行為模式,即活動經(jīng)常由哪些執(zhí)行者執(zhí)行),獲取這q個活動塊之間 以及這些活動塊中的前P個組合之間的結構關系(如順序結構、并發(fā)結構等),即為挖掘得到 的業(yè)務流程行為模式(具體可見圖2)。
[0081]本發(fā)明可用于非結構化業(yè)務流程日志的行為模式挖掘,從而實現(xiàn)對非結構化業(yè)務 流程的有效分析。
【主權項】
1.基于業(yè)務流程日志和實體軌跡配對的行為模式挖掘方法,其特征在于該方法的具體 步驟是: 步驟(1)將業(yè)務流程系統(tǒng)中記錄的流程日志數(shù)據(jù)進行預處理,得到標準格式的事件日 志數(shù)據(jù)集,該事件日志數(shù)據(jù)集中的每一行對應一個流程事件,包括實例ID、事件ID和事件屬 性,其中事件屬性包括時間戳屬性、活動名稱屬性和活動執(zhí)行者屬性; 步驟(2)根據(jù)步驟(1)中得到的事件日志數(shù)據(jù)集的時間戳屬性,按照事件執(zhí)行活動的先 后順序,提取事件日志數(shù)據(jù)集中的活動名稱屬性和活動執(zhí)行者屬性,得到一個實例ID對應 的實體軌跡Ti,然后合并所有實例ID對應的實體軌跡得到實體軌跡數(shù)據(jù)集..., Ti...,Tn},其中η為自然數(shù); 步驟(3)在步驟(2)中獲得的實體軌跡數(shù)據(jù)集中去掉異常的、不完整的實體軌跡,再對 實體軌跡數(shù)據(jù)集中的實體軌跡的活動名稱屬性和活動執(zhí)行者屬性進行字符編碼,將字符編 碼后的活動名稱屬性和活動執(zhí)行者屬性的組合稱為實體軌跡數(shù)據(jù)集的元素; 步驟(4)通過合成聚類算法將實體軌跡數(shù)據(jù)集進行分層聚類,得到一個實體軌跡ID向 導樹,該實體軌跡ID向?qū)涞娜~子節(jié)點分別用對應的實體軌跡的實例ID表示,對于給定的 實體軌跡數(shù)據(jù)集TilTi,. . .T,l . .,Tn},合成聚類算法的過程如下: ① 將Τ中的每個實體軌跡看作是具有單個成員的類(^={1^},這些類構成了Τ的一個 類集合C={ci, . . .,Ci-l,Ci,Ci+l, . . .,Cj-l,Cj,Cj+l, . . .,cn},其中每個類分別對應實體軌跡 ID向?qū)渲械娜~子節(jié)點; ② 計算類集合C中任意每對類(Ci,Cj)之間的平均距離; ③ 選取平均距離最小的類對(Cl,(^),將類cdPw合并為一個新類ck,類ck對應為實體軌 跡ID向?qū)渲蓄?Ci和Cj分別對應的兩個節(jié)點的父節(jié)點,然后在類集合C中去除Ci和Cj、增加 Ck 得到一個新的類集合C={ci, · · ·,Ci-l,Ci+l,Ck,Cj-l,Cj+l. · ·,cn}; ④ 重復上述②③步驟,直到類集合c中只剩下一個類為止; 步驟(5)首先將實體軌跡ID向?qū)渥钕聦拥拿總€父節(jié)點中對應的類中的葉子節(jié)點所代 表的實體軌跡配對;然后再將該層中各個父節(jié)點的最佳配對進行配對,使之形成當前層的 最佳配對;自下而上遍歷實體軌跡ID向?qū)涞纳蠈痈腹?jié)點,重復執(zhí)行本步驟,直到最終得到 一個包含所有實體軌跡的配對矩陣; 步驟(6)遍歷步驟(5)中得到的包含所有實體軌跡的配對矩陣,以實體軌跡元素中的活 動名稱屬性為單位進行劃分,得到一個個的活動塊,其中塊中每一行代表不同的實體軌跡、 每一列代表實體軌跡中具體的活動名稱屬性和活動執(zhí)行者屬性的組合,并以每個組合在對 應活動塊中的出現(xiàn)次數(shù)作為該組合在該活動塊中的組合支持度,以每個活動塊中所有組合 的出現(xiàn)次數(shù)之和作為該活動塊的活動塊支持度;然后選取活動塊支持度從高到低排列中的 前q個活動塊代表業(yè)務流程執(zhí)行中經(jīng)常發(fā)生的活動和該q個活動塊中組合支持度從高到低 排列中的前P個組合代表這些活動在業(yè)務流程執(zhí)行中經(jīng)常出現(xiàn)的行為模式,即活動經(jīng)常由 哪些執(zhí)行者執(zhí)行,獲取這q個活動塊之間以及這些活動塊中的前P個組合之間的結構關系, 即為挖掘得到的業(yè)務流程行為模式。
【文檔編號】G06Q10/06GK106095955SQ201610424544
【公開日】2016年11月9日
【申請日】2016年6月16日 公開號201610424544.X, CN 106095955 A, CN 106095955A, CN 201610424544, CN-A-106095955, CN106095955 A, CN106095955A, CN201610424544, CN201610424544.X
【發(fā)明人】俞東進, 王嬌嬌, 潘建梁, 鄭宏升, 張蕾, 黃彬彬
【申請人】杭州電子科技大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1