用于建模在線商務行為和檢測異常值的自動化分析系統(tǒng)的制作方法
【專利摘要】識別用于網絡會話的事件。建立用于自動化網絡活動監(jiān)控的雙模塊系統(tǒng)。從事件生成模型,并且通過系統(tǒng)的第一模塊來識別模型異常值。生成基于事件對于異常值的事件的重要性來識別事件的報告。該模型可以對于網絡會話的不同歷史時段被自動和周期地再生,并且被保存在存儲器裝置內。通過系統(tǒng)的第二模塊新的組的事件可以被周期地從新的網絡會話提取,并且被應用到先前生成的模型。可以從新的組的事件識別模型異常值??梢曰谛碌氖录τ谌魏巫R別的異常值的貢獻來分析和向網絡會話操作員報告該新的事件。即使未檢測到異常值,也可以實時地識別和報告對于網絡會話操作條件具有最重要的影響的新的事件。
【專利說明】用于建模在線商務行為和檢測異常值的自動化分析系統(tǒng)
[0001] 背景
[0002] 數(shù)據(jù)驅動的電子商務環(huán)境必須處理極其大量的數(shù)據(jù)。這些大量數(shù)據(jù)可以使得難以 監(jiān)控電子商務系統(tǒng)的一般健康并且回答每天的商務問題,諸如門戶是否正常地運行、或為 什么今天的商務與昨天的商務不同、或為什么它與最后一個星期同一天的商務不同。
[0003] 數(shù)據(jù)源可能遍布公司。例如,計算機使用信息可以被公司的信息技術(IT)部門使 用,并且銷售信息可以被公司的銷售和市場營銷部門使用。一些數(shù)據(jù)源可以給出相同的結 果,而其他數(shù)據(jù)源可能變得過時并且對商務無影響。所有這些不同類型的信息可能產生使 得在企業(yè)系統(tǒng)中的重要商務事件模糊不清的垃圾效果。
[0004] 選擇性的獨立(單變量)統(tǒng)計手段可以試探性地拾取用于在企業(yè)系統(tǒng)中的監(jiān)控的 重要信息源,但是不可識別可能是系統(tǒng)異常的原因的其他重要事件。監(jiān)控獨立的數(shù)據(jù)項目 也可能產生誤報警,其可以減少報告系統(tǒng)的可信度。
【專利附圖】
【附圖說明】
[0005] 圖1描述了網絡會話分析系統(tǒng)的示例。
[0006] 圖2描述了用于建模正常網絡消費者活動和識別異常值的示例處理。
[0007] 圖3描述了用于處理網絡會話事件的操作的示例。
[0008] 圖4A和4B描述了示出網絡會話事件的出現(xiàn)的表格的示例。
[0009] 圖5描述了用于建立用于網絡會話數(shù)據(jù)的主分量模型的處理的示例。
[0010] 圖6A和6B描述了示出用于網絡會話模型的主分量的圖形的示例。
[0011] 圖7A和7B描述了相對于從網絡會話事件產生的模型的兩個不同距離的示例。
[0012] 圖8A-8E描述了識別異常值和異常值之一的事件貢獻的圖表的示例。
[0013] 圖9描述了用于識別最重要的(significant)貢獻事件的處理的示例。
[0014] 圖10描述了用于在實時監(jiān)控時段識別最重要的貢獻事件的處理的示例。
[0015] 圖11描述了用于識別重要的用戶界面事件的處理的示例。
【具體實施方式】
[0016] 圖1描述了分析系統(tǒng)130的示例,該分析系統(tǒng)130自動地生成用于正常的網絡會 話活動的模型,并且使用該模型來識別異常值(outlier)和檢測重要的網絡會話事件。分 析系統(tǒng)130訪問從被稱為會話檔案132的數(shù)據(jù)庫訪問存儲的網絡會話事件數(shù)據(jù)118。網絡會 話事件數(shù)據(jù)118可以包含在網絡會話100期間關于用戶體驗的重要信息。然而,如上所述, 披露這個信息可能不是直接的。例如,在在線銷售中的降低可能與在某個時段連貫地出現(xiàn) 的一組網絡會話事件相關聯(lián)。在該情況下,實際上不可能通過隨意選?。╟herry-picking) 和監(jiān)控獨立的事件數(shù)據(jù)而檢測和解釋該異常。而且,從會話檔案132錯誤地選擇的其他網 絡會話事件118可能產生其他錯誤消息,錯誤消息阻礙操作員將特定用戶界面事件數(shù)據(jù)的 重要性(significance)與在銷售上的降低相關。
[0017] 分析系統(tǒng)130通過下述方式來處理這些問題:分析整個的一組可獲得網絡會話事 件,并且自動地僅選擇在信息上對于模型重要的那些事件。以這種方式,分析系統(tǒng)130實際 上通過下述方式將與太多的網絡會話事件相關聯(lián)的問題變?yōu)橘Y源(asset):使用大量的不 同網絡會話事件來產生電子商務系統(tǒng)的更整體的模型,而且同時隔離異常電子商務系統(tǒng)行 為的最可能的起因。
[0018] 分析系統(tǒng)130產生網絡會話模型136,該網絡會話模型136建模正常的運行的網絡 會話。模型136可以識別在模型空間中的異常值,該異常值指示不尋常的網絡會話操作,并 且識別對于異常值具有最高貢獻的網絡會話事件142的列表。
[0019] 網絡會話建模也可以最小化誤報警的數(shù)量。例如,特定事件當被單獨分析時可能 看起來是異常值。然而,多變量網絡會話模型可以確定這樣的網絡會話條件與正常的網站 操作相關聯(lián),或者可以確定特定的網絡會話事件對于異常的網絡會話條件具有很小的重要 性。分析系統(tǒng)130也可以識別可能在網絡會話面向中以相同的方式操作但是可能被給出不 同的事件名稱的復制網絡會話事件。例如,產生相同結果的事件可以不注意地由公司的不 同部門創(chuàng)建的==??梢匀缓髲倪M一步的捕獲操作去除復制事件之一。
[0020] 網絡會話事件
[0021] 可以在操作在網絡服務器102上網絡應用104和不同的用戶裝置110之間進行網 絡會話100。網絡應用104可以被配置用于任何類型的在線會話,諸如在線購買或在線金融 服務。當然,這些僅是示例,并且可以使用網絡應用104來執(zhí)行任何類型的基于電子網絡的 事務或在線活動。
[0022] 用戶裝置110可以包括個人計算機(PC)、膝上型計算機、無線個人數(shù)字助理 (PDA)、蜂窩電話或以訪問網絡應用104并且與其交換信息的任何其他有線或無線裝置。應 當明白,多個用戶裝置110可以與網絡應用104進行不同的網絡會話100。然而,為了說明 的目的,在圖1中僅示出一個用戶裝置110。
[0023] 用戶裝置110可以通過網絡連接108與網絡應用104進行通信。網絡連接108 可以包括通過因特網、無線網絡、電話網絡、公共服務電話網絡(PSTN)、蜂窩網絡、Wi-Fi網 絡、有線網絡、廣域網(WAN)或局域網(LAN)等或其任何組合的連接的任何組合。
[0024] 在一個示例中,用戶裝置110可以通過網絡連接108向網絡應用104發(fā)送超文本 傳送協(xié)議(HTTP)請求。網絡應用104可以響應于該HTTP請求而發(fā)回一個或多個網頁106, 并且用戶裝置110可以在用戶裝置110的屏幕上經由網絡瀏覽器112來顯示網頁106。用 戶可以在網絡會話100期間生成用戶界面(UI)事件。例如,用戶可以在顯示的網頁106上 選擇鏈接或者輸入插入到在顯示的網頁106內的字段的數(shù)據(jù)的鍵擊。網絡應用104可以響 應于用戶界面事件向用戶裝置110發(fā)送另外的網頁106和/或響應。
[0025] 不同的網絡會話監(jiān)控器116和/或120可以在網絡會話100期間捕獲網絡會話事 件118。網絡會話事件118可以包括在用戶裝置110上生成的用戶界面事件和通過在網絡 會話100和網絡應用104之間的網絡連接108傳送的任何網絡數(shù)據(jù)。例如,網絡會話事件 118可以包括從用戶裝置110向網絡應用104發(fā)送的HTTP請求和其他數(shù)據(jù)請求、以及從網 絡應用104向用戶裝置110發(fā)回的網頁和其他響應。
[0026] 可能從不通過網絡連接108來傳送網絡會話事件118的一些。例如,諸如鼠標點 擊、鍵擊、向網頁字段內輸入的字母數(shù)字數(shù)據(jù)或網頁圖標的選擇等或者其任何組合的用戶 界面事件的一些可能改變網頁106的當前狀態(tài),而不通過網絡連接108來發(fā)送任何數(shù)據(jù)。在 另一個示例中,來自網頁106的僅完成的信息的一批數(shù)據(jù)傳送可以通過網絡連接108被傳 送到網絡應用104。
[0027] 網絡會話事件118的一些可以包括響應于用戶界面事件從網絡應用104發(fā)送的數(shù) 據(jù)。例如,網絡會話事件118可以包括用于填充在先前下載的網頁106中的下拉菜單的航 空調度數(shù)據(jù)。該航空調度數(shù)據(jù)可能已經響應于用戶輸入城市目的地到顯示的網頁106的航 空目的地字段內由網絡應用104發(fā)送。
[0028] 其他網絡會話事件118可以包括由網絡應用104連同網頁106向用戶裝置110發(fā) 送的網頁邏輯/代碼,其進一步確定了在網頁中的不同狀態(tài)或操作。網頁邏輯可以自治地 改變用戶裝置110上的網頁106的狀態(tài)或網絡會話100,而沒有曾經通過網絡連接108將請 求或信息發(fā)回網絡應用104。
[0029] 在另一個示例中,一些網絡會話事件118可以包括在網頁106內的文件對象模型 (D0M)改變。例如,在所顯示的網頁106的D0M中的改變可以作為網絡會話事件118的一些 被Π 事件監(jiān)控器116捕獲。在另一個示例中,網絡會話事件118可以包括在用戶裝置110 和/或服務器102中的操作參數(shù)和任何其他登錄數(shù)據(jù)。例如,網絡會話事件118可以包括網 絡帶寬指示符、處理器帶寬指示符、網絡條件指示符或計算機操作條件等或者其任何組合。
[0030] 在一個示例中,網絡會話監(jiān)控器120可以捕獲網絡數(shù)據(jù),諸如在用戶裝置110和網 絡應用104之間通過網絡連接108交換的網頁106、請求、響應和/或邏輯。用戶界面(UI) 監(jiān)控器116可能捕獲在用戶裝置110本地生成的用戶界面事件。在另一個示例中,Π 監(jiān)控 器116也可以捕獲在用戶裝置110和網絡應用104之間通過網絡連接108交換的網絡數(shù)據(jù) 中的一些或全部。
[0031] 在另一個示例中,Π 事件監(jiān)控器116和/或網絡會話監(jiān)控器120可能沒有捕獲實 際網絡會話事件118的一些或全部,但是可能僅檢測一些網絡會話事件118的出現(xiàn)。在這 個示例中,監(jiān)控器116和120可以發(fā)送識別網絡會話事件118的出現(xiàn)的唯一標識符,并且可 以發(fā)送指示何時檢測到網絡會話事件的時間戳。
[0032] 用于捕獲和/或識別網絡會話事件的系統(tǒng)的示例在如下文件中描述:2001年9 月 4 日出版的、標題為 System and Method for Recording and Visually REccreating Sessions in a Client-Server Environment 的美國專利 No. 6, 286, 030,現(xiàn)在再出版 為美國專利No. RE41903;2012年2月28日出版的、標題為Method and Apparatus for Monitoring and Synchronizing User Interface Events with Network Data 的美 國專利No. 8, 127, 000;以及2012年3月13日提交的、標題為Method and Apparatus for Intelligent Capture of Document Object Model Events 的美國專利申請序列號 No. 13/419, 179,在此通過引用并入其全部內容。
[0033] 網絡會話律樽和監(jiān)控
[0034] 網絡會話建模和監(jiān)控由兩個單獨的模塊構成:建模和監(jiān)控。建模模塊使用歷史數(shù) 據(jù)來工作,并且建立正常活動的模型。監(jiān)控模塊使用由建模模塊保存的模型,并且使用諸如 在最后一個小時期間捕獲的網絡會話事件的當前的網絡會話數(shù)據(jù)來工作。
[0035] 在模型生成階段期間,分析系統(tǒng)130可以操作模型生成器134,該模型生成器134 用于從與用于網絡會話1〇〇的歷史模型生成時間段相關聯(lián)的網絡會話事件133生成網絡會 話模型136。例如,這樣的歷史時段可以包括關于網絡會話100的最后一至三月的數(shù)據(jù)。網 絡會話模型136可以建模用于網絡會話100和操作網絡會話100的計算機系統(tǒng)的正常操作 條件。
[0036] 分析系統(tǒng)130可以生成報告140,該報告140列出了正常操作條件的異常值,并且 識別與異常值相關聯(lián)的網絡會話事件142。網絡會話模型136也可以識別哪些網絡會話事 件142在相關聯(lián)的異常值中具有最高的影響。
[0037] 模型生成器134可以選擇在會話檔案132中的哪些捕獲的網絡會話事件133用于 生成網絡會話模型136。例如,一些網絡會話事件118可能與諸如年度促銷的暫時操作條件 相關聯(lián)。這些促銷事件可以不與正常在線操作條件相關聯(lián),并且可以從生成模型136和從 報告140去除。。
[0038] 在第二監(jiān)控階段期間,分析系統(tǒng)130可以使用網絡會話模型136來監(jiān)控來自網絡 會話100的新的網絡會話事件138。例如,新的網絡會話事件138可以包括在前幾分鐘、小 時、日、星期等周期地捕獲和收集的網絡會話事件。可以在監(jiān)控時間段上收集每種類型的網 絡會話事件138的出現(xiàn)的次數(shù)。例如,在最后一個小時的監(jiān)控時間段期間可以檢測到157 個在線購買。
[0039] 用于該監(jiān)控時間段的網絡會話事件138被應用到網絡會話模型136,并且可以在 所找到的正常操作模型邊界內或作為在模型邊界之外操作的異常值來操作。在模型邊界之 外的異常值的統(tǒng)計重要性可以被設置為表明異常行為的一些真實商務原因的值。所檢測的 異常值報告140被發(fā)送到預定義的收件人的列表??梢栽趫蟾?40中識別或者對于異常值 或對于正常操作時間段的最有影響的網絡會話事件142。
[0040] 可以在配置文件135中預先配置用于生成模型136和用于識別在模型136內的異 常值的時間段、閾值和其他參數(shù)。配置文件135也可以識別在生成模型136之前去除或從 報告140去除的列入黑名單的網絡會話事件。
[0041 ] 第一建模模塊(模塊建立)可以或者被人工地執(zhí)行或被調度來被自動地執(zhí)行。在 后一種情況下,模型重建的周期性取決于用于模型生成的歷史時段的長度。例如,如果一月 的數(shù)據(jù)用于建立模型,則該可以至少每3個星期或每月重建該模型。對于第二模塊,網絡會 話監(jiān)控通常被調度來自動運行,并且監(jiān)控的周期取決于聚集粒度。例如,監(jiān)控器應當調度為 每小時運行,如果網絡會話事件每小時聚集。在完全自動模式中,在初始設置后,該系統(tǒng)可 以運行并且提供有價值的商務見解,而沒有任何另外的人為交互。
[0042] 分析系統(tǒng)130可以被配置為匆忙地捕捉和使用新建立的網絡會話事件。在初始設 置后,分析系統(tǒng)130可以自動地運行,或者操作員可以選擇通過選擇特定的網絡會話事件 118來人為地建立網絡會話模型136。然而,不要求操作員預選任何網絡會話事件118、事實 或關于網絡會話100的任何其他特定信息。操作員也不需要人為地相關或分析任何數(shù)據(jù)分 布結果。因此,操作員不需要人為地在成千上萬的可能網絡會話事件之間預選以用于分析。
[0043] 分析系統(tǒng)130提供了用于自動地監(jiān)控電子商務系統(tǒng)的健康的強大的和容易使用 并且容易理解的系統(tǒng)??梢允褂枚嘧兞拷硐鄬τ趩巫兞糠椒ㄔ龃罂蓴U展性,因為使用 更廣泛的多種的網絡會話事件118可以建模電子商務系統(tǒng)的更多的商務方面,并且建立在 網絡會話100期間的用戶體驗的更好的整體表示。
[0044] 圖2描述了用于生成用于系統(tǒng)的第一模塊的網絡會話模型,即模型建立的示例處 理。在操作148中,分析系統(tǒng)可以在每一個歷史建模時間段重建新的模型。例如,可以每月 重建新的模型。在操作150中,可以檢查配置文件以識別用于生成模型的任何模型參數(shù)。例 如,在圖1中的配置文件135中的參數(shù)可以指定用于識別網絡會話異常值的閾值水平、關于 到網絡會話數(shù)據(jù)的ODBC連接的細節(jié)、用于警報通知的電子郵件服務器配置等。
[0045] 在操作152中,可以從歷史模型時段的會話檔案數(shù)據(jù)庫提取網絡會話事件。例如, 網絡會話事件可以具有相關聯(lián)的時間戳,并且分析系統(tǒng)可以從時間戳的最后月份的會話檔 案提取網絡會話事件。在操作154中,處理所提取的網絡會話事件。例如,不是所有的網絡 會話事件可以每小時出現(xiàn)。通常對于給定的時間戳在所提取的數(shù)據(jù)中不存在丟失的事件。 操作154包括處理丟失的事件并且其他數(shù)據(jù)清理(cleaning)過程。在操作156中,模型生 成器可以從所處理的網絡會話事件計算網絡會話模型。例如,模型生成器可以從網絡會話 事件的出現(xiàn)生成多變量數(shù)學模型。
[0046] 在操作158中,對于網絡會話模型檢測異常值。例如,通過在模型的正常操作閾 值之外的建模轉換來投射與特定時間戳時段相關聯(lián)的數(shù)據(jù)點。在操作158中識別遠離 (outlying)的時間戳時段??梢栽诓僮?60中生成報告,該報告識別用于所檢測的異常值 的最重要的網絡會話事件。這樣的報告包含異常值時間戳和對于每一個異常值時間戳的最 高貢獻事件的列表。
[0047] 在操作162中,所建立的多變量模型連同用于建立模型的所有轉換參數(shù)和用于檢 測異常值的閾值被存儲到硬盤驅動器,以供系統(tǒng)的第二模塊實時監(jiān)控模塊隨后使用。
[0048] 圖3描述了用于在生成網絡會話模型之前處理網絡會話事件的示例操作。在操作 170中,從會話檔案數(shù)據(jù)庫對于建模時間段提取網絡會話事件。會話檔案可以對于任何數(shù)據(jù) 源(包括平面文件)開放。在一個示例中,可以使用Microsoft? SQL數(shù)據(jù)庫,并且開放數(shù) 據(jù)庫連接(ODBC)可以用于到數(shù)據(jù)庫的連接。
[0049] 在操作172中,每一個網絡會話事件的出現(xiàn)的次數(shù)可以在可配置歷史時段的子部 分累積。例如,可以在所捕獲的歷史數(shù)據(jù)的最后一月上的每一個小時合計每一個網絡會話 事件的出現(xiàn)的次數(shù)。所合計的網絡會話事件可以被分配相關聯(lián)的時間戳,并且在表格中被 列出。在通過分析系統(tǒng)來處理所合計的網絡會話事件之前,監(jiān)控系統(tǒng)可以計數(shù)網絡會話事 件的出現(xiàn)次數(shù)。
[0050] 在操作174中,可以將網絡會話事件的計數(shù)值改造到寬表格內,使得每行表示特 定的時間戳,并且每列表示特定的事件。在該寬表格的列中使用唯一代碼(UNIQUEID(唯一 ID)編碼的事件變量)表示網絡會話事件。
[0051] 在操作176中,可以過濾網絡會話事件。例如,可能在特定的一小時時段沒有特定 網絡會話事件的出現(xiàn)。未出現(xiàn)被替代地稱為不適用(NA)。可以在操作176中從寬表格過濾 僅很少出現(xiàn)的網絡會話事件。例如,可以從寬表格去除具有大于X%的NA值的任何網絡會 話事件。該X%值可以是在圖1中的配置文件135中指定的可選擇值,并且在一個示例中可 以具有X = 50%的默認值。其基本原理是從正常行為而不是異常行為建立模型。操作員可 以在單獨的基礎上監(jiān)控稀少但是重要的事件。在這些操作后的所有剩余的NA值被替換為 0,表示對應的事件的零出現(xiàn)。
[0052] 在操作178中,一些網絡會話事件可以從網絡會話模型生成、監(jiān)控和/或報警去 除。例如,使用不足的信用來兌換現(xiàn)金紅利的嘗試可能引起網絡會話事件之一。該事件可 能作為專門市場營銷活動的結果而在異常計數(shù)水平處被解除。大量的這些事件可能使得網 絡會話模型生成不必要的警告。為了避免煩人的警告,用戶可以暫時將該事件加到黑名單。
[0053] 如果在與營銷活動重疊的歷史上時段期間被建立,則網絡會話模型可能太討厭, 并且允許太多的異常值通過而未被注意。在任何一種情況下,操作員可以將網絡會話事件 列入黑名單,以防止模型識別通常與正常的網絡會話操作相關聯(lián)的異常值??梢栽诓僮?80 中使用剩余的網絡會話事件,以生成網絡會話模型。
[0054] 在操作182中,可以識別復制的網絡會話事件。例如,一些網絡會話事件可以具有 不同的唯一標識符,但是可以表示同一網絡會話事件。例如,在企業(yè)中的兩個不同的部門可 能已經建立了用于捕獲同一網絡會話數(shù)據(jù)的兩個不同的事件。在操作182,所識別的網絡會 話事件可以在網絡會話模型的建立期間被識別,并且被顯示給操作員。操作員可以重新配 置監(jiān)控系統(tǒng),使得復制事件之一不再被捕獲和存儲在會話檔案中。這可以減少用于捕獲、存 儲和分析復制的網絡會話事件的處理量。
[0055] 圖4A描述了第一表格190的示例,用于識別網絡會話事件在從數(shù)據(jù)庫的提取后原 樣在特定的一個小時的時間段中的出現(xiàn)。在這個示例中,列192識別小時長的時間段。列 193列出了與不同的網絡會話事件的每一個相關聯(lián)的唯一標識符。列196列出了在列190 中識別的小時長的時間段不同網絡會話事件的每一個的出現(xiàn)的次數(shù)。
[0056] 圖4B描述了第二寬表格的示例,該第二寬表格列出在數(shù)據(jù)改造處理174之后對于 整個歷史建模時段的所有網絡會話事件。例如,行202可以列出在2011年10月29日晚上 7:00開始的第一個一小時時間段中不同網絡會話事件的每一個的出現(xiàn)的次數(shù),如前在圖 4A的表格190中所示。列204列出了在歷史建模時段期間的所有單獨的一小時時間段,該 歷史建模時間段在一個不例中可以是一個月。列206列出了在列204中列出的一小時時間 段的每一個網絡會話事件的每一個的出現(xiàn)次數(shù)。
[0057] 例如,被分配唯一標識符V. 1的網絡會話事件在2011年10月30日凌晨2:00處 開始的一小時時間段期間有284, 262次出現(xiàn)。在另一個示例中,被分配唯一標識符V. 22的 網絡會話事件在2011年10月29日晚上11:00、2011年10月30日凌晨3:00和2011年10 月30日凌晨5:00處開始的一小時時間段期間有0次出現(xiàn)。網絡會話事件V. 22在圖4B上 顯示的時段期間具有幾個NA,但是仍然通過了稀疏濾波器,并且被包括在數(shù)據(jù)建模和監(jiān)控 處理中。
[0058] 圖5描述了用于生成網絡會話模型的處理的示例。在操作220中,可以歸一化網 絡會話事件的出現(xiàn)的次數(shù)。如上所述,網絡會話模式可以表示正常的網絡會話行為。對于 不同的網絡會話事件,正常范圍或出現(xiàn)可能不同。例如,每小時第一網絡會話事件的出現(xiàn)的 正常平均次數(shù)可以是10, 〇〇〇。并且每小時第二網絡會話事件的出現(xiàn)的正常平均次數(shù)可以是 5。因此,可以在操作220中歸一化事件計數(shù)以便以平均值為中心,并且范圍落在0和1之 間。
[0059] 在操作222,可以對于網絡會話事件的歸一化出現(xiàn)計算協(xié)方差矩陣,并且在操作 224中,從該協(xié)方差矩陣計算本征向量。該協(xié)方差矩陣的本征向量提供用于網絡會話模型的 主分量。
[0060] 在操作226中,對于數(shù)據(jù)執(zhí)行交叉驗證。交叉驗證可以包括在時間戳時段的一些 中的數(shù)據(jù)(時間戳數(shù)據(jù))的重復排除和在向剩余的數(shù)據(jù)集應用主分量后保留的總方差比的 計算。該過程允許估計與模型的預測力相反的滲透到網絡會話模型內的噪聲的水平。交叉 驗證結果也可以用于確定模型的主分量的最佳數(shù)量。
[0061] 在操作228中選擇了模型的主分量的數(shù)量。可以基于不同的標準來選擇主分量的 數(shù)量。例如,主分量的數(shù)量可以基于達到諸如默認值85%的預定義量的保留方差比。替代 地,可以確定主分量的數(shù)量以最大化如交叉驗證處理226披露的模型的預測力。歸一化數(shù) 據(jù)、計算協(xié)方差矩陣和本征向量、交叉驗證數(shù)據(jù)和從數(shù)據(jù)選擇主分量是在數(shù)據(jù)處理中本領 域技術人員已知的操作。
[0062] 用于生成模型的下面描述的一些操作可以使用現(xiàn)有的軟件系統(tǒng)被人工執(zhí)行,并且 可以在以下文件中更詳細地描述:L. Eriksson、E. Johansson、N. Kettaneh-Wold、J. Trygg、 C. Wikstroem、S. Wold 的〃Multi-and Megavariate Data Analysis〃2006, Umetrics (Eriks son),其通過引用被并入在此。為了建立系統(tǒng)的完全自動化建模分量,原始軟件被開發(fā)為實 現(xiàn)所述的算法。
[0063] 圖6A描述了時間戳數(shù)據(jù)的相關的方差比240的示例直方圖。相關的方差比240 隨著被加到網絡會話模型的每一個新主分量穩(wěn)定地增長。每個主分量是網絡會話事件的加 權線性組合。
[0064] 第二直方圖表示交叉驗證242,并且指示網絡會話模型的預測力。在數(shù)據(jù)中的噪聲 可以降低相對的相關方差比。在一個示例中,可以計算主分量,直到交叉驗證比242達到相 關的方差比的預定義閾值部分。例如,可以增加主分量,直到交叉驗證比242達到相關的方 差比240的默認值85%。這可以指示這樣的閾值,其中另外的主分量可以僅向網絡會話模 型增加噪聲,并且顯著地減小模型的預測力。
[0065] 圖6B描述了觀察數(shù)據(jù)向由來自網絡會話模型的前兩個主分量限定的二維平面上 的投射。元素244表示具有時間戳的網絡會話事件觀察,并且橢圓243表示被投射到同一 平面上的統(tǒng)計置信橢圓。默認置信級可以是95%,意味著在橢圓之外的所有觀察點表示具 有95%置信級的統(tǒng)計異?;顒?。位于橢圓243之外的任何元素244可以因此進一步作為可 能的異常值被調查。
[0066] 實際上,不在象在圖6B上所示的那樣的投射平面上而是在整個主分量空間中執(zhí) 行異常值檢測。兩個公式可以用于生成在用于異常值檢測的多變量主分量空間中的閾值。 [0067] 第一模型基于在模型空間中的霍特林T2距離的概念。讓我們將模型主分量的總 數(shù)表示為A,并且將在寬表格中的具有時間戳的網絡事件觀察的總數(shù)表示為N。用于第i個 觀察的霍特林T2距離被定義為:
[0068]
【權利要求】
1. 一種方法,包括: 識別用于網絡會話的事件; 從所述事件生成模型; 相對于所述模型識別異常值;以及 基于所述事件對于所述異常值的重要性來生成識別所述事件的報告。
2. 根據(jù)權利要求1所述的方法,進一步包括: 自動再生所述網絡會話的不同歷史時間段的所述模型; 相對于所述模型的每一個再生識別所述異常值;以及 基于所述事件對于所述異常值的重要性,來生成識別所述不同歷史時間段的每一個的 所述事件的報告。
3. 根據(jù)權利要求1所述的方法,進一步包括: 自動提取用于新的網絡會話的新的事件; 通過使用所述新的事件執(zhí)行建模轉換,來生成變換數(shù)據(jù); 計算所述變換數(shù)據(jù)相對于所述模型的距離; 確定所述變換數(shù)據(jù)是否表示異常值;以及 生成下述部分的至少一個:識別所述新的事件的異常值狀態(tài)的報告,以及對于所述變 換數(shù)據(jù)相對于所述模型的所述距離的頂端貢獻新事件的列表。
4. 根據(jù)權利要求3所述的方法,進一步包括: 當所述變換數(shù)據(jù)識別為用于模型的異常值時,生成用于所述報告的警報; 自動向識別的人傳遞對于所述報告的警報。
5. 根據(jù)權利要求1所述的方法,進一步包括: 識別在時間戳時段中所述事件的每一個的出現(xiàn)次數(shù); 識別所述時間戳時段的所述變換數(shù)據(jù)的模型距離;以及 基于所述模型距離與閾值的比較來識別所述異常值。
6. 根據(jù)權利要求1所述的方法,進一步包括: 將所述事件的一些識別為列入黑名單的事件;以及 從所述報告去除列入黑名單的事件。
7. 根據(jù)權利要求6所述的方法,其中,所述列入黑名單的事件包括已知為偏離所述網 絡會話的正常操作的事件。
8. 根據(jù)權利要求1所述的方法,進一步包括從用于生成所述模型的所述事件去除在配 置文件中識別的一組事件,其中,所述一組事件包括已知為偏離所述網絡會話的正常操作 的活動。
9. 根據(jù)權利要求1所述的方法,其中: 所述事件包括與網頁交互的用戶輸入;以及 所述報告識別對于所述異常值具有最大影響的所述用戶輸入。
10. 根據(jù)權利要求1所述的方法,其中,所述模型包括用于所述網絡會話的多變量模 型。
11. 根據(jù)權利要求1所述的方法,進一步包括: 識別在所述網絡會話期間顯示的網頁的文件對象模型(DOM)改變; 識別所述DOM改變的出現(xiàn);以及 使用所述D0M改變的所述出現(xiàn)來生成所述模型。
12. -種設備,包括: 存儲器,其被配置為歸檔用于網絡會話的網絡會話事件; 邏輯電路,其被配置為: 從所述存儲器提取所述網絡會話事件; 從所述網絡會話事件生成用于所述網絡會話的模型;以及 基于用于所述網絡會話的所述模型來識別所述網絡會話事件如何影響所述網絡會話。
13. 根據(jù)權利要求12所述的設備,進一步包括: 將網絡會話消費者體驗數(shù)據(jù)描述為在主分量的多變量空間中的單個點; 計算與所述網絡會話事件相關聯(lián)的變換數(shù)據(jù)點相對于所述模型的距離;以及 將具有在統(tǒng)計上重要的閾值之外的距離的所述變換數(shù)據(jù)點識別為潛在的異常值,以用 于進一步的分析。
14. 根據(jù)權利要求12所述的設備,其中,所述邏輯電路進一步配置為生成用于具有對 所述異常值的最重要貢獻的所述網絡會話事件的圖表;
15. 根據(jù)權利要求12所述的設備,進一步包括: 監(jiān)控系統(tǒng),其被配置為: 捕獲用于所述網絡會話的網絡數(shù)據(jù),其中,所述網絡數(shù)據(jù)包括在所述網絡會話期間在 網絡服務器和用戶裝置之間通過網絡發(fā)送的網頁、請求和響應;以及 捕獲用于所述網絡會話的用戶界面事件,其中,所述用戶界面事件包括在所述用戶裝 置處輸入以用于與網頁交互的用戶輸入,并且其中,用于生成所述模型的所述網絡會話事 件包括所述網絡數(shù)據(jù)和所述用戶界面事件。
16. 根據(jù)權利要求15所述的網絡監(jiān)控系統(tǒng),其中,所述邏輯電路被進一步配置為: 使用所述多變量模型來識別用于所述網絡會話的異常值; 識別與所述異常值相關聯(lián)的所述網絡數(shù)據(jù)和用戶界面事件;以及 通過下述方式來重放所述網絡會話:將與所述異常值相關聯(lián)的所述網絡數(shù)據(jù)中的至少 一些的呈現(xiàn)以與在所述網絡會話期間先前出現(xiàn)的大體相同的順序,與關聯(lián)于所述異常值的 所述用戶界面事件中的至少一些的重放同步。
17. -種方法,包括: 識別用于網絡會話的網絡事件,所述網絡事件包括在所述網絡會話期間在網絡服務器 和用戶裝置之間通過網絡發(fā)送的網頁數(shù)據(jù); 識別與所述網絡會話相關聯(lián)的用戶界面事件,所述用戶界面事件包括用于與所述網頁 數(shù)據(jù)交互的用戶輸入; 從所述網絡事件和所述用戶界面事件生成用于所述網絡會話的模型;以及 使用所述模型來識別所述網絡事件和用戶界面事件如何影響網絡會話的操作。
18. 根據(jù)權利要求17所述的方法,進一步包括: 識別用于所述模型的異常值;以及 識別具有對于所述異常值的最高貢獻的所述網絡事件和用戶界面事件。
19. 根據(jù)權利要求17所述的方法,進一步包括通過下述方式來重放所述網絡會話:將 所述網頁數(shù)據(jù)中的至少一些的呈現(xiàn)與關聯(lián)于所述異常值的所述用戶界面事件中的至少一 些的重放同步。
20. 根據(jù)權利要求17所述的方法,進一步包括: 在網絡會話監(jiān)控器處捕獲所述網絡事件; 向會話檔案發(fā)送所述網絡事件; 在用戶裝置處捕獲所述用戶界面事件; 向所述會話檔案發(fā)送所述用戶界面事件;以及 從在所述會話檔案的所述網絡事件和用戶界面事件生成所述模型。
21. 根據(jù)權利要求17所述的方法,進一步包括: 將所述用戶界面事件描述為在與對應的時間戳相關聯(lián)的主分量的多變量空間中的單 個占 . 合計時間戳時段的所述網絡事件和用戶界面事件的出現(xiàn);以及 基于所述時間戳時段的所述網絡事件和用戶界面事件的所述出現(xiàn)來生成所述模型。
22. 根據(jù)權利要求17所述的方法,進一步包括: 識別用于所述模型的異常值; 識別與所述異常值相關聯(lián)的時間戳; 識別與所述時間戳相關聯(lián)的所述網絡會話的部分;以及 重放用于所述網絡會話的部分的所述網絡事件和用戶界面事件。
23. 根據(jù)權利要求17所述的方法,進一步包括: 在生成所述模型的同時,識別復制的網絡事件或用戶界面事件;以及 禁止所述復制的網絡事件之一在所述網絡會話期間被捕獲。
【文檔編號】G06F11/34GK104285212SQ201380023136
【公開日】2015年1月14日 申請日期:2013年2月27日 優(yōu)先權日:2012年5月1日
【發(fā)明者】M.B.科津, R.I.韋尼格, T.S.鮑威爾 申請人:國際商業(yè)機器公司