本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種銀行頻繁項(xiàng)模式挖掘方法及挖掘系統(tǒng)。
背景技術(shù):
銀行作為經(jīng)營貨幣信貸業(yè)務(wù)的依法成立的金融機(jī)構(gòu),由于其安全高效等特性廣泛為人們所使用。作為一個如此重要的系統(tǒng),其安全性和高效性就顯得尤為重要,其中安全性更是銀行系統(tǒng)的命脈,但是即便如此,銀行方面大規(guī)模的故障仍時有發(fā)生。并且大規(guī)模的故障往往不是由前臺的工作失誤造成的,因?yàn)殂y行前臺周全的交易步驟幾乎可以杜絕人為失誤的發(fā)生,而即使失誤發(fā)生也是一兩筆交易的小規(guī)模的錯誤。大規(guī)模的故障往往都是由后臺的系統(tǒng)的故障造成的。因此,想要更加有效的避免銀行故障的發(fā)生,應(yīng)該著重從后臺系統(tǒng)下手。但是銀行后臺系統(tǒng)往往十分復(fù)雜,造成故障的原因更是多種多樣,例如,銀行之間的鏈接網(wǎng)絡(luò),后端記錄數(shù)據(jù)的數(shù)據(jù)庫,用于運(yùn)行交易程序的服務(wù)器等等產(chǎn)生故障。而其中的一個故障往往會造成一系列的連鎖反應(yīng),比如,當(dāng)數(shù)據(jù)庫發(fā)生癱瘓時,所有的交易請求就會開始堆積,從而導(dǎo)致服務(wù)器的資源不足;相反,如果服務(wù)器的內(nèi)存產(chǎn)生泄漏,那么漸漸的系統(tǒng)資源會越來越少,從而導(dǎo)致數(shù)據(jù)庫的運(yùn)行所需資源不足,最終癱瘓。由此可見,后端的系統(tǒng)相關(guān)性相當(dāng)復(fù)雜,想要通過規(guī)則方法直接分析出故障產(chǎn)生的原因幾乎不可能。故障產(chǎn)生的次數(shù)雖然稀少,但是并不是無規(guī)律可循,根據(jù)銀行方面的經(jīng)驗(yàn),在故障發(fā)生之前往往系統(tǒng)會產(chǎn)生一些異常的狀態(tài),而系統(tǒng)的狀態(tài)往往比故障更加容易監(jiān)測,因此可以通過實(shí)時的監(jiān)測分析系統(tǒng)的參數(shù),從而預(yù)測故障將會何時發(fā)生,這也是人工智能中的一個重要的研究領(lǐng)域。
一個準(zhǔn)確的故障預(yù)測可以在故障發(fā)生之前提前給人們做出警告,從而可以使用例如故障排查、數(shù)據(jù)備份以及軟件硬件設(shè)備重啟等恰當(dāng)?shù)姆绞竭M(jìn)行應(yīng)對。評價一個系統(tǒng)的穩(wěn)定性可以從可靠性和可用性兩個指標(biāo)來評價。這里可靠性是指系統(tǒng)發(fā)生故障的幾率,對于銀行系統(tǒng)來說可靠性往往是很高的,即極少的情況會發(fā)生故障,因此從可靠性的角度很難對系統(tǒng)的性能做出一個提升;而可用性是指故障后,系統(tǒng)恢復(fù)所需要的時間的長短,這個性能指標(biāo)在實(shí)際使用的過程中也是十分重要的。通過故障預(yù)測方法可以提前預(yù)測采取對應(yīng)措施,從而在一定的可靠性的條件下,加速系統(tǒng)恢復(fù)速度,提升系統(tǒng)的可用性,改善系統(tǒng)性能。另一方面,既然知道了和故障相關(guān)的一些系統(tǒng)參數(shù),則可以通過對這些參數(shù)進(jìn)行人為限制和調(diào)整從而在預(yù)先的避免故障的發(fā)生,在一定的程度上提高系統(tǒng)的可靠性。
另一方面如果故障已經(jīng)發(fā)生,則需要尋找一種方法來排除故障,首先可以直接重啟機(jī)器,或者可以檢測故障發(fā)生的位置解決造成故障的問題等等。這些方法之間的選擇和很多因素有關(guān),但最主要的是在故障發(fā)生的過程中銀行會損失的交易量的多少。如果當(dāng)前是一個交易的高峰期,那么往往會選擇直接重啟系統(tǒng),使得系統(tǒng)盡快恢復(fù);如果當(dāng)前交易并不那么密集,則可以選擇逐一排除,找到故障源頭分析故障原因,嘗試避免同樣的故障下次發(fā)生。
由于銀行系統(tǒng)的私密性,因此很難找到針對于銀行交易系統(tǒng)的故障預(yù)測相關(guān)文獻(xiàn)。但是故障預(yù)測這個問題一直是人工智能領(lǐng)域的一個大方向。人們對于系統(tǒng)故障的預(yù)測方法研究歷史已經(jīng)超過了30年,隨著系統(tǒng)不斷的變得復(fù)雜,故障預(yù)測的方法也在與時俱進(jìn)的發(fā)展,隨著近幾年的研究,預(yù)測故障的方法大致可以歸納成為以下的流程:數(shù)據(jù)采集、關(guān)鍵特征提取、降維處理、模型訓(xùn)練、算法評價。
其中,銀行后臺日志中大量銀行系統(tǒng)運(yùn)行信息蘊(yùn)含了大量的系統(tǒng)狀態(tài)信息,一些固定模式往往與某種系統(tǒng)狀態(tài)相關(guān)。如何挖掘這些固定模式并據(jù)此預(yù)測系統(tǒng)趨勢、挖掘出重要信息就成為了重要課題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的一個目的在于提出一種銀行頻繁項(xiàng)模式挖掘方法,該方法可以提高了銀行系統(tǒng)的可靠性,簡單便捷。
本發(fā)明的另一個目的在于提出一種銀行頻繁項(xiàng)模式挖掘系統(tǒng)。
為達(dá)到上述目的,本發(fā)明一方面實(shí)施例提出了一種銀行頻繁項(xiàng)模式挖掘方法,包括以下步驟:從銀行系統(tǒng)運(yùn)行信息中獲取銀行系統(tǒng)的系統(tǒng)狀態(tài)信息;從所述系統(tǒng)狀態(tài)信息中抽取系統(tǒng)特征,并從所述系統(tǒng)特征中提取出相關(guān)聯(lián)的文本頻繁項(xiàng);根據(jù)所述相關(guān)聯(lián)的文本頻繁項(xiàng)挖掘出銀行頻繁項(xiàng)模式;根據(jù)所述銀行頻繁項(xiàng)模式生成所述銀行系統(tǒng)的分析結(jié)果。
本發(fā)明實(shí)施例的銀行頻繁項(xiàng)模式挖掘方法,可以從銀行后臺交易日志抽取多種相關(guān)信息并挖掘此類相關(guān)信息之間的關(guān)聯(lián),以此為依據(jù)進(jìn)行日志挖掘與分析,通過模式識別發(fā)現(xiàn)潛在故障并進(jìn)行預(yù)警,不僅可以給銀行的后臺服務(wù)改進(jìn)提供參考,而且可以對銀行故障排除方法的決策給出建議,提高了銀行系統(tǒng)的可靠性,簡單便捷。
另外,根據(jù)本發(fā)明上述實(shí)施例的銀行頻繁項(xiàng)模式挖掘方法還可以具有以下附加的技術(shù)特征:
其中,在本發(fā)明的一個實(shí)施例中,所述系統(tǒng)狀態(tài)信息包括交易信息、日期信息、往日同期信息和交易增幅信息。
進(jìn)一步地,在本發(fā)明的一個實(shí)施例中,所述從所述系統(tǒng)特征中提取出相關(guān)聯(lián)的文本頻繁項(xiàng),進(jìn)一步包括:根據(jù)交易日志的余弦相似性進(jìn)行相似度分析,以提取出所述相關(guān)聯(lián)的交易日志。
進(jìn)一步地,在本發(fā)明的一個實(shí)施例中,所述從所述系統(tǒng)狀態(tài)信息中抽取系統(tǒng)特征,進(jìn)一步包括:通過關(guān)聯(lián)規(guī)則挖掘的方法提取出所述系統(tǒng)特征中多個頻繁項(xiàng);獲取頻繁項(xiàng)集和所述頻繁項(xiàng)集中每個頻繁項(xiàng)的支持度,以進(jìn)行相似度分析。
進(jìn)一步地,在本發(fā)明的一個實(shí)施例中,通過連接步和剪枝步得到所述頻繁項(xiàng)集。
為達(dá)到上述目的,本發(fā)明另一方面實(shí)施例提出了一種銀行頻繁項(xiàng)模式挖掘系統(tǒng),包括:獲取模塊,用于從銀行系統(tǒng)運(yùn)行信息中獲取銀行系統(tǒng)的系統(tǒng)狀態(tài)信息;抽取模塊,用于從所述系統(tǒng)狀態(tài)信息中抽取系統(tǒng)特征,并從所述系統(tǒng)特征中提取出相關(guān)聯(lián)的文本頻繁項(xiàng);挖掘模塊,用于根據(jù)所述相關(guān)聯(lián)的文本頻繁項(xiàng)挖掘出銀行頻繁項(xiàng)模式;生成模塊,用于根據(jù)所述銀行頻繁項(xiàng)模式生成所述銀行系統(tǒng)的分析結(jié)果。
本發(fā)明實(shí)施例的銀行頻繁項(xiàng)模式挖掘系統(tǒng),可以從銀行后臺交易日志抽取多種相關(guān)信息并挖掘此類相關(guān)信息之間的關(guān)聯(lián),以此為依據(jù)進(jìn)行日志挖掘與分析,通過模式識別發(fā)現(xiàn)潛在故障并進(jìn)行預(yù)警,不僅可以給銀行的后臺服務(wù)改進(jìn)提供參考,而且可以對銀行故障排除方法的決策給出建議,提高了銀行系統(tǒng)的可靠性,簡單便捷。
另外,根據(jù)本發(fā)明上述實(shí)施例的銀行頻繁項(xiàng)模式挖掘系統(tǒng)還可以具有以下附加的技術(shù)特征:
其中,在本發(fā)明的一個實(shí)施例中,所述系統(tǒng)狀態(tài)信息包括交易信息、日期信息、往日同期信息和交易增幅信息。
進(jìn)一步地,在本發(fā)明的一個實(shí)施例中,所述挖掘模塊進(jìn)一步用于根據(jù)交易日志的余弦相似性進(jìn)行相似度分析,以提取出所述相關(guān)聯(lián)的交易日志。
進(jìn)一步地,在本發(fā)明的一個實(shí)施例中,所述挖掘模塊還用于通過關(guān)聯(lián)規(guī)則挖掘的方法提取出所述系統(tǒng)特征中多個頻繁項(xiàng),并且獲取頻繁項(xiàng)集和所述頻繁項(xiàng)集中每個頻繁項(xiàng)的支持度,以進(jìn)行相似度分析。
進(jìn)一步地,在本發(fā)明的一個實(shí)施例中,通過連接步和剪枝步得到所述頻繁項(xiàng)集。
本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
附圖說明
本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得明顯和容易理解,其中:
圖1為根據(jù)本發(fā)明實(shí)施例的銀行頻繁項(xiàng)模式挖掘方法的流程圖;
圖2為根據(jù)本發(fā)明一個實(shí)施例的頻繁項(xiàng)挖掘算法的流程示意;
圖3為根據(jù)本發(fā)明實(shí)施例的銀行頻繁項(xiàng)模式挖掘系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
下面參照附圖描述根據(jù)本發(fā)明實(shí)施例提出的銀行頻繁項(xiàng)模式挖掘方法及系統(tǒng),首先將參照附圖描述根據(jù)本發(fā)明實(shí)施例提出的銀行頻繁項(xiàng)模式挖掘方法。
圖1是本發(fā)明實(shí)施例的銀行頻繁項(xiàng)模式挖掘方法的流程圖。
如圖1所示,該銀行頻繁項(xiàng)模式挖掘方法包括以下步驟:
在步驟S101中,從銀行系統(tǒng)運(yùn)行信息中獲取銀行系統(tǒng)的系統(tǒng)狀態(tài)信息。
其中,在本發(fā)明的一個實(shí)施例中,系統(tǒng)狀態(tài)信息包括交易信息、日期信息、往日同期信息和交易增幅信息。
即言,本發(fā)明實(shí)施例的數(shù)據(jù)主要是大型商業(yè)銀行后臺所有交易及其發(fā)生時間,通過抽取有用的信息包括:當(dāng)前交易情況、當(dāng)前日期星期、往日同期情況和當(dāng)日交易增幅情況來表示間隔特征。
在步驟S102中,從系統(tǒng)狀態(tài)信息中抽取系統(tǒng)特征,并從系統(tǒng)特征中提取出相關(guān)聯(lián)的文本頻繁項(xiàng)。
進(jìn)一步地,在本發(fā)明的一個實(shí)施例中,從系統(tǒng)特征中提取出相關(guān)聯(lián)的文本頻繁項(xiàng),進(jìn)一步包括:根據(jù)交易日志的余弦相似性進(jìn)行相似度分析,以提取出相關(guān)聯(lián)的交易日志。
進(jìn)一步地,在本發(fā)明的一個實(shí)施例中,從系統(tǒng)狀態(tài)信息中抽取系統(tǒng)特征,進(jìn)一步包括:通過關(guān)聯(lián)規(guī)則挖掘的方法提取出系統(tǒng)特征中多個頻繁項(xiàng);獲取頻繁項(xiàng)集和頻繁項(xiàng)集中每個頻繁項(xiàng)的支持度,以進(jìn)行相似度分析。
其中,在本發(fā)明的一個實(shí)施例中,通過連接步和剪枝步得到頻繁項(xiàng)集。
具體而言,首先對日志挖掘相關(guān)概念進(jìn)行詳細(xì)描述。其中,在多個日志數(shù)據(jù)中,頻繁出現(xiàn)的元素或項(xiàng),即為頻繁項(xiàng),而在有一系列日志數(shù)據(jù),這些日志數(shù)據(jù)有些相同的元素,日志數(shù)據(jù)中同時出現(xiàn)頻率高的元素形成一個子集,滿足一定閾值條件,即為頻繁項(xiàng)集。另外,元素個數(shù)最多的頻繁項(xiàng)日志數(shù)據(jù),即其任何超集都是非頻繁項(xiàng)集,以及k項(xiàng)元素組成的一個日志數(shù)據(jù)。
進(jìn)一步地,相似性分析指研究的對象是日志數(shù)據(jù)之間的相似性關(guān)系,而頻繁項(xiàng)集分析,研究的日志數(shù)據(jù)間重復(fù)性高的元素子集。其中,支持度指包含頻繁項(xiàng)集F的集合的數(shù)目,可信度指頻繁項(xiàng)F與某項(xiàng)j的并集(即FU{j})的支持度與頻繁項(xiàng)集F的支持度的比值,興趣度指FU{j}可信度與包含{j}的集合比率之間的差值,若興趣度很高,則頻繁項(xiàng)集F會促進(jìn)j的存在,若興趣度為負(fù)值,且頻繁項(xiàng)集會抑制j的存在;若興趣度為0,則頻繁項(xiàng)集對j無太大影響。
也就是說,頻繁項(xiàng)集與某項(xiàng)j的關(guān)系就是上述的關(guān)聯(lián)規(guī)則。
進(jìn)一步地,余弦相似性通過測量兩個向量的夾角的余弦值來度量它們之間的相似性。從而兩個向量之間的角度的余弦值確定兩個向量是否大致指向相同的方向。兩個向量有相同的指向時,余弦相似度的值為1;兩個向量夾角為90°時,余弦相似度的值為0;兩個向量指向完全相反的方向時,余弦相似度的值為-1。這結(jié)果是與向量的長度無關(guān)的,僅僅與向量的指向方向相關(guān)。余弦相似度通常用于正空間,因此給出的值為0到1之間。它通常用于文本挖掘中的文件比較。此外,在數(shù)據(jù)挖掘領(lǐng)域中,會用到它來度量集群內(nèi)部的凝聚力。
兩個向量間的余弦值可以通過使用歐幾里得點(diǎn)積公式推導(dǎo):
a·b=||a||||b||cosθ
給定兩個屬性向量,A和B,其余弦相似性θ由點(diǎn)積和向量長度給出,如下所示:
其中,Ai和Bi分別代表向量A和B的各分量。
給出的相似性范圍從-1到1:-1意味著兩個向量指向的方向正好截然相反,1表示它們的指向是完全相同的,0通常表示它們之間是獨(dú)立的,而在這之間的值則表示中間的相似性或相異性。
對于文本匹配,屬性向量A和B通常是文檔中的詞頻向量。余弦相似性,可以被看作是在比較過程中把文件長度正規(guī)化的方法。
在信息檢索的情況下,由于一個詞的頻率(TF-IDF權(quán))不能為負(fù)數(shù),所以這兩個文檔的余弦相似性范圍從0到1。并且,兩個詞的頻率向量之間的角度不能大于90°。
綜上所述,如圖2所示,本發(fā)明實(shí)施例的挖掘方法采用的頻繁項(xiàng)挖掘算法可以通過Apriori算法實(shí)現(xiàn)。其中,Apriori算法使用頻繁項(xiàng)集的先驗(yàn)知識,使用一種稱作逐層搜索的迭代方法,k項(xiàng)集用于探索(k+1)項(xiàng)集。首先,通過掃描交易記錄,找出所有的頻繁1項(xiàng)集,該集合記做L1,然后利用L1找頻繁2項(xiàng)集的集合L2,L2找L3,如此下去,直到不能再找到任何頻繁k項(xiàng)集。最后再在所有的頻繁集中找出強(qiáng)規(guī)則,即產(chǎn)生用戶感興趣的關(guān)聯(lián)規(guī)則。
其中,Apriori算法具有這樣一條性質(zhì):任一頻繁項(xiàng)集的所有非空子集也必須是頻繁的。因?yàn)榧偃鏟(I)<最小支持度閾值,當(dāng)有元素A添加到I中時,結(jié)果項(xiàng)集(A∩I)不可能比I出現(xiàn)次數(shù)更多。因此A∩I也不是頻繁的。
進(jìn)一步地,在上述的關(guān)聯(lián)規(guī)則挖掘過程的兩個步驟中,第一步往往是總體性能的瓶頸。Apriori算法采用連接步和剪枝步兩種方式來找出所有的頻繁項(xiàng)集。
1)連接步
為找出Lk(所有的頻繁k項(xiàng)集的集合),通過將Lk-1(所有的頻繁k-1項(xiàng)集的集合)與自身連接產(chǎn)生候選k項(xiàng)集的集合。候選集合記作Ck。設(shè)l1和l2是Lk-1中的成員。記li[j]表示li中的第j項(xiàng)。假設(shè)Apriori算法對事務(wù)或項(xiàng)集中的項(xiàng)按字典次序排序,即對于(k-1)項(xiàng)集li,li[1]i[2]<………i[k-1]。將Lk-1與自身連接,如果(l1[1]=l2[1])&&(l1[2]=l2[2])&&……&&(l1[k-2]=l2[k-2])&&(l1[k-1]2[k-1]),那認(rèn)為l1和l2是可連接。連接l1和l2產(chǎn)生的結(jié)果是{l1[1],l1[2],……,l1[k-1],l2[k-1]}。
2)剪枝步
CK是LK的超集,也就是說,CK的成員可能是也可能不是頻繁的。通過掃描所有的事務(wù)(交易),確定CK中每個候選的計(jì)數(shù),判斷是否小于最小支持度計(jì)數(shù),如果不是,則認(rèn)為該候選是頻繁的。為了壓縮Ck,可以利用Apriori性質(zhì):任一頻繁項(xiàng)集的所有非空子集也必須是頻繁的,反之,如果某個候選的非空子集不是頻繁的,那么該候選肯定不是頻繁的,從而可以將其從CK中刪除。
在步驟S103中,根據(jù)相關(guān)聯(lián)的文本頻繁項(xiàng)挖掘出銀行頻繁項(xiàng)模式。
在步驟S104中,根據(jù)銀行頻繁項(xiàng)模式生成銀行系統(tǒng)的分析結(jié)果。
具體地,在本發(fā)明的實(shí)施例中,主要目的是給出大型商業(yè)銀行后臺系統(tǒng)運(yùn)行日志的有效信息之間的關(guān)聯(lián),通過挖掘文本中的頻繁項(xiàng)集得到系統(tǒng)固有的頻繁模式,從而達(dá)到預(yù)測系統(tǒng)狀態(tài)和回溯系統(tǒng)各狀態(tài)相關(guān)參數(shù)的目的。通過對后臺系統(tǒng)運(yùn)行日志的頻繁項(xiàng)挖掘,既能幫助商業(yè)銀行改善后臺服務(wù),又能在銀行發(fā)生故障后對于故障快速恢復(fù)提供建議,實(shí)現(xiàn)基于挖掘固定模式和頻繁項(xiàng)集的文本分析和預(yù)測的目的。
舉例而言,首先,利用特征提取從大型商業(yè)銀行后臺交易數(shù)據(jù)中獲取以5分鐘為間隔的TPS(Transaction processing systems,事務(wù)處理系統(tǒng))數(shù)據(jù),以便進(jìn)行回歸模型訓(xùn)練。本發(fā)明實(shí)施例的數(shù)據(jù)主要是大型商業(yè)銀行后臺所有交易及其發(fā)生時間,通過抽取有用的信息包括:當(dāng)前交易情況、當(dāng)前日期星期、往日同期情況和當(dāng)日交易增幅情況來表示間隔特征。通過這個步驟可以形成TPS交易事件趨勢預(yù)測模型的數(shù)據(jù)集,能用來進(jìn)行下一步的分析。
其次,把事務(wù)數(shù)據(jù)表中的各個事務(wù)數(shù)據(jù)項(xiàng)按照支持度排序后,把每個事務(wù)中的數(shù)據(jù)項(xiàng)按降序依次插入到一棵以NULL為根結(jié)點(diǎn)的樹中,同時在每個結(jié)點(diǎn)處記錄該結(jié)點(diǎn)出現(xiàn)的支持度。
1、構(gòu)造項(xiàng)頭表:掃描數(shù)據(jù)庫一遍,得到頻繁項(xiàng)的集合F和每個頻繁項(xiàng)的支持度。把F按支持度遞降排序,記為L。
2、構(gòu)造原始FPTree:把數(shù)據(jù)庫中每個事物的頻繁項(xiàng)按照L中的順序進(jìn)行重排。并按照重排之后的順序把每個事物的每個頻繁項(xiàng)插入以null為根的FPTree中。如果插入時頻繁項(xiàng)節(jié)點(diǎn)已經(jīng)存在了,則把該頻繁項(xiàng)節(jié)點(diǎn)支持度加1;如果該節(jié)點(diǎn)不存在,則創(chuàng)建支持度為1的節(jié)點(diǎn),并把該節(jié)點(diǎn)鏈接到項(xiàng)頭表中。
3、調(diào)用FP-growth(Tree,null)開始進(jìn)行挖掘。偽代碼如下:
函數(shù)的輸入:tree是指原始的FPTree或者是某個模式的條件FPTree,a是指模式的后綴(在第一次調(diào)用時a=NULL,在之后的遞歸調(diào)用中a是模式后綴)
函數(shù)的輸出:在遞歸調(diào)用過程中輸出所有的模式及其支持度。每一次調(diào)用FP_growth輸出結(jié)果的模式中一定包含F(xiàn)P_growth函數(shù)輸入的模式后綴。
FP-growth的執(zhí)行過程如下:
1、在FP-growth遞歸調(diào)用的第一層,模式前后a=NULL,得到的其實(shí)就是頻繁1-項(xiàng)集。
2、對每一個頻繁1-項(xiàng),進(jìn)行遞歸調(diào)用FP-growth()獲得多元頻繁項(xiàng)集。
根據(jù)本發(fā)明實(shí)施例的銀行頻繁項(xiàng)模式挖掘方法,可以從銀行后臺交易日志抽取多種相關(guān)信息并挖掘此類相關(guān)信息之間的關(guān)聯(lián),以此為依據(jù)進(jìn)行日志挖掘與分析,通過模式識別發(fā)現(xiàn)潛在故障并進(jìn)行預(yù)警,不僅可以給銀行的后臺服務(wù)改進(jìn)提供參考,而且可以對銀行故障排除方法的決策給出建議,提高了銀行系統(tǒng)的可靠性,簡單便捷。
其次參照附圖描述根據(jù)本發(fā)明實(shí)施例提出的銀行頻繁項(xiàng)模式挖掘系統(tǒng)。
圖3是本發(fā)明實(shí)施例的銀行頻繁項(xiàng)模式挖掘系統(tǒng)的結(jié)構(gòu)示意圖。
如圖3所示,該銀行頻繁項(xiàng)模式挖掘系統(tǒng)10包括:獲取模塊100、抽取模塊200、挖掘模塊300和生成模塊400。
其中,獲取模塊100用于從銀行系統(tǒng)運(yùn)行信息中獲取銀行系統(tǒng)的系統(tǒng)狀態(tài)信息。抽取模塊200用于從系統(tǒng)狀態(tài)信息中抽取系統(tǒng)特征,并從系統(tǒng)特征中提取出相關(guān)聯(lián)的文本頻繁項(xiàng)。挖掘模塊300用于根據(jù)相關(guān)聯(lián)的文本頻繁項(xiàng)挖掘出銀行頻繁項(xiàng)模式。生成模塊400用于根據(jù)銀行頻繁項(xiàng)模式生成銀行系統(tǒng)的分析結(jié)果。本發(fā)明實(shí)施例的挖掘系統(tǒng)10不僅可以給銀行的后臺服務(wù)改進(jìn)提供參考,而且可以對銀行故障排除方法的決策給出建議,提高了銀行系統(tǒng)的可靠性,簡單便捷。
其中,在本發(fā)明的一個實(shí)施例中,系統(tǒng)狀態(tài)信息包括交易信息、日期信息、往日同期信息和交易增幅信息。
進(jìn)一步地,在本發(fā)明的一個實(shí)施例中,挖掘模塊300進(jìn)一步用于根據(jù)交易日志的余弦相似性進(jìn)行相似度分析,以提取出相關(guān)聯(lián)的交易日志。
進(jìn)一步地,在本發(fā)明的一個實(shí)施例中,挖掘模塊300還用于通過關(guān)聯(lián)規(guī)則挖掘的方法提取出系統(tǒng)特征中多個頻繁項(xiàng),并且獲取頻繁項(xiàng)集和頻繁項(xiàng)集中每個頻繁項(xiàng)的支持度,以進(jìn)行相似度分析。
進(jìn)一步地,在本發(fā)明的一個實(shí)施例中,通過連接步和剪枝步得到頻繁項(xiàng)集。
可以理解的是,本發(fā)明實(shí)施例的挖掘系統(tǒng)10的構(gòu)建在對銀行后臺所有交易及其交易發(fā)生時間數(shù)據(jù)進(jìn)行分析,抽取能表示每5分鐘間隔的相關(guān)信息并鏈接成此時刻特征,并對訓(xùn)練集中的TPS數(shù)據(jù)進(jìn)行回歸模型訓(xùn)練。在此基礎(chǔ)上展示TPS交易事件趨勢預(yù)測,從而建立起一套完整的銀行TPS交易事件趨勢預(yù)測理論方法與分析系統(tǒng)。
本發(fā)明實(shí)施例的挖掘系統(tǒng)10主要包含兩個階段:首先是系統(tǒng)的準(zhǔn)備階段;其次是系統(tǒng)的使用階段。在系統(tǒng)準(zhǔn)備階段,主要需要完成后臺日志數(shù)據(jù)的清洗和分析。首先,系統(tǒng)針對原始日志數(shù)據(jù),提取有效信息特征,然后相似度分析、語義分析等文本處理技術(shù)最后挖掘頻繁項(xiàng)模式。在系統(tǒng)的使用階段,用戶可以使用系統(tǒng)回溯后臺日志中的有效頻繁模式或根據(jù)已發(fā)掘模式預(yù)測后臺系統(tǒng)狀態(tài),發(fā)現(xiàn)銀行后臺事件的趨勢和完成故障分析。該系統(tǒng)的分析結(jié)果不僅能給銀行后臺提供參考,并且可以協(xié)助銀行發(fā)生故障后的快速故障處理。
需要說明的是,在本發(fā)明的實(shí)施例中,利用產(chǎn)品特征抽取技術(shù)、相似性分析技術(shù)、頻繁項(xiàng)模式挖掘技術(shù)等核心技術(shù),其中,這些算法及功能模塊均在Windows下使用python等語言開發(fā)實(shí)現(xiàn)。另外,基于上述開發(fā)平臺,整個系統(tǒng)的部署運(yùn)行需要如下幾個層次運(yùn)行環(huán)境的支撐。首先在操作系統(tǒng)層,預(yù)測系統(tǒng)需要在Windows8及其兼容的操作系統(tǒng)平臺之上運(yùn)行;同時還需要程序運(yùn)行支撐環(huán)境,也就是python運(yùn)行支撐環(huán)境。只有具備了上述支撐環(huán)境,頻繁項(xiàng)模式挖掘系統(tǒng)10才能正常地運(yùn)行。
需要說明的是,前述對銀行頻繁項(xiàng)模式挖掘方法實(shí)施例的解釋說明也適用于該實(shí)施例的銀行頻繁項(xiàng)模式挖掘系統(tǒng),此處不再贅述。
根據(jù)本發(fā)明實(shí)施例的銀行頻繁項(xiàng)模式挖掘系統(tǒng),可以從銀行后臺交易日志抽取多種相關(guān)信息并挖掘此類相關(guān)信息之間的關(guān)聯(lián),以此為依據(jù)進(jìn)行日志挖掘與分析,通過模式識別發(fā)現(xiàn)潛在故障并進(jìn)行預(yù)警,不僅可以給銀行的后臺服務(wù)改進(jìn)提供參考,而且可以對銀行故障排除方法的決策給出建議,提高了銀行系統(tǒng)的可靠性,簡單便捷。
在本發(fā)明的描述中,需要理解的是,術(shù)語“中心”、“縱向”、“橫向”、“長度”、“寬度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底”“內(nèi)”、“外”、“順時針”、“逆時針”、“軸向”、“徑向”、“周向”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。
此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
在本發(fā)明中,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”、“固定”等術(shù)語應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或成一體;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通或兩個元件的相互作用關(guān)系,除非另有明確的限定。對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
在本發(fā)明中,除非另有明確的規(guī)定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接觸,或第一和第二特征通過中間媒介間接接觸。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或僅僅表示第一特征水平高度小于第二特征。
在本說明書的描述中,參考術(shù)語“一個實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個實(shí)施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個或多個實(shí)施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。
盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。