大型商業(yè)銀行后臺(tái)核心交易事件趨勢(shì)預(yù)測(cè)方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種大型商業(yè)銀行后臺(tái)核心交易事件趨勢(shì)預(yù)測(cè)方法及其系統(tǒng),方法包括步驟:利用特征提取從大型商業(yè)銀行后臺(tái)交易數(shù)據(jù)中獲取以5分鐘為間隔的每秒事物處理量數(shù)據(jù),形成待訓(xùn)練的訓(xùn)練集;對(duì)于輸入的訓(xùn)練集,進(jìn)行訓(xùn)練得到梯度提升決策樹模型,其中,所述梯度提升決策樹模型中的誤差函數(shù)是平滑的;輸入測(cè)試集數(shù)據(jù),根據(jù)所述梯度提升決策樹模型進(jìn)行核心交易事件趨勢(shì)預(yù)測(cè)。本發(fā)明具有如下優(yōu)點(diǎn):能展示核心交易事件趨勢(shì),既能幫助商業(yè)銀行改善后臺(tái)服務(wù),又能在銀行發(fā)生故障后對(duì)于故障快速恢復(fù)提供建議。
【專利說(shuō)明】
大型商業(yè)銀行后臺(tái)核心交易事件趨勢(shì)預(yù)測(cè)方法及其系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及計(jì)算機(jī)應(yīng)用技術(shù)與銀行領(lǐng)域,具體設(shè)及一種大型商業(yè)銀行后臺(tái)核屯、交 易事件趨勢(shì)預(yù)測(cè)方法及其系統(tǒng)。
【背景技術(shù)】
[0002] 銀行作為經(jīng)營(yíng)貨幣信貸業(yè)務(wù)的依法成立的金融機(jī)構(gòu),由于其安全高效等特性廣泛 為人們所使用。據(jù)統(tǒng)計(jì)截止2013年年底,我國(guó)的銀行業(yè)金融機(jī)構(gòu)共有法人機(jī)構(gòu)3949家,持有 的總資產(chǎn)高達(dá)151.4萬(wàn)億元,同比增長(zhǎng)13.3%,其中幾家巨頭,工商銀行的客戶存款額高達(dá) 14.62萬(wàn)億元,建設(shè)銀行的存款的總量也高達(dá)12.22萬(wàn)億元;關(guān)于貸款方面,全國(guó)銀行的負(fù)債 總額141.2萬(wàn)億元。運(yùn)些貸款關(guān)系到普通百姓的購(gòu)房購(gòu)車,企業(yè)的資金周轉(zhuǎn),甚至于國(guó)家 的資金募集;由此看來(lái)銀行系統(tǒng)作為一個(gè)資金集中再分配利用的角色,其重要性不言而喻。 雖然隨著21世紀(jì)一些新興的金融交易方式的興起,對(duì)銀行業(yè)務(wù)有著不小的沖擊,但是銀行 在金融業(yè)中的霸主地位仍然不可撼動(dòng)。
[0003] 作為一個(gè)如此重要的系統(tǒng),其安全性和高效性就顯得尤為重要,其中安全性更是 銀行系統(tǒng)的命脈,但是即使如此,銀行方面大規(guī)模的故障仍時(shí)有發(fā)生。并且大規(guī)模的故障往 往不是由前臺(tái)的工作失誤造成的,因?yàn)殂y行前臺(tái)周全的交易步驟幾乎可W杜絕人為失誤的 發(fā)生,而即使失誤發(fā)生也是一兩筆交易的小規(guī)模的錯(cuò)誤。大規(guī)模的故障往往都是由后臺(tái)的 系統(tǒng)的故障造成的。因此,想要更加有效的避免銀行故障的發(fā)生,我們應(yīng)該著重從后臺(tái)系統(tǒng) 下手。但是銀行后臺(tái)系統(tǒng)往往十分復(fù)雜,造成故障的原因更是多種多樣,可能由:銀行之間 的鏈接網(wǎng)絡(luò),后端記錄數(shù)據(jù)的數(shù)據(jù)庫(kù),用于運(yùn)行交易程序的服務(wù)器等等產(chǎn)生故障。而其中的 一個(gè)故障往往會(huì)造成一系列的連鎖反應(yīng),比如,當(dāng)數(shù)據(jù)庫(kù)發(fā)生擁痕時(shí),所有的交易請(qǐng)求就會(huì) 開始堆積,從而導(dǎo)致服務(wù)器的資源不足;相反,如果服務(wù)器的內(nèi)存產(chǎn)生泄漏,那么漸漸的系 統(tǒng)資源會(huì)越來(lái)越少,從而導(dǎo)致數(shù)據(jù)庫(kù)的運(yùn)行所需資源不足,最終擁痕。由此可見,后端的系 統(tǒng)相關(guān)性相當(dāng)復(fù)雜,想要通過(guò)規(guī)則方法直接分析出故障產(chǎn)生的原因幾乎不可能。故障產(chǎn)生 的次數(shù)雖然稀少,但是并不是無(wú)規(guī)律可循,根據(jù)銀行方面的經(jīng)驗(yàn),在故障發(fā)生之前往往系統(tǒng) 會(huì)產(chǎn)生一些異常的狀態(tài),而系統(tǒng)的狀態(tài)往往比故障更加容易監(jiān)測(cè),我們可W通過(guò)實(shí)時(shí)的監(jiān) 測(cè)分析系統(tǒng)的參數(shù),從而預(yù)測(cè)故障將會(huì)何時(shí)發(fā)生,運(yùn)也是人工智能中的一個(gè)重要的研究領(lǐng) 域。
[0004] -個(gè)準(zhǔn)確的故障預(yù)測(cè)可W在故障發(fā)生之前提前給人們做出警告,從而可W使用例 如故障排查、數(shù)據(jù)備份W及軟件硬件設(shè)備重啟等恰當(dāng)?shù)姆绞竭M(jìn)行應(yīng)對(duì)。評(píng)價(jià)一個(gè)系統(tǒng)的穩(wěn) 定性可W從可靠性和可用性兩個(gè)指標(biāo)來(lái)評(píng)價(jià)。運(yùn)里可靠性是指系統(tǒng)發(fā)生故障的幾率,對(duì)于 銀行系統(tǒng)來(lái)說(shuō)可靠性往往是很高的,即極少的情況會(huì)發(fā)生故障,因此從可靠性的角度很難 對(duì)系統(tǒng)的性能做出一個(gè)提升;而可用性是指故障后,系統(tǒng)恢復(fù)所需要的時(shí)間的長(zhǎng)短,運(yùn)個(gè)性 能指標(biāo)在實(shí)際使用的過(guò)程中也是十分重要的。通過(guò)故障預(yù)測(cè)方法可W提前預(yù)測(cè)采取對(duì)應(yīng)措 施,從而在一定的可靠性的條件下,加速系統(tǒng)恢復(fù)速度,提升系統(tǒng)的可用性,改善系統(tǒng)性能。 另一方面,既然我們知道了和故障相關(guān)的一些系統(tǒng)參數(shù),那么我們就可W通過(guò)對(duì)運(yùn)些參數(shù) 進(jìn)行人為限制和調(diào)整從而在預(yù)先的避免故障的發(fā)生,在一定的程度上提高系統(tǒng)額可靠性。
[0005] 另一方面如果故障已經(jīng)發(fā)生,我們就需要尋找一種方法來(lái)排除故障,首先我們可 W直接重啟機(jī)器,或者我們可W檢測(cè)故障發(fā)生的位置解決造成故障的問(wèn)題等等。運(yùn)些方法 之間的選擇和很多因素有關(guān),但最主要的是在故障發(fā)生的過(guò)程中銀行會(huì)損失的交易量的多 少。如果當(dāng)前是一個(gè)交易的高峰期,那么我們往往會(huì)選擇直接重啟系統(tǒng),使得系統(tǒng)盡快恢 復(fù);如果當(dāng)前交易并不那么密集,我們就可W選擇逐一排除,找到故障源頭分析故障原因, 嘗試避免同樣的故障下次發(fā)生。
[0006] 由于銀行系統(tǒng)的私密性,因此很難找到針對(duì)于銀行交易系統(tǒng)的故障預(yù)測(cè)相關(guān)文 獻(xiàn)。但是故障預(yù)測(cè)運(yùn)個(gè)問(wèn)題一直是人工智能領(lǐng)域的一個(gè)大方向。人們對(duì)于系統(tǒng)故障的預(yù)測(cè) 方法研究歷史已經(jīng)超過(guò)了 30年,隨著系統(tǒng)不斷的變得復(fù)雜,故障預(yù)測(cè)的方法也在與時(shí)俱進(jìn) 的發(fā)展,隨著近幾年的研究,預(yù)測(cè)故障的方法大致可W歸納成為W下的流程:數(shù)據(jù)采集、關(guān) 鍵特征提取、降維處理、模型訓(xùn)練、算法評(píng)價(jià)。
[0007] 其中每秒事物處理量不但有助于銀行故障預(yù)測(cè)而且對(duì)于發(fā)生故障后的銀行后臺(tái) 恢復(fù)有重要作用。如何預(yù)測(cè)核屯、交易事件趨勢(shì)就成為重要課題。
【發(fā)明內(nèi)容】
[000引本發(fā)明旨在至少解決上述技術(shù)問(wèn)題之一。
[0009] 為此,本發(fā)明的第一個(gè)目的在于提出一種大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù) 測(cè)方法。
[0010] 本發(fā)明的第二個(gè)目的在于提出一種大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù)測(cè)系 統(tǒng)。
[0011] 為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例公開了一種大型商業(yè)銀行后臺(tái)核屯、交易事件 趨勢(shì)預(yù)測(cè)方法,包括W下步驟:S1:利用特征提取從大型商業(yè)銀行后臺(tái)交易數(shù)據(jù)中獲取W5 分鐘為間隔的每秒事物處理量數(shù)據(jù),形成待訓(xùn)練的訓(xùn)練集;S2:對(duì)于輸入的訓(xùn)練集,進(jìn)行訓(xùn) 練得到梯度提升決策樹模型,其中,所述梯度提升決策樹模型中的誤差函數(shù)是平滑的;W及 S3:輸入測(cè)試集數(shù)據(jù),根據(jù)所述梯度提升決策樹模型進(jìn)行核屯、交易事件趨勢(shì)預(yù)測(cè)。
[0012] 根據(jù)本發(fā)明實(shí)施例的大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù)測(cè)方法,采集大型商 業(yè)銀行之前一周時(shí)間的所有交易數(shù)據(jù),使用機(jī)器學(xué)習(xí)方法對(duì)交易量進(jìn)行預(yù)測(cè),預(yù)測(cè)出接下 來(lái)24小時(shí),每隔5分鐘的平均每秒事物處理量,展示核屯、交易事件趨勢(shì),既能幫助商業(yè)銀行 改善后臺(tái)服務(wù),又能在銀行發(fā)生故障后對(duì)于故障快速恢復(fù)提供建議。
[0013] 另外,根據(jù)本發(fā)明上述實(shí)施例的大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù)測(cè)方法, 還可W具有如下附加的技術(shù)特征:
[0014] 進(jìn)一步地,在步驟Sl中,抽取的數(shù)據(jù)包括當(dāng)前交易情況、當(dāng)前日期星期、往日同期 情況和當(dāng)日交易增幅情況中的一種或多種。
[0015] 進(jìn)一步地,在步驟S2中,所述梯度提升決策樹模型的訓(xùn)練包括W下步驟:S211:對(duì) 于輸入的N個(gè)原始樣本,采用隨機(jī)抽取又放回的方式采樣,得到新的N個(gè)樣本;S212:假設(shè)所 述新的N個(gè)樣本有M維的屬性,在節(jié)點(diǎn)需要分裂時(shí),隨機(jī)抽取出m維的屬性根據(jù)C4.5算法進(jìn)行 分裂;S213:在構(gòu)建決策樹時(shí),每個(gè)節(jié)點(diǎn)均按照步驟S212的規(guī)則進(jìn)行分裂,最終形成一棵決 策樹;W及S214:重復(fù)步驟S211至213,直至得到了預(yù)設(shè)數(shù)目的決策樹構(gòu)成所述梯度提升決 策樹模型。
[0016] 進(jìn)一步地,在步驟S2中,還包括步驟:S221:使用均方誤差的方法對(duì)所述梯度提升 決策樹模型進(jìn)行評(píng)價(jià)。
[0017] 為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例公開了一種大型商業(yè)銀行后臺(tái)核屯、交易事件 趨勢(shì)預(yù)測(cè)系統(tǒng),包括:數(shù)據(jù)預(yù)處理模塊,用于利用利用特征提取從大型商業(yè)銀行后臺(tái)交易數(shù) 據(jù)中獲取W5分鐘為間隔的每秒事物處理量數(shù)據(jù),形成核屯、交易事件趨勢(shì)預(yù)測(cè)模型的訓(xùn)練 集;核屯、交易事件趨勢(shì)預(yù)測(cè)回歸模型訓(xùn)練模塊,用于對(duì)于輸入的訓(xùn)練集,進(jìn)行訓(xùn)練得到梯度 提升決策樹模型,其中,所述梯度提升決策樹模型中的誤差函數(shù)是平滑的;W及核屯、交易事 件趨勢(shì)預(yù)測(cè)結(jié)果展示模塊,用于輸入測(cè)試集數(shù)據(jù),并根據(jù)所述梯度提升決策樹模型進(jìn)行核 屯、交易事件趨勢(shì)預(yù)測(cè)。
[0018] 根據(jù)本發(fā)明實(shí)施例的大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù)測(cè)系統(tǒng),采集大型商 業(yè)銀行之前一周時(shí)間的所有交易數(shù)據(jù),使用機(jī)器學(xué)習(xí)方法對(duì)交易量進(jìn)行預(yù)測(cè),預(yù)測(cè)出接下 來(lái)24小時(shí),每隔5分鐘的平均每秒事物處理量,展示核屯、交易事件趨勢(shì),既能幫助商業(yè)銀行 改善后臺(tái)服務(wù),又能在銀行發(fā)生故障后對(duì)于故障快速恢復(fù)提供建議。
[0019] 另外,根據(jù)本發(fā)明上述實(shí)施例的大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù)測(cè)系統(tǒng), 還可W具有如下附加的技術(shù)特征:
[0020] 進(jìn)一步地,所述數(shù)據(jù)預(yù)處理模塊抽取的數(shù)據(jù)包括當(dāng)前交易情況、當(dāng)前日期星期、往 日同期情況和當(dāng)日交易增幅情況中的一種或多種。
[0021] 進(jìn)一步地,所述梯度提升決策樹模型的訓(xùn)練包括W下步驟:SA:對(duì)于輸入的N個(gè)原 始樣本,采用隨機(jī)抽取又放回的方式采樣,得到新的N個(gè)樣本;SB:假設(shè)所述新的N個(gè)樣本有M 維的屬性,在節(jié)點(diǎn)需要分裂時(shí),隨機(jī)抽取出m維的屬性根據(jù)C4.5算法進(jìn)行分裂;SC:在構(gòu)建決 策樹時(shí),每個(gè)節(jié)點(diǎn)均按照步驟SB的規(guī)則進(jìn)行分裂,最終形成一棵決策樹;W及重復(fù)步驟SA至 SC,直至得到了預(yù)設(shè)數(shù)目的決策樹構(gòu)成所述梯度提升決策樹模型。
[0022] 進(jìn)一步地,所述核屯、交易事件趨勢(shì)預(yù)測(cè)回歸模型訓(xùn)練模塊還用于使用均方誤差的 方法對(duì)所述梯度提升決策樹模型進(jìn)行評(píng)價(jià)。
[0023] 本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0024] 本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得 明顯和容易理解,其中:
[0025] 圖1是本發(fā)明一個(gè)實(shí)施例的大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù)測(cè)方法的流程 圖;
[0026] 圖2是本發(fā)明一個(gè)實(shí)施例的大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù)測(cè)展示示意 圖;
[0027] 圖3是本發(fā)明一個(gè)實(shí)施例的大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù)測(cè)系統(tǒng)的結(jié)構(gòu) 框圖。
【具體實(shí)施方式】
[0028] 下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附 圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
[0029] 在本發(fā)明的描述中,需要理解的是,術(shù)語(yǔ)"中屯、"、"縱向橫向上"、"下"、 "前"、"后V'左'、"右V'豎曹'、"水甲V'頂'、"底V'胖V'外"等指示的方位或位置關(guān)系為 基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡(jiǎn)化描述,而不是指示或暗 示所指的裝置或元件必須具有特定的方位、W特定的方位構(gòu)造和操作,因此不能理解為對(duì) 本發(fā)明的限制。此外,術(shù)語(yǔ)"第一"、"第二"僅用于描述目的,而不能理解為指示或暗示相對(duì) 重要性。
[0030] 在本發(fā)明的描述中,需要說(shuō)明的是,除非另有明確的規(guī)定和限定,術(shù)語(yǔ)"安裝"、"相 連"、"連接"應(yīng)做廣義理解,例如,可W是固定連接,也可W是可拆卸連接,或一體地連接;可 W是機(jī)械連接,也可W是電連接;可W是直接相連,也可W通過(guò)中間媒介間接相連,可W是 兩個(gè)元件內(nèi)部的連通。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可W具體情況理解上述術(shù)語(yǔ)在本 發(fā)明中的具體含義。
[0031] 參照下面的描述和附圖,將清楚本發(fā)明的實(shí)施例的運(yùn)些和其他方面。在運(yùn)些描述 和附圖中,具體公開了本發(fā)明的實(shí)施例中的一些特定實(shí)施方式,來(lái)表示實(shí)施本發(fā)明的實(shí)施 例的原理的一些方式,但是應(yīng)當(dāng)理解,本發(fā)明的實(shí)施例的范圍不受此限制。相反,本發(fā)明的 實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0032] W下結(jié)合附圖描述根據(jù)本發(fā)明實(shí)施例的大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù) 測(cè)方法。
[0033] 請(qǐng)參考圖1,一種大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù)測(cè)方法,包括W下步驟:
[0034] SI:利用特征提取從大型商業(yè)銀行后臺(tái)交易數(shù)據(jù)中獲取W5分鐘為間隔的每秒事 物處理量數(shù)據(jù),形成待訓(xùn)練的訓(xùn)練集。
[0035] 在本發(fā)明的一個(gè)實(shí)施例中,抽取的數(shù)據(jù)包括當(dāng)前交易情況、當(dāng)前日期星期、往日同 期情況和當(dāng)日交易增幅情況中的一種或多種,抽取的數(shù)據(jù)來(lái)表示間隔特征。
[0036] S2:對(duì)于輸入的訓(xùn)練集,進(jìn)行訓(xùn)練得到梯度提升決策樹模型,其中,所述梯度提升 決策樹模型中的誤差函數(shù)是平滑的。
[0037] 具體地,梯度提升決策樹是一種集成學(xué)習(xí)模型,梯度提升不再要求誤差函數(shù)是指 數(shù)誤差函數(shù),而可能是任意一種誤差函數(shù)并使用梯度下降法來(lái)最佳化誤差函數(shù),所W誤差 函數(shù)必須是平滑的。
[0038] 在本發(fā)明的一個(gè)實(shí)施例中,在步驟S2中,所述梯度提升決策樹模型的訓(xùn)練包括W 下步驟:
[0039] S211:對(duì)于輸入的N個(gè)原始樣本,采用隨機(jī)抽取又放回的方式采樣,得到新的N個(gè)樣 本。
[0040] S212:假設(shè)所述新的N個(gè)樣本有M維的屬性,在節(jié)點(diǎn)需要分裂時(shí),隨機(jī)抽取出m維的 屬性根據(jù)C4.5算法進(jìn)行分裂。其中,C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在W下幾方面對(duì)ID3 算法進(jìn)行了改進(jìn):1)用信息增益率來(lái)選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取 值多的屬性的不足;2)在樹構(gòu)造過(guò)程中進(jìn)行剪枝;3)能夠完成對(duì)連續(xù)屬性的離散化處理;4) 能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。C4.5算法有如下優(yōu)點(diǎn):產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較 局。
[0041 ] S213:在構(gòu)建決策樹時(shí),每個(gè)節(jié)點(diǎn)均按照步驟S212的規(guī)則進(jìn)行分裂,最終形成一棵 決策樹。
[0042] S214:重復(fù)步驟S211至213,直至得到了預(yù)設(shè)數(shù)目的決策樹構(gòu)成所述梯度提升決策 樹模型。
[0043] 在本發(fā)明的一個(gè)實(shí)施例中,在步驟S2中,還包括步驟S221:使用均方誤差的方法對(duì) 所述梯度提升決策樹模型進(jìn)行評(píng)價(jià)。
[0044] 具體地,本發(fā)明實(shí)施例中,根據(jù)商業(yè)銀行數(shù)據(jù)的特點(diǎn)使用均方誤差的方法進(jìn)行評(píng) 價(jià)。在統(tǒng)計(jì)學(xué)中,均方誤差是對(duì)于無(wú)法觀察的參數(shù)0的一個(gè)估計(jì)函數(shù)T;其定義為:
[0045] MSE(T) =E((T-白)2),
[0046] 其中,EO表示期望值,MSEO表示均方誤差,它是"誤差"的平方的期望值。誤差就 是估計(jì)值與被估計(jì)量的差。均方差滿足等式:
[0047] MSE(T) =var(T) + (bias(T))2,其中,Mas(T)=E(T)-白,
[0048] 即偏差Mas(T)是估計(jì)函數(shù)的期望值與那個(gè)無(wú)法觀察的參數(shù)的差。
[0049] 在本發(fā)明的一個(gè)示例中,假設(shè)Xl, . . .,Xn~N(ii,〇2),即Xl, . . .,Xn是一組來(lái)自正態(tài)分 布的樣本。常用的兩個(gè)對(duì)曰2估計(jì)函數(shù)為
癢中,I=巧-f…+車訴 為樣本均值。
[0050] 第一個(gè)估計(jì)函數(shù)為最大似然估計(jì),它是有偏的,即偏差不為零,但是它的方差比第 二個(gè)小。而第二個(gè)估計(jì)函數(shù)是無(wú)偏的。較小的方差某種程度上補(bǔ)償了偏差,因此第二個(gè)估計(jì) 函數(shù)的均方誤差比第一個(gè)要小。
[0化1]另外,運(yùn)兩個(gè)估計(jì)函數(shù)的均方誤差都比下邊運(yùn)個(gè)有偏估計(jì)函數(shù)?。?br>[0化2]運(yùn)個(gè)估計(jì)函數(shù)使得形如
(其中C是常數(shù))的均方誤差最小。
[0053] S3:輸入測(cè)試集數(shù)據(jù),根據(jù)上述梯度提升決策樹模型進(jìn)行核屯、交易事件趨勢(shì)預(yù)測(cè)。 如圖2所示,W-種W可視化的形式將每秒事物處理量預(yù)測(cè)趨勢(shì)變化圖展示出來(lái)。
[0054] W下結(jié)合附圖描述根據(jù)本發(fā)明實(shí)施例的大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù) 測(cè)系統(tǒng)。
[0055] 請(qǐng)參考圖3,一種大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù)測(cè)系統(tǒng),包括數(shù)據(jù)預(yù)處理 模塊、核屯、交易事件趨勢(shì)預(yù)測(cè)回歸模型訓(xùn)練模塊和核屯、交易事件趨勢(shì)預(yù)測(cè)結(jié)果展示模塊。
[0056] 其中,數(shù)據(jù)預(yù)處理模塊利用利用特征提取從大型商業(yè)銀行后臺(tái)交易數(shù)據(jù)中獲取W 5分鐘為間隔的每秒事物處理量數(shù)據(jù),形成核屯、交易事件趨勢(shì)預(yù)測(cè)模型的訓(xùn)練集。
[0057] 在本發(fā)明的一個(gè)實(shí)施例中,數(shù)據(jù)預(yù)處理模塊抽取的數(shù)據(jù)包括當(dāng)前交易情況、當(dāng)前 日期星期、往日同期情況和當(dāng)日交易增幅情況中的一種或多種,抽取的數(shù)據(jù)來(lái)表示間隔特 征。
[0058] 核屯、交易事件趨勢(shì)預(yù)測(cè)回歸模型訓(xùn)練模塊對(duì)于輸入的訓(xùn)練集,進(jìn)行訓(xùn)練得到梯度 提升決策樹模型。其中,所述梯度提升決策樹模型中的誤差函數(shù)是平滑的。
[0059] 具體地,梯度提升決策樹是一種集成學(xué)習(xí)模型,梯度提升不再要求誤差函數(shù)是指 數(shù)誤差函數(shù),而可能是任意一種誤差函數(shù)并使用梯度下降法來(lái)最佳化誤差函數(shù),所W誤差 函數(shù)必須是平滑的。
[0060] 在本發(fā)明的一個(gè)實(shí)施例中,梯度提升決策樹模型的訓(xùn)練包括W下步驟:
[0061] SA:對(duì)于輸入的N個(gè)原始樣本,采用隨機(jī)抽取又放回的方式采樣,得到新的N個(gè)樣 本;
[0062] SB:假設(shè)所述新的N個(gè)樣本有M維的屬性,在節(jié)點(diǎn)需要分裂時(shí),隨機(jī)抽取出m維的屬 性根據(jù)C4.5算法進(jìn)行分裂;
[0063] SC:在構(gòu)建決策樹時(shí),每個(gè)節(jié)點(diǎn)均按照步驟SB的規(guī)則進(jìn)行分裂,最終形成一棵決策 樹;W及
[0064] 重復(fù)步驟SA至SC,直至得到了預(yù)設(shè)數(shù)目的決策樹構(gòu)成所述梯度提升決策樹模型。
[0065] 在本發(fā)明的一個(gè)實(shí)施例中,核屯、交易事件趨勢(shì)預(yù)測(cè)回歸模型訓(xùn)練模塊還用于使用 均方誤差的方法對(duì)所述梯度提升決策樹模型進(jìn)行評(píng)價(jià)。
[0066] 核屯、交易事件趨勢(shì)預(yù)測(cè)結(jié)果展示模塊,通過(guò)輸入測(cè)試集數(shù)據(jù),并根據(jù)所述梯度提 升決策樹模型進(jìn)行核屯、交易事件趨勢(shì)預(yù)測(cè)。
[0067] 本發(fā)明實(shí)施例的大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù)測(cè)方法及其系統(tǒng),首先對(duì) 商業(yè)銀行后臺(tái)交易數(shù)據(jù)的固定模式進(jìn)行特征提取,針對(duì)模型提出了梯度選擇決策樹模型W 及相應(yīng)的評(píng)價(jià)系統(tǒng)正確性的方法,最后,針對(duì)每秒事物處理量預(yù)測(cè)結(jié)果本發(fā)明提出了一套 可視化展示核屯、交易事件趨勢(shì)預(yù)測(cè)。
[0068] 另外,本發(fā)明實(shí)施例的大型商業(yè)銀行后臺(tái)核屯、交易事件趨勢(shì)預(yù)測(cè)方法及其系統(tǒng)的 其它構(gòu)成W及作用對(duì)于本領(lǐng)域的技術(shù)人員而言都是已知的,為了減少冗余,不做寶述。
[0069] 在本說(shuō)明書的描述中,參考術(shù)語(yǔ)"一個(gè)實(shí)施例"、"一些實(shí)施例"、"示例"、"具體示 例"、或"一些示例"等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特 點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書中,對(duì)上述術(shù)語(yǔ)的示意性表述不 一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可W在任何 的一個(gè)或多個(gè)實(shí)施例或示例中W合適的方式結(jié)合。
[0070] 盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,本領(lǐng)域的普通技術(shù)人員可W理解:在不 脫離本發(fā)明的原理和宗旨的情況下可W對(duì)運(yùn)些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本 發(fā)明的范圍由權(quán)利要求及其等同限定。
【主權(quán)項(xiàng)】
1. 一種大型商業(yè)銀行后臺(tái)核心交易事件趨勢(shì)預(yù)測(cè)方法,其特征在于,包括以下步驟: S1:利用特征提取從大型商業(yè)銀行后臺(tái)交易數(shù)據(jù)中獲取以5分鐘為間隔的每秒事物處 理量數(shù)據(jù),形成待訓(xùn)練的訓(xùn)練集; S2:對(duì)于輸入的訓(xùn)練集,進(jìn)行訓(xùn)練得到梯度提升決策樹模型,其中,所述梯度提升決策 樹模型中的誤差函數(shù)是平滑的;以及 S3:輸入測(cè)試集數(shù)據(jù),根據(jù)所述梯度提升決策樹模型進(jìn)行核心交易事件趨勢(shì)預(yù)測(cè)。2. 根據(jù)權(quán)利要求1所述的大型商業(yè)銀行后臺(tái)核心交易事件趨勢(shì)預(yù)測(cè)方法,其特征在于, 在步驟S1中,抽取的數(shù)據(jù)包括當(dāng)前交易情況、當(dāng)前日期星期、往日同期情況和當(dāng)日交易增幅 情況中的一種或多種。3. 根據(jù)權(quán)利要求1所述的大型商業(yè)銀行后臺(tái)核心交易事件趨勢(shì)預(yù)測(cè)方法,其特征在于, 在步驟S2中,所述梯度提升決策樹模型的訓(xùn)練包括以下步驟: S211:對(duì)于輸入的N個(gè)原始樣本,采用隨機(jī)抽取又放回的方式采樣,得到新的N個(gè)樣本; S212:假設(shè)所述新的N個(gè)樣本有Μ維的屬性,在節(jié)點(diǎn)需要分裂時(shí),隨機(jī)抽取出m維的屬性 根據(jù)C4.5算法進(jìn)行分裂; S213:在構(gòu)建決策樹時(shí),每個(gè)節(jié)點(diǎn)均按照步驟S212的規(guī)則進(jìn)行分裂,最終形成一棵決策 樹;以及 S214:重復(fù)步驟S211至213,直至得到了預(yù)設(shè)數(shù)目的決策樹構(gòu)成所述梯度提升決策樹模 型。4. 根據(jù)權(quán)利要求1或3所述的大型商業(yè)銀行后臺(tái)核心交易事件趨勢(shì)預(yù)測(cè)方法,其特征在 于,在步驟S2中,還包括步驟: S221:使用均方誤差的方法對(duì)所述梯度提升決策樹模型進(jìn)行評(píng)價(jià)。5. -種大型商業(yè)銀行后臺(tái)核心交易事件趨勢(shì)預(yù)測(cè)系統(tǒng),其特征在于,包括: 數(shù)據(jù)預(yù)處理模塊,用于利用利用特征提取從大型商業(yè)銀行后臺(tái)交易數(shù)據(jù)中獲取以5分 鐘為間隔的每秒事物處理量數(shù)據(jù),形成核心交易事件趨勢(shì)預(yù)測(cè)模型的訓(xùn)練集; 核心交易事件趨勢(shì)預(yù)測(cè)回歸模型訓(xùn)練模塊,用于對(duì)于輸入的訓(xùn)練集,進(jìn)行訓(xùn)練得到梯 度提升決策樹模型,其中,所述梯度提升決策樹模型中的誤差函數(shù)是平滑的;以及 核心交易事件趨勢(shì)預(yù)測(cè)結(jié)果展示模塊,用于輸入測(cè)試集數(shù)據(jù),并根據(jù)所述梯度提升決 策樹模型進(jìn)行核心交易事件趨勢(shì)預(yù)測(cè)。6. 根據(jù)權(quán)利要求5所述的大型商業(yè)銀行后臺(tái)核心交易事件趨勢(shì)預(yù)測(cè)系統(tǒng),其特征在于, 所述數(shù)據(jù)預(yù)處理模塊抽取的數(shù)據(jù)包括當(dāng)前交易情況、當(dāng)前日期星期、往日同期情況和當(dāng)日 交易增幅情況中的一種或多種。7. 根據(jù)權(quán)利要求6所述的大型商業(yè)銀行后臺(tái)核心交易事件趨勢(shì)預(yù)測(cè)系統(tǒng),其特征在于, 所述梯度提升決策樹模型的訓(xùn)練包括以下步驟: SA:對(duì)于輸入的N個(gè)原始樣本,采用隨機(jī)抽取又放回的方式采樣,得到新的N個(gè)樣本; SB:假設(shè)所述新的N個(gè)樣本有Μ維的屬性,在節(jié)點(diǎn)需要分裂時(shí),隨機(jī)抽取出m維的屬性根 據(jù)C4.5算法進(jìn)行分裂; SC:在構(gòu)建決策樹時(shí),每個(gè)節(jié)點(diǎn)均按照步驟SB的規(guī)則進(jìn)行分裂,最終形成一棵決策樹; 以及 重復(fù)步驟SA至SC,直至得到了預(yù)設(shè)數(shù)目的決策樹構(gòu)成所述梯度提升決策樹模型。
【文檔編號(hào)】G06Q40/02GK106022907SQ201610319860
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月13日
【發(fā)明人】徐華, 詹立雄, 鄧俊輝, 石炎軍, 孫曉民, 樓浩, 郭京生, 李佳, 張帆
【申請(qǐng)人】清華大學(xué), 北京銀信長(zhǎng)遠(yuǎn)科技股份有限公司