基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種系統(tǒng)資源容量監(jiān)控裝置,尤其涉及一種基于業(yè)務(wù)變化量的系統(tǒng)資 源監(jiān)控裝置。
【背景技術(shù)】
[0002] 目前大中型企業(yè)的數(shù)據(jù)主要存放在數(shù)據(jù)庫(kù)中,通過(guò)對(duì)數(shù)據(jù)的增、刪、改、查與計(jì)算 實(shí)現(xiàn)特定業(yè)務(wù)的功能,每次都將消耗一定的系統(tǒng)基礎(chǔ)資源如CPU、內(nèi)存或者空間來(lái)完成對(duì)數(shù) 據(jù)庫(kù)的操作。當(dāng)系統(tǒng)相對(duì)空閑時(shí),各種操作之間因?yàn)榛A(chǔ)資源充分不會(huì)產(chǎn)生爭(zhēng)用,但隨著業(yè) 務(wù)量的增加,業(yè)務(wù)系統(tǒng)將會(huì)因?yàn)榛A(chǔ)資源的不足而變得運(yùn)行緩慢,甚至不可用。在業(yè)務(wù)高峰 期尤為明顯,嚴(yán)重影響到業(yè)務(wù)系統(tǒng)的穩(wěn)定運(yùn)行。
[0003]目前解決方式主要有以下2種途徑:
[0004] 1、通過(guò)對(duì)基礎(chǔ)資源使用率進(jìn)行采集,當(dāng)超過(guò)閥值時(shí)進(jìn)行通報(bào),隨后管理員通過(guò)腳 本或自動(dòng)工作負(fù)載信息庫(kù)(AWR)查詢(xún)歷史情況,定期對(duì)最耗資源的進(jìn)程、SQL語(yǔ)句進(jìn)行分析 與優(yōu)化解決。
[0005] 2、用戶(hù)在使用時(shí)發(fā)現(xiàn)響應(yīng)變慢,報(bào)障給業(yè)務(wù)部門(mén),業(yè)務(wù)部門(mén)再反饋給維護(hù)側(cè),進(jìn) 行資源緊急擴(kuò)容。
[0006] 現(xiàn)有技術(shù)有以下缺點(diǎn):
[0007] 方法一:通過(guò)對(duì)基礎(chǔ)資源(CPU、內(nèi)存)使用率進(jìn)行實(shí)時(shí)采集、分析,篩選出資源使 用率超過(guò)閥值的主機(jī)進(jìn)行告警通報(bào),隨后系統(tǒng)管理員逐一對(duì)告警的主機(jī)進(jìn)行分析優(yōu)化,定 位資源告警的原因,確定是因?yàn)檎I(yè)務(wù)增長(zhǎng)原因還是資源使用異常導(dǎo)致。如果確定為前 者則進(jìn)行資源擴(kuò)容,如果是后者則進(jìn)行集中變更優(yōu)化。但是當(dāng)主機(jī)規(guī)模超過(guò)百臺(tái)、千臺(tái)之 后,每天告警通報(bào)的主機(jī)達(dá)幾十臺(tái),需要擴(kuò)容的數(shù)量過(guò)多,而備件不足需要統(tǒng)一采購(gòu)時(shí)間冗 長(zhǎng)或者本身已經(jīng)無(wú)法擴(kuò)容。當(dāng)前的方式對(duì)主機(jī)資源管理較粗,無(wú)法統(tǒng)籌的考慮資源擴(kuò)容情 況,導(dǎo)致事發(fā)才補(bǔ)救,沒(méi)有前瞻性的把控同時(shí)也增加了管理成本。
[0008] 方法二:通過(guò)用戶(hù)發(fā)現(xiàn)響應(yīng)緩慢報(bào)障,再由業(yè)務(wù)部門(mén)反應(yīng)給維護(hù)側(cè),進(jìn)行緊急擴(kuò) 容,該現(xiàn)象主要發(fā)生在業(yè)務(wù)高峰時(shí),由于用戶(hù)使用量的增加導(dǎo)致資源使用產(chǎn)生瓶頸,但在業(yè) 務(wù)低峰時(shí)該現(xiàn)象又消失系統(tǒng)恢復(fù)正常,但因?yàn)橐呀?jīng)對(duì)用戶(hù)使用產(chǎn)生了影響,降低了用戶(hù)體 驗(yàn)度,造成了非常被動(dòng)的局面。當(dāng)問(wèn)題發(fā)生后,產(chǎn)生問(wèn)題的主機(jī)是因?yàn)闃I(yè)務(wù)增長(zhǎng)導(dǎo)致資源耗 盡,但因?yàn)閭浼蛔慊蛘咭呀?jīng)擴(kuò)滿(mǎn)導(dǎo)致問(wèn)題不能及時(shí)修復(fù)。
[0009] 由上可見(jiàn),以上兩種方法存在管理成本較高、資源擴(kuò)容不及時(shí)、擴(kuò)容需求評(píng)估困難 等缺點(diǎn),因此,有必要對(duì)現(xiàn)有的資源容量監(jiān)控裝置進(jìn)行改進(jìn)。
【發(fā)明內(nèi)容】
[0010] 本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置,能 夠結(jié)合業(yè)務(wù)變化量實(shí)時(shí)監(jiān)控基礎(chǔ)資源利用率,精確控制系統(tǒng)資源的擴(kuò)容計(jì)劃,大大降低故 障發(fā)生率和管理成本,提高系統(tǒng)的穩(wěn)定性。
[0011] 本發(fā)明為解決上述技術(shù)問(wèn)題而采用的技術(shù)方案是提供一種基于業(yè)務(wù)變化量的系 統(tǒng)資源監(jiān)控裝置,包括集中配置模塊:配置被監(jiān)控主機(jī)列表、采集監(jiān)控項(xiàng)、采集時(shí)間、采集格 式以及業(yè)務(wù)模塊與SQL語(yǔ)句的對(duì)應(yīng)關(guān)系;統(tǒng)一采集模塊:根據(jù)集中配置模塊的配置信息實(shí) 時(shí)采集相關(guān)元數(shù)據(jù)并發(fā)送給分布式分析模塊進(jìn)行實(shí)時(shí)分析;分布式分析模塊:根據(jù)采集到 的元數(shù)據(jù)統(tǒng)計(jì)業(yè)務(wù)量指標(biāo)和系統(tǒng)資源使用情況,計(jì)算系統(tǒng)資源消耗分布情況,并結(jié)合業(yè)務(wù) 增長(zhǎng)趨勢(shì)估算資源擴(kuò)容計(jì)劃;歷史數(shù)據(jù)歸檔模塊:對(duì)元數(shù)據(jù)進(jìn)行壓縮歸檔,并根據(jù)配置的 離線時(shí)間下線較早部分的元數(shù)據(jù);對(duì)結(jié)果數(shù)據(jù)歸檔用作報(bào)表展示與歷史趨勢(shì)分析。
[0012] 上述的基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置,其中,還包括自定義展示模塊,根據(jù) 選擇的時(shí)間范圍、目標(biāo)主機(jī)信息向歷史數(shù)據(jù)歸檔模塊請(qǐng)求數(shù)據(jù),并將從歷史數(shù)據(jù)歸檔模塊 返回的數(shù)據(jù)進(jìn)行展示與分析。
[0013] 上述的基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置,其中,所述集中配置模塊的采集監(jiān) 控項(xiàng)包括應(yīng)用程序業(yè)務(wù)指標(biāo)、主機(jī)CPU使用狀態(tài)、主機(jī)內(nèi)存使用狀態(tài)以及數(shù)據(jù)庫(kù)性能指標(biāo), 所述集中配置模塊通過(guò)在應(yīng)用程序發(fā)起的數(shù)據(jù)庫(kù)SQL語(yǔ)句中添加業(yè)務(wù)類(lèi)型與功能標(biāo)識(shí)配 置業(yè)務(wù)模塊與SQL語(yǔ)句的對(duì)應(yīng)關(guān)系,并定期自動(dòng)地進(jìn)行更新。
[0014] 上述的基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置,其中,所述統(tǒng)一采集模塊采集的元 數(shù)據(jù)包括單位時(shí)間片內(nèi):?jiǎn)晤?lèi)業(yè)務(wù)受理總量、單類(lèi)業(yè)務(wù)受理成功數(shù)量、單類(lèi)業(yè)務(wù)受理失敗數(shù) 量、CPU消耗按照系統(tǒng)用戶(hù)占比、CPU使用百分比、CPU等待10百分比、CPU空閑百分比、內(nèi)存 消耗按照系統(tǒng)用戶(hù)占比、內(nèi)存使用百分比、內(nèi)存空閑百分比、數(shù)據(jù)庫(kù)耗時(shí)總量、數(shù)據(jù)庫(kù)耗CPU 總量、數(shù)據(jù)庫(kù)內(nèi)存分配總量、數(shù)據(jù)庫(kù)物理讀總量、數(shù)據(jù)庫(kù)邏輯讀總量、單類(lèi)業(yè)務(wù)受理成功SQL 耗時(shí)總量、單類(lèi)業(yè)務(wù)受理成功SQL耗CPU總量、單類(lèi)業(yè)務(wù)受理失敗SQL耗時(shí)總量以及單類(lèi)業(yè) 務(wù)受理失敗SQL耗CPU總量。
[0015] 上述的基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置,其中,所述分布式分析模塊根據(jù)不 同資源類(lèi)型計(jì)算系統(tǒng)資源分布情況,并在不同業(yè)務(wù)類(lèi)型的指標(biāo)上進(jìn)行二次運(yùn)算得出單比業(yè) 務(wù)資源消耗的數(shù)量與單類(lèi)業(yè)務(wù)資源消耗占比;所述分布式分析模塊通過(guò)計(jì)算單類(lèi)業(yè)務(wù)模塊 所有SQL消耗CPU得到該類(lèi)業(yè)務(wù)所消耗的CPU資源,最終求得當(dāng)前CPU使用量所包含的各 類(lèi)業(yè)務(wù)、進(jìn)程消耗的總和。
[0016] 上述的基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置,其中,所述分布式分析模塊計(jì)算確 定單比業(yè)務(wù)CPU使用量的占比,業(yè)務(wù)處理SQL占用系統(tǒng)CPU的總量以及系統(tǒng)CPU資源的使 用率后,結(jié)合業(yè)務(wù)變化量繪制CPU使用量與業(yè)務(wù)增長(zhǎng)量的曲線,估算CPU擴(kuò)容需求。
[0017] 上述的基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置,其中,所述分布式分析模塊計(jì)算確 定數(shù)據(jù)庫(kù)數(shù)據(jù)緩存區(qū)內(nèi)存的使用率,主機(jī)內(nèi)存資源的使用率,數(shù)據(jù)庫(kù)內(nèi)存資源的使用量以 及當(dāng)前主機(jī)內(nèi)存的使用量后,結(jié)合業(yè)務(wù)變化量繪制內(nèi)存使用量與業(yè)務(wù)增長(zhǎng)量的曲線,估算 內(nèi)存擴(kuò)容需求。
[0018] 上述的基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置,其中,所述分布式分析模塊統(tǒng)計(jì)單 位時(shí)間內(nèi)已配置的各類(lèi)業(yè)務(wù)調(diào)用次數(shù)與主機(jī)、數(shù)據(jù)庫(kù)資源消耗關(guān)系,統(tǒng)計(jì)高峰時(shí)期的業(yè)務(wù) 變化趨勢(shì)及需要的系統(tǒng)資源,并進(jìn)行提前優(yōu)化減少業(yè)務(wù)高峰期不必要的批量作業(yè)調(diào)用,或 者根據(jù)估算的CPU擴(kuò)容需求、內(nèi)存擴(kuò)容需求提前擴(kuò)容以滿(mǎn)足業(yè)務(wù)發(fā)展的需求。
[0019] 上述的基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置,其中,所述分布式分析模塊根據(jù)歷 史業(yè)務(wù)高峰期資源消耗分布進(jìn)行異常提醒處理,對(duì)超出歷史同期業(yè)務(wù)高峰期CPU資源消耗 或內(nèi)存資源消耗達(dá)到預(yù)設(shè)閥值的業(yè)務(wù)調(diào)用判斷為異常消耗,并對(duì)引起異常消耗的業(yè)務(wù)進(jìn)行 排查優(yōu)化。
[0020] 本發(fā)明對(duì)比現(xiàn)有技術(shù)有如下的有益效果:本發(fā)明提供的基于業(yè)務(wù)變化量的系統(tǒng)資 源監(jiān)控裝置,通過(guò)實(shí)時(shí)采集、監(jiān)控業(yè)務(wù)量與主機(jī)資源使用情況,準(zhǔn)確地結(jié)合業(yè)務(wù)量歷史變化 趨勢(shì)估算擴(kuò)容需求與優(yōu)化需求,使資源消耗清晰化,擴(kuò)容與優(yōu)化需求可預(yù)見(jiàn)化,大大降低故 障發(fā)生率和管理成本,提高系統(tǒng)的穩(wěn)定性。
【附圖說(shuō)明】
[0021] 圖1為本發(fā)明基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置架構(gòu)示意圖;
[0022] 圖2為本發(fā)明基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置處理流程示意圖。
【具體實(shí)施方式】
[0023] 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。
[0024] 圖1為本發(fā)明基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置架構(gòu)示意圖。
[0025] 請(qǐng)參見(jiàn)圖1,本發(fā)明提供的基于業(yè)務(wù)變化量的系統(tǒng)資源監(jiān)控裝置,包括統(tǒng)一采集