亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

智能監(jiān)控大規(guī)模數(shù)據(jù)中心集群計算節(jié)點的系統(tǒng)和方法

文檔序號:6622295閱讀:353來源:國知局
智能監(jiān)控大規(guī)模數(shù)據(jù)中心集群計算節(jié)點的系統(tǒng)和方法
【專利摘要】提出一種智能監(jiān)控大規(guī)模數(shù)據(jù)中心集群計算節(jié)點的系統(tǒng)和方法,由系統(tǒng)中的監(jiān)控節(jié)點采集計算節(jié)點的硬件微架構(gòu)數(shù)據(jù)指標和運行的應用程序的進程相關(guān)的數(shù)據(jù)指標,并將所述數(shù)據(jù)指標發(fā)送到系統(tǒng)中的監(jiān)控設備,由監(jiān)控設備執(zhí)行大數(shù)據(jù)分析,并將結(jié)果發(fā)送到用戶端設備顯示給用戶。所述系統(tǒng)和方法能夠采集計算節(jié)點微架構(gòu)數(shù)據(jù)指標和運行的應用程序進程數(shù)據(jù)指標,實現(xiàn)智能大數(shù)據(jù)分析,自動定位發(fā)生故障的計算節(jié)點并提供故障原因。
【專利說明】智能監(jiān)控大規(guī)模數(shù)據(jù)中心集群計算節(jié)點的系統(tǒng)和方法

【技術(shù)領域】
[0001] 本發(fā)明涉及計算機【技術(shù)領域】,具體涉及一種智能監(jiān)控大規(guī)模數(shù)據(jù)中心集群計算節(jié) 點的系統(tǒng)和方法。

【背景技術(shù)】
[0002] 隨著人類社會的不斷進步,科學技術(shù)的發(fā)展,人們不但對自然界的認識越來越廣 泛,而且對未知世界探索的需求也越來越迫切。這就使得人類撐握的信息數(shù)據(jù)的量急劇性 的增長,而與此同時,這些海量的信息數(shù)據(jù)都需要及時的分析和處理。例如,一個大型天文 射電望遠鏡陣列一秒鐘就能產(chǎn)生100GB以上的宇宙微波數(shù)據(jù),這些數(shù)據(jù)都需要及時得到分 析;再如,在粒子物理研究領域,一臺大型強子對撞機一次對撞的數(shù)據(jù)也是以TB為單位來 計量的;此外,像人類基因組工程、石油勘探、天氣預報等等領域也對計算能力提出了越來 越高的要求。在這種大背景下數(shù)值計算已然成為了除實驗、理論分析之外的第三種極其重 要的科學探索手段。正是基于這樣的現(xiàn)實,促使了當今世界各個科技強國都在不遺余力的 大力發(fā)展超級計算機。如,在2013年12月發(fā)布的世界T0P500中,排名第一的中國"天河二 號(TH-2)"就已經(jīng)達到了 54.9PFlops的峰值速度,共使用了 16000余個計算節(jié)點。
[0003] 除此之外,隨著云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等新型技術(shù)的發(fā)展,出現(xiàn)了越來越多的大 型數(shù)據(jù)中心,云計算中心。它們動輒擁有數(shù)以萬計的計算機節(jié)點。如谷歌(Google)位于美 國俄勒岡州的Dalles數(shù)據(jù)中心擁有約15萬臺服務器節(jié)點。在這樣大規(guī)模的數(shù)據(jù)中心中, 計算節(jié)點的性能監(jiān)控,故障定位,故障恢復,以及中心整體效率統(tǒng)計等等,都存在著前所未 有的挑戰(zhàn)。因此,如何高效的管理和利用一個大規(guī)模乃至超大規(guī)模的數(shù)據(jù)中心,是當今世界 各國都在努力探索的一個熱門領域。
[0004] 長期以來,數(shù)據(jù)中心的監(jiān)控管理都是靠人工半自動的方式來完成的。負責運維的 人員需要實時的查看集群的運行狀態(tài),一旦出現(xiàn)問題,雖然有時可以定位節(jié)點位置,卻往往 不能準確定位故障的設備,還需要費時費力通過工作人員的經(jīng)驗來判斷、排障;集群的用戶 雖然可以通過眾多的作業(yè)調(diào)度軟件了解自己的作業(yè)情況,卻很少可以統(tǒng)計到作業(yè)的歷史分 析;再者集群的決策者往往無法直接從集群上得到有關(guān)費用支出、使用效率、人員工作效 率、費效比等有關(guān)決策的信息資料,只能通過對大量數(shù)據(jù)的人工分析來決策,費時費力。此 夕卜,應用開發(fā)人員也往往無法從集群上獲得優(yōu)化應用軟件急需的硬件微架構(gòu)、系統(tǒng)進程、堆 棧、模塊錯誤崩潰統(tǒng)計等信息,需要憑經(jīng)驗通過大量的實驗得到,即費時又費力。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明提出了一種智能監(jiān)控大規(guī)模數(shù)據(jù)中心集群計算節(jié)點的系統(tǒng)和方法,具有大 型化、多功能、面向多用戶群的特點。它擁有完善的智能分析和統(tǒng)計功能,可以為不同層次 用戶的決策提供數(shù)據(jù)參考依據(jù)。
[0006] 所述系統(tǒng),包括:安裝在數(shù)據(jù)中心集群計算節(jié)點上的監(jiān)控節(jié)點、與各個監(jiān)控節(jié)點通 信的監(jiān)控設備、以及用戶終端設備,其特征在于:
[0007] 所述監(jiān)控節(jié)點,用于通過獲得計算節(jié)點的硬件控制寄存器的控制權(quán),采集所述計 算節(jié)點的硬件微架構(gòu)數(shù)據(jù)指標,通過獲得操作系統(tǒng)內(nèi)核的控制權(quán),獲得與所述計算節(jié)點上 運行的應用程序的進程相關(guān)的數(shù)據(jù)指標,并將所述數(shù)據(jù)指標發(fā)送到監(jiān)控設備;
[0008] 所述監(jiān)控設備,用于接收所述數(shù)據(jù)指標,基于所述數(shù)據(jù)指標執(zhí)行大數(shù)據(jù)分析,并將 所述分析的結(jié)果發(fā)送到用戶終端設備;
[0009] 所述用戶終端設備,用于接收所述結(jié)果并顯示給用戶。
[0010] 所述方法包括:
[0011] 啟動安裝在計算節(jié)點中的監(jiān)控節(jié)點;
[0012] 所述監(jiān)控節(jié)點通過獲得計算節(jié)點的硬件控制寄存器的控制權(quán),采集所述計算節(jié)點 的硬件微架構(gòu)數(shù)據(jù)指標,通過獲得操作系統(tǒng)內(nèi)核的控制權(quán),獲得與所述計算節(jié)點上運行的 應用程序的進程相關(guān)的數(shù)據(jù)指標,并將所述數(shù)據(jù)指標發(fā)送到監(jiān)控設備;
[0013] 所述監(jiān)控設備接收所述數(shù)據(jù)指標,基于所述數(shù)據(jù)指標執(zhí)行大數(shù)據(jù)分析,并將所述 分析的結(jié)果發(fā)送到用戶終端設備;
[0014] 所述用戶終端設備接收所述結(jié)果并顯示給用戶。
[0015] 特別地,所述分析包括:根據(jù)所述數(shù)據(jù)指標定位發(fā)生故障的計算節(jié)點,以及確定故 障原因。
[0016] 特別地,所述硬件微架構(gòu)數(shù)據(jù)指標包括CPU的實時浮點運行速度、流SMD指令擴 展集SSE單元利用率、高級向量擴展集AVX單元利用率、向量指令向量化率、完成每條指令 所需的時鐘數(shù)CPI、最后一級緩存LLC命中率、內(nèi)存帶寬、PCI快速總線接口 PCI-E設備帶 寬、緩存命中/未命中率中的一種或多種的組合;所述與所述計算節(jié)點上運行的應用程序 的進程相關(guān)的數(shù)據(jù)指標包括進程切換次數(shù)、堆棧信息、堆內(nèi)存分配情況中的一種或多種的 組合。
[0017] 特別地,所述數(shù)據(jù)指標為CPU的實時浮點運行速度和/或完成每條指令所需的時 鐘數(shù)CPI,所述分析包括:當所述數(shù)據(jù)指標在預設時間段內(nèi)持續(xù)低于預設的閾值,則判斷處 理器發(fā)生故障,并確定故障的原因為處理器異常降頻。
[0018] 特別地,所述監(jiān)控節(jié)點還采集由操作系統(tǒng)提供的CPU利用率、內(nèi)存利用率、本地磁 盤10數(shù)據(jù)和/或以太網(wǎng)吞吐量。
[0019] 特別地,其中所述計算節(jié)點的硬件控制寄存器為所述計算節(jié)點的處理器的性能監(jiān) 控單元PMU中的MSR控制寄存器。
[0020] 本發(fā)明的有益效果是:
[0021] 通過在各個計算節(jié)點的性能監(jiān)控裝置提取必要的系統(tǒng)級性能指標信息,并發(fā)送由 監(jiān)控管理節(jié)點來負責維護。而監(jiān)控管理節(jié)點,則具有異常的識別和報警能力,同時按用戶群 分別挖掘所記錄的歷史數(shù)據(jù),并將結(jié)果反饋給用戶。同時,監(jiān)控管理節(jié)點還可以按需、按時 間段,對指定的監(jiān)控節(jié)點提取硬件微架構(gòu)特征及進程、堆棧等方面的信息。從而實現(xiàn)對大規(guī) 模集群監(jiān)控的多用戶化、多功能化和智能化。
[0022] 為了實現(xiàn)監(jiān)控的實效性,各計算節(jié)點的監(jiān)控端實現(xiàn)了每秒刷新的監(jiān)控模式。同時 為了減少計算節(jié)點的資源占用,各計算節(jié)點僅提取用于數(shù)據(jù)分析所必須的最小指標項,包 括CPU利用率,內(nèi)存利用率,本地磁盤讀寫以及以太網(wǎng)吞吐量等十數(shù)個指標。
[0023] 為了實現(xiàn)多功能化,本智能監(jiān)控系統(tǒng)還提供了對硬件微架構(gòu)相關(guān)的指標的監(jiān)控分 析,如浮點運行速度,向量化率,內(nèi)存帶寬,IB帶寬等等。但由于這部分內(nèi)容在監(jiān)控時對系 統(tǒng)資源的占用相對較多,因此,它們根據(jù)用戶指令按需啟動。
[0024] 為了實現(xiàn)多用戶化,本智能監(jiān)控系統(tǒng)提出了涵蓋管理層、運維層、實際應用用戶層 和應用開發(fā)層,四個層次的分級視圖。
[0025] 為了實現(xiàn)智能化,本智能監(jiān)控系統(tǒng)發(fā)明了一種數(shù)據(jù)挖掘的分析方法,它依據(jù)基本 的性能監(jiān)控數(shù)據(jù)信息,通過計算挖掘出不同層次用戶最感興趣的統(tǒng)計指標。

【專利附圖】

【附圖說明】
[0026] 圖1是本發(fā)明提出的一種智能監(jiān)控大規(guī)模數(shù)據(jù)中心集群的系統(tǒng)框圖
[0027] 圖2是本發(fā)明提出的一種智能監(jiān)控大規(guī)模數(shù)據(jù)中心集群的方法的流程圖

【具體實施方式】
[0028] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明做進一 步地詳細描述。
[0029] 參見附圖1,示出了本發(fā)明提出的一種智能監(jiān)控大規(guī)模數(shù)據(jù)中心集群計算節(jié)點的 系統(tǒng),包括安裝在數(shù)據(jù)中心集群計算節(jié)點上的監(jiān)控節(jié)點、與各個監(jiān)控節(jié)點連接的監(jiān)控設備、 以及用戶終端設備。其中數(shù)據(jù)中心集群計算節(jié)點具有相應的硬件設備,例如處理器CPU、內(nèi) 存、硬盤、以太網(wǎng)絡控制器等,在所述計算節(jié)點上運行操作系統(tǒng)以及應用軟件;監(jiān)控設備包 括主監(jiān)控節(jié)點和數(shù)據(jù)庫,主監(jiān)控節(jié)點與安裝在上述計算節(jié)點上的各個監(jiān)控節(jié)點通信,能夠 獲得數(shù)據(jù)中心集群計算節(jié)點的硬件和軟件運行數(shù)據(jù),例如CPU利用率、內(nèi)存利用率、本地磁 盤10數(shù)據(jù)、以太網(wǎng)吞吐量,以及針對該計算節(jié)點硬件的微架構(gòu)數(shù)據(jù)指標和運行的應用程序 進程級的數(shù)據(jù)指標。主監(jiān)控節(jié)點將獲得的上述數(shù)據(jù)寫入數(shù)據(jù)庫中,自動執(zhí)行大數(shù)據(jù)挖掘并 保存大數(shù)據(jù)挖掘后獲得的結(jié)果。用戶通過用戶端設備從數(shù)據(jù)庫中讀取結(jié)果并顯示。用戶還 可以通過用戶終端設備向監(jiān)控設備輸入用戶定義的數(shù)據(jù)挖掘程序,由監(jiān)控設備提取數(shù)據(jù)中 心集群節(jié)點的相應數(shù)據(jù)指標,按照用戶定義的數(shù)據(jù)挖掘程序執(zhí)行大數(shù)據(jù)挖掘并向用戶顯示 結(jié)果。
[0030] 參見附圖2,本發(fā)明提出的一種智能監(jiān)控大規(guī)模數(shù)據(jù)中心集群計算節(jié)點的方法由 數(shù)據(jù)采集、大數(shù)據(jù)挖掘、分級展示、以及故障定位和報警等幾個主要步驟組成。其中數(shù)據(jù)采 集包括基本數(shù)據(jù)采集和高級數(shù)據(jù)采集,基本數(shù)據(jù)采集由系統(tǒng)自動執(zhí)行,無需用戶設置;高級 數(shù)據(jù)采集需要按照用戶意愿設置。
[0031] 1.數(shù)據(jù)采集
[0032] 數(shù)據(jù)采集是指在數(shù)據(jù)中心集群計算節(jié)點上安裝監(jiān)控節(jié)點,提取該計算節(jié)點的CPU 利用率、內(nèi)存利用率、本地磁盤10數(shù)據(jù)、以太網(wǎng)吞吐量,以及針對該計算節(jié)點硬件的微架構(gòu) 數(shù)據(jù)指標和運行的應用程序進程級的數(shù)據(jù)指標。其中,針對計算節(jié)點硬件的微架構(gòu)數(shù)據(jù)指 標和應用程序進程級的數(shù)據(jù)指標的采集稱為高級數(shù)據(jù)采集,其余指標的采集稱為基本數(shù)據(jù) 采集?;緮?shù)據(jù)采集為系統(tǒng)默認設置的步驟,無需用戶干預即可執(zhí)行,高級數(shù)據(jù)采集根據(jù)用 戶需求而設置執(zhí)行。由于需要保證性能指標數(shù)據(jù)的實效性,監(jiān)控節(jié)點必須滿足秒級刷新的 采集能力,同時必須保證極低的計算節(jié)點資源占用率。
[0033] 本發(fā)明提出的數(shù)據(jù)采集方法不同于現(xiàn)有技術(shù)中提出的方法。在現(xiàn)有技術(shù)中,數(shù)據(jù) 采集僅僅是收集操作系統(tǒng)本身提供的一些指標數(shù)據(jù),即數(shù)據(jù)指標的采集依賴于計算節(jié)點上 運行的操作系統(tǒng),對于操作系統(tǒng)無法提供的數(shù)據(jù)指標,監(jiān)控節(jié)點無法獲得。而本發(fā)明所提出 的數(shù)據(jù)采集方法,不僅僅能完成上述由操作系統(tǒng)提供的數(shù)據(jù)指標的采集,還可以采集一些 硬件微架構(gòu)數(shù)據(jù)指標,例如CPU的實時浮點運行速度、流SIMD指令擴展集SSE(Streaming SIMD Extensions)單兀利用率、高級向量擴展集 AVX (Advanced Vector Extensios)單兀 利用率、向量指令向量化率、完成每條指令所需的時鐘數(shù)(CPI)、最后一級緩存LLC(Last Level Cache)命中率、轉(zhuǎn)換后備緩沖器 TLB(Translation Lookaside Buffer)參數(shù)、內(nèi)存 帶寬、PCI快速總線接口 PCI-E(PCI Express)設備帶寬、緩存命中/未命中(cache hit/ miss)率、TLB單元等等。此外,還可以采集一些應用程序進程級的數(shù)據(jù)指標,如進程切換次 數(shù)、堆棧信息、堆內(nèi)存分配情況等等。這些指標對于挖掘應用軟件的性能、分析集群特性和 定位軟件級故障具有十分重要的意義。
[0034] 由于需要采集硬件和進程級數(shù)據(jù)指標,因此本發(fā)明提出的監(jiān)控節(jié)點通過軟件客戶 端的方式實現(xiàn)。所述監(jiān)控節(jié)點對基本數(shù)據(jù)的采集同現(xiàn)有技術(shù)提出的方法,在此不再贅述,對 高級數(shù)據(jù)采集的過程具體介紹如下:
[0035] 對上述硬件微架構(gòu)數(shù)據(jù)指標的提取需要通過對硬件中相關(guān)寄存器的控制來實現(xiàn)。 如,對于處理器微架構(gòu)數(shù)據(jù)指標,主要是通過對處理器中的性能監(jiān)控單元PMU (Performance Monitoring Unit)進行控制來實現(xiàn)。因此,這就要求本案的監(jiān)控節(jié)點擁有最高的root權(quán) 限。對PMU的控制流程介紹如下:
[0036] S1 :獲取計算節(jié)點的處理器的PMU中的MSR(Module Specific Register)控制寄存 器的控制權(quán);
[0037] S2 :將相關(guān)事件的編碼和掩碼寫入已控制的MSR控制寄存器中,并設置該控制寄 存器,開始對相關(guān)事件計數(shù),例如,當采集LLC命中率數(shù)據(jù)指標時,先將LLC命中率的編碼和 掩碼寫入MSR控制寄存器中,然后設置該寄存器開始計數(shù)LLC命中數(shù)量,計數(shù)結(jié)束后讀取該 控制寄存器中的計數(shù)數(shù)量,統(tǒng)計LLC命中率。
[0038] 對系統(tǒng)內(nèi)核級指標的提取需要對內(nèi)核中相關(guān)代碼的監(jiān)控來實現(xiàn)。例如對進程切換 的監(jiān)控,需要監(jiān)控內(nèi)核中有關(guān)進程管理部分的代碼中控制進程的部分。當計算節(jié)點啟動,內(nèi) 核成功加載后即開始監(jiān)控。因此,監(jiān)控節(jié)點必須擁有對內(nèi)核級的控制權(quán)。對系統(tǒng)內(nèi)核級指 標的提取可能會稍微影響系統(tǒng)的性能,因此可針對監(jiān)控的場合按需提供。
[0039] 2.大數(shù)據(jù)挖掘和分級展示
[0040] 上述安裝在計算節(jié)點中的監(jiān)控節(jié)點還具有向監(jiān)控設備發(fā)送數(shù)據(jù)的能力,由監(jiān)控設 備統(tǒng)一接收和管理各個監(jiān)控節(jié)點。監(jiān)控設備中的主監(jiān)控節(jié)點負責從各個監(jiān)控節(jié)點接收采集 的數(shù)據(jù)指標,以及向各個監(jiān)控節(jié)點發(fā)送控制命令,所述控制命令包括所述系統(tǒng)默認產(chǎn)生的 基本數(shù)據(jù)采集命令,以及根據(jù)用戶設置而產(chǎn)生的高級數(shù)據(jù)采集命令,所述各個監(jiān)控節(jié)點根 據(jù)所述控制命令執(zhí)行相應數(shù)據(jù)指標的采集。同時主監(jiān)控節(jié)點還負責將接收的所述數(shù)據(jù)指標 按一定的存儲格式存入數(shù)據(jù)庫中,作為下一步數(shù)據(jù)挖掘的輸入數(shù)據(jù)。
[0041] 為了實現(xiàn)智能化,監(jiān)控設備還具有大數(shù)據(jù)挖掘能力,它根據(jù)預設統(tǒng)計設置對數(shù)據(jù) 庫中保存的數(shù)據(jù)指標進行大數(shù)據(jù)處理,并按照預設的分級展示方案,分別為不同的用戶提 供數(shù)據(jù)統(tǒng)計和分析結(jié)果。此外,監(jiān)控設備還具有用戶接口,可以接收用戶自定義的數(shù)據(jù)挖掘 算法,并按照所述數(shù)據(jù)挖掘算法執(zhí)行數(shù)據(jù)挖掘。所述預設的統(tǒng)計設置包括:
[0042] -、管理層用戶群指標
[0043] 1.生產(chǎn)速率(任務通量)
[0044] a.實時運行任務、應用數(shù)
[0045] b. -周(月、年)內(nèi),每天完成(失?。┑娜蝿諗?shù)【列圖、表】
[0046] c. 一周(月、年)內(nèi),平均每天完成(失敗)任務數(shù)
[0047] d. -周(月、年)內(nèi),總完成(失?。┤蝿諗?shù)
[0048] e.每任務時間
[0049] 2.運維成本(能耗)(計算、存儲、交換、機房【制冷】)
[0050] a.實時總功耗
[0051] b. -周(月、年)內(nèi),每天能耗(KW/h)【列圖、表】
[0052] c. 一周(月、年)內(nèi),平均每天能耗(KW/h)
[0053] d. 一周(月、年)內(nèi),總能耗(KW/h)
[0054] e.設備折舊、機房整體折舊費用監(jiān)控、及各費用單元間比值統(tǒng)計、單位費用作業(yè)完 成量
[0055] 3.資產(chǎn)利用效率
[0056] a. -周(月、年)內(nèi),每天集群占空比 [0057] b. -周(月、年)內(nèi),平均每天集群占空比
[0058] c. 一周(月、年)內(nèi),每天集群繁忙時段(計算每小時集群占空比)
[0059] d. -周(月、年)內(nèi),平均繁忙時段(24小時時段上的年平均占空比)
[0060] e.實時在線用戶數(shù)(特定授權(quán)、查看人員信息)
[0061] f. 一周(月、年)內(nèi),每天在線用戶數(shù)【列圖、表】
[0062] g. -周(月、年)內(nèi),平均每天在線用戶數(shù)
[0063] L 一周(月、年)內(nèi),每天平均用戶完成任務數(shù)
[0064] i. 一周(月、年)內(nèi),平均每用戶完成任務數(shù)
[0065] 4.設備健康度
[0066] a.實時故障節(jié)點數(shù)、故障率
[0067] b. -周(月、年)內(nèi),每天故障節(jié)點數(shù)、故障率【列圖、表】
[0068] c. 一周(月、年)內(nèi),平均每天故障節(jié)點數(shù)、故障率 [0069] 二、集群設備管理維護人員用戶群指標
[0070] 1.故障報警及定位 [0071] a.實時故障節(jié)點數(shù)、故障率
[0072] b. -周(月、年)內(nèi),每天故障節(jié)點記錄、故障率【列圖、表】
[0073] c. 一周(月、年)內(nèi),平均每節(jié)點故障次數(shù),每節(jié)點故障率(統(tǒng)計易故障節(jié)點) [0074] d.故障節(jié)點實時定位 [0075] e.故障節(jié)點實時報警
[0076] f.故障、失效節(jié)點失效類型分級:可聯(lián)接、不可聯(lián)接、掉電等等
[0077] g.對可聯(lián)接故障準確定位故障設備:故障盤位置、掉內(nèi)存(位置)等等
[0078] 2.設備運行狀態(tài)查看
[0079] a.集群整體實時CPU利用率、集中存儲10帶寬
[0080] b. -周(月、年)內(nèi),每天集群整體平均CPU利用率、平均集中存儲10帶寬
[0081] C. 一周(月、年)內(nèi),集群整體平均CPU利用率、平均集中存儲10帶寬
[0082] d.可實時查看每節(jié)點運行狀態(tài):CPU、內(nèi)存、本地磁盤、網(wǎng)絡等等指標
[0083] e.可歷史查詢一年內(nèi)所有節(jié)點每天運行姿態(tài)
[0084] f.資源瓶頸分析(CPU、存儲、內(nèi)存、網(wǎng)絡【區(qū)分存儲,數(shù)據(jù)交換】)
[0085] 3.計費功能
[0086] a.用戶機時統(tǒng)計
[0087] 三、任務用戶群指標
[0088] 1.當前任務信息
[0089] a.當前任務使用的節(jié)點數(shù)、核數(shù)、占用的內(nèi)存容量等等
[0090] b.可查看當前任務所使用的節(jié)點數(shù)的狀態(tài)信息:CPU、內(nèi)存、本地磁盤、網(wǎng)絡等等
[0091] c.當前排隊的任務數(shù)
[0092] d.當前任務排隊時間
[0093] 2.歷史任務統(tǒng)計
[0094] a.該用戶歷史任務運行時間
[0095] b.該用戶歷史平均任務運行時間 [0096] c.該用戶完成(失效)的歷史任務數(shù) [0097] d.任務成功率(成功任務數(shù)/失效任務數(shù))
[0098] e.該用戶歷史任務使用的節(jié)點數(shù)、核數(shù)
[0099] f.該用戶平均歷史任務使用的節(jié)點數(shù)、核數(shù) [0100] g.歷史任務平均排隊時間
[0101] 四、應用軟件研發(fā)人員用戶群指標
[0102] 1.程序(模塊)使用信息統(tǒng)計
[0103] a. -周(月、年)內(nèi),每天處理(失效)的模塊總數(shù)
[0104] b. -周(月、年)內(nèi),模塊失效率
[0105] c. -周(月、年)內(nèi),模塊使用熱度統(tǒng)計、排名,及每個模塊的使用次數(shù)占比
[0106] d. -周(月、年)內(nèi),失效模塊熱度統(tǒng)計、排名,及每個失效模塊的失效次數(shù)占比
[0107] 2.性能追蹤指標
[0108] a.所有應用層面的服務(數(shù)據(jù)庫、文件系統(tǒng)、作業(yè)調(diào)度、中間加速層、并行框架等) 的負載情況
[0109] b.微架構(gòu)級的信息:cache hit/miss 率、TLB
[0110] C.操作系統(tǒng)級的信息:進程數(shù)、進程切換、堆棧、堆內(nèi)存分配情況等等。
[0111] 3.用戶使用習慣的統(tǒng)計
[0112] a.交互應用的訪問數(shù)據(jù)的延遲、駐留時間、I/O訪問模式等
[0113] 最后,將監(jiān)控設備已經(jīng)按上述內(nèi)容挖掘的統(tǒng)計分析信息,按指定的用戶層分別展 示到用戶端設備。
[0114] 本發(fā)明的實施方式中的數(shù)據(jù)挖掘是按用戶的類型來區(qū)分的。發(fā)明中已列出的挖掘 項是充分分析了相關(guān)類型用戶的具體需求和關(guān)注點后總結(jié)的。而這類指標在通常的監(jiān)控里 是沒有的,需要人為的將數(shù)據(jù)導出分析,而本發(fā)明提出的實施方式是智能化、自動完成的。 此外,本發(fā)明提出的實施方式還設計有預留的由用戶自定義的數(shù)據(jù)挖掘接口,可執(zhí)行用戶 定義的數(shù)據(jù)挖掘程序。
[0115] 3.故障定位和報警
[0116] 通過上述數(shù)據(jù)挖掘分析,能夠獲得計算節(jié)點的設備當前工作性能指標,根據(jù)所述 工作性能指標可以分析設備是否發(fā)生故障以及發(fā)生故障的原因。一方面能夠?qū)㈠e誤信息通 過用戶端設備的智能展示模塊展示給特定的用戶,另一方面,可以在用戶客端設備安裝故 障報警模塊,例如安裝一定的音響設備、燈光設備等,以在設備失效時發(fā)出警報信息,從而 提醒維護人員快速關(guān)注故障設備,快速完成設備故障排除。
[0117] 設備或應用軟件的故障異常情況能夠根據(jù)統(tǒng)計的性能數(shù)據(jù)指標來反映。為了簡單 易用本發(fā)明是通過分析性能數(shù)據(jù)指標的異常來定位故障的,特別是一些性能方面的故障, 是無法通過慣常的方法排除的。比如,集群的散熱不好,可能會導致處理器的降頻運行,這 個時候按正常的故障監(jiān)控手段是不會報警的,但采用本發(fā)明提出的方法,由于收集有處理 器微架構(gòu)數(shù)據(jù)指標,可以實時的監(jiān)控處理器完成的浮點運行速度、以及完成每條指令所需 的時鐘數(shù)CPI,所以當在被監(jiān)控節(jié)點重負載時而這兩項指標在一個較長的時間內(nèi)持續(xù)低于 預設的閾值,則由監(jiān)控設備判斷出故障發(fā)生并智能報警,同時也就定位了故障發(fā)生的原因, 即處理器非正常降頻。
[0118] 當然,本發(fā)明還可有其他多種實施例,在不背離本發(fā)明精神及其實質(zhì)的情況下,熟 悉本領域的技術(shù)人員當可根據(jù)本發(fā)明作出各種相應的改變和變形,但這些相應的改變和變 形都應屬于本發(fā)明的權(quán)利要求的保護范圍。
【權(quán)利要求】
1. 一種智能監(jiān)控大規(guī)模數(shù)據(jù)中心集群計算節(jié)點的系統(tǒng),包括安裝在數(shù)據(jù)中心集群計算 節(jié)點上的監(jiān)控節(jié)點、與各個監(jiān)控節(jié)點通信的監(jiān)控設備、以及用戶終端設備,其特征在于: 所述監(jiān)控節(jié)點,用于通過獲得計算節(jié)點的硬件控制寄存器的控制權(quán),采集所述計算節(jié) 點的硬件微架構(gòu)數(shù)據(jù)指標,通過獲得操作系統(tǒng)內(nèi)核的控制權(quán),獲得與所述計算節(jié)點上運行 的應用程序的進程相關(guān)的數(shù)據(jù)指標,并將所述數(shù)據(jù)指標發(fā)送到監(jiān)控設備; 所述監(jiān)控設備,用于接收所述數(shù)據(jù)指標,基于所述數(shù)據(jù)指標執(zhí)行大數(shù)據(jù)分析,并將所述 分析的結(jié)果發(fā)送到用戶終端設備; 所述用戶終端設備,用于接收所述結(jié)果并顯示給用戶。
2. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述分析包括:根據(jù)所述數(shù)據(jù)指標定位發(fā)生 故障的計算節(jié)點,以及確定故障原因。
3. 如權(quán)利要求1或2所述的系統(tǒng),其特征在于:所述硬件微架構(gòu)數(shù)據(jù)指標包括CPU的 實時浮點運行速度、流SMD指令擴展集SSE單元利用率、高級向量擴展集AVX單元利用率、 向量指令向量化率、完成每條指令所需的時鐘數(shù)CPI、最后一級緩存LLC命中率、內(nèi)存帶寬、 PCI快速總線接口 PCI-E設備帶寬、緩存命中/未命中率中的一種或多種的組合;所述與所 述計算節(jié)點上運行的應用程序的進程相關(guān)的數(shù)據(jù)指標包括進程切換次數(shù)、堆棧信息、堆內(nèi) 存分配情況中的一種或多種的組合。
4. 如權(quán)利要求3所述的系統(tǒng),其特征在于:所述數(shù)據(jù)指標為CPU的實時浮點運行速度 和/或完成每條指令所需的時鐘數(shù)CPI,所述分析包括:當所述數(shù)據(jù)指標在預設時間段內(nèi)持 續(xù)低于預設的閾值,則判斷處理器發(fā)生故障,并確定故障的原因為處理器異常降頻。
5. 如權(quán)利要求1所述的系統(tǒng),其特征在于:所述監(jiān)控節(jié)點還采集由操作系統(tǒng)提供的CPU 利用率、內(nèi)存利用率、本地磁盤10數(shù)據(jù)和/或以太網(wǎng)吞吐量。
6. 如權(quán)利要求1所述的系統(tǒng),其特征在于:其中所述計算節(jié)點的硬件控制寄存器為所 述計算節(jié)點的處理器的性能監(jiān)控單元PMU中的MSR控制寄存器。
7. -種智能監(jiān)控大規(guī)模數(shù)據(jù)中心集群計算節(jié)點的方法,其特征在于: 啟動安裝在計算節(jié)點中的監(jiān)控節(jié)點; 所述監(jiān)控節(jié)點通過獲得計算節(jié)點的硬件控制寄存器的控制權(quán),采集所述計算節(jié)點的硬 件微架構(gòu)數(shù)據(jù)指標,通過獲得操作系統(tǒng)內(nèi)核的控制權(quán),獲得與所述計算節(jié)點上運行的應用 程序的進程相關(guān)的數(shù)據(jù)指標,并將所述數(shù)據(jù)指標發(fā)送到監(jiān)控設備; 所述監(jiān)控設備接收所述數(shù)據(jù)指標,基于所述數(shù)據(jù)指標執(zhí)行大數(shù)據(jù)分析,并將所述分析 的結(jié)果發(fā)送到用戶終端設備; 所述用戶終端設備接收所述結(jié)果并顯示給用戶。
8. 如權(quán)利要求7所述的方法,其特征在于,所述分析包括:根據(jù)所述數(shù)據(jù)指標定位發(fā)生 故障的計算節(jié)點,以及確定故障原因。
9. 如權(quán)利要求7或8所述的方法,其特征在于:所述硬件微架構(gòu)數(shù)據(jù)指標包括CPU的 實時浮點運行速度、流SMD指令擴展集SSE單元利用率、高級向量擴展集AVX單元利用率、 向量指令向量化率、完成每條指令所需的時鐘數(shù)CPI、最后一級緩存LLC命中率、內(nèi)存帶寬、 PCI快速總線接口 PCI-E設備帶寬、緩存命中/未命中率中的一種或多種的組合;所述與所 述計算節(jié)點上運行的應用程序的進程相關(guān)的數(shù)據(jù)指標包括進程切換次數(shù)、堆棧信息、堆內(nèi) 存分配情況中的一種或多種的組合。
10. 如權(quán)利要求9所述的系統(tǒng),其特征在于:所述數(shù)據(jù)指標為CPU的實時浮點運行速度 和/或完成每條指令所需的時鐘數(shù)CPI,所述分析包括:當所述數(shù)據(jù)指標在預設時間段內(nèi)持 續(xù)低于預設的閾值,則判斷處理器發(fā)生故障,并確定故障的原因為處理器異常降頻。
11. 如權(quán)利要求10所述的方法,其特征在于:所述監(jiān)控節(jié)點還采集由操作系統(tǒng)提供的 (PU利用率、內(nèi)存利用率、本地磁盤10數(shù)據(jù)和/或以太網(wǎng)吞吐量。
12. 如權(quán)利要求11所述的方法,其特征在于:其中所述計算節(jié)點的硬件控制寄存器為 所述計算節(jié)點的處理器的性能監(jiān)控單元PMU中的MSR控制寄存器。
【文檔編號】G06F11/30GK104156296SQ201410377856
【公開日】2014年11月19日 申請日期:2014年8月1日 優(yōu)先權(quán)日:2014年8月1日
【發(fā)明者】劉羽, 呂文靜, 金蓮, 陳博文, 于濤 申請人:浪潮(北京)電子信息產(chǎn)業(yè)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1