一種分布式網(wǎng)絡設備及其工作情況監(jiān)測方法
【專利摘要】本發(fā)明提供一種分布式網(wǎng)絡設備及其工作情況監(jiān)測方法,所述分布式網(wǎng)絡設備包括主控盤及線卡,通過所述主控盤生成并發(fā)送第一UDP心跳報文至所述線卡;通過所述線卡根據(jù)自身的資源使用率信息來生成第二UDP心跳報文來回應給主控盤;通過所述主控盤判斷所述線卡的資源使用率是否超過預設閾值;若是,判定為異常并記錄所述異常信息;本發(fā)明可靈活設置異常處理情況,避免現(xiàn)有技術的問題。
【專利說明】一種分布式網(wǎng)絡設備及其工作情況監(jiān)測方法
【技術領域】
[0001]本發(fā)明涉及分布式網(wǎng)絡設備【技術領域】,特別是涉及一種分布式網(wǎng)絡設備及其工作情況監(jiān)測方法。
【背景技術】
[0002]分布式網(wǎng)絡設備的主控盤和線卡在復雜的應用環(huán)境中,經(jīng)常出現(xiàn)各種異常情況,為了不影響用戶業(yè)務使用,需要監(jiān)控系統(tǒng)各個板卡的健康狀態(tài),包括板間通訊、板卡上CPU和內(nèi)存的使用率,一旦檢測到異常情況,需要記錄這些異常信息,用于事后分析,并能根據(jù)用戶配置,重啟異常板卡,快速恢復業(yè)務。
[0003]目前,分布式網(wǎng)絡設備監(jiān)測板卡健康狀態(tài)主要使用如下方法:
[0004]I)使用ping機制
[0005]主控盤使用操作系統(tǒng)提供的ping命令,分別ping所有線卡的內(nèi)網(wǎng)IP地址,然后主控盤檢測Ping命令的回應結果,如果丟包率100%,就認為該線卡出現(xiàn)異常。
[0006]2)硬件狗機制
[0007]需要FPGA支持硬件狗功能,軟件根據(jù)硬件狗要求,在規(guī)定時間內(nèi)喂狗(就是寫硬件規(guī)定的某個寄存器位),如果線卡CPU死掉,在規(guī)定的時間內(nèi)沒有軟件任務喂狗,硬件狗就會超時,就會重啟該線卡。
[0008]但是上述兩種方法都存在缺陷,方法I使用ping機制,無法準確判斷是分布式系統(tǒng)內(nèi)網(wǎng)通訊問題還是線卡CPU僵死導致線卡異常;方法2使用硬件狗機制,首先需要硬件能夠支持,如果硬件受限,就無法支持該功能;同時采用硬件狗機制,無法同時監(jiān)測分布式系統(tǒng)內(nèi)網(wǎng)通訊異常的情況。
【發(fā)明內(nèi)容】
[0009]鑒于以上所述現(xiàn)有技術的缺點,本發(fā)明的結束在于提供一種分布式網(wǎng)絡設備及其工作情況監(jiān)測方法,解決上述現(xiàn)有技術中分布式網(wǎng)絡設備監(jiān)測板卡健康狀態(tài)的方式存在缺陷的問題。
[0010]為實現(xiàn)上述目標及其他相關目標,本發(fā)明提供一種分布式網(wǎng)絡設備,包括主控盤及線卡,所述主控盤,用于生成并發(fā)送第一 UDP心跳報文至所述線卡;所述線卡,用于根據(jù)自身的資源使用率信息來生成第二 UDP心跳報文來回應給主控盤;所述主控盤,還用于判斷所述線卡的資源使用率超過預設閾值時,判定為異常并記錄所述異常信息。
[0011]可選的,所述線卡,還用于在預定時間內(nèi)無法收到所述第一 UDP心跳報文的情況下,記錄自身資源使用率信息以供在同主控盤通信連接之后同步并發(fā)送至所述主控盤。
[0012]可選的,所述主控盤在判斷所述線卡的資源使用率超過預設閾值時,還執(zhí)行第一預設動作。
[0013]可選的,所述線卡在預定時間內(nèi)無法收到所述第一 UDP心跳報文的情況下,還執(zhí)行第二預設動作。
[0014]可選的,所述分布式網(wǎng)絡設備每張線卡對應有用戶配置表,主控盤通過用戶配置表來管理線卡。
[0015]為實現(xiàn)上述目標及其他相關目標,本發(fā)明提供一種分布式網(wǎng)絡設備工作情況監(jiān)測方法,所述分布式網(wǎng)絡設備包括主控盤及線卡,所述方法包括:通過所述主控盤生成并發(fā)送第一 UDP心跳報文至所述線卡;通過所述線卡根據(jù)自身的資源使用率信息來生成第二 UDP心跳報文來回應給主控盤;通過所述主控盤判斷所述線卡的資源使用率是否超過預設閾值;若是,判定為異常并記錄所述異常信息。
[0016]可選的,所述的分布式網(wǎng)絡設備工作情況監(jiān)測方法,還包括:當所述線卡在預定時間內(nèi)無法收到所述第一 UDP心跳報文,記錄所述線卡的資源使用率信息以供在同主控盤通信連接之后同步并發(fā)送至所述主控盤。
[0017]可選的,所述的分布式網(wǎng)絡設備工作情況監(jiān)測方法,包括:當所述主控盤在判斷所述線卡的資源使用率超過預設閾值時,還執(zhí)行第一預設動作。
[0018]可選的,所述的分布式網(wǎng)絡設備工作情況監(jiān)測方法,包括:當所述線卡在預定時間內(nèi)無法收到所述第一 UDP心跳報文的情況下,還執(zhí)行第二預設動作。
[0019]可選的,所述的分布式網(wǎng)絡設備工作情況監(jiān)測方法,包括:每張線卡對應有用戶配置表,主控盤通過用戶配置表來管理線卡。
[0020]如上所述,本發(fā)明提供一種分布式網(wǎng)絡設備及其工作情況監(jiān)測方法,所述分布式網(wǎng)絡設備包括主控盤及線卡,通過所述主控盤生成并發(fā)送第一 UDP心跳報文至所述線卡;通過所述線卡根據(jù)自身的資源使用率信息來生成第二 UDP心跳報文來回應給主控盤;通過所述主控盤判斷所述線卡的資源使用率是否超過預設閾值;若是,判定為異常并記錄所述異常信息;本發(fā)明可靈活設置異常處理情況,避免現(xiàn)有技術的問題。
【專利附圖】
【附圖說明】
[0021]圖1顯示為本發(fā)明一實施例中的分布式網(wǎng)絡設備的結構示意圖。
[0022]圖2顯示為本發(fā)明一實施例中的用戶配置表的結構示意圖。
[0023]圖3顯示為本發(fā)明一實施例中的第一 UDP心跳報文及第二 UDP心跳報文的結構示意圖。
[0024]圖4顯示為本發(fā)明一實施例中的分布式網(wǎng)絡設備工作情況監(jiān)測方法的流程示意圖。
[0025]圖5顯示為本發(fā)明一實施例中的主控盤的處理流程示意圖。
[0026]圖6顯示為本發(fā)明一實施例中的線卡的處理流程示意圖。
[0027]元件標號說明
[0028]I主控盤
[0029]11第一報文生成模塊
[0030]12異常監(jiān)測模塊
[0031]2線卡
[0032]21第二報文生成模塊
[0033]SlOl?S105 方法步驟
【具體實施方式】
[0034]以下通過特定的具體實例說明本發(fā)明的實施方式,本領域技術人員可由本說明書所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點與功效。本發(fā)明還可以通過另外不同的【具體實施方式】加以實施或應用,本說明書中的各項細節(jié)也可以基于不同觀點與應用,在沒有背離本發(fā)明的精神下進行各種修飾或改變。需說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。
[0035]如圖1所示,本發(fā)明提供一種分布式網(wǎng)絡設備,例如分布式架構的路由器,包括主控盤I及線卡2。
[0036]所述主控盤1,其可包括:第一報文生成模塊11,用于生成并發(fā)送第一 UDP心跳報文至所述線卡2 ;
[0037]所述線卡2,其可包括:第一報文生成模塊21,用于根據(jù)自身的資源使用率信息來生成第二 UDP心跳報文來回應給主控盤I。在一實施例中,所述資源使用率包括:CPU和內(nèi)存使用率。
[0038]所述主控盤1,還可包括:異常監(jiān)測模塊12,用于判斷所述線卡2的資源使用率超過預設閾值時,判定為異常并記錄所述異常信息。
[0039]在一實施例中,所述線卡2,還用于在預定時間內(nèi)無法收到所述第一 UDP心跳報文的情況下,記錄自身資源使用率信息以供在同主控盤I通信連接之后同步并發(fā)送至所述主控盤I。
[0040]在一實施例中,優(yōu)選的,所述主控盤I在判斷所述線卡2的資源使用率超過預設閾值時,還執(zhí)行第一預設動作;在一實施例中,所述線卡2在預定時間內(nèi)無法收到所述第一UDP心跳報文的情況下,還執(zhí)行第二預設動作,具體的,所述第一預設動作例如為報警、重啟線卡2等,所述第二預設動作例如向主控盤I報警、重啟主控盤I等,具體情況將在后文作詳細說明。
[0041]在一實施例中,上述各項功能的規(guī)則均可例如存儲于主控盤I的用戶配置表,所述主控盤I將線卡2需要執(zhí)行的第二預設動作相關的配置發(fā)送給線卡2。
[0042]如圖2所示,顯示所述用戶配置表的實施例,其中各項的內(nèi)容可例如以下所例舉:
[0043](I) Slot ID:由于線卡2有多塊,線卡2從slot I到η分別分配有唯一 ID ;
[0044](2)CPU使用率閾值:此配置僅需保存在主控盤I ;其參數(shù)例如:范圍:20% —100%,缺省值:80% ;
[0045](3) CPU超過閾值Act1n (動作):此配置僅需保存在主控盤I ;其參數(shù)例如:動作類型:1)發(fā)送告警信息2)重啟該線卡2 ;3)發(fā)送告警信息并重啟該線卡2 ;缺省動作:1)發(fā)送告警信息;
[0046](4) Memory (內(nèi)存)使用率:此配置僅需保存在主控盤I ;其參數(shù)例如:范圍:20% —100% ;缺省值:90%
[0047](5)Memory (內(nèi)存)超過閾值Act1n(動作):此配置僅需保存在主控盤I ;其參數(shù)例如:動作類型:1)發(fā)送告警信息;2)重啟該線卡2 ;3)發(fā)送告警信息并重啟該線卡2 ;缺省動作:1)發(fā)送告警信息;
[0048](6)報文發(fā)送周期:主控盤I向線卡2發(fā)送心跳報文時間間隔,此配置僅需保存在主控盤I ;其參數(shù)例如:范圍:1-1000秒;缺省值:5秒;
[0049](7)響應Time-Out時間:主控盤I未收到線卡2發(fā)送的心跳響應報文等待時間,此配置僅需保存在主控盤I ;其參數(shù)例如:范圍:1-120秒,缺省值:8秒;
[0050](8)報文發(fā)送次數(shù):主控盤I向線卡2發(fā)送第一 UDP心跳報文,如失敗,可重復發(fā)送的次數(shù);其參數(shù)例如:范圍:1-10次,缺省值:3次
[0051](9)超過發(fā)送次數(shù)動作:主控盤I向線卡2發(fā)送失敗,重復發(fā)送多次,并超過已設定的報文發(fā)送次數(shù),執(zhí)行動作;其參數(shù)例如:動作類型:1)發(fā)送告警信息;2)重啟該線卡2 ;3)發(fā)送告警信息并重啟該線卡2 ;缺省動作:1)發(fā)送告警信息;
[0052](10)線卡2未收到主控盤I心跳報文時間間隔:此配置需要發(fā)送到各個線卡2,線卡2如在規(guī)定時間內(nèi),沒有收到主控盤I發(fā)送過來的第一 UDP心跳報文,則認為主控盤I出現(xiàn)異常;
[0053]為避免主控盤I重啟的時候,線卡2無法收到心跳報文,此時間要大于主控盤I啟動時間;由于線卡2有多塊,需避免多塊線卡2同時重啟主控盤I的情況,規(guī)定線卡2從slotl到η時間需依次增加在一實施例中,使用如下計算公式:線卡2未收到主控盤I心跳報文時間間隔=主控盤I啟動時間+線卡2slot ID*60秒;其參數(shù)例如:范圍:180秒+ (slotID*60 秒)---------600 秒 + (slot ID*60 秒),缺省值:300 秒 + (slot ID*60 秒);
[0054](11)線卡2未收到主控盤I心跳報文Act1n:此配置需要發(fā)送到各個線卡2,線卡2如在規(guī)定間內(nèi)未收到主控盤I發(fā)送過來的心跳報文,需執(zhí)行動作;動作類型:1)記錄告警信息;
[0055]2)重啟該線卡2 ;3)記錄告警信息并重啟該卡;缺省動作:1)記錄告警信息。
[0056]具體的,所述第一及第二 UDP心跳報文的構造可例如圖3所示:
[0057]其中,板卡狀態(tài)檢查利用構造的自定義UDP包作為心跳報文,UDP Payload (負載)包括如下自定義字段:
[0058]Slot ID (4 Byte):板卡的 ID 編號;
[0059]Sect1n ID (4 Byte):主控向線卡2發(fā)送一次心跳報文會話的標識;
[0060]CPU Usage (4 Byte):線卡2CPU使用率,線卡2通過心跳回應報文發(fā)送給主控盤I ;
[0061]Memory Usage (4 Byte):線卡2內(nèi)存使用率,線卡2通過心跳回應報文發(fā)送給主控盤I。
[0062]如圖4所示,本發(fā)明提供一種分布式網(wǎng)絡設備工作情況監(jiān)測方法,所述分布式網(wǎng)絡設備包括主控盤及線卡;由于所述方法實施例和上述實施例的原理大致相同,因此在不沖突的情況下上述實施例中的各技術特征均可用于所述方法實施例,因此以下不再對重復的技術特征再作贅述。
[0063]所述方法包括:
[0064]步驟SlOl:通過所述主控盤生成并發(fā)送第一 UDP心跳報文至所述線卡;
[0065]步驟S102:通過所述線卡根據(jù)自身的資源使用率信息來生成第二 UDP心跳報文來回應給主控盤;
[0066]步驟S103:通過所述主控盤判斷所述線卡的資源使用率是否超過預設閾值;
[0067]步驟S104:若是,判定為異常并記錄所述異常信息。
[0068]步驟S105:若否,則不作處理。
[0069]在一實施例中,所述的分布式網(wǎng)絡設備工作情況監(jiān)測方法,還包括:當所述線卡在預定時間內(nèi)無法收到所述第一 UDP心跳報文,記錄所述線卡的資源使用率信息以供在同主控盤通信連接之后同步并發(fā)送至所述主控盤。
[0070]在一實施例中,所述的分布式網(wǎng)絡設備工作情況監(jiān)測方法,包括:當所述主控盤在判斷所述線卡的資源使用率超過預設閾值時,還執(zhí)行第一預設動作。
[0071]在一實施例中,優(yōu)選的,所述的分布式網(wǎng)絡設備工作情況監(jiān)測方法,包括:當所述線卡在預定時間內(nèi)無法收到所述第一 UDP心跳報文的情況下,還執(zhí)行第二預設動作。
[0072]在一實施例中,所述資源使用率包括:CPU和內(nèi)存使用率。
[0073]以下再分別給出關于主控盤和線卡工作的實施例,來對本發(fā)明的作用作具體說明:
[0074]如圖5所示,本發(fā)明一實施例中主控盤處理流程如下:
[0075]步驟S201:使用缺省值初始化板卡狀態(tài)檢查用戶配置表;
[0076]步驟S202:用戶可根據(jù)現(xiàn)場業(yè)務實際情況,修改每個板卡的板卡狀態(tài)檢查用戶配置表;
[0077]步驟S203:主控盤按照板卡狀態(tài)檢查用戶配置表分別發(fā)送第一 UDP心跳報文到每個線卡;
[0078]步驟S204:分別啟動每個線卡的報文響應超時定時器來判斷是否超時;若否,則進至步驟S205 ;若是則進至S210 ;
[0079]步驟S205:在該線卡的報文響應超時定時器超時之前,主控盤接收到線卡發(fā)送過來的第二 UDP心跳響應報文,檢查報文Sect1n ID 一致,此時終止該定時器;
[0080]步驟S206:主控盤從該報文中獲得該線卡的CPU和內(nèi)存使用率;
[0081]步驟S207:主控盤檢查報文中的CPU和內(nèi)存使用率是否超過板卡狀態(tài)檢查用戶配置表中該線卡的設置閾值;若否,則進至步驟S208 ;若是,則進至步驟S209 ;
[0082]步驟S208:沒有超過閾值,不作處理;
[0083]步驟S209:如果超過閾值,主控盤根據(jù)該線卡的用戶配置表執(zhí)行第一預設動作,發(fā)送告警信息或重啟該線卡;
[0084]步驟S210:主控盤在該線卡的響應定時器運行時間內(nèi),沒有收到線卡的響應報文,根據(jù)設定次數(shù),重新發(fā)送并判斷是否超出設定次數(shù);若否,則重復發(fā)送,若是則進至步驟S211 ;
[0085]步驟S211:如果發(fā)送次數(shù)超過設定值,主控盤根據(jù)該線卡的用戶配置表設置執(zhí)行相應第一預設動作,重啟該線卡或發(fā)送告警信息;
[0086]步驟S212:如果發(fā)送次數(shù)未超過設定值,則不作處理。
[0087]如圖6所示,本發(fā)明一實施例中線卡處理流程如下:
[0088]步驟S301:線卡接收主控盤發(fā)送過來的配置信息,包括線卡未收到主控盤心跳報文時間間隔設置和相應動作;
[0089]步驟S302:線卡啟動定時器,間隔為等待主控盤發(fā)送第一 UDP心跳報文過來的時間,判斷定時器是否超時;若否,則進至步驟S303 ;若是,則進至步驟S309 ;
[0090]步驟S303:定時器超時前,線卡接收到主控盤發(fā)送過來的第一 m)P心跳報文,檢查Sect1n ID是否一致,如一致終止該定時器;
[0091]步驟S304:線卡獲得自身的CPU和內(nèi)存使用率,構造第二 UDP心跳回應報文;
[0092]步驟S305:線卡發(fā)送該第二 UDP心跳報文到主控盤;
[0093]步驟S306:線卡檢查是否有記錄主控失效狀態(tài);若有,則執(zhí)行步驟S307 ;若無,則進至步驟S308,不作處理。
[0094]步驟S307:線卡發(fā)送告警信息到主控盤并標記已發(fā)送;
[0095]步驟S308:不作處理;
[0096]步驟S309:如果定時器超時,線卡沒有接收到主控盤發(fā)送過來的心跳報文,線卡根據(jù)已接收到的配置信息執(zhí)行第二預設動作,重啟主控盤或線卡記錄主控盤失效狀態(tài)。
[0097]綜上所述,本發(fā)明提供一種分布式網(wǎng)絡設備及其工作情況監(jiān)測方法,所述分布式網(wǎng)絡設備包括主控盤及線卡,通過所述主控盤生成并發(fā)送第一 UDP心跳報文至所述線卡;通過所述線卡根據(jù)自身的資源使用率信息來生成第二 UDP心跳報文來回應給主控盤;通過所述主控盤判斷所述線卡的資源使用率是否超過預設閾值;若是,判定為異常并記錄所述異常信息;本發(fā)明可靈活設置異常處理情況,避免現(xiàn)有技術的問題。
[0098]本發(fā)明,通過構造板卡狀態(tài)檢查用戶配置表,可靈活設置異常處理情況,利用自定義的UDP心跳報文,取得線卡CPU和內(nèi)存使用情況,從而監(jiān)控線卡的健康狀態(tài);當主控盤出現(xiàn)異常的情況,線卡也可根據(jù)用戶配置,對主控盤進行異常處理。
[0099]上述實施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟悉此技術的人士皆可在不違背本發(fā)明的精神及范疇下,對上述實施例進行修飾或改變。因此,舉凡所屬【技術領域】中具有通常知識者在未脫離本發(fā)明所揭示的精神與技術思想下所完成的一切等效修飾或改變,仍應由本發(fā)明的權利要求所涵蓋。
【權利要求】
1.一種分布式網(wǎng)絡設備,包括主控盤及線卡,其特征在于: 所述主控盤,用于生成并發(fā)送第一 UDP心跳報文至所述線卡; 所述線卡,用于根據(jù)自身的資源使用率信息來生成第二 UDP心跳報文來回應給主控盤; 所述主控盤,還用于判斷所述線卡的資源使用率超過預設閾值時,判定為異常并記錄所述異常信息。
2.根據(jù)權利要求1所述的分布式網(wǎng)絡設備,其特征在于,所述線卡,還用于在預定時間內(nèi)無法收到所述第一 UDP心跳報文的情況下,記錄自身資源使用率信息以供在同主控盤通信連接之后同步并發(fā)送至所述主控盤。
3.根據(jù)權利要求2所述的分布式網(wǎng)絡設備,其特征在于,所述主控盤在判斷所述線卡的資源使用率超過預設閾值時,還執(zhí)行第一預設動作。
4.根據(jù)權利要求2所述的分布式網(wǎng)絡設備,其特征在于,所述線卡在預定時間內(nèi)無法收到所述第一 UDP心跳報文的情況下,還執(zhí)行第二預設動作。
5.根據(jù)權利要求1所述的分布式網(wǎng)絡設備,其特征在于,每張線卡對應有用戶配置表,主控盤通過用戶配置表來管理線卡。
6.一種分布式網(wǎng)絡設備工作情況監(jiān)測方法,所述分布式網(wǎng)絡設備包括主控盤及線卡,其特征在于,所述方法包括: 通過所述主控盤生成并發(fā)送第一 UDP心跳報文至所述線卡; 通過所述線卡根據(jù)自身的資源使用率信息來生成第二 UDP心跳報文來回應給主控盤; 通過所述主控盤判斷所述線卡的資源使用率是否超過預設閾值; 若是,判定為異常并記錄所述異常信息。
7.根據(jù)權利要求6所述的分布式網(wǎng)絡設備工作情況監(jiān)測方法,其特征在于,還包括:當所述線卡在預定時間內(nèi)無法收到所述第一 UDP心跳報文,記錄所述線卡的資源使用率信息以供在同主控盤通信連接之后同步并發(fā)送至所述主控盤。
8.根據(jù)權利要求7所述的分布式網(wǎng)絡設備工作情況監(jiān)測方法,其特征在于,包括:當所述主控盤在判斷所述線卡的資源使用率超過預設閾值時,還執(zhí)行第一預設動作。
9.根據(jù)權利要求7所述的分布式網(wǎng)絡設備工作情況監(jiān)測方法,其特征在于,包括:當所述線卡在預定時間內(nèi)無法收到所述第一 UDP心跳報文的情況下,還執(zhí)行第二預設動作。
10.根據(jù)權利要求6所述的分布式網(wǎng)絡設備工作情況監(jiān)測方法,其特征在于,包括:每張線卡對應有用戶配置表,主控盤通過用戶配置表來管理線卡。
【文檔編號】H04L29/08GK104486418SQ201410785008
【公開日】2015年4月1日 申請日期:2014年12月16日 優(yōu)先權日:2014年12月16日
【發(fā)明者】王超 申請人:上海斐訊數(shù)據(jù)通信技術有限公司