1.一種通信設備軟件故障檢測、收集、恢復的方法,其特征在于,包括應用模塊故障檢測的步驟和單板系統(tǒng)軟件故障檢測的步驟;
所述應用模塊故障檢測的步驟如下:
通信設備單板實時對通信設備系統(tǒng)中的多個應用模塊進行檢測,檢測應用模塊是否出現(xiàn)故障;
若是,對出現(xiàn)故障的應用模塊進行故障信息收集;
收集應用模塊故障時的信息、運行信息和讀取網(wǎng)絡處理器的一些關鍵寄存器狀態(tài);
打包形成異常信息文件,保存到本地存儲模塊,并上傳至預置的運營商服務器;
對出現(xiàn)故障的應用模塊進行重啟;
所述單板系統(tǒng)軟件故障檢測的步驟如下:
通信設備控制平面與單板實時?;?;
檢測單板系統(tǒng)軟件是否出現(xiàn)異常;
若出現(xiàn)單板軟件故障時,則對單板進行硬件復位。
2.根據(jù)權利1所述的一種通信設備軟件故障檢測、收集、恢復的方法,其特征在于,所述檢測單板系統(tǒng)軟件是否出現(xiàn)異常的步驟,具體如下:
通過通信設備單板的實時多任務系統(tǒng)預設檢測任務,實時讀取多任務系統(tǒng)中的應用模塊狀態(tài);
通過所述的檢測任務發(fā)現(xiàn)應用模塊是否存在,若不存在的應用模塊則出現(xiàn)故障;
若應用模塊存在,所述的檢測任務繼續(xù)判斷應用模塊是否存在調度異常,
通過所述檢測任務檢測出預設時間內未能成功訪問的應用模塊,作為出現(xiàn)故障的應用模塊;
通過所述檢測任務依次創(chuàng)建故障信息收集任務和故障重啟任務。
3.根據(jù)權利2所述的一種通信設備軟件故障檢測、收集、恢復的方法,其特征在于,所述出現(xiàn)故障的檢測任務繼續(xù)判斷應用模塊是否存在調度異常的步驟,具體如下:
通過所述故障信息收集任務收集應用模塊故障時的信息;
通過所述故障信息收集任務收集應用模塊運行的信息;
通過所述故障信息收集任務收集網(wǎng)絡處理器一些關鍵寄存器狀態(tài);
通過所述故障信息收集任務對收集到的信息打包成異常信息文件,所述異常信息文件名以特定名字加時間信息命名;
通過所述故障信息收集任務創(chuàng)建故障存儲任務;
所述出現(xiàn)故障的創(chuàng)建故障重啟任務的步驟,具體如下:
通過所述故障重啟任務釋放出現(xiàn)故障的應用模塊所占資源;
通過所述故障重啟任務重啟出現(xiàn)故障的應用模塊;
所述通過所述故障信息收集任務創(chuàng)建故障存儲任務的步驟,具體如下:
計算異常信息文件的大??;
計算本地存儲剩余空間的大??;
判斷本地存儲剩余空間的大小是否小于異常信息文件大??;
若是,根據(jù)異常信息文件名的時間信息排序,先刪除舊的異常信息文件;
本地存儲完畢之后,檢查異常信息文件數(shù)目,是否超過預設的最大異常信息文件數(shù)目;
若是,刪除一個舊的異常信息文件;
若預設遠端故障服務器,將異常信息文件發(fā)送至遠端服務器。
4.根據(jù)權利1所述的一種通信設備軟件故障檢測、收集、恢復的方法和系統(tǒng),其特征在于,所述單板系統(tǒng)軟件故障檢測的步驟,還包括以下步驟:
通過所述通信設備控制平面預設機箱管理任務,與其他單板的機箱管理任務建立連接;
單板的機箱管理任務發(fā)送?;顖笪牡娇刂破矫妫?/p>
控制平面機箱管理任務在預設時間內未收到某單板的?;顖笪?,則此單板的系統(tǒng)軟件出現(xiàn)故障;
收集故障單板相關的運行信息、配置信息;
對出現(xiàn)故障的單板進行重啟。
5.一種通信設備軟件故障檢測、收集、恢復的系統(tǒng),其特征在于,包括:
故障檢測模塊,用于實時對通信設備系統(tǒng)中的多個應用模塊進行檢測,檢測應用模塊是否出現(xiàn)故障;
故障收集模塊,用于應用模塊出現(xiàn)故障時,收集應用模塊的信息及讀取網(wǎng)絡處理器一些關鍵寄存器狀態(tài),打包形成異常信息文件;
故障恢復模塊,用于應用模塊出現(xiàn)故障時,對出現(xiàn)故障的應用模塊進行重啟;
故障存儲模塊,用于應用模塊出現(xiàn)故障時,對收集到異常信息文件存儲到本地存儲,并上傳至預設的運營商服務器;
機箱管理模塊,用于單板系統(tǒng)軟件故障檢測,定時檢測單板系統(tǒng)軟件是否出現(xiàn)故障,對出現(xiàn)故障的單板進行重啟。
6.根據(jù)權利5所述的一種通信設備軟件故障檢測、收集、恢復的系統(tǒng),其特征在于,所述故障檢測模塊包括:
第一檢測單元,用于通過所述預設的檢測任務,實時讀取實時多任務系統(tǒng)中的應用模塊狀態(tài),檢測出已經(jīng)出現(xiàn)故障的應用模塊;
第二檢測單元,用于通過所述預設的檢測任務,檢測出預設時間內未能成功訪問的應用模塊,作為出現(xiàn)故障的應用模塊。
7.根據(jù)權利5所述的一種通信設備軟件故障檢測、收集、恢復的系統(tǒng),其特征在于,所述故障檢收集模塊包括:
第一收集單元,用于通過所述預設的故障收集任務,收集應用模塊故障時的信息;
第二收集單元,用于通過所述預設的故障收集任務,收集應用模塊故障的運行信息;
第三收集單元,用于通過所述預設的故障收集任務,收集網(wǎng)絡處理器一些關鍵寄存器狀態(tài);
第四收集單元,用于通過所述預設的故障收集任務,對收集到異常信息打包成文件,所述異常信息文件名以特定名字加時間信息命名。
8.根據(jù)權利5所述的一種通信設備軟件故障檢測、收集、恢復的系統(tǒng),其特征在于,所述故障存儲模塊包括:
第一存儲單元,用于計算異常信息文件的大??;
第二存儲單元,用于計算本地存儲剩余空間的大?。?/p>
第三存儲單元,用于判斷本地存儲剩余空間的大小是否小于異常信息文件大??;若是,根據(jù)異常信息文件名的時間信息排序,先刪除舊的異常信息文件;
第四存儲單元,用于本地存儲完畢之后,檢查異常信息文件數(shù)目,是否超過預設的最大異常信息文件數(shù)目;若是,刪除一個舊的異常信息文件;
第五存儲單元,若預設遠端故障服務器,將異常信息文件發(fā)送至遠端服務器。
9.根據(jù)權利5所述的一種通信設備軟件故障檢測、收集、恢復的系統(tǒng),其特征在于,所述故障恢復模塊包括:
第一恢復單元,用于釋放出現(xiàn)故障的應用模塊所占資源;
第一恢復單元,用于重啟出現(xiàn)故障的應用模塊。
10.根據(jù)權利5所述的一種通信設備軟件故障檢測、收集、恢復的系統(tǒng),其特征在于,所述機箱管理模塊分為主控機箱管理模塊和單板機箱管理模塊,所述主控機箱管理模塊包括:
第一機箱管理單元,用于通過所述通信設備控制平面預設機箱管理任務,與其他單板的機箱管理任務建立連接;
第二機箱管理單元,用于控制平面機箱管理任務接收其他單板保活報文;
第三機箱管理單元,用于在預設時間內提取未接收保活報文的單板,作為出現(xiàn)故障的單板;
第四機箱管理單元,用于收集故障單板的配置信息和運行信息,保存并上至預置的運營商服務器;
運營商服務器需要預先設置,若沒有設置,則不上傳;
第五機箱管理重啟單元,用于對出現(xiàn)異常的單板進行重啟,恢復單板系統(tǒng)軟件至正常工作狀態(tài);
所述單板機箱管理模塊用于通過單板的機箱管理任務與控制平面的機箱管理任務建立連接,定時發(fā)送?;顖笪牡娇刂破矫?。