專利名稱:一種對數(shù)據(jù)通道狀態(tài)進行實時檢測的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明屬于通訊領(lǐng)域,涉及分組通訊底層數(shù)據(jù)通道狀態(tài)的實時檢測技術(shù),具體是一種對數(shù)據(jù)通道狀態(tài)進行實時在線檢測的系統(tǒng)和方法,本發(fā)明通過告警和告警恢復(fù)防止正常數(shù)據(jù)業(yè)務(wù)的中斷,保證數(shù)據(jù)業(yè)務(wù)長時間穩(wěn)定的工作。
背景技術(shù):
在現(xiàn)有的移動通訊網(wǎng)絡(luò)中提供數(shù)據(jù)業(yè)務(wù)有兩種方式,一種是電路型的數(shù)據(jù)業(yè)務(wù),一種是分組型的數(shù)據(jù)業(yè)務(wù)。
電路型的數(shù)據(jù)業(yè)務(wù)是基于IWF(Inter-working Function,網(wǎng)絡(luò)互聯(lián)功能)來實現(xiàn)的,它主要用來支持第2代手機用戶使用數(shù)據(jù)業(yè)務(wù),采用普通的語音通道作為數(shù)據(jù)包的傳輸承載,不管用戶是否發(fā)送分組數(shù)據(jù)包,用戶獨占相應(yīng)空中信道資源和交換機時隙。
分組型數(shù)據(jù)業(yè)務(wù)則是采用分組交換設(shè)備來實現(xiàn)的,它用于支持2.5代以及以后的第3代手機,用戶使用的數(shù)據(jù)業(yè)務(wù),利用該網(wǎng)絡(luò)可以提供高達100kbps以上速率的數(shù)據(jù)速率,同時能提供簡單IP和移動IP兩種方式。
在2.5代網(wǎng)絡(luò)中,分組數(shù)據(jù)業(yè)務(wù)的實現(xiàn)依賴于以下幾個設(shè)備媒體網(wǎng)關(guān)、歸屬代理、鑒權(quán)授權(quán)計費中心等。因為采用了IP(Internet Protocol,網(wǎng)絡(luò)互連協(xié)議)包承載技術(shù),所以可以實現(xiàn)按數(shù)據(jù)量計費,而且可以實現(xiàn)多用戶共享信道資源和傳輸帶寬等,采用移動IP技術(shù)可以實現(xiàn)永遠(yuǎn)在線和網(wǎng)絡(luò)安全等。
隨著數(shù)據(jù)用戶的迅速增長,和移動數(shù)據(jù)業(yè)務(wù)的快速發(fā)展,移動運營商越來越感到提高網(wǎng)絡(luò)運行維護水平的重要性。提高網(wǎng)絡(luò)質(zhì)量,優(yōu)化網(wǎng)絡(luò)性能是保證網(wǎng)絡(luò)安全、穩(wěn)定、可靠運行的基礎(chǔ),是發(fā)揮分組域數(shù)據(jù)網(wǎng)絡(luò)高速數(shù)據(jù)率優(yōu)勢的重要保證。
中國聯(lián)通的CDMA(Code Division Multi Address,碼分多址多路訪問)2000-1X(第一階段)網(wǎng)絡(luò)通過原有網(wǎng)絡(luò)基礎(chǔ)上并增加了PCF(Packet Control Function,分組控制功能)、PDSN(Packet Data Service Node,分組數(shù)據(jù)服務(wù)節(jié)點)、AAA(Authentication、Authorization、Accounting,鑒權(quán)授權(quán)計費)及相關(guān)路由器、防火墻等設(shè)備而構(gòu)成的。他們指定的CDMA2000-1X網(wǎng)絡(luò)運行維護質(zhì)量的指標(biāo)主要包括數(shù)據(jù)用戶的接入成功率、數(shù)據(jù)用戶的掉話率、PCF的注冊請求成功率、PPP(Point to Point Protocol,點對點協(xié)議)連接成功率、認(rèn)證請求成功率等。其中最重要的一個指標(biāo)是分組數(shù)據(jù)的呼叫建立成功率,數(shù)據(jù)用戶的掉話率等。這一關(guān)鍵指標(biāo)貫穿無線、PCF、PDSN、AAA等設(shè)備,涉及A10/A11(A口協(xié)議)信令接口和PPP、IP協(xié)議,而底層可靠穩(wěn)定的數(shù)據(jù)通道更是提高這一指標(biāo)的根本保證。
為了應(yīng)付日益繁忙的信息流,網(wǎng)絡(luò)設(shè)備的底層硬件架構(gòu)也有了較大的飛躍。當(dāng)速度比較慢時,通用的CPU(Central Processing Unit,中央處理器)完全能夠適應(yīng)對數(shù)據(jù)的處理,當(dāng)網(wǎng)絡(luò)處理速度較快時就出現(xiàn)了專門的NP(Network Processor-網(wǎng)絡(luò)處理器)。與通用的處理器的不同之處在于,網(wǎng)絡(luò)處理器是為優(yōu)化包處理而設(shè)計的,它將包以其到達的速度(即線速)送到下一個節(jié)點;而通用處理器則要處理范圍很大的各種指令。另外,如果需要新的功能或新的標(biāo)準(zhǔn),網(wǎng)絡(luò)處理器可通過編程來實現(xiàn),以滿足各種各樣的網(wǎng)絡(luò)應(yīng)用,但是網(wǎng)絡(luò)處理器也不是沒有缺點,它對特定數(shù)據(jù)進行單一處理的性能又不是最好。為了實現(xiàn)既靈活又高速的數(shù)據(jù)處理能力,業(yè)界一般采用以下兩種硬件架構(gòu)1、通用CPU加ASIC(專用集成電路),通用CPU具有較靈活的編程能力,同時駐留有操作系統(tǒng),可以很便捷的進行各種算法的處理,ASIC又對特定運算的處理能力很強,二者具有很好的互補性。
2、網(wǎng)絡(luò)處理器加PLD(可編程邏輯器件),網(wǎng)絡(luò)處理器中存在通用的CPU內(nèi)核,具有通用CPU的特點,微引擎具有一定的編程能力和數(shù)據(jù)報文的處理能力,再加上可編程的器件,應(yīng)用起來非常靈活。
但是無論哪種架構(gòu),隨著處理能力和靈活性的提升,問題也就顯露出來,在大流量進行復(fù)雜處理過程中存在著一定量的誤碼現(xiàn)象,有時會引起穩(wěn)定性的下降,甚至出現(xiàn)業(yè)務(wù)中斷或系統(tǒng)崩潰的嚴(yán)重后果。問題的原因主要有三點1、由于接口處理的復(fù)雜和硬件本身的兼容性的問題,造成系統(tǒng)在高負(fù)荷運行的時候,會出現(xiàn)異常。
2、現(xiàn)網(wǎng)的報文比較復(fù)雜,會有一些特殊報文在系統(tǒng)設(shè)計過程沒有考慮到,使得系統(tǒng)處理異常,導(dǎo)致通道被阻塞,也是系統(tǒng)的容錯性不夠造成的。
3、由于受到器件本身的原因,比如進行熱插拔等不當(dāng)?shù)牟僮鲿r,會造成器件的損傷。
這些由于底層硬件引起的數(shù)據(jù)通道的故障一旦出現(xiàn),就非常難定位,對于上層應(yīng)用幾乎是束手無策。而對于運營的通訊網(wǎng)絡(luò)來說后果是非常嚴(yán)重的,通常會引起正常業(yè)務(wù)的中斷,從而帶來巨大的經(jīng)濟損失。
從以上可以看出,無論從運營商的需求還是硬件架構(gòu)來看,提高數(shù)據(jù)通道的可靠性,以及可預(yù)見性都具有十分迫切的現(xiàn)實意義。
針對運營商提出的網(wǎng)絡(luò)質(zhì)量的指標(biāo),廠家采取一定的措施來保證,通常采用相應(yīng)的二次開發(fā)的軟件或硬件設(shè)備來進行檢測。
名稱為“一種ID狀態(tài)信號線的檢測方法”的專利申請,公開號為CN1614567,
公開日為2005年5月11日,是一種基于ID狀態(tài)信號線的單板狀態(tài)在線檢測方法,其步驟為讀取功能模塊中ID狀態(tài)信號線的ID標(biāo)識狀態(tài)值,進行校驗,由該ID標(biāo)識狀態(tài)值得出校驗線的狀態(tài)值;將該ID標(biāo)識狀態(tài)值和該校驗線的狀態(tài)值按照異或運算式計算,得出結(jié)果值;將該結(jié)果值與校驗線狀態(tài)值比較是否一致,從而獲得檢測結(jié)果。
該方法通過增加校驗線,從而實現(xiàn)了系統(tǒng)中單板的在線檢測,當(dāng)檢測異常時,通過預(yù)先設(shè)定的備用通道實現(xiàn)故障信息的上報,從而避免了因為ID狀態(tài)信號線出現(xiàn)故障而導(dǎo)致的系統(tǒng)崩潰。
但這種方法的局限性是主要針對單板由于熱插拔,或器件失效等原因造成的ID狀態(tài)異常的問題,不能夠很準(zhǔn)確的定位數(shù)據(jù)通道的異常,當(dāng)ID狀態(tài)正常時也不能確定數(shù)據(jù)通道完全正常。
雖然有了二次開發(fā)的一些檢測軟件,但是很多方面并不是很有針對性的解決現(xiàn)網(wǎng)運行的數(shù)據(jù)通道的一般性問題,而且很多都是在故障已經(jīng)發(fā)生了才檢測出故障,正常的用戶業(yè)務(wù)已經(jīng)中斷,造成了巨大的經(jīng)濟損失。
發(fā)明內(nèi)容本發(fā)明的目的是在不影響正常的數(shù)據(jù)業(yè)務(wù),基于業(yè)界已有的兩種架構(gòu),提供一種對一般數(shù)據(jù)通道進行實時在線檢測的系統(tǒng)和方法,本發(fā)明通過告警、告警恢復(fù),防止正常數(shù)據(jù)業(yè)務(wù)中斷,保證數(shù)據(jù)業(yè)務(wù)長時間穩(wěn)定的工作。
本發(fā)明具體是這樣實現(xiàn)的一種對數(shù)據(jù)通道狀態(tài)進行實時檢測的系統(tǒng),包括業(yè)務(wù)代理模塊,告警模塊,底層數(shù)據(jù)通道,其特征在于所述業(yè)務(wù)代理模塊,設(shè)置檢測報文發(fā)送模塊及檢測報文回收模塊;所述底層數(shù)據(jù)通道,設(shè)置數(shù)據(jù)轉(zhuǎn)換模塊;所述檢測報文發(fā)送模塊及檢測報文回收模塊,通過共享內(nèi)存方式和底層數(shù)據(jù)通道建立統(tǒng)一的接口,檢測報文發(fā)送模塊構(gòu)造檢測報文,檢測報文回收模塊回收檢測報文;所述數(shù)據(jù)轉(zhuǎn)換模塊,用于檢測報文的解析,通過建立的接口分揀出檢測報文,分別發(fā)送給業(yè)務(wù)代理模塊和底層數(shù)據(jù)通道;
啟動限定檢測報文是否按時到達的超時定時器,并初始化設(shè)定告警門限的不可達計數(shù)器。
所述數(shù)據(jù)轉(zhuǎn)換模塊進一步分為兩個轉(zhuǎn)換模塊,轉(zhuǎn)換模塊一從發(fā)送模塊接收檢測報文并分揀出檢測報文,轉(zhuǎn)換模塊二從用戶數(shù)據(jù)報文中分揀出檢測報文來,并回送給檢測報文回收模塊。
所述檢測報文發(fā)送及回收模塊由網(wǎng)絡(luò)處理器的通用CPU中駐留的業(yè)務(wù)代理模塊來完成;所述數(shù)據(jù)轉(zhuǎn)換模塊由網(wǎng)絡(luò)處理器中的微引擎來完成;所述底層數(shù)據(jù)通道由可編程邏輯器件構(gòu)成;所述告警模塊由駐留在系統(tǒng)內(nèi)的代理進程和數(shù)據(jù)庫共同完成。
步驟一,通過共享內(nèi)存方式和底層數(shù)據(jù)通道建立統(tǒng)一的接口,檢測報文發(fā)送模塊構(gòu)造檢測報文,檢測報文回收模塊回收檢測報文;步驟二,數(shù)據(jù)轉(zhuǎn)換模塊解析檢測報文,通過建立的接口分揀出檢測報文,分別發(fā)送給業(yè)務(wù)代理模塊和底層數(shù)據(jù)通道;步驟三,啟動限定檢測報文是否按時到達的超時定時器,并初始化設(shè)定告警門限的不可達計數(shù)器。
所述步驟一和步驟二進一步包括如下處理步驟1檢測報文發(fā)送模塊構(gòu)造出檢測報文發(fā)送給底層數(shù)據(jù)通道;步驟2數(shù)據(jù)轉(zhuǎn)換模塊通過建立的接口解析出檢測報文的類型,送給底層數(shù)據(jù)通道和一般用戶的數(shù)據(jù)報文一樣處理,出現(xiàn)異常時,檢測報文會被丟棄或遲滯。;步驟3處理完成后數(shù)據(jù)轉(zhuǎn)換模塊再次從用戶數(shù)據(jù)報文中分揀出檢測報文,然后返回給檢測報文回收模塊,出現(xiàn)異常情況時,檢測報文不能夠正常返回。
所述步驟三中,如果檢測報文回收模塊的定時器超時,不可達計數(shù)器值加一,當(dāng)不可達計數(shù)器值超過告警門限時,業(yè)務(wù)代理模塊進入告警狀態(tài);如果定時器不超時,業(yè)務(wù)代理模塊維持初始狀態(tài)。
所述檢測報文定義一個用戶不能訪問的ID號,避免影響正常的用戶接入;所述檢測報文定義一個序列號,與檢測時間間隔相對應(yīng),不與時間間隔內(nèi)對應(yīng)的序列號的檢測報文被丟棄;所述檢測報文發(fā)送的頻率,根據(jù)系統(tǒng)流量和用戶情況確定;對于前向檢測和反向檢測,告警和告警恢復(fù)的方式不同,構(gòu)造的檢測報文不同。
業(yè)務(wù)代理模塊處于告警狀態(tài)但沒有發(fā)送告警消息,則發(fā)送告警消息給告警模塊,如果告警消息已經(jīng)發(fā)送則不再發(fā)送。
如果業(yè)務(wù)代理模塊已經(jīng)處于告警狀態(tài),仍然繼續(xù)定時的發(fā)送檢測報文,如果檢測報文回收模塊的定時器不超時,業(yè)務(wù)代理模塊發(fā)送告警恢復(fù)消息通知告警模塊。
如果檢測報文回收模塊超時,業(yè)務(wù)代理模塊讀取相應(yīng)底層數(shù)據(jù)通道相關(guān)寄存器的狀態(tài),如果底層數(shù)據(jù)通道的硬件異常,通過寫寄存器或復(fù)位的方式,使系統(tǒng)重新正常運行。
通過以下具體實施例本發(fā)明的有益效果可歸納為1.提供了實時在線檢測的方法,由業(yè)務(wù)代理模塊主動地檢測底層數(shù)據(jù)通道,實時性體現(xiàn)在檢測過程是周期性的,所以當(dāng)通道異常時實現(xiàn)實時告警,如果通道恢復(fù)正常時,能夠?qū)崿F(xiàn)告警的恢復(fù)。
2.專門定義了統(tǒng)一的接口,使底層通道能有效地分揀出檢測報文來。
3.通過規(guī)定的ID號作為區(qū)分,利用一個用戶幾乎不能訪問的ID號來處理檢測報文,這樣可以避免影響正常的用戶接入。另,接口定義的序列號的檢測有效的檢測出了由于檢測報文亂序或底層通道遲滯的情況所帶來的異常。
4.當(dāng)?shù)讓訑?shù)據(jù)通道出現(xiàn)異常時,通過分析寄存器的狀態(tài)和相應(yīng)統(tǒng)計數(shù)據(jù),能較準(zhǔn)確的定位出故障的具體原因,并通過寫寄存器的方式進行有效的恢復(fù),具有一定的自恢復(fù)能力。
5.由于實現(xiàn)該方法基本不需要增加額外的硬件,所以實現(xiàn)簡單易行。
圖1是本發(fā)明所述數(shù)據(jù)通道檢測系統(tǒng)各模塊結(jié)構(gòu)圖。
圖2是本發(fā)明所述數(shù)據(jù)通道狀態(tài)檢測流程圖。
具體實施方式如圖1所示本發(fā)明系統(tǒng)在原軟件、硬件架構(gòu)的基礎(chǔ)上,進一步設(shè)置以下幾個模塊。
1、檢測報文發(fā)送及回收模塊駐留在業(yè)務(wù)代理模塊中,通過共享內(nèi)存等方式和底層數(shù)據(jù)通道存在統(tǒng)一的接口,其中,發(fā)送模塊,用于構(gòu)造檢測報文,回收模塊,用于回收檢測報文。
特點是編程比較靈活,同時駐留有操作系統(tǒng),可以很方便的完成與系統(tǒng)其它模塊的通訊。
2、數(shù)據(jù)轉(zhuǎn)換模塊用于對檢測報文的解析,通過統(tǒng)一定義的接口分揀出檢測報文發(fā)送模塊發(fā)送的檢測報文,再通過硬件接口發(fā)送給底層數(shù)據(jù)通道。該模塊進一步分為兩個轉(zhuǎn)換模塊,轉(zhuǎn)換的作用有所不同,其中,轉(zhuǎn)換模塊1從發(fā)送模塊接收檢測報文并分揀出檢測報文,轉(zhuǎn)換模塊2從用戶數(shù)據(jù)報文中分揀出檢測報文,并回送給檢測報文回收模塊。
特點是數(shù)據(jù)轉(zhuǎn)發(fā)能力強,可以進行一定的編程。
3、底層數(shù)據(jù)通道用于完成用戶數(shù)據(jù)的處理。
特點是具有高速的數(shù)據(jù)轉(zhuǎn)發(fā)能力,編程不靈活,故障的自診斷,自恢復(fù)能力差,往往是出現(xiàn)問題的關(guān)鍵部件。
4、告警模塊負(fù)責(zé)對故障告警和告警恢復(fù)。
特點只是被動的顯示狀態(tài),每個狀態(tài)都是由它駐留在業(yè)務(wù)代理模塊的消息來通知的,本身不對狀態(tài)的真?zhèn)巫髋袛唷?br> 本發(fā)明系統(tǒng)實時檢測數(shù)據(jù)通道的狀態(tài),在通道異常的時候,發(fā)送告警消息給告警模塊,通道又恢復(fù)正常時,發(fā)告警恢復(fù)消息給告警模塊。
本發(fā)明實現(xiàn)的具體環(huán)境為檢測報文發(fā)送及回收模塊由網(wǎng)絡(luò)處理器的通用CPU中駐留的業(yè)務(wù)代理模塊來完成;數(shù)據(jù)轉(zhuǎn)換模塊由網(wǎng)絡(luò)處理器中的微引擎來完成;底層數(shù)據(jù)通道由可編程邏輯器件構(gòu)成;告警模塊由駐留在系統(tǒng)內(nèi)的代理進程和數(shù)據(jù)庫共同完成。
數(shù)據(jù)通道狀態(tài)檢測及告警具體實現(xiàn)步驟如下步驟1檢測報文發(fā)送模塊構(gòu)造出檢測報文發(fā)送給底層數(shù)據(jù)通道,同時啟動超時定時器,并初始化不可達計數(shù)器,通過超時定時器來限定檢測報文是否按時到達,通過不可達計數(shù)器來設(shè)定告警門限。
檢測報文發(fā)送的頻率也就是檢測的力度,需根據(jù)系統(tǒng)流量和用戶的情況作專門的考慮和定義。
步驟2數(shù)據(jù)轉(zhuǎn)換模塊1通過硬件接口解析出檢測類型的報文,送給底層數(shù)據(jù)通道,對檢測報文同一般用戶數(shù)據(jù)報文一樣處理,這個通道的其它類型報文按原來的方式處理,出現(xiàn)異常時,檢測報文會被丟棄或遲滯。
步驟3數(shù)據(jù)處理完成后轉(zhuǎn)換模塊2再次從用戶數(shù)據(jù)報文中分揀出檢測報文,然后返回給報文回收模塊,異常情況,檢測報文不能夠正常返回。
步驟4檢測報文回收模塊的定時器超時,即有檢測報文沒有在規(guī)定的時間內(nèi)返回,業(yè)務(wù)代理模塊認(rèn)定底層數(shù)據(jù)通道異常,不可達計數(shù)器值加一,當(dāng)不可達計數(shù)器值超過告警門限時(說明檢測報文連續(xù)幾次沒有在規(guī)定的時間內(nèi)返回),業(yè)務(wù)代理模塊進入告警狀態(tài)。如果檢測報文在規(guī)定時間內(nèi)返回,業(yè)務(wù)代理模塊維持初始狀態(tài)。
如果業(yè)務(wù)代理模塊已經(jīng)處于告警狀態(tài),仍然繼續(xù)定時的發(fā)送檢測報文,如果檢測報文能夠在規(guī)定的時間內(nèi)返回,則業(yè)務(wù)代理模塊發(fā)送告警恢復(fù)消息通知告警模塊。
當(dāng)檢測報文不能在告警期限內(nèi)到達時,業(yè)務(wù)代理模塊讀取相應(yīng)的底層通道相關(guān)寄存器的狀態(tài),可以判斷通道的哪個環(huán)節(jié)出現(xiàn)問題,如果底層數(shù)據(jù)通道的硬件異常,則可以通過寫寄存器或復(fù)位的方式,使系統(tǒng)重新正常運行。
步驟5業(yè)務(wù)代理模塊處于告警狀態(tài)但沒有發(fā)送告警消息,則發(fā)送告警消息給告警模塊,如果告警消息已經(jīng)發(fā)送則不再發(fā)送。
以上都是為了使數(shù)據(jù)業(yè)務(wù)不中斷而對通道狀態(tài)進行檢測的方法,同時實現(xiàn)告警和恢復(fù),數(shù)據(jù)業(yè)務(wù)不中斷對于通訊領(lǐng)域的數(shù)據(jù)業(yè)務(wù)的意義是至關(guān)重要的。
上述步驟涉及檢測報文發(fā)送及回收模塊,數(shù)據(jù)轉(zhuǎn)換模塊以及底層數(shù)據(jù)通道等模塊,它們之間的接口,根據(jù)系統(tǒng)的要求做統(tǒng)一的定義,而構(gòu)造的檢測報文本身有四個特點1.根據(jù)接口定義了檢測報文的類型,這樣數(shù)據(jù)轉(zhuǎn)換模塊能夠從一般用戶報文中正確地分揀出檢測報文。
2.定義的報文本身是有效的報文(所謂有效是指報文格式與用戶數(shù)據(jù)報文相同,校驗和正確等)。
3.在檢測報文的接口里定義的用戶的ID號是一個用戶幾乎不能訪問的ID號這樣可以避免影響正常的用戶接入。
4.檢測報文接口里定義了一個序列號,它與檢測時間間隔相對應(yīng),也就是一個時間間隔內(nèi)只有收到序列號與之對應(yīng)的檢測報文,回收模塊才認(rèn)為檢測報文正常到達,否則,回收模塊會將報文丟棄。這樣可以防止收到的是亂序的報文或是不同時間間隔內(nèi)的檢測報文,提高了檢測的準(zhǔn)確性。
如圖2所示,本發(fā)明對數(shù)據(jù)通道狀態(tài)檢測的過程,具體說明如下100、檢測報文發(fā)送模塊構(gòu)造檢測報文發(fā)送給轉(zhuǎn)換模塊1,同時啟動超時定時器,定時器用來控制檢測報文是否按時到達,同時清空不可達計數(shù)器,這個計數(shù)器限定告警門限。
檢測報文的特征1、是有效的報文,所謂有效是指報文格式與用戶數(shù)據(jù)報文相同,校驗和正確等,例如在CDMA2000網(wǎng)絡(luò)中,是用戶的數(shù)據(jù)報文,這樣檢測報文才能夠在整個通道內(nèi)和正常的數(shù)據(jù)報文一樣被處理,這樣的檢測才是有效的。
2、構(gòu)造的檢測報文帶有序列號,檢測報文發(fā)送模塊按序列號發(fā)送檢測報文。
101、數(shù)據(jù)轉(zhuǎn)換模塊1解析出檢測類型的報文,送給底層數(shù)據(jù)通道。
102、底層數(shù)據(jù)通道對檢測報文同一般用戶報文按相同的方式處理,通道異常時,檢測報文在數(shù)據(jù)通道中會被丟棄或遲滯。
103、數(shù)據(jù)處理完成后,轉(zhuǎn)換模塊2從用戶數(shù)據(jù)報文中分揀出檢測報文,再回送給回收模塊,通道異常時,檢測報文不能正常返回。
104、業(yè)務(wù)代理模塊在定時器超時后,將不可達計數(shù)器的值加一,如果該值超過告警門限,則業(yè)務(wù)代理模塊進入告警狀態(tài)。
業(yè)務(wù)代理模塊接收到檢測報文,會對序列號進行校驗,如果序列號與所對應(yīng)的時間間隔不能對應(yīng)起來,說明,檢測報文可能遲后到達或是出現(xiàn)了亂序的情況,業(yè)務(wù)代理模塊會將這樣的檢測報文丟棄,認(rèn)為數(shù)據(jù)通道出現(xiàn)了異常。如果序列號校驗正確,那么業(yè)務(wù)代理模塊維持初始狀態(tài),不告警。
105、業(yè)務(wù)代理模塊進入告警狀態(tài)后,它檢查告警標(biāo)志(00該標(biāo)志用來表示告警信息是否已經(jīng)發(fā)送),如果沒有發(fā)告警消息給告警模塊,則發(fā)送告警消息,如果已經(jīng)發(fā)送告警消息,則不再重發(fā),這樣處理可以防止過多的告警和恢復(fù)消息占用過多的帶寬資源。
106、業(yè)務(wù)代理模塊已處告警狀態(tài),并且告警消息已經(jīng)發(fā)送,檢測報文發(fā)送模塊仍構(gòu)造檢測報文,發(fā)送給轉(zhuǎn)換模塊。數(shù)據(jù)通道恢復(fù)正常,檢測報文處理完成后按原定接口再返回給回收模塊,收到報文后,業(yè)務(wù)代理模塊發(fā)告警恢復(fù)消息給告警模塊,如果業(yè)務(wù)代理模塊沒有處于告警狀態(tài),那么業(yè)務(wù)代理模塊不發(fā)送告警恢復(fù)消息給告警模塊。
發(fā)送的檢測報文不同,可分為前向檢測和反向檢測,告警和告警恢復(fù)的處理方式是相同的,例如,在CDMA2000分組域網(wǎng)絡(luò)中分別構(gòu)造用戶的組幀報文和解幀報文。
在步驟100中,構(gòu)造的檢測報文不能在告警期限內(nèi)到達時,處理器讀取相應(yīng)的底層通道的寄存器狀態(tài),可以判斷通道的哪個環(huán)節(jié)出現(xiàn)了問題,以利于進一步定位故障,并可以通過寫寄存器和復(fù)位芯片的方式進行告警恢復(fù),對于不能立刻定位的故障,系統(tǒng)還采用單用戶跟蹤的方式或是寫日志的方式為進一步定位問題提供數(shù)據(jù)。
在步驟104中,告警門限值根據(jù)系統(tǒng)流量和檢測力度等因素設(shè)定。
步驟100至106,涉及檢測報文發(fā)送及回收模塊和數(shù)據(jù)轉(zhuǎn)換模塊以及底層數(shù)據(jù)通道之間的接口,在本發(fā)明中,根據(jù)系統(tǒng)的要求作了統(tǒng)一的定義。為了使系統(tǒng)的業(yè)務(wù)不發(fā)生中斷這些接口的定義必須根據(jù)實際情況,要避免和正常業(yè)務(wù)發(fā)生沖突,底層的通道根據(jù)用戶的ID號作了區(qū)分,來處理檢測報文,這樣可以避免影響正常的用戶接入。
權(quán)利要求
1.一種對數(shù)據(jù)通道狀態(tài)進行實時檢測的系統(tǒng),包括業(yè)務(wù)代理模塊,告警模塊,底層數(shù)據(jù)通道,其特征在于所述業(yè)務(wù)代理模塊,設(shè)置檢測報文發(fā)送模塊及檢測報文回收模塊;所述底層數(shù)據(jù)通道,設(shè)置數(shù)據(jù)轉(zhuǎn)換模塊;所述檢測報文發(fā)送模塊及檢測報文回收模塊,通過共享內(nèi)存方式和底層數(shù)據(jù)通道建立統(tǒng)一的接口,檢測報文發(fā)送模塊構(gòu)造檢測報文,檢測報文回收模塊回收檢測報文;所述數(shù)據(jù)轉(zhuǎn)換模塊,用于檢測報文的解析,通過建立的接口分揀出檢測報文,分別發(fā)送給業(yè)務(wù)代理模塊和底層數(shù)據(jù)通道;啟動限定檢測報文是否按時到達的超時定時器,并初始化設(shè)定告警門限的不可達計數(shù)器。
2.如權(quán)利要求
1所述對數(shù)據(jù)通道狀態(tài)進行實時檢測的系統(tǒng),其特征在于所述數(shù)據(jù)轉(zhuǎn)換模塊進一步分為兩個轉(zhuǎn)換模塊,轉(zhuǎn)換模塊一從發(fā)送模塊接收檢測報文并分揀出檢測報文,轉(zhuǎn)換模塊二從用戶數(shù)據(jù)報文中分揀出檢測報文來,并回送給檢測報文回收模塊。
3.如權(quán)利要求
1或2所述的對數(shù)據(jù)通道狀態(tài)進行實時檢測的系統(tǒng),其特征在于所述檢測報文發(fā)送及回收模塊由網(wǎng)絡(luò)處理器的通用CPU中駐留的業(yè)務(wù)代理模塊來完成;所述數(shù)據(jù)轉(zhuǎn)換模塊由網(wǎng)絡(luò)處理器中的微引擎來完成;所述底層數(shù)據(jù)通道由可編程邏輯器件構(gòu)成;所述告警模塊由駐留在系統(tǒng)內(nèi)的代理進程和數(shù)據(jù)庫共同完成。
4.一種對數(shù)據(jù)通道狀態(tài)進行實時檢測的方法,其特征在于,包括如下處理步驟步驟一,通過共享內(nèi)存方式和底層數(shù)據(jù)通道建立統(tǒng)一的接口,檢測報文發(fā)送模塊構(gòu)造檢測報文,檢測報文回收模塊回收檢測報文;步驟二,數(shù)據(jù)轉(zhuǎn)換模塊解析檢測報文,通過建立的接口分揀出檢測報文,分別發(fā)送給業(yè)務(wù)代理模塊和底層數(shù)據(jù)通道;步驟三,啟動限定檢測報文是否按時到達的超時定時器,并初始化設(shè)定告警門限的不可達計數(shù)器。
5.如權(quán)利要求
4所述的數(shù)據(jù)通道狀態(tài)進行實時檢測的方法,其特征在于,所述步驟一和步驟二進一步包括如下處理步驟1檢測報文發(fā)送模塊構(gòu)造出檢測報文發(fā)送給底層數(shù)據(jù)通道;步驟2數(shù)據(jù)轉(zhuǎn)換模塊通過建立的接口解析出檢測報文的類型,送給底層數(shù)據(jù)通道和一般用戶的數(shù)據(jù)報文一樣處理,出現(xiàn)異常時,檢測報文會被丟棄或遲滯。;步驟3處理完成后數(shù)據(jù)轉(zhuǎn)換模塊再次從用戶數(shù)據(jù)報文中分揀出檢測報文,然后返回給檢測報文回收模塊,出現(xiàn)異常情況時,檢測報文不能夠正常返回。
6.如權(quán)利要求
4所述的數(shù)據(jù)通道狀態(tài)進行實時檢測的方法,其特征在于所述步驟三中,如果檢測報文回收模塊的定時器超時,不可達計數(shù)器值加一,當(dāng)不可達計數(shù)器值超過告警門限時,業(yè)務(wù)代理模塊進入告警狀態(tài);如果定時器不超時,業(yè)務(wù)代理模塊維持初始狀態(tài)。
7.如權(quán)利要求
4所述的對數(shù)據(jù)通道狀態(tài)進行實時檢測方法,其特征在于所述檢測報文定義一個用戶不能訪問的ID號,避免影響正常的用戶接入;所述檢測報文定義一個序列號,與檢測時間間隔相對應(yīng),不與時間間隔內(nèi)對應(yīng)的序列號的檢測報文被丟棄;所述檢測報文發(fā)送的頻率,根據(jù)系統(tǒng)流量和用戶情況確定;對于前向檢測和反向檢測,告警和告警恢復(fù)的方式不同,構(gòu)造的檢測報文不同。
8.如權(quán)利要求
4所述的對數(shù)據(jù)通道狀態(tài)進行實時檢測方法,其特征在于業(yè)務(wù)代理模塊處于告警狀態(tài)但沒有發(fā)送告警消息,則發(fā)送告警消息給告警模塊,如果告警消息已經(jīng)發(fā)送則不再發(fā)送。
9.如權(quán)利要求
4所述的對數(shù)據(jù)通道狀態(tài)進行實時檢測方法,其特征在于如果業(yè)務(wù)代理模塊已經(jīng)處于告警狀態(tài),仍然繼續(xù)定時的發(fā)送檢測報文,如果檢測報文回收模塊的定時器不超時,業(yè)務(wù)代理模塊發(fā)送告警恢復(fù)消息通知告警模塊。
10.如權(quán)利要求
4所述的對數(shù)據(jù)通道狀態(tài)進行實時檢測方法,其特征在于如果檢測報文回收模塊超時,業(yè)務(wù)代理模塊讀取相應(yīng)底層數(shù)據(jù)通道相關(guān)寄存器的狀態(tài),如果底層數(shù)據(jù)通道的硬件異常,通過寫寄存器或復(fù)位的方式,使系統(tǒng)重新正常運行。
專利摘要
本發(fā)明涉及一種對數(shù)據(jù)通道狀態(tài)進行實時在線檢測的系統(tǒng)和方法,所述檢測報文發(fā)送及回收模塊,通過共享內(nèi)存方式和底層數(shù)據(jù)通道建立統(tǒng)一的接口,發(fā)送模塊構(gòu)造檢測報文,回收模塊回收檢測報文;所述數(shù)據(jù)轉(zhuǎn)換模塊,用于檢測報文的解析,通過建立的接口分揀出檢測報文,發(fā)送給底層數(shù)據(jù)通道。當(dāng)通道異常時實現(xiàn)實時告警,如果通道恢復(fù)正常時,能夠?qū)崿F(xiàn)告警的恢復(fù)。當(dāng)?shù)讓訑?shù)據(jù)通道出現(xiàn)異常時,通過分析寄存器的狀態(tài)和相應(yīng)統(tǒng)計數(shù)據(jù),能較準(zhǔn)確的定位出故障的具體原因,并通過寫寄存器的方式進行有效的恢復(fù),具有一定的自恢復(fù)能力。
文檔編號H04L12/26GK1996898SQ200510132659
公開日2007年7月11日 申請日期2005年12月28日
發(fā)明者畢鵬飛, 鈕遠(yuǎn), 唐輝 申請人:中興通訊股份有限公司導(dǎo)出引文BiBTeX, EndNote, RefMan