專利名稱:故障檢測和診斷的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及有線和無線網(wǎng)絡(luò),特別是涉及檢測和診斷網(wǎng)絡(luò)故障的網(wǎng)絡(luò)診斷故障構(gòu)架。
背景技術(shù):
網(wǎng)絡(luò)管理盡管是成功部署多跳無線網(wǎng)絡(luò)的關(guān)鍵因素,但是已經(jīng)受到工業(yè)和研究界的有限關(guān)注。診斷網(wǎng)絡(luò)故障是負(fù)責(zé)維護(hù)網(wǎng)絡(luò)“健康”以及確保網(wǎng)絡(luò)平穩(wěn)和連續(xù)操作的網(wǎng)絡(luò)管理的一個(gè)方面。診斷有線或無線網(wǎng)絡(luò)故障,因不同網(wǎng)絡(luò)實(shí)體、不同故障等之中發(fā)生的交互作用而復(fù)雜化。
由于各種附加因素,使得診斷多跳無線網(wǎng)絡(luò)故障變得復(fù)雜化。例如,典型的多跳無線網(wǎng)絡(luò)通常容易鏈接由信號傳播波動造成的錯誤。信號傳播波動可以由諸如環(huán)境條件波動的各種因素造成。這些波動導(dǎo)致動態(tài)和不可預(yù)知的網(wǎng)絡(luò)拓?fù)?。?jié)點(diǎn)移動性進(jìn)一步加重了這些因素,因?yàn)楣?jié)點(diǎn)可能位于鏈接網(wǎng)絡(luò)的各種位置上,從而增加網(wǎng)絡(luò)的動態(tài)和不可預(yù)知性質(zhì)。此外,多跳無線網(wǎng)絡(luò)的容量通常受限于資源(例如,帶寬、蓄電池電源等等)的不足,這抑止了網(wǎng)絡(luò)可以容忍的管理業(yè)務(wù)開銷量。此外,無線網(wǎng)絡(luò)也許禁不起來自惡意方的鏈接攻擊。攻擊者例如可以輸入(注入)虛假信息以破壞和干涉網(wǎng)絡(luò)管理工作。
傳統(tǒng)的探索和推理技術(shù)通常被用來執(zhí)行網(wǎng)絡(luò)診斷故障,但是不能捕獲如“真實(shí)”環(huán)境中實(shí)施的網(wǎng)絡(luò)行為。例如,網(wǎng)絡(luò)行為可以被一個(gè)對另一個(gè)的節(jié)點(diǎn)交互作用,以及位于節(jié)點(diǎn)附近外部噪聲資源支配。傳統(tǒng)的探索或推理技術(shù)不能適當(dāng)?shù)乩闷渲車h(huán)境解決網(wǎng)絡(luò)不同部件之間的交互作用,因此不能捕獲這種網(wǎng)絡(luò)的行為。
所以,需要一種提供改進(jìn)的故障檢測和診斷的網(wǎng)絡(luò)診斷故障的構(gòu)架。
發(fā)明內(nèi)容
本發(fā)明公開了一種網(wǎng)絡(luò)診斷故障構(gòu)架。該構(gòu)架可以利用真實(shí)網(wǎng)絡(luò)的仿真,檢測真實(shí)網(wǎng)絡(luò)運(yùn)行中的故障。例如,網(wǎng)絡(luò)仿真可以由描述真實(shí)網(wǎng)絡(luò)運(yùn)行的數(shù)據(jù)驅(qū)動。特別是,收集用于驅(qū)動網(wǎng)絡(luò)仿真的原始數(shù)據(jù)可以包含各種原因的差錯,比如引見、軟件和/網(wǎng)絡(luò)差錯。為了確保用來驅(qū)動網(wǎng)絡(luò)仿真的數(shù)據(jù)一致,可以使原始數(shù)據(jù)歸零。例如,網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)可以提供用于驅(qū)動網(wǎng)絡(luò)仿真的數(shù)據(jù)。特定結(jié)點(diǎn)提供的數(shù)據(jù)不僅描述特定節(jié)點(diǎn)的操作,而且還描述一個(gè)或多個(gè)鄰近節(jié)點(diǎn)的操作。因此,從網(wǎng)絡(luò)中獲得的數(shù)據(jù)可以是冗余的。然后逐一比較冗余數(shù)據(jù),以標(biāo)識任何不一致性,然后可以通過各種方式糾正不一致性,比如通過數(shù)據(jù)取平均值、移除不一致數(shù)據(jù)等方式糾正不一致性。
然后網(wǎng)絡(luò)仿真可以根據(jù)該數(shù)據(jù)估算網(wǎng)絡(luò)性能。將估算的網(wǎng)絡(luò)性能與真實(shí)網(wǎng)絡(luò)性能的已觀測網(wǎng)絡(luò)性能進(jìn)行比較,以檢測真實(shí)網(wǎng)絡(luò)是否按預(yù)料的那樣正在運(yùn)行。如果不是,則檢測真實(shí)網(wǎng)絡(luò)運(yùn)行中的故障。換言之,可以利用網(wǎng)絡(luò)仿真所指示的已估算網(wǎng)絡(luò)性能與真實(shí)網(wǎng)絡(luò)所指示的已觀測網(wǎng)絡(luò)性能之間的差值,檢測真是網(wǎng)絡(luò)中的故障出現(xiàn)。通過在網(wǎng)絡(luò)仿真的網(wǎng)絡(luò)性能逼近真是網(wǎng)絡(luò)的網(wǎng)絡(luò)性能之前,分別將一個(gè)或多個(gè)故障注入到網(wǎng)絡(luò)仿真中,可以利用用于診斷故障的網(wǎng)絡(luò)仿真。
一旦產(chǎn)生逼近網(wǎng)絡(luò)性能的一個(gè)或多個(gè)故障的集被標(biāo)識,就可以標(biāo)識和實(shí)施一個(gè)或多個(gè)修改,以糾正故障。例如,網(wǎng)絡(luò)仿真可以隨后被用來執(zhí)行假設(shè)分析,對已仿真網(wǎng)絡(luò)進(jìn)行修改,以測試修改是否糾正了故障和/或是否改善了網(wǎng)絡(luò)性能。因而,網(wǎng)絡(luò)仿真可以提供關(guān)于對網(wǎng)絡(luò)的各種修改(比如糾正故障和/或改善網(wǎng)絡(luò)性能的修改)的網(wǎng)絡(luò)性能效果的定量反饋。
圖1是顯示具有多個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)的一個(gè)典型實(shí)施例中的環(huán)境的示意圖;圖2是詳細(xì)實(shí)現(xiàn)圖1的分析模塊的典型實(shí)施的示意圖;圖3是具有7×3格柵拓?fù)涞木W(wǎng)絡(luò)的示意圖;圖4是顯示包括圖2的仿真器和網(wǎng)絡(luò)仿真的系統(tǒng)的典型實(shí)施例的示意圖;圖5是描述一個(gè)典型實(shí)施例中的過程的流程圖,在該實(shí)施例中,最初逐一診斷具有相同類型的故障;圖6是一個(gè)典型實(shí)施例中的決策樹的示意圖,在該實(shí)施例中,該決策樹用來根據(jù)已仿真性能與已觀測性能之間的差異,確定故障的類型;圖7是描述一個(gè)典型實(shí)施例中過程的流程圖,在該實(shí)施例中,利用迭代診斷算法逐一診斷具有不同類型的故障;圖8是一個(gè)典型實(shí)施例的示意圖,其中,圖1的多個(gè)節(jié)點(diǎn)包括可執(zhí)行鄰居監(jiān)測的代理模塊;圖9是描述典型實(shí)施例的過程的流程圖,其中比較描述鄰近節(jié)點(diǎn)的諸多報(bào)告,以查找網(wǎng)絡(luò)中行為不端的節(jié)點(diǎn);圖10是說明一個(gè)典型實(shí)施例中的過程的流程圖,其中根據(jù)聯(lián)機(jī)軌跡驅(qū)動仿真執(zhí)行假設(shè)分析;圖11是典型實(shí)施例中過程的流程圖,其中根據(jù)破壞性流的診斷驅(qū)動網(wǎng)絡(luò)的修改;圖12是包括多個(gè)流的網(wǎng)絡(luò)的示意圖,其中一個(gè)流是破壞性流;圖13是顯示由管理員提供圖形用戶接口(GUI)的典型實(shí)施例的示意圖,所述管理員節(jié)點(diǎn)允許網(wǎng)絡(luò)管理員觀察網(wǎng)絡(luò)以及向網(wǎng)絡(luò)發(fā)出管理請求;在整個(gè)說明書和附圖中。相同標(biāo)記涉及類似的部件和特征。
具體實(shí)施例方式
概述下面說明供有線和/或無線網(wǎng)絡(luò)維持有效和可靠網(wǎng)絡(luò)運(yùn)行之用的網(wǎng)絡(luò)診斷故障構(gòu)架。這里所述的構(gòu)架可以利用聯(lián)機(jī)軌跡驅(qū)動網(wǎng)絡(luò)仿真,來檢測故障和執(zhí)行故障的根原因分析。網(wǎng)絡(luò)仿真是可以從真實(shí)網(wǎng)絡(luò)獲得網(wǎng)絡(luò)性能的“聯(lián)機(jī)”。
該構(gòu)架可適用于診斷各種各樣的性能問題(即,故障),比如由分組丟棄、鏈路擁擠、媒體訪問控制(MAC)行為不端、外部噪聲等造成的故障。構(gòu)架還可以用來評估可替代的網(wǎng)絡(luò)配置,以改善網(wǎng)絡(luò)性能。盡管以下討論描述了典型無線網(wǎng)絡(luò)中的構(gòu)架,但是也可以在有線網(wǎng)絡(luò)中利用該構(gòu)架。
典型環(huán)境如上所述,網(wǎng)絡(luò)管理已經(jīng)受到工業(yè)界和研究界的有限關(guān)注。網(wǎng)絡(luò)管理的實(shí)施可以包含連續(xù)監(jiān)測網(wǎng)絡(luò)功能,收集網(wǎng)絡(luò)中節(jié)點(diǎn)和鏈路的信息,刪除報(bào)告數(shù)據(jù)中的不一致和噪聲,分析數(shù)據(jù),以及執(zhí)行改善網(wǎng)絡(luò)可靠性和性能的適當(dāng)行為。
網(wǎng)絡(luò)診斷故障是負(fù)責(zé)維護(hù)網(wǎng)絡(luò)的“健康”以及確保其平穩(wěn)和連續(xù)操作的網(wǎng)絡(luò)管理的一個(gè)方面。診斷有線或無線網(wǎng)絡(luò)故障,因各種交互作用而復(fù)雜化,此類交互作用比如是,不同網(wǎng)絡(luò)實(shí)體之間發(fā)生的交互作用、故障間的交互作用等。診斷多跳無線網(wǎng)絡(luò)故障,因各種附加因素而變得更加復(fù)雜。例如,典型的多跳無線網(wǎng)絡(luò)通常容易鏈接由信號傳播波動造成的錯誤,該波動導(dǎo)致動態(tài)和不可預(yù)知的網(wǎng)絡(luò)拓?fù)洹4送?,多跳無線網(wǎng)絡(luò)的容量通常受限于資源(例如,帶寬、蓄電池電源等等)的不足,這又抑止了網(wǎng)絡(luò)可以容忍的管理業(yè)務(wù)開銷量。
下面說明解決這些復(fù)雜性的構(gòu)架。構(gòu)架可以利用聯(lián)機(jī)軌跡仿真來檢測故障并且執(zhí)行根原因分析。仿真可以用來再現(xiàn)在造成故障的網(wǎng)絡(luò)中發(fā)生的事件,從而標(biāo)識和糾正故障。
圖1是一個(gè)典型實(shí)施例中的環(huán)境的示意圖,顯示了具有多個(gè)節(jié)點(diǎn)102(1)、102(2)、102(3)、……102(n),……102(N)的網(wǎng)絡(luò)100。圖1的多個(gè)節(jié)點(diǎn)102(1)-102(N)實(shí)現(xiàn)一個(gè)典型構(gòu)架,該構(gòu)架利用了用于故障檢測、診斷和假設(shè)分析的網(wǎng)絡(luò)100的仿真。構(gòu)架具有多種有益特性。首先,構(gòu)架是彈性的(靈活的)。由于仿真是高度客戶化的并且可以適用于在不同環(huán)境中實(shí)施的大類別網(wǎng)絡(luò),因此建立在仿真器頂部的診斷故障可以被配置成繼承該靈活性。第二,仿真能夠獲得各種復(fù)雜的交互作用。例如,可以在網(wǎng)絡(luò)內(nèi)、網(wǎng)絡(luò)與環(huán)境之間捕獲交互作用,以及捕獲在網(wǎng)絡(luò)運(yùn)行期間發(fā)生的不同故障之中的交互作用。因此,構(gòu)架(通過使用仿真)提供寬范圍故障及其組合的系統(tǒng)診斷。第三,該構(gòu)架是可擴(kuò)展的,其中通過模仿不依賴于系統(tǒng)中其它故障的仿真中的故障,可以把檢測新的故障的能力嵌入到構(gòu)架中。通過仿真的執(zhí)行,可以隱性地捕獲構(gòu)架中模仿的新故障與先前存在的故障之間的交互作用。第四,仿真器內(nèi)的網(wǎng)絡(luò)再現(xiàn)便于假設(shè)分析,所述假設(shè)分析提供可以對網(wǎng)絡(luò)進(jìn)行修改的性能效果的定量反饋。例如,校正行為可以開始校正網(wǎng)絡(luò)運(yùn)行中的故障,修改可以增加網(wǎng)絡(luò)性能,等。
構(gòu)架可以利用一個(gè)或多個(gè)多種現(xiàn)存網(wǎng)絡(luò)仿真器來仿真網(wǎng)絡(luò)100,比如QUALNET(QUALNET是位于洛杉磯的Scalable Network技術(shù)公司的商標(biāo))、OPNET MODELER(OPNET MODELER是位于華盛頓特區(qū)的OPNET技術(shù)公司的商標(biāo)),等等。提供給仿真器的跟蹤是從正在診斷的網(wǎng)絡(luò)(即“真實(shí)”網(wǎng)絡(luò))獲得的。利用來自真實(shí)網(wǎng)絡(luò)的跟蹤,刪除也許不捕獲硬件、軟件和所述特定網(wǎng)絡(luò)的環(huán)境的細(xì)微差別的一般推理模型的構(gòu)架的依賴性,從而提高構(gòu)架的精度。
構(gòu)架還可以利用診斷故障方案執(zhí)行根原因分析。例如,該方案可以把聯(lián)機(jī)跟蹤仿真器發(fā)射的已估算網(wǎng)絡(luò)性能數(shù)據(jù)利用為真實(shí)網(wǎng)絡(luò)的期望性能的基線。然后利用與期望性能的偏差指示潛在的故障。此外,該方案可以選擇性地把候選故障集注入到仿真器中,以通過使診斷故障縮小到搜索故障集的問題來執(zhí)行根原因分析。因此,可以根據(jù)當(dāng)注入時(shí)使仿真逼近真實(shí)網(wǎng)絡(luò)的已觀測性能的故障,標(biāo)識根原因。因此,構(gòu)架可以利用搜索算法檢測和診斷故障,比如分組丟棄、鏈路擁擠、外部噪聲、MAC行為不端等等。這些故障對性能可以具有比較長的持續(xù)影響,并且更難于檢測失敗停止錯誤,比如當(dāng)電源或者電池?cái)嚯娫斐傻墓?jié)點(diǎn)自身斷開的失敗停止錯誤。
這樣,構(gòu)架可以把仿真利用為網(wǎng)絡(luò)中可選和潛在性能增強(qiáng)配置的診斷故障和測試的分析工具。在以下部分中,網(wǎng)絡(luò)跟蹤被標(biāo)識為,當(dāng)提供給仿真器時(shí),提供給予真實(shí)網(wǎng)絡(luò)行為的精確描述。技術(shù)還被描述為減少或者刪除來自跟蹤的錯誤數(shù)據(jù),該技術(shù)的進(jìn)一步討論可以在關(guān)于圖8和圖9的描述中發(fā)現(xiàn)。因此,仿真器裝備有高質(zhì)量的數(shù)據(jù)。此外,搜索算法被描述為有效診斷網(wǎng)絡(luò)中的多個(gè)故障,該算法的進(jìn)一步討論可以在參照圖7的描述中發(fā)現(xiàn)。仿真器還可以用來執(zhí)行假設(shè)分析并且量化當(dāng)前網(wǎng)絡(luò)上的可能行為的性能效益,進(jìn)一步的討論可以在操著圖10-13的說明中發(fā)現(xiàn)。
診斷故障構(gòu)架可以被利用在各種各樣的網(wǎng)絡(luò)配置中。圖1的網(wǎng)絡(luò)100圖示了一個(gè)這樣的實(shí)例,網(wǎng)絡(luò)100被描述為一個(gè)無線網(wǎng)狀網(wǎng)絡(luò)。網(wǎng)狀網(wǎng)絡(luò)可以利用各種安排,比如全網(wǎng)狀拓?fù)浠蛘卟糠志W(wǎng)狀拓?fù)?。在全網(wǎng)狀拓?fù)渲校總€(gè)節(jié)點(diǎn)被直接連接到網(wǎng)絡(luò)中的每個(gè)其它節(jié)點(diǎn)。在部分網(wǎng)狀拓?fù)渲?,每個(gè)節(jié)點(diǎn)被連接到至少一個(gè)其它節(jié)點(diǎn),但不需要被連接到網(wǎng)絡(luò)中的每個(gè)其它節(jié)點(diǎn)上。
網(wǎng)狀網(wǎng)絡(luò)例如可以作為用于鄰居的使能技術(shù),協(xié)作地構(gòu)成自管理的社團(tuán)無線網(wǎng)狀網(wǎng)絡(luò)。每個(gè)鄰居可以提供網(wǎng)絡(luò)100的多個(gè)節(jié)點(diǎn)102(1)-102(N)的一個(gè)或多個(gè)。借助這樣的網(wǎng)絡(luò),鄰居可以例如以成本效益方式共享互聯(lián)網(wǎng)網(wǎng)關(guān)104。
在鄰域中利用的網(wǎng)狀網(wǎng)絡(luò)的實(shí)例中,用來通信地鏈接多個(gè)節(jié)點(diǎn)102(1)-102(N)的路由器位于家庭中,并且被插入在電插座中。因此,該實(shí)例中的每個(gè)路由器限制移動性。然而,這樣的網(wǎng)絡(luò)中的相對可靠性使得網(wǎng)絡(luò)診斷故障甚至更加重要,因?yàn)楣收详?duì)網(wǎng)絡(luò)性能具有持續(xù)影響。應(yīng)當(dāng)注意的是,該實(shí)例中的路由器移動性的缺乏不能減弱網(wǎng)絡(luò)拓?fù)涞幕盍Γ驗(yàn)榄h(huán)境改變導(dǎo)致無線鏈路可以訪問或者不可以訪問。在另一個(gè)實(shí)例中,網(wǎng)狀網(wǎng)絡(luò)的節(jié)點(diǎn)可以是移動的,比如通過具有無線通信能力的移動計(jì)算裝置、比如個(gè)人數(shù)字助理(PDA)、圖形輸入板個(gè)人計(jì)算機(jī)(PC)、膝上型計(jì)算機(jī)等等的使用而移動。
此外,社團(tuán)網(wǎng)狀網(wǎng)絡(luò)的增長是有組織的,因?yàn)橛捎脩糍徺I和安裝加入網(wǎng)狀網(wǎng)絡(luò)的設(shè)備。傳統(tǒng)網(wǎng)狀網(wǎng)絡(luò)缺乏負(fù)責(zé)網(wǎng)絡(luò)管理的中心實(shí)體。然而,可以提供經(jīng)由所述構(gòu)架提供的自管理能力和自修復(fù)能力,從而使每個(gè)節(jié)點(diǎn)102(1)-102(N)實(shí)施診斷故障能力。在所示的實(shí)施例中,提供了具有管理能力的單一節(jié)點(diǎn)。
在圖1所示的網(wǎng)絡(luò)100中,每個(gè)節(jié)點(diǎn)具有一個(gè)處理器、存儲器和網(wǎng)絡(luò)連接裝置。節(jié)點(diǎn)102(n)顯示了一個(gè)實(shí)例,它包括處理器106(n)、存儲器108(n)和網(wǎng)絡(luò)鏈接裝置110(n)。處理器(例如,處理器106(n),106(N))不限于構(gòu)成它們的材料,或者所使用的處理機(jī)制。例如,處理器可以由半導(dǎo)體和/或晶體管(例如,電子繼承電路(IC))組成。在這樣的語境中,處理器可執(zhí)行指令可以是電可執(zhí)行指令。作為選擇,處理器的機(jī)制,因而節(jié)點(diǎn)的機(jī)制可以包括(但不限于)量子計(jì)算、光計(jì)算、機(jī)械計(jì)算(例如,使用納米技術(shù))等等。
存儲器(例如,存儲器108(n),108(N))包括取易失性和/非易失性存儲器的計(jì)算機(jī)存儲媒介,比如只讀存儲器(ROM),隨機(jī)存取存儲器(RAM)等等。存儲器還可以包括可查協(xié)/不可拆卸、易失性/非易失性計(jì)算機(jī)存儲媒介。存儲器提供計(jì)算機(jī)可讀指令、數(shù)據(jù)指令、軟件分量以及用于節(jié)點(diǎn)的其它數(shù)據(jù)的存儲。
網(wǎng)絡(luò)鏈接裝置(例如,網(wǎng)絡(luò)鏈接裝置110(n),110(N))可以采用各種用來通信地把節(jié)點(diǎn)連接到網(wǎng)絡(luò)100的配置。當(dāng)用于局域網(wǎng)(LAN)環(huán)境時(shí),例如節(jié)點(diǎn)102(n)經(jīng)由可以是有線的和/或無線的網(wǎng)絡(luò)接口或者適配器通信地連接LAN。當(dāng)用于廣域網(wǎng)(WAN)環(huán)境時(shí),網(wǎng)絡(luò)鏈接裝置可以被配置成調(diào)制解調(diào)器,或者用于建立通信的其它裝置,比如經(jīng)由數(shù)字用戶線(DSL)的有線連接、裝備有衛(wèi)星裝置的無線連接等。在圖1中通過箭頭的使用,示出了邏輯連接。盡管圖1所示的網(wǎng)絡(luò)100是無線網(wǎng)狀網(wǎng)絡(luò),但是也可以利用各種其它網(wǎng)絡(luò),比如互聯(lián)網(wǎng)、內(nèi)聯(lián)網(wǎng)等。
節(jié)點(diǎn)102(n)、102(N)示出了由軟件模塊組成的典型管理結(jié)構(gòu)。通常,可以使用軟件、固件(例如,固定邏輯電路)、互處理、或者這些實(shí)施的組合來實(shí)現(xiàn)所述的任何一種功能。這里使用的術(shù)語“模塊”、“功能”和“邏輯”通常代表軟件、固件或者軟件和固件的組合。在軟件實(shí)現(xiàn)的情況下,模塊、功能或者邏輯代表程序碼,當(dāng)在處理器如一個(gè)或多個(gè)中央處理單元(CPU)上運(yùn)行程序碼時(shí),該程序碼執(zhí)行特定作業(yè)。程序碼可以被存儲在一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲器裝置中。下面所述的構(gòu)架特征是獨(dú)立平臺,即,可以在具有處理器的各種商業(yè)計(jì)算平臺上實(shí)現(xiàn)的診斷故障技術(shù)。
設(shè)置代理模塊112(n),以便在網(wǎng)絡(luò)100的每個(gè)節(jié)點(diǎn)102(n)上運(yùn)行。代理模塊112(n)代理模塊112(n)被顯示為在處理器106(n)上運(yùn)行,并且可存儲在存儲器108(n)中。代理模塊112(n)包括一個(gè)數(shù)據(jù)收集模塊114(n)(以下稱之為“收集模塊”),當(dāng)運(yùn)行時(shí),該收集模塊可以從各種協(xié)議層和/或從網(wǎng)絡(luò)連接裝置110(n)中收集數(shù)據(jù)。在圖1所示的網(wǎng)絡(luò)100中,代理模塊112(n)向具有管理功能的節(jié)點(diǎn)102(N)(以下稱之為管理器節(jié)點(diǎn))報(bào)告該數(shù)據(jù)。管理器節(jié)點(diǎn)102(N)執(zhí)行數(shù)據(jù)的分析(例如通過實(shí)施接受作為輸入的數(shù)據(jù)的仿真)并采取診斷網(wǎng)絡(luò)故障的適當(dāng)行動。通過把管理器置于如圖1所示網(wǎng)絡(luò)100的單一節(jié)點(diǎn)上,可以統(tǒng)一網(wǎng)絡(luò)的管理,或者該管理被描述成多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)分別包括管理功能。
當(dāng)在相應(yīng)處理器106(n)、106(N)上運(yùn)行代理模塊112(n)、112(N)時(shí),這些代理模塊收集并向管理器節(jié)點(diǎn)102(N)傳送描述它們(本地)觀看的網(wǎng)絡(luò)行為。發(fā)送的數(shù)據(jù)的實(shí)例可以包括話務(wù)統(tǒng)計(jì)、不同鏈路上的接收分組信號強(qiáng)度、每條鏈路上的重傳計(jì)數(shù)等等。
管理器節(jié)點(diǎn)102(N)包括管理器模塊116(N),該模塊可存儲在存儲器108(N)中并且可以在處理器106(N)上運(yùn)行以處理來自診斷網(wǎng)絡(luò)100故障的代理112(n)、112(N)的數(shù)據(jù)。管理器模塊116(N)例如包括一個(gè)仿真器118(N)(以下稱之為“仿真器”),它可在處理器106(N)上運(yùn)行并可存儲在存儲器108(N)中,以仿真網(wǎng)絡(luò)100。
管理器節(jié)點(diǎn)102(N)從各個(gè)代理112(n)、112(N)接收的數(shù)據(jù)可以導(dǎo)致網(wǎng)絡(luò)100的不一致觀察。這種不一致可以是拓?fù)浜铜h(huán)境改變的結(jié)果、測量誤差、節(jié)點(diǎn)行為不端等的結(jié)果。因此,管理器節(jié)點(diǎn)102(N)包括可在處理器106(N)上運(yùn)行以解決這種不一致的數(shù)據(jù)清零模塊120(N)(以下稱之為“清零模塊”)。然后提供從清零模塊120(N)輸出的清零數(shù)據(jù),以供根原因分析模塊122(N)(以下稱之為“分析模塊”)進(jìn)行處理,下面將參照附圖進(jìn)行進(jìn)一步討論。盡管管理器節(jié)點(diǎn)102(N)被圖示為包括代理模塊112(N)和管理器模塊116(N),但是在另一個(gè)實(shí)施例中,管理器節(jié)點(diǎn)102(N)是不包括代理模塊112(N)的專用管理器。此外如上所述,管理器模塊116(N)的功能可以由網(wǎng)絡(luò)100中的一個(gè)以上地節(jié)點(diǎn)提供。
圖2是詳細(xì)顯示圖1的分析模塊122(N)的典型實(shí)施例200的示意圖。一旦圖1的清零模塊120(N)已經(jīng)解決了數(shù)據(jù)的不一致,該清零數(shù)據(jù)就被饋送到分析模塊122(N),用于進(jìn)一步探察。
分析模塊122(N)利用聯(lián)機(jī)跟蹤驅(qū)動仿真,分析與仿真的網(wǎng)絡(luò)運(yùn)行所指示的預(yù)期網(wǎng)絡(luò)性能之差的根原因。在下面的討論中,預(yù)期網(wǎng)絡(luò)性能和仿真網(wǎng)絡(luò)性能被用來交換地指示由網(wǎng)絡(luò)仿真提供的網(wǎng)絡(luò)性能。分析模塊122(N)可以利用從跟蹤使用程序獲得的清零數(shù)據(jù)202,這種數(shù)據(jù)的實(shí)例在圖2中被圖示為鏈路接收強(qiáng)度(RSS)204、鏈路定位206和路由更新208,以便在給定的網(wǎng)絡(luò)配置和話務(wù)圖形下,驅(qū)動聯(lián)機(jī)仿真并建立預(yù)期性能。
分析模塊122(N)被圖示為包括通過仿真器118(N)的運(yùn)行提供的網(wǎng)絡(luò)仿真210。網(wǎng)絡(luò)仿真210可以通過一個(gè)或多個(gè)軟件模塊的運(yùn)行來提供,所述軟件模塊提供網(wǎng)絡(luò)特征的仿真,這些模塊在圖2中被顯示為干涉諸如模塊212、話務(wù)仿真模塊214以及拓?fù)涓淖兡K216。干涉諸如模塊212通過對網(wǎng)絡(luò)仿真210注入外部噪聲,執(zhí)行對外部噪聲源的仿真。話務(wù)仿真器模塊214可執(zhí)行確保網(wǎng)絡(luò)仿真210的話務(wù)逼近真實(shí)網(wǎng)絡(luò)的話務(wù)。拓?fù)涓淖兡K216可執(zhí)行對拓?fù)渥兓姆抡妫热缤ㄟ^條加和/或刪除網(wǎng)絡(luò)仿真210中的噪聲來仿真。
分析模塊122(N)通過將網(wǎng)絡(luò)仿真210所指示的預(yù)期性能與觀測性能進(jìn)行比較,檢測圖1的網(wǎng)絡(luò)100中的故障。當(dāng)觀測到不一致時(shí),分析模塊122(N)通過搜索一個(gè)或多個(gè)被存儲在故障目錄218中的故障,確定差異的根原因,從而導(dǎo)致仿真與觀測網(wǎng)絡(luò)性能之間的最佳匹配。
分析模塊122(N)例如可以接收來自圖1的一個(gè)或多個(gè)代理模塊112(n)的描述損耗率、吞吐量和噪聲220(在圖2中,被顯示為“損耗率、吞吐量和噪聲220”)的觀測數(shù)據(jù)220。網(wǎng)絡(luò)仿真210計(jì)算預(yù)期數(shù)據(jù)222,描述預(yù)期損耗率、預(yù)期吞吐量和預(yù)期噪聲(在圖2中被圖示為“預(yù)期損耗率、吞吐量和噪聲222”)的計(jì)算。觀測數(shù)據(jù)220經(jīng)過延遲224被傳遞到比較器226,使比較器226同時(shí)接收觀測數(shù)據(jù)和預(yù)期數(shù)據(jù)220、222。比較器226隨后確定觀測數(shù)據(jù)220是否草果預(yù)期數(shù)據(jù)222。如果是,則比較器226把用于通信的錯誤消息228輸出給網(wǎng)絡(luò)管理器,并且把錯誤傳送給故障目錄218,以確定錯誤的根原因。
在經(jīng)過從故障目錄218選擇一個(gè)或多個(gè)故障標(biāo)識錯誤的根原因之后,分析模塊122(N)可以仿真用于糾正故障的一個(gè)或多個(gè)可替代行為??商娲袨槭窃谠拕?wù)仿真器214和拓?fù)涓淖兡K216分別提供的當(dāng)前話務(wù)圖形和網(wǎng)絡(luò)拓?fù)錀l件下仿真的。根據(jù)仿真,分析模塊122(N)可以建議減輕故障并增強(qiáng)網(wǎng)絡(luò)的整個(gè)性能的一個(gè)或多個(gè)行動,其一個(gè)實(shí)例被圖示為圖2的鏈路節(jié)點(diǎn)故障230。例如,可以通告網(wǎng)絡(luò)管理員軟件或硬件是否被懷疑為故障,如果檢測到不良連接性,可以經(jīng)由傳輸功率調(diào)整改變拓?fù)?,路由器可以利用速率限制減輕擁塞,等等。
聯(lián)機(jī)診斷的網(wǎng)絡(luò)仿真210的使用提供了超過傳統(tǒng)的試探或推理診斷技術(shù)的多種效益。例如,網(wǎng)絡(luò)仿真210可以提供超過傳統(tǒng)試探或者推理技術(shù)的,對網(wǎng)路行為的增強(qiáng)理解。運(yùn)行的無線網(wǎng)絡(luò)例如是一個(gè)復(fù)雜系統(tǒng),具有復(fù)雜的部分,比如話務(wù)流、連網(wǎng)協(xié)議、信號處理算法、硬件、射頻(RF)傳播等等。此外,交互作用可以發(fā)生在網(wǎng)絡(luò)的所有部分之間。可以經(jīng)過從故障目錄218中選擇一個(gè)或多個(gè)故障,來有效診斷和解決故障之間的交互作用,所述故障目錄218產(chǎn)生對應(yīng)于“真實(shí)”網(wǎng)絡(luò)的實(shí)際行為的網(wǎng)絡(luò)仿真210。
此外,網(wǎng)絡(luò)行為可以由彼此的節(jié)點(diǎn)交互作用、以及位于節(jié)點(diǎn)附近的外部噪聲源支配。傳統(tǒng)的試探或者推理技術(shù)不會捕獲這種網(wǎng)絡(luò)的行為,并且不會充分地解決網(wǎng)絡(luò)的部分成份之間的交互作用。
作為一個(gè)實(shí)例,考慮一個(gè)圖3所示的7×3格柵拓?fù)渚W(wǎng)絡(luò)300。網(wǎng)絡(luò)300中示出了5個(gè)流,并且被標(biāo)注為F1302、F2304、F3306、F4308和F5310。在所示的實(shí)例中,每個(gè)流302-310具有相似的通信話務(wù)量。例如,每個(gè)流302-310從相應(yīng)應(yīng)用中充分接收相似的數(shù)據(jù)量。
此外,在該實(shí)例中,鄰近節(jié)點(diǎn)彼此可以“聽”,并且干擾范圍是通信范圍的兩倍。節(jié)點(diǎn)A312與節(jié)點(diǎn)O314之間的話務(wù)例如干擾節(jié)點(diǎn)C316與節(jié)點(diǎn)Q318之間的話務(wù)。同樣,節(jié)點(diǎn)G320與節(jié)點(diǎn)U32之間的話務(wù)干擾節(jié)點(diǎn)E324與節(jié)點(diǎn)S326之間的話務(wù)。然而,節(jié)點(diǎn)G320與節(jié)點(diǎn)U322之間的話務(wù)和節(jié)點(diǎn)A312與節(jié)點(diǎn)O314之間的話務(wù)不干涉節(jié)點(diǎn)D328與節(jié)點(diǎn)R330之間的話務(wù)。
下表描述了當(dāng)每個(gè)流以11Mbps速率發(fā)送恒定比特速率(CBR)話務(wù)的吞吐量302-310的一個(gè)實(shí)例。
如上表所示,流F3306接收高于流F2304和F4308的吞吐量。換言之,流F3306消耗比網(wǎng)絡(luò)300的其它流更高的帶寬部分。
傳統(tǒng)上,探索技術(shù)的應(yīng)用導(dǎo)致流F3306接收帶寬的不適當(dāng)較大共享的推斷。然而通過聯(lián)機(jī)跟蹤驅(qū)動仿真的使用,管理器節(jié)點(diǎn)102(N)可以推斷這是一種常規(guī)行為。例如,網(wǎng)絡(luò)仿真可以考慮鏈路質(zhì)量,因而確定流F1302和流F5310對接流F2304和流F4308。因此,流F3306設(shè)有附加帶寬,因?yàn)槿狈εcF2304和F4304相對的流F1302和F5310的干擾。這樣,仿真可以確定即使流可以具有相同的應(yīng)用等級發(fā)送速率,但是仍然期待觀測的吞吐量。然而,試探可以獲得節(jié)點(diǎn)D328和R330行為不端的錯誤推斷。
通過從給定當(dāng)前話務(wù)流和鏈路質(zhì)量的網(wǎng)絡(luò)得知“期望什么”,分析模塊122(N)利用網(wǎng)絡(luò)仿真來管理網(wǎng)絡(luò)。換言之,分析模塊122(N)可以根據(jù)網(wǎng)絡(luò)仿真提供的估算評論形成了什么常規(guī)行為。在上述實(shí)例中,即使F3306利用比網(wǎng)絡(luò)300中的流更寬的網(wǎng)絡(luò)300的帶寬共享,這也不能被管理模塊標(biāo)記為故障,因?yàn)槠诖撔袨?。?dāng)觀測行為偏離預(yù)期行為時(shí),管理器模塊可以調(diào)用利用圖2的故障目錄218確定偏離的根原因的故障搜索算法。
此外,盡管能夠把基于簽名或者基于規(guī)則的故障診斷方案應(yīng)用于特定類型的網(wǎng)絡(luò),并且處于特定環(huán)境和配置下,但是簡單簽名或者規(guī)則不能充分捕獲一般設(shè)置中的故障診斷的固有復(fù)雜性。相反,仿真器是非常用戶化的,并且可以借助適當(dāng)參數(shù)設(shè)置應(yīng)用于被配置用于不同環(huán)境的大類別網(wǎng)絡(luò)。建于這種仿真器頂層的故障診斷繼承該普遍性。
基于仿真方案的再一個(gè)優(yōu)點(diǎn)是執(zhí)行假設(shè)分析的能力。也就是,通過修改設(shè)置或者在仿真器中執(zhí)行某些動作,仿真器可以預(yù)測用于假設(shè)情況的性能。根據(jù)該數(shù)據(jù),管理器模塊可以指令代理模塊(例如,圖1的代理模塊112(n))采用適當(dāng)行動最佳化網(wǎng)絡(luò)的性能。如上所述,這樣的假設(shè)分析是有價(jià)值的,因?yàn)殡y于預(yù)知網(wǎng)絡(luò)中多個(gè)因素的交互作用造成的校正動作的結(jié)果。例如,可以增加發(fā)射器功率改善鏈路質(zhì)量,但是增加功率還會造成影響網(wǎng)絡(luò)中其它節(jié)點(diǎn)的附加干擾。
故障檢測和診斷下面說明基于仿真的診斷方案,該方案考慮了在逼近真實(shí)網(wǎng)絡(luò)的功能的仿真器(例如,網(wǎng)絡(luò)仿真210)內(nèi)部建立環(huán)境。然后將建立的環(huán)境(即,網(wǎng)絡(luò)仿真)可以被利用來確定真實(shí)網(wǎng)絡(luò)的預(yù)期行為,以及確定真實(shí)網(wǎng)絡(luò)運(yùn)行中的差異何時(shí)發(fā)生。為了發(fā)現(xiàn)這些差異的根原因,管理器模塊可執(zhí)行對故障空間的搜索,以確定哪些故障或者哪組故障可再現(xiàn)逼近真實(shí)網(wǎng)絡(luò)中觀測的網(wǎng)絡(luò)性能的網(wǎng)絡(luò)性能。仿真網(wǎng)絡(luò)可以再現(xiàn)各個(gè)網(wǎng)絡(luò)方面,比如真實(shí)網(wǎng)絡(luò)中觀測到的網(wǎng)絡(luò)拓?fù)?、路由行為、話?wù)圖形等。
利用作為構(gòu)建塊的聯(lián)機(jī)跟蹤驅(qū)動仿真,描述可執(zhí)行發(fā)現(xiàn)故障的根原因地診斷算法。診斷算法例如可以在給定的故障集下,首先估算網(wǎng)絡(luò)性能。然后,根據(jù)已估算性能與已觀測性能之差,診斷算法搜索故障空間,以再現(xiàn)任何已觀測的差異。在一個(gè)實(shí)施例中,診斷算法可以診斷相同類型(例如網(wǎng)絡(luò)拓?fù)?的多個(gè)故障,以及診斷多種類型故障(例如,噪聲和拓?fù)?的存在。
甚至當(dāng)用來驅(qū)動仿真的跟蹤數(shù)據(jù)包含差錯時(shí),也可以診斷故障。例如,圖1的代理模塊112(n)提供的數(shù)據(jù)可以包含各種原因?qū)е碌恼`差,比如測量誤差、假通信、節(jié)點(diǎn)102(n)的運(yùn)行中的軟件/硬件誤差,網(wǎng)絡(luò)通信誤差,等等。清零節(jié)點(diǎn)102(N)運(yùn)行清零模塊120(N),以從該跟蹤中減少或者消除誤差,使質(zhì)量跟蹤數(shù)據(jù)被利用來驅(qū)動基于仿真的故障診斷??梢栽趨⒄請D8-圖9的說明中發(fā)現(xiàn)清零模塊120(N)運(yùn)行的進(jìn)一步討論。
跟蹤驅(qū)動仿真圖4是顯示包括圖2的仿真器118(N)和網(wǎng)絡(luò)仿真210的系統(tǒng)400的一個(gè)典型實(shí)施例的示意圖,經(jīng)由真實(shí)網(wǎng)絡(luò)運(yùn)行獲得的跟蹤數(shù)據(jù)能夠使仿真器118(N)精確地代表真實(shí)網(wǎng)絡(luò)的網(wǎng)絡(luò)運(yùn)行,并檢查給定故障集對真實(shí)網(wǎng)絡(luò)的影響??梢詮膶Ψ抡嫫鞯妮斎胫惺占鞣N跟蹤數(shù)據(jù),下面描述了一些實(shí)例網(wǎng)絡(luò)拓?fù)?02網(wǎng)絡(luò)拓?fù)?02數(shù)據(jù)描述了網(wǎng)絡(luò)的拓?fù)?,比如?jié)點(diǎn)當(dāng)前是網(wǎng)絡(luò)的成員以及節(jié)點(diǎn)之間的相應(yīng)鏈路。網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)例如可以被配置成報(bào)告多個(gè)鄰居節(jié)點(diǎn)和在節(jié)點(diǎn)的一個(gè)或多個(gè)路由表中引用的多個(gè)節(jié)點(diǎn)的狀態(tài)。這樣,可以把網(wǎng)絡(luò)中的節(jié)點(diǎn)從屬關(guān)系傳送給圖1的管理器節(jié)點(diǎn)102(N)。在一個(gè)實(shí)施例中,僅僅報(bào)告鄰居或者路由中的變化。該數(shù)據(jù)可以用來驅(qū)動路由仿真,下面將參照圖4的路由仿真器更詳細(xì)說明該路由仿真。
話務(wù)統(tǒng)計(jì)404話務(wù)統(tǒng)計(jì)404數(shù)據(jù)可以被用來描述經(jīng)由網(wǎng)絡(luò)和傳送該數(shù)據(jù)的特定節(jié)點(diǎn)傳送的數(shù)據(jù)量。話務(wù)統(tǒng)計(jì)404可以被圖2的話務(wù)仿真器模塊214用作輸入,使網(wǎng)絡(luò)仿真210具有逼近該真實(shí)網(wǎng)絡(luò)的話務(wù)流。網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)可以維持一個(gè)或多個(gè)計(jì)數(shù)器,該計(jì)算器描述發(fā)送給其直接鄰居以及從該直接鄰居接收的話務(wù)量。該數(shù)據(jù)用來驅(qū)動由話務(wù)仿真模塊214提供的路由話務(wù)仿真,圖4還詳細(xì)說明了話務(wù)仿真模塊214。
物理媒介406物理媒介406數(shù)據(jù)可以描述對被用來實(shí)現(xiàn)網(wǎng)絡(luò)的物理媒介的網(wǎng)絡(luò)性能的作用。例如,在無線網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)可以報(bào)告其噪聲電平以及來自其鄰居節(jié)點(diǎn)的無線鏈路的信號強(qiáng)度。在一個(gè)實(shí)施例中,通過時(shí)間平均、標(biāo)準(zhǔn)偏離或者其它統(tǒng)計(jì)集合可以周期地捕獲信號強(qiáng)度的變化。
網(wǎng)絡(luò)運(yùn)行408網(wǎng)絡(luò)運(yùn)行408數(shù)據(jù)描述了真實(shí)網(wǎng)絡(luò)的網(wǎng)絡(luò)運(yùn)行408。如上所述,將觀測的網(wǎng)絡(luò)運(yùn)行與從網(wǎng)絡(luò)仿真輸出的估算網(wǎng)絡(luò)運(yùn)行進(jìn)行比較,以檢測網(wǎng)絡(luò)運(yùn)行差異。網(wǎng)絡(luò)運(yùn)行可以包括鏈路運(yùn)行和端對端運(yùn)行,通過各種度量,比如分組丟失速率、延遲和吞吐量,測量這兩個(gè)運(yùn)行。以下說明集中于鏈路級運(yùn)行。
數(shù)據(jù)收集可以包括兩個(gè)步驟(1)在本地節(jié)點(diǎn)收集原始性能數(shù)據(jù),和(2)把收集的數(shù)據(jù)分布到用于分析的收集點(diǎn)。多種工具可以被用于本地?cái)?shù)據(jù)收集,比如自然(native)路由協(xié)議和分組探測。
在一個(gè)實(shí)施例中,即使對管理器模塊的數(shù)據(jù)分配引入了網(wǎng)絡(luò)開銷,網(wǎng)絡(luò)開銷也是很小的,并且對網(wǎng)絡(luò)中的數(shù)據(jù)話務(wù)影響很小。此外,通過使用壓縮、數(shù)據(jù)編碼、多播、時(shí)標(biāo)和/或分布的時(shí)間范圍的自適應(yīng)變化等,可以減少網(wǎng)絡(luò)開銷。例如,在網(wǎng)絡(luò)的常規(guī)運(yùn)行期間收集合交換最小數(shù)據(jù)集。一旦一種需要出現(xiàn)附加數(shù)據(jù)(例如,當(dāng)收集的信息指示一個(gè)差異時(shí)),管理器模塊可以請求附加信息并增加用于需要增加監(jiān)測的節(jié)點(diǎn)的子集的數(shù)據(jù)收集的頻率。
仿真方法可以以各種類別分類由仿真器模仿的網(wǎng)絡(luò)特征,如話務(wù)負(fù)荷、路由、無線信號、故障等等。以下部分將這些典型類別之每個(gè)的仿真實(shí)例描述為用來使仿真器仿真相應(yīng)網(wǎng)絡(luò)特征的各個(gè)模塊。
話務(wù)負(fù)荷仿真器410仿真器生成的網(wǎng)絡(luò)仿真可以被配置成,使它提供逼近真實(shí)網(wǎng)絡(luò)的話務(wù)圖的一個(gè)話務(wù)圖。話務(wù)負(fù)荷仿真方案的一個(gè)實(shí)例包括端對端應(yīng)用需求的仿真。然而,N個(gè)節(jié)點(diǎn)網(wǎng)絡(luò)可以包括潛在的N2個(gè)需求。然而,端對端應(yīng)用需求也許很難獲得應(yīng)用需求的給定不均勻性以及不同傳輸協(xié)議(比如傳輸控制協(xié)議(TCP)、用戶數(shù)據(jù)報(bào)協(xié)議(UDP)、快速傳輸協(xié)議(RTP)等等)的使用。
在一個(gè)實(shí)施例中,話務(wù)負(fù)荷仿真器410模塊是圖2的話務(wù)方針模塊214的一部分,并且提供一個(gè)基于鏈路的話務(wù)仿真,該話務(wù)仿真用于可伸縮性并且避免獲得端對端應(yīng)用需求的需要?;阪溌返脑拕?wù)仿真在實(shí)施時(shí),可以調(diào)整每條鏈路的應(yīng)用級發(fā)送速率,以匹配真實(shí)網(wǎng)絡(luò)的觀測的鏈路級話務(wù)計(jì)數(shù)。這樣,較高層(例如,傳輸層,應(yīng)用層,等等)被抽取,以允許仿真集中到分組大小以及話務(wù)速率上。
當(dāng)不能直接控制鏈路上的發(fā)送速率時(shí),比如當(dāng)僅僅可以調(diào)整應(yīng)用級發(fā)送速率以及必需處理媒體訪問控制(MAC)協(xié)議時(shí),在仿真器中基于每條鏈路匹配發(fā)送速率也許是重要的。例如,當(dāng)鏈路的應(yīng)用發(fā)送速率被設(shè)置在1Mbps時(shí),實(shí)際發(fā)送速率(空中)可能因?yàn)镸AC層上的補(bǔ)償而變得較低,或者因?yàn)镸AC級重傳而變得較高。問題因干擾而更加復(fù)雜,從而帶來不同鏈路的發(fā)送速率之間的相依性。
通過確定每條鏈路上的發(fā)送速率,迭代搜索技術(shù)可以被用來解決這些問題??梢岳酶鞣N迭代搜索技術(shù),比如(i)倍增和倍減,以及(ii)附加增加和附加減小。如以下使用典型偽碼描述的過程所示,每條鏈路單獨(dú)嘗試減少仿真器中當(dāng)前發(fā)送速率與真實(shí)網(wǎng)絡(luò)中實(shí)際發(fā)送速率之差。
while(不收斂并且i<multiplicative)i=i+1If(option==multiplicative)對于每條鏈路(j)prevRatio=targetMacSent(j)/simMacSent(J);currRatio=(1-α)+α*prevRatio;simAppSent(J)=prevAppSent(j)*currRatio;else//附加對于每條鏈路(j)diff=targetMacSent(j)=prevMacSent(j)
currsimAppSent(j)=prevAppSent(j)+α*diff;利用作為輸入的simAppSent運(yùn)行仿真依據(jù)仿真結(jié)果確定用于所有鏈路的simMacSentconveyed=isConverge(simMacSent,targetMacSent)因而,上述偽碼圖示了使用倍增/倍減或者附加增加/附加減小的應(yīng)用級發(fā)送速率的搜索的實(shí)例。在上述典型過程中,引入了衰減振蕩的參數(shù)α,其中α≤1(例如,α=0.5)。該處理重復(fù),直至速率逼近目標(biāo)速率(表示為targetMacSent)或者達(dá)到迭代的最大數(shù)。
路由仿真器412路由選擇在網(wǎng)絡(luò)性能方面起到重要作用,特別是在多跳無線網(wǎng)絡(luò)中起到重要作用。一個(gè)路由方案包括仿真器內(nèi)部的用于真實(shí)網(wǎng)絡(luò)的路由協(xié)議的仿真。為了再現(xiàn)與真實(shí)網(wǎng)絡(luò)相同的路由行為,獲得建立路由得分組的詳細(xì)跟蹤。
分組采用的實(shí)際路由可以被作為對路由仿真器412模塊的輸入。當(dāng)路由不能頻繁波動時(shí),可以追蹤路由改變,以取代管理器上基于逐個(gè)分組的收集路由。為此目的,路由仿真器412模塊可以是跟蹤驅(qū)動。例如,可以在仿真器118(N)(比如QUALNET仿真器(QUALNET是位于洛杉磯CA的Scalable網(wǎng)絡(luò)技術(shù)有限公司的商標(biāo)))內(nèi)部實(shí)施路由仿真模塊。路由仿真412模塊接收作為輸入的路由更新和相應(yīng)的時(shí)間標(biāo)記,然后確保網(wǎng)絡(luò)仿真中的分組跟蹤與真實(shí)網(wǎng)絡(luò)中相同的路由。
信號強(qiáng)度仿真器414信號強(qiáng)度影響有線和無線網(wǎng)絡(luò)性能。由于不同網(wǎng)絡(luò)連接裝置(例如,無線卡)和環(huán)境地變化,普通傳播模型也許很難得到捕獲所有這些因素的結(jié)論。為了解決該問題,可以依據(jù)真實(shí)網(wǎng)絡(luò)中信號強(qiáng)度的真實(shí)測量(比如,從網(wǎng)絡(luò)連接裝置本身獲得)驅(qū)動信號強(qiáng)度仿真器414。
故障注入416構(gòu)架可以包括故障注入416模塊,該模塊可把不同類型的故障,比如主機(jī)上的分組丟棄、外部噪聲源、MAC行為不端等等注入到仿真器中。這樣,分析模塊可以檢查故障對網(wǎng)絡(luò)的影響。主機(jī)的分組丟棄例如發(fā)生于行為不端節(jié)點(diǎn)丟棄一部分來自一個(gè)或多個(gè)鄰居節(jié)點(diǎn)的話務(wù)時(shí),這種丟棄例如是硬件/軟件差錯、緩存器溢出、惡意丟棄等造成的。檢測這種終端主機(jī)丟棄的能力是有用的,因?yàn)樗试S管理器將終端主機(jī)造成的損耗與網(wǎng)絡(luò)造成的損耗區(qū)別開來。
通過故障注入416模塊的運(yùn)行,構(gòu)架還支持網(wǎng)絡(luò)中的注入外部噪聲源的能力。因而,構(gòu)架可以提供復(fù)制噪聲源效果的仿真,該噪聲源位于網(wǎng)絡(luò)之外(即,不是節(jié)點(diǎn)提供的)但仍然影響網(wǎng)絡(luò)。
MAC行為不端發(fā)生于故障節(jié)點(diǎn)不遵從MAC規(guī)則(規(guī)矩)并獲得信道帶寬的不公正共享的時(shí)候。例如,在IEEE802.11中,故障節(jié)點(diǎn)可以選擇更小的爭用窗口(CW),攻擊性地發(fā)送話務(wù)。
構(gòu)架還可以通過把高數(shù)據(jù)發(fā)射負(fù)荷應(yīng)用于仿真網(wǎng)絡(luò)上,來仿真鏈路爭用。與其它類型的故障不同,鏈路擁塞通過從每個(gè)節(jié)點(diǎn)收集的話務(wù)統(tǒng)計(jì)來隱性地捕獲。因此,增機(jī)驅(qū)動仿真可以訪問真實(shí)網(wǎng)絡(luò)上的鏈路擁塞的影響。從以下部分可以發(fā)現(xiàn)故障診斷的進(jìn)一步討論。
故障診斷通過圖2的分析模塊122(N)的運(yùn)行可以診斷故障的根原因和性能問題。通過把故障應(yīng)用于網(wǎng)絡(luò)仿真,網(wǎng)絡(luò)差異的診斷可以被歸納為故障集的搜索,其中當(dāng)故障注入到仿真網(wǎng)絡(luò)時(shí),產(chǎn)生逼近真實(shí)網(wǎng)絡(luò)的觀測性能的被仿真網(wǎng)絡(luò)地估算性能。更正式地,給定網(wǎng)絡(luò)設(shè)置NS、FaultSet被認(rèn)為使SimPerf(NS;FaultSet)≈RealPerf,其中,網(wǎng)絡(luò)性能是可以使用各種不同度量量化的功能值。故障的搜索空間可以包含多個(gè)搜索維數(shù),這歸因于可能遇到的故障的不同組合。在一個(gè)實(shí)施例中,由于不同類型故障經(jīng)常改變一些特定網(wǎng)絡(luò)性能度量的現(xiàn)時(shí),因此為了有效搜索而優(yōu)化分析模塊122(N)。例如,主機(jī)的分組丟棄通常影響鏈路損失率,但是不影響其它網(wǎng)絡(luò)性能度量。因此,網(wǎng)絡(luò)性能度量可以用來,通過注釋由度量指示的觀測與估算網(wǎng)絡(luò)性能之間的差異,來診斷網(wǎng)絡(luò)性能。
在一個(gè)實(shí)施例中,不需要提供用于故障診斷目的地預(yù)測模塊。此外,只需要仿真事后網(wǎng)絡(luò)發(fā)生了什么事情。例如,代理模塊可以周期地向管理器模塊報(bào)告關(guān)于鏈路條件和話務(wù)圖的信息。該信息被處理,然后饋入仿真器,以建立可以用來確定故障的可能的根原因。
初始診斷圖5是描述一個(gè)典型實(shí)施例中的過程500的流程圖,其中最初診斷彼此具有相同類型的故障。為了便于描述,以下討論包含三種故障的典型類型(1)主機(jī)中的分組丟棄;(2)外部噪聲;(3)MAC行為不端。然而,應(yīng)當(dāng)明白,也可以處理各種各樣的其它故障和故障組合。以下討論包括利用所述系統(tǒng)和裝置可以實(shí)現(xiàn)的過程。每個(gè)過程的諸多方面可以在硬件、固件或者軟件或者其組合中實(shí)現(xiàn)。過程被顯示為一組方框,該方框指定由一個(gè)或多個(gè)裝置執(zhí)行的操作,但是不一定限制到由相應(yīng)方框執(zhí)行操作所顯示的順序。
如上所述,當(dāng)跟蹤驅(qū)動仿真以真實(shí)網(wǎng)絡(luò)的當(dāng)前網(wǎng)絡(luò)設(shè)置維持時(shí),該仿真可以被用來建立網(wǎng)絡(luò)的估算網(wǎng)絡(luò)性能。根據(jù)估算網(wǎng)絡(luò)性能與觀測網(wǎng)絡(luò)性能之差,可以使用診斷樹確定故障類型,其一個(gè)實(shí)施例被顯示在圖6中。
由于各種因素,估算網(wǎng)絡(luò)性能很可能與被觀測的網(wǎng)絡(luò)性能相同,即便沒有故障。因此,可以使用閾值確定網(wǎng)絡(luò)性能的差異。例如,可以根據(jù)已估算與被觀測(即,真實(shí)的)網(wǎng)絡(luò)性能之差是否超過相應(yīng)閾值來確定差異??梢砸愿鞣N方式計(jì)算閾值,如通過觀測仿真的和實(shí)際網(wǎng)絡(luò)性能之間的歷史差異來計(jì)算。
故障分類方案(圖6所示的一個(gè)實(shí)例)被配置成通過,注釋不同故障展示不同相應(yīng)行為,確定造成差異的故障類型。盡管每個(gè)故障展示的行為也許仍然重疊(例如,噪聲源和主機(jī)中的分組丟棄增加損失率,降低爭用窗口增加話務(wù)量,以及因此增加干擾噪聲等等),但是通過檢查不同的相應(yīng)行為,可以首先分類故障。例如,外部噪聲源增加鄰居節(jié)點(diǎn)經(jīng)歷的噪聲電平,但是不增加任何節(jié)點(diǎn)的發(fā)送速率。因此,可以從MAC不端行為何主機(jī)的分組丟失區(qū)別外部噪聲源。
再次參見圖5,以下討論具有突出文字的置于括號內(nèi)的說明,該突出文字描述典型偽碼(被包含在有關(guān)附圖的討論中)中利用的可替代符號。在方框502上,分析模塊從多個(gè)故障中選擇一個(gè)或多個(gè)故障,比如從圖2的故障目錄218中選擇一個(gè)或多個(gè)故障。在過程500的第一重復(fù)(迭代)上,沒有選擇到在正常操作條件下驅(qū)動網(wǎng)絡(luò)的預(yù)期性能的多個(gè)故障的任何一個(gè),即沒有故障。在另一個(gè)實(shí)施例中,圖5的過程500被用來執(zhí)行初始診斷并且不重復(fù),即它是“一次完成”過程。在這樣的實(shí)施例中,方框502可以從過程500中移除,并且作為空集{}提供故障集。
在方框504上,故障集(FS)和網(wǎng)絡(luò)設(shè)置(NS)作為輸入被提供給網(wǎng)絡(luò)仿真??梢怨?yīng)各種網(wǎng)絡(luò)設(shè)置,比如信號強(qiáng)度、話務(wù)統(tǒng)計(jì)、路由表等等。
在方框506上,通過用所提供的輸入執(zhí)行網(wǎng)絡(luò)仿真,來預(yù)測預(yù)期性能(SimPerf)。在判決方框506,確定預(yù)期性能(SimPerf)與真實(shí)性能(RealPerf)之差(Diff)是否大于閾值。如果該差異大于閾值(方框506),則確定故障類型(FT)(方框510)。故障類型確定的進(jìn)一步討論可以在參照圖6的說明中找到。
在確定故障類型之后,通過找到具有超過特定故障類型的閾值的觀測與預(yù)期網(wǎng)絡(luò)性能之差(方框514)的一組節(jié)點(diǎn)和鏈路,查找故障(方框512)。故障類型確定使用什么網(wǎng)絡(luò)性能度量來量化性能差異。例如,通過找到具有預(yù)期與觀測損失率之間的明顯差異,可以辨識分組丟棄。
在方框516上,確定故障的量級。一個(gè)功能(表示為“g()”)例如可以用來把故障的影響映射到對應(yīng)的量級。例如,在終端主機(jī)丟棄情況下,g()功能是一個(gè)身份功能,因?yàn)殒溌窊p失率的差異可以被直接映射到鏈路上分組丟棄率(故障量級)的變化。在外部噪聲故障情況下,g()功能是噪聲信號的傳播功能??梢詾槊總€(gè)鏈路或節(jié)點(diǎn)重復(fù)方框510-516。然后,把具有對應(yīng)量級的故障添加到故障集上(方框516)。
下文描述了為實(shí)施類似于圖5的過程500的過程執(zhí)行的典型偽碼,該過程被顯示為讓NS代表網(wǎng)絡(luò)設(shè)置(即,信號強(qiáng)度,話務(wù)統(tǒng)計(jì),路由表)讓RealPerf代表真實(shí)網(wǎng)絡(luò)性能FaultSet={}通過用輸入(NS;FaultSet)運(yùn)行仿真,預(yù)測SimPerfif|Diff(SimPerf,RealPerf)|>閾值使用用于每個(gè)鏈路或者節(jié)點(diǎn)i的決策樹,確定故障類型if(|Diffft(SimPerf(i),RealPerf(i))|>閾值)添加具有量(i)=g(Diffft(SimPerf(i),RealPerf(i)))的故障(ft,i)偽碼描述了可以用來檢測故障是否已經(jīng)發(fā)生的診斷算法。以下過程是可以用來確定已檢測故障類型的算法的一個(gè)實(shí)例。
圖6是描述一個(gè)典型實(shí)施例中的過程600的流程圖,其中決策樹被用來確定故障類型。圖6中所示的過程600可以或不可以對應(yīng)于圖5的方框510。在判決方框602,確定分組發(fā)送的仿真量(SimSent)加分組發(fā)送的真實(shí)量(RealSent)的絕對值是否大于閾值,表示為ThreshSentDiff。如果是,則發(fā)送指示爭用窗口(CW)被設(shè)置得太低的故障(方框604)。
如果未超過方框602的閾值,則在判決方框606上,確定是否存在真實(shí)網(wǎng)絡(luò)與的真實(shí)噪聲(RealNoise)與仿真網(wǎng)絡(luò)的預(yù)期噪聲(SimNoise)之間的差異(即,已經(jīng)超過閾值噪聲差異ThreshNoiseDiff)。如果是,則確定噪聲故障(方框608)。
如果未超過噪聲閾值(方框606),則在判決框610上,確定仿真分組損失(SimLoss),即預(yù)期分組損失,是否因?yàn)榇笥陂撝祿p失差異(ThreshLossDiff)而不同于真實(shí)分組損失(RealLoss)。如果是,則已經(jīng)經(jīng)歷分組丟棄故障(方框612)。否則,節(jié)點(diǎn)則正常操作(方框614)。應(yīng)當(dāng)明白,還可以以類似方式確定各種各樣的其它故障類型。
圖7是描述一個(gè)典型實(shí)施例中過程700的流程圖,其中使用迭代診斷算法診斷彼此具有不同類型的故障。通常,在網(wǎng)絡(luò)中可以經(jīng)歷多種類型的對接故障。即使故障是相同類型的故障,也仍然可以經(jīng)歷交互作用,因此不足以一次完成診斷算法。因此,圖7所示的迭代診斷算法可以被實(shí)施,以找到根原因。算法包括兩階段(i)類似于圖5的過程500的初始診斷級,以及(ii)迭代細(xì)化。
在初始診斷期間,一次完成診斷算法適用于導(dǎo)出初始故障集。在第二階段期間,通過(i)調(diào)整已經(jīng)插入到故障集的故障的量級,(ii)如果需要把新的故障添加到故障集上,來迭代地細(xì)化故障集。可以重復(fù)進(jìn)行過程700,直至故障集的改變可以忽略,比如當(dāng)故障類型和位置不改變時(shí),故障量級改變到最小量,等等。
迭代方案還可以用來搜索故障的量級。在一個(gè)高層上,該方案類似于參照圖5所述的基于鏈路的仿真,其中目標(biāo)與當(dāng)前值之差被用作逐步向目標(biāo)移動的反饋。
在方框702上,例如,在現(xiàn)有的用于每個(gè)迭代的故障下,估算預(yù)期網(wǎng)絡(luò)性能。例如,可以經(jīng)過使用從真實(shí)網(wǎng)絡(luò)獲得的網(wǎng)絡(luò)設(shè)置的網(wǎng)絡(luò)仿真來估算預(yù)期網(wǎng)絡(luò)性能。經(jīng)由每個(gè)節(jié)點(diǎn)上代理模塊的運(yùn)行,提供網(wǎng)絡(luò)設(shè)置。每個(gè)節(jié)點(diǎn)提供的網(wǎng)絡(luò)設(shè)置可以描述節(jié)點(diǎn)的本地網(wǎng)絡(luò)性能以及鄰居節(jié)點(diǎn)的網(wǎng)絡(luò)性能。
在方框704上,計(jì)算估算網(wǎng)絡(luò)性能(在現(xiàn)有故障集之下)與真實(shí)性能之差。例如,可以通過管理器節(jié)點(diǎn)運(yùn)行管理器模塊,計(jì)算該差異。當(dāng)管理器模塊運(yùn)行時(shí),該模塊將從仿真網(wǎng)絡(luò)獲得的估算(即,預(yù)期的)網(wǎng)絡(luò)性能與真實(shí)(即,觀測的)網(wǎng)絡(luò)性能進(jìn)行比較,所述真實(shí)網(wǎng)絡(luò)性能由從多個(gè)代理獲得的附加網(wǎng)絡(luò)設(shè)置指示。
圖7的過程700首先采用類似于圖5所示的過程500的方式進(jìn)行初始故障診斷。例如,在判決方框706上,確定比較的差異是否大于相應(yīng)的閾值。如果否,則報(bào)告故障集(方框708)。在該情況下,由于計(jì)算的差值不大于閾值,因此這向分析模塊指示網(wǎng)絡(luò)正在正常運(yùn)行。然而,如果所計(jì)算的差異大于相應(yīng)的閾值(方框706),則確定故障類型(方框710)??梢圆捎酶鞣N方式確定故障類型,圖6描述了其中的一個(gè)實(shí)例。
在方框712,差異被變換成故障量級中的變化,并且根據(jù)所比較的變化調(diào)整故障量級(方框714)。例如,參照圖5所述的功能g()可以被用來根據(jù)預(yù)期與真實(shí)網(wǎng)絡(luò)性能之差,計(jì)算每個(gè)故障地故障量級。這樣,可以逐一比較故障,以確定故障具有對對應(yīng)于所觀測的差異的網(wǎng)絡(luò)性能的影響。在一個(gè)實(shí)施例中,最大故障量級首先被用來解釋差異,從而標(biāo)識造成差異的特定故障。在另一個(gè)實(shí)施例中,比較故障量級,以查找導(dǎo)致逼近所計(jì)算差異的的一個(gè)差異的故障。例如,多個(gè)故障之每個(gè)可以有預(yù)期與真實(shí)網(wǎng)絡(luò)性能之間的相應(yīng)差異。通過將相應(yīng)差異與網(wǎng)絡(luò)性能中計(jì)算差異相匹配,可以選擇一個(gè)或多個(gè)故障。在方框716上,刪除具有低于相應(yīng)閾值得量級的故障。
在判決方框718上,確定使用當(dāng)前故障集的網(wǎng)絡(luò)的預(yù)期性能是否正在收斂于真實(shí)網(wǎng)絡(luò)性能。例如,分析模塊可以存儲描述故障集的一個(gè)或多個(gè)在前迭代的試探數(shù)據(jù)以及網(wǎng)絡(luò)仿真中的合成性能值。目標(biāo)值(即,真實(shí)網(wǎng)絡(luò)性能值)與當(dāng)前值(即,仿真網(wǎng)絡(luò)性能值)之差被分子模塊用作逐步“運(yùn)行”網(wǎng)絡(luò)仿真以逼近真實(shí)網(wǎng)絡(luò)的反饋。
如果預(yù)期性能未收斂真實(shí)網(wǎng)絡(luò)性能(方框718),則把新的故障候選者添加到故障集上。除了搜索故障的正確量級外,例如可以通過選擇可以最佳解釋預(yù)期與真實(shí)網(wǎng)絡(luò)性能之差的新故障候選者,來迭代地細(xì)化故障集中的從屬關(guān)系(方框720)。這些新故障被添加到故障集上(方框722)。隨后將包括故障候選者的故障集用作對網(wǎng)絡(luò)仿真的輸入,以在現(xiàn)有故障集之下估算預(yù)期網(wǎng)絡(luò)性能(方框702)。在一個(gè)實(shí)施中,在可以解釋最大差異的過程700的每個(gè)迭代期間,添加故障,由此控制錯誤坑定。隨后可以重復(fù)過程700,直至仿真網(wǎng)絡(luò)的預(yù)期性能逼近真實(shí)網(wǎng)絡(luò)的真實(shí)性能。這樣,可以經(jīng)由故障的內(nèi)含物運(yùn)行仿真網(wǎng)絡(luò),使它提供產(chǎn)生真實(shí)網(wǎng)絡(luò)中已觀測的網(wǎng)絡(luò)性能的故障的精確描述。
下面說明可以運(yùn)行以提供圖7的過程700的典型偽碼。
1)讓NS代表網(wǎng)絡(luò)設(shè)置(即,信號強(qiáng)度,話務(wù)統(tǒng)計(jì)和路由表)讓RealPerf代表真實(shí)網(wǎng)絡(luò)性能2)FaultSet={}3)通過用輸入(NS;FaultSet)運(yùn)行仿真,預(yù)測SimPerf4)if|Diff(SimPerf,RealPerf)|>閾值轉(zhuǎn)到(5)else轉(zhuǎn)到(7)5)初始診斷通過應(yīng)用圖5的算法,初始化FaultSet6)while(未收斂)a)調(diào)整故障量對FaultSet中的每一故障類型ft(以圖6中決策樹的順序)對(FaultSet,ft)中的每個(gè)故障i量(i)-=g(Diffft(SimPerf(i),RealPerf(i)))if(|量(i)|<閾值)刪除故障(ft,i)b)需要時(shí),添加新的候選故障對每個(gè)故障類型ft(圖6的決策樹的順序)i)發(fā)現(xiàn)故障i,使得它不位于FaultSet中并且具有最大|Diffft(SimPerf(i));RealPerf(i))|ii)if|Diffft(SimPerf(i),RealPerf(i))|>閾值把(ft,i)添加到具有量(i)=g(Diffft(SimPerf(i))的FaultSetc)仿真7)報(bào)告FaultSet因而,上述偽碼描述了被配置成診斷多類型的診斷故障的典型診斷算法。
消除跟蹤數(shù)據(jù)中的差錯在在前部分中,描述了故障診斷,其中根總數(shù)據(jù)被用來驅(qū)動聯(lián)機(jī)仿真。實(shí)際上,由代理模塊收集的原始跟蹤數(shù)據(jù)在相應(yīng)節(jié)點(diǎn)運(yùn)行時(shí),該原始跟蹤數(shù)據(jù)可以包含上述的各種原因的錯誤,比如由于硬件、軟件和/或網(wǎng)絡(luò)差錯造成的錯誤。因此,可以運(yùn)行圖1的清零模塊120(N),清零從多個(gè)代理接收的“原始”跟蹤數(shù)據(jù),以向用于故障診斷地仿真器118(N)提供作為輸入的已清零跟蹤數(shù)據(jù)。
圖8是一個(gè)實(shí)施例中的網(wǎng)絡(luò)800的示意圖,其中圖1的多個(gè)節(jié)點(diǎn)102(1)-102(N)包括可運(yùn)行執(zhí)行鄰居監(jiān)測的代理模塊。在網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)上運(yùn)行的代理模塊執(zhí)行鄰居監(jiān)測,這是一種多個(gè)節(jié)點(diǎn)102(1)-102(N)報(bào)告不僅用于它自己的輸入/輸出鏈路,而且還用于通信范圍之內(nèi)的其它鏈路的性能和話務(wù)統(tǒng)計(jì)的技術(shù)。樂意以各種方式執(zhí)行鄰居監(jiān)測。例如,第一節(jié)點(diǎn)的代理模塊可以檢查網(wǎng)絡(luò)中的第二節(jié)點(diǎn),以從第二節(jié)點(diǎn)獲得網(wǎng)絡(luò)性能。在另一實(shí)例中,第一節(jié)點(diǎn)從第二節(jié)點(diǎn)接收通信如廣播,包括網(wǎng)絡(luò)性能數(shù)據(jù)。在另一個(gè)實(shí)例中,第一節(jié)點(diǎn)監(jiān)測由經(jīng)由網(wǎng)絡(luò)通信的第二節(jié)點(diǎn)發(fā)送的數(shù)據(jù),以監(jiān)測網(wǎng)絡(luò)性能。第一節(jié)點(diǎn)例如可以運(yùn)行于“混雜”模式,該模式允許節(jié)點(diǎn)的網(wǎng)絡(luò)連接裝置全面截聽和讀出到達(dá)該特定節(jié)點(diǎn)的每個(gè)數(shù)據(jù)分組。
由于鄰居監(jiān)測,來自不同源(即,節(jié)點(diǎn))的多個(gè)報(bào)告很可能被提交給每條鏈路。節(jié)點(diǎn)102(3)例如可以從節(jié)點(diǎn)102(2)獲得描述節(jié)點(diǎn)102(2)的網(wǎng)絡(luò)性能以及節(jié)點(diǎn)102(1)、102(n)的網(wǎng)絡(luò)性能的報(bào)告802(2)。用于圖8中報(bào)告的參考標(biāo)號的括號被選擇來顯示具有其相應(yīng)節(jié)點(diǎn)的報(bào)告的通信,例如節(jié)點(diǎn)102(2)與報(bào)告802(2)。
節(jié)點(diǎn)102(3)包括來自報(bào)告802(3)中的報(bào)告802(2)(在圖8中被顯示在陰影中)的網(wǎng)絡(luò)性能數(shù)據(jù),報(bào)告802(3)是為了向管理器節(jié)點(diǎn)102(N)通信而形成的。報(bào)告802(3)還可以包括節(jié)點(diǎn)102(3)通過監(jiān)測節(jié)點(diǎn)102(2)、102(1)獲得的網(wǎng)絡(luò)性能。在一個(gè)實(shí)施例中,報(bào)告802(3)通過代理模塊的運(yùn)行來優(yōu)化,以刪除冗余信息。例如,代理模塊102(3)可以刪除相應(yīng)報(bào)告802(2)、802(3)中相一致的并被節(jié)點(diǎn)102(2)、102(3)重復(fù)的信息。同樣,節(jié)點(diǎn)102(n)可以運(yùn)行收集模塊114(n),以從節(jié)點(diǎn)102(2)、102(3)獲得網(wǎng)絡(luò)性能。網(wǎng)絡(luò)性能數(shù)據(jù)被配置成報(bào)告802(n),用于向管理器節(jié)點(diǎn)1102(N)通信。
冗余報(bào)告可以被管理器節(jié)點(diǎn)102(N)用來檢測一個(gè)或多個(gè)網(wǎng)絡(luò)性能的不一致。例如,管理器節(jié)點(diǎn)102(N)通過運(yùn)行清零模塊120(N)對報(bào)告802(2)、803(3)進(jìn)行相互比較,以發(fā)現(xiàn)這里所述的網(wǎng)絡(luò)性能的不一致??梢砸愿鞣N方式發(fā)現(xiàn)不一致,下圖描述了其中的一個(gè)實(shí)例。
圖9是描述一個(gè)典型實(shí)施例中的過程900的流程圖,其中比較描述鄰居節(jié)點(diǎn)的諸多報(bào)告,以查找網(wǎng)絡(luò)中行為不端的節(jié)點(diǎn)。在該實(shí)施例中,過程900把行為不端節(jié)點(diǎn)標(biāo)識為可以解釋報(bào)告差異的最小節(jié)點(diǎn)集。
在參照圖9所述的過程900中,第二節(jié)點(diǎn)i把多個(gè)分組發(fā)送和為直接鏈路而接收的多個(gè)MAC級確認(rèn)報(bào)告為(senti(1),acki(1))。接收節(jié)點(diǎn)j把鏈路上接收的多個(gè)分組報(bào)告為recvj(1)。此外,發(fā)送或接收節(jié)點(diǎn)的直接鄰居k還把臉路上發(fā)送或接收的分組數(shù)量以及MAC級確認(rèn)報(bào)告為(sentk(1),recvk(1),ackk(1))。報(bào)告中的不一致被定義為以下情況之一。
在判決方框902上,確定目的地報(bào)告的鏈路接收的分組數(shù)量是否明顯大于(由閾值描述)它的源報(bào)告的同一鏈路上發(fā)送的分組數(shù)量。也就是,對于從節(jié)點(diǎn)i到節(jié)點(diǎn)j的鏈路1,并且給定閾值t,進(jìn)行以下確定recvj(1)-senti(1)>t閾值t被利用,因?yàn)橥ǔ2煌较鄳?yīng)節(jié)點(diǎn)的報(bào)告通信。如果所接收的報(bào)告的數(shù)量明顯大于發(fā)送的分組的數(shù)量,則記錄報(bào)告的不一致,這將在方框912中進(jìn)行更詳細(xì)說明。如果相應(yīng)節(jié)點(diǎn)接收和發(fā)送的分組的數(shù)量對應(yīng),則過程900前進(jìn)到方框904。
在判決方框904上,確定它的源報(bào)告的鏈路上發(fā)送的多個(gè)MAC級確認(rèn)是否對應(yīng)由它的目的地報(bào)告的該鏈路上接收的多個(gè)分組。換言之,對于從節(jié)點(diǎn)i到節(jié)點(diǎn)j的鏈路,并且給定屬于t,進(jìn)行以下確定|acki(1)-recvj(1)|>t因此,如果確認(rèn)的數(shù)量不對應(yīng)(即,逼近)接收的分組的數(shù)量(方框904),則記錄報(bào)告中的不一致。如果所接收的確認(rèn)和報(bào)告的數(shù)量對應(yīng)(方框904),則過程900前進(jìn)到方框906。
在判決方框906,確定由它的目的地的鄰居報(bào)告的鏈路上接收的分組數(shù)量是否明顯大于由它的源報(bào)告的相同鏈路上發(fā)送的分組數(shù)量。也就是,對于從節(jié)點(diǎn)i到節(jié)點(diǎn)j的鏈路1,其中節(jié)點(diǎn)j的鄰居是節(jié)點(diǎn)k,并且給定閾值t,則進(jìn)行以下確定recvk(1)-senti(1)>t
因此,如果所接收的分組數(shù)量對應(yīng)(即,逼近)發(fā)送的分組數(shù)量(方框906),則記錄報(bào)告中的不一致。否則,過程900前進(jìn)到方框908。
在判決方框908,確定源的鄰居報(bào)告的鏈路上發(fā)送的分組數(shù)量是否明顯大于源報(bào)告的相同鏈路上發(fā)送的分組數(shù)量。換言之,對于從節(jié)點(diǎn)i到節(jié)點(diǎn)j的鏈路1,i的鄰居k以及給定閾值t,確定下式sentk(1)-senti(1)>t如上式所示,如果發(fā)送的分組數(shù)量逼近分別由源和鄰居節(jié)點(diǎn)指示的發(fā)送的分組數(shù)量(方框908),則記錄報(bào)告中的不一致。否則,報(bào)告是一致的(方框910)。
在判決方框912,確定節(jié)點(diǎn)的不一致對是否已經(jīng)被包含在不一致圖形中。如果否,則節(jié)點(diǎn)被添加到不一致圖形上(方框914)。如果節(jié)點(diǎn)的不一致對已經(jīng)被在不一致圖形中(方框912)或者已經(jīng)被添加到不一致圖形上(方框914),則在不一致圖形中的節(jié)點(diǎn)之間增加一個(gè)邊緣(方框916)。
在每個(gè)不一致對已經(jīng)被標(biāo)識之后,在方框918在可以解釋已觀測的不一致的不一致圖形中找到最小節(jié)點(diǎn)集(即,最小數(shù)量)。例如,可以假定網(wǎng)絡(luò)中的大多數(shù)節(jié)點(diǎn)發(fā)送可靠的報(bào)告。因此,可以解釋已觀測的不一行的最小節(jié)點(diǎn)集被發(fā)現(xiàn)。這可以例如通過發(fā)現(xiàn)覆蓋不一致圖形的最小最小頂點(diǎn)集來實(shí)現(xiàn),其中被標(biāo)識的頂點(diǎn)代表行為不端的節(jié)點(diǎn)。
通過利用最小頂點(diǎn)覆蓋問題(cover problem)(被認(rèn)為是NP難題),可以發(fā)現(xiàn)最小頂點(diǎn)集。應(yīng)用貪戀算法,從當(dāng)前不一致圖形中迭代地挑選并移除具有最多邊緣和事變(incident)邊緣的節(jié)點(diǎn),直至不剩余邊緣。
報(bào)告的歷史可以用來進(jìn)一步改善不一致監(jiān)測的精度。例如,在方框920,可以增加新報(bào)告,以更新不一致圖形,但不刪除在前信息。然后使用過程900的方框912-918,處理新報(bào)告中的節(jié)點(diǎn)的不一致對。例如,方框918的相同貪戀算法可以被再應(yīng)用于標(biāo)識行為不端節(jié)點(diǎn)。
假設(shè)分析在上述部分中,可以有選擇地把故障注入到網(wǎng)絡(luò)仿真中,以標(biāo)識故障(如果有的話)可以造成預(yù)期與觀測網(wǎng)絡(luò)性能之差。網(wǎng)絡(luò)仿真還可以用來執(zhí)行假設(shè)分析,以改善網(wǎng)絡(luò)運(yùn)行。假設(shè)分析允許管理器模塊在運(yùn)行時(shí),確定不同的可能網(wǎng)絡(luò)以及節(jié)點(diǎn)配置對網(wǎng)絡(luò)性能的影響。假設(shè)分析的結(jié)果是允許管理器模塊有效操作網(wǎng)絡(luò)的動作集,比如通過使網(wǎng)絡(luò)中的已選節(jié)點(diǎn)上的代理模塊配置相應(yīng)的節(jié)點(diǎn)來有效操作網(wǎng)絡(luò)。
例如,通過使用上述的聯(lián)機(jī)跟蹤驅(qū)動仿真,可以執(zhí)行假設(shè)分析。在可以收集以驅(qū)動仿真器(例如,圖2的仿真器118(N))的以下討論中,標(biāo)識典型跟蹤。例如,仿真器可以用來提供真實(shí)網(wǎng)絡(luò)的網(wǎng)絡(luò)仿真。網(wǎng)絡(luò)仿真可以被配置成測試不同節(jié)點(diǎn)和網(wǎng)絡(luò)配置,并確定配置產(chǎn)生用于現(xiàn)有話務(wù)條件的最佳整體網(wǎng)絡(luò)性能。管理器模塊然后可以根據(jù)配置確定網(wǎng)絡(luò)中的特定節(jié)點(diǎn)實(shí)施的動作集。
利用假設(shè)分析的傳統(tǒng)技術(shù)用來簡化網(wǎng)絡(luò)模型,和通過分析導(dǎo)出預(yù)期性能。然而,聯(lián)機(jī)跟蹤仿真具有優(yōu)于推理分析的優(yōu)點(diǎn),其中仿真器的使用提供對網(wǎng)絡(luò)行為的改進(jìn)洞察力,它高于試探或者推理技術(shù)本身可能的洞察力。例如,一個(gè)運(yùn)行的無線網(wǎng)絡(luò)是一個(gè)具有許多復(fù)雜部分的復(fù)合系統(tǒng),這些部分包括話務(wù)流、連網(wǎng)協(xié)議、信號處理協(xié)議、硬件、RF傳播以及這些部分之每個(gè)之間的最重要交互作用。此外,網(wǎng)絡(luò)行為可以被彼此范圍內(nèi)的節(jié)點(diǎn)之間的交互作用以及附近的噪聲源支配。試探技術(shù)和推理技術(shù)都不能捕獲這種網(wǎng)絡(luò)的行為何不同成份之間的交互作用。
圖10是描述典型實(shí)施例中的過程1000的流程圖,其中根據(jù)聯(lián)機(jī)跟蹤仿真執(zhí)行假設(shè)分析。在高層上,過程1000首先利用網(wǎng)絡(luò)仿真再現(xiàn)真實(shí)網(wǎng)絡(luò)。然后通過應(yīng)用網(wǎng)絡(luò)仿真中這些變化,確定應(yīng)用于真實(shí)網(wǎng)絡(luò)時(shí)的對網(wǎng)絡(luò)修改的結(jié)果,以量化網(wǎng)絡(luò)性能含義。
在方框1002,通過運(yùn)行管理器模塊選擇多個(gè)修改的一個(gè)或多個(gè)??梢圆捎酶鞣N方式選擇修改。例如,修改可以被管理器模塊考慮為造成網(wǎng)絡(luò)性能增加而不是降低的故障。這種情況中的修改可以被存儲在圖2的故障目錄218中,并且根據(jù)類型安排該修改。在方框1004,分析模塊提供真實(shí)網(wǎng)絡(luò)的網(wǎng)絡(luò)設(shè)置,和包括對作為輸入的網(wǎng)絡(luò)仿真的選擇修改的修改集。
在方框1006,根據(jù)輸入預(yù)測網(wǎng)絡(luò)的預(yù)期性能。例如,仿真器可以根據(jù)真實(shí)網(wǎng)絡(luò)的網(wǎng)絡(luò)設(shè)置和修改集建立網(wǎng)絡(luò)仿真。上述的網(wǎng)絡(luò)仿真隨后被用來確定對真實(shí)網(wǎng)絡(luò)修改的結(jié)果。
分析模塊在運(yùn)行時(shí),導(dǎo)出由網(wǎng)絡(luò)的代理模塊將要執(zhí)行的一個(gè)或多個(gè)動作,以實(shí)施修改(方框1008)。分析模塊例如可以包括被映射到對應(yīng)修改的動作的目錄。分析模塊然后可以根據(jù)修改獲得對應(yīng)動作。
在方框1010分析模塊構(gòu)成描述對相應(yīng)代理模塊通信的一個(gè)或多個(gè)動作的通信。相應(yīng)的代理模塊隨后可以使網(wǎng)絡(luò)的相應(yīng)代理實(shí)施所述的代理。因此,管理器和代理模塊可以被用來根據(jù)聯(lián)機(jī)跟蹤驅(qū)動仿真,采用類似于故障監(jiān)測的方式執(zhí)行假設(shè)分析。
在另一示例性實(shí)現(xiàn)中,使用仿真來確定將對網(wǎng)絡(luò)進(jìn)行的修改,以改善網(wǎng)絡(luò)性能,例如通過使用迭代方案來執(zhí)行假設(shè)分析。該方案類似于參照圖5和圖7所述的仿真。由此,當(dāng)需要多個(gè)修改動作時(shí),可使用迭代精簡。
圖11是描述一個(gè)實(shí)施例中的過程1100的流程圖,其中根據(jù)破壞流的診斷導(dǎo)出對網(wǎng)絡(luò)的修改。在方框1102,管理器模塊(例如,圖1和圖2的管理器模塊116(N))被運(yùn)行,以確定網(wǎng)絡(luò)中一個(gè)或多個(gè)流正在經(jīng)歷低于它們的相應(yīng)預(yù)期目標(biāo)吞吐量值得吞吐量值。在方框1104,管理器模塊確定網(wǎng)絡(luò)中的任何一個(gè)流是是否“破壞流”。破壞流是一種類型的故障,它的存在使網(wǎng)絡(luò)吞吐量嚴(yán)重惡化,并且該故障不同于破壞流自身健康,但是又不與競爭流發(fā)生交互作用的在前故障。
在方框1106,例如收集描述目標(biāo)端對端需求以及正在使用的路由協(xié)議的網(wǎng)絡(luò)設(shè)置。應(yīng)當(dāng)注意,這些網(wǎng)絡(luò)設(shè)置可以不同于診斷故障所用的跟蹤,因?yàn)檫^程1100檢查網(wǎng)絡(luò)(例如,鏈路負(fù)荷和路由)如何調(diào)整網(wǎng)絡(luò)配置中的變化。
在方框1108,根據(jù)每次一個(gè)從網(wǎng)絡(luò)仿真的每個(gè)流的移除,檢查對總計(jì)網(wǎng)絡(luò)吞吐量的影響。在一個(gè)實(shí)施例中,破壞流被標(biāo)識為一個(gè)流,該流的移除產(chǎn)生對網(wǎng)絡(luò)性能的最明顯得整體改善。例如,圖12示出了包括多個(gè)流1202-1216的網(wǎng)絡(luò)1200。流8 1216(如圖12中的F8所示)交叉所示網(wǎng)絡(luò)1200中的其它流1202-1214。因此,與其它流1202-1214的移除相反,流8 1208的移除導(dǎo)致吞吐量的最大增加。換言之,流8 1216的存在造成對網(wǎng)絡(luò)1200的性能的最大破壞量。這樣,可以確定導(dǎo)致網(wǎng)絡(luò)性能的最大增加的對網(wǎng)絡(luò)1200的修改(例如,流8 1216對系統(tǒng)的其它流的影響的消除或者減少)。
在方框1110,根據(jù)可以用來改善網(wǎng)絡(luò)性能的修改導(dǎo)出一個(gè)或多個(gè)動作。典型動作可以包括流8 1216速率限制、路由選擇以及拓?fù)淇刂?。網(wǎng)絡(luò)仿真能夠使管理器模塊進(jìn)一步精確估算這些動作的益處。例如,下表顯示了典型校正動作的預(yù)期吞吐量。
如表所示,在研究中,傳輸功率增加到25dBm在四格典型動作(和一個(gè)靜止動作)之中產(chǎn)生最高吞吐量,因?yàn)樗鼫p少了達(dá)到目的地所需的中繼段的數(shù)量。根據(jù)這些結(jié)果。管理器模塊構(gòu)成通信,使相應(yīng)節(jié)點(diǎn)上的一個(gè)或多個(gè)代理增加功率,以減輕網(wǎng)絡(luò)性能問題。
典型構(gòu)架實(shí)施所述構(gòu)架的一個(gè)實(shí)例已經(jīng)在WINDOWS XP平臺(WINDOWS XP是微軟公司(Redmond WA)的商標(biāo))上實(shí)現(xiàn)。該部分描述了典型實(shí)施例的部件、涉及原理以及其特征。
該實(shí)例的典型構(gòu)架包括兩個(gè)分離的部件代理模塊和管理器模塊。如參照圖1所述,代理模塊在網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)上運(yùn)行,以周期地或隨選地報(bào)告本地?cái)?shù)據(jù)。管理器模塊從代理模塊收集相應(yīng)數(shù)據(jù)并分析數(shù)據(jù),比如通過運(yùn)行參照圖2所述的分析模塊來分析數(shù)據(jù)。
典型構(gòu)架利用簡單和可擴(kuò)展設(shè)計(jì)原理。例如,為監(jiān)測和管理而收集和傳播地?cái)?shù)據(jù)可以被輸入WINDOWS(WINDOWS是微軟公司(Redmond WA)的商標(biāo))支持的性能計(jì)數(shù)器??梢园搭悇e成組的(名稱,值)對提供性能計(jì)數(shù)器。
所述的構(gòu)架還可擴(kuò)展。增加監(jiān)測的數(shù)據(jù)包括性能計(jì)數(shù)器的新類別的建立以及寫一個(gè)模塊,以便隨著信息變化更新計(jì)數(shù)器值。涉及傳輸控制協(xié)議(TCP)、用戶數(shù)據(jù)報(bào)協(xié)議(UDP)、互聯(lián)網(wǎng)協(xié)議(IP)的性能數(shù)據(jù)以及工作站遠(yuǎn)程應(yīng)用編程接口(WRAPI)可以并入具有少量附加工作的構(gòu)架。
這些性能計(jì)數(shù)器中的值可以是只讀的或者可寫的??蓪懹?jì)數(shù)器例如提供一種用于改變值以及影響節(jié)點(diǎn)行為的已授權(quán)管理器節(jié)點(diǎn)的方式,以便確定問題或者遠(yuǎn)程啟動試驗(yàn),比如通過管理器模塊與運(yùn)行于不同的相應(yīng)節(jié)點(diǎn)上的代理模塊的通信來確定問題或者遠(yuǎn)程啟動試驗(yàn)。
每個(gè)管理器節(jié)點(diǎn)還可以裝備與網(wǎng)絡(luò)管理員交互作用的圖形用戶接口(GUI)1300(圖13示出了其中的一個(gè)實(shí)例)。GUI允許管理員觀察網(wǎng)絡(luò)以及經(jīng)由管理器模塊發(fā)出管理請求。GUI 1300顯示一個(gè)用于典型網(wǎng)絡(luò)試驗(yàn)臺的不拘。該實(shí)例中的GUI 1300用被顯示在23個(gè)節(jié)點(diǎn)的試驗(yàn)臺上的代理描述了一個(gè)管理器窗口。管理器模塊可以根據(jù)直接獲得或推斷的節(jié)點(diǎn)的相應(yīng)坐標(biāo)顯示拓?fù)?。GUI 1300還允許管理員把網(wǎng)絡(luò)的特定部分放大以得到更詳細(xì)信息,并點(diǎn)擊鏈接以表格式顯示特定鏈接的網(wǎng)絡(luò)性能數(shù)據(jù)。
結(jié)束語盡管已經(jīng)采用專用于結(jié)構(gòu)特征和/或方法動作的語言描述了本發(fā)明,但是應(yīng)當(dāng)明白所附權(quán)利要求定義的本發(fā)明不一定局限于所述的特定特征或動作。特定特征和動作是作為實(shí)施本發(fā)明的典型形式公開的。
權(quán)利要求
1.一種方法,包括通過以下方式檢測網(wǎng)絡(luò)運(yùn)行中的差異把描述網(wǎng)絡(luò)的數(shù)據(jù)供應(yīng)給網(wǎng)絡(luò)仿真,使網(wǎng)絡(luò)仿真提供網(wǎng)絡(luò)性能的估算;確定網(wǎng)絡(luò)性能的估算是否不同于網(wǎng)絡(luò)的已觀測網(wǎng)絡(luò)性能;以及在網(wǎng)絡(luò)性能的估算逼近已觀測網(wǎng)絡(luò)性能之前,通過把多個(gè)故障的一個(gè)或多個(gè)注入到網(wǎng)絡(luò)仿真中,診斷差異的根原因。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定包括查明網(wǎng)絡(luò)性能的估算是否與網(wǎng)絡(luò)的已觀測網(wǎng)絡(luò)性能相差高于一個(gè)相應(yīng)閾值。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述診斷包括把已估算的與已觀測的網(wǎng)絡(luò)性能之間的差異轉(zhuǎn)換成一故障量;以及確定故障量是否移動網(wǎng)絡(luò)仿真,以逼近網(wǎng)絡(luò)的已觀測網(wǎng)絡(luò)性能。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述診斷包括把已估算的與已觀測的網(wǎng)絡(luò)性能之間的差異轉(zhuǎn)換成一故障量;確定故障量是否小于相應(yīng)閾值;以及當(dāng)故障量小于相應(yīng)閾值時(shí),從用作對網(wǎng)絡(luò)仿真的輸入的故障集中刪除相應(yīng)的所述故障。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述診斷包括進(jìn)行初始診斷,以生成故障集;以及迭代地精選初始故障集以獲得當(dāng)前故障集,當(dāng)該當(dāng)前故障集被網(wǎng)絡(luò)仿真用作輸入時(shí),該當(dāng)前故障集使網(wǎng)絡(luò)性能仿真所提供的網(wǎng)絡(luò)性能估算逼近已觀測的網(wǎng)絡(luò)性能。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)絡(luò)是多跳無線網(wǎng)絡(luò)。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)絡(luò)是有線網(wǎng)絡(luò)。
8.根據(jù)全力要求1所述的方法,其特征在于,所述數(shù)據(jù)描述由通過網(wǎng)絡(luò)的始發(fā)節(jié)點(diǎn)與目標(biāo)節(jié)點(diǎn)之間的網(wǎng)絡(luò)的數(shù)據(jù)分組采用的一系列中繼段所形成的路由。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)包括跟蹤數(shù)據(jù),該跟蹤數(shù)據(jù)從包括以下各項(xiàng)的組中選出包括路由的網(wǎng)絡(luò)拓?fù)?;話?wù)統(tǒng)計(jì);物理媒介;以及網(wǎng)絡(luò)性能。
10.一個(gè)或多個(gè)包括計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀媒介,當(dāng)計(jì)算機(jī)執(zhí)行該指令時(shí),該指令指揮計(jì)算機(jī)執(zhí)行權(quán)利要求1所述的方法。
11.一種方法,包括通過執(zhí)行網(wǎng)絡(luò)來仿真估算網(wǎng)絡(luò)性能,所述網(wǎng)絡(luò)仿真把從網(wǎng)絡(luò)獲得的一個(gè)或多個(gè)網(wǎng)絡(luò)設(shè)置用作輸入;以及當(dāng)網(wǎng)絡(luò)的已估算網(wǎng)絡(luò)性能與已觀測網(wǎng)絡(luò)性能之間的差異大于相應(yīng)閾值時(shí)進(jìn)行初始診斷,以產(chǎn)生初始故障集;以及迭代地精選初始故障集以獲得當(dāng)前故障集,當(dāng)所述當(dāng)前故障集被網(wǎng)絡(luò)仿真用作輸入時(shí),該當(dāng)前故障集使網(wǎng)絡(luò)仿真輸出逼近網(wǎng)絡(luò)的網(wǎng)絡(luò)性能的另一個(gè)估算。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述初始診斷是通過利用確定故障類型的決策樹來執(zhí)行的。
13.根據(jù)權(quán)利要求11所述的方法,其特征在于,通過以下方式執(zhí)行初始故障集的迭代精選以獲得當(dāng)前故障集對當(dāng)前故障集中的每個(gè)故障,從已觀測網(wǎng)絡(luò)性能與通過把故障包含在網(wǎng)絡(luò)仿真中而造成的已估算網(wǎng)絡(luò)性能中的差異中算出故障量;以及刪除具有小于相應(yīng)閾值的相應(yīng)的所述故障量的每個(gè)所述故障。
14.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述網(wǎng)絡(luò)設(shè)置包括描述路由的數(shù)據(jù),所述路由由經(jīng)過網(wǎng)絡(luò)的始發(fā)節(jié)點(diǎn)與目標(biāo)節(jié)點(diǎn)之間的網(wǎng)絡(luò)的數(shù)據(jù)分組所采用的一系列中繼段形成。
15.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述當(dāng)前故障集描述已估算網(wǎng)絡(luò)性能與已觀測網(wǎng)絡(luò)性能之間的一個(gè)或多個(gè)根原因。
16.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述網(wǎng)絡(luò)設(shè)置包括跟蹤數(shù)據(jù),該跟蹤數(shù)據(jù)從包括以下各項(xiàng)的組中選出包括路由的網(wǎng)絡(luò)拓?fù)?;話?wù)統(tǒng)計(jì);物理媒介;以及網(wǎng)絡(luò)性能。
17.根據(jù)權(quán)利要求11所述的方法,其特征在于,至少一個(gè)所述網(wǎng)絡(luò)設(shè)置是由一跟蹤實(shí)用程序提供的。
18.根據(jù)權(quán)利要求11所述的方法,其特征在于,通過以下方式執(zhí)行初始故障集的迭代精選以獲得當(dāng)前故障集把多個(gè)故障之一添加到當(dāng)前故障集中;利用網(wǎng)絡(luò)仿真和當(dāng)前故障集來估算網(wǎng)絡(luò)性能;以及確定利用當(dāng)前故障集估算的已估算網(wǎng)絡(luò)性能是否收斂于已觀測網(wǎng)絡(luò)性能。
19.根據(jù)權(quán)利要求11所述的方法,其特征在于,通過以下方式執(zhí)行初始故障集的迭代精選以獲得當(dāng)前故障集把已估算的與已觀測的網(wǎng)絡(luò)性能之間的差異轉(zhuǎn)換成一故障量;確定故障量是否小于相應(yīng)的閾值;以及當(dāng)故障量小于相應(yīng)閾值時(shí),從當(dāng)前故障集中刪除相應(yīng)的所述故障。
20.一個(gè)或多個(gè)包括計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀媒介,當(dāng)計(jì)算機(jī)執(zhí)行該指令時(shí),該指令指揮計(jì)算機(jī)執(zhí)行權(quán)利要求11所述的方法。
21.一個(gè)或多個(gè)包括計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀媒介,當(dāng)計(jì)算機(jī)執(zhí)行該指令時(shí),該指令指揮計(jì)算機(jī)確定網(wǎng)絡(luò)的網(wǎng)絡(luò)性能觀測是否不同于由網(wǎng)絡(luò)的網(wǎng)絡(luò)仿真輸出的網(wǎng)絡(luò)性能估算;以及如果是,則通過以下方式確定差異的根原因,即把故障添加到故障集或者從故障集中刪除故障,直至當(dāng)網(wǎng)絡(luò)仿真利用故障集時(shí),該故障集使網(wǎng)絡(luò)仿真提供逼近觀測的網(wǎng)絡(luò)性能的另一個(gè)估算。
22.根據(jù)權(quán)利要求21所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀媒介,其特征在于,所述計(jì)算機(jī)可執(zhí)行指令在計(jì)算機(jī)上運(yùn)行時(shí),指揮計(jì)算機(jī)獲得描述網(wǎng)絡(luò)的一個(gè)或多個(gè)網(wǎng)絡(luò)設(shè)置的數(shù)據(jù);把已觀測的數(shù)據(jù)供應(yīng)給仿真器;以及從仿真器接收網(wǎng)絡(luò)性能的估算。
23.根據(jù)權(quán)利要求21所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀媒介,其特征在于,通過以下方式確定差異的根原因?qū)Ξ?dāng)前故障集中的每個(gè)故障,從已觀測網(wǎng)絡(luò)性能與通過把故障包含在網(wǎng)絡(luò)仿真中而造成的已估算網(wǎng)絡(luò)性能中的差異中算出故障量;以及刪除故障集中具有小于相應(yīng)閾值的相應(yīng)的所述故障量的每個(gè)所述故障。
24.根據(jù)權(quán)利要求21所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀媒介,其特征在于,所述網(wǎng)絡(luò)仿真是從網(wǎng)絡(luò)設(shè)置中生成的,所述網(wǎng)絡(luò)仿真描述經(jīng)由網(wǎng)絡(luò)的始發(fā)節(jié)點(diǎn)與目標(biāo)節(jié)點(diǎn)之間的網(wǎng)絡(luò)的數(shù)據(jù)分組采用的一系列中繼段所形成的路由。
25.根據(jù)權(quán)利要求21所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀媒介,其特征在于,所述網(wǎng)絡(luò)仿真是從跟蹤實(shí)用程序提供的網(wǎng)絡(luò)設(shè)置中產(chǎn)生的,所述跟蹤實(shí)用程序收集描述網(wǎng)絡(luò)拓樸、路由、話務(wù)統(tǒng)計(jì)、物理媒介和網(wǎng)絡(luò)性能的信息。
26.一種系統(tǒng),包括通信上相互耦合以形成網(wǎng)絡(luò)的的多個(gè)節(jié)點(diǎn),其特征在于一個(gè)或多個(gè)所述節(jié)點(diǎn)包括可在其上執(zhí)行的代理模塊,用于收集網(wǎng)絡(luò)設(shè)置;以及為網(wǎng)絡(luò)上的通信形成包括網(wǎng)絡(luò)設(shè)置的通信;以及至少一個(gè)所述節(jié)點(diǎn)包括可在其上執(zhí)行的管理器模塊,用于接收通信;基于從通信獲得的網(wǎng)絡(luò)設(shè)置產(chǎn)生網(wǎng)絡(luò)仿真;以及通過將網(wǎng)絡(luò)的網(wǎng)絡(luò)性能估算與網(wǎng)絡(luò)性能觀測進(jìn)行比較,檢測網(wǎng)絡(luò)操作中的故障。
27.根據(jù)權(quán)利要求26所述的系統(tǒng),其特征在于,至少兩個(gè)所述節(jié)點(diǎn)包括相應(yīng)的所述代理模塊。
28.根據(jù)權(quán)利要求26所述的系統(tǒng),其特征在于,每個(gè)所述節(jié)點(diǎn)包括相應(yīng)的所述代理模塊。
29.根據(jù)權(quán)利要求26所述的系統(tǒng),其特征在于,所述管理器模塊還可執(zhí)行用于基于所檢測的故障導(dǎo)出校正動作;以及使代理模塊執(zhí)行校正動作。
30.根據(jù)權(quán)利要求26所述的系統(tǒng),其特征在于,通過確定估算與觀測之間的差異是否大于相應(yīng)閾值,來檢測網(wǎng)絡(luò)操作中的故障。
31.根據(jù)權(quán)利要求26所述的系統(tǒng),其特征在于,所述管理器模塊還可執(zhí)行用于通過把多個(gè)所述故障的一個(gè)或多個(gè)注入到網(wǎng)絡(luò)仿真中,直至估算逼近觀測,來診斷故障。
32.根據(jù)權(quán)利要求26所述的系統(tǒng),其特征在于,所述管理器模塊還可執(zhí)行用于通過以下方式診斷故障把估算與觀測之間的差異轉(zhuǎn)換成一故障量;以及確定故障量是否移動由網(wǎng)絡(luò)仿真提供的估算以逼近觀測。
33.根據(jù)權(quán)利要求26所述的系統(tǒng),其特征在于,所述管理器模塊還可執(zhí)行用于通過以下方式診斷故障把估算與觀測之間的差異轉(zhuǎn)換成一故障量;以及確定故障量是否小于相應(yīng)閾值;以及當(dāng)故障量小于相應(yīng)閾值時(shí),從由所生成的仿真用作輸入來產(chǎn)生估算的故障集中刪除相應(yīng)的所述故障。
34.根據(jù)權(quán)利要求26所述的系統(tǒng),其特征在于,所述管理器模塊還可執(zhí)行用于通過以下方式診斷故障進(jìn)行初始診斷以生成初始故障集;迭代地精選初始故障集以獲得當(dāng)前故障,當(dāng)所述當(dāng)前故障集被網(wǎng)絡(luò)仿真用作輸入時(shí),該當(dāng)前故障集使估算逼近觀測。
35.根據(jù)權(quán)利要求26所述的系統(tǒng),其特征在于所述網(wǎng)絡(luò)是網(wǎng)狀網(wǎng)絡(luò)。
36.根據(jù)權(quán)利要求26所述的系統(tǒng),其特征在于,所述網(wǎng)絡(luò)設(shè)置描述由經(jīng)過網(wǎng)絡(luò)的始發(fā)節(jié)點(diǎn)與目標(biāo)節(jié)點(diǎn)之間的網(wǎng)絡(luò)的數(shù)據(jù)分組采用的一系列中繼段所形成的路由。
37.一種節(jié)點(diǎn),包括用于管理具有多個(gè)用于路由數(shù)據(jù)分組的裝置的網(wǎng)絡(luò)的操作的裝置,其中每個(gè)所述路由裝置通信上耦合另一所述路由裝置;以及所述管理裝置還包括裝置,用于向用于仿真網(wǎng)絡(luò)的裝置提供從網(wǎng)絡(luò)獲得的網(wǎng)絡(luò)設(shè)置;從估算網(wǎng)絡(luò)的網(wǎng)絡(luò)性能的仿真裝置接收輸出;以及通過將輸出與網(wǎng)絡(luò)的網(wǎng)絡(luò)性能觀測進(jìn)行比較來檢測故障。
38.根據(jù)權(quán)利要求37所述的節(jié)點(diǎn),其特征在于,所述管理裝置還包括用于診斷故障的裝置。
39.根據(jù)權(quán)利要求37所述的節(jié)點(diǎn),其特征在于所述網(wǎng)絡(luò)是網(wǎng)狀網(wǎng)絡(luò)。
40.根據(jù)權(quán)利要求37所述的節(jié)點(diǎn),其特征在于,所述管理裝置還包括裝置,用于基于所檢測的故障導(dǎo)出校正動作。
全文摘要
本發(fā)明公開了一種網(wǎng)絡(luò)故障診斷構(gòu)架。在一個(gè)實(shí)施例中,方法包括通過把描述網(wǎng)絡(luò)的數(shù)據(jù)供應(yīng)給網(wǎng)絡(luò)仿真,來檢測網(wǎng)絡(luò)運(yùn)行中的差異,以使網(wǎng)絡(luò)仿真提供網(wǎng)絡(luò)性能的估算。確定網(wǎng)絡(luò)性能的估算是否不同于網(wǎng)絡(luò)的已觀測網(wǎng)絡(luò)性能。通過把多個(gè)故障的一個(gè)或多個(gè)注入到網(wǎng)絡(luò)仿真中,直至網(wǎng)絡(luò)性能的估算逼近已觀測網(wǎng)絡(luò)性能,來診斷差異的根原因。
文檔編號H04L12/24GK1665205SQ20051005652
公開日2005年9月7日 申請日期2005年1月31日 優(yōu)先權(quán)日2004年1月30日
發(fā)明者L·周, L·仇, P·巴爾, A·R·勞 申請人:微軟公司