專利名稱:一種多域協(xié)作的分布式故障診斷方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機網(wǎng)絡(luò)中的故障診斷領(lǐng)域,尤其涉及一種多域協(xié)作的分布 式故障診斷方法及系統(tǒng)。
背景技術(shù):
在大規(guī)模的復(fù)雜環(huán)境中,服務(wù)管理系統(tǒng)需要處理大量的信息。研究人員普 遍認(rèn)為,應(yīng)當(dāng)劃分管理信息和功能,并用分布式的方式對其管理(參見論文
計算機網(wǎng)絡(luò)中故障定位技術(shù)綜述,A survey of fault localization techniques in computer networks)。在管理器間劃分?jǐn)?shù)據(jù)將迫使管理器基于不完整信息進行故 障管理。由于域間故障傳播,管理器可能收到其他管理器管轄域內(nèi)傳播來的問 題,而某域內(nèi)特定故障相關(guān)的癥狀可能在該域內(nèi)不可見。為了在這樣復(fù)雜的環(huán) 境中定位故障,需要有效的分布式故障診斷算法。
Katzela等人(參見論文集中式vs分布式故障定位,Centralized vs Distributed Fault Localization)提出了設(shè)計分布式故障診斷系統(tǒng)的理論基礎(chǔ),比 較了三種故障診斷機制集中式(Centralized),非集中式(Decentmlized)以及分布 式(Distributed),并且評估了這些機制的準(zhǔn)確性和可行性。分布式故障診斷不存 在中央管理器,由分域管理器協(xié)同工作診斷故障。在分析告警時,每個域都需 要處理所有與其相關(guān)的跨域告警。域需要為每個跨域告警關(guān)聯(lián)代理節(jié)點,表示 該告警可能由其他域中的故障解釋,同時為代理節(jié)點分配一個概率值,表示告 警由其他域中故障引起的概率,之后使用單域故障診斷算法計算最優(yōu)故障解釋。
Steinder和Sethi (參見論文分級路由網(wǎng)絡(luò)中端到端服務(wù)故障的多域診斷, MultiDomain diagnosis of end-to-end service failures in hierarchically routed networks)提出了跨多個自治域的分布式故障診斷算法。包含多個自治域的網(wǎng)絡(luò) 由多個域管理器進行管理,并由網(wǎng)絡(luò)管理器進行協(xié)調(diào)。全局故障傳播模型劃分 到各個自治域,并在各個域的故障傳播模型中增加代理節(jié)點,表示從其他自治 域傳播過來的故障。在故障管理平臺接收到告警信息時,故障定位需要在所有 自治域內(nèi)進行,以尋找最可能的故障假設(shè)。在實際中,這將是非常耗時和低效 的。另外,該文算法還依賴部分全局結(jié)構(gòu)信息的存在。
Fischer等人(參見論文跨域故障定位-圖形摘要方法的案例,Cross-Domain Fault Localization: A Case for a Graph Digest Approach)提出了 一個二域環(huán)境下的 分布式故障診斷方案。發(fā)現(xiàn)癥狀的域?qū)ζ湟蕾噲D進行修剪和合并操作后,將已經(jīng)隱藏內(nèi)部結(jié)構(gòu)信息的依賴圖發(fā)送給另一個域,由該域負(fù)責(zé)診斷得出假設(shè)。該 文假設(shè)的場景過于簡單,難于將其方法推廣到更多域情況。
發(fā)明內(nèi)容
為了解決上述的技術(shù)問題,提出了一種多域協(xié)作的分布式故障診斷方法及 系統(tǒng),其目的在于,使用一定方法評估導(dǎo)致跨域癥狀的各域可能性,并將這些 癥狀分配到最可能導(dǎo)致該癥狀的域,在完成對跨域癥狀的處理后,可使用已有 單域故障診斷算法推理故障假設(shè)。
本發(fā)明提供了一種多域協(xié)作的分布式故障診斷系統(tǒng),每個域中均包括一個 域管理器;域管理器用于負(fù)責(zé)該域管理器所在域內(nèi)的故障診斷;當(dāng)前域的域管 理器與最可能導(dǎo)致跨域癥狀的域中的域管理器進行通信,將跨域告警/癥狀分配 給該最可能導(dǎo)致跨域癥狀的域。
域管理器包括接口模塊,管理/信息呈現(xiàn)模塊,癥狀交換模塊,影響評估模 塊,癥狀分配模塊,告警/故障信息模塊,故障診斷模塊以及依賴模型;
接口模塊,用于將當(dāng)前域的域管理器的管理信息或者數(shù)據(jù)發(fā)送到可能導(dǎo)致 跨域癥狀的域中的域管理器,并將接收的管理信息或數(shù)據(jù)發(fā)送到當(dāng)前域的域管 理器中的癥狀交換模塊、影響評估模塊、癥狀分配模塊或故障診斷模塊;
管理/信息呈現(xiàn)模塊,用于將癥狀或依賴關(guān)系數(shù)據(jù)寫入對應(yīng)數(shù)據(jù)庫;
癥狀交換模塊,用于在當(dāng)前域的域管理器發(fā)現(xiàn)跨域癥狀時,將該跨域癥狀 映射為選定域的相關(guān)子服務(wù),并將選定域的相關(guān)子服務(wù)作為跨域癥狀報告至可 能導(dǎo)致跨域癥狀的域中的域管理器;
影響評估模塊,用于在當(dāng)前域的域管理器收到跨域癥狀后,評估當(dāng)前域內(nèi) 故障引發(fā)該跨域癥狀的可能性,并將評估值返回到報告該跨域癥狀的域;
癥狀分配模塊,在當(dāng)前域的域管理器收到評估值后,采用相應(yīng)的比較機制 比較評估值,再將跨域癥狀分配給最可能導(dǎo)致該癥狀的域來診斷;
故障診斷模塊,用于將分配到當(dāng)前域的跨域癥狀和當(dāng)前域內(nèi)的癥狀一起進 行診斷,從而得出故障假設(shè);
依賴模型,用于存儲癥狀-故障依賴模型。
管理/信息呈現(xiàn)模塊,用于向管理員呈現(xiàn)管理界面,并按照來自管理員的指 令管理系統(tǒng)。
域管理器還包括告警/故障信息模塊,用于存儲告警和故障記錄。 所述依賴模型為二分貝葉斯網(wǎng)絡(luò)依賴模型,二分貝葉斯網(wǎng)絡(luò)依賴模型中的 節(jié)點連接模型為Noisy-OR模型。
癥狀交換模塊根據(jù)當(dāng)前域觀察到的癥狀以及二分貝葉斯網(wǎng)絡(luò)依賴模型推理
5當(dāng)前域使用的其他域中子服務(wù)的異常概率,并根據(jù)預(yù)先設(shè)定的概率值選出與符 合條件的子服務(wù)對應(yīng)的域,該域為可能導(dǎo)致跨域癥狀的域。
影響評估模塊根據(jù)當(dāng)前域觀察到域內(nèi)癥狀集和二分貝葉斯網(wǎng)絡(luò)依賴模型做
單域故障診斷,得出初步的故障假設(shè)//';如果當(dāng)前域接收的癥狀可由/z'解釋,
則評估值修改為/Z'中發(fā)生故障引發(fā)該癥狀的最大值;如果當(dāng)前域接收的癥狀不 可由'中故障解釋,則評估值為先驗故障概率和條件概率乘積的最大值。
癥狀分配模塊為每個分配癥狀增加關(guān)聯(lián)一個代理故障節(jié)點,該代理節(jié)點表 示該癥狀實際由其他域中故障導(dǎo)致,節(jié)點先驗概率為該癥狀由其他域?qū)е碌目?能程度即虛假癥狀概率;虛假癥狀概率應(yīng)由發(fā)現(xiàn)跨域癥狀的域進行評估,再隨 癥狀分配到最可能引發(fā)癥狀的域;虛假癥狀概率為當(dāng)前域收到的評估值中除分 配該跨域癥狀的域發(fā)送的評估值之外的評估值中的最大值。
故障診斷模塊在對分配到癥狀進行故障診斷前,為分配到的每個跨域癥狀 增加關(guān)聯(lián)一個代理節(jié)點,該代理節(jié)點表示對應(yīng)癥狀是錯誤分配的,其先驗概率 為分配到的虛假癥狀概率;去除二分貝葉斯網(wǎng)絡(luò)依賴模型中與之相關(guān)的域外組 件節(jié)點,之后使用單域診斷方法推理得出一個故障假設(shè),如果診斷假設(shè)中包含 代理節(jié)點,則將該節(jié)點從最終結(jié)果中刪除。
本發(fā)明提供了一種多域協(xié)作的分布式故障診斷系統(tǒng)的故障診斷方法,其特 征在于,包括
步驟l,在每個域中均設(shè)置一個域管理器;域管理器用于負(fù)責(zé)該域管理器所 在域內(nèi)的故障診斷;
步驟2,當(dāng)前域的域管理器與可能導(dǎo)致跨域癥狀的域中的域管理器進行通 信,將跨域告警/癥狀分配給該最可能導(dǎo)致跨域癥狀的域。
采用本發(fā)明的裝置,可以實現(xiàn)如下有益效果
基于多域協(xié)作的分布式故障診斷系統(tǒng)。該系統(tǒng)在每個管理域中部署一個管 理器,管理器之間交互管理信息并協(xié)作完成故障診斷任務(wù)。
在癥狀交換階段為跨域癥狀設(shè)置協(xié)商域比率5ZW,僅選擇部分相關(guān)域協(xié)商 癥狀分配,從而減少管理通信開銷。
在影響評估階段采用域內(nèi)癥狀進行初步診斷,再根據(jù)初步故障假設(shè)評估 導(dǎo)致每個跨域癥狀的可能性。
在癥狀分配階段為每個分配的癥狀計算一個虛假癥狀概率,表示錯誤分 配癥狀的可能性。
本發(fā)明相對于不考慮域間協(xié)作處理癥狀的診斷方法來說,可以通過對跨域 癥狀的診斷來提高故障診斷的精確度。
本發(fā)明在癥狀交換模塊中,為每個跨域癥狀增加了選擇部分協(xié)商域的比率6TW。如果當(dāng)前域觀察到一個跨域癥狀,該癥狀與A/r個域存在依賴關(guān)系。本發(fā)明 僅選擇其中SZ)/ tm個域協(xié)商癥狀分配。通過調(diào)節(jié)6ZW值,即可以控制通信開銷。 因此,本發(fā)明相對選擇全部協(xié)商域的方法來說,有效減少了管理通信開銷。
本發(fā)明采用域內(nèi)癥狀(即只存在域內(nèi)依賴關(guān)系的服務(wù)癥狀)進行初步診斷, 再根據(jù)初步故障假設(shè)評估導(dǎo)致每個跨域癥狀的可能性。相對于未考慮初步診斷 的方法來說,本發(fā)明可以提高影響評估的準(zhǔn)確性。
本發(fā)明考慮了錯誤分配癥狀的可能性,為每個分配的癥狀計算一個虛假癥 狀概率。相對于未考慮虛假癥狀概率的方法來說,本發(fā)明可以減小錯誤分配對 診斷帶來的影響。
圖1是本發(fā)明提供的分布式故障診斷系統(tǒng);
圖2是本發(fā)明提供的分布式故障診斷處理流程示意圖。
具體實施例方式
本發(fā)明包括一個分布式的故障診斷系統(tǒng),如圖1所示。該系統(tǒng)在每個管理 域內(nèi)均包含一個域管理器。該管理器負(fù)責(zé)與部分其他域管理器(即為與每個跨 域癥狀相關(guān)的,且可能導(dǎo)致該癥狀的一部分域)進行管理通信,將跨域癥狀(即 該癥狀可能由其他域內(nèi)故障導(dǎo)致)分配給最可能導(dǎo)致該癥狀的域;并且負(fù)責(zé)本 域內(nèi)的故障診斷。每個域管理器均包括接口模塊,管理/信息呈現(xiàn)模塊,癥狀交 換模塊,影響評估模塊,癥狀分配模塊,故障診斷模塊,依賴模型,告警/故障 信息模塊。
管理/信息呈現(xiàn)模塊可對依賴模型和告警/故障信息模塊進行讀取和修改操 作,以滿足管理策略和系統(tǒng)狀態(tài)變化的需求;癥狀交換模塊,影響評估模塊, 以及故障診斷模塊僅可對依賴模型和告警/故障信息模塊執(zhí)行讀取操作;癥狀分 配模塊可對告警/故障信息模塊進行讀取和修改操作。
接口模塊負(fù)責(zé)將域管理器內(nèi)部的管理信息或者數(shù)據(jù)發(fā)送到其他域管理器, 并將來自外部的管理信息和數(shù)據(jù)發(fā)送到相應(yīng)的內(nèi)部模塊。管理/信息呈現(xiàn)模塊向 管理員呈現(xiàn)管理界面;按照來自管理員的指令管理系統(tǒng);將癥狀或依賴關(guān)系數(shù) 據(jù)寫入對應(yīng)數(shù)據(jù)庫。當(dāng)域管理器發(fā)現(xiàn)跨域癥狀時,癥狀交換模塊將這些癥狀映 射為選定域的相關(guān)子服務(wù),并將子服務(wù)作為癥狀報告至相應(yīng)的該子服務(wù)對應(yīng)的 域管理器。當(dāng)一個域管理器收到其他域報告的癥狀后,需要使用影響評估模塊 評估本域內(nèi)故障引發(fā)這些癥狀的可能性,并將這些值返回報告癥狀的域。當(dāng)一個域管理器收到返回的評估值后,該域的癥狀分配模塊采用一定的比較機制比 較評估值,再將跨域癥狀分配給最可能導(dǎo)致該癥狀的域來診斷。故障診斷模塊 將分配到的所有癥狀和域內(nèi)癥狀一起進行診斷,從而得出更準(zhǔn)確的故障假設(shè)。 依賴模型存儲當(dāng)前癥狀-故障依賴模型。告警/故障信息存儲所有的告警和故障記 錄。
依賴模型
為了表示多域環(huán)境下的依賴關(guān)系且保護各域內(nèi)的結(jié)構(gòu)和信息安全,本發(fā)明 采用分布式依賴模型同時表示域內(nèi)和域外依賴關(guān)系,這些依賴關(guān)系可以在服務(wù) 運行過程或服務(wù)創(chuàng)建過程獲得。本發(fā)明為每個域建立一個二分貝葉斯網(wǎng)絡(luò)依賴
模型。依賴模型的上層節(jié)點為本域內(nèi)的服務(wù)集s—y, =1表示服務(wù)異常, =0
表示服務(wù)正常。下層節(jié)點包括域內(nèi)組件集FH/;]和域外相關(guān)子服務(wù)集S'-K,]。 力=1表示組件發(fā)生故障,力=0表示組件正常,<=1表示該子服務(wù)發(fā)生異常且傳 播故障到本域,<=0表示該子服務(wù)未傳播故障到本域。每個組件關(guān)聯(lián)一個先驗 故障概率/>(/);每條有向邊關(guān)聯(lián)一個表示依賴強度的條件概率/^1/)。與上層節(jié) 點fl存在依賴關(guān)系的下層節(jié)點集表示為P。K。),與下層節(jié)點6存在依賴關(guān)系的上 層節(jié)點集表示為CMrf(W 。本發(fā)明假設(shè)服務(wù)異常的可能原因相互獨立并且以邏輯
運算符號OR結(jié)合,即noisy-OR模型。
癥狀交換
在當(dāng)前域發(fā)現(xiàn)跨域癥狀時,癥狀交換模塊應(yīng)當(dāng)根據(jù)依賴模型選擇可能引發(fā) 該癥狀的部分域來協(xié)商癥狀分配。在交換癥狀前,當(dāng)前域根據(jù)觀察到的癥狀和 依賴模型推理本域使用的其他域中子服務(wù)的異常概率,就能根據(jù)這些概率值選 出存在高概率子服務(wù)的域,這些域就是可能導(dǎo)致該跨域癥狀的域。假設(shè)域A當(dāng) 前觀察到的跨域癥狀集合為^,其依賴模型中與^相關(guān)的域外子服務(wù)為T^, 可以建立上層節(jié)點為 ,下層節(jié)點為F^的二分貝葉斯網(wǎng)絡(luò)模型。每個子服務(wù)/ 的異常概率表示為在給定觀察^的條件下,/向本域傳播故障的概率。由于這 些子服務(wù)實際處于其他域中,本域無法獲得定它們的先驗故障概率,在此假設(shè) 它們的先驗故障概率為相同值。
以、表示/的后代節(jié)點中觀察到的跨域癥狀集合,即、-C/n'W(/)n^。對域 外子服務(wù)的后驗概率推理如下覽S/
=/>(/)* n p"i/y z p(/),1/) (l)
泥S,/ /e/^Cs)
在計算結(jié)束后,當(dāng)前域為每個跨域癥狀選擇一部分協(xié)商域來交互癥狀,這些域中應(yīng)當(dāng)存在后驗概率較大的子服務(wù)。
影響評估
假設(shè)當(dāng)前域Dk觀察到域內(nèi)癥狀集^,即只存在域內(nèi)依賴關(guān)系的服務(wù)癥狀,
本發(fā)明可以使用這些癥狀和依賴模型做單域故障診斷,得出初步的故障假設(shè)//'。H'是根據(jù)域內(nèi)癥狀推理得到的,可信度較高,可假設(shè)//'中故障實際發(fā)生。如果
其他域報告的癥狀可由/Z'解釋,則評估值修改為7/'中發(fā)生故障引發(fā)該癥狀的最大值;如果該癥狀不可由/T中故障解釋,則使用依賴模型中該癥狀所依賴故障的先驗故障概率和條件概率來評估。評估函數(shù)如下
,,
(2)
其中H^argmax尸(/Tl ),CWW(W)= U CWW(/)
癥狀分配
由于可能存在錯誤分配癥狀,即分配到癥狀的域?qū)嶋H上沒有引發(fā)該癥狀,如果直接診斷該癥狀將會降低診斷精確度。為了減小這種現(xiàn)象帶來的影響,本發(fā)明在依賴模型中為每個分配癥狀增加關(guān)聯(lián)一個代理故障節(jié)點,該代理節(jié)點表示該癥狀實際由其他域中故障導(dǎo)致,節(jié)點先驗概率為該癥狀由其他域?qū)е碌目赡艹潭?,即虛假癥狀概率。虛假癥狀概率應(yīng)由發(fā)現(xiàn)跨域癥狀的域進行評估,再隨癥狀分配到最可能引發(fā)癥狀的域。
假設(shè)域/^觀察到跨域癥狀^,且已經(jīng)收到來自相關(guān)域的最大評估值{/^("},根據(jù)這些值確定分配該癥狀的域為A ,需要計算錯誤分配的虛假概率值&(s)。如果該癥狀不由A中故障導(dǎo)致,則必然由其他相關(guān)域中故障引發(fā),本發(fā)明選擇其他域中的最大評估值為虛假概率。
<formula>formula see original document page 10</formula> (3)
故障診斷
在對分配到癥狀進行故障診斷前,需要在依賴模型中為分配到的每個跨域癥狀增加關(guān)聯(lián)一個代理節(jié)點,該代理節(jié)點表示對應(yīng)癥狀是錯誤分配的,其先驗概率為分配到的虛假癥狀概率;并去除原模型中與之相關(guān)的域外組件節(jié)點。之后可以使用單域診斷算法根據(jù)癥狀和依賴模型推理得出一個故障假設(shè),如單域診斷算法IBU (參見論文基于信度網(wǎng)絡(luò)的通信系統(tǒng)概率故障診斷,Probabilisticfault diagnosis in communication systems using belief networks )禾卩IHU (參見論文基于增量假設(shè)更新的通信系統(tǒng)概率故障診斷,Probabilistic Fault Diagnosis inCommunication Systems Through Incremental Hypothesis Updating )。如果診斷假設(shè)中包含代理節(jié)點,則可以簡單地將該節(jié)點從最終結(jié)果中刪除。
圖2展示了本發(fā)明的處理流程。本發(fā)明流程包括4個階段癥狀交換,影
響評估,癥狀分配,故障診斷。每個域管理器均包含上述流程階段。
步驟101:當(dāng)域管理器發(fā)現(xiàn)跨域癥狀時,首先根據(jù)這些癥狀推理與它們相關(guān)的域外子服務(wù)將故障傳播到當(dāng)前域的概率。
步驟102:故障傳播概率高說明該子服務(wù)很有可能向本域傳播了故障,考慮到通信開銷,本發(fā)明根據(jù)這些傳播概率選擇部分協(xié)商域。
步驟103:由于一個癥狀可能對應(yīng)多個域外子服務(wù),因此將癥狀映射為步驟102所選擇域中的相關(guān)子服務(wù),并報告給這些域。
步驟104:使用當(dāng)前域觀察到的域內(nèi)癥狀推理部分故障假設(shè)H'。
步驟105:根據(jù)iT,故障概率和依賴強度,計算本域內(nèi)故障引發(fā)其他域報告癥狀的評估值。
步驟106:將計算得到的評估值返回給報告該癥狀的域。
步驟107:在接收到其他域返回的評估值之后,當(dāng)前域可以根據(jù)這些評估值選出最可能引發(fā)每個跨域癥狀的域。
步驟108:由于癥狀可能被錯誤分配,因此為該域計算癥狀錯誤分配的虛假癥狀概率。
步驟109:將跨域癥狀和虛假概率值同時分配給選定域。
步驟110:為每個分配到的癥狀節(jié)點增加關(guān)聯(lián)一個代理故障節(jié)點,其先驗概率為分配的虛假概率值。步驟lll:使用單域故障診斷算法對域內(nèi)癥狀和分配的癥狀進行診斷,得出故障假設(shè)//。
本領(lǐng)域的技術(shù)人員在不脫離權(quán)利要求書確定的本發(fā)明的精神和范圍的條件下,還可以對以上內(nèi)容進行各種各樣的修改。因此本發(fā)明的范圍并不僅限于以上的說明,而是由權(quán)利要求書的范圍來確定的。
權(quán)利要求
1.一種多域協(xié)作的分布式故障診斷系統(tǒng),其特征在于,每個域中均包括一個域管理器;域管理器用于負(fù)責(zé)該域管理器所在域內(nèi)的故障診斷;當(dāng)前域的域管理器與可能導(dǎo)致跨域癥狀的域中的域管理器進行通信,將跨域告警/癥狀分配給該最可能導(dǎo)致跨域癥狀的域。
2. 如權(quán)利要求1所述的多域協(xié)作的分布式故障診斷系統(tǒng),其特征在于,域 管理器包括接口模塊,管理/信息呈現(xiàn)模塊,癥狀交換模塊,影響評估模塊,癥 狀分配模塊,告警/故障信息模塊,故障診斷模塊以及依賴模型;接口模塊,用于將當(dāng)前域的域管理器的管理信息或者數(shù)據(jù)發(fā)送到可能導(dǎo)致 跨域癥狀的域中的域管理器,并將接收的管理信息或數(shù)據(jù)發(fā)送到當(dāng)前域的域管 理器中的癥狀交換模塊、影響評估模塊、癥狀分配模塊或故障診斷模塊;管理/信息呈現(xiàn)模塊,用于將癥狀或依賴關(guān)系數(shù)據(jù)寫入對應(yīng)數(shù)據(jù)庫;癥狀交換模塊,用于在當(dāng)前域的域管理器發(fā)現(xiàn)跨域癥狀時,將該跨域癥狀 映射為選定域的相關(guān)子服務(wù),并將選定域的相關(guān)子服務(wù)作為跨域癥狀報告至可 能導(dǎo)致跨域癥狀的域中的域管理器;影響評估模塊,用于在當(dāng)前域的域管理器收到跨域癥狀后,評估當(dāng)前域內(nèi) 故障引發(fā)該跨域癥狀的可能性,并將評估值返回到報告該跨域癥狀的域;癥狀分配模塊,在當(dāng)前域的域管理器收到評估值后,采用相應(yīng)的比較機制 比較評估值,再將跨域癥狀分配給最可能導(dǎo)致該癥狀的域來診斷;故障診斷模塊,用于將分配到當(dāng)前域的跨域癥狀和當(dāng)前域內(nèi)的癥狀一起進 行診斷,從而得出故障假設(shè);依賴模型,用于存儲癥狀-故障依賴模型。
3. 如權(quán)利要求2所述的多域協(xié)作的分布式故障診斷系統(tǒng),其特征在于,管 理/信息呈現(xiàn)模塊,用于向管理員呈現(xiàn)管理界面,并按照來自管理員的指令管理 系統(tǒng)。
4. 如權(quán)利要求2所述的多域協(xié)作的分布式故障診斷系統(tǒng),其特征在于,域 管理器還包括告警/故障信息模塊,用于存儲告警和故障記錄。
5. 如權(quán)利要求2所述的多域協(xié)作的分布式故障診斷系統(tǒng),其特征在于,所 述依賴模型為二分貝葉斯網(wǎng)絡(luò)依賴模型,二分貝葉斯網(wǎng)絡(luò)依賴模型中的節(jié)點連 接模型為Noisy-OR模型。
6. 如權(quán)利要求5所述的多域協(xié)作的分布式故障診斷系統(tǒng),其特征在于,癥 狀交換模塊根據(jù)當(dāng)前域觀察到的癥狀以及二分貝葉斯網(wǎng)絡(luò)依賴模型推理當(dāng)前域使用的其他域中子服務(wù)的異常概率,并根據(jù)預(yù)先設(shè)定的概率值選出與符合條件 的子服務(wù)對應(yīng)的域,該域為可能導(dǎo)致跨域癥狀的域。
7. 如權(quán)利要求6所述的多域協(xié)作的分布式故障診斷系統(tǒng),其特征在于,影 響評估模塊根據(jù)當(dāng)前域觀察到域內(nèi)癥狀集和二分貝葉斯網(wǎng)絡(luò)依賴模型做單域故 障診斷,得出初步的故障假設(shè)//';如果當(dāng)前域接收的癥狀可由/T解釋,則評估 值修改為中發(fā)生故障引發(fā)該癥狀的最大值;如果當(dāng)前域接收的癥狀不可由/T 中故障解釋,則評估值為先驗故障概率和條件概率乘積的最大值。
8. 如權(quán)利要求7述的多域協(xié)作的分布式故障診斷系統(tǒng),其特征在于,癥狀 分配模塊為每個分配癥狀增加關(guān)聯(lián)一個代理故障節(jié)點,該代理節(jié)點表示該癥狀 實際由其他域中故障導(dǎo)致,節(jié)點先驗概率為該癥狀由其他域?qū)е碌目赡艹潭燃?虛假癥狀概率;虛假癥狀概率應(yīng)由發(fā)現(xiàn)跨域癥狀的域進行評估,再隨癥狀分配 到最可能引發(fā)癥狀的域;虛假癥狀概率為當(dāng)前域收到的評估值中除分配該跨域 癥狀的域發(fā)送的評估值之外的評估值中的最大值。
9. 如權(quán)利要求8的多域協(xié)作的分布式故障診斷系統(tǒng),其特征在于,故障診 斷模塊在對分配到癥狀進行故障診斷前,為分配到的每個跨域癥狀增加關(guān)聯(lián)一 個代理節(jié)點,該代理節(jié)點表示對應(yīng)癥狀是錯誤分配的,其先驗概率為分配到的 虛假癥狀概率;去除二分貝葉斯網(wǎng)絡(luò)依賴模型中與之相關(guān)的域外組件節(jié)點,之 后使用單域診斷方法推理得出一個故障假設(shè),如果診斷假設(shè)中包含代理節(jié)點, 則將該節(jié)點從最終結(jié)果中刪除。
10. —種如權(quán)利要求1-9任意一項所述的多域協(xié)作的分布式故障診斷系統(tǒng) 的故障診斷方法,其特征在于,包括步驟l,在每個域中均設(shè)置一個域管理器;域管理器用于負(fù)責(zé)該域管理器所 在域內(nèi)的故障診斷;步驟2,當(dāng)前域的域管理器與可能導(dǎo)致跨域癥狀的域中的域管理器進行通 信,將跨域告警/癥狀分配給該最可能導(dǎo)致跨域癥狀的域。
全文摘要
本發(fā)明涉及一種多域協(xié)作的分布式故障診斷方法及系統(tǒng)。該系統(tǒng)的每個域中均包括一個域管理器;域管理器可以和其他域管理器通信,將跨域告警/癥狀分配給最可能導(dǎo)致該跨域癥狀的一個域;域管理器負(fù)責(zé)該域管理器所在域內(nèi)的故障診斷。本發(fā)明中在交換癥狀時,當(dāng)前域只與可能導(dǎo)致癥狀的部分其他域進行通信,能夠減少通信開銷;采用域內(nèi)癥狀進行初步診斷,再根據(jù)初步故障假設(shè)評估導(dǎo)致每個跨域癥狀的可能性,提高影響評估的準(zhǔn)確性;考慮了錯誤分配癥狀的可能性,為每個分配的癥狀計算一個虛假癥狀概率,可以減小錯誤分配對診斷帶來的影響。
文檔編號H04L12/24GK101674196SQ20091014837
公開日2010年3月17日 申請日期2009年6月16日 優(yōu)先權(quán)日2009年6月16日
發(fā)明者王文東, 田春歧, 程時端, 褚靈偉, 鄒仕洪 申請人:北京郵電大學(xué)