專利名稱:用于通信網(wǎng)絡中問題解決的系統(tǒng)和方法
技術領域:
本發(fā)明總體涉及用于對通信網(wǎng)絡進行故障診斷的系統(tǒng)和方法,更具體地,涉及監(jiān)控通信網(wǎng)絡的可用性和性能以改進通信網(wǎng)絡的故障診斷的系統(tǒng)和方法。
背景技術:
存在至少兩種類型的網(wǎng)絡問題停機和性能差。“停機”通常指不可用的資源,而“性能差”通常指用戶不滿意的系統(tǒng)響應度不在SLA(服務級別協(xié)議)或其它要求中闡述的范圍之內。每一類型的問題可能是由各種類型的網(wǎng)絡問題原因中的任何一個所引起的,網(wǎng)絡問題例如是物理問題、邏輯問題或容量問題。這些類型的問題可能進一步地以各種條件為特征?!拔锢韱栴}”通常是某硬件部分損壞,并且或者處于已故障狀態(tài),或者是間歇地出故障。“邏輯問題”通常指的是因為在設計或配置或定制中的缺陷,軟件或固件不像預期的那樣工作。此外,“容量”問題通常意味著一個組件中或一組組件之上的數(shù)學閾值(實際的或人為限制的)已經(jīng)以不利地影響可用性或性能的這樣一種方式所超過。
已經(jīng)有問題管理工具被開發(fā)出來,并且與系統(tǒng)范圍的情形相反,它們在識別引發(fā)問題的個別組件方面最強。這應該是不令人驚訝的,因為由個別組件所引起的問題狀態(tài)的識別通常顯著地比由跨多個組件范圍內的問題所引起的問題狀態(tài)的識別要容易。事實上,最普遍用于網(wǎng)絡管理的兩種類型的工具說明了這個事實。實例包括具有網(wǎng)絡的圖符顯示的基于控制臺的工具,諸如IBM的NetViewTM、Hewlett-Packard的OpenViewTM,以及MIB控制塊讀取工具,諸如Concord的e-HealthTM和Lucent的VitalnetTM。
NetViewTM和Hewlett-Packard OpenViewTM最初是在20世紀八十年代開發(fā)的,它們是網(wǎng)絡管理的基石。這些工具,按常規(guī),輪詢網(wǎng)絡以發(fā)現(xiàn)網(wǎng)絡的設備以及連接這些設備的通信鏈路。在管理控制臺顯示上,每一個所發(fā)現(xiàn)的設備通常由一個圖標來代表,而每一個連接通常由一條線來代表,然后,該管理控制臺顯示示出該網(wǎng)絡。這些圖標和線往往著紅色、琥珀色或綠色(因此控制臺的名字是“RAG”顯示),這取決于該設備的狀態(tài)是停機(紅色)、未知或可使用但受損(琥珀色)、還是正常運轉(綠色)。這些工具在發(fā)現(xiàn)設備之后繼續(xù)輪詢它們,以便RAG顯示可以隨著設備可達性改變而改變,從而給操作人員提供關于網(wǎng)絡設備狀態(tài)方面的改變的迅速、可容易辨識的通知。
在20世紀九十年代,由于微處理器變得不那么昂貴并且更加強大,所以將附加智能和存儲器嵌入到網(wǎng)絡設備中成為可能。結果,使網(wǎng)絡設備在它們可以辨識它們自己的內部狀態(tài)(諸如它們的內部處理器和存儲器狀況和利用以及它們的網(wǎng)絡端口的狀況和利用)方面更加“自知”成為可能。此外,新近可用的自知性數(shù)據(jù)是通過稱作MIB的設備控制塊中的標準正文來正式地加以組織的。
同時,諸如TCP和APPC此類的對等協(xié)議層出不窮,這不僅允許NetViewTM和OpenViewTM工具更加容易地從網(wǎng)絡設備檢索這種新的和附加的數(shù)據(jù),而且為了向操作人員進行更加快速的問題通知,還允許新近智能網(wǎng)絡設備向管理工具發(fā)送非請求型的、重要的狀態(tài)信息。當20世紀九十年代接近結束千禧年過去的時候,網(wǎng)絡和系統(tǒng)管理研究和開發(fā)人員繼續(xù)沿著通過增強基于微處理器的設備的自知性來改進系統(tǒng)管理的道路前進,甚至使該規(guī)程正式化,并稱其為“自主性”。
諸如e-HealthTM和VitalnetTM的工具展現(xiàn)了與控制臺工具的相似的發(fā)展歷史。像控制臺工具一樣,e-HealthTM和VitalnetTM能夠檢索MIB數(shù)據(jù)。然而,與預期提供網(wǎng)絡的實時管理的控制臺工具不一樣的是,這些工具通常用于趨勢報告。這些工具的典型用途有,而且繼續(xù)是,開發(fā)“熱圖(heatmap)”報告。這些報告識別其利用在某指定時期中超過某預置閾值的網(wǎng)絡鏈路。通常,熱圖報告的目的是雙重的第一,識別可能是性能差的原因的利用過熱點;以及,第二,識別可能要求速度升級的鏈路,特別是由于這樣的升級常常需要在實際安裝之前就安排和計劃好。
另外的一類問題是“邏輯問題”。這些包括設計、定制以及配置問題。一般來說,診斷這些類型的問題的工具還未開發(fā)出來。目前實際可用且可能能夠建立最優(yōu)網(wǎng)絡路由選擇的模型的工具的實例,諸如OpNetTM,其運行需要大量的時間以及專門技能,并且不是通用的。
關于網(wǎng)絡管理的技術現(xiàn)狀,自診斷自主性和可達性測試的加入已改善了損壞設備的診斷的成功率和速度。多年來沒有較大改變的通常已知的熱圖概念一般在涉及過度利用(overutilization)的辨識和防止問題上保持有效。但是,這些工具不是百分之百有效的,當這些工具未能診斷的問題出現(xiàn)的時候,解決工作常常變得混亂并且具有不可接受的持續(xù)時間。之所以這些問題變得難以控制的原因常常是因為,一旦這些工具未能提供針對一個問題的結論性診斷,就依然沒有針對診斷和解決的有序過程或方法,結果是沿用“所有”可能的診斷途徑,這拉長了解決時間并且增大了使問題更復雜的風險。
根據(jù)上文,目前網(wǎng)絡問題確定的技術可能遇到了一個或更多的問題。例如,當有性能或停機問題的時候,它可能是由物理問題、邏輯問題或容量問題所引起的。物理和邏輯問題的補救一般需要故障組件的替換或修復,而不管它是設備中的主板(logic board)還是一個版本的軟件。容量問題的補救一般包括增加容量或調節(jié)系統(tǒng)調諧。當診斷工具未能獲得停機或性能差的實例的真正原因的時候,問題解決工作常?;氐竭@樣的各種嘗試,即諸如交換卡、清潔電纜、改變軟件和微碼級別、增加容量、重新調諧系統(tǒng)等等的全面試錯法。所希望的是這些改變(通常一次進行一種)中的一個可以給出肯定的結果。
這種方法的缺陷包括花費太多的時間,它是有風險的,而且它傾向于使硬件、軟件和系統(tǒng)人員彼此競爭。更具體的是,在管理工具未能導致現(xiàn)有問題的正確診斷的時候回到散網(wǎng)式方法(shotgun approach),存在這樣的風險,即對系統(tǒng)進行的試錯補救努力改變可能使狀況更糟。例如,當存在難于診斷的硬或間歇性問題的時候,補救努力可能包括重插拔卡和交換或清潔電纜,而這些努力中的每一個都使該問題加重。作為說明地,重插拔卡可能導致插針彎曲,從而使問題惡化。類似地,清潔電纜連接器、改變微碼級別或交換卡有將新問題引入系統(tǒng)的風險。類似地,交換電纜路徑來測試替換的連通性可能需要改變電纜交換設備設置,這是一個易出錯的過程,其可能會引起其他的問題而使狀況更糟。
目前用于故障診斷的方法通常包括,例如,檢查RAG控制臺(例如NetViewTM或OpenViewTM)上指示損壞或狀態(tài)未知的設備的紅色或黃色圖標,并修理損壞的設備。也可以檢查已知的過度利用的鏈路的熱圖報告,以及沿著涉及問題的路徑檢查過度利用的MIB值。作為對策,可以制定,如果存在資源的過度利用就增加容量或減少通信量。如果通過前面的兩個動作中的任何一個都沒有修復問題,那么就可按任何由管理所認可的順序,對系統(tǒng)和系統(tǒng)的度量進行改變(其中對系統(tǒng)的改變包括諸如重插拔、交換和替換硬件以及修改軟件和微碼此類的動作;而對網(wǎng)絡的數(shù)學或度量的改變包括增加容量或改變調諧)。在目前的方法中,如果管理控制臺和MIB工具的使用未能帶來解決方案,那么在對策的希望中,可無特定順序地嘗試有風險且費時的探查和推測性的系統(tǒng)改變。
發(fā)明內容
在本發(fā)明的一個方面,提供一種用于管理網(wǎng)絡的方法。該方法包括步驟對具有一個或多個網(wǎng)絡組件的網(wǎng)絡的性能建模,以根據(jù)網(wǎng)絡速度、等待時間、調諧和利用的任一組合定位數(shù)學上受損的網(wǎng)絡組件的實例;以及根據(jù)建模對與該一個或多個網(wǎng)絡組件相關的一個或多個參數(shù)進行修改,以改善網(wǎng)絡性能。
在本發(fā)明的另一方面,提供了一種用于管理網(wǎng)絡性能的方法。該方法包括步驟創(chuàng)建具有一個或多個網(wǎng)絡組件的網(wǎng)絡的基線網(wǎng)絡模型,并將MIB數(shù)據(jù)添加到該基線網(wǎng)絡模型中,以創(chuàng)建當前條件的模型。該方法還包括步驟查驗該網(wǎng)絡中的路徑以檢驗當前條件的模型,根據(jù)通過查驗檢驗過的當前條件的模型識別該路徑的最優(yōu)調諧,以及根據(jù)識別出的最優(yōu)調諧修改該一個或多個網(wǎng)絡組件中至少一個的一個或多個參數(shù),以至少沿著該路徑改善網(wǎng)絡性能。
在本發(fā)明的另一方面,提供一種用于管理網(wǎng)絡的系統(tǒng)。該系統(tǒng)包括用于對具有一個或多個網(wǎng)絡組件的網(wǎng)絡的性能建模,以至少根據(jù)網(wǎng)絡速度、等待時間、調諧和利用中的任何一個定位數(shù)學上受損的網(wǎng)絡組件的實例的裝置;以及用于根據(jù)上述建模對一個或多個網(wǎng)絡組件進行修改,以至少沿著該網(wǎng)絡的一路徑改善網(wǎng)絡性能的裝置,其中該一個或多個網(wǎng)絡組件包括網(wǎng)絡組件參數(shù)和網(wǎng)絡組件配置中的至少任何一個。
在另一方面,提供一種計算機程序產(chǎn)品,包括計算機可用介質,該介質具有包括在該介質中的可讀程序代碼。該計算機程序產(chǎn)品包括至少一個組件以對具有一個或多個網(wǎng)絡組件的網(wǎng)絡的性能建模,以至少根據(jù)網(wǎng)絡速度、等待時間、調諧和利用中的任何一個定位數(shù)學上受損的網(wǎng)絡組件的實例;以及根據(jù)上述建模對與該一個或多個網(wǎng)絡組件相關的一個或多個參數(shù)進行修改,以改善網(wǎng)絡性能。
圖1是本發(fā)明示例性環(huán)境的實施例的框圖;圖2A和2B是經(jīng)由路由器的兩跳客戶機與服務器連接的示例性實施例;以及圖3-10是示出使用本發(fā)明的步驟的實施例的流程圖。
具體實施例方式
本發(fā)明總體涉及用于使用網(wǎng)絡資產(chǎn)管理數(shù)據(jù)(諸如來自用戶文檔、路由跟蹤(Traceroute)和其它探查發(fā)現(xiàn)命令或技術,以及來自例如網(wǎng)絡管理工具VitalNetTM和Concord e-Health)來創(chuàng)建網(wǎng)絡連通性的數(shù)據(jù)庫模型的系統(tǒng)和方法,其中網(wǎng)絡資產(chǎn)管理數(shù)據(jù)包括諸如設備類型、位置以及鏈路速度的屬性。這個模型包括網(wǎng)絡設備以及連接它們的通信鏈路的描述。每一個這樣的設備-鏈路-設備連接稱為一個“網(wǎng)絡跳”。包括在該數(shù)據(jù)庫的初始設置中的是這樣的數(shù)據(jù),根據(jù)該數(shù)據(jù)可以執(zhí)行網(wǎng)絡的基線數(shù)學分析;包括鏈路端點位置(或距離)、設備位置和設備等待時間。查驗(pinging)是使用較長和較短的彼此隔離且以短脈沖串傳輸?shù)牟轵灠鼇韴?zhí)行的,以為基線網(wǎng)絡性能的分析提供數(shù)據(jù),該分析是獨立的文檔和基于MIB的基線分析。
通常,“網(wǎng)絡基線性能”指的是在處理單個新用戶執(zhí)行單個、特定的任務的工作中不存在其它用戶的網(wǎng)絡(即,網(wǎng)絡路徑)的性能。這樣基線化回答這樣的問題,即諸如“每一個端到端網(wǎng)絡路徑上的最佳可能的文件傳輸速率是多少,以及每一個端到端網(wǎng)絡路徑上的最佳可能的網(wǎng)絡級事務響應時間是多少?”。
除了基線性能之外,該系統(tǒng)和方法還提供對網(wǎng)絡的當前性能的分析?!熬W(wǎng)絡當前性能”一般指的是在處理單個新用戶執(zhí)行單個、特定任務的工作中在其當前利用下的網(wǎng)絡的性能。這樣確定網(wǎng)絡的當前性能回答了這樣的問題,即諸如“每一個端到端網(wǎng)絡路徑上的當前可達到的最佳可能的文件傳輸速率是多少,以及每一個端到端網(wǎng)絡路徑上的當前可達到的最佳可能的網(wǎng)絡級事務響應時間是多少?”。
除了確定網(wǎng)絡的基線和當前性能水平之外,本發(fā)明的系統(tǒng)和方法還能夠對網(wǎng)絡的潛在改變建立容易和準確的“假設分析”模型,這些對網(wǎng)絡的潛在改變諸如影響其他通信流的性能、鏈路速度增加或客戶機和服務器之間的距離的改變。通過提供對于因為隊列堵塞、傳播延遲或網(wǎng)絡通信流的較慢串行化或處理而正在使網(wǎng)絡連接之上的總性能變慢的組件的快速識別,使這一級別的分析能力構建到網(wǎng)絡資產(chǎn)數(shù)據(jù)庫中也有助于問題分析和解決。
一旦根據(jù)網(wǎng)絡資產(chǎn)數(shù)據(jù)庫構造了網(wǎng)絡的模型,并且通過對查驗結果或用戶通信流的分析而使其得到了驗證,它就可以使用在網(wǎng)絡管理和問題解決方法中,其中系統(tǒng)控制臺識別損壞的設備(如果存在任何損壞的設備的話),然后該網(wǎng)絡模型識別任何的性能問題。通過高度成功地識別性能問題,使用該新方法能夠將基于問題解決目的而執(zhí)行的有風險的試錯法系統(tǒng)改變保持在最低限度。
因此,本發(fā)明為一個或多個網(wǎng)絡段(例如一個或多個跳躍或端到端)提供度量和觀測到的性能數(shù)據(jù),以便可完成網(wǎng)絡中削弱了的性能的識別,并且可以通過設置合理的服務級別協(xié)議和期望來避免問題。本發(fā)明還提供建立調諧需求,并迅速識別性能差是否由網(wǎng)絡所引起,如果是的話,則提供該問題在該網(wǎng)絡中出現(xiàn)的所在以及出現(xiàn)的原因。另外,本發(fā)明可以提供基于所建議的對網(wǎng)絡中一個或多個組件的改變的性能影響的預測,從而有助于利用有效的網(wǎng)絡改變來補救問題。
為了改進該技術,提出了一個新的不同點,其中系統(tǒng)問題被特征化為數(shù)學上或非數(shù)學上的。本發(fā)明的系統(tǒng)和方法使用功能上完全數(shù)學的系統(tǒng)特征化,以便創(chuàng)建用于問題辨識和解決的系統(tǒng),其中對物理和邏輯系統(tǒng)組件的破壞性改變只在必要的時候才執(zhí)行?!皵?shù)學”問題指的是由容量、利用、等待時間或調諧問題所導致的性能問題。
這樣,網(wǎng)絡性能分析提供了增強網(wǎng)絡故障診斷技術,以便限制在問題確定和修復期間執(zhí)行的破壞性系統(tǒng)改變的機會。在該新的方法中,當網(wǎng)絡控制臺未能提供準確診斷的時候,建立網(wǎng)絡容量和調諧的完全數(shù)學的模型可以用來修復或排除該問題的潛在“數(shù)學”原因。如果數(shù)學上的改變被認為得到批準(例如,容量的增加或調諧的改動),那么該改變就可按其將成功的高度置信度來加以執(zhí)行。本發(fā)明的系統(tǒng)和方法是對當前方法的改進。在本發(fā)明之前的方法中,當RAG控制臺未能識別問題的時候,該問題可能是數(shù)學上的(即,調諧或容量),否則該問題就可能是需要修復或以其他方式改變的資源,并且該問題的工作會變得混亂。在本發(fā)明中,對于更加困難的問題(例如,沒有被RAG控制臺識別的那些),該系統(tǒng)和方法可以識別該問題是否是數(shù)學上的,從而使風險降低并且增進了問題解決的速度。
作為一個實例,假設在網(wǎng)絡連接的中間存在專門的存儲轉發(fā)中繼設備。進一步假設它不包含標準MIB,因為它是新近開發(fā)出的技術,并且因為它可能正在執(zhí)行專門的功能,諸如從操作系統(tǒng)通道協(xié)議轉換到廣域網(wǎng)協(xié)議。最后,假設它的緩沖區(qū)已經(jīng)依照廠家提供的默認值而加以設置了,并且所分配的緩沖區(qū)的數(shù)目是不夠的且其正導致連接失敗。通常,這個問題的數(shù)學方面(例如分派適當數(shù)目的緩沖區(qū))可能直到種種有風險、費時的物理和邏輯動作(諸如換出硬件和軟件組件或電纜清潔和替換)已經(jīng)被執(zhí)行了才由技術人員所解決。
但是,本發(fā)明的系統(tǒng)和方法通過提供由下面描述的分析方法從網(wǎng)絡資產(chǎn)管理和查驗-測試數(shù)據(jù)導出的網(wǎng)絡的數(shù)學分析,以便可以得知連接上的傳播延遲、流速度、會話速度以及設備等待時間,而提供了一種改進的解決方案。根據(jù)此數(shù)據(jù),如下所述的,可以容易地(或甚至自動地)計算窗口大小和緩沖區(qū)大小要求。因此,緩沖區(qū)大小的調諧要求可以容易地獲得,并且使問題可以容易得到診斷或可能避免其開始等,而且在這個實例中大量的破壞性交換、重插拔、重新定制、清潔等等可得以避免。
在某些方面,該用于問題解決的系統(tǒng)和方法提供至少下列內容-檢查RAG控制臺中指示損壞或狀態(tài)未知的設備的紅色或黃色圖標(例如NetViewTM或OpenViewTM)。
-檢驗匹配影響終端用戶的問題的簡檔(profile)的網(wǎng)絡容量或調諧問題的數(shù)學模型。
-如果問題未由前面的動作所修復,則進行系統(tǒng)改變直到該問題被修復,其中的系統(tǒng)改變包括例如換出卡、換出設備、改變微碼、交換電纜、清潔通信電纜、改變應用程序以及重插拔卡。
圖1是本發(fā)明的示例性環(huán)境的實施例的框圖,該示例性環(huán)境總體由參考標號100表示。環(huán)境100可以包括用于運行性能跟蹤、模型建立和基線軟件的性能管理服務器105。還可以包括用于顯示所監(jiān)控的網(wǎng)絡部件和狀態(tài)的儀表板110(即,顯示器),以及用于在性能管理服務器105的控制下存儲性能和狀態(tài)數(shù)據(jù)的性能數(shù)據(jù)庫115。
該示例性環(huán)境100還可以包括一個或多個網(wǎng)絡鏈路125A-125D以及適合于它們在該網(wǎng)絡中的位置和功能的各種網(wǎng)絡組件120A-120I,諸如網(wǎng)絡設備、路由器、應用、橋、網(wǎng)關、服務器等。網(wǎng)絡組件120A-120I中的每一個也可以包括依照每一個網(wǎng)絡組件的類型和職責由該組件進行維護的管理信息庫(MIB)。
在本發(fā)明中,可以對網(wǎng)絡中的每一跳(即,整個網(wǎng)絡中的每一跳或端到端路徑中的每一跳)進行分析,以提供在一個時期段中與每一跳的性能有關的度量。正如本領域的普通技術人員會認識到的,這些度量可以包括,但不限于-與該跳相關的速度,其可以包括理論的和參數(shù)控制的速度。
-傳播延遲。
-設備等待時間。
-利用(例如,以測量到的與理論的百分比或比率)。
-丟包率。
-入字節(jié)速率。(在特定時間間隔期間在設備的網(wǎng)絡接口上接收到的字節(jié)或八位組數(shù)。該時間間隔是由網(wǎng)絡管理設置的MIB刷新率,其通常以5、10或15分鐘來設置。)-出字節(jié)速率。
-入包速率。(在特定時間間隔期間在設備的網(wǎng)絡接口上接收到的包數(shù)。)-出包速率。
-跨跳的查驗時間,其可以包括對較小和較大包的單獨查驗時間。
這些度量中的利用、丟包率、入/出字節(jié)速率、跳查驗時間以及入/出包速率隨時間而變化。其余的度量(即,速度、等待時間、傳播延遲等等)通常保持不變,除非被有意修改,這可能是由網(wǎng)絡工程師進行的。
根據(jù)這些度量的值,可以針對給定跳來計算性能計算(即,一個或多個性能定級)。一旦計算出,就可以將多跳的各個跳值結合地用來確定網(wǎng)絡路徑的端到端行為,如此以提供對網(wǎng)絡的不同方面的理解,其中包括如下方面(i)特征化不同類型的應用,并計算它們將如何在網(wǎng)絡上執(zhí)行。
(ii)哪一個網(wǎng)絡組件可能形成削弱性能的原因(例如,瓶頸節(jié)點)以及該組件可能引發(fā)削弱性能到什么程度。
(iii)對該網(wǎng)絡中任一鏈路上的任一組件的改變(例如,升級或替換)可能對該整個端到端路徑的性能有什么影響進行預測。
通常,網(wǎng)絡為了支持分布式應用而存在,分布式應用可以特征化為運行在某點要求跨網(wǎng)絡向伙伴傳輸數(shù)據(jù)的代碼的那些應用。通常,數(shù)據(jù)傳輸在用戶應用程序(例如,開放系統(tǒng)互連(OSI)層7)例如對數(shù)據(jù)進行緩沖并且發(fā)出“SEND”命令的時候開始,其中“SEND”命令將要通過API(例如,OSI層6)傳輸?shù)臄?shù)據(jù)轉發(fā)到諸如傳輸控制協(xié)議(TCP)或網(wǎng)際控制報文協(xié)議(ICMP)的功能,以便開始為跨網(wǎng)絡向伙伴傳輸數(shù)據(jù)而格式化數(shù)據(jù)的過程。
應用建檔(profiling)可以用來確定由應用呈現(xiàn)給網(wǎng)絡的通信流的特性。在某種意義上既對業(yè)務線(LoB)人員來說有意義的又可以由網(wǎng)絡人員測量的對應用通信流的實例的特征化使得網(wǎng)絡人員能夠將網(wǎng)絡管理工具收集的數(shù)據(jù)變成關于該網(wǎng)絡滿足LoB需求的程度的準確信息。在一個方面,本發(fā)明的系統(tǒng)和方法通過將有關網(wǎng)絡組件的數(shù)據(jù)處理成關于應用性能的有意義的信息,而提供將網(wǎng)絡性能數(shù)據(jù)與LoB需求相關聯(lián)。
因為應用建檔可能直接與使網(wǎng)絡性能與業(yè)務需求相互關聯(lián)有關,所以應用建檔的準確描述也可以由本發(fā)明的系統(tǒng)和方法來提供。根據(jù)本發(fā)明,可以將應用建檔為包括工作單元組,為了完成,每一工作單元要求特定數(shù)量的字節(jié)以特定數(shù)量的換向(turnaround)(跨網(wǎng)絡的行程)傳送和接收。要由應用執(zhí)行的工作單元的實例包括,但并不限于-會話工作單元,其包括具有“m”字節(jié)的單個傳送以及“n”字節(jié)的單個接收(例如,TN3270查詢/響應)-多換向會話工作單元,其包括“p”次換向,具有所傳送的“m”字節(jié)和所接收的“n”字節(jié)的總數(shù)(例如,使用確認和“get-next(獲得下一個)”功能的基于SQL的數(shù)據(jù)庫行的檢索)-流工作單元,其由要傳送的“n”兆字節(jié)的數(shù)據(jù)組成(例如,文件傳輸應用)該系統(tǒng)和方法還提供要加以特征化的網(wǎng)絡組件,以便可以在下列的一種或多種情況下提供支持應用工作單元的它們的性能的計算-當提供新的工作單元的時候,基線條件是正經(jīng)歷零利用的時候的組件的特征化。
-當向正經(jīng)歷當前(例如,已知的)利用水平的組件呈現(xiàn)工作單元的時候,當前條件該組件的特征化。
-假設分析條件是組件的特征化,在這些組件中在改變的條件下的工作單元的性能是為了建模的目的而加以計算的。
根據(jù)本發(fā)明,網(wǎng)絡組件性能計算可以基于組件的固定度量(例如,速度、設備等待時間和/或距離)和可變度量(例如,利用、平均包大小和/或丟包率)來進行。此外,可以根據(jù)組件的固定和可變度量來計算組件在基線、當前以及假設分析條件下執(zhí)行工作單元的能力。組件的固定度量通常是從資產(chǎn)管理數(shù)據(jù)中導出的,并且其可以在對資產(chǎn)進行改變的時候改變??勺兌攘靠蓮腗IB數(shù)據(jù)中導出,并且其在每當存在MIB的SNMP“get(獲得)”時可以改變,這通常大約每5至15分鐘便發(fā)生,但這是可以變化的。應用簡檔特性也可以得自于蹤跡、應用通信流分析軟件、應用文檔或應用設計者。一旦已經(jīng)建立了基線和當前性能的網(wǎng)絡模型,便可以用這樣的方法來幫助網(wǎng)絡問題解決,即在該方法中系統(tǒng)控制臺和數(shù)學模型被用來定位損壞的設備和容量/調諧問題,以便限制有風險的試錯類型問題解決并且使整個網(wǎng)絡可用性最大化,同時使操作和設備成本最小化。
儀表板的考慮因素
LoB的管理人員和網(wǎng)絡的管理人員可能根據(jù)他們的目標或關心區(qū)域要求反映狀態(tài)的不同儀表板(例如,110)。例如,如果一條路徑中的鏈路故障并且具有適當?shù)男阅艿脑偕酚沙休d著用戶通信流,那么從網(wǎng)絡管理員的角度看存在紅色條件(即,鏈路故障),而從LoB管理員的角度看存在綠色或黃色條件?;蛘?,如果存在丟失或延遲的通信流,則LoB管理員可以看到黃色條件。
由于LoB通常直接或間接地支付網(wǎng)絡費用,所以LoB的管理通常希望了解網(wǎng)絡支持它們的業(yè)務的有效程度。LoB的管理可能希望了解網(wǎng)絡始終如一地以適當安全級別聯(lián)系所有期望伙伴,該安全級別可能是為了可靠性、彈性、性能以及成本有效性而由服務級別協(xié)議(SLA)所強制的。
響應目前的LoB管理需要,網(wǎng)絡管理員可以部署具有鏈路和組件冗余的防火墻保護的IP網(wǎng)絡,如普遍知道的那樣??梢酝ㄟ^發(fā)送查驗(例如,回送包)以及收集MIB數(shù)據(jù)(例如,設備控制塊計數(shù)器記錄)來實現(xiàn)網(wǎng)絡性能的度量。例如,可以由性能管理服務器105來控制度量過程,而結果被存儲在性能數(shù)據(jù)庫115中。
查驗常常用于回答關于可用性和性能的問題,因為當查驗不能成功地進行它們的往返行程的時候,通常這是某網(wǎng)絡組件的不可用性的結果,而當查驗確實成功的時候,可以存儲它們的往返行程時間結果,隨后加以比較,以便查明在查驗傳輸時的性能水平。但是,與常常是依靠IP網(wǎng)絡的TCP協(xié)議的用戶應用通信流不同,查驗是IP之上的ICMP協(xié)議,并且其傾向于經(jīng)歷延遲和丟棄,而這并不是實際用戶通信流正經(jīng)歷的表示。盡管事實是查驗不提供網(wǎng)絡性能和可用性的確切度量,但是查驗在很好地執(zhí)行和表示網(wǎng)絡的性能和可用性以使其成為重要價值方面是容易且低成本的。
盡管查驗最經(jīng)常被執(zhí)行以反映端到端性能,但MIB數(shù)據(jù)反映在用戶指定的時間間隔期間跨網(wǎng)絡的網(wǎng)絡逐個設備和逐個端口的狀態(tài)。對于所特別關心的性能和容量管理,MIB按時間間隔收集并記錄通信流和丟包率,根據(jù)這些通信流和丟包率可以容易地推斷出資源利用。如果查驗正被撤消,或如果查驗往返行程時間正花費比平常要多的時間;那么MIB分析就可以沿著該查驗路徑來執(zhí)行,以沿著該網(wǎng)絡路徑確定哪個特定組件(如果有的話)正遭遇丟棄或過度利用。不管是獨立還是與查驗協(xié)作的MIB數(shù)據(jù)都因此作為問題、容量以及性能分析的基礎。查驗分析用來提供用于基于網(wǎng)絡資產(chǎn)數(shù)據(jù)庫和MIB數(shù)據(jù)的數(shù)學分析的檢查機制。
網(wǎng)絡性能可以依照度量來定義。例如,可以將在9:30AM執(zhí)行的花費835毫秒完成的查驗可以與7AM的562毫秒的查驗進行比較??梢詷擞浧淅眠_到峰值92%或其它預定閾值的鏈路,以便進行升級。此外,指示web應用響應時間是工業(yè)的平均標準以下的第三方度量可以觸發(fā)對邊緣網(wǎng)絡服務的提供者的調用。在所有這些實例中,技術分析員或管理員都使用度量作為決策的基礎。
本發(fā)明的系統(tǒng)和方法提供根據(jù)網(wǎng)絡度量提取正確的推斷,不管該推斷涉及問題、調諧、服務級別還是所建議的改變的建模。該系統(tǒng)和方法提供至少以下各項-確定單或多跳連接的網(wǎng)絡度量,-計算連接的度量對它所服務的各應用的復合影響,-隨后是用于全面、經(jīng)濟的問題解決的算法過程,以及-提供一種用于準確確定在哪里以及何時在基礎結構方面投資的方法。
進一步地,可以包括能夠捕獲蹤跡并存儲在接口上發(fā)現(xiàn)的所有包的新工具,從而擴展并最大化當前工具投資的使用,同時在有意義的地方和時間提供有序的投資路徑并實現(xiàn)更新工具技術。此外,該系統(tǒng)和方法提供了使網(wǎng)絡服務級別管理與業(yè)務需求匹配的基礎,并且提供了智能、準確和前攝的問題避免和解決的基礎。
收集網(wǎng)絡性能數(shù)據(jù)網(wǎng)絡性能數(shù)據(jù)通常來自于一個或多個可包括查驗、MIB數(shù)據(jù)、蹤跡數(shù)據(jù)以及用戶文檔的源。
查驗查驗(ping)包括由ICMP發(fā)送和接收的回送包,ICMP也計算查驗的總的往返行程時間。由于ICMP通常是幾乎所有TCP/IP棧的組件,所以如果用戶可以訪問能夠發(fā)送查驗的設備,并且如果查驗不是被路由器過濾器所阻塞的,那么幾乎所有IP設備都響應此設備的查驗。簡而言之,查驗一般是各處可用的,它是低成本的,并且它容易使用。
一種查驗策略是使用普遍知道的“Traceroute(路由跟蹤)”命令來確定例如沿著一條路徑的路由器的出現(xiàn)和順序,然后根據(jù)該確定,沿著該路徑將查驗從測試站源發(fā)送到每一路由器,然后發(fā)送到端點目標。以這種方式,可以沿著該路徑觀察延遲的增大。
一般而言,如果對一個目標執(zhí)行多個查驗,那么該組查驗中具有最小往返行程時間的查驗表示通過該網(wǎng)絡最佳可能的時間,因此,表示基本的基準網(wǎng)絡物理特性。由于所有到該目標的查驗都歷經(jīng)相同的基準網(wǎng)絡物理特性,所以如果一個查驗花費比最小時間多的時間來遍歷該網(wǎng)絡,那么所有額外的時間包括花費在等待來自繁忙網(wǎng)絡設備的服務的網(wǎng)絡隊列上的時間。
盡管查驗可能是豐富信息性的,但是還存在應該加以考慮的限制。每一個限制反映了基本事實的某個方面,該基本事實是查驗不是終端用戶通信流。首先,查驗開銷本身可能為網(wǎng)絡增加壓力。測試表現(xiàn)較差且可能已經(jīng)過度利用的網(wǎng)絡的查驗可能助長差性能。第二,使路由器作為目標或起點的查驗測試可能顯示出顯著高于網(wǎng)絡中實際用戶通信流正接收的等待時間和丟包率。這更高的等待時間通常是因為與由路由器處理的用戶通信流不同,到路由器的查驗通過路由器的ICMP棧,查驗在其中是以很低的優(yōu)先級備處理的。第三,對于到終端站目標的查驗測試來說,如果實際用戶應用正在TCP上運行,那么查驗測試只能夠通過度量ICMP性能來模擬端到端的性能。此外,用于查驗ICMP通信流的路由器路徑可能不同于由用戶TCP通信流所采用的路由器路徑。第四,資源的查驗通常是一般每隔幾分鐘便發(fā)生。如果出現(xiàn)持續(xù)一分鐘或更少時間的通信流的尖峰,那么查驗可能不能識別它們。這個事實使得查驗方法對于某一高度的簡檔性能問題(諸如中介交易廳的多點傳送微爆以及影響web站點的臨時通信流尖峰)的診斷效果降低。
MIB數(shù)據(jù)通常,MIB數(shù)據(jù)駐留在路由器以及其它網(wǎng)絡設備的控制塊中。MIB數(shù)據(jù)的實例可以包括在十五分鐘間隔期間在接口入字節(jié)和出字節(jié)的計數(shù)以及路由器CPU利用的度量。由SNMP來輪詢設備MIB,以便收集供在分析或趨向中使用的性能數(shù)據(jù)。
但是,與不是用戶通信流的查驗不同的是,對于網(wǎng)絡分析員來說,MIB有這樣的優(yōu)勢,即包括作為實際用戶通信流和設備狀態(tài)的計數(shù)和度量的統(tǒng)計。但是,盡管查驗提供了用于獲得端到端性能的描述的快速且容易的手段,但MIB僅給出了個別組件的詳細視圖,并且當前沒有根據(jù)MIB數(shù)據(jù)導出端到端性能評估的系統(tǒng)的方法。該系統(tǒng)和方法提供了一種用于使用MIB數(shù)據(jù)分析通信網(wǎng)絡(即,其端到端網(wǎng)絡連接)的分析方法。此外,該系統(tǒng)和方法提供了使用查驗分析作為檢查機制來克服已知的MIB數(shù)據(jù)的不準確性。本發(fā)明進一步的目的是使用新的MIB分析方法的結果來克服已知的查驗分析中的不準確性。
單或多跳網(wǎng)絡路徑的數(shù)值分析本發(fā)明的系統(tǒng)和方法提供對網(wǎng)絡路徑執(zhí)行數(shù)值分析,其包括至少沿著該路徑確定速度、長度、設備特性以及利用,這可以包括單跳路徑的數(shù)值分析和/或多跳路徑的數(shù)值分析。
單跳路徑分析基于下列兩個原因,單跳分析可能是有價值的。第一,通常,多跳終端用戶連接的任何詳細分析都需要對組件跳的理解。第二,根據(jù)多跳端到端連接的各個跳的和可以構造該多跳端到端連接的準確視圖。但是,確定多跳連接上的網(wǎng)絡性能可能會需要額外的考慮,這將在下面的多跳分析部分中描述。
單跳連接性能可以由四個度量來特征化,如下面進一步論述的那樣。這四個度量包括鏈路速度、傳播延遲、設備等待時間以及利用(其根據(jù)數(shù)學函數(shù)與性能影響排隊相關)。
鏈路速度鏈路速度可以通過對諸如調制解調器(模擬鏈路)、數(shù)字服務單元(DSU)/信道服務單元(CSU)(數(shù)字鏈路)、網(wǎng)絡接口連接(NIC)(LAN)或吉比特接口轉換器(GBIC)(光纖信道)的連通性的計時來確定。速度計時確定商用機器的鏈路輸出隊列上的字節(jié)流被切為位并放置在網(wǎng)絡上的速度。使所發(fā)送消息的字節(jié)變成位所花費的時間稱做串行化時間。消息的串行化時間的公式可以數(shù)學地規(guī)定為(串行化的字節(jié)*8)/鏈路速度=串行化時間(等式1)例如使用19.2kbps調制解調器跨單跳網(wǎng)絡單向發(fā)送的1200字節(jié)消息得出這樣的計算8*1200/19200=9600/19200=0.5s。
傳播延遲傳播延遲與示例性NIC、調制解調器,DSU/CSU或GBIC所傳播的信號行進的距離成比例。在廣域網(wǎng)中,信號通常以略小于光速的一半的速度行進,用于估算廣域網(wǎng)連接的傳播延遲的適宜公式可以由下式來描述(鏈路距離/186000)*2.1=傳播延遲 (等式2)例如,連接紐約市與舊金山的數(shù)據(jù)鏈路(大約2582英里的距離)的傳播延遲可以通過下式來計算(2582英里/186000)*2.1=29ms單向傳播延遲,估算。
設備等待時間設備等待時間是沿著傳輸路徑的設備處理包所需的處理時間。對于處于連接的中間的路由器來說,包處理可以包括接收包、執(zhí)行校驗和處理以及確定通過哪個端口來轉發(fā)該包。在第一代路由器中,這一處理的一部分是由路由器的CPU來執(zhí)行的,并且每個包的平均處理時間是4毫秒。更多近來的路由器在沒有CPU介入的情況下處理包,設備等待時間通常小于1毫秒,即使在使用諸如QoS(服務質量優(yōu)先級排隊)的復雜功能的時候也是如此。類似地,在其TCP或ICMP層可能涉及到傳輸中的網(wǎng)絡的端點處,在比較老的設備中普遍使用3或4毫秒設備等待時間,但是在目前的終端設備中,設備等待時間一般也顯著小于1毫秒。一個值得注意的例外是在查驗路由器的時候。當路由器作為查驗的目標的時候,它的處理器通常涉及到ICMP包的處理之中,并且這是以最低的優(yōu)先級進行的。在被查驗的時候,路由器通常顯示出比當它們僅作為通信流的網(wǎng)中轉發(fā)器時更高的等待時間以及更大比例的丟包率。
利用利用影響用戶通信流,因為當提供服務的設備已經(jīng)被其它設備使用時,則到達該服務器的新通信流通常必須在服務的隊列中等待,直到前面的通信流已被處理為止。利用對單跳連接的影響是直接的。凡是由其它設備使用中的設備對于新用戶都不可用。如果19.2kbps鏈路的利用是30%,那么該鏈路的70%是可用的,所以可用帶寬是0.7*19200=13440bps可用帶寬?;诳捎脦捰嬎阈阅芙o出了包括串行化時間加上隊列影響的結果。例如,如果19.2kbps的鏈路被50%利用,那么對于進入該跳的1200字節(jié)包的新通信流來說,該鏈路上的可用帶寬要求0.5*19200=9600bps可用帶寬的排隊和串行化時間,并且由于1200字節(jié)包的長度是9600位(1200字節(jié)*8位),所以隊列加串行化時間的公式是
消息大小/可用帶寬=隊列時間加串行化時間(等式3)結果導出9600位消息/9600bps帶寬=1秒隊列時間加串行化時間。
此外,由于隊列時間加服務時間等于1秒,并且由于鏈路速度是19200bps,所以當1200字節(jié)消息被串行化為9600位的時候,串行化花費了0.5秒來進行。由于串行化加隊列時間合計為1秒,并且由于串行化部分是0.5秒,所以隊列時間因此也是0.5秒。
多跳路徑分析終端用戶通信流實際上常常改變,并且通常遍歷它的端到端網(wǎng)絡路徑中的幾個跳。為了更正確地設置服務級別協(xié)議閾值并正確地對網(wǎng)絡數(shù)據(jù)應用數(shù)值分析,有必要理解不同類型的用戶應用怎樣在多跳網(wǎng)絡中表現(xiàn)。
圖2A和2B是經(jīng)由路由器的兩跳客戶機到服務器連接的示例性實施例。圖2A示出了具有相同速度(即,9.6kbps)的兩跳220和225的兩條鏈路,圖2B示出了一個類似的配置,而第二跳230具有不同于第一跳220的速度(即9.6kbps)的速度19.2kbps。
參照圖2A,如果在客戶機205處的用戶發(fā)送1200字節(jié)包到服務器215,那么跨該連接的端到端網(wǎng)絡速度(串行化速率)因此是4800位每秒。但是,從客戶機205跨該網(wǎng)絡發(fā)送到服務器的文件的網(wǎng)絡速度(串行化速率)是9600位每秒。
圖2A的這兩個表面上相等的實例的結果是不同的(下面論述了原因),這意味著對于多跳網(wǎng)絡來說,從端到端的觀點看,對于問題“網(wǎng)絡的速度是多少”來說沒有單個“正確”答案。答案取決于應用的類型,可以對于會話、突發(fā)以及流應用有所不同。這對于服務級別協(xié)議來說具有深刻的含義。
這兩個不同的示例性應用的不同速度的原因可以這種方式找到,即其中當代路由器處理包。在當代路由器接收包的時候,路由器在處理包之前接收整個包。路由器可以執(zhí)行代數(shù)校驗和處理,來確定是否有任何位已丟失或被破壞。如果被損壞,則該包被簡單地丟棄。如果未丟失或被破壞,那么就可以執(zhí)行一些附加處理,以從正確端口路由出該包以使其沿著該路徑移動。可以引發(fā)進一步的處理來處理最大傳輸單元(MTU)段或QoS排隊。在以前,此處理的總和稱為“設備等待時間”,而在最新一代的路由器中,此處理常常在亞毫秒時間內進行。
盡管亞毫秒設備等待時間不是很大的問題,但路由器在處理包之前引入整個包的事實是相當重要的,因為它意味著路由器正執(zhí)行存儲-轉發(fā)操作。這含義是,在多跳、層3網(wǎng)絡中,在每一跳處重新串行化該包。所以,上面圖2A的表面上對立的結果可以得到解釋,因為4800bps結果來自于這樣的事實,即當客戶機205發(fā)送9600位包的時候,存在使它到達路由器210所需的一秒串行化時間。在路由器210接收并處理該包之后,該路由器的調制解調器重新串行化該包,并將它轉發(fā)到服務器215。這重新串行化花費了另一秒。在這個示范性網(wǎng)絡中,花費了合計兩秒的端到端串行化來發(fā)送9600位包。兩秒的時間來執(zhí)行9600位的工作意味著端到端串行化速率因此是4800bps。
但是,對于諸如文件傳輸?shù)牧鲬脕碚f,網(wǎng)絡的串行化速率接近于連接路徑中瓶頸設備的速度。在圖2A的第二個實例中,有兩個9600bps鏈路,它們包括兩個相等的瓶頸,因此從流應用的觀點看,該網(wǎng)絡的速度是9600bps。
多跳網(wǎng)絡中速度的另一觀點是距離之上的包處理(PHOD)。PHOD度量的合適載體是1000字節(jié)查驗的端到端處理,這可以稱為網(wǎng)絡的“1kPHOD速度”。作為一個實例,假設網(wǎng)絡具有3000英里的端到端距離,其中包括兩個T1跳,并且兩個終端站和該網(wǎng)絡中間的路由器各自具有500微秒設備等待時間。假定該網(wǎng)絡以零利用運行(即,沒有其它用戶的通信流),則往返行程查驗時間和1kPHOD速度可以特征化如下。
往返行程時間是“兩倍的”單向時間(假定輸出和輸入路徑相同)。單向時間包括單向穿越該路徑所招致的設備等待時間、傳播延遲以及串行化時間的和。在該情況下,在該單向路徑中設備等待時間總數(shù)為3*0.0005=0.0015秒;傳播延遲是(3000英里/186000bps)*2.1(調整系數(shù))=0.0339秒;第一跳的串行化時間是1000字節(jié)*8位/1536000(通常且已知可用的T1bps)=0.0052秒;單向路徑上的第二跳的串行化時間是1000*8/1536000=0.0052秒,所以總的1向串行化時間是0.0104秒(第一跳加第二跳);總的單向查驗時間是0.0015+0.0339+0.0104=0.0463秒;總的往返行程查驗時間是(雙倍的單向時間)=0.0926秒;PHOD速度=所完成的工作/所用時間。所以1k包的往返行程PHOD是1k PHOD速度=1000字節(jié)*2向*8位/0.926=16000/0.0926=172786bps。
同樣,如果對長800英里但是在其它所有方面與前面的實例相同的網(wǎng)絡進行測試,那么該網(wǎng)絡的1000字節(jié)單向查驗時間應該是0.0209秒,總的(往返行程)查驗時間應該是0.0418秒,這個(除了距離之外都相同的)連接的1k PHOD速度應該是382775bps。
網(wǎng)絡分析員常常參照跨網(wǎng)絡的64字節(jié)查驗結果來定義網(wǎng)絡的等待時間。由于許多服務級別協(xié)議是基于短(常常是64字節(jié))查驗的往返行程查驗時間的,因此單個短查驗表示沿著該路徑的(i)設備等待時間、(ii)串行化、(iii)傳播延遲以及(iv)排隊的沿著該路徑的往返行程時間。但是,相反,沿著一條路徑的一“大”組查驗中的最佳查驗時間表示(i)設備等待時間、(ii)串行化、(iii)傳播延遲的往返行程時間,而沒有任何排隊。
此外,盡管查驗提供會話應用(諸如TN3270查詢-響應)如何跨網(wǎng)絡連接表現(xiàn)的合理表示,但是各個查驗并不自己提供用于估計流應用(諸如文件傳輸協(xié)議(FTP))的性能和它們在相同連接上的表現(xiàn)的合理手段。上面PHOD速度的基于查驗的計算實例將此示出的很清楚-3000英里網(wǎng)絡具有172.8kbps的PHOD速度,另外相同的800英里網(wǎng)絡具有382.8kbps的PHOD速度,盡管實際上這些網(wǎng)路中的每一個的流速度(大文件傳輸可以得以處理的速度)是相同的,接近T1速度1532kbps。
因此,可以推斷出跨適當調諧了的連接的流應用是基本上不受跳的數(shù)量和距離的影響的;然而,查驗和會話應用可能對跳的數(shù)量和距離是高度敏感的。當設置然后度量對服務級別協(xié)議的符合性的時候,查驗最多有時準確地表示終端用戶體驗的一部分,而很少準確地描述整個范圍。
通過查看端到端利用可以進一步舉例說明查驗的限制??紤]圖2B的實例,圖2B示出了具有不相同的鏈路速度(即,9.6kbps和19.2kbps)的兩跳網(wǎng)絡220和230。連接的流速度有效地是它的瓶頸設備的速度,所以在這一連接中,流速度是9.6kbps。該網(wǎng)絡的會話速度可以通過確定包的串行化速率來計算,而不用考慮設備等待時間或傳播延遲。可以通過用跨該網(wǎng)絡的包的總串行化時間來除該包中的位數(shù),來計算會話速度。在沒有一般性損耗的情況下,考慮1200字節(jié)包。對于總的1.5秒串行化時間來說,它的9600位具有在第一跳上的1秒的串行化時間以及在第二跳上的0.5秒。所以,根據(jù)本發(fā)明,該網(wǎng)絡的會話速度是6400bps,如數(shù)學地示為所執(zhí)行的工作/串行化時間=9600位/1.5秒=6400bps。(等式4)例如,假設平均起來在十五分鐘間隔期間,在該網(wǎng)絡的9.6kbps部分(例如,鏈路220)上具有0%的利用,而在該網(wǎng)絡的19.2kbps部分(即,鏈路230)上具有50%的利用。那么,根據(jù)該系統(tǒng)和方法,從會話應用的觀點看,可以如下面的解釋所示的那樣來理解和計算當前可用帶寬。
由于1200字節(jié)包跨具有0%的利用的9.6kbps跳的串行化時間是1秒,而跨具有50%利用的19.2kbps跳的串行化時間也是1秒,并且因為當前可用帶寬是9.6kbps(即,平均起來,19.2kbps設備的50%是對用戶可用的),那么在這個示例性當前利用之下,對于1200字節(jié)包來說,端到端串行化時間是2秒。因此,基于該1200字節(jié)的包大小當前可用的會話速度=9600位(所完成的工作)/2秒(總時間)=4800bps。(等式5)由于該網(wǎng)絡的會話速度是6400bps(根據(jù)等式4),所以端到端會話利用是(1-(當前可用的會話速度/會話速度))*100=(1-(4800/6400))*100=25%會話利用。
(等式6)因此,從流應用的觀點看,當前可用的網(wǎng)絡瓶頸是9600bps,這是在0%利用的9.6kbps跳(即,鏈路220)上當前可用的,也是在50%利用的19.2kbps跳(即鏈路230)上當前可用的。從流應用的觀點看,當前利用是0%,因為該網(wǎng)絡的流速度=9600bps,而當前可用的網(wǎng)絡速度是9600bps,所以流利用=(1-(9600/9600))*100=0。
根據(jù)這個示例性實例,一個網(wǎng)絡跳上的利用對流和會話應用通信流的端到端影響非常不同,這意味著從端到端的角度看,在多跳網(wǎng)絡中不存在表示利用的單個數(shù)值。而是,根據(jù)本發(fā)明,通過用于網(wǎng)絡的會話和流速度的單獨計算,使得利用得以更好地描述。
從SLA的角度看,清楚的是,最多反映會話通信流的行為的方面的查驗可以不單是終端用戶體驗的全體的SLA構造或SLA監(jiān)視的堅實基礎。類似地,根據(jù)MIB數(shù)據(jù)推斷個別組件的利用對端到端連接的性能影響常常是不可能的,并且根據(jù)MIB數(shù)據(jù)來計算設備等待時間或傳播延遲是不可能的。該系統(tǒng)和方法合并查驗和MIB數(shù)據(jù),促進了該技術,提供了調解這些缺陷的全面視圖,并且提供了SLA信息和評估的堅實基礎,其好處是還提供了問題檢測、問題分析、調諧以及容量計劃的堅實基礎。
使用MIB數(shù)據(jù)和查驗結果的網(wǎng)絡數(shù)值分析為了管理網(wǎng)絡,所期望的是理解支持終端用戶應用的網(wǎng)絡的基線能力和在當前(負荷)條件下支持終端用戶應用的網(wǎng)絡的能力。下列數(shù)據(jù)輸入提供了確定這種信息的基礎
-對要由構成網(wǎng)絡路徑的特定路由器和端口管理的該路徑的識別,-對在定時間隔期間在這些端口處的MIB數(shù)據(jù)、每定時間隔入和出字節(jié)以及每定時間隔丟失的包的收集,-較長或較短長度彼此隔離地進行的查驗,其中較長的查驗不超過沿著該路徑的任何接口的MTU大小,以及-指定在每一個接口處的(輸入和輸出)速度的用戶文檔或MIB數(shù)據(jù)。
給定這一輸入,該系統(tǒng)和方法提供可以對每一個這樣的路徑執(zhí)行的分析,該分析計算下列輸出,包括-路徑的基線和當前可用的流速度,-網(wǎng)絡的基線和當前可用的會話速度,-網(wǎng)絡的等待時間,由沿著路徑的設備等待時間加傳播延遲組成,-路徑的當前流利用,-路徑的當前會話利用,以及-沿著路徑的當前隊列時間。
根據(jù)本發(fā)明,以上的輸出可以用作對具有一個或多個下列輸出的應用、調諧以及容量建模分析的輸入-流應用的基線和當前性能,-單和多換向會話應用的基線和當前性能,-在基線和當前條件下流應用的調諧,以及-對于用戶指定的改變的條件的任一組合對于以上全部進行“假設分析”建模,其中改變的條件是服務器或客戶機移動和添加、用戶通信流方面的改變以及鏈路速度方面的改變。
為了使用MIB數(shù)據(jù)和用戶文檔數(shù)據(jù)來確定多跳、端到端性能,使用下列數(shù)據(jù)和公式。在沒有一般性損耗的情況下,考慮具有跳a、b、c以及d的四跳網(wǎng)絡。設(sa,sb,sc,sd)是沿著該網(wǎng)絡路徑的跳鏈路速度組。
設(la,lb,lc,ld)是這些網(wǎng)絡跳以英里表示的長度。在四跳網(wǎng)絡中,會有五個跨該網(wǎng)絡的端到端設備。根據(jù)當前技術速度,認為沿著該路徑的每一設備的屬性是0.1毫秒往返行程的設備等待時間。
再次在沒有一般性損耗的情況下,設每一跳是半雙工的(所以在每一跳上的利用是其輸入和輸出利用的累積),并設(ua,ub,uc,以及ud)表示沿著該網(wǎng)絡路徑的跳利用。應該指出,利用被表示為小數(shù)值。所以如果跳的利用是60%,那么ua=0.6。
于是,最小值(sa,sb,sc,sd)=表示為“S”的路徑流速度。
1/(1/sa+1/sb+1/sc+1/sd)=表示為“C”的路徑會話速度。
(跳數(shù)+1)*0.1ms=表示為“L”的路徑往返行程設備等待時間估算。
/186,000=表示為“P”的往返行程傳播延遲估算。
S、C、L和P在上面完全從MIB和用戶文檔中導出,并包括網(wǎng)絡的基線性能參數(shù),根據(jù)這些參數(shù)可以執(zhí)行基線性能、調諧以及假設分析建模。
作為基線分析的實例,設sa=9600,sb=19200,sc=19200,以及sd=9600(所有速度都以位每秒為單位)。
設la=500,lb=1000,lc=1000,以及l(fā)d=500(所有距離都以英里為單位)。
則min(9600,19200,19200,9600)=9600bps=S。
以及,1/(1/9600+1/19200+1/19200+1/9600)=3200bps=C。
以及對于四跳網(wǎng)絡來說,(5*0.1)=5ms=L。
以及(500+1000+1000+500)*2*2.2/186000=71ms=P。
在這個實例中,S、C、L以及P包括網(wǎng)絡性能的基線值。
對會話應用(諸如查詢-響應以及事務)以及對流應用(諸如文件傳輸、遠程盤復制以及打印)執(zhí)行如下的性能分析基線會話應用分析假設事務由200字節(jié)(即,由8位構成的八位組)查詢和1400字節(jié)響應組成。每個事務的總字節(jié)數(shù)是200+1400=1600字節(jié)=12,800位。網(wǎng)絡的會話速率C是3200bps,所以查詢響應的總串行化時間將是12800位/3200bps=4秒。
往返行程設備等待時間L=0.005秒,往返行程傳播延遲P=0.071秒。
查詢響應的總網(wǎng)絡往返行程時間=4+0.005+0.71=4.715秒。這個基線值表示這個查詢響應應用最佳可能的響應時間。如果在該網(wǎng)絡的任何部分上存在活動的用戶,那么將引入排隊延遲,且平均響應時間將增大,這涵蓋在下面的當前會話性能部分中。
基線流應用分析網(wǎng)絡的基線流速度是完全由S=9600bps來描述的。網(wǎng)絡的調諧包括窗口大小分析。對于諸如TCP和SNA的開窗協(xié)議來說,基線窗口大小(以位為單位)等于完成往返行程確認功能所花費的秒數(shù)乘以網(wǎng)絡的流速度。作為一個實例,如果窗口大小定步請求包含在1500字節(jié)的文件傳輸包中,并且窗口大小定步確認包括在64字節(jié)響應包中,那么該網(wǎng)絡中的確認時間是[(1500+64)字節(jié)*8位/C]+D+P=3.91+0.005+0.071=3.986秒。確認窗口是3.986*S=3.986秒*9600bps=38266位=4783字節(jié)窗口大小,該窗口大小是調諧以允許流應用保持網(wǎng)絡滿載(并因而允許文件傳輸在盡可能短的時間內完成)所需的。
通常,窗口大小最好表示為在該連接上要被允許進入網(wǎng)絡的包的數(shù)量。在這一實例中,文件傳輸應用包大小是1500字節(jié)。由于窗口大小是4783字節(jié),所以這意味著能夠在確認之間發(fā)送的包的數(shù)量是窗口大小字節(jié)/此連接上的平均包大小=4783/1500=3.19個包。保持網(wǎng)絡滿載需要四舍五入到包窗口大小4。通過推導控制應用性能的窗口調諧值,使得計算所需網(wǎng)絡設備緩沖區(qū)大小的附加網(wǎng)絡調諧參數(shù)成為可能。緩沖區(qū)需求估算是使用緩沖區(qū)為每一連接計算如下的[(2*每窗口包數(shù))-1]*連接包大小=此TCP連接的緩沖區(qū)需求。
該計算的(2*每窗口包數(shù))-1部分的原因是在“最壞情況”的緩沖情形下,一個完整窗口被傳送,該窗口中的第一包已得到確認,但是其余包因為某原因而保留在網(wǎng)絡緩沖區(qū)中,當發(fā)送者接收到該確認的時候,發(fā)送另一個滿窗。在這樣的情況下,包窗口的兩倍減去1的包必須在網(wǎng)絡中緩沖。在上述面的實例中,文件傳輸連接的包窗口為4,且平均包大小為1500字節(jié),所以沿著此連接的路徑的設備中所需的網(wǎng)絡緩沖區(qū)的計算是[(2*4)-1]*1500=10500字節(jié)。估算網(wǎng)絡設備所需的總緩沖區(qū)需要使用設備和它們的窗口需求來估算連接的數(shù)量,執(zhí)行所述計算,并對結果求和。
基線假設分析模型化分析對網(wǎng)絡的潛在基線改變的模型化是容易地通過替換任一所提出的值改變,諸如在鏈路距離和/或鏈路速率方面的增加,并將這些值應用到所提供的公式中來完成的。因此通過使用上述新的方法手段來分析資產(chǎn)管理數(shù)據(jù)庫中的鏈路速率以及固有距離的基值,可以執(zhí)行包括基線調諧和模型化的完整的基線網(wǎng)絡分析。
當前會話應用分析網(wǎng)絡上當前會話應用性能的分析可以利用類似于基線會話分析的計算來進行。等待時間和傳播延遲計算是不變的。串行化計算被修改為反映當前可用的帶寬,其是在平均當前利用(其它用戶的帶寬消耗)被減去時的可用帶寬數(shù)量。使用來自上面實例的值,sa=9600,sb=19200,sc=19200,sd=9600(所有速度都是以位每秒為單位),D=0.005,P=0.071。
控制排隊對當前性能的影響的變量是鏈路利用。
假定(a,b,c,d)的表示為ua、ub、uc和ud的鏈路利用分別是20%、60%、10%和0%。以小數(shù)表示,ua=0.2,ub=0.6,uc=0.1,而ud=0。于是每一跳的當前可用網(wǎng)絡速度計算為{[(1-0.2)*sa],[(1-0.6)*sb],[(1-0.1)*sc],[(1-0.0)*sd]}=(0.8*9600),(0.4*19200),(0.9*19200),(1*9600)=(7680,7680,17280,9600)=當前可用鏈路速度。
該端到端連接的當前可用會話速率是1/[(1/7680)+(1/7680)+(1/17280)+(1/9600)]=2301bps=當前可用會話網(wǎng)絡速度。
當前可用會話速率的通式是1/[(1-(ua*sa))+(1-(ub*sb))+(1-(uc*sc))+(1-(ud*sd))]。該網(wǎng)絡會話應用的性能的所有分析都將確切地如上面那樣進行,例外的是網(wǎng)絡路徑的當前可用會話速度的值將替代網(wǎng)絡路徑的會話速度。
多換向會話應用分析某些事務在它們完成之前要求若干跨網(wǎng)絡的“握手”。這些被稱為“多換向”的應用。一個實例可以是要求檢索多個數(shù)據(jù)庫行的發(fā)送者和接收者之間的跨網(wǎng)數(shù)據(jù)庫操作,其中在這多個數(shù)據(jù)庫行中所接收的每一行都必須在發(fā)送者可以發(fā)送下一行之前得到確認。
根據(jù)本發(fā)明,可以如下地計算和建模包括多換向的會話應用的性能i)用戶輸入每整個事務(即,包括該事務的所有換向部分)的總入字節(jié)(來自客戶機)以及總出字節(jié)(來自服務器)。將每整個事務的總字節(jié)表示為“b”。
ii)用戶輸入表示為“n”的每事務(通常是3270查詢/響應類型事務中的一個)的換向數(shù)。
于是,每事務的最佳可能的網(wǎng)絡時間(即沒有在任何跳處的隊列延遲的基線值)是(b*8/C)+(n*(D+P))=任一包括多換向的會話事務的最佳可能的網(wǎng)絡響應時間。
在具有h跳的網(wǎng)絡連接中當前條件下的平均事務時間是[(每總事務的字節(jié)*8/當前可用的會話速度)+(設備等待時間+傳播延遲)]*n=當前條件下的事務時間。這對一般的情況表示為
{[b*8/{1/{[1-(ua*sa)]+[1-(ub*sb)]+…+[1-(uh*sh)]}}]+(D+P)}*n=當前網(wǎng)絡條件下執(zhí)行跨h跳網(wǎng)絡路徑的n換向事務的時間。
當前網(wǎng)絡條件下的流應用性能分析在上面的實例中,在當前利用下,網(wǎng)絡跳速度是(7680,7680,17280,9600)=當前可用的鏈路速度。該實例中的網(wǎng)絡的當前流速度將是最小值(7680,7680,17280,9600)=7680bps。
所有對于窗口大小和緩沖區(qū)調諧的流分析都將確切地如上面的基線流情況中的那樣來執(zhí)行,只是用當前流速度值替換基線流速度值。
上述基于MIB和用戶文檔數(shù)據(jù)輸入的用于基線和當前網(wǎng)絡分析的方法實現(xiàn)了容易和準確的端到端網(wǎng)絡分析。但是,如果數(shù)據(jù)輸入是不正確的,那么對該數(shù)據(jù)進行的分析將提供不正確的結果。所以在方法上,具有一種檢驗輸入和結果的手段是值得的。這可以用查驗來實現(xiàn)。
查驗檢驗方法查驗分析可以跨網(wǎng)絡端到端地執(zhí)行,并且也可以用當前可用的技術,跨網(wǎng)絡路徑逐跳地執(zhí)行。在沒有一般性損耗的情況下,使用逐跳查驗的方法在此被描述為一種分析網(wǎng)絡并檢驗上述基于MIB和用戶文檔的分析的技術。
對于沿著要被分析的網(wǎng)絡路徑的所有跳,可以從跳的一端的路由器(或其它層3設備)開始到該跳的另一端的路由器(或其它層3設備)來執(zhí)行查驗??梢允褂帽娝苤募夹g來發(fā)現(xiàn)沿著該路徑的MTU大小。(MTU是最大的網(wǎng)絡包大小。)在下面的所有實例中,不發(fā)送大于MTU大小的查驗。并且在優(yōu)選實施例中,可以在查驗期間采用數(shù)據(jù)壓縮,以最小化正沿著該路徑發(fā)生的任何其它網(wǎng)絡壓縮的影響。
對于沿著該路徑的每一跳,執(zhí)行如下測試在充足持續(xù)時間的時期內彼此隔離地發(fā)送較長查驗和較短查驗,以完成以下的(a)和(b)(a)使用戶確信附加的測試將不產(chǎn)生用于較長或較短查驗的往返行程時間的更快速的實例(換句話說,使用戶確信已經(jīng)觀測到最佳可能的較長和較短查驗的例子),以及(b)采樣持續(xù)時間足夠長,基于查驗樣本的平均網(wǎng)絡性能值的任何計算都將是有意義的。出于使用查驗樣本來檢驗MIB計算的分析的目的,優(yōu)選的是,查驗采樣持續(xù)時間與MIB收集周期一致。
設m是短查驗中的字節(jié)數(shù)(包括頭部)。
設p是長查驗中的字節(jié)數(shù)(包括頭部)。
設bs是在采樣間隔內觀測到的最短查驗時間(以秒為單位)。
設bl是在采樣間隔內觀測到的最長查驗時間(以秒為單位)。
設as是在采樣間隔內觀測到的平均短查驗時間(以秒為單位)。
設al是在采樣間隔內觀測到的平均長查驗時間(以秒為單位)。
于是,對于每一跳“h”,可以進行下面的計算[(p-m)*2]/(bl-bs)=查驗度量的跳速度。
查驗度量的跳速度應該等于上面表示為“sh”的MIB或用戶文檔跳速度。如果它們匹配,那么MIB或用戶文檔值是正確的。如果它們不匹配,則必須進行附加的查驗以確保已經(jīng)獲得了最佳可能的查驗結果,并且必須進行檢查以確保查驗的發(fā)送和返回路徑恰好是所討論的跳而且該跳的發(fā)送和接收段的速度都是相同的。如果所有這些都是情況良好的,可是存在與MIB/文檔速度值的不匹配,那么很可能MIB/文檔值是錯的。在該情況下,如果該鏈路的實際速度是所期望的速度,那么MIB值和文檔值就需要加以校正以確保管理工具計算正確地工作。如果該鏈路速度不是所期望的速度,那么就需要聯(lián)系該通信設備的廠商或管理員,來解釋(以及在適當?shù)臅r候修復)該缺陷。在任何情況下,都應該使MIB/文檔值與實際鏈路速度匹配。
這一過程可以確保跳的基線速度是所期望的速度,并且確保它被正確地建立文檔,以便所有性能計算都可以是可靠的。在這個步驟結束的時候,[(p-m)*2]/(bl-bs)=sh將已得到檢驗,其中該等式的左側是基于查驗的,右側是基于MIB/用戶文檔的。
一旦對沿著路徑的所有跳都檢驗(并且校正了,如果必要的話)了跳速度“sh”,使用查驗來檢驗基于MIB的分析的下一步驟就將計算網(wǎng)絡的固定等待時間“F”。固定等待時間是由查驗所確定的沿著網(wǎng)絡的總傳播和設備延遲。該計算是bl-(bl/sh)=F。
為了檢驗MIB基線分析,執(zhí)行檢查來確定是否F=(D+P)。
如果是,那么網(wǎng)絡跳的設備等待時間加傳播延遲的查驗測試度量與MIB/文檔分析匹配,并且基線值是正確的。如果F與D+P的和之間存在不匹配,那么就必須確定查驗的穩(wěn)定性是否有問題(不太可能,因為在前面步驟中的速度匹配檢查),或更可能地,網(wǎng)絡跳的實際長度是否比緣于基于MIB或文檔的值中的鏈路的距離長。(還應該檢驗設備等待時間不是過量的-一種實現(xiàn)方法是在相當短的距離上進行自查驗或查驗并確定是否存在延長了的查驗時間)。通常的情況是鏈路的實際距離不同于建立文檔的,執(zhí)行如下用于不正確的MIB/文檔距離值的校正(F-D)=P’(其中P’是查驗導出的跳傳播延遲)。
正確的鏈路距離值=(186000*P’)/(2*2.1),并且這是應該用在MIB/文檔計算中的校正后的值。
如果已確定設備等待時間值是有錯的,則在非常短的連接上的自查驗測試或查驗測試將提供校正后的設備等待時間值,以替換具有0.001ms的往返行程設備等待時間的MIB計算中使用的MIB/文檔計算(經(jīng)驗法則)。
這些步驟提供了用于檢驗和校正基于MIB的網(wǎng)絡基線計算輸入的方法。在這些步驟完成的時候,可以很有把握地執(zhí)行基線計算。
檢驗和校正基于MIB的當前網(wǎng)絡評估為了檢驗基于MIB的當前網(wǎng)絡性能的分析起見,當前網(wǎng)絡評估的查驗分析由如下計算組成(在沒有一般性損耗的情況下)al-bl=由“pq”表示的查驗檢測到的網(wǎng)絡跳隊列延遲。
一種校準基于MIB的當前網(wǎng)絡條件的評估的方法是建立在所討論的采樣周期期間的查驗結果的模型,并查看MIB建模結果是否與所觀測到的查驗結果相配。
對于網(wǎng)絡跳h上的長查驗中的1字節(jié)往返行程的基于MIB的計算是[(1字節(jié)*8*2)/sh]+(D+P)=bl(由于前面的校準步驟而為真)設“Tw”表示平均等待時間的排隊理論值。
那么如果MIB與網(wǎng)絡當前條件的查驗結果相匹配,那么bl+Tw應該等于al,因此需要確定是否Tw=al-bl。如果是,那么MIB與從查驗導出的分析彼此相符,該模型正確地得到了校準和交叉檢查。
可以根據(jù)MIB值來如下計算Tw1)使用在采樣周期期間在接口上入和出字節(jié)來計算跳利用。(注意,在沒有一般性損耗的情況下,假設該鏈路是半雙工的)(入字節(jié)+出字節(jié))*8/(sh*MIB采樣周期內的秒數(shù))=采樣周期期間的跳利用。
2)計算在采樣周期期間在跳h上的平均消息大小(入字節(jié)+出字節(jié))/(入包+出包)=采樣周期期間跳h上的平均消息大小。
3)根據(jù)排隊理論,其中uh表示采樣周期期間跳h的利用,uh/(1-uh)=跳h上的隊列上的(跳h上的平均跳h大小的)消息數(shù)量4)于是隊列上的平均消息數(shù)*8/sh=Tw。
5)確定是否Tw=al-bl。如果是,那么查驗與MIB分析相關,并且每一個的結果都是可靠的。如果否,那么MIB計數(shù)器的超限或其它問題進行檢查,并對查驗結果的任何反常進行檢查。如果在這一采樣周期內的檢查沒有產(chǎn)生任何明顯的有關上面不一致的原因,那么就檢查其它采樣周期以確定MIB和利用的查驗結果是否一直匹配。對于不匹配的情況,MIB值應該被視為是與系統(tǒng)對實際終端用戶通信流的處理相關的系統(tǒng)的實際狀態(tài)的表示,因為很有可能不一致的原因是在這一跳上的查驗結果正被不影響常規(guī)用戶通信流的低優(yōu)先級處理所時滯。
可以通過僅允許用戶改變速度、利用和等待時間字段來容易地追加假設分析建模。調整傳播延遲以反映客戶機或服務器移動的距離加和減系數(shù)也可以通過使用之前提供的“經(jīng)驗法則”、以及將該結果應用到包括調諧計算的所有計算來容易地添加。因此,顯而易見的是,根據(jù)MIB和查驗數(shù)據(jù),該系統(tǒng)和方法提供全面的分析和預示性能、調諧以及建模結果。在這一范圍的信息可用的時候,有序管理得到極大促進??紤]用戶抱怨性能的情況。不管該應用是會話、突發(fā)還是流,本發(fā)明都能夠實現(xiàn)有序雙重檢驗的分析。
圖3是示出使用本發(fā)明的步驟的實施例的流程圖,其從步驟300開始。圖3(以及圖4-10)可以同樣地表示實現(xiàn)本發(fā)明的步驟的本發(fā)明組件的高級框圖。圖3(以及圖4-10)的步驟可以結合適當硬件在計算機程序代碼上實現(xiàn)。該計算機程序代碼可以存儲在諸如磁盤、硬盤、CD-ROM、DVD-ROM或磁帶的存儲介質,以及諸如只讀存儲器(ROM)或隨機存儲器(RAM)的存儲設備或存儲設備的集合上。此外,該計算機程序代碼可以通過因特網(wǎng)或一些其它類型的網(wǎng)絡傳送到工作站。圖3(以及其它流程圖)的步驟可以通過圖1的實施例來實現(xiàn)。
繼續(xù)圖3,在步驟305,可以獲取網(wǎng)絡組件和/或跳的度量,以特征化該網(wǎng)絡的組件和/或一部分(或整體)。在步驟310,可以根據(jù)包括跳和端到端性能的度量的值來計算性能計算。在步驟315,可以對一個或多個應用建檔,以確定這些應用呈現(xiàn)給該網(wǎng)絡的通信流的特征。
在步驟320,可以識別網(wǎng)絡組件并可以基于網(wǎng)絡組件的固定和/或可變度量來計算和/或收集網(wǎng)絡性能數(shù)據(jù),其中這些度量可從查驗、MIB數(shù)據(jù)、蹤跡數(shù)據(jù)和/或用戶文檔導出。在步驟325,可以通過跟蹤或度量來收集其它網(wǎng)絡性能數(shù)據(jù),諸如等待時間、延遲、吞吐量。在步驟330,可以建立網(wǎng)絡性能的模型。這一模型可以包括一個或多個網(wǎng)絡組件、單跳、多跳、端到端的特征化、使削弱了的性能與網(wǎng)絡組件關聯(lián)、預計未改變的組件的影響、應用對網(wǎng)絡的影響等等。在步驟335,該過程結束。
圖4是示出使用本發(fā)明的步驟的實施例的流程圖,其從步驟400開始。在步驟405,可以為一個或多個網(wǎng)絡設備獲取MIB數(shù)據(jù)和/或用戶文檔數(shù)據(jù)。在步驟410,可以為一或多跳或對一個或多個網(wǎng)絡設備獲取查驗時間。在步驟415,為一個或多個網(wǎng)絡設備獲取蹤跡。在可選的步驟420,可以執(zhí)行一個或多個單跳分析。在可選的步驟425,可以執(zhí)行一個或多個多跳分析。在步驟430,該過程結束。
圖5是示出本發(fā)明步驟的實施例的流程圖,其從步驟500開始。在步驟505,可以確定一個或多個鏈路的速度。在步驟510,可以確定一個或多個跳或端到端的傳播延遲。在步驟515,可以為一個或多個網(wǎng)絡組件確定設備等待時間。在步驟520,可以為網(wǎng)絡或網(wǎng)絡的一部分確定利用。在步驟525,該過程結束。
圖6是示出使用本發(fā)明的步驟的實施例的流程圖,其從步驟600開始。在步驟605,可以為一個或多個跳或端到端確定串行化速率。在步驟610,可以為網(wǎng)絡或網(wǎng)絡的一部分確定傳播延遲。在步驟615,可以對跨一或多跳的一個或多個設備確定一個或多個查驗值。在步驟620,可以在一個或多個多跳或端到端上確定PHOD。在步驟625,可以確定網(wǎng)絡的會話速度或網(wǎng)絡的一部分的會話速度。在步驟630,可以確定網(wǎng)絡的會話利用或網(wǎng)絡的一部分的會話利用。在步驟635,可以確定網(wǎng)絡問題,或基于根據(jù)一個或多個計算或一個或多個度量而創(chuàng)建的模型來(例如為網(wǎng)絡中的變化)生成性能預報。在實施例中,這種確定或預報可以通過對于網(wǎng)絡或網(wǎng)絡的一部分,將所度量的和/或所計算的性能與所預期的或預先協(xié)定的性能要求相比較來完成。在步驟640,該過程結束。
圖7A-7C是示出使用本發(fā)明的步驟的實施例的流程圖,其從步驟700開始。在步驟705,可以識別一個或多個網(wǎng)絡路徑(其可能是端到端的)以便分析或建模。在步驟710,可以為沿著一條或多條路徑的一個或多個網(wǎng)絡設備獲取MIB數(shù)據(jù)。在步驟715,可以從該一條或多條路徑中的一個或多個網(wǎng)絡設備收集查驗數(shù)據(jù)。在可選的步驟720,可以查閱用戶文檔來確定沿著該一條或多條路徑的網(wǎng)絡的特征。在步驟725,可以沿著該一條或多條路徑來基線化流速度。在步驟730,可以沿著該一條或多條路徑來基線化會話速度。
在步驟735,可以計算沿著一條或多條路徑的網(wǎng)絡的等待時間。在步驟740,可以沿著該一條或多條路徑計算流利用。在步驟745,可以沿著該一條或多條路徑計算會話利用。在步驟750,可以為沿著該一條或多條路徑的一個或多個網(wǎng)絡設備計算當前隊列時間。在步驟755,可以為流應用生成基線和當前性能。在步驟760,可以生成單和/或多換向會話應用的基線和當前性能。在步驟765,可以在網(wǎng)絡窗口大小和網(wǎng)絡緩沖區(qū)的基線和當前條件下提供流應用的調諧建議。
在步驟770,可以為任何所建議的度量參數(shù)改變的組合提供假設分析建模,以確定對沿著該一條或多條路徑的性能的潛在影響,其中的度量參數(shù)改變諸如速度改變、設備改變、配置改變、計算出的度量等等。當與所建議的網(wǎng)絡中的改變相比較時,基于改變一個或多個參數(shù)(例如,按用戶所請求的)預計性能模型并重新計算任何性能計算提供了性能與基線或已知條件的增量比較。性能模型可以在儀表板或類似的顯示設備上顯示出??蛇x地,如果計算證明了與預定性能標準相比是不可接受的性能,則可以沿著該一條或多條路徑來識別瓶頸點。
圖8是示出本發(fā)明的步驟的實施例的流程圖,其在步驟800處開始。在步驟805,可能例如使用與可以正運行NetViewTM或OpenViewTM的性能管理服務器互連的性能控制臺或儀表板,根據(jù)可達性和自主性來定位損壞設備。在步驟810,通常根據(jù)度量出或計算出的網(wǎng)絡速度、等待時間、調諧和利用問題,可以建立網(wǎng)絡性能的模型以定位數(shù)學上的損傷(即度量出或計算出的缺陷)。
在步驟815,檢查問題是否已被隔離。如果是,則在步驟820,可以進行適合于該故障的修理,并且該過程在步驟835處結束。但是,如果該問題還未被識別或隔離,則在步驟825,可以嘗試試錯嘗試來解決該問題。在步驟830,檢查試錯改變是否已經(jīng)修復了該問題。如果沒有,則在步驟825繼續(xù)試錯過程。如果該問題被解決,則該過程在步驟835處結束。
圖9是示出使用本發(fā)明的步驟的實施例的流程圖,其在步驟900處開始。在步驟905,可以使用資產(chǎn)數(shù)據(jù)(即關于網(wǎng)絡中的鏈路和組件的信息)來創(chuàng)建基線模型。在步驟910,可以添加MIB數(shù)據(jù),以在當前條件下創(chuàng)建網(wǎng)絡的模型。在步驟915,可以使用查驗技術來檢驗或校準基線和當前性能模型。
在步驟920,可以創(chuàng)建網(wǎng)絡上的應用性能的“假設分析”模型,以便進行調諧。在步驟925,可以根據(jù)例如查驗、從工具度量出的活動、用戶文檔、分析等等,來確定與可疑性能差問題相關聯(lián)的一條或多條使用中的網(wǎng)絡路徑。在步驟930,可以識別網(wǎng)絡速度和/或排隊阻塞點。在步驟935,可以沿著該路徑識別一個或多個跳和任何過量的等待時間。在步驟940,可以識別最優(yōu)調諧標準(例如改變與網(wǎng)絡設備相關的參數(shù)或重新分配多個資源中的一個,或重新配置網(wǎng)絡等等)。在步驟945,可以根據(jù)有關識別出的問題的共業(yè)標準(如果有的話)、內部形成的標準或SLA,來補救識別出的問題。
在步驟950,檢查是否所有數(shù)學上的問題都已得到解決。如果沒有,在步驟945處理繼續(xù)。否則,如果是,則在步驟955,檢查是否在步驟955的所有問題都已被修復。如果不是,則在步驟960,可以開始試錯法問題解決,直到解決和/或該過程在步驟965處結束。但是,如果所有問題都已被解決,則該過程在步驟965處結束,而無需試錯嘗試。
圖10是示出使用本發(fā)明的步驟的實施例的流程圖,其在步驟1000處開始。在步驟1005,可以接收用戶報告以啟動問題解決會話。在步驟1010,可以檢驗和/或度量所報告的問題。在步驟1015,當檢驗表明性能處于限度內(例如,在SLA之內)時,可以向用戶提交該問題報告,以保證從用戶的觀點看所報告的問題仍然是正確的和/或有效的。
在步驟1020,判定度量出或觀測出的性能是否是一個問題。如果不是,那么該過程在步驟1025處結束。否則如果其被視為問題,則在步驟1030,可能通過RAG控制臺進行檢查,以確定設備是損壞還是不可達。如果不是損壞,則處理在步驟1040繼續(xù)。如果該設備被損壞,則在步驟1035修復該設備或使其可達。
在步驟1040,可以根據(jù)基于度量出或計算出的網(wǎng)絡速度、等待時間、調諧和利用問題的數(shù)學度量或計算,使用數(shù)學模型來分析該用戶路徑。在步驟1045,可以判定是否可以實現(xiàn)數(shù)學上的解決(例如對于一個或多個設備的參數(shù)改變等等)。如果不可以,則可以執(zhí)行試錯嘗試來解決該問題,并且處理在步驟1010處繼續(xù)。如果可以,則在步驟1055,可以執(zhí)行基于數(shù)學的補救或修改。在步驟1010,該過程繼續(xù)。
盡管本發(fā)明已經(jīng)根據(jù)實施例加以描述,但本領域的技術人員將認識到,可以利用在所附權利要求的精神和范圍內的修改來實現(xiàn)本發(fā)明。
權利要求
1.一種管理網(wǎng)絡的方法,包括步驟對具有一個或多個網(wǎng)絡組件的網(wǎng)絡的性能建模,以根據(jù)網(wǎng)絡速度、等待時間、調諧和利用的任一組合定位數(shù)學上受損的網(wǎng)絡組件的實例;以及根據(jù)上述建模修改與上述一個或多個網(wǎng)絡組件相關的一個或多個參數(shù),以改善網(wǎng)絡性能。
2.如權利要求1所述的方法,還包括步驟當上述建模未能定位上述數(shù)學上受損的網(wǎng)絡組件的實例時,采用試錯改變來補救網(wǎng)絡問題。
3.如權利要求1所述的方法,其中上述數(shù)學上受損的組件包括度量出或計算出的與上述一個或多個網(wǎng)絡組件相關的缺陷。
4.如權利要求1所述的方法,還包括根據(jù)上述建模重新配置上述一個或多個組件,以補救上述網(wǎng)絡問題。
5.一種用于管理網(wǎng)絡性能的方法,包括步驟創(chuàng)建具有一個或多個網(wǎng)絡組件的網(wǎng)絡的基線網(wǎng)絡模型;將MIB數(shù)據(jù)添加到該基線網(wǎng)絡模型中,以創(chuàng)建當前條件的模型;查驗該網(wǎng)絡中的路徑,以檢驗該當前條件的模型;根據(jù)通過查驗檢驗過的該當前條件的模型,識別上述路徑的最優(yōu)調諧;以及根據(jù)識別出的最優(yōu)調諧修改上述一個或多個網(wǎng)絡組件中至少一個的一個或多個參數(shù),以至少沿著上述路徑改善網(wǎng)絡性能。
6.如權利要求5所述的方法,還包括步驟為上述網(wǎng)絡中的應用性能創(chuàng)建假設分析模型。
7.如權利要求5所述的方法,還包括步驟識別上述網(wǎng)絡中具有過量等待時間的跳;以及識別上述路徑中的網(wǎng)絡速度和排隊阻塞點。
8.如權利要求5所述的方法,還包括根據(jù)用戶文檔、檢測出的活動和度量出的性能中的至少任何一個,確定當前性能差的可疑實例的使用中的網(wǎng)絡路徑。
9.如權利要求5所述的方法,還包括步驟補救任何數(shù)學上的問題,其中數(shù)學上的問題包括計算出的問題和度量出的問題中的至少任何一個;以及檢驗基于上述補救的改變是否改善上述網(wǎng)絡性能。
10.如權利要求5所述的方法,還包括檢查上述一個或多個網(wǎng)絡部件中的一個是損壞還是不可達。
11.一種用于管理網(wǎng)絡的系統(tǒng),包括用于對具有一個或多個網(wǎng)絡組件的網(wǎng)絡的性能建模,以至少根據(jù)網(wǎng)絡速度、等待時間、調諧和利用中的任何一個定位數(shù)學上受損的網(wǎng)絡組件的實例的裝置;以及用于根據(jù)上述建模修改一個或多個網(wǎng)絡組件,以至少沿著該網(wǎng)絡的一路徑改善網(wǎng)絡性能的裝置,其中該一個或多個網(wǎng)絡組件包括網(wǎng)絡組件參數(shù)和網(wǎng)絡組件配置中的至少任何一個。
12.如權利要求11所述的系統(tǒng),還包括用于在用于建模的裝置未能定位上述數(shù)學上受損的網(wǎng)絡組件的實例時,采用試錯改變來補救網(wǎng)絡問題的裝置。
13.如權利要求11所述的系統(tǒng),其中上述數(shù)學上受損的組件包括度量出或計算出的與上述一個或多個網(wǎng)絡組件相關的缺陷。
14.如權利要求11所述的系統(tǒng),還包括用于根據(jù)上述建模重新配置上述一個或多個組件以補救上述網(wǎng)絡問題的裝置。
15.如權利要求11所述的系統(tǒng),還包括用于度量和檢驗上述網(wǎng)絡中的可疑問題的裝置。
16.如權利要求11所述的系統(tǒng),還包括用于識別上述網(wǎng)絡中的跳和過量等待時間的裝置。
17.如權利要求11所述的系統(tǒng),還包括用于識別至少沿著上述路徑的最優(yōu)調諧的裝置;以及用于識別上述網(wǎng)絡中的速度和排隊阻塞點的裝置。
18.如權利要求11所述的系統(tǒng),還包括用于創(chuàng)建基線模型的裝置;以及用于利用管理信息庫(MIB)數(shù)據(jù)創(chuàng)建當前條件模型的裝置。
19.如權利要求11所述的系統(tǒng),還包括用于對網(wǎng)絡性能建模以隔離性能問題的裝置。
20.一種計算機程序產(chǎn)品,包括計算機可用介質,該介質具有包括在該介質中的可讀程序代碼,該計算機程序產(chǎn)品包括至少一個組件以對具有一個或多個網(wǎng)絡組件的網(wǎng)絡的性能建模,以至少根據(jù)網(wǎng)絡速度、等待時間、調諧和利用中的任何一個定位數(shù)學上受損的網(wǎng)絡組件的實例;以及根據(jù)上述建模修改與上述一個或多個網(wǎng)絡組件相關的一個或多個參數(shù),以改善網(wǎng)絡性能。
全文摘要
本發(fā)明提供一種用于使用網(wǎng)絡資產(chǎn)管理數(shù)據(jù)對網(wǎng)絡性能建模并識別性能問題的系統(tǒng)和方法,網(wǎng)絡資產(chǎn)管理數(shù)據(jù)包括諸如設備類型、位置及鏈路速度的屬性??梢圆捎孟到y(tǒng)的功能上完整的數(shù)學特征化,以創(chuàng)建用于問題識別和解決的系統(tǒng),其中只在必要時才對物理和邏輯系統(tǒng)組件進行破壞性改變??蓡为氝M行查驗(或其它時戳標記的通信流)的數(shù)學分析及MIB和其它資產(chǎn)數(shù)據(jù)的數(shù)學分析,并將結果與“自檢查”比較,構成和檢驗網(wǎng)絡系統(tǒng)的完整數(shù)學特征化。另外,本發(fā)明可提供對基于所建議的對網(wǎng)絡中一個或多個組件的改變的性能影響的預計。性能度量、查驗時間、MIB數(shù)據(jù)、鏈路速度、傳播延遲、設備等待時間、串行化速率、會話速度、會話利用及其它數(shù)據(jù)用來對網(wǎng)絡建模。
文檔編號H04L12/24GK1794651SQ200510115298
公開日2006年6月28日 申請日期2005年11月11日 優(yōu)先權日2004年12月23日
發(fā)明者R·M·西爾弗曼 申請人:國際商業(yè)機器公司