亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

在可修復的故障后使群集器系統(tǒng)自動投入運行的制作方法

文檔序號:6561655閱讀:156來源:國知局
專利名稱:在可修復的故障后使群集器系統(tǒng)自動投入運行的制作方法
技術領域
本發(fā)明涉及在可修復的故障后使群集器投入運行的方法,所述群集器由多個節(jié)點組成,在發(fā)生故障情況下,相應地由一個節(jié)點接管另外一個節(jié)點(12)的任務。
本發(fā)明在高可用性系統(tǒng)的領域,尤其是在一個有缺陷的節(jié)點的啟動之后,要確保向群集器的無故障的操作狀態(tài)自動過渡。
背景技術
原則上有各種故障源,由于故障很難克服,所以造成只能由計算機重自舉機器或系統(tǒng)。此外,這樣重自舉的系統(tǒng)需要使用人工指令。如果考慮到系統(tǒng)人工干預所需的時間,尤其是通過交互輸入,顯然為要求高可用性的系統(tǒng)所不能承受。
因此至今為止人們都在不斷地努力,使系統(tǒng)重自舉自動化。US5708776提出了一種在發(fā)生故障之前自動恢復狀態(tài)的方法。為此,要有一個第一和一個第二重自舉分區(qū)供使用。如果第一重自舉分區(qū)的自舉不成功,則系統(tǒng)從第二分區(qū)啟動。監(jiān)控處理器實施自動恢復的軟件,在自動恢復之后發(fā)現(xiàn)在操作系統(tǒng)-軟件或應用軟件中有故障。然而,所述文獻沒有包括對重自舉之后群集器投入運行的說明。群集器再次投入運行意味著主要要考慮各個節(jié)點的更多和較復雜的相互依賴性,這一般地是通過一個群集器控制器來控制。
對于以最大可用性為前提的系統(tǒng),例如通信領域的載波級系統(tǒng)或醫(yī)療-或財政領域中的系統(tǒng),采用高可用性的計算機體系結構,它們要確保有一個最大的可靠性。此時,所執(zhí)行的任務要能晝夜不停地不間斷地進行。
為此,特別要使用群集器系統(tǒng)。此概念包括有各種類型的系統(tǒng),對于這些系統(tǒng),多個具有冗余資源的分別獨立的機器相互連接成網絡,并在它們的使用過程中由一個群集器控制器進行控制。
在主動-被動與主動-主動之間區(qū)分群集器體系結構。對于主動-被動群集器,總是,虛擬地,由成對的機器或服務器形成,其中服務器是主動的并提供自己的服務或執(zhí)行相應的軟件。如果此時沒有出現(xiàn)故障,則另一個服務器基本上處于待機-或被動-狀態(tài)。只有當在主動服務器發(fā)現(xiàn)故障時,它才接管其任務。此時,被動服務器沒有任務地處于待機運行狀態(tài)并在發(fā)生故障情況下盡快介入。
對于主動-主動-群集器,每個服務器在群集器之內接受一個任務,兩者平行主動地工作。視系統(tǒng)布局而定,完好的服務器在發(fā)生故障情況下接管有缺陷服務器的全部任務。用主動-主動-方案,能比在主動-被動-體系結構實現(xiàn)較好的負荷分配。
與各自的體系結構無關,對于群集器系統(tǒng),一個還有操作能力的服務器在發(fā)生故障情況下接管有缺陷服務器的任務。這個過程稱作Fail-Over。
除了計算機硬件,對于高可用性系統(tǒng)還要有外國存儲系統(tǒng)與群集器系統(tǒng)匹配。例如,為了提高系統(tǒng)的安全性,能將數(shù)據(jù)在所分配的存儲器上重復存放。這樣,所謂的RAID-1-系統(tǒng)(Redundant Array ofInexpensive Disks)利用基于數(shù)據(jù)組鏡像的冗余方案。
所有群集器系統(tǒng)的重要之處在于,它們基于各個群集器計算機之間的“智能”控制、協(xié)調和通信。應該確定,哪些傳輸協(xié)議得到應用,各個要劃分的過程如何相互通信或按照哪些判據(jù)控制Fail-Over。此外,一個重要之處在于保持群集器的高集成度。這樣,必須確保,即使在系統(tǒng)重自舉之后,在所有的節(jié)點上有牢固的數(shù)據(jù)組存在。
如果在群集器系統(tǒng)出現(xiàn)雖然可消除然而是嚴重的故障,致使一個節(jié)點必須重自舉,則到目前為止要求在節(jié)點重自舉之后,將群集器通過人工輸入指令投入運行。
JP 14 87 04 A2對此指出了為保持群集器運行的方法,其中在群集器的存儲范圍識別出故障。其中,在每個節(jié)點設置的系統(tǒng)控制器報告出現(xiàn)故障并將故障報文傳送到中心局,以便能阻止這個有錯的節(jié)點造成群集器的停機時間。然而沒有說明,在重自舉之后,根據(jù)不同的故障,群集器如何能再次自動投入運行。在此還要求在重自舉之后人工地使集群集器投入運行。
但是,這個人工措施是基于提高的停機時間(Downtime),這是高可用性群集器所不能承受的。

發(fā)明內容
因此,本發(fā)明的任務是提供一種方法,在有缺陷的節(jié)點基于可修復的故障,經過重自舉之后,使群集器系統(tǒng),尤其是待機-群集器能夠自動地以時間最佳方式投入運行。
該任務通過前序部分闡述的方法用下列步驟解決-確定至少一個第一和一個第二故障等級,-分析導致第一節(jié)點的重自舉的故障,-將故障劃分到故障等級之一中,-如果故障劃分到第一故障等級中,群集器與節(jié)點自動投入運行。
根據(jù)總權利要求,該任務的解決辦法在于,在群集器的一個節(jié)點中可修復的故障之后,該已經進行了重自舉的群集器能獨立和自動地回到它的運行狀態(tài)。
在本發(fā)明的一個優(yōu)選實施形式中,用EWSD-系統(tǒng)實施所述方法,SUN-群集器連接在這個系統(tǒng)上。EWSD(電子選擇系統(tǒng),數(shù)字的),是一個公共的數(shù)字交換系統(tǒng),在各國已經設立了超過2億個這種系統(tǒng)的端口。
在這個實施例中,利用中央監(jiān)控裝置,監(jiān)控地理上遠離設立電話網的故障。如果存在可消除的故障,例如由于軟件故障或由于電源中斷引起的故障(把這些故障歸入暫時的故障,要可以通過一種自動方法再消除),則電話網按照本發(fā)明能由中心局再次投入運行而無需人工干預。
通過在重自舉之后群集器系統(tǒng)自動投入運行,尤其在網絡運營商和服務供應商的應用領域,明顯改善了所用軟件的停機時間。
在本發(fā)明的優(yōu)選實施形式中,所述方法被用于使SUN-群集器系統(tǒng)2.x自動投入運行。
本發(fā)明的一個特別有利的實施形式涉及一個由一對或多對服務器組成的主動-被動群集器系統(tǒng),其中服務器執(zhí)行一個分配給它的特定任務。其它的機器處于待機狀態(tài)。只有當?shù)谝粰C器發(fā)出出現(xiàn)問題的信號,第二機器才接管第一機器的任務。因此,必須連續(xù)地監(jiān)控相應的主動服務器。主動服務器例如可能由于硬件故障、操作系統(tǒng)的阻塞或由于電源中斷而失靈。
為了提高可用性和有利地影響其它系統(tǒng)參數(shù),還多次使用主動-主動-群集器。根據(jù)本發(fā)明方法的一個可選擇的實施形式,在應用中要考慮這種類型的體系結構。
在本發(fā)明的另一種有利的實施形式中,作為操作系統(tǒng)環(huán)境“Solaris”利用。
本發(fā)明尤其是根據(jù)預先發(fā)生的并導致服務器復位故障的分析為群集器進行自動和首先是動態(tài)產生的投入運行策略。
本發(fā)明的其它有利的進一步擴展由從屬權利要求得出。


本發(fā)明的其它優(yōu)點和帶有其特征的特別實施形式,以下列的詳細圖示說明表示。其中有圖1群集器系統(tǒng)的示意圖示,和圖2按照本發(fā)明的一個優(yōu)選實施形式用于進行狀態(tài)變換流程圖。
具體實施例方式
隨后示出關于圖1的一個現(xiàn)有技術重公知的常規(guī)群集器體系結構。
在本發(fā)明的一個優(yōu)選實施形式中,所述方法用于支持高可用性應用的群集器10。它尤其是一個主動-待機-群集器。這些通常包括一對服務器,這里也稱這些服務器為節(jié)點。將一個第一節(jié)點12定義為主服務器,給它分派一定的任務。規(guī)定一個第二節(jié)點14為待機-服務器。在這個實施例中,第一節(jié)點12有故障并因此也被稱為有缺陷的節(jié)點,其時第二節(jié)點14是完好的節(jié)點。對于第二節(jié)點失靈并被考慮為有缺陷的節(jié)點情況當然同樣在本發(fā)明的范圍之內。
第二節(jié)點14用在發(fā)生故障情況的情況下,就是說在主服務器(第一或有缺陷的節(jié)點12)失靈時接管其任務,然后不再作為待機-服務器,而是作為新的主服務器起作用。通過這種體系結構,系統(tǒng)的“停機時間”能最小。
為了識別發(fā)生故障狀態(tài)和控制接管過程,有各種所謂的Failover方案。
例如,要實施的、一般只在一個為此預先規(guī)定的機器上運行的軟件,在此必須也能在所有其它節(jié)點上運行,以便能確保這些節(jié)點在一個發(fā)生故障情況下有一個無故障的Failover。
當然,該方法同樣可用于具有較復雜體系結構的系統(tǒng)。
兩個節(jié)點12、14經過一個高速接口相互連接在一起,在圖1中的兩個服務器12、14之間用連接線識別出。
借助于本發(fā)明的方法,能將系統(tǒng)預計的和非預計的停機時間最小化,群集器10在一個嚴重故障之后進行重自舉操作,并接著或在此期間自動再次投入運行。
鑒于圖2中示出的流程圖,在下面闡述本發(fā)明的步驟。
方法用于群集器系統(tǒng)基于軟件故障或基于中央電源中斷必須再次啟動起來的情況。
為了在這些與其它故障等級或情況組之間進行區(qū)分,使用一個所謂的加電的識別機理。為此,對第一和第二節(jié)點12和14進行分析,尤其要挑出兩個節(jié)點的壽命并在進一步處理中考慮。將第一節(jié)點12的所謂正常運行時間(uptime)此時與第二節(jié)點14的正常運行時間進行比較。如果除了一個預先規(guī)定的公差值(它確定偏差公差)之外兩個時間符合一致,則能由此間接得出結論,這應該涉及中央電源中斷,系統(tǒng)基于這個結論進行重自舉。公差值可通過輸入一個閾值來規(guī)定。該值可以取決于系統(tǒng)和應用而變化。如果例如包括另一種情況,即第一節(jié)點12已經存活數(shù)天,而第二節(jié)點14只在數(shù)分鐘的范圍內有效,則所涉及的就不會是中央電源中斷。
如果在加電-機理時確定相應的正常運行時間相互間有顯著的偏差,則能間接推斷出另外的故障(例如硬件故障、軟件故障、單個節(jié)點的斷電)。在這種情況下,將推動在群集器10中自動地協(xié)調接受兩個節(jié)點。隨后在群集器系統(tǒng)10投入運行時,能因此在所有的群集器節(jié)點12、14上激活無故障的狀態(tài)。
為了方法的一般控制,在投入運行方法的相應進行之前能確定故障等級16,所述等級通過一定的參數(shù)說明來規(guī)定。這個第一方法步驟能與群集器操作無關地進行并能置于此前;這在圖2中用點劃線表示。在群集器操作期間或在群集器操作中發(fā)生故障時進行其余的方法步驟。
在隨后闡述的實施例中,確定兩個故障等級16。
一個第一故障等級16-1,包括在其中所述方法用于群集器投入運行要自動推動的情況。
一個第二故障等級16-2,包括在其中要進行故障的一個另外的分析和將方法人工地繼續(xù)進行的情況。第一故障等級16-1通過參數(shù)“軟件故障”和/或“中央電源中斷”來定義。就是說,系統(tǒng)自動分析系統(tǒng)的狀態(tài)或基于故障重自舉的原因,此時尤其要研究節(jié)點12、14的正常運行時間和一個軟件故障識別的結果。
如果該結果是必須出示一個軟件故障或一個電源中斷,則將故障劃分到第一故障等級16-1。在此假設所涉及的只是一個暫時的故障,能將它通過一個重自舉和在群集器中再接受有缺陷的節(jié)點而消除。因此,在這些情況能自動投入運行。
在所有其他情況下,將故障劃分到第二故障等級16-2。在此假設涉及的是一個嚴重的故障,它不能通過一個重自舉清除。在下面,例如是包括一個硬件故障或一個嚴重的硬件和軟件組合的故障的情況。
隨著通過管理員確定故障等級16,能動態(tài)地調節(jié)在某些情況下群集器應當自動運行而在某些情況下不自動運行。有利的是,在一個發(fā)生故障之后群集器10投入運行的過程能動態(tài)地與相應的系統(tǒng)配合,此時給某些故障分配一個專門的要求單獨投入運行的故障等級,因為在自動重復將有缺陷的節(jié)點捆扎到群集器10中時會出現(xiàn)二次誤差。
為了例如還能進行其它的故障分析,第二故障等級16-2能有選擇地包括在其中也要進行一個自動的但時間上滯后的投入運行的情況。但是,也能為第二故障等級16-2規(guī)定,在這些情況下必須總是以人工方式投入運行。
在第一故障等級16-1的兩個情況中(“暫時的軟件故障”或“中央電源中斷”),在重自舉之后將兩個節(jié)點12、14協(xié)調到群集器10中去。
通過控制故障等級控制的進行方式可以使群集器10根據(jù)當時現(xiàn)實的故障狀態(tài)動態(tài)地投入運行。
有利的是,對于在此介紹的投入運行方案,自舉程序或自舉塊程序和投入運行方法相互嵌套的。就是說,在群集器投入運行的各個步驟被觸發(fā)之前,不必要地必然完全結束自舉。
Solaris操作系統(tǒng)環(huán)境很適合于在高可用性的群集器系統(tǒng)時應用,因為它可以與在此之下的硬件層進行有效的通信,此外支持監(jiān)控功能并因此是本發(fā)明系統(tǒng)的優(yōu)選實施形式的組成部分。
一個Solaris 2.x-系統(tǒng)能在各種所謂的運行級(Runlevel)自舉。運行級指出計算機的操作方式并規(guī)定狀態(tài)和由它提供的服務。這里特別要在八個運行級之間進行區(qū)分。在運行級0(也稱作為監(jiān)視器模式)時還沒有UNIX運行,而在運行級1時已經激活UNIX內核。運行級3(也稱作為多用戶模式)闡明機器已經處于支配全部功能的狀態(tài),所有文件系統(tǒng)已經處于安裝好的狀態(tài)且網絡過程在運行。
有利的是,在達到運行級3之后,能借助于本發(fā)明的方法已經使兩個群集器節(jié)點同步并自動地投入運行。
為了進行所述方法方法的顯著時間優(yōu)化,首先事態(tài)有助于,能通過相應的故障等級16分配來識別情況,在這些情況下,可以使群集器自動地再次投入運行。這樣,顯著降低了系統(tǒng)的停機時間,因為在所有以前被定義為非緊迫的情況下立即再投入運行。迄今在非緊迫情況下也必須人工地投入運行,這導致較長的系統(tǒng)停機時間。
在群集器10投入運行時,尤其要實施下列步驟在第一節(jié)點12被接受到群集器10中之后(例如通過指令“scadminstartcluster”),必須檢驗,是否這個步驟能成功地執(zhí)行(例如用指令“hastat”)。隨后將第二節(jié)點14用另一個指令接受到群集器10中(例如用指令“scadmin startnode”),接著再去檢驗這個步驟的無故障性(指令“hastat”)。在將兩個節(jié)點12、14成功的捆扎到群集器10中之后,能將后者啟動。此時,必須登記屬于群集器控制器控制的服務或應用。
群集器10的各個服務器或節(jié)點12、14,主要是經過一個所謂的專用-鏈接-連接相互處于數(shù)據(jù)交換中。為了能控制節(jié)點12、14的失效,這個連接從而以冗余方式設立。
在本發(fā)明的一個可選擇的、同樣示于圖2的實施形式中,擴展了所述方法,在發(fā)生屬于故障等級16-2的故障時,不立即自動投入運行循環(huán),要進行另外的分析。通過自動獲取其它參數(shù),可以推斷故障的類型,在可能的情況下,在略晚的時刻自動投入運行也許有意義或要不然結束所述方法。
權利要求
1.在發(fā)生故障后使群集器(10)投入運行的方法,群集器(10)包括多個節(jié)點(12,14),在發(fā)生故障的情況下相應地由一個第二節(jié)點(14)接管一個第一節(jié)點(12)的任務,該方法包括下列步驟-確定至少一個第一和一個第二故障等級(16-1,16-2),-分析導致第一節(jié)點(12)重自舉的故障,-將故障分級成故障等級(16-1,16-2)之一,-如果故障被分級成第一故障等級(16-1),則具有節(jié)點(12,14)的群集器(10)自動投入運行。
2.如權利要求1的方法,其中,對于第二故障等級(16-2)群集器(10)以非自動方式投入運行。
3.如上述權利要求之一的方法,其中,故障分析至少在于一個加電識別,尤其是通過讀取和比較節(jié)點(12,14)的壽命進行。
4.如上述權利要求之一的方法,其中,將群集器(10)構建成SUN-群集器系統(tǒng),尤其是構建成2.x型的SUN-群集器系統(tǒng)。
5.如上述權利要求之一的方法,其中,如果第一節(jié)點(12)達到一個在其中它支配全部功能,尤其是多用戶模式的狀態(tài),其中,運行該狀態(tài)網絡過程并已經安裝所有的文件系統(tǒng),則在第一節(jié)點(12)重自舉后才使群集器(10)投入運行。
6.如上述權利要求之一的方法,其中,群集器(10)是一個主動-主動-群集器。
7.如上述權利要求之一的方法,其中,群集器(10)是一個主動-主動-群集器。
7.如權利要求1至5之一的方法,其中,群集器(10)是一個主動-被動-群集器。
8.如上述權利要求之一的方法,其中,在二個彼此分配給群集器(10)的節(jié)點(12,14)上進行重自舉故障分析。
9.如上述權利要求之一的方法,其中,用協(xié)調的節(jié)點(12,14)實施群集器(10)的投入運行,其中將節(jié)點(12,14)按順序用相應不同的指令捆扎到群集器(10)中,檢驗這些捆扎的每個節(jié)點的無故障性。
10.如權利要求6和9的方法,其中,通過求取在群集器(10)兩側在預定的協(xié)調時間點的節(jié)點(12,14)的狀態(tài)來進行節(jié)點(12,14)的協(xié)調。
11.程序或計算機程序產品,包括軟件代碼程序段,用這些程序段通過至少一個處理器實施上述方法權利要求之一的方法。
12.布置,尤其是群集器,用于實施如上述方法權利要求之一方法。
13.裝置,尤其是如上述權利要求的一個布置的節(jié)點或FAIL-OVER控制,包括至少一個用于實施如上述方法權利要求之一方法的裝置。
全文摘要
本發(fā)明涉及在群集器(10)的一個節(jié)點(12,14)中出現(xiàn)導致節(jié)點(12,14)重自舉的故障后,群集器(10)自動投入運行的方法。此時,自動識別涉及是否是一個可自動修復的故障,在發(fā)生所述故障時群集器(10)能自動啟動。利用該方法,群集器(10)能在發(fā)生故障之后自行回到其運行狀態(tài),并能因此而使系統(tǒng)的停機時間最小。
文檔編號G06F11/00GK1908911SQ200610126718
公開日2007年2月7日 申請日期2002年1月23日 優(yōu)先權日2001年2月9日
發(fā)明者D·克勞斯, J·布拉古拉 申請人:西門子公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1