專利名稱:容錯系統(tǒng)及其中所使用的控制裝置、動作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及容錯系統(tǒng)、其中使用的控制裝置、動作方法以及動作程序,特別涉及規(guī)定用于實(shí)現(xiàn)計(jì)算機(jī)系統(tǒng)中的容錯的系統(tǒng)動作的狀態(tài)管理以及使用該狀態(tài)的控制。
背景技術(shù):
現(xiàn)在,公知在計(jì)算機(jī)系統(tǒng)中把構(gòu)成該計(jì)算機(jī)硬件的CPU(CentralProcessing Unit)、存儲器、PCI(Peripheral Component Interconnect)、磁盤、電源等所有部件多重冗余(例如二重冗余或者三重冗余),即使某一部件發(fā)生故障也不停止計(jì)算機(jī)系統(tǒng)而能夠連續(xù)運(yùn)行的容錯計(jì)算機(jī)系統(tǒng)(以下稱“容錯系統(tǒng)”)。
在容錯系統(tǒng)中,多重冗余后的多個CPU(處理器)經(jīng)常同步并以相同的定時執(zhí)行同一動作(稱為“鎖步同步”)。在這樣以鎖步同步執(zhí)行同一動作的多個CPU中,即使在某一CPU中發(fā)生故障,其余的CPU也繼續(xù)正常運(yùn)行。因此,容錯系統(tǒng)對于由CPU執(zhí)行的操作系統(tǒng)(OS)或者應(yīng)用軟件等軟件動作沒有影響,能夠繼續(xù)運(yùn)行。
作為這樣的容錯系統(tǒng)的現(xiàn)有技術(shù),分別在專利文獻(xiàn)1中公開了用于鎖步同步中的命令執(zhí)行的裝置及方法,在專利文獻(xiàn)2中公開了對容錯服務(wù)器中的大規(guī)模記錄設(shè)備的存取裝置及方法,在專利文獻(xiàn)3中公開了使用包含通過鎖步同步動作的處理器的多個處理組間的存儲器部分復(fù)制的高速再同步化技術(shù)。
專利文獻(xiàn)1美國專利申請公開第2002/0152418號說明書;專利文獻(xiàn)2美國專利申請公開第2002/0152419號說明書;專利文獻(xiàn)3美國專利第5953742號說明書。
但是,在上述現(xiàn)有技術(shù)的容錯系統(tǒng)中,對應(yīng)CPU的動作狀態(tài)(CPU總線的動作一致不一致)或者訪問許可狀態(tài)(IO訪問的一致或者不一致)等系統(tǒng)狀態(tài)恰當(dāng)?shù)貓?zhí)行用于實(shí)現(xiàn)容錯功能的錯誤處理、二重冗余(同步化)處理、再同步化處理十分困難。
本發(fā)明考慮這樣以往的事情而提出,其目的是根據(jù)系統(tǒng)狀態(tài)恰當(dāng)執(zhí)行為實(shí)現(xiàn)容錯功能的錯誤處理、同步化處理、再同步化處理。
為實(shí)現(xiàn)上述目的,本發(fā)明的容錯系統(tǒng)備有由互相相同的計(jì)算機(jī)硬件構(gòu)成的多個系統(tǒng),所述多個系統(tǒng)具有在自身和其他系統(tǒng)之間鎖步同步的狀態(tài)下能夠動作的處理部、連接所述處理部的輸入輸出部、在所述處理部以及所述輸入輸出部之間連接的控制部、通過所述控制部相互連接所述自身和其他系統(tǒng)之間的信號傳送部,所述控制部備有狀態(tài)管理模塊以及控制模塊,前者把用于執(zhí)行由所述多個系統(tǒng)執(zhí)行的容錯用的錯誤處理、同步化處理、以及再同步化處理的多個系統(tǒng)動作作為與它們對應(yīng)的多個狀態(tài)、與規(guī)定的事件信號相關(guān)聯(lián)地進(jìn)行管理,后者對應(yīng)所述事件信號,對于所述多個系統(tǒng)的每一個使所述多個狀態(tài)轉(zhuǎn)移,同時選擇所述多個系統(tǒng)動作,使所述處理部執(zhí)行。
在本發(fā)明中,所述多個系統(tǒng)動作也可以包含自身系統(tǒng)內(nèi)的所述處理部以及所述輸入輸出部之間的訪問控制、自身和其他系統(tǒng)之間的所述處理部以及所述輸入輸出部之間的訪問控制、在所述自身和其他系統(tǒng)之間的從所述處理部對所述輸入輸出部的訪問比較、在所述自身和其他系統(tǒng)之間的所述處理部內(nèi)的總線上的訪問比較、和在所述自身和其他系統(tǒng)之間的所述處理部的主存儲復(fù)制,優(yōu)選所述主存儲復(fù)制包含部分復(fù)制。
在本發(fā)明中,所述多個狀態(tài)也可以包括表示編入所述多個系統(tǒng)的提供服務(wù)的系統(tǒng)中的狀態(tài)的聯(lián)機(jī)系狀態(tài)、表示從所述提供服務(wù)的系統(tǒng)分離的狀態(tài)的脫機(jī)系狀態(tài)、和表示通過錯誤檢測從所述提供服務(wù)的系統(tǒng)分離的狀態(tài)的錯誤系狀態(tài)。
優(yōu)選所述聯(lián)機(jī)系狀態(tài)也可以包括表示電源投入時所述處理部在自身和其他系統(tǒng)中相互異步動作的狀態(tài)的聯(lián)機(jī)分離狀態(tài)、表示所述處理部在所述自身和其他系統(tǒng)中相互異步動作的狀態(tài)的聯(lián)機(jī)準(zhǔn)備狀態(tài)、表示所述處理部在所述自身和其他系統(tǒng)中相互同步動作檢查該處理部內(nèi)的主存儲內(nèi)容的狀態(tài)的聯(lián)機(jī)同步前狀態(tài)、表示所述處理部在所述自身和其他系統(tǒng)中相互同步動作的狀態(tài)的聯(lián)機(jī)同步狀態(tài)、和表示在所述聯(lián)機(jī)同步狀態(tài)時所述處理部內(nèi)的總線上的動作成為在所述自身和其他系統(tǒng)中相互不一致時的暫時狀態(tài)的聯(lián)機(jī)異步狀態(tài),所述脫機(jī)系狀態(tài)也可以包括表示所述電源投入時所述處理部在所述自身和其他系統(tǒng)中相互異步動作的狀態(tài)、與所述聯(lián)機(jī)分離狀態(tài)成對的脫機(jī)分離狀態(tài);表示所述處理部在所述自身和其他系統(tǒng)中相互異步動作的狀態(tài)、與所述聯(lián)機(jī)準(zhǔn)備狀態(tài)成對的脫機(jī)狀態(tài);在所述自身和其他系統(tǒng)間執(zhí)行所述處理部的主存儲復(fù)制、表示該處理部在所述自身和其他系統(tǒng)中相互異步動作的狀態(tài)的脫機(jī)復(fù)制狀態(tài);和所述處理部內(nèi)的總線上的動作在所述自身和其他系統(tǒng)中成為不一致時從所述系統(tǒng)分離的狀態(tài)的脫機(jī)前狀態(tài)。
在涉及本發(fā)明的容錯系統(tǒng)中使用的控制裝置,是在備有多個具有互相相同的處理部以及輸入輸出部的系統(tǒng)的容錯系統(tǒng)中使用的控制裝置,其特征在于具有狀態(tài)管理模塊和控制模塊,前者把用于執(zhí)行由所述多個系統(tǒng)執(zhí)行的容錯用的錯誤處理、同步化處理、以及再同步化處理的多個系統(tǒng)動作作為與它們對應(yīng)的多個狀態(tài),與規(guī)定的事件信號關(guān)聯(lián)進(jìn)行管理;后者對應(yīng)所述事件信號,對于所述多個系統(tǒng)的每一個使所述多個狀態(tài)轉(zhuǎn)移,同時選擇所述多個系統(tǒng)動作,使所述處理部執(zhí)行。
涉及本發(fā)明的容錯系統(tǒng)的動作方法,是備有多個具有互相相同的處理部以及輸入輸出部的系統(tǒng)的容錯系統(tǒng)的動作方法,其特征在于,具有把用于執(zhí)行由所述多個系統(tǒng)執(zhí)行的容錯用的錯誤處理、同步化處理、以及再同步化處理的多個系統(tǒng)動作作為與它們對應(yīng)的多個狀態(tài),與規(guī)定的事件信號關(guān)聯(lián)進(jìn)行管理的步驟,和對應(yīng)所述事件信號,對于所述多個系統(tǒng)的每一個使所述多個狀態(tài)轉(zhuǎn)移,同時選擇所述多個系統(tǒng)動作,使所述處理部執(zhí)行的步驟。
涉及本發(fā)明的容錯系統(tǒng)的動作程序,是備有多個具有互相相同的處理部以及輸入輸出部的系統(tǒng)的容錯系統(tǒng)的動作程序,其特征在于,把用于執(zhí)行由所述多個系統(tǒng)執(zhí)行的容錯用的錯誤處理、同步化處理、以及再同步化處理的多個系統(tǒng)動作作為與它們對應(yīng)的多個狀態(tài),與規(guī)定的事件信號關(guān)聯(lián)進(jìn)行管理的步驟,和對應(yīng)所述事件信號,對于所述多個系統(tǒng)的每一個使所述多個狀態(tài)轉(zhuǎn)移,同時選擇所述多個系統(tǒng)動作,使所述處理部執(zhí)行的步驟。
根據(jù)本發(fā)明,能夠?qū)?yīng)系統(tǒng)狀態(tài)恰當(dāng)執(zhí)行用于實(shí)現(xiàn)容錯功能的錯誤處理、同步化處理、以及再同步化處理。
圖1是表示涉及本發(fā)明的實(shí)施例的容錯系統(tǒng)的整體結(jié)構(gòu)的概略框圖。
圖2是說明由容錯控制器執(zhí)行的自身系統(tǒng)內(nèi)的CPU子系統(tǒng)和IO子系統(tǒng)之間的訪問控制的圖。
圖3是說明由容錯控制器進(jìn)行的經(jīng)由交叉鏈路的系統(tǒng)之間的訪問控制的圖。
圖4說明由容錯控制器執(zhí)行的從CPU子系統(tǒng)對IO子系統(tǒng)的訪問比較的圖。
圖5是說明由存儲控制器執(zhí)行的CPU總線的訪問比較的圖。
圖6是說明由DMA/共享資源控制器執(zhí)行的主存儲復(fù)制的圖。
圖7是表示容錯系統(tǒng)的處理的概略流程圖。
圖8是說明容錯系統(tǒng)的狀態(tài)轉(zhuǎn)移的圖。
圖9是說明打開電源時的處理順序的時序圖。
圖10是說明CPU子系統(tǒng)的同步化處理的處理順序的時序圖。
圖11是說明從由于CPU總線的動作不一致引起的同步偏移到再同步化處理的處理順序的時序圖。
具體實(shí)施例方式
下面參照附圖詳細(xì)說明本發(fā)明涉及的容錯系統(tǒng)、其中所使用的控制裝置、動作方法以及用于實(shí)施動作程序的最佳的方式。
圖1表示根據(jù)本實(shí)施例的容錯系統(tǒng)的基本結(jié)構(gòu)。
圖1所示的容錯系統(tǒng)(也稱為“容錯計(jì)算機(jī)”、“容錯服務(wù)器”等),在作為由互相相同的計(jì)算機(jī)硬件構(gòu)成的多個系統(tǒng)組成的多重冗余計(jì)算機(jī)系統(tǒng)使用的二重冗余計(jì)算機(jī)系統(tǒng)中,備有兩個系統(tǒng)100、100,即“#0系統(tǒng)”以及“#1系統(tǒng)”。在圖1的例子中,互相獨(dú)立的#0系統(tǒng)和#1系統(tǒng)構(gòu)成單一的容錯系統(tǒng)。在以下的說明中,根據(jù)需要,在把兩個系統(tǒng)100、100的一方(例如#0系統(tǒng))作為“自身系統(tǒng)”時,另一方作為“其他系統(tǒng)”(例如#1系統(tǒng))區(qū)別使用。
各系統(tǒng)100、100,如圖所示,具有成為處理部的CPU子系統(tǒng)110、成為輸入輸出部的IO(Input Output輸入輸出)子系統(tǒng)120、連接CPU子系統(tǒng)110以及IO子系統(tǒng)120的、作為構(gòu)成本發(fā)明的狀態(tài)管理模塊以及控制模塊的主要部分的控制部(控制裝置)的FT(容錯)控制器130、和作為相互連接自身系統(tǒng)和其他系統(tǒng)間的CPU子系統(tǒng)110以及IO子系統(tǒng)120的信號傳送路徑的交叉鏈路140、140。在本實(shí)施例中,F(xiàn)T控制器130和CPU子系統(tǒng)110以及IO子系統(tǒng)120內(nèi)的各種控制器(后述的存儲器控制器113、IO控制器121、DMA/共享資源控制器122)一起作為容錯系統(tǒng)內(nèi)的主板控制器(控制裝置)101裝載。
自身系統(tǒng)內(nèi)的CPU子系統(tǒng)110和IO子系統(tǒng)120可通過FT控制器130相互訪問。另外,自身系統(tǒng)內(nèi)的CPU子系統(tǒng)110和其他系統(tǒng)的IO子系統(tǒng)120,通過自身系統(tǒng)的FT控制器110、交叉鏈路140以及其他系統(tǒng)的FT控制器110可相互訪問。
CPU子系統(tǒng)110具有CPU 111、成為該CPU 111的主存儲器的存儲器112、在CPU 111以及存儲器112間通過CPU總線連接的存儲器控制器113。在自身和其他系統(tǒng)的CPU子系統(tǒng)110、110間通過各個存儲器控制器113、113連接。
自身和其他系統(tǒng)的CPU子系統(tǒng)110、110以相互鎖步同步在相同的動作定時執(zhí)行相同的動作,如通過硬件的故障檢測把服務(wù)中的CPU子系統(tǒng)110分離的話,同一動作中的CPU子系統(tǒng)110原樣不變繼續(xù)執(zhí)行服務(wù)。
IO子系統(tǒng)120,通過用CPU子系統(tǒng)110的CPU 111執(zhí)行的軟件形成的鏡像鏈接的處理,在兩系統(tǒng)100、100間具有冗余性那樣構(gòu)成。在圖1的例子中,為用于連接CPU 111和IO設(shè)備總線126的多個(在圖中的例子中為兩個)IO控制器121、121、和在自身和其他系統(tǒng)間CPU子系統(tǒng)110、110的二重冗余,具有包含用于復(fù)制兩存儲器112、112的主存儲區(qū)域的內(nèi)容的DMA(Direct Memory Access)控制器以及用于執(zhí)行兩系統(tǒng)100、100間的信息共享的共享存儲器或者具有系統(tǒng)間通信功能的共享資源控制器的DMA/共享資源控制器122。
兩個IO控制器121、121之一通過IO橋123連接未圖示的硬盤驅(qū)動器(HDD)等IO設(shè)備126,在另一個上通過遺留IO橋124連接ROM 125。各IO控制器121、121可從自身系統(tǒng)的CPU子系統(tǒng)110和其他系統(tǒng)的CPU子系統(tǒng)110分別訪問。IO橋123,例如可以舉出PCI(Peripheral ComponentInterconnect)總線、USB(Universal Serial Bus)、IEEE(Institute of Electricaland Electronic Engineering)1394等接口橋,另外遺留IO橋124例如可以舉出PS(Personal System)/2端口或RS-232C(Recommended Standard 232version C)端口等接口橋。
FT控制器130具有容錯功能,即用于1)自身系統(tǒng)內(nèi)以及自身和其他系統(tǒng)間的CPU子系統(tǒng)110和IO子系統(tǒng)120的連接及其分離,2)錯誤檢測,3)實(shí)現(xiàn)自身和其他系統(tǒng)間的CPU子系統(tǒng)110、110的二重冗余的各功能。下面參照圖2~圖6,說明FT控制器130的各功能。
FT控制器130,通過許可或者限制自身系統(tǒng)內(nèi)以及自身和其他系統(tǒng)間的CPU子系統(tǒng)110和IO子系統(tǒng)之間的訪問,執(zhí)行自身和其他系統(tǒng)間的CPU子系統(tǒng)110和IO子系統(tǒng)120的連接及其分離。圖2表示通過自身系統(tǒng)內(nèi)的CPU子系統(tǒng)110以及IO子系統(tǒng)120間的訪問動作(從CPU子系統(tǒng)110到IO子系統(tǒng)120的出站(outbound)訪問,和從IO子系統(tǒng)120到CPU子系統(tǒng)110的入站(inbound)訪問)引起的動作信號流動(參照圖中的箭頭A1,A1)的情形,圖3表示經(jīng)由交叉鏈路140、140的自身系統(tǒng)內(nèi)的CPU子系統(tǒng)110和其他系統(tǒng)內(nèi)的IO子系統(tǒng)120之間的訪問動作(出站訪問以及入站訪問)引起的動作信號流動(參照圖中的箭頭A2,A2)的情形。
另外,F(xiàn)T控制器130,作為用于實(shí)現(xiàn)容錯功能的錯誤檢測機(jī)構(gòu),如圖4所示,具有比較由從自身系統(tǒng)的CPU子系統(tǒng)110到自身系統(tǒng)的IO子系統(tǒng)120的訪問動作引起的動作信號和由其他系統(tǒng)的CPU子系統(tǒng)110到自身系統(tǒng)的IO子系統(tǒng)120的訪問動作引起的動作信號的功能(比較電路)。
該FT控制器130內(nèi)的比較電路,在功能上具有在自身系統(tǒng)內(nèi)的存儲器控制器113上連接的緩沖器(BUF)131、經(jīng)由交叉鏈路140在其他系統(tǒng)內(nèi)的存儲器控制器113上連接的緩沖器(BUF)132、和在兩緩沖器131、132的輸出上連接的比較部132。
在該比較電路中,通過比較部132相互比較由來自自身系統(tǒng)的CPU子系統(tǒng)110的訪問動作引起的動作信號、和由來自其他系統(tǒng)的CPU子系統(tǒng)110的訪問動作引起的動作信號,其結(jié)果,在發(fā)生由兩訪問動作引起的動作信號不一致的情況下,分離兩個CPU子系統(tǒng)110、110中任何一個,使剩下的一個繼續(xù)動作。在本實(shí)施例中,因?yàn)楸容^電路用緩沖器131、132構(gòu)成,所以即使在發(fā)生兩信號的不一致后,在緩沖器131、132的容量的許可限度內(nèi),可以不分離CPU子系統(tǒng)110經(jīng)歷某種程度的期間繼續(xù)其動作。
圖4表示,在#0系統(tǒng)側(cè)的FT控制器130中,在比較部133中比較向一方的緩沖器131輸入的#0系統(tǒng)內(nèi)的從CPU子系統(tǒng)110對IO子系統(tǒng)120的訪問動作引起的動作信號(參照圖中的箭頭A3)、和向另一方的緩沖器132輸入的#1系統(tǒng)的從CPU子系統(tǒng)110對#0系統(tǒng)的IO子系統(tǒng)120的訪問動作引起的動作信號(參照圖中的箭頭A4),從比較部133輸出其結(jié)果(兩信號的一致或者不一致)的情形(參照圖中的箭頭A5)。
CPU子系統(tǒng)110,使用DMA/共享資源控制器122的DMA控制器,把正提供服務(wù)的一側(cè)的CPU子系統(tǒng)110中的存儲器112的主存儲區(qū)域的內(nèi)容的全部或者一部分向待機(jī)側(cè)的CPU子系統(tǒng)110中的存儲器112的主存儲區(qū)域復(fù)制,同時通過執(zhí)行CPU復(fù)位實(shí)現(xiàn)自身和其他系統(tǒng)間的CPU子系統(tǒng)110、110的二重冗余。
這里,存儲器112的主存儲區(qū)域的內(nèi)容,如果基本不遍及全部區(qū)域復(fù)制的話,則不能保證兩CPU子系統(tǒng)110、110的二重冗余動作。但是,一旦執(zhí)行二重冗余,就比較由兩CPU子系統(tǒng)110、110內(nèi)的CPU總線上的訪問動作引起的動作信號,其結(jié)果,通過跟蹤對發(fā)生兩信號不一致后的存儲器112的主存儲內(nèi)容的訪問動作,可以得到自身和其他系統(tǒng)的存儲器112、112間的主存儲內(nèi)容的差信息。通過使用該差信息,刪減要復(fù)制的存儲器112的主存儲內(nèi)容,大幅度縮短復(fù)制時間,在兩CPU子系統(tǒng)110、110二重冗余后更加高速執(zhí)行發(fā)生兩CPU總線的動作信號不一致時的再同步化。
為執(zhí)行這樣的動作,CPU子系統(tǒng)110內(nèi)的存儲器控制器113,如圖5所示,具有比較兩系統(tǒng)100、100的CPU子系統(tǒng)110、110間的CPU總線的動作信號的功能(CPU總線比較功能)。在圖5的例子中,具有比較自身系統(tǒng)的CPU子系統(tǒng)110內(nèi)的CPU總線的動作信號(參照圖中的箭頭A6)、和其他系統(tǒng)的CPU子系統(tǒng)110內(nèi)的CPU總線的動作信號(參照圖中的箭頭A7)、將其結(jié)果(一致、不一致)向FT控制器130輸出的比較部114。
另外,F(xiàn)T控制器130,如前所述具有跟蹤由兩CPU子系統(tǒng)110、110內(nèi)的CPU總線上的訪問動作引起的兩動作信號發(fā)生不一致后的存儲器112的主存儲訪問動作、獲得自身和其他系統(tǒng)的存儲器112、112間的主存儲內(nèi)容的差信息的功能(以下稱“主存儲訪問跟蹤功能”)。
圖6的例子表示通過DMA/共享資源控制器122執(zhí)行的從#0系統(tǒng)向#1系統(tǒng)復(fù)制主存儲內(nèi)容的全部或者一部分的情況。
首先,在自身系統(tǒng)側(cè)從DMA/共享資源控制器122經(jīng)由FT控制器130和存儲器控制器112向存儲器112發(fā)出DMA讀取請求(參照圖中的箭頭A8、A9),存儲器112的主存儲內(nèi)容的全部或者一部分經(jīng)由存儲器控制器112和FT控制器130向DMA/共享資源控制器122內(nèi)的共享存儲器發(fā)送(參照圖中的箭頭A10、A11)。
同時,從自身系統(tǒng)側(cè)的存儲器控制器112通過FT控制器130、交叉鏈路140,經(jīng)由其他系統(tǒng)側(cè)的FT控制器130、DMA/共享資源控制器122向其他系統(tǒng)側(cè)的存儲器控制器112發(fā)出DMA寫入請求(參照圖中的箭頭A12、A13),在自身系統(tǒng)側(cè)的DMA/共享資源控制器122內(nèi)的共享存儲器中臨時存儲的存儲器112的主存儲內(nèi)容的全部或者一部分通過FT控制器130、交叉鏈路140,經(jīng)由其他系統(tǒng)側(cè)的FT控制器130、存儲器控制器112復(fù)制到存儲器112中(參照圖中的箭頭A14、A15)。
為實(shí)現(xiàn)上述各種功能,在本實(shí)施例的FT控制器130中,定義表示系統(tǒng)動作狀態(tài)的狀態(tài),由相應(yīng)運(yùn)行狀態(tài)規(guī)定執(zhí)行錯誤處理、二重冗余處理、以及再同步處理的軟件動作,由此執(zhí)行為實(shí)現(xiàn)容錯的狀態(tài)管理。
基本上,通過錯誤檢測引起的子系統(tǒng)110、120的分離(狀態(tài)轉(zhuǎn)移)由硬件實(shí)時進(jìn)行,但是子系統(tǒng)110、120的插入通過軟件開始。根據(jù)錯誤檢測的通知由CPU調(diào)用的軟件,按照檢測到的錯誤內(nèi)容和其時的狀態(tài)信息,識別系統(tǒng)的動作信息(CPU子系統(tǒng)110的同步、異步的狀態(tài),可否訪問),選擇處理。
這里說明使用FT控制器130管理的狀態(tài)。
使用FT控制器130管理的狀態(tài),匯總表示CPU 111的狀態(tài)、CPU子系統(tǒng)110、和IO子系統(tǒng)120之間的訪問許可狀態(tài)、兩系統(tǒng)100、100之間的鏈路的狀態(tài),通過軟件控制或硬件錯誤檢測事件等能夠進(jìn)行狀態(tài)轉(zhuǎn)移。
另外,作為狀態(tài)的預(yù)備信息,給每一狀態(tài)定義作為排他的動作方式的“ACT(active有效)”方式和“SBY(stand-by備用)”方式。作為幾種錯誤檢測機(jī)構(gòu),在FT控制器130中,執(zhí)行從自身系統(tǒng)的CPU子系統(tǒng)110對自身系統(tǒng)的IO子系統(tǒng)120的訪問比較或CPU子系統(tǒng)110內(nèi)的CPU總線的動作比較。由此在比較不一致不能確定具體錯誤位置的情況下,動作方式是“ACT”方式的CPU子系統(tǒng)110繼續(xù)服務(wù),動作方式是“STB”方式的CPU子系統(tǒng)110被分離。
表1及表2,表示定義的狀態(tài)以及動作方式的內(nèi)容。
表1
表2
這里,參照上述表,說明狀態(tài)的詳情。
在本實(shí)施例中定義的狀態(tài)中,大致分為1)編入提供服務(wù)的系統(tǒng)中的狀態(tài)(Online(聯(lián)機(jī))系)、2)從系統(tǒng)分離的狀態(tài)(Offline(脫機(jī))系)、以及3)從系統(tǒng)封鎖的狀態(tài)(Fault(錯誤)系)三種。以下順序說明它們。
編入提供服務(wù)的系統(tǒng)中的狀態(tài)(Online(聯(lián)機(jī))系)表示該系統(tǒng)動作狀態(tài)的狀態(tài),賦予狀態(tài)名“Online”。該狀態(tài)的CPU子系統(tǒng)110(CPU 111)表示實(shí)際提供服務(wù)的CPU。此外,根據(jù)同步狀態(tài)或訪問的限制,派生出以下的1-1)~1-5)多個狀態(tài)ST1~ST5。
1-1)“Online divide(聯(lián)機(jī)分離)”狀態(tài)ST1這是最初設(shè)定電源投入后的CPU子系統(tǒng)110的狀態(tài)。成為該狀態(tài)ST1的CPU子系統(tǒng)110,在容錯系統(tǒng)中只有一個,與它成對的CPU子系統(tǒng)110成為后述的“Offline divide”狀態(tài)。CPU子系統(tǒng)110,在“Online divide”狀態(tài)ST1時,只訪問自身系統(tǒng)的IO子系統(tǒng)120,不過可完全訪問,在該CPU子系統(tǒng)100上動作的BIOS(Basic Input Output System)進(jìn)入起動OS的階段。
1-2)“Online ready(聯(lián)機(jī)準(zhǔn)備)”狀態(tài)ST2這是從“Online divide”狀態(tài)ST1連接交叉鏈路140狀態(tài)時的狀態(tài)。另外,在后述的“Online async”狀態(tài)成對的CPU子系統(tǒng)110、110中,在所述IO訪問不一致或者CPU總線不一致時臨時存儲用主存儲訪問跟蹤功能得到的信息的緩沖器超過規(guī)定閾值而成為“幾乎滿(almost full)”的狀態(tài)時,通過軟件指示動作方式是“ACT”方式的CPU子系統(tǒng)110成為“Onlineready”狀態(tài)ST2(此時動作方式是“SBY”方式的CPU子系統(tǒng)110成為后述的“Pre offline”狀態(tài))。在從“Online divide”狀態(tài)ST1向“Online ready”狀態(tài)ST2轉(zhuǎn)移時,與之成對的CPU子系統(tǒng)110從后述的“Offline divide”狀態(tài)向“Offline”狀態(tài)轉(zhuǎn)移。該狀態(tài)ST2的CPU子系統(tǒng)110能夠完全訪問其他系統(tǒng)上的IO子系統(tǒng)120,反之,也可以從該IO子系統(tǒng)120訪問相應(yīng)CPU子系統(tǒng)110。
1-3)“Pre online sync(聯(lián)機(jī)同步前)”狀態(tài)ST3這是同步化處理中的同步復(fù)位解除后的狀態(tài),兩系統(tǒng)100、100實(shí)質(zhì)上處于同步狀態(tài)。在該“Pre online sync”狀態(tài)ST3和后述的“Online sync”狀態(tài)時,通過從CPU子系統(tǒng)110向IO子系統(tǒng)120的出站訪問動作執(zhí)行的動作信號的比較成為有效。
同步化處理中的兩系統(tǒng)間的主存儲內(nèi)容比較檢查是未結(jié)束的狀態(tài),由于兩系統(tǒng)間的主存儲的內(nèi)容不保證完全一致,所以不作為完全同步狀態(tài)處理,置于高速再同步化處理的對象之外。在發(fā)生故障或者發(fā)生不一致的情況下,動作方式是“SBY”方式的CPU子系統(tǒng)110置為出錯,動作方式是“ACT”方式的CPU子系統(tǒng)110,不管兩系統(tǒng)何者發(fā)生故障,都不能置為出錯。在該狀態(tài)ST3時,CPU子系統(tǒng)110的動作方式不能切換(“ACT”方式/“SBY”方式)。
1-4)“Online sync(聯(lián)機(jī)同步)”狀態(tài)ST4這是表示完全的同步狀態(tài)(二重冗余)的狀態(tài)。在該情況下,兩系統(tǒng)100、100的狀態(tài),任何一個都是“Online sync”狀態(tài)ST4。該狀態(tài)ST4,因?yàn)槭峭綘顟B(tài),所以如發(fā)生故障,故障狀態(tài)分離功能發(fā)揮作用,如正進(jìn)行FSB(Front Sid Bus)比較的話則能夠高速再同步。
1-5)“Online async(聯(lián)機(jī)異步)”狀態(tài)ST5這是在“Online sync”狀態(tài)ST4的狀態(tài)下在執(zhí)行CPU總線不一致的檢測的情況下轉(zhuǎn)移的臨時狀態(tài)。在該時刻,因?yàn)檫€像維持同步那樣處理,所以如果在故障位置發(fā)生明確展示的故障的話,則故障部分的分離的機(jī)構(gòu)作用。在這種情況下,兩系統(tǒng)100、100都成為“Online sync”狀態(tài)ST5。
CPU總線不一致的結(jié)果,通過主存儲訪問跟蹤功能的動作開始。由此,如IO訪問緩沖器“滿(Full)”,或者主存儲訪問跟蹤的大小達(dá)到界限,則動作方式為“ACT”方式的CPU子系統(tǒng)110成為后述的“Offline ready”,動作方式為“SBY”方式的CPU子系統(tǒng)110成為“Pre offline”狀態(tài)。另外,在動作方式為“SBY”方式的CPU子系統(tǒng)110側(cè),在具體執(zhí)行確定故障的錯誤檢測的情況下,成為后述的“Fault”狀態(tài)。
2)從系統(tǒng)分離的狀態(tài)(Offline系)表示該系統(tǒng)動作狀態(tài)的狀態(tài),賦予狀態(tài)名“Offline”。該狀態(tài)的CPU子系統(tǒng)110(CPU 111)表示從實(shí)際的系統(tǒng)分離。之外,根據(jù)訪問限制或者同步化處理狀態(tài),派生出以下2-1)~2-4)所示的多個狀態(tài)ST6~ST9。
2-1)“Offline divide(脫機(jī)分離)”狀態(tài)ST6這是表示投入電源加電復(fù)位后當(dāng)時的狀態(tài)的狀態(tài)。亦即未成為“Onlinedivide”狀態(tài)ST1的系統(tǒng)100側(cè)的CPU子系統(tǒng)110的狀態(tài)。不能進(jìn)行對其他系統(tǒng)的IO子系統(tǒng)120的訪問,但是可以對自身系統(tǒng)的IO子系統(tǒng)120進(jìn)行訪問。從IO子系統(tǒng)120對該CPU子系統(tǒng)110的訪問也可以完全訪問。
2-2)“Offline(脫機(jī))”狀態(tài)ST7這是從“Offline divide”狀態(tài)ST6到交叉鏈路140狀態(tài)后的狀態(tài)。另外,在處于后述的“Fault”狀態(tài)中的CPU子系統(tǒng)110中是執(zhí)行復(fù)位后的狀態(tài)。在從“Offline divide”狀態(tài)ST6轉(zhuǎn)移時,成對的“Online divide”狀態(tài)ST1的CPU子系統(tǒng)110轉(zhuǎn)移到“Online ready”狀態(tài)ST2。它與“Offlinedivide”狀態(tài)ST6不同,不管自身和其他系統(tǒng),可進(jìn)行對IO子系統(tǒng)120的訪問,但是,因?yàn)槌蔀楫惒皆L問,所以和其他系統(tǒng)的CPU 111的訪問競爭由軟件管理。
2-3)“Recover Offline(脫機(jī)復(fù)制)”狀態(tài)ST8這是從“Offline”狀態(tài)ST7進(jìn)入通過DMA/共享資源控制器122的DMA控制器執(zhí)行存儲器112的主存儲復(fù)制的二重冗余處理時的恢復(fù)方式的設(shè)定時刻。另外,在后述的“Pre offline”狀態(tài)ST9時,通過作為系統(tǒng)管理編入請求的SMI(System Management Interrupt)進(jìn)入信號從全部CPU進(jìn)行SMM(System Management Mode),響應(yīng)這點(diǎn),從全部CPU返回SMIACK(ACKnowledgement),通過結(jié)束再同步化處理的準(zhǔn)備,轉(zhuǎn)移到該狀態(tài)ST8。在該狀態(tài)ST8,從CPU子系統(tǒng)110對IO子系統(tǒng)120的訪問,僅異步請求可能。在該狀態(tài)ST8中,通過對于從IO子系統(tǒng)120向CPU子系統(tǒng)110的異步請求的完成、和來自IO子系統(tǒng)120的請求。
2-4)“Pre Offline(脫機(jī)前)”狀態(tài)ST9它不檢測在“Online async”狀態(tài)ST5的CPU子系統(tǒng)110中明示的錯誤,在發(fā)生IO訪問不一致或CPU總線不一致時的主存儲訪問跟蹤“幾乎滿(Almost Full)”時,通過軟件指示動作方式為“SBY”方式的CPU子系統(tǒng)110進(jìn)行轉(zhuǎn)移(動作方式為“SBY”方式的CPU子系統(tǒng)110向“Onlineready”狀態(tài)ST2轉(zhuǎn)移)。在該時刻,解除系統(tǒng)的二重冗余。向該狀態(tài)ST9轉(zhuǎn)移時,在向動作方式為“SBY”方式的CPU子系統(tǒng)110的全部的CPU 111發(fā)出SMI、從全部的CPU 111返回SMI ACK、再同步化處理準(zhǔn)備齊備之前,繼續(xù)該狀態(tài)ST9。在處于該狀態(tài)ST9時,相應(yīng)CPU子系統(tǒng)110從系統(tǒng)分離,廢棄對IO子系統(tǒng)120的訪問,在CPU子系統(tǒng)110中以主·放棄響應(yīng)。
與系統(tǒng)閉鎖的狀態(tài)(Fault系)3-1)“Fault(錯誤)”狀態(tài)ST10這是判斷為CPU子系統(tǒng)110故障、與系統(tǒng)分離的狀態(tài),或者是CPU子系統(tǒng)110的分離由軟件強(qiáng)制進(jìn)入的狀態(tài)。在處于該狀態(tài)ST9時,來自外部和來自內(nèi)部的訪問都不可能,從CPU子系統(tǒng)110對IO子系統(tǒng)120的訪問作為主·放棄處理。
表3以及表4表示是讓通過還是抑制在CPU子系統(tǒng)110和IO子系統(tǒng)120之間交換的請求的狀態(tài)。這里,對于請求的完成全部通過。表中,分別用○表示可以訪問,△表示有訪問限制,×表示作為主·放棄返回。
表3從CPU子系統(tǒng)對IO子系統(tǒng)的出站訪問
○可以訪問△有訪問限制×主·放棄表4從IO子系統(tǒng)對CPU子系統(tǒng)的入站·訪問
○可以訪問△有訪問限制×主·放棄從CPU子系統(tǒng)110對IO子系統(tǒng)120的出站(outbound)訪問,通常僅來自正在進(jìn)行服務(wù)的CPU子系統(tǒng)110的訪問成為有效。因此,因?yàn)閷?yīng)的完成也僅返回服務(wù)中的CPU子系統(tǒng)110,所以不能進(jìn)行從服務(wù)外的CPU子系統(tǒng)110對IO子系統(tǒng)120的訪問。
因此,在本實(shí)施例中,即使是服務(wù)外的CPU子系統(tǒng)110,也通過異步請求準(zhǔn)備對IO子系統(tǒng)120的訪問的方法。異步請求,CPU 111在“Offline”狀態(tài)ST7、“Offline divide”狀態(tài)ST6、“Recover offline”狀態(tài)ST8時,可用系統(tǒng)100內(nèi)的未圖示的路由確定程序(router)設(shè)定。異步請求,在各系統(tǒng)100中作為不同的請求處理,對它的完成,向發(fā)出異步請求的系統(tǒng)100返回。這點(diǎn),因?yàn)樵谕毁Y源中也可以訪問,所以需要通過軟件以排他控制等方法避免競爭。
圖7是表示使用由FT控制器130進(jìn)行的上述狀態(tài)ST1~ST10的處理的流程圖。
FT控制器130,接收關(guān)聯(lián)上述狀態(tài)ST1~ST10的狀態(tài)轉(zhuǎn)移事件、錯誤檢測事件、或者軟件指示(預(yù)先設(shè)定的事件信號)(步驟S1),與此對應(yīng)轉(zhuǎn)移到CPU子系統(tǒng)110的狀態(tài)ST1~ST10(步驟S2參照后述的圖8~圖11),對應(yīng)轉(zhuǎn)移的狀態(tài)ST1~ST10選擇容錯用的錯誤處理、二重冗余處理(同步化處理)、以及再同步化處理(軟件動作)(步驟S3),使CPU子系統(tǒng)110執(zhí)行(CPU 111)執(zhí)行選擇的處理(步驟S4)。
圖8表示上述狀態(tài)ST1~ST10的狀態(tài)轉(zhuǎn)移圖。如圖8所示,由FT控制器130管理的狀態(tài)ST1~ST10根據(jù)狀態(tài)轉(zhuǎn)移事件、錯誤檢測事件、軟件指示(預(yù)先設(shè)定的事件信號)執(zhí)行轉(zhuǎn)移。
圖9~圖11表示說明根據(jù)CPU 111的狀態(tài)轉(zhuǎn)移事件進(jìn)行的狀態(tài)轉(zhuǎn)移的時序圖。
圖9表示系統(tǒng)的電源ON(打開)時的處理順序。
首先,在#0系統(tǒng)側(cè)執(zhí)行#0系統(tǒng)的電源打開復(fù)位(T100)。此時的狀態(tài)是“Offline divide”狀態(tài)ST6。接著,通過主板控制器101把#0系統(tǒng)置為“ACT”方式(T101)。由此,#0系統(tǒng)轉(zhuǎn)移到“Online divide”狀態(tài)ST1。然后,解除復(fù)位,執(zhí)行BIOS,啟動OS(T102~T104)。
接著,在#1系統(tǒng)側(cè)執(zhí)行#1系統(tǒng)的電源打開復(fù)位(T200)。此時的狀態(tài)是“Offline divide”狀態(tài)ST6。接著,通過主板控制器101把#1系統(tǒng)置為“SBY”方式(T201)。此時,#0系統(tǒng)保持是“Offline divide”狀態(tài)ST6。然后,解除復(fù)位,執(zhí)行BIOS(T202~T203)。
接著,通過交叉鏈路140、140連接兩系統(tǒng)后(S204),#0系統(tǒng)轉(zhuǎn)移到“Online ready”狀態(tài)ST2,#1系統(tǒng)轉(zhuǎn)移到“Offline”狀態(tài)ST7。
接著,在#1系統(tǒng)側(cè),一邊使BIOS循環(huán),一邊等待CPU子系統(tǒng)110的系統(tǒng)同步處理(T205)。
圖10表示執(zhí)行CPU子系統(tǒng)110的系統(tǒng)同步化處理時的處理順序。
接著,在#0系統(tǒng)側(cè)開始系統(tǒng)同步化處理后(T105),在#1系統(tǒng)側(cè),在循環(huán)BIOS(T205)后,從“Offline”狀態(tài)ST7置為“Recover offline”狀態(tài)ST8。此時,在#0系統(tǒng)側(cè),保持為“Online ready”狀態(tài)ST2。
接著,在#0系統(tǒng)側(cè),通過DMA控制器開始存儲器的復(fù)制(T106),該DMA存儲器復(fù)制結(jié)束后(T107),通過SMI BIOS執(zhí)行CPU 111的編入處理(T108),CPU 111的超高速緩沖存儲器/環(huán)境向#1系統(tǒng)復(fù)制(T109)。
接著,在兩系統(tǒng)中進(jìn)行同步復(fù)位(T110)。由此,#0系統(tǒng)側(cè)從“Onlineready”狀態(tài)ST2轉(zhuǎn)移到“Pre Online sync”狀態(tài)ST3,#1系統(tǒng)側(cè)從“Recoveroffline”狀態(tài)ST8轉(zhuǎn)移到“Pre Online sync”狀態(tài)ST3。此時,#0系統(tǒng)側(cè)的動作方式成為“ACT”方式,#1系統(tǒng)側(cè)的動作方式成為“SBY”方式。
接著,在#0系統(tǒng)側(cè),起動BIOS(T111),恢復(fù)CPU 111的環(huán)境(T112),返回到OS(T113),通過DMA控制器開始存儲器的檢查(T114)。該存儲器的檢查結(jié)束后(T115),#0系統(tǒng)從“Pre Online sync”狀態(tài)ST3轉(zhuǎn)移到“Online sync”狀態(tài)ST4。
同樣,在#1系統(tǒng)側(cè)也起動BIOS(T207),恢復(fù)CPU 111的環(huán)境(T208),返回到OS(T209),通過DMA控制器開始存儲器的檢查(T210)。該存儲器的檢查結(jié)束后(T211),#1系統(tǒng)從“Pre Online sync”狀態(tài)ST3轉(zhuǎn)移到“Online sync”狀態(tài)ST4。
此時,#0系統(tǒng)側(cè)的動作方式成為“ACT”方式,#1系統(tǒng)側(cè)的動作方式成為“SBY”方式。
圖11表示因?yàn)榘l(fā)生兩系統(tǒng)的CPU總線動作的不一致執(zhí)行再同步處理時的處理順序。
首先,如由于兩系統(tǒng)的CPU總線動作的不一致發(fā)生同步偏離(T116、T212),則任何一個都從“Online sync”狀態(tài)ST4轉(zhuǎn)移到“Online async”狀態(tài)ST5。然后,因?yàn)殄e誤檢查,執(zhí)行存儲器訪問跟蹤,如訪問跟蹤成為“幾乎滿(Almost full)”(T117、T213),則在#0系統(tǒng)側(cè),從“Online async”狀態(tài)ST4轉(zhuǎn)移到“Online ready”狀態(tài)ST2,在#1系統(tǒng)側(cè),從“Online async”狀態(tài)ST4轉(zhuǎn)移到“Pre offline”狀態(tài)ST9。
接著,在兩系統(tǒng)中,通過SMI BIOS執(zhí)行CPU 111的編入處理(T118,T214),在#1系統(tǒng)側(cè)從“Pre offline”狀態(tài)ST9轉(zhuǎn)移到“Recover offline”狀態(tài)ST8。此時,在#0系統(tǒng)側(cè),保持為“Online ready”狀態(tài)ST2。
接著,在兩系統(tǒng)中,通過DMA控制器開始存儲器112的部分復(fù)制(T119、T215),它結(jié)束后(T120,T216),CPU 111的超高速緩沖存儲器/環(huán)境向#1系統(tǒng)復(fù)制(T121、T217)。
接著,在兩系統(tǒng)中執(zhí)行同步復(fù)位(T122)。由此,#0系統(tǒng)側(cè)從“Onlineready”狀態(tài)ST2轉(zhuǎn)移到“Pre online sync”狀態(tài)ST3,#1系統(tǒng)側(cè)從“Recoveroffline”狀態(tài)ST8轉(zhuǎn)移到“Pre online sync”狀態(tài)ST3。此時,#0系統(tǒng)側(cè)的動作方式成為“ACT”方式,#1系統(tǒng)側(cè)的動作方式成為“SBY”方式。
接著,在#0系統(tǒng)側(cè),起動BIOS(T123),恢復(fù)CPU 111的環(huán)境(T124),返回到OS(T125),通過DMA控制器開始存儲器的檢查(T126)。該存儲器的檢查結(jié)束后(T127),#0系統(tǒng)從“Pre Online sync”狀態(tài)ST3轉(zhuǎn)移到“Online sync”狀態(tài)ST4。
同樣,在#1系統(tǒng)側(cè),也起動BIOS(T218),恢復(fù)CPU 111的環(huán)境(T219),返回到OS(T220),通過DMA控制器開始存儲器的檢查(T221)。該存儲器的檢查結(jié)束后(T222),#1系統(tǒng)從“Pre Online sync”狀態(tài)ST3轉(zhuǎn)移到“Online sync”狀態(tài)ST4。
因此,在本實(shí)施例中,通過定義表示容錯功能所需要的系統(tǒng)動作的多個狀態(tài),根據(jù)這些狀態(tài)的狀態(tài)規(guī)定用于執(zhí)行錯誤處理、二重冗余處理(同步化處理)、以及再同步化處理的軟件動作,實(shí)現(xiàn)容錯功能。亦即根據(jù)本實(shí)施例,根據(jù)運(yùn)行狀態(tài)規(guī)定FT控制器的系統(tǒng)的分離·連接和子系統(tǒng)的分離·連接、用各系統(tǒng)的CPU執(zhí)行的軟件,通過從錯誤通知以及運(yùn)行狀態(tài)確認(rèn)自身的CPU狀態(tài),進(jìn)行錯誤檢測或再同步化處理的處理選擇,能夠?qū)崿F(xiàn)容錯功能。
此外,在上述實(shí)施例中,作為容錯系統(tǒng)舉例表示二重冗余計(jì)算機(jī)系統(tǒng),但是本發(fā)明不限于此,例如也可以適用于三重冗余等多重冗余的情況。
權(quán)利要求
1.容錯系統(tǒng),具有用互相相同的計(jì)算機(jī)硬件構(gòu)成的多個系統(tǒng),其特征在于,所述多個系統(tǒng)具有可在自身和其他系統(tǒng)間以鎖步同步動作的處理部,連接所述處理部的輸入輸出部,在所述處理部以及所述輸入輸出部之間連接的控制部,和通過所述控制部互相連接所述自身和其他系統(tǒng)間的信號傳送路徑,所述控制部,具有管理模塊,其將通過所述多個系統(tǒng)執(zhí)行的容錯用的用于進(jìn)行錯誤處理、同步化處理、以及再同步化處理的多個系統(tǒng)動作,作為與之對應(yīng)的多個狀態(tài),與規(guī)定的事件信號關(guān)聯(lián)進(jìn)行管理,控制模塊,其對應(yīng)所述事件信號,對于所述多個系統(tǒng)的每一個轉(zhuǎn)移所述多個狀態(tài),同時選擇所述多個系統(tǒng)動作使所述處理部執(zhí)行。
2.如權(quán)利要求1所述的容錯系統(tǒng),其特征在于,所述多個系統(tǒng)動作具有自身系統(tǒng)內(nèi)的所述處理部以及所述輸入輸出部之間的訪問控制,自身和其他系統(tǒng)間的所述處理部以及所述輸入輸出部之間的訪問控制,所述自身和其他系統(tǒng)間的從所述處理部對所述輸入輸出部的訪問比較,所述自身和其他系統(tǒng)間的所述處理部內(nèi)的總線上的訪問比較,和所述自身和其他系統(tǒng)間的所述處理器的主存儲復(fù)制。
3.如權(quán)利要求2所述的容錯系統(tǒng),其特征在于,所述主存儲復(fù)制包含部分復(fù)制。
4.如權(quán)利要求1到3中任何一項(xiàng)所述的容錯系統(tǒng),其特征在于,所述多個狀態(tài)具有表示編入在所述多個系統(tǒng)的提供服務(wù)的系統(tǒng)中的狀態(tài)的聯(lián)機(jī)系狀態(tài),表示從所述提供服務(wù)的系統(tǒng)中分離的狀態(tài)的脫機(jī)系狀態(tài),和表示通過錯誤檢測從所述提供服務(wù)的系統(tǒng)中分離的狀態(tài)的錯誤系狀態(tài)。
5.如權(quán)利要求1所述的容錯系統(tǒng),其特征在于,所述聯(lián)機(jī)系狀態(tài)有表示電源投入時所述處理部在自身和其他系統(tǒng)中互相異步動作的狀態(tài)的聯(lián)機(jī)分離狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)的聯(lián)機(jī)準(zhǔn)備狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相同步動作、檢查該處理部內(nèi)的主存儲內(nèi)容的狀態(tài)的聯(lián)機(jī)同步前狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相同步動作的狀態(tài)的聯(lián)機(jī)同步狀態(tài),和表示在所述聯(lián)機(jī)同步狀態(tài)時所述處理部內(nèi)的總線上的動作在所述自身和其他系統(tǒng)中成為互相不一致時的臨時的狀態(tài)的聯(lián)機(jī)異步狀態(tài),所述脫機(jī)系狀態(tài)有表示所述電源投入時所述處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)、與所述聯(lián)機(jī)分離狀態(tài)成對的脫機(jī)分離狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)、與所述聯(lián)機(jī)準(zhǔn)備狀態(tài)成對的脫機(jī)狀態(tài),在所述自身和其他系統(tǒng)間執(zhí)行所述處理部的主存儲復(fù)制、表示該處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)的脫機(jī)復(fù)制狀態(tài),和表示在所述處理部內(nèi)的總線上的動作在所述自身和其他系統(tǒng)中成為互相不一致時從所述系統(tǒng)分離的狀態(tài)的脫機(jī)前狀態(tài)。
6.一種控制裝置,用于備有具有互相相同的處理部以及輸入輸出部的多個系統(tǒng)的容錯系統(tǒng)中,其特征在于,具有狀態(tài)管理模塊和控制模塊,所述狀態(tài)管理模塊把通過所述多個系統(tǒng)執(zhí)行的容錯用的、為進(jìn)行錯誤處理、同步化處理、以及再同步化處理的多個系統(tǒng)動作,作為與之對應(yīng)的多個狀態(tài),與規(guī)定的事件信號相關(guān)聯(lián)進(jìn)行管理,所述控制模塊對應(yīng)所述事件信號,對于所述多個系統(tǒng)的每一個使所述多個狀態(tài)轉(zhuǎn)移,同時選擇所述多個系統(tǒng)動作使所述處理部執(zhí)行。
7.如權(quán)利要求6所述的容錯系統(tǒng)中使用的控制裝置,其特征在于,所述多個系統(tǒng)動作具有自身系統(tǒng)內(nèi)的所述處理部以及所述輸入輸出部之間的訪問控制,自身和其他系統(tǒng)間的所述處理部以及所述輸入輸出部之間的訪問控制,所述自身和其他系統(tǒng)間的從所述處理部對所述輸入輸出部的訪問比較,所述自身和其他系統(tǒng)間的所述處理部內(nèi)的總線上的訪問比較,和所述自身和其他系統(tǒng)間的所述處理器的主存儲復(fù)制。
8.如權(quán)利要求7所述的容錯系統(tǒng)中使用的控制裝置,其特征在于,所述主存儲復(fù)制包含部分復(fù)制。
9.如權(quán)利要求6到8中任何一項(xiàng)所述的容錯系統(tǒng)中使用的控制裝置,其特征在于,所述多個狀態(tài)具有表示編入在所述多個系統(tǒng)的提供服務(wù)的系統(tǒng)中的狀態(tài)的聯(lián)機(jī)系狀態(tài),表示從所述提供服務(wù)的系統(tǒng)中分離的狀態(tài)的脫機(jī)系狀態(tài),和表示通過錯誤檢測從所述提供服務(wù)的系統(tǒng)中分離的狀態(tài)的錯誤系狀態(tài)。
10.如權(quán)利要求9所述的容錯系統(tǒng)中使用的控制裝置,其特征在于,所述聯(lián)機(jī)系狀態(tài)有表示電源投入時所述處理部在自身和其他系統(tǒng)中互相異步動作的狀態(tài)的聯(lián)機(jī)分離狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)的聯(lián)機(jī)準(zhǔn)備狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相同步動作、檢查該處理部內(nèi)的主存儲內(nèi)容的狀態(tài)的聯(lián)機(jī)同步前狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相同步動作的狀態(tài)的聯(lián)機(jī)同步狀態(tài),和表示在所述聯(lián)機(jī)同步狀態(tài)時所述處理部內(nèi)的總線上的動作在所述自身和其他系統(tǒng)中成為互相不一致時的臨時的狀態(tài)的聯(lián)機(jī)異步狀態(tài),所述脫機(jī)系狀態(tài)有表示所述電源投入時所述處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)、與所述聯(lián)機(jī)分離狀態(tài)成對的脫機(jī)分離狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)、與所述聯(lián)機(jī)準(zhǔn)備狀態(tài)成對的脫機(jī)狀態(tài),在所述自身和其他系統(tǒng)間執(zhí)行所述處理部的主存儲復(fù)制、表示該處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)的脫機(jī)復(fù)制狀態(tài),和表示在所述處理部內(nèi)的總線上的動作在所述自身和其他系統(tǒng)中成為互相不一致時從所述系統(tǒng)分離的狀態(tài)的脫機(jī)前狀態(tài)。
11.一種容錯系統(tǒng)的動作方法,所述容錯系統(tǒng)備有具有互相相同的處理部以及輸入輸出部的多個系統(tǒng),該容錯系統(tǒng)的動作方法特征在于,具有把通過所述多個系統(tǒng)執(zhí)行的容錯用的、為進(jìn)行錯誤處理、同步化處理、以及再同步化處理的多個系統(tǒng)動作,作為與之對應(yīng)的多個狀態(tài),與規(guī)定的事件信號關(guān)聯(lián)進(jìn)行管理的步驟,和對應(yīng)所述事件信號,對于所述多個系統(tǒng)的每一個使所述多個狀態(tài)轉(zhuǎn)移,同時選擇所述多個系統(tǒng)動作使所述處理部執(zhí)行的步驟。
12.如權(quán)利要求11所述的容錯系統(tǒng)的動作方法,其特征在于,所述多個系統(tǒng)動作具有自身系統(tǒng)內(nèi)的所述處理部以及所述輸入輸出部之間的訪問控制,自身和其他系統(tǒng)間的所述處理部以及所述輸入輸出部之間的訪問控制,所述自身和其他系統(tǒng)間的從所述處理部對所述輸入輸出部的訪問比較,所述自身和其他系統(tǒng)間的所述處理部內(nèi)的總線上的訪問比較,和所述自身和其他系統(tǒng)間的所述處理器的主存儲復(fù)制。
13.如權(quán)利要求12所述的容錯系統(tǒng)的動作方法,其特征在于,所述主存儲復(fù)制包含部分復(fù)制。
14.如權(quán)利要求11到13中任何一項(xiàng)所述的容錯系統(tǒng)的動作方法,其特征在于,所述多個狀態(tài)具有表示編入在所述多個系統(tǒng)的提供服務(wù)的系統(tǒng)組的狀態(tài)的聯(lián)機(jī)系狀態(tài),表示從所述提供服務(wù)的系統(tǒng)中分離的狀態(tài)的脫機(jī)系狀態(tài),和表示通過錯誤檢測從所述提供服務(wù)的系統(tǒng)中分離的狀態(tài)的錯誤系狀態(tài)。
15.如權(quán)利要求14所述的容錯系統(tǒng)的動作方法,其特征在于,所述聯(lián)機(jī)系狀態(tài)有表示電源投入時所述處理部在自身和其他系統(tǒng)中互相異步動作的狀態(tài)的聯(lián)機(jī)分離狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)的聯(lián)機(jī)準(zhǔn)備狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相同步動作、檢查該處理部內(nèi)的主存儲內(nèi)容的狀態(tài)的聯(lián)機(jī)同步前狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相同步動作的狀態(tài)的聯(lián)機(jī)同步狀態(tài),和表示在所述聯(lián)機(jī)同步狀態(tài)時所述處理部內(nèi)的總線上的動作在所述自身和其他系統(tǒng)中成為互相不一致時的臨時的狀態(tài)的聯(lián)機(jī)異步狀態(tài),所述脫機(jī)系狀態(tài)有表示所述電源投入時所述處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)、與所述聯(lián)機(jī)分離狀態(tài)成對的脫機(jī)分離狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)、與所述聯(lián)機(jī)準(zhǔn)備狀態(tài)成對的脫機(jī)狀態(tài),在所述自身和其他系統(tǒng)間執(zhí)行所述處理部的主存儲復(fù)制、表示該處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)的脫機(jī)復(fù)制狀態(tài),和表示在所述處理部內(nèi)的總線上的動作在所述自身和其他系統(tǒng)中成為互相不一致時從所述系統(tǒng)分離的狀態(tài)的脫機(jī)前狀態(tài)。
16.一種容錯系統(tǒng)的動作程序,所述容錯系統(tǒng)備有具有互相相同的處理部以及輸入輸出部的多個系統(tǒng),該容錯系統(tǒng)的動作程序特征在于,具有把通過所述多個系統(tǒng)執(zhí)行的容錯用的、為進(jìn)行錯誤處理、同步化處理、以及再同步化處理的多個系統(tǒng)動作,作為與之對應(yīng)的多個狀態(tài),與規(guī)定的事件信號關(guān)聯(lián)進(jìn)行管理的步驟,和對應(yīng)所述事件信號,對于所述多個系統(tǒng)的每一個使所述多個狀態(tài)轉(zhuǎn)移,同時選擇所述多個系統(tǒng)動作使所述處理部執(zhí)行的步驟。
17.如權(quán)利要求16所述的容錯系統(tǒng)的動作程序,其特征在于,所述多個系統(tǒng)動作具有自身系統(tǒng)內(nèi)的所述處理部以及所述輸入輸出部之間的訪問控制,自身和其他系統(tǒng)間的所述處理部以及所述輸入輸出部之間的訪問控制,所述自身和其他系統(tǒng)間的從所述處理部對所述輸入輸出部的訪問比較,所述自身和其他系統(tǒng)間的所述處理部內(nèi)的總線上的訪問比較,和所述自身和其他系統(tǒng)間的所述處理器的主存儲復(fù)制。
18.如權(quán)利要求17所述的容錯系統(tǒng)的動作程序,其特征在于,所述主存儲復(fù)制包含部分復(fù)制。
19.如權(quán)利要求16到18中任何一項(xiàng)所述的容錯系統(tǒng)的動作程序,其特征在于,所述多個狀態(tài)具有表示編入在所述多個系統(tǒng)的提供服務(wù)的系統(tǒng)中的狀態(tài)的聯(lián)機(jī)系狀態(tài),表示從所述提供服務(wù)的系統(tǒng)中分離的狀態(tài)的脫機(jī)系狀態(tài),和表示通過錯誤檢測從所述提供服務(wù)的系統(tǒng)中分離的狀態(tài)的錯誤系狀態(tài)。
20.如權(quán)利要求19所述的容錯系統(tǒng)的動作程序,其特征在于,所述聯(lián)機(jī)系狀態(tài)有表示電源投入時所述處理部在自身和其他系統(tǒng)中互相異步動作的狀態(tài)的聯(lián)機(jī)分離狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)的聯(lián)機(jī)準(zhǔn)備狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相同步動作、檢查該處理部內(nèi)的主存儲內(nèi)容的狀態(tài)的聯(lián)機(jī)同步前狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相同步動作的狀態(tài)的聯(lián)機(jī)同步狀態(tài),和表示在所述聯(lián)機(jī)同步狀態(tài)時所述處理部內(nèi)的總線上的動作在所述自身和其他系統(tǒng)中成為互相不一致時的臨時的狀態(tài)的聯(lián)機(jī)異步狀態(tài),所述脫機(jī)系狀態(tài)有表示所述電源投入時所述處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)、與所述聯(lián)機(jī)分離狀態(tài)成對的脫機(jī)分離狀態(tài),表示所述處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)、與所述聯(lián)機(jī)準(zhǔn)備狀態(tài)成對的脫機(jī)狀態(tài),在所述自身和其他系統(tǒng)間執(zhí)行所述處理部的主存儲復(fù)制、表示該處理部在所述自身和其他系統(tǒng)中互相異步動作的狀態(tài)的脫機(jī)復(fù)制狀態(tài),和表示在所述處理部內(nèi)的總線上的動作在所述自身和其他系統(tǒng)中成為互相不一致時從所述系統(tǒng)分離的狀態(tài)的脫機(jī)前狀態(tài)。
全文摘要
兩個系統(tǒng)(100),具有在自身和其他系統(tǒng)之間通過鎖步同步以相同的定時運(yùn)行的CPU子系統(tǒng)(110);與其連接的IO子系統(tǒng)(120);與兩者連接的FT控制器(130);和通過FT控制器(130)連接自身和其他系統(tǒng)之間的交叉鏈路(140)。FT控制器(130)其將通過兩個系統(tǒng)(100)執(zhí)行的容錯用的、用于進(jìn)行錯誤處理、同步化處理、以及再同步化處理的多個系統(tǒng)動作,作為與之對應(yīng)的多個狀態(tài),與規(guī)定的事件信號關(guān)聯(lián)進(jìn)行管理,對應(yīng)所述事件信號,對于所述多個系統(tǒng)的每一個轉(zhuǎn)移所述多個狀態(tài),同時選擇所述多個系統(tǒng)動作使CPU(110)執(zhí)行。
文檔編號G06F11/14GK1804811SQ20051012157
公開日2006年7月19日 申請日期2005年12月19日 優(yōu)先權(quán)日2004年12月21日
發(fā)明者水谷文俊 申請人:日本電氣株式會社