專(zhuān)利名稱(chēng):錯(cuò)誤控制裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種使多個(gè)信息處理模塊互相連接的互相連接裝置,尤 其涉及對(duì)在該互相連接裝置中檢測(cè)的錯(cuò)誤進(jìn)行控制的技術(shù)。
背景技術(shù):
以往,已經(jīng)公知將多個(gè)信息處理模塊互相連接來(lái)實(shí)現(xiàn)大規(guī)模服務(wù)器
系統(tǒng)的結(jié)構(gòu)。在此,各個(gè)信息處理模塊分別具有CPU和存儲(chǔ)器,可以進(jìn)
行對(duì)應(yīng)所提供的程序的信息處理。并且,通過(guò)增加互相連接的信息處理 模塊的個(gè)數(shù),可以擴(kuò)展服務(wù)器系統(tǒng)。
多個(gè)信息處理模塊通過(guò)作為互相連接裝置的縱橫模塊(crossbar module)互相連接??v橫模塊在信息處理模塊之間中繼/傳輸信息(此處 為存儲(chǔ)了信息的分組)。
在上述結(jié)構(gòu)的服務(wù)器系統(tǒng)中,在從有故障的信息處理模塊發(fā)送了分 組的情況下,或者信息處理模塊與縱橫模塊之間的總線(xiàn)斷線(xiàn)的情況下等, 將導(dǎo)致不正確或不合適的分組(以下稱(chēng)為錯(cuò)誤分組)輸入縱橫模塊。但 是,以往的許多縱橫模塊不具有處理錯(cuò)誤分組的功能。因此,錯(cuò)誤分組 的影響有可能使縱橫模塊內(nèi)的電路單元和/或其他信息處理模塊不能繼續(xù) 以后的動(dòng)作。該情況時(shí),需要暫且停止整個(gè)服務(wù)器系統(tǒng)(或服務(wù)器系統(tǒng) 內(nèi)的許多電路單元),在調(diào)査和修理故障部位后再次啟動(dòng)。
在縱橫模塊內(nèi)設(shè)置檢測(cè)錯(cuò)誤分組的功能的結(jié)構(gòu)也已被公知。在該系 統(tǒng)中,在檢測(cè)到錯(cuò)誤分組時(shí),通過(guò)軟件處理使發(fā)送了該錯(cuò)誤分組的信息 處理模塊停止動(dòng)作。但是,在該結(jié)構(gòu)中,錯(cuò)誤分組自身不會(huì)被廢棄而被 轉(zhuǎn)發(fā)出去,因此有可能導(dǎo)致錯(cuò)誤擴(kuò)散。并且,在使發(fā)送了該錯(cuò)誤分組的 信息處理模塊停止動(dòng)作的期間,也有可能繼續(xù)發(fā)送錯(cuò)誤分組。
另外,近來(lái)的許多大規(guī)模服務(wù)器系統(tǒng)導(dǎo)入了分區(qū)(Partitioning)功能, 將CPU和存儲(chǔ)器等計(jì)算機(jī)資源劃分為多個(gè)組(以下稱(chēng)為分區(qū)),使它們
作為虛擬的獨(dú)立的多個(gè)計(jì)算機(jī)動(dòng)作。并且,該分區(qū)功能例如通過(guò)將多個(gè) 信息處理模塊分為組來(lái)實(shí)現(xiàn)。但是,在現(xiàn)有技術(shù)中,錯(cuò)誤分組的影響越 過(guò)分區(qū)而擴(kuò)散,有可能使整個(gè)服務(wù)器系統(tǒng)(或者服務(wù)器系統(tǒng)內(nèi)的許多電 路單元)停止。該情況時(shí),長(zhǎng)時(shí)間地妨礙服務(wù)器系統(tǒng)的穩(wěn)定運(yùn)行。
發(fā)明內(nèi)容
本發(fā)明的目的在于,在具有多個(gè)信息處理模塊的信息處理系統(tǒng)中, 盡可能地減小所發(fā)生的錯(cuò)誤的影響波及的范圍。
本發(fā)明的錯(cuò)誤控制裝置設(shè)于使多個(gè)信息處理模塊互相連接的互相連
接裝置上,該錯(cuò)誤控制裝置具有錯(cuò)誤檢測(cè)單元,其用于檢測(cè)輸入分組
的錯(cuò)誤;插補(bǔ)數(shù)據(jù)生成單元,其對(duì)應(yīng)于在所述分組中檢測(cè)到錯(cuò)誤的位置,
生成插補(bǔ)數(shù)據(jù);以及輸出單元,其輸出將被檢測(cè)到所述錯(cuò)誤的數(shù)據(jù)單元 及其后續(xù)的數(shù)據(jù)單元替換為所述插補(bǔ)數(shù)據(jù)的插補(bǔ)分組。
根據(jù)上述錯(cuò)誤控制裝置,不會(huì)向互相連接裝置內(nèi)的電路單元和接收 方信息處理模塊轉(zhuǎn)發(fā)錯(cuò)誤分組。此時(shí),轉(zhuǎn)發(fā)將包含錯(cuò)誤因素的數(shù)據(jù)替換 為插補(bǔ)數(shù)據(jù)的插補(bǔ)分組來(lái)取代錯(cuò)誤分組。因此,可以將錯(cuò)誤對(duì)互相連接 裝置內(nèi)的電路單元和接收方信息處理模塊的影響抑制在最小限度。
本發(fā)明的其他方式的錯(cuò)誤控制裝置設(shè)于使多個(gè)信息處理模塊互相連 接的互相連接裝置上,該錯(cuò)誤控制裝置具有保存單元,其用于臨時(shí)保 存輸入分組;錯(cuò)誤檢測(cè)單元,其檢測(cè)所述分組的錯(cuò)誤;以及輸出單元, 其僅在所述分組的總范圍內(nèi)均未檢測(cè)到錯(cuò)誤時(shí),才從所述保存單元讀出 分組并將其輸出給接收方信息處理模塊。
根據(jù)上述錯(cuò)誤控制裝置,能夠可靠避免向互相連接裝置內(nèi)的電路單 元和接收方信息處理模塊轉(zhuǎn)發(fā)錯(cuò)誤分組。
圖1是表示具有本發(fā)明的實(shí)施方式的錯(cuò)誤檢測(cè)裝置的信息處理裝置 的結(jié)構(gòu)的圖。
圖2是分區(qū)表的實(shí)施例。
圖3是說(shuō)明插補(bǔ)動(dòng)作的圖。 圖4是選擇電路的實(shí)施例。
具體實(shí)施例方式
圖1是表示具有本發(fā)明的實(shí)施方式的錯(cuò)誤檢測(cè)裝置的信息處理裝置 的結(jié)構(gòu)的圖。另外,在以下的說(shuō)明中,信息處理裝置指根據(jù)來(lái)自未圖示 的客戶(hù)端的請(qǐng)求執(zhí)行對(duì)應(yīng)的信息處理的服務(wù)器系統(tǒng)100。
服務(wù)器系統(tǒng)100具有多個(gè)系統(tǒng)板模塊(SB) 1、縱橫模塊(XB) 2、 和系統(tǒng)控制部3。
各個(gè)系統(tǒng)板模塊1分別是具有CPU、存儲(chǔ)器、發(fā)送I/F部、接收I/F 部的信息處理模塊。在該實(shí)施例中,服務(wù)器系統(tǒng)100具有N+1個(gè)系統(tǒng)板 模塊(弁0 弁N)。另外,在圖1中,為了便于閱讀附圖,省略了 CPU 和存儲(chǔ)器等,只記載了各個(gè)系統(tǒng)板模塊1的發(fā)送I/F部和接收I/F部。并 且,各個(gè)系統(tǒng)板模塊1可以向所期望的一個(gè)或多個(gè)接收方系統(tǒng)板模塊發(fā) 送分組。
縱橫模塊2連接多個(gè)系統(tǒng)板模塊1,提供在它們之間轉(zhuǎn)發(fā)分組的功 能??v橫模塊2具有用于提供該功能的多個(gè)接收部(弁0 弁N) IO和多 個(gè)發(fā)送部(#0 #N) 20。各個(gè)接收部10分別連接唯一對(duì)應(yīng)的系統(tǒng)板模 塊1的發(fā)送I/F部,且各個(gè)發(fā)送部20分別連接唯一對(duì)應(yīng)的系統(tǒng)板模塊1 的接收I/F部。并且,接收部10把從系統(tǒng)板模塊1的發(fā)送I/F部接收的分 組轉(zhuǎn)發(fā)給對(duì)應(yīng)于其接收方的一個(gè)或多個(gè)發(fā)送部20。根據(jù)這種結(jié)構(gòu),可以 實(shí)現(xiàn)系統(tǒng)板模塊1之間的分組轉(zhuǎn)發(fā)。
系統(tǒng)控制部3控制服務(wù)器系統(tǒng)100的總體動(dòng)作。并且,系統(tǒng)控制部 3執(zhí)行作為本發(fā)明的錯(cuò)誤控制的相關(guān)動(dòng)作之一的退縮控制。g卩,系統(tǒng)控制 部3在通過(guò)后面敘述的錯(cuò)誤檢測(cè)部11檢測(cè)到錯(cuò)誤分組時(shí),可以向發(fā)送了 該錯(cuò)誤分組的系統(tǒng)板模塊1發(fā)送退縮指示。該情況時(shí),接收到退縮指示 的系統(tǒng)板模塊1停止發(fā)送全部或一部分分組,直到接收到退縮解除指示。
上述結(jié)構(gòu)的服務(wù)器系統(tǒng)IOO提供分區(qū)功能。在該實(shí)施例中,系統(tǒng)板
模塊(弁0、井l)屬于分區(qū)A,系統(tǒng)板模塊(#2 #N)屬于分區(qū)B。 分區(qū)根據(jù)圖2所示的分區(qū)表定義。該分區(qū)表由系統(tǒng)控制部3管理,并且 發(fā)布給各個(gè)接收部10。各個(gè)接收部IO按照所發(fā)布的分區(qū)表,進(jìn)行用于檢 查分組的接收方的硬件電路(例如寄存器)的設(shè)定。并且,各個(gè)接收部 IO利用該硬件電路禁止不同分區(qū)之間的分組轉(zhuǎn)發(fā)。另外,在圖1中,連 接接收部10和發(fā)送部20之間的實(shí)線(xiàn)表示允許分組的傳輸?shù)目偩€(xiàn),虛線(xiàn) 表示根據(jù)分區(qū)功能被禁止分組的傳輸?shù)目偩€(xiàn)。根據(jù)這種功能,屬于各個(gè) 分區(qū)的系統(tǒng)板模塊可以作為互相獨(dú)立的計(jì)算機(jī)動(dòng)作。
通過(guò)縱橫模塊2轉(zhuǎn)發(fā)的分組基本上如圖3所示構(gòu)成為包括標(biāo)頭(HD) 和數(shù)據(jù)單元(D0 D7)。在此,數(shù)據(jù)單元的個(gè)數(shù)沒(méi)有特別限定。并且, 也可以轉(zhuǎn)發(fā)不包括數(shù)據(jù)單元的分組。
標(biāo)頭中存儲(chǔ)有接收方信息、類(lèi)型信息、循環(huán)數(shù)信息等。接收方信息 用于識(shí)別分組的接收方系統(tǒng)板模塊。類(lèi)型信息表示分組類(lèi)別。在系統(tǒng)板 模塊之間轉(zhuǎn)發(fā)的分組包括向根據(jù)接收方信息指定的一個(gè)系統(tǒng)板模塊轉(zhuǎn)發(fā) 的點(diǎn)對(duì)點(diǎn)分組(Peer-to-PeerPacket)、和向分區(qū)內(nèi)的全部系統(tǒng)板模塊轉(zhuǎn)發(fā) 的廣播分組(broadcastPacket)。從CPU向存儲(chǔ)器的數(shù)據(jù)傳輸基本上使用 點(diǎn)對(duì)點(diǎn)分組。并且,在用于調(diào)查CPU的緩存狀態(tài)的地址調(diào)查中使用廣播 分組。循環(huán)數(shù)信息存儲(chǔ)有用于計(jì)算傳輸數(shù)據(jù)單元所需要的循環(huán)數(shù)的循環(huán) 數(shù)信息等。在此,在用于傳輸分組的總線(xiàn)的寬度固定的情況下,循環(huán)數(shù) 信息利用表示數(shù)據(jù)單元的個(gè)數(shù)的信息實(shí)現(xiàn)。例如,在圖3所示的示例中, 循環(huán)數(shù)信息被設(shè)定為"8"。另外,標(biāo)頭被附加了糾錯(cuò)碼(ECC: Error Correcting Code)。
各個(gè)數(shù)據(jù)單元的數(shù)據(jù)存儲(chǔ)區(qū)域的大小基本上彼此相同。并且,各個(gè) 數(shù)據(jù)單元分別被附加了糾錯(cuò)碼。
下面說(shuō)明本發(fā)明涉及的錯(cuò)誤控制動(dòng)作。另外,錯(cuò)誤控制主要在各個(gè) 接收部10中執(zhí)行。
各個(gè)接收部10分別具有錯(cuò)誤檢測(cè)部11、分組插補(bǔ)部12和傳輸控制 部13。并且,從對(duì)應(yīng)的系統(tǒng)板模塊1接收的分組被并行提供給錯(cuò)誤檢測(cè) 部ll、分組插補(bǔ)部12和傳輸控制部13。另外,接收部10基本上利用硬
件電路實(shí)現(xiàn)。其中,接收部10的一部分功能也可以利用軟件實(shí)現(xiàn)。
錯(cuò)誤檢測(cè)部11判定接收分組是否包含錯(cuò)誤因素(即,是否是錯(cuò)誤分 組)。另外,錯(cuò)誤分組包括標(biāo)頭或數(shù)據(jù)被破壞的分組、不正確或不合適的 分組等。且錯(cuò)誤分組例如在系統(tǒng)板模塊1有故障時(shí)、系統(tǒng)板模塊1和縱
橫模塊2之間的總線(xiàn)斷線(xiàn)時(shí)等產(chǎn)生。并且,錯(cuò)誤檢測(cè)部11監(jiān)視下述錯(cuò)誤 (1) (4),在檢測(cè)到錯(cuò)誤時(shí),將該情況通知給系統(tǒng)控制部3和傳輸控 制部13。
(1) 檢查ECC錯(cuò)誤。檢查ECC錯(cuò)誤是分別針對(duì)標(biāo)頭和各數(shù)據(jù)單元 進(jìn)行的。另外,在可以利用ECC糾正錯(cuò)誤時(shí),不一定需要將該錯(cuò)誤通知 給系統(tǒng)控制部3和傳輸控制部13。
(2) 檢査分組的接收方是否合適。具體地講,例如檢査分組的發(fā)送 方系統(tǒng)板模塊和接收方系統(tǒng)板模塊是否屬于相同分區(qū)。并且,在發(fā)送方 系統(tǒng)板模塊和接收方系統(tǒng)板模塊屬于不同分區(qū)時(shí),判定為產(chǎn)生了接收方 錯(cuò)誤。另外,接收方錯(cuò)誤的檢査基本上是針對(duì)點(diǎn)對(duì)點(diǎn)分組執(zhí)行的。
(3) 檢查超時(shí)錯(cuò)誤。即,錯(cuò)誤檢測(cè)部11在檢測(cè)到接收分組的標(biāo)頭 的定時(shí)啟動(dòng)定時(shí)器。并且,錯(cuò)誤檢測(cè)部ll通過(guò)分析接收分組的標(biāo)頭,識(shí) 別該分組的數(shù)據(jù)單元的循環(huán)數(shù)。在每當(dāng)接收數(shù)據(jù)單元時(shí)將定時(shí)器初始化, 當(dāng)在預(yù)定時(shí)間內(nèi)不能接收后續(xù)的數(shù)據(jù)單元時(shí),判定為產(chǎn)生了超時(shí)錯(cuò)誤。
(4) 在接收分組的格式與標(biāo)準(zhǔn)格式不同時(shí)、以及包含不應(yīng)該接收的 數(shù)據(jù)時(shí)等,判定為產(chǎn)生了不正確命令錯(cuò)誤。另外,所說(shuō)"不應(yīng)該接收的數(shù) 據(jù)"例如在根據(jù)規(guī)格等規(guī)定對(duì)分組內(nèi)的預(yù)定區(qū)域設(shè)定預(yù)定的值時(shí),相應(yīng)于 該區(qū)域被寫(xiě)入了不同的值的情況。
分組插補(bǔ)部12分析接收分組的標(biāo)頭,檢測(cè)該分組的數(shù)據(jù)單元的循環(huán) 數(shù)。^f檢測(cè)的循環(huán)數(shù)如圖3所示針對(duì)循環(huán)計(jì)數(shù)器設(shè)定。在該實(shí)施例中, 對(duì)循環(huán)計(jì)數(shù)器設(shè)定"8"。循環(huán)計(jì)數(shù)器在每當(dāng)接收后續(xù)的數(shù)據(jù)單元時(shí)減1。 此時(shí),在通過(guò)錯(cuò)誤檢測(cè)部11檢測(cè)到錯(cuò)誤時(shí),分組插補(bǔ)部i2從傳輸控制 部13接收插補(bǔ)數(shù)據(jù)生成請(qǐng)求。分組插補(bǔ)部12在接收到該請(qǐng)求的定時(shí)讀 出循環(huán)計(jì)數(shù)器的計(jì)數(shù)值,生成數(shù)量與該計(jì)數(shù)值相同的插補(bǔ)數(shù)據(jù)單元。在 該實(shí)施例中,在數(shù)據(jù)單元D4中檢測(cè)到錯(cuò)誤時(shí),循環(huán)計(jì)數(shù)器的計(jì)數(shù)值為"4"。
因此,生成4個(gè)插補(bǔ)數(shù)據(jù)單元P1 P4。另外,在循環(huán)計(jì)數(shù)器減少到"O" 時(shí),不能生成插補(bǔ)數(shù)據(jù)單元。
插補(bǔ)數(shù)據(jù)單元的數(shù)據(jù)長(zhǎng)度與從系統(tǒng)板模塊1發(fā)送的分組中存儲(chǔ)的數(shù) 據(jù)單元的數(shù)據(jù)長(zhǎng)度相同。在此,在各個(gè)分組中存儲(chǔ)的各個(gè)數(shù)據(jù)單元的數(shù) 據(jù)長(zhǎng)度恒定,各個(gè)插補(bǔ)數(shù)據(jù)單元的數(shù)據(jù)長(zhǎng)度也恒定。并且,各個(gè)插補(bǔ)數(shù) 據(jù)單元的數(shù)據(jù)列的內(nèi)容沒(méi)有特別限定,例如是表示插補(bǔ)數(shù)據(jù)的預(yù)先確定 的數(shù)據(jù)模式。并且,分組插補(bǔ)部12輸出插補(bǔ)數(shù)據(jù)單元和對(duì)應(yīng)于該插補(bǔ)數(shù) 據(jù)單元的糾錯(cuò)碼。另外,也可以導(dǎo)入預(yù)先在保存電路中保存1組插補(bǔ)數(shù) 據(jù)單元和對(duì)應(yīng)的糾錯(cuò)碼的結(jié)構(gòu)。該情況時(shí),分組插補(bǔ)部12在被提供了插 補(bǔ)數(shù)據(jù)生成請(qǐng)求時(shí),從該保存電路重復(fù)讀出必要次數(shù)的這些請(qǐng)求并輸出。
傳輸控制部13在錯(cuò)誤檢測(cè)部11中檢測(cè)到錯(cuò)誤時(shí),向分組插補(bǔ)部12 發(fā)送上述的插補(bǔ)數(shù)據(jù)生成請(qǐng)求。并且,傳輸控制部13具有圖4所示的選 擇電路14。選擇電路14的第1輸入端子被輸入接收分組,在第2輸入端 子上連接著分組插補(bǔ)部12。開(kāi)關(guān)SW1按照表示錯(cuò)誤檢測(cè)部11的檢測(cè)結(jié) 果的錯(cuò)誤檢測(cè)信號(hào),選擇第1或第2輸入端子。在該實(shí)施例中,在沒(méi)有 檢測(cè)到錯(cuò)誤的期間,選擇第l輸入端子,接收分組數(shù)據(jù)被導(dǎo)入開(kāi)關(guān)SW2。 另一方面,在檢測(cè)到錯(cuò)誤時(shí),選擇第2輸入端子,通過(guò)分組插補(bǔ)部12生 成的插補(bǔ)數(shù)據(jù)被導(dǎo)入開(kāi)關(guān)SW2。并且,開(kāi)關(guān)SW2按照存儲(chǔ)在接收分組的 標(biāo)頭中的接收方信息,選擇輸出端子。另外,在接收到廣播分組時(shí),開(kāi) 關(guān)SW2按照從該分組的標(biāo)頭檢測(cè)到的類(lèi)型信息,向同一分區(qū)內(nèi)的全部系 統(tǒng)板模塊l導(dǎo)入分組數(shù)據(jù)。
在圖3所示的示例中,在數(shù)據(jù)單元D4中檢測(cè)到錯(cuò)誤。該情況時(shí),選 擇電路14在檢測(cè)錯(cuò)誤之前選擇輸出接收分組。gp,輸出標(biāo)頭和數(shù)據(jù)單元 D0 D3。然后,接收到在數(shù)據(jù)單元D4中檢測(cè)到錯(cuò)誤的通知后,傳輸控 制部13生成插補(bǔ)數(shù)據(jù)生成請(qǐng)求并發(fā)送給分組插補(bǔ)部12。此時(shí),分組插補(bǔ) 部12的循環(huán)計(jì)數(shù)器為"4"。因此,分組插補(bǔ)部12生成4個(gè)插補(bǔ)數(shù)據(jù)單元 P1 P4,發(fā)送給傳輸控制部13。并且,選擇電路14控制開(kāi)關(guān)SW1,選 擇輸出插補(bǔ)數(shù)據(jù)單元P1 P4來(lái)取代數(shù)據(jù)單元D4 D8。 g卩,傳輸控制部 13輸出由標(biāo)頭、數(shù)據(jù)單元D0 D3和插補(bǔ)數(shù)據(jù)單元P1 P4構(gòu)成的插補(bǔ)分
組。此時(shí),數(shù)據(jù)單元D4 D8被廢棄,實(shí)現(xiàn)總線(xiàn)堵塞動(dòng)作。
這樣,實(shí)施方式的錯(cuò)誤控制裝置在檢測(cè)到錯(cuò)誤分組時(shí),輸出把包括 錯(cuò)誤因素的數(shù)據(jù)單元及其后續(xù)的數(shù)據(jù)單元替換為插補(bǔ)數(shù)據(jù)單元的插補(bǔ)分 組。在此,插補(bǔ)數(shù)據(jù)單元不包括錯(cuò)誤因素。因此,連接于接收部10的后 級(jí)的發(fā)送部20和接收方系統(tǒng)板模塊1可以繼續(xù)通常動(dòng)作或正常動(dòng)作,錯(cuò) 誤的影響不會(huì)擴(kuò)散。
例如,發(fā)送部20和接收方系統(tǒng)板模塊1具有檢查超時(shí)錯(cuò)誤的功能。 并且,接收部IO可以在接收到某個(gè)分組的標(biāo)頭后的預(yù)定時(shí)間內(nèi)接收數(shù)據(jù) 單元D0 D3,但不能接收數(shù)據(jù)單元D4 D7。即,在接收部10中檢測(cè) 到超時(shí)錯(cuò)誤。該情況時(shí),在以往的縱橫模塊中,接收部10向發(fā)送部20 和接收方系統(tǒng)板模塊l只轉(zhuǎn)發(fā)標(biāo)頭和數(shù)據(jù)單元DO D3。因此,在發(fā)送部 20和接收方系統(tǒng)板模塊1中也同樣產(chǎn)生超時(shí)錯(cuò)誤。g口,錯(cuò)誤的影響擴(kuò)散。 對(duì)此,具有實(shí)施方式的錯(cuò)誤控制裝置的縱橫模塊2,在上述情況下,在標(biāo) 頭和數(shù)據(jù)單元D0 D3之后,向發(fā)送部20和接收方系統(tǒng)板模塊1轉(zhuǎn)發(fā)插 補(bǔ)數(shù)據(jù)單元P1 P4。因此,在發(fā)送部20和接收方系統(tǒng)板模塊1中不會(huì)產(chǎn) 生超時(shí)錯(cuò)誤。并且,插補(bǔ)數(shù)據(jù)單元P1 P4分別被附加了對(duì)應(yīng)的糾錯(cuò)碼, 所以在發(fā)送部20和接收方系統(tǒng)板模塊1中也不會(huì)產(chǎn)生ECC錯(cuò)誤。艮卩, 可以避免錯(cuò)誤的擴(kuò)散。
作為其他示例,在接收部10中檢測(cè)到接收方錯(cuò)誤。該情況時(shí),錯(cuò)誤 檢測(cè)部11使用錯(cuò)誤檢測(cè)信號(hào)通知選擇電路14發(fā)生了接收方錯(cuò)誤。此時(shí), 選擇電路14馬上堵塞開(kāi)關(guān)SW2。因此,可以避免包括錯(cuò)誤的接收方信息 的分組被按照該接收方信息轉(zhuǎn)發(fā)給錯(cuò)誤的接收方。即,至少在某個(gè)分區(qū) 中發(fā)生的錯(cuò)誤的影響不會(huì)波及到其他分區(qū)。
在圖l所示的結(jié)構(gòu)中,例如在系統(tǒng)板模塊(#0)出現(xiàn)故障時(shí),在包 括該系統(tǒng)板模塊(#0)的分區(qū)A中基本上無(wú)法繼續(xù)動(dòng)作。這樣,屬于分 區(qū)A的計(jì)算機(jī)資源(主要是軟件資源)被初始化。但是,在其他分區(qū)中 不會(huì)受到在分區(qū)A發(fā)生的錯(cuò)誤的影響,可以繼續(xù)動(dòng)作。并且,在分區(qū)A 中,也可以只再次啟動(dòng)除出現(xiàn)故障的系統(tǒng)板模塊(弁0)之外的其他系統(tǒng) 板模塊,再次開(kāi)始動(dòng)作。
另外,選擇電路14的開(kāi)關(guān)SW2先檢測(cè)到錯(cuò)誤后,也可以在完成撿 修作業(yè)之前的期間,停止所有的分組輸出,或者只允許特定類(lèi)型的分組 的輸出。在此,特定類(lèi)型的分組例如指維護(hù)用的分組,可以根據(jù)存儲(chǔ)在 標(biāo)頭中的類(lèi)型信息識(shí)別。
這樣,如果導(dǎo)入實(shí)施方式的錯(cuò)誤控制裝置,則可以將錯(cuò)誤的影響范 圍抑制在最小限度。結(jié)果,不停止整個(gè)系統(tǒng)(尤其其他分區(qū)的動(dòng)作)即 可實(shí)現(xiàn)穩(wěn)定運(yùn)行。因此,可以提供可信度較高的大規(guī)模服務(wù)器系統(tǒng)。
另外,在上述實(shí)施例中,表示在系統(tǒng)板模塊之間傳輸分組的結(jié)構(gòu), 但本發(fā)明不限于此。g卩,本發(fā)明也可以廣泛適用于在系統(tǒng)板模塊之間傳
輸數(shù)據(jù)的結(jié)構(gòu)。
<其他實(shí)施方式>
傳輸控制部13接收到分組的標(biāo)頭時(shí),不需等待該分組的最終數(shù)據(jù)單 元,即可順序地向?qū)?yīng)的發(fā)送部20輸出所接收的數(shù)據(jù)單元。對(duì)此,其他 實(shí)施方式的錯(cuò)誤控制裝置的傳輸控制部13具有分組保存部15,其保存該 分組直到接收到最終數(shù)據(jù)單元。并且,傳輸控制部13在該分組的全部循 環(huán)中沒(méi)有檢測(cè)到錯(cuò)誤時(shí),向?qū)?yīng)的發(fā)送部10輸出該分組。在導(dǎo)入該結(jié)構(gòu) 時(shí),循環(huán)數(shù)較長(zhǎng)的分組的傳輸效率降低,但是可以避免由錯(cuò)誤分組引起 的無(wú)用的通信和無(wú)用的動(dòng)作。并且,能夠可靠地避免錯(cuò)誤的擴(kuò)散。
也可以在縱橫模塊20的各個(gè)發(fā)送部20中設(shè)置錯(cuò)誤通知功能。錯(cuò)誤 通知功能包括向發(fā)生了故障的系統(tǒng)板模塊1通知在縱橫模塊20中檢測(cè)到 錯(cuò)誤的情況的動(dòng)作。錯(cuò)誤的通知可以使用分組,也可以使用專(zhuān)用線(xiàn)路。 接收到錯(cuò)誤通知的系統(tǒng)板模塊1例如停止以后的分組發(fā)送。
權(quán)利要求
1.一種錯(cuò)誤控制裝置,該錯(cuò)誤控制裝置設(shè)于使多個(gè)信息處理模塊互相連接的互相連接裝置上,該錯(cuò)誤控制裝置具有錯(cuò)誤檢測(cè)單元,其檢測(cè)輸入分組的錯(cuò)誤;插補(bǔ)數(shù)據(jù)生成單元,其對(duì)應(yīng)于在所述分組中檢測(cè)到錯(cuò)誤的位置,生成插補(bǔ)數(shù)據(jù);以及輸出單元,其輸出將被檢測(cè)到所述錯(cuò)誤的數(shù)據(jù)單元及其后續(xù)的數(shù)據(jù)單元替換為所述插補(bǔ)數(shù)據(jù)的插補(bǔ)分組。
2. 根據(jù)權(quán)利要求1所述的錯(cuò)誤控制裝置,其特征在于,所述輸入分 組具有表示存儲(chǔ)在該分組內(nèi)的數(shù)據(jù)單元的個(gè)數(shù)的信息,所述插補(bǔ)數(shù)據(jù)生成單元對(duì)通過(guò)所述錯(cuò)誤檢測(cè)單元檢測(cè)到錯(cuò)誤的數(shù)據(jù) 單元以后的數(shù)據(jù)單元的個(gè)數(shù)進(jìn)行計(jì)數(shù),生成其個(gè)數(shù)與該個(gè)數(shù)相應(yīng)的插補(bǔ) 數(shù)據(jù)。
3. 根據(jù)權(quán)利要求1所述的錯(cuò)誤控制裝置,其特征在于,所述輸入分 組構(gòu)成為包括被附加了糾錯(cuò)碼的數(shù)據(jù)單元,所述插補(bǔ)數(shù)據(jù)生成單元生成被附加了糾錯(cuò)碼的插補(bǔ)數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1所述的錯(cuò)誤控制裝置,其特征在于,該錯(cuò)誤控制 裝置還具有廢棄單元,該廢棄單元在從所述多個(gè)信息處理模塊中的第1 信息處理模塊發(fā)送的分組中檢測(cè)到錯(cuò)誤后,廢棄從該第1信息處理模塊 接收的所有分組。
5. 根據(jù)權(quán)利要求1所述的錯(cuò)誤控制裝置,其特征在于,該錯(cuò)誤控制 裝置還具有廢棄單元,該廢棄單元在從所述多個(gè)信息處理模塊中的第1 信息處理模塊發(fā)送的分組中檢測(cè)到錯(cuò)誤后,廢棄從該第1信息處理模塊 接收的分組中的預(yù)定類(lèi)別分組以外的分組。
6. 根據(jù)權(quán)利要求1所述的錯(cuò)誤控制裝置,其特征在于,該錯(cuò)誤控制 裝置還具有通知單元,該通知單元在從所述多個(gè)信息處理模塊中的第1 信息處理模塊發(fā)送的分組中檢測(cè)到錯(cuò)誤時(shí),將發(fā)生錯(cuò)誤的情況通知給該 第1信息處理模塊。
7. 根據(jù)權(quán)利要求1所述的錯(cuò)誤控制裝置,其特征在于,該錯(cuò)誤控制 裝置還具有分區(qū)單元,該分區(qū)單元將所述多個(gè)信息處理模塊劃分為兩個(gè) 以上的組,所述錯(cuò)誤檢測(cè)單元在從屬于第1組的信息處理模塊發(fā)送的分組的接收方包括屬于第2組的信息處理模塊時(shí),判定為發(fā)生了錯(cuò)誤。
8. —種錯(cuò)誤控制裝置,該錯(cuò)誤控制裝置設(shè)于使多個(gè)信息處理模塊互 相連接的互相連接裝置上,該錯(cuò)誤控制裝置具有保存單元,其臨時(shí)保存輸入分組; 錯(cuò)誤檢測(cè)單元,其檢測(cè)所述分組的錯(cuò)誤;以及輸出單元,其僅在所述分組的總范圍內(nèi)均未檢測(cè)到錯(cuò)誤時(shí),才從所 述保存單元讀出分組并將其輸出給接收方信息處理模塊。
9. 一種錯(cuò)誤控制方法,該錯(cuò)誤控制方法用于在使多個(gè)信息處理模塊 互相連接的互相連接裝置中控制錯(cuò)誤,該錯(cuò)誤控制方法的特征在于,該錯(cuò)誤控制方法執(zhí)行如下處理 監(jiān)視輸入分組的錯(cuò)誤;對(duì)應(yīng)于在所述分組中檢測(cè)到錯(cuò)誤的位置,生成插補(bǔ)數(shù)據(jù);以及輸出將被檢測(cè)到所述錯(cuò)誤的數(shù)據(jù)單元及其后續(xù)的數(shù)據(jù)單元替換為所 述插補(bǔ)數(shù)據(jù)的插補(bǔ)分組。
全文摘要
本發(fā)明提供錯(cuò)誤控制裝置。在縱橫模塊(2)上連接著多個(gè)系統(tǒng)板模塊(1)。錯(cuò)誤檢測(cè)部(11)檢測(cè)從對(duì)應(yīng)的系統(tǒng)板模塊(1)接收的分組的錯(cuò)誤。傳輸控制部(13)在通過(guò)錯(cuò)誤檢測(cè)部(11)檢測(cè)到錯(cuò)誤時(shí),發(fā)布插補(bǔ)數(shù)據(jù)生成請(qǐng)求。分組插補(bǔ)部(12)接收插補(bǔ)數(shù)據(jù)生成請(qǐng)求后,生成插補(bǔ)數(shù)據(jù)。選擇電路(14)接收到錯(cuò)誤分組時(shí),輸出將包括錯(cuò)誤因素的數(shù)據(jù)單元替換為插補(bǔ)數(shù)據(jù)的插補(bǔ)分組。
文檔編號(hào)H04L1/00GK101375261SQ200680052980
公開(kāi)日2009年2月25日 申請(qǐng)日期2006年2月24日 優(yōu)先權(quán)日2006年2月24日
發(fā)明者中川哲志, 杉崎剛, 村上浩, 草野義博 申請(qǐng)人:富士通株式會(huì)社