專利名稱:計算機系統(tǒng)的制作方法
計算機系統(tǒng)中,特別是諸如在通信技術(shù)交換系統(tǒng)的實時系統(tǒng)中,集成了合乎標準的軟件維護機構(gòu),這些維護機構(gòu)準備了抵銷軟件故障的措施。
這些措施是自動重新起動系統(tǒng)中的一部分或整個系統(tǒng),此時數(shù)據(jù),運行裝置,運行系統(tǒng)資源和軟件(SW)的編碼部分自動分段復位和重新初始化。
自動重新起動措施一般是如下分段的1.用其本地數(shù)據(jù)的初始化重新起動單個SW過程或重新起動一組過程。
2.用全局數(shù)據(jù)的初始化重新起動一個處理器(在多處理器系統(tǒng)中)的所有過程。
3.同步化地起動一個處理器的所有SW-過程。
4.在系統(tǒng)范圍用同步化的開始運行所有處理器來重新起動。
5.在系統(tǒng)范圍用同步化的開始運行所有處理器來重新起動,并且裝入數(shù)據(jù)和編碼。
6.在系統(tǒng)范圍用同步化的開始運行所有處理器來重新起動,與返回到上一個在整個系統(tǒng)內(nèi)起動試驗過的SW代(SW-Genaration)相結(jié)合。
在其中現(xiàn)在故障是這樣抵銷的,由數(shù)據(jù)的初始化和由各式各樣的由從屬數(shù)據(jù)的編碼得出的程序狀態(tài)所決定,純粹統(tǒng)計地導致故障的那些系統(tǒng)配置(Systemkonstellation)(數(shù)據(jù)和編碼),在中期(也就是說一直到在場內(nèi)例如借助于在實驗室完成的PATCH修正SW故障)是不能再調(diào)整的。
這種方法從原理上有一個決定性的缺點在重大故障時,始終出現(xiàn)導致系統(tǒng)范圍起動階段的一個擴展(重新起動的擴展),在其中原則上整個的SW被重新起動。也就是說有故障的SW和從前一樣包括在系統(tǒng)中,并且還能夠動態(tài)地起作用。如果涉及到一個硬的可再生的故障,則通過上述機構(gòu)是不可以抵銷該故障的。如果故障也已經(jīng)存在于上一代的返回代(Rueckfallgeneration)中,則系統(tǒng)滾動并且由自身的力量不能重新回到工作狀態(tài)。
本發(fā)明的任務(wù)是,避免或減小上述缺點。
此任務(wù)是由本發(fā)明解決的。
下面借助于附圖詳細地敘述本發(fā)明的一個實施例,其中包括2個附圖。
附
圖1表示,在西門子公司的電子數(shù)字交換系統(tǒng)EWSD上實現(xiàn)的起動系統(tǒng)。下面詳細敘述通過統(tǒng)計故障評估自動驅(qū)動起動系統(tǒng)部件。
通過部件實施起動的措施可分為新起動NSTARTs和初始起動ISTARTs。在中央處理器上NSTARTs的作用是將所有SW過程或/SW過程組復位和新起動。這是在兩個階段(NSTARTO/1和NSTART3)中進行的,這兩個階段在數(shù)據(jù)初始化的深度上是有區(qū)別的(見下面)。初始起動是使整個系統(tǒng)復位并且新起動所有處理器。
一個部件或起動階段NEUSTARTO(簡稱NSTARTO),用本地數(shù)據(jù)初始化新起動在協(xié)調(diào)處理器(CP)中的所有非技術(shù)交換過程。
一個部件或起動階段NSTART1新起動在CP中的所有過程。
一個部件或起動階段NSTART3,附加地將背景存儲器中的半永久性的數(shù)據(jù)和編碼補充裝入,并且將瞬時數(shù)據(jù)在CP上初始化。
一個部件或起動階段ISTART1,附加地將交換技術(shù)的外部設(shè)備復位和重新激活。
一個部件或起動階段ISTART2(在當前的SW代中最有能力的起動階段),附加地將CP中的工作存儲器格式化,并且將數(shù)據(jù)補充裝入交換技術(shù)的外部設(shè)備中。
直到目前為止始終是當前的系統(tǒng)代被加載。如果通過這個起動還不能抵銷故障時,則返回到上一(編碼)代。
一個部件ISTART2G替代當前的裝入一個返回代,從而將新編碼附加裝入到交換技術(shù)的外部設(shè)備中。
現(xiàn)在有一個故障類別,這個故障類別通過這種擴大機制是不能抵銷的如果有故障的SW不僅位于當前的,而且也位于SW返回代中,并且這個SW用在兩代中不能區(qū)分的數(shù)據(jù)工作,則在每次新起動時重新誘發(fā)這個故障。例如在交換系統(tǒng)EWSD中的磁盤雙故障(Plattendoppelfehler),HW-故障和硬的SW-故障。如果不是一個滾動起動時,在這些情況下至少到目前為止是返回到上一代。兩者對經(jīng)營商都有很大的負作用(在滾動起動時在緊張狀態(tài)下不用標志排除干擾,在返回到上一SW代以后重新恢復具有數(shù)據(jù)庫現(xiàn)實化的當前的SW版本)。
本發(fā)明中基本的思想是,在出現(xiàn)上述故障時重新回想起通信系統(tǒng)的重要方面交換計算機的原始功能是交換對話和傳輸數(shù)據(jù)。
在這個思路的基礎(chǔ)上,引入自動重新起動階段或重新起動措施,這些只新起動與交換技術(shù)有關(guān)的SW。從而使有故障的SW以比較大的或然率被選除。
詳細的分析起動階段的定義,系統(tǒng)在第一次初始啟動以后(加速到正常運行)起動階段是這樣置入于擴展機制中的,在正常運行中當識別一個故障時,至少自動進行一個重新起動,這個重新起動首先嘗試將計算機系統(tǒng)重新過渡到正常運行,并且只有當重新起動失敗時(或者正常運行不能保持穩(wěn)定)進行加速到按照本發(fā)明的運行情況,從這時起稱為“交換技術(shù)基礎(chǔ)運行”。從屬的部件或起動階段被稱為ISTART1B。在這種起動時只起動對于交換技術(shù)有重要意義的SW功能。就是說系統(tǒng)沒有過渡到正常運行狀態(tài),而是進入到一種減少了的功能性狀態(tài)。
通過將這個起動階段有目標地置入擴展機制中,也就是在順序排列方面在起動階段前面用存儲器格式化,這種機制在系統(tǒng)中還提供了針對磁盤雙損失的有效措施位于存儲器中的SW僅新起動交換技術(shù)重要的部分,不必要補充裝入磁盤上的SW和初始化數(shù)據(jù)。在這種情況下返回到新起動階段,這個階段不需要將當前數(shù)據(jù)用初始化數(shù)值加以標注。從屬的部件或起動級稱為NSTART1B。
附圖2表示了將交換系統(tǒng)分為圍繞一個核心的幾個殼。
核心包括有基礎(chǔ)輸入/輸出功能I/O,具有交換技術(shù)基礎(chǔ)功能性VT的交換技術(shù)過程和具有重新起動系統(tǒng)REC的操作系統(tǒng)BS,重新起動系統(tǒng)借助于附圖1已經(jīng)詳細地敘述過了。在圍繞核心功能的第一個殼上有例如在維護中心內(nèi)的警報或有用AMA(自動通知結(jié)算=單個付款證明)的結(jié)算。在第二個殼上安排了雖然是負責交換技術(shù)專用的特殊任務(wù)的功能,但是這些功能對于經(jīng)營商或最終用戶不受很大限制地就可以去掉(例如操作機服務(wù)功能和查賬)。
在第一次嘗試中將核心和兩個殼激活。在擴展監(jiān)控中統(tǒng)計地重新出現(xiàn)一個故障,則在每次去掉最外殼情況下重復起動。如果還不能工作,則故障存在于核心功能內(nèi)。然后必須在擴展中進行下一個步驟。分步地返回到不同殼上是每次通過一個新起動ISTART1B進行的,待激活的過程數(shù)量每次進一步減少。
因為在交換系統(tǒng)EWSD中涉及到多處理器系統(tǒng),上述的重新起動措施不僅是處理器專用的而且在系統(tǒng)范圍也是可實施的。
其它與上述重新起動措施關(guān)系重大的重要功能是警報,標志安全保證,排除干擾和恢復到正常運行。
·警報使經(jīng)營商有可能識別和分析處理限定的系統(tǒng)功能性,也就是說交換技術(shù)的基礎(chǔ)運行。
·標志安全保證(Indiziensicherung)為排除干擾準備了重要的信息(例如基礎(chǔ)運行狀態(tài)說明,關(guān)于引起SW故障的信息,經(jīng)過外部設(shè)備的起動平衡(Hochlaufbilanzierung)等)。這些信息不僅在本地的操作機(在規(guī)避標準輸出路徑情況下)而且還在維護中心被給出。同樣在狀態(tài)“交換技術(shù)的基礎(chǔ)運行”期間,子系統(tǒng)脫落將借助于標志安全保證予以輸出。
·排除干擾使機構(gòu)可提供使用,這些機構(gòu)一方面允許分析故障情況(在運行的/工作的系統(tǒng)上)。另一方面它提供給經(jīng)營商修正系統(tǒng)中SW故障的功能性(正常運行標準),一旦經(jīng)營商要求時,這自動地在背景中準備好。也就是說SW故障可以在系統(tǒng)運行時在減少的功能性情況下被修正。在排除干擾開始時,在基礎(chǔ)運行中所激活的SW狀態(tài)是′凍結(jié)的′。也就是說在排除干擾時出現(xiàn)其它的故障,則用一個新起動(ISTART1B或NSTART1B)重新恢復開始排除干擾前的調(diào)整狀態(tài),因為新出現(xiàn)的具有高或然率的SW故障歸結(jié)于排除干擾措施。
·最后存在重新建立正常運行的一種恢復。這一般是一開始敘述的標準的可提供的起動措施之一,為了這個目的該措施必須是手動可釋放的。
下面詳細敘述本發(fā)明對經(jīng)營商及其客戶的優(yōu)點。
現(xiàn)在很典型的可以大約有50%到80%的SW在控制計算機上被去掉,對交換系統(tǒng)相對于最終用戶的業(yè)務(wù)沒有重要的限制。從而通過標準措施不能測得的所有的SW故障大約也有50%到80%被抵銷,在這個起動階段從屬的SW不再被激活。上述關(guān)系在將來還會改善,因為當交換系統(tǒng)進一步成熟和精密時,在不呼叫過程SW部分比呼叫過程SW部分增加得快。
應(yīng)注意的另一點故障或然率在SW中不是平均分布的。如果將SW提供給客戶時,大約20%交換技術(shù)的重要的SW是會非??斓責o故障的,因為這部分將用各種交換裝置運行,并且只需掌握很少特殊情況。其余的80%很少進入運行必須明確掌握的復雜故障情況(例如處理在系統(tǒng)中的多次故障),和因此還包括剩余故障的一個比較高的比例。
系統(tǒng)可供使用性隨著引入在EWSD中的這個性能明顯地得到改善。整個系統(tǒng)停機時間,也就是說系統(tǒng)不能提供使用的時間,沒有交換技術(shù)基礎(chǔ)運行大約高于50%。沒有交換技術(shù)基礎(chǔ)運行具體的TSDT目前為1.5分/VST/年,具有交換基礎(chǔ)運行為小于1分/VST/年。
對于經(jīng)營商的一個另外的好處是,避免了返回到老一代的SW。從而排除了非常復雜的費時間的滾動前進(Ro1l Forward)到當前的一代。同時從而排除了經(jīng)營商由于滾動前進引起的費用損失。
避免了滾動恢復,也就是說交換系統(tǒng)給電話客戶提供標準業(yè)務(wù)(打電話,緊急呼叫和可提供的服務(wù)!)。
排除故障在時間上不再是關(guān)鍵性的。排除故障可以在制造商(開發(fā)專業(yè)人員)的支持下在正常的工作時間進行。在這方面有例子,如果必須在星期天調(diào)整交換技術(shù)基礎(chǔ)運行時,然而在星期一才進行排除故障。
權(quán)利要求
1.計算機系統(tǒng),其特征為,一個重新起動部件(ISTART1B,NSTART1B)只新起動那些允許具有減少了的功能性的計算機系統(tǒng)繼續(xù)運行的軟件。
2.計算機系統(tǒng),具有一個重新起動機構(gòu),這個機構(gòu)在正常運行出現(xiàn)一個故障時首先至少嘗試一次,將計算機系統(tǒng)重新過渡到正常運行,并且如果這個失敗時或正常運行不能保持穩(wěn)定時,則要進行一個重新起動措施,這個重新起動措施只新起動計算機系統(tǒng)的那些允許具有減少了的功能性的計算機系統(tǒng)系統(tǒng)繼續(xù)運行的軟件。
3.按照權(quán)利要求1或2之一的計算機系統(tǒng),其特征為,當計算機系統(tǒng)涉及到多處理器系統(tǒng)時,在其中上述重新起動措施可以對處理器單個地進行。
4.按照權(quán)利要求1至3之一的計算機系統(tǒng),其特征為,計算機系統(tǒng)涉及的是交換系統(tǒng),系統(tǒng)基礎(chǔ)運行的軟件功能是涉及到交換技術(shù)的基礎(chǔ)功能。
5.計算機系統(tǒng),a)分為圍繞一個核心的幾個殼,在其中a1)核心包括計算機系統(tǒng)的硬件以及對系統(tǒng)的基礎(chǔ)運行所要求的軟件功能,a2)圍繞核心至少安排了一個另外的殼,這個殼包括有對于系統(tǒng)擴展運行所需要的另外的軟件功能,b)包括控制重新起動的重新起動機構(gòu),在其中這個機構(gòu)首先至少嘗試一次,將核心和所有的殼激活,并且如果此時重新出現(xiàn)一個故障,則在每次去掉一個最外殼情況下重復起動或重復激活嘗試。
6.重新起動一個計算機系統(tǒng)的方法,按照這種方法只新起動那些允許具有減少了的功能性(基礎(chǔ)運行)的系統(tǒng)繼續(xù)運行的軟件。
7.在減少了的或被限定的功能性狀態(tài)下排除干擾的方法,按照這種方法在排除干擾開始時調(diào)整的SW環(huán)境被凍結(jié),并且在其它一些干擾時這個SW環(huán)境準確地重新被激活。
8.按照權(quán)利要求7的方法,其特征為,對于排除干擾所必要的SW功能(與正常運行時完全一樣的功能)自動地在系統(tǒng)中被激活,不需要經(jīng)營商采取特殊措施,而且只有在排除干擾措施的時間點上,并且不是已經(jīng)在起動到交換技術(shù)基礎(chǔ)運行時。
9.按照權(quán)利要求6或7的方法,其特征為,當減少了的功能性的運行繼續(xù)時和在排除干擾時沒有費用的損失。
全文摘要
在交換系統(tǒng)中為了抵銷軟件故障使用了自動重新起動系統(tǒng)的一部分或整個系統(tǒng)。在一個硬的可重復出現(xiàn)的故障時,不能通過上述機構(gòu)抵銷故障。本發(fā)明解決這個問題是通過一個重新起動機構(gòu),這個重新起動機構(gòu)只新起動那些允許具有減少了的功能性的計算機系統(tǒng)繼續(xù)運行的軟件。
文檔編號G06F11/14GK1265205SQ98807558
公開日2000年8月30日 申請日期1998年7月21日 優(yōu)先權(quán)日1997年7月23日
發(fā)明者H·埃格爾斯, R·施拉格, W·保爾, M·施梅爾茲, J·尼森 申請人:西門子公司