專利名稱:建立自診斷和自修復自動系統(tǒng)的方法、系統(tǒng)及程序產(chǎn)品的制作方法
技術領域:
本發(fā)明一般涉及系統(tǒng)診斷和修復領域,特別涉及一種自動方法、系統(tǒng)及計算機程序產(chǎn)品,用于檢測一個或多個操作參數(shù)的異常狀態(tài),評估操作狀態(tài)以隔離可能的故障,并且執(zhí)行可能故障的自動修復。
背景技術:
對于某些應用,任何設備故障都可能存在嚴重的安全和病人健康的潛在后果,如用于健康護理業(yè)的設備。即使在產(chǎn)品設計改進的情況下,也不能排除所有操作服務情形。當出現(xiàn)這種服務情形時,設備可能停機直到進行修復為止。
自動系統(tǒng)如磁共振(MR)成像系統(tǒng)和計算機層析(CT)成像系統(tǒng)需要系統(tǒng)操作員定期要求派遣現(xiàn)場工程師來解決自動系統(tǒng)內(nèi)的錯誤或異常狀態(tài)。這些錯誤中的某些如硬件錯誤確實需要派遣現(xiàn)場工程師。
然而,在此應認識的是某些錯誤如基于軟件的錯誤可能可以在不派遣現(xiàn)場工程師的情況下得到糾正。因此,本領域需要一種自動系統(tǒng)的自主的、自診斷和自修復設施,用于減少系統(tǒng)停機時間,并且減少診斷和修復系統(tǒng)的人工干預需要。
發(fā)明內(nèi)容
在一方面,本發(fā)明提供一種有助于自動系統(tǒng)操作的自診斷和自修復方法。該方法包括監(jiān)測自動系統(tǒng)的至少一個操作參數(shù);自動檢測至少一個操作參數(shù)的異常狀態(tài);自動評估至少一個操作參數(shù)的異常狀態(tài)以隔離導致異常狀態(tài)的可能故障;以及執(zhí)行可能故障的自動修復,然后自動確定異常狀態(tài)是否已被消除。
在另一方面,提供一種有助于自動系統(tǒng)操作的自診斷和自修復方法。該方法包括從管理組件調(diào)用至少一個自動檢測組件,以監(jiān)測自動系統(tǒng)的至少一個操作參數(shù),并且將至少一個操作參數(shù)的正常狀態(tài)或異常狀態(tài)情況通知給管理組件;當管理組件從至少一個自動檢測組件接收到異常狀態(tài)情況時,由管理組件調(diào)用自動故障隔離組件,其中,自動故障隔離組件自動評估該至少一個操作組件的狀態(tài),以隔離導致異常狀態(tài)的可能故障;以及從管理組件調(diào)用自動糾錯組件以執(zhí)行可能故障的自動修復,然后自動判定異常狀態(tài)是否已被消除。
在此還描述對應于上述方法的系統(tǒng)和計算機程序產(chǎn)品并要求其權利。此外,在此還詳細描述本發(fā)明的其它實施例和方面并要求其權利。
本發(fā)明可以采取各種組件和組件安排以及各種步驟和步驟安排的形式。在此提供的附圖是為了說明特定實施例,而不是限制性的。作為本發(fā)明的內(nèi)容在所附權利要求中特別指出且清楚地要求其權利。
圖1是根據(jù)本發(fā)明的一方面的自動系統(tǒng)的自動、自診斷和自修復設施的一個組件實施例的示意圖;圖2是根據(jù)本發(fā)明的一方面的、圖1所示的自動自診斷和自修復設施的基于應用服務提供器(ASP)的機構的一個實施例的展開示意圖;以及圖3A、3B和3C是根據(jù)本發(fā)明的一方面的自動系統(tǒng)的自動自診斷和自修復設施的一個處理實施例的流程圖。
具體實施例方式
雖然在此是參照醫(yī)療系統(tǒng)如MR系統(tǒng)和CT系統(tǒng)來討論的,但是所公開的設施適用于各種自動系統(tǒng)的自診斷和自修復。此外,適于自動修復的服務情形包括被動和主動服務。所附權利要求包括所有這些系統(tǒng)和情形。
在此公開的設施包括自動系統(tǒng)完全消除或充分減小由于當前可服務條件而導致的系統(tǒng)停機間隔的自動、自診斷和自修復能力。對于某些自動系統(tǒng)特別是軟件驅動的系統(tǒng),存在某些操作情況,在它們導致系統(tǒng)性能下降和最終停機之前可以對其進行監(jiān)測和自糾正。對于可能需要硬件解決方案的其它故障類型,在此公開的設施可以執(zhí)行第一級診斷以定位故障并且通知遠端,從而可以在現(xiàn)場工程師的隨后現(xiàn)場拜訪期間以最少的時間糾正故障情況。在此公開的設施可以構建到自動系統(tǒng)中,它可以執(zhí)行下面功能中的一種或多種自動監(jiān)測設備操作;自動檢測異常;自動確定異常類型和修復選項;自動修復軟件問題;自動調(diào)度和執(zhí)行修復和升級;以及修復操作之后自動驗證操作。
圖1示出了根據(jù)本發(fā)明的一方面的具有自診斷和自修復設施的自動系統(tǒng)的一個架構的例子。該架構包括掃描器110和應用服務提供器(ASP)機構120。掃描器110可以包括任何類型的自動機器或設備,它具有一個或多個需要自診斷和自修復設施的子系統(tǒng)或組件。本例中的掃描器110包括自動檢測組件112,并且具有用于接收用戶輸入的裝置114。作為特定示例,掃描器110可能包括磁共振成像系統(tǒng)或計算機層析成像系統(tǒng)。
雖然不要求單獨的ASP來實現(xiàn)本發(fā)明的目標(也就是,該設施可以駐留在掃描器110內(nèi)),但是將自診斷和自修復設施的某些功能駐留在外部中央實體如ASP 200(參見圖2)上將減少將這些功能駐留在自動機器本身上的需要,從而減輕機器的計算負載。該設施包括管理組件122、診斷組件124、糾錯組件126和回滾組件128以及配置表123。該設施與虛擬在線中心(VOLC)130通信,在一個例子中,VOLC 130可能是負責協(xié)調(diào)在地理上分布的自動機器(例如,多個掃描器)的服務功能的中央遠端服務中心。在自修復過程期間,當異常情況是故障的結果時,ASP機構可能發(fā)送通知132到在線中心以派遣現(xiàn)場工程師(FE)。在本例中,現(xiàn)場工程師是典型的負責自動機器現(xiàn)場修理和服務的人員。
本領域的技術人員應該注意,圖1中的概念架構是基于組件的架構,并且根據(jù)本發(fā)明的各方面,在本例中,ASP擁有某些專有知識(如在此所公開的),并且允許較簡單的知識維護。圖1的概念結構所示的各種功能可以由稱作管理組件、自動檢測組件、自動故障隔離組件和自動糾錯組件的四個軟件模塊或組件執(zhí)行。作為示例,這些組件可以具有下述功能。
管理組件*決定調(diào)用哪一個本地自修復設施組件以及在什么時候調(diào)用。
*從自動檢測組件接收數(shù)據(jù),解釋數(shù)據(jù),調(diào)用自動故障隔離組件,確定故障可以被實時修復,調(diào)用自動糾錯組件執(zhí)行修復和修復驗證步驟,適當時執(zhí)行狀態(tài)回滾,并且記錄所有適當條目。
*將任何特定故障情形例如涉及硬件修復的情形通知給中央遠端服務中心。
*與中央遠端服務中心通信以進行企業(yè)級輸入和決策。
自動檢測組件
*各自動檢測組件可以分配用來監(jiān)測自動機器的特定子系統(tǒng)或者功能部件。
*正常情況下休眠;并且需要時由管理組件調(diào)用。
*當被調(diào)用執(zhí)行時,將預定參數(shù)的正常/異常狀態(tài)通知給管理組件;通知頻率由管理組件指定。
自動故障隔離組件*正常情況下休眠;并且當管理組件從自動檢測組件接收到“異常狀態(tài)”情況時,由它調(diào)用。
*當調(diào)用時,執(zhí)行異常參數(shù)分析以隔離故障,并且確定故障隔離的把握度。
自動糾錯組件*正常情況下休眠;當管理組件從自動故障隔離組件接收到高把握故障隔離結果時,調(diào)用該組件。
*確保修復步驟和估計的修復時長可用。
*通知機器操作員并且請求執(zhí)行修復步驟的調(diào)度時間。
*在調(diào)度時間執(zhí)行修復步驟。
*驗證修復;如果修復不成功,回滾到先前狀態(tài)。
*當修復成功/失敗時,通知機器操作員和管理組件。
圖2示出了根據(jù)本發(fā)明一方面的一個設施例子中掃描器、ASP和虛擬在線中心之間的事件順序和通信性質(zhì)。注意,提供“配置表”是用來便利于事件調(diào)度。如圖所示,自動檢測組件112檢測正常和/或異常情況,并將其轉發(fā)給管理組件122。管理組件122使用配置表123調(diào)度任何異常情況的診斷。故障數(shù)據(jù)從管理組件122轉發(fā)給一個或多個診斷組件124。診斷組件124將一種或多種可能的糾錯返回給管理組件122。然后,管理組件122向例如自動系統(tǒng)的操作員請求用戶輸入114。組件122通知操作員檢測出異常狀態(tài)以及指出可能的糾錯。用戶輸入114是返回給管理組件122的響應,管理組件122使用該輸入來通過配置表123調(diào)度對異常情況的糾錯。管理組件122使用一個或多個糾錯組件126執(zhí)行糾錯。糾錯組件126在自動修復可能的故障后,將成功/失敗指示返回給管理組件,管理組件自動判定異常狀態(tài)(或情況)是否已被消除。
圖3A、3B和3C示出了根據(jù)本發(fā)明一方面的自診斷和自修復設施的操作的一個實施例的更詳細過程的例子。本領域的技術人員應該注意,在此公開的過程可以容易地根據(jù)在此提供的描述作為具體應用的軟件模塊或組件來實現(xiàn)。此外,需要注意的是,根據(jù)該設施的具體應用,可以忽略圖3A、3B和3C的例子中所示的一個或多個步驟。
從圖3A開始,該設施開始300于管理組件通過周期性且連續(xù)地喚醒分配給感興趣子系統(tǒng)的一個或多個自動檢測組件來連續(xù)監(jiān)測所選子系統(tǒng)的操作302。自動檢測組件將一個或多個實際參數(shù)值與各參數(shù)的可接受范圍進行比較,并且將例如作為“正常”或“異?!钡妮敵鰣蟾娼o管理組件,然后返回到休眠模式304。當將異常報告發(fā)到管理組件時,自動檢測組件檢測出自動系統(tǒng)的一個或多個操作參數(shù)的異常狀態(tài)。
管理組件確定由自動檢測組件發(fā)出的所有報告是否全為正常的306,如果“是”,則返回到周期性地以某規(guī)定的間隔監(jiān)測所選子系統(tǒng)的操作302。假定管理組件接收到一個或多個報警消息,則管理組件喚醒故障隔離組件,并且將所有“異常狀態(tài)”消息及相關子系統(tǒng)信息轉發(fā)到自動故障隔離組件308。隔離組件分析報警消息,并且執(zhí)行各種測試,然后返回到休眠模式310。這些測試包括判定是否需要更多數(shù)據(jù)來隔離故障312。如果是,則管理組件繼續(xù)監(jiān)測所選子系統(tǒng)的操作302。如果有足夠的數(shù)據(jù)來隔離故障,則隔離組件確定故障類型是否適于自動修復,包括確定診斷把握度是否高于規(guī)定閾值,并且確定可用修復步驟的質(zhì)量314。如果故障類型不適于自動修復,則管理組件在事件日志文件中記錄適當條目,并且通知給中央遠端服務中心以派遣現(xiàn)場工程師316。
假定故障類型適于自動修復,則如圖3B所示,管理組件驗證故障隔離和自動修復建議,并且喚醒自動糾錯組件來執(zhí)行修復步驟318。自動糾錯組件通知機器操作員檢測出錯誤,描述該錯誤和修復步驟,包括修理時長,并且請求準許執(zhí)行修復320。自動糾錯組件確定是否準許322,如果“否”,則管理組件在事件日志文件中記錄適當條目,并且通知中央遠端服務中心不準許執(zhí)行修復324。假定準許,則自動糾錯組件確定什么時候執(zhí)行自動修復326。如果機器操作員指定一個時間,則自動糾錯組件將等待直到指定時間328。否則,由自動糾錯組件執(zhí)行自動修復,并且通報管理組件該自動修復,然后自動糾錯組件返回到休眠模式330。然后,管理組件喚醒一個或多個自動檢測組件以驗證子系統(tǒng)操作332。自動檢測組件將實際操作參數(shù)與指定子系統(tǒng)的可接受范圍進行比較,并且將作為正?;虍惓5妮敵鰣蟾娼o管理組件334。
如圖3C所示,管理組件然后確定從自動檢測組件返回的所有答復是否全為正常336。如果“否”,則管理組件喚醒自動糾錯組件,其通過一定的步驟來回滾自動修復338。然后,自動糾錯組件將系統(tǒng)回滾至其先前狀態(tài)340。
自動糾錯組件通知機器操作員錯誤已被糾正或者已聯(lián)系中央遠端服務中心來修復,同樣通知管理組件,然后返回到休眠模式342。管理組件在事件日志文件中記錄適當條目,并且通知給中央服務中心344,然后繼續(xù)執(zhí)行監(jiān)測過程302(圖3A)。
下面給出用來檢測和消除磁共振(MR)機器中的配置錯誤的圖3A-3C所示的自修復設施的詳細闡述。
典型MR機器具有對病人成像所需的若干種線圈(例如,身體線圈、頭部線圈等)。需要對這些線圈設置正確的配置參數(shù)以獲得病人的高質(zhì)量射線照片圖像。典型地,在每次啟動機器和每次增加新線圈時,檢查這些線圈配置參數(shù)。需要人工操作來分析實際配置參數(shù)與所需范圍之間的任何差異。使用本發(fā)明的自修復設施來自動糾正配置錯誤是可能的。為了應用自修復方法,MR專家生成一個稱作“系統(tǒng)健康檢查”的軟件模塊,它包括各線圈類型的期望(或所需)值。該軟件嵌入在本領域的技術人員可以容易編寫的“detect_config”腳本中。當執(zhí)行該腳本時,它將實際值與各線圈的期望值進行比較,以判定各線圈的通過或失敗狀態(tài)。
根據(jù)本發(fā)明一方面的自修復設施的一個實施例的步驟序列如下所述(I)管理器管理組件自動檢測下面兩種情形(a)當掃描器啟動時。
(b)當工程師增加新線圈時。由于增加線圈伴隨在配置文件中進行輸入,因此使用日期戳來自動檢測該事件。
假定檢測到上述事件之一,則管理器將喚醒命令發(fā)到正常情況下休眠的“自動檢測組件”。
(II)自動檢測組件1.當從管理器接收到命令時喚醒。
2.執(zhí)行“Detect_Config”腳本;輸出為“正常”(即,在配置腳本輸出文件中沒有報告任何故障)或者“報警”(在配置腳本輸出文件中報告一個或多個具體故障)。
3.將輸出(報警)報告給管理器,然后,該組件返回到休眠模式。
(III)管理器1.從自動檢測組件接收“報警”消息。
2.管理器將喚醒命令發(fā)到“自動故障隔離”組件。
(IV)自動故障隔離組件1.當從管理器接收到命令時喚醒。
2.檢查配置腳本輸出文件以獲得嫌疑線圈參數(shù)的建議值。
3.由于配置腳本在這種情況下進行準確的故障隔離,因此不需要任何進一步的故障隔離。另外,由于可以從配置腳本獲得建議值,因此“糾錯”步驟已有且已知。
4.將“糾錯”步驟報告給管理器,并且該隔離組件返回到休眠模式。
(V)管理器1.從自動故障隔離組件接收“糾錯”消息。
2.管理器將喚醒命令發(fā)到“自動糾錯”組件。
(VI)自動糾錯組件1.當從管理器接收到命令時喚醒。
2.通知機器操作員(技術員)所檢測的錯誤及其建議糾錯步驟,并且請求準許執(zhí)行糾錯。
3.操作員可以選擇忽略該糾錯請求,或者指定執(zhí)行糾錯的時間。
4.如果不忽略,則該組件在指定時間執(zhí)行糾錯。
5.該組件通知管理器糾錯結果(或者操作員的忽略決定),然后返回到休眠模式。
(VII)管理器1.從自動糾錯組件接收“糾錯”完成消息。
2.管理器將喚醒命令發(fā)到“自動檢測”組件。
(VII)自動檢測組件1.當從管理器接收到命令時喚醒。
2.執(zhí)行“Detect_Config”腳本;輸出為“正?!?即,在配置腳本輸出文件中沒有報告任何故障)或者“報警”(在配置腳本輸出文件中報告一個或多個具體故障)。
3.如果正確執(zhí)行糾正,則輸出將為正常。
4.將輸出(正常)報告給管理器,然后,該組件返回到休眠模式。
(IX)管理器1.從自動故障隔離組件接收“正?!毕ⅰ?br>
2.在事件日志文件中記錄適當條目,并且通知給中央遠端服務中心。
3.將喚醒命令發(fā)到“自動糾錯”組件。
(X)自動糾錯組件1.當從管理器接收到命令時喚醒。
2.向機器操作員(技術員)通知成功完成糾錯。
3.該組件向管理器通知與操作員的通信,然后返回到休眠模式。
上述應用例子的自診斷和自幫助設施可以應用于各種被動和主動服務情形。例如,該設施可以被動性地用于配置管理、應用運行時管理(進程,數(shù)據(jù)庫重新啟動),依賴性管理(依次重新啟動相關進程)、系統(tǒng)/子系統(tǒng)復位(包括外圍設備)以及計算文件、磁盤和數(shù)據(jù)庫修復。主動性地,自修復設施可以用作初期故障的趨向系統(tǒng)(例如,增益管理)、監(jiān)測系統(tǒng)操作條件(例如,周圍溫度監(jiān)測)和軟件發(fā)行/補丁的自動下載。另外,注意,雖然總體自診斷和自修復設施可以用于各種應用,但是特定應用可以利用其中部分組件。例如,主動性糾錯/報警和去除計劃的維修任務可以不需要用戶輸入。
本發(fā)明可以包括在具有例如計算機可用介質(zhì)的制造品(例如,一個或多個計算機程序產(chǎn)品)中。例如,該介質(zhì)內(nèi)嵌有用于提供和幫助本發(fā)明功能的計算機可讀程序碼裝置。該制造品可以作為計算機系統(tǒng)的一部分包括在系統(tǒng)中或者單獨出售。
另外,可以提供具體實施至少一種機器可執(zhí)行指令程序以執(zhí)行本發(fā)明功能的至少一種機器可讀程序存儲設備。
在此所述的流程圖只是示例。在不脫離本發(fā)明的精神的情況下,可以對在此所述的這些圖或步驟(或操作)進行各種變更。例如,可以以不同次序執(zhí)行這些步驟,或者添加、刪除或修改一些步驟。所有這些變更都認為是本發(fā)明的一部分。
雖然在此對優(yōu)選實施例進行了描述,但是本領域的技術人員應該清楚,在不脫離本發(fā)明的精神的情況下,可以進行各種修改、補充、替代等,因此這些被認為是屬于由所附權利要求限定的本發(fā)明范圍內(nèi)。
權利要求
1.一種有助于自動系統(tǒng)(110)的操作的自診斷和自修復方法,所述方法包括監(jiān)測(112,302)自動系統(tǒng)(110)的至少一個操作參數(shù);自動檢測(112,304)至少一個操作參數(shù)的異常狀態(tài);自動評估(124,308,310)至少一個操作參數(shù)的異常狀態(tài)以隔離導致該異常狀態(tài)的可能故障;以及執(zhí)行對該可能故障的自動修復(126,318,320,330),然后自動判定(332,334,336)異常狀態(tài)是否已被消除。
2.如權利要求1所述的方法,其中,所述自動評估(124,308,310)包括確定可能故障導致異常狀態(tài)的把握度(314),并且當該把握度超過規(guī)定閾值時繼續(xù)所述執(zhí)行可能故障的自動修復(318)。
3.如權利要求2所述的方法,還包括調(diào)度修理(320),其中包括獲得操作員的授權以當自動系統(tǒng)正在使用時繼續(xù)執(zhí)行可能故障的自動修復(320,322)。
4.如權利要求3所述的方法,其中,所述調(diào)度還包括通知操作員在自動系統(tǒng)內(nèi)檢測出異常狀態(tài),并且向操作員提供異常狀態(tài)描述、糾正可能故障所需的修復步驟以及修復操作的預期時長(320)。
5.如權利要求1所述的方法,還包括,在執(zhí)行之后,當確定仍然存在異常狀態(tài)時,自動回滾對可能故障的修復(336,338,340)。
6.一種有助于自動系統(tǒng)(110)的操作的自診斷和自修復系統(tǒng),所述系統(tǒng)包括監(jiān)測裝置(112),用于監(jiān)測該自動系統(tǒng)的至少一個操作參數(shù),以自動檢測至少一個操作參數(shù)的異常狀態(tài)(302,304);故障隔離裝置(124),用于自動評估該至少一個操作參數(shù)的異常狀態(tài)以隔離導致該異常狀態(tài)的可能故障(308,310);以及修復裝置(112,122,126),用于執(zhí)行可能故障的自動修復(318,320,330),然后自動確定異常狀態(tài)是否已被消除(332,334,336)。
7.如權利要求6所述的系統(tǒng),其中,所述故障隔離裝置(124)包括一裝置,用于確定可能故障導致異常狀態(tài)的把握度(314),并且當該把握度超過規(guī)定閾值時,所述修復裝置(122,126)繼續(xù)執(zhí)行可能故障的自動修復(318)。
8.如權利要求7所述的系統(tǒng),其中,所述修復裝置(122,126)還包括一用于調(diào)度修理的裝置,其包括獲得操作員的授權以當自動系統(tǒng)正在使用時繼續(xù)執(zhí)行可能故障的自動修復(320,322)。
9.如權利要求8所述的系統(tǒng),其中,所述調(diào)度裝置還包括一裝置,用于通知操作員在自動系統(tǒng)內(nèi)檢測出異常狀態(tài),并且向操作員提供異常狀態(tài)描述、糾正可能故障所需的修復步驟以及修復操作的預期時長(320)。
10.如權利要求6所述的系統(tǒng),還包括一裝置,用于在執(zhí)行之后,當確定仍然存在異常狀態(tài)時,自動回滾可能故障的修復(336,338,340)。
11.如權利要求6所述的系統(tǒng),其中,所述測裝置(112)還包括一裝置,用于連續(xù)地周期性地監(jiān)測自動系統(tǒng)的至少一個操作參數(shù)(302),并且自動確定至少一個操作參數(shù)的至少一個當前操作值是否超出正常操作范圍(304)。
全文摘要
本發(fā)明提供用于自動機器或系統(tǒng)(110)的自診斷和自修復設施的方法、系統(tǒng)和程序產(chǎn)品。該設施監(jiān)測自動系統(tǒng)的至少一個操作參數(shù)(112,302),并且當存在時自動檢測至少一個操作參數(shù)的異常狀態(tài)(304)。自動評估(124,308,310)異常狀態(tài)以隔離自動系統(tǒng)中導致異常狀態(tài)的可能故障,并且執(zhí)行可能故障的自動修復(126,318,320,330)。在自動修復之后,該設施判定異常狀態(tài)是否已被消除(332,334,336)。
文檔編號G06F11/22GK1499208SQ20031010297
公開日2004年5月26日 申請日期2003年10月31日 優(yōu)先權日2002年10月31日
發(fā)明者拉塞克·P·沙, 邁克爾·E·凱利, E 凱利, 拉塞克 P 沙 申請人:通用電氣公司