專利名稱:多部件自組織軟連接集群計(jì)算機(jī)智能資源管理方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)系統(tǒng)資源管理領(lǐng)域,特別涉及一種多部件自組織軟連接集群計(jì)算機(jī)的 智能資源管理方法。
技術(shù)背景隨著社會(huì)和科學(xué)技術(shù)的發(fā)展,計(jì)算機(jī)已日益成為人們工作、學(xué)習(xí)、生活、交流、娛樂(lè) 等方面不可缺少的工具,尤其是在辦公室、實(shí)驗(yàn)室、電化教學(xué)教室、圖書館等場(chǎng)所得到了 廣泛的應(yīng)用。但是現(xiàn)階段計(jì)算機(jī)都是一個(gè)相對(duì)獨(dú)立的設(shè)備,是由主機(jī)、顯示器、鍵盤、鼠 標(biāo)等硬件設(shè)備構(gòu)成的一個(gè)整體,用戶的使用也是獨(dú)占一臺(tái)主機(jī)資源及其外設(shè)。在這種情況 下,如果某一關(guān)鍵的硬件設(shè)備出現(xiàn)故障,則即使其它硬件設(shè)備仍可使用,整臺(tái)計(jì)算機(jī)也將 無(wú)法正常工作,會(huì)造成用戶因無(wú)法使用計(jì)算機(jī)而給工作、生活帶來(lái)影響。為了解決單機(jī)的運(yùn)算及I/O能力的不足,提高系統(tǒng)的可靠性,獲得規(guī)模可擴(kuò)展能力,降低整體方案的運(yùn)維 成本(運(yùn)行、升級(jí)、維護(hù)成本),自七十年代開始計(jì)算機(jī)廠商和研究機(jī)構(gòu)就開始了對(duì)集群計(jì) 算機(jī)系統(tǒng)的研究和開發(fā)。集群計(jì)算機(jī)系統(tǒng)在處理能力、可靠性、1/0能力等方面都得到了大幅的提升,但由于傳統(tǒng)集群計(jì)算機(jī)系統(tǒng)的基本單元(節(jié)點(diǎn))仍然是單獨(dú)的計(jì)算機(jī),每個(gè)節(jié) 點(diǎn)計(jì)算機(jī)中的各種硬件設(shè)備又是固定連接的(看作是一種"硬連接")。所以存在資源浪費(fèi)、 效率不高的問(wèn)題。針對(duì)計(jì)算機(jī)目前的使用狀況,專利文獻(xiàn)(申請(qǐng)?zhí)?00810026062.4,發(fā)明名稱多部件 自組織軟連接集群計(jì)算機(jī)及其自組織方法)分析了造成計(jì)算機(jī)資源浪費(fèi)、效率不高的主要 原因,并充分利用目前的超寬帶(UWB)無(wú)線傳輸技術(shù)能在3.1GHz到10.6GHz頻率之間 提供最高達(dá)到480Mbps數(shù)據(jù)傳輸速率,提出了一種多部件自組織軟連接集群計(jì)算機(jī)及其自 組織方法,該集群計(jì)算機(jī)不像傳統(tǒng)的集群計(jì)算機(jī)那樣以單臺(tái)計(jì)算機(jī)為基本單元,而是以計(jì) 算機(jī)的部件(由計(jì)算機(jī)硬件中的一種或多種構(gòu)成)為基本單元,相同類型的計(jì)算機(jī)部件構(gòu) 成部件群。部件群中的部件按照計(jì)算機(jī)的構(gòu)成方式,通過(guò)一個(gè)或多個(gè)連接器(包括有線數(shù) 據(jù)交換器或無(wú)線收發(fā)器)自組織地與對(duì)應(yīng)部件群中的部件建立連接并進(jìn)行數(shù)據(jù)傳輸,該集 群計(jì)算機(jī)結(jié)構(gòu)如圖1所示。用戶使用時(shí),各個(gè)部件群中的部件根據(jù)需求自組織地組合(看 作是一種"軟連接")成一個(gè)計(jì)算機(jī)系統(tǒng)為用戶服務(wù),具有資源高度共享、可靠性高、便于 維護(hù)等突出的優(yōu)點(diǎn),可以廣泛適用于生產(chǎn)、服務(wù)、教學(xué)、娛樂(lè)等多種場(chǎng)合。 一個(gè)典型的實(shí)施例是集群計(jì)算機(jī)系統(tǒng)由終端部件群、主機(jī)部件群和外存部件群三個(gè)部分組成。其中,終 端部件群由多套計(jì)算機(jī)終端構(gòu)成,為系統(tǒng)提供用戶使用的界面和接口,每套終端可以看作 系統(tǒng)的一個(gè)終端部件;主機(jī)部件群由多臺(tái)計(jì)算機(jī)主機(jī)構(gòu)成,為系統(tǒng)的運(yùn)算和處理中心,每 個(gè)計(jì)算機(jī)主機(jī)可以看作是系統(tǒng)的一個(gè)運(yùn)算處理部件;外存部件群由多個(gè)外部存儲(chǔ)器構(gòu)成, 為系統(tǒng)提供海量存儲(chǔ)空間,每個(gè)外部存儲(chǔ)器可以看作系統(tǒng)的一個(gè)外存部件。這樣, 一套終 端部件、主機(jī)部件和外存部件順次連接,即可以構(gòu)成一臺(tái)功能完整的計(jì)算機(jī)。利用上述專利文獻(xiàn)所提供的多部件自組織軟連接集群計(jì)算機(jī),可以降低成本、提高可 靠性和簡(jiǎn)化運(yùn)行維護(hù),在資源管理方面,上述文獻(xiàn)中所提供的自組織"組合"方法中采用 了用戶分級(jí)管理和權(quán)重分配。但從集群計(jì)算機(jī)整體運(yùn)行效率來(lái)看,對(duì)多部件自組織軟連接 集群計(jì)算機(jī)的資源管理還存在如下不足(1)部件群中的每個(gè)部件不能總處于開啟狀態(tài), 這樣會(huì)造成部件資源的閑置和浪費(fèi),需要對(duì)部件群中的部件資源進(jìn)行調(diào)度,根據(jù)用戶對(duì)資 源的需求動(dòng)態(tài)提供部件資源,即隨著用戶數(shù)量的增加逐步增加部件資源,而隨著用戶數(shù)量 的減少逐步減少部件資源,實(shí)現(xiàn)部件的自動(dòng)開啟和自動(dòng)關(guān)閉;(2)對(duì)用戶分級(jí)、按權(quán)重分 配資源仍然是靜態(tài)的分配方式,即分配給用戶的資源是固定不變的,為了達(dá)到部件資源的 高度共享,需要根據(jù)用戶實(shí)際使用資源的多少來(lái)平衡用戶之間的資源占用,實(shí)現(xiàn)對(duì)用戶之 間資源的動(dòng)態(tài)調(diào)度;(3)用戶數(shù)據(jù)的存儲(chǔ)只是臨時(shí)性的,用戶退出系統(tǒng)后,由于下次登陸 系統(tǒng)時(shí)不一定是同一個(gè)存儲(chǔ)部件提供服務(wù),況且臨時(shí)分配的存儲(chǔ)空間也將被釋放,所以用 戶所存儲(chǔ)的數(shù)據(jù)不能長(zhǎng)期保存。但有的用戶有長(zhǎng)期保存數(shù)據(jù)的需求,因此存儲(chǔ)資源的使用 既要實(shí)現(xiàn)臨時(shí)存儲(chǔ),也要解決永久存儲(chǔ)的問(wèn)題;(4)必須實(shí)施部件的故障管理和安全管理, 保證部件資源的可靠性,從而保障系統(tǒng)的安全可靠運(yùn)行。上述不足不僅會(huì)造成資源的閑置 和降低資源的利用率,也會(huì)影響用戶數(shù)據(jù)的保存和服務(wù)的可靠性,因此,為多部件自組織 軟連接集群計(jì)算機(jī)提供一種全面智能的資源管理方法,將會(huì)優(yōu)化集群計(jì)算機(jī)的資源配置, 進(jìn)一步降低成本和提供高可靠性的服務(wù),使多部件自組織軟連接集群計(jì)算機(jī)更具實(shí)際應(yīng)用 價(jià)值和市場(chǎng)競(jìng)爭(zhēng)力。 發(fā)明內(nèi)容本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的不足,為多部件自組織軟連接集群計(jì)算機(jī)提供 一種智能資源管理方法,提高集群計(jì)算機(jī)的部件資源利用率、優(yōu)化資源配置,從而進(jìn)一步 降低投資成本和運(yùn)行維護(hù)管理成本,并提高系統(tǒng)的可靠性。本發(fā)明所提供的一種多部件自組織軟連接集群計(jì)算機(jī)的智能資源管理方法,實(shí)現(xiàn)部件群中部件資源的動(dòng)態(tài)調(diào)度,根據(jù)用戶對(duì)資源的需求動(dòng)態(tài)提供部件資源,即隨著用戶數(shù)量的 增加逐步增加部件資源,而隨著用戶數(shù)量的減少逐步減少部件資源,實(shí)現(xiàn)部件的自動(dòng)開啟 和自動(dòng)關(guān)閉。本發(fā)明的多部件自組織軟連接集群計(jì)算機(jī)智能資源管理方法通過(guò)如下技術(shù)方案實(shí)現(xiàn)-要實(shí)現(xiàn)部件的自動(dòng)開啟,需要在部件群中設(shè)置一個(gè)"監(jiān)控器",沒有部件開啟時(shí),"監(jiān) 控器"處于激活狀態(tài),用于監(jiān)控"組合"命令中對(duì)部件資源的需求情況,當(dāng)對(duì)本部件群有 需求時(shí),選擇一個(gè)部件開啟。部件開啟成功后,"監(jiān)控器"進(jìn)入非激活狀態(tài),以后的部件開 啟由集群計(jì)算機(jī)控制。"監(jiān)控器"可以是一個(gè)獨(dú)立的設(shè)備,也可以集成到某一個(gè)部件中,它 實(shí)現(xiàn)的功能是接收到"組合"命令后觸發(fā)一個(gè)部件開啟。 部件的自動(dòng)開啟可以釆用如下具體步驟實(shí)現(xiàn)(1) "監(jiān)控器"處于激活狀態(tài);(2) "監(jiān)控器"監(jiān)測(cè)到"組合"命令中對(duì)本部件群有資源需求;(3) "監(jiān)控器"觸發(fā)一個(gè)部件開啟。(4) 如果被選擇的部件在時(shí)間T (T>0)內(nèi)無(wú)法開啟,則重復(fù)步驟(3),選擇觸發(fā)另 一個(gè)部件開啟;(5) 開啟的部件為集群計(jì)算機(jī)系統(tǒng)提供服務(wù);(6) 有部件成功開啟后,"監(jiān)控器"進(jìn)入非激活狀態(tài);(7) 集群計(jì)算機(jī)系統(tǒng)監(jiān)控部件資源使用情況;(8) 如果部件群提供的資源已不能滿足系統(tǒng)的需求時(shí),將增加一個(gè)部件開啟;(9) 直到部件群的資源能夠滿足集群計(jì)算機(jī)系統(tǒng)的需求。 部件的自動(dòng)關(guān)閉是由部件群監(jiān)控系統(tǒng)的資源使用情況,當(dāng)系統(tǒng)資源需求減少到一定程度時(shí),關(guān)閉一些部件以節(jié)約資源。部件的自動(dòng)關(guān)閉可以采用如下具體步驟實(shí)現(xiàn)(1) 集群計(jì)算機(jī)監(jiān)控部件資源使用情況;(2) 當(dāng)集群計(jì)算機(jī)檢測(cè)到由m (Km《M, M為部件的總個(gè)數(shù))個(gè)部件所提供給系統(tǒng) 的資源可以由m-l個(gè)部件來(lái)保證,轉(zhuǎn)入下一步;(3) 集群計(jì)算機(jī)從m個(gè)部件中選擇一個(gè);(4) 將由該個(gè)部件提供服務(wù)的其它部件群的部件切換到由其余m-l個(gè)部件提供;(5) 所選擇的部件空閑后自動(dòng)關(guān)閉;(6) 重復(fù)步驟(1) - (5);(7) 直至最后一個(gè)部件關(guān)閉;(8) 將"監(jiān)控器"置為激活狀態(tài)。所述的智能資源管理方法,對(duì)用戶迸行分級(jí),為用戶分配登錄帳號(hào)、運(yùn)算服務(wù)等級(jí)和 存儲(chǔ)服務(wù)等級(jí),當(dāng)用戶登錄到系統(tǒng)后,對(duì)分配給用戶的資源進(jìn)行動(dòng)態(tài)調(diào)度,根據(jù)用戶實(shí)際 使用資源的多少來(lái)平衡用戶之間的資源占用,將用戶空閑資源調(diào)度出一部分作為預(yù)留資源, 然后將預(yù)留資源分配給迫切需要資源的用戶,實(shí)現(xiàn)部件資源的高度共享。用戶分級(jí)過(guò)程是用戶向集群計(jì)算機(jī)系統(tǒng)管理者申請(qǐng)登錄帳號(hào)、運(yùn)算服務(wù)等級(jí)和存儲(chǔ)服 務(wù)等級(jí);用戶獲得帳號(hào)、相應(yīng)的服務(wù)等級(jí)和存儲(chǔ)服務(wù)等級(jí)以后,即可登錄系統(tǒng);系統(tǒng)收到 登錄信息后,根據(jù)用戶的等級(jí)為用戶分配相應(yīng)的部件資源,并開始為用戶提供服務(wù)。對(duì)用戶資源進(jìn)行動(dòng)態(tài)調(diào)度是由系統(tǒng)監(jiān)測(cè)每個(gè)用戶使用部件資源的情況,然后予以動(dòng)態(tài) 調(diào)整。動(dòng)態(tài)資源調(diào)度過(guò)程,采用如下具體步驟實(shí)現(xiàn)(1) 系統(tǒng)監(jiān)測(cè)用戶使用部件資源的情況;(2) 如果在時(shí)間T (T>0)內(nèi)某個(gè)用戶使用部件資源的比例低于某個(gè)閥值L1 (L1>0), 系統(tǒng)將分配給該用戶的資源調(diào)整出 一部分作為預(yù)留資源;(3) 如果在時(shí)間T (T>0)內(nèi)某個(gè)用戶使用部件資源的比例高于某個(gè)閥值L2 (L2>0), 這時(shí)若有預(yù)留資源,則系統(tǒng)將部分預(yù)留資源分配給該用戶,以滿足該用戶對(duì)資源需求;(4) 如果被調(diào)整出資源的用戶資源需求增加,且增加后該用戶使用的總資源不超出其 被允許使用的最大資源的范圍,即在其規(guī)定級(jí)別范圍內(nèi),則系統(tǒng)首先從預(yù)留資源中調(diào)配資 源給該用戶,如果預(yù)留資源不夠,系統(tǒng)將回收分配出去的部分預(yù)留資源以滿足該用戶的需 求;(5) 系統(tǒng)保存著一個(gè)"動(dòng)態(tài)資源調(diào)度列表",內(nèi)容包括各用戶使用部件資源的比例、 調(diào)整資源的情況、剩余預(yù)留資源情況和預(yù)留資源分配情況等。所述.的智能資源管理方法,解決用戶使用存儲(chǔ)類部件資源時(shí)的臨時(shí)存儲(chǔ)和永久存儲(chǔ)問(wèn) 題。暫時(shí)存儲(chǔ)是指用戶只在使用集群計(jì)算機(jī)的過(guò)程中占用的存儲(chǔ)類部件資源,當(dāng)用戶退出 系統(tǒng)后即被釋放,所存放的數(shù)據(jù)將丟失。永久存儲(chǔ)是指用戶需要長(zhǎng)期保存數(shù)據(jù)時(shí)需要占用 的存儲(chǔ)類資源,用戶退出系統(tǒng)后保存的數(shù)據(jù)仍然有效,存儲(chǔ)類資源仍然被占用,用戶可以 進(jìn)行重復(fù)訪問(wèn)。所述的方法將從存儲(chǔ)類部件群中劃分出一部分作為永久存儲(chǔ)區(qū),實(shí)現(xiàn)用戶 數(shù)據(jù)在系統(tǒng)中的長(zhǎng)期保存。要實(shí)現(xiàn)臨時(shí)存儲(chǔ)和永久存儲(chǔ),首先從存儲(chǔ)類部件群中劃分一個(gè)區(qū)域作為用戶數(shù)據(jù)的永 久存儲(chǔ)區(qū),永久存儲(chǔ)區(qū)不能再作為臨時(shí)存儲(chǔ)空間;用戶登錄到系統(tǒng)后,系統(tǒng)根據(jù)用戶等級(jí) 在存儲(chǔ)類部件群中為用戶分配臨時(shí)存儲(chǔ)空間,并提示臨時(shí)存儲(chǔ)空間的訪問(wèn)位置;然后,系 統(tǒng)判斷用戶是否申請(qǐng)了永久存儲(chǔ)空間,如果用戶申請(qǐng)了永久存儲(chǔ)空間,則判斷用戶是否是 第一次登錄進(jìn)入系統(tǒng),如果是第一次,則系統(tǒng)在永久存儲(chǔ)區(qū)為用戶分配用戶所申請(qǐng)大小的 永久存儲(chǔ)空間,并提示永久存儲(chǔ)空間的訪問(wèn)位置,系統(tǒng)保存有"永久存儲(chǔ)空間分配表"記 錄永久存儲(chǔ)空間與用戶的映射關(guān)系;如果用戶曾經(jīng)成功登錄過(guò)系統(tǒng),則系統(tǒng)根據(jù)"永久存 儲(chǔ)空間分配表"建立用戶與其永久存儲(chǔ)空間的映射關(guān)系,并提示永久存儲(chǔ)空間的訪問(wèn)位置。 當(dāng)用戶準(zhǔn)備退出系統(tǒng)時(shí),系統(tǒng)將提示用戶把需要長(zhǎng)期保存的數(shù)據(jù)存儲(chǔ)到永久存儲(chǔ)空間中, 臨時(shí)存儲(chǔ)空間將被釋放。所述的智能資源管理方法,通過(guò)讀取運(yùn)行部件的關(guān)鍵參數(shù)實(shí)施部件的故障管理和安全 管理,監(jiān)測(cè)和維護(hù)部件資源的可靠運(yùn)行。故障管理是監(jiān)測(cè)部件是否處于正常的運(yùn)行狀態(tài), 安全管理是監(jiān)測(cè)部件是否受到攻擊或篡改。對(duì)某個(gè)部件群中的部件實(shí)施故障管理和安全管理,首先針對(duì)故障管理和安全管理分別 設(shè)置一個(gè)關(guān)鍵參數(shù)表,即故障管理參數(shù)表和安全管理參數(shù)表,選擇參數(shù)的要求是這些參數(shù) 能夠全面反映部件的運(yùn)行狀態(tài)和安全狀態(tài)。然后對(duì)每個(gè)參數(shù)設(shè)置多個(gè)級(jí)別的閥值如LKL2.......Ln(n為自然數(shù)),當(dāng)系統(tǒng)監(jiān)測(cè)到某個(gè)參數(shù)達(dá)到(高于或低于或等于)某個(gè)閥值時(shí),將產(chǎn)生對(duì)應(yīng)級(jí)別的告警信息,如達(dá)到閥值Li即產(chǎn)生i級(jí)告警(i=l,2,......n),并通過(guò)多種方式將告警信息通知系統(tǒng)管理者,由系統(tǒng)管理者根據(jù)告警級(jí)別采取相應(yīng)的措施以確保部件的 正常運(yùn)行和安全。通知系統(tǒng)管理者的方式可以是(1)將告警信息顯示到系統(tǒng)管理者的電腦 屏幕上;(2)如果系統(tǒng)已與Internet相連,則可以給系統(tǒng)管理者發(fā)送E-mail; (3)如果與電 信運(yùn)營(yíng)商達(dá)成協(xié)議,可以通過(guò)短消息的方式將告警信息發(fā)送到管理者的手機(jī)上。 當(dāng)某一個(gè)部件無(wú)法開啟時(shí),將以最高級(jí)別的故障告警信息通知系統(tǒng)管理者。 將所有故障告警和安全告警分別記錄到故障日志文件和安全日志文件中,以備查詢。 上述功能的實(shí)現(xiàn),使多部件自組織軟連接集群計(jì)算機(jī)更具競(jìng)爭(zhēng)優(yōu)勢(shì)(1) 通過(guò)實(shí)現(xiàn)部件群中部件資源的動(dòng)態(tài)調(diào)度,不僅可以優(yōu)化多部件自組織軟連接集群 計(jì)算機(jī)的資源配置,而且可以避免部件的閑置、最大限度地節(jié)省損耗成本和維護(hù)成本,同 時(shí)也提高了對(duì)多部件自組織軟連接集群計(jì)算機(jī)進(jìn)行維護(hù)的自動(dòng)化程度。(2) 對(duì)用戶進(jìn)行分級(jí)和對(duì)分配給用戶的資源進(jìn)行動(dòng)態(tài)調(diào)度,克服了現(xiàn)有多用戶系統(tǒng)對(duì)所有用戶平均分配資源的不足,實(shí)現(xiàn)了資源的高度共享,不僅可以提供差異化服務(wù),而且 也提高了多部件自組織軟連接集群計(jì)算機(jī)資源的利用率。(3) 臨時(shí)存儲(chǔ)和永久存儲(chǔ)問(wèn)題的解決,實(shí)現(xiàn)了用戶數(shù)據(jù)的長(zhǎng)期保存,滿足了不同用戶 的存儲(chǔ)要求,擴(kuò)展了多部件自組織軟連接集群計(jì)算機(jī)的服務(wù)功能和服務(wù)范圍。(4) 通過(guò)對(duì)部件實(shí)施故障管理和安全管理,可以讓系統(tǒng)管理者及時(shí)發(fā)現(xiàn)部件的異常狀 態(tài),及時(shí)采取相應(yīng)的措施,保障系統(tǒng)的安全和可靠運(yùn)行。
圖l多部件自組織軟連接集群計(jì)算機(jī)典型結(jié)構(gòu)示意圖 圖2本發(fā)明實(shí)施例中集群計(jì)算機(jī)的示意圖 圖3本發(fā)明實(shí)施例主機(jī)部件自動(dòng)開啟流程圖 圖4本發(fā)明實(shí)施例主機(jī)部件自動(dòng)關(guān)閉流程圖 圖5本發(fā)明實(shí)施例用戶分級(jí)過(guò)程流程圖 圖6本發(fā)明實(shí)施例用戶資源動(dòng)態(tài)調(diào)度過(guò)程流程圖 圖7本發(fā)明實(shí)施例臨時(shí)存儲(chǔ)和永久存儲(chǔ)實(shí)現(xiàn)流程圖 圖8本發(fā)明部件的故障管理和安全管理實(shí)現(xiàn)流程圖具體實(shí)施方式
本發(fā)明所提供的一種多部件自組織軟連接集群計(jì)算機(jī)的智能資源管理方法,是基于計(jì)算 機(jī)部件群以及部件群之間的自組織連接而組成的集群計(jì)算機(jī)。下面將結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式
作進(jìn)一步說(shuō)明。本發(fā)明的一個(gè)典型實(shí)施例中的集群計(jì)算機(jī)如圖2所示,集群計(jì)算機(jī)系統(tǒng)分為終端部件 群201、主機(jī)部件群202和外存部件群203三個(gè)部分。其中,終端部件群201由N套的計(jì) 算機(jī)終端204構(gòu)成,為系統(tǒng)提供用戶使用的界面和接口,每套終端可以看作系統(tǒng)的一個(gè)終 端部件;主機(jī)部件群202由M臺(tái)計(jì)算機(jī)主機(jī)部件207構(gòu)成,為系統(tǒng)的運(yùn)算和處理中心,每 個(gè)計(jì)算機(jī)主機(jī)可以看作是系統(tǒng)的一個(gè)運(yùn)算處理部件;外存部件群203由K個(gè)的外部存儲(chǔ)器 209構(gòu)成,為系統(tǒng)提供海量存儲(chǔ)空間,每個(gè)外部存儲(chǔ)器可以看作系統(tǒng)的一個(gè)外存部件。于 是, 一套終端部件、主機(jī)部件和外存部件連接成功后,即可構(gòu)成一臺(tái)功能完整的計(jì)算機(jī)。一、部件的自動(dòng)開啟和自動(dòng)關(guān)閉實(shí)施例中,集群計(jì)算機(jī)系統(tǒng)分成了終端部件群201、主機(jī)部件群202和外存部件群203 三個(gè)部分,亦即有終端部件204、主機(jī)部件207和外存部件209三類部件。其中終端部件204是用戶使用系統(tǒng)的界面和接口,是由用戶來(lái)開啟和關(guān)閉的,不需要實(shí)現(xiàn)自動(dòng)開啟和關(guān) 閉;外存部件209的自動(dòng)開啟和關(guān)閉與主機(jī)部件群類似。所以,在本實(shí)施例中,只說(shuō)明實(shí) 現(xiàn)主機(jī)部件207的自動(dòng)開啟和關(guān)閉過(guò)程。在本實(shí)施例中,實(shí)現(xiàn)主機(jī)部件的自動(dòng)開啟,"監(jiān)控器"只要在接收到"組合"命令后(指 其他部件群發(fā)出的組合命令,如手動(dòng)開啟的終端部件發(fā)出的"組合"命令),觸發(fā)接通一臺(tái) (或個(gè),具體實(shí)施例中對(duì)于主機(jī)部件而言,用量詞"臺(tái)"來(lái)替代"個(gè)")主機(jī)部件的電源即 可開啟一臺(tái)主機(jī)。主機(jī)部件207的自動(dòng)開啟可以采用如下具體步驟實(shí)現(xiàn)(1) 在主機(jī)部件群202中的"監(jiān)控器"處于激活狀態(tài);(2) "監(jiān)控器"監(jiān)測(cè)到"組合"命令中對(duì)主機(jī)部件群有資源需求;(3) "監(jiān)控器"選擇觸發(fā)一臺(tái)主機(jī)部件開啟(觸發(fā)的依據(jù)可以是已設(shè)定好的優(yōu)先等級(jí)), 如主機(jī)l;(4) 如果被選擇的主機(jī)1在時(shí)間T (T>0)內(nèi)無(wú)法開啟,則選擇觸發(fā)另一臺(tái)部件開啟, 如主機(jī)2;(5) 開啟的主機(jī)部件為集群計(jì)算機(jī)系統(tǒng)提供服務(wù);(6) 有主機(jī)部件成功開啟后,"監(jiān)控器"進(jìn)入非激活狀態(tài);(7) 集群計(jì)算機(jī)監(jiān)控主機(jī)部件資源使用情況;(8) 如果主機(jī)部件群提供的資源已不能滿足系統(tǒng)的需求時(shí),將增加一臺(tái)主機(jī)部件開啟;(9) 直到主機(jī)部件群的資源能夠滿足系統(tǒng)的需求。 主機(jī)部件自動(dòng)開啟流程如圖3所示。 .主機(jī)部件207的自動(dòng)關(guān)閉可以采用如下具體步驟實(shí)現(xiàn) (1 )集群計(jì)算機(jī)監(jiān)控終端部件群201的資源使用情況;(2) 當(dāng)集群計(jì)算機(jī)檢測(cè)到由m (Km《M)臺(tái)主機(jī)部件所提供給終端部件群201的資 源可以由m-l臺(tái)主機(jī)部件來(lái)保證;(3) 集群計(jì)算機(jī)從m臺(tái)主機(jī)部件中選擇一臺(tái);(4) 將由該臺(tái)主機(jī)部件提供服務(wù)的終端部件切換到由其余m-l臺(tái)主機(jī)部件提供;(5) 所選擇的主機(jī)部件空閑后自動(dòng)關(guān)閉;(6) 重復(fù)步驟(1) - (5);(7) 直至最后一臺(tái)主機(jī)部件關(guān)閉;(8) 將主機(jī)部件群中的"監(jiān)控器"置為激活狀態(tài)。 主機(jī)部件自動(dòng)關(guān)閉流程如圖4所示。二、用戶分級(jí)和用戶資源的動(dòng)態(tài)調(diào)度用戶分級(jí)是指用戶在向集群計(jì)算機(jī)管理者申請(qǐng)用戶帳號(hào)和用戶密碼時(shí),同時(shí)還要申請(qǐng) 運(yùn)算服務(wù)等級(jí)和存儲(chǔ)服務(wù)等級(jí),例如,可以將終端部件要求的運(yùn)算服務(wù)劃分為3個(gè)等級(jí)-等級(jí)0為普通運(yùn)算服務(wù)等級(jí),主要用于上網(wǎng)、文字處理等需要運(yùn)算量不大的普通任務(wù);等 級(jí)1為需要一定運(yùn)算量的任務(wù),如從事一些一臺(tái)主機(jī)部件207可以完成的運(yùn)算量中等的計(jì) 算;等級(jí)2為需要大量運(yùn)算量的任務(wù),如需要大量數(shù)學(xué)運(yùn)算的實(shí)時(shí)任務(wù)等,此時(shí)需要啟動(dòng) 多臺(tái)主機(jī)部件207的并行計(jì)算功能來(lái)加快運(yùn)算速度;存儲(chǔ)服務(wù)等級(jí)可以按需要的存儲(chǔ)空間 來(lái)劃分,例如等級(jí)O需要IOOM存儲(chǔ)空間,等級(jí)1需要200M存儲(chǔ)空間等等,另外,存 儲(chǔ)服務(wù)還有臨時(shí)存儲(chǔ)和永久存儲(chǔ)之分。用戶分級(jí)過(guò)程實(shí)現(xiàn)的具體步驟包括(1) 用戶向集群計(jì)算機(jī)系統(tǒng)管理者申請(qǐng)登錄帳號(hào)、運(yùn)算服務(wù)等級(jí)和存儲(chǔ)服務(wù)等級(jí);(2) 系統(tǒng)管理者為用戶分配登錄帳號(hào)、運(yùn)算服務(wù)等級(jí)和存儲(chǔ)服務(wù)等級(jí);(3) 用戶通過(guò)終端部件204輸入登錄信息;(4) 系統(tǒng)收到登錄信息后,根據(jù)用戶的運(yùn)算服務(wù)等級(jí)為用戶分配相應(yīng)的主機(jī)部件資源, 根據(jù)用戶的存儲(chǔ)服務(wù)等級(jí)為用戶分配臨時(shí)存儲(chǔ)空間和永久存儲(chǔ)空間;(5) 系統(tǒng)為用戶提供服務(wù)。 用戶分級(jí)過(guò)程的流程如圖5所示。用戶資源動(dòng)態(tài)調(diào)度是指根據(jù)用戶實(shí)際使用所分配資源的情況,在不影響用戶服務(wù)質(zhì)量 的條件下,對(duì)用戶資源進(jìn)行動(dòng)態(tài)調(diào)整,將一定時(shí)期內(nèi)空閑的資源臨時(shí)分配給需要資源的用 戶,使系統(tǒng)部件資源得到充分利用。本實(shí)施例中,終端部件204由用戶獨(dú)占,無(wú)法進(jìn)行調(diào) 整,而主機(jī)部件207資源和外存部件209資源可以進(jìn)行調(diào)整。用戶資源動(dòng)態(tài)調(diào)度的具體實(shí)現(xiàn)步驟包括(1) 系統(tǒng)監(jiān)測(cè)終端部件群201中每個(gè)終端部件204 (用戶)使用資源(主機(jī)部件資源 和外存部件資源)的情況;(2) 如果在時(shí)間T(TX))內(nèi)某臺(tái)終端部件204使用資源的比例低于某個(gè)閥值L1(L1X)), 主機(jī)部件群202將分配給該終端部件的資源調(diào)整出一部分作為預(yù)留資源;(3) 如果在時(shí)間T(TX))內(nèi)某臺(tái)終端部件204使用資源的比例高于某個(gè)閥值L2(L2〉0), 這時(shí)若有預(yù)留資源,則主機(jī)部件群202將部分預(yù)留資源分配給該終端部件,以滿足該終端 部件對(duì)資源的需求;(4) 如果被調(diào)整出資源的終端部件資源需求增加,且在其規(guī)定級(jí)別范圍內(nèi),則系統(tǒng)首 先從預(yù)留資源中調(diào)出資源給該終端部件,如果預(yù)留資源不夠,系統(tǒng)將回收分配出去的部分 預(yù)留資源來(lái)滿足該終端部件的需求;(5) 系統(tǒng)保存有一個(gè)"動(dòng)態(tài)資源調(diào)度表",內(nèi)容包括各終端部件204使用部件資源(本 實(shí)施例中為主機(jī)部件資源和外存部件資源)的比例、調(diào)整資源的情況、剩余預(yù)留資源情況 和預(yù)留資源分配情況等。用戶資源動(dòng)態(tài)調(diào)度流程如圖6所示。 三、臨時(shí)存儲(chǔ)和永久存儲(chǔ)用戶在向系統(tǒng)管理者申請(qǐng)帳號(hào)的同時(shí),需要申請(qǐng)存儲(chǔ)服務(wù)等級(jí),存儲(chǔ)服務(wù)包括分配臨 時(shí)存儲(chǔ)空間和永久存儲(chǔ)空間,所以用戶在申請(qǐng)需要指明是否需要永久存儲(chǔ)空間。臨時(shí)存儲(chǔ) 空間將根據(jù)用戶的等級(jí)分配,如等級(jí)0為100M、等級(jí)1為200M、等級(jí)2為400M等等, 為用戶在使用系統(tǒng)的過(guò)程存儲(chǔ)數(shù)據(jù),如仿真過(guò)程中產(chǎn)生的數(shù)據(jù),但用戶退出系統(tǒng)后,臨時(shí) 存儲(chǔ)空間將被釋放,存儲(chǔ)的數(shù)據(jù)將被刪除,如果用戶需要長(zhǎng)期保存數(shù)據(jù)則自己通過(guò)U盤保 存。如果用戶需要在系統(tǒng)中保存數(shù)據(jù),則需要申請(qǐng)永久存儲(chǔ)空間,存儲(chǔ)空間的大小由用戶 根據(jù)需求指定。顯然,臨時(shí)存儲(chǔ)空間的分配容易實(shí)現(xiàn),在用戶從終端部件群201登錄后,由主機(jī)部件 群202根據(jù)用戶的存儲(chǔ)服務(wù)等級(jí)隨機(jī)從外存部件群203中分配即可。但永久存儲(chǔ)空間不能 隨機(jī)分配,需要為用戶分配固定的存儲(chǔ)空間,以便用戶登錄后即可訪問(wèn)到所保存的數(shù)據(jù)。臨時(shí)存儲(chǔ)和永久存儲(chǔ)實(shí)現(xiàn)的具體步驟包括(1) 從外存部件群203中劃分一個(gè)區(qū)域作為用戶數(shù)據(jù)的永久存儲(chǔ)區(qū),本實(shí)施例指定外 存儲(chǔ)器1為永久存儲(chǔ)區(qū),外存儲(chǔ)器1不能再作為臨時(shí)存儲(chǔ)空間;(2) 用戶從終端部件群201登錄進(jìn)入系統(tǒng);(3) 系統(tǒng)根據(jù)用戶等級(jí)在外存部件群203中為用戶分配臨時(shí)存儲(chǔ)空間,并提示臨時(shí)存 儲(chǔ)空間的訪問(wèn)位置;(4) 系統(tǒng)判斷用戶是否申請(qǐng)了永久存儲(chǔ)空間,如果用戶申請(qǐng)了永久存儲(chǔ)空間,則判斷 用戶是否是第一次登錄進(jìn)入系統(tǒng),如果是第一次,則系統(tǒng)在永久存儲(chǔ)區(qū)為用戶分配用戶所申請(qǐng)大小的永久存儲(chǔ)空間,并提示永久存儲(chǔ)空間的訪問(wèn)位置。同時(shí),系統(tǒng)保存有"永久存 儲(chǔ)空間分配表"記錄永久存儲(chǔ)空間與用戶的映射關(guān)系;(5) 如果用戶曾經(jīng)成功登錄過(guò)系統(tǒng),則系統(tǒng)根據(jù)"永久存儲(chǔ)空間分配表"建立用戶與 其永久存儲(chǔ)空間的映射關(guān)系,并提示永久存儲(chǔ)空間的訪問(wèn)位置;(6) 當(dāng)用戶準(zhǔn)備退出系統(tǒng)時(shí),系統(tǒng)提示用戶把需要長(zhǎng)期保存的數(shù)據(jù)存儲(chǔ)到永久存儲(chǔ)空 間中,臨時(shí)存儲(chǔ)空間將被釋放。臨時(shí)存儲(chǔ)和永久存儲(chǔ)實(shí)現(xiàn)的流程如圖7所示。四、部件的故障管理和安全管理(實(shí)現(xiàn)的流程如圖8所示)本實(shí)施例中,對(duì)主機(jī)部件群202中的主機(jī)部件207實(shí)施故障管理和安全管理,具體步 驟包括(1) 設(shè)置主機(jī)部件207的故障管理參數(shù)表和安全管理參數(shù)表,其中故障管理參數(shù)表包 括CPU利用率、內(nèi)存利用率等參數(shù),安全管理參數(shù)表包括系統(tǒng)文件、注冊(cè)表等參數(shù)。(2) 對(duì)每個(gè)參數(shù)設(shè)置多個(gè)級(jí)別的閥值,對(duì)故障管理參數(shù)CPU利用率設(shè)置的閥值為 Ll=50%, L2=70%, L3=90%;內(nèi)存利用率設(shè)置的閥值為L(zhǎng)l=60%, L2=80%, L3=95%。對(duì) 安全管理參數(shù)系統(tǒng)文件和注冊(cè)表設(shè)置的閥值均為L(zhǎng)l-O (將被修改),L2=l (已被修改)。(3) 當(dāng)系統(tǒng)監(jiān)測(cè)到故障管理參數(shù)CPU利用率和內(nèi)存利用率的閥值等于或高于U時(shí)產(chǎn) 生初級(jí)告警;當(dāng)閥值等于或高于L2時(shí)產(chǎn)生中級(jí)告警;當(dāng)閥值等于或高于L3時(shí)產(chǎn)生高級(jí) 告警,總共三級(jí)告警。當(dāng)系統(tǒng)監(jiān)測(cè)到安全管理參數(shù)系統(tǒng)文件和注冊(cè)表的閥值-Ll時(shí),將發(fā) 出安全參數(shù)將被修改的告警信息;當(dāng)閥值二L2時(shí),將發(fā)出安全參數(shù)已被修改的告警信息。(4) 告警信息通過(guò)顯示到系統(tǒng)管理者電腦屏幕上,或發(fā)送E-mail,或發(fā)送短消息到管 理者手機(jī)上等方式通知系統(tǒng)管理者;(5) 系統(tǒng)管理者根據(jù)告警級(jí)別采取相應(yīng)的措施解決部件故障和安全問(wèn)題,以確保系統(tǒng) 的正??煽窟\(yùn)行。(6) 當(dāng)某一個(gè)主機(jī)部件207無(wú)法開啟時(shí),將以最高級(jí)別的故障告警信息通知系統(tǒng)管理 者。主機(jī)部件無(wú)法開啟的信息由主機(jī)部件群的"監(jiān)控器"發(fā)送給第一臺(tái)成功開啟的主機(jī)部 件。(7) 將所有故障告警和安全告警分別記錄到主機(jī)部件群202的故障日志文件和安全曰 志文件中,以備査詢。
權(quán)利要求
1、多部件自組織軟連接集群計(jì)算機(jī)智能資源管理方法,其特征在于所述集群計(jì)算機(jī)的每個(gè)部件群設(shè)有一個(gè)“監(jiān)控器”,“監(jiān)控器”實(shí)現(xiàn)在接收到“組合”命令后觸發(fā)一個(gè)部件開啟,部件的自動(dòng)開啟通過(guò)如下步驟實(shí)現(xiàn)(1)“監(jiān)控器”處于激活狀態(tài);(2)“監(jiān)控器”監(jiān)測(cè)到“組合”命令中對(duì)本部件群有資源需求;(3)“監(jiān)控器”觸發(fā)一個(gè)部件開啟;(4)如果被選擇的部件在時(shí)間T內(nèi)無(wú)法開啟,則重復(fù)步驟(3),選擇觸發(fā)另一個(gè)部件開啟,所述T>0;(5)開啟的部件為集群計(jì)算機(jī)系統(tǒng)提供服務(wù);(6)有部件成功開啟后,“監(jiān)控器”進(jìn)入非激活狀態(tài);(7)集群計(jì)算機(jī)監(jiān)控部件資源使用情況;(8)如果部件群提供的資源已不能滿足集群計(jì)算機(jī)系統(tǒng)的需求時(shí),將增加一個(gè)部件開啟,直到部件群的資源滿足集群計(jì)算機(jī)系統(tǒng)的需求。
2、 根據(jù)權(quán)利要求l所述的多部件自組織軟連接集群計(jì)算機(jī)智能資源管理方法,其特征 在于還通過(guò)如下步驟實(shí)現(xiàn)部件的自動(dòng)關(guān)閉(2.1) 集群計(jì)算機(jī)監(jiān)控部件資源的使用情況;(2.2) 當(dāng)集群計(jì)算機(jī)檢測(cè)到由m個(gè)部件所提供給系統(tǒng)的資源可由m-l個(gè)部件來(lái)提供時(shí), 轉(zhuǎn)入步驟(2.3),所述Km《M, M為部件的總個(gè)數(shù);(2.3) 集群計(jì)算機(jī)從所述m個(gè)部件中選擇一個(gè);將由該個(gè)部件提供的服務(wù)切換到由其 余m-l個(gè)部件提供;(2.4) 步驟(2.3)所選擇的部件空閑后自動(dòng)關(guān)閉;(2.5) 重復(fù)步驟(2.1) - (2.4);(2.6) 直至最后一個(gè)部件關(guān)閉;(2.7) 將"監(jiān)控器"置為激活狀態(tài)。
3、 根據(jù)權(quán)利要求2所述的多部件自組織軟連接集群計(jì)算機(jī)智能資源管理方法,其特征 在于還包括對(duì)用戶進(jìn)行分級(jí),為用戶分配登錄帳號(hào)、運(yùn)算服務(wù)等級(jí)和存儲(chǔ)服務(wù)等級(jí),并通 過(guò)所述步驟(2.1)監(jiān)控部件資源的使用情況,同時(shí)對(duì)分配給用戶的資源進(jìn)行動(dòng)態(tài)調(diào)度,監(jiān) 控和調(diào)度過(guò)程如下(3.1)如果在時(shí)間T內(nèi)某個(gè)用戶使用部件資源的比例低于某個(gè)閥值L1,集群計(jì)算機(jī)系統(tǒng)將分配給該用戶的資源調(diào)整出一部分作為預(yù)留資源,所述TX), L1>0;(3.2) 如果在時(shí)間T內(nèi)某個(gè)用戶使用部件資源的比例高于某個(gè)闊值L2,這時(shí)若有預(yù)留 資源,則系統(tǒng)將部分預(yù)留資源分配給該用戶,以滿足該用戶對(duì)資源需求,所述1>0, L2>0;(3.3) 如果被調(diào)整出資源的用戶資源需求增加,且增加后該用戶使用的總資源不超出 其被允許使用的最大資源的范圍,則集群計(jì)算機(jī)系統(tǒng)首先從預(yù)留資源中調(diào)配資源給該用戶, 如果預(yù)留資源不夠,集群計(jì)算機(jī)系統(tǒng)將回收分配出去的部分預(yù)留資源以滿足該用戶的需求;(3.4) 集群計(jì)算機(jī)系統(tǒng)保存著一個(gè)"動(dòng)態(tài)資源調(diào)度列表",內(nèi)容包括各用戶使用部件資 源的比例、調(diào)整資源的情況、剩余預(yù)留資源情況和預(yù)留資源分配情況等。
4、 根據(jù)權(quán)利要求3所述的多部件自組織軟連接集群計(jì)算機(jī)智能資源管理方法,其特征 在于還包括對(duì)存儲(chǔ)資源的管理,系統(tǒng)從存儲(chǔ)類部件群中分出一部分存儲(chǔ)資源作為永久存儲(chǔ) 區(qū),另一部分作為臨時(shí)存儲(chǔ)區(qū),所述對(duì)存儲(chǔ)資源的管理包括如下步驟-(4.1) 用戶登錄到系統(tǒng)后,系統(tǒng)根據(jù)用戶的存儲(chǔ)服務(wù)等級(jí)在存儲(chǔ)類部件群中為用戶分 配臨時(shí)存儲(chǔ)空間,并提示臨時(shí)存儲(chǔ)空間的訪問(wèn)位置;(4.2) 系統(tǒng)判斷用戶是否申請(qǐng)了永久存儲(chǔ)空間,如果用戶申請(qǐng)了永久存儲(chǔ)空間,則判 斷用戶是否是第一次登錄進(jìn)入系統(tǒng),如果是第一次,則系統(tǒng)在永久存儲(chǔ)區(qū)為用戶分配用戶 所申請(qǐng)大小的永久存儲(chǔ)空間,并提示永久存儲(chǔ)空間的訪問(wèn)位置;(4.3) 系統(tǒng)保存用于記錄永久存儲(chǔ)空間與用戶的映射關(guān)系的"永久存儲(chǔ)空間分配表";(4.4) 如果用戶曾經(jīng)成功登錄過(guò)系統(tǒng),則系統(tǒng)根據(jù)"永久存儲(chǔ)空間分配表"建立用戶 與其永久存儲(chǔ)空間的映射關(guān)系,并提示永久存儲(chǔ)空間的訪問(wèn)位置;(4.5) 當(dāng)用戶準(zhǔn)備退出系統(tǒng)時(shí),系統(tǒng)將提示用戶把需要長(zhǎng)期保存的數(shù)據(jù)存儲(chǔ)到永久存 儲(chǔ)空間中,臨時(shí)存儲(chǔ)空間將被釋放。
5、 根據(jù)權(quán)利要求4所述的多部件自組織軟連接集群計(jì)算機(jī)智能資源管理方法,其特征 在于還包括對(duì)系統(tǒng)中部件群中部件的故障管理和安全管理-首先針對(duì)故障管理和安全管理分別設(shè)置一個(gè)關(guān)鍵參數(shù)表,參數(shù)表中的參數(shù)反映部件的 運(yùn)行狀態(tài)和安全狀態(tài),每個(gè)參數(shù)都有對(duì)應(yīng)的多個(gè)閾值,每個(gè)閾值對(duì)應(yīng)不同的安全級(jí)別;系統(tǒng)監(jiān)測(cè)某個(gè)部件當(dāng)前的參數(shù),判斷該參數(shù)所處的閾值范圍,產(chǎn)生對(duì)應(yīng)級(jí)別的告警信 息,并將告警信息通知系統(tǒng)管理者,由系統(tǒng)管理者根據(jù)告警級(jí)別采取相應(yīng)的措施以確保部 件的正常運(yùn)行和安全;當(dāng)系統(tǒng)監(jiān)測(cè)到某一個(gè)部件無(wú)法開啟時(shí),將以最高級(jí)別的故障告警信息通知系統(tǒng)管理者;將所有故障告警和安全告警分別記錄到故障日志文件和安全日志文件中,以備查詢。 6、根據(jù)權(quán)利要求5所述的多部件自組織軟連接集群計(jì)算機(jī)智能資源管理方法,其特征 在于集群計(jì)算機(jī)系統(tǒng)將告警信息顯示到系統(tǒng)管理者的電腦屏幕上或通過(guò)Internet發(fā)送E-mail給系統(tǒng)管理者或通過(guò)短消息的方式將告警信息發(fā)送到管理者的手機(jī)上。
全文摘要
本發(fā)明公開了一種多部件自組織軟連接集群計(jì)算機(jī)智能資源管理方法,該方法根據(jù)用戶對(duì)資源的需求動(dòng)態(tài)提供部件資源,即隨著用戶數(shù)量的增加逐步增加部件資源,而隨著用戶數(shù)量的減少逐步減少部件資源,實(shí)現(xiàn)部件的自動(dòng)開啟和自動(dòng)關(guān)閉;通過(guò)監(jiān)控部件資源的使用情況,實(shí)現(xiàn)部件群中部件資源的動(dòng)態(tài)調(diào)度,同時(shí)實(shí)施部件的故障管理和安全管理,監(jiān)測(cè)和維護(hù)部件資源的可靠運(yùn)行。本發(fā)明還對(duì)系統(tǒng)存儲(chǔ)資源進(jìn)行劃分處理,滿足不同用戶數(shù)據(jù)的臨時(shí)與永久存儲(chǔ)要求。本發(fā)明能提高集群計(jì)算機(jī)的部件資源利用率、優(yōu)化資源配置,從而進(jìn)一步降低投資成本和運(yùn)行維護(hù)管理成本,并提高系統(tǒng)的可靠性。
文檔編號(hào)G06F15/16GK101271444SQ200810027758
公開日2008年9月24日 申請(qǐng)日期2008年4月29日 優(yōu)先權(quán)日2008年4月29日
發(fā)明者劉桂開, 軍 張, 崗 韋 申請(qǐng)人:華南理工大學(xué)