本發(fā)明涉及云計算技術(shù)領(lǐng)域,尤其涉及一種端云協(xié)同計算系統(tǒng)及其容錯方法。
背景技術(shù):
云計算是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡(luò)、互聯(lián)網(wǎng)的一種比喻說法。過去在圖中往往用云來表示電信網(wǎng),后來也用來表示互聯(lián)網(wǎng)和底層基礎(chǔ)設(shè)施的抽象。云計算甚至可以讓你體驗每秒10萬億次的運算能力,擁有這么強大的計算能力可以模擬核爆炸、預(yù)測氣候變化和市場發(fā)展趨勢。用戶可以通過電腦、筆記本、手機等方式接入數(shù)據(jù)中心,按自己的需求進行運算。
云計算是分布式計算、并行計算、效用計算、網(wǎng)絡(luò)存儲、虛擬化、負載均衡、熱備份冗余等傳統(tǒng)計算機和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物。對云計算的定義有多種說法,現(xiàn)階段廣為接受的是美國國家標準與技術(shù)研究院的定義:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進入可配置的計算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲,應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,而只需投入很少的管理工作,或與服務(wù)供應(yīng)商進行很少的交互。
云計算平臺也稱為云平臺。云平臺可以劃分為3類:以數(shù)據(jù)存儲為主的存儲型云平臺,以數(shù)據(jù)處理為主的計算型云平臺以及計算和數(shù)據(jù)處理兼顧的綜合型云計算平臺。
端云協(xié)同平臺區(qū)別于傳統(tǒng)的云平臺,將提供一定計算能力的移動終端也加入資源池中,共同完成計算任務(wù)。達到了對空閑資源的有效利用,響應(yīng)了現(xiàn)在低碳科技,綠色科技的號召。
由于終端移動設(shè)備多數(shù)為可移動設(shè)備,接入端云協(xié)同架構(gòu)中大多數(shù)為無線網(wǎng)絡(luò)的方式的接入,其和云平臺之上的計算節(jié)點在網(wǎng)絡(luò)穩(wěn)定性和質(zhì)量上都存在一定的差距。同時終端的持久性相對較弱,并且易受到受諸多外界環(huán)境因素影響,其發(fā)生異常或出現(xiàn)故障的可能性也大大增加。
技術(shù)實現(xiàn)要素:
有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題是提供一種端云協(xié)同計算系統(tǒng)及其容錯方法,采用云備份和云恢復(fù)兩種策略結(jié)合的方式來實現(xiàn)安全的端云協(xié)同容錯方法,保證架構(gòu)的高可靠性。
為實現(xiàn)上述目的,本發(fā)明提供了一種端云協(xié)同計算系統(tǒng),其特征在于:該系統(tǒng)由任務(wù)管理服務(wù)器模塊、端云協(xié)同服務(wù)器模塊、靜態(tài)云服務(wù)節(jié)點模塊、移動終端計算服務(wù)節(jié)點模塊共四個模塊組成,其中:
任務(wù)管理服務(wù)器模塊:該模塊負責(zé)獲取由用戶提交的任務(wù),并將任務(wù)打包處理并發(fā)送至所訴的端云協(xié)同服務(wù)器模塊;
端云協(xié)同服務(wù)器模塊:該模塊負責(zé)接收管理服務(wù)器發(fā)送的任務(wù)、制定任務(wù)調(diào)度策略,對靜態(tài)云和移動終端資源協(xié)同管理;
靜態(tài)云服務(wù)節(jié)點模塊:該模塊由靜態(tài)云服務(wù)器組成,負責(zé)計算由端云協(xié)同服務(wù)器發(fā)送來的各種計算任務(wù),以及給移動終端任務(wù)設(shè)置檢查點并對該任務(wù)進行云備份以防止任務(wù)在移動終端資源上計算失敗而丟失;
移動終端計算服務(wù)節(jié)點模塊:該模塊由多種硬件終端組成,負責(zé)計算由端云協(xié)同服務(wù)器發(fā)送來的任務(wù)。
進一步地,所述端云協(xié)同服務(wù)器模塊還配備有自動發(fā)現(xiàn)模塊,端云協(xié)同服務(wù)器使用主動探測的方法,用于及時發(fā)現(xiàn)可用資源,可以動態(tài)為云平臺擴展移動終端資源,為靜態(tài)云和移動終端資源分配適合其運算的任務(wù),以及與靜態(tài)云和移動終端資源進行實時通信以保證容錯系統(tǒng)的正常執(zhí)行。
進一步地,所述靜態(tài)云服務(wù)節(jié)點模塊還配備有動態(tài)監(jiān)聽模塊,可以配合端云協(xié)同服務(wù)器實時監(jiān)聽終端資源檢查點計算結(jié)果的上傳情況,以保證容錯系統(tǒng)的運行。
進一步地,所述移動終端計算服務(wù)節(jié)點模塊還配備有日志存儲和上傳模塊,可以存儲檢查點計算結(jié)果并向端云協(xié)同服務(wù)器按時上傳各檢查點計算結(jié)果。
進一步地,所述各類移動終端為基于安卓系統(tǒng)的各品牌pad、手機。
一種端云協(xié)同計算系統(tǒng)的容錯方法,其特征在于,具體步驟為:
步驟一:在用戶發(fā)布任務(wù)后,任務(wù)管理服務(wù)器接收到任務(wù),將所有任務(wù)整理并發(fā)送給端云協(xié)同服務(wù)器;
步驟二:端云協(xié)同服務(wù)器接收到任務(wù)后,進行任務(wù)調(diào)度及傳輸;
步驟三:靜態(tài)云端收到任務(wù)后,對任務(wù)進行檢查點設(shè)置,并對設(shè)置檢查點后的任務(wù)進行靜態(tài)云備份操作,執(zhí)行完成后將該任務(wù)發(fā)送給端云協(xié)同服務(wù)器;
步驟四:端云協(xié)同服務(wù)器將靜態(tài)云端處理過的任務(wù)發(fā)送至移動端設(shè)備;
步驟五:移動端接收到任務(wù)后,即對任務(wù)進行運算處理。
進一步地,所述步驟二具體為:對任務(wù)進行分類處理,并根據(jù)端云分發(fā)模塊將任務(wù)劃分優(yōu)先級,結(jié)合先來先服務(wù)和優(yōu)先級大小對任務(wù)隊列進行排序,制定任務(wù)分配策略,將適合在前端設(shè)備進行計算的任務(wù)先發(fā)送至云端。
進一步地,所述步驟五具體為:在處理過程中,若運算成功,則將結(jié)果上傳至協(xié)同服務(wù)器,同時協(xié)同服務(wù)器將結(jié)果上傳給云端,然后由云端刪除該任務(wù)的備份部分;若運算失敗,則由協(xié)同服務(wù)器執(zhí)行容錯方法,將任務(wù)返回云端進行執(zhí)行。
本發(fā)明的有益效果是:
本發(fā)明利用云端能力強于終端的特點,在云端實現(xiàn)云備份與云恢復(fù)兩種安全容錯的策略,保證了任務(wù)的安全性和端云協(xié)同計算的正確性。并提供異常終端節(jié)點檢測功能,使云節(jié)點能夠?qū)崟r替換掉不符合系統(tǒng)計算標準的終端節(jié)點,保證整個業(yè)務(wù)系統(tǒng)的穩(wěn)定運行。本發(fā)明將已安全認證接入系統(tǒng)中具有一定計算能力的終端也加入計算資源池中,組成終端集群,終端集群具有較強的擴展性,增加了云的擴展性,終端集群與靜態(tài)云中的服務(wù)節(jié)點共同完成之前的單一云平臺所要計算的任務(wù),優(yōu)化了傳統(tǒng)的云平臺,有效的減少了云端的負載,達到負載均衡。
以下將結(jié)合附圖對本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進一步說明,以充分地了解本發(fā)明的目的、特征和效果。
附圖說明
圖1是本發(fā)明的一種端云協(xié)同計算系統(tǒng)結(jié)構(gòu)框圖。
圖2是本發(fā)明的具備容錯系統(tǒng)的一種基于端云協(xié)同系統(tǒng)的任務(wù)計算流程圖。
圖3是本發(fā)明的一種端云協(xié)同計算架構(gòu)的容錯方法流程圖。
具體實施方式
如圖1所示,一種端云協(xié)同計算系統(tǒng),其特征在于:該系統(tǒng)由任務(wù)管理服務(wù)器模塊、端云協(xié)同服務(wù)器模塊、靜態(tài)云服務(wù)節(jié)點模塊、移動終端計算服務(wù)節(jié)點模塊共四個模塊組成,其中:
任務(wù)管理服務(wù)器模塊:該模塊負責(zé)獲取由用戶提交的任務(wù),并將任務(wù)打包處理并發(fā)送至所訴的端云協(xié)同服務(wù)器模塊;
端云協(xié)同服務(wù)器模塊:該模塊負責(zé)接收管理服務(wù)器發(fā)送的任務(wù)、制定任務(wù)調(diào)度策略,對靜態(tài)云和移動終端資源協(xié)同管理;
靜態(tài)云服務(wù)節(jié)點模塊:該模塊由靜態(tài)云服務(wù)器組成,負責(zé)計算由端云協(xié)同服務(wù)器發(fā)送來的各種計算任務(wù),以及給移動終端任務(wù)設(shè)置檢查點并對該任務(wù)進行云備份以防止任務(wù)在移動終端資源上計算失敗而丟失;
移動終端計算服務(wù)節(jié)點模塊:該模塊由多種硬件終端組成,負責(zé)計算由端云協(xié)同服務(wù)器發(fā)送來的任務(wù)。
本實施例中,所述端云協(xié)同服務(wù)器模塊還配備有自動發(fā)現(xiàn)模塊,端云協(xié)同服務(wù)器使用主動探測的方法,用于及時發(fā)現(xiàn)可用資源,可以動態(tài)為云平臺擴展移動終端資源,為靜態(tài)云和移動終端資源分配適合其運算的任務(wù),以及與靜態(tài)云和移動終端資源進行實時通信以保證容錯系統(tǒng)的正常執(zhí)行。
本實施例中,所述靜態(tài)云服務(wù)節(jié)點模塊還配備有動態(tài)監(jiān)聽模塊,可以配合端云協(xié)同服務(wù)器實時監(jiān)聽終端資源檢查點計算結(jié)果的上傳情況,以保證容錯系統(tǒng)的運行。
本實施例中,所述移動終端計算服務(wù)節(jié)點模塊還配備有日志存儲和上傳模塊,可向端云協(xié)同服務(wù)器按時上傳各檢查點計算結(jié)果。
本實施例中,所述各類移動終端為基于安卓系統(tǒng)的各品牌pad、手機。
如圖2所示,一種端云協(xié)同計算系統(tǒng)的容錯方法,其特征在于,具體步驟為:
步驟一:在用戶發(fā)布任務(wù)后,任務(wù)管理服務(wù)器接收到任務(wù),將所有任務(wù)整理并發(fā)送給端云協(xié)同服務(wù)器;
步驟二:端云協(xié)同服務(wù)器接收到任務(wù)后,進行任務(wù)調(diào)度及傳輸;
步驟三:云端收到任務(wù)后,對任務(wù)進行檢查點設(shè)置,并對設(shè)置檢查點后的任務(wù)進行靜態(tài)云備份操作,執(zhí)行完成后將該任務(wù)發(fā)送給端云協(xié)同服務(wù)器;
步驟四:端云協(xié)同服務(wù)器將云端處理過的任務(wù)發(fā)送至移動端設(shè)備;
步驟五:移動端接收到任務(wù)后,即對任務(wù)進行運算處理。
本實施例中,所述步驟二具體為:對任務(wù)進行分類處理,并根據(jù)端云分發(fā)模塊將任務(wù)劃分優(yōu)先級,結(jié)合先來先服務(wù)和優(yōu)先級大小對任務(wù)隊列進行排序,制定任務(wù)分配策略,將適合在前端設(shè)備進行計算的任務(wù)先發(fā)送至云端。
本實施例中,所述步驟五具體為:在處理過程中,若運算成功,則將結(jié)果上傳至協(xié)同服務(wù)器,同時協(xié)同服務(wù)器將結(jié)果上傳給云端,然后由云端刪除該任務(wù)的備份部分;若運算失敗,則由協(xié)同服務(wù)器執(zhí)行容錯方法,將任務(wù)返回云端進行執(zhí)行。
實例一
結(jié)合圖1和圖2,本實例詳述本發(fā)明具備容錯方法的一種基于端云協(xié)同計算架構(gòu)的具體執(zhí)行流程,步驟如下:
步驟1,所訴的端云協(xié)同系統(tǒng)的任務(wù)管理服務(wù)器將接收到的來自用戶的任務(wù)發(fā)送至端云協(xié)同服務(wù)器;
步驟2,端云協(xié)同服務(wù)器接收到任務(wù)管理服務(wù)器的任務(wù),然后對其進行任務(wù)分配操作,主要依據(jù)的是對任務(wù)設(shè)置優(yōu)先級和先進先出原理,并根據(jù)任務(wù)的類別將任務(wù)分別發(fā)送至云端和移動端進行計算;
步驟3,對于步驟2中適合移動端進行計算的任務(wù),先發(fā)送至靜態(tài)云端,靜態(tài)云端對該任務(wù)得出一個預(yù)估的截止時間t,然后給該任務(wù)設(shè)置檢查點,設(shè)置完成后,將任務(wù)進行靜態(tài)云備份并發(fā)送給協(xié)同服務(wù)器;
步驟4,協(xié)同服務(wù)器將設(shè)置過檢查點的任務(wù)發(fā)送到移動端;
步驟5,移動端執(zhí)行該任務(wù),在計算過程中根據(jù)容錯機制對任務(wù)進行判斷,若在執(zhí)行過程中,靜態(tài)云端一直收到來自協(xié)同服務(wù)器獲取的移動端每個檢查點的計算結(jié)果,則任務(wù)由移動端繼續(xù)執(zhí)行至完成;
步驟6,若在移動端執(zhí)行過程中,靜態(tài)云端未收到來自協(xié)同服務(wù)器獲取的移動端的檢查點計算結(jié)果,則通過端云服務(wù)器要求移動端的計算回到其上一個可用的檢查點,進行重新計算,若重試次數(shù)超過3次而靜態(tài)云端仍未收到,則執(zhí)行云恢復(fù)操作,卸載在移動端上計算的該任務(wù),并將該任務(wù)恢復(fù)至靜態(tài)云端,由靜態(tài)云端接著上一個可用的檢查點計算結(jié)果進行計算;
步驟7,結(jié)束。
實例二
結(jié)合圖3,此實例詳細描述本發(fā)明提供的一種基于端云協(xié)同計算架構(gòu)的容錯方法,此方法描述如下:
將一個任務(wù)的總量設(shè)置為m,a表示等距離插入可容忍e個錯誤任務(wù)的檢查點個數(shù),其間隔為n,則n=m/(a+1);其中,e1表示在檢查點保存期間發(fā)生錯誤,e2表示在檢查點恢復(fù)時發(fā)生的錯誤,e3表示在有效計算過程中發(fā)生的錯誤;則當產(chǎn)生e1錯誤時,恢復(fù)至正常運算所需的最大時間為“檢查點間隔時間n+恢復(fù)一個檢查點所用時間rc+保存一個檢查點所用的時間sc”,當產(chǎn)生e2錯誤時,恢復(fù)至正常運算所需的最大時間為“恢復(fù)一個檢查點所用的時間rc”,當產(chǎn)生b3錯誤時,恢復(fù)至正常運算所需的最大時間為“檢查點間隔時間n+恢復(fù)一個檢查點所用時間rc”。當執(zhí)行一個任務(wù)時,它總的響應(yīng)時間就是由“沒有發(fā)生錯誤時預(yù)估的任務(wù)執(zhí)行時間+保存a個檢查點所需時間+e1個故障出現(xiàn)在保存期間內(nèi)的時間+e2個故障出現(xiàn)在狀態(tài)恢復(fù)期間+e3個故障出現(xiàn)在有效執(zhí)行期間”組成??芍霈F(xiàn)最壞的情況是只發(fā)生e1類型的錯誤(當發(fā)生該錯誤時,從故障恢復(fù)至任務(wù)正常運行所需的最大時間最長),并且,總響應(yīng)時間應(yīng)小于系統(tǒng)預(yù)先計算的一個截止時間t,通過此可以最終計算出檢查點a的數(shù)量。
在設(shè)置完檢查點后,在靜態(tài)云端進行云備份保存,并將設(shè)置檢查點后的任務(wù)發(fā)送至端云協(xié)同服務(wù)器,由端云協(xié)同服務(wù)器發(fā)送給移動端進行計算。在移動端計算過程中,每到一個檢查點時,任務(wù)就會進行一次計算結(jié)果備份操作,將該結(jié)果保存在本地日志文件中,并上傳至協(xié)同服務(wù)器,由協(xié)同服務(wù)器上傳給靜態(tài)云端。而靜態(tài)云端在每個檢查點會進行等待,等待時間最長不超過“檢查點間隔時間+任務(wù)傳輸時間”,若超時未得到相應(yīng),則由靜態(tài)云端發(fā)送指令給協(xié)同服務(wù)器,要求移動端進行重試:計算返回到移動端上一個可用的檢查點進行重新計算,并且最大重試次數(shù)為3次。若超過3次端云協(xié)同服務(wù)器仍未得到移動端的任何響應(yīng)或者當移動端發(fā)生錯誤的總次數(shù)超過檢查點個數(shù)的一半以上,則執(zhí)行云恢復(fù)操作,將移動端的任務(wù)卸載,由靜態(tài)云端接著該任務(wù)上一個可用的檢查點數(shù)據(jù)進行計算。若重試得到響應(yīng),則繼續(xù)由移動端執(zhí)行任務(wù),任務(wù)完成后,靜態(tài)云端卸載之前保存的該任務(wù)的備份信息。
以上詳細描述了本發(fā)明的較佳具體實施例。應(yīng)當理解,本領(lǐng)域的普通技術(shù)人員無需創(chuàng)造性勞動就可以根據(jù)本發(fā)明的構(gòu)思做出諸多修改和變化。因此,凡本技術(shù)領(lǐng)域中技術(shù)人員依本發(fā)明的構(gòu)思在現(xiàn)有技術(shù)的基礎(chǔ)上通過邏輯分析、推理或者有限的實驗可以得到的技術(shù)方案,皆應(yīng)在由權(quán)利要求書所確定的保護范圍內(nèi)。