亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種云存儲系統(tǒng)中節(jié)約型重復(fù)數(shù)據(jù)刪除方法

文檔序號:9216984閱讀:514來源:國知局
一種云存儲系統(tǒng)中節(jié)約型重復(fù)數(shù)據(jù)刪除方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)存儲領(lǐng)域,尤其涉及一種云存儲系統(tǒng)中節(jié)約型重復(fù)數(shù)據(jù)刪 除方法。
【背景技術(shù)】
[0002] 近年來,云計(jì)算、移動(dòng)計(jì)算、物聯(lián)網(wǎng)等技術(shù)的日益普及使得目前數(shù)據(jù)呈爆炸式 增長,云存儲技術(shù)應(yīng)運(yùn)而生。據(jù)國際數(shù)據(jù)公司IDC統(tǒng)計(jì),2011年全球數(shù)據(jù)總量已達(dá)到 1. 8ZB(1ZB= 109TB),預(yù)計(jì)到2020年全球產(chǎn)生的信息總量將達(dá)到35ZB。系統(tǒng)的存儲壓力也 與日俱增。IDC調(diào)查還發(fā)現(xiàn)信息系統(tǒng)中有近75%的重復(fù)冗余數(shù)據(jù),大量的重復(fù)性冗余數(shù)據(jù) 浪費(fèi)了大量的存儲資源,而重復(fù)數(shù)據(jù)刪除技術(shù)可以有效地縮減數(shù)據(jù)。
[0003] 重復(fù)數(shù)據(jù)刪除技術(shù)通過比對指紋值,保留唯一的數(shù)據(jù),并用指向唯一數(shù)據(jù) 的指針代替其它重復(fù)的數(shù)據(jù)。重復(fù)數(shù)據(jù)刪除技術(shù)現(xiàn)已廣泛應(yīng)用于備份和歸檔系統(tǒng), 其中較為成熟的重復(fù)數(shù)據(jù)刪除策略有基于文件語義感知的多層源端重復(fù)數(shù)據(jù)方法 (Semantic-awareMultieredDeduplication,SAM-Dedupe)、基于因果關(guān)系的重復(fù)數(shù)據(jù)刪 除方法(Causality-BasedDeduplication,CABdedupe)、基于應(yīng)用感知的重復(fù)數(shù)據(jù)刪除方 法(Application-awareDeduplication,AA_Dedupe)等。它們各有優(yōu)缺點(diǎn),SAM-Dedupe通 過對文件大小,文件位置,文件類型,文件時(shí)間戳的認(rèn)知不斷縮小指紋比對范圍;CABdedupe 通過捕獲與記錄備份數(shù)據(jù)集在多個(gè)時(shí)間點(diǎn)之間的因果關(guān)系,挖掘未修改的數(shù)據(jù)實(shí)施重刪; AA-Dedupe通過對不同類型文件應(yīng)用采用不同分塊算法和指紋提取技術(shù)以獲得最佳的重刪 效果,如靜態(tài)應(yīng)用數(shù)據(jù)或虛擬機(jī)鏡像采用FSC(Fixed-SizedChunking)算法分塊和MD5算 法提取指紋。這些策略以備份系統(tǒng)為環(huán)境,致使處理的數(shù)據(jù)相對比較靜態(tài),即上傳到存儲端 后,用戶不會(huì)對存儲端中的數(shù)據(jù)直接進(jìn)行修改,因此簡單移植這些方法并不適用于云存儲 系統(tǒng)。目前,云存儲系統(tǒng)中也有一些研宄成果,側(cè)重于系統(tǒng)安全性,或基于代理加密的重復(fù) 數(shù)據(jù)刪除機(jī)制,或基于交互式的P〇W(ProofofOwnership)的重復(fù)數(shù)據(jù)刪除機(jī)制,或基于數(shù) 據(jù)流行度的安全重復(fù)數(shù)據(jù)刪除機(jī)制。重復(fù)數(shù)據(jù)刪除方法致使同一數(shù)據(jù)塊被多個(gè)用戶所共 享,而用戶對數(shù)據(jù)的修改呈多樣性,如何保證數(shù)據(jù)的可用性和安全性是必要的。
[0004] 現(xiàn)有技術(shù)普遍面向數(shù)據(jù)相對比較靜態(tài)的備份和歸檔系統(tǒng),從源端避免重復(fù)數(shù)據(jù)上 傳后并不考慮存儲系統(tǒng)中的數(shù)據(jù)是否會(huì)被修改,而云存儲系統(tǒng)中數(shù)據(jù)被多用戶所共享,多 用戶修改數(shù)據(jù)導(dǎo)致數(shù)據(jù)的動(dòng)態(tài)性增強(qiáng),因此并不適用云存儲系統(tǒng)。

【發(fā)明內(nèi)容】

[0005] 為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案如下:
[0006] -種云存儲系統(tǒng)中節(jié)約型重復(fù)數(shù)據(jù)刪除方法,所述云存儲系統(tǒng)由進(jìn)行文件操作的 客戶端、存放文件系統(tǒng)元數(shù)據(jù)信息的元數(shù)據(jù)服務(wù)器、同步備份元數(shù)據(jù)的鏡像文件和操作日 志的二級元數(shù)據(jù)服務(wù)器、存儲數(shù)據(jù)塊的存儲節(jié)點(diǎn)共同構(gòu)成,該方法包括如下步驟:
[0007] 步驟一:每個(gè)客戶端對本地待上傳文件進(jìn)行預(yù)處理,進(jìn)行文件級和數(shù)據(jù)塊級的局 部重復(fù)數(shù)據(jù)刪除操作以防重復(fù)數(shù)據(jù)的再次上傳,然后將待上傳文件的元數(shù)據(jù)信息上傳到元 數(shù)據(jù)服務(wù)器;
[0008] 步驟二:元數(shù)據(jù)服務(wù)器接收到來自不同客戶端的元數(shù)據(jù)信息,依次讀取文件指紋、 數(shù)據(jù)塊指紋,然后比對內(nèi)存、硬盤和寫緩存區(qū)的指紋索引信息,最后將未上傳過的指紋值信 息返回到各個(gè)客戶端。
[0009] 步驟三:客戶端將未上傳過的新數(shù)據(jù)上傳到存儲端,存儲端對新數(shù)據(jù)進(jìn)行存儲,并 更新存儲端的元數(shù)據(jù)信息表。
[0010] 步驟四:客戶端發(fā)出要修改數(shù)據(jù)的請求,通過元數(shù)據(jù)服務(wù)器獲取待修改數(shù)據(jù)所在 的存儲節(jié)點(diǎn)號,然后連接存儲節(jié)點(diǎn)并直接對存儲端的數(shù)據(jù)進(jìn)行修改操作。
[0011] 步驟五:存儲端對修改后的數(shù)據(jù)塊進(jìn)行檢測,當(dāng)修改后的數(shù)據(jù)塊通過比對指紋值 發(fā)現(xiàn)已經(jīng)在本節(jié)點(diǎn)上,直接對其進(jìn)行重刪;當(dāng)修改后的數(shù)據(jù)塊不在本節(jié)點(diǎn)上,則先保存到本 節(jié)點(diǎn)上,再通過元數(shù)據(jù)服務(wù)器的比對發(fā)現(xiàn)在其他節(jié)點(diǎn)上,對該數(shù)據(jù)塊采用延遲重刪;當(dāng)修改 后的數(shù)據(jù)塊通過比對本節(jié)點(diǎn)和元數(shù)據(jù)服務(wù)器上的指紋索引,發(fā)現(xiàn)既不在本節(jié)點(diǎn)上,又不在 其他節(jié)點(diǎn)上,除了將該數(shù)據(jù)塊保存到本節(jié)點(diǎn)上,元數(shù)據(jù)服務(wù)器還需要為該數(shù)據(jù)塊創(chuàng)建副本。
[0012] 所述的云存儲系統(tǒng)其特征在于:元數(shù)據(jù)服務(wù)器上還含有過濾模塊以及更新模塊, 過濾模塊用于過濾不同客戶端的重復(fù)數(shù)據(jù)信息,更新模塊用于更新存儲端全局?jǐn)?shù)據(jù)元數(shù)據(jù) 信息,即直接更新重復(fù)數(shù)據(jù)塊的元數(shù)據(jù)信息,等接收到存儲節(jié)點(diǎn)反饋的信息后才更新非重 復(fù)數(shù)據(jù)塊的元數(shù)據(jù)信息。
[0013] 所述客戶端有文件預(yù)處理模塊、局部重刪模塊、元數(shù)據(jù)管理模塊和數(shù)據(jù)傳輸模塊, 其中文件預(yù)處理模塊依據(jù)文件的類型進(jìn)行文件分類,然后交給局部重刪模塊進(jìn)行文件級重 刪,經(jīng)過文件級重刪后的非重復(fù)文件再返還給文件預(yù)處理模塊進(jìn)行過濾(過濾掉小于64MB 的非重復(fù)文件),最后再由局部重刪模塊進(jìn)行數(shù)據(jù)塊級重刪。元數(shù)據(jù)管理模塊用于記錄客戶 端已上傳數(shù)據(jù)塊的指紋值信息,以避免本地重復(fù)數(shù)據(jù)的上傳;數(shù)據(jù)傳輸模塊則是客戶端連 接元數(shù)據(jù)服務(wù)器和存儲節(jié)點(diǎn)的接口,即負(fù)責(zé)將待上傳文件的元數(shù)據(jù)信息上傳到元數(shù)據(jù)服務(wù) 器,將非重復(fù)數(shù)據(jù)塊上傳到存儲節(jié)點(diǎn)上。
[0014] 所述存儲節(jié)點(diǎn)包括存儲模塊、元數(shù)據(jù)管理模塊、自檢報(bào)告模塊和延遲重刪模塊,其 中存儲模塊主要負(fù)責(zé)數(shù)據(jù)塊的存儲,分配數(shù)據(jù)塊的物理地址;元數(shù)據(jù)管理模塊記錄本節(jié)點(diǎn) 上的數(shù)據(jù)塊的元數(shù)據(jù)信息;自檢報(bào)告模塊主要是檢測數(shù)據(jù)塊的修改所帶來的重復(fù)數(shù)據(jù),交 給延遲重刪模塊進(jìn)行熱點(diǎn)重復(fù)數(shù)據(jù)塊的判斷與相應(yīng)的處理并將修改的元數(shù)據(jù)信息反饋給 自檢報(bào)告模塊,然后報(bào)告給元數(shù)據(jù)服務(wù)器。
[0015] 所述步驟一中文件級重復(fù)數(shù)據(jù)刪除:利用MD5算法計(jì)算文件指紋值,比對大小和 類型相等的文件指紋值,然后再與本地的元數(shù)據(jù)信息表進(jìn)行比對,確定重復(fù)文件和非重復(fù) 文件;
[0016] 所述步驟一所述的數(shù)據(jù)塊級重復(fù)數(shù)據(jù)刪除如下:對于非重復(fù)文件(已過濾掉小于 64MB的文件),利用定長分塊算法進(jìn)行分塊,塊長設(shè)為64MB,利用MD5算法計(jì)算數(shù)據(jù)塊的指 紋值,比對塊長相等的數(shù)據(jù)塊確定重復(fù)數(shù)據(jù)塊。
[0017] 所述步驟二中比對文件指紋時(shí),若發(fā)現(xiàn)指紋值已存在,則不再比對數(shù)據(jù)塊的指紋, 否則還要比對構(gòu)成文件的數(shù)據(jù)塊指紋。
[0018] 所述步驟三中每個(gè)存儲端都保存著其上的數(shù)據(jù)塊指紋及其存儲地址的映射關(guān)系, 通過數(shù)據(jù)塊指紋,即可確定數(shù)據(jù)塊存放的物理地址。
[0019] 所述步驟四中客戶端多個(gè)用戶對數(shù)據(jù)塊的修改可能會(huì)引入新的重復(fù)數(shù)據(jù)塊,并且 現(xiàn)有存儲系統(tǒng)暫不考慮這些重復(fù)的數(shù)據(jù)塊。備份系統(tǒng)中用戶在本地對數(shù)據(jù)修改后再進(jìn)行備 份,備份的過程中過濾掉未作修改的部分;而云存儲給用戶帶來的云端體驗(yàn)如同在本地,用 戶獲取到想要修改的數(shù)據(jù)的地址,直接對數(shù)據(jù)進(jìn)行修改。這正是云存儲與備份系統(tǒng)的不同。
[0020] 所述步驟五中延遲重刪包含對熱點(diǎn)重復(fù)數(shù)據(jù)塊和非熱點(diǎn)重復(fù)數(shù)據(jù)塊兩方面的操 作,判斷方法采用如下公式:
[0022] 式中,節(jié)點(diǎn)i上某一數(shù)據(jù)塊發(fā)生修改,并確定該數(shù)據(jù)塊在節(jié)點(diǎn)i上不重復(fù),在節(jié)點(diǎn) j上有重復(fù)數(shù)據(jù)塊;表示在tp+1_t#間段內(nèi)某一個(gè)數(shù)據(jù)塊在存儲節(jié)點(diǎn)端(除了節(jié)點(diǎn)i) 的平均訪問次數(shù);a是一個(gè)閾值,表示成為熱點(diǎn)數(shù)據(jù)塊單位時(shí)間內(nèi)最少的訪問次數(shù);A^tp) 和~(tp+1)分別表示%和tp+1時(shí)刻節(jié)點(diǎn)j上某一數(shù)據(jù)塊的訪問次數(shù);Z為數(shù)據(jù)塊B所在節(jié)點(diǎn) 的編號集合。
[0023] 對于熱點(diǎn)重復(fù)數(shù)據(jù)塊則延遲重刪以降低系統(tǒng)的訪問響應(yīng)時(shí)間;對于非熱點(diǎn)重復(fù)數(shù) 據(jù)塊,則選擇非熱點(diǎn)重復(fù)數(shù)據(jù)塊所在存儲節(jié)點(diǎn)剩余容量相對較少的節(jié)點(diǎn)上的刪除以實(shí)現(xiàn)負(fù) 載均衡。
[0024] 有益效果
[0025] 1.現(xiàn)有的重復(fù)數(shù)據(jù)刪除主要面向數(shù)據(jù)相對比較靜態(tài)的備份和歸檔系統(tǒng),并不適用 云存儲系統(tǒng),而云存儲系統(tǒng)中數(shù)據(jù)被多用戶所共享,多用戶修改數(shù)據(jù)導(dǎo)致數(shù)據(jù)的動(dòng)態(tài)性增 強(qiáng)。本發(fā)明針對云存儲系統(tǒng)中數(shù)據(jù)的動(dòng)態(tài)性,考慮數(shù)據(jù)本身的特性,將數(shù)據(jù)分為熱點(diǎn)數(shù)據(jù)和 非熱點(diǎn)數(shù)據(jù),對于不同的數(shù)據(jù)采用不同的重刪時(shí)機(jī),以保證系統(tǒng)的性能更佳。
[0026] 2.本發(fā)明相比于云存儲中現(xiàn)有的重復(fù)數(shù)據(jù)刪除策略,結(jié)合副本管理機(jī)制,在保證 數(shù)據(jù)可用性的前提下,采用延遲刪除重復(fù)的熱點(diǎn)數(shù)據(jù)塊(暫將其視為副本),在一定時(shí)間內(nèi) 緩解了用戶對熱點(diǎn)數(shù)據(jù)塊的訪問壓力,因此對于系統(tǒng)響應(yīng)時(shí)間的降低效果會(huì)更好。
[0027] 3.本發(fā)明將重復(fù)的非熱點(diǎn)數(shù)據(jù)塊也視為一個(gè)副本,比對
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1