原理,一個SuperBlock中的chunk數(shù)據(jù)只會存在幾個Container中,這樣就會盡量減少打開文件的數(shù)量,在數(shù)據(jù)重組的過程中,不會產(chǎn)出太多的10操作請求打開很多的文件進行數(shù)據(jù)的重組,大大降低隨機讀的可能性。雖然這種方式在一定程度降低了數(shù)據(jù)去重率,但是在很大程度上減輕了對磁盤的讀寫需求,提升單節(jié)點的存儲性能。
[0073]綜上,本發(fā)明上述實施例的控制方法通過在分布式文件系統(tǒng)的基礎(chǔ)上融入了集群重復(fù)數(shù)據(jù)刪除技術(shù),在云存儲環(huán)境中構(gòu)建大規(guī)模、高性能、分布式重刪系統(tǒng)。其主要原理可概述為:控制每個客戶端可以與集群交互進行數(shù)據(jù)的上傳與下載;元數(shù)據(jù)服務(wù)器負責(zé)對每個客戶端的讀寫請求響應(yīng)以及負責(zé)整個集群的管理,并通過設(shè)計的局部相似路由算法,按照一定的采樣策略提取數(shù)據(jù)路由特征指紋,按照有狀態(tài)路由方式完成客戶端存儲數(shù)據(jù)的路由選擇;數(shù)據(jù)服務(wù)器根據(jù)元數(shù)據(jù)服務(wù)器的調(diào)度完成對客戶端的存儲需求,當接收數(shù)據(jù)時按照設(shè)定的去重引擎進行數(shù)據(jù)的去重,當需要加載讀取數(shù)據(jù)時根據(jù)數(shù)據(jù)重組引擎以完成對數(shù)據(jù)的重組過程。
[0074]根據(jù)本發(fā)明實施例的針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重方法,通過在分布式文件系統(tǒng)的基礎(chǔ)上融入了集群重復(fù)數(shù)據(jù)刪除技術(shù),在云存儲環(huán)境中構(gòu)建大規(guī)模、高性能、分布式重刪系統(tǒng),該方法能夠有效地解決在大規(guī)模存儲時冗余數(shù)據(jù)去重過程中的數(shù)據(jù)塊查找的磁盤瓶頸問題,減少了指紋匹配的次數(shù),從而提高了去重性能;另外,在具有重刪功能的集群存儲系統(tǒng)的數(shù)據(jù)路由選擇上,可以快速定位數(shù)據(jù)路由地址,使系統(tǒng)保持高效的全局去重率;同時,該方法還可以減少路由選擇過程中的網(wǎng)絡(luò)帶寬消耗,提升磁盤使用率,降低數(shù)據(jù)管理成本。
[0075]在本發(fā)明的描述中,需要理解的是,術(shù)語“中心”、“縱向”、“橫向”、“長度”、“寬度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底” “內(nèi)”、“外”、“順時針”、“逆時針”、“軸向”、“徑向”、“周向”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。
[0076]此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
[0077]在本發(fā)明中,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”、“固定”等術(shù)語應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或成一體;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通或兩個元件的相互作用關(guān)系,除非另有明確的限定。對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
[0078]在本發(fā)明中,除非另有明確的規(guī)定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接觸,或第一和第二特征通過中間媒介間接接觸。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或僅僅表示第一特征水平高度小于第二特征。
[0079]在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結(jié)合和組合。
[0080]盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。
【主權(quán)項】
1.一種針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重方法,其特征在于,所述系統(tǒng)包括多個數(shù)據(jù)存儲服務(wù)器組成的集群以及多個客戶端,其中,所述多個數(shù)據(jù)存儲服務(wù)器組成的集群包括由多個數(shù)據(jù)服務(wù)器組成的數(shù)據(jù)服務(wù)器集群和一個元數(shù)據(jù)服務(wù)器,所述方法包括以下步驟: S1:所述多個客戶端接收用戶的上傳數(shù)據(jù),將所述數(shù)據(jù)組織成數(shù)據(jù)超塊以作為數(shù)據(jù)路由單位,并提取其中的數(shù)據(jù)路由特征指紋,用于數(shù)據(jù)路由選擇; S2:所述元數(shù)據(jù)服務(wù)器與數(shù)據(jù)服務(wù)器集群根據(jù)路由策略來處理所述多個客戶端的數(shù)據(jù)路由選擇請求,其中,所述數(shù)據(jù)服務(wù)器集群對所述數(shù)據(jù)路由特征指紋進行相似指紋匹配以確定相似路由節(jié)點,所述元數(shù)據(jù)服務(wù)器根據(jù)負載均衡策略確定最終的數(shù)據(jù)路由地址; S3:確定數(shù)據(jù)路由地址后,所述客戶端與相應(yīng)的數(shù)據(jù)服務(wù)器進行交互,以將相似冗余數(shù)據(jù)發(fā)送至選擇的數(shù)據(jù)服務(wù)器,所述選擇的數(shù)據(jù)服務(wù)器在接收到相似冗余數(shù)據(jù)后,在線對冗余數(shù)據(jù)進行快速去重。2.根據(jù)權(quán)利要求1所述的針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重方法,其特征在于,根據(jù)局部相似路由算法生成所述路由策略。3.根據(jù)權(quán)利要求1所述的針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重方法,其特征在于,所述步驟S2進一步包括: 在上傳數(shù)據(jù)時,每個客戶端對所述數(shù)據(jù)超塊進行邏輯劃分,生成多個數(shù)據(jù)段,并根據(jù)采樣策略對每個數(shù)據(jù)段進行指紋采樣,以獲取數(shù)據(jù)路由特征指紋; 所述客戶端與集群中的各數(shù)據(jù)服務(wù)器進行指紋數(shù)據(jù)交互,通過查詢相似索引表確定各數(shù)據(jù)服務(wù)器的匹配信息; 所述客戶端與元數(shù)據(jù)服務(wù)器進行通信,根據(jù)所述各數(shù)據(jù)服務(wù)器的匹配信息與集群中選擇的路由節(jié)點使用情況,確定最終的數(shù)據(jù)路由地址。4.根據(jù)權(quán)利要求3所述的針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重方法,其特征在于,所述各數(shù)據(jù)服務(wù)器的匹配信息包括每個數(shù)據(jù)服務(wù)器的匹配成功的指紋個數(shù)。5.根據(jù)權(quán)利要求3所述的針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重方法,其特征在于,所述采樣策略是基于布羅德最小獨立置換原理,對每個數(shù)據(jù)段進行指紋采樣,并獲取數(shù)據(jù)路由特征指紋。6.根據(jù)權(quán)利要求1所述的針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重方法,其特征在于,所述步驟S3進一步包括: 所述數(shù)據(jù)服務(wù)器在接收到客戶端發(fā)送的存儲請求時,啟動相應(yīng)的數(shù)據(jù)處理線程,對到達的數(shù)據(jù)超塊進行處理; 所述數(shù)據(jù)服務(wù)器在接收數(shù)據(jù)時,根據(jù)數(shù)據(jù)路由特征指紋將相似容器元數(shù)據(jù)加載到內(nèi)存的相似索引查找子集,并與到達的數(shù)據(jù)超塊進行數(shù)據(jù)冗余匹配; 如果未匹配到相似的數(shù)據(jù)超塊,則結(jié)合熱點索引庫進一步地進行數(shù)據(jù)去重處理。7.根據(jù)權(quán)利要求6所述的針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重方法,其特征在于,其中,所述數(shù)據(jù)服務(wù)器集群根據(jù)系統(tǒng)緩存中相似冗余數(shù)據(jù)的訪問頻率異步更新所述熱點索引庫。
【專利摘要】本發(fā)明提出一種針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重方法,包括以下步驟:多個客戶端接收用戶的上傳數(shù)據(jù),以數(shù)據(jù)超塊作為數(shù)據(jù)路由單位,并提取其中的路由特征指紋,用于數(shù)據(jù)路由選擇;元數(shù)據(jù)服務(wù)器與數(shù)據(jù)服務(wù)器集群根據(jù)路由策略來處理客戶端的數(shù)據(jù)路由選擇請求,其中,數(shù)據(jù)服務(wù)器集群對路由特征指紋進行相似指紋匹配確定相似路由節(jié)點,元數(shù)據(jù)服務(wù)器根據(jù)負載均衡策略確定最終的數(shù)據(jù)路由地址;客戶端與相應(yīng)的數(shù)據(jù)服務(wù)器交互,接收到相似冗余數(shù)據(jù)的數(shù)據(jù)服務(wù)器對冗余數(shù)據(jù)進行高效快速去重。本發(fā)明的方法能夠使云存儲系統(tǒng)在保持高性能、大規(guī)模、高吞吐的系統(tǒng)特性的同時,達到高效的重復(fù)冗余數(shù)據(jù)去重效果,提升磁盤使用率,降低數(shù)據(jù)管理成本。
【IPC分類】G06F3/06
【公開號】CN105487818
【申請?zhí)枴緾N201510848801
【發(fā)明人】張廣艷, 楊松霖, 舒繼武, 鄭緯民
【申請人】清華大學(xué)
【公開日】2016年4月13日
【申請日】2015年11月27日