專利名稱:一種數(shù)據(jù)存儲(chǔ)方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種數(shù)據(jù)存儲(chǔ)方法和系統(tǒng)。
技術(shù)背景
隨著數(shù)字信息化速度的加快,數(shù)據(jù)量和訪問(wèn)量爆炸性的增加,作為數(shù)據(jù)保護(hù)的數(shù) 據(jù)的復(fù)制和備份正在面臨著巨大的考驗(yàn)。
由于數(shù)據(jù)歸檔的規(guī)范性等一系列問(wèn)題,造成了有大量的重復(fù)數(shù)據(jù)存在于物理存儲(chǔ) 設(shè)備中,從而浪費(fèi)了大量物理存儲(chǔ)空間,許多企業(yè)不得不因此加大對(duì)存儲(chǔ)硬件設(shè)備的投入, 增加了許多不必要的開(kāi)銷。
目前主流的數(shù)據(jù)遠(yuǎn)程復(fù)制方式有完全復(fù)制、差量復(fù)制和差分復(fù)制,這三種實(shí)施數(shù) 據(jù)復(fù)制的三種策略中,并不能從本質(zhì)上完全解決數(shù)據(jù)復(fù)制的性能和效率問(wèn)題,因?yàn)椴徽撌?完全復(fù)制、差量復(fù)制或是差分復(fù)制,其復(fù)制的數(shù)據(jù)存在大量的冗余,許多數(shù)據(jù)被一而再再而 三的重復(fù)復(fù)制,增加了數(shù)據(jù)復(fù)制的時(shí)間開(kāi)銷,同時(shí)也帶來(lái)了在數(shù)據(jù)復(fù)制過(guò)程中的安全隱患。發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是提供一種數(shù)據(jù)存儲(chǔ)方法和系統(tǒng),能夠節(jié)省數(shù)據(jù)在物理 存儲(chǔ)實(shí)體上的空間資源,從而提高數(shù)據(jù)遠(yuǎn)程復(fù)制的效率和安全性。
為了解決上述問(wèn)題,本發(fā)明提供了一種數(shù)據(jù)存儲(chǔ)方法,包括
將各存儲(chǔ)的文件分割為預(yù)定大小的數(shù)據(jù)段;
為分割成的各數(shù)據(jù)段生成唯一對(duì)應(yīng)于該數(shù)據(jù)段的標(biāo)識(shí)信息,所述標(biāo)識(shí)信息用于攜 帶所對(duì)應(yīng)的數(shù)據(jù)段的屬性信息;
比較各數(shù)據(jù)段的內(nèi)容,找出重復(fù)數(shù)據(jù);
將內(nèi)容相同的兩份或兩份以上數(shù)據(jù)作為一組;對(duì)于各組重復(fù)數(shù)據(jù),保留其中一份 數(shù)據(jù),并將該份數(shù)據(jù)的物理存儲(chǔ)位置保存為該組中其他各份數(shù)據(jù)的冗余數(shù)據(jù)水??;如果一 個(gè)數(shù)據(jù)段存在重復(fù)數(shù)據(jù),則將該數(shù)據(jù)段中的重復(fù)數(shù)據(jù)用其冗余數(shù)據(jù)水印代替。
優(yōu)選地,所述比較各數(shù)據(jù)段的內(nèi)容,找出重復(fù)數(shù)據(jù)的步驟中是采用KMP算法進(jìn)行 比較,找到最大長(zhǎng)度的重復(fù)數(shù)據(jù)。
優(yōu)選地,各數(shù)據(jù)段的唯一標(biāo)識(shí)信息可以但不限于采用紅黑樹(shù)的形式進(jìn)行存儲(chǔ)。
優(yōu)選地,所述將數(shù)據(jù)段中的重復(fù)數(shù)據(jù)用其冗余數(shù)據(jù)水印代替的步驟包括
將該數(shù)據(jù)段中的重復(fù)數(shù)據(jù)刪除;
在該數(shù)據(jù)段的唯一標(biāo)識(shí)信息中,增加所刪除的重復(fù)數(shù)據(jù)在該數(shù)據(jù)段中的位置,以 及所刪除的重復(fù)數(shù)據(jù)的冗余數(shù)據(jù)水印。
優(yōu)選地,所述的方法還包括
當(dāng)訪問(wèn)數(shù)據(jù)時(shí),如果所訪問(wèn)的數(shù)據(jù)段中包含冗余數(shù)據(jù)水印,則從該冗余數(shù)據(jù)水印 所表示的物理存儲(chǔ)位置訪問(wèn)該冗余數(shù)據(jù)水印替代的數(shù)據(jù)。
本發(fā)明還提供了一種數(shù)據(jù)存儲(chǔ)系統(tǒng),包括
分割模塊,用于將各存儲(chǔ)的文件分割為預(yù)定大小的數(shù)據(jù)段;
索引模塊,用于為分割成的各數(shù)據(jù)段生成唯一對(duì)應(yīng)于該數(shù)據(jù)段的標(biāo)識(shí)信息,所述 標(biāo)識(shí)信息用于攜帶所對(duì)應(yīng)的數(shù)據(jù)段的屬性信息;
比較模塊,用于比較各數(shù)據(jù)段的內(nèi)容,找出重復(fù)數(shù)據(jù);
處理模塊,用于將內(nèi)容相同的兩份或兩份以上數(shù)據(jù)作為一組;對(duì)于各組重復(fù)數(shù)據(jù), 保留其中一份數(shù)據(jù),并將該份數(shù)據(jù)的物理存儲(chǔ)位置保存為該組中其他各份數(shù)據(jù)的冗余數(shù)據(jù) 水?。蝗绻粋€(gè)數(shù)據(jù)段存在重復(fù)數(shù)據(jù),則將該數(shù)據(jù)段中的重復(fù)數(shù)據(jù)用其冗余數(shù)據(jù)水印代替。
優(yōu)選地,所述比較模塊采用KMP算法進(jìn)行比較,找到最大長(zhǎng)度的重復(fù)數(shù)據(jù)。
優(yōu)選地,所述索引模塊采用紅黑樹(shù)的形式存儲(chǔ)各數(shù)據(jù)段的唯一標(biāo)識(shí)信息。
優(yōu)選地,所述處理單元將數(shù)據(jù)段中的重復(fù)數(shù)據(jù)用其冗余數(shù)據(jù)水印代替是指
所述處理單元將該數(shù)據(jù)段中的重復(fù)數(shù)據(jù)刪除;在該數(shù)據(jù)段的唯一標(biāo)識(shí)信息中,增 加所刪除的重復(fù)數(shù)據(jù)在該數(shù)據(jù)段中的位置,以及所刪除的重復(fù)數(shù)據(jù)的冗余數(shù)據(jù)水印。
優(yōu)選地,所述的系統(tǒng)還包括
數(shù)據(jù)重定向模塊,用于當(dāng)收到對(duì)數(shù)據(jù)段的訪問(wèn)請(qǐng)求時(shí),如果該數(shù)據(jù)段中包含冗余 數(shù)據(jù)水印,則將對(duì)于該冗余數(shù)據(jù)水印對(duì)應(yīng)的數(shù)據(jù)的訪問(wèn)請(qǐng)求指向該冗余數(shù)據(jù)水印表示的物理存儲(chǔ)位置。
本發(fā)明的技術(shù)方案消減了冗余數(shù)據(jù),能提高存儲(chǔ)空間利用率,顯著的降低網(wǎng)絡(luò)復(fù) 制數(shù)據(jù)所需的帶寬,有效的增強(qiáng)了文件遠(yuǎn)程復(fù)制時(shí)的效率、高可靠性和存儲(chǔ)空間利用率;由 于減少了傳輸?shù)臄?shù)據(jù)和其相關(guān)的傳輸時(shí)間,因此也有效的增強(qiáng)了數(shù)據(jù)在物理存儲(chǔ)實(shí)體上的 安全性和傳輸過(guò)程中的安全性,同時(shí)也增強(qiáng)了數(shù)據(jù)遠(yuǎn)程復(fù)制的適用范圍,使其適用于更廣 的應(yīng)用部署,豐富了存儲(chǔ)系統(tǒng)的架構(gòu)。
圖1為實(shí)施例一的數(shù)據(jù)存儲(chǔ)方法的流程示意圖2為實(shí)施例二的數(shù)據(jù)存儲(chǔ)系統(tǒng)的示意框圖。
具體實(shí)施方式
下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)行更詳細(xì)的說(shuō)明。
需要說(shuō)明的是,如果不沖突,本發(fā)明實(shí)施例以及實(shí)施例中的各個(gè)特征可以相互結(jié) 合,均在本發(fā)明的保護(hù)范圍之內(nèi)。另外,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī) 可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況 下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
實(shí)施例一,一種數(shù)據(jù)存儲(chǔ)方法,如圖1所示,包括
將各存儲(chǔ)的文件分割為預(yù)定大小的數(shù)據(jù)段;
為分割成的各數(shù)據(jù)段生成唯一對(duì)應(yīng)于該數(shù)據(jù)段的標(biāo)識(shí)信息,所述標(biāo)識(shí)信息用于攜 帶所對(duì)應(yīng)的數(shù)據(jù)段的屬性信息;
比較各數(shù)據(jù)段的內(nèi)容,找出重復(fù)數(shù)據(jù);
將內(nèi)容相同的兩份或兩份以上數(shù)據(jù)作為一組;對(duì)于各組重復(fù)數(shù)據(jù),保留其中一份 數(shù)據(jù),并將該份數(shù)據(jù)的物理存儲(chǔ)位置保存為該組中其他各份數(shù)據(jù)的冗余數(shù)據(jù)水??;如果一個(gè)數(shù)據(jù)段存在重復(fù)數(shù)據(jù),則將該數(shù)據(jù)段中的重復(fù)數(shù)據(jù)用其冗余數(shù)據(jù)水印代替。
本實(shí)施例中,所述將各存儲(chǔ)的文件分割為預(yù)定大小的數(shù)據(jù)段的步驟可以是在系統(tǒng) 初始化時(shí)先進(jìn)行一次,在初始化時(shí)對(duì)整個(gè)物理存儲(chǔ)實(shí)體中存儲(chǔ)的文件全部進(jìn)行一次掃描, 通過(guò)掃描對(duì)這些文件進(jìn)行分割;還可以每次有新的文件寫(xiě)入物理存儲(chǔ)實(shí)體的時(shí)候都進(jìn)行一 次,對(duì)新寫(xiě)入物理存儲(chǔ)實(shí)體的文件進(jìn)行分割。相應(yīng)的,每次分割后進(jìn)行比較;新寫(xiě)入文件時(shí), 可以不用只將已有數(shù)據(jù)段和新寫(xiě)入的文件分割而成的數(shù)據(jù)段進(jìn)行比較,而不用再將已有數(shù) 據(jù)段之間進(jìn)行比較。
本實(shí)施例中,所述唯一標(biāo)識(shí)信息可以稱為數(shù)據(jù)指紋。
本實(shí)施例中,所述數(shù)據(jù)段的屬性信息可以但不限于包括該數(shù)據(jù)段所屬文件、該數(shù) 據(jù)段在所屬文件中的位置等。
本實(shí)施例中,所述比較各數(shù)據(jù)段的內(nèi)容,找出重復(fù)數(shù)據(jù)的步驟中,可以但不限于采 用KMP算法進(jìn)行比較,找到最大長(zhǎng)度的重復(fù)數(shù)據(jù);還可以調(diào)整對(duì)比顆粒度,比如是N個(gè)字母 或字符(N為正整數(shù))。
本實(shí)施例中,各數(shù)據(jù)段的唯一標(biāo)識(shí)信息可以但不限于采用紅黑樹(shù)的形式進(jìn)行存 儲(chǔ),提高內(nèi)容信息檢索的效率和對(duì)物理存儲(chǔ)實(shí)體的文件的相關(guān)信息進(jìn)行刪除的功能。
本實(shí)施例中,所述將數(shù)據(jù)段中的重復(fù)數(shù)據(jù)用其冗余數(shù)據(jù)水印代替的步驟具體可以 包括
將該數(shù)據(jù)段中的重復(fù)數(shù)據(jù)刪除;
在該數(shù)據(jù)段的唯一標(biāo)識(shí)信息中,增加所刪除的重復(fù)數(shù)據(jù)在該數(shù)據(jù)段中的位置,以 及所刪除的重復(fù)數(shù)據(jù)的冗余數(shù)據(jù)水印。
如果一個(gè)數(shù)據(jù)段中有多個(gè)重復(fù)數(shù)據(jù)時(shí),可以在該數(shù)據(jù)段的唯一標(biāo)識(shí)信息中分別記 錄各重復(fù)數(shù)據(jù)的冗余數(shù)據(jù)水印。
本實(shí)施例中,所述方法還可以包括
當(dāng)訪問(wèn)數(shù)據(jù)時(shí),如果所訪問(wèn)的數(shù)據(jù)段中包含冗余數(shù)據(jù)水印,則從該冗余數(shù)據(jù)水印 所表示的物理存儲(chǔ)位置訪問(wèn)該冗余數(shù)據(jù)水印替代的數(shù)據(jù)。
這里的訪問(wèn)包括“查看”、“復(fù)制”、“剪切”等。
可見(jiàn),采用本實(shí)施例的方案中,當(dāng)對(duì)這些數(shù)據(jù)進(jìn)行遠(yuǎn)程復(fù)制時(shí),由于減少了冗余數(shù) 據(jù)而減少了傳輸?shù)臄?shù)據(jù)量和傳輸時(shí)間,因此提高了遠(yuǎn)程復(fù)制的可靠性和安全性。
實(shí)施例二,一種數(shù)據(jù)存儲(chǔ)系統(tǒng),如圖2所示,包括
分割模塊,用于將各存儲(chǔ)的文件分割為預(yù)定大小的數(shù)據(jù)段;
索引模塊,用于為分割成的各數(shù)據(jù)段生成唯一對(duì)應(yīng)于該數(shù)據(jù)段的標(biāo)識(shí)信息,所述 標(biāo)識(shí)信息用于攜帶所對(duì)應(yīng)的數(shù)據(jù)段的屬性信息;
比較模塊,用于比較各數(shù)據(jù)段的內(nèi)容,找出重復(fù)數(shù)據(jù);
處理模塊,用于將內(nèi)容相同的兩份或兩份以上數(shù)據(jù)作為一組;對(duì)于各組重復(fù)數(shù)據(jù), 保留其中一份數(shù)據(jù),并將該份數(shù)據(jù)的物理存儲(chǔ)位置保存為該組中其他各份數(shù)據(jù)的冗余數(shù)據(jù) 水?。蝗绻粋€(gè)數(shù)據(jù)段存在重復(fù)數(shù)據(jù),則將該數(shù)據(jù)段中的重復(fù)數(shù)據(jù)用其冗余數(shù)據(jù)水印代替。
本實(shí)施例中,所述分割模塊可以是在系統(tǒng)初始化時(shí)和每次有新的文件寫(xiě)入物理存 儲(chǔ)實(shí)體的時(shí)候都進(jìn)行一次分割。相應(yīng)的,所述比較模塊當(dāng)有新分割成的數(shù)據(jù)段時(shí)就將新分 割成的數(shù)據(jù)段和原有數(shù)據(jù)段進(jìn)行比較。
本實(shí)施例中,所述數(shù)據(jù)段的屬性信息可以但不限于包括該數(shù)據(jù)段所屬文件、該數(shù) 據(jù)段在所屬文件中的位置等。
本實(shí)施例中,所述比較模塊可以但不限于采用KMP算法進(jìn)行比較,找到最大長(zhǎng)度 的重復(fù)數(shù)據(jù)。
本實(shí)施例中,所述索引模塊可以但不限于采用紅黑樹(shù)的形式存儲(chǔ)各數(shù)據(jù)段的唯一 標(biāo)識(shí)信息,可提高內(nèi)容信息檢索的效率和對(duì)物理存儲(chǔ)實(shí)體的文件的相關(guān)信息進(jìn)行刪除的功 能。
本實(shí)施例中,所述處理單元將數(shù)據(jù)段中的重復(fù)數(shù)據(jù)用其冗余數(shù)據(jù)水印代替具體可 以是指
所述處理單元將該數(shù)據(jù)段中的重復(fù)數(shù)據(jù)刪除;在該數(shù)據(jù)段的唯一標(biāo)識(shí)信息中,增 加所刪除的重復(fù)數(shù)據(jù)在該數(shù)據(jù)段中的位置,以及所刪除的重復(fù)數(shù)據(jù)的冗余數(shù)據(jù)水印。
如果一個(gè)數(shù)據(jù)段中有多個(gè)重復(fù)數(shù)據(jù)時(shí),所述處理單元可以在該數(shù)據(jù)段的唯一標(biāo)識(shí) 信息中分別記錄各重復(fù)數(shù)據(jù)的冗余數(shù)據(jù)水印。
本實(shí)施例中,所述系統(tǒng)還可以包括
數(shù)據(jù)重定向模塊,用于當(dāng)收到對(duì)數(shù)據(jù)段的訪問(wèn)請(qǐng)求時(shí),如果該數(shù)據(jù)段中包含冗余 數(shù)據(jù)水印,則將對(duì)于該冗余數(shù)據(jù)水印對(duì)應(yīng)的數(shù)據(jù)的訪問(wèn)請(qǐng)求指向該冗余數(shù)據(jù)水印表示的物理存儲(chǔ)位置。
本實(shí)施例中,所述系統(tǒng)還可以包括
遠(yuǎn)程復(fù)制模塊,用于對(duì)數(shù)據(jù)進(jìn)行遠(yuǎn)程復(fù)制。
本實(shí)施例中,所述系統(tǒng)還可以包括
界面管理模塊,用于為用戶提供可管理系統(tǒng)的界面,方便用戶與系統(tǒng)功能的交互, 提供了文件信息查詢、瀏覽,日志信息查看,文件遠(yuǎn)程復(fù)制等功能。
其它實(shí)現(xiàn)細(xì)節(jié)可以參照實(shí)施例一。
本領(lǐng)域普通技術(shù)人員可以理解上述方法中的全部或部分步驟可通過(guò)程序來(lái)指令 相關(guān)硬件完成,所述程序可以存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如只讀存儲(chǔ)器、磁盤(pán)或光盤(pán) 等??蛇x地,上述實(shí)施例的全部或部分步驟也可以使用一個(gè)或多個(gè)集成電路來(lái)實(shí)現(xiàn)。相應(yīng) 地,上述實(shí)施例中的各模塊/單元可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的 形式實(shí)現(xiàn)。本發(fā)明不限制于任何特定形式的硬件和軟件的結(jié)合。
當(dāng)然,本發(fā)明還可有其他多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟 悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變 形都應(yīng)屬于本發(fā)明的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1.一種數(shù)據(jù)存儲(chǔ)方法,包括將各存儲(chǔ)的文件分割為預(yù)定大小的數(shù)據(jù)段;為分割成的各數(shù)據(jù)段生成唯一對(duì)應(yīng)于該數(shù)據(jù)段的標(biāo)識(shí)信息,所述標(biāo)識(shí)信息用于攜帶所 對(duì)應(yīng)的數(shù)據(jù)段的屬性信息;比較各數(shù)據(jù)段的內(nèi)容,找出重復(fù)數(shù)據(jù);將內(nèi)容相同的兩份或兩份以上數(shù)據(jù)作為一組;對(duì)于各組重復(fù)數(shù)據(jù),保留其中一份數(shù)據(jù), 并將該份數(shù)據(jù)的物理存儲(chǔ)位置保存為該組中其他各份數(shù)據(jù)的冗余數(shù)據(jù)水印;如果一個(gè)數(shù)據(jù) 段存在重復(fù)數(shù)據(jù),則將該數(shù)據(jù)段中的重復(fù)數(shù)據(jù)用其冗余數(shù)據(jù)水印代替。
2.如權(quán)利要求1所述的方法,其特征在于所述比較各數(shù)據(jù)段的內(nèi)容,找出重復(fù)數(shù)據(jù)的步驟中是采用KMP算法進(jìn)行比較,找到最 大長(zhǎng)度的重復(fù)數(shù)據(jù)。
3.如權(quán)利要求1所述的方法,其特征在于各數(shù)據(jù)段的唯一標(biāo)識(shí)信息可以但不限于采用紅黑樹(shù)的形式進(jìn)行存儲(chǔ)。
4.如權(quán)利要求1到3中任一項(xiàng)所述的方法,其特征在于,所述將數(shù)據(jù)段中的重復(fù)數(shù)據(jù)用 其冗余數(shù)據(jù)水印代替的步驟包括將該數(shù)據(jù)段中的重復(fù)數(shù)據(jù)刪除;在該數(shù)據(jù)段的唯一標(biāo)識(shí)信息中,增加所刪除的重復(fù)數(shù)據(jù)在該數(shù)據(jù)段中的位置,以及所 刪除的重復(fù)數(shù)據(jù)的冗余數(shù)據(jù)水印。
5.如權(quán)利要求1到3中任一項(xiàng)所述的方法,其特征在于,還包括當(dāng)訪問(wèn)數(shù)據(jù)時(shí),如果所訪問(wèn)的數(shù)據(jù)段中包含冗余數(shù)據(jù)水印,則從該冗余數(shù)據(jù)水印所表 示的物理存儲(chǔ)位置訪問(wèn)該冗余數(shù)據(jù)水印替代的數(shù)據(jù)。
6.一種數(shù)據(jù)存儲(chǔ)系統(tǒng),其特征在于,包括分割模塊,用于將各存儲(chǔ)的文件分割為預(yù)定大小的數(shù)據(jù)段;索引模塊,用于為分割成的各數(shù)據(jù)段生成唯一對(duì)應(yīng)于該數(shù)據(jù)段的標(biāo)識(shí)信息,所述標(biāo)識(shí) 信息用于攜帶所對(duì)應(yīng)的數(shù)據(jù)段的屬性信息;比較模塊,用于比較各數(shù)據(jù)段的內(nèi)容,找出重復(fù)數(shù)據(jù);處理模塊,用于將內(nèi)容相同的兩份或兩份以上數(shù)據(jù)作為一組;對(duì)于各組重復(fù)數(shù)據(jù),保 留其中一份數(shù)據(jù),并將該份數(shù)據(jù)的物理存儲(chǔ)位置保存為該組中其他各份數(shù)據(jù)的冗余數(shù)據(jù)水 ?。蝗绻粋€(gè)數(shù)據(jù)段存在重復(fù)數(shù)據(jù),則將該數(shù)據(jù)段中的重復(fù)數(shù)據(jù)用其冗余數(shù)據(jù)水印代替。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于所述比較模塊采用KMP算法進(jìn)行比較,找到最大長(zhǎng)度的重復(fù)數(shù)據(jù)。
8.如權(quán)利要求6所述的系統(tǒng),其特征在于所述索引模塊采用紅黑樹(shù)的形式存儲(chǔ)各數(shù)據(jù)段的唯一標(biāo)識(shí)信息。
9.如權(quán)利要求6到8中任一項(xiàng)所述的系統(tǒng),其特征在于,所述處理單元將數(shù)據(jù)段中的重 復(fù)數(shù)據(jù)用其冗余數(shù)據(jù)水印代替是指所述處理單元將該數(shù)據(jù)段中的重復(fù)數(shù)據(jù)刪除;在該數(shù)據(jù)段的唯一標(biāo)識(shí)信息中,增加所 刪除的重復(fù)數(shù)據(jù)在該數(shù)據(jù)段中的位置,以及所刪除的重復(fù)數(shù)據(jù)的冗余數(shù)據(jù)水印。
10.如權(quán)利要求6到8中任一項(xiàng)所述的系統(tǒng),其特征在于,還包括數(shù)據(jù)重定向模塊,用于當(dāng)收到對(duì)數(shù)據(jù)段的訪問(wèn)請(qǐng)求時(shí),如果該數(shù)據(jù)段中包含冗余數(shù)據(jù)水印,則將對(duì)于該冗余數(shù)據(jù)水印對(duì)應(yīng)的數(shù)據(jù)的訪問(wèn)請(qǐng)求指向該冗余數(shù)據(jù)水印表示的物理存 儲(chǔ)位置。
全文摘要
本發(fā)明提供了一種數(shù)據(jù)存儲(chǔ)方法和系統(tǒng);方法包括將各存儲(chǔ)的文件分割為預(yù)定大小的數(shù)據(jù)段;為分割成的各數(shù)據(jù)段生成唯一對(duì)應(yīng)于該數(shù)據(jù)段的標(biāo)識(shí)信息,所述標(biāo)識(shí)信息用于攜帶所對(duì)應(yīng)的數(shù)據(jù)段的屬性信息;比較各數(shù)據(jù)段的內(nèi)容,找出重復(fù)數(shù)據(jù);將內(nèi)容相同的兩份或兩份以上數(shù)據(jù)作為一組;對(duì)于各組重復(fù)數(shù)據(jù),保留其中一份數(shù)據(jù),并將該份數(shù)據(jù)的物理存儲(chǔ)位置保存為該組中其他各份數(shù)據(jù)的冗余數(shù)據(jù)水印;如果一個(gè)數(shù)據(jù)段存在重復(fù)數(shù)據(jù),則將該數(shù)據(jù)段中的重復(fù)數(shù)據(jù)用其冗余數(shù)據(jù)水印代替。本發(fā)明能夠節(jié)省數(shù)據(jù)在物理存儲(chǔ)實(shí)體上的空間資源,從而提高數(shù)據(jù)遠(yuǎn)程復(fù)制的效率和安全性。
文檔編號(hào)G06F17/30GK102033924SQ201010589269
公開(kāi)日2011年4月27日 申請(qǐng)日期2010年12月8日 優(yōu)先權(quán)日2010年12月8日
發(fā)明者張宇, 張雷, 文中領(lǐng) 申請(qǐng)人:浪潮(北京)電子信息產(chǎn)業(yè)有限公司