本發(fā)明涉及數(shù)據(jù)存儲(chǔ)領(lǐng)域,尤其涉及一種基于文件分類進(jìn)行重復(fù)數(shù)據(jù)刪除方法和設(shè)備。
背景技術(shù):隨著云計(jì)算技術(shù)的普及,基于云計(jì)算的虛擬桌面架構(gòu)(virtualdesktopinfrastructure,簡(jiǎn)稱VDI)應(yīng)用得到快速發(fā)展。當(dāng)前無論是國(guó)內(nèi)還是國(guó)外,眾多大型企業(yè)和政府紛紛將自己的傳統(tǒng)個(gè)人電腦(PersonalComputer,簡(jiǎn)稱PC)機(jī)切換成VDI桌面云,這樣將原來各個(gè)相互隔離的類似信息孤島的PC機(jī)有機(jī)地聯(lián)系了起來。根據(jù)研究的數(shù)據(jù)表明,不同用戶之間存儲(chǔ)的數(shù)據(jù)有60%是重復(fù)存儲(chǔ)的數(shù)據(jù),特別是同一工作部門中的不同用戶之間存儲(chǔ)的重復(fù)數(shù)據(jù)高達(dá)80%,因此,在數(shù)據(jù)存儲(chǔ)領(lǐng)域,如何有效地刪除用戶之間的重復(fù)數(shù)據(jù)成為人們關(guān)心的問題。目前重復(fù)數(shù)據(jù)刪除技術(shù)的關(guān)鍵點(diǎn)在于,利用SHA-1摘要算法計(jì)算用于標(biāo)識(shí)文件不同內(nèi)容的指紋信息,其中,計(jì)算文件不同內(nèi)容的指紋信息的方式包括:粗粒度地計(jì)算每個(gè)文件的指紋信息,例如:利用每一個(gè)文件的摘要信息計(jì)算文件的指紋信息;去重技術(shù)在采用上述方式計(jì)算得到的指紋信息后,將計(jì)算得到的指紋信息與指紋數(shù)據(jù)庫(kù)中存儲(chǔ)的指紋信息進(jìn)行比較,當(dāng)計(jì)算得到的指紋信息與指紋數(shù)據(jù)庫(kù)中存儲(chǔ)的指紋信息相同時(shí),說明用于計(jì)算指紋信息的文件或者數(shù)據(jù)塊屬于重復(fù)數(shù)據(jù),需要進(jìn)行重復(fù)數(shù)據(jù)刪除;否則,用于計(jì)算指紋信息的文件或者數(shù)據(jù)塊屬于非重復(fù)數(shù)據(jù),不需要進(jìn)行重復(fù)數(shù)據(jù)刪除。但是,在實(shí)際應(yīng)用中存在以下問題:假設(shè)指紋數(shù)據(jù)庫(kù)中存儲(chǔ)的文件A,利用文件A的摘要信息計(jì)算得到文件A的指紋信息1,和待存儲(chǔ)的文件B,利用文件B的摘要信息計(jì)算得到文件B的指紋信息2,其中,文件A和文件B屬于同一文件類型。文件B與文件A相比較,文件B的摘要信息與文件A的摘要信息不同,文件B除摘要之外的其他部分與文件A除摘要之外的其他部分相同。此時(shí),計(jì)算得到的指紋信息1與計(jì)算得到的指紋信息2不同,文件B相對(duì)于文件A屬于非重復(fù)數(shù)據(jù),因此,文件B將被存儲(chǔ),但是文件B中存在大量與文件A相同的數(shù)據(jù),導(dǎo)致文件的重復(fù)數(shù)據(jù)刪除率(原始文件總量與去重處理后輸出的文件總量之比)比較低。也就是說,針對(duì)同一文件類型的文件,當(dāng)文件中用于計(jì)算指紋信息的數(shù)據(jù)發(fā)生變化時(shí),將出現(xiàn)文件的重復(fù)數(shù)據(jù)刪除率較低的問題。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供了一種重復(fù)數(shù)據(jù)刪除方法和設(shè)備。根據(jù)本發(fā)明的第一方面,提供了一種對(duì)文件進(jìn)行去重處理的方法,包括:識(shí)別待存儲(chǔ)文件的分類;根據(jù)文件的分類確定所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則;根據(jù)確定的重復(fù)數(shù)據(jù)刪除規(guī)則,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除。在第一方面的實(shí)現(xiàn)方式中,第一種可能的實(shí)現(xiàn)方式中,所述文件的分類包括常用文件和非常用文件;所述識(shí)別待存儲(chǔ)文件的分類,具體包括:獲取所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù),并判斷所述文件類型的出現(xiàn)次數(shù)是否大于閾值,當(dāng)所述文件類型的出現(xiàn)次數(shù)大于所述閾值時(shí),將所述待存儲(chǔ)文件確定為常用文件,當(dāng)獲取的所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)不大于所述閾值時(shí),將所述待存儲(chǔ)文件確定為非常用文件;或者,在查找常用文件數(shù)據(jù)庫(kù)中查找所述待存儲(chǔ)文件的文件類型,當(dāng)在常用文件數(shù)據(jù)庫(kù)中查找到所述待存儲(chǔ)文件的文件類型時(shí),將所述待存儲(chǔ)文件確定為常用文件,當(dāng)在常用文件數(shù)據(jù)庫(kù)中沒有查找到所述待存儲(chǔ)文件的文件類型時(shí),確定待存儲(chǔ)文件為非常用文件。在第一方面的第一種可能的實(shí)現(xiàn)方式中,第二種可能的實(shí)現(xiàn)方式中,所述根據(jù)文件的分類確定所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則,具體包括:當(dāng)所述待存儲(chǔ)文件為常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除;所述根據(jù)確定的重復(fù)數(shù)據(jù)刪除規(guī)則,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除,具體包括:根據(jù)所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,將所述待存儲(chǔ)文件劃分成多個(gè)數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息;將所述每一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊與已存儲(chǔ)的與所述數(shù)據(jù)塊的指紋信息相同的指紋信息之間的引用信息,并丟棄所述數(shù)據(jù)塊;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊和計(jì)算得到的所述數(shù)據(jù)塊的指紋信息。在第一方面的第一種可能的實(shí)現(xiàn)方式中,第三種可能的實(shí)現(xiàn)方式中,所述根據(jù)文件的分類確定所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則,具體包括:當(dāng)所述待存儲(chǔ)文件為非常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為文件級(jí)重復(fù)數(shù)據(jù)刪除;所述根據(jù)確定的重復(fù)數(shù)據(jù)刪除規(guī)則,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除,具體包括:根據(jù)所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,從所述待存儲(chǔ)文件中選擇至少部分文件數(shù)據(jù),計(jì)算出所述至少部分文件數(shù)據(jù)的指紋信息;將計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較;當(dāng)計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件與已存儲(chǔ)的與所述至少部分文件數(shù)據(jù)的指紋信息相同的指紋信息之間的引用信息,并丟棄所述待存儲(chǔ)文件;當(dāng)計(jì)算得到的指紋信息與已存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件和計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息。根據(jù)本發(fā)明的第二方面,提供了一種去重引擎設(shè)備,包括:識(shí)別模塊,用于識(shí)別待存儲(chǔ)文件的分類;刪除規(guī)則確定模塊,用于處理根據(jù)文件的分類確定所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則;刪除模塊,用于根據(jù)確定的重復(fù)數(shù)據(jù)刪除規(guī)則,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除。在第二方面的實(shí)現(xiàn)方式中,第一種可能的實(shí)現(xiàn)方式中,所述文件的分類包括常用文件和非常用文件;所述識(shí)別模塊,具體用于獲取所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù),并判斷所述文件類型的出現(xiàn)次數(shù)是否大于閾值,當(dāng)所述文件類型的出現(xiàn)次數(shù)大于所述閾值時(shí),將所述待存儲(chǔ)文件確定為常用文件,當(dāng)獲取的所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)不大于所述閾值時(shí),將所述待存儲(chǔ)文件確定為非常用文件;或者,在查找常用文件數(shù)據(jù)庫(kù)中查找所述待存儲(chǔ)文件的文件類型,當(dāng)在常用文件數(shù)據(jù)庫(kù)中查找到所述待存儲(chǔ)文件的文件類型時(shí),將所述待存儲(chǔ)文件確定為常用文件,當(dāng)在常用文件數(shù)據(jù)庫(kù)中沒有查找到所述待存儲(chǔ)文件的文件類型時(shí),確定待存儲(chǔ)文件為非常用文件。在第二方面的第一種可能的實(shí)現(xiàn)方式中,第二種可能的實(shí)現(xiàn)方式中,所述刪除規(guī)則確定模塊,具體用于當(dāng)所述待存儲(chǔ)文件為常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除;所述刪除模塊,具體用于根據(jù)所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,將所述待存儲(chǔ)文件劃分成多個(gè)數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息;將所述每一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊與已存儲(chǔ)的與所述數(shù)據(jù)塊的指紋信息相同的指紋信息之間的引用信息,并丟棄所述數(shù)據(jù)塊;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊和計(jì)算得到的所述數(shù)據(jù)塊的指紋信息。在第二方面的第一種可能的實(shí)現(xiàn)方式中,第三種可能的實(shí)現(xiàn)方式中,所述刪除規(guī)則確定模塊,具體用于當(dāng)所述待存儲(chǔ)文件為非常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為文件級(jí)重復(fù)數(shù)據(jù)刪除;所述刪除模塊,具體用于根據(jù)所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,從所述待存儲(chǔ)文件中選擇至少部分文件數(shù)據(jù),計(jì)算出所述至少部分文件數(shù)據(jù)的指紋信息;將計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較;當(dāng)計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件與已存儲(chǔ)的與所述至少部分文件數(shù)據(jù)的指紋信息相同的指紋信息之間的引用信息,并丟棄所述待存儲(chǔ)文件;當(dāng)計(jì)算得到的指紋信息與已存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件和計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息。根據(jù)本發(fā)明的第三方面,提供了一種重復(fù)數(shù)據(jù)刪除設(shè)備,包括:輸入監(jiān)控器,用于識(shí)別待存儲(chǔ)文件的分類;處理器,用于根據(jù)文件的分類確定所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則,根據(jù)確定的重復(fù)數(shù)據(jù)刪除規(guī)則,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除。在第三方面的實(shí)現(xiàn)方式中,第一種可能的實(shí)現(xiàn)方式中,所述文件的分類包括常用文件和非常用文件;所述輸入監(jiān)控器,具體用于獲取所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù),并判斷所述文件類型的出現(xiàn)次數(shù)是否大于閾值,當(dāng)所述文件類型的出現(xiàn)次數(shù)大于所述閾值時(shí),將所述待存儲(chǔ)文件確定為常用文件,當(dāng)獲取的所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)不大于所述閾值時(shí),將所述待存儲(chǔ)文件確定為非常用文件;或者,在查找常用文件數(shù)據(jù)庫(kù)中查找所述待存儲(chǔ)文件的文件類型,當(dāng)在常用文件數(shù)據(jù)庫(kù)中查找到所述待存儲(chǔ)文件的文件類型時(shí),將所述待存儲(chǔ)文件確定為常用文件,當(dāng)在常用文件數(shù)據(jù)庫(kù)中沒有查找到所述待存儲(chǔ)文件的文件類型時(shí),確定待存儲(chǔ)文件為非常用文件。在第三方面的第一種可能的實(shí)現(xiàn)方式中,第二種可能的實(shí)現(xiàn)方式中,所述處理器,具體用于當(dāng)所述待存儲(chǔ)文件為常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除,并根據(jù)所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,將所述待存儲(chǔ)文件劃分成多個(gè)數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息;將所述每一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊與已存儲(chǔ)的與所述數(shù)據(jù)塊的指紋信息相同的指紋信息之間的引用信息,并丟棄所述數(shù)據(jù)塊;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊和計(jì)算得到的所述數(shù)據(jù)塊的指紋信息。在第三方面的第一種可能的實(shí)現(xiàn)方式中,第三種可能的實(shí)現(xiàn)方式中,所述處理器,具體用于當(dāng)所述待存儲(chǔ)文件為非常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為文件級(jí)重復(fù)數(shù)據(jù)刪除,并根據(jù)所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,從所述待存儲(chǔ)文件中選擇至少部分文件數(shù)據(jù),計(jì)算出所述至少部分文件數(shù)據(jù)的指紋信息;將計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較;當(dāng)計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件與已存儲(chǔ)的與所述至少部分文件數(shù)據(jù)的指紋信息相同的指紋信息之間的引用信息,并丟棄所述待存儲(chǔ)文件;當(dāng)計(jì)算得到的指紋信息與已存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件和計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息。本發(fā)明實(shí)施例通過識(shí)別待存儲(chǔ)文件的分類,并根據(jù)文件分類確定所述存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則,根據(jù)確定的重復(fù)數(shù)據(jù)刪除規(guī)則,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除,這樣利用文件的分類,確定重復(fù)數(shù)據(jù)刪除規(guī)則,有針對(duì)性地對(duì)待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除,提高了文件重復(fù)數(shù)據(jù)刪除率。附圖說明圖1為本發(fā)明實(shí)施例一的一種重復(fù)數(shù)據(jù)刪除方法的流程示意圖;圖2為本發(fā)明實(shí)施例二的一種重復(fù)數(shù)據(jù)刪除方法的流程示意圖;圖3為常用文件數(shù)據(jù)庫(kù)中常用文件的獲取方法的流程示意圖;圖4為本發(fā)明實(shí)施例三的一種重復(fù)數(shù)據(jù)刪除方法的流程示意圖;圖5為本發(fā)明實(shí)施例四的一種重復(fù)數(shù)據(jù)刪除設(shè)備的結(jié)構(gòu)示意圖;圖6為本發(fā)明實(shí)施例五的一種重復(fù)數(shù)據(jù)刪除設(shè)備的結(jié)構(gòu)示意圖;圖7為重復(fù)數(shù)據(jù)刪除設(shè)備的邏輯架構(gòu)圖;圖8為重復(fù)數(shù)據(jù)刪除設(shè)備的系統(tǒng)架構(gòu)圖。具體實(shí)施方式為了實(shí)現(xiàn)本發(fā)明目的,本發(fā)明實(shí)施例提供了一種重復(fù)數(shù)據(jù)刪除方法和設(shè)備,通過識(shí)別待存儲(chǔ)文件的分類,并根據(jù)文件分類確定所述存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則,根據(jù)確定的重復(fù)數(shù)據(jù)刪除規(guī)則,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除,這樣利用文件的分類,確定重復(fù)數(shù)據(jù)刪除規(guī)則,有針對(duì)性地對(duì)待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除,提高了文件重復(fù)數(shù)據(jù)刪除率。需要說明的是,本發(fā)明實(shí)施例中涉及的設(shè)定數(shù)值或者閾值或者門限值等可以根據(jù)實(shí)際需要確定,還可以根據(jù)實(shí)驗(yàn)數(shù)據(jù)確定,這里不做限定。下面結(jié)合說明書附圖對(duì)本發(fā)明各個(gè)實(shí)施例進(jìn)行詳細(xì)描述。實(shí)施例一:如圖1所示,為本發(fā)明實(shí)施例一的一種重復(fù)數(shù)據(jù)刪除方法的流程示意圖。所述方法包括:步驟101:識(shí)別待存儲(chǔ)文件的分類。其中,所述文件的分類包括常用文件和非常用文件。具體地,在步驟101中,對(duì)獲取的待存儲(chǔ)文件的文件格式進(jìn)行識(shí)別,判斷待存儲(chǔ)文件的文件類型,并根據(jù)文件分類規(guī)則,確定判斷得到的文件類型所屬的文件分類類別。其中,所述文件類型包括但不限于:doc文件類型、txt文件類型、pdf文件類型、ppt等文件類型中的一種或者多種。所述文件分類規(guī)則包括文件大?。ǚ譃榇笪募托∥募?、文件生成時(shí)間(分為過期文件和新文件)和出現(xiàn)次數(shù)(分為常用文件和非常用文件)等。較優(yōu)地,首先,獲取待存儲(chǔ)文件的文件格式,確定所述文件格式對(duì)應(yīng)的文件類型。例如:通過讀寫操作得到的待存儲(chǔ)文件的文件格式為XXX.doc,則確定所述文件格式對(duì)應(yīng)的文件類型是doc文件類型。其次,將確定的所述文件類型與常用文件數(shù)據(jù)庫(kù)中存儲(chǔ)的文件類型進(jìn)行比較。具體地,判斷確定的所述文件類型是否與常用文件數(shù)據(jù)庫(kù)中存儲(chǔ)的文件類型相同?;蛘卟檎页S梦募?shù)據(jù)庫(kù)中是否存在與確定的所述文件類型相同的文件類型。由于常用文件數(shù)據(jù)庫(kù)通過文件類型識(shí)別設(shè)備對(duì)接收到的文件的文件類型進(jìn)行識(shí)別,并記錄每種文件類型出現(xiàn)的次數(shù),在設(shè)定時(shí)間周期到達(dá)時(shí),對(duì)常用文件數(shù)據(jù)庫(kù)中出現(xiàn)的文件類型進(jìn)行分類,具體包括:將每種文件類型出現(xiàn)的次數(shù)與設(shè)定的閾值進(jìn)行比較,當(dāng)文件類型出現(xiàn)的次數(shù)大于設(shè)定的閾值時(shí),確定所述文件類型為常用文件;當(dāng)文件類型出現(xiàn)的次數(shù)不大于設(shè)定的閾值時(shí),確定所述文件類型為非常用文件。較優(yōu)地,常用文件數(shù)據(jù)庫(kù)中只存儲(chǔ)確定的常用文件的文件類型,將判斷出的屬于非常用文件的文件類型刪除。需要說明的是,所述常用文件數(shù)據(jù)庫(kù)中不僅可以存儲(chǔ)常用文件的文件類型,還可以存儲(chǔ)非常用文件的文件類型,這里不做限定。這樣,通過實(shí)時(shí)對(duì)常用文件數(shù)據(jù)庫(kù)中的常用文件的文件類型進(jìn)行調(diào)整,確定出使用頻率最高或者較高的文件類型,也就是說,進(jìn)一步刪選出重復(fù)數(shù)據(jù)刪除工作量較大的文件類型,為所述文件類型確定合適的重復(fù)數(shù)據(jù)刪除規(guī)則,提高文件重復(fù)數(shù)據(jù)刪除率。第三,當(dāng)在常用文件數(shù)據(jù)庫(kù)中查找到與待存儲(chǔ)文件的文件類型相同的文件類型時(shí),將所述待存儲(chǔ)文件確定為常用文件,當(dāng)在常用文件數(shù)據(jù)庫(kù)中沒有查找到與待存儲(chǔ)文件的文件類型相同的文件類型時(shí),確定待存儲(chǔ)文件為非常用文件。具體地,識(shí)別待存儲(chǔ)文件的分類的方法,具體包括:首先,在獲取待存儲(chǔ)文件的文件格式,確定所述待存儲(chǔ)文件的文件格式對(duì)應(yīng)的文件類型之后,獲取確定的所述文件類型的出現(xiàn)次數(shù)。其次,判斷所述文件類型的出現(xiàn)次數(shù)是否大于閾值。第三,當(dāng)確定的文件類型的出現(xiàn)次數(shù)大于閾值時(shí),確定所述文件類型的文件為常用文件,當(dāng)所述文件類型的出現(xiàn)次數(shù)不大于閾值時(shí),確定所述文件類型的文件為非常用文件。或者,識(shí)別待存儲(chǔ)文件的分類的方法,具體包括:首先,在獲取待存儲(chǔ)文件的文件格式,確定所述待存儲(chǔ)文件的文件格式對(duì)應(yīng)的文件類型。其次,在查找常用文件數(shù)據(jù)庫(kù)中查找是否存在所述待存儲(chǔ)文件的文件類型。第三,當(dāng)在常用文件數(shù)據(jù)庫(kù)中查找到所述待存儲(chǔ)文件的文件類型時(shí),確定所述待存儲(chǔ)文件為常用文件,當(dāng)在常用文件數(shù)據(jù)庫(kù)中沒有查找到所述待存儲(chǔ)文件的文件類型時(shí),確定待存儲(chǔ)文件為非常用文件。需要說明的是,下面使用常用文件數(shù)據(jù)庫(kù)的方案使用該實(shí)施方式。當(dāng)然,另一種實(shí)施方案為數(shù)據(jù)庫(kù)中可以即存儲(chǔ)確定的常用文件的文件類型,又存儲(chǔ)確定的非常用文件的文件類型。步驟102:根據(jù)文件的分類確定所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則。具體地,在步驟102中,當(dāng)所述待存儲(chǔ)文件為常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除;當(dāng)所述待存儲(chǔ)文件為非常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為文件級(jí)重復(fù)數(shù)據(jù)刪除。也就是說,建立文件的分類類別與重復(fù)數(shù)據(jù)刪除規(guī)則之間的對(duì)應(yīng)關(guān)系,即常用文件與數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則之間的對(duì)應(yīng)關(guān)系,非常用文件與文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則之間的對(duì)應(yīng)關(guān)系。其中,所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則是指按照設(shè)定的數(shù)據(jù)塊劃分規(guī)則,將文件劃分成多個(gè)數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息,并根據(jù)計(jì)算得到的每一個(gè)數(shù)據(jù)塊的指紋信息進(jìn)行重復(fù)數(shù)據(jù)刪除的規(guī)則。其中,所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則是指從文件中選擇至少部分文件數(shù)據(jù),計(jì)算選擇出的所述文件數(shù)據(jù)的指紋信息,并根據(jù)計(jì)算得到的所述文件數(shù)據(jù)的指紋信息進(jìn)行重復(fù)數(shù)據(jù)刪除的規(guī)則。具體地,在步驟102中,根據(jù)文件的分類確定所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則,具體包括:首先,獲取待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)。例如:待存儲(chǔ)文件的文件類型為doc文件類型,則統(tǒng)計(jì)文件數(shù)據(jù)庫(kù)中出現(xiàn)的doc文件類型的出現(xiàn)次數(shù)為100次。其次,判斷所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)是否大于閾值。具體地,將所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)與閾值進(jìn)行比較。第三,當(dāng)所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)大于閾值時(shí),確定選擇的文件類型的文件為常用文件,根據(jù)常用文件與數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則之間的對(duì)應(yīng)關(guān)系,確定所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則;當(dāng)所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)不大于閾值時(shí),確定選擇的文件類型的文件為非常用文件,根據(jù)非常用文件與文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則之間的對(duì)應(yīng)關(guān)系,確定所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則。這樣,根據(jù)文件類型在不同時(shí)間段內(nèi)出現(xiàn)的次數(shù)不同,實(shí)時(shí)調(diào)整針對(duì)同一文件類型的重復(fù)數(shù)據(jù)刪除規(guī)則,經(jīng)過長(zhǎng)時(shí)間的訓(xùn)練學(xué)習(xí),能夠提高重復(fù)數(shù)據(jù)刪除率。其中,所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則是指按照設(shè)定的數(shù)據(jù)塊劃分規(guī)則,將文件類型對(duì)應(yīng)的文件劃分成多個(gè)的數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息,并根據(jù)計(jì)算得到的每一個(gè)數(shù)據(jù)塊的指紋信息進(jìn)行重復(fù)數(shù)據(jù)刪除的規(guī)則。所述劃分規(guī)則可以是數(shù)據(jù)塊的劃分大小、劃分時(shí)長(zhǎng)等等,這里不做限定。具體地,假設(shè)設(shè)定的數(shù)據(jù)塊的大小為1M,則將所述待存儲(chǔ)文件劃分成為多個(gè)數(shù)據(jù)塊(每一個(gè)數(shù)據(jù)塊的大小是1M),利用哈希算法得到每一個(gè)數(shù)據(jù)塊的指紋信息。這樣,針對(duì)同一文件,劃分?jǐn)?shù)據(jù)塊容量大小值越小,劃分粒度越小,那么計(jì)算得到的指紋信息越多,在進(jìn)行文件重復(fù)數(shù)據(jù)刪除時(shí),重復(fù)數(shù)據(jù)刪除率越高,而數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則尤其適用在短時(shí)間內(nèi)出現(xiàn)次數(shù)較多的文件類型,不僅有助于快速確定該文件類型中重復(fù)出現(xiàn)的數(shù)據(jù)塊,提高文件重復(fù)數(shù)據(jù)刪除率。其中,所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則是指從文件中選擇至少部分文件數(shù)據(jù),計(jì)算選擇出的所述文件數(shù)據(jù)的指紋信息,并根據(jù)計(jì)算得到的所述文件數(shù)據(jù)的指紋信息進(jìn)行重復(fù)數(shù)據(jù)刪除的規(guī)則。具體地,假設(shè)選擇的待存儲(chǔ)文件中的至少部分文件數(shù)據(jù)是指所述待存儲(chǔ)文件的摘要部分?jǐn)?shù)據(jù),則利用哈希算法計(jì)算出選擇的文件摘要部分?jǐn)?shù)據(jù)的指紋信息,將計(jì)算得到的指紋信息作為所述待存儲(chǔ)文件的指紋信息。所謂文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則適用于短時(shí)間內(nèi)出現(xiàn)次數(shù)較少的文件類型,也就是說適用于文件重復(fù)數(shù)量較少的文件類型中,提高文件重復(fù)數(shù)據(jù)刪除率。由此可見,數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則相對(duì)于文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則屬于細(xì)粒度地重復(fù)數(shù)據(jù)刪除規(guī)則,能夠避免采用文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則對(duì)文件進(jìn)行重復(fù)數(shù)據(jù)刪除之后還存在大量重復(fù)數(shù)據(jù)的情況。步驟103:根據(jù)確定的重復(fù)數(shù)據(jù)刪除規(guī)則,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除。具體地,在步驟103中,當(dāng)所述待存儲(chǔ)文件為常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除,根據(jù)所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除,包括:首先,根據(jù)所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,將所述待存儲(chǔ)文件劃分成多個(gè)數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息。其次,將所述每一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較。具體地,將所述每一個(gè)數(shù)據(jù)塊的指紋信息與文件指紋庫(kù)中存儲(chǔ)的指紋信息進(jìn)行比較,確定所述每一個(gè)數(shù)據(jù)塊的指紋信息是否已存儲(chǔ)在文件指紋庫(kù)中。第三,當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊與已存儲(chǔ)的與所述數(shù)據(jù)塊的指紋信息相同的指紋信息之間的引用信息,并丟棄所述數(shù)據(jù)塊;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊和計(jì)算得到的所述數(shù)據(jù)塊的指紋信息。當(dāng)所述待存儲(chǔ)文件為非常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為文件級(jí)重復(fù)數(shù)據(jù)刪除,根據(jù)所述文件級(jí)重復(fù)數(shù)據(jù)刪除,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除,具體包括:首先,根據(jù)所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,從所述待存儲(chǔ)文件中選擇至少部分文件數(shù)據(jù),計(jì)算出所述至少部分文件數(shù)據(jù)的指紋信息。其次,將計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較。具體地,將計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與文件指紋庫(kù)中存儲(chǔ)的指紋信息進(jìn)行比較,確定計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息是否已存儲(chǔ)在文件指紋庫(kù)中。第三,當(dāng)計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件與已存儲(chǔ)的與所述至少部分文件數(shù)據(jù)的指紋信息相同的指紋信息之間的引用信息,并丟棄所述待存儲(chǔ)文件;當(dāng)計(jì)算得到的指紋信息與已存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件和計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息。通過本發(fā)明實(shí)施例一的方案,識(shí)別待存儲(chǔ)文件的分類,并根據(jù)文件分類確定所述存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則,根據(jù)確定的重復(fù)數(shù)據(jù)刪除規(guī)則,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除,這樣利用文件的分類,確定重復(fù)數(shù)據(jù)刪除規(guī)則,有針對(duì)性地對(duì)待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除,提高了文件重復(fù)數(shù)據(jù)刪除率。實(shí)施例二:如圖2所示,為本發(fā)明實(shí)施例二的一種對(duì)文件進(jìn)行重復(fù)數(shù)據(jù)刪除的方法的流程示意圖。本發(fā)明實(shí)施例二是與本發(fā)明實(shí)施例一在同一構(gòu)思下的方法,所述方法包括:步驟201:判斷接收到的待存儲(chǔ)文件是否屬于常用文件數(shù)據(jù)庫(kù)中存儲(chǔ)的常用文件,若屬于,則執(zhí)行步驟202;若不屬于,則執(zhí)行步驟206。具體地,在步驟201中,所述常用文件數(shù)據(jù)庫(kù)中存儲(chǔ)的常用文件的獲取方式包括但不限于:如圖3所示,為常用文件數(shù)據(jù)庫(kù)中常用文件的獲取方法的流程示意圖。步驟21:掃描當(dāng)前常用文件數(shù)據(jù)庫(kù)中所有文件,并確定每一個(gè)文件的文件類型。步驟22:針對(duì)相同的文件類型,從文件類型基本信息庫(kù)中獲取所述文件類型出現(xiàn)的次數(shù),統(tǒng)計(jì)該文件類型的文件級(jí)重復(fù)次數(shù)和該文件類型的數(shù)據(jù)塊級(jí)重復(fù)次數(shù),并生成文件類型重復(fù)次數(shù)統(tǒng)計(jì)表。如表1所示,為文件類型重復(fù)次數(shù)統(tǒng)計(jì)表:文件類型重復(fù)出現(xiàn)次數(shù)文件級(jí)重復(fù)次數(shù)數(shù)據(jù)塊級(jí)重復(fù)次數(shù)doc文件類型1505694txt文件類型1204575pdf文件類型1254679表1其中,所述文件類型基本信息庫(kù)是一種保存文件類型信息和文件類型信息出現(xiàn)次數(shù)的數(shù)據(jù)庫(kù)。步驟23:讀取文件類型重復(fù)次數(shù)統(tǒng)計(jì)表中任一文件類型的數(shù)據(jù)信息,根據(jù)所述文件類型的文件級(jí)重復(fù)次數(shù)和數(shù)據(jù)塊級(jí)重復(fù)次數(shù),確定所述文件類型的整文件重復(fù)率。具體地,所述文件類型的整文件重復(fù)率等于所述文件類型的文件級(jí)重復(fù)次數(shù)與所述文件類型的數(shù)據(jù)塊級(jí)重復(fù)次數(shù)的比值。例如:讀取文件類型重復(fù)次數(shù)統(tǒng)計(jì)表中任一文件類型的數(shù)據(jù)信息為:doc文件類型、所述doc文件類型的文件級(jí)重復(fù)次數(shù)為56、所述doc文件類型的數(shù)據(jù)塊級(jí)重復(fù)次數(shù)為94,則所述doc文件類型的整文件重復(fù)率為56/94;讀取文件類型重復(fù)次數(shù)統(tǒng)計(jì)表中任一文件類型的數(shù)據(jù)信息為:txt文件類型、所述txt文件類型的文件級(jí)重復(fù)次數(shù)為45、所述txt文件類型的數(shù)據(jù)塊級(jí)重復(fù)次數(shù)為75,則所述txt文件類型的整文件重復(fù)率為45/75;讀取文件類型重復(fù)次數(shù)統(tǒng)計(jì)表中任一文件類型的數(shù)據(jù)信息為:pdf文件類型、所述pdf文件類型的文件級(jí)重復(fù)次數(shù)為46、所述pdf文件類型的數(shù)據(jù)塊級(jí)重復(fù)次數(shù)為79,則所述pdf文件類型的整文件重復(fù)率為46/79。步驟24:將計(jì)算得到的每一種文件類型的整文件重復(fù)率分別與門限值進(jìn)行比較。具體地,判斷計(jì)算得到的每一種文件類型的整文件重復(fù)率是否大于門限值。需要說明的是,所述門限值,可以是一個(gè)百分值,介于1%與100%之間,具體可根據(jù)實(shí)際需要確定。步驟25:根據(jù)比較結(jié)果,確定每一種文件類型對(duì)應(yīng)的文件是屬于常用文件還是屬于非常用文件。具體地,選擇一種文件類型,當(dāng)計(jì)算得到的文件類型的整文件重復(fù)率大于門限值時(shí),確定所述文件類型對(duì)應(yīng)的文件屬于常用文件;當(dāng)計(jì)算得到的文件類型的整文件重復(fù)率不大于門限值時(shí),確定所述文件類型對(duì)應(yīng)的文件屬于非常用文件。較優(yōu)地,將確定的屬于常用文件對(duì)應(yīng)的文件類型刷新至常用文件數(shù)據(jù)庫(kù)中,將確定的屬于非常用文件的文件類型從常用文件數(shù)據(jù)庫(kù)中刪除。具體地,將接收到的待存儲(chǔ)文件的文件類型與常用文件數(shù)據(jù)庫(kù)中存儲(chǔ)的文件類型進(jìn)行比較,當(dāng)在常用文件數(shù)據(jù)庫(kù)中查找到與所述待存儲(chǔ)文件的文件類型相同的文件類型時(shí),確定待存儲(chǔ)文件屬于常用文件;當(dāng)在常用文件數(shù)據(jù)庫(kù)中沒有查找到與所述待存儲(chǔ)文件的文件類型相同的文件類型時(shí),確定待存儲(chǔ)文件屬于非常用文件。步驟202:在確定接收到的所述待存儲(chǔ)文件屬于常見文件時(shí),根據(jù)常用文件類型與數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則之間的對(duì)應(yīng)關(guān)系,確定所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則。其中,所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則是指按照設(shè)定的數(shù)據(jù)塊劃分規(guī)則,將文件類型對(duì)應(yīng)的文件劃分成多個(gè)的數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息,并根據(jù)計(jì)算得到的每一個(gè)數(shù)據(jù)塊的指紋信息進(jìn)行重復(fù)數(shù)據(jù)刪除的規(guī)則。步驟203:根據(jù)所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,將所述待存儲(chǔ)文件劃分成多個(gè)數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息。具體地,在步驟203中,假設(shè)設(shè)定的數(shù)據(jù)塊的大小為1M,則將所述待存儲(chǔ)文件劃分成為多個(gè)的數(shù)據(jù)塊(每一個(gè)數(shù)據(jù)塊的大小是1M),利用哈希算法得到每一個(gè)數(shù)據(jù)塊的指紋信息。這樣,針對(duì)同一文件,劃分?jǐn)?shù)據(jù)塊容量大小值越小,劃分粒度越小,那么計(jì)算得到的指紋信息越多,在進(jìn)行文件重復(fù)數(shù)據(jù)刪除時(shí),重復(fù)數(shù)據(jù)刪除率越高,而數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則尤其適用在短時(shí)間內(nèi)出現(xiàn)次數(shù)較多的文件類型,不僅有助于快速確定該文件類型中重復(fù)出現(xiàn)的數(shù)據(jù)塊,提高文件重復(fù)數(shù)據(jù)刪除率。步驟204:判斷每一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息是否相同。具體地,將所述每一個(gè)數(shù)據(jù)塊的指紋信息與文件指紋庫(kù)中存儲(chǔ)的指紋信息進(jìn)行比較,確定所述每一個(gè)數(shù)據(jù)塊的指紋信息是否已存儲(chǔ)在文件指紋庫(kù)中。步驟205:根據(jù)判斷結(jié)果,對(duì)待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除處理。具體地,在步驟205中,當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊與已存儲(chǔ)的與所述數(shù)據(jù)塊的指紋信息相同的指紋信息之間的引用信息,并丟棄所述數(shù)據(jù)塊;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊和計(jì)算得到的所述數(shù)據(jù)塊的指紋信息。步驟206:在確定接收到的所述待存儲(chǔ)文件是非常用文件時(shí),根據(jù)非常用文件與文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則之間的對(duì)應(yīng)關(guān)系,確定所述待存儲(chǔ)文件對(duì)應(yīng)的重復(fù)數(shù)據(jù)刪除規(guī)則為文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則。其中,所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則是指從文件中選擇至少部分文件數(shù)據(jù),計(jì)算選擇出的所述文件數(shù)據(jù)的指紋信息,并根據(jù)計(jì)算得到的所述文件數(shù)據(jù)的指紋信息進(jìn)行重復(fù)數(shù)據(jù)刪除的規(guī)則。具體地,假設(shè)選擇的待存儲(chǔ)文件中的至少部分文件數(shù)據(jù)是指所述待存儲(chǔ)文件的摘要部分?jǐn)?shù)據(jù),則利用哈希算法計(jì)算出選擇的文件摘要部分?jǐn)?shù)據(jù)的指紋信息,將計(jì)算得到的指紋信息作為所述待存儲(chǔ)文件的指紋信息。所謂文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則適用于短時(shí)間內(nèi)出現(xiàn)次數(shù)較少的文件類型,也就是說適用于文件重復(fù)數(shù)量較少的文件類型中,提高文件重復(fù)數(shù)據(jù)刪除率。步驟207:根據(jù)所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,從所述待存儲(chǔ)文件中選擇至少部分文件數(shù)據(jù),計(jì)算出所述至少部分文件數(shù)據(jù)的指紋信息。步驟208:將計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較。具體地,將計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與文件指紋庫(kù)中存儲(chǔ)的指紋信息進(jìn)行比較,確定計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息是否已存儲(chǔ)在文件指紋庫(kù)中。步驟209:根據(jù)比較結(jié)果,對(duì)待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除處理。具體地,在步驟209中,當(dāng)計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件與已存儲(chǔ)的與所述至少部分文件數(shù)據(jù)的指紋信息相同的指紋信息之間的引用信息,并丟棄所述待存儲(chǔ)文件;當(dāng)計(jì)算得到的指紋信息與已存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件和計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息。通過本發(fā)明實(shí)施例二的方案,采用混合重復(fù)數(shù)據(jù)刪除技術(shù),能夠減少系統(tǒng)中文件切割次數(shù)以及指紋信息量,針對(duì)不同的文件,有針對(duì)性地采用數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則和文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,提高了文件重復(fù)數(shù)據(jù)刪除率。實(shí)施例三:如圖4所示,為本發(fā)明實(shí)施例三的一種重復(fù)數(shù)據(jù)刪除方法的流程示意圖。本發(fā)明實(shí)施例三是與本發(fā)明實(shí)施例一和本發(fā)明實(shí)施例二在同一發(fā)明構(gòu)思下的方法,所述方法包括:步驟301:監(jiān)聽I(yíng)O端口輸入的待存儲(chǔ)文件,并利用文件類型識(shí)別器確定監(jiān)聽到的待存儲(chǔ)文件的文件類型。具體地,在步驟301中,實(shí)時(shí)監(jiān)聽I(yíng)O端口輸入的待存儲(chǔ)文件,利用文件類型識(shí)別器對(duì)監(jiān)聽到的待存儲(chǔ)文件的文件類型進(jìn)行識(shí)別。較優(yōu)地,在確定出待存儲(chǔ)文件的文件類型后,從文件類型基本信息庫(kù)中查找到該確定的文件類型,將所述確定的文件類型的出現(xiàn)次數(shù)增加設(shè)定值,并刷新文件類型基本信息庫(kù)中文件類型的出現(xiàn)次數(shù)。其中,所述文件類型基本信息庫(kù)是一種保存文件類型信息和文件類型信息出現(xiàn)次數(shù)的數(shù)據(jù)庫(kù)。步驟302:獲取待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)。步驟303:判斷待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)是否大于閾值。具體地,將待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)與閾值進(jìn)行比較。當(dāng)待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)大于閾值時(shí),執(zhí)行步驟304、305、306和307;當(dāng)待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)不大于閾值時(shí),執(zhí)行步驟308、309、310和311。較優(yōu)地,在步驟303中,當(dāng)待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)大于閾值時(shí),確定所述待存儲(chǔ)文件為常用文件,并將待存儲(chǔ)文件的文件類型刷新至常用文件數(shù)據(jù)庫(kù)中。步驟304:在待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)大于閾值時(shí),根據(jù)文件類型出現(xiàn)次數(shù)確定的文件分類與重復(fù)數(shù)據(jù)刪除規(guī)則之間的對(duì)應(yīng)關(guān)系,確定所述待存儲(chǔ)文件的重復(fù)數(shù)據(jù)刪除規(guī)則為數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則。其中,所述待存儲(chǔ)文件的文件類型確定的文件分類與重復(fù)數(shù)據(jù)刪除規(guī)則之間的對(duì)應(yīng)關(guān)系為:待存儲(chǔ)文件的文件類型出現(xiàn)次數(shù)大于閾值,即則該待存儲(chǔ)文件為常用文件,對(duì)應(yīng)數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則;待存儲(chǔ)文件的文件類型出現(xiàn)次數(shù)不大于閾值,即則該待存儲(chǔ)文件為非常用文件,對(duì)應(yīng)文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則。其中,所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則是指按照設(shè)定的數(shù)據(jù)塊劃分規(guī)則,將文件類型對(duì)應(yīng)的文件劃分成多個(gè)的數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息,并根據(jù)計(jì)算得到的每一個(gè)數(shù)據(jù)塊的指紋信息進(jìn)行重復(fù)數(shù)據(jù)刪除的規(guī)則。步驟305:根據(jù)所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,將所述待存儲(chǔ)文件劃分成多個(gè)數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息。具體地,在步驟305中,假設(shè)設(shè)定的數(shù)據(jù)塊的大小為1M,則將所述待存儲(chǔ)文件劃分成為多個(gè)的數(shù)據(jù)塊(每一個(gè)數(shù)據(jù)塊的大小是1M),利用哈希算法得到每一個(gè)數(shù)據(jù)塊的指紋信息。這樣,針對(duì)同一文件,劃分?jǐn)?shù)據(jù)塊容量大小值越小,劃分粒度越小,那么計(jì)算得到的指紋信息越多,在進(jìn)行文件重復(fù)數(shù)據(jù)刪除時(shí),重復(fù)數(shù)據(jù)刪除率越高,而數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則尤其適用在短時(shí)間內(nèi)出現(xiàn)次數(shù)較多的文件類型,不僅有助于快速確定該文件類型中重復(fù)出現(xiàn)的數(shù)據(jù)塊,提高文件重復(fù)數(shù)據(jù)刪除率。步驟306:將所述每一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較。具體地,在步驟306中,將所述每一個(gè)數(shù)據(jù)塊的指紋信息與文件指紋庫(kù)中存儲(chǔ)的指紋信息進(jìn)行比較,確定所述每一個(gè)數(shù)據(jù)塊的指紋信息是否已存儲(chǔ)在文件指紋庫(kù)中。步驟307:根據(jù)判斷結(jié)果,對(duì)待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除處理。具體地,在步驟307中,當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊與已存儲(chǔ)的與所述數(shù)據(jù)塊的指紋信息相同的指紋信息之間的引用信息,并丟棄所述數(shù)據(jù)塊;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊和計(jì)算得到的所述數(shù)據(jù)塊的指紋信息。步驟308:在待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)不大于閾值時(shí),根據(jù)文件類型出現(xiàn)次數(shù)確定的文件分類與重復(fù)數(shù)據(jù)刪除規(guī)則之間的對(duì)應(yīng)關(guān)系,確定所述待存儲(chǔ)文件對(duì)應(yīng)的重復(fù)數(shù)據(jù)刪除規(guī)則為文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則。其中,所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則是指從文件中選擇至少部分文件數(shù)據(jù),計(jì)算選擇出的所述文件數(shù)據(jù)的指紋信息,并根據(jù)計(jì)算得到的所述文件數(shù)據(jù)的指紋信息進(jìn)行重復(fù)數(shù)據(jù)刪除的規(guī)則。步驟309:根據(jù)所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,從所述待存儲(chǔ)文件中選擇至少部分文件數(shù)據(jù),計(jì)算出所述至少部分文件數(shù)據(jù)的指紋信息。具體地,在步驟309中,假設(shè)選擇的待存儲(chǔ)文件中的至少部分文件數(shù)據(jù)是指所述待存儲(chǔ)文件的摘要部分?jǐn)?shù)據(jù),則利用哈希算法計(jì)算出選擇的文件摘要部分?jǐn)?shù)據(jù)的指紋信息,將計(jì)算得到的指紋信息作為所述待存儲(chǔ)文件的指紋信息。所謂文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則適用于短時(shí)間內(nèi)出現(xiàn)次數(shù)較少的文件類型,也就是說適用于文件重復(fù)數(shù)量較少的文件類型中,提高文件重復(fù)數(shù)據(jù)刪除率。步驟310:將計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較。具體地,將計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與文件指紋庫(kù)中存儲(chǔ)的指紋信息進(jìn)行比較,確定計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息是否已存儲(chǔ)在文件指紋庫(kù)中。步驟311:根據(jù)判斷結(jié)果,對(duì)待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除處理。具體地,在步驟311中,當(dāng)計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件與已存儲(chǔ)的與所述至少部分文件數(shù)據(jù)的指紋信息相同的指紋信息之間的引用信息,并丟棄所述待存儲(chǔ)文件;當(dāng)計(jì)算得到的指紋信息與已存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件和計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息。實(shí)施例四:如圖5所示,為本發(fā)明實(shí)施例四的一種重復(fù)數(shù)據(jù)刪除設(shè)備的結(jié)構(gòu)示意圖,本發(fā)明實(shí)施例四是與本發(fā)明實(shí)施例一至實(shí)施例三在同一構(gòu)思下的設(shè)備,所述設(shè)備包括:識(shí)別模塊11、刪除規(guī)則確定模塊12和刪除模塊13,其中:識(shí)別模塊11,用于識(shí)別待存儲(chǔ)文件的分類;刪除規(guī)則確定模塊12,用于根據(jù)文件的分類確定所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則;刪除模塊13,用于根據(jù)確定的重復(fù)數(shù)據(jù)刪除規(guī)則,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除。具體地,所述文件的分類包括常用文件和非常用文件。所述識(shí)別模塊11,用于獲取所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù),并判斷所述文件類型的出現(xiàn)次數(shù)是否大于閾值,當(dāng)所述文件類型的出現(xiàn)次數(shù)大于所述閾值時(shí),將所述待存儲(chǔ)文件確定為常用文件,當(dāng)獲取的所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)不大于所述閾值時(shí),將所述待存儲(chǔ)文件確定為非常用文件;或者,在查找常用文件數(shù)據(jù)庫(kù)中查找所述待存儲(chǔ)文件的文件類型,當(dāng)在常用文件數(shù)據(jù)庫(kù)中查找到所述待存儲(chǔ)文件的文件類型時(shí),將所述待存儲(chǔ)文件確定為常用文件,當(dāng)在常用文件數(shù)據(jù)庫(kù)中沒有查找到所述待存儲(chǔ)文件的文件類型時(shí),確定待存儲(chǔ)文件為非常用文件。具體地,所述刪除規(guī)則確定模塊12,具體用于當(dāng)所述待存儲(chǔ)文件為常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除。所述刪除模塊13,具體用于根據(jù)所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,將所述待存儲(chǔ)文件劃分成多個(gè)數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息;將所述每一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊與已存儲(chǔ)的與所述數(shù)據(jù)塊的指紋信息相同的指紋信息之間的引用信息,并丟棄所述數(shù)據(jù)塊;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊和計(jì)算得到的所述數(shù)據(jù)塊的指紋信息。具體地,所述刪除規(guī)則確定模塊12,具體用于當(dāng)所述待存儲(chǔ)文件為非常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為文件級(jí)重復(fù)數(shù)據(jù)刪除。所述刪除模塊13,具體用于根據(jù)所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,從所述待存儲(chǔ)文件中選擇至少部分文件數(shù)據(jù),計(jì)算出所述至少部分文件數(shù)據(jù)的指紋信息;將計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較;當(dāng)計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件與已存儲(chǔ)的與所述至少部分文件數(shù)據(jù)的指紋信息相同的指紋信息之間的引用信息,并丟棄所述待存儲(chǔ)文件;當(dāng)計(jì)算得到的指紋信息與已存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件和計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息。需要說明的是,本發(fā)明涉及的去重引擎設(shè)備可以是應(yīng)用在文件存儲(chǔ)服務(wù)器中的硬件設(shè)備,還可以是應(yīng)用在VDI系統(tǒng)的邏輯部件,集成在VDI系統(tǒng)中,這里不做具體限定。實(shí)施例五:如圖6所示,為本發(fā)明實(shí)施例五的一種重復(fù)數(shù)據(jù)刪除設(shè)備的結(jié)構(gòu)示意圖,本發(fā)明實(shí)施例五是與本發(fā)明實(shí)施例四在同一構(gòu)思下的設(shè)備,所述設(shè)備包括:輸入監(jiān)控器21、處理器22、存儲(chǔ)器23和文件數(shù)據(jù)庫(kù)24,其中,輸入監(jiān)控器21、處理器22、存儲(chǔ)器23和文件數(shù)據(jù)庫(kù)24通過總線25連接,其中:輸入監(jiān)控器21,用于識(shí)別待存儲(chǔ)文件的分類;處理器22,用于根據(jù)文件的分類確定所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則,根據(jù)確定的重復(fù)數(shù)據(jù)刪除規(guī)則,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除。具體地,所述文件的分類包括常用文件和非常用文件。所述輸入監(jiān)控器21,用于獲取所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù),并判斷所述文件類型的出現(xiàn)次數(shù)是否大于閾值,當(dāng)所述文件類型的出現(xiàn)次數(shù)大于所述閾值時(shí),將所述待存儲(chǔ)文件確定為常用文件,當(dāng)獲取的所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)不大于所述閾值時(shí),將所述待存儲(chǔ)文件確定為非常用文件;或者,在查找常用文件數(shù)據(jù)庫(kù)24中查找所述待存儲(chǔ)文件的文件類型,當(dāng)在常用文件數(shù)據(jù)庫(kù)中查找到所述待存儲(chǔ)文件的文件類型時(shí),將所述待存儲(chǔ)文件確定為常用文件,當(dāng)在常用文件數(shù)據(jù)庫(kù)中沒有查找到所述待存儲(chǔ)文件的文件類型時(shí),確定待存儲(chǔ)文件為非常用文件。具體地,所述處理器22,具體用于當(dāng)所述待存儲(chǔ)文件為常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除,并根據(jù)所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,將所述待存儲(chǔ)文件劃分成多個(gè)數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息;將所述每一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊與已存儲(chǔ)的與所述數(shù)據(jù)塊的指紋信息相同的指紋信息之間的引用信息,并丟棄所述數(shù)據(jù)塊;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊和計(jì)算得到的所述數(shù)據(jù)塊的指紋信息。所述處理器,具體用于當(dāng)所述待存儲(chǔ)文件為非常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為文件級(jí)重復(fù)數(shù)據(jù)刪除,并根據(jù)所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,從所述待存儲(chǔ)文件中選擇至少部分文件數(shù)據(jù),計(jì)算出所述至少部分文件數(shù)據(jù)的指紋信息;將計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較;當(dāng)計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件與已存儲(chǔ)的與所述至少部分文件數(shù)據(jù)的指紋信息相同的指紋信息之間的引用信息,并丟棄所述待存儲(chǔ)文件;當(dāng)計(jì)算得到的指紋信息與已存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件和計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息。需要說明的是,待存儲(chǔ)文件中的不重復(fù)數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器23中。如圖7所示,為重復(fù)數(shù)據(jù)刪除設(shè)備的邏輯架構(gòu)圖。其中,所述重復(fù)數(shù)據(jù)刪除設(shè)備包括了:常用文件識(shí)別模塊31、常用文件數(shù)據(jù)庫(kù)32、常用文件調(diào)整模塊33、IO監(jiān)控器34、寫指令單元35、讀指令單元36和主存儲(chǔ)器37。具體地,所述IO監(jiān)控器34,用于接收待存儲(chǔ)文件,并將接收到的待存儲(chǔ)文件發(fā)送給常用文件識(shí)別模塊31。所述常用文件識(shí)別模塊31,用于獲取待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù),并判斷獲取的文件類型的出現(xiàn)次數(shù)是否大于閾值。所述常用文件識(shí)別模塊31,用于掃描常用文件數(shù)據(jù)庫(kù)中所有文件,并確定每一個(gè)文件的文件類型,針對(duì)相同的文件類型,從文件類型基本信息庫(kù)中獲取所述文件類型出現(xiàn)的次數(shù),統(tǒng)計(jì)所述文件類型出現(xiàn)的次數(shù)、該文件類型的文件級(jí)重復(fù)次數(shù)和該文件類型的數(shù)據(jù)塊級(jí)重復(fù)次數(shù),并生成文件類型重復(fù)次數(shù)統(tǒng)計(jì)表,讀取文件類型重復(fù)次數(shù)統(tǒng)計(jì)表中任一文件類型的數(shù)據(jù)信息,根據(jù)所述文件類型的文件級(jí)重復(fù)次數(shù)和數(shù)據(jù)塊級(jí)重復(fù)次數(shù),確定所述文件類型的整文件重復(fù)率,將計(jì)算得到的每一種文件類型的整文件重復(fù)率與門限值進(jìn)行比較,并根據(jù)比較結(jié)果,確定每一種文件類型對(duì)應(yīng)的文件是屬于常用文件還是屬于非常用文件。所述常用文件識(shí)別模塊31,用于判斷待存儲(chǔ)文件的文件類型是否與常用文件庫(kù)中存儲(chǔ)的文件類型相同;當(dāng)待存儲(chǔ)文件的文件類型與常用文件數(shù)據(jù)庫(kù)中存儲(chǔ)的文件類型相同時(shí),確定待存儲(chǔ)文件為常用文件;當(dāng)待存儲(chǔ)文件的文件類型與常用文件數(shù)據(jù)庫(kù)中存儲(chǔ)的文件類型不相同時(shí),確定待存儲(chǔ)文件為非常用文件。所述常用文件數(shù)據(jù)庫(kù)32,用于存儲(chǔ)常用文件。所述常用文件調(diào)整模塊33,用于將確定的屬于常用文件對(duì)應(yīng)的文件類型刷新至常用文件數(shù)據(jù)庫(kù)中,將確定的屬于非常用文件對(duì)應(yīng)的文件類型從常用文件庫(kù)中刪除。寫指令單元35和讀指令單元36,用于對(duì)待存儲(chǔ)文件執(zhí)行讀操作或者寫操作。具體地,所述寫指令單元35,用于當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊與已存儲(chǔ)的與所述數(shù)據(jù)塊的指紋信息相同的指紋信息之間的引用信息,并丟棄所述數(shù)據(jù)塊;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊和計(jì)算得到的所述數(shù)據(jù)塊的指紋信息(存儲(chǔ)至主存儲(chǔ)器37中);或者,當(dāng)計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件與已存儲(chǔ)的與所述至少部分文件數(shù)據(jù)的指紋信息相同的指紋信息之間的引用信息,并丟棄所述待存儲(chǔ)文件;當(dāng)計(jì)算得到的指紋信息與已存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件和計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息(存儲(chǔ)至主存儲(chǔ)器37中)。如圖8所示,為重復(fù)數(shù)據(jù)刪除設(shè)備的系統(tǒng)架構(gòu)圖。所述系統(tǒng)包括:虛擬機(jī)(VirtualMachine,VM)411~41n,超級(jí)管理程序Hypervisor42、重復(fù)數(shù)據(jù)刪除設(shè)備43和主存儲(chǔ)設(shè)備44,其中:重復(fù)數(shù)據(jù)刪除設(shè)備43,用于收集所有來自Hypervisor42的待存儲(chǔ)文件,并對(duì)待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除,將重復(fù)數(shù)據(jù)刪除后的數(shù)據(jù)存儲(chǔ)至主存儲(chǔ)設(shè)備44中。具體地,重復(fù)數(shù)據(jù)刪除設(shè)備43,用于識(shí)別待存儲(chǔ)文件的分類;根據(jù)文件的分類確定所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則;根據(jù)確定的重復(fù)數(shù)據(jù)刪除規(guī)則,對(duì)所述待存儲(chǔ)文件進(jìn)行重復(fù)數(shù)據(jù)刪除。具體地,所述文件的分類包括常用文件和非常用文件。所述重復(fù)數(shù)據(jù)刪除設(shè)備43,用于獲取所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù),并判斷所述文件類型的出現(xiàn)次數(shù)是否大于閾值,當(dāng)所述文件類型的出現(xiàn)次數(shù)大于所述閾值時(shí),確定所述待存儲(chǔ)文件為常用文件,當(dāng)獲取的所述待存儲(chǔ)文件的文件類型的出現(xiàn)次數(shù)不大于所述閾值時(shí),確定所述待存儲(chǔ)文件為非常用文件;或者,在查找常用文件數(shù)據(jù)庫(kù)中查找所述待存儲(chǔ)文件的文件類型,當(dāng)在常用文件數(shù)據(jù)庫(kù)中查找到所述待存儲(chǔ)文件的文件類型時(shí),確定所述待存儲(chǔ)文件為常用文件,當(dāng)在常用文件數(shù)據(jù)庫(kù)中沒有查找到所述待存儲(chǔ)文件的文件類型時(shí),確定待存儲(chǔ)文件為非常用文件。具體地,所述重復(fù)數(shù)據(jù)刪除設(shè)備43,用于當(dāng)所述待存儲(chǔ)文件為常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除;當(dāng)所述待存儲(chǔ)文件為非常用文件時(shí),所述待存儲(chǔ)文件使用的重復(fù)數(shù)據(jù)刪除規(guī)則為文件級(jí)重復(fù)數(shù)據(jù)刪除。所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則是指按照設(shè)定的數(shù)據(jù)塊劃分規(guī)則,將文件類型對(duì)應(yīng)的文件劃分成多個(gè)的數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息,并根據(jù)計(jì)算得到的每一個(gè)數(shù)據(jù)塊的指紋信息進(jìn)行重復(fù)數(shù)據(jù)刪除的規(guī)則。具體地,所述重復(fù)數(shù)據(jù)刪除設(shè)備43,用于根據(jù)所述數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,將所述待存儲(chǔ)文件劃分成多個(gè)數(shù)據(jù)塊,計(jì)算每一個(gè)數(shù)據(jù)塊的指紋信息;將所述每一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊與已存儲(chǔ)的與所述數(shù)據(jù)塊的指紋信息相同的指紋信息之間的引用信息,并丟棄所述數(shù)據(jù)塊;當(dāng)一個(gè)數(shù)據(jù)塊的指紋信息與存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述數(shù)據(jù)塊和計(jì)算得到的所述數(shù)據(jù)塊的指紋信息。具體地,所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則是指從文件中選擇至少部分文件數(shù)據(jù),計(jì)算選擇出的所述文件數(shù)據(jù)的指紋信息,并根據(jù)計(jì)算得到的所述文件數(shù)據(jù)的指紋信息進(jìn)行重復(fù)數(shù)據(jù)刪除的規(guī)則。具體地,所述重復(fù)數(shù)據(jù)刪除設(shè)備43,用于根據(jù)所述文件級(jí)重復(fù)數(shù)據(jù)刪除規(guī)則,從所述待存儲(chǔ)文件中選擇至少部分文件數(shù)據(jù),計(jì)算出所述至少部分文件數(shù)據(jù)的指紋信息;將計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與存儲(chǔ)的指紋信息進(jìn)行比較;當(dāng)計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息與已存儲(chǔ)的指紋信息相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件與已存儲(chǔ)的與所述至少部分文件數(shù)據(jù)的指紋信息相同的指紋信息之間的引用信息,并丟棄所述待存儲(chǔ)文件;當(dāng)計(jì)算得到的指紋信息與已存儲(chǔ)的指紋信息不相同時(shí),存儲(chǔ)所述待存儲(chǔ)文件和計(jì)算得到的所述至少部分文件數(shù)據(jù)的指紋信息。本領(lǐng)域的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、裝置(設(shè)備)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、裝置(設(shè)備)和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。