去重復(fù)數(shù)據(jù)的恢復(fù)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信領(lǐng)域,具體而言,涉及一種去重復(fù)數(shù)據(jù)的恢復(fù)方法及裝置。
【背景技術(shù)】
[0002]目前現(xiàn)有的存儲(chǔ)技術(shù)在去除重復(fù)數(shù)據(jù)時(shí)只能在本服務(wù)器內(nèi)去除重復(fù),不能利用高效的網(wǎng)絡(luò)進(jìn)行整個(gè)系統(tǒng)內(nèi)的重復(fù)數(shù)據(jù)去除;另外當(dāng)已經(jīng)去除重復(fù)的數(shù)據(jù)庫(kù)在訪問(wèn)量過(guò)大時(shí),只是簡(jiǎn)單的進(jìn)行回復(fù)數(shù)據(jù)來(lái)應(yīng)對(duì)訪問(wèn)量過(guò)大引起的訪問(wèn)性能下降問(wèn)題,這樣仍然不能有效解決上述問(wèn)題。
[0003]并且,在去重復(fù)數(shù)據(jù)的恢復(fù)方案中,往外會(huì)造成對(duì)同一對(duì)數(shù)據(jù)塊(chunk)的訪問(wèn)過(guò)度密集,導(dǎo)致訪問(wèn)效率下降,影響分布式文件系統(tǒng)的運(yùn)行效率。
[0004]針對(duì)相關(guān)技術(shù)中的上述問(wèn)題,目如尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0005]針對(duì)相關(guān)技術(shù)中,對(duì)同一數(shù)據(jù)塊的訪問(wèn)過(guò)度密集等問(wèn)題,本發(fā)明提供了一種去重復(fù)數(shù)據(jù)的恢復(fù)方法及裝置,以至少解決上述問(wèn)題。
[0006]根據(jù)本發(fā)明的一個(gè)方面,提供了一種去重復(fù)數(shù)據(jù)的恢復(fù)方法,包括:獲取第一數(shù)據(jù)塊所對(duì)應(yīng)文件的第一訪問(wèn)次數(shù),其中,所述第一訪問(wèn)數(shù)表示當(dāng)前同時(shí)訪問(wèn)所述文件的訪問(wèn)者數(shù)量;將所述第一訪問(wèn)次數(shù)分別和第一閾值以及第二閾值進(jìn)行比較,其中,所述第一閾值小于第二閾值;根據(jù)比較結(jié)果,將所述第一數(shù)據(jù)塊恢復(fù)到第一存儲(chǔ)媒介或第二存儲(chǔ)媒介,其中,在所述第一訪問(wèn)數(shù)大于第一閾值且小于第二閾值時(shí),將所述第一數(shù)據(jù)塊恢復(fù)到第一存儲(chǔ)媒介;在所述第一訪問(wèn)數(shù)大于所述第二閾值時(shí),將所述第一數(shù)據(jù)塊恢復(fù)到第二存儲(chǔ)媒介;所述第二存儲(chǔ)媒介的訪問(wèn)效率高于所述第一存儲(chǔ)媒介的訪問(wèn)效率。
[0007]獲取第一數(shù)據(jù)塊所對(duì)應(yīng)文件的第一訪問(wèn)次數(shù)之前,包括:獲取所述第一數(shù)據(jù)塊的第二訪問(wèn)次數(shù),其中,第二訪問(wèn)數(shù)表示當(dāng)前同時(shí)訪問(wèn)該第一數(shù)據(jù)塊的訪問(wèn)者數(shù)量;在所述第二訪問(wèn)次數(shù)大于第三閾值時(shí),查找所述第一數(shù)據(jù)塊所對(duì)應(yīng)的文件。
[0008]獲取所述第一數(shù)據(jù)塊的第二訪問(wèn)次數(shù)之前,包括:獲取所述第一數(shù)據(jù)塊的特征信息,其中,所述特征信息用于表示僅所述第一數(shù)據(jù)塊具有的內(nèi)容;將所述特征信息通知給當(dāng)前分布式文件系統(tǒng)以及與所述當(dāng)前分布式文件系統(tǒng)相連的其它分布式文件系統(tǒng),其中,所述特征信息用于對(duì)所述當(dāng)前分布式文件系統(tǒng)以及所述其它分布式文件系統(tǒng)進(jìn)行消重處理。
[0009]將所述特征信息通知給當(dāng)前分布式文件系統(tǒng)包括:將所述特征信息通知給所述當(dāng)前分布式系統(tǒng)中的節(jié)點(diǎn)服務(wù)器。
[0010]將所述第一數(shù)據(jù)塊恢復(fù)到第一存儲(chǔ)媒介或第二存儲(chǔ)媒介,包括:對(duì)所述第一數(shù)據(jù)塊進(jìn)行復(fù)制,得到第二數(shù)據(jù)塊;將所述第二數(shù)據(jù)塊復(fù)制到所述第一存儲(chǔ)媒介或第二存儲(chǔ)媒介。
[0011]將所述第二數(shù)據(jù)塊復(fù)制到所述第一存儲(chǔ)媒介或第二存儲(chǔ)媒介之后,還包括:將所述第二訪問(wèn)次數(shù)減去所述第一訪問(wèn)次數(shù),得到所述第一數(shù)據(jù)塊的最新訪問(wèn)次數(shù),以及將所述第一數(shù)據(jù)塊的被引用計(jì)數(shù)減I。
[0012]根據(jù)本發(fā)明的另一個(gè)方面,提供一種去重復(fù)數(shù)據(jù)的恢復(fù)裝置,包括:第一獲取模塊,用于獲取第一數(shù)據(jù)塊所對(duì)應(yīng)文件的第一訪問(wèn)次數(shù),其中,所述第一訪問(wèn)數(shù)表示當(dāng)前同時(shí)訪問(wèn)所述文件的訪問(wèn)者數(shù)量;比較模塊,用于將所述第一訪問(wèn)次數(shù)分別和第一閾值以及第二閾值進(jìn)行比較,其中,所述第一閾值小于第二閾值;恢復(fù)模塊,用于根據(jù)比較結(jié)果,將所述第一數(shù)據(jù)塊恢復(fù)到第一存儲(chǔ)媒介或第二存儲(chǔ)媒介,其中,在所述第一訪問(wèn)數(shù)大于第一閾值且小于第二閾值時(shí),將所述第一數(shù)據(jù)塊恢復(fù)到第一存儲(chǔ)媒介;在所述第一訪問(wèn)數(shù)大于所述第二閾值時(shí),將所述第一數(shù)據(jù)塊恢復(fù)到第二存儲(chǔ)媒介;其中,所述第二存儲(chǔ)媒介的訪問(wèn)效率高于所述第一存儲(chǔ)媒介的訪問(wèn)效率。
[0013]上述裝置還包括:第二獲取模塊,用于獲取所述第一數(shù)據(jù)塊的第二訪問(wèn)次數(shù),其中,第二訪問(wèn)數(shù)表示當(dāng)前同時(shí)訪問(wèn)該第一數(shù)據(jù)塊的訪問(wèn)者數(shù)量;查詢(xún)模塊,用于在所述第二訪問(wèn)次數(shù)大于第三閾值時(shí),查找所述第一數(shù)據(jù)塊所對(duì)應(yīng)的文件。
[0014]上述裝置還包括:第三獲取模塊,用于獲取所述第一數(shù)據(jù)塊的特征信息,其中,所述特征信息用于表示僅所述第一數(shù)據(jù)塊具有的內(nèi)容;通知模塊,用于將所述特征信息通知給當(dāng)前分布式文件系統(tǒng)以及與所述當(dāng)前分布式文件系統(tǒng)相連的其它分布式文件系統(tǒng),其中,所述特征信息用于對(duì)所述當(dāng)前分布式文件系統(tǒng)以及所述其它分布式文件系統(tǒng)進(jìn)行消重處理。
[0015]上述裝置還包括:計(jì)數(shù)模塊,用于在將所述第二數(shù)據(jù)塊復(fù)制到所述第一存儲(chǔ)媒介或第二存儲(chǔ)媒介之后,將所述第二訪問(wèn)次數(shù)減去所述第一訪問(wèn)次數(shù),得到所述第一數(shù)據(jù)塊的最新訪問(wèn)次數(shù),以及將所述第一數(shù)據(jù)塊的被引用計(jì)數(shù)減I。
[0016]通過(guò)本發(fā)明,采用根據(jù)對(duì)第一數(shù)據(jù)塊所對(duì)應(yīng)文件的訪問(wèn)次數(shù)分別與第一閾值和第二閾值進(jìn)行比較,根據(jù)比較結(jié)果確定將第一數(shù)據(jù)塊恢復(fù)到第一存儲(chǔ)媒體或第二存儲(chǔ)媒介的技術(shù)手段,解決了相關(guān)技術(shù)中,對(duì)同一數(shù)據(jù)塊的訪問(wèn)過(guò)度密集等問(wèn)題,從而提高了對(duì)文件的訪問(wèn)效率。
【附圖說(shuō)明】
[0017]此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0018]圖1為根據(jù)本發(fā)明實(shí)施例的去重復(fù)數(shù)據(jù)的恢復(fù)方法的流程圖;
[0019]圖2為根據(jù)本發(fā)明實(shí)施例的去重復(fù)數(shù)據(jù)的恢復(fù)裝置的結(jié)構(gòu)框圖;
[0020]圖3為根據(jù)本發(fā)明實(shí)施例的去重復(fù)數(shù)據(jù)的恢復(fù)裝置的另一結(jié)構(gòu)框圖;
[0021]圖4為根據(jù)本發(fā)明優(yōu)選實(shí)施例的分布式文件系統(tǒng)的結(jié)構(gòu)框圖;
[0022]圖5為根據(jù)本發(fā)明優(yōu)選實(shí)施例的數(shù)據(jù)塊的消重流程示意圖;
[0023]圖6為根據(jù)本發(fā)明優(yōu)選實(shí)施例的數(shù)據(jù)塊的恢復(fù)流程示意圖;
[0024]圖7為根據(jù)本發(fā)明優(yōu)選實(shí)施例的去重復(fù)數(shù)據(jù)的恢復(fù)方法的流程圖;
[0025]圖8為根據(jù)本發(fā)明優(yōu)選實(shí)施例的去重復(fù)數(shù)據(jù)的恢復(fù)方法的另一流程圖。
【具體實(shí)施方式】
[0026]下文中將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0027]以下實(shí)施例可以應(yīng)用到計(jì)算機(jī)中,例如應(yīng)用到PC中。也可以應(yīng)用到目前采用了智能操作系統(tǒng)中的移動(dòng)終端中,并且并不限于此。對(duì)于計(jì)算機(jī)或移動(dòng)終端的操作系統(tǒng)并沒(méi)有特殊要求,只要支持應(yīng)用程序的運(yùn)行即可。例如,以下實(shí)施例可以應(yīng)用到Windows操作系統(tǒng)中。
[0028]圖1為根據(jù)本發(fā)明實(shí)施例的去重復(fù)數(shù)據(jù)的恢復(fù)方法的流程圖。如圖1所示,該方法包括:
[0029]步驟S102,獲取第一數(shù)據(jù)塊所對(duì)應(yīng)文件的第一訪問(wèn)次數(shù),其中,該第一訪問(wèn)數(shù)表示當(dāng)前同時(shí)訪問(wèn)上述文件的訪問(wèn)者數(shù)量;
[0030]在本實(shí)施例中,為了進(jìn)一步提高對(duì)數(shù)據(jù)塊的訪問(wèn)效率,在步驟S102之前,還需要考慮第一數(shù)據(jù)塊的訪問(wèn)次數(shù),具體地:獲取第一數(shù)據(jù)塊的第二訪問(wèn)次數(shù),其中,第二訪問(wèn)數(shù)表示當(dāng)前同時(shí)訪問(wèn)該第一數(shù)據(jù)塊的訪問(wèn)者數(shù)量;在第二訪問(wèn)次數(shù)大于第三閾值時(shí),查找第一數(shù)據(jù)塊所對(duì)應(yīng)的文件;獲取文件的第一訪問(wèn)次數(shù)。
[0031]為了實(shí)現(xiàn)跨系統(tǒng)以及跨服務(wù)器的消重處理,還需要執(zhí)行以下處理過(guò)程:獲取上述第一數(shù)據(jù)塊的特征信息,其中,上述特征信息用于表示僅上述第一數(shù)據(jù)塊具有的內(nèi)容;將上述特征信息通知給當(dāng)前分布式文件系統(tǒng)以及與上述當(dāng)前分布式文件系統(tǒng)相連的其它分布式文件系統(tǒng),其中,上述特征信息用于對(duì)上述其它分布式文件系統(tǒng)進(jìn)行消重處理。其中,對(duì)于跨服務(wù)器進(jìn)行消重之前,需要將上述特征信息通知給當(dāng)前分布式系統(tǒng)中的節(jié)點(diǎn)服務(wù)器。
[0032]步驟S104,將第一訪問(wèn)次數(shù)分別和第一閾值以及第二閾值進(jìn)行比較,其中,第一閾值小于第二閾值;
[0033]步驟S106,根據(jù)比較結(jié)果,將第一數(shù)據(jù)塊恢復(fù)到第一存儲(chǔ)媒介或第二存儲(chǔ)媒介,其中,在第一訪問(wèn)數(shù)大于第一閾值且小于第二閾值時(shí),將第一數(shù)據(jù)塊恢復(fù)到第一存儲(chǔ)媒介;在第一訪問(wèn)數(shù)大于第二閾值時(shí),將第一數(shù)據(jù)塊恢復(fù)到第二存儲(chǔ)媒介;上述第二存儲(chǔ)媒介的訪問(wèn)效率高于上述第一存儲(chǔ)媒介的訪問(wèn)效率。
[0034]將第一數(shù)據(jù)塊恢復(fù)到第一存儲(chǔ)媒介或第二存儲(chǔ)媒介可以表現(xiàn)為以下處理過(guò)程:對(duì)第一數(shù)據(jù)塊進(jìn)行復(fù)制,得到第二數(shù)據(jù)塊;將第二數(shù)據(jù)塊復(fù)制到第一存儲(chǔ)媒介或第二存儲(chǔ)媒介。
[0035]在將第二數(shù)據(jù)塊復(fù)制到上述第一存儲(chǔ)媒介或第二存儲(chǔ)媒介之后,將上述第二訪問(wèn)次數(shù)減去上述第一訪問(wèn)次數(shù),得到上述第一數(shù)據(jù)塊的最新訪問(wèn)次數(shù),以及將上述第一數(shù)據(jù)塊的被引用計(jì)數(shù)減I。
[0036]在本實(shí)施例中還提供了一種去重復(fù)數(shù)據(jù)的恢復(fù)裝置,用于實(shí)現(xiàn)上述實(shí)施例及優(yōu)選實(shí)施方式,已經(jīng)進(jìn)行過(guò)說(shuō)明的不再贅述,下面對(duì)該裝置中涉及到的模塊進(jìn)行說(shuō)明。如以下所使用的,術(shù)語(yǔ)“模塊”可以實(shí)現(xiàn)預(yù)定功能的軟件和/或硬件的組合。盡管以下實(shí)施例所描述的裝置較佳地以軟件來(lái)實(shí)現(xiàn),但是硬件,或者軟件和硬件的組合的實(shí)現(xiàn)也是可能并被構(gòu)想的。圖2為根據(jù)本發(fā)明實(shí)施例的去重復(fù)數(shù)據(jù)的恢復(fù)裝置的結(jié)構(gòu)框圖。如圖2所示,該裝置包括:
[0037]第一獲取模塊20,用于獲取第一數(shù)據(jù)塊所對(duì)應(yīng)文件的第一訪問(wèn)次數(shù),其中,第一訪問(wèn)數(shù)表示當(dāng)前同時(shí)訪問(wèn)上述文件的訪問(wèn)者數(shù)量;
[0038]比較模塊22,連接至第一獲取模塊20,用于將第一訪問(wèn)次數(shù)分別和第一閾值以及第二閾值進(jìn)行比較,其中,第一閾值小于第二閾值;
[0039]恢復(fù)模塊24,連接至比較模塊22,用于根據(jù)比較結(jié)果,將第一數(shù)據(jù)塊恢復(fù)到第一存儲(chǔ)媒介或第二存儲(chǔ)媒介,其中,在第一訪問(wèn)數(shù)大于第一閾值且小于第二閾值時(shí),將第一數(shù)據(jù)塊恢復(fù)到第一存儲(chǔ)媒介;在第一訪問(wèn)數(shù)大于第二閾值時(shí),將第一數(shù)據(jù)塊恢復(fù)到第二存儲(chǔ)媒介;其中,第二存儲(chǔ)媒介的訪問(wèn)效率高于第一存儲(chǔ)媒介的訪問(wèn)效率。
[0040]在本實(shí)施例中,如圖3所示,上述裝置還包括:第二獲取模塊26,用