置。該方法彌補(bǔ)了以往簡單 通過文件熱度分析的副本放置方法,單純通過本次統(tǒng)計周期內(nèi)的文件熱度進(jìn)行副本放置; 同時,為提高后續(xù)統(tǒng)計周期內(nèi)訪問的響應(yīng)時間,采用了K-means聚類算法,預(yù)測下一周期內(nèi) 可能的高熱度文件,提前調(diào)整文件副本。兩方面的結(jié)合,既能提高副本的合理性,降低響應(yīng) 時間,又能減少10擁塞。
【附圖說明】
[0023]圖1是一種基于文件熱度分析和K-means的副本放置方法的流程圖。
【具體實施方式】
[0024]下面結(jié)合附圖對技術(shù)方案的實施作進(jìn)一步的詳細(xì)描述:
[0025] 結(jié)合流程圖及實施案例對本發(fā)明所述的一種基于文件熱度分析和K-means的副本 放置方法作進(jìn)一步的詳細(xì)描述。
[0026] 本實施案例采用文件熱度分析和K-means算法對分布式系統(tǒng)或云環(huán)境中的副本進(jìn) 行調(diào)整放置。如圖1所示,本方法包含如下步驟:
[0027] 步驟1),根據(jù)任務(wù)的執(zhí)行時間,選擇最小值作為熱度分析的時間周期,在該時間周 期內(nèi)分析文件的訪問頻率;
[0028] 步驟101),分布式系統(tǒng)或者云環(huán)境中,不同任務(wù)的執(zhí)行時間是不一樣的,進(jìn)行文件 熱度分析的時,在有任務(wù)完成是,便可進(jìn)行一次副本調(diào)整,及時地將上一次任務(wù)執(zhí)行產(chǎn)生的 信息應(yīng)用到后續(xù)的應(yīng)用中。任務(wù)的執(zhí)行時間可由仿真模擬或者經(jīng)驗值獲取。;
[0029]步驟102),根據(jù)公式fk = n/t,在預(yù)設(shè)時間周期內(nèi),計算獲取文件的訪問頻率。
[0030] 步驟2),根據(jù)上一步得到的文件訪問頻率,計算文件的訪問熱度值;
[0031] 步驟201),得到文件訪問頻率可以計算文件訪問頻率對其熱度的影響,由該文件 在最近1個統(tǒng)計周期內(nèi)的被訪問的頻率和權(quán)值來確定。
[0032] 步驟202),計算文件大小對文件訪問熱度的影響,由文件大小Si和分布式系統(tǒng)中 的數(shù)據(jù)塊大小決定;
[0033]步驟203),根據(jù)公式hij = a · Fj/(Si+l),結(jié)合前兩步獲得的響應(yīng)的值,進(jìn)行歸一化 處理,可計算得出文件i在j時刻的訪問熱度值,。
[0034] 步驟3),根據(jù)上一步得到的文件訪問熱度值,獲取高熱度值的文件的信息,通過K-means算法,計算并預(yù)測下一運行周期的高熱度文件;
[0035] 步驟301),根據(jù)上一步計算的結(jié)果,可以獲取高熱度值的文件,從而從系統(tǒng)中獲取 這些文件的信息。
[0036] 步驟302),從高熱度文件中選取K個文件作為中心文件,計算所有文件到各中心文 件的距離,根據(jù)計算結(jié)果,將每個文件分配給最近的聚類中心;
[0037]步驟303),重復(fù)執(zhí)行上一步,直至滿足終止條件;
[0038]步驟4),根據(jù)上一步所獲得的聚類信息,依據(jù)各聚類中心的訪問熱度,綜合考慮文 件大小、文件數(shù)量、工作環(huán)境等因素,對各個文件的副本數(shù)量以及放置位置進(jìn)行調(diào)整。訪問 熱度高的聚類中心相對應(yīng)的聚類適當(dāng)?shù)卦黾悠涓北緮?shù)量;訪問熱度低的聚類則相應(yīng)地減少 其副本數(shù)量。
【主權(quán)項】
1. 一種基于文件熱度分析和K-means的副本放置方法,其特征在于,包括w下步驟: 步驟1),根據(jù)任務(wù)的執(zhí)行時間,選擇最小值作為熱度分析的時間周期,在該時間周期內(nèi) 分析文件的訪問頻率; 步驟2),根據(jù)步驟1)得到的文件訪問頻率,計算文件的訪問熱度值; 步驟3),根據(jù)步驟2)得到的文件訪問熱度值,獲取高熱度值的文件的信息,通過K- means算法,計算并預(yù)測下一運行周期的高熱度文件; 步驟4),根據(jù)步驟3)得到的高熱度文件信息,綜合考慮文件大小、文件數(shù)量、文件位置、 工作環(huán)境等眾多因素動態(tài)地調(diào)整文件副本的數(shù)量W及放置位置。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟1)中使用了文件訪問次數(shù)計數(shù)器和統(tǒng) 計周期計時器;初始化時,默認(rèn)文件訪問次數(shù)為1,每個統(tǒng)計周期內(nèi),文件每次被訪問計數(shù)器 加1,未被訪問則計數(shù)器減1;若訪問次數(shù)已經(jīng)為1,則計數(shù)器不再執(zhí)行減1操作。若文件訪問 超時未完成,訪問計數(shù)器加1;若文件在第k個統(tǒng)計周期內(nèi)的訪問頻率fk=n/t,其中η為該文 件在統(tǒng)計周期內(nèi)被訪問的次數(shù),t為統(tǒng)計周期內(nèi)訪問的持續(xù)時間之和。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟2)中根據(jù)步驟1)得到的文件訪問頻 率,利用公式hu = a .門/估+1),計算文件i在j時刻的訪問熱度值;公式中,α為常量,用于 對數(shù)據(jù)進(jìn)行歸一化處理;Fj表示頻率對文件訪問熱度的影響,Si表示文件大小對文件訪問熱 度的影響;其中,4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟3)根據(jù)步驟2)得到的文件訪問熱度 值,獲取高熱度值的文件的信息,選取k個文件作為初始化中屯、,計算每個文件到中屯、文件 的距離,將每個文件分配至最近的簇。根據(jù)現(xiàn)有的簇關(guān)系重復(fù)計算前述過程,直至滿足終止 條件;終止條件包括: (1) 沒有(或最小數(shù)目)文件被重新分配給不同的聚類; (2) 沒有(或最小數(shù)目)聚類中屯、發(fā)生變化; (3) 誤差平方和(SSE)局部最?。浩渲蠿表示文件,1?表示聚類 Cj的聚類中屯、,dist(x,mj)表示文件x與聚類中屯、mj之間的距離。5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟4)中根據(jù)步驟3)得到的聚類信息,根 據(jù)各個聚類中屯、的訪問熱度,綜合考慮文件大小、文件數(shù)量、文件位置、工作環(huán)境等眾多因 素動態(tài)地調(diào)整文件副本的數(shù)量W及放置位置,高熱度的簇適當(dāng)增加副本數(shù)量,低熱度的簇 課適當(dāng)減少副本數(shù)量。
【專利摘要】本發(fā)明提供一種基于文件熱度分析和K-means的副本放置方法,首先通過分析文件在給定時間內(nèi)的訪問頻率,計算文件的訪問熱度。利用文件的訪問熱度,結(jié)合K-means算法,預(yù)測下一周期內(nèi)可能的高訪問熱度文件,綜合考慮統(tǒng)計周期、文件大小、工作環(huán)境等多種因素,按需動態(tài)地調(diào)整文件副本的數(shù)量及放置位置。本發(fā)明能夠有效地減少文件訪問的平均響應(yīng)時間,提高數(shù)據(jù)服務(wù)性能。
【IPC分類】G06F17/30
【公開號】CN105574153
【申請?zhí)枴緾N201510943677
【發(fā)明人】馬廷淮, 李堅, 田偉, 金子龍
【申請人】南京信息工程大學(xué)
【公開日】2016年5月11日
【申請日】2015年12月16日