一種基于文件熱度分析和K-means的副本放置方法_2

文檔序號：9810680閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于文件熱度分析和K-means的副本放置方法

置。該方法彌補(bǔ)了以往簡單通過文件熱度分析的副本放置方法，單純通過本次統(tǒng)計周期內(nèi)的文件熱度進(jìn)行副本放置；同時，為提高后續(xù)統(tǒng)計周期內(nèi)訪問的響應(yīng)時間，采用了K-means聚類算法，預(yù)測下一周期內(nèi) 可能的高熱度文件，提前調(diào)整文件副本。兩方面的結(jié)合，既能提高副本的合理性，降低響應(yīng) 時間，又能減少10擁塞。
【附圖說明】
[0023]圖1是一種基于文件熱度分析和K-means的副本放置方法的流程圖。
【具體實施方式】
[0024]下面結(jié)合附圖對技術(shù)方案的實施作進(jìn)一步的詳細(xì)描述：
[0025] 結(jié)合流程圖及實施案例對本發(fā)明所述的一種基于文件熱度分析和K-means的副本放置方法作進(jìn)一步的詳細(xì)描述。
[0026] 本實施案例采用文件熱度分析和K-means算法對分布式系統(tǒng)或云環(huán)境中的副本進(jìn) 行調(diào)整放置。如圖1所示，本方法包含如下步驟：
[0027] 步驟1)，根據(jù)任務(wù)的執(zhí)行時間，選擇最小值作為熱度分析的時間周期，在該時間周期內(nèi)分析文件的訪問頻率；
[0028] 步驟101)，分布式系統(tǒng)或者云環(huán)境中，不同任務(wù)的執(zhí)行時間是不一樣的，進(jìn)行文件熱度分析的時，在有任務(wù)完成是，便可進(jìn)行一次副本調(diào)整，及時地將上一次任務(wù)執(zhí)行產(chǎn)生的信息應(yīng)用到后續(xù)的應(yīng)用中。任務(wù)的執(zhí)行時間可由仿真模擬或者經(jīng)驗值獲取。；
[0029]步驟102)，根據(jù)公式fk = n/t，在預(yù)設(shè)時間周期內(nèi)，計算獲取文件的訪問頻率。
[0030] 步驟2)，根據(jù)上一步得到的文件訪問頻率，計算文件的訪問熱度值；
[0031] 步驟201)，得到文件訪問頻率可以計算文件訪問頻率對其熱度的影響，由該文件在最近1個統(tǒng)計周期內(nèi)的被訪問的頻率和權(quán)值來確定。
[0032] 步驟202)，計算文件大小對文件訪問熱度的影響，由文件大小Si和分布式系統(tǒng)中的數(shù)據(jù)塊大小決定；
[0033]步驟203)，根據(jù)公式hij = a · Fj/(Si+l)，結(jié)合前兩步獲得的響應(yīng)的值，進(jìn)行歸一化處理，可計算得出文件i在j時刻的訪問熱度值，。
[0034] 步驟3)，根據(jù)上一步得到的文件訪問熱度值，獲取高熱度值的文件的信息，通過K-means算法，計算并預(yù)測下一運行周期的高熱度文件；
[0035] 步驟301)，根據(jù)上一步計算的結(jié)果，可以獲取高熱度值的文件，從而從系統(tǒng)中獲取這些文件的信息。
[0036] 步驟302)，從高熱度文件中選取K個文件作為中心文件，計算所有文件到各中心文件的距離，根據(jù)計算結(jié)果，將每個文件分配給最近的聚類中心；
[0037]步驟303)，重復(fù)執(zhí)行上一步，直至滿足終止條件；
[0038]步驟4)，根據(jù)上一步所獲得的聚類信息，依據(jù)各聚類中心的訪問熱度，綜合考慮文件大小、文件數(shù)量、工作環(huán)境等因素，對各個文件的副本數(shù)量以及放置位置進(jìn)行調(diào)整。訪問熱度高的聚類中心相對應(yīng)的聚類適當(dāng)?shù)卦黾悠涓北緮?shù)量;訪問熱度低的聚類則相應(yīng)地減少其副本數(shù)量。
【主權(quán)項】
1. 一種基于文件熱度分析和K-means的副本放置方法，其特征在于，包括w下步驟：步驟1)，根據(jù)任務(wù)的執(zhí)行時間，選擇最小值作為熱度分析的時間周期，在該時間周期內(nèi) 分析文件的訪問頻率；步驟2)，根據(jù)步驟1)得到的文件訪問頻率，計算文件的訪問熱度值；步驟3)，根據(jù)步驟2)得到的文件訪問熱度值，獲取高熱度值的文件的信息，通過K- means算法，計算并預(yù)測下一運行周期的高熱度文件；步驟4)，根據(jù)步驟3)得到的高熱度文件信息，綜合考慮文件大小、文件數(shù)量、文件位置、工作環(huán)境等眾多因素動態(tài)地調(diào)整文件副本的數(shù)量W及放置位置。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟1)中使用了文件訪問次數(shù)計數(shù)器和統(tǒng) 計周期計時器;初始化時，默認(rèn)文件訪問次數(shù)為1，每個統(tǒng)計周期內(nèi)，文件每次被訪問計數(shù)器加1，未被訪問則計數(shù)器減1;若訪問次數(shù)已經(jīng)為1，則計數(shù)器不再執(zhí)行減1操作。若文件訪問超時未完成，訪問計數(shù)器加1;若文件在第k個統(tǒng)計周期內(nèi)的訪問頻率fk=n/t，其中η為該文件在統(tǒng)計周期內(nèi)被訪問的次數(shù)，t為統(tǒng)計周期內(nèi)訪問的持續(xù)時間之和。3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟2)中根據(jù)步驟1)得到的文件訪問頻率，利用公式hu = a .門/估+1)，計算文件i在j時刻的訪問熱度值；公式中，α為常量，用于對數(shù)據(jù)進(jìn)行歸一化處理;Fj表示頻率對文件訪問熱度的影響，Si表示文件大小對文件訪問熱度的影響;其中，4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟3)根據(jù)步驟2)得到的文件訪問熱度值，獲取高熱度值的文件的信息，選取k個文件作為初始化中屯、，計算每個文件到中屯、文件的距離，將每個文件分配至最近的簇。根據(jù)現(xiàn)有的簇關(guān)系重復(fù)計算前述過程，直至滿足終止條件;終止條件包括： (1) 沒有(或最小數(shù)目）文件被重新分配給不同的聚類； (2) 沒有(或最小數(shù)目）聚類中屯、發(fā)生變化； (3) 誤差平方和（SSE)局部最?。浩渲蠿表示文件，1?表示聚類 Cj的聚類中屯、，dist(x，mj)表示文件x與聚類中屯、mj之間的距離。5. 根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟4)中根據(jù)步驟3)得到的聚類信息，根據(jù)各個聚類中屯、的訪問熱度，綜合考慮文件大小、文件數(shù)量、文件位置、工作環(huán)境等眾多因素動態(tài)地調(diào)整文件副本的數(shù)量W及放置位置，高熱度的簇適當(dāng)增加副本數(shù)量，低熱度的簇課適當(dāng)減少副本數(shù)量。
【專利摘要】本發(fā)明提供一種基于文件熱度分析和K-means的副本放置方法，首先通過分析文件在給定時間內(nèi)的訪問頻率，計算文件的訪問熱度。利用文件的訪問熱度，結(jié)合K-means算法，預(yù)測下一周期內(nèi)可能的高訪問熱度文件，綜合考慮統(tǒng)計周期、文件大小、工作環(huán)境等多種因素，按需動態(tài)地調(diào)整文件副本的數(shù)量及放置位置。本發(fā)明能夠有效地減少文件訪問的平均響應(yīng)時間，提高數(shù)據(jù)服務(wù)性能。
【IPC分類】G06F17/30
【公開號】CN105574153
【申請?zhí)枴緾N201510943677
【發(fā)明人】馬廷淮, 李堅, 田偉, 金子龍
【申請人】南京信息工程大學(xué)
【公開日】2016年5月11日
【申請日】2015年12月16日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

kmeans相關(guān)技術(shù)

kmeans聚類算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于文件熱度分析和K-means的副本放置方法_2