一種數(shù)據(jù)存儲的優(yōu)化方法
【專利摘要】一種數(shù)據(jù)存儲的優(yōu)化方法,按照相應(yīng)時間從短到長,單位存儲成本從高到低,將存儲分為了若干級,對于第i級存儲,ri表示在該級存儲中的響應(yīng)時間,ci表示該級存儲的單位存儲的成本,ni表示該級存儲的存儲容量,Ni表示所述第i級中ni個數(shù)據(jù)的總訪問次數(shù),多級存儲和每一級存儲中按照訪問次數(shù)對數(shù)據(jù)進(jìn)行按序存儲,可以得到平均響應(yīng)時間和總存儲成本的計算公式,利用上述公式作為約束條件,求得最優(yōu)解,可以優(yōu)化平均相應(yīng)時間或總存儲成本。本發(fā)明使得數(shù)據(jù)存儲在合適的存儲上,以平衡數(shù)據(jù)訪問的平均響應(yīng)時長與總的存儲成本,滿足業(yè)務(wù)需求。
【專利說明】一種數(shù)據(jù)存儲的優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及大數(shù)據(jù)存儲領(lǐng)域,特別的,涉及一種數(shù)據(jù)存儲的優(yōu)化方法,以及一種對 數(shù)據(jù)進(jìn)行存儲的方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)所使用的數(shù)據(jù)越來越多。如何對數(shù)據(jù)進(jìn)行保存,特別 是,如何對海量數(shù)據(jù)進(jìn)行保存成為現(xiàn)有技術(shù)亟需解決的問題。
[0003] 目前按照存儲的訪問方式或者訪問存儲的響應(yīng)時長可以將存儲分成若干級,比如 內(nèi)存級,響應(yīng)時長最短,但是單位存儲成本最高;memcache集群,響應(yīng)時長較短,單位存儲 成本較高;hbase集群,將數(shù)據(jù)持久化在硬盤上,響應(yīng)時長較長,單位存儲成本較低,等等。
[0004] 如上所述,互聯(lián)網(wǎng)服務(wù),例如設(shè)計在線接口服務(wù)時,通常面臨存儲數(shù)據(jù)量大的問 題,需要為數(shù)據(jù)選擇合適的存儲方式,以求平均響應(yīng)時長能滿足業(yè)務(wù)需求同時總的存儲成 本最低,或者在存儲成本有限的時,平均響應(yīng)時長最低。大數(shù)據(jù)存儲通常需要規(guī)劃多級存儲 來滿足業(yè)務(wù)需求,將訪問頻率高的數(shù)據(jù)存儲在成本高響應(yīng)時長短的存儲上,訪問頻率相對 較低的存儲在成本較高響應(yīng)時長較短的存儲上,訪問頻率最低的數(shù)據(jù)存儲在成本最低但是 響應(yīng)時長最大的存儲上。
[0005] 例如:某視頻網(wǎng)站有超過數(shù)億的視頻資源,在設(shè)計根據(jù)視頻ID獲取視頻相關(guān)信息 這個服務(wù)時面臨著如何優(yōu)化多級存儲的問題,如果選擇三級存儲,可以將過去一天或者一 周內(nèi)訪問次數(shù)最高的一部分視頻相關(guān)信息放在內(nèi)存;訪問次數(shù)較高的一部分視頻相關(guān)信息 存儲在memcache集群;訪問次數(shù)相對較低的存儲在hbase集群。但是,如何合理選擇每部分 的比例以達(dá)到平均響應(yīng)時長與總的存儲成本的最優(yōu)化,或者說,如何對數(shù)據(jù)存儲進(jìn)行優(yōu)化, 以用于降低數(shù)據(jù)的平均響應(yīng)時間,進(jìn)一步的,達(dá)到降低數(shù)據(jù)存儲成本,成為現(xiàn)有技術(shù)亟需解 決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于提出一種數(shù)據(jù)存儲的優(yōu)化方法,以及利用該優(yōu)化結(jié)果對數(shù)據(jù)進(jìn) 行存儲的方法,通過該方法,可以降低數(shù)據(jù)的平均響應(yīng)時間,進(jìn)一步的,達(dá)到降低數(shù)據(jù)存儲 成本。
[0007] 為達(dá)此目的,本發(fā)明采用以下技術(shù)方案:
[0008] -種數(shù)據(jù)存儲的優(yōu)化方法,按照相應(yīng)時間從短到長,單位存儲成本從高到低,將存 儲分為了若干級,對于第一級存儲,rl是響應(yīng)時間,nl是存儲的數(shù)據(jù)量,&為第一級的nl個 數(shù)據(jù)的總訪問次數(shù),對于第i級存儲,ri表示在該級存儲中的響應(yīng)時間,ci表示該級存儲的 單位存儲的成本,ni表示該級存儲的存儲容量,隊表示所述第i級中ni個數(shù)據(jù)的總訪問次 數(shù),多級存儲中按照訪問次數(shù)對數(shù)據(jù)進(jìn)行按序存儲,將訪問次數(shù)較高的數(shù)據(jù)按順序放在訪 問響應(yīng)時長較短的存儲,在每一級存儲中也按照訪問次數(shù)高低進(jìn)行排序,將訪問次數(shù)高的 數(shù)據(jù)放在前面,可以得到如下公式 :
【權(quán)利要求】
1. 一種數(shù)據(jù)存儲的優(yōu)化方法,按照相應(yīng)時間從短到長,單位存儲成本從高到低,將存儲 分為了若干級,對于第一級存儲,rl是響應(yīng)時間,nl是存儲的數(shù)據(jù)量,Ni為第一級的nl個 數(shù)據(jù)的總訪問次數(shù),對于第i級存儲,ri表示在該級存儲中的響應(yīng)時間,ci表示該級存儲的 單位存儲的成本,ni表示該級存儲的存儲容量,隊表示所述第i級中ni個數(shù)據(jù)的總訪問次 數(shù),多級存儲中按照訪問次數(shù)對數(shù)據(jù)進(jìn)行按序存儲,將訪問次數(shù)較高的數(shù)據(jù)按順序放在訪 問響應(yīng)時長較短的存儲,在每一級存儲中也按照訪問次數(shù)高低進(jìn)行排序,將訪問次數(shù)高的 數(shù)據(jù)放在前面,可以得到如下公式 : 平均 響應(yīng)時 間 r= (N'rl+N,(r2+rl)+N3* (rl+r2+T3) + … +Ni* (rl+r2+...+r i)) /N=f (n)公式(1) 總存儲成本 C = nl*cl+n2*c2+...+ni*ci = g(n)公式(2) 其中,N表示所有數(shù)據(jù)的總訪問次數(shù), 利用公式(1)和公式(2)作為約束條件,求得最優(yōu)解,可以優(yōu)化平均相應(yīng)時間或總存儲 成本。
2. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)存儲的優(yōu)化方法,其特征在于: 當(dāng)平均響應(yīng)時長上限限定時,可求得一組ni最優(yōu)解,使得g(n)最小,即總存儲成本最 小。
3. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)存儲的優(yōu)化方法,其特征在于: 當(dāng)總存儲成本上限限定時,可求得一組ni最優(yōu)解,使得f (η)最小,即平均響應(yīng)時長最 小。
4. 根據(jù)權(quán)利要求2或3所述的數(shù)據(jù)存儲的優(yōu)化方法,其特征在于: 在對公式最優(yōu)化求解時,可以采用線搜索全局或動態(tài)規(guī)劃的計算方法來求出最優(yōu)解。
5. -種對數(shù)據(jù)進(jìn)行存儲的方法,其特征在于,利用權(quán)利要求1-4中任一項所述的優(yōu)化 結(jié)果,對數(shù)據(jù)進(jìn)行存儲。
【文檔編號】G06F3/06GK104298475SQ201410538144
【公開日】2015年1月21日 申請日期:2014年10月13日 優(yōu)先權(quán)日:2014年10月13日
【發(fā)明者】肖士鋒, 單明輝, 盧學(xué)裕, 姚鍵, 潘柏宇, 盧述奇 申請人:合一網(wǎng)絡(luò)技術(shù)(北京)有限公司