專利名稱:基于文件存儲(chǔ)動(dòng)態(tài)聚合的優(yōu)化方法
技術(shù)領(lǐng)域:
本發(fā)明屬于分布式存儲(chǔ)領(lǐng)域,具體地說(shuō)是一種基于文件存儲(chǔ)動(dòng)態(tài)聚合的優(yōu)化方法。
背景技術(shù):
分布式存儲(chǔ)建立了海量數(shù)據(jù)的一體化存儲(chǔ)、處理、訪問(wèn)、傳輸與服務(wù)的架構(gòu)和異構(gòu)分布環(huán)境,數(shù)據(jù)的復(fù)制不僅可以提高數(shù)據(jù)訪問(wèn)的效率,而且能提高系統(tǒng)的負(fù)載均衡性和可靠性。傳統(tǒng)復(fù)制方法是將一個(gè)數(shù)據(jù)主本復(fù)制給不同站點(diǎn)的副本,此情況存在原因是過(guò)去或現(xiàn)在的某些復(fù)制需求以及處理流程比較簡(jiǎn)單。隨著數(shù)據(jù)復(fù)制技術(shù)的發(fā)展,情況發(fā)生了許多變化,在同一數(shù)據(jù)源對(duì)象上可劃分出不同的復(fù)制源副本,這些不同復(fù)制源副本獨(dú)立具有自己的多個(gè)副本,這種情況稱為“多分割副本復(fù)制”(Multi-htersected Copy R印lication,簡(jiǎn)稱MICR)。盡管針對(duì)多分割副本復(fù)制的研究已經(jīng)出現(xiàn),但仍有部分問(wèn)題沒(méi)有解決,主要是未修改的主本數(shù)據(jù)不進(jìn)行傳播和并行鏈路的多分割副本復(fù)制問(wèn)題。另外,基于經(jīng)濟(jì)學(xué)模型的復(fù)制策略,是按照反向拍賣協(xié)議確定副本創(chuàng)建位置及進(jìn)行副本選擇,它將數(shù)據(jù)傳輸時(shí)間作為拍賣的價(jià)格指標(biāo)。該模型在評(píng)估數(shù)據(jù)復(fù)制價(jià)值時(shí)存在這樣的問(wèn)題節(jié)點(diǎn)往往根據(jù)自身利益進(jìn)行決策,因而不一定得到全局最佳效益。
發(fā)明內(nèi)容
為了使分布式存儲(chǔ)的整體性能達(dá)到最優(yōu),本發(fā)明的目的是提供一種基于文件存儲(chǔ)動(dòng)態(tài)聚合的優(yōu)化方法,該優(yōu)化方法選擇被復(fù)制的副本不僅在當(dāng)前耗費(fèi)代價(jià)最小,在以后的時(shí)間內(nèi)耗費(fèi)代價(jià)也為最小,得到全局最佳效益,減少節(jié)點(diǎn)遠(yuǎn)程讀取文件的次數(shù),降低用戶數(shù)據(jù)訪問(wèn)延遲。本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的
一種基于文件存儲(chǔ)動(dòng)態(tài)聚合的優(yōu)化方法,其特征在于該優(yōu)化方法通過(guò)將文件動(dòng)態(tài)組合,獲取節(jié)點(diǎn)經(jīng)常訪問(wèn)的文件的副本并打包存儲(chǔ)于本地節(jié)點(diǎn),減少節(jié)點(diǎn)遠(yuǎn)程讀取文件的次數(shù),降低用戶數(shù)據(jù)訪問(wèn)延遲,具體步驟如下
1)基于數(shù)據(jù)主本判定是否數(shù)據(jù)交疊,檢查用戶發(fā)出的請(qǐng)求文件是否在本地節(jié)點(diǎn),有數(shù)據(jù)交疊,則該請(qǐng)求文件存在本地節(jié)點(diǎn);無(wú)數(shù)據(jù)交疊時(shí),則進(jìn)入步驟2);
2)基于副本放置的最優(yōu)化算法,檢查本地是否用足夠的存儲(chǔ)空間容納請(qǐng)求文件,有存儲(chǔ)空間,則選擇一個(gè)耗費(fèi)代價(jià)最低的遠(yuǎn)程節(jié)點(diǎn)獲取該請(qǐng)求文件副本,代價(jià)包含文件傳輸時(shí)間和在遠(yuǎn)程節(jié)點(diǎn)上的排隊(duì)時(shí)間;無(wú)存儲(chǔ)空間,則轉(zhuǎn)步驟3)。3)基于存儲(chǔ)空間的優(yōu)化算法,計(jì)算節(jié)點(diǎn)遠(yuǎn)程讀取請(qǐng)求文件的次數(shù)、;計(jì)算本地節(jié)點(diǎn)存儲(chǔ)的所有文件中讀取最少的文件的次數(shù)(2,若 2,則刪除后者并騰出空間存儲(chǔ)請(qǐng)求文件。本發(fā)明中,基于數(shù)據(jù)主本判定是否數(shù)據(jù)交疊的算法如下設(shè)系統(tǒng)中共有 η 個(gè)節(jié)點(diǎn) S ={5; Ji^-S1J,每個(gè)節(jié)點(diǎn)含有m個(gè)文件,用戶在訪問(wèn)時(shí),對(duì)某一節(jié)點(diǎn)發(fā)出文件請(qǐng)求,假設(shè)
請(qǐng)求包含多個(gè)文件,該請(qǐng)求可以表示為一個(gè)文件集合…^…。定于節(jié)點(diǎn)馮有數(shù)據(jù)主本If,那么由爲(wèi)生成的集合及即為需要復(fù)制的對(duì)象 Λ={Λ-]< <π} 設(shè)請(qǐng)求文件的數(shù)據(jù)主本為Α-,當(dāng)用戶訪問(wèn)時(shí),對(duì)任意的鳥(niǎo)和&·,可有兩種情況4^^=0或者Jti即鳥(niǎo)與易可能有交疊數(shù)據(jù)也可能沒(méi)有交疊數(shù)據(jù)。當(dāng)^rUtj即有數(shù)據(jù)交疊時(shí),該請(qǐng)求文件存在本地節(jié)點(diǎn)。當(dāng)鳥(niǎo)八曷=^,即無(wú)數(shù)據(jù)交疊時(shí),進(jìn)入內(nèi)容2。這里將交迭數(shù)據(jù)內(nèi)容用集合表示■%=馬Λ易,由此可推出
權(quán)利要求
1.一種基于文件存儲(chǔ)動(dòng)態(tài)聚合的優(yōu)化方法,其特征在于該優(yōu)化方法通過(guò)將文件動(dòng)態(tài)組合,獲取節(jié)點(diǎn)經(jīng)常訪問(wèn)的文件的副本并打包存儲(chǔ)于本地節(jié)點(diǎn),減少節(jié)點(diǎn)遠(yuǎn)程讀取文件的次數(shù),降低用戶數(shù)據(jù)訪問(wèn)延遲,具體步驟如下1)基于數(shù)據(jù)主本判定是否數(shù)據(jù)交疊,檢查用戶發(fā)出的請(qǐng)求文件是否在本地節(jié)點(diǎn),有數(shù)據(jù)交疊,則該請(qǐng)求文件存在本地節(jié)點(diǎn);無(wú)數(shù)據(jù)交疊時(shí),則進(jìn)入步驟2);2)基于副本放置的最優(yōu)化算法,檢查本地是否用足夠的存儲(chǔ)空間容納請(qǐng)求文件,有存儲(chǔ)空間,則選擇一個(gè)耗費(fèi)代價(jià)最低的遠(yuǎn)程節(jié)點(diǎn)獲取該請(qǐng)求文件副本,代價(jià)包含文件傳輸時(shí)間和在遠(yuǎn)程節(jié)點(diǎn)上的排隊(duì)時(shí)間;無(wú)存儲(chǔ)空間,則轉(zhuǎn)步驟3);3)基于存儲(chǔ)空間的優(yōu)化算法,計(jì)算節(jié)點(diǎn)遠(yuǎn)程讀取請(qǐng)求文件的次數(shù)、;計(jì)算本地節(jié)點(diǎn)存儲(chǔ)的所有文件中讀取最少的文件的次數(shù) 2,若 2,則刪除后者并騰出空間存儲(chǔ)請(qǐng)求文件。
2.根據(jù)權(quán)利要求1所述的基于文件存儲(chǔ)動(dòng)態(tài)聚合的優(yōu)化方法,其特征在于步驟1)中, 基于數(shù)據(jù)主本判定是否數(shù)據(jù)交疊算法如下設(shè)系統(tǒng)中共有 η 個(gè)節(jié)點(diǎn)S ={線JJ2Z-S1J,每個(gè)節(jié)點(diǎn)含有m個(gè)文件,用戶在訪問(wèn)時(shí),對(duì)某一節(jié)點(diǎn)發(fā)出文件請(qǐng)求,假設(shè)請(qǐng)求包含多個(gè)文件,該請(qǐng)求可以表示為一個(gè)文件集合= …^…義};定于節(jié)點(diǎn)馮有數(shù)據(jù)主本馬,那么由馬生成的集合Ji即為需要復(fù)制的對(duì)象 ;設(shè)請(qǐng)求文件的數(shù)據(jù)主本為Aj-,當(dāng)用戶訪問(wèn)時(shí),對(duì)任意的馬和Ii,可有兩種情況為= 0或者馬即馬與易可能有交疊數(shù)據(jù)也可能沒(méi)有交疊數(shù)據(jù);當(dāng)鳥(niǎo)0�,即有數(shù)據(jù)交疊時(shí),該請(qǐng)求文件存在本地節(jié)點(diǎn);當(dāng)馬AJi=JS, 即無(wú)數(shù)據(jù)交疊時(shí),進(jìn)入步驟2);將交迭數(shù)據(jù)內(nèi)容用集合^表示 =馬P^i ,則(Mi M^nlRj Rs)=0 ,即使當(dāng)鳥(niǎo)和^在同一個(gè)站點(diǎn)都存在時(shí)不進(jìn)行交疊數(shù)據(jù)重復(fù)傳播。
3.根據(jù)權(quán)利要求1所述的基于文件存儲(chǔ)動(dòng)態(tài)聚合的優(yōu)化方法,其特征在于步驟2)中, 基于副本放置的最優(yōu)化算法如下對(duì)于某個(gè)文件,假設(shè)其副本使用代價(jià)力孓其中,創(chuàng)建副本的成本為冬,訪問(wèn)副本的費(fèi)用為高,正常數(shù)螞和斿表示創(chuàng)建和訪問(wèn)副本在總代價(jià)中所占的權(quán)重,則爲(wèi)+;副本放置策略就是在滿足規(guī)定的約束條件下,使得副本創(chuàng)建與訪問(wèn)的代價(jià)總和爲(wèi)最小;-Ib假設(shè)創(chuàng)建副本的站點(diǎn)的存儲(chǔ)空間為-,則所有站點(diǎn)平均存儲(chǔ)空間為,而 力罵反映了平均存儲(chǔ)空間與站點(diǎn)f的存儲(chǔ)空間的比值;假設(shè)R表示在某段時(shí)間內(nèi)對(duì)站點(diǎn)f的某個(gè)副本的請(qǐng)求次數(shù),站點(diǎn)/訪問(wèn)副本站點(diǎn)f的一次費(fèi)用為,可用站點(diǎn)|-與7之間的最短路徑時(shí)間表示,那么
4.根據(jù)權(quán)利要求1所述的基于文件存儲(chǔ)動(dòng)態(tài)聚合的優(yōu)化方法,其特征在于步驟3) 中,基于存儲(chǔ)空間的優(yōu)化算法如下文件/;.相對(duì)于作業(yè)A的相關(guān)度定義為作業(yè)Λ訪問(wèn)過(guò)之的總次數(shù),表示力^ 文件相對(duì)于一組作業(yè)本地集合
全文摘要
本發(fā)明公開(kāi)了一種基于文件存儲(chǔ)動(dòng)態(tài)聚合的優(yōu)化方法,該優(yōu)化方法通過(guò)將文件動(dòng)態(tài)組合,獲取節(jié)點(diǎn)經(jīng)常訪問(wèn)的文件的副本并打包存儲(chǔ)于本地節(jié)點(diǎn),減少節(jié)點(diǎn)遠(yuǎn)程讀取文件的次數(shù),降低用戶數(shù)據(jù)訪問(wèn)延遲,具體步驟為基于數(shù)據(jù)主本判定是否數(shù)據(jù)交疊,基于副本放置的最優(yōu)化算法,基于存儲(chǔ)空間的優(yōu)化算法,存儲(chǔ)請(qǐng)求文件。本發(fā)明選擇被復(fù)制的副本不僅在當(dāng)前耗費(fèi)代價(jià)最小,在以后的時(shí)間內(nèi)耗費(fèi)代價(jià)也為最小。
文檔編號(hào)G06F17/30GK102156730SQ20111008602
公開(kāi)日2011年8月17日 申請(qǐng)日期2011年4月7日 優(yōu)先權(quán)日2011年4月7日
發(fā)明者唐巍, 洪昕, 王紀(jì)軍 申請(qǐng)人:江蘇省電力公司