亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于超圖劃分算法的相關(guān)數(shù)據(jù)存儲(chǔ)方法與流程

文檔序號(hào):11774225閱讀:1170來源:國(guó)知局
一種基于超圖劃分算法的相關(guān)數(shù)據(jù)存儲(chǔ)方法與流程

本發(fā)明屬于大數(shù)據(jù)處理技術(shù)領(lǐng)域,涉及一種相關(guān)數(shù)據(jù)存儲(chǔ)方法。



背景技術(shù):

隨著互聯(lián)網(wǎng)的高速發(fā)展和迅速普及,全球數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng),我們已經(jīng)進(jìn)入了一個(gè)信息爆炸型的時(shí)代。面對(duì)海量、復(fù)雜的數(shù)據(jù),信息處理量達(dá)到tb級(jí)甚至pb級(jí)已是正?,F(xiàn)象,大數(shù)據(jù)概念應(yīng)運(yùn)而生。相對(duì)于傳統(tǒng)的數(shù)據(jù),人們將大數(shù)據(jù)的特征總結(jié)為4個(gè)v,即數(shù)據(jù)量大(volume)、速度快(velocity)、類型多(variety)價(jià)值密度低(value)。數(shù)據(jù)量大仍可以靠擴(kuò)展儲(chǔ)存在一定程度上緩解,然而要求及時(shí)響應(yīng)、數(shù)據(jù)多樣性和數(shù)據(jù)不確定性是傳統(tǒng)數(shù)據(jù)處理方法所不能解決的。為了應(yīng)對(duì)這種大數(shù)據(jù)所帶來的困難和挑戰(zhàn),諸多大型互聯(lián)網(wǎng)公司近幾年推出了各種類型的大數(shù)據(jù)處理系統(tǒng)。作為一個(gè)新興的技術(shù),大數(shù)據(jù)處理技術(shù)在很多地方還存在著很多不足,如調(diào)用分布式的數(shù)據(jù)所造成的延遲、巨大的數(shù)據(jù)吞吐量與不相符的網(wǎng)絡(luò)速率所造成的網(wǎng)絡(luò)負(fù)載嚴(yán)重的問題等。因此,國(guó)內(nèi)外諸多學(xué)者們一直在找尋較好的數(shù)據(jù)存儲(chǔ)方法以加強(qiáng)大數(shù)據(jù)處理的綜合能力。

看似海量、復(fù)雜的數(shù)據(jù),其內(nèi)在具有一定的關(guān)聯(lián)性,處理某些具體任務(wù)時(shí)所需數(shù)據(jù)具有某些特點(diǎn)(如使用頻率、大小、與其他數(shù)據(jù)同時(shí)使用等),若盡可能將相關(guān)性高的數(shù)據(jù)存放在計(jì)算節(jié)點(diǎn),則在使用時(shí)候無需占用網(wǎng)絡(luò)資源,節(jié)省時(shí)間,提高系統(tǒng)的有效性。

超圖(hypergraph)是離散數(shù)學(xué)的中普通圖的推廣,其數(shù)學(xué)定義為:對(duì)于超圖h,有超圖的結(jié)點(diǎn)集合v和超圖的邊(超邊,hyperedge)的集合e,則有h=(v,e)。其中,每一個(gè)超邊e都是v的一個(gè)非空集合,一般e所包含的結(jié)點(diǎn)數(shù)就表示其度數(shù)記為|e|(大于等于2)。超圖劃分就是將超圖的節(jié)點(diǎn)劃分為k個(gè)大致相等的部分,且出現(xiàn)同一個(gè)超圖連接多個(gè)部分的節(jié)點(diǎn)的情況被最小化。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是,提出一種基于超圖劃分的對(duì)相關(guān)數(shù)據(jù)進(jìn)行存儲(chǔ)優(yōu)化方法。該方法針對(duì)數(shù)據(jù)需求基本相同的同類任務(wù),預(yù)測(cè)出此類任務(wù)的固定需求,記為一個(gè)需求模式,使用超圖劃分算法將此模式所需的數(shù)據(jù)移動(dòng)至負(fù)載較小的節(jié)點(diǎn)。技術(shù)方案如下:

一種基于超圖劃分算法的相關(guān)數(shù)據(jù)存儲(chǔ)方法,包括下列步驟:

(1)對(duì)于一個(gè)需要處理數(shù)據(jù)的任務(wù),稱其為一個(gè)需求模式,該需求模式需要多個(gè)存儲(chǔ)在數(shù)據(jù)中心節(jié)點(diǎn)的數(shù)據(jù),需求模式確定后,預(yù)測(cè)出其需求率,假設(shè)每個(gè)節(jié)點(diǎn)需求率為rpy,該需求模式總的需求率為

(2)根據(jù)需求率的設(shè)定,選擇度量標(biāo)準(zhǔn),即超圖劃分的標(biāo)準(zhǔn),第一是完成一個(gè)需求所需的系統(tǒng)開銷ca,第二是完成需求所需的總的中繼流量cl,得出度量標(biāo)準(zhǔn)為c(d)=ca+αcl,α為平衡兩個(gè)標(biāo)準(zhǔn)取值在0和1之間的參數(shù)。

(3)根據(jù)步驟二的判斷標(biāo)準(zhǔn)建立超圖模型,把所有的數(shù)據(jù)項(xiàng)和數(shù)據(jù)節(jié)點(diǎn)設(shè)為超圖的頂點(diǎn)集合v,超邊集合e中包含所有的需求模式和數(shù)據(jù)項(xiàng)與節(jié)點(diǎn)的映射關(guān)系,每條超邊e∈e被賦予一個(gè)權(quán)重,基于(2)中的度量標(biāo)準(zhǔn),為各個(gè)權(quán)重賦值,在超圖中,有兩類節(jié)點(diǎn),存儲(chǔ)節(jié)點(diǎn)和數(shù)據(jù)項(xiàng),兩類邊,需求模式超邊和數(shù)據(jù)節(jié)點(diǎn)超邊。

(4)指把超圖頂點(diǎn)劃分為n個(gè)輸出集合,每個(gè)頂點(diǎn)只屬于n個(gè)集合中的一個(gè),減少超圖劃分的權(quán)重被計(jì)算為減少超邊權(quán)重的總和,如果一個(gè)超邊的頂點(diǎn)不只屬于一個(gè)集合,此超邊被剪掉,超邊e的頂點(diǎn)落到t個(gè)集合中,那么它的減權(quán)被計(jì)算為(t-1)we。

(5)粗劃階段:減少超邊的權(quán)重,將聯(lián)系緊密的節(jié)點(diǎn)合并,構(gòu)造規(guī)模更小的無權(quán)超圖,使得相鄰兩層超圖之間的縮小率達(dá)到設(shè)定的縮小率,所述縮小率為相鄰兩層超圖節(jié)點(diǎn)數(shù)目減小的百分比。

(6)初始化階段:將步驟(5)所得規(guī)模更小的無權(quán)超圖進(jìn)行初始劃分,得到最初始的k個(gè)子圖,劃分方法為隨機(jī)劃分;

(7)優(yōu)化階段:將步驟(6)所到的k個(gè)子圖隨機(jī)選擇裂變節(jié)點(diǎn)后依次進(jìn)行裂變還原,構(gòu)造一系列超圖,直到規(guī)模達(dá)到原始無權(quán)超圖的規(guī)模,得到優(yōu)化后的k個(gè)子圖。

附圖說明

圖1需求模式圖例

圖2二分圖

圖3超圖模型

圖4算法流程圖

具體實(shí)施方式

本專利的基本思想是,對(duì)于一個(gè)確定的需求模式,根據(jù)需求模式所需數(shù)據(jù)建立一個(gè)需求模式與數(shù)據(jù)中心存儲(chǔ)數(shù)據(jù)節(jié)點(diǎn)的二元關(guān)系。根據(jù)該二元關(guān)系和所提出的度量標(biāo)準(zhǔn),構(gòu)建一個(gè)數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)節(jié)點(diǎn)的函數(shù)映射關(guān)系。具體說明如下。

一.數(shù)據(jù)項(xiàng)與節(jié)點(diǎn)

x表示存儲(chǔ)在數(shù)據(jù)節(jié)點(diǎn)上包含m個(gè)數(shù)據(jù)項(xiàng)的集合,每次的任務(wù)需要從集合x中傳輸d個(gè)不同的數(shù)據(jù)項(xiàng)。假設(shè)模式需求空間為實(shí)際應(yīng)用中的需求模式只是該空間的一個(gè)子集,用表示。如圖1所示。在圖例中有五個(gè)數(shù)據(jù)項(xiàng),三個(gè)不同的需求模式。

y表示在包含n個(gè)存儲(chǔ)節(jié)點(diǎn)的集合。最初,假設(shè)每個(gè)數(shù)據(jù)項(xiàng)x∈x存儲(chǔ)在唯一節(jié)點(diǎn)y∈y中。設(shè)爬取數(shù)據(jù)后存儲(chǔ)到節(jié)點(diǎn)的規(guī)則為d:x→y。本發(fā)明最終目的就是提供一個(gè)合適的存儲(chǔ)方案,能提供一個(gè)高效的d函數(shù)。另外,我們用dy表示存儲(chǔ)在節(jié)點(diǎn)y的數(shù)據(jù)集合。

二.數(shù)據(jù)放置

1.需求率

存儲(chǔ)在數(shù)據(jù)中心的數(shù)據(jù),可能會(huì)被輸出作為另一個(gè)任務(wù)的輸入,也可能就在本地運(yùn)行。不失一般性,把需求最初接入的數(shù)據(jù)節(jié)點(diǎn)作為需求源位置,所以,在模型中,數(shù)據(jù)中心或者節(jié)點(diǎn)同時(shí)有兩個(gè)角色:需求模式的源節(jié)點(diǎn)位置和存儲(chǔ)數(shù)據(jù)的最終節(jié)點(diǎn)位置。

對(duì)于在需求節(jié)點(diǎn)y∈y上完成的每個(gè)需求模式,其工作量或者需求率是可以預(yù)測(cè)的(預(yù)測(cè)方法已經(jīng)很成熟,此處沒有包含)記為rpy,根據(jù)需求率做出數(shù)據(jù)存放決策。我們定義工作量或者需求率集合為r={rpy|p∈p,y∈y}。如圖2所示,這是一個(gè)假設(shè)的二分圖模型,數(shù)據(jù)中心和需求模式分別為二分圖的頂點(diǎn),連接兩種類型的邊用需求率rpy表示,并賦予權(quán)值。計(jì)算出每個(gè)需求節(jié)點(diǎn)y總的需求率,用表示。對(duì)于每個(gè)需求模式p,計(jì)算出其總的需求率為

2.度量標(biāo)準(zhǔn)

數(shù)據(jù)的存放會(huì)影響系統(tǒng)的性能,表現(xiàn)為系統(tǒng)的有效性和用戶體驗(yàn)延遲兩個(gè)方面。通過觀察數(shù)據(jù)存放與系統(tǒng)性能之間的關(guān)系,我們總結(jié)了兩個(gè)度量標(biāo)準(zhǔn)。

1)相關(guān)數(shù)據(jù)的共置

系統(tǒng)有效性的評(píng)價(jià)標(biāo)準(zhǔn)為完成給定工作量需要的系統(tǒng)必要處理時(shí)間。在分布式系統(tǒng)中,完成一次需求所需的系統(tǒng)平均時(shí)間不僅和讀取的信息數(shù)量有關(guān),還和包含每個(gè)節(jié)點(diǎn)的處理開銷的總節(jié)點(diǎn)數(shù)量有關(guān)。定義sp表示完成一個(gè)需求模式p所需的數(shù)據(jù)量,spy表示在節(jié)點(diǎn)y∈y中完成需求模式p所需的工作量,spy是有數(shù)據(jù)存放映射函數(shù)d:x→y決定的一個(gè)變量,sp是一個(gè)常數(shù)。定義在節(jié)點(diǎn)y∈y部分或完全完成一個(gè)需求p的系統(tǒng)必要時(shí)間為spy+λ·1(spy),spy表示處理需求需要的常規(guī)時(shí)間,λ·1(spy)表示處理需求p的常規(guī)操作所需要的恒定處理時(shí)間,比如tcp的連接。對(duì)于不同模式的需求率,完成所有需求的系統(tǒng)總時(shí)間為等價(jià)于最小化該式子可以提升服務(wù)器的有效性,減少開銷。共置相關(guān)性強(qiáng)的數(shù)據(jù)可以達(dá)到要求。一個(gè)極端情況,一個(gè)需求模式的所需數(shù)據(jù)項(xiàng)存儲(chǔ)在同一個(gè)節(jié)點(diǎn)上,完成該需求所需的系統(tǒng)最少時(shí)間為rp(spy+λ),而對(duì)于任何給定的工作量為一個(gè)常數(shù),所以完成一個(gè)需求所需的系統(tǒng)開銷為

2)局部數(shù)據(jù)服務(wù)

需求節(jié)點(diǎn)與存儲(chǔ)該需求所需的數(shù)據(jù)節(jié)點(diǎn)位置的不同也會(huì)影響系統(tǒng)的性能,表現(xiàn)為產(chǎn)生中繼流量,所以我們把完成需求所需的總的中繼流量作為第二個(gè)判斷標(biāo)準(zhǔn)。定義為1(x∈dy)表示數(shù)據(jù)項(xiàng)x是否存儲(chǔ)在節(jié)點(diǎn)y中。

本發(fā)明的最終目的是提供一種相關(guān)數(shù)據(jù)存放的方法,增加系統(tǒng)的有效性,減少系統(tǒng)的開銷,具體來說就是提供優(yōu)化的數(shù)據(jù)到存儲(chǔ)的映射函數(shù)d:x→y?;谝陨蟽蓚€(gè)標(biāo)準(zhǔn),最終函數(shù)的優(yōu)化標(biāo)準(zhǔn)設(shè)為c(d)=ca+αcl,α為平衡兩個(gè)標(biāo)準(zhǔn)的參數(shù)。

三.超圖劃分

1.超圖模型的建立

把所有的數(shù)據(jù)項(xiàng)和數(shù)據(jù)節(jié)點(diǎn)設(shè)為超圖的頂點(diǎn)集合v,v={x,y}。超邊集合e中包含所有的需求模式和數(shù)據(jù)項(xiàng)與節(jié)點(diǎn)的映射關(guān)系,e={{ep|p∈p},{exy|x∈x,y∈y}}。每條超邊e∈e被賦予一個(gè)權(quán)重?;趦?yōu)化標(biāo)準(zhǔn)c(d)=ca+αcl,權(quán)重設(shè)置為如圖3所示,在超圖中,有兩類節(jié)點(diǎn),存儲(chǔ)節(jié)點(diǎn)和數(shù)據(jù)項(xiàng),兩類邊,需求模式超邊和數(shù)據(jù)節(jié)點(diǎn)超邊。

2.超圖劃分的依據(jù)

定理:對(duì)于輸出集合i,通過上文介紹的方法把其當(dāng)做一個(gè)超圖。把超圖劃分為頂點(diǎn)的n個(gè)集合,然后,得到數(shù)據(jù)放置函數(shù)d。定義減少權(quán)重的劃分為h,滿足h=c(d)-b,b是一個(gè)常數(shù)。

證明:首先,我們討論需求模式超邊ep的減權(quán),用hp表示。根據(jù)超邊減少的定義,根據(jù)我們可以得到是一個(gè)常量。第二,討論數(shù)據(jù)節(jié)點(diǎn)超邊的較少權(quán)重。定義為hxy。對(duì)于任何的數(shù)據(jù)項(xiàng)x,在超圖模型中,它連接著所有的節(jié)點(diǎn)。超圖劃分后,只能連接一個(gè)節(jié)點(diǎn)。否則劃分結(jié)果的一些集合將會(huì)被x連接??紤]我們已經(jīng)把每個(gè)節(jié)點(diǎn)放置到不同的集合當(dāng)中。假設(shè)數(shù)據(jù)項(xiàng)x最終被連接到節(jié)點(diǎn)fx。和x相關(guān)的數(shù)據(jù)節(jié)點(diǎn)超邊的減權(quán)總和為因此,

通過定理,基于超圖劃分的結(jié)果,我們要表明減少n路劃分的權(quán)重與c(d)是等價(jià)的。

3.超圖劃分的步驟

1)粗劃階段:將聯(lián)系緊密的節(jié)點(diǎn)合并,構(gòu)造規(guī)模更小的超圖,使得相鄰兩層超圖之間的縮小率達(dá)到設(shè)定的縮小率,所述縮小率為相鄰兩層超圖節(jié)點(diǎn)數(shù)目減小的百分比;

2)初始化階段:將步驟1所得規(guī)模更小的無權(quán)超圖進(jìn)行初始劃分,得到最初始的k個(gè)子圖,劃分方法為隨機(jī)劃分;

3)優(yōu)化階段:將步驟2所到的k個(gè)子圖隨機(jī)選擇裂變節(jié)點(diǎn)后依次進(jìn)行裂變還原,構(gòu)造一系列超圖,直到規(guī)模達(dá)到原始無權(quán)超圖的規(guī)模,得到優(yōu)化后的k個(gè)子圖。

其算法流程圖如圖4所示。

綜上所述,本發(fā)明提出一種基于超圖劃分的相關(guān)數(shù)據(jù)的優(yōu)化存儲(chǔ)方法,提升了系統(tǒng)的有效性,減少了用戶體驗(yàn)延遲。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1