基于本地計(jì)算和分布式計(jì)算的數(shù)據(jù)計(jì)算方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)科學(xué)技術(shù)領(lǐng)域,特別是涉及基于本地計(jì)算和分布式計(jì)算的數(shù)據(jù)計(jì)算方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)數(shù)據(jù)急速膨脹,分布式計(jì)算也日趨成熟。分布式計(jì)算是一門(mén)計(jì)算機(jī)科學(xué),主要研究分布式系統(tǒng),例如hadoop分布式系統(tǒng)。一個(gè)分布式系統(tǒng)包括若干通過(guò)網(wǎng)絡(luò)互聯(lián)的計(jì)算機(jī),這些計(jì)算機(jī)互相配合以完成一個(gè)共同的目標(biāo)(將這個(gè)共同的目標(biāo)稱(chēng)為“項(xiàng)目”)。具體過(guò)程為:將需要進(jìn)行計(jì)算的數(shù)據(jù)項(xiàng)目分割成小塊,由多臺(tái)計(jì)算機(jī)分別計(jì)算,再上傳計(jì)算結(jié)果后統(tǒng)一合并得出數(shù)據(jù)結(jié)論。在分布式系統(tǒng)上運(yùn)行的計(jì)算機(jī)程序稱(chēng)為分布式計(jì)算程序,分布式編程就是編寫(xiě)上述程序的過(guò)程。對(duì)于大規(guī)模的數(shù)據(jù)項(xiàng)目,采用分布式計(jì)算可以節(jié)約整體計(jì)算時(shí)間,大大提高計(jì)算效率。
[0003]為了優(yōu)化計(jì)算效率,一方面是增強(qiáng)本地計(jì)算的性能、或者優(yōu)化本地算法;優(yōu)化后對(duì)于微型數(shù)據(jù)項(xiàng)目而言,則存在處理能力富余,形成一種資源的浪費(fèi),并且優(yōu)化的實(shí)現(xiàn)成本較高;另一方面是采用分布式計(jì)算;然而對(duì)于規(guī)模較小的數(shù)據(jù)項(xiàng)目,若采用分布式計(jì)算由于存在相對(duì)較大的準(zhǔn)備時(shí)間,會(huì)存在數(shù)據(jù)加載時(shí)延問(wèn)題。
【發(fā)明內(nèi)容】
[0004]基于此,本發(fā)明提供的基于本地計(jì)算和分布式計(jì)算的數(shù)據(jù)計(jì)算方法及系統(tǒng),能夠保證計(jì)算效率,并且避免了不必要的數(shù)據(jù)準(zhǔn)備時(shí)間。
[0005]本發(fā)明采用以下技術(shù)方案:
[0006]本發(fā)明一方面提供基于本地計(jì)算和分布式計(jì)算的數(shù)據(jù)計(jì)算方法,包括,
[0007]分別調(diào)用預(yù)設(shè)的本地計(jì)算模式和分布式計(jì)算模式對(duì)相同數(shù)據(jù)項(xiàng)目進(jìn)行計(jì)算,將其中計(jì)算耗時(shí)較短的計(jì)算模式記為所述數(shù)據(jù)項(xiàng)目的優(yōu)選計(jì)算模式;獲取所述優(yōu)選計(jì)算模式的計(jì)算耗時(shí),得到包含所述數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量、優(yōu)選計(jì)算模式以及計(jì)算耗時(shí)的訓(xùn)練樣本;
[0008]根據(jù)若干所述訓(xùn)練樣本生成訓(xùn)練模型;
[0009]估算待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量,根據(jù)所述訓(xùn)練模型、所述待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量確定出與所述待處理數(shù)據(jù)項(xiàng)目相適應(yīng)的計(jì)算模式,調(diào)用該計(jì)算模式對(duì)所述待處理數(shù)據(jù)項(xiàng)目進(jìn)行計(jì)算。
[0010]優(yōu)選的,所述分別調(diào)用預(yù)設(shè)的本地計(jì)算模式和分布式計(jì)算模式對(duì)相同數(shù)據(jù)項(xiàng)目進(jìn)行計(jì)算,將其中計(jì)算耗時(shí)較短的計(jì)算模式記為所述數(shù)據(jù)項(xiàng)目的優(yōu)選計(jì)算模式,包括,
[0011 ]同時(shí)調(diào)用預(yù)設(shè)的本地計(jì)算模式和分布式計(jì)算模式對(duì)相同數(shù)據(jù)項(xiàng)目進(jìn)行計(jì)算;
[0012]檢測(cè)率先返回計(jì)算結(jié)果的計(jì)算模式,將其記為所述數(shù)據(jù)項(xiàng)目的優(yōu)選計(jì)算模式;
[0013]所述得到包含所述數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量、優(yōu)選計(jì)算模式以及計(jì)算耗時(shí)的訓(xùn)練樣本之后還包括,
[0014]終止未返回計(jì)算結(jié)果的計(jì)算模式對(duì)所述數(shù)據(jù)項(xiàng)目的計(jì)算。
[0015]優(yōu)選的,所述根據(jù)所述訓(xùn)練模型、所述待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量確定出與所述待處理數(shù)據(jù)項(xiàng)目相適應(yīng)的計(jì)算模式,包括,
[0016]將所述待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量輸入所述訓(xùn)練模型,匹配出數(shù)據(jù)量與待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量最接近、且計(jì)算耗時(shí)最短的訓(xùn)練樣本,將該訓(xùn)練樣本的優(yōu)選計(jì)算模式作為與所述待處理數(shù)據(jù)項(xiàng)目相適應(yīng)的計(jì)算模式。
[0017]優(yōu)選的,所述根據(jù)所述訓(xùn)練模型、所述待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量確定出與所述待處理數(shù)據(jù)項(xiàng)目相適應(yīng)的計(jì)算模式,調(diào)用該計(jì)算模式對(duì)所述待處理數(shù)據(jù)項(xiàng)目進(jìn)行計(jì)算,之后包括,
[0018]將與所述待處理數(shù)據(jù)項(xiàng)目相適應(yīng)的計(jì)算模式作為主模式,將另一個(gè)計(jì)算模式作為輔助模式,并調(diào)用輔助模式對(duì)所述待處理數(shù)據(jù)項(xiàng)目進(jìn)行計(jì)算;
[0019]判斷主模式是否率先返回所述待處理數(shù)據(jù)項(xiàng)目的計(jì)算結(jié)果,若是,終止輔助模式對(duì)所述待處理數(shù)據(jù)項(xiàng)目的計(jì)算,若否,當(dāng)輔助模式返回所述待處理數(shù)據(jù)項(xiàng)目的計(jì)算結(jié)果時(shí),終止主模式對(duì)所述待處理數(shù)據(jù)項(xiàng)目的計(jì)算;
[0020]獲取率先返回所述待處理數(shù)據(jù)項(xiàng)目的計(jì)算結(jié)果的主模式或輔助模式的計(jì)算耗時(shí),根據(jù)所述待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量、率先返回計(jì)算結(jié)果的主模式或輔助模式以及計(jì)算耗時(shí)得到一條新訓(xùn)練樣本,用該新訓(xùn)練樣本對(duì)所述訓(xùn)練模型進(jìn)行調(diào)整。
[0021 ]優(yōu)選的,根據(jù)若干所述訓(xùn)練樣本生成訓(xùn)練模型之前還包括,
[0022]分析所述訓(xùn)練樣本的數(shù)據(jù)集,對(duì)其中數(shù)據(jù)量相同或者相近的數(shù)據(jù)進(jìn)行聚類(lèi)處理或者擬合出數(shù)據(jù)分布曲線(xiàn),以剔除離群數(shù)據(jù)。
[0023]本發(fā)明另一方面提供基于本地計(jì)算和分布式計(jì)算的數(shù)據(jù)計(jì)算系統(tǒng),包括:
[0024]訓(xùn)練模塊,用于分別調(diào)用預(yù)設(shè)的本地計(jì)算模式和分布式計(jì)算模式對(duì)相同數(shù)據(jù)項(xiàng)目進(jìn)行計(jì)算,將其中計(jì)算耗時(shí)較短的計(jì)算模式記為所述數(shù)據(jù)項(xiàng)目的優(yōu)選計(jì)算模式;獲取所述優(yōu)選計(jì)算模式的計(jì)算耗時(shí),得到包含所述數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量、優(yōu)選計(jì)算模式以及計(jì)算耗時(shí)的訓(xùn)練樣本;
[0025]模型生成模塊,用于根據(jù)若干所述訓(xùn)練樣本生成訓(xùn)練模型;
[0026]調(diào)用執(zhí)行模塊,用于估算待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量,根據(jù)所述訓(xùn)練模型、所述待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量,確定出與所述待處理數(shù)據(jù)項(xiàng)目相適應(yīng)的計(jì)算模式調(diào)用該計(jì)算模式對(duì)所述待處理數(shù)據(jù)項(xiàng)目進(jìn)行計(jì)算。
[0027]優(yōu)選的,所述訓(xùn)練模塊包括,
[0028]準(zhǔn)備單元,用于同時(shí)調(diào)用預(yù)設(shè)的本地計(jì)算模式和分布式計(jì)算模式對(duì)相同數(shù)據(jù)項(xiàng)目進(jìn)行計(jì)算;
[0029]檢測(cè)單元,用于檢測(cè)率先返回計(jì)算結(jié)果的計(jì)算模式,將其記為所述數(shù)據(jù)項(xiàng)目的優(yōu)選計(jì)算模式;
[0030]以及,終止單元,用于得到包含所述數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量、優(yōu)選計(jì)算模式以及計(jì)算耗時(shí)的訓(xùn)練樣本之后,終止未返回計(jì)算結(jié)果的計(jì)算模式對(duì)所述數(shù)據(jù)項(xiàng)目的計(jì)算。
[0031 ]優(yōu)選的,所述根據(jù)所述訓(xùn)練模型、所述待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量確定出與所述待處理數(shù)據(jù)項(xiàng)目相適應(yīng)的計(jì)算模式,包括,
[0032]將所述待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量輸入所述訓(xùn)練模型,匹配出數(shù)據(jù)量與待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量最接近、且計(jì)算耗時(shí)最短的訓(xùn)練樣本,將該訓(xùn)練樣本的優(yōu)選計(jì)算模式作為與所述待處理數(shù)據(jù)項(xiàng)目相適應(yīng)的計(jì)算模式。
[0033]優(yōu)選的,還包括,
[0034]模型調(diào)整模塊,用于將與所述待處理數(shù)據(jù)項(xiàng)目相適應(yīng)的計(jì)算模式作為主模式,將另一個(gè)計(jì)算模式作為輔助模式,并調(diào)用輔助模式對(duì)所述待處理數(shù)據(jù)項(xiàng)目進(jìn)行計(jì)算;判斷主模式是否率先返回所述待處理數(shù)據(jù)項(xiàng)目的計(jì)算結(jié)果,若是,終止輔助模式對(duì)所述待處理數(shù)據(jù)項(xiàng)目的計(jì)算,若否,當(dāng)輔助模式返回所述待處理數(shù)據(jù)項(xiàng)目的計(jì)算結(jié)果時(shí)終止主模式對(duì)所述待處理數(shù)據(jù)項(xiàng)目的計(jì)算;以及獲取率先返回所述待處理數(shù)據(jù)項(xiàng)目的計(jì)算結(jié)果的主模式或輔助模式的計(jì)算耗時(shí),根據(jù)所述待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量、率先返回計(jì)算結(jié)果的主模式或輔助模式以及計(jì)算耗時(shí)得到一條新訓(xùn)練樣本,用該新訓(xùn)練樣本對(duì)所述訓(xùn)練模型進(jìn)行調(diào)整。
[0035]優(yōu)選的,所述模型生成模塊包括,
[0036]模型調(diào)優(yōu)單元,用于在根據(jù)若干所述訓(xùn)練樣本生成訓(xùn)練模型之前,分析所述訓(xùn)練樣本的數(shù)據(jù)集,對(duì)其中數(shù)據(jù)量相同或者相近的數(shù)據(jù)進(jìn)行聚類(lèi)處理或者擬合出數(shù)據(jù)分布曲線(xiàn),以剔除離群數(shù)據(jù)。
[0037]實(shí)施本發(fā)明的上述技術(shù)方案的有益效果包括:結(jié)合本地計(jì)算和分布式計(jì)算,通過(guò)對(duì)不同數(shù)據(jù)項(xiàng)目的訓(xùn)練學(xué)習(xí),得到包含數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量、優(yōu)選計(jì)算模式以及計(jì)算耗時(shí)的訓(xùn)練樣本,基于若干所述訓(xùn)練樣本生成訓(xùn)練模型;對(duì)需處理的數(shù)據(jù)項(xiàng)目,估算待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量,通過(guò)所述訓(xùn)練模型、所述待處理數(shù)據(jù)項(xiàng)目的數(shù)據(jù)量可確定出與所述待處理數(shù)據(jù)項(xiàng)目相適應(yīng)的計(jì)算模式,調(diào)