本發(fā)明屬于數(shù)據(jù)評(píng)價(jià)技術(shù)領(lǐng)域,具體涉及一種基于中介真值程度的大數(shù)據(jù)質(zhì)量評(píng)價(jià)方法。
背景技術(shù):
近年來(lái),大數(shù)據(jù)已成為國(guó)內(nèi)外熱議的內(nèi)容。國(guó)際頂級(jí)刊物nature和science分別于2008年和2011年,以“bigdata”和“dealingwithdata”為專題,從多個(gè)方面報(bào)道了對(duì)大數(shù)據(jù)的研究,使得人們探索大數(shù)據(jù)的熱情持續(xù)高漲。由于大數(shù)據(jù)具有潛在的巨大價(jià)值,是“金礦”、是“未來(lái)的新石油”,這使得科技界和企業(yè)界對(duì)其高度重視。大數(shù)據(jù)的“大”主要體現(xiàn)在三個(gè)方面:(1)數(shù)據(jù)量大(volume);(2)數(shù)據(jù)類型的繁雜程度高(variety);(3)數(shù)據(jù)流,特別是互聯(lián)網(wǎng)中的信息流的生成速度快(velocity)。這就是現(xiàn)已普遍接受的描述大數(shù)據(jù)的3v。也有人將表示具有潛在的巨大價(jià)值的value加入其中,使3v擴(kuò)展為4v。
盡管大數(shù)據(jù)中蘊(yùn)含著巨大價(jià)值,但由于數(shù)據(jù)規(guī)模巨大,從何處得到“金礦”則是人們面臨的難題。從另一方面看,若存在海量的、無(wú)序的,特別是內(nèi)容相同的數(shù)據(jù),則它們會(huì)在人們勘探“新石油”時(shí)成為障礙,甚至是災(zāi)難。在如此的大數(shù)據(jù)背景下,數(shù)據(jù)將成為管理與決策的基本依據(jù),其質(zhì)量將成為實(shí)現(xiàn)管理有效性和決策科學(xué)性的關(guān)鍵。
數(shù)據(jù)的高質(zhì)量是大數(shù)據(jù)發(fā)揮效能的前提和基礎(chǔ),用于管理和決策的數(shù)據(jù)分析只有在高質(zhì)量的大數(shù)據(jù)環(huán)境中才能提取出隱含的、準(zhǔn)確的、有用的信息,基于這種優(yōu)良環(huán)境的分析結(jié)果所做出的各項(xiàng)決策才不至于偏離正常軌道;否則,即使數(shù)據(jù)分析工具再先進(jìn),在充滿“垃圾”的環(huán)境中也很難提取出有意義的信息。然而,大數(shù)據(jù)中復(fù)雜多樣的數(shù)據(jù)類型和具有驚人的變化速度的海量數(shù)據(jù)難以滿足高質(zhì)量的要求。
因此,在建立用于數(shù)據(jù)分析的高質(zhì)量數(shù)據(jù)環(huán)境時(shí),對(duì)大數(shù)據(jù)的質(zhì)量進(jìn)行分析和評(píng)價(jià)就顯得尤為必要。盡管目前的質(zhì)量評(píng)價(jià)方法很多,但鮮見(jiàn)有關(guān)大數(shù)據(jù)品質(zhì)的定性分析和量化方法的研究。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明目的是提供一種大數(shù)據(jù)質(zhì)量測(cè)度的基本理論和實(shí)用的量化技術(shù),從而為數(shù)據(jù)分析,乃至為大數(shù)據(jù)價(jià)值發(fā)現(xiàn)與分析、大數(shù)據(jù)的管理與決策提供可靠依據(jù)。本發(fā)明提出的一種基于中介真值程度的大數(shù)據(jù)質(zhì)量評(píng)價(jià)方法首先對(duì)影響大數(shù)據(jù)質(zhì)量的各個(gè)維度進(jìn)行定性分析,然后建立基于中介真值程度度量的大數(shù)據(jù)單維度質(zhì)量測(cè)度模型、多維度綜合質(zhì)量測(cè)度模型以及大數(shù)據(jù)環(huán)境下基于熵的數(shù)據(jù)不確定性測(cè)度模型。
具體地說(shuō),本發(fā)明的技術(shù)方案是提出基于中介真值程度度量的大數(shù)據(jù)質(zhì)量評(píng)價(jià)方法,包含如下步驟:
步驟1:選擇并確定大數(shù)據(jù)質(zhì)量測(cè)度維度,根據(jù)大數(shù)據(jù)的3v特征,選擇數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑作為大數(shù)據(jù)質(zhì)量的維度,并以這些維度作為數(shù)據(jù)的成分和性質(zhì),對(duì)大數(shù)據(jù)質(zhì)量進(jìn)行測(cè)定;
步驟2:采用中介邏輯的方法,對(duì)大數(shù)據(jù)質(zhì)量維度進(jìn)行定性分析;
步驟3:建立基于中介真值程度度量的大數(shù)據(jù)各個(gè)維度的質(zhì)量測(cè)度模型;
步驟4:建立基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測(cè)度模型;
步驟5:建立大數(shù)據(jù)環(huán)境下基于中介熵的數(shù)據(jù)不確定性測(cè)度模型。
進(jìn)一步,上述步驟2中具體包含以下步驟:
2-1:建立大數(shù)據(jù)各個(gè)維度的定義;
對(duì)數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑這幾個(gè)維度進(jìn)行描述;
2-2:采用中介邏輯的方法對(duì)上述各個(gè)維度進(jìn)行刻畫(huà);
2-3:根據(jù)維度的定義,建立維度與描述該維度的謂詞真值之間的關(guān)系。
上述步驟3具體包含以下步驟:
3-1:建立質(zhì)量維度數(shù)值區(qū)域與謂詞的對(duì)應(yīng)關(guān)系,設(shè)p(x)為表示該維度的謂詞,╕p(x)是p(x)的反對(duì)對(duì)立面,~p(x)表示部分地具有p(x)的性質(zhì);f(x)是已定義的維度,質(zhì)量緯度數(shù)值區(qū)間(-∞,a],(a,b),[b,+∞)分別對(duì)應(yīng)著邏輯真值f(假),m(中介),t(真);
3-2:采用距離比率函數(shù)度量真值程度,
x是數(shù)據(jù)集合,x∈x.x的質(zhì)量測(cè)度可以采用x相對(duì)于p(x)的真值程度來(lái)衡量,采用距離的概念,并把與~p(x)對(duì)應(yīng)的數(shù)值區(qū)域的長(zhǎng)度作為參照,x相對(duì)于p(x)的真值程度越高,f(x)離╕p(x)對(duì)應(yīng)的數(shù)值區(qū)域越遠(yuǎn),則x的質(zhì)量測(cè)度hx為:
其中,d是歐式距離,
根據(jù)上式(1),可以分別計(jì)算得到數(shù)據(jù)結(jié)構(gòu)的規(guī)范性測(cè)度hs,數(shù)據(jù)所含的信息量測(cè)度hi、數(shù)據(jù)的新穎性測(cè)度hn、數(shù)據(jù)的有效性測(cè)度he,數(shù)據(jù)的模糊性測(cè)度hf以及數(shù)據(jù)的生成途徑測(cè)度hg。
上述步驟4具體包含以下步驟:
4-1:分析數(shù)據(jù)各個(gè)維度對(duì)數(shù)據(jù)質(zhì)量的影響程度,設(shè)置相應(yīng)的權(quán)重;
在具體應(yīng)用時(shí),根據(jù)數(shù)據(jù)分析的目的,設(shè)置各個(gè)維度的權(quán)重,設(shè)ws,wi,wn,we,wf,wg分別為數(shù)據(jù)結(jié)構(gòu)的規(guī)范性,數(shù)據(jù)所含的信息量、數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性,數(shù)據(jù)的模糊性、數(shù)據(jù)的生成途徑的權(quán)重,且
ws+wi+wn+we+wf+wg=1(2);
4-2:采用加權(quán)距離比率和函數(shù)構(gòu)建基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測(cè)度模型h,
h=hs×ws+hi×wi+hn×wn+he×we+hf×wf+hg×wg(3)。
上述步驟5具體包含以下步驟:
5-1:首先分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)的不確定性;
根據(jù)具體的應(yīng)用,分析影響大數(shù)據(jù)不確定性的n個(gè)維度ci,i=1,2,…,n;
5-2:建立基于中介熵表示的大數(shù)據(jù)不確定性測(cè)度,
中介熵表示的大數(shù)據(jù)不確定性測(cè)度為
其中
s(h(ci))=-h(ci)logh(ci)-(1-h(ci))logh(1-h(ci))(6)
h(ci)的定義如式(1)。
本發(fā)明的有益效果在于:
1、本發(fā)明提出了一種大數(shù)據(jù)質(zhì)量測(cè)度的基本理論。從而為數(shù)據(jù)分析,乃至為大數(shù)據(jù)價(jià)值發(fā)現(xiàn)與分析、大數(shù)據(jù)的管理與決策提供可靠依據(jù)。
2、本發(fā)明提出了一種實(shí)用的大數(shù)據(jù)質(zhì)量測(cè)度量化技術(shù)。量化得到的數(shù)值結(jié)果有助于對(duì)大數(shù)據(jù)質(zhì)量做出精確的判斷。才能使得不同度量對(duì)象的評(píng)價(jià)結(jié)果具有可比較性,以致能獲得具有普遍意義的科學(xué)結(jié)論。
附圖說(shuō)明
圖1基于中介真值程度度量的大數(shù)據(jù)質(zhì)量評(píng)價(jià)方法流程圖。
圖2大數(shù)據(jù)質(zhì)量維度進(jìn)行定性分析流程圖。
圖3質(zhì)量維度數(shù)值區(qū)域與謂詞的對(duì)應(yīng)關(guān)系圖。
圖4大數(shù)據(jù)多維度綜合質(zhì)量測(cè)度流程圖。
具體實(shí)施方式
現(xiàn)結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式做進(jìn)一步詳細(xì)的說(shuō)明。本發(fā)明提出了一種基于中介真值程度度量的大數(shù)據(jù)質(zhì)量評(píng)價(jià)方法,其關(guān)鍵點(diǎn)在于面對(duì)繁雜的大數(shù)據(jù)現(xiàn)實(shí),首先根據(jù)大數(shù)據(jù)的3v特征,選擇數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑作為大數(shù)據(jù)質(zhì)量的維度,并以這些維度作為數(shù)據(jù)的成分和性質(zhì),對(duì)大數(shù)據(jù)質(zhì)量進(jìn)行測(cè)定。然后建立大數(shù)據(jù)各個(gè)維度的定義,并采用邏輯的方法對(duì)各個(gè)維度進(jìn)行刻畫(huà)。最后分別建立基于中介真值程度度量的大數(shù)據(jù)各個(gè)維度的質(zhì)量測(cè)度模型、大數(shù)據(jù)多維度綜合質(zhì)量測(cè)度模型以及大數(shù)據(jù)環(huán)境下基于熵的數(shù)據(jù)不確定性測(cè)度模型。
基于中介真值程度的大數(shù)據(jù)質(zhì)量評(píng)價(jià)方法,包含如下步驟:
步驟1:選擇并確定大數(shù)據(jù)質(zhì)量測(cè)度維度;
步驟2:采用中介邏輯的方法,對(duì)大數(shù)據(jù)質(zhì)量維度進(jìn)行定性分析,具體包含:
2-1:建立大數(shù)據(jù)各個(gè)維度的定義;
2-2:采用中介邏輯的方法對(duì)各個(gè)維度進(jìn)行刻畫(huà);
2-3:根據(jù)維度的定義,建立維度與描述該維度的謂詞真值之間的關(guān)系。
步驟3:建立基于中介真值程度度量的大數(shù)據(jù)各個(gè)維度的質(zhì)量測(cè)度模型,具體包含以下步驟:
3-1:建立質(zhì)量維度數(shù)值區(qū)域與謂詞的對(duì)應(yīng)關(guān)系;
3-2:采用距離比率函數(shù)度量真值程度。
步驟4:建立基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測(cè)度模型,具體包含以下步驟:
4-1:分析數(shù)據(jù)各個(gè)維度對(duì)數(shù)據(jù)質(zhì)量的影響程度,設(shè)置相應(yīng)的權(quán)重;
4-2:采用加權(quán)距離比率和函數(shù)構(gòu)建基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測(cè)度模型。
步驟5:建立大數(shù)據(jù)環(huán)境下基于中介熵的數(shù)據(jù)不確定性測(cè)度模型,具體包含以下步驟:
5-1:首先分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)的不確定性;
5-2:建立基于中介熵表示的大數(shù)據(jù)不確定性測(cè)度。
本發(fā)明的整體技術(shù)路線如圖1所示,包含如下步驟:
步驟1:選擇并確定大數(shù)據(jù)質(zhì)量測(cè)度維度。大數(shù)據(jù)中的數(shù)據(jù)以各種各樣的形式涌現(xiàn),除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)外,還出現(xiàn)了許多非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。如來(lái)自于傳感器的各種類型數(shù)據(jù)、移動(dòng)電話的gps定位數(shù)據(jù)、社交網(wǎng)絡(luò)中的語(yǔ)音、圖像、視頻、日志文件等等,并且隨著大數(shù)據(jù)時(shí)代的發(fā)展,新的數(shù)據(jù)來(lái)源與數(shù)據(jù)形式也會(huì)不斷出現(xiàn)。面對(duì)繁雜的大數(shù)據(jù)現(xiàn)實(shí),首先根據(jù)大數(shù)據(jù)的3v特征,選擇數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑作為大數(shù)據(jù)質(zhì)量的維度,并以這些維度作為數(shù)據(jù)的成分和性質(zhì),對(duì)大數(shù)據(jù)質(zhì)量進(jìn)行測(cè)定;
步驟2:采用中介邏輯的方法,對(duì)大數(shù)據(jù)質(zhì)量維度進(jìn)行定性分析;
步驟3:建立基于中介真值程度度量的大數(shù)據(jù)各個(gè)維度的質(zhì)量測(cè)度模型;
步驟4:建立基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測(cè)度模型;
步驟5:建立大數(shù)據(jù)環(huán)境下基于中介熵的數(shù)據(jù)不確定性測(cè)度模型。
進(jìn)一步如圖2所示,步驟2中,具體包含以下步驟:
2‐1:建立大數(shù)據(jù)各個(gè)維度的定義;
由于數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑等維度較全面地反映了大數(shù)據(jù)的3v特性。因此,首先以對(duì)這幾個(gè)維度進(jìn)行描述。
2‐2:采用中介邏輯的方法對(duì)各個(gè)維度進(jìn)行刻畫(huà);
以新穎性為例,記謂詞p(x)表示“x是新穎的”,這里x是數(shù)據(jù)。那么在中介邏輯中,若p(x)的真值為t(真),則確認(rèn)x是新穎的;若p(x)的真值為f(假),則確認(rèn)x是陳舊的;若p(x)的真值為m(非真非假),則x在新穎與陳舊之間。
2‐3:根據(jù)維度的定義,建立維度與描述該維度的謂詞真值之間的關(guān)系。
仍然以新穎性為例,假如定義出現(xiàn)在某個(gè)領(lǐng)域不多于nmin次的數(shù)據(jù)為新穎數(shù)據(jù),出現(xiàn)不小于nmax次的數(shù)據(jù)為陳舊數(shù)據(jù),那么邏輯真值t與0~1‐nmin次、f與nmax+1~∞次、m與nmin+1~nmax次之間就建立了一一對(duì)應(yīng)關(guān)系。
進(jìn)一步,步驟3具體包含以下步驟:
3‐1:建立質(zhì)量維度數(shù)值區(qū)域與謂詞的對(duì)應(yīng)關(guān)系,如圖3所示;
其中p(x)為表示該維度的謂詞,╕p(x)是p(x)的反對(duì)對(duì)立面,~p(x)表示部分地具有p(x)的性質(zhì);f(x)是已定義的維度,質(zhì)量緯度數(shù)值區(qū)間(‐∞,a],(a,b),[b,+∞)分別對(duì)應(yīng)著邏輯真值f(假),m(中介),t(真)。
3‐2:采用距離比率函數(shù)度量真值程度。
x是數(shù)據(jù)集合,x∈x.x的質(zhì)量測(cè)度可以采用x相對(duì)于p(x)的真值程度來(lái)衡量。采用距離的概念,并把與~p(x)對(duì)應(yīng)的數(shù)值區(qū)域的長(zhǎng)度作為參照,x相對(duì)于p(x)的真值程度越高,f(x)離╕p(x)對(duì)應(yīng)的數(shù)值區(qū)域越遠(yuǎn)。則x的質(zhì)量測(cè)度hx為:
其中,d是歐式距離。
根據(jù)上式(1),可以分別計(jì)算得到數(shù)據(jù)結(jié)構(gòu)的規(guī)范性測(cè)度hs,數(shù)據(jù)所含的信息量測(cè)度hi、數(shù)據(jù)的新穎性測(cè)度hn、數(shù)據(jù)的有效性測(cè)度he,數(shù)據(jù)的模糊性測(cè)度hf以及數(shù)據(jù)的生成途徑測(cè)度hg。
進(jìn)一步,如圖4所示,步驟4具體包含以下步驟:
4‐1:分析數(shù)據(jù)各個(gè)維度對(duì)數(shù)據(jù)質(zhì)量的影響程度,設(shè)置相應(yīng)的權(quán)重;
在具體應(yīng)用時(shí),根據(jù)數(shù)據(jù)分析的目的,設(shè)置各個(gè)維度的權(quán)重。設(shè)ws,wi,wn,we,wf,wg分別為數(shù)據(jù)結(jié)構(gòu)的規(guī)范性,數(shù)據(jù)所含的信息量、數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性,數(shù)據(jù)的模糊性、數(shù)據(jù)的生成途徑的權(quán)重,且
ws+wi+wn+we+wf+wg=1(2)
4‐2:采用加權(quán)距離比率和函數(shù)構(gòu)建基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測(cè)量度模型h。
h=hs×ws+hi×wi+hn×wn+he×we+hf×wf+hg×wg(3)
進(jìn)一步,步驟5具體包含以下步驟:
5‐1:首先分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)的不確定性;
根據(jù)具體的應(yīng)用,分析影響大數(shù)據(jù)不確定性的n個(gè)維度ci,i=1,2,…,n
5‐2:建立基于中介熵表示的大數(shù)據(jù)不確定性測(cè)度。
中介熵表示的大數(shù)據(jù)不確定性測(cè)度為
其中
s(h(ci))=-h(ci)logh(ci)-(1-h(ci))logh(1-h(ci)).(6)
h(ci)的定義如式(1)。
雖然本發(fā)明已以較佳實(shí)施例公開(kāi)如上,但實(shí)施例并不是用來(lái)限定本發(fā)明的。在不脫離本發(fā)明之精神和范圍內(nèi),所做的任何等效變化或潤(rùn)飾,同樣屬于本發(fā)明之保護(hù)范圍。因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以本申請(qǐng)的權(quán)利要求所界定的內(nèi)容為標(biāo)準(zhǔn)。