亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法及系統(tǒng)與流程

文檔序號:12596453閱讀:464來源:國知局
面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法及系統(tǒng)與流程

本發(fā)明涉及大數(shù)據(jù)分析技術(shù)領域,具體地,涉及面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法及系統(tǒng)。



背景技術(shù):

隨著信息技術(shù),特別是網(wǎng)絡技術(shù)的不斷發(fā)展,以互聯(lián)網(wǎng)為代表的網(wǎng)絡化已在社會的各個層面、各個行業(yè)展開,突破了時間和空間的限制,全球數(shù)據(jù)正以驚人的速度增長,人類社會正由IT時代進入DT時代,數(shù)字化改變了消費者的行為模式、價值觀念,改變了企業(yè)的商業(yè)模式和運營模式。Gartner研究表明,每天我們產(chǎn)生超過2.5EB的數(shù)據(jù),已進入E級時代,專家預測,到2020年,全球數(shù)據(jù)總量將超過40ZB。據(jù)統(tǒng)計,谷歌公司每天要處理超過24PB的數(shù)據(jù),其數(shù)據(jù)量是美國國家圖書館所有紙質(zhì)出版物所含數(shù)據(jù)的上千倍;FaceBook每天更新的照片量超過1000萬張,每天人們在網(wǎng)站上點擊“喜歡”按鈕或者寫評論超過30億次;YouTube視頻網(wǎng)站每月接待多達8億的訪客,平均每一秒就會有一段長度在一小時以上的視頻上傳;微信,作為我們身邊使用最多的社交媒體,每月活躍用戶已達到5.49億,用戶覆蓋200多個國家、超過20種語言,每天的數(shù)據(jù)量中光音頻聊天數(shù)據(jù)就超過2.8億分鐘;新浪微博在短短的三年多時間里已有注冊用戶近5億。

大數(shù)據(jù)的出現(xiàn)和發(fā)展,給我們的生活帶來巨大便利。同時,數(shù)據(jù)的多樣性、復雜性以及龐大體量也使數(shù)據(jù)分析處理面臨前所未有的挑戰(zhàn),如何更好地管理和利用大數(shù)據(jù)已成為普遍關注的話題。近些年出現(xiàn)了以Hadoop為代表的一批大數(shù)據(jù)平臺及相關的并行處理技術(shù),但卻始終缺乏更為有效的數(shù)據(jù)組織形式,這對數(shù)據(jù)的分析利用帶來很大阻礙,其大量性(Volume)、多樣性(Variety)、高速性(Velocity)和價值性(Value)的特征,使得人們分析數(shù)據(jù)面臨越來越多的挑戰(zhàn)。首先是數(shù)據(jù)復雜性的挑戰(zhàn),大數(shù)據(jù)的數(shù)據(jù)類型和模式具有更多的多樣性,聯(lián)系也較為復雜,數(shù)據(jù)的質(zhì)量良莠不齊,造成數(shù)據(jù)在理解、計算與表達上面臨了相當大的困難,語義的分析與情感的體會也變得非常復雜,很大程度上影響了數(shù)據(jù)組織模型的設計與制作。其次是計算復雜性的挑戰(zhàn),大數(shù)據(jù)的上述特點使得以往的機器學習、信息搜索以及數(shù)據(jù)收集得不到當前大數(shù)據(jù)的有效支持,不能夠進行全局式的數(shù)據(jù)分析與計算,因而需要在計算時適時脫離傳統(tǒng)計算的束縛。第三是系統(tǒng)復雜性的挑戰(zhàn),當前,即使是Hadoop等大數(shù)據(jù)處理平臺,在面臨數(shù)據(jù)大、結(jié)構(gòu)復雜的情況下也會存在計算周期長、難度較高的問題,這一問題不僅給大數(shù)據(jù)處理系統(tǒng)的整體結(jié)構(gòu)、計算機構(gòu)以及計算方式提供更加嚴峻的挑戰(zhàn),同時也在數(shù)據(jù)處理系統(tǒng)的運行速度及其耗能方面都造成了巨大的挑戰(zhàn)。

因此,將大數(shù)據(jù)的復雜本性定量化,有效研究數(shù)據(jù)所包含的內(nèi)在問題,梳理各個數(shù)據(jù)之間存在的內(nèi)部聯(lián)系,對復雜的模型系統(tǒng)進行有效的解析,降低其復雜程度,可在一定程度上幫助我們理解復雜的大數(shù)據(jù)模型,了解其所具有的本質(zhì)特征,進而更好的獲得抽象化的知識信息。在大數(shù)據(jù)的求解過程中,著眼數(shù)據(jù)生命周期,以數(shù)據(jù)為中心,在上述數(shù)據(jù)復雜本性定量化的基礎上,研究相應有效的計算模型,合理改善數(shù)據(jù)計算模式,建立起更為規(guī)范化的數(shù)據(jù)模式,對大數(shù)據(jù)的相關理論進行深入研究,不斷探索充足的數(shù)據(jù),進行分層分類計算。

本發(fā)明提出了一種面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法,針對具體主體目標,將主體目標屬性層級化,將基于該主體目標的數(shù)據(jù)定量化后進行分層管理,為大數(shù)據(jù)條件下數(shù)據(jù)的組織歸類提供了參考,有效解決了海量數(shù)據(jù)的組織管理問題。



技術(shù)實現(xiàn)要素:

針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法及系統(tǒng)。

根據(jù)本發(fā)明提供的面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法,包括如下步驟:

步驟1:建立面向目標對象的洋蔥式層次化描述模型,所述目標對象包括:客觀存在的個體、組織、部門;

步驟2:根據(jù)步驟1建立的洋蔥式層次化描述模型為目標對象的每個層次設置相應的權(quán)值;

步驟3:對目標對象進行量化;

步驟4:通過計算數(shù)據(jù)的洋蔥值來判定該數(shù)據(jù)對應目標對象的重要程度,所述重要程度即等同于該數(shù)據(jù)在洋蔥式層次化描述模型中的分層位置;洋蔥值越高則相對于主體目標的重要程度越高;

步驟5:根據(jù)洋蔥值對數(shù)據(jù)進行分類存儲,建立基于洋蔥值的數(shù)據(jù)檢索。減少數(shù)據(jù)檢索空間,加快數(shù)據(jù)的分類檢索速度,提升數(shù)據(jù)挖掘分析效率。

優(yōu)選地,所述步驟1中的面向目標對象的洋蔥式層次化描述模型包括:n個層次,由內(nèi)到外依次為:核心層、內(nèi)核層以及外層,越靠近內(nèi)層的層次則與目標對象的相關度越高;其中:所述外層又包括若干個分層;n為大于等于2的自然數(shù)。

優(yōu)選地,所述步驟2包括:將洋蔥式層次化描述模型由內(nèi)到外的層次的權(quán)值分別記為λ12,...,λi,...,λn,權(quán)值的大小表示相對于目標對象的重要程度,越靠近核心層次的權(quán)值越大;定義λi表示第i層的權(quán)值,M為常數(shù)表示層次化模型中各層次的權(quán)值和。

優(yōu)選地,所述步驟3包括:將洋蔥式層次化描述模型第i層進行量化處理,用αi表示針對目標對象的洋蔥式層次化描述模型第i層的量化值,分別得到n個層次的量化值,記為α12,...,αi,...,αn;并定義V表示為常數(shù),表示數(shù)據(jù)相對于目標對象的量化總值。

優(yōu)選地,所述步驟4中洋蔥值N的計算公式如下:

定義Yi,0≤i≤n,Y0>Y1>…>Yi>…>Yn,

式中:Yi表示第i個層級的洋蔥值邊界;

若Yi-1>N≥Yi,1≤i≤n,則數(shù)據(jù)屬于洋蔥式層次化描述模型的第i層。

優(yōu)選地,所述步驟5包括:以洋蔥值N建立數(shù)據(jù)索引,數(shù)據(jù)按照步驟4的描述進行分類存儲,洋蔥值接近的數(shù)據(jù)按序排列在一起。從而則在建立索引時,不但簡潔,而且速度快,提升數(shù)據(jù)的處理效率。

根據(jù)本發(fā)明提供的面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織系統(tǒng),包括如下模塊:

模型建立模塊,用于建立面向目標對象的洋蔥式層次化描述模型,所述目標對象包括:客觀存在的個體、組織、部門;

權(quán)值設定模塊,對建立的洋蔥式層次化描述模型為目標對象的每個層次設置相應的權(quán)值;

量化模塊,用于對目標對象進行量化;

洋蔥值計算模塊,用于通過計算數(shù)據(jù)的洋蔥值來判定該數(shù)據(jù)對應目標對象的重要程度,所述重要程度即等同于該數(shù)據(jù)在洋蔥式層次化描述模型中的分層位置;洋蔥值越高則相對于主體目標的重要程度越高;

檢索模塊,用于根據(jù)洋蔥值對數(shù)據(jù)進行分類存儲,建立基于洋蔥值的數(shù)據(jù)檢索。

與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:

本發(fā)明提供的面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法及系統(tǒng)解決大數(shù)據(jù)條件下海量數(shù)據(jù)難以組織歸類的難題,以洋蔥值作為數(shù)據(jù)分類存儲的標準,并建立基于洋蔥值的數(shù)據(jù)索引,提升數(shù)據(jù)的檢索速度,提高數(shù)據(jù)挖掘分析的效率。

附圖說明

通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:

圖1為針對主體目標的洋蔥式層次化描述模型框架圖;

圖2為針對個體目標的洋蔥式層次化描述模型框架圖;

圖3為針對社會組織的洋蔥式層次化描述模型框架圖;

圖4為針對部門機構(gòu)的洋蔥式層次化描述模型框架圖。

具體實施方式

下面結(jié)合具體實施例對本發(fā)明進行詳細說明。以下實施例將有助于本領域的技術(shù)人員進一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應當指出的是,對本領域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變化和改進。這些都屬于本發(fā)明的保護范圍。

根據(jù)本發(fā)明提供的面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法,為大數(shù)據(jù)條件下海量數(shù)據(jù)的組織歸類提供了參考,進而為針對主體目標開展深度數(shù)據(jù)挖掘、分析奠定基礎。首先,建立針對主體目標的洋蔥式層次化描述模型,將目標屬性分為若干層次,由內(nèi)至外可標注為核心層、內(nèi)核層以及外層等;各層設置相應的權(quán)值,表示該類屬性對主體目標的重要程度,權(quán)值越大,重要性越高。其次,在大數(shù)據(jù)條件下,對與主體目標關聯(lián)的海量數(shù)據(jù)進行歸納分析,定義上述洋蔥式層次化模型中各層次的內(nèi)涵及數(shù)據(jù)屬性,根據(jù)數(shù)據(jù)所屬類別及重要程度,對數(shù)據(jù)各層次屬性進行量化描述。最后,定義數(shù)據(jù)對于主體目標的層級,根據(jù)上述模型層級權(quán)值和數(shù)據(jù)量化值,計算數(shù)據(jù)的洋蔥值,并判定在數(shù)據(jù)描述模型中所屬層級。

基于主體目標的洋蔥式層次化描述模型,具體如下:

(1)建立針對目標對象的洋蔥式層次化描述模型,如圖1所示。該模型將主體目標對象分為n個層次,由內(nèi)至外依次可標注為:核心層、內(nèi)核層以及外層等,核心數(shù)據(jù)主要影響或體現(xiàn)主體目標的特質(zhì),內(nèi)核數(shù)據(jù)更多影響或體現(xiàn)主體目標的內(nèi)涵,外層數(shù)據(jù)則主要體現(xiàn)主體目標的特征、外延等。

(2)針對該洋蔥式層次化模型,為目標對象各層設置相應的權(quán)值,由內(nèi)到外,分別記為λ12,...,λi,…,λn,權(quán)值的大小表示重要程度,越接近核心和內(nèi)層,其重要程度越高,定義

(3)基于目標對象,對數(shù)據(jù)進行歸納分析,定義上述洋蔥式層次化模型中各層次的內(nèi)涵及數(shù)據(jù)屬性,根據(jù)數(shù)據(jù)所屬類別及重要程度,對數(shù)據(jù)各層次屬性進行量化描述。用記為α12,…αi,…αn,并定義V為常數(shù),表示數(shù)據(jù)于目標對象的量化總值。

(4)計算數(shù)據(jù)的洋蔥值。洋蔥值N的計算公式:根據(jù)洋蔥值N,判定數(shù)據(jù)在描述模型中所屬層級,定義Yi(0≤i≤n)為每個層級的洋蔥值邊界,則Y0>Y1>…>Yi>…>Yn,判定標準如下:若Yi-1>N>Yi(1≤i≤n),則數(shù)據(jù)屬于第i層。

(5)將數(shù)據(jù)按照洋蔥值進行存儲,并建立基于洋蔥值的索引。

下面結(jié)合具體實施例對本發(fā)明中的技術(shù)方案做更加詳細的說明。

實施例1:社會個體

大數(shù)據(jù)條件下基于社會個體的洋蔥式數(shù)據(jù)組織方法。

1、基于社會個體的洋蔥式層次化描述模型,具體如下:

(1)建立針對社會個體的洋蔥式層次化描述模型,根據(jù)上述“一種基于主體目標的洋蔥式層次化描述模型”定義,我們可以將針對社會個體的洋蔥式層次化該模型分為3個層次,由內(nèi)至外依次可標注為核心層、內(nèi)核層以及外層,如圖2所示。核心層數(shù)據(jù)主要是影響或體現(xiàn)社會個體的個性和特質(zhì),如社會關系、人生經(jīng)歷等;內(nèi)核數(shù)據(jù)更多影響或體現(xiàn)個人的思想和三觀,如學習經(jīng)歷、行業(yè)職業(yè)等;外層數(shù)據(jù)則主要體現(xiàn)個人的知識技能、興趣愛好、生活習慣、健康狀況等方面的信息,具體描述請參見表1。

(2)針對該洋蔥式層次化模型,為目標各層設置相應的權(quán)值,由內(nèi)到外,分別記為λ1、λ2、λ3,權(quán)值的大小表示重要程度,假定在該針對社會個體的模型中,令λ1=0.6,λ2=0.3,λ3=0.1,

2、作為本實施例進一步的方案:基于上述針對社會個體的洋蔥式層次化描述模型,我們提出了一種針對社會個體的數(shù)據(jù)組織方法,具體如下:

(1)基于社會個體,對收集到的大數(shù)據(jù)進行分析,以表1中定義的層次和數(shù)據(jù)作為元數(shù)據(jù),將數(shù)據(jù)通過該定義的元數(shù)據(jù)進行數(shù)據(jù)屬性抽取,定義數(shù)據(jù)面向目標各層次所屬類別及重要程度,對數(shù)據(jù)各層次屬性進行量化描述,假設用α1、α2、α3表示,α1表示數(shù)據(jù)中核心層的定量值,α2表示數(shù)據(jù)中內(nèi)核層的定量值,α3表示數(shù)據(jù)中外層的定量值,在該條件下,令

(2)計算數(shù)據(jù)的洋蔥值N,該值代表數(shù)據(jù)對目標的重要程度,計算方法如下:

根據(jù)洋蔥值N,判定數(shù)據(jù)在描述模型中所屬層級。定義Yi,0≤i≤3,如在該模型中,令Y0=60,Y1=46,Y2=27,Y3=10,判定標準如下:若Yi-1>N≥Yi(1≤i≤3),則數(shù)據(jù)屬于第i層。

假定某數(shù)據(jù)的α1=80、α2=10、α3=10,則該數(shù)據(jù)的洋蔥值則該數(shù)據(jù)處于第一層(為核心層數(shù)據(jù));假定某數(shù)據(jù)的α1=30、α2=40、α3=30,則該數(shù)據(jù)的洋蔥值則該數(shù)據(jù)處于第二層(為內(nèi)核層數(shù)據(jù))。

實施例2:社會組織

大數(shù)據(jù)條件下基于社會組織的洋蔥式數(shù)據(jù)組織方法。

1、基于社會組織目標的洋蔥式層次化描述模型,具體如下:

(1)建立針對社會組織的洋蔥式層次化描述模型,根據(jù)上述“一種基于目標的洋蔥式層次化描述模型”定義,我們可以將針對社會組織的洋蔥式層次化該模型若干層次(例如分解為3個層次),由內(nèi)至外依次可標注為核心層、內(nèi)核層以及外層,如圖3所示。針對社會組織,核心層數(shù)據(jù)主要體現(xiàn)社會組織的性質(zhì)、宗旨等,如所屬行業(yè)、定位宗旨等;內(nèi)核數(shù)據(jù)更多體現(xiàn)該組織的日常事務,如組織活動、提供服務等;外層數(shù)據(jù)則主要體現(xiàn)該組織的一些對外窗口信息,如通知公告、聯(lián)系方式等。具體參見表2。

(2)針對該洋蔥式層次化模型,為目標各層設置相應的權(quán)值,由內(nèi)到外,分別記為λ1、λ2、λ3,權(quán)值的大小表示重要程度,假設λ1=0.5,λ2=0.4,λ3=0.1,

2、作為本實施例進一步的方案:基于上述針對社會組織的洋蔥式層次化描述模型,我們提出了一種針對社會組織的數(shù)據(jù)組織方法,具體如下:

(1)基于社會組織,對收集到的大數(shù)據(jù)進行分析,以表2中定義的層次和數(shù)據(jù)作為元數(shù)據(jù),將數(shù)據(jù)通過該定義的元數(shù)據(jù)進行數(shù)據(jù)屬性抽取,定義數(shù)據(jù)面向目標各層次所屬類別及重要程度,對數(shù)據(jù)各層次屬性進行量化描述。用α1、α2、α3表示,αi表示第i層的量化值,定義

(2)計算數(shù)據(jù)的洋蔥值N,該值代表數(shù)據(jù)對目標的重要程度,計算方法如下:

(3)根據(jù)洋蔥值N,判定數(shù)據(jù)在描述模型中所屬層級。定義Yi,0≤i≤3,Y0=50,Y1=42,Y2=29,Y3=10,判定標準如下:若Yi-1>N≥Yi(1≤i≤3),則數(shù)據(jù)屬于第i層。

假定針對某社會組織的數(shù)據(jù),其α1=70、α2=20、α3=10,則該數(shù)據(jù)的洋蔥值=44,則該數(shù)據(jù)處于第一層(為核心層數(shù)據(jù));假定某數(shù)據(jù)的α1=20、α2=50、α3=30,則該數(shù)據(jù)的洋蔥值則該數(shù)據(jù)處于第二層(為內(nèi)核層數(shù)據(jù))。

實施例3:部門機構(gòu)

大數(shù)據(jù)條件下基于部門機構(gòu)的洋蔥式數(shù)據(jù)組織方法。

1、基于部門機構(gòu)目標的洋蔥式層次化描述模型,具體如下:

(1)建立針對政府機構(gòu)的洋蔥式層次化描述模型,根據(jù)上述“一種基于目標的洋蔥式層次化描述模型”定義,我們可以將針對部門機構(gòu)的洋蔥式層次化該模型若干層次(例如分解為3個層次),由內(nèi)至外依次可標注為核心層、內(nèi)核層以及外層,如圖4所示。核心層主要體現(xiàn)部門機構(gòu)的職能任務,如職能、機構(gòu)設置等;內(nèi)核數(shù)據(jù)更多體現(xiàn)該部門的日常工作,如權(quán)威服務、民生發(fā)布等;外層數(shù)據(jù)則主要體現(xiàn)部門的一些對外窗口信息,如地理位置、聯(lián)系方式等。具體參見表3。

(2)針對該洋蔥式層次化模型,為目標各層設置相應的權(quán)值,由內(nèi)到外,分別記為λ1、λ2、λ3,權(quán)值的大小表示重要程度,假設λ1=0.7,λ2=0.2,λ3=0.1,

2、作為本實施例進一步的方案:基于上述針對部門機構(gòu)的洋蔥式層次化描述模型,我們提出了一種針對部門機構(gòu)的數(shù)據(jù)組織方法,具體如下:

(1)基于部門機構(gòu),對收集到的大數(shù)據(jù)進行分析,以表3中定義的層次和數(shù)據(jù)作為元數(shù)據(jù),將數(shù)據(jù)通過該定義的元數(shù)據(jù)進行數(shù)據(jù)屬性抽取,定義數(shù)據(jù)面向目標各層次所屬類別及重要程度,對數(shù)據(jù)各層次屬性進行量化描述。用α1、α2、α3表示,αi表示第i層的量化值,并定義

(2)計算數(shù)據(jù)的洋蔥值N,該值代表數(shù)據(jù)對目標的重要程度,計算方法如下:

(3)根據(jù)洋蔥值N,判定數(shù)據(jù)在描述模型中所屬層級。定義Yi,0≤i≤3,Y0=70,Y1=54,Y2=23,Y3=10,判定標準如下:若Yi-1>N≥Yi(1≤i≤3),則數(shù)據(jù)屬于第i層。

假定針對某部門機構(gòu)的數(shù)據(jù),其α1=80、α2=10、α3=10,則該數(shù)據(jù)的洋蔥值則該數(shù)據(jù)處于第一層(為核心層數(shù)據(jù));假定某數(shù)據(jù)的α1=20、α2=60、α3=20,則該數(shù)據(jù)的洋蔥值則該數(shù)據(jù)處于第二層(為內(nèi)核層數(shù)據(jù))。

以上對本發(fā)明的具體實施例進行了描述。需要理解的是,本發(fā)明并不局限于上述特定實施方式,本領域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變化或修改,這并不影響本發(fā)明的實質(zhì)內(nèi)容。在不沖突的情況下,本申請的實施例和實施例中的特征可以任意相互組合。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1