亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種高效的數(shù)據(jù)分析處理方法

文檔序號:8457358閱讀:578來源:國知局
一種高效的數(shù)據(jù)分析處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù)分析,特別涉及一種高效的數(shù)據(jù)分析處理方法。
【背景技術(shù)】
[0002]利用大數(shù)據(jù)處理實現(xiàn)大型企業(yè)的運營數(shù)據(jù)在線挖掘具有廣泛的應(yīng)用前景。對于大數(shù)據(jù)環(huán)境下,包含不同媒體格式的數(shù)據(jù)集。通過對挖掘規(guī)則生成索引,可以提升規(guī)則計算的判別速度,大大提高數(shù)據(jù)集在線挖掘的效率。數(shù)據(jù)集包含文本、圖片、音視頻等不同屬性的元信息,屬性間存在較大的差異。然而在實際的挖掘過程中,由于挖掘規(guī)則集規(guī)模大、關(guān)聯(lián)維度高,使得大規(guī)模數(shù)據(jù)集上的挖掘計算量大,效率低下。而且現(xiàn)有技術(shù)大多是針對單一類型的數(shù)據(jù)集進行優(yōu)化索引,而且規(guī)則集的數(shù)量也相對較少,沒有充分利用多種類型數(shù)據(jù)集中不同屬性之間的關(guān)系,因而很難直接應(yīng)用到多種類型的數(shù)據(jù)挖掘中,直接影響了挖掘性會K。

【發(fā)明內(nèi)容】

[0003]為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種高效的數(shù)據(jù)分析處理方法,包括:
[0004]建立面向不同類型數(shù)據(jù)集上的挖掘規(guī)則計算的動態(tài)索引,支持挖掘規(guī)則的實時更新,首先對不同類型數(shù)據(jù)集的屬性集進行分類,然后根據(jù)數(shù)據(jù)集的屬性類型將輸入的挖掘規(guī)則集劃分為不同的運算符集合,基于不同的運算符集合生成分級索引;
[0005]對實時到達(dá)的數(shù)據(jù)集元組進行挖掘計算時,首先對元組進行矢量提取和剪裁計算;將量化后的矢量經(jīng)過運算符屬性分類處理后得到不同的運算符矢量;利用已建立的分級索引的挖掘規(guī)則,通過兩級索引進行過濾得到滿足條件的挖掘規(guī)則集。
[0006]優(yōu)選地,所述分級索引包括第一層的二叉搜索樹分級索引、第二層的多維矢量分級索引,以及挖掘規(guī)則和運算符的關(guān)聯(lián)表,對分級索引的3個操作分別是:搜索、插入和刪除;
[0007]其中所述二叉搜索樹分級索引是由非連續(xù)型運算符生成;所述多維矢量分級索引是根據(jù)連續(xù)型運算符對應(yīng)的多維矢量生成的多維空間樹;所述挖掘規(guī)則與運算符的關(guān)聯(lián)表完成兩層索引挖掘規(guī)則結(jié)果的組合。
[0008]優(yōu)選地,所述建立面向不同類型數(shù)據(jù)集上的挖掘規(guī)則計算的動態(tài)索引進一步包括規(guī)則預(yù)處理、運算符集合劃分和分級索引生成,
[0009]首先對預(yù)處理后的規(guī)則集按照屬性分類進行一定的劃分,再對劃分后的數(shù)據(jù)集分層生成索引,規(guī)則集劃分時,對于預(yù)處理后的η條規(guī)則,按照屬性類別和值域劃分了非連續(xù)型運算符集合A和連續(xù)型運算符集合B;其中:Σ I |Α| +I |B I = XqeQp(q),Q為已注冊的挖掘規(guī)則集,q為單個挖掘規(guī)則,P為運算符,將第一維上的運算符集合分為了 s個區(qū)間I1,I2,…,Is,其中每個區(qū)間只有非連續(xù)型運算符或者連續(xù)型運算符,經(jīng)過了預(yù)處理的維度轉(zhuǎn)換后,Ii,I2,…,Is的區(qū)間內(nèi)含有的運算符屬性相似,便于分層次索引的生成;同時,將優(yōu)先級信息應(yīng)用于不同類型數(shù)據(jù)集注冊的規(guī)則集,規(guī)則的優(yōu)先級表示其被挖掘計算的需求,當(dāng)一個新的挖掘規(guī)則注冊到系統(tǒng)中,首先通過預(yù)處理模塊將挖掘規(guī)則按照屬性類型劃分為非連續(xù)型運算符Pd和連續(xù)型運算符P。,然后將非連續(xù)型運算符Pd插入到分級索引的第一層索引中,即插入到非連續(xù)型屬性對應(yīng)的二叉搜索樹索引中;最后將連續(xù)型運算符P。插入到分級索引的第二層索引中;
[0010]當(dāng)將非連續(xù)型運算符Pd插入到第一層的二叉搜索樹的時候,首先按照排序二叉樹的標(biāo)準(zhǔn)插入方式進行插入,因此需要自底向上進行旋轉(zhuǎn),直到滿足堆特性,在刪除過程中,先把優(yōu)先級設(shè)置為最低,自上而下轉(zhuǎn)移到葉子,然后刪除;
[0011 ] 當(dāng)將連續(xù)型運算符P。插入到分級索引的第二層索引時,首先定位到要插入的目標(biāo)葉子節(jié)點,第二層索引插入連續(xù)型運算符P。的過程從第二層的根節(jié)點開始,順次按照廣度優(yōu)先搜索,按照多維空間的包含關(guān)系進行搜索,當(dāng)找到一個葉子節(jié)點以后,檢查該葉子節(jié)點的分支數(shù);如果發(fā)現(xiàn)已經(jīng)超過預(yù)設(shè)分支閾值,則直接進行節(jié)點分裂,產(chǎn)生新節(jié)點,并將該葉子節(jié)點已有的節(jié)點和P。的矢量利用啟發(fā)式策略平均分配到兩個節(jié)點中,最后依次更新父節(jié)點信息,如果葉子節(jié)點的分支數(shù)沒有超過預(yù)設(shè)分支閾值,則直接通過更新父節(jié)點來完成插入操作。
[0012]本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點:
[0013]本發(fā)明提出了一種數(shù)據(jù)分析提取方法,根據(jù)所建立的分級索引,數(shù)據(jù)匹配方法在不降低挖掘準(zhǔn)確率的情況下,大幅度提升了性能。
【附圖說明】
[0014]圖1是根據(jù)本發(fā)明實施例的高效的數(shù)據(jù)分析處理方法的流程圖。
【具體實施方式】
[0015]下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細(xì)描述。結(jié)合這樣的實施例描述本發(fā)明,但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權(quán)利要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)以便提供對本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié),并且無這些具體細(xì)節(jié)中的一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書實現(xiàn)本發(fā)明。
[0016]本發(fā)明的一方面提供了一種高效的數(shù)據(jù)分析處理方法。圖1是根據(jù)本發(fā)明實施例的高效的數(shù)據(jù)分析處理方法流程圖。
[0017]本發(fā)明在多維索引的基礎(chǔ)上,引入了分級索引的思想??紤]不同類型數(shù)據(jù)集本身的特性,將數(shù)據(jù)集包含的屬性劃分為非連續(xù)型屬性和連續(xù)型屬性??紤]到非連續(xù)型屬性上的運算符共享度高的特性,提出了一種兩層的分級索引,給出了索引生成和挖掘和匹配方法。
[0018]本發(fā)明提出了面向不同類型數(shù)據(jù)集上大規(guī)模挖掘規(guī)則計算的動態(tài)索引,支持挖掘規(guī)則的實時更新,其主體流程包括索引生成和實時匹配計算。生成索引時,首先對不同類型數(shù)據(jù)集的屬性集進行分類:連續(xù)型屬性和非連續(xù)型屬性。然后,根據(jù)屬性類型將輸入的挖掘規(guī)則集劃分為不同的運算符集合,基于不同的運算符集合生成分級索引:根據(jù)非連續(xù)型屬性上的運算符生成二叉搜索樹作為第一層索引;在第二層,將所有連續(xù)型屬性映射為多維空間,根據(jù)連續(xù)性屬性相關(guān)的運算符生成多維索引。由于非連續(xù)型屬性上的運算符都是非連續(xù)值,所以生成的第一層索引可以快速定位到挖掘規(guī)則上,而且空間開銷也比較小。在本發(fā)明的分級索引的第二層,本發(fā)明將屬性相同的屬性運算符按照維度劃分生成索引,盡可能的提升挖掘規(guī)則處理速度。對實時到達(dá)的數(shù)據(jù)集元組t進行挖掘計算時,首先對t進行矢量提取和剪裁計算;量化后的矢量經(jīng)過運算符屬性分類處理后得到不同的運算符矢量;運用本發(fā)明的分級索引的挖掘規(guī)則方法通過兩級索引過濾得到滿足條件的挖掘規(guī)則集。
[0019]從結(jié)構(gòu)上來講,本發(fā)明的分級索引包括3個重要組成部分以及3個重要操作。其中,3個組成部分分別是:(I)第一層的二叉搜索樹分級索引;(2)第二層的多維矢量分級索引;(3)挖掘規(guī)則和運算符的關(guān)聯(lián)表?;诒景l(fā)明的分級索引的3個主要操作分別是:(I)搜索;(2)插入;(3)刪除。
[0020]本發(fā)明的分級索引總體上是I個兩層的分級索引。第一層是由非連續(xù)型運算符生成的二叉搜索樹索引;第二層是根據(jù)連續(xù)型運算符對應(yīng)的多維矢量生成的多維空間樹;另外I個很重要的組成部分是挖掘規(guī)則與運算符的關(guān)聯(lián)表,用來完成兩層索引挖掘規(guī)則結(jié)果的快速組合。
[0021]本發(fā)明的分級索引中的節(jié)點可以分為3類:首層節(jié)點top,第二層的中間節(jié)點mid和葉子節(jié)點leaf。
[0022]在首層節(jié)點中包含以下元素:attr為首層二叉搜索樹節(jié)點對應(yīng)的非連續(xù)型屬性,value為該二叉搜索樹節(jié)點對應(yīng)的非連續(xù)值,weight為該節(jié)點代表的運算符的優(yōu)先級,left,right為該節(jié)點的左右孩子節(jié)點。在中間節(jié)點中:branch代表著第二層索引對應(yīng)的多維空間樹結(jié)構(gòu)的中間節(jié)點指針。在葉節(jié)點中:mbr為第二層葉子節(jié)點對應(yīng)的多維矢量。
[0023]基于本發(fā)明的分級索引,提出一種可行的索引生成方法,共分為3個步驟:規(guī)則預(yù)處理、運算符集合和劃分和分級索引生成。先對預(yù)處理后的規(guī)則集按照屬性分類進行一定的劃分,在此基礎(chǔ)上再對劃分后的數(shù)據(jù)集分層生成索引。
[0024]規(guī)則集劃分時,對于預(yù)處理后的η條規(guī)則,按照屬性類別和值域劃分了非連續(xù)型運算符集合A和連續(xù)型運算符集合B。其中:
[002
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1