亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種快速實現(xiàn)數(shù)據(jù)挖掘分析的模塊組件化方法與流程

文檔序號:12177425閱讀:1670來源:國知局

本發(fā)明涉及數(shù)據(jù)分析處理技術領域,尤其是提供一種快速實現(xiàn)數(shù)據(jù)挖掘分析的模塊組件化方法。



背景技術:

進入信息時代隨著大數(shù)據(jù)的發(fā)展,越來越多的行業(yè)需要對數(shù)據(jù)挖掘分析,保存在計算機中的文件和數(shù)據(jù)庫中的數(shù)據(jù)量正在以指數(shù)速度增長,同時人們期望從數(shù)據(jù)中獲得更有用的信息。但數(shù)據(jù)量越來越大,需要一種新的技術從海量數(shù)據(jù)中自動、高效地提取所需的有用知識,數(shù)據(jù)挖掘技術由此而生。

數(shù)據(jù)挖掘分析的應用,需在大量的數(shù)據(jù)中找出數(shù)據(jù)的業(yè)務邏輯關系,隨著數(shù)據(jù)挖掘分析工具的發(fā)展,可通過相關的軟件工具,如Carlementine、R語言、Spark MLlib等進行實現(xiàn),但是這些工具,都需要一定程度的編程語言實現(xiàn),導致進行數(shù)據(jù)挖掘分析的難度加大。



技術實現(xiàn)要素:

本發(fā)明解決的技術問題在于提供一種快速實現(xiàn)數(shù)據(jù)挖掘分析的模塊組件化方法;可以大大降低應用數(shù)據(jù)挖掘分析的門檻,降低數(shù)據(jù)挖掘分析的應用難度。

本發(fā)明解決上述技術問題的技術方案是:

所述的方法包括以下幾個步驟:

步驟1:對數(shù)據(jù)挖掘分析過程進行分析總結,抽取出共同的數(shù)據(jù)挖掘分析過程的方法,對數(shù)據(jù)挖掘分析過程的數(shù)據(jù)輸入、數(shù)據(jù)分析算法、數(shù)據(jù)分析結果解析進行模塊組件化;

步驟2:分析數(shù)據(jù)輸入,按類型分為文件類輸入、關系型數(shù)據(jù)庫輸入、大數(shù)據(jù)型輸入,不同的輸入類型輸入不同的數(shù)據(jù)源配置參數(shù),形成各類型的模塊組件化,用于后續(xù)的模塊功能組裝;

步驟3:對數(shù)據(jù)分析算法,按對數(shù)據(jù)的分析數(shù)量分為普通數(shù)據(jù)量分析與大數(shù)據(jù)量分析,按算法的分析結果分為分類算法、回歸算法、聚類算法、關聯(lián)算法等類型;不同的算法設置有不同的數(shù)據(jù)源輸入指標,各類算法按實際的情況進行模塊組件化,用于后續(xù)的模塊功能組裝;

步驟4:對數(shù)據(jù)分析結果進行解析,解析出來的結果以以文件或圖片的方式進行展示,然后給用戶顯示數(shù)據(jù)的最終業(yè)務邏輯結果。

所述分析數(shù)據(jù)輸入,通過對數(shù)據(jù)輸入的相關操作方法總結,數(shù)據(jù)輸入需共同實現(xiàn)以下方法:

1)讀取輸入的表(子源);

2)讀取表(子源)中各列名稱;

3)讀取表(子源)總數(shù)據(jù)量;

4)讀取表(子源)各列數(shù)據(jù)等方法;

數(shù)據(jù)輸入使用的是文件類方法時,配置讀取輸入文件的目錄地址,同時區(qū)分為TXT文件或Excel文件或CSV文件等類型,對于TXT文件配置文件的數(shù)據(jù)分隔符號,同時實現(xiàn)數(shù)據(jù)輸入需共同實現(xiàn)的方法;對于Excel類文件,對其中包括的多個Sheet,當作多個表(子源)的情況進行讀取;

數(shù)據(jù)輸入使用的是關系型數(shù)據(jù)庫方法時,配置讀取關系型數(shù)據(jù)庫的數(shù)據(jù)庫類型、地址、端口、用戶名、密碼等信息,通過配置的讀取數(shù)據(jù)庫的信息,實現(xiàn)數(shù)據(jù)輸入需共同實現(xiàn)的方法;

數(shù)據(jù)輸入使用的是大數(shù)據(jù)類型方法時,配置大數(shù)據(jù)的相關信息,HDFS文件系統(tǒng)的,配置讀取HDFS文件的目錄信息,并且輸入的HDFS文件是結構化的數(shù)據(jù),并可以通過讀取文件頭等信息;對于數(shù)據(jù)輸入是HBase,則需配置相關的IP地址、端口等信息,用于數(shù)據(jù)的讀取。

對于多種類型的數(shù)據(jù)輸入,各數(shù)據(jù)輸入可以進行多種類型的互相轉換,其中主要是文件類向大數(shù)據(jù)類型、關系型數(shù)據(jù)庫向大數(shù)據(jù)類型進行轉換,轉換到大數(shù)據(jù)類型上,方便于后續(xù)進行數(shù)據(jù)挖掘分析時,調用大數(shù)據(jù)的分析算法,解除普通數(shù)據(jù)分析算法在大數(shù)據(jù)分析時的瓶頸。

所述的數(shù)據(jù)分析算法可通過第三方的數(shù)據(jù)分析包R語言進行實現(xiàn);或是通過相關的編寫語言Java進行實現(xiàn);或是通過調用大數(shù)據(jù)的程序包進行實現(xiàn);不同的實現(xiàn)方法,通過調用數(shù)據(jù)輸入的不同類型,組織成各類數(shù)據(jù)格式,用于數(shù)據(jù)挖掘分析;

各算法類型,通過選擇不現(xiàn)的算法實現(xiàn),通過各自功能模塊的組件化編程,最終可通過組裝的形式,用于最終的數(shù)據(jù)挖掘分析;

從數(shù)據(jù)分析算法的實現(xiàn)、類型上,抽取出共同的數(shù)據(jù)輸入各數(shù)據(jù)格式的組織方法,形成組件化的模塊,對各類數(shù)據(jù)輸入進行數(shù)據(jù)的獲取并輸入到數(shù)據(jù)分析算法的組件實現(xiàn)上,實現(xiàn)數(shù)據(jù)挖掘分析的數(shù)據(jù)輸入與分析算法的對接。

所述的數(shù)據(jù)分析結果按數(shù)據(jù)分析算法的類型進行解析,抽取出共同的方法,按不同的數(shù)據(jù)分析結果解析進行實現(xiàn),關聯(lián)算法需解析出各數(shù)據(jù)輸入的關聯(lián)度,及各關聯(lián)項的關聯(lián)次數(shù),用于描述關聯(lián)度;對于線性回歸需解析出回歸自變量的各變量常數(shù)系數(shù)的值;

對分析結果的保存進行配置,指定保存位置與保存類型,可直接保存到文件、圖片或關系型數(shù)據(jù)庫表上。

所述的方法、在調用數(shù)據(jù)挖掘分析的過程中,通過運行主程序的方式,從配置數(shù)據(jù)輸入、選擇分析算法到數(shù)據(jù)分析結果解析,從命令行界面上進行選擇配置,并形成配置文件的形式,在數(shù)據(jù)挖掘分析程序啟動后直接獲取配置信息進行數(shù)據(jù)挖掘分析過程;

通過在界面程序上按數(shù)據(jù)挖掘分析流程的參數(shù)規(guī)格,完成從數(shù)據(jù)輸入、分析算法選擇、分析結果解析的配置,然后通過傳參數(shù)的形式進行調用,從而完成數(shù)據(jù)挖掘分析的過程,并從分析結果解析的文件上,讀取相關的分析結果。

數(shù)據(jù)挖掘分析的過程可以按各流程功能的步驟實現(xiàn)模塊化,數(shù)據(jù)輸入、分析算法選擇及分析結果解析可以按功能進行子模塊的再模塊化;

數(shù)據(jù)輸入、分析算法選擇和分析結果解析的后續(xù)的功能增加完善、或是對算法的優(yōu)化,都可獨立地進行某個環(huán)節(jié)的增加、刪除或優(yōu)化,而不會影響到其他的算法。

本發(fā)明的有益效果是:

本發(fā)明方法是通過利用面向對象的編程方法,通過總結分析數(shù)據(jù)挖掘分析過程的共同方法,通過模塊組件化的方式,把各種數(shù)據(jù)輸入、分析算法、分析結果解析進行模塊化實現(xiàn),并通過組件化組裝的方式,使數(shù)據(jù)挖掘分析的過程,簡化為通過對數(shù)據(jù)輸入的配置、數(shù)據(jù)分析算法的選擇、數(shù)據(jù)分析結果的解析,從而簡化了數(shù)據(jù)挖掘分析過程中的難度,使數(shù)據(jù)挖掘分析過程可以快速實現(xiàn)。

通過模塊功能組件化的形式,使應用數(shù)據(jù)挖掘分析的人,盡可能地減少編程,通過直接的數(shù)據(jù)輸入與簡單的數(shù)據(jù)挖掘分析算法選擇,從而快速實現(xiàn)數(shù)據(jù)挖掘分析的模塊組件化分析,降低應用數(shù)據(jù)挖掘分析的門檻,降低數(shù)據(jù)挖掘分析的應用難度。

通過抽取出數(shù)據(jù)挖掘分析過程的數(shù)據(jù)輸入、分析算法、分析結果解析三個過程,再通過抽取數(shù)據(jù)輸入的各種數(shù)據(jù)輸入類型的獲取數(shù)據(jù)方法、抽取分析算法從實現(xiàn)方式及類型上、抽取分析結果解析過程的方法,把整個數(shù)據(jù)挖掘分析的過程進行功能模塊細化,形成可后續(xù)按需要、按功能進行組件化的過程,并且可以快速地進行功能模塊的擴展。

附圖說明

下面結合附圖對本發(fā)明進一步說明:

附圖1是本發(fā)明快速實現(xiàn)數(shù)據(jù)挖掘的模塊組件化流程圖。

具體實施方式

如圖1所示,本發(fā)明的數(shù)據(jù)挖掘分析按數(shù)據(jù)輸入、分析算法、分析結果解析進行實現(xiàn)后,通過打包為程序包的形式存在,并可通過界面配置后按相關的規(guī)格參數(shù)進行輸入進行數(shù)據(jù)挖掘分析的調用,也可以通過命令的形式,進行數(shù)據(jù)挖掘分析的調用,下面是通過命令的形式進行程序實施方式的說明:

步驟一、程序按數(shù)據(jù)輸入、分析算法、分析結果解析的功能模塊的具體實現(xiàn)進行加載,并打包為可運行的程序;

步驟二、運行程序,程序初始化各數(shù)據(jù)輸入的類型,分析算法的實現(xiàn)方式、類型,分析結果解析的類型等,并各形成1、2、3、…等的編號,用于后續(xù)的輸入;

步驟三、程序初始化完成后,進入數(shù)據(jù)輸入配置功能,程序自動讀取原來已經配置好的數(shù)據(jù)輸入,如果要進行數(shù)據(jù)挖掘分析的數(shù)據(jù)輸入已經存在,可以直接讀取并跳轉到步驟四;如果數(shù)據(jù)輸入需要重新配置,選擇新增,按以下步驟進行操作:

1)輸入新數(shù)據(jù)輸入的名稱;

2)選擇新數(shù)據(jù)輸入的類型:文件類、關系型數(shù)據(jù)庫、大數(shù)據(jù);

3)配置數(shù)據(jù)輸入的相關信息:對于文件類,需選擇文件類數(shù)據(jù)輸入的類型:TXT、Excel、CSV,并設置分隔符等信息;對于關系型數(shù)據(jù)庫,需輸入數(shù)據(jù)庫類型、地址、端口、數(shù)據(jù)庫名稱、用戶名、密碼等信息;對于大數(shù)所,需輸入HDFS的地址,HBase的地址、端口等信息;

4)配置完成后,進行配置信息的數(shù)據(jù)讀取測試,測試通過則轉到下一步,測試不通過,輸出不通過的原因,并跳轉到配置數(shù)據(jù)輸入的相關信息;

5)配置完成并測試通過后,把配置的信息保存到本地上,用于以后需要進行數(shù)據(jù)分析時直接讀取;

步驟四、配置數(shù)據(jù)輸入完成了,選擇使用要用到的數(shù)據(jù)輸入,對于有多個表(子源)的數(shù)據(jù)輸入,需選擇指定的表(子源)轉入分析算法選擇,分析算法選擇的步驟如下:

1)命令顯示Java實現(xiàn)、R語言實現(xiàn)、大數(shù)據(jù)實現(xiàn),通過選擇不同的實現(xiàn)調用不同的分析算法,特別對于大數(shù)據(jù)的輸入,需選擇大數(shù)據(jù)實現(xiàn);

2)選擇了不同的實現(xiàn)后,命令顯示各種實現(xiàn)的具體分析算法類型,按選擇的數(shù)據(jù)輸入的業(yè)務邏輯,選擇合適的數(shù)據(jù)分析算法;

3)對于選擇的不同的數(shù)據(jù)分析算法,需對數(shù)據(jù)輸入進行相關參數(shù)的配置,如線性回歸算法需選擇因變量與自變量;關聯(lián)分析需選擇輸入的列信息,聚類分析需選擇輸入的列與分類數(shù)量等,按不同的分析算法進行輸入?yún)?shù)的配置;

步驟五、配置數(shù)據(jù)分析算法的選擇完成后,進入數(shù)據(jù)分析結果解析的配置,分析結果解析的配置步驟如下:

1)按分析的算法,列出分析結果的解析類型;

2)選擇分析結果的解析類型,并設置分析結果輸出目錄或表結構;

3)對分析結果的輸出目錄或表結構進行判斷,如果不存在,則進行判斷,如果輸出結果是表結構,則進行表結構的對應關系指定;

步驟六、完成分析結果解析的配置后,實現(xiàn)整個數(shù)據(jù)挖掘分析配置的過程,輸入配置的名稱則同時把配置結果保存在目錄上,程序自動啟動分析過程并按配置的信息進行分析,此過程可不斷查詢分析的進度,并在分析結束后,在指定的分析輸出結果目錄或表結構上,查看到分析的最終結果,并進行展示;

步驟七、如果需要重新運行此數(shù)據(jù)挖掘分析結果,直接選擇該保存的數(shù)據(jù)挖掘分析配置并運行,可查看到多次的分析結果;

步驟八、對于數(shù)據(jù)輸入的功能,多增加了一個把文件類或關系型數(shù)據(jù)庫轉換為大數(shù)據(jù)的功能,使對于大量的數(shù)據(jù),可以在大數(shù)據(jù)的分析類型上進行分析。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1