本發(fā)明涉及機(jī)器學(xué)習(xí)的技術(shù)領(lǐng)域,具體涉及到一種基于spark的分布式機(jī)器學(xué)習(xí)系統(tǒng)。
背景技術(shù):
機(jī)器學(xué)習(xí)是基于一種算法,該算法從數(shù)據(jù)中獲得學(xué)習(xí)能力,而無需依靠基于規(guī)則的編程。隨著數(shù)字化的進(jìn)步和計(jì)算能力日趨便宜,使得數(shù)據(jù)科學(xué)家能夠停止建造模型,轉(zhuǎn)而訓(xùn)練計(jì)算機(jī)來進(jìn)行這一工作,因此機(jī)器學(xué)習(xí)在20世紀(jì)90年代晚期作為一門科學(xué)學(xué)科出現(xiàn)在了大眾的視野中。目前全世界矚目的大數(shù)據(jù)因其難以管理的巨大數(shù)量和復(fù)雜性增加了使用機(jī)器學(xué)習(xí)的潛能——以及對(duì)機(jī)器學(xué)習(xí)的需求。
各大產(chǎn)業(yè)對(duì)大數(shù)據(jù)的呼聲越來越高,希望加快傳統(tǒng)產(chǎn)業(yè)數(shù)字化、智能化,做大做強(qiáng)數(shù)字經(jīng)濟(jì)。但是由于大數(shù)據(jù)相關(guān)技術(shù)更新速度快、技術(shù)門檻高,多數(shù)傳統(tǒng)產(chǎn)業(yè)在這方面積累不足,大數(shù)據(jù)轉(zhuǎn)型過程中僅依靠產(chǎn)業(yè)自身力量困難重重,并且成本高昂。因此,研發(fā)基于數(shù)據(jù)起源的大數(shù)據(jù)支撐平臺(tái),解決海量數(shù)據(jù)的匯集存儲(chǔ)、計(jì)算處理、分析挖掘、可視化等基礎(chǔ)性問題,實(shí)現(xiàn)數(shù)據(jù)從出生到銷毀的全程跟蹤、管理、審計(jì)和分析,具有重要的社會(huì)效益和經(jīng)濟(jì)價(jià)值。將機(jī)器學(xué)習(xí)能力整合到大數(shù)據(jù)產(chǎn)品中,可以更高得幫助客戶發(fā)掘數(shù)據(jù)價(jià)值,提高產(chǎn)品競(jìng)爭(zhēng)力。
在現(xiàn)有技術(shù)中,傳統(tǒng)的統(tǒng)計(jì)/機(jī)器學(xué)習(xí)產(chǎn)品多依賴于數(shù)據(jù)抽樣并只能在單機(jī)上執(zhí)行,導(dǎo)致難以精準(zhǔn)反映全集特征,無法分析海量數(shù)據(jù)。
技術(shù)實(shí)現(xiàn)要素:
基于上述問題,本發(fā)明提出一種基于spark的分布式機(jī)器學(xué)習(xí)系統(tǒng)。本發(fā)明將大數(shù)據(jù)和機(jī)器學(xué)習(xí)進(jìn)行整合,應(yīng)用豐富的機(jī)器學(xué)習(xí)算法幫助用戶分析海量數(shù)據(jù),本發(fā)明可在分布式集群上對(duì)全量數(shù)據(jù)進(jìn)行建模,處理更快、預(yù)測(cè)更準(zhǔn)確,具有穩(wěn)定可靠、容易擴(kuò)展的特點(diǎn)。支持成熟、豐富的數(shù)據(jù)挖掘算法,如svm(支持向量機(jī))、樸素貝葉斯、k-means等,生成的分類、聚集、回歸模型可以在多種行業(yè)和場(chǎng)景中使用,提供了方便易用的界面和向?qū)?,適合各水平開發(fā)人員利用和學(xué)習(xí)機(jī)器學(xué)習(xí)技術(shù),并根據(jù)用戶的數(shù)據(jù)提供最合適的模型建議。
數(shù)據(jù)集中經(jīng)常會(huì)出現(xiàn)樣本類不平衡的問題,導(dǎo)致正負(fù)樣本比例差距較大,因此,本發(fā)明采用了roc曲線、auc值、混淆矩陣等多種可視化手段展示模型指標(biāo),使用戶可以從多維度直觀掌握學(xué)習(xí)模型的預(yù)測(cè)效果,幫助用戶更好地從數(shù)據(jù)中獲取價(jià)值。模型建好后可批量、實(shí)時(shí)進(jìn)行預(yù)測(cè),并提供restapi接口讓用戶可以進(jìn)行二次開發(fā),降低開發(fā)成本。具備極強(qiáng)的擴(kuò)展性,日產(chǎn)預(yù)測(cè)結(jié)果十幾億條,高效地完成海量數(shù)據(jù)分析。
本發(fā)明提供如下技術(shù)方案:
本發(fā)明提供一種基于spark的分布式機(jī)器學(xué)習(xí)系統(tǒng),所述系統(tǒng)包括:
數(shù)據(jù)接入模塊,提供多種數(shù)據(jù)源接入,輸入數(shù)據(jù),支持分布式文件系統(tǒng)、列式數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)存儲(chǔ)方式;
特征提取模塊,讀取輸入數(shù)據(jù),通過輸入數(shù)據(jù)推測(cè)預(yù)制數(shù)據(jù)集中每一列的屬性名和數(shù)據(jù)類型;模型訓(xùn)練模塊,對(duì)預(yù)制數(shù)據(jù)集使用預(yù)置算法進(jìn)行訓(xùn)練,生成分類模型、聚集模型或回歸模型;模型評(píng)估模塊,針對(duì)數(shù)據(jù)集存在的樣本不均衡問題,采用roc曲線、auc值、混淆矩陣可視化手段展示所述模型指標(biāo);
結(jié)果預(yù)測(cè)模塊,提供交互式界面,進(jìn)行離線批量預(yù)測(cè)或在線實(shí)時(shí)預(yù)測(cè),預(yù)測(cè)過程運(yùn)行在分布式系統(tǒng)中,基于內(nèi)存進(jìn)行迭代式計(jì)算,對(duì)海量數(shù)據(jù)進(jìn)行預(yù)測(cè)。
其中,所述預(yù)制數(shù)據(jù)集中的預(yù)制值可以手動(dòng)或者自動(dòng)修改。
其中,所述預(yù)置算法包括支持向量機(jī)、樸素貝葉斯算法、基于距離的聚類算法、線性回歸算法。
其中,所述展示模型指標(biāo)包括數(shù)字展示、表單畫像展示、信息檢索展示、關(guān)鍵詞頻展示。
優(yōu)選的,所述預(yù)置算法通過可視化界面選擇。
優(yōu)選的,所述系統(tǒng)還包括監(jiān)控模塊,對(duì)結(jié)果預(yù)測(cè)進(jìn)行監(jiān)控,清理冗余數(shù)據(jù)。
優(yōu)選的,所述系統(tǒng)還包括日志模塊,對(duì)系統(tǒng)運(yùn)行過程中的操作、數(shù)據(jù)進(jìn)行記錄。
本發(fā)明提供了一種基于spark的分布式機(jī)器學(xué)習(xí)系統(tǒng),將大數(shù)據(jù)和機(jī)器學(xué)習(xí)進(jìn)行整合,應(yīng)用豐富的機(jī)器學(xué)習(xí)算法幫助用戶分析海量數(shù)據(jù),本發(fā)明可在分布式集群上對(duì)全量數(shù)據(jù)進(jìn)行建模,處理更快、預(yù)測(cè)更準(zhǔn)確,具有穩(wěn)定可靠、容易擴(kuò)展的特點(diǎn)。支持成熟、豐富的數(shù)據(jù)挖掘算法,如svm(支持向量機(jī))、樸素貝葉斯、k-means等,生成的分類、聚集、回歸模型可以在多種行業(yè)和場(chǎng)景中使用,提供了方便易用的界面和向?qū)?,采用roc曲線、auc值、混淆矩陣等多種可視化手段展示模型指標(biāo),使用戶從多維度直觀掌握學(xué)習(xí)模型的預(yù)測(cè)效果,幫助用戶更好地從數(shù)據(jù)中獲取價(jià)值,批量、實(shí)時(shí)進(jìn)行海量數(shù)據(jù)預(yù)測(cè),并提供restapi接口讓用戶可以進(jìn)行二次開發(fā),降低開發(fā)成本。
附圖說明
圖1是本發(fā)明的系統(tǒng)結(jié)構(gòu)框圖。
具體實(shí)施方式
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
將大數(shù)據(jù)和機(jī)器學(xué)習(xí)進(jìn)行整合,應(yīng)用豐富的機(jī)器學(xué)習(xí)算法幫助用戶分析海量數(shù)據(jù),從而發(fā)掘數(shù)據(jù)價(jià)值。
傳統(tǒng)的統(tǒng)計(jì)/機(jī)器學(xué)習(xí)產(chǎn)品多依賴于數(shù)據(jù)抽樣并只能在單機(jī)上執(zhí)行,導(dǎo)致難以精準(zhǔn)反映全集特征。本系統(tǒng)可在分布式集群上對(duì)全量數(shù)據(jù)進(jìn)行建模,處理更快、預(yù)測(cè)更準(zhǔn)確,具有穩(wěn)定可靠、容易擴(kuò)展的特點(diǎn)。支持成熟、豐富的數(shù)據(jù)挖掘算法,如svm(支持向量機(jī))、樸素貝葉斯、k-means基于距離的聚類算法等,生成的分類、聚集、回歸模型可以在多種行業(yè)和場(chǎng)景中使用。
提供了方便易用的界面和向?qū)?,適合各水平開發(fā)人員利用和學(xué)習(xí)機(jī)器學(xué)習(xí)技術(shù),并根據(jù)用戶的數(shù)據(jù)提供最合適的模型建議。實(shí)際的數(shù)據(jù)集中經(jīng)常會(huì)出現(xiàn)樣本類不平衡的問題,導(dǎo)致正負(fù)樣本比例差距較大,因此,采用了roc曲線、auc值、混淆矩陣等多種可視化手段展示模型指標(biāo),使用戶可以從多維度直觀掌握學(xué)習(xí)模型的預(yù)測(cè)效果,幫助用戶更好地從數(shù)據(jù)中獲取價(jià)值。模型建好后可批量、實(shí)時(shí)進(jìn)行預(yù)測(cè),并提供restapi接口讓用戶可以進(jìn)行二次開發(fā),降低開發(fā)成本。具備極強(qiáng)的擴(kuò)展性,日產(chǎn)預(yù)測(cè)結(jié)果十幾億條。
本發(fā)明的有益效果為:面向行業(yè)搭建容納萬億特征數(shù)據(jù)的、分鐘級(jí)別模型更新的、高效訓(xùn)練的系統(tǒng),收集行業(yè)語料庫(kù),運(yùn)用數(shù)據(jù)統(tǒng)計(jì)的手段,采用分布式算法,將分類、分析回歸、協(xié)同推薦等模型及算法運(yùn)用到行業(yè)應(yīng)用中,訓(xùn)練機(jī)器產(chǎn)生智能,實(shí)現(xiàn)高效海量數(shù)據(jù)分析預(yù)測(cè)。
本發(fā)明簡(jiǎn)單易用、高效實(shí)時(shí)、模型豐富的大數(shù)據(jù)分析、挖掘與可視化功能。通過機(jī)器學(xué)習(xí)、語義分析以及智能預(yù)測(cè)推薦技術(shù)和模型破解傳統(tǒng)行業(yè)在海量數(shù)據(jù)(尤其是非結(jié)構(gòu)化數(shù)據(jù))中自動(dòng)分析、挖掘其內(nèi)在聯(lián)系、獲取數(shù)據(jù)價(jià)值的難題。提供豐富的可視化組件和高性能的展現(xiàn)能力,實(shí)現(xiàn)海量數(shù)據(jù)的動(dòng)態(tài)、交互式展現(xiàn)。
本發(fā)明的實(shí)施方式還提供了一種基于spark的分布式機(jī)器學(xué)習(xí)系統(tǒng),所述系統(tǒng)包括:
數(shù)據(jù)接入模塊,提供多種數(shù)據(jù)源接入,輸入數(shù)據(jù),支持分布式文件系統(tǒng)、列式數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)存儲(chǔ)方式;
特征提取模塊,讀取輸入數(shù)據(jù),通過輸入數(shù)據(jù)推測(cè)預(yù)制數(shù)據(jù)集中每一列的屬性名和數(shù)據(jù)類型;
讀取輸入數(shù)據(jù)并通過推測(cè)預(yù)制數(shù)據(jù)集中每一列的屬性名和數(shù)據(jù)類型。針對(duì)預(yù)制值,允許人工調(diào)整和修改或者調(diào)用腳本自動(dòng)修改,以確保數(shù)據(jù)讀取的準(zhǔn)確性,從而提升預(yù)測(cè)命中率。
模型訓(xùn)練模塊,對(duì)預(yù)制數(shù)據(jù)集使用預(yù)置算法進(jìn)行訓(xùn)練,生成分類模型、聚集模型或回歸模型;
支持成熟、豐富的數(shù)據(jù)挖掘算法,如svm(支持向量機(jī))、樸素貝葉斯、k-means、線性回歸等算法,保證預(yù)測(cè)結(jié)果的高準(zhǔn)確性??梢陨煞诸?、聚集、回歸模型,適應(yīng)在多種行業(yè)的機(jī)器學(xué)習(xí)場(chǎng)景。
模型評(píng)估模塊,針對(duì)數(shù)據(jù)集存在的樣本不均衡問題,采用roc曲線、auc值、混淆矩陣可視化手段展示所述模型指標(biāo);
針對(duì)實(shí)際數(shù)據(jù)集存在的樣本不均衡等問題,采用roc曲線、auc值、混淆矩陣等多種可視化手段展示模型指標(biāo),多維度直觀掌握學(xué)習(xí)模型的預(yù)測(cè)效果,幫助模型修訂和價(jià)值獲取。
結(jié)果預(yù)測(cè)模塊,提供交互式界面,進(jìn)行離線批量預(yù)測(cè)或在線實(shí)時(shí)預(yù)測(cè),預(yù)測(cè)過程運(yùn)行在分布式系統(tǒng)中,基于內(nèi)存進(jìn)行迭代式計(jì)算,對(duì)海量數(shù)據(jù)進(jìn)行預(yù)測(cè)。
提供方便易用的交互式界面,幫助使用者進(jìn)行離線批量預(yù)測(cè)或在線實(shí)時(shí)預(yù)測(cè)。預(yù)測(cè)過程運(yùn)行在分布式系統(tǒng)中,基于內(nèi)存進(jìn)行迭代式計(jì)算,可以對(duì)海量數(shù)據(jù)進(jìn)行預(yù)測(cè),具備極強(qiáng)的擴(kuò)展性,日產(chǎn)預(yù)測(cè)結(jié)果十幾億條。
另外,所述系統(tǒng)還包括監(jiān)控模塊,對(duì)結(jié)果預(yù)測(cè)進(jìn)行監(jiān)控,清理冗余數(shù)據(jù);以及還包括日志模塊,對(duì)系統(tǒng)運(yùn)行過程中的操作、數(shù)據(jù)進(jìn)行記錄。還提供restapi接口讓用戶可以進(jìn)行二次開發(fā),降低開發(fā)成本。
此外,本發(fā)明具有豐富的可視化組件:提供豐富的可視化組件,是數(shù)據(jù)分析挖掘的直觀載體,可以實(shí)現(xiàn)單純的數(shù)字展示、表單畫像、信息檢索、關(guān)鍵詞頻率等多種展現(xiàn)效果,方便業(yè)務(wù)人員在第一時(shí)間了解其業(yè)務(wù)的方方面面,科研人員可以用其進(jìn)行精細(xì)的趨勢(shì)分析
高性能:基于分布式計(jì)算、內(nèi)存計(jì)算、流式計(jì)算等高效計(jì)算能力,可以支持億級(jí)數(shù)據(jù)的秒級(jí)處理,能夠應(yīng)對(duì)海量數(shù)據(jù)集復(fù)雜場(chǎng)景分析結(jié)果的實(shí)時(shí)展現(xiàn)。
交互式:提供可視化操作、管理界面,可以實(shí)現(xiàn)模型修改、算法調(diào)整、結(jié)果展現(xiàn)和模型評(píng)估等全過程的便捷高效。
本發(fā)明提供了一種基于spark的分布式機(jī)器學(xué)習(xí)系統(tǒng),將大數(shù)據(jù)和機(jī)器學(xué)習(xí)進(jìn)行整合,應(yīng)用豐富的機(jī)器學(xué)習(xí)算法幫助用戶分析海量數(shù)據(jù),本發(fā)明可在分布式集群上對(duì)全量數(shù)據(jù)進(jìn)行建模,處理更快、預(yù)測(cè)更準(zhǔn)確,具有穩(wěn)定可靠、容易擴(kuò)展的特點(diǎn)。支持成熟、豐富的數(shù)據(jù)挖掘算法,如svm(支持向量機(jī))、樸素貝葉斯、k-means等,生成的分類、聚集、回歸模型可以在多種行業(yè)和場(chǎng)景中使用,提供了方便易用的界面和向?qū)?,采用roc曲線、auc值、混淆矩陣等多種可視化手段展示模型指標(biāo),使用戶從多維度直觀掌握學(xué)習(xí)模型的預(yù)測(cè)效果,幫助用戶更好地從數(shù)據(jù)中獲取價(jià)值,批量、實(shí)時(shí)進(jìn)行海量數(shù)據(jù)預(yù)測(cè),并提供restapi接口讓用戶可以進(jìn)行二次開發(fā),降低開發(fā)成本。
對(duì)所公開的實(shí)施例的上述說明,使本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其他實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。