本發(fā)明涉及數(shù)據(jù)處理和數(shù)據(jù)分析過(guò)程控制
技術(shù)領(lǐng)域:
,具體涉及一種利用數(shù)據(jù)結(jié)構(gòu)控制的數(shù)據(jù)處理與數(shù)據(jù)分析框架。
背景技術(shù):
:數(shù)據(jù)分析和數(shù)據(jù)處理各自使用所屬領(lǐng)域的專業(yè)軟件(系統(tǒng))來(lái)完成專業(yè)的技術(shù)任務(wù),比如數(shù)據(jù)分析使用sas、spss和matlab等專業(yè)軟件,而數(shù)據(jù)處理使用spark、storm和hadoop等計(jì)算框架。隨著商業(yè)數(shù)據(jù)分析和信息化技術(shù)的高速發(fā)展,基于業(yè)務(wù)的數(shù)據(jù)分析技術(shù)和基于信息理論的數(shù)據(jù)處理技術(shù)逐步進(jìn)入高度融合階段。傳統(tǒng)的商業(yè)分析是由專業(yè)的分析軟件來(lái)完成建模和分析過(guò)程,而數(shù)據(jù)處理技術(shù)則是由獨(dú)立的數(shù)據(jù)處理系統(tǒng)或者計(jì)算框架來(lái)實(shí)現(xiàn),這兩個(gè)過(guò)程在現(xiàn)有技術(shù)框架中都是獨(dú)立控制和執(zhí)行的。兩種軟件系統(tǒng)如果簡(jiǎn)單的融合,會(huì)產(chǎn)生系統(tǒng)間的通信開銷和任務(wù)調(diào)度消耗。技術(shù)實(shí)現(xiàn)要素:針對(duì)上述現(xiàn)有技術(shù),本發(fā)明目的在于提供一種利用數(shù)據(jù)結(jié)構(gòu)控制的數(shù)據(jù)處理與數(shù)據(jù)分析框架,解決現(xiàn)有技術(shù)數(shù)據(jù)處理框架由于結(jié)構(gòu)和協(xié)議的局限性而導(dǎo)致的可擴(kuò)展性差,和解決如何融合數(shù)據(jù)處理輸出和數(shù)據(jù)分析輸入以提高匹配性等技術(shù)問(wèn)題。為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案如下:一種利用數(shù)據(jù)結(jié)構(gòu)控制的數(shù)據(jù)處理方法,包括以下步驟:步驟1、定義源數(shù)據(jù)的元數(shù)據(jù)和定義源數(shù)據(jù)數(shù)據(jù)流操作的結(jié)構(gòu)化抽象;步驟2、選擇源數(shù)據(jù)的計(jì)算框架,在該計(jì)算框架內(nèi),定義源數(shù)據(jù)數(shù)據(jù)流操作的控制方式和保護(hù)機(jī)制,控制方式和保護(hù)機(jī)制作為流程協(xié)議的元語(yǔ);步驟3、至少將元數(shù)據(jù)、結(jié)構(gòu)化抽象和流程協(xié)議元語(yǔ)封裝在同種數(shù)據(jù)結(jié)構(gòu)中;步驟4、按元數(shù)據(jù)定義將源數(shù)據(jù)抽取至計(jì)算框架內(nèi),通過(guò)數(shù)據(jù)結(jié)構(gòu)解析流程協(xié)議元語(yǔ)為計(jì)算框架的參數(shù),確定運(yùn)算的模式和通道后在計(jì)算框架內(nèi)執(zhí)行運(yùn)算,獲得結(jié)果集合。上述方法中,所述的步驟4,包括以下步驟:步驟4.1、按元數(shù)據(jù)定義將源數(shù)據(jù)抽取至計(jì)算框架內(nèi),再利用數(shù)據(jù)結(jié)構(gòu)序列化轉(zhuǎn)化數(shù)據(jù)結(jié)構(gòu)中的流程協(xié)議元語(yǔ)為計(jì)算框架的參數(shù);步驟4.2.1、從簡(jiǎn)單運(yùn)算模式、復(fù)雜運(yùn)算模式、算法運(yùn)算模式和/或其他運(yùn)算模式這些模式中確定運(yùn)算的模式;步驟4.2.2、從正常通道、鏈?zhǔn)酵ǖ?、并行通道?或交叉通道這些通道中確定運(yùn)算的通道;步驟4.3、調(diào)用預(yù)定配置信息,執(zhí)行運(yùn)算,獲得結(jié)果集合。上述方法中,所述的步驟4.3,還包括建立錯(cuò)誤保護(hù)機(jī)制。上述方法中,所述的步驟4.3,還包括設(shè)置結(jié)果集合的校驗(yàn)規(guī)則,通過(guò)校驗(yàn)規(guī)則的結(jié)果集合作為步驟4.3的有效結(jié)果集合。上述方法中,所述的步驟4,還包括執(zhí)行數(shù)據(jù)加密、傳輸加密、身份認(rèn)證和/或數(shù)據(jù)脫敏這些安全策略。一種利用數(shù)據(jù)結(jié)構(gòu)控制數(shù)據(jù)處理的數(shù)據(jù)分析方法,包括以下步驟:步驟1、定義源數(shù)據(jù)的元數(shù)據(jù)和定義源數(shù)據(jù)數(shù)據(jù)流操作的結(jié)構(gòu)化抽象;步驟2、選擇源數(shù)據(jù)的計(jì)算框架,在該計(jì)算框架內(nèi),定義源數(shù)據(jù)數(shù)據(jù)流操作的控制方式和保護(hù)機(jī)制,控制方式和保護(hù)機(jī)制作為流程協(xié)議的元語(yǔ);步驟3、至少將元數(shù)據(jù)、結(jié)構(gòu)化抽象和流程協(xié)議元語(yǔ)封裝在同種數(shù)據(jù)結(jié)構(gòu)中;步驟4、按元數(shù)據(jù)定義將源數(shù)據(jù)抽取至計(jì)算框架內(nèi),通過(guò)數(shù)據(jù)結(jié)構(gòu)解析流程協(xié)議元語(yǔ)為計(jì)算框架的參數(shù),確定運(yùn)算的模式和通道后在計(jì)算框架內(nèi)執(zhí)行運(yùn)算,獲得結(jié)果集合;步驟5、對(duì)結(jié)果集合選擇數(shù)據(jù)輸出模式后進(jìn)行第一持久化操作,獲得第一持久化結(jié)果集合,再按照業(yè)務(wù)洞察規(guī)則對(duì)第一持久化結(jié)果集合進(jìn)行第二持久化操作,獲得第二持久化結(jié)果集合并同時(shí)生成數(shù)據(jù)軌跡。上述方法中,所述的步驟5,包括以下步驟:步驟5.1、從本地模式、集群模式和/或網(wǎng)絡(luò)模式中選擇數(shù)據(jù)輸出模式;步驟5.2、根據(jù)數(shù)據(jù)輸出的標(biāo)準(zhǔn)化配置信息,把結(jié)果集合持久化到定義后的存儲(chǔ)空間,獲得第一持久化結(jié)果集合;步驟5.3、從簡(jiǎn)單模式、綜合模式、決策模式和/或?qū)W習(xí)模式中選出業(yè)務(wù)洞察規(guī)則的定義模式后,按業(yè)務(wù)洞察規(guī)則和數(shù)據(jù)輸出的標(biāo)準(zhǔn)化配置信息,進(jìn)行業(yè)務(wù)洞察數(shù)據(jù)的持久化操作,獲得第二持久化結(jié)果集合并同時(shí)生成數(shù)據(jù)軌跡。上述方法中,所述的步驟5,其中,生成數(shù)據(jù)軌跡包括關(guān)聯(lián)性地生成全局用戶識(shí)別號(hào)記錄、時(shí)間信息記錄、權(quán)限信息記錄、關(guān)聯(lián)元數(shù)據(jù)調(diào)用的訪問(wèn)信息記錄、源數(shù)據(jù)使用信息記錄、以持久化方式存儲(chǔ)的信息記錄和/或以持久化方式輸出的信息記錄。一種流程協(xié)議元語(yǔ),包括在計(jì)算框架內(nèi),所定義源數(shù)據(jù)數(shù)據(jù)流操作的控制方式和保護(hù)機(jī)制的計(jì)算機(jī)元語(yǔ)言表達(dá)。一種封裝方法,包括將元數(shù)據(jù)、結(jié)構(gòu)化抽象和流程協(xié)議元語(yǔ)封裝在同種數(shù)據(jù)結(jié)構(gòu)中。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:框架設(shè)計(jì)上,數(shù)據(jù)分析和數(shù)據(jù)處理的控制直接利用數(shù)據(jù)結(jié)構(gòu)和流程協(xié)議元語(yǔ)來(lái)進(jìn)行控制,避免在技術(shù)融合中帶來(lái)的系統(tǒng)級(jí)開銷,有效提升框架的整體性能表現(xiàn),而現(xiàn)有技術(shù)僅僅通過(guò)設(shè)計(jì)多個(gè)接口模塊方式需要反復(fù)地更新或擴(kuò)充接口模塊并存在無(wú)法處理與分析有沖突數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)的技術(shù)壁壘;在框架的運(yùn)算過(guò)程中,數(shù)據(jù)分析的業(yè)務(wù)邏輯和數(shù)據(jù)運(yùn)算過(guò)程的控制都按照準(zhǔn)標(biāo)準(zhǔn)化的元語(yǔ)來(lái)設(shè)計(jì),以提高h(yuǎn)yong技術(shù)框架在技術(shù)實(shí)現(xiàn)上通用性。附圖說(shuō)明圖1為本發(fā)明的流程示意圖;圖2為本發(fā)明實(shí)施例的流程示意圖。具體實(shí)施方式本說(shuō)明書中公開的所有特征,或公開的所有方法或過(guò)程中的步驟,除了互相排斥的特征和/或步驟以外,均可以以任何方式組合。下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步說(shuō)明:本發(fā)明技術(shù)框架(命名為hyong)的目的就是為了解決兩個(gè)專業(yè)領(lǐng)域的系統(tǒng)級(jí)融合問(wèn)題。一種具有極高通用性和極佳性能表現(xiàn)的技術(shù)框架,包括以下步驟:s101、定義用于數(shù)據(jù)分析過(guò)程需要的所有元數(shù)據(jù)和數(shù)據(jù)分析流程的結(jié)構(gòu)化抽象,包括源數(shù)據(jù)的標(biāo)準(zhǔn)化、合法性和有效性保證,以及數(shù)據(jù)分析結(jié)構(gòu)和數(shù)據(jù)處理過(guò)程的定義和配置信息。s102、根據(jù)實(shí)際軟件開發(fā)的需求,選擇一種計(jì)算框架,這里主要考察數(shù)據(jù)量和系統(tǒng)響應(yīng)時(shí)間兩個(gè)因素,比如對(duì)gb級(jí)別數(shù)據(jù)量做離線分析,可以選擇hadoop、spark,而如果做實(shí)時(shí)或者近實(shí)時(shí)分析(秒級(jí)別響應(yīng)),可以選擇spark、storm,然后根據(jù)選擇的計(jì)算框架,定義數(shù)據(jù)計(jì)算過(guò)程的控制方式和保護(hù)機(jī)制,這個(gè)定義好的元素,我們稱為流程協(xié)議的元語(yǔ)。選擇不同計(jì)算框架,元語(yǔ)的實(shí)體內(nèi)容不同,但并不影響這種元語(yǔ)設(shè)計(jì)機(jī)制的規(guī)范性和合理性。s103、基于s101和s102構(gòu)建數(shù)據(jù)分析過(guò)程和計(jì)算框架元語(yǔ)的設(shè)計(jì),把兩者封裝在一種合適的數(shù)據(jù)結(jié)構(gòu)中;不同的數(shù)據(jù)結(jié)構(gòu)在數(shù)據(jù)查詢和檢索時(shí),具有不同的性能指標(biāo),并非選擇具有最佳查詢響應(yīng)時(shí)間的數(shù)據(jù)結(jié)構(gòu)就是最好的方案,而是要根據(jù)實(shí)際的應(yīng)用系統(tǒng)綜合要求考量,比如系統(tǒng)開發(fā)的復(fù)雜程度,系統(tǒng)本身的實(shí)用性和系統(tǒng)開發(fā)成本等。s104、基于s101的元數(shù)據(jù)定義、s102設(shè)計(jì)的元語(yǔ)和s103的數(shù)據(jù)結(jié)構(gòu)封裝:s1041、把源數(shù)據(jù)抽取到選定的計(jì)算框架中,利用數(shù)據(jù)結(jié)構(gòu)的序列化轉(zhuǎn)化,把流程協(xié)議元語(yǔ)解析成計(jì)算框架能夠識(shí)別的參數(shù);數(shù)據(jù)結(jié)構(gòu)序列化:把存儲(chǔ)在數(shù)據(jù)結(jié)構(gòu)中的流程協(xié)議元語(yǔ),利用數(shù)據(jù)結(jié)構(gòu)操作,轉(zhuǎn)化成與計(jì)算框架相互匹配的數(shù)據(jù)格式,以保證流程協(xié)議元語(yǔ)能夠被選定的計(jì)算框架識(shí)別;s1042、選擇運(yùn)算的模式,模式包括四種:簡(jiǎn)單運(yùn)算:主要包括四則運(yùn)算、匹配運(yùn)算和過(guò)濾運(yùn)算等;復(fù)雜運(yùn)算:主要包括函數(shù)運(yùn)算、多條件運(yùn)算等;算法運(yùn)算:主要包括需要算法調(diào)用實(shí)現(xiàn)的運(yùn)算;其他運(yùn)算:其他暫未定義的運(yùn)算模式;s1043、選擇運(yùn)算的通道,通道包括四種:正常通道:主要包括單步運(yùn)算的情況;鏈?zhǔn)酵ǖ溃褐饕ǘ鄠€(gè)需要按照前后關(guān)系依次執(zhí)行的情況;并行通道:主要包括多個(gè)運(yùn)算任務(wù)同步進(jìn)行的情況;交叉通道:主要包括運(yùn)算的結(jié)果集合需要兩個(gè)或者以上的運(yùn)算任務(wù)組合完成的情況;s1044、運(yùn)算執(zhí)行階段,根據(jù)s104,s1041,s1042,s1043的配置信息,完成數(shù)據(jù)處理和數(shù)據(jù)分析的執(zhí)行過(guò)程;根據(jù)選定的軟件運(yùn)行環(huán)境,如操作系統(tǒng)centos6.5、jre(java運(yùn)行時(shí)環(huán)境)、計(jì)算框架spark,在數(shù)據(jù)運(yùn)算執(zhí)行階段,需要建立該環(huán)境下的錯(cuò)誤保護(hù)機(jī)制(runtimeerrorpreservation),以保證運(yùn)算的正確執(zhí)行;s1045、根據(jù)s1044運(yùn)算的結(jié)果集合和業(yè)務(wù)需求,配置結(jié)果集合的數(shù)據(jù)校驗(yàn)規(guī)則,通過(guò)校驗(yàn)后的數(shù)據(jù),作為有效的結(jié)果集合提交給后續(xù)的流程;s1046、根據(jù)業(yè)務(wù)需求,配置數(shù)據(jù)安全的策略,安全策略包括但不限于數(shù)據(jù)加密,安全傳輸,身份認(rèn)證和數(shù)據(jù)脫敏等技術(shù)手段;根據(jù)系統(tǒng)開發(fā)的實(shí)際情況,數(shù)據(jù)安全策略可以選擇在數(shù)據(jù)輸出階段執(zhí)行,但并不影響hyong技術(shù)框架的整體設(shè)計(jì)機(jī)制。s105、以s1045的結(jié)果集合作為本流程的輸入集合,對(duì)該集合進(jìn)行結(jié)構(gòu)化輸出:s1051、定義數(shù)據(jù)輸出(output)的模式,包括本地模式,集群模式,網(wǎng)絡(luò)模式和其他模式,根據(jù)數(shù)據(jù)輸出的標(biāo)準(zhǔn)化配置信息,把數(shù)據(jù)結(jié)果集合(resultcollection)持久化到定義后的物理存儲(chǔ)或者虛擬存儲(chǔ)空間上;s1052、以s1051的數(shù)據(jù)結(jié)果集合為數(shù)據(jù)基礎(chǔ),按照預(yù)先定義的業(yè)務(wù)洞察(serviceinsight)規(guī)則,以及數(shù)據(jù)輸出的標(biāo)準(zhǔn)化配置信息,完成業(yè)務(wù)洞察數(shù)據(jù)的持久化操作;業(yè)務(wù)洞察包括四種模式:簡(jiǎn)單模式:是指通過(guò)簡(jiǎn)單運(yùn)算得出業(yè)務(wù)分析結(jié)果的模式;綜合模式:是指通過(guò)函數(shù)運(yùn)算或者復(fù)雜條件得出業(yè)務(wù)分析結(jié)果的模式;決策模式:是指通過(guò)人工或者算法制定決策規(guī)則得出業(yè)務(wù)分析結(jié)果的模式;其他模式(學(xué)習(xí)模式):是指通過(guò)機(jī)器學(xué)習(xí),人工智能等高級(jí)方式得到的業(yè)務(wù)分析結(jié)果的模式。s1053、數(shù)據(jù)軌跡(datamark)是指hyong技術(shù)框架中,使用的元數(shù)據(jù)、源數(shù)據(jù)和所有持久化數(shù)據(jù)集合的記錄信息;數(shù)據(jù)軌跡包括但不限于全局用戶識(shí)別號(hào)、時(shí)間信息、權(quán)限信息、元數(shù)據(jù)調(diào)用相關(guān)的訪問(wèn)信息、源數(shù)據(jù)使用信息和以持久化方式存儲(chǔ)或者輸出的信息。優(yōu)選的,s1045,s1046,s1051需要的配置信息都存儲(chǔ)在s103定義的數(shù)據(jù)結(jié)構(gòu)中。實(shí)施例1元語(yǔ)實(shí)例約定:(1)元語(yǔ)過(guò)程:“{指令–模式參數(shù)[–模式參數(shù)][指令–模式參數(shù)[–模式參數(shù)]]}”表示一個(gè)元語(yǔ)過(guò)程,其中“{}”里為必選,“[]”為可選,一個(gè)最簡(jiǎn)單的元語(yǔ)過(guò)程為{指令–模式參數(shù)}。(2)運(yùn)算表達(dá)式:操作符[字段名[,字段名]],例如max[利潤(rùn)]表示樣本數(shù)據(jù)表中利潤(rùn)的最大值1500。add[總投入,利潤(rùn)]表示表示總投入和利潤(rùn)相加。(3)符號(hào)對(duì)照表表1:表1符號(hào)含義ds數(shù)據(jù)源cm運(yùn)算模式cc運(yùn)算通道cp運(yùn)算過(guò)程op輸出過(guò)程vd校驗(yàn)?zāi)J絤ultiply乘法division除法add加法minus減法r元語(yǔ)分隔符sec安全op輸出,并列參數(shù)的分隔符alg:kmeanskmeans具體算法名:一種聚類算法假定:實(shí)施例選擇的數(shù)據(jù)結(jié)構(gòu)是樹(tree),數(shù)據(jù)分析過(guò)程的描述需要對(duì)應(yīng)的碼字(codebook)設(shè)計(jì),它是對(duì)我們需要分析的業(yè)務(wù)流程的一種抽象過(guò)程。如圖2定義了三個(gè)分析任務(wù)的語(yǔ)義樹(分別是0501-企業(yè)運(yùn)營(yíng)分析、0502-企業(yè)信用分析、0503-企業(yè)景氣指數(shù)分析)。以0501-企業(yè)運(yùn)營(yíng)分析為例,它是包含兩棵子樹的樹型結(jié)構(gòu),左側(cè)黑色子樹描述的是數(shù)據(jù)處理的整個(gè)過(guò)程,右側(cè)子樹描述的是對(duì)數(shù)據(jù)分析任務(wù)的業(yè)務(wù)理解,該業(yè)務(wù)理解由4個(gè)節(jié)點(diǎn)組成,分別是:050102-企業(yè)經(jīng)濟(jì)效益分析、010103-制造業(yè)、01010306-造紙和紙制品業(yè)、010字段集-造紙和紙制品業(yè)(該節(jié)點(diǎn)定義了完成企業(yè)經(jīng)濟(jì)效益分析所需要的字段集合,這里假設(shè)為“凈利潤(rùn)、資產(chǎn)總額、年?duì)I業(yè)收入”),某企業(yè)2016年效益相關(guān)樣本數(shù)據(jù)如下表表2:表2根據(jù)本發(fā)明一種利用數(shù)據(jù)結(jié)構(gòu)控制數(shù)據(jù)處理與數(shù)據(jù)分析過(guò)程的技術(shù)框架,企業(yè)效益分析任務(wù)包括以下步驟:3,數(shù)據(jù)源描述:{ds–tmysql://172.16.0.112:3306/em.dbo/em_income?user=root@bigdata2016–f企業(yè)id,帶動(dòng)就業(yè),年?duì)I業(yè)收入,凈利潤(rùn)}”表示一個(gè)數(shù)據(jù)提取過(guò)程,該過(guò)程由一條元語(yǔ)指令組成,ds表示數(shù)據(jù)源指令,“-tmysql://…”表示從mysql數(shù)據(jù)庫(kù)取數(shù)據(jù),–f企業(yè)id,帶動(dòng)就業(yè),年?duì)I業(yè)收入,凈利潤(rùn)表示取出字段“企業(yè)id,帶動(dòng)就業(yè),年?duì)I業(yè)收入,凈利潤(rùn)”。最終該元語(yǔ)過(guò)程生成的樣本數(shù)據(jù)集如下表表2:表34,運(yùn)算模式:{cm–tsimple}r{cm–talg},本示例中同時(shí)運(yùn)用simple—簡(jiǎn)單四則運(yùn)算模式和alg—算法模式。5,運(yùn)算通道:{cc–tnormal},normal表示單步運(yùn)算。6,運(yùn)算過(guò)程:{cp–eadd[multiply[凈利潤(rùn),0.7],multiply[帶動(dòng)就業(yè)人數(shù),0.3]]}r{cp–aalg:kmeans,2},這里以r分隔成兩個(gè)元語(yǔ)過(guò)程,前者表示對(duì)字段“凈利潤(rùn)”和“帶動(dòng)就業(yè)人數(shù)”加權(quán)求和,得到運(yùn)算結(jié)果集1,后者{cp–aalg:kmeans,2}表示對(duì)整個(gè)數(shù)據(jù)集所有字段執(zhí)行kmeans算法,該算法的必選參數(shù)為2,得到運(yùn)算結(jié)果集2。表4企業(yè)id運(yùn)算結(jié)果集1001129.5002147.2003113.50041075.8005826.8表5企業(yè)id運(yùn)算結(jié)果集2001100210032004100527,校驗(yàn)規(guī)則:{vd–mnormal–erange[130,]–f運(yùn)算結(jié)果集1},表示對(duì)運(yùn)算結(jié)果這列進(jìn)行.范圍校驗(yàn),range[130,]表示運(yùn)算結(jié)果大于等于130的數(shù)據(jù)才符合條件,可以進(jìn)入到下一步操作,否則拋出執(zhí)行異常數(shù)據(jù),執(zhí)行校驗(yàn)規(guī)則并得到結(jié)果集。表6企業(yè)id運(yùn)算結(jié)果集002147.20041075.8005826.88,安全規(guī)則:安全規(guī)則的元語(yǔ)為{sec–l安全級(jí)別–s安全策略},圖2中為{sec–lhigh–sencryption},表示安全級(jí)別高,策略為加密模式,本框架支持“用戶模式”和“加密模式”兩種策略,前者需要框架的使用者通過(guò)系統(tǒng)權(quán)限認(rèn)證,后者是直接對(duì)數(shù)據(jù)處理結(jié)果加密保存。9,輸出定義:{op–mlocal–feid,score–dasuid,employees,profit,eid,score–bscore>80–t優(yōu)秀}r{op–mmysql://192.168.0.1:3306/em.dbo/em_cluster?user=em@bigdata2016}同樣以r分隔為兩個(gè)元語(yǔ)過(guò)程,前者描述輸出定義的三個(gè)方面:輸出模式:“l(fā)ocal”表示本地模式,即數(shù)據(jù)處理結(jié)果保存到本地文件系統(tǒng);數(shù)據(jù)軌跡:”asuid,employees,profit,eid,score”表示用戶在本次數(shù)據(jù)分析任務(wù)中使用的數(shù)據(jù)和結(jié)果集合數(shù)據(jù);asuid是一種構(gòu)建的全局唯一的用戶識(shí)別碼,是由area碼,system碼和用戶識(shí)別碼(useridentification)三種碼組成。業(yè)務(wù)洞察:“–bscore>80–t優(yōu)秀”,表示遍歷每一條數(shù)據(jù)分析結(jié)果,查看score字段的值是否大于80,如果滿足條件就將當(dāng)前正遍歷的數(shù)據(jù)打上標(biāo)簽“優(yōu)秀”;而后者“{op–mmysql://192.168.0.1:3306/em.dbo/em_cluster?user=em@bigdata2016}”只定義了輸出模式,表示將運(yùn)算過(guò)程中{cp–aalg:kmeans,2}的企業(yè)聚類結(jié)果保存到實(shí)例名為em.dbo表名為em_cluster的mysql數(shù)據(jù)庫(kù)中。以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何屬于本
技術(shù)領(lǐng)域:
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁(yè)12