一種數(shù)據(jù)離散化方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明實(shí)施例提供了一種數(shù)據(jù)離散化方法及系統(tǒng),方法包括:獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定業(yè)務(wù)數(shù)據(jù)的取值范圍,其中取值范圍對(duì)應(yīng)有第一最大值和第一最小值;分別對(duì)第一最大值和第一最小值取自然對(duì)數(shù),以得到第一最大值所對(duì)應(yīng)的第二最大值和第一最小值所對(duì)應(yīng)的第二最小值;對(duì)第二最大值和第二最小值所確定的區(qū)域進(jìn)行K段等寬分段,并獲取各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值;對(duì)各個(gè)分段所對(duì)應(yīng)的第二臨界值取自然指數(shù),以得到第二臨界值所對(duì)應(yīng)的第一臨界值;利用第一臨界值對(duì)取值范圍進(jìn)行分段,以得到目標(biāo)分段區(qū)間;獲得處于目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)。應(yīng)用本發(fā)明實(shí)施例,在降低數(shù)據(jù)離散化處理的計(jì)算強(qiáng)度的同時(shí),提高所建模型的精度。
【專利說明】
_種數(shù)據(jù)禹散化方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)分析技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)離散化方法及系統(tǒng)。
【背景技術(shù)】
[0002] 在信息化時(shí)代,數(shù)據(jù)庫變得越來越大,人們迫切的需要對(duì)龐大的數(shù)據(jù)庫進(jìn)行數(shù)據(jù) 挖掘,以得到有價(jià)值的知識(shí),并根據(jù)該有價(jià)值的知識(shí)制定相應(yīng)的決策。而很大一部分?jǐn)?shù)據(jù)挖 掘算法只能夠?qū)﹄x散化數(shù)值進(jìn)行處理。目前常見的無監(jiān)督離散化方法主要有等寬分箱法、 等深分箱法和基于經(jīng)驗(yàn)的自定義法,但是這三種離散化方法均存在一定的缺陷,從而導(dǎo)致 所構(gòu)建的數(shù)據(jù)挖掘模型并不是很準(zhǔn)確。
[0003] 例如,某報(bào)社想要得到訂閱刊物兩年的客戶與訂閱刊物一年的客戶的數(shù)量之間的 關(guān)系,并基于這個(gè)關(guān)系預(yù)測下一年度訂閱刊物為一年的客戶在第二年持續(xù)訂閱的可能性。 則針對(duì)客戶訂閱刊物時(shí)間這一連續(xù)屬性,可利用等寬分箱法以一個(gè)年度作為一個(gè)分箱將訂 閱刊物時(shí)間進(jìn)行離散化,具體將1年以下的客戶劃分成一組,1-2年的客戶為一組,2-3年為 一組等等,進(jìn)而將刊物訂閱人數(shù)這一觀測數(shù)據(jù)進(jìn)行離散化,并基于這些離散化數(shù)據(jù)構(gòu)建相 應(yīng)的數(shù)據(jù)挖掘模型,從而預(yù)測得到上述所提到的可能性。但是,通過這種等寬分箱方法得到 的每個(gè)分箱中的刊物訂閱數(shù)不一定相同,也就是說,等寬分箱法傾向于把實(shí)例不均勻地分 布到各個(gè)箱中;另外,在正態(tài)分布呈現(xiàn)左偏化和長尾效應(yīng)的應(yīng)用場景中,將實(shí)例按照等寬分 箱法進(jìn)行離散化后,往往在低值區(qū)分布較多的實(shí)例而高值區(qū)分布的實(shí)例較少,而該種分布 情況并不符合中值區(qū)實(shí)例多,低值區(qū)和高值區(qū)分布的實(shí)例少的自然規(guī)律,使得對(duì)低值區(qū)的 實(shí)例區(qū)分度較低,進(jìn)而會(huì)降低離散化后建模的效果。
[0004] 針對(duì)上述例子,假設(shè)在三年內(nèi)報(bào)社的刊物訂閱人數(shù)有5萬人,可利用等深分箱法將 訂閱人數(shù)按照訂閱時(shí)間升序排列,但是分箱數(shù)難以確定,需要通過實(shí)際測試得到較優(yōu)的分 箱數(shù),計(jì)算復(fù)雜度較高;若假設(shè)較優(yōu)分箱數(shù)為10,則將每5000訂閱人數(shù)作為一個(gè)分箱將5萬 人進(jìn)行10分箱,能較好地區(qū)分低值區(qū),但可能將同一個(gè)訂閱時(shí)間的訂閱的人數(shù)的分入不同 的箱中以滿足箱中實(shí)例的固定個(gè)數(shù),且訂閱時(shí)間的分段臨界點(diǎn)也不穩(wěn)定,不適用于實(shí)時(shí)性 要求較高的場景。
[0005] 而基于經(jīng)驗(yàn)的自定義法,對(duì)專家自身的業(yè)務(wù)經(jīng)驗(yàn)及判斷能力要求較高,且缺乏理 論指導(dǎo),應(yīng)用面窄,無法應(yīng)用在大規(guī)模數(shù)據(jù)、自動(dòng)化建模的場景下。
[0006] 因此,亟需提供一種新的數(shù)據(jù)離散化方案,以使數(shù)據(jù)離散化更符合自然規(guī)律,在降 低數(shù)據(jù)離散化處理的計(jì)算強(qiáng)度的同時(shí),提高所建模型的精度。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明實(shí)施例的目的在于提供一種數(shù)據(jù)離散化方法及系統(tǒng),以使數(shù)據(jù)離散化更符 合自然規(guī)律,在降低數(shù)據(jù)離散化處理的計(jì)算強(qiáng)度的同時(shí),提高所建模型的精度。具體技術(shù)方 案如下:
[0008] 第一方面,本發(fā)明實(shí)施例提供了 一種數(shù)據(jù)離散化方法,所述方法可以包括:
[0009] 獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍,其中,所述取值范圍 對(duì)應(yīng)有第一最大值和第一最小值;
[0010] 分別對(duì)所述第一最大值和所述第一最小值取自然對(duì)數(shù),得到所述第一最大值所對(duì) 應(yīng)的第二最大值和所述第一最小值所對(duì)應(yīng)的第二最小值;
[0011] 對(duì)所述第二最大值和所述第二最小值所確定的區(qū)域進(jìn)行K段等寬分段,并獲取各 個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值;對(duì)所述各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值取自然指數(shù),得到 所述第二臨界值所對(duì)應(yīng)的第一臨界值;
[0012] 利用所述第一臨界值對(duì)所述取值范圍進(jìn)行分段,得到目標(biāo)分段區(qū)間;
[0013] 獲得處于所述目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù),以利用所述目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建所 述目標(biāo)業(yè)務(wù)的數(shù)據(jù)挖掘模型。
[0014] 可選地,所述獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍,可以包 括:
[0015] 獲得所述目標(biāo)業(yè)務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù);
[0016] 確定所述目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值范圍。
[0017] 可選地,在所述確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍前,所述方法還可以包括:
[0018] 將所述業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進(jìn)行排序;
[0019] 基于所述排序,刪除所述業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù)據(jù),并刪除 所述業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。
[0020] 可選地,在所述獲得處于所述目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)后,所述方法還可 以包括:
[0021 ]為所述目標(biāo)業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值。
[0022] 第二方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)離散化系統(tǒng),所述系統(tǒng)可以包括:業(yè)務(wù)數(shù) 據(jù)確定單元、自然對(duì)數(shù)處理單元、自然指數(shù)處理單元、分段區(qū)間獲得單元和目標(biāo)業(yè)務(wù)數(shù)據(jù)獲 得單元;
[0023] 所述業(yè)務(wù)數(shù)據(jù)確定單元,用于獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定所述業(yè)務(wù)數(shù)據(jù)的 取值范圍,其中,所述取值范圍對(duì)應(yīng)有第一最大值和第一最小值;
[0024] 所述自然對(duì)數(shù)處理單元,用于分別對(duì)所述第一最大值和所述第一最小值取自然對(duì) 數(shù),得到所述第一最大值所對(duì)應(yīng)的第二最大值和所述第一最小值所對(duì)應(yīng)的第二最小值;
[0025] 所述自然指數(shù)處理單元,用于對(duì)所述第二最大值和所述第二最小值所確定的區(qū)域 進(jìn)行K段等寬分段,并獲取各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值;對(duì)所述各個(gè)分段點(diǎn)所對(duì)應(yīng)的第 二臨界值取自然指數(shù),得到所述第二臨界值所對(duì)應(yīng)的第一臨界值;
[0026] 所述分段區(qū)間獲得單元,用于利用所述第一臨界值對(duì)所述取值范圍進(jìn)行分段,得 到目標(biāo)分段區(qū)間;
[0027] 所述目標(biāo)業(yè)務(wù)數(shù)據(jù)獲得單元,用于獲得處于所述目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù) 據(jù),以利用所述目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建所述目標(biāo)業(yè)務(wù)的數(shù)據(jù)挖掘模型。
[0028] 可選地,所述業(yè)務(wù)數(shù)據(jù)確定單元,可以包括:業(yè)務(wù)數(shù)據(jù)獲取子單元和取值范圍確定 子單元;
[0029] 所述業(yè)務(wù)數(shù)據(jù)獲取子單元,用于獲得所述目標(biāo)業(yè)務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè) 務(wù)數(shù)據(jù);
[0030]所述取值范圍確定子單元,用于確定所述目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值 范圍。
[0031 ]可選地,所述系統(tǒng)還可以包括:排序單元和刪除單元;
[0032] 所述排序單元,用于將所述業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進(jìn)行排序;
[0033] 所述刪除單元,用于基于所述排序,刪除所述業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍 的最小數(shù)據(jù),并刪除所述業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。
[0034] 可選地,所述系統(tǒng)還可以包括:標(biāo)識(shí)子單元;
[0035] 所述標(biāo)識(shí)子單元,用于為所述目標(biāo)業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值。
[0036] 本發(fā)明實(shí)施例提供的數(shù)據(jù)離散化方法及系統(tǒng),先確定所要實(shí)現(xiàn)的目標(biāo)業(yè)務(wù),并獲 取該目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù);并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍和該取值范圍所對(duì)應(yīng)的第一最大 值和第一最小值;并對(duì)該第一最大值和第一最小值取自然對(duì)數(shù),得到對(duì)應(yīng)的第二最大值和 第二最小值,并且通過該第二最大值和第二最小值確定一個(gè)區(qū)域;然后按照等寬分段的方 法對(duì)該區(qū)域進(jìn)行K等分,K等分后獲取各個(gè)分段點(diǎn)對(duì)應(yīng)的第二臨界值;之后取自然對(duì)數(shù)對(duì)第 二臨界值進(jìn)行還原,并將得到第二臨界值所對(duì)應(yīng)的第一臨界值映射到原始的取值范圍上, 實(shí)現(xiàn)該取值范圍的離散化,得到目標(biāo)分段區(qū)間,進(jìn)而可以將業(yè)務(wù)數(shù)據(jù)映射到對(duì)應(yīng)的離散化 區(qū)間上,得到目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù),并可以根據(jù)獲取得到的目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建 數(shù)據(jù)挖掘模型。該種分段方式使得對(duì)連續(xù)屬性的離散化更符合自然規(guī)律,可提高所建模型 的精度,且計(jì)算簡單,有效的降低了計(jì)算資源的開銷。當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法 并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
【附圖說明】
[0037] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0038] 圖1為本發(fā)明實(shí)施例提供的數(shù)據(jù)離散化方法流程圖;
[0039] 圖2為本發(fā)明實(shí)施例提供的數(shù)據(jù)離散化系統(tǒng)結(jié)構(gòu)示意圖;
[0040] 圖3為現(xiàn)有技術(shù)中基于等寬分段進(jìn)行數(shù)據(jù)離散化的方法示意圖;
[0041 ]圖4為現(xiàn)有技術(shù)中基于等深分段進(jìn)行數(shù)據(jù)離散化的方法示意圖;
[0042]圖5為本發(fā)明實(shí)施例中基于自然對(duì)數(shù)分段進(jìn)行數(shù)據(jù)離散化的方法示意圖。
【具體實(shí)施方式】
[0043]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0044] 為了解決現(xiàn)有技術(shù)問題,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)離散化方法及系統(tǒng)。
[0045] 可以理解的是,可通過終端中的硬件設(shè)備或者功能軟件實(shí)現(xiàn)本發(fā)明實(shí)施例所提供 的數(shù)據(jù)離散化方法,其中,實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的數(shù)據(jù)離散化方法的功能軟件可以為 設(shè)置于終端中的專門的客戶端軟件,也可以為設(shè)置于終端中的現(xiàn)有客戶端軟件中的功能插 件,這都是合理的。其中,該終端可以為:服務(wù)器、筆記本電腦和平板電腦等設(shè)備。
[0046] 首先,對(duì)本發(fā)明實(shí)施例提供的數(shù)據(jù)離散化方法進(jìn)行介紹。
[0047] 如圖1所示,本發(fā)明實(shí)施例提供的數(shù)據(jù)離散化方法,可以包括如下步驟:
[0048] S101:獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍,其中,該取值范 圍對(duì)應(yīng)有第一最大值和第一最小值;
[0049] 其中,當(dāng)需要對(duì)目標(biāo)業(yè)務(wù)構(gòu)建數(shù)據(jù)挖掘模型且需要獲取該目標(biāo)業(yè)務(wù)的離散化數(shù)據(jù) 時(shí),可先獲取該目標(biāo)業(yè)務(wù)所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù),在得到業(yè)務(wù)數(shù)據(jù)后,確定該業(yè)務(wù)數(shù)據(jù)的取值范 圍,即該業(yè)務(wù)數(shù)據(jù)所對(duì)應(yīng)的取值區(qū)間,其中,在該取值區(qū)間對(duì)應(yīng)有一個(gè)第一最大值和一個(gè)第 一最小值。
[0050] S102:分別對(duì)該第一最大值和該第一最小值取自然對(duì)數(shù),得到該第一最大值所對(duì) 應(yīng)的第二最大值和該第一最小值所對(duì)應(yīng)的第二最小值;
[0051 ]其中,在獲得第一最大值和第一最小值后,對(duì)該第一最大值取自然對(duì)數(shù)得到第二 最大值,對(duì)該第一最小值取自然對(duì)數(shù)得到第二最小值,該種計(jì)算方式計(jì)算量較小,節(jié)約了計(jì) 算資源。其中,可以利用計(jì)算機(jī)中的CHJ計(jì)算得到該第二最大值和第二最小值。
[0052] S103:對(duì)該第二最大值和該第二最小值所確定的區(qū)域進(jìn)行K段等寬分段,并獲取各 個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值;對(duì)該各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值取自然指數(shù),得到該 第二臨界值所對(duì)應(yīng)的第一臨界值;
[0053]其中,由該第二最小值和該第二最大值確定一個(gè)取值區(qū)間,對(duì)該區(qū)間進(jìn)行K段等寬 分段,即在對(duì)第一最小值和第一最大值取自然對(duì)數(shù)后,應(yīng)用等寬分段方式對(duì)第二最小值和 第二最大值所確定的區(qū)間K等寬分段,有效的利用了等寬分段計(jì)算量小、不需要大量復(fù)雜的 運(yùn)算的優(yōu)點(diǎn);另外,通過引入自然對(duì)數(shù),將分段距離自然的分開,增大了低值區(qū)的區(qū)分度,避 免了利用等深分段所產(chǎn)生的分段臨界點(diǎn)不穩(wěn)定,且計(jì)算量大的問題;而且通過取自然對(duì)數(shù) 且結(jié)合等寬分段的方式,使得分段更符合自然客觀事件的實(shí)際分布特征,能較好的完成對(duì) 業(yè)務(wù)數(shù)據(jù)進(jìn)行離散化的目標(biāo);并在進(jìn)行K段等寬分段后得到各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界 值,然后對(duì)該第二臨界值取自然指數(shù)進(jìn)行還原,得到第一臨界值。
[0054]需要強(qiáng)調(diào)的是,K為大于等于1的整數(shù),并且K值可由技術(shù)人員根據(jù)具體情況進(jìn)行設(shè) 定,在此不做詳述。
[0055] S104:利用該第一臨界值對(duì)該取值范圍進(jìn)行分段,得到目標(biāo)分段區(qū)間;
[0056] 其中,將獲得的第一臨界值對(duì)該業(yè)務(wù)數(shù)據(jù)所對(duì)應(yīng)的取值范圍進(jìn)行分段,得到至少 一個(gè)分段區(qū)間,并可根據(jù)目標(biāo)業(yè)務(wù)的具體需求將指定分段區(qū)間確定為目標(biāo)分段區(qū)間。
[0057] S105:獲得處于該目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù),以利用該目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建 該目標(biāo)業(yè)務(wù)的數(shù)據(jù)挖掘模型。
[0058] 其中,將處于目標(biāo)分段區(qū)間內(nèi)的業(yè)務(wù)數(shù)據(jù)投映至該目標(biāo)分段區(qū)間內(nèi),并將映射至 目標(biāo)分段區(qū)間的業(yè)務(wù)數(shù)據(jù)作為目標(biāo)業(yè)務(wù)數(shù)據(jù),實(shí)現(xiàn)將目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的離散化處理。 其中,在得到離散化的數(shù)據(jù)后,可利用該目標(biāo)分段區(qū)間內(nèi)所對(duì)應(yīng)的目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建數(shù)據(jù) 挖掘模型,使得所構(gòu)建的數(shù)據(jù)挖掘模型所采用的數(shù)據(jù)更符合自然規(guī)律,所建立的數(shù)據(jù)挖掘 模型更準(zhǔn)確。當(dāng)然,并不局限于利用與構(gòu)建數(shù)據(jù)挖掘模型。
[0059] 在本發(fā)明實(shí)施例中,先確定所要實(shí)現(xiàn)的目標(biāo)業(yè)務(wù),并獲取該目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù); 并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍和該取值范圍所對(duì)應(yīng)的第一最大值和第一最小值;并對(duì)該第 一最大值和第一最小值取自然對(duì)數(shù),得到對(duì)應(yīng)的第二最大值和第二最小值,并且通過該第 二最大值和第二最小值確定一個(gè)區(qū)域;然后按照等寬分段的方法對(duì)該區(qū)域進(jìn)行K等分,K等 分后獲取各個(gè)分段點(diǎn)對(duì)應(yīng)的第二臨界值;之后取自然對(duì)數(shù)對(duì)第二臨界值進(jìn)行還原,并將得 到第二臨界值所對(duì)應(yīng)的第一臨界值映射到原始的取值范圍上,實(shí)現(xiàn)該取值范圍的離散化, 得到目標(biāo)分段區(qū)間,進(jìn)而可以將業(yè)務(wù)數(shù)據(jù)映射到對(duì)應(yīng)的離散化區(qū)間上,得到目標(biāo)分段區(qū)間 內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù),并可以根據(jù)獲取得到的目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建數(shù)據(jù)挖掘模型。該種分段方 式使得對(duì)連續(xù)屬性的離散化更符合自然規(guī)律,可提高所建模型的精度,且計(jì)算簡單,有效的 降低了計(jì)算資源的開銷。
[0060]可選地,該獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍,可以包括: 獲得該目標(biāo)業(yè)務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù);確定該目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù) 數(shù)據(jù)的取值范圍。
[0061 ]可以理解的是,在該種實(shí)現(xiàn)方式中,確定目標(biāo)業(yè)務(wù)的目標(biāo)連續(xù)屬性,并確定該目標(biāo) 連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù),可以進(jìn)一步的排除掉不需要的業(yè)務(wù)數(shù)據(jù),進(jìn)而能夠提高所建 模型的精度,同時(shí)也減少了計(jì)算量和存儲(chǔ)空間,進(jìn)而確定該目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù) 據(jù)的取值范圍,進(jìn)而再執(zhí)行對(duì)該取值范圍所對(duì)應(yīng)的第一最大值和第一最小值取自然對(duì)數(shù)等 步驟,最終實(shí)現(xiàn)對(duì)數(shù)據(jù)挖掘模型的構(gòu)建。
[0062] 值得強(qiáng)調(diào)的是,該目標(biāo)連續(xù)屬性包括但不局限于時(shí)間屬性。
[0063] 可選地,在該確定該業(yè)務(wù)數(shù)據(jù)的取值范圍前,還可以包括:將該業(yè)務(wù)數(shù)據(jù)按照從小 到大的順序進(jìn)行排序;基于該排序,刪除該業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù)據(jù), 并刪除該業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。
[0064] 可以理解的是,在該種實(shí)現(xiàn)方式中,在確定業(yè)務(wù)數(shù)據(jù)的取值范圍前,可以將該業(yè)務(wù) 數(shù)據(jù)按照從小到大的順序進(jìn)行排列,并將在第一預(yù)設(shè)比例范圍內(nèi)的最小數(shù)據(jù)和在第二預(yù)設(shè) 比例范圍的最大數(shù)據(jù)刪除,以避免突然出現(xiàn)的較大值的業(yè)務(wù)數(shù)據(jù)和較小值的業(yè)務(wù)數(shù)據(jù)對(duì)分 段結(jié)果產(chǎn)生較大影響,進(jìn)而使得分段結(jié)果更準(zhǔn)確。
[0065] 其中,該目標(biāo)業(yè)務(wù)數(shù)據(jù)可以是目標(biāo)業(yè)務(wù)所對(duì)應(yīng)的所有業(yè)務(wù)數(shù)據(jù),也可以是目標(biāo)業(yè) 務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)。
[0066] 需要強(qiáng)調(diào)的是,本領(lǐng)域的技術(shù)人員可根據(jù)實(shí)際情況設(shè)定該第一預(yù)設(shè)比例范圍和第 二預(yù)設(shè)比例范圍,在此不做限定。
[0067] 可選地,在該獲得處于該目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)后,還可以包括:為該目 標(biāo)業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值。
[0068] 可以理解的是,在該種實(shí)現(xiàn)方式中,在得到目標(biāo)業(yè)務(wù)數(shù)據(jù)后,當(dāng)不需要了解目標(biāo)業(yè) 務(wù)數(shù)據(jù)的本身值,而只需要了解目標(biāo)業(yè)務(wù)數(shù)據(jù)的相對(duì)屬性(例如相對(duì)大?。r(shí),可對(duì)該目標(biāo) 業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值(例如編號(hào)值),以用該目標(biāo)屬性值代替實(shí)際的目標(biāo)業(yè)務(wù)數(shù)據(jù)的數(shù) 值,并可基于該目標(biāo)業(yè)務(wù)數(shù)據(jù)和該目標(biāo)屬性值,構(gòu)建該目標(biāo)業(yè)務(wù)對(duì)應(yīng)的數(shù)據(jù)挖掘模型,可極 大的減少計(jì)算量,節(jié)省計(jì)算資源和存儲(chǔ)資源。
[0069] 下面,結(jié)合圖3至圖5,以及表一對(duì)本發(fā)明實(shí)施提供的數(shù)據(jù)離散化方法進(jìn)行說明。
[0070] 例如,要對(duì)某目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)離散化處理,獲取得到目標(biāo)業(yè)務(wù)所對(duì) 應(yīng)的100個(gè)實(shí)例,其中,該100個(gè)實(shí)例中最大值為100,最小值為1。表一給出了三種分段方法。 其中,表一如下所示:
[0073]表一
[0074]其中,最大值與最小值的差值為極差。
[0075]其中,由表一可知,三種分段方法得到的結(jié)果并不相同,按照等寬分段方法將實(shí)例 x = 50歸入(X2,X3)所對(duì)應(yīng)的分段;按照等深分段方法將x = 50歸入(X3,X4)所對(duì)應(yīng)的分段;按 照本發(fā)明基于自然對(duì)數(shù)的方法將實(shí)例x = 50歸入(X4,X5)所對(duì)應(yīng)的分段。
[0076] 具體地,圖3示出了由等寬分段方法所得到的離散化區(qū)間,由圖3可見,由[1,100] 所限定的區(qū)間被均分成5段,在高值區(qū)和中值區(qū)取了較少的實(shí)例,在低值區(qū)取了較多的實(shí) 例,將實(shí)例x = 50歸入(x2,X3)所對(duì)應(yīng)的分段。
[0077] 圖4示出了由等深分段方法所得的離散化區(qū)間,每個(gè)分段內(nèi)的實(shí)例數(shù)相等,分段臨 界點(diǎn)難以確定,且分段臨界點(diǎn)不穩(wěn)定,所采集到的數(shù)據(jù)也不穩(wěn)定。
[0078] 圖5示出了本發(fā)明實(shí)施例提供的基于自然對(duì)數(shù)分段所得到的離散化區(qū)間,該種分 段情況符合中值區(qū)實(shí)例多,低值區(qū)和高值區(qū)分布的實(shí)例少的自然規(guī)律,進(jìn)而能提高離散化 的準(zhǔn)確度,進(jìn)而提高所建模型的準(zhǔn)確度。
[0079] 其中,當(dāng)存在M維數(shù)據(jù)集,并且任--維數(shù)據(jù)集中有N個(gè)實(shí)例的業(yè)務(wù)數(shù)據(jù)時(shí),可利用 基于自然對(duì)數(shù)分段方法對(duì)所輸入的數(shù)據(jù)進(jìn)行離散化處理,具體方法如下:
[0080] 對(duì)任意實(shí)例…,XN},比較其與當(dāng)前最大值和最小值的大小關(guān)系;計(jì)算 Max{Xi,X2,…,Xn}(簡稱為Max)和Min{Xi,X2,…,Xn}(簡稱為Min);對(duì)Max和Min,分別計(jì)算 Max' =ln(Max)和Min' = ln(Min);對(duì)[Min',Max' ]所限定的區(qū)間,根據(jù)離散化參數(shù)K進(jìn)行K等 寬分段,所得到的分段點(diǎn)的臨界值所構(gòu)成的集合為:
[0081 ] {Min,,Min,+ (Max,_Min,)/K,…,Min,+ (K_l)(Max,_Min,)/K,Max'}
[0082]再對(duì)上述集合中的各個(gè)分段臨界值取自然指數(shù),得出原始值域上的分段臨界值集 合為:
[0083] {eMin,,e(Min' + (Max'_Min')/K),…,e(in' + (K_l) (Max'-Min,)/K),eMax'}
[0084] 根據(jù)原始值域上的分段臨界值集合中的各個(gè)分段臨界值,將任意實(shí)例XGUi, X2,…,Xn}映射到所屬分段,完成尚散化過程。
[0085] 其次,對(duì)本發(fā)明實(shí)施例提供的一種數(shù)據(jù)離散化系統(tǒng)進(jìn)行介紹。
[0086] 如圖2所示,本發(fā)明實(shí)施例提供的數(shù)據(jù)離散化系統(tǒng)可以包括:業(yè)務(wù)數(shù)據(jù)確定單元 201、自然對(duì)數(shù)處理單元202、自然指數(shù)處理單元203、分段區(qū)間獲得單元204和目標(biāo)業(yè)務(wù)數(shù)據(jù) 獲得單元205;
[0087]該業(yè)務(wù)數(shù)據(jù)確定單元201,用于獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定該業(yè)務(wù)數(shù)據(jù)的取 值范圍,其中,該取值范圍對(duì)應(yīng)有第一最大值和第一最小值;
[0088]該自然對(duì)數(shù)處理單元202,用于分別對(duì)該第一最大值和該第一最小值取自然對(duì)數(shù), 得到該第一最大值所對(duì)應(yīng)的第二最大值和該第一最小值所對(duì)應(yīng)的第二最小值;
[0089]該自然指數(shù)處理單元203,用于對(duì)該第二最大值和該第二最小值所確定的區(qū)域進(jìn) 行K段等寬分段,并獲取各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值;對(duì)該各個(gè)分段所對(duì)應(yīng)的第二臨界 值取自然指數(shù),得到該第二臨界值所對(duì)應(yīng)的第一臨界值;
[0090] 該分段區(qū)間獲得單元204,用于利用該第一臨界值對(duì)該取值范圍進(jìn)行分段,得到目 標(biāo)分段區(qū)間;
[0091] 該目標(biāo)業(yè)務(wù)數(shù)據(jù)獲得單元205,用于獲得處于該目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù), 以利用該目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建該目標(biāo)業(yè)務(wù)的數(shù)據(jù)挖掘模型。
[0092]在本發(fā)明實(shí)施例中,先確定所要實(shí)現(xiàn)的目標(biāo)業(yè)務(wù),并獲取該目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù); 并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍和該取值范圍所對(duì)應(yīng)的第一最大值和第一最小值;并對(duì)該第 一最大值和第一最小值取自然對(duì)數(shù),得到對(duì)應(yīng)的第二最大值和第二最小值,并且通過該第 二最大值和第二最小值確定一個(gè)區(qū)域;然后按照等寬分段的方法對(duì)該區(qū)域進(jìn)行K等分,K等 分后獲取各個(gè)分段點(diǎn)對(duì)應(yīng)的第二臨界值;之后取自然對(duì)數(shù)對(duì)第二臨界值進(jìn)行還原,并將得 到第二臨界值所對(duì)應(yīng)的第一臨界值映射到原始的取值范圍上,實(shí)現(xiàn)該取值范圍的離散化, 得到目標(biāo)分段區(qū)間,進(jìn)而可以將業(yè)務(wù)數(shù)據(jù)映射到對(duì)應(yīng)的離散化區(qū)間上,得到目標(biāo)分段區(qū)間 內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù),并可以根據(jù)獲取得到的目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建數(shù)據(jù)挖掘模型。該種分段方 式使得對(duì)連續(xù)屬性的離散化更符合自然規(guī)律,可提高所建模型的精度,且計(jì)算簡單,有效的 降低了計(jì)算資源的開銷。
[0093]可選地,該業(yè)務(wù)數(shù)據(jù)確定單元201,可以包括:業(yè)務(wù)數(shù)據(jù)獲取子單元和取值范圍確 定子單元;
[0094] 該業(yè)務(wù)數(shù)據(jù)獲取子單元,用于獲得該目標(biāo)業(yè)務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù) 據(jù);
[0095] 該取值范圍確定子單元,用于確定該目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值范 圍。
[0096] 可選地,該系統(tǒng)還可以包括:排序單元和刪除單元;
[0097] 該排序單元,用于將該業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進(jìn)行排序;
[0098] 該刪除單元,用于基于該排序,刪除該業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小 數(shù)據(jù),并刪除該業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。
[0099] 可選地,該系統(tǒng)還可以包括:標(biāo)識(shí)子單元;
[0100] 該標(biāo)識(shí)子單元,用于為該目標(biāo)業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值。
[0101]對(duì)于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān) 之處參見方法實(shí)施例的部分說明即可。
[0102] 需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí) 體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存 在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語"包括"、"包含"或者其任何其他變體意在涵蓋 非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要 素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備 所固有的要素。在沒有更多限制的情況下,由語句"包括一個(gè)……"限定的要素,并不排除在 包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0103] 本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部 分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí) 施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例 的部分說明即可。
[0104] 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在 本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍 內(nèi)。
【主權(quán)項(xiàng)】
1. 一種數(shù)據(jù)離散化方法,其特征在于,所述方法包括: 獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍,其中,所述取值范圍對(duì)應(yīng) 有第一最大值和第一最小值; 分別對(duì)所述第一最大值和所述第一最小值取自然對(duì)數(shù),得到所述第一最大值所對(duì)應(yīng)的 第二最大值和所述第一最小值所對(duì)應(yīng)的第二最小值; 對(duì)所述第二最大值和所述第二最小值所確定的區(qū)域進(jìn)行K段等寬分段,并獲取各個(gè)分 段點(diǎn)所對(duì)應(yīng)的第二臨界值;對(duì)所述各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值取自然指數(shù),得到所述 第二臨界值所對(duì)應(yīng)的第一臨界值; 利用所述第一臨界值對(duì)所述取值范圍進(jìn)行分段,得到目標(biāo)分段區(qū)間; 獲得處于所述目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù),以利用所述目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建所述目 標(biāo)業(yè)務(wù)的數(shù)據(jù)挖掘模型。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定所 述業(yè)務(wù)數(shù)據(jù)的取值范圍,包括: 獲得所述目標(biāo)業(yè)務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù); 確定所述目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值范圍。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍前, 所述方法還包括: 將所述業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進(jìn)行排序; 基于所述排序,刪除所述業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù)據(jù),并刪除所述 業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。4. 根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,在所述獲得處于所述目標(biāo)分段 區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)后,所述方法還包括: 為所述目標(biāo)業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值。5. -種數(shù)據(jù)離散化系統(tǒng),其特征在于,所述系統(tǒng)包括: 業(yè)務(wù)數(shù)據(jù)確定單元,用于獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍, 其中,所述取值范圍對(duì)應(yīng)有第一最大值和第一最小值; 自然對(duì)數(shù)處理單元,用于分別對(duì)所述第一最大值和所述第一最小值取自然對(duì)數(shù),得到 所述第一最大值所對(duì)應(yīng)的第二最大值和所述第一最小值所對(duì)應(yīng)的第二最小值; 自然指數(shù)處理單元,用于對(duì)所述第二最大值和所述第二最小值所確定的區(qū)域進(jìn)行K段 等寬分段,并獲取各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值;對(duì)所述各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界 值取自然指數(shù),得到所述第二臨界值所對(duì)應(yīng)的第一臨界值; 分段區(qū)間獲得單元,用于利用所述第一臨界值對(duì)所述取值范圍進(jìn)行分段,得到目標(biāo)分 段區(qū)間; 目標(biāo)業(yè)務(wù)數(shù)據(jù)獲得單元,用于獲得處于所述目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù),以利用 所述目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建所述目標(biāo)業(yè)務(wù)的數(shù)據(jù)挖掘模型。6. 根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述業(yè)務(wù)數(shù)據(jù)確定單元,包括: 業(yè)務(wù)數(shù)據(jù)獲取子單元,用于獲得所述目標(biāo)業(yè)務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù); 取值范圍確定子單元,用于確定所述目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值范圍。7. 根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 排序單元,用于將所述業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進(jìn)行排序; 刪除單元,用于基于所述排序,刪除所述業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù) 據(jù),并刪除所述業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。8.根據(jù)權(quán)利要求5-7中任一項(xiàng)所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 標(biāo)識(shí)子單元,用于為所述目標(biāo)業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值。
【文檔編號(hào)】G06F17/30GK106055669SQ201610391085
【公開日】2016年10月26日
【申請(qǐng)日】2016年6月3日
【發(fā)明人】牛琨, 高志鵬
【申請(qǐng)人】北京郵電大學(xué)