一種數(shù)據(jù)離散化方法及系統(tǒng)的制作方法

文檔序號(hào)：10687166閱讀：671來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種數(shù)據(jù)離散化方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明實(shí)施例提供了一種數(shù)據(jù)離散化方法及系統(tǒng)，方法包括：獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)，并確定業(yè)務(wù)數(shù)據(jù)的取值范圍，其中取值范圍對(duì)應(yīng)有第一最大值和第一最小值；分別對(duì)第一最大值和第一最小值取自然對(duì)數(shù)，以得到第一最大值所對(duì)應(yīng)的第二最大值和第一最小值所對(duì)應(yīng)的第二最小值；對(duì)第二最大值和第二最小值所確定的區(qū)域進(jìn)行K段等寬分段，并獲取各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值；對(duì)各個(gè)分段所對(duì)應(yīng)的第二臨界值取自然指數(shù)，以得到第二臨界值所對(duì)應(yīng)的第一臨界值；利用第一臨界值對(duì)取值范圍進(jìn)行分段，以得到目標(biāo)分段區(qū)間；獲得處于目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)。應(yīng)用本發(fā)明實(shí)施例，在降低數(shù)據(jù)離散化處理的計(jì)算強(qiáng)度的同時(shí)，提高所建模型的精度。
【專利說明】
_種數(shù)據(jù)禹散化方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)分析技術(shù)領(lǐng)域，特別是涉及一種數(shù)據(jù)離散化方法及系統(tǒng)。
【背景技術(shù)】
[0002] 在信息化時(shí)代，數(shù)據(jù)庫變得越來越大，人們迫切的需要對(duì)龐大的數(shù)據(jù)庫進(jìn)行數(shù)據(jù) 挖掘，以得到有價(jià)值的知識(shí)，并根據(jù)該有價(jià)值的知識(shí)制定相應(yīng)的決策。而很大一部分?jǐn)?shù)據(jù)挖掘算法只能夠?qū)﹄x散化數(shù)值進(jìn)行處理。目前常見的無監(jiān)督離散化方法主要有等寬分箱法、等深分箱法和基于經(jīng)驗(yàn)的自定義法，但是這三種離散化方法均存在一定的缺陷，從而導(dǎo)致所構(gòu)建的數(shù)據(jù)挖掘模型并不是很準(zhǔn)確。
[0003] 例如，某報(bào)社想要得到訂閱刊物兩年的客戶與訂閱刊物一年的客戶的數(shù)量之間的關(guān)系，并基于這個(gè)關(guān)系預(yù)測下一年度訂閱刊物為一年的客戶在第二年持續(xù)訂閱的可能性。則針對(duì)客戶訂閱刊物時(shí)間這一連續(xù)屬性，可利用等寬分箱法以一個(gè)年度作為一個(gè)分箱將訂閱刊物時(shí)間進(jìn)行離散化，具體將1年以下的客戶劃分成一組，1-2年的客戶為一組，2-3年為一組等等，進(jìn)而將刊物訂閱人數(shù)這一觀測數(shù)據(jù)進(jìn)行離散化，并基于這些離散化數(shù)據(jù)構(gòu)建相應(yīng)的數(shù)據(jù)挖掘模型，從而預(yù)測得到上述所提到的可能性。但是，通過這種等寬分箱方法得到的每個(gè)分箱中的刊物訂閱數(shù)不一定相同，也就是說，等寬分箱法傾向于把實(shí)例不均勻地分布到各個(gè)箱中；另外，在正態(tài)分布呈現(xiàn)左偏化和長尾效應(yīng)的應(yīng)用場景中，將實(shí)例按照等寬分箱法進(jìn)行離散化后，往往在低值區(qū)分布較多的實(shí)例而高值區(qū)分布的實(shí)例較少，而該種分布情況并不符合中值區(qū)實(shí)例多，低值區(qū)和高值區(qū)分布的實(shí)例少的自然規(guī)律，使得對(duì)低值區(qū)的實(shí)例區(qū)分度較低，進(jìn)而會(huì)降低離散化后建模的效果。
[0004] 針對(duì)上述例子，假設(shè)在三年內(nèi)報(bào)社的刊物訂閱人數(shù)有5萬人，可利用等深分箱法將訂閱人數(shù)按照訂閱時(shí)間升序排列，但是分箱數(shù)難以確定，需要通過實(shí)際測試得到較優(yōu)的分箱數(shù)，計(jì)算復(fù)雜度較高;若假設(shè)較優(yōu)分箱數(shù)為10，則將每5000訂閱人數(shù)作為一個(gè)分箱將5萬人進(jìn)行10分箱，能較好地區(qū)分低值區(qū)，但可能將同一個(gè)訂閱時(shí)間的訂閱的人數(shù)的分入不同的箱中以滿足箱中實(shí)例的固定個(gè)數(shù)，且訂閱時(shí)間的分段臨界點(diǎn)也不穩(wěn)定，不適用于實(shí)時(shí)性要求較高的場景。
[0005] 而基于經(jīng)驗(yàn)的自定義法，對(duì)專家自身的業(yè)務(wù)經(jīng)驗(yàn)及判斷能力要求較高，且缺乏理論指導(dǎo)，應(yīng)用面窄，無法應(yīng)用在大規(guī)模數(shù)據(jù)、自動(dòng)化建模的場景下。
[0006] 因此，亟需提供一種新的數(shù)據(jù)離散化方案，以使數(shù)據(jù)離散化更符合自然規(guī)律，在降低數(shù)據(jù)離散化處理的計(jì)算強(qiáng)度的同時(shí)，提高所建模型的精度。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明實(shí)施例的目的在于提供一種數(shù)據(jù)離散化方法及系統(tǒng)，以使數(shù)據(jù)離散化更符合自然規(guī)律，在降低數(shù)據(jù)離散化處理的計(jì)算強(qiáng)度的同時(shí)，提高所建模型的精度。具體技術(shù)方案如下：
[0008] 第一方面，本發(fā)明實(shí)施例提供了一種數(shù)據(jù)離散化方法，所述方法可以包括：
[0009] 獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)，并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍，其中，所述取值范圍對(duì)應(yīng)有第一最大值和第一最小值；
[0010] 分別對(duì)所述第一最大值和所述第一最小值取自然對(duì)數(shù)，得到所述第一最大值所對(duì) 應(yīng)的第二最大值和所述第一最小值所對(duì)應(yīng)的第二最小值；
[0011] 對(duì)所述第二最大值和所述第二最小值所確定的區(qū)域進(jìn)行K段等寬分段，并獲取各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值;對(duì)所述各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值取自然指數(shù)，得到所述第二臨界值所對(duì)應(yīng)的第一臨界值；
[0012] 利用所述第一臨界值對(duì)所述取值范圍進(jìn)行分段，得到目標(biāo)分段區(qū)間；
[0013] 獲得處于所述目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)，以利用所述目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建所述目標(biāo)業(yè)務(wù)的數(shù)據(jù)挖掘模型。
[0014] 可選地，所述獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)，并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍，可以包括：
[0015] 獲得所述目標(biāo)業(yè)務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)；
[0016] 確定所述目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值范圍。
[0017] 可選地，在所述確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍前，所述方法還可以包括：
[0018] 將所述業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進(jìn)行排序；
[0019] 基于所述排序，刪除所述業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù)據(jù)，并刪除所述業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。
[0020] 可選地，在所述獲得處于所述目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)后，所述方法還可以包括：
[0021 ]為所述目標(biāo)業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值。
[0022] 第二方面，本發(fā)明實(shí)施例提供了一種數(shù)據(jù)離散化系統(tǒng)，所述系統(tǒng)可以包括:業(yè)務(wù)數(shù) 據(jù)確定單元、自然對(duì)數(shù)處理單元、自然指數(shù)處理單元、分段區(qū)間獲得單元和目標(biāo)業(yè)務(wù)數(shù)據(jù)獲得單元；
[0023] 所述業(yè)務(wù)數(shù)據(jù)確定單元，用于獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)，并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍，其中，所述取值范圍對(duì)應(yīng)有第一最大值和第一最小值；
[0024] 所述自然對(duì)數(shù)處理單元，用于分別對(duì)所述第一最大值和所述第一最小值取自然對(duì) 數(shù)，得到所述第一最大值所對(duì)應(yīng)的第二最大值和所述第一最小值所對(duì)應(yīng)的第二最小值；
[0025] 所述自然指數(shù)處理單元，用于對(duì)所述第二最大值和所述第二最小值所確定的區(qū)域進(jìn)行K段等寬分段，并獲取各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值;對(duì)所述各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值取自然指數(shù)，得到所述第二臨界值所對(duì)應(yīng)的第一臨界值；
[0026] 所述分段區(qū)間獲得單元，用于利用所述第一臨界值對(duì)所述取值范圍進(jìn)行分段，得到目標(biāo)分段區(qū)間；
[0027] 所述目標(biāo)業(yè)務(wù)數(shù)據(jù)獲得單元，用于獲得處于所述目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù) 據(jù)，以利用所述目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建所述目標(biāo)業(yè)務(wù)的數(shù)據(jù)挖掘模型。
[0028] 可選地，所述業(yè)務(wù)數(shù)據(jù)確定單元，可以包括:業(yè)務(wù)數(shù)據(jù)獲取子單元和取值范圍確定子單元；
[0029] 所述業(yè)務(wù)數(shù)據(jù)獲取子單元，用于獲得所述目標(biāo)業(yè)務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè) 務(wù)數(shù)據(jù)；
[0030]所述取值范圍確定子單元，用于確定所述目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值范圍。
[0031 ]可選地，所述系統(tǒng)還可以包括:排序單元和刪除單元；
[0032] 所述排序單元，用于將所述業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進(jìn)行排序；
[0033] 所述刪除單元，用于基于所述排序，刪除所述業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù)據(jù)，并刪除所述業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。
[0034] 可選地，所述系統(tǒng)還可以包括:標(biāo)識(shí)子單元；
[0035] 所述標(biāo)識(shí)子單元，用于為所述目標(biāo)業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值。
[0036] 本發(fā)明實(shí)施例提供的數(shù)據(jù)離散化方法及系統(tǒng)，先確定所要實(shí)現(xiàn)的目標(biāo)業(yè)務(wù)，并獲取該目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù);并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍和該取值范圍所對(duì)應(yīng)的第一最大值和第一最小值;并對(duì)該第一最大值和第一最小值取自然對(duì)數(shù)，得到對(duì)應(yīng)的第二最大值和第二最小值，并且通過該第二最大值和第二最小值確定一個(gè)區(qū)域;然后按照等寬分段的方法對(duì)該區(qū)域進(jìn)行K等分，K等分后獲取各個(gè)分段點(diǎn)對(duì)應(yīng)的第二臨界值;之后取自然對(duì)數(shù)對(duì)第二臨界值進(jìn)行還原，并將得到第二臨界值所對(duì)應(yīng)的第一臨界值映射到原始的取值范圍上，實(shí)現(xiàn)該取值范圍的離散化，得到目標(biāo)分段區(qū)間，進(jìn)而可以將業(yè)務(wù)數(shù)據(jù)映射到對(duì)應(yīng)的離散化區(qū)間上，得到目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)，并可以根據(jù)獲取得到的目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建數(shù)據(jù)挖掘模型。該種分段方式使得對(duì)連續(xù)屬性的離散化更符合自然規(guī)律，可提高所建模型的精度，且計(jì)算簡單，有效的降低了計(jì)算資源的開銷。當(dāng)然，實(shí)施本發(fā)明的任一產(chǎn)品或方法并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
【附圖說明】
[0037] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0038] 圖1為本發(fā)明實(shí)施例提供的數(shù)據(jù)離散化方法流程圖；
[0039] 圖2為本發(fā)明實(shí)施例提供的數(shù)據(jù)離散化系統(tǒng)結(jié)構(gòu)示意圖；
[0040] 圖3為現(xiàn)有技術(shù)中基于等寬分段進(jìn)行數(shù)據(jù)離散化的方法示意圖；
[0041 ]圖4為現(xiàn)有技術(shù)中基于等深分段進(jìn)行數(shù)據(jù)離散化的方法示意圖；
[0042]圖5為本發(fā)明實(shí)施例中基于自然對(duì)數(shù)分段進(jìn)行數(shù)據(jù)離散化的方法示意圖。
【具體實(shí)施方式】
[0043]下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；?本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0044] 為了解決現(xiàn)有技術(shù)問題，本發(fā)明實(shí)施例提供了一種數(shù)據(jù)離散化方法及系統(tǒng)。
[0045] 可以理解的是，可通過終端中的硬件設(shè)備或者功能軟件實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的數(shù)據(jù)離散化方法，其中，實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的數(shù)據(jù)離散化方法的功能軟件可以為設(shè)置于終端中的專門的客戶端軟件，也可以為設(shè)置于終端中的現(xiàn)有客戶端軟件中的功能插件，這都是合理的。其中，該終端可以為:服務(wù)器、筆記本電腦和平板電腦等設(shè)備。
[0046] 首先，對(duì)本發(fā)明實(shí)施例提供的數(shù)據(jù)離散化方法進(jìn)行介紹。
[0047] 如圖1所示，本發(fā)明實(shí)施例提供的數(shù)據(jù)離散化方法，可以包括如下步驟：
[0048] S101:獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)，并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍，其中，該取值范圍對(duì)應(yīng)有第一最大值和第一最小值；
[0049] 其中，當(dāng)需要對(duì)目標(biāo)業(yè)務(wù)構(gòu)建數(shù)據(jù)挖掘模型且需要獲取該目標(biāo)業(yè)務(wù)的離散化數(shù)據(jù) 時(shí)，可先獲取該目標(biāo)業(yè)務(wù)所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)，在得到業(yè)務(wù)數(shù)據(jù)后，確定該業(yè)務(wù)數(shù)據(jù)的取值范圍，即該業(yè)務(wù)數(shù)據(jù)所對(duì)應(yīng)的取值區(qū)間，其中，在該取值區(qū)間對(duì)應(yīng)有一個(gè)第一最大值和一個(gè)第一最小值。
[0050] S102:分別對(duì)該第一最大值和該第一最小值取自然對(duì)數(shù)，得到該第一最大值所對(duì) 應(yīng)的第二最大值和該第一最小值所對(duì)應(yīng)的第二最小值；
[0051 ]其中，在獲得第一最大值和第一最小值后，對(duì)該第一最大值取自然對(duì)數(shù)得到第二最大值，對(duì)該第一最小值取自然對(duì)數(shù)得到第二最小值，該種計(jì)算方式計(jì)算量較小，節(jié)約了計(jì) 算資源。其中，可以利用計(jì)算機(jī)中的CHJ計(jì)算得到該第二最大值和第二最小值。
[0052] S103:對(duì)該第二最大值和該第二最小值所確定的區(qū)域進(jìn)行K段等寬分段，并獲取各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值;對(duì)該各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值取自然指數(shù)，得到該第二臨界值所對(duì)應(yīng)的第一臨界值；
[0053]其中，由該第二最小值和該第二最大值確定一個(gè)取值區(qū)間，對(duì)該區(qū)間進(jìn)行K段等寬分段，即在對(duì)第一最小值和第一最大值取自然對(duì)數(shù)后，應(yīng)用等寬分段方式對(duì)第二最小值和第二最大值所確定的區(qū)間K等寬分段，有效的利用了等寬分段計(jì)算量小、不需要大量復(fù)雜的運(yùn)算的優(yōu)點(diǎn)；另外，通過引入自然對(duì)數(shù)，將分段距離自然的分開，增大了低值區(qū)的區(qū)分度，避免了利用等深分段所產(chǎn)生的分段臨界點(diǎn)不穩(wěn)定，且計(jì)算量大的問題；而且通過取自然對(duì)數(shù) 且結(jié)合等寬分段的方式，使得分段更符合自然客觀事件的實(shí)際分布特征，能較好的完成對(duì) 業(yè)務(wù)數(shù)據(jù)進(jìn)行離散化的目標(biāo);并在進(jìn)行K段等寬分段后得到各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值，然后對(duì)該第二臨界值取自然指數(shù)進(jìn)行還原，得到第一臨界值。
[0054]需要強(qiáng)調(diào)的是，K為大于等于1的整數(shù)，并且K值可由技術(shù)人員根據(jù)具體情況進(jìn)行設(shè) 定，在此不做詳述。
[0055] S104:利用該第一臨界值對(duì)該取值范圍進(jìn)行分段，得到目標(biāo)分段區(qū)間；
[0056] 其中，將獲得的第一臨界值對(duì)該業(yè)務(wù)數(shù)據(jù)所對(duì)應(yīng)的取值范圍進(jìn)行分段，得到至少一個(gè)分段區(qū)間，并可根據(jù)目標(biāo)業(yè)務(wù)的具體需求將指定分段區(qū)間確定為目標(biāo)分段區(qū)間。
[0057] S105:獲得處于該目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)，以利用該目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建該目標(biāo)業(yè)務(wù)的數(shù)據(jù)挖掘模型。
[0058] 其中，將處于目標(biāo)分段區(qū)間內(nèi)的業(yè)務(wù)數(shù)據(jù)投映至該目標(biāo)分段區(qū)間內(nèi)，并將映射至目標(biāo)分段區(qū)間的業(yè)務(wù)數(shù)據(jù)作為目標(biāo)業(yè)務(wù)數(shù)據(jù)，實(shí)現(xiàn)將目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的離散化處理。其中，在得到離散化的數(shù)據(jù)后，可利用該目標(biāo)分段區(qū)間內(nèi)所對(duì)應(yīng)的目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建數(shù)據(jù) 挖掘模型，使得所構(gòu)建的數(shù)據(jù)挖掘模型所采用的數(shù)據(jù)更符合自然規(guī)律，所建立的數(shù)據(jù)挖掘模型更準(zhǔn)確。當(dāng)然，并不局限于利用與構(gòu)建數(shù)據(jù)挖掘模型。
[0059] 在本發(fā)明實(shí)施例中，先確定所要實(shí)現(xiàn)的目標(biāo)業(yè)務(wù)，并獲取該目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)；并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍和該取值范圍所對(duì)應(yīng)的第一最大值和第一最小值;并對(duì)該第一最大值和第一最小值取自然對(duì)數(shù)，得到對(duì)應(yīng)的第二最大值和第二最小值，并且通過該第二最大值和第二最小值確定一個(gè)區(qū)域;然后按照等寬分段的方法對(duì)該區(qū)域進(jìn)行K等分，K等分后獲取各個(gè)分段點(diǎn)對(duì)應(yīng)的第二臨界值;之后取自然對(duì)數(shù)對(duì)第二臨界值進(jìn)行還原，并將得到第二臨界值所對(duì)應(yīng)的第一臨界值映射到原始的取值范圍上，實(shí)現(xiàn)該取值范圍的離散化，得到目標(biāo)分段區(qū)間，進(jìn)而可以將業(yè)務(wù)數(shù)據(jù)映射到對(duì)應(yīng)的離散化區(qū)間上，得到目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)，并可以根據(jù)獲取得到的目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建數(shù)據(jù)挖掘模型。該種分段方式使得對(duì)連續(xù)屬性的離散化更符合自然規(guī)律，可提高所建模型的精度，且計(jì)算簡單，有效的降低了計(jì)算資源的開銷。
[0060]可選地，該獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)，并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍，可以包括：獲得該目標(biāo)業(yè)務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù);確定該目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù) 數(shù)據(jù)的取值范圍。
[0061 ]可以理解的是，在該種實(shí)現(xiàn)方式中，確定目標(biāo)業(yè)務(wù)的目標(biāo)連續(xù)屬性，并確定該目標(biāo) 連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)，可以進(jìn)一步的排除掉不需要的業(yè)務(wù)數(shù)據(jù)，進(jìn)而能夠提高所建模型的精度，同時(shí)也減少了計(jì)算量和存儲(chǔ)空間，進(jìn)而確定該目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù) 據(jù)的取值范圍，進(jìn)而再執(zhí)行對(duì)該取值范圍所對(duì)應(yīng)的第一最大值和第一最小值取自然對(duì)數(shù)等步驟，最終實(shí)現(xiàn)對(duì)數(shù)據(jù)挖掘模型的構(gòu)建。
[0062] 值得強(qiáng)調(diào)的是，該目標(biāo)連續(xù)屬性包括但不局限于時(shí)間屬性。
[0063] 可選地，在該確定該業(yè)務(wù)數(shù)據(jù)的取值范圍前，還可以包括:將該業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進(jìn)行排序;基于該排序，刪除該業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù)據(jù)，并刪除該業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。
[0064] 可以理解的是，在該種實(shí)現(xiàn)方式中，在確定業(yè)務(wù)數(shù)據(jù)的取值范圍前，可以將該業(yè)務(wù) 數(shù)據(jù)按照從小到大的順序進(jìn)行排列，并將在第一預(yù)設(shè)比例范圍內(nèi)的最小數(shù)據(jù)和在第二預(yù)設(shè) 比例范圍的最大數(shù)據(jù)刪除，以避免突然出現(xiàn)的較大值的業(yè)務(wù)數(shù)據(jù)和較小值的業(yè)務(wù)數(shù)據(jù)對(duì)分段結(jié)果產(chǎn)生較大影響，進(jìn)而使得分段結(jié)果更準(zhǔn)確。
[0065] 其中，該目標(biāo)業(yè)務(wù)數(shù)據(jù)可以是目標(biāo)業(yè)務(wù)所對(duì)應(yīng)的所有業(yè)務(wù)數(shù)據(jù)，也可以是目標(biāo)業(yè) 務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)。
[0066] 需要強(qiáng)調(diào)的是，本領(lǐng)域的技術(shù)人員可根據(jù)實(shí)際情況設(shè)定該第一預(yù)設(shè)比例范圍和第二預(yù)設(shè)比例范圍，在此不做限定。
[0067] 可選地，在該獲得處于該目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)后，還可以包括:為該目標(biāo)業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值。
[0068] 可以理解的是，在該種實(shí)現(xiàn)方式中，在得到目標(biāo)業(yè)務(wù)數(shù)據(jù)后，當(dāng)不需要了解目標(biāo)業(yè) 務(wù)數(shù)據(jù)的本身值，而只需要了解目標(biāo)業(yè)務(wù)數(shù)據(jù)的相對(duì)屬性(例如相對(duì)大?。r(shí)，可對(duì)該目標(biāo) 業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值(例如編號(hào)值），以用該目標(biāo)屬性值代替實(shí)際的目標(biāo)業(yè)務(wù)數(shù)據(jù)的數(shù) 值，并可基于該目標(biāo)業(yè)務(wù)數(shù)據(jù)和該目標(biāo)屬性值，構(gòu)建該目標(biāo)業(yè)務(wù)對(duì)應(yīng)的數(shù)據(jù)挖掘模型，可極大的減少計(jì)算量，節(jié)省計(jì)算資源和存儲(chǔ)資源。
[0069] 下面，結(jié)合圖3至圖5,以及表一對(duì)本發(fā)明實(shí)施提供的數(shù)據(jù)離散化方法進(jìn)行說明。
[0070] 例如，要對(duì)某目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)離散化處理，獲取得到目標(biāo)業(yè)務(wù)所對(duì) 應(yīng)的100個(gè)實(shí)例，其中，該100個(gè)實(shí)例中最大值為100，最小值為1。表一給出了三種分段方法。其中，表一如下所示：
[0073]表一
[0074]其中，最大值與最小值的差值為極差。
[0075]其中，由表一可知，三種分段方法得到的結(jié)果并不相同，按照等寬分段方法將實(shí)例 x = 50歸入(X2，X3)所對(duì)應(yīng)的分段;按照等深分段方法將x = 50歸入(X3，X4)所對(duì)應(yīng)的分段;按照本發(fā)明基于自然對(duì)數(shù)的方法將實(shí)例x = 50歸入(X4，X5)所對(duì)應(yīng)的分段。
[0076] 具體地，圖3示出了由等寬分段方法所得到的離散化區(qū)間，由圖3可見，由[1，100] 所限定的區(qū)間被均分成5段，在高值區(qū)和中值區(qū)取了較少的實(shí)例，在低值區(qū)取了較多的實(shí) 例，將實(shí)例x = 50歸入(x2，X3)所對(duì)應(yīng)的分段。
[0077] 圖4示出了由等深分段方法所得的離散化區(qū)間，每個(gè)分段內(nèi)的實(shí)例數(shù)相等，分段臨界點(diǎn)難以確定，且分段臨界點(diǎn)不穩(wěn)定，所采集到的數(shù)據(jù)也不穩(wěn)定。
[0078] 圖5示出了本發(fā)明實(shí)施例提供的基于自然對(duì)數(shù)分段所得到的離散化區(qū)間，該種分段情況符合中值區(qū)實(shí)例多，低值區(qū)和高值區(qū)分布的實(shí)例少的自然規(guī)律，進(jìn)而能提高離散化的準(zhǔn)確度，進(jìn)而提高所建模型的準(zhǔn)確度。
[0079] 其中，當(dāng)存在M維數(shù)據(jù)集，并且任--維數(shù)據(jù)集中有N個(gè)實(shí)例的業(yè)務(wù)數(shù)據(jù)時(shí)，可利用基于自然對(duì)數(shù)分段方法對(duì)所輸入的數(shù)據(jù)進(jìn)行離散化處理，具體方法如下：
[0080] 對(duì)任意實(shí)例…，XN}，比較其與當(dāng)前最大值和最小值的大小關(guān)系；計(jì)算 Max{Xi，X2，…，Xn}(簡稱為Max)和Min{Xi，X2，…，Xn}(簡稱為Min);對(duì)Max和Min，分別計(jì)算 Max' =ln(Max)和Min' = ln(Min);對(duì)[Min'，Max' ]所限定的區(qū)間，根據(jù)離散化參數(shù)K進(jìn)行K等寬分段，所得到的分段點(diǎn)的臨界值所構(gòu)成的集合為：
[0081 ] {Min，，Min，+ (Max，_Min，）/K，…，Min，+ (K_l)(Max，_Min，）/K，Max'}
[0082]再對(duì)上述集合中的各個(gè)分段臨界值取自然指數(shù)，得出原始值域上的分段臨界值集合為：
[0083] {eMin，，e(Min' + (Max'_Min'）/K)，…，e(in' + (K_l) (Max'-Min，）/K)，eMax'}
[0084] 根據(jù)原始值域上的分段臨界值集合中的各個(gè)分段臨界值，將任意實(shí)例XGUi， X2，…，Xn}映射到所屬分段，完成尚散化過程。
[0085] 其次，對(duì)本發(fā)明實(shí)施例提供的一種數(shù)據(jù)離散化系統(tǒng)進(jìn)行介紹。
[0086] 如圖2所示，本發(fā)明實(shí)施例提供的數(shù)據(jù)離散化系統(tǒng)可以包括:業(yè)務(wù)數(shù)據(jù)確定單元 201、自然對(duì)數(shù)處理單元202、自然指數(shù)處理單元203、分段區(qū)間獲得單元204和目標(biāo)業(yè)務(wù)數(shù)據(jù) 獲得單元205;
[0087]該業(yè)務(wù)數(shù)據(jù)確定單元201，用于獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)，并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍，其中，該取值范圍對(duì)應(yīng)有第一最大值和第一最小值；
[0088]該自然對(duì)數(shù)處理單元202，用于分別對(duì)該第一最大值和該第一最小值取自然對(duì)數(shù)，得到該第一最大值所對(duì)應(yīng)的第二最大值和該第一最小值所對(duì)應(yīng)的第二最小值；
[0089]該自然指數(shù)處理單元203,用于對(duì)該第二最大值和該第二最小值所確定的區(qū)域進(jìn) 行K段等寬分段，并獲取各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值;對(duì)該各個(gè)分段所對(duì)應(yīng)的第二臨界值取自然指數(shù)，得到該第二臨界值所對(duì)應(yīng)的第一臨界值；
[0090] 該分段區(qū)間獲得單元204,用于利用該第一臨界值對(duì)該取值范圍進(jìn)行分段，得到目標(biāo)分段區(qū)間；
[0091] 該目標(biāo)業(yè)務(wù)數(shù)據(jù)獲得單元205，用于獲得處于該目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)，以利用該目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建該目標(biāo)業(yè)務(wù)的數(shù)據(jù)挖掘模型。
[0092]在本發(fā)明實(shí)施例中，先確定所要實(shí)現(xiàn)的目標(biāo)業(yè)務(wù)，并獲取該目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)；并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍和該取值范圍所對(duì)應(yīng)的第一最大值和第一最小值;并對(duì)該第一最大值和第一最小值取自然對(duì)數(shù)，得到對(duì)應(yīng)的第二最大值和第二最小值，并且通過該第二最大值和第二最小值確定一個(gè)區(qū)域;然后按照等寬分段的方法對(duì)該區(qū)域進(jìn)行K等分，K等分后獲取各個(gè)分段點(diǎn)對(duì)應(yīng)的第二臨界值;之后取自然對(duì)數(shù)對(duì)第二臨界值進(jìn)行還原，并將得到第二臨界值所對(duì)應(yīng)的第一臨界值映射到原始的取值范圍上，實(shí)現(xiàn)該取值范圍的離散化，得到目標(biāo)分段區(qū)間，進(jìn)而可以將業(yè)務(wù)數(shù)據(jù)映射到對(duì)應(yīng)的離散化區(qū)間上，得到目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)，并可以根據(jù)獲取得到的目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建數(shù)據(jù)挖掘模型。該種分段方式使得對(duì)連續(xù)屬性的離散化更符合自然規(guī)律，可提高所建模型的精度，且計(jì)算簡單，有效的降低了計(jì)算資源的開銷。
[0093]可選地，該業(yè)務(wù)數(shù)據(jù)確定單元201，可以包括:業(yè)務(wù)數(shù)據(jù)獲取子單元和取值范圍確定子單元；
[0094] 該業(yè)務(wù)數(shù)據(jù)獲取子單元，用于獲得該目標(biāo)業(yè)務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù) 據(jù)；
[0095] 該取值范圍確定子單元，用于確定該目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值范圍。
[0096] 可選地，該系統(tǒng)還可以包括:排序單元和刪除單元；
[0097] 該排序單元，用于將該業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進(jìn)行排序；
[0098] 該刪除單元，用于基于該排序，刪除該業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù)據(jù)，并刪除該業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。
[0099] 可選地，該系統(tǒng)還可以包括:標(biāo)識(shí)子單元；
[0100] 該標(biāo)識(shí)子單元，用于為該目標(biāo)業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值。
[0101]對(duì)于裝置實(shí)施例而言，由于其基本相似于方法實(shí)施例，所以描述得比較簡單，相關(guān) 之處參見方法實(shí)施例的部分說明即可。
[0102] 需要說明的是，在本文中，諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí) 體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來，而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且，術(shù)語"包括"、"包含"或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下，由語句"包括一個(gè)……"限定的要素，并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0103] 本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述，各個(gè)實(shí)施例之間相同相似的部分互相參見即可，每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其，對(duì)于系統(tǒng)實(shí) 施例而言，由于其基本相似于方法實(shí)施例，所以描述的比較簡單，相關(guān)之處參見方法實(shí)施例的部分說明即可。
[0104] 以上所述僅為本發(fā)明的較佳實(shí)施例而已，并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等，均包含在本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種數(shù)據(jù)離散化方法，其特征在于，所述方法包括：獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)，并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍，其中，所述取值范圍對(duì)應(yīng) 有第一最大值和第一最小值；分別對(duì)所述第一最大值和所述第一最小值取自然對(duì)數(shù)，得到所述第一最大值所對(duì)應(yīng)的第二最大值和所述第一最小值所對(duì)應(yīng)的第二最小值；對(duì)所述第二最大值和所述第二最小值所確定的區(qū)域進(jìn)行K段等寬分段，并獲取各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值;對(duì)所述各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值取自然指數(shù)，得到所述第二臨界值所對(duì)應(yīng)的第一臨界值；利用所述第一臨界值對(duì)所述取值范圍進(jìn)行分段，得到目標(biāo)分段區(qū)間；獲得處于所述目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)，以利用所述目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建所述目標(biāo)業(yè)務(wù)的數(shù)據(jù)挖掘模型。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)，并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍，包括：獲得所述目標(biāo)業(yè)務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)；確定所述目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值范圍。3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍前，所述方法還包括：將所述業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進(jìn)行排序；基于所述排序，刪除所述業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù)據(jù)，并刪除所述業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。4. 根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法，其特征在于，在所述獲得處于所述目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)后，所述方法還包括：為所述目標(biāo)業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值。5. -種數(shù)據(jù)離散化系統(tǒng)，其特征在于，所述系統(tǒng)包括：業(yè)務(wù)數(shù)據(jù)確定單元，用于獲得目標(biāo)業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)，并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍，其中，所述取值范圍對(duì)應(yīng)有第一最大值和第一最小值；自然對(duì)數(shù)處理單元，用于分別對(duì)所述第一最大值和所述第一最小值取自然對(duì)數(shù)，得到所述第一最大值所對(duì)應(yīng)的第二最大值和所述第一最小值所對(duì)應(yīng)的第二最小值；自然指數(shù)處理單元，用于對(duì)所述第二最大值和所述第二最小值所確定的區(qū)域進(jìn)行K段等寬分段，并獲取各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值;對(duì)所述各個(gè)分段點(diǎn)所對(duì)應(yīng)的第二臨界值取自然指數(shù)，得到所述第二臨界值所對(duì)應(yīng)的第一臨界值；分段區(qū)間獲得單元，用于利用所述第一臨界值對(duì)所述取值范圍進(jìn)行分段，得到目標(biāo)分段區(qū)間；目標(biāo)業(yè)務(wù)數(shù)據(jù)獲得單元，用于獲得處于所述目標(biāo)分段區(qū)間內(nèi)的目標(biāo)業(yè)務(wù)數(shù)據(jù)，以利用所述目標(biāo)業(yè)務(wù)數(shù)據(jù)構(gòu)建所述目標(biāo)業(yè)務(wù)的數(shù)據(jù)挖掘模型。6. 根據(jù)權(quán)利要求5所述的系統(tǒng)，其特征在于，所述業(yè)務(wù)數(shù)據(jù)確定單元，包括：業(yè)務(wù)數(shù)據(jù)獲取子單元，用于獲得所述目標(biāo)業(yè)務(wù)中的目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)；取值范圍確定子單元，用于確定所述目標(biāo)連續(xù)屬性所對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值范圍。7. 根據(jù)權(quán)利要求5所述的系統(tǒng)，其特征在于，所述系統(tǒng)還包括：排序單元，用于將所述業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進(jìn)行排序；刪除單元，用于基于所述排序，刪除所述業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù) 據(jù)，并刪除所述業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。8.根據(jù)權(quán)利要求5-7中任一項(xiàng)所述的系統(tǒng)，其特征在于，所述系統(tǒng)還包括：標(biāo)識(shí)子單元，用于為所述目標(biāo)業(yè)務(wù)數(shù)據(jù)標(biāo)識(shí)目標(biāo)屬性值。
【文檔編號(hào)】G06F17/30GK106055669SQ201610391085
【公開日】2016年10月26日
【申請(qǐng)日】2016年6月3日
【發(fā)明人】牛琨, 高志鵬
【申請(qǐng)人】北京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：牛琨;高志鵬;
技術(shù)所有人：北京郵電大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

連續(xù)系統(tǒng)離散化方法相關(guān)技術(shù)

數(shù)據(jù)離散化方法相關(guān)技術(shù)

連續(xù)數(shù)據(jù)離散化方法相關(guān)技術(shù)

離散型數(shù)據(jù)的分析方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種數(shù)據(jù)離散化方法及系統(tǒng)的制作方法