本申請涉及數(shù)據(jù)挖掘
技術(shù)領(lǐng)域:
,尤其是涉及一種變量離散化的方法及裝置。
背景技術(shù):
:在系統(tǒng)建模過程中,變量離散化具有重大的意義,其可以優(yōu)選變量、去除噪聲、提高模型性能等等。而在變量離散化過程中,同時(shí)保持變量在多個(gè)數(shù)據(jù)集上滿足預(yù)設(shè)的單調(diào)性要求,則可以保證系統(tǒng)模型的穩(wěn)定性和可解釋性。在實(shí)現(xiàn)本申請的過程中,本申請發(fā)明人發(fā)現(xiàn):目前現(xiàn)有變量離散化的方法,只能在單個(gè)數(shù)據(jù)集上使用。而對于同時(shí)存在于多個(gè)數(shù)據(jù)集上的變量,如果需要同時(shí)滿足其在多個(gè)數(shù)據(jù)集上的相同單調(diào)性(即變量同時(shí)滿足在多個(gè)數(shù)據(jù)集上同是單調(diào)遞增或者同是單調(diào)遞減),一般需要通過人工操作實(shí)現(xiàn),因此,其效率較低。而當(dāng)面對的是成百上千個(gè),甚至上萬個(gè)的變量(即同時(shí)存在于多個(gè)數(shù)據(jù)集上的成百上千個(gè),甚至上萬個(gè)的變量)時(shí),這種人工操作是難以實(shí)現(xiàn)的。技術(shù)實(shí)現(xiàn)要素:本申請實(shí)施例的目的在于提供一種變量離散化的方法及裝置,以實(shí)現(xiàn)對同時(shí)存在于多個(gè)數(shù)據(jù)集的變量統(tǒng)一進(jìn)行離散化自動處理,從而使其同時(shí)在多個(gè)數(shù)據(jù)集上具有相同的單調(diào)性。為達(dá)到上述目的,一方面本申請實(shí)施例提供了一種變量離散化的方法,包括:將每個(gè)數(shù)據(jù)集中的第一變量的取值范圍按照相同的邊界值劃分成多個(gè)原始段落;從第一個(gè)原始段落開始,按序?qū)⒚總€(gè)原始段落與自身及其后的原始段落進(jìn)行遞增式合并,獲得多層合并段落集,所述每層合并段落集包括至少一個(gè)合并段落;將第一層合并段落集中的每個(gè)合并段落分別作為一個(gè)候選段落組;從第二層合并段落集開始,逐層確定每層合并段落集中的每個(gè)合并段落的合法前置段落,并將該合并段落添加至其合法前置段落所屬的候選段落組中,以更新候選段 落組;其中,一個(gè)合并段落的合法前置段落是指該合并段落的滿足預(yù)設(shè)單調(diào)性的前置段落,而一個(gè)合并段落的前置段落是指在所述多層合并段落集中,以該合并段落的下邊界作為上邊界的合并段落;在完成上一步后,從當(dāng)前的多個(gè)候選段落組中選出包含全部原始段落的候選段落組,并將其作為所述第一變量的離散化結(jié)果輸出。另一方面,本申請實(shí)施例還提供了一種變量離散化的裝置,包括:原始段落劃分模塊,用于將每個(gè)數(shù)據(jù)集中的第一變量的取值范圍按照相同的邊界值劃分成多個(gè)原始段落;合并段落集獲取模塊,用于從第一個(gè)原始段落開始,按序?qū)⒚總€(gè)原始段落與自身及其后的原始段落進(jìn)行遞增式合并,獲得多層合并段落集,其中每層合并段落集包括至少一個(gè)合并段落;候選段落組獲取模塊,用于將第一層合并段落集中的每個(gè)合并段落分別作為一個(gè)候選段落組;候選段落組更新模塊,用于從第二層合并段落集開始,逐層確定每層合并段落集中的每個(gè)合并段落的合法前置段落,并將該合并段落添加至其合法前置段落所屬的候選段落組中,以更新候選段落組;其中,一個(gè)合并段落的合法前置段落是指該合并段落的滿足預(yù)設(shè)單調(diào)性的前置段落,而一個(gè)合并段落的前置段落是指在所述多層合并段落集中,以該合并段落的下邊界作為上邊界的合并段落;候選段落組選擇輸出模塊,用于在所述候選段落組更新模塊完成候選段落組更新后,從當(dāng)前的多個(gè)候選段落組中選出包含全部原始段落的候選段落組,并將其作為所述第一變量的離散化結(jié)果輸出。本申請實(shí)施例的變量離散化的方法,先將每個(gè)數(shù)據(jù)集中的第一變量的取值范圍按照相同的邊界值劃分成多個(gè)原始段落;然后從第一個(gè)原始段落開始,按序?qū)⒚總€(gè)原始段落與自身及其后的原始段落進(jìn)行遞增式合并,獲得多層合并段落集,每層合并段落集包括至少一個(gè)合并段落;其次將第一層合并段落集中的每個(gè)合并段落分別作為一個(gè)候選段落組;然后從第二層合并段落集開始,逐層確定每層合并段落集中的每個(gè)合并段落的合法前置段落,并將該合并段落添加至其合法前置段落所屬的候選段落組中,以更新候選段落組;在完成上一步后,從當(dāng)前的多個(gè)候選段落組中選出包含全部原始段落的候選段落組,并將其作為第一變量的離散化結(jié)果輸出,從而實(shí)現(xiàn)了對同時(shí)存在 于多個(gè)數(shù)據(jù)集的變量統(tǒng)一進(jìn)行離散化自動處理。附圖說明此處所說明的附圖用來提供對本申請實(shí)施例的進(jìn)一步理解,構(gòu)成本申請實(shí)施例的一部分,并不構(gòu)成對本申請實(shí)施例的限定。在附圖中:圖1為本申請實(shí)施例的一種變量離散化的方法的流程圖;圖2為本申請實(shí)施例的一種變量離散化的方法中區(qū)間矩陣的示意圖;圖3為本申請實(shí)施例的一種變量離散化的裝置的結(jié)構(gòu)框圖;圖4為某變量在采用現(xiàn)有變量離散化技術(shù)后獲得的離散化結(jié)果的直方圖;圖5為某變量在采用本申請的變量離散化的方法后獲得的離散化結(jié)果的直方圖。具體實(shí)施方式為使本申請實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面結(jié)合實(shí)施例和附圖,對本申請實(shí)施例做進(jìn)一步詳細(xì)說明。在此,本申請實(shí)施例的示意性實(shí)施例及其說明用于解釋本申請實(shí)施例,但并不作為對本申請實(shí)施例的限定。下面結(jié)合附圖,對本申請實(shí)施例的具體實(shí)施方式作進(jìn)一步的詳細(xì)說明。參考圖1所示,本申請實(shí)施例的變量離散化的方法包括以下步驟:步驟s101,將每個(gè)數(shù)據(jù)集中的第一變量的取值范圍按照相同的邊界值劃分成多個(gè)原始段落。本申請實(shí)施例中,所述邊界值以及所述原始段落的數(shù)量可根據(jù)需要預(yù)先設(shè)定。所述每個(gè)數(shù)據(jù)集中的第一變量是指:多個(gè)數(shù)據(jù)集同時(shí)包含有同一變量,例如有兩個(gè)數(shù)據(jù)集:訓(xùn)練數(shù)據(jù)集x1、測試數(shù)據(jù)集x2;其同時(shí)包含有年齡(age)這個(gè)變量。所述按照相同的邊界值劃分成多個(gè)原始段落,例如x1和x2的年齡的取值范圍都為[1,100],如果這兩個(gè)數(shù)據(jù)集全都以20歲、40歲、60歲和80歲為邊界值進(jìn)行劃分,則可將x1和x2的年齡的取值范圍都劃分成:[1,20),[20,40),[40,60),[60,80),[80,100]五個(gè)原始段落。本申請實(shí)施例中,由于是變量離散化過程是系統(tǒng)自動處理的,因此可以根據(jù)需要考慮將變量取值范圍劃分為更多個(gè)原始段落,從而可以提高離散化結(jié)果的分辨率。步驟s102,從第一個(gè)原始段落開始,按序?qū)⒚總€(gè)原始段落與自身及其后的原始 段落進(jìn)行遞增式合并,獲得多層合并段落集,所述每層合并段落集包括至少一個(gè)合并段落。本申請實(shí)施例中,所述的遞增式合并是指:對于每一個(gè)原始段落,其下一次合并出合并段落要比上一次的多一個(gè)原始段落,比如某變量的取值范圍被劃分成五個(gè)原始段落a1、a2、a3、a4、a5,那么從a1(第一個(gè)原始段落)開始,按序?qū)⒚總€(gè)原始段落與自身及其后的原始段落進(jìn)行遞增式合并,獲得多層合并段落集,即為:對于a1,合并段落集為:a1、a1a2、a1a2a3、a1a2a3a4、a1a2a3a4a5;對于a2,合并段落集為:a2、a2a3、a2a3a4、a2a3a4a5;對于a3,合并段落集為:a3、a3a4、a3a4a5;對于a4,合并段落集為:a4、a4a5;對于a5,合并段落集為:a5;其中,a1、a1a2、a1a2a3、a1a2a3a4、a1a2a3a4a5;a2、a2a3、a2a3a4、a2a3a4a5;a3、a3a4、a3a4a5;a4、a4a5;a5;由上至下橫向排列構(gòu)成五層合并段落集。下面給出更具體例子:比如兩個(gè)數(shù)據(jù)集d1和d2,同時(shí)存在于d1和d2的變量v在每個(gè)數(shù)據(jù)集被按相同邊界劃分成三個(gè)原始段落。假設(shè)同時(shí)存在于d1和d2的變量v的取值范圍為[1,30],劃分的邊界值為10和20,則兩個(gè)數(shù)據(jù)集d1和d2劃分后的原始段落見下表1所示:表1b1[1,10]b2(10,20]b3(20,30]d1d1b1d1b2d1b3d2d2b1d2b2d2b3記b11為b1,b22為b2,b33為b3;記b12為{b1,b2}合并后的合并段落(即[1,20]);對于d1,則{d1b1,d1b2}合并為d1b12;對于d2,{d2b1,d2b2}合并為d2b12;記b23為{b2,b3}合并后的合并段落(即(10,30]);對于d1,則{d1b2, d1b3}合并為d1b23;對于d2,{d2b2,d2b3}合并為d2b23;記b13為{b1,b2,b3}合并后的合并段落(即[1-30]);對于d1,則{d1b1,d1b2,d1b3}合并為d1b13;對于d2,{d2b1,d2b2,d2b3}合并為d2b13;因此,b11(即b1)與自身及其后的原始段落進(jìn)行遞增式合并得到的合并段落集為:b11,b12,b13;b22(即b2)與自身及其后的原始段落進(jìn)行遞增式合并得到的合并段落集為:b22,b23;b33(即b3)與自身及其后的原始段落進(jìn)行遞增式合并得到的合并段落集為:b33。于是,b11,b12,b13;b22,b23;b33;由上至下橫向排列構(gòu)成三層合并段落集(如圖2所示)。步驟s103,將第一層合并段落集中的每個(gè)合并段落分別作為一個(gè)候選段落組。以圖2為例,則將其第一層合并段落集中的每個(gè)合并段落分別作為一個(gè)候選段落組,可構(gòu)成如下3個(gè)候選段組:{b11},{b12},{b13}。步驟s104,從第二層合并段落集開始,逐層確定每層合并段落集中的每個(gè)合并段落的合法前置段落,并將該合并段落添加至其合法前置段落所屬的候選段落組中,以更新候選段落組;其中,一個(gè)合并段落的合法前置段落是指該合并段落的滿足預(yù)設(shè)單調(diào)性的前置段落,而一個(gè)合并段落的前置段落是指在所述多層合并段落集中,以該合并段落的下邊界作為上邊界的合并段落。本申請實(shí)施例中,所述滿足預(yù)設(shè)單調(diào)性例如可以為:對于每個(gè)所述數(shù)據(jù)集,一個(gè)合并段落的標(biāo)記權(quán)重(woe,weightofevidence)與該合并段落的前置段落的標(biāo)記權(quán)重的比較結(jié)果均滿足預(yù)設(shè)條件,具體的,例如:對于給定的多個(gè)數(shù)據(jù)集,假設(shè)同時(shí)存在于每個(gè)數(shù)據(jù)集的一個(gè)變量v,其劃分后的原始段落:{b1,b2,…,bn},,希望找到一組段落的組合:{b′1,b′2,…,b′m},其中,b′m為合并段落,使得:或者,成立;一般的,段落組合時(shí),劃分出的原始段落作為最小合并單位,不允許被拆分,因 此,{b′1,b′2,…,b′m}還需滿足:且此外,任何段落組合不能遺漏變量v的取值范圍的任何區(qū)間,因此,{b′1,b′2,…,b′m}還需滿足:{b1,b2,…,bn}被{b′1,b′2,…,b′m}全部包含;其中,為段落的最大值(即段落的上邊界),比如為合并段落b′1的最大值,為段落的最小值(即段落的下邊界),比如為合并段落b′m的最小值。其中,標(biāo)記權(quán)重的計(jì)算公式可以為:式中,分別為合并段落的黑樣本率、白樣本率。其中,對于每個(gè)數(shù)據(jù)集而言,某個(gè)合并段落的黑樣本率為該數(shù)據(jù)集中位于該合并段落范圍內(nèi)的黑樣本數(shù)除以該數(shù)據(jù)集的總的黑樣本數(shù);同樣,某個(gè)合并段落的白樣本率為該數(shù)據(jù)集中位于該合并段落范圍內(nèi)的白樣本數(shù)除以該數(shù)據(jù)集的總的白樣本數(shù)。其中,所述的白樣本為滿足預(yù)設(shè)條件的樣本,對應(yīng)的,所述的黑樣本為不滿足該預(yù)設(shè)條件的樣本。比如我們要預(yù)測用戶是否會信用卡到期不還款,那么黑樣本就是數(shù)據(jù)集中的到期不還款的用戶,白樣本就是數(shù)據(jù)集中的正常還款的用戶。以步驟s102的第二個(gè)例子為例(參見圖2所示),更新候選段落組的過程如下:第二層的合并段落集包括:b22、b23;對于b22,其前置段落為b11,如果woe_b11>woe_b22(即woe_d1b1>woe_d1b1,且woe_d2b1>woe_d2b1,其中,woe_b11為b11的元素值的標(biāo)記權(quán)重,woe_b22為b22的元素值的標(biāo)記權(quán)重,等等)滿足預(yù)設(shè)條件,則判斷b22的標(biāo)記權(quán)重與b11的標(biāo)記權(quán)重的比較結(jié)果滿足預(yù)期單調(diào)性,因此可以把b22添加入b11所屬的候選段落組{b11}中,從而形成新的候選段落組{b11,b22};否則,不進(jìn)行上述添加處理。對于b23,其前置段落也為b11,如果woe_b11>woe_b23滿足預(yù)設(shè)條件,則判斷b23的標(biāo)記權(quán)重與b11的標(biāo)記權(quán)重的比較結(jié)果滿足預(yù)期單調(diào)性,因此可以把b22添加入b11所屬的候選段落組{b11,b22}中,從而形成新的候選段落組{b11,b22,b23};否則,不進(jìn)行上述添加處理。于是,在第二層的合并段落集處理完成后,當(dāng)前的候選段落組變?yōu)椋簕b11,b22,b23},{b12},{b13}。第三層的合并段落集包括:b33;b33的前置段落為b12、b22;對于b12,如果woe_b12>woe_b33滿足預(yù)設(shè)條件,則判斷b33的標(biāo)記權(quán)重與b12的標(biāo)記權(quán)重的比較結(jié)果滿足預(yù)期單調(diào)性;因此,可以把b33添加入b12所屬的候選段落組{b12}中,從而形成新的候選段落組{b11,b33},否則,不進(jìn)行上述添加處理。此時(shí),當(dāng)前的候選段落組變?yōu)椋簕b11,b22,b23},{b12,b33},{b13};對于b22,如果woe_b22>woe_b33滿足預(yù)設(shè)條件,則判斷b33的標(biāo)記權(quán)重與b22的標(biāo)記權(quán)重的比較結(jié)果滿足預(yù)期單調(diào)性。因此,可以把b33添加入b22所屬的候選段落組{b11,b22,b23}中,從而形成新的候選段落組{b11,b22,b23,b33},否則,不進(jìn)行上述添加處理。于是,在第三層的合并段落集處理完成后,當(dāng)前的候選段落組變?yōu)椋簕b11,b22,b23,b33},{b12,b33},{b13}。在本申請另一實(shí)施例中,為了在保證單調(diào)性的同時(shí),盡可能提高離散化結(jié)果的信息值(iv,informationvalue),當(dāng)一個(gè)合并段落同時(shí)有多個(gè)合法前置段落,并且所述多個(gè)合法前置段落不同在一個(gè)候選段落組時(shí),可將該合并段落添加至其中信息值之和最大的候選段落組中,以更新候選段落組,其中,一個(gè)候選段落組的信息值之和是指:該候選段落組中的每個(gè)合并段落的信息值的總和。其中,一個(gè)合并段落的信息值的計(jì)算公式可以為:其中,iv為信息值,上文已對進(jìn)行了解釋,在此不再贅述。比如對于上文提到的b33,當(dāng)b33同時(shí)有b12和b22兩個(gè)合法前置段落時(shí),既可以將b33添加入b12所屬的候選段落組{b12}中,也可以將b33添加入b22所屬的候選段落組{b11,b22,b23}中。為了在保證單調(diào)性的同時(shí),盡可能提高離散化結(jié)果的信息值,這時(shí)就要計(jì)算候選段落組{b12}的信息值之和以及候選段落組{b11,b22,b23}的信息值之和,然后將兩個(gè)信息值之和進(jìn)行比較,假設(shè)比較后發(fā)現(xiàn){b11,b22,b23}的信息值之和較大,則將b33添加入候選段落組{b11,b22,b23},在此情況下,在第三層的合并段落集處理完成后,當(dāng)前的候選段落組就變?yōu)椋簕b11,b22,b23,b33},{b12},{b13}。步驟s105,在完成上一步(即步驟s104)后,從當(dāng)前的多個(gè)候選段落組中選出 包含全部原始段落的候選段落組,并將其作為所述第一變量的離散化結(jié)果輸出。在本申請實(shí)施例中,所述包含全部原始段落是指:選出的候選段落組要包含所述第一變量的全部取值范圍,而不能遺漏任何部分。在本申請實(shí)施例中,當(dāng)包含全部原始段落的候選段落組有多個(gè)時(shí),從中選擇其信息值iv之和最大的候選段落組作為所述第一變量的離散化結(jié)果輸出。以步驟s104完成后得到的候選段落組為例,在第三層的合并段落集處理完成后,當(dāng)前的候選段落組為:{b11,b22,b23,b33},{b12},{b13},顯然,候選段落組{b11,b22,b23,b33}和候選段落組{b13}均包含全部原始段落,也就是說,包含全部原始段落的候選段落組有兩個(gè):{b11,b22,b23,b33}和{b13}。為了在保證單調(diào)性的同時(shí),盡可能提高離散化結(jié)果的信息值,這時(shí)需要計(jì)算候選段落組{b11,b22,b23,b33}的信息值之和以及候選段落組{b13}的信息值之和,然后將兩個(gè)信息值之和進(jìn)行比較,假設(shè)比較后發(fā)現(xiàn)候選段落組{b11,b22,b23,b33}的信息值之和較大,則將候選段落組{b11,b22,b23,b33}選出并作為所述第一變量的離散化結(jié)果輸出。雖然上文描述的過程流程包括以特定順序出現(xiàn)的多個(gè)操作,但是,應(yīng)當(dāng)清楚了解,這些過程可以包括更多或更少的操作,這些操作可以順序執(zhí)行或并行執(zhí)行(例如使用并行處理器或多線程環(huán)境),比如當(dāng)要處理的數(shù)據(jù)量較小時(shí),可依據(jù)上述步驟逐一對每個(gè)變量進(jìn)行串行離散化處理;而當(dāng)要處理的數(shù)據(jù)量較大或者實(shí)時(shí)性要求較高時(shí),可考慮同時(shí)對各個(gè)變量并行離散化處理,以進(jìn)一步提高處理效率。本申請實(shí)施例的變量離散化的方法,先將每個(gè)數(shù)據(jù)集中的第一變量的取值范圍按照相同的邊界值劃分成多個(gè)原始段落;然后從第一個(gè)原始段落開始,按序?qū)⒚總€(gè)原始段落與自身及其后的原始段落進(jìn)行遞增式合并,獲得多層合并段落集,每層合并段落集包括至少一個(gè)合并段落;其次將第一層合并段落集中的每個(gè)合并段落分別作為一個(gè)候選段落組;然后從第二層合并段落集開始,逐層確定每層合并段落集中的每個(gè)合并段落的合法前置段落,并將該合并段落添加至其合法前置段落所屬的候選段落組中,以更新候選段落組;在完成上一步后,從當(dāng)前的多個(gè)候選段落組中選出包含全部原始段落的候選段落組,并將其作為第一變量的離散化結(jié)果輸出,從而實(shí)現(xiàn)了對同時(shí)存在于多個(gè)數(shù)據(jù)集的變量統(tǒng)一進(jìn)行離散化自動處理。此外,當(dāng)有多個(gè)段落組合滿足預(yù)設(shè)單調(diào)性時(shí),為了保證選擇出的離散化結(jié)果具有最大化的信息值,還可以從中選取其信息值之和最大的候選段落組作為變量的離散化結(jié)果。下面結(jié)合一個(gè)具體的實(shí)例來對比本申請的變量離散化的方法與現(xiàn)有變量離散化技術(shù)的效果:在某場景下,某變量seller_asp_ratio是已知具有數(shù)據(jù)挖掘價(jià)值的,假設(shè)其取值范圍在劃分成50個(gè)原始段落后的直方圖如圖4所示。采用現(xiàn)有變量離散化技術(shù)將變量seller_asp_ratio進(jìn)行離散化處理后得到的離散化結(jié)果如圖4中的曲線所示。而在圖4中,柱狀圖代表區(qū)間內(nèi)樣本量,使用右坐標(biāo)軸;曲線為區(qū)間內(nèi)黑樣本率,使用左坐標(biāo)軸。曲線表明離散化處理后,絕大多數(shù)樣本的單調(diào)性難以辨識,黑樣本率毛刺嚴(yán)重,可解釋性差。其中,所謂的可解釋性可理解為合理性,比如通常信用卡消費(fèi)額高的人,如果其收入也高,這就比較合理,因此,僅從這點(diǎn)來說,其出現(xiàn)到期不還款的概率較低的。而如果某個(gè)人經(jīng)常性每月的信用卡消費(fèi)額比其收入還要高,僅從這點(diǎn)來說,顯然其出現(xiàn)到期不還款的概率是相對較高的。而對于該變量seller_asp_ratio,在經(jīng)過本申請實(shí)施例的變量離散化的方法處理后,其散化結(jié)果如圖5中線狀圖所示。由該圖可見,該變量在(0.0,1.27)區(qū)間內(nèi),低風(fēng)險(xiǎn)樣本占絕大多數(shù),之后風(fēng)險(xiǎn)率逐步提高。同時(shí),該變量在取值為0.0時(shí),同樣存在一定風(fēng)險(xiǎn),因此圖5中,黑白樣本率的單調(diào)性較為清晰,非常易于解釋。參考圖3所示,本申請實(shí)施例的變量離散化的裝置包括:原始段落劃分模塊31,用于將每個(gè)數(shù)據(jù)集中的第一變量的取值范圍按照相同的邊界值劃分成多個(gè)原始段落;合并段落集獲取模塊32,用于從第一個(gè)原始段落開始,按序?qū)⒚總€(gè)原始段落與自身及其后的原始段落進(jìn)行遞增式合并,獲得多層合并段落集,其中每層合并段落集包括至少一個(gè)合并段落;候選段落組獲取模塊33,用于將第一層合并段落集中的每個(gè)合并段落分別作為一個(gè)候選段落組;候選段落組更新模塊34,用于從第二層合并段落集開始,逐層確定每層合并段落集中的每個(gè)合并段落的合法前置段落,并將該合并段落添加至其合法前置段落所屬的候選段落組中,以更新候選段落組;其中,一個(gè)合并段落的合法前置段落是指該合并段落的滿足預(yù)設(shè)單調(diào)性的前置段落,而一個(gè)合并段落的前置段落是指在所述多層合并段落集中,以該合并段落的下邊界作為上邊界的合并段落;候選段落組選擇輸出模塊35,用于在所述候選段落組更新模塊34完成候選段落 組更新后,從當(dāng)前的多個(gè)候選段落組中選出包含全部原始段落的候選段落組,并將其作為所述第一變量的離散化結(jié)果輸出。本申請實(shí)施例中,所述候選段落組選擇輸出模塊35還可以用于:當(dāng)包含全部原始段落的候選段落組有多個(gè)時(shí),從中選擇其信息值iv之和最大的候選段落組作為所述第一變量的離散化結(jié)果輸出,其中,一個(gè)候選段落組的信息值之和是指:該候選段落組中的每個(gè)合并段落的信息值的總和。本申請實(shí)施例中,所述合并段落集更新模塊還可以用于:當(dāng)一個(gè)合并段落同時(shí)有多個(gè)合法前置段落,并且所述多個(gè)合法前置段落不同在一個(gè)候選段落組時(shí),將該合并段落添加至其中信息值之和最大的候選段落組中,以更新候選段落組,其中,一個(gè)候選段落組的信息值之和是指:該候選段落組中的每個(gè)合并段落的信息值的總和。上述本申請實(shí)施例的變量離散化的裝置與上述本申請實(shí)施例的變量離散化的方法對應(yīng),因此,關(guān)于以上實(shí)施例的變量離散化的裝置中各模塊的具體細(xì)節(jié)請參考上述本申請實(shí)施例的變量離散化的方法中對應(yīng)的步驟,在此不再贅述。本申請實(shí)施例的變量離散化的裝置,原始段落劃分模塊將每個(gè)數(shù)據(jù)集中的第一變量的取值范圍按照相同的邊界值劃分成多個(gè)原始段落;合并段落集獲取模塊從第一個(gè)原始段落開始,按序?qū)⒚總€(gè)原始段落與自身及其后的原始段落進(jìn)行遞增式合并,獲得多層合并段落集,每層合并段落集包括至少一個(gè)合并段落;候選段落組獲取模塊將第一層合并段落集中的每個(gè)合并段落分別作為一個(gè)候選段落組;候選段落組更新模塊從第二層合并段落集開始,逐層確定每層合并段落集中的每個(gè)合并段落的合法前置段落,并將該合并段落添加至其合法前置段落所屬的候選段落組中,以更新候選段落組;在完成候選段落組更新模塊處理后,候選段落組選擇輸出模塊從當(dāng)前的多個(gè)候選段落組中選出包含全部原始段落的候選段落組,并將其作為第一變量的離散化結(jié)果輸出,從而實(shí)現(xiàn)了對同時(shí)存在于多個(gè)數(shù)據(jù)集的變量統(tǒng)一進(jìn)行離散化自動處理。此外,當(dāng)有多個(gè)段落組合滿足預(yù)設(shè)單調(diào)性時(shí),為了保證選擇出的離散化結(jié)果具有最大化的信息值,還可以從中選取其信息值之和最大的候選段落組作為變量的離散化結(jié)果。為了描述的方便,描述上述裝置時(shí)以功能分為各種模塊分別描述。當(dāng)然,在實(shí)施本申請時(shí)可以把各模塊的功能在同一個(gè)或多個(gè)軟件和/或硬件中實(shí)現(xiàn)。以上本申請實(shí)施例所描述的方法或裝置可以直接嵌入可由處理器執(zhí)行的軟件模塊中。軟件模塊可以存儲于ram存儲器、閃存、rom存儲器、eprom存儲器、 eeprom存儲器、寄存器、硬盤、可移動磁盤、cd-rom或本領(lǐng)域中其它任意形式的存儲媒介中。示例性地,存儲媒介可以與處理器連接,以使得處理器可以從存儲媒介中讀取信息,并可以向存儲媒介存寫信息??蛇x地,存儲媒介還可以集成到處理器中。以上所述的具體實(shí)施例,對本申請的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本申請實(shí)施例的具體實(shí)施例而已,并不用于限定本申請的保護(hù)范圍,凡在本申請的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請的保護(hù)范圍之內(nèi)。當(dāng)前第1頁12