專利名稱:數(shù)據(jù)分析裝置和數(shù)據(jù)分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)分析裝置和數(shù)據(jù)分析方法。
背景技術(shù):
現(xiàn)在已經(jīng)報(bào)道了很多數(shù)據(jù)采集技術(shù)被用于分析諸如用戶信息的離散信息的例子。另一方面,對(duì)分析諸如工廠里的靈敏度數(shù)據(jù)之類的數(shù)字信息的需求也越來(lái)越多。如果被分析的數(shù)字信息是多維的或者是高度非線性的,則難以獲得精確的函數(shù)近似值。在這樣的情況下將使用分析離散數(shù)據(jù)的技術(shù),如生成諸如決策樹(shù)之類的分類法則的那些技術(shù)。
為了生成對(duì)于數(shù)字?jǐn)?shù)據(jù)的分類法則,數(shù)字?jǐn)?shù)據(jù)必須通過(guò)聚類(clustering)而被離散化。尤其是如果目標(biāo)變量(被預(yù)測(cè)的變量)是一個(gè)數(shù)字值,在生成分類法則之前就要先應(yīng)用離散化。在分類法則生成之前進(jìn)行的目標(biāo)變量的離散化顯著地影響分類法則的生成。不適當(dāng)?shù)碾x散化可能導(dǎo)致不必要的復(fù)雜的分類法則或者使分類精確性降低。如果可以得到有關(guān)目標(biāo)變量的先驗(yàn)知識(shí)或者如果從目標(biāo)變量的頻率分布來(lái)看離散化的邊界顯而易見(jiàn),則在分類法則生成之前可以進(jìn)行適當(dāng)?shù)碾x散化。但是,在大部分場(chǎng)合中,無(wú)法找到這樣的先驗(yàn)知識(shí)或者明顯的數(shù)據(jù)分布。因此,通常情況下,只得從已生成的分類法則來(lái)確定是否進(jìn)行適當(dāng)?shù)碾x散化。也就是,因?yàn)樵谶M(jìn)行離散化的時(shí)候生成的分類法則的可讀性和最優(yōu)性不確定,因此,難以生成可讀的簡(jiǎn)單的分類法則。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面提供一種數(shù)據(jù)分析裝置,該裝置包括作為每一個(gè)都包括數(shù)個(gè)注釋變量和一個(gè)目標(biāo)變量的一組記錄的數(shù)據(jù)庫(kù);基于記錄的目標(biāo)變量生成數(shù)個(gè)簇的簇生成單元;確定每個(gè)記錄屬于哪個(gè)簇的確定單元;生成用于從注釋變量中預(yù)測(cè)簇的分類法則的分類法則生成單元;存儲(chǔ)生成的分類法則的分類法則存儲(chǔ)單元;選擇在生成的分類法則中涉及到的注釋變量的注釋變量選擇單元;和存儲(chǔ)選中的注釋變量的注釋變量列表;其中,簇生成單元基于注釋變量列表上的記錄中的注釋變量以及記錄的目標(biāo)變量生成數(shù)個(gè)簇。
根據(jù)本發(fā)明的另一個(gè)方面提供一種數(shù)據(jù)分析方法,該方法包括從作為每一個(gè)都包括數(shù)個(gè)注釋變量和一個(gè)目標(biāo)變量的一組記錄的數(shù)據(jù)庫(kù)中讀出記錄的目標(biāo)變量;基于讀出的記錄的目標(biāo)變量生成第一組多個(gè)簇;確定每個(gè)記錄屬于哪個(gè)簇;生成用于從注釋變量中預(yù)測(cè)簇的分類法則;存儲(chǔ)生成的分類法則;選擇生成的分類法則中涉及的注釋變量;將選中的注釋變量存儲(chǔ)在注釋變量列表中;以及基于注釋變量列表上的記錄中的注釋變量和記錄的目標(biāo)變量生成第二組多個(gè)簇。
圖1是示意性地顯示根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)分析裝置的結(jié)構(gòu)的框圖;圖2作為實(shí)例顯示一部分被分析數(shù)據(jù);圖3顯示一部分?jǐn)?shù)據(jù)表,其中被分析數(shù)據(jù)中的目標(biāo)變量Y被用表示簇號(hào)碼的變量Y(1)替換;圖4是圖3的數(shù)據(jù)表中簇的發(fā)生頻率的直方圖;圖5顯示生成的決策樹(shù)的一部分;圖6顯示基于二維變量的聚類的結(jié)果;圖7顯示一部分?jǐn)?shù)據(jù)表,其中被分析數(shù)據(jù)中的目標(biāo)變量Y被用表示簇號(hào)碼的變量Y(2)替換;圖8是關(guān)于圖7中的數(shù)據(jù)表的圖6中簇的發(fā)生頻率的直方圖;圖9顯示一部分生成的決策樹(shù);以及圖10是顯示由圖1中的數(shù)據(jù)分析裝置進(jìn)行的處理流程的流程圖。
具體實(shí)施例方式
圖1是示意性地顯示根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)分析裝置的結(jié)構(gòu)的框圖。
數(shù)據(jù)存儲(chǔ)單元1存儲(chǔ)被分析數(shù)據(jù)(數(shù)據(jù)庫(kù))。
圖2作為實(shí)例顯示一部分被分析數(shù)據(jù)。
被分析數(shù)據(jù)是一組記錄,每個(gè)記錄包括一個(gè)目標(biāo)變量Y以及四個(gè)注釋變量Z0,Z1,Z2和Z3。所有變量都是數(shù)字?jǐn)?shù)據(jù)。一排數(shù)據(jù)代表一個(gè)記錄。
數(shù)據(jù)分離單元2在被分析數(shù)據(jù)的基礎(chǔ)上進(jìn)行聚類。
數(shù)據(jù)分離單元2首先只對(duì)目標(biāo)變量Y進(jìn)行處理并進(jìn)行一維聚類(只有變量Y受到聚類處理)。聚類可通過(guò)把每個(gè)目標(biāo)變量分成多個(gè)范圍或者通過(guò)應(yīng)用K-means算法進(jìn)行。
這里假定K-means算法被應(yīng)用到圖2中顯示的被分析數(shù)據(jù)以生成五個(gè)簇簇0[-∞-2.73],簇1[2.73-4.06],簇2[4.06-6.35],簇3[6.35-8.47],和簇4[8.47-+∞]。括號(hào)中的數(shù)值是Y的值。例如,大于或者等于2.73并且小于4.06的Y被分入簇1,大于或者等于4.06并且小于6.35的Y被分入簇2。
在這樣生成的簇和目標(biāo)變量Y的基礎(chǔ)上,數(shù)據(jù)分離單元2確定被分析數(shù)據(jù)中的每個(gè)記錄的簇號(hào)碼。
圖3顯示一部分?jǐn)?shù)據(jù)表,其中被分析數(shù)據(jù)中的目標(biāo)變量Y被用表示簇號(hào)碼的Y(1)替換。數(shù)據(jù)表由數(shù)據(jù)分離單元2生成并被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元1中。圖4顯示簇發(fā)生頻率的直方圖。
分類法則生成單元3將變量Y(1)作為目標(biāo)變量并生成決策樹(shù)。也就是,分類法則生成單元3生成用于從注釋變量預(yù)測(cè)簇號(hào)碼的決策樹(shù)。生成的分類法則不限于決策樹(shù);可以生成其它的分類法則。
圖5顯示由分類法則生成單元3生成的決策樹(shù)的一部分。
決策樹(shù)是包括大約250個(gè)葉節(jié)點(diǎn)的大型樹(shù)。下面簡(jiǎn)要描述決策樹(shù)的例子。如果注釋變量Z1小于-0.58,注釋變量Z0小于1.90,并且注釋變量Z3小于-0.78,則該例子被分入簇0。如果注釋變量Z1大于或者等于-0.58并且小于-0.47,以及注釋變量Z0小于3.10,則該例子被分入簇1。
分類法則生成單元3將生成的決策樹(shù)存儲(chǔ)到分類法則存儲(chǔ)單元4。
變量選擇單元5從存儲(chǔ)在分類法則存儲(chǔ)單元4中的決策樹(shù)選擇有效的變量以供聚類。有效的變量可以是出現(xiàn)在決策樹(shù)中的根部(根節(jié)點(diǎn))的變量,或者是除了先前選擇的注釋變量以外最頻繁地在圖2或圖3等中的數(shù)據(jù)的決策樹(shù)中涉及到的變量。在這個(gè)例子中,變量選擇單元5選擇作為有效變量出現(xiàn)在根部的“Z1”并將選中的變量Z1輸出到數(shù)據(jù)分離單元2中。
數(shù)據(jù)分離單元2使用具有從變量選擇單元5輸入的有效變量Z1的二維變量以及目標(biāo)變量Y對(duì)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元1中的被分析數(shù)據(jù)進(jìn)行再次聚類。圖6顯示聚類的結(jié)果。在這次聚類(再次集合)以及先前的聚類中,作為聚類狀況的簇?cái)?shù)量都是五個(gè)。圖7顯示一部分?jǐn)?shù)據(jù)表,其中,圖2的數(shù)據(jù)表中的目標(biāo)變量Y被用表示通過(guò)再次聚類得到的簇號(hào)碼的變量Y(2)替換。數(shù)據(jù)表由數(shù)據(jù)分離單元2生成并被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元1中。圖8顯示關(guān)于圖7中的數(shù)據(jù)表的圖6中的簇的發(fā)生頻率的直方圖。
分類法則生成單元3將變量Y2作為目標(biāo)變量并生成決策樹(shù)。
圖9顯示一部分生成的決策樹(shù)。
圖9中的決策樹(shù)具有大約60個(gè)葉節(jié)點(diǎn),這大約是圖5所示的決策樹(shù)的葉節(jié)點(diǎn)數(shù)量的1/4。
因?yàn)閳D9中的決策樹(shù)的根節(jié)點(diǎn)(變量)與之前剛好生成的圖5中的決策樹(shù)的根節(jié)點(diǎn)(最后部分)一致,就確定圖9中的決策樹(shù)與圖5中的決策樹(shù)相似,并且處理過(guò)程結(jié)束。在從一個(gè)決策樹(shù)的根節(jié)點(diǎn)到一定層次的部分樹(shù)是否與其它決策樹(shù)的相應(yīng)部分一致的基礎(chǔ)上,可以作出它們彼此是否相似的確定?;蛘?,如果生成的決策樹(shù)符合收斂條件,而不是決策樹(shù)是否彼此相似,那么處理過(guò)程也結(jié)束。收斂條件可以是生成的決策樹(shù)的正確答案率達(dá)到一個(gè)閾值的條件,或者可以是生成的決策樹(shù)的所有節(jié)點(diǎn)數(shù)小于或者等于一個(gè)閾值的條件。處理過(guò)程是否應(yīng)該繼續(xù)的確定可以根據(jù)用戶的輸入來(lái)作出。例如,用戶用來(lái)進(jìn)行輸入的輸入單元以及用于存儲(chǔ)用戶輸入的用戶輸入存儲(chǔ)單元可以設(shè)置在圖1所示的系統(tǒng)中,如果表示處理過(guò)程結(jié)束的標(biāo)志被存儲(chǔ)在用戶輸入存儲(chǔ)單元中,則處理過(guò)程可以結(jié)束。
如果決策樹(shù)之間的比較顯示它們彼此不相似(或者決策樹(shù)不收斂),則最新的決策樹(shù)被存儲(chǔ)到分類法則存儲(chǔ)單元4中,并且變量選擇單元5從存儲(chǔ)的最新決策樹(shù)選擇除了先前選擇的注釋變量之外的變量。數(shù)據(jù)分離單元2在具有這個(gè)變量,已選擇的變量以及目標(biāo)變量的三維變量的基礎(chǔ)上再次進(jìn)行聚類。
圖10是顯示由圖1中顯示的數(shù)據(jù)分析裝置進(jìn)行的處理過(guò)程的流程的流程圖。
數(shù)據(jù)分離單元2從存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元1中的被分析數(shù)據(jù)中包括的變量中確定目標(biāo)變量(步驟S1)。目標(biāo)變量可以在用戶輸入的基礎(chǔ)上確定或者可以被事先指定。數(shù)據(jù)分離單元2清除先前給出的列表并初始化分類法則存儲(chǔ)單元4(步驟S2)。
數(shù)據(jù)分離單元2在步驟S1中確定的目標(biāo)變量以及列表中的注釋變量的基礎(chǔ)上對(duì)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元1中的被分析數(shù)據(jù)進(jìn)行聚類(步驟S3)。如果還沒(méi)有注釋變量被包含在列表中,則數(shù)據(jù)分離單元2只在目標(biāo)變量的基礎(chǔ)上進(jìn)行聚類。數(shù)據(jù)分離單元2將表示簇號(hào)碼的變量加入到被分析數(shù)據(jù)以生成數(shù)據(jù)表,或者用表示簇號(hào)碼的變量替換被分析數(shù)據(jù)的目標(biāo)變量以生成數(shù)據(jù)表。
分類法則生成單元3從生成的數(shù)據(jù)表生成具有作為其葉節(jié)點(diǎn)的簇號(hào)碼的決策樹(shù)(步驟S4)。也就是,它生成用于從注釋變量中預(yù)測(cè)簇號(hào)碼的決策樹(shù)。
分類法則生成單元3確定生成的決策樹(shù)是否與分類法則存儲(chǔ)單元4中最后記錄的決策樹(shù)即之前剛剛由分類法則生成單元3生成的決策樹(shù)相似。如果是這樣(在步驟S5中為是YES),則處理過(guò)程結(jié)束?;蛘撸梢宰鞒錾傻臎Q策樹(shù)是否符合收斂條件的確定,如果是,處理也可以結(jié)束。如之前所述,分類生成單元3可以在用戶輸入的基礎(chǔ)上確定處理過(guò)程是否應(yīng)該結(jié)束。
另一方面,如果決策樹(shù)彼此不相似(或者收斂條件不符合)(步驟S5中為否NO),則分類法則生成單元3將生成的決策樹(shù)存儲(chǔ)在分類法則存儲(chǔ)單元4中(步驟S6)。變量選擇單元5從記錄的決策樹(shù)中選擇一個(gè)不在列表中的注釋變量并將其加入到列表中(步驟S6)。然后,處理過(guò)程返回到步驟S3,在該步驟,在列表中的所有注釋變量和目標(biāo)變量的基礎(chǔ)上再次進(jìn)行聚類。
圖1中所示的數(shù)據(jù)分析裝置的部件的功能可以通過(guò)使諸如CPU的計(jì)算機(jī)執(zhí)行由一般編程技術(shù)產(chǎn)生的程序來(lái)實(shí)現(xiàn),或者可以由硬件實(shí)現(xiàn)?;蛘?,這些功能可以由程序和硬件結(jié)合起來(lái)實(shí)現(xiàn)。
根據(jù)本實(shí)施例,如果目標(biāo)變量是連續(xù)的量(數(shù)字值),如前所述,決策樹(shù)中出現(xiàn)的重要變量被用作目標(biāo)變量的有效的離散指數(shù)。因此,可以生成可讀性強(qiáng)、簡(jiǎn)單的分類法則。
進(jìn)一步地,根據(jù)本實(shí)施例,如果生成的決策樹(shù)與先前生成的決策樹(shù)相似,則處理過(guò)程結(jié)束。因此,分類法則可以在短時(shí)間內(nèi)有效地生成。
權(quán)利要求
1.一種數(shù)據(jù)分析裝置,其特征在于,包括數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)為一組每一個(gè)都包括數(shù)個(gè)注釋變量和目標(biāo)變量的記錄;基于記錄的目標(biāo)變量生成數(shù)個(gè)簇的簇生成單元;確定每個(gè)記錄屬于哪個(gè)簇的確定單元;生成用于從注釋變量預(yù)測(cè)簇的分類法則的分類法則生成單元;存儲(chǔ)生成的分類法則的分類法則存儲(chǔ)單元;選擇在生成的分類法則中涉及到的注釋變量的注釋變量選擇單元;和存儲(chǔ)選中的注釋變量的注釋變量列表;其中,簇生成單元基于注釋變量列表上的記錄中的注釋變量以及記錄的目標(biāo)變量生成數(shù)個(gè)簇。
2.如權(quán)利要求1所述的數(shù)據(jù)分析裝置,其特征在于,分類法則生成單元生成作為分類法則的決策樹(shù);以及注釋變量選擇單元選擇位于決策樹(shù)的根部的注釋變量或者除了注釋變量列表中的注釋變量以外在決策樹(shù)中最頻繁地被涉及的注釋變量。
3.如權(quán)利要求1所述的數(shù)據(jù)分析裝置,其特征在于,進(jìn)一步包括確定單元,該確定單元將由分類法則生成單元生成的最新的分類法則與由分類法則生成單元的最后部分生成的分類法則進(jìn)行比較,如果分類法則符合相似性條件,則確定處理過(guò)程結(jié)束。
4.如權(quán)利要求3所述的數(shù)據(jù)分析裝置,其特征在于,分類法則生成單元生成作為分類法則的決策樹(shù);以及如果所述比較顯示兩個(gè)決策樹(shù)中的一個(gè)決策樹(shù)的根節(jié)點(diǎn)與另一個(gè)決策樹(shù)的根節(jié)點(diǎn)相似,或者如果兩個(gè)決策樹(shù)中的一個(gè)決策樹(shù)的部分樹(shù)與另一個(gè)決策樹(shù)的部分樹(shù)相一致,則確定單元確定符合相似性條件。
5.如權(quán)利要求1所述的數(shù)據(jù)分析裝置,其特征在于,進(jìn)一步包括附加確定單元,如果分類法則生成單元生成的分類法則符合收斂條件,則附加確定單元確定處理過(guò)程結(jié)束。
6.如權(quán)利要求5所述的數(shù)據(jù)分析裝置,其特征在于,分類法則生成單元生成作為分類法則的決策樹(shù);以及如果決策樹(shù)的正確答案率大于或者等于閾值或者如果決策樹(shù)的節(jié)點(diǎn)的數(shù)量小于或者等于閾值,則附加確定單元確定符合收斂條件。
7.一種數(shù)據(jù)分析方法,其特征在于,包括從為每一個(gè)都包括數(shù)個(gè)注釋變量和目標(biāo)變量的一組記錄的數(shù)據(jù)庫(kù)中讀出記錄的目標(biāo)變量;基于讀出的記錄的目標(biāo)變量生成第一組多個(gè)簇;確定每個(gè)記錄屬于哪個(gè)簇;生成用于從注釋變量中預(yù)測(cè)簇的分類法則;存儲(chǔ)生成的分類法則;選擇在生成的分類法則中涉及的注釋變量;將選中的注釋變量存儲(chǔ)在注釋變量列表中;以及基于注釋變量列表上的記錄中的注釋變量和記錄的目標(biāo)變量生成第二組多個(gè)簇。
8.如權(quán)利要求7所述的數(shù)據(jù)分析方法,其特征在于,其中在生成第二組多個(gè)簇后,依次重復(fù)進(jìn)行所述確定、所述生成分類法則、所述存儲(chǔ)生成的分類法則、所述選擇注釋變量、所述存儲(chǔ)注釋變量以及所述生成第二組多個(gè)簇的處理過(guò)程。
9.如權(quán)利要求7所述的數(shù)據(jù)分析方法,其特征在于,包括生成作為分類法則的決策樹(shù);以及選擇位于決策樹(shù)的根部的注釋變量或者除了注釋變量列表中的注釋變量以外在決策樹(shù)中最頻繁地被涉及的注釋變量。
10.如權(quán)利要求7所述的數(shù)據(jù)分析方法,其特征在于,進(jìn)一步包括將最新生成的分類法則與由最后部分生成的分類法則進(jìn)行比較;如果分類法則符合相似性條件,確定處理過(guò)程結(jié)束。
11.如權(quán)利要求10所述的數(shù)據(jù)分析方法,其特征在于,包括生成作為分類法則的決策樹(shù);以及如果比較顯示兩個(gè)決策樹(shù)中的一個(gè)決策樹(shù)的根節(jié)點(diǎn)與另一個(gè)決策樹(shù)的根節(jié)點(diǎn)相似,或者如果兩個(gè)決策樹(shù)中的一個(gè)決策樹(shù)的部分樹(shù)與另一個(gè)決策樹(shù)的部分樹(shù)一致,則確定符合相似性條件。
12.如權(quán)利要求7所述的數(shù)據(jù)分析方法,其特征在于,進(jìn)一步包括如果生成的分類法則符合收斂條件,則確定處理過(guò)程結(jié)束。
13.如權(quán)利要求12所述的數(shù)據(jù)分析方法,其特征在于,該數(shù)據(jù)分析方法包括生成作為分類法則的決策樹(shù);以及如果決策樹(shù)的正確答案率大于或者等于閾值或者如果決策樹(shù)的節(jié)點(diǎn)的數(shù)量小于或者等于閾值,則確定符合收斂條件。
全文摘要
本發(fā)明提供了一種數(shù)據(jù)分析方法,該方法包括從作為每一個(gè)都包括數(shù)個(gè)注釋變量和目標(biāo)變量的一組記錄的數(shù)據(jù)庫(kù)中讀出記錄的目標(biāo)變量;基于讀出的記錄的目標(biāo)變量生成第一組多個(gè)簇;確定每個(gè)記錄屬于哪個(gè)簇;生成用于從注釋變量中預(yù)測(cè)簇的分類法則;存儲(chǔ)生成的分類法則;選擇在生成的分類法則中涉及的注釋變量;將選中的注釋變量存儲(chǔ)在注釋變量列表中;以及基于注釋變量列表上的記錄中的注釋變量和記錄的目標(biāo)變量生成第二組多個(gè)簇。
文檔編號(hào)G06F17/30GK1783092SQ200510128810
公開(kāi)日2006年6月7日 申請(qǐng)日期2005年11月30日 優(yōu)先權(quán)日2004年11月30日
發(fā)明者波田野壽昭, 久保田和人, 森田千繪, 仲瀨明彥, 渡邊經(jīng)夫 申請(qǐng)人:株式會(huì)社東芝