亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

在線數(shù)據(jù)庫(kù)挖掘的制作方法

文檔序號(hào):6415889閱讀:245來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):在線數(shù)據(jù)庫(kù)挖掘的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及大型數(shù)據(jù)庫(kù)中的在線搜索數(shù)據(jù)相關(guān)性(數(shù)據(jù)挖掘)。
數(shù)據(jù)挖掘(mining),亦稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),它已被認(rèn)為是數(shù)據(jù)庫(kù)研究中的一個(gè)新領(lǐng)域。在過(guò)去二十年內(nèi)以電子形式存儲(chǔ)的數(shù)據(jù)的數(shù)量飛速增加。電子數(shù)據(jù)收集設(shè)備例如銷(xiāo)售點(diǎn)或遠(yuǎn)程傳感設(shè)備的日益增加的用途促使可用數(shù)據(jù)數(shù)量的爆炸性增長(zhǎng)。當(dāng)大量計(jì)算能力和存儲(chǔ)資源以日益降低的成本提供使用時(shí),對(duì)于商業(yè)機(jī)構(gòu)而言數(shù)據(jù)存儲(chǔ)變?yōu)楦菀缀透哂形Α?br> 當(dāng)很多注意力集中在數(shù)據(jù)積累上時(shí),也補(bǔ)充地需要知道如何利用這些有價(jià)值的資源。商界已經(jīng)意識(shí)到使用所存儲(chǔ)數(shù)據(jù)的決策者可以耐心搜集有價(jià)值的內(nèi)容。通過(guò)使用來(lái)自條碼公司的數(shù)據(jù)或來(lái)自產(chǎn)品目錄公司的銷(xiāo)售數(shù)據(jù),有可能得到有關(guān)顧客購(gòu)買(mǎi)習(xí)慣的有用信息。例如零售商可以使用得到的信息來(lái)確定超市中哪些貨物上架或在其他事情之外設(shè)計(jì)一個(gè)遠(yuǎn)大目標(biāo)的市場(chǎng)計(jì)劃。利用恰當(dāng)?shù)姆治黾夹g(shù)可以自數(shù)據(jù)中發(fā)現(xiàn)許多有意義的內(nèi)容。就普遍情況而言,數(shù)據(jù)挖掘與數(shù)據(jù)分析和軟件技術(shù)的使用有關(guān),用于找出數(shù)據(jù)集內(nèi)的模式和規(guī)律。數(shù)據(jù)挖掘的目的是分離出數(shù)據(jù)中可辨別的模式和趨向并從這些模式中推斷相關(guān)規(guī)則。
數(shù)據(jù)挖掘技術(shù)的特征在于對(duì)大量數(shù)據(jù)的大量計(jì)算。大型數(shù)據(jù)庫(kù)可定義為包含一百萬(wàn)或更多個(gè)記錄。在一個(gè)典型應(yīng)用中,末端用戶(hù)測(cè)試相關(guān)規(guī)則,例如‘購(gòu)買(mǎi)可樂(lè)的顧客中75%也購(gòu)買(mǎi)炸玉米片“,其中75%是指規(guī)則的信任度系數(shù)。規(guī)則的支持度是既包含可樂(lè)又包含炸玉米片的事務(wù)的百分比。
現(xiàn)在現(xiàn)有技術(shù)還沒(méi)有解決在線挖掘的問(wèn)題,但卻集中在一種itemset方案上。該itemset方案的明顯缺點(diǎn)是當(dāng)用戶(hù)在支持度和信任度的不同值的情況下為相關(guān)規(guī)則測(cè)試數(shù)據(jù)庫(kù)時(shí),必須多次檢索數(shù)據(jù)庫(kù),可能高達(dá)京字節(jié)的數(shù)量級(jí)。對(duì)于非常大的數(shù)據(jù)庫(kù),這可能涉及相當(dāng)數(shù)量的I/O以及在有些情況下它可能導(dǎo)致在線查詢(xún)中無(wú)法接受的響應(yīng)時(shí)間。用戶(hù)必須在一個(gè)數(shù)據(jù)庫(kù)上進(jìn)行多次查詢(xún),因?yàn)楹茈y預(yù)先猜測(cè)有多少規(guī)則可能滿(mǎn)足支持度和信任度的給定水平。通常一個(gè)人可能只對(duì)幾條規(guī)則感興趣。這使問(wèn)題更為困難,因?yàn)橛脩?hù)困可能要多次進(jìn)行查詢(xún)以便找出最小支持度和最小信任度的恰當(dāng)水平從而挖掘規(guī)則。換言之,挖掘相關(guān)規(guī)則的問(wèn)題可能要求在從事務(wù)數(shù)據(jù)庫(kù)中耐心搜集有用商務(wù)信息之前通過(guò)重復(fù)查詢(xún)來(lái)進(jìn)行可觀的手動(dòng)參數(shù)調(diào)整。以上描述的挖掘處理方法因此不適用于重復(fù)的在線查詢(xún),因?yàn)榇罅看疟P(pán)I/O或計(jì)算會(huì)導(dǎo)致無(wú)法接受的響應(yīng)時(shí)間。為將數(shù)據(jù)挖掘能力擴(kuò)展到因特網(wǎng),需要?jiǎng)討B(tài)在線方法而不是itemset方案的面向批處理方法。
因此,本發(fā)明提供一種在線挖掘大型數(shù)據(jù)庫(kù)的方法,該數(shù)據(jù)庫(kù)具有大量記錄,每個(gè)記錄具有多個(gè)定量和分類(lèi)項(xiàng)目,用于提供定量相關(guān)規(guī)則,包括以下步驟a)接收一個(gè)用戶(hù)確定的最小信任度值,一個(gè)用戶(hù)確定的最小支持度值,一個(gè)用戶(hù)確定的興趣水平值和一個(gè)包括前趨和后繼屬性的用戶(hù)查詢(xún);b)組織所述前趨和后繼屬性之間的關(guān)系;c)預(yù)先存儲(chǔ)用于確定所述前趨屬性之間關(guān)系的數(shù)據(jù)及與所述后繼屬性有關(guān)的數(shù)據(jù);及d)響應(yīng)于所述用戶(hù)查詢(xún),從所述預(yù)先存儲(chǔ)的數(shù)據(jù)中獲得一個(gè)答案。
在一個(gè)優(yōu)選實(shí)施例中,所述答案包括一個(gè)或多個(gè)定量相關(guān)規(guī)則,一個(gè)與每個(gè)規(guī)則相關(guān)的實(shí)際信任度值,一個(gè)與每個(gè)規(guī)則相關(guān)的實(shí)際支持度值及一個(gè)與每個(gè)規(guī)則相關(guān)的興趣水平,其中一個(gè)或多個(gè)定量相關(guān)規(guī)則只包括那些感興趣的規(guī)則(例如它們的計(jì)算的興趣水平至少等于所述用戶(hù)確定的興趣水平)。
興趣水平的一個(gè)方便和有效的定義是例如第一和第二計(jì)算比例的最小值,其中所述第一比例定義為實(shí)際信任度除以預(yù)期信任度及第二比例定義為實(shí)際支持度除以預(yù)期支持度,其中所述預(yù)期信任度和支持度是根據(jù)統(tǒng)計(jì)獨(dú)立性的推論計(jì)算的。
在優(yōu)選實(shí)施例中,所述前趨屬性包括分類(lèi)和定量屬性,其中定量屬性由包含低界限和高界限的范圍所確定。
所述組織步驟最好包括將所述前趨數(shù)據(jù)在層次結(jié)構(gòu)上劃分為索引樹(shù),其中所述索引樹(shù)包括多個(gè)索引節(jié)點(diǎn),步驟如下a)存儲(chǔ)所述索引樹(shù)的每個(gè)索引節(jié)點(diǎn)的第一個(gè)值,以表示實(shí)際支持度;及b)存儲(chǔ)所述索引樹(shù)的每個(gè)索引節(jié)點(diǎn)的第二個(gè)值,以表示每個(gè)用戶(hù)查詢(xún)的隨后屬性的出現(xiàn)頻度。
在這一實(shí)施例中,可有效地如下地實(shí)施所述獲得步驟i)搜索所述索引樹(shù)的所有索引節(jié)點(diǎn)以便找出其前趨屬性范圍對(duì)應(yīng)于所述用戶(hù)查詢(xún)的前趨屬性范圍的那些節(jié)點(diǎn);ii)從步驟i中找出的節(jié)點(diǎn)中選擇其后繼屬性至少等于所述用戶(hù)確定的最小信任度值的那些節(jié)點(diǎn);及iii)從步驟ii中找出的節(jié)點(diǎn)中建立合并樹(shù)。
建立步驟最好還包括刪除無(wú)意義節(jié)點(diǎn)和組合其他節(jié)點(diǎn)以便建立所述合并樹(shù),其中無(wú)意義節(jié)點(diǎn)是一個(gè)這樣的節(jié)點(diǎn),它的相應(yīng)的計(jì)算的信任度值中沒(méi)有一個(gè)至少等于所述用戶(hù)確定的最小信任度值??蔀閱蝹€(gè)也可為多個(gè)后繼屬性建立合并樹(shù)。
在一個(gè)優(yōu)選實(shí)施例中,所述接收步驟包括向一個(gè)計(jì)算機(jī)輸入包括一個(gè)用戶(hù)確定最小支持度值,一個(gè)用戶(hù)確定最小信任度值,一個(gè)用戶(hù)確定興趣度值和一個(gè)包括前趨和后繼條件的用戶(hù)查詢(xún)的數(shù)據(jù),其中所述前趨和后繼條件還包括多個(gè)定量和分類(lèi)屬性所述組織和預(yù)先存儲(chǔ)步驟包括在存儲(chǔ)器中構(gòu)作一個(gè)包括一個(gè)或多個(gè)量綱的索引樹(shù)的步驟,其中每個(gè)量綱由包含在所述前趨條件中的用戶(hù)提供的定量屬性中的一個(gè)所確定,所述索引樹(shù)包括多個(gè)由多個(gè)數(shù)據(jù)記錄組成的索引節(jié)點(diǎn);還包括以下步驟在存儲(chǔ)器中從所述索引樹(shù)中構(gòu)作一個(gè)非合并規(guī)則樹(shù)和從所述非合并規(guī)則樹(shù)中構(gòu)作一個(gè)合并規(guī)則樹(shù)。
及所述獲得步驟包括從那些滿(mǎn)足所述用戶(hù)查詢(xún)及其支持度至少等于所述最小支持度及其信任度至少等于所述最小信任度的索引節(jié)點(diǎn)中生成一個(gè)或多個(gè)定量相關(guān)規(guī)則;及向用戶(hù)顯示包含以下內(nèi)容的輸出數(shù)據(jù)來(lái)自生成步驟的所述定量相關(guān)規(guī)則;與每個(gè)生成的定量相關(guān)規(guī)則有關(guān)的一個(gè)實(shí)際信任度值;與每個(gè)生成的定量相關(guān)規(guī)則有關(guān)的一個(gè)實(shí)際支持度值;及與每個(gè)生成的定量相關(guān)規(guī)則有關(guān)的一個(gè)興趣水平值。
生成一個(gè)或多個(gè)定量相關(guān)規(guī)則的步驟可以重復(fù)以便交互地修改所述用戶(hù)查詢(xún)從而再確定所述相關(guān)規(guī)則。
構(gòu)作索引樹(shù)的步驟最好包括以下步驟構(gòu)作一個(gè)或多個(gè)量綱的二叉索引樹(shù),其中每個(gè)量綱由所述用戶(hù)提供的定量前趨屬性之一所確定;及在每個(gè)索引節(jié)點(diǎn)存儲(chǔ)所述支持水平和信任水平。
構(gòu)作非合并規(guī)則樹(shù)的步驟最好還包括以下步驟搜索所述索引樹(shù)的每個(gè)節(jié)點(diǎn);及選擇包含能滿(mǎn)足用戶(hù)規(guī)定的隨后條件及其信任度至少等于所述用戶(hù)確定的最小信任度值及其支持度至少等于所述用戶(hù)確定的最小支持度值的規(guī)則的那些節(jié)點(diǎn)。此后一選擇步驟可由以下步驟完成構(gòu)作一個(gè)指針;將所述指針指向所述索引樹(shù)中的根節(jié)點(diǎn);將與所述指針相關(guān)的所述節(jié)點(diǎn)增加到一個(gè)表中;將由所述指針?biāo)腹?jié)點(diǎn)的所有子節(jié)點(diǎn)加入表中,并帶有完全包含于所述用戶(hù)規(guī)定的前趨屬性參數(shù)中的前趨屬性及帶有至少等于所述用戶(hù)確定的最小支持度的最小支持度值;
判定存儲(chǔ)于由所述指針?biāo)傅墓?jié)點(diǎn)中存儲(chǔ)的數(shù)據(jù)記錄是否至少等于用戶(hù)規(guī)定的隨后條件及是否具有一個(gè)至少等于所述用戶(hù)確定的最小信任度的信任度;生成一個(gè)與所述隨后條件相關(guān)的定量相關(guān)規(guī)則;當(dāng)不滿(mǎn)足以前步驟的條件時(shí),自所述表中刪除所述節(jié)點(diǎn);判定所述表是否空的;及當(dāng)所述表是空時(shí)結(jié)束,否則將所述指針指向所述索引樹(shù)的下一個(gè)節(jié)點(diǎn),并從所述將與所述指針相關(guān)的所述節(jié)點(diǎn)增加到表中的步驟開(kāi)始,向前重復(fù)上述各步驟。
還希望建立合并規(guī)則樹(shù)的步驟包括以下步驟a)后序遍歷非合并規(guī)則樹(shù)的每個(gè)節(jié)點(diǎn);b)估價(jià)每個(gè)所遍歷節(jié)點(diǎn)以便通過(guò)以下步驟將其包括于非合并樹(shù)內(nèi)或?qū)⑵渑懦鬷)判定每個(gè)所述用戶(hù)確定的后繼屬性值是否大于存于所述節(jié)點(diǎn)處的后繼屬性值;ii)當(dāng)滿(mǎn)足條件(i)時(shí)將所述節(jié)點(diǎn)保留于所述合并規(guī)則樹(shù)中;iii)當(dāng)無(wú)法滿(mǎn)足條件(i)及所述節(jié)點(diǎn)沒(méi)有相關(guān)子節(jié)點(diǎn)時(shí)將所述節(jié)點(diǎn)從所述合并規(guī)則樹(shù)中刪除掉;iv)當(dāng)無(wú)法滿(mǎn)足條件(i)及所述節(jié)點(diǎn)有一個(gè)子節(jié)點(diǎn)時(shí)將所述節(jié)點(diǎn)從所述合并規(guī)則樹(shù)中刪除掉并將所述刪除節(jié)點(diǎn)的一個(gè)父節(jié)點(diǎn)與子節(jié)點(diǎn)直接關(guān)聯(lián)起來(lái);及v)當(dāng)無(wú)法滿(mǎn)足條件(i)時(shí)調(diào)整所述后繼屬性的范圍;其中所述估價(jià)步驟重復(fù)進(jìn)行,直至已經(jīng)后序遍歷所有節(jié)點(diǎn)。
本發(fā)明還提供用于在線挖掘具有多個(gè)記錄的大型數(shù)據(jù)庫(kù)的設(shè)備,其中每個(gè)記錄具有多個(gè)用于提供定量相關(guān)規(guī)則的定量和分類(lèi)項(xiàng)目,包括;a)用于接收一個(gè)用戶(hù)確定的最小信任度值,一個(gè)用戶(hù)確定的最小支持度值,一個(gè)用戶(hù)確定的興趣水平值和一個(gè)包括前趨和后繼屬性的用戶(hù)查詢(xún)的裝置;
b)用于組織所述前趨和后繼屬性之間的關(guān)系的裝置;c)用于預(yù)先存儲(chǔ)確定所述前趨屬性及與所述后繼屬性有關(guān)的數(shù)據(jù)之間的關(guān)系的數(shù)據(jù)的存儲(chǔ)器;及d)響應(yīng)于所述用戶(hù)查詢(xún),用于自所述預(yù)先存儲(chǔ)的數(shù)據(jù)中獲得一個(gè)答案的裝置。
從另一個(gè)方面看,本發(fā)明還提供一個(gè)用于在線挖掘具有多個(gè)記錄的大型數(shù)據(jù)庫(kù)的計(jì)算機(jī)執(zhí)行過(guò)程,其中每個(gè)記錄具有多個(gè)用于提供定量相關(guān)規(guī)則的定量和分類(lèi)項(xiàng)目,該過(guò)程包括以下步驟向計(jì)算機(jī)輸入包括一個(gè)用戶(hù)確定的最小支持度值,一個(gè)用戶(hù)確定的最小信任度值,一個(gè)用戶(hù)確定的興趣水平值和一個(gè)包括前趨和后繼屬性的用戶(hù)查詢(xún)的數(shù)據(jù),其中所述前趨和后繼條件還包括多個(gè)定量和分類(lèi)屬性;在存儲(chǔ)器中構(gòu)作一個(gè)包括一個(gè)或多個(gè)量綱的索引樹(shù),其中每個(gè)量綱由包含于所述前趨條件中的用戶(hù)規(guī)定定量屬性之一所確定,所述索引樹(shù)包括多個(gè)索引節(jié)點(diǎn),其中所述索引節(jié)點(diǎn)還包括多個(gè)數(shù)據(jù)記錄;在存儲(chǔ)器中從所述索引樹(shù)中構(gòu)作一個(gè)非合并規(guī)則樹(shù),后者包括多個(gè)索引節(jié)點(diǎn),其中所述索引節(jié)點(diǎn)還包括多個(gè)數(shù)據(jù)記錄;在存儲(chǔ)器中從所述非合并規(guī)則樹(shù)中構(gòu)作一個(gè)合并規(guī)則樹(shù),后者包括多個(gè)索引節(jié)點(diǎn),其中所述索引節(jié)點(diǎn)還包括多個(gè)數(shù)據(jù)記錄;從那些滿(mǎn)足所述用戶(hù)查詢(xún)及其支持度至少等于所述最小支持度及其信任度至少等于所述最小信任度的索引節(jié)點(diǎn)中生成一個(gè)或多個(gè)定量相關(guān)規(guī)則;及向用戶(hù)顯示包含以下內(nèi)容的輸出數(shù)據(jù)來(lái)自生成步驟的所述定量相關(guān)規(guī)則;與每個(gè)生成的定量相關(guān)規(guī)則有關(guān)的一個(gè)實(shí)際信任度值;與每個(gè)生成的定量相關(guān)規(guī)則有關(guān)的一個(gè)實(shí)際支持度值;及與每個(gè)生成的定量相關(guān)規(guī)則有關(guān)的一個(gè)興趣水平值。
構(gòu)作非合并規(guī)則樹(shù)的步驟最好包括通過(guò)以下步驟搜索索引樹(shù)的每個(gè)節(jié)點(diǎn)和選擇合適節(jié)點(diǎn)的步驟
i)構(gòu)作一個(gè)指針;ii)將所述指針指向所述索引樹(shù)中的根節(jié)點(diǎn);iii)將與所述指針相關(guān)的所述節(jié)點(diǎn)增加到一個(gè)表中;iv)將由所述指針?biāo)腹?jié)點(diǎn)的所有子節(jié)點(diǎn)加入表中,并帶有完全包含于所述用戶(hù)規(guī)定的前趨屬性參數(shù)中的前趨屬性及具有至少等于所述用戶(hù)確定的最小支持度的最小支持度值;v)判定由所述指針?biāo)傅墓?jié)點(diǎn)中存儲(chǔ)的數(shù)據(jù)記錄是否至少等于用戶(hù)規(guī)定的隨后條件及是否具有一個(gè)至少等于由所述指針?biāo)傅墓?jié)點(diǎn)的所述用戶(hù)確定的最小信任度的信任度;vi)生成一個(gè)與所述隨后條件相關(guān)的定量相關(guān)規(guī)則;vii)當(dāng)不滿(mǎn)足前一步驟的條件時(shí),自所述表中刪除所述節(jié)點(diǎn);viii)判定所述表是否空的;ix)當(dāng)所述表是空時(shí)結(jié)束;x)當(dāng)不滿(mǎn)足步驟ix的條件時(shí),將所述指針指向所述索引樹(shù)的下一個(gè)節(jié)點(diǎn);xi)當(dāng)不滿(mǎn)足步驟ix的條件時(shí)重復(fù)iii至x各步驟。
建立合并規(guī)則樹(shù)的步驟最好包括以下步驟a)后序遍歷非合并規(guī)則樹(shù)的每個(gè)節(jié)點(diǎn);b)估價(jià)每個(gè)所遍歷節(jié)點(diǎn)以便通過(guò)以下步驟將其包括于非合并規(guī)則樹(shù)內(nèi)或?qū)⑵渑懦鬷)判定每個(gè)所述用戶(hù)確定的后繼屬性值是否大于存于所述節(jié)點(diǎn)處的后繼屬性值;ii)當(dāng)滿(mǎn)足步驟i)條件時(shí)將所述節(jié)點(diǎn)保留于所述合并規(guī)則樹(shù)中;iii)當(dāng)無(wú)法滿(mǎn)足步驟i)條件及所述節(jié)點(diǎn)沒(méi)有相關(guān)子節(jié)點(diǎn)時(shí)將所述節(jié)點(diǎn)從所述合并規(guī)則樹(shù)中刪除掉;iv)當(dāng)無(wú)法滿(mǎn)足步驟i)條件及所述節(jié)點(diǎn)有一個(gè)子節(jié)點(diǎn)時(shí)將所述節(jié)點(diǎn)從所述合并規(guī)則樹(shù)中刪除掉;v)當(dāng)無(wú)法滿(mǎn)足步驟i)條件時(shí)調(diào)整所述后繼屬性的范圍;
vi)當(dāng)滿(mǎn)足步驟iv)條件時(shí),將所述刪除節(jié)點(diǎn)的一個(gè)父節(jié)點(diǎn)與子節(jié)點(diǎn)直接關(guān)聯(lián)起來(lái);及vii)重復(fù)步驟i)至vi),直至已經(jīng)后序遍歷所有節(jié)點(diǎn)。
由于定量相關(guān)規(guī)則的在線挖掘的有效性能,此處描述的計(jì)算上有效的方案允許在一個(gè)數(shù)據(jù)庫(kù)上在線查詢(xún)以便利用用戶(hù)提供的支持度水平和信任度水平作為預(yù)測(cè)器來(lái)估價(jià)相關(guān)規(guī)則的能力,并發(fā)現(xiàn)新的定量相關(guān)規(guī)則。一個(gè)相關(guān)規(guī)則一般可以定義為一個(gè)條件聲明,它認(rèn)定在它的兩個(gè)分量部分,即前趨和后繼之間存在著某些相關(guān)性。在一個(gè)定量相關(guān)規(guī)則中前趨和后繼兩者都由某些用戶(hù)規(guī)定的定量和分類(lèi)屬性的組合所組成。與所建議的規(guī)則一起,用戶(hù)提供三個(gè)附加輸入,用于表示用戶(hù)有興趣的信任度和支持度水平及稱(chēng)為興趣水平的值。這些輸入提供一個(gè)由用戶(hù)建議的(用戶(hù)查詢(xún))規(guī)則的能力的標(biāo)示,換言之,即認(rèn)定的由用戶(hù)查詢(xún)確定的前趨和后繼之間的相關(guān)性的能力。
為執(zhí)行此方案,描述了一種方法,它利用前趨屬性以便劃分?jǐn)?shù)據(jù)從而建立一個(gè)多量綱索引結(jié)構(gòu),因此將原始數(shù)據(jù)預(yù)處理,再后繼以一個(gè)在線規(guī)則生成步驟。通過(guò)有效地將數(shù)據(jù)預(yù)處理為一個(gè)索引結(jié)構(gòu),就有一種形式適合于回答重復(fù)的在線查詢(xún)而其響應(yīng)時(shí)間幾乎是瞬時(shí)的。一旦建立以后,該索引結(jié)構(gòu)就不再需要在數(shù)據(jù)庫(kù)上多次搜索。該索引結(jié)構(gòu)創(chuàng)造了比先前技術(shù)優(yōu)越性能的優(yōu)點(diǎn)。索引結(jié)構(gòu)(預(yù)處理數(shù)據(jù))以這種方式存儲(chǔ),以便應(yīng)用一種圖理論搜索算法來(lái)完成在線處理,其中該算法的復(fù)雜程度正比于輸出的大小。此導(dǎo)致一種在線算法,它的響應(yīng)時(shí)間幾乎是瞬時(shí)的,并且I/O或計(jì)算的多余工作量是最小的。
將參照附圖通過(guò)例子詳細(xì)地描述根據(jù)本發(fā)明的定量相關(guān)規(guī)則的在線數(shù)據(jù)挖掘方法,附圖中

圖1是一個(gè)計(jì)算機(jī)網(wǎng)絡(luò)的全面描述;
圖2是一種數(shù)據(jù)挖掘方法的全面描述,該方法包括由圖2(a)和圖2(b)描述的兩個(gè)階段。圖2(a)描述預(yù)處理階段。圖2(b)描述算法的在線階段;圖3詳細(xì)地描述如何使用前趨組來(lái)構(gòu)作索引樹(shù)??梢哉J(rèn)為它是圖2(a)中步驟75的擴(kuò)展;圖4詳細(xì)地描述如何從索引樹(shù)中生成非合并規(guī)則樹(shù)。可以認(rèn)為它是圖2(b)中步驟100的擴(kuò)展;圖5描述如何從非合并規(guī)則樹(shù)中建立合并規(guī)則樹(shù);及圖6描述如何在某些用戶(hù)規(guī)定的興趣水平r上從合并規(guī)則樹(shù)中生成定量相關(guān)規(guī)則。
傳統(tǒng)的數(shù)據(jù)庫(kù)查詢(xún)包括簡(jiǎn)單問(wèn)題,例如“1995年在長(zhǎng)島地區(qū)橙汁的銷(xiāo)量如何?”。與此相反,數(shù)據(jù)挖掘試圖在數(shù)據(jù)中找出可分辨的模式和趨向并從這些模式中推斷出規(guī)則。依靠這些規(guī)則,用戶(hù)就能夠支持,查閱和檢查某些有關(guān)的商務(wù)或科學(xué)領(lǐng)域內(nèi)的決策。例如考慮一個(gè)具有大量商品的超市。通常與操作有關(guān)的商務(wù)決策涉及銷(xiāo)售什么,如何設(shè)計(jì)售貨券和如何在架上擺放商品以便獲取最大利潤(rùn)等。分析過(guò)去的事務(wù)數(shù)據(jù)是常用的改進(jìn)這類(lèi)決策質(zhì)量的方案。先進(jìn)技術(shù)有可能存儲(chǔ)所謂basket數(shù)據(jù),它在每件事務(wù)的基礎(chǔ)上存儲(chǔ)購(gòu)買(mǎi)的商品。公司大量收集這類(lèi)數(shù)據(jù)。問(wèn)題是在具有某些最小規(guī)定信任度的商品組之間“挖掘”相關(guān)規(guī)則的basket型事務(wù)的大量收集內(nèi)容。給定一組事務(wù),其中每個(gè)事務(wù)是一組商品,相關(guān)規(guī)則是X=>Y形式的表達(dá)式,其中X和Y是商品組。相關(guān)規(guī)則的一個(gè)例子是“包含啤酒的事務(wù)的30%也包含花紋織物;所有事務(wù)的2%包含這兩個(gè)商品”。此處30%稱(chēng)為此規(guī)則的信任度,及2%稱(chēng)為此規(guī)則的支持度。
這類(lèi)相關(guān)規(guī)則的另一個(gè)例子是以下聲明購(gòu)買(mǎi)面包和黃油的顧客事務(wù)的90%也購(gòu)買(mǎi)牛奶。此規(guī)則的前趨X包含面包和黃油及后繼Y包含牛奶一件。90%是該規(guī)則的信任系數(shù)??赡芟M缯页鲈谇摆呏芯哂小坝裁姘Α钡乃幸?guī)則,這將有助于確定如果該商店停止出售硬面包圈,什么商品(后繼)可能受沖擊。
給定一組原始事務(wù)D,挖掘相關(guān)規(guī)則的問(wèn)題是找出其支持度和信任度大于用戶(hù)規(guī)定的最小支持度(minsupport,s)和最小信任度(minconfidence,c)的所有規(guī)則。一般而言,規(guī)則X=>Y的支持度是顧客事務(wù)的百分比,或在一般化數(shù)據(jù)庫(kù)中的包含X和Y兩者的維數(shù)。在更正規(guī)的算術(shù)名詞中,如事務(wù)組D中事務(wù)的s%包含X并集Y,即XVY,則規(guī)則X=>Y在事務(wù)組D中具有支持度s。規(guī)則X=>Y的信任度定義為包含X的事務(wù)中還包含Y的百分比?;蛘吒?guī)地,如事務(wù)組D中事務(wù)的c%既包含X又包含Y,則規(guī)則X=>Y在事務(wù)組D中具有信任度c。因此如果一個(gè)規(guī)則具有90%信任度,則這意味著90%的事務(wù)既有X也有Y。
如以上所述,一個(gè)相關(guān)規(guī)則是形式X=>Y的表達(dá)式。例如,如果itemset中X和Y分別定義為X=[牛奶和奶酪和黃油]Y=[雞蛋和火腿]則該規(guī)則可解釋為規(guī)則X=>Y,意味著在事務(wù)中給定牛奶、奶酪和黃油時(shí),在某些給定的支持度和信任度水平上在相同事務(wù)中出現(xiàn)雞蛋和火腿的概率。
規(guī)則的支持度和信任度集體地定義規(guī)則的能力。有很多方式供用戶(hù)對(duì)這一系統(tǒng)使用一個(gè)規(guī)則以便測(cè)試其能力。這類(lèi)系統(tǒng)能支持的在線查詢(xún)的種類(lèi)的不全面但有代表性的清單包括(1)找到所有在minsupport和minconfidence的一定水平以上的相關(guān)規(guī)則。
(2)在minsupport和minconfidence的一定水平上找到所有在前趨中具有商品組X的相關(guān)規(guī)則。
(3)在minsupport和minconfidence的一定水平上找到所有在后繼中具有商品組Y的相關(guān)規(guī)則。
(4)在minsupport和minconfidence的一定水平上找到或在前趨中或在后繼中或分布于前趨和后繼之間具有商品組Y的所有相關(guān)規(guī)則。
(5)找到在以上(1)、(2)、(3)、(4)的情況中的任何一個(gè)中的相關(guān)規(guī)則/itemset的數(shù)量。
(6)在什么minsupport水平上確切地存在k個(gè)包含商品組Z的itemset。
本發(fā)明將發(fā)現(xiàn)用于從包含一組由不同定量和分類(lèi)屬性確定的原始事務(wù)D的大型數(shù)據(jù)庫(kù)中找到定量規(guī)則的一般相關(guān)規(guī)則的方法具體化。
例如,一個(gè)通常的用于一般市場(chǎng)調(diào)查的定量/分類(lèi)數(shù)據(jù)庫(kù)包含一系列記錄,其中每個(gè)記錄反映顧客個(gè)性和愛(ài)好的組合;記錄(1)=年齡=21,性別=男,戶(hù)主=否記錄(2)=年齡=43,性別=男,戶(hù)主=是記錄(3)=年齡=55,性別=女,戶(hù)主=否一般而言,一個(gè)定量相關(guān)規(guī)則是一個(gè)條件,其形式如下;一般規(guī)則X1[l1..u1],X2[l2..u2],..Xk[lk.uk],Y1=c1,Y2=c2..Yr=cr=>Z1=z1,Z2=z2其中X1,X2,..Xk對(duì)應(yīng)于定量前趨屬性,及Y1,Y2,..Yr,和c對(duì)應(yīng)于分類(lèi)前趨屬性。此處[l1..u1],[l2..u2],...[lk..uk]對(duì)應(yīng)于不同定量屬性的范圍。Z1和Z2對(duì)應(yīng)于一個(gè)多后繼條件。
本發(fā)明要求用戶(hù)提供三個(gè)帶有建議的規(guī)則(或稱(chēng)為用戶(hù)查詢(xún))的具有一對(duì)前趨/后繼形式的輸入。在建議的規(guī)則之外,用戶(hù)還提供最小所需信任度值(minconfidence=c)和最小所需支持度(minsupport=s)以便測(cè)試建議的規(guī)則(用戶(hù)查詢(xún))的能力。
最小信任度和最小支持度兩者對(duì)于定量相關(guān)規(guī)則的發(fā)現(xiàn)以及對(duì)于一般相關(guān)規(guī)則的發(fā)現(xiàn)都有關(guān)系。作為一個(gè)典型用戶(hù)輸入的例子可以是
例子A典型用戶(hù)輸入1.用戶(hù)提供一個(gè)建議的規(guī)則以供測(cè)試(查詢(xún))前 趨 條件 后繼條件年齡[20-40],工資[100k-200k],性別=女=> 汽車(chē)=22.用戶(hù)為建議的規(guī)則提供一個(gè)信任度值,稱(chēng)為Minconfidence,c。
Minconfidence=50%3.用戶(hù)為建議的工資提供一個(gè)支持度值,稱(chēng)為Minsupport,s。
Minsupport=10%圖1是本發(fā)明體系結(jié)構(gòu)的全面描述。假設(shè)有多個(gè)客戶(hù)40,它們能在網(wǎng)絡(luò)35上訪問(wèn)預(yù)處理的數(shù)據(jù)。預(yù)處理的數(shù)據(jù)位于服務(wù)器5處。在服務(wù)器端,可以有一個(gè)高速緩存25與預(yù)處理的數(shù)據(jù)一起。預(yù)處理和在線處理都在CPU 10中進(jìn)行。此外,如數(shù)據(jù)存于盤(pán)上,則有一個(gè)盤(pán)15。
本發(fā)明包括兩個(gè)階段,一個(gè)預(yù)處理階段,后繼以一個(gè)在線處理階段。圖2顯示預(yù)處理步驟以及算法的在線處理(規(guī)則生成)步驟的全面描述。預(yù)處理階段涉及二叉索引樹(shù)結(jié)構(gòu)的構(gòu)作,參見(jiàn)圖2a的步驟75和圖3(a)的有關(guān)詳細(xì)描述。索引樹(shù)是一個(gè)技術(shù)上眾所周知的空間數(shù)據(jù)結(jié)構(gòu),它用作一個(gè)索引多量綱數(shù)據(jù)的手段。現(xiàn)有技術(shù)中的有關(guān)文章可在Proceedings of the ACM SIGMOD Conference中Guttman,A.的“用于空間搜索的動(dòng)態(tài)索引結(jié)構(gòu)”一文中找到。在本方法中,使用不同索引樹(shù)結(jié)構(gòu)來(lái)完成在線查詢(xún)。利用前趨屬性劃分?jǐn)?shù)據(jù)以便建立一個(gè)多量綱索引結(jié)構(gòu)。索引結(jié)構(gòu)是一個(gè)雙層結(jié)構(gòu),其中高層節(jié)點(diǎn)與最多兩個(gè)后繼節(jié)點(diǎn)相關(guān)及低層節(jié)點(diǎn)可能具有多于兩個(gè)后繼節(jié)點(diǎn)。索引結(jié)構(gòu)的構(gòu)作對(duì)于完成有效的在線數(shù)據(jù)挖掘是關(guān)鍵性的。主要優(yōu)點(diǎn)在于對(duì)用戶(hù)查詢(xún)作出響應(yīng)中所需盤(pán)I/O操作最少。
圖3(b)中以索引樹(shù)的形式顯示存于計(jì)算機(jī)存儲(chǔ)器內(nèi)的索引結(jié)構(gòu)的圖形模擬。一個(gè)索引樹(shù)是一個(gè)眾所周知的空間數(shù)據(jù)結(jié)構(gòu),用于將多量綱數(shù)據(jù)索引。在計(jì)算機(jī)存儲(chǔ)器中為每個(gè)量綱建立一個(gè)單獨(dú)的索引結(jié)構(gòu),由用戶(hù)在在線查詢(xún)中規(guī)定的具體定量屬性所確定。圖3(b)是一個(gè)索引樹(shù)結(jié)構(gòu)的特定例子,它表示前趨條件“Age”及其后繼條件“FirstTimeBuyer”。為進(jìn)一步澄清一個(gè)索引樹(shù)的概念,圖3(b)可以在下面例子中表示“Age”量綱。
例子B樣板用戶(hù)查詢(xún)前 趨 條 件 后 隨 條 件Salary[40k-85k],Age
=>FirstTimeBuyer一般而言,對(duì)于組成前趨和后繼條件的定量和分類(lèi)屬性的數(shù)量或組合并無(wú)限制。
在圖3(b)中,索引樹(shù)結(jié)構(gòu)的根節(jié)點(diǎn)確定用戶(hù)規(guī)定的定量屬性Age
。樹(shù)中每個(gè)后繼節(jié)點(diǎn)也表示定量屬性Age,但在樹(shù)層次結(jié)構(gòu)中自頂向底的過(guò)程中此屬性的范圍逐漸變窄。例如,根節(jié)點(diǎn)Age
的二叉后繼節(jié)點(diǎn)是Age
和Age[45-100]。本方法在索引樹(shù)的每個(gè)節(jié)點(diǎn)處存儲(chǔ)兩個(gè)數(shù)據(jù),用于表示感興趣的信任度和支持度水平。例如,參照?qǐng)D3(b),在根節(jié)點(diǎn)處,存儲(chǔ)的兩個(gè)數(shù)據(jù)包括1.信任度水平=50%2.支持度水平=輸入至原始數(shù)據(jù)庫(kù)中的數(shù)據(jù)的函數(shù)這些在根節(jié)點(diǎn)處確定用戶(hù)查詢(xún)的信任度和支持度,(前趨/后繼對(duì)),Age
=>FirstTimeBuyer
圖3(a)是圖2中作為元素75闡述的算法的預(yù)處理階段的詳細(xì)流程圖。此階段的過(guò)程步驟涉及生成二叉索引樹(shù)結(jié)構(gòu),在結(jié)構(gòu)的每個(gè)節(jié)點(diǎn)處存儲(chǔ)后繼屬性的支持度和信任度水平,然后在結(jié)構(gòu)的低層次上利用壓縮算法來(lái)保證索引樹(shù)能存進(jìn)可用存儲(chǔ)器中。步300是進(jìn)入預(yù)處理階段的入口點(diǎn)。步310表示用于實(shí)施過(guò)程步驟的軟件,它使用一個(gè)二叉化算法以生成一個(gè)二叉索引樹(shù)。在現(xiàn)有技術(shù)中,二叉化步驟已在下列文章中討論過(guò)AggarwalC.C.,WolfJ.,YuP.S.和EpelmanM.A.的“S樹(shù)一個(gè)用于多量綱索引樹(shù)的有效索引樹(shù)”,Symposium of Spatial databases,1997。然而,本方法與現(xiàn)有技術(shù)至少在一個(gè)方面不同。在步315,組織索引節(jié)點(diǎn)的入口方式是獨(dú)一的,也即在結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)處存儲(chǔ)了每個(gè)后繼屬性值的支持度水平和信任度水平兩者。步320表示利用一個(gè)軟件壓縮算法以將低層次索引節(jié)點(diǎn)壓縮為單個(gè)節(jié)點(diǎn)的過(guò)程步驟。
圖4(a)是圖2(b)中作為元素100描述的用于從索引樹(shù)生成非合并規(guī)則樹(shù)的初始搜索算法的詳細(xì)流程圖。該算法要求以下輸入用戶(hù)規(guī)定的minconfidence,c值,minsupport,s值,和一個(gè)包含Querybox,Q的用戶(hù)查詢(xún)及一個(gè)或多個(gè)右側(cè)值Z1=z1,Z2=z2。Querybox只是一個(gè)描述詞,用于指出用戶(hù)查詢(xún)的左側(cè)或前趨部分。為進(jìn)一步澄清Querybox的意義,下面例子C描述在本方法中要求用戶(hù)輸入什么。
例子C典型用戶(hù)輸入用戶(hù)規(guī)定(1.)一個(gè)最小信任度值[minconfidence,c](2.)一個(gè)最小支持度值[minsupport,s]此外,要求在線用戶(hù)輸入一個(gè)具有項(xiàng)目3和4內(nèi)容的一對(duì)(前趨/后繼)形式的用戶(hù)查詢(xún)(建議的規(guī)則)。
(3.)一個(gè)Querybox,"Q"[前趨](4.)Z1=z1,Z2=z2,等[后繼]
項(xiàng)目3,即Querybox,在下面例子中進(jìn)一步加以描述,并一般包含定量和分類(lèi)屬性的任何組合。項(xiàng)目4,即后繼屬性,可包含一個(gè)或多個(gè)分類(lèi)屬性。此用戶(hù)規(guī)定的查詢(xún)包含一個(gè)前趨條件querybox,它有兩個(gè)量綱,Age和Lefthandedness,及單個(gè)分類(lèi)后繼條件asmoker。
Q u e r y b o xAge
,Lefthanded==>asmoker[例子2]此用戶(hù)規(guī)定的查詢(xún)包含一個(gè)前趨條件querybox,它有兩個(gè)量綱,Height和Income,及多個(gè)后繼條件。
Q u e r y b o xHeight[5-7],Income[10k-40k]==>ownsahome,ownsacar[例子3]此用戶(hù)規(guī)定的查詢(xún)包含一個(gè)前趨條件querybox,它有一個(gè)量綱,Age,及單個(gè)后繼條件QueryboxAge[10-43]==>asmoker以上的例子C描述在本方法中由用戶(hù)提供的作為輸入的一般項(xiàng)目。下面例子D提供一個(gè)使用以上例子2中的用戶(hù)查詢(xún)的代表性例子,用于表示一個(gè)典型輸入/輸出結(jié)果看起來(lái)像例子D典型用戶(hù)輸入用戶(hù)規(guī)定作為輸入
1.minconfidence=.502.minsupport=.43.querybox(前趨條件)=Height[5-7],Income[10k-40k]4.感興趣的后繼條件=ownsahome=1,ownsacar=1從項(xiàng)目(3和4)形成用戶(hù)查詢(xún)Height[5-7],Income[10k-40k]==>ownsahome,ownsacar結(jié)果輸出生成的規(guī)則Height[5.5-6.2],Income[13k-27.4k]==>ownsahome=1,ownsacar=1一般而言,可以設(shè)想該輸出可以不生成任何規(guī)則,可以生成一個(gè)規(guī)則或多個(gè)規(guī)則。在上面的例子中生成了一個(gè)規(guī)則。生成的規(guī)則被認(rèn)為能分別在用戶(hù)規(guī)定的信任度和支持度水平0.5和0.4上(前趨/后繼對(duì))滿(mǎn)足用戶(hù)查詢(xún)。
用于從索引樹(shù)生成非合并規(guī)則樹(shù)的算法由圖4(a)確定,它在索引樹(shù)中逐個(gè)節(jié)點(diǎn)地搜索所有節(jié)點(diǎn)。步400是進(jìn)入初始搜索算法的進(jìn)入點(diǎn)。步410表示設(shè)置一個(gè)指向索引樹(shù)的根節(jié)點(diǎn)的指針Currentnode的過(guò)程步驟。指針Currentnode始終指向該算法正在搜索的索引樹(shù)中的特定節(jié)點(diǎn)。步420將LIST確定為一組節(jié)點(diǎn),它們被認(rèn)為將被搜索算法掃描的合格節(jié)點(diǎn)。在步420中將LIST初始化以便只包含根節(jié)點(diǎn)。步430表示以下過(guò)程把由Currentnode指向的節(jié)點(diǎn)的所有子節(jié)點(diǎn)都加入LIST中,它與Querybox,Q相交,并具有一個(gè)至少等于用戶(hù)提供的輸入值minsupport,s的支持度。當(dāng)所有與子節(jié)點(diǎn)相關(guān)的前趨條件全部包含于由Querybox確定的前趨條件中時(shí),該子節(jié)點(diǎn)即認(rèn)為是與Querybox,Q相交。步440是一個(gè)判定步驟,用于判定包含于CurrentNode中的個(gè)別數(shù)據(jù)記錄是否至少在時(shí)間百分比c時(shí)滿(mǎn)足后繼條件Z1=z1,Z2=z2。如步440的條件可以滿(mǎn)足,則算法進(jìn)至步445。步445生成對(duì)應(yīng)于右側(cè)屬性,后繼條件組的規(guī)則。步450跟隨于步440和445之后,并表示以下過(guò)程步驟從LIST內(nèi)刪除Currentnode現(xiàn)正指向的節(jié)點(diǎn)并將指針Currentnode設(shè)置為指向LIST內(nèi)包含的下一個(gè)節(jié)點(diǎn)。步460判定LIST是否為空,并當(dāng)滿(mǎn)足該判定條件時(shí)結(jié)束該算法,見(jiàn)步470。否則,算法回至步430,并為由指針CurrentNode現(xiàn)正指向的節(jié)點(diǎn)重復(fù)以上步驟。在結(jié)束算法后,輸出一個(gè)非合并規(guī)則樹(shù),它包含輸入索引樹(shù)中所的有滿(mǎn)足用戶(hù)規(guī)定的最小支持度minsupport,s的節(jié)點(diǎn)。
圖5(a)是描述從非合并規(guī)則樹(shù)中構(gòu)作合并規(guī)則樹(shù)的過(guò)程的詳細(xì)流程圖。該流程圖所描述的算法將非合并規(guī)則樹(shù)壓縮以便獲得一個(gè)規(guī)則的層次結(jié)構(gòu)表示。按照深度優(yōu)先順序遍歷非合并規(guī)則樹(shù),其中在每個(gè)節(jié)點(diǎn)處判定該節(jié)點(diǎn)是否有意義。有意義節(jié)點(diǎn)被確定為一個(gè)具有一個(gè)與其相關(guān)的規(guī)則的節(jié)點(diǎn)。當(dāng)建立非合并規(guī)則樹(shù)時(shí),一個(gè)規(guī)則不一定與一個(gè)節(jié)點(diǎn)相關(guān)連。為進(jìn)一步澄清有意義節(jié)點(diǎn)與無(wú)意義節(jié)點(diǎn)之間的區(qū)別,回來(lái)參照?qǐng)D4(b)的非合并規(guī)則樹(shù),其中有意義節(jié)點(diǎn)對(duì)應(yīng)于節(jié)點(diǎn)1、2和4。所有有意義節(jié)點(diǎn)都保留在合并規(guī)則樹(shù)中。如一個(gè)節(jié)點(diǎn)被判定為無(wú)意義,則該算法或者消除該節(jié)點(diǎn),或者當(dāng)滿(mǎn)足一定條件時(shí)將多個(gè)子節(jié)點(diǎn)合并為單個(gè)節(jié)點(diǎn)。
步500表示進(jìn)入算法的進(jìn)入點(diǎn)。步510表示用于實(shí)現(xiàn)按照深度優(yōu)先順序遍歷非合并規(guī)則樹(shù)的過(guò)程步驟的軟件。步515表示在深度優(yōu)先遍歷時(shí)在非合并規(guī)則樹(shù)中進(jìn)至下一個(gè)節(jié)點(diǎn)的步驟。步520表示一個(gè)判定步驟,用于判定現(xiàn)有規(guī)則節(jié)點(diǎn)是否為一個(gè)有意義節(jié)點(diǎn)。當(dāng)判定現(xiàn)有節(jié)點(diǎn)是有意義時(shí)步530有一個(gè)轉(zhuǎn)移。否則算法轉(zhuǎn)移至步540,從而將節(jié)點(diǎn)定為無(wú)意義。步540是一個(gè)判定步驟,用于判定該無(wú)意義節(jié)點(diǎn)是否有一個(gè)子節(jié)點(diǎn)。如該無(wú)意義節(jié)點(diǎn)沒(méi)有子節(jié)點(diǎn),則轉(zhuǎn)移至步550。步550表示將現(xiàn)有的無(wú)意義節(jié)點(diǎn)刪除的過(guò)程步驟。否則,在步540中如判定現(xiàn)有節(jié)點(diǎn)的確有一個(gè)子節(jié)點(diǎn),則將轉(zhuǎn)移至步560。步560是一個(gè)判定步驟,用于判定現(xiàn)有無(wú)意義節(jié)點(diǎn)是否有一個(gè)或多個(gè)子節(jié)點(diǎn)。如現(xiàn)有節(jié)點(diǎn)只有單個(gè)子節(jié)點(diǎn),則轉(zhuǎn)移至步570。步570表示用于實(shí)施以下過(guò)程步驟的軟件在索引樹(shù)中刪除現(xiàn)有節(jié)點(diǎn)及將所刪除的無(wú)意義節(jié)點(diǎn)的父節(jié)點(diǎn)和子節(jié)點(diǎn)直接連接起來(lái)。否則,在現(xiàn)有節(jié)點(diǎn)具有多個(gè)子節(jié)點(diǎn)的情況下,轉(zhuǎn)移至步580。步580是一個(gè)判定步驟,用于判定該兩個(gè)子節(jié)點(diǎn)的最小界限矩形是否大于無(wú)意義父節(jié)點(diǎn)。最小界限矩形由每個(gè)子節(jié)點(diǎn)的定量屬性的上和下界限(范圍)確定。當(dāng)子節(jié)點(diǎn)的范圍合并起來(lái)并且比父節(jié)點(diǎn)的范圍更寬時(shí),發(fā)生合并。例如,如子節(jié)點(diǎn)曾確定為子節(jié)點(diǎn)1-age[10-20]子節(jié)點(diǎn)2-age[30-40]及相應(yīng)的父節(jié)點(diǎn)曾確定為父節(jié)點(diǎn)-age[10-30]則在此例子中發(fā)生合并,因?yàn)樽庸?jié)點(diǎn)屬性范圍的組合產(chǎn)生一個(gè)組合的范圍[10-40],這比父節(jié)點(diǎn)規(guī)定的范圍[10-30]寬。
如兩個(gè)子節(jié)點(diǎn)的最小界限矩形超過(guò)父節(jié)點(diǎn)的最小界限矩形,則轉(zhuǎn)移至步590。步590表示用于完成將父節(jié)點(diǎn)的最小界限矩形調(diào)整為兩個(gè)子節(jié)點(diǎn)的最小界限矩形的過(guò)程步驟的軟件。轉(zhuǎn)移至判定步600,從而判定在該樹(shù)中是否還有任何節(jié)點(diǎn)需要遍歷。如沒(méi)有更多節(jié)點(diǎn)需要遍歷,則轉(zhuǎn)移至結(jié)束步驟610,否則為其余索引節(jié)點(diǎn)重復(fù)過(guò)程步驟490-515。
圖6是描述在用戶(hù)規(guī)定的興趣水平r上使用合并規(guī)則樹(shù)作為輸入以確定各規(guī)則的過(guò)程的詳細(xì)流程圖。按照深度優(yōu)先順序遍歷合并規(guī)則樹(shù)。步616是進(jìn)入流程圖的進(jìn)入點(diǎn)。用戶(hù)規(guī)定r的一個(gè)輸入值以表示興趣水平。步618表示按照深度優(yōu)先順序在合并規(guī)則樹(shù)中選擇下一個(gè)節(jié)點(diǎn)。步620是一個(gè)判定步驟,表示查看現(xiàn)有感興趣節(jié)點(diǎn)的所有父節(jié)點(diǎn)以便判定是否它們之中任何一個(gè)具有至少等于現(xiàn)有節(jié)點(diǎn)的1/r的信任度值。當(dāng)條件為真時(shí),轉(zhuǎn)移至步630。步630表示剪裁(prune)與現(xiàn)有節(jié)點(diǎn)相關(guān)的規(guī)則。如不滿(mǎn)足該條件,則轉(zhuǎn)移至步640。步640是一個(gè)判定步驟,用于判定在合并規(guī)則樹(shù)中是否還有任何剩余節(jié)點(diǎn)需要估價(jià)。如還有多余節(jié)點(diǎn)需要估價(jià)則重復(fù)這些過(guò)程步驟,否則過(guò)程在此點(diǎn)結(jié)束。
總起來(lái)說(shuō),提供了在線挖掘數(shù)據(jù)的數(shù)據(jù)項(xiàng)目以便找到定量相關(guān)規(guī)則的方法,其中數(shù)據(jù)項(xiàng)目包括不同類(lèi)型的定量和分類(lèi)屬性。
權(quán)利要求
1.一種在線挖掘具有多個(gè)記錄的大型數(shù)據(jù)庫(kù)的方法,每個(gè)記錄具有多個(gè)定量和分類(lèi)項(xiàng)目以提供定量相關(guān)規(guī)則,所述方法包括以下步驟a)接收一個(gè)用戶(hù)確定的最小信任度值,一個(gè)用戶(hù)確定的最小支持度值,一個(gè)用戶(hù)確定的興趣水平值和一個(gè)包括前趨和后繼屬性的用戶(hù)查詢(xún);b)組織所述前趨與后繼屬性之間的關(guān)系;c)預(yù)先存儲(chǔ)用于確定所述前趨屬性及與所述后繼屬性有關(guān)的數(shù)據(jù)之間的關(guān)系的數(shù)據(jù);及d)響應(yīng)于所述用戶(hù)查詢(xún),從所述預(yù)先存儲(chǔ)的數(shù)據(jù)中獲得一個(gè)答案。
2.權(quán)利要求1的方法,其中所述答案包括一個(gè)或多個(gè)定量相關(guān)規(guī)則,一個(gè)與每個(gè)規(guī)則相關(guān)的實(shí)際信任度值,一個(gè)與每個(gè)規(guī)則相關(guān)的實(shí)際支持度值和一個(gè)與每個(gè)規(guī)則相關(guān)的興趣水平。
3.權(quán)利要求2的方法,其中所述一個(gè)或多個(gè)定量相關(guān)規(guī)則只包含其計(jì)算的興趣水平至少等于所述用戶(hù)確定的興趣水平的那些規(guī)則。
4.任何先前權(quán)利要求的方法,其中所述興趣水平確定為第一和第二計(jì)算的比例的最小值,其中所述第一比例確定為實(shí)際信任度除以預(yù)期信任度及第二比例確定為實(shí)際支持度除以預(yù)期支持度,其中所述預(yù)期信任度和支持度是基于統(tǒng)計(jì)獨(dú)立性的推斷的計(jì)算值。
5.任何先前權(quán)利要求的方法,其中所述前趨屬性包括分類(lèi)和定量屬性。
6.權(quán)利要求5的方法,其中所述定量屬性進(jìn)一步由一個(gè)包含低界限和高界限的范圍所確定。
7.任何先前權(quán)利要求的方法,其中所述組織步驟包括將所述前趨數(shù)據(jù)按照層次結(jié)構(gòu)劃分為一個(gè)索引樹(shù)的步驟,其中所述索引樹(shù)包括多個(gè)索引節(jié)點(diǎn)。
8.權(quán)利要求7的方法,其中將所述前趨數(shù)據(jù)按照層次結(jié)構(gòu)劃分為一個(gè)索引樹(shù)的步驟包括以下步驟a)在所述索引樹(shù)的每個(gè)索引節(jié)點(diǎn)處存儲(chǔ)用于表示實(shí)際支持度的第一值;及b)在所述索引樹(shù)的每個(gè)索引節(jié)點(diǎn)處存儲(chǔ)用于表示每個(gè)用戶(hù)查詢(xún)后繼屬性的出現(xiàn)頻度的第二值。
9.權(quán)利要求7或8的方法,其中所述獲得步驟包括以下步驟i)搜索所述索引樹(shù)的所有索引節(jié)點(diǎn)以便找出其前趨屬性范圍對(duì)應(yīng)于所述用戶(hù)查詢(xún)前趨屬性范圍的那些節(jié)點(diǎn);ii)從步驟i)中所找出的節(jié)點(diǎn)中選擇其后繼屬性至少等于所述用戶(hù)確定的最小信任度值的那些節(jié)點(diǎn);及iii)使用步驟ii)中找出的節(jié)點(diǎn)來(lái)建立合并樹(shù)。
10.權(quán)利要求9的方法,其中建立步驟還包括刪除無(wú)意義節(jié)點(diǎn)和組合其他節(jié)點(diǎn)以建立所述合并樹(shù)的步驟。
11.權(quán)利要求10的方法,其中一個(gè)無(wú)意義節(jié)點(diǎn)是一個(gè)沒(méi)有一個(gè)至少等于所述用戶(hù)確定的最小信任度值的相應(yīng)計(jì)算的信任度值的節(jié)點(diǎn)。
12.權(quán)利要求9,10或11的方法,其中合并樹(shù)可以或者為單個(gè)或者為多個(gè)后繼屬性而建立。
13.權(quán)利要求1的方法,其中所述接收步驟包括向一個(gè)計(jì)算機(jī)輸入包括一個(gè)用戶(hù)確定的最小支持度值,一個(gè)用戶(hù)確定的最小信任度值,一個(gè)用戶(hù)確定的興趣值和一個(gè)包括一個(gè)前趨和后繼條件的用戶(hù)查詢(xún)的數(shù)據(jù)的步驟,其中所述前趨和后繼條件還包括多個(gè)定量和分類(lèi)屬性;所述組織和預(yù)先存儲(chǔ)步驟包括在存儲(chǔ)器內(nèi)構(gòu)作一個(gè)包括一個(gè)或多個(gè)量綱的索引樹(shù)的步驟;在存儲(chǔ)器內(nèi)從所述索引樹(shù)構(gòu)作一個(gè)非合并規(guī)則樹(shù)的步驟和從所述非合并規(guī)則樹(shù)構(gòu)作一個(gè)合并規(guī)則樹(shù)的步驟;其中每個(gè)量綱由包含于所述前趨條件中的用戶(hù)提供的定量屬性中之一確定,所述索引樹(shù)包含多個(gè)索引節(jié)點(diǎn),其中所述索引節(jié)點(diǎn)包含多個(gè)數(shù)據(jù)記錄;及所述獲得步驟包括以下步驟從滿(mǎn)足所述用戶(hù)查詢(xún)及其支持度至少等于所述最小支持度及其信任度至少等于所述最小信任度的那些索引節(jié)點(diǎn)中生成一個(gè)或多個(gè)定量相關(guān)規(guī)則;及向用戶(hù)顯示包含以下內(nèi)容的輸出數(shù)據(jù)來(lái)自生成步驟的所述定量相關(guān)規(guī)則;與每個(gè)生成的定量相關(guān)規(guī)則有關(guān)的一個(gè)實(shí)際信任度值;與每個(gè)生成的定量相關(guān)規(guī)則有關(guān)的一個(gè)支持度值;及與每個(gè)生成的定量相關(guān)規(guī)則有關(guān)的一個(gè)興趣水平值。
14.權(quán)利要求13的方法,其中重復(fù)執(zhí)行生成一個(gè)或多個(gè)定量相關(guān)規(guī)則的步驟以便交互地修改所述用戶(hù)查詢(xún)從而進(jìn)一步確定所述相關(guān)規(guī)則。
15.權(quán)利要求13或14的方法,其中構(gòu)作一個(gè)索引樹(shù)的步驟包括以下步驟構(gòu)作一個(gè)具有一個(gè)或多個(gè)量綱的二叉索引樹(shù),其中每個(gè)量綱由所述用戶(hù)提供的定量前趨屬性中之一所確定;及在每個(gè)索引節(jié)點(diǎn)處存儲(chǔ)所述支持度水平和信任度水平。
16.權(quán)利要求13,14或15的方法,其中構(gòu)作一個(gè)非合并規(guī)則樹(shù)的步驟包括以下步驟搜索所述索引樹(shù)的每個(gè)節(jié)點(diǎn);及選擇那些包含能滿(mǎn)足用戶(hù)規(guī)定的后繼條件的規(guī)則的及其信任度至少等于所述用戶(hù)確定的最小信任度值的及其支持度值至少等于所述用戶(hù)確定的最小支持度值的節(jié)點(diǎn)。
17.權(quán)利要求16的方法,其中選擇那些包含能滿(mǎn)足用戶(hù)規(guī)定的后繼條件的規(guī)則的節(jié)點(diǎn)的步驟包括以下步驟構(gòu)作一個(gè)指針;將所述指針指向所述索引樹(shù)中的根節(jié)點(diǎn);將與所述指針相關(guān)的所述節(jié)點(diǎn)增加至一個(gè)表中;將由所述指針?biāo)赶虻?、具有完全包含于所述用?hù)規(guī)定的前趨屬性參數(shù)內(nèi)的前趨屬性的、和具有至少等于所述用戶(hù)確定的最小支持度的最小支持度值的節(jié)點(diǎn)的所有子節(jié)點(diǎn)增加至表中;判定存儲(chǔ)于所述指針?biāo)赶虻墓?jié)點(diǎn)中的數(shù)據(jù)記錄是否至少等于用戶(hù)規(guī)定的后繼條件和具有一個(gè)至少等于所述用戶(hù)確定的最小信任度的信任度;生成一個(gè)與所述后繼條件相關(guān)的定量相關(guān)規(guī)則;當(dāng)無(wú)法滿(mǎn)足先前步驟的條件時(shí),從所述表中刪除所述節(jié)點(diǎn);判定所述表是否為空;及當(dāng)所述表為空時(shí)結(jié)束,否則將所述指針指向所述索引樹(shù)的下一個(gè)節(jié)點(diǎn),并從所述將與所述指針相關(guān)的節(jié)點(diǎn)增加至表中的步驟開(kāi)始向前重復(fù)以上步驟。
18.權(quán)利要求13至17中任何一個(gè)的方法,其中建立一個(gè)合并規(guī)則樹(shù)的步驟包括以下步驟a)后序遍歷非合并規(guī)則樹(shù)的每個(gè)節(jié)點(diǎn);b)通過(guò)以下步驟估價(jià)每個(gè)遍歷的節(jié)點(diǎn)以便將它包含于非合并規(guī)則樹(shù)中或?qū)⑺懦齣)判定每個(gè)所述用戶(hù)確定的后繼屬性值是否大于存于所述節(jié)點(diǎn)中的后繼屬性值;ii)當(dāng)滿(mǎn)足(i)的條件時(shí),保留所述合并規(guī)則樹(shù)中的所述節(jié)點(diǎn);iii)當(dāng)無(wú)法滿(mǎn)足(i)的條件和所述節(jié)點(diǎn)沒(méi)有相關(guān)的子節(jié)點(diǎn)時(shí),將所述節(jié)點(diǎn)從所述合并規(guī)則樹(shù)中刪除;iv)當(dāng)無(wú)法滿(mǎn)足(i)的條件和所述節(jié)點(diǎn)具有一個(gè)子節(jié)點(diǎn)時(shí),將所述節(jié)點(diǎn)從所述合并規(guī)則樹(shù)中刪除并將所述刪除的節(jié)點(diǎn)的一個(gè)父節(jié)點(diǎn)和子節(jié)點(diǎn)直接關(guān)聯(lián)起來(lái);及v)當(dāng)無(wú)法滿(mǎn)足(i)的條件時(shí),調(diào)整所述后繼屬性的范圍;其中重復(fù)所述估價(jià)步驟直至已經(jīng)后序遍歷所有節(jié)點(diǎn)。
19.一種在線挖掘具有多個(gè)記錄的大型數(shù)據(jù)庫(kù)的設(shè)備,每個(gè)記錄具有多個(gè)定量和分類(lèi)項(xiàng)目以提供定量相關(guān)規(guī)則,所述設(shè)備包括a)用于接收一個(gè)用戶(hù)確定的最小信任度值,一個(gè)用戶(hù)確定的最小支持度值,一個(gè)用戶(hù)確定的興趣水平值和一個(gè)包括前趨和后繼屬性的用戶(hù)查詢(xún)的裝置;b)用于組織所述前趨與后繼屬性之間的關(guān)系的裝置;c)用于預(yù)先存儲(chǔ)用于確定所述前趨屬性及與所述后繼屬性有關(guān)的數(shù)據(jù)之間的關(guān)系的數(shù)據(jù)的存儲(chǔ)器;及d)響應(yīng)于所述用戶(hù)查詢(xún),用于從所述預(yù)先存儲(chǔ)的數(shù)據(jù)中獲得一個(gè)答案的裝置。
全文摘要
提供的計(jì)算機(jī)方法用于在線挖掘定量相關(guān)規(guī)則,它具有兩個(gè)階段,一個(gè)預(yù)處理階段隨之以一個(gè)在線規(guī)則生成階段。預(yù)處理階段可以減少所需計(jì)算量,預(yù)處理階段用于預(yù)先處理數(shù)據(jù)以便組織前趨屬性之間的關(guān)系而建立一個(gè)按照層次結(jié)構(gòu)排列的多量綱索引結(jié)構(gòu)。所得結(jié)構(gòu)便于完成第二階段即在線處理,它涉及定量相關(guān)規(guī)則的生成。第二階段,即在線規(guī)則的生成,利用由預(yù)處理階段所建立的多量綱索引結(jié)構(gòu),首先找到對(duì)應(yīng)于規(guī)則的數(shù)據(jù)區(qū),然后使用一個(gè)合并步驟來(lái)建立一個(gè)合并樹(shù)以便小心地合并感興趣區(qū)域從而給出規(guī)則集的層次結(jié)構(gòu)表示。合并樹(shù)然后用于實(shí)際地生成這些規(guī)則。
文檔編號(hào)G06F19/00GK1278345SQ9881086
公開(kāi)日2000年12月27日 申請(qǐng)日期1998年9月29日 優(yōu)先權(quán)日1997年11月4日
發(fā)明者錢(qián)德雷·阿加沃, 俞士綸 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1