亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

項(xiàng)集挖掘方法及裝置的制造方法

文檔序號(hào):10665783閱讀:609來(lái)源:國(guó)知局
項(xiàng)集挖掘方法及裝置的制造方法【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種項(xiàng)集挖掘方法及裝置,屬于數(shù)據(jù)挖掘領(lǐng)域。所述方法包括:獲取自定義的權(quán)重和最低期望權(quán)重閾值ε;根據(jù)數(shù)據(jù)項(xiàng)的發(fā)生概率和權(quán)重,計(jì)算不確定性數(shù)據(jù)庫(kù)D中的項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,將iubwp≥|D|*ε的項(xiàng)集挖掘?yàn)楦咂谕麢?quán)重上限項(xiàng)集HUBEWI;計(jì)算每個(gè)HUBEWI的期望權(quán)重支持度expWSup,將expWSup≥|D|*ε的HUBEWI挖掘?yàn)楦邫?quán)重項(xiàng)集HEWI。本發(fā)明通過(guò)計(jì)算項(xiàng)集的項(xiàng)權(quán)重概率上限得到高期望權(quán)重上限項(xiàng)集,再計(jì)算高期望權(quán)重上限項(xiàng)集的期望權(quán)重支持度獲取高權(quán)重項(xiàng)集,以少量計(jì)算量先挖掘出高期望權(quán)重上限項(xiàng)集作為候選項(xiàng)集,縮小高權(quán)重項(xiàng)集的挖掘范圍,解決了挖掘高權(quán)重項(xiàng)集只能處理精確數(shù)據(jù),尚無(wú)針對(duì)不確定性數(shù)據(jù)庫(kù)的高權(quán)重項(xiàng)集挖掘技術(shù)的問(wèn)題,達(dá)到了提高挖掘的效能的效果?!緦?zhuān)利說(shuō)明】項(xiàng)集挖掘方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種項(xiàng)集挖掘方法及裝置?!?br>背景技術(shù)
】[0002]不確定性數(shù)據(jù)庫(kù)(英文〖uncertaindatabase)中通常包括有至少一個(gè)事務(wù)(英文:transaction),每個(gè)事務(wù)中包括至少一個(gè)數(shù)據(jù)項(xiàng)(英文:item),比如,一條關(guān)于天氣記錄的事務(wù)中,包括天氣類(lèi)型、濕度和溫度等數(shù)據(jù)項(xiàng)。每個(gè)數(shù)據(jù)項(xiàng)有各自對(duì)應(yīng)的發(fā)生概率。[0003]目前現(xiàn)有的一種數(shù)據(jù)挖掘方法中,用戶自定義對(duì)每個(gè)數(shù)據(jù)項(xiàng)的權(quán)重,然后根據(jù)每個(gè)數(shù)據(jù)項(xiàng)的權(quán)重,從精確數(shù)據(jù)庫(kù)中的各個(gè)數(shù)據(jù)項(xiàng)集(itemset)中挖掘高頻繁權(quán)重項(xiàng)集(英文:HighFrequentWeightedItemset,簡(jiǎn)稱(chēng):HFWI)。項(xiàng)集是由至少一個(gè)數(shù)據(jù)項(xiàng)構(gòu)成的集合,用于表征精確數(shù)據(jù)庫(kù)中內(nèi)在的一種關(guān)聯(lián)規(guī)則。[0004]在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問(wèn)題:目前的相關(guān)數(shù)據(jù)挖掘方法,只能處理精確數(shù)據(jù),并沒(méi)考慮到現(xiàn)實(shí)應(yīng)用中普遍存在的不確定性數(shù)據(jù),尚無(wú)能有效處理不確定性數(shù)據(jù)的高權(quán)重項(xiàng)集挖掘技術(shù)的提出,而且需要計(jì)算每個(gè)數(shù)據(jù)項(xiàng)集的期望權(quán)重支持度,計(jì)算量較大,從而導(dǎo)致挖掘高權(quán)重項(xiàng)集的效率較低,占用了計(jì)算機(jī)的大量處理內(nèi)存?!?br/>發(fā)明內(nèi)容】[0005]為了解決無(wú)法針對(duì)不確定性數(shù)據(jù)挖掘高權(quán)重項(xiàng)集的問(wèn)題,本發(fā)明實(shí)施例提供了一種項(xiàng)集挖掘方法及裝置。所述技術(shù)方案如下:[0006]第一方面,提供了一種項(xiàng)集挖掘方法,該方法包括:[0007]獲取自定義的權(quán)重和最低期望權(quán)重閾值ε,該權(quán)重是不確定性數(shù)據(jù)庫(kù)D中的數(shù)據(jù)項(xiàng)所對(duì)應(yīng)的權(quán)重,該不確定性數(shù)據(jù)庫(kù)D包括至少一個(gè)事務(wù),每個(gè)事務(wù)包括至少一個(gè)數(shù)據(jù)項(xiàng);[0008]根據(jù)該數(shù)據(jù)項(xiàng)的發(fā)生概率和該權(quán)重,計(jì)算該不確定性數(shù)據(jù)庫(kù)D中的候選項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,將該iubwp彡|D|*ε的項(xiàng)集挖掘?yàn)楦咂谕麢?quán)重上限項(xiàng)集HUBEWI;該項(xiàng)集是包括至少一個(gè)數(shù)據(jù)項(xiàng)的集合,該|D|是該不確定性數(shù)據(jù)庫(kù)D中的事務(wù)總數(shù);[0009]計(jì)算每個(gè)HUBEWI的期望權(quán)重支持度expWSup,將該expWSup多該|D|*ε的HUBEWI挖掘?yàn)楦邫?quán)重項(xiàng)集HEWI。[0010]第二方面,提供了一種項(xiàng)集挖掘裝置,該裝置包括:[0011]獲取模塊,用于獲取自定義的權(quán)重和最低期望權(quán)重閾值ε,該權(quán)重是不確定性數(shù)據(jù)庫(kù)D中的數(shù)據(jù)項(xiàng)所對(duì)應(yīng)的權(quán)重,該不確定性數(shù)據(jù)庫(kù)D包括至少一個(gè)事務(wù),每個(gè)事務(wù)包括至少一個(gè)數(shù)據(jù)項(xiàng);[0012]第一計(jì)算模塊,用于根據(jù)該數(shù)據(jù)項(xiàng)的發(fā)生概率和該權(quán)重,計(jì)算該不確定性數(shù)據(jù)庫(kù)D中的項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,將該iubwp彡|D|*ε的項(xiàng)集挖掘?yàn)楦咂谕麢?quán)重上限項(xiàng)集HUBEWI;該項(xiàng)集是包括至少一個(gè)數(shù)據(jù)項(xiàng)的集合,該|D|是該不確定性數(shù)據(jù)庫(kù)D中的事務(wù)總數(shù);[0013]第二計(jì)算模塊,用于計(jì)算每個(gè)HUBEWI的期望權(quán)重支持度expWSup,將該expWSup彡該IDI*ε的HUBEWI挖掘?yàn)楦邫?quán)重項(xiàng)集HEWI。[0014]本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果是:[0015]通過(guò)計(jì)算各個(gè)項(xiàng)集的項(xiàng)權(quán)重概率上限得到高期望權(quán)重上限項(xiàng)集,再計(jì)算高期望權(quán)重上限項(xiàng)集的期望權(quán)重支持度來(lái)獲取高權(quán)重項(xiàng)集,以少量計(jì)算量先挖掘出高期望權(quán)重上限項(xiàng)集作為候選項(xiàng)集,從而縮小高權(quán)重項(xiàng)集的挖掘范圍,解決了現(xiàn)有技術(shù)中挖掘高權(quán)重項(xiàng)集只能處理精確數(shù)據(jù),尚無(wú)針對(duì)不確定性數(shù)據(jù)庫(kù)的高權(quán)重項(xiàng)集挖掘技術(shù)的問(wèn)題,達(dá)到了提高挖掘的效能的效果?!靖綀D說(shuō)明】[0016]為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0017]圖1示出了本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖;[0018]圖2Α示出了本發(fā)明另一個(gè)實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖;[0019]圖2Β示出了本發(fā)明另一個(gè)實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖;[0020]圖2C示出了本發(fā)明一個(gè)實(shí)施例提供的(k+l)_項(xiàng)集生成方法的示意圖;[0021]圖3示出了本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘裝置的裝置結(jié)構(gòu)示意圖;[0022]圖4示出了本發(fā)明另一個(gè)實(shí)施例提供的項(xiàng)集挖掘裝置的裝置結(jié)構(gòu)示意圖?!揪唧w實(shí)施方式】[0023]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。[0024]為了便于對(duì)本發(fā)明實(shí)施例進(jìn)行說(shuō)明,預(yù)先對(duì)本發(fā)明實(shí)施例涉及的基本概念進(jìn)行如下介紹:[0025]l、transaction(事務(wù)):指數(shù)據(jù)庫(kù)中的一條記錄。比如,當(dāng)數(shù)據(jù)庫(kù)中記錄的是超市商品的購(gòu)買(mǎi)記錄,則數(shù)據(jù)庫(kù)中的每一個(gè)事務(wù)對(duì)應(yīng)商品的購(gòu)買(mǎi)記錄,該購(gòu)買(mǎi)記錄中包含購(gòu)買(mǎi)商品的數(shù)量和名稱(chēng)等信息。[0026]2、item(數(shù)據(jù)項(xiàng)):事務(wù)中記錄的每條信息項(xiàng)目,且一個(gè)事務(wù)中包含至少一個(gè)數(shù)據(jù)項(xiàng)。比如,當(dāng)數(shù)據(jù)庫(kù)中的事務(wù)對(duì)應(yīng)顧客的購(gòu)買(mǎi)記錄時(shí),事務(wù)中的數(shù)據(jù)項(xiàng)則可以是購(gòu)買(mǎi)記錄中,購(gòu)買(mǎi)商品的數(shù)量和名稱(chēng)等信息。[0027]3、itemset(項(xiàng)集):至少一個(gè)數(shù)據(jù)項(xiàng)構(gòu)成的集合,用于表征數(shù)據(jù)庫(kù)內(nèi)在的一種關(guān)聯(lián)規(guī)則。事務(wù)與項(xiàng)集的不同的點(diǎn)是,事務(wù)通常是由實(shí)際的事件所觸發(fā)生成的數(shù)據(jù)庫(kù)中的記錄;而項(xiàng)集通常是從數(shù)據(jù)庫(kù)挖掘而出的,并不一定有實(shí)際的含義。[0028]4、k-itemSet(k-項(xiàng)集):包含有k個(gè)數(shù)據(jù)項(xiàng)的集合。比如,1-項(xiàng)集可以為A,即只包含數(shù)據(jù)項(xiàng)A;2_項(xiàng)集可以為AB,即包含數(shù)據(jù)項(xiàng)A和B。[0029]5、D(UncertainDatabases,不確定性數(shù)據(jù)庫(kù)):指存儲(chǔ)的事務(wù)中的數(shù)據(jù)項(xiàng)存在一定發(fā)生概率的數(shù)據(jù)庫(kù)。[0030]一種示意性的不確定性數(shù)據(jù)庫(kù)的結(jié)構(gòu)如表一所示。比如,不確定性數(shù)據(jù)庫(kù)中記錄的是未來(lái)天氣情況,則數(shù)據(jù)庫(kù)中每一種天氣情況對(duì)應(yīng)一個(gè)發(fā)生概率,即不確定性數(shù)據(jù)庫(kù)中的每個(gè)事務(wù)對(duì)應(yīng)一個(gè)發(fā)生概率。[0031]表一[0032][0033]6、TID(transactionID,事務(wù)標(biāo)識(shí)):用于在同一個(gè)不確定性數(shù)據(jù)庫(kù)中區(qū)別不同的事務(wù)。比如,排在不確定性數(shù)據(jù)庫(kù)第一行的事務(wù)為T(mén)1,第二行的事務(wù)為T(mén)2。[0034]7、itemweightinatransaction(項(xiàng)集在事務(wù)中的項(xiàng)集權(quán)重):項(xiàng)集在事務(wù)中的項(xiàng)集權(quán)重等于組成項(xiàng)集的各個(gè)數(shù)據(jù)項(xiàng)在事務(wù)中的權(quán)重的平均值,用于表示項(xiàng)集在事務(wù)中的重要程度。[0035]8、itemweightinD(項(xiàng)集在不確定性數(shù)據(jù)庫(kù)中的項(xiàng)集權(quán)重):項(xiàng)集在不確定性數(shù)據(jù)庫(kù)中的項(xiàng)集權(quán)重等于項(xiàng)集在事務(wù)中的項(xiàng)集權(quán)重,用于表示項(xiàng)集在不確定性數(shù)據(jù)庫(kù)中的重要程度。[0036]比如,在表一示出的不確定性數(shù)據(jù)庫(kù)D中,包括4、8、(:、0346個(gè)數(shù)據(jù)項(xiàng),假設(shè)用戶自定義設(shè)置的這6個(gè)數(shù)據(jù)項(xiàng)的權(quán)重表(weight-talbe)w-table為:[0037]{w(A)=0.2,w(B)=0.75,w(C)=0.9,w(D)=1.0,w(E)=0.55,w(F)=0.3,}[0038]9、itemprobabilityinatransaction(項(xiàng)集在事務(wù)中的項(xiàng)集概率):項(xiàng)集在事務(wù)中的項(xiàng)集概率等于組成項(xiàng)集的各個(gè)數(shù)據(jù)項(xiàng)在事務(wù)中的發(fā)生概率的乘積,用于表示項(xiàng)集在事務(wù)中的發(fā)生概率。[0039]10、expSup(Expectedsupport,期望支持度):項(xiàng)集的期望支持度等于項(xiàng)集在包含該項(xiàng)集的各個(gè)事務(wù)中的項(xiàng)集概率之和。[0040]ll、expWSup(Expectedweightedsupport,期望權(quán)重支持度):項(xiàng)集的期望權(quán)重支持度等于項(xiàng)集的期望支持度與項(xiàng)集在不確定性數(shù)據(jù)庫(kù)中的項(xiàng)集權(quán)重的乘積。[0041]12、HEWI(HighExpectedWeightedItemset,高權(quán)重項(xiàng)集):若項(xiàng)集的期望權(quán)重支持度大于或等于最低期望權(quán)重閾值與不確定性數(shù)據(jù)庫(kù)中事務(wù)總數(shù)的乘積,則將該項(xiàng)集確定為高權(quán)重項(xiàng)集。[0042]13、tubw(Transactionupper-boundweight,事務(wù)權(quán)重上限):事務(wù)的事務(wù)權(quán)重上限等于事務(wù)包括的各個(gè)項(xiàng)集在不確定性數(shù)據(jù)庫(kù)的項(xiàng)集權(quán)重中的最大值。[0043]14、tubp(Transactionupper-boundprobability,事務(wù)概率上限):事務(wù)的事務(wù)概率上限等于事務(wù)包括的各個(gè)項(xiàng)集的發(fā)生概率的最大值。[0044]15、tubwp(Transactionupper-boundweightedprobability,事務(wù)權(quán)重概率上限):事務(wù)權(quán)重概率上限等于事務(wù)的事務(wù)概率上限與事務(wù)權(quán)重上限的乘積。[0045]16、iubwp(Itemupper-boundweightedprobability,項(xiàng)權(quán)重概率上限):項(xiàng)集的項(xiàng)權(quán)重概率上限等于包含該項(xiàng)集的各事務(wù)的事務(wù)權(quán)重概率上限之和。[0046]17、HUBEWI(Highupper-boundexpectedweighteditemset,高期望權(quán)重上限項(xiàng)集):若項(xiàng)集的項(xiàng)權(quán)重概率上限大于或等于最低期望權(quán)重閾值與不確定性數(shù)據(jù)庫(kù)中事務(wù)總數(shù)的乘積,則將該項(xiàng)集確定為高期望權(quán)重上限項(xiàng)集。[0047]本發(fā)明實(shí)施例還提供了以下規(guī)則:[0048]1、在一個(gè)事務(wù)中,任何項(xiàng)集的權(quán)重均小于或等于該事務(wù)的事務(wù)權(quán)重上限,即:[0049][0050]在上式中,X用于表示項(xiàng)集,Tq用于表示不確定性數(shù)據(jù)庫(kù)D包括的事務(wù),i,用于表示項(xiàng)集X包括的數(shù)據(jù)項(xiàng),|k|用于表示項(xiàng)集X包括的數(shù)據(jù)項(xiàng)的個(gè)數(shù),w(X,Tq)用于表示項(xiàng)集X在事務(wù)Tq的項(xiàng)集權(quán)重,W(ij,Tq)用于表示項(xiàng)集X包括的數(shù)據(jù)項(xiàng)在事務(wù)Tq的權(quán)重,tubw(Tq)用于表示事務(wù)Tq的事務(wù)權(quán)重上限。[0051]2、在一個(gè)事務(wù)中,任何項(xiàng)集的項(xiàng)集概率均小于或等于該事務(wù)的事務(wù)概率上限,即:[0052]p(X,Tq)<tubp(Tq)。[0053]在上式中,p(X,Tq)用于表示項(xiàng)集X的在事務(wù)Tq的項(xiàng)集概率,tubp(Tq)用于表示事務(wù)Tq的事務(wù)權(quán)重上限。[0054]3nHUBEWDCproperty(Highupper-boundexpectedweighteddownwardclosureproperty,向下閉合的高期望權(quán)重上限屬性):如果一個(gè)項(xiàng)集是高期望權(quán)重上限項(xiàng)集,那么該項(xiàng)集的任何一個(gè)子集也是高期望權(quán)重上限項(xiàng)集。[0055]4、高權(quán)重項(xiàng)集屬于高期望權(quán)重上限項(xiàng)集,即:[0056][0057]在上式中,HEWIs用于表示高權(quán)重項(xiàng)集,HUBEWIs用于表示高期望權(quán)重上限項(xiàng)集。[0058]請(qǐng)參考圖1,其示出了本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖。參見(jiàn)圖1,該方法包括:[0059]步驟101,獲取自定義的權(quán)重和最低期望權(quán)重閾值ε,該權(quán)重是不確定性數(shù)據(jù)庫(kù)D中的數(shù)據(jù)項(xiàng)所對(duì)應(yīng)的權(quán)重,該不確定性數(shù)據(jù)庫(kù)D包括至少一個(gè)事務(wù),每個(gè)事務(wù)包括至少一個(gè)數(shù)據(jù)項(xiàng)。[0060]步驟102,根據(jù)數(shù)據(jù)項(xiàng)的發(fā)生概率和權(quán)重,計(jì)算不確定性數(shù)據(jù)庫(kù)D中的項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,將該iubwp彡|D|*ε的項(xiàng)集挖掘?yàn)楦咂谕麢?quán)重上限項(xiàng)集HUBEWI;該項(xiàng)集是包括至少一個(gè)數(shù)據(jù)項(xiàng)的集合,該|D|是不確定性數(shù)據(jù)庫(kù)D中的事務(wù)總數(shù)。[0061]步驟103,計(jì)算每個(gè)HUBEWI的期望權(quán)重支持度expWSup,將expWSup彡|D|*ε的HUBEWI挖掘?yàn)楦邫?quán)重項(xiàng)集HEWI。[0062]綜上所述,本發(fā)明實(shí)施例提供的方法,通過(guò)計(jì)算各個(gè)項(xiàng)集的項(xiàng)權(quán)重概率上限得到高期望權(quán)重上限項(xiàng)集,再計(jì)算高期望權(quán)重上限項(xiàng)集的期望權(quán)重支持度來(lái)獲取高權(quán)重項(xiàng)集,以少量計(jì)算量先挖掘出高期望權(quán)重上限項(xiàng)集作為候選項(xiàng)集,從而縮小高權(quán)重項(xiàng)集的挖掘范圍,解決了現(xiàn)有技術(shù)中挖掘高權(quán)重項(xiàng)集只能處理精確數(shù)據(jù),尚無(wú)針對(duì)不確定性數(shù)據(jù)庫(kù)的高權(quán)重項(xiàng)集挖掘技術(shù)的問(wèn)題,達(dá)到了提高挖掘的效能的效果。[0063]請(qǐng)參考圖2Α,其示出了本發(fā)明另一個(gè)實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖。參見(jiàn)圖2Α,該方法包括:[0064]步驟201,獲取自定義的權(quán)重和最低期望權(quán)重閾值ε,該權(quán)重是不確定性數(shù)據(jù)庫(kù)D中的數(shù)據(jù)項(xiàng)所對(duì)應(yīng)的權(quán)重,該不確定性數(shù)據(jù)庫(kù)D包括至少一個(gè)事務(wù),每個(gè)事務(wù)包括至少一個(gè)數(shù)據(jù)項(xiàng)。[0065]不確定性數(shù)據(jù)庫(kù)D是指存儲(chǔ)的事務(wù)中的數(shù)據(jù)項(xiàng)存在一定發(fā)生概率的數(shù)據(jù)庫(kù),該不確定性數(shù)據(jù)庫(kù)D包括至少一個(gè)事務(wù),每個(gè)事務(wù)包括至少一個(gè)數(shù)據(jù)項(xiàng)。[0066]比如,在表一示出的不確定性數(shù)據(jù)庫(kù)D中,包括了10個(gè)事務(wù)和A、B、C、D、E、F6個(gè)數(shù)據(jù)項(xiàng),以及各個(gè)數(shù)據(jù)項(xiàng)在各個(gè)事務(wù)中的發(fā)生概率。[0067]用戶可以根據(jù)實(shí)際挖掘需要,自定義設(shè)置各個(gè)數(shù)據(jù)項(xiàng)的權(quán)重和最低期望權(quán)重閾值ε〇[0068]比如,當(dāng)用戶需要挖掘的不確定性數(shù)據(jù)庫(kù)D中記錄的是未來(lái)天氣情況,即不確定性數(shù)據(jù)庫(kù)中每個(gè)事務(wù)包含的數(shù)據(jù)項(xiàng)可以是天氣類(lèi)型及天氣類(lèi)型對(duì)應(yīng)的發(fā)生概率。用戶可以根據(jù)對(duì)不確定性數(shù)據(jù)庫(kù)中的各種數(shù)據(jù)項(xiàng)的重視程度設(shè)置各個(gè)數(shù)據(jù)項(xiàng)的權(quán)重。假如用戶對(duì)數(shù)據(jù)項(xiàng)Α非常重視,則可以將數(shù)據(jù)項(xiàng)Α的權(quán)重設(shè)置得較高。[0069]為了保證挖掘的項(xiàng)集具有較高的發(fā)生概率,用戶可以將最低期望權(quán)重閾值ε設(shè)置的較大。[0070]在本發(fā)明實(shí)施例中,為了區(qū)分不同的事務(wù),還為每個(gè)事務(wù)設(shè)置一個(gè)TID(TransactionIdentity,事務(wù)標(biāo)識(shí)),該事務(wù)標(biāo)識(shí)TID用于確定對(duì)應(yīng)的事務(wù)。[0071]比如,表一中事務(wù)標(biāo)識(shí)1對(duì)應(yīng)的事務(wù)為(A,0.25),(C,0.4),(E,1.0)。[0072]步驟202,根據(jù)數(shù)據(jù)項(xiàng)的發(fā)生概率和該權(quán)重,計(jì)算不確定性數(shù)據(jù)庫(kù)D中的項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,將該iubwp彡|D|*ε的項(xiàng)集挖掘?yàn)楦咂谕麢?quán)重上限項(xiàng)集HUBEWI;該項(xiàng)集是包括至少一個(gè)數(shù)據(jù)項(xiàng)的集合,該|D|是該不確定性數(shù)據(jù)庫(kù)D中的事務(wù)總數(shù)。[0073]用戶需要從不確定性數(shù)據(jù)庫(kù)中挖掘出符合要求的k_項(xiàng)集。[0074]在本發(fā)明實(shí)施例中,定義k_項(xiàng)集是包含k個(gè)數(shù)據(jù)項(xiàng)的集合,k彡1,比如,{A,B,C}包含了3個(gè)數(shù)據(jù)項(xiàng),則{A,B,C}是一個(gè)3-項(xiàng)集。[0075]其中,當(dāng)k=1時(shí),該1-項(xiàng)集即為一個(gè)數(shù)據(jù)項(xiàng),比如,{A}即為一個(gè)1-項(xiàng)集。[0076]定義k-項(xiàng)集中每個(gè)數(shù)據(jù)項(xiàng)在包含該k-項(xiàng)集的事務(wù)中的權(quán)重之和除以k的值,為該k-項(xiàng)集在包含該k-項(xiàng)集的事務(wù)中的項(xiàng)集權(quán)重,即:[0077][0078]在上式中,X用于表示該k_項(xiàng)集,Tq用于表示不確定性數(shù)據(jù)庫(kù)D包括的事務(wù),i^用于表示項(xiàng)集X包括的數(shù)據(jù)項(xiàng),|k|用于表示項(xiàng)集X包括的數(shù)據(jù)項(xiàng)的個(gè)數(shù),w(X,Tq)用于表示項(xiàng)集X在事務(wù)Tq的項(xiàng)集權(quán)重,W(ij,Tq)用于表示項(xiàng)集X包括的數(shù)據(jù)項(xiàng)在事務(wù)Tq的權(quán)重。[0079]比如,根據(jù)表一示出的不確定性數(shù)據(jù)庫(kù)D,以k-項(xiàng)集為3-項(xiàng)集{A,C,E}為例,項(xiàng)集{A,C,E}的項(xiàng)集權(quán)重為:[0080]w(ACE)=w(ACE,I\)=(w(A,I\)+w(C,I\)+w(C,?\))/3[0081]=(0.2+0.9+0.55)/3[0082]=0.55[0083]定義k-項(xiàng)集中每個(gè)數(shù)據(jù)項(xiàng)在包含k-項(xiàng)集的事務(wù)中的發(fā)生概率的乘積,為該k-項(xiàng)集在每個(gè)事務(wù)中的項(xiàng)集概率,SP:[0084][0085]在上式中,X用于表示該k_項(xiàng)集,ij用于表示該k_項(xiàng)集包括的數(shù)據(jù)項(xiàng),p(X,Tq)用于表示項(xiàng)集X的在事務(wù)Tq的項(xiàng)集概率,P(i,,Tq)用于表示該k-項(xiàng)集包括的數(shù)據(jù)項(xiàng)在事務(wù)Tq的發(fā)生概率。[0086]比如,根據(jù)表一示出的不確定性數(shù)據(jù)庫(kù)D,以k-項(xiàng)集為3-項(xiàng)集{A,C,E}為例,3-項(xiàng)集{A,C,E}在事務(wù)T1中的項(xiàng)集概率為:[0087]p(ACE,I\)=p(A,?\)Xp(C,?\)Xp(E,?\)[0088]=0.25X0.4X1.0[0089]=0.1[0090]首先,定義事務(wù)的事務(wù)權(quán)重概率上限tubwp等于事務(wù)的事務(wù)權(quán)重上限tubw和事務(wù)概率上限tubp的乘積,即對(duì)于每個(gè)事務(wù),其對(duì)應(yīng):[0091]tubwp(Tq)=tubw(Tq)Xtubp(Tq)[0092]在上式中,tubwp(Tq)用于表示事務(wù)Tq的事務(wù)權(quán)重概率上限,tubw(Tq)用于表示事務(wù)Tq的事務(wù)權(quán)重上限,tUbp(Tq)用于表示事務(wù)Tq的事務(wù)概率上限。[0093]其中,事務(wù)權(quán)重上限tubw為事務(wù)包括的各個(gè)數(shù)據(jù)項(xiàng)的權(quán)重的最大值,事務(wù)概率上限tubp為事務(wù)包括的各個(gè)數(shù)據(jù)項(xiàng)的發(fā)生概率的最大值。[0094]根據(jù)以上定義,在獲取了不確定性數(shù)據(jù)庫(kù)D中用戶自定義的每個(gè)數(shù)據(jù)項(xiàng)的權(quán)重和每個(gè)數(shù)據(jù)項(xiàng)的發(fā)生概率后,可以計(jì)算出每個(gè)事物的事務(wù)權(quán)重概率上限tubwp。[0095]根據(jù)表一示出的不確定性數(shù)據(jù)庫(kù)D和用戶自定義的權(quán)重表w-table,計(jì)算得到事務(wù)T1的事務(wù)權(quán)重概率上限tubwp為:[0096]tubwp(I\)=tubw(?\)Xtubp(?\)=0·9X1.0=0·9[0097]在上式中,?\用于表示不確定性數(shù)據(jù)庫(kù)D中事務(wù)標(biāo)識(shí)為1的事務(wù),tubwp(TJ用于表示事務(wù)!\的事務(wù)權(quán)重概率上限。[0098]步驟203,對(duì)于每個(gè)k-項(xiàng)集,根據(jù)包含有該k-項(xiàng)集的事務(wù)的tubwp,計(jì)算該k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,該k-項(xiàng)集是包含k個(gè)數(shù)據(jù)項(xiàng)的集合,k多1。[0099]首先,定義k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp為不確定性數(shù)據(jù)庫(kù)D中,所有包括該k_項(xiàng)集的事務(wù)的事務(wù)權(quán)重概率上限tubwp之和。[0100]即:[0101][0102]在上式中,X用于表示k_項(xiàng)集,iubwp(X)用于表示k_項(xiàng)集的項(xiàng)權(quán)重概率上限。[0103]其中,該步驟可以被替換為步驟203a,如圖2B所示,在圖2B中:[0104]步驟203a:對(duì)于每個(gè)k-項(xiàng)集,將包含該k-項(xiàng)集的每個(gè)事務(wù)的tubwp之和,確定為該k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp。[0105]對(duì)于每個(gè)k-項(xiàng)集,首先,從不確定性數(shù)據(jù)庫(kù)D中確定包括該k-項(xiàng)集的各個(gè)事務(wù)。[0106]比如,以k-項(xiàng)集為3-項(xiàng)集{A,C,E}為例,在表一示出不確定性數(shù)據(jù)庫(kù)D中,1\、T2、T3包括了3-項(xiàng)集{A,C,E}。[0107]其次,根據(jù)權(quán)重概率上限iubwp的定義,將確定的包括該k-項(xiàng)集的各個(gè)事務(wù)的事務(wù)權(quán)重概率上限tubwp相加,得到該k-項(xiàng)集的權(quán)重概率上限iubwp。[0108]比如,根據(jù)表一示出的不確定性數(shù)據(jù)庫(kù)D,以k-項(xiàng)集為3-項(xiàng)集{A,C,E}為例,計(jì)算{A,C,E}的項(xiàng)權(quán)重概率上限為:[0109]iubwp(ACE)=tubwp(T^+tubwp(Τ3)+tubwp(Τ10)[0110]=0.9+0.9+0.9=2.7[0111]在上式中,iubwp(ACE)用于表示3-項(xiàng)集{Α,C,Ε}的項(xiàng)權(quán)重概率上限,tubwp(?\)用于表示事務(wù)!\的事務(wù)權(quán)重概率上限,tubwp(Τ2)用于表示事務(wù)1~2的事務(wù)權(quán)重概率上限,tubwp(Τ3)用于表示事務(wù)1~3的事務(wù)權(quán)重概率上限。[0112]根據(jù)表一示出的不確定性數(shù)據(jù)庫(kù)D和不確定性數(shù)據(jù)庫(kù)D中各個(gè)事務(wù)的事務(wù)權(quán)重概率上限tubwp,得到的各個(gè)1-項(xiàng)集的項(xiàng)概率權(quán)重上限iubwp如表二:[0113]表二[0114][0115]步驟204,將iubwp彡該IDI*ε的k-項(xiàng)集添加到第k組HUBEWI中。[0116]首先,定義iubwp彡|D|*ε的k-項(xiàng)集為高期望權(quán)重上限項(xiàng)集HUBEWI,其中,該|D是不確定性數(shù)據(jù)庫(kù)D中的事務(wù)總數(shù)。[0117]根據(jù)該定義,對(duì)于每個(gè)k-項(xiàng)集,在計(jì)算出該k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp后,比較該不確定性數(shù)據(jù)庫(kù)D中的事務(wù)總數(shù)|D|與ε的乘積與該k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp的大小,若該k-項(xiàng)集的iubwp彡|D|*ε,則將該k-項(xiàng)集添加到第k組高期望權(quán)重上限項(xiàng)集HUBEWI中。[0118]比如,以k=1為例,設(shè)1-項(xiàng)集為{A}。假設(shè)ε為10%,計(jì)算出1-項(xiàng)集{A}的項(xiàng)權(quán)重概率上限iubwp為3.6,不確定性數(shù)據(jù)庫(kù)D中的事務(wù)總數(shù)|D|為10。由于iubwp(Α)=3.6>10%X10,因此,可以將{A}添加到第1組高期望權(quán)重上限項(xiàng)集HUBEWI中。[0119]根據(jù)表二示出的各個(gè)1-項(xiàng)集的項(xiàng)概率權(quán)重上限iubwp,設(shè)ε為45%,得到iubwp彡|D|*ε的1-項(xiàng)集如表三:[0120]表三[0121][0122]步驟205,當(dāng)?shù)趉組HUBEWI不組HUBEWI中的k-項(xiàng)集自連接生成(k+1)-項(xiàng)集,該(k+1)-項(xiàng)集是該k-項(xiàng)集的超集,該(k+l)_項(xiàng)集是包含k+Ι個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集。[0123]當(dāng)?shù)趉組HUBEWI不為空時(shí),按照第k候選項(xiàng)集中項(xiàng)集的排列順序,將每個(gè)項(xiàng)集與排在該項(xiàng)集之后的項(xiàng)集進(jìn)行合并且去重后,生成一個(gè)(k+l)_項(xiàng)集。[0124]比如,當(dāng)?shù)?候選項(xiàng)集中包含的項(xiàng)集為A、B、C、D和E時(shí),且排列順序?yàn)锳-B-C-D-E時(shí),自連接生成的2-項(xiàng)集即為AB、AC、AD、AE、BC、BD、BE、CD、CE和DE。[0125]又比如,當(dāng)?shù)?候選項(xiàng)集為AC、AD、AE、BE、⑶和CE時(shí),生成的3-項(xiàng)集即為A⑶、ACE、ABE、BCE和CDE。[0126]為了方便理解,結(jié)合圖2C,以第1候選項(xiàng)集中包含的項(xiàng)集為{A}、{B}、{C}、{D}、{E}為例對(duì)k-項(xiàng)集自連接生成(k+l)_項(xiàng)集的過(guò)程進(jìn)行說(shuō)明。[0127](1)將每個(gè)數(shù)據(jù)項(xiàng)分別構(gòu)成第一候選項(xiàng)集,則得到的第一候選項(xiàng)集為{A}、{B}、{C}、{D}、{E},分別計(jì)算這5個(gè)第一候選項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,判斷每個(gè)第一候選項(xiàng)集是否滿足iubwp彡|D|*ε。[0128](2)假設(shè)5個(gè)第一候選項(xiàng)集都滿足iubwp彡|D|*e,則獲取每個(gè)第一候選項(xiàng)集的真超集,得到第二候選項(xiàng)集,則根據(jù)第一候選項(xiàng)集{A}得到第二候選項(xiàng)集{AB}、{AC}、{AD}、{AE},根據(jù)第一候選項(xiàng)集{A}得到第二候選項(xiàng)集{BC}、{BD}、{BE},根據(jù)第一候選項(xiàng)集{C}得到第二候選項(xiàng)集{CD}、{CE},根據(jù)第一候選項(xiàng)集{D}得到第二候選項(xiàng)集{DE}。分別計(jì)算這10個(gè)第二候選項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,判斷每個(gè)第二候選項(xiàng)集是否滿足iubwp多|D|*ε。[0129](3)假設(shè)這10個(gè)第二候選項(xiàng)集中的項(xiàng)集{AC}不滿足iubwp彡|D|*e,則可以確定項(xiàng)集{AC}的真超集{ABC}、{ACD}、{ACE}、{ABCD}、{ABCE}、{ABCDE}都不滿足iubwp多|D|*ε。[0130]對(duì)于除項(xiàng)集{AC}之外的第二候選項(xiàng)集,獲取這些第二候選項(xiàng)集的真超集中不包含項(xiàng)集{AC}的項(xiàng)集,得到第三候選項(xiàng)集。則根據(jù)第二候選項(xiàng)集{ΑΒ}得到第三候選項(xiàng)集{ABD}、{ABE},根據(jù)第二候選項(xiàng)集{AD}得到第三候選項(xiàng)集{ADE},根據(jù)第二候選項(xiàng)集{BC}得到第三候選項(xiàng)集{BCE},根據(jù)第二候選項(xiàng)集{BD}得到第三候選項(xiàng)集{BDE},根據(jù)第二候選項(xiàng)集ICD}得到第三候選項(xiàng)集ICDE}。分別計(jì)算這7個(gè)第三候選項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,判斷每個(gè)第三候選項(xiàng)集是否滿足iubwp彡|D|*ε。[0131](4)假設(shè)這7個(gè)第三候選項(xiàng)集中的項(xiàng)集{BCD}不滿足iubwp彡|D|*ε,則可以確定項(xiàng)集出⑶}的真超集{Β⑶Ε}不滿足iubwp彡|D|*ε,可以直接過(guò)濾掉。[0132]對(duì)于除項(xiàng)集{Β⑶}之外的第三候選項(xiàng)集,獲取這些第三候選項(xiàng)集的真超集中不包含項(xiàng)集{AC}和{BCD}的項(xiàng)集,得到第四候選項(xiàng)集,則根據(jù)第三候選項(xiàng)集{ABD}得到第四候選項(xiàng)集{ABDE}。[0133](5)計(jì)算第四候選項(xiàng)集{ABDE}的項(xiàng)權(quán)重概率上限iubwp,判斷第四候選項(xiàng)集{ABDE}是否滿足iubwp彡|D|*ε。[0134]為了方便理解,在圖2C中,用斜線對(duì)不滿足iubwp彡|D|*e的候選集進(jìn)行了標(biāo)識(shí),以網(wǎng)格線對(duì)不滿足iubwp彡|D|*ε的候選集的真超集進(jìn)行了標(biāo)識(shí)。[0135]顯而易見(jiàn)的,根據(jù)上述步驟204將不滿足iubwp彡|D|*ε的k-項(xiàng)集進(jìn)行過(guò)濾,使得根據(jù)第k候選項(xiàng)集中的k-項(xiàng)集自連接生成(k+1)-項(xiàng)集數(shù)量遠(yuǎn)小于不確定性數(shù)據(jù)庫(kù)中包含的(k+l)_項(xiàng)集的總數(shù),從而達(dá)到了縮小挖掘范圍的效果。[0136]對(duì)每個(gè)k_項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp與|D|*e的大小判斷過(guò)程完成后,可以檢測(cè)第k組HUBEWI中是否存在k-項(xiàng)集,若檢測(cè)到第k組HUBEWI中存在k-項(xiàng)集,則生成各個(gè)k-項(xiàng)集的超集(k+Ι)-項(xiàng)集。[0137]比如,當(dāng)k為1時(shí),若檢測(cè)到第1組HUBEWI中存在1-項(xiàng)集,則生成各個(gè)1-項(xiàng)集的超集2-項(xiàng)集。若檢測(cè)到第1組HUBEWI中的1-項(xiàng)集分別為{A}、{B}、{F},則生成的2-項(xiàng)集為{A,B}、{A,F(xiàn)}、{B,F(xiàn)}。在本發(fā)明實(shí)施例中,可使用Q的算法生成k-項(xiàng)集的超集(k+Ι)-項(xiàng)集,其中,HUBEWIk為第k組HUBEWI。[0138]需要說(shuō)明的是,若當(dāng)該第k組HUBEWI為空時(shí),則無(wú)法生成(k+Ι)-項(xiàng)集,執(zhí)行步驟207〇[0139]比如,根據(jù)表三示出的的1-項(xiàng)集,自連接生成的2-項(xiàng)集即為:{BC}、{BD}、{BF}、{CD}、{CF}、{DF}。[0140]繼續(xù)計(jì)算{BC}、{BD}、{BF}、{CD}、{CF}、{DF}的項(xiàng)概率權(quán)重上限iubwp如表四:[0141]表四[0142][0143][0144]根據(jù)表四示出的2-項(xiàng)集{BC}、{BD}、{BF}、{CD}、{CF}、{DF}的項(xiàng)概率權(quán)重上限iubwp,計(jì)算得到滿足iubwp彡IDI*ε=4·5的2-項(xiàng)集為{BC}。[0145]此時(shí),根據(jù){BC}無(wú)法獲取3-項(xiàng)集,因此,第3組HUBEWI為空,無(wú)法生成(k+1)-項(xiàng)集,執(zhí)行步驟207。[0146]根據(jù)上述不確定性數(shù)據(jù)庫(kù)D中k_項(xiàng)集的描述,本發(fā)明實(shí)施例得出了一個(gè)k_項(xiàng)集的高期望權(quán)重上限的向下閉合屬性HUBEWDCproperty,該屬性為:如果一個(gè)k-項(xiàng)集是高期望權(quán)重上限項(xiàng)集HUBEWI,則該k-項(xiàng)集的任何一個(gè)子集也是高期望權(quán)重上限項(xiàng)集HUBEWI,即:[0147]iubwp(Xk)iubwp(Xk[0148]該屬性的證明方式如下:[0149]設(shè)Xk為一個(gè)k_項(xiàng)集,該k_項(xiàng)集的子集為Xk\由于dk,則包含Xk1的事務(wù)包括了包含Xk的事務(wù),因此:「01501[0151]通過(guò)該屬性,可以推導(dǎo)出:假如k-項(xiàng)集為高期望權(quán)重上限項(xiàng)集HUBEWI,那么該k_項(xiàng)集的超集(k+l)_項(xiàng)集也可能是高期望權(quán)重上限項(xiàng)集HUBEWI;若k-項(xiàng)集不是高期望權(quán)重上限項(xiàng)集HUBEWI,那么該k-項(xiàng)集的超集(k+Ι)-項(xiàng)集也不可能是高期望權(quán)重上限項(xiàng)集HUBEWI〇[0152]步驟206,將k更新為k+1,再次執(zhí)行根據(jù)該對(duì)于每個(gè)k-項(xiàng)集,根據(jù)包含有該k-項(xiàng)集的事務(wù)的tubwp,計(jì)算該k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp的步驟。[0153]若第k組高期望權(quán)重上限項(xiàng)集HUBEWI不為空,則還需要執(zhí)行步驟203計(jì)算新生成的(k+Ι)-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,從而從新生成的(k+Ι)-項(xiàng)集中繼續(xù)確定高期望權(quán)重上限項(xiàng)集HUBEWI,直到獲取不到候選項(xiàng)集。[0154]步驟207,對(duì)于每個(gè)HUBEWI,計(jì)算該HUBEWI在包含有該HUBEWI的事務(wù)中的項(xiàng)集權(quán)重,將該項(xiàng)集權(quán)重確定為該HUBEWI在不確定性數(shù)據(jù)庫(kù)D的項(xiàng)集權(quán)重。[0155]在獲取了所有高期望權(quán)重上限項(xiàng)集HUBEWI后,對(duì)于高期望權(quán)重上限項(xiàng)集HUBEWI,可以計(jì)算該高期望權(quán)重上限項(xiàng)集HUBEWI在包含有該高期望權(quán)重上限項(xiàng)集HUBEWI的事務(wù)中的項(xiàng)集權(quán)重。[0156]由于高期望權(quán)重上限項(xiàng)集HUBEWI為k-項(xiàng)集,因此可以根據(jù)k-項(xiàng)集的項(xiàng)集權(quán)重計(jì)算方法計(jì)算高期望權(quán)重上限項(xiàng)集HUBEWI在包含有該高期望權(quán)重上限項(xiàng)集HUBEWI的事務(wù)中的項(xiàng)集權(quán)重。[0157]其中,k-項(xiàng)集的項(xiàng)集權(quán)重計(jì)算方法已在步驟202a中示出,此處不做贅述。[0158]需要說(shuō)明的是,由于在獲取高期望權(quán)重上限項(xiàng)集HUBEWI時(shí),已經(jīng)計(jì)算了高期望權(quán)重上限項(xiàng)集HUBEWI中各個(gè)k-項(xiàng)集在各個(gè)事務(wù)中的項(xiàng)集權(quán)重,因此,也可以直接從存儲(chǔ)的項(xiàng)集權(quán)重中,獲取高期望權(quán)重上限項(xiàng)集HUBEWI在包含有該高期望權(quán)重上限項(xiàng)集HUBEWI的事務(wù)中的項(xiàng)集權(quán)重。[0159]步驟208,獲取HUBEWI在包含有該HUBEWI的事務(wù)中的項(xiàng)集概率。[0160]在獲取了所有高期望權(quán)重上限項(xiàng)集HUBEWI后,對(duì)于高期望權(quán)重上限項(xiàng)集HUBEWI,可以計(jì)算該高期望權(quán)重上限項(xiàng)集HUBEWI在包含有該高期望權(quán)重上限項(xiàng)集HUBEWI的事務(wù)中的項(xiàng)集權(quán)重。[0161]由于高期望權(quán)重上限項(xiàng)集HUBEWI為k-項(xiàng)集,因此可以根據(jù)k-項(xiàng)集的項(xiàng)集概率計(jì)算方法計(jì)算高期望權(quán)重上限項(xiàng)集HUBEWI在包含有該高期望權(quán)重上限項(xiàng)集HUBEWI的事務(wù)中的項(xiàng)集概率。[0162]需要說(shuō)明的是,由于在獲取高期望權(quán)重上限項(xiàng)集HUBEWI時(shí),已經(jīng)計(jì)算了高期望權(quán)重上限項(xiàng)集HUBEWI中各個(gè)k-項(xiàng)集在各個(gè)事務(wù)中的項(xiàng)集概率,因此,也可以直接從存儲(chǔ)的項(xiàng)集概率中,獲取高期望權(quán)重上限項(xiàng)集HUBEWI在包含有該高期望權(quán)重上限項(xiàng)集HUBEWI的事務(wù)中的項(xiàng)集概率。[0163]步驟209,將HUBEWI在所有包含有該HUBEWI的事務(wù)中的項(xiàng)集概率之和,確定為該HUBEWI的期望支持度expSup。[0164]首先,對(duì)于每個(gè)HUBEWI中的k-項(xiàng)集,定義該k-項(xiàng)集在每個(gè)包含有該k-項(xiàng)集的事務(wù)中的項(xiàng)集概率之和為該k-項(xiàng)集的期望支持度exoSuD,即:[0165][0166]在上式中,expSup(X)用于表示k-項(xiàng)集X的期望支持度。[0167]比如,以3-項(xiàng)集{A,C,E}為例進(jìn)行說(shuō)明,計(jì)算得到的{A,C,E}的期望支持度expSup為:[0168]expSup(ACE)=p(ACE,+p(ACE,T3)+p(ACE,T10)[0169]=0.1+0.63+0.306[0170]=1.036[0171]步驟210,根據(jù)項(xiàng)集權(quán)重與expSup,計(jì)算HUBEWI的期望權(quán)重支持度expWSup。[0172]對(duì)于每個(gè)HUBEWI中的k-項(xiàng)集,定義該k-項(xiàng)集的期望支持度expSup與該k-項(xiàng)集在不確定性數(shù)據(jù)庫(kù)D的項(xiàng)集權(quán)重的乘積為該k-項(xiàng)集的期望權(quán)重支持度expWSup,即:[0173][0174]比如,以3-項(xiàng)集{A,C,E}為例進(jìn)行說(shuō)明,計(jì)算得到的{A,C,E}的期望權(quán)重支持度expWSup為:[0175]expffSup(ACE)=w(ACE)XexpSup(ACE)[0176]=0.55X1.036[0177]=0.5698[0178]步驟211,若expWSup彡該|D|*ε,則將HUBEWI挖掘?yàn)楦邫?quán)重項(xiàng)集HEWI。[0179]對(duì)于每個(gè)HUBEWI中的k-項(xiàng)集,首先比較該k-項(xiàng)集的期望權(quán)重支持度expWSup與IDI*ε的大小,若該k-項(xiàng)集的期望權(quán)重支持度expWSup大于或等于IDI*ε,則將該k-項(xiàng)集確定為高權(quán)重項(xiàng)集HEWI。[0180]SP,當(dāng)每個(gè)HUBEWI中的k-項(xiàng)集滿足:[0181]expWSup(X)多εX|D|[0182]則將該k-項(xiàng)集確定為高權(quán)重項(xiàng)集HEWI。[0183]根據(jù)高期望權(quán)重上限的向下閉合屬性HUBEWDCproperty,本發(fā)明實(shí)施例提出了一個(gè)定理:高權(quán)重項(xiàng)集HEWI屬于高期望權(quán)重上限項(xiàng)集。[0184]該定理的證明方式如下:[0185]由于W(X)=W(X,Tq),w(X,Tq)彡tubw(Tq),并且p(X,Tq)彡tubp(Tq),則:[0186][0187]在上式中,expWSup(X)用于表示k-項(xiàng)集X的期望權(quán)重支持度。[0188]因此,如果一個(gè)項(xiàng)集不是不確定性數(shù)據(jù)庫(kù)D中的高期望權(quán)重上限項(xiàng)集HUBEWI,那么該項(xiàng)集也不可能是該不確定性數(shù)據(jù)庫(kù)D中的高權(quán)重項(xiàng)集HEWI。[0189]本發(fā)明實(shí)施例通過(guò)使用該定理,在確定了單個(gè)數(shù)據(jù)項(xiàng),即1-項(xiàng)集中的高期望權(quán)重上限項(xiàng)集HUBEWI后,只需要對(duì)計(jì)算出的k-項(xiàng)集的超集(k+l)_項(xiàng)集繼續(xù)進(jìn)行項(xiàng)集挖掘,從而極大縮小了從不確定性數(shù)據(jù)庫(kù)中挖掘高期望權(quán)重?cái)?shù)據(jù)項(xiàng)的挖掘范圍。[0190]由于現(xiàn)有的高權(quán)重項(xiàng)集HWI挖掘方法不但不適用于處理不確定性數(shù)據(jù)庫(kù),而且需要的計(jì)算量極大。而本發(fā)明實(shí)施例提出的方法,通過(guò)計(jì)算不確定性數(shù)據(jù)庫(kù)D中的各個(gè)項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,從而將項(xiàng)權(quán)重概率上限iubwp不滿足iubwp彡|D|*ε的項(xiàng)集除去,即,通過(guò)很少計(jì)算量即可除去大部分的高權(quán)重項(xiàng)集HEWI,從而能夠縮小挖掘高權(quán)重項(xiàng)集的范圍,減少確定高權(quán)重項(xiàng)集HEWI時(shí)需要的計(jì)算量。[0191]綜上所述,本發(fā)明實(shí)施例提供的方法,通過(guò)計(jì)算各個(gè)項(xiàng)集的項(xiàng)權(quán)重概率上限得到高期望權(quán)重上限項(xiàng)集,再計(jì)算高期望權(quán)重上限項(xiàng)集的期望權(quán)重支持度來(lái)獲取高權(quán)重項(xiàng)集,以少量計(jì)算量先挖掘出高期望權(quán)重上限項(xiàng)集作為候選項(xiàng)集,從而縮小高權(quán)重項(xiàng)集的挖掘范圍,解決了現(xiàn)有技術(shù)中挖掘高權(quán)重項(xiàng)集只能處理精確數(shù)據(jù),尚無(wú)針對(duì)不確定性數(shù)據(jù)庫(kù)的高權(quán)重項(xiàng)集挖掘技術(shù)的問(wèn)題,達(dá)到了提高挖掘的效能的效果。[0192]需要說(shuō)明的一點(diǎn)是,上述步驟202,根據(jù)各個(gè)數(shù)據(jù)項(xiàng)的發(fā)生概率和該權(quán)重,計(jì)算每個(gè)事務(wù)的事務(wù)權(quán)重概率上限tubwp,具體可以包括步驟202a和步驟202b,如圖2B所示,在圖2B中:[0193]步驟202a,將每個(gè)事務(wù)包含的各個(gè)數(shù)據(jù)項(xiàng)的權(quán)重中的最大值確定為該事務(wù)的事務(wù)權(quán)重上限tubw,將每個(gè)事務(wù)包含的各個(gè)數(shù)據(jù)項(xiàng)的發(fā)生概率中的最大值確定為該事務(wù)的事務(wù)概率上限tubp。[0194]在計(jì)算事務(wù)的事務(wù)權(quán)重上限tubw時(shí),首先從用戶自定義設(shè)置的權(quán)重表w-table中獲取該事務(wù)中包括的各個(gè)數(shù)據(jù)項(xiàng)的權(quán)重,然后,將該事務(wù)中各個(gè)數(shù)據(jù)項(xiàng)的權(quán)重的最大值確定為該事務(wù)的事務(wù)權(quán)重上限tubw,即:[0195]tubw(Tq)=max{w(i^Tq),w(i2,Tq),w(i3,Tq)...,w(ij,Tq)}[0196]其中Tq用于表示事務(wù),ipi2、V-卜用于表示在事務(wù)Tq中的數(shù)據(jù)項(xiàng),j用于表示事務(wù)Tq的數(shù)據(jù)項(xiàng)數(shù)目,《α,,!;)用于表示事務(wù)Tq中第j個(gè)數(shù)據(jù)項(xiàng)的權(quán)重,tubW(Tq)用于表不事務(wù)Tq的事務(wù)權(quán)重上限。[0197]需要說(shuō)明的是,由于一個(gè)數(shù)據(jù)項(xiàng)的權(quán)重在不確定性數(shù)據(jù)庫(kù)D中任何一個(gè)事務(wù)的權(quán)重都是相同的,因此,得出推論一:[0198]w(i.j,Tq)=w(i.j),即tubw(Tq)=max{w(i!),w(i2),w(i3)···,w(i.j)}〇[0199]比如,根據(jù)表一示出的不確定性數(shù)據(jù)庫(kù)D和用戶自定義的權(quán)重表w-table,計(jì)算不確定性數(shù)據(jù)庫(kù)D中各個(gè)事務(wù)的事務(wù)權(quán)重上限tubw如表五:[0200]表五[0201][0202]根據(jù)事務(wù)權(quán)重上限tubw的定義,可以得出推論二:對(duì)于任一事務(wù),該事務(wù)的事務(wù)權(quán)重上限tubw太干等干該車(chē)備包栝的仵何k_煩集的權(quán)雷。該推論二的推導(dǎo)討程如下:[0203][0204]所以,結(jié)合事務(wù)權(quán)重上限tubw的定義,可以推出,當(dāng)一個(gè)事務(wù)包括了一個(gè)k_項(xiàng)集,那么該k_項(xiàng)集的權(quán)重小于等于該事務(wù)的事務(wù)權(quán)重上限tubw,因此推論二得證。[0205]對(duì)于每個(gè)事務(wù),在計(jì)算事務(wù)概率上限tubp時(shí),首先比較事務(wù)中包括的各個(gè)數(shù)據(jù)項(xiàng)的發(fā)生概率,然后,將該事務(wù)中數(shù)據(jù)項(xiàng)的發(fā)生概率的最大值確定為該事務(wù)的事務(wù)概率上限tubp,即:[0206]tubp(Tq)=max{p(i^Tq),p(i2,Tq),p(i3,Tq)...,p(ij,Tq)}[0207]其中,Pa,,Tq)用于表示事務(wù)Tq中第j個(gè)數(shù)據(jù)項(xiàng)的發(fā)生概率,tUbp(Tq)用于表示事務(wù)Tq的事務(wù)概率上限。[0208]比如,根據(jù)表一示出的不確定性數(shù)據(jù)庫(kù)D,計(jì)算不確定性數(shù)據(jù)庫(kù)D中事務(wù)T1的事務(wù)概率上限tubp為:[0209]tubp(I\)=max{p(A,I\),p(C,I\),p(E,I\)}=max{0·25,0·4,1.0}=1.0[0210]根據(jù)表一示出的不確定性數(shù)據(jù)庫(kù)D,計(jì)算不確定性數(shù)據(jù)庫(kù)D中各個(gè)事務(wù)的事務(wù)概率上限tubp如表六:[0211]表六[0212][0213]根據(jù)事務(wù)概率上限tubp的定義,可以得出推論三:對(duì)于任一事務(wù),該事務(wù)的事務(wù)概率上限tubp大于等于該事務(wù)包括的任何k_項(xiàng)集的概率。該定理的推導(dǎo)過(guò)程如下:[0214]由于tubp(Tq)=maxfedTq),p(i2,Tq),p(i3,Tq).··,p(i.j,Tq)},則:[0215][0216]即:[0217]p(X,Tq)彡tubp(Tq)[0218]所以,結(jié)合事務(wù)概率上限tubp的定義,可以推出,當(dāng)一個(gè)事務(wù)包括了一個(gè)k_項(xiàng)集,那么該k-項(xiàng)集的概率小于等于該事務(wù)的事務(wù)概率上限tubp,因此推論二得證。[0219]步驟202b,根據(jù)事務(wù)的tubw和tubp,計(jì)算每個(gè)事務(wù)的事務(wù)權(quán)重概率上限tubwp。[0220]在不確定性數(shù)據(jù)庫(kù)D中,對(duì)于任一事務(wù),在計(jì)算出該事務(wù)的事務(wù)權(quán)重上限tubw和事務(wù)概率上限tubp后,定義事務(wù)的tubw和tubp的乘積為該事務(wù)的事務(wù)權(quán)重概率上限tubwp〇[0221]比如,根據(jù)表五示出的不確定性數(shù)據(jù)庫(kù)D中各事務(wù)的tubw值和表六示出的不確定性數(shù)據(jù)庫(kù)D中各事務(wù)的tubp值,得到的各事務(wù)的tubwp如表七:[0222]表七[0223][0224]需要說(shuō)明的另一點(diǎn)是,本發(fā)明實(shí)施例所使用的算法的偽代碼示意如下:[0225]輸入:不確定性數(shù)據(jù)庫(kù)D,用戶自定義權(quán)重表w-table,最小期望權(quán)重支持度閾值ε〇[0226]輸出:高權(quán)重期望項(xiàng)集HEWI%[0227]l:foreachTqinDdo[0228]2:calculatetubw(Tq),tubp(Tq),andtubwp(Tq)·//計(jì)算事務(wù)權(quán)重概率上限[0229]3:endfor[0230]4:foreachijinDdo[0231]5:calculateiubwpQ);//計(jì)算項(xiàng)權(quán)重概率上限[0232]6:ifiubwp(ij)彡εX|D|then[0233]TzHUBEWI1-ij.獲取高期望權(quán)重上限項(xiàng)集[0234]8:endif[0235]9:endfor[0236]10:setk-2.[0237]11:setXas(k)-itemset.[0238]12:whileHUBEWIk1關(guān)nulldo//當(dāng)?shù)趉-1候選項(xiàng)集不為空時(shí)[0239]13:Ck=Apriori_gen(HUBEWIkΟ.//根據(jù)第k-1候選項(xiàng)集中的(k-1)-項(xiàng)集自連接生成k項(xiàng)集[0240]14:foreachk-itemsetXinCkdo[0241]15:scanDtocalculateiubwp(X)[0242]16:ifiubwp(X)彡εX|D|then//高期望權(quán)重上限項(xiàng)集判斷公式[0243]17:HUBEWIk-X[0244]18:endif[0245]19:endfor[0246]20:k-k+1//生成k+1候選項(xiàng)集[0247]21:endwhile[0248]22:HUBEWIs-UkHUBEWIk.//將每組高期望權(quán)重上限項(xiàng)集作為高期望權(quán)重上限項(xiàng)集[0249]23:foreachk-itemsetinHUBEWIsdo[0250]24:scanDtocalculateexpSup(X)[0251]25:calculateexpffSup(X)=w(X)XexpSup(X)[0252]26:ifexpWSup(X)彡εX|D|then//高權(quán)重項(xiàng)集判斷公式[0253]27:HEWIs-Χ·[0254]28:endif[0255]29:endfor[0256]30:returnHEWIs.[0257]請(qǐng)參考圖3,其示出了本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘裝置的裝置結(jié)構(gòu)示意圖。參見(jiàn)圖3,該裝置包括:獲取模塊310、第一計(jì)算模塊320、第二計(jì)算模塊330。[0258]獲取模塊310,用于獲取自定義的權(quán)重和最低期望權(quán)重閾值ε,該權(quán)重是不確定性數(shù)據(jù)庫(kù)D中的數(shù)據(jù)項(xiàng)所對(duì)應(yīng)的權(quán)重,該不確定性數(shù)據(jù)庫(kù)D包括至少一個(gè)事務(wù),每個(gè)事務(wù)包括至少一個(gè)數(shù)據(jù)項(xiàng);[0259]第一計(jì)算模塊320,用于根據(jù)該數(shù)據(jù)項(xiàng)的發(fā)生概率和該權(quán)重,計(jì)算該不確定性數(shù)據(jù)庫(kù)D中的項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,將該iubwp彡|D|*ε的項(xiàng)集挖掘?yàn)楦咂谕麢?quán)重上限項(xiàng)集HUBEWI;該項(xiàng)集是包括至少一個(gè)數(shù)據(jù)項(xiàng)的集合,該|D|是該不確定性數(shù)據(jù)庫(kù)D中的事務(wù)總數(shù);[0260]第二計(jì)算模塊330,用于計(jì)算每個(gè)HUBEWI的期望權(quán)重支持度expWSup,將該expWSup彡該|D|*ε的HUBEWI挖掘?yàn)楦邫?quán)重項(xiàng)集HEWI。[0261]綜上所述,本發(fā)明實(shí)施例提供的裝置,通過(guò)計(jì)算各個(gè)項(xiàng)集的項(xiàng)權(quán)重概率上限得到高期望權(quán)重上限項(xiàng)集,再計(jì)算高期望權(quán)重上限項(xiàng)集的期望權(quán)重支持度來(lái)獲取高權(quán)重項(xiàng)集,以少量計(jì)算量先挖掘出高期望權(quán)重上限項(xiàng)集作為候選項(xiàng)集,從而縮小高權(quán)重項(xiàng)集的挖掘范圍,解決了現(xiàn)有技術(shù)中挖掘高權(quán)重項(xiàng)集只能處理精確數(shù)據(jù),尚無(wú)針對(duì)不確定性數(shù)據(jù)庫(kù)的高權(quán)重項(xiàng)集挖掘技術(shù)的問(wèn)題,達(dá)到了提高挖掘的效能的效果。[0262]請(qǐng)參考圖4,其示出了本發(fā)明另一個(gè)實(shí)施例提供的項(xiàng)集挖掘裝置的裝置結(jié)構(gòu)示意圖。參見(jiàn)圖4,該裝置包括:獲取模塊410、第一計(jì)算模塊420、第二計(jì)算模塊430。[0263]獲取模塊410,用于獲取自定義的權(quán)重和最低期望權(quán)重閾值ε,該權(quán)重是不確定性數(shù)據(jù)庫(kù)D中的數(shù)據(jù)項(xiàng)所對(duì)應(yīng)的權(quán)重,該不確定性數(shù)據(jù)庫(kù)D包括至少一個(gè)事務(wù),每個(gè)事務(wù)包括至少一個(gè)數(shù)據(jù)項(xiàng);[0264]第一計(jì)算模塊420,用于根據(jù)該數(shù)據(jù)項(xiàng)的發(fā)生概率和該權(quán)重,計(jì)算該不確定性數(shù)據(jù)庫(kù)D中的項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,將該iubwp彡|D|*ε的項(xiàng)集挖掘?yàn)楦咂谕麢?quán)重上限項(xiàng)集HUBEWI;該項(xiàng)集是包括至少一個(gè)數(shù)據(jù)項(xiàng)的集合,該|D|是該不確定性數(shù)據(jù)庫(kù)D中的事務(wù)總數(shù);[0265]第二計(jì)算模塊430,用于計(jì)算每個(gè)HUBEWI的期望權(quán)重支持度expWSup,將該expWSup彡該|D|*ε的HUBEWI挖掘?yàn)楦邫?quán)重項(xiàng)集HEWI。[0266]可選的,該第一計(jì)算模塊420,包括:第一計(jì)算單元421、第二計(jì)算單元422、項(xiàng)集添加單元423、超集生成單元424、項(xiàng)集更新單元425。[0267]第一計(jì)算單元421,用于根據(jù)該數(shù)據(jù)項(xiàng)的發(fā)生概率和該權(quán)重,計(jì)算每個(gè)事務(wù)的事務(wù)權(quán)重概率上限tubwp;[0268]第二計(jì)算單元422,用于對(duì)于每個(gè)k-項(xiàng)集,根據(jù)包含有該k-項(xiàng)集的事務(wù)的tubwp,計(jì)算該k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,該k-項(xiàng)集是包含k個(gè)數(shù)據(jù)項(xiàng)的集合,k多1;[0269]項(xiàng)集添加單元423,用于將該iubwp彡該|D|*ε的k-項(xiàng)集添加到第k組HUBEWI中;[0270]超集生成單元424,用于當(dāng)該第k組HUBEWI不為空時(shí),根據(jù)該第k組HUBEWI中的k_項(xiàng)集自連接生成(k+l)_項(xiàng)集,該(k+l)_項(xiàng)集是該k-項(xiàng)集的超集,該(k+l)_項(xiàng)集是包含k+Ι個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集;[0271]項(xiàng)集更新單元425,用于將k更新為k+Ι,再次執(zhí)行根據(jù)該對(duì)于每個(gè)k-項(xiàng)集,根據(jù)包含有該k-項(xiàng)集的事務(wù)的tubwp,計(jì)算該k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp的步驟。[0272]可選的,該第一計(jì)算單元421,包括:第一計(jì)算子單元421a、第二計(jì)算子單元421b。[0273]第一計(jì)算子單元421a,用于將每個(gè)事務(wù)包含的各個(gè)數(shù)據(jù)項(xiàng)的權(quán)重中的最大值確定為該事務(wù)的事務(wù)權(quán)重上限tubw,將每個(gè)事務(wù)包含的各個(gè)數(shù)據(jù)項(xiàng)的發(fā)生概率中的最大值確定為該事務(wù)的事務(wù)概率上限tubp;[0274]第二計(jì)算子單元421b,用于根據(jù)該事務(wù)的tubw和tubp,計(jì)算每個(gè)事務(wù)的事務(wù)權(quán)重概率上限tubwp。[0275]可選的,該第一計(jì)算單元421,還用于對(duì)于每個(gè)k-項(xiàng)集,將包含該k-項(xiàng)集的每個(gè)事務(wù)的tubwp之和,確定為該k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp。[0276]可選的,該第二計(jì)算模塊430,包括:權(quán)重確定單元431、概率獲取單元432、第一支持度確定單元433、第二支持度確定單元434、項(xiàng)集挖掘單元435。[0277]權(quán)重確定單元431,用于對(duì)于每個(gè)該HUBEWI,計(jì)算該HUBEWI在包含有該HUBEWI的事務(wù)中的項(xiàng)集權(quán)重,將該項(xiàng)集權(quán)重確定為該HUBEWI在不確定性數(shù)據(jù)庫(kù)D的項(xiàng)集權(quán)重;[0278]概率獲取單元432,用于獲取該HUBEWI在每個(gè)包含有該HUBEWI的事務(wù)中的項(xiàng)集概率;[0279]第一支持度確定單元433,用于將該HUBEWI在所有包含有該HUBEWI的事務(wù)中的項(xiàng)集概率之和,確定為該HUBEWI的期望支持度expSup;[0280]第二支持度確定單元434,用于根據(jù)該項(xiàng)集權(quán)重與該expSup,計(jì)算該HUBEWI的期望權(quán)重支持度expWSup;[0281]項(xiàng)集挖掘單元435,用于當(dāng)該expWSup彡該|D|*ε時(shí),將該HUBEWI挖掘?yàn)楦邫?quán)重項(xiàng)集HEWI。[0282]綜上所述,本發(fā)明實(shí)施例提供的裝置,通過(guò)計(jì)算各個(gè)項(xiàng)集的項(xiàng)權(quán)重概率上限得到高期望權(quán)重上限項(xiàng)集,再計(jì)算高期望權(quán)重上限項(xiàng)集的期望權(quán)重支持度來(lái)獲取高權(quán)重項(xiàng)集,以少量計(jì)算量先挖掘出高期望權(quán)重上限項(xiàng)集作為候選項(xiàng)集,從而縮小高權(quán)重項(xiàng)集的挖掘范圍,解決了現(xiàn)有技術(shù)中挖掘高權(quán)重項(xiàng)集只能處理精確數(shù)據(jù),尚無(wú)針對(duì)不確定性數(shù)據(jù)庫(kù)的高權(quán)重項(xiàng)集挖掘技術(shù)的問(wèn)題,達(dá)到了提高挖掘的效能的效果。[0283]需要說(shuō)明的是:上述實(shí)施例提供的項(xiàng)集挖掘裝置在挖掘項(xiàng)集時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說(shuō)明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將設(shè)備的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的項(xiàng)集挖掘裝置與項(xiàng)集挖掘方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過(guò)程詳見(jiàn)方法實(shí)施例,這里不再贅述。[0284]上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。[0285]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過(guò)硬件來(lái)完成,也可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤(pán)或光盤(pán)等。[0286]以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)?!局鳈?quán)項(xiàng)】1.一種項(xiàng)集挖掘方法,其特征在于,所述方法包括:獲取自定義的權(quán)重和最低期望權(quán)重閾值ε,所述權(quán)重是不確定性數(shù)據(jù)庫(kù)D中的數(shù)據(jù)項(xiàng)所對(duì)應(yīng)的權(quán)重,所述不確定性數(shù)據(jù)庫(kù)D包括至少一個(gè)事務(wù),每個(gè)事務(wù)包括至少一個(gè)數(shù)據(jù)項(xiàng);根據(jù)所述數(shù)據(jù)項(xiàng)的發(fā)生概率和所述權(quán)重,計(jì)算所述不確定性數(shù)據(jù)庫(kù)D中的項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,將所述iubwp彡|D|*ε的項(xiàng)集挖掘?yàn)楦咂谕麢?quán)重上限項(xiàng)集HUBEWI;所述項(xiàng)集是包括至少一個(gè)數(shù)據(jù)項(xiàng)的集合,所述|D|是所述不確定性數(shù)據(jù)庫(kù)D中的事務(wù)總數(shù);計(jì)算每個(gè)HUBEWI的期望權(quán)重支持度expWSup,將所述expWSup彡所述|D|*ε的HUBEWI挖掘?yàn)楦邫?quán)重項(xiàng)集HEWI。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述數(shù)據(jù)項(xiàng)的發(fā)生概率和所述權(quán)重,計(jì)算所述不確定性數(shù)據(jù)庫(kù)D中的項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,將所述iubwp彡|D|*ε的項(xiàng)集挖掘?yàn)楦咂谕麢?quán)重上限項(xiàng)集HUBEWI,包括:根據(jù)所述數(shù)據(jù)項(xiàng)的發(fā)生概率和所述權(quán)重,計(jì)算每個(gè)事務(wù)的事務(wù)權(quán)重概率上限tubwp;對(duì)于每個(gè)k-項(xiàng)集,根據(jù)包含有所述k-項(xiàng)集的事務(wù)的tubwp,計(jì)算所述k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,所述k-項(xiàng)集是包含k個(gè)數(shù)據(jù)項(xiàng)的集合,k多1;將所述iubwp彡所述|D|*ε的k-項(xiàng)集添加到第k組HUBEWI中;當(dāng)所述第k組HUBEWI不為空時(shí),根據(jù)所述第k組HUBEWI中的k-項(xiàng)集自連接生成(k+1)-項(xiàng)集,所述(k+1)-項(xiàng)集是所述k-項(xiàng)集的超集,所述(k+1)-項(xiàng)集是包含k+Ι個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集;將所述k更新為k+1,再次執(zhí)行根據(jù)所述對(duì)于每個(gè)k-項(xiàng)集,根據(jù)包含有所述k-項(xiàng)集的事務(wù)的tubwp,計(jì)算所述k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp的步驟。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述數(shù)據(jù)項(xiàng)的發(fā)生概率和所述權(quán)重,計(jì)算每個(gè)事務(wù)的事務(wù)權(quán)重概率上限tubwp,包括:將每個(gè)事務(wù)包含的各個(gè)數(shù)據(jù)項(xiàng)的所述權(quán)重中的最大值確定為所述事務(wù)的事務(wù)權(quán)重上限tubw,將每個(gè)事務(wù)包含的各個(gè)數(shù)據(jù)項(xiàng)的所述發(fā)生概率中的最大值確定為所述事務(wù)的事務(wù)概率上限tubp;根據(jù)所述事務(wù)的tubw和tubp,計(jì)算每個(gè)事務(wù)的事務(wù)權(quán)重概率上限tubwp。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)于每個(gè)k-項(xiàng)集,根據(jù)包含有所述k_項(xiàng)集的事務(wù)的tubwp,計(jì)算所述k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,包括:對(duì)于每個(gè)k-項(xiàng)集,將包含所述k-項(xiàng)集的每個(gè)事務(wù)的所述tubwp之和,確定為所述k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp。5.根據(jù)權(quán)利要求1至4任一所述的方法,其特征在于,所述計(jì)算每個(gè)HUBEWI的期望權(quán)重支持度expWSup,將所述expWSup彡所述|D|*ε的HUBEWI挖掘?yàn)楦邫?quán)重項(xiàng)集HEWI,包括:對(duì)于每個(gè)所述HUBEWI,計(jì)算所述HUBEWI在包含有所述HUBEWI的事務(wù)中的項(xiàng)集權(quán)重,將所述項(xiàng)集權(quán)重確定為所述HUBEWI在所述不確定性數(shù)據(jù)庫(kù)D的項(xiàng)集權(quán)重;獲取所述HUBEWI在每個(gè)包含有所述HUBEWI的事務(wù)中的項(xiàng)集概率;將所述HUBEWI在所有包含有所述HUBEWI的事務(wù)中的項(xiàng)集概率之和,確定為所述HUBEWI的期望支持度expSup;根據(jù)所述項(xiàng)集權(quán)重與所述expSup,計(jì)算所述HUBEWI的期望權(quán)重支持度expWSup;若所述expWSup彡所述IDI*ε,則將所述HUBEWI挖掘?yàn)楦邫?quán)重項(xiàng)集HEWI。6.-種項(xiàng)集挖掘裝置,其特征在于,所述裝置包括:獲取模塊,用于獲取自定義的權(quán)重和最低期望權(quán)重閾值ε,所述權(quán)重是不確定性數(shù)據(jù)庫(kù)D中的數(shù)據(jù)項(xiàng)所對(duì)應(yīng)的權(quán)重,所述不確定性數(shù)據(jù)庫(kù)D包括至少一個(gè)事務(wù),每個(gè)事務(wù)包括至少一個(gè)數(shù)據(jù)項(xiàng);第一計(jì)算模塊,用于根據(jù)所述數(shù)據(jù)項(xiàng)的發(fā)生概率和所述權(quán)重,計(jì)算所述不確定性數(shù)據(jù)庫(kù)D中的項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,將所述iubwp彡|D|*ε的項(xiàng)集挖掘?yàn)楦咂谕麢?quán)重上限項(xiàng)集HUBEWI;所述項(xiàng)集是包括至少一個(gè)數(shù)據(jù)項(xiàng)的集合,所述|D|是所述不確定性數(shù)據(jù)庫(kù)D中的事務(wù)總數(shù);第二計(jì)算模塊,用于計(jì)算每個(gè)HUBEWI的期望權(quán)重支持度expWSup,將所述expWSup彡所述|D|*ε的HUBEWI挖掘?yàn)楦邫?quán)重項(xiàng)集HEWI。7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一計(jì)算模塊,包括:第一計(jì)算單元,用于根據(jù)所述數(shù)據(jù)項(xiàng)的發(fā)生概率和所述權(quán)重,計(jì)算每個(gè)事務(wù)的事務(wù)權(quán)重概率上限tubwp;第二計(jì)算單元,用于對(duì)于每個(gè)k-項(xiàng)集,根據(jù)包含有所述k-項(xiàng)集的事務(wù)的tubwp,計(jì)算所述k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp,所述k-項(xiàng)集是包含k個(gè)數(shù)據(jù)項(xiàng)的集合,k多1;項(xiàng)集添加單元,用于將所述iubwp彡所述|D|*ε的k-項(xiàng)集添加到第k組HUBEWI中;超集生成單元,用于當(dāng)所述第k組HUBEWI不為空時(shí),根據(jù)所述第k組HUBEWI中的k-項(xiàng)集自連接生成(k+l)_項(xiàng)集,所述(k+l)_項(xiàng)集是所述k-項(xiàng)集的超集,所述(k+l)_項(xiàng)集是包含k+Ι個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集;項(xiàng)集更新單元,用于將所述k更新為k+Ι,再次執(zhí)行根據(jù)所述對(duì)于每個(gè)k-項(xiàng)集,根據(jù)包含有所述k-項(xiàng)集的事務(wù)的tubwp,計(jì)算所述k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp的步驟。8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一計(jì)算單元,包括:第一計(jì)算子單元,用于將每個(gè)事務(wù)包含的各個(gè)數(shù)據(jù)項(xiàng)的所述權(quán)重中的最大值確定為所述事務(wù)的事務(wù)權(quán)重上限tubw,將每個(gè)事務(wù)包含的各個(gè)數(shù)據(jù)項(xiàng)的所述發(fā)生概率中的最大值確定為所述事務(wù)的事務(wù)概率上限tubp;第二計(jì)算子單元,用于根據(jù)所述事務(wù)的tubw和tubp,計(jì)算每個(gè)事務(wù)的事務(wù)權(quán)重概率上限tubwp。9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一計(jì)算單元還用于對(duì)于每個(gè)k-項(xiàng)集,將包含所述k-項(xiàng)集的每個(gè)事務(wù)的所述tubwp之和,確定為所述k-項(xiàng)集的項(xiàng)權(quán)重概率上限iubwp。10.根據(jù)權(quán)利要求6至9任一所述的裝置,其特征在于,所述第二計(jì)算模塊,包括:權(quán)重確定單元,用于對(duì)于每個(gè)所述HUBEWI,計(jì)算所述HUBEWI在包含有所述HUBEWI的事務(wù)中的項(xiàng)集權(quán)重,將所述項(xiàng)集權(quán)重確定為所述HUBEWI在不確定性數(shù)據(jù)庫(kù)D的項(xiàng)集權(quán)重;概率獲取單元,用于獲取所述HUBEWI在每個(gè)包含有所述HUBEWI的事務(wù)中的項(xiàng)集概率;第一支持度確定單元,用于將所述HUBEWI在所有包含有所述HUBEWI的事務(wù)中的項(xiàng)集概率之和,確定為所述HUBEWI的期望支持度expSup;第二支持度確定單元,用于根據(jù)所述項(xiàng)集權(quán)重與所述expSup,計(jì)算所述HUBEWI的期望權(quán)重支持度expWSup;項(xiàng)集挖掘單元,用于當(dāng)所述expWSup彡所述IDI*ε時(shí),將所述HUBEWI挖掘?yàn)楦邫?quán)重項(xiàng)集HEWI〇【文檔編號(hào)】G06F17/30GK106033449SQ201510116198【公開(kāi)日】2016年10月19日【申請(qǐng)日】2015年3月17日【發(fā)明人】林?,|,李勇,王巨宏,賴(lài)曉平,甘文生【申請(qǐng)人】哈爾濱工業(yè)大學(xué)深圳研究生院,騰訊科技(深圳)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1