本發(fā)明實(shí)施例涉及數(shù)據(jù)挖掘
技術(shù)領(lǐng)域:
:,特別涉及一種項(xiàng)集挖掘方法及裝置。
背景技術(shù):
::數(shù)據(jù)庫中通常包括有至少一個(gè)事務(wù)(英文:Transaction),每個(gè)事務(wù)中包括至少一個(gè)數(shù)據(jù)項(xiàng)(英文:item),比如,一條關(guān)于購物記錄的事務(wù)中,包括商品名稱和購買數(shù)量等數(shù)據(jù)項(xiàng)。為了發(fā)現(xiàn)不同數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)規(guī)則,需要進(jìn)行目標(biāo)數(shù)據(jù)項(xiàng)集的挖掘。項(xiàng)集(英文:Itemsets)是由至少一個(gè)數(shù)據(jù)項(xiàng)構(gòu)成的集合,用于表征數(shù)據(jù)庫中內(nèi)在的一種關(guān)聯(lián)規(guī)則。HUIM(High-UtilityItemsetsMining,高效用項(xiàng)集挖掘)作為一種常見的數(shù)據(jù)挖掘方式,用于從數(shù)據(jù)庫中挖掘出由不同數(shù)據(jù)項(xiàng)組成的效用值較高的項(xiàng)集。在現(xiàn)有的基于HUIM的算法中,根據(jù)不同數(shù)據(jù)項(xiàng)各自對應(yīng)的效用值,計(jì)算數(shù)據(jù)庫中各個(gè)項(xiàng)集對應(yīng)的效用值,當(dāng)該項(xiàng)集對應(yīng)的效用值大于或等于預(yù)設(shè)效用值時(shí),確定該項(xiàng)集為高效用項(xiàng)集并進(jìn)行挖掘,從而實(shí)現(xiàn)從數(shù)據(jù)庫中挖掘出高效用的項(xiàng)集。在實(shí)現(xiàn)本發(fā)明實(shí)施例的過程中,發(fā)明人發(fā)現(xiàn)上述技術(shù)至少存在以下問題:在現(xiàn)有的基于HUIM的算法中,數(shù)據(jù)項(xiàng)對應(yīng)的效用值被認(rèn)為是固定不變的,而在實(shí)際情況中,數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)對應(yīng)的效用值通常是變化的,導(dǎo)致計(jì)算得到的項(xiàng)集的效用值不準(zhǔn)確,挖掘出的高效用項(xiàng)集的實(shí)際使用價(jià)值較低。比如,當(dāng)數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)對應(yīng)商品時(shí),該數(shù)據(jù)項(xiàng)的效用值即為商品的利潤,而商品的利潤又通常與商品的成本價(jià)、售價(jià)和打折情況有關(guān),即商品的利潤是變化的。技術(shù)實(shí)現(xiàn)要素:為了解決上述技術(shù)的問題,本發(fā)明實(shí)施例提供了一種項(xiàng)集挖掘方法及裝置。所述技術(shù)方案如下:根據(jù)本發(fā)明實(shí)施例的第一方面,提供一種項(xiàng)集挖掘方法,該方法包括:獲取自定義的最低效用閾值、價(jià)格表和折扣表;價(jià)格表中包含各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)和售價(jià);折扣表中包含各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的折扣類型和折扣參數(shù);對于數(shù)據(jù)庫中的各個(gè)項(xiàng)集,根據(jù)項(xiàng)集中包含的數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)、售價(jià)、折扣類型和折扣參數(shù),計(jì)算項(xiàng)集的實(shí)際效用值;項(xiàng)集包含至少一個(gè)數(shù)據(jù)項(xiàng);當(dāng)實(shí)際效用值≥最低效用閾值時(shí),確定項(xiàng)集為高效用項(xiàng)集。根據(jù)本發(fā)明實(shí)施例的第二方面,提供一種項(xiàng)集挖掘裝置,該裝置包括:獲取模塊,用于獲取自定義的最低效用閾值、價(jià)格表和折扣表;價(jià)格表中包含各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)和售價(jià);折扣表中包含數(shù)據(jù)項(xiàng)對應(yīng)的折扣類型和折扣參數(shù);計(jì)算模塊,用于對于數(shù)據(jù)庫中的各個(gè)項(xiàng)集,根據(jù)項(xiàng)集中包含的數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)、售價(jià)、折扣類型和折扣參數(shù),計(jì)算項(xiàng)集的實(shí)際效用值;項(xiàng)集包含至少一個(gè)數(shù)據(jù)項(xiàng);確定模塊,用于當(dāng)實(shí)際效用值≥最低效用閾值時(shí),確定項(xiàng)集為高效用項(xiàng)集。本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是:通過根據(jù)各個(gè)數(shù)據(jù)項(xiàng)各自對應(yīng)的折扣策略計(jì)算數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值,并挖掘出實(shí)際效用值大于最低效用閾值的高效用項(xiàng)集;解決了計(jì)算得到的項(xiàng)集的效用值不準(zhǔn)確,影響挖掘出的高效用項(xiàng)集的實(shí)際使用價(jià)值的問題;達(dá)到了結(jié)合數(shù)據(jù)項(xiàng)對應(yīng)的折扣策略,使得計(jì)算出的數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值更加準(zhǔn)確,從而提高挖掘出的高效用項(xiàng)集的實(shí)際使用價(jià)值的效果。附圖說明為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1A是本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖;圖1B是本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖;圖2A是本發(fā)明另一實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖;圖2B是本發(fā)明另一實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖;圖3A是本發(fā)明再一實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖;圖3B是本發(fā)明再一實(shí)施例提供的項(xiàng)集挖掘方法中生成的第1-PNU表的結(jié)構(gòu)示意圖;圖3C是本發(fā)明再一實(shí)施例提供的項(xiàng)集挖掘方法所涉及的生成EUCS表過程的方法流程圖;圖4是本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘裝置的結(jié)構(gòu)方框圖;圖5是本發(fā)明另一實(shí)施例提供的項(xiàng)集挖掘裝置的結(jié)構(gòu)方框圖。具體實(shí)施方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。為了便于對本發(fā)明實(shí)施例進(jìn)行說明,預(yù)先對本發(fā)明實(shí)施例涉及的基本概念進(jìn)行如下介紹:1、事務(wù)(英文:Transaction):指數(shù)據(jù)庫中的一條記錄。比如,在表一所示的數(shù)據(jù)庫中,該數(shù)據(jù)庫中共包含10條記錄,即數(shù)據(jù)庫中包含10個(gè)事務(wù),且每條記錄分別對應(yīng)一條購買記錄,該購買記錄中包含購買商品的名稱等信息。表一TID事務(wù)數(shù)據(jù)1(A,3),(C,2),(E,4)2(D,1),(F,2)3(A,1),(B,3),(C,1),(D,3),(F,1)4(B,1),(D,1),(F,3)5(B,1),(C,4)6(A,2),(B,6),(C,3),(D,4),(F,1)7(C,1),(D,2),(E,5)8(B,2),(E,1)9(B,2),(D,1),(F,1)10(A,4),(B,1),(D,1),(E,3)該數(shù)據(jù)庫中,每個(gè)事務(wù)中還記錄有各個(gè)數(shù)據(jù)項(xiàng)各自對應(yīng)的數(shù)量。比如,在事務(wù)1中,數(shù)據(jù)項(xiàng)A對應(yīng)的數(shù)量為3,數(shù)據(jù)項(xiàng)C對應(yīng)的數(shù)量為2,數(shù)據(jù)項(xiàng)E對應(yīng)的數(shù)量為4,該條記錄的實(shí)際意義可以為:一位顧客購買了3件A商品,2件C商品以及4件E商品。2、事務(wù)編號(英文:TID):數(shù)據(jù)庫中不同事務(wù)的編號。3、數(shù)據(jù)項(xiàng):事務(wù)中記錄的每條信息項(xiàng)目,且一個(gè)事務(wù)中包含至少一個(gè)數(shù)據(jù)項(xiàng)。比如,在表一所示的數(shù)據(jù)庫中,事務(wù)中的數(shù)據(jù)項(xiàng)則可以是購買記錄中,購買商品的名稱。4、項(xiàng)集:至少一個(gè)數(shù)據(jù)項(xiàng)構(gòu)成的集合,用于表征數(shù)據(jù)庫內(nèi)在的一種關(guān)聯(lián)規(guī)則。事務(wù)與項(xiàng)集的不同的點(diǎn)是,事務(wù)通常是由實(shí)際的事件所觸發(fā)生成的數(shù)據(jù)庫中的記錄;而項(xiàng)集通常是從數(shù)據(jù)庫挖掘而出的,并不一定有實(shí)際的含義。5、k-項(xiàng)集:包含有k個(gè)數(shù)據(jù)項(xiàng)的集合。比如,項(xiàng)集A為1-項(xiàng)集,即該項(xiàng)集中只包含數(shù)據(jù)項(xiàng)A;項(xiàng)集AB為2-項(xiàng)集,即該項(xiàng)集中包含數(shù)據(jù)項(xiàng)A和數(shù)據(jù)項(xiàng)B。6、價(jià)格表(英文名:ptable):用于記錄數(shù)據(jù)庫中各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)及售價(jià)。比如,在表一所示的數(shù)據(jù)庫中,包含數(shù)據(jù)項(xiàng)A、B、C、D、E和F,各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)和售價(jià)可以示意性的如表二所示。表二數(shù)據(jù)項(xiàng)成本價(jià)售價(jià)A2535B810C70128D510E3850F10187、折扣表(英文名:stable):用于記錄數(shù)據(jù)庫中各個(gè)數(shù)據(jù)項(xiàng)各自對應(yīng)的折扣類型和折扣參數(shù)。其中,各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的折扣類型可以相同或者不同,同一折扣類型對應(yīng)的折扣參數(shù)可以相同或者不同。比如,結(jié)合上述表一和表二,該折扣表可以示意性的如表三所示。表三數(shù)據(jù)項(xiàng)折扣類型Sgi折扣參數(shù)v1折扣參數(shù)v2A10.75-B11.0-C221D10-E320.6F10.8-其中,折扣類型1即Sg1所指示的折扣策略為:顧客以(售價(jià)×v1)購得商品X。比如,當(dāng)顧客購買商品A時(shí),對應(yīng)的v1為0.75,即以售價(jià)的75%出售該商品,即用戶以35×0.75=26.25購得商品A;折扣類型2即Sg2所指示的折扣策略為:顧客每購買v1個(gè)商品X,可免費(fèi)獲贈(zèng)v2個(gè)商品X。比如,當(dāng)顧客購買2個(gè)商品C時(shí),即可免費(fèi)獲贈(zèng)1個(gè)商品C;折扣類型3即Sg3所指示的折扣策略為:顧客購買商品X的數(shù)量到達(dá)v1后,后續(xù)購買商品X時(shí),以(售價(jià)×v2)購得商品X。比如,當(dāng)顧客購買商品E的數(shù)量達(dá)到2個(gè)后,后續(xù)購買商品E時(shí),可以按照50×0.6=30的價(jià)格購得商品E。8、效用值:數(shù)據(jù)庫中各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的效用或利益,表示為效用值。該效用值與數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)、售價(jià)、折扣類型和折扣參數(shù)有關(guān),且數(shù)據(jù)項(xiàng)對應(yīng)的效用值可以為正,也可以為負(fù)。結(jié)合表二和表三可知,數(shù)據(jù)項(xiàng)A對應(yīng)的效用值為35×0.75-25=1.25>0;數(shù)據(jù)項(xiàng)D對應(yīng)的效用值即為10×0-5=-5<0。需要說明的是,結(jié)合上述表二和表三,能夠發(fā)現(xiàn),數(shù)據(jù)項(xiàng)對應(yīng)的單位效用可能會(huì)發(fā)生改變。比如,當(dāng)數(shù)據(jù)項(xiàng)E在事務(wù)中對應(yīng)的數(shù)量為1或2時(shí),數(shù)據(jù)項(xiàng)E的單位效用為50-38=12;當(dāng)數(shù)據(jù)項(xiàng)E在事務(wù)中對應(yīng)的數(shù)量大于2時(shí),數(shù)據(jù)項(xiàng)E的單位效用即變?yōu)?0×0.6-38=-8。9、ubtu(upper-boundtransactionutility,事務(wù)效用上限):事務(wù)對應(yīng)的ubtu指事務(wù)中效用值為正的數(shù)據(jù)項(xiàng)對應(yīng)的效用值之和,即事務(wù)中數(shù)據(jù)項(xiàng)的正效用之和。結(jié)合上述表一、表二和表三,該數(shù)據(jù)庫中各個(gè)事務(wù)對應(yīng)的ubtu可以如表四所示。表四比如,事務(wù)1中,由于各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的效用值均為正,所以事務(wù)1對應(yīng)的ubtu即為3.75+116+8.0=127.75;又比如,事務(wù)2中,由于數(shù)據(jù)項(xiàng)D對應(yīng)的效用值為負(fù),所以事務(wù)2對應(yīng)的ubtu除數(shù)據(jù)項(xiàng)D以外的其它數(shù)據(jù)項(xiàng)的效用值之和,即數(shù)據(jù)項(xiàng)D的效用值8.8。顯而易見的,事務(wù)對應(yīng)的ubtu大于等于事務(wù)中所有數(shù)據(jù)項(xiàng)對應(yīng)的效用值之和。10、ubtwu(upper-boundtransaction-weightedutility,事務(wù)加權(quán)效用上限):k-項(xiàng)集對應(yīng)的ubtwu指包含k-項(xiàng)集的事務(wù)對應(yīng)的ubtu之和。比如,結(jié)合表四所示,包含項(xiàng)集A的事務(wù)的TID為1、3、6和10,項(xiàng)集A對應(yīng)的ubtwu即為事務(wù)1、3、6和10對應(yīng)ubtu之和=127.75+69.65+64.9+23=285.3。11、HTWUI(HighTransaction-WeightedUtilityItemset,高事務(wù)加權(quán)效用項(xiàng)集):指ubtwu≥最低效用閾值的項(xiàng)集。比如,以最低效用閾值為100為例,項(xiàng)集C對應(yīng)的ubtwu=426.3>100,即項(xiàng)集C為HTWUI。12、HUI(HighUtilityItemset,高效用項(xiàng)集):指實(shí)際效用值≥最低效用閾值的項(xiàng)集。比如,項(xiàng)集C的實(shí)際效用值為116+58+104+46+58=382>100,即項(xiàng)集C為HUI;又比如,項(xiàng)集ABCF的實(shí)際效用值1.25+6+58+4.4+2.5+12+46+4.4=134.55>100,即項(xiàng)集ABCF也為HUI。13、HUID(miningHighUtilityItemsetwithvariousDiscountstrategy,基于多折扣策略的高效用數(shù)據(jù)挖掘):用于根據(jù)數(shù)據(jù)庫中各個(gè)數(shù)據(jù)項(xiàng)各自對應(yīng)的折扣 類型、折扣參數(shù)、售價(jià)及成本價(jià),從數(shù)據(jù)庫中挖掘出實(shí)際效用值大于等于最低效用閾值的項(xiàng)集的方法。14、第k-TID表:包含k-項(xiàng)集與包含該k-項(xiàng)集的事務(wù)的TID的對應(yīng)關(guān)系。結(jié)合表一,第1-TID表可以示意性的如表五所示。表五項(xiàng)集TIDsA1、3、6、10B3、4、5、6、8、9、10C1、3、5、6、7D2、3、4、6、7、9、10E1、7、8、10F2、3、4、6、915、項(xiàng)集效用(英文:Iutility):指定項(xiàng)集在指定事務(wù)中對應(yīng)的效用值。比如,結(jié)合表一、表二和表三,指定項(xiàng)集F在指定事務(wù)2中的項(xiàng)集效用為2×(18×0.8-10)=8.8。16、項(xiàng)集負(fù)效用(英文:Nutility):指定項(xiàng)集在指定事務(wù)中的負(fù)效用,即項(xiàng)集中包含的數(shù)據(jù)項(xiàng)的負(fù)效用之和。比如,結(jié)合表一、表二和表三,指定項(xiàng)集D在事務(wù)4中的項(xiàng)集負(fù)效用即為1×(10×0-5)=-5;且項(xiàng)集BD、DF、BDF在事務(wù)中的項(xiàng)集負(fù)效用均為-5。17、項(xiàng)集正效用(英文:Putility):指定項(xiàng)集在指定事務(wù)中項(xiàng)集效用與項(xiàng)集負(fù)效用之差,即項(xiàng)集中包含的數(shù)據(jù)項(xiàng)的正效用之和。比如,結(jié)合表一、表二和表三,項(xiàng)集CD在事務(wù)3中的項(xiàng)集效用為58-15=43,項(xiàng)集CD在事務(wù)3中的項(xiàng)集負(fù)效用為-15,項(xiàng)集CD在事務(wù)3中的項(xiàng)集正效用則為43-(-15)=58。18、項(xiàng)集剩余效用(英文:Rutility):在指定事務(wù)中,除指定項(xiàng)集的項(xiàng)集效用之外,且排序在指定項(xiàng)集后面的所有項(xiàng)集的正效用之和。需要說明的是,在計(jì)算指定項(xiàng)集的項(xiàng)集效用之前,需要根據(jù)項(xiàng)集的ubtwu大小,按照升序?qū)?xiàng)集進(jìn)行排序,在計(jì)算指定項(xiàng)集的項(xiàng)集剩余效用時(shí),僅計(jì)算排序在該指定項(xiàng)集之后的所有項(xiàng)集的正效用之和。比如,結(jié)合表一、表二和表三,首先根據(jù)1-項(xiàng)集的ubtwu大小排序,得到的序列為F<E<D<A<B<C,在計(jì)算事務(wù)3中,項(xiàng)集B的項(xiàng)集剩余效用時(shí),由于僅項(xiàng)集C排序在項(xiàng)集B之后,所以項(xiàng)集B的項(xiàng)集剩余 效用=項(xiàng)集C的效用值=58;而在計(jì)算事務(wù)3中,項(xiàng)集C的項(xiàng)集剩余效用時(shí),由于項(xiàng)集C之后不存在其他的項(xiàng)集,所以項(xiàng)集C的項(xiàng)集剩余效用值為0。19、PNU表(英文:Positive-and-NegativeUtilityList):包含項(xiàng)集所在事務(wù)的TID、項(xiàng)集對應(yīng)的Iutility、項(xiàng)集對應(yīng)的Nutility以及項(xiàng)集對應(yīng)的Rutility的表。比如,結(jié)合表一、表二和表三,項(xiàng)集F對應(yīng)的PNU表可以如表六所示。表六20、EUCS表(英文:EstimatedUtilityCo-occurrenceStrategyList):包含k項(xiàng)集和其對應(yīng)的ubtwu。結(jié)合表一、表二和表三,2-項(xiàng)集對應(yīng)的EUCS表可以如表七所示。表七項(xiàng)集ABCDEFB157.55-----C262.3240.55----D157.55181.15192.55---E150.7539.0185.7581.0--F134.55158.15134.55166.950-比如,2-項(xiàng)集AB對應(yīng)的ubtwu即為157.55;2-項(xiàng)集AF對應(yīng)的ubtwu為134.55。為了方便理解,本文中的所有實(shí)施例均結(jié)合表一至表七中的數(shù)據(jù)進(jìn)行舉例說明。請參考圖1A,其示出了本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖。該方法包括:步驟101,獲取自定義的最低效用閾值、價(jià)格表和折扣表;價(jià)格表中包含各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)和售價(jià);折扣表中包含各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的折扣類型和折扣參數(shù)。步驟102,對于數(shù)據(jù)庫中的各個(gè)項(xiàng)集,根據(jù)項(xiàng)集中包含的數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)、售價(jià)、折扣類型和折扣參數(shù),計(jì)算項(xiàng)集的實(shí)際效用值;項(xiàng)集包含至少一個(gè)數(shù)據(jù)項(xiàng)。步驟103,當(dāng)實(shí)際效用值≥最低效用閾值時(shí),確定項(xiàng)集為高效用項(xiàng)集。綜上所述,本實(shí)施例提供的項(xiàng)集挖掘方法,通過根據(jù)各個(gè)數(shù)據(jù)項(xiàng)各自對應(yīng)的折扣策略計(jì)算數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值,并挖掘出實(shí)際效用值大于最低效用閾值的高效用項(xiàng)集;解決了計(jì)算得到的項(xiàng)集的效用值不準(zhǔn)確,影響挖掘出的高效用項(xiàng)集的實(shí)際使用價(jià)值的問題;達(dá)到了結(jié)合數(shù)據(jù)項(xiàng)對應(yīng)的折扣策略,使得計(jì)算出的數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值更加準(zhǔn)確,從而提高挖掘出的高效用項(xiàng)集的實(shí)際使用價(jià)值的效果。可選地,如圖1B所示,上述步驟102可以包括步驟102A、步驟102B和步驟102C:步驟102A,對于包含該項(xiàng)集的事務(wù),獲取該項(xiàng)集中包含的各個(gè)數(shù)據(jù)項(xiàng)在事務(wù)中各自對應(yīng)的數(shù)量。在計(jì)算數(shù)據(jù)庫中某個(gè)項(xiàng)集的實(shí)際效用值時(shí),由于并非數(shù)據(jù)庫中的所有事務(wù)均包含該項(xiàng)集,所以需要預(yù)先確定包含該項(xiàng)集的事務(wù)。比如,結(jié)合表一所示的數(shù)據(jù)庫,當(dāng)計(jì)算項(xiàng)集AC的實(shí)際效用值時(shí),由于僅事務(wù)1、事務(wù)3和事務(wù)6中同時(shí)包含數(shù)據(jù)項(xiàng)A數(shù)據(jù)項(xiàng)C,所以,計(jì)算項(xiàng)集AC的實(shí)際效用值即計(jì)算項(xiàng)集AC在事務(wù)1、事務(wù)3和事務(wù)6中的效用值之和。另外,由于項(xiàng)集中包含的數(shù)據(jù)項(xiàng)在不同事務(wù)中出現(xiàn)的數(shù)量也不同,所以在確定包含該項(xiàng)集的事務(wù)后,需要進(jìn)一步獲取該項(xiàng)集中包含的各個(gè)數(shù)據(jù)項(xiàng)在事務(wù)中各自對應(yīng)的數(shù)量。比如,計(jì)算項(xiàng)集AC的實(shí)際效用值時(shí),獲取到數(shù)據(jù)項(xiàng)A和數(shù)據(jù)項(xiàng)C在事務(wù)1、事務(wù)3和事務(wù)6中各自對應(yīng)的數(shù)量,即數(shù)據(jù)項(xiàng)在A在事務(wù)1中對應(yīng)的數(shù)量為3,數(shù)據(jù)項(xiàng)C在事務(wù)1中對應(yīng)的數(shù)量為2;數(shù)據(jù)項(xiàng)在A在事務(wù)3中對應(yīng)的數(shù)量為1,數(shù)據(jù)項(xiàng)C在事務(wù)3中對應(yīng)的數(shù)量為1;數(shù)據(jù)項(xiàng)在A在事務(wù)6中對應(yīng)的數(shù)量為2,數(shù)據(jù)項(xiàng)C在事務(wù)6中對應(yīng)的數(shù)量為3。步驟102B,根據(jù)項(xiàng)集中各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)、售價(jià)、折扣類型、折扣參數(shù)和數(shù)量,計(jì)算項(xiàng)集在事務(wù)中的效用值。根據(jù)從自定義的價(jià)格表中獲取項(xiàng)集中包含的各個(gè)數(shù)據(jù)項(xiàng)各自對應(yīng)的成本價(jià)和售價(jià),從自定的折扣表中獲取項(xiàng)集中包含的各個(gè)數(shù)據(jù)項(xiàng)各自對應(yīng)的折扣類型和折扣參數(shù),以及獲取到的項(xiàng)集中各個(gè)數(shù)據(jù)項(xiàng)在事務(wù)中各自對應(yīng)的數(shù)量,計(jì)算該項(xiàng)集在事務(wù)中的效用值。結(jié)合表一、表二以及表三中涉及的三種折扣類型Sg1、Sg2和Sg3,數(shù)據(jù)項(xiàng)ij在事務(wù)Tq中的效用值u(ij,Tq)可以分別表示為:Sg1:u(ij,Tq)=q(ij,Tq)×(tp(ij)×v1-cp(ij))其中,q(ij,Tq)表示數(shù)據(jù)項(xiàng)ij在事務(wù)Tq中對應(yīng)的數(shù)量,tp(ij)表示數(shù)據(jù)項(xiàng)ij的售價(jià),v1表示數(shù)據(jù)項(xiàng)ij對應(yīng)的折扣參數(shù),cp(ij)表示數(shù)據(jù)項(xiàng)ij的成本價(jià)。比如,數(shù)據(jù)項(xiàng)A在事務(wù)1中對應(yīng)的數(shù)量為3,且數(shù)據(jù)項(xiàng)A的售價(jià)為35,成本價(jià)為25,折扣參數(shù)為0.75,數(shù)據(jù)項(xiàng)A在事務(wù)1中的效用值即為3×(35×0.75-25)=3.75。Sg2:u(ij,Tq)=(q(ij,Tq)v1+v2×v1+q(ij,Tq)mod(v1+v2))×tp(ij)-q(ij,Tq)×cp(ij)]]>其中,q(ij,Tq)表示數(shù)據(jù)項(xiàng)ij在事務(wù)Tq中對應(yīng)的數(shù)量,tp(ij)表示數(shù)據(jù)項(xiàng)ij的售價(jià),v1和v2表示數(shù)據(jù)項(xiàng)ij對應(yīng)的折扣參數(shù),cp(ij)表示數(shù)據(jù)項(xiàng)ij的成本價(jià)。比如,數(shù)據(jù)項(xiàng)C在事務(wù)6中對應(yīng)的數(shù)量為3,且數(shù)據(jù)項(xiàng)C的售價(jià)為128,成本價(jià)為70,采用的折扣類型為“買2贈(zèng)1”,數(shù)據(jù)項(xiàng)C在事務(wù)6中的效用值即為(3/(2+1))×2+3mod(2+1)×128-3×70=46。Sg3:u(ij,Tq)=(v1+(q(ij,Tq)-v1)×v2)×tp(ij)-q(ij,Tq)×cp(ij),q(ij,Tq)>v1Sg3:u(ij,Tq)=q(ij,Tq)×(tp(ij)-cp(ij)),otherwise其中,q(ij,Tq)表示數(shù)據(jù)項(xiàng)ij在事務(wù)Tq中對應(yīng)的數(shù)量,tp(ij)表示數(shù)據(jù)項(xiàng)ij的售價(jià),v1和v2表示數(shù)據(jù)項(xiàng)ij對應(yīng)的折扣參數(shù),cp(ij)表示數(shù)據(jù)項(xiàng)ij的成本價(jià)。比如,數(shù)據(jù)項(xiàng)E在事務(wù)10中對應(yīng)的數(shù)量為3>2,且數(shù)據(jù)項(xiàng)E的售價(jià)為50,成本價(jià)為38,數(shù)據(jù)項(xiàng)E在事務(wù)10中的效用值即為(2+(3-2)×0.6)×50-3×38=16;又比如數(shù)據(jù)項(xiàng)E在事務(wù)8中對應(yīng)的數(shù)量為1>2,數(shù)據(jù)項(xiàng)E在事務(wù)8中的效用值即為1×(50-38)=12。將計(jì)算得到的項(xiàng)集中各個(gè)數(shù)據(jù)項(xiàng)在事務(wù)中的效用值相加,即可得到該項(xiàng)集在事務(wù)中的效用值,即項(xiàng)集X在事務(wù)Tq中的效用值即可表示為:比如,數(shù)據(jù)項(xiàng)A在事務(wù)1中的效用值為3.75,數(shù)據(jù)項(xiàng)C在事務(wù)1中的效用值為116,項(xiàng)集AC在事務(wù)1中的效用值即為3.75+116=119.75。步驟102C,將項(xiàng)集在不同事務(wù)中對應(yīng)的效用值相加,得到項(xiàng)集的實(shí)際效用值。即項(xiàng)集X在數(shù)據(jù)庫中的實(shí)際效用值u(X)可以表示為:u(X)=ΣX⊆Tq⊆Du(X,Tq)]]>比如,包含項(xiàng)集AC在事務(wù)1中的效用值為119.75,在事務(wù)3中的效用值為59.25,在事務(wù)6中的效用值為48.5,則項(xiàng)集AC的實(shí)際效用值為119.75+59.25+48.5=227.5。最后,比較數(shù)據(jù)庫中各個(gè)項(xiàng)集對應(yīng)的實(shí)際效用值與自定義的最低效用閾值的大小關(guān)系,當(dāng)項(xiàng)集對應(yīng)的實(shí)際效用值≥最低效用閾值時(shí),確定該項(xiàng)集為高效用項(xiàng)集。比如,自定義的最低效用閾值為100,由于項(xiàng)集AC的實(shí)際效用閾值為227.5>100,即可確定項(xiàng)集AC為高效用項(xiàng)集。由于計(jì)算數(shù)據(jù)庫中所有項(xiàng)集的實(shí)際效用值,需要耗費(fèi)大量的計(jì)算資源,且需要耗費(fèi)大量時(shí)間,造成數(shù)據(jù)挖掘效率較低。為了減少數(shù)據(jù)挖掘過程中消耗的計(jì)算資源,從而提高挖掘的速度,本發(fā)明提出了兩種優(yōu)化挖掘的方法,分別為HUID-tp算法和HUID-Miner算法。下面采用兩個(gè)實(shí)施例分別進(jìn)行說明。請參考圖2A,其示出了本發(fā)明另一實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖,該方法包括:步驟201,獲取自定義的最低效用閾值、價(jià)格表和折扣表;價(jià)格表中包含各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)和售價(jià);折扣表中包含各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的折扣類型和折扣參數(shù)。該價(jià)格表可以示意性的如表二所示,折扣表可以示意性的如表三所示,且最低效用閾值可以由用戶根據(jù)實(shí)際挖掘需要進(jìn)行自定義設(shè)置,比如,該最低效用閾值可以為100。比如,當(dāng)需要挖掘的數(shù)據(jù)庫中記錄的是超市商品的購買記錄,即數(shù)據(jù)庫中每一個(gè)事務(wù)包含的數(shù)據(jù)項(xiàng)可以是用戶購買商品的名稱及數(shù)量。相應(yīng)的,該價(jià)格表包含有各個(gè)商品各自對應(yīng)的成本價(jià)和售價(jià),折扣表中包含有各個(gè)商品所采用的折扣類型和折扣參數(shù)。用戶自定義的最低效用閾值即為賣出商品所能夠帶來的利潤。下述步驟中,均以表一、表二和表三中示出的數(shù)據(jù)進(jìn)行舉例說明。需要說明的是,本實(shí)施例僅以該數(shù)據(jù)庫中記錄的內(nèi)容為超市商品的購買記錄為例進(jìn)行說明,并不對本發(fā)明構(gòu)成限定。步驟202,掃描數(shù)據(jù)庫,獲取數(shù)據(jù)庫中各個(gè)事務(wù)的事務(wù)效用上限;事務(wù)效用上限指事務(wù)中數(shù)據(jù)項(xiàng)的正效用之和。結(jié)合上述表二和表三可以看出,數(shù)據(jù)項(xiàng)在事務(wù)中的效用值可能為正,也可能為負(fù)。比如,數(shù)據(jù)項(xiàng)A在事務(wù)中的效用值一直為正;數(shù)據(jù)項(xiàng)D在事務(wù)中的效用值一直為負(fù);數(shù)據(jù)項(xiàng)E在事務(wù)中的數(shù)量小于3時(shí),數(shù)據(jù)項(xiàng)E對應(yīng)的效用值為正;而數(shù)據(jù)項(xiàng)E在事務(wù)中的數(shù)量大于3時(shí),數(shù)據(jù)項(xiàng)E對應(yīng)的效用值變?yōu)樨?fù)。所以,可以定義數(shù)據(jù)庫中各個(gè)事務(wù)中數(shù)據(jù)項(xiàng)的正效用之和,即事務(wù)效用上限ubtu為:由于事務(wù)對應(yīng)的ubtu為事務(wù)中所有效用值為正數(shù)的數(shù)據(jù)項(xiàng)對應(yīng)的效用值之和,所以可以進(jìn)一步推斷出事務(wù)對應(yīng)的ubtu大于等于該事務(wù)中任一項(xiàng)集的效用值。根據(jù)獲取到的數(shù)據(jù)庫中各個(gè)事務(wù)的ubtu,建立的各個(gè)事務(wù)的ubtu與事務(wù)編號TID的對應(yīng)關(guān)系可以示意性的如表四所示。步驟203,構(gòu)建第k-TID表,第k-TID表包含k-項(xiàng)集與包含k-項(xiàng)集的事務(wù)的事務(wù)編號TID的對應(yīng)關(guān)系,k為正整數(shù)。在對數(shù)據(jù)庫進(jìn)行掃描時(shí),可以根據(jù)1-項(xiàng)集與包含該1-項(xiàng)集的事務(wù)的TID的對應(yīng)關(guān)系,構(gòu)建如表五所示的第1-TID表。當(dāng)后續(xù)需要構(gòu)建第2-TID表,即建立2-項(xiàng)集與包含該2-項(xiàng)集的事務(wù)的TID的對應(yīng)關(guān)系時(shí),不再需要掃描在此掃描該數(shù)據(jù)庫,只需要根據(jù)構(gòu)建的第1-TID表,將該2-項(xiàng)集中2個(gè)數(shù)據(jù)項(xiàng)各自對應(yīng)的TID集合進(jìn)行求交,即可獲得包含該2-項(xiàng)集的事務(wù)的TID。比如,根據(jù)表五所示的第1-TID表,獲取包含項(xiàng)集AC的事務(wù)的TID時(shí),只需要獲取第1-TID表中數(shù)據(jù)項(xiàng)A對應(yīng)的TID集合{1,3,6,10}以及數(shù)據(jù)項(xiàng)C對應(yīng)的TID集合{1,3,5,6,7},并將這兩個(gè)TID集合求交,即獲得包含項(xiàng)集AC的事務(wù)的TID集合為{1,3,6}。后續(xù)構(gòu)建第k-TID表時(shí),只需要根據(jù)之前構(gòu)建的第(k-1)-表進(jìn)行構(gòu)建即可,從而避免了重復(fù)掃描數(shù)據(jù)庫。需要說明的時(shí),上述步驟202和步驟203不存在嚴(yán)格的先后關(guān)系,即步驟202和步驟203可以同時(shí)進(jìn)行,或步驟203在步驟202之前進(jìn)行,本實(shí)施例中,僅以步驟202在步驟203之前執(zhí)行為例進(jìn)行說明,并不對本發(fā)明構(gòu)成限定。步驟204,根據(jù)k-項(xiàng)集對應(yīng)的TID,計(jì)算各個(gè)k-項(xiàng)集對應(yīng)的事務(wù)加權(quán)效用上限,事務(wù)加權(quán)效用上限是包含k-項(xiàng)集的事務(wù)對應(yīng)的事務(wù)效用上限之和。在這里定義k-項(xiàng)集對應(yīng)的事務(wù)加權(quán)效用上限ubtwu為數(shù)據(jù)庫中包含該k-項(xiàng)集的事務(wù)對應(yīng)的ubtu之和,表示為:由于第k-TID表中記錄有包含該k-項(xiàng)集的事務(wù)的TID,所以在計(jì)算k-項(xiàng)集對應(yīng)的ubtwu時(shí),首先根據(jù)第k-TID表確定包含k-項(xiàng)集的事務(wù)的TID,再將該TID對應(yīng)的事務(wù)的ubtu相加,即得到該k-項(xiàng)集對應(yīng)的ubtwu。比如,以k-項(xiàng)集為1-項(xiàng)集為例,當(dāng)計(jì)算項(xiàng)集A對應(yīng)的ubtwu時(shí),根據(jù)第1-TID表確定包含項(xiàng)集A的事務(wù)的TID為1、3、6和10,且事務(wù)1對應(yīng)的ubtu為127.75,事務(wù)3對應(yīng)的ubtu為69.65,事務(wù)6對應(yīng)的ubtu為64.9,事務(wù)10對應(yīng)的ubtu為23,計(jì)算得到項(xiàng)集A對應(yīng)的ubtwu為127.75+69.65+64.9+23=285.3。又比如,以k-項(xiàng)集為2-項(xiàng)集為例,當(dāng)計(jì)算項(xiàng)集AC對應(yīng)的ubtwu時(shí),根據(jù)第2-TID表確定包含項(xiàng)集AC的事務(wù)的TID為1、3和6,且事務(wù)1對應(yīng)的ubtu為127.75,事務(wù)3對應(yīng)的ubtu為69.65,事務(wù)6對應(yīng)的ubtu為64.9計(jì)算得到項(xiàng) 集AC對應(yīng)的ubtwu為127.75+69.65+64.9=262.3。步驟205,當(dāng)事務(wù)加權(quán)效用上限≥最低效用閾值時(shí),將k-項(xiàng)集確定為候選項(xiàng)集。當(dāng)項(xiàng)集對應(yīng)的ubtwu≥最低效用閾值時(shí)??梢詫⒃擁?xiàng)集確定為高事務(wù)加權(quán)效用項(xiàng)集,記為HTWUI,根據(jù)上述對ubtu以及ubtwu的定義,存在如下定理:定理1:如果項(xiàng)集X是HTWUI,那么它的所有子集均是HTWUI,表示為ubtwu(Xk)≤ubtwu(Xk-1)。證明:對于任一項(xiàng)集,設(shè)tids(Z)為包含項(xiàng)集的事務(wù)集合,Xk為k-項(xiàng)集,Xk-1為(k-1)項(xiàng)集,且Xk-1為Xk的子集。因?yàn)閄k-1為Xk的子集,所以有且可以進(jìn)一步得到如下推論:即ubtwu(Xk)≤ubtwu(Xk-1),定理1得證。顯而易見地,根據(jù)定理1,可以得到推論1:如果項(xiàng)集X不是HTWUI,那么它的所有超集均不是HTWUI。由于事務(wù)中的數(shù)據(jù)項(xiàng)對應(yīng)的效用值可能為負(fù),且事務(wù)的ubtu為事務(wù)中所有數(shù)據(jù)項(xiàng)的正效用之和,所以由u(X,Tq)≤ubtu(Tq)可以進(jìn)一步得到即HUI⊆HTWUI,]]>結(jié)合上述推論1,可以得到推論2:如果項(xiàng)集X不是HTWUI,那么它的超集均不是HUI。所以,根據(jù)上述推論2,當(dāng)k-項(xiàng)集對應(yīng)的事務(wù)加權(quán)效用上限≥最低效用閾值時(shí),即該k-項(xiàng)集及其超集可能為HUI,將該k-項(xiàng)集確定為候選項(xiàng)集;當(dāng)k-項(xiàng)集對應(yīng)的事務(wù)加權(quán)效用上限<最低效用閾值時(shí),即該k-項(xiàng)集及其超集均不可能為HUI,并將該k-項(xiàng)集過濾。顯而易見的,在計(jì)算數(shù)據(jù)庫中各個(gè)項(xiàng)集的實(shí)際效用值之前,通過建立候選項(xiàng)集,將部分沒有前途的項(xiàng)集進(jìn)行過濾,能夠有效縮小項(xiàng)集挖掘的范圍,從而提高挖掘的速度。結(jié)合上述推論,作為一種可能的實(shí)現(xiàn)方式,如圖2B所示,本步驟可以包括如下步驟。步驟205A,獲取事務(wù)加權(quán)效用上限≥最低效用閾值的k-項(xiàng)集,并將k項(xiàng)集添加到第k候選項(xiàng)集。根據(jù)計(jì)算得到的k-項(xiàng)集對應(yīng)的ubtwu,比較該ubtwu與最低效用閾值的大小關(guān)系,并將ubtwu≥最低效用閾值的k-項(xiàng)集添加到第k候選項(xiàng)集,同時(shí)對ubtwu≤最低效用閾值的k-項(xiàng)集進(jìn)行過濾。比如,計(jì)算得到項(xiàng)集A對應(yīng)的ubtwu為285.3,項(xiàng)集B對應(yīng)的ubtwu為303.15,項(xiàng)集C對應(yīng)的ubtwu為426.3,項(xiàng)集D對應(yīng)的ubtwu為247.95,項(xiàng)集E對應(yīng)的ubtwu為224.75,項(xiàng)集F對應(yīng)的ubtwu為166.95,均大于最低效用閾值100,所以將項(xiàng)集A、B、C、D、E和F均添加到第1候選項(xiàng)集中。步驟205B,當(dāng)?shù)趉候選項(xiàng)集不為空時(shí),根據(jù)第k候選項(xiàng)集中的k-項(xiàng)集自連接生成(k+1)-項(xiàng)集,(k+1)-項(xiàng)集是k-項(xiàng)集的超集,(k+1)-項(xiàng)集是包含k+1個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集。當(dāng)?shù)趉候選項(xiàng)集不為空時(shí),按照第k候選項(xiàng)集中項(xiàng)集的排列順序,將每個(gè)項(xiàng)集與排在該項(xiàng)集之后的項(xiàng)集進(jìn)行合并且去重后,生成一個(gè)(k+1)-項(xiàng)集。比如,當(dāng)?shù)?候選項(xiàng)集中包含的項(xiàng)集為A、B、C、D、E和F,且排列順序?yàn)锳-B-C-D-E時(shí),自連接生成的2-項(xiàng)集即為AB、AC、AD、AE、AF、BC、BD、BE、BF、CD、CE、CF、DE和DF。又比如,假設(shè)第2候選項(xiàng)集為AC、AD、AE、BE、CD和CE時(shí),生成的3-項(xiàng)集即為ACD、ACE。顯而易見的,通過對沒有前途的k-項(xiàng)集進(jìn)行過濾,在根據(jù)第k-候選生成的(k+1)項(xiàng)集的數(shù)量遠(yuǎn)小于數(shù)據(jù)庫中(k+1)-項(xiàng)集的總數(shù),從而達(dá)到了縮小挖掘范圍的效果。步驟205C,獲取(k+1)-項(xiàng)集中事務(wù)加權(quán)效用上限≥最低效用閾值的項(xiàng)集,并將項(xiàng)集添加到第k+1候選項(xiàng)集。根據(jù)上述步驟中生成的第(k+1)-TID表,計(jì)算得到(k+1)-項(xiàng)集的ubtwu,并將ubtwu≥最低效用閾值的(k+1)-項(xiàng)集添加到第(k+1)候選項(xiàng)集。重復(fù)上述步驟205A至步驟205C,直到不再生成候選項(xiàng)集。步驟206,再次掃描數(shù)據(jù)庫,計(jì)算候選項(xiàng)集中各個(gè)項(xiàng)集的實(shí)際效用值。由于項(xiàng)集對應(yīng)的ubtwu≥項(xiàng)集的實(shí)際效用值,所以在生成候選項(xiàng)集后,還需要在此掃描數(shù)據(jù)庫,獲取候選項(xiàng)集中各個(gè)項(xiàng)集對應(yīng)的實(shí)際效用值。步驟207,將候選項(xiàng)集中,實(shí)際效用值≥最低效用閾值的候選項(xiàng)集確定為高效用項(xiàng)集。候選項(xiàng)集中,實(shí)際效用值≥最低效用閾值的候選項(xiàng)集即為最終的HUI,結(jié)合上述表一、表二和表三,數(shù)據(jù)庫中的高效用項(xiàng)集與其實(shí)際效用值的對應(yīng)關(guān)系可以如表八所示。表八項(xiàng)集實(shí)際效用值C382.0AC227.5BC228.0CD117.0CE182.0CF112.8ABC125.75ACE127.75ACF116.55BCF130.8ABCF134.55綜上所述,本實(shí)施例提供的項(xiàng)集挖掘方法,通過根據(jù)各個(gè)數(shù)據(jù)項(xiàng)各自對應(yīng)的折扣策略計(jì)算數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值,并挖掘出實(shí)際效用值大于最低效用閾值的高效用項(xiàng)集;解決了計(jì)算得到的項(xiàng)集的效用值不準(zhǔn)確,影響挖掘出的高效用項(xiàng)集的實(shí)際使用價(jià)值的問題;達(dá)到了結(jié)合數(shù)據(jù)項(xiàng)對應(yīng)的折扣策略,使得計(jì)算出的數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值更加準(zhǔn)確,從而提高挖掘出的高效用項(xiàng)集的實(shí)際使用價(jià)值的效果。本實(shí)施例還通過構(gòu)建候選項(xiàng)集,在計(jì)算數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值時(shí),僅計(jì)算候選項(xiàng)集中各個(gè)項(xiàng)集的實(shí)際效用值,并將實(shí)際效用值≥最低效用閾值的候選項(xiàng)集確定為高效用項(xiàng)集,達(dá)到了加快挖掘速度,節(jié)約計(jì)算資源的效果。本實(shí)施例提供的項(xiàng)集挖掘方法,可以通過HUID-tp算法實(shí)現(xiàn),該算法的偽代碼可以如下所示。請參考圖3A,其示出了本發(fā)明再一實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖,該方法包括:步驟301,獲取自定義的最低效用閾值、價(jià)格表和折扣表;價(jià)格表中包含各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)和售價(jià);折扣表中包含各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的折扣類型和折 扣參數(shù)。本步驟具體實(shí)現(xiàn)方式與上述步驟201相似,在此不再贅述。且為了方便描述,下述步驟中,均以上述表一、表二和表三進(jìn)行舉例說明,且用戶自定義的最低效用閾值為100。步驟302,構(gòu)建第k-正負(fù)效用PNU表,第k-PNU表中包含k-項(xiàng)集所在事務(wù)的事務(wù)編號TID、k-項(xiàng)集在事務(wù)中的項(xiàng)集效用Iutility、k-項(xiàng)集在事務(wù)中的負(fù)效用Nutility以及k-項(xiàng)集在事務(wù)中的項(xiàng)集剩余效用Rutility;項(xiàng)集剩余效用Rutility表示事務(wù)中除k-項(xiàng)集以外的其它數(shù)據(jù)項(xiàng)的正效用之和,k-項(xiàng)集包含k個(gè)數(shù)據(jù)項(xiàng),k為正整數(shù)。使用HUID-Miner算法進(jìn)行數(shù)據(jù)挖掘時(shí),只需要掃描一次數(shù)據(jù)庫,生成第1-PNU表,即可根據(jù)該第1-PNU表生成后續(xù)的第k-PNU表,而不再需要重復(fù)掃描該數(shù)據(jù)庫,從而節(jié)省計(jì)算資源,提高挖掘效率。作為一種可能的實(shí)現(xiàn)方式,步驟302可以包括步驟302A和302B。步驟302A,掃描數(shù)據(jù)庫,并構(gòu)建第1-PNU表,第1-PNU表包括1-項(xiàng)集對應(yīng)的TID、Iutility、Nutility和Rutility。在進(jìn)行數(shù)據(jù)挖掘的初始階段,需要對數(shù)據(jù)庫進(jìn)行掃描,計(jì)算該數(shù)據(jù)庫中1-項(xiàng)集對應(yīng)的ubtwu,并將ubtwu≥最低效用閾值的1-項(xiàng)集確定為HTWUI1。確定1-項(xiàng)集中HTWUI1的步驟與上述步驟205A中,生成第1候選項(xiàng)集的步驟相似,在此不再贅述。在確定了1-項(xiàng)集中的HTWUI1后,還需要按照1-項(xiàng)集對應(yīng)ubtwu的大小,按照升序進(jìn)行排列,并遞歸生成1-項(xiàng)集各自對應(yīng)的第1-PNU表。其中,第1-PNU表中的TID表示包含該1-項(xiàng)集的事務(wù)的事務(wù)編號,Iutility表示為該1-項(xiàng)集在該事務(wù)中的效用值,Nutility表示為該1-項(xiàng)集在該事務(wù)中的負(fù)效用值,Rutility則表示該事務(wù)中,除了該1-項(xiàng)集外,其他數(shù)據(jù)項(xiàng)的正效用之和。需要說明的是,由于在生成第1-PNU表的過程中,需要先根據(jù)各個(gè)1-項(xiàng)集對應(yīng)的ubtwu大小,按照升序進(jìn)行排序,并在排序后遞歸生成各自對應(yīng)的第1-PNU表,所以1-項(xiàng)集在指定事務(wù)中對應(yīng)的Rutility,還需要減去排列在該1-項(xiàng)集的左邊的1-項(xiàng)集在該事務(wù)中對應(yīng)的Iutility。比如,對如表一所示的數(shù)據(jù)庫進(jìn)行挖掘時(shí),可以得到各個(gè)1-項(xiàng)集對應(yīng)的ubtwu分別為:項(xiàng)集A對應(yīng)的ubtwu為285.3,項(xiàng)集B對應(yīng)的ubtwu為303.15, 項(xiàng)集C對應(yīng)的ubtwu為426.3,項(xiàng)集D對應(yīng)的ubtwu為247.95,項(xiàng)集E對應(yīng)的ubtwu為224.75,項(xiàng)集F對應(yīng)的ubtwu為166.95,均大于最低效用閾值100,所以將項(xiàng)集A、B、C、D、E和F均確定為HTWUI1。根據(jù)1-項(xiàng)集對應(yīng)的ubtwu的大小,按照升序進(jìn)行排列,得到的序列為F<E<D<A<B<C。按照該序列的順序依次構(gòu)建F對應(yīng)的第1-PNU表,E對應(yīng)的第1-PNU表,D對應(yīng)的第1-PNU表,A對應(yīng)的第1-PNU表,B對應(yīng)的第1-PNU表,C對應(yīng)的第1-PNU表。其中,F(xiàn)對應(yīng)的第1-PNU表如表九所示。表九由于首先構(gòu)建F對應(yīng)的第1-PNU表,所以F的左邊不存在其他1-項(xiàng)集,對應(yīng)的Rutility即為事務(wù)中除F以外的其它數(shù)據(jù)項(xiàng)的正效用之和。在構(gòu)建完F對應(yīng)的第1-PU表后,構(gòu)建E對應(yīng)的第1-PNU表。由于E的左邊存在1-項(xiàng)集F,所以Rutility為除了F和E以外,其他數(shù)據(jù)項(xiàng)的正效用之和。生成的項(xiàng)集E對應(yīng)的第1-PNU表可以如表十所示。表十根據(jù)上述構(gòu)建PNU表的方法,依次構(gòu)建1-項(xiàng)集對應(yīng)的第1-PNU表,合并為如圖3B所示的第1-PNU表。步驟302B,在第k-PNU表中,當(dāng)(X.IU-X.NU+X.RU)≥最低效用閾值時(shí),根據(jù)第k-PNU表遞歸生成第(k+1)-PNU表,第(k+1)-PNU表中的(k+1)-項(xiàng)集為k項(xiàng)集的超集。根據(jù)PNU表中記錄的Iutility、Nutility和Rutility,可以定義k-項(xiàng)集在不同事務(wù)中的Iutility之和為X.IU,k-項(xiàng)集在不同事務(wù)中的Nutility之和為X.NU,k-項(xiàng)集在不同事務(wù)中的Rutility之和為X.RU,即:其中,X.iu(Tq)表示項(xiàng)集X在事務(wù)Tq中的Iutility,X.nu(Tq)表示項(xiàng)集X在事務(wù)Tq中的Nutility,X.ru(Tq)表示項(xiàng)集X在事務(wù)Tq中的Rutility。由于k-項(xiàng)集的Iutility中既包括項(xiàng)集中數(shù)據(jù)項(xiàng)的正效用,又包括項(xiàng)集中數(shù)據(jù)項(xiàng)的負(fù)效用(當(dāng)該項(xiàng)集中存在效用值為負(fù)數(shù)的數(shù)據(jù)項(xiàng)時(shí)),結(jié)合上述定義,可以得到k-項(xiàng)集在不同事務(wù)中的正效用(英文:Putility)之和為X.PU=X.IU-X.NU。根據(jù)上述定義,在第k-PNU表中,存在如下定理3:項(xiàng)集X的X.PU與X.RU之和,大于等于項(xiàng)集X的任一超集的X.IU。證明:設(shè)Xk-1為一個(gè)(k-1)-項(xiàng)集,k-項(xiàng)集Xk為Xk-1的超集??梢詫k-1認(rèn)為是枚舉樹中的一個(gè)節(jié)點(diǎn),Xk則是Xk-1對應(yīng)節(jié)點(diǎn)的子節(jié)點(diǎn),Xk-1為Xk的前綴。定義屬于Xk但不屬于Xk-1的數(shù)據(jù)項(xiàng)為(Xk-Xk-1)=(Xk\Xk-1)。證明過程如下:∵Xk-1⋐Xk⊆Tq⇒(Xk\Xk-1)⊆(Tq\Xk-1).iu.]]>∴inTq,Xk.iu=Xk-1.iu+(Xk\Xk-1).iu=Xk-1.iu+Σz∈(Xk\Xk-1)z.iu≤Xk-1.iu+Σz∈(Xk\Xk-1)z.pu≤Xk-1.iu+Σz∈(Tq\Xk-1)z.pu=Xk-1.iu+Xk-1.ru≤Xk-1.pu+Xk-1.ru]]>∴Xk.iu<Xk-1.pu+Xk-1.ru∵Xk-1⋐Xk⇒Xk.tids⊆Xk-1.tids]]>∴inD,Xk.IU=ΣTq∈Xk.tidsXk.iu]]>≤ΣTq∈Xk.tids(Xk-1.pu+Xk-1.ru)≤ΣTq∈Xk-1.tids(Xk-1.pu+Xk-1.ru)≤Xk-1.PU+Xk-1.PU]]>∴Xk.IU≤Xk-1.PU+Xk-1.RU定理3得證。根據(jù)上述定理3,可以得到如下推論3:對于項(xiàng)集X,如果X.PU+X.RU≥最低效用閾值,那么項(xiàng)集X的超集可能是HUI,即項(xiàng)集X的被認(rèn)為是有前途的項(xiàng)集。根據(jù)上述推論3,在第k-PNU表中,當(dāng)(X.IU-X.NU+X.RU)≥最低效用閾值時(shí),根據(jù)第k-PNU表遞歸生成第(k+1)-PNU表,第(k+1)-PNU表中的(k+1)-項(xiàng)集為k項(xiàng)集的超集。比如,如圖3B所示的第1-PNU表中,所有1-項(xiàng)集對應(yīng)的X.IU-X.NU+X.RU均大于最低效用閾值,即認(rèn)為所有1-項(xiàng)集均為有前途的項(xiàng)集,則根據(jù)第1-PNU表遞歸生成各個(gè)2-項(xiàng)集對應(yīng)的第2-PNU表。步驟303,根據(jù)第k-PNU表,計(jì)算k-項(xiàng)集的項(xiàng)集效用和X.IU;X.IU表示k-項(xiàng)集在不同事務(wù)中的Iutility之和。在第k-PNU表中,當(dāng)(X.IU-X.NU+X.RU)≥最低效用閾值時(shí),僅能夠確定該項(xiàng)集的是有前途的項(xiàng)集,而并不能確定該項(xiàng)集是否為HUI,所以進(jìn)一步的,需要根據(jù)第k-PNU表中k-項(xiàng)集對應(yīng)的X.IU,確定該k-項(xiàng)集是否為HUI。比如,根據(jù)圖3B所示的第1-PNU表,計(jì)算得到1-項(xiàng)集F對應(yīng)的X.IU為35.2,1-項(xiàng)集E對應(yīng)的X.IU為36,1-項(xiàng)集D對應(yīng)的X.IU為-65,1-項(xiàng)集A對應(yīng)的X.IU為12.5,1-項(xiàng)集B對應(yīng)的X.IU為32,1-項(xiàng)集C對應(yīng)的X.IU為382。步驟304,當(dāng)?shù)趉-PNU表中,(X.IU-項(xiàng)集負(fù)效用和X.NU+項(xiàng)集剩余效用和X.RU)<最低效用閾值時(shí),確定k-項(xiàng)集及其超集均不是高效用項(xiàng)集,并對k-項(xiàng)集進(jìn)行過濾;X.NU表示k-項(xiàng)集在不同事務(wù)中的Nutility之和;X.RU表示k-項(xiàng)集在不同事務(wù)中的Rutility之和。根據(jù)步驟302B中得到的推論3,還可以進(jìn)一步得到,對于項(xiàng)集X,當(dāng)(X.IU-X.NU+X.RU)<最低效用閾值時(shí),該項(xiàng)集的任一超集均不是HUI,所以,為了減少生成PNU表的數(shù)量,從而減輕計(jì)算壓力,對(X.IU-X.NU+X.RU)<最低效用閾值的k-項(xiàng)集進(jìn)行過濾,使得在后續(xù)生成(k+1)-項(xiàng)集的過程中,不 再需要生成該k-項(xiàng)集對應(yīng)的(k+1)-項(xiàng)集。步驟305,當(dāng)k-項(xiàng)集的X.IU≥最低效用閾值時(shí),確定該項(xiàng)集為高效用項(xiàng)集。由于k-項(xiàng)集的X.IU即該項(xiàng)集在數(shù)據(jù)庫中的實(shí)際效用值,所以根據(jù)上述步驟303中計(jì)算得到的k-項(xiàng)集對應(yīng)的X.IU,當(dāng)k-項(xiàng)集的X.IU≥最低效用閾值時(shí),即可確定該項(xiàng)集為HUI。比如,根據(jù)圖3B所示的第1-PNU表,計(jì)算得到僅1-項(xiàng)集C對應(yīng)的X.IU大于最低效用閾值,即數(shù)據(jù)庫中的1-項(xiàng)集中,僅項(xiàng)集C為HUI。重復(fù)執(zhí)行上述步驟302至步驟305,當(dāng)不再生成PNU表時(shí),即表示挖掘結(jié)束,停止挖掘,而在生成PNU表的過程中確定的HUI即該數(shù)據(jù)庫中的所有HUI。需要說明的是,為了進(jìn)一步減少生成的PNU表的數(shù)量,如圖3C所示,在掃描數(shù)據(jù)庫之后,還可以進(jìn)一步構(gòu)建如表七所示的EUCS表,從而對沒有前途的k-項(xiàng)集及其超集進(jìn)行過濾。步驟306,構(gòu)建估計(jì)效用共同出現(xiàn)策略EUCS表,EUCS表中包含k-項(xiàng)集與k-項(xiàng)集對應(yīng)的事務(wù)加權(quán)效用上限,k≥2;事務(wù)加權(quán)效用上限指包含k-項(xiàng)集的事務(wù)對應(yīng)的事務(wù)效用上限之和,事務(wù)效用上限指事務(wù)中數(shù)據(jù)項(xiàng)的正效用之和。在掃描數(shù)據(jù)庫后,在構(gòu)建第1-PNU表的同時(shí),可以構(gòu)建如表七所示的2-項(xiàng)集對應(yīng)的EUCS表,該EUCS表中包括各個(gè)2-項(xiàng)集各自對應(yīng)的ubtwu。計(jì)算各個(gè)2-項(xiàng)集的ubtwu的過程可參考上述步驟204,在此不再贅述。步驟307,根據(jù)EUCS表,對事務(wù)加權(quán)效用上限<最低效用閾值的k-項(xiàng)集及其超集進(jìn)行過濾。根據(jù)表七所示的2-項(xiàng)集對應(yīng)的EUCS表可以發(fā)現(xiàn),2-項(xiàng)集BE、DE和EF對應(yīng)的ubtwu均小于最低效用閾值,即可確定BE、DE和EF及各自的超集均不是HTWUI,進(jìn)一步的,由于BE、DE和EF及各自的超集均不是HTWUI,可以確定BE、DE和EF及各自的超集均不是HUI。所以,在根據(jù)第1-PNU表遞歸生成第2-PNU表時(shí),不再需要構(gòu)建BE、DE和EF對應(yīng)的第2-PNU表,相較于直接根據(jù)A、B、C、D、E和F對應(yīng)的第1-PNU表構(gòu)建第2-PNU表,能夠顯著減少構(gòu)建的第2-PNU表的數(shù)量,從而進(jìn)一步減輕計(jì)算壓力,加快挖掘速度。需要說明的,生成EUCS表的步驟可以與生成PNU表同時(shí)進(jìn)行,本實(shí)施例僅以生成EUCS表在生成PNU表之后執(zhí)行為例進(jìn)行說明,并不對本發(fā)明構(gòu)成限定。綜上所述,本實(shí)施例提供的項(xiàng)集挖掘方法,通過根據(jù)各個(gè)數(shù)據(jù)項(xiàng)各自對應(yīng)的折扣策略計(jì)算數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值,并挖掘出實(shí)際效用值大于最低效用閾值的高效用項(xiàng)集;解決了計(jì)算得到的項(xiàng)集的效用值不準(zhǔn)確,影響挖掘出的高效用項(xiàng)集的實(shí)際使用價(jià)值的問題;達(dá)到了結(jié)合數(shù)據(jù)項(xiàng)對應(yīng)的折扣策略,使得計(jì)算出的數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值更加準(zhǔn)確,從而提高挖掘出的高效用項(xiàng)集的實(shí)際使用價(jià)值的效果。本實(shí)施例還通過對生成的PNU表中的沒有前途的項(xiàng)集進(jìn)行過濾,并根據(jù)剩余的有前途的項(xiàng)集生成對應(yīng)超集的PNU表,從而減少后續(xù)生成的PNU表的數(shù)量,達(dá)到了節(jié)約計(jì)算資源,提高挖掘速度的效果。本實(shí)施例還通過構(gòu)建EUCS表,并根據(jù)該EUCS表對事務(wù)加權(quán)效用上限<最低效用閾值的k-項(xiàng)集及其超集進(jìn)行過濾,從而進(jìn)一步縮小了項(xiàng)集挖掘的挖掘范圍,提高挖掘速度。本實(shí)施例提供的項(xiàng)集挖掘方法,可以通過HUID-Miner算法實(shí)現(xiàn),該算法的偽代碼可以如下所示。另外,在實(shí)現(xiàn)本實(shí)施例的過程中,還包括根據(jù)k-項(xiàng)集對應(yīng)的第k-PNU表生成(k+1)-項(xiàng)集對應(yīng)的第(k+1)-PNU表的過程,對應(yīng)上述步驟302B。該過程對應(yīng)算法的偽代碼如下。請參考圖4,其示出了本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘裝置的結(jié)構(gòu)方框圖,該項(xiàng)集挖掘裝置,包括:獲取模塊401,用于獲取自定義的最低效用閾值、價(jià)格表和折扣表;所述價(jià)格表中包含各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)和售價(jià);所述折扣表中包含各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的折扣類型和折扣參數(shù);計(jì)算模塊402,用于對于數(shù)據(jù)庫中的各個(gè)項(xiàng)集,根據(jù)所述項(xiàng)集中包含的數(shù)據(jù)項(xiàng)對應(yīng)的所述成本價(jià)、所述售價(jià)、所述折扣類型和所述折扣參數(shù),計(jì)算所述項(xiàng)集的實(shí)際效用值;所述項(xiàng)集包含至少一個(gè)所述數(shù)據(jù)項(xiàng);確定模塊403,用于當(dāng)所述實(shí)際效用值≥所述最低效用閾值時(shí),確定所述項(xiàng)集為高效用項(xiàng)集。綜上所述,本實(shí)施例提供的項(xiàng)集挖掘裝置,通過根據(jù)各個(gè)數(shù)據(jù)項(xiàng)各自對應(yīng)的折扣策略計(jì)算數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值,并挖掘出實(shí)際效用值大于最低效用閾值的高效用項(xiàng)集;解決了計(jì)算得到的項(xiàng)集的效用值不準(zhǔn)確,影響挖掘出的高效用項(xiàng)集的實(shí)際使用價(jià)值的問題;達(dá)到了結(jié)合數(shù)據(jù)項(xiàng)對應(yīng)的折扣策略,使得計(jì)算出的數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值更加準(zhǔn)確,從而提高挖掘出的高效用項(xiàng)集的實(shí)際使用價(jià)值的效果。請參考圖5,其示出了本發(fā)明另一實(shí)施例提供的項(xiàng)集挖掘裝置的結(jié)構(gòu)方框圖,該項(xiàng)集挖掘裝置,包括:獲取模塊501,用于獲取自定義的最低效用閾值、價(jià)格表和折扣表;所述價(jià)格表中包含各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的成本價(jià)和售價(jià);所述折扣表中包含各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的折扣類型和折扣參數(shù);計(jì)算模塊502,用于對于數(shù)據(jù)庫中的各個(gè)項(xiàng)集,根據(jù)所述項(xiàng)集中包含的數(shù)據(jù)項(xiàng)對應(yīng)的所述成本價(jià)、所述售價(jià)、所述折扣類型和所述折扣參數(shù),計(jì)算所述項(xiàng)集的實(shí)際效用值;所述項(xiàng)集包含至少一個(gè)所述數(shù)據(jù)項(xiàng);確定模塊503,用于當(dāng)所述實(shí)際效用值≥所述最低效用閾值時(shí),確定所述項(xiàng)集為高效用項(xiàng)集??蛇x地,計(jì)算模塊502,包括:第一獲取單元502A,用于對于包含所述項(xiàng)集的事務(wù),獲取所述項(xiàng)集中包含 的各個(gè)數(shù)據(jù)項(xiàng)在所述事務(wù)中各自對應(yīng)的數(shù)量;第一計(jì)算單元502B,根據(jù)所述項(xiàng)集中各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的所述成本價(jià)、所述售價(jià)、所述折扣類型、所述折扣參數(shù)和所述數(shù)量,計(jì)算所述項(xiàng)集在所述事務(wù)中的效用值;累加單元502C,用于將所述項(xiàng)集在不同事務(wù)中對應(yīng)的所述效用值相加,得到所述項(xiàng)集的所述實(shí)際效用值??蛇x的,計(jì)算模塊502,包括:第二獲取單元502D,用于掃描所述數(shù)據(jù)庫,獲取所述數(shù)據(jù)庫中各個(gè)事務(wù)的事務(wù)效用上限;所述事務(wù)效用上限指所述事務(wù)中所述數(shù)據(jù)項(xiàng)的正效用之和;第一構(gòu)建單元502E,用于構(gòu)建第k-TID表,所述第k-TID表包含k-項(xiàng)集與包含所述k-項(xiàng)集的所述事務(wù)的事務(wù)編號TID的對應(yīng)關(guān)系,k為正整數(shù);第二計(jì)算單元502F,用于根據(jù)所述k-項(xiàng)集對應(yīng)的所述TID,計(jì)算各個(gè)k-項(xiàng)集對應(yīng)的事務(wù)加權(quán)效用上限,所述事務(wù)加權(quán)效用上限是包含所述k-項(xiàng)集的所述事務(wù)對應(yīng)的所述事務(wù)效用上限之和;確定單元502G,用于當(dāng)所述事務(wù)加權(quán)效用上限≥所述最低效用閾值時(shí),將所述k-項(xiàng)集確定為候選項(xiàng)集;第三計(jì)算單元502H,用于再次掃描所述數(shù)據(jù)庫,計(jì)算所述候選項(xiàng)集中各個(gè)項(xiàng)集的所述實(shí)際效用值。可選地,確定單元502G,包括:第一添加子單元502Ga,用于獲取所述事務(wù)加權(quán)效用上限≥所述最低效用閾值的所述k-項(xiàng)集,并將所述k項(xiàng)集添加到第k候選項(xiàng)集;生成子單元502Gb,用于當(dāng)所述第k候選項(xiàng)集不為空時(shí),根據(jù)所述第k候選項(xiàng)集中的所述k-項(xiàng)集自連接生成(k+1)-項(xiàng)集,所述(k+1)-項(xiàng)集是所述k-項(xiàng)集的超集,所述(k+1)-項(xiàng)集是包含k+1個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集;第二添加子單元502Gc,還用于獲取所述(k+1)-項(xiàng)集中所述事務(wù)加權(quán)效用上限≥所述最低效用閾值的項(xiàng)集,并將所述項(xiàng)集添加到第k+1候選項(xiàng)集??蛇x的,計(jì)算模塊502,包括:第二構(gòu)建單元502I,用于構(gòu)建第k-正負(fù)效用PNU表,所述第k-PNU表中包含k-項(xiàng)集所在事務(wù)的事務(wù)編號TID、所述k-項(xiàng)集在所述事務(wù)中的項(xiàng)集效用Iutility、所述k-項(xiàng)集在所述事務(wù)中的負(fù)效用Nutility以及所述k-項(xiàng)集在所述事務(wù) 中的項(xiàng)集剩余效用Rutility;所述項(xiàng)集剩余效用Rutility表示所述事務(wù)中除所述k-項(xiàng)集以外的其它數(shù)據(jù)項(xiàng)的正效用之和,所述k-項(xiàng)集包含k個(gè)數(shù)據(jù)項(xiàng),k為正整數(shù);第四計(jì)算單元502J,用于根據(jù)所述第k-PNU表,計(jì)算所述k-項(xiàng)集的項(xiàng)集效用和X.IU;所述X.IU表示所述k-項(xiàng)集在不同事務(wù)中的所述Iutility之和;過濾單元502K,用于當(dāng)所述第k-PNU表中,(所述X.IU-項(xiàng)集負(fù)效用和X.NU+項(xiàng)集剩余效用和X.RU)<所述最低效用閾值時(shí),確定所述k-項(xiàng)集及其超集均不是所述高效用項(xiàng)集,并對所述k-項(xiàng)集進(jìn)行過濾;所述X.NU表示所述k-項(xiàng)集在不同事務(wù)中的所述Nutility之和;所述X.RU表示所述k-項(xiàng)集在不同事務(wù)中的所述Rutility之和。可選的,第二構(gòu)建單元502I,包括:第一構(gòu)建子單元502Ia,用于掃描所述數(shù)據(jù)庫,并構(gòu)建第1-PNU表,所述第1-PNU表包括1-項(xiàng)集對應(yīng)的所述TID、所述Iutility、所述Nutility和所述Rutility;或,第二構(gòu)建子單元502Ib,用于在第k-PNU表中,當(dāng)(所述X.IU-所述X.NU+所述X.RU)≥所述最低效用閾值時(shí),根據(jù)所述第k-PNU表遞歸生成第(k+1)-PNU表,所述第(k+1)-PNU表中的(k+1)-項(xiàng)集為所述k項(xiàng)集的超集??蛇x的,確定模塊503,還用于當(dāng)所述k-項(xiàng)集的X.IU≥所述最低效用閾值時(shí),確定所述項(xiàng)集為高效用項(xiàng)集。可選的,該裝置,還包括:構(gòu)建模塊504,用于構(gòu)建估計(jì)效用共同出現(xiàn)策略EUCS表,所述EUCS表中包含所述k-項(xiàng)集與所述k-項(xiàng)集對應(yīng)的事務(wù)加權(quán)效用上限,k≥2;所述事務(wù)加權(quán)效用上限指包含所述k-項(xiàng)集的所述事務(wù)對應(yīng)的所述事務(wù)效用上限之和,所述事務(wù)效用上限指所述事務(wù)中所述數(shù)據(jù)項(xiàng)的正效用之和;過濾模塊505,用于根據(jù)所述EUCS表,對所述事務(wù)加權(quán)效用上限<所述最低效用閾值的所述k-項(xiàng)集及其超集進(jìn)行過濾。綜上所述,本實(shí)施例提供的項(xiàng)集挖掘裝置,通過根據(jù)各個(gè)數(shù)據(jù)項(xiàng)各自對應(yīng)的折扣策略計(jì)算數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值,并挖掘出實(shí)際效用值大于最低效用閾值的高效用項(xiàng)集;解決了計(jì)算得到的項(xiàng)集的效用值不準(zhǔn)確,影響挖掘出的高效用項(xiàng)集的實(shí)際使用價(jià)值的問題;達(dá)到了結(jié)合數(shù)據(jù)項(xiàng)對應(yīng)的折扣策略,使得 計(jì)算出的數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值更加準(zhǔn)確,從而提高挖掘出的高效用項(xiàng)集的實(shí)際使用價(jià)值的效果。本實(shí)施例還通過構(gòu)建候選項(xiàng)集,在計(jì)算數(shù)據(jù)庫中項(xiàng)集的實(shí)際效用值時(shí),僅計(jì)算候選項(xiàng)集中各個(gè)項(xiàng)集的實(shí)際效用值,并將實(shí)際效用值≥最低效用閾值的候選項(xiàng)集確定為高效用項(xiàng)集,達(dá)到了加快挖掘速度,節(jié)約計(jì)算資源的效果。本實(shí)施例還通過對生成的PNU表中的沒有前途的項(xiàng)集進(jìn)行過濾,并根據(jù)剩余的有前途的項(xiàng)集生成對應(yīng)超集的PNU表,從而減少后續(xù)生成的PNU表的數(shù)量,達(dá)到了節(jié)約計(jì)算資源,提高挖掘速度的效果。本實(shí)施例還通過構(gòu)建EUCS表,并根據(jù)該EUCS表對事務(wù)加權(quán)效用上限<最低效用閾值的k-項(xiàng)集及其超集進(jìn)行過濾,從而進(jìn)一步縮小了項(xiàng)集挖掘的挖掘范圍,提高挖掘速度。需要說明的是:上述實(shí)施例提供的項(xiàng)集挖掘裝置在進(jìn)行項(xiàng)集挖掘時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將設(shè)備的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的項(xiàng)集挖掘裝置與項(xiàng)集挖掘方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。應(yīng)當(dāng)理解的是,在本文中使用的,除非上下文清楚地支持例外情況,單數(shù)形式“一個(gè)”(“a”、“an”、“the”)旨在也包括復(fù)數(shù)形式。還應(yīng)當(dāng)理解的是,在本文中使用的“和/或”是指包括一個(gè)或者一個(gè)以上相關(guān)聯(lián)地列出的項(xiàng)目的任意和所有可能組合。上述本發(fā)明實(shí)施例序號僅僅為了描述,不代表實(shí)施例的優(yōu)劣。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的 保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3 當(dāng)前第1頁1 2 3