- ) |/|SID({a} {c}) |。由于 SID({a} - ) | 彡 |SID({a} {c} - ) | 和 |SID({a}) | 彡 |SID({a} {c}) |,所以目標(biāo)置 信度(Rl)可以低于,高于或等于目標(biāo)置信度(R2)。
[0211] (4)頻繁序列元素加入目標(biāo)關(guān)聯(lián)規(guī)則的后件對(duì)目標(biāo)置信度的影響
[0212] 如果一個(gè)頻繁序列元素dn8uhelbkzum加入到目標(biāo)關(guān)聯(lián)規(guī)則Rl({a} - )的后件中,得到 的目標(biāo)關(guān)聯(lián)規(guī)則R3( {a} - {c})的目標(biāo)置信度低于或等于Rl( {a} - )的置信度。該 結(jié)論的證明過程如下:
[0213] 證明:關(guān)聯(lián)規(guī)則Rl({a} - )和R3({a} - {c})的目標(biāo)置信度分別 是 |SID({a} - ) |/|SID({a}) | 和 |SID({a} - {c}) |/|SID({a}) |。因?yàn)?SID({a} - )|彡|SID({a} - {c})|,所以目標(biāo)置信度(Rl)彡目標(biāo)置信度(R3)。
[0214] 對(duì)于序列,有兩個(gè)重要的屬性:
[0215] 對(duì)于任何規(guī)則{a} - ,符合目標(biāo)關(guān)聯(lián)規(guī)則的序列組成的集合 {SID({a} - )}包含于,包含序列元素{a}的序列組成的集合{SID({a})}包含序 列元素{M的序列組成的集合{SID()}之間的交集{SID({a})}n{SID()},即 {SID ({a|·- {b|- ) }£{SID (-{a|.)}n {siD()}。
[0216] 任何將頻繁序列元素加入到目標(biāo)關(guān)聯(lián)規(guī)則Rl的前件或后件后形成的目標(biāo)關(guān)聯(lián)規(guī) 則R2,符合目標(biāo)關(guān)聯(lián)規(guī)則R2的序列的集合{SID(R2)}包含于符合目標(biāo)關(guān)聯(lián)規(guī)則R1的序列 的集合{SID(Rl)},即關(guān)系P:ID(R2)丨e{SID (R1)}成立。
[0217] 由于在目標(biāo)關(guān)聯(lián)規(guī)則的前件或者后件加入頻繁序列元素得到的目標(biāo)關(guān)聯(lián)規(guī)則的 支持度的變化是單調(diào)遞減的,且將非頻繁序列元素加入到目標(biāo)關(guān)聯(lián)規(guī)則中產(chǎn)生的關(guān)聯(lián)規(guī)則 不是目標(biāo)關(guān)聯(lián)規(guī)則,所以目標(biāo)關(guān)聯(lián)規(guī)則可以通過遞歸的將頻繁序列元素加入到目標(biāo)關(guān)聯(lián)規(guī) 則的前件或者后件中并通過目標(biāo)支持度和目標(biāo)置信度的檢驗(yàn)得到。
[0218] 以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技 術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修 改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種序列規(guī)則的挖掘方法,其特征在于,包括: 在至少一個(gè)序列中的所有序列元素中獲取頻繁序列元素;包含所述頻繁序列元素的序 列占所述至少一個(gè)序列的比例大于第一閾值; 在所述頻繁序列元素形成的關(guān)聯(lián)規(guī)則中,獲取所有的目標(biāo)關(guān)聯(lián)規(guī)則以組成第一集合; 其中,所述目標(biāo)關(guān)聯(lián)規(guī)則的前件和后件均由不分順序的至少一個(gè)頻繁序列元素組成; 為所述目標(biāo)關(guān)聯(lián)規(guī)則的前件和后件各自規(guī)定一種排列順序后形成一個(gè)有序目標(biāo)規(guī)則; 所述目標(biāo)關(guān)聯(lián)規(guī)則的目標(biāo)支持度大于第二閾值;所述目標(biāo)關(guān)聯(lián)規(guī)則的目標(biāo)支持度為該 目標(biāo)關(guān)聯(lián)規(guī)則所有有序目標(biāo)規(guī)則在所述至少一個(gè)序列中的支持度的總和; 所述目標(biāo)關(guān)聯(lián)規(guī)則的目標(biāo)置信度大于第三閾值;所述目標(biāo)關(guān)聯(lián)規(guī)則的目標(biāo)置信度為所 述至少一個(gè)序列中符合該目標(biāo)關(guān)聯(lián)規(guī)則的任一有序目標(biāo)規(guī)則的序列的數(shù)量,與所述至少一 個(gè)序列中包含該目標(biāo)關(guān)聯(lián)規(guī)則的前件的序列的數(shù)量之間的比值。2. 根據(jù)權(quán)利要求1所述的序列規(guī)則挖掘方法,其特征在于,所述在所述頻繁序列元素 形成的關(guān)聯(lián)規(guī)則中,獲取所有的目標(biāo)關(guān)聯(lián)規(guī)則以組成第一集合,包括: 獲取以兩個(gè)所述頻繁序列元素分別作為前件和后件而形成的所有目標(biāo)關(guān)聯(lián)規(guī)則,并加 入第一集合; 重復(fù)執(zhí)行下述步驟,直到不能得到新的目標(biāo)關(guān)聯(lián)規(guī)則:在第一集合中的一個(gè)目標(biāo)關(guān)聯(lián) 規(guī)則的前件或后件中加入不包含在該前件和該后件中的頻繁序列元素,以將形成的目標(biāo)關(guān) 聯(lián)規(guī)則加入至第一集合。3. 根據(jù)權(quán)利要求2所述的序列規(guī)則挖掘方法,其特征在于,所述在第一集合中的一個(gè) 目標(biāo)關(guān)聯(lián)規(guī)則的前件或后件中加入不包含在該前件和該后件中的頻繁序列元素,以將形成 的目標(biāo)關(guān)聯(lián)規(guī)則加入至第一集合的步驟,包括: 在將一個(gè)頻繁序列元素加入至一個(gè)目標(biāo)關(guān)聯(lián)規(guī)則的前件或后件中時(shí),判斷該頻繁序列 元素是否沒有出現(xiàn)在任意一個(gè)該目標(biāo)關(guān)聯(lián)規(guī)則的相符序列中;所述目標(biāo)關(guān)聯(lián)規(guī)則的相符序 列為所述至少一個(gè)序列中符合該目標(biāo)關(guān)聯(lián)規(guī)則的序列; 若是,則不再將該頻繁序列元素加入至前件包含該目標(biāo)關(guān)聯(lián)規(guī)則的前件、后件包含該 目標(biāo)關(guān)聯(lián)規(guī)則的后件的目標(biāo)關(guān)聯(lián)規(guī)則的前件或后件中。4. 根據(jù)權(quán)利要求3所述的序列規(guī)則挖掘方法,其特征在于,所述在第一集合中的一個(gè) 目標(biāo)關(guān)聯(lián)規(guī)則的前件或后件中加入不包含在該前件和該后件中的頻繁序列元素,以將形成 的目標(biāo)關(guān)聯(lián)規(guī)則加入至第一集合的步驟,還包括: 若一個(gè)頻繁序列元素于一個(gè)目標(biāo)關(guān)聯(lián)規(guī)則的所有相符序列中全部位于該目標(biāo)關(guān)聯(lián)規(guī) 則的前件中的頻繁序列元素首次出現(xiàn)的位置之后,則不再將該頻繁序列元素加入至該目標(biāo) 關(guān)聯(lián)規(guī)則的前件中; 若一個(gè)頻繁序列元素于一個(gè)目標(biāo)關(guān)聯(lián)規(guī)則的所有相符序列中全部位于該目標(biāo)關(guān)聯(lián)規(guī) 則的后件中的頻繁序列元素最后出現(xiàn)的位置之前,則不再將該頻繁序列元素加入至該目標(biāo) 關(guān)聯(lián)規(guī)則的后件中。5. 根據(jù)權(quán)利要求2所述的序列規(guī)則挖掘方法,其特征在于,所述在第一集合中的一個(gè) 目標(biāo)關(guān)聯(lián)規(guī)則的前件或后件中加入不包含在該前件和該后件中的頻繁序列元素,以將形成 的目標(biāo)關(guān)聯(lián)規(guī)則加入至第一集合的步驟,包括: 在所有頻繁序列元素排列而成的一個(gè)參考序列中,若一個(gè)頻繁序列元素沒有位于一個(gè) 目標(biāo)關(guān)聯(lián)規(guī)則的前件中的所有頻繁序列元素之前,則不向該目標(biāo)關(guān)聯(lián)規(guī)則的前件中加入該 頻繁序列元素; 在所述參考序列中,若一個(gè)頻繁序列元素沒有位于一個(gè)目標(biāo)關(guān)聯(lián)規(guī)則的后件中的所有 頻繁序列元素之前,則不向該目標(biāo)關(guān)聯(lián)規(guī)則的后件中加入該頻繁序列元素。6. -種序列規(guī)則的挖掘系統(tǒng),其特征在于,包括:第一獲取模塊和第二獲取模塊;其 中, 所述第一獲取模塊用于在至少一個(gè)序列中的所有序列元素中獲取頻繁序列元素;包含 所述頻繁序列元素的序列占所述至少一個(gè)序列的比例大于第一閾值; 所述第二獲取模塊用于在所述頻繁序列元素形成的關(guān)聯(lián)規(guī)則中,獲取所有的目標(biāo)關(guān)聯(lián) 規(guī)則以組成第一集合; 其中,所述目標(biāo)關(guān)聯(lián)規(guī)則的前件和后件均由不分順序的至少一個(gè)頻繁序列元素組成; 為所述目標(biāo)關(guān)聯(lián)規(guī)則的前件和后件各自規(guī)定一種排列順序后形成一個(gè)有序目標(biāo)規(guī)則; 所述目標(biāo)關(guān)聯(lián)規(guī)則的目標(biāo)支持度大于第二閾值;所述目標(biāo)關(guān)聯(lián)規(guī)則的目標(biāo)支持度為該 目標(biāo)關(guān)聯(lián)規(guī)則所有有序目標(biāo)規(guī)則在所述至少一個(gè)序列中的支持度的總和; 所述目標(biāo)關(guān)聯(lián)規(guī)則的目標(biāo)置信度大于第三閾值;所述目標(biāo)關(guān)聯(lián)規(guī)則的目標(biāo)置信度為所 述至少一個(gè)序列中符合該目標(biāo)關(guān)聯(lián)規(guī)則的任一有序目標(biāo)規(guī)則的序列的數(shù)量,與所述至少一 個(gè)序列中包含該目標(biāo)關(guān)聯(lián)規(guī)則的前件的序列的數(shù)量之間的比值。7. 根據(jù)權(quán)利要求6所述的序列規(guī)則的挖掘系統(tǒng),其特征在于,所述第二獲取模塊包括: 第一獲取子模塊、第一判斷子模塊和第一執(zhí)行子模塊;其中, 所述第一獲取子模塊用于獲取以兩個(gè)所述頻繁序列元素分別作為前件和后件而形成 的所有目標(biāo)關(guān)聯(lián)規(guī)則,并加入第一集合; 所述第一執(zhí)行子模塊用于接收來自所述第一獲取子模塊或者所述第一判斷子模塊的 第一集合,并在第一集合中的一個(gè)目標(biāo)關(guān)聯(lián)規(guī)則的前件或后件中加入不包含在該前件和該 后件中的頻繁序列元素,以將形成的目標(biāo)關(guān)聯(lián)規(guī)則加入至第一集合; 所述第一判斷子模塊用于接收來自所述第一執(zhí)行子模塊的第一集合,并在判定所述第 一執(zhí)行子模炔基于該第一集合還能得到新的目標(biāo)關(guān)聯(lián)規(guī)則時(shí)將該第一集合發(fā)送給所述第 一執(zhí)行子模塊。8. 根據(jù)權(quán)利要求7所述的序列規(guī)則的挖掘系統(tǒng),其特征在于,所述第一執(zhí)行子模塊包 括:接收單元、獲取單元、第一判斷單元和執(zhí)行單元;其中, 所述接收單元用于接收來自所述第一獲取子模塊或者所述第一判斷子模塊的第一集 合; 所述獲取單元用于從所述接收單元接收的第一集合中獲取一個(gè)目標(biāo)關(guān)聯(lián)規(guī)則,并從所 述第一獲取模塊中獲取不包含在該目標(biāo)關(guān)聯(lián)規(guī)則的前件和后件中的一個(gè)頻繁序列元素; 所述第一判斷單元用于判斷所述獲取單元獲取的頻繁序列元素是否沒有出現(xiàn)在任意 一個(gè)該目標(biāo)關(guān)聯(lián)規(guī)則的相符序列中;所述目標(biāo)關(guān)聯(lián)規(guī)則的相符序列為所述至少一個(gè)序列中 符合該目標(biāo)關(guān)聯(lián)規(guī)則的序列; 所述執(zhí)行單元用于在所述判斷單元判定該頻繁序列元素出現(xiàn)在任意一個(gè)該目標(biāo)關(guān)聯(lián) 規(guī)則的相符序列中時(shí),將該頻繁序列元素加入至該目標(biāo)關(guān)聯(lián)規(guī)則的前件或后件中,以將形 成的目標(biāo)關(guān)聯(lián)規(guī)則加入至第一集合。9. 根據(jù)權(quán)利要求8所述的序列規(guī)則的挖掘系統(tǒng),其特征在于,所述第一執(zhí)行模塊中還 包括:第二判斷單元; 所述第二判斷單元用于判斷所述獲取單元獲取的頻繁序列元素于所述獲取單元獲取 的目標(biāo)關(guān)聯(lián)規(guī)則的所有相符序列中是否全部位于該目標(biāo)關(guān)聯(lián)規(guī)則的前件中的頻繁序列元 素首次出現(xiàn)的位置之后; 所述執(zhí)行單元進(jìn)一步用于在所述第二判斷單元判定所述獲取單元獲取的頻繁序列元 素于所述獲取單元獲取的目標(biāo)關(guān)聯(lián)規(guī)則的所有相符序列中全部位于該目標(biāo)關(guān)聯(lián)規(guī)則的前 件中的頻繁序列元素首次出現(xiàn)的位置之后時(shí),將該頻繁序列元素加入到該目標(biāo)關(guān)聯(lián)規(guī)則的 后件中; 或者, 所述第二判斷單元用于判斷所述獲取單元獲取的頻繁序列元素于所述獲取單元獲取 的目標(biāo)關(guān)聯(lián)規(guī)則的所有相符序列中是否全部位于該目標(biāo)關(guān)聯(lián)規(guī)則的后件中的頻繁序列元 素最后出現(xiàn)的位置之前; 所述執(zhí)行單元進(jìn)一步用于在所述第二判斷單元判定所述獲取單元獲取的頻繁序列元 素于所述獲取單元獲取的所有相符序列中全部位于該目標(biāo)關(guān)聯(lián)規(guī)則的后件中的頻繁序列 元素最后出現(xiàn)的位置之前時(shí),將該頻繁序列元素加入到該目標(biāo)關(guān)聯(lián)規(guī)則的前件中。10. 根據(jù)權(quán)利要求7所述的序列規(guī)則的挖掘系統(tǒng),其特征在于,所述第一執(zhí)行模塊中還 包括,第三判斷單元; 所述第三判斷單元用于判斷在所有頻繁序列元素排列而成的一個(gè)參考序列中,一個(gè)頻 繁序列元素是否位于一個(gè)目標(biāo)關(guān)聯(lián)規(guī)則的前件中的所有頻繁序列元素之前; 所述執(zhí)行單元進(jìn)一步用于在所述第三判斷單元判定該頻繁序列元素位于該目標(biāo)關(guān)聯(lián) 規(guī)則的前件中的所有頻繁序列元素之前時(shí),將該頻繁序列元素加入到該目標(biāo)關(guān)聯(lián)規(guī)則的前 件中; 或者, 所述第三判斷單元用于判斷在所述參考序列中,一個(gè)頻繁序列元素是否位于一個(gè)目標(biāo) 關(guān)聯(lián)規(guī)則的后件中的所有頻繁序列元素之前; 所述執(zhí)行單元進(jìn)一步用于在所述判斷單元判定該頻繁序列元素位于該目標(biāo)關(guān)聯(lián)規(guī)則 的后件中的所有頻繁序列元素之前時(shí),將該頻繁序列元素加入到該目標(biāo)關(guān)聯(lián)規(guī)則的后件 中。
【專利摘要】本發(fā)明提供了一種序列規(guī)則的挖掘方法和系統(tǒng),該方法包括:在至少一個(gè)序列中的所有序列元素中獲取頻繁序列元素;包含頻繁序列元素的序列占所述至少一個(gè)序列的比例大于第一閾值;獲取目標(biāo)支持度大于第二閾值且目標(biāo)置信度大于第三閾值的目標(biāo)關(guān)聯(lián)規(guī)則,以組成第一集合;其中,目標(biāo)關(guān)聯(lián)規(guī)則的前件和后件均由不分順序的至少一個(gè)頻繁序列元素組成。本發(fā)明提供的序列規(guī)則的挖掘方法和系統(tǒng),能夠?qū)⑶凹秃蠹慕M成元素相同但排序不同的低支持度的關(guān)聯(lián)規(guī)則和高支持度的規(guī)則作為一個(gè)整體的規(guī)則進(jìn)行挖掘,避免了由于沒有將低支持度的關(guān)聯(lián)規(guī)則作為可以用于預(yù)測(cè)的有效規(guī)則造成的預(yù)測(cè)錯(cuò)誤。
【IPC分類】G06F17/30
【公開號(hào)】CN105404668
【申請(qǐng)?zhí)枴緾N201510777308
【發(fā)明人】于磊
【申請(qǐng)人】?jī)?nèi)蒙古大學(xué)
【公開日】2016年3月16日
【申請(qǐng)日】2015年11月11日