亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于占有率的模式挖掘的制作方法

文檔序號:6498562閱讀:203來源:國知局
基于占有率的模式挖掘的制作方法
【專利摘要】一種模式挖掘的示例方法包括:經(jīng)由邏輯電路識別多個事務(wù)中存在的多個模式,所述事務(wù)包括項目的集合,以及經(jīng)由所述邏輯電路基于所述事務(wù)中的所識別的模式的占有率來選擇所識別的模式之一。
【專利說明】基于占有率的模式挖掘

【背景技術(shù)】
[0001] 數(shù)據(jù)挖掘涉及在數(shù)據(jù)庫中搜索數(shù)據(jù)點或數(shù)據(jù)集以解決特定問題。頻繁的模式挖掘 涉及以識別頻繁出現(xiàn)在數(shù)據(jù)集中的模式為目的的數(shù)據(jù)挖掘。用于識別模式的最常見度量是 頻率,頻率是模式顯現(xiàn)在事務(wù)數(shù)據(jù)庫中的次數(shù)。在這種情境中,頻率被用作針對模式興趣度 的主要量度。

【專利附圖】

【附圖說明】
[0002] 圖1是用于執(zhí)行模式挖掘的示例系統(tǒng)的框圖。
[0003] 圖2是圖1的示例數(shù)據(jù)挖掘器的更詳細(xì)框圖。
[0004] 圖3圖示了用于示例事務(wù)數(shù)據(jù)庫的子集樹。
[0005] 圖4是表示可被執(zhí)行以實現(xiàn)用于執(zhí)行模式挖掘的數(shù)據(jù)挖掘器的示例機器可讀指 令的流程圖。
[0006] 圖5是表示可被執(zhí)行以實現(xiàn)用于執(zhí)行模式挖掘的數(shù)據(jù)挖掘器的示例機器可讀指 令的流程圖。
[0007] 圖6是表示可被執(zhí)行以實現(xiàn)用于提供品質(zhì)模式的數(shù)據(jù)挖掘器的示例機器可讀指 令的流程圖。
[0008] 圖7A和7B是表示可被執(zhí)行以實現(xiàn)用于修剪子集樹的項目集修剪器的示例機器可 讀指令的流程圖。
[0009] 圖8是表示可被執(zhí)行以實現(xiàn)用于估計品質(zhì)邊界的品質(zhì)計算器的示例機器可讀指 令的流程圖。
[0010] 圖9A和9B是表示可被執(zhí)行以實現(xiàn)用于估計品質(zhì)邊界的品質(zhì)計算器的示例機器可 讀指令的流程圖。
[0011] 圖10是能夠執(zhí)行圖4-9B的指令以實現(xiàn)圖1和/或2的數(shù)據(jù)挖掘器的示例處理器 平臺的框圖。

【具體實施方式】
[0012] 本文公開的示例方法、裝置和制品使用本文中被稱為占有率的量度。占有率被定 義為模式(或項目集)在其支持事務(wù)中占有(例如,支配)項目的程度。在一些示例中,模式 挖掘應(yīng)用優(yōu)選下述模式:這些模式占有它們顯現(xiàn)于其中的事務(wù)的大部分。示例方法、裝置和 制品使用占有率來針對某些類型的應(yīng)用提供改進的模式挖掘。貫穿本公開,可互換地使用 術(shù)語"模式"和"項目集"。
[0013] 在其中使用占有率可能有利的第一示例應(yīng)用處于用于網(wǎng)頁的打印區(qū)域推薦上。由 網(wǎng)頁瀏覽器的打印功能生成的打印輸出可能是不令人滿意的,這是由于該打印輸出包含大 部分的不相關(guān)內(nèi)容(例如導(dǎo)航菜單、廣告、相關(guān)鏈接等)。為了解決該問題,惠普提供了 HP智 能打印服務(wù),其包含用戶友好界面,使得用戶能夠容易地選擇她感興趣的打印區(qū)域。這種選 擇可以被存儲在打印日志中(例如,在用戶同意的情況下)。感興趣的挑戰(zhàn)是:基于由其他用 戶生成的打印日志來自動地且準(zhǔn)確地推薦感興趣的打印區(qū)域,使得用戶在不執(zhí)行手動選擇 的情況下接收到感興趣的打印區(qū)域。如果每個內(nèi)容片段(clip)(例如,由另一用戶選擇的 內(nèi)容區(qū)域)是項目,并且用戶在給定網(wǎng)頁上所選的所有片段被視為項目的事務(wù),則來自所有 用戶的打印日志數(shù)據(jù)形成事務(wù)數(shù)據(jù)庫。由此,可以基于該事務(wù)數(shù)據(jù)庫將給定網(wǎng)頁中的項目 集(例如,內(nèi)容片段的集合)推薦給用戶。所推薦的項目集可以頻繁出現(xiàn),以反映大多數(shù)用戶 的興趣。然而,項目集的完整性也是重要的。所推薦的內(nèi)容片段的集合應(yīng)當(dāng)占有它顯現(xiàn)于 其中的事務(wù)(例如,用戶所選的片段集合)的大部分,使得該推薦是完整的(例如,因此用戶 未感覺到該推薦將丟失相關(guān)內(nèi)容)。
[0014] 在第二示例應(yīng)用中,投資證券組合(investment portfolio)推薦應(yīng)用可以有利地 使用占有率來識別投資策略中的模式。對于包含高品質(zhì)且多樣化的投資證券組合的大集合 的事務(wù)數(shù)據(jù)庫,每個事務(wù)表示由有經(jīng)驗的投資者所擁有的金融資產(chǎn)(例如股票、債券等)的 集合。該示例應(yīng)用的目標(biāo)是從數(shù)據(jù)庫挖掘(例如,確定、識別)品質(zhì)(例如,感興趣的)模式(例 如,高品質(zhì)和/或多樣化的模式),這可以用于將投資計劃推薦給新投資者。該示例應(yīng)用可 以有利地優(yōu)選頻繁顯現(xiàn)于數(shù)據(jù)庫中的投資模式。然而,由于良好的投資證券組合通常作為 整體起作用以實現(xiàn)投資平衡并降低風(fēng)險,因此該示例應(yīng)用還可以評價下述投資模式:這些 投資模式覆蓋它們顯現(xiàn)于其中的事務(wù)的大部分。例如,給定相等頻率的兩個模式X和Y,如 果X覆蓋其支持事務(wù)的90%資產(chǎn)而Y僅覆蓋30%,則自然將X視為更好的投資模式。因此, 模式的占有率潛在地對于證券投資推薦應(yīng)用是非常有用的。
[0015] 在上面討論的兩個示例應(yīng)用中,占有率變成模式興趣度的另一量度,這是對"頻 率"的有利補充(在本文中也被稱為"支持")。在本文公開的一些示例方法、裝置和制品中, 如果一種模式不僅是頻繁的(例如,其支持值高于閾值α ),而且在其支持事務(wù)中具有高占 有率(例如,具有高覆蓋、進行支配),則該模式被視為感興趣的。如果一種模式的占有率處 于閾值β以上,則該模式被視為支配的。如果一種模式既是頻繁的又是支配的,則該模式 被視為有品質(zhì)的。本文公開的示例方法、裝置和制品挖掘相對于支持閾值α和占有率閾值 β的有品質(zhì)模式。
[0016] 本文公開的一些示例方法、裝置和制品解決了挖掘前k名有品質(zhì)模式(其中,k是 有品質(zhì)模式的期望數(shù)目,使得k=5將導(dǎo)致挖掘前5名有品質(zhì)模式)的問題。術(shù)語k可以由 用戶定義。在一些這種示例中,前k名有品質(zhì)模式是相對于支持和占有率的加權(quán)和來確定 的。針對支持和/或占有率的權(quán)重也可以由用戶定義。在一些示例中,當(dāng)更多項目被添加 到給定項目集時,占有率的值不單調(diào)增大或減小。一些示例方法、裝置和制品確定(例如計 算、估計等)針對所識別模式的占有率和/或品質(zhì)的上界,并使用該一個或多個上界來修剪 針對有品質(zhì)模式挖掘的搜索過程。一些示例方法、裝置和制品考慮調(diào)和占有率(harmonic occupancy)。一些其他示例考慮算術(shù)占有率。
[0017] 如本文所使用,事務(wù)數(shù)據(jù)庫是事務(wù)的集合。每個事務(wù)是項目的集合。I指代有區(qū) 別的項目的全集。T是事務(wù)的全集。項目集是項目的非空集合。事務(wù)集是事務(wù)的集合。包 含項目集X中的所有項目的事務(wù)是X的支持事務(wù),被表示為Tx。項目集X的頻率被表示為 freq (X),且等于Τχ中的事務(wù)的數(shù)目。
[0018] X的支持被定義為卜,/?(辦 1r|。對于給定的最小支持閾值α (〇 < α彡1), 如果σ(Χ) i α,則X被稱為頻繁的。
[0019] 對于項目集X,我們識別所有其支持事務(wù)Tx。對于每個事務(wù)t e τχ,我們計算|X| (項目集x中的項目的數(shù)目)除以|t| (事務(wù)t中的項目的數(shù)目)(例如,|x|/|t|)的比率。 針對所有支持事務(wù)Tx聚合出這些比率,以計算針對X的占有率的單個值。在一些示例中, 占有率指代比率的平均。附加地或可替換地,還可以使用其他聚合函數(shù),諸如或 。形式上,項目集X的占有率被表示為

【權(quán)利要求】
1. 一種模式挖掘的方法,包括: 經(jīng)由邏輯電路識別多個事務(wù)中存在的多個模式,所述事務(wù)包括項目的集合;以及 經(jīng)由所述邏輯電路基于所述事務(wù)中的所識別的模式的占有率來選擇所識別的模式之 〇
2. 根據(jù)權(quán)利要求1所述的方法,其中,所識別的模式的占有率包括下述內(nèi)容針對支持 所識別的模式的事務(wù)的聚合: 所識別的模式中的項目的第一數(shù)目與所識別的模式的支持事務(wù)中的總項目的第二數(shù) 目之比。
3. 根據(jù)權(quán)利要求1所述的方法,進一步包括:基于占有率來計算所識別的模式的品質(zhì)。
4. 根據(jù)權(quán)利要求3所述的方法,其中,計算所識別的模式的品質(zhì)進一步基于所識別的 模式的支持。
5. 根據(jù)權(quán)利要求1所述的方法,進一步包括:針對所述多個事務(wù)生成子集樹。
6. 根據(jù)權(quán)利要求5所述的方法,進一步包括:基于相應(yīng)占有率的比較或所述多個事務(wù) 的相應(yīng)品質(zhì)與閾值的比較中的至少一個來修剪所述子集樹。
7. 根據(jù)權(quán)利要求5所述的方法,進一步包括:基于所述子集樹的第一分支的占有率上 界與所述子集樹的第二分支的占有率上界的比較來修剪所述子集樹的第一子樹,所述第二 分支獨立于所述第一分支。
8. 根據(jù)權(quán)利要求1所述的方法,進一步包括:基于占有率來推薦所識別的模式。
9. 根據(jù)權(quán)利要求1所述的方法,進一步包括: 基于所計算出的所述模式的支持和所計算出的所識別的模式的占有率來計算所識別 的模式的品質(zhì)度量;以及 當(dāng)所識別的模式的品質(zhì)度量大于所述多個事務(wù)中存在的所述多個模式中的其他模式 的相應(yīng)品質(zhì)度量時,推薦所述模式。
10. -種用于模式挖掘的裝置,包括: 事務(wù)數(shù)據(jù)庫,用于存儲多個事務(wù),所述事務(wù)包括項目的集合;以及 數(shù)據(jù)挖掘器,用于: 識別所述事務(wù)中存在的模式;以及 基于所述事務(wù)中的所識別的模式的占有率來選擇所識別的模式。
11. 根據(jù)權(quán)利要求10所述的裝置,其中,所述數(shù)據(jù)挖掘器包括:占有率計算器,用于計 算所識別的模式的占有率。
12. 根據(jù)權(quán)利要求10所述的裝置,其中,所述數(shù)據(jù)挖掘器包括:品質(zhì)計算器,用于基于 用于所述模式的占有率和支持來計算所述模式的品質(zhì)。
13. -種包括機器可讀指令的計算機可讀存儲介質(zhì),所述機器可讀指令在被執(zhí)行時使 機器至少執(zhí)行下述操作: 使用所述機器識別多個事務(wù)中存在的模式,所述事務(wù)包括項目的集合;以及 使用所述機器基于所述事務(wù)中的模式的占有率來選擇模式。
14. 根據(jù)權(quán)利要求13所述的存儲介質(zhì),其中,所述指令進一步使所述機器輸出具有所 識別的模式的最高確定品質(zhì)的多個所識別的模式。
15. 根據(jù)權(quán)利要求14所述的存儲介質(zhì),其中,所識別的模式的品質(zhì)基于所識別的模式 的占有率、所識別的模式的支持、以及加權(quán)因子。
【文檔編號】G06F17/30GK104254854SQ201280072816
【公開日】2014年12月31日 申請日期:2012年5月15日 優(yōu)先權(quán)日:2012年5月15日
【發(fā)明者】P.羅, M.王, L.唐, L.張 申請人:惠普發(fā)展公司,有限責(zé)任合伙企業(yè)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1