分割發(fā)現(xiàn)、評(píng)估和實(shí)施平臺(tái)的制作方法
【專利說(shuō)明】
[0001] 巧關(guān)申請(qǐng)的香叉引用
[0002] 本申請(qǐng)要求來(lái)自通過(guò)引用而結(jié)合的、提交于2014年10月16日并且名稱為 "Segment曰tion Discovery, Ev曰Iimtion and Implement曰tion Pl曰tform"的第 62/064, 844 號(hào)美國(guó)臨時(shí)申請(qǐng)的優(yōu)先權(quán)。
技術(shù)領(lǐng)域
[0003] 本說(shuō)明書(shū)總體上描述了用于對(duì)數(shù)據(jù)進(jìn)行聚類的系統(tǒng)和過(guò)程。
【背景技術(shù)】
[0004] 在許多領(lǐng)域和行業(yè)中,收集和存儲(chǔ)與人(例如,公司的客戶、社交網(wǎng)絡(luò)中的好友 等)或者實(shí)體(例如,零售聯(lián)鎖的個(gè)別商店、公司、學(xué)校、政府或者其它機(jī)構(gòu))有關(guān)的不同類 型的數(shù)據(jù)。分析大量數(shù)據(jù)在許多應(yīng)用中是重要的。一種用于分析數(shù)據(jù)(被稱為聚類)的一 般方式包括基于數(shù)據(jù)內(nèi)的相似和差異將數(shù)據(jù)分割成組或者聚類。
【發(fā)明內(nèi)容】
[0005] 根據(jù)本公開(kāi)內(nèi)容的技術(shù)可W用來(lái)基于使用由用戶指定的一個(gè)或者多個(gè)評(píng)估標(biāo)準(zhǔn) 對(duì)先前聚類求解的評(píng)估來(lái)適配和精化聚類求解。系統(tǒng)因此能夠集成對(duì)數(shù)據(jù)的聚類與對(duì)聚類 結(jié)果的評(píng)估W生成對(duì)用戶有意義的聚類求解。
[0006] 在一個(gè)方面中,一種計(jì)算機(jī)實(shí)施的方法由一個(gè)或者多個(gè)處理器執(zhí)行。該方法包括 標(biāo)識(shí)為其評(píng)估聚類求解的數(shù)據(jù)集合,其中數(shù)據(jù)集合包括各自包括多個(gè)屬性的多個(gè)記錄。該 方法還包括從多個(gè)屬性標(biāo)識(shí)目標(biāo)驅(qū)動(dòng)屬性的集合、聚類候選屬性的集合和簡(jiǎn)檔屬性的集 合。該方法還包括確定用于應(yīng)用于數(shù)據(jù)集合W標(biāo)識(shí)聚類求解的一個(gè)或者多個(gè)聚類算法,W 及生成用于數(shù)據(jù)集合的多個(gè)聚類求解。聚類求解中的每個(gè)聚類求解基于聚類候選屬性中的 一個(gè)或者多個(gè)聚類候選屬性將數(shù)據(jù)集合中的記錄分組成多個(gè)聚類。該方法還包括至少部 分基于目標(biāo)驅(qū)動(dòng)屬性、聚類候選屬性和簡(jiǎn)檔屬性計(jì)算用于聚類求解中的每個(gè)聚類求解的分 數(shù),W及生成用于向用戶呈現(xiàn)的用戶界面,該用戶界面示出根據(jù)用于每個(gè)聚類求解的計(jì)算 出的分?jǐn)?shù)而組織的生成的多個(gè)聚類求解。
[0007] 在一些實(shí)現(xiàn)方式中,生成用于數(shù)據(jù)集合的多個(gè)聚類求解包括基于用于聚類求解的 先前計(jì)算出的分?jǐn)?shù)、使用機(jī)器學(xué)習(xí)算法來(lái)標(biāo)識(shí)聚類求解。
[0008] 在一些實(shí)現(xiàn)方式中,該方法還包括在生成多個(gè)聚類求解時(shí)向用戶呈現(xiàn)報(bào)告示出生 成的聚類求解的報(bào)告并且允許用戶改變與數(shù)據(jù)集合關(guān)聯(lián)的屬性的集合。
[0009] 在一些實(shí)現(xiàn)方式中,用于每個(gè)聚類求解的計(jì)算出的分?jǐn)?shù)包括:目標(biāo)驅(qū)動(dòng)分量,該目 標(biāo)驅(qū)動(dòng)分量代表每個(gè)聚類求解覆蓋與目標(biāo)驅(qū)動(dòng)屬性關(guān)聯(lián)的值的范圍的程度;分組分量,該 分組分量代表每個(gè)聚類求解中的聚類跨聚類候選屬性被如何緊密地分組;W及異構(gòu)分量, 該異構(gòu)分量代表每個(gè)聚類求解中的聚類跨聚類候選屬性和簡(jiǎn)檔屬性二者的異構(gòu)程度。
[0010] 在一些實(shí)現(xiàn)方式中,用于每個(gè)聚類求解的計(jì)算出的分?jǐn)?shù)包括目標(biāo)驅(qū)動(dòng)分量、分組 分量和異構(gòu)分量的加權(quán)平均。
[0011] 在一些實(shí)現(xiàn)方式中,該方法還包括在生成聚類求解之前將數(shù)據(jù)集合變換成被配置 為有助于生成聚類求解的格式。
[0012] 貫穿本申請(qǐng)描述的特征中的所有或者部分特征可W被實(shí)施為一種用計(jì)算機(jī)程序 編碼的計(jì)算機(jī)存儲(chǔ)介質(zhì),該計(jì)算機(jī)程序包括可由一個(gè)或者多個(gè)處理器執(zhí)行的指令。貫穿本 申請(qǐng)描述的特征中的所有或者部分特征可W被實(shí)施為一種可W包括一個(gè)或者多個(gè)處理設(shè) 備和用于存儲(chǔ)用于實(shí)施陳述的功能的可執(zhí)行指令的存儲(chǔ)器的裝置、方法或者電子系統(tǒng)。
[0013] 在附圖和W下描述中闡述一個(gè)或者多個(gè)實(shí)現(xiàn)方式的細(xì)節(jié)。其它特征將從描述和附 圖W及從權(quán)利要求變得清楚。
【附圖說(shuō)明】
[0014] 圖1是圖示了可W執(zhí)行本公開(kāi)內(nèi)容的實(shí)現(xiàn)方式的系統(tǒng)的示例的框圖;
[0015] 圖2是圖示了執(zhí)行集成的聚類和評(píng)估的系統(tǒng)的部件的示例的框圖;
[0016] 圖3是圖示了將用于數(shù)據(jù)集合的屬性分離成S個(gè)類型的變量的示圖;
[0017] 圖4至圖6是圖示了執(zhí)行集成的聚類和評(píng)估的示例的流程圖;
[0018] 圖7至圖13是圖示了聚類和評(píng)估的可視化的示例的圖形;
[0019] 圖14至圖18是圖示了可W由執(zhí)行集成的聚類和評(píng)估的系統(tǒng)顯示的屏幕截圖的示 例的示圖;W及
[0020] 圖19是可W用于與運(yùn)里描述的技術(shù)關(guān)聯(lián)地描述的操作的計(jì)算機(jī)系統(tǒng)的示例的示 意圖。
[0021] 在下文中,將參照附圖給出示例的具體描述。應(yīng)當(dāng)理解,可W進(jìn)行對(duì)示例的各種修 改。特別地,一個(gè)示例的要素可W在其它示例中被組合和使用W形成新示例。在各種附圖 中的相似標(biāo)號(hào)指示相似要素。
【具體實(shí)施方式】
[0022] 對(duì)于具有許多不同特性的大量數(shù)據(jù),可W存在用于將數(shù)據(jù)分割成聚類的許多不同 方式。例如,可W存在用于特定人群體(例如,公司的客戶)的許多不同潛在分組,每個(gè)人 具有多個(gè)屬性(例如,客戶狀態(tài)(活躍、不活躍等)、地址(例如,按州分組)等)。另外,在 收集和存儲(chǔ)具有顯著廣度(例如,關(guān)于每個(gè)個(gè)別客戶而收集的屬性的變化)的大量數(shù)據(jù)時(shí), 發(fā)現(xiàn)數(shù)據(jù)中的有意義分組可能變得耗時(shí)。此外,不同聚類算法(例如,K均值聚類、期望-最 大化(EM)聚類、分級(jí)聚類等)可W產(chǎn)生不同分組。在運(yùn)樣的場(chǎng)景中,確定哪些聚類技術(shù)產(chǎn) 生最有意義的一組聚類可能有困難。
[0023] 作為特定示例,被稱為k均值算法的聚類算法取得數(shù)據(jù)集合W及對(duì)變量和目標(biāo)數(shù) 目的聚類的選擇作為輸入,并且基于那些變量的特性返回對(duì)數(shù)據(jù)集合的分組。由k均值算 法生成的可能聚類結(jié)果的數(shù)目可能龐大,并且評(píng)估結(jié)果W確定最適合分組可能有困難。例 如,如果數(shù)據(jù)集合具有在用于向k均值算法中輸入的75個(gè)變量之中的5個(gè)變量,則存在待 評(píng)估的17, 259, 390個(gè)可能的聚類結(jié)果。作為另一示例,如果可用變量的總數(shù)增加至150個(gè) (即,多達(dá)兩倍的選項(xiàng)),則潛在求解集合增加至591,600, 030 (即,倍率超過(guò)34)。在一些場(chǎng) 景中,具有從中選擇的200或者更多W上的可用變量并不罕見(jiàn)。
[0024] 因此,即使用戶利用聚類算法(W及實(shí)施運(yùn)些算法的軟件包)W發(fā)現(xiàn)數(shù)據(jù)內(nèi)的聚 類,用戶仍然可能面臨一些令人氣矮的任務(wù),比如協(xié)調(diào)大規(guī)模應(yīng)用和跨可能的求解的大空 間評(píng)估運(yùn)些算法。通常地,W自組織方式執(zhí)行運(yùn)樣的任務(wù),從而產(chǎn)生低效率工作W及經(jīng)常無(wú) 效的求解。
[00巧]為了克服運(yùn)樣的困難,根據(jù)本公開(kāi)內(nèi)容的技術(shù)可W用來(lái)基于使用由用戶指定的一 個(gè)或者多個(gè)評(píng)估標(biāo)準(zhǔn)對(duì)先前聚類求解的評(píng)估來(lái)適配和精化聚類求解。系統(tǒng)因此能夠集成對(duì) 數(shù)據(jù)的聚類與對(duì)聚類結(jié)果的評(píng)估W生成對(duì)用戶有意義的聚類求解。
[0026] 對(duì)聚類結(jié)果的評(píng)估可W基于用戶指定的標(biāo)準(zhǔn),比如由用戶指定的業(yè)務(wù)目標(biāo)。作為 示例,評(píng)估信息可W包括聚類的質(zhì)量按照它們的業(yè)務(wù)價(jià)值而言的定量和/或定性概要,包 括聚類的描述質(zhì)量。運(yùn)可W允許用戶更容易地標(biāo)識(shí)可W從某些聚類求解顯現(xiàn)的潛在桐察 力。運(yùn)樣,系統(tǒng)可W提供對(duì)原本僅通過(guò)生成聚類求解而可能的對(duì)數(shù)據(jù)的更有意義的聚類分 析。
[0027] 作為運(yùn)一過(guò)程的示例,系統(tǒng)可W標(biāo)識(shí)為其評(píng)估聚類求解的數(shù)據(jù)集合。數(shù)據(jù)集合可 W包括多個(gè)記錄,每個(gè)記錄包括多個(gè)屬性。系統(tǒng)可W從多個(gè)屬性標(biāo)識(shí)不同類型的屬性。例 如,系統(tǒng)可W標(biāo)識(shí)目標(biāo)驅(qū)動(dòng)屬性的集合、聚類候選屬性的集合和簡(jiǎn)檔屬性的集合。系統(tǒng)也可 W確定用于應(yīng)用于數(shù)據(jù)集合W標(biāo)識(shí)聚類求解的一個(gè)或者多個(gè)聚類算法。使用一個(gè)或者多個(gè) 聚類算法,系統(tǒng)可W生成用于數(shù)據(jù)集合的多個(gè)聚類求解。
[0028] 聚類求解中的每個(gè)聚類求解可W是基于聚類候選屬性中的一個(gè)或者多個(gè)聚類候 選屬性將數(shù)據(jù)集合中的記錄分組成多個(gè)聚類。作為示例,第一聚類求解可W包括基于特定 數(shù)據(jù)分組的3個(gè)不同聚類或者組,其中每個(gè)聚類或者組包括數(shù)據(jù)中的群體的約33%。另一 聚類求解可W包括根據(jù)不同數(shù)據(jù)分組的10個(gè)不同聚類或者組,其中每個(gè)聚類或者組包括 數(shù)據(jù)中的群體的約10%。系統(tǒng)可W至少部分基于目標(biāo)驅(qū)動(dòng)屬性、聚類候選屬性和簡(jiǎn)檔屬性 確定用于聚類求解中的每個(gè)聚類求解的評(píng)估信息(例如,計(jì)算分?jǐn)?shù))。系統(tǒng)然后可W生成用 于向用戶呈現(xiàn)的用戶界面,該用戶界面示出根據(jù)用于每個(gè)聚類求解的計(jì)算出的分?jǐn)?shù)而組織 的多個(gè)生成的聚類求解。
[0029] 在一些實(shí)現(xiàn)方式中,系統(tǒng)可W被配置為從大數(shù)據(jù)集合選擇從其計(jì)算聚類求解的變 量的特定子集。例如,考慮具有75個(gè)變量的數(shù)據(jù)集合,所有運(yùn)些變量可W用作用于聚類求 解的候選。也假設(shè)系統(tǒng)被配置為在聚類計(jì)算中使用少達(dá)5個(gè)并且多達(dá)8個(gè)變量??赡艿木?類求解的總數(shù)然后將等于可能的5變量求解的總數(shù)、可能的6變量求解的總數(shù)、可能的7變 量求解的總數(shù)和可能的8變量求解的總數(shù)之和。因此,可W使用標(biāo)準(zhǔn)組合數(shù)學(xué)技術(shù)來(lái)如下 計(jì)算可能求解的總數(shù):
[0031] 在運(yùn)一示例中,存在系統(tǒng)可W考慮的超過(guò)190億個(gè)求解。如果系統(tǒng)分析5變量至 10變量求解,則將存在超過(guò)9730億個(gè)求解。隨著考慮的變量的總數(shù)增加,求解變得甚至更 大。因此,系統(tǒng)可W被配置為在聚類求解中僅分析變量的特定子集并且也確定將考慮的運(yùn) 樣的變量的數(shù)目的范圍。作為特定示例,對(duì)于有大量數(shù)據(jù)(例如,來(lái)自客戶調(diào)查)的10,000 個(gè)客戶的數(shù)據(jù)集合,系統(tǒng)可W選擇來(lái)自該數(shù)據(jù)集合的變量的子集(例如,5個(gè)變量)并且生 成將那些10, 000個(gè)客戶劃分成4個(gè)不同組或者聚類的聚類求解。
[0032] 在一些實(shí)現(xiàn)方式中,系統(tǒng)也可W被配置為在聚類求解中使用特定數(shù)目的聚類或者 某個(gè)數(shù)目范圍的聚類。在一些場(chǎng)景中,將用于特定數(shù)據(jù)集合的聚類的數(shù)目可W依賴于數(shù)據(jù) 的質(zhì)量。作為示例,特定數(shù)據(jù)集合可W產(chǎn)生用于3聚類或者4聚類求解的不良聚類結(jié)果W 及8聚類或者更多的不良聚類結(jié)果。在一些實(shí)現(xiàn)方式中,系統(tǒng)可W被配置為確定將在聚類 求解中使用的聚類的適當(dāng)數(shù)目。例如,系統(tǒng)可W生成評(píng)估分?jǐn)?shù)的圖形并且支持對(duì)圖形的分 析W確定哪個(gè)聚類大小范圍產(chǎn)生最佳結(jié)果。
[0033] 在一些實(shí)現(xiàn)方式中,可W從用戶或者另一來(lái)源接收將在聚類求解中使用的聚類的 數(shù)目作為輸入。例如,在一些場(chǎng)景中,公司可能想要最小化將在聚類求解中使用的聚類的數(shù) 目,例如,因?yàn)樯傻木垲惖臄?shù)目可W與公司將為不同組的客戶而實(shí)施的不同程序的數(shù)目 有關(guān)。無(wú)論用于判定特定聚類數(shù)目的原因如何,系統(tǒng)都可W被配置為接收與將在生成聚類 求解時(shí)使用的聚類的特定數(shù)目或者數(shù)目范圍有關(guān)的輸入。
[0034] 因此,在一些實(shí)現(xiàn)方式中,可W存在可W向系統(tǒng)中輸入的兩個(gè)不同范圍:(1)可W 用來(lái)生成聚類求解的變量的范圍;W及(2)將在生成聚類求解時(shí)使用的聚類的數(shù)目的范 圍。
[0035] 在一些實(shí)現(xiàn)方式中,生成用于數(shù)據(jù)集合的多個(gè)聚類求解包括基于用于聚類求解的 先前計(jì)算出的分?jǐn)?shù)、使用機(jī)器學(xué)習(xí)算法來(lái)標(biāo)識(shí)聚類求解。運(yùn)樣,對(duì)聚類求解的評(píng)估可W被反 饋到聚類引擎作為輸入,并且可W支持基于對(duì)先前聚類求解的評(píng)估的對(duì)聚類引擎的自動(dòng)調(diào) 整和精化。
[0036] 在一些情況下,在生成多個(gè)聚類求解時(shí),系統(tǒng)可W向用戶呈現(xiàn)示出生成的聚類求 解的報(bào)告并且允許用戶改變與數(shù)據(jù)集合關(guān)聯(lián)的屬性的集合。報(bào)告可W包括基于對(duì)聚類求解 的評(píng)估的任何適當(dāng)信息。運(yùn)可W使得用戶能夠使聚類求解可視化并且基于在報(bào)告中呈現(xiàn)的 評(píng)估結(jié)果調(diào)整聚類分析的一個(gè)或者多個(gè)屬性。對(duì)聚類求解的評(píng)估可W基于由用戶指定的一 個(gè)或者多個(gè)規(guī)