量時變得更困難,運些數(shù)據(jù)點中 的一些數(shù)據(jù)點可能具有遺漏值。特別地,盡管標準聚類指派算法(比如W上描述的k均值 聚類指派過程)可W不受遺漏數(shù)據(jù)值影響,但是困難在計算基于多個距離測量的統(tǒng)計量(、 比如平均質屯、距離)時出現(xiàn)。在運樣的場景中,簡單地使用減少維度的距離可能是不夠的, 并且系統(tǒng)可W被配置為使用縮放因子W考慮遺漏值并且協(xié)調不同數(shù)據(jù)點。
[0139] 例如,考慮由下式給定的在點Xi,而,…X。與單個質屯、C之間的平均距離: 、.:巧 I 'S
[0140] 踩-這愛私9…挪 (掙) S二去 f呈
[014。 然而,如果點Xi中的一些點遺漏用于它們的分量中的一個或者多個分量的值,貝U 在等式化)中的公式將是一維、二維和=維測量的混合。如W上說明的那樣,更高維的距離 一般地由于它們的額外分量而大于更低維的距離。因此,在W上給定的平均距離公式中,具 有遺漏值的數(shù)據(jù)點將通常地具有更小距離值,并且運些更小值將往往朝著比原本準確的平 均值更小的平均值偏置平均距離。
[0142] 為了解決運一問題,系統(tǒng)可W使用縮放因子W引入校正因子,該校正因子考慮 由遺漏數(shù)據(jù)值創(chuàng)建的人為地小的距離。例如,系統(tǒng)可W使用在之前節(jié)中給定的縮放因子 Si, S2,…,Sk:
[0143] W
[0144] 運些縮放因子將"歸一化"在距離測量之間的維數(shù)W便補償遺漏數(shù)據(jù)值。
[0145] 考慮k維的點,從而使得每個點Xi具有分量Ix…Xi2,…,XiiJ??紤]集合M W代表 那些有遺漏值的分量,因此僅如果分量j遺漏才Xi, G M。也令值m代表遺漏分量的數(shù)目。 (繼而將有化-m)個非遺漏分量。)
[0146] 將校正的距離A X定義為; (8)
[014引從而使得距離有效地被縮放因子Sk/Sm擴張。
[0149] 作為示例,如果點Xi,而,…R7(即,在屯維空間中的點)并且點Xi具有用于它 的屯個分量中的兩個分量(即m= 2)的遺漏數(shù)據(jù),則系統(tǒng)將跨五個現(xiàn)有(非遺漏)分量使 用歐幾里得距離來計算從質屯、的距離AXi,然后將按照由下式計算的因子Sk/Sm來擴張距 離:
[015。 在等式巧)中代入k = 7和k-m = 5,系統(tǒng)將通過將A Xi乘W縮放因子來計算 AX:
(10)
[0153] 因此,在運一示例中,系統(tǒng)將按照20%擴張減少的5維距離W將它放大成7維等價 量。
[0154] 因此,在一些實現(xiàn)方式中,系統(tǒng)可W被配置為自動地檢測遺漏數(shù)據(jù)分量值,并且如 W上描述的那樣通過按照適當縮放因子擴張距離來計算考慮遺漏數(shù)據(jù)的修改的距離。
[0155] 復合變量
[0156] 在一些實現(xiàn)方式中,數(shù)據(jù)點的一個或者多個分量可W相互有關,并且系統(tǒng)可W被 配置為對那些分量進行分組并且將它們作為單個復合變量一起處理。作為示例,如果數(shù)據(jù) 點Xi具有分量Ix…X。,X。,…,XiiJ,并且如果系統(tǒng)確定第二X。和第S分量X。應當視為復 合變量,則系統(tǒng)可W代之W將數(shù)據(jù)點Xi表示為具有分量{Xii,Xi2,…,Xik i},其中復合變量Xi2 代表Xi2和X 13二者。W下在地理位置數(shù)據(jù)的上下文中提供具體示例。
[0157] 地理位置數(shù)據(jù)
[015引考慮數(shù)據(jù)集合Xi,又2,…,X。,其中每個數(shù)據(jù)點Xi具有分量{Xii, Xi2, Xn,…,XiiJ,并且 其中每個分量Xi,代表某個測量排序。例如,數(shù)據(jù)點X 1可W代表人而分量X 11可W是個人的 高度的測量,Xi2可W是人的年收入的測量,并且X 13可W是人花費在特定物品(比如雜貨) 等上的平均每周金錢數(shù)量的測量。
[0159] 如W上說明的那樣,在一些實現(xiàn)方式中,系統(tǒng)可W被配置為通過有選擇地使 用分量變量的不同子集來計算k均值。例如,系統(tǒng)的捜索算法可W判定選擇k個分量 {又…Xi2, X 口,…,XiJ中的四個分量W例如使用四個分量|Xi2, X巧,Xw,又…}來計算聚類求解。
[0160] 然而,如果數(shù)據(jù)點Xi對應于地理位置數(shù)據(jù),則X 14可W代表經(jīng)度并且X U可W代表 締度。在運樣的場景中,選擇締度分量Xu作為待處理的四個分量的部分但是未選擇對應經(jīng) 度分量Xi4可能出于至少兩個原因而引起問題。
[0161] 首先,通過僅使用地理位置的一個維度(比如經(jīng)度而不是締度),聚類求解可能基 于實際距離的不準確測量。例如,如果在聚類計算中未考慮締度,則住在德州和北達科他州 的兩個人將表現(xiàn)為具有在他們之間的很小距離,即使在現(xiàn)實中,他們相隔甚遠,因為他們的 經(jīng)度相似。
[0162] 其次,由于地球的球形形狀,在兩個經(jīng)度之間的距離在赤道附近比在極點附近大 得多。
[0163] 系統(tǒng)可W在一些實現(xiàn)方式中被配置為通過將地理位置數(shù)據(jù)標識為復合變量來解 決運一問題。例如,系統(tǒng)可W使用極點距離計算來計算用于運些復合變量的距離。
[0164] 將地理位置存儲為復合變量
[0165] 作為具體示例,取代在分量Xm中存儲經(jīng)度而在X 15中存儲締度,系統(tǒng)可W被配置 為通過使單個分量Xi4成為復數(shù)變量(該復數(shù)變量有被存儲為實部和虛部的經(jīng)度和締度) 來在該分量中存儲締度和經(jīng)度二者。在運樣的場景中,分量可W被表示為Xm= a+bi,其 中a是締度而b是經(jīng)度。在運一過程期間,系統(tǒng)也可W將測量從度數(shù)轉換成弧度,從而使得 位置41。N和92。W將被轉換成0.71+4. 68i(將北和東視為正方向,從而使得92。W = 360。-92。= 268。=4. 68 弧度)。
[0166] 系統(tǒng)然后可W被配置為將地理位置值一起選擇作為復合變量。然而,使用復數(shù)僅 用于表示概念,并且在實踐中,系統(tǒng)可W利用任何允許變量具有多個分量的適當數(shù)據(jù)結構。
[0167] 用于聚類算法的歐幾里得距離
[016引使用復合變量,計算用于聚類算法(比如k均值)的距離的系統(tǒng)將認識到使用復 數(shù)值(或者其它相似的兩部分數(shù)據(jù)結構)。在運樣的場景中,取代使用標準距離計算:
(11 )
[0170] 系統(tǒng)可W代之W將地理位置分量分離成集合G并且使用極點距離函數(shù)g& (X,C)來 計算它們的距離。
[01川如果X == 0! -f i({H并且質屯、分量是€ =起+ i恥,則極點距離函數(shù)(X,C) 可W基于用于距離的W下計算:
[0173] 用于數(shù)據(jù)點Xi的距離然后將變成:
[01巧]在W上等式(13)中,g& (X,C)分量距離乘W可W使地理位置數(shù)據(jù)歸一化的縮放因 子R,。運一因子可W通過首先計算整個數(shù)據(jù)集合的平均(中屯、)地理點并且然后為在每個 點與該中屯、之間的距離計算標準偏差來計算。
[0176] 如在前一節(jié)中描述的遺漏數(shù)據(jù)補償實現(xiàn)方式中那樣,可W增強基本距離計算算 法,從而使得自動地檢測地理位置分量并且應用適當球形距離計算。
[0177] 圖14至圖18是圖示了可W執(zhí)行集成的聚類和評估的系統(tǒng)顯示的屏幕截圖的示例 的示圖。
[017引圖14圖示了可W由系統(tǒng)為最高級求解探索器而顯示的屏幕截圖的示例,該屏幕 截圖示出了在分離圖形中示出的4聚類、5聚類、6聚類和7聚類求解。每個圖形對于每個 聚類大小示出對于求解的迭代捜索的進度。在四個圖形中的每個數(shù)據(jù)點代表獲得的一個可 能求解。四個圖形的豎直軸對應于例如使用人工智能和/或啟發(fā)式捜索在評估過程中使用 的"總質量分數(shù)"。水平軸是評估過程已經(jīng)嘗試的迭代數(shù)目。在運一示例中,顯示的屏幕截 圖如圖14的最高圖形中所示指示沒有用于4聚類求解的穩(wěn)定求解。具體而言,在4聚類求 解圖形中的豎直線表示在對捜索的多個迭代(例如,25個迭代)之后無法發(fā)現(xiàn)新的可接受 求解。對于更多聚類(比如在運一示例中的五個、六個和屯個聚類),在運一示例中的屏幕 截圖指示更佳穩(wěn)定性。例如,在圖14中的屏幕截圖的底部所示7聚類求解圖形示出了用于 數(shù)據(jù)集合的更佳總穩(wěn)定性,因為系統(tǒng)更佳地能夠在開始新迭代集合之前收斂至由每個豎直 線指示的求解。
[0179] 圖15圖示了屏幕截圖的示例,該屏幕截圖示出了 6聚類求解的細節(jié)。在運一示例 中的最高圖形在豎直軸上圖示總分數(shù)并且與在圖14中對于6聚類求解而顯示的第=圖形 相同。在運一示例中的其它=個圖形是評估過程的一些個別分量的輸出。例如,第二圖形 圖示了由被標注為"bv_score"的豎直軸代表的跨目標驅動的區(qū)分數(shù)量。第S圖形圖示了 由被標注為"soln_div_score"的豎直軸代表的在個別聚類之間的簡檔多樣性數(shù)量或者在 聚類之間的數(shù)據(jù)中的異構數(shù)量。第四圖形圖示了由被標注為"avg_centroW_dist"豎直軸 代表的在聚類中的平均質屯、距離或者聚類的緊湊度數(shù)量。對于第四圖形,更低分數(shù)指示更 佳性能,因為更緊湊的聚類傾向于在將觀測映射到聚類之一時產(chǎn)生更少誤差。在運一示例 中,對于正在查看的特定求解,可W在"選擇的變量"之下在屏幕截圖的右側上顯示為該求 解而選擇的那些變量和/或屬性為列表。在選擇的變量的列表W下可W顯示使得用戶能夠 對求解執(zhí)行各種過濾操作的一個或者多個按鈕。在運一示例中,顯示兩個按鈕、"通過其過 濾"按鈕和"清除過濾"按鈕。
[0180] 圖16圖示了如果用戶在選擇對應列表中的變量中的一個或者多個變量之后點擊 圖15中所示"通過其過濾"按鈕則可W顯示的屏幕截圖的示例。系統(tǒng)基于由用戶選擇的變 量對圖15中顯示的求解集合執(zhí)行過濾。圖16中的示例示出在過濾之后保留的所得數(shù)據(jù)點, 每個數(shù)據(jù)點代表并入選擇的變量"% unemployment"的6聚類求解中的一個可能求解。
[0181] 圖17圖示了在特定6聚類求解中的六個聚類中的每個聚類的具體分解的屏幕截 圖的示例。運一數(shù)據(jù)可W例如對應于圖14、圖15或者圖16中的數(shù)據(jù)點之一。顯示的數(shù)據(jù) 可W并入適當可視表示(比如色編碼、陰影或者其它可視技術)W代表哪些聚類具有用于 討論的變量的特別地更高或者更低值,該變量對應于圖17的表中的特定行。
[0182] 圖18圖示了六個聚類的圖形顯示的屏幕截圖的示例。在運一示例中,系統(tǒng)可W使 得用戶選擇在目標驅動或者選擇的變量之間的豎直和水平軸并且在選擇的軸上將聚類顯 示為球體。運可W使得用戶能夠可視地確定球體如何好地跨選擇的目標驅動或者選擇的變 量的值的總范圍展開。在一些實現(xiàn)方式中,如果用戶選擇聚類之一,則系統(tǒng)可W顯示該聚類 跨所有變量的相同具體數(shù)值簡檔。
[0183] 圖19是可W用于與運里描述的技術關聯(lián)地描述的操作的計算機系統(tǒng)1900的示例 的不意圖。
[0184] 系統(tǒng)1900包括處理器1910、存儲器1920、存儲設備1930和輸入/輸出設備1940。 部件1910、1920、1930和1940中的每個部件使用系統(tǒng)總線1950來互連。處理器1910能夠 處理用于在系統(tǒng)1900內(nèi)執(zhí)行的指令。在一個實現(xiàn)方式中,處理器1910是單線程處理器。在 另一實現(xiàn)方式中,處理器1910是多線程處理器。處理器1910能夠處理在存儲器1920中或 者在存儲設備1930上存儲的指令W在輸入/輸出設備1940上顯示用于用戶界面的圖形信 息。
[0185] 存儲器1920存儲在系統(tǒng)1900內(nèi)的信息。在一個實現(xiàn)方式中,存儲器19