專利名稱:數(shù)據(jù)分析系統(tǒng)及方法
技術領域:
本發(fā)明涉及進行使用并列分散信息處理環(huán)境的大規(guī)模數(shù)據(jù)分析及其可視化的裝 置以及方法。
背景技術:
一般,通過準備高速且廉價的計算處理環(huán)境,來進行與業(yè)務作業(yè)的高效化或設備 的最佳化相關的分析。在這些處理中,需要從大規(guī)模的日志數(shù)據(jù)中發(fā)現(xiàn)、提取出模式來形成 虛擬模型的發(fā)現(xiàn)過程。這樣的從日志數(shù)據(jù)進行的大規(guī)模數(shù)據(jù)分析,現(xiàn)在未完全自動化,尤其是在初期的 數(shù)據(jù)關系性的摸索(數(shù)據(jù)的相互間關系)階段,在與數(shù)據(jù)的相關性或時間的反復相關的模 式的發(fā)現(xiàn)中,很多情況下需要人的參與。此時,為了發(fā)現(xiàn)分析的切入口的著眼點,需要可視 化地提示通過各種方法處理后的數(shù)據(jù),促進人的直覺的理解,來將人的反饋作業(yè)取入計算 過程的分析環(huán)境。在這樣的環(huán)境中,重要的是同時實現(xiàn)可以不對人造成負擔地由計算機側 進行支持的操作性、和高效的計算資源的利用。這種數(shù)據(jù)解析作為數(shù)據(jù)挖掘而已知,例如已 知特開2008-204282號公報(專利文獻1)或「並列尹一夕7 4 二 >夕‘7 — *歹夕f \松 本和宏( 辦電子情報通信學會技術研究報告.IEICE technicalr印ort. Data Engineering Vol. 97,No. 417 (19971202) pp. 33-38社団法人電子情報通信學會」(非專利文獻1)。
發(fā)明內(nèi)容
但是,在上述現(xiàn)有例中,在數(shù)據(jù)模式的初期分析中,在大規(guī)模的數(shù)據(jù)成為對象的分 析中,當原始數(shù)據(jù)的大小增大時,在數(shù)據(jù)提取過程和分析處理的過程中都花費大量計算負 荷和時間,因此妨礙了用于嘗試的交互性,在模式的發(fā)現(xiàn)中也花費大量時間。當重復這樣的數(shù)據(jù)處理時,若干不同的數(shù)據(jù)處理過程,有時在相同條件或類似條 件下重復執(zhí)行分析處理過程的一部分。此時,通過保持各要素過程的中間輸出結果來再利用,有時可以使第二次及以后 的處理過程高速化。但是,雖然數(shù)據(jù)的再利用削減了計算處理,但當過多地保持了中間處理的結果時, 會消耗大量的外部存儲區(qū)域,在使用存儲裝置時的性價比方面,效率變差。另外,在用于分析的原始數(shù)據(jù)中,多數(shù)情況下僅使用根據(jù)某特有條件從數(shù)據(jù)庫中 找出的子集。在這種情況下,要考慮的中間數(shù)據(jù)的組合劇增,難以判斷保持什么條件下的中 間數(shù)據(jù)。出于這些理由,在進行設想了再利用的中間數(shù)據(jù)的管理并進行最優(yōu)化中,存在很 多性價比方面的問題。
4
因此,鑒于上述問題而提出本發(fā)明,其目的在于高效率地保存在分析處理的中間 階段生成的數(shù)據(jù)來再利用中間數(shù)據(jù)。本發(fā)明作為一種在具備處理器和存儲裝置的計算機中分析原始數(shù)據(jù),輸出分析結 果的數(shù)據(jù)分析系統(tǒng),具備存儲所述原始數(shù)據(jù)的原始數(shù)據(jù)存儲部;讀入所述原始數(shù)據(jù)來進 行分析,在該分析的過程中生成中間數(shù)據(jù),然后輸出分析結果的分析部;存儲由所述分析部 生成的中間數(shù)據(jù)的中間數(shù)據(jù)存儲部;以及接收針對由所述分析部輸出的分析結果的評價值 的評價接收部,所述分析部在所述分析時,參照所述中間數(shù)據(jù)存儲部的中間數(shù)據(jù)中可以利 用的中間數(shù)據(jù),所述評價接收部對與所述評價值對應的所述中間數(shù)據(jù)分配所述評價值,當 所述分配的評價值滿足預定的條件時,刪除與該評價值對應的所述中間數(shù)據(jù)。因此,根據(jù)本發(fā)明可以實現(xiàn)利用了中間數(shù)據(jù)的高速的分析處理。通過下面結合附圖進行的描述,本發(fā)明的上述以及其它特征、目標以及優(yōu)點更加 明了。
圖1是表示本發(fā)明的第一實施方式的分析系統(tǒng)的一例的框圖。圖2是表示本發(fā)明的第一實施方式的信息處理裝置的結構的框圖。圖3是表示本發(fā)明的第一實施方式的數(shù)據(jù)分析處理步驟的示意圖。圖4是表示本發(fā)明的第一實施方式的分析課題的輸入·可視化·評價的流程的整 體流程圖。圖5是表示用于描述本發(fā)明的第一實施方式的分析流程的腳本的數(shù)據(jù)結構的示 意圖。圖6是表示本發(fā)明的第一實施方式的分析服務器PC的分析調(diào)度程序的處理的一 例的流程圖。圖7表示管理本發(fā)明的第一實施方式的輸入數(shù)據(jù)的表信息的數(shù)據(jù)結構。圖8是表示本發(fā)明的第一實施方式的分析服務器PC執(zhí)行的分析流程的全等性 類 似性的檢查的一例的流程圖。圖9是表示本發(fā)明的第一實施方式的子分析服務器PC中進行的分析處理的一例 的流程圖。圖10表示本發(fā)明的第二實施方式,是表示DB保持的時空間信息的一例的說明圖。圖11表示本發(fā)明的第二實施方式,是管理空間信息的樹型結構的示意圖。圖12是表示本發(fā)明的第一實施方式的分析服務器PC中運行的調(diào)度程序的中間數(shù) 據(jù)的評價值的再計算和數(shù)據(jù)管理的一例的流程圖。圖13表示本發(fā)明的第一實施方式,是表示圖12的步驟1304中分析服務器PC21 進行中間數(shù)據(jù)的評價值的再計算的處理的流程圖。圖14是表示本發(fā)明的第二實施方式的分析服務器PC中進行的、制作生成中間數(shù) 據(jù)的腳本的處理的一例的流程圖。圖15是表示本發(fā)明的第二實施方式的分析服務器PC中進行的中間數(shù)據(jù)的評價值 的再計算和數(shù)據(jù)管理的一例的流程圖。圖16是表示本發(fā)明的第一實施方式的再利用中間數(shù)據(jù)的腳本的生成處理的一例的流程圖。圖17A是表示本發(fā)明的第一實施方式的再利用中間數(shù)據(jù)時的數(shù)據(jù)的樹型結構的 示意圖。圖17B是表示本發(fā)明的第一實施方式的再利用中間數(shù)據(jù)時的數(shù)據(jù)的樹型結構的 示意圖。圖18是表示本發(fā)明的第三實施方式的分析服務器PC執(zhí)行的分析流程的全等 性·類似性的檢查的一例的流程圖。圖19是表示本發(fā)明的第一實施方式的各信息處理裝置中執(zhí)行的程序的關系的框 圖。圖20表示本發(fā)明的第二實施方式,是表示各信息處理裝置中執(zhí)行的程序的關系 的框圖。圖21表示本發(fā)明的第五實施方式,是表示分析系統(tǒng)的一例的框圖。圖22表示本發(fā)明的第五實施方式,是分析結果的畫面圖像。圖23是本發(fā)明的第一實施方式的返回分析流程的全等性.類似性的數(shù)據(jù)結構的 示意圖。圖24是表示本發(fā)明的第一實施方式的高速緩沖存儲DB執(zhí)行的分析流程的全等 性·類似性的檢查的一例的流程圖。圖25是表示將本發(fā)明的第一實施方式的分析結果可視化的畫面的一例的畫面圖像。圖26A是表示本發(fā)明的第一實施方式的可視化模塊(分析服務器PC)的一例的框 圖。圖26B是表示本發(fā)明的第一實施方式的可視化模塊(客戶機PC)的一例的框圖。圖27表示用于管理為了合并本發(fā)明的第三實施方式的數(shù)據(jù)分析處理而需要的信 息的數(shù)據(jù)結構。
具體實施例方式以下,列舉用于實現(xiàn)本發(fā)明的最佳實施方式,根據(jù)附圖進行說明。<整體結構>圖1是表示本發(fā)明的第一實施方式的分析系統(tǒng)的一例的框圖??蛻魴CPC201作為利用者200的用戶接口來工作,是用于接受來自利用者200的 輸入,在畫面上輸出處理結果的信息處理設備。該客戶機PC201具有對由取得來自利用者200的輸入的鍵盤或鼠標構成的接口設 備202、對利用者輸出結果的圖像或字符串的顯示設備203、和對利用者200的表情或行動 進行攝像的照相機設備204的輸入輸出單元。分析服務器PC210是用于處理經(jīng)由網(wǎng)絡205從客戶機PC201發(fā)送來的分析處理過 程的消息,提取出分析內(nèi)容對應的數(shù)據(jù)的范圍,把對提取出的數(shù)據(jù)進行信息處理后的結果 再次通知給客戶機PC201的信息處理設備。子分析服務器PC221 223是用于從分析服務器PC210進行的信息處理內(nèi)容中經(jīng) 由網(wǎng)絡220取得部分問題(信息處理的一部分)來進行處理的信息處理設備。在圖1中,
6作為子分析服務器,描述了 3臺子分析服務器PC221 223,但通過增加該子分析服務器的 臺數(shù)可以使計算處理能力提高。數(shù)據(jù)庫(以下稱為DB) 231 233,是經(jīng)由網(wǎng)絡230與子分析服務器PC221 223 連接,把成為分析對象的大量原始數(shù)據(jù)保持在存儲系統(tǒng)內(nèi),根據(jù)包含后述制約條件的請求, 提取出所保持的數(shù)據(jù)的一部分來發(fā)送的信息處理設備。另外,高速緩沖存儲DB241,是經(jīng)由 網(wǎng)絡220與分析服務器PC210和子分析服務器PC221 223連接,實現(xiàn)臨時保管通過分析服 務器PC和子分析服務器PC221 223進行分析處理后的數(shù)據(jù)的功能的信息處理設備。此 外,原始數(shù)據(jù)是為了進行分析而預先收集的數(shù)據(jù)。<信息處理設備的結構>使用標準的信息處理裝置來安裝客戶機PC201、分析服務器PC210、子分析服務器 PC221 223、DB231 233、高速緩沖存儲DB241的各要素。圖2是表示用于實現(xiàn)這樣的標準的信息處理裝置300的機構的例子的框圖。信息 處理裝置300由中央運算處理裝置305、主存儲器306、外部存儲裝置307、生成向外部顯示 的圖像的圖像輸出部308、外部輸入輸出接口部309、網(wǎng)絡接口部310的要素構成。這些各信息處理設備的安裝,參照了作為通用的計算機而被安裝的已有的各種。 另外,在外部輸入輸出接口中使用USB等通用的外部設備控制接口。另外,信息處理設備相 互經(jīng)由網(wǎng)絡IF309交換消息,但是在該網(wǎng)絡的安裝中利用TCP/IP等已有的消息交換用協(xié) 議。<消息流和過程>圖19表示在客戶機PC201、分析服務器PC210、子分析服務器PC221 223、 DB231 233、以及高速緩沖存儲DB241的各信息處理裝置上執(zhí)行的程序、和在各程序間進 行的消息流。在客戶機PC201中,將分析處理輸入程序2010、分析結果提示程序2011、評價結果 輸入程序2012、推薦分析處理提示程序2013讀入主存儲器306,分別非同步地通過中央運 算處理裝置305執(zhí)行,通過外部輸入輸出接口 309和網(wǎng)絡接口 310接收消息和輸入,進行信 息處理。在分析服務器PC210中,將調(diào)度程序2101、數(shù)據(jù)分析程序2102讀入主存儲器306, 分別非同步地通過中央運算處理裝置305執(zhí)行,通過外部輸入輸出接口 309和網(wǎng)絡接口 310 接收消息和輸入,進行信息處理。子分析服務器PC221接收來自分析服務器PC210的數(shù)據(jù)分析程序2102的消息, 由消息指定的預定的數(shù)據(jù)分析模塊2211將數(shù)據(jù)提取過程2212讀入主存儲器,通過中央運 算處理裝置305進行信息處理。此時,當存在多個可以進行處理的子分析服務器PC221 223時,數(shù)據(jù)分析程序2102按照后述的步驟將數(shù)據(jù)分析處理內(nèi)容的一部分分配給子分析服 務器PC221 223,使其并行地執(zhí)行。在DB231中,將從外部存儲裝置307讀取并轉發(fā)所保存的原始數(shù)據(jù)的數(shù)據(jù)管理程 序2311讀入主存儲器306,通過外部輸入輸出接口 309和網(wǎng)絡接口 310接收消息和輸入,進 行必要的數(shù)據(jù)的提取和轉發(fā)處理。在高速緩沖存儲DB241中,將登錄所保存的內(nèi)部數(shù)據(jù)(中間數(shù)據(jù))、檢索類似的中 間數(shù)據(jù)的高速緩沖存儲數(shù)據(jù)檢索程序2411、和從存儲裝置讀取并轉發(fā)高速緩沖存儲數(shù)據(jù)的高速緩沖存儲數(shù)據(jù)管理程序2412讀入主存儲器306,分別非同步地通過中央運算處理裝置 305執(zhí)行,通過外部輸入輸出接口 309和網(wǎng)絡接口 310接收消息和輸入,進行信息處理。以下,描述進行這些程序的協(xié)作處理和分析處理的過程。<分析課題的描述形式(腳本)的定義>通過圖3中描繪的以樹型結構表示的流程(數(shù)據(jù)分析流程)表現(xiàn)成為分析課題的 數(shù)據(jù)分析。圖5表示用于在計算機(分析服務器PC210)內(nèi)部保持該數(shù)據(jù)分析流程的數(shù)據(jù) 結構600。在圖5中,樹型結構作為節(jié)點構造體610、620等的列表來表示。在主存儲器的 存儲區(qū)域中,作為管理全部數(shù)量的節(jié)點構造體的數(shù)值,記載了要素數(shù)601。數(shù)據(jù)分析節(jié)點的 構造體610由表示生成時的優(yōu)先度或保存狀況的管理數(shù)據(jù)611、處理過程的ID編號612、輸 入數(shù)據(jù)(子節(jié)點)的ID編號的列表613、614、輸出數(shù)據(jù)(父節(jié)點)的ID編號615、存儲與 其它分析內(nèi)容對應的通用參數(shù)的區(qū)域616構成。處理過程編號612是用于從外部存儲裝置 307的預定位置調(diào)用處理內(nèi)容的程序的ID編號。另外,613 615的ID編號是記載了 (a)指向數(shù)據(jù)分析流程內(nèi)的別的構造體620 等的本地指針、(b)表示要參照的DB的數(shù)據(jù)庫編號(圖3的401 403)的ID編號、(c)高 速緩沖存儲DB241內(nèi)的管理表的ID編號中的任意一個或多個的數(shù)據(jù)區(qū)域。另外,通用參數(shù) 616是記載了從DB的查找條件、分析處理算法的調(diào)整參數(shù)等的區(qū)域。<分析課題的輸入方法>分析服務器PC210執(zhí)行的調(diào)度程序2101,以所述數(shù)據(jù)結構600取得從客戶機 PC201請求的數(shù)據(jù)分析的課題,并根據(jù)對管理數(shù)據(jù)611附加的優(yōu)先度的數(shù)值依次執(zhí)行。在本 實施方式中,通過分析處理輸入程序2010,按照利用者200通過客戶機PC201明確輸入的分 析步驟的腳本進行分析。圖4是表示利用者從客戶機PC201的分析處理輸入程序2010明確地輸入數(shù)據(jù)分 析的內(nèi)容來執(zhí)行分析時的過程的流程圖。步驟501是客戶機PC201定義處理流程的數(shù)據(jù)的步驟。在該步驟中,利用者200 通過由客戶機PC201提供的信息輸入程序(省略圖示)的接口輸入圖3的圖形結構。在該輸入作業(yè)中,采用了作為使用字符符號來表現(xiàn)樹型結構和ID編號的CUI、或 作為圖形來進行表現(xiàn)、輸入的⑶I來進行輸入的方法。關于這些輸入方法,可以采用在已有 的信息分析設備中安裝的輸入方法(該樹型結構數(shù)據(jù)的輸入方法,具有通過在Lisp等的描 述中出現(xiàn)的括號式進行的定義、或基于GUI的交互的連接方法,但都是眾所周知的計算機 上的一般技術,不是包含本實施方式的新穎性的部分,因此省略步驟的細節(jié))。在圖3的例子中表示了,從DB401 403通過數(shù)據(jù)提取模塊411 413提取數(shù)據(jù) (421 423),數(shù)據(jù)421和422通過處理過程432進行處理,輸出數(shù)據(jù)432,在處理過程441 中處理數(shù)據(jù)423和432來處理數(shù)據(jù)442,并顯示在客戶機PC201中顯示的(450)這樣的樹型 結構的數(shù)據(jù)分析流程。在處理過程中生成的數(shù)據(jù)421 423、432成為中間數(shù)據(jù),如后所述 被保存在高速緩沖存儲DB241中。<向服務器發(fā)送>在步驟502中,將上述生成的數(shù)據(jù)分析流程的結構數(shù)據(jù)轉發(fā)到分析服務器PC210, 在等待在分析服務器PC210中進行處理的結果的期間,該過程進入待機狀態(tài)(步驟503)。 在后面使用圖6的流程圖描述在此期間執(zhí)行的分析服務器PC210的處理。
8
<分析過程的結束>在可視化模塊(圖3的450、圖19的2011)以外的全部要素的分析處理結束的 情況下,從分析服務器PC210向客戶機PC201發(fā)送分析結果??蛻魴CPC201接收分析結果 (504),以接收到的數(shù)據(jù)作為輸入,啟動可視化模塊(分析結果提示程序2011)。<可視化模塊的結構>圖26A、圖26B中舉出構成可視化模塊的實施的一例。可視化模塊,作為圖2所示 的作為通用計算機的分析服務器PC210和客戶機PC201上的分析結果提示程序2011而實 現(xiàn)??梢暬K是配置在分析服務器PC210上的分析結果提示程序2011,如圖26A、圖26B 所示,由內(nèi)容DB2710、和作為在客戶機PC201上配置的程序的顯示觀察器2720這兩部分構 成。分析服務器PC210的顯示內(nèi)容DB2710是存儲了描述了圖像處理的內(nèi)容的腳本的 數(shù)據(jù)庫。顯示內(nèi)容BD2710具有以下功能取得指定一個腳本的字符串或ID編號、和以預定 的格式存儲的數(shù)據(jù),通過檢索程序部分2711從腳本的字符串代碼(2701 2707)的數(shù)據(jù)庫 中調(diào)用所指定的該代碼2701,將調(diào)用的源字符串的代碼2701和圖26B的數(shù)據(jù)構造體802合 并,然后發(fā)送到客戶機PC201的顯示觀察器2720。以下,把該腳本2701和數(shù)據(jù)構造體802 合并所得的內(nèi)容稱為顯示內(nèi)容。顯示觀察器2720,由描述圖像顯示內(nèi)容的腳本部分(顯示內(nèi)容)2701、802、解釋該 腳本表示的手續(xù)的解釋器部分(2722)、和將交互地執(zhí)行手續(xù)結果所得的結果顯示在畫面上 的提示部分2721構成。解釋器部分2722依次執(zhí)行腳本,按照腳本指示的方法讀入數(shù)據(jù)構造 體802,執(zhí)行提示部分的程序,作為圖像信息顯示在顯示設備203中。作為這樣的顯示腳本 的解釋和顯示系統(tǒng)的一般實施例,可以利用因特網(wǎng)的瀏覽器中的Java(注冊商標)Script 的動態(tài)解釋機構等來實現(xiàn)?!纯梢暬K的執(zhí)行〉在該可視化模塊中生成靜態(tài)的圖像·可以交互地控制的顯示內(nèi)容等,將其數(shù)據(jù)轉 發(fā)到客戶機PC??蛻魴CPC的觀察器在畫面上提示該數(shù)據(jù)并待機,或者接收交互的輸入。圖25表示通過可視化模塊的顯示圖像的例子。作為伴隨圖中2602那樣的圖標的 圖,表現(xiàn)在地圖2601上重疊地分析了各分區(qū)區(qū)域的數(shù)據(jù)的內(nèi)容,通過點的大小和顏色表現(xiàn) 分析結果的數(shù)據(jù)。另外,此時配合來自接口設備202的命令,將地圖的各部分交互地放大/ 縮小來顯示。在該顯示和閱覽作業(yè)結束時,評價結果輸入程序2012向利用者200提示圖25的 數(shù)值輸入畫面2603,催促針對分析結果輸入評價值(步驟506、507)。當輸入了評價值時, 將該值發(fā)送到分析服務器PC210的調(diào)度程序2101,用于管理在高速緩沖存儲DB241中保存 的中間數(shù)據(jù)的管理(步驟508)。使用圖12的流程圖在后面描述該中間數(shù)據(jù)的管理步驟。<分析處理服務器>圖6的流程圖表示分析服務器PC210的處理步驟。分析服務器PC210在主存儲器306中保持了登錄成為分析對象的分析流程的隊 列。以下將該隊列稱為未執(zhí)行隊列。在初始狀態(tài)下,分析服務器PC210在對結構數(shù)據(jù)和分 析處理開始消息的接收狀態(tài)下進行待機(步驟701)。在接收到消息時,在消息是新的分析 流程的情況下,執(zhí)行步驟703 711的處理內(nèi)容,當消息是來自子分析服務器PC221 223
9的部分分析結束的通知的情況下,執(zhí)行步驟712 719 (步驟702)。<新分析流程的情況>把在步驟701中接收到的消息是來自客戶機PC201的新分析流程的情況下的舉 動,作為分析的路線是通過數(shù)據(jù)構造體610表現(xiàn)的樹型結構的分析,說明步驟703 711的 步驟。與該樹型結構的父分析(處理過程編號612)的ID—起,生成列出各輸入數(shù)據(jù)613 614而得到的構造體數(shù)據(jù)。以下,將該構造體稱為子節(jié)點列表(步驟703)。分析服務器PC210,關于各輸入數(shù)據(jù)613 614 (子節(jié)點),確認該節(jié)點是否是直接 參照DB231 233的數(shù)據(jù)提取過程。在這種情況下,委托子分析服務器PC221 223進行 數(shù)據(jù)的提取處理(步驟712)。在數(shù)據(jù)提取過程以外的情況下,分析服務器PC210每次一個地選擇其中的子節(jié) 點,針對對應的分析內(nèi)容進行步驟706 710的處理(步驟705)。首先,分析服務器PC210 委托高速緩沖存儲DB247判定是否已經(jīng)在高速緩沖存儲DB241中登錄了中間數(shù)據(jù)。分析服 務器PC210,將為此從數(shù)據(jù)構造600搜索出的全部數(shù)據(jù)做成列表,生成用于類似數(shù)據(jù)的檢索 委托的消息,并轉發(fā)到高速緩沖存儲DB241 (步驟706)。以下,將該列表稱為部分分析流程 處理腳本的高速緩沖存儲DB241的高速緩沖存儲數(shù)據(jù)檢索程序,進行從分析服務器PC210 發(fā)送來的部分分析流程處理腳本和在高速緩沖存儲數(shù)據(jù)管理程序的表中登錄的數(shù)據(jù)之間 的條件比較。按照圖8的流程圖進行該高速緩沖存儲DB241進行的條件比較的處理(后 述)。當條件比較結束時,從高速緩沖存儲DB241發(fā)送關于再利用可能性的判斷和登錄編號 成為一組的數(shù)據(jù)(步驟707)。在高速緩沖存儲DB241中已經(jīng)存在可以再利用的相應數(shù)據(jù)時,把表示從高速緩沖 存儲DB241發(fā)送來的中間數(shù)據(jù)的保存位置的編號(登錄編號)寫入子節(jié)點列表,同時將該 子節(jié)點的已執(zhí)行標志設為ON (步驟708)。當高速緩沖存儲DB241中不存在可以再利用的相應數(shù)據(jù)(中間數(shù)據(jù))時,把表示 從高速緩沖存儲DB241發(fā)送來的中間數(shù)據(jù)的保存位置的編號(未處理)寫入子節(jié)點列表, 同時將該子節(jié)點的已執(zhí)行標志設為OFF(步驟709)。從該分析流程中提取出將子節(jié)點作 為根的部分樹,來生成新的分析流程,作為新分析流程循環(huán)地調(diào)用登錄(701),對調(diào)度程序 2101自身進行。<部分分析結束的情況>說明在步驟701中接收到的消息是來自子分析服務器PC221 223的部分分析結 束時的處理。在從子分析服務器PC221 223發(fā)送來的信息中表示了表示高速緩沖存儲 DB241的中間數(shù)據(jù)保存位置的編號。從登錄在未執(zhí)行隊列中的全部子節(jié)點列表中檢索該編 號,針對在子節(jié)點中包含相應編號的子節(jié)點列表進行步驟723 727 (步驟721、722)。首先,分析服務器PC210將子節(jié)點的已執(zhí)行標志設為ON(步驟723)。接著,調(diào)查子 節(jié)點列表中包含的全部要素是否已執(zhí)行(步驟724)。在子節(jié)點列表全部已執(zhí)行的情況下, 判定該父分析的ID是可視化模塊2011,還是數(shù)據(jù)分析模塊2211。當父分析的ID是數(shù)據(jù)分 析模塊2211時,分析服務器PC210委托子分析服務器PC221 223執(zhí)行數(shù)據(jù)分析模塊2211 的程序。另一方面,當父分析的ID是可視化模塊2011時,從高速緩沖存儲DB241中讀入分 析結果的數(shù)據(jù),并委托客戶機PC201執(zhí)行可視化模塊2011。<待機狀態(tài)>
在以上處理結束的時刻,分析服務器PC210在步驟720中再次進入消息待機狀態(tài), 等待下一次的接收。<同一性的判定>圖8和圖24的流程圖表示,判斷在高速緩沖存儲DB241中登錄的分析數(shù)據(jù)(中間 數(shù)據(jù))和部分分析流程處理腳本之間的全等或類似性的一連串例程。該判斷處理由以下兩 個例程構成圖8所示的針對個別的分析流程,循環(huán)地檢查一致性的步驟900 907的個別 判定例程;和圖24所示的針對高速緩沖存儲DB241內(nèi)的全部中間數(shù)據(jù)實施個別判定例程的 全體的例程。全體的例程,比較目標分析流程和在高速緩沖存儲DB241保持的中間數(shù)據(jù)中所保 存的分析流程,判定(i)存在完全相同的分析流程的情況(全等)、( )是類似分析流程, 但數(shù)據(jù)查找范圍的參數(shù)不同的情況(類似),當存在(i)、( )各自的中間數(shù)據(jù)時,在圖23 的2410所示的構造體中加入數(shù)據(jù),將這些構造體的列表作為返回值來返回。另外,個別判定的例程,比較目標分析流程和在中間數(shù)據(jù)中保存的分析流程,在樹 型結構類似的情況下返回Ture,在樹型結構不同的情況下返回False。另外,在樹型結構的 各節(jié)點的參數(shù)不一致的情況下,將該節(jié)點的差分信息追加在堆棧中來返回。在圖8的步驟901中,分析服務器PC210比較數(shù)據(jù)分析處理的相應節(jié)點的要素分 析處理、和高速緩沖存儲DB241的數(shù)據(jù)分析處理的相應節(jié)點的要素分析處理的程序ID編 號。在該比較結果不同的情況下,視為未發(fā)現(xiàn)類似的分析處理結果,中斷循環(huán)的判定處理 (圖中,個別判定No),將False的值作為返回值來返回。在步驟902中,比較數(shù)據(jù)分析處理的相應節(jié)點的要素分析處理、和高速緩沖存儲 DB241的數(shù)據(jù)分析處理的相應節(jié)點的要素分析處理的、在通用參數(shù)616中存儲的信息。在 該比較結果不同的情況下(圖中,個別判定No),視為未發(fā)現(xiàn)相同的分析處理結果,將False 的值作為返回值來返回。在步驟903中,檢查在數(shù)據(jù)分析處理的相應的要素分析處理節(jié)點中是否存在子節(jié) 點(即輸入數(shù)據(jù)613 614)。但是,當該要素分析處理需要的輸入僅是表示DB的ID時,調(diào) 查表示DB的表的ID編號,在不同的情況下返回False。在相同的情況下,關于該要素分析 處理,視為進行同樣的處理,并返回True。在步驟904 906中,依次搜索高速緩沖存儲DB241的數(shù)據(jù)分析處理的要素分析 處理的子節(jié)點(步驟904),為了確認該子節(jié)點和高速緩沖存儲DB241的數(shù)據(jù)分析處理的相 應位置的要素分析處理的同一性,對這些數(shù)據(jù)循環(huán)地執(zhí)行相同例程900來檢查(步驟905)。 在對該子節(jié)點循環(huán)檢查的結果為False的情況下,作為返回值而返回False。在關于全部子 節(jié)點的結果,循環(huán)處理結束卻一次也沒有返回False的情況下,返回True。當檢查以上的循環(huán)流程的結果為,結果對于全部子節(jié)點一致時,視為樹型結構的 節(jié)點的基本形狀類似。另外,外加在堆棧為空的情況下視為全等。通過重復上述的個別判定例程來進行高速緩沖存儲DB241中的中間數(shù)據(jù)的搜索。 另一方面,當高速緩沖存儲DB241取得成為課題的分析流程時,開始圖24的處理(步驟 920)。選擇在高速緩沖存儲DB241內(nèi)登錄的中間數(shù)據(jù)(步驟921),通過上述方法進行與管 理表(圖7表示其構造體)中保存的生成腳本801的比較(步驟922)。當上述比較的結果為,返回值是False時,由于數(shù)據(jù)間沒有類似性,因此探索下一數(shù)據(jù)(步驟923)。另一方面,當上述比較的結果為,返回值是True時,參照循環(huán)流程結束時 的堆棧狀態(tài)(步驟924)。在所保存的數(shù)據(jù)和檢索對象的分析流程的處理全等的情況下,在 堆棧中未裝滿一切信息。在這種情況下,由于可以完全再利用中間數(shù)據(jù),因此把指示該高速 緩沖存儲DB241的指針信息(ID)記載在全等分析數(shù)據(jù)的ID2410的構造體中,追加到列表 中(步驟928)。另外,如果高速緩沖存儲DB241中保存的數(shù)據(jù)是類似但不同的數(shù)據(jù),則在堆棧中 裝滿表示其不同的數(shù)據(jù)。在這種情況下,針對該類似數(shù)據(jù),使用與各要素分析處理相關聯(lián)的 數(shù)據(jù)合成用的程序(后述),檢查是否可以補充數(shù)據(jù)的不足部分.改變部分(根據(jù)圖16在 后面描述該檢查內(nèi)容的步驟)(步驟925)。根據(jù)圖16的流程圖的返回值判定是否可以再利 用(步驟926),在通過補充不足部分的數(shù)據(jù)可以生成輸出結果的情況下,作為分析流程處 理腳本而生成不足的數(shù)據(jù)部分的處理生成和數(shù)據(jù)的合成處理,作為分析服務器PC210的處 理來重新登錄(步驟927)。接著,高速緩沖存儲DB241生成圖23的構造體2420,并將指示該高速緩沖存儲 DB241的指針信息(ID)存儲在類似分析數(shù)據(jù)的ID2421中,將差分信息存儲在2422中,然后 追加到列表中(步驟928)。高速緩沖存儲DB241,在判定出全部檢查已結束的情況下(步 驟929),將中間數(shù)據(jù)的檢索結果作為列表,返回分析服務器PC210(步驟930)。〈子分析服務器的處理〉在子分析服務器PC221 223中執(zhí)行分析服務器PC210委托的各要素分析的處理。在分析處理的模塊2211中存在數(shù)據(jù)提取模塊、和數(shù)據(jù)分析模塊這兩種。數(shù)據(jù)提取 模塊,作為圖5的輸入數(shù)據(jù)613而具有表示DB的表的ID,按照參數(shù)616的制約條件,僅將 必要的數(shù)據(jù)從DB提取出來。分析服務器PC210的數(shù)據(jù)分析模塊2102,取得由ID613 614 表示的其它模塊輸出的中間數(shù)據(jù)來作為輸入,按照參數(shù)616的條件進行分析處理。另外,在各數(shù)據(jù)分析模塊2211中,為了再利用在高速緩沖存儲DB241中存儲的中 間輸出結果(中間數(shù)據(jù))來進行新數(shù)據(jù)的處理,另外準備合成運算處理和削減運算處理。在 后面描述該合成·削減處理的內(nèi)容。在數(shù)據(jù)分析模塊2211的程序中安裝了在信息處理中一般所使用的各種計算處 理。在本實施方式中,作為該數(shù)據(jù)分析模塊2211進行的處理的代表性的例子,假定安裝了 求時間序列數(shù)據(jù)的移動平均過濾、每個數(shù)據(jù)要素的協(xié)方差矩陣、數(shù)據(jù)要素的聚類、類間的距 離函數(shù)等的分析方法的模塊。在本實施方式中,這些各數(shù)據(jù)分析模塊2211,作為輸入來接收分組化的數(shù)據(jù)和處 理參數(shù)。各數(shù)據(jù)分析模塊2211分別定義了固有的輸入輸出數(shù)據(jù)的類型和個數(shù),作為在模塊 處理的執(zhí)行前檢查該變量類型的適合性的該輸入輸出的數(shù)據(jù)類型的例子,具有時間序列數(shù) 據(jù)、在每單位時刻被分割的時間序列數(shù)據(jù)、通過聚類被劃分的狀態(tài)類等。將這些數(shù)據(jù)分析模塊2211的程序預先保存在子分析服務器PC221 223內(nèi)的 ROM、或者存儲區(qū)域(外部存儲裝置307)中。用于數(shù)據(jù)分析模塊2211的程序的實例的生成 的信息,可以通過進行要素分析過程的上述程序模塊、和成為處理對象的數(shù)據(jù)、以及表示它 們的連接關系的樹型結構來表現(xiàn)。當取得在從分析服務器PC210發(fā)送來的數(shù)據(jù)分析節(jié)點構造體610中記載的消息時,子分析服務器PC221 223生成這些要素分析過程的實例。在該各程序模塊(數(shù)據(jù)分析模塊2211)的執(zhí)行實例中,表示高速緩沖存儲DB241 的數(shù)據(jù)保存目的地的ID編號,被用作輸入數(shù)據(jù)、輸出數(shù)據(jù)、或執(zhí)行時的參數(shù),被用于執(zhí)行時 的數(shù)據(jù)的輸入輸出。圖9的流程圖表示了執(zhí)行子分析服務器PC221 223中的分析處理實例的一連串 的步驟。在子分析服務器PC221 223中,調(diào)度程序等待來自分析服務器PC210的處理內(nèi) 容執(zhí)行待機(步驟1000)。當子分析服務器PC221 223接收到處理內(nèi)容時,從ROM或存儲 區(qū)域讀入數(shù)據(jù)分析節(jié)點構造體610的處理過程編號612的程序(步驟1001),同時從高速緩 沖存儲DB2412分別讀入輸入數(shù)據(jù)613 614。另外,從子分析服務器PC221 223同時讀 入圖7所示的管理輸入數(shù)據(jù)的表信息800。在步驟1003中,子分析服務器PC221 223將讀入的程序應用于所讀入的數(shù)據(jù)來 執(zhí)行。將其計算結果保存在高速緩沖存儲DB2412中(步驟1004)。另外,將該處理所需的時 間作為生成所需時間(差分),輸入圖7所示的高速緩沖存儲DB241的管理表信息800的生 成所需時間(差分)803中,在作為輸入數(shù)據(jù)的所需時間而登錄的生成所需時間(總體)804 的合計值中,將補全了該過程的所需時間后的時間保存在生成所需時間(總體)804中,將 過程的結束發(fā)送到分析服務器PC210。<與數(shù)據(jù)分析程序的輸入對應的結合·分離性>在本實施方式中,作為一個特征,當存在計算已結束的輸出數(shù)據(jù)(分析結果)時, 對應于輸入數(shù)據(jù)的增加·削減這樣的變化,存在返回是否可以進行新的輸入數(shù)據(jù)和已有的 處理結果之間的結合(合成)或分離的函數(shù),關于可以進行合成 分離的處理,也記載了用 于該處理的算法。所謂可以進行輸入數(shù)據(jù)的結合的情況,是指具有數(shù)據(jù)分析模塊2211的輸出結果 g,可以定義⑴式的函數(shù)f的情況。fl(g(a)+g(b)) = g(a+b)......(1)其中,g是表示各數(shù)據(jù)分析模塊2211的程序的處理的函數(shù),將輸入集a、b的輸出 記為g(a)、g(b)。函數(shù)fl是以處理結果g(a)、g(b)作為輸入來執(zhí)行處理的函數(shù)。a+b設為 輸入集a和b的和集合。數(shù)據(jù)分析模塊2211的類具有針對返回結合可能性的成員函數(shù)和進行結合處理的 函數(shù)的接口。該成員函數(shù),是當存在兩個輸入數(shù)據(jù)集和各自的輸出結果時,在通過處理兩個 輸出結果,可以返回與合成輸入數(shù)據(jù)集來處理的結果相同的結果的情況下返回Ture,否則 返回False的靜態(tài)函數(shù)。在前者的情況下,對實現(xiàn)進行結合處理的函數(shù)f的程序進行定義。作為可以進行這樣的數(shù)據(jù)的合成的處理的簡單例子,可以舉出返回數(shù)據(jù)的數(shù)量、 平均和方差的計算處理等。另一方面,所謂可以進行輸入數(shù)據(jù)的削減的情況,是指可以使用數(shù)據(jù)分析模塊 2211的輸出結果g來定義⑵式的函數(shù)f2的情況。f2(g(a+b)、a) = g(a)其中,g是表示各數(shù)據(jù)分析模塊2211的程序的處理的函數(shù),將輸入集a的輸出記 為g(a),a+b設為a和b的和集合。此時,函數(shù)f2是以處理g(a+b)的結果和將其部分集合的范圍a作為輸入來工作的函數(shù)。數(shù)據(jù)分析模塊2211的類具有針對返回分解可能性的成員函數(shù)、和進行分解處理 的函數(shù)的接口。該函數(shù)是當存在輸入數(shù)據(jù)集和其輸出結果時,在可以得到在以輸入數(shù)據(jù)集 的部分集合作為輸入來處理時的輸出結果的情況下返回Ture,否則返回False的靜態(tài)函 數(shù)。在前者的情況下,定義了進行分解處理的函數(shù)f。作為這樣的處理的例子,可以舉出移動平均等在數(shù)據(jù)處理中保證了局部的局部性 的過濾處理。另外,關于可以進行輸入數(shù)據(jù)的合成的函數(shù),不僅將全體輸出結果作為中間數(shù)據(jù) 來保存,還將獨立對各部分集合的組進行處理而得的各輸出結果作為中間數(shù)據(jù)來保存,由 此可以使以組單位的刪除成為可能。<用于合成數(shù)據(jù)·生成新流程的例程>另外,各數(shù)據(jù)分析模塊2211具有,再利用過去所輸出的結果(中間數(shù)據(jù))來判定 是否可以節(jié)省新數(shù)據(jù)的計算成本的算法。圖16表示該算法。數(shù)據(jù)分析模塊2211,在高速緩沖存儲DB241中已經(jīng)存在對輸入數(shù)據(jù)χ處理而得的 中間數(shù)據(jù)g(x),此次處理的目的是根據(jù)輸入數(shù)據(jù)y進行g(y)的處理。圖17A、圖17B是作 為該處理的結果而作成的新的樹型結構數(shù)據(jù)的示意圖。在圖16中,關于各輸入數(shù)據(jù),為了調(diào)查已有的中間數(shù)據(jù)的輸入數(shù)據(jù)χ和作為目標 的輸入數(shù)據(jù)y之間的包含關系,提取出輸入數(shù)據(jù)χ和輸入數(shù)據(jù)y的公共部分ζ (積集合)(步 驟 1701、1702)。當輸入數(shù)據(jù)χ和輸入數(shù)據(jù)y中不存在公共部分ζ時,作為不可再利用而返回 False (步驟 1703、1712)。另一方面,當存在公共部分z,輸入數(shù)據(jù)y包含公共部分ζ以外的數(shù)據(jù)時(步驟 1704),使用所述成員函數(shù)向該模塊查詢是否可以進行輸入數(shù)據(jù)的結合處理f 1,在不可以的 情況下,作為不可再利用而返回False (步驟1705、1712)。當該檢查的結果是輸入數(shù)據(jù)y包含公共部分ζ以外的要素時,從保存在高速緩沖 存儲DB241中的構造體數(shù)據(jù)的區(qū)域801拷貝進行輸入數(shù)據(jù)χ的生成所得的中間結果的數(shù)據(jù) 流(data flow)(腳本)(步驟 1706)。以下,為了說明,以圖17A的1810表現(xiàn)該數(shù)據(jù)g(x)的導出處理。把該對象數(shù)據(jù)的 提取處理1802的參數(shù)從輸入數(shù)據(jù)χ改寫為輸入數(shù)據(jù)y_公共部分ζ (1822),變換成導出數(shù)據(jù) g(y-z)的流程(步驟1707)。當輸入數(shù)據(jù)χ包含公共部分ζ以外的區(qū)域時(步驟1708),使用所述成員函數(shù)向該 模塊查詢是否可以進行輸入數(shù)據(jù)的削減處理f2。在不可以的情況下,作為不可再利用而返 回 False (步驟 1709、1712)。當輸入數(shù)據(jù)χ包含公共部分ζ以外的要素時,把使用f2的處理從數(shù)據(jù)g(x)中刪 除與z-x的區(qū)域相當?shù)囊氐奶幚?1826)記載在分析流程中。另外,通過fl的合成處理 1828,連接由此作成的數(shù)據(jù)g (ζ)和在先前的步驟1707中作成的處理腳本1802,生成新的樹 型結構。如圖17Β所示,在使用通過以上步驟生成的中間數(shù)據(jù)的新的樹型結構1830中,替 換圖17Α所示的已有的處理1810?!磸腄B的數(shù)據(jù)提取模塊〉
圖3中作為411 413而描述的數(shù)據(jù)提取模塊,具有從DB231 233 (對應于圖3 的DB401 403)提取滿足在輸入?yún)?shù)中所示的制約條件的數(shù)據(jù)來讀入的功能。該數(shù)據(jù)提取模塊411 413取得的制約條件參數(shù)的典型例子,是具有某時刻范 圍、空間范圍、記載數(shù)據(jù)內(nèi)容的條件句,從DB挑選出相應的全部數(shù)據(jù),作為輸出而列舉的過 程。關于該條件處理的程序描述方法和提取的步驟,可以通過使用關系數(shù)據(jù)庫管理系統(tǒng) (RDBMS)和SQL等的現(xiàn)有的數(shù)據(jù)處理語言中采用的工具來實現(xiàn)。另外,在該DB231 233中,作為分析處理的輔助而使用的一般信息數(shù)據(jù)也同樣地 被保存,根據(jù)分析處理的算法或可視化處理的算法的需要,將其提取.讀入來利用。作為該 典型例子,具有登錄了各都道府縣的警察輪換的位置坐標和維諾圖(Voronoi diagram),取 得與其他個別數(shù)據(jù)的相關的分析處理算法、或提取出與所提供的地區(qū)名相當?shù)牡叵竦?信息的可視化處理程序(分析結果提示程序2011)等。它們的用于表示從DB231 233的 提取中的制約條件的腳本的描述,被定義在圖5的構造體610的格式內(nèi)的管理數(shù)據(jù)611中。在本實施方式中,DB231 233的實現(xiàn)中的基本結構,假定以使用通用計算機廣泛 安裝了 RDBMS的軟件的結構為基準,一般的特性是已知的?!达@示和評價〉利用者200為研究分析結果,操作客戶機PC201來視聽該顯示結果,以及進行交互 的操作。在客戶機PC201中運行的分析處理輸入程序2010,對于視聽該分析結果后的用戶 提示數(shù)值的輸入畫面,經(jīng)由接口設備202接收數(shù)值。利用者200把針對分析結果的有用度 作為數(shù)值來輸入(以下將該值稱為評價值)。為了將該評價值作為分析數(shù)據(jù)的評價來利用, 客戶機PC201向在分析服務器PC210的后臺運行的調(diào)度程序2101轉發(fā)分析過程的ID和所 輸入的評價值。<評價調(diào)度程序的啟動>圖12是描述分析服務器PC210中運行的調(diào)度程序2101的處理過程的流程圖。調(diào) 度程序2101每到一定時刻接受來自計時器的啟動,執(zhí)行1302 1309的步驟(1301)。在步驟1302中,檢查是否從客戶機PC201發(fā)送了針對分析過程的評價值的數(shù)據(jù)。 在(1)從前一次的更新起測定的時間超過一定值(將其稱為單位衰減時間)的情況下、和
(2)評價值的更新消息已到達的情況下,執(zhí)行1304 1309的步驟。在其他情況下返回休止 狀態(tài)(步驟1303)。在步驟1304中,按照圖13的流程圖所示的步驟(后述),將新評價值再分配給高 速緩沖存儲DB241的各中間數(shù)據(jù)的評價。在后續(xù)的步驟1305中,使再分配的各中間數(shù)據(jù)的值衰減一定量。在后續(xù)的步驟1306中,關于各中間數(shù)據(jù),檢查更新后的評價值是否低于由下述的
(3)式的Xl決定的閾值,當評價值低于閾值時,對高速緩沖存儲DB241發(fā)送中間數(shù)據(jù)的刪除 消息(步驟1307)。當該刪除消息到達時,高速緩沖存儲DB241從存儲裝置(外部存儲裝置 307)刪除相應的中間數(shù)據(jù)的信息。Xl= ml_s X (S_0_S_c) _ml_t X (T_c)......(3)其中,S_0是高速緩沖存儲DB241的存儲器的剩余容量,S_c是當前的中間數(shù)據(jù) 占用高速緩沖存儲器的數(shù)據(jù)大小,T_c是中間數(shù)據(jù)的生成所花費的計算成本(生成所需時
15間)804的值。在這些處理結束后,調(diào)度程序2101進入休止狀態(tài)(步驟1308)。通過上述處理,從高速緩沖存儲DB241中刪除從客戶機PC201接收的評價值不到 閾值的中間數(shù)據(jù),高速緩沖存儲DB241可以抑制在存儲裝置(外部存儲裝置307)中存儲的 中間數(shù)據(jù)量變得過大。<后臺啟動的評價基準值>圖13表示在上述圖12的步驟1304中,分析服務器PC210的調(diào)度程序2101進行 中間數(shù)據(jù)的評價值的再計算的處理。調(diào)度程序2101每隔一定時間對高速緩沖存儲DB241的各中間數(shù)據(jù)進行評價值的 再計算。此時,在從客戶機PC201取得了評價值的消息的情況下,從針對該最終分析數(shù)據(jù)的 評價值中,根據(jù)以下步驟向各中間數(shù)據(jù)分配評價值。為了根據(jù)最終分析數(shù)據(jù)的評價值ED_p計算各中間數(shù)據(jù)D_i的評價值的分配追加 量ED_i,以最終分析數(shù)據(jù)作為調(diào)用源,進行以下的循環(huán)調(diào)用。首先,調(diào)度程序2101,當?shù)玫街虚g數(shù)據(jù)(或最終分析數(shù)據(jù))DJ的評價值EDJ時 (步驟1401),在分析服務器PC210的表信息800的中間數(shù)據(jù)的評價值807中追加該評價值 EDJ。另外,從表信息800的生成腳本801中記載的生成腳本(圖5的610所示的構造體) 中,搜索為了導出該數(shù)據(jù)D_j而直接使用的輸入數(shù)據(jù)D_i (613、614),根據(jù)這些信息如下述 的(4)式那樣劃分各輸入數(shù)據(jù)D_i的評價值ED-i (步驟1402)。ED_i = ED_jX {DT_i}/{ Σ DT_n}_{n in DJ} · · · (4)其中,DT_j是用于求出在各中間數(shù)據(jù)的管理日志中記載的數(shù)據(jù)D_j的所需計算時 間 804。將該評價值ED_i傳遞給中間數(shù)據(jù)的節(jié)點,循環(huán)地執(zhí)行劃分處理(步驟1404)。在 針對全部節(jié)點結束了處理的情況下(步驟1403),返回父節(jié)點(步驟1405)。通過以上的步驟,從高速緩沖存儲DB241刪除在一定時間內(nèi)未被再利用于被賦予 了高評價值的分析結果的中間數(shù)據(jù)。該刪除的定時,如后述的(6)所示,較早地刪除數(shù)據(jù)容 量大的中間數(shù)據(jù),或者如(7)式所示,對數(shù)據(jù)生成中花費時間的中間數(shù)據(jù)賦予很多評價值。 但是,關于在多個分析中公共使用的中間數(shù)據(jù),被取入改寫后的新的分析過程,并被重新賦 予評價值。如上所述,在本實施方式中,把在分析的中間階段生成的中間數(shù)據(jù)保存在高速緩 沖存儲BD241中,把針對所保存的數(shù)據(jù)的反饋信息作為評價值,通過分析服務器PC210接 收,針對未被賦予評價值的中間數(shù)據(jù),優(yōu)先從高速緩沖存儲DB241中刪除,另一方面,對于 接收到特別高的評價分數(shù)的中間數(shù)據(jù),進行類似的數(shù)據(jù)的分析處理,為了可以高速地進行 成為比較對象的數(shù)據(jù)的分析或派生地設想的分析,可以通過后臺處理來進行中間數(shù)據(jù)的自 動管理,可以在防止在高速緩沖存儲DB241中保存中間數(shù)據(jù)的區(qū)域變得過大的同時,也實 現(xiàn)利用了中間數(shù)據(jù)的高速的分析處理。〈第二實施方式〉作為第二實施方式,列舉出包含當針對所述第一實施方式中的分析結果的用戶評 價值較高時重新自動生成與其分析相類似的分析的數(shù)據(jù)的機構的實施的例子。本第二實 施方式,在所述第一實施方式中增加了重新自動生成與在先分析相類似的分析的數(shù)據(jù)的處理,其它結構與所述第一實施方式相同。圖20描述了本實施方式中的數(shù)據(jù)流。與在先的第一實施方式相同,服務器PC執(zhí) 行的調(diào)度程序以數(shù)據(jù)結構取得由客戶機PC委托的數(shù)據(jù)分析的課題,根據(jù)附加的優(yōu)先度依 次執(zhí)行。在所述第一實施方式中,作為數(shù)據(jù)分析的腳本,執(zhí)行了利用者200經(jīng)由分析處理 輸入程序2010手動地生成的腳本。在本第二實施方式中,通過兩種方式來生成該數(shù)據(jù)分析 的腳本。一種方式是與在先的第一實施方式同樣地,在客戶機PC201中按照利用者200明 確輸入的分析步驟的腳本來進行分析,通過分析處理輸入程序2010來進行。另一方式是, 在分析服務器PC210中運行的調(diào)度程序2101,關于被賦予了較高評評價的分析,將變更了 其分析腳本中的輸入數(shù)據(jù)的參數(shù)后的類似的分析流程作為腳本來自動生成,并進行其計
笪弁。首先,關于保存成為分析對象的原始數(shù)據(jù)的DB231 233,描述將本實施方式與第 一實施方式比較時的特征性的區(qū)別功能。在本第二實施方式的結構中,特征性的區(qū)別在于 具備在各數(shù)據(jù)之間定義距離函數(shù)的機構;預先定義了小規(guī)模的采樣的劃分集,數(shù)據(jù)分析模 塊2211以該劃分集為單位來接收輸入。該劃分集是把作為時空間數(shù)據(jù)而被視為同一分區(qū) 的數(shù)據(jù)匯總在一起而得到的組。作為這種劃分的例子,將在某個特定區(qū)域的某個時間分區(qū) (特定的市鎮(zhèn)村、特定的一個小時等)中發(fā)生的數(shù)據(jù)匯總成一組等的例子與之相當。在每個 劃分集中準備標題區(qū)域,為了描述數(shù)據(jù)的大小或劃分集的特征、集間的關系,記載了元數(shù)據(jù) (metadata)0圖10是實現(xiàn)該要素數(shù)據(jù)間的距離函數(shù)和采樣用的劃分集的數(shù)據(jù)結構1100的一 例,假定本第二實施方式是根據(jù)該數(shù)據(jù)結構而構建的。在本第二實施方式中,各要素數(shù)據(jù) 1110最低具有一個指示時間的數(shù)據(jù)(時間信息)1101和指示空間1102的數(shù)據(jù)。作為這樣 的數(shù)據(jù)例子,可以列舉出商品銷售信息、標簽的分配信息、GPS那樣的位置數(shù)據(jù)的取得信息、 配置在各地的傳感器設備的接收信息或出錯日志的信息等。另外,通過恰當?shù)囟x后述的 距離函數(shù),不將該實施方式中的位置限定于地圖上的物理位置,對于把數(shù)據(jù)的劃分關系圖 中的位置或web上的地址等作為對象的廣義的概念也可以實施。在DB231中,各要素數(shù)據(jù)1110在被分割成基于空間和時間的組數(shù)據(jù)1120的基礎 上被管理。在本第二實施方式中,假定該組的分類基準是基于所屬地區(qū)、時刻、終端保有者 等的多維分類。這些DB231 233的數(shù)據(jù)的實體被保存在管理在網(wǎng)絡上配置的存儲裝置 的信息處理設備中,參照表所示的對其保存位置的指數(shù)被保存在存儲裝置(外部存儲裝置 307)中。該指數(shù)的內(nèi)容,以根據(jù)時刻或位置被分組而得的單位在存儲裝置上被管理。<時空間數(shù)據(jù)間的距離函數(shù)>在要素數(shù)據(jù)彼此或匯集要素數(shù)據(jù)的圖10的各組數(shù)據(jù)1120之間可以定義距離。根 據(jù)數(shù)據(jù)彼此的時間信息1101和空間信息1102來定義該距離。這樣的距離,當根據(jù)規(guī)定的 規(guī)則動態(tài)地生成時、和將距離作為表來保存時,還通過其組合來實現(xiàn)。<基于時間數(shù)據(jù)的距離的定義>關于以時間(時刻)為基準的組間的距離,不僅生成單純地取得在數(shù)據(jù)中記載的 時間的差作為距離,還生成作為同周的日期接近的距離而定義的距離、或被定義成別的年的相同日期的數(shù)據(jù)成為相近的值的距離,將各個的合成值作為綜合的距離函數(shù)來使用。作為該實現(xiàn)例,在本實施方式中,在存在兩個不同時間的數(shù)據(jù)的情況下,作為基于 時間的數(shù)據(jù)間距離的要素,登錄以線性和的方式合計以下三種值而得的距離函數(shù)1 取時刻的差的平方的倒數(shù),2 關于時亥IJ,求出以24小時相除的余數(shù)的差,取其平方的倒數(shù),3 關于時刻,求出以一周24小時X7天=168小時相除的余數(shù)的差,取其平方的 倒數(shù)。另外,關于以空間為基準的組間的距離,準備了地圖上的單純的歐幾里得距離或、 使用了基于一般交通工具的移動時間的距離、以互相鄰接的縣的距離作為1來計數(shù)的距 離、或把以地方行政作為樹型結構來保存時的樹枝的數(shù)量定義的距離。<基于空間數(shù)據(jù)的距離的定義>本第二實施方式中的空間信息如圖11所示,通過為以空間位置所屬的地區(qū)行政 分區(qū)(國1201、地區(qū)1202、縣1203、市區(qū)鎮(zhèn)村1204)作為階層的樹型結構來整理各組。以此 為前提,如下定義相互的組。首先,在像市區(qū)鎮(zhèn)村與市區(qū)鎮(zhèn)村那樣,行政分區(qū)存在于同一類 別中時,把在通過數(shù)據(jù)的算術平均而得到的位置間的距離的值上乘以常數(shù)后的值A設為數(shù) 據(jù)間的距離。如縣與市區(qū)鎮(zhèn)村那樣,屬于差一個層次的類別的行政分區(qū)在樹型結構中存在 父子關系的情況下,作為距離而分配常數(shù)B。關于未按照上述規(guī)則分配的X和Y的距離,尋 找使X和Z的距離+Z和Y的距離達到最小的Z,將此時的值設為X、Y的距離。<基于保有者數(shù)據(jù)的距離的定義>另外,關于客戶機PC201的終端保有者,當存在與上述行政分區(qū)同樣地以樹型結 構管理的分類分區(qū)(作為例子可以舉出以樹型結構保存了保有商業(yè)終端的法人主體的銷 售分區(qū)·連鎖店組·各店鋪·各終端的分類分區(qū);或以樹型結構保存了個人終端保有者的 性別·年齡的分類的分類分區(qū))時,也按照同樣的規(guī)則來定義距離。<針對調(diào)度程序的追加>接下來,對于分析服務器PC210的調(diào)度程序2101,描述與第一實施方式的變更點 的內(nèi)容。在第一實施方式的圖12中記載的調(diào)度程序2101的處理被替換成圖15所示的調(diào) 度處理。步驟1601到1607的處理與第一實施方式的1301到1307的處理相同。在步驟1606中進行刪除數(shù)據(jù)的檢索后,在本第二實施方式中,在步驟1608中,當 針對中間數(shù)據(jù)的評價值比以(5)式表示的值X2大時,進行關于類似的分析流程的新生成的 操作(步驟1609)。X2 = m2_s X (S_0_S_c) _m2_t X (T_c) _m2_p X P_c......(5)其中,S_0是高速緩沖存儲DB241的存儲裝置(外部存儲裝置307)的剩余容量, S_c是當前的中間數(shù)據(jù)占用高速緩沖存儲器的數(shù)據(jù)大小,T_c是成為參照源的分析中的處 理所花費的計算成本804的值、P_c是當前的分析服務器PC210和子分析服務器PC221 223的CPU負荷的比例。關于各中間數(shù)據(jù),當更新后的評價值比通過上述值X2決定的閾值高時,按照圖14 所示的后述的一連串步驟,生成與相應的分析內(nèi)容類似的中間數(shù)據(jù)的生成腳本,新登錄在 分析服務器PC210的調(diào)度程序2101的處理任務中(步驟1610)。
該調(diào)度程序2101是與取得來自客戶機PC201的數(shù)據(jù)分析流程的程序相同的程序, 與從客戶機PC201發(fā)送來的情況同樣地進行中間數(shù)據(jù)的生成,然后將結果保存在高速緩沖 存儲DB241中?!搭愃浦虚g數(shù)據(jù)的生成〉圖14表示上述圖15的步驟1610中的處理的細節(jié),描述了對于從某分析流程產(chǎn)生 的評價較高的中間數(shù)據(jù),生成類似的數(shù)據(jù)分析流程的腳本的步驟。在步驟1501中,調(diào)度程序2101從構成模仿源的分析流程的整個樹型結構所保有 的數(shù)據(jù)提取處理中隨機地選擇某個數(shù)據(jù)提取處理。在步驟1502中,針對相應的處理的節(jié)點,變更在提取中所使用的制約的參數(shù)。此 時,首先決定作為參數(shù)的距離d的值,以使原分析中的提取數(shù)據(jù)和新分析中的提取數(shù)據(jù)的 距離d成為符合正態(tài)分布的隨機數(shù)(步驟1502)。在此基礎上,檢索與原分析中的分析對象 集存在距離d的關系的數(shù)據(jù)集(步驟1503)。此時,與原始數(shù)據(jù)存在距離d的關系的數(shù)據(jù)集 的候補,關于空間或時間等的多個分類軸,存在大量可能的組合。從在步驟1503中作為候 補而選擇的集合中隨機地選出一個集合(步驟1504)。通過以上的處理,自動地生成與評價較高的中間數(shù)據(jù)類似的分析處理的數(shù)據(jù)(步 驟 1505)。根據(jù)上述第二實施方式,針對在分析服務器PC210中在先進行的分析的結果接受 評價值(評價分數(shù)),對構成分析的中途階段的多個中間數(shù)據(jù)分配評價值,根據(jù)該評價值 的多少,進行中間數(shù)據(jù)的刪除、保存或派生數(shù)據(jù)的生成。在向中間數(shù)據(jù)分配該評價值的處 理中,綜合使用數(shù)據(jù)的生成所需的時間和計算成本、中間數(shù)據(jù)的大小和高速緩沖存儲DB241 中可利用的盤(存儲區(qū)域)的剩余容量、從閱覽或評價起經(jīng)過的時間的各要素。另外,關于 在多個分析結果中利用的中間數(shù)據(jù),可以累積地存儲評價值來用作數(shù)據(jù)管理基準。〈第三實施方式〉〈介紹〉在第三實施方式中,在所述第一實施方式中附加了通過客戶機PC201對委托了數(shù) 據(jù)的分析的利用者200提示與希望的分析類似的、可以利用已經(jīng)存在的中間數(shù)據(jù)來生成的 數(shù)據(jù)分析流程的例子、和該分析所需的計算時間(與所委托的數(shù)據(jù)的分析處理相比縮短的 時間)的結構,其它結構與所述第一實施方式相同。當利用者200希望執(zhí)行由客戶機PC201 推薦的更高效地獲得的數(shù)據(jù)分析流程時,與先前的數(shù)據(jù)分析相比賦予更高的優(yōu)先度,發(fā)送 到調(diào)度程序2101。該第三實施方式,可以通過對第一實施方式進行以下的變更來實施。圖18是符合本第三實施方式的目的而變更了第一實施方式中的圖8所示的步驟 的圖。步驟1901 1906的處理,進行與所述第一實施方式的圖8所示的步驟901 906 相同的處理。但是,在步驟1902中,分析服務器PC210,代替在比較結果不同的情況下返回 False的值作為返回值,而判斷出存在不相同但類似的分析處理結果,將其差分保存登錄在 堆棧中。在該差分信息裝滿堆棧時,在步驟1907中生成圖27所示的構造體2800。從基礎 分析的樹型結構中,將被判斷為類似部分的部分與該中間數(shù)據(jù)置換來進行剩余分析的情況 下的腳本(通過將部分樹與中間數(shù)據(jù)置換而得到)記載在區(qū)域2801中。接著,將堆棧中裝
19滿的差分的信息寫入2802。另外,將為了生成相應的中間數(shù)據(jù)所需的時間(已記載在804 中)和為了讀入中間數(shù)據(jù)所花費的時間(根據(jù)數(shù)據(jù)大小和存儲裝置讀入速度來計算)的差 寫入2803。將該內(nèi)容發(fā)送到客戶機PC,向利用者提示差分信息2201和差分預想時間2202。 在利用者進行了允許該數(shù)據(jù)的再利用的輸入時,將在2201中寫入的數(shù)據(jù)處理發(fā)送到服務 器 PC210。通過以上的處理,可以將類似分析流程的建議反饋給利用者200。〈第四實施方式〉在第四實施方式中,描述了在所述第一實施方式的結構中附加了根據(jù)利用者200 的行動中包含的隱含信息生成評價值,來進行數(shù)據(jù)的刪除和更新的方法的例子。以下的作業(yè),描述了在第一實施方式的圖4所示的步驟507中代替由利用者200 明確輸入評價數(shù)值的步驟,而從利用者200的行動本身中檢測信息的機構。該步驟由評價結果輸入程序2012執(zhí)行。該評價結果輸入程序2012,是取得利用者 200在客戶機PC201上進行觀察器程序的視聽的期間的行為、和明確輸入的評價值,并發(fā)送 到分析服務器PC210的調(diào)度程序2101的專用程序。評價結果輸入程序2012與多個評價方法組合來推定利用者200是否對分析結果 感興趣。在本實施方式中,進行以下列舉的四個分析(評價基準1 4),將它們的全部評價 值的合計用作評價值。<利用者進行的評價的明確輸入>在評價基準1中,與第一實施方式同樣地把用戶自身對分析結果的滿意度作為數(shù) 值來輸入。將從接口設備(輸入裝置)202輸入的0 100數(shù)值設為直接評價值E_l。<提示·觀察時間的測定>在評價基準2中,根據(jù)照相機設備204的圖像,基于在利用者200的觀察時間較長 的情況下對客戶機PC201上提示的內(nèi)容感興趣的可能性較高的假設,以提示了分析數(shù)據(jù)的 時間為基準來進行評價。使用顯示分析結果的分析結果提示程序2011的畫面提示時間TS、 和利用者200進行的交互操作的次數(shù)I,按照下面的(6)式來決定評價值E_2。E_2 = l/(l+b_21exp (TS)) Xpl+1/(l+b_22exp (I)) Xp2......(6)其中,b_21、b_23是常數(shù),pl、p2是pl+p2 = 100的加權參數(shù)(常數(shù))。<發(fā)言次數(shù)的記錄>在評價基準3中,在多個利用者200閱覽了數(shù)據(jù)的情況下,認為在利用者200間的 發(fā)言較多的情況下踴躍地進行與提示內(nèi)容相關的議論的可能性較高,根據(jù)該發(fā)言時間計算 評價。對來自輸入麥克風的聲音信息的發(fā)言時間的總計TV進行計數(shù),通過下面的(7)式?jīng)Q 定評價值E_3。E_3 = 1/(l+b_3exp (TV)) X 100......(7)其中,b_3是常數(shù)。〈視線的提取〉在評價基準4中,從照相機設備204的圖像中,相對于客戶機PC201中的信息的提 示時間,認為利用者200的視線朝向畫面上的時間較長的情況下對提示內(nèi)容感興趣的可能 性較高,以該時間為基準進行評價。從在畫面旁邊設置的照相機設備204的圖像中提取臉 部區(qū)域,測量視線朝向畫面的期間(其中,關于從動畫圖像測量視線的技術存在很多先例,省略詳細的說明)。對利用者200的視線朝向畫面上的期間的總計TE進行計數(shù),通過以下的⑶式?jīng)Q 定評價值E_4。E_4 = 1/(l+b_4exp (TE)) X 100......(8)其中,b_4是常數(shù)。<評價的合計>對于以評價基準1 4得到的評價值E_1 E_4,如下面的(9)式那樣求得加權平 均值,作為數(shù)據(jù)D_p的評價值ED_p。ED_p =¥sigma_{i = 0} "4m_iXE_i......(9)將該評價值ED_p發(fā)送到分析服務器PC210的調(diào)度程序2101。通過以上的處理,可以從利用者200的分析數(shù)據(jù)觀察時的行動中提取信息,用于 數(shù)據(jù)的管理。<第五實施方式>本第五實施方式,追加了當多個利用者200使用WWW等網(wǎng)絡環(huán)境遠程對分析結果 進行視聽時,從針對分析結果的明確的評價或隱含的行動中提取出分析內(nèi)容的評價值(閱 覽信息),使用所提取出的評價值進行第一實施方式那樣的分析中間數(shù)據(jù)的管理、和第二實 施方式那樣的新分析數(shù)據(jù)的生成的機構。圖21中記載了本第五實施方式中的結構。在web網(wǎng)絡2202上公開了分析結果的 可視化數(shù)據(jù),從而不僅可以由利用者200閱覽,而且可以由不特定多數(shù)的利用者、或者輸入 了密碼的登錄成員閱覽。為了實現(xiàn)這一點,為了分發(fā)與發(fā)送到客戶機PC201的可視化模塊 2011相同的數(shù)據(jù)而配置了 web服務器2201,根據(jù)來自與網(wǎng)絡連接的多個信息處理設備2203 的請求,分發(fā)可以在web瀏覽器上顯示分析結果的可視化程序2300。圖22表示該可視化程序2300的畫面例。其通過在圖2所示的通用計算機上執(zhí)行 處理來提示圖像的程序而實施。該畫面顯示和交互的實施,可以通過使用當前的web瀏覽 器和在其上使用的各種技術來實現(xiàn)。在此,2301是在畫面上將分析結果可視化地顯示在畫 面上的區(qū)域,通過點擊輸入?yún)^(qū)域2302,可以使圖像的視點或角度、放大率等變化來顯示。另外,關于該分析結果,同時提示通過文本進行意見交換的布告牌系統(tǒng)2303。另 外,與分析的可視化數(shù)據(jù)所在的坐標位置相關聯(lián)地同時提示寫入腳注的系統(tǒng)2304。另外, 2305是將對這些分析數(shù)據(jù)視聽后的評價作為數(shù)值而記入的區(qū)域??梢暬绦?300在結束時將閱覽時刻和處理日志發(fā)送到web服務器2201。另外, 將與該分析相關的評價調(diào)查問卷作為數(shù)值記載在2305中時,該數(shù)據(jù)也被發(fā)送到web服務器 2201。與它們對應地輸入的數(shù)據(jù)被發(fā)送到2201的服務器來保管,該信息在利用者間共享。 這種web上的數(shù)據(jù)管理系統(tǒng),可以通過使用現(xiàn)有的先行技術來實施。另外,web服務器2201 是取得來自這些各閱覽者的評價的程序。代替在所述第一實施方式的圖4的步驟507中由利用者200明確地輸入的評價數(shù) 值,而進行以下列舉的四個分析,將它們的全部的評價值的合計用作評價值。<評價值平均>對于被輸入到客戶機PC201的評價值的平均值Wl如下面的(10)式的E_wl那樣 進行規(guī)范化來變換成評價值。
21
E_wl = l/(l+c_lexp (Wl)) XlOO......(10)<下載次數(shù)>對從所述第五實施方式中的Web服務器2201下載可視化程序的次數(shù)W2進行計 數(shù),將該值作為W2,如下面的(11)式的E w2那樣進行規(guī)范化來變換成評價值。E_w2 = 1 (l+c_2exp (W2)) X 100......(11)<網(wǎng)頁級別>使用Web上的浮動系統(tǒng)(crawling system)從一般的Web信息中對記載了向Web 服務器2201的分析數(shù)據(jù)的連接URL的網(wǎng)頁數(shù)進行計數(shù),設為W3。(另外,在此時可以取得 各網(wǎng)頁的推定訪問數(shù)等的情況下,將其值作為加權數(shù)來計數(shù))如下面的(12)式的E_w3那 樣進行規(guī)范化來變換成評價值。E_w3 = 1/(l+c_3exp (W3)) X 100......(12)<布告牌記載量>使用在該布告牌系統(tǒng)中寫入的寫入字符數(shù)W41和寫入次數(shù)W42作為評價量。如下 面的(13)式的E_w4那樣進行規(guī)范化來變換成評價值。E_w4 = 1/(l+c_41exp (W41)) X 50+1/(l+c_42exp (W42)) X 50......(13)〈腳注記載量〉將寫入該布告牌系統(tǒng)的次數(shù)W5用作評價量。如下面的(14)式的E_w5那樣進行 規(guī)范化來變換成評價值。E_w5 = 1/(l+c_5exp (W5)) X 100......(14)〈合計顯示時間〉關于各顯示,取得進行下載的時刻和結束應用程序的時刻的差,計算進行視聽的 顯示時間。將該顯示時間的合計W6用作評價量,如下面的(15)式的E_w6那樣進行規(guī)范化 來變換成評價值。E_w6 = 1/(l+c_6exp (W6)) X 100......(15)<評價的合計>對于上述評價基準1 4,如下面的(16)式那樣求出加權平均值,作為數(shù)據(jù)D_p的 評價值ED_p。E_wp =¥sigma_{p = 0} "7m_iXE_i......(16)將該評價值ED_p發(fā)送到分析服務器PC210的調(diào)度程序。如上所述,作為接收來自利用者200的評價值的方法,除了利用者200作為數(shù)值數(shù) 據(jù)而輸入評價值的方法以外,作為評價信息,可以應用對進行了分析結果的閱覽的時間、根 據(jù)聲音數(shù)據(jù)或文章備忘錄的寫入而得到的議論的踴躍度或感情的信息、來自取得了閱覽者 的表情的圖像的信息等進行變換而得到的信息。<第六實施方式><參數(shù)的變更>在所述第一實施方式或所述第二實施方式中,關于成為分析對象的數(shù)據(jù)的選擇作 業(yè),作為新分析數(shù)據(jù)的對象。在不僅數(shù)據(jù)提取模塊的輸入數(shù)據(jù)的變化,而且在各分析處理模 塊中的輸入?yún)?shù)間,包含 部分集合的關系和中間數(shù)據(jù)的再利用為可能的情況下,關于這些 參數(shù)的變化,通過使用從已有的輸出數(shù)據(jù)的合成 分離,有時也允許計算效率的提高。在本實施方式中記載了用于實現(xiàn)與這樣的參數(shù)變化相伴的中間數(shù)據(jù)的利用方法的實施方法。<與分析處理程序的參數(shù)對應的結合·分離性>關于各數(shù)據(jù)分析模塊2102,在變更了輸入數(shù)據(jù)以外的參數(shù)的情況下,為了檢查是 否可以再利用中間數(shù)據(jù),在分析執(zhí)行時的參數(shù)間構建包含關系,在參數(shù)A和參數(shù)B不相同的 情況下確認參數(shù)A和參數(shù)B的包含關系。作為與這樣的參數(shù)的變更結果相伴的處理可以進行的處理的典型例子,可以列舉 出以下情況(i)在時間序列數(shù)據(jù)的移動平均計算處理中使移動平均的范圍增加的情況;(ii)對于進行傅立葉變換來取得某個特定頻帶的功率比例的運算,將作為傅立葉 變換結果的全頻率成分作為中間數(shù)據(jù)來保存的情況等。在參數(shù)間存在包含關系的情況下,檢查是否與所述的輸入數(shù)據(jù)中的處理同樣地在 模塊中實現(xiàn)了實現(xiàn)相應的中間數(shù)據(jù)的再利用的合成處理(結合·削減處理)的方式,在不 可以進行參數(shù)的合成時返回False。其中,對參數(shù)不同的分析處理進行結合·削減的處理(與第一實施方式的fl、f2 同樣)如下定義。hl(g(A、x)、g(B、x)) =g(A+B、x)......(3,)h2 (g (Α+Β、χ)、A) = g (Α、χ)......(4,)其中,g(A、χ)是表示與輸入數(shù)據(jù)χ和參數(shù)A對應的分析處理程序的處理的函數(shù), A、B是條件式,Α+Β是A和B的和集合。hi是根據(jù)應用了參數(shù)A和參數(shù)B的g(A、χ)、g(B、 x),計算對其二者進行包含 合成的參數(shù)Α+Β的輸出結果g(A+B、x)的輸出結果的函數(shù)。另 外,h2是計算參數(shù)Α+Β的輸出結果g(A+B、χ)的輸出結果、和指定了 Α+Β的部分集合A時 g(A+B、x)的輸出結果的函數(shù)。關于可以實現(xiàn)這些處理的模塊,與第一實施方式同樣地,通過生成分析流程改變 腳本,對于參數(shù)的變化也可以使用中間數(shù)據(jù)。此外,在上述各實施方式中表示了在多個計算機中執(zhí)行各處理的例子,但也可以 在一個計算機上執(zhí)行上述各處理。如上所述,根據(jù)上述各實施方式,保存了在分析的中間階段生成的數(shù)據(jù),接收對與 所保存的數(shù)據(jù)對應的反饋信息定量化所得的結果來作為評價值,優(yōu)先刪除評價值滿足預定 條件的中間數(shù)據(jù),另一方面,通過保存評價值不滿足預定條件的中間數(shù)據(jù),在下次的分析 時,可以再利用中間數(shù)據(jù)來進行分析,可以在防止保存中間數(shù)據(jù)的區(qū)域變得過大的同時,還 實現(xiàn)利用了中間數(shù)據(jù)的高速的分析處理。如上所述,上述實施方式可以應用于進行數(shù)據(jù)的分析的計算機系統(tǒng),尤其可以應 用于為了從原始數(shù)據(jù)進行分析而生成中間數(shù)據(jù)的計算機系統(tǒng)以及程序。以上,根據(jù)本發(fā)明表示并描述了多個實施方式,但本領域技術人員應該理解,在不 脫離本發(fā)明的范圍的情況下可以進行變更和修改。因此,本發(fā)明不限于上述詳細的表示和 描述,在要求保護的范圍內(nèi)也包含上述變更和修改。
權利要求
一種在具備處理器和存儲裝置的計算機中分析原始數(shù)據(jù),輸出分析結果的數(shù)據(jù)分析系統(tǒng),其特征在于,具備存儲所述原始數(shù)據(jù)的原始數(shù)據(jù)存儲部;讀入所述原始數(shù)據(jù)來進行分析,在該分析的過程中生成中間數(shù)據(jù),然后輸出分析結果的分析部;存儲由所述分析部生成的中間數(shù)據(jù)的中間數(shù)據(jù)存儲部;以及接收針對由所述分析部輸出的分析結果的評價值的評價接收部,所述分析部在所述分析時,參照所述中間數(shù)據(jù)存儲部的中間數(shù)據(jù)中可以利用的中間數(shù)據(jù),所述評價接收部對與所述評價值對應的所述中間數(shù)據(jù)分配所述評價值,當所述分配的評價值滿足預定的條件時,刪除與該評價值對應的所述中間數(shù)據(jù)。
2.根據(jù)權利要求1所述的數(shù)據(jù)分析系統(tǒng),其特征在于,所述分析部接收分析內(nèi)容,然后將該分析內(nèi)容存儲在所述存儲裝置中,判定該分析內(nèi) 容與過去的分析內(nèi)容是否類似,當所述判定結果類似時,根據(jù)所述過去的分析內(nèi)容和接收 的分析內(nèi)容,生成參照所述中間數(shù)據(jù)存儲部的中間數(shù)據(jù)的新的分析內(nèi)容,并執(zhí)行該新的分 析內(nèi)容。
3.根據(jù)權利要求1所述的數(shù)據(jù)分析系統(tǒng),其特征在于, 還具有顯示所述分析結果的顯示部,所述評價接收部接收針對所述顯示部的顯示的評價值。
4.根據(jù)權利要求1所述的數(shù)據(jù)分析系統(tǒng),其特征在于,所述分析部接收分析內(nèi)容,將該分析內(nèi)容存儲在所述存儲裝置中,判定在該分析內(nèi)容 中使用的中間數(shù)據(jù)和過去的中間數(shù)據(jù)是否類似,當該判定結果類似時,根據(jù)所述過去的中 間數(shù)據(jù),從所述中間數(shù)據(jù)存儲部中參照在接收的分析內(nèi)容中使用的中間數(shù)據(jù)來生成新的中 間數(shù)據(jù),并通過該新的中間數(shù)據(jù)執(zhí)行分析內(nèi)容。
5.根據(jù)權利要求1所述的數(shù)據(jù)分析系統(tǒng),其特征在于,所述評價值包含所述中間數(shù)據(jù)的生成所需的計算成本、所述中間數(shù)據(jù)的大小、所述存 儲裝置的剩余容量的至少一個。
6.根據(jù)權利要求3所述的數(shù)據(jù)分析系統(tǒng),其特征在于,所述評價值是與所述顯示部上顯示的分析結果對應的閱覽信息。
7.一種在具備處理器和存儲裝置的計算機中分析原始數(shù)據(jù),輸出分析結果的數(shù)據(jù)分析 方法,其特征在于,包含以下步驟讀入在所述存儲裝置中存儲的原始數(shù)據(jù)的步驟; 根據(jù)所述讀入的原始數(shù)據(jù)生成中間數(shù)據(jù)的步驟; 將所述中間數(shù)據(jù)存儲在所述存儲裝置中的步驟; 根據(jù)所述中間數(shù)據(jù)運算分析結果的步驟; 輸出所述分析結果的步驟;以及 接收針對所述輸出的分析結果的評價值的步驟; 根據(jù)所述中間數(shù)據(jù)運算分析結果的步驟,在所述分析時,參照所述中間數(shù)據(jù)中可以利用的中間數(shù)據(jù),接收針對所述輸出的分析結果的評價值的步驟,對與所述評價值對應的所述中間數(shù)據(jù)分配所述評價值,當所述分配的評價值滿足預定 的條件時,刪除與該評價值對應的所述中間數(shù)據(jù)。
8.根據(jù)權利要求7所述的數(shù)據(jù)分析方法,其特征在于,根據(jù)所述中間數(shù)據(jù)運算分析結果的步驟,接收分析內(nèi)容,然后將該分析內(nèi)容存儲在所述存儲裝置中,判定該分析內(nèi)容與過去的 分析內(nèi)容是否類似,當所述判定結果類似時,根據(jù)所述過去的分析內(nèi)容和接收的分析內(nèi)容, 生成參照所述中間數(shù)據(jù)的新的分析內(nèi)容,并執(zhí)行該新的分析內(nèi)容。
9.根據(jù)權利要求7所述的數(shù)據(jù)分析方法,其特征在于,輸出所述分析結果的步驟,將所述分析結果顯示在所述計算機的顯示部上,接收針對所述輸出的分析結果的評價值的步驟,接收針對所述顯示部的顯示的評價值。
10.根據(jù)權利要求7所述的數(shù)據(jù)分析方法,其特征在于,根據(jù)所述中間數(shù)據(jù)運算分析結果的步驟,接收分析內(nèi)容,將該分析內(nèi)容存儲在所述存儲裝置中,判定在該分析內(nèi)容中使用的中 間數(shù)據(jù)和過去的中間數(shù)據(jù)是否類似,當所述判定結果類似時,根據(jù)所述過去的中間數(shù)據(jù),參 照在接收的分析內(nèi)容中使用的中間數(shù)據(jù)來生成新的中間數(shù)據(jù),并通過該新的中間數(shù)據(jù)執(zhí)行 分析內(nèi)容。
11.根據(jù)權利要求7所述的數(shù)據(jù)分析方法,其特征在于,所述評價值包含所述中間數(shù)據(jù)的生成所需的計算成本、所述中間數(shù)據(jù)的大小、所述存 儲裝置的剩余容量的至少一個。
12.根據(jù)權利要求9所述的數(shù)據(jù)分析方法,其特征在于,所述評價值是與所述顯示部上顯示的分析結果對應的閱覽信息。
全文摘要
本發(fā)明提供一種數(shù)據(jù)分析系統(tǒng)及方法,目的在于高效率地保存在分析處理的中間階段生成的數(shù)據(jù)來再利用中間數(shù)據(jù)。保存有在分析的中間階段生成的數(shù)據(jù),把與所保存的數(shù)據(jù)對應的反饋信息定量化的結果作為評價值來接收,優(yōu)先刪除未賦予評價值的中間數(shù)據(jù),另一方面,對于接收了特別高的評價值的中間數(shù)據(jù),進行類似的數(shù)據(jù)的分析處理,為了能夠高速進行成為比較對象的數(shù)據(jù)的分析或派生設想的分析,通過后臺處理進行中間數(shù)據(jù)的自動管理。
文檔編號G06F17/30GK101923557SQ20101011572
公開日2010年12月22日 申請日期2010年2月11日 優(yōu)先權日2009年6月16日
發(fā)明者宇都木契 申請人:株式會社日立制作所