專(zhuān)利名稱(chēng):基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,更具體地,涉及時(shí)間序列關(guān)系挖掘。 根據(jù)本發(fā)明,提出了一種基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備和方法。
背景技術(shù):
隨著全球化進(jìn)程的飛速發(fā)展,公司之間形成了比以往更加錯(cuò)綜復(fù) 雜的商業(yè)聯(lián)系,同時(shí)一個(gè)公司的發(fā)展進(jìn)程要比以往迅速很多,而發(fā)展 進(jìn)程中其他有商業(yè)聯(lián)系的公司對(duì)它的發(fā)展起著至關(guān)重要的作用。
另一方面,隨著信息化的發(fā)展,商業(yè)新聞大量地出現(xiàn)在互聯(lián)網(wǎng)等 媒介上。這些商業(yè)新聞中包含了大量的公司間商業(yè)關(guān)系的信息。以往 到現(xiàn)在積累下來(lái)的所有商業(yè)新聞幾乎可以涵蓋所有產(chǎn)業(yè)中的所有商業(yè) 聯(lián)系的信息。這些信息形成了一個(gè)時(shí)序性的商業(yè)信息過(guò)程。如果商業(yè) 咨詢(xún)行業(yè)能從中得到這些信息,從這些信息中建立起時(shí)序性的商業(yè)信 息過(guò)程,并推導(dǎo)出一些對(duì)用戶(hù)(用戶(hù)主要是一些公司咨詢(xún)者)有用的 產(chǎn)業(yè)及子產(chǎn)業(yè)關(guān)系以及一些對(duì)應(yīng)的商業(yè)性事件,那么這將是一個(gè)非常 有前景的技術(shù)。
商業(yè)關(guān)系隨著時(shí)間的發(fā)展會(huì)形成變化的網(wǎng)絡(luò),對(duì)這個(gè)變化的網(wǎng)絡(luò) 建立時(shí)序模型之后,如何從中找到產(chǎn)業(yè)結(jié)構(gòu)(即包含多少個(gè)產(chǎn)業(yè),每 個(gè)產(chǎn)業(yè)包含有多少子產(chǎn)業(yè),每個(gè)產(chǎn)業(yè)和子產(chǎn)業(yè)中代表性的企業(yè)是誰(shuí)) 是一個(gè)難題。
從商業(yè)關(guān)系推廣到一般關(guān)系(如,社會(huì)關(guān)系),給定一個(gè)時(shí)序的 關(guān)系圖之后,如何從中找出哪些節(jié)點(diǎn)屬于哪個(gè)類(lèi),每個(gè)類(lèi)又可以如何 分為子類(lèi),并從中找出每個(gè)類(lèi)和子類(lèi)的代表也是一個(gè)難題。
在已有的方法中,包括對(duì)基于連接圖的關(guān)系進(jìn)行聚類(lèi)的技術(shù),如
參考文獻(xiàn)C. H. Ding, X. He, H. Zha, M. Gu, and H. D. Simon.A min-max cut algorithm for graph partitioning and data clustering. In Proceedings of IEEE ICDM 2001, pages 107-114, 2001.,參考文獻(xiàn)J. Shi and J. Malik. Normalized cut and image segmentation. IEEE Trans, on Pattern Analysis and Machine Intelligence, 22(8) :888 - 905, August 2000.。但是,該技術(shù)僅 應(yīng)用于簡(jiǎn)單的圖形,沒(méi)有提及如何針對(duì)根據(jù)時(shí)間變化商業(yè)關(guān)系而建立 的圖進(jìn)行聚類(lèi)的方法。
而在商業(yè)性事件檢測(cè)中,有根據(jù)時(shí)間序列檢測(cè)重要的節(jié)點(diǎn)的技術(shù) (如,日本專(zhuān)利JP 2005-352817),但是并未提出關(guān)于在將時(shí)序圖進(jìn) 行聚類(lèi)劃分為產(chǎn)業(yè)后、如何進(jìn)行相應(yīng)的事件檢測(cè)的相應(yīng)技術(shù)。
發(fā)明內(nèi)容
本發(fā)明針對(duì)隨時(shí)間變化的關(guān)系建立時(shí)序關(guān)系圖,對(duì)時(shí)序關(guān)系圖進(jìn) 行基于圖的切分的聚類(lèi),然后進(jìn)行后處理,以得到最終完成分類(lèi)的節(jié) 點(diǎn)與相應(yīng)的關(guān)系。
同時(shí),在將本發(fā)明應(yīng)用于商業(yè)領(lǐng)域后,進(jìn)一步根據(jù)分類(lèi)號(hào)的節(jié)點(diǎn) 與關(guān)系對(duì)商業(yè)領(lǐng)域內(nèi)的公司和關(guān)系做產(chǎn)業(yè)劃分,最后經(jīng)過(guò)產(chǎn)業(yè)內(nèi)的商 業(yè)事件檢測(cè)得到商業(yè)性事件。
為了實(shí)現(xiàn)上述目的,本發(fā)明提出了一種基于時(shí)序關(guān)系圖的實(shí)體分 類(lèi)設(shè)備,在指定時(shí)間段內(nèi)的每一個(gè)時(shí)序關(guān)系圖中,節(jié)點(diǎn)表示實(shí)體,節(jié) 點(diǎn)間的連線表示相應(yīng)時(shí)間單位上的實(shí)體間關(guān)系,所述基于時(shí)序關(guān)系圖
的實(shí)體分類(lèi)設(shè)備包括時(shí)序關(guān)系圖聚類(lèi)裝置,用于對(duì)每一個(gè)時(shí)序關(guān)系
圖中的節(jié)點(diǎn)進(jìn)行聚類(lèi),生成時(shí)序的相應(yīng)時(shí)間單位上的節(jié)點(diǎn)聚類(lèi)結(jié)果;
以及聚類(lèi)結(jié)果后處理裝置,用于對(duì)時(shí)序關(guān)系圖聚類(lèi)裝置所生成的所有 時(shí)序的相應(yīng)時(shí)間單位上的節(jié)點(diǎn)聚類(lèi)結(jié)果進(jìn)行后處理,生成最終分類(lèi)完 成的節(jié)點(diǎn)。
優(yōu)選地,所述基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備還包括時(shí)序關(guān)系 圖生成裝置,用于對(duì)輸入的關(guān)系實(shí)例進(jìn)行處理,生成相應(yīng)的時(shí)序關(guān)系 圖。
優(yōu)選地,所述時(shí)序關(guān)系圖生成裝置包括時(shí)序關(guān)系生成單元,用于對(duì)關(guān)系實(shí)例計(jì)算權(quán)值,解決內(nèi)部沖突,對(duì)沒(méi)有出現(xiàn)的時(shí)間進(jìn)行插值,
得到時(shí)序的關(guān)系;關(guān)系綜合單元,用于對(duì)所述時(shí)序關(guān)系生成單元所生 成的時(shí)序的實(shí)體間各種類(lèi)型關(guān)系進(jìn)行綜合,得到兩實(shí)體間的時(shí)序綜合 關(guān)系;時(shí)序關(guān)系圖創(chuàng)建單元,用于針對(duì)指定時(shí)間段內(nèi)的每一個(gè)時(shí)間單 位中的關(guān)系,創(chuàng)建一個(gè)關(guān)系圖,從而形成時(shí)序關(guān)系圖。
優(yōu)選地,所述時(shí)序關(guān)系圖聚類(lèi)裝置采用分級(jí)聚類(lèi)方法,對(duì)每一個(gè) 時(shí)間單位上的時(shí)序關(guān)系圖中的節(jié)點(diǎn)進(jìn)行聚類(lèi)。
優(yōu)選地,所述聚類(lèi)結(jié)果后處理裝置包括聚類(lèi)結(jié)果映射單元,用 于對(duì)由時(shí)序關(guān)系圖聚類(lèi)裝置所生成的所有時(shí)序的相應(yīng)時(shí)間單位上的節(jié) 點(diǎn)聚類(lèi)結(jié)果中的每一個(gè)類(lèi)別進(jìn)行映射,得到合并后的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu); 節(jié)點(diǎn)出現(xiàn)次數(shù)統(tǒng)計(jì)單元,用于根據(jù)所述聚類(lèi)結(jié)果映射單元所生成的節(jié) 點(diǎn)分類(lèi)結(jié)構(gòu)和每一個(gè)節(jié)點(diǎn)聚類(lèi)結(jié)果與所述節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)的映射關(guān)系, 針對(duì)合并后的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)中的每一個(gè)類(lèi)別,統(tǒng)計(jì)各個(gè)節(jié)點(diǎn)在其中的 出現(xiàn)次數(shù);以及節(jié)點(diǎn)分類(lèi)單元,用于根據(jù)所述節(jié)點(diǎn)出現(xiàn)次數(shù)統(tǒng)計(jì)單元 的統(tǒng)計(jì)結(jié)果,將每一個(gè)節(jié)點(diǎn)分配到合并后的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)中的相應(yīng)類(lèi) 別中。
優(yōu)選地,所述聚類(lèi)結(jié)果后處理裝置還生成合并后的節(jié)點(diǎn)聚類(lèi)結(jié) 果,以及所述基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備還包括事件檢測(cè)裝置, 用于根據(jù)合并后的節(jié)點(diǎn)聚類(lèi)結(jié)果,對(duì)實(shí)體間關(guān)系進(jìn)行事件檢測(cè),輸出 事件結(jié)果。
優(yōu)選地,所述實(shí)體為公司,所述關(guān)系為商業(yè)關(guān)系,以及所述類(lèi)別 為產(chǎn)業(yè)。
為了實(shí)現(xiàn)上述目的,本發(fā)明還提出了一種基于時(shí)序關(guān)系圖的實(shí)體 分類(lèi)方法,在指定時(shí)間段內(nèi)的每一個(gè)時(shí)序關(guān)系圖中,節(jié)點(diǎn)表示實(shí)體, 節(jié)點(diǎn)間的連線表示相應(yīng)時(shí)間單位上的實(shí)體間關(guān)系,所述基于時(shí)序關(guān)系 圖的實(shí)體分類(lèi)方法包括時(shí)序關(guān)系圖聚類(lèi)步驟,對(duì)每一個(gè)時(shí)序關(guān)系圖 中的節(jié)點(diǎn)進(jìn)行聚類(lèi),生成時(shí)序的相應(yīng)時(shí)間單位上的節(jié)點(diǎn)聚類(lèi)結(jié)果;以 及聚類(lèi)結(jié)果后處理步驟,對(duì)在時(shí)序關(guān)系圖聚類(lèi)步驟中生成的所有時(shí)序 的相應(yīng)時(shí)間單位上的節(jié)點(diǎn)聚類(lèi)結(jié)果進(jìn)行后處理,生成最終分類(lèi)完成的 節(jié)點(diǎn)。
10優(yōu)選地,所述基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方法還包括時(shí)序關(guān)系 圖生成步驟,對(duì)輸入的關(guān)系實(shí)例進(jìn)行處理,生成相應(yīng)的時(shí)序關(guān)系圖。
優(yōu)選地,所述時(shí)序關(guān)系圖生成步驟包括時(shí)序關(guān)系生成子步驟, 對(duì)關(guān)系實(shí)例計(jì)算權(quán)值,解決內(nèi)部沖突,對(duì)沒(méi)有出現(xiàn)的時(shí)間進(jìn)行插值, 得到時(shí)序的關(guān)系;關(guān)系綜合子步驟,對(duì)在所述時(shí)序關(guān)系生成子步驟中 生成的時(shí)序的實(shí)體間各種類(lèi)型關(guān)系進(jìn)行綜合,得到兩實(shí)體間的時(shí)序綜 合關(guān)系;時(shí)序關(guān)系圖創(chuàng)建子步驟,針對(duì)指定時(shí)間段內(nèi)的每一個(gè)時(shí)間單 位中的關(guān)系,創(chuàng)建一個(gè)關(guān)系圖,從而形成時(shí)序關(guān)系圖。
優(yōu)選地,在所述時(shí)序關(guān)系圖聚類(lèi)步驟中,采用分級(jí)聚類(lèi)方法,對(duì) 每一個(gè)時(shí)間單位上的時(shí)序關(guān)系圖中的節(jié)點(diǎn)進(jìn)行聚類(lèi)。
優(yōu)選地,所述聚類(lèi)結(jié)果后處理步驟包括聚類(lèi)結(jié)果映射子步驟, 對(duì)在時(shí)序關(guān)系圖聚類(lèi)步驟中生成的所有時(shí)序的相應(yīng)時(shí)間單位上的節(jié)點(diǎn) 聚類(lèi)結(jié)果中的每一個(gè)類(lèi)別進(jìn)行映射,得到合并后的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu);節(jié) 點(diǎn)出現(xiàn)次數(shù)統(tǒng)計(jì)子步驟,根據(jù)在所述聚類(lèi)結(jié)果映射子步驟中生成的節(jié) 點(diǎn)分類(lèi)結(jié)構(gòu)和每一個(gè)節(jié)點(diǎn)聚類(lèi)結(jié)果與所述節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)的映射關(guān)系, 針對(duì)合并后的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)中的每一個(gè)類(lèi)別,統(tǒng)計(jì)各個(gè)節(jié)點(diǎn)在其中的 出現(xiàn)次數(shù);以及節(jié)點(diǎn)分類(lèi)子步驟,根據(jù)所述節(jié)點(diǎn)出現(xiàn)次數(shù)統(tǒng)計(jì)子步驟 中的統(tǒng)計(jì)結(jié)果,將每一個(gè)節(jié)點(diǎn)分配到合并后的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)中的相應(yīng) 類(lèi)別中。
優(yōu)選地,在所述聚類(lèi)結(jié)果后處理步驟中,還生成合并后的節(jié)點(diǎn)聚 類(lèi)結(jié)果,以及所述基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方法還包括事件檢測(cè) 步驟,根據(jù)合并后的節(jié)點(diǎn)聚類(lèi)結(jié)果,對(duì)實(shí)體間關(guān)系進(jìn)行事件檢測(cè),輸 出事件結(jié)果。
優(yōu)選地,所述實(shí)體為公司,所述關(guān)系為商業(yè)關(guān)系,以及所述類(lèi)別 為產(chǎn)業(yè)。
根據(jù)本發(fā)明,有效地解決了以下技術(shù)問(wèn)題
從隨時(shí)間變化的關(guān)系實(shí)例中建立時(shí)序關(guān)系,對(duì)節(jié)點(diǎn)進(jìn)行聚類(lèi);以
及
根據(jù)時(shí)序性的商業(yè)關(guān)系和對(duì)其進(jìn)行聚類(lèi)的結(jié)果,進(jìn)行商業(yè)性事件 檢測(cè)。
通過(guò)下面結(jié)合
本發(fā)明的優(yōu)選實(shí)施例,將使本發(fā)明的上述 及其它目的、特征和優(yōu)點(diǎn)更加清楚,其中
圖la示出了時(shí)序關(guān)系分類(lèi)與分析系統(tǒng)的總體方框圖lb示出了時(shí)序商業(yè)關(guān)系分類(lèi)與分析系統(tǒng)的總體方框圖2a示出了時(shí)序關(guān)系圖生成模塊2的方框圖和數(shù)據(jù)流程圖2b 2e示出了時(shí)序關(guān)系圖生成模塊2在處理過(guò)程中所產(chǎn)生的
時(shí)序詳細(xì)關(guān)系圖示和時(shí)序綜合關(guān)系圖(此后,將時(shí)序綜合關(guān)系圖稱(chēng)為 "時(shí)序關(guān)系圖"),其中圖2b和2c為z,時(shí)刻的詳細(xì)關(guān)系圖示和綜合關(guān)
系圖,圖2d和2e為/2時(shí)刻的詳細(xì)關(guān)系圖示和綜合關(guān)系圖; 圖3a示出了一個(gè)聚類(lèi)結(jié)果的例子;
圖3b和3c分別示出了與圖2c相對(duì)應(yīng)的z,時(shí)刻的聚類(lèi)結(jié)果和與圖
2e相對(duì)應(yīng)的^時(shí)刻的聚類(lèi)結(jié)果;
圖4a示出了聚類(lèi)結(jié)果后處理模塊4的方框圖和數(shù)據(jù)流程圖; 圖4b示出了與圖3b和3c相對(duì)應(yīng)的合并后的總的聚類(lèi)結(jié)果; 圖5示出了基于產(chǎn)業(yè)的商業(yè)性事件檢測(cè)模塊6的方框圖和數(shù)據(jù)流
程圖6示出了商業(yè)性事件檢測(cè)單元63的方框圖和數(shù)據(jù)流程圖; 圖7示出了代理公司案號(hào)IA078650中的圖3所示的時(shí)序公司關(guān) 系提取子模塊22"的方框圖和數(shù)據(jù)流程圖。
具體實(shí)施例方式
下面參照附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)說(shuō)明,在描述過(guò)程 中省略了對(duì)于本發(fā)明來(lái)說(shuō)是不必要的細(xì)節(jié)和功能,以防止對(duì)本發(fā)明的 理解造成混淆。此外,在以下的描述中,以公司作為實(shí)體的示例、以 商業(yè)關(guān)系作為關(guān)系的示例,對(duì)本發(fā)明的、基于時(shí)序關(guān)系圖的實(shí)體分類(lèi) 設(shè)備和方法進(jìn)行詳細(xì)的描述。但是,應(yīng)當(dāng)注意的是,本發(fā)明中所提及 的實(shí)體并不局限于公司,也可以表示自然人、國(guó)家或者產(chǎn)品等實(shí)體, 相應(yīng)地,本發(fā)明中所提及的關(guān)系并不局限于商業(yè)關(guān)系,也可以應(yīng)用于人際關(guān)系、國(guó)家關(guān)系等各種其他社會(huì)關(guān)系上。 系統(tǒng)概覽
圖la示出了根據(jù)本發(fā)明第一實(shí)施例的、時(shí)序關(guān)系分類(lèi)與分析系 統(tǒng)的總體方框圖。符號(hào)l表示輸入的關(guān)系實(shí)例。時(shí)序關(guān)系圖生成模塊 2對(duì)輸入的關(guān)系實(shí)例1進(jìn)行處理,生成相應(yīng)的時(shí)序關(guān)系圖。時(shí)序關(guān)系 圖聚類(lèi)模塊3對(duì)時(shí)序關(guān)系圖生成模塊2所生成的時(shí)序關(guān)系圖進(jìn)行聚類(lèi), 生成時(shí)序上每個(gè)時(shí)間單位上的聚類(lèi)結(jié)果。聚類(lèi)結(jié)果后處理模塊4對(duì)時(shí) 序關(guān)系圖聚類(lèi)模塊3所生成的聚類(lèi)結(jié)果進(jìn)行后處理,生成時(shí)序的和總 聚類(lèi)結(jié)果,并生成最終分類(lèi)完成的節(jié)點(diǎn)與關(guān)系。
模塊詳細(xì)描述
關(guān)系實(shí)例1是指兩個(gè)實(shí)體之間具有某種關(guān)系,有如下的數(shù)據(jù)結(jié)構(gòu)-
_實(shí)體A_
實(shí)體B
— 關(guān)系類(lèi)型
— 時(shí)間點(diǎn)(如日期)
來(lái)源(可選)
表1.關(guān)系實(shí)例數(shù)據(jù)結(jié)構(gòu)例子
例如,在商業(yè)領(lǐng)域中,實(shí)體可以表示公司,其中的關(guān)系類(lèi)型可以 有競(jìng)爭(zhēng)、合作、控股、供貨、合并、并購(gòu)等。在以下的數(shù)學(xué)表達(dá)中, 用/ /U5,義,0來(lái)表示一個(gè)關(guān)系實(shí)例,表示實(shí)體A和實(shí)體B在時(shí)間點(diǎn)r'有 X關(guān)系實(shí)例。
時(shí)序關(guān)系圖生成模塊2的方框圖和數(shù)據(jù)流程圖如圖2a所示。 具體地,時(shí)序關(guān)系生成單元21對(duì)關(guān)系實(shí)例計(jì)算權(quán)值,解決內(nèi)部 沖突,對(duì)沒(méi)有出現(xiàn)的時(shí)間做插值得到時(shí)序的關(guān)系。這些步驟可以用已 有的方法來(lái)解決,如在代理公司案號(hào)IA078650中具體描述的商業(yè)關(guān)系 挖掘設(shè)備和方法,但是,需要注意的是,商業(yè)關(guān)系只是本發(fā)明中所涉
13及的關(guān)系的一個(gè)實(shí)例,而不應(yīng)因此限制本發(fā)明的范圍。最終得到的是 時(shí)序的實(shí)體間各種類(lèi)型的帶權(quán)值的關(guān)系。即在一段給定的時(shí)間單位里, 兩個(gè)實(shí)體間存在時(shí)序的某種類(lèi)型關(guān)系及其權(quán)值,權(quán)值是指在此時(shí)間單 位內(nèi)有這種關(guān)系的可信度。其數(shù)據(jù)結(jié)構(gòu)的一個(gè)例子如表2所示
_公司A_
公司B
— 關(guān)系類(lèi)型
{(月,權(quán)值),(月,權(quán)值), }
表2.時(shí)序關(guān)系生成單元21得到的時(shí)序關(guān)系數(shù)據(jù)結(jié)構(gòu)例子
用",w(,)來(lái)表示表示實(shí)體A和實(shí)體B在時(shí)間單位t內(nèi)對(duì)X商業(yè)關(guān) 系的權(quán)值。
例如,圖2b和2d示出了時(shí)序關(guān)系生成單元21所產(chǎn)生的時(shí)序詳 細(xì)關(guān)系的圖示,其中圖2b為^時(shí)刻的詳細(xì)關(guān)系圖示,圖2d為^時(shí)刻的 詳細(xì)關(guān)系圖示。具體地,在圖2b中,示出了實(shí)體A和實(shí)體B在卩時(shí)刻 具有關(guān)系"Cooperation"和"Competition";實(shí)體A和實(shí)體C在r,時(shí) 刻具有關(guān)系"Cooperation"和"Competition";實(shí)體A和實(shí)體D在,, 時(shí)刻具有關(guān)系"Competition";實(shí)體B和實(shí)體D在z,時(shí)刻具有關(guān)系
"Competition ";以及實(shí)體C和實(shí)體D在^時(shí)刻具有關(guān)系
"Co即etition"。而在圖2d中,示出了實(shí)體A和實(shí)體B在/2時(shí)刻具有 關(guān)系"Cooperation"和"Competition";實(shí)體A和實(shí)體C在,2時(shí)刻具 有關(guān)系"Competition";實(shí)體A和實(shí)體D在^時(shí)刻具有關(guān)系
"Competition";實(shí)體B和實(shí)體D在^時(shí)刻具有關(guān)系"Competition"; 以及實(shí)體C和實(shí)體D在/2時(shí)刻具有關(guān)系"Cooperation"和
"Competition ,,。
關(guān)系綜合單元22對(duì)上述時(shí)序的實(shí)體間各種類(lèi)型關(guān)系進(jìn)行綜合, 得到時(shí)序的兩個(gè)實(shí)體間總的關(guān)系。用&A)來(lái)表示兩個(gè)實(shí)體間總的關(guān) 系。這一總的關(guān)系是無(wú)方向的,即^^) = &^)。例如,公司間總的關(guān) 系表達(dá)了公司之間的聯(lián)系緊密度,緊密度越大的兩個(gè)公司更有可能屬 于一個(gè)行業(yè)或子行業(yè)。這一綜合計(jì)算過(guò)程可以采用多種求和方法或加權(quán)求和方法對(duì)各種類(lèi)型關(guān)系累加,其計(jì)算公示如下:
其中/,()是對(duì)應(yīng)于關(guān)系X的任意的單調(diào)增函數(shù)或單調(diào)減函數(shù)。g()是 任意的單調(diào)增函數(shù),其作用是標(biāo)準(zhǔn)化或歸一化最終權(quán)值。 上述函數(shù)形式的一個(gè)例子如下
其中w(Z)是各個(gè)關(guān)系的權(quán)值,采用經(jīng)驗(yàn)值或釆用統(tǒng)計(jì)的辦法得到。例 如,統(tǒng)計(jì)的辦法可以是統(tǒng)計(jì)某種關(guān)系出現(xiàn)的概率,作為權(quán)值。 另一個(gè)例子如下
時(shí)序關(guān)系圖創(chuàng)建單元23對(duì)時(shí)序范圍里每一個(gè)時(shí)間單位內(nèi)的關(guān)系 都創(chuàng)建一個(gè)圖。圖中的節(jié)點(diǎn)是實(shí)體,節(jié)點(diǎn)間的連線表示兩實(shí)體間的時(shí) 序綜合關(guān)系,每條連線的權(quán)值為兩個(gè)實(shí)體間的時(shí)序綜合關(guān)系的取值。 這樣對(duì)每一個(gè)時(shí)間單位就生成了一個(gè)帶權(quán)值的無(wú)向圖。
例如,圖2c和2e示出了關(guān)系綜合單元22和時(shí)序關(guān)系圖創(chuàng)建單 元23所產(chǎn)生的時(shí)序關(guān)系圖,其中圖2c為/,時(shí)刻的綜合關(guān)系圖,圖2e 為G時(shí)刻的綜合關(guān)系圖。
時(shí)序關(guān)系圖聚類(lèi)模塊3采用分級(jí)聚類(lèi)方法,對(duì)每一個(gè)時(shí)間單位上 的時(shí)序關(guān)系圖進(jìn)行聚類(lèi)。例如,可以采用己有的基于圖的聚類(lèi)方法對(duì) 每一個(gè)時(shí)間單位上的圖做基于圖二分切分的聚類(lèi)。己有的方法包括參 考文獻(xiàn)C. H. Ding, X. He, H. Zha, M. Gu, and H. D. Simon. A min-max cut algorithm for graph partitioning and data clustering. In Proceedings of IEEE ICDM 2001, pages 107- 114, 2001.和參 考文獻(xiàn) J. Shi and J". Malik. Normalized cut and imagesegmentation. IEEE Trans, on Pattern Analysis and Machine Intelligence, 22 (8) :888 - 905, August 2000.。聚類(lèi)結(jié)果是多級(jí) 的二分結(jié)構(gòu),圖3a示出了一個(gè)聚類(lèi)結(jié)果的例子。
在圖3a給出的聚類(lèi)結(jié)果例子中,最細(xì)的分類(lèi)結(jié)果為4類(lèi)ABC為 一類(lèi),DE為一類(lèi),F(xiàn)為一類(lèi),G為一類(lèi);上一層的分類(lèi)結(jié)果為3類(lèi), ABC為一類(lèi),DEF為一類(lèi),G為一類(lèi)。例如,在商業(yè)關(guān)系上,更細(xì)的級(jí) 別表現(xiàn)為子行業(yè),而更高的級(jí)別則表現(xiàn)為行業(yè)。
圖3b和3c分別示出了與圖2c相對(duì)應(yīng)的/,時(shí)刻的聚類(lèi)結(jié)果和與圖 2e相對(duì)應(yīng)的^時(shí)刻的聚類(lèi)結(jié)果。具體地,在圖3b中,示出了在卩時(shí)刻, 實(shí)體A、 B和C屬于子類(lèi)2,實(shí)體D屬于子類(lèi)3,且實(shí)體A D都屬于類(lèi) 1。而在圖3c中,示出了在^時(shí)刻,實(shí)體A和B屬于子類(lèi)2,實(shí)體D 和C屬于子類(lèi)3,且實(shí)體A D都屬于類(lèi)1。
聚類(lèi)結(jié)果后處理模塊4對(duì)時(shí)序關(guān)系圖聚類(lèi)模塊3得到的時(shí)序的聚 類(lèi)結(jié)果進(jìn)行后處理。對(duì)給定時(shí)間范圍內(nèi)的所有時(shí)間單位的聚類(lèi)結(jié)果進(jìn) 行綜合處理,得到給定時(shí)間范圍內(nèi)的聚類(lèi)結(jié)果。
具體地,圖4a示出了聚類(lèi)結(jié)果后處理模塊4的方框圖和數(shù)據(jù)流 程圖。
對(duì)于給定時(shí)間范圍內(nèi)的每一個(gè)時(shí)間單位,都會(huì)有一個(gè)如圖3的聚 類(lèi)結(jié)果,這樣共有n個(gè)聚類(lèi)結(jié)果,聚類(lèi)結(jié)果后處理模塊4就是對(duì)這n
個(gè)聚類(lèi)結(jié)果進(jìn)行合并,生成一個(gè)總的聚類(lèi)結(jié)果。
聚類(lèi)結(jié)果映射單元41對(duì)n個(gè)聚類(lèi)圖中的每一個(gè)類(lèi)別做映射,可 以采用 Kuhn-Munkres算法(L. Lovasz and M. Plummer. Matching Theory),最終得到n個(gè)圖合并而成的分類(lèi)結(jié)構(gòu)。
節(jié)點(diǎn)出現(xiàn)次數(shù)統(tǒng)計(jì)單元42根據(jù)聚類(lèi)結(jié)果映射單元41生成的分類(lèi) 結(jié)構(gòu)和每一個(gè)聚類(lèi)圖與它的映射關(guān)系,統(tǒng)計(jì)各個(gè)節(jié)點(diǎn)在合并后的分類(lèi) 結(jié)構(gòu)中的出現(xiàn)次數(shù)。
節(jié)點(diǎn)分類(lèi)單元43根據(jù)節(jié)點(diǎn)出現(xiàn)次數(shù)統(tǒng)計(jì)單元42的統(tǒng)計(jì)結(jié)果,將 每一個(gè)節(jié)點(diǎn)分配到合并后的分類(lèi)結(jié)構(gòu)中的相應(yīng)類(lèi)別中。
圖4b示出了與圖3b和3c相對(duì)應(yīng)的合并后的總的聚類(lèi)結(jié)果。參考圖4b,該合并后的總的聚類(lèi)結(jié)果表明在時(shí)間段/1+/2期間,實(shí)體A
和B屬于子類(lèi)2-1,實(shí)體C屬于子類(lèi)2-2,且實(shí)體A、 B和C都屬于子 類(lèi)2;實(shí)體D屬于子類(lèi)3;且實(shí)體A D都屬于類(lèi)1。
商業(yè)關(guān)系分類(lèi)與分析實(shí)例
圖lb示出了時(shí)序商業(yè)關(guān)系分類(lèi)與分析系統(tǒng)的總體方框圖。在圖 lb中,給出了將本發(fā)明應(yīng)用于商業(yè)關(guān)系的實(shí)例。與圖la的通用時(shí)序 關(guān)系分類(lèi)與分析系統(tǒng)相比,圖lb所示的系統(tǒng)僅應(yīng)用于商業(yè)關(guān)系的分類(lèi) 和分析,模塊1 4與圖la中相同,為了簡(jiǎn)明起見(jiàn),這里省略了不必 要的重復(fù)描述。符號(hào)6表示基于產(chǎn)業(yè)的商業(yè)性事件檢測(cè)模塊,用于根 據(jù)聚類(lèi)結(jié)果,對(duì)時(shí)序商業(yè)關(guān)系做商業(yè)事件的檢測(cè),最終輸出商業(yè)性事 件結(jié)果7。
商業(yè)性事件7是指從上述數(shù)據(jù)中以行業(yè)分析的角度得到的高層次 的且對(duì)用戶(hù)或者其他公司有啟發(fā)意義的事件。例如,公司A從1998 年1月到2001年1月是本行業(yè)的核心公司;公司B從1999年1月到 2000年1月在本行業(yè)內(nèi)發(fā)展迅速等。
圖5示出了基于產(chǎn)業(yè)的商業(yè)性事件檢測(cè)模塊6的方框圖和數(shù)據(jù)流 程圖。
產(chǎn)業(yè)歸類(lèi)單元61對(duì)于每個(gè)時(shí)間單位,對(duì)所有關(guān)系和節(jié)點(diǎn)做產(chǎn)業(yè) 劃分,按照某個(gè)產(chǎn)業(yè)細(xì)分閾值選取時(shí)序聚類(lèi)結(jié)果,針對(duì)每一類(lèi)(每一 個(gè)行業(yè)),對(duì)時(shí)序關(guān)系圖中的所有節(jié)點(diǎn)和連線進(jìn)行歸類(lèi),從而將所有公 司和商業(yè)關(guān)系歸類(lèi)到各個(gè)產(chǎn)業(yè)中。
公司重要度計(jì)算單元62對(duì)每個(gè)時(shí)間單位內(nèi)的每個(gè)產(chǎn)業(yè),計(jì)算各
個(gè)公司在該產(chǎn)業(yè)內(nèi)的重要度??梢圆捎靡延兴惴ǎ鏟age Rank方法 或HITS算法,或任何可行的辦法。
商業(yè)性事件檢測(cè)單元63對(duì)每個(gè)時(shí)間單位內(nèi)的每個(gè)產(chǎn)業(yè),只選擇 本行業(yè)內(nèi)的公司和商業(yè)關(guān)系,結(jié)合公司重要度,進(jìn)行商業(yè)性事件檢測(cè)。
具體地,圖6示出了商業(yè)性事件檢測(cè)單元63的方框圖和數(shù)據(jù)流 程圖。商業(yè)性事件檢測(cè)單元63的輸入包括由產(chǎn)業(yè)歸類(lèi)單元61生成 的時(shí)序公司產(chǎn)業(yè)分類(lèi)和時(shí)序公司間商業(yè)關(guān)系分類(lèi)、以及由公司重要度
17計(jì)算單元62生成的產(chǎn)業(yè)內(nèi)時(shí)序公司商業(yè)重要度。產(chǎn)業(yè)選取子單元631 選取產(chǎn)業(yè)歸類(lèi)單元61所生成的時(shí)序公司產(chǎn)業(yè)分類(lèi)和時(shí)序公司間商業(yè) 關(guān)系分類(lèi)中的指定產(chǎn)業(yè)內(nèi)的公司和商業(yè)關(guān)系,基于規(guī)則的事件提取子 單元633利用預(yù)定義規(guī)則632去檢測(cè)所有的輸入數(shù)據(jù)并輸出與規(guī)則匹 配的商業(yè)性事件。預(yù)定義規(guī)則632可以由人工預(yù)先定義。 一些預(yù)定義 規(guī)則632的例子如下
用S力)表示在某產(chǎn)業(yè)內(nèi)公司A在t時(shí)的重要度,
如果公司A在某產(chǎn)業(yè)內(nèi)的商業(yè)重要度^(/)>77 1,/。^^1,那么A 在某產(chǎn)業(yè)內(nèi)從/。到^是一個(gè)關(guān)鍵公司;
對(duì)于某產(chǎn)業(yè)內(nèi)的公司A,如果"'):"。)〉rv那么A在某產(chǎn)業(yè)
6 — ~
內(nèi)從"到^發(fā)展迅速;
對(duì)于某產(chǎn)業(yè)內(nèi)的公司A,如果>7V那么A在某產(chǎn)業(yè)
Wo
內(nèi)從/。到q出現(xiàn)問(wèn)題;
對(duì)于某產(chǎn)業(yè)內(nèi)的公司a和b,如果"):")〉rv那么a和
B從"到^關(guān)系發(fā)展迅速;
對(duì)于某產(chǎn)業(yè)內(nèi)的公司A和B,如果""")〉y^,那么A和
B從z。到^關(guān)系惡化。
至此已經(jīng)結(jié)合優(yōu)選實(shí)施例對(duì)本發(fā)明進(jìn)行了描述。應(yīng)該理解,本領(lǐng) 域技術(shù)人員在不脫離本發(fā)明的精神和范圍的情況下,可以進(jìn)行各種其 它的改變、替換和添加。因此,本發(fā)明的范圍不局限于上述特定實(shí)施 例,而應(yīng)由所附權(quán)利要求所限定。附件
*代理公司案號(hào)IA078650中的相關(guān)內(nèi)容(該申請(qǐng)文件中的圖3 及相關(guān)描述,這里,為了區(qū)分附圖標(biāo)記的需要,在附件部分中的附圖 標(biāo)記均添加(")以示區(qū)別)
時(shí)序公司關(guān)系提取子模塊22"
圖7示出了時(shí)序公司關(guān)系提取子模塊22"的方框圖和數(shù)據(jù)流程圖。 公司商業(yè)關(guān)系實(shí)例強(qiáng)度計(jì)算單元221"根據(jù)每一個(gè)公司商業(yè)關(guān)系 實(shí)例WGiAZ,/'),計(jì)算其對(duì)應(yīng)時(shí)間單位t內(nèi)的公司商業(yè)關(guān)系A(chǔ), B, X
的強(qiáng)度S/(AAU)。
在時(shí)間單位t之內(nèi),公司商業(yè)關(guān)系實(shí)例A, B, X可能出現(xiàn)多次,
例如不同新聞網(wǎng)站會(huì)提到,在t內(nèi)可能有多次時(shí)間都提到。我們用C,來(lái)
表示時(shí)間單位t內(nèi)公司商業(yè)關(guān)系實(shí)例出現(xiàn)的次數(shù),那么S/(AAU)可
以用下式計(jì)算
<formula>formula see original document page 19</formula>
其中",是對(duì)應(yīng)的第i個(gè)實(shí)例,ms(心是這個(gè)實(shí)例中新聞的匹配得分。實(shí) 際上強(qiáng)度就是所有時(shí)間單位t內(nèi)的實(shí)例得分總和。
時(shí)序插值單元222"對(duì)一段指定時(shí)間內(nèi)沒(méi)有公司商業(yè)關(guān)系實(shí)例出 現(xiàn)時(shí)的公司關(guān)系利用插值計(jì)算其權(quán)值,最終在指定時(shí)間段內(nèi)任何公司 之間的任何持續(xù)性關(guān)系在任何時(shí)間都有權(quán)值。持續(xù)性的公司關(guān)系是指 關(guān)系會(huì)持續(xù)一段時(shí)間,而不是一次性的事件性的關(guān)系,例如競(jìng)爭(zhēng)、合
作、控股、供貨等都是持續(xù)性的商業(yè)關(guān)系。例如在2000年6月沒(méi)有 出現(xiàn)公司A和公司B之間的競(jìng)爭(zhēng)關(guān)系,但是在之前2000年1月出現(xiàn)了 這種關(guān)系,那么就利用之前的這種關(guān)系的權(quán)值來(lái)插值求得2000年6 月的權(quán)值。例如,求插值的方法如下
假設(shè)某兩公司的某種關(guān)系i /第一次發(fā)生在/。,最后一次發(fā)生在^。 為了計(jì)算/J寸的公司關(guān)系強(qiáng)度,假設(shè)在/ 之前的一次實(shí)例發(fā)生在 ^,在其之后的一次實(shí)例發(fā)生在^,那么a:
《m )'
-"^1-
~ _ " 一 "
<6
事件性商業(yè)關(guān)系以及沖突處理單元223"對(duì)事件性的商業(yè)關(guān)系進(jìn) 行處理。事件性的商業(yè)關(guān)系是指這種商業(yè)關(guān)系是一次發(fā)生的事件而不 是持續(xù)性的商業(yè)關(guān)系,例如合并、并購(gòu)都是事件性的商業(yè)關(guān)系,而競(jìng) 爭(zhēng)、合作、控股、供貨是持續(xù)性的商業(yè)關(guān)系。處理過(guò)程包括本身這種 關(guān)系權(quán)值的處理,發(fā)生沖突時(shí)的處理,對(duì)其他有影響的關(guān)系的處理。
例如,處理方法如下
首先,解決沖突問(wèn)題。沖突問(wèn)題的解決辦法如下
時(shí)間沖突理論上事件性關(guān)系應(yīng)該只發(fā)生-
但是互聯(lián)網(wǎng)上'
盲
息不完全可靠,因此可能會(huì)發(fā)生沖突。如果發(fā)生沖突,即同時(shí)存在 i /(AA義,0, 那么調(diào)整新的公司關(guān)系強(qiáng)度為
方向沖突專(zhuān)門(mén)針對(duì)于有方向性的事件性關(guān)系的處理,如并購(gòu)。 這種關(guān)系對(duì)兩個(gè)公司來(lái)講只可能有一個(gè)方向是正確的。在同時(shí)存在
、fi,Y 0"l ) 2 (〖2 )
則
^'SJ^/l J=、力,
(0
5
否則
且
然后,解決對(duì)其他商業(yè)關(guān)系的影響。如果x是合并或并購(gòu)關(guān)系而
(0>77/,其中77/是一個(gè)預(yù)定閾值,那么A和B在f,之后合并為
一個(gè)公司,A和B之間不再保存持續(xù)性關(guān)系,合并后公司A (B)和其 他公司的關(guān)系權(quán)值按如下調(diào)整在完成上述處理之后,事件性商業(yè)關(guān)系以及沖突處理單元223" 輸出帶權(quán)值的時(shí)序公司商業(yè)關(guān)系32"。
公司間時(shí)序綜合商業(yè)聯(lián)系度計(jì)算單元224"(在代理公司案號(hào) IA078649的發(fā)明中,無(wú)需計(jì)算時(shí)序的綜合商業(yè)聯(lián)系度,實(shí)體間時(shí)序綜 合關(guān)系的計(jì)算將由關(guān)系綜合單元22完成)計(jì)算兩個(gè)公司之間時(shí)序的綜 合性的商業(yè)聯(lián)系度以及平均的總商業(yè)聯(lián)系度。具體地,對(duì)各種關(guān)系權(quán) 值做加權(quán)平均,得到時(shí)序的綜合商業(yè)聯(lián)系度,即
、",)=1>(李J
其中vK幻是各個(gè)關(guān)系的權(quán)值,采用經(jīng)驗(yàn)值或采用統(tǒng)計(jì)的辦法得到。統(tǒng) 計(jì)的辦法可以是采用統(tǒng)計(jì)某種關(guān)系在每個(gè)工業(yè)界之內(nèi)出現(xiàn)的概率作為 權(quán)值。之后對(duì)所有時(shí)間取平均得到總商業(yè)聯(lián)系度。在完成上述處理之 后,公司間時(shí)序綜合商業(yè)聯(lián)系度計(jì)算單元224"輸出公司間時(shí)序綜合商
業(yè)聯(lián)系度33"。
權(quán)利要求
1. 一種基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備,在指定時(shí)間段內(nèi)的每一個(gè)時(shí)序關(guān)系圖中,節(jié)點(diǎn)表示實(shí)體,節(jié)點(diǎn)間的連線表示相應(yīng)時(shí)間單位上的實(shí)體間關(guān)系,所述基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備包括時(shí)序關(guān)系圖聚類(lèi)裝置,用于對(duì)每一個(gè)時(shí)序關(guān)系圖中的節(jié)點(diǎn)進(jìn)行聚類(lèi),生成時(shí)序的相應(yīng)時(shí)間單位上的節(jié)點(diǎn)聚類(lèi)結(jié)果;以及聚類(lèi)結(jié)果后處理裝置,用于對(duì)時(shí)序關(guān)系圖聚類(lèi)裝置所生成的所有時(shí)序的相應(yīng)時(shí)間單位上的節(jié)點(diǎn)聚類(lèi)結(jié)果進(jìn)行后處理,生成最終分類(lèi)完成的節(jié)點(diǎn)。
2. 根據(jù)權(quán)利要求l所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備,其 特征在于還包括時(shí)序關(guān)系圖生成裝置,用于對(duì)輸入的關(guān)系實(shí)例進(jìn)行處理,生成相 應(yīng)的時(shí)序關(guān)系圖。
3. 根據(jù)權(quán)利要求2所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備,其特征在于所述時(shí)序關(guān)系圖生成裝置包括時(shí)序關(guān)系生成單元,用于對(duì)關(guān)系實(shí)例計(jì)算權(quán)值,解決內(nèi)部沖突,對(duì)沒(méi)有出現(xiàn)的時(shí)間進(jìn)行插值,得到時(shí)序的關(guān)系;關(guān)系綜合單元,用于對(duì)所述時(shí)序關(guān)系生成單元所生成的時(shí)序的實(shí)體間各種類(lèi)型關(guān)系進(jìn)行綜合,得到兩實(shí)體間的時(shí)序綜合關(guān)系;時(shí)序關(guān)系圖創(chuàng)建單元,用于針對(duì)指定時(shí)間段內(nèi)的每一個(gè)時(shí)間單位 中的關(guān)系,創(chuàng)建一個(gè)關(guān)系圖,從而形成時(shí)序關(guān)系圖。
4. 根據(jù)權(quán)利要求3所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備,其 特征在于所述關(guān)系綜合單元所生成的兩個(gè)實(shí)體間的時(shí)序綜合關(guān)系是無(wú) 方向的。
5. 根據(jù)權(quán)利要求3或4所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè) 備,其特征在于在所述時(shí)序關(guān)系圖創(chuàng)建單元所創(chuàng)建的關(guān)系圖中,以節(jié) 點(diǎn)表示實(shí)體,以節(jié)點(diǎn)間的連線表示兩實(shí)體間的時(shí)序綜合關(guān)系,每條連 線的權(quán)值為兩個(gè)實(shí)體間的時(shí)序綜合關(guān)系的取值。
6. 根據(jù)權(quán)利要求3 5之一所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi) 設(shè)備,其特征在于所述時(shí)序關(guān)系圖生成裝置針對(duì)每一個(gè)時(shí)間單位,生 成一個(gè)帶權(quán)值的無(wú)向圖。
7. 根據(jù)權(quán)利要求1所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備,其 特征在于所述時(shí)序關(guān)系圖聚類(lèi)裝置采用分級(jí)聚類(lèi)方法,對(duì)每一個(gè)時(shí)間 單位上的時(shí)序關(guān)系圖中的節(jié)點(diǎn)進(jìn)行聚類(lèi)。
8. 根據(jù)權(quán)利要求1所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備,其特征在于所述聚類(lèi)結(jié)果后處理裝置包括聚類(lèi)結(jié)果映射單元,用于對(duì)由時(shí)序關(guān)系圖聚類(lèi)裝置所生成的所有 時(shí)序的相應(yīng)時(shí)間單位上的節(jié)點(diǎn)聚類(lèi)結(jié)果中的每一個(gè)類(lèi)別進(jìn)行映射,得到合并后的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu);節(jié)點(diǎn)出現(xiàn)次數(shù)統(tǒng)計(jì)單元,用于根據(jù)所述聚類(lèi)結(jié)果映射單元所生成 的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)和每一個(gè)節(jié)點(diǎn)聚類(lèi)結(jié)果與所述節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)的映射關(guān) 系,針對(duì)合并后的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)中的每一個(gè)類(lèi)別,統(tǒng)計(jì)各個(gè)節(jié)點(diǎn)在其 中的出現(xiàn)次數(shù);以及節(jié)點(diǎn)分類(lèi)單元,用于根據(jù)所述節(jié)點(diǎn)出現(xiàn)次數(shù)統(tǒng)計(jì)單元的統(tǒng)計(jì)結(jié) 果,將每一個(gè)節(jié)點(diǎn)分配到合并后的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)中的相應(yīng)類(lèi)別中。
9. 根據(jù)權(quán)利要求8所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備,其 特征在于所述聚類(lèi)結(jié)果映射單元采用Kuhn-Munkres算法進(jìn)行所述類(lèi) 別映射。
10. 根據(jù)權(quán)利要求1 9之一所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi) 設(shè)備,其特征在于所述聚類(lèi)結(jié)果后處理裝置還生成合并后的節(jié)點(diǎn)聚類(lèi) 結(jié)果,以及所述基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備還包括 事件檢測(cè)裝置,用于根據(jù)合并后的節(jié)點(diǎn)聚類(lèi)結(jié)果,對(duì)實(shí)體間關(guān)系 進(jìn)行事件檢測(cè),輸出事件結(jié)果。
11. 根據(jù)權(quán)利要求10所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備,其特征在于所述事件檢測(cè)裝置包括類(lèi)別歸類(lèi)單元,用于針對(duì)每個(gè)時(shí)間單位,對(duì)所有實(shí)體和關(guān)系進(jìn)行 類(lèi)別劃分,按照預(yù)定的類(lèi)別細(xì)分閾值,選取時(shí)序的相應(yīng)時(shí)間單位上的節(jié)點(diǎn)聚類(lèi)結(jié)果,針對(duì)所選取的節(jié)點(diǎn)聚類(lèi)結(jié)果中的每一類(lèi)別,對(duì)所述時(shí) 序關(guān)系圖中的所有節(jié)點(diǎn)和連線進(jìn)行歸類(lèi),從而將所有實(shí)體和關(guān)系歸類(lèi)到各個(gè)類(lèi)別中;實(shí)體重要度計(jì)算單元,用于針對(duì)每個(gè)時(shí)間單位內(nèi)的每個(gè)類(lèi)別,計(jì) 算各個(gè)實(shí)體在該類(lèi)別內(nèi)的時(shí)序?qū)嶓w重要度;以及事件檢測(cè)單元,用于針對(duì)每個(gè)時(shí)間單位內(nèi)的每個(gè)類(lèi)別,選擇本類(lèi) 別內(nèi)的實(shí)體和關(guān)系,并結(jié)合時(shí)序?qū)嶓w重要度,進(jìn)行事件檢測(cè)。
12. 根據(jù)權(quán)利要求11所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備, 其特征在于所述實(shí)體重要度計(jì)算單元采用Page Rank方法或HITS算法來(lái)計(jì)算實(shí)體重要度。
13. 根據(jù)權(quán)利要求11或12所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備,其特征在于所述事件檢測(cè)單元包括類(lèi)別選取子單元,用于選取所述類(lèi)別歸類(lèi)單元所生成的時(shí)序?qū)嶓w 和關(guān)系分類(lèi)中的指定類(lèi)別內(nèi)的實(shí)體和關(guān)系;以及基于規(guī)則的事件提取子單元,用于利用預(yù)定義規(guī)則、所述類(lèi)別選 取子單元的選取結(jié)果、由所述實(shí)體重要度計(jì)算單元生成的各類(lèi)別內(nèi)的 時(shí)序?qū)嶓w重要度,檢測(cè)并輸出與所述預(yù)定義規(guī)則匹配的事件。
14. 根據(jù)權(quán)利要求1 13之一所述的基于時(shí)序關(guān)系圖的實(shí)體分 類(lèi)設(shè)備,其特征在于所述實(shí)體為公司,所述關(guān)系為商業(yè)關(guān)系,以及所 述類(lèi)別為產(chǎn)業(yè)。
15. —種基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方法,在指定時(shí)間段內(nèi)的 每一個(gè)時(shí)序關(guān)系圖中,節(jié)點(diǎn)表示實(shí)體,節(jié)點(diǎn)間的連線表示相應(yīng)時(shí)間單 位上的實(shí)體間關(guān)系,所述基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方法包括時(shí)序關(guān)系圖聚類(lèi)步驟,對(duì)每一個(gè)時(shí)序關(guān)系圖中的節(jié)點(diǎn)進(jìn)行聚類(lèi), 生成時(shí)序的相應(yīng)時(shí)間單位上的節(jié)點(diǎn)聚類(lèi)結(jié)果;以及聚類(lèi)結(jié)果后處理步驟,對(duì)在時(shí)序關(guān)系圖聚類(lèi)步驟中生成的所有時(shí) 序的相應(yīng)時(shí)間單位上的節(jié)點(diǎn)聚類(lèi)結(jié)果進(jìn)行后處理,生成最終分類(lèi)完成 的節(jié)點(diǎn)。
16. 根據(jù)權(quán)利要求15所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方法,其特征在于還包括時(shí)序關(guān)系圖生成步驟,對(duì)輸入的關(guān)系實(shí)例進(jìn)行處理,生成相應(yīng)的 時(shí)序關(guān)系圖。
17. 根據(jù)權(quán)利要求16所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方法,其特征在于所述時(shí)序關(guān)系圖生成步驟包括時(shí)序關(guān)系生成子步驟,對(duì)關(guān)系實(shí)例計(jì)算權(quán)值,解決內(nèi)部沖突,對(duì) 沒(méi)有出現(xiàn)的時(shí)間進(jìn)行插值,得到時(shí)序的關(guān)系;關(guān)系綜合子步驟,對(duì)在所述時(shí)序關(guān)系生成子步驟中生成的時(shí)序的 實(shí)體間各種類(lèi)型關(guān)系進(jìn)行綜合,得到兩實(shí)體間的時(shí)序綜合關(guān)系;時(shí)序關(guān)系圖創(chuàng)建子步驟,針對(duì)指定時(shí)間段內(nèi)的每一個(gè)時(shí)間單位中 的關(guān)系,創(chuàng)建一個(gè)關(guān)系圖,從而形成時(shí)序關(guān)系圖。
18. 根據(jù)權(quán)利要求17所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方法,其特征在于在所述關(guān)系綜合子步驟中生成的兩個(gè)實(shí)體間的時(shí)序綜合關(guān) 系是無(wú)方向的。
19. 根據(jù)權(quán)利要求17或18所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方 法,其特征在于在所述時(shí)序關(guān)系圖創(chuàng)建子步驟中創(chuàng)建的關(guān)系圖中,以 節(jié)點(diǎn)表示實(shí)體,以節(jié)點(diǎn)間的連線表示兩實(shí)體間的時(shí)序綜合關(guān)系,每條 連線的權(quán)值為兩個(gè)實(shí)體間的時(shí)序綜合關(guān)系的取值。
20. 根據(jù)權(quán)利要求17 19之一所述的基于時(shí)序關(guān)系圖的實(shí)體分 類(lèi)方法,其特征在于在所述時(shí)序關(guān)系圖生成步驟中,針對(duì)每一個(gè)時(shí)間 單位,生成一個(gè)帶權(quán)值的無(wú)向圖。
21. 根據(jù)權(quán)利要求15所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方法, 其特征在于在所述時(shí)序關(guān)系圖聚類(lèi)步驟中,采用分級(jí)聚類(lèi)方法,對(duì)每 一個(gè)時(shí)間單位上的時(shí)序關(guān)系圖中的節(jié)點(diǎn)進(jìn)行聚類(lèi)。
22. 根據(jù)權(quán)利要求15所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方法, 其特征在于所述聚類(lèi)結(jié)果后處理步驟包括聚類(lèi)結(jié)果映射子步驟,對(duì)在時(shí)序關(guān)系圖聚類(lèi)步驟中生成的所有時(shí) 序的相應(yīng)時(shí)間單位上的節(jié)點(diǎn)聚類(lèi)結(jié)果中的每一個(gè)類(lèi)別進(jìn)行映射,得到 合并后的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu);節(jié)點(diǎn)出現(xiàn)次數(shù)統(tǒng)計(jì)子步驟,根據(jù)在所述聚類(lèi)結(jié)果映射子步驟中生 成的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)和每一個(gè)節(jié)點(diǎn)聚類(lèi)結(jié)果與所述節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)的映射關(guān)系,針對(duì)合并后的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)中的每一個(gè)類(lèi)別,統(tǒng)計(jì)各個(gè)節(jié)點(diǎn)在其中的出現(xiàn)次數(shù);以及節(jié)點(diǎn)分類(lèi)子步驟,根據(jù)所述節(jié)點(diǎn)出現(xiàn)次數(shù)統(tǒng)計(jì)子步驟中的統(tǒng)計(jì)結(jié) 果,將每一個(gè)節(jié)點(diǎn)分配到合并后的節(jié)點(diǎn)分類(lèi)結(jié)構(gòu)中的相應(yīng)類(lèi)別中。
23. 根據(jù)權(quán)利要求22所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方法, 其特征在于在所述聚類(lèi)結(jié)果映射子步驟中,采用Kuhn-Munkres算法進(jìn) 行所述類(lèi)別映射。
24. 根據(jù)權(quán)利要求15 23之一所述的基于時(shí)序關(guān)系圖的實(shí)體分 類(lèi)方法,其特征在于在所述聚類(lèi)結(jié)果后處理步驟中,還生成合并后的 節(jié)點(diǎn)聚類(lèi)結(jié)果,以及所述基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方法還包括 事件檢測(cè)步驟,根據(jù)合并后的節(jié)點(diǎn)聚類(lèi)結(jié)果,對(duì)實(shí)體間關(guān)系進(jìn)行 事件檢測(cè),輸出事件結(jié)果。
25. 根據(jù)權(quán)利要求24所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方法, 其特征在于所述事件檢測(cè)步驟包括類(lèi)別歸類(lèi)子步驟,針對(duì)每個(gè)時(shí)間單位,對(duì)所有實(shí)體和關(guān)系進(jìn)行類(lèi) 別劃分,按煦預(yù)定的類(lèi)別細(xì)分閾值,選取時(shí)序的相應(yīng)時(shí)間單位上的節(jié) 點(diǎn)聚類(lèi)結(jié)果,針對(duì)所選取的節(jié)點(diǎn)聚類(lèi)結(jié)果中的每一類(lèi)別,對(duì)所述時(shí)序 關(guān)系圖中的所有節(jié)點(diǎn)和連線進(jìn)行歸類(lèi),從而將所有實(shí)體和關(guān)系歸類(lèi)到 各個(gè)類(lèi)別中;實(shí)體重要度計(jì)算子步驟,針對(duì)每個(gè)時(shí)間單位內(nèi)的每個(gè)類(lèi)別,計(jì)算 各個(gè)實(shí)體在該類(lèi)別內(nèi)的時(shí)序?qū)嶓w重要度;以及事件檢測(cè)子步驟,針對(duì)每個(gè)時(shí)間單位內(nèi)的每個(gè)類(lèi)別,選擇本類(lèi)別 內(nèi)的實(shí)體和關(guān)系,并結(jié)合時(shí)序?qū)嶓w重要度,進(jìn)行事件檢測(cè)。
26. 根據(jù)權(quán)利要求25所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方法, 其特征在于在所述實(shí)體重要度計(jì)算子步驟中,采用Page Rank方法或 HITS算法來(lái)計(jì)算實(shí)體重要度。
27. 根據(jù)權(quán)利要求25或26所述的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)方 法,其特征在于所述事件檢測(cè)子步驟包括類(lèi)別選取子步驟,選取在所述類(lèi)別歸類(lèi)子步驟中生成的時(shí)序?qū)嶓w和關(guān)系分類(lèi)中的指定類(lèi)別內(nèi)的實(shí)體和關(guān)系;以及基于規(guī)則的事件提取子步驟,利用預(yù)定義規(guī)則、所述類(lèi)別選取子 步驟中的選取結(jié)果、在所述實(shí)體重要度計(jì)算子步驟中生成的各類(lèi)別內(nèi) 的時(shí)序?qū)嶓w重要度,檢測(cè)并輸出與所述預(yù)定義規(guī)則匹配的事件。
28.根據(jù)權(quán)利要求15 27之一所述的基于時(shí)序關(guān)系圖的實(shí)體分 類(lèi)方法,其特征在于所述實(shí)體為公司,所述關(guān)系為商業(yè)關(guān)系,以及所 述類(lèi)別為產(chǎn)業(yè)。
全文摘要
本發(fā)明提出了一種基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備和方法。在指定時(shí)間段內(nèi)的每一個(gè)時(shí)序關(guān)系圖中,節(jié)點(diǎn)表示實(shí)體,節(jié)點(diǎn)間的連線表示相應(yīng)時(shí)間單位上的實(shí)體間關(guān)系。本發(fā)明的基于時(shí)序關(guān)系圖的實(shí)體分類(lèi)設(shè)備包括時(shí)序關(guān)系圖聚類(lèi)裝置,用于對(duì)每一個(gè)時(shí)序關(guān)系圖中的節(jié)點(diǎn)進(jìn)行聚類(lèi),生成時(shí)序的相應(yīng)時(shí)間單位上的節(jié)點(diǎn)聚類(lèi)結(jié)果;以及聚類(lèi)結(jié)果后處理裝置,用于對(duì)時(shí)序關(guān)系圖聚類(lèi)裝置所生成的所有時(shí)序的相應(yīng)時(shí)間單位上的節(jié)點(diǎn)聚類(lèi)結(jié)果進(jìn)行后處理,生成最終分類(lèi)完成的節(jié)點(diǎn)與關(guān)系。
文檔編號(hào)G06F19/00GK101425066SQ20071016920
公開(kāi)日2009年5月6日 申請(qǐng)日期2007年11月2日 優(yōu)先權(quán)日2007年11月2日
發(fā)明者福島俊一, 胡長(zhǎng)建, 許荔秦 申請(qǐng)人:日電(中國(guó))有限公司