亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于知識重用的演化聚類方法

文檔序號:6622263閱讀:278來源:國知局
一種基于知識重用的演化聚類方法
【專利摘要】本發(fā)明公開了一種基于知識重用的演化聚類方法,其通過截取t時刻和以時間窗口長度為限制的有限個歷史時刻的數(shù)據(jù),應(yīng)用任一靜態(tài)聚類方法對數(shù)據(jù)進(jìn)行聚類分析,并將聚類結(jié)果生成離散化0-1矩陣,之后按時間衰減加權(quán)離散化0-1矩陣獲得加權(quán)0-1矩陣,最后用靜態(tài)聚類方法對加權(quán)0-1矩陣進(jìn)行靜態(tài)聚類分析,獲得t時刻的演化聚類結(jié)果。本發(fā)明是通過融合歷史時刻的多時間截面靜態(tài)聚類結(jié)果,形成知識積累;從短期來看,可以消除數(shù)據(jù)噪音提高聚類準(zhǔn)確率,從長期來看,可以防止數(shù)據(jù)擾動保持聚類的穩(wěn)定性。
【專利說明】一種基于知識重用的演化聚類方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及屬于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域,特別涉及一種基于知識重用的演化聚 類方法,用于多時間截面數(shù)據(jù)集的演化聚類分析,并可防止數(shù)據(jù)擾動、抵抗數(shù)據(jù)噪音。

【背景技術(shù)】
[0002] 數(shù)據(jù)質(zhì)量指數(shù)據(jù)滿足明確或隱含需求程度的指標(biāo),是對于現(xiàn)實(shí)世界的真實(shí)寫照。 數(shù)據(jù)質(zhì)量問題不僅僅指出現(xiàn)不正確的數(shù)據(jù),還指數(shù)據(jù)不一致性問題。隨著數(shù)據(jù)量的增加,數(shù) 據(jù)的內(nèi)部一致性問題變得極為重要,是廣泛存在于各學(xué)科數(shù)據(jù)使用中的一個主題。噪聲作 為測量誤差的隨機(jī)部分,它可能涉及到值的失真或加入了偽造的對象數(shù)據(jù)。
[0003] 傳統(tǒng)的靜態(tài)聚類方法只能針對單一時間截面的數(shù)據(jù)進(jìn)行聚類,無法處理數(shù)據(jù)演化 過程中可能出現(xiàn)的抖動和數(shù)據(jù)噪音。現(xiàn)有的演化聚類方法只能針對t時刻和前一時刻的動 態(tài)數(shù)據(jù)的靜態(tài)聚類結(jié)果進(jìn)行聚類融合,知識利用程度不高。同時,這些模型往往需要設(shè)定參 數(shù),求解過程也極為復(fù)雜。另外,現(xiàn)有分析對于靜態(tài)聚類結(jié)果的數(shù)量變化十分敏感,針對演 化過程中點(diǎn)的變化情況也沒有較好的應(yīng)對策略。
[0004] 鑒于上述描述,本發(fā)明提供一種基于知識重用的演化聚類方法,其為一種面向動 態(tài)變化數(shù)據(jù)的聚類方法,廣泛應(yīng)用在社區(qū)識別、金融產(chǎn)品分析等應(yīng)用領(lǐng)域,基于知識重用的 演化聚類方法是通過融合歷史時刻的多時間截面聚類結(jié)果,形成知識積累;短期來看,可以 消除數(shù)據(jù)噪音提高聚類準(zhǔn)確率,從長期來看,可以防止數(shù)據(jù)擾動保持聚類的穩(wěn)定性。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于提供一種基于知識重用的演化聚類方法,本發(fā)明所述基于知識 重用的演化聚類方法是通過融合歷史時刻的多時間截面靜態(tài)聚類結(jié)果,形成知識積累,以 時間為軸構(gòu)建出知識重用框架,從短期來看,可以消除數(shù)據(jù)噪音提高聚類準(zhǔn)確率,從長期來 看,可以防止數(shù)據(jù)擾動保持聚類的穩(wěn)定性。
[0006] 為了實(shí)現(xiàn)上述目的及一些其他目的,本發(fā)明提供的技術(shù)方案為:
[0007] -種基于知識重用的演化聚類方法,其特征在于,包括以下步驟:
[0008] 步驟一、截取數(shù)據(jù)庫中動態(tài)社區(qū)中或者金融產(chǎn)品中t時刻η個樣本的數(shù)據(jù)作為基 礎(chǔ)數(shù)據(jù);
[0009] 步驟二、設(shè)定時間窗口長度為k,k < 10,若t-k < 0,則按相同時間間隔連續(xù)跟蹤 截取η個樣本的t-ι個單時間窗口的變化數(shù)據(jù),應(yīng)用任一靜態(tài)聚類方法將獲得的t時刻的 基礎(chǔ)數(shù)據(jù)和t-Ι個單時間窗口的變化數(shù)據(jù)進(jìn)行分析獲得包括樣本數(shù)η,η個樣本所屬聚類數(shù) m以及η個樣本與所屬聚類的對應(yīng)關(guān)系的t個靜態(tài)聚類結(jié)果,并將t個靜態(tài)聚類結(jié)果分別轉(zhuǎn) 化為對應(yīng)t個的離散化0-1矩陣;
[0010] 步驟三、若t-k > 0,則按相同時間間隔連續(xù)跟蹤截取η個樣本的k-ι個單時間窗 口的變化數(shù)據(jù),應(yīng)用任一靜態(tài)聚類方法將獲得的t時刻的基礎(chǔ)數(shù)據(jù)和k-Ι個單時間窗口的 變化數(shù)據(jù)進(jìn)行分析獲得包括樣本數(shù)η,η個樣本所屬聚類數(shù)m以及η個樣本與所屬聚類的對 應(yīng)關(guān)系的k個靜態(tài)聚類結(jié)果,并將k個靜態(tài)聚類結(jié)果分別轉(zhuǎn)化為對應(yīng)的k個離散化0-1矩 陣;
[0011] 步驟四、通過時間順序?qū)⒉襟E二的t個的離散化0-1矩陣或者步驟三的k個離散 化0-1矩陣加權(quán)獲得加權(quán)0-1矩陣I或II ;
[0012] 步驟五、最后應(yīng)用所述靜態(tài)聚類分析所述加權(quán)0-1矩陣I或II,剔除其中的數(shù)據(jù)噪 音,獲得最終動態(tài)數(shù)據(jù)的演化聚類結(jié)果,修正t時刻的靜態(tài)聚類結(jié)果,明確η個樣本在動態(tài) 社區(qū)中或者金融產(chǎn)品中的所屬聚類,其中,t> 1,η> 1以及m> 1。
[0013] 優(yōu)選的是,所述步驟三中將靜態(tài)聚類結(jié)果生成離散化o-l矩陣具體方法為:矩陣 中"行"代表樣本,"列"代表該時刻的聚類,矩陣中每一行向量代表樣本在對應(yīng)聚類中是否 出現(xiàn),出現(xiàn)為1,否則為0。
[0014] 優(yōu)選的是,所述步驟三中將靜態(tài)聚類結(jié)果生成離散化0-1矩陣具體方法中當(dāng)生成 離散化0-1矩陣時,如果出現(xiàn)了與靜態(tài)聚類結(jié)果中不同的樣本則在矩陣中相應(yīng)"行"和"列" 均記為0。
[0015] 優(yōu)選的是,步驟四中獲得加權(quán)0-1矩陣,其中,權(quán)重值設(shè)置為以t時刻的權(quán)重值為 最大,之前的單個時間窗口的權(quán)重值逐漸減小,加權(quán)方法為:所述"行"不變,所述"列"相接。
[0016] 優(yōu)選的是,所述步驟三中相鄰兩個單時間窗口的時間間隔值為任何時間單位的1。
[0017] 優(yōu)選的是,所述步驟二中t個靜態(tài)聚類結(jié)果分別或者步驟三中k個靜態(tài)聚類結(jié)果 會儲存在數(shù)據(jù)庫中形成以時間為軸的知識重用框架。
[0018] 優(yōu)選的是,當(dāng)服務(wù)器檢測到在分析同一個動態(tài)社區(qū)或者金融產(chǎn)品中用到儲存在數(shù) 據(jù)庫中相同時刻的知識重用框架的靜態(tài)聚類結(jié)果時,可直接從數(shù)據(jù)庫中調(diào)取相應(yīng)的靜態(tài)聚 類結(jié)果。
[0019] 優(yōu)選的是,所述動態(tài)社區(qū)可以為"新浪微博",所述樣本為"新浪微博用戶",所述聚 類為"新浪微博社團(tuán)",所述金融產(chǎn)品可以為"股票市場",所述樣本為不同的"股票",所述聚 類為按價(jià)格高低分成的"價(jià)格區(qū)"。
[0020] 優(yōu)選的是,還包括:
[0021] 步驟一、截取數(shù)據(jù)庫中"新浪微博" t時刻η個"新浪微博用戶"的數(shù)據(jù)作為基礎(chǔ)數(shù) 據(jù);
[0022] 步驟二、設(shè)定時間窗口長度為k,k < 10,若t_k < 0,則按相同時間間隔連續(xù)跟蹤 截取η個樣本的t-Ι個單時間窗口的變化數(shù)據(jù),應(yīng)用任一靜態(tài)聚類方法將獲得的t時刻的 基礎(chǔ)數(shù)據(jù)和t-Ι個單時間窗口的變化數(shù)據(jù)進(jìn)行分析獲得包括η個"新浪微博用戶"的數(shù)量, η個"新浪微博用戶"屬于哪個"新浪微博社團(tuán)",以及所具有的m個"新浪微博社團(tuán)"數(shù)量的 對應(yīng)關(guān)系的t個靜態(tài)聚類結(jié)果,并將t個靜態(tài)聚類結(jié)果分別轉(zhuǎn)化為對應(yīng)t個的離散化0-1 矩陣;
[0023] 步驟三、若t-k > 0,則按相同時間間隔連續(xù)跟蹤截取η個樣本的k-Ι個單時間窗 口的變化數(shù)據(jù),應(yīng)用任一靜態(tài)聚類方法將獲得的t時刻的基礎(chǔ)數(shù)據(jù)和k-Ι個單時間窗口的 變化數(shù)據(jù)進(jìn)行分析獲得包括η個"新浪微博用戶"的數(shù)量,η個"新浪微博用戶"屬于哪個 "新浪微博社團(tuán)",以及所具有的m個"新浪微博社團(tuán)"數(shù)量的對應(yīng)關(guān)系的k個靜態(tài)聚類結(jié)果, 并將k個靜態(tài)聚類結(jié)果分別轉(zhuǎn)化為對應(yīng)的k個離散化0-1矩陣;
[0024] 步驟四、通過時間順序?qū)⒉襟E二的t個的離散化0-1矩陣或者步驟三的k個離散 化0-1矩陣加權(quán)獲得加權(quán)0-1矩陣I或II,其中,具體方法為矩陣中"行"代表"新浪微博 用戶","列"代表k時刻的"新浪微博社團(tuán)",矩陣中每一行向量代表"新浪微博用戶"在對應(yīng) "新浪微博社團(tuán)"中是否出現(xiàn),出現(xiàn)為1,否則為0 ;
[0025] 步驟五、最后應(yīng)用所述靜態(tài)聚類分析所述加權(quán)0-1矩陣I或II,剔除其中的數(shù)據(jù)噪 音,獲得最終動態(tài)數(shù)據(jù)的演化聚類結(jié)果,修正t時刻的靜態(tài)聚類結(jié)果,明確η個"新浪微博用 戶"在"新浪微博"中所屬的"新浪微博社團(tuán)",其中,t> 1,η> 1以及m> 1。
[0026] 本發(fā)明所提供基于知識重用的演化聚類方法的有益效果是:
[0027] 本發(fā)明所述基于知識重用的演化聚類方法是通過融合歷史時刻的多時間截面靜 態(tài)聚類結(jié)果,形成知識積累,以時間為軸構(gòu)建出知識重用框架,在獲取某一歷史時刻的聚類 結(jié)果時,不用重復(fù)統(tǒng)計(jì),可以直接從數(shù)據(jù)庫中調(diào)取知識重用框架中的靜態(tài)聚類結(jié)果,節(jié)省時 間,從短期來看,可以消除數(shù)據(jù)噪音提高聚類準(zhǔn)確率,從長期來看,可以防止數(shù)據(jù)擾動保持 聚類的穩(wěn)定性。本發(fā)明利用知識重用概念構(gòu)建演化聚類算法,能夠融合多個時間截面的知 識信息,大大提高了聚類的準(zhǔn)確性;本發(fā)明還能根據(jù)t時刻樣本的移入和移出情況,自動調(diào) 整0-1矩陣,具有一定的擴(kuò)展性,并且當(dāng)在將靜態(tài)聚類結(jié)果生成離散化0-1矩陣中,如果生 成離散化0-1矩陣時出現(xiàn)了與靜態(tài)聚類結(jié)果中不同的樣本則在矩陣中相應(yīng)"行"和,列"均 記為〇,去除不必要的數(shù)據(jù)干擾;本發(fā)明還通過啟發(fā)式求解策略進(jìn)行演化問題求解,簡單易 行、靈活性強(qiáng)。

【專利附圖】

【附圖說明】
[0028] 圖1為本發(fā)明所述的基于知識重用的演化聚類方法流程圖。
[0029] 圖 2 為 000011. SZ、000055. SZ、600008. SH、600138. SH 和 600742. SH 在 7 月的開盤 價(jià)的走勢圖。
[0030] 圖3為本發(fā)明實(shí)施例2中7月12日分成的5個聚類的股票分布圖。
[0031] 圖4為本發(fā)明實(shí)施例2中不同時刻(時間窗口)每個類包含股票數(shù)目走勢圖。
[0032] 圖5為本發(fā)明實(shí)施例2中相鄰時刻靜態(tài)聚類結(jié)果的相似程度圖。
[0033] 圖6為本發(fā)明實(shí)施例2中相鄰時刻演化聚類結(jié)果的相似程度圖。

【具體實(shí)施方式】
[0034] 下面結(jié)合實(shí)施例,以及結(jié)合附圖,對本發(fā)明做進(jìn)一步的詳細(xì)說明,以令本領(lǐng)域技術(shù) 人員參照說明書文字能夠據(jù)以實(shí)施。
[0035] 如圖1所示,本發(fā)明提供的基于知識重用的演化聚類方法,包括以下步驟:
[0036] 步驟一、截取數(shù)據(jù)庫中動態(tài)社區(qū)或者金融產(chǎn)品t時刻η個樣本的數(shù)據(jù)作為基礎(chǔ)數(shù) 據(jù);
[0037] 步驟二、設(shè)定時間窗口長度為k,k < 10,若t_k < 0,則按相同時間間隔連續(xù)跟蹤 截取η個樣本的t-Ι個單時間窗口的變化數(shù)據(jù),應(yīng)用任一靜態(tài)聚類方法將獲得的t時刻的 基礎(chǔ)數(shù)據(jù)和t-Ι個單時間窗口的變化數(shù)據(jù)進(jìn)行分析獲得包括樣本數(shù)η,η個樣本所屬聚類數(shù) m以及η個樣本與所屬聚類的對應(yīng)關(guān)系的t個靜態(tài)聚類結(jié)果,并將t個靜態(tài)聚類結(jié)果分別轉(zhuǎn) 化為對應(yīng)t個的離散化0-1矩陣;
[0038] 步驟三、若t-k > 0,則按相同時間間隔連續(xù)跟蹤截取η個樣本的k-Ι個單時間窗 口的變化數(shù)據(jù),應(yīng)用任一靜態(tài)聚類方法將獲得的t時刻的基礎(chǔ)數(shù)據(jù)和k-1個單時間窗口的 變化數(shù)據(jù)進(jìn)行分析獲得包括樣本數(shù)η,η個樣本所屬聚類數(shù)m以及η個樣本與所屬聚類的對 應(yīng)關(guān)系的k個靜態(tài)聚類結(jié)果,并將k個靜態(tài)聚類結(jié)果分別轉(zhuǎn)化為對應(yīng)的k個離散化0-1矩 陣;
[0039] 其中,將靜態(tài)聚類結(jié)果生成離散化0-1矩陣具體方法為:矩陣中"行"代表樣本, "列"代表該時刻的聚類,矩陣中每一行向量代表樣本在對應(yīng)聚類中是否出現(xiàn),出現(xiàn)為1,否 則為〇,在次過程中如果出現(xiàn)了與靜態(tài)聚類結(jié)果中不同的樣本則在矩陣中相應(yīng)"行"和"列" 均記為0 ;
[0040] 相鄰兩個單時間窗口的時間間隔值為任何時間單位的1 ;
[0041] 步驟二中t個靜態(tài)聚類結(jié)果分別或者步驟三中k個靜態(tài)聚類結(jié)果會儲存在數(shù)據(jù)庫 中形成以時間為軸的知識重用框架,當(dāng)服務(wù)器檢測到在分析同一個動態(tài)社區(qū)或者金融產(chǎn)品 中用到儲存在數(shù)據(jù)庫中相同時刻的知識重用框架的靜態(tài)聚類結(jié)果時,可直接從數(shù)據(jù)庫中調(diào) 取相應(yīng)的靜態(tài)聚類結(jié)果;
[0042] 步驟四、通過時間順序?qū)⒉襟E二的t個的離散化0-1矩陣或者步驟三的k個離散 化0-1矩陣加權(quán)獲得加權(quán)0-1矩陣I或II,其中,權(quán)重值設(shè)置為以t時刻的權(quán)重值為最大,之 前的單個時間窗口的權(quán)重值逐漸減小,且權(quán)重值為按時間衰減順序設(shè)置,加權(quán)方法為:"行" 不變,"列"相接;
[0043] 步驟五、最后應(yīng)用靜態(tài)聚類分析加權(quán)0-1矩陣I或II,剔除其中的數(shù)據(jù)噪音,獲得 最終動態(tài)數(shù)據(jù)的演化聚類結(jié)果,修正t時刻的靜態(tài)聚類結(jié)果,明確η個樣本在動態(tài)社區(qū)中或 者金融產(chǎn)品中的所屬聚類,其中,t > 1,η > 1以及m> 1。
[0044] 動態(tài)社區(qū)可以為"新浪微博",樣本為"新浪微博用戶",聚類為"新浪微博社團(tuán)";所 述金融產(chǎn)品可以為"股票市場",所述樣本為不同的"股票",所述聚類為按價(jià)格高低分成的 "價(jià)格區(qū)"。因此,本發(fā)明基于知識重用的演化聚類方法可以表述為還包括以下步驟:
[0045] 步驟一、截取數(shù)據(jù)庫中"新浪微博" t時刻η個"新浪微博用戶"的數(shù)據(jù)作為基礎(chǔ)數(shù) 據(jù);
[0046] 步驟二、設(shè)定時間窗口長度為k,k < 10,若t_k < 0,則按相同時間間隔連續(xù)跟蹤 截取η個樣本的t-Ι個單時間窗口的變化數(shù)據(jù),應(yīng)用任一靜態(tài)聚類方法將獲得的t時刻的 基礎(chǔ)數(shù)據(jù)和t-Ι個單時間窗口的變化數(shù)據(jù)進(jìn)行分析獲得包括η個"新浪微博用戶"的數(shù)量, η個"新浪微博用戶"屬于哪個"新浪微博社團(tuán)",以及所具有的m個"新浪微博社團(tuán)"數(shù)量的 對應(yīng)關(guān)系的t個靜態(tài)聚類結(jié)果,并將t個靜態(tài)聚類結(jié)果分別轉(zhuǎn)化為對應(yīng)t個的離散化0-1 矩陣;
[0047] 步驟三、若t-k > 0,則按相同時間間隔連續(xù)跟蹤截取η個樣本的k-Ι個單時間窗 口的變化數(shù)據(jù),應(yīng)用任一靜態(tài)聚類方法將獲得的t時刻的基礎(chǔ)數(shù)據(jù)和k-Ι個單時間窗口的 變化數(shù)據(jù)進(jìn)行分析獲得包括η個"新浪微博用戶"的數(shù)量,η個"新浪微博用戶"屬于哪個 "新浪微博社團(tuán)",以及所具有的m個"新浪微博社團(tuán)"數(shù)量的對應(yīng)關(guān)系的k個靜態(tài)聚類結(jié)果, 并將k個靜態(tài)聚類結(jié)果分別轉(zhuǎn)化為對應(yīng)的k個離散化0-1矩陣;
[0048] 步驟四、通過時間順序?qū)⒉襟E二的t個的離散化0-1矩陣或者步驟三的k個離散 化0-1矩陣加權(quán)獲得加權(quán)0-1矩陣I或II,其中,具體方法為矩陣中"行"代表"新浪微博 用戶","列"代表k時刻的"新浪微博社團(tuán)",矩陣中每一行向量代表"新浪微博用戶"在對應(yīng) "新浪微博社團(tuán)"中是否出現(xiàn),出現(xiàn)為1,否則為ο;
[0049] 步驟五、最后應(yīng)用靜態(tài)聚類分析加權(quán)0-1矩陣I或II,剔除其中的數(shù)據(jù)噪音,獲得 最終動態(tài)數(shù)據(jù)的演化聚類結(jié)果,修正t時刻的靜態(tài)聚類結(jié)果,明確η個"新浪微博用戶"在 "新浪微博"中所屬的"新浪微博社團(tuán)",其中,t> 1,η> 1以及m> 1。
[0050] 實(shí)施例1
[0051] 下面以社團(tuán)動態(tài)演化為例,說明本發(fā)明方法:
[0052] 假設(shè)動態(tài)變化個體集合D =[屯,d2, d3, d4, d5],其中φ表示某個動態(tài)變化的個體, 在不同時刻其可能屬于不同的社團(tuán);同時,假設(shè)采取的歷史時刻為k = 3。為求解t時刻的 社團(tuán)演化聚類結(jié)果,需按照如下步驟操作:
[0053] 首先,利用靜態(tài)聚類算法凝聚層次聚類,對k個歷史時刻的個體集合進(jìn)行聚類,以 識別不同時刻,某個個體所屬的社團(tuán)。本例中k = 3,所以需要分別對和t時刻的 個人集合進(jìn)行聚類,假設(shè)得到不同時刻的社團(tuán)劃分結(jié)果為Ct = [1,1,2,2,3],Ct_i = [1,1, 2,2,1],Ct_2 = [1,1,2,2,2];
[0054] 其次,將k個時刻的社團(tuán)劃分結(jié)果Ct,Cg,Ct_ 2分別轉(zhuǎn)化為相應(yīng)的0-1矩陣Ut,Ut_i, Ut_2,矩陣中"行"代表某個個體,"列"代表k個時刻的所有社團(tuán)標(biāo)號,矩陣中每一行向量代 表某個體在對應(yīng)社團(tuán)中是否出現(xiàn),出現(xiàn)為1,否則為0 ;
[0055] 第三,根據(jù)社團(tuán)劃分的時間窗口長度k = 3,分別設(shè)置不同時刻的社團(tuán)劃分 權(quán)重分別為wt = k = 3, wtH = k-Ι = 2, wt_2 = k-2 = 1。進(jìn)行權(quán)重歸一化后,得到 w,=可,77,由此生成的加權(quán)為 2 3 6
[0056]

【權(quán)利要求】
1. 一種基于知識重用的演化聚類方法,其特征在于,包括以下步驟: 步驟一、截取數(shù)據(jù)庫中動態(tài)社區(qū)中或者金融產(chǎn)品中t時刻η個樣本的數(shù)據(jù)作為基礎(chǔ)數(shù) 據(jù); 步驟二、設(shè)定時間窗口長度為k,k < 10,若t-k < 0,則按相同時間間隔連續(xù)跟蹤截取 η個樣本的t-Ι個單時間窗口的變化數(shù)據(jù),應(yīng)用任一靜態(tài)聚類方法將獲得的t時刻的基礎(chǔ) 數(shù)據(jù)和t-Ι個單時間窗口的變化數(shù)據(jù)進(jìn)行分析獲得包括樣本數(shù)η,η個樣本所屬聚類數(shù)m以 及η個樣本與所屬聚類的對應(yīng)關(guān)系的t個靜態(tài)聚類結(jié)果,并將t個靜態(tài)聚類結(jié)果分別轉(zhuǎn)化 為對應(yīng)t個的離散化0-1矩陣; 步驟三、若t-k > 0,則按相同時間間隔連續(xù)跟蹤截取η個樣本的k-Ι個單時間窗口的 變化數(shù)據(jù),應(yīng)用任一靜態(tài)聚類方法將獲得的t時刻的基礎(chǔ)數(shù)據(jù)和k-Ι個單時間窗口的變化 數(shù)據(jù)進(jìn)行分析獲得包括樣本數(shù)η,η個樣本所屬聚類數(shù)m以及η個樣本與所屬聚類的對應(yīng)關(guān) 系的k個靜態(tài)聚類結(jié)果,并將k個靜態(tài)聚類結(jié)果分別轉(zhuǎn)化為對應(yīng)的k個離散化0-1矩陣; 步驟四、通過時間順序?qū)⒉襟E二的t個的離散化0-1矩陣或者步驟三的k個離散化0-1 矩陣加權(quán)獲得加權(quán)0-1矩陣I或II ; 步驟五、最后應(yīng)用所述靜態(tài)聚類分析所述加權(quán)0-1矩陣I或II,剔除其中的數(shù)據(jù)噪音, 獲得最終動態(tài)數(shù)據(jù)的演化聚類結(jié)果,修正t時刻的靜態(tài)聚類結(jié)果,明確η個樣本在動態(tài)社區(qū) 中或者金融產(chǎn)品中的所屬聚類,其中,t> 1,η> 1以及m> 1。
2. 如權(quán)利要求1所述基于知識重用的演化聚類方法,其特征在于,所述步驟三中將靜 態(tài)聚類結(jié)果生成離散化0-1矩陣具體方法為:矩陣中"行"代表樣本,"列"代表該時刻的聚 類,矩陣中每一行向量代表樣本在對應(yīng)聚類中是否出現(xiàn),出現(xiàn)為1,否則為〇。
3. 如權(quán)利要求2所述基于知識重用的演化聚類方法,其特征在于,所述步驟三中將靜 態(tài)聚類結(jié)果生成離散化0-1矩陣具體方法中當(dāng)生成離散化0-1矩陣時,如果出現(xiàn)了與靜態(tài) 聚類結(jié)果中不同的樣本則在矩陣中相應(yīng)"行"和"列"均記為〇。
4. 如權(quán)利要求3所述基于知識重用的演化聚類方法,其特征在于,步驟四中獲得加權(quán) 0-1矩陣,其中,權(quán)重值設(shè)置為以t時刻的權(quán)重值為最大,之前的單個時間窗口的權(quán)重值逐 漸減小,加權(quán)方法為:所述"行"不變,所述"列"相接。
5. 如權(quán)利要求4所述的基于知識重用的演化聚類方法,其特征在于,所述步驟三中相 鄰兩個單時間窗口的時間間隔值為任何時間單位的1。
6. 如權(quán)利要求5所述的基于知識重用的演化聚類方法,其特征在于,所述步驟二中t個 靜態(tài)聚類結(jié)果分別或者步驟三中k個靜態(tài)聚類結(jié)果會儲存在數(shù)據(jù)庫中形成以時間為軸的 知識重用框架。
7. 如權(quán)利要求6所述的基于知識重用的演化聚類方法,其特征在于,當(dāng)服務(wù)器檢測到 在分析同一個動態(tài)社區(qū)或者金融產(chǎn)品中用到儲存在數(shù)據(jù)庫中相同時刻的知識重用框架的 靜態(tài)聚類結(jié)果時,可直接從數(shù)據(jù)庫中調(diào)取相應(yīng)的靜態(tài)聚類結(jié)果。
8. 如權(quán)利要求7所述的基于知識重用的演化聚類方法,其特征在于,所述動態(tài)社區(qū)可 以為"新浪微博",所述樣本為"新浪微博用戶",所述聚類為"新浪微博社團(tuán)";所述金融產(chǎn)品 可以為"股票市場",所述樣本為不同的"股票",所述聚類為按價(jià)格高低分成的"價(jià)格區(qū)"。
9. 如權(quán)利要求8所述的基于知識重用的演化聚類方法,其特征在于,還包括: 步驟一、截取數(shù)據(jù)庫中"新浪微博" t時刻η個"新浪微博用戶"的數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù); 步驟二、設(shè)定時間窗口長度為k,k < 10,若t-k < 0,則按相同時間間隔連續(xù)跟蹤截取 η個樣本的t-Ι個單時間窗口的變化數(shù)據(jù),應(yīng)用任一靜態(tài)聚類方法將獲得的t時刻的基礎(chǔ)數(shù) 據(jù)和t-Ι個單時間窗口的變化數(shù)據(jù)進(jìn)行分析獲得包括η個"新浪微博用戶"的數(shù)量,η個"新 浪微博用戶"屬于哪個"新浪微博社團(tuán)",以及所具有的m個"新浪微博社團(tuán)"數(shù)量的對應(yīng)關(guān) 系的t個靜態(tài)聚類結(jié)果,并將t個靜態(tài)聚類結(jié)果分別轉(zhuǎn)化為對應(yīng)t個的離散化0-1矩陣; 步驟三、若t-k > 0,則按相同時間間隔連續(xù)跟蹤截取η個樣本的k-Ι個單時間窗口的 變化數(shù)據(jù),應(yīng)用任一靜態(tài)聚類方法將獲得的t時刻的基礎(chǔ)數(shù)據(jù)和k-Ι個單時間窗口的變化 數(shù)據(jù)進(jìn)行分析獲得包括η個"新浪微博用戶"的數(shù)量,η個"新浪微博用戶"屬于哪個"新浪 微博社團(tuán)",以及所具有的m個"新浪微博社團(tuán)"數(shù)量的對應(yīng)關(guān)系的k個靜態(tài)聚類結(jié)果,并將 k個靜態(tài)聚類結(jié)果分別轉(zhuǎn)化為對應(yīng)的k個離散化0-1矩陣; 步驟四、通過時間順序?qū)⒉襟E二的t個的離散化0-1矩陣或者步驟三的k個離散化0-1 矩陣加權(quán)獲得加權(quán)0-1矩陣I或II,其中,具體方法為矩陣中"行"代表"新浪微博用戶", "列"代表k時刻的"新浪微博社團(tuán)",矩陣中每一行向量代表"新浪微博用戶"在對應(yīng)"新浪 微博社團(tuán)"中是否出現(xiàn),出現(xiàn)為1,否則為0 ; 步驟五、最后應(yīng)用所述靜態(tài)聚類分析所述加權(quán)0-1矩陣I或II,剔除其中的數(shù)據(jù)噪音, 獲得最終動態(tài)數(shù)據(jù)的演化聚類結(jié)果,修正t時刻的靜態(tài)聚類結(jié)果,明確η個"新浪微博用戶" 在"新浪微博"中所屬的"新浪微博社團(tuán)",其中,t> 1,η> 1以及m> 1。
【文檔編號】G06F17/30GK104156418SQ201410377347
【公開日】2014年11月19日 申請日期:2014年8月1日 優(yōu)先權(quán)日:2014年8月1日
【發(fā)明者】張玉超, 鄧波, 彭甫陽, 李冬紅, 李海龍 申請人:北京系統(tǒng)工程研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1