1.一種互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法,包括以下步驟:
步驟a:利用主題模型對文本數(shù)據(jù)進(jìn)行訓(xùn)練,得到各個主題下所有關(guān)鍵詞的概率分布矩陣,并在文本集合中為對關(guān)鍵詞進(jìn)行分組;
步驟b:根據(jù)關(guān)鍵詞的分組重新組織文本數(shù)據(jù)的特征集,得到包含關(guān)鍵詞分組特征信息的新的文檔數(shù)據(jù);
步驟c:在包含關(guān)鍵詞分組信息的新文檔數(shù)據(jù)上運(yùn)行雙層軟子空間聚類算法,生成聚類中心矩陣和樣本歸屬矩陣;
步驟d:重復(fù)n次步驟a至步驟c,得到多個聚類結(jié)果;
步驟e:在模型集合上運(yùn)行聚類集成算法,將多個聚類結(jié)果進(jìn)行集成,得到最終的聚類結(jié)果。
2.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法,其特征在于,在所述步驟a中,在主題模型中設(shè)置主題數(shù)量、聚類集成模型數(shù)據(jù)量和聚類簇的數(shù)量。
3.根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法,其特征在于,在所述步驟a中,利用主題模型對文本數(shù)據(jù)進(jìn)行訓(xùn)練時,在文本數(shù)據(jù)集上運(yùn)行步驟1中設(shè)置的相應(yīng)主題數(shù)量的主題模型算法。
4.根據(jù)權(quán)利要求3所述的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法,其特征在于,在所述步驟c中,所述雙層軟子空間聚類算法采用FG-k-means算法。
5.根據(jù)權(quán)利要求4所述的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法,其特征在于,在所述步驟e中,所述將多個聚類結(jié)果進(jìn)行集成具體包括:將同一數(shù)據(jù)集下的多個聚類結(jié)果進(jìn)行融合,得到反應(yīng)所述數(shù)據(jù)集內(nèi)在結(jié)構(gòu)的劃分。
6.一種互聯(lián)網(wǎng)文本數(shù)據(jù)聚類系統(tǒng),其特征在于,包括文本數(shù)據(jù)訓(xùn)練模塊、文本數(shù)據(jù)組織模塊、文檔數(shù)據(jù)計(jì)算模塊、聚類結(jié)果循環(huán)模塊和聚類結(jié)果集成模塊,所述文本數(shù)據(jù)訓(xùn)練模塊用于利用主題模型對文本數(shù)據(jù)進(jìn)行訓(xùn)練,得到各個主題下所有關(guān)鍵詞的概率分布矩陣,并在文本集合中為對關(guān)鍵詞進(jìn) 行分組;所述文本數(shù)據(jù)組織模塊用于根據(jù)關(guān)鍵詞的分組重新組織文本數(shù)據(jù)的特征集,得到包含關(guān)鍵詞分組特征信息的新的文檔數(shù)據(jù);所述文檔數(shù)據(jù)計(jì)算模塊在包含關(guān)鍵詞分組信息的新文檔數(shù)據(jù)上運(yùn)行FG-k-means算法,生成聚類中心矩陣和樣本歸屬矩陣;所述聚類結(jié)果循環(huán)模塊用于重復(fù)文本數(shù)據(jù)訓(xùn)練、文本數(shù)據(jù)組織和文檔數(shù)據(jù)計(jì)算過程,得到多個聚類結(jié)果;所述聚類結(jié)果集成模塊用于在模型集合上運(yùn)行聚類集成算法,將多個聚類結(jié)果進(jìn)行集成,得到最終的聚類結(jié)果。
7.根據(jù)權(quán)利要求6所述的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類系統(tǒng),其特征在于,所述文本數(shù)據(jù)訓(xùn)練模塊還用于在主題模型中設(shè)置主題數(shù)量、聚類集成模型數(shù)據(jù)量和聚類簇的數(shù)量。
8.根據(jù)權(quán)利要求6所述的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類系統(tǒng),其特征在于,所述文本數(shù)據(jù)訓(xùn)練模塊在文本集合中為對關(guān)鍵詞進(jìn)行分組時,關(guān)鍵詞在某個主題下出現(xiàn)的概率較高證明此關(guān)鍵詞可以比較好的表達(dá)這個主題,將每個關(guān)鍵詞留在出現(xiàn)概率最高的主題下,得到固定數(shù)量的不同主題。
9.根據(jù)權(quán)利要求6或7所述的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類系統(tǒng),其特征在于,所述雙層軟子空間聚類算法是FG-k-means算法。
10.根據(jù)權(quán)利要求6所述的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類系統(tǒng),其特征在于,所述聚類結(jié)果集成模塊將多個聚類結(jié)果進(jìn)行集成具體包括:將同一數(shù)據(jù)集下的多個聚類結(jié)果進(jìn)行融合,得到反應(yīng)所述數(shù)據(jù)集內(nèi)在結(jié)構(gòu)的劃分。