亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種互聯(lián)網(wǎng)數(shù)據(jù)聚類方法及系統(tǒng)與流程

文檔序號:12733658閱讀:403來源:國知局
一種互聯(lián)網(wǎng)數(shù)據(jù)聚類方法及系統(tǒng)與流程

本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及一種互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法及系統(tǒng)。



背景技術(shù):

隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘領(lǐng)域中面臨的數(shù)據(jù)變得越來越復(fù)雜。尤其是互聯(lián)網(wǎng)文本數(shù)據(jù),除了數(shù)量巨大之外,由矢量空間模型(Vector Space Model)構(gòu)建的文本數(shù)據(jù)還具有超高的維度和稀疏度,現(xiàn)有的數(shù)據(jù)挖掘聚類算法,如k-means、層次聚類、普聚類等應(yīng)用于文本聚類時,普遍存在不足和局限。

針對高維稀疏數(shù)據(jù)的子空間聚類問題,學(xué)術(shù)界提出了許多相關(guān)的子空間聚類算法(Subspace Clustering),軟子空間聚類算法是其中的一類。依據(jù)加權(quán)的層數(shù)不同,軟子空間聚類算法可以分為單層軟子空間聚類算法和雙層軟子空間聚類算法。EW-k-means是典型的單層軟子空間聚類算法。它假設(shè)特征集在每個聚類簇上都包含一組權(quán)重,權(quán)重大小由特征對該聚類簇形成的貢獻大小決定。FG-k-means是由陳小軍等人在2012年提出來的一種雙層軟子空間聚類算法,它引入了特征組的概念,在組與特征上同時加權(quán),在對超高維稀疏數(shù)據(jù)進行聚類時,效果明顯優(yōu)于單層軟子空間聚類算法。它針對特征空間包含分組信息的數(shù)據(jù)進行聚類,特征空間定義如下:

1)設(shè)訓(xùn)練數(shù)據(jù)集為X={x1,x2,…,xN},其中xi∈Rd(1≤i≤N)表示數(shù)據(jù)集中第i個樣本;

2)上的特征集為V={v1,v2,…,vd},中的特征包含于組集合G={G1,G2,…,Gk}中且滿足

FG-k-means算法需在以上形式的數(shù)據(jù)集上找出K個聚類簇,同時尋找每個聚類簇在組以及特征上對應(yīng)子空間。

現(xiàn)有的FG-k-means算法在聚類性能上優(yōu)于其他算法,但是還存在如下問題:FG-k-means算法需要使用特征組的信息,來完成雙層聚類優(yōu)化的目的,但是一般的文本數(shù)據(jù)中不會提供此類信息,限制了其應(yīng)用的范圍;FG-k-means存在初始中心點選取不同而導(dǎo)致的聚類結(jié)果的不穩(wěn)定性的問題。



技術(shù)實現(xiàn)要素:

本發(fā)明提供了一種互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法及系統(tǒng),旨在至少在一定程度上解決現(xiàn)有技術(shù)中的上述技術(shù)問題之一。

本發(fā)明實現(xiàn)方式如下,一種互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法,包括以下步驟:

一種互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法,包括以下步驟:

步驟a:利用主題模型對文本數(shù)據(jù)進行訓(xùn)練,得到各個主題下所有關(guān)鍵詞的概率分布矩陣,并在文本集合中為對關(guān)鍵詞進行分組;

步驟b:根據(jù)關(guān)鍵詞的分組重新組織文本數(shù)據(jù)的特征集,得到包含關(guān)鍵詞分組特征信息的新的文檔數(shù)據(jù);

步驟c:在包含關(guān)鍵詞分組信息的新文檔數(shù)據(jù)上運行雙層軟子空間聚類算法,生成聚類中心矩陣和樣本歸屬矩陣;

步驟d:重復(fù)n次步驟a至步驟c,得到多個聚類結(jié)果;

步驟e:在模型集合上運行聚類集成算法,將多個聚類結(jié)果進行集成,得到最終的聚類結(jié)果。

本發(fā)明實施例采取的技術(shù)方案還包括:在所述步驟a中,在主題模型中設(shè)置主題數(shù)量、聚類集成模型數(shù)據(jù)量和聚類簇的數(shù)量。

本發(fā)明實施例采取的技術(shù)方案還包括:在所述步驟a中,利用主題模型對文本數(shù)據(jù)進行訓(xùn)練時,在文本數(shù)據(jù)集上運行設(shè)置的相應(yīng)主題數(shù)量的主題模型算法。

本發(fā)明實施例采取的技術(shù)方案還包括:在所述步驟c中,所述雙層軟子空間聚類算法采用FG-k-means算法。

本發(fā)明實施例采取的技術(shù)方案還包括:在所述步驟e中,所述將多個聚類結(jié)果進行集成具體包括:將同一數(shù)據(jù)集下的多個聚類結(jié)果進行融合,得到反應(yīng)所述數(shù)據(jù)集內(nèi)在結(jié)構(gòu)的劃分。

本發(fā)明實例采取的另一技術(shù)方案為:一種互聯(lián)網(wǎng)文本數(shù)據(jù)聚類系統(tǒng),包括文本數(shù)據(jù)訓(xùn)練模塊、文本數(shù)據(jù)組織模塊、文檔數(shù)據(jù)計算模塊、聚類結(jié)果循環(huán)模塊和聚類結(jié)果集成模塊,所述文本數(shù)據(jù)訓(xùn)練模塊用于利用主題模型對文本數(shù)據(jù)進行訓(xùn)練,得到各個主題下所有關(guān)鍵詞的概率分布矩陣,并在文本集合中為對關(guān)鍵詞進行分組;所述文本數(shù)據(jù)組織模塊用于根據(jù)關(guān)鍵詞的分組重新組織文本數(shù)據(jù)的特征集,得到包含關(guān)鍵詞分組特征信息的新的文檔數(shù)據(jù);所述文檔數(shù)據(jù)計算模塊在包含關(guān)鍵詞分組信息的新文檔數(shù)據(jù)上運行FG-k-means算法,生成聚類中心矩陣和樣本歸屬矩陣;所述聚類結(jié)果循環(huán)模塊用于重復(fù)文本數(shù)據(jù)訓(xùn)練、文本數(shù)據(jù)組織和文檔數(shù)據(jù)計算過程,得到多個聚類結(jié)果;所述聚類結(jié)果集成模塊用于在模型集合上運行聚類集成算法,將多個聚類結(jié)果進行集成,得到最終的聚類結(jié)果。

本發(fā)明實施例采取的技術(shù)方案還包括:所述文本數(shù)據(jù)訓(xùn)練模塊還用于在主題模型中設(shè)置主題數(shù)量、聚類集成模型數(shù)據(jù)量和聚類簇的數(shù)量。

本發(fā)明實施例采取的技術(shù)方案還包括:所述文本數(shù)據(jù)訓(xùn)練模塊在文本集合中為對關(guān)鍵詞進行分組時,關(guān)鍵詞在某個主題下出現(xiàn)的概率較高證明此關(guān)鍵詞可以比較好的表達這個主題,將每個關(guān)鍵詞留在出現(xiàn)概率最高的主題下,得到固定數(shù)量的不同主題。

本發(fā)明實施例采取的技術(shù)方案還包括:所述雙層軟子空間聚類算法是FG-k-means算法。

本發(fā)明實施例采取的技術(shù)方案還包括:所述聚類結(jié)果集成模塊將多個聚類結(jié)果進行集成具體包括:將同一數(shù)據(jù)集下的多個聚類結(jié)果進行融合,得到反應(yīng)所述數(shù)據(jù)集內(nèi)在結(jié)構(gòu)的劃分。

本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法及系統(tǒng)利用主題模型提供的主題信息作為FG-k-means算法的特征組信息,使得本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法及系統(tǒng)能夠從文本信息中自動提取特征組信息,從而規(guī)避了FG-k-means算法本身的限制;另外,本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法及系統(tǒng)融合了主題模型和特征組K均值的聚類集成方法,能有效降低FG-k-means算法的不穩(wěn)定性。

附圖說明

圖1是本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法的流程圖;

圖2是本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法的過程示意圖;

圖3是本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類系統(tǒng)的結(jié)構(gòu)示意圖。

具體實施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

請參閱圖1,是本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法的流程圖。本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法包括以下步驟:

步驟100:利用主題模型對文本數(shù)據(jù)進行訓(xùn)練,得到各個主題下所有關(guān)鍵詞的概率分布矩陣,并在文本集合中為對關(guān)鍵詞進行分組;

在步驟100中,可以在主題模型中設(shè)置主題數(shù)量、聚類集成模型數(shù)據(jù)量和聚類簇的數(shù)量;在文本集合中為對關(guān)鍵詞進行分組時,關(guān)鍵詞在某個主題下出現(xiàn)的概率較高證明此關(guān)鍵詞可以比較好的表達這個主題,將每個關(guān)鍵詞留在出現(xiàn)概率最高的主題下,這樣就得到固定數(shù)量的不同主題。利用主題模型對文本數(shù)據(jù)進行訓(xùn)練時,在數(shù)據(jù)集上運行設(shè)置的相應(yīng)主題數(shù)量的主題模型算法。

步驟200:根據(jù)關(guān)鍵詞的分組重新組織文本數(shù)據(jù)的特征集,得到包含關(guān)鍵詞分組特征信息的新的文檔數(shù)據(jù);

在步驟200中,依據(jù)和進行關(guān)鍵詞過濾分組,并產(chǎn)生帶有組信息的訓(xùn)練數(shù)據(jù)集合。

步驟300:在包含關(guān)鍵詞分組信息的新文檔數(shù)據(jù)上運行FG-k-means算法,生成聚類中心矩陣和樣本歸屬矩陣;

步驟400:重復(fù)n次步驟100至步驟300,得到多個聚類結(jié)果;

在步驟400中,重復(fù)的次數(shù)可以為n次,n大于等于2,n可以實際的需求進行設(shè)定和更改。

步驟500:在模型集合上運行聚類集成算法,將多個聚類結(jié)果進行集成,得到最終的聚類結(jié)果。

在步驟500中,將同一數(shù)據(jù)集下的多個聚類結(jié)果進行融合,得到能較好反應(yīng)該數(shù)據(jù)集內(nèi)在結(jié)構(gòu)的劃分,聚類集成可有效降低數(shù)據(jù)集中異常點對聚類結(jié)果的影響,提升聚類質(zhì)量。

請參閱圖2,是本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法的過程示意圖。本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法的邏輯過程為:

請參閱圖3,是本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類系統(tǒng)的結(jié)構(gòu)示意圖。本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類系統(tǒng)包括文本數(shù)據(jù)訓(xùn)練模塊、文本數(shù)據(jù)組織模塊、文檔數(shù)據(jù)計算模塊、聚類結(jié)果循環(huán)模塊和聚類結(jié)果集成模塊。

文本數(shù)據(jù)訓(xùn)練模塊用于利用主題模型對文本數(shù)據(jù)進行訓(xùn)練,得到各個主題下所有關(guān)鍵詞的概率分布矩陣,并在文本集合中為對關(guān)鍵詞進行分組??梢栽谥黝}模型中設(shè)置主題數(shù)量、聚類集成模型數(shù)據(jù)量和聚類簇的數(shù)量;在文本集合中為對關(guān)鍵詞進行分組時,關(guān)鍵詞在某個主題下出現(xiàn)的概率較高證明此關(guān)鍵詞可以比較好的表達這個主題,將每個關(guān)鍵詞留在出現(xiàn)概率最高的主題下,這樣就得到固定數(shù)量的不同主題。

文本數(shù)據(jù)組織模塊用于根據(jù)關(guān)鍵詞的分組重新組織文本數(shù)據(jù)的特征集,得到包含關(guān)鍵詞分組特征信息的新的文檔數(shù)據(jù)。

文檔數(shù)據(jù)計算模塊在包含關(guān)鍵詞分組信息的新文檔數(shù)據(jù)上運行FG-k-means算法,生成聚類中心矩陣和樣本歸屬矩陣。

聚類結(jié)果循環(huán)模塊用于重復(fù)文本數(shù)據(jù)訓(xùn)練、文本數(shù)據(jù)組織和文檔數(shù)據(jù)計算過程,得到多個聚類結(jié)果。聚類結(jié)果循環(huán)模塊可以重復(fù)n次文本數(shù)據(jù)訓(xùn)練、文本數(shù)據(jù)組織和文檔數(shù)據(jù)計算過程,重復(fù)的次數(shù)可以為n次,n大于等于2,n可以實際的需求進行設(shè)定和更改。

聚類結(jié)果集成模塊用于在模型集合上運行聚類集成算法,將多個聚類結(jié)果進行集成,得到最終的聚類結(jié)果。將同一數(shù)據(jù)集下的多個聚類結(jié)果進行融合,得到能較好反應(yīng)該數(shù)據(jù)集內(nèi)在結(jié)構(gòu)的劃分,聚類集成可有效降低數(shù)據(jù)集中異常點對聚類結(jié)果的影響,提升聚類質(zhì)量。

本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法及系統(tǒng)利用主題模型提供的主題信息作為FG-k-means算法的特征組信息,使得本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法及系統(tǒng)能夠從文本信息中自動提取特征組信息,從而規(guī)避了FG-k-means算法本身的限制;另外,本發(fā)明實施例的互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法及系統(tǒng)融合了主題模型和特征組K均值的聚類集成方法,能有效降低FG-k-means算法的不穩(wěn)定性。

以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1