基于隨機(jī)近鄰嵌入的文本聚類方法
【專利摘要】本發(fā)明公開了一種基于隨機(jī)近鄰嵌入的文本聚類方法,包括以下步驟:對(duì)文本集進(jìn)行預(yù)處理,將文本集表示為標(biāo)準(zhǔn)化詞?文本共現(xiàn)矩陣;通過t?分布隨機(jī)近鄰嵌入(t?SNE)將高維文本數(shù)據(jù)嵌入到低維空間,使高維空間相似度較低的文本對(duì)應(yīng)的低維嵌入點(diǎn)距離較遠(yuǎn),相似度較高的文本對(duì)應(yīng)的低維嵌入點(diǎn)距離較近;將多個(gè)低維嵌入點(diǎn)作為K均值算法的初始質(zhì)心,并根據(jù)低維空間映射點(diǎn)坐標(biāo),采用K均值算法進(jìn)行聚類。解決了因文本高維稀疏特性帶來的維數(shù)災(zāi)難問題,降低了文本數(shù)據(jù)的維數(shù),縮短了聚類算法的運(yùn)行時(shí)間,提高了聚類算法的精度。
【專利說明】
基于隨機(jī)近鄰嵌入的文本聚類方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種文本聚類集成方法,具體地涉及一種基于隨機(jī)近鄰嵌入的文本聚 類方法。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)信息的飛速增長(zhǎng)和搜索引擎等技術(shù)的日趨成熟,人類社會(huì)所面臨的主要 問題已經(jīng)不再是信息匱乏,而是如何提高信息獲取和信息訪問的效率。當(dāng)前,網(wǎng)上的信息絕 大部分以文本形式呈現(xiàn),因此,如何有效組織大規(guī)模文本集已成為一個(gè)極富挑戰(zhàn)的問題。
[0003] 文本/文檔聚類(text/document clustering)依據(jù)著名的聚類假設(shè):同類的文本 相似度較大,而不同類的文本相似度較小。作為一種最主要的無監(jiān)督機(jī)器學(xué)習(xí)方法,聚類不 需要訓(xùn)練,也不需要預(yù)先對(duì)文本手工標(biāo)注類別,因此具有較強(qiáng)的自動(dòng)化處理能力,已經(jīng)成為 對(duì)文本數(shù)據(jù)集進(jìn)行有效組織、摘要和導(dǎo)航的重要手段,引起越來越多的研究人員關(guān)注。文本 聚類典型應(yīng)用包括:①文本聚類可以作為多文本自動(dòng)文摘等自然語(yǔ)言處理應(yīng)用的預(yù)處理步 驟,例如可以對(duì)每天的重要新聞進(jìn)行聚類,對(duì)同主題新聞文檔進(jìn)行冗余消除、信息融合、文 本生成等處理,從而生成簡(jiǎn)明扼要的摘要;②對(duì)搜索引擎返回的結(jié)果進(jìn)行聚類,根據(jù)用戶輸 入的檢索關(guān)鍵詞,對(duì)檢索到的文檔進(jìn)行聚類,并輸出多個(gè)不同類別的簡(jiǎn)要描述,縮小檢索范 圍,使用戶迅速定位到感興趣的主題。③對(duì)用戶感興趣的文檔聚類,發(fā)現(xiàn)用戶的興趣模式, 并用于信息過濾和信息主動(dòng)推薦等服務(wù)。④文本聚類技術(shù)還有助于改善文本分類的結(jié)果。 ⑤數(shù)字圖書館服務(wù)。通過文本聚類方法,將高維空間的文檔映射到二維空間,使得聚類結(jié)果 可視化;⑥文本集合的自動(dòng)整理。
[0004] 由于近義詞及歧義詞的普遍存在,即使具有相同語(yǔ)義的文本數(shù)據(jù)集生成的向量空 間也是高維稀疏的,另外,由于向量空間模型在文本表示能力方面具有局限性,使得現(xiàn)有的 降維技術(shù)面臨小樣本問題,從而給聚類算法帶來挑戰(zhàn)。現(xiàn)有的聚類算法在處理文本數(shù)據(jù)時(shí) 難以同時(shí)兼顧以下兩點(diǎn)要求:(1)聚類精度高;(2)運(yùn)行速度快??傮w來看,速度快的聚類算 法以犧牲精度為代價(jià),而精度高的聚類算法則運(yùn)行緩慢。
【發(fā)明內(nèi)容】
[0005] 針對(duì)上述技術(shù)問題,本發(fā)明目的是:提供一種基于隨機(jī)近鄰嵌入的文本聚類方法, 解決了因文本高維稀疏特性帶來的維數(shù)災(zāi)難問題,降低了文本數(shù)據(jù)的維數(shù),縮短了聚類算 法的運(yùn)行時(shí)間,提高了聚類算法的精度。
[0006] 本發(fā)明的技術(shù)方案是:
[0007] -種基于隨機(jī)近鄰嵌入的文本聚類方法,其特征在于,包括以下步驟:
[0008] S01:對(duì)文本集進(jìn)行預(yù)處理,將文本集表示為標(biāo)準(zhǔn)化詞-文本共現(xiàn)矩陣;
[0009] S02:通過t-分布隨機(jī)近鄰嵌入(t-SNE)將高維文本數(shù)據(jù)嵌入到低維空間,使高維 空間相似度較低的文本對(duì)應(yīng)的低維嵌入點(diǎn)距離較遠(yuǎn),相似度較高的文本對(duì)應(yīng)的低維嵌入點(diǎn) 距離較近;
[0010] S03:將多個(gè)低維嵌入點(diǎn)作為K均值算法的初始質(zhì)心,并根據(jù)低維空間映射點(diǎn)坐標(biāo), 采用Κ均值算法進(jìn)行聚類。
[0011]優(yōu)選的,所述步驟soi中標(biāo)準(zhǔn)化詞-文本共現(xiàn)矩陣的構(gòu)建步驟包括:
[0012] S11:對(duì)文本集進(jìn)行分詞,移除低頻詞,生成特征詞集W;
[00?3] S12:統(tǒng)計(jì)詞Wi在文本向量dj中出現(xiàn)的次數(shù)tij,詞頻tfij = tij/ Σ itij;
[0014] 313:統(tǒng)計(jì)詞^在文本集中的次數(shù)]^,逆文本頻率1(1;^ = 1(^(11/]^),計(jì)算歸一化因 子Sj=( Sni=1(tfijX idfi)2)1/2,n為文本集的大??;
[0015] S14:計(jì)算加權(quán)文本向量u· j:Uij = tfij X idfi X Sj,構(gòu)建標(biāo)準(zhǔn)化詞-文本共現(xiàn)矩陣A: A · j = u · j 〇
[0016] 優(yōu)選的,所述步驟S02包括以下步驟:
[0017] S21:高維數(shù)據(jù)點(diǎn)Xl,Xj之間的距離《=|χη|2被轉(zhuǎn)換為低維映射點(diǎn)的聯(lián)合概率分 布Ρ,其元素 Ρυ為:
,././~·=〇,〇表示高斯函數(shù)的方差, 被表示第k個(gè)文本與第1個(gè)文本之間的距離;
[0018] S22:定義高維數(shù)據(jù)點(diǎn)Xi,Xj所對(duì)應(yīng)的低維映射點(diǎn)yi與yj的聯(lián)合概率qij,用qij來建模 Pii,兩個(gè)分布P,Q的差異以KL散度衡量:
[0022]使用1個(gè)自由度的t分布測(cè)量yi,yj之間的相似度不同:
[0024] 采用重尾測(cè)量低維映射點(diǎn)之間的相似度,使得相似度較低的點(diǎn)在映射空間下的距 離較大,而相似度較高的點(diǎn)在映射空間下的距離較小。
[0025] 優(yōu)選的,所述步驟S03中K均值算法初始質(zhì)心的計(jì)算包括以下步驟:
[0026] 求出整個(gè)文本集Χ= {X1,X2, · · ·,χη}的質(zhì)心向量uo:
[0027] · 9
[0028] 當(dāng)l<k<K時(shí),其中k為初始質(zhì)心的個(gè)數(shù),Κ為簇的個(gè)數(shù),查找與uo及前k-1個(gè)初始質(zhì) 心UQ,U1,…,Uk-1距離之和最大的數(shù)據(jù)點(diǎn)Xi,將其作為第k個(gè)均值向量,設(shè)d(UQ,Xi)表示UQ與Xi 的距離,
[0029] 與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)是:
[0030] 1.解決了因文本高維稀疏特性帶來的維數(shù)災(zāi)難問題,降低了文本數(shù)據(jù)的維數(shù),縮 短了聚類算法的運(yùn)行時(shí)間,提高了聚類算法的精度。
[0031] 2.本發(fā)明的K均值算法初始質(zhì)心的選取方法,使得運(yùn)算結(jié)果更加穩(wěn)定。
【附圖說明】
[0032]下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述:
[0033] 圖1為本發(fā)明基于隨機(jī)近鄰嵌入的文本聚類方法的流程圖;
[0034] 圖2為本發(fā)明基于隨機(jī)近鄰嵌入的文本聚類方法的標(biāo)準(zhǔn)化詞-文本共現(xiàn)矩陣的構(gòu) 造流程圖;
[0035]圖3為本發(fā)明基于隨機(jī)近鄰嵌入的文本聚類方法的t-SNE流程圖;
[0036] 圖4為本發(fā)明基于隨機(jī)近鄰嵌入的文本聚類方法的K均值算法初始質(zhì)心選取方法 流程圖。
【具體實(shí)施方式】
[0037] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明了,下面結(jié)合【具體實(shí)施方式】并參 照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)該理解,這些描述只是示例性的,而并非要限制本發(fā) 明的范圍。此外,在以下說明中,省略了對(duì)公知結(jié)構(gòu)和技術(shù)的描述,以避免不必要地混淆本 發(fā)明的概念。
[0038] 實(shí)施例:
[0039] 如圖1所示,一種基于隨機(jī)近鄰嵌入的文本聚類方法,包括以下步驟:
[0040] S01:對(duì)文本集進(jìn)行預(yù)處理,將文本集表示為標(biāo)準(zhǔn)化詞-文本共現(xiàn)矩陣;
[0041] S02:通過t-分布隨機(jī)近鄰嵌入(t-SNE)將高維文本數(shù)據(jù)嵌入到低維空間,使高維 空間相似度較低的文本對(duì)應(yīng)的低維嵌入點(diǎn)距離較遠(yuǎn),相似度較高的文本對(duì)應(yīng)的低維嵌入點(diǎn) 距離較近;
[0042] S03:將多個(gè)低維嵌入點(diǎn)作為K均值算法的初始質(zhì)心,并根據(jù)低維空間映射點(diǎn)坐標(biāo), 采用K均值算法進(jìn)行聚類。
[0043] 標(biāo)準(zhǔn)化詞-文本共現(xiàn)矩陣的構(gòu)建如圖2所示,步驟包括:
[0044] S11:對(duì)文本集進(jìn)行分詞,移除低頻詞,生成特征詞集W;
[0045] S12:統(tǒng)計(jì)詞Wi在文本向量dj中出現(xiàn)的次數(shù)tij,詞頻tfij = tij/ Σ itij;
[0046] 313:統(tǒng)計(jì)詞^在文本集中的次數(shù)]^,逆文本頻率1(1;^ = 1(^(11/]^),計(jì)算歸一化因 子Sj=( Sni=1(tfijX idfi)2)1/2,n為文本集的大??;
[0047] S14:計(jì)算加權(quán)文本向量u · j: Uij = tf ij X idf i X sj,構(gòu)建標(biāo)準(zhǔn)化詞-文本共現(xiàn)矩陣A: A · j = u · j 〇
[0048]隨機(jī)近鄰嵌入(SNE)用條件概率表示原始高維歐氏空間中的數(shù)據(jù)點(diǎn)之間的相似 度,即數(shù)據(jù)點(diǎn)^到^的相似度為條件概率PA,它表示當(dāng)近鄰點(diǎn)的概率密度服從中心在^的 高斯分布時(shí),Xi將Xj選為近鄰的概率,當(dāng)Xi,Xj距離相對(duì)較小時(shí),Pj|i相對(duì)大,當(dāng)Xi,Xj遠(yuǎn)離時(shí), Pj I i趨于無窮小。條件概率Pj I i根據(jù)下式計(jì)算:
[0050]其中,〇i為中心在Xi的高斯分布的方差。
[0051]不妨假設(shè)數(shù)據(jù)點(diǎn)xdPXj被映射到低維空間的嵌入點(diǎn)ydPyp高斯分布的方差〇1=1/ 21/2,則y^ljyi的條件概率叫1:
[OO53]假設(shè)低維映射點(diǎn)為Y={yi,. . .,yn},當(dāng)映射點(diǎn)yi和yj正確建模數(shù)據(jù)點(diǎn)xi和xj之間的 相似度時(shí),條件概率qj I i = Pj I i。為了最小化條件概率qj I i到Pj I i的差異,SNE引入KL散度 (Kullback-Leibler divergences)建模qj|i到pj|i的誤匹配,并最小化所有點(diǎn)的KL散度之 和,代價(jià)函數(shù)C定義如下:
[0055]其中Pi表示給定數(shù)據(jù)點(diǎn)^相對(duì)于所有其他數(shù)據(jù)點(diǎn)的條件概率分布,Qi表示映射點(diǎn) yi相對(duì)于所有其他映射點(diǎn)的條件概率分布。
[0056] SNE根據(jù)預(yù)先設(shè)定的復(fù)雜度因子(perplexity)執(zhí)行二元搜索,獲取能生成Pi的〇i, 復(fù)雜度因子定義如下:
[0057] Pe/7H6) = 2〃W
[0058] 其中H(Pi)為Pi的熵:
[0059] Η(Ρ?) = -Σ jPj|ilog2Pj|i
[0060] SNE采用梯度下降方法最小化式(2)中的代價(jià)函數(shù):
[0062]梯度下降通過從以原點(diǎn)為中心點(diǎn),具有較小方差的等高斯分布隨機(jī)采樣映射點(diǎn)進(jìn) 行初始化,為了加速優(yōu)化過程,避免陷入較差的局部最小值,在梯度中加入一個(gè)相對(duì)大的動(dòng) 量項(xiàng)。具體地,在梯度搜索的每次迭代中,為了確定映射點(diǎn)坐標(biāo)變化,當(dāng)前的梯度被加到上 一步梯度的指數(shù)衰減和。帶動(dòng)量項(xiàng)的梯度更新規(guī)則為:
[0064] 其中,Y(t)表示第t次迭代的解,η表示學(xué)習(xí)率,a(t)表示第t次迭代的動(dòng)量項(xiàng)。
[0065] t-分布隨機(jī)近鄰嵌入(t-SNE)建立在SNE基礎(chǔ)上,高維數(shù)據(jù)點(diǎn)Xi,Xj之間的距離 =lh-%||2被轉(zhuǎn)換為低維映射點(diǎn)的聯(lián)合概率分布p,其元素 pi」為:
細(xì)^所:1句冰產(chǎn)0,〇表示高斯函數(shù)的方差,起表示第1^個(gè)文本 與第1個(gè)文本之間的距離。
[0066]為了計(jì)算低維空間映射點(diǎn)之間的相似度,t-SNE定義數(shù)據(jù)點(diǎn)xdPXj在低維空間的嵌 入點(diǎn)yi和yj的聯(lián)合概率qij,用qij來建模Ρ?,兩個(gè)分布P,Q的差異以KL散度衡量:
[0068]上式(4)的梯度為:
[0070]與SNE使用高斯函數(shù)測(cè)量yi,yj之間的相似度不同,t-SNE使用1個(gè)自由度的t分布測(cè) 量yi,yj之間的相似度不同:
[0072]通過采用重尾測(cè)量低維映射點(diǎn)之間的相似度,使得相似度較低的點(diǎn)在映射空間下 的距離較大,而相似度較高的點(diǎn)在映射空間下的距離較小。
[0073] t-SNE的流程圖如圖3所示,其中梯度迭代次數(shù)T一般設(shè)為1000;當(dāng)?shù)螖?shù)t〈250 時(shí),動(dòng)量項(xiàng)a (t) = 0.5,當(dāng)t彡250時(shí),a (t) = 0.8;學(xué)習(xí)率η初值為1 〇〇,每次迭代結(jié)束根據(jù)自適 應(yīng)學(xué)習(xí)率機(jī)制進(jìn)行更新。
[0074] Κ均值(K-means)算法是使用最廣泛的聚類算法,其準(zhǔn)則函數(shù)為最小化誤差平方和 作為。對(duì)于某個(gè)簇&,若其包含nk個(gè)對(duì)象,質(zhì)心向量為uk,則該簇中所有對(duì)象相對(duì)于u k的誤差 (距離)平方和:
[0076]假設(shè)有K個(gè)簇,則誤差平方和準(zhǔn)則函數(shù)為:
[0078]對(duì)于給定的數(shù)據(jù)集X,不同的劃分會(huì)產(chǎn)生不同的均值向量Uk,即可以把準(zhǔn)則函數(shù)E 看作是K個(gè)p維向量uk的函數(shù),對(duì)式(7)求導(dǎo)并令導(dǎo)數(shù)為0,得到
[0080]
'即uk為簇Ck中所有點(diǎn)的均值向量。這樣聚類分析問題就可 以歸結(jié)為如何找到一組最優(yōu)的均值向量m'u/,…,uk'分別用它們代表簇&,并把所有對(duì) 象劃分到離其最近的簇中,使得最終的E最小。實(shí)際求解一般使用啟發(fā)式方法來搜索m' u/,…,uA即預(yù)先指定K個(gè)初始質(zhì)心,并通過一些搜索策略使其逼近最優(yōu)質(zhì)心。
[0081] 由于K均值算法初始質(zhì)心的選取對(duì)聚類結(jié)果有較大影響,不同的初值收斂到不同 的局部極小值,因此算法極不穩(wěn)定。本發(fā)明介紹一種K均值算法初始質(zhì)心的選取方法。如圖4 所示。
[0082] 求出整個(gè)文本集Χ= {χ?,Χ2, · · ·,Xn}的質(zhì)心向量U0:
[0084]當(dāng)l<k<K時(shí),其中k為初始質(zhì)心的個(gè)數(shù),K為簇的個(gè)數(shù),查找與uo及前k-ι個(gè)初始質(zhì) 心UQ,U1,…,Uk-1距離之和最大的數(shù)據(jù)點(diǎn)Xi,將其作為第k個(gè)均值向量,設(shè)d(UQ,Xi)表示UQ與Xi 的距離,則通過公式(10)計(jì)算初始質(zhì)心:
[0086]應(yīng)當(dāng)理解的是,本發(fā)明的上述【具體實(shí)施方式】?jī)H僅用于示例性說明或解釋本發(fā)明的 原理,而不構(gòu)成對(duì)本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何 修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。此外,本發(fā)明所附權(quán)利要求旨 在涵蓋落入所附權(quán)利要求范圍和邊界、或者這種范圍和邊界的等同形式內(nèi)的全部變化和修 改例。
【主權(quán)項(xiàng)】
1. 一種基于隨機(jī)近鄰嵌入的文本聚類方法,其特征在于,包括W下步驟: so 1:對(duì)文本集進(jìn)行預(yù)處理,將文本集表示為標(biāo)準(zhǔn)化詞-文本共現(xiàn)矩陣; S02:通過t-分布隨機(jī)近鄰嵌入(t-S肥)將高維文本數(shù)據(jù)嵌入到低維空間,使高維空間 相似度較低的文本對(duì)應(yīng)的低維嵌入點(diǎn)距離較遠(yuǎn),相似度較高的文本對(duì)應(yīng)的低維嵌入點(diǎn)距離 較近; S03:將多個(gè)低維嵌入點(diǎn)作為K均值算法的初始質(zhì)屯、,并根據(jù)低維空間映射點(diǎn)坐標(biāo),采用 K均值算法進(jìn)行聚類。2. 根據(jù)權(quán)利要求1所述的基于隨機(jī)近鄰嵌入的文本聚類方法,其特征在于,所述步驟 SOI中標(biāo)準(zhǔn)化詞-文本共現(xiàn)矩陣的構(gòu)建步驟包括: S11:對(duì)文本集進(jìn)行分詞,移除低頻詞,生成特征詞集W; S12:統(tǒng)計(jì)詞wi在文本向量dj中出現(xiàn)的次數(shù)tij,詞頻tf ij = tij/ Σ itij; S13:統(tǒng)計(jì)詞wi在文本集中的次數(shù)ni,逆文本頻率idfi = log(n/ni),計(jì)算歸一化因子sj = (ZVi(tfijXi壯i)2)i/2,n為文本集的大?。? S14:計(jì)算加權(quán)文本向量u. j: Uij = tf ij X i壯i X sj,構(gòu)建標(biāo)準(zhǔn)化詞-文本共現(xiàn)矩陣A: A. j = U. jo3. 根據(jù)權(quán)利要求1所述的基于隨機(jī)近鄰嵌入的文本聚類方法,其特征在于,所述步驟 S02包括W下步驟: S21:高維數(shù)據(jù)點(diǎn)XI而之間的距離爲(wèi)=|兩-&||2被轉(zhuǎn)換為低維映射點(diǎn)的聯(lián)合概率分布P, 其元素 Pij為:表示高斯函數(shù)的方差,錢表示第k個(gè)文 本與第1個(gè)文本之間的距離; S22:定義高維數(shù)據(jù)點(diǎn)xi,xj所對(duì)應(yīng)的低維映射點(diǎn)yi與yj的聯(lián)合概率qij,用CU冰建模pii, 兩個(gè)分布P,Q的差異WKL散度衡量:采用重尾測(cè)量低維映射點(diǎn)之間的相似度,使得相似度較低的點(diǎn)在映射空間下的距離較 大,而相似度較高的點(diǎn)在映射空間下的距離較小。4. 根據(jù)權(quán)利要求1所述的基于隨機(jī)近鄰嵌入的文本聚類方法,其特征在于,所述步驟 S03中K均值算法初始質(zhì)屯、的計(jì)算包括W下步驟: 求出整個(gè)文本集X= {xi,X2, . . .,Xn}的質(zhì)屯、向量U0:當(dāng)1《k《K時(shí),其中k為初始質(zhì)屯、的個(gè)數(shù),Κ為簇的個(gè)數(shù),查找與uo及前k-1個(gè)初始質(zhì)屯、uo, 山,···,Uk-i距離之和最大的數(shù)據(jù)點(diǎn)Xi,將其作為第k個(gè)均值向量,設(shè)d(u〇,Xi)表示U日與Xi的距 離,則通過公式計(jì)算初始質(zhì)屯、。
【文檔編號(hào)】G06F17/30GK106096066SQ201610683598
【公開日】2016年11月9日
【申請(qǐng)日】2016年8月17日 公開號(hào)201610683598.8, CN 106096066 A, CN 106096066A, CN 201610683598, CN-A-106096066, CN106096066 A, CN106096066A, CN201610683598, CN201610683598.8
【發(fā)明人】徐森, 徐靜, 花小朋, 李先鋒, 徐秀芳, 安晶, 皋軍, 曹瑞
【申請(qǐng)人】鹽城工學(xué)院