并且可以將數(shù)目最多的更新聚類數(shù)確定為最佳 聚類數(shù)。
[0036] 下面,將結(jié)合附圖進(jìn)一步詳細(xì)描述根據(jù)本公開的實施例的文本聚類裝置300。設(shè)置 單元310可以設(shè)置聚類數(shù)的集合。例如,如圖2所示,設(shè)置單元310可以將聚類數(shù)k設(shè)置為 包括2、3、4、5等的集合。圖2所示的聚類數(shù)k的集合僅僅是一個例子,本公開對此并沒有 特殊限制。如上所述,通過將聚類數(shù)k設(shè)置為不同的值,可以得到多個不同的聚類結(jié)果。
[0037] 接下來,針對設(shè)置單元310設(shè)置的集合中的每一個聚類數(shù),聚類單元320可以使用 文檔中的詞作為特征對源數(shù)據(jù)進(jìn)行初始聚類,以將源數(shù)據(jù)聚類成數(shù)目等于聚類數(shù)的簇。
[0038] 由此,通過聚類單元320可以獲得初始聚類結(jié)果(即當(dāng)k = 2、k = 3、k = 4、k = 5等時的聚類結(jié)果),其中源數(shù)據(jù)被聚類成數(shù)目等于聚類數(shù)k的簇。例如,聚類單元320可 以利用k-means聚類算法進(jìn)行初始聚類。假設(shè)取2 < k < 10,則會得到9個初始聚類結(jié)果, k = η表示文檔聚成了 η個簇。當(dāng)然,初始聚類也可以采用其它聚類算法,本公開對此并沒 有特殊限制。
[0039] 在初始聚類之后,對于每一個初始聚類結(jié)果中的簇,如果該簇的聚類質(zhì)量較理想, 則可以將其保留。如果該簇的聚類質(zhì)量不理想,則可以對其進(jìn)一步進(jìn)行劃分。尤其是在k 值比實際簇的數(shù)目小的情況下,多個不同的簇可能被劃分到一起。因此,可以對這樣的簇進(jìn) 一步進(jìn)行劃分。
[0040] 具體地,劃分單元330可以針對聚類單元320初始聚類的每一個簇,使用文檔中的 主題作為特征對簇執(zhí)行劃分過程,其中,可以使用例如三層貝葉斯概率模型(LDA)主題模 型對簇進(jìn)行主題詞提取。當(dāng)然,也可以使用其它方式對主題詞進(jìn)行提取。相比單純的用詞 作為文檔的特征,主題詞可以更好的反映文章的內(nèi)容,因此更適合作為文檔的特征。
[0041] 在劃分過程中,簇可以被分成兩個部分進(jìn)行比較。具體地,如果這兩個部分的相似 度小于第一預(yù)定閾值,則可以將簇劃分成兩個子簇。為了滿足界定聚類質(zhì)量要求,有必要為 這兩個部分之間設(shè)置第一預(yù)定閾值,該第一預(yù)定閾值可以通過經(jīng)驗值來確定。然而,比較這 兩個部分可能產(chǎn)生具有不同聚類效果的結(jié)果。例如,在設(shè)定主題個數(shù)為2的情況下,如圖4 表示的包含關(guān)鍵字"波斯貓"的簇的結(jié)果,其中通過LDA主題模型生成的兩個主題的主題詞 向量差別比較小,則可以認(rèn)定該簇的聚類質(zhì)量較高,因此可以將該簇保留;而如圖5表示的 包含關(guān)鍵字"先知"的簇的結(jié)果,兩個主題詞向量之間差別很大(這是因為該簇包含一篇含 有"春江水暖鴨先知"詩句的文檔,而其它文檔是關(guān)于游戲的),則可以認(rèn)定該簇的聚類質(zhì)量 較低,因此可以將該簇進(jìn)一步劃分成兩個子簇。
[0042] 經(jīng)過上述劃分之后,該簇的k值發(fā)生了變化,如圖6所示,以k = 3為例,經(jīng)過基于 如LDA進(jìn)行劃分之后,k值變?yōu)榱?5。在劃分之后,簇的粒度變小,通過這種方法可以對有可 能發(fā)生聚類錯的簇進(jìn)行重新劃分,從而降低了聚類錯誤。
[0043] 以圖6為例,經(jīng)初始聚類后的3個子簇1、2和3在基于如LDA進(jìn)行劃分之后,可能 產(chǎn)生5個新的子簇1、2、3、4和5。但在這些新的子簇之間有可能具有一定相似度,因此可以 對這些具有一定相似度的子簇進(jìn)行再次聚類。
[0044] 接下來,合并單元340可以對劃分單元330劃分后的簇執(zhí)行再次聚類。在再次聚 類過程中,可以計算簇和子簇任意兩個之間的相似度。具體地,如果簇和子簇中的任意兩個 之間的相似度大于或等于第二預(yù)定閾值,則可以將其合并為一個簇。為了滿足界定聚類質(zhì) 量要求,有必要為簇或子簇任意兩個之間設(shè)置第二預(yù)定閾值,該第二預(yù)定閾值可以通過經(jīng) 驗值來確定。
[0045] 在再次聚類之后,k值又可能發(fā)生變化而產(chǎn)生新的k'值。接下來,計數(shù)單元350 可以對合并單元340合并后的簇進(jìn)行計數(shù),以獲得更新的k'值。雖然更新的k'值與k值 不同,但是更新的k'值會趨向一個穩(wěn)定的值,如圖2的示例所示,更新的k'值趨向等于4。
[0046] 然后,聚類數(shù)確定單元360可以對計數(shù)單元350獲得的相同的更新的k'進(jìn)行計 數(shù),并且可以將數(shù)目最多的更新的k'確定為最佳聚類數(shù)。
[0047] 在最佳聚類數(shù)確定后,可以針對該最佳聚類數(shù)從多個再次聚類結(jié)果中選擇一個作 為最終的聚類結(jié)果,這是因為雖然不同聚類結(jié)果的k值相同,但是不同聚類結(jié)果的簇或子 簇很可能不同,因此可以選擇聚類質(zhì)量最好的作為最終結(jié)果。
[0048] 為了衡量聚類結(jié)果的質(zhì)量來進(jìn)行最終結(jié)果的選擇,提供了根據(jù)本公開的另一個實 施例的文本聚類裝置700。圖7示出了根據(jù)本公開的另一個實施例的文本聚類裝置700。除 了第一計算單元710、獲取單元720和聚類確定單元730之外,如圖7所示的文本聚類裝置 700的其它組成部分與如圖3所示的文本聚類裝置300相同,本公開對此不再重復(fù)。
[0049] 具體地,第一計算單元710可以針對聚類數(shù)確定單元360確定的最佳V的更新 的k'相對應(yīng)的源數(shù)據(jù)聚類中的每一種聚類,計算每個簇的內(nèi)部相似度IS。然后,獲取單元 720可以基于第一計算單元710計算的每個簇的內(nèi)部相似度IS來獲取每一種聚類的聚類相 似度IS。最后,聚類確定單元730可以將通過獲取單元720獲取的具有最高聚類相似度IS 的聚類確定為最佳源數(shù)據(jù)聚類。
[0050] 根據(jù)本公開的又一實施例,在初始聚類過程中,聚類單元320可以將文檔分詞以 及去除停用詞,并且計算文檔中詞的權(quán)重(如計算詞的TF-IDF值作為詞的權(quán)重),從而得到 文檔的詞向量表示。
[0051] 根據(jù)本公開的又一實施例,在劃分單元330執(zhí)行劃分過程中為了更好地比較簇的 兩個部分,劃分單元330還可以包括第二簇主題化單元3301和第二計算單元3302,如圖9 所示。第二簇主題化單元3301可以針對簇運行主題模型,以獲取兩個主題詞向量,接下來 第二計算單元3302可以計算這兩個主題詞向量之間的相似度,其中,如果這兩個主題詞向 量之間的相似度較大,則表明簇的質(zhì)量較好,反之主題詞向量之間的相似度較小,則表明簇 的質(zhì)量較差。主題詞向量之間的相似度可以通過下面的余弦夾角公式(1)進(jìn)行計算:
[0052]
[0053] 其中,A和B所代表的主題詞向量用詞和權(quán)重共同來表示。例如,圖3中"貓科" 為詞,0. 040924為權(quán)重;以及η代表選取前η個詞作為主題詞向量,本領(lǐng)域技術(shù)人員可以通 過經(jīng)驗來選取η值。具體地,如果兩個主題詞向量之間的相似度小于預(yù)定閾值,則劃分單元 330將該簇劃分成兩個子簇。另一方面,如果兩個主題詞向量之間的相似度大于或等于預(yù)定 閾值,則保留該簇。在比較過程中,為了滿足界定聚類質(zhì)量要求,有必要為簇的兩個部分設(shè) 置預(yù)定閾值,該預(yù)定閾值可以通過經(jīng)驗值來確定。
[0054] 另外,在需要對簇進(jìn)行進(jìn)一步劃分的情況下(如圖5所示的簇),劃分單元330還 可以進(jìn)一步包括主題獲取單元、第二文檔主題化單元以及第三計算單元。針對待劃分的簇, 主題獲取單元可以獲取該待劃分的簇的兩個主題詞向量vl和ν2 ;第二文檔主題化單元可 以針對該待劃分的簇中的每一篇文檔,利用文檔中的詞(去除停用詞)作為特征、詞的頻次 作為特征權(quán)重來組成文檔詞向量d ;然后,第三計算單元可以再通過余弦夾角公式(1)分別 計算文檔詞向量d分別與主題詞向量vl和主題詞向量v2的余弦相似度,接下來,劃分單元 330可以再通過比較它們的相似度將待劃分的簇劃分為第一子簇或者第二子簇。
[0055] 根據(jù)本公開的又一實施例,合并單元340可以對劃分單元330劃分后的簇執(zhí)行再 次聚類。在再次聚類過程中,可以利用如LDA模型生成主題詞向量,其中主題個數(shù)設(shè)置為1, 并可以通過利用余弦夾角公式(1)來計算簇和子簇任意兩個的主題詞向量之間的相似度。 具體地,如果簇和子簇中的任意兩個之間的相似度大于或等于第二預(yù)定閾值,則將其合并 為一個簇,同時將主題詞向量合并。同樣,主題詞向量可以用詞和權(quán)重共同來表示。另外, 為了滿足界定聚類質(zhì)量要求,有必要為簇或子簇任意兩個之間設(shè)置第二預(yù)定閾值,該第二 預(yù)定閾值可以通過經(jīng)驗值來確定。
[0056] 可選地,合并單元340可以重復(fù)執(zhí)行上述再次聚類過程,直到簇和子簇中的任意 兩個之間的相似度都小于第二預(yù)定閾值為止。
[0057] 根據(jù)本公開的又一實施例,如圖8所示,第一計算單元710還可以包括第一簇主題 化單元7101和文檔主題化單元7102,例如,針對一個聚類結(jié)果:
[0058] 第一簇主題化單元7101可以對該聚類結(jié)果中的一個子簇,使用如LDA模型,以獲 得其主題詞向量V,其中主題數(shù)設(shè)為1 ;以及
[0059] 文檔主題化單元7102可以對該子簇中的每一篇文檔,使用如LDA模型,以獲得文 檔的主題詞向量V d,
[0060] 其中,可以通過下面的公式(2)來計算該子簇的內(nèi)部相似度ISsub值:
[0062] 其中i表示該子簇中的第i篇文檔;η表示該子簇中的文檔總數(shù);sim(Vdl,V)是通 過余弦夾角公式(1)計算的向量v dl和V之間的相似度,并且向量Vdl和V同樣可以用詞與 權(quán)重共同來表示。
[0063] 接下來,該聚類結(jié)果的內(nèi)部相似度IS值可以通過下面的公式(3)來
[0064] 計算:
[0066] 其中,K值為子簇的數(shù)量。
[0067] 最后,可以選擇IS值最高的聚類結(jié)果作為最終的聚類結(jié)果。
[0068] 下面結(jié)合圖10來描述根據(jù)本公開的實施例的文本聚類方法。如圖10所示,根據(jù) 本公開的實施例的文本聚類方法開始于步驟S1010。在步驟S1010中,可以設(shè)置聚類數(shù)的集 合。
[0069] 接下來,在步驟S1020中,可以針對每一個聚類數(shù),使用文檔中的詞作為特征對源 數(shù)據(jù)進(jìn)行聚類。
[0070] 接下來,在步驟S1030中,可以針對每一個聚類數(shù)和每一個簇,使用文檔中的主