專利名稱:基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機器學(xué)習(xí)和模式識別技術(shù),尤其涉及一種基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法。
背景技術(shù):
隨著信息技術(shù)的爆炸式發(fā)展,計算機要處理的文本在快速增長。文本聚類是一種常見的文本處理方式,它把從某一角度來講比較相似的文本聚攏在一起,即可能作為一種直接輸出的信息,也可能作為對文本的進(jìn)一步處理的基礎(chǔ),具有重要意義。文本大多是用自然語言形式描述的,要進(jìn)行聚類,必須對其抽取特征,轉(zhuǎn)化成量化的描述。然而,常規(guī)的特征抽取方法很難避免數(shù)據(jù)稀疏、特征維度過高、一詞多義、一義多詞等問題,給后續(xù)的聚類帶來很大不利影響。為此,一些學(xué)者提出了若干特征變換(降維)方 法,如潛語義分析(LSA)、概率潛語義分析(PLSA)、潛狄利克雷分配(LDA)等,在很大程度上解決了此類問題。遺憾的是,這些方法只能一次性處理一批文本,在互聯(lián)網(wǎng)環(huán)境下,數(shù)據(jù)往往是動態(tài)的,即隨著時間推移,有新的數(shù)據(jù)陸續(xù)到來,就有數(shù)據(jù)不斷的被淘汰,給特征變換方法的應(yīng)用造成極大困難。同時,由于處理動態(tài)數(shù)據(jù)的聚類算法和常規(guī)(一次性處理靜態(tài)數(shù)據(jù))的聚類算法有不同特性,對動態(tài)數(shù)據(jù)做特征變換后,還要滿足后續(xù)處理動態(tài)數(shù)據(jù)的聚類算法的要求,難度進(jìn)一步增大。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法,解決動態(tài)文本數(shù)據(jù)集的有效聚類問題,以實現(xiàn)動態(tài)話題模型和動態(tài)聚類算法的結(jié)合,解決傳統(tǒng)基于term的文本特征所固有的一詞多義、一義多詞、數(shù)據(jù)稀疏、特征維數(shù)災(zāi)難等問題。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的
一種基于動態(tài)話題模型的動態(tài)文本聚類裝置,包括新聞采集模塊、新聞初始特征提取模塊、動態(tài)特征變換模塊和動態(tài)聚類模塊,其中
新聞采集模塊,用于采集互聯(lián)網(wǎng)上的新聞數(shù)據(jù);
新聞初始特征提取模塊,用于對所采集的新聞數(shù)據(jù)進(jìn)行初始特征提??;
動態(tài)特征變換模塊,用于對提取的初始特征做動態(tài)特征變換;以及 動態(tài)聚類模塊,用于對新聞數(shù)據(jù)集,基于變換后的特征做動態(tài)聚類。其中所述新聞采集模塊采集到的新聞數(shù)據(jù)為文本、超文本或其他數(shù)據(jù)形式。所述的其他數(shù)據(jù)形式包括視頻、圖片和結(jié)構(gòu)化信息。一種基于動態(tài)話題模型的動態(tài)文本聚類方法,包括如下步驟
A、采集互聯(lián)網(wǎng)上新聞數(shù)據(jù)的步驟;
B、對預(yù)設(shè)周期內(nèi)的增量新聞數(shù)據(jù)做初始特征提取的步驟;
C、對本周期內(nèi)增量新聞數(shù)據(jù)用動態(tài)話題模型作特征變換的步驟;D、對本周期內(nèi)經(jīng)特征變換的新聞數(shù)據(jù)和已有聚類結(jié)果進(jìn)行動態(tài)聚類的步驟。其中步驟A中所述從互聯(lián)網(wǎng)采集到的新聞數(shù)據(jù)為文本、超文本或其他數(shù)據(jù)形式,包括微博、視頻圖片或其他結(jié)構(gòu)化信息。步驟B所述對預(yù)設(shè)周期內(nèi)的增量新聞數(shù)據(jù)作初始特征提取,具體為
對新增的新聞數(shù)據(jù)執(zhí)行分詞、詞性標(biāo)注、去停用詞、專名識別、同義詞歸并的步驟,將處理的結(jié)果以詞或短語為單位,稱為token,對每個token,依據(jù)其頻率、分布、在文中的位置、詞性和專名類型的信息,確定其權(quán)重,然后再將各token及其分值構(gòu)造成一個基于向量空間模型的初始特征向量。步驟C所述對本周期內(nèi)增量新聞數(shù)據(jù)用動態(tài)話題模型作特征變換,采用增量式概率潛語義分析IPLSA模型進(jìn)行特征變換,通過該模型將每個新聞數(shù)據(jù)表示成一組隱變量組成的特征向量,具體為 Cl、在聚類結(jié)果即簇的集合中,找出長時間無變化的簇,在IPLSA話題模型中,清除該簇包含的新聞數(shù)據(jù),修改其相應(yīng)的參數(shù);
C2、對本周期新增的新聞及新出現(xiàn)的token,使用EM算法將其切拌進(jìn)模型中,更新新增新聞的參數(shù);
C3、使用EM算法更新整個模型的參數(shù);
C4、直接取新模型中各新增的新聞對應(yīng)的參數(shù),組成的向量即為變換后的特征向量。步驟D對本周期內(nèi)經(jīng)特征變換的新聞數(shù)據(jù)和已有聚類結(jié)果即簇執(zhí)行動態(tài)聚類,具體為
D1、去除長時間沒有變化的聚類結(jié)果即簇;
D2、對本周期內(nèi)新增的各條新聞數(shù)據(jù)的變換后的特征向量進(jìn)行非加權(quán)組中心UPGMC聚類,所述的聚類結(jié)果中的每個集合即簇均擁有一個中心向量,并根據(jù)所述中心向量計算兩個簇的中心向量的余弦相似度;
D3、對上述產(chǎn)生的每一個簇,找出現(xiàn)有簇的集合中與該簇的相似度最大的簇;其相似度的計算方法仍采用余弦相似度;若該相似度大于預(yù)定閥值,就將對應(yīng)的兩個簇合并;否則,將該簇加入現(xiàn)有簇的集合;
D4、對現(xiàn)有的簇再進(jìn)行一次UPGMC聚類,該過程同樣采用余弦相似度計算簇的相似度。本發(fā)明所提供的基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法,具有以下優(yōu)
占-
^ \\\ ·
本發(fā)明實現(xiàn)了動態(tài)話題模型和動態(tài)聚類算法的結(jié)合。通過采用增量式概率潛語義分析(IPLSA, Incremental Probabilistic Latent Semantic Analysis)技術(shù),解決動態(tài)數(shù)據(jù)的特征變換問題,并將其與一種基于層次聚類算法的動態(tài)聚類算法相結(jié)合,對文本數(shù)據(jù)進(jìn)行動態(tài)聚類時,基于該動態(tài)話題模型一 IPLSA模型對初始特征向量做變換,有效緩解了傳統(tǒng)的基于term的特征所造成的一詞多義、一義多詞、數(shù)據(jù)稀疏、維數(shù)災(zāi)難等問題,提高了聚類效果。同時,還有效降低了常規(guī)PLSA算法的巨大開銷。并且,對增量文本變換產(chǎn)生的特征向量和對既有文本變換產(chǎn)生的特征向量保持在同一空間內(nèi),可以直接進(jìn)行比較,從而保證了增量聚類過程中新舊數(shù)據(jù)的可比較性。
圖I為本發(fā)明實施例的基于動態(tài)話題模型的動態(tài)文本聚類裝置的組成示意 圖2為本發(fā)明基于動態(tài)話題模型的動態(tài)文本聚類方法的總體流程示意 圖3為圖2所示的特征變換流程示意 圖4為圖2所示的動態(tài)聚類流程示意圖。
具體實施例方式下面結(jié)合附圖及本發(fā)明的實施例對本發(fā)明的裝置及其方法作進(jìn)一步詳細(xì)的說明。圖I為本發(fā)明實施例的基于動態(tài)話題模型的動態(tài)文本聚類裝置的組成示意圖,如圖I所示,該裝置主要包括新聞采集模塊、新聞初始特征提取模塊、動態(tài)特征變換模塊和動態(tài)聚類模塊;其中 所述新聞采集模塊,用于采集互聯(lián)網(wǎng)上的新聞數(shù)據(jù)。新聞初始特征提取模塊,用于對所采集的新聞數(shù)據(jù)進(jìn)行初始特征提取。動態(tài)特征變換模塊(reduce),用于對提取的初始特征做動態(tài)特征變換。動態(tài)聚類模塊,用于對新聞數(shù)據(jù)集,基于變換后的特征做動態(tài)聚類。其中,所述新聞采集模塊采集到的新聞數(shù)據(jù)為文本、超文本或其他數(shù)據(jù)形式,所述的其他數(shù)據(jù)形式還包括視頻、圖片和結(jié)構(gòu)化信息等。所述的基于動態(tài)話題模型的動態(tài)文本聚類裝置,其新聞并不限于新聞文本,甚至不局限于文本這一數(shù)據(jù)形式。對于其他形式的數(shù)據(jù),如微博、視頻、圖片、結(jié)構(gòu)化信息等,只要待處理的數(shù)據(jù)被抽象為特征向量,并采用了與本發(fā)明類似的方法進(jìn)行動態(tài)特征變換和動態(tài)聚類,均應(yīng)包括在本發(fā)明技術(shù)的涵蓋范圍內(nèi)。上述的裝置經(jīng)實際實驗表明,可以有效解決新聞類文本的動態(tài)聚類問題。圖2為本發(fā)明基于動態(tài)話題模型的動態(tài)文本聚類方法的總體流程示意圖,如圖2所示,包括如下主要步驟
步驟Si:采集互聯(lián)網(wǎng)上的新聞數(shù)據(jù)。步驟S2 :對本周期內(nèi)增量新聞做初始特征提取。具體包括對本周期新增的新聞數(shù)據(jù)執(zhí)行分詞、詞性標(biāo)注、去停用詞、專名識別、同義詞歸并等步驟,處理的結(jié)果以詞或短語為單位,統(tǒng)稱為token,對每個token,依據(jù)其頻率、分布、在文中的位置、詞性、專名類型等信息,確定其權(quán)重。再把各token及其分值構(gòu)造成一個基于向量空間模型的初始特征向量。步驟S3 :對本周期內(nèi)增量新聞用動態(tài)話題模型做特征變換,對本周期內(nèi)增量新聞用增量話題模型作特征變換,本發(fā)明實施例中采用增量式概率潛語義分析(IPLSA,Incremental Probabilistic Latent Semantic Analysis)模型進(jìn)行特征變換,該模型可以把每個新聞表示成一組隱變量組成的特征向量。如圖3所示,該過程具體包括
步驟S31 :在聚類結(jié)果(即簇)集合中,找出長時間沒有變化的簇,在IPLSA特征變換模型中,清除這些簇所包含的新聞數(shù)據(jù),修改其相應(yīng)的參數(shù)。步驟S32 :對于本周期新增的新聞及新出現(xiàn)的token (以初始特征向量表示),使用EM算法將其切拌(fold in)進(jìn)特征變換模型中,更新新增新聞的參數(shù)。步驟S33 :使用EM算法更新整個特征變換模型的參數(shù)。步驟S34:直接取新模型中各新增的新聞對應(yīng)的參數(shù),組成的向量即為變換后的特征向量。
步驟S4 :對本周期內(nèi)經(jīng)特征變換的新聞數(shù)據(jù)和已有聚類結(jié)果(即簇)進(jìn)行動態(tài)聚類,如圖4所示,該過程包括
步驟S41 :去除長時間沒有變化的聚類結(jié)果(稱為簇)。步驟S42 :對本周期內(nèi)新增的各條新聞的(變換后的)特征向量進(jìn)行UPGMC聚類,在該算法中,聚類結(jié)果中的每個集合(稱為簇)都擁有一個中心向量。并依據(jù)中心向量計算相似度。這里,其相似度的計算方法為采用兩個簇的中心向量的余弦相似度。步驟S43 :對步驟S42中產(chǎn)生的每一個簇,找出現(xiàn)有簇集合中與該簇的相似度最大的簇。相似度的計算方法為仍余弦相似度。如果該相似度大于預(yù)定閥值,就對應(yīng)的兩個簇合并。否則,該簇被加入現(xiàn)有簇集合。步驟S44 :對現(xiàn)有簇再進(jìn)行一次UPGMC聚類,該過程同樣采用余弦相似度計算簇的相似度。 本發(fā)明通過上述基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法,用以處理網(wǎng)絡(luò)新聞數(shù)據(jù),由于網(wǎng)絡(luò)新聞不斷產(chǎn)生,不可能一次性完成聚類,因此本發(fā)明需要周期性地執(zhí)行上述步驟SI 步驟S4。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種基于動態(tài)話題模型的動態(tài)文本聚類裝置,其特征在于,包括新聞采集模塊、新聞初始特征提取模塊、動態(tài)特征變換模塊和動態(tài)聚類模塊,其中 新聞采集模塊,用于采集互聯(lián)網(wǎng)上的新聞數(shù)據(jù); 新聞初始特征提取模塊,用于對所采集的新聞數(shù)據(jù)進(jìn)行初始特征提?。? 動態(tài)特征變換模塊,用于對提取的初始特征做動態(tài)特征變換;以及 動態(tài)聚類模塊,用于對新聞數(shù)據(jù)集,基于變換后的特征做動態(tài)聚類。
2.根據(jù)權(quán)利要求I所述的基于動態(tài)話題模型的動態(tài)文本聚類裝置,其特征在于,所述新聞采集模塊采集到的新聞數(shù)據(jù)為文本、超文本或其他數(shù)據(jù)形式。
3.根據(jù)權(quán)利要求2所述的基于動態(tài)話題模型的動態(tài)文本聚類裝置,其特征在于,所述的其他數(shù)據(jù)形式包括視頻、圖片和結(jié)構(gòu)化信息。
4.一種基于動態(tài)話題模型的動態(tài)文本聚類方法,其特征在于,包括如下步驟 A、采集互聯(lián)網(wǎng)上新聞數(shù)據(jù)的步驟; B、對預(yù)設(shè)周期內(nèi)的增量新聞數(shù)據(jù)做初始特征提取的步驟; C、對本周期內(nèi)增量新聞數(shù)據(jù)用動態(tài)話題模型作特征變換的步驟; D、對本周期內(nèi)經(jīng)特征變換的新聞數(shù)據(jù)和已有聚類結(jié)果進(jìn)行動態(tài)聚類的步驟。
5.根據(jù)權(quán)利要求4所述的基于動態(tài)話題模型的動態(tài)文本聚類方法,其特征在于,步驟A中所述從互聯(lián)網(wǎng)采集到的新聞數(shù)據(jù)為文本、超文本或其他數(shù)據(jù)形式,包括微博、視頻圖片或其他結(jié)構(gòu)化信息。
6.根據(jù)權(quán)利要求4所述的基于動態(tài)話題模型的動態(tài)文本聚類方法,其特征在于,步驟B所述對預(yù)設(shè)周期內(nèi)的增量新聞數(shù)據(jù)作初始特征提取,具體為 對新增的新聞數(shù)據(jù)執(zhí)行分詞、詞性標(biāo)注、去停用詞、專名識別、同義詞歸并的步驟,將處理的結(jié)果以詞或短語為單位,稱為token,對每個token,依據(jù)其頻率、分布、在文中的位置、詞性和專名類型的信息,確定其權(quán)重,然后再將各token及其分值構(gòu)造成一個基于向量空間模型的初始特征向量。
7.根據(jù)權(quán)利要求4所述的基于動態(tài)話題模型的動態(tài)文本聚類方法,其特征在于,步驟C所述對本周期內(nèi)增量新聞數(shù)據(jù)用動態(tài)話題模型作特征變換,采用增量式概率潛語義分析IPLSA模型進(jìn)行特征變換,通過該模型將每個新聞數(shù)據(jù)表示成一組隱變量組成的特征向量,具體為 Cl、在聚類結(jié)果即簇的集合中,找出長時間無變化的簇,在IPLSA話題模型中,清除該簇包含的新聞數(shù)據(jù),修改其相應(yīng)的參數(shù); C2、對本周期新增的新聞及新出現(xiàn)的token,使用EM算法將其切拌進(jìn)模型中,更新新增新聞的參數(shù); C3、使用EM算法更新整個模型的參數(shù); C4、直接取新模型中各新增的新聞對應(yīng)的參數(shù),組成的向量即為變換后的特征向量。
8.根據(jù)權(quán)利要求4所述的基于動態(tài)話題模型的動態(tài)文本聚類方法,其特征在于,步驟D對本周期內(nèi)經(jīng)特征變換的新聞數(shù)據(jù)和已有聚類結(jié)果即簇執(zhí)行動態(tài)聚類,具體為 D1、去除長時間沒有變化的聚類結(jié)果即簇; D2、對本周期內(nèi)新增的各條新聞數(shù)據(jù)的變換后的特征向量進(jìn)行非加權(quán)組中心UPGMC聚類,所述的聚類結(jié)果中的每個集合即簇均擁有一個中心向量,并根據(jù)所述中心向量計算兩個簇的中心向量的余弦相似度; D3、對上述產(chǎn)生的每一個簇,找出現(xiàn)有簇的集合中與該簇的相似度最大的簇;其相似度的計算方法仍采用余弦相似度;若該相似度大于預(yù)定閥值,就將對應(yīng)的兩個簇合并;否則,將該簇加入現(xiàn)有簇的集合; D4、對現(xiàn)有的簇再進(jìn)行一次UPGMC聚類,該過程同樣采用余弦相似度計算簇的相似度。
全文摘要
本發(fā)明公開了一種基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法,該裝置包括新聞采集模塊、新聞初始特征提取模塊、動態(tài)特征變換模塊和動態(tài)聚類模塊,其中新聞采集模塊,用于采集互聯(lián)網(wǎng)上的新聞數(shù)據(jù);新聞初始特征提取模塊,用于對所采集的新聞數(shù)據(jù)進(jìn)行初始特征提??;動態(tài)特征變換模塊,用于對提取的初始特征做動態(tài)特征變換;以及動態(tài)聚類模塊,用于對新聞數(shù)據(jù)集,基于變換后的特征做動態(tài)聚類。采用本發(fā)明,能夠解決動態(tài)文本數(shù)據(jù)集的有效聚類問題,以實現(xiàn)動態(tài)話題模型和動態(tài)聚類算法的結(jié)合,解決傳統(tǒng)基于term的文本特征所固有的一詞多義、一義多詞、數(shù)據(jù)稀疏、特征維數(shù)災(zāi)難等問題。
文檔編號G06F17/30GK102915341SQ201210354009
公開日2013年2月6日 申請日期2012年9月21日 優(yōu)先權(quán)日2012年9月21日
發(fā)明者李德聰, 楊青 申請人:人民搜索網(wǎng)絡(luò)股份公司