基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法

文檔序號：6377501閱讀：218來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法
技術(shù)領(lǐng)域：
本發(fā)明涉及機器學(xué)習(xí)和模式識別技術(shù)，尤其涉及一種基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法。
背景技術(shù)：
隨著信息技術(shù)的爆炸式發(fā)展，計算機要處理的文本在快速增長。文本聚類是一種常見的文本處理方式，它把從某一角度來講比較相似的文本聚攏在一起，即可能作為一種直接輸出的信息，也可能作為對文本的進(jìn)一步處理的基礎(chǔ)，具有重要意義。文本大多是用自然語言形式描述的，要進(jìn)行聚類，必須對其抽取特征，轉(zhuǎn)化成量化的描述。然而，常規(guī)的特征抽取方法很難避免數(shù)據(jù)稀疏、特征維度過高、一詞多義、一義多詞等問題，給后續(xù)的聚類帶來很大不利影響。為此，一些學(xué)者提出了若干特征變換(降維)方法，如潛語義分析(LSA)、概率潛語義分析(PLSA)、潛狄利克雷分配(LDA)等，在很大程度上解決了此類問題。遺憾的是，這些方法只能一次性處理一批文本，在互聯(lián)網(wǎng)環(huán)境下，數(shù)據(jù)往往是動態(tài)的，即隨著時間推移，有新的數(shù)據(jù)陸續(xù)到來，就有數(shù)據(jù)不斷的被淘汰，給特征變換方法的應(yīng)用造成極大困難。同時，由于處理動態(tài)數(shù)據(jù)的聚類算法和常規(guī)(一次性處理靜態(tài)數(shù)據(jù))的聚類算法有不同特性，對動態(tài)數(shù)據(jù)做特征變換后，還要滿足后續(xù)處理動態(tài)數(shù)據(jù)的聚類算法的要求，難度進(jìn)一步增大。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明的主要目的在于提供一種基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法，解決動態(tài)文本數(shù)據(jù)集的有效聚類問題，以實現(xiàn)動態(tài)話題模型和動態(tài)聚類算法的結(jié)合，解決傳統(tǒng)基于term的文本特征所固有的一詞多義、一義多詞、數(shù)據(jù)稀疏、特征維數(shù)災(zāi)難等問題。為達(dá)到上述目的，本發(fā)明的技術(shù)方案是這樣實現(xiàn)的
一種基于動態(tài)話題模型的動態(tài)文本聚類裝置，包括新聞采集模塊、新聞初始特征提取模塊、動態(tài)特征變換模塊和動態(tài)聚類模塊，其中
新聞采集模塊，用于采集互聯(lián)網(wǎng)上的新聞數(shù)據(jù)；
新聞初始特征提取模塊，用于對所采集的新聞數(shù)據(jù)進(jìn)行初始特征提??；
動態(tài)特征變換模塊，用于對提取的初始特征做動態(tài)特征變換；以及動態(tài)聚類模塊，用于對新聞數(shù)據(jù)集，基于變換后的特征做動態(tài)聚類。其中所述新聞采集模塊采集到的新聞數(shù)據(jù)為文本、超文本或其他數(shù)據(jù)形式。所述的其他數(shù)據(jù)形式包括視頻、圖片和結(jié)構(gòu)化信息。一種基于動態(tài)話題模型的動態(tài)文本聚類方法，包括如下步驟
A、采集互聯(lián)網(wǎng)上新聞數(shù)據(jù)的步驟；
B、對預(yù)設(shè)周期內(nèi)的增量新聞數(shù)據(jù)做初始特征提取的步驟；
C、對本周期內(nèi)增量新聞數(shù)據(jù)用動態(tài)話題模型作特征變換的步驟；D、對本周期內(nèi)經(jīng)特征變換的新聞數(shù)據(jù)和已有聚類結(jié)果進(jìn)行動態(tài)聚類的步驟。其中步驟A中所述從互聯(lián)網(wǎng)采集到的新聞數(shù)據(jù)為文本、超文本或其他數(shù)據(jù)形式，包括微博、視頻圖片或其他結(jié)構(gòu)化信息。步驟B所述對預(yù)設(shè)周期內(nèi)的增量新聞數(shù)據(jù)作初始特征提取，具體為
對新增的新聞數(shù)據(jù)執(zhí)行分詞、詞性標(biāo)注、去停用詞、專名識別、同義詞歸并的步驟，將處理的結(jié)果以詞或短語為單位，稱為token，對每個token，依據(jù)其頻率、分布、在文中的位置、詞性和專名類型的信息，確定其權(quán)重，然后再將各token及其分值構(gòu)造成一個基于向量空間模型的初始特征向量。步驟C所述對本周期內(nèi)增量新聞數(shù)據(jù)用動態(tài)話題模型作特征變換，采用增量式概率潛語義分析IPLSA模型進(jìn)行特征變換，通過該模型將每個新聞數(shù)據(jù)表示成一組隱變量組成的特征向量，具體為 Cl、在聚類結(jié)果即簇的集合中，找出長時間無變化的簇，在IPLSA話題模型中，清除該簇包含的新聞數(shù)據(jù)，修改其相應(yīng)的參數(shù)；
C2、對本周期新增的新聞及新出現(xiàn)的token，使用EM算法將其切拌進(jìn)模型中，更新新增新聞的參數(shù)；
C3、使用EM算法更新整個模型的參數(shù)；
C4、直接取新模型中各新增的新聞對應(yīng)的參數(shù)，組成的向量即為變換后的特征向量。步驟D對本周期內(nèi)經(jīng)特征變換的新聞數(shù)據(jù)和已有聚類結(jié)果即簇執(zhí)行動態(tài)聚類，具體為
D1、去除長時間沒有變化的聚類結(jié)果即簇；
D2、對本周期內(nèi)新增的各條新聞數(shù)據(jù)的變換后的特征向量進(jìn)行非加權(quán)組中心UPGMC聚類，所述的聚類結(jié)果中的每個集合即簇均擁有一個中心向量，并根據(jù)所述中心向量計算兩個簇的中心向量的余弦相似度；
D3、對上述產(chǎn)生的每一個簇，找出現(xiàn)有簇的集合中與該簇的相似度最大的簇；其相似度的計算方法仍采用余弦相似度；若該相似度大于預(yù)定閥值，就將對應(yīng)的兩個簇合并；否則，將該簇加入現(xiàn)有簇的集合；
D4、對現(xiàn)有的簇再進(jìn)行一次UPGMC聚類，該過程同樣采用余弦相似度計算簇的相似度。本發(fā)明所提供的基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法，具有以下優(yōu)
占-
^ \\\ ·
本發(fā)明實現(xiàn)了動態(tài)話題模型和動態(tài)聚類算法的結(jié)合。通過采用增量式概率潛語義分析(IPLSA, Incremental Probabilistic Latent Semantic Analysis)技術(shù),解決動態(tài)數(shù)據(jù)的特征變換問題，并將其與一種基于層次聚類算法的動態(tài)聚類算法相結(jié)合，對文本數(shù)據(jù)進(jìn)行動態(tài)聚類時，基于該動態(tài)話題模型一 IPLSA模型對初始特征向量做變換，有效緩解了傳統(tǒng)的基于term的特征所造成的一詞多義、一義多詞、數(shù)據(jù)稀疏、維數(shù)災(zāi)難等問題，提高了聚類效果。同時，還有效降低了常規(guī)PLSA算法的巨大開銷。并且，對增量文本變換產(chǎn)生的特征向量和對既有文本變換產(chǎn)生的特征向量保持在同一空間內(nèi)，可以直接進(jìn)行比較，從而保證了增量聚類過程中新舊數(shù)據(jù)的可比較性。

圖I為本發(fā)明實施例的基于動態(tài)話題模型的動態(tài)文本聚類裝置的組成示意圖2為本發(fā)明基于動態(tài)話題模型的動態(tài)文本聚類方法的總體流程示意圖3為圖2所示的特征變換流程示意圖4為圖2所示的動態(tài)聚類流程示意圖。
具體實施例方式下面結(jié)合附圖及本發(fā)明的實施例對本發(fā)明的裝置及其方法作進(jìn)一步詳細(xì)的說明。圖I為本發(fā)明實施例的基于動態(tài)話題模型的動態(tài)文本聚類裝置的組成示意圖，如圖I所示，該裝置主要包括新聞采集模塊、新聞初始特征提取模塊、動態(tài)特征變換模塊和動態(tài)聚類模塊；其中所述新聞采集模塊，用于采集互聯(lián)網(wǎng)上的新聞數(shù)據(jù)。新聞初始特征提取模塊，用于對所采集的新聞數(shù)據(jù)進(jìn)行初始特征提取。動態(tài)特征變換模塊(reduce),用于對提取的初始特征做動態(tài)特征變換。動態(tài)聚類模塊，用于對新聞數(shù)據(jù)集，基于變換后的特征做動態(tài)聚類。其中，所述新聞采集模塊采集到的新聞數(shù)據(jù)為文本、超文本或其他數(shù)據(jù)形式，所述的其他數(shù)據(jù)形式還包括視頻、圖片和結(jié)構(gòu)化信息等。所述的基于動態(tài)話題模型的動態(tài)文本聚類裝置，其新聞并不限于新聞文本，甚至不局限于文本這一數(shù)據(jù)形式。對于其他形式的數(shù)據(jù)，如微博、視頻、圖片、結(jié)構(gòu)化信息等，只要待處理的數(shù)據(jù)被抽象為特征向量，并采用了與本發(fā)明類似的方法進(jìn)行動態(tài)特征變換和動態(tài)聚類，均應(yīng)包括在本發(fā)明技術(shù)的涵蓋范圍內(nèi)。上述的裝置經(jīng)實際實驗表明，可以有效解決新聞類文本的動態(tài)聚類問題。圖2為本發(fā)明基于動態(tài)話題模型的動態(tài)文本聚類方法的總體流程示意圖，如圖2所示，包括如下主要步驟
步驟Si:采集互聯(lián)網(wǎng)上的新聞數(shù)據(jù)。步驟S2 :對本周期內(nèi)增量新聞做初始特征提取。具體包括對本周期新增的新聞數(shù)據(jù)執(zhí)行分詞、詞性標(biāo)注、去停用詞、專名識別、同義詞歸并等步驟，處理的結(jié)果以詞或短語為單位，統(tǒng)稱為token，對每個token，依據(jù)其頻率、分布、在文中的位置、詞性、專名類型等信息，確定其權(quán)重。再把各token及其分值構(gòu)造成一個基于向量空間模型的初始特征向量。步驟S3 :對本周期內(nèi)增量新聞用動態(tài)話題模型做特征變換，對本周期內(nèi)增量新聞用增量話題模型作特征變換，本發(fā)明實施例中采用增量式概率潛語義分析(IPLSA，Incremental Probabilistic Latent Semantic Analysis)模型進(jìn)行特征變換，該模型可以把每個新聞表示成一組隱變量組成的特征向量。如圖3所示，該過程具體包括
步驟S31 :在聚類結(jié)果(即簇)集合中，找出長時間沒有變化的簇，在IPLSA特征變換模型中，清除這些簇所包含的新聞數(shù)據(jù)，修改其相應(yīng)的參數(shù)。步驟S32 :對于本周期新增的新聞及新出現(xiàn)的token (以初始特征向量表示),使用EM算法將其切拌(fold in)進(jìn)特征變換模型中，更新新增新聞的參數(shù)。步驟S33 :使用EM算法更新整個特征變換模型的參數(shù)。步驟S34:直接取新模型中各新增的新聞對應(yīng)的參數(shù)，組成的向量即為變換后的特征向量。
步驟S4 :對本周期內(nèi)經(jīng)特征變換的新聞數(shù)據(jù)和已有聚類結(jié)果(即簇)進(jìn)行動態(tài)聚類，如圖4所示，該過程包括
步驟S41 :去除長時間沒有變化的聚類結(jié)果(稱為簇)。步驟S42 :對本周期內(nèi)新增的各條新聞的(變換后的)特征向量進(jìn)行UPGMC聚類，在該算法中，聚類結(jié)果中的每個集合(稱為簇)都擁有一個中心向量。并依據(jù)中心向量計算相似度。這里，其相似度的計算方法為采用兩個簇的中心向量的余弦相似度。步驟S43 :對步驟S42中產(chǎn)生的每一個簇，找出現(xiàn)有簇集合中與該簇的相似度最大的簇。相似度的計算方法為仍余弦相似度。如果該相似度大于預(yù)定閥值，就對應(yīng)的兩個簇合并。否則，該簇被加入現(xiàn)有簇集合。步驟S44 :對現(xiàn)有簇再進(jìn)行一次UPGMC聚類，該過程同樣采用余弦相似度計算簇的相似度。本發(fā)明通過上述基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法，用以處理網(wǎng)絡(luò)新聞數(shù)據(jù)，由于網(wǎng)絡(luò)新聞不斷產(chǎn)生，不可能一次性完成聚類，因此本發(fā)明需要周期性地執(zhí)行上述步驟SI 步驟S4。以上所述，僅為本發(fā)明的較佳實施例而已，并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種基于動態(tài)話題模型的動態(tài)文本聚類裝置，其特征在于，包括新聞采集模塊、新聞初始特征提取模塊、動態(tài)特征變換模塊和動態(tài)聚類模塊，其中新聞采集模塊，用于采集互聯(lián)網(wǎng)上的新聞數(shù)據(jù)；新聞初始特征提取模塊，用于對所采集的新聞數(shù)據(jù)進(jìn)行初始特征提?。? 動態(tài)特征變換模塊，用于對提取的初始特征做動態(tài)特征變換；以及動態(tài)聚類模塊，用于對新聞數(shù)據(jù)集，基于變換后的特征做動態(tài)聚類。
2.根據(jù)權(quán)利要求I所述的基于動態(tài)話題模型的動態(tài)文本聚類裝置，其特征在于，所述新聞采集模塊采集到的新聞數(shù)據(jù)為文本、超文本或其他數(shù)據(jù)形式。
3.根據(jù)權(quán)利要求2所述的基于動態(tài)話題模型的動態(tài)文本聚類裝置，其特征在于，所述的其他數(shù)據(jù)形式包括視頻、圖片和結(jié)構(gòu)化信息。
4.一種基于動態(tài)話題模型的動態(tài)文本聚類方法，其特征在于，包括如下步驟 A、采集互聯(lián)網(wǎng)上新聞數(shù)據(jù)的步驟； B、對預(yù)設(shè)周期內(nèi)的增量新聞數(shù)據(jù)做初始特征提取的步驟； C、對本周期內(nèi)增量新聞數(shù)據(jù)用動態(tài)話題模型作特征變換的步驟； D、對本周期內(nèi)經(jīng)特征變換的新聞數(shù)據(jù)和已有聚類結(jié)果進(jìn)行動態(tài)聚類的步驟。
5.根據(jù)權(quán)利要求4所述的基于動態(tài)話題模型的動態(tài)文本聚類方法，其特征在于，步驟A中所述從互聯(lián)網(wǎng)采集到的新聞數(shù)據(jù)為文本、超文本或其他數(shù)據(jù)形式，包括微博、視頻圖片或其他結(jié)構(gòu)化信息。
6.根據(jù)權(quán)利要求4所述的基于動態(tài)話題模型的動態(tài)文本聚類方法，其特征在于，步驟B所述對預(yù)設(shè)周期內(nèi)的增量新聞數(shù)據(jù)作初始特征提取，具體為對新增的新聞數(shù)據(jù)執(zhí)行分詞、詞性標(biāo)注、去停用詞、專名識別、同義詞歸并的步驟，將處理的結(jié)果以詞或短語為單位，稱為token，對每個token，依據(jù)其頻率、分布、在文中的位置、詞性和專名類型的信息，確定其權(quán)重，然后再將各token及其分值構(gòu)造成一個基于向量空間模型的初始特征向量。
7.根據(jù)權(quán)利要求4所述的基于動態(tài)話題模型的動態(tài)文本聚類方法，其特征在于，步驟C所述對本周期內(nèi)增量新聞數(shù)據(jù)用動態(tài)話題模型作特征變換，采用增量式概率潛語義分析IPLSA模型進(jìn)行特征變換，通過該模型將每個新聞數(shù)據(jù)表示成一組隱變量組成的特征向量，具體為 Cl、在聚類結(jié)果即簇的集合中，找出長時間無變化的簇，在IPLSA話題模型中，清除該簇包含的新聞數(shù)據(jù)，修改其相應(yīng)的參數(shù)； C2、對本周期新增的新聞及新出現(xiàn)的token，使用EM算法將其切拌進(jìn)模型中，更新新增新聞的參數(shù)； C3、使用EM算法更新整個模型的參數(shù)； C4、直接取新模型中各新增的新聞對應(yīng)的參數(shù)，組成的向量即為變換后的特征向量。
8.根據(jù)權(quán)利要求4所述的基于動態(tài)話題模型的動態(tài)文本聚類方法，其特征在于，步驟D對本周期內(nèi)經(jīng)特征變換的新聞數(shù)據(jù)和已有聚類結(jié)果即簇執(zhí)行動態(tài)聚類，具體為 D1、去除長時間沒有變化的聚類結(jié)果即簇； D2、對本周期內(nèi)新增的各條新聞數(shù)據(jù)的變換后的特征向量進(jìn)行非加權(quán)組中心UPGMC聚類，所述的聚類結(jié)果中的每個集合即簇均擁有一個中心向量，并根據(jù)所述中心向量計算兩個簇的中心向量的余弦相似度； D3、對上述產(chǎn)生的每一個簇，找出現(xiàn)有簇的集合中與該簇的相似度最大的簇；其相似度的計算方法仍采用余弦相似度；若該相似度大于預(yù)定閥值，就將對應(yīng)的兩個簇合并；否則，將該簇加入現(xiàn)有簇的集合； D4、對現(xiàn)有的簇再進(jìn)行一次UPGMC聚類，該過程同樣采用余弦相似度計算簇的相似度。
全文摘要
本發(fā)明公開了一種基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法，該裝置包括新聞采集模塊、新聞初始特征提取模塊、動態(tài)特征變換模塊和動態(tài)聚類模塊，其中新聞采集模塊，用于采集互聯(lián)網(wǎng)上的新聞數(shù)據(jù)；新聞初始特征提取模塊，用于對所采集的新聞數(shù)據(jù)進(jìn)行初始特征提??；動態(tài)特征變換模塊，用于對提取的初始特征做動態(tài)特征變換；以及動態(tài)聚類模塊，用于對新聞數(shù)據(jù)集，基于變換后的特征做動態(tài)聚類。采用本發(fā)明，能夠解決動態(tài)文本數(shù)據(jù)集的有效聚類問題，以實現(xiàn)動態(tài)話題模型和動態(tài)聚類算法的結(jié)合，解決傳統(tǒng)基于term的文本特征所固有的一詞多義、一義多詞、數(shù)據(jù)稀疏、特征維數(shù)災(zāi)難等問題。
文檔編號G06F17/30GK102915341SQ201210354009
公開日2013年2月6日申請日期2012年9月21日優(yōu)先權(quán)日2012年9月21日
發(fā)明者李德聰, 楊青申請人:人民搜索網(wǎng)絡(luò)股份公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李德聰;楊青
技術(shù)所有人：人民搜索網(wǎng)絡(luò)股份公司
我是此專利的發(fā)明人

上一篇：廣告放置的制作方法
上一篇：一種閾值無關(guān)的機載激光雷達(dá)點云濾波方法及裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本聚類相關(guān)技術(shù)

文本聚類算法相關(guān)技術(shù)

短文本聚類相關(guān)技術(shù)

文本聚類工具相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于動態(tài)話題模型的動態(tài)文本聚類裝置及其方法