每個(gè)類(lèi)中tf-idf值較大的關(guān)鍵詞;也可以通過(guò)計(jì)算每個(gè)句子的 tf-idf(Dragomir R.Radev,Hongyan Jing,MalgorzataStys,and Daniel Tam.Centroid-based summarization of multiple documents. Information Processing and Management,40:919-938,December 2004.D.Pohl,A.Bouchachia,and H.He11wagner, "Automatic Sub-Event Detection in Emergency Management Using Social Media",in In First Inter. Workshop on Social Web for Disaster Management (SffDM), In conjunction with WWW' 12,Lyon,France,2012.),輸出tf-idf較大的句子。后者的優(yōu)點(diǎn)是 理解性較強(qiáng),但是通常一個(gè)句子無(wú)法融入所有的關(guān)鍵詞。
[0050] 具體實(shí)施過(guò)程結(jié)合實(shí)驗(yàn)闡釋如下,例子為"北京房?jī)r(jià)",需要備注的是,該處實(shí)驗(yàn)為 模擬在線(xiàn)檢測(cè)的過(guò)程,實(shí)際實(shí)驗(yàn)是離線(xiàn)的。
[0051 ] (1)運(yùn)用網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù),對(duì)新浪微博進(jìn)行數(shù)據(jù)采集,采集關(guān)鍵詞為"北京房 價(jià)",采集時(shí)間限定為2014-03-01到2014-04-30,采集到數(shù)據(jù)2087條,采集的屬性包括:消息 ID,用戶(hù)ID,用戶(hù)名,屏幕名,會(huì)員,認(rèn)證用戶(hù),轉(zhuǎn)發(fā)消息ID,消息內(nèi)容,來(lái)源,圖片URL,贊數(shù), 轉(zhuǎn)發(fā)數(shù),評(píng)論數(shù),發(fā)布地點(diǎn),發(fā)布時(shí)間等。并根據(jù)每條微博的時(shí)間升序排序,存放在數(shù)據(jù)庫(kù) 中,按照時(shí)間先后順序模擬在線(xiàn)數(shù)據(jù)流的形式,供后續(xù)模塊處理。
[0052 ] (2)對(duì)數(shù)據(jù)庫(kù)中到來(lái)的每篇微博,提取出時(shí)間和消息內(nèi)容。對(duì)內(nèi)容調(diào)用中文分詞工 具,計(jì)算各個(gè)詞項(xiàng)的tf-idf后,表示成向量(ftl,ft2, . . .,ftM);微博提取的時(shí)間即為當(dāng)前時(shí) 間(模擬在線(xiàn)過(guò)程),置%, =1。
[0053] ( 3 )計(jì)算微博4 =<氣,(Λ,·4,_._·Λ,') >與當(dāng)前系統(tǒng)中每個(gè)類(lèi)C i的相似度 similarity(dt,Ci),本實(shí)驗(yàn)采用余弦相似度:
[0055]并計(jì)算出最大8:[111;[1&1';^5^^((11;,(^)。若8;[111;[1&1';^5^^((11;)2]\ /[預(yù)8;[111 = 0.6,則將(^ 分配到子話(huà)題Q,更新Q的類(lèi)中心和該類(lèi)的權(quán)重;否則新建一個(gè)子話(huà)題Ck+1,將dt分配到子話(huà) 題C k+1,更新&+1的類(lèi)中心。類(lèi)中心和類(lèi)權(quán)重的計(jì)算公式為:
[0058] (4)判斷上述聚類(lèi)結(jié)果:(i)類(lèi)的數(shù)目是否超過(guò)了閾值MAXC = 50;(ii)某個(gè)類(lèi)的相 對(duì)權(quán)重超過(guò)是否超過(guò)閾值MAXW= 50% ; (iii)系統(tǒng)中的各個(gè)類(lèi)是否出現(xiàn)長(zhǎng)尾現(xiàn)象,最小的 80%的類(lèi)占有的總權(quán)重低于20%。滿(mǎn)足上述一個(gè)以上條件說(shuō)明系統(tǒng)中的子話(huà)題應(yīng)該進(jìn)行調(diào) 整。否則執(zhí)行步驟(2)。下面步驟對(duì)系統(tǒng)中的子話(huà)題進(jìn)行處理。
[0059] (5)對(duì)每個(gè)子話(huà)題進(jìn)行統(tǒng)一預(yù)處理。
[0060] (i)更新每個(gè)類(lèi)中每篇文檔的權(quán)重。更新公式為:
[0062] 其中t為小時(shí)。當(dāng),時(shí),將文檔從系統(tǒng)中刪除。
[0063] (ii)更新每個(gè)類(lèi)中心以及類(lèi)權(quán)重,更新公式如上所述。
[0064] (iii)利用現(xiàn)有技術(shù)中的垃圾信息檢測(cè)技術(shù),檢測(cè)每個(gè)類(lèi)是否屬于離群信息。
[0065] (6)對(duì)上述處理結(jié)果進(jìn)行層次聚類(lèi),發(fā)現(xiàn)最新子話(huà)題。類(lèi)間的相似度計(jì)算公式為:
[0067] (7)層次聚類(lèi)后,計(jì)算每個(gè)類(lèi)間每個(gè)詞的tf-idf,輸出前6個(gè)值最高的詞,如下面表 1所示。從數(shù)據(jù)中可以觀(guān)測(cè)到2014-03-07日,子話(huà)題引發(fā)的原因是:北京副市長(zhǎng)發(fā)言"京津冀 一體化北京房?jī)r(jià)肯定要降",從而引發(fā)激烈討論;2014-03-18日,子話(huà)題引發(fā)的原因是:李代 沫在出租房吸毒被抓,引發(fā)大眾討論,連明星都買(mǎi)不起房,可見(jiàn)北京房?jī)r(jià)有多高;2014-04-29日,子話(huà)題引發(fā)的原因是:通州炒房,環(huán)京旅游,樓市泡沫,并且多位公眾人物表態(tài)引發(fā)的 關(guān)于房?jī)r(jià)討論。
[0068]表1系統(tǒng)輸出展示
【主權(quán)項(xiàng)】
1. 一種時(shí)間敏感和自適應(yīng)的子話(huà)題在線(xiàn)檢測(cè)方法,其特征在于,包括如下步驟: 1) 對(duì)文檔流中的每篇文檔進(jìn)行向量化表示; 2) 對(duì)向量化表示后的文檔進(jìn)行增量式聚類(lèi),若文檔屬于某個(gè)子話(huà)題,則將該文檔加入 到該子話(huà)題中,并根據(jù)隨時(shí)間衰減的文檔權(quán)重調(diào)整該子話(huà)題的中心權(quán)重;若文檔不屬于任 何一個(gè)子話(huà)題,則建立一個(gè)新子話(huà)題,并同樣根據(jù)隨時(shí)間衰減的文檔權(quán)重調(diào)整該新子話(huà)題 的中心權(quán)重; 3) 當(dāng)增量式聚類(lèi)產(chǎn)生的子話(huà)題數(shù)量或者某個(gè)子話(huà)題權(quán)重占比滿(mǎn)足閾值條件,或者子話(huà) 題滿(mǎn)足長(zhǎng)尾檢測(cè)條件時(shí),進(jìn)行子話(huà)題間的合并或者刪除無(wú)意義的子話(huà)題; 4) 根據(jù)每個(gè)新子話(huà)題的權(quán)重已及其內(nèi)在的文檔分布,對(duì)新子話(huà)題生成摘要,并輸出展2.如權(quán)利要求1所述的方法,其特征在于:步驟1)首先對(duì)文檔進(jìn)行預(yù)處理,包括分詞、去 除停用詞;然后將文檔向量化表示成dt =〈at, (fti,ft2, . . .,ftM)>,其中at為時(shí)間衰減系數(shù), (fti,ft2,· · ·,ftM)為文檔特征向量。3. 如權(quán)利要求1所述的方法,其特征在于:步驟2)通過(guò)計(jì)算文檔與子話(huà)題的相似度,判 斷文檔是否屬于某個(gè)子話(huà)題。4. 如權(quán)利要求1所述的方法,其特征在于:步驟2)所述隨時(shí)間衰減的文檔權(quán)重,是指歷 史文檔的權(quán)重隨時(shí)間衰減,最新的文檔具有最高的權(quán)重。5. 如權(quán)利要求1所述的方法,其特征在于:步驟2)根據(jù)隨時(shí)間衰減的文檔權(quán)重調(diào)整子話(huà) 題的中心權(quán)重的方法是: (i) 文檔權(quán)重更新:當(dāng)文檔權(quán)重低于設(shè)定的閾值時(shí),即文檔的時(shí)間距離當(dāng)前時(shí)間很遠(yuǎn), 是過(guò)時(shí)的歷史子話(huà)題,從系統(tǒng)中刪除該文檔; (ii) 類(lèi)中心更新:根據(jù)已經(jīng)更新權(quán)重的文檔,計(jì)算該類(lèi)的權(quán)重及類(lèi)中心。6. 如權(quán)利要求1所述的方法,其特征在于:步驟3)通過(guò)計(jì)算類(lèi)間的相似度并運(yùn)行層次聚 類(lèi)算法,實(shí)現(xiàn)子話(huà)題間的合并。7. 如權(quán)利要求1所述的方法,其特征在于:步驟4)采用tf-idf的方式生成摘要,輸出每 個(gè)類(lèi)中tf-idf值較大的關(guān)鍵詞;或者通過(guò)計(jì)算每個(gè)句子的tf-idf值,輸出tf-idf值較大的 句子。8. 如權(quán)利要求1所述的方法,其特征在于:對(duì)原始文檔進(jìn)行過(guò)濾,摘取與目標(biāo)話(huà)題相關(guān) 的文檔,并按照時(shí)間排序,然后進(jìn)行所述步驟1)。9. 一種時(shí)間敏感和自適應(yīng)的子話(huà)題在線(xiàn)檢測(cè)系統(tǒng),其特征在于,包括: 文檔表示模塊,用于對(duì)文檔流中的每篇文檔進(jìn)行向量化表示; 增量式聚類(lèi)模塊,用于對(duì)向量化表示后的文檔進(jìn)行增量式聚類(lèi),若文檔屬于某個(gè)子話(huà) 題,則將該文檔加入到該子話(huà)題中,并根據(jù)隨時(shí)間衰減的文檔權(quán)重調(diào)整該子話(huà)題的中心權(quán) 重;若文檔不屬于任何一個(gè)子話(huà)題,則建立一個(gè)新子話(huà)題,并同樣根據(jù)隨時(shí)間衰減的文檔權(quán) 重調(diào)整該新子話(huà)題的中心權(quán)重; 新子話(huà)題發(fā)現(xiàn)模塊,用于當(dāng)增量式聚類(lèi)產(chǎn)生的子話(huà)題數(shù)量或者某個(gè)子話(huà)題權(quán)重占比滿(mǎn) 足閾值條件,或者子話(huà)題滿(mǎn)足長(zhǎng)尾檢測(cè)條件時(shí),進(jìn)行子話(huà)題間的合并或者刪除無(wú)意義的子 話(huà)題; 摘要生成模塊,用于根據(jù)每個(gè)新子話(huà)題的權(quán)重已及其內(nèi)在的文檔分布,對(duì)新子話(huà)題生
【專(zhuān)利摘要】本發(fā)明涉及一種時(shí)間敏感和自適應(yīng)的子話(huà)題在線(xiàn)檢測(cè)方法及系統(tǒng)。該方法包括:1)對(duì)文檔流中的每篇文檔進(jìn)行向量化表示;2)對(duì)文檔進(jìn)行增量式聚類(lèi),并根據(jù)隨時(shí)間衰減的文檔權(quán)重調(diào)整子話(huà)題的中心權(quán)重;3)當(dāng)聚類(lèi)產(chǎn)生的子話(huà)題數(shù)量或者某個(gè)子話(huà)題權(quán)重占比滿(mǎn)足閾值條件,或者子話(huà)題滿(mǎn)足長(zhǎng)尾檢測(cè)條件時(shí),進(jìn)行子話(huà)題間的合并或者刪除無(wú)意義的子話(huà)題;4)根據(jù)每個(gè)新子話(huà)題的權(quán)重已及其內(nèi)在的文檔分布,對(duì)新子話(huà)題生成摘要并輸出展示。該系統(tǒng)包括文檔表示模塊、增量式聚類(lèi)模塊、新子話(huà)題發(fā)現(xiàn)模塊、摘要生成模塊。本發(fā)明中歷史文檔權(quán)重隨時(shí)間衰減,并且基于閾值判斷和長(zhǎng)尾檢測(cè)進(jìn)行子話(huà)題數(shù)量和內(nèi)容的動(dòng)態(tài)更新,能夠有效提高子話(huà)題檢測(cè)的效率。
【IPC分類(lèi)】G06F17/30, G06F17/27, G06K9/62, G06Q50/00
【公開(kāi)號(hào)】CN105488092
【申請(qǐng)?zhí)枴緾N201510408490
【發(fā)明人】李思旭, 李銳, 包秀國(guó), 馬宏遠(yuǎn), 楊文靜, 邱泳欽, 程工, 劉春陽(yáng), 龐琳, 王斌
【申請(qǐng)人】中國(guó)科學(xué)院信息工程研究所, 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心
【公開(kāi)日】2016年4月13日
【申請(qǐng)日】2015年7月13日