一種時(shí)間敏感和自適應(yīng)的子話(huà)題在線(xiàn)檢測(cè)方法及系統(tǒng)的制作方法_3

文檔序號(hào)：9727369閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種時(shí)間敏感和自適應(yīng)的子話(huà)題在線(xiàn)檢測(cè)方法及系統(tǒng)的制作方法

每個(gè)類(lèi)中tf-idf值較大的關(guān)鍵詞；也可以通過(guò)計(jì)算每個(gè)句子的 tf-idf(Dragomir R.Radev,Hongyan Jing,MalgorzataStys,and Daniel Tam.Centroid-based summarization of multiple documents. Information Processing and Management,40:919-938,December 2004.D.Pohl,A.Bouchachia,and H.He11wagner, "Automatic Sub-Event Detection in Emergency Management Using Social Media"，in In First Inter. Workshop on Social Web for Disaster Management (SffDM), In conjunction with WWW' 12,Lyon,France,2012.)，輸出tf-idf較大的句子。后者的優(yōu)點(diǎn)是理解性較強(qiáng)，但是通常一個(gè)句子無(wú)法融入所有的關(guān)鍵詞。
[0050] 具體實(shí)施過(guò)程結(jié)合實(shí)驗(yàn)闡釋如下，例子為"北京房?jī)r(jià)"，需要備注的是，該處實(shí)驗(yàn)為模擬在線(xiàn)檢測(cè)的過(guò)程，實(shí)際實(shí)驗(yàn)是離線(xiàn)的。
[0051 ] (1)運(yùn)用網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)，對(duì)新浪微博進(jìn)行數(shù)據(jù)采集，采集關(guān)鍵詞為"北京房價(jià)"，采集時(shí)間限定為2014-03-01到2014-04-30,采集到數(shù)據(jù)2087條，采集的屬性包括:消息 ID，用戶(hù)ID，用戶(hù)名，屏幕名，會(huì)員，認(rèn)證用戶(hù)，轉(zhuǎn)發(fā)消息ID，消息內(nèi)容，來(lái)源，圖片URL，贊數(shù)，轉(zhuǎn)發(fā)數(shù)，評(píng)論數(shù)，發(fā)布地點(diǎn)，發(fā)布時(shí)間等。并根據(jù)每條微博的時(shí)間升序排序，存放在數(shù)據(jù)庫(kù) 中，按照時(shí)間先后順序模擬在線(xiàn)數(shù)據(jù)流的形式，供后續(xù)模塊處理。
[0052 ] (2)對(duì)數(shù)據(jù)庫(kù)中到來(lái)的每篇微博，提取出時(shí)間和消息內(nèi)容。對(duì)內(nèi)容調(diào)用中文分詞工具，計(jì)算各個(gè)詞項(xiàng)的tf-idf后，表示成向量(ftl，ft2, . . .，ftM);微博提取的時(shí)間即為當(dāng)前時(shí) 間(模擬在線(xiàn)過(guò)程），置％, =1。
[0053] ( 3 )計(jì)算微博4 =<氣，(Λ，·4，_._·Λ,') >與當(dāng)前系統(tǒng)中每個(gè)類(lèi)C i的相似度 similarity(dt,Ci)，本實(shí)驗(yàn)采用余弦相似度：
[0055]并計(jì)算出最大8：[111；[1&1'；^5^^((11；，(^)。若8；[111；[1&1'；^5^^((11；)2]\ /[預(yù)8；[111 = 0.6，則將(^ 分配到子話(huà)題Q，更新Q的類(lèi)中心和該類(lèi)的權(quán)重;否則新建一個(gè)子話(huà)題Ck+1，將dt分配到子話(huà) 題C k+1，更新&+1的類(lèi)中心。類(lèi)中心和類(lèi)權(quán)重的計(jì)算公式為：
[0058] (4)判斷上述聚類(lèi)結(jié)果：（i)類(lèi)的數(shù)目是否超過(guò)了閾值MAXC = 50;(ii)某個(gè)類(lèi)的相對(duì)權(quán)重超過(guò)是否超過(guò)閾值MAXW= 50% ; (iii)系統(tǒng)中的各個(gè)類(lèi)是否出現(xiàn)長(zhǎng)尾現(xiàn)象，最小的 80%的類(lèi)占有的總權(quán)重低于20%。滿(mǎn)足上述一個(gè)以上條件說(shuō)明系統(tǒng)中的子話(huà)題應(yīng)該進(jìn)行調(diào) 整。否則執(zhí)行步驟(2)。下面步驟對(duì)系統(tǒng)中的子話(huà)題進(jìn)行處理。
[0059] (5)對(duì)每個(gè)子話(huà)題進(jìn)行統(tǒng)一預(yù)處理。
[0060] (i)更新每個(gè)類(lèi)中每篇文檔的權(quán)重。更新公式為：
[0062] 其中t為小時(shí)。當(dāng)，時(shí)，將文檔從系統(tǒng)中刪除。
[0063] (ii)更新每個(gè)類(lèi)中心以及類(lèi)權(quán)重，更新公式如上所述。
[0064] (iii)利用現(xiàn)有技術(shù)中的垃圾信息檢測(cè)技術(shù)，檢測(cè)每個(gè)類(lèi)是否屬于離群信息。
[0065] (6)對(duì)上述處理結(jié)果進(jìn)行層次聚類(lèi)，發(fā)現(xiàn)最新子話(huà)題。類(lèi)間的相似度計(jì)算公式為：
[0067] (7)層次聚類(lèi)后，計(jì)算每個(gè)類(lèi)間每個(gè)詞的tf-idf，輸出前6個(gè)值最高的詞，如下面表 1所示。從數(shù)據(jù)中可以觀(guān)測(cè)到2014-03-07日，子話(huà)題引發(fā)的原因是:北京副市長(zhǎng)發(fā)言"京津冀一體化北京房?jī)r(jià)肯定要降"，從而引發(fā)激烈討論;2014-03-18日，子話(huà)題引發(fā)的原因是:李代沫在出租房吸毒被抓，引發(fā)大眾討論，連明星都買(mǎi)不起房，可見(jiàn)北京房?jī)r(jià)有多高；2014-04-29日，子話(huà)題引發(fā)的原因是:通州炒房，環(huán)京旅游，樓市泡沫，并且多位公眾人物表態(tài)引發(fā)的關(guān)于房?jī)r(jià)討論。
[0068]表1系統(tǒng)輸出展示
【主權(quán)項(xiàng)】
1. 一種時(shí)間敏感和自適應(yīng)的子話(huà)題在線(xiàn)檢測(cè)方法，其特征在于，包括如下步驟： 1) 對(duì)文檔流中的每篇文檔進(jìn)行向量化表示； 2) 對(duì)向量化表示后的文檔進(jìn)行增量式聚類(lèi)，若文檔屬于某個(gè)子話(huà)題，則將該文檔加入到該子話(huà)題中，并根據(jù)隨時(shí)間衰減的文檔權(quán)重調(diào)整該子話(huà)題的中心權(quán)重;若文檔不屬于任何一個(gè)子話(huà)題，則建立一個(gè)新子話(huà)題，并同樣根據(jù)隨時(shí)間衰減的文檔權(quán)重調(diào)整該新子話(huà)題的中心權(quán)重； 3) 當(dāng)增量式聚類(lèi)產(chǎn)生的子話(huà)題數(shù)量或者某個(gè)子話(huà)題權(quán)重占比滿(mǎn)足閾值條件，或者子話(huà) 題滿(mǎn)足長(zhǎng)尾檢測(cè)條件時(shí)，進(jìn)行子話(huà)題間的合并或者刪除無(wú)意義的子話(huà)題； 4) 根據(jù)每個(gè)新子話(huà)題的權(quán)重已及其內(nèi)在的文檔分布，對(duì)新子話(huà)題生成摘要，并輸出展2.如權(quán)利要求1所述的方法，其特征在于:步驟1)首先對(duì)文檔進(jìn)行預(yù)處理，包括分詞、去除停用詞;然后將文檔向量化表示成dt =〈at, (fti，ft2, . . .，ftM)>，其中at為時(shí)間衰減系數(shù)， (fti，ft2,· · ·，ftM)為文檔特征向量。3. 如權(quán)利要求1所述的方法，其特征在于:步驟2)通過(guò)計(jì)算文檔與子話(huà)題的相似度，判斷文檔是否屬于某個(gè)子話(huà)題。4. 如權(quán)利要求1所述的方法，其特征在于:步驟2)所述隨時(shí)間衰減的文檔權(quán)重，是指歷史文檔的權(quán)重隨時(shí)間衰減，最新的文檔具有最高的權(quán)重。5. 如權(quán)利要求1所述的方法，其特征在于:步驟2)根據(jù)隨時(shí)間衰減的文檔權(quán)重調(diào)整子話(huà) 題的中心權(quán)重的方法是： (i) 文檔權(quán)重更新：當(dāng)文檔權(quán)重低于設(shè)定的閾值時(shí)，即文檔的時(shí)間距離當(dāng)前時(shí)間很遠(yuǎn)，是過(guò)時(shí)的歷史子話(huà)題，從系統(tǒng)中刪除該文檔； (ii) 類(lèi)中心更新:根據(jù)已經(jīng)更新權(quán)重的文檔，計(jì)算該類(lèi)的權(quán)重及類(lèi)中心。6. 如權(quán)利要求1所述的方法，其特征在于:步驟3)通過(guò)計(jì)算類(lèi)間的相似度并運(yùn)行層次聚類(lèi)算法，實(shí)現(xiàn)子話(huà)題間的合并。7. 如權(quán)利要求1所述的方法，其特征在于：步驟4)采用tf-idf的方式生成摘要，輸出每個(gè)類(lèi)中tf-idf值較大的關(guān)鍵詞；或者通過(guò)計(jì)算每個(gè)句子的tf-idf值，輸出tf-idf值較大的句子。8. 如權(quán)利要求1所述的方法，其特征在于:對(duì)原始文檔進(jìn)行過(guò)濾，摘取與目標(biāo)話(huà)題相關(guān) 的文檔，并按照時(shí)間排序，然后進(jìn)行所述步驟1)。9. 一種時(shí)間敏感和自適應(yīng)的子話(huà)題在線(xiàn)檢測(cè)系統(tǒng)，其特征在于，包括：文檔表示模塊，用于對(duì)文檔流中的每篇文檔進(jìn)行向量化表示；增量式聚類(lèi)模塊，用于對(duì)向量化表示后的文檔進(jìn)行增量式聚類(lèi)，若文檔屬于某個(gè)子話(huà) 題，則將該文檔加入到該子話(huà)題中，并根據(jù)隨時(shí)間衰減的文檔權(quán)重調(diào)整該子話(huà)題的中心權(quán) 重;若文檔不屬于任何一個(gè)子話(huà)題，則建立一個(gè)新子話(huà)題，并同樣根據(jù)隨時(shí)間衰減的文檔權(quán) 重調(diào)整該新子話(huà)題的中心權(quán)重；新子話(huà)題發(fā)現(xiàn)模塊，用于當(dāng)增量式聚類(lèi)產(chǎn)生的子話(huà)題數(shù)量或者某個(gè)子話(huà)題權(quán)重占比滿(mǎn) 足閾值條件，或者子話(huà)題滿(mǎn)足長(zhǎng)尾檢測(cè)條件時(shí)，進(jìn)行子話(huà)題間的合并或者刪除無(wú)意義的子話(huà)題；摘要生成模塊，用于根據(jù)每個(gè)新子話(huà)題的權(quán)重已及其內(nèi)在的文檔分布，對(duì)新子話(huà)題生
【專(zhuān)利摘要】本發(fā)明涉及一種時(shí)間敏感和自適應(yīng)的子話(huà)題在線(xiàn)檢測(cè)方法及系統(tǒng)。該方法包括：1)對(duì)文檔流中的每篇文檔進(jìn)行向量化表示；2)對(duì)文檔進(jìn)行增量式聚類(lèi)，并根據(jù)隨時(shí)間衰減的文檔權(quán)重調(diào)整子話(huà)題的中心權(quán)重；3)當(dāng)聚類(lèi)產(chǎn)生的子話(huà)題數(shù)量或者某個(gè)子話(huà)題權(quán)重占比滿(mǎn)足閾值條件，或者子話(huà)題滿(mǎn)足長(zhǎng)尾檢測(cè)條件時(shí)，進(jìn)行子話(huà)題間的合并或者刪除無(wú)意義的子話(huà)題；4)根據(jù)每個(gè)新子話(huà)題的權(quán)重已及其內(nèi)在的文檔分布，對(duì)新子話(huà)題生成摘要并輸出展示。該系統(tǒng)包括文檔表示模塊、增量式聚類(lèi)模塊、新子話(huà)題發(fā)現(xiàn)模塊、摘要生成模塊。本發(fā)明中歷史文檔權(quán)重隨時(shí)間衰減，并且基于閾值判斷和長(zhǎng)尾檢測(cè)進(jìn)行子話(huà)題數(shù)量和內(nèi)容的動(dòng)態(tài)更新，能夠有效提高子話(huà)題檢測(cè)的效率。
【IPC分類(lèi)】G06F17/30, G06F17/27, G06K9/62, G06Q50/00
【公開(kāi)號(hào)】CN105488092
【申請(qǐng)?zhí)枴緾N201510408490
【發(fā)明人】李思旭, 李銳, 包秀國(guó), 馬宏遠(yuǎn), 楊文靜, 邱泳欽, 程工, 劉春陽(yáng), 龐琳, 王斌
【申請(qǐng)人】中國(guó)科學(xué)院信息工程研究所, 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心
【公開(kāi)日】2016年4月13日
【申請(qǐng)日】2015年7月13日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種時(shí)間敏感和自適應(yīng)的子話(huà)題在線(xiàn)檢測(cè)方法及系統(tǒng)的制作方法_3