一種面向微博的非分詞突發(fā)話題檢測(cè)方法
【專利摘要】本發(fā)明涉及利用計(jì)算機(jī)技術(shù)輔助網(wǎng)絡(luò)信息智能分析或輿情的一種面向微博的非分詞突發(fā)話題檢測(cè)方法。本發(fā)明包括:語(yǔ)料預(yù)處理,構(gòu)建動(dòng)態(tài)的微博檢測(cè)窗口;將微博內(nèi)容切分成單個(gè)漢字,并構(gòu)建字典;計(jì)算突發(fā)特征字集合;計(jì)算由特征字組成的突發(fā)話題;生成有意義詞或串,形成由詞或串表示的突發(fā)話題。本發(fā)明提出了一種無須中文分詞的微博突發(fā)話題檢測(cè)方法,對(duì)中文微博消息內(nèi)容事先不做中文分詞,而是將漢字和英文單詞、圖片、視頻、外部鏈接等作為單個(gè)實(shí)體。最后對(duì)突發(fā)特征實(shí)體中的中文漢字構(gòu)詞,能夠提高檢測(cè)方法的整體性能,提高對(duì)新詞、口語(yǔ)化串的召回率?
【專利說明】-種面向微博的非分詞突發(fā)話題檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及利用計(jì)算機(jī)技術(shù)輔助網(wǎng)絡(luò)信息智能分析或輿情的一種面向微博的非 分詞突發(fā)話題檢測(cè)方法。
【背景技術(shù)】
[0002] 隨著移動(dòng)互聯(lián)網(wǎng)的興起,我國(guó)新浪、騰訊等微博快速崛起。新浪微博注冊(cè)用戶數(shù)已 突破2億,騰訊微博注冊(cè)用戶已超過1. 6億。我國(guó)微博網(wǎng)絡(luò)中每天產(chǎn)生的微博消息數(shù)量超 過3億條,微博平臺(tái)已經(jīng)成為人們?nèi)粘I?、獲取新聞資訊的主要渠道之一。由于微博的推 送機(jī)制,使得微博消息在網(wǎng)絡(luò)中快速傳播,產(chǎn)生巨大的傳播影響力。
[0003] 微博給人們提供資訊的同時(shí),也增加了社會(huì)管理的難度?,F(xiàn)實(shí)社會(huì)中的事件在微 博網(wǎng)絡(luò)中快速擴(kuò)散,迅速演變成突發(fā)事件,產(chǎn)生巨大的社會(huì)影響力。突發(fā)事件中還包含了大 量的虛假信息、謠言消息等,僅僅靠官方賬號(hào)發(fā)動(dòng)網(wǎng)民的舉報(bào)和辟謠,或是當(dāng)事人在第一時(shí) 間出來辟謠,已遠(yuǎn)遠(yuǎn)不能滿足如今網(wǎng)絡(luò)信息傳播的速度,而虛假的信息往往給政府、企業(yè)、 及知名人士帶來負(fù)面的影響。因此需要通過技術(shù)手段實(shí)時(shí)檢測(cè)微博網(wǎng)絡(luò)中的突發(fā)事件,為 危機(jī)管理、辟搖等提供基礎(chǔ)。
[0004] 如何對(duì)微博網(wǎng)絡(luò)中的消息進(jìn)行有效監(jiān)測(cè),是國(guó)家政府及網(wǎng)絡(luò)監(jiān)管部門面臨的一大 課題。僅僅靠人工進(jìn)行搜集和瀏覽,不僅會(huì)消耗大量的人力、物力,并且難以及時(shí)、準(zhǔn)確、全 面把握微博輿論的敏感內(nèi)容和傳播趨勢(shì)。使用微博輿情監(jiān)測(cè)預(yù)警軟件能第一時(shí)間發(fā)現(xiàn)相關(guān) 微博內(nèi)容,對(duì)突發(fā)話題及敏感信息進(jìn)行預(yù)警,并能隨時(shí)掌握輿論關(guān)注動(dòng)向及關(guān)注趨勢(shì)強(qiáng)弱 變化。微博輿情監(jiān)測(cè)軟件是各級(jí)政府、網(wǎng)絡(luò)監(jiān)督部門、品牌企業(yè)上市公司掌握微博輿情的好 幫手。因此,伴隨著微博監(jiān)測(cè)預(yù)警軟件的投入使用,對(duì)微博內(nèi)容的健康有序管理起到積極的 推動(dòng)作用。
[0005] 目前雖然有很多面向微博的輿情監(jiān)測(cè)、預(yù)警軟件,但大多數(shù)軟件都是在中文分詞 的基礎(chǔ)上實(shí)現(xiàn)。微博網(wǎng)絡(luò)中包含大量的社會(huì)化、口語(yǔ)化的詞語(yǔ),基于分詞的方法很難檢測(cè)由 新詞或串誘導(dǎo)的突發(fā)話題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于提供一種提高檢測(cè)方法的整體性能的面向微博的非分詞突發(fā) 話題檢測(cè)方法。
[0007] 本發(fā)明的目的是這樣實(shí)現(xiàn)的:
[0008] 步驟1 :語(yǔ)料預(yù)處理,構(gòu)建動(dòng)態(tài)的微博檢測(cè)窗口;
[0009] 步驟2 :將微博內(nèi)容切分成單個(gè)漢字,并構(gòu)建字典;
[0010] 步驟3 :計(jì)算突發(fā)特征字集合;
[0011] 步驟4 :計(jì)算由特征字組成的突發(fā)話題;
[0012] 步驟5 :生成有意義詞或串,形成由詞或串表示的突發(fā)話題。
[0013] 語(yǔ)料預(yù)處理的步驟為:
[0014] 步驟1. 1 :依據(jù)微博發(fā)布時(shí)間序抽取微博消息元素;
[0015] 步驟1. 2 :微博窗口劃分,基于小波分析思想將微博消息流動(dòng)態(tài)劃分微博窗口。
[0016] 將微博內(nèi)容切分成單個(gè)漢字,并構(gòu)建字典步驟為:
[0017] 步驟2. 1,直接將每一條微博消息以字為單元進(jìn)行切分,無需去除停用詞;
[0018] 步驟2. 2,按照字典序進(jìn)行存儲(chǔ),支持高效查找和動(dòng)態(tài)更新。
[0019] 計(jì)算突發(fā)特征字集合步驟為:
[0020] 步驟3. 1,遍歷字典,依據(jù)歷史特征權(quán)值和檢測(cè)窗口中的突發(fā)特征權(quán)值判定當(dāng)前檢 測(cè)窗口是否發(fā)生突發(fā);
[0021] 步驟3. 2,更新歷史窗口中字的特征權(quán)值,依據(jù)生命周期模型中的老化理論,更新 字的特征權(quán)值;
[0022] 步驟33,計(jì)算當(dāng)前檢測(cè)窗口中字的突發(fā)特征權(quán)值,在考慮用戶的粉絲數(shù)、消息的轉(zhuǎn) 發(fā)數(shù)和評(píng)論數(shù)基礎(chǔ)上計(jì)算字的影響力,并將字的影響力作為突發(fā)特征權(quán)值。
[0023] 計(jì)算由特征字組成的突發(fā)話題步驟為:
[0024] 步驟4. 1,構(gòu)建突發(fā)特征字與消息、用戶之間的關(guān)系矩陣;
[0025] 步驟4. 2,通過聯(lián)合聚類算法對(duì)關(guān)系矩陣進(jìn)行計(jì)算,得到實(shí)體、消息、用戶的聚類指 示矩陣。
[0026] 生成有意義詞或串,形成由詞或串表示的突發(fā)話題的步驟為:
[0027] 步驟5. 1,對(duì)于每一個(gè)話題中的漢字以及對(duì)應(yīng)的消息作為樣本集合,計(jì)算話題中任 意兩個(gè)字之間的聚合程度;
[0028] 步驟5. 2,計(jì)算話題中左右邊界字的熵;
[0029] 步驟5. 3,依據(jù)聚合程度和左右邊界字的熵值判定是否可生產(chǎn)一個(gè)有意義詞或串。
[0030] 生成字典步驟包括:
[0031] 步驟2.2. 1,字典為空,則根據(jù)漢字的字典序插入到字典中;
[0032] 步驟2. 2. 2,若字典不為空并已存在字典中,則直接將該字在當(dāng)前檢測(cè)窗口中的關(guān) 聯(lián)信息增加到字典中;
[0033] 步驟2. 2. 3,若字典不為空且不存在字典中,基于字典序?qū)崿F(xiàn)二分查找,依據(jù)查找 返回結(jié)果得到字典序號(hào),將該字插入字典,字典當(dāng)前序號(hào)后面的字依次后移。
[0034] 本發(fā)明的有益效果在于:
[0035] 1)本發(fā)明提出了一種無須中文分詞的微博突發(fā)話題檢測(cè)方法,對(duì)中文微博消息內(nèi) 容事先不做中文分詞,而是將漢字和英文單詞、圖片、視頻、外部鏈接等作為單個(gè)實(shí)體。最后 對(duì)突發(fā)特征實(shí)體中的中文漢字構(gòu)詞,能夠提高檢測(cè)方法的整體性能,提高對(duì)新詞、口語(yǔ)化串 的召回率。
[0036] 2)從影響力的角度提出突發(fā)權(quán)值的計(jì)算方法,并且引入權(quán)值的衰減機(jī)制,能夠過 濾掉一些垃圾用戶、水軍等的影響。
[0037] 3)本發(fā)明同時(shí)對(duì)突發(fā)特征實(shí)體、消息、用戶進(jìn)行聯(lián)合聚類分析,在檢測(cè)話題的同 時(shí),識(shí)別參與話題的用戶。為突發(fā)話題提供盡可能多的信息,為微博輿情危機(jī)管理提供了可 控、可管的可能。
【專利附圖】
【附圖說明】
[0038] 圖1系統(tǒng)檢測(cè)框架圖。
[0039] 圖2突發(fā)檢測(cè)中字典的存儲(chǔ)結(jié)構(gòu)。
[0040] 圖3生成新詞的過程圖。
【具體實(shí)施方式】
[0041] 現(xiàn)有的基于中文分詞的突發(fā)話題檢測(cè)方法都是基于特征詞的詞頻信息進(jìn)行檢測(cè)。 對(duì)于中文微博來說,首先要進(jìn)行中文分詞,構(gòu)造特征詞的特征軌跡,根據(jù)一定的突發(fā)檢測(cè)算 法計(jì)算出突發(fā)特征詞,然后用關(guān)聯(lián)度高的特征詞集合來表示突發(fā)話題。
[0042] 對(duì)于中文微博來說,這種方法有一定的缺陷性。因?yàn)槲⒉┯脩舻亩鄻有?,致使微?用語(yǔ)具有靈活、不規(guī)范的特點(diǎn),例如屌絲、薄谷開來、舌尖上的中國(guó)、唐山地震等詞或串。微 博中出現(xiàn)大量的由新詞或串誘導(dǎo)的突發(fā)話題,而根據(jù)中文分詞詞典則無法劃分出這些新詞 或有意義串,從而無法準(zhǔn)確發(fā)現(xiàn)微博中的突發(fā)話題。
[0043] 正是基于目前微博突發(fā)話題檢測(cè)方法存在的不足,本專利提出一種基于特征字的 突發(fā)話題檢測(cè)方法。該方法無需中文分詞。將文本消息流分成一個(gè)一個(gè)獨(dú)立的漢字,直接 檢測(cè)當(dāng)前時(shí)間窗口的突發(fā)字集合,然后計(jì)算這些字之間的相關(guān)度形成突發(fā)話題,采用一定 的新詞發(fā)現(xiàn)方法把突發(fā)特征字組合成有意義的特征詞或串,從而表示突發(fā)話題。整體檢測(cè) 流程如圖1所示,具體分為五個(gè)步驟。
[0044] 步驟A :語(yǔ)料預(yù)處理;
[0045] 步驟B:生成字典;
[0046] 步驟C :計(jì)算突發(fā)特征字;
[0047] 步驟D :計(jì)算由特征字組成的突發(fā)話題;
[0048] 步驟E :生成有意義詞或串,表示突發(fā)話題。
[0049] 所述步驟A包括些下列步驟:
[0050] 步驟A1,依據(jù)微博發(fā)布時(shí)間序抽取微博消息元素;
[0051] 步驟A2,微博窗口劃分,基于小波分析思想將微博消息流動(dòng)態(tài)劃分微博窗口。
[0052] 所述步驟B包括些下列步驟:
[0053] 步驟B1,直接將每一條微博消息以字為單元進(jìn)行切分,無需去除停用詞等;
[0054] 步驟B2,按照字典序進(jìn)行存儲(chǔ),支持高效查找和動(dòng)態(tài)更新。
[0055] 所述步驟C包括些下列步驟:
[0056] 步驟C1,遍歷字典,依據(jù)歷史特征權(quán)值和檢測(cè)窗口中的突發(fā)特征權(quán)值判定當(dāng)前檢 測(cè)窗口是否發(fā)生突發(fā);
[0057] 步驟C2,更新歷史窗口中字的特征權(quán)值,依據(jù)生命周期模型中的老化理論,更新字 的特征權(quán)值;
[0058] 步驟C3,計(jì)算當(dāng)前檢測(cè)窗口中字的突發(fā)特征權(quán)值,在考慮用戶的粉絲數(shù)、消息的轉(zhuǎn) 發(fā)數(shù)和評(píng)論數(shù)基礎(chǔ)上計(jì)算字的影響力,并將字的影響力作為突發(fā)特征權(quán)值。
[0059] 所述步驟D包括些下列步驟:
[0060] 步驟D1,構(gòu)建突發(fā)特征字與消息、用戶之間的關(guān)系矩陣;
[0061] 步驟D2,通過聯(lián)合聚類算法對(duì)關(guān)系矩陣進(jìn)行計(jì)算,得到實(shí)體、消息、用戶的聚類指 示矩陣。
[0062] 所述步驟E包括些下列步驟:
[0063] 步驟E1,對(duì)于每一個(gè)話題中的漢字以及對(duì)應(yīng)的消息作為樣本集合,計(jì)算話題中任 意兩個(gè)字之間的聚合程度;
[0064] 步驟E2,計(jì)算話題中左右邊界字的熵;
[0065] 步驟E3,依據(jù)聚合程度和左右邊界字的熵值判定是否可生產(chǎn)一個(gè)有意義詞或串。
[0066] 所述步驟B2包括些下列步驟:
[0067] 步驟B21,字典為空,則根據(jù)漢字的字典序插入到字典中;
[0068] 步驟B22,若字典不為空并已存在字典中,則直接將該字在當(dāng)前檢測(cè)窗口中的關(guān)聯(lián) 信息增加到字典中;
[0069] 步驟B23,若字典不為空且不存在字典中,基于字典序?qū)崿F(xiàn)二分查找,依據(jù)查找返 回結(jié)果得到字典序號(hào),將該字插入字典,字典當(dāng)前序號(hào)后面的字依次后移。
[0070] 為了完成本發(fā)明,針對(duì)微博消息流的非分詞突發(fā)話題檢測(cè)進(jìn)行如下實(shí)施,并給出 具體的實(shí)施方案。
[0071] (一)在步驟A中,按照微博發(fā)布時(shí)間重構(gòu)微博消息流,針對(duì)每一條微博消息ffli進(jìn) 行元素抽取,包括用戶信息(粉絲數(shù)、關(guān)注數(shù)、發(fā)布微博消息總數(shù))和消息屬性信息(消息 發(fā)布時(shí)間、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù))。借鑒小波變換的多分辨率分析的思想,提出了動(dòng)態(tài)窗口選擇算 法,如算法1所示。算法中的微博窗口和滑動(dòng)窗口閾值參數(shù)α、β可調(diào)整,I · I為對(duì)應(yīng)的 消息數(shù)目。算法中第1步可根據(jù)實(shí)際微博流量大小通過參數(shù)α調(diào)整微博窗口大小,第4步 動(dòng)態(tài)調(diào)整滑動(dòng)窗口大小。因此,在微博消息流量較大時(shí),對(duì)應(yīng)的時(shí)間間隔則較小,而在晚上 微博數(shù)較少時(shí),則擴(kuò)大對(duì)應(yīng)的時(shí)間間隔。
[0072] 算法1 :動(dòng)態(tài)窗口選擇算法.
[0073] 輸入:ms :微博消息流;α :微博窗口調(diào)整系數(shù);β :滑動(dòng)窗口調(diào)整系數(shù)
[0074] 輸出:sw:滑動(dòng)窗口。
[0075] ① for each 1? e ms do
[0076] ②按照時(shí)間t劃分到時(shí)間片St中;
【權(quán)利要求】
1. 一種面向微博的非分詞突發(fā)話題檢測(cè)方法,其特征在于:包括以下步驟: 步驟1 :語(yǔ)料預(yù)處理,構(gòu)建動(dòng)態(tài)的微博檢測(cè)窗口; 步驟2 :將微博內(nèi)容切分成單個(gè)漢字,并構(gòu)建字典; 步驟3:計(jì)算突發(fā)特征字集合; 步驟4 :計(jì)算由特征字組成的突發(fā)話題; 步驟5:生成有意義詞或串,形成由詞或串表示的突發(fā)話題。
2. 根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法,其特征是:所述 語(yǔ)料預(yù)處理的步驟為: 步驟1. 1 :依據(jù)微博發(fā)布時(shí)間序抽取微博消息元素; 步驟1. 2 :微博窗口劃分,基于小波分析思想將微博消息流動(dòng)態(tài)劃分微博窗口。
3. 根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法,其特征是:所述 將微博內(nèi)容切分成單個(gè)漢字,并構(gòu)建字典步驟為: 步驟2. 1,直接將每一條微博消息以字為單元進(jìn)行切分,無需去除停用詞; 步驟2. 2,按照字典序進(jìn)行存儲(chǔ),支持高效查找和動(dòng)態(tài)更新。
4. 根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法,其特征是:所述 計(jì)算突發(fā)特征字集合步驟為: 步驟3. 1,遍歷字典,依據(jù)歷史特征權(quán)值和檢測(cè)窗口中的突發(fā)特征權(quán)值判定當(dāng)前檢測(cè)窗 口是否發(fā)生突發(fā); 步驟3. 2,更新歷史窗口中字的特征權(quán)值,依據(jù)生命周期模型中的老化理論,更新字的 特征權(quán)值; 步驟33,計(jì)算當(dāng)前檢測(cè)窗口中字的突發(fā)特征權(quán)值,在考慮用戶的粉絲數(shù)、消息的轉(zhuǎn)發(fā)數(shù) 和評(píng)論數(shù)基礎(chǔ)上計(jì)算字的影響力,并將字的影響力作為突發(fā)特征權(quán)值。
5. 根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法,其特征是:所述 計(jì)算由特征字組成的突發(fā)話題步驟為: 步驟4. 1,構(gòu)建突發(fā)特征字與消息、用戶之間的關(guān)系矩陣; 步驟4. 2,通過聯(lián)合聚類算法對(duì)關(guān)系矩陣進(jìn)行計(jì)算,得到實(shí)體、消息、用戶的聚類指示矩 陣。
6. 根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法,其特征是:所述 生成有意義詞或串,形成由詞或串表示的突發(fā)話題的步驟為: 步驟5. 1,對(duì)于每一個(gè)話題中的漢字以及對(duì)應(yīng)的消息作為樣本集合,計(jì)算話題中任意兩 個(gè)字之間的聚合程度; 步驟5. 2,計(jì)算話題中左右邊界字的熵; 步驟5. 3,依據(jù)聚合程度和左右邊界字的熵值判定是否可生產(chǎn)一個(gè)有意義詞或串。
7. 根據(jù)權(quán)利要求1或4所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法,其特征是: 所述生成字典步驟包括: 步驟2. 2. 1,字典為空,則根據(jù)漢字的字典序插入到字典中; 步驟2. 2. 2,若字典不為空并已存在字典中,則直接將該字在當(dāng)前檢測(cè)窗口中的關(guān)聯(lián)信 息增加到字典中; 步驟2. 2. 3,若字典不為空且不存在字典中,基于字典序?qū)崿F(xiàn)二分查找,依據(jù)查找返回 結(jié)果得到字典序號(hào),將該字插入字典,字典當(dāng)前序號(hào)后面的字依次后移。
【文檔編號(hào)】G06F17/30GK104216964SQ201410416127
【公開日】2014年12月17日 申請(qǐng)日期:2014年8月22日 優(yōu)先權(quán)日:2014年8月22日
【發(fā)明者】楊武, 伸國(guó)偉, 王巍, 苘大鵬, 宣世昌 申請(qǐng)人:哈爾濱工程大學(xué)