一種面向微博的非分詞突發(fā)話題檢測(cè)方法

文檔序號(hào)：6624320閱讀：197來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種面向微博的非分詞突發(fā)話題檢測(cè)方法
【專利摘要】本發(fā)明涉及利用計(jì)算機(jī)技術(shù)輔助網(wǎng)絡(luò)信息智能分析或輿情的一種面向微博的非分詞突發(fā)話題檢測(cè)方法。本發(fā)明包括：語(yǔ)料預(yù)處理，構(gòu)建動(dòng)態(tài)的微博檢測(cè)窗口；將微博內(nèi)容切分成單個(gè)漢字，并構(gòu)建字典；計(jì)算突發(fā)特征字集合；計(jì)算由特征字組成的突發(fā)話題；生成有意義詞或串，形成由詞或串表示的突發(fā)話題。本發(fā)明提出了一種無須中文分詞的微博突發(fā)話題檢測(cè)方法，對(duì)中文微博消息內(nèi)容事先不做中文分詞，而是將漢字和英文單詞、圖片、視頻、外部鏈接等作為單個(gè)實(shí)體。最后對(duì)突發(fā)特征實(shí)體中的中文漢字構(gòu)詞，能夠提高檢測(cè)方法的整體性能，提高對(duì)新詞、口語(yǔ)化串的召回率?
【專利說明】-種面向微博的非分詞突發(fā)話題檢測(cè)方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及利用計(jì)算機(jī)技術(shù)輔助網(wǎng)絡(luò)信息智能分析或輿情的一種面向微博的非分詞突發(fā)話題檢測(cè)方法。

【背景技術(shù)】
[0002] 隨著移動(dòng)互聯(lián)網(wǎng)的興起，我國(guó)新浪、騰訊等微博快速崛起。新浪微博注冊(cè)用戶數(shù)已突破2億，騰訊微博注冊(cè)用戶已超過1. 6億。我國(guó)微博網(wǎng)絡(luò)中每天產(chǎn)生的微博消息數(shù)量超過3億條，微博平臺(tái)已經(jīng)成為人們?nèi)粘Ｉ?、獲取新聞資訊的主要渠道之一。由于微博的推送機(jī)制，使得微博消息在網(wǎng)絡(luò)中快速傳播，產(chǎn)生巨大的傳播影響力。
[0003] 微博給人們提供資訊的同時(shí)，也增加了社會(huì)管理的難度?，F(xiàn)實(shí)社會(huì)中的事件在微博網(wǎng)絡(luò)中快速擴(kuò)散，迅速演變成突發(fā)事件，產(chǎn)生巨大的社會(huì)影響力。突發(fā)事件中還包含了大量的虛假信息、謠言消息等，僅僅靠官方賬號(hào)發(fā)動(dòng)網(wǎng)民的舉報(bào)和辟謠，或是當(dāng)事人在第一時(shí) 間出來辟謠，已遠(yuǎn)遠(yuǎn)不能滿足如今網(wǎng)絡(luò)信息傳播的速度，而虛假的信息往往給政府、企業(yè)、及知名人士帶來負(fù)面的影響。因此需要通過技術(shù)手段實(shí)時(shí)檢測(cè)微博網(wǎng)絡(luò)中的突發(fā)事件，為危機(jī)管理、辟搖等提供基礎(chǔ)。
[0004] 如何對(duì)微博網(wǎng)絡(luò)中的消息進(jìn)行有效監(jiān)測(cè)，是國(guó)家政府及網(wǎng)絡(luò)監(jiān)管部門面臨的一大課題。僅僅靠人工進(jìn)行搜集和瀏覽，不僅會(huì)消耗大量的人力、物力，并且難以及時(shí)、準(zhǔn)確、全面把握微博輿論的敏感內(nèi)容和傳播趨勢(shì)。使用微博輿情監(jiān)測(cè)預(yù)警軟件能第一時(shí)間發(fā)現(xiàn)相關(guān) 微博內(nèi)容，對(duì)突發(fā)話題及敏感信息進(jìn)行預(yù)警，并能隨時(shí)掌握輿論關(guān)注動(dòng)向及關(guān)注趨勢(shì)強(qiáng)弱變化。微博輿情監(jiān)測(cè)軟件是各級(jí)政府、網(wǎng)絡(luò)監(jiān)督部門、品牌企業(yè)上市公司掌握微博輿情的好幫手。因此，伴隨著微博監(jiān)測(cè)預(yù)警軟件的投入使用，對(duì)微博內(nèi)容的健康有序管理起到積極的推動(dòng)作用。
[0005] 目前雖然有很多面向微博的輿情監(jiān)測(cè)、預(yù)警軟件，但大多數(shù)軟件都是在中文分詞的基礎(chǔ)上實(shí)現(xiàn)。微博網(wǎng)絡(luò)中包含大量的社會(huì)化、口語(yǔ)化的詞語(yǔ)，基于分詞的方法很難檢測(cè)由新詞或串誘導(dǎo)的突發(fā)話題。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的在于提供一種提高檢測(cè)方法的整體性能的面向微博的非分詞突發(fā) 話題檢測(cè)方法。
[0007] 本發(fā)明的目的是這樣實(shí)現(xiàn)的：
[0008] 步驟1 :語(yǔ)料預(yù)處理，構(gòu)建動(dòng)態(tài)的微博檢測(cè)窗口；
[0009] 步驟2 :將微博內(nèi)容切分成單個(gè)漢字，并構(gòu)建字典；
[0010] 步驟3 :計(jì)算突發(fā)特征字集合；
[0011] 步驟4 :計(jì)算由特征字組成的突發(fā)話題；
[0012] 步驟5 :生成有意義詞或串，形成由詞或串表示的突發(fā)話題。
[0013] 語(yǔ)料預(yù)處理的步驟為：
[0014] 步驟1. 1 :依據(jù)微博發(fā)布時(shí)間序抽取微博消息元素；
[0015] 步驟1. 2 :微博窗口劃分，基于小波分析思想將微博消息流動(dòng)態(tài)劃分微博窗口。
[0016] 將微博內(nèi)容切分成單個(gè)漢字，并構(gòu)建字典步驟為：
[0017] 步驟2. 1，直接將每一條微博消息以字為單元進(jìn)行切分，無需去除停用詞；
[0018] 步驟2. 2,按照字典序進(jìn)行存儲(chǔ)，支持高效查找和動(dòng)態(tài)更新。
[0019] 計(jì)算突發(fā)特征字集合步驟為：
[0020] 步驟3. 1，遍歷字典，依據(jù)歷史特征權(quán)值和檢測(cè)窗口中的突發(fā)特征權(quán)值判定當(dāng)前檢測(cè)窗口是否發(fā)生突發(fā)；
[0021] 步驟3. 2,更新歷史窗口中字的特征權(quán)值，依據(jù)生命周期模型中的老化理論，更新字的特征權(quán)值；
[0022] 步驟33,計(jì)算當(dāng)前檢測(cè)窗口中字的突發(fā)特征權(quán)值，在考慮用戶的粉絲數(shù)、消息的轉(zhuǎn) 發(fā)數(shù)和評(píng)論數(shù)基礎(chǔ)上計(jì)算字的影響力，并將字的影響力作為突發(fā)特征權(quán)值。
[0023] 計(jì)算由特征字組成的突發(fā)話題步驟為：
[0024] 步驟4. 1，構(gòu)建突發(fā)特征字與消息、用戶之間的關(guān)系矩陣；
[0025] 步驟4. 2,通過聯(lián)合聚類算法對(duì)關(guān)系矩陣進(jìn)行計(jì)算，得到實(shí)體、消息、用戶的聚類指示矩陣。
[0026] 生成有意義詞或串，形成由詞或串表示的突發(fā)話題的步驟為：
[0027] 步驟5. 1，對(duì)于每一個(gè)話題中的漢字以及對(duì)應(yīng)的消息作為樣本集合，計(jì)算話題中任意兩個(gè)字之間的聚合程度；
[0028] 步驟5. 2,計(jì)算話題中左右邊界字的熵；
[0029] 步驟5. 3,依據(jù)聚合程度和左右邊界字的熵值判定是否可生產(chǎn)一個(gè)有意義詞或串。
[0030] 生成字典步驟包括：
[0031] 步驟2.2. 1，字典為空，則根據(jù)漢字的字典序插入到字典中；
[0032] 步驟2. 2. 2,若字典不為空并已存在字典中，則直接將該字在當(dāng)前檢測(cè)窗口中的關(guān) 聯(lián)信息增加到字典中；
[0033] 步驟2. 2. 3,若字典不為空且不存在字典中，基于字典序?qū)崿F(xiàn)二分查找，依據(jù)查找返回結(jié)果得到字典序號(hào)，將該字插入字典，字典當(dāng)前序號(hào)后面的字依次后移。
[0034] 本發(fā)明的有益效果在于：
[0035] 1)本發(fā)明提出了一種無須中文分詞的微博突發(fā)話題檢測(cè)方法，對(duì)中文微博消息內(nèi) 容事先不做中文分詞，而是將漢字和英文單詞、圖片、視頻、外部鏈接等作為單個(gè)實(shí)體。最后對(duì)突發(fā)特征實(shí)體中的中文漢字構(gòu)詞，能夠提高檢測(cè)方法的整體性能，提高對(duì)新詞、口語(yǔ)化串的召回率。
[0036] 2)從影響力的角度提出突發(fā)權(quán)值的計(jì)算方法，并且引入權(quán)值的衰減機(jī)制，能夠過濾掉一些垃圾用戶、水軍等的影響。
[0037] 3)本發(fā)明同時(shí)對(duì)突發(fā)特征實(shí)體、消息、用戶進(jìn)行聯(lián)合聚類分析，在檢測(cè)話題的同時(shí)，識(shí)別參與話題的用戶。為突發(fā)話題提供盡可能多的信息，為微博輿情危機(jī)管理提供了可控、可管的可能。

【專利附圖】

【附圖說明】
[0038] 圖1系統(tǒng)檢測(cè)框架圖。
[0039] 圖2突發(fā)檢測(cè)中字典的存儲(chǔ)結(jié)構(gòu)。
[0040] 圖3生成新詞的過程圖。

【具體實(shí)施方式】
[0041] 現(xiàn)有的基于中文分詞的突發(fā)話題檢測(cè)方法都是基于特征詞的詞頻信息進(jìn)行檢測(cè)。對(duì)于中文微博來說，首先要進(jìn)行中文分詞，構(gòu)造特征詞的特征軌跡，根據(jù)一定的突發(fā)檢測(cè)算法計(jì)算出突發(fā)特征詞，然后用關(guān)聯(lián)度高的特征詞集合來表示突發(fā)話題。
[0042] 對(duì)于中文微博來說，這種方法有一定的缺陷性。因?yàn)槲⒉┯脩舻亩鄻有?，致使微?用語(yǔ)具有靈活、不規(guī)范的特點(diǎn)，例如屌絲、薄谷開來、舌尖上的中國(guó)、唐山地震等詞或串。微博中出現(xiàn)大量的由新詞或串誘導(dǎo)的突發(fā)話題，而根據(jù)中文分詞詞典則無法劃分出這些新詞或有意義串，從而無法準(zhǔn)確發(fā)現(xiàn)微博中的突發(fā)話題。
[0043] 正是基于目前微博突發(fā)話題檢測(cè)方法存在的不足，本專利提出一種基于特征字的突發(fā)話題檢測(cè)方法。該方法無需中文分詞。將文本消息流分成一個(gè)一個(gè)獨(dú)立的漢字，直接檢測(cè)當(dāng)前時(shí)間窗口的突發(fā)字集合，然后計(jì)算這些字之間的相關(guān)度形成突發(fā)話題，采用一定的新詞發(fā)現(xiàn)方法把突發(fā)特征字組合成有意義的特征詞或串，從而表示突發(fā)話題。整體檢測(cè) 流程如圖1所示，具體分為五個(gè)步驟。
[0044] 步驟A :語(yǔ)料預(yù)處理；
[0045] 步驟B:生成字典；
[0046] 步驟C :計(jì)算突發(fā)特征字；
[0047] 步驟D :計(jì)算由特征字組成的突發(fā)話題；
[0048] 步驟E :生成有意義詞或串，表示突發(fā)話題。
[0049] 所述步驟A包括些下列步驟：
[0050] 步驟A1，依據(jù)微博發(fā)布時(shí)間序抽取微博消息元素；
[0051] 步驟A2,微博窗口劃分，基于小波分析思想將微博消息流動(dòng)態(tài)劃分微博窗口。
[0052] 所述步驟B包括些下列步驟：
[0053] 步驟B1，直接將每一條微博消息以字為單元進(jìn)行切分，無需去除停用詞等；
[0054] 步驟B2,按照字典序進(jìn)行存儲(chǔ)，支持高效查找和動(dòng)態(tài)更新。
[0055] 所述步驟C包括些下列步驟：
[0056] 步驟C1，遍歷字典，依據(jù)歷史特征權(quán)值和檢測(cè)窗口中的突發(fā)特征權(quán)值判定當(dāng)前檢測(cè)窗口是否發(fā)生突發(fā)；
[0057] 步驟C2,更新歷史窗口中字的特征權(quán)值，依據(jù)生命周期模型中的老化理論，更新字的特征權(quán)值；
[0058] 步驟C3,計(jì)算當(dāng)前檢測(cè)窗口中字的突發(fā)特征權(quán)值，在考慮用戶的粉絲數(shù)、消息的轉(zhuǎn) 發(fā)數(shù)和評(píng)論數(shù)基礎(chǔ)上計(jì)算字的影響力，并將字的影響力作為突發(fā)特征權(quán)值。
[0059] 所述步驟D包括些下列步驟：
[0060] 步驟D1，構(gòu)建突發(fā)特征字與消息、用戶之間的關(guān)系矩陣；
[0061] 步驟D2,通過聯(lián)合聚類算法對(duì)關(guān)系矩陣進(jìn)行計(jì)算，得到實(shí)體、消息、用戶的聚類指示矩陣。
[0062] 所述步驟E包括些下列步驟：
[0063] 步驟E1，對(duì)于每一個(gè)話題中的漢字以及對(duì)應(yīng)的消息作為樣本集合，計(jì)算話題中任意兩個(gè)字之間的聚合程度；
[0064] 步驟E2,計(jì)算話題中左右邊界字的熵；
[0065] 步驟E3,依據(jù)聚合程度和左右邊界字的熵值判定是否可生產(chǎn)一個(gè)有意義詞或串。
[0066] 所述步驟B2包括些下列步驟：
[0067] 步驟B21，字典為空，則根據(jù)漢字的字典序插入到字典中；
[0068] 步驟B22,若字典不為空并已存在字典中，則直接將該字在當(dāng)前檢測(cè)窗口中的關(guān)聯(lián) 信息增加到字典中；
[0069] 步驟B23,若字典不為空且不存在字典中，基于字典序?qū)崿F(xiàn)二分查找，依據(jù)查找返回結(jié)果得到字典序號(hào)，將該字插入字典，字典當(dāng)前序號(hào)后面的字依次后移。
[0070] 為了完成本發(fā)明，針對(duì)微博消息流的非分詞突發(fā)話題檢測(cè)進(jìn)行如下實(shí)施，并給出具體的實(shí)施方案。
[0071] (一）在步驟A中，按照微博發(fā)布時(shí)間重構(gòu)微博消息流，針對(duì)每一條微博消息ffli進(jìn) 行元素抽取，包括用戶信息（粉絲數(shù)、關(guān)注數(shù)、發(fā)布微博消息總數(shù)）和消息屬性信息（消息發(fā)布時(shí)間、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)）。借鑒小波變換的多分辨率分析的思想，提出了動(dòng)態(tài)窗口選擇算法，如算法1所示。算法中的微博窗口和滑動(dòng)窗口閾值參數(shù)α、β可調(diào)整，I · I為對(duì)應(yīng)的消息數(shù)目。算法中第1步可根據(jù)實(shí)際微博流量大小通過參數(shù)α調(diào)整微博窗口大小，第4步動(dòng)態(tài)調(diào)整滑動(dòng)窗口大小。因此，在微博消息流量較大時(shí)，對(duì)應(yīng)的時(shí)間間隔則較小，而在晚上微博數(shù)較少時(shí)，則擴(kuò)大對(duì)應(yīng)的時(shí)間間隔。
[0072] 算法1 :動(dòng)態(tài)窗口選擇算法.
[0073] 輸入：ms :微博消息流；α :微博窗口調(diào)整系數(shù)；β :滑動(dòng)窗口調(diào)整系數(shù)
[0074] 輸出：sw:滑動(dòng)窗口。
[0075] ① for each 1? e ms do
[0076] ②按照時(shí)間t劃分到時(shí)間片St中；

【權(quán)利要求】
1. 一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征在于：包括以下步驟：步驟1 :語(yǔ)料預(yù)處理，構(gòu)建動(dòng)態(tài)的微博檢測(cè)窗口；步驟2 :將微博內(nèi)容切分成單個(gè)漢字，并構(gòu)建字典；步驟3:計(jì)算突發(fā)特征字集合；步驟4 :計(jì)算由特征字組成的突發(fā)話題；步驟5:生成有意義詞或串，形成由詞或串表示的突發(fā)話題。
2. 根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征是：所述語(yǔ)料預(yù)處理的步驟為：步驟1. 1 :依據(jù)微博發(fā)布時(shí)間序抽取微博消息元素；步驟1. 2 :微博窗口劃分，基于小波分析思想將微博消息流動(dòng)態(tài)劃分微博窗口。
3. 根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征是：所述將微博內(nèi)容切分成單個(gè)漢字，并構(gòu)建字典步驟為：步驟2. 1，直接將每一條微博消息以字為單元進(jìn)行切分，無需去除停用詞；步驟2. 2,按照字典序進(jìn)行存儲(chǔ)，支持高效查找和動(dòng)態(tài)更新。
4. 根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征是：所述計(jì)算突發(fā)特征字集合步驟為：步驟3. 1，遍歷字典，依據(jù)歷史特征權(quán)值和檢測(cè)窗口中的突發(fā)特征權(quán)值判定當(dāng)前檢測(cè)窗口是否發(fā)生突發(fā)；步驟3. 2,更新歷史窗口中字的特征權(quán)值，依據(jù)生命周期模型中的老化理論，更新字的特征權(quán)值；步驟33,計(jì)算當(dāng)前檢測(cè)窗口中字的突發(fā)特征權(quán)值，在考慮用戶的粉絲數(shù)、消息的轉(zhuǎn)發(fā)數(shù) 和評(píng)論數(shù)基礎(chǔ)上計(jì)算字的影響力，并將字的影響力作為突發(fā)特征權(quán)值。
5. 根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征是：所述計(jì)算由特征字組成的突發(fā)話題步驟為：步驟4. 1，構(gòu)建突發(fā)特征字與消息、用戶之間的關(guān)系矩陣；步驟4. 2,通過聯(lián)合聚類算法對(duì)關(guān)系矩陣進(jìn)行計(jì)算，得到實(shí)體、消息、用戶的聚類指示矩陣。
6. 根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征是：所述生成有意義詞或串，形成由詞或串表示的突發(fā)話題的步驟為：步驟5. 1，對(duì)于每一個(gè)話題中的漢字以及對(duì)應(yīng)的消息作為樣本集合，計(jì)算話題中任意兩個(gè)字之間的聚合程度；步驟5. 2,計(jì)算話題中左右邊界字的熵；步驟5. 3,依據(jù)聚合程度和左右邊界字的熵值判定是否可生產(chǎn)一個(gè)有意義詞或串。
7. 根據(jù)權(quán)利要求1或4所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征是：所述生成字典步驟包括：步驟2. 2. 1，字典為空，則根據(jù)漢字的字典序插入到字典中；步驟2. 2. 2,若字典不為空并已存在字典中，則直接將該字在當(dāng)前檢測(cè)窗口中的關(guān)聯(lián)信息增加到字典中；步驟2. 2. 3,若字典不為空且不存在字典中，基于字典序?qū)崿F(xiàn)二分查找，依據(jù)查找返回結(jié)果得到字典序號(hào)，將該字插入字典，字典當(dāng)前序號(hào)后面的字依次后移。
【文檔編號(hào)】G06F17/30GK104216964SQ201410416127
【公開日】2014年12月17日申請(qǐng)日期:2014年8月22日優(yōu)先權(quán)日:2014年8月22日
【發(fā)明者】楊武, 伸國(guó)偉, 王巍, 苘大鵬, 宣世昌申請(qǐng)人:哈爾濱工程大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊武;伸國(guó)偉;王巍;苘大鵬;宣世昌
技術(shù)所有人：哈爾濱工程大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

過去分詞相關(guān)技術(shù)

中文分詞相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向微博的非分詞突發(fā)話題檢測(cè)方法