本發(fā)明涉及網(wǎng)絡(luò)信息挖掘
技術(shù)領(lǐng)域:
,特別是涉及一種用于微博的突發(fā)特征檢測方法及裝置。
背景技術(shù):
:近年來,隨著web2.0社交網(wǎng)絡(luò)的興起,微博以其方便快捷的優(yōu)點(diǎn)迅速流行起來,現(xiàn)在已經(jīng)發(fā)展成為網(wǎng)絡(luò)信息傳播的主要途徑。由于微博具有來源廣泛、更新速度快、傳播周期短、傳播方式多樣化、參與性和互動性強(qiáng)等特點(diǎn),在熱點(diǎn)話題形成和傳播方面,取得了強(qiáng)大的影響力和引導(dǎo)力。微博信息數(shù)量大,存在嚴(yán)重的信息過載問題,而話題分析技術(shù)能夠?qū)⒋罅啃畔⒅械年P(guān)鍵內(nèi)容快速提取出來,對海量信息進(jìn)行壓縮組織。微博話題檢測及分析技術(shù)是微博輿情研究中的關(guān)鍵問題,通過微博平臺上的話題發(fā)現(xiàn)及分析技術(shù)來及時、準(zhǔn)確的發(fā)現(xiàn)熱點(diǎn)話題,對于幫助個人了解社會熱點(diǎn)和重要資訊,輔助國家發(fā)現(xiàn)網(wǎng)絡(luò)輿情事件和輿論趨勢,在網(wǎng)絡(luò)民意及時感知、輿情檢測、輿情監(jiān)控、應(yīng)急處置、信息安全等領(lǐng)域具有重要的現(xiàn)實意義。在話題檢測領(lǐng)域中,話題檢測的方法主要包括兩類,基于文本聚類的方法和基于概率話題模型的方法。但是這些方法都通常更適用于新聞等長篇文檔的話題檢測,對于特征高度稀疏的微博文本適用性較差。如何針對微博信息的特點(diǎn)進(jìn)行熱點(diǎn)話題檢測,現(xiàn)有技術(shù)尚無有效的解決方案。技術(shù)實現(xiàn)要素:本發(fā)明要解決的技術(shù)問題是提供一種用于微博的熱點(diǎn)話題檢測方法及裝 置,能夠解決特征高度稀疏的微博文本熱點(diǎn)話題檢測困難的問題。一方面,本發(fā)明提供一種用于微博的熱點(diǎn)話題檢測方法,包括:提取信息流中的有意義串并對所述有意義串進(jìn)行熱度分析,以從中篩選出熱點(diǎn)特征;根據(jù)信息瓶頸理論對所述熱點(diǎn)特征進(jìn)行特征合并,并且計算合并后的合并程度指示參數(shù);根據(jù)所述合并程度指示參數(shù)確定熱點(diǎn)話題??蛇x的,對所述有意義串進(jìn)行熱度分析包括:根據(jù)所述有意義串的頻次、所述有意義串對應(yīng)的文檔頻次、作者頻次以及鄰接種類,對所述有意義串進(jìn)行熱度分析??蛇x的,所述根據(jù)信息瓶頸理論對所述熱點(diǎn)特征進(jìn)行特征合并包括:確定所述熱點(diǎn)特征與文檔、作者之間的對應(yīng)關(guān)系;分別確定所述熱點(diǎn)特征、所述文檔、所述作者各自的邊緣概率分布,所述熱點(diǎn)特征與所述文檔的聯(lián)合概率分布,以及所述熱點(diǎn)特征與所述作者的聯(lián)合概率分布;分別計算所述熱點(diǎn)特征與所述文檔的互信息,以及所述熱點(diǎn)特征與所述作者的互信息;從所述熱點(diǎn)特征中選擇兩組熱點(diǎn)特征進(jìn)行特征合并,以使被選擇的所述兩組熱點(diǎn)特征合并代價最小,其中,所述合并代價等于特征合并前后熱點(diǎn)特征與文檔之間、以及熱點(diǎn)特征與作者之間互信息的減少量??蛇x的,所述合并代價為:ΔI(Fi,F(xiàn)j)=λ{(lán)(p(Fi)+p(Fj))*DJS[p(D|Fi),p(D|Fj)]}+(1-λ){(p(Fi)+p(Fj))*DJS[p(A|Fi),p(A|Fj)]}其中,DJS是指Jensen-Shannon(JS)距離,計算方法為:DJS[pi,pj]=πiDKL[pi||p^]+πjDKL[pj||p^]]]>{pi,pj}={p(D|Fi),p(D|Fj)}{πi,πj}={p(Fi)p(F*),p(Fj)p(F*)}p^=πip(D|Fi)+πjp(D|Fj)]]>其中,F(xiàn)i和Fj分別為兩個不同的熱點(diǎn)特征集合,F(xiàn)*為Fi和Fj合并后的熱 點(diǎn)特征集合,D表示文檔,A表示作者;DKL表示是KL距離,是相對熵,計算如下:DKL[x,y]=p(x)logp(x)p(y).]]>可選的,所述從所述熱點(diǎn)特征中選擇兩組熱點(diǎn)特征進(jìn)行特征合并,以使被選擇的所述兩組熱點(diǎn)特征合并代價最小包括:分別計算兩兩熱點(diǎn)特征集合之間的合并代價;選擇合并代價最小的兩個特征集合進(jìn)行特征合并形成新特征集合;計算所述新特征集合與其他特征集合之間的合并代價并再次進(jìn)行特征合并,直到將所有特征集合合并為一個特征集合。另一方面,本發(fā)明還提供一種用于微博的熱點(diǎn)話題檢測裝置,包括:熱度分析單元,用于提取信息流中的有意義串并對所述有意義串進(jìn)行熱度分析,以從中篩選出熱點(diǎn)特征;特征合并單元,用于根據(jù)信息瓶頸理論對所述熱點(diǎn)特征進(jìn)行特征合并,并且計算合并后的合并程度指示參數(shù);確定單元,用于根據(jù)所述合并程度指示參數(shù)確定熱點(diǎn)話題。可選的,所述熱度分析單元,具體用于根據(jù)所述有意義串的頻次、所述有意義串對應(yīng)的文檔頻次、作者頻次以及鄰接種類,對所述有意義串進(jìn)行熱度分析。可選的,所述特征合并單元包括:關(guān)系確定模塊,用于確定所述熱點(diǎn)特征與文檔、作者之間的對應(yīng)關(guān)系;概率確定模塊,用于分別確定所述熱點(diǎn)特征、所述文檔、所述作者各自的邊緣概率分布,所述熱點(diǎn)特征與所述文檔的聯(lián)合概率分布,以及所述熱點(diǎn)特征與所述作者的聯(lián)合概率分布;計算模塊,用于分別計算所述熱點(diǎn)特征與所述文檔的互信息,以及所述熱點(diǎn)特征與所述作者的互信息;合并模塊,用于從所述熱點(diǎn)特征中選擇兩組熱點(diǎn)特征進(jìn)行特征合并,以使被選擇的所述兩組熱點(diǎn)特征合并代價最小,其中,所述合并代價等于特征合并前后熱點(diǎn)特征與文檔之間、以及熱點(diǎn)特征與作者之間互信息的減少量。可選的,所述合并代價為:ΔI(Fi,F(xiàn)j)=λ{(lán)(p(Fi)+p(Fj))*DJS[p(D|Fi),p(D|Fj)]}+(1-λ){(p(Fi)+p(Fj))*DJS[p(A|Fi),p(A|Fj)]}其中,DJS是指Jensen-Shannon(JS)距離,計算方法為:DJS[pi,pj]=πiDKL[pi||p^]+πjDKL[pj||p^]]]>{pi,pj}={p(D|Fi),p(D|Fj)}{πi,πj}={p(Fi)p(F*),p(Fj)p(F*)}p^=πip(D|Fi)+πjp(D|Fj)]]>其中,F(xiàn)i和Fj分別為兩個不同的熱點(diǎn)特征集合,F(xiàn)*為Fi和Fj合并后的熱點(diǎn)特征集合,D表示文檔,A表示作者;DKL表示是KL距離,是相對熵,計算如下:DKL[x,y]=p(x)logp(x)p(y).]]>可選的,所述合并模塊,具體用于:分別計算兩兩熱點(diǎn)特征集合之間的合并代價;選擇合并代價最小的兩個特征集合進(jìn)行特征合并形成新特征集合;計算所述新特征集合與其他特征集合之間的合并代價并再次進(jìn)行特征合并,直到將所有特征集合合并為一個特征集合。本發(fā)明實施例提供的用于微博的熱點(diǎn)話題檢測方法及裝置,能夠?qū)π畔⒘髦械挠幸饬x串進(jìn)行提取和熱度分析,從這些有意義串中篩選出熱點(diǎn)特征,然后根據(jù)信息瓶頸理論對熱點(diǎn)特征進(jìn)行特征合并,并且計算合并后的合并程度指示參數(shù),根據(jù)所述合并程度指示參數(shù)確定熱點(diǎn)話題。這樣,即使對于特征高度稀疏的微博文本,也能夠?qū)⑻卣饕稽c(diǎn)一點(diǎn)合并,并根據(jù)合并程度指示參數(shù)確定出特征對應(yīng)的熱點(diǎn)話題,有效提高了微博熱點(diǎn)話題的檢測準(zhǔn)確率。附圖說明圖1是本發(fā)明實施例提供的用于微博的熱點(diǎn)話題檢測方法的一種流程圖;圖2是本發(fā)明實施例中熱點(diǎn)特征、文檔、作者之間的關(guān)系示意圖;圖3是本發(fā)明實施例中特征的共現(xiàn)關(guān)系構(gòu)成特征網(wǎng)絡(luò)的一種結(jié)構(gòu)示意圖;圖4是本發(fā)明實施例提供的用于微博的熱點(diǎn)話題檢測裝置的一種結(jié)構(gòu)示意圖。具體實施方式以下結(jié)合附圖對本發(fā)明進(jìn)行詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不限定本發(fā)明。如圖1所示,本發(fā)明實施例提供一種用于微博的熱點(diǎn)話題檢測方法,包括:S11,提取信息流中的有意義串并對所述有意義串進(jìn)行熱度分析,以從中篩選出熱點(diǎn)特征;S12,根據(jù)信息瓶頸理論對所述熱點(diǎn)特征進(jìn)行特征合并,并且計算合并后的合并程度指示參數(shù);S13,根據(jù)所述合并程度指示參數(shù)確定熱點(diǎn)話題。本發(fā)明實施例提供的用于微博的熱點(diǎn)話題檢測方法,能夠?qū)π畔⒘髦械挠幸饬x串進(jìn)行提取和熱度分析,從這些有意義串中篩選出熱點(diǎn)特征,然后根據(jù)信息瓶頸理論對熱點(diǎn)特征進(jìn)行特征合并,并且計算合并后的合并程度指示參數(shù),根據(jù)所述合并程度指示參數(shù)確定熱點(diǎn)話題。這樣,即使對于特征高度稀疏的微博文本,也能夠?qū)⑻卣饕稽c(diǎn)一點(diǎn)合并,并根據(jù)合并程度指示參數(shù)確定出特征對應(yīng)的熱點(diǎn)話題,有效提高了微博熱點(diǎn)話題的檢測準(zhǔn)確率。具體而言,在步驟S11中,可以在設(shè)定的時間窗口內(nèi)提取微博信息流中的有意義串,并對提取的有意義串進(jìn)行熱度分析??蛇x的,有意義串的提取可包括如下步驟:步驟1,提取大規(guī)模微博信息中的重復(fù)串。其中,重復(fù)串是指重復(fù)出現(xiàn)頻次大于兩次的字符串,重復(fù)串的長度限定在若干個(如10個)字符以內(nèi)。同一話題或事件,微博中有大量的博主發(fā)帖或 者轉(zhuǎn)發(fā),具有統(tǒng)計意義的微博新特征就包含在重復(fù)串中。步驟2,對重復(fù)串進(jìn)行上下文鄰接分析,提取微博信息中的有意義串。上下文鄰接分析指提取重復(fù)串的鄰接集合,計算鄰接種類。鄰接集合和鄰接種類定義如下:鄰接集合:分為左鄰接集合NBL和右鄰接集合NBR,分別指真實文本中,與字符串S左邊或者右邊相鄰的詞語的集合。當(dāng)字符串做為一個句子的開始,其左鄰接元素記為BOS,做為句子的結(jié)束時,其右鄰接元素記為EOS。鄰接種類:分為左鄰接種類VL和右鄰接種類VR,分別指左鄰接集合中和右鄰接集合種元素的數(shù)目,它們反映了字符串上文和下文語境種類的多少。選取左鄰接種類和右鄰接種類中的較小值記為minVN。當(dāng)minVN大于預(yù)先設(shè)定的閾值TVN時,該字符串就是有意義串。閾值TVN的選取與微博信息的規(guī)模相關(guān),取值應(yīng)大于2,例如為3。由于微博信息數(shù)量大,存在嚴(yán)重的信息過載、特征高度稀疏等特點(diǎn),優(yōu)選的,可以根據(jù)所述有意義串的頻次、所述有意義串對應(yīng)的文檔頻次、作者頻次以及鄰接種類,對所述有意義串進(jìn)行熱度分析,以便從中提取出熱點(diǎn)特征。其中,有意義串的頻次為有意義串出現(xiàn)的次數(shù),文檔頻次表示有意義串在多少篇文檔中出現(xiàn)過,作者頻次表示有意義串被多少個作者發(fā)表過,鄰接種類則表示字符串上文和下文語境種類的多少。根據(jù)上述信息即可得到有意義串的熱度hot,具體可根據(jù)如下公式計算。hot(Fi)=a*log(TFmaxTFi)+b*log(DFmaxDFi)+c*log(AFmaxAFi)+d*log(VNmaxVNi)]]>其中,TFmax表示時間窗口內(nèi)特征頻次的最大值,DFmax表示時間窗口內(nèi)特征文檔頻次的最大值,AFmax表示時間窗口內(nèi)特征作者頻次的最大值,VNmax表示時間窗口內(nèi)特征鄰接種類的最大值。a,b,c,d分別為調(diào)節(jié)系數(shù),可選的,可以都取1。當(dāng)熱度hot大于預(yù)先設(shè)定的閾值H時,對應(yīng)的有意義串即為熱點(diǎn)特征。具體的,在步驟S12中,根據(jù)信息瓶頸理論對所述熱點(diǎn)特征進(jìn)行特征合并 可包括:確定所述熱點(diǎn)特征與文檔、作者之間的對應(yīng)關(guān)系;分別確定所述熱點(diǎn)特征、所述文檔、所述作者各自的邊緣概率分布,所述熱點(diǎn)特征與所述文檔的聯(lián)合概率分布,以及所述熱點(diǎn)特征與所述作者的聯(lián)合概率分布;分別計算所述熱點(diǎn)特征與所述文檔的互信息,以及所述熱點(diǎn)特征與所述作者的互信息;從所述熱點(diǎn)特征中選擇兩組熱點(diǎn)特征進(jìn)行特征合并,以使被選擇的所述兩組熱點(diǎn)特征合并代價最小,其中,所述合并代價等于特征合并前后熱點(diǎn)特征與文檔之間、以及熱點(diǎn)特征與作者之間互信息的減少量。舉例說明,如圖2所示,首先可以根據(jù)熱點(diǎn)特征在文檔中的出現(xiàn)情況構(gòu)造熱點(diǎn)特征F、文檔D、作者A之間的三部圖。統(tǒng)計特征F、文檔D、作者A的邊緣概率分布,以及特征F、文檔D,熱點(diǎn)特征F、作者A之間的聯(lián)合概率分布,計算熱點(diǎn)特征F、文檔D以及熱點(diǎn)特征F、作者A兩兩之間的互信息,公式如下:I(X,Y)=P(X,Y)logP(X,Y)P(X)P(Y)]]>對熱點(diǎn)特征(或熱點(diǎn)特征集合)Fi、Fj合并時,合并代價是指合并所帶來的互信息的減少量,公式如下:ΔI(Fi,F(xiàn)j)=λ[I(Fbefore,D)-I(Fafter,D)]+(1-λ)[I(Fbefore,A)-I(Fafter,A)]具體的,當(dāng)進(jìn)行特征合并時,合并既會引起熱點(diǎn)特征F與文檔D之間的互信息減少,又會引起熱點(diǎn)特征F與作者A之間的互信息減少,可以通過λ來調(diào)節(jié)文檔和作者對熱點(diǎn)特征的影響大小。根據(jù)信息瓶頸壓縮方法的理論,合并代價詳細(xì)計算方法如下:ΔI(Fi,F(xiàn)j)=λ{(lán)(p(Fi)+p(Fj))*DJS[p(D|Fi),p(D|Fj)]}+(1-λ){(p(Fi)+p(Fj))*DJS[p(A|Fi),p(A|Fj)]}其中,DJS是指Jensen-Shannon(JS)距離,計算方法為:DJS[pi,pj]=πiDKL[pi||p^]+πjDKL[pj||p^]]]>{pi,pj}={p(D|Fi),p(D|Fj)}{πi,πj}={p(Fi)p(F*),p(Fj)p(F*)}p^=πip(D|Fi)+πjp(D|Fj)]]>其中,F(xiàn)i和Fj分別為兩個不同的熱點(diǎn)特征集合,F(xiàn)*為Fi和Fj合并后的熱點(diǎn)特征集合,D表示文檔,A表示作者;DKL表示是KL距離,是相對熵,計算如下:DKL[x,y]=p(x)logp(x)p(y).]]>可選的,從所述熱點(diǎn)特征中選擇兩組熱點(diǎn)特征進(jìn)行特征合并,以使被選擇的所述兩組熱點(diǎn)特征合并代價最小可具體包括如下步驟:分別計算兩兩熱點(diǎn)特征集合之間的合并代價;選擇合并代價最小的兩個特征集合進(jìn)行特征合并形成新特征集合;計算所述新特征集合與其他特征集合之間的合并代價并再次進(jìn)行特征合并,直到將所有特征集合合并為一個特征集合。舉例而言,在本發(fā)明的一個實施例中,假設(shè)存在四個熱點(diǎn)特征A、B、C、D,分別計算AB,AC,AD,BC,BD,CD的合并代價,假如經(jīng)過計算發(fā)現(xiàn)AB的合并代價最小,則先將熱點(diǎn)特征A、B合并成特征集合AB,然后重新計算AB,C,D中兩兩合并(即ABC,ABD,CD合并)的合并代價。假設(shè)ABD的合并代價在三者中最小,則下一步將AB與D進(jìn)行合并,最后將ABD與C合并,形成一個特征集合。在步驟S12中,每一次特征合并后,還需要計算一下特征合并后的合并程 度指示參數(shù)。在本發(fā)明的一個實施例中,合并程度指示參數(shù)可以為衡量網(wǎng)絡(luò)模塊化程度的一個指標(biāo)Q,定義為;Q=Σi=1n(eii-ai)]]>其中,eii表示第i個社區(qū)內(nèi)部的連邊占網(wǎng)絡(luò)總邊數(shù)的比例,ai表示第i個社區(qū)與其他社區(qū)之間的連邊數(shù)。Q的含義具體可如圖3所示。圖3所示為特征的共現(xiàn)關(guān)系構(gòu)成特征網(wǎng)絡(luò),每個特征是一個頂點(diǎn)(A、B、C、D、E),如果兩個特征在一條微博信息中共現(xiàn),這兩個特征就有一條連邊。特征未合并時,每個特征是一個社區(qū),每次特征合并后,合并的特征集合構(gòu)成一個新的社區(qū)。在整個特征合并過程中,每次合并都會產(chǎn)生一個對應(yīng)的Q值,最后選擇Q值最大的特征集合為一個熱點(diǎn)話題。例如,如果上述實施例中,如果ABD對應(yīng)的Q值最大,則確定ABD為一個熱點(diǎn)話題。相應(yīng)的,如圖4所示,本發(fā)明實施例還提供一種用于微博的熱點(diǎn)話題檢測裝置,包括:熱度分析單元41,用于提取信息流中的有意義串并對所述有意義串進(jìn)行熱度分析,以從中篩選出熱點(diǎn)特征;特征合并單元42,用于根據(jù)信息瓶頸理論對所述熱點(diǎn)特征進(jìn)行特征合并,并且計算合并后的合并程度指示參數(shù);確定單元43,用于根據(jù)所述合并程度指示參數(shù)確定熱點(diǎn)話題。本發(fā)明實施例提供的用于微博的熱點(diǎn)話題檢測裝置,熱度分析單元41能夠?qū)π畔⒘髦械挠幸饬x串進(jìn)行提取和熱度分析,從這些有意義串中篩選出熱點(diǎn)特征,特征合并單元42能夠根據(jù)信息瓶頸理論對熱點(diǎn)特征進(jìn)行特征合并,并且計算合并后的合并程度指示參數(shù),確定單元43能夠根據(jù)所述合并程度指示參數(shù)確定熱點(diǎn)話題。這樣,即使對于特征高度稀疏的微博文本,也能夠快速發(fā)現(xiàn)熱點(diǎn)特征,并對熱點(diǎn)特征進(jìn)行準(zhǔn)確合并,有效提高了微博熱點(diǎn)話題的檢測準(zhǔn)確率??蛇x的,熱度分析單元41,具體可用于根據(jù)所述有意義串的頻次、所述有 意義串對應(yīng)的文檔頻次、作者頻次以及鄰接種類,對所述有意義串進(jìn)行熱度分析。具體而言,特征合并單元42可包括:關(guān)系確定模塊,用于確定所述熱點(diǎn)特征與文檔、作者之間的對應(yīng)關(guān)系;概率確定模塊,用于分別確定所述熱點(diǎn)特征、所述文檔、所述作者各自的邊緣概率分布,所述熱點(diǎn)特征與所述文檔的聯(lián)合概率分布,以及所述熱點(diǎn)特征與所述作者的聯(lián)合概率分布;計算模塊,用于分別計算所述熱點(diǎn)特征與所述文檔的互信息,以及所述熱點(diǎn)特征與所述作者的互信息;合并模塊,用于從所述熱點(diǎn)特征中選擇兩組熱點(diǎn)特征進(jìn)行特征合并,以使被選擇的所述兩組熱點(diǎn)特征合并代價最小,其中,所述合并代價等于特征合并前后熱點(diǎn)特征與文檔之間、以及熱點(diǎn)特征與作者之間互信息的減少量。具體的,合并代價ΔI可以為:ΔI(Fi,F(xiàn)j)=λ{(lán)(p(Fi)+p(Fj))*DJS[p(D|Fi),p(D|Fj)]}+(1-λ){(p(Fi)+p(Fj))*DJS[p(A|Fi),p(A|Fj)]}其中,DJS是指Jensen-Shannon(JS)距離,計算方法為:DJS[pi,pj]=πiDKL[pi||p^]+πjDKL[pj||p^]]]>{pi,pj}={p(D|Fi),p(D|Fj)}{πi,πj}={p(Fi)p(F*),p(Fj)p(F*)}p^=πip(D|Fi)+πjp(D|Fj)]]>其中,F(xiàn)i和Fj分別為兩個不同的熱點(diǎn)特征集合,F(xiàn)*為Fi和Fj合并后的熱點(diǎn)特征集合,D表示文檔,A表示作者;DKL表示是KL距離,是相對熵,計算如下:DKL[x,y]=p(x)logp(x)p(y).]]>可選的,所述合并模塊,可具體用于:分別計算兩兩熱點(diǎn)特征集合之間的合并代價;選擇合并代價最小的兩個特征集合進(jìn)行特征合并形成新特征集合;計算所述新特征集合與其他特征集合之間的合并代價并再次進(jìn)行特征合并,直到將所有特征集合合并為一個特征集合。盡管為示例目的,已經(jīng)公開了本發(fā)明的優(yōu)選實施例,本領(lǐng)域的技術(shù)人員將意識到各種改進(jìn)、增加和取代也是可能的,因此,本發(fā)明的范圍應(yīng)當(dāng)不限于上述實施例。當(dāng)前第1頁1 2 3