亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種微博子話題演化分析方法及裝置與流程

文檔序號:12363853閱讀:300來源:國知局
一種微博子話題演化分析方法及裝置與流程
本發(fā)明涉及網(wǎng)絡(luò)信息挖掘
技術(shù)領(lǐng)域
,特別是涉及一種微博子話題演化分析方法及裝置。
背景技術(shù)
:微博客等互聯(lián)網(wǎng)應(yīng)用的出現(xiàn),降低了互聯(lián)網(wǎng)的進(jìn)入門檻,使得廣大網(wǎng)民更容易的使用網(wǎng)絡(luò),發(fā)出內(nèi)心的聲音?;ヂ?lián)網(wǎng)絡(luò)在傳達(dá)民情民意方面的優(yōu)勢逐步顯現(xiàn)出來,繼傳統(tǒng)的報紙、廣播、電視之后,成為第四媒體,并在表達(dá)民眾心聲、反應(yīng)社會輿論方面發(fā)揮極其重要的作用。熱點(diǎn)話題作為廣大網(wǎng)民關(guān)注的熱點(diǎn)、討論的焦點(diǎn),反應(yīng)一定時間周期內(nèi)網(wǎng)絡(luò)輿論的中心,是廣大網(wǎng)民對現(xiàn)實(shí)社會生活中存在問題的集中反應(yīng)。另外,熱點(diǎn)話題會隨著新的事件、新的焦點(diǎn)的出現(xiàn),并且在廣大網(wǎng)民、特別是意見領(lǐng)袖的參與或別有用心的人推波助瀾下,會迅速傳播并不斷發(fā)生演化,話題的中心會發(fā)生變化,形成不同的子話題。子話題既可以指話題討論過程中的不同側(cè)面、不同中心,又可以指隨著話題發(fā)展產(chǎn)生的新事件。子話題發(fā)現(xiàn)屬于話題檢測與跟蹤技術(shù),目前的技術(shù)主要是針對新聞等傳統(tǒng)媒體,基于文本相似度來發(fā)現(xiàn)子話題,但是因?yàn)槲⒉┪谋緝?nèi)容短小,一條微博信息包含的有效特征較少,而且每個特征僅出現(xiàn)一次或幾次,僅僅通過文本相似度來衡量效果較差,傳統(tǒng)的子話題發(fā)現(xiàn)技術(shù)對于微博文本不適用。技術(shù)實(shí)現(xiàn)要素:本發(fā)明要解決的技術(shù)問題是提供一種微博子話題演化分析方法及裝置,能 夠準(zhǔn)確快速地識別微博子話題并分析出微博子話題的演化關(guān)系。一方面,本發(fā)明提供一種微博子話題演化分析方法,包括:通過改進(jìn)的最近鄰方法對當(dāng)前時間窗口中的每個微博話題的特征進(jìn)行聚類,以根據(jù)聚類結(jié)果生成相應(yīng)的子話題;根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性確定子話題的演化關(guān)系。可選的,所述通過改進(jìn)的最近鄰方法對當(dāng)前時間窗口中的每個微博話題的特征進(jìn)行聚類包括:針對每個微博話題,從所有特征樣本中選擇互信息最大且大于預(yù)設(shè)閾值D的一對特征樣本中的任一個作為初始聚類樣本;利用所述初始聚類樣本聚類產(chǎn)生一個簇后,如果新特征樣本與所述簇的互信息大于所述預(yù)設(shè)閾值D,且所述新特征樣本與所述簇的互信息大于其他特征樣本與所述簇的互信息,將所述新特征樣本聚入所述簇;其中,所述新特征樣本與所述簇的互信息等于所述新特征樣本與所述簇的已有特征樣本之間的互信息的平均值。進(jìn)一步的,所述根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性確定子話題的演化關(guān)系之前,所述方法還包括:計算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性;根據(jù)所述話題相似性篩選出當(dāng)前窗口的話題中的持續(xù)性話題;所述根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性確定子話題的演化關(guān)系包括:根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性,在所述持續(xù)性話題中確定子話題的演化關(guān)系??蛇x的,所述計算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性包括:根據(jù)特征相似性和作者相似性,計算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性??蛇x的,所述根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性確定子話題的演化關(guān)系包括:根據(jù)特征相似性,計算當(dāng)前窗口的每個子話題與上一窗口的每個子話題之間的相似性;當(dāng)兩個子話題SubTi和SubTj的相似性大于第一閾值時,確定子話題SubTj是對子話題SubTi的繼承;當(dāng)兩個子話題SubTi和SubTj的相似性在所述第一閾值和所述第二閾值之間時,確定子話 題SubTj是子話題SubTi的轉(zhuǎn)移;當(dāng)兩個子話題SubTi和SubTj的相似性小于所述第二閾值時,確定子話題SubTi與SubTj無關(guān);其中,所述第一閾值大于所述第二閾值。另一方面,本發(fā)明還提供一種微博子話題演化分析裝置,包括:聚類單元,用于通過改進(jìn)的最近鄰方法對當(dāng)前時間窗口中的每個微博話題的特征進(jìn)行聚類,以根據(jù)聚類結(jié)果生成相應(yīng)的子話題;確定單元,用于根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性,以確定子話題的演化關(guān)系??蛇x的,所述聚類單元具體用于:針對每個微博話題,從所有特征樣本中選擇互信息最大且大于預(yù)設(shè)閾值D的一對特征樣本中的任一個作為初始聚類樣本;利用所述初始聚類樣本聚類產(chǎn)生一個簇后,如果新特征樣本與所述簇的互信息大于所述預(yù)設(shè)閾值D,且所述新特征樣本與所述簇的互信息大于其他特征樣本與所述簇的互信息,將所述新特征樣本聚入所述簇;其中,所述新特征樣本與所述簇的互信息等于所述新特征樣本與所述簇的已有特征樣本之間的互信息的平均值??蛇x的,所述裝置還包括:計算單元,用于在所述檢測單元檢測當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性之前,計算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性;篩選單元,用于根據(jù)所述計算單元計算的話題相似性篩選出當(dāng)前窗口的話題中的持續(xù)性話題;所述確定單元,具體用于根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性,在所述持續(xù)性話題中確定子話題的演化關(guān)系??蛇x的,所述計算單元,具體用于根據(jù)特征相似性和作者相似性,計算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性??蛇x的,所述確定單元,具體用于:根據(jù)特征相似性,計算當(dāng)前窗口的每個子話題與上一窗口的每個子話題之間的相似性;當(dāng)兩個子話題SubTi和SubTj的相似性大于第一閾值時,確定子話題SubTj是對子話題SubTi的繼承;當(dāng)兩個子話題SubTi和SubTj的相似性在所述第一閾值和所述第二閾值之間時,確 定子話題SubTj是子話題SubTi的轉(zhuǎn)移;當(dāng)兩個子話題SubTi和SubTj的相似性小于所述第二閾值時,確定子話題SubTi與SubTj無關(guān);其中,所述第一閾值大于所述第二閾值。本發(fā)明實(shí)施例提供的微博子話題演化分析方法及裝置,能夠通過改進(jìn)的最近鄰方法對當(dāng)前時間窗口中的每個微博話題的特征進(jìn)行聚類,根據(jù)聚類結(jié)果生成相應(yīng)的子話題,然后根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性,確定子話題的演化關(guān)系,這樣,由于改進(jìn)的最鄰近方法能夠?qū)ξ⒉┰掝}的特征進(jìn)行更精準(zhǔn)的聚類,子話題檢測效果更好,從而能夠?qū)Σ煌瑫r間窗口的子話題進(jìn)行更有效的演化分析。附圖說明圖1是本發(fā)明實(shí)施例提供的微博子話題演化分析方法的一種流程圖;圖2是本發(fā)明實(shí)施例中微博子話題產(chǎn)生的一種流程圖;圖3是本發(fā)明實(shí)施例中微博子話題演化分析方法的另一種流程圖;圖4是本發(fā)明實(shí)施例提供的微博子話題演化分析裝置的一種結(jié)構(gòu)示意圖。具體實(shí)施方式以下結(jié)合附圖對本發(fā)明進(jìn)行詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不限定本發(fā)明。如圖1所示,本發(fā)明實(shí)施例提供一種微博子話題演化分析方法,包括:S11,通過改進(jìn)的最近鄰方法對當(dāng)前時間窗口中的每個微博話題的特征進(jìn)行聚類,以根據(jù)聚類結(jié)果生成相應(yīng)的子話題;S12,根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性確定子話題的演化關(guān)系。本發(fā)明實(shí)施例提供的微博子話題演化分析方法,能夠通過改進(jìn)的最近鄰方法對當(dāng)前時間窗口中的每個微博話題的特征進(jìn)行聚類,根據(jù)聚類結(jié)果生成相應(yīng) 的子話題,然后根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性,確定子話題的演化關(guān)系,這樣,由于改進(jìn)的最鄰近方法能夠?qū)ξ⒉┰掝}的特征進(jìn)行更精準(zhǔn)的聚類,子話題檢測效果更好,從而能夠?qū)Σ煌瑫r間窗口的子話題進(jìn)行更有效的演化分析。其中,改進(jìn)的最近鄰方法是根據(jù)微博微博文本內(nèi)容短小、有效特征較少等特點(diǎn),對傳統(tǒng)的最鄰近算法進(jìn)行的改進(jìn),該改進(jìn)可以包括對最近鄰聚類方法的初始聚類樣本選取、距離計算以及聚類過程的改進(jìn)。其中,可以采用互信息作為特征之間的距離度量,特征之間的互信息指特征在相同微博信息中的共現(xiàn)情況,體現(xiàn)了兩個特征的依賴程度,互信息越高,兩個特征之間的距離就越小,描述同一話題的可能性越大。具體的,在步驟S11中,需要將話題的各個特征進(jìn)行重新聚類,生成相應(yīng)的子話題。由于各個話題特征與話題的相關(guān)程度不同,如果選取與話題相關(guān)程度較低的特征做為聚類初始樣本點(diǎn),則會干擾聚類結(jié)果,產(chǎn)生噪音類。為了避免這種情況,可以針對每個微博話題,從所有特征樣本中選擇互信息最大且大于預(yù)設(shè)閾值D的一對特征樣本中的任一個作為初始聚類樣本,這樣,因?yàn)橐话憔嚯x很近的兩個特征應(yīng)該屬于同一話題,都是話題強(qiáng)相關(guān)特征,從而能夠避免選到噪音特征。利用所述初始聚類樣本聚類產(chǎn)生一個簇后,如果新特征樣本與所述簇的互信息大于所述預(yù)設(shè)閾值D,且所述新特征樣本與所述簇的互信息大于其他特征樣本與所述簇的互信息,將所述新特征樣本聚入所述簇;接著考察下一個特征樣本是否滿足聚入該簇的條件,直到該話題的特征中不存在可以聚入該簇的特征樣本為止,聚類結(jié)束,產(chǎn)生一個子話題。其中,所述新特征樣本與所述簇的互信息等于所述新特征樣本與所述簇的已有特征樣本之間的互信息的平均值。如圖2所示,子話題從話題中產(chǎn)生過程包括如下步驟:101.提取話題特征;102.計算兩兩特征之間的互信息;103.選擇互信息最大且大于預(yù)設(shè)閾值的一對特征之一作為新簇;104.計算每個樣本點(diǎn)與簇之間的互信息;105.選擇與簇互信息最大,且與簇中每個樣本互信息大于預(yù)設(shè)閾值的新樣本聚入該簇;106.當(dāng)沒有滿足條件的樣本聚入時,該簇的聚類結(jié)束,產(chǎn)生了一個子話題;107.當(dāng)所有話題特征都已經(jīng)歸入相應(yīng)的簇時,所有的子話題都已經(jīng)產(chǎn)生,聚類過程結(jié)束。在步驟S12中,進(jìn)一步的,為了提高步驟S12中子話題演化關(guān)系的分析效率,可以先找出當(dāng)前時間窗口和上一時間窗口的話題中哪些是持續(xù)性話題,從而僅需在持續(xù)性話題之間進(jìn)一步確定子話題的相似性和演化關(guān)系,而對于非持續(xù)性話題無需確定其子話題的演化關(guān)系。在這種情況下,本發(fā)明實(shí)施例提供的子話題演化分析方法可如圖3所示。具體的,在本發(fā)明的一個實(shí)施例中,在根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性確定子話題的演化關(guān)系之前,還包括:計算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性;根據(jù)所述話題相似性篩選出當(dāng)前窗口的話題中的持續(xù)性話題;基于此,根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性確定子話題的演化關(guān)系可具體包括:根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性,在所述持續(xù)性話題中確定子話題的演化關(guān)系??蛇x的,計算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性可包括:根據(jù)特征相似性和作者相似性,計算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性。舉例說明,在本發(fā)明的一個實(shí)施例中,將兩個話題的特征相似性和文檔相似性結(jié)合,來計算話題的相似性。本實(shí)施例中,假設(shè)話題Ti和Tj共有n個不重復(fù)的特征,話題Ti和Tj的特征向量示意如下,如果特征在Fi話題中出現(xiàn),表示為1,不出現(xiàn),表示為0。表1F1F2F3……FnTi011……0Tj110……0對上述特征向量歸一化處理,得到話題Ti和話題Tj的特征概率向量,如表2所示。表2F1F2F3……FnTi01/SUMi1/SUMi……0Tj1/SUMj1/SUMj0……0其中,SUMi和SUMj分別表示話題Ti和Tj的特征個數(shù)。根據(jù)話題Ti對應(yīng)的微博信息集合映射到作者集合A,即發(fā)表話題Ti相關(guān)文檔的作者的集合。話題Ti和Tj共對應(yīng)m個不重復(fù)的作者,話題Ti和Tj的作者向量示意如下,如果作者Ai在話題中出現(xiàn),表示為1,不出現(xiàn),表示為0。表3A1A2A3……AmTi011……0Tj110……0對上述作者向量歸一化處理,得到話題Ti和Tj題的作者概率向量,如表4所示。表4A1A2A3……AmTi01/AUTHi1/AUTHi……0Tj1/AUTHj1/AUTHj0……0其中,AUTHi和AUTHj分別表示話題Ti和Tj對應(yīng)的作者數(shù)量。話題Ti和Tj的相似性計算如下:sim(Ti,Tj)=a*Fi1*Fj1+Fi2*Fj2+......+Fin*FjnFi12+Fi22......+Fin2*Fj12+Fj22......+Fjn2+b*Ai1*Aj1+Ai2*Aj2+......+Ain*AjnAi12+Ai22......+Ain2*Aj12+Aj22......Ajn2]]>其中,F(xiàn)i1中表示第1個特征在話題Ti中的概率權(quán)重,Ai1中表示的第1個作者在話題Ti中的概率權(quán)重。a和b是調(diào)節(jié)參數(shù),可以根據(jù)實(shí)際需要進(jìn)行調(diào)整,本實(shí)例取值都為1,在本發(fā)明的其他實(shí)施例中還可以取其他值??梢愿鶕?jù)經(jīng)驗(yàn)設(shè)定閾值S,當(dāng)話題相似性sim(Ti,Tj)大于S時,表示兩個話題是相關(guān)話題,當(dāng)前時間窗口的話題是上一時間窗口話題的延續(xù),否則可以確定兩個話題是無關(guān)話題。具體而言,在步驟S12中,根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性確定子話題的演化關(guān)系可包括:根據(jù)特征相似性,計算當(dāng)前窗口的子話題SubTj與上一窗口的子話題SubTi之間的相似性;由于此處考察的是子話題之間的相似性,子話題之間作者的變動性不大,因此,本實(shí)施例中,可以僅根據(jù)特征相似性計算子話題之間的相似性,即:sim(SubTi,SubTj)=Fi1*Fj1+Fi2*Fj2+......+Fin*FjnFi12+Fi22......+Fin2*Fj12+Fj22......+Fjn2]]>當(dāng)兩個子話題SubTi和SubTj的相似性大于第一閾值時,確定子話題SubTj是對子話題SubTi的繼承;當(dāng)兩個子話題SubTi和SubTj的相似性在所述第一閾值和所述第二閾值之間時,確定子話題SubTj是子話題SubTi的轉(zhuǎn)移;當(dāng)兩個子話題SubTi和SubTj的相似性小于所述第二閾值時,確定子話題SubTj與SubTi無關(guān),即子話題SubTj是一個新子話題;其中,所述第一閾值大于所述第二閾值。相應(yīng)的,如圖4所示,本發(fā)明的實(shí)施例還提供一種微博子話題演化分析裝置,包括:聚類單元41,用于通過改進(jìn)的最近鄰方法對當(dāng)前時間窗口中的每個微博話題的特征進(jìn)行聚類,以根據(jù)聚類結(jié)果生成相應(yīng)的子話題;確定單元42,用于根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性確定子話題的演化關(guān)系。本發(fā)明實(shí)施例提供的微博子話題演化分析裝置,聚類單元41能夠通過改進(jìn)的最近鄰方法對當(dāng)前時間窗口中的每個微博話題的特征進(jìn)行聚類,根據(jù)聚類結(jié)果生成相應(yīng)的子話題,確定單元42能夠根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性確定子話題的演化關(guān)系,這樣,由于改進(jìn)的最鄰近方法能夠?qū)ξ⒉┰掝}的特征進(jìn)行更精準(zhǔn)的聚類,子話題檢測效果更好,從而能夠?qū)Σ煌瑫r間窗口的子話題進(jìn)行更有效的演化分析。可選的,聚類單元41可具體用于:針對每個微博話題,從所有特征樣本中選擇互信息最大且大于預(yù)設(shè)閾值D的一對特征樣本中的任一個作為初始聚類樣本;利用所述初始聚類樣本聚類產(chǎn)生一個簇后,如果新特征樣本與所述簇的互信息大于所述預(yù)設(shè)閾值D,且所述新特征樣本與所述簇的互信息大于其他特征樣本與所述簇的互信息,將所述新特征樣本聚入所述簇;其中,所述新特征樣本與所述簇的互信息等于所述新特征樣本與所述簇的已有特征樣本之間的互信息的平均值。進(jìn)一步的,該微博子話題演化分析裝置還包括:計算單元,用于在所述確定單元根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性確定子話題的演化關(guān)系之前,計算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性;篩選單元,用于根據(jù)所述計算單元計算的話題相似性篩選出當(dāng)前窗口的話題中的持續(xù)性話題;相應(yīng)的,確定單元42,可具體用于根據(jù)當(dāng)前時間窗口中子話題與上一時間窗口中子話題的相似性,在所述持續(xù)性話題中確定子話題的演化關(guān)系??蛇x的,計算單元,具體可用于根據(jù)特征相似性和作者相似性,計算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性??蛇x的,確定單元,具體可用于:根據(jù)特征相似性,計算當(dāng)前窗口的每個子話題與上一窗口的每個子話題之間的相似性;當(dāng)兩個子話題SubTi和SubTj的相似性大于第一閾值時,確定子話題SubTj是對子話題SubTi的繼承;當(dāng)兩個子話題SubTi和SubTj的相似性在所述第一閾值和所述第二閾值之間時,確定子話題SubTj是子話題SubTi的轉(zhuǎn)移;當(dāng)兩個子話題SubTi和SubTj的相似性小于所述第二閾值時,確定子話題SubTi與SubTj無關(guān);其中,所述第一閾值大于所述第二閾值。盡管為示例目的,已經(jīng)公開了本發(fā)明的優(yōu)選實(shí)施例,本領(lǐng)域的技術(shù)人員將意識到各種改進(jìn)、增加和取代也是可能的,因此,本發(fā)明的范圍應(yīng)當(dāng)不限于上述實(shí)施例。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1