專利名稱:網(wǎng)絡(luò)論壇中熱點(diǎn)發(fā)現(xiàn)及其演化態(tài)勢分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種網(wǎng)絡(luò)論壇中熱點(diǎn)發(fā)現(xiàn)及其演化態(tài)勢分析方法,屬于網(wǎng)絡(luò)的演化分析方法技術(shù)領(lǐng)域。
背景技術(shù):
現(xiàn)有對(duì)網(wǎng)絡(luò)論壇中熱點(diǎn)話題發(fā)現(xiàn)這個(gè)問題的解決方法主要是簡單地以瀏覽量和回復(fù)量的多少作為評(píng)價(jià)標(biāo)準(zhǔn),亦即瀏覽量和回復(fù)數(shù)多,帖子主題便是比較熱門。如此簡單的判斷往往會(huì)忽略這些數(shù)值之中的內(nèi)在的數(shù)學(xué)意義;在態(tài)勢分析上使用人工跟蹤的方法,往往網(wǎng)絡(luò)論壇的管理人員對(duì)帖子的內(nèi)容進(jìn)行監(jiān)測,以得到其演化規(guī)律,這樣既費(fèi)時(shí)又費(fèi)力。
發(fā)明內(nèi)容
本發(fā)明的目的是能夠發(fā)現(xiàn)當(dāng)前網(wǎng)絡(luò)論壇中比較熱門,持續(xù)時(shí)間比較長的帖子,得到的結(jié)果盡可能與話題實(shí)際背景與情況相符合;能夠?qū)υ掝}在未來的一段時(shí)間內(nèi)的發(fā)展態(tài)勢做出分析,進(jìn)而提供一種網(wǎng)絡(luò)論壇中熱點(diǎn)發(fā)現(xiàn)及其演化態(tài)勢分析方法。本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的網(wǎng)絡(luò)論壇中熱點(diǎn)發(fā)現(xiàn)及其演化態(tài)勢分析方法一、帖子打分方法1、利用爬蟲程序提取一個(gè)版塊內(nèi)所有帖子的HTML文本;2、從每個(gè)帖子文本中抽取瀏覽量和回復(fù)量構(gòu)成二元組,設(shè)第i個(gè)帖子的二元組為(Xi,Yi) ;3、利用公式
SCpi)= ω.^ω,~^”一 + —計(jì)算第i個(gè)帖子的得分;其中,S(Pi)代表第
ri* averagef.x) “ av0r&g0(y) τηΛχ(α)
i個(gè)帖子的得分;average (χ)表示所有帖子訪問數(shù)的平均值;average (y)表示所有帖子回復(fù)數(shù)的平均值;max(a)表示所有元組中回復(fù)數(shù)比訪問數(shù)的最大值;《』().0-0. 3], ω2
,ω3
為權(quán)重因子,初始置為 Q1 = 0. 1,ω2 = 0.2,ω3 = 0. 8 ;4、按照帖子分?jǐn)?shù)高低排序,提取前k個(gè)感興趣的熱度帖子,作為演化態(tài)勢分析的目標(biāo)帖;二、演化態(tài)勢分析方法(基于MATLAB)1、取得一個(gè)熱度帖,根據(jù)回復(fù)記錄統(tǒng)計(jì)自主題發(fā)布以來到抓取時(shí)每天發(fā)生的回復(fù)數(shù)(除作者自身),得到二元組(Lyi);其中,i為相距帖子發(fā)布日期的天數(shù)…為發(fā)生在第天的回復(fù)數(shù);2、為這些二元組建立平面直角坐標(biāo)系以增大的方向?yàn)棣州S正向,y增大的方向?yàn)閥軸正向,將元組投影到該坐標(biāo)系中;3、用合適的曲線y = f(x)擬合穿過這些點(diǎn)的曲線;4、求y = f(x)的最大極值點(diǎn);如果不存在極值點(diǎn),取適當(dāng)大小的Xtl,求y的導(dǎo)數(shù)在Xtl處 y' (X0)的值,若為正數(shù)則該帖熱度處于上升狀態(tài),否則處于平緩或下降狀態(tài),結(jié)束;取大于乂 1的¥求7的導(dǎo)數(shù)在&處7' (X0)的值,若為正數(shù)則該帖熱度處于上升狀態(tài),否則處于平緩或下降狀態(tài)。由上述提供的技術(shù)方案可以看出,在帖子打分方法中,我們提取天涯論壇中天涯雜談版面中的31236篇帖子進(jìn)行分析,運(yùn)用帖子打分公式,得到如表1的結(jié)果(前6名)
權(quán)利要求
1. 一種網(wǎng)絡(luò)論壇中熱點(diǎn)發(fā)現(xiàn)及其演化態(tài)勢分析方法,其特征在于,一、帖子打分方法(1)利用爬蟲程序提取一個(gè)版塊內(nèi)所有帖子的HTML文本;(2)從每個(gè)帖子文本中抽取瀏覽量和回復(fù)量構(gòu)成二元組,設(shè)第i個(gè)帖子的二元組為(Xi,Yi) ; (3)利用公式S(Jjt)=OJ.-^+ ω,計(jì)算第i個(gè)帖子的得分;其中,S(Pi)代表第^riΛ average ijcj Λ avwrajgeiyj 4 max (α)i個(gè)帖子的得分;average (χ)表示所有帖子訪問數(shù)的平均值;average (y)表示所有帖子回復(fù)數(shù)的平均值;max(a)表示所有元組中回復(fù)數(shù)比訪問數(shù)的最大值;《』().0-0. 3], ω2
,ω3
為權(quán)重因子,初始置為 Q1 = 0. 1,ω2 = 0.2,ω3 = 0. 8 ; (4) 按照帖子分?jǐn)?shù)高低排序,提取前k個(gè)感興趣的熱度帖子,作為演化態(tài)勢分析的目標(biāo)帖;二、演化態(tài)勢分析方法(1)取得一個(gè)熱度帖,根據(jù)回復(fù)記錄統(tǒng)計(jì)自主題發(fā)布以來到抓取時(shí)每天發(fā)生的回復(fù)數(shù), 得到二元組(Lyi);其中,i為相距帖子發(fā)布日期的天數(shù)…為發(fā)生在第天的回復(fù)數(shù);(2)為這些二元組建立平面直角坐標(biāo)系以增大的方向?yàn)棣州S正向,y增大的方向?yàn)閥軸正向,將元組投影到該坐標(biāo)系中;(3)用合適的曲線y = f(x)擬合穿過這些點(diǎn)的曲線;(4)求y = f(x)的最大極值點(diǎn);如果不存在極值點(diǎn),取適當(dāng)大小的Xtl,求y的導(dǎo)數(shù)在(X0)的值,若為正數(shù)則該帖熱度處于上升狀態(tài),否則處于平緩或下降狀態(tài),結(jié)束;取大于Xm的Χο,求 y的導(dǎo)數(shù)在(X0)的值,若為正數(shù)則該帖熱度處于上升狀態(tài),否則處于平緩或下降狀態(tài)。
全文摘要
本發(fā)明提供了一種網(wǎng)絡(luò)論壇中熱點(diǎn)發(fā)現(xiàn)及其演化態(tài)勢分析方法,利用爬蟲程序提取一個(gè)版塊內(nèi)所有帖子的HTML文本;從每個(gè)帖子文本中抽取瀏覽量和回復(fù)量構(gòu)成二元組,設(shè)第i個(gè)帖子的二元組為(xi,yi);利用公式計(jì)算第i個(gè)帖子的得分;取得一個(gè)熱度帖,根據(jù)回復(fù)記錄統(tǒng)計(jì)自主題發(fā)布以來到抓取時(shí)每天發(fā)生的回復(fù)數(shù)得到二元組。下面列出擬合的效果以及評(píng)價(jià)指標(biāo)SSE=1.548e+07。SSE為誤差項(xiàng)平方和,反映每個(gè)樣本各觀測值的離散狀況,又稱為組內(nèi)平方和或殘差平方和。R-square=0.8339。R-square是擬合系數(shù),值越大擬合度越好。RMSE=525.7。RMSE為均方根誤差,可以作為衡量測量精度的一種數(shù)值指標(biāo)。對(duì)這些指標(biāo)分析后,可以看出擬合的效果是比較理想的。求出最大的極值點(diǎn)為x0=14;取x1=15>x0,y′(x0)<0故該帖子的熱度正在下降。
文檔編號(hào)G06F17/30GK102270240SQ201110231560
公開日2011年12月7日 申請(qǐng)日期2011年8月15日 優(yōu)先權(quán)日2011年8月15日
發(fā)明者盧俊珈, 張偉哲, 張宏莉, 張玥 申請(qǐng)人:哈爾濱工業(yè)大學(xué)