1.一種話題熱度預(yù)測(cè)方法,其特征在于,包括:
在與預(yù)設(shè)話題相關(guān)的每篇帖子中,獲取N個(gè)時(shí)間段內(nèi)的用戶評(píng)論數(shù)據(jù)列表,所述用戶評(píng)論數(shù)據(jù)列表包含M條評(píng)論數(shù)據(jù),所述每篇帖子持有相應(yīng)的觀點(diǎn),所述N和M為大于或等于一的整數(shù);
通過(guò)預(yù)設(shè)的情感傾向分析算法對(duì)所述每一條評(píng)論數(shù)據(jù)進(jìn)行處理,以獲取所述每一條評(píng)論數(shù)據(jù)的用戶觀點(diǎn)傾向,所述用戶觀點(diǎn)傾向表示所述評(píng)論數(shù)據(jù)的發(fā)表用戶對(duì)所述帖子所持觀點(diǎn)的支持程度或者反對(duì)程度;
根據(jù)所述每一條評(píng)論數(shù)據(jù)的用戶觀點(diǎn)傾向,計(jì)算所述與預(yù)設(shè)話題相關(guān)的每篇帖子在所述每一個(gè)時(shí)間段的話題熱度得分;
根據(jù)所述每篇帖子在所述每一個(gè)時(shí)間段的話題熱度得分,構(gòu)建并訓(xùn)練伽馬預(yù)測(cè)模型函數(shù);
利用所述伽馬預(yù)測(cè)模型函數(shù),獲取任一時(shí)間點(diǎn)對(duì)應(yīng)的話題熱度預(yù)測(cè)值。
2.如權(quán)利要求1所述的方法,其特征在于,所述通過(guò)預(yù)設(shè)的情感傾向分析算法對(duì)所述每一條評(píng)論數(shù)據(jù)進(jìn)行處理,以獲取所述每一條評(píng)論數(shù)據(jù)的用戶觀點(diǎn)傾向包括:
從所述用戶評(píng)論數(shù)據(jù)列表中讀取一條所述評(píng)論數(shù)據(jù);
判斷所述評(píng)論數(shù)據(jù)的類(lèi)型,所述類(lèi)型為主觀評(píng)論數(shù)據(jù)或客觀評(píng)論數(shù)據(jù);
若所述評(píng)論數(shù)據(jù)是主觀評(píng)論數(shù)據(jù),則獲取所述評(píng)論數(shù)據(jù)的用戶觀點(diǎn)傾向,并從所述用戶評(píng)論數(shù)據(jù)列表中依次讀取下一條評(píng)論數(shù)據(jù),對(duì)于所述下一條評(píng)論數(shù)據(jù),重新執(zhí)行所述判斷處理過(guò)程,直至所述下一條評(píng)論數(shù)據(jù)為空;
若所述評(píng)論數(shù)據(jù)是客觀評(píng)論數(shù)據(jù),則將所述客觀評(píng)論數(shù)據(jù)刪除,并從所述用戶評(píng)論數(shù)據(jù)列表中依次讀取下一條評(píng)論數(shù)據(jù),對(duì)于所述下一條評(píng)論數(shù)據(jù),重新執(zhí)行所述判斷處理過(guò)程,直至所述下一條評(píng)論數(shù)據(jù)為空。
3.如權(quán)利要求2所述的方法,其特征在于,所述判斷所述評(píng)論數(shù)據(jù)的類(lèi)型包括:
基于情感詞典對(duì)所述評(píng)論數(shù)據(jù)進(jìn)行類(lèi)型判斷,若所述評(píng)論數(shù)據(jù)包含所述情感詞典中的情感詞,則所述評(píng)論數(shù)據(jù)為所述主觀評(píng)論數(shù)據(jù);
若所述評(píng)論數(shù)據(jù)沒(méi)有包含所述情感詞典中的情感詞,則所述評(píng)論數(shù)據(jù)為所述客觀評(píng)論數(shù)據(jù)。
4.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述每一條評(píng)論數(shù)據(jù)的用戶觀點(diǎn)傾向,計(jì)算所述與話題相關(guān)的每篇帖子在所述每一個(gè)時(shí)間段的話題熱度得分包括:
獲取所述每一個(gè)時(shí)間段內(nèi)所述每篇帖子的點(diǎn)擊數(shù)和評(píng)論數(shù);
根據(jù)所述每一條評(píng)論數(shù)據(jù)的用戶觀點(diǎn)傾向,在所述每一個(gè)時(shí)間段內(nèi),統(tǒng)計(jì)所述每篇帖子所持觀點(diǎn)的支持?jǐn)?shù)和反對(duì)數(shù);
將所述每篇帖子的點(diǎn)擊數(shù)和評(píng)論數(shù)以及所述每篇帖子所持觀點(diǎn)的支持?jǐn)?shù)和反對(duì)數(shù)作為熱度算法的輸入?yún)?shù),計(jì)算所述與話題相關(guān)的每篇帖子在所述每一個(gè)時(shí)間段內(nèi)的話題熱度得分,所述熱度算法包括:
其中,S(pi)為與話題相關(guān)的每篇帖子在所述每一個(gè)時(shí)間段內(nèi)的話題熱度得分,xi和yi分別為第i篇帖子的點(diǎn)擊數(shù)和評(píng)論數(shù),average(xi)和average(yi)分別為與所述話題相關(guān)的所有帖子的點(diǎn)擊數(shù)和評(píng)論數(shù)的均值,ω1、ω2、ω3和ω4為預(yù)設(shè)權(quán)重值,max(δ)為所述每篇帖子中,評(píng)論數(shù)與點(diǎn)擊數(shù)的最大比值,mi和ni分別為第i篇帖子所持觀點(diǎn)的支持?jǐn)?shù)和反對(duì)數(shù),α(0<α<1)、β(β<0)和δ(δ>0)為預(yù)設(shè)調(diào)節(jié)參數(shù)。
5.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述每篇帖子在所述每一個(gè)時(shí)間段的話題熱度得分,構(gòu)建并訓(xùn)練伽馬預(yù)測(cè)模型函數(shù)包括:
在所述每一個(gè)時(shí)間段內(nèi),分別將所述每篇帖子的所述話題熱度得分匯總為所述話題在所述每一個(gè)時(shí)間段的熱度總得分;
利用所述每個(gè)時(shí)間段以及所述話題在所述每一個(gè)時(shí)間段的熱度總得分作為訓(xùn)練數(shù)據(jù)對(duì),通過(guò)最小二乘法獲取伽馬分布的概率密度函數(shù)中的待定系數(shù);
根據(jù)所述待定系數(shù),調(diào)整伽馬模型的概率密度函數(shù),并將所述調(diào)整后的概率密度函數(shù)輸出為伽馬預(yù)測(cè)模型函數(shù)。
6.一種話題熱度預(yù)測(cè)系統(tǒng),其特征在于,包括:
獲取單元,用于在與預(yù)設(shè)話題相關(guān)的每篇帖子中,獲取N個(gè)時(shí)間段內(nèi)的用戶評(píng)論數(shù)據(jù)列表,所述用戶評(píng)論數(shù)據(jù)列表包含M條評(píng)論數(shù)據(jù),所述每篇帖子持有相應(yīng)的觀點(diǎn),所述N和M為大于或等于一的整數(shù);
分析單元,用于通過(guò)預(yù)設(shè)的情感傾向分析算法對(duì)所述每一條評(píng)論數(shù)據(jù)進(jìn)行處理,以獲取所述每一條評(píng)論數(shù)據(jù)的用戶觀點(diǎn)傾向,所述用戶觀點(diǎn)傾向表示所述評(píng)論數(shù)據(jù)的發(fā)表用戶對(duì)所述帖子所持觀點(diǎn)的支持程度或者反對(duì)程度;
計(jì)算單元,用于根據(jù)所述每一條評(píng)論數(shù)據(jù)的用戶觀點(diǎn)傾向,計(jì)算所述與預(yù)設(shè)話題相關(guān)的每篇帖子在所述每一個(gè)時(shí)間段的話題熱度得分;
訓(xùn)練單元,用于根據(jù)所述每篇帖子在所述每一個(gè)時(shí)間段的話題熱度得分,構(gòu)建并訓(xùn)練伽馬預(yù)測(cè)模型函數(shù);
預(yù)測(cè)單元,用于利用所述伽馬預(yù)測(cè)模型函數(shù),獲取任一時(shí)間點(diǎn)對(duì)應(yīng)的話題熱度預(yù)測(cè)值。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述分析單元包括:
讀取子單元,用于從所述用戶評(píng)論數(shù)據(jù)列表中讀取一條所述評(píng)論數(shù)據(jù);
判斷子單元,用于判斷所述評(píng)論數(shù)據(jù)的類(lèi)型,所述類(lèi)型為主觀評(píng)論數(shù)據(jù)或客觀評(píng)論數(shù)據(jù);
處理子單元,用于若所述評(píng)論數(shù)據(jù)是主觀評(píng)論數(shù)據(jù),則獲取所述評(píng)論數(shù)據(jù)的用戶觀點(diǎn)傾向,并從所述用戶評(píng)論數(shù)據(jù)列表中依次讀取下一條評(píng)論數(shù)據(jù),對(duì)于所述下一條評(píng)論數(shù)據(jù),重新執(zhí)行所述判斷處理過(guò)程,直至所述下一條評(píng)論數(shù)據(jù)為空;
若所述評(píng)論數(shù)據(jù)是客觀評(píng)論數(shù)據(jù),則將所述客觀評(píng)論數(shù)據(jù)刪除,并從所述用戶評(píng)論數(shù)據(jù)列表中依次讀取下一條評(píng)論數(shù)據(jù),對(duì)于所述下一條評(píng)論數(shù)據(jù),重新執(zhí)行所述判斷處理過(guò)程,直至所述下一條評(píng)論數(shù)據(jù)為空。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述判斷子單元具體用于:
基于情感詞典對(duì)所述評(píng)論數(shù)據(jù)進(jìn)行類(lèi)型判斷,若所述評(píng)論數(shù)據(jù)包含所述情感詞典中的情感詞,則所述評(píng)論數(shù)據(jù)為所述主觀評(píng)論數(shù)據(jù);
若所述評(píng)論數(shù)據(jù)沒(méi)有包含所述情感詞典中的情感詞,則所述評(píng)論數(shù)據(jù)為所述客觀評(píng)論數(shù)據(jù)。
9.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述計(jì)算單元包括:
獲取子單元,用于獲取所述每一個(gè)時(shí)間段內(nèi)所述每篇帖子的點(diǎn)擊數(shù)和評(píng)論數(shù);
統(tǒng)計(jì)子單元,用于根據(jù)所述每一條評(píng)論數(shù)據(jù)的用戶觀點(diǎn)傾向,在所述每一個(gè)時(shí)間段內(nèi),統(tǒng)計(jì)所述每篇帖子所持觀點(diǎn)的支持?jǐn)?shù)和反對(duì)數(shù);
計(jì)算子單元,用于將所述每篇帖子的點(diǎn)擊數(shù)和評(píng)論數(shù)以及所述每篇帖子所持觀點(diǎn)的支持?jǐn)?shù)和反對(duì)數(shù)作為熱度算法的輸入?yún)?shù),計(jì)算所述與話題相關(guān)的每篇帖子在所述每一個(gè)時(shí)間段內(nèi)的話題熱度得分,所述熱度算法包括:
其中,S(pi)為與話題相關(guān)的每篇帖子在所述每一個(gè)時(shí)間段內(nèi)的話題熱度得分,xi和yi分別為第i篇帖子的點(diǎn)擊數(shù)和評(píng)論數(shù),average(xi)和average(yi)分別為與所述話題相關(guān)的所有帖子的點(diǎn)擊數(shù)和評(píng)論數(shù)的均值,ω1、ω2、ω3和ω4為預(yù)設(shè)權(quán)重值,max(δ)為所述每篇帖子中,評(píng)論數(shù)與點(diǎn)擊數(shù)的最大比值,mi和ni分別為第i篇帖子所持觀點(diǎn)的支持?jǐn)?shù)和反對(duì)數(shù),α(0<α<1)、β(β<0)和δ(δ>0)為預(yù)設(shè)調(diào)節(jié)參數(shù)。
10.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述訓(xùn)練單元包括:
匯總子單元,用于在所述每一個(gè)時(shí)間段內(nèi),分別將所述每篇帖子的所述話題熱度得分匯總為所述話題在所述每一個(gè)時(shí)間段的熱度總得分;
訓(xùn)練子單元,用于利用所述每個(gè)時(shí)間段以及所述話題在所述每一個(gè)時(shí)間段的熱度總得分作為訓(xùn)練數(shù)據(jù)對(duì),通過(guò)最小二乘法獲取伽馬分布的概率密度函數(shù)中的待定系數(shù);
調(diào)整子單元,根據(jù)所述待定系數(shù),調(diào)整伽馬模型的概率密度函數(shù),并將所述調(diào)整后的概率密度函數(shù)輸出為伽馬預(yù)測(cè)模型函數(shù)。