本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種話題熱度預(yù)測方法及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展,越來越多的用戶熱衷于借助論壇、博客和微博等網(wǎng)絡(luò)平臺來進行信息的交流以及參與熱點事件的討論。
用戶在網(wǎng)絡(luò)平臺發(fā)布的任一內(nèi)容都可能與一個或多個話題相關(guān)聯(lián),話題受用戶關(guān)注的程度稱為話題熱度。通過對當(dāng)前話題發(fā)展態(tài)勢的預(yù)測,政府部門能夠?qū)崿F(xiàn)對網(wǎng)絡(luò)輿情的監(jiān)測與安全預(yù)警;企業(yè)能夠采取相應(yīng)的技術(shù)手段,及時發(fā)現(xiàn)并跟蹤與公司相關(guān)的熱點話題或事件,對一些影響公司聲譽的事件予以及時的澄清及引導(dǎo),提高企業(yè)自身的軟實力。
話題發(fā)展態(tài)勢預(yù)測的核心包括話題熱度的預(yù)測。然而,在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在如下問題:一方面,現(xiàn)有話題熱度預(yù)測方法僅僅從話題的點擊數(shù)和評論數(shù)這兩個客觀因子來衡量話題的熱度,話題熱度的預(yù)測準(zhǔn)確率低;另一方面,在進行話題熱度預(yù)測時,現(xiàn)有技術(shù)大都采用高斯模型來進行擬合預(yù)測,但高斯模型擬合后的曲線近似服從正態(tài)分布,曲線峰值左右兩端嚴(yán)格對稱,與現(xiàn)實生活中話題熱度的變化趨勢不符,很難準(zhǔn)確地預(yù)測話題或事件的發(fā)展趨勢。
綜上,現(xiàn)有技術(shù)難以準(zhǔn)確地預(yù)測話題或事件的發(fā)展趨勢,存在話題熱度預(yù)測準(zhǔn)確率低的問題。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種話題熱度預(yù)測方法及系統(tǒng),旨在解決現(xiàn)有技術(shù)話題熱度預(yù)測準(zhǔn)確率低,難以準(zhǔn)確地預(yù)測話題或事件的發(fā)展趨勢的問題。
本發(fā)明實施例是這樣實現(xiàn)的,一種話題熱度預(yù)測方法,包括:
在與預(yù)設(shè)話題相關(guān)的每篇帖子中,獲取N個時間段內(nèi)的用戶評論數(shù)據(jù)列表,所述用戶評論數(shù)據(jù)列表包含M條評論數(shù)據(jù),所述每篇帖子持有相應(yīng)的觀點,所述N和M為大于或等于一的整數(shù);
通過預(yù)設(shè)的情感傾向分析算法對所述每一條評論數(shù)據(jù)進行處理,以獲取所述每一條評論數(shù)據(jù)的用戶觀點傾向,所述用戶觀點傾向表示所述評論數(shù)據(jù)的發(fā)表用戶對所述帖子所持觀點的支持程度或者反對程度;
根據(jù)所述每一條評論數(shù)據(jù)的用戶觀點傾向,計算所述與預(yù)設(shè)話題相關(guān)的每篇帖子在所述每一個時間段的話題熱度得分;
根據(jù)所述每篇帖子在所述每一個時間段的話題熱度得分,構(gòu)建并訓(xùn)練伽馬預(yù)測模型函數(shù);
利用所述伽馬預(yù)測模型函數(shù),獲取任一時間點對應(yīng)的話題熱度預(yù)測值。
本發(fā)明實施例的另一目的在于提供一種話題熱度預(yù)測系統(tǒng),包括:
獲取單元,用于在與預(yù)設(shè)話題相關(guān)的每篇帖子中,獲取N個時間段內(nèi)的用戶評論數(shù)據(jù)列表,所述用戶評論數(shù)據(jù)列表包含M條評論數(shù)據(jù),所述每篇帖子持有相應(yīng)的觀點,所述N和M為大于或等于一的整數(shù);
分析單元,用于通過預(yù)設(shè)的情感傾向分析算法對所述每一條評論數(shù)據(jù)進行處理,以獲取所述每一條評論數(shù)據(jù)的用戶觀點傾向,所述用戶觀點傾向表示所述評論數(shù)據(jù)的發(fā)表用戶對所述帖子所持觀點的支持程度或者反對程度;
計算單元,用于根據(jù)所述每一條評論數(shù)據(jù)的用戶觀點傾向,計算所述與預(yù)設(shè)話題相關(guān)的每篇帖子在所述每一個時間段的話題熱度得分;
訓(xùn)練單元,用于根據(jù)所述每篇帖子在所述每一個時間段的話題熱度得分,構(gòu)建并訓(xùn)練伽馬預(yù)測模型函數(shù);
預(yù)測單元,用于利用所述伽馬預(yù)測模型函數(shù),獲取任一時間點對應(yīng)的話題熱度預(yù)測值。
在本發(fā)明實施例中,基于用戶的觀點傾向越不統(tǒng)一,越會激發(fā)用戶參與話題討論,話題熱度則越高的原理,通過對與預(yù)設(shè)話題相關(guān)的所有帖子的用戶評論數(shù)據(jù)進行觀點傾向分析,增加了觀點傾向這一因子來量化衡量話題的熱度,提高了話題熱度得分計算的準(zhǔn)確性,從而能夠根據(jù)所述話題熱度得分構(gòu)建更為合理的熱度預(yù)測模型函數(shù);通過引入曲線峰值左右兩端不對稱的伽馬模型進行話題熱度的擬合,符合現(xiàn)實生活中話題熱度的變化趨勢,提高了話題熱度預(yù)測的準(zhǔn)確率,由此能夠有效預(yù)測話題或事件的發(fā)展趨勢。
附圖說明
圖1是本發(fā)明實施例提供的話題熱度預(yù)測方法的實現(xiàn)流程圖;
圖2是本發(fā)明實施例提供的話題熱度預(yù)測方法S102的具體實現(xiàn)流程圖;
圖3是本發(fā)明實施例提供的話題熱度預(yù)測方法S102的實現(xiàn)示例圖;
圖4是本發(fā)明實施例提供的話題熱度預(yù)測方法S103的具體實現(xiàn)流程圖;
圖5是本發(fā)明實施例提供的話題熱度預(yù)測方法S104的具體實現(xiàn)流程圖;
圖6是本發(fā)明實施例提供的不同參數(shù)下的伽馬分布曲線示意圖;
圖7是本發(fā)明實施例提供的話題熱度預(yù)測系統(tǒng)的結(jié)構(gòu)框圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
在本發(fā)明實施例中,基于用戶的觀點傾向越不統(tǒng)一,越會激發(fā)用戶參與話題討論,話題熱度則越高的原理,通過對與預(yù)設(shè)話題相關(guān)的所有帖子的用戶評論數(shù)據(jù)進行觀點傾向分析,增加了觀點傾向這一因子來量化衡量話題的熱度,提高了話題熱度得分計算的準(zhǔn)確性,從而能夠根據(jù)所述話題熱度得分構(gòu)建更為合理的熱度預(yù)測模型函數(shù);通過引入曲線峰值左右兩端不對稱的伽馬模型進行話題熱度的擬合,符合現(xiàn)實生活中話題熱度的變化趨勢,提高了話題熱度預(yù)測的準(zhǔn)確率,由此能夠有效預(yù)測話題或事件的發(fā)展趨勢。
圖1示出了本發(fā)明實施例所述的話題熱度預(yù)測方法的實現(xiàn)流程,詳述如下:
在S101中,在與預(yù)設(shè)話題相關(guān)的每篇帖子中,獲取N個時間段內(nèi)的用戶評論數(shù)據(jù)列表,所述用戶評論數(shù)據(jù)列表包含M條評論數(shù)據(jù),所述每篇帖子持有相應(yīng)的觀點,所述N和M為大于或等于一的整數(shù)。
在本實施例中,每篇帖子可以關(guān)聯(lián)一個或者多個話題,這些帖子為論壇、博客、微博、聊天室或各種網(wǎng)站所顯示的用戶自由發(fā)表的意見的原文或轉(zhuǎn)載文,包含文字、圖像、聲音和視頻等內(nèi)容。帖子具有評論功能,基于所述帖子的評論為評論數(shù)據(jù),在每篇帖子中,任意數(shù)量評論數(shù)據(jù)的集合構(gòu)成一個用戶評論數(shù)據(jù)列表。
在每篇帖子中,根據(jù)每條評論數(shù)據(jù)產(chǎn)生的時間對評論數(shù)據(jù)進行分組,每組數(shù)據(jù)形成一個用戶評論數(shù)據(jù)列表。所述N取值越大,意味著選定的時間段數(shù)目越多,所述時間段可以為相鄰時間段或存在一定時間間隔的選定時間段,每個時間段對應(yīng)一個用戶評論數(shù)據(jù)列表,包含多條產(chǎn)生時間在該時間段內(nèi)的評論數(shù)據(jù),N的取值根據(jù)實際所需來確定。由于每篇帖子為用戶自由發(fā)表的意見,因此從整體上能夠體現(xiàn)一個用戶對于該話題的具體觀點。
在S102中,通過預(yù)設(shè)的情感傾向分析算法對所述每一條評論數(shù)據(jù)進行處理,以獲取所述每一條評論數(shù)據(jù)的用戶觀點傾向,所述用戶觀點傾向表示所述評論數(shù)據(jù)的發(fā)表用戶對所述帖子所持觀點的支持程度或者反對程度。
在本實施例中,用戶的觀點傾向用于表示所述評論數(shù)據(jù)的發(fā)表用戶是支持所述帖子所持有的觀點還是反對所述帖子所持有的觀點,觀點的支持程度或反對程度可量化成為具體的數(shù)值。帖子觀點的支持?jǐn)?shù)和反對數(shù)的差值體現(xiàn)觀點傾向的不統(tǒng)一程度,差值越小,用戶觀點傾向不統(tǒng)一的程度越大,當(dāng)帖子觀點的支持?jǐn)?shù)和反對數(shù)相同時,基于該帖子觀點的觀點傾向不統(tǒng)一程度最大。因此,觀點傾向不統(tǒng)一程度y與帖子觀點的支持?jǐn)?shù)和反對數(shù)的關(guān)系可通過冪函數(shù)進行描述,具體公式如下所示:
式中,m和n分別為帖子觀點的支持?jǐn)?shù)和反對數(shù),δ為預(yù)設(shè)的調(diào)節(jié)參數(shù)且δ>0,用于減少帖子觀點總數(shù)對計算結(jié)果的影響,A為帖子觀點的總數(shù),α(0<α<1)、β(β<0)均為調(diào)節(jié)參數(shù)。
通過預(yù)設(shè)的情感傾向分析算法來對所述每一條評論數(shù)據(jù)進行處理,能夠衡量兩個角度的情感傾向,一個是觀點傾向,即評論數(shù)據(jù)的發(fā)表用戶是支持所述帖子所持有的觀點還是反對所述帖子所持有的觀點;一個是觀點傾向度,即用戶對帖子觀點的支持程度或反對程度。目前,情感傾向分析算法主要分為兩類:一種是基于中文情感極性詞典的方法;一種是基于機器學(xué)習(xí)的方法,如基于大規(guī)模語料庫的機器學(xué)習(xí)?;跈C器學(xué)習(xí)的方法通過利用大量人工標(biāo)注的語料作為訓(xùn)練集,并從中提取文本特征,構(gòu)建分類器來實現(xiàn)情感的分類。
作為本發(fā)明的另一個實施例,圖2示出了本發(fā)明實施例提供的話題熱度預(yù)測方法S102的具體實現(xiàn)流程,詳述如下:
在S201中,從所述用戶評論數(shù)據(jù)列表中讀取一條所述評論數(shù)據(jù)。
將所述用戶評論數(shù)據(jù)列表中的評論數(shù)據(jù)依照預(yù)設(shè)的排序規(guī)則進行排序,從所述列表中的第一條評論數(shù)據(jù)開始讀取。例如依照評論數(shù)據(jù)的生成時間進行升序排序,并首先讀取最早產(chǎn)生的一條評論數(shù)據(jù)。
在S202中,判斷所述評論數(shù)據(jù)的類型,所述類型為主觀評論數(shù)據(jù)或客觀評論數(shù)據(jù)。
作為本發(fā)明的一個實施例,所述判斷所述評論數(shù)據(jù)的類型包括:
基于情感詞典對所述評論數(shù)據(jù)進行類型判斷,若所述評論數(shù)據(jù)包含所述情感詞典中的情感詞,則所述評論數(shù)據(jù)為所述主觀評論數(shù)據(jù)。
例如,基于分詞算法將每條評論數(shù)據(jù)進行切分,將切分后評論數(shù)據(jù)中的分詞依次與情感詞典中的情感詞進行匹配,情感詞典包含但不限于HOWNET詞典(知網(wǎng)情感詞典)和NTUSD詞典(中文情感極性詞典)等。若能匹配成功,則表明該評論數(shù)據(jù)的主體對客體存在主觀的內(nèi)心喜惡感受,因此可將所述評論數(shù)據(jù)判定為所述主觀評論數(shù)據(jù)。
若所述評論數(shù)據(jù)沒有包含所述情感詞典中的情感詞,則所述評論數(shù)據(jù)為所述客觀評論數(shù)據(jù)。
同理,若切分后評論數(shù)據(jù)中的各個分詞與情感詞典中的情感詞均不匹配時,表明該評論數(shù)據(jù)的主體對客體并不存在主觀的內(nèi)心喜惡感受,因此可將所述評論數(shù)據(jù)判定為所述客觀評論數(shù)據(jù)。
在S203中,若所述評論數(shù)據(jù)是主觀評論數(shù)據(jù),則獲取所述評論數(shù)據(jù)的用戶觀點傾向,并從所述用戶評論數(shù)據(jù)列表中依次讀取下一條評論數(shù)據(jù),對于所述下一條評論數(shù)據(jù),重新執(zhí)行所述判斷處理過程,直至所述下一條評論數(shù)據(jù)為空。
作為本發(fā)明實施例的一個實現(xiàn)示例,可通過基于文本句法結(jié)構(gòu)的情感傾向分析獲取所述每一條評論數(shù)據(jù)的用戶觀點傾向,包括以下三大步驟:第一步,基于分詞算法將每條評論數(shù)據(jù)進行切分,并轉(zhuǎn)換成后續(xù)情感分析所需要的特定格式;第二步,將格式轉(zhuǎn)換后的評論數(shù)據(jù)中的分詞依次與情感詞典中的情感詞進行匹配,若能匹配成功,則該評論數(shù)據(jù)中的分詞屬于情感詞,獲取情感詞典中該情感詞的情感極性及相應(yīng)權(quán)值;第三步,根據(jù)評論數(shù)據(jù)中的每個情感詞及其相應(yīng)的情感極性和權(quán)值,計算觀點傾向度的量化值。從所述觀點傾向度的量化值可以直接獲取得出觀點傾向的方向以及觀點傾向的程度。
在S204中,若所述評論數(shù)據(jù)是客觀評論數(shù)據(jù),則將所述客觀評論數(shù)據(jù)刪除,并從所述用戶評論數(shù)據(jù)列表中依次讀取下一條評論數(shù)據(jù),對于所述下一條評論數(shù)據(jù),重新執(zhí)行所述判斷處理過程,直至所述下一條評論數(shù)據(jù)為空。
對應(yīng)于圖2所提供的話題熱度預(yù)測方法,圖3提供了具體的實現(xiàn)示例,詳述如下:
在S301中,從所述用戶評論數(shù)據(jù)列表中讀取一條所述評論數(shù)據(jù),并執(zhí)行步驟S302。
在S302中,判斷所述評論數(shù)據(jù)的類型,若所述評論數(shù)據(jù)是主觀評論數(shù)據(jù),執(zhí)行步驟S303,若所述評論數(shù)據(jù)是客觀評論數(shù)據(jù),執(zhí)行步驟S304。
在S303中,獲取所述評論數(shù)據(jù)的用戶觀點傾向,并執(zhí)行步驟S305。
在S304中,將所述客觀評論數(shù)據(jù)刪除,并執(zhí)行步驟S305。
在S305中,判斷所述評論數(shù)據(jù)在所述用戶評論列表中的下一條評論數(shù)據(jù)是否為空。
若所述評論數(shù)據(jù)在所述用戶評論列表中的下一條評論數(shù)據(jù)為空,則當(dāng)前用戶數(shù)據(jù)列表中每一條評論數(shù)據(jù)的用戶觀點傾向已獲取完畢,不存在未讀取或未處理的評論數(shù)據(jù),因此無須重復(fù)執(zhí)行S302中的判斷步驟,結(jié)束此次的處理流程。
若所述評論數(shù)據(jù)在所述用戶評論列表中的下一條評論數(shù)據(jù)非空,則表明當(dāng)前用戶數(shù)據(jù)列表中依然存在未讀取或未經(jīng)處理的評論數(shù)據(jù),此時執(zhí)行步驟S306。
在S306中,從所述用戶評論數(shù)據(jù)列表中依次讀取所述非空的下一條評論數(shù)據(jù),并流轉(zhuǎn)至步驟S302,對所述下一條評論數(shù)據(jù),重復(fù)S302后的判斷執(zhí)行過程。
本實現(xiàn)示例中未提到的方法及原理與上述實施例相同,在此不一一贅述。通過對所述用戶評論數(shù)據(jù)列表中的每條評論數(shù)據(jù)進行讀取及處理,能夠遍歷所有評論數(shù)據(jù),獲取準(zhǔn)確的用戶觀點傾向統(tǒng)計值,提高后續(xù)熱度得分計算的準(zhǔn)確率。
在S103中,根據(jù)所述每一條評論數(shù)據(jù)的用戶觀點傾向,計算所述與預(yù)設(shè)話題相關(guān)的每篇帖子在所述每一個時間段的話題熱度得分。
由于話題熱度表示一個話題受用戶關(guān)注的程度,是一個抽象的概念,因此在本實施例中,將其量化成可具體顯示的數(shù)值,該數(shù)值稱為話題熱度得分,以使用戶能夠以話題熱度得分來衡量一個話題的熱度情況。基于用戶的觀點傾向越不統(tǒng)一,越會激發(fā)用戶參與話題討論,話題熱度則越高的原理,通過在S102中對與話題相關(guān)的所有帖子的用戶評論數(shù)據(jù)進行觀點傾向分析,得到所述每一條評論數(shù)據(jù)的用戶觀點傾向。在本實施例中,將該觀點傾向作為一個衡量因子,通過預(yù)設(shè)的算法對每篇帖子在所述每一個時間段的話題熱度得分進行計算。
作為本發(fā)明的一個實施例,圖4示出了本發(fā)明實施例提供的話題熱度預(yù)測方法S103的具體實現(xiàn)流程,詳述如下:
在S401中,獲取所述每一個時間段內(nèi)所述每篇帖子的點擊數(shù)和評論數(shù)。
本實施例可通過多種手段獲取每篇帖子的點擊數(shù)和評論數(shù)。由于現(xiàn)有話題熱度預(yù)測方法已從話題的點擊數(shù)和評論數(shù)這個兩個客觀因子來衡量話題的熱度,因此,獲取每篇帖子點擊數(shù)和評論數(shù)的方式屬于現(xiàn)有技術(shù)公開的范疇,在此只簡述這些方法,但不用于限定本發(fā)明。
例如,通過調(diào)用每篇帖子所處網(wǎng)絡(luò)平臺的數(shù)據(jù)庫的方式,讀取數(shù)據(jù)庫中點擊量字段以及評論量字段在指定時間段內(nèi)的數(shù)據(jù);通過站長工具、Web統(tǒng)計軟件輔助工具,獲取網(wǎng)站中每篇帖子的點擊數(shù)和評論數(shù)。
在S402中,根據(jù)所述每一條評論數(shù)據(jù)的用戶觀點傾向,在所述每一個時間段內(nèi),統(tǒng)計所述每篇帖子所持觀點的支持?jǐn)?shù)和反對數(shù)。
因步驟S203中獲取得到了每一條評論數(shù)據(jù)在每一個時間段內(nèi)的觀點傾向度量化值,該值體現(xiàn)了用戶的觀點傾向以及觀點傾向的程度,因此可以間接表達(dá)出該條評論數(shù)據(jù)的發(fā)表用戶是支持帖子所持有的觀點還是反對帖子所持有的觀點。
例如,在同一時間段內(nèi),對觀點傾向度量化值為正值的帖子可判定為一個對帖子觀點的支持意見,對觀點傾向度量化值為負(fù)值的帖子可判定為一個對帖子觀點的反對意見。通過對持支持意見以及持反對意見的評論數(shù)據(jù)條目數(shù)分別進行統(tǒng)計,得到所述每篇帖子所持觀點的支持?jǐn)?shù)和反對數(shù)。
在S403中,將所述所述每篇帖子的點擊數(shù)和評論數(shù)以及所述每篇帖子所持觀點的支持?jǐn)?shù)和反對數(shù)作為熱度算法的輸入?yún)?shù),計算所述與話題相關(guān)的每篇帖子在所述每一個時間段內(nèi)的話題熱度得分,所述熱度算法包括:
其中,S(pi)為與話題相關(guān)的每篇帖子在所述每一個時間段內(nèi)的話題熱度得分,xi和yi分別為第i篇帖子的點擊數(shù)和評論數(shù),average(xi)和average(yi)分別為與所述話題相關(guān)的所有帖子的點擊數(shù)和評論數(shù)的均值,ω1、ω2、ω3和ω4為預(yù)設(shè)權(quán)重值,max(δ)為所述每篇帖子中,評論數(shù)與點擊數(shù)的最大比值,mi和ni分別為第i篇帖子所持觀點的支持?jǐn)?shù)和反對數(shù),α(0<α<1)、β(β<0)和δ(δ>0)為預(yù)設(shè)調(diào)節(jié)參數(shù)。
在本發(fā)明實施例中,通過計算每篇帖子在每一個指定時間段內(nèi)的話題熱度得分,實現(xiàn)了話題熱度的量化,使得用戶能夠直觀地了解話題在每個階段的發(fā)展?fàn)顩r,及時發(fā)現(xiàn)并跟蹤與自身利益相關(guān)的話題或事件;通過引入評論數(shù)據(jù)的用戶觀點傾向因子來計算熱度得分,有效地避免了因帖子觀點的支持?jǐn)?shù)和反對數(shù)差值較大而造成的話題熱度失真狀況發(fā)生。
在S104中,根據(jù)所述每篇帖子在所述每一個時間段的話題熱度得分,構(gòu)建并訓(xùn)練伽馬預(yù)測模型函數(shù)。
在事件趨勢預(yù)測應(yīng)用方面的預(yù)測模型有很多種,在本實施例中,選取伽馬(Gamma)模型作為原始模型來對話題熱度進行預(yù)測,相對于傳統(tǒng)的話題熱度預(yù)測高斯模型,能擁有更準(zhǔn)確的預(yù)測效果。
在本實施例中,滿足Gamma分布的模型概率密度函數(shù)如下所示:
其中,α是形狀參數(shù),表示模型函數(shù)分布曲線的形狀,β為尺度參數(shù),表示模型函數(shù)曲線左右兩邊的對稱情況,β越大,函數(shù)曲線的左右兩邊越對稱,當(dāng)β→∞時,曲線服從正態(tài)分布。
以每篇帖子在每一個時間段的話題熱度得分為依據(jù),可以將同一時間段內(nèi)各篇帖子的熱度得分匯總為一個話題的熱度總得分,并通過調(diào)節(jié)原始Gamma模型的形狀參數(shù)及尺度參數(shù),對話題熱度總得分的變化趨勢進行擬合,得到話題熱度發(fā)展趨勢的曲線,形成一個Gamma預(yù)測模型函數(shù)。
作為本發(fā)明的一個實施例,圖5示出本發(fā)明實施例提供的話題熱度預(yù)測方法S104的具體實現(xiàn)流程,詳述如下:
S501,在所述每一個時間段內(nèi),分別將所述每篇帖子的所述話題熱度得分匯總為所述話題在所述每一個時間段的熱度總得分。
在本實施例中,在每個時間段內(nèi),可通過累加求平均的方式將所述每篇帖子的話題熱度得分匯總為一個話題的熱度總得分。
優(yōu)選地,依照各篇帖子在話題熱度中的影響力權(quán)重關(guān)系,得到話題熱度總得分中每篇帖子所占的權(quán)重比例,根據(jù)權(quán)重比例將各篇帖子的話題熱度得分進行累加,可計算出每個時間段內(nèi)的話題熱度總得分。
S502,利用所述每個時間段以及所述話題在所述每一個時間段的熱度總得分作為訓(xùn)練數(shù)據(jù)對,通過最小二乘法獲取伽馬分布的概率密度函數(shù)中的待定系數(shù)。
為了研究話題熱度總得分與各個時間段之間的相互關(guān)系,通過S501可以得到一系列成對的二維訓(xùn)練數(shù)據(jù)(x1,y1)、(x2,y2)、……、(xn,yn),其中x表示代表每個時間段的特定時間點,y表示在所述每一個時間段的話題熱度總得分。將這些訓(xùn)練數(shù)據(jù)對描繪在x-y直角坐標(biāo)系中,以伽馬分布的概率密度函數(shù)來擬合所述訓(xùn)練數(shù)據(jù)對。
圖6示出了本發(fā)明實施例提供的不同參數(shù)下的伽馬分布曲線示意圖,由圖可知,不同參數(shù)條件下的分布曲線不相同,所描述出來的事件發(fā)展趨勢各異,因此,可通過獲取最優(yōu)的參數(shù)值,來擬合得到最佳的話題熱度發(fā)展趨勢曲線。
在本實施例中,通過最小二乘法獲取所述概率密度函數(shù)擬合所述數(shù)據(jù)對的最優(yōu)形狀參數(shù)及最優(yōu)尺寸參數(shù),所述最優(yōu)參數(shù)即為所述需要獲取的待定系數(shù)。
S503,根據(jù)所述待定系數(shù),調(diào)整伽馬模型的概率密度函數(shù),并將所述調(diào)整后的概率密度函數(shù)輸出為伽馬預(yù)測模型函數(shù)。
將獲取得到的最優(yōu)形狀參數(shù)及最優(yōu)尺寸參數(shù)輸入伽馬模型的概率密度函數(shù),即輸入調(diào)整所述概率密度函數(shù)中的α與β,得出描述話題熱度發(fā)展趨勢的伽馬預(yù)測模型函數(shù)。
由于本實施例中以實際獲取得到的帖子熱度得分為基礎(chǔ),采用了Gamma模型來對各時間段的話題熱度總得分發(fā)展規(guī)律進行描述,因此極大地提高話題熱度預(yù)測模型與真實話題熱度發(fā)展趨勢的擬合程度。
在S105中,利用所述伽馬預(yù)測模型函數(shù),獲取任一時間點對應(yīng)的話題熱度預(yù)測值。
將需要進行話題熱度總得分預(yù)測的時間點數(shù)據(jù)輸入上述Gamma預(yù)測模型函數(shù),經(jīng)過系統(tǒng)運算后可得到該時間點的話題熱度總得分,即為所述話題熱度預(yù)測值。
本實施例以時間點為單位,可還原某個話題在過去時間的熱度,也可以動態(tài)更新話題的熱度以及預(yù)測未來的話題發(fā)展熱度。
在本發(fā)明實施例中,基于用戶的觀點傾向越不統(tǒng)一,越會激發(fā)用戶參與話題討論,話題熱度則越高的原理,通過對與預(yù)設(shè)話題相關(guān)的所有帖子的用戶評論數(shù)據(jù)進行觀點傾向分析,增加了觀點傾向這一因子來量化衡量話題的熱度,提高了話題熱度得分計算的準(zhǔn)確性,從而能夠根據(jù)所述話題熱度得分構(gòu)建更為合理的熱度預(yù)測模型函數(shù);通過引入曲線峰值左右兩端不對稱的伽馬模型進行話題熱度的擬合,符合現(xiàn)實生活中話題熱度的變化趨勢,提高了話題熱度預(yù)測的準(zhǔn)確率,由此能夠有效預(yù)測話題或事件的發(fā)展趨勢。
對應(yīng)于本發(fā)明實施例所提供的話題熱度預(yù)測方法,圖7示出了本發(fā)明實施例提供的話題熱度預(yù)測系統(tǒng)的結(jié)構(gòu)框圖,該系統(tǒng)可以是內(nèi)置于手機、計算機、平板電腦、筆記本電腦等終端的應(yīng)用系統(tǒng)內(nèi)的軟件單元、硬件單元或者是軟硬結(jié)合的單元。為了便于說明,僅示出了與本實施例相關(guān)的部分。
參照圖7,該系統(tǒng)包括:
獲取單元71,用于在與預(yù)設(shè)話題相關(guān)的每篇帖子中,獲取N個時間段內(nèi)的用戶評論數(shù)據(jù)列表,所述用戶評論數(shù)據(jù)列表包含M條評論數(shù)據(jù),所述每篇帖子持有相應(yīng)的觀點,所述N和M為大于或等于一的整數(shù)。
分析單元72,用于通過預(yù)設(shè)的情感傾向分析算法對所述每一條評論數(shù)據(jù)進行處理,以獲取所述每一條評論數(shù)據(jù)的用戶觀點傾向,所述用戶觀點傾向表示所述評論數(shù)據(jù)的發(fā)表用戶對所述帖子所持觀點的支持程度或者反對程度。
計算單元73,用于根據(jù)所述每一條評論數(shù)據(jù)的用戶觀點傾向,計算所述與預(yù)設(shè)話題相關(guān)的每篇帖子在所述每一個時間段的話題熱度得分。
訓(xùn)練單元74,用于根據(jù)所述每篇帖子在所述每一個時間段的話題熱度得分,構(gòu)建并訓(xùn)練伽馬預(yù)測模型函數(shù)。
預(yù)測單元75,用于利用所述伽馬預(yù)測模型函數(shù),獲取任一時間點對應(yīng)的話題熱度預(yù)測值。
可選地,所述分析單元72包括:
讀取子單元,用于從所述用戶評論數(shù)據(jù)列表中讀取一條所述評論數(shù)據(jù)。
判斷子單元,用于判斷所述評論數(shù)據(jù)的類型,所述類型為主觀評論數(shù)據(jù)或客觀評論數(shù)據(jù)。
處理子單元,用于若所述評論數(shù)據(jù)是主觀評論數(shù)據(jù),則獲取所述評論數(shù)據(jù)的用戶觀點傾向,并從所述用戶評論數(shù)據(jù)列表中依次讀取下一條評論數(shù)據(jù),對于所述下一條評論數(shù)據(jù),重新執(zhí)行所述判斷處理過程,直至所述下一條評論數(shù)據(jù)為空;
若所述評論數(shù)據(jù)是客觀評論數(shù)據(jù),則將所述客觀評論數(shù)據(jù)刪除,并從所述用戶評論數(shù)據(jù)列表中依次讀取下一條評論數(shù)據(jù),對于所述下一條評論數(shù)據(jù),重新執(zhí)行所述判斷處理過程,直至所述下一條評論數(shù)據(jù)為空。
可選地,所述判斷子單元具體用于:
基于情感詞典對所述評論數(shù)據(jù)進行類型判斷,若所述評論數(shù)據(jù)包含所述情感詞典中的情感詞,則所述評論數(shù)據(jù)為所述主觀評論數(shù)據(jù);
若所述評論數(shù)據(jù)沒有包含所述情感詞典中的情感詞,則所述評論數(shù)據(jù)為所述客觀評論數(shù)據(jù)。
可選地,所述計算單元73包括:
獲取子單元,用于獲取所述每一個時間段內(nèi)所述每篇帖子的點擊數(shù)和評論數(shù)。
統(tǒng)計子單元,用于根據(jù)所述每一條評論數(shù)據(jù)的用戶觀點傾向,在所述每一個時間段內(nèi),統(tǒng)計所述每篇帖子所持觀點的支持?jǐn)?shù)和反對數(shù)。
計算子單元,用于將所述每篇帖子的點擊數(shù)和評論數(shù)以及所述每篇帖子所持觀點的支持?jǐn)?shù)和反對數(shù)作為熱度算法的輸入?yún)?shù),計算所述與話題相關(guān)的每篇帖子在所述每一個時間段內(nèi)的話題熱度得分,所述熱度算法包括:
其中,S(pi)為與話題相關(guān)的每篇帖子在所述每一個時間段內(nèi)的話題熱度得分,xi和yi分別為第i篇帖子的點擊數(shù)和評論數(shù),average(xi)和average(yi)分別為與所述話題相關(guān)的所有帖子的點擊數(shù)和評論數(shù)的均值,ω1、ω2、ω3和ω4為預(yù)設(shè)權(quán)重值,max(δ)為所述每篇帖子中,評論數(shù)與點擊數(shù)的最大比值,mi和ni分別為第i篇帖子所持觀點的支持?jǐn)?shù)和反對數(shù),α(0<α<1)、β(β<0)和δ(δ>0)為預(yù)設(shè)調(diào)節(jié)參數(shù)。
可選地,所述訓(xùn)練單元74包括:
匯總子單元,用于在所述每一個時間段內(nèi),分別將所述每篇帖子的所述話題熱度得分匯總為所述話題在所述每一個時間段的熱度總得分。
訓(xùn)練子單元,用于利用所述每個時間段以及所述話題在所述每一個時間段的熱度總得分作為訓(xùn)練數(shù)據(jù)對,通過最小二乘法獲取伽馬分布的概率密度函數(shù)中的待定系數(shù)。
調(diào)整子單元,用于根據(jù)所述待定系數(shù),調(diào)整伽馬模型的概率密度函數(shù),并將所述調(diào)整后的概率密度函數(shù)輸出為伽馬預(yù)測模型函數(shù)。
在本發(fā)明實施例中,基于用戶的觀點傾向越不統(tǒng)一,越會激發(fā)用戶參與話題討論,話題熱度則越高的原理,通過對與預(yù)設(shè)話題相關(guān)的所有帖子的用戶評論數(shù)據(jù)進行觀點傾向分析,增加了觀點傾向這一因子來量化衡量話題的熱度,提高了話題熱度得分計算的準(zhǔn)確性,從而能夠根據(jù)所述話題熱度得分構(gòu)建更為合理的熱度預(yù)測模型函數(shù);通過引入曲線峰值左右兩端不對稱的伽馬模型進行話題熱度的擬合,符合現(xiàn)實生活中話題熱度的變化趨勢,提高了話題熱度預(yù)測的準(zhǔn)確率,由此能夠有效預(yù)測話題或事件的發(fā)展趨勢。
本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結(jié)合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng)、裝置和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。
所述功能如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)所述以權(quán)利要求的保護范圍為準(zhǔn)。