一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法
【專利摘要】本發(fā)明公開了一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法,涉及互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,尤其涉及一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法,包括如下步驟:首先,進(jìn)行網(wǎng)絡(luò)輿情數(shù)據(jù)清洗,減少樣本數(shù)量及噪聲;其次,進(jìn)行網(wǎng)絡(luò)輿情特征提取;最后,進(jìn)行網(wǎng)絡(luò)輿情模型構(gòu)建與網(wǎng)絡(luò)輿情預(yù)測;將本發(fā)明應(yīng)用于互聯(lián)網(wǎng)平臺上,并對網(wǎng)絡(luò)社區(qū)上的網(wǎng)絡(luò)輿情進(jìn)行預(yù)測,對于有價值的內(nèi)容可以增加曝光量,提高內(nèi)容的傳播互動量,對于負(fù)面內(nèi)容加以遏制,防止進(jìn)一步造成惡劣影響,對社會具有積極作用。
【專利說明】
一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,尤其涉及一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的 輿情預(yù)測方法。
【背景技術(shù)】
[0002] 隨著中國互聯(lián)網(wǎng)普及率地不斷上升以及移動互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡(luò)成為人們發(fā) 表自己意見和情感的重要平臺。如何從互聯(lián)網(wǎng)浩如煙海的網(wǎng)絡(luò)輿情數(shù)據(jù)中挖掘信息、判斷 趨勢,獲取民眾意見和建議等,已成為互聯(lián)網(wǎng)發(fā)展過程中一個重要解決問題。
[0003] 網(wǎng)絡(luò)輿情是以網(wǎng)絡(luò)為載體,以事件為核心,廣大網(wǎng)民情感、態(tài)度、意見、觀點的表 達(dá)、傳播與互動,以及后續(xù)影響力的集合。隨著"三微一端",即以微信、微博、微視頻、移動客 戶端為代表的移動新媒體成為了社會輿論的新引擎。網(wǎng)民通過這些社交平臺探討公共事 務(wù),關(guān)注社會民生,表達(dá)話語訴求。網(wǎng)絡(luò)輿情傳播具有直接、隱藏、互動、多元、快速、破壞,以 及群體極化性等特點。
[0004] 網(wǎng)絡(luò)輿情的開放性和虛假性,使得一些重大的網(wǎng)絡(luò)輿情事件使人們開始認(rèn)識到網(wǎng) 絡(luò)對社會監(jiān)督起到的巨大作用。同時,網(wǎng)絡(luò)輿情突發(fā)事件如果處理不當(dāng),極有可能誘發(fā)民眾 的不良情緒,引發(fā)群眾的違規(guī)和過激行為,進(jìn)而對社會穩(wěn)定構(gòu)成威脅。由此可見,網(wǎng)絡(luò)輿情 在一定程度上影響人們的日常生活。在此形式下,追蹤研究網(wǎng)絡(luò)輿情,有利于把握住社會發(fā) 展的脈搏和"痛點"。相對糾紛和危機(jī)事件發(fā)生后的設(shè)法解決,有效監(jiān)測和評估所面臨的風(fēng) 險,并在事前采取適當(dāng)?shù)腻e失進(jìn)行規(guī)避,是政府、企業(yè)等應(yīng)借鑒的發(fā)展之路。因此,對于網(wǎng)絡(luò) 輿情的獲取、分析、預(yù)測挖掘?qū)S護(hù)社會安全,保證經(jīng)濟(jì)建設(shè)快速發(fā)展有著重要意義。
[0005] 網(wǎng)絡(luò)輿情預(yù)測系統(tǒng)一般需要具備網(wǎng)絡(luò)輿情分析引擎、自動信息采集功能,以及數(shù) 據(jù)清理功能。網(wǎng)絡(luò)輿情分析引擎是網(wǎng)絡(luò)輿情預(yù)測系統(tǒng)的核心功能,設(shè)計的最主要的技術(shù)包 括博文分類、聚類、觀點傾向性識別、主題監(jiān)測與跟蹤、自動摘要等計算機(jī)博文信息內(nèi)容識 別技術(shù)。其中基于關(guān)鍵詞統(tǒng)計分析方法的技術(shù)相對比較成熟,但在其有效性方面還有很大 的提高空間;現(xiàn)有的信息采集技術(shù)主要是通過網(wǎng)絡(luò)頁面之間的連接關(guān)系,從網(wǎng)上自動獲取 頁面信息,并且隨著鏈接不斷向整個網(wǎng)絡(luò)擴(kuò)展;數(shù)據(jù)清理功能則主要對收集到的信息進(jìn)行 預(yù)處理,如格式轉(zhuǎn)換、數(shù)據(jù)清理,以及數(shù)據(jù)統(tǒng)計等。就網(wǎng)絡(luò)輿情研究發(fā)展而言,相較于國外, 國內(nèi)研究網(wǎng)絡(luò)輿情主要始于20世紀(jì)末,且目前大多致力于研究網(wǎng)絡(luò)輿情概念界定與辨析、 網(wǎng)絡(luò)輿情信息工作、網(wǎng)絡(luò)輿情機(jī)制、網(wǎng)絡(luò)輿情等。而國外網(wǎng)絡(luò)輿情研究相對國內(nèi)而言,更加 成熟,更加系統(tǒng)化,應(yīng)用也更加廣泛。目前,基于語義的內(nèi)容識別方法是當(dāng)前研究的重中之 重,雖取得了較大進(jìn)展,但仍存在很多問題和困難需要克服。
[0006] 因此本發(fā)明旨在尋找一種能夠預(yù)警快、決策快的網(wǎng)絡(luò)輿情預(yù)測方法,應(yīng)用于互聯(lián) 網(wǎng)平臺上,并對網(wǎng)絡(luò)社區(qū)上的網(wǎng)絡(luò)輿情進(jìn)行預(yù)測,對于有價值的內(nèi)容可以增加曝光量,提高 內(nèi)容的傳播互動量,對于負(fù)面內(nèi)容加以遏制,防止進(jìn)一步造成惡劣影響。
【發(fā)明內(nèi)容】
[0007] 有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題是提供一種基于智慧社 區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法。
[0008] 為實現(xiàn)上述目的,本發(fā)明提供了一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法, 包括如下步驟:
[0009] S1:網(wǎng)絡(luò)輿情數(shù)據(jù)清洗,減少樣本數(shù)量及噪聲;數(shù)據(jù)清洗包括非必要用戶過濾和文 本預(yù)處理;
[0010] S2:網(wǎng)絡(luò)輿情特征提取;特征包括用戶特征和博文特征;
[0011] S3:網(wǎng)絡(luò)輿情模型構(gòu)建與網(wǎng)絡(luò)輿情預(yù)測;獲取加權(quán)訓(xùn)練樣本,構(gòu)建若干預(yù)測模型, 獲得網(wǎng)絡(luò)輿情預(yù)測值。
[0012] 進(jìn)一步而言,步驟S3具體包括:
[0013] S31、創(chuàng)建訓(xùn)練樣本;將各檔位的樣本按權(quán)重復(fù)制樣本,獲得加權(quán)訓(xùn)練樣本;
[0014] S32、依據(jù)訓(xùn)練樣本,分別建立若干個分類模型;分類模型為GBDT、XGB00ST、RF、LR、 SVM中的兩個或兩個以上模型;
[0015] S33、將測試樣本分別輸入所述若干個分類模型,并分別獲得其預(yù)測值,利用預(yù)測 值求平均值,獲得融合模型預(yù)測值。
[0016] 進(jìn)一步而言,訓(xùn)練樣本為加權(quán)訓(xùn)練樣本,加權(quán)訓(xùn)練樣本根據(jù)檔位設(shè)置權(quán)重,根據(jù)單 條博文的互動數(shù),設(shè)定博文的檔位。
[0017] 進(jìn)一步而言,非必要用戶為機(jī)器人、僵尸粉、廣告用戶及粉絲低于設(shè)定值的用戶。
[0018] 進(jìn)一步而言,文本預(yù)處理包括如下步驟:
[0019] S11、對博文進(jìn)行分詞;
[0020] S12、過濾非必要詞語;非必要詞語包括停用詞、標(biāo)點符號、數(shù)字、郵箱、電話號碼、 日期、URL;
[0021] S13、刪除掉出現(xiàn)頻率為1的詞語。
[0022]進(jìn)一步而言,用戶特征包括最近時間T內(nèi)的活躍度特征、自身特征、粉絲特征、社交 特征、技術(shù)特征,以及時間特征。
[0023] 進(jìn)一步而言,博文特征包括基礎(chǔ)特征、時間特征、文本特征,以及主題影響力特征。
[0024] 本發(fā)明提供一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法,其有益之處在于:應(yīng) 用于互聯(lián)網(wǎng)平臺上,并對網(wǎng)絡(luò)社區(qū)上的網(wǎng)絡(luò)輿情進(jìn)行預(yù)測,對于有價值的內(nèi)容可以增加曝 光量,提尚內(nèi)容的傳播互動量,對于負(fù)面內(nèi)容加以遏制,防止進(jìn)一步造成惡劣影響。
【附圖說明】
[0025] 圖1為本發(fā)明實施例一提供的一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法流程 圖;
[0026] 圖2為本發(fā)明實施例一提供的具體解決方案;
[0027] 圖3為本發(fā)明實施例一提供的文本預(yù)處理流程圖;
[0028] 圖4為本發(fā)明實施例一提供的特征構(gòu)成圖;
[0029] 圖5為本發(fā)明實施例一提供的多模型融合流程圖。
【具體實施方式】
[0030] 下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步說明:
[0031] 如圖1所示,圖1為本發(fā)明實施例提供的一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測 方法流程圖,具體包括:
[0032] S1:網(wǎng)絡(luò)輿情數(shù)據(jù)清洗,減少樣本數(shù)量及噪聲;數(shù)據(jù)清洗包括非必要用戶過濾和文 本預(yù)處理;
[0033] S2:網(wǎng)絡(luò)輿情特征提??;網(wǎng)絡(luò)輿情特征包括用戶特征和博文特征;博文為微博、微 信公眾號、博客文章等。
[0034] S3:網(wǎng)絡(luò)輿情模型構(gòu)建與網(wǎng)絡(luò)輿情預(yù)測;獲取加權(quán)訓(xùn)練樣本,構(gòu)建若干預(yù)測模型, 獲得網(wǎng)絡(luò)輿情預(yù)測值。
[0035] 網(wǎng)絡(luò)輿情包括微博、微信公眾號、博客等媒介平臺上數(shù)據(jù)信息,在實施例中,主要 采用微博數(shù)據(jù)來展開討論。對于一條原創(chuàng)微博而言,轉(zhuǎn)發(fā)、評論、贊等互動行為能夠體現(xiàn)出 用戶對于微博內(nèi)容的興趣程度,也是對微博進(jìn)行分發(fā)控制的重要參考指標(biāo)。本實施例以抽 樣用戶的原創(chuàng)微博在發(fā)表一天后的轉(zhuǎn)發(fā)、評論、贊總數(shù),建立微博的互動模型,并預(yù)測用戶 后續(xù)微博在發(fā)表一天后的互動情況。
[0036]首先,對本實施例訓(xùn)練數(shù)據(jù)進(jìn)行說明,訓(xùn)練數(shù)據(jù)為微博相關(guān)的原始數(shù)據(jù)。如表1,表 2,表3,分別為本實施例數(shù)據(jù)說明。其中表1為微博數(shù)據(jù);表2為粉絲數(shù)據(jù);表3為用戶互動行 為數(shù)據(jù)。訓(xùn)練數(shù)據(jù)將2015-02-01至2015-07-31微博的全部信息都映射為一行數(shù)據(jù)。其中對 用戶做了一定抽樣,獲取了抽樣用戶半年的原創(chuàng)微博,對用戶標(biāo)記和微博標(biāo)記做了加密,發(fā) 博時間精確到天級別。
[0037]表 1 微博數(shù)據(jù):weibo_blog_data_train
[0039]表 2 粉絲數(shù)據(jù):weibo_fans_data_train
[0041 ]表 3 用戶互動行為數(shù)據(jù):weibo_action_data_train
[0043] 其次,對本實施例提供的一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法進(jìn)行詳細(xì) 描述。如圖2所示,圖2為本發(fā)明實施例提供的具體解決方案,其步驟包括:
[0044] S1:對訓(xùn)練數(shù)據(jù)進(jìn)行清洗,減少樣本數(shù)量及噪聲;數(shù)據(jù)清洗包括非必要用戶過濾和 文本預(yù)處理;
[0045] S2:特征提取,包括用戶特征和博文特征;在本實施例中,博文為微博博文內(nèi)容。
[0046] S3:網(wǎng)絡(luò)輿情模型構(gòu)建與網(wǎng)絡(luò)輿情預(yù)測;獲取加權(quán)訓(xùn)練樣本,構(gòu)建若干預(yù)測模型。 預(yù)測數(shù)據(jù)經(jīng)清洗并獲得用戶特征、博文特征;導(dǎo)入模型獲得網(wǎng)絡(luò)輿情預(yù)測值。
[0047] 在本實施例中,步驟S1為:網(wǎng)絡(luò)輿情數(shù)據(jù)清洗,減少樣本數(shù)量及噪聲。
[0048]在用戶數(shù)據(jù)中,存在微博發(fā)布數(shù)量多但無人互動的微博,例如機(jī)器人、廣告或僵尸 粉等微博;其次為關(guān)注數(shù)多,粉絲數(shù)少,即粉絲極低的用戶。因此視這些數(shù)據(jù)為非必要用戶, 通過規(guī)則過濾掉這部分?jǐn)?shù)據(jù),可極大減少樣本數(shù)量,降低噪聲。
[0049] 用戶過濾主要是對用戶數(shù)據(jù)清洗,過濾掉非必要用戶。非必要用戶為機(jī)器人、僵尸 粉、廣告用戶及粉絲低于設(shè)定值的用戶,設(shè)定值根據(jù)實際情況可設(shè)置為50~1000,在本實施 例中優(yōu)選設(shè)定機(jī)器人、僵尸粉、廣告用戶及粉絲低于100的用戶為非必要用戶。
[0050] 如圖3所示,圖3為本實施例一提供的文本預(yù)處理流程圖。文本預(yù)處理主要是對微 博文本進(jìn)行預(yù)處理,從而使得過濾后的詞袋數(shù)量大大減小,使LDA主題分布更明顯。微博文 本預(yù)處理包括如下步驟:
[0051 ] SI 1、對微博文本進(jìn)行分詞;
[0052] S12、過濾非必要詞語;非必要詞語包括微博停用詞、標(biāo)點符號、數(shù)字、郵箱、電話號 碼、日期、URL;
[0053] S13、刪除掉頻率為1的詞語。
[0054] 在本實施例中,步驟S2為:網(wǎng)絡(luò)輿情特征提取,特征包括用戶特征和博文特征;參 考圖4,圖4為本發(fā)明實施例一提供的特征構(gòu)成圖。
[0055] 用戶特征,主要包括最近時間T內(nèi)的活躍度、自身特征、粉絲特征、社交特征、基礎(chǔ) 特征、時間特征等;
[0056] 近期活躍度特征主要從以下幾個方面進(jìn)行提取:
[0057] (1)最近1,3,7天發(fā)微博的條數(shù);
[0058] (2)最近7,15,30,90天總發(fā)微博天數(shù);
[0059] (3)連續(xù)發(fā)微博天數(shù);
[0060] (4)連續(xù)不發(fā)微薄天數(shù);
[0061] (5)最近7天平均每天發(fā)微博條數(shù);
[0062] (6)最近1,3,5,7,10條微博時間間隔;
[0063] (7)總互動數(shù),日平均互動數(shù)數(shù);
[0064] (8)最近7,15,30,90天是否每天都發(fā)微博;
[0065] (9)當(dāng)天發(fā)微博數(shù);
[0066] 自身特征主要從以下幾個方面進(jìn)行提?。?br>[0067] (1)所有微博中3無微博(無轉(zhuǎn)贊評)的條數(shù)和比例;
[0068] (2)發(fā)出微博后,收到前3個互動的平均時間間隔;
[0069] (3)上個月最后三條微博的互動數(shù)量;
[0070] (4)連續(xù)發(fā)了多少條小于等于檔位2的微博數(shù)以及比例;
[0071] (5)窗口內(nèi)第一條和最后一條距離窗口最后一天的時間間隔;
[0072] 粉絲特征主要從以下幾個方面進(jìn)行提?。?br>[0073] (1)粉絲等級的中位數(shù),均值以及方差;
[0074] (2)粉絲活躍程度特征;
[0075] (3)互動行為數(shù)大于2,5,10的粉絲數(shù);
[0076]社交特征主要從以下幾個方面進(jìn)行提?。?br>[0077] (1)互動粉絲數(shù);
[0078] (2)關(guān)注的人數(shù);
[0079] (3)粉絲數(shù);
[0080] (4)用戶發(fā)出的轉(zhuǎn)、贊、評、互動的數(shù)量以及天數(shù);
[0081] 基礎(chǔ)特征主要從以下幾個方面進(jìn)行提取:
[0082] (1)收到的轉(zhuǎn)、贊、評、互動數(shù)的均值最大值中位數(shù);
[0083] (2)收到的轉(zhuǎn)、贊、評占互動量的比例;
[0084] (3)不同檔位的微博數(shù),以及占總微博數(shù)的比例;
[0085] (4)加權(quán)后每個檔位微博分值比例;
[0086] (5)檔位眾數(shù),加權(quán)檔位眾數(shù)以及得分;
[0087] 時間特征主要從以下幾個方面進(jìn)行提取:
[0088] (1)微博發(fā)布首日,間隔4小時收到的互動量的均值中位數(shù)最大值;
[0089] (2)微博發(fā)布首日,間隔4小時收到的互動量的均值中位數(shù)最大值;
[0090] (3)用戶在當(dāng)前時間段,即間隔4小時內(nèi),歷史微博值的中位數(shù),最大值,均值,標(biāo)準(zhǔn) 差;
[0091] (4)微博發(fā)出后的互動行為趨勢:1,2,3,4,6,8,12,24小時內(nèi)的互動的最大值、平 均值、總值;
[0092] (5)微博發(fā)出后的用戶趨勢:1,2,3,4,6,8,12,24小時內(nèi)不同互動行為獨立用戶的 最大值、平均值、總值;
[0093] (6)歷史六周的活動趨勢;
[0094] (7)用戶在星期幾的微博互動量的中位數(shù)、最大值、最小值、平均值。
[0095] 微博特征,主要包括基礎(chǔ)特征、時間特征、文本特征、主題影響力特征等。
[0096] 基礎(chǔ)特征主要從以下幾個方面進(jìn)行提?。?br>[0097] (1)微博長度;
[0098] (2)0 數(shù)量;
[0099] (3)http 數(shù)量;
[0100] (4)topic 數(shù)量;
[0101] (5)標(biāo)點符號數(shù)量;
[0102] 時間特征主要從以下幾個方面進(jìn)行提?。?br>[0103] (1)星期幾;
[0104] (2)微博所發(fā)時間段;
[0105] (3)今明兩天是否約會日,節(jié)假日,調(diào)休日,休息日;
[0106] 文本特征主要從以下幾個方面進(jìn)行提?。?br>[0107] (l)LDA topic分布,20個主題的分布作為微博的20維特征;
[0108] (2)詞袋模型,其中一個袋子多個詞。需要尋找具有區(qū)分性的詞。對每個詞,統(tǒng)計包 含它的所有微博,不同檔次數(shù)量及百分比,不同檔次用戶數(shù);
[0? 09 ] (3)微博發(fā)出前后lmin,30min,lhour,3hour內(nèi)的本人微博相似度;
[0110]主題影響力特征主要從以下幾個方面進(jìn)行提?。?br>[0111] (1) -次互動行為可以看作博主成功地影響了粉絲;
[0112] (2)粉絲轉(zhuǎn)贊評微博內(nèi)容的偏好,用戶的轉(zhuǎn)贊評是有偏好的,分別統(tǒng)計用戶轉(zhuǎn)贊評 微博分布的期望,只保留至少有十次互動行為的粉絲。從而定義出鐵粉。
[0113] (3)粉絲活躍度的總量和平均值;
[0114] (4)活躍粉絲對微博內(nèi)容的偏好,對于博主的某條微博,粉絲的偏好與微博的相似 度、對粉絲的總影響力、對粉絲的平均影響力、鐵粉的偏好與微博的相似度、粉絲的偏好與 微博的相似度*對該粉絲的影響力;
[0115] 訓(xùn)練樣本為加權(quán)訓(xùn)練樣本,加權(quán)訓(xùn)練樣本根據(jù)檔位設(shè)置權(quán)重,其中,根據(jù)微博的檔 位是根據(jù)微博互動數(shù)設(shè)定的。
[0116]在本實施例中將每條微博進(jìn)行劃分等級評估,即將每條微博的互動數(shù),即轉(zhuǎn)贊評 總數(shù),共劃分為5個檔位:0-5為1檔;6-10為2檔;11-50為3檔;51-100為4檔;100+為5檔。參考 表4所示,表4為本發(fā)明實施例中每個檔位對應(yīng)的權(quán)重值表。本實施例中為了驗證推薦算法 的有效性,采用經(jīng)典的精確度(precis ion)進(jìn)行評估,其計算公式如下所示:
[0118] 其中,counti為第i個檔位的微博數(shù)量,weighti為第i個檔位權(quán)重,count_ri為第i 個檔位預(yù)測正確的微博數(shù)量。
[0119] 表4每個檔位對應(yīng)的權(quán)重值
[0121]在本實施例中,微博互動情況預(yù)測實際上是一個預(yù)測檔位的問題,即帶權(quán)重的多 分類問題。其模型構(gòu)建與預(yù)測主要包括如下三個步驟。
[0122] S31、創(chuàng)建訓(xùn)練樣本;將各檔位的樣本按權(quán)重復(fù)制樣本,獲得訓(xùn)練樣本;比如權(quán)重為 200的檔位的樣本復(fù)制樣本200份;優(yōu)選的,本實施例中的權(quán)重設(shè)定如表4所示。
[0123] S32、依據(jù)訓(xùn)練樣本,分別建立若干個分類模型;分類模型為GBDT、XGB00ST、RF、LR、 SVM中的兩個或兩個以上模型;
[0124] 優(yōu)選的,在本實施例中,利用GBDT、XGB00ST、RF、LR、SVM等5個分類模型,分別建立 其模型,并獲得其預(yù)測值,即預(yù)測用戶微博在發(fā)表一天后的互動情況。
[0125] GBDT為一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結(jié)論累加起 來做最終結(jié)果,與SVM-起被認(rèn)為是泛化能力較強(qiáng)的算法。XGB00ST是boosted tree的一種 實現(xiàn),效率和精度都很高,可在一定程度上避免過擬合。RF隨機(jī)森林是利用多棵樹對樣本進(jìn) 行訓(xùn)練并預(yù)測的一種分類器,是一種利用多個分類樹對數(shù)據(jù)進(jìn)行判別與分類的方法,它在 對數(shù)據(jù)進(jìn)行分類的同時,還可以給出各個變量的重要性評分,評估各個變量在分類中所起 的作用,且不容易出現(xiàn)over-fitting。!^有很多方法來對模型正則化,比起貝葉斯的條件獨 立性假設(shè),其不需要考慮樣本是否是相關(guān)的。
[0126] S33、將測試樣本分別輸入若干個分類模型,并分別獲得其預(yù)測值,利用預(yù)測值求 平均值,獲得融合模型預(yù)測值,獲得用戶后續(xù)微博在發(fā)表一天后預(yù)測的互動情況。
[0127] 將5個模型預(yù)測值,進(jìn)行均值融合。如圖5所示,圖5為本發(fā)明實施例一提供的多模 型融合流程圖。在本實施例中,這5個分類模型差異性比較大,因此集成效果較好,可在一定 程度上避免過擬合,使得預(yù)測結(jié)果具有更好的準(zhǔn)確性和穩(wěn)定性,能有效地預(yù)測用戶在發(fā)博 之后的互動情況。
[0128] 綜上,本發(fā)明提供一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法,應(yīng)用于互聯(lián)網(wǎng) 平臺上,并對網(wǎng)絡(luò)社區(qū)上的網(wǎng)絡(luò)輿情進(jìn)行預(yù)測,對于有價值的內(nèi)容可以增加曝光量,提高內(nèi) 容的傳播互動量,對于負(fù)面內(nèi)容加以遏制,防止進(jìn)一步造成惡劣影響。
[0129] 以上詳細(xì)描述了本發(fā)明的較佳具體實施例。應(yīng)當(dāng)理解,本領(lǐng)域的普通技術(shù)人員無 需創(chuàng)造性勞動就可以根據(jù)本發(fā)明的構(gòu)思作出諸多修改和變化。因此,凡本技術(shù)領(lǐng)域中技術(shù) 人員依本發(fā)明的構(gòu)思在現(xiàn)有技術(shù)的基礎(chǔ)上通過邏輯分析、推理或者有限的實驗可以得到的 技術(shù)方案,皆應(yīng)在由權(quán)利要求書所確定的保護(hù)范圍內(nèi)。
【主權(quán)項】
1. 一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法,其特征在于,包括如下步驟: S1:網(wǎng)絡(luò)輿情數(shù)據(jù)清洗,減少樣本數(shù)量及噪聲;所述數(shù)據(jù)清洗包括非必要用戶過濾和文 本預(yù)處理; S2:網(wǎng)絡(luò)輿情特征提取;所述特征包括用戶特征和博文特征; S3:網(wǎng)絡(luò)輿情模型構(gòu)建與網(wǎng)絡(luò)輿情預(yù)測: 獲取加權(quán)訓(xùn)練樣本、構(gòu)建若干預(yù)測模型以及獲得網(wǎng)絡(luò)輿情預(yù)測值。2. 如權(quán)利要求1所述的一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法,其特征在于,步 驟S3具體包括: 531、 創(chuàng)建訓(xùn)練樣本;將各檔位的樣本按權(quán)重復(fù)制樣本,獲得加權(quán)訓(xùn)練樣本; 532、 依據(jù)所述訓(xùn)練樣本,分別建立若干個分類模型;所述分類模型為GBDT、XGBOOST、 RF、LR、SVM中的兩個或兩個以上模型; 533、 將測試樣本分別輸入所述若干個分類模型,并分別獲得其預(yù)測值,利用所述預(yù)測 值求平均值,獲得融合模型預(yù)測值。3. 如權(quán)利要求2所述的一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法,其特征在于,所 述S31中的檔位是根據(jù)單條博文的互動數(shù)來設(shè)定。4. 如權(quán)利要求1所述的一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法,其特征在于:所 述非必要用戶為機(jī)器人、僵尸粉、廣告用戶及粉絲低于設(shè)定值的用戶。5. 如權(quán)利要求1所述的一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法,其特征在于,所 述文本預(yù)處理包括如下步驟: 511、 對博文進(jìn)行分詞; 512、 過濾非必要詞語;所述非必要詞語包括停用詞、標(biāo)點符號、數(shù)字、郵箱、電話號碼、 日期、URL; 513、 刪除掉出現(xiàn)頻率為1的詞語。6. 如權(quán)利要求1所述的一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法,其特征在于,所 述用戶特征,包括最近時間T內(nèi)的活躍度特征、自身特征、粉絲特征、社交特征、技術(shù)特征,以 及時間特征。7. 如權(quán)利要求1所述的一種基于智慧社區(qū)網(wǎng)絡(luò)大數(shù)據(jù)的輿情預(yù)測方法,其特征在于,所 述博文特征包括基礎(chǔ)特征、時間特征、文本特征,以及主題影響力特征。
【文檔編號】G06Q50/00GK106097111SQ201610444043
【公開日】2016年11月9日
【申請日】2016年6月20日
【發(fā)明人】舒海東, 胡峰
【申請人】重慶房慧科技有限公司