本發(fā)明涉及數(shù)據(jù)分析技術(shù)領(lǐng)域,具體而言,涉及一種輿情分析方法及系統(tǒng)。
背景技術(shù):
自互聯(lián)網(wǎng)時代開始,網(wǎng)絡(luò)信息爆炸,在為人們帶來便捷的同時,也為部分單位帶來輿論困擾。大數(shù)據(jù)時代,輿情管理面臨著巨大的挑戰(zhàn)。目前尚未有針對全網(wǎng)輿論信息進行監(jiān)控的系統(tǒng)。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明提供一種輿情分析方法及系統(tǒng),以實現(xiàn)對全網(wǎng)輿情的監(jiān)控和分析,將監(jiān)控結(jié)果反饋至用戶后可根據(jù)用戶輸入的反饋信息自適應(yīng)地對分析方式進行更新和優(yōu)化。
為了達到上述目的,本發(fā)明較佳實施例提供一種輿情分析方法,應(yīng)用于輿情分析系統(tǒng),所述輿情分析系統(tǒng)中存儲有特征詞庫,所述特征詞庫中記錄有多個特征詞及每個特征詞所屬的情感傾向類別,所述情感傾向類別包括正向和負向;所述方法包括:
每間隔預(yù)設(shè)時長從互聯(lián)網(wǎng)獲取包括第一預(yù)設(shè)特征詞的文本信息;
針對獲取到的每一文本信息,提取該文本信息中的第二預(yù)設(shè)特征詞,并統(tǒng)計該文本信息中不同第二預(yù)設(shè)特征詞的出現(xiàn)頻次以及各文本信息中不同第二預(yù)設(shè)特征詞的出現(xiàn)頻次,得到一詞頻文檔矩陣;
根據(jù)所述詞頻文檔矩陣在所述各第二預(yù)設(shè)特征詞中選取合適的分類特征,并根據(jù)預(yù)設(shè)特征權(quán)重算法計算得到各分類特征的特征權(quán)重;
將所述各分類特征的特征權(quán)重輸入基于所述各第一預(yù)設(shè)特征詞構(gòu)建的隨機森林分類模型,對該文本信息的情感傾向進行分類;
選取隨機森林分類模型各決策樹的輸出結(jié)果中出現(xiàn)次數(shù)最多的情感傾向類別作為該文本信息的情感傾向類別,并在該文本信息的情感傾向類別為預(yù)設(shè)情感傾向類別時,將該文本信息推送至輿情展示終端;
接收所述輿情展示終端發(fā)送的反饋信息,并根據(jù)所述反饋信息對所述第一預(yù)設(shè)特征詞進行調(diào)整。
優(yōu)選地,所述方法還包括:
在指定時間段內(nèi)監(jiān)測到有新增詞匯的出現(xiàn)頻次達到第一預(yù)設(shè)數(shù)量時,將該新增詞匯推送至用戶終端;
接收所述用戶終端發(fā)送的指令信息判斷該新增詞匯是否具有情感傾向類別;
在該新增詞匯具有情感傾向類別時,將該新增詞匯作為第一預(yù)設(shè)特征詞,并存儲到所述特征詞庫中。
優(yōu)選地,所述方法還包括:
對包括預(yù)設(shè)關(guān)鍵詞的各文本信息的情感傾向類別進行判別;
計算正向情感傾向類別的文本信息的數(shù)量與負向情感傾向類別的文本信息的數(shù)量之間的差值;
在所述差值達到第二預(yù)設(shè)數(shù)量時,對所述預(yù)設(shè)特征權(quán)重算法及第一預(yù)設(shè)特征詞進行調(diào)整。
優(yōu)選地,
所述隨機森林分類模型通過以下步驟建立和測試:
獲取文本集,所述文本集中包括多個文本信息,每個文本信息中包括至少一個所述第一預(yù)設(shè)特征詞;
有放回地從所述文本集中隨機抽取多個訓(xùn)練樣本作為訓(xùn)練集,分別根據(jù)抽取出的每個訓(xùn)練樣本生成決策樹,從而得到多個決策樹;
將所述文本集中除所述訓(xùn)練集外的各文本信息作為測試集,針對所述測試集中的每一文本信息,將該文本信息輸入各決策樹,得到多個決策結(jié)果;
選取所述多個決策結(jié)果中出現(xiàn)次數(shù)最多的情感傾向類別作為該文本信息的情感傾向類別;
將所述測試集中各文本信息的判定結(jié)果與預(yù)存實際結(jié)果進行比對,并計算所述各判定結(jié)果的準確率,在所述準確率低于預(yù)設(shè)值時,對所述分類模型進行調(diào)整。
優(yōu)選地,針對獲取到的每一文本信息,提取該文本信息中的第二預(yù)設(shè)特征詞的步驟,包括:
對獲取到的各文本信息進行數(shù)據(jù)清洗;
針對數(shù)據(jù)清洗后的每一文本信息,提取該文本信息中的第二預(yù)設(shè)特征詞。
優(yōu)選地,所述預(yù)設(shè)特征權(quán)重算法為絕對詞頻計算方法、倒排文檔頻度計算方法或詞頻-倒排文檔頻度計算方法中的一種或其結(jié)合。
本發(fā)明較佳實施例還提供一種輿情分析系統(tǒng),在所述輿情分析系統(tǒng)中存儲有特征詞庫,所述特征詞庫中記錄有多個特征詞及每個特征詞所屬的情感傾向類別,所述情感傾向類別包括正向和負向;所述系統(tǒng)包括:
文本信息獲取模塊,用于每間隔預(yù)設(shè)時長從互聯(lián)網(wǎng)獲取包括第一預(yù)設(shè)特征詞的文本信息;
出現(xiàn)頻次統(tǒng)計模塊,
用于針對獲取到的每一文本信息,提取該文本信息中的第二預(yù)設(shè)特征詞,并統(tǒng)計該文本信息中不同第二預(yù)設(shè)特征詞的出現(xiàn)頻次以及各文本信息中不同第二預(yù)設(shè)特征詞的出現(xiàn)頻次,得到一詞頻文檔矩陣;
文本信息表示模塊,用于根據(jù)所述詞頻文檔矩陣在所述各第二預(yù)設(shè)特征詞中選取合適的分類特征,并根據(jù)預(yù)設(shè)特征權(quán)重算法計算得到各分類特征的特征權(quán)重;
分類模塊,用于將所述各分類特征的特征權(quán)重輸入基于所述各第一預(yù)設(shè)特征詞構(gòu)建的隨機森林分類模型,對該文本信息的情感傾向進行分類;
輿情展示模塊,用于選取隨機森林分類模型各決策樹的輸出結(jié)果中出現(xiàn)次數(shù)最多的情感傾向類別作為該文本信息的情感傾向類別,并在該文本信息的情感傾向類別為預(yù)設(shè)情感傾向類別時,將該文本信息推送至輿情展示終端;
第一調(diào)整模塊,用于接收所述輿情展示終端發(fā)送的反饋信息,并根據(jù)所述反饋信息對所述第一預(yù)設(shè)特征詞進行調(diào)整。
優(yōu)選地,所述系統(tǒng)還包括:
新增特征詞監(jiān)測模塊,用于在指定時間段內(nèi)監(jiān)測到有新增詞匯的出現(xiàn)頻次達到第一預(yù)設(shè)數(shù)量時,將該新增詞匯推送至用戶終端;
情感傾向檢測模塊,用于接收所述用戶終端發(fā)送的指令信息判斷該新增詞匯是否具有情感傾向類別;
特征詞更新模塊,用于在該新增詞匯具有情感傾向類別時,將該新增詞匯作為第一預(yù)設(shè)特征詞,并存儲到所述特征詞庫中。
優(yōu)選地,所述系統(tǒng)還包括:
輿論傾向判別模塊,用于對包括預(yù)設(shè)關(guān)鍵詞的各文本信息的情感傾向類別進行判別;
輿論傾向統(tǒng)計模塊,用于計算正向情感傾向類別的文本信息的數(shù)量與負向情感傾向類別的文本信息的數(shù)量之間的差值;
第二調(diào)整模塊,用于在所述差值達到第二預(yù)設(shè)數(shù)量時,對所述預(yù)設(shè)特征權(quán)重算法及第一預(yù)設(shè)特征詞進行調(diào)整。
優(yōu)選地,所述系統(tǒng)還包括:
目標訓(xùn)練樣本獲取模塊,用于獲取目標訓(xùn)練樣本集,所述目標訓(xùn)練樣本集中包括多個文本信息,每個文本信息中包括至少一個所述第一預(yù)設(shè)特征詞;
判定模塊,用于將所述目標訓(xùn)練樣本集中的每一文本信息輸入所述隨機森林分類模型進行情感傾向類別判定;
分類模型調(diào)整模塊,用于將各文本信息的判定結(jié)果與預(yù)存實際結(jié)果進行比對,并計算所述各判定結(jié)果的準確率,在所述準確率低于預(yù)設(shè)值時,對所述分類模型進行調(diào)整。
本發(fā)明提供的輿情分析方法及系統(tǒng),通過周期性地從互聯(lián)網(wǎng)獲取包括第一預(yù)設(shè)特征詞的文本信息,根據(jù)所述文本信息中各第二預(yù)設(shè)特征詞的出現(xiàn)頻次選取合適的分類特征,并基于選取出的分類特征構(gòu)建隨機森林分類模型對文本信息的情感傾向進行分類。將情感傾向類別為預(yù)設(shè)類型的文本信息推送至輿情展示終端供用戶查看,并根據(jù)用戶輸入的反饋信息,對第一預(yù)設(shè)特征詞進行調(diào)整。如此,可以根據(jù)判別結(jié)果自適應(yīng)地調(diào)整第一預(yù)設(shè)特征詞,使得分類結(jié)果更加準確。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應(yīng)當理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應(yīng)被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1為本發(fā)明實施例提供的一種電子設(shè)備的方框示意圖。
圖2為本發(fā)明實施例提供的一種輿情分析方法的流程示意圖。
圖3為圖2所示步驟s102的子步驟示意圖。
圖4為本發(fā)明實施例提供的一種訓(xùn)練隨機森林分類模型的子步驟示意圖。
圖5為本發(fā)明實施例提供的輿情分析方法的又一流程示意圖。
圖6為本發(fā)明實施例提供的輿情分析方法的又一流程示意圖。
圖7為本發(fā)明實施例提供的一種輿情分析系統(tǒng)的功能模塊框圖。
圖8為本發(fā)明實施例提供的輿情分析系統(tǒng)的又一功能模塊框圖。
圖9為本發(fā)明實施例提供的輿情分析系統(tǒng)的又一功能模塊框圖。
圖10為本發(fā)明實施例提供的輿情分析系統(tǒng)的又一功能模塊框圖。
圖標:100-電子設(shè)備;110-存儲器;111-操作系統(tǒng);120-處理器;130-通信單元;200-輿情分析系統(tǒng);210-文本信息獲取模塊;220-出現(xiàn)頻次統(tǒng)計模塊;230-文本信息表示模塊;240-分類模塊;250-輿情展示模塊;260-第一調(diào)整模塊;270-新增特征詞監(jiān)測模塊;280-情感傾向檢測模塊;290-特征詞更新模塊;2100-輿論傾向判別模塊;2110-輿論傾向統(tǒng)計模塊;2120-第二調(diào)整模塊;2130-隨機森林建立與訓(xùn)練模塊;2131-文本集獲取子模塊;2132-隨機森林建立子模塊;2133-測試子模塊;2134-判別子模塊;2135-分類模型調(diào)整子模塊。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本發(fā)明實施例的組件可以以各種不同的配置來布置和設(shè)計。
因此,以下對在附圖中提供的本發(fā)明的實施例的詳細描述并非旨在限制要求保護的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
應(yīng)注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋。
請參閱圖1,是本發(fā)明較佳實施例提供的一種電子設(shè)備100的方框示意圖。本發(fā)明實施例中的電子設(shè)備100可以是服務(wù)器、計算機、終端等具備數(shù)據(jù)處理能力的設(shè)備。如圖1所示,電子設(shè)備100包括:存儲器110、處理器120以及通信單元130。
所述存儲器110、處理器120以及通信單元130相互之間直接或間接地電性連接,以實現(xiàn)數(shù)據(jù)的傳輸或交互。例如,這些元件相互之間可通過一條或多條通訊總線或信號線實現(xiàn)電性連接。存儲器110中存儲有輿情分析系統(tǒng)200,所述輿情分析系統(tǒng)200包括至少一個可以軟件或固件(firmware)的形式存儲于所述存儲器110中的軟件功能模塊,所述處理器120通過運行存儲在存儲器110內(nèi)的軟件程序以及模塊,如本發(fā)明實施例提供的輿情分析系統(tǒng)200,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實現(xiàn)本發(fā)明實施例中的輿情分析方法。
其中,所述存儲器110可以是,但不限于,隨機存取存儲器(randomaccessmemory,ram),只讀存儲器(readonlymemory,rom),可編程只讀存儲器(programmableread-onlymemory,prom),可擦除只讀存儲器(erasableprogrammableread-onlymemory,eprom),電可擦除只讀存儲器(electricerasableprogrammableread-onlymemory,eeprom)等。其中,存儲器110用于存儲程序,所述存儲器110內(nèi)的軟件程序以及模塊還可包括操作系統(tǒng)111,其可包括各種用于管理系統(tǒng)任務(wù)(如內(nèi)存管理、存儲設(shè)備控制、電源管理等)的軟件組件和/或驅(qū)動,并可與各種硬件或軟件組件相互通訊,從而提供其他軟件組件的運行環(huán)境。
所述處理器120可能是一種集成電路芯片,具有信號處理能力。上述處理器120可以是通用處理器,包括中央處理器(centralprocessingunit,cpu)、網(wǎng)絡(luò)處理器(networkprocessor,np)等。還可以是數(shù)字信號處理器(dsp))、專用集成電路(asic)、現(xiàn)場可編程門陣列(fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫崿F(xiàn)或者執(zhí)行本發(fā)明實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。
所述通信單元130用于通過網(wǎng)絡(luò)建立電子設(shè)備100與外部通信終端之間的通信連接,實現(xiàn)網(wǎng)絡(luò)信號及數(shù)據(jù)的收發(fā)操作。上述網(wǎng)絡(luò)信號可包括無線信號及有線信號。
可以理解,圖1所示的結(jié)構(gòu)僅為示意,電子設(shè)備100還可以包括比圖1所示更多或者更少的組件,或者具有與圖1所示不同的配置。圖1中所示的各組件可以采用硬件、軟件或其組合實現(xiàn)。
如圖2所示,是本發(fā)明實施例提供的一種輿情分析方法的流程示意圖。所述方法應(yīng)用于輿情分析系統(tǒng)200,所述輿情分析系統(tǒng)200中存儲有特征詞庫,所述特征詞庫中記錄有多個特征詞及每個特征詞所屬的情感傾向類別,所述情感傾向類別包括正向和負向。
例如,所述特征詞可以包括“安全”、“高效”、“新穎”、“質(zhì)量好”、“喜歡”、“支持”、“不錯”、“效率高”、“歡迎”、“太好”、“理解”、“保護”等具有正向情感傾向的詞,也可以包括“質(zhì)量差”、“不滿”、“失望”、“效率低”、“不安全”、“破壞”、“傷害”、“恐怖”、“不對”、“危險”、“惡心”、“太差”、“不行”等具有負向情感傾向的詞。
在實際應(yīng)用中,所述輿情分析系統(tǒng)200可以被企業(yè)用戶用于監(jiān)控自身感興趣或與自身利益相關(guān)的輿論情況。不同的企業(yè)感興趣的內(nèi)容有所不同,因此,可以根據(jù)實際需求對所述特征詞庫中的特征詞進行更換,以使特征詞庫與當前企業(yè)用戶的實際情況相匹配,從而能夠準確地篩選出與該企業(yè)用戶相關(guān)的輿論信息。
下面將結(jié)合圖2對所述輿情分析方法的具體流程及步驟進行詳細闡述。
步驟s101:每間隔預(yù)設(shè)時長從互聯(lián)網(wǎng)獲取包括第一預(yù)設(shè)特征詞的文本信息。
其中,所述第一預(yù)設(shè)特征詞為預(yù)先存儲在所述特征詞庫中、符合當前企業(yè)用戶需求的特征詞。
實施時,所述輿情分析系統(tǒng)200周期性地在全網(wǎng)范圍(例如,qq、微博、論壇等)抓取包括所述第一預(yù)設(shè)特征詞的文本信息,并通過對各文本信息的后續(xù)處理和分析得到各文本信息的發(fā)布者的情感傾向。
步驟s102:針對獲取到的每一文本信息,提取該文本信息中的第二預(yù)設(shè)特征詞,并統(tǒng)計該文本信息中不同第二預(yù)設(shè)特征詞的出現(xiàn)頻次以及各文本信息中不同第二預(yù)設(shè)特征詞的出現(xiàn)頻次,得到一詞頻文檔矩陣。
其中,所述第二預(yù)設(shè)特征詞為獲取到的各文本信息中包含的屬于第一預(yù)設(shè)特征詞的詞語。需要說明的是,在獲取到各文本信息后,需要對每一文本信息做預(yù)處理,如文本分詞等。
可選地,請參閱圖3,步驟s102可以包括步驟s201和步驟s202兩個子步驟。
步驟s201:對獲取到的各文本信息進行數(shù)據(jù)清洗。
步驟s202:針對去重后的每一文本信息,提取該文本信息中的第二預(yù)設(shè)特征詞。
其中,內(nèi)容去除指去除所述各文本信息中出現(xiàn)的與各第一預(yù)設(shè)特征詞不同的詞語。數(shù)據(jù)清洗指去除文本信息中的標點、冗余內(nèi)容及停用詞等無法用于區(qū)分情感傾向的詞。
步驟s103:根據(jù)所述詞頻文檔矩陣在所述各第二預(yù)設(shè)特征詞中選取合適的分類特征,并根據(jù)預(yù)設(shè)特征權(quán)重算法計算得到各分類特征的特征權(quán)重。
在本實施例中,確定分類特征的方法可以有多種,根據(jù)所選取的方法可以得到不同的所述預(yù)設(shè)范圍。例如,可以采用基于文檔頻率(df)的方法、信息增益法、x2x統(tǒng)計量(chi)法和互信息(mi)法等對分類特征進行確定。
無論選用何種方法,其本質(zhì)都是選取各第二預(yù)設(shè)特征詞中對文檔區(qū)分度最大的多個詞語作為分類特征。
在本實施例中,所述預(yù)設(shè)特征權(quán)重算法也可以有多種,例如,絕對詞頻(if)、倒排文檔頻度(idf)、詞頻-倒排文檔頻度(tf-idf)等。也即,針對區(qū)分度較高的第二預(yù)設(shè)特征詞,賦予其較大的權(quán)重值,針對區(qū)分度較小的第二預(yù)設(shè)特征詞,賦予其較小的權(quán)重值。如此,可以將各第二預(yù)設(shè)特征詞用數(shù)據(jù)進行表示。
步驟s104:將所述各分類特征的特征權(quán)重輸入基于所述各第一預(yù)設(shè)特征詞構(gòu)建的隨機森林分類模型,對該文本信息的情感傾向進行分類。
其中,所述特征詞庫中的各第一預(yù)設(shè)特征詞即為用于構(gòu)建所述隨機森林分類模型的原始數(shù)據(jù)。
在本實施例中,所述方法還包括對所述隨機森林分類模型進行訓(xùn)練的步驟,如圖4所示,在本實施例中,所述訓(xùn)練可以由以下步驟實現(xiàn)。
步驟s301:獲取文本集,所述文本集中包括多個文本信息,每個文本信息中包括至少一個所述第一預(yù)設(shè)特征詞。
步驟s302:有放回地從所述文本集中隨機抽取多個訓(xùn)練樣本作為訓(xùn)練集,分別根據(jù)抽取出的每個訓(xùn)練樣本生成決策樹,從而得到多個決策樹。
其中,每個所述決策樹的各節(jié)點的分裂特征從所述各第一預(yù)設(shè)特征中隨機選取。
步驟s303:將所述文本集中除所述訓(xùn)練集外的各文本信息作為測試集,針對所述測試集中的每一文本信息,將該文本信息輸入各決策樹,得到多個決策結(jié)果。
步驟s304:選取所述多個決策結(jié)果中出現(xiàn)次數(shù)最多的情感傾向類別作為該文本信息的情感傾向類別。
步驟s305:將所述測試集中各文本信息的判定結(jié)果與預(yù)存實際結(jié)果進行比對,并計算所述各判定結(jié)果的準確率,在所述準確率低于預(yù)設(shè)值時,對所述分類模型進行調(diào)整。
在本實施例中,所述預(yù)設(shè)值可以根據(jù)實際情況進行靈活調(diào)整。此外,還可以通過計算查全率、查準率、auc、lift值等對所述隨機森林分類模型的分類效果進行評估,并在評估效果不達標時對分類模型進行調(diào)整。
步驟s105:選取隨機森林分類模型輸出的結(jié)果中出現(xiàn)次數(shù)最多的情感傾向類別作為該文本信息的情感傾向類別,并在該文本信息的情感傾向類別為預(yù)設(shè)情感傾向類別時,將該文本信息推送至輿情展示終端。
例如,針對某一與企業(yè)用戶相關(guān)的熱點話題,當檢測到負向類別的文本信息時,可以將該文本信息推送至輿情展示終端,以供用戶查看。
步驟s106:接收所述輿情展示終端發(fā)送的反饋信息,并根據(jù)所述反饋信息對所述第一預(yù)設(shè)特征詞進行調(diào)整。
實施時,企業(yè)用戶可以對在輿情展示終端查看到的文本信息輸入相應(yīng)的反饋信息??蛇x地,所述輿情展示終端可以設(shè)置有多個選項標簽,例如,“符合用戶關(guān)注方向”、“不符合用戶關(guān)注方向”等。如此,企業(yè)用戶可以通過選取合適的選項標簽來反饋該文本信息是否為自己關(guān)注的輿論信息。所述輿情分析系統(tǒng)200在接收到所述輿情展示終端發(fā)送回來的反饋信息時,可以根據(jù)所述反饋信息對第一預(yù)設(shè)特征詞進行調(diào)整。
可選地,請參閱圖5,所述方法還可以包括步驟s107、步驟s108和步驟s109三個步驟。
步驟s107:在指定時間段內(nèi)監(jiān)測到有新增詞匯的出現(xiàn)頻次達到第一預(yù)設(shè)數(shù)量時,將該新增詞匯推送至用戶終端。
步驟s108:接收所述用戶終端發(fā)送的指令信息判斷該新增詞匯是否具有情感傾向類別。
步驟s109:在該新增詞匯具有情感傾向類別時,將該新增詞匯作為第一預(yù)設(shè)特征詞,并存儲到所述特征詞庫中。
在實際應(yīng)用中,在某一時間段內(nèi)網(wǎng)絡(luò)上可能出現(xiàn)新的流行詞匯,在該流行詞匯具有明確的情感傾向類別時,可以將該流行詞匯加入到特征詞庫中,作為第一預(yù)設(shè)特征詞。
可選地,如圖6所示,所述方法還可以包括步驟s110、步驟s111以及步驟s112三個步驟。
步驟s110:對包括預(yù)設(shè)關(guān)鍵詞的各文本信息的情感傾向類別進行判別。
在實際應(yīng)用中,隨著大輿論環(huán)境的改變,輿論熱點也會發(fā)生改變。不同的輿論熱點具有不同的關(guān)鍵詞,因此,可以從互聯(lián)網(wǎng)中獲取包括該輿論熱點的關(guān)鍵詞的文本信息,并對獲取到的各文本信息的情感傾向進行判定。
步驟s111:計算正向情感傾向類別的文本信息的數(shù)量與負向情感傾向類別的文本信息的數(shù)量之間的差值。
其中,對獲取到的各文本信息的情感傾向進行統(tǒng)計,可以得到當前大眾對當前輿論熱點的情感傾向。
步驟s112:在所述差值達到第二預(yù)設(shè)數(shù)量時,對所述預(yù)設(shè)特征權(quán)重算法及第一預(yù)設(shè)特征詞進行調(diào)整。
其中,當正向情感傾向的文本信息與負向情感傾向的文本信息的數(shù)量之間的差值達到第二預(yù)設(shè)數(shù)量時,可以視作當前大眾對當前輿論熱點有明顯的情感傾向,因此可以根據(jù)該種情感傾向調(diào)整第一預(yù)設(shè)特征詞以文本信息表示的具體算法。
如圖7所示,本發(fā)明實施例還提供一種輿情分析系統(tǒng)200,所述輿情分析系統(tǒng)200中存儲有特征詞庫,所述特征詞庫中記錄有多個特征詞及每個特征詞所屬的情感傾向類別,所述情感傾向類別包括正向和負向。
所述輿情分析系統(tǒng)200包括文本信息獲取模塊210、出現(xiàn)頻次統(tǒng)計模塊220、文本信息表示模塊230、分類模塊240、輿情展示模塊250以及第一調(diào)整模塊260。
其中,所述文本信息獲取模塊210用于每間隔預(yù)設(shè)時長從互聯(lián)網(wǎng)獲取包括第一預(yù)設(shè)特征詞的文本信息。在本實施例中,關(guān)于所述文本信息獲取模塊210的描述具體可參考對圖2中所示的步驟s101的詳細描述,也即,所述步驟s101可以由所述文本信息獲取模塊210執(zhí)行。
所述出現(xiàn)頻次統(tǒng)計模塊220用于針對獲取到的每一文本信息,提取該文本信息中的第二預(yù)設(shè)特征詞,并統(tǒng)計該文本信息中不同第二預(yù)設(shè)特征詞的出現(xiàn)頻次以及各文本信息中不同第二預(yù)設(shè)特征詞的出現(xiàn)頻次,得到一詞頻文檔矩陣。
在本實施例中,關(guān)于所述出現(xiàn)頻次統(tǒng)計模塊220的描述具體可參考對圖2中所示的步驟s102的詳細描述,也即,所述步驟s102可以由所述出現(xiàn)頻次統(tǒng)計模塊220執(zhí)行。
所述文本信息表示模塊230用于根據(jù)所述詞頻文檔矩陣在所述各第二預(yù)設(shè)特征詞中選取合適的分類特征,并根據(jù)預(yù)設(shè)特征權(quán)重算法計算得到各分類特征的特征權(quán)重。
在本實施例中,關(guān)于所述文本信息表示模塊230的描述具體可參考對圖2中所示的步驟s103的詳細描述,也即,所述步驟s103可以由所述文本信息表示模塊230執(zhí)行。
所述分類模塊240用于將所述各分類特征的特征權(quán)重輸入基于所述各第一預(yù)設(shè)特征詞構(gòu)建的隨機森林分類模型,對該文本信息的情感傾向進行分類。在本實施例中,關(guān)于所述分類模塊240的描述具體可參考對圖2中所示的步驟s104的詳細描述,也即,所述步驟s104可以由所述分類模塊240執(zhí)行。
所述輿情展示模塊250用于選取隨機森林分類模型各決策樹的輸出結(jié)果中出現(xiàn)次數(shù)最多的情感傾向類別作為該文本信息的情感傾向類別,并在該文本信息的情感傾向類別為預(yù)設(shè)情感傾向類別時,將該文本信息推送至輿情展示終端。
在本實施例中,關(guān)于所述輿情展示模塊250的描述具體可參考對圖2中所示的步驟s105的詳細描述,也即,所述步驟s105可以由所述輿情展示模塊250執(zhí)行。
所述第一調(diào)整模塊260用于接收所述輿情展示終端發(fā)送的反饋信息,并根據(jù)所述反饋信息對所述第一預(yù)設(shè)特征詞進行調(diào)整。在本實施例中,關(guān)于所述第一調(diào)整模塊260的描述具體可參考對圖2中所示的步驟s106的詳細描述,也即,所述步驟s106可以由所述第一調(diào)整模塊260執(zhí)行。
可選地,如圖8所示,所述輿情分析系統(tǒng)200還可以包括新增特征詞監(jiān)測模塊270、情感傾向檢測模塊280以及特征詞更新模塊290。
其中,所述新增特征詞監(jiān)測模塊270用于在指定時間段內(nèi)監(jiān)測到有新增詞匯的出現(xiàn)頻次達到第一預(yù)設(shè)數(shù)量時,將該新增詞匯推送至用戶終端。在本實施例中,關(guān)于所述新增特征詞監(jiān)測模塊270的描述具體可參考對圖5所示的步驟s107的詳細描述,也即,所述步驟s107可以由所述新增特征詞監(jiān)測模塊270執(zhí)行。
所述情感傾向檢測模塊280用于接收所述用戶終端發(fā)送的指令信息判斷該新增詞匯是否具有情感傾向類別。在本實施例中,關(guān)于所述情感傾向檢測模塊280的描述具體可參考對圖5中所示的步驟s108的詳細描述,也即,所述步驟s108可以由所述情感傾向檢測模塊280執(zhí)行。
所述特征詞更新模塊290用于在該新增詞匯具有情感傾向類別時,將該新增詞匯作為第一預(yù)設(shè)特征詞,并存儲到所述特征詞庫中。在本實施例中,關(guān)于所述特征詞更新模塊290的描述具體可參考對圖5中所示的步驟s109的詳細描述,也即,所述步驟s109可以由所述特征詞更新模塊290執(zhí)行。
可選地,如圖9所示,所述輿情分析系統(tǒng)200還可以包括輿論傾向判別模塊2100、輿論傾向統(tǒng)計模塊2110以及第二調(diào)整模塊2120。
其中,所述輿論傾向判別模塊2100用于對包括預(yù)設(shè)關(guān)鍵詞的各文本信息的情感傾向類別進行判別。在本實施例中,關(guān)于所述輿論傾向判別模塊2100的描述具體可參考對圖6中所示的步驟s110的詳細描述,也即,所述步驟s110可以由所述輿論傾向判別模塊2100執(zhí)行。
所述輿論傾向統(tǒng)計模塊2110用于計算正向情感傾向類別的文本信息的數(shù)量與負向情感傾向類別的文本信息的數(shù)量之間的差值。在本實施例中,關(guān)于所述輿論傾向統(tǒng)計模塊2110的描述具體可參考對圖6中所示的步驟s111的詳細描述,也即,所述步驟s111可以由所述輿論傾向統(tǒng)計模塊2110執(zhí)行。
所述第二調(diào)整模塊2120用于在所述差值達到第二預(yù)設(shè)數(shù)量時,對所述預(yù)設(shè)特征權(quán)重算法及第一預(yù)設(shè)特征詞進行調(diào)整。在本實施例中,關(guān)于所述第二調(diào)整模塊2120的描述具體可參考對圖6中所示的步驟s112的詳細描述,也即,所述步驟s112可以由所述第二調(diào)整模塊2120執(zhí)行。
可選地,如圖10所示,所述輿情分析系統(tǒng)200還可以包括隨機森林建立與訓(xùn)練模塊2130,所述隨機森林建立與訓(xùn)練模塊2130可以包括文本集獲取子模塊2131、隨機森林建立子模塊2132、測試子模塊2133、判別子模塊2134以及分類模型調(diào)整子模塊2135。
其中,所述文本集獲取子模塊2131用于獲取文本集,所述文本集中包括多個文本信息,每個文本信息中包括至少一個所述第一預(yù)設(shè)特征詞。在本實施例中,關(guān)于所述文本集獲取子模塊2131的描述具體可參考對圖4中所示的步驟s301的詳細描述,也即,所述步驟s301可以由所述文本集獲取子模塊2131執(zhí)行。
所述隨機森林建立子模塊2132用于有放回地從所述文本集中隨機抽取多個訓(xùn)練樣本作為訓(xùn)練集,分別根據(jù)抽取出的每個訓(xùn)練樣本生成決策樹,從而得到多個決策樹。
在本實施例中,關(guān)于所述隨機森林建立子模塊2132的描述具體可參考對圖4中所示的步驟s302的詳細描述,也即,所述步驟s302可以由所述隨機森林建立子模塊2132執(zhí)行。
所述測試子模塊2133用于將所述文本集中除所述訓(xùn)練集外的各文本信息作為測試集,針對所述測試集中的每一文本信息,將該文本信息輸入各決策樹,得到多個決策結(jié)果。
在本實施例中,關(guān)于所述測試子模塊2133的描述具體可參考對圖4中所示的步驟s303的詳細描述,也即,所述步驟s303可以由所述測試子模塊2133執(zhí)行。
所述判別子模塊2134用于選取所述多個決策結(jié)果中出現(xiàn)次數(shù)最多的情感傾向類別作為該文本信息的情感傾向類別。在本實施例中,關(guān)于所述判別子模塊2134的描述具體可參考對圖4中所示的步驟s304的詳細描述,也即,所述步驟s304可以由所述判別子模塊2134執(zhí)行。
所述分類模型調(diào)整子模塊2135用于將所述測試集中各文本信息的判定結(jié)果與預(yù)存實際結(jié)果進行比對,并計算所述各判定結(jié)果的準確率,在所述準確率低于預(yù)設(shè)值時,對所述分類模型進行調(diào)整。
在本實施例中,關(guān)于所述分類模型調(diào)整子模塊2135的描述具體可參考對圖4中所示的步驟s305的詳細描述,也即,所述步驟s305可以由所述分類模型調(diào)整子模塊2135執(zhí)行。
綜上所述,本發(fā)明提供的輿情分析方法及系統(tǒng),通過周期性地從互聯(lián)網(wǎng)獲取包括第一預(yù)設(shè)特征詞的文本信息,根據(jù)所述文本信息中各第二預(yù)設(shè)特征詞的出現(xiàn)頻次選取合適的分類特征,并基于選取出的分類特征構(gòu)建隨機森林分類模型對文本信息的情感傾向進行分類。將情感傾向類別為預(yù)設(shè)類型的文本信息推送至輿情展示終端供用戶查看,并根據(jù)用戶輸入的反饋信息,對第一預(yù)設(shè)特征詞進行調(diào)整。如此,可以根據(jù)判別結(jié)果自適應(yīng)地調(diào)整第一預(yù)設(shè)特征詞,使得分類結(jié)果更加準確。
在本發(fā)明實施例所提供的幾個實施例中,應(yīng)該理解到,所揭露的裝置和方法,也可以通過其它的方式實現(xiàn)。以上所描述的裝置和方法實施例僅僅是示意性的,例如,附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實施例的裝置、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當注意,在有些作為替換的實現(xiàn)方式中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動作的專用的基于硬件的裝置來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
另外,在本發(fā)明各個實施例中的各功能模塊可以集成在一起形成一個獨立的部分,也可以是各個模塊單獨存在,也可以兩個或兩個以上模塊集成形成一個獨立的部分。
所述功能如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,電子設(shè)備,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。需要說明的是,在本文中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。