一種基于文本情感傾向識別的輿情檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于文本的情感傾向識別的輿情檢測方法,尤其涉及自然語言的 情感分析,屬于自然語言分析領(lǐng)域和網(wǎng)絡(luò)信息安全領(lǐng)域。
【背景技術(shù)】
[0002] 隨著web2.0不斷發(fā)展,尤其是博客、微博、論壇等自媒體產(chǎn)生了用戶的參與、評 價、體驗、以及用戶一些不滿的情緒,這部分信息隨著時間的積累將迅速的膨脹,依靠人工 的方式難以收集判斷并整理。此類研究逐漸成為一個研究熱點,比如專利名稱一種從互聯(lián) 網(wǎng)海量信息中發(fā)現(xiàn)熱點的方法,專利號:200910028939. 8 ;以及專利名稱網(wǎng)絡(luò)熱點和輿情 的檢測方法,專利號:200910308542.4的技術(shù)文獻(xiàn);該發(fā)明通過搜集指定時間范圍內(nèi)的網(wǎng) 絡(luò)論壇和博客系統(tǒng)的文檔、提取本征特征、進(jìn)行褒貶傾向性分析等步驟,獲知網(wǎng)名對熱點事 件的輿情觀點。
[0003] 2011年,佛蒙特大學(xué)計算實驗室的項目Hedonometer在過去的五年中每天都會對 Twitter上面的千萬條Tweet進(jìn)行情感分析,并將其結(jié)果記錄了下來。通過分析它會在人們 的Tweet中尋找一些反映正面情緒或者負(fù)面情緒的關(guān)鍵詞。
[0004] 2012年5月29日,聯(lián)合國"全球脈動"(Global Pulse)計劃發(fā)布《大數(shù)據(jù)開發(fā): 機(jī)遇與挑戰(zhàn)》報告,闡述了大數(shù)據(jù)帶來的機(jī)遇、主要挑戰(zhàn)和大數(shù)據(jù)應(yīng)用。Global Pulse計劃 是希望利用"大數(shù)據(jù)"來促進(jìn)全球經(jīng)濟(jì)發(fā)展,使用自然語言解密軟件來對社交網(wǎng)站和文本消 息中的信息進(jìn)行"情緒分析",幫助預(yù)測某個給定地區(qū)的失業(yè)率、支出削減或是疾病爆發(fā)等 現(xiàn)象。
[0005] 目前在自然語言分析領(lǐng)域,由于國外的語言結(jié)構(gòu)與國內(nèi)的語言結(jié)構(gòu)有著本質(zhì)上的 差異,中文與英文的語法結(jié)構(gòu)存在很大的差異,漢語的博大精深,國外的一些分析技術(shù)很難 應(yīng)用到中文領(lǐng)域,特別在語義的識別上存在著一些誤差。目前國內(nèi)的常用的計算文本中抽 取的關(guān)鍵詞和種子詞的相似度來對文本的情感傾向性進(jìn)行判別(S0-PMI算法)、雖然在實現(xiàn) 上更加簡單,但是由于單詞之間的情感相似度難以準(zhǔn)確的計算和種子詞的難以確定?;?svm算法,前提是訓(xùn)練一套較好的分析模型需要較長的時間,從實際角度來講對于新詞的擴(kuò) 展需要重新進(jìn)行測試訓(xùn)練,會增加擴(kuò)展的復(fù)雜度。本方法基于詞性的統(tǒng)計以及情感強(qiáng)度的 計算,具有較好的識別性能及準(zhǔn)確度,同時方便于對情感詞典的擴(kuò)展。
【發(fā)明內(nèi)容】
[0006] 針對現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明的目的在于提供一種基于文本情感傾向 識別的輿情檢測方法,實現(xiàn)了對文本情感傾向的快速分析、統(tǒng)計、判定,進(jìn)行輿情監(jiān)控、信息 預(yù)測等多個領(lǐng)域。
[0007] 本發(fā)明的方法主要是通過對一段文字信息進(jìn)行分詞處理過濾,抽取情感特征詞, 然后與情感詞庫進(jìn)行匹配查找,得到的詞條對應(yīng)的情感強(qiáng)度、分類以及極性,得出一段文字 或一句話的情感傾向及程度。
[0008] 本發(fā)明的輿情檢測方法流程圖如附圖所示,其步驟為:
[0009] 1)建立一個情感特征詞庫,用于存儲基本的情感特征詞語及其情感強(qiáng)度、類別、極 性等屬性信息。其中(1,9)區(qū)間表示正面的情感強(qiáng)度,(_1,-9)區(qū)間表示負(fù)面情感強(qiáng)度,絕 對值越大,表示情感強(qiáng)度越大;
[0010] 2)對指定時間范圍內(nèi)或指定信息源中的每一待處理文本內(nèi)容進(jìn)行去雜處理,去除 文本內(nèi)容中的干擾的雜質(zhì),例如url、email、數(shù)字、特殊符號、以及HTML標(biāo)簽。其中特殊字 符包括\r, \n, \t,HTML標(biāo)簽包括〈body〉、〈style〉、〈title〉、<br/>等帶有尖括號閉合的標(biāo) 簽。
[0011] 3)分詞處理,這里采用sews中文分詞工具,將一段內(nèi)容切分成若干個帶有詞性標(biāo) 注的單詞,例如:詞性η表示名詞,a表示形容詞,V表示動詞。
[0012] 4)根據(jù)分詞到的結(jié)果進(jìn)行過濾,排重處理。具體方法是:
[0013] a)過濾:為了提高詞庫的查詢效率,通過sews分詞得到的結(jié)果,按詞性先過濾一 部分與情感特征詞無關(guān)的詞性,例如:人名、地名、機(jī)構(gòu)、時間詞、代詞等。
[0014] b)排重:由于信息源是人為產(chǎn)生的,很可能有帶有強(qiáng)烈的個人情感色彩,對情感 強(qiáng)度的判定會有一定干擾,以微博為例,例如汶川地震相關(guān)的評論,評論內(nèi)容出現(xiàn)連續(xù)多個 [淚],這種情況將多個連續(xù)重復(fù)出現(xiàn)的單詞計為1個單詞。
[0015] 5)與情感特征詞庫進(jìn)行匹配查找,抽取情感特征詞以及對應(yīng)的屬性,得出對應(yīng)的 分類、情感強(qiáng)度以及極性。
[0016] 6)根據(jù)情感強(qiáng)度以及極性的求和計算,可以反應(yīng)出一段文字的情感傾向為正面或 是負(fù)面的
[0017] 7)根據(jù)所有待處理文件內(nèi)容的情感傾向,確定該指定時間范圍內(nèi)或該指定信息源 的輿情信息。
[0018] 進(jìn)一步的,所述情感特征的詞典為一個數(shù)組,每個詞條屬性包括:情感強(qiáng)度、分類、 極性。
[0019] 進(jìn)一步的,所述情感詞分類包括:樂、哀、懼、驚、惡、贊六類。
[0020] 進(jìn)一步的,所取得情感強(qiáng)度的計算方法為E= Σ (tl, t2,…,tk) ;tk為每個情感特 征詞的情感強(qiáng)度。
[0021] 進(jìn)一步的,根據(jù)當(dāng)前一段文字返回情感分類,其方法為:
[0022] a)通過sews分詞工具得到一個分詞后的結(jié)果數(shù)組,結(jié)果的屬性包括(關(guān)鍵詞、詞 性、tf、idf、權(quán)重),通過去雜、排重、過濾以后,與情感詞庫做匹配查找,將匹配到的結(jié)果對 應(yīng)的情感分類進(jìn)行統(tǒng)計,每個分類統(tǒng)計出不同的情感分類以及所占有的比重,例如樂〉贊〉 哀 > 懼 > 惡 > 驚,那么作為比較高的分類樂最接近真實分類,由此可以分析出一段文字的情 感分類屬性。
[0023] b)如果未能提取出情感特征詞,說明此段文字情感傾向為中性,不具有明顯的情 感傾向。與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:本發(fā)明通過對一段文字的情感特征詞抽取 和高效的過濾機(jī)制,降低了情感特征詞匹配的時間復(fù)雜度,提高了運(yùn)算效率。
【附圖說明】
[0024] 附圖為本發(fā)明的方法流程圖。
【具體實施方式】
[0025] 下面對本發(fā)明的實施方式進(jìn)行進(jìn)一步的描述:
[0026] 1.情感詞典的建立,操作方法:
[0027] 建立情感特征詞典數(shù)組。本專利采用scwsl. 2. 2專用詞庫,按按詞性進(jìn)行提取,可 提取的詞性為名詞(n),動詞(V),形容詞(a),副詞(d),成語(i),以及常用的網(wǎng)絡(luò)詞語進(jìn)行 抽取和標(biāo)注,其中正面的詞匯用正整數(shù)數(shù)[1-9]表示,用負(fù)數(shù)[-1-9]表示負(fù)面詞匯,數(shù)值 的絕對值越大,情感強(qiáng)度越強(qiáng)。
[0028] 2.情感詞的分類
[0029] 目前常用的分類可以按情感色彩分類,分為樂、怒、哀、懼、驚,贊。也可以按情感極 性分類,分為正、負(fù)兩級,正面表示積極的情緒,負(fù)面表示消極的情緒。
[0030] 表1 :情感特征詞典結(jié)構(gòu)
[0031]
【主權(quán)項】
1. 一種基于文本情感傾向識別的輿情檢測方法,其步驟為: 1) 建立一情感特征詞庫,用于存儲情感特征詞語及其屬性信息,所述屬性信息包括:情 感強(qiáng)度、類別和極性; 2) 利用分詞工具對指定時間范圍內(nèi)或指定信息源中的每一待處理文本內(nèi)容進(jìn)行分詞, 并對分詞結(jié)果進(jìn)行過濾、排重處理; 3) 將處理后的分詞與所述情感特征詞庫進(jìn)行匹配,提取匹配的分詞及其屬性信息,得 到一匹配分詞集合; 4) 根據(jù)所述匹配分詞集合中的分詞屬性確定該待處理文本內(nèi)容的情感傾向; 5) 根據(jù)所有待處理文件內(nèi)容的情感傾向,確定該指定時間范圍內(nèi)或該指定信息源的輿 情信息。
2. 如權(quán)利要求1所述的方法,其特征在于所述情感傾向包括該待處理文本內(nèi)容的情感 類別、情感強(qiáng)調(diào)和極性。
3. 如權(quán)利要求2所述的方法,其特征在于對所述匹配分詞集合中的分詞按照分詞的類 別進(jìn)行統(tǒng)計,將分詞數(shù)目最多的類別作為該待處理文本內(nèi)容的情感類別;對所述匹配分詞 集合中分詞的情感強(qiáng)度進(jìn)行求和,得到該待處理文本內(nèi)容的情感強(qiáng)調(diào);對所述匹配分詞集 合中的分詞按照分詞的極性進(jìn)行統(tǒng)計,將分詞數(shù)目最多的極性作為該待處理文本內(nèi)容的極 性。
4. 如權(quán)利要求3所述的方法,其特征在于所述情感類別包括樂、哀、懼、驚、惡、贊六類; 所述極性包括正面、負(fù)面;所述情感強(qiáng)度的取值區(qū)間為(1,9)。
5. 如權(quán)利要求1~4任一所述的方法,其特征在于步驟2)之前先對待處理文本內(nèi)容進(jìn) 行去雜處理,包括去除待處理文本內(nèi)容中的urI、emai1、數(shù)字、特殊符號、以及html標(biāo)簽。
6. 如權(quán)利要求5所述的方法,其特征在于所述分詞為具有詞性標(biāo)注的分詞,根據(jù)詞性 對分詞結(jié)果進(jìn)行過濾,從詞性為名詞的分詞中識別出設(shè)定的與情感特征詞無關(guān)的單詞。
7. 如權(quán)利要求6所述的方法,其特征在于所述與情感特征詞無關(guān)的單詞包括:人名、地 名、機(jī)構(gòu)、時間詞和代詞。
【專利摘要】本發(fā)明公開了一種基于文本情感傾向識別的輿情檢測方法。本方法為:1)建立一情感特征詞庫,用于存儲情感特征詞語及其屬性信息,所述屬性信息包括:情感強(qiáng)度、類別和極性;2)利用分詞工具將待處理文本內(nèi)容進(jìn)行分詞,并對分詞結(jié)果進(jìn)行過濾、排重處理;3)將處理后的分詞與所述情感特征詞庫進(jìn)行匹配,提取匹配的分詞及其屬性信息,得到一匹配分詞集合;4)根據(jù)所述匹配分詞集合中的分詞屬性確定該待處理文本內(nèi)容的情感傾向;5)根據(jù)所有待處理文件內(nèi)容的情感傾向,確定該指定時間范圍內(nèi)或該指定信息源的輿情信息。與現(xiàn)有技術(shù)相比,本發(fā)明降低了情感特征詞匹配的時間復(fù)雜度,提高了運(yùn)算效率。
【IPC分類】G06F17-27, G06F17-30
【公開號】CN104731812
【申請?zhí)枴緾N201310717168
【發(fā)明人】苑志
【申請人】北京華易互動科技有限公司
【公開日】2015年6月24日
【申請日】2013年12月23日