一種社交網(wǎng)絡(luò)用戶情緒判別方法
【專利摘要】本發(fā)明公開(kāi)了一種社交網(wǎng)絡(luò)用戶情緒判別方法,包括如下步驟:用戶數(shù)據(jù)采集、用戶數(shù)據(jù)預(yù)處理、構(gòu)建情感詞典、構(gòu)建中性詞典、計(jì)算獨(dú)立記錄的情感生成概率、利用貝葉斯生成模型對(duì)用戶情感進(jìn)行建模、利用最大期望算法(EM算法)對(duì)用戶情感隱含變量進(jìn)行求解。發(fā)明將視角集中在用戶身上,通過(guò)挖掘用戶在一段連續(xù)時(shí)間內(nèi)發(fā)布的消息內(nèi)容的情感,來(lái)反映用戶在此階段內(nèi)在的情感及情感變化。
【專利說(shuō)明】一種社交網(wǎng)絡(luò)用戶情緒判別方法 【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及社交網(wǎng)絡(luò)用戶情緒判別方法。 【【背景技術(shù)】】
[0002] 社交網(wǎng)絡(luò)的普及,使得大規(guī)模提取用戶發(fā)布的公共信息成為可能;隨著時(shí)間的推 進(jìn)和社交網(wǎng)路不斷發(fā)展,使得對(duì)用戶進(jìn)行較長(zhǎng)時(shí)間線上數(shù)據(jù)的研究成為可能。這些數(shù)據(jù)有 別于單一時(shí)間點(diǎn)上大量不相關(guān)用戶發(fā)布的瞬時(shí)消息的集合,單個(gè)用戶在較長(zhǎng)時(shí)間線上所發(fā) 布的消息中所隱含的消息一致性、相關(guān)性、發(fā)展規(guī)律性等都可以作為特定的研究對(duì)象。從社 交網(wǎng)絡(luò)的情感計(jì)算角度來(lái)看,目前主要研究思路主要集中在根據(jù)用戶所發(fā)布的內(nèi)容,根據(jù) 一般性情感詞典和大量互聯(lián)網(wǎng)用戶用語(yǔ)的習(xí)慣等進(jìn)行推測(cè),從而判斷用戶發(fā)布內(nèi)容所對(duì)應(yīng) 的情感極性。
[0003] 心理學(xué)上一個(gè)人的情感是有多種維度的,在一定程度上影響著一個(gè)人發(fā)表的主觀 評(píng)論。目前,判斷一個(gè)人發(fā)表內(nèi)容的情感極性,主要將其分為正向的、中性的或者負(fù)向的,產(chǎn) 生這些情感極性的原因有很多。概率生成模型是描述因果生成關(guān)系的數(shù)學(xué)模型,對(duì)于一些 人們的評(píng)論往往是中性或者正負(fù)極性不確定的客體,在評(píng)論性文本中帶有的情感極性一部 分反映了主體當(dāng)時(shí)的情感,或者說(shuō)對(duì)于中性客體的情感極性可以看作是主體主觀情感影響 下所產(chǎn)生的情感傾向?;谶@樣一種假設(shè)和思路,采用貝葉斯生成模型對(duì)其進(jìn)行建模,將用 戶文本的情感極性判斷的生成概率作為已知量(后驗(yàn)概率),將用戶情感看作隱含未知變 量,經(jīng)過(guò)迭代計(jì)算,得到用戶情感的最終畫(huà)像(先驗(yàn)概率)。這里的用戶情感畫(huà)像指的是用戶 多維度的情感狀態(tài),與情感極性不同,多維度情感狀態(tài)通常包括三種以上的類別,可以指包 含高興、傷心、生氣、害怕、激動(dòng)、厭惡等特定情感的類別,也可以指一定代號(hào)為類別的分類 類別,如情感1,情感2,…,情感£,等。
[0004] 目前,對(duì)用戶文本的情感極性判斷主要基于構(gòu)建情感詞典,根據(jù)情感詞典判斷用 戶文本情感極性。情感詞典的構(gòu)建方法可基于少量正負(fù)極性詞匯集合,再根據(jù)關(guān)聯(lián)規(guī)則、圖 模型等算法得到更大的正負(fù)極性詞匯集合,并據(jù)此計(jì)算用戶文本的對(duì)應(yīng)極性的概率。目前 社交網(wǎng)絡(luò)情感分析研究對(duì)象主要以分析社交網(wǎng)絡(luò)中全網(wǎng)絡(luò)即時(shí)相關(guān)文本的極性為主。 【
【發(fā)明內(nèi)容】
】
[0005] 本發(fā)明認(rèn)為人的潛在的較為穩(wěn)定的情感會(huì)影響其在社交網(wǎng)絡(luò)中發(fā)表內(nèi)容的情感, 這在一些中性詞語(yǔ)的情感表示中體現(xiàn)得尤為明顯。這里的用戶情感和通過(guò)文本分析得到的 用戶文本情感極性相區(qū)別,文本極性包括用戶所發(fā)文本中所有情感信息,而用戶潛在的情 感畫(huà)像則通過(guò)構(gòu)建用戶個(gè)人中性詞典,并根據(jù)中性詞中的情感變化來(lái)體現(xiàn)。本發(fā)明提出用 貝葉斯生成模型對(duì)該推理進(jìn)行建模,將用戶情感作為模型中的隱含變量,并通過(guò)迭代計(jì)算 求解。
[0006] -種社交網(wǎng)絡(luò)用戶情緒判別方法,包括如下步驟:
[0007] S1、構(gòu)建情感詞典,其中,所述情感詞典包含多個(gè)情感詞語(yǔ),每個(gè)情感詞語(yǔ)具有表 示情感極性強(qiáng)度的分?jǐn)?shù);
[0008] S 2、構(gòu)建中性詞典,其中,所述中性詞詞典包含多個(gè)中性詞,所述中性詞為在用戶 的社交文本中出現(xiàn)的名詞,每個(gè)中性詞的總體情感得分在設(shè)定區(qū)間內(nèi);
[0009] S3、在待處理用戶社交文本Ti中提取所述中性詞典中出現(xiàn)的中性詞,并抽取與所 述中性詞最近的形容詞,若所述形容詞在所述情感詞典中屬于正極性詞語(yǔ),則將所述用戶 社交文本的正極性情感得分Scru的值加1,若所述形容詞在所述情感詞典中屬于負(fù)極性詞 語(yǔ),則將所述用戶社交文本的負(fù)極性情感得分Scr l3的值加1,若所述形容詞在所述情感詞典 中屬于中性極性詞語(yǔ),則將所述用戶社交文本的中性極性情感得分Scr i2的值加1;
[0010] S4、計(jì)算待處理用戶社交文本Ti下對(duì)應(yīng)的情感極性條件概率P(Sm|Ti):
[0011 ] P(Sm I Ti) = Scrim/(Scru+Scru+Scris)其中,m取1、2和3,Si,S2和S3分別對(duì)應(yīng)正極性 情感、中性情感、負(fù)極性情感;
[0012] S5、對(duì)于 P (S J T;) = E P (S J P (M,'| T;),以P (S J M,)和P (Mr! Tf)為待求量進(jìn)行 迭代運(yùn)算,最終計(jì)算P (Sm I Mp 其中,表示用戶潛在的情感狀態(tài),p (:Sto | Mp表示每一種情 感狀態(tài)f下所對(duì)應(yīng)的極性情感m對(duì)應(yīng)的概率值分布,PT;)表示用戶社交文本1^下所對(duì)應(yīng) 的情感狀態(tài)廠的概率值分布。
[0013] 優(yōu)選地,
[0014] 所述構(gòu)建情感詞典包括如下步驟:
[0015] S11、對(duì)于社交網(wǎng)絡(luò)全網(wǎng)絡(luò)用戶的文本,提取文本中的形容詞和副詞放入潛在情感 詞典集合;
[0016] S12、以已知公開(kāi)情感詞典作為基礎(chǔ),對(duì)所述潛在情感詞典集合中的所有詞語(yǔ)打上 對(duì)應(yīng)的表示情感極性強(qiáng)度的分?jǐn)?shù)。
[0017] 優(yōu)選地,
[0018] 所述構(gòu)建情感詞典還包括如下步驟:
[0019] S13、對(duì)于所述潛在情感詞典集合中的不屬于所述已知公開(kāi)情感詞典中的詞語(yǔ),采 用詞語(yǔ)學(xué)習(xí)算法對(duì)對(duì)應(yīng)的詞語(yǔ)打上對(duì)應(yīng)的表示情感極性強(qiáng)度的分?jǐn)?shù)。
[0020] 優(yōu)選地,
[0021] 每個(gè)用戶具有自身的中性詞典,所述構(gòu)建中性詞典包括如下步驟:
[0022] S21、對(duì)于用戶的第i條獨(dú)立文本1\中的名詞N&進(jìn)行抽?。?br>[0023] S22、抽取名詞:^#附近與所述名詞最近且距離不超過(guò)閾值L的形容詞或副詞 若'在所述情感詞典中則構(gòu)成詞對(duì) <NW
[0024] S23、對(duì)用戶在整個(gè)時(shí)間軸上的詞對(duì)<N&,中每個(gè)的對(duì)應(yīng)的情感詞語(yǔ)的 情感極性強(qiáng)度的分?jǐn)?shù)進(jìn)行統(tǒng)計(jì),并計(jì)算對(duì)應(yīng)的總體情感得分Scrz:
[0026]其中,示~的情感極性強(qiáng)度的分?jǐn)?shù),中n為極性因子,若&是正極性詞語(yǔ)q =1,若、是中性極性詞語(yǔ)n=〇,若'是負(fù)極性詞語(yǔ)n=-i;
[0027] S24、將總體情感得分Scrz在[_e,e]區(qū)間的詞語(yǔ)定義為中性詞,其中e為參數(shù)。
[0028] 優(yōu)選地,
[0029] eG(-〇.8,0.8)。
[0030] 優(yōu)選地,
[0031]若有兩個(gè)最近距離的形容詞或副詞則將名詞前面的形容詞或副詞計(jì)入 詞對(duì)說(shuō),A談〉中。
[0032] 優(yōu)選地,
[0033] f取1、2、3、4、5、6,表示人的六類基本情感狀態(tài)。
[0034] 優(yōu)選地,
[0035]在步驟S1之前還包括用戶數(shù)據(jù)采集步驟:
[0036]通過(guò)社交網(wǎng)絡(luò)公共API收集一定量的用戶ID名稱;
[0037]根據(jù)用戶ID名稱收集用戶公開(kāi)資料信息以及社交網(wǎng)絡(luò)統(tǒng)計(jì)信息;
[0038]根據(jù)所述信息對(duì)已經(jīng)收集的用戶進(jìn)行篩選;
[0039] 從篩選的用戶中采集用戶所有文本記錄及相應(yīng)標(biāo)簽信息。
[0040] 優(yōu)選地,
[0041 ] 在步驟S1之前還包括用戶數(shù)據(jù)預(yù)處理步驟。
[0042] 本發(fā)明將視角集中在用戶身上,通過(guò)挖掘用戶在一段連續(xù)時(shí)間內(nèi)發(fā)布的消息內(nèi)容 的情感,來(lái)反映用戶在此階段內(nèi)在的情感及情感變化。由于用戶情感在生成模型中屬于隱 含變量,通過(guò)直接求取最大似然概率的方式得到最佳參數(shù)和隱含變量取值的方法很復(fù)雜, 故考慮這種模型常用的最大期望算法(EM算法)對(duì)其進(jìn)行迭代求解。 【【附圖說(shuō)明】】
[0043] 圖1是本發(fā)明一種實(shí)施例的社交網(wǎng)絡(luò)用戶情緒判別方法的系統(tǒng)框圖;
[0044] 圖2是本發(fā)明一種實(shí)施例的社交網(wǎng)絡(luò)用戶情緒判別方法的流程圖。 【【具體實(shí)施方式】】
[0045]以下對(duì)發(fā)明的較佳實(shí)施例作進(jìn)一步詳細(xì)說(shuō)明。
[0046]如圖1和2所示,一種實(shí)施例的社交網(wǎng)絡(luò)用戶情緒判別方法,包括如下步驟:
[0047] S1、用戶數(shù)據(jù)采集。
[0048] 先通過(guò)社交網(wǎng)絡(luò)公共API (公共應(yīng)用程序編程接口(Application Programming Interface,簡(jiǎn)稱API))收集一定量的用戶ID名稱,根據(jù)用戶ID名稱收集用戶公開(kāi)資料信息 以及社交網(wǎng)絡(luò)統(tǒng)計(jì)信息。也可在尊重用戶隱私的條件下,對(duì)用戶在網(wǎng)絡(luò)上的公開(kāi)數(shù)據(jù)進(jìn)行 爬取。這些信息包括但不限于用戶ID名稱、用戶注冊(cè)時(shí)間、用戶好友數(shù)、關(guān)注數(shù)、被關(guān)注數(shù)、 用戶發(fā)布內(nèi)容數(shù)量、用戶發(fā)布文本內(nèi)容、內(nèi)容對(duì)應(yīng)時(shí)間戳、類別標(biāo)簽、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、獲得 點(diǎn)贊數(shù)等。根據(jù)這些信息對(duì)已經(jīng)收集的用戶進(jìn)行篩選,選出的用戶應(yīng)具備以下屬性:是真實(shí) 個(gè)人用戶、注冊(cè)時(shí)間較長(zhǎng)、在注冊(cè)期間活躍程度不低于某一閾值、具有一定量的原創(chuàng)文本內(nèi) 容。根據(jù)以上屬性篩選用戶,采集用戶所有文本記錄及相應(yīng)標(biāo)簽信息,以備進(jìn)行接下來(lái)的數(shù) 據(jù)預(yù)處理工作。
[0049] S2、用戶數(shù)據(jù)預(yù)處理。
[0050] 對(duì)已經(jīng)篩選出來(lái)的用戶所發(fā)布的文本進(jìn)行采集后,須對(duì)文本內(nèi)容進(jìn)行一定預(yù)處理 工作。首先要找到用戶所有原創(chuàng)性文本內(nèi)容,即根據(jù)發(fā)布文本內(nèi)容的相應(yīng)標(biāo)簽對(duì)其進(jìn)行分 類,如可分為原創(chuàng)性文本內(nèi)容、轉(zhuǎn)發(fā)他人文本內(nèi)容、轉(zhuǎn)發(fā)他人文本內(nèi)容并進(jìn)行評(píng)論、評(píng)論他 人文本內(nèi)容,以及以上幾種形式下其內(nèi)容不包含有效文本信息而只包含超鏈接、多媒體信 息的內(nèi)容等。對(duì)于以上形式的獨(dú)立記錄,若其內(nèi)容不包含用戶原創(chuàng)性文本內(nèi)容,則予以忽 略,如最后只篩選并留下用戶原創(chuàng)性文本內(nèi)容、轉(zhuǎn)發(fā)并評(píng)論他人的記錄的評(píng)論文本、評(píng)論他 人記錄的評(píng)論文本等。篩選出用戶原創(chuàng)性文本內(nèi)容后,去掉其中對(duì)文本分析無(wú)意義的相關(guān) 內(nèi)容,其中包括無(wú)關(guān)的超鏈接信息、用戶"信息等。其中,用戶"的去除可能會(huì)影響后面 對(duì)文本進(jìn)行句法分析,故原則上在這步中只刪除在轉(zhuǎn)發(fā)性文本中系統(tǒng)自動(dòng)加入的用戶" 內(nèi)容,而對(duì)用戶自己手動(dòng)標(biāo)注的用戶"信息予以保留并用"OUser"替代。而后對(duì)這些文本 內(nèi)容進(jìn)行分句、分詞并進(jìn)行詞性標(biāo)注,同時(shí)過(guò)濾停用詞、并對(duì)否定詞、轉(zhuǎn)義詞等進(jìn)行標(biāo)注。最 后,對(duì)社交網(wǎng)絡(luò)的特殊符號(hào),如表情符號(hào)等根據(jù)其代表的情感極性進(jìn)行轉(zhuǎn)化,并將時(shí)間戳格 式進(jìn)行必要的轉(zhuǎn)變。
[0051 ] S3、構(gòu)建情感詞典。
[0052]情感詞典的構(gòu)建需要利用社交網(wǎng)絡(luò)全網(wǎng)絡(luò)用戶的文本信息。在實(shí)際應(yīng)用中,情感 詞典需要不斷更新,情感詞典是判斷文本情感極性的依據(jù)。對(duì)所有用戶預(yù)處理后的文本進(jìn) 行處理如下:用戶^的文本^預(yù)處理后對(duì)其進(jìn)行形容詞提取,也可將形容詞和副詞都提取 出來(lái),放入潛在詞典集合ii中(11中的詞語(yǔ)不重復(fù))。利用已知公開(kāi)情感詞典作為基礎(chǔ),先 對(duì)§i中所有詞語(yǔ)進(jìn)行極性標(biāo)注,或同時(shí)對(duì)其進(jìn)行打分,如分?jǐn)?shù)范圍可在[_5,5]取整,后對(duì) 剩余未標(biāo)注極性的詞語(yǔ)的情感極性進(jìn)行學(xué)習(xí)。對(duì)剩余詞語(yǔ)的情感學(xué)習(xí)采取算法有多種,比 如綜合應(yīng)用相似語(yǔ)義推理、否定詞語(yǔ)與句子結(jié)構(gòu)轉(zhuǎn)義等信息進(jìn)行情感詞典的學(xué)習(xí)。該算法 需要重復(fù)運(yùn)行直到剩余未標(biāo)注詞語(yǔ)數(shù)趨于穩(wěn)定,當(dāng)剩余詞語(yǔ)數(shù)目小于一定程度時(shí)可對(duì)這些 詞語(yǔ)進(jìn)行舍棄,否則可考慮增加原始學(xué)習(xí)詞典的詞條信息或人工對(duì)其中一些典型詞語(yǔ)進(jìn)行 手工標(biāo)注等,最終得到情感詞典集合SD。每個(gè)情感詞語(yǔ)對(duì)應(yīng)的情感極性有一定的強(qiáng)度,該強(qiáng) 度值可用來(lái)計(jì)算極性強(qiáng)度分?jǐn)?shù),這里可以假設(shè)采用11級(jí)強(qiáng)度來(lái)計(jì)算,〇則表示中性詞語(yǔ),負(fù) 數(shù)則表示負(fù)面情感詞語(yǔ),正數(shù)表示正向情感詞語(yǔ),而數(shù)字越大則情感傾向越明顯,最后將所 有分?jǐn)?shù)歸一化至[-5,5 ]這個(gè)區(qū)間中。
[0053] S4、構(gòu)建中性詞典。
[0054]構(gòu)建用戶中性詞語(yǔ)詞典,指構(gòu)建每個(gè)用戶個(gè)性化的中性詞語(yǔ)詞典,這里需要對(duì)每 個(gè)用戶的文本信息進(jìn)行單獨(dú)處理。對(duì)于預(yù)處理后的用戶的第i條獨(dú)立文本^進(jìn)行名詞的 抽取,抽取附近與其最近且距離不超過(guò)一定閾值L的形容詞(或副詞)并構(gòu)成名詞-形 容詞對(duì),若該形容詞(或副詞)不在所構(gòu)建的情感詞典集合SD中,則忽略該詞對(duì),并將其余名 詞與其對(duì)應(yīng)的形容詞(或副詞)記為一個(gè)詞對(duì),若有兩個(gè)最近距離形容詞(或副詞) 則將名詞前面的形容詞(或副詞)計(jì)入詞對(duì)中。對(duì)用戶在整個(gè)時(shí)間軸上詞對(duì)中每個(gè) 的對(duì)應(yīng)的情感詞語(yǔ)情感極性分?jǐn)?shù)進(jìn)行統(tǒng)計(jì),得到對(duì)應(yīng)的N Z的總體情感得分Scrz。情感 打分的分?jǐn)?shù)計(jì)算方法為對(duì)應(yīng)詞匯的情感強(qiáng)度分?jǐn)?shù)(其中n為極性因子,正極時(shí)n=i, 中性時(shí)n = 〇,負(fù)極時(shí)n = -1 ),加權(quán)平均后的得分即Nz的總體情感得分Scrz,即 。最后將所有得分在[_e,e]g間的詞語(yǔ)定義為用戶個(gè)性中性詞語(yǔ),并 將其納入用戶中性詞典中,e取在一個(gè)較小的區(qū)間如ee (-0.8,0.8)。
[0055] S5、計(jì)算獨(dú)立記錄Ti的情感生成概率:計(jì)算已知Ti文本對(duì)應(yīng)的情感極性條件概率, 即P(Sm|Ti)。其中,S = |'5^;}^:::1中31,52,53分別對(duì)應(yīng)正極性、中性、負(fù)極性的情況。1^文本 包含的中性詞典中出現(xiàn)的詞語(yǔ),抽取與其最近且距離不超過(guò)一定閾值L的形容詞并構(gòu)成 名詞-形容詞對(duì),并將兩者記為一個(gè)詞對(duì)<NW AM>。若在構(gòu)建的情感詞典中為正向極性 詞語(yǔ),則該條記錄正向極性情感得分Scru = Scru+1,若在構(gòu)建的情感詞典中為負(fù)向極 性詞語(yǔ),貝lj該條記錄負(fù)向極性情感得分Scri3 = Scri3+1,若~(yú)在構(gòu)建的情感詞典中為中性極 性詞語(yǔ),貝lj該條記錄中性極性情感得分Scri2 = Scri2+l,若&不在構(gòu)建的情感詞典中,則將 其忽略。P(Sm|Ti)計(jì)算方法為對(duì)應(yīng)極性情感得分Scrim與該條記錄所有情感極性分?jǐn)?shù)絕對(duì)值 和的比值,即Scrim=Scrim/(Scrii+Scri2+Scri3)。如果該條記錄的每個(gè)極性對(duì)應(yīng)的分?jǐn)?shù)都為 0,則忽略該條記錄。
[0056] S6、利用貝葉斯生成模型對(duì)用戶情感進(jìn)行建模:對(duì)于每條獨(dú)立記錄,其中性詞語(yǔ) 計(jì)算得到的情感得分可以反映人們潛在的情感狀態(tài),其顯式的情感表達(dá)之前已經(jīng)由情感極 性分?jǐn)?shù)及其所對(duì)應(yīng)的概率計(jì)算得到。利用貝葉斯生成模型對(duì)其進(jìn)行建模得到 P (Sm | T,) = E P (Sm | M,) P (M^J Tf),其中Mf表示用戶潛在的情感狀態(tài),也是本專利所關(guān)心的 主要變量,其代表著用戶在外在情感表達(dá)下與該表達(dá)主題、對(duì)象和其他外界條件無(wú)關(guān),而只 反映用戶當(dāng)時(shí)隱含情感狀態(tài)的變量。該變量為隱含變量,設(shè)情感分為I:個(gè)煒度,則 1={1,2, 3,;若結(jié)合心理學(xué)中將人的基本情感設(shè)為六類的研究結(jié)論,則設(shè)情感分為 六個(gè)維度,即1>6(運(yùn)[1,6],且運(yùn)雙勹。
[0057] S7、利用最大期望算法(EM算法)對(duì)用戶情感隱含變量進(jìn)行求解:利用EM迭代算法, 設(shè)~為隱含變量,p^lh)為已知量,P(SjMp和P(M f|Tf)為待求量進(jìn)行迭代運(yùn)算,最終計(jì) 算得到的P (Sj 則表示每一種情感狀態(tài)下所對(duì)應(yīng)的正、中性、負(fù)極性情感表達(dá)對(duì)應(yīng)的概 率值分布及組合。
[0058]以上內(nèi)容是結(jié)合具體的優(yōu)選實(shí)施方式對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說(shuō)明,不能認(rèn)定 本發(fā)明的具體實(shí)施只局限于這些說(shuō)明。對(duì)于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在 不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干簡(jiǎn)單推演或替換,都應(yīng)當(dāng)視為屬于本發(fā)明由 所提交的權(quán)利要求書(shū)確定的專利保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種社交網(wǎng)絡(luò)用戶情緒判別方法,其特征是,包括如下步驟: 51、 構(gòu)建情感詞典,其中,所述情感詞典包含多個(gè)情感詞語(yǔ),每個(gè)情感詞語(yǔ)具有表示情 感極性強(qiáng)度的分?jǐn)?shù); 52、 構(gòu)建中性詞典,其中,所述中性詞詞典包含多個(gè)中性詞,所述中性詞為在用戶的社 交文本中出現(xiàn)的名詞,每個(gè)中性詞的總體情感得分在設(shè)定區(qū)間內(nèi); 53、 在待處理用戶社交文本Ti中提取所述中性詞典中出現(xiàn)的中性詞,并抽取與所述中性 詞最近的形容詞,若所述形容詞在所述情感詞典中屬于正極性詞語(yǔ),則將所述用戶社交文 本的正極性情感得分Scm的值加1,若所述形容詞在所述情感詞典中屬于負(fù)極性詞語(yǔ),則將 所述用戶社交文本的負(fù)極性情感得分Scr l3的值加1,若所述形容詞在所述情感詞典中屬于 中性極性詞語(yǔ),則將所述用戶社交文本的中性極性情感得分Scr i2的值加1; 54、 計(jì)算待處理用戶社交文本Ti下對(duì)應(yīng)的情感極性條件概率P(Sm I Ti): P(Sm I Ti) = Scrim/(Scm+Scri2+Scri3)其中,m取 1、2和3,S1,S2和S3分別對(duì)應(yīng)正極性情感、 中性情感、負(fù)極性情感; 55、 對(duì)=為待求量進(jìn)行迭代 運(yùn)算,最終計(jì)算P(SmIMi);其中,表示用戶潛在的情感狀態(tài),P(SjMi)表示每一種情感 狀態(tài)?下所對(duì)應(yīng)的極性情感m對(duì)應(yīng)的概率值分布,P iMiJ Ti)表示用戶社交文本Tl下所對(duì)應(yīng)的 情感狀態(tài)?的概率值分布。2. 如權(quán)利要求1所述的社交網(wǎng)絡(luò)用戶情緒判別方法,其特征是,所述構(gòu)建情感詞典包括 如下步驟: 511、 對(duì)于社交網(wǎng)絡(luò)全網(wǎng)絡(luò)用戶的文本,提取文本中的形容詞和副詞放入潛在情感詞典 集合; 512、 以已知公開(kāi)情感詞典作為基礎(chǔ),對(duì)所述潛在情感詞典集合中的所有詞語(yǔ)打上對(duì)應(yīng) 的表示情感極性強(qiáng)度的分?jǐn)?shù)。3. 如權(quán)利要求2所述的社交網(wǎng)絡(luò)用戶情緒判別方法,其特征是,所述構(gòu)建情感詞典還包 括如下步驟: 513、 對(duì)于所述潛在情感詞典集合中的不屬于所述已知公開(kāi)情感詞典中的詞語(yǔ),采用詞 語(yǔ)學(xué)習(xí)算法對(duì)對(duì)應(yīng)的詞語(yǔ)打上對(duì)應(yīng)的表示情感極性強(qiáng)度的分?jǐn)?shù)。4. 如權(quán)利要求1所述的社交網(wǎng)絡(luò)用戶情緒判別方法,其特征是,每個(gè)用戶具有自身的中 性詞典,所述構(gòu)建中性詞典包括如下步驟: 521、 對(duì)于用戶的第i條獨(dú)立文本T沖的名詞Ν?€進(jìn)行抽?。? 522、 抽取名詞附近與所述名詞^^最近且距離不超過(guò)閾值L的形容詞或副詞若 Atf在所述情感詞典中則構(gòu)成詞對(duì)<^^, 523、 對(duì)用戶在整個(gè)時(shí)間軸上的詞對(duì)中每個(gè)~的對(duì)應(yīng)的情感詞語(yǔ)~的情感 極性強(qiáng)度的分?jǐn)?shù)進(jìn)行統(tǒng)計(jì),并計(jì)算對(duì)應(yīng)的總體情感得分SeTz:其中,Scrlk表示~的情感極性強(qiáng)度的分?jǐn)?shù),中η為極性因子,若.是正極性詞語(yǔ)^= !, 若、是中性極性詞語(yǔ)^1 = 〇,若~(yú)是負(fù)極性詞語(yǔ)n = -i; S24、將總體情感得分區(qū)間的詞語(yǔ)定義為中性詞,其中£為參數(shù)。5. 如權(quán)利要求4所述的社交網(wǎng)絡(luò)用戶情緒判別方法,其特征是, εΕ (-0.8,0.8)〇6. 如權(quán)利要求4所述的社交網(wǎng)絡(luò)用戶情緒判別方法,其特征是, 若有兩個(gè)最近距離的形容詞或副詞則將名詞前面的形容詞或副詞\€計(jì)入詞對(duì)7. 如權(quán)利要求4所述的社交網(wǎng)絡(luò)用戶情緒判別方法,其特征是, 取1、2、3、4、5、6,表示人的六類基本情感狀態(tài)。8. 如權(quán)利要求1所述的社交網(wǎng)絡(luò)用戶情緒判別方法,其特征是,在步驟Sl之前還包括用 戶數(shù)據(jù)采集步驟: 通過(guò)社交網(wǎng)絡(luò)公共API收集一定量的用戶ID名稱; 根據(jù)用戶ID名稱收集用戶公開(kāi)資料信息以及社交網(wǎng)絡(luò)統(tǒng)計(jì)信息; 根據(jù)所述信息對(duì)已經(jīng)收集的用戶進(jìn)行篩選; 從篩選的用戶中采集用戶所有文本記錄及相應(yīng)標(biāo)簽信息。9. 如權(quán)利要求1所述的社交網(wǎng)絡(luò)用戶情緒判別方法,其特征是,在步驟Sl之前還包括用 戶數(shù)據(jù)預(yù)處理步驟。
【文檔編號(hào)】G06F17/30GK105893582SQ201610204531
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2016年4月1日
【發(fā)明人】楊余久, 金舟, 邵航, 黃旭
【申請(qǐng)人】深圳市未來(lái)媒體技術(shù)研究院, 清華大學(xué)深圳研究生院