本發(fā)明實施方式涉及情感分析技術領域,更具體地,涉及一種對用戶評價進行情感分析的方法和裝置。
背景技術:隨著計算機技術和網(wǎng)絡技術的飛速發(fā)展,互聯(lián)網(wǎng)(Internet)在人們的日常生活、學習和工作中發(fā)揮的作用也越來越大。而且,隨著移動互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)也在向移動化發(fā)展。用戶通常會在互聯(lián)網(wǎng)上對各種新聞、產品或服務等做出自己的主觀評論。對產品的評價通常帶有豐富的情感色彩和主觀性,對這些評論中的用戶情感進行分析,是實現(xiàn)智能和情景搜索的一個重要維度。比如:用戶對iPhone的評價“外觀很美用起來舒服”,表達了用戶對iPhone產品的好評;用戶評價“經常死機,質量太差了”,表達了用戶對iPhone產品的差評;用戶評價“差不多吧,沒啥明顯的特點,用著還可以”,表達了用戶對產品的中評。情感分析在當今互聯(lián)網(wǎng)的各種產品中,起著越來越重要的作用。例如:隨著SNS尤其微博的發(fā)展,很多企業(yè)的微博上進行產品推廣和用戶反饋收集。那么對這些用戶反饋的自動情感分析,將有助于商家對產品的改進。另外,互聯(lián)網(wǎng)輿論監(jiān)控和輿情控制越來越重要,例如在熱門敏感的新聞,微博事件中,用戶的評論是否違反了相關法律,是否不利社會和諧,通過相應算法的自動情感分析和輿情監(jiān)測,能有效地實現(xiàn)網(wǎng)絡輿論的監(jiān)管。在現(xiàn)有技術中,在產品的評論頁面直接分類出好評、中評和差評,讓用戶按類型進行填寫。然而,在這種方式中,用戶在填寫評論時,大多數(shù)不認真填寫,填寫的好評、中評、差評很多是應付性質的語句,并不是真實的使用感受,對產品改進價值有限,甚至會引入改進誤區(qū)。同時,商家也有可能刪除差評,給用戶錯誤的引導,造成很多作弊的機會。在另外一種技術中,由專門人工編輯團隊進行用戶評價情感分析和篩選。然而在這種基于人工編輯的審閱方式中,一方面審核量大、無法實時處理,尤其熱門敏感的新聞,耗費人力多;另一方面人工編輯帶有強烈的主觀色彩,情感分析結果的準確度不高。
技術實現(xiàn)要素:本發(fā)明實施方式提出一種對用戶評價進行情感分析的方法,以提高情感分析結果的準確度。本發(fā)明實施方式還提出一種對用戶評價進行情感分析的裝置,以提高情感分析結果的準確度。本發(fā)明實施方式的具體方案如下:一種對用戶評價進行情感分析的方法,該方法包括:按照領域對用戶評價文本進行劃分,得到領域劃分結果;基于所述領域劃分結果,對用戶評價文本進行建模,得到建模結果;基于所述建模結果,分別對用戶評價文本進行通用情感分析和領域情感分析,以得到通用情感分析結果和領域情感分析結果;綜合所述通用情感分析結果和領域情感分析結果,得到用戶評價情感分析結果。一種對用戶評價進行情感分析的裝置,該裝置包括領域劃分單元、文本建模單元、通用情感分析單元、領域情感分析單元和用戶評價情感分析單元,其中:領域劃分單元,用于按照領域對用戶評價文本進行劃分,得到領域劃分結果;文本建模單元,用于基于所述領域劃分結果,對用戶評價文本進行建模,得到建模結果;通用情感分析單元,用于基于所述建模結果對用戶評價文本進行通用情感分析,以得到通用情感分析結果;領域情感分析單元,用于基于所述建模結果對用戶評價文本進行領域情感分析,以得到領域情感分析結果;用戶評價情感分析單元,用于綜合所述通用情感分析結果和領域情感分析結果,得到用戶評價情感分析結果。從上述技術方案可以看出,在本發(fā)明實施方式中,按照領域對用戶評價文本進行劃分,得到領域劃分結果;基于領域劃分結果,對用戶評價文本進行建模,得到建模結果;基于建模結果,分別對用戶評價文本進行通用情感分析和領域情感分析,以得到通用情感分析結果和領域情感分析結果;綜合通用情感分析結果和領域情感分析結果,得到用戶評價情感分析結果。由此可見,應用本發(fā)明實施方式以后,實現(xiàn)了對用戶評價文本進行自動情感分析,綜合了用戶短文本的領域劃分以及結合了通用情感分析和領域情感分析,實現(xiàn)了高精度的自動情感分析,提高了情感分析結果的準確度。附圖說明圖1為根據(jù)本發(fā)明實施方式的對用戶評價進行情感分析的方法流程圖;圖2為根據(jù)本發(fā)明實施方式的領域劃分流程圖;圖3為根據(jù)本發(fā)明實施方式的基于二元搭配模型擴展特征詞示意圖;圖4為根據(jù)本發(fā)明實施方式基于關聯(lián)詞圖模型擴展特征詞示意圖;圖5為根據(jù)本發(fā)明實施方式通用情感分析流程圖;圖6為根據(jù)本發(fā)明實施方式句子的語義分析結果圖;圖7為根據(jù)本發(fā)明實施方式領域物品的屬性詞和情感詞示例關系圖模型示意圖;圖8為根據(jù)本發(fā)明實施方式用戶評價文本情感分析結果圖;圖9為根據(jù)本發(fā)明實施方式對用戶評價進行情感分析的裝置結構圖。具體實施方式為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面結合附圖對本發(fā)明作進一步的詳細描述。在本發(fā)明實施方式中,從自然語言處理和機器學習算法方面,對現(xiàn)有實現(xiàn)方案進行改進。在一個實施方式中,本發(fā)明實施方式可以包括幾個步驟:1.領域劃分:先對用戶評論文本進行領域劃分,劃分為手機、汽車,美食等垂直領域,便于精準建立領域的情感分析模型。2.文本建模:抽取用戶評論文本中主體,抽取主體對應的各種屬性,抽取屬性描述情感詞,并抽取語義轉換詞,形成情感信息的描述結構。3.執(zhí)行通用情感分析:基于Bayes概率模型,通過評論的情感概率分布和語義轉換分布,實現(xiàn)通用情感分析。4.執(zhí)行領域情感分析:為了進一步提高精度,在不同領域,根據(jù)領域特性和主體-屬性的搭配和評價的關系圖網(wǎng)絡算法,優(yōu)化分析效果。5.情感傾向輸出:綜合通用情感分析和領域情感分析的結果,輸出單一評論的情感角度,以及產品的批量用戶評價的情感類型統(tǒng)計報告輸出。圖1為根據(jù)本發(fā)明實施方式的對用戶評價進行情感分析的方法流程圖。如圖1所示,該方法包括:步驟101:按照領域對用戶評價文本進行劃分,得到領域劃分結果。步驟102:基于領域劃分結果,對用戶評價文本進行建模,得到建模結果。步驟103:基于建模結果,分別對用戶評價文本進行通用情感分析和領域情感分析,以得到通用情感分析結果和領域情感分析結果。步驟104:綜合通用情感分析結果和領域情感分析結果,得到用戶評價情感分析結果。在一個實施方式中,按照領域對用戶評價文本進行劃分具體可以包括:對用戶評價文本進行詞法分析,并提取用戶評價文本的特征,以得到用戶評價文本的特征向量;基于用戶評價文本的特征向量,采用概率投票方式并結合貝葉斯算法對所述用戶評價文本進行領域劃分。在一個實施方式中,所述基于所述領域劃分結果,對用戶評價文本進行建模具體可以包括:從4個維度對用戶評價文本進行結構化信息抽取,以得到該4個維度的信息結構向量;其中所述4個維度包括:通用情感詞、基于所述領域劃分結果所確定的領域情感詞、語氣變化詞和對象-屬性詞。在一個實施方式中,基于建模結果,對用戶評價文本進行通用情感分析具體可以包括:對用戶評價文本進行分句;根據(jù)建模結果中的通用情感詞和語氣變化詞,對每個句子進行通用情感分析;綜合各個句子的通用情感分析結果,得到用戶評價文本的通用情感分析結果。在一個實施方式中,基于建模結果,對用戶評價文本進行領域情感分析具體可以包括:根據(jù)建模結果中基于所述領域劃分結果所確定的領域情感詞和對象-屬性詞,對用戶評價文本進行領域情感分析。下面結合具體實例,對本發(fā)明實施方式的算法進行更詳細的說明。在對用戶評價文本進行自動情感分析時,其中一個難點就是語言的表達問題。在不同領域、場景中,表達用戶情感的詞匯和方式可能會有不同。例如:對“衣服”的好評“穿著舒服”,對“筆記本”的好評“速度很快”,對“新聞事件”的好評“真是好人啊,可歌可泣”。這樣,在進行基于語義理解進行情感建模時,為了保證很高的準確率,需要對不同領域進行相應特征提取和建模。因此,本發(fā)明實施方式首先對用戶評價文本進行領域劃分。圖2為根據(jù)本發(fā)明實施方式領域劃分流程圖。如圖2所示,該方法包括:步驟201:輸入用戶評價文本。步驟202:對用戶評價文本進行詞法分析。在這里,詞法分析主要包括評價文本進行分詞和實體識別。步驟203:領域詞提取。在這里,主要包括提取表征待分類領域的特征詞,比如產品詞匯、屬性詞匯等。對提取的特征詞,建立評價內容的基本特征向量,比如可以表示為:FVecbase={wd1,wd2,...,wdn};其中,F(xiàn)Vecbase表示抽取好的特征詞的基本特征向量;wd1到wdn分別表示對應的特征詞。步驟204:對用戶評價文本按照領域進行分類。跟傳統(tǒng)媒體文本分類相比,對互聯(lián)網(wǎng)上的用戶評價文本進行分類難點在于:互聯(lián)網(wǎng)上的用戶評價文本具有較多的口語化詞匯,并且文本很短,信息表達不充分。本發(fā)明實施方式提出一種特征擴展的方法,來解決該問題。首先,基于二元搭配(BiClc)進行擴展。對詞法分析的結果,抽取語義相關、語序固定、并且文本距離在指定窗口范圍內的詞匯搭配,作為特征詞。圖3為根據(jù)本發(fā)明實施方式的基于二元搭配模型擴展特征詞示意圖。比如:詞法分析結果如圖3所示,抽取到的二元搭配特征詞集合是“蘋果速度”和“速度很快”。該特征向量表示為:FVecBiClc={Bi1,Bi2,...,Bin}。其中FVecBiClc表示搭配詞構成的特征向量;Bi1...Bin表示對應的搭配詞特征。另外,再基于語義關聯(lián)詞(SenAss)進行特征擴展。具體擴展步驟包括:先對每個特征詞,通過語義擴展方法,得到關聯(lián)詞;然后,取多個特征詞的公共關聯(lián)詞作為擴展特征集合。圖4為根據(jù)本發(fā)明實施方式基于關聯(lián)詞圖模型擴展特征詞示意圖。如圖4的關聯(lián)詞圖模型中,取入度超過一定閾值的關聯(lián)詞作為特征詞,如“手機”,“性能”。該特征向量表示為:FVecSenAss={Sen1,Sen2,...,Senn};其中FVec表示關聯(lián)詞構成的特征向量,Sen1...Senn分別表示對應的關聯(lián)詞特征。對用戶評價文本進行特征提取和擴展后,得到表示文本的特征向量。接下來,采用改進的Bayes概率投票分類器(Voted-Bayes)進行領域分類。跟傳統(tǒng)Bayes算法相比,本發(fā)明實施方式通過概率投票的方式,結合Bayes算法和特征詞算法,實現(xiàn)了一種適用于短文本的用戶數(shù)據(jù)(UGC)的分類算法。在該算法中:首先,訓練分類Bayes模型。對每個特征詞和擴展特征詞,作為一個獨立Term,計算每個term與各個領域的Bayes后驗概率。為了優(yōu)化數(shù)據(jù)不均衡引起的分類偏差,這里假設各類別先驗符合均勻分布。并進行歸一化后,得到相應后驗概率為其中Ci表示第i個類別,term表示一個特征詞,P(ci/term)表示該term屬于類別Ci的概率,P(term/ci)表示類別Ci中該term出現(xiàn)的概率。然后,對當前用戶評價內容(Doc),進行特征提取擴展后得到FVecBase,F(xiàn)VecBiClc,F(xiàn)VecSenAss;實現(xiàn)概率投票模型。第一步,計算基本特征的概率投票分類結果。取后驗概率超過一定閾值的特征詞參與投票,并進行頻次的加強,得到:其中Tf表示term在文檔doc中出現(xiàn)頻次這樣,歸一化后,就得到基于基本特征的領域概率:第二步,對兩種擴展特征,建立概率投票模型。跟基本特征相比,擴展特征的模型中,引入了關聯(lián)詞和文本中原詞的語義相關度,這樣可以避免由于擴展過度,導致主題漂移,分類不準確的問題。具體計算方法如下:其中,Relation(termj,wdx)是當前擴展詞和對應原詞的相關度。綜合上述特征的計算結果,綜合得到最后的領域分類結果為:P(ci/doc)=α*PBase(ci/doc)+β*PBiClc(ci/doc)+(1-α-β)*PSenAss(ci/doc);這樣,該評價內容所屬領域類型為:ci=Argmax(P(ci/doc))步驟205:輸出領域類型。至此,詳細描述了根據(jù)本發(fā)明實施方式的領域劃分步驟。下面對用戶評價文本進行建模進行詳細說明。對用戶評價文本進行建模包括從文本中抽取結構化信息。本發(fā)明實施方式可以從4個維度進行結構化信息的抽取,包括:通用情感詞,領域情感詞,語氣變化詞,對象-屬性詞。通用情感詞:在各個領域、場景,都表達明確情感類型的詞。例如:不錯,喜歡,太爛了,一般,反對等。領域情感詞:在對應領域,描述領域產品、對象情感類型的詞。例如:“手機”領域有“正品,反應慢,上網(wǎng)快”,“汽車”領域有“油耗少,耐撞”等。語氣變化詞:表示語氣轉折、否定等語氣變化的詞匯。例如:不,但是,不過,很等。對象-屬性詞:描述對象和其屬性特征的詞匯。例如:“手機”對象,屬性“外觀,信號,操作系統(tǒng)”等。情感分析就是要確定用戶情感類型,可以將情感類型預先定義為3類:好,表示褒義;中,表示中立;差,表示貶義。這樣,情感向量表示為:EmotVec={g,c,b},其中:g表示好,c表示中,b表示差。在本發(fā)明實施方式中,對用戶評價內容進行信息抽取,可以得到4個維度的信息結構向量,分別表示為InfoVecCom,InfoVecDomain,InfoVecTone,InfoVecProp。其中:InfoVecCom表示通用的信息結構向量;InfoVecDomain表示領域的信息結構向量;InfoVecTone表示語氣的信息結構向量;InfoVecProp表示屬性的信息結構向量。其中,每個情感詞需要賦予屬于各個情感類型的概率EmotProbInvoVec×EmotVec。每個語氣詞賦予語氣程度ToneProbterm∈{-1,1},正值表示語氣加強,負值表示語氣反轉。下面再對圖1的步驟103中通用情感分析的詳細過程進行說明。通用情感分析,就是實現(xiàn)一個基礎的情感模型和方案,對各個領域都適用,并得到用戶評價的基礎情感類型。本發(fā)明實施方式可以采用基于情感概率模型算法,綜合情感模型和語氣模型,來計算用戶評價的基礎情感類型。圖5為根據(jù)本發(fā)明實施方式通用情感分析流程圖。如圖5所示,首先把用戶輸入的用戶評價文本進行分句,然后對每個句子進行情感計算,最后整合所有句子的計算結果,以得到整個評價內容的情感類型。其中,對每個句子進行情感建模是該領域的難點,下面進行詳細闡述。第一步,首先對每個句子進行語義分析,得到句子主體、情感描述、語氣描述部分,以及語義依賴關系。圖6為根據(jù)本發(fā)明實施方式句子的語義分析結果圖。第二步,對每個句子中,跟評價主體語義相關的情感詞(EmotWdk),建立概率情感模型。基于獨立性假設,得到每個句子(Senti)對應各種情感類型(Emotj),并進行歸一化得到相應概率,如下:第三步,對句中語氣變化詞(ToneWdk),建立相應的語氣模型。用戶在描述對一件事物的情感時,往往會增加一些語氣詞進行情感加強、反轉、削弱等。例如:“這個蘋果很好吃”,通過“很”對褒義情感進行加強;“這個蘋果不好吃”,通過“不”把褒義反轉成貶義;“這個蘋果不怎么好吃”,通過“不怎么”把褒義反轉貶義后,又進行了語氣削弱?;谡Z言的這種變化,建立如下概率模型:最后,對整個評價的所有句子分析結果,綜合情感建模和語氣建模,進行基礎情感類型計算。通過直接情感和語氣的變化分布,得到最后的結果為:其中,λi是對每個句子的調權系數(shù)。通過上述建模方法,就得到用戶評價文本的基本情感類型Emotj為:Emotj=Argmax(EmotBase(Emotj))概率最大的類型即為最后結果,相應置信度為EmotBase(Emotj)。通用情感模型的不足是:沒有充分使用不同領域中,對事物評價采用不同表達方式的豐富信息。同時,領域的用戶評價,有時沒有明顯的情感詞,需要進行語義層面的分析,才能理解用戶的情感類型,例如:“iphone的電池很持久”。這樣,就需要建立一個領域的情感模型,對事物的不同領域屬性,進行深入語義挖掘,計算其情感類型。下面對領域情感分析的詳細步驟進行說明。在領域情感分析中,按照文本建模的結果,抽取描述對象的領域屬性,對應的領域情感詞和語氣詞,得到InfoVecCom,InfoVecDomain,InfoVecTone,InfoVecProp這些信息向量。領域中對物品的不同屬性,采用不同的評價詞匯以表達相應的情感類型。因此,對屬性詞和情感領域詞建立一個語義描述關系的圖模型(GraphicModel),從而用戶能夠更精準、從語義層次挖掘評價內容的情感。優(yōu)選地,對物品的每個屬性詞(PropWdk),對描述該屬性的不同領域情感詞匯(DEmotWdk)進行融合,建立相應的情感模型。例如:描述“智能手機”的模型中,“結實”是描述“觸屏”的褒義詞匯;“耐用”是描述“觸屏”和“電池”的褒義詞匯。對每個屬性的描述詞有很多,綜合得到該屬性評價內容的情感類型:其中:Degree(PropWdk)表示圖模型中對應屬性詞的度。得到物品各個屬性的情感類型后,進行綜合就可以得到,從各個屬性角度進行評價,整體的情感類型。其中,Score(PropWdk)表示對應屬性的重要性指標,滿足歸一化條件經過上述對領域屬性進行拆解分析,然后合并的方法,就從領域性和語義層面得到用戶評價的情感類型。就得到評價內容的最終領域情感類型Emotj為:Emotj=Argmax(EmotDomain(Emotj))概率最大的類型即為最后結果,相應置信度為EmotDomain(Emotj)。然后,就可以綜合通用情感分析結果和領域情感分析結果,得到用戶評價情感分析結果。本發(fā)明實施方式結合通用情感和領域情感兩方面進行評價,得到整個評價內容的情感類型如下:Emotj=Argmax(λ*EmotBase(Emotj)+(1-λ)*EmotDomain(Emotj))圖8為根據(jù)本發(fā)明實施方式用戶評價文本情感分析結果圖。如圖8所示,應用本發(fā)明實施方式之后,就可以從兩個維度對用戶評價進行情感分析。第一個維度,直接對評價進行分析,得到情感類型。例如:“諾基亞電池不耐用,反應太慢了,并且,價格還貴”,表達用戶對“諾基亞”產品的貶義情感,即差評。第二個維度,可以對一個產品的批量評價進行分析,得到該產品的用戶反饋統(tǒng)計數(shù)據(jù)。例如對“諾基亞”相關所以微博評論數(shù)據(jù)的情感分析結果為基于上述詳細分析,本發(fā)明實施方式還提出了一種對用戶評價進行情感分析的裝置。圖9為根據(jù)本發(fā)明實施方式對用戶評價進行情感分析的裝置結構圖。如圖9所示,該裝置包括:領域劃分單元901、文本建模單元902、通用情感分析單元903、領域情感分析單元904和用戶評價情感分析單元905,其中:領域劃分單元901,用于按照領域對用戶評價文本進行劃分,得到領域劃分結果;文本建模單元902,用于基于所述領域劃分結果,對用戶評價文本進行建模,得到建模結果;通用情感分析單元903,用于基于所述建模結果對用戶評價文本進行通用情感分析,以得到通用情感分析結果;領域情感分析單元904,用于基于所述建模結果對用戶評價文本進行領域情感分析,以得到領域情感分析結果;用戶評價情感分析單元,用于綜合所述通用情感分析結果和領域情感分析結果,得到用戶評價情感分析結果。在一個實施方式中,領域劃分單元901,用于對用戶評價文本進行詞法分析,并提取用戶評價文本的特征,以得到用戶評價文本的特征向量;并基于所述用戶評價文本的特征向量,采用概率投票方式并結合貝葉斯算法對所述用戶評價文本進行領域劃分。在另一個實施方式中,文本建模單元902,用于從4個維度對用戶評價文本進行結構化信息抽取,以得到所述4個維度的信息結構向量;其中所述4個維度包括:通用情感詞、基于所述領域劃分結果所確定的領域情感詞、語氣變化詞和對象-屬性詞。在另一個實施方式中,通用情感分析單元904,用于對用戶評價文本進行分句;根據(jù)所述建模結果中的通用情感詞和語氣變化詞,對每個句子進行通用情感分析;并綜合各個句子的通用情感分析結果,得到用戶評價文本的通用情感分析結果。在另一個實施方式中,領域情感分析單元904,用于根據(jù)所述建模結果中基于所述領域劃分結果所確定的領域情感詞和對象-屬性詞,對用戶評價文本進行領域情感分析。綜上所述,在本發(fā)明實施方式中,按照領域對用戶評價文本進行劃分,得到領域劃分結果;基于領域劃分結果,對用戶評價文本進行建模,得到建模結果;基于建模結果,分別對用戶評價文本進行通用情感分析和領域情感分析,以得到通用情感分析結果和領域情感分析結果;最后綜合通用情感分析結果和領域情感分析結果,得到用戶評價情感分析結果。由此可見,應用本發(fā)明實施方式以后,實現(xiàn)了對用戶評價文本進行自動情感分析,綜合了用戶短文本的領域劃分以及結合了通用情感分析和領域情感分析,實現(xiàn)了高精度的自動情感分析,提高了情感分析結果的準確度。而且,本發(fā)明實施方式可以應用中在情景搜索中,以作為實現(xiàn)智能搜索引擎的一個重要技術。用戶想購買產品,查詢產品用戶評價時,可以通過本發(fā)明實施方式的自動情感分析方法,實現(xiàn)結果的智能分析和展示。另外,本發(fā)明還能夠應用在內容廣告系統(tǒng)中,結合關鍵詞匹配技術和情感分析技術,提高廣告推薦的精準度。例如,用戶內容表示對某個產品的貶義和厭惡,則不應該推薦該產品廣告給用戶。這樣,可以極大提高用戶體驗和CTR。不僅與此,本發(fā)明實施方式在輿情分析和輿論監(jiān)控中都可以有著重要的應用。將本發(fā)明實施方式的自動情感分析技術應用在新聞評論、博客、微博等SNS產品中,進行輿情的監(jiān)控,能有助產品的健康發(fā)展和社會和諧。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。