本發(fā)明涉及情感分析及自然語(yǔ)言處理
技術(shù)領(lǐng)域:
,具體涉及一種基于深度學(xué)習(xí)的評(píng)論詞情感分析方法及系統(tǒng)。
背景技術(shù):
:在互聯(lián)網(wǎng)日益發(fā)達(dá)的今天,許多用戶(hù)不管是通過(guò)電商網(wǎng)站或者線(xiàn)下門(mén)店購(gòu)買(mǎi)商品后,包括買(mǎi)車(chē)、買(mǎi)手機(jī),都會(huì)到品牌官網(wǎng)或者一些專(zhuān)業(yè)網(wǎng)站、社交媒體去發(fā)表對(duì)產(chǎn)品的評(píng)價(jià)。對(duì)于買(mǎi)家來(lái)說(shuō),評(píng)論是了解一款產(chǎn)品真實(shí)情況的重要途徑。對(duì)于商家而言,評(píng)論則是了解客戶(hù)反饋、了解產(chǎn)品優(yōu)勢(shì)和潛在問(wèn)題的第一手渠道。因此,對(duì)評(píng)論數(shù)據(jù)的挖掘分析目前有著相當(dāng)大的市場(chǎng)需求。判斷評(píng)論的情感傾向,即一個(gè)評(píng)論文本是表達(dá)正面情感還是負(fù)面情感,是評(píng)論分析的核心。當(dāng)下業(yè)界最熱門(mén)的情感分析方法,主要是基于深度學(xué)習(xí)技術(shù)。深度學(xué)習(xí)無(wú)需特征工程,也就不需要使用傳統(tǒng)方法經(jīng)常用到的情感詞典。但不使用情感詞典也存在弊端,相當(dāng)于弱化了情感詞表達(dá)的傾向信息。尤其在處理較為專(zhuān)業(yè)的垂直領(lǐng)域評(píng)論文本的情感分析時(shí),會(huì)導(dǎo)致準(zhǔn)確率不高。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是提高評(píng)論文本的情感分析的準(zhǔn)確率。為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于深度學(xué)習(xí)的評(píng)論詞情感分析方法,包括如下步驟:接收待評(píng)論文本,將待評(píng)論文本進(jìn)行分詞,得到詞語(yǔ)序列;利用詞向量生成模型將詞語(yǔ)序列轉(zhuǎn)換為對(duì)應(yīng)的詞向量序列;根據(jù)領(lǐng)域情感詞典判斷詞語(yǔ)序列是否包括情感傾詞,根據(jù)情感傾向詞得到其對(duì)應(yīng)的擴(kuò)展向量,將擴(kuò)展向量添加至詞向量序列;將添加擴(kuò)展詞向量的詞向量序列輸入至情感判斷模型,輸出判斷結(jié)果。進(jìn)一步,所述利用詞向量生成模型將詞語(yǔ)序列轉(zhuǎn)換為對(duì)應(yīng)的詞向量序列之前包括獲取詞向量訓(xùn)練文本;將詞向量訓(xùn)練文本輸入詞向量模型進(jìn)行訓(xùn)練,得到詞向量生成模型。進(jìn)一步,所述將添加擴(kuò)展詞向量的詞向量序列輸入至情感判斷模型之前包括構(gòu)建情感分析模型;利用情感傾向詞對(duì)情感分析模型進(jìn)行訓(xùn)練,得到情感判斷模型。進(jìn)一步,所述根據(jù)領(lǐng)域情感詞典判斷詞語(yǔ)序列是否包括情感傾詞,根據(jù)情感傾向詞得到其對(duì)應(yīng)的擴(kuò)展向量,將擴(kuò)展向量添加至詞向量序列包括構(gòu)建領(lǐng)域情感詞典;提取不同領(lǐng)域情感詞典中的情感傾向詞,根據(jù)情感傾向詞類(lèi)型生成情感傾向詞典,其中,情感傾向詞典包括正面情感詞典、負(fù)面情感詞典、程度詞典和否定詞典。進(jìn)一步,情感判斷模型為基于lstm的模型。本發(fā)明還提供了一種基于深度學(xué)習(xí)的評(píng)論詞情感分析系統(tǒng),包括評(píng)論分詞模塊,用于接收待評(píng)論文本,將待評(píng)論文本進(jìn)行分詞,得到詞語(yǔ)序列;向量生成模塊,用于利用詞向量生成模型將詞語(yǔ)序列轉(zhuǎn)換為對(duì)應(yīng)的詞向量序列;向量擴(kuò)展模塊,用于根據(jù)領(lǐng)域情感詞典判斷詞語(yǔ)序列是否包括情感傾詞,根據(jù)情感傾向詞得到其對(duì)應(yīng)的擴(kuò)展向量,將擴(kuò)展向量添加至詞向量序列;情感判斷模塊,用于將添加擴(kuò)展詞向量的詞向量序列輸入至情感判斷模型,輸出判斷結(jié)果。進(jìn)一步,向量生成模塊包括訓(xùn)練準(zhǔn)備單元,用于獲取詞向量訓(xùn)練文本;向量生成單元,用于將詞向量訓(xùn)練文本輸入詞向量模型進(jìn)行訓(xùn)練,得到詞向量生成模型。進(jìn)一步,情感判斷模塊包括模型構(gòu)建單元,用于構(gòu)建情感分析模型;模型訓(xùn)練單元,用于利用情感傾向詞對(duì)情感分析模型進(jìn)行訓(xùn)練,得到情感判斷模型。進(jìn)一步,向量擴(kuò)展模塊包括詞典構(gòu)建單元,用于構(gòu)建領(lǐng)域情感詞典;特征提取單元,用于提取不同領(lǐng)域情感詞典中的情感傾向詞,根據(jù)情感傾向詞類(lèi)型生成情感傾向詞典,其中,情感傾向詞典包括正面情感詞典、負(fù)面情感詞典、程度詞典和否定詞典。在上述技術(shù)方案中,本發(fā)明基于領(lǐng)域情感詞典對(duì)傳統(tǒng)的詞向量進(jìn)行擴(kuò)展,增強(qiáng)了領(lǐng)域情感詞的信息強(qiáng)度,能夠精確識(shí)別在特定領(lǐng)域中才具有情感傾向,有效提高了情感傾向分析的準(zhǔn)確性。附圖說(shuō)明為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明所述的基于深度學(xué)習(xí)的評(píng)論詞情感分析方法一個(gè)實(shí)施例的流程示意圖;圖2為本發(fā)明基于深度學(xué)習(xí)的評(píng)論詞情感分析方法中獲取評(píng)論文本的一個(gè)來(lái)源效果示意圖;圖3為本發(fā)明所述的基于深度學(xué)習(xí)的評(píng)論詞情感分析方法中詞向量生成模型一個(gè)實(shí)施例的模型工作原理流程示意圖;圖4為本發(fā)明所述的基于深度學(xué)習(xí)的評(píng)論詞情感分析方法中詞向量生成模型生成的流程示意圖;圖5為本發(fā)明所述的基于深度學(xué)習(xí)的評(píng)論詞情感分析方法中構(gòu)建領(lǐng)域情感詞典并生成情感傾向詞典的流程示意圖;圖6為本發(fā)明所述的基于深度學(xué)習(xí)的評(píng)論詞情感分析方法中生成情感判斷模型的流程示意圖;圖7為本發(fā)明所述的基于深度學(xué)習(xí)的評(píng)論詞情感分析系統(tǒng)一個(gè)實(shí)施例的框圖結(jié)構(gòu)示意圖。具體實(shí)施方式為了使本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明的技術(shù)方案,下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)介紹。如圖1所示,本發(fā)明提供了一種基于深度學(xué)習(xí)的評(píng)論詞情感分析方法,包括如下步驟:s101、接收待評(píng)論文本,將待評(píng)論文本進(jìn)行分詞,得到詞語(yǔ)序列;互聯(lián)網(wǎng)用戶(hù)由單純的“讀”網(wǎng)頁(yè),開(kāi)始向“寫(xiě)”網(wǎng)頁(yè)、“共同建設(shè)”互聯(lián)網(wǎng)發(fā)展,并由被動(dòng)地接收互聯(lián)網(wǎng)信息向主動(dòng)創(chuàng)造互聯(lián)網(wǎng)信息邁進(jìn)。因此,互聯(lián)網(wǎng)上產(chǎn)生了大量的用戶(hù)參與的、對(duì)于諸如人物、事件、產(chǎn)品等有價(jià)值的評(píng)論信息(如影評(píng)、購(gòu)物體會(huì)等),具體在博客上、論壇上、購(gòu)物網(wǎng)站等。具體地如圖2所示,評(píng)論文本來(lái)源于某購(gòu)物網(wǎng)站。由于不同的評(píng)論信息表達(dá)了人們的各種情感色彩和情感傾向性,如喜、怒、哀、樂(lè)和批評(píng)、贊揚(yáng)等。本發(fā)明通過(guò)對(duì)評(píng)論用戶(hù)的評(píng)論信息進(jìn)行分析,判斷該用戶(hù)的的情感傾向,以便潛在的用戶(hù)就可以通過(guò)判斷出的情感傾向了解大眾輿論對(duì)于某一事件或產(chǎn)品的看法。具體地,獲取每一條用戶(hù)評(píng)論文本,對(duì)評(píng)論文本進(jìn)行分詞。具體地,將評(píng)論文本中切分成一個(gè)一個(gè)獨(dú)立的詞語(yǔ),本實(shí)施例中采用序列標(biāo)注模型crf(conditionalrandomfields,條件隨機(jī)場(chǎng))。對(duì)于一個(gè)輸入文本s,經(jīng)過(guò)分詞后變成詞語(yǔ)序列[w(0),w(1),w(2),...,w(n)]。例如,對(duì)于文本“手機(jī)非常大氣”,分詞后變成詞語(yǔ)序列[手機(jī),非常,大氣]。s102、利用詞向量生成模型將詞語(yǔ)序列轉(zhuǎn)換為對(duì)應(yīng)的詞向量序列;本實(shí)施例中詞向量的生成采用業(yè)界廣泛使用的google開(kāi)源工具word2vec。word2vec包含兩個(gè)核心模型,cbow和skip-gram模型,本專(zhuān)利使用cbow模型。假設(shè)已有詞語(yǔ)序列為[w(t-2),w(t-1),w(t),w(t+1),w(t+2)]。cbow模型在已知當(dāng)前詞w(t)的上下文[w(t-2),w(t-1),w(t+1),w(t+2)]的前提下,預(yù)測(cè)當(dāng)前詞w(t),如圖3所示。仍以“手機(jī)非常大氣”,分詞后得到詞語(yǔ)序列[手機(jī),非常,大氣],轉(zhuǎn)換成詞向量序列分別為:手機(jī)[-0.19464609026908875,-1.736345648765564,5.530294418334961,……,-0.5644596219062805,5.328196048736572]非常[1.2123366594314575,-4.543357849121094,2.388725996017456,……,-2.7988338470458984,-5.731011867523193]大氣[0.25000765919685364,0.9191241264343262,-1.1544685363769531,……,-1.028405785560608,-2.958078384399414]進(jìn)一步,如圖4所示,s102之前包括s1021、獲取詞向量訓(xùn)練文本;本發(fā)明中詞向量生成模型包含模型訓(xùn)練和詞向量生成兩個(gè)功能。模型訓(xùn)練即利用一個(gè)文檔集合對(duì)cbow模型進(jìn)行訓(xùn)練。為保證詞匯覆蓋面足夠大和詞向量足夠準(zhǔn)確,本發(fā)明使用從互聯(lián)網(wǎng)上抓取的覆蓋各個(gè)細(xì)分類(lèi)別的1000萬(wàn)條新聞資訊數(shù)據(jù)進(jìn)行模型訓(xùn)練,需要說(shuō)明的是,本發(fā)明中對(duì)詞向量生成模型的訓(xùn)練并不限于新聞資訊數(shù)據(jù),其他數(shù)據(jù),如影評(píng)、售后評(píng)論等均可以。s1022、將詞向量訓(xùn)練文本輸入詞向量模型進(jìn)行訓(xùn)練,得到詞向量生成模型。模型訓(xùn)練完成后,對(duì)于輸入的詞語(yǔ)w,利用模型可以得到對(duì)應(yīng)的詞向量xw=(x1,x2,...,xd),其中,d是向量的維數(shù),本發(fā)明默認(rèn)使用d=128。s103、根據(jù)領(lǐng)域情感詞典判斷詞語(yǔ)序列是否包括情感傾詞,根據(jù)情感傾向詞得到其對(duì)應(yīng)的擴(kuò)展向量,將擴(kuò)展向量添加至詞向量序列;進(jìn)一步,如圖5所示為構(gòu)建領(lǐng)域情感詞典并生成情感傾向詞典的流程示意圖。s1031、構(gòu)建領(lǐng)域情感詞典;領(lǐng)域情感詞典針對(duì)不同領(lǐng)域構(gòu)建,并對(duì)不同領(lǐng)域的情感詞典提取該領(lǐng)域相關(guān)的具有情感傾向的詞語(yǔ),比如針對(duì)手機(jī)領(lǐng)域的情感詞典、針對(duì)汽車(chē)領(lǐng)域的情感詞典等。具體詞典包括正面情感詞典、負(fù)面情感詞典、程度詞典、和否定詞典四大類(lèi),分別以dpos,dneg,dlev,drev表示。s1032、提取不同領(lǐng)域情感詞典中的情感傾向詞,根據(jù)情感傾向詞類(lèi)型生成情感傾向詞典,其中,情感傾向詞典包括正面情感詞典、負(fù)面情感詞典、程度詞典和否定詞典。如表1為情感詞典一個(gè)示例。表1詞典名詞典稱(chēng)情感詞示例正面情感詞典好好用流暢清晰快時(shí)尚喜歡負(fù)面情感詞典卡頓死機(jī)黑屏貶值失望難看程度詞典非常極其很略微絕對(duì)十足太否定詞典不沒(méi)非不夠沒(méi)有無(wú)不是具體地,判斷分詞結(jié)果中的每個(gè)詞語(yǔ)是否屬于某一類(lèi)情感詞,并對(duì)每個(gè)詞向量進(jìn)行擴(kuò)展。具體而言,對(duì)于輸入的詞語(yǔ)w,在判斷分詞結(jié)果中的每個(gè)詞所屬的情感詞后,在s102中生成的詞向量序列中增加4個(gè)維度(即情感維度)擴(kuò)展為xw=(x1,x2,...,xd,xd+1,xd+2,xd+3,xd+4),其中:s104、將添加擴(kuò)展詞向量的詞向量序列輸入至情感判斷模型,輸出判斷結(jié)果。進(jìn)一步,如圖6所示,所述s104中生成情感判斷模型的具體步驟包括:s1041、構(gòu)建情感分析模型;s1042、利用情感傾向詞對(duì)情感分析模型進(jìn)行訓(xùn)練,得到情感判斷模型。進(jìn)一步,情感判斷模型為基于lstm的模型。本發(fā)明使用了lstm(longshort-termmemory,長(zhǎng)短時(shí)記憶)算法進(jìn)行情感分析模型的訓(xùn)練和預(yù)測(cè)。lstm模型能夠“記住”較長(zhǎng)距離范圍內(nèi)的上下文對(duì)當(dāng)前詞的影響。情感詞(“喜歡”)和否定詞(“不”)、程度詞(“很”)的搭配會(huì)對(duì)情感傾向產(chǎn)生根本性的影響,多個(gè)分句之間的上下文關(guān)系也會(huì)對(duì)最終的情感傾向產(chǎn)生影響。深度學(xué)習(xí)模塊分為訓(xùn)練和判定情感傾向兩個(gè)功能。訓(xùn)練功能即基于已知情感傾向的文本集合來(lái)訓(xùn)練lstm模型。本發(fā)明中對(duì)應(yīng)待評(píng)論文本,將其轉(zhuǎn)化成擴(kuò)展詞向量之后,即可利用本發(fā)明本發(fā)明所述的lstm模型進(jìn)行判定,獲得其情感傾向是正面還是負(fù)面。如圖7所示,本發(fā)明還提供了一種基于深度學(xué)習(xí)的評(píng)論詞情感分析系統(tǒng),包括評(píng)論分詞模塊10、向量生成模塊20和向量拓展模塊30和情感判斷模塊40。其中,評(píng)論分詞模塊10,用于接收待評(píng)論文本,將待評(píng)論文本進(jìn)行分詞,得到詞語(yǔ)序列;向量生成模塊20,用于利用詞向量生成模型將詞語(yǔ)序列轉(zhuǎn)換為對(duì)應(yīng)的詞向量序列;向量擴(kuò)展模塊30,用于根據(jù)領(lǐng)域情感詞典判斷詞語(yǔ)序列是否包括情感傾詞,根據(jù)情感傾向詞得到其對(duì)應(yīng)的擴(kuò)展向量,將擴(kuò)展向量添加至詞向量序列;情感判斷模塊40,用于將添加擴(kuò)展詞向量的詞向量序列輸入至情感判斷模型,輸出判斷結(jié)果。進(jìn)一步,向量生成模塊包括訓(xùn)練準(zhǔn)備單元201,用于獲取詞向量訓(xùn)練文本;向量生成單元202,用于將詞向量訓(xùn)練文本輸入詞向量模型進(jìn)行訓(xùn)練,得到詞向量生成模型。進(jìn)一步,情感判斷模塊包括模型構(gòu)建單元,用于構(gòu)建情感分析模型;模型訓(xùn)練單元,用于利用情感傾向詞對(duì)情感分析模型進(jìn)行訓(xùn)練,得到情感判斷模型。進(jìn)一步,向量擴(kuò)展模塊包括詞典構(gòu)建單元,用于構(gòu)建領(lǐng)域情感詞典;特征提取單元,用于提取不同領(lǐng)域情感詞典中的情感傾向詞,根據(jù)情感傾向詞類(lèi)型生成情感傾向詞典,其中,情感傾向詞典包括正面情感詞典、負(fù)面情感詞典、程度詞典和否定詞典。以上只通過(guò)說(shuō)明的方式描述了本發(fā)明的某些示范性實(shí)施例,毋庸置疑,對(duì)于本領(lǐng)域的普通技術(shù)人員,在不偏離本發(fā)明的精神和范圍的情況下,可以用各種不同的方式對(duì)所描述的實(shí)施例進(jìn)行修正。因此,上述附圖和描述在本質(zhì)上是說(shuō)明性的,不應(yīng)理解為對(duì)本發(fā)明權(quán)利要求保護(hù)范圍的限制。當(dāng)前第1頁(yè)12