一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法
【專利摘要】本發(fā)明公開了一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法,包括:對購物評論的文本數(shù)據(jù)進行預(yù)處理,即對評論文本進行分割、分詞、過濾停用詞、劃分購物領(lǐng)域;構(gòu)建基礎(chǔ)情感詞典與網(wǎng)絡(luò)流行語情感詞典;以購物評論語料庫為數(shù)據(jù)集,對數(shù)據(jù)集進行詞性標注,抽取詞性為習用詞、副詞、形容詞的詞語作為候選詞,通過計算候選詞的PTF?IDF值選取新的情感詞作為領(lǐng)域情感詞,加入領(lǐng)域情感詞典。采用上述領(lǐng)域情感詞典,與基礎(chǔ)情感詞典、網(wǎng)絡(luò)流行語情感詞典相結(jié)合,對購物評論進行情感特征篩選和提取,研究購物評論的情感分類。實驗表明,本發(fā)明所提出方案具有很高的準確率,且不受購物領(lǐng)域限制,更適于實際應(yīng)用。
【專利說明】
一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及適用于特定功能的數(shù)據(jù)處理方法中的自然語言的處理或轉(zhuǎn)換領(lǐng)域,尤 其涉及一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,電子商務(wù)的興起吸引了越來越多的用戶開始在網(wǎng)上購 物,體驗網(wǎng)上購物所帶來的"足不出戶"和"物廉價美"。與此同時,用戶也通過在網(wǎng)上商城對 購買的商品進行評論,表達對商品的主觀看法和意見。然而,由于網(wǎng)上購物沒有地域的限 制,在為用戶帶來便利的同時也導(dǎo)致用戶無法直接觸摸和具體了解商品的質(zhì)量,可能造成 網(wǎng)上商城對商品的描述與實際有區(qū)別,為用戶帶來不便。用戶只有通過了解已購顧客對商 品的評論,做出相對可靠的決策。因此,為了使用戶能更加方便快捷的找出富有價值的評 論,瀏覽自己想要的信息,為了促進商家提高用戶對網(wǎng)上購物服務(wù)的滿意度,對購物評論進 行情感分類就顯得十分重要。
[0003] 對購物評論進行情感分類,就是按照評論文本所表達的情感傾向進行分析、處理、 歸納和推理,判別評論中用戶想要表達的觀點、喜好、感受以及對商品或者商家服務(wù)的態(tài) 度,進而為用戶提供更加有效和更加可靠地商品信息,輔助用戶做出合理的決策,提高網(wǎng)上 購物效率和服務(wù)質(zhì)量。目前,針對評論文本情感分類的研究主要是將購物評論分為兩類,即 正向情感評論和負向情感評論。也有部分研究是將其分為三類,即正向情感評論、負向情感 評論和中性情感評論。購物評論的情感分類研究屬于文本情感分類研究的一個分支。
[0004]目前,文本情感分析作為自然語言處理(Natural Language Processing,NLP)領(lǐng) 域中熱門的研究方向,引發(fā)了學者的廣泛研究分析。在對評論文本進行情感傾向性分析方 面,國內(nèi)外研究采用的技術(shù)主要分為以下兩大類:一是基于機器學習的方法,二是基于情感 詞典或者語義知識的方法。其中,使用情感詞典的方法是通過借助情感詞典查找并統(tǒng)計待 分類評論文本中正面情感詞和負面情感詞用來作為情感判別的主要依據(jù),即根據(jù)情感詞來 決策待分類評論文本的情感傾向性,若所得值為正則判定為正面情感,反之為負即為負面 情感,若所得值等于零則視為中性情感?;谇楦性~典的方法能取得較好的分類準確性,但 其局限性在于過多地依賴于現(xiàn)有詞典,無法識別未登錄詞語,一旦文本中不存在情感詞典 中的詞語就無法判斷該文本的感情傾向與情感強度。
[0005] 而采用機器學習的方法則是將語料標注為訓(xùn)練語料和測試語料,通過使用最大 熵、支持向量機、樸素貝葉斯等分類器對評論文本進行情感傾向性分類。該方法中使用的算 法復(fù)雜度較高,在訓(xùn)練情感特征分類器時需要大量適當?shù)那規(guī)撕灥恼Z料庫。
[0006] 公開號為CN104731923A、名稱為〃互聯(lián)網(wǎng)商品評論挖掘本體詞庫的構(gòu)建方法〃的發(fā) 明專利存在的不足主要是:一,未采用通用停用詞表,而是通過計算實驗數(shù)據(jù)中特征頻率和 文檔頻率,取數(shù)值高的詞語作為停用詞,在該過程中易產(chǎn)生偏差,丟失具有情感傾向的詞 語,影響實驗;二,在其進行詞庫構(gòu)建的過程中,未考慮除名詞外,其它詞性詞語對商品評論 分析的影響。
[0007] 公開號為CN103207855A、名稱為〃針對產(chǎn)品評論信息的細粒度情感分析系統(tǒng)及方 法〃的發(fā)明專利存在的不足主要為:一,需大量帶標注的文本訓(xùn)練該情感分析系統(tǒng),且要定 期進行更新,增加了大量人力和時間上的消耗;二,未考慮停用詞、網(wǎng)絡(luò)流行語對情感分析 的影響;三,過于依賴數(shù)據(jù)庫中的搭配組合詞典,使計算過程復(fù)雜,且并未考慮不同詞性詞 語在評論文本中的情感傾向。
[0008] 綜上所述,現(xiàn)有的面向購物評論的情感分類研究,其判別的準確性不足以滿足實 際應(yīng)用的需求。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明所要解決的技術(shù)問題是如何高效地結(jié)合基礎(chǔ)情感詞典和機器學習對購物 評論的情感進行有效劃分,從而使最終分類結(jié)果具有高準確率,而且不受購物領(lǐng)域限制,更 適于實際應(yīng)用。
[0010] 為了解決上述技術(shù)問題,本發(fā)明提出一種購物評論情感分析中基于詞性標注的詞 典構(gòu)建方法,包括如下步驟:
[0011] 步驟1:對購物評論文本進行數(shù)據(jù)預(yù)處理;
[0012] 步驟2:構(gòu)建基礎(chǔ)情感詞典;
[0013] 步驟3:構(gòu)建網(wǎng)絡(luò)流行語情感詞典。
[0014] 步驟 4:使用PTF_IDF(Part of speech Tag Frequency-Inverse Document Frequency)方法提取購物評論數(shù)據(jù)集的情感特征,構(gòu)建領(lǐng)域情感詞典;
[0015] 步驟5:利用所述領(lǐng)域情感詞典、基礎(chǔ)情感詞典與網(wǎng)絡(luò)流行語情感詞典,對購物評 論進行情感分類。
[0016] 進一步,上述數(shù)據(jù)預(yù)處理包括評論文本的分割、分詞、過濾停用詞。
[0017] 而且,評論文本的分割、分詞、過濾停用詞具體包括如下步驟:
[0018] 步驟1:讀取每條評論,采用Jieba分詞工具將所述評論切分為獨立的詞語;
[0019] 步驟2:對切分后的詞語使用停用詞表進行過濾。
[0020] 進一步,上述網(wǎng)絡(luò)流行語情感詞典是從具有代表性的大型中文網(wǎng)站(比如從搜狐、 網(wǎng)易、新浪及騰訊)中人工抽取了若干個使用頻率較高并含有較明顯情感傾向性的網(wǎng)絡(luò)流 行語,組成網(wǎng)絡(luò)流行語情感詞典。
[0021 ]進一步,前述基礎(chǔ)情感詞典的構(gòu)建,具體包括如下步驟:
[0022] 步驟1:從現(xiàn)有的代表性情感詞典中,挑選出包含"的""地""得"后綴的詞與前面的 詞語合并,并從中刪除有歧義或者不常用的詞語,組成候選基礎(chǔ)情感詞典;
[0023] 步驟2:對候選基礎(chǔ)情感詞典中的每個詞語利用閾值法依照從一個檢索引擎返回 的點擊數(shù)量從大到小排序,去除點擊數(shù)量相對較低的詞語,組成基礎(chǔ)情感詞典。
[0024]進一步,前述使用PTF-IDF方法提取購物評論數(shù)據(jù)集的情感特征,具體包括如下步 驟:
[0025] 步驟1:采用詞性標注(Part of Speech Tag)方法,抽取評論文本中詞性為習用 詞、副詞、形容詞的詞語作為候選詞;
[0026] 步驟2:計算所述每個候選詞的PTF-IDF值,IDF表示所述候選詞在購物評論語料庫 中的逆向文件頻率,具體計算公式如下:
[0028]其中,PTFy表示詞性標注后所挑選得到的候選詞W〇rdx在購物評論語料庫j中的 詞頻;分子wordx, j表示候選詞wordx在評論語料庫j中出現(xiàn)次數(shù):表示分詞后 評論語料庫j中所有詞語出現(xiàn)的總數(shù);
[0030]其中,IDFx表示所述候選詞wordx在購物評論語料庫j中的逆向文件頻率,分子 Reviews |表示在評論語料庫j中評論的總數(shù),分母| {j :wordx£Reviewj} |表示評論語料庫j 中包含候選詞wordx的評論個數(shù),如果候選詞w〇rdx不存在于評論語料庫中,則會導(dǎo)致該公式 的分母為零,為了防止影響計算出現(xiàn)差錯,采用分母+1的方法,最后計算:
[0031 ] PTF-IDF(wordx) =PTF(wordx) X IDF(wordx)
[0032] 得到各候選詞的PTF-IDF值;
[0033]步驟3:在所述評論的領(lǐng)域,根據(jù)PTF-IDF值采用閾值法選取大于閾值的候選詞作 為候選領(lǐng)域情感詞;
[0034] 步驟4:計算上述候選領(lǐng)域情感詞在正面評論語料中出現(xiàn)的次數(shù)與負面評論語料 中出現(xiàn)的次數(shù)之間的差值,若該差值為正,則候選領(lǐng)域情感詞為正面領(lǐng)域情感詞;反之,若 該差值為負,則候選領(lǐng)域情感詞為負面領(lǐng)域情感詞;若差值為零,則該候選領(lǐng)域情感詞不具 有情感傾向,不加入領(lǐng)域情感詞典。
[0035] 作為優(yōu)選,上述采用閾值法選取大于閾值的候選詞時,閾值選擇0.005。
[0036] 進一步,作為基于詞性標注的詞典構(gòu)建方法中的最后一步驟的情感分類,具體包 括如下步驟:
[0037] 步驟1:讀取每條評論,利用所屬領(lǐng)域情感詞典、基礎(chǔ)情感詞典與網(wǎng)絡(luò)流行語情感 詞典選取情感特征;
[0038] 步驟2:計算每條評論中正面情感特征加權(quán)和,負面情感特征加權(quán)和;
[0039] 步驟3:計算該條評論正面情感特征加權(quán)和與負面情感特征加權(quán)和之差;
[0040] 步驟3:若差值為正,則該條評論屬于正面情感;若差值為負,則該條評論屬于負面 情感;若為零,則該條評論屬于中性,具體計算公式如下:
[0041 ]購物評論的情感傾向=Σ該評論中正面情感特征-Σ該評論中負面情感特征。
[0042] 與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:
[0043] 1、本發(fā)明提出的一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法,有效提 高了購物評論情感分類的準確率;
[0044] 2、本發(fā)明所提出的根據(jù)相關(guān)購物領(lǐng)域評論基于詞性標注而構(gòu)建的領(lǐng)域情感詞典, 對評論分類得到的準確率明顯高于使用基礎(chǔ)情感詞典所能達到的準確率。
【附圖說明】
[0045] 圖1為本發(fā)明的一個實施例的流程示意圖。
[0046] 圖2為圖1中步驟B的具體流程示意圖。
[0047] 圖3為本發(fā)明所提出方法中結(jié)合領(lǐng)域情感詞典、基礎(chǔ)情感詞典和網(wǎng)絡(luò)流行語情感 詞典,與基于傳統(tǒng)情感詞典的對比試驗結(jié)果圖。
[0048]圖4為三個購物領(lǐng)域的測試結(jié)果示例圖。
【具體實施方式】
[0049]下面結(jié)合附圖以及實施例對本發(fā)明的具體實施作進一步詳細的說明。本發(fā)明中所 描述的實施例,僅僅是本發(fā)明一部分實施例,而不是全部的實施例。
[0050] 圖1是本發(fā)明提出的一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法的一 個實施例的流程示意圖,包括如下步驟:
[0051] A、分別對酒店、圖書、電腦領(lǐng)域購物評論數(shù)據(jù)進行預(yù)處理,包括評論分割、分詞、過 濾停用詞。
[0052] 具體的,如圖2所示,步驟A包括步驟:
[0053] A1、讀取每條評論,采用Jieba分詞工具將所述評論切分為獨立的詞語;
[0054] A2、對切分后的詞語使用停用詞表進行過濾;
[0055] B、構(gòu)建基礎(chǔ)情感詞典。
[0056] B1、從現(xiàn)有的《知網(wǎng)》情感詞典中,刪掉有歧義和不常用的詞語,挑選出包含"的" "地" "得"后綴的詞與前面的詞語合并,并從中刪除有歧義或者不常用的詞語,組成候選基 礎(chǔ)情感詞典;
[0057] B2、對候選基礎(chǔ)情感詞典中的每個詞語利用閾值法依照Google返回的Hits值從大 到小排序,去除Hits值相對較低的詞語,組成基礎(chǔ)情感詞典;
[0058] C、構(gòu)建網(wǎng)絡(luò)流行語情感詞典。
[0059] C1、從搜狐、網(wǎng)易、新浪及騰訊這四個較為流行的大型中文微博服務(wù)網(wǎng)站中人工抽 取了約50個使用頻率較高并含有較明顯情感傾向性的網(wǎng)絡(luò)流行語,組成網(wǎng)絡(luò)流行語情感詞 典。
[0060] D、面向不同領(lǐng)域構(gòu)建領(lǐng)域情感詞典。
[0061 ]具體的,步驟D包括步驟:
[0062] D1、分別讀取酒店、圖書、電腦領(lǐng)域購物評論語料庫中的每條評論,對分詞、停用詞 過濾后的詞語,采用詞性標注方法,抽取評論中詞性為習用詞、副詞、形容詞的詞語作為候 選詞;
[0063] 其中,詞性標注后購物評論中具體包括以下28種詞性的詞語,如表1所示。
[0064] 表1中文詞性標注
[0065]
[0066]
[0067] D2、根據(jù)所提取的具有習用詞、副詞、形容詞詞性的候選詞,計算所述每個候選詞 的PTF-IDF值,其中PTF-IDF = PTF*IDF,式中,PTF表示所述候選詞經(jīng)詞性標注后在該領(lǐng)域購 物評論語料庫中的出現(xiàn)次數(shù),IDF表示所述候選詞在購物評論語料庫中的逆向文件頻率;
[0068] D3、計算所述購物領(lǐng)域評論經(jīng)過分詞后,所有詞語出現(xiàn)的總數(shù);計算所述各候選詞 在該領(lǐng)域評論中出現(xiàn)的次數(shù);通過公式(1)計算后得到各候選詞的PTF值;
[0069] D4、計算所述購物領(lǐng)域中評論的總數(shù);計算在該領(lǐng)域評論中包含各候選詞的評論 個數(shù),通過公式(2)計算后得到各候選詞的IDF值;
[0070] D5、通過公式(3)計算后得到各候選詞的PTF-IDF值;
[0071] D6、在所述評論的領(lǐng)域,根據(jù)各候選詞的PTF-IDF值采用閾值法選取符合條件的候 選詞作為領(lǐng)域情感詞,組成領(lǐng)域情感詞典。
[0072] D7、計算候選領(lǐng)域情感詞在正面評論語料中出現(xiàn)的次數(shù)與負面評論語料中出現(xiàn)的 次數(shù)之間的差值,若該差值為正,則候選領(lǐng)域情感詞為正面領(lǐng)域情感詞;反之,若該差值為 負,則候選領(lǐng)域情感詞為負面領(lǐng)域情感詞;若差值為零,則該候選領(lǐng)域情感詞不具有情感傾 向,不加入領(lǐng)域情感詞典。
[0073] E、利用所述領(lǐng)域情感詞典,結(jié)合基礎(chǔ)情感詞典、網(wǎng)絡(luò)流行語情感詞典,對購物評論 進行情感分類。
[0074]具體的,步驟E包括步驟:
[0075] E1、讀取每條評論,利用所述領(lǐng)域情感詞典、基礎(chǔ)情感詞典與網(wǎng)絡(luò)流行語情感詞典 選取情感特征;
[0076] E2、計算每條評論中正面情感特征加權(quán)和,負面情感特征加權(quán)和;
[0077] E3、計算該條評論正面情感特征加權(quán)和與負面情感特征加權(quán)和之差;
[0078] E4、若差值為正,則該條評論屬于正面情感;若差值為負,則該條評論屬于負面情 感;若為零,則該條評論屬于中性。
[0079]對本發(fā)明用python進行編譯測試,得到的準確率與基于傳統(tǒng)情感詞典的分類算法 進行對比,實驗結(jié)果如表2所示。
[0080] 表2實驗結(jié)果
[0082]顯然,基于本發(fā)明算法的分類效果明顯好于基于傳統(tǒng)情感詞典的分類效果,在三 個領(lǐng)域:酒店、圖書、電腦領(lǐng)域,分別提高了 26 · 3 %,21 %,19 · 7 %。
[0083]如圖4所示,將所述三個領(lǐng)域,即酒店、圖書、電腦領(lǐng)域,細分為六類評論,其中橫軸 表示購物評論的領(lǐng)域,縱軸表示分類準確率。通過結(jié)果可以表明,本發(fā)明提出的一種購物評 論情感分析中基于詞性標注的詞典構(gòu)建方法對購物評論情感分類能取得較好的效果。 [0084]需要說明的是,本發(fā)明所提供的實施例僅具有示意性,實施例中所闡述的方法也 可以通過其它編譯方式實現(xiàn)。例如,所述購物評論領(lǐng)域的劃分,僅僅是一種基于邏輯功能的 劃分,在實際實現(xiàn)過程中可以有其他的劃分方式;還可以在具體實施過程中,結(jié)合本發(fā)明中 的多個步驟,對某些特征忽略或不執(zhí)行。
【主權(quán)項】
1. 一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法,其特征在于包括如下步 驟: 步驟1:對購物評論文本進行數(shù)據(jù)預(yù)處理; 步驟2:構(gòu)建基礎(chǔ)情感詞典; 步驟3:構(gòu)建網(wǎng)絡(luò)流行語情感詞典; 步驟4:使用PTF-IDF方法提取購物評論數(shù)據(jù)集的情感特征,構(gòu)建領(lǐng)域情感詞典; 步驟5:利用所述領(lǐng)域情感詞典、基礎(chǔ)情感詞典與網(wǎng)絡(luò)流行語情感詞典,對購物評論進 行情感分類。2. 根據(jù)權(quán)利要求1所述的一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法,其 特征在于所述數(shù)據(jù)預(yù)處理包括評論文本的分割、分詞、過濾停用詞。3. 根據(jù)權(quán)利要求2所述的一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法,其 特征在于,所述評論文本的分割、分詞、過濾停用詞具體包括如下步驟: 步驟1:讀取每條評論,采用Jieba分詞工具將所述評論切分為獨立的詞語; 步驟2:對切分后的詞語使用停用詞表進行過濾。4. 根據(jù)權(quán)利要求1所述的一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法,其 特征在于所述網(wǎng)絡(luò)流行語情感詞典是從具有代表性的大型中文網(wǎng)站中人工抽取了若干個 使用頻率較高并含有較明顯情感傾向性的網(wǎng)絡(luò)流行語,組成網(wǎng)絡(luò)流行語情感詞典。5. 根據(jù)權(quán)利要求1所述的一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法,其 特征在于,所述基礎(chǔ)情感詞典的構(gòu)建,具體包括如下步驟: 步驟1:從現(xiàn)有的代表性情感詞典中,挑選出包含"的""地""得"后綴的詞與前面的詞語 合并,并從中刪除有歧義或者不常用的詞語,組成候選基礎(chǔ)情感詞典; 步驟2:對候選基礎(chǔ)情感詞典中的每個詞語利用閾值法依照從一個檢索引擎返回的點 擊數(shù)量從大到小排序,去除點擊數(shù)量相對較低的詞語,組成基礎(chǔ)情感詞典。6. 根據(jù)權(quán)利要求1所述的一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法,其 特征在于,所述使用PTF-IDF方法提取購物評論數(shù)據(jù)集的情感特征,具體包括如下步驟: 步驟1:采用詞性標注方法,抽取評論文本中詞性為習用詞、副詞、形容詞的詞語作為候 選詞; 步驟2:計算所述每個候選詞的PTF-IDF值,IDF表示所述候選詞在購物評論語料庫中的 逆向文件頻率,具體計算公式如下其中,PTFy表示詞性標注后所挑選得到的候選詞w〇rdx在購物評論語料庫j中的詞頻; 分子wordx,」表示候選詞w〇rdx在評論語料庫j中出現(xiàn)次數(shù),分母Σ νιυ/4./表示分詞后評論語 k 料庫j中所有詞語出現(xiàn)的總數(shù);其中,IDFX表示所述候選詞wordx在購物評論語料庫j中的逆向文件頻率,分子| Reviews 表示在評論語料庫j中評論的總數(shù),分母I {j :wordxeReviewj} I表示評論語料庫j中包含候 選詞wordx的評論個數(shù),如果候選詞wordx不存在于評論語料庫中,則會導(dǎo)致該公式的分母為 零,為了防止影響計算出現(xiàn)差錯,采用分母+1的方法,最后計算: PTF-IDF(wordx) =PTF(wordx) X IDF(wordx) 得到各候選詞的PTF-IDF值; 步驟3:在所述評論的領(lǐng)域,根據(jù)PTF-IDF值采用閾值法選取大于閾值的候選詞作為候 選領(lǐng)域情感詞; 步驟4:計算上述候選領(lǐng)域情感詞在正面評論語料中出現(xiàn)的次數(shù)與負面評論語料中出 現(xiàn)的次數(shù)之間的差值,若該差值為正,則候選領(lǐng)域情感詞為正面領(lǐng)域情感詞;反之,若該差 值為負,則候選領(lǐng)域情感詞為負面領(lǐng)域情感詞;若差值為零,則該候選領(lǐng)域情感詞不具有情 感傾向,不加入領(lǐng)域情感詞典。7. 根據(jù)權(quán)利要求6所述的一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法,其 特征在于所述閾值為0.005。8. 根據(jù)權(quán)利要求1所述的一種購物評論情感分析中基于詞性標注的詞典構(gòu)建方法,其 特征在于,所述情感分類,具體包括如下步驟: 步驟1:讀取每條評論,利用所屬領(lǐng)域情感詞典、基礎(chǔ)情感詞典與網(wǎng)絡(luò)流行語情感詞典 選取情感特征; 步驟2:計算每條評論中正面情感特征加權(quán)和,負面情感特征加權(quán)和; 步驟3:計算該條評論正面情感特征加權(quán)和與負面情感特征加權(quán)和之差; 步驟3:若差值為正,則該條評論屬于正面情感;若差值為負,則該條評論屬于負面情 感;若為零,則該條評論屬于中性,具體計算公式如下: 購物評論的情感傾向=Σ該評論中正面情感特征-Σ該評論中負面情感特征。
【文檔編號】G06F17/27GK105868185SQ201610323743
【公開日】2016年8月17日
【申請日】2016年5月16日
【發(fā)明人】王磊, 吳瀟, 周亮, 魏昕, 陳建新
【申請人】南京郵電大學