一種基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法
【專利摘要】本發(fā)明公開了一種基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法,其步驟是:1)獲取網(wǎng)絡(luò)中同一主題下的用戶評論,以句子為單位組織這些評論;2)基于句子中的情感詞,對句子完成情感評分;3)以句子和對應(yīng)的情感評分作為輸入,按用戶單位,訓(xùn)練隱馬爾可夫SVM模型;4)針對待評分的目標評論,采用模型每一個句子評分;5)針對待評分的目標評論,采用步驟2)對每一個句子評分;6)采用加權(quán)平均法,綜合兩個方面的評分,獲得目標評論的推薦度評分。本方法采用無監(jiān)督方式,應(yīng)用公開的情感詞庫,無需人工評價,計算成本簡單;適用于網(wǎng)絡(luò)評論快速更新的情形;能夠挖掘主題特征,充分考慮其他用戶評論的情感傾向,及主題對目標用戶評論的影響,提高評分的準確性和及時性。
【專利說明】-種基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法
[0001]
【技術(shù)領(lǐng)域】
[0002] 本發(fā)明涉及一種網(wǎng)絡(luò)用戶評論的推薦度評分方法,具體是在給定主題下,運用數(shù) 據(jù)挖掘、機器學(xué)習(xí)、自然語言處理等領(lǐng)域技術(shù),基于公開的情感詞庫,W無監(jiān)督方式自動完 成對網(wǎng)絡(luò)用戶評論的推薦度評分,不需要人工參與。
【背景技術(shù)】
[0003] 隨著Web技術(shù)的廣泛應(yīng)用和發(fā)展,互聯(lián)網(wǎng)進入人們社會生活的各個領(lǐng)域。用戶在 網(wǎng)絡(luò)上開展各種活動和生活娛樂,通過論壇、博客、微博、微信等平臺發(fā)表了大量的評論或 留言。該些評論能夠代表網(wǎng)絡(luò)用戶的看法和觀點,通過分析該些網(wǎng)絡(luò)評論的情感傾向和推 薦度,有助于了解用戶態(tài)度、言論導(dǎo)向、產(chǎn)品接受度等信息,從而輔助產(chǎn)品推薦和信息檢索 等應(yīng)用。
[0004] 目前大部分網(wǎng)絡(luò)評論都圍繞某一主題,例如電影影評、產(chǎn)品評論、W及熱點話題 等。對用戶評論的推薦度評分需要考慮主題的特性?,F(xiàn)有的評分方法僅考慮用戶評論本 身,沒有挖掘和利用主題的上下文和語境,不能準確判斷評論的情感傾向;而且需要人工評 價和標記,不適于網(wǎng)絡(luò)用戶評論快速更新的特點。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明所要解決的技術(shù)問題是提供一種針對網(wǎng)絡(luò)用戶評論的自動的推薦度評分 方法,該方法采用無監(jiān)督方式,不需要人工干預(yù)和標記,應(yīng)用機器學(xué)習(xí)技術(shù)(隱馬爾可夫SVM 模型)和公開的情感詞庫,對一個主題下的用戶評論進行推薦度評分,該方法完全替代了人 工,提高了效率,且具有重復(fù)性。
[0006] 為實現(xiàn)上述目的,本發(fā)明采用如下的步驟: 1) 獲取網(wǎng)絡(luò)中同一主題下的用戶評論,W句子為單位組織該些評論;給定主題T,T = 出1,R,,...}表示主題T下的所有用戶評論;獲取該些評論后,對其中的一個評論R,將其 分割為句子集合,即;R=怯1,S2,…},其中S代表一個句子; 2) 基于句子中的情感詞,對每一個句子完成情感評分; 扣W句子和對應(yīng)的情感評分作為輸入,按用戶單位,訓(xùn)練隱馬爾可夫SVM模型 (Hmm-SVM); 4) 針對待評分的目標評論,采用Hmm-SVM模型為評論中的每一個句子評分; 5) 針對待評分的目標評論,采用步驟2)方法對其中每一個句子評分; 6) 采用加權(quán)平均法,綜合兩個方面的評分,獲得目標評論的推薦度評分。
[0007] 上述步驟2)中基于情感詞對句子評分的處理過程是;首先將句子S解析成單詞的 序列S = <wl,w2,...,wn〉,其中W為單詞,n為句子中包含的單詞總數(shù);然后對照情感詞 庫,提取其中的情感詞和程度詞;分別對情感詞和程度詞打分;接下來針對情感詞和程度 詞的組合打分;完成單詞組合打分后,匯總成句子的情感評分,公式如下: 其中R代表待評分的句子,V(W)代表對單詞或詞組的評分,n為句子中的單詞總數(shù);最 后將句子的情感評分離散化為H個極性:正面、負面、中性。
[0008] 上述步驟2)中對情感詞和程度詞打分的過程是,依據(jù)已制定和公開的情感詞庫 將情感詞分成正反兩個極性,其中正面極性打分為1 ;負面極性打分為-1 ;依據(jù)已制定和公 開的情感詞庫將程度詞分為正向及反向兩個等級;其中正向等級打分為1 ;反向等級打分 為-1 ; 情感詞分兩個極性,參照已制定和公開的情感詞庫: 1) 正面;對應(yīng)情感詞庫的"正面情感"或"正面評價"詞語,例如;"愛,贊賞,快樂,動 聽,對勁兒,催人奮進"等;打分為1 ; 2) 負面;對應(yīng)情感詞庫的"負面情感"或"負面評價"詞語,例如;"哀傷,半信半疑,鄙 視,丑,苦,華而不實"等;打分為-1 ; 程度詞對應(yīng)情感詞庫中的"程度等級"詞語,參照已制定和公開的情感詞庫: 1) 正向;例如"極其,很,較大/多";打分為1; 2) 反向;例如"欠缺,沒有,幾乎不";打分為-1。
[0009] 上述步驟2)中對情感詞和程度詞的組合打分的方法是:分H種情況: 1) 情感詞單獨出現(xiàn),其前后沒有程度詞;按照情感詞極性直接打分; 2) 程度詞單獨出現(xiàn),其前后沒有情感詞;忽略程度詞; 3) 情感詞和程度詞成對出現(xiàn);分數(shù)為情感詞和程度詞打分的乘積。
[0010] 上述步驟3)中按用戶單位訓(xùn)練隱馬爾可夫SVM模型的處理流程是;首先W用戶為 單位,收集用戶U在主題下的所有評論中的句子,組成一個句子序列;然后將序列中的句子 排序,即U = <Si,S2,...〉,排序規(guī)則是;屬于同一評論的按先后次序,屬于不同評論則按 時間順序;接下來W句子為單位,提取文本特征,將句子S轉(zhuǎn)換為一個有標記的特征向量S = <n, f2, ...,V〉,其中f為文本特征值,V為離散化的情感評分;最后按照用戶單位,W 句子序列對應(yīng)的特征向量序列作為輸入,訓(xùn)練隱馬爾可夫SVM模型; 上述步驟4)中采用Hmm-SVM模型為目標評論中的句子評分的處理流程是;首先將目標 評論D分割為句子集合D=怯1,S,, ...},其中S為句子;然后W句子為單位,提取文本特 征,將該些句子轉(zhuǎn)換為無標記的文本特征向量S = <fi,f,,...〉,其中f為文本特征值;最 后將特征向量序列(按評論中出現(xiàn)的先后次序排序)輸入訓(xùn)練后的Hmm-SVM模型,獲得目標 評論中每一個句子的情感極性。
[0011] 上述步驟3)和步驟4)中W句子為單位提取的文本特征包括;形容詞的個數(shù)和比 例,副詞的個數(shù)和比例;感嘆詞個數(shù)和比例,介詞的個數(shù)和比例,代詞的個數(shù)和比例,動詞的 個數(shù)和比例,連詞的個數(shù)和比例,名詞的個數(shù)和比例,正面情感詞個數(shù)和比例,負面情感詞 個數(shù)和比例,共計20個特征,其中比例按照詞個數(shù)除W句子中的單詞總數(shù)計算。
[0012] 上述步驟2)和步驟6)中將連續(xù)的情感評分離散化為H個極性的方法是: 1)正面,評分大于等于t,t為闊值,取值空間為化02^0. 2],建議取值0. 1 ;此時評分 為1 ; 2) 負面,評分小于等于-t,t含義同上;此時評分為-I ; 3) 中性,評分介于-t和t之間,t含義同上;此時評分為0。
[0013] 上述步驟6)的具體過程是;給定目標評論D =怯。S2,. . .,Sm},其中Si為句 子,m為評論中的句子總數(shù),采用下述公式獲得綜合評分V(D):
【權(quán)利要求】
1. 一種基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法,其特征在于包含以下步驟: 1) 獲取網(wǎng)絡(luò)中同一主題下的用戶評論,以句子為單位組織這些評論;給定主題T,T = (R1, R2, ...}表示主題T下的所有用戶評論;獲取這些評論后,對其中的一個評論R,將其 分割為句子集合,即:R= (S1, S2,…},其中S代表一個句子; 2) 基于句子中的情感詞,對每一個句子完成情感評分; 3) 以句子和對應(yīng)的情感評分作為輸入,按用戶單位,訓(xùn)練隱馬爾可夫SVM模型 (Hmm-SVM); 4) 針對待評分的目標評論,采用Hmm-SVM模型為評論中的每一個句子評分; 5) 針對待評分的目標評論,采用步驟2)方法對每一個句子評分; 6) 采用加權(quán)平均法,綜合步驟4)及步驟5)兩個方面的評分,獲得目標評論的推薦度 評分。
2. 根據(jù)權(quán)利要求1所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法,其特征在于, 上述步驟2)的處理流程是:首先將句子S解析成單詞的序列S = Cw1, W2, ...,wn>,其中 w為單詞,n為句子中包含的單詞總數(shù);然后對照情感詞庫,提取其中的情感詞和程度詞; 分別對情感詞和程度詞打分;接下來針對情感詞和程度詞的組合打分;完成單詞組合打分 后,匯總成句子的情感評分,其公式如下:
其中R代表待評分的句子,代表對單詞或詞組的評分,n為句子中的單詞總數(shù);最 后將句子的情感評分離散化為三個極性:正面、負面、中性。
3. 根據(jù)權(quán)利要求2所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法,其特征在于, 上述步驟2)中對情感詞和程度詞打分的過程是,依據(jù)已制定和公開的情感詞庫將情感詞 分成正反兩個極性,其中正面極性打分為1 ;負面極性打分為-1 ;參照已制定和公開的情感 詞庫:將程度詞分為正向及反向兩個等級:其中正向等級打分為1 ;反向等級打分為-1。
4. 根據(jù)權(quán)利要求3所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法,其特征在于, 上述步驟2)中對情感詞和程度詞的組合打分的過程分三種情況: 1) 情感詞單獨出現(xiàn),其前后沒有程度詞:按照情感詞極性直接打分; 2) 程度詞單獨出現(xiàn),其前后沒有情感詞:忽略程度詞; 3) 情感詞和程度詞成對出現(xiàn):分數(shù)為情感詞和程度詞打分的乘積。
5. 根據(jù)權(quán)利要求4所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法,其特征在于, 步驟2)中將句子的情感評分離散化為三個極性:正面、負面、中性的具體評分標準為: 1) 正面,評分大于等于t,t為閾值,取值空間為[0.02、. 2],建議取值0. 1 ;此時評分 為1 ; 2) 負面,評分小于等于_t,t含義同上;此時評分為-1 ; 3) 中性,評分介于-t和t之間,t含義同上;此時評分為0。
6. 根據(jù)權(quán)利要求5所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法,其特征在于, 上述步驟3)中按用戶單位訓(xùn)練隱馬爾可夫SVM模型的處理過程是:首先以用戶為單位,收 集用戶U在主題下的所有評論中的句子,組成一個句子序列;然后將序列中的句子排序,即 U =〈Si,s2,... >,排序規(guī)則是:屬于同一評論的按先后次序,屬于不同評論則按時間順 序;接下來以句子為單位,提取文本特征,將句子S轉(zhuǎn)換為一個有標記的特征向量S = <fl, f2,...,v>,其中f為文本特征值,V為離散化的情感評分;最后按照用戶單位,以句子序 列對應(yīng)的特征向量序列作為輸入,訓(xùn)練隱馬爾可夫SVM模型。
7. 根據(jù)權(quán)利要求6所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法,其特征在于, 上述步驟3)中以句子為單位提取的文本特征包括:形容詞的個數(shù)和比例,副詞的個數(shù)和比 例;感嘆詞個數(shù)和比例,介詞的個數(shù)和比例,代詞的個數(shù)和比例,動詞的個數(shù)和比例,連詞的 個數(shù)和比例,名詞的個數(shù)和比例,正面情感詞個數(shù)和比例,負面情感詞個數(shù)和比例,共計20 個特征,其中比例按照詞個數(shù)除以句子中的單詞總數(shù)計算。
8. 根據(jù)權(quán)利要求6或7所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法,其特征在 于,上述步驟4)中采用Hmm-SVM模型為目標評論中的句子評分的處理過程是:首先將目標 評論D分割為句子集合D= (S1, S2, ...},其中S為句子;然后以句子為單位,提取文本特 征,將這些句子轉(zhuǎn)換為無標記的文本特征向量S =〈f\,f2,...>,其中f為文本特征值;最 后將特征向量序列,按評論中出現(xiàn)的先后次序排序輸入訓(xùn)練后的Hmm-SVM模型,獲得目標 評論中每一個句子的情感極性。
9. 根據(jù)權(quán)利要求8所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法,其特征在于, 上述步驟4)中以句子為單位提取的文本特征包括:形容詞的個數(shù)和比例,副詞的個數(shù)和比 例;感嘆詞個數(shù)和比例,介詞的個數(shù)和比例,代詞的個數(shù)和比例,動詞的個數(shù)和比例,連詞的 個數(shù)和比例,名詞的個數(shù)和比例,正面情感詞個數(shù)和比例,負面情感詞個數(shù)和比例,共計20 個特征,其中比例按照詞個數(shù)除以句子中的單詞總數(shù)計算。
10. 根據(jù)權(quán)利要求9所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法,其特征在于, 步驟6)的具體過程是:給定目標評論D= (S1, S2, ...,Sm},其中SiS句子,m為評論中 的句子總數(shù),采用下述公式獲得綜合評分V(D):
其中V1(Si)代表Hmm-SVM模型對句子Si的情感評分,V 2(Si)代表基于情感詞對句子 Si的評分,w是權(quán)重,取值空間為[0. 4、. 6],建議取值0. 5 ;如此計算出的評分是一個連續(xù) 值,可以進一步將其離散化為三個極性:正面、負面、中性,其中正面代表推薦,負面代表不 推薦,中性代表中立。
【文檔編號】G06F17/30GK104331451SQ201410595741
【公開日】2015年2月4日 申請日期:2014年10月30日 優(yōu)先權(quán)日:2014年10月30日
【發(fā)明者】許超, 蔣智威, 顧慶, 王曉亮, 陳道蓄 申請人:南京大學(xué)