一種基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法

文檔序號：6632310閱讀：170來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法
【專利摘要】本發(fā)明公開了一種基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法，其步驟是：1)獲取網(wǎng)絡(luò)中同一主題下的用戶評論，以句子為單位組織這些評論；2)基于句子中的情感詞，對句子完成情感評分；3)以句子和對應(yīng)的情感評分作為輸入，按用戶單位，訓(xùn)練隱馬爾可夫SVM模型；4)針對待評分的目標評論，采用模型每一個句子評分；5)針對待評分的目標評論，采用步驟2)對每一個句子評分；6)采用加權(quán)平均法，綜合兩個方面的評分，獲得目標評論的推薦度評分。本方法采用無監(jiān)督方式，應(yīng)用公開的情感詞庫，無需人工評價，計算成本簡單；適用于網(wǎng)絡(luò)評論快速更新的情形；能夠挖掘主題特征，充分考慮其他用戶評論的情感傾向，及主題對目標用戶評論的影響，提高評分的準確性和及時性。
【專利說明】-種基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法
[0001]

【技術(shù)領(lǐng)域】
[0002] 本發(fā)明涉及一種網(wǎng)絡(luò)用戶評論的推薦度評分方法，具體是在給定主題下，運用數(shù) 據(jù)挖掘、機器學(xué)習(xí)、自然語言處理等領(lǐng)域技術(shù)，基于公開的情感詞庫，W無監(jiān)督方式自動完成對網(wǎng)絡(luò)用戶評論的推薦度評分，不需要人工參與。

【背景技術(shù)】
[0003] 隨著Web技術(shù)的廣泛應(yīng)用和發(fā)展，互聯(lián)網(wǎng)進入人們社會生活的各個領(lǐng)域。用戶在網(wǎng)絡(luò)上開展各種活動和生活娛樂，通過論壇、博客、微博、微信等平臺發(fā)表了大量的評論或留言。該些評論能夠代表網(wǎng)絡(luò)用戶的看法和觀點，通過分析該些網(wǎng)絡(luò)評論的情感傾向和推薦度，有助于了解用戶態(tài)度、言論導(dǎo)向、產(chǎn)品接受度等信息，從而輔助產(chǎn)品推薦和信息檢索等應(yīng)用。
[0004] 目前大部分網(wǎng)絡(luò)評論都圍繞某一主題，例如電影影評、產(chǎn)品評論、W及熱點話題等。對用戶評論的推薦度評分需要考慮主題的特性?，F(xiàn)有的評分方法僅考慮用戶評論本身，沒有挖掘和利用主題的上下文和語境，不能準確判斷評論的情感傾向；而且需要人工評價和標記，不適于網(wǎng)絡(luò)用戶評論快速更新的特點。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明所要解決的技術(shù)問題是提供一種針對網(wǎng)絡(luò)用戶評論的自動的推薦度評分方法，該方法采用無監(jiān)督方式，不需要人工干預(yù)和標記，應(yīng)用機器學(xué)習(xí)技術(shù)(隱馬爾可夫SVM 模型）和公開的情感詞庫，對一個主題下的用戶評論進行推薦度評分，該方法完全替代了人工，提高了效率，且具有重復(fù)性。
[0006] 為實現(xiàn)上述目的，本發(fā)明采用如下的步驟： 1) 獲取網(wǎng)絡(luò)中同一主題下的用戶評論，W句子為單位組織該些評論；給定主題T，T = 出1，R,，...}表示主題T下的所有用戶評論；獲取該些評論后，對其中的一個評論R，將其分割為句子集合，即；R=怯1，S2，…}，其中S代表一個句子； 2) 基于句子中的情感詞，對每一個句子完成情感評分；扣W句子和對應(yīng)的情感評分作為輸入，按用戶單位，訓(xùn)練隱馬爾可夫SVM模型 (Hmm-SVM)； 4) 針對待評分的目標評論，采用Hmm-SVM模型為評論中的每一個句子評分； 5) 針對待評分的目標評論，采用步驟2)方法對其中每一個句子評分； 6) 采用加權(quán)平均法，綜合兩個方面的評分，獲得目標評論的推薦度評分。
[0007] 上述步驟2)中基于情感詞對句子評分的處理過程是；首先將句子S解析成單詞的序列S = <wl，w2，...，wn〉，其中W為單詞，n為句子中包含的單詞總數(shù)；然后對照情感詞庫，提取其中的情感詞和程度詞；分別對情感詞和程度詞打分；接下來針對情感詞和程度詞的組合打分；完成單詞組合打分后，匯總成句子的情感評分，公式如下：其中R代表待評分的句子，V(W)代表對單詞或詞組的評分，n為句子中的單詞總數(shù)；最后將句子的情感評分離散化為H個極性：正面、負面、中性。
[0008] 上述步驟2)中對情感詞和程度詞打分的過程是，依據(jù)已制定和公開的情感詞庫將情感詞分成正反兩個極性，其中正面極性打分為1 ;負面極性打分為-1 ;依據(jù)已制定和公開的情感詞庫將程度詞分為正向及反向兩個等級；其中正向等級打分為1 ;反向等級打分為-1 ; 情感詞分兩個極性，參照已制定和公開的情感詞庫： 1) 正面；對應(yīng)情感詞庫的"正面情感"或"正面評價"詞語，例如；"愛，贊賞，快樂，動聽，對勁兒，催人奮進"等；打分為1 ; 2) 負面；對應(yīng)情感詞庫的"負面情感"或"負面評價"詞語，例如；"哀傷，半信半疑，鄙視，丑，苦，華而不實"等；打分為-1 ; 程度詞對應(yīng)情感詞庫中的"程度等級"詞語，參照已制定和公開的情感詞庫： 1) 正向；例如"極其，很，較大/多";打分為1; 2) 反向；例如"欠缺，沒有，幾乎不";打分為-1。
[0009] 上述步驟2)中對情感詞和程度詞的組合打分的方法是：分H種情況： 1) 情感詞單獨出現(xiàn)，其前后沒有程度詞；按照情感詞極性直接打分； 2) 程度詞單獨出現(xiàn)，其前后沒有情感詞；忽略程度詞； 3) 情感詞和程度詞成對出現(xiàn)；分數(shù)為情感詞和程度詞打分的乘積。
[0010] 上述步驟3)中按用戶單位訓(xùn)練隱馬爾可夫SVM模型的處理流程是；首先W用戶為單位，收集用戶U在主題下的所有評論中的句子，組成一個句子序列；然后將序列中的句子排序，即U = <Si，S2，...〉，排序規(guī)則是；屬于同一評論的按先后次序，屬于不同評論則按時間順序；接下來W句子為單位，提取文本特征，將句子S轉(zhuǎn)換為一個有標記的特征向量S = <n, f2, ...，V〉，其中f為文本特征值，V為離散化的情感評分；最后按照用戶單位，W 句子序列對應(yīng)的特征向量序列作為輸入，訓(xùn)練隱馬爾可夫SVM模型；上述步驟4)中采用Hmm-SVM模型為目標評論中的句子評分的處理流程是；首先將目標評論D分割為句子集合D=怯1，S,, ...}，其中S為句子；然后W句子為單位，提取文本特征，將該些句子轉(zhuǎn)換為無標記的文本特征向量S = <fi，f,，...〉，其中f為文本特征值；最后將特征向量序列（按評論中出現(xiàn)的先后次序排序）輸入訓(xùn)練后的Hmm-SVM模型，獲得目標評論中每一個句子的情感極性。
[0011] 上述步驟3)和步驟4)中W句子為單位提取的文本特征包括；形容詞的個數(shù)和比例，副詞的個數(shù)和比例；感嘆詞個數(shù)和比例，介詞的個數(shù)和比例，代詞的個數(shù)和比例，動詞的個數(shù)和比例，連詞的個數(shù)和比例，名詞的個數(shù)和比例，正面情感詞個數(shù)和比例，負面情感詞個數(shù)和比例，共計20個特征，其中比例按照詞個數(shù)除W句子中的單詞總數(shù)計算。
[0012] 上述步驟2)和步驟6)中將連續(xù)的情感評分離散化為H個極性的方法是： 1)正面，評分大于等于t，t為闊值，取值空間為化02^0. 2]，建議取值0. 1 ;此時評分為1 ; 2) 負面，評分小于等于-t，t含義同上；此時評分為-I ; 3) 中性，評分介于-t和t之間，t含義同上；此時評分為0。
[0013] 上述步驟6)的具體過程是；給定目標評論D =怯。S2，. . .，Sm}，其中Si為句子，m為評論中的句子總數(shù)，采用下述公式獲得綜合評分V(D):

【權(quán)利要求】
1. 一種基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法，其特征在于包含以下步驟： 1) 獲取網(wǎng)絡(luò)中同一主題下的用戶評論，以句子為單位組織這些評論；給定主題T，T = (R1, R2, ...}表示主題T下的所有用戶評論；獲取這些評論后，對其中的一個評論R，將其分割為句子集合，即：R= (S1, S2，…}，其中S代表一個句子； 2) 基于句子中的情感詞，對每一個句子完成情感評分； 3) 以句子和對應(yīng)的情感評分作為輸入，按用戶單位，訓(xùn)練隱馬爾可夫SVM模型 (Hmm-SVM)； 4) 針對待評分的目標評論，采用Hmm-SVM模型為評論中的每一個句子評分； 5) 針對待評分的目標評論，采用步驟2)方法對每一個句子評分； 6) 采用加權(quán)平均法，綜合步驟4)及步驟5)兩個方面的評分，獲得目標評論的推薦度評分。
2. 根據(jù)權(quán)利要求1所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法，其特征在于，上述步驟2)的處理流程是：首先將句子S解析成單詞的序列S = Cw1, W2, ...，wn>，其中 w為單詞，n為句子中包含的單詞總數(shù)；然后對照情感詞庫，提取其中的情感詞和程度詞；分別對情感詞和程度詞打分；接下來針對情感詞和程度詞的組合打分；完成單詞組合打分后，匯總成句子的情感評分，其公式如下：
其中R代表待評分的句子，代表對單詞或詞組的評分，n為句子中的單詞總數(shù)；最后將句子的情感評分離散化為三個極性：正面、負面、中性。
3. 根據(jù)權(quán)利要求2所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法，其特征在于，上述步驟2)中對情感詞和程度詞打分的過程是，依據(jù)已制定和公開的情感詞庫將情感詞分成正反兩個極性，其中正面極性打分為1 ;負面極性打分為-1 ;參照已制定和公開的情感詞庫：將程度詞分為正向及反向兩個等級：其中正向等級打分為1 ;反向等級打分為-1。
4. 根據(jù)權(quán)利要求3所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法，其特征在于，上述步驟2)中對情感詞和程度詞的組合打分的過程分三種情況： 1) 情感詞單獨出現(xiàn)，其前后沒有程度詞：按照情感詞極性直接打分； 2) 程度詞單獨出現(xiàn)，其前后沒有情感詞：忽略程度詞； 3) 情感詞和程度詞成對出現(xiàn)：分數(shù)為情感詞和程度詞打分的乘積。
5. 根據(jù)權(quán)利要求4所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法，其特征在于，步驟2)中將句子的情感評分離散化為三個極性：正面、負面、中性的具體評分標準為： 1) 正面，評分大于等于t，t為閾值，取值空間為[0.02、. 2]，建議取值0. 1 ;此時評分為1 ; 2) 負面，評分小于等于_t，t含義同上；此時評分為-1 ; 3) 中性，評分介于-t和t之間，t含義同上；此時評分為0。
6. 根據(jù)權(quán)利要求5所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法，其特征在于，上述步驟3)中按用戶單位訓(xùn)練隱馬爾可夫SVM模型的處理過程是：首先以用戶為單位，收集用戶U在主題下的所有評論中的句子，組成一個句子序列；然后將序列中的句子排序，即 U =〈Si，s2，... >，排序規(guī)則是：屬于同一評論的按先后次序，屬于不同評論則按時間順序；接下來以句子為單位，提取文本特征，將句子S轉(zhuǎn)換為一個有標記的特征向量S = <fl， f2，...，v>，其中f為文本特征值，V為離散化的情感評分；最后按照用戶單位，以句子序列對應(yīng)的特征向量序列作為輸入，訓(xùn)練隱馬爾可夫SVM模型。
7. 根據(jù)權(quán)利要求6所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法，其特征在于，上述步驟3)中以句子為單位提取的文本特征包括：形容詞的個數(shù)和比例，副詞的個數(shù)和比例；感嘆詞個數(shù)和比例，介詞的個數(shù)和比例，代詞的個數(shù)和比例，動詞的個數(shù)和比例，連詞的個數(shù)和比例，名詞的個數(shù)和比例，正面情感詞個數(shù)和比例，負面情感詞個數(shù)和比例，共計20 個特征，其中比例按照詞個數(shù)除以句子中的單詞總數(shù)計算。
8. 根據(jù)權(quán)利要求6或7所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法，其特征在于，上述步驟4)中采用Hmm-SVM模型為目標評論中的句子評分的處理過程是：首先將目標評論D分割為句子集合D= (S1, S2, ...}，其中S為句子；然后以句子為單位，提取文本特征，將這些句子轉(zhuǎn)換為無標記的文本特征向量S =〈f\，f2，...>，其中f為文本特征值；最后將特征向量序列，按評論中出現(xiàn)的先后次序排序輸入訓(xùn)練后的Hmm-SVM模型，獲得目標評論中每一個句子的情感極性。
9. 根據(jù)權(quán)利要求8所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法，其特征在于，上述步驟4)中以句子為單位提取的文本特征包括：形容詞的個數(shù)和比例，副詞的個數(shù)和比例；感嘆詞個數(shù)和比例，介詞的個數(shù)和比例，代詞的個數(shù)和比例，動詞的個數(shù)和比例，連詞的個數(shù)和比例，名詞的個數(shù)和比例，正面情感詞個數(shù)和比例，負面情感詞個數(shù)和比例，共計20 個特征，其中比例按照詞個數(shù)除以句子中的單詞總數(shù)計算。
10. 根據(jù)權(quán)利要求9所述的基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法，其特征在于，步驟6)的具體過程是：給定目標評論D= (S1, S2, ...，Sm}，其中SiS句子，m為評論中的句子總數(shù)，采用下述公式獲得綜合評分V(D):
其中V1(Si)代表Hmm-SVM模型對句子Si的情感評分，V 2(Si)代表基于情感詞對句子 Si的評分，w是權(quán)重，取值空間為[0. 4、. 6]，建議取值0. 5 ;如此計算出的評分是一個連續(xù) 值，可以進一步將其離散化為三個極性：正面、負面、中性，其中正面代表推薦，負面代表不推薦，中性代表中立。
【文檔編號】G06F17/30GK104331451SQ201410595741
【公開日】2015年2月4日申請日期:2014年10月30日優(yōu)先權(quán)日:2014年10月30日
【發(fā)明者】許超, 蔣智威, 顧慶, 王曉亮, 陳道蓄申請人:南京大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許超;蔣智威;顧慶;王曉亮;陳道蓄
技術(shù)所有人：南京大學(xué)
我是此專利的發(fā)明人

上一篇：一種基于視頻識別的身份認證方法及其系統(tǒng)的制作方法
上一篇：一種筆記本電腦散熱墊的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于主題的網(wǎng)絡(luò)用戶評論的推薦度評分方法