一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng)的制作方法

文檔序號(hào)：6628134閱讀：225來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng)。上述方法包括以下步驟。S1、將待用數(shù)據(jù)分為K份，并取其中1份作為測(cè)試樣本，其余K-1份作為訓(xùn)練樣本。S2、使用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)所述測(cè)試樣本進(jìn)行分類，并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù)。S3、將所有樣本根據(jù)情感代表性分值從大到小排序，并根據(jù)壓縮規(guī)模N，抽取排在前面的N個(gè)樣本作為壓縮樣本集。本發(fā)明能夠有效的壓縮評(píng)論語(yǔ)料，并最大程度上保存原語(yǔ)料的情感分類信息，達(dá)到了在小存儲(chǔ)容量的移動(dòng)設(shè)備上實(shí)現(xiàn)情感分類任務(wù)的目的。
【專利說(shuō)明】一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理【技術(shù)領(lǐng)域】及模式識(shí)別領(lǐng)域，具體涉及一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng)。

【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的迅猛發(fā)展，人們?cè)絹?lái)越習(xí)慣于在網(wǎng)絡(luò)上表達(dá)自己的觀點(diǎn)，從而使網(wǎng)絡(luò)上涌現(xiàn)出大量帶情感的文本。這些傾向性文本往往以商品評(píng)論、論壇評(píng)論和博客的形式存在。這些文本往往是關(guān)鍵文本，或者是用戶感興趣的文本。如何從海量文本中提取這一類文本，并對(duì)其進(jìn)行情感傾向性的分析，具有很強(qiáng)的應(yīng)用價(jià)值。例如:用戶可以根據(jù)商品的評(píng)論了解商品的信息，選擇合適的品牌；商家根據(jù)用戶的評(píng)論改進(jìn)商品的品質(zhì)，爭(zhēng)取更大的市場(chǎng)；追蹤社會(huì)輿論趨勢(shì)，發(fā)現(xiàn)社會(huì)熱點(diǎn)問(wèn)題等。情感分析就是針對(duì)這些應(yīng)用問(wèn)題提出的一個(gè)新興研究課題。
[0003]所謂文本傾向性分析，就是對(duì)說(shuō)話人的態(tài)度(或稱觀點(diǎn)、情感)進(jìn)行分析，也就是對(duì)文本中的主觀性信息進(jìn)行分析。情感分類(Sentiment Classificat1n)是情感分析中的一個(gè)基本任務(wù)。該任務(wù)旨在將文本按照情感傾向進(jìn)行褒貶分類。與傳統(tǒng)基于主題的文本分類相比，情感分類被認(rèn)為更具有挑戰(zhàn)性。該任務(wù)具體是指將文本分為正面文本或者負(fù)面文本的任務(wù)。例如:“我很喜歡這部電影”，通過(guò)情感分類，這句話將被分為正面文本；而“這個(gè)電影很差勁”，被分類為負(fù)面文本。
[0004]目前，主流的情感分類方法大致可以分為兩種。
[0005]第一種分類方法是基于情感詞表的非監(jiān)督學(xué)習(xí)方法，這種方法主要是基于詞計(jì)數(shù)的方法。利用情感詞表去統(tǒng)計(jì)樣本中正面情感詞和負(fù)面情感詞的數(shù)目，如果正面詞的數(shù)目多于負(fù)面詞的數(shù)目，則判斷樣本為正面樣本，否則為負(fù)面樣本。該方法的實(shí)現(xiàn)非常簡(jiǎn)單，執(zhí)行效率高，適合任何領(lǐng)域，但是分類效果與實(shí)際需求仍存在較大差距。
[0006]第二種是基于機(jī)器學(xué)習(xí)的監(jiān)督分類方法，該方法分為兩個(gè)過(guò)程:訓(xùn)練過(guò)程和分類過(guò)程。其中，在訓(xùn)練過(guò)程中，需要人工標(biāo)注一定規(guī)模的正負(fù)樣本。這種方法的分類準(zhǔn)確率比較高，但是隨著訓(xùn)練樣本數(shù)目的增加，特征數(shù)目也隨之大幅度地提高，分類過(guò)程中需要占用大量的內(nèi)存空間，對(duì)于移動(dòng)終端設(shè)備往往受到內(nèi)存容量的限制，很難進(jìn)行文本分類的任務(wù)。
[0007]另外，對(duì)于一些特殊的任務(wù)，如不平衡情感分類任務(wù)，其中某一類別的樣本數(shù)目遠(yuǎn)遠(yuǎn)多于另一類別的樣本數(shù)目，樣本數(shù)目的不平衡往往導(dǎo)致很差的分類效果。
[0008]鑒于上述原因，本發(fā)明提供一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng)，對(duì)評(píng)論語(yǔ)料進(jìn)行壓縮，使之最大程度上保留情感分類信息，從而能夠適應(yīng)于移動(dòng)設(shè)備上的情感分類任務(wù)，以及為某些特殊的任務(wù)(如不平衡情感分類任務(wù))提供服務(wù)，以實(shí)現(xiàn)對(duì)多類別的語(yǔ)料進(jìn)行壓縮。

【發(fā)明內(nèi)容】

[0009]為了更好地理解本發(fā)明，首先將本發(fā)明涉及的常用的術(shù)語(yǔ)與標(biāo)記介紹如下。
[0010]機(jī)器學(xué)習(xí)分類方法(Classificat1nMethods Based on Machine Learning):用于構(gòu)建分類器的統(tǒng)計(jì)學(xué)習(xí)方法，輸入是表示樣本的向量，輸出是樣本的類別標(biāo)簽。常見(jiàn)的機(jī)器學(xué)習(xí)分類方法有樸素貝葉斯、最大熵、支持向量機(jī)等。評(píng)論語(yǔ)料:對(duì)產(chǎn)品進(jìn)行評(píng)論的文本。情感分類:通過(guò)分析文本的主觀性信息，將文本分為褒義文本或者貶義文本的任務(wù)。
[0011]本發(fā)明提供一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法，包括以下步驟。
[0012]S1、將待用數(shù)據(jù)分為K份，并取其中I份作為測(cè)試樣本，其余K-1份作為訓(xùn)練樣本。
[0013]S2、使用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)所述測(cè)試樣本進(jìn)行分類，并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù)。
[0014]S3、將所有樣本根據(jù)情感代表性分值從大到小排序，并根據(jù)壓縮規(guī)模N，抽取排在前面的N個(gè)樣本作為壓縮樣本集。
[0015]優(yōu)選的，在步驟SI中，對(duì)所述待用數(shù)據(jù)采用順序切分或者隨機(jī)抽取的方式，組成K份均等的樣本集。
[0016]優(yōu)選的，在步驟SI中，每次從K份中取其中I份作為測(cè)試樣本，剩下的K-1份作為訓(xùn)練樣本，共循環(huán)迭代K次。
[0017]優(yōu)選的，在步驟S2中，使用的機(jī)器學(xué)習(xí)方法為最大熵的機(jī)器學(xué)習(xí)方法。
[0018]優(yōu)選的，在步驟S2中，所述后驗(yàn)概率是使用機(jī)器學(xué)習(xí)方法訓(xùn)練的分類器對(duì)樣本進(jìn)行分類時(shí)獲得的。
[0019]優(yōu)選的，在步驟S2中，使用機(jī)器學(xué)習(xí)的分類方法在訓(xùn)練樣本上進(jìn)行訓(xùn)練，并對(duì)測(cè)試樣本進(jìn)行分類，得到其屬于每個(gè)類別的后驗(yàn)概率。
[0020]優(yōu)選的，在步驟S3中，所述排在前面的N個(gè)樣本作為壓縮樣本集，并作為最終的壓縮結(jié)果。
[0021]本發(fā)明還提供一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮系統(tǒng)，包括情感代表性打分模塊和壓縮模塊，所述情感代表性打分模塊連接壓縮模塊。所述情感代表性打分模塊，包括預(yù)處理裝置及分類裝置，所述預(yù)處理裝置連接分類裝置。所述預(yù)處理裝置，用于將待用數(shù)據(jù)分為K份，并取其中I份作為測(cè)試樣本，其余K-1份作為訓(xùn)練樣本。所述分類裝置，用于使用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)所述測(cè)試樣本進(jìn)行分類，并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù)。所述壓縮模塊，包括排序裝置及輸出裝置，所述排序裝置連接輸出裝置。所述排序裝置，用于將所有樣本根據(jù)情感代表性分值從大到小排序。所述輸出裝置，用于根據(jù)壓縮規(guī)模N，抽取排在前面的N個(gè)樣本作為壓縮樣本集。
[0022]通過(guò)本發(fā)明提供的應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng)，采用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)測(cè)試樣本進(jìn)行分類，并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù)。同時(shí)，將所有樣本根據(jù)情感代表性分值從大到小排序，并抽取排在前面的N個(gè)樣本作為壓縮樣本集。如此，能夠有效的壓縮評(píng)論語(yǔ)料，并最大程度上保存原語(yǔ)料的情感分類信息，達(dá)到了在小存儲(chǔ)容量的移動(dòng)設(shè)備上實(shí)現(xiàn)情感分類任務(wù)的目的。

【專利附圖】

【附圖說(shuō)明】
[0023]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0024]圖1是本發(fā)明較佳實(shí)施例提供的應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法流程圖；
[0025]圖2是本發(fā)明較佳實(shí)施例提供的對(duì)樣本進(jìn)行情感代表性打分的算法流程圖；
[0026]圖3是本發(fā)明較佳實(shí)施例提供的壓縮過(guò)程的算法流程圖；
[0027]圖4是本發(fā)明較佳實(shí)施例提供的應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮系統(tǒng)示意圖。

【具體實(shí)施方式】
[0028]下文中將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。需要說(shuō)明的是，在不沖突的情況下，本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0029]圖1是本發(fā)明較佳實(shí)施例提供的應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法流程圖。如圖1所示，本發(fā)明較佳實(shí)施例提供的應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法包括步驟Si~S3。
[0030]步驟S1:將待用數(shù)據(jù)分為K份，并取其中1份作為測(cè)試樣本，其余K-1份作為訓(xùn)練樣本。
[0031]具體而言，本實(shí)施例中，對(duì)所述待用數(shù)據(jù)采用順序切分或者隨機(jī)抽取的方式，組成K份均等的樣本集。其中，每次從K份中取其中1份作為測(cè)試樣本，剩下的K-1份作為訓(xùn)練樣本，共循環(huán)迭代K次。
[0032]步驟S2:使用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)所述測(cè)試樣本進(jìn)行分類，并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù)。
[0033]具體而言，所述后驗(yàn)概率是使用機(jī)器學(xué)習(xí)方法訓(xùn)練的分類器對(duì)樣本進(jìn)行分類時(shí)獲得的。使用機(jī)器學(xué)習(xí)的分類方法在訓(xùn)練樣本上進(jìn)行訓(xùn)練，并對(duì)測(cè)試樣本進(jìn)行分類，得到其屬于每個(gè)類別的后驗(yàn)概率。
[0034]圖2是本發(fā)明較佳實(shí)施例提供的對(duì)樣本進(jìn)行情感代表性打分的算法流程圖。本實(shí)施例中，文檔采用TF向量表示法，即文檔向量的分量為相應(yīng)的單詞在該文檔中出現(xiàn)的頻度。文本的向量作為機(jī)器學(xué)習(xí)分類方法實(shí)現(xiàn)的分類器的輸入。
[0035]本步驟中所使用的機(jī)器學(xué)習(xí)方法包括K近鄰，貝葉斯，最大熵，SVM等，本實(shí)施例使用的機(jī)器學(xué)習(xí)方法為最大熵的機(jī)器學(xué)習(xí)方法。于此，最大熵分類方法是基于最大熵信息理論，其基本思想是為所有已知的因素建立模型，而把所有未知的因素排除在外。也就是說(shuō)，要找到一種概率分布，滿足所有已知的事實(shí)，但是讓未知的因素最隨機(jī)化。相對(duì)于樸素貝葉斯方法，該方法最大的特點(diǎn)就是不需要滿足特征與特征之間的條件獨(dú)立。因此，該方法適合融合各種不一樣的特征，而無(wú)需考慮它們之間的影響。
[0036]在最大熵模型下，預(yù)測(cè)條件概率P (c I D)的公式如下:
[0037]

【權(quán)利要求】
1.一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法，其特征在于，包括以下步驟: 51、將待用數(shù)據(jù)分為K份，并取其中I份作為測(cè)試樣本，其余K-1份作為訓(xùn)練樣本； 52、使用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)所述測(cè)試樣本進(jìn)行分類，并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù)； 53、將所有樣本根據(jù)情感代表性分值從大到小排序，并根據(jù)壓縮規(guī)模N，抽取排在前面的N個(gè)樣本作為壓縮樣本集。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，在步驟SI中，對(duì)所述待用數(shù)據(jù)采用順序切分或者隨機(jī)抽取的方式，組成K份均等的樣本集。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，在步驟SI中，每次從K份中取其中I份作為測(cè)試樣本，剩下的K-1份作為訓(xùn)練樣本，共循環(huán)迭代K次。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，在步驟S2中，使用的機(jī)器學(xué)習(xí)方法為最大熵的機(jī)器學(xué)習(xí)方法。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，在步驟S2中，所述后驗(yàn)概率是使用機(jī)器學(xué)習(xí)方法訓(xùn)練的分類器對(duì)樣本進(jìn)行分類時(shí)獲得的。
6.根據(jù)權(quán)利要求1所述的方法，其特征在于，在步驟S2中，使用機(jī)器學(xué)習(xí)的分類方法在訓(xùn)練樣本上進(jìn)行訓(xùn)練，并對(duì)測(cè)試樣本進(jìn)行分類，得到其屬于每個(gè)類別的后驗(yàn)概率。
7.根據(jù)權(quán)利要求1所述的方法，其特征在于，在步驟S3中，所述排在前面的N個(gè)樣本作為壓縮樣本集，并作為最終的壓縮結(jié)果。
8.一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮系統(tǒng)，其特征在于，包括情感代表性打分模塊和壓縮模塊，所述情感代表性打分模塊連接壓縮模塊，所述情感代表性打分模塊，包括預(yù)處理裝置及分類裝置，所述預(yù)處理裝置連接分類裝置，所述預(yù)處理裝置，用于將待用數(shù)據(jù)分為K份，并取其中I份作為測(cè)試樣本，其余K-1份作為訓(xùn)練樣本；所述分類裝置，用于使用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)所述測(cè)試樣本進(jìn)行分類，并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù)；所述壓縮模塊，包括排序裝置及輸出裝置，所述排序裝置連接輸出裝置，所述排序裝置，用于將所有樣本根據(jù)情感代表性分值從大到小排序；所述輸出裝置，用于根據(jù)壓縮規(guī)模N，抽取排在前面的N個(gè)樣本作為壓縮樣本集。
【文檔編號(hào)】G06F17/27GK104199980SQ201410494394
【公開(kāi)日】2014年12月10日申請(qǐng)日期:2014年9月24日優(yōu)先權(quán)日:2014年9月24日
【發(fā)明者】李壽山, 高偉, 周國(guó)棟, 王紅玲申請(qǐng)人:蘇州大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李壽山;高偉;周國(guó)棟;王紅玲
技術(shù)所有人：蘇州大學(xué)
我是此專利的發(fā)明人

上一篇：觸控面板及觸控點(diǎn)的確定方法、顯示裝置制造方法
上一篇：一種控制html輸入框輸入長(zhǎng)度的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

不可預(yù)料壓縮文件末端相關(guān)技術(shù)

金屬材料壓縮試驗(yàn)標(biāo)準(zhǔn)相關(guān)技術(shù)

不可壓縮材料相關(guān)技術(shù)

廢料壓縮打包機(jī)相關(guān)技術(shù)

不可預(yù)料的壓縮末端相關(guān)技術(shù)

壓縮彈簧材料相關(guān)技術(shù)

往復(fù)式壓縮機(jī)填料密封相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng)的制作方法