一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng)。上述方法包括以下步驟。S1、將待用數(shù)據(jù)分為K份,并取其中1份作為測(cè)試樣本,其余K-1份作為訓(xùn)練樣本。S2、使用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)所述測(cè)試樣本進(jìn)行分類,并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù)。S3、將所有樣本根據(jù)情感代表性分值從大到小排序,并根據(jù)壓縮規(guī)模N,抽取排在前面的N個(gè)樣本作為壓縮樣本集。本發(fā)明能夠有效的壓縮評(píng)論語(yǔ)料,并最大程度上保存原語(yǔ)料的情感分類信息,達(dá)到了在小存儲(chǔ)容量的移動(dòng)設(shè)備上實(shí)現(xiàn)情感分類任務(wù)的目的。
【專利說(shuō)明】一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理【技術(shù)領(lǐng)域】及模式識(shí)別領(lǐng)域,具體涉及一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人們?cè)絹?lái)越習(xí)慣于在網(wǎng)絡(luò)上表達(dá)自己的觀點(diǎn),從而使網(wǎng)絡(luò)上涌現(xiàn)出大量帶情感的文本。這些傾向性文本往往以商品評(píng)論、論壇評(píng)論和博客的形式存在。這些文本往往是關(guān)鍵文本,或者是用戶感興趣的文本。如何從海量文本中提取這一類文本,并對(duì)其進(jìn)行情感傾向性的分析,具有很強(qiáng)的應(yīng)用價(jià)值。例如:用戶可以根據(jù)商品的評(píng)論了解商品的信息,選擇合適的品牌;商家根據(jù)用戶的評(píng)論改進(jìn)商品的品質(zhì),爭(zhēng)取更大的市場(chǎng);追蹤社會(huì)輿論趨勢(shì),發(fā)現(xiàn)社會(huì)熱點(diǎn)問(wèn)題等。情感分析就是針對(duì)這些應(yīng)用問(wèn)題提出的一個(gè)新興研究課題。
[0003]所謂文本傾向性分析,就是對(duì)說(shuō)話人的態(tài)度(或稱觀點(diǎn)、情感)進(jìn)行分析,也就是對(duì)文本中的主觀性信息進(jìn)行分析。情感分類(Sentiment Classificat1n)是情感分析中的一個(gè)基本任務(wù)。該任務(wù)旨在將文本按照情感傾向進(jìn)行褒貶分類。與傳統(tǒng)基于主題的文本分類相比,情感分類被認(rèn)為更具有挑戰(zhàn)性。該任務(wù)具體是指將文本分為正面文本或者負(fù)面文本的任務(wù)。例如:“我很喜歡這部電影”,通過(guò)情感分類,這句話將被分為正面文本;而“這個(gè)電影很差勁”,被分類為負(fù)面文本。
[0004]目前,主流的情感分類方法大致可以分為兩種。
[0005]第一種分類方法是基于情感詞表的非監(jiān)督學(xué)習(xí)方法,這種方法主要是基于詞計(jì)數(shù)的方法。利用情感詞表去統(tǒng)計(jì)樣本中正面情感詞和負(fù)面情感詞的數(shù)目,如果正面詞的數(shù)目多于負(fù)面詞的數(shù)目,則判斷樣本為正面樣本,否則為負(fù)面樣本。該方法的實(shí)現(xiàn)非常簡(jiǎn)單,執(zhí)行效率高,適合任何領(lǐng)域,但是分類效果與實(shí)際需求仍存在較大差距。
[0006]第二種是基于機(jī)器學(xué)習(xí)的監(jiān)督分類方法,該方法分為兩個(gè)過(guò)程:訓(xùn)練過(guò)程和分類過(guò)程。其中,在訓(xùn)練過(guò)程中,需要人工標(biāo)注一定規(guī)模的正負(fù)樣本。這種方法的分類準(zhǔn)確率比較高,但是隨著訓(xùn)練樣本數(shù)目的增加,特征數(shù)目也隨之大幅度地提高,分類過(guò)程中需要占用大量的內(nèi)存空間,對(duì)于移動(dòng)終端設(shè)備往往受到內(nèi)存容量的限制,很難進(jìn)行文本分類的任務(wù)。
[0007]另外,對(duì)于一些特殊的任務(wù),如不平衡情感分類任務(wù),其中某一類別的樣本數(shù)目遠(yuǎn)遠(yuǎn)多于另一類別的樣本數(shù)目,樣本數(shù)目的不平衡往往導(dǎo)致很差的分類效果。
[0008]鑒于上述原因,本發(fā)明提供一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng),對(duì)評(píng)論語(yǔ)料進(jìn)行壓縮,使之最大程度上保留情感分類信息,從而能夠適應(yīng)于移動(dòng)設(shè)備上的情感分類任務(wù),以及為某些特殊的任務(wù)(如不平衡情感分類任務(wù))提供服務(wù),以實(shí)現(xiàn)對(duì)多類別的語(yǔ)料進(jìn)行壓縮。
【發(fā)明內(nèi)容】
[0009]為了更好地理解本發(fā)明,首先將本發(fā)明涉及的常用的術(shù)語(yǔ)與標(biāo)記介紹如下。
[0010]機(jī)器學(xué)習(xí)分類方法(Classificat1nMethods Based on Machine Learning):用于構(gòu)建分類器的統(tǒng)計(jì)學(xué)習(xí)方法,輸入是表示樣本的向量,輸出是樣本的類別標(biāo)簽。常見(jiàn)的機(jī)器學(xué)習(xí)分類方法有樸素貝葉斯、最大熵、支持向量機(jī)等。評(píng)論語(yǔ)料:對(duì)產(chǎn)品進(jìn)行評(píng)論的文本。情感分類:通過(guò)分析文本的主觀性信息,將文本分為褒義文本或者貶義文本的任務(wù)。
[0011]本發(fā)明提供一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法,包括以下步驟。
[0012]S1、將待用數(shù)據(jù)分為K份,并取其中I份作為測(cè)試樣本,其余K-1份作為訓(xùn)練樣本。
[0013]S2、使用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)所述測(cè)試樣本進(jìn)行分類,并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù)。
[0014]S3、將所有樣本根據(jù)情感代表性分值從大到小排序,并根據(jù)壓縮規(guī)模N,抽取排在前面的N個(gè)樣本作為壓縮樣本集。
[0015]優(yōu)選的,在步驟SI中,對(duì)所述待用數(shù)據(jù)采用順序切分或者隨機(jī)抽取的方式,組成K份均等的樣本集。
[0016]優(yōu)選的,在步驟SI中,每次從K份中取其中I份作為測(cè)試樣本,剩下的K-1份作為訓(xùn)練樣本,共循環(huán)迭代K次。
[0017]優(yōu)選的,在步驟S2中,使用的機(jī)器學(xué)習(xí)方法為最大熵的機(jī)器學(xué)習(xí)方法。
[0018]優(yōu)選的,在步驟S2中,所述后驗(yàn)概率是使用機(jī)器學(xué)習(xí)方法訓(xùn)練的分類器對(duì)樣本進(jìn)行分類時(shí)獲得的。
[0019]優(yōu)選的,在步驟S2中,使用機(jī)器學(xué)習(xí)的分類方法在訓(xùn)練樣本上進(jìn)行訓(xùn)練,并對(duì)測(cè)試樣本進(jìn)行分類,得到其屬于每個(gè)類別的后驗(yàn)概率。
[0020]優(yōu)選的,在步驟S3中,所述排在前面的N個(gè)樣本作為壓縮樣本集,并作為最終的壓縮結(jié)果。
[0021]本發(fā)明還提供一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮系統(tǒng),包括情感代表性打分模塊和壓縮模塊,所述情感代表性打分模塊連接壓縮模塊。所述情感代表性打分模塊,包括預(yù)處理裝置及分類裝置,所述預(yù)處理裝置連接分類裝置。所述預(yù)處理裝置,用于將待用數(shù)據(jù)分為K份,并取其中I份作為測(cè)試樣本,其余K-1份作為訓(xùn)練樣本。所述分類裝置,用于使用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)所述測(cè)試樣本進(jìn)行分類,并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù)。所述壓縮模塊,包括排序裝置及輸出裝置,所述排序裝置連接輸出裝置。所述排序裝置,用于將所有樣本根據(jù)情感代表性分值從大到小排序。所述輸出裝置,用于根據(jù)壓縮規(guī)模N,抽取排在前面的N個(gè)樣本作為壓縮樣本集。
[0022]通過(guò)本發(fā)明提供的應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法及系統(tǒng),采用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)測(cè)試樣本進(jìn)行分類,并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù)。同時(shí),將所有樣本根據(jù)情感代表性分值從大到小排序,并抽取排在前面的N個(gè)樣本作為壓縮樣本集。如此,能夠有效的壓縮評(píng)論語(yǔ)料,并最大程度上保存原語(yǔ)料的情感分類信息,達(dá)到了在小存儲(chǔ)容量的移動(dòng)設(shè)備上實(shí)現(xiàn)情感分類任務(wù)的目的。
【專利附圖】
【附圖說(shuō)明】
[0023]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0024]圖1是本發(fā)明較佳實(shí)施例提供的應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法流程圖;
[0025]圖2是本發(fā)明較佳實(shí)施例提供的對(duì)樣本進(jìn)行情感代表性打分的算法流程圖;
[0026]圖3是本發(fā)明較佳實(shí)施例提供的壓縮過(guò)程的算法流程圖;
[0027]圖4是本發(fā)明較佳實(shí)施例提供的應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮系統(tǒng)示意圖。
【具體實(shí)施方式】
[0028]下文中將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0029]圖1是本發(fā)明較佳實(shí)施例提供的應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法流程圖。如圖1所示,本發(fā)明較佳實(shí)施例提供的應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法包括步驟Si~S3。
[0030]步驟S1:將待用數(shù)據(jù)分為K份,并取其中1份作為測(cè)試樣本,其余K-1份作為訓(xùn)練樣本。
[0031]具體而言,本實(shí)施例中,對(duì)所述待用數(shù)據(jù)采用順序切分或者隨機(jī)抽取的方式,組成K份均等的樣本集。其中,每次從K份中取其中1份作為測(cè)試樣本,剩下的K-1份作為訓(xùn)練樣本,共循環(huán)迭代K次。
[0032]步驟S2:使用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)所述測(cè)試樣本進(jìn)行分類,并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù)。
[0033]具體而言,所述后驗(yàn)概率是使用機(jī)器學(xué)習(xí)方法訓(xùn)練的分類器對(duì)樣本進(jìn)行分類時(shí)獲得的。使用機(jī)器學(xué)習(xí)的分類方法在訓(xùn)練樣本上進(jìn)行訓(xùn)練,并對(duì)測(cè)試樣本進(jìn)行分類,得到其屬于每個(gè)類別的后驗(yàn)概率。
[0034]圖2是本發(fā)明較佳實(shí)施例提供的對(duì)樣本進(jìn)行情感代表性打分的算法流程圖。本實(shí)施例中,文檔采用TF向量表示法,即文檔向量的分量為相應(yīng)的單詞在該文檔中出現(xiàn)的頻度。文本的向量作為機(jī)器學(xué)習(xí)分類方法實(shí)現(xiàn)的分類器的輸入。
[0035]本步驟中所使用的機(jī)器學(xué)習(xí)方法包括K近鄰,貝葉斯,最大熵,SVM等,本實(shí)施例使用的機(jī)器學(xué)習(xí)方法為最大熵的機(jī)器學(xué)習(xí)方法。于此,最大熵分類方法是基于最大熵信息理論,其基本思想是為所有已知的因素建立模型,而把所有未知的因素排除在外。也就是說(shuō),要找到一種概率分布,滿足所有已知的事實(shí),但是讓未知的因素最隨機(jī)化。相對(duì)于樸素貝葉斯方法,該方法最大的特點(diǎn)就是不需要滿足特征與特征之間的條件獨(dú)立。因此,該方法適合融合各種不一樣的特征,而無(wú)需考慮它們之間的影響。
[0036]在最大熵模型下,預(yù)測(cè)條件概率P (c I D)的公式如下:
[0037]
【權(quán)利要求】
1.一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮方法,其特征在于,包括以下步驟: 51、將待用數(shù)據(jù)分為K份,并取其中I份作為測(cè)試樣本,其余K-1份作為訓(xùn)練樣本; 52、使用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)所述測(cè)試樣本進(jìn)行分類,并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù); 53、將所有樣本根據(jù)情感代表性分值從大到小排序,并根據(jù)壓縮規(guī)模N,抽取排在前面的N個(gè)樣本作為壓縮樣本集。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟SI中,對(duì)所述待用數(shù)據(jù)采用順序切分或者隨機(jī)抽取的方式,組成K份均等的樣本集。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟SI中,每次從K份中取其中I份作為測(cè)試樣本,剩下的K-1份作為訓(xùn)練樣本,共循環(huán)迭代K次。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S2中,使用的機(jī)器學(xué)習(xí)方法為最大熵的機(jī)器學(xué)習(xí)方法。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S2中,所述后驗(yàn)概率是使用機(jī)器學(xué)習(xí)方法訓(xùn)練的分類器對(duì)樣本進(jìn)行分類時(shí)獲得的。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S2中,使用機(jī)器學(xué)習(xí)的分類方法在訓(xùn)練樣本上進(jìn)行訓(xùn)練,并對(duì)測(cè)試樣本進(jìn)行分類,得到其屬于每個(gè)類別的后驗(yàn)概率。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S3中,所述排在前面的N個(gè)樣本作為壓縮樣本集,并作為最終的壓縮結(jié)果。
8.一種應(yīng)用于評(píng)論語(yǔ)料的情感信息壓縮系統(tǒng),其特征在于,包括情感代表性打分模塊和壓縮模塊,所述情感代表性打分模塊連接壓縮模塊, 所述情感代表性打分模塊,包括預(yù)處理裝置及分類裝置,所述預(yù)處理裝置連接分類裝置, 所述預(yù)處理裝置,用于將待用數(shù)據(jù)分為K份,并取其中I份作為測(cè)試樣本,其余K-1份作為訓(xùn)練樣本; 所述分類裝置,用于使用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)所述測(cè)試樣本進(jìn)行分類,并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù); 所述壓縮模塊,包括排序裝置及輸出裝置,所述排序裝置連接輸出裝置, 所述排序裝置,用于將所有樣本根據(jù)情感代表性分值從大到小排序; 所述輸出裝置,用于根據(jù)壓縮規(guī)模N,抽取排在前面的N個(gè)樣本作為壓縮樣本集。
【文檔編號(hào)】G06F17/27GK104199980SQ201410494394
【公開(kāi)日】2014年12月10日 申請(qǐng)日期:2014年9月24日 優(yōu)先權(quán)日:2014年9月24日
【發(fā)明者】李壽山, 高偉, 周國(guó)棟, 王紅玲 申請(qǐng)人:蘇州大學(xué)