亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向中文Web評論的文本情感分類方法

文檔序號:6399353閱讀:326來源:國知局
專利名稱:一種面向中文Web評論的文本情感分類方法
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,具體地涉及一種面向中文Web評論的文本情感分類方法。
背景技術(shù)
文本作為一種重要的信息交互媒介,主要的功能是傳情達(dá)意,基于內(nèi)容的研究已經(jīng)很成熟,近些年來越來越多的研究開始集中到“傳情”上即情感分析,主要的研究內(nèi)容包括詞語的語義傾向識別、基于情感的文本分類、觀點提取、主觀性分析等。對一篇文檔而言,能對其語義傾向起到?jīng)Q定性作用的主要是構(gòu)成這篇文檔所用的詞語。所以,對文本進(jìn)行基于情感的文本分類的基礎(chǔ)是判定詞的語義傾向。但是目前,不論是英語還是漢語,都沒有一個完整的涵蓋詞語語義傾向的詞典,也不可能有這樣的一個完備的詞典,因為很多的詞語在不同語境中它的語義傾向也不盡相同。Hatzivassiloglou等根據(jù)詞語之間關(guān)系來判定其語義傾向,他們注意到形容詞的語義傾向受連接它們的連接詞“and”、“but”等約束,知道其中一個詞的語義傾向,就可以推測出另一個。如“excellent and X”,可以推測X也是褒義的。根據(jù)語言學(xué)上連接詞對語義傾向約束性的分析,他們提出了一種四步法的有監(jiān)督學(xué)習(xí)算法來判斷一個形容詞的語義傾向。Turney在其論文中介紹了兩種利用詞語與具有明顯語義傾向的種子詞語之間統(tǒng)計關(guān)系來自動識別詞語語義傾向的方法:PMI2IR和LSA。Esuli通過對一個詞語的注釋(從詞典中獲得)進(jìn)行訓(xùn)練和分類,從而判斷其他詞語的語義傾向。基于情感的文本分類研究大多是通過統(tǒng)計正面或負(fù)面語義傾向的詞語特征數(shù)目來對文本進(jìn)行分類。如Turney就使用一無指導(dǎo)學(xué)習(xí)方法,利用前面提到的PMI2IR方法計算出文本中出現(xiàn)的符合規(guī)則的短語的語義傾向,通過對文檔中所有短語的語義傾向的平均值的正負(fù)來判斷文檔描述的對象是否值得推薦。PangBo最早利用機器學(xué)習(xí)方法來解決基于情感的文本分類問題,應(yīng)用樸素貝葉斯、最大熵、SVM對電影評論進(jìn)行分類。SVM在幾種分類方法中效果最好,分類準(zhǔn)確率最高達(dá)到約80%。事實上,對一篇文章而言,它表達(dá)的情感的正面或負(fù)面是通過主觀語句體現(xiàn)出來的,如“產(chǎn)品質(zhì)量好!”。但是像“它的售價剛好是50元!”這樣的客觀語句,雖然有“好”這一特征詞,但并不應(yīng)該能起到任何作用。但是如果能區(qū)分一篇文章中的主觀語句和客觀語句,只對主觀語句進(jìn)行特征選擇,會對分類的準(zhǔn)確率有很大提高。Brucejiebe等利用貝葉斯分類器對句子的主客觀性進(jìn)行分類。PangBo把主客觀語句分類轉(zhuǎn)換成求圖的最小截問題,實現(xiàn)一個Cut2based分類器,對主客觀語句進(jìn)行分類。

近年,基于情感的文本分類逐漸被應(yīng)用到更多的領(lǐng)域中。例如,微軟公司開發(fā)的商業(yè)智能系統(tǒng)Pulse,它能夠從大量的評論文本數(shù)據(jù)中,利用文本聚類技術(shù)提取出用戶對產(chǎn)品細(xì)節(jié)的看法;產(chǎn)品信息反饋系統(tǒng)OpinionObserver,利用網(wǎng)絡(luò)上豐富的顧客評論資源,對評論的主觀內(nèi)容進(jìn)行分析處理,提取產(chǎn)品各個特征及消費者對其的評價,并給出一個可視化結(jié)果;Sanjiv從網(wǎng)絡(luò)上的股評信息中獲取某只股票的市場評價,對股票的價格進(jìn)行預(yù)測。中文的基于情感的文本分類研究還不是很多?;贖owNet,朱嫣嵐在其論文中提出了兩種詞語語義傾向性計算的方法:基于語義相似度的方法和基于語義相關(guān)場的方法。Yuen通過計算詞語和具有強烈感情色彩的語素或單個漢字之間在LI2VAC文集上的統(tǒng)計關(guān)系來判定詞語語義傾向。T’ sou利用詞語的語義傾向來計算新聞文本的語義傾向,衡量公眾對名人的評價。

發(fā)明內(nèi)容
1、本發(fā)明的目的。本發(fā)明的目的在于提出一種面向中文Web評論的文本情感分類方法,有效地應(yīng)用于中文評論文本的情感分析。2、本發(fā)明所采用的技術(shù)方案
1.一種面向中文Web評論的文本情感分類方法,整個過程可分為兩個部分:訓(xùn)練過程和分類過程;
訓(xùn)練過程按照以下步驟進(jìn)行:
步驟一、訓(xùn)練文本預(yù)處理;
步驟二、特征選擇:用頻數(shù)等統(tǒng)計量來計算文本中的詞條在類別中的分布情況,經(jīng)過特征選擇,得到該類別的局部特征,所有類別的局部特征詞集合的并集構(gòu)成訓(xùn)練集的全局特征詞集合;
步驟三、文本的向量化表示:將每個類別映射到全局特征詞集合上,進(jìn)行向量化表示,便可得到類別的特征向量,特征向量包括權(quán)重和特征詞個數(shù);
步驟四、訓(xùn)練分類器。分類過程按照以下步驟進(jìn)行:
測試文本預(yù)處理一特征選擇一分類器分類一輸出分類結(jié)果,具體處理如下:
步驟一、測試文本預(yù)處理將測試文本化成全局特征詞集合上的特征向量;
步驟二、特征選擇;
步驟三、分類器分類:選擇相應(yīng)的分類方法,計算待測文本向量和類別向量之間的相似度,相似度值最大的類別就是待測樣本最終的分類;
步驟四、輸出分類結(jié)果。優(yōu)選的,所述的訓(xùn)練過程中的步驟一中訓(xùn)練文本預(yù)處理使用中文分詞器或去除停用詞文本預(yù)處理方法對評論數(shù)據(jù)集進(jìn)行預(yù)處理。優(yōu)選的,所述的訓(xùn)練過程中和分類過程的步驟二中的特征選擇通過特征選擇方法和權(quán)重計算方法選擇特征以及計算特征權(quán)重,將所有評論文本表示為向量。優(yōu)選的,所述的訓(xùn)練過程中的步驟三中訓(xùn)練分類器通過手工標(biāo)注褒貶類別包括正面和負(fù)面的評論文本對NaiveBayes分類器進(jìn)行訓(xùn)練。優(yōu)選的,所述的特征選擇方法和權(quán)重計算方法如下:
步驟一、使用文檔頻率的方法對文檔進(jìn)行初步特征選擇,并計算各特征的權(quán)重,即文檔頻率。步驟二、針對中文詞組、語句在不同環(huán)境下情感傾向不同的特殊性,在特征詞的文檔頻率的統(tǒng)計過程中,運用混合單詞特征,否定詞特征,情感修飾特征,情感轉(zhuǎn)移特征句法特征的情感分析方法來動態(tài)改變特征值的詞性或者特征的權(quán)重。步驟三、通過信息增益的方法篩選出對文檔情感傾向影響較大的特征詞,設(shè)定一個閾值,從原始特征空間中移除低于特定閾值的詞條,保留高于閾值的詞條作為表示文檔的特征。3、本發(fā)明的有益效果。本發(fā)明提出了一種面向中文Web評論的文本情感分類方法,通過訓(xùn)練過程和分類過程將文本情感進(jìn)行有效的分類,為使用者提供有效的數(shù)據(jù)挖掘從而進(jìn)行分析處理。


圖1是文本分類流程圖。 圖2是文本預(yù)處理流程圖。
具體實施例方式實施例1
文本情感分類的總體過程如圖1所示。整個過程可分為兩個部分:訓(xùn)練過程和分類過程。訓(xùn)練過程的基本流程為:訓(xùn)練文本預(yù)處理一特征選擇一文本的向量化表示一訓(xùn)練分類器。具體處理如下:
1、 給定經(jīng)過人工分類的訓(xùn)練文本集
對其進(jìn)行一些預(yù)處理,如中文分詞,停用詞過濾等。2、用頻數(shù)等統(tǒng)計量來計算文本中的詞條在類別C I中的分布情況,經(jīng)過特征選擇,得到該類別的局部特征.設(shè)所選特征詞的集合
權(quán)利要求
1.一種面向中文Web評論的文本情感分類方法,其特征在于:整個過程可分為兩個部分:訓(xùn)練過程和分類過程; 訓(xùn)練過程按照以下步驟進(jìn)行: 步驟一、訓(xùn)練文本預(yù)處理; 步驟二、特征選擇:用頻數(shù)等統(tǒng)計量來計算文本中的詞條在類別中的分布情況,經(jīng)過特征選擇,得到該類別的局部特征,所有類別的局部特征詞集合的并集構(gòu)成訓(xùn)練集的全局特征詞集合; 步驟三、文本的向量化表示:將每個類別映射到全局特征詞集合上,進(jìn)行向量化表示,便可得到類別的特征向量,特征向量包括權(quán)重和特征詞個數(shù); 步驟四、訓(xùn)練分類器; 分類過程按照以下步驟進(jìn)行: 測試文本預(yù)處理一特征選擇一分類器分類一輸出分類結(jié)果;具體處理如下: 步驟一、測試文本預(yù)處理將測試文本化成全局特征詞集合上的特征向量; 步驟二、特征選擇; 步驟三、分類器分類:選擇相應(yīng)的分類方法,計算待測文本向量和類別向量之間的相似度,相似度值最大的類別就是待測樣本最終的分類; 步驟四、輸出分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的面向中文Web評論的文本情感分類方法,其特征在于:所述的訓(xùn)練過程中的步驟一中訓(xùn)練文本預(yù)處理使用中文分詞器或去除停用詞文本預(yù)處理方法對評論數(shù)據(jù)集進(jìn)行預(yù)處理。
3.根據(jù)權(quán)利要求1或2所述的面向中文Web評論的文本情感分類方法,其特征在于:所述的訓(xùn)練過程中和分類過程的步驟二中的特征選擇通過特征選擇方法和權(quán)重計算方法選擇特征以及計算特征權(quán)重,將所有評論文本表示為向量。
4.根據(jù)權(quán)利要求1所述的面向中文Web評論的文本情感分類方法,其特征在于:所述的訓(xùn)練過程中的步驟三中訓(xùn)練分類器通過手工標(biāo)注褒貶類別包括正面和負(fù)面的評論文本對NaiveBayes分類器進(jìn)行訓(xùn)練。
5.根據(jù)權(quán)利要求3所述的面向中文Web評論的文本情感分類方法,其特征在于:所述的特征選擇方法和權(quán)重計算方法如下: 步驟一、使用文檔頻率的方法對文檔進(jìn)行初步特征選擇,并計算各特征的權(quán)重,即文檔頻率; 步驟二、針對中文詞組、語句在不同環(huán)境下情感傾向不同的特殊性,在特征詞的文檔頻率的統(tǒng)計過程中,運用混合單詞特征,否定詞特征,情感修飾特征,情感轉(zhuǎn)移特征句法特征的情感分析方法來動態(tài)改變特征值的詞性或者特征的權(quán)重; 步驟三、通過信息增益的方法篩選出對文檔情感傾向影響較大的特征詞,設(shè)定一個閾值,從原始特征空間中移除低于特定閾值的詞條,保留高于閾值的詞條作為表示文檔的特征。
全文摘要
本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,公開了一種面向中文Web評論的文本情感分類方法。本發(fā)明包括訓(xùn)練過程和分類過程,訓(xùn)練過程為訓(xùn)練文本預(yù)處理→特征選擇→文本的向量化表示→訓(xùn)練分類器;分類過程為測試文本預(yù)處理→特征選擇→分類器分類→輸出分類結(jié)果。本方法在原始文檔分類方法的基礎(chǔ)上加入使用文檔頻率(DF)、信息增益(IG)以及建立否定詞、程度副詞和動態(tài)情感詞的情感詞典判別各特征中文詞語的情感傾向進(jìn)行選取特征詞、計算特征權(quán)值并構(gòu)建特征向量,并使用NaiveBayes分類算法來訓(xùn)練得到分類器,對文本進(jìn)行情感分類,為使用者提供有效的數(shù)據(jù)挖掘從而進(jìn)行分析處理。
文檔編號G06F17/30GK103116637SQ201310050250
公開日2013年5月22日 申請日期2013年2月8日 優(yōu)先權(quán)日2013年2月8日
發(fā)明者李千目, 倪銘, 印杰, 侯君 申請人:無錫南理工科技發(fā)展有限公司, 江蘇警官學(xué)院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1