亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本情感指數(shù)計算方法和系統(tǒng)的制作方法

文檔序號:6379319閱讀:560來源:國知局
專利名稱:一種文本情感指數(shù)計算方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種文本情感指數(shù)計算方法和系統(tǒng),屬于自然語言處理技術(shù)及模式識別領(lǐng)域。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的逐步發(fā)展,越來越多的網(wǎng)民通過博客,微博客,論壇,新聞在線評論等渠道來表達他們對商業(yè)產(chǎn)品,突發(fā)事件,政府工作等的意見。一些特定領(lǐng)域的商業(yè)產(chǎn)品公司,如數(shù)碼產(chǎn)品業(yè),食品業(yè),酒店行業(yè)等,需要及時了解客戶對他們產(chǎn)品的評價,了解客戶對其產(chǎn)品的滿意度,然后再做出適當?shù)漠a(chǎn)品調(diào)整來適應目前激烈的企業(yè)競爭;另外,政府相關(guān)部門也需要及時了解網(wǎng)民對政府工作的態(tài)度或是對焦點新聞事件的態(tài)度,及時掌握人民的情緒,做出正確的抉擇,防止惡性事件的發(fā)生。由于網(wǎng)絡信息量大,同時增長也非常迅速,因此我們將通過計算機,來完成自動化的情感分析工作。
從目前國內(nèi)外的研究情況來看,情感分析的目的是把評估文本歸到正面評價 (Positive)或者是負面(Negative)評價。比如給定一個產(chǎn)品評審,系統(tǒng)需要判定該評審所表達的是評閱者的正面意見還是負面意見(在某些情況下還引入中立評審)。情感分析主要用于快速判定大眾對一個對象的普遍觀點。該任務與傳統(tǒng)基于主題的文本分類 (text classification)相似,因此從當前研究使用的技術(shù)上看大都使用相同的技術(shù)來解決該問題,如監(jiān)督學習算法(supervised learning),半監(jiān)督學習算法(semi-supervised learning)和無監(jiān)督學習算法(unsupervised learning)。但兩者又有所區(qū)別,基于主題的文本分類將文檔分到預先定義好的不同主題類別中,比如政治、科學、體育等。在基于主題的分類中,主題相關(guān)詞匯是重要的。而在意見分類中,主題相關(guān)詞匯是不重要的。相反,表征了正面或者負面觀點的意見詞匯是重要的,比如,“好”,“優(yōu)秀”,“傷心”,“差”等等。同時, 這些觀點詞所處的領(lǐng)域也很重要,同樣的詞在不同的領(lǐng)域會表達不同的意見傾向。因此,根據(jù)情感分析的領(lǐng)域特性,我們可以分為單領(lǐng)域情感分析技術(shù)和跨領(lǐng)域情感分析技術(shù)。
I、單領(lǐng)域情感分析技術(shù)單領(lǐng)域情感分析,即通過一個標注好的某個領(lǐng)域的情感語料庫,在此基礎上訓練一個分類模型,然后通過該模型繼續(xù)完成后續(xù)該領(lǐng)域的情感分析任務。在該類別中,監(jiān)督學習算法的應用占主導地位,如K-近鄰算法(kNN)、樸素貝葉斯算法(NaiveBayes),支持向量機算法(SVM)。
由于語料庫標注的繁瑣性,半監(jiān)督學習算法,如期望最大化算法(EM)和無監(jiān)督學習算法,評分函數(shù)方法也都被廣泛應用于情感分析研究中。但是,實驗證明在單領(lǐng)域意見分類中,監(jiān)督學習方法要優(yōu)于半監(jiān)督和無監(jiān)督的算法。
2、跨領(lǐng)域情感分析技術(shù)在情感分析應用中,領(lǐng)域遷移(domain-transfer)問題更加多見。如給一個情感詞 “高”。如果說“房價高”,那么這個詞就是負面的;如果說“收入高”,那么這個詞就是正面的。如果在這種情況下我們采用單領(lǐng)域中常用的監(jiān)督學習算法,就會造成分類器準確率的下降。在目前的研究中,解決情感分析領(lǐng)域遷移問題主要有三種方案。第一種就是使用無監(jiān)督學習(unsupervised learning)方法,即在英文情感分析中應用中的語義指向 (semantic orientation)方法,該方法首先對各個分詞進行詞性標注,然后安裝指定的詞性序列進行過濾,將滿足條件的序列保留下來,然后使用點對互信息(PointWise Mutual Information)算法并AltaVista搜索引擎完成對每個保留下來的詞組進行情感極性打分。 最后綜合這些詞組的打分,完成對一句或者一段話的情感極性打分。第二種方案是找到訓練集領(lǐng)域(也稱為源領(lǐng)域)與測試集領(lǐng)域(也稱為目標領(lǐng)域)的公共特征(generalizable features),然后借助半監(jiān)督學習(semi-supervised learning)算法完成遷移任務。最后一種解決方案是使用語料庫遷移算法,該算法通過計算找到目標領(lǐng)域語料庫與源領(lǐng)域語料庫的相似部分,然后重新訓練分類器得到分類模型。這種方案是基于監(jiān)督學習算法完成的。 后面的兩種解決方案雖然避免了第一種方案的弊端,但是都需要重新訓練分類器,因此整個算法的運行效率也不高。
目前,對于文本的自動化情感分析也提出了一些解決方案例如專利申請CN 201210154332. 6 (申請名稱一種文本情感分類方法及系統(tǒng),申請時間=2012-05-17,申請人蘇州大學)公開了一種文本情感分類方法,包括對照預置的情感詞表,在待分類文本中找出情感詞,并依據(jù)情感詞表獲取與情感詞對應的情感極性;使用兩個極性轉(zhuǎn)變規(guī)則判斷情感詞是否發(fā)生極性轉(zhuǎn)變,依據(jù)情感詞的情感極性及情感詞的極性轉(zhuǎn)變結(jié)果,計算待分類文本中各個詞出現(xiàn)在每一種極性的文本中的概率;依據(jù)待分類文本中各個詞出現(xiàn)在每一種極性的文本中的概率,利用貝葉斯分類器模型對待分類文本進行分類。這些技術(shù)方案主要用于對文本情感極性進行判斷,如正面、中性、或負面。由于情感分類不同于文本分類,對同一段評論,不同的人可能認為其表達了不同的情感傾向,例如文本“這部手機運行程序運行速度很快,屏幕也很好,就是在待機時間方面有所欠缺?!庇械娜丝赡苷J為是中性的,有的人可能認為是負面的,甚至還有一部分人可能認為是正面的。通過上述技術(shù)方案對文本給出的情感極性過于絕對化,很難符合所有人的情感傾向,分析結(jié)果準確率不高。
因此,如何有效提高文本情感分析的準確率?仍是一個急需要解決的技術(shù)難題。發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種文本情感指數(shù)計算方法和系統(tǒng),能有效提高文本情感分析的準確率。
為了達到上述目的,本發(fā)明提供了一種文本情感指數(shù)計算方法,所述方法包括有步驟A、構(gòu)建非領(lǐng)域限定的情感詞庫,選擇多個非領(lǐng)域限定的情感詞,并將所述非領(lǐng)域限定的情感詞及其對應的情感分數(shù)保存在非領(lǐng)域限定的情感詞庫中;步驟B、根據(jù)標點符號將待計算文本劃分為多個子句,并對每個子句進行分詞,然后依次尋找每個子句中包含的非領(lǐng)域限定的情感詞,使用情感指數(shù)計算規(guī)則對子句中所包含的每個非領(lǐng)域限定的情感詞的情感分數(shù)進行調(diào)整,最后根據(jù)調(diào)整后的非領(lǐng)域限定的情感詞的情感分數(shù),統(tǒng)計每個子句的情感分數(shù),從而計算待計算文本的情感指數(shù)值。
為了達到上述目的,本發(fā)明還提供了一種文本情感指數(shù)計算系統(tǒng),包括有非領(lǐng)域情感詞庫構(gòu)建裝置,用于構(gòu)建非領(lǐng)域限定的情感詞庫,選擇多個非領(lǐng)域限定的CN 102929861 A書明說3/10 頁情感詞,并將所述非領(lǐng)域限定的情感詞及其對應的情感分數(shù)保存在非領(lǐng)域限定的情感詞庫中;文本情感指數(shù)計算裝置,用于根據(jù)標點符號將輸入的待計算文本劃分為多個子句,并對每個子句進行分詞,然后依次尋找每個子句中包含的非領(lǐng)域限定的情感詞,使用情感指數(shù)計算規(guī)則對子句中所包含的每個非領(lǐng)域限定的情感詞的情感分數(shù)進行調(diào)整,最后根據(jù)調(diào)整后的非領(lǐng)域限定的情感詞的情感分數(shù),統(tǒng)計每個子句的情感分數(shù),從而計算待計算文本的情感指數(shù)值。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是本發(fā)明在實際應用中不需要重新訓練分類器,執(zhí)行效率比較高;充分考慮了情感詞的領(lǐng)域遷移性,并且考慮了中文表達的特點;情感分類不同于文本分類,對同一段評論,不同的人可能認為其表達了不同的情感傾向,因此本發(fā)明通過文本情感指數(shù)來表示文本情感分析的結(jié)果而不是具體的一個情感極性,并給定一個情感指數(shù)區(qū)間[文本情感指數(shù)最小值,文本情感指數(shù)最大值],情感指數(shù)值越接近文本情感指數(shù)最大值,則說明該文本表達的正面情感傾向越大,越接近文本情感最小值,則說明其負面情感傾向越大,從而避免了過于絕對化,有效提高了文本情感分析的準確率和用戶滿意度。


圖I是非領(lǐng)域限定的情感詞示意圖?!?br> 圖2是本發(fā)明一種文本情感指數(shù)計算方法流程圖。
圖3是圖2步驟A的具體操作流程圖。
圖4是圖2步驟B中,依次尋找每個子句中包含的非領(lǐng)域限定的情感詞,使用情感指數(shù)計算規(guī)則對子句中所包含的每個非領(lǐng)域限定的情感詞的情感分數(shù)進行調(diào)整的具體操作流程圖。
圖5是非領(lǐng)域情感詞庫構(gòu)建裝置的組成結(jié)構(gòu)示意圖。
圖6是文本情感指數(shù)計算裝置的組成結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細描述。
在情感分析研究中,情感詞扮演著重要的角色,特別是非領(lǐng)域限定的情感詞。比如 “好”與“壞”,就分別是非領(lǐng)域限定的情感詞,因為在絕大多數(shù)的領(lǐng)域中,“好”都是表達正面情感的詞,而“壞”是表達負面情感的詞。但是像“高”這樣的詞就是領(lǐng)域限定的,比如“他收入很高”,此時“高”這個詞表達的就是正面情感,但“現(xiàn)在房價真高啊”,此時“高”表達的就是負面情感。因此,本發(fā)明先從網(wǎng)絡等各種途徑獲得大量的情感詞,隨后通過一個包含有多個領(lǐng)域數(shù)據(jù)的情感語料庫,計算這些情感詞的情感分數(shù),結(jié)果表示無論在正面情感還是在負面情感中,得分越高、或越低的詞越是非領(lǐng)域限定的詞;然后,通過其中非領(lǐng)域限定的情感詞和情感分數(shù),并基于中文句法分析,對待測文本的情感指數(shù)值進行計算,所述情感指數(shù)可用于描述待測文本所表達的情感強度,指數(shù)區(qū)間可以選擇-150到150,越趨向于兩極的分數(shù)說明待測文本的負面或者正面情感趨向越強。9
如圖I所示,三個圓圈分別代表三個領(lǐng)域中已區(qū)分正、負面情感的情感詞,而中間交叉并涂黑的部分表示三個領(lǐng)域共有的情感詞,因此可以認為黑色部分是這三個領(lǐng)域中的非領(lǐng)域限定的情感詞。
如圖2所示,本發(fā)明一種文本情感指數(shù)計算方法包括有步驟A、構(gòu)建非領(lǐng)域限定的情感詞庫,選擇多個非領(lǐng)域限定的情感詞,并將所述非領(lǐng)域限定的情感詞及其對應的情感分數(shù)保存在非領(lǐng)域限定的情感詞庫中;步驟B、根據(jù)標點符號將待計算文本劃分為多個子句,并對每個子句進行分詞,然后依次尋找每個子句中包含的非領(lǐng)域限定的情感詞,使用情感指數(shù)計算規(guī)則對子句中所包含的每個非領(lǐng)域限定的情感詞的情感分數(shù)進行調(diào)整,最后根據(jù)調(diào)整后的非領(lǐng)域限定的情感詞的情感分數(shù),統(tǒng)計每個子句的情感分數(shù),從而計算待計算文本的情感指數(shù)值。
所述情感指數(shù)計算規(guī)則可以根據(jù)子句中其他分詞(如轉(zhuǎn)折詞、否定詞、副詞)與非領(lǐng)域限定的情感詞在子句中的位置,調(diào)整非領(lǐng)域限定的情感詞的情感分數(shù)。
如圖3所示,圖2步驟A進一步包括有步驟Al、獲取多個情感詞,并根據(jù)情感分數(shù)計算語料庫中包含有情感詞的正面/或負面文檔數(shù)量、情感詞和正面/或負面文檔共同出現(xiàn)的概率、正面/或負面文檔出現(xiàn)的概率、 以及正面/或負面文檔中情感詞出現(xiàn)的概率,分別計算每個情感詞與正面情感/或負面情感的共現(xiàn)分數(shù)。
所述情感分數(shù)計算語料庫可以選用一個包含有多個領(lǐng)域數(shù)據(jù)的情感語料庫,例如表I所示,選用的情感分數(shù)計算語料庫包含有筆記本電腦、酒店、圖書這三個領(lǐng)域的意見分類數(shù)據(jù)表I情感分數(shù)計算語料庫
權(quán)利要求
1.一種文本情感指數(shù)計算方法,其特征在于,所述方法包括有 步驟A、構(gòu)建非領(lǐng)域限定的情感詞庫,選擇多個非領(lǐng)域限定的情感詞,并將所述非領(lǐng)域限定的情感詞及其對應的情感分數(shù)保存在非領(lǐng)域限定的情感詞庫中; 步驟B、根據(jù)標點符號將待計算文本劃分為多個子句,并對每個子句進行分詞,然后依次尋找每個子句中包含的非領(lǐng)域限定的情感詞,使用情感指數(shù)計算規(guī)則對子句中所包含的每個非領(lǐng)域限定的情感詞的情感分數(shù)進行調(diào)整,最后根據(jù)調(diào)整后的非領(lǐng)域限定的情感詞的情感分數(shù),統(tǒng)計每個子句的情感分數(shù),從而計算待計算文本的情感指數(shù)值。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟A進一步包括有 步驟Al、獲取多個情感詞,并根據(jù)情感分數(shù)計算語料庫中包含有情感詞的正面/或負面文檔數(shù)量、情感詞和正面/或負面文檔共同出現(xiàn)的概率、正面/或負面文檔出現(xiàn)的概率、以及正面/或負面文檔中情感詞出現(xiàn)的概率,分別計算每個情感詞與正面情感/或負面情感的共現(xiàn)分數(shù),所述情感分數(shù)計算語料庫選用一個包含有多個領(lǐng)域數(shù)據(jù)的情感語料庫;步驟A2、使用最大-最小歸一化方法,分別對每個情感詞與正面情感/或負面情感的共現(xiàn)分數(shù)進行歸一化處理; 步驟A3、根據(jù)情感詞與正面情感、負面情感的共現(xiàn)分數(shù)的差值,計算每個情感詞的正面極性差; 步驟A4、設置極性差閾值T,所述T是一個大于O的實數(shù),并判斷每個情感詞的正面極性差是否大于T、或小于-T,如果是,則將所述情感詞的正面極性差作為其情感分數(shù),并將所述情感詞及其情感分數(shù)保存在非領(lǐng)域限定的情感詞庫中。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括有所述步驟Al中,情感詞W與w I e )正面情感的共現(xiàn)分數(shù)的計算公式是€P(*WW■7________f;_____..上;,H:中,j .是在情感分數(shù)計算語料庫中包含有情感卩彳胃的ιΚι ιι義Ti數(shù)V:圮估感分數(shù)計算 c(e w)語料庫中情感詞和正面文檔共同出觀的概中.,Mi=PCepsWjeli) ; __-是情感分數(shù)計算語料庫中正面文檔的數(shù)量是情感分數(shù)計算語料庫中正面文檔出現(xiàn)的概率, c(ee)其值為Ρ(ερ)_=φ )是情感分數(shù)計算語料庫中正面文檔的數(shù)量,%是情感分數(shù)計算語料庫中所有文們的數(shù).4圮估感分數(shù)計算語料庫的正面文檔中情感詞胃出現(xiàn) £(爾| €,)的概率,其值為斤(叫^) = ··;^^······,,,)是情感分數(shù)計算語料庫的正面文檔中情感 F ' * f ^詞胃出現(xiàn)的次數(shù)是情感分數(shù)計算語料庫的正面文檔中的總詞頻數(shù); 情感詞W 1J負面情感的共現(xiàn)分數(shù)的計算公式是 Pfc W I £!、CNfes^w______,其中,j 、是在情感分數(shù)計算語料庫中包含有情感詞胃的負面文檔數(shù)W {(eyWjed圮怙感分數(shù)計算語料庫中情感詞胃和負面文檔共
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟Α2中,對情感詞冒與正面情感
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟A3中,情感詞冒的正面極性差的計算公式是
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟B中,依次尋找每個子句中包含的非領(lǐng)域限定的情感詞,使用情感指數(shù)計算規(guī)則對子句中所包含的每個非領(lǐng)域限定的情感詞的情感分數(shù)進行調(diào)整,進一步包括有 步驟BI、判斷每個子句的分詞中是否有非領(lǐng)域限定的情感詞,如果是,則從非領(lǐng)域限定的情感詞庫中提取所述非領(lǐng)域限定的情感詞對應的情感分數(shù)F,繼續(xù)下一步;如果否,則本流程結(jié)束; 步驟B2、判斷所述子句中位于非領(lǐng)域限定的情感詞之前的分詞是否存在有轉(zhuǎn)折詞,如果是,則將所述非領(lǐng)域限定的情感詞的情感分數(shù)F調(diào)整為2*F,繼續(xù)下一步;如果否,則繼續(xù)下一步;所述轉(zhuǎn)折詞包括但不僅限于可是、但是、然而、偏偏、只是、不過、至于、以至、不料、豈知; 步驟B3、判斷所述子句中非領(lǐng)域限定的情感詞之前的分詞是否存在有否定詞、且否定詞與非領(lǐng)域限定的情感詞的文字距離小于或等于2,如果是,則將所述非領(lǐng)域限定的情感詞的情感分數(shù)F調(diào)整為-F,繼續(xù)下一步;如果否,則繼續(xù)下一步;所述否定詞包括但不僅限于不、沒;步驟B4、判斷所述子句中是否存在有副詞、且副詞與非領(lǐng)域限定的情感詞的文字距離小于或等于2,如果是,則將所述非領(lǐng)域限定的情感詞的情感分數(shù)F調(diào)整為2*F,繼續(xù)下一步;如果否,則繼續(xù)下一步;所述副詞包括但不僅限于非常、特別; 步驟B5、判斷非領(lǐng)域限定的情感詞是否處于子句的句末,如果是,則將所述非領(lǐng)域限定的情感詞的情感分數(shù)F調(diào)整為2*F。
7.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟B中,根據(jù)調(diào)整后的非領(lǐng)域限定的情感詞的情感分數(shù),統(tǒng)計每個子句的情感分數(shù),從而計算待計算文本的情感指數(shù)值,進一步包括有 步驟I、根據(jù)子句中包含的所有非領(lǐng)域限定的情感詞的情感分數(shù),計算所述子句的情感分數(shù)FU=F (Al)+ F (A2)+……+ F (An),其中A1、A2、……An分別是子句中包含的非領(lǐng)域限定的情感詞,F(xiàn) (Al),F (A2)、……F (An)是非領(lǐng)域限定的情感詞A1、A2、……An調(diào)整后的情感分數(shù); 步驟2、判斷所述子句的分詞數(shù)是否小于分詞最大值,如果是,則將所述子句的情感分數(shù)FU調(diào)整為2*FU,則繼續(xù)下一步;如果否,則繼續(xù)下一步; 步驟3、統(tǒng)計待計算文本的情感指數(shù)值為所有子句的情感分數(shù)之和; 步驟4、判斷所述待計算文本的情感指數(shù)值是否大于文本情感指數(shù)最大值,如果是,則將所述待計算文本的情感指數(shù)值調(diào)整為文本情感指數(shù)最大值,本流程結(jié)束;如果否,則繼續(xù)下一步; 步驟5、判斷所述待計算文本的情感指數(shù)值是否小于文本情感指數(shù)最小值,如果是,則將所述待計算文本的情感指數(shù)值調(diào)整為文本情感指數(shù)最小值。
8.一種文本情感指數(shù)計算系統(tǒng),其特征在于,包括有 非領(lǐng)域情感詞庫構(gòu)建裝置,用于構(gòu)建非領(lǐng)域限定的情感詞庫,選擇多個非領(lǐng)域限定的情感詞,并將所述非領(lǐng)域限定的情感詞及其對應的情感分數(shù)保存在非領(lǐng)域限定的情感詞庫中; 文本情感指數(shù)計算裝置,用于根據(jù)標點符號將輸入的待計算文本劃分為多個子句,并對每個子句進行分詞,然后依次尋找每個子句中包含的非領(lǐng)域限定的情感詞,使用情感指數(shù)計算規(guī)則對子句中所包含的每個非領(lǐng)域限定的情感詞的情感分數(shù)進行調(diào)整,最后根據(jù)調(diào)整后的非領(lǐng)域限定的情感詞的情感分數(shù),統(tǒng)計每個子句的情感分數(shù),從而計算待計算文本的情感指數(shù)值。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述非領(lǐng)域情感詞庫構(gòu)建裝置進一步包括有 情感共現(xiàn)分數(shù)計算單元,用于獲取多個情感詞,并根據(jù)情感分數(shù)計算語料庫中包含有情感詞的正面/或負面文檔數(shù)量、情感詞和正面/或負面文檔共同出現(xiàn)的概率、正面/或負面文檔出現(xiàn)的概率、以及正面/或負面文檔中情感詞出現(xiàn)的概率,分別計算每個情感詞與正面情感/或負面情感的共現(xiàn)分數(shù),并將所述情感詞與正面情感/或負面情感的共現(xiàn)分數(shù)發(fā)送給歸一化單元,所述情感分數(shù)計算語料庫選用一個包含有多個領(lǐng)域數(shù)據(jù)的情感語料庫; 歸一化單元,用于使用最大-最小歸一化方法,對情感共現(xiàn)分數(shù)計算單元計算出的情感詞與正面情感/或負面情感的共現(xiàn)分數(shù)進行歸一化處理,并將處理后的情感詞與正面情感/或負面情感的共現(xiàn)分數(shù)發(fā)送給正面極性差計算單元;正面極性差計算單元,用于根據(jù)歸一化單元處理后的情感詞與正面情感、負面情感的共現(xiàn)分數(shù)的差值,計算每個情感詞的正面極性差,并將情感詞的正面極性差發(fā)送給非領(lǐng)域情感詞判斷單元; 非領(lǐng)域情感詞判斷單元,用于設置極性差閾值T,所述T是一個大于O的實數(shù),并判斷正面極性差計算單元發(fā)來的情感詞的正面極性差是否大于T、或小于-τ,如果是,則將所述情感詞的正面極性差作為其情感分數(shù),并將所述情感詞及其情感分數(shù)保存在非領(lǐng)域限定的情感詞庫中。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,情感詞冒與正面情感的共現(xiàn)分數(shù)的計算公式是
11.根據(jù)權(quán)利要求9所述的方法,其特征在于,對情感詞與正面情感的共現(xiàn)分數(shù)進行歸一化處理的計算公式是
12.根據(jù)權(quán)利要求9所述的方法,其特征在于,情感詞冒的正面極性差的計算公式是
13.根據(jù)權(quán)利要求8所述的方法,其特征在于,文本情感指數(shù)計算裝置進一步包括有 文本輸入單元,用于輸入待計算文本,并將所述待計算文本發(fā)送給文本情感計算單元; 文本情感計算單元,用于將待計算文本劃分為多個子句,并對每個子句進行分詞,然后逐一將子句中的每個分詞和非領(lǐng)域限定的情感詞庫中保存的非領(lǐng)域限定的情感詞進行對t匕,如果一致,則將所述子句和其對應的非領(lǐng)域限定的情感詞發(fā)送給情感詞分數(shù)計算單元;接收情感詞分數(shù)計算單元返回的非領(lǐng)域限定的情感詞的情感分數(shù),并根據(jù)每個子句所包含的非領(lǐng)域限定的情感詞,統(tǒng)計每個子句的情感分數(shù),最后根據(jù)所有子句的情感分數(shù),統(tǒng)計待計算文本的情感指數(shù)值; 情感詞分數(shù)計算單元,用于接收文本情感計算單元發(fā)送來的子句和其對應的非領(lǐng)域限定的情感詞,從非領(lǐng)域限定的情感詞庫中提取所述非領(lǐng)域限定的情感詞對應的情感分數(shù),然后使用情感指數(shù)計算規(guī)則對子句中所包含的非領(lǐng)域限定的情感詞的情感分數(shù)進行調(diào)整,最后將調(diào)整后的非領(lǐng)域限定的情感詞的情感分數(shù)發(fā)送給文本情感計算單元,所述情感指數(shù)計算規(guī)則可以基于中文句法分析,根據(jù)子句中非領(lǐng)域限定的情感詞和轉(zhuǎn)折詞、否定詞、副詞在子句中的位置,對子句中非領(lǐng)域限定的情感詞的情感分數(shù)進行調(diào)整。
全文摘要
一種文本情感指數(shù)計算方法和系統(tǒng),方法包括有步驟A、構(gòu)建非領(lǐng)域限定的情感詞庫,選擇多個非領(lǐng)域限定的情感詞,并將所述非領(lǐng)域限定的情感詞及其對應的情感分數(shù)保存在非領(lǐng)域限定的情感詞庫中;步驟B、根據(jù)標點符號將待計算文本劃分為多個子句,并對每個子句進行分詞,然后依次尋找每個子句中包含的非領(lǐng)域限定的情感詞,使用情感指數(shù)計算規(guī)則對子句中所包含的每個非領(lǐng)域限定的情感詞的情感分數(shù)進行調(diào)整,最后根據(jù)調(diào)整后的非領(lǐng)域限定的情感詞的情感分數(shù),統(tǒng)計每個子句的情感分數(shù),從而計算待計算文本的情感指數(shù)值。本發(fā)明屬于自然語言處理技術(shù)及模式識別領(lǐng)域,能有效提高文本情感分析的準確率和用戶滿意度。
文檔編號G06F17/27GK102929861SQ20121040422
公開日2013年2月13日 申請日期2012年10月22日 優(yōu)先權(quán)日2012年10月22日
發(fā)明者廖建新, 范文, 張雷, 趙貝爾 申請人:杭州東信北郵信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1