亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

情感分析系統(tǒng)及方法

文檔序號:6579423閱讀:2264來源:國知局
專利名稱:情感分析系統(tǒng)及方法
技術領域
本發(fā)明涉及一種情感分析系統(tǒng)及方法,特別涉及一種中文微博的情感分析系統(tǒng)及 方法。
背景技術
隨著互聯(lián)網(wǎng)的發(fā)展,越來越多用戶通過網(wǎng)絡平臺表達自己觀點,從而產(chǎn)生了大量 的主觀性文本數(shù)據(jù)。這些數(shù)據(jù)中蘊含的大量情感信息,其具有非常大的潛在價值,在社會輿 情分析、有害信息過濾、產(chǎn)品推薦等諸多領域有著廣闊的發(fā)展前景。然而這些數(shù)據(jù)的主觀性 情感分類無法通過傳統(tǒng)的基于關鍵詞和自動索引信息獲取,而人工瀏覽大量文本又十分低 效。近年來,針對文本的情感分析是一個研究熱點,相關技術已在電子產(chǎn)品、影視娛樂和新 聞等多個領域得到應用。
微博信息是一種在社交網(wǎng)絡上通過關注機制分享的簡短實時信息,其內(nèi)容具有時 效性,主題包羅萬象,且擁有海量數(shù)據(jù)。基于微博的情感分析技術可以在各個領域提供有用 信息。但與傳統(tǒng)的情感分析不同,微博由于其內(nèi)容過于簡短(如新浪微博不超過140字), 用戶發(fā)言含各種噪聲(如錯別字,非正式用語等)等因素,對其進行情感分析相比傳統(tǒng)的在 產(chǎn)品評論等領域的相關工作要困難得多。近年來國際上有關英文Twitter的情感分析研究 較為熱門。但基于中文微博的相關工作相對較少,中文微博中經(jīng)常使用反諷等方式表達情 感,這也使得中文微博的情感分析更為困難。
關于情感分析的研究方法,主要有兩種基于詞典的語義方法和機器學習的方法。 語義方法通常通過計算候選詞和通用情感詞典中的基準詞的語義距離,判斷候選詞的情感 傾向。例如,Lu等將不同來源的信息結合起來構成一個統(tǒng)一的最優(yōu)框架,這些信息包括通用 情感詞典中該詞的極性,整個文檔的情感分數(shù),WordNet中的同義詞、反義詞信息,以及一些 語法規(guī)則(比如兩個用“和”連接的詞的極性也更相近)。另一方面,機器學習的方法首先 需要人工標記情感語料庫,然后訓練出一個模型來學習出不同類別的特征,從而預測目標 文本屬于哪一類別。用于訓練的特征通常包括unigrams, bigrams,詞性和詞的位置等等。 分類算法主要有監(jiān)督學習和半監(jiān)督學習兩種。常用的監(jiān)督學習的方法包括SVM(支持向量 機),NaliveBayes(貝葉斯模型),Maximum Entropy(最大熵)和K-nearest neighbor(K_近 鄰)。一些半監(jiān)督學習的方法應用了 bootstrap策略,比如自我訓練和聯(lián)合訓練。
傳統(tǒng)的情感分析處理的都是一些比較規(guī)范的文本,如產(chǎn)品評論或博客等,然而,社 交網(wǎng)絡的情感分析處理的是內(nèi)容較短且語法不規(guī)范的文本。判斷微博的主客觀和情感傾向 性比傳統(tǒng)的情感分析要困難的多。目前,國外關于Twitter的研究日益增多,其中包括對每 條Tweet的情感分析,對于一個話題的情感分析,以及用戶級別的情感分析。在2011年, Jiang等提出了一種與情感對象有關,上下文相關的方法來判斷Tweet的情感。雖然這種方 法提高了關于Twitter的情感分類的性能,但其主客觀分類器的準確率并不是很高(最好 的情況下為68.2% )。發(fā)明內(nèi)容
為克服上述現(xiàn)有技術存在的不足,本發(fā)明目的在于提供一種情感分析系統(tǒng)及方法,其使用微博中與相關話題的微博作為訓練數(shù)據(jù),以Support VectorMachine和
權利要求
1.一種情感分析系統(tǒng),至少包括 語料庫建立模組,用于建立觀點句識別及情感傾向分析所需的訓練集; 數(shù)據(jù)預處理模組,用于對訓練集中的句子進行預處理; 觀點句識別模組,采用支持向量機分類器與貝葉斯分類器分別對預處理后的句子進行觀點句識別,并對兩分類器的結果進行集成處理,得到最終的分類結果;以及 情感傾向分析模組,采用支持向量機分類器及貝葉斯分類器分別直接將預處理后的句子分為正面、負面和無觀點三類,并通過集成公式將該支持向量機分類器和貝葉斯分類器的分類結果集成,得到當前句子的分類結果。
2.如權利要求1所述的一種情感分析系統(tǒng),其特征在于該訓練集包括中國計算機學會所提供的來自騰訊微博的樣例數(shù)據(jù)和從新浪微博上抓取的數(shù)據(jù)。
3.如權利要求2所述的一種情感分析系統(tǒng),其特征在于該訓練集為人工標注,由兩個人分別獨立標記,結果不同的再由第三個人進行裁決。
4.如權利要求1所述的一種情感分析系統(tǒng),其特征在于該預處理包括去掉句子中的標簽僅保留句子本身的內(nèi)容及對句子中的特殊符號進行了正規(guī)化處理。
5.如權利要求4所述的一種情感分析系統(tǒng),其特征在于對句子中的特殊符號的處理包括將所有全角符號轉化為半角、將英文標點替換為中文標點、將連續(xù)的數(shù)字替換為〈NUM〉、將所有不規(guī)范的省略號替換為〈ETC〉以及將短鏈接替換為<SHORT_URL>。
6.如權利要求1所述的一種情感分析系統(tǒng),其特征在于,該支持向量集分類器采用線性核函數(shù),以詞袋模型為基礎使用以下不同的特征集合 .1.一元文法的二進制表示,若該單詞出現(xiàn),則特征向量的相應維的值為1,否則為O ; .2.—元文法的tf值表示
7.如權利要求6所述的一種情感分析系統(tǒng),其特征在于該觀點句識別模組的集成處理采用將兩種分類器的分類結果和置信度作為更高一層集成分類器的特征進行再分類的方法。
8.如權利要求6所述的一種情感分析系統(tǒng),其特征在于該觀點句識別模組的集成處理采用直接對置信度加權平均得到最終的分類結果。
9.如權利要求1所述的一種情感分析系統(tǒng),其特征在于,該集成公式為
10.ー種情感分析方法,包括如下步驟 步驟一,建立觀點句識別及情感分析所需的訓練集; 步驟ニ,用于對訓練集中的句子進行預處理,去掉句子中的標簽,僅保留句子本身的內(nèi)容,同時在分詞之前,對句子中的特殊符號進行了正規(guī)化處理; 步驟三,采用支持向量機分類器和貝葉斯分類器集成的方式對預處理后的句子進行觀點句識別;以及 步驟四,基于支持向量機分類器及貝葉斯分類器分類器直接將預處理后的句子分為正面、負面和無觀點三類,并通過ー集成公式將兩分類器的分類結果集成,得到當前句子的分類結果。
11.如權利要求10所述的ー種情感分析方法,其特征在干,該步驟三包括如下步驟 采用支持向量機分類器對預處理后的句子進行觀點句識別,對每個句子得到一分類結果和屬于該類別的置信度; 采用貝葉斯分類器對預處理后的句子進行觀點句識別,對每個句子得到一分類結果和屬于該類別的置信度;以及 將兩個分類器得到的結果集成,得到最終的分類結果。
12.如權利要求11所述的ー種情感分析方法,其特征在于將兩個分類器得到的結果集成包括將兩種分類器的分類結果和置信度作為更高ー層集成分類器的特征進行再分類以及直接對置信度加權平均得到最終的分類結果兩種方法。
13.如權利要求10所述的ー種情感分析方法,其特征在于該訓練集包括中國計算機學會所提供的來自騰訊微博的樣例數(shù)據(jù)和從新浪微博上抓取的數(shù)據(jù)。
14.如權利要求10所述的ー種情感分析方法,其特征在于,該集成公式為
全文摘要
本發(fā)明公開了一種情感分析系統(tǒng)及方法,該系統(tǒng)包括語料庫建立模組,用于建立觀點句識別及情感傾向分析所需的訓練集;數(shù)據(jù)預處理模組,用于對訓練集中的句子進行預處理;觀點句識別模組,采用支持向量機分類器與貝葉斯分類器分別對預處理后的句子進行觀點句識別,并對兩分類器的結果進行集成處理,得到最終的分類結果;以及情感傾向分析模組,基于支持向量機分類器及貝葉斯分類器分別直接將預處理后的句子分為正面、負面和無觀點三類,并通過一集成公式將該支持向量機分類器和貝葉斯分類器的分類結果集成,得到當前句子的分類結果,本發(fā)明可提高中文微博的觀點句判斷和情感傾向性分類的性能。
文檔編號G06F17/27GK103034626SQ20121057703
公開日2013年4月10日 申請日期2012年12月26日 優(yōu)先權日2012年12月26日
發(fā)明者李武軍, 羅珞, 過敏意 申請人:上海交通大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1