1.一種微博情感分類器的構(gòu)建方法,其特征在于,包括以下步驟:
S1,獲取多條微博數(shù)據(jù),其中,所述微博數(shù)據(jù)包括微博文本與所述微博文本中的表情符;
S2,對所述微博文本進行分詞得到詞語集合,其中,所述詞語集合中的每個詞語攜帶微博文本情感傾向的基本原子信息;
S3,根據(jù)海量無標(biāo)注的微博文本數(shù)據(jù)得到詞語-詞語情感關(guān)聯(lián)關(guān)系;
S4,根據(jù)所述海量無標(biāo)注的微博文本數(shù)據(jù)得到詞語-情感關(guān)聯(lián)關(guān)系;
S5,對預(yù)設(shè)數(shù)量的微博文本數(shù)據(jù)進行人工標(biāo)注,以賦予情感標(biāo)簽得到有標(biāo)注的微博情感數(shù)據(jù)集;以及
S6,將所述詞語-詞語情感關(guān)聯(lián)關(guān)系、所述詞語-情感關(guān)聯(lián)關(guān)系和所述有標(biāo)注的微博情感數(shù)據(jù)集融合得到多源異構(gòu)情感信息,并建立數(shù)學(xué)模型,以得到微博情感分類器。
2.根據(jù)權(quán)利要求1所述的微博情感分類器的構(gòu)建方法,其特征在于,在所述S6中,具體包括:
在建立所述數(shù)據(jù)模型之后,通過數(shù)學(xué)優(yōu)化選法對所述數(shù)學(xué)模型進行優(yōu)化得到微博情感分類器的參數(shù),進而得到所述微博情感分類器。
3.根據(jù)權(quán)利要求1所述的微博情感分類器的構(gòu)建方法,其特征在于,在所述S4中,通過尋找無標(biāo)注的微博文本中的詞語與詞語之間的聯(lián)系,以確定詞語之間的情感關(guān)聯(lián)性,進而獲取所述詞語-情感關(guān)聯(lián)關(guān)系。
4.根據(jù)權(quán)利要求1所述的微博情感分類器的構(gòu)建方法,其特征在于,在所述S5中,將所述預(yù)設(shè)數(shù)量的微博文本中的表情符作為微博情感傾向的偽標(biāo)簽,進而將所述表情符所表達的情感信息映射至對應(yīng)的詞語中,以建立所述表情符相關(guān)的詞語與表情符所表達情感的聯(lián)系,進而獲取所述有標(biāo)注的微博情感數(shù)據(jù)集。
5.根據(jù)權(quán)利要求1所述的微博情感分類器的構(gòu)建方法,其特征在于,還包括:
S7,輸出所述微博情感分類器。
6.一種微博情感分類器的構(gòu)建裝置,其特征在于,包括:
數(shù)據(jù)獲取模塊,用于獲取多條微博數(shù)據(jù),其中,所述微博數(shù)據(jù)包括微博文本與所述微博文本中的表情符;
分詞模塊,用于對所述微博文本進行分詞得到詞語集合,其中,所述詞語集合中的每個詞語攜帶微博文本情感傾向的基本原子信息;
關(guān)系獲取模塊,用于根據(jù)海量無標(biāo)注的微博文本數(shù)據(jù)得到詞語-詞語情感關(guān)聯(lián)關(guān)系,并且根據(jù)所述海量無標(biāo)注的微博文本數(shù)據(jù)得到詞語-情感關(guān)聯(lián)關(guān)系;
標(biāo)注模塊,用于對預(yù)設(shè)數(shù)量的微博文本數(shù)據(jù)進行人工標(biāo)注,以賦予情感標(biāo)簽得到有標(biāo)注的微博情感數(shù)據(jù)集;以及
分類器構(gòu)建模塊,用于將所述詞語-詞語情感關(guān)聯(lián)關(guān)系、所述詞語-情感關(guān)聯(lián)關(guān)系和所述有標(biāo)注的微博情感數(shù)據(jù)集融合得到多源異構(gòu)情感信息,并建立數(shù)學(xué)模型,以得到微博情感分類器。
7.根據(jù)權(quán)利要求6所述的微博情感分類器的構(gòu)建裝置,其特征在于,在建立所述數(shù)據(jù)模型之后,所述分類器構(gòu)建模塊通過數(shù)學(xué)優(yōu)化選法對所述數(shù)學(xué)模型進行優(yōu)化得到微博情感分類器的參數(shù),進而得到所述微博情感分類器。
8.根據(jù)權(quán)利要求6所述的微博情感分類器的構(gòu)建裝置,其特征在于,所述關(guān)系獲取模塊還用于通過尋找無標(biāo)注的微博文本中的詞語與詞語之間的聯(lián)系,以確定詞語之間的情感關(guān)聯(lián)性,進而獲取所述詞語-情感關(guān)聯(lián)關(guān)系。
9.根據(jù)權(quán)利要求6所述的微博情感分類器的構(gòu)建裝置,其特征在于,所述標(biāo)注模塊還用于將所述預(yù)設(shè)數(shù)量的微博文本中的表情符作為微博情感傾向的偽標(biāo)簽,進而將所述表情符所表達的情感信息映射至對應(yīng)的詞語中,以建立所述表情符相關(guān)的詞語與表情符所表達情感的聯(lián)系,進而獲取所述有標(biāo)注的微博情感數(shù)據(jù)集。
10.根據(jù)權(quán)利要求6所述的微博情感分類器的構(gòu)建裝置,其特征在于,還包括:
輸出模塊,用于輸出所述微博情感分類器。