1.一種文本話題和情感的聯(lián)合檢測方法,其特征在于,所述方法包括下述步驟:
使用預(yù)設(shè)的情感詞典計(jì)算輸入的目標(biāo)文本中每個(gè)詞的初始情感傾向;
將預(yù)先獲取的外部語料的詞向量設(shè)置為所述目標(biāo)文本的詞向量的初始值;
使用預(yù)設(shè)的話題情感混合模型對(duì)輸入的目標(biāo)文本進(jìn)行訓(xùn)練,以得到所述目標(biāo)文本中各個(gè)情感話題對(duì)與詞之間的初始分配;
根據(jù)所述目標(biāo)文本中每個(gè)詞的初始情感傾向、所述詞向量的初始值以及所述各個(gè)情感話題對(duì)與詞之間的初始分配,對(duì)所述目標(biāo)文本中包括的每篇文檔進(jìn)行掃描,對(duì)掃描到的每個(gè)訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的話題和情感檢測步驟,以得到所述目標(biāo)文本所涉及的話題和情感。
2.如權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)的話題和情感檢測步驟包括:
利用對(duì)所述目標(biāo)文本的話題向量進(jìn)行學(xué)習(xí),其中,為L2正則化項(xiàng),μ為正則化因子,υk為話題k對(duì)應(yīng)的話題向量,為話題k下詞wi出現(xiàn)的次數(shù),代表詞wi對(duì)應(yīng)的詞向量表示;
使用計(jì)算每篇文檔情感和話題向量對(duì)應(yīng)下的詞向量概率分布,υk代表話題向量,代表詞wi對(duì)應(yīng)的詞向量表示,W為語料庫中詞典內(nèi)包含的詞的集合,wi′為詞典中的詞;
根據(jù)更新訓(xùn)練目標(biāo)詞對(duì)應(yīng)的情感傾向和話題,其中,表示文本情感下話題的分布,表示文本下情感的分布,表示情感下話題詞的分布,α、β、γ表示Dirichlet先驗(yàn)超參數(shù),λ表示服從伯努利分布的參數(shù),ν表示話題向量,ω表示詞向量,V、T、L分別表示詞典大小、話題個(gè)數(shù)、情感標(biāo)簽的個(gè)數(shù),表示除文檔d中的第i個(gè)詞外,情感l(wèi)中被分配到話題k的詞的個(gè)數(shù),表示文檔d中的第i個(gè)詞被分配到情感l(wèi)的次數(shù),但不包含當(dāng)前分配,表示除文檔d中的第i個(gè)詞外,情感l(wèi)下分配到的詞的總數(shù),表示當(dāng)前詞i被分配到情感l(wèi)中話題k的詞的次數(shù),但不包含當(dāng)前分配,表示除當(dāng)前詞i外,情感l(wèi)下分配到話題k的詞的總數(shù)。
3.如權(quán)利要求1所述的方法,其特征在于,將預(yù)先獲取的外部語料的詞向量設(shè)置為所述目標(biāo)文本的詞向量的初始值的步驟之前,所述方法還包括:
獲取外部擴(kuò)展語料,以作為所述目標(biāo)文本對(duì)應(yīng)的原始數(shù)據(jù)的語義補(bǔ)充;
使用預(yù)設(shè)詞向量訓(xùn)練程序?qū)λ霁@取的外部擴(kuò)展語料進(jìn)行預(yù)訓(xùn)練,以得到所述外部擴(kuò)展語料中各個(gè)詞語的詞向量。
4.如權(quán)利要求3所述的方法,其特征在于,所述外部擴(kuò)展語料為維基百科或百度百科,所述預(yù)設(shè)詞向量訓(xùn)練程序?yàn)閣ord2vec或者GloVe工具。
5.如權(quán)利要求1所述的方法,其特征在于,預(yù)設(shè)的情感詞典為HowNet詞典,預(yù)設(shè)的話題情感混合模型為JST模型。
6.一種文本話題和情感的聯(lián)合檢測裝置,其特征在于,所述裝置包括:
情感傾向計(jì)算單元,用于使用預(yù)設(shè)的情感詞典計(jì)算輸入的目標(biāo)文本中每個(gè)詞的初始情感傾向;
詞向量設(shè)置單元,用于將預(yù)先獲取的外部語料的詞向量設(shè)置為所述目標(biāo)文本的詞向量的初始值;
文本訓(xùn)練單元,用于使用預(yù)設(shè)的話題情感混合模型對(duì)輸入的目標(biāo)文本進(jìn)行訓(xùn)練,以得到所述目標(biāo)文本中各個(gè)情感話題對(duì)與詞之間的初始分配;以及
話題情感獲取單元,用于根據(jù)所述目標(biāo)文本中每個(gè)詞的初始情感傾向、所述詞向量的初始值以及所述各個(gè)情感話題對(duì)與詞之間的初始分配,對(duì)所述目標(biāo)文本中包括的每篇文檔進(jìn)行掃描,對(duì)掃描到的每個(gè)訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的話題和情感檢測步驟,以得到所述目標(biāo)文本所涉及的話題和情感。
7.如權(quán)利要求6所述的裝置,其特征在于,所述話題情感獲取單元包括:
詞向量學(xué)習(xí)單元,用于利用對(duì)所述目標(biāo)文本的話題向量進(jìn)行學(xué)習(xí),其中,為L2正則化項(xiàng),μ為正則化因子,υk為話題k對(duì)應(yīng)的話題向量,為話題k下詞wi出現(xiàn)的次數(shù),代表詞wi對(duì)應(yīng)的詞向量表示;
分布計(jì)算單元,用于使用計(jì)算每篇文檔情感和話題向量對(duì)應(yīng)下的詞向量概率分布,υk代表話題向量,代表詞wi對(duì)應(yīng)的詞向量表示,W為語料庫中詞典內(nèi)包含的詞的集合,wi′為詞典中的詞;以及
情感話題更新單元,用于根據(jù)更新訓(xùn)練目標(biāo)詞對(duì)應(yīng)的情感傾向和話題,其中,表示文本情感下話題的分布,表示文本下情感的分布,表示情感下話題詞的分布,α、β、γ表示Dirichlet先驗(yàn)超參數(shù),λ表示服從伯努利分布的參數(shù),ν表示話題向量,ω表示詞向量,V、T、L分別表示詞典大小、話題個(gè)數(shù)、情感標(biāo)簽的個(gè)數(shù),表示除文檔d中的第i個(gè)詞外,情感l(wèi)中被分配到話題k的詞的個(gè)數(shù),表示文檔d中的第i個(gè)詞被分配到情感l(wèi)的次數(shù),但不包含當(dāng)前分配,表示除文檔d中的第i個(gè)詞外,情感l(wèi)下分配到的詞的總數(shù),表示當(dāng)前詞i被分配到情感l(wèi)中話題k的詞的次數(shù),但不包含當(dāng)前分配,表示除當(dāng)前詞i外,情感l(wèi)下分配到話題k的詞的總數(shù)。
8.如權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括:
語料獲取單元,用于獲取外部擴(kuò)展語料,以作為所述目標(biāo)文本對(duì)應(yīng)的原始數(shù)據(jù)的語義補(bǔ)充;以及
語料訓(xùn)練單元,用于使用預(yù)設(shè)詞向量訓(xùn)練程序?qū)λ霁@取的外部擴(kuò)展語料進(jìn)行預(yù)訓(xùn)練,以得到所述外部擴(kuò)展語料中各個(gè)詞語的詞向量。
9.如權(quán)利要求8所述的裝置,其特征在于,所述外部擴(kuò)展語料為維基百科或百度百科,所述預(yù)設(shè)詞向量訓(xùn)練程序?yàn)閣ord2vec或者GloVe工具。
10.如權(quán)利要求6所述的裝置,其特征在于,預(yù)設(shè)的情感詞典為HowNet詞典,預(yù)設(shè)的話題情感混合模型為JST模型。