本技術(shù)涉及文本識別,特別是涉及一種針對文本情感分類的多層次分析方法及裝置。
背景技術(shù):
1、近年來,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,許多社交網(wǎng)絡(luò)涌現(xiàn)出來,成為了用戶傳播信息、了解時(shí)事、發(fā)表觀點(diǎn)的一個(gè)重要平臺,大量觀點(diǎn)充斥其中,社交網(wǎng)絡(luò)成為了一個(gè)巨大的資源庫,吸引了學(xué)者、企業(yè)和政府的注意力。例如,公司可以利用社交網(wǎng)絡(luò)上的大量數(shù)據(jù)了解用戶對其產(chǎn)品的態(tài)度,從而對產(chǎn)品進(jìn)行改進(jìn)。通過挖掘社交網(wǎng)絡(luò)中的情感可以檢測網(wǎng)絡(luò)中的突發(fā)事件,為政府進(jìn)行輿情引導(dǎo)等提供機(jī)遇。面對海量且紛繁復(fù)雜的社交網(wǎng)絡(luò)中的文本,如何對其進(jìn)行情感分析,為推薦系統(tǒng)、輿情引導(dǎo)等重要應(yīng)用提供數(shù)據(jù)基礎(chǔ),已經(jīng)成為了一個(gè)重要需求。
2、情感分析是自然語言處理的一個(gè)分支,旨在將文本信息分為積極、消極、中性或者喜怒哀樂等情感。目前的情感分析方法主要分為兩種,一種為基于詞典的情感分析方法,該方法通過詞典如wordnet、senticnet等為文本中的詞語分配不同的情感得分,然后通過綜合所有詞的情感得分得到文本最終的情感類別。但這些方法在社交網(wǎng)絡(luò)中的文本情感分類上表現(xiàn)較差,這是由于社交網(wǎng)絡(luò)中的文本多為非結(jié)構(gòu)化文本,包含大量的網(wǎng)絡(luò)用語、特殊符號、縮寫、錯(cuò)別字等不規(guī)范的表達(dá)方式,情感詞典無法解決文本中不規(guī)范表達(dá)的情感分配問題,且不能處理相同的詞在不同語境中有不同情感的問題。另一種方法為基于機(jī)器學(xué)習(xí)的情感分析方法,該類方法通過不同的特征抽取方法如詞包、詞向量等將文本映射為向量,輸入到svm、cnn、lstm、transformer等機(jī)器學(xué)習(xí)模型中。但基于機(jī)器學(xué)習(xí)的情感分析方法需要大量的訓(xùn)練數(shù)據(jù),在訓(xùn)練數(shù)據(jù)較少時(shí)會產(chǎn)生過擬合等現(xiàn)象。
3、社交網(wǎng)絡(luò)有著其特有的環(huán)境因素,目前針對社交網(wǎng)絡(luò)中出現(xiàn)的文本的情感分類僅從文本內(nèi)容進(jìn)行分析,忽略了社交網(wǎng)絡(luò)環(huán)境因素對文本情感的影響,故存在著識別準(zhǔn)確度不夠的問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例中提供了一種針對文本情感分類的多層次分析方法及裝置,以解決現(xiàn)有技術(shù)中針對社交網(wǎng)絡(luò)中出現(xiàn)的文本的情感分類準(zhǔn)確度低的技術(shù)問題。
2、為達(dá)到上述目的,本技術(shù)的實(shí)施例采用如下技術(shù)方案:
3、第一方面,本技術(shù)實(shí)施例提供一種針對文本情感分類的多層次分析方法,所述方法包括:
4、獲取訓(xùn)練樣本以及所述訓(xùn)練樣本對應(yīng)的真實(shí)標(biāo)簽;
5、提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息,并基于所述第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù);
6、對所述訓(xùn)練樣本對應(yīng)的發(fā)布者按照社區(qū)進(jìn)行劃分,得到社區(qū)劃分結(jié)果,并基于所述社區(qū)劃分結(jié)果構(gòu)建第二損失函數(shù);
7、提取所述訓(xùn)練樣本對應(yīng)的發(fā)布者中的其中一個(gè)發(fā)布者與另一個(gè)發(fā)布者之間的第二關(guān)聯(lián)信息,并基于所述第二關(guān)聯(lián)信息構(gòu)建第三損失函數(shù);
8、根據(jù)所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)構(gòu)建得到綜合損失函數(shù),并以最小化所述綜合損失函數(shù)為目標(biāo),對多層次情感分類器進(jìn)行訓(xùn)練,得到文本情感分類模型;
9、通過所述文本情感分類模型對待識別文本進(jìn)行情感分類,確定分類結(jié)果。
10、結(jié)合第一方面,在一種可能的設(shè)計(jì)方式中,所述提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息,包括:
11、提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本對應(yīng)的發(fā)布者與另一條訓(xùn)練樣本對應(yīng)的發(fā)布者之間的相似比對結(jié)果;
12、根據(jù)所述相似比對結(jié)果確定兩條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息。
13、結(jié)合第一方面,在一種可能的設(shè)計(jì)方式中,所述提取所述訓(xùn)練樣本對應(yīng)的發(fā)布者中的其中一個(gè)發(fā)布者與另一個(gè)發(fā)布者之間的第二關(guān)聯(lián)信息,包括:
14、獲取發(fā)布者信息,其中,所述發(fā)布者信息包括發(fā)布者的關(guān)注列表,所述關(guān)注列表用于表征發(fā)布者與其他發(fā)布者之間的關(guān)注行為;
15、基于所述關(guān)注列表,將發(fā)布者與其他之間的關(guān)注行為轉(zhuǎn)化為發(fā)布者關(guān)系矩陣,得到第二關(guān)聯(lián)信息,其中,所述發(fā)布者關(guān)系矩陣中的每一個(gè)元素用于表示發(fā)布者與其他發(fā)布者之間是否相關(guān)聯(lián)。
16、結(jié)合第一方面,在一種可能的設(shè)計(jì)方式中,所述提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本對應(yīng)的發(fā)布者與另一條訓(xùn)練樣本對應(yīng)的發(fā)布者之間的相似比對結(jié)果,包括:
17、根據(jù)所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本是否為同一發(fā)布者發(fā)布,以及所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本對應(yīng)的發(fā)布者與另一條訓(xùn)練樣本對應(yīng)的發(fā)布者是否相似,確定相似比對結(jié)果。
18、結(jié)合第一方面,在一種可能的設(shè)計(jì)方式中,所述基于所述第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù),包括:
19、基于所述第一關(guān)聯(lián)信息確定兩條所述訓(xùn)練樣本是否相關(guān)聯(lián);
20、根據(jù)兩條相關(guān)聯(lián)的所述訓(xùn)練樣本對應(yīng)的預(yù)測標(biāo)簽之間的第一差距,小于兩條不相關(guān)聯(lián)的所述訓(xùn)練樣本對應(yīng)的預(yù)測標(biāo)簽之間的第一差距,構(gòu)建第一損失函數(shù)。
21、結(jié)合第一方面,在一種可能的設(shè)計(jì)方式中,所述基于所述社區(qū)劃分結(jié)果構(gòu)建第二損失函數(shù),包括:
22、基于所述社區(qū)劃分結(jié)果確定兩條所述訓(xùn)練樣本對應(yīng)的發(fā)布者的社區(qū)相似度;
23、根據(jù)社區(qū)相似度高的兩個(gè)發(fā)布者發(fā)布的訓(xùn)練樣本對應(yīng)的預(yù)測標(biāo)簽之間的第二差距,小于社區(qū)相似度低的兩個(gè)發(fā)布者發(fā)布的訓(xùn)練樣本對應(yīng)的預(yù)測標(biāo)簽之間的第二差距,構(gòu)建第二損失函數(shù)。
24、結(jié)合第一方面,在一種可能的設(shè)計(jì)方式中,所述基于所述社區(qū)劃分結(jié)果確定兩條所述訓(xùn)練樣本對應(yīng)的發(fā)布者的社區(qū)相似度,包括:
25、以所述社區(qū)劃分結(jié)果中的節(jié)點(diǎn)表示發(fā)布者,獲取所述社區(qū)劃分結(jié)果中各節(jié)點(diǎn)之間的連接數(shù)量;
26、將兩條所述訓(xùn)練樣本對應(yīng)的發(fā)布者所在的社區(qū)中所有節(jié)點(diǎn)之間的連接數(shù)量,與所在的社區(qū)中所有節(jié)點(diǎn)的數(shù)量相除,得到社區(qū)相似度,其中,所述社區(qū)相似度通過發(fā)布者所在的社區(qū)之間的連接數(shù)量的稀疏性來表征。
27、結(jié)合第一方面,在一種可能的設(shè)計(jì)方式中,所述基于所述第二關(guān)聯(lián)信息構(gòu)建第三損失函數(shù),包括:
28、基于所述第二關(guān)聯(lián)信息確定兩條所述訓(xùn)練樣本對應(yīng)的發(fā)布者是否相關(guān)聯(lián);
29、根據(jù)兩個(gè)相關(guān)聯(lián)的發(fā)布者發(fā)布的所述訓(xùn)練樣本對應(yīng)的預(yù)測標(biāo)簽之間的第三差距,小于兩個(gè)不相關(guān)聯(lián)的發(fā)布者發(fā)布的所述訓(xùn)練樣本對應(yīng)的預(yù)測標(biāo)簽之間的第三差距,構(gòu)建第三損失函數(shù)。
30、結(jié)合第一方面,在一種可能的設(shè)計(jì)方式中,所述根據(jù)所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)構(gòu)建得到綜合損失函數(shù),包括:
31、分別為所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)分配權(quán)重;
32、將所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)與各自對應(yīng)的權(quán)重的乘積相加,并結(jié)合模型參數(shù)、范數(shù),構(gòu)建得到綜合損失函數(shù)。
33、第二方面,本技術(shù)實(shí)施例提供一種針對文本情感分類的多層次分析裝置,包括:
34、樣本獲取模塊,用于獲取訓(xùn)練樣本以及所述訓(xùn)練樣本對應(yīng)的真實(shí)標(biāo)簽;
35、函數(shù)構(gòu)建模塊,用于提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息,并基于所述第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù);
36、對所述訓(xùn)練樣本對應(yīng)的發(fā)布者按照社區(qū)進(jìn)行劃分,得到社區(qū)劃分結(jié)果,并基于所述社區(qū)劃分結(jié)果構(gòu)建第二損失函數(shù);
37、提取所述訓(xùn)練樣本對應(yīng)的發(fā)布者中的其中一個(gè)發(fā)布者與另一個(gè)發(fā)布者之間的第二關(guān)聯(lián)信息,并基于所述第二關(guān)聯(lián)信息構(gòu)建第三損失函數(shù);
38、模型訓(xùn)練模塊,用于根據(jù)所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)構(gòu)建得到綜合損失函數(shù),并以最小化所述綜合損失函數(shù)為目標(biāo),對多層次情感分類器進(jìn)行訓(xùn)練,得到文本情感分類模型;
39、模型應(yīng)用模塊,用于通過所述文本情感分類模型對待識別文本進(jìn)行情感分類,確定分類結(jié)果。
40、第三方面,本技術(shù)實(shí)施例提供一種終端,包括存儲器和處理器,所述存儲器中存儲有計(jì)算機(jī)程序,所述處理器被設(shè)置為運(yùn)行所述計(jì)算機(jī)程序以執(zhí)行第一方面及其可能的設(shè)計(jì)方式的方法。
41、第四方面,本技術(shù)實(shí)施例提供一種存儲介質(zhì),所述存儲介質(zhì)中存儲有計(jì)算機(jī)程序,其中,計(jì)算機(jī)程序被設(shè)置為運(yùn)行時(shí)執(zhí)行第一方面及其可能的設(shè)計(jì)方式的方法。
42、與現(xiàn)有技術(shù)相比,本技術(shù)先獲取訓(xùn)練樣本以及訓(xùn)練樣本對應(yīng)的真實(shí)標(biāo)簽;提取訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息,并基于第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù);對訓(xùn)練樣本對應(yīng)的發(fā)布者按照社區(qū)進(jìn)行劃分,得到社區(qū)劃分結(jié)果,并基于社區(qū)劃分結(jié)果構(gòu)建第二損失函數(shù);提取訓(xùn)練樣本對應(yīng)的發(fā)布者中的其中一個(gè)發(fā)布者與另一個(gè)發(fā)布者之間的第二關(guān)聯(lián)信息,并基于第二關(guān)聯(lián)信息構(gòu)建第三損失函數(shù);根據(jù)第一損失函數(shù)、第二損失函數(shù)、第三損失函數(shù)構(gòu)建得到綜合損失函數(shù),并以最小化綜合損失函數(shù)為目標(biāo),對多層次情感分類器進(jìn)行訓(xùn)練,得到文本情感分類模型;通過文本情感分類模型對待識別文本進(jìn)行情感分類,確定分類結(jié)果。本技術(shù)分別考慮了樣本關(guān)聯(lián)性、社區(qū)相似性、用戶關(guān)聯(lián)性三個(gè)層次對于情感分析的影響,便以基于樣本關(guān)聯(lián)性得到的第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù),以基于社區(qū)相似性的第二關(guān)聯(lián)信息構(gòu)建第二損失函數(shù),以基于用戶關(guān)聯(lián)性的第三關(guān)聯(lián)信息構(gòu)建第三損失函數(shù),并結(jié)合第一關(guān)聯(lián)信息、第二關(guān)聯(lián)信息、第三關(guān)聯(lián)信息來構(gòu)建綜合損失函數(shù)。以最小化綜合損失函數(shù)為目的優(yōu)化多層次情感分類器的參數(shù),便可訓(xùn)練得到文本情感分類模型,由于模型的訓(xùn)練過程考慮了上文三個(gè)層次的影響,所以模型在對非結(jié)構(gòu)化文本進(jìn)行識別時(shí),在不依賴于大量樣本的情況下就能達(dá)到較高的識別準(zhǔn)確率,解決了目前針對文本的情感分類存在著識別準(zhǔn)確度不夠的問題。
43、本技術(shù)的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在以下附圖和描述中提出,以使本技術(shù)的其他特征、目的和優(yōu)點(diǎn)更加簡明易懂。