一種針對文本情感分類的多層次分析方法及裝置與流程

文檔序號：40405602發(fā)布日期：2024-12-20 12:29閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)涉及文本識別，特別是涉及一種針對文本情感分類的多層次分析方法及裝置。

背景技術(shù)：

1、近年來，隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，許多社交網(wǎng)絡(luò)涌現(xiàn)出來，成為了用戶傳播信息、了解時(shí)事、發(fā)表觀點(diǎn)的一個(gè)重要平臺，大量觀點(diǎn)充斥其中，社交網(wǎng)絡(luò)成為了一個(gè)巨大的資源庫，吸引了學(xué)者、企業(yè)和政府的注意力。例如，公司可以利用社交網(wǎng)絡(luò)上的大量數(shù)據(jù)了解用戶對其產(chǎn)品的態(tài)度，從而對產(chǎn)品進(jìn)行改進(jìn)。通過挖掘社交網(wǎng)絡(luò)中的情感可以檢測網(wǎng)絡(luò)中的突發(fā)事件，為政府進(jìn)行輿情引導(dǎo)等提供機(jī)遇。面對海量且紛繁復(fù)雜的社交網(wǎng)絡(luò)中的文本，如何對其進(jìn)行情感分析，為推薦系統(tǒng)、輿情引導(dǎo)等重要應(yīng)用提供數(shù)據(jù)基礎(chǔ)，已經(jīng)成為了一個(gè)重要需求。

2、情感分析是自然語言處理的一個(gè)分支，旨在將文本信息分為積極、消極、中性或者喜怒哀樂等情感。目前的情感分析方法主要分為兩種，一種為基于詞典的情感分析方法，該方法通過詞典如wordnet、senticnet等為文本中的詞語分配不同的情感得分，然后通過綜合所有詞的情感得分得到文本最終的情感類別。但這些方法在社交網(wǎng)絡(luò)中的文本情感分類上表現(xiàn)較差，這是由于社交網(wǎng)絡(luò)中的文本多為非結(jié)構(gòu)化文本，包含大量的網(wǎng)絡(luò)用語、特殊符號、縮寫、錯(cuò)別字等不規(guī)范的表達(dá)方式，情感詞典無法解決文本中不規(guī)范表達(dá)的情感分配問題，且不能處理相同的詞在不同語境中有不同情感的問題。另一種方法為基于機(jī)器學(xué)習(xí)的情感分析方法，該類方法通過不同的特征抽取方法如詞包、詞向量等將文本映射為向量，輸入到svm、cnn、lstm、transformer等機(jī)器學(xué)習(xí)模型中。但基于機(jī)器學(xué)習(xí)的情感分析方法需要大量的訓(xùn)練數(shù)據(jù)，在訓(xùn)練數(shù)據(jù)較少時(shí)會產(chǎn)生過擬合等現(xiàn)象。

3、社交網(wǎng)絡(luò)有著其特有的環(huán)境因素，目前針對社交網(wǎng)絡(luò)中出現(xiàn)的文本的情感分類僅從文本內(nèi)容進(jìn)行分析，忽略了社交網(wǎng)絡(luò)環(huán)境因素對文本情感的影響，故存在著識別準(zhǔn)確度不夠的問題。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例中提供了一種針對文本情感分類的多層次分析方法及裝置，以解決現(xiàn)有技術(shù)中針對社交網(wǎng)絡(luò)中出現(xiàn)的文本的情感分類準(zhǔn)確度低的技術(shù)問題。

2、為達(dá)到上述目的，本技術(shù)的實(shí)施例采用如下技術(shù)方案：

3、第一方面，本技術(shù)實(shí)施例提供一種針對文本情感分類的多層次分析方法，所述方法包括：

4、獲取訓(xùn)練樣本以及所述訓(xùn)練樣本對應(yīng)的真實(shí)標(biāo)簽；

5、提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息，并基于所述第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù)；

6、對所述訓(xùn)練樣本對應(yīng)的發(fā)布者按照社區(qū)進(jìn)行劃分，得到社區(qū)劃分結(jié)果，并基于所述社區(qū)劃分結(jié)果構(gòu)建第二損失函數(shù)；

7、提取所述訓(xùn)練樣本對應(yīng)的發(fā)布者中的其中一個(gè)發(fā)布者與另一個(gè)發(fā)布者之間的第二關(guān)聯(lián)信息，并基于所述第二關(guān)聯(lián)信息構(gòu)建第三損失函數(shù)；

8、根據(jù)所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)構(gòu)建得到綜合損失函數(shù)，并以最小化所述綜合損失函數(shù)為目標(biāo)，對多層次情感分類器進(jìn)行訓(xùn)練，得到文本情感分類模型；

9、通過所述文本情感分類模型對待識別文本進(jìn)行情感分類，確定分類結(jié)果。

10、結(jié)合第一方面，在一種可能的設(shè)計(jì)方式中，所述提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息，包括：

11、提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本對應(yīng)的發(fā)布者與另一條訓(xùn)練樣本對應(yīng)的發(fā)布者之間的相似比對結(jié)果；

12、根據(jù)所述相似比對結(jié)果確定兩條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息。

13、結(jié)合第一方面，在一種可能的設(shè)計(jì)方式中，所述提取所述訓(xùn)練樣本對應(yīng)的發(fā)布者中的其中一個(gè)發(fā)布者與另一個(gè)發(fā)布者之間的第二關(guān)聯(lián)信息，包括：

14、獲取發(fā)布者信息，其中，所述發(fā)布者信息包括發(fā)布者的關(guān)注列表，所述關(guān)注列表用于表征發(fā)布者與其他發(fā)布者之間的關(guān)注行為；

15、基于所述關(guān)注列表，將發(fā)布者與其他之間的關(guān)注行為轉(zhuǎn)化為發(fā)布者關(guān)系矩陣，得到第二關(guān)聯(lián)信息，其中，所述發(fā)布者關(guān)系矩陣中的每一個(gè)元素用于表示發(fā)布者與其他發(fā)布者之間是否相關(guān)聯(lián)。

16、結(jié)合第一方面，在一種可能的設(shè)計(jì)方式中，所述提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本對應(yīng)的發(fā)布者與另一條訓(xùn)練樣本對應(yīng)的發(fā)布者之間的相似比對結(jié)果，包括：

17、根據(jù)所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本是否為同一發(fā)布者發(fā)布，以及所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本對應(yīng)的發(fā)布者與另一條訓(xùn)練樣本對應(yīng)的發(fā)布者是否相似，確定相似比對結(jié)果。

18、結(jié)合第一方面，在一種可能的設(shè)計(jì)方式中，所述基于所述第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù)，包括：

19、基于所述第一關(guān)聯(lián)信息確定兩條所述訓(xùn)練樣本是否相關(guān)聯(lián)；

20、根據(jù)兩條相關(guān)聯(lián)的所述訓(xùn)練樣本對應(yīng)的預(yù)測標(biāo)簽之間的第一差距，小于兩條不相關(guān)聯(lián)的所述訓(xùn)練樣本對應(yīng)的預(yù)測標(biāo)簽之間的第一差距，構(gòu)建第一損失函數(shù)。

21、結(jié)合第一方面，在一種可能的設(shè)計(jì)方式中，所述基于所述社區(qū)劃分結(jié)果構(gòu)建第二損失函數(shù)，包括：

22、基于所述社區(qū)劃分結(jié)果確定兩條所述訓(xùn)練樣本對應(yīng)的發(fā)布者的社區(qū)相似度；

23、根據(jù)社區(qū)相似度高的兩個(gè)發(fā)布者發(fā)布的訓(xùn)練樣本對應(yīng)的預(yù)測標(biāo)簽之間的第二差距，小于社區(qū)相似度低的兩個(gè)發(fā)布者發(fā)布的訓(xùn)練樣本對應(yīng)的預(yù)測標(biāo)簽之間的第二差距，構(gòu)建第二損失函數(shù)。

24、結(jié)合第一方面，在一種可能的設(shè)計(jì)方式中，所述基于所述社區(qū)劃分結(jié)果確定兩條所述訓(xùn)練樣本對應(yīng)的發(fā)布者的社區(qū)相似度，包括：

25、以所述社區(qū)劃分結(jié)果中的節(jié)點(diǎn)表示發(fā)布者，獲取所述社區(qū)劃分結(jié)果中各節(jié)點(diǎn)之間的連接數(shù)量；

26、將兩條所述訓(xùn)練樣本對應(yīng)的發(fā)布者所在的社區(qū)中所有節(jié)點(diǎn)之間的連接數(shù)量，與所在的社區(qū)中所有節(jié)點(diǎn)的數(shù)量相除，得到社區(qū)相似度，其中，所述社區(qū)相似度通過發(fā)布者所在的社區(qū)之間的連接數(shù)量的稀疏性來表征。

27、結(jié)合第一方面，在一種可能的設(shè)計(jì)方式中，所述基于所述第二關(guān)聯(lián)信息構(gòu)建第三損失函數(shù)，包括：

28、基于所述第二關(guān)聯(lián)信息確定兩條所述訓(xùn)練樣本對應(yīng)的發(fā)布者是否相關(guān)聯(lián)；

29、根據(jù)兩個(gè)相關(guān)聯(lián)的發(fā)布者發(fā)布的所述訓(xùn)練樣本對應(yīng)的預(yù)測標(biāo)簽之間的第三差距，小于兩個(gè)不相關(guān)聯(lián)的發(fā)布者發(fā)布的所述訓(xùn)練樣本對應(yīng)的預(yù)測標(biāo)簽之間的第三差距，構(gòu)建第三損失函數(shù)。

30、結(jié)合第一方面，在一種可能的設(shè)計(jì)方式中，所述根據(jù)所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)構(gòu)建得到綜合損失函數(shù)，包括：

31、分別為所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)分配權(quán)重；

32、將所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)與各自對應(yīng)的權(quán)重的乘積相加，并結(jié)合模型參數(shù)、范數(shù)，構(gòu)建得到綜合損失函數(shù)。

33、第二方面，本技術(shù)實(shí)施例提供一種針對文本情感分類的多層次分析裝置，包括：

34、樣本獲取模塊，用于獲取訓(xùn)練樣本以及所述訓(xùn)練樣本對應(yīng)的真實(shí)標(biāo)簽；

35、函數(shù)構(gòu)建模塊，用于提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息，并基于所述第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù)；

36、對所述訓(xùn)練樣本對應(yīng)的發(fā)布者按照社區(qū)進(jìn)行劃分，得到社區(qū)劃分結(jié)果，并基于所述社區(qū)劃分結(jié)果構(gòu)建第二損失函數(shù)；

37、提取所述訓(xùn)練樣本對應(yīng)的發(fā)布者中的其中一個(gè)發(fā)布者與另一個(gè)發(fā)布者之間的第二關(guān)聯(lián)信息，并基于所述第二關(guān)聯(lián)信息構(gòu)建第三損失函數(shù)；

38、模型訓(xùn)練模塊，用于根據(jù)所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)構(gòu)建得到綜合損失函數(shù)，并以最小化所述綜合損失函數(shù)為目標(biāo)，對多層次情感分類器進(jìn)行訓(xùn)練，得到文本情感分類模型；

39、模型應(yīng)用模塊，用于通過所述文本情感分類模型對待識別文本進(jìn)行情感分類，確定分類結(jié)果。

40、第三方面，本技術(shù)實(shí)施例提供一種終端，包括存儲器和處理器，所述存儲器中存儲有計(jì)算機(jī)程序，所述處理器被設(shè)置為運(yùn)行所述計(jì)算機(jī)程序以執(zhí)行第一方面及其可能的設(shè)計(jì)方式的方法。

41、第四方面，本技術(shù)實(shí)施例提供一種存儲介質(zhì)，所述存儲介質(zhì)中存儲有計(jì)算機(jī)程序，其中，計(jì)算機(jī)程序被設(shè)置為運(yùn)行時(shí)執(zhí)行第一方面及其可能的設(shè)計(jì)方式的方法。

42、與現(xiàn)有技術(shù)相比，本技術(shù)先獲取訓(xùn)練樣本以及訓(xùn)練樣本對應(yīng)的真實(shí)標(biāo)簽；提取訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息，并基于第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù)；對訓(xùn)練樣本對應(yīng)的發(fā)布者按照社區(qū)進(jìn)行劃分，得到社區(qū)劃分結(jié)果，并基于社區(qū)劃分結(jié)果構(gòu)建第二損失函數(shù)；提取訓(xùn)練樣本對應(yīng)的發(fā)布者中的其中一個(gè)發(fā)布者與另一個(gè)發(fā)布者之間的第二關(guān)聯(lián)信息，并基于第二關(guān)聯(lián)信息構(gòu)建第三損失函數(shù)；根據(jù)第一損失函數(shù)、第二損失函數(shù)、第三損失函數(shù)構(gòu)建得到綜合損失函數(shù)，并以最小化綜合損失函數(shù)為目標(biāo)，對多層次情感分類器進(jìn)行訓(xùn)練，得到文本情感分類模型；通過文本情感分類模型對待識別文本進(jìn)行情感分類，確定分類結(jié)果。本技術(shù)分別考慮了樣本關(guān)聯(lián)性、社區(qū)相似性、用戶關(guān)聯(lián)性三個(gè)層次對于情感分析的影響，便以基于樣本關(guān)聯(lián)性得到的第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù)，以基于社區(qū)相似性的第二關(guān)聯(lián)信息構(gòu)建第二損失函數(shù)，以基于用戶關(guān)聯(lián)性的第三關(guān)聯(lián)信息構(gòu)建第三損失函數(shù)，并結(jié)合第一關(guān)聯(lián)信息、第二關(guān)聯(lián)信息、第三關(guān)聯(lián)信息來構(gòu)建綜合損失函數(shù)。以最小化綜合損失函數(shù)為目的優(yōu)化多層次情感分類器的參數(shù)，便可訓(xùn)練得到文本情感分類模型，由于模型的訓(xùn)練過程考慮了上文三個(gè)層次的影響，所以模型在對非結(jié)構(gòu)化文本進(jìn)行識別時(shí)，在不依賴于大量樣本的情況下就能達(dá)到較高的識別準(zhǔn)確率，解決了目前針對文本的情感分類存在著識別準(zhǔn)確度不夠的問題。

43、本技術(shù)的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在以下附圖和描述中提出，以使本技術(shù)的其他特征、目的和優(yōu)點(diǎn)更加簡明易懂。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄒曉梅
技術(shù)所有人：之江實(shí)驗(yàn)室
我是此專利的發(fā)明人

上一篇：一種管道吊裝裝置的制作方法
上一篇：一種帶有清網(wǎng)球的新型振動篩的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種針對文本情感分類的多層次分析方法及裝置與流程