本發(fā)明涉及自然語言處理技術(shù),特別涉及方面級情感分析技術(shù)。
背景技術(shù):
1、文本情感分析是一種文本分析技術(shù),也稱為觀點挖掘,是針對人們對實體表達的觀點、評價、態(tài)度和情感進行計算的研究。文本情感分析可以按分析粒度分為篇章級情感分析、句子級情感分析和方面級情感分析。早期階段,篇章級和句子級情感分析任務是研究的重點。它們假設一段文本只有一種情感,并對給定文本進行分析并判斷其整體的情感極性。情感極性用于確定文本中表達的情感傾向是正面、負面還是中立。然而,對文本進行整體情感分析會掩蓋其細節(jié),且整體情感并不能反映人們對意見目標的、細粒度的情感表達。如果只關(guān)注整體情感而忽略具體細節(jié),可能會在推薦系統(tǒng)、問答系統(tǒng)等現(xiàn)實應用中計算出有誤的結(jié)果。因此,為了進行更完整的情感分析,系統(tǒng)需要發(fā)現(xiàn)文本評論的各個方面對象,并確定文本針對每個方面所表達的情感信息,這就是方面級情感分析技術(shù)。
2、方面級情感分析任務的目標是找到需要評價的目標方面詞及其對應的情感極性。目標方面詞可以是從實際的評論文本中提取的,也可以是預定義的。
3、方面級情感分析是旨在識別文本中對特定方面或?qū)嶓w的情感傾向,輸出該特定方面或?qū)嶓w的情感極性。這項技術(shù)在許多應用領(lǐng)域都具有重要價值,例如產(chǎn)品評論分析、社交媒體輿情監(jiān)測等。
4、在方面級情感分析中,可以使用bert模型進行文本編碼和情感分類。首先,將文本輸入到bert模型中,利用預訓練的語言表示能力,將文本轉(zhuǎn)換為高維的語義表示。然后,可以在bert輸出的語義表示上建立分類器,以識別文本中對特定方面的情感傾向。這個分類器可以是簡單的全連接層神經(jīng)網(wǎng)絡,也可以是更復雜的模型,根據(jù)具體情況進行設計。
5、使用bert模型的優(yōu)勢在于其強大的語言理解能力和上下文感知能力,使得模型能夠更準確地理解文本的含義和情感傾向。通過在預訓練模型的基礎上進行微調(diào),可以在不需要大量標注數(shù)據(jù)的情況下,獲得在方面級情感分析任務上的良好性能。然而基于序列數(shù)據(jù)結(jié)構(gòu)的bert并不能由圖結(jié)構(gòu)組成的句信息,也就缺少了捕捉與目標方面詞相關(guān)的上下文能力。
技術(shù)實現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題是,針對現(xiàn)有技術(shù)中訓練時未通過類似于句子語法結(jié)構(gòu)捕捉句子深層的語義的現(xiàn)狀,提供一種提升對句子上下文的分析能力的方面級情感分析方法。
2、本發(fā)明解決上述技術(shù)問題采用的技術(shù)方案是,一種結(jié)合語法樹和圖網(wǎng)絡的方面級情感分析方法,包括以下步驟:
3、a、訓練過程:
4、a1、獲取文本樣本及其對應的目標方面詞,并對進文本樣本進行預處理;
5、a2、通過bert編碼器分別采用多個transformer結(jié)構(gòu)從預處理后的文本樣本進行分詞得到詞向量并輸出至圖神經(jīng)網(wǎng)絡學習;
6、a3、根據(jù)接收到的詞向量構(gòu)造方面感知注意力機制及自注意力機制;將方面感知注意力機制系數(shù)及自注意力機制系數(shù)相加作為初始化矩陣;根據(jù)句法依賴樹中各個詞的依賴距離構(gòu)造句法依賴鄰接矩陣;根據(jù)語義組成樹中各個詞的組成距離構(gòu)造語義組成鄰接矩陣;將初始化矩陣、句法依賴鄰接矩陣與語義組成鄰接矩陣進行加法融合得到包含圖信息的掩碼矩陣并輸出至圖神經(jīng)網(wǎng)絡;圖神經(jīng)網(wǎng)絡根據(jù)接收詞向量以及掩碼矩陣,從文本的句法依賴結(jié)構(gòu)和語義組成結(jié)構(gòu)中提取與目標方面詞相關(guān)的語義特征;將語義特征輸出至全連接層,全連接層輸出目標方面詞的情感極性預測概率分布;
7、a4、使用梯度下降法,以目標方面詞的情感極性標簽為約束,優(yōu)化所述bert編碼器以及圖神經(jīng)網(wǎng)絡的參數(shù),獲得訓練好的bert模型和圖神經(jīng)網(wǎng)絡;
8、b、預測過程:
9、b1、對待預測文字數(shù)據(jù)進行預處理,并確認需要預測的目標方面詞;
10、b2、通過訓練好的bert模型對經(jīng)過預處理的待預測文字數(shù)據(jù)進行特征提取獲得詞向量;
11、b3、將詞向量輸入訓練好的圖神經(jīng)網(wǎng)絡,圖神經(jīng)網(wǎng)絡輸出目標方面詞的情感極性。
12、本發(fā)明的有益效果是:
13、(1)本發(fā)明可以根據(jù)輸入的文本自動判定其中給定方面的情感極性。用戶可以直接使用該情感極性判定相關(guān)內(nèi)容,減輕工作負擔,減少錯誤。
14、(2)在訓練過程中,不需要提前進行文本預處理,以及分詞操作,而僅需要獲取文字作為訓練數(shù)據(jù),減少了工作量,也避免了人工從原始文字進行處理時容易造成的信息丟失的問題。
15、(3)使用的基于語法樹結(jié)構(gòu)的圖神經(jīng)網(wǎng)絡性能要顯著優(yōu)于以往lstm網(wǎng)絡以及普通的預訓練模型:首先,圖神經(jīng)網(wǎng)絡比lstm網(wǎng)絡在網(wǎng)絡結(jié)構(gòu)上更復雜,網(wǎng)絡對文本與樹結(jié)構(gòu)相關(guān)的語義特征抽取能力遠比lstm網(wǎng)絡強,使得系統(tǒng)生成的最終情感極性預測也更準確。
1.一種結(jié)合語法樹和圖網(wǎng)絡的方面級情感分析方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述方法,其特征在于,步驟a1中的對進文本樣本進行預處理具體包括:將文本樣本中的句子提取出來,標注句子中的目標方面詞以及對應的情感極性標簽;并控制句子最大長度,保證句子跨度統(tǒng)一。
3.如權(quán)利要求1所述方法,其特征在于,方面感知注意力機制系數(shù)aasp的計算為:
4.權(quán)利要求1所述方法,其特征在于,根據(jù)句法依賴樹中各個詞的依賴距離構(gòu)造句法依賴鄰接矩陣中各個詞的依賴距離構(gòu)造句法依賴鄰接矩陣具體為:
5.權(quán)利要求1所述方法,其特征在于,掩碼矩陣具體為:
6.一種計算機程序產(chǎn)品,包括計算機程序/指令,其特征在于,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1所述方法的步驟。