本技術(shù)涉及事件分類,尤其涉及一種事件分類方法、電子設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)。
背景技術(shù):
1、事件數(shù)據(jù)中存在大量語義相近但分類標(biāo)簽各異的情況,這些數(shù)據(jù)的分類不僅取決于訴求的語義描述,還受到特定關(guān)鍵詞的顯著影響。然而,事件分類器大多基于語義訓(xùn)練,忽視了這些關(guān)鍵詞的稀疏特征,導(dǎo)致分類器在實(shí)際應(yīng)用中難以準(zhǔn)確把握事件的本質(zhì),從而產(chǎn)生了分類誤差。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供了一種事件分類方法、電子設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)。
2、第一方面,本技術(shù)實(shí)施例提供了一種事件分類方法,該方法包括:
3、收集事件數(shù)據(jù),事件數(shù)據(jù)包括多個事件與對應(yīng)的人工標(biāo)注類標(biāo)簽;
4、對事件數(shù)據(jù)進(jìn)行預(yù)處理;
5、基于預(yù)處理后的事件數(shù)據(jù),生成事件數(shù)據(jù)的關(guān)鍵詞特征向量;
6、基于預(yù)處理后的事件數(shù)據(jù),生成事件數(shù)據(jù)的語義特征向量;
7、融合關(guān)鍵詞特征向量和語義特征向量,得到融合后的特征向量;
8、基于融合后的特征向量和人工標(biāo)注類標(biāo)簽,訓(xùn)練和優(yōu)化softmax多分類模型;
9、基于softmax多分類模型進(jìn)行事件分類,得到事件的預(yù)測類標(biāo)簽。
10、可選的,基于預(yù)處理后的事件數(shù)據(jù),生成事件數(shù)據(jù)的關(guān)鍵詞特征向量包括:
11、基于詞頻-逆文檔頻率tf-idf算法對預(yù)處理后的事件數(shù)據(jù)進(jìn)行關(guān)鍵詞提取,獲得每個事件的tf-idf值排名前三的詞作為每個事件的關(guān)鍵詞;
12、生成每個事件的關(guān)鍵詞向量,作為每個事件的關(guān)鍵詞特征向量。
13、可選的,生成每個事件的關(guān)鍵詞向量包括:
14、基于預(yù)訓(xùn)練的word2vec模型生成每個事件的每個關(guān)鍵詞的向量;
15、對每個事件的所有關(guān)鍵詞的向量進(jìn)行加權(quán),得到每個事件的關(guān)鍵詞向量。
16、可選的,基于預(yù)處理后的事件數(shù)據(jù),生成事件數(shù)據(jù)的語義特征向量包括:
17、基于微調(diào)的bert模型生成每個事件的隱藏狀態(tài)向量,作為每個事件的語義特征向量。
18、可選的,融合關(guān)鍵詞特征向量和語義特征向量,得到融合后的特征向量包括:
19、基于第一線性映射函數(shù),將關(guān)鍵詞特征向量和語義特征向量映射到相同的維度,第一線性映射函數(shù)的參數(shù)基于softmax多分類模型的訓(xùn)練進(jìn)行優(yōu)化;
20、基于注意力網(wǎng)絡(luò),計(jì)算映射到相同的維度后的關(guān)鍵詞特征向量和語義特征向量的注意力權(quán)重,注意力網(wǎng)絡(luò)的參數(shù)基于softmax多分類模型的訓(xùn)練進(jìn)行優(yōu)化;
21、基于注意力權(quán)重,將映射到相同的維度后的關(guān)鍵詞特征向量和語義特征向量融合為一個向量。
22、可選的,softmax多分類模型的訓(xùn)練和優(yōu)化基于第一交叉熵?fù)p失函數(shù)進(jìn)行,第一交叉熵?fù)p失函數(shù)基于下式確定:
23、,
24、其中為交叉熵?fù)p失,為事件的總數(shù),為第個事件的真實(shí)類標(biāo)簽,真實(shí)類標(biāo)簽為經(jīng)過復(fù)核的人工標(biāo)注類標(biāo)簽,為第個事件的預(yù)測類標(biāo)簽。
25、可選的,softmax多分類模型的優(yōu)化還基于置信學(xué)習(xí)進(jìn)行,置信學(xué)習(xí)用于對softmax多分類模型的訓(xùn)練樣本進(jìn)行清洗,清洗后的訓(xùn)練樣本用于對softmax多分類模型進(jìn)行再訓(xùn)練,置信學(xué)習(xí)對訓(xùn)練樣本進(jìn)行清洗包括:
26、基于完成訓(xùn)練后的softmax多分類模型,對訓(xùn)練樣本進(jìn)行交叉驗(yàn)證,獲取訓(xùn)練樣本中的事件的最大概率類標(biāo)簽,在所有類標(biāo)簽中事件在最大概率類標(biāo)簽下的概率最大;
27、過濾訓(xùn)練樣本中的人工標(biāo)注類標(biāo)簽與最大概率類標(biāo)簽不同的事件。
28、第二方面,本技術(shù)實(shí)施例提供了一種電子設(shè)備,包括:
29、收集模塊,用于收集事件數(shù)據(jù),事件數(shù)據(jù)包括多個事件與對應(yīng)的人工標(biāo)注類標(biāo)簽;
30、預(yù)處理模塊,用于對事件數(shù)據(jù)進(jìn)行預(yù)處理;
31、第一生成模塊,用于基于預(yù)處理后的事件數(shù)據(jù),生成事件數(shù)據(jù)的關(guān)鍵詞特征向量;
32、第二生成模塊,用于基于預(yù)處理后的事件數(shù)據(jù),生成事件數(shù)據(jù)的語義特征向量;
33、融合模塊,用于融合關(guān)鍵詞特征向量和語義特征向量,得到融合后的特征向量;
34、訓(xùn)練和優(yōu)化模塊,用于基于融合后的特征向量和人工標(biāo)注類標(biāo)簽,訓(xùn)練和優(yōu)化softmax多分類模型;
35、分類模塊,用于基于softmax多分類模型進(jìn)行事件分類,得到事件的預(yù)測類標(biāo)簽。
36、可選的,第一生成模塊包括:
37、提取模塊,用于基于詞頻-逆文檔頻率tf-idf算法對預(yù)處理后的事件數(shù)據(jù)進(jìn)行關(guān)鍵詞提取,獲得每個事件的tf-idf值排名前三的詞作為每個事件的關(guān)鍵詞;
38、第一向量模塊,用于生成每個事件的關(guān)鍵詞向量,作為每個事件的關(guān)鍵詞特征向量。
39、可選的,第一向量模塊包括:
40、第一模塊,用于基于預(yù)訓(xùn)練的word2vec模型生成每個事件的每個關(guān)鍵詞的向量;
41、第二模塊,用于對每個事件的所有關(guān)鍵詞的向量進(jìn)行加權(quán),得到每個事件的關(guān)鍵詞向量。
42、可選的,第二生成模塊包括:
43、第二向量模塊,用于基于微調(diào)的bert模型生成每個事件的隱藏狀態(tài)向量,作為每個事件的語義特征向量。
44、可選的,融合模塊包括:
45、映射模塊,用于基于第一線性映射函數(shù),將關(guān)鍵詞特征向量和語義特征向量映射到相同的維度,第一線性映射函數(shù)的參數(shù)基于softmax多分類模型的訓(xùn)練進(jìn)行優(yōu)化;
46、注意力模塊,用于基于注意力網(wǎng)絡(luò),計(jì)算映射到相同的維度后的關(guān)鍵詞特征向量和語義特征向量的注意力權(quán)重,注意力網(wǎng)絡(luò)的參數(shù)基于softmax多分類模型的訓(xùn)練進(jìn)行優(yōu)化;
47、第三向量模塊,用于基于注意力權(quán)重,將映射到相同的維度后的關(guān)鍵詞特征向量和語義特征向量融合為一個向量。
48、可選的,softmax多分類模型的訓(xùn)練和優(yōu)化基于第一交叉熵?fù)p失函數(shù)進(jìn)行,第一交叉熵?fù)p失函數(shù)基于下式確定:
49、,
50、其中為交叉熵?fù)p失,為事件的總數(shù),為第個事件的真實(shí)類標(biāo)簽,真實(shí)類標(biāo)簽為經(jīng)過復(fù)核的人工標(biāo)注類標(biāo)簽,為第個事件的預(yù)測類標(biāo)簽。
51、可選的,softmax多分類模型的優(yōu)化還基于置信學(xué)習(xí)進(jìn)行,置信學(xué)習(xí)用于對softmax多分類模型的訓(xùn)練樣本進(jìn)行清洗,清洗后的訓(xùn)練樣本用于對softmax多分類模型進(jìn)行再訓(xùn)練,該電子設(shè)備還包括置信學(xué)習(xí)模塊,置信學(xué)習(xí)模塊用于:
52、基于完成訓(xùn)練后的softmax多分類模型,對訓(xùn)練樣本進(jìn)行交叉驗(yàn)證,獲取訓(xùn)練樣本中的事件的最大概率類標(biāo)簽,在所有類標(biāo)簽中事件在最大概率類標(biāo)簽下的概率最大;
53、過濾訓(xùn)練樣本中的人工標(biāo)注類標(biāo)簽與最大概率類標(biāo)簽不同的事件。
54、第三方面,本技術(shù)實(shí)施例提供了一種電子設(shè)備,包括存儲器、至少一個處理器以及存儲在存儲器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時實(shí)現(xiàn)如上述第一方面中任一項(xiàng)所述的方法。
55、第四方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如上述第一方面中任一項(xiàng)所述的方法。
56、第五方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)計(jì)算機(jī)程序產(chǎn)品在電子設(shè)備上運(yùn)行時,使得電子設(shè)備執(zhí)行上述第一方面中任一項(xiàng)所述的方法。
57、基于本技術(shù),可以分別提取事件中稀疏的關(guān)鍵詞特征和稠密的語義特征進(jìn)行融合,并基于融合后的特征和人工標(biāo)注類標(biāo)簽對softmax多分類模型進(jìn)行訓(xùn)練和優(yōu)化,有助于提高事件分類的準(zhǔn)確性和效率。