本發(fā)明涉及自然語言處理領域,更具體的說是涉及一種新聞事件分類方法。
背景技術:
1、通過對新聞事件進行分類,可以讓讀者更容易地找到自己感興趣的內(nèi)容,節(jié)約閱讀時間。可以幫助新聞機構或平臺更好地組織和管理大量的新聞內(nèi)容,便于檢索和歸檔。分類可以幫助對各類事件進行監(jiān)測和分析,為政府、企業(yè)和機構提供決策支持和輿情反饋。
2、當前,傳統(tǒng)方法可能只使用新聞文章的原文本進行分類,而忽略了其他來源的相關信息。且基于簡單的規(guī)則或詞表,無法充分捕捉文本中的重要信息。
3、同時,使用簡單的相似性計算方法,無法準確評估關鍵詞之間的語義和上下文關系。且缺乏對相似性計算結果的處理和轉化方式,導致分類結果單一。
4、因此,如何設計一種新聞事件分類方法,為數(shù)據(jù)的獲取及具體的處理方式提供多元化的技術方案,進而提供更準確、全面和可解釋的新聞事件分類結果是本領域技術人員亟需解決的問題。
技術實現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種新聞事件分類方法,可以捕捉文本中的重要信息,采用多層次的關鍵詞詞庫和相似性計算方法,可以更好地捕捉關鍵詞之間的語義和上下文關系,且可以更靈活地確定分類結果。
2、為了實現(xiàn)上述目的,本發(fā)明采用如下技術方案:
3、第一方面,本發(fā)明提供了一種新聞事件分類方法,包括:
4、s1、獲取新聞事件的文本數(shù)據(jù);所述文本數(shù)據(jù)包括:直接數(shù)據(jù)和間接數(shù)據(jù);
5、s2、利用關鍵詞提取融合模型提取所述文本數(shù)據(jù)中的若干關鍵詞,獲得關鍵詞詞組;
6、s3、基于多層次關鍵詞詞庫,對所述關鍵詞詞組進行多階段相似性計算,獲得相似性計算結果;所述多層次關鍵詞詞庫包括:一級詞庫、二級詞庫和三級詞庫;
7、s4、對所述相似性計算結果進行歸一化處理,并基于多層感知網(wǎng)絡模型,獲得新聞事件的概率分布結果;
8、s5、基于所述概率分布結果,將概率值最高和次高的兩個新聞事件概率值差值,和預設概率閾值進行比較,獲得新聞事件的分類結果。
9、其中,所述s1中,利用新聞網(wǎng)站和數(shù)據(jù)提供商提供的api接口獲取直接數(shù)據(jù);利用編寫爬蟲模型訪問新聞網(wǎng)站或社交媒體平臺獲取間接數(shù)據(jù)。
10、進一步的,利用關鍵詞提取融合模型提取所述文本數(shù)據(jù)中的關鍵詞,包括:
11、s21、對所述文本數(shù)據(jù)進行預處理,包括:分詞和去除停用詞;
12、s22、基于預處理后的文本數(shù)據(jù),計算每個詞項的詞頻tf和逆文檔頻率idf,獲得每個詞項的tf-idf值;
13、s23、將每個詞項作為圖的節(jié)點,使用共現(xiàn)矩陣計算詞項之間的關系,構建文本圖;
14、s24、利用textrank算法對所述文本圖進行排序,確定每個詞項的textrank得分;
15、s25、將所述tf-idf值和textrank得分進行加權融合,獲得每個詞項的綜合得分;
16、s26、基于所述每個詞項的綜合得分進行排序,并通過預設得分閾值提取若干關鍵詞,獲得關鍵詞詞組。
17、進一步的,所述s3中,多層次的關鍵詞詞庫基于智能推薦機制進行更新。
18、進一步的,所述s3中,對所述關鍵詞詞組進行多階段相似性計算,包括:
19、s31、計算關鍵詞詞組與三級詞庫中每個詞匯的相似性:
20、
21、s32、計算關鍵詞詞組與二級詞庫中每個詞匯的相似性:
22、
23、s33、計算關鍵詞詞組與一級詞庫中每個詞匯的相似性:
24、
25、其中,c(m,n)表示關鍵詞詞組向量am與二級詞庫中詞向量bn距離。
26、進一步的,所述s4中,新聞事件分類模型包括:輸入層、隱藏層和輸出層;所述隱藏層后設有relu激活函數(shù);所述輸出層后設有softmax激活函數(shù)。
27、進一步的,所述s5中,基于所述概率分布結果,將概率值最高和次高的兩個新聞事件概率值差值,和預設概率閾值進行比較,獲得新聞事件的分類結果,包括:
28、若概率值最高和次高的兩個新聞事件概率值差值大于預設概率閾值,輸出概率值最高的新聞事件;
29、若概率值最高和次高的兩個新聞事件概率值差值小于預設概率閾值,輸出輸出最高和次高的兩個新聞事件。
30、第二方面,本發(fā)明提供了一種新聞事件分類系統(tǒng),包括:
31、數(shù)據(jù)獲取模塊:用于獲取新聞事件的文本數(shù)據(jù);所述文本數(shù)據(jù)包括:直接數(shù)據(jù)和間接數(shù)據(jù);
32、關鍵詞提取模塊:用于利用關鍵詞提取融合模型提取所述文本數(shù)據(jù)中的若干關鍵詞,獲得關鍵詞詞組;
33、相似性計算模塊:用于基于多層次關鍵詞詞庫,對所述關鍵詞詞組進行多階段相似性計算,獲得相似性計算結果;所述多層次關鍵詞詞庫包括:一級詞庫、二級詞庫和三級詞庫;
34、概率分布計算模塊:用于對所述相似性計算結果進行歸一化處理,并基于多層感知網(wǎng)絡模型,獲得新聞事件的概率分布結果;
35、分類結果輸出模塊:用于基于所述概率分布結果,將概率值最高和次高的兩個新聞事件概率值差值,和預設概率閾值進行比較,獲得新聞事件的分類結果。
36、第三方面,本發(fā)明提供了一種電子設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述新聞事件分類方法。
37、第四方面,本發(fā)明提供了一種計算機可讀存儲介質,所述存儲介質存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述新聞事件分類方法。
38、經(jīng)由上述的技術方案可知,與現(xiàn)有技術相比,本發(fā)明提供的新聞事件分類方法存在以下有益效果:
39、1、利用關鍵詞提取融合模型可以自動從文本數(shù)據(jù)中提取若干關鍵詞。其可以捕捉文本中的重要信息,并將其轉化為關鍵詞詞組,提供更有效的特征表示。相比于傳統(tǒng)的基于規(guī)則或詞表的關鍵詞提取方法,融合模型可以更好地適應不同領域和語境下的關鍵詞提取需求。
40、2、采用多層次的關鍵詞詞庫和相似性計算方法,可以更好地捕捉關鍵詞之間的語義和上下文關系。通過多階段的相似性計算,可以更準確地評估關鍵詞之間的相似性,提高分類的準確性和魯棒性。
41、3、對相似性計算結果進行歸一化處理,并利用多層感知網(wǎng)絡模型進行處理,可以將原始數(shù)據(jù)映射到概率分布結果。其可以有效地處理不同數(shù)據(jù)尺度和范圍之間的差異,并將其轉化為概率分布,提供更可解釋和可比較的分類結果。
42、4、通過將概率值最高和次高的兩個新聞事件的概率值差值與預設概率閾值進行比較,可以根據(jù)差值的大小靈活地確定分類結果。兼顧了分類結果的準確性和全面性,在概率差值較大時給出確定的分類結果,在概率差值較小時提供更全面的信息。
1.一種新聞事件分類方法,其特征在于,包括:
2.根據(jù)權利要求1所述的一種新聞事件分類方法,其特征在于,所述s1中,利用新聞網(wǎng)站和數(shù)據(jù)提供商提供的api接口獲取直接數(shù)據(jù);利用編寫爬蟲模型訪問新聞網(wǎng)站或社交媒體平臺獲取間接數(shù)據(jù)。
3.根據(jù)權利要求1所述的一種新聞事件分類方法,其特征在于,所述s2中,利用關鍵詞提取融合模型提取所述文本數(shù)據(jù)中的關鍵詞,包括:
4.根據(jù)權利要求3所述的一種新聞事件分類方法,其特征在于,所述s3中,多層次的關鍵詞詞庫基于智能推薦機制進行更新。
5.根據(jù)權利要求1所述的一種新聞事件分類方法,其特征在于,所述s3中,對所述關鍵詞詞組進行多階段相似性計算,包括:
6.根據(jù)權利要求1所述的一種新聞事件分類方法,其特征在于,所述s4中,新聞事件分類模型包括:輸入層、隱藏層和輸出層;所述隱藏層后設有relu激活函數(shù);所述輸出層后設有softmax激活函數(shù)。
7.根據(jù)權利要求1所述的一種新聞事件分類方法,其特征在于,所述s5中,基于所述概率分布結果,將概率值最高和次高的兩個新聞事件概率值差值,和預設概率閾值進行比較,獲得新聞事件的分類結果,包括:
8.一種新聞事件分類系統(tǒng),其特征在于,包括:
9.一種電子設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1至7任一項所述的新聞事件分類方法。
10.一種計算機可讀存儲介質,所述存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至7任一項所述的新聞事件分類方法。