亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于預訓練模型的關(guān)鍵詞拓展方法及裝置與流程

文檔序號:40383186發(fā)布日期:2024-12-20 12:05閱讀:7來源:國知局
基于預訓練模型的關(guān)鍵詞拓展方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種基于預訓練模型的關(guān)鍵詞拓展方法、裝置及電子設備。


背景技術(shù):

1、關(guān)鍵詞拓展(keywordexpansion)是一種自然語言處理(nlp)技術(shù),它旨在通過生成與給定關(guān)鍵詞相關(guān)的其他詞匯來擴大搜索范圍或內(nèi)容覆蓋。關(guān)鍵詞拓展的目標是在不改變原意的情況下,找到更多相關(guān)的詞匯,以便更全面地捕獲信息。這項技術(shù)在多個領(lǐng)域有著廣泛的應用,包括但不限于搜索引擎優(yōu)化(seo)、信息檢索、文本挖掘、問答系統(tǒng)、推薦系統(tǒng)等。

2、現(xiàn)有技術(shù)在關(guān)鍵詞拓展的實現(xiàn)過程中,存在如下問題:

3、1.語義理解能力不足:傳統(tǒng)的關(guān)鍵詞拓展方法主要依賴于詞典、同義詞庫或基于統(tǒng)計的共現(xiàn)分析,難以捕捉詞語之間的深層語義關(guān)系。

4、2.拓展結(jié)果單一:傳統(tǒng)方法通常只能生成與輸入關(guān)鍵詞緊密相關(guān)的詞語,缺乏多樣性,難以生成符合多種語境需求的關(guān)鍵詞。

5、3.上下文缺乏:許多關(guān)鍵詞拓展方法忽視了關(guān)鍵詞在具體上下文中的含義,無法生成針對特定場景或行業(yè)的關(guān)鍵詞。

6、4.實時性差:傳統(tǒng)關(guān)鍵詞拓展方法往往依賴預先構(gòu)建的靜態(tài)詞庫,無法及時反映語言的變化趨勢,難以應對實時拓展需求。

7、上述問題成為需要解決的技術(shù)問題。


技術(shù)實現(xiàn)思路

1、有鑒于此,本發(fā)明實施例提供了一種基于預訓練模型的關(guān)鍵詞拓展方法、裝置及電子設備,至少部分解決現(xiàn)有技術(shù)中存在的問題。

2、第一方面,本發(fā)明實施例提供了一種基于預訓練模型的關(guān)鍵詞拓展方法,包括:

3、針對輸入文本t進行分詞操作,得到第一詞匯集合w,利用停用詞集合s對詞匯集合w中的每個詞匯w執(zhí)行停用詞清除操作,得到第二詞匯集合w'={w∈w∣ws};

4、對第二詞匯集合w'中的每個詞匯執(zhí)行詞性標注,得到詞性標注結(jié)果p={(w,p)|w∈w',p∈pos},pos表示詞性標簽集合,計算第二詞匯集合w'中每個詞匯的上下文,得到上下文集合c=ctx(t,k),ctx函數(shù)用于提取與關(guān)鍵詞k相關(guān)的上下文信息;

5、通過預訓練模型編碼器將第二詞匯集合w'關(guān)鍵詞k映射為語義向量vk,得到第二詞匯集合w'所對應的語義矩陣m;

6、計算第二詞匯集合w'中每個關(guān)鍵詞k與其他詞語之間的相似度,得到相似度向量s;

7、基于所述詞性標注結(jié)果p、所述上下文集合c、語義矩陣m以及相似度向量s,生成輸入文本t所對應的拓展詞集合t’=fg(t|p,c,m,s)。

8、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述針對輸入文本t進行分詞操作,得到第一詞匯集合w,利用停用詞集合s對詞匯集合w中的每個詞匯w執(zhí)行停用詞清除操作,得到第二詞匯集合w',包括:

9、去除輸入文本t中的特殊字符后,檢測輸入文本t的語言類型;

10、獲取與所述語言類型所對應的n個分詞詞典,并基于n個分詞詞典,生成n個不同的分詞結(jié)果;

11、將n個不同的分詞結(jié)果進行去重合并,得到第一詞匯集合w。

12、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述針對輸入文本t進行分詞操作,得到第一詞匯集合w,利用停用詞集合s對詞匯集合w中的每個詞匯w執(zhí)行停用詞清除操作,得到第二詞匯集合w',還包括:

13、加載預先定義的停用詞集合s,遍歷第一詞匯集合w,對于集合中的每一個詞匯w,檢查該詞匯是否屬于停用詞集合s;

14、如果詞匯w不在停用詞集合s中,則將詞匯w添加到第二詞匯集合w′中。

15、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述對第二詞匯集合w'中的每個詞匯執(zhí)行詞性標注,得到詞性標注結(jié)果p,包括:

16、利用針對第二詞匯集合w′提供的詞性標注工具,執(zhí)行批量詞性標注操作,通過詞性標注工具對每個詞匯w進行分析,并為其分配一個或多個的詞性標簽p;

17、對于每個詞匯w,生成一個二元組(w,p),將所有詞匯的詞性標注結(jié)果匯總成一個詞性標注結(jié)果集合p,表示為p={(w,p)∣w∈w′,p∈pos}。

18、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述計算第二詞匯集合w'中每個詞匯的上下文,得到上下文集合c,包括:

19、對于第二詞匯集合w′中的每個詞匯w,在其前后各取nc個詞匯作為上下文詞匯;

20、對于每個詞匯w,確定其周圍的上下文詞匯集合,并記錄這些詞匯的順序和位置信息;

21、將所有詞匯w的上下文信息匯總成一個上下文集合c,表示為c={ctx(t,k)},其中ctx(t,k)表示詞匯k在文本t中的上下文信息。

22、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述通過預訓練模型編碼器將第二詞匯集合w'關(guān)鍵詞k映射為語義向量vk,得到第二詞匯集合w'所對應的語義矩陣m,包括:

23、利用預訓練模型的編碼器部分,將第二詞匯集合w′中的每個詞匯映射為一個固定長度的向量vk,向量vk捕捉了詞匯k在語義空間中的位置和特征;

24、將所有詞匯k的語義向量vk匯總成矩陣m,矩陣m每一行對應一個詞匯的語義向量,矩陣m的大小為∣w′∣×d,其中∣w′∣是詞匯集合w′的大小,d是語義向量的維度。

25、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述基于所述詞性標注結(jié)果p、所述上下文集合c、語義矩陣m以及相似度向量s,生成輸入文本t所對應的拓展詞集合t’=fg(t|p,c,m,s),包括:

26、計算詞性得分:

27、

28、是不同詞性的權(quán)重系數(shù),是指示函數(shù),如果詞匯w等于詞匯k,則的值為1,否則為0;

29、計算上下文得分:

30、

31、d(c,k)是詞匯k與其上下文c的距離,是衰減系數(shù);

32、計算語義得分:

33、

34、是詞匯k的語義向量與其他詞匯的語義向量之間的距離,是調(diào)節(jié)系數(shù);

35、計算相似度得分:

36、

37、s(k,w)是詞匯k與其他詞匯w的相似度得分。

38、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述基于所述詞性標注結(jié)果p、所述上下文集合c、語義矩陣m以及相似度向量s,生成輸入文本t所對應的拓展詞集合t’=fg(t|p,c,m,s),還包括:

39、計算綜合得分:

40、

41、是指數(shù)系數(shù),用于調(diào)整綜合得分的非線性程度;

42、選擇得分高于閾值的詞匯構(gòu)成拓展詞集合t':

43、。

44、第二方面,本發(fā)明實施例提供了一種基于預訓練模型的關(guān)鍵詞拓展裝置,包括:

45、整理模塊,針對輸入文本t進行分詞操作,得到第一詞匯集合w,利用停用詞集合s對詞匯集合w中的每個詞匯w執(zhí)行停用詞清除操作,得到第二詞匯集合w'={w∈w∣ws};

46、計算模塊,對第二詞匯集合w'中的每個詞匯執(zhí)行詞性標注,得到詞性標注結(jié)果p={(w,p)|w∈w',p∈pos},pos表示詞性標簽集合,計算第二詞匯集合w'中每個詞匯的上下文,得到上下文集合c=ctx(t,k),ctx函數(shù)用于提取與關(guān)鍵詞k相關(guān)的上下文信息;

47、映射模塊,通過預訓練模型編碼器將第二詞匯集合w'關(guān)鍵詞k映射為語義向量vk,得到第二詞匯集合w'所對應的語義矩陣m;

48、相似模塊,計算第二詞匯集合w'中每個關(guān)鍵詞k與其他詞語之間的相似度,得到相似度向量s;

49、生成模塊,基于所述詞性標注結(jié)果p、所述上下文集合c、語義矩陣m以及相似度向量s,生成輸入文本t所對應的拓展詞集合t’=fg(t|p,c,m,s)。

50、第三方面,本發(fā)明實施例還提供了一種電子設備,該電子設備包括:

51、至少一個處理器;以及,

52、與該至少一個處理器通信連接的存儲器;其中,

53、該存儲器存儲有可被該至少一個處理器執(zhí)行的指令,該指令被該至少一個處理器執(zhí)行,以使該至少一個處理器能夠執(zhí)行前述任第一方面或第一方面的任一實現(xiàn)方式中的基于預訓練模型的關(guān)鍵詞拓展方法。

54、第四方面,本發(fā)明實施例還提供了一種非暫態(tài)計算機可讀存儲介質(zhì),該非暫態(tài)計算機可讀存儲介質(zhì)存儲計算機指令,該計算機指令用于使該計算機執(zhí)行前述第一方面或第一方面的任一實現(xiàn)方式中的基于預訓練模型的關(guān)鍵詞拓展方法。

55、第五方面,本發(fā)明實施例還提供了一種計算機程序產(chǎn)品,該計算機程序產(chǎn)品包括存儲在非暫態(tài)計算機可讀存儲介質(zhì)上的計算程序,該計算機程序包括程序指令,當該程序指令被計算機執(zhí)行時,使該計算機執(zhí)行前述第一方面或第一方面的任一實現(xiàn)方式中的基于預訓練模型的關(guān)鍵詞拓展方法。

56、本發(fā)明實施例中的基于預訓練模型的關(guān)鍵詞拓展方案,包括:針對輸入文本t進行分詞操作,得到第一詞匯集合w,利用停用詞集合s對詞匯集合w中的每個詞匯w執(zhí)行停用詞清除操作,得到第二詞匯集合w'={w∈w∣ws};對第二詞匯集合w'中的每個詞匯執(zhí)行詞性標注,得到詞性標注結(jié)果p={(w,p)|w∈w',p∈pos},pos表示詞性標簽集合,計算第二詞匯集合w'中每個詞匯的上下文,得到上下文集合c=ctx(t,k),ctx函數(shù)用于提取與關(guān)鍵詞k相關(guān)的上下文信息;通過預訓練模型編碼器將第二詞匯集合w'關(guān)鍵詞k映射為語義向量vk,得到第二詞匯集合w'所對應的語義矩陣m;計算第二詞匯集合w'中每個關(guān)鍵詞k與其他詞語之間的相似度,得到相似度向量s;基于所述詞性標注結(jié)果p、所述上下文集合c、語義矩陣m以及相似度向量s,生成輸入文本t所對應的拓展詞集合t’=fg(t|p,c,m,s)。本發(fā)明具有如下有益效果:

57、a深層語義理解:

58、基于自定義模型算法的關(guān)鍵詞拓展算法能夠捕捉詞語之間的深層語義關(guān)系,生成更加精準和多樣化的拓展詞。

59、b上下文敏感性:

60、算法能夠根據(jù)具體的上下文生成適應不同語境的關(guān)鍵詞拓展結(jié)果,增強了關(guān)鍵詞的實際應用效果,特別是在社交聆聽等需要語境理解的場景中表現(xiàn)出色。

61、c實時性和動態(tài)性:

62、通過動態(tài)更新模塊,系統(tǒng)能夠及時獲取最新數(shù)據(jù),生成符合當前語言趨勢的拓展詞,保持結(jié)果的前沿性,適應快速變化的語言環(huán)境。

63、d自動化和高效性:

64、從輸入處理到結(jié)果生成和更新,整個流程高度自動化,顯著提高了關(guān)鍵詞拓展的效率和準確性,同時降低了人工干預的需求。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1