亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法、電子設備與流程

文檔序號:40401045發(fā)布日期:2024-12-20 12:24閱讀:10來源:國知局
基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法、電子設備與流程

本發(fā)明涉及大數(shù)據(jù),具體涉及一種基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法、電子設備。


背景技術(shù):

1、技術(shù)發(fā)展路線對科技型企業(yè)的技術(shù)路線圖選擇(或概念方案選擇)非常重要,尤其是在陌生領(lǐng)域,這關(guān)系到企業(yè)的投資成敗以及投資方向。如果投資方向?qū)α?,后續(xù)只需要完善產(chǎn)品,即可站在主航道上不被市場淘汰。對于科技消費型企業(yè),例如電信行業(yè),其對于技術(shù)路線的選擇也至關(guān)重要。技術(shù)路線選擇的對錯,雖然不能直接影響科技企業(yè)的成敗,但選擇錯誤路線,增加了后續(xù)遷移、改造、升級的成本。

2、相關(guān)技術(shù)中,可以通過下述方式尋找某一領(lǐng)域的技術(shù)發(fā)展熱點和技術(shù)發(fā)展路線:閱讀大量文獻,通過文獻尋找技術(shù)發(fā)展熱點和技術(shù)發(fā)展路線;或者,通過閱讀技術(shù)綜述類文章,了解某一領(lǐng)域的技術(shù)發(fā)展熱點和技術(shù)發(fā)展路線;或者,利用大語言模型從大量文獻中分析出技術(shù)發(fā)展熱點和技術(shù)發(fā)展路線。然而,閱讀文獻或綜述類文章的尋找方式不僅存在閱讀時間長、入門門檻高、分析效率低、人工成本高的問題,確定的技術(shù)發(fā)展熱點和技術(shù)發(fā)展路線也存在滯后性、且容易受到分析者的主觀觀點影響。此外,目前利用大語言模型分析的方式還不成熟,分析的結(jié)果并不能令人滿意,且大語言模型當前還不能避免“幻覺”輸出現(xiàn)象。

3、綜上,目前確定技術(shù)發(fā)展熱點和技術(shù)發(fā)展趨勢主要面對兩個問題:第一,如何解決時效性的問題;第二,如何確保熱點準確的問題。


技術(shù)實現(xiàn)思路

1、鑒于上述問題,本發(fā)明提供了一種基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法、電子設備。

2、根據(jù)本發(fā)明的第一個方面,提供了一種基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法,包括:獲取預設時間段內(nèi)屬于目標領(lǐng)域的多個文本數(shù)據(jù),其中,預設時間段包括連續(xù)的多個子時間段;從多個文本數(shù)據(jù)中抽取出多個目標詞匯;確定每個目標詞匯在多個子時間段中每個子時間段內(nèi)的詞頻信息;根據(jù)詞頻信息,從多個目標詞匯中確定出多個熱點詞匯,其中,熱點詞匯用于表征目標領(lǐng)域在預設時間段內(nèi)的技術(shù)發(fā)展熱點;以及對多個熱點詞匯進行語義分析,得到優(yōu)化后的多個熱點詞匯。

3、根據(jù)本發(fā)明的實施例,根據(jù)詞頻信息,從多個目標詞匯中確定出多個熱點詞匯,包括:獲取每個目標詞匯在預設時間段內(nèi)的總詞頻信息;根據(jù)總詞頻信息,從多個目標詞匯中確定高頻詞匯;根據(jù)多個高頻詞匯各自在多個子時間段內(nèi)的詞頻信息,確定多個中頻高頻詞匯各自的詞頻波動趨勢;以及根據(jù)詞頻波動趨勢,從多個高頻詞匯中確定出多個熱點詞匯。

4、根據(jù)本發(fā)明的實施例,詞頻波動趨勢包括持續(xù)降低、持續(xù)走高和持續(xù)波動,根據(jù)詞頻波動趨勢,從多個高頻詞匯中確定出多個熱點詞匯包括:將多個高頻詞匯中詞頻波動趨勢為持續(xù)降低的中頻詞匯刪除,得到多個熱點詞匯。

5、根據(jù)本發(fā)明的實施例,根據(jù)多個高頻詞匯各自在多個子時間段內(nèi)的詞頻信息,確定多個高頻詞匯各自的詞頻波動趨勢包括:針對每個子時間段,根據(jù)多個高頻詞匯在子時間段內(nèi)的詞頻信息,對每個高頻詞匯的詞頻信息進行歸一化,得到每個高頻詞匯在每個子時間段中的歸一化詞頻信息;針對每個高頻詞頻,根據(jù)高頻詞匯在多個子時間段中的歸一化詞頻信息,確定每個高頻詞匯的詞頻波動趨勢。

6、根據(jù)本發(fā)明的實施例,在確定每個目標詞匯在多個子時間段內(nèi)的詞頻信息之后,還包括:對于相鄰的兩個子時間段,按照在后的子時間段的詞頻信息,對在前的子時間段內(nèi)的多個同頻詞匯進行排序,以確定多個同頻詞匯之間的變化趨勢;基于多個目標詞匯各自在最早的子時間段內(nèi)的第一詞頻信息,對多個目標詞匯進行降序排列或升序排列,得到第一詞匯順序信息;根據(jù)多個同頻詞匯之間的變化趨勢,對多個目標詞匯中的多個同頻詞匯進行降序排列或升序排列,得到第二詞匯順序信息,其中,多個目標詞匯與多個同頻詞匯均為降序排列或均為升序排列。

7、根據(jù)本發(fā)明的實施例,該方法還包括:通過可視化工具,基于第二詞匯順序信息對多個目標詞匯進行可視化操作,得到可視化圖形;以及展示可視化圖形。

8、根據(jù)本發(fā)明的實施例,根據(jù)詞頻信息,從多個目標詞匯中確定出多個熱點詞匯,還包括:按照第二詞匯順序信息,從多個目標詞匯中確定預設數(shù)量的熱點詞匯。

9、根據(jù)本發(fā)明的實施例,對多個熱點詞匯進行語義分析,得到優(yōu)化后的多個熱點詞匯還包括:確定多個熱點詞匯各自的詞向量信息;根據(jù)詞向量信息對多個熱點詞匯進行聚類操作,得到語義相近的至少一個類別簇;以及刪除與至少一個類別簇的距離大于距離閾值的熱點詞匯,得到優(yōu)化后的熱點詞匯。

10、根據(jù)本發(fā)明的實施例,從多個文本數(shù)據(jù)中抽取出多個目標詞匯,包括:將文本數(shù)據(jù)中關(guān)鍵詞部分的詞匯作為多個目標詞匯;或者從文本數(shù)據(jù)的標題和摘要中提取出多個初始詞匯;以及基于停用詞表,對多個初始詞匯進行清洗,得到多個目標詞匯。

11、本發(fā)明的第二方面提供了一種基于詞頻波動和語義分析的文本數(shù)據(jù)處理裝置,包括:獲取模塊,用于獲取預設時間段內(nèi)屬于目標領(lǐng)域的多個文本數(shù)據(jù),其中,預設時間段包括連續(xù)的多個子時間段。抽取模塊,用于從多個文本數(shù)據(jù)中抽取出多個目標詞匯。詞頻確定模塊,用于確定每個目標詞匯在多個子時間段中每個子時間段內(nèi)的詞頻信息。熱點確定模塊,用于根據(jù)詞頻信息,從多個目標詞匯中確定出多個熱點詞匯,其中,熱點詞匯用于表征目標領(lǐng)域在預設時間段內(nèi)的技術(shù)發(fā)展熱點。語義分析模塊,用于對多個熱點詞匯進行語義分析,得到優(yōu)化后的多個熱點詞匯。

12、本發(fā)明的第三方面提供了一種電子設備,包括:一個或多個處理器;存儲器,用于存儲一個或多個計算機程序,當所述一個或多個處理器執(zhí)行一個或多個計算機程序時以實現(xiàn)根據(jù)上述基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法的步驟。

13、本發(fā)明的第四方面還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序或指令,所述計算機程序或指令被處理器執(zhí)行時實現(xiàn)根據(jù)上述基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法的步驟。

14、本發(fā)明的第五方面還提供了一種計算機程序產(chǎn)品,包括計算機程序或指令,所述計算機程序或指令被處理器執(zhí)行時實現(xiàn)根據(jù)上述基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法的步驟。

15、本發(fā)明的實施例提供了一種新的文本詞匯的詞頻排序方法,對詞頻引入了時間標簽,借助連續(xù)時間段內(nèi)詞匯的詞頻變化信息,從而快速、準確地定位熱點詞匯。之后,再通過自然語言處理方法中的語義分析,對確定的熱點詞匯進行進一步優(yōu)化,更進一步地提高了確定的熱點詞匯的準確性,有助于科技企業(yè)快速、準確地基于熱點詞匯選擇技術(shù)發(fā)展路線,減少企業(yè)后續(xù)遷移、改造、升級的成本。



技術(shù)特征:

1.一種基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述詞頻信息,從多個所述目標詞匯中確定出多個熱點詞匯,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述詞頻波動趨勢包括持續(xù)降低、持續(xù)走高和持續(xù)波動,所述根據(jù)所述詞頻波動趨勢,從多個所述高頻詞匯中確定出多個熱點詞匯包括:

4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)多個所述高頻詞匯各自在所述多個子時間段內(nèi)的詞頻信息,確定多個所述高頻詞匯各自的詞頻波動趨勢包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述確定每個所述目標詞匯在所述多個子時間段內(nèi)的詞頻信息之后,還包括:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括:

7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述詞頻信息,從多個所述目標詞匯中確定出多個熱點詞匯,還包括:

8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述多個熱點詞匯進行語義分析,得到優(yōu)化后的多個熱點詞匯還包括:

9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述多個文本數(shù)據(jù)中抽取出多個目標詞匯,包括:

10.一種電子設備,其特征在于,所述電子設備包括:


技術(shù)總結(jié)
本發(fā)明提供了一種基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法、電子設備,可以應用于大數(shù)據(jù)技術(shù)領(lǐng)域。該方法包括:獲取預設時間段內(nèi)屬于目標領(lǐng)域的多個文本數(shù)據(jù),其中,預設時間段包括連續(xù)的多個子時間段;從多個文本數(shù)據(jù)中抽取出多個目標詞匯;確定每個目標詞匯在多個子時間段中每個子時間段內(nèi)的詞頻信息;根據(jù)詞頻信息,從多個目標詞匯中確定出多個熱點詞匯,其中,熱點詞匯用于表征目標領(lǐng)域在預設時間段內(nèi)的技術(shù)發(fā)展熱點;以及對多個熱點詞匯進行語義分析,得到優(yōu)化后的多個熱點詞匯。

技術(shù)研發(fā)人員:蓋玉斌
受保護的技術(shù)使用者:蘇州吉唄思數(shù)據(jù)技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1