本發(fā)明涉及大數(shù)據(jù),具體涉及一種基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法、電子設備。
背景技術(shù):
1、技術(shù)發(fā)展路線對科技型企業(yè)的技術(shù)路線圖選擇(或概念方案選擇)非常重要,尤其是在陌生領(lǐng)域,這關(guān)系到企業(yè)的投資成敗以及投資方向。如果投資方向?qū)α?,后續(xù)只需要完善產(chǎn)品,即可站在主航道上不被市場淘汰。對于科技消費型企業(yè),例如電信行業(yè),其對于技術(shù)路線的選擇也至關(guān)重要。技術(shù)路線選擇的對錯,雖然不能直接影響科技企業(yè)的成敗,但選擇錯誤路線,增加了后續(xù)遷移、改造、升級的成本。
2、相關(guān)技術(shù)中,可以通過下述方式尋找某一領(lǐng)域的技術(shù)發(fā)展熱點和技術(shù)發(fā)展路線:閱讀大量文獻,通過文獻尋找技術(shù)發(fā)展熱點和技術(shù)發(fā)展路線;或者,通過閱讀技術(shù)綜述類文章,了解某一領(lǐng)域的技術(shù)發(fā)展熱點和技術(shù)發(fā)展路線;或者,利用大語言模型從大量文獻中分析出技術(shù)發(fā)展熱點和技術(shù)發(fā)展路線。然而,閱讀文獻或綜述類文章的尋找方式不僅存在閱讀時間長、入門門檻高、分析效率低、人工成本高的問題,確定的技術(shù)發(fā)展熱點和技術(shù)發(fā)展路線也存在滯后性、且容易受到分析者的主觀觀點影響。此外,目前利用大語言模型分析的方式還不成熟,分析的結(jié)果并不能令人滿意,且大語言模型當前還不能避免“幻覺”輸出現(xiàn)象。
3、綜上,目前確定技術(shù)發(fā)展熱點和技術(shù)發(fā)展趨勢主要面對兩個問題:第一,如何解決時效性的問題;第二,如何確保熱點準確的問題。
技術(shù)實現(xiàn)思路
1、鑒于上述問題,本發(fā)明提供了一種基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法、電子設備。
2、根據(jù)本發(fā)明的第一個方面,提供了一種基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法,包括:獲取預設時間段內(nèi)屬于目標領(lǐng)域的多個文本數(shù)據(jù),其中,預設時間段包括連續(xù)的多個子時間段;從多個文本數(shù)據(jù)中抽取出多個目標詞匯;確定每個目標詞匯在多個子時間段中每個子時間段內(nèi)的詞頻信息;根據(jù)詞頻信息,從多個目標詞匯中確定出多個熱點詞匯,其中,熱點詞匯用于表征目標領(lǐng)域在預設時間段內(nèi)的技術(shù)發(fā)展熱點;以及對多個熱點詞匯進行語義分析,得到優(yōu)化后的多個熱點詞匯。
3、根據(jù)本發(fā)明的實施例,根據(jù)詞頻信息,從多個目標詞匯中確定出多個熱點詞匯,包括:獲取每個目標詞匯在預設時間段內(nèi)的總詞頻信息;根據(jù)總詞頻信息,從多個目標詞匯中確定高頻詞匯;根據(jù)多個高頻詞匯各自在多個子時間段內(nèi)的詞頻信息,確定多個中頻高頻詞匯各自的詞頻波動趨勢;以及根據(jù)詞頻波動趨勢,從多個高頻詞匯中確定出多個熱點詞匯。
4、根據(jù)本發(fā)明的實施例,詞頻波動趨勢包括持續(xù)降低、持續(xù)走高和持續(xù)波動,根據(jù)詞頻波動趨勢,從多個高頻詞匯中確定出多個熱點詞匯包括:將多個高頻詞匯中詞頻波動趨勢為持續(xù)降低的中頻詞匯刪除,得到多個熱點詞匯。
5、根據(jù)本發(fā)明的實施例,根據(jù)多個高頻詞匯各自在多個子時間段內(nèi)的詞頻信息,確定多個高頻詞匯各自的詞頻波動趨勢包括:針對每個子時間段,根據(jù)多個高頻詞匯在子時間段內(nèi)的詞頻信息,對每個高頻詞匯的詞頻信息進行歸一化,得到每個高頻詞匯在每個子時間段中的歸一化詞頻信息;針對每個高頻詞頻,根據(jù)高頻詞匯在多個子時間段中的歸一化詞頻信息,確定每個高頻詞匯的詞頻波動趨勢。
6、根據(jù)本發(fā)明的實施例,在確定每個目標詞匯在多個子時間段內(nèi)的詞頻信息之后,還包括:對于相鄰的兩個子時間段,按照在后的子時間段的詞頻信息,對在前的子時間段內(nèi)的多個同頻詞匯進行排序,以確定多個同頻詞匯之間的變化趨勢;基于多個目標詞匯各自在最早的子時間段內(nèi)的第一詞頻信息,對多個目標詞匯進行降序排列或升序排列,得到第一詞匯順序信息;根據(jù)多個同頻詞匯之間的變化趨勢,對多個目標詞匯中的多個同頻詞匯進行降序排列或升序排列,得到第二詞匯順序信息,其中,多個目標詞匯與多個同頻詞匯均為降序排列或均為升序排列。
7、根據(jù)本發(fā)明的實施例,該方法還包括:通過可視化工具,基于第二詞匯順序信息對多個目標詞匯進行可視化操作,得到可視化圖形;以及展示可視化圖形。
8、根據(jù)本發(fā)明的實施例,根據(jù)詞頻信息,從多個目標詞匯中確定出多個熱點詞匯,還包括:按照第二詞匯順序信息,從多個目標詞匯中確定預設數(shù)量的熱點詞匯。
9、根據(jù)本發(fā)明的實施例,對多個熱點詞匯進行語義分析,得到優(yōu)化后的多個熱點詞匯還包括:確定多個熱點詞匯各自的詞向量信息;根據(jù)詞向量信息對多個熱點詞匯進行聚類操作,得到語義相近的至少一個類別簇;以及刪除與至少一個類別簇的距離大于距離閾值的熱點詞匯,得到優(yōu)化后的熱點詞匯。
10、根據(jù)本發(fā)明的實施例,從多個文本數(shù)據(jù)中抽取出多個目標詞匯,包括:將文本數(shù)據(jù)中關(guān)鍵詞部分的詞匯作為多個目標詞匯;或者從文本數(shù)據(jù)的標題和摘要中提取出多個初始詞匯;以及基于停用詞表,對多個初始詞匯進行清洗,得到多個目標詞匯。
11、本發(fā)明的第二方面提供了一種基于詞頻波動和語義分析的文本數(shù)據(jù)處理裝置,包括:獲取模塊,用于獲取預設時間段內(nèi)屬于目標領(lǐng)域的多個文本數(shù)據(jù),其中,預設時間段包括連續(xù)的多個子時間段。抽取模塊,用于從多個文本數(shù)據(jù)中抽取出多個目標詞匯。詞頻確定模塊,用于確定每個目標詞匯在多個子時間段中每個子時間段內(nèi)的詞頻信息。熱點確定模塊,用于根據(jù)詞頻信息,從多個目標詞匯中確定出多個熱點詞匯,其中,熱點詞匯用于表征目標領(lǐng)域在預設時間段內(nèi)的技術(shù)發(fā)展熱點。語義分析模塊,用于對多個熱點詞匯進行語義分析,得到優(yōu)化后的多個熱點詞匯。
12、本發(fā)明的第三方面提供了一種電子設備,包括:一個或多個處理器;存儲器,用于存儲一個或多個計算機程序,當所述一個或多個處理器執(zhí)行一個或多個計算機程序時以實現(xiàn)根據(jù)上述基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法的步驟。
13、本發(fā)明的第四方面還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序或指令,所述計算機程序或指令被處理器執(zhí)行時實現(xiàn)根據(jù)上述基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法的步驟。
14、本發(fā)明的第五方面還提供了一種計算機程序產(chǎn)品,包括計算機程序或指令,所述計算機程序或指令被處理器執(zhí)行時實現(xiàn)根據(jù)上述基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法的步驟。
15、本發(fā)明的實施例提供了一種新的文本詞匯的詞頻排序方法,對詞頻引入了時間標簽,借助連續(xù)時間段內(nèi)詞匯的詞頻變化信息,從而快速、準確地定位熱點詞匯。之后,再通過自然語言處理方法中的語義分析,對確定的熱點詞匯進行進一步優(yōu)化,更進一步地提高了確定的熱點詞匯的準確性,有助于科技企業(yè)快速、準確地基于熱點詞匯選擇技術(shù)發(fā)展路線,減少企業(yè)后續(xù)遷移、改造、升級的成本。
1.一種基于詞頻波動和語義分析的文本數(shù)據(jù)處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述詞頻信息,從多個所述目標詞匯中確定出多個熱點詞匯,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述詞頻波動趨勢包括持續(xù)降低、持續(xù)走高和持續(xù)波動,所述根據(jù)所述詞頻波動趨勢,從多個所述高頻詞匯中確定出多個熱點詞匯包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)多個所述高頻詞匯各自在所述多個子時間段內(nèi)的詞頻信息,確定多個所述高頻詞匯各自的詞頻波動趨勢包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述確定每個所述目標詞匯在所述多個子時間段內(nèi)的詞頻信息之后,還包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括:
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述詞頻信息,從多個所述目標詞匯中確定出多個熱點詞匯,還包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述多個熱點詞匯進行語義分析,得到優(yōu)化后的多個熱點詞匯還包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述多個文本數(shù)據(jù)中抽取出多個目標詞匯,包括:
10.一種電子設備,其特征在于,所述電子設備包括: