亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本聚類方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40394200發(fā)布日期:2024-12-20 12:17閱讀:2來(lái)源:國(guó)知局
文本聚類方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及自然語(yǔ)言處理,尤其涉及一種文本聚類方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。


背景技術(shù):

1、文本聚類是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要任務(wù),其主要目的是將相似的文本歸類到同一類中,以便于信息組織、管理和檢索。而且在一些特定領(lǐng)域內(nèi),需要根據(jù)文本字面相似性進(jìn)行文本聚類。

2、現(xiàn)有的文本聚類方法主要是通過(guò)將文本轉(zhuǎn)換成向量表示,再結(jié)合k-means,層次聚類等方法進(jìn)行聚類。然而向量表示在捕捉語(yǔ)義相似性方面效果顯著,但對(duì)于字面相似性的判斷卻不夠準(zhǔn)確;傳統(tǒng)的聚類方法在處理大規(guī)模文本數(shù)據(jù)時(shí),計(jì)算成本高,效率低,難以滿足實(shí)時(shí)性要求。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種文本聚類方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),用以解決現(xiàn)有技術(shù)中通過(guò)將文本轉(zhuǎn)換成向量表示,再結(jié)合k-means,層次聚類等方法進(jìn)行聚類,對(duì)于字面相似性的判斷不夠準(zhǔn)確,在處理大規(guī)模文本數(shù)據(jù)時(shí),計(jì)算成本高,效率低,難以滿足實(shí)時(shí)性要求的缺陷。

2、第一方面,本發(fā)明提供一種文本聚類方法,包括:

3、獲取待聚類的文本數(shù)據(jù)集,構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引;

4、利用所述lsh索引,在所述文本數(shù)據(jù)集中檢索與所述文本數(shù)據(jù)集的每一文本相似的文本,得到所述每一文本對(duì)應(yīng)的多個(gè)相似文本;

5、計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度,對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,得到所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集;

6、以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型;

7、采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖,將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類簇。

8、在一些實(shí)施例中,所述計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度,包括:

9、計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的編輯距離;

10、基于所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的編輯距離,以及所述每一文本的長(zhǎng)度,得到所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的歸一化的文本差異度。

11、在一些實(shí)施例中,所述對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,包括

12、判斷所述每一文本對(duì)應(yīng)的每一相似文本與所述每一文本的文本差異度是否小于預(yù)設(shè)文本差異度閾值,若是,則將所述每一文本對(duì)應(yīng)的每一相似文本添加至所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集中。

13、在一些實(shí)施例中,采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖,包括:

14、采用圖模型算法遍歷所述圖模型;

15、從所述圖模型中找出多個(gè)極大聯(lián)通子圖。

16、在一些實(shí)施例中,所述采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖之后,還包括:

17、將所述圖模型中未加入任一極大聯(lián)通子圖的節(jié)點(diǎn)劃分為一個(gè)聚類簇。

18、在一些實(shí)施例中,所述以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型,包括:

19、以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集,得到多個(gè)相似文本對(duì),創(chuàng)建對(duì)應(yīng)的邊連接每一相似文本對(duì)對(duì)應(yīng)的兩個(gè)節(jié)點(diǎn),構(gòu)建圖模型;

20、根據(jù)所述每一相似文本對(duì)的文本差異度,確定所述每一相似文本對(duì)對(duì)應(yīng)的邊的權(quán)重。

21、在一些實(shí)施例中,所述構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引,包括:

22、利用哈希函數(shù)計(jì)算所述文本數(shù)據(jù)集的每一文本的哈希值;

23、基于所述每一文本的哈希值,生成對(duì)應(yīng)的哈希表;

24、基于所述哈希表,構(gòu)建所述lsh索引。

25、第二方面,本發(fā)明還提供一種文本聚類裝置,包括:

26、第一構(gòu)建單元,用于獲取待聚類的文本數(shù)據(jù)集,構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引;

27、檢索單元,用于利用所述lsh索引,在所述文本數(shù)據(jù)集中檢索與所述文本數(shù)據(jù)集的每一文本相似的文本,得到所述每一文本對(duì)應(yīng)的多個(gè)相似文本;

28、篩選單元,用于計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度,對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,得到所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集;

29、第二構(gòu)建單元,以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型;

30、第一聚類單元,用于采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖,將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類簇。

31、第三方面,本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述文本聚類方法。

32、第四方面,本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述文本聚類方法。

33、本發(fā)明提供的文本聚類方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),通過(guò)構(gòu)建文本數(shù)據(jù)集的lsh索引,利用lsh索引,在文本數(shù)據(jù)集中檢索,得到每一文本對(duì)應(yīng)的多個(gè)相似文本,基于文本差異度對(duì)每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,得到每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集,以候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型,采用圖模型算法從圖模型中確定多個(gè)極大聯(lián)通子圖,將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類簇,能夠準(zhǔn)確地對(duì)字面相似性高的文本進(jìn)行聚類,適用于對(duì)大規(guī)模文本數(shù)據(jù)進(jìn)行聚類,降低了計(jì)算成本,提高了聚類的效率和實(shí)時(shí)性。



技術(shù)特征:

1.一種文本聚類方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的文本聚類方法,其特征在于,所述計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度,包括:

3.根據(jù)權(quán)利要求1所述的文本聚類方法,其特征在于,所述對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,包括

4.根據(jù)權(quán)利要求1所述的文本聚類方法,其特征在于,采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖,包括:

5.根據(jù)權(quán)利要求1所述的文本聚類方法,其特征在于,所述采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖之后,還包括:

6.根據(jù)權(quán)利要求1所述的文本聚類方法,其特征在于,所述以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型,包括:

7.根據(jù)權(quán)利要求2-6任一項(xiàng)所述的文本聚類方法,其特征在于,所述構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引,包括:

8.一種文本聚類裝置,其特征在于,包括:

9.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述文本聚類方法。

10.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述文本聚類方法。


技術(shù)總結(jié)
本發(fā)明提供一種文本聚類方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),其中方法包括:獲取待聚類的文本數(shù)據(jù)集,構(gòu)建文本數(shù)據(jù)集的LSH索引;利用LSH索引,在文本數(shù)據(jù)集中檢索,得到每一文本對(duì)應(yīng)的多個(gè)相似文本;計(jì)算文本差異度,對(duì)每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,得到每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集;以候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型;采用圖模型算法從圖模型中確定多個(gè)極大聯(lián)通子圖,將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類簇。本發(fā)明能夠準(zhǔn)確地對(duì)字面相似性高的文本進(jìn)行聚類,適用于對(duì)大規(guī)模文本數(shù)據(jù)進(jìn)行聚類,降低了計(jì)算成本,提高了聚類的效率和實(shí)時(shí)性。

技術(shù)研發(fā)人員:鄧喬波
受保護(hù)的技術(shù)使用者:語(yǔ)聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1