本發(fā)明涉及自然語(yǔ)言處理,尤其涉及一種文本聚類方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù):
1、文本聚類是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要任務(wù),其主要目的是將相似的文本歸類到同一類中,以便于信息組織、管理和檢索。而且在一些特定領(lǐng)域內(nèi),需要根據(jù)文本字面相似性進(jìn)行文本聚類。
2、現(xiàn)有的文本聚類方法主要是通過(guò)將文本轉(zhuǎn)換成向量表示,再結(jié)合k-means,層次聚類等方法進(jìn)行聚類。然而向量表示在捕捉語(yǔ)義相似性方面效果顯著,但對(duì)于字面相似性的判斷卻不夠準(zhǔn)確;傳統(tǒng)的聚類方法在處理大規(guī)模文本數(shù)據(jù)時(shí),計(jì)算成本高,效率低,難以滿足實(shí)時(shí)性要求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種文本聚類方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),用以解決現(xiàn)有技術(shù)中通過(guò)將文本轉(zhuǎn)換成向量表示,再結(jié)合k-means,層次聚類等方法進(jìn)行聚類,對(duì)于字面相似性的判斷不夠準(zhǔn)確,在處理大規(guī)模文本數(shù)據(jù)時(shí),計(jì)算成本高,效率低,難以滿足實(shí)時(shí)性要求的缺陷。
2、第一方面,本發(fā)明提供一種文本聚類方法,包括:
3、獲取待聚類的文本數(shù)據(jù)集,構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引;
4、利用所述lsh索引,在所述文本數(shù)據(jù)集中檢索與所述文本數(shù)據(jù)集的每一文本相似的文本,得到所述每一文本對(duì)應(yīng)的多個(gè)相似文本;
5、計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度,對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,得到所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集;
6、以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型;
7、采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖,將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類簇。
8、在一些實(shí)施例中,所述計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度,包括:
9、計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的編輯距離;
10、基于所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的編輯距離,以及所述每一文本的長(zhǎng)度,得到所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的歸一化的文本差異度。
11、在一些實(shí)施例中,所述對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,包括
12、判斷所述每一文本對(duì)應(yīng)的每一相似文本與所述每一文本的文本差異度是否小于預(yù)設(shè)文本差異度閾值,若是,則將所述每一文本對(duì)應(yīng)的每一相似文本添加至所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集中。
13、在一些實(shí)施例中,采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖,包括:
14、采用圖模型算法遍歷所述圖模型;
15、從所述圖模型中找出多個(gè)極大聯(lián)通子圖。
16、在一些實(shí)施例中,所述采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖之后,還包括:
17、將所述圖模型中未加入任一極大聯(lián)通子圖的節(jié)點(diǎn)劃分為一個(gè)聚類簇。
18、在一些實(shí)施例中,所述以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型,包括:
19、以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集,得到多個(gè)相似文本對(duì),創(chuàng)建對(duì)應(yīng)的邊連接每一相似文本對(duì)對(duì)應(yīng)的兩個(gè)節(jié)點(diǎn),構(gòu)建圖模型;
20、根據(jù)所述每一相似文本對(duì)的文本差異度,確定所述每一相似文本對(duì)對(duì)應(yīng)的邊的權(quán)重。
21、在一些實(shí)施例中,所述構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引,包括:
22、利用哈希函數(shù)計(jì)算所述文本數(shù)據(jù)集的每一文本的哈希值;
23、基于所述每一文本的哈希值,生成對(duì)應(yīng)的哈希表;
24、基于所述哈希表,構(gòu)建所述lsh索引。
25、第二方面,本發(fā)明還提供一種文本聚類裝置,包括:
26、第一構(gòu)建單元,用于獲取待聚類的文本數(shù)據(jù)集,構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引;
27、檢索單元,用于利用所述lsh索引,在所述文本數(shù)據(jù)集中檢索與所述文本數(shù)據(jù)集的每一文本相似的文本,得到所述每一文本對(duì)應(yīng)的多個(gè)相似文本;
28、篩選單元,用于計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度,對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,得到所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集;
29、第二構(gòu)建單元,以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型;
30、第一聚類單元,用于采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖,將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類簇。
31、第三方面,本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述文本聚類方法。
32、第四方面,本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述文本聚類方法。
33、本發(fā)明提供的文本聚類方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),通過(guò)構(gòu)建文本數(shù)據(jù)集的lsh索引,利用lsh索引,在文本數(shù)據(jù)集中檢索,得到每一文本對(duì)應(yīng)的多個(gè)相似文本,基于文本差異度對(duì)每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,得到每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集,以候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型,采用圖模型算法從圖模型中確定多個(gè)極大聯(lián)通子圖,將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類簇,能夠準(zhǔn)確地對(duì)字面相似性高的文本進(jìn)行聚類,適用于對(duì)大規(guī)模文本數(shù)據(jù)進(jìn)行聚類,降低了計(jì)算成本,提高了聚類的效率和實(shí)時(shí)性。
1.一種文本聚類方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的文本聚類方法,其特征在于,所述計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度,包括:
3.根據(jù)權(quán)利要求1所述的文本聚類方法,其特征在于,所述對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,包括
4.根據(jù)權(quán)利要求1所述的文本聚類方法,其特征在于,采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖,包括:
5.根據(jù)權(quán)利要求1所述的文本聚類方法,其特征在于,所述采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖之后,還包括:
6.根據(jù)權(quán)利要求1所述的文本聚類方法,其特征在于,所述以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型,包括:
7.根據(jù)權(quán)利要求2-6任一項(xiàng)所述的文本聚類方法,其特征在于,所述構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引,包括:
8.一種文本聚類裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述文本聚類方法。
10.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述文本聚類方法。