1.一種輿情數(shù)據(jù)聚類方法,其特征在于,包括:
對社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,以獲取非冗余數(shù)據(jù);
對所述非冗余數(shù)據(jù)進(jìn)行分析,以在所述非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù);
對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類,以在所述相關(guān)輿情數(shù)據(jù)中確定目標(biāo)輿情數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的輿情數(shù)據(jù)聚類方法,其特征在于,對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類,以在所述相關(guān)輿情數(shù)據(jù)中確定所述目標(biāo)輿情數(shù)據(jù),具體包括:
使用輿情熱度值預(yù)設(shè)公式對所述相關(guān)輿情數(shù)據(jù)進(jìn)行統(tǒng)計(jì),以確定所述相關(guān)輿情數(shù)據(jù)的輿情熱度值;
根據(jù)所述輿情熱度值在所述相關(guān)輿情數(shù)據(jù)中確定第一中心輿情數(shù)據(jù)和第二中心輿情數(shù)據(jù),并將所述第一中心輿情數(shù)據(jù)和所述第二中心輿情數(shù)據(jù)作為所述目標(biāo)輿情數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的輿情數(shù)據(jù)聚類方法,其特征在于,對所述非冗余數(shù)據(jù)進(jìn)行分析,以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù),具體包括:
根據(jù)隨機(jī)森林算法和預(yù)設(shè)訓(xùn)練數(shù)據(jù),建立隨機(jī)森林模型;
根據(jù)所述隨機(jī)森林模型對所述非冗余數(shù)據(jù)進(jìn)行判別和分類,以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的輿情數(shù)據(jù)聚類方法,其特征在于,對所述社交網(wǎng)絡(luò)中的所述當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,具體包括:
在所述當(dāng)前數(shù)據(jù)中確定原創(chuàng)數(shù)據(jù),并在所述原創(chuàng)數(shù)據(jù)中獲取多個(gè)關(guān)鍵詞,以確定所述原創(chuàng)數(shù)據(jù)的關(guān)鍵詞向量;
接收建立指令,建立所述原創(chuàng)數(shù)據(jù)的初始化向量,并根據(jù)所述關(guān)鍵詞向量將所述初始化向量轉(zhuǎn)化為數(shù)據(jù)指紋向量;
根據(jù)所述數(shù)據(jù)指紋向量,對所述原創(chuàng)數(shù)據(jù)進(jìn)行冗余過濾,以確定所述 非冗余數(shù)據(jù)。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的輿情數(shù)據(jù)聚類方法,其特征在于,所述輿情熱度值預(yù)設(shè)公式包括文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式,以及所述輿情熱度值包括:所述文本局部密度值和/或文本距離值,其中,所述文本局部密度預(yù)設(shè)公式包括:
所述文本距離預(yù)設(shè)公式包括:
n表示所述相關(guān)輿情數(shù)據(jù)的文本總數(shù),ρi表示第i個(gè)所述相關(guān)輿情數(shù)據(jù)的局部密度值,dij表示第i個(gè)所述相關(guān)輿情數(shù)據(jù)與第j個(gè)所述相關(guān)輿情數(shù)據(jù)的文本相似值,且i不等于j,dc表示相似系數(shù),且dc的取值范圍為n×1%至n×2%,δi表示第i個(gè)所述相關(guān)輿情數(shù)據(jù)的文本距離。
6.一種輿情數(shù)據(jù)聚類系統(tǒng),其特征在于,包括:
冗余過濾單元,用于對社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,以獲取非冗余數(shù)據(jù);
第一確定單元,用于對所述非冗余數(shù)據(jù)進(jìn)行分析,以在所述非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù);
聚類單元,用于對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類,以在所述相關(guān)輿情數(shù)據(jù)中確定目標(biāo)輿情數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的輿情數(shù)據(jù)聚類系統(tǒng),其特征在于,所述聚類單元包括:
統(tǒng)計(jì)單元,用于使用輿情熱度值預(yù)設(shè)公式對所述相關(guān)輿情數(shù)據(jù)進(jìn)行統(tǒng)計(jì),以確定所述相關(guān)輿情數(shù)據(jù)的輿情熱度值;
第二確定單元,用于根據(jù)所述輿情熱度值在所述相關(guān)輿情數(shù)據(jù)中確定第一中心輿情數(shù)據(jù)和第二中心輿情數(shù)據(jù),并將所述第一中心輿情數(shù)據(jù)和所述第二中心輿情數(shù)據(jù)作為所述目標(biāo)輿情數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的輿情數(shù)據(jù)聚類系統(tǒng),其特征在于,所述第 一確定單元包括:
建立單元,用于根據(jù)隨機(jī)森林算法和預(yù)設(shè)訓(xùn)練數(shù)據(jù),建立隨機(jī)森林模型;
所述第一確定單元具體用于:根據(jù)所述隨機(jī)森林模型對所述非冗余數(shù)據(jù)進(jìn)行判別和分類,以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的輿情數(shù)據(jù)聚類系統(tǒng),其特征在于,所述冗余過濾單元包括:
第三確定單元,用于在所述當(dāng)前數(shù)據(jù)中確定原創(chuàng)數(shù)據(jù),并在所述原創(chuàng)數(shù)據(jù)中獲取多個(gè)關(guān)鍵詞,以確定所述原創(chuàng)數(shù)據(jù)的關(guān)鍵詞向量;
轉(zhuǎn)化單元,用于接收建立指令,建立所述原創(chuàng)數(shù)據(jù)的初始化向量,并根據(jù)所述關(guān)鍵詞向量將所述初始化向量轉(zhuǎn)化為數(shù)據(jù)指紋向量;
所述第三確定單元具體用于:根據(jù)所述數(shù)據(jù)指紋向量,對所述原創(chuàng)數(shù)據(jù)進(jìn)行冗余過濾,以確定所述非冗余數(shù)據(jù)。
10.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的輿情數(shù)據(jù)聚類系統(tǒng),其特征在于,所述輿情熱度值預(yù)設(shè)公式包括文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式,以及所述輿情熱度值包括:所述文本局部密度值和/或文本距離值,其中,所述文本局部密度預(yù)設(shè)公式包括:
所述文本距離預(yù)設(shè)公式包括:
n表示所述相關(guān)輿情數(shù)據(jù)的文本總數(shù),ρi表示第i個(gè)所述相關(guān)輿情數(shù)據(jù)的局部密度值,dij表示第i個(gè)所述相關(guān)輿情數(shù)據(jù)與第j個(gè)所述相關(guān)輿情數(shù)據(jù)的文本相似值,且i不等于j,dc表示相似系數(shù),且dc的取值范圍為n×1%至n×2%,δi表示第i個(gè)所述相關(guān)輿情數(shù)據(jù)的文本距離。