本發(fā)明涉及輿情數(shù)據(jù)聚類
技術(shù)領(lǐng)域:
,具體而言,涉及一種輿情數(shù)據(jù)聚類方法和一種輿情數(shù)據(jù)聚類系統(tǒng)。
背景技術(shù):
:目前,隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,越來越多的互聯(lián)網(wǎng)產(chǎn)品逐漸影響著人們的生活,例如微博自推出來就受到了廣泛推崇,微博的出現(xiàn)讓用戶可以隨時使用方便的終端設(shè)備以簡短的文字來分享新聞、圖片、視頻等各種信息,這種便捷有效的服務(wù)使微博儼然成為了新的新聞發(fā)布渠道,消息中心、社交網(wǎng)絡(luò)中心以及娛樂中心。以微博為代表的社交網(wǎng)絡(luò)等新媒體的興起,在豐富了大數(shù)據(jù)的同時,也給數(shù)據(jù)挖掘和知識發(fā)現(xiàn)帶來了諸多挑戰(zhàn)。如在微博中發(fā)現(xiàn)輿情數(shù)據(jù)正是當(dāng)前重要的研究課題之一,而輿情數(shù)據(jù)聚類技術(shù)是話題發(fā)現(xiàn)的重要手段之一,相關(guān)技術(shù)中的輿情數(shù)據(jù)聚類方案主要有如下兩方面:基于全量式的輿情數(shù)據(jù)聚類方案,常見的輿情數(shù)據(jù)聚類方案如K-means算法、凝聚式或分裂式的層次聚類方案等,再有將LDA(LatentDirichletAllocation,文檔主體生成模型,也稱為三層貝葉斯概率模型)等利用潛在概念的方法引入話題聚類過程改進(jìn)模型?;谠隽渴降妮浨閿?shù)據(jù)聚類方案,常見的輿情數(shù)據(jù)聚類方案如single-pass算法,及在此算法框架基礎(chǔ)上的改進(jìn)模型,如克服single-pass算法受處理順序影響的問題。但是,上述提到的兩種相關(guān)技術(shù)中的輿情數(shù)據(jù)聚類方案存在以下缺點(diǎn):基于全量式的輿情數(shù)據(jù)聚類方案,雖然聚類結(jié)果的精度較高,但由于每次計(jì)算針對的是全量數(shù)據(jù),當(dāng)應(yīng)用對象面向海量的微博數(shù)據(jù)時,其處理速度達(dá)不到實(shí)時性要求?;谠隽渴降妮浨閿?shù)據(jù)聚類方案,雖然聚類的處理速度較快,但由于 對微博數(shù)據(jù)進(jìn)行聚類時采用了single-pass的策略,也決定了聚類結(jié)果難于調(diào)整,導(dǎo)致產(chǎn)生局部片斷式的聚類結(jié)果。因此,在對社交網(wǎng)站如微博中的海量數(shù)據(jù)進(jìn)行聚類時,如何保證聚類的處理速度可以達(dá)到實(shí)時性的要求,同時還可以調(diào)整聚類結(jié)果,避免了聚類出局部片斷式的聚類結(jié)果,從而提高了聚類結(jié)果的準(zhǔn)確性,成為亟待解決的問題。技術(shù)實(shí)現(xiàn)要素:本發(fā)明正是基于上述問題,提出了一種新的技術(shù)方案,通過對社交網(wǎng)站中的海量數(shù)據(jù)進(jìn)行增量式的聚類,不僅可以使聚類的處理速度可以達(dá)到實(shí)時性的要求,還可以調(diào)整聚類結(jié)果,從而避免了聚類出局部片斷式的聚類結(jié)果,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。有鑒于此,本發(fā)明的一方面提出了一種輿情數(shù)據(jù)聚類方法,包括:對社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,以獲取非冗余數(shù)據(jù);對所述非冗余數(shù)據(jù)進(jìn)行分析,以在所述非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù);對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類,以在所述相關(guān)輿情數(shù)據(jù)中確定目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中,由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù),因此,首先對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性,并且在進(jìn)行冗余過濾得到非冗余數(shù)據(jù)之后,在對非冗余數(shù)據(jù)進(jìn)行分析時,在非冗余數(shù)據(jù)中發(fā)現(xiàn)大量的與聚類結(jié)果不相關(guān)的不相關(guān)輿情數(shù)據(jù),因此,將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉,以在非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù),從而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時可以提高聚類的效率和速度,即聚類的處理速度可以達(dá)到實(shí)時性的要求,進(jìn)而可以實(shí)時有效地發(fā)現(xiàn)社交網(wǎng)站中的輿情熱點(diǎn)話題,另外,上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類,同時還可以調(diào)整聚類結(jié)果,即避免了采用迭代的方案進(jìn)行聚類,從而避免了聚類出局部片斷式的聚類結(jié)果,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中,優(yōu)選地,對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類,以在所述相關(guān)輿情數(shù)據(jù)中確定所述目標(biāo)輿情數(shù)據(jù),具體包括:使用輿情熱度值預(yù) 設(shè)公式對所述相關(guān)輿情數(shù)據(jù)進(jìn)行統(tǒng)計(jì),以確定所述相關(guān)輿情數(shù)據(jù)的輿情熱度值;根據(jù)所述輿情熱度值在所述相關(guān)輿情數(shù)據(jù)中確定第一中心輿情數(shù)據(jù)和第二中心輿情數(shù)據(jù),并將所述第一中心輿情數(shù)據(jù)和所述第二中心輿情數(shù)據(jù)作為所述目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中,由于社交網(wǎng)站如微博有一定的字?jǐn)?shù)限制,則微博中所討論的話題比較單一或者比較集中,即很少出現(xiàn)話題漂移的現(xiàn)象,即在相關(guān)輿情數(shù)據(jù)中具有相同話題的數(shù)據(jù)分布相對密集(數(shù)據(jù)相似度比較高),而具有不同話題的數(shù)據(jù)分布相對疏遠(yuǎn)(數(shù)據(jù)相似度比較低),因此,可以使用輿情熱度值預(yù)設(shè)公式計(jì)算相關(guān)輿情數(shù)據(jù)的輿情熱度值來確定目標(biāo)輿情數(shù)據(jù),輿情熱度值越高相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較密集,同時輿情熱度值越低相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較疏遠(yuǎn),從而可以有效地提高了對海量數(shù)據(jù)進(jìn)行聚類的準(zhǔn)確性和效率,另外,上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類,同時還可以調(diào)整聚類結(jié)果,即避免了采用迭代的方案進(jìn)行聚類,從而避免了聚類出局部片斷式的聚類結(jié)果,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中,優(yōu)選地,對所述非冗余數(shù)據(jù)進(jìn)行分析,以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù),具體包括:根據(jù)隨機(jī)森林算法和預(yù)設(shè)訓(xùn)練數(shù)據(jù),建立隨機(jī)森林模型;根據(jù)所述隨機(jī)森林模型對所述非冗余數(shù)據(jù)進(jìn)行判別和分類,以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù)。在該技術(shù)方案中,通過建立的隨機(jī)森林模型對非冗余數(shù)據(jù)進(jìn)行判別和分類,以確定相關(guān)輿情數(shù)據(jù),從而將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉,進(jìn)而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時有效地提高了聚類的速度和準(zhǔn)確率。在上述技術(shù)方案中,優(yōu)選地,對所述社交網(wǎng)絡(luò)中的所述當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,具體包括:在所述當(dāng)前數(shù)據(jù)中確定原創(chuàng)數(shù)據(jù),并在所述原創(chuàng)數(shù)據(jù)中獲取多個關(guān)鍵詞,以確定所述原創(chuàng)數(shù)據(jù)的關(guān)鍵詞向量;接收建立指令,建立所述原創(chuàng)數(shù)據(jù)的初始化向量,并根據(jù)所述關(guān)鍵詞向量將所述初始化向量轉(zhuǎn)化為數(shù)據(jù)指紋向量;根據(jù)所述數(shù)據(jù)指紋向量,對所述原創(chuàng)數(shù)據(jù)進(jìn)行冗余過濾,以確定所述非冗余數(shù)據(jù)。在該技術(shù)方案中,由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大 量的重復(fù)數(shù)據(jù),如不同用戶對熱門微博內(nèi)容的重復(fù)發(fā)布,或水軍通過多個用戶名對微博內(nèi)容進(jìn)行炒作,因此,通過對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性,另外,面向海量當(dāng)前數(shù)據(jù)的文本消重,充分考慮到當(dāng)前數(shù)據(jù)的文本表示方式,從而有利于相似計(jì)算和減少內(nèi)存消耗。在上述技術(shù)方案中,優(yōu)選地,所述輿情熱度值預(yù)設(shè)公式包括文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式,以及所述輿情熱度值包括:所述文本局部密度值和/或文本距離值,其中,所述文本局部密度預(yù)設(shè)公式包括:ρi=Σj=1nχ(dij-dc)i,j∈[1,n]]]>χ(x)=1x<00x≥0]]>所述文本距離預(yù)設(shè)公式包括:δi=minρj>ρi(dij)]]>n表示所述相關(guān)輿情數(shù)據(jù)的文本總數(shù),ρi表示第i個所述相關(guān)輿情數(shù)據(jù)的局部密度值,dij表示第i個所述相關(guān)輿情數(shù)據(jù)與第j個所述相關(guān)輿情數(shù)據(jù)的文本相似值,且i不等于j,dc表示相似系數(shù),且dc的取值范圍為n×1%至n×2%,δi表示第i個所述相關(guān)輿情數(shù)據(jù)的文本距離。在該技術(shù)方案中,由于目標(biāo)輿情數(shù)據(jù)位于數(shù)據(jù)分布相對密集的區(qū)域,因此,可以通過文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式計(jì)算出每個相關(guān)輿情數(shù)據(jù)(如每篇微博內(nèi)容)的文本局部密度值和/或文本距離值,從而確定出第一中心輿情數(shù)據(jù),另外,由于在第一中心輿情數(shù)據(jù)周圍包括可能是目標(biāo)輿情數(shù)據(jù)的數(shù)據(jù),因此,再次通過對文本局部密度值和/或文本距離值進(jìn)行分析,以確定在第一中心輿情數(shù)據(jù)周圍的第二中心輿情數(shù)據(jù),從而可以準(zhǔn)確地確定目標(biāo)輿情數(shù)據(jù),進(jìn)而提高了對海量數(shù)據(jù)的增量式聚類的效率和速度,另外,上述技術(shù)方案可以提供任意時間片斷上的快速有效地聚類結(jié)果,從而避免了產(chǎn)生局部片斷式的聚類結(jié)果。本發(fā)明的另一方面提出了一種輿情數(shù)據(jù)聚類系統(tǒng),包括:冗余過濾單元,用于對社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,以獲取非冗余數(shù)據(jù);第 一確定單元,用于對所述非冗余數(shù)據(jù)進(jìn)行分析,以在所述非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù);聚類單元,用于對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類,以在所述相關(guān)輿情數(shù)據(jù)中確定目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中,由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù),因此,首先對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性,并且在進(jìn)行冗余過濾得到非冗余數(shù)據(jù)之后,在對非冗余數(shù)據(jù)進(jìn)行分析時,在非冗余數(shù)據(jù)中發(fā)現(xiàn)大量的與聚類結(jié)果不相關(guān)的不相關(guān)輿情數(shù)據(jù),因此,將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉,以在非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù),從而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時可以提高聚類的效率和速度,即聚類的處理速度可以達(dá)到實(shí)時性的要求,進(jìn)而可以實(shí)時有效地發(fā)現(xiàn)社交網(wǎng)站中的輿情熱點(diǎn)話題,另外,上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類,同時還可以調(diào)整聚類結(jié)果,即避免了采用迭代的方案進(jìn)行聚類,從而避免了聚類出局部片斷式的聚類結(jié)果,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中,優(yōu)選地,所述聚類單元包括:統(tǒng)計(jì)單元,用于使用輿情熱度值預(yù)設(shè)公式對所述相關(guān)輿情數(shù)據(jù)進(jìn)行統(tǒng)計(jì),以確定所述相關(guān)輿情數(shù)據(jù)的輿情熱度值;第二確定單元,用于根據(jù)所述輿情熱度值在所述相關(guān)輿情數(shù)據(jù)中確定第一中心輿情數(shù)據(jù)和第二中心輿情數(shù)據(jù),并將所述第一中心輿情數(shù)據(jù)和所述第二中心輿情數(shù)據(jù)作為所述目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中,由于社交網(wǎng)站如微博有一定的字?jǐn)?shù)限制,則微博中所討論的話題比較單一或者比較集中,即很少出現(xiàn)話題漂移的現(xiàn)象,即在相關(guān)輿情數(shù)據(jù)中具有相同話題的數(shù)據(jù)分布相對密集(數(shù)據(jù)相似度比較高),而具有不同話題的數(shù)據(jù)分布相對疏遠(yuǎn)(數(shù)據(jù)相似度比較低),因此,可以使用輿情熱度值預(yù)設(shè)公式計(jì)算相關(guān)輿情數(shù)據(jù)的輿情熱度值來確定目標(biāo)輿情數(shù)據(jù),輿情熱度值越高相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較密集,同時輿情熱度值越低相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較疏遠(yuǎn),從而可以有效地提高了對海量數(shù)據(jù)進(jìn)行聚類的準(zhǔn)確性和效率,另外,上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類,同時還可以調(diào)整聚類結(jié)果,即避免了采用迭代的方案進(jìn)行聚類,從而避免了聚類出局部片斷式的聚類結(jié)果,進(jìn)而提高 了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中,優(yōu)選地,所述第一確定單元包括:建立單元,用于根據(jù)隨機(jī)森林算法和預(yù)設(shè)訓(xùn)練數(shù)據(jù),建立隨機(jī)森林模型;所述第一確定單元具體用于:根據(jù)所述隨機(jī)森林模型對所述非冗余數(shù)據(jù)進(jìn)行判別和分類,以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù)。在該技術(shù)方案中,通過建立的隨機(jī)森林模型對非冗余數(shù)據(jù)進(jìn)行判別和分類,以確定相關(guān)輿情數(shù)據(jù),從而將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉,進(jìn)而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時有效地提高了聚類的速度和準(zhǔn)確率。在上述技術(shù)方案中,優(yōu)選地,所述冗余過濾單元包括:第三確定單元,用于在所述當(dāng)前數(shù)據(jù)中確定原創(chuàng)數(shù)據(jù),并在所述原創(chuàng)數(shù)據(jù)中獲取多個關(guān)鍵詞,以確定所述原創(chuàng)數(shù)據(jù)的關(guān)鍵詞向量;轉(zhuǎn)化單元,用于接收建立指令,建立所述原創(chuàng)數(shù)據(jù)的初始化向量,并根據(jù)所述關(guān)鍵詞向量將所述初始化向量轉(zhuǎn)化為數(shù)據(jù)指紋向量;所述第三確定單元具體用于:根據(jù)所述數(shù)據(jù)指紋向量,對所述原創(chuàng)數(shù)據(jù)進(jìn)行冗余過濾,以確定所述非冗余數(shù)據(jù)。在該技術(shù)方案中,由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù),如不同用戶對熱門微博內(nèi)容的重復(fù)發(fā)布,或水軍通過多個用戶名對微博內(nèi)容進(jìn)行炒作,因此,通過對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性,另外,面向海量當(dāng)前數(shù)據(jù)的文本消重,充分考慮到當(dāng)前數(shù)據(jù)的文本表示方式,從而有利于相似計(jì)算和減少內(nèi)存消耗。在上述技術(shù)方案中,優(yōu)選地,所述輿情熱度值預(yù)設(shè)公式包括文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式,以及所述輿情熱度值包括:所述文本局部密度值和/或文本距離值,其中,所述文本局部密度預(yù)設(shè)公式包括:ρi=Σj=1nχ(dij-dc)i,j∈[1,n]]]>χ(x)=1x<00x≥0]]>所述文本距離預(yù)設(shè)公式包括:δi=minρj>ρi(dij)]]>n表示所述相關(guān)輿情數(shù)據(jù)的文本總數(shù),ρi表示第i個所述相關(guān)輿情數(shù)據(jù)的局部密度值,dij表示第i個所述相關(guān)輿情數(shù)據(jù)與第j個所述相關(guān)輿情數(shù)據(jù)的文本相似值,且i不等于j,dc表示相似系數(shù),且dc的取值范圍為n×1%至n×2%,δi表示第i個所述相關(guān)輿情數(shù)據(jù)的文本距離。在該技術(shù)方案中,由于目標(biāo)輿情數(shù)據(jù)位于數(shù)據(jù)分布相對密集的區(qū)域,因此,可以通過文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式計(jì)算出每個相關(guān)輿情數(shù)據(jù)(如每篇微博內(nèi)容)的文本局部密度值和/或文本距離值,從而確定出第一中心輿情數(shù)據(jù),另外,由于在第一中心輿情數(shù)據(jù)周圍包括可能是目標(biāo)輿情數(shù)據(jù)的數(shù)據(jù),因此,再次通過對文本局部密度值和/或文本距離值進(jìn)行分析,以確定在第一中心輿情數(shù)據(jù)周圍的第二中心輿情數(shù)據(jù),從而可以準(zhǔn)確地確定目標(biāo)輿情數(shù)據(jù),進(jìn)而提高了對海量數(shù)據(jù)的增量式聚類的效率和速度,另外,上述技術(shù)方案可以提供任意時間片斷上的快速有效地聚類結(jié)果,從而避免了產(chǎn)生局部片斷式的聚類結(jié)果。通過本發(fā)明的技術(shù)方案,通過對社交網(wǎng)站中的海量數(shù)據(jù)進(jìn)行增量式的聚類,不僅可以使聚類的處理速度可以達(dá)到實(shí)時性的要求,還可以調(diào)整聚類結(jié)果,從而避免了聚類出局部片斷式的聚類結(jié)果,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。附圖說明圖1示出了根據(jù)本發(fā)明的一個實(shí)施例的輿情數(shù)據(jù)聚類方法的流程示意圖;圖2示出了根據(jù)本發(fā)明的一個實(shí)施例的輿情數(shù)據(jù)聚類系統(tǒng)的結(jié)構(gòu)示意圖;圖3示出了根據(jù)本發(fā)明的另一個實(shí)施例的輿情數(shù)據(jù)聚類方法的流程示意圖。具體實(shí)施方式為了可以更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是,在不 沖突的情況下,本申請的實(shí)施例及實(shí)施例中的特征可以相互組合。在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。圖1示出了根據(jù)本發(fā)明的一個實(shí)施例的輿情數(shù)據(jù)聚類方法的流程示意圖。如圖1所示,根據(jù)本發(fā)明的一個實(shí)施例的輿情數(shù)據(jù)聚類方法,包括:步驟102,對社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,以獲取非冗余數(shù)據(jù);步驟104,對所述非冗余數(shù)據(jù)進(jìn)行分析,以在所述非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù);步驟106,對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類,以在所述相關(guān)輿情數(shù)據(jù)中確定目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中,由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù),因此,首先對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性,并且在進(jìn)行冗余過濾得到非冗余數(shù)據(jù)之后,在對非冗余數(shù)據(jù)進(jìn)行分析時,在非冗余數(shù)據(jù)中發(fā)現(xiàn)大量的與聚類結(jié)果不相關(guān)的不相關(guān)輿情數(shù)據(jù),因此,將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉,以在非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù),從而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時可以提高聚類的效率和速度,即聚類的處理速度可以達(dá)到實(shí)時性的要求,進(jìn)而可以實(shí)時有效地發(fā)現(xiàn)社交網(wǎng)站中的輿情熱點(diǎn)話題,另外,上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類,同時還可以調(diào)整聚類結(jié)果,即避免了采用迭代的方案進(jìn)行聚類,從而避免了聚類出局部片斷式的聚類結(jié)果,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中,優(yōu)選地,步驟106具體包括:使用輿情熱度值預(yù)設(shè)公式對所述相關(guān)輿情數(shù)據(jù)進(jìn)行統(tǒng)計(jì),以確定所述相關(guān)輿情數(shù)據(jù)的輿情熱度值;根據(jù)所述輿情熱度值在所述相關(guān)輿情數(shù)據(jù)中確定第一中心輿情數(shù)據(jù)和第二中心輿情數(shù)據(jù),并將所述第一中心輿情數(shù)據(jù)和所述第二中心輿情數(shù)據(jù)作為所述目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中,由于社交網(wǎng)站如微博有一定的字?jǐn)?shù)限制,則微博中所討論的話題比較單一或者比較集中,即很少出現(xiàn)話題漂移的現(xiàn)象,即在相關(guān)輿情數(shù)據(jù)中具有相同話題的數(shù)據(jù)分布相對密集(數(shù)據(jù)相似度比較高),而具有不同話題的數(shù)據(jù)分布相對疏遠(yuǎn)(數(shù)據(jù)相似度比較低),因此,可以使用輿情熱度值預(yù)設(shè)公式計(jì)算相關(guān)輿情數(shù)據(jù)的輿情熱度值來確定目標(biāo)輿情數(shù)據(jù),輿情熱度值越高相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較密集,同時輿情熱度值越低相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較疏遠(yuǎn),從而可以有效地提高了對海量數(shù)據(jù)進(jìn)行聚類的準(zhǔn)確性和效率,另外,上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類,同時還可以調(diào)整聚類結(jié)果,即避免了采用迭代的方案進(jìn)行聚類,從而避免了聚類出局部片斷式的聚類結(jié)果,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中,優(yōu)選地,步驟104具體包括:根據(jù)隨機(jī)森林算法和預(yù)設(shè)訓(xùn)練數(shù)據(jù),建立隨機(jī)森林模型;根據(jù)所述隨機(jī)森林模型對所述非冗余數(shù)據(jù)進(jìn)行判別和分類,以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù)。在該技術(shù)方案中,通過建立的隨機(jī)森林模型對非冗余數(shù)據(jù)進(jìn)行判別和分類,以確定相關(guān)輿情數(shù)據(jù),從而將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉,進(jìn)而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時有效地提高了聚類的速度和準(zhǔn)確率。在上述技術(shù)方案中,優(yōu)選地,步驟102具體包括:在所述當(dāng)前數(shù)據(jù)中確定原創(chuàng)數(shù)據(jù),并在所述原創(chuàng)數(shù)據(jù)中獲取多個關(guān)鍵詞,以確定所述原創(chuàng)數(shù)據(jù)的關(guān)鍵詞向量;接收建立指令,建立所述原創(chuàng)數(shù)據(jù)的初始化向量,并根據(jù)所述關(guān)鍵詞向量將所述初始化向量轉(zhuǎn)化為數(shù)據(jù)指紋向量;根據(jù)所述數(shù)據(jù)指紋向量,對所述原創(chuàng)數(shù)據(jù)進(jìn)行冗余過濾,以確定所述非冗余數(shù)據(jù)。在該技術(shù)方案中,由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù),如不同用戶對熱門微博內(nèi)容的重復(fù)發(fā)布,或水軍通過多個用戶名對微博內(nèi)容進(jìn)行炒作,因此,通過對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性,另外,面向海量當(dāng)前數(shù)據(jù)的文本消重,充分考慮到當(dāng)前數(shù)據(jù)的文本表示方式,從而有利于相似計(jì)算和減少內(nèi)存消耗。在上述技術(shù)方案中,優(yōu)選地,所述輿情熱度值預(yù)設(shè)公式包括文本局部 密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式,以及所述輿情熱度值包括:所述文本局部密度值和/或文本距離值,其中,所述文本局部密度預(yù)設(shè)公式包括:ρi=Σj=1nχ(dij-dc)i,j∈[1,n]]]>χ(x)=1x<00x≥0]]>所述文本距離預(yù)設(shè)公式包括:δi=minρj>ρi(dij)]]>n表示所述相關(guān)輿情數(shù)據(jù)的文本總數(shù),ρi表示第i個所述相關(guān)輿情數(shù)據(jù)的局部密度值,dij表示第i個所述相關(guān)輿情數(shù)據(jù)與第j個所述相關(guān)輿情數(shù)據(jù)的文本相似值,且i不等于j,dc表示相似系數(shù),且dc的取值范圍為n×1%至n×2%,δi表示第i個所述相關(guān)輿情數(shù)據(jù)的文本距離。在該技術(shù)方案中,由于目標(biāo)輿情數(shù)據(jù)位于數(shù)據(jù)分布相對密集的區(qū)域,因此,可以通過文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式計(jì)算出每個相關(guān)輿情數(shù)據(jù)(如每篇微博內(nèi)容)的文本局部密度值和/或文本距離值,從而確定出第一中心輿情數(shù)據(jù),另外,由于在第一中心輿情數(shù)據(jù)周圍包括可能是目標(biāo)輿情數(shù)據(jù)的數(shù)據(jù),因此,再次通過對文本局部密度值和/或文本距離值進(jìn)行分析,以確定在第一中心輿情數(shù)據(jù)周圍的第二中心輿情數(shù)據(jù),從而可以準(zhǔn)確地確定目標(biāo)輿情數(shù)據(jù),進(jìn)而提高了對海量數(shù)據(jù)的增量式聚類的效率和速度,另外,上述技術(shù)方案可以提供任意時間片斷上的快速有效地聚類結(jié)果,從而避免了產(chǎn)生局部片斷式的聚類結(jié)果。圖2示出了根據(jù)本發(fā)明的一個實(shí)施例的輿情數(shù)據(jù)聚類系統(tǒng)的結(jié)構(gòu)示意圖。如圖2所示,根據(jù)本發(fā)明的一個實(shí)施例的輿情數(shù)據(jù)聚類系統(tǒng)200,包括:冗余過濾單元202,用于對社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,以獲取非冗余數(shù)據(jù);第一確定單元204,用于對所述非冗余數(shù)據(jù)進(jìn)行分析,以在所述非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù);聚類單元206,用于對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類,以在所述相關(guān)輿情數(shù)據(jù)中確定目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中,由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù),因此,首先對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,從而避免了重復(fù)數(shù) 據(jù)對聚類結(jié)果的影響,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性,并且在進(jìn)行冗余過濾得到非冗余數(shù)據(jù)之后,在對非冗余數(shù)據(jù)進(jìn)行分析時,在非冗余數(shù)據(jù)中發(fā)現(xiàn)大量的與聚類結(jié)果不相關(guān)的不相關(guān)輿情數(shù)據(jù),因此,將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉,以在非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù),從而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時可以提高聚類的效率和速度,即聚類的處理速度可以達(dá)到實(shí)時性的要求,進(jìn)而可以實(shí)時有效地發(fā)現(xiàn)社交網(wǎng)站中的輿情熱點(diǎn)話題,另外,上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類,同時還可以調(diào)整聚類結(jié)果,即避免了采用迭代的方案進(jìn)行聚類,從而避免了聚類出局部片斷式的聚類結(jié)果,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中,優(yōu)選地,所述聚類單元206包括:統(tǒng)計(jì)單元2062,用于使用輿情熱度值預(yù)設(shè)公式對所述相關(guān)輿情數(shù)據(jù)進(jìn)行統(tǒng)計(jì),以確定所述相關(guān)輿情數(shù)據(jù)的輿情熱度值;第二確定單元2064,用于根據(jù)所述輿情熱度值在所述相關(guān)輿情數(shù)據(jù)中確定第一中心輿情數(shù)據(jù)和第二中心輿情數(shù)據(jù),并將所述第一中心輿情數(shù)據(jù)和所述第二中心輿情數(shù)據(jù)作為所述目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中,由于社交網(wǎng)站如微博有一定的字?jǐn)?shù)限制,則微博中所討論的話題比較單一或者比較集中,即很少出現(xiàn)話題漂移的現(xiàn)象,即在相關(guān)輿情數(shù)據(jù)中具有相同話題的數(shù)據(jù)分布相對密集(數(shù)據(jù)相似度比較高),而具有不同話題的數(shù)據(jù)分布相對疏遠(yuǎn)(數(shù)據(jù)相似度比較低),因此,可以使用輿情熱度值預(yù)設(shè)公式計(jì)算相關(guān)輿情數(shù)據(jù)的輿情熱度值來確定目標(biāo)輿情數(shù)據(jù),輿情熱度值越高相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較密集,同時輿情熱度值越低相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較疏遠(yuǎn),從而可以有效地提高了對海量數(shù)據(jù)進(jìn)行聚類的準(zhǔn)確性和效率,另外,上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類,同時還可以調(diào)整聚類結(jié)果,即避免了采用迭代的方案進(jìn)行聚類,從而避免了聚類出局部片斷式的聚類結(jié)果,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中,優(yōu)選地,所述第一確定單元204包括:建立單元2042,用于根據(jù)隨機(jī)森林算法和預(yù)設(shè)訓(xùn)練數(shù)據(jù),建立隨機(jī)森林模型;所述第一確定單元204具體用于:根據(jù)所述隨機(jī)森林模型對所述非冗余數(shù)據(jù)進(jìn) 行判別和分類,以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù)。在該技術(shù)方案中,通過建立的隨機(jī)森林模型對非冗余數(shù)據(jù)進(jìn)行判別和分類,以確定相關(guān)輿情數(shù)據(jù),從而將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉,進(jìn)而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時有效地提高了聚類的速度和準(zhǔn)確率。在上述技術(shù)方案中,優(yōu)選地,所述冗余過濾單元202包括:第三確定單元2022,用于在所述當(dāng)前數(shù)據(jù)中確定原創(chuàng)數(shù)據(jù),并在所述原創(chuàng)數(shù)據(jù)中獲取多個關(guān)鍵詞,以確定所述原創(chuàng)數(shù)據(jù)的關(guān)鍵詞向量;轉(zhuǎn)化單元2024,用于接收建立指令,建立所述原創(chuàng)數(shù)據(jù)的初始化向量,并根據(jù)所述關(guān)鍵詞向量將所述初始化向量轉(zhuǎn)化為數(shù)據(jù)指紋向量;所述第三確定單元2022具體用于:根據(jù)所述數(shù)據(jù)指紋向量,對所述原創(chuàng)數(shù)據(jù)進(jìn)行冗余過濾,以確定所述非冗余數(shù)據(jù)。在該技術(shù)方案中,由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù),如不同用戶對熱門微博內(nèi)容的重復(fù)發(fā)布,或水軍通過多個用戶名對微博內(nèi)容進(jìn)行炒作,因此,通過對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性,另外,面向海量當(dāng)前數(shù)據(jù)的文本消重,充分考慮到當(dāng)前數(shù)據(jù)的文本表示方式,從而有利于相似計(jì)算和減少內(nèi)存消耗。在上述技術(shù)方案中,優(yōu)選地,所述輿情熱度值預(yù)設(shè)公式包括文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式,以及所述輿情熱度值包括:所述文本局部密度值和/或文本距離值,其中,所述文本局部密度預(yù)設(shè)公式包括:ρi=Σj=1nχ(dij-dc)i,j∈[1,n]]]>χ(x)=1x<00x≥0]]>所述文本距離預(yù)設(shè)公式包括:δi=minρj>ρi(dij)]]>n表示所述相關(guān)輿情數(shù)據(jù)的文本總數(shù),ρi表示第i個所述相關(guān)輿情數(shù)據(jù)的局部密度值,dij表示第i個所述相關(guān)輿情數(shù)據(jù)與第j個所述相關(guān)輿情數(shù)據(jù)的文本相似值,且i不等于j,dc表示相似系數(shù),且dc的取值范圍為n×1%至n×2%,δi表示第i個所述相關(guān)輿情數(shù)據(jù)的文本距離。在該技術(shù)方案中,由于目標(biāo)輿情數(shù)據(jù)位于數(shù)據(jù)分布相對密集的區(qū)域,因此,可以通過文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式計(jì)算出每個相關(guān)輿情數(shù)據(jù)(如每篇微博內(nèi)容)的文本局部密度值和/或文本距離值,從而確定出第一中心輿情數(shù)據(jù),另外,由于在第一中心輿情數(shù)據(jù)周圍包括可能是目標(biāo)輿情數(shù)據(jù)的數(shù)據(jù),因此,再次通過對文本局部密度值和/或文本距離值進(jìn)行分析,以確定在第一中心輿情數(shù)據(jù)周圍的第二中心輿情數(shù)據(jù),從而可以準(zhǔn)確地確定目標(biāo)輿情數(shù)據(jù),進(jìn)而提高了對海量數(shù)據(jù)的增量式聚類的效率和速度,另外,上述技術(shù)方案可以提供任意時間片斷上的快速有效地聚類結(jié)果,從而避免了產(chǎn)生局部片斷式的聚類結(jié)果。圖3示出了根據(jù)本發(fā)明的另一個實(shí)施例的輿情數(shù)據(jù)聚類方法的流程示意圖。如圖3所示,根據(jù)本發(fā)明的另一個實(shí)施例的輿情數(shù)據(jù)聚類方法,包括:步驟302,基于數(shù)據(jù)指紋向量的冗余數(shù)據(jù)過濾,具體地,通過對海量的社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)如微博數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)存在大量的重復(fù)數(shù)據(jù),如不同用戶對熱門微博內(nèi)容的重復(fù)發(fā)布,又如水軍通過多個用戶對微博內(nèi)容進(jìn)行炒作,這些重復(fù)數(shù)據(jù)對聚類結(jié)果有較大的影響,而且面向海量的微博數(shù)據(jù)的消重,需要充分考慮到微博數(shù)據(jù)的文本表示方式,有利于相似計(jì)算及減少內(nèi)存消耗。基于simhash指紋信息的冗余數(shù)據(jù)過濾步驟為:1.在微博中采集海量的微博數(shù)據(jù),在微博數(shù)據(jù)中過濾出原創(chuàng)微博數(shù)據(jù);2.對原創(chuàng)微博數(shù)據(jù)進(jìn)行分詞并提取關(guān)鍵詞,因此一篇原創(chuàng)微博數(shù)據(jù)由一組關(guān)鍵詞向量組成;3.初始化一個64維的向量V(初始化向量),初始化元素值為0;4.對于關(guān)鍵詞向量中的每一個關(guān)鍵詞,利用hash算法映射為一個64維的向量,如果該向量的第i維為1,則向量V上對應(yīng)的第i維加1,否則減1;5.對關(guān)鍵詞向量中每個關(guān)鍵詞迭代上述4過程;6.如果向量V的第i維為正數(shù),則化為1,如果向量V的第i維為負(fù)數(shù),則化為0,至此,將向量V轉(zhuǎn)化為一個64位的由01組成的數(shù)據(jù)指紋向量。7.對原創(chuàng)微博數(shù)據(jù)迭代上述3-6過程,將每篇原創(chuàng)微博數(shù)據(jù)都會轉(zhuǎn)化為一個64位的數(shù)據(jù)指紋向量。8.對具有相同的數(shù)據(jù)指紋向量的原創(chuàng)微博數(shù)據(jù)進(jìn)行冗余過濾,以確定非冗余數(shù)據(jù)。步驟304,基于自動分類的不相關(guān)輿情數(shù)據(jù)過濾,具體如下所示:通過對非冗余數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)存在大量的非輿情數(shù)據(jù),對非冗余數(shù)據(jù)進(jìn)行分類可以包括大量類別,如IT、人文藝術(shù)、傳媒、體育、健康、動漫、女性、娛樂、廣告公共、房產(chǎn)、教育、文學(xué)出版、旅游、時尚、汽車、游戲、生活、美食、育兒、財(cái)經(jīng)等等,這些類別對于不同的輿情應(yīng)用,有些是重點(diǎn)輿情類別,而有些則是非輿情類別無需考慮?;陔S機(jī)森林的非輿情數(shù)據(jù)過濾步驟為:1.根據(jù)不同輿情應(yīng)用需求,建立分類體系,準(zhǔn)備預(yù)設(shè)訓(xùn)練數(shù)據(jù),如垃圾類中包括廣告公共、游戲等,輿情無關(guān)類中包括時尚、美食、育兒等,輿情相關(guān)類中包括傳媒、房產(chǎn)、教育、財(cái)經(jīng)等。2.構(gòu)建大量的決策樹分類器;a)對于每一棵樹,從預(yù)設(shè)訓(xùn)練數(shù)據(jù)中有放回的隨機(jī)抽取出指定個數(shù)的數(shù)據(jù)樣本作為該棵樹的樣本子空間;b)對于每一個節(jié)點(diǎn),從預(yù)設(shè)訓(xùn)練數(shù)據(jù)的原始屬性集中有放回的隨機(jī)抽取出指定個數(shù)的屬性形成該棵樹的特征子空間,通過采用經(jīng)典的C4.5算法計(jì)算每個特征屬性的分裂值,最后將最優(yōu)的結(jié)果作為該節(jié)點(diǎn)分裂的準(zhǔn)則;c)在每個樣本子空間上按上述節(jié)點(diǎn)分裂原則構(gòu)建一棵無需剪枝的決策樹。3.將這些決策樹分類器進(jìn)行集成投票表決。a)采用直接投票方式,每個分類器對文本進(jìn)行投票表決;b)對所有分類器的投票結(jié)果進(jìn)行統(tǒng)計(jì)決策。4.利用上述構(gòu)建的隨機(jī)森林模型對非冗余數(shù)據(jù)進(jìn)行分類,從而確定相關(guān)輿情數(shù)據(jù)。步驟306,基于核心點(diǎn)搜索的話題聚類,具體如下所示:通過對相關(guān)輿情數(shù)據(jù)分析發(fā)現(xiàn),由于微博數(shù)據(jù)限制在140個字,因此 一條微博數(shù)據(jù)中所討論的話題比較單一或者比較集中,相比長文本很少出現(xiàn)話題漂移現(xiàn)象,這種現(xiàn)象對于聚類來說,是非常有利的,即討論相同主題的相關(guān)輿情數(shù)據(jù)的分布相對集密,而討論不同主題的相關(guān)輿情數(shù)據(jù)的分布相對疏遠(yuǎn),對于這種現(xiàn)象進(jìn)行算法描述,并支持對海量數(shù)據(jù)增量式計(jì)算方式。基于核心點(diǎn)搜索的話題聚類方法步驟為:1.對相關(guān)輿情數(shù)據(jù)進(jìn)行分詞并提取關(guān)鍵詞,因此一篇相關(guān)輿情數(shù)據(jù)由一組關(guān)鍵詞向量組成,從而為相關(guān)輿情數(shù)據(jù)建立一個向量空間模型。2.考慮到聚類中心(目標(biāo)輿情數(shù)據(jù))應(yīng)該位于數(shù)據(jù)密度分布高的區(qū)域,即聚類中心由一些局部密度比較低的相關(guān)輿情數(shù)據(jù)圍繞,有:a)通過文本局部密度預(yù)設(shè)公式計(jì)算第i個相關(guān)輿情數(shù)據(jù)的文本局部密度值ρi,即相關(guān)輿情數(shù)據(jù)的距離小于dc的個數(shù),其中,文本局部密度預(yù)設(shè)公式包括:ρi=Σj=1nχ(dij-dc)i,j∈[1,n]]]>其中:χ(x)=1x<00x≥0]]>n表示相關(guān)輿情數(shù)據(jù)的文本總數(shù),ρi表示第i個相關(guān)輿情數(shù)據(jù)的局部密度值,dij表示第i個相關(guān)輿情數(shù)據(jù)與第j個相關(guān)輿情數(shù)據(jù)的文本相似值,且i不等于j,dc表示相似系數(shù),且dc的取值范圍為n×1%至n×2%,δi表示第i個相關(guān)輿情數(shù)據(jù)的文本距離。b)dc是一個超參數(shù),表示計(jì)算第i個相關(guān)輿情數(shù)據(jù)的局部密度ρi的截?cái)嗑嚯x,根據(jù)相關(guān)輿情數(shù)據(jù)中每個相關(guān)輿情數(shù)據(jù)的鄰居數(shù)為相關(guān)輿情數(shù)據(jù)的文本總數(shù)的1%-2%,假設(shè)相關(guān)輿情數(shù)據(jù)的總數(shù)為n,偽代碼有:c)上述過程中Distance(i,j)表示在向量空間模型中計(jì)算兩個相關(guān)輿情數(shù)據(jù)之間的距離;3.考慮到聚類中心距離其他高局部的聚類中心的距離比較大,即一個聚類中心與另一個聚類中心應(yīng)該保持相對大的距離,使用文本距離預(yù)設(shè)公式計(jì)算第i個相關(guān)輿情數(shù)據(jù)到具有高局部密度的相關(guān)輿情數(shù)據(jù)(ρj,如果ρj>ρi,則確定ρj為高局部密度的相關(guān)輿情數(shù)據(jù))的文本距離值δi,其中,文本距離預(yù)設(shè)公式包括:δi=minρj>ρi(dij)]]>4.對所有的相關(guān)輿情數(shù)據(jù)迭代上述2-3過程,即計(jì)算出所有相關(guān)輿情數(shù)據(jù)的文本局部密度值ρi和其到具有高局部密度的相關(guān)輿情數(shù)據(jù)的文本距離δi后,將計(jì)算得到的ρi和δi均按照從大到小排序,設(shè)置閥值M,確定ρi中前M個相關(guān)輿情數(shù)據(jù)與δi中前M個相關(guān)輿情數(shù)據(jù)中的交集數(shù)據(jù),此交集數(shù)據(jù)即為聚類中心(第一中心輿情數(shù)據(jù)),并確定與聚類中心對應(yīng)的類別標(biāo)記;5.對于非聚類中心的相關(guān)輿情數(shù)據(jù),按照ρi的排序的順序依次確定所 屬類別,有:a)對于非聚類中心的相關(guān)輿情數(shù)據(jù)j,根據(jù)前述Distance(i,j)的計(jì)算結(jié)果將文本距離值按照從小到大排序;b)按照排序的順序,找到第一個被標(biāo)記類別的樣本數(shù)據(jù)(第二中心輿情數(shù)據(jù));c)將此樣本數(shù)據(jù)的類別標(biāo)記,作為樣本數(shù)據(jù)j的類別標(biāo)記;d)按照ρi的排序,對所有非聚類中心的相關(guān)輿情數(shù)據(jù)j迭代上述a-c過程,最終沒有確定所屬類別的為孤點(diǎn);上述1-3過程為此聚類算法的增量計(jì)算部分,即對海量數(shù)據(jù)增量的計(jì)算ρi與δi值,是實(shí)施聚類計(jì)算的基礎(chǔ)性依據(jù),在此基礎(chǔ)上,根據(jù)上述4-5過程,可以提供任意時間片斷上的快速有效的聚類結(jié)果。以上結(jié)合附圖詳細(xì)說明了本發(fā)明的技術(shù)方案,通過對社交網(wǎng)站中的海量數(shù)據(jù)進(jìn)行增量式的聚類,不僅可以使聚類的處理速度可以達(dá)到實(shí)時性的要求,還可以調(diào)整聚類結(jié)果,從而避免了聚類出局部片斷式的聚類結(jié)果,進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在本發(fā)明中,術(shù)語“第一”、“第二”、“第三”僅用于描述的目的,而不能理解為指示或暗示相對重要性;術(shù)語“多個”表示兩個或兩個以上。對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3