輿情數(shù)據(jù)聚類方法和輿情數(shù)據(jù)聚類系統(tǒng)與流程

文檔序號：11830179閱讀：284來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

輿情數(shù)據(jù)聚類方法和輿情數(shù)據(jù)聚類系統(tǒng)與流程

本發(fā)明涉及輿情數(shù)據(jù)聚類
技術(shù)領(lǐng)域：
，具體而言，涉及一種輿情數(shù)據(jù)聚類方法和一種輿情數(shù)據(jù)聚類系統(tǒng)。
背景技術(shù)：
：目前，隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展，越來越多的互聯(lián)網(wǎng)產(chǎn)品逐漸影響著人們的生活，例如微博自推出來就受到了廣泛推崇，微博的出現(xiàn)讓用戶可以隨時使用方便的終端設(shè)備以簡短的文字來分享新聞、圖片、視頻等各種信息，這種便捷有效的服務(wù)使微博儼然成為了新的新聞發(fā)布渠道，消息中心、社交網(wǎng)絡(luò)中心以及娛樂中心。以微博為代表的社交網(wǎng)絡(luò)等新媒體的興起，在豐富了大數(shù)據(jù)的同時，也給數(shù)據(jù)挖掘和知識發(fā)現(xiàn)帶來了諸多挑戰(zhàn)。如在微博中發(fā)現(xiàn)輿情數(shù)據(jù)正是當(dāng)前重要的研究課題之一，而輿情數(shù)據(jù)聚類技術(shù)是話題發(fā)現(xiàn)的重要手段之一，相關(guān)技術(shù)中的輿情數(shù)據(jù)聚類方案主要有如下兩方面：基于全量式的輿情數(shù)據(jù)聚類方案，常見的輿情數(shù)據(jù)聚類方案如K-means算法、凝聚式或分裂式的層次聚類方案等，再有將LDA(LatentDirichletAllocation，文檔主體生成模型，也稱為三層貝葉斯概率模型)等利用潛在概念的方法引入話題聚類過程改進(jìn)模型?；谠隽渴降妮浨閿?shù)據(jù)聚類方案，常見的輿情數(shù)據(jù)聚類方案如single-pass算法，及在此算法框架基礎(chǔ)上的改進(jìn)模型，如克服single-pass算法受處理順序影響的問題。但是，上述提到的兩種相關(guān)技術(shù)中的輿情數(shù)據(jù)聚類方案存在以下缺點(diǎn)：基于全量式的輿情數(shù)據(jù)聚類方案，雖然聚類結(jié)果的精度較高，但由于每次計(jì)算針對的是全量數(shù)據(jù)，當(dāng)應(yīng)用對象面向海量的微博數(shù)據(jù)時，其處理速度達(dá)不到實(shí)時性要求?；谠隽渴降妮浨閿?shù)據(jù)聚類方案，雖然聚類的處理速度較快，但由于對微博數(shù)據(jù)進(jìn)行聚類時采用了single-pass的策略，也決定了聚類結(jié)果難于調(diào)整，導(dǎo)致產(chǎn)生局部片斷式的聚類結(jié)果。因此，在對社交網(wǎng)站如微博中的海量數(shù)據(jù)進(jìn)行聚類時，如何保證聚類的處理速度可以達(dá)到實(shí)時性的要求，同時還可以調(diào)整聚類結(jié)果，避免了聚類出局部片斷式的聚類結(jié)果，從而提高了聚類結(jié)果的準(zhǔn)確性，成為亟待解決的問題。技術(shù)實(shí)現(xiàn)要素：本發(fā)明正是基于上述問題，提出了一種新的技術(shù)方案，通過對社交網(wǎng)站中的海量數(shù)據(jù)進(jìn)行增量式的聚類，不僅可以使聚類的處理速度可以達(dá)到實(shí)時性的要求，還可以調(diào)整聚類結(jié)果，從而避免了聚類出局部片斷式的聚類結(jié)果，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。有鑒于此，本發(fā)明的一方面提出了一種輿情數(shù)據(jù)聚類方法，包括：對社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾，以獲取非冗余數(shù)據(jù)；對所述非冗余數(shù)據(jù)進(jìn)行分析，以在所述非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù)；對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類，以在所述相關(guān)輿情數(shù)據(jù)中確定目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中，由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù)，因此，首先對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾，從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性，并且在進(jìn)行冗余過濾得到非冗余數(shù)據(jù)之后，在對非冗余數(shù)據(jù)進(jìn)行分析時，在非冗余數(shù)據(jù)中發(fā)現(xiàn)大量的與聚類結(jié)果不相關(guān)的不相關(guān)輿情數(shù)據(jù)，因此，將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉，以在非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù)，從而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時可以提高聚類的效率和速度，即聚類的處理速度可以達(dá)到實(shí)時性的要求，進(jìn)而可以實(shí)時有效地發(fā)現(xiàn)社交網(wǎng)站中的輿情熱點(diǎn)話題，另外，上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類，同時還可以調(diào)整聚類結(jié)果，即避免了采用迭代的方案進(jìn)行聚類，從而避免了聚類出局部片斷式的聚類結(jié)果，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中，優(yōu)選地，對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類，以在所述相關(guān)輿情數(shù)據(jù)中確定所述目標(biāo)輿情數(shù)據(jù)，具體包括：使用輿情熱度值預(yù) 設(shè)公式對所述相關(guān)輿情數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，以確定所述相關(guān)輿情數(shù)據(jù)的輿情熱度值；根據(jù)所述輿情熱度值在所述相關(guān)輿情數(shù)據(jù)中確定第一中心輿情數(shù)據(jù)和第二中心輿情數(shù)據(jù)，并將所述第一中心輿情數(shù)據(jù)和所述第二中心輿情數(shù)據(jù)作為所述目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中，由于社交網(wǎng)站如微博有一定的字?jǐn)?shù)限制，則微博中所討論的話題比較單一或者比較集中，即很少出現(xiàn)話題漂移的現(xiàn)象，即在相關(guān)輿情數(shù)據(jù)中具有相同話題的數(shù)據(jù)分布相對密集(數(shù)據(jù)相似度比較高)，而具有不同話題的數(shù)據(jù)分布相對疏遠(yuǎn)(數(shù)據(jù)相似度比較低)，因此，可以使用輿情熱度值預(yù)設(shè)公式計(jì)算相關(guān)輿情數(shù)據(jù)的輿情熱度值來確定目標(biāo)輿情數(shù)據(jù)，輿情熱度值越高相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較密集，同時輿情熱度值越低相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較疏遠(yuǎn)，從而可以有效地提高了對海量數(shù)據(jù)進(jìn)行聚類的準(zhǔn)確性和效率，另外，上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類，同時還可以調(diào)整聚類結(jié)果，即避免了采用迭代的方案進(jìn)行聚類，從而避免了聚類出局部片斷式的聚類結(jié)果，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中，優(yōu)選地，對所述非冗余數(shù)據(jù)進(jìn)行分析，以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù)，具體包括：根據(jù)隨機(jī)森林算法和預(yù)設(shè)訓(xùn)練數(shù)據(jù)，建立隨機(jī)森林模型；根據(jù)所述隨機(jī)森林模型對所述非冗余數(shù)據(jù)進(jìn)行判別和分類，以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù)。在該技術(shù)方案中，通過建立的隨機(jī)森林模型對非冗余數(shù)據(jù)進(jìn)行判別和分類，以確定相關(guān)輿情數(shù)據(jù)，從而將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉，進(jìn)而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時有效地提高了聚類的速度和準(zhǔn)確率。在上述技術(shù)方案中，優(yōu)選地，對所述社交網(wǎng)絡(luò)中的所述當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾，具體包括：在所述當(dāng)前數(shù)據(jù)中確定原創(chuàng)數(shù)據(jù)，并在所述原創(chuàng)數(shù)據(jù)中獲取多個關(guān)鍵詞，以確定所述原創(chuàng)數(shù)據(jù)的關(guān)鍵詞向量；接收建立指令，建立所述原創(chuàng)數(shù)據(jù)的初始化向量，并根據(jù)所述關(guān)鍵詞向量將所述初始化向量轉(zhuǎn)化為數(shù)據(jù)指紋向量；根據(jù)所述數(shù)據(jù)指紋向量，對所述原創(chuàng)數(shù)據(jù)進(jìn)行冗余過濾，以確定所述非冗余數(shù)據(jù)。在該技術(shù)方案中，由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù)，如不同用戶對熱門微博內(nèi)容的重復(fù)發(fā)布，或水軍通過多個用戶名對微博內(nèi)容進(jìn)行炒作，因此，通過對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾，從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性，另外，面向海量當(dāng)前數(shù)據(jù)的文本消重，充分考慮到當(dāng)前數(shù)據(jù)的文本表示方式，從而有利于相似計(jì)算和減少內(nèi)存消耗。在上述技術(shù)方案中，優(yōu)選地，所述輿情熱度值預(yù)設(shè)公式包括文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式，以及所述輿情熱度值包括：所述文本局部密度值和/或文本距離值，其中，所述文本局部密度預(yù)設(shè)公式包括：ρi=Σj=1nχ(dij-dc)i,j∈[1,n]]]>χ(x)=1x<00x≥0]]>所述文本距離預(yù)設(shè)公式包括：δi=minρj>ρi(dij)]]>n表示所述相關(guān)輿情數(shù)據(jù)的文本總數(shù)，ρi表示第i個所述相關(guān)輿情數(shù)據(jù)的局部密度值，dij表示第i個所述相關(guān)輿情數(shù)據(jù)與第j個所述相關(guān)輿情數(shù)據(jù)的文本相似值，且i不等于j，dc表示相似系數(shù)，且dc的取值范圍為n×1％至n×2％，δi表示第i個所述相關(guān)輿情數(shù)據(jù)的文本距離。在該技術(shù)方案中，由于目標(biāo)輿情數(shù)據(jù)位于數(shù)據(jù)分布相對密集的區(qū)域，因此，可以通過文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式計(jì)算出每個相關(guān)輿情數(shù)據(jù)(如每篇微博內(nèi)容)的文本局部密度值和/或文本距離值，從而確定出第一中心輿情數(shù)據(jù)，另外，由于在第一中心輿情數(shù)據(jù)周圍包括可能是目標(biāo)輿情數(shù)據(jù)的數(shù)據(jù)，因此，再次通過對文本局部密度值和/或文本距離值進(jìn)行分析，以確定在第一中心輿情數(shù)據(jù)周圍的第二中心輿情數(shù)據(jù)，從而可以準(zhǔn)確地確定目標(biāo)輿情數(shù)據(jù)，進(jìn)而提高了對海量數(shù)據(jù)的增量式聚類的效率和速度，另外，上述技術(shù)方案可以提供任意時間片斷上的快速有效地聚類結(jié)果，從而避免了產(chǎn)生局部片斷式的聚類結(jié)果。本發(fā)明的另一方面提出了一種輿情數(shù)據(jù)聚類系統(tǒng)，包括：冗余過濾單元，用于對社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾，以獲取非冗余數(shù)據(jù)；第一確定單元，用于對所述非冗余數(shù)據(jù)進(jìn)行分析，以在所述非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù)；聚類單元，用于對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類，以在所述相關(guān)輿情數(shù)據(jù)中確定目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中，由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù)，因此，首先對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾，從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性，并且在進(jìn)行冗余過濾得到非冗余數(shù)據(jù)之后，在對非冗余數(shù)據(jù)進(jìn)行分析時，在非冗余數(shù)據(jù)中發(fā)現(xiàn)大量的與聚類結(jié)果不相關(guān)的不相關(guān)輿情數(shù)據(jù)，因此，將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉，以在非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù)，從而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時可以提高聚類的效率和速度，即聚類的處理速度可以達(dá)到實(shí)時性的要求，進(jìn)而可以實(shí)時有效地發(fā)現(xiàn)社交網(wǎng)站中的輿情熱點(diǎn)話題，另外，上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類，同時還可以調(diào)整聚類結(jié)果，即避免了采用迭代的方案進(jìn)行聚類，從而避免了聚類出局部片斷式的聚類結(jié)果，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中，優(yōu)選地，所述聚類單元包括：統(tǒng)計(jì)單元，用于使用輿情熱度值預(yù)設(shè)公式對所述相關(guān)輿情數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，以確定所述相關(guān)輿情數(shù)據(jù)的輿情熱度值；第二確定單元，用于根據(jù)所述輿情熱度值在所述相關(guān)輿情數(shù)據(jù)中確定第一中心輿情數(shù)據(jù)和第二中心輿情數(shù)據(jù)，并將所述第一中心輿情數(shù)據(jù)和所述第二中心輿情數(shù)據(jù)作為所述目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中，由于社交網(wǎng)站如微博有一定的字?jǐn)?shù)限制，則微博中所討論的話題比較單一或者比較集中，即很少出現(xiàn)話題漂移的現(xiàn)象，即在相關(guān)輿情數(shù)據(jù)中具有相同話題的數(shù)據(jù)分布相對密集(數(shù)據(jù)相似度比較高)，而具有不同話題的數(shù)據(jù)分布相對疏遠(yuǎn)(數(shù)據(jù)相似度比較低)，因此，可以使用輿情熱度值預(yù)設(shè)公式計(jì)算相關(guān)輿情數(shù)據(jù)的輿情熱度值來確定目標(biāo)輿情數(shù)據(jù)，輿情熱度值越高相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較密集，同時輿情熱度值越低相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較疏遠(yuǎn)，從而可以有效地提高了對海量數(shù)據(jù)進(jìn)行聚類的準(zhǔn)確性和效率，另外，上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類，同時還可以調(diào)整聚類結(jié)果，即避免了采用迭代的方案進(jìn)行聚類，從而避免了聚類出局部片斷式的聚類結(jié)果，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中，優(yōu)選地，所述第一確定單元包括：建立單元，用于根據(jù)隨機(jī)森林算法和預(yù)設(shè)訓(xùn)練數(shù)據(jù)，建立隨機(jī)森林模型；所述第一確定單元具體用于：根據(jù)所述隨機(jī)森林模型對所述非冗余數(shù)據(jù)進(jìn)行判別和分類，以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù)。在該技術(shù)方案中，通過建立的隨機(jī)森林模型對非冗余數(shù)據(jù)進(jìn)行判別和分類，以確定相關(guān)輿情數(shù)據(jù)，從而將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉，進(jìn)而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時有效地提高了聚類的速度和準(zhǔn)確率。在上述技術(shù)方案中，優(yōu)選地，所述冗余過濾單元包括：第三確定單元，用于在所述當(dāng)前數(shù)據(jù)中確定原創(chuàng)數(shù)據(jù)，并在所述原創(chuàng)數(shù)據(jù)中獲取多個關(guān)鍵詞，以確定所述原創(chuàng)數(shù)據(jù)的關(guān)鍵詞向量；轉(zhuǎn)化單元，用于接收建立指令，建立所述原創(chuàng)數(shù)據(jù)的初始化向量，并根據(jù)所述關(guān)鍵詞向量將所述初始化向量轉(zhuǎn)化為數(shù)據(jù)指紋向量；所述第三確定單元具體用于：根據(jù)所述數(shù)據(jù)指紋向量，對所述原創(chuàng)數(shù)據(jù)進(jìn)行冗余過濾，以確定所述非冗余數(shù)據(jù)。在該技術(shù)方案中，由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù)，如不同用戶對熱門微博內(nèi)容的重復(fù)發(fā)布，或水軍通過多個用戶名對微博內(nèi)容進(jìn)行炒作，因此，通過對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾，從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性，另外，面向海量當(dāng)前數(shù)據(jù)的文本消重，充分考慮到當(dāng)前數(shù)據(jù)的文本表示方式，從而有利于相似計(jì)算和減少內(nèi)存消耗。在上述技術(shù)方案中，優(yōu)選地，所述輿情熱度值預(yù)設(shè)公式包括文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式，以及所述輿情熱度值包括：所述文本局部密度值和/或文本距離值，其中，所述文本局部密度預(yù)設(shè)公式包括：ρi=Σj=1nχ(dij-dc)i,j∈[1,n]]]>χ(x)=1x<00x≥0]]>所述文本距離預(yù)設(shè)公式包括：δi=minρj>ρi(dij)]]>n表示所述相關(guān)輿情數(shù)據(jù)的文本總數(shù)，ρi表示第i個所述相關(guān)輿情數(shù)據(jù)的局部密度值，dij表示第i個所述相關(guān)輿情數(shù)據(jù)與第j個所述相關(guān)輿情數(shù)據(jù)的文本相似值，且i不等于j，dc表示相似系數(shù)，且dc的取值范圍為n×1％至n×2％，δi表示第i個所述相關(guān)輿情數(shù)據(jù)的文本距離。在該技術(shù)方案中，由于目標(biāo)輿情數(shù)據(jù)位于數(shù)據(jù)分布相對密集的區(qū)域，因此，可以通過文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式計(jì)算出每個相關(guān)輿情數(shù)據(jù)(如每篇微博內(nèi)容)的文本局部密度值和/或文本距離值，從而確定出第一中心輿情數(shù)據(jù)，另外，由于在第一中心輿情數(shù)據(jù)周圍包括可能是目標(biāo)輿情數(shù)據(jù)的數(shù)據(jù)，因此，再次通過對文本局部密度值和/或文本距離值進(jìn)行分析，以確定在第一中心輿情數(shù)據(jù)周圍的第二中心輿情數(shù)據(jù)，從而可以準(zhǔn)確地確定目標(biāo)輿情數(shù)據(jù)，進(jìn)而提高了對海量數(shù)據(jù)的增量式聚類的效率和速度，另外，上述技術(shù)方案可以提供任意時間片斷上的快速有效地聚類結(jié)果，從而避免了產(chǎn)生局部片斷式的聚類結(jié)果。通過本發(fā)明的技術(shù)方案，通過對社交網(wǎng)站中的海量數(shù)據(jù)進(jìn)行增量式的聚類，不僅可以使聚類的處理速度可以達(dá)到實(shí)時性的要求，還可以調(diào)整聚類結(jié)果，從而避免了聚類出局部片斷式的聚類結(jié)果，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。附圖說明圖1示出了根據(jù)本發(fā)明的一個實(shí)施例的輿情數(shù)據(jù)聚類方法的流程示意圖；圖2示出了根據(jù)本發(fā)明的一個實(shí)施例的輿情數(shù)據(jù)聚類系統(tǒng)的結(jié)構(gòu)示意圖；圖3示出了根據(jù)本發(fā)明的另一個實(shí)施例的輿情數(shù)據(jù)聚類方法的流程示意圖。具體實(shí)施方式為了可以更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn)，下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是，在不沖突的情況下，本申請的實(shí)施例及實(shí)施例中的特征可以相互組合。在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明，但是，本發(fā)明還可以采用其他不同于在此描述的其他方式來實(shí)施，因此，本發(fā)明的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。圖1示出了根據(jù)本發(fā)明的一個實(shí)施例的輿情數(shù)據(jù)聚類方法的流程示意圖。如圖1所示，根據(jù)本發(fā)明的一個實(shí)施例的輿情數(shù)據(jù)聚類方法，包括：步驟102，對社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾，以獲取非冗余數(shù)據(jù)；步驟104，對所述非冗余數(shù)據(jù)進(jìn)行分析，以在所述非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù)；步驟106，對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類，以在所述相關(guān)輿情數(shù)據(jù)中確定目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中，由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù)，因此，首先對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾，從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性，并且在進(jìn)行冗余過濾得到非冗余數(shù)據(jù)之后，在對非冗余數(shù)據(jù)進(jìn)行分析時，在非冗余數(shù)據(jù)中發(fā)現(xiàn)大量的與聚類結(jié)果不相關(guān)的不相關(guān)輿情數(shù)據(jù)，因此，將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉，以在非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù)，從而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時可以提高聚類的效率和速度，即聚類的處理速度可以達(dá)到實(shí)時性的要求，進(jìn)而可以實(shí)時有效地發(fā)現(xiàn)社交網(wǎng)站中的輿情熱點(diǎn)話題，另外，上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類，同時還可以調(diào)整聚類結(jié)果，即避免了采用迭代的方案進(jìn)行聚類，從而避免了聚類出局部片斷式的聚類結(jié)果，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中，優(yōu)選地，步驟106具體包括：使用輿情熱度值預(yù)設(shè)公式對所述相關(guān)輿情數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，以確定所述相關(guān)輿情數(shù)據(jù)的輿情熱度值；根據(jù)所述輿情熱度值在所述相關(guān)輿情數(shù)據(jù)中確定第一中心輿情數(shù)據(jù)和第二中心輿情數(shù)據(jù)，并將所述第一中心輿情數(shù)據(jù)和所述第二中心輿情數(shù)據(jù)作為所述目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中，由于社交網(wǎng)站如微博有一定的字?jǐn)?shù)限制，則微博中所討論的話題比較單一或者比較集中，即很少出現(xiàn)話題漂移的現(xiàn)象，即在相關(guān)輿情數(shù)據(jù)中具有相同話題的數(shù)據(jù)分布相對密集(數(shù)據(jù)相似度比較高)，而具有不同話題的數(shù)據(jù)分布相對疏遠(yuǎn)(數(shù)據(jù)相似度比較低)，因此，可以使用輿情熱度值預(yù)設(shè)公式計(jì)算相關(guān)輿情數(shù)據(jù)的輿情熱度值來確定目標(biāo)輿情數(shù)據(jù)，輿情熱度值越高相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較密集，同時輿情熱度值越低相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較疏遠(yuǎn)，從而可以有效地提高了對海量數(shù)據(jù)進(jìn)行聚類的準(zhǔn)確性和效率，另外，上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類，同時還可以調(diào)整聚類結(jié)果，即避免了采用迭代的方案進(jìn)行聚類，從而避免了聚類出局部片斷式的聚類結(jié)果，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中，優(yōu)選地，步驟104具體包括：根據(jù)隨機(jī)森林算法和預(yù)設(shè)訓(xùn)練數(shù)據(jù)，建立隨機(jī)森林模型；根據(jù)所述隨機(jī)森林模型對所述非冗余數(shù)據(jù)進(jìn)行判別和分類，以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù)。在該技術(shù)方案中，通過建立的隨機(jī)森林模型對非冗余數(shù)據(jù)進(jìn)行判別和分類，以確定相關(guān)輿情數(shù)據(jù)，從而將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉，進(jìn)而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時有效地提高了聚類的速度和準(zhǔn)確率。在上述技術(shù)方案中，優(yōu)選地，步驟102具體包括：在所述當(dāng)前數(shù)據(jù)中確定原創(chuàng)數(shù)據(jù)，并在所述原創(chuàng)數(shù)據(jù)中獲取多個關(guān)鍵詞，以確定所述原創(chuàng)數(shù)據(jù)的關(guān)鍵詞向量；接收建立指令，建立所述原創(chuàng)數(shù)據(jù)的初始化向量，并根據(jù)所述關(guān)鍵詞向量將所述初始化向量轉(zhuǎn)化為數(shù)據(jù)指紋向量；根據(jù)所述數(shù)據(jù)指紋向量，對所述原創(chuàng)數(shù)據(jù)進(jìn)行冗余過濾，以確定所述非冗余數(shù)據(jù)。在該技術(shù)方案中，由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù)，如不同用戶對熱門微博內(nèi)容的重復(fù)發(fā)布，或水軍通過多個用戶名對微博內(nèi)容進(jìn)行炒作，因此，通過對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾，從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性，另外，面向海量當(dāng)前數(shù)據(jù)的文本消重，充分考慮到當(dāng)前數(shù)據(jù)的文本表示方式，從而有利于相似計(jì)算和減少內(nèi)存消耗。在上述技術(shù)方案中，優(yōu)選地，所述輿情熱度值預(yù)設(shè)公式包括文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式，以及所述輿情熱度值包括：所述文本局部密度值和/或文本距離值，其中，所述文本局部密度預(yù)設(shè)公式包括：ρi=Σj=1nχ(dij-dc)i,j∈[1,n]]]>χ(x)=1x<00x≥0]]>所述文本距離預(yù)設(shè)公式包括：δi=minρj>ρi(dij)]]>n表示所述相關(guān)輿情數(shù)據(jù)的文本總數(shù)，ρi表示第i個所述相關(guān)輿情數(shù)據(jù)的局部密度值，dij表示第i個所述相關(guān)輿情數(shù)據(jù)與第j個所述相關(guān)輿情數(shù)據(jù)的文本相似值，且i不等于j，dc表示相似系數(shù)，且dc的取值范圍為n×1％至n×2％，δi表示第i個所述相關(guān)輿情數(shù)據(jù)的文本距離。在該技術(shù)方案中，由于目標(biāo)輿情數(shù)據(jù)位于數(shù)據(jù)分布相對密集的區(qū)域，因此，可以通過文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式計(jì)算出每個相關(guān)輿情數(shù)據(jù)(如每篇微博內(nèi)容)的文本局部密度值和/或文本距離值，從而確定出第一中心輿情數(shù)據(jù)，另外，由于在第一中心輿情數(shù)據(jù)周圍包括可能是目標(biāo)輿情數(shù)據(jù)的數(shù)據(jù)，因此，再次通過對文本局部密度值和/或文本距離值進(jìn)行分析，以確定在第一中心輿情數(shù)據(jù)周圍的第二中心輿情數(shù)據(jù)，從而可以準(zhǔn)確地確定目標(biāo)輿情數(shù)據(jù)，進(jìn)而提高了對海量數(shù)據(jù)的增量式聚類的效率和速度，另外，上述技術(shù)方案可以提供任意時間片斷上的快速有效地聚類結(jié)果，從而避免了產(chǎn)生局部片斷式的聚類結(jié)果。圖2示出了根據(jù)本發(fā)明的一個實(shí)施例的輿情數(shù)據(jù)聚類系統(tǒng)的結(jié)構(gòu)示意圖。如圖2所示，根據(jù)本發(fā)明的一個實(shí)施例的輿情數(shù)據(jù)聚類系統(tǒng)200，包括：冗余過濾單元202，用于對社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾，以獲取非冗余數(shù)據(jù)；第一確定單元204，用于對所述非冗余數(shù)據(jù)進(jìn)行分析，以在所述非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù)；聚類單元206，用于對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類，以在所述相關(guān)輿情數(shù)據(jù)中確定目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中，由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù)，因此，首先對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾，從而避免了重復(fù)數(shù) 據(jù)對聚類結(jié)果的影響，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性，并且在進(jìn)行冗余過濾得到非冗余數(shù)據(jù)之后，在對非冗余數(shù)據(jù)進(jìn)行分析時，在非冗余數(shù)據(jù)中發(fā)現(xiàn)大量的與聚類結(jié)果不相關(guān)的不相關(guān)輿情數(shù)據(jù)，因此，將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉，以在非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù)，從而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時可以提高聚類的效率和速度，即聚類的處理速度可以達(dá)到實(shí)時性的要求，進(jìn)而可以實(shí)時有效地發(fā)現(xiàn)社交網(wǎng)站中的輿情熱點(diǎn)話題，另外，上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類，同時還可以調(diào)整聚類結(jié)果，即避免了采用迭代的方案進(jìn)行聚類，從而避免了聚類出局部片斷式的聚類結(jié)果，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中，優(yōu)選地，所述聚類單元206包括：統(tǒng)計(jì)單元2062，用于使用輿情熱度值預(yù)設(shè)公式對所述相關(guān)輿情數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，以確定所述相關(guān)輿情數(shù)據(jù)的輿情熱度值；第二確定單元2064，用于根據(jù)所述輿情熱度值在所述相關(guān)輿情數(shù)據(jù)中確定第一中心輿情數(shù)據(jù)和第二中心輿情數(shù)據(jù)，并將所述第一中心輿情數(shù)據(jù)和所述第二中心輿情數(shù)據(jù)作為所述目標(biāo)輿情數(shù)據(jù)。在該技術(shù)方案中，由于社交網(wǎng)站如微博有一定的字?jǐn)?shù)限制，則微博中所討論的話題比較單一或者比較集中，即很少出現(xiàn)話題漂移的現(xiàn)象，即在相關(guān)輿情數(shù)據(jù)中具有相同話題的數(shù)據(jù)分布相對密集(數(shù)據(jù)相似度比較高)，而具有不同話題的數(shù)據(jù)分布相對疏遠(yuǎn)(數(shù)據(jù)相似度比較低)，因此，可以使用輿情熱度值預(yù)設(shè)公式計(jì)算相關(guān)輿情數(shù)據(jù)的輿情熱度值來確定目標(biāo)輿情數(shù)據(jù)，輿情熱度值越高相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較密集，同時輿情熱度值越低相關(guān)輿情數(shù)據(jù)的數(shù)據(jù)分布相對就比較疏遠(yuǎn)，從而可以有效地提高了對海量數(shù)據(jù)進(jìn)行聚類的準(zhǔn)確性和效率，另外，上述技術(shù)方案支持對海量數(shù)據(jù)進(jìn)行增量式地聚類，同時還可以調(diào)整聚類結(jié)果，即避免了采用迭代的方案進(jìn)行聚類，從而避免了聚類出局部片斷式的聚類結(jié)果，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在上述技術(shù)方案中，優(yōu)選地，所述第一確定單元204包括：建立單元2042，用于根據(jù)隨機(jī)森林算法和預(yù)設(shè)訓(xùn)練數(shù)據(jù)，建立隨機(jī)森林模型；所述第一確定單元204具體用于：根據(jù)所述隨機(jī)森林模型對所述非冗余數(shù)據(jù)進(jìn) 行判別和分類，以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù)。在該技術(shù)方案中，通過建立的隨機(jī)森林模型對非冗余數(shù)據(jù)進(jìn)行判別和分類，以確定相關(guān)輿情數(shù)據(jù)，從而將不相關(guān)輿情數(shù)據(jù)從非冗余數(shù)據(jù)中過濾掉，進(jìn)而在對相關(guān)輿情數(shù)據(jù)進(jìn)行聚類時有效地提高了聚類的速度和準(zhǔn)確率。在上述技術(shù)方案中，優(yōu)選地，所述冗余過濾單元202包括：第三確定單元2022，用于在所述當(dāng)前數(shù)據(jù)中確定原創(chuàng)數(shù)據(jù)，并在所述原創(chuàng)數(shù)據(jù)中獲取多個關(guān)鍵詞，以確定所述原創(chuàng)數(shù)據(jù)的關(guān)鍵詞向量；轉(zhuǎn)化單元2024，用于接收建立指令，建立所述原創(chuàng)數(shù)據(jù)的初始化向量，并根據(jù)所述關(guān)鍵詞向量將所述初始化向量轉(zhuǎn)化為數(shù)據(jù)指紋向量；所述第三確定單元2022具體用于：根據(jù)所述數(shù)據(jù)指紋向量，對所述原創(chuàng)數(shù)據(jù)進(jìn)行冗余過濾，以確定所述非冗余數(shù)據(jù)。在該技術(shù)方案中，由于在社交網(wǎng)站(如微博)中的當(dāng)前數(shù)據(jù)中存在大量的重復(fù)數(shù)據(jù)，如不同用戶對熱門微博內(nèi)容的重復(fù)發(fā)布，或水軍通過多個用戶名對微博內(nèi)容進(jìn)行炒作，因此，通過對當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾，從而避免了重復(fù)數(shù)據(jù)對聚類結(jié)果的影響，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性，另外，面向海量當(dāng)前數(shù)據(jù)的文本消重，充分考慮到當(dāng)前數(shù)據(jù)的文本表示方式，從而有利于相似計(jì)算和減少內(nèi)存消耗。在上述技術(shù)方案中，優(yōu)選地，所述輿情熱度值預(yù)設(shè)公式包括文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式，以及所述輿情熱度值包括：所述文本局部密度值和/或文本距離值，其中，所述文本局部密度預(yù)設(shè)公式包括：ρi=Σj=1nχ(dij-dc)i,j∈[1,n]]]>χ(x)=1x<00x≥0]]>所述文本距離預(yù)設(shè)公式包括：δi=minρj>ρi(dij)]]>n表示所述相關(guān)輿情數(shù)據(jù)的文本總數(shù)，ρi表示第i個所述相關(guān)輿情數(shù)據(jù)的局部密度值，dij表示第i個所述相關(guān)輿情數(shù)據(jù)與第j個所述相關(guān)輿情數(shù)據(jù)的文本相似值，且i不等于j，dc表示相似系數(shù)，且dc的取值范圍為n×1％至n×2％，δi表示第i個所述相關(guān)輿情數(shù)據(jù)的文本距離。在該技術(shù)方案中，由于目標(biāo)輿情數(shù)據(jù)位于數(shù)據(jù)分布相對密集的區(qū)域，因此，可以通過文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式計(jì)算出每個相關(guān)輿情數(shù)據(jù)(如每篇微博內(nèi)容)的文本局部密度值和/或文本距離值，從而確定出第一中心輿情數(shù)據(jù)，另外，由于在第一中心輿情數(shù)據(jù)周圍包括可能是目標(biāo)輿情數(shù)據(jù)的數(shù)據(jù)，因此，再次通過對文本局部密度值和/或文本距離值進(jìn)行分析，以確定在第一中心輿情數(shù)據(jù)周圍的第二中心輿情數(shù)據(jù)，從而可以準(zhǔn)確地確定目標(biāo)輿情數(shù)據(jù)，進(jìn)而提高了對海量數(shù)據(jù)的增量式聚類的效率和速度，另外，上述技術(shù)方案可以提供任意時間片斷上的快速有效地聚類結(jié)果，從而避免了產(chǎn)生局部片斷式的聚類結(jié)果。圖3示出了根據(jù)本發(fā)明的另一個實(shí)施例的輿情數(shù)據(jù)聚類方法的流程示意圖。如圖3所示，根據(jù)本發(fā)明的另一個實(shí)施例的輿情數(shù)據(jù)聚類方法，包括：步驟302，基于數(shù)據(jù)指紋向量的冗余數(shù)據(jù)過濾，具體地，通過對海量的社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)如微博數(shù)據(jù)進(jìn)行分析，發(fā)現(xiàn)存在大量的重復(fù)數(shù)據(jù)，如不同用戶對熱門微博內(nèi)容的重復(fù)發(fā)布，又如水軍通過多個用戶對微博內(nèi)容進(jìn)行炒作，這些重復(fù)數(shù)據(jù)對聚類結(jié)果有較大的影響，而且面向海量的微博數(shù)據(jù)的消重，需要充分考慮到微博數(shù)據(jù)的文本表示方式，有利于相似計(jì)算及減少內(nèi)存消耗。基于simhash指紋信息的冗余數(shù)據(jù)過濾步驟為：1.在微博中采集海量的微博數(shù)據(jù)，在微博數(shù)據(jù)中過濾出原創(chuàng)微博數(shù)據(jù)；2.對原創(chuàng)微博數(shù)據(jù)進(jìn)行分詞并提取關(guān)鍵詞，因此一篇原創(chuàng)微博數(shù)據(jù)由一組關(guān)鍵詞向量組成；3.初始化一個64維的向量V(初始化向量)，初始化元素值為0；4.對于關(guān)鍵詞向量中的每一個關(guān)鍵詞，利用hash算法映射為一個64維的向量，如果該向量的第i維為1，則向量V上對應(yīng)的第i維加1，否則減1；5.對關(guān)鍵詞向量中每個關(guān)鍵詞迭代上述4過程；6.如果向量V的第i維為正數(shù)，則化為1，如果向量V的第i維為負(fù)數(shù)，則化為0，至此，將向量V轉(zhuǎn)化為一個64位的由01組成的數(shù)據(jù)指紋向量。7.對原創(chuàng)微博數(shù)據(jù)迭代上述3-6過程，將每篇原創(chuàng)微博數(shù)據(jù)都會轉(zhuǎn)化為一個64位的數(shù)據(jù)指紋向量。8.對具有相同的數(shù)據(jù)指紋向量的原創(chuàng)微博數(shù)據(jù)進(jìn)行冗余過濾，以確定非冗余數(shù)據(jù)。步驟304，基于自動分類的不相關(guān)輿情數(shù)據(jù)過濾，具體如下所示：通過對非冗余數(shù)據(jù)進(jìn)行分析，發(fā)現(xiàn)存在大量的非輿情數(shù)據(jù)，對非冗余數(shù)據(jù)進(jìn)行分類可以包括大量類別，如IT、人文藝術(shù)、傳媒、體育、健康、動漫、女性、娛樂、廣告公共、房產(chǎn)、教育、文學(xué)出版、旅游、時尚、汽車、游戲、生活、美食、育兒、財(cái)經(jīng)等等，這些類別對于不同的輿情應(yīng)用，有些是重點(diǎn)輿情類別，而有些則是非輿情類別無需考慮?；陔S機(jī)森林的非輿情數(shù)據(jù)過濾步驟為：1.根據(jù)不同輿情應(yīng)用需求，建立分類體系，準(zhǔn)備預(yù)設(shè)訓(xùn)練數(shù)據(jù)，如垃圾類中包括廣告公共、游戲等，輿情無關(guān)類中包括時尚、美食、育兒等，輿情相關(guān)類中包括傳媒、房產(chǎn)、教育、財(cái)經(jīng)等。2.構(gòu)建大量的決策樹分類器；a)對于每一棵樹，從預(yù)設(shè)訓(xùn)練數(shù)據(jù)中有放回的隨機(jī)抽取出指定個數(shù)的數(shù)據(jù)樣本作為該棵樹的樣本子空間；b)對于每一個節(jié)點(diǎn)，從預(yù)設(shè)訓(xùn)練數(shù)據(jù)的原始屬性集中有放回的隨機(jī)抽取出指定個數(shù)的屬性形成該棵樹的特征子空間，通過采用經(jīng)典的C4.5算法計(jì)算每個特征屬性的分裂值，最后將最優(yōu)的結(jié)果作為該節(jié)點(diǎn)分裂的準(zhǔn)則；c)在每個樣本子空間上按上述節(jié)點(diǎn)分裂原則構(gòu)建一棵無需剪枝的決策樹。3.將這些決策樹分類器進(jìn)行集成投票表決。a)采用直接投票方式，每個分類器對文本進(jìn)行投票表決；b)對所有分類器的投票結(jié)果進(jìn)行統(tǒng)計(jì)決策。4.利用上述構(gòu)建的隨機(jī)森林模型對非冗余數(shù)據(jù)進(jìn)行分類，從而確定相關(guān)輿情數(shù)據(jù)。步驟306，基于核心點(diǎn)搜索的話題聚類，具體如下所示：通過對相關(guān)輿情數(shù)據(jù)分析發(fā)現(xiàn)，由于微博數(shù)據(jù)限制在140個字，因此一條微博數(shù)據(jù)中所討論的話題比較單一或者比較集中，相比長文本很少出現(xiàn)話題漂移現(xiàn)象，這種現(xiàn)象對于聚類來說，是非常有利的，即討論相同主題的相關(guān)輿情數(shù)據(jù)的分布相對集密，而討論不同主題的相關(guān)輿情數(shù)據(jù)的分布相對疏遠(yuǎn)，對于這種現(xiàn)象進(jìn)行算法描述，并支持對海量數(shù)據(jù)增量式計(jì)算方式。基于核心點(diǎn)搜索的話題聚類方法步驟為：1.對相關(guān)輿情數(shù)據(jù)進(jìn)行分詞并提取關(guān)鍵詞，因此一篇相關(guān)輿情數(shù)據(jù)由一組關(guān)鍵詞向量組成，從而為相關(guān)輿情數(shù)據(jù)建立一個向量空間模型。2.考慮到聚類中心(目標(biāo)輿情數(shù)據(jù))應(yīng)該位于數(shù)據(jù)密度分布高的區(qū)域，即聚類中心由一些局部密度比較低的相關(guān)輿情數(shù)據(jù)圍繞，有：a)通過文本局部密度預(yù)設(shè)公式計(jì)算第i個相關(guān)輿情數(shù)據(jù)的文本局部密度值ρi，即相關(guān)輿情數(shù)據(jù)的距離小于dc的個數(shù)，其中，文本局部密度預(yù)設(shè)公式包括：ρi=Σj=1nχ(dij-dc)i,j∈[1,n]]]>其中：χ(x)=1x<00x≥0]]>n表示相關(guān)輿情數(shù)據(jù)的文本總數(shù)，ρi表示第i個相關(guān)輿情數(shù)據(jù)的局部密度值，dij表示第i個相關(guān)輿情數(shù)據(jù)與第j個相關(guān)輿情數(shù)據(jù)的文本相似值，且i不等于j，dc表示相似系數(shù)，且dc的取值范圍為n×1％至n×2％，δi表示第i個相關(guān)輿情數(shù)據(jù)的文本距離。b)dc是一個超參數(shù)，表示計(jì)算第i個相關(guān)輿情數(shù)據(jù)的局部密度ρi的截?cái)嗑嚯x，根據(jù)相關(guān)輿情數(shù)據(jù)中每個相關(guān)輿情數(shù)據(jù)的鄰居數(shù)為相關(guān)輿情數(shù)據(jù)的文本總數(shù)的1％-2％，假設(shè)相關(guān)輿情數(shù)據(jù)的總數(shù)為n，偽代碼有：c)上述過程中Distance(i,j)表示在向量空間模型中計(jì)算兩個相關(guān)輿情數(shù)據(jù)之間的距離；3.考慮到聚類中心距離其他高局部的聚類中心的距離比較大，即一個聚類中心與另一個聚類中心應(yīng)該保持相對大的距離，使用文本距離預(yù)設(shè)公式計(jì)算第i個相關(guān)輿情數(shù)據(jù)到具有高局部密度的相關(guān)輿情數(shù)據(jù)(ρj，如果ρj＞ρi，則確定ρj為高局部密度的相關(guān)輿情數(shù)據(jù))的文本距離值δi，其中，文本距離預(yù)設(shè)公式包括：δi=minρj>ρi(dij)]]>4.對所有的相關(guān)輿情數(shù)據(jù)迭代上述2-3過程，即計(jì)算出所有相關(guān)輿情數(shù)據(jù)的文本局部密度值ρi和其到具有高局部密度的相關(guān)輿情數(shù)據(jù)的文本距離δi后，將計(jì)算得到的ρi和δi均按照從大到小排序，設(shè)置閥值M，確定ρi中前M個相關(guān)輿情數(shù)據(jù)與δi中前M個相關(guān)輿情數(shù)據(jù)中的交集數(shù)據(jù)，此交集數(shù)據(jù)即為聚類中心(第一中心輿情數(shù)據(jù))，并確定與聚類中心對應(yīng)的類別標(biāo)記；5.對于非聚類中心的相關(guān)輿情數(shù)據(jù)，按照ρi的排序的順序依次確定所屬類別，有：a)對于非聚類中心的相關(guān)輿情數(shù)據(jù)j，根據(jù)前述Distance(i,j)的計(jì)算結(jié)果將文本距離值按照從小到大排序；b)按照排序的順序，找到第一個被標(biāo)記類別的樣本數(shù)據(jù)(第二中心輿情數(shù)據(jù))；c)將此樣本數(shù)據(jù)的類別標(biāo)記，作為樣本數(shù)據(jù)j的類別標(biāo)記；d)按照ρi的排序，對所有非聚類中心的相關(guān)輿情數(shù)據(jù)j迭代上述a-c過程，最終沒有確定所屬類別的為孤點(diǎn)；上述1-3過程為此聚類算法的增量計(jì)算部分，即對海量數(shù)據(jù)增量的計(jì)算ρi與δi值，是實(shí)施聚類計(jì)算的基礎(chǔ)性依據(jù)，在此基礎(chǔ)上，根據(jù)上述4-5過程，可以提供任意時間片斷上的快速有效的聚類結(jié)果。以上結(jié)合附圖詳細(xì)說明了本發(fā)明的技術(shù)方案，通過對社交網(wǎng)站中的海量數(shù)據(jù)進(jìn)行增量式的聚類，不僅可以使聚類的處理速度可以達(dá)到實(shí)時性的要求，還可以調(diào)整聚類結(jié)果，從而避免了聚類出局部片斷式的聚類結(jié)果，進(jìn)而提高了聚類結(jié)果的準(zhǔn)確性。在本發(fā)明中，術(shù)語“第一”、“第二”、“第三”僅用于描述的目的，而不能理解為指示或暗示相對重要性；術(shù)語“多個”表示兩個或兩個以上。對于本領(lǐng)域的普通技術(shù)人員而言，可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭妍;于曉明;楊建武;
技術(shù)所有人：北大方正集團(tuán)有限公司;北京大學(xué);北京北大方正電子有限公司;
我是此專利的發(fā)明人

上一篇：一種設(shè)有推擠活塞的包裝軟管的制作方法與工藝
上一篇：一種滾輪式軟膏管輔助擠出裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

數(shù)據(jù)聚類方法相關(guān)技術(shù)

輿情數(shù)據(jù)采集系統(tǒng)相關(guān)技術(shù)

系統(tǒng)聚類方法相關(guān)技術(shù)

spss系統(tǒng)聚類方法相關(guān)技術(shù)

系統(tǒng)聚類分析方法相關(guān)技術(shù)

輿情監(jiān)測數(shù)據(jù)分類方法相關(guān)技術(shù)

數(shù)據(jù)聚類相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

輿情數(shù)據(jù)聚類方法和輿情數(shù)據(jù)聚類系統(tǒng)與流程