亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

輿情數(shù)據(jù)聚類方法和輿情數(shù)據(jù)聚類系統(tǒng)與流程

文檔序號:11830179閱讀:來源:國知局

技術(shù)特征:

1.一種輿情數(shù)據(jù)聚類方法,其特征在于,包括:

對社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,以獲取非冗余數(shù)據(jù);

對所述非冗余數(shù)據(jù)進(jìn)行分析,以在所述非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù);

對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類,以在所述相關(guān)輿情數(shù)據(jù)中確定目標(biāo)輿情數(shù)據(jù)。

2.根據(jù)權(quán)利要求1所述的輿情數(shù)據(jù)聚類方法,其特征在于,對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類,以在所述相關(guān)輿情數(shù)據(jù)中確定所述目標(biāo)輿情數(shù)據(jù),具體包括:

使用輿情熱度值預(yù)設(shè)公式對所述相關(guān)輿情數(shù)據(jù)進(jìn)行統(tǒng)計(jì),以確定所述相關(guān)輿情數(shù)據(jù)的輿情熱度值;

根據(jù)所述輿情熱度值在所述相關(guān)輿情數(shù)據(jù)中確定第一中心輿情數(shù)據(jù)和第二中心輿情數(shù)據(jù),并將所述第一中心輿情數(shù)據(jù)和所述第二中心輿情數(shù)據(jù)作為所述目標(biāo)輿情數(shù)據(jù)。

3.根據(jù)權(quán)利要求2所述的輿情數(shù)據(jù)聚類方法,其特征在于,對所述非冗余數(shù)據(jù)進(jìn)行分析,以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù),具體包括:

根據(jù)隨機(jī)森林算法和預(yù)設(shè)訓(xùn)練數(shù)據(jù),建立隨機(jī)森林模型;

根據(jù)所述隨機(jī)森林模型對所述非冗余數(shù)據(jù)進(jìn)行判別和分類,以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù)。

4.根據(jù)權(quán)利要求3所述的輿情數(shù)據(jù)聚類方法,其特征在于,對所述社交網(wǎng)絡(luò)中的所述當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,具體包括:

在所述當(dāng)前數(shù)據(jù)中確定原創(chuàng)數(shù)據(jù),并在所述原創(chuàng)數(shù)據(jù)中獲取多個(gè)關(guān)鍵詞,以確定所述原創(chuàng)數(shù)據(jù)的關(guān)鍵詞向量;

接收建立指令,建立所述原創(chuàng)數(shù)據(jù)的初始化向量,并根據(jù)所述關(guān)鍵詞向量將所述初始化向量轉(zhuǎn)化為數(shù)據(jù)指紋向量;

根據(jù)所述數(shù)據(jù)指紋向量,對所述原創(chuàng)數(shù)據(jù)進(jìn)行冗余過濾,以確定所述 非冗余數(shù)據(jù)。

5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的輿情數(shù)據(jù)聚類方法,其特征在于,所述輿情熱度值預(yù)設(shè)公式包括文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式,以及所述輿情熱度值包括:所述文本局部密度值和/或文本距離值,其中,所述文本局部密度預(yù)設(shè)公式包括:

<mrow> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>&chi;</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>ij</mi> </msub> <mo>-</mo> <msub> <mi>d</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <mo>[</mo> <mn>1</mn> <mo>,</mo> <mi>n</mi> <mo>]</mo> </mrow>

<mrow> <mi>&chi;</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mi>x</mi> <mo>&lt;</mo> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mi>x</mi> <mo>&GreaterEqual;</mo> <mn>0</mn> </mtd> </mtr> </mtable> </mfenced> </mrow>

所述文本距離預(yù)設(shè)公式包括:

<mrow> <msub> <mi>&delta;</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mi>min</mi> <mrow> <msub> <mi>&rho;</mi> <mi>j</mi> </msub> <mo>></mo> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> </mrow> </munder> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>ij</mi> </msub> <mo>)</mo> </mrow> </mrow>

n表示所述相關(guān)輿情數(shù)據(jù)的文本總數(shù),ρi表示第i個(gè)所述相關(guān)輿情數(shù)據(jù)的局部密度值,dij表示第i個(gè)所述相關(guān)輿情數(shù)據(jù)與第j個(gè)所述相關(guān)輿情數(shù)據(jù)的文本相似值,且i不等于j,dc表示相似系數(shù),且dc的取值范圍為n×1%至n×2%,δi表示第i個(gè)所述相關(guān)輿情數(shù)據(jù)的文本距離。

6.一種輿情數(shù)據(jù)聚類系統(tǒng),其特征在于,包括:

冗余過濾單元,用于對社交網(wǎng)絡(luò)中的當(dāng)前數(shù)據(jù)進(jìn)行冗余過濾,以獲取非冗余數(shù)據(jù);

第一確定單元,用于對所述非冗余數(shù)據(jù)進(jìn)行分析,以在所述非冗余數(shù)據(jù)中確定相關(guān)輿情數(shù)據(jù);

聚類單元,用于對所述相關(guān)輿情數(shù)據(jù)進(jìn)行聚類,以在所述相關(guān)輿情數(shù)據(jù)中確定目標(biāo)輿情數(shù)據(jù)。

7.根據(jù)權(quán)利要求6所述的輿情數(shù)據(jù)聚類系統(tǒng),其特征在于,所述聚類單元包括:

統(tǒng)計(jì)單元,用于使用輿情熱度值預(yù)設(shè)公式對所述相關(guān)輿情數(shù)據(jù)進(jìn)行統(tǒng)計(jì),以確定所述相關(guān)輿情數(shù)據(jù)的輿情熱度值;

第二確定單元,用于根據(jù)所述輿情熱度值在所述相關(guān)輿情數(shù)據(jù)中確定第一中心輿情數(shù)據(jù)和第二中心輿情數(shù)據(jù),并將所述第一中心輿情數(shù)據(jù)和所述第二中心輿情數(shù)據(jù)作為所述目標(biāo)輿情數(shù)據(jù)。

8.根據(jù)權(quán)利要求7所述的輿情數(shù)據(jù)聚類系統(tǒng),其特征在于,所述第 一確定單元包括:

建立單元,用于根據(jù)隨機(jī)森林算法和預(yù)設(shè)訓(xùn)練數(shù)據(jù),建立隨機(jī)森林模型;

所述第一確定單元具體用于:根據(jù)所述隨機(jī)森林模型對所述非冗余數(shù)據(jù)進(jìn)行判別和分類,以在所述非冗余數(shù)據(jù)中確定所述相關(guān)輿情數(shù)據(jù)。

9.根據(jù)權(quán)利要求8所述的輿情數(shù)據(jù)聚類系統(tǒng),其特征在于,所述冗余過濾單元包括:

第三確定單元,用于在所述當(dāng)前數(shù)據(jù)中確定原創(chuàng)數(shù)據(jù),并在所述原創(chuàng)數(shù)據(jù)中獲取多個(gè)關(guān)鍵詞,以確定所述原創(chuàng)數(shù)據(jù)的關(guān)鍵詞向量;

轉(zhuǎn)化單元,用于接收建立指令,建立所述原創(chuàng)數(shù)據(jù)的初始化向量,并根據(jù)所述關(guān)鍵詞向量將所述初始化向量轉(zhuǎn)化為數(shù)據(jù)指紋向量;

所述第三確定單元具體用于:根據(jù)所述數(shù)據(jù)指紋向量,對所述原創(chuàng)數(shù)據(jù)進(jìn)行冗余過濾,以確定所述非冗余數(shù)據(jù)。

10.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的輿情數(shù)據(jù)聚類系統(tǒng),其特征在于,所述輿情熱度值預(yù)設(shè)公式包括文本局部密度預(yù)設(shè)公式和/或文本距離預(yù)設(shè)公式,以及所述輿情熱度值包括:所述文本局部密度值和/或文本距離值,其中,所述文本局部密度預(yù)設(shè)公式包括:

<mrow> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>&chi;</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>ij</mi> </msub> <mo>-</mo> <msub> <mi>d</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <mo>[</mo> <mn>1</mn> <mo>,</mo> <mi>n</mi> <mo>]</mo> </mrow>

<mrow> <mi>&chi;</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mi>x</mi> <mo>&lt;</mo> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mi>x</mi> <mo>&GreaterEqual;</mo> <mn>0</mn> </mtd> </mtr> </mtable> </mfenced> </mrow>

所述文本距離預(yù)設(shè)公式包括:

<mrow> <msub> <mi>&delta;</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mi>min</mi> <mrow> <msub> <mi>&rho;</mi> <mi>j</mi> </msub> <mo>></mo> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> </mrow> </munder> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>ij</mi> </msub> <mo>)</mo> </mrow> </mrow>

n表示所述相關(guān)輿情數(shù)據(jù)的文本總數(shù),ρi表示第i個(gè)所述相關(guān)輿情數(shù)據(jù)的局部密度值,dij表示第i個(gè)所述相關(guān)輿情數(shù)據(jù)與第j個(gè)所述相關(guān)輿情數(shù)據(jù)的文本相似值,且i不等于j,dc表示相似系數(shù),且dc的取值范圍為n×1%至n×2%,δi表示第i個(gè)所述相關(guān)輿情數(shù)據(jù)的文本距離。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1