專利名稱:基于模糊聚類的網(wǎng)絡文本數(shù)據(jù)檢測方法
技術領域:
本發(fā)明涉及一種數(shù)據(jù)檢測方法,尤其是一種網(wǎng)絡文本數(shù)據(jù)的檢測方法。
背景技術:
網(wǎng)絡內容中有80%左右的信息是文本形式,所以對文本數(shù)據(jù)挖掘技術的研究成為 數(shù)據(jù)挖掘中的一個日益流行且十分重要的研究課題。網(wǎng)絡內容聚類是將網(wǎng)絡內容中相似的 文本分為一組的全自動處理過程,它是一個無監(jiān)督學習過程。聚類的目的是將物理或抽象 的對象,按對象間的相似性進行區(qū)分和分類。聚類方法按對數(shù)據(jù)劃分的形式可分為劃分時 有明確的邊界稱為硬劃分,即將數(shù)據(jù)劃分到一個確定的類;沒有明確的邊界的劃分稱為模 糊劃分,即將給定數(shù)據(jù)以隸屬度的形式表示屬于哪幾個類。 我國文本智能分類的研究起始于20世紀80年代,大體經(jīng)歷了可行性探討、輔助分 類系統(tǒng)、自動分類系統(tǒng)三個階段。中文文本分類還處于在試驗研究階段,正確分類率約為 70% -90%,正在逐漸向商業(yè)化的軟件應用靠攏,并已經(jīng)嘗試開發(fā)了一批自動分類系統(tǒng),例 如清華大學吳軍研制的自動分類系統(tǒng)、山西大學劉正瑛等人開發(fā)的金融自動分類系統(tǒng)、上
海交大的西風文本自動分類系統(tǒng)。如何找到合理的應用并且在實踐中逐步改善算法,提高 性能成為文本分類算法的當務之急。通過文獻檢索發(fā)現(xiàn),目前國內外常用的文本分類方法 大多數(shù)是基于文本內容的相似度對文本進行分類。諸如基于概念的文檔分類算法J-最近 鄰接參照分類算法(K-NN)、貝葉斯分類算法、基于語義網(wǎng)絡的概念推理網(wǎng)分類算法以及決 策樹和支持向量機(SVM)等方法?;谶@些方法的網(wǎng)絡內容分類系統(tǒng)大都是基于平面的分 類,即多采用基于詞或詞串信息的動態(tài)聚類方法和基于特征屬性的分類技術來實現(xiàn),挖掘 的深度不夠,執(zhí)行速度慢,聚類的準確度較低。
發(fā)明內容
為了克服現(xiàn)有技術挖掘的深度不夠、執(zhí)行速度慢、聚類的準確度較低等不足,本發(fā) 明提供一種基于模糊聚類的網(wǎng)絡文本數(shù)據(jù)檢測方法,能夠有效提高網(wǎng)絡安全審計中對于文 本分類的精度與可靠性,從而改善網(wǎng)絡內容中目標文本的獲取效率,實現(xiàn)網(wǎng)絡內容的智能 檢索。 本發(fā)明解決其技術問題所采用的技術方案是首先對提取的網(wǎng)絡內容進行預處 理;其次,對需要聚類的預處理后網(wǎng)絡內容進行特征提?。蝗缓?,對網(wǎng)絡內容進行聚類,設 定初始聚類數(shù)。在聚類過程中,一個聚類數(shù)對應一個隸屬度矩陣,每個隸屬度矩陣都有一個 平均信息熵值,平均信息熵基于密度函數(shù)選擇初始聚類中心,算法迭代過程中修改聚類數(shù), 當平均信息熵達到最小值時,所對應的聚類數(shù)為最佳聚類數(shù)。最后,將聚類結果返回給用 戶。
本發(fā)明具體包括以下步驟 (1)網(wǎng)絡內容預處理如果以原始的網(wǎng)絡內容作為特征向量提取的對象,那么,網(wǎng) 絡內容的特征向量維數(shù)會相當大,因此,必須進行降維的處理。降維的方法采用特征抽取方式,首先對原始的網(wǎng)絡文本進行分詞,然后,計算每個詞出現(xiàn)的頻率,刪除所有出現(xiàn)頻率超 過10的功能詞,從而降低網(wǎng)絡內容特征提取時所獲取特征向量的維度。由于特征向量維數(shù) 降低,不但能加快聚類算法計算的速度,而且還能提高分類結果的精度和避免重復匹配問 題。 (2)網(wǎng)絡內容特征提取應用向量空間模型作為網(wǎng)絡內容特征的表示方法。在該 模型中,網(wǎng)絡內容空間被看作是由一組正交詞條向量所組成的向量空間。所述的詞條向量 是指將每次捕獲到網(wǎng)絡流的網(wǎng)絡內容作為一篇網(wǎng)絡內容文檔,經(jīng)過步驟(1)的網(wǎng)絡內容預 處理后,將網(wǎng)絡內容文檔中的詞條項在整個網(wǎng)絡文檔中出現(xiàn)的頻次作為該詞條項的權重, 將所有的詞條項以及詞條項所占的權重作為網(wǎng)絡內容空間的一個特征向量。詞條向量表示 為V(d) = (ti,Wi(d) ;i = 1,2,...,n),其中,n表示降維和分詞后整個網(wǎng)絡文檔的詞條數(shù) 目,d表示此網(wǎng)絡文檔,ti為詞條項,Wi(d)為詞條在此網(wǎng)絡內容文檔中所占的權重,被定義 為ti在d中出現(xiàn)的頻率。 (3)模糊聚類現(xiàn)有技術的模糊聚類方法存在對孤立點數(shù)據(jù)比較敏感,須預先指 定聚類數(shù)目和模糊加權指數(shù)的缺陷。為降低孤立點對聚類結果的影響,本發(fā)明對數(shù)據(jù)對象 的隸屬度增加一個權值,使隸屬度的值高的數(shù)據(jù)對象對聚類中心位置的影響增大,隸屬度 小的數(shù)據(jù)對象降低它們對聚類中心的影響。模糊聚類的具體步驟如下 步驟l,設定初始聚類數(shù)為C,初始聚類數(shù)大于等于2即可,一般選取2 ;將迭代次 數(shù)b設置為零,并且選擇指數(shù)權重m和迭代停止閾值e ,指數(shù)權重m的選擇范圍在1. 5到 2. 5之間,在此方法中,選擇指數(shù)權重m為1. 9,迭代停止閾值e的選擇范圍在O. 1到O. 001 之間,在這里考慮到算法的執(zhí)行速度和聚類的精度,e選擇O.Ol。 步驟2,由于聚類結果受到初始聚類數(shù)目和初始聚類中心的影響,本發(fā)明采用 基于密度函數(shù)選擇初始聚類中心的方法。對于網(wǎng)絡內容空間中具有n個樣本的數(shù)據(jù)集
1
合X二 {Xi, i = L2, ...,1!},在^處的密度函數(shù)定義為"°)=5]
1 + A +/
其中,fd= l/rd2, rd為類密度有效鄰域半徑,r廣"^入Pllx,—x』,a與樣本集合分
布特性有關,取值范圍為[O,l],在鄰域半徑rd之外的數(shù)據(jù)點對A的密度的計算影響很 小。密度函數(shù)越大,表示在點A的周圍聚集的樣本點越多,說明點A處的密度越大,從 而D,)的值越高。令"= ^^!););/ = 1,2,...,"},^*是對應01*的樣本點,并且取為第一 個聚類中心。設"=maxCD廣、/ = 1,2,…,"),xk*是對應Dk*的樣本點,k = 1, 2, , c-l,
<formula>formula see original document page 5</formula>XkM乍為第k個初始聚類中心。 步驟3,計算隸屬度。通過公式^ (4)'"—、十算隸屬度。其中,Uijb為在第<formula>formula see original document page 5</formula>
次迭代中樣本j屬于類i的隸屬度,b為迭代次數(shù),m為指數(shù)權重,c為聚類數(shù),表示第j 個元素到第i個聚類中心的歐式距離。為降低孤立點對聚類結果的影響,對計算獲取隸屬 度增加一個權值,形成新的隸屬度,使隸屬度值高的數(shù)據(jù)對象對聚類中心位置的影響增大, 對于隸屬度小的數(shù)據(jù)對象則降低它們對聚類中心的影響。隸屬度的改進公式為改進后的隸屬度^;=為,,.+(1-義)《"的取值為[O,l], A取值與聚類精度和算法執(zhí)行速度有關,使
用時可以根據(jù)聚類的精度和聚類時間進行調整。當A = 1時,"J = Uij,當Uij = 0, "J = O,當Uij = l,Uij = 1。在[O,l]區(qū)間的隸屬度在改進后有一定程度的減少。在算法迭代過 程中,隸屬度值越小,改進后隸屬度相應減少地越明顯,隸屬度小的數(shù)據(jù)對象對聚類中心的 影響降低了 ;隸屬度越大,改進后的隸屬度相應減少的較小,這樣就相對的提高隸屬度值高 的數(shù)據(jù)對象對于聚類的中心位置的影響。 步驟4,更新聚類中心。根據(jù)上述計算的隸屬度Uij以及通過權值形成的改進后隸 屬度"J對聚類中心進行更新,更新公式為C廣=-" , i = 1, 2, . . . , c, 為
更新后的聚類中心,m為權重指數(shù)。并且通過lcf -C,6+1| < e判定迭代停止閾值的條件是否
滿足,如果滿足,輸出隸屬度矩陣和形成的聚類中心,否則令b = b+l,并轉向步驟3。
步驟5,本發(fā)明以隸屬度的平均信息熵作為評判聚類數(shù)目的標準,平均信息熵的定
義為H:ttkx斷"》+ (1 —"》><16(1-""]/+其中,0為設定的初始聚類數(shù)目,11為聚
類的樣本數(shù)目,b為迭代次數(shù),Uij為樣本j屬于類i的隸屬度,I表示熵的計算。當平均信
息熵達到最小值時,所對應的聚類數(shù)即為最佳聚類數(shù)。以步驟4的輸出為輸入,按照上述的
最佳聚類數(shù)的評判標準判定是否滿足,如果滿足聚類數(shù)評判標準,聚類過程結束,保存最終
聚類數(shù)目c以及聚類中心Ci, i = 1,2...c,。否則,令c = c+l并轉向步驟2。 (4)聚類結果輸出。將聚類結果返回給用戶,聚類結果包括聚類中心的數(shù)目以及聚
類中心。 本發(fā)明的有益效果是本發(fā)明是在性能良好的網(wǎng)絡內容特征提取技術、基于密度 函數(shù)獲取初始聚類中心技術、優(yōu)化的隸屬度計算技術以及聚類數(shù)的評判標準確定技術的基 礎上研發(fā)的。與已有的相應技術相比,該技術具有高效的智能聚類效果,并且可以根據(jù)應用 的不同,調整聚類的精度,兼顧聚類的速度。
下面結合實施例對本發(fā)明進一步說明。
具體實施例方式
本發(fā)明具有網(wǎng)絡內容預處理、網(wǎng)絡內容特征提取、模糊聚類以及聚類結果輸出四
個部分的功能。其中網(wǎng)絡內容預處理完成對多維的網(wǎng)絡內容文檔特征向量進行降維處理,
進行特征抽取;網(wǎng)絡內容特征提取完成對所捕獲網(wǎng)絡流中網(wǎng)絡內容的處理,包括網(wǎng)絡內容
文檔的建立,文檔的特征向量表示;模糊聚類是本發(fā)明的核心,采用基于密度函數(shù)選擇初始
聚類中心,平均信息熵作為評判聚類數(shù)目的標準,設定初始聚類數(shù),在算法的迭代過程修改
聚類數(shù),當平均信息熵達到最小值時的聚類數(shù)即為最佳聚類數(shù),完成對網(wǎng)絡內容文檔的聚
類。聚類結果輸出將聚類結果返回給用戶,包括聚類中心的數(shù)目以及類別信息。 基于本發(fā)明開發(fā)了原型系統(tǒng),該系統(tǒng)執(zhí)行包括以下步驟網(wǎng)絡內容預處理、網(wǎng)絡內
容特征提取、設定初始聚類參數(shù)、選擇初始聚類中心、隸屬度計算、聚類中心更新、聚類結果
評價以及聚類結果輸出。
6
本發(fā)明具體包括以下步驟 第一步,將待聚類的網(wǎng)絡內容分割成1000篇文本,對每篇文檔進行標點分析, 把它們分成單句;并刪除出現(xiàn)頻率超過10次的功能詞,對每個單句利用文本分析工具 PatCount對其中每個詞進行詞法分析,對每個單句利用n-gram方法得到所有由三個以內 詞組成的詞條短語,在這里n-gram方法所述的n為3。 第二步,應用向量空間模型作為網(wǎng)絡內容特征的表示方法,將網(wǎng)絡內容文檔中的 詞條項在整個網(wǎng)絡文檔中出現(xiàn)的頻次作為該詞條項的權重,將所有的詞條項以及詞條項所 占的權重作為網(wǎng)絡內容空間的一個特征向量。統(tǒng)計所獲取的詞條短語數(shù)目以及各詞條短語 在網(wǎng)絡文本中出現(xiàn)的頻次,將1000篇經(jīng)過第一步處理過的網(wǎng)絡文本表示成文本向量,由此 組成維數(shù)為3768的網(wǎng)絡文本特征向量V(d) = (ti,Wi(d) ;i = 1,2,. . . ,3768),d表示1000 篇網(wǎng)絡文檔集合,ti為集合當中的一個詞條項,Wi(d)為此詞條在此網(wǎng)絡內容文檔中所占的 權重,被定義為ti在d中出現(xiàn)頻率。
第三步包含以下步驟 步驟1 :設定初始的聚類數(shù)為2,將迭代次數(shù)設置為0,并且選擇指數(shù)權重為1. 9和 迭代停止閾值為0. 01 ; 步驟2 :根據(jù)上述設定的初始聚類數(shù),以3768維的網(wǎng)絡文本特征向量為輸入計算 2個初始的聚類中心。對于網(wǎng)絡內容空間中具有3768個樣本的數(shù)據(jù)集合X二 {Xl, 1 = 1,
2, . . , 3768},在Xl處的密度函數(shù)定義為:D)。) = Z 類密度有效鄰域半徑,。
'其中,fd二 1/r/,rd為
1
3768 3768
—A V X, — 2 "1 /=1 11
a與樣本集合分布特性有關,在這里取為
0. 9。令A' = max{D,°;/ = 1,2,...,3768} , Xl*是對應的樣本點,并且取為第一個聚類中心
n, ,w , n""、 x/是對應D/的樣本點,"卜",—"~~rl
為第2個初始聚類中心。
設
作 步驟3
》—
十算隸屬度,通過公式^
1.9-1
》—
十算隸屬度。其中,Ui,b為在
第b次迭代中樣本j屬于類i的隸屬度,b為迭代次數(shù),C為聚類數(shù),dij表示第j個元素
到第i個聚類中心的歐式距離。為降低孤立點對聚類結果的影響,對計算獲取的數(shù)據(jù)對 象的隸屬度增加一個權值,形成新的隸屬度,使隸屬度值高的數(shù)據(jù)對象對聚類中心位置的
影響增大,對于隸屬度小的數(shù)據(jù)對象則降低它們對聚類中心的影響,改進隸屬度公式為 =義 + (1 - AK),這里A取值0. 8 。 步驟4 :根據(jù)上述計算的隸屬度以及通過權值形成的新的隸屬度對聚類中心進行 更新,判斷本次更新的聚類中心和上一次聚類中心的差是否小于迭代停止閾值,如果滿足, 輸出隸屬度矩陣和形成的聚類中心,否則,迭代次數(shù)加1,跳轉到步驟3重新計算隸屬度,循 環(huán)上述過程。本次試驗中的上述循環(huán)過程執(zhí)行3次,執(zhí)行時間1分鐘; 步驟5 :以步驟4的輸出為輸入,計算平均信息熵是否最小,如果最小,此時獲得的 聚類數(shù)目為當前的聚類數(shù)減l,聚類過程結束,保存最終聚類數(shù)目c以及聚類中心Ci,i = 1,2. . . ,c。否則轉向步驟2,并且給當前的聚類數(shù)加l,重新計算初始的聚類中心,循環(huán)上述過 程,本次試驗的上述循環(huán)過程執(zhí)行4次,執(zhí)行時間為4分鐘。 第四步,將聚類結果返回給用戶,包括聚類中心的數(shù)目以及各個聚類中心。本實施 例獲取的聚類數(shù)為5,各個聚類中心類別分別是計算機、金融、交通、體育以及軍事五大類。
本方法經(jīng)過原型系統(tǒng)的具體實施,效果較好。采用基于密度函數(shù)選擇初始聚類中 心,平均信息熵作為評判聚類數(shù)目的標準,在算法的迭代過程修改聚類數(shù),當平均信息熵達 到最小值時的聚類數(shù)即為最佳聚類數(shù),完成對網(wǎng)絡內容文檔的聚類。這些方法的使用使得 分類的準確性有了較大的提高,并且在執(zhí)行的速度方面也有一定的改善。
權利要求
基于模糊聚類的網(wǎng)絡文本數(shù)據(jù)檢測方法,其特征在于包括下述步驟(1)首先對原始的網(wǎng)絡文本進行分詞,然后計算每個詞出現(xiàn)的頻率,刪除所有出現(xiàn)頻率超過10的功能詞;(2)應用向量空間模型作為網(wǎng)絡內容特征的表示方法,將網(wǎng)絡內容文檔中的詞條項在整個網(wǎng)絡文檔中出現(xiàn)的頻次作為該詞條項的權重,將所有的詞條項以及詞條項所占的權重作為網(wǎng)絡內容空間的一個特征向量,將網(wǎng)絡內容空間作為一組正交詞條向量所組成的向量空間;詞條向量V(d)=(ti,wi(d);i=1,2,...,n),其中,n表示降維和分詞后整個網(wǎng)絡文檔的詞條數(shù)目,d表示此網(wǎng)絡文檔,ti為詞條項,wi(d)為詞條在此網(wǎng)絡內容文檔中所占的權重;(3)對網(wǎng)絡內容進行模糊聚類,具體步驟如下步驟1,設定初始聚類數(shù)C,C≥2;將迭代次數(shù)b設置為零,并且選擇指數(shù)權重m和迭代停止閾值ε,m在1.5到2.5之間,ε在0.1到0.001之間;步驟2,對于網(wǎng)絡內容空間中具有n個樣本的數(shù)據(jù)集合X={xl,l=1,2,...,n},在xl處的密度函數(shù)定義為 <mrow><msubsup> <mi>D</mi> <mi>l</mi> <mn>0</mn></msubsup><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>k</mi><mo>=</mo><mn>1</mn> </mrow> <mi>n</mi></munderover><mfrac> <mn>1</mn> <mrow><mn>1</mn><mo>+</mo><msub> <mi>f</mi> <mi>d</mi></msub><mo>·</mo><msup> <mrow><mo>|</mo><mo>|</mo><msub> <mi>x</mi> <mi>l</mi></msub><mo>-</mo><msub> <mi>x</mi> <mi>k</mi></msub><mo>|</mo><mo>|</mo> </mrow> <mn>2</mn></msup> </mrow></mfrac><mo>,</mo> </mrow>其中,fd=1/rd2,rd為類密度有效鄰域半徑,α取值范圍為
;令 <mrow><msubsup> <mi>D</mi> <mn>1</mn> <mo>*</mo></msubsup><mo>=</mo><mi>max</mi><mo>{</mo><msubsup> <mi>D</mi> <mi>l</mi> <mn>0</mn></msubsup><mo>;</mo><mi>l</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>n</mi><mo>}</mo><mo>,</mo> </mrow>xl*是對應Dl*的樣本點,并且取為第一個聚類中心;設 <mrow><msubsup> <mi>D</mi> <mi>k</mi> <mo>*</mo></msubsup><mo>=</mo><mi>max</mi><mrow> <mo>(</mo> <msubsup><mi>D</mi><mi>l</mi><mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn></mrow> </msubsup> <mo>;</mo> <mi>l</mi> <mo>=</mo> <mn>1,2</mn> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <mi>n</mi> <mo>)</mo></mrow><mo>,</mo> </mrow>xk*是對應Dk*的樣本點,k=1,2,...,c-1, <mrow><msubsup> <mi>D</mi> <mi>l</mi> <mi>k</mi></msubsup><mo>=</mo><msubsup> <mi>D</mi> <mi>l</mi> <mrow><mi>k</mi><mo>-</mo><mn>1</mn> </mrow></msubsup><mo>-</mo><msubsup> <mi>D</mi> <mi>k</mi> <mo>*</mo></msubsup><mfrac> <mn>1</mn> <mrow><msub> <mi>f</mi> <mi>d</mi></msub><mo>·</mo><mo>|</mo><mo>|</mo><msub> <mi>x</mi> <mi>l</mi></msub><mo>-</mo><msubsup> <mi>x</mi> <mi>k</mi> <mo>*</mo></msubsup><mo>|</mo><mo>|</mo> </mrow></mfrac><mo>,</mo> </mrow>xk*作為第k個初始聚類中心;步驟3,通過公式 <mrow><msubsup> <mi>u</mi> <mi>ij</mi> <mi>b</mi></msubsup><mo>=</mo><mn>1</mn><mo>/</mo><munderover> <mi>Σ</mi> <mrow><mi>k</mi><mo>=</mo><mn>1</mn> </mrow> <mi>c</mi></munderover><msup> <mrow><mo>(</mo><mfrac> <msubsup><mi>d</mi><mi>ij</mi><mi>b</mi> </msubsup> <msubsup><mi>d</mi><mi>kj</mi><mi>b</mi> </msubsup></mfrac><mo>)</mo> </mrow> <mfrac><mn>2</mn><mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn></mrow> </mfrac></msup> </mrow>計算隸屬度,其中uijb為在第b次迭代中樣本j屬于類i的隸屬度,c為聚類數(shù),dij表示第j個元素到第i個聚類中心的歐式距離;對計算獲取隸屬度增加一個權值,形成新的隸屬度,改進后的隸屬度 <mrow><msub> <mi>U</mi> <mi>ij</mi></msub><mo>=</mo><mi>λ</mi><msub> <mi>u</mi> <mi>ij</mi></msub><mo>+</mo><mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>λ</mi> <mo>)</mo></mrow><msubsup> <mi>u</mi> <mi>ij</mi> <mn>2</mn></msubsup><mo>,</mo> </mrow>λ的取值為
;步驟4,根據(jù)上述計算的隸屬度uij以及通過權值形成的改進后隸屬度Uij對聚類中心進行更新,更新后的聚類中心 <mrow><msubsup> <mi>C</mi> <mi>i</mi> <mrow><mi>b</mi><mo>+</mo><mn>1</mn> </mrow></msubsup><mo>=</mo><mfrac> <mrow><munderover> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>n</mi></munderover><msup> <mrow><mo>(</mo><msubsup> <mi>U</mi> <mi>ij</mi> <mrow><mi>b</mi><mo>+</mo><mn>1</mn> </mrow></msubsup><mo>)</mo> </mrow> <mi>m</mi></msup><mo>·</mo><msub> <mi>x</mi> <mi>j</mi></msub> </mrow> <mrow><munderover> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>n</mi></munderover><msup> <mrow><mo>(</mo><msubsup> <mi>U</mi> <mi>ij</mi> <mrow><mi>b</mi><mo>+</mo><mn>1</mn> </mrow></msubsup><mo>)</mo> </mrow> <mi>m</mi></msup> </mrow></mfrac><mo>,</mo> </mrow>i=1,2,...,c,并且判定迭代停止閾值的條件 <mrow><msubsup> <mi>C</mi> <mi>i</mi> <mi>b</mi></msubsup><mo>-</mo><msubsup> <mi>C</mi> <mi>i</mi> <mrow><mi>b</mi><mo>+</mo><mn>1</mn> </mrow></msubsup><mo>|</mo><mo>|</mo><mo><</mo><mi>ϵ</mi> </mrow>是否滿足,如果滿足,輸出隸屬度矩陣和形成的聚類中心,否則令b=b+1,并轉向步驟3;步驟5,計算平均信息熵 <mrow><mi>H</mi><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>C</mi></munderover><munderover> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>n</mi></munderover><mo>{</mo><mo>[</mo><msub> <mi>u</mi> <mi>ij</mi></msub><mo>×</mo><mi>Ib</mi><mrow> <mo>(</mo> <msub><mi>u</mi><mi>ij</mi> </msub> <mo>)</mo></mrow><mo>+</mo><mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub><mi>u</mi><mi>ij</mi> </msub> <mo>)</mo></mrow><mo>×</mo><mi>Ib</mi><mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub><mi>u</mi><mi>ij</mi> </msub> <mo>)</mo></mrow><mo>]</mo><mo>/</mo><mi>n</mi><mo>}</mo><mo>,</mo> </mrow>其中I表示熵的計算;以步驟4的輸出為輸入,當平均信息熵達到最小值時,所對應的聚類數(shù)即為最佳聚類數(shù),聚類過程結束,保存最終聚類數(shù)目c以及聚類中心Ci,i=1,2...,c;否則,令c=c+1并轉向步驟2;(4)將聚類結果返回給用戶,聚類結果包括聚類中心的數(shù)目以及聚類中心。F2009102194392C00013.tif
2. 根據(jù)權利要求1所述的基于模糊聚類的網(wǎng)絡文本數(shù)據(jù)檢測方法,其特征在于所述的初始聚類數(shù)C選取為2。
3. 根據(jù)權利要求1所述的基于模糊聚類的網(wǎng)絡文本數(shù)據(jù)檢測方法,其特征在于所述的選擇指數(shù)權重m為1. 9,迭代停止閾值e選擇0. 01 。
全文摘要
本發(fā)明公開了一種基于模糊聚類的網(wǎng)絡文本數(shù)據(jù)檢測方法,先對提取的網(wǎng)絡內容進行預處理;對需要聚類的預處理后網(wǎng)絡內容進行特征提取后對網(wǎng)絡內容進行聚類,設定初始聚類數(shù)。在聚類過程中,一個聚類數(shù)對應一個隸屬度矩陣,每個隸屬度矩陣都有一個平均信息熵值,平均信息熵基于密度函數(shù)選擇初始聚類中心,算法迭代過程中修改聚類數(shù),當平均信息熵達到最小值時,所對應的聚類數(shù)為最佳聚類數(shù)。最后將聚類結果返回給用戶。本發(fā)明具有高效的智能聚類效果,并且可以根據(jù)應用的不同,調整聚類的精度,兼顧聚類的速度。
文檔編號G06F17/30GK101763404SQ200910219439
公開日2010年6月30日 申請日期2009年12月10日 優(yōu)先權日2009年12月10日
發(fā)明者楊宗良, 王磊, 王禮, 趙安軍 申請人:陜西鼎泰科技發(fā)展有限責任公司