亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于一致性聚類的Web文本分類方法

文檔序號:6583833閱讀:780來源:國知局
專利名稱:一種基于一致性聚類的Web文本分類方法
技術(shù)領(lǐng)域
本發(fā)明涉及文本分類方法,特別是基于一致性聚類的文本分類方法,屬于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和商務(wù)智能領(lǐng)域,特別針對海量、異質(zhì)、高維數(shù)據(jù)聚類,并可用于知識融合和知識重用。
背景技術(shù)
文本數(shù)據(jù)作為重要的信息載體之一,尤其是隨著互聯(lián)網(wǎng)的普及和流行,正以驚人的速度增長。如何從這些龐雜的信息中快速有效地尋找滿足需要的信息對人們來說是一個(gè)巨大的挑戰(zhàn)。文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠很大程度上解決信息爆炸和信息雜亂所帶來的問題?;谕愇臋n相似程度大,不同類的文檔相似程度低的假設(shè),文本分類目標(biāo)是將一組文檔分成多個(gè)簇,使得相同的簇內(nèi)的文檔具有較高的相似程度,不同簇的文檔差別較大。由于無法獲得類別標(biāo)簽,文本分類的本質(zhì)屬于聚類分析技術(shù)。然而文本數(shù)據(jù)具有海量、高維、稀疏等特點(diǎn),使得單一的傳統(tǒng)聚類算法在面對文本數(shù)據(jù)時(shí),不僅表現(xiàn)不佳,而且運(yùn)行耗時(shí)巨大。特別是隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)媒體作為一種新的信息傳播形式,已深入人們的日常生活。網(wǎng)友言論活躍已達(dá)到前所未有的程度,不論是國內(nèi)還是國際重大事件,都能馬上形成網(wǎng)上輿論,通過網(wǎng)絡(luò)來表達(dá)觀點(diǎn)、傳播思想,進(jìn)而產(chǎn)生巨大的輿論壓力,達(dá)到任何部門、機(jī)構(gòu)都無法忽視的地步??梢哉f,互聯(lián)網(wǎng)已成為思想文化信息的集散地和社會(huì)輿論的放大器。因此需要從網(wǎng)絡(luò)信息采集系統(tǒng)從互聯(lián)網(wǎng)上采集新聞、論壇、博客、評論等輿情信息,存儲(chǔ)到采集信息數(shù)據(jù)庫中,再通過輿情分析引擎負(fù)責(zé)對采集信息進(jìn)行清洗、智能研判和加工,分析結(jié)果保存在輿情成果庫中。輿情分析引擎依賴于智能分析技術(shù)和輿情知識庫,其基礎(chǔ)就是文本的聚類分析。

發(fā)明內(nèi)容
針對上述技術(shù)缺陷,本發(fā)明提出一種基于一致性聚類的Web文本分類方法。該方法以快速聚類法為核心,多次利用部分維度的文本數(shù)據(jù)獲得多個(gè)聚類結(jié)果,進(jìn)而利用一致性聚類方法最終獲得具有高魯棒性和高質(zhì)量的文本分類結(jié)果。利用部分維度有可能得到質(zhì)量較高的基礎(chǔ)聚類結(jié)果,從一定程度上克服由高維導(dǎo)致的劣解;多個(gè)基礎(chǔ)聚類結(jié)果通過一致性聚類方法進(jìn)行組合提高結(jié)果的魯棒性。一種基于一致性聚類的Web文本聚類方法,包括如下步驟步驟1:收集互聯(lián)網(wǎng)上的文本數(shù)據(jù)。步驟2 :將文本數(shù)據(jù)進(jìn)行分詞處理。步驟3:停用詞移除。步驟4:詞干提取。步驟5 :針對每一條文本數(shù)據(jù)生成向量空間模型,X = {x」I < I < n},n為文本數(shù)據(jù)的數(shù)量。
步驟6 :重復(fù)隨機(jī)抽取一定百分比維度的文本數(shù)據(jù),指定類別個(gè)數(shù),利用快速聚類法使用余弦相似度距離進(jìn)行聚類,得到基礎(chǔ)聚類結(jié)果。用^表示第i個(gè)基礎(chǔ)聚類結(jié)果,Ki表示^的類別個(gè)數(shù),則TI= l>i,…,^ii,…,^irI表示r個(gè)所有基礎(chǔ)聚類結(jié)果的集合。步驟7 :在基礎(chǔ)聚類結(jié)果上生成0-1 二元矩陣。用丨表示由上述基礎(chǔ)聚類結(jié)果得到的0-1 二元矩陣,b表示binary, n為樣本個(gè)數(shù),其生成方式如公式(I)所示
權(quán)利要求
1.一種基于一致性聚類的Web文本分類方法,其特征在于,包括以下步驟步驟一,輸入一段文字信息數(shù)據(jù),其中包括η個(gè)文本;步驟二,根據(jù)含有m個(gè)詞匯的預(yù)設(shè)詞庫,對η個(gè)文本進(jìn)行分詞處理;步驟三,根據(jù)每個(gè)文本中的分詞在詞庫中出現(xiàn)的次數(shù),制作每個(gè)文本的m維向量空間模型,η個(gè)文本組合在一起形成nXm的向量空間矩陣;步驟四,在nXm的向量空間矩陣中隨機(jī)提取nXm'的子矩陣,其中m'小于m,對 nXm'子矩陣進(jìn)行聚類分析;步驟五,重復(fù)步驟四r次,直到得到r個(gè)聚類分析結(jié)果;步驟六,將r個(gè)聚類分析結(jié)果再進(jìn)行聚類分析,得到最終聚類結(jié)果,這個(gè)最終聚類結(jié)果表征η個(gè)文本之間的歸類關(guān)系,由此將η個(gè)文本分類。
2.如權(quán)利要求1所述的基于一致性聚類的Web文本分類方法,其特征在于,所述步驟一中的文字信息數(shù)據(jù)來源于在互聯(lián)網(wǎng)上抓取一預(yù)設(shè)時(shí)間段內(nèi)的文字信息數(shù)據(jù)。
3.如權(quán)利要求2所述的基于一致性聚類的Web文本分類方法,其特征在于,所述在互聯(lián)網(wǎng)上抓取一預(yù)設(shè)時(shí)間段內(nèi)的文字信息數(shù)據(jù)包括抓取特定網(wǎng)站、論壇、博客或微博中的Web 文本數(shù)據(jù)。
4.如權(quán)利要求3所述的基于一致性聚類的Web文本分類方法,其特征在于,在權(quán)利要求1所述步驟二中,對每個(gè)文本進(jìn)行分詞處理都包括以下步驟1)去掉Web文本的所有格式標(biāo)簽;2)去掉無標(biāo)簽文本中的停止詞;3)根據(jù)預(yù)設(shè)詞庫中的詞匯,按照文本文字從前到后的順序,對文本中的文字進(jìn)行分詞拆分。
5.如權(quán)利要求4所述的基于一致性聚類的Web文本分類方法,其特征在于,所述步驟三中的m維向量空間模型為將一個(gè)文本中的分詞與m個(gè)詞匯進(jìn)行比較,如果m個(gè)詞匯中的一個(gè)詞匯在該文本中出現(xiàn)a次,則在該詞匯下記錄a,如果m個(gè)詞匯中的一個(gè)詞匯在該文本中沒有出現(xiàn),則在該詞匯下記錄0,最后再根據(jù)預(yù)設(shè)詞庫中m個(gè)詞匯的排列次序?qū)τ涗浿颠M(jìn)行排序,由此得到所述m維向量空間模型。
6.如權(quán)利要求5所述的基于一致性聚類的Web文本分類方法,其特征在于,所述步驟四中的m'為m的十分之一。
7.如權(quán)利要求1或6所述的基于一致性聚類的Web文本分類方法,其特征在于,所述步驟四中的聚類分析采用K均值聚類算法。
8.如權(quán)利要求1所述的基于一致性聚類的Web文本分類方法,其特征在于,所述步驟六中的將r個(gè)聚類分析結(jié)果再進(jìn)行聚類分析的方法如下1)先將每一個(gè)聚類分析結(jié)果轉(zhuǎn)化為0-1二元矩陣,其中二元矩陣的行數(shù)為n,列數(shù)為該聚類分析結(jié)果中的最大值,即包含的類的個(gè)數(shù);2)將得到的所有0-1二元矩陣組合形成nX (每一個(gè)聚類分析結(jié)果的類別個(gè)數(shù)之和) 的二元矩陣;3)采用K均值聚類算法對組合形成的0-1二元矩陣進(jìn)行聚類分析,得到最終聚類結(jié)果。
9.如權(quán)利要求1所述的基于一致性聚類的Web文本分類方法,其特征在于,所述隨機(jī)提取為簡單隨機(jī)抽樣提取。
全文摘要
本發(fā)明公開了基于一致性聚類的Web文本分類方法,包括輸入一段文字信息數(shù)據(jù),其中包括n個(gè)文本;根據(jù)含有m個(gè)詞匯的預(yù)設(shè)詞庫,對n個(gè)文本進(jìn)行分詞處理;根據(jù)每個(gè)文本中的分詞在詞庫中出現(xiàn)的次數(shù),制作每個(gè)文本的m維向量空間模型,n個(gè)文本組合在一起形成n×m的向量空間矩陣;在n×m的向量空間矩陣中隨機(jī)提取n×m′的子矩陣,其中m′小于m,對n×m′子矩陣進(jìn)行聚類分析;重復(fù)上述步驟r次,直到得到r個(gè)聚類分析結(jié)果;將r個(gè)聚類分析結(jié)果再進(jìn)行聚類分析,得到最終聚類結(jié)果,這個(gè)最終聚類結(jié)果表征n個(gè)文本之間的歸類關(guān)系,由此將n個(gè)文本分類。本方法能夠克服聚類分析中的維度災(zāi)難,對海量文本數(shù)據(jù)進(jìn)行分析,特別適合網(wǎng)絡(luò)輿情監(jiān)控等信息安全領(lǐng)域。
文檔編號G06F17/30GK103049581SQ20131002564
公開日2013年4月17日 申請日期2013年1月21日 優(yōu)先權(quán)日2013年1月21日
發(fā)明者吳俊杰, 劉洪甫, 李紅, 韓小汀 申請人:北京航空航天大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1