亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于詞相似度的網(wǎng)絡(luò)文本分類方法

文檔序號:6518359閱讀:333來源:國知局
一種基于詞相似度的網(wǎng)絡(luò)文本分類方法
【專利摘要】本發(fā)明一種基于詞相似度的網(wǎng)絡(luò)文本分類方法,包括網(wǎng)絡(luò)文本預(yù)處理模塊、文本分詞模塊、詞袋模型模塊、文本空間向量表示模塊、分類結(jié)果計算模塊五個模塊。本發(fā)明能夠?qū)崿F(xiàn)對網(wǎng)絡(luò)文本進行規(guī)范化預(yù)處理、去除無意義停用詞及標(biāo)點符號、分類類別確定、特征詞-類別相關(guān)度計算、組成詞袋模型、文本轉(zhuǎn)換為空間向量、計算文本所屬類別等功能,完成文本類別特征的抽取和量化分析,對語料庫處理、自動文摘、信息過濾以及信息檢索等具有重要的作用。
【專利說明】一種基于詞相似度的網(wǎng)絡(luò)文本分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于詞相似度的網(wǎng)絡(luò)文本分類方法,本發(fā)明采用計算詞與類別相關(guān)度技術(shù)實現(xiàn)對文本的分類或文本的主題挖掘,應(yīng)用于語料庫處理、自動文摘、信息過濾以及信息檢索和數(shù)據(jù)挖掘等領(lǐng)域,屬于信息領(lǐng)域和自然語言處理領(lǐng)域。
【背景技術(shù)】
[0002]隨著萬維網(wǎng)上及企業(yè)內(nèi)部的可用信息的不斷增長,人們越來越希望能更好的搜索、過濾、管理這些信息資源。文本分類簡單來說,就是根據(jù)內(nèi)容把自然語言文本劃分到預(yù)先定義的類別中去的過程。它作為某些信息組織與管理的一個重要組成部分,也因此引起人們的關(guān)注與研究。
[0003]隨著互聯(lián)網(wǎng)的迅速發(fā)展,面向重要網(wǎng)絡(luò)媒體海量發(fā)布信息實現(xiàn)智能分類,對于網(wǎng)絡(luò)信息監(jiān)管、輿論引導(dǎo)工作有著深遠的意義。那么如何通過有效的計算機輔助手段來對網(wǎng)絡(luò)上海量文本信息量按照一定的主題類別進行自動分類和主題挖掘是我們關(guān)注的焦點。
[0004]目前的文本分類方法大多是基于Salton等人在70年代提出的向量空間模型(VSM),這種方法計算簡單有效,因此得到了廣泛應(yīng)用,但這種方法在文本表示時向量空間維數(shù)會達到上千維,大量的計算使分類器效率難以提高。另外,向量空間模型往往結(jié)合一些機器學(xué)習(xí)算法來解決文本自動分類問題,常用的算法有:決策樹、人工神經(jīng)網(wǎng)絡(luò)、KNN法、SVM法、Boosting方法、Bayes法和基于規(guī)則的方法等等。但是這些算法需要使用大量語料進行訓(xùn)練來得到分類模型,由于網(wǎng)絡(luò)文本數(shù)據(jù)浩大,結(jié)構(gòu)千差萬別,因此該方式往往存在時間復(fù)雜度和空間復(fù)雜度較大的缺點。針對上述的問題,我們提出了一種基于詞相似度的網(wǎng)絡(luò)文本分類方法,能有效應(yīng)對海量網(wǎng)絡(luò)文本處理過程中的效率問題。
[0005]本專利提出將計算詞與類別相關(guān)度技術(shù)應(yīng)用于對網(wǎng)絡(luò)文本的自動分類,我們首先利用詞向量空間模型WVSM理論,將詞表示成空間向量,即將m個類別組成m維的歐式空間,例如若有m個類另Ij C1, C2,...,Cm,則每一特征詞Ti可表不成一 m維向量(W1, W2,...,Wm),其中Wj為詞Ti與類別j的相關(guān)度。通過對已標(biāo)識類別樣本進行訓(xùn)練生成特征詞-類別相關(guān)度矩陣A,矩陣中每一個元素au表示特征詞Ti對類別&的支持度(相關(guān)度),取得最大的支持度ma\ &及其對應(yīng)類別j,組成詞袋模型。下面以二維向量做詳細說明。
[0006]若類別C= {體育,軍事},訓(xùn)練文本集經(jīng)處理后得到特征詞集T= KT1:足球),(T2:飛機)},VT2的向量分別為(0.9000,0.0200), (0.0100,0.8000),比較后可以看出特征詞T1趨向于類C1, T2趨向于類C2。因此我們將足球和0.9000寫入詞袋模型中的“體育”類別下,將飛機和0.8000寫入“軍事”類別下。
[0007]下面實現(xiàn)對位置類別文本的自動分類,我們將所獲取的網(wǎng)絡(luò)文本進行過濾和分詞后,根據(jù)文本中是否出現(xiàn)詞袋模型中的詞項將文本轉(zhuǎn)換為空間向量,用W= Iw1, W2,…,wn}表示,其中η代表該文本可被劃分為η個類別,Wi代表該文本關(guān)于第i類的特征向量,且
【權(quán)利要求】
1.本發(fā)明涉及應(yīng)用于網(wǎng)絡(luò)文本分類的方法,并基于詞空間向量模型計算特征詞-類別相關(guān)度,由五個模塊組成:網(wǎng)絡(luò)文本預(yù)處理模塊、文本分詞模塊、詞袋模型模塊、文本空間向量表示模塊、分類結(jié)果計算模塊。
2.本發(fā)明的主要特點有: (1)基于詞向量空間模型,特征向量維數(shù)大幅下降且特征向量數(shù)目相對穩(wěn)定,能夠大大降低時間復(fù)雜度和空間復(fù)雜度。 (2)基于詞袋模型,將網(wǎng)絡(luò)文本轉(zhuǎn)換為低維空間向量??梢杂行崛【W(wǎng)絡(luò)文本中與類別相關(guān)的特征,能夠大大提高分類結(jié)果的準(zhǔn)確度并降低計算成本。
【文檔編號】G06F17/30GK103605702SQ201310552098
【公開日】2014年2月26日 申請日期:2013年11月8日 優(yōu)先權(quán)日:2013年11月8日
【發(fā)明者】陸月明, 馬晶, 陳賢 申請人:北京郵電大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1