一種短信文本的分類方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種短信文本的分類方法和系統(tǒng)包括:計算分布式文件系統(tǒng)HDFS上所有短信樣本的特征向量;判斷出HDFS上的短信樣本未分類,根據(jù)計算得到的特征向量對所述短信樣本進行分類;保存短信樣本的類別和計算得到的特征向量,形成HDFS上的第一類庫;將第一類庫轉(zhuǎn)換為流式計算系統(tǒng)支持的第二類庫;流式計算系統(tǒng)根據(jù)第二類庫對待分類短信進行分類。本發(fā)明能夠?qū)Χ绦盼谋具M行實時分類。
【專利說明】一種短信文本的分類方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及短信文本處理技術(shù),尤指一種短信文本的分類方法和系統(tǒng)。
【背景技術(shù)】
[0002] 在互聯(lián)網(wǎng)大數(shù)據(jù)時代,能夠?qū)τ脩粜袨榈膶崟r性處理和分析是重要應(yīng)用方面。以 短信處理為例,由于現(xiàn)在垃圾短信的泛濫,包括欺詐短信、廣告推銷、反動信息等,給用戶帶 了很大的危害,因此,需要運營商通過對短信內(nèi)容的識別來過濾垃圾短信。而短信及時性的 特點決定了其必須在較短的時間內(nèi)完成處理和下發(fā),對處理系統(tǒng)的實時性提出了較高的要 求。
[0003] 現(xiàn)有的短信文本的分類方法是:預(yù)先形成短信樣本的類庫,可以采用k_近鄰算 法、樸素貝葉斯算法等現(xiàn)有的方法,根據(jù)預(yù)先形成的類庫對待分類短信進行分類。
[0004] 現(xiàn)有的短信文本的分類方法中,通過人工累積的方式或者聚類的方式形成類庫, 由于類庫中短信樣本的數(shù)量較大,在形成類庫的過程中計算量和占用的存儲空間較大,因 此很難滿足短信文本分類的實時性。
【發(fā)明內(nèi)容】
[0005] 為了解決上述問題,本發(fā)明提出了一種短信文本的分類方法和系統(tǒng),能夠?qū)崟r對 短信文本進行分類。
[0006] 為了達到上述目的,本發(fā)明提出了一種短信文本的分類方法,包括:
[0007] 計算分布式文件系統(tǒng)HDFS上所有短信樣本的特征向量;
[0008] 判斷出HDFS上的短信樣本未分類,根據(jù)計算得到的特征向量對所述短信樣本進 行分類;
[0009] 保存短信樣本的類別和計算得到的特征向量,形成HDFS上的第一類庫;
[0010] 將第一類庫轉(zhuǎn)換為流式計算系統(tǒng)支持的第二類庫;
[0011] 流式計算系統(tǒng)根據(jù)第二類庫對待分類短信進行分類。
[0012] 優(yōu)選地,所述流式計算系統(tǒng)對所述待分類短信進行分類后,該方法還包括:
[0013]將所述待分類短信作為新增短信樣本存儲在所述流式計算系統(tǒng)中;
[0014] 當(dāng)所述流式計算系統(tǒng)判斷出所述新增短信樣本數(shù)大于或等于預(yù)設(shè)值時,根據(jù)所述 新增短信樣本對所述第一類庫進行更新。
[0015] 優(yōu)選地,根據(jù)所述新增短信樣本對所述第一類庫進行更新包括:
[0016] 計算所述新增短信樣本的特征向量,將計算得到的特征向量及其所屬類別保存到 所述第一類庫中。
[0017] 優(yōu)選地,所述將第一類庫轉(zhuǎn)換為流式計算系統(tǒng)支持的第二類庫包括:
[0018] 調(diào)用Hadoop提供的Java接口,通過數(shù)據(jù)流的形式讀出,獲取所述類別和該類別的 所有特征向量;
[0019] 將獲得的類別和該類別的所有特征向量分發(fā)到流式計算系統(tǒng)中各個工作節(jié)點的 相應(yīng)邏輯節(jié)點上,每一個邏輯節(jié)點以映射表的方式將類別和該類別的所有特征向量保存。
[0020] 優(yōu)選地,所述短信樣本的特征向量的每個元素為:關(guān)鍵詞的詞頻TF與關(guān)鍵詞的關(guān) 鍵度IDF的乘積得到的積值;
[0021] 其中,
【權(quán)利要求】
1. 一種短信文本的分類方法,其特征在于,包括: 計算分布式文件系統(tǒng)HDFS上所有短信樣本的特征向量; 判斷出HDFS上的短信樣本未分類,根據(jù)計算得到的特征向量對所述短信樣本進行分 類; 保存短信樣本的類別和計算得到的特征向量,形成HDFS上的第一類庫; 將第一類庫轉(zhuǎn)換為流式計算系統(tǒng)支持的第二類庫; 流式計算系統(tǒng)根據(jù)第二類庫對待分類短信進行分類。
2. 根據(jù)權(quán)利要求1所述的分類方法,其特征在于,所述流式計算系統(tǒng)對所述待分類短 信進行分類后,該方法還包括: 將所述待分類短信作為新增短信樣本存儲在所述流式計算系統(tǒng)中; 當(dāng)所述流式計算系統(tǒng)判斷出所述新增短信樣本數(shù)大于或等于預(yù)設(shè)值時,根據(jù)所述新增 短信樣本對所述第一類庫進行更新。
3. 根據(jù)權(quán)利要求2所述的分類方法,其特征在于,根據(jù)所述新增短信樣本對所述第一 類庫進行更新包括: 計算所述新增短信樣本的特征向量,將計算得到的特征向量及其所屬類別保存到所述 第一類庫中。
4. 根據(jù)權(quán)利要求1或2所述的分類方法,其特征在于,所述將第一類庫轉(zhuǎn)換為流式計算 系統(tǒng)支持的第二類庫包括: 調(diào)用Hadoop提供的Java接口,通過數(shù)據(jù)流的形式讀出,獲取所述類別和該類別的所有 特征向量; 將獲得的類別和該類別的所有特征向量分發(fā)到流式計算系統(tǒng)中各個工作節(jié)點的相應(yīng) 邏輯節(jié)點上,每一個邏輯節(jié)點以映射表的方式將類別和該類別的所有特征向量保存。
5. 根據(jù)權(quán)利要求1或2所述的分類方法,其特征在于,所述短信樣本的特征向量的每個 元素為:關(guān)鍵詞的詞頻TF與關(guān)鍵詞的關(guān)鍵度IDF的乘積得到的積值; 其中,
6. -種短信文本的分類系統(tǒng),其特征在于,至少包括: 分布式文件系統(tǒng)HDFS,用于保存短信樣本; 轉(zhuǎn)換裝置,用于計算分布式文件系統(tǒng)HDFS上所有短信樣本的特征向量;判斷出HDFS上 的短信樣本未分類,根據(jù)計算得到的特征向量對所述短信樣本進行分類;保存短信樣本的 類別和計算得到的特征向量,形成HDFS上的第一類庫;將第一類庫轉(zhuǎn)換為流式計算系統(tǒng)支 持的第二類庫; 流式計算系統(tǒng),用于根據(jù)第二類庫對待分類短信進行分類。
7. 根據(jù)權(quán)利要求6所述的分類系統(tǒng),其特征在于,所述流式計算系統(tǒng),還用于: 將所述待分類短信作為新增短信樣本進行保存;判斷出所述新增短信樣本數(shù)大于或等 于預(yù)設(shè)值,將所述新增短信樣本發(fā)送給所述轉(zhuǎn)換裝置; 所述轉(zhuǎn)換裝置,還用于: 根據(jù)所述新增短信樣本對所述第一類庫進行更新。
【文檔編號】G06F17/30GK104123393SQ201410394927
【公開日】2014年10月29日 申請日期:2014年8月12日 優(yōu)先權(quán)日:2014年8月12日
【發(fā)明者】李 浩, 羅云彬, 王志軍, 王偉華 申請人:中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司