一種短信文本的分類方法和系統(tǒng)的制作方法

文檔序號：6623239閱讀：301來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種短信文本的分類方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種短信文本的分類方法和系統(tǒng)包括：計算分布式文件系統(tǒng)HDFS上所有短信樣本的特征向量；判斷出HDFS上的短信樣本未分類，根據(jù)計算得到的特征向量對所述短信樣本進行分類；保存短信樣本的類別和計算得到的特征向量，形成HDFS上的第一類庫；將第一類庫轉(zhuǎn)換為流式計算系統(tǒng)支持的第二類庫；流式計算系統(tǒng)根據(jù)第二類庫對待分類短信進行分類。本發(fā)明能夠?qū)Χ绦盼谋具M行實時分類。
【專利說明】一種短信文本的分類方法和系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及短信文本處理技術(shù)，尤指一種短信文本的分類方法和系統(tǒng)。

【背景技術(shù)】
[0002] 在互聯(lián)網(wǎng)大數(shù)據(jù)時代，能夠?qū)τ脩粜袨榈膶崟r性處理和分析是重要應(yīng)用方面。以短信處理為例，由于現(xiàn)在垃圾短信的泛濫，包括欺詐短信、廣告推銷、反動信息等，給用戶帶了很大的危害，因此，需要運營商通過對短信內(nèi)容的識別來過濾垃圾短信。而短信及時性的特點決定了其必須在較短的時間內(nèi)完成處理和下發(fā)，對處理系統(tǒng)的實時性提出了較高的要求。
[0003] 現(xiàn)有的短信文本的分類方法是：預(yù)先形成短信樣本的類庫，可以采用k_近鄰算法、樸素貝葉斯算法等現(xiàn)有的方法，根據(jù)預(yù)先形成的類庫對待分類短信進行分類。
[0004] 現(xiàn)有的短信文本的分類方法中，通過人工累積的方式或者聚類的方式形成類庫，由于類庫中短信樣本的數(shù)量較大，在形成類庫的過程中計算量和占用的存儲空間較大，因此很難滿足短信文本分類的實時性。

【發(fā)明內(nèi)容】

[0005] 為了解決上述問題，本發(fā)明提出了一種短信文本的分類方法和系統(tǒng)，能夠?qū)崟r對短信文本進行分類。
[0006] 為了達到上述目的，本發(fā)明提出了一種短信文本的分類方法，包括：
[0007] 計算分布式文件系統(tǒng)HDFS上所有短信樣本的特征向量；
[0008] 判斷出HDFS上的短信樣本未分類，根據(jù)計算得到的特征向量對所述短信樣本進行分類；
[0009] 保存短信樣本的類別和計算得到的特征向量，形成HDFS上的第一類庫；
[0010] 將第一類庫轉(zhuǎn)換為流式計算系統(tǒng)支持的第二類庫；
[0011] 流式計算系統(tǒng)根據(jù)第二類庫對待分類短信進行分類。
[0012] 優(yōu)選地，所述流式計算系統(tǒng)對所述待分類短信進行分類后，該方法還包括：
[0013]將所述待分類短信作為新增短信樣本存儲在所述流式計算系統(tǒng)中；
[0014] 當(dāng)所述流式計算系統(tǒng)判斷出所述新增短信樣本數(shù)大于或等于預(yù)設(shè)值時，根據(jù)所述新增短信樣本對所述第一類庫進行更新。
[0015] 優(yōu)選地，根據(jù)所述新增短信樣本對所述第一類庫進行更新包括：
[0016] 計算所述新增短信樣本的特征向量，將計算得到的特征向量及其所屬類別保存到所述第一類庫中。
[0017] 優(yōu)選地，所述將第一類庫轉(zhuǎn)換為流式計算系統(tǒng)支持的第二類庫包括：
[0018] 調(diào)用Hadoop提供的Java接口，通過數(shù)據(jù)流的形式讀出，獲取所述類別和該類別的所有特征向量；
[0019] 將獲得的類別和該類別的所有特征向量分發(fā)到流式計算系統(tǒng)中各個工作節(jié)點的相應(yīng)邏輯節(jié)點上，每一個邏輯節(jié)點以映射表的方式將類別和該類別的所有特征向量保存。
[0020] 優(yōu)選地，所述短信樣本的特征向量的每個元素為：關(guān)鍵詞的詞頻TF與關(guān)鍵詞的關(guān) 鍵度IDF的乘積得到的積值；
[0021] 其中，

【權(quán)利要求】
1. 一種短信文本的分類方法，其特征在于，包括：計算分布式文件系統(tǒng)HDFS上所有短信樣本的特征向量；判斷出HDFS上的短信樣本未分類，根據(jù)計算得到的特征向量對所述短信樣本進行分類；保存短信樣本的類別和計算得到的特征向量，形成HDFS上的第一類庫；將第一類庫轉(zhuǎn)換為流式計算系統(tǒng)支持的第二類庫；流式計算系統(tǒng)根據(jù)第二類庫對待分類短信進行分類。
2. 根據(jù)權(quán)利要求1所述的分類方法，其特征在于，所述流式計算系統(tǒng)對所述待分類短信進行分類后，該方法還包括：將所述待分類短信作為新增短信樣本存儲在所述流式計算系統(tǒng)中；當(dāng)所述流式計算系統(tǒng)判斷出所述新增短信樣本數(shù)大于或等于預(yù)設(shè)值時，根據(jù)所述新增短信樣本對所述第一類庫進行更新。
3. 根據(jù)權(quán)利要求2所述的分類方法，其特征在于，根據(jù)所述新增短信樣本對所述第一類庫進行更新包括：計算所述新增短信樣本的特征向量，將計算得到的特征向量及其所屬類別保存到所述第一類庫中。
4. 根據(jù)權(quán)利要求1或2所述的分類方法，其特征在于，所述將第一類庫轉(zhuǎn)換為流式計算系統(tǒng)支持的第二類庫包括：調(diào)用Hadoop提供的Java接口，通過數(shù)據(jù)流的形式讀出，獲取所述類別和該類別的所有特征向量；將獲得的類別和該類別的所有特征向量分發(fā)到流式計算系統(tǒng)中各個工作節(jié)點的相應(yīng) 邏輯節(jié)點上，每一個邏輯節(jié)點以映射表的方式將類別和該類別的所有特征向量保存。
5. 根據(jù)權(quán)利要求1或2所述的分類方法，其特征在于，所述短信樣本的特征向量的每個元素為：關(guān)鍵詞的詞頻TF與關(guān)鍵詞的關(guān)鍵度IDF的乘積得到的積值；其中，
6. -種短信文本的分類系統(tǒng)，其特征在于，至少包括：分布式文件系統(tǒng)HDFS，用于保存短信樣本；轉(zhuǎn)換裝置，用于計算分布式文件系統(tǒng)HDFS上所有短信樣本的特征向量；判斷出HDFS上的短信樣本未分類，根據(jù)計算得到的特征向量對所述短信樣本進行分類；保存短信樣本的類別和計算得到的特征向量，形成HDFS上的第一類庫；將第一類庫轉(zhuǎn)換為流式計算系統(tǒng)支持的第二類庫；流式計算系統(tǒng)，用于根據(jù)第二類庫對待分類短信進行分類。
7. 根據(jù)權(quán)利要求6所述的分類系統(tǒng)，其特征在于，所述流式計算系統(tǒng)，還用于：將所述待分類短信作為新增短信樣本進行保存；判斷出所述新增短信樣本數(shù)大于或等于預(yù)設(shè)值，將所述新增短信樣本發(fā)送給所述轉(zhuǎn)換裝置；所述轉(zhuǎn)換裝置，還用于：根據(jù)所述新增短信樣本對所述第一類庫進行更新。
【文檔編號】G06F17/30GK104123393SQ201410394927
【公開日】2014年10月29日申請日期:2014年8月12日優(yōu)先權(quán)日:2014年8月12日
【發(fā)明者】李浩, 羅云彬, 王志軍, 王偉華申請人:中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李浩;羅云彬;王志軍;王偉華
技術(shù)所有人：中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本分類系統(tǒng)相關(guān)技術(shù)

文本自動分類系統(tǒng)相關(guān)技術(shù)

文本分類方法相關(guān)技術(shù)

文本分類的方法相關(guān)技術(shù)

文本分類特征選擇方法相關(guān)技術(shù)

文本情感分類方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種短信文本的分類方法和系統(tǒng)的制作方法