消息分類(lèi)方法和裝置的制造方法

文檔序號(hào)：8299079閱讀：232來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

消息分類(lèi)方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本公開(kāi)是關(guān)于計(jì)算機(jī)技術(shù)領(lǐng)域，具體來(lái)說(shuō)是關(guān)于消息分類(lèi)方法和裝置。
【背景技術(shù)】
[0002] 隨著智能手機(jī)的普及，短信的應(yīng)用越來(lái)越廣泛，已經(jīng)成為日常生活中常用的交流方式。然而，短信不僅為用戶提供了便利，也為用戶帶來(lái)了困擾。很多商家、機(jī)構(gòu)或者個(gè)人為了廣告宣傳或者詐騙錢(qián)財(cái)?shù)仍颍瑫?huì)給用戶發(fā)送其不需要的短信，使得用戶經(jīng)常收到垃圾短信，嚴(yán)重影響了用戶的正常生活。
[0003] 為了避免打擾用戶，可以選取若干個(gè)正常短信和垃圾短信，作為樣本短信，獲取每個(gè)樣本短信的特征向量，對(duì)于每個(gè)樣本短信，根據(jù)該樣本短信的特征向量，計(jì)算該樣本短信是垃圾短信的概率，根據(jù)每個(gè)樣本短信是垃圾短信的概率以及每個(gè)樣本短信的實(shí)際類(lèi)別進(jìn) 行訓(xùn)練，確定概率閾值。每當(dāng)接收到一條未知類(lèi)別的短信時(shí)，可以根據(jù)該短信的特征向量，計(jì)算該短信是垃圾短信的概率，當(dāng)計(jì)算出的概率大于該概率閾值時(shí)，確定該短信是垃圾短信，則對(duì)該短信進(jìn)行過(guò)濾，使得用戶不會(huì)看到該短信。

【發(fā)明內(nèi)容】

[0004] 為了解決相關(guān)技術(shù)中存在的問(wèn)題，本公開(kāi)提供了一種消息分類(lèi)方法和裝置。所述技術(shù)方案如下：
[0005] 根據(jù)本公開(kāi)實(shí)施例的第一方面，提供了一種消息分類(lèi)方法，所述方法包括：
[0006] 計(jì)算每個(gè)樣本消息的特征值，所述特征值用于表示相應(yīng)的樣本消息是垃圾消息的可能性大小，樣本消息包括正常樣本消息和垃圾樣本消息；
[0007] 按照特征值從大到小的順序遍歷樣本消息，對(duì)于當(dāng)前遍歷到的第一樣本消息，將特征值小于所述第一樣本消息的特征值的樣本消息作為第一特征消息；當(dāng)所述第一特征消息中正常樣本消息所占的比例大于第一預(yù)設(shè)閾值時(shí)，將所述第一樣本消息的特征值作為第一分離閾值，所述第一分離閾值用于劃分出正常消息；
[0008] 按照特征值從小到大的順序遍歷樣本消息，對(duì)于當(dāng)前遍歷到的第二樣本消息，將特征值大于所述第二樣本消息的特征值的樣本消息作為第二特征消息；當(dāng)所述第二特征消息中垃圾樣本消息所占的比例大于第二預(yù)設(shè)閾值時(shí)，將所述第二樣本消息的特征值作為第二分離閾值，所述第二分離閾值用于劃分出垃圾消息；
[0009] 將特征值大于所述第一分離閾值且小于所述第二分離閾值的樣本消息作為下一層樣本消息，對(duì)下一層樣本消息重復(fù)執(zhí)行上述確定第一分離閾值和第二分離閾值的步驟，得到下一層的第一分離閾值和第二分離閾值，直至特征值大于當(dāng)前層的第一分離閾值且小于當(dāng)前層的第二分離閾值的樣本消息的數(shù)目小于預(yù)設(shè)數(shù)目時(shí)停止，得到多層的第一分離閾值和第二分離閾值；
[0010] 基于所述多層的第一分離閾值和第二分離閾值，對(duì)接收到的消息進(jìn)行分類(lèi)，得到分類(lèi)結(jié)果。
[0011] 在另一實(shí)施例中，所述計(jì)算每個(gè)樣本消息的特征值包括：
[0012] 根據(jù)每個(gè)樣本消息的聯(lián)系人信息、消息長(zhǎng)度、文本結(jié)構(gòu)、包含的特殊符號(hào)和關(guān)鍵詞中的至少一項(xiàng)，獲取每個(gè)樣本消息的特征向量；
[0013] 根據(jù)每個(gè)樣本消息的特征向量，應(yīng)用以下公式，計(jì)算每個(gè)樣本消息的特征值：
[
【主權(quán)項(xiàng)】
1. 一種消息分類(lèi)方法，其特征在于，所述方法包括：計(jì)算每個(gè)樣本消息的特征值，所述特征值用于表示相應(yīng)的樣本消息是垃圾消息的可能性大小，樣本消息包括正常樣本消息和垃圾樣本消息；按照特征值從大到小的順序遍歷樣本消息，對(duì)于當(dāng)前遍歷到的第一樣本消息，將特征值小于所述第一樣本消息的特征值的樣本消息作為第一特征消息；當(dāng)所述第一特征消息中正常樣本消息所占的比例大于第一預(yù)設(shè)閾值時(shí)，將所述第一樣本消息的特征值作為第一分離閾值，所述第一分離閾值用于劃分出正常消息；按照特征值從小到大的順序遍歷樣本消息，對(duì)于當(dāng)前遍歷到的第二樣本消息，將特征值大于所述第二樣本消息的特征值的樣本消息作為第二特征消息；當(dāng)所述第二特征消息中垃圾樣本消息所占的比例大于第二預(yù)設(shè)閾值時(shí)，將所述第二樣本消息的特征值作為第二分離閾值，所述第二分離閾值用于劃分出垃圾消息；將特征值大于所述第一分離閾值且小于所述第二分離閾值的樣本消息作為下一層樣本消息，對(duì)下一層樣本消息重復(fù)執(zhí)行上述確定第一分離閾值和第二分離閾值的步驟，得到下一層的第一分離閾值和第二分離閾值，直至特征值大于當(dāng)前層的第一分離閾值且小于當(dāng) 前層的第二分離閾值的樣本消息的數(shù)目小于預(yù)設(shè)數(shù)目時(shí)停止，得到多層的第一分離閾值和第二分離閾值；基于所述多層的第一分離閾值和第二分離閾值，對(duì)接收到的消息進(jìn)行分類(lèi)，得到分類(lèi) 結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述計(jì)算每個(gè)樣本消息的特征值包括：根據(jù)每個(gè)樣本消息的聯(lián)系人信息、消息長(zhǎng)度、文本結(jié)構(gòu)、包含的特殊符號(hào)和關(guān)鍵詞中的至少一項(xiàng)，獲取每個(gè)樣本消息的特征向量；根據(jù)每個(gè)樣本消息的特征向量，應(yīng)用以下公式，計(jì)算每個(gè)樣本消息的特征值：
其中，Y表示分類(lèi)集合，Y = {Cl，c2}，(^表示垃圾消息，c 2表示正常消息，X指代樣本消息的特征向量，X = {Xp X2?Xj…}，j指代特征向量的維度，j為自然數(shù)，Xj指代第j個(gè)維度的特征向量，X表示當(dāng)前樣本消息的特征向量，X={Xi, XfXf}，Xj表示當(dāng)前樣本消息的第j個(gè)維度的特征向量，PSN(X = x)表示當(dāng)前樣本消息的特征值，P(Xj= x j|Y = Ci)表示垃圾樣本消息中特征向量的第j個(gè)維度是Xj的概率，P(X j= x j | Y = c2)表示正常樣本消息中特征向量的第j個(gè)維度是&的概率。
3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述多層的第一分離閾值和第二分離閾值，對(duì)接收到的消息進(jìn)行分類(lèi)，得到分類(lèi)結(jié)果包括：當(dāng)接收到任一消息時(shí)，根據(jù)所述消息的內(nèi)容，計(jì)算所述消息的特征值；對(duì)于每一層的第一分離閾值和第二分離閾值，當(dāng)所述特征值不大于所述第一分離閾值時(shí)，確定所述消息為正常消息；或者，當(dāng)所述特征值不小于所述第二分離閾值時(shí)，確定所述消息為垃圾消息；或者，當(dāng)所述特征值大于所述第一分離閾值且小于所述第二分離閾值時(shí)，基于下一層的第一分離閾值和第二分離閾值，繼續(xù)對(duì)所述消息進(jìn)行分類(lèi)，直至得到所述分類(lèi)結(jié)果。
4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：對(duì)于每一層的每個(gè)樣本消息，根據(jù)所述樣本消息對(duì)應(yīng)的第一特征消息中正常樣本消息的數(shù)目，以及所述樣本消息對(duì)應(yīng)的第二特征消息中垃圾樣本消息的數(shù)目，計(jì)算分類(lèi)準(zhǔn)確率，所述分類(lèi)準(zhǔn)確率用于表示根據(jù)所述樣本消息的特征值進(jìn)行分類(lèi)時(shí)的準(zhǔn)確率；將每一層中分類(lèi)準(zhǔn)確率最大的樣本消息的特征值作為第三分離閾值，得到多層的第三分離閾值；基于所述多層的第一分離閾值、第二分離閾值和第三分離閾值，對(duì)接收到的消息進(jìn)行分類(lèi)，得到所述分類(lèi)結(jié)果。
5. 根據(jù)權(quán)利要求4所述的方法，其特征在于，所述基于所述多層的第一分離閾值、第二分離閾值和第三分離閾值，對(duì)接收到的消息進(jìn)行分類(lèi)，得到所述分類(lèi)結(jié)果包括：對(duì)于每一層的第一分離閾值、第二分離閾值和第三分離閾值，當(dāng)所述消息的特征值大于所述第一分離閾值且小于所述第三分離閾值時(shí)，將當(dāng)前層作為所述消息的正常消息可能層；或者，當(dāng)所述消息的特征值不小于所述第三分離閾值且小于所述第二分離閾值時(shí)，將當(dāng) 前層作為所述消息的垃圾消息可能層；

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：秦秋平;龍飛;陳志軍;
技術(shù)所有人：小米科技有限責(zé)任公司;
我是此專(zhuān)利的發(fā)明人

上一篇：一種文本摘要獲取方法及裝置的制造方法
上一篇：一種輔助記錄的組織方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

消息分類(lèi)方法和裝置的制造方法