消息分類(lèi)方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本公開(kāi)是關(guān)于計(jì)算機(jī)技術(shù)領(lǐng)域,具體來(lái)說(shuō)是關(guān)于消息分類(lèi)方法和裝置。
【背景技術(shù)】
[0002] 隨著智能手機(jī)的普及,短信的應(yīng)用越來(lái)越廣泛,已經(jīng)成為日常生活中常用的交流 方式。然而,短信不僅為用戶提供了便利,也為用戶帶來(lái)了困擾。很多商家、機(jī)構(gòu)或者個(gè)人 為了廣告宣傳或者詐騙錢(qián)財(cái)?shù)仍颍瑫?huì)給用戶發(fā)送其不需要的短信,使得用戶經(jīng)常收到垃 圾短信,嚴(yán)重影響了用戶的正常生活。
[0003] 為了避免打擾用戶,可以選取若干個(gè)正常短信和垃圾短信,作為樣本短信,獲取每 個(gè)樣本短信的特征向量,對(duì)于每個(gè)樣本短信,根據(jù)該樣本短信的特征向量,計(jì)算該樣本短信 是垃圾短信的概率,根據(jù)每個(gè)樣本短信是垃圾短信的概率以及每個(gè)樣本短信的實(shí)際類(lèi)別進(jìn) 行訓(xùn)練,確定概率閾值。每當(dāng)接收到一條未知類(lèi)別的短信時(shí),可以根據(jù)該短信的特征向量, 計(jì)算該短信是垃圾短信的概率,當(dāng)計(jì)算出的概率大于該概率閾值時(shí),確定該短信是垃圾短 信,則對(duì)該短信進(jìn)行過(guò)濾,使得用戶不會(huì)看到該短信。
【發(fā)明內(nèi)容】
[0004] 為了解決相關(guān)技術(shù)中存在的問(wèn)題,本公開(kāi)提供了一種消息分類(lèi)方法和裝置。所述 技術(shù)方案如下:
[0005] 根據(jù)本公開(kāi)實(shí)施例的第一方面,提供了一種消息分類(lèi)方法,所述方法包括:
[0006] 計(jì)算每個(gè)樣本消息的特征值,所述特征值用于表示相應(yīng)的樣本消息是垃圾消息的 可能性大小,樣本消息包括正常樣本消息和垃圾樣本消息;
[0007] 按照特征值從大到小的順序遍歷樣本消息,對(duì)于當(dāng)前遍歷到的第一樣本消息,將 特征值小于所述第一樣本消息的特征值的樣本消息作為第一特征消息;當(dāng)所述第一特征消 息中正常樣本消息所占的比例大于第一預(yù)設(shè)閾值時(shí),將所述第一樣本消息的特征值作為第 一分離閾值,所述第一分離閾值用于劃分出正常消息;
[0008] 按照特征值從小到大的順序遍歷樣本消息,對(duì)于當(dāng)前遍歷到的第二樣本消息,將 特征值大于所述第二樣本消息的特征值的樣本消息作為第二特征消息;當(dāng)所述第二特征消 息中垃圾樣本消息所占的比例大于第二預(yù)設(shè)閾值時(shí),將所述第二樣本消息的特征值作為第 二分離閾值,所述第二分離閾值用于劃分出垃圾消息;
[0009] 將特征值大于所述第一分離閾值且小于所述第二分離閾值的樣本消息作為下一 層樣本消息,對(duì)下一層樣本消息重復(fù)執(zhí)行上述確定第一分離閾值和第二分離閾值的步驟, 得到下一層的第一分離閾值和第二分離閾值,直至特征值大于當(dāng)前層的第一分離閾值且小 于當(dāng)前層的第二分離閾值的樣本消息的數(shù)目小于預(yù)設(shè)數(shù)目時(shí)停止,得到多層的第一分離閾 值和第二分離閾值;
[0010] 基于所述多層的第一分離閾值和第二分離閾值,對(duì)接收到的消息進(jìn)行分類(lèi),得到 分類(lèi)結(jié)果。
[0011] 在另一實(shí)施例中,所述計(jì)算每個(gè)樣本消息的特征值包括:
[0012] 根據(jù)每個(gè)樣本消息的聯(lián)系人信息、消息長(zhǎng)度、文本結(jié)構(gòu)、包含的特殊符號(hào)和關(guān)鍵詞 中的至少一項(xiàng),獲取每個(gè)樣本消息的特征向量;
[0013] 根據(jù)每個(gè)樣本消息的特征向量,應(yīng)用以下公式,計(jì)算每個(gè)樣本消息的特征值:
[
【主權(quán)項(xiàng)】
1. 一種消息分類(lèi)方法,其特征在于,所述方法包括: 計(jì)算每個(gè)樣本消息的特征值,所述特征值用于表示相應(yīng)的樣本消息是垃圾消息的可能 性大小,樣本消息包括正常樣本消息和垃圾樣本消息; 按照特征值從大到小的順序遍歷樣本消息,對(duì)于當(dāng)前遍歷到的第一樣本消息,將特征 值小于所述第一樣本消息的特征值的樣本消息作為第一特征消息;當(dāng)所述第一特征消息中 正常樣本消息所占的比例大于第一預(yù)設(shè)閾值時(shí),將所述第一樣本消息的特征值作為第一分 離閾值,所述第一分離閾值用于劃分出正常消息; 按照特征值從小到大的順序遍歷樣本消息,對(duì)于當(dāng)前遍歷到的第二樣本消息,將特征 值大于所述第二樣本消息的特征值的樣本消息作為第二特征消息;當(dāng)所述第二特征消息中 垃圾樣本消息所占的比例大于第二預(yù)設(shè)閾值時(shí),將所述第二樣本消息的特征值作為第二分 離閾值,所述第二分離閾值用于劃分出垃圾消息; 將特征值大于所述第一分離閾值且小于所述第二分離閾值的樣本消息作為下一層樣 本消息,對(duì)下一層樣本消息重復(fù)執(zhí)行上述確定第一分離閾值和第二分離閾值的步驟,得到 下一層的第一分離閾值和第二分離閾值,直至特征值大于當(dāng)前層的第一分離閾值且小于當(dāng) 前層的第二分離閾值的樣本消息的數(shù)目小于預(yù)設(shè)數(shù)目時(shí)停止,得到多層的第一分離閾值和 第二分離閾值; 基于所述多層的第一分離閾值和第二分離閾值,對(duì)接收到的消息進(jìn)行分類(lèi),得到分類(lèi) 結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算每個(gè)樣本消息的特征值包括: 根據(jù)每個(gè)樣本消息的聯(lián)系人信息、消息長(zhǎng)度、文本結(jié)構(gòu)、包含的特殊符號(hào)和關(guān)鍵詞中的 至少一項(xiàng),獲取每個(gè)樣本消息的特征向量; 根據(jù)每個(gè)樣本消息的特征向量,應(yīng)用以下公式,計(jì)算每個(gè)樣本消息的特征值:
其中,Y表示分類(lèi)集合,Y = {Cl,c2},(^表示垃圾消息,c 2表示正常消息,X指代樣本消 息的特征向量,X = {Xp X2?Xj…},j指代特征向量的維度,j為自然數(shù),Xj指代第j個(gè)維度 的特征向量,X表示當(dāng)前樣本消息的特征向量,X={Xi, XfXf},Xj表示當(dāng)前樣本消息的 第j個(gè)維度的特征向量,PSN(X = x)表示當(dāng)前樣本消息的特征值,P(Xj= x j|Y = Ci)表示 垃圾樣本消息中特征向量的第j個(gè)維度是Xj的概率,P(X j= x j | Y = c2)表示正常樣本消息 中特征向量的第j個(gè)維度是&的概率。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述多層的第一分離閾值和第 二分離閾值,對(duì)接收到的消息進(jìn)行分類(lèi),得到分類(lèi)結(jié)果包括: 當(dāng)接收到任一消息時(shí),根據(jù)所述消息的內(nèi)容,計(jì)算所述消息的特征值; 對(duì)于每一層的第一分離閾值和第二分離閾值,當(dāng)所述特征值不大于所述第一分離閾值 時(shí),確定所述消息為正常消息;或者, 當(dāng)所述特征值不小于所述第二分離閾值時(shí),確定所述消息為垃圾消息;或者, 當(dāng)所述特征值大于所述第一分離閾值且小于所述第二分離閾值時(shí),基于下一層的第一 分離閾值和第二分離閾值,繼續(xù)對(duì)所述消息進(jìn)行分類(lèi),直至得到所述分類(lèi)結(jié)果。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 對(duì)于每一層的每個(gè)樣本消息,根據(jù)所述樣本消息對(duì)應(yīng)的第一特征消息中正常樣本消息 的數(shù)目,以及所述樣本消息對(duì)應(yīng)的第二特征消息中垃圾樣本消息的數(shù)目,計(jì)算分類(lèi)準(zhǔn)確率, 所述分類(lèi)準(zhǔn)確率用于表示根據(jù)所述樣本消息的特征值進(jìn)行分類(lèi)時(shí)的準(zhǔn)確率; 將每一層中分類(lèi)準(zhǔn)確率最大的樣本消息的特征值作為第三分離閾值,得到多層的第三 分離閾值; 基于所述多層的第一分離閾值、第二分離閾值和第三分離閾值,對(duì)接收到的消息進(jìn)行 分類(lèi),得到所述分類(lèi)結(jié)果。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于所述多層的第一分離閾值、第二 分離閾值和第三分離閾值,對(duì)接收到的消息進(jìn)行分類(lèi),得到所述分類(lèi)結(jié)果包括: 對(duì)于每一層的第一分離閾值、第二分離閾值和第三分離閾值,當(dāng)所述消息的特征值大 于所述第一分離閾值且小于所述第三分離閾值時(shí),將當(dāng)前層作為所述消息的正常消息可能 層;或者,當(dāng)所述消息的特征值不小于所述第三分離閾值且小于所述第二分離閾值時(shí),將當(dāng) 前層作為所述消息的垃圾消息可能層;