一種對(duì)短信進(jìn)行分類的方法、裝置、通信終端及服務(wù)器的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種對(duì)短信進(jìn)行分類的方法、裝置、通信終端及服務(wù)器。
【背景技術(shù)】
[0002]隨著科學(xué)技術(shù)的不斷發(fā)展,電子技術(shù)也得到了飛速的發(fā)展,電子產(chǎn)品的種類也越來越多,人們也享受到了科技發(fā)展帶來的各種便利。現(xiàn)在人們可以通過各種類型的移動(dòng)終端,享受隨著科技發(fā)展帶來的舒適生活。例如,智能手機(jī)、已經(jīng)成為人們生活中一個(gè)重要的組成部分,用戶可以使用智能手機(jī)打電話、收發(fā)短信等,實(shí)現(xiàn)隨時(shí)隨地快速通信。
[0003]短信由于其具有短小精要、成本低廉等優(yōu)點(diǎn)被人們廣泛的使用,也正因?yàn)樗褂玫膹V泛和成本低廉常被廣告商、不法分子等所利用。人們常常會(huì)收到諸多垃圾短信,如:詐騙短信、廣告短信、騷擾短信等等。為了避免這些對(duì)用戶來說無用設(shè)置有害的垃圾短信對(duì)用戶造成困擾,現(xiàn)有技術(shù)會(huì)對(duì)用戶目標(biāo)短信進(jìn)行分類,然后將屬于垃圾短信的這類短信以及用戶標(biāo)記的不想收到的短信進(jìn)行攔截。
[0004]現(xiàn)有技術(shù)中,對(duì)短信進(jìn)行分類時(shí),通常是先對(duì)短信進(jìn)行分詞,然后將分詞輸入分類模型中進(jìn)行分類,這種僅根據(jù)分詞進(jìn)行分類的方式僅從分詞層面上考慮短信的特征屬性,導(dǎo)致其分類結(jié)果存在精確度較低的技術(shù)問題。
【發(fā)明內(nèi)容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種對(duì)短信進(jìn)行分類的方法、裝置、通信終端及服務(wù)器。
[0006]本發(fā)明的一個(gè)方面,提供了一種對(duì)短信進(jìn)行分類的方法,包括:
[0007]對(duì)目標(biāo)短信進(jìn)行分詞,獲得所述目標(biāo)短信的至少一個(gè)分詞;
[0008]獲得所述至少一個(gè)分詞的至少一個(gè)詞向量,及根據(jù)所述至少一個(gè)詞向量及語料詞矩陣生成所述目標(biāo)短信的短信詞向量;
[0009]根據(jù)所述至少一個(gè)分詞獲得所述目標(biāo)短信所屬的主題向量;
[0010]根據(jù)所述至少一個(gè)分詞、所述短信詞向量、所述主題向量對(duì)所述目標(biāo)短信進(jìn)行分類,獲得所述目標(biāo)短信所屬的第一類型。
[0011]可選的,所述獲得所述至少一個(gè)分詞的至少一個(gè)詞向量,及根據(jù)所述至少一個(gè)詞向量及語料詞矩陣生成所述目標(biāo)短信的短信詞向量,包括:分別將所述至少一個(gè)分詞中各分詞輸入詞向量工具獲得所述至少一個(gè)詞向量;將所述至少一個(gè)詞向量中所有詞向量及所述語料詞矩陣相乘獲得所述短信詞向量。
[0012]可選的,根據(jù)所述至少一個(gè)分詞獲得所述目標(biāo)短信所述的主題向量,包括:將所述至少一個(gè)分詞中的所有分詞輸入語義主題生成模型獲得所述主題向量。
[0013]可選的,根據(jù)所述至少一個(gè)分詞、所述短信詞向量、所述主題向量對(duì)所述目標(biāo)短信進(jìn)行分類,獲得所述目標(biāo)短信所屬的第一類型,包括:將所述至少一個(gè)分詞中的每個(gè)分詞作為一個(gè)第一特征,所述短信詞向量作為第二特征,所述主題向量作為第三特征;將所有所述第一特征、所述第二特征及所述第三特征組合成一特征矩陣;將所述特征矩陣輸入短信分類模型對(duì)所述目標(biāo)短信進(jìn)行分類,獲得所述目標(biāo)短信所屬的第一類型。
[0014]可選的于,所述短信分類模型通過如下方法獲得:
[0015]采用預(yù)置的短信分類規(guī)則,構(gòu)造多分類的短信分類模型,其中,所述短信分類模型中的各個(gè)參數(shù)依據(jù)短信的屬性特征進(jìn)行設(shè)置,所述屬性特征包括短信的分詞、詞向量及主題向量;獲取多種類別的短信,其中,每種類別的短信包含多條;將所述多種類別的短信作為訓(xùn)練樣本對(duì)所述短信分類模型進(jìn)行訓(xùn)練,計(jì)算所述短信分類模型中的各個(gè)參數(shù),得到訓(xùn)練后的短信分類模型。
[0016]可選的,所述將所述多種類別的短信作為訓(xùn)練樣本對(duì)所述短信分類模型進(jìn)行訓(xùn)練,包括:根據(jù)所述多種類別的短信內(nèi)容獲得屬性特征;將提取的屬性特征和對(duì)應(yīng)的短信類別輸入所述短信分類模型進(jìn)行訓(xùn)練。
[0017]可選的,在所述根據(jù)所述至少一個(gè)分詞、所述短信詞向量、所述主題向量對(duì)所述目標(biāo)短信進(jìn)行分類,獲得所述目標(biāo)短信所屬的第一類型后,所述方法還包括:判斷所述第一類型是否為垃圾短信中的一種類型;若所述第一類型是垃圾短信中的一種類型,將所述目標(biāo)短信標(biāo)記為所述第一類型,并執(zhí)行將所述目標(biāo)短信作為攔截對(duì)象進(jìn)行攔截的操作。
[0018]可選的,若所述第一類型不是垃圾短信中的一種類型,所述方法還包括:
[0019]獲得用戶對(duì)所述目標(biāo)短信進(jìn)行標(biāo)記的第二類型;判斷所述第二類型是否與所述第一類型相同;若所述第二類型與所述第一類型不相同,將所述目標(biāo)短信標(biāo)記為所述第二類型,并將所述目標(biāo)短信作為所述第二類型的訓(xùn)練樣本更新所述短信訓(xùn)練模型。
[0020]可選的,若所述第一類型是垃圾短信中的一種類型,所述方法還包括:獲得發(fā)送所述目標(biāo)短信的電話號(hào)碼;建立所述目標(biāo)短信所屬的第一類型與所述電話號(hào)碼之間的對(duì)應(yīng)關(guān)系,并保存所述對(duì)應(yīng)關(guān)系至預(yù)置數(shù)據(jù)庫。
[0021]可選的,若所述目標(biāo)短信所屬的第一類型不是所述垃圾短信中的一種類型,所述目標(biāo)短信的發(fā)送方為陌生聯(lián)系人,所述方法還包括:
[0022]獲得發(fā)送所述目標(biāo)短信的電話號(hào)碼;對(duì)所述電話號(hào)碼的歸屬地和/或地區(qū)編碼號(hào)段進(jìn)行解析;若所述電話號(hào)碼的歸屬地和/或地區(qū)編碼號(hào)段與短信接收機(jī)主當(dāng)前所在地和/或所述當(dāng)前所在地的地區(qū)編碼號(hào)段不相同,則執(zhí)行將所述目標(biāo)短信作為攔截對(duì)象進(jìn)行攔截的操作;或者,若在所述短信接收機(jī)主的通信錄中不存在與所述電話號(hào)碼的歸屬地和/或地區(qū)編碼號(hào)段相同的聯(lián)系電話,則執(zhí)行將所述目標(biāo)短信作為攔截對(duì)象進(jìn)行攔截的操作。
[0023]本發(fā)明的另一個(gè)方面,提供一種對(duì)短信進(jìn)行分類的裝置,包括:
[0024]分詞模塊,用于對(duì)目標(biāo)短信進(jìn)行分詞,獲得所述目標(biāo)短信的至少一個(gè)分詞;
[0025]詞向量獲取模塊,用于獲得所述至少一個(gè)分詞的至少一個(gè)詞向量,及根據(jù)所述至少一個(gè)詞向量及語料詞矩陣生成所述目標(biāo)短信的短信詞向量;
[0026]主題向量獲取模塊,用于根據(jù)所述至少一個(gè)分詞獲得所述目標(biāo)短信所屬的主題向量;
[0027]分類模塊,用于根據(jù)所述至少一個(gè)分詞、所述短信詞向量、所述主題向量對(duì)所述目標(biāo)短信進(jìn)行分類,獲得所述目標(biāo)短信所屬的第一類型。
[0028]可選的,所述詞向量獲取模塊用于:分別將所述至少一個(gè)分詞中各分詞輸入詞向量工具獲得所述至少一個(gè)詞向量;將所述至少一個(gè)詞向量中所有詞向量及所述語料詞矩陣相乘獲得所述短信詞向量。
[0029]可選的,所述主題向量獲取模塊,用于:將所述至少一個(gè)分詞中的所有分詞輸入語義主題生成模型獲得所述主題向量。
[0030]可選的,所述分類模塊,包括:組合子模塊,用于將所述至少一個(gè)分詞中的每個(gè)分詞作為一個(gè)第一特征,所述短信詞向量作為第二特征,所述主題向量作為第三特征;將所有所述第一特征、所述第二特征及所述第三特征組合成一特征矩陣;輸入子模塊,用于將所述特征矩陣輸入短信分類模型對(duì)所述目標(biāo)短信進(jìn)行分類,獲得所述目標(biāo)短信所屬的第一類型。
[0031]可選的,通過如下所述裝置還包括:分類訓(xùn)練模塊,用于采用預(yù)置的短信分類規(guī)貝1J,構(gòu)造多分類的短信分類模型,其中,所述短信分類模型中的各個(gè)參數(shù)依據(jù)短信的屬性特征進(jìn)行設(shè)置,所述屬性特征包括短信的分詞、詞向量及主題向量;獲取多種類別的短信,其中,每種類別的短信包含多條;將所述多種類別的短信作為訓(xùn)練樣本對(duì)所述短信分類模型進(jìn)行訓(xùn)練,計(jì)算所述短信分類模型中的各個(gè)參數(shù),得到訓(xùn)練后的短信分類模型。
[0032]可選的,所述分類訓(xùn)練模塊,包括:特征獲取子模塊,用于根據(jù)所述多種類別的短信內(nèi)容獲得屬性特征;訓(xùn)練子模塊,用于將提取的屬性特征和對(duì)應(yīng)的短信類別輸入所述短信分類模型進(jìn)行訓(xùn)練。
[0033]可選的,所述裝置還包括:第一判斷模塊,用于在所述根據(jù)所述至少一個(gè)分詞、所述短信詞向量、所述主題向量對(duì)所述目標(biāo)短信進(jìn)行分類,獲得所述目標(biāo)短信所屬的第一類型后,判斷所述第一類型是否為垃圾短信中的一種類型;攔截模塊,用于在所述第一類型是垃圾短信中的一種類型時(shí),將所述目標(biāo)短信標(biāo)記為所述第一類型,并執(zhí)行將所述目標(biāo)短信作為攔截對(duì)象進(jìn)行攔截的操作。
[0034]可選的,所述裝置還包括:第二判斷模塊,用于在所述第一類型不是垃圾短信中的一種類型時(shí),獲得用戶對(duì)所述目標(biāo)短信進(jìn)行標(biāo)記的第二類型;判斷所述第二類型是否與所述第一類型相同;更新模塊,用于在所述第二類型與所述第一類型不相同時(shí),將所述目標(biāo)短信標(biāo)記為所述第二類型,并將所述目標(biāo)短信作為所述第二類型的訓(xùn)練樣本更新所述短信訓(xùn)練模型。
[0035]可選的,所述裝置還包括:號(hào)碼獲取模塊,用于在所述第一類型是垃圾短信中的一種類型時(shí),獲得發(fā)送所述目標(biāo)短信的電話號(hào)碼;生成模塊,用于建立所述目標(biāo)短信所屬的第一類型與所述電話號(hào)碼之間的對(duì)應(yīng)關(guān)系,并保存所述對(duì)應(yīng)關(guān)系至預(yù)置數(shù)據(jù)庫。
[0036]可選的,所述裝置還包括:號(hào)碼獲取模塊,用于在所述目標(biāo)短信所屬的第一類型不是所述垃圾短信中的一種類型,所述目標(biāo)短信的發(fā)送方為陌生聯(lián)系人時(shí),獲得發(fā)送所述目標(biāo)短信的電話號(hào)碼;解析模塊,用于對(duì)所述電話號(hào)碼的歸屬地和/或地區(qū)編碼號(hào)段進(jìn)行解析;攔截模塊,用于在所述電話號(hào)碼的歸屬地和/或地區(qū)編碼號(hào)段與短信接收機(jī)主當(dāng)前所在地和/或所述當(dāng)前所在地的地區(qū)編碼號(hào)段不相同時(shí),執(zhí)行將所述目標(biāo)短信作為攔截對(duì)象進(jìn)行攔截的操作;或者在所述短信接收機(jī)主的通信錄中不存在與所述電話號(hào)碼的歸屬地和/或地區(qū)編碼號(hào)段相同的聯(lián)系電話時(shí),執(zhí)行將所述目標(biāo)短信作為攔截對(duì)象進(jìn)行攔截的操作。
[0037]本發(fā)明的另一個(gè)方面,提供一種通信終端,包括一種對(duì)短信進(jìn)行分類的裝置,該裝置包括:分詞模塊,用于對(duì)目標(biāo)短信進(jìn)行分詞,獲得所述目標(biāo)短信的至少一個(gè)分詞;詞向量獲取模塊,用于獲得所述至少一個(gè)分詞的至少一個(gè)詞向量,及根據(jù)所述至少一個(gè)詞向量及語料詞矩陣生成所述目標(biāo)短信的短信詞向量;主題向量獲取模塊,用于根據(jù)所述至少一個(gè)分詞