時性計算機可讀存儲介質(zhì),例 如包括指令的存儲器1204,上述指令可由裝置1200的處理器1220執(zhí)行以完成上述方法。例 如,所述非臨時性計算機可讀存儲介質(zhì)可以是R0M、隨機存取存儲器(RAM)、CD-ROM、磁帶、 軟盤和光數(shù)據(jù)存儲設(shè)備等。
[0226] 本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的公開后,將容易想到本公開的其 它實施方案。本申請旨在涵蓋本公開的任何變型、用途或者適應(yīng)性變化,這些變型、用途或 者適應(yīng)性變化遵循本公開的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識 或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本公開的真正范圍和精神由下面的 權(quán)利要求指出。
[0227] 應(yīng)當(dāng)理解的是,本公開并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并 且可以在不脫離其范圍進行各種修改和改變。本公開的范圍僅由所附的權(quán)利要求來限制。
【主權(quán)項】
1. 一種用于短信領(lǐng)域分類的方法,其特征在于,所述方法包括: 確定收集到的所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集合; 根據(jù)所述所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集合確定分類器的訓(xùn)練數(shù)據(jù) 集; 根據(jù)在設(shè)定時間段內(nèi)統(tǒng)計到的所述每一短信領(lǐng)域?qū)?yīng)的短信模板集合中的每一短信 模板各自對應(yīng)的頻次確定所述每一短信模板對應(yīng)的用于訓(xùn)練所述分類器的次數(shù); 通過所述訓(xùn)練數(shù)據(jù)集以及所述短信模板集合中的每一短信模板對應(yīng)的用于訓(xùn)練所述 分類器的次數(shù)訓(xùn)練所述分類器,所述分類器用于得到相應(yīng)短信領(lǐng)域的分類結(jié)果。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述所有短信領(lǐng)域中每一短信 領(lǐng)域?qū)?yīng)的短信模板集合確定分類器的訓(xùn)練數(shù)據(jù)集,包括: 確定所述所有短信領(lǐng)域中的每一短信模板與所述每一短信領(lǐng)域的第一映射集合,所述 第一映射集合為所述所有短信模板中的每一短信模板、所述每一短信模板在所述設(shè)定時間 段內(nèi)統(tǒng)計到的頻次與所述每一短信領(lǐng)域的對應(yīng)關(guān)系; 確定所述第一映射集合中的每一短信模板中的關(guān)鍵字集合; 標(biāo)注所述每一短信模板中的關(guān)鍵字集合,得到第二映射集合,所述第二映射集合為所 述所有短信模板中的每一短信模板中的關(guān)鍵字集合、所述每一短信模板在所述設(shè)定時間段 內(nèi)統(tǒng)計到的頻次與所述每一短信領(lǐng)域的對應(yīng)關(guān)系,將所述第二映射集合作為訓(xùn)練數(shù)據(jù)集。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 確定所述所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的號碼集合; 確定所述每一短信領(lǐng)域?qū)?yīng)的號碼集合對應(yīng)的頻繁前綴集合和頻繁后綴集合; 確定所述頻繁前綴集合與所述所有短信領(lǐng)域中每一短信領(lǐng)域的第三映射集合,以及確 定所述頻繁后綴集合與所述所有短信領(lǐng)域中每一短信領(lǐng)域的第四映射集合,其中,所述第 三映射集合和所述第四映射集合用于基于待分類短信的發(fā)送方號碼確定所述待分類短信 的候選短信領(lǐng)域,以便根據(jù)所述候選短信領(lǐng)域?qū)?yīng)的分類器得到所述待分類短信的分類結(jié) 果。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定所述每一短信領(lǐng)域?qū)?yīng)的號碼 集合對應(yīng)的頻繁前綴集合和頻繁后綴集合,包括: 確定所述每一短信領(lǐng)域?qū)?yīng)的號碼集合中的每一發(fā)送方號碼的前綴和所述每一發(fā)送 方號碼的后綴; 統(tǒng)計所述號碼集合中的每一個前綴出現(xiàn)的第一次數(shù)和所述號碼集合中的每一個后綴 出現(xiàn)的第二次數(shù); 將所述第一次數(shù)大于第一設(shè)定閾值的前綴確定為所述每一短信領(lǐng)域?qū)?yīng)的號碼集合 對應(yīng)的頻繁前綴集合,將所述第二次數(shù)大于第二設(shè)定閾值的后綴確定為所述每一短信領(lǐng)域 對應(yīng)的號碼集合對應(yīng)的頻繁后綴集合。5. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括: 將訓(xùn)練后的所述分類器、所述第三映射集合和所述第四映射集合發(fā)送給移動終端,以 使所述移動終端根據(jù)所述第三映射集合、所述第四映射集合、所述分類器得到短信所屬的 短信領(lǐng)域。6. -種短信領(lǐng)域識別方法,其特征在于,所述方法包括: 在短信應(yīng)用程序接收到短信后,根據(jù)所述短信的發(fā)送方號碼確定所述短信對應(yīng)的短信 領(lǐng)域集合; 如果所述短信領(lǐng)域集合包括兩個以上的短信領(lǐng)域,通過分類器對所述短信的內(nèi)容進行 概率統(tǒng)計,得到兩個以上的統(tǒng)計結(jié)果; 將所述兩個以上的統(tǒng)計結(jié)果中的最大值對應(yīng)的短信領(lǐng)域確定為所述短信所屬的短信 領(lǐng)域。7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)所述短信的發(fā)送方號碼確定所 述短信對應(yīng)的短信領(lǐng)域集合,包括: 確定所述短信的發(fā)送方號碼的前綴和后綴; 分別在第三映射集合和第四映射集合查詢所述前綴和所述后綴,得到所述前綴和所述 后綴分別對應(yīng)的第一領(lǐng)域集合和第二領(lǐng)域集合,其中,所述第三映射集合和所述第四映射 集合分別用于表示發(fā)送方號碼的前綴與短信領(lǐng)域的第一對應(yīng)關(guān)系和發(fā)送方號碼的后綴與 短信領(lǐng)域的第二對應(yīng)關(guān)系; 通過所述第一領(lǐng)域集合和所述第二領(lǐng)域集合確定所述短信所屬的短信領(lǐng)域。8. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括: 如果所述短信領(lǐng)域集合包括一個短信領(lǐng)域,將所述短信領(lǐng)域集合所包括的該短信領(lǐng)域 確定為所述短信所屬的短信領(lǐng)域。9. 一種用于短信領(lǐng)域分類的裝置,其特征在于,所述裝置包括: 第一確定模塊,被配置為確定收集到的所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板 集合; 第二確定模塊,被配置為根據(jù)所述第一確定模塊確定的所述所有短信領(lǐng)域中每一短信 領(lǐng)域?qū)?yīng)的短信模板集合確定分類器的訓(xùn)練數(shù)據(jù)集; 第三確定模塊,被配置為根據(jù)在設(shè)定時間段內(nèi)統(tǒng)計到的所述每一短信領(lǐng)域?qū)?yīng)的短信 模板集合中的每一短信模板各自對應(yīng)的頻次確定所述每一短信模板對應(yīng)的用于訓(xùn)練所述 分類器次數(shù); 訓(xùn)練模塊,被配置為通過所述第二確定模塊確定的所述訓(xùn)練數(shù)據(jù)集以及所述第三確定 模塊確定的所述短信模板集合中的每一短信模板對應(yīng)的用于訓(xùn)練所述分類器的次數(shù)訓(xùn)練 所述分類器,所述分類器用于得到相應(yīng)短信領(lǐng)域的分類結(jié)果。10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第二確定模塊包括: 第一確定子模塊,被配置為確定所述所有短信領(lǐng)域中的每一短信模板與所述每一短信 領(lǐng)域的第一映射集合,所述第一映射集合為所述所有短信模板中的每一短信模板、所述每 一短信模板在所述設(shè)定時間段內(nèi)統(tǒng)計到的頻次與所述每一短信領(lǐng)域的對應(yīng)關(guān)系; 第二確定子模塊,被配置為確定所述第一確定子模塊確定的所述第一映射集合中的每 一短信模板中的關(guān)鍵字集合; 標(biāo)注子模塊,被配置為標(biāo)注所述第二確定子模塊確定的所述每一短信模板中的關(guān)鍵字 集合,得到第二映射集合,所述第二映射集合為所述所有短信模板中的每一短信模板中的 關(guān)鍵字集合、所述每一短信模板在所述設(shè)定時間段內(nèi)統(tǒng)計到的頻次與所述每一短信領(lǐng)域的 對應(yīng)關(guān)系,將所述第二映射集合作為訓(xùn)練數(shù)據(jù)集。11. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述裝置還包括: 第四確定模塊,被配置為確定所述所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的號碼集合; 第五確定模塊,被配置為確定所述第四確定模塊確定的所述每一短信領(lǐng)域?qū)?yīng)的號碼 集合對應(yīng)的頻繁前綴集合和頻繁后綴集合; 第六確定模塊,被配置為確定所述第五確定模塊確定的所述頻繁前綴集合與所述所有 短信領(lǐng)域中每一短信領(lǐng)域的第三映射集合,以及確定所述頻繁后綴集合與所述所有短信領(lǐng) 域中每一短信領(lǐng)域的第四映射集合,其中,所述第三映射集合和所述第四映射集合用于基 于待分類短信的發(fā)送方號碼確定所述待分類短信的候選短信領(lǐng)域,以便根據(jù)所述候選短信 領(lǐng)域?qū)?yīng)的分類器得到所述待分類短信的分類結(jié)果。12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第五確定模塊包括: 第三確定子模塊,被配置為確定所述每一短信領(lǐng)域?qū)?yīng)的號碼集合中的每一發(fā)送方號 碼的前綴和所述每一發(fā)送方號碼的后綴; 統(tǒng)計子模塊,被配置為統(tǒng)計所述第三確定子模塊確定的所述號碼集合中的每一個前綴 出現(xiàn)的第一次數(shù)和所述號碼集合中的每一個后綴出現(xiàn)的第二次數(shù); 第四確定子模塊,被配置為將所述統(tǒng)計子模塊統(tǒng)計到的所述第一次數(shù)大于第一設(shè)定閾 值的前綴確定為所述每一短信領(lǐng)域?qū)?yīng)的號碼集合對應(yīng)的頻繁前綴集合,將所述統(tǒng)計子模 塊統(tǒng)計到的所述第二次數(shù)大于第二設(shè)定閾值的后綴確定為所述每一短信領(lǐng)域?qū)?yīng)的號碼 集合對應(yīng)的頻繁后綴集合。13. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括: 發(fā)送模塊,被配置為將所述訓(xùn)練模塊訓(xùn)練后的所述分類器、所述第六確定模塊確定的 所述第三映射集合和所述第四映射集合發(fā)送給移動終端,以使所述移動終端根據(jù)所述第三 映射集合、所述第四映射集合、所述分類器得到短信所屬的短信領(lǐng)域。14. 一種短信領(lǐng)域識別裝置,其特征在于,所述裝置包括: 第七確定模塊,被配置為在短信應(yīng)用程序接收到短信后,根據(jù)所述短信的發(fā)送方號碼 確定所述短信對應(yīng)的短信領(lǐng)域集合; 統(tǒng)計模塊,被配置為如果所述第七確定模塊確定的所述短信領(lǐng)域集合包括兩個以上的 短信領(lǐng)域,通過分類器對所述短信的內(nèi)容進行概率統(tǒng)計,得到兩個以上的統(tǒng)計結(jié)果; 第八確定模塊,被配置為將所述統(tǒng)計模塊統(tǒng)計得到的所述兩個以上的統(tǒng)計結(jié)果中的最 大值對應(yīng)的短信領(lǐng)域確定為所述短信所屬的短信領(lǐng)域。15. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述第七確定模塊包括: 第五確定子模塊,被配置為確定所述短信的發(fā)送方號碼的前綴和后綴; 查詢子模塊,被配置為分別在第三映射集合和第四映射集合查詢所述第五確定子模塊 確定的所述前綴和所述后綴,得到所述前綴和所述后綴分別對應(yīng)的第一領(lǐng)域集合和第二領(lǐng) 域集合,其中,所述第三映射集合和所述第四映射集合分別用于表示發(fā)送方號碼的前綴與 短信領(lǐng)域的第一對應(yīng)關(guān)系和發(fā)送方號碼的后綴與短信領(lǐng)域的第二對應(yīng)關(guān)系; 第六確定子模塊,被配置為通過所述查詢子模塊得到的所述第一領(lǐng)域集合和所述第二 領(lǐng)域集合確定所述短信所述的短信領(lǐng)域集合。16. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述裝置還包括: 第九確定模塊,被配置為如果所述第七確定模塊確定的所述短信領(lǐng)域集合包括一個短 信領(lǐng)域,將所述短信領(lǐng)域集合所包括的該短信領(lǐng)域確定為所述短信所屬的短信領(lǐng)域。17. -種用于短信領(lǐng)域分類的裝置,其特征在于,所述裝置包括: 處理器; 用于存儲處理器可執(zhí)行指令的存儲器; 其中,所述處理器被配置為: 確定收集到的所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集合; 根據(jù)所述所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集合確定分類器的訓(xùn)練數(shù)據(jù) 集; 根據(jù)在設(shè)定時間段內(nèi)統(tǒng)計到的所述每一短信領(lǐng)域?qū)?yīng)的短信模板集合中的每一短信 模板各自對應(yīng)的頻次確定所述每一短信模板對應(yīng)的用于訓(xùn)練所述分類器的次數(shù); 通過所述訓(xùn)練數(shù)據(jù)集以及所述短信模板集合中的每一短信模板對應(yīng)的用于訓(xùn)練所述 分類器的次數(shù)訓(xùn)練所述分類器,所述分類器用于得到相應(yīng)短信領(lǐng)域的分類結(jié)果。18. -種短信領(lǐng)域識別裝置,其特征在于,所述裝置包括: 處理器; 用于存儲處理器可執(zhí)行指令的存儲器; 其中,所述處理器被配置為: 在短信應(yīng)用程序接收到短信后,根據(jù)所述短信的發(fā)送方號碼確定所述短信對應(yīng)的短信 領(lǐng)域集合; 如果所述短信領(lǐng)域集合包括兩個以上的短信領(lǐng)域,通過分類器對所述短信的內(nèi)容進行 概率統(tǒng)計,得到兩個以上的統(tǒng)計結(jié)果; 將所述兩個以上的統(tǒng)計結(jié)果中的最大值對應(yīng)的短信領(lǐng)域確定為所述短信所屬的短信 領(lǐng)域。
【專利摘要】本公開是關(guān)于一種用于短信領(lǐng)域分類的方法、短信領(lǐng)域識別方法及裝置。用于短信領(lǐng)域分類的方法包括:確定收集到的所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集合;根據(jù)所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集合確定分類器的訓(xùn)練數(shù)據(jù)集;根據(jù)在設(shè)定時間段內(nèi)統(tǒng)計到的每一短信領(lǐng)域?qū)?yīng)的短信模板集合中的每一短信模板各自對應(yīng)的頻次確定每一短信模板對應(yīng)的用于訓(xùn)練分類器的次數(shù);通過訓(xùn)練數(shù)據(jù)集以及短信模板集合中的每一短信模板對應(yīng)的用于訓(xùn)練分類器的次數(shù)訓(xùn)練分類器。本公開技術(shù)方案可以避免相關(guān)技術(shù)中將所有的語義模板作為候選模板對接收到的短信進行匹配導(dǎo)致的計算負(fù)擔(dān),為短信內(nèi)容的深度理解做了較好的鋪墊。
【IPC分類】G06F17/30
【公開號】CN105302877
【申請?zhí)枴緾N201510650441
【發(fā)明人】汪平仄, 張濤, 陳志軍
【申請人】小米科技有限責(zé)任公司
【公開日】2016年2月3日
【申請日】2015年10月9日