用于短信領(lǐng)域分類的方法、短信領(lǐng)域識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本公開涉及文本分類領(lǐng)域,尤其涉及一種用于短信領(lǐng)域分類的方法、短信領(lǐng)域識 別方法及裝置。
【背景技術(shù)】
[0002] 由于通知類短信的文本內(nèi)容較短,但是知識點(diǎn)較為密集,例如,航班訂單短信中, 包含:航班號、起飛城市、到達(dá)城市、起飛機(jī)場、到達(dá)機(jī)場、起飛時間、到達(dá)時間、坐席、航空公 司、票號等信息,對于如此密集的實體抽取,為了保證較高的準(zhǔn)確率,相關(guān)技術(shù)通常采用基 于詞匯-句法模式的方法,在句法模式的表達(dá)上使用語義模板。由于語義模板的數(shù)量非常 龐大,因此移動終端在接收到通知類短信后,如果將所有的語義模板均作為候選模板對接 收到的短信進(jìn)行匹配,對于移動終端的處理器而言將會是較大的計算負(fù)擔(dān)。
【發(fā)明內(nèi)容】
[0003] 為克服相關(guān)技術(shù)中存在的問題,本公開實施例提供一種用于短信領(lǐng)域分類的方 法、短信領(lǐng)域識別方法及裝置,通過對短信進(jìn)行領(lǐng)域分類從而方便對短信進(jìn)行深度理解。
[0004] 根據(jù)本公開實施例的第一方面,提供一種用于短信領(lǐng)域分類的方法,包括:
[0005] 確定收集到的所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集合;
[0006] 根據(jù)所述所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集合確定分類器的訓(xùn)練 數(shù)據(jù)集;
[0007] 根據(jù)在設(shè)定時間段內(nèi)統(tǒng)計到的所述每一短信領(lǐng)域?qū)?yīng)的短信模板集合中的每一 短信模板各自對應(yīng)的頻次確定所述每一短信模板對應(yīng)的用于訓(xùn)練所述分類器的次數(shù);
[0008] 通過所述訓(xùn)練數(shù)據(jù)集以及所述短信模板集合中的每一短信模板對應(yīng)的用于訓(xùn)練 所述分類器的次數(shù)訓(xùn)練所述分類器,所述分類器用于得到相應(yīng)短信領(lǐng)域的分類結(jié)果。
[0009] 在一實施例中,所述根據(jù)所述所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集合 確定分類器的訓(xùn)練數(shù)據(jù)集,可包括:
[0010] 確定所述所有短信領(lǐng)域中的每一短信模板與所述每一短信領(lǐng)域的第一映射集合, 所述第一映射集合為所述所有短信模板中的每一短信模板、所述每一短信模板在所述設(shè)定 時間段內(nèi)統(tǒng)計到的頻次與所述每一短信領(lǐng)域的對應(yīng)關(guān)系;
[0011] 確定所述第一映射集合中的每一短信模板中的關(guān)鍵字集合;
[0012] 標(biāo)注所述每一短信模板中的關(guān)鍵字集合,得到第二映射集合,所述第二映射集合 為所述所有短信模板中的每一短信模板中的關(guān)鍵字集合、所述每一短信模板在所述設(shè)定時 間段內(nèi)統(tǒng)計到的頻次與所述每一短信領(lǐng)域的對應(yīng)關(guān)系,將所述第二映射集合作為訓(xùn)練數(shù)據(jù) 集。
[0013] 在一實施例中,所述方法還可包括:
[0014] 確定所述所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的號碼集合;
[0015] 確定所述每一短信領(lǐng)域?qū)?yīng)的號碼集合對應(yīng)的頻繁前綴集合和頻繁后綴集合;
[0016] 確定所述頻繁前綴集合與所述所有短信領(lǐng)域中每一短信領(lǐng)域的第三映射集合,以 及確定所述頻繁后綴集合與所述所有短信領(lǐng)域中每一短信領(lǐng)域的第四映射集合,其中,所 述第三映射集合和所述第四映射集合用于基于待分類短信的發(fā)送方號碼確定所述待分類 短信的候選短信領(lǐng)域,以便根據(jù)所述候選短信領(lǐng)域?qū)?yīng)的分類器得到所述待分類短信的分 類結(jié)果。
[0017] 在一實施例中,所述確定所述每一短信領(lǐng)域?qū)?yīng)的號碼集合對應(yīng)的頻繁前綴集合 和頻繁后綴集合,可包括:
[0018] 確定所述每一短信領(lǐng)域?qū)?yīng)的號碼集合中的每一發(fā)送方號碼的前綴和所述每一 發(fā)送方號碼的后綴;
[0019] 統(tǒng)計所述號碼集合中的每一個前綴出現(xiàn)的第一次數(shù)和所述號碼集合中的每一個 后綴出現(xiàn)的第二次數(shù);
[0020] 將所述第一次數(shù)大于第一設(shè)定閾值的前綴確定為所述每一短信領(lǐng)域?qū)?yīng)的號碼 集合對應(yīng)的頻繁前綴集合,將所述第二次數(shù)大于第二設(shè)定閾值的后綴確定為所述每一短信 領(lǐng)域?qū)?yīng)的號碼集合對應(yīng)的頻繁后綴集合。
[0021 ] 在一實施例中,所述方法還可包括:
[0022] 將訓(xùn)練后的所述分類器、所述第三映射集合和所述第四映射集合發(fā)送給移動終 端,以使所述移動終端根據(jù)所述第三映射集合、所述第四映射集合、所述分類器得到短信所 屬的短信領(lǐng)域。
[0023] 根據(jù)本公開實施例的第二方面,提供一種短信領(lǐng)域識別方法,包括:
[0024] 在短信應(yīng)用程序接收到短信后,根據(jù)所述短信的發(fā)送方號碼確定所述短信對應(yīng)的 短信領(lǐng)域集合;
[0025] 如果所述短信領(lǐng)域集合包括兩個以上的短信領(lǐng)域,通過分類器對所述短信的內(nèi)容 進(jìn)行概率統(tǒng)計,得到兩個以上的統(tǒng)計結(jié)果;
[0026] 將所述兩個以上的統(tǒng)計結(jié)果中的最大值對應(yīng)的短信領(lǐng)域確定為所述短信所屬的 短信領(lǐng)域。
[0027] 在一實施例中,所述根據(jù)所述短信的發(fā)送方號碼確定所述短信對應(yīng)的短信領(lǐng)域集 合,可包括:
[0028] 確定所述短信的發(fā)送方號碼的前綴和后綴;
[0029] 分別在第三映射集合和第四映射集合查詢所述前綴和所述后綴,得到所述前綴和 所述后綴分別對應(yīng)的第一領(lǐng)域集合和第二領(lǐng)域集合,其中,所述第三映射集合和所述第四 映射集合分別用于表示發(fā)送方號碼的前綴與短信領(lǐng)域的第一對應(yīng)關(guān)系和發(fā)送方號碼的后 綴與短信領(lǐng)域的第二對應(yīng)關(guān)系;
[0030] 通過所述第一領(lǐng)域集合和所述第二領(lǐng)域集合確定所述短信所屬的短信領(lǐng)域。
[0031 ] 在一實施例中,所述方法還可包括:
[0032] 如果所述短信領(lǐng)域集合包括一個短信領(lǐng)域,將所述短信領(lǐng)域集合所包括的該短信 領(lǐng)域確定為所述短信所屬的短信領(lǐng)域。
[0033] 根據(jù)本公開實施例的第三方面,提供一種數(shù)短信領(lǐng)域分類裝置,包括:
[0034] 第一確定模塊,被配置為確定收集到的所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信 模板集合;
[0035] 第二確定模塊,被配置為根據(jù)所述第一確定模塊確定的所述所有短信領(lǐng)域中每一 短信領(lǐng)域?qū)?yīng)的短信模板集合確定分類器的訓(xùn)練數(shù)據(jù)集;
[0036] 第三確定模塊,被配置為根據(jù)在設(shè)定時間段內(nèi)統(tǒng)計到的所述每一短信領(lǐng)域?qū)?yīng)的 短信模板集合中的每一短信模板各自對應(yīng)的頻次確定所述每一短信模板對應(yīng)的用于訓(xùn)練 所述分類器次數(shù);
[0037] 訓(xùn)練模塊,被配置為通過所述第二確定模塊確定的所述訓(xùn)練數(shù)據(jù)集以及所述第三 確定模塊確定的所述短信模板集合中的每一短信模板對應(yīng)的用于訓(xùn)練所述分類器的次數(shù) 訓(xùn)練所述分類器,所述分類器用于得到相應(yīng)短信領(lǐng)域的分類結(jié)果。
[0038] 在一實施例中,所述第二確定模塊可包括:
[0039] 第一確定子模塊,被配置為確定所述所有短信領(lǐng)域中的每一短信模板與所述每一 短信領(lǐng)域的第一映射集合,所述第一映射集合為所述所有短信模板中的每一短信模板、所 述每一短信模板在所述設(shè)定時間段內(nèi)統(tǒng)計到的頻次與所述每一短信領(lǐng)域的對應(yīng)關(guān)系;
[0040] 第二確定子模塊,被配置為確定所述第一確定子模塊確定的所述第一映射集合中 的每一短信模板中的關(guān)鍵字集合;
[0041] 標(biāo)注子模塊,被配置為標(biāo)注所述第二確定子模塊確定的所述每一短信模板中的關(guān) 鍵字集合,得到第二映射集合,所述第二映射集合為所述所有短信模板中的每一短信模板 中的關(guān)鍵字集合、所述每一短信模板在所述設(shè)定時間段內(nèi)統(tǒng)計到的頻次與所述每一短信領(lǐng) 域的對應(yīng)關(guān)系,將所述第二映射集合作為訓(xùn)練數(shù)據(jù)集。
[0042] 在一實施例中,所述裝置還可包括:
[0043] 第四確定模塊,被配置為確定所述所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的號碼集 合;
[0044] 第五確定模塊,被配置為確定所述第四確定模塊確定的所述每一短信領(lǐng)域?qū)?yīng)的 號碼集合對應(yīng)的頻繁前綴集合和頻繁后綴集合;
[0045] 第六確定模塊,被配置為確定所述第五確定模塊確定的所述頻繁前綴集合與所述 所有短信領(lǐng)域中每一短信領(lǐng)域的第三映射集合,以及確定所述頻繁后綴集合與所述所有短 信領(lǐng)域中每一短信領(lǐng)域的第四映射集合,其中,所述第三映射集合和所述第四映射集合用 于基于待分類短信的發(fā)送方號碼確定所述待分類短信的候選短信領(lǐng)域,以便根據(jù)所述候選 短信領(lǐng)域?qū)?yīng)的分類器得到所述待分類短信的分類結(jié)果。
[0046] 在一實施例中,所述第五確定模塊可包括:
[0047] 第三確定子模塊,被配置為確定所述每一短信領(lǐng)域?qū)?yīng)的號碼集合中的每一發(fā)送 方號碼的前綴和所述每一發(fā)送方號碼的后綴;
[0048] 統(tǒng)計子模塊,被配置為統(tǒng)計所述第三確定子模塊確定的所述號碼集合中的每一個 前綴出現(xiàn)的第一次數(shù)和所述號碼集合中的每一個后綴出現(xiàn)的第二次數(shù);
[0049] 第四確定子模塊,被配置為將所述統(tǒng)計子模塊統(tǒng)計到的所述第一次數(shù)大于第一設(shè) 定閾值的前綴確定為所述每一短信領(lǐng)域?qū)?yīng)的號碼集合對應(yīng)的頻繁前綴集合,將所述統(tǒng)計 子模塊統(tǒng)計到的所述第二次數(shù)大于第二設(shè)定閾值的后綴確定為所述每一短信領(lǐng)域?qū)?yīng)的 號碼集合對應(yīng)的頻繁后綴集合。
[0050] 在一實施例中,所述裝置還可包括:
[0051] 發(fā)送模塊,被配置為將所述訓(xùn)練模塊訓(xùn)練后的所述分類器、所述第六確定模塊確 定的所述第三映射集合和所述第四映射集合發(fā)送給移動終端,以使所述移動終端根據(jù)所述 第三映射集合、所述第四映射集合、所述分類器得到短信所屬的短信領(lǐng)域。
[0052] 根據(jù)本公開實施例的第四方面,提供一種短信領(lǐng)域識別裝置,包括:
[0053] 第七確定模塊,被配置為在短信應(yīng)用程序接收到短信后,根據(jù)所述短信的發(fā)送方 號碼確定所述短信對應(yīng)的短信領(lǐng)域集合;
[0054] 統(tǒng)計模塊,被配置為如果所述第七確定模塊確定的所述短信領(lǐng)域集合包括兩個以 上的短信領(lǐng)域,通過分類器對所述短信的內(nèi)容進(jìn)行概率統(tǒng)計,得到兩個以上的統(tǒng)計結(jié)果;
[0055] 第八確定模塊,被配置為將所述統(tǒng)計模塊統(tǒng)計得到的所述兩個以上的統(tǒng)計結(jié)果中 的最大值對應(yīng)的短信領(lǐng)域確定為所述短信所屬的短信領(lǐng)域。
[0056] 在一實施例中,所述第七確定模塊可包括:
[0057] 第五確定子模塊,被配置為確定所述短信的發(fā)送方號碼的前綴和后綴;
[0058] 查詢子模塊,被配置為分別在第三映射集合和第四映射集合查詢所述第五確定子 模塊確定的所述前綴和所述后綴,得到所述前綴和所述后綴分別對應(yīng)的第一領(lǐng)域集合和第 二領(lǐng)域集合,其中,所述第三映射集合和所述第四映射集合分別用于表示發(fā)送方號碼的前 綴與短信領(lǐng)域的第一對應(yīng)關(guān)系和發(fā)送方號碼的后綴與短信領(lǐng)域的第二對應(yīng)關(guān)系;
[0059] 第六確定子模塊,被配置為通過所述查詢子模塊得到的所述第一領(lǐng)域集合和所述 第二領(lǐng)域集合確定所述短信所述的短信領(lǐng)域集合。
[0060] 在一實施例中,所述裝置還可包括:
[0061] 第九確定模塊,被配置為如果所述第七確定模塊確定的所述短信領(lǐng)域集合包括一 個短信領(lǐng)域,將所述短信領(lǐng)域集合所包括的該短信領(lǐng)域確定為所述短信所屬的短信領(lǐng)域。
[0062] 根據(jù)本公開實施例的第五方面,提供一種數(shù)短信領(lǐng)域分類裝置,包括:
[0063] 處理器;
[0064] 用于存儲處理器可執(zhí)行指令的存儲器;
[0065] 其中,所述處理器被配置為:
[0066] 確定收集到的所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集合;
[0067] 根據(jù)所述所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集合確定分類器的訓(xùn)練 數(shù)據(jù)集;
[0068] 根據(jù)在設(shè)定時間段內(nèi)統(tǒng)計到的所述每一短信領(lǐng)域?qū)?yīng)的短信模板集合中的每一 短信模板各自對應(yīng)的頻次確定所述每一短信模板對應(yīng)的用于訓(xùn)練所述分類器的次數(shù);
[0069] 通過所述訓(xùn)練數(shù)據(jù)集以及所述短信模板集合中的每一短信模板對應(yīng)的用于訓(xùn)練 所述分類器的次數(shù)訓(xùn)練所述分類器,所述分類器用于得到相應(yīng)短信領(lǐng)域的分類結(jié)果。