[0070] 根據(jù)本公開實(shí)施例的第六方面,提供一種短信領(lǐng)域識(shí)別裝置,包括:
[0071] 處理器;
[0072] 用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;
[0073] 其中,所述處理器被配置為:
[0074] 在短信應(yīng)用程序接收到短信后,根據(jù)所述短信的發(fā)送方號(hào)碼確定所述短信對(duì)應(yīng)的 短信領(lǐng)域集合;
[0075] 如果所述短信領(lǐng)域集合包括兩個(gè)以上的短信領(lǐng)域,通過(guò)分類器對(duì)所述短信的內(nèi)容 進(jìn)行概率統(tǒng)計(jì),得到兩個(gè)以上的統(tǒng)計(jì)結(jié)果;
[0076] 將所述兩個(gè)以上的統(tǒng)計(jì)結(jié)果中的最大值對(duì)應(yīng)的短信領(lǐng)域確定為所述短信所屬的 短信領(lǐng)域。
[0077] 本公開的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:通過(guò)所有短信領(lǐng)域中每 一短信領(lǐng)域?qū)?yīng)的每一個(gè)短信模板作為分類器的訓(xùn)練數(shù)據(jù)集,通過(guò)每一短信模板各自對(duì)應(yīng) 的頻次確定所述每一短信模板對(duì)應(yīng)的用于訓(xùn)練所述分類器的次數(shù),通過(guò)訓(xùn)練數(shù)據(jù)集和短信 模板集合中的每一短信模板對(duì)應(yīng)的用于訓(xùn)練所述分類器的次數(shù)對(duì)分類器進(jìn)行訓(xùn)練,從而使 訓(xùn)練后的分類器能夠通過(guò)對(duì)短信領(lǐng)域進(jìn)行分類,進(jìn)而可以使移動(dòng)終端通過(guò)分類器對(duì)接收到 的短信進(jìn)行領(lǐng)域識(shí)別,避免相關(guān)技術(shù)中將所有的語(yǔ)義模板作為候選模板對(duì)接收到的短信進(jìn) 行匹配導(dǎo)致的計(jì)算負(fù)擔(dān);此外,由于短信領(lǐng)域是短信深度理解的必要步驟,本實(shí)施例通過(guò)對(duì) 短信領(lǐng)域進(jìn)行分類,為短信內(nèi)容的深度理解做了較好的鋪墊。
[0078] 應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不 能限制本公開。
【附圖說(shuō)明】
[0079] 此處的附圖被并入說(shuō)明書中并構(gòu)成本說(shuō)明書的一部分,示出了符合本發(fā)明的實(shí)施 例,并與說(shuō)明書一起用于解釋本發(fā)明的原理。
[0080] 圖1是根據(jù)一示例性實(shí)施例示出的用于短信領(lǐng)域分類的方法的流程圖。
[0081] 圖2是根據(jù)一示例性實(shí)施例一示出的用于短信領(lǐng)域分類的方法的流程圖。
[0082] 圖3是根據(jù)一示例性實(shí)施例二示出的用于短信領(lǐng)域分類的方法的流程圖。
[0083] 圖4A是根據(jù)一示例性實(shí)施例示出的短信領(lǐng)域識(shí)別方法的流程圖。
[0084] 圖4B是根據(jù)一示例性實(shí)施例示出的短信領(lǐng)域識(shí)別方法的場(chǎng)景圖。
[0085] 圖5是根據(jù)一示例性實(shí)施例一示出的短信領(lǐng)域識(shí)別方法的流程圖。
[0086] 圖6是根據(jù)一示例性實(shí)施例二示出的短信領(lǐng)域識(shí)別方法的流程圖。
[0087] 圖7是根據(jù)一示例性實(shí)施例示出的一種用于短信領(lǐng)域分類的裝置的框圖。
[0088] 圖8是根據(jù)一示例性實(shí)施例示出的另一種用于短信領(lǐng)域分類的裝置的框圖。
[0089] 圖9是根據(jù)一示例性實(shí)施例示出的一種短信領(lǐng)域識(shí)別裝置的框圖。
[0090] 圖10是根據(jù)一示例性實(shí)施例示出的另一種短信領(lǐng)域識(shí)別裝置的框圖。
[0091] 圖11是根據(jù)一示例性實(shí)施例示出的一種適用于用于短信領(lǐng)域分類的裝置的框 圖。
[0092] 圖12是根據(jù)一示例性實(shí)施例示出的一種適用于短信領(lǐng)域識(shí)別裝置的框圖。
【具體實(shí)施方式】
[0093] 這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說(shuō)明,其示例表示在附圖中。下面的描述涉及 附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例 中所描述的實(shí)施方式并不代表與本發(fā)明相一致的所有實(shí)施方式。相反,它們僅是與如所附 權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
[0094] 圖1是根據(jù)一示例性實(shí)施例示出的用于短信領(lǐng)域分類的方法的流程圖;該短信領(lǐng) 域分類方法可以應(yīng)用在云服務(wù)器上,該云服務(wù)器可以收集用戶通過(guò)移動(dòng)終端上傳的短信, 如圖1所示,該用于短信領(lǐng)域分類的方法包括以下步驟S101-S104 :
[0095] 在步驟SlOl中,確定收集到的所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集 合。
[0096] 例如,定義"去哪兒網(wǎng)航班預(yù)訂"短信領(lǐng)域?yàn)镈1,"去哪兒網(wǎng)酒店預(yù)訂"短信領(lǐng)域?yàn)?D2,"去哪兒網(wǎng)火車票預(yù)訂"短信領(lǐng)域?yàn)镈3,"鐵路客服火車票預(yù)訂"短信領(lǐng)域?yàn)镈4,…;其中, 第i個(gè)短信領(lǐng)域DJi應(yīng)的短信模板集合為:{P u,P12,…,Plj,…,P1J,在該短信模板集合 中,共有m個(gè)短信模板,m為正整數(shù),P ljS D i的第j個(gè)模板。
[0097] 在步驟S102中,根據(jù)所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集合確定分 類器的訓(xùn)練數(shù)據(jù)集。
[0098] 在一實(shí)施例中,所有短信領(lǐng)域D的所有模板集合Q = {{Pn,P12,…,PJ,{P21,…, P22,…,PJ,…,{Ptl,Pt2,…,Ptk}}訓(xùn)練分類器,其中,所有短信領(lǐng)域D中共有t個(gè)短信 領(lǐng)域,每個(gè)短信領(lǐng)域?qū)?yīng)的短信模板集合中包括不同個(gè)數(shù)的短信模板,例如,第t個(gè)短信領(lǐng) 域?qū)?yīng)的短信模板集合中共有k個(gè)短信模板,由此可知,所有短信領(lǐng)域D的所有模板集合 中共有(πι+η+···+1〇個(gè)短信模板,可以將該(πι+η+···+1〇個(gè)短信模板作為分類器的訓(xùn)練數(shù)據(jù) 集。在一實(shí)施例中,分類器可以為樸素貝葉斯分類器,通過(guò)樸素貝葉斯分類器可以對(duì)短信領(lǐng) 域的分類具有較佳的分類效果,當(dāng)然,還可以為其它能夠?qū)Χ绦蓬I(lǐng)域進(jìn)行分類的分類器。
[0099] 在步驟S103中,根據(jù)在設(shè)定時(shí)間段內(nèi)統(tǒng)計(jì)到的每一短信領(lǐng)域?qū)?yīng)的短信模板集 合中的每一短信模板各自對(duì)應(yīng)的頻次確定每一短信模板對(duì)應(yīng)的用于訓(xùn)練所述分類器的次 數(shù)。
[0100] 在步驟S104中,通過(guò)訓(xùn)練數(shù)據(jù)集訓(xùn)以及短信模板集合中的每一短信模板對(duì)應(yīng)的 用于訓(xùn)練分類器的次數(shù)訓(xùn)練分類器,分類器用于得到相應(yīng)短信領(lǐng)域的分類結(jié)果。
[0101] 在一實(shí)施例中,以設(shè)定時(shí)間段為一個(gè)月為例第i個(gè)短信領(lǐng)域仏對(duì)應(yīng)的短信模板 集合進(jìn)行示例性說(shuō)明,短信領(lǐng)域應(yīng)的短信模板集合為:{Pu,P12,…,Pu,…,PJ,該 第i個(gè)短信領(lǐng)域D1對(duì)應(yīng)的短信模板匹配短信的頻次依次為{Fu,F(xiàn)l2…,F(xiàn)lj,…,F(xiàn) 1J,可替換 地,可以將短信模板與對(duì)應(yīng)的頻次以二元組的方式記錄為:KP11, F11X <Pl2, Fl2>,…,〈Ρ^ Fij>,…,〈Pim,F(xiàn)im>} 〇
[0102] 本實(shí)施例中,通過(guò)所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的每一個(gè)短信模板作為分類 器的訓(xùn)練數(shù)據(jù)集,通過(guò)每一短信模板各自對(duì)應(yīng)的頻次確定所述每一短信模板對(duì)應(yīng)的用于訓(xùn) 練所述分類器的次數(shù),通過(guò)訓(xùn)練數(shù)據(jù)集和短信模板集合中的每一短信模板對(duì)應(yīng)的用于訓(xùn)練 所述分類器的次數(shù)對(duì)分類器進(jìn)行訓(xùn)練,從而使訓(xùn)練后的分類器能夠通過(guò)對(duì)短信領(lǐng)域進(jìn)行分 類,進(jìn)而可以使移動(dòng)終端通過(guò)分類器對(duì)接收到的短信進(jìn)行領(lǐng)域識(shí)別,避免相關(guān)技術(shù)中將所 有的語(yǔ)義模板作為候選模板對(duì)接收到的短信進(jìn)行匹配導(dǎo)致的計(jì)算負(fù)擔(dān);此外,由于短信領(lǐng) 域是短信深度理解的必要步驟,本實(shí)施例通過(guò)對(duì)短信領(lǐng)域進(jìn)行分類,為短信內(nèi)容的深度理 解做了較好的鋪墊。
[0103] 在一實(shí)施例中,根據(jù)所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的短信模板集合確定分類 器的訓(xùn)練數(shù)據(jù)集,可包括:
[0104] 確定所有短信領(lǐng)域中的每一短信模板與每一短信領(lǐng)域的第一映射集合,第一映射 集合為所有短信模板中的每一短信模板、每一短信模板在設(shè)定時(shí)間段內(nèi)統(tǒng)計(jì)到的頻次與每 一短信領(lǐng)域的對(duì)應(yīng)關(guān)系:
[0105] 確定第一映射集合中的每一短信模板中的關(guān)鍵字集合;
[0106] 標(biāo)注每一短信模板中的關(guān)鍵字集合,得到第二映射集合,第二映射集合為所有短 信模板中的每一短信模板中的關(guān)鍵字集合、每一短信模板在設(shè)定時(shí)間段內(nèi)統(tǒng)計(jì)到的頻次與 每一短信領(lǐng)域的對(duì)應(yīng)關(guān)系,將第二映射集合作為訓(xùn)練數(shù)據(jù)集。
[0107] 在一實(shí)施例中,方法還可包括:
[0108] 確定所有短信領(lǐng)域中每一短信領(lǐng)域?qū)?yīng)的號(hào)碼集合;
[0109] 確定每一短信領(lǐng)域?qū)?yīng)的號(hào)碼集合對(duì)應(yīng)的頻繁前綴集合和頻繁后綴集合;
[0110] 確定頻繁前綴集合與所有短信領(lǐng)域中每一短信領(lǐng)域的第三映射集合,以及確定頻 繁后綴集合與所有短信領(lǐng)域中每一短信領(lǐng)域的第四映射集合,其中,第三映射集合和第四 映射集合用于基于待分類短信的發(fā)送方號(hào)碼確定待分類短信的候選短信領(lǐng)域,以便根據(jù)候 選短信領(lǐng)域?qū)?yīng)的分類器得到待分類短信的分類結(jié)果。
[0111] 在一實(shí)施例中,確定每一短信領(lǐng)域?qū)?yīng)的號(hào)碼集合對(duì)應(yīng)的頻繁前綴集合和頻繁后 綴集合,可包括:
[0112] 確定每一短信領(lǐng)域?qū)?yīng)的號(hào)碼集合中的每一發(fā)送方號(hào)碼的前綴和每一發(fā)送方號(hào) 碼的后綴;
[0113] 統(tǒng)計(jì)號(hào)碼集合中的每一個(gè)前綴出現(xiàn)的第一次數(shù)和號(hào)碼集合中的每一個(gè)后綴出現(xiàn) 的第二次數(shù);
[0114] 將第一次數(shù)大于第一設(shè)定閾值的前綴確定為每一短信領(lǐng)域?qū)?yīng)的號(hào)碼集合對(duì)應(yīng) 的頻繁前綴集合,將第二次數(shù)大于第二設(shè)定閾值的后綴確定為每一短信領(lǐng)域?qū)?yīng)的號(hào)碼集 合對(duì)應(yīng)的頻繁后綴集合。
[0115] 在一實(shí)施例中,方法還可包括:
[0116] 將訓(xùn)練后的分類器、第三映射集合和第四映射集合發(fā)送給移動(dòng)終端。
[0117] 具體如何對(duì)短信進(jìn)行領(lǐng)域分類的,請(qǐng)參考后續(xù)實(shí)施例。
[0118] 至此,本公開實(shí)施例提供的上述方法,可以使訓(xùn)練后的分類器能夠?qū)Χ绦蓬I(lǐng)域進(jìn) 行分類,進(jìn)而可以使移動(dòng)終端通過(guò)分類器對(duì)接收到的短信進(jìn)行領(lǐng)域識(shí)別,避免相關(guān)技術(shù)中 將所有的語(yǔ)義模板作為候選模板對(duì)接收到的短信進(jìn)行匹配導(dǎo)致的計(jì)算負(fù)擔(dān);此外,通過(guò)對(duì) 短信領(lǐng)域進(jìn)行分類,為短信內(nèi)容的深度理解做了較好的鋪墊。
[0119] 下面以具體實(shí)施例來(lái)說(shuō)明本公開實(shí)施例提供的技術(shù)方案。
[0120] 圖2是根據(jù)一示例性實(shí)施例一示出的用于短信領(lǐng)域分類的方法的流程圖;本實(shí)施 例利用本公開實(shí)施例提供的上述方法,以分類器具體為樸素貝葉斯分類器以及如何確定樸 素貝葉斯分類器的訓(xùn)練數(shù)據(jù)集為例進(jìn)行示例性說(shuō)明,如圖2所示,包括如下步驟:
[0121] 在步驟S201中,確定所有短信領(lǐng)域中的每一短信模板與每一短信領(lǐng)域的第一映 射集合,第一映射集合為所有短信模板中的每一短信模板、每一短信模板在設(shè)定時(shí)間段內(nèi) 統(tǒng)計(jì)到的頻次與每一短信領(lǐng)域的對(duì)應(yīng)關(guān)系。
[0122] 在一實(shí)施例中,通過(guò)對(duì)所有短信領(lǐng)域中的每一短信模板所屬的短信領(lǐng)域進(jìn)行統(tǒng) 計(jì),得到第一映射集合,其中,第一映射集合G為:
[0123]
[0125] 其中,<Plni,F(xiàn)J^D1表示短信模板P lni在一個(gè)月內(nèi)匹配到的短信數(shù)量為Flni,短信 模板P1 Ji于短信領(lǐng)域D113
[0126] 在步驟S202中,確定第一映射集合中的每一短信模板中的關(guān)鍵字集合。
[0127] 在步驟S203中,標(biāo)注每一短信模板中的關(guān)鍵字集合,得到第二映射集合,第二映 射集合為所有短信模板中的每一短信模板中的關(guān)鍵字集合、每一短信模板在設(shè)定時(shí)間段內(nèi) 統(tǒng)計(jì)到的頻次與每一短信領(lǐng)域的對(duì)應(yīng)關(guān)系,將第二映射集合作為訓(xùn)練數(shù)據(jù)集。
[0128] 在一實(shí)施例中,可以提取短信模板Plj中的關(guān)鍵字,對(duì)關(guān)鍵字進(jìn)行分詞,由第一映 射集合得到對(duì)關(guān)鍵字標(biāo)注好的第二映射集合T :
[0129]
[0130] 例如:短信領(lǐng)域D1的第j個(gè)短模板為P i j = "成功預(yù)訂〈#時(shí)間#>至〈#時(shí)間#>〈# 酒店名#>酒店〈#數(shù)字#>間豪華標(biāo)準(zhǔn)間-優(yōu)惠價(jià)。入住人:〈#人名#>",可以得到如下關(guān) 鍵字:
[0131] 〈Win,Wlj2,…,Wljk> =〈成功,預(yù)訂,至,酒店,間,豪華,標(biāo)準(zhǔn)間,優(yōu)惠價(jià),入住,人〉。
[0132] 本實(shí)施例中,通過(guò)對(duì)所有短信領(lǐng)域中的每一短信模板所屬的短信領(lǐng)域進(jìn)行統(tǒng)計(jì), 得到第一映射集合,進(jìn)而由第一映射集合得到對(duì)關(guān)鍵字標(biāo)注好的第二映射集合,從而可以 使短信模板中的關(guān)鍵字與短信領(lǐng)域進(jìn)行準(zhǔn)確對(duì)應(yīng),避免將錯(cuò)誤的訓(xùn)練數(shù)據(jù)集對(duì)樸素貝葉斯 分類器進(jìn)行訓(xùn)練,確保樸素貝葉斯分類器的精準(zhǔn)