一種基于中文分詞識別不規(guī)則垃圾短信的方法

文檔序號：7987167閱讀：1012來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種基于中文分詞識別不規(guī)則垃圾短信的方法
【專利摘要】本發(fā)明公開了一種基于中文分詞識別不規(guī)則垃圾短信的方法，對于同一短信，依據(jù)短信的內(nèi)容，先按照正常的橫向讀取進(jìn)行中文分詞，根據(jù)分詞結(jié)果的單詞個(gè)數(shù)計(jì)算權(quán)重。再根據(jù)不規(guī)則短信必須控制每行短信字符數(shù)的特點(diǎn)，判定不規(guī)則短信內(nèi)容的范圍，對不規(guī)則排列短信內(nèi)容范圍內(nèi)的字符采取豎向轉(zhuǎn)換為橫向排列，然后進(jìn)行中文分詞，根據(jù)總體的分詞結(jié)果的單詞個(gè)數(shù)計(jì)算權(quán)重。然后根據(jù)兩次權(quán)重比較，判斷此短信是正常排列的短信，還是不規(guī)則排列的短信。進(jìn)而依據(jù)排列的類型,再采用內(nèi)容分析匹配關(guān)鍵字，識別是否垃圾短信，進(jìn)而避免了垃圾短信的漏判，提高垃圾短信的查全率和查準(zhǔn)率。
【專利說明】—種基于中文分詞識別不規(guī)則垃圾短信的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種垃圾短信的識別方法，尤其涉及一種基于中文分詞識別不規(guī)則垃圾短信的方法。
【背景技術(shù)】
[0002]目前，短信息服務(wù)作為移動通信網(wǎng)絡(luò)的一種基本業(yè)務(wù)，在為用戶提供便捷消息通信服務(wù)的同時(shí)，也成為反動、涉黃和詐騙等非法短信的發(fā)送渠道。在垃圾短信治理領(lǐng)域，具有申請?zhí)?200710036831.4的專利《一種基于信令處理技術(shù)的短信凈化系統(tǒng)》，該專利定義的系統(tǒng)由若干臺連接于七號信令網(wǎng)中信令鏈路的信令消息檢測處理裝置MPM和一業(yè)務(wù)管理中心CSM構(gòu)成。MPM對流經(jīng)的短信消息進(jìn)行分析處理，根據(jù)業(yè)務(wù)規(guī)則與黑白名單，實(shí)現(xiàn)短信的選通與攔截處理，將相關(guān)消息傳送給CSM，CSM進(jìn)行頻次統(tǒng)計(jì)、業(yè)務(wù)規(guī)則與用戶數(shù)據(jù)管理與同步。
[0003]在MPM和CSM系統(tǒng)中，針對垃圾短信的發(fā)送特征多為詐騙或者廣告，采用發(fā)送行為分析(流量)和文本特征分析(關(guān)鍵字等)方式進(jìn)行短信治理，對于垃圾短信的發(fā)現(xiàn)和治理是一定成效的。而在短信內(nèi)容過濾上，一般按照短信的編碼順序，分析短信，判斷是否符合關(guān)鍵字過濾規(guī)則，也就是在手機(jī)上通常看到的從左到右的短信排列方式。但是，為了規(guī)避關(guān)鍵字過濾，垃圾短信出現(xiàn)了采用了不規(guī)則排列方式，如仿照古文從上至下的文本排列方式，區(qū)別與正常短信排列方式，以逃避關(guān)鍵字過濾。
[0004]對于此種不規(guī)則垃圾短信，目前多采用單個(gè)關(guān)鍵字組合聯(lián)合判定的方式，判定短信是否符合關(guān)鍵字規(guī)則，即把關(guān)鍵字“發(fā)票”拆分為“發(fā)”和“票”兩個(gè)關(guān)鍵字，同時(shí)符合“發(fā)”和“票”的短信等同于“發(fā)票”。此種方法雖然一定程度上識別出符合關(guān)鍵字的不規(guī)則垃圾短信，但也同時(shí)造成部分不是包含“發(fā)票”的正常短信被判別為垃圾短信，降低了垃圾短信識別的準(zhǔn)確率。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的在于提供一種基于中文分詞識別不規(guī)則垃圾短信的方法，該方法采用中文分詞技術(shù)，從橫向和豎向兩方面分別分析短信的詞語組成，分別計(jì)算短信權(quán)重，判定是否為不規(guī)則垃圾短信，對于通過豎排試圖規(guī)避內(nèi)容過濾的短信，判定為不規(guī)則短信后，可以根據(jù)豎排的讀取方式，過濾短信，避免了垃圾短信的漏判，進(jìn)而提高垃圾短信的查全率和查準(zhǔn)率。
[0006]實(shí)現(xiàn)上述目的的技術(shù)方案是:
[0007]—種基于中文分詞識別不規(guī)則垃圾短信的方法，包括下列步驟:
[0008]步驟SI，接收短信，讀取短信內(nèi)容；
[0009]步驟S2，根據(jù)短信內(nèi)容，按照從左到右的橫向排列方式，進(jìn)行中文分詞；
[0010]步驟S 3，按步驟S2的中文分詞結(jié)果，記錄單詞個(gè)數(shù)Wl，Wl為正整數(shù)，計(jì)算短信橫排權(quán)重 Ql=I/(1+W1)；[0011]步驟S4，根據(jù)不規(guī)則排列短信用控制字符控制每行短信字符數(shù)的特點(diǎn)，計(jì)算上述接收的短信的不規(guī)則區(qū)域，將不規(guī)則區(qū)域中的短信內(nèi)容按照豎向排列方式讀取，按照讀取的短信內(nèi)容，將上述接收的短信轉(zhuǎn)換為橫向排列的短信；
[0012]步驟S5，對步驟S4中轉(zhuǎn)換得到的短信，按照從左到右的橫向排列方式進(jìn)行中文分詞；
[0013]步驟S6，按步驟S5的中文分詞結(jié)果，記錄單詞個(gè)數(shù)W2，W2為正整數(shù)，計(jì)算短信豎排權(quán)重 Q2=l/(1+W2)；
[0014]步驟S7，比較短信橫排權(quán)重Ql與短信豎排權(quán)重Q2，若Ql < Q2，進(jìn)入步驟S8b ;若Ql >= Q2，進(jìn)入步驟S8a ；
[0015]步驟S8a，判定短信為正常排列短信；
[0016]步驟S8b，判定短信為不規(guī)則排列短信。
[0017]上述的基于中文分詞識別不規(guī)則垃圾短信的方法，其中，所述步驟S4中，所述的計(jì)算上述接收的短信的不規(guī)則區(qū)域，指:計(jì)算每行字符的個(gè)數(shù)，按照每行的字符個(gè)數(shù)模型，確定短信的不規(guī)則區(qū)域。
[0018]上述的基于中文分詞識別不規(guī)則垃圾短信的方法，其中，所述的每行的字符個(gè)數(shù)模型，指:等長規(guī)則或者等差規(guī)則，其中，等長規(guī)則指:當(dāng)前行的字符個(gè)數(shù)和上一行的字符個(gè)數(shù)相等；等差規(guī)則指:當(dāng)前行的字符個(gè)數(shù)與上一行的字符個(gè)數(shù)的差等于同一個(gè)常數(shù)。
[0019]上述的基于中文分詞識別不規(guī)則垃圾短信的方法，其中，所述的不規(guī)則排列短信包括:豎排短信、橫豎混排短信和豎排異形短信。
[0020]上述的基于中文分詞識別不規(guī)則垃圾短信的方法，其中，根據(jù)判定的短信類型，采用內(nèi)容分析匹配關(guān)鍵字，依據(jù)規(guī)則識別出是否符合關(guān)鍵字，從而識別是否為垃圾短信。
[0021]上述的基于中文分詞識別不規(guī)則垃圾短信的方法，其中，所述方法基于連接于七號信令網(wǎng)中信令鏈路的信令消息檢測處理裝置以及連接所述信令消息檢測處理裝置的業(yè)
務(wù)管理中心。
[0022]本發(fā)明的有益效果是:本發(fā)明通過分析短信內(nèi)容，采用中文分詞技術(shù)，從橫向和豎向兩方面分別分析短信的詞語組成，根據(jù)分詞單詞個(gè)數(shù)，分別計(jì)算短信權(quán)重，按語義判定短信應(yīng)該是正常的從左至右排列方式讀取，還是不規(guī)則排列的讀取。進(jìn)而為短信內(nèi)容分析提供依據(jù)，完成短信內(nèi)容過濾，提高垃圾短信的查全率和查準(zhǔn)率。本發(fā)明對于通過豎排試圖規(guī)避內(nèi)容過濾的短信，在判定為不規(guī)則短信后，可以根據(jù)豎排的讀取方式，過濾短信，避免了垃圾短信的漏判。
【專利附圖】

【附圖說明】
[0023]圖1是本發(fā)明的基于中文分詞識別不規(guī)則垃圾短信的方法的流程圖。
【具體實(shí)施方式】
[0024]下面將結(jié)合附圖對本發(fā)明作進(jìn)一步說明。
[0025]為了便于本領(lǐng)域技術(shù)人員理解和實(shí)現(xiàn)本發(fā)明，以下列短信為例，描述本發(fā)明的實(shí)施例:[0027]
【權(quán)利要求】
1.一種基于中文分詞識別不規(guī)則垃圾短信的方法，其特征在于，包括下列步驟: 步驟Si，接收短信，讀取短信內(nèi)容；步驟S2，根據(jù)短信內(nèi)容，按照從左到右的橫向排列方式，進(jìn)行中文分詞；步驟S 3，按步驟S2的中文分詞結(jié)果，記錄單詞個(gè)數(shù)Wl，Wl為正整數(shù)，計(jì)算短信橫排權(quán)重 Q1=1/(1+W1)；步驟S4，根據(jù)不規(guī)則排列短信用控制字符控制每行短信字符數(shù)的特點(diǎn)，計(jì)算上述接收的短信的不規(guī)則區(qū)域，將不規(guī)則區(qū)域中的短信內(nèi)容按照豎向排列方式讀取，按照讀取的短信內(nèi)容，將上述接收的短信轉(zhuǎn)換為橫向排列的短信；步驟S5，對步驟S4中轉(zhuǎn)換得到的短信，按照從左到右的橫向排列方式進(jìn)行中文分詞；步驟S6，按步驟S5的中文分詞結(jié)果，記錄單詞個(gè)數(shù)W2，W2為正整數(shù)，計(jì)算短信豎排權(quán)重 Q2=l/(1+W2)；步驟S7，比較短信橫排權(quán)重Ql與短信豎排權(quán)重Q2，若Ql < Q2，進(jìn)入步驟S8b ;若Ql >=Q2，進(jìn)入步驟S8a ；步驟S8a，判定短信為正常排列短信；步驟S8b，判定短信為不規(guī)則排列短信。
2.根據(jù)權(quán)利要求1所述的基于中文分詞識別不規(guī)則垃圾短信的方法，其特征在于，所述步驟S4中，所述的計(jì)算上述接收的短信的不規(guī)則區(qū)域，指:計(jì)算每行字符的個(gè)數(shù)，按照每行的字符個(gè)數(shù)模型，確定短信的不規(guī)則區(qū)域。
3.根據(jù)權(quán)利要求2所述的基于中文分詞識別不規(guī)則垃圾短信的方法，其特征在于，所述的每行的字符個(gè)數(shù)模型，指:等長規(guī)則或者等差規(guī)則，其中，等長規(guī)則指:當(dāng)前行的字符個(gè)數(shù)和上一行的字符個(gè)數(shù)相等；等差規(guī)則指:當(dāng)前行的字符個(gè)數(shù)與上一行的字符個(gè)數(shù)的差等于同一個(gè)常數(shù)。
4.根據(jù)權(quán)利要求1或2或3所述的基于中文分詞識別不規(guī)則垃圾短信的方法，其特征在于，所述的不規(guī)則排列短信包括:豎排短信、橫豎混排短信和豎排異形短信。
5.根據(jù)權(quán)利要求4所述的基于中文分詞識別不規(guī)則垃圾短信的方法，其特征在于，根據(jù)判定的短信類型，采用內(nèi)容分析匹配關(guān)鍵字，依據(jù)規(guī)則識別出是否符合關(guān)鍵字，從而識別是否為垃圾短/[目。
6.根據(jù)權(quán)利要求1或2或3所述的基于中文分詞識別不規(guī)則垃圾短信的方法，其特征在于，所述方法基于連接于七號信令網(wǎng)中信令鏈路的信令消息檢測處理裝置以及連接所述信令消息檢測處理裝置的業(yè)務(wù)管理中心。
【文檔編號】H04W4/14GK103874033SQ201210533577
【公開日】2014年6月18日申請日期:2012年12月12日優(yōu)先權(quán)日:2012年12月12日
【發(fā)明者】肖克華申請人:上海粱江通信系統(tǒng)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：肖克華
技術(shù)所有人：上海粱江通信系統(tǒng)股份有限公司
我是此專利的發(fā)明人

上一篇：壓縮包上傳去重系統(tǒng)及方法
上一篇：家庭網(wǎng)關(guān)及其wlan 發(fā)射功率調(diào)整方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于中文分詞識別不規(guī)則垃圾短信的方法