專利名稱:垃圾短消息確定方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種垃圾短消息確定方法及裝置。
背景技術(shù):
移動(dòng)通信中的短消息業(yè)務(wù)已經(jīng)成為移動(dòng)用戶之間常用的一種通信方式,由于短消息的快捷與方便,可以通過短消息進(jìn)行信息交互或信息發(fā)布等,移動(dòng)用戶之間相互發(fā)送的普通短消息主要用于信息的交流,基本上是兩個(gè)移動(dòng)用戶或者多個(gè)移動(dòng)用戶之間互相發(fā)送。隨著短消息成為人們生活當(dāng)中不可或缺的通信方式,垃圾短消息的問題也逐漸引起社會(huì)廣泛關(guān)注。垃圾短消息主要是利用短消息傳播非法或不良信息,其中有很多欺詐、廣告、假中獎(jiǎng)等垃圾短消息的內(nèi)容中包含電話號(hào)碼或銀行賬號(hào)等數(shù)字類信息,這些垃圾短消息利用其所包含的數(shù)字類信息欺騙廣大移動(dòng)用戶,損害人們的經(jīng)濟(jì)利益,因此,準(zhǔn)確地確定及攔截這些包含數(shù)字類信息的垃圾短消息是通信安全技術(shù)領(lǐng)域非常重要的環(huán)節(jié)?,F(xiàn)有技術(shù)中,一般通過如下方式確定并攔截垃圾短消息,具體為首先采用兩次散列對(duì)短消息內(nèi)容進(jìn)行快速過濾,得到“嫌疑短消息”,再對(duì)“嫌疑短消息”進(jìn)行文本預(yù)處理,剔除數(shù)字、符號(hào)、語氣詞等其認(rèn)為與語義無關(guān)的內(nèi)容后,將其轉(zhuǎn)化為短語向量,采用貝葉斯和支持向量機(jī)兩種分類器相結(jié)合的方法對(duì)“嫌疑短消息”進(jìn)行判定。上述方法采用了剔除數(shù)字、符號(hào)、語氣詞等其認(rèn)為與語義無關(guān)的內(nèi)容的語義分析方法,但是針對(duì)包含數(shù)字類信息的垃圾短消息來說,數(shù)字類信息是垃圾短消息內(nèi)容中相對(duì)固定的信息,因此過濾掉數(shù)字類信息,就相當(dāng)于刪除了這些垃圾短消息內(nèi)容的共同特征,使得確定并攔截包含數(shù)字類信息的垃圾短消息的準(zhǔn)確性較低。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種垃圾短消息確定方法及裝置,用以解決現(xiàn)有技術(shù)存在的確定包含數(shù)字類信息的垃圾短消息的準(zhǔn)確性較低的問題。本發(fā)明實(shí)施例技術(shù)方案如下一種垃圾短消息確定方法,該方法包括步驟從短消息中心中獲得待發(fā)送的短消息;從該短消息的內(nèi)容中,識(shí)別出所包含的各廣義數(shù)字,其中廣義數(shù)字為具有數(shù)字含義的字符;根據(jù)識(shí)別出的各廣義數(shù)字,確定該短消息對(duì)應(yīng)的數(shù)字特征向量;將確定出的數(shù)字特征向量和預(yù)設(shè)的垃圾短消息數(shù)字特征向量庫中的各垃圾短消息數(shù)字特征向量進(jìn)行匹配;若匹配成功,則確定該短消息為垃圾短消息。一種垃圾短消息確定裝置,包括第一獲得單元,用于從短消息中心中獲得待發(fā)送的短消息;識(shí)別單元,用于從第一獲得單元獲得的該短消息的內(nèi)容中,識(shí)別出所包含的各廣義數(shù)字,其中廣義數(shù)字為具有數(shù)字含義的字符;第一確定單元,用于根據(jù)識(shí)別單元識(shí)別出的各廣義數(shù)字,確定該短消息對(duì)應(yīng)的數(shù)字特征向量;匹配單元,用于將第一確定單元確定出的數(shù)字特征向量和預(yù)設(shè)的垃圾短消息數(shù)字特征向量庫中的各垃圾短消息數(shù)字特征向量進(jìn)行匹配;第二確定單元,用于在匹配單元匹配成功時(shí),確定該短消息為垃圾短消息。本發(fā)明實(shí)施例技術(shù)方案中,首先從短消息中心中獲得待發(fā)送的短消息,然后從該短消息的內(nèi)容中,識(shí)別出所包含的各廣義數(shù)字,其中廣義數(shù)字為具有數(shù)字含義的字符,根據(jù)識(shí)別出的各廣義數(shù)字,確定該短消息對(duì)應(yīng)的數(shù)字特征向量,將確定出的數(shù)字特征向量和預(yù)設(shè)的垃圾短消息數(shù)字特征向量庫中的各垃圾短消息數(shù)字特征向量進(jìn)行匹配,若匹配成功, 則確定該短消息為垃圾短消息,由上可見,本發(fā)明實(shí)施例在確定垃圾短消息時(shí),將具有數(shù)字含義的廣義數(shù)字從短消息內(nèi)容中提取出來進(jìn)行匹配,也就是說根據(jù)短消息內(nèi)容中包含的數(shù)字類信息來確定垃圾短消息,這就有效地提高了確定數(shù)字類信息的垃圾短消息的準(zhǔn)確性。
圖1為本發(fā)明實(shí)施例中,垃圾短消息確定方法網(wǎng)絡(luò)架構(gòu)示意圖;圖2為本發(fā)明實(shí)施例中,垃圾短消息確定方法流程示意圖;圖3為本發(fā)明實(shí)施例一中,垃圾短消息確定方法具體實(shí)現(xiàn)流程示意圖;圖4為本發(fā)明實(shí)施例二中,垃圾短消息確定方法具體實(shí)現(xiàn)流程示意圖;圖5為本發(fā)明實(shí)施例中,垃圾短消息確定裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面結(jié)合各個(gè)附圖對(duì)本發(fā)明實(shí)施例技術(shù)方案的主要實(shí)現(xiàn)原理具體實(shí)施方式
及其對(duì)應(yīng)能夠達(dá)到的有益效果進(jìn)行詳細(xì)地闡述。如圖1所示,為本發(fā)明實(shí)施例中的垃圾短消息確定方法網(wǎng)絡(luò)架構(gòu)圖,其中,當(dāng)用戶 11作為短消息發(fā)送方需要向短消息接收方發(fā)送短消息時(shí),用戶11需要將該待發(fā)送的短消息提交至短消息中心12,該短消息中包含短消息內(nèi)容、短消息發(fā)送方標(biāo)識(shí)以及短消息接收方標(biāo)識(shí),短消息中心12將接收到的待發(fā)送的短消息發(fā)送給本發(fā)明實(shí)施例提出的垃圾短消息確定裝置13,垃圾短消息確定裝置13確定該待發(fā)送的短消息是否為垃圾短消息。若垃圾短消息確定裝置13確定出該待發(fā)送的短消息為垃圾短消息,則可以攔截該短消息,即向短消息中心12發(fā)送用以指示短消息中心12攔截該短消息的攔截指示消息, 若垃圾短消息確定裝置13確定出該待發(fā)送的短消息為正常短消息,則可以放行該短消息, 即向短消息中心12發(fā)送用以指示短消息中心12發(fā)送該短消息的放行指示消息,若短消息中心12接收到攔截指示消息,則不發(fā)送該短消息,若接收到放行指示消息,則發(fā)送該短消肩、ο其中攔截指示消息和放行指示消息中均包含該短消息的短消息標(biāo)識(shí),短消息中心 12接收到攔截指示消息或放行指示消息后,根據(jù)其中包含的短消息標(biāo)識(shí),攔截或發(fā)送相應(yīng)的短消息?;谏鲜鼍W(wǎng)絡(luò)架構(gòu),本發(fā)明實(shí)施例提出一種垃圾短消息確定方法,如圖2所示,其具體處理流程如下步驟21,垃圾短消息確定裝置從短消息中心中獲得待發(fā)送的短消息;當(dāng)用戶作為短消息發(fā)送方需要向短消息接收方發(fā)送短消息時(shí),需要將該待發(fā)送的短消息提交至短消息中心,該短消息中包含短消息內(nèi)容、短消息發(fā)送方標(biāo)識(shí)以及短消息接收方標(biāo)識(shí),短消息中心可以將接收到的待發(fā)送的短消息發(fā)送給垃圾短消息確定裝置,由垃圾短消息確定裝置確定是否為垃圾短消息。步驟22,從該短消息的內(nèi)容中,識(shí)別出所包含的各廣義數(shù)字,其中廣義數(shù)字為具有數(shù)字含義的字符;本發(fā)明實(shí)施例將具有數(shù)字含義的字符定義為廣義數(shù)字,廣義數(shù)字具有數(shù)字含義, 但是在短消息內(nèi)容中存在的格式可能不同,其中,阿拉伯?dāng)?shù)字(例如1、2、3等)、中文簡(jiǎn)體數(shù)字(例如一、二、三等)、中文繁體數(shù)字(例如壹、貳、叁等)、諧音數(shù)字、帶符號(hào)的數(shù)字(例如 ①、②等)、以全角格式或上下標(biāo)表示的數(shù)字等均為廣義數(shù)字,本發(fā)明實(shí)施例可以預(yù)先建立包含各廣義數(shù)字的廣義數(shù)字庫,后續(xù)可以根據(jù)需要隨時(shí)更新廣義數(shù)字庫。垃圾短消息確定裝置可以直接對(duì)該短消息的短消息內(nèi)容進(jìn)行廣義數(shù)字的識(shí)別,可選的,垃圾短消息確定裝置也可以在進(jìn)行廣義數(shù)字的識(shí)別之前,對(duì)該短消息的短消息內(nèi)容進(jìn)行預(yù)處理,刪除短消息內(nèi)容所包含的空格字符和標(biāo)點(diǎn)符號(hào)字符。垃圾短消息確定裝置在進(jìn)行廣義數(shù)字的識(shí)別時(shí),將該短消息的短消息內(nèi)容與預(yù)設(shè)的廣義數(shù)字庫中的各廣義數(shù)字進(jìn)行匹配,將匹配成功的字符,確定為該短消息的短消息內(nèi)容所包含的廣義數(shù)字。例如某條待發(fā)送的短消息的短消息內(nèi)容為“好好學(xué)習(xí)1二叁”,則對(duì)該短消息的短消息內(nèi)容進(jìn)行廣義數(shù)字的識(shí)別時(shí),首先依次將“好”、“好”、“學(xué)”、“習(xí)”分別與廣義數(shù)字庫中的各廣義數(shù)字進(jìn)行匹配,匹配結(jié)果均為失敗,然后將“ 1 ”與廣義數(shù)字庫中的各廣義數(shù)字進(jìn)行匹配,匹配結(jié)果為成功,即廣義數(shù)字庫中包含字符“ 1 ”,再將“二”與廣義數(shù)字庫中的各廣義數(shù)字進(jìn)行匹配,匹配結(jié)果為成功,即廣義數(shù)字庫中包含字符“二”,最后將“叁” 與廣義數(shù)字庫中的各廣義數(shù)字進(jìn)行匹配,匹配結(jié)果為成功,即廣義數(shù)字庫中包含字符“叁”, 因此識(shí)別出的廣義數(shù)字為“ 1 ”、“二”、“叁”。步驟23,根據(jù)識(shí)別出的各廣義數(shù)字,確定該短消息對(duì)應(yīng)的數(shù)字特征向量;其中,本發(fā)明實(shí)施例中確定該短消息對(duì)應(yīng)的數(shù)字特征向量的具體過程可以但不限于包含下述三種實(shí)施情況,具體為第一種實(shí)施情況,直接將識(shí)別出的廣義數(shù)字組合成該短消息對(duì)應(yīng)的數(shù)字特征向量;例如識(shí)別出的廣義數(shù)字為“1”、“二”、“叁”,則組合成的數(shù)字特征向量為{1,二,
叁},其中各個(gè)廣義數(shù)字在組成的數(shù)字特征向量中的先后順序可以但不限于與各廣義數(shù)字在短消息內(nèi)容中的先后順序一致;第二種實(shí)施情況,首先在識(shí)別出的各廣義數(shù)字中,將在該短消息的短消息內(nèi)容中所處的字符位置連續(xù)的廣義數(shù)字,組合為一個(gè)廣義數(shù)字集合,然后在組合出的各廣義數(shù)字集合中,選擇出滿足預(yù)設(shè)條件的廣義數(shù)字集合,直接將選擇出的廣義數(shù)字集合,組合成該短消息對(duì)應(yīng)的數(shù)字特征向量,其中,所述預(yù)設(shè)條件可以為該廣義數(shù)字集合包含的廣義數(shù)字的數(shù)量不小于第一規(guī)定閾值;也可以為在該短消息的短消息內(nèi)容中,該廣義數(shù)字集合包含的廣義數(shù)字的字符,與其它廣義數(shù)字集合包含的廣義數(shù)字的字符之間所包含的字符的數(shù)量,不小于第二規(guī)定閾值;還可以為上述兩個(gè)條件的結(jié)合,即包含的廣義數(shù)字的數(shù)量不小于第一規(guī)定閾值,且包含的廣義數(shù)字的字符與其它廣義數(shù)字集合包含的廣義數(shù)字的字符之間所包含的字符的數(shù)量不大于第二規(guī)定閾值;例如,第一規(guī)定閾值為K = 3,第二規(guī)定閾值為J = 9,待發(fā)送的短消息的短消息內(nèi)容為“好好學(xué)習(xí)123,天天向上4567”,該短消息內(nèi)容經(jīng)預(yù)處理后為“好好學(xué)習(xí)123天天向上456”,當(dāng)垃圾短消息確定裝置識(shí)別出廣義數(shù)字“1”、“2”、“3”后,將“天”與廣義數(shù)字庫中的各廣義數(shù)字進(jìn)行匹配,匹配失敗,則認(rèn)為廣義數(shù)字“1”、“2”、“3”在該短消息的短消息內(nèi)容中所處的字符位置連續(xù),因此垃圾短消息確定裝置將廣義數(shù)字“1”、“2”、“3”組合成廣義數(shù)字集合{1,2,3},按照上述方法,垃圾短消息確定裝置將廣義數(shù)字“4”、“5”、“6”、“7”組合成廣義數(shù)字集合{4,5,6,7},廣義數(shù)字集合{1,2,3}包含的廣義數(shù)字的數(shù)量為3,不小于第二規(guī)定閾值K,廣義數(shù)字集合{4,5,6,7}包含的廣義數(shù)字的數(shù)量為4,不小于第二規(guī)定閾值K, 廣義數(shù)字集合{1,2,3}包含的廣義數(shù)字的字符“1”、“2”、“3”,與廣義數(shù)字集合{4,5,6,7} 包含的廣義數(shù)字“4”、“5”、“6”、“7”之間所包含的字符的數(shù)量為8(每個(gè)漢字占兩個(gè)字符位置),不大于第二規(guī)定閾值J,則垃圾短消息確定裝置確定這兩個(gè)廣義數(shù)字集合滿足預(yù)設(shè)條件,將這兩個(gè)廣義數(shù)字集合組合成該短消息對(duì)應(yīng)的數(shù)字特征向量{1,2,3,4,5,6,7},其中在短消息內(nèi)容中,若廣義數(shù)字集合{1,2,3}包含的廣義數(shù)字的字符“1”、“2”、“3”,與廣義數(shù)字集合{4,5,6,7}包含的廣義數(shù)字“4”、“5”、“6”、“7”之間所包含的字符的數(shù)量大于第二規(guī)定閾值J,確定這兩個(gè)廣義數(shù)字集合不滿足預(yù)設(shè)條件。第三種實(shí)施情況,首先在識(shí)別出的各廣義數(shù)字中,將在該短消息的短消息內(nèi)容中所處的字符位置連續(xù)的廣義數(shù)字,組合為一個(gè)廣義數(shù)字集合,然后在組合出的各廣義數(shù)字集合中,選擇出滿足預(yù)設(shè)條件的廣義數(shù)字集合,根據(jù)選擇出的廣義數(shù)字集合,確定該短消息對(duì)應(yīng)的廣義數(shù)字特征向量,判斷所述廣義數(shù)字特征向量所包含的廣義數(shù)字的個(gè)數(shù)是否在第三規(guī)定閾值和第四規(guī)定閾值之間,其中第三規(guī)定閾值不大于第四規(guī)定閾值,若判斷結(jié)果為是,則將所述廣義數(shù)字特征向量,確定為該短消息對(duì)應(yīng)的數(shù)字特征向量。例如,考慮到目前手機(jī)號(hào)碼一般為11位,不含區(qū)號(hào)的固定電話號(hào)碼一般為7 8 位,含區(qū)號(hào)的固定號(hào)碼一般為11 12位,銀行帳號(hào)一般為16位,因此可將第三規(guī)定閾值M 設(shè)為7,將第四規(guī)定閾值N設(shè)為16,按照第二種實(shí)施情況中的方法,選擇出滿足預(yù)設(shè)條件的廣義數(shù)字集合{1,2,3}和{4,5,6,7},然后將選擇出的廣義數(shù)字集合,組合成廣義數(shù)字特征向量{1,2,3,4,5,6,7},該廣義數(shù)字特征向量所包含的廣義數(shù)字的個(gè)數(shù)為7 (即該廣義數(shù)字特征向量的長(zhǎng)度為7),在第三規(guī)定閾值M和第四規(guī)定閾值N之間,因此將廣義數(shù)字特征向量{1,2,3,4,5,6,7}確定為該短消息對(duì)應(yīng)的數(shù)字特征向量,若廣義數(shù)字特征向量所包含的廣義數(shù)字的個(gè)數(shù)為未在第三規(guī)定閾值M和第四規(guī)定閾值N之間,則垃圾短消息確定裝置確定該短消息為正常短消息,向短消息中心發(fā)送用以指示短消息中心發(fā)送該短消息的放行指示消息,放行指示消息中包含該短消息的短消息標(biāo)識(shí),短消息中心接收到放行指示消息后, 根據(jù)其中包含的短消息標(biāo)識(shí),發(fā)送相應(yīng)的短消息。步驟M,將確定出的數(shù)字特征向量和預(yù)設(shè)的垃圾短消息數(shù)字特征向量庫中的各垃圾短消息數(shù)字特征向量進(jìn)行匹配;本發(fā)明實(shí)施例中,可以直接將確定出的數(shù)字特征向量和預(yù)設(shè)的垃圾短消息數(shù)字特征向量庫中的各垃圾短消息數(shù)字特征向量進(jìn)行匹配。為了減少垃圾短消息數(shù)字特征向量庫的存儲(chǔ)量,也可以將各垃圾短消息數(shù)字特征向量包含的各廣義數(shù)字均轉(zhuǎn)換成預(yù)設(shè)的、統(tǒng)一的格式,例如均統(tǒng)一轉(zhuǎn)換成阿拉伯?dāng)?shù)字,垃圾短消息確定裝置將確定出的數(shù)字特征向量所包含的各廣義數(shù)字進(jìn)行格式轉(zhuǎn)換,例如均統(tǒng)一轉(zhuǎn)換成阿拉伯?dāng)?shù)字。本發(fā)明實(shí)施例中,垃圾短消息數(shù)字特征向量庫中的垃圾短消息數(shù)字特征向量是從垃圾短消息中提取出電話號(hào)碼、銀行賬號(hào)等數(shù)字串進(jìn)行格式轉(zhuǎn)換后組成的,后續(xù)可以進(jìn)行更新。步驟25,若匹配成功,則確定該短消息為垃圾短消息。若匹配成功,則垃圾短消息確定裝置確定該短消息為垃圾短消息,進(jìn)而攔截該短消息,即向短消息中心發(fā)送用以指示短消息中心攔截該短消息的攔截指示消息,攔截指示消息中包含該短消息的短消息標(biāo)識(shí),短消息中心接收到攔截指示消息后,根據(jù)其中包含的短消息標(biāo)識(shí),攔截相應(yīng)的短消息。若匹配失敗,則垃圾短消息確定裝置對(duì)該短消息的處理可以但不限于包含下述三種實(shí)施情況,具體為第一種實(shí)施情況,垃圾短消息確定裝置確定該短消息為正常短消息,向短消息中心發(fā)送用以指示短消息中心發(fā)送該短消息的放行指示消息,放行指示消息中包含該短消息的短消息標(biāo)識(shí),短消息中心接收到放行指示消息后,根據(jù)其中包含的短消息標(biāo)識(shí),發(fā)送相應(yīng)的短消息;第二種實(shí)施情況,垃圾短消息確定裝置確認(rèn)該短消息為嫌疑垃圾短消息,該數(shù)字特征向量為嫌疑垃圾短消息數(shù)字特征向量,該數(shù)字特征向量對(duì)應(yīng)的發(fā)送數(shù)量計(jì)數(shù)器加1,將該短消息的短消息發(fā)送方與該數(shù)字特征向量對(duì)應(yīng)的各短消息的短消息發(fā)送方進(jìn)行比較,若比較得到該短消息的短消息發(fā)送方與該數(shù)字特征向量對(duì)應(yīng)各短消息的短消息發(fā)送方相同, 則該數(shù)字特征向量對(duì)應(yīng)的發(fā)送離散度計(jì)數(shù)器不變,否則該數(shù)字特征向量對(duì)應(yīng)的發(fā)送離散度計(jì)數(shù)器加1,從發(fā)送數(shù)量計(jì)數(shù)器中獲得累計(jì)的發(fā)送數(shù)量,從發(fā)送離散度計(jì)數(shù)器中獲得累計(jì)的發(fā)送離散度,然后判斷獲得的發(fā)送數(shù)量是否不小于第五規(guī)定閾值,以及獲得的發(fā)送離散度是否不小于第六規(guī)定閾值,若至少一個(gè)判斷結(jié)果為是,則確定該短消息為垃圾短消息,否則確定該短消息為正常短消息。其中當(dāng)判斷得到獲得的發(fā)送數(shù)量不小于第五規(guī)定閾值,以及獲得的發(fā)送離散度小于第六規(guī)定閾值時(shí),確定該短消息為垃圾短消息;或者當(dāng)判斷得到獲得的發(fā)送數(shù)量小于第五規(guī)定閾值,以及獲得的發(fā)送離散度不小于第六規(guī)定閾值時(shí),確定該短消息為垃圾短消息; 或者當(dāng)判斷得到獲得的發(fā)送數(shù)量不小于第五規(guī)定閾值,以及獲得的發(fā)送離散度不小于第六規(guī)定閾值時(shí),確定該短消息為垃圾短消息。即可以只根據(jù)發(fā)送數(shù)量判斷嫌疑垃圾短消息是否為垃圾短消息,這就能有效地?cái)r截包含相同數(shù)字信息的垃圾短消息;也可以只根據(jù)發(fā)送離散度判斷嫌疑垃圾短消息是否為垃圾短消息,這就能避免同一用戶發(fā)送大量包含相同數(shù)字信息的正常短消息(如改號(hào)通知)時(shí)被誤攔截的問題;更佳地,還可以根據(jù)發(fā)送數(shù)量和發(fā)送離散度判斷嫌疑垃圾短消息是否為垃圾短消息。本發(fā)明實(shí)施例中的各規(guī)定閾值可以根據(jù)實(shí)際情況進(jìn)行調(diào)整。若垃圾短消息確定裝置進(jìn)一步確定出嫌疑垃圾短消息為垃圾短消息,則可以但不限于將該數(shù)字特征向量,確定為垃圾短消息數(shù)字特征向量,并存儲(chǔ)在所述垃圾短消息數(shù)字特征向量庫中。本發(fā)明實(shí)施例可以在判斷出嫌疑垃圾短消息為垃圾短消息后,再向短消息中心發(fā)送攔截指示消息或放行指示消息,也可以在數(shù)字特征向量匹配不成功時(shí),先向短消息中心發(fā)送放行指示消息,即判斷嫌疑垃圾短消息是否為垃圾短消息由垃圾短消息確定裝置后臺(tái)完成,不占用短消息中心的等待時(shí)間,這就縮短了短消息中心的等待時(shí)延,后續(xù)在確定出嫌疑垃圾短消息為垃圾短消息后,直接將對(duì)應(yīng)的數(shù)字特征向量存儲(chǔ)在所述垃圾短消息數(shù)字特征向量庫中,以便后續(xù)對(duì)數(shù)字特征向量進(jìn)行匹配,這就有效地提高了確定垃圾短消息的準(zhǔn)確性。由上述處理過程可知,本發(fā)明實(shí)施例技術(shù)方案中,首先從短消息中心中獲得待發(fā)送的短消息,然后從該短消息的內(nèi)容中,識(shí)別出所包含的各廣義數(shù)字,其中廣義數(shù)字為具有數(shù)字含義的字符,根據(jù)識(shí)別出的各廣義數(shù)字,確定該短消息對(duì)應(yīng)的數(shù)字特征向量,將確定出的數(shù)字特征向量和預(yù)設(shè)的垃圾短消息數(shù)字特征向量庫中的各垃圾短消息數(shù)字特征向量進(jìn)行匹配,若匹配成功,則確定該短消息為垃圾短消息,由上可見,本發(fā)明實(shí)施例在確定垃圾短消息時(shí),將具有數(shù)字含義的廣義數(shù)字從短消息內(nèi)容中提取出來進(jìn)行匹配,也就是說根據(jù)短消息內(nèi)容中包含的數(shù)字類信息來確定垃圾短消息,這就有效地提高了確定數(shù)字類信息的垃圾短消息的準(zhǔn)確性。下面給出更為詳細(xì)的實(shí)施方式。如圖3所示,為本發(fā)明實(shí)施例一中垃圾短消息確定方法具體實(shí)現(xiàn)流程圖,其具體處理流程如下步驟31,用戶發(fā)送短消息到短消息中心,短消息中心將該短消息發(fā)送給垃圾短消息確定裝置;步驟32,垃圾短消息確定裝置對(duì)該短消息進(jìn)行預(yù)處理,刪除空格字符和標(biāo)點(diǎn)符號(hào)字符;步驟33,垃圾短消息確定裝置將該短消息的短消息內(nèi)容與廣義數(shù)字庫中的各廣義數(shù)字匹配,識(shí)別出所包含的廣義數(shù)字;步驟34,將識(shí)別出的廣義數(shù)字組合為各廣義數(shù)字集合,具體為在識(shí)別出的各廣義數(shù)字中,將在該短消息的短消息內(nèi)容中所處的字符位置連續(xù)的廣義數(shù)字,組合為一個(gè)廣義數(shù)字集合;步驟35,在組合出的各廣義數(shù)字集合中,選擇出滿足預(yù)設(shè)條件廣義數(shù)字集合,具體為選擇包含的廣義數(shù)字的數(shù)量不小于第一規(guī)定閾值,且包含的廣義數(shù)字的字符與其它廣義數(shù)字集合包含的廣義數(shù)字的字符之間所包含的字符的數(shù)量不大于第二規(guī)定閾值的廣義數(shù)字集合;步驟36,將選擇出的廣義數(shù)字集合,組成該短消息對(duì)應(yīng)的廣義數(shù)字特征向量;步驟37,判斷組成的廣義數(shù)字特征向量的長(zhǎng)度是否在第三規(guī)定閾值和第四規(guī)定閾值之間,若判斷結(jié)果為是,則轉(zhuǎn)至步驟38,若判斷結(jié)果為否,則轉(zhuǎn)至步驟317 ;步驟38,將該廣義數(shù)字特征向量確定為該短消息對(duì)應(yīng)的數(shù)字特征向量;步驟39,將該數(shù)字特征向量所包含的各廣義數(shù)字進(jìn)行格式轉(zhuǎn)換;步驟310,將該數(shù)字特征向量和預(yù)設(shè)的垃圾短消息數(shù)字特征向量庫中的各垃圾短消息數(shù)字特征向量進(jìn)行匹配,若匹配成功,則轉(zhuǎn)至步驟315,若匹配失敗,則轉(zhuǎn)至步驟311 ;步驟311,該數(shù)字特征向量對(duì)應(yīng)的發(fā)送數(shù)量計(jì)數(shù)器1 ;步驟312,判斷該短消息的短消息發(fā)送方是否與該數(shù)字特征向量對(duì)應(yīng)的各短消息的短消息發(fā)送方相同,若相同,則發(fā)送離散度計(jì)數(shù)器保持不變,若不同,則發(fā)送離散度計(jì)數(shù)器加1 ;步驟313,判斷發(fā)送數(shù)量計(jì)數(shù)器累加的發(fā)送數(shù)量是否不小于第五規(guī)定閾值,以及發(fā)送離散度計(jì)數(shù)器累加的發(fā)送離散度是否不小于第六規(guī)定閾值,若判斷結(jié)果為是,則轉(zhuǎn)至步驟314,若判斷結(jié)果為否,則轉(zhuǎn)至步驟317 ;步驟314,將該數(shù)字特征向量確定為垃圾短消息數(shù)字特征向量,并存儲(chǔ)在垃圾短消息數(shù)字特征向量庫中;步驟315,確定該短消息為垃圾短消息;步驟316,向短消息中心發(fā)送攔截指示消息;步驟317,確定該短消息為正常短消息;步驟318,向短消息中心發(fā)送放行指示消息。如圖4所示,為本發(fā)明實(shí)施例二中垃圾短消息確定方法具體實(shí)現(xiàn)流程圖,其具體處理流程如下步驟41,用戶發(fā)送短消息到短消息中心,短消息中心將該短消息發(fā)送給垃圾短消息確定裝置;步驟42,垃圾短消息確定裝置對(duì)該短消息進(jìn)行預(yù)處理,刪除空格字符和標(biāo)點(diǎn)符號(hào)字符;步驟43,垃圾短消息確定裝置將該短消息的短消息內(nèi)容與廣義數(shù)字庫中的各廣義數(shù)字匹配,識(shí)別出包含的廣義數(shù)字;步驟44,將識(shí)別出的廣義數(shù)字組合為各廣義數(shù)字集合,具體為在識(shí)別出的各廣義數(shù)字中,將在該短消息的短消息內(nèi)容中所處的字符位置連續(xù)的廣義數(shù)字,組合為一個(gè)廣義數(shù)字集合;步驟45,在組合出的各廣義數(shù)字集合中,選擇出滿足預(yù)設(shè)條件廣義數(shù)字集合,具體為選擇包含的廣義數(shù)字的數(shù)量不小于第一規(guī)定閾值,且包含的廣義數(shù)字的字符與其它廣義數(shù)字集合包含的廣義數(shù)字的字符之間所包含的字符的數(shù)量不大于第二規(guī)定閾值的廣義數(shù)字集合;步驟46,將選擇出的廣義數(shù)字集合,組成該短消息對(duì)應(yīng)的廣義數(shù)字特征向量;步驟47,判斷組成的廣義數(shù)字特征向量的長(zhǎng)度是否在第三規(guī)定閾值和第四規(guī)定閾值之間,若判斷結(jié)果為是,則轉(zhuǎn)至步驟48,若判斷結(jié)果為否,則轉(zhuǎn)至步驟413 ;步驟48,將該廣義數(shù)字特征向量確定為該短消息對(duì)應(yīng)的數(shù)字特征向量;步驟49,將該數(shù)字特征向量所包含的各廣義數(shù)字進(jìn)行格式轉(zhuǎn)換;步驟410,將該數(shù)字特征向量和預(yù)設(shè)的垃圾短消息數(shù)字特征向量庫中的各垃圾短消息數(shù)字特征向量進(jìn)行匹配,若匹配成功,則轉(zhuǎn)至步驟411,若匹配失敗,則轉(zhuǎn)至步驟413;步驟411,確定該短消息為垃圾短消息;步驟412,向短消息中心發(fā)送攔截指示消息;步驟413,確定該短消息為正常短消息;步驟414,向短消息中心發(fā)送放行指示消息。步驟415,該數(shù)字特征向量對(duì)應(yīng)的發(fā)送數(shù)量計(jì)數(shù)器1 ;步驟416,判斷該短消息的短消息發(fā)送方是否與該數(shù)字特征向量對(duì)應(yīng)的各短消息的短消息發(fā)送方相同,若相同,則發(fā)送離散度計(jì)數(shù)器保持不變,若不同,則發(fā)送離散度計(jì)數(shù)器加1 ;步驟417,判斷發(fā)送數(shù)量計(jì)數(shù)器累加的發(fā)送數(shù)量是否不小于第五規(guī)定閾值,以及發(fā)
1送離散度計(jì)數(shù)器累加的發(fā)送離散度是否不小于第六規(guī)定閾值;步驟418,若步驟417判斷結(jié)果為是,則將該數(shù)字特征向量確定為垃圾短消息數(shù)字特征向量,并存儲(chǔ)在垃圾短消息數(shù)字特征向量庫中。相應(yīng)的,本發(fā)明實(shí)施例還提供一種垃圾短消息確定裝置,其結(jié)構(gòu)如圖5所示,包括第一獲得單元51、識(shí)別單元52、第一確定單元53、匹配單元M和第二確定單元55,其中第一獲得單元51,用于從短消息中心中獲得待發(fā)送的短消息;識(shí)別單元52,用于從第一獲得單元51獲得的該短消息的內(nèi)容中,識(shí)別出所包含的各廣義數(shù)字,其中廣義數(shù)字為具有數(shù)字含義的字符;第一確定單元53,用于根據(jù)識(shí)別單元52識(shí)別出的各廣義數(shù)字,確定該短消息對(duì)應(yīng)的數(shù)字特征向量;匹配單元M,用于將第一確定單元53確定出的數(shù)字特征向量和預(yù)設(shè)的垃圾短消息數(shù)字特征向量庫中的各垃圾短消息數(shù)字特征向量進(jìn)行匹配;第二確定單元55,用于在匹配單元M匹配成功時(shí),確定該短消息為垃圾短消息。較佳地,所述垃圾短消息確定裝置還包括預(yù)處理單元,用于在識(shí)別單元52識(shí)別出所包含的各廣義數(shù)字之前,對(duì)該短消息的內(nèi)容進(jìn)行預(yù)處理,刪除所包含的空格字符和標(biāo)點(diǎn)符號(hào)字符。較佳地,識(shí)別單元52具體包括匹配子單元和第一確定子單元,其中匹配子單元,用于將第一獲得單元51獲得的該短消息的內(nèi)容與預(yù)設(shè)的廣義數(shù)字庫中的各廣義數(shù)字進(jìn)行匹配;第一確定子單元,用于將匹配子單元匹配成功的字符,確定為該短消息的內(nèi)容所包含的各廣義數(shù)字。較佳地,第一確定單元53具體包括組合子單元、選擇子單元、第二確定子單元,其中組合子單元,用于在識(shí)別單元52識(shí)別出的各廣義數(shù)字中,將在該短消息的內(nèi)容中所處的字符位置連續(xù)的廣義數(shù)字,組合為一個(gè)廣義數(shù)字集合;選擇子單元,用于在組合子單元組合出的各廣義數(shù)字集合中,選擇出滿足預(yù)設(shè)條件的廣義數(shù)字集合;第二確定子單元,用于根據(jù)選擇子單元選擇出的廣義數(shù)字集合,確定該短消息對(duì)應(yīng)的數(shù)字特征向量。更佳地,所述預(yù)設(shè)條件為下述條件中的至少一種該廣義數(shù)字集合包含的廣義數(shù)字的數(shù)量不小于第一規(guī)定閾值;在該短消息的內(nèi)容中,該廣義數(shù)字集合包含的廣義數(shù)字的字符,與其它廣義數(shù)字集合包含的廣義數(shù)字的字符之間所包含的字符的數(shù)量,不大于第二規(guī)定閾值。更佳地,第二確定子單元具體包括第一確定模塊、判斷模塊和第二確定模塊,其中第一確定模塊,用于根據(jù)選擇子單元選擇出的廣義數(shù)字集合,確定該短消息對(duì)應(yīng)的廣義數(shù)字特征向量;判斷模塊,用于判斷所述廣義數(shù)字特征向量所包含的廣義數(shù)字的個(gè)數(shù)是否在第三規(guī)定閾值和第四規(guī)定閾值之間,其中第三規(guī)定閾值不大于第四規(guī)定閾值;
第二確定模塊,用于在判斷模塊的判斷結(jié)果為是時(shí),將所述廣義數(shù)字特征向量,確定為該短消息對(duì)應(yīng)的數(shù)字特征向量。較佳地,所述垃圾短消息確定裝置還包括轉(zhuǎn)換單元,用于在匹配單元M將第一確定單元53確定出的數(shù)字特征向量和各垃圾短消息對(duì)應(yīng)的數(shù)字特征向量進(jìn)行匹配之前,將第一確定單元53確定出的數(shù)字特征向量所包含的各廣義數(shù)字進(jìn)行格式轉(zhuǎn)換,轉(zhuǎn)換為預(yù)設(shè)格式的廣義數(shù)字。較佳地,所述垃圾短消息確定裝置還包括發(fā)送單元,用于在第二確定單元55確定出該短消息為垃圾短消息后,向短消息中心發(fā)送用以指示短消息中心攔截該短消息的攔截指示消息。較佳地,所述垃圾短消息確定裝置還包括第二獲得單元、第三獲得單元、判斷單元和第三確定單元,其中第二獲得單元,用于在匹配單元M匹配失敗時(shí),從發(fā)送數(shù)量計(jì)數(shù)器中獲得累計(jì)的、該數(shù)字特征向量對(duì)應(yīng)的短消息的發(fā)送數(shù)量,其中當(dāng)該數(shù)字特征向量匹配失敗時(shí),發(fā)送數(shù)量計(jì)數(shù)器加1 ;第三獲得單元,用于從發(fā)送離散度計(jì)數(shù)器中獲得累計(jì)的、該短消息的短消息發(fā)送方的發(fā)送離散度,其中當(dāng)該數(shù)字特征向量匹配失敗時(shí),若該短消息的短消息發(fā)送方與該數(shù)字特征向量對(duì)應(yīng)的各短消息的短消息發(fā)送方不相同,則發(fā)送離散度計(jì)數(shù)器加1 ;判斷單元,用于判斷第二獲得單元獲得的發(fā)送數(shù)量是否不小于第五規(guī)定閾值,以及第三獲得單元獲得的發(fā)送離散度是否不小于第六規(guī)定閾值;第三確定單元,用于在判斷單元的至少一個(gè)判斷結(jié)果為是時(shí),確定該短消息為垃圾短消息,否則確定該短消息為正常短消息。更佳地,所述垃圾短消息確定裝置還包括第四確定單元和存儲(chǔ)單元,其中第四確定單元,用于在第三確定單元確定出該短消息為垃圾短消息時(shí),將該數(shù)字特征向量,確定為垃圾短消息數(shù)字特征向量;存儲(chǔ)單元,用于將該數(shù)字特征向量存儲(chǔ)在所述垃圾短消息數(shù)字特征向量庫中。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種垃圾短消息確定方法,其特征在于,包括 從短消息中心中獲得待發(fā)送的短消息;從該短消息的內(nèi)容中,識(shí)別出所包含的各廣義數(shù)字,其中廣義數(shù)字為具有數(shù)字含義的字符;根據(jù)識(shí)別出的各廣義數(shù)字,確定該短消息對(duì)應(yīng)的數(shù)字特征向量; 將確定出的數(shù)字特征向量和預(yù)設(shè)的垃圾短消息數(shù)字特征向量庫中的各垃圾短消息數(shù)字特征向量進(jìn)行匹配;若匹配成功,則確定該短消息為垃圾短消息。
2.如權(quán)利要求1所述的垃圾短消息確定方法,其特征在于,在識(shí)別出所包含的各廣義數(shù)字之前,還包括對(duì)該短消息的內(nèi)容進(jìn)行預(yù)處理,刪除所包含的空格字符和標(biāo)點(diǎn)符號(hào)字符。
3.如權(quán)利要求1所述的垃圾短消息確定方法,其特征在于,從該短消息的內(nèi)容中,識(shí)別出所包含的各廣義數(shù)字,具體包括將該短消息的內(nèi)容與預(yù)設(shè)的廣義數(shù)字庫中的各廣義數(shù)字進(jìn)行匹配; 將匹配成功的字符,確定為識(shí)別出的各廣義數(shù)字。
4.如權(quán)利要求1所述的垃圾短消息確定方法,其特征在于,根據(jù)識(shí)別出的各廣義數(shù)字, 確定該短消息對(duì)應(yīng)的數(shù)字特征向量,具體包括在識(shí)別出的各廣義數(shù)字中,將在該短消息的內(nèi)容中所處的字符位置連續(xù)的廣義數(shù)字, 組合為一個(gè)廣義數(shù)字集合;在組合出的各廣義數(shù)字集合中,選擇出滿足預(yù)設(shè)條件的廣義數(shù)字集合; 根據(jù)選擇出的廣義數(shù)字集合,確定該短消息對(duì)應(yīng)的數(shù)字特征向量。
5.如權(quán)利要求4所述的垃圾短消息確定方法,其特征在于,所述預(yù)設(shè)條件為下述條件中的至少一種該廣義數(shù)字集合包含的廣義數(shù)字的數(shù)量不小于第一規(guī)定閾值; 在該短消息的內(nèi)容中,該廣義數(shù)字集合包含的廣義數(shù)字的字符,與其它廣義數(shù)字集合包含的廣義數(shù)字的字符之間所包含的字符的數(shù)量,不大于第二規(guī)定閾值。
6.如權(quán)利要求4所述的垃圾短消息確定方法,其特征在于,根據(jù)選擇出的廣義數(shù)字集合,確定該短消息對(duì)應(yīng)的數(shù)字特征向量,具體包括根據(jù)選擇出的廣義數(shù)字集合,確定該短消息對(duì)應(yīng)的廣義數(shù)字特征向量; 判斷所述廣義數(shù)字特征向量所包含的廣義數(shù)字的個(gè)數(shù)是否在第三規(guī)定閾值和第四規(guī)定閾值之間,其中第三規(guī)定閾值不大于第四規(guī)定閾值;若判斷結(jié)果為是,則將所述廣義數(shù)字特征向量,確定為該短消息對(duì)應(yīng)的數(shù)字特征向量。
7.如權(quán)利要求1所述的垃圾短消息確定方法,其特征在于,在將確定出的數(shù)字特征向量和各垃圾短消息對(duì)應(yīng)的數(shù)字特征向量進(jìn)行匹配之前,還包括將確定出的數(shù)字特征向量所包含的各廣義數(shù)字進(jìn)行格式轉(zhuǎn)換,轉(zhuǎn)換為預(yù)設(shè)格式的廣義數(shù)字。
8.如權(quán)利要求1所述的垃圾短消息確定方法,其特征在于,在確定該短消息為垃圾短消息后,還包括向短消息中心發(fā)送用以指示短消息中心攔截該短消息的攔截指示消息。
9.如權(quán)利要求1所述的垃圾短消息確定方法,其特征在于,還包括若匹配失敗,則從發(fā)送數(shù)量計(jì)數(shù)器中獲得累計(jì)的、該數(shù)字特征向量對(duì)應(yīng)的短消息的發(fā)送數(shù)量,其中當(dāng)該數(shù)字特征向量匹配失敗時(shí),發(fā)送數(shù)量計(jì)數(shù)器加1 ;從發(fā)送離散度計(jì)數(shù)器中獲得累計(jì)的、該短消息的短消息發(fā)送方的發(fā)送離散度,其中當(dāng)該數(shù)字特征向量匹配失敗時(shí),若該短消息的短消息發(fā)送方與該數(shù)字特征向量對(duì)應(yīng)的各短消息的短消息發(fā)送方不相同,則發(fā)送離散度計(jì)數(shù)器加1 ;判斷獲得的發(fā)送數(shù)量是否不小于第五規(guī)定閾值,以及獲得的發(fā)送離散度是否不小于第六規(guī)定閾值;若至少一個(gè)判斷結(jié)果為是,則確定該短消息為垃圾短消息;否則確定該短消息為正常短消息。
10.如權(quán)利要求9所述的垃圾短消息確定方法,其特征在于,確定該短消息為垃圾短消息后,還包括將確定出的該數(shù)字特征向量,確定為垃圾短消息數(shù)字特征向量;并將該數(shù)字特征向量存儲(chǔ)在所述垃圾短消息數(shù)字特征向量庫中。
11.一種垃圾短消息確定裝置,其特征在于,包括第一獲得單元,用于從短消息中心中獲得待發(fā)送的短消息;識(shí)別單元,用于從第一獲得單元獲得的該短消息的內(nèi)容中,識(shí)別出所包含的各廣義數(shù)字,其中廣義數(shù)字為具有數(shù)字含義的字符;第一確定單元,用于根據(jù)識(shí)別單元識(shí)別出的各廣義數(shù)字,確定該短消息對(duì)應(yīng)的數(shù)字特征向量;匹配單元,用于將第一確定單元確定出的數(shù)字特征向量和預(yù)設(shè)的垃圾短消息數(shù)字特征向量庫中的各垃圾短消息數(shù)字特征向量進(jìn)行匹配;第二確定單元,用于在匹配單元匹配成功時(shí),確定該短消息為垃圾短消息。
12.如權(quán)利要求11所述的垃圾短消息確定裝置,其特征在于,還包括預(yù)處理單元,用于在識(shí)別單元識(shí)別出所包含的各廣義數(shù)字之前,對(duì)該短消息的內(nèi)容進(jìn)行預(yù)處理,刪除所包含的空格字符和標(biāo)點(diǎn)符號(hào)字符。
13.如權(quán)利要求11所述的垃圾短消息確定裝置,其特征在于,識(shí)別單元具體包括匹配子單元,用于將第一獲得單元獲得的該短消息的內(nèi)容與預(yù)設(shè)的廣義數(shù)字庫中的各廣義數(shù)字進(jìn)行匹配;第一確定子單元,用于將匹配子單元匹配成功的字符,確定為該短消息的內(nèi)容所包含的各廣義數(shù)字。
14.如權(quán)利要求11所述的垃圾短消息確定裝置,其特征在于,第一確定單元具體包括 組合子單元,用于在識(shí)別單元識(shí)別出的各廣義數(shù)字中,將在該短消息的內(nèi)容中所處的字符位置連續(xù)的廣義數(shù)字,組合為一個(gè)廣義數(shù)字集合;選擇子單元,用于在組合子單元組合出的各廣義數(shù)字集合中,選擇出滿足預(yù)設(shè)條件的廣義數(shù)字集合;第二確定子單元,用于根據(jù)選擇子單元選擇出的廣義數(shù)字集合,確定該短消息對(duì)應(yīng)的數(shù)字特征向量。
15.如權(quán)利要求14所述的垃圾短消息確定裝置,其特征在于,所述預(yù)設(shè)條件為下述條件中的至少一種該廣義數(shù)字集合包含的廣義數(shù)字的數(shù)量不小于第一規(guī)定閾值;在該短消息的內(nèi)容中,該廣義數(shù)字集合包含的廣義數(shù)字的字符,與其它廣義數(shù)字集合包含的廣義數(shù)字的字符之間所包含的字符的數(shù)量,不大于第二規(guī)定閾值。
16.如權(quán)利要求14所述的垃圾短消息確定裝置,其特征在于,第二確定子單元具體包括第一確定模塊,用于根據(jù)選擇子單元選擇出的廣義數(shù)字集合,確定該短消息對(duì)應(yīng)的廣義數(shù)字特征向量;判斷模塊,用于判斷所述廣義數(shù)字特征向量所包含的廣義數(shù)字的個(gè)數(shù)是否在第三規(guī)定閾值和第四規(guī)定閾值之間,其中第三規(guī)定閾值不大于第四規(guī)定閾值;第二確定模塊,用于在判斷模塊的判斷結(jié)果為是時(shí),將所述廣義數(shù)字特征向量,確定為該短消息對(duì)應(yīng)的數(shù)字特征向量。
17.如權(quán)利要求11所述的垃圾短消息確定裝置,其特征在于,還包括轉(zhuǎn)換單元,用于在匹配單元將第一確定單元確定出的數(shù)字特征向量和各垃圾短消息對(duì)應(yīng)的數(shù)字特征向量進(jìn)行匹配之前,將第一確定單元確定出的數(shù)字特征向量所包含的各廣義數(shù)字進(jìn)行格式轉(zhuǎn)換,轉(zhuǎn)換為預(yù)設(shè)格式的廣義數(shù)字。
18.如權(quán)利要求11所述的垃圾短消息確定裝置,其特征在于,還包括發(fā)送單元,用于在第二確定單元確定出該短消息為垃圾短消息后,向短消息中心發(fā)送用以指示短消息中心攔截該短消息的攔截指示消息。
19.如權(quán)利要求11所述的垃圾短消息確定裝置,其特征在于,還包括第二獲得單元,用于在匹配單元匹配失敗時(shí),從發(fā)送數(shù)量計(jì)數(shù)器中獲得累計(jì)的、該數(shù)字特征向量對(duì)應(yīng)的短消息的發(fā)送數(shù)量,其中當(dāng)該數(shù)字特征向量匹配失敗時(shí),發(fā)送數(shù)量計(jì)數(shù)器加1 ;第三獲得單元,用于從發(fā)送離散度計(jì)數(shù)器中獲得累計(jì)的、該短消息的短消息發(fā)送方的發(fā)送離散度,其中當(dāng)該數(shù)字特征向量匹配失敗時(shí),若該短消息的短消息發(fā)送方與該數(shù)字特征向量對(duì)應(yīng)的各短消息的短消息發(fā)送方不相同,則發(fā)送離散度計(jì)數(shù)器加1 ;判斷單元,用于判斷第二獲得單元獲得的發(fā)送數(shù)量是否不小于第五規(guī)定閾值,以及第三獲得單元獲得的發(fā)送離散度是否不小于第六規(guī)定閾值;第三確定單元,用于在判斷單元的至少一個(gè)判斷結(jié)果為是時(shí),確定該短消息為垃圾短消息,否則確定該短消息為正常短消息。
20.如權(quán)利要求19所述的垃圾短消息確定裝置,其特征在于,還包括第四確定單元,用于在第三確定單元確定出該短消息為垃圾短消息時(shí),將該數(shù)字特征向量,確定為垃圾短消息數(shù)字特征向量;存儲(chǔ)單元,用于將該數(shù)字特征向量存儲(chǔ)在所述垃圾短消息數(shù)字特征向量庫中。
全文摘要
本發(fā)明公開了一種垃圾短消息確定方法及裝置,該方法包括步驟從短消息中心中獲得待發(fā)送的短消息;從該短消息的內(nèi)容中,識(shí)別出所包含的各廣義數(shù)字,其中廣義數(shù)字為具有數(shù)字含義的字符;根據(jù)識(shí)別出的各廣義數(shù)字,確定該短消息對(duì)應(yīng)的數(shù)字特征向量;將確定出的數(shù)字特征向量和預(yù)設(shè)的垃圾短消息數(shù)字特征向量庫中的各垃圾短消息數(shù)字特征向量進(jìn)行匹配;若匹配成功,則確定該短消息為垃圾短消息。采用本發(fā)明技術(shù)方案,解決了現(xiàn)有技術(shù)存在的確定包含數(shù)字類信息的垃圾短消息的準(zhǔn)確性較低的問題。
文檔編號(hào)H04W4/14GK102572745SQ201010606069
公開日2012年7月11日 申請(qǐng)日期2010年12月24日 優(yōu)先權(quán)日2010年12月24日
發(fā)明者卞寧艷, 呂進(jìn), 吳勇, 徐盈, 錢慶鋒 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)上海有限公司