專利名稱:識(shí)別特征庫(kù)獲取方法、裝置及短消息識(shí)別方法、裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信網(wǎng)絡(luò)的短消息識(shí)別技術(shù),特別是一種識(shí)別特征庫(kù)獲取方法、裝置及短消息識(shí)別方法、裝置。
背景技術(shù):
國(guó)家工信部一直對(duì)垃圾短信治理高度關(guān)注,要求各運(yùn)營(yíng)商在全國(guó)范圍內(nèi)有針對(duì)性地開展自查自糾,切實(shí)規(guī)范經(jīng)營(yíng)行為,堅(jiān)決制止各類違法違規(guī)和侵害用戶權(quán)益的行為。對(duì)運(yùn)營(yíng)商及管理部門來說治理垃圾短信除嚴(yán)格管理外,技術(shù)手段也是必須的。對(duì)于垃圾短信的定義,仁者見仁,智者見智,除了反黨反國(guó)家,影響國(guó)家、人民安定團(tuán)結(jié),情色有傷社會(huì)風(fēng)化的短信內(nèi)容一定是垃圾短信外,相同內(nèi)容的短信,在不同人的眼里對(duì)其內(nèi)容判定是否為垃圾短信是不定的,特別是用于商業(yè)促銷的廣告短信?,F(xiàn)有技術(shù)中,在運(yùn)營(yíng)商側(cè)進(jìn)行的垃圾短信攔截,只能對(duì)內(nèi)容上反黨反國(guó)家,影響國(guó)家、人民安定團(tuán)結(jié),情色有傷社會(huì)風(fēng)化的短信,以及主送號(hào)碼流量上超過門限的垃圾短信進(jìn)行攔截。無法從手機(jī)個(gè)人用戶的角度去進(jìn)行,有特色的,個(gè)性化的垃圾短信攔截,而如果使用統(tǒng)一的標(biāo)準(zhǔn)來處理,對(duì)某些用戶而言,或者會(huì)產(chǎn)生誤刪除,或者會(huì)產(chǎn)生沒有刪除的效果, 導(dǎo)致處理效率低下,舉例說明如下。假定對(duì)于用戶A而言,其極端不喜歡某個(gè)藝人X,而對(duì)于用戶B而言,其極端喜歡 X,如果此時(shí)有一條關(guān)于X的新聞需要以短消息方式推送到用戶,在這種情況下,如果設(shè)置統(tǒng)一的判別標(biāo)準(zhǔn),或者該新聞被判別為垃圾短消息不會(huì)發(fā)送,這樣會(huì)誤刪除B想要的消息, 或者該新聞被發(fā)送到A和B,但在A看來這就是垃圾短消息,兩種方式都存在效率低下的缺點(diǎn)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種識(shí)別特征庫(kù)獲取方法、裝置及短消息識(shí)別方法、裝置,提高短消息識(shí)別的效率。為了實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例提供了一種識(shí)別特征庫(kù)獲取方法,包括利用多個(gè)來自用戶且消息類型預(yù)先確定的短消息形成樣本集合;對(duì)樣本集合中的每個(gè)短消息進(jìn)行字符串抽取,得到第一字符串集合;所述第一字符串集合中的每個(gè)字符串均不同;針對(duì)所述第一字符串集合中的每一個(gè)字符串,統(tǒng)計(jì)所述樣本集合的短消息中包括該字符串的短消息數(shù)量;根據(jù)統(tǒng)計(jì)結(jié)果計(jì)算字符串對(duì)應(yīng)于短消息類別的互信息;按照互信息從大到小的順序,從所述第一字符串集合中選擇部分或全部字符串形成識(shí)別特征庫(kù)。為了實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例提供了一種識(shí)別特征庫(kù)獲取裝置,包括樣本集合生成模塊,用于利用多個(gè)來自用戶且消息類型預(yù)先確定的短消息形成樣本集合;第一字符串抽取模塊,用于對(duì)樣本集合中的每個(gè)短消息進(jìn)行字符串抽取,得到第一字符串集合;所述第一字符串集合中的每個(gè)字符串均不同;統(tǒng)計(jì)模塊,用于針對(duì)所述第一字符串集合中的每一個(gè)字符串,統(tǒng)計(jì)所述樣本集合的短消息中包括該字符串的短消息數(shù)量;互信息計(jì)算模塊,用于根據(jù)統(tǒng)計(jì)結(jié)果計(jì)算字符串對(duì)應(yīng)于短消息類別的互信息;字符串選擇模塊,用于按照互信息從大到小的順序,從所述第一字符串集合中選擇部分或全部字符串形成識(shí)別特征庫(kù)。上述的所述字符串對(duì)應(yīng)于短消息類別的互信息MI如下
權(quán)利要求
1.一種識(shí)別特征庫(kù)獲取方法,其特征在于,包括利用多個(gè)來自用戶且消息類型預(yù)先確定的短消息形成樣本集合; 對(duì)樣本集合中的每個(gè)短消息進(jìn)行字符串抽取,得到第一字符串集合;所述第一字符串集合中的每個(gè)字符串均不同;針對(duì)所述第一字符串集合中的每一個(gè)字符串,統(tǒng)計(jì)所述樣本集合的短消息中包括該字符串的短消息數(shù)量;根據(jù)統(tǒng)計(jì)結(jié)果計(jì)算字符串對(duì)應(yīng)于短消息類別的互信息;按照互信息從大到小的順序,從所述第一字符串集合中選擇部分或全部字符串形成識(shí)別特征庫(kù)。
2.根據(jù)權(quán)利要求1所述的識(shí)別特征庫(kù)獲取方法,其特征在于,所述字符串對(duì)應(yīng)于短消息類別的互信息MI如下肩“)令其中tm表示第一字符串集合中的第m個(gè)字符串,m = 1,. . .,L,L為所述第一字符串集合中記錄的字符串的數(shù)量;Ci表示預(yù)定義的短消息類別中的第i個(gè)類別; MI (tm,Ci)表示tm和類別Ci之間的互信息;P(tm)表示所述樣本集合的短消息中包括該字符串tm的短消息的數(shù)量與樣本集合中的短消息數(shù)量的比值;P(Ci)表示所述樣本集合的短消息中類別為Ci的短消息的數(shù)量與樣本集合中的短消息數(shù)量的比值;P(tm,Ci)表示所述樣本集合中包括該字符串tm,且類別為Ci的短消息的數(shù)量與樣本集合包括的短消息的數(shù)量的比值。
3.一種識(shí)別特征庫(kù)獲取裝置,其特征在于,包括樣本集合生成模塊,用于利用多個(gè)來自用戶且消息類型預(yù)先確定的短消息形成樣本集合;第一字符串抽取模塊,用于對(duì)樣本集合中的每個(gè)短消息進(jìn)行字符串抽取,得到第一字符串集合;所述第一字符串集合中的每個(gè)字符串均不同;統(tǒng)計(jì)模塊,用于針對(duì)所述第一字符串集合中的每一個(gè)字符串,統(tǒng)計(jì)所述樣本集合的短消息中包括該字符串的短消息數(shù)量;互信息計(jì)算模塊,用于根據(jù)統(tǒng)計(jì)結(jié)果計(jì)算字符串對(duì)應(yīng)于短消息類別的互信息; 字符串選擇模塊,用于按照互信息從大到小的順序,從所述第一字符串集合中選擇部分或全部字符串形成識(shí)別特征庫(kù)。
4.根據(jù)權(quán)利要求3所述的識(shí)別特征庫(kù)獲取裝置,其特征在于,所述字符串對(duì)應(yīng)于短消息類別的互信息MI如下其中tm表示第一字符串集合中的第m個(gè)字符串,m = 1,. . .,L,L為所述第一字符串集合中記錄的字符串的數(shù)量;Ci表示預(yù)定義的短消息類別中的第i個(gè)類別; MI (tm,Ci)表示tm和類別Ci之間的互信息;P(tm)表示所述樣本集合的短消息中包括該字符串tm的短消息的數(shù)量與樣本集合中的短消息數(shù)量的比值;P(Ci)表示所述樣本集合的短消息中類別為Ci的短消息的數(shù)量與樣本集合中的短消息數(shù)量的比值;P(tm,Ci)表示所述樣本集合中包括該字符串tm,且類別為Ci的短消息的數(shù)量與樣本集合包括的短消息的數(shù)量的比值。
5.一種利用權(quán)利要求1或2所述識(shí)別特征庫(kù)獲取方法得到的識(shí)別特征庫(kù)的短消息識(shí)別方法,其特征在于,包括獲取一待判別短消息,并對(duì)待判別短消息進(jìn)行字符串抽取,得到第二字符串集合; 從所述識(shí)別特征庫(kù)中選擇包括于所述第二字符串集合中的字符串組成第三字符串集合;根據(jù)樣本集合中的第一短消息的消息類型分布情況確定所述待判別短消息在一坐標(biāo)系中的坐標(biāo)(χ,y);所述第一短消息為所述樣本集合中包括所述第三字符串集合中的字符串的短消息;根據(jù)所述坐標(biāo)(χ,y)與所述坐標(biāo)系內(nèi)的標(biāo)準(zhǔn)直線之間的位置來判斷所述待判別短消息是否為垃圾短消息;所述標(biāo)準(zhǔn)直線根據(jù)所述樣本集合中的短消息的類型信息以及第二短消息的消息類型分布情況確定,所述第二短消息為所述樣本集合中包括所述特征庫(kù)中的字符串的短消息。
6.根據(jù)權(quán)利要求5所述的短消息識(shí)別方法,其特征在于,所述標(biāo)準(zhǔn)直線為X-y+C0n= 0,其中Co^log^ll.f MlZAil P{c2} Artllog(I-A2)PicJ表示樣本集合中消息類型被預(yù)先確定為垃圾短消息的短消息數(shù)量與樣本集合中短消息數(shù)量的比值;p{c2}表示樣本集合中消息類型被預(yù)先確定為正常短消息的短消息數(shù)量與樣本集合中短消息數(shù)量的比值;Pkl表示樣本集合中,包括識(shí)別特征庫(kù)中的第k個(gè)特征的短消息屬于垃圾短消息的概率;Pk2表示樣本集合中,包括識(shí)別特征庫(kù)中的第k個(gè)特征的短消息屬于正常短消息的概率;k=l,. . .,M,M為所述識(shí)別特征庫(kù)中記錄的字符串的數(shù)量。
7.根據(jù)權(quán)利要求5所述的短消息識(shí)別方法,其特征在于,所述標(biāo)準(zhǔn)直線包括第一標(biāo)準(zhǔn)直線和第二標(biāo)準(zhǔn)直線,所述第一標(biāo)準(zhǔn)直線為X-y+Con = 0,所述第二標(biāo)準(zhǔn)直線為 α *x-y+ β *Con = 0,其中
8.根據(jù)權(quán)利要求7所述的短消息識(shí)別方法,其特征在于 F= (μ +1) · PR/ ( μ P+R);P = Α/Β ; R = A/C ;A為樣本集合中利用所述第二標(biāo)準(zhǔn)直線進(jìn)行判別時(shí)被正確識(shí)別為垃圾短消息的短消息數(shù)量,B為樣本集中利用所述第二標(biāo)準(zhǔn)直線進(jìn)行判別時(shí)被識(shí)別為垃圾短消息的短消息數(shù)量, C為樣本集中被預(yù)先定義為垃圾短消息的短消息數(shù)量; μ為重要性調(diào)整因子,所述μ大于或等于O ; 所述α和β的取值為使得所述F最大的取值。
9.根據(jù)權(quán)利要求5-8中任意一項(xiàng)所述的短消息識(shí)別方法,其特征在于,在獲取所述待判別短消息后還包括判斷所述待判別短消息的主叫號(hào)碼是否存在于聯(lián)系人列表或黑名單列表中; 所述待判別短消息的主叫號(hào)碼是否存在于聯(lián)系人列表時(shí),直接保存所述待判別短消息到收件箱后結(jié)束;所述待判別短消息的主叫號(hào)碼存在于黑名單列表時(shí),直接保存所述待判別短消息到垃圾箱后結(jié)束;所述待判別短消息的主叫號(hào)碼既不存在于聯(lián)系人列表,也不存在于黑名單列表時(shí),進(jìn)入所述對(duì)待判別短消息進(jìn)行字符串抽取的步驟。
10.一種利用權(quán)利要求1或2所述識(shí)別特征庫(kù)獲取方法得到的識(shí)別特征庫(kù)的短消息識(shí)別裝置,其特征在于,包括第二字符串抽取模塊,用于獲取一待判別短消息,并對(duì)待判別短消息進(jìn)行字符串抽取, 得到第二字符串集合;集合生成模塊,用于從所述識(shí)別特征庫(kù)中選擇包括于所述第二字符串集合中的字符串組成第三字符串集合;坐標(biāo)確定模塊,用于根據(jù)樣本集合中的第一短消息的消息類型分布情況確定所述待判別短消息在一坐標(biāo)系中的坐標(biāo)(χ,y);所述第一短消息為所述樣本集合中包括所述第三字符串集合中的字符串的短消息;識(shí)別處理模塊,用于根據(jù)所述坐標(biāo)(χ,y)與所述坐標(biāo)系內(nèi)的標(biāo)準(zhǔn)直線之間的位置來判斷所述待判別短消息是否為垃圾短消息;所述標(biāo)準(zhǔn)直線根據(jù)所述樣本集合中的短消息的類型信息以及第二短消息的消息類型分布情況確定,所述第二短消息為所述樣本集合中包括所述特征庫(kù)中的字符串的短消息。
11.根據(jù)權(quán)利要求10所述的短消息識(shí)別裝置,其特征在于,所述標(biāo)準(zhǔn)直線為x-y+C0n =0,其中
12.根據(jù)權(quán)利要求10所述的短消息識(shí)別裝置,其特征在于,所述標(biāo)準(zhǔn)直線包括第一標(biāo)準(zhǔn)直線和第二標(biāo)準(zhǔn)直線,所述第一標(biāo)準(zhǔn)直線為X-y+Con = 0,所述第二標(biāo)準(zhǔn)直線為α *x-y+ β *Con = 0,其中
13.根據(jù)權(quán)利要求12所述的短消息識(shí)別裝置,其特征在于 F= (μ +1) · PR/ ( μ P+R); P = Α/Β ; R = A/C ;A為樣本集合中利用所述第二標(biāo)準(zhǔn)直線進(jìn)行判別時(shí)被正確識(shí)別為垃圾短消息的短消息數(shù)量,B為樣本集中利用所述第二標(biāo)準(zhǔn)直線進(jìn)行判別時(shí)被識(shí)別為垃圾短消息的短消息數(shù)量, C為樣本集中被預(yù)先定義為垃圾短消息的短消息數(shù)量; μ為重要性調(diào)整因子,所述μ大于或等于0 ; 所述α和β的取值為使得所述F最大的取值。
全文摘要
本發(fā)明提供一種識(shí)別特征庫(kù)獲取方法、裝置及短消息識(shí)別方法、裝置,該識(shí)別特征庫(kù)獲取方法,包括利用多個(gè)來自用戶且消息類型預(yù)先確定的短消息形成樣本集合;對(duì)樣本集合中的每個(gè)短消息進(jìn)行字符串抽取,得到第一字符串集合;所述第一字符串集合中的每個(gè)字符串均不同;針對(duì)所述第一字符串集合中的每一個(gè)字符串,統(tǒng)計(jì)所述樣本集合的短消息中包括該字符串的短消息數(shù)量;根據(jù)統(tǒng)計(jì)結(jié)果計(jì)算字符串對(duì)應(yīng)于短消息類別的互信息;按照互信息從大到小的順序,從所述第一字符串集合中選擇部分或全部字符串形成識(shí)別特征庫(kù)。本發(fā)明提高了短消息識(shí)別的效率。
文檔編號(hào)G06F17/30GK102572744SQ20101060226
公開日2012年7月11日 申請(qǐng)日期2010年12月13日 優(yōu)先權(quán)日2010年12月13日
發(fā)明者萬狄飛 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司