專利名稱:短信息監(jiān)控中心的制作方法
技術(shù)領(lǐng)域:
本實用新型涉及短信技術(shù)領(lǐng)域的短信息監(jiān)控技術(shù),尤其涉及一種短信息監(jiān) 控中心。
背景技術(shù):
2000年至2006年,我國短信業(yè)務(wù)量分別為10億、189億、900億、1371 億、2177億、4296億,2006年日均發(fā)送12億條。在如此眾多的短信中,30% 以上是垃圾短信。所謂垃圾短信是指違背接收者意愿、接收者無法拒收、隱藏 發(fā)信人真實信息的違法或廣告短信。垃圾短信不僅占用了有限的網(wǎng)絡(luò)資源,造 成網(wǎng)絡(luò)擁塞,敗壞了運行商在公眾中的企業(yè)形象,而且嚴重影響了用戶的正常 工作和生活。更為嚴重的,短信已成為一些不法之徒實施犯罪的載體,利用短 信進行詐騙、色情交易和反動宣傳的事件時有發(fā)生,導(dǎo)致社會公信度下降,不 利于構(gòu)建和諧社會目標(biāo)的實現(xiàn)。
短信在國外的應(yīng)用有限。原因是國外通信資費便宜,用戶支付能力強,用 戶沒有廣泛使用短信的習(xí)慣。以日本為例,運行商從未開展短信業(yè)務(wù);短信服 務(wù)發(fā)源地歐洲1991年已開展此項業(yè)務(wù),迄今為止,規(guī)模仍然十分有限。因此, 發(fā)達國家在短信息監(jiān)控方面的研究既不充分也不深入,其中影響較大使用較多 的是朗訊公司推出的MlilifeAnti-SPAM產(chǎn)品,簡稱ASA。 ASA采用貝爾實驗 室專利的Vortex規(guī)則引擎技術(shù),具有自學(xué)習(xí)和動態(tài)調(diào)整規(guī)則功能。ASA在國 內(nèi)得到一定應(yīng)用,但效果差強人意。因為ASA基于關(guān)鍵詞完全匹配技術(shù),垃 圾短信發(fā)送者在短信中附件干擾信息,例如插入無意義的字符或近音詞替代 等,就可以規(guī)避ASA的攔截;ASA根據(jù)短信發(fā)送數(shù)量(100條/h)規(guī)則攔截, 未考慮短信內(nèi)容一致性等行為特征,垃圾短信發(fā)送者僅需作簡單技術(shù)處理就能 規(guī)避ASA的攔截。
國內(nèi)對短消息監(jiān)控中心的研究停滯在2003年頒布的《短信息業(yè)務(wù)中心與 短信息監(jiān)控中心接口規(guī)范》上,并無實質(zhì)性舉措,究其原因有以下三點追逐 利潤是作為企業(yè)的運營商的本能,短信目前是運營商最重要的經(jīng)濟增長點,過 濾短信勢必影響利潤,因此運行商長期以來持消極態(tài)度;基于第一點,運行商 的消極態(tài)度嚴重影響短信息監(jiān)控中心開發(fā)商的投入和積極性;國家相關(guān)規(guī)范、 標(biāo)準(zhǔn)的可操性不夠,也影響了短信息監(jiān)控中心的開發(fā)。以向國家知識產(chǎn)權(quán)局申 請的發(fā)明專利為例,迄今申請量僅十余項,授權(quán)三項。隨著整治垃圾短信社會
呼聲的持續(xù)升高,運行商認識到企業(yè)應(yīng)當(dāng)承擔(dān)社會責(zé)任,2006年10月以來, 運行商加快了對短信息監(jiān)控中心方面的研究與投入?,F(xiàn)就短信息監(jiān)控中心領(lǐng)域
申請的有關(guān)專利所涉及的技術(shù)和策略綜述如下
一種處理垃圾短信的方法及系統(tǒng)(申請?zhí)?00510117449.7),提出用戶在 運營商網(wǎng)絡(luò)側(cè)建立關(guān)鍵字列表處理垃圾短信的方法。
一種處理垃圾短信的方法及系統(tǒng)(申請?zhí)?00510117448.2),提出用戶在 運營商網(wǎng)絡(luò)側(cè)建立號碼列表處理垃圾短信的方法。
短信防火墻系統(tǒng)和設(shè)立短信防火墻的方法(申請?zhí)?00610020383.4),提 出了用戶設(shè)置個性化的短信過濾規(guī)則,運營商設(shè)置通用的短信過濾規(guī)則。
短信內(nèi)容的線性參數(shù)模糊匹配算法(申請?zhí)?00410061270.乂),提出了關(guān) 鍵詞中引入通配符的技術(shù),解決關(guān)鍵詞匹配技術(shù)在附加干擾信息的垃圾短信中 失效的問題。
一種手機過濾短消息的方法(ZL02137335.3),提出用戶側(cè)設(shè)置關(guān)鍵詞過
濾垃圾短信。
手機過濾短信息的一種方法(ZL200410042668.9)提出用戶側(cè)設(shè)置電話號
碼過濾垃圾短信。
短信息防火墻實現(xiàn)方法(ZL20041008826.9)提出用戶側(cè)設(shè)置垃圾號碼過
濾垃圾短信。
上述研究成果和有益探索有一定的參考、借鑒價值,其不足之處可歸納如
下關(guān)鍵詞中引入通配符模糊匹配技術(shù)的有效性有待提高;未注意垃圾短信具 有明顯的行為特征,尤其是短信內(nèi)容一致這一要素;短信息監(jiān)控中心實時過濾 影響短信息業(yè)務(wù)中心處理能力的問題,缺乏相應(yīng)的技術(shù)措施;合法短信誤判與 垃圾短信誤判相比,前者給用戶帶來更大的損失,給運營商也造成更過的麻煩, 對此缺乏相應(yīng)的兼顧各方利益的處理技術(shù)和策略;關(guān)鍵詞詞典的自動生成技術(shù)。 發(fā)明內(nèi)容
本實用新型的目的是提供一種短信息監(jiān)控中心。
短信息監(jiān)控中心通過匯接網(wǎng)關(guān)與短信息業(yè)務(wù)中心相接,短信息監(jiān)控中 心的內(nèi)部連接關(guān)系為話單采集模塊與起呼信息條數(shù)、頻率發(fā)送成功率統(tǒng) 計模塊、短信息一致性判別模塊、用戶信任等級模塊、綜合評定短信息類 別模塊、黑白名單管理模塊、HLR歸屬位置寄存器模塊相接,話單采集 模塊與貝葉斯短信息學(xué)習(xí)模塊、關(guān)鍵詞詞典模塊、拼音模糊化關(guān)鍵詞匹配 模塊、綜合評定短信息類別模塊相接,短信息監(jiān)控中心硬件平臺為
IBMX3950 8872-7RC多核環(huán)境。
所述的短信息監(jiān)控中心將短信分為三類合法短信、可疑短信和垃圾短信; 采用合法短信放行,垃圾短信攔截,可疑短信附加運行商提示語后放行的策略。 短信息監(jiān)控中心的關(guān)鍵詞詞典通過貝葉斯法對短信樣本離線學(xué)習(xí)自動生成。
本實用新型的優(yōu)點1)中文關(guān)鍵字采用拼音模糊化關(guān)鍵詞匹配模板技術(shù), 能有效清除垃圾短信中的干擾信息;2)根據(jù)垃圾短信的行為特征,動態(tài)調(diào)整 用戶的信任等級,結(jié)合基于拼音模糊化關(guān)鍵詞匹配模板實時過濾技術(shù)所確定的 短信垃圾度值,綜合評定短信的類別,提高了垃圾短信的攔截率和判別正確率; 3)在多核硬件平臺上,運行并行的實時過濾程序,減少短信息監(jiān)控中心對短 信息業(yè)務(wù)中心處理能力的影響;4)短信分類和處理的新策略,將短信劃分為 合法短信、可疑短信和垃圾短信,放行合法短信,攔截垃圾短信,而可疑短信 采用附加運營商提示語后放行的策略,在我國現(xiàn)行法律法規(guī)框架內(nèi),兼顧了用 戶和運營商的雙方利益;5)采用貝葉斯法對短信樣本進行離線學(xué)習(xí),自動生 成垃圾短信關(guān)鍵詞詞典。
圖1是短信業(yè)務(wù)中心(短信息業(yè)務(wù)中心)與短信息監(jiān)控中心(短信息監(jiān)控 中心)的結(jié)構(gòu)框圖2是短信息監(jiān)控中心(短信息監(jiān)控中心)的結(jié)構(gòu)框圖(省略了匯接網(wǎng)關(guān));
圖3是拼音模糊化關(guān)鍵詞匹配模板算法流程圖4 (a)是短消息內(nèi)容一致性判別MD5算法主循環(huán)示意圖4 (b)是MD5加密算法每輪中的一次操作示意圖5是貝葉斯自動生成短信息關(guān)鍵詞詞典流程圖。
具體實施方式
短信實時過濾理論上有多種方法,但應(yīng)用最廣的仍然是基于關(guān)鍵詞匹配的 方法。針對垃圾短信采用人為增加干擾信息,干擾短信息監(jiān)控中心的監(jiān)控,提 出拼音模糊化關(guān)鍵詞匹配模板方法,達到有效消除干擾信息,過濾垃圾短信的目的。
鑒于垃圾短信有別于合法短信的顯著行為特征的事實,如高發(fā)送頻率和發(fā) 送量,較低發(fā)送成功率、短信內(nèi)容一致等特點,在話單分析方法中予以鑒別, 并動態(tài)調(diào)整用戶的信任等級。結(jié)合實時過濾確定的短信垃圾度,綜合評定短信 的最終類別。短信內(nèi)容一致性判別采用密碼學(xué)中的MD5 HASH算法。
鑒于短信息監(jiān)控中心投運通常會導(dǎo)致短信息業(yè)務(wù)中心處理能力下降30% 左右的事實,短信息監(jiān)控中心硬件平臺選擇多核環(huán)境,在Linux對稱多處理器
架構(gòu)下運行并行的多線程實時過濾程序,減少短信息監(jiān)控中心對短信息業(yè)務(wù)中 心處理能力影響。
鑒于合法短信誤判遠較垃圾短信誤判的負面影響更大的事實,考慮到我國 相關(guān)法律法規(guī)對運行商的約束,將短信劃分為合法短信、可疑短信和垃圾短信。 合法短信放行,垃圾短信攔截,可疑短信則采用附加運行商提示語后放行的策
略。就用戶而言,可避免重要信息被攔截造成的損失;就運行商而言,攔截短 信按規(guī)定是不收費的,過多攔截勢必影響收益,同時可疑短信即便是垃圾短信, 因為己附加了提示,從法律角度運行商己盡義務(wù),況且同樣一條短信是否垃圾 隨人而異,因此上述策略兼顧了用戶與運行商的利益。
關(guān)鍵詞詞典借鑒過濾垃圾郵件領(lǐng)域的成果,采用貝葉斯法對短信樣本離線 學(xué)習(xí)自動生成。
以下結(jié)合附圖對本實用新型作進一步說明。
如圖1所示,各短信息業(yè)務(wù)中心接收普通用戶發(fā)送或?qū)嶓w提交的短信息后, 均發(fā)送一個鑒權(quán)請求到匯接網(wǎng)關(guān),匯接網(wǎng)關(guān)轉(zhuǎn)發(fā)鑒權(quán)請求至短信息監(jiān)控中心。 短信息監(jiān)控中心對短信內(nèi)容和行為特征進行判斷,經(jīng)匯接網(wǎng)關(guān)返回給短信息業(yè) 務(wù)中心鑒權(quán)響應(yīng)。如果短消息合法,短信息監(jiān)控中心返回鑒權(quán)成功消息,短信 息業(yè)務(wù)中心將該短信下發(fā)給接收者;如果短消息可疑,短信息監(jiān)控中心返回鑒 權(quán)接受消息,短信息業(yè)務(wù)中心將該短信附加運行商提示語后下發(fā)給接收者;如 果短消息不合法,返回鑒權(quán)失敗消息,短信息業(yè)務(wù)中心將該短信丟棄。根據(jù)信 息產(chǎn)業(yè)部《短信息業(yè)務(wù)中心與短信息監(jiān)控中心接口規(guī)范》,短信息業(yè)務(wù)中心與 短信息監(jiān)控中心之間的信息交互采用標(biāo)準(zhǔn)的SMPP協(xié)議,短信息業(yè)務(wù)中心通過 DELIVER—SM將起呼MO (Mobile Original)信息提交給短信息監(jiān)控中心,短 信息監(jiān)控中心提取DELIVER—SM中short—message—test字段內(nèi)容,按照既定規(guī) 則處理后返回短信息業(yè)務(wù)中心一條SELIVER_SM—RESP鑒權(quán)響應(yīng)消息。如果 短信息業(yè)務(wù)中心等待響應(yīng)的時間大于5s,則短信息業(yè)務(wù)中心記錄日志,直接下 發(fā)短信。
如圖2所示,短信息監(jiān)控中心的內(nèi)部連接關(guān)系為話單采集模塊與起呼信 息條數(shù)、頻率發(fā)送成功率統(tǒng)計模塊、短信息一致性判別模塊、用戶信任等級模
塊、綜合評定短信息類別模塊、黑白名單管理模塊、HLR歸屬位置寄存器模塊 相接,話單采集模塊與貝葉斯短信息學(xué)習(xí)模塊、關(guān)鍵詞詞典模塊、拼音模糊化 關(guān)鍵詞匹配模塊、綜合評定短信息類別模塊相接。
短信息監(jiān)控方法采用實時過濾機制融合話單分析機制的方法共同完成垃 圾短信的過濾,話單采集模塊從短信息業(yè)務(wù)中心的計費模塊中讀入數(shù)據(jù),統(tǒng)計
短信息的信息條數(shù)、頻率、發(fā)送成功率等行為特征,短信息內(nèi)容一致性則采用
MD5 HASH算法,動態(tài)調(diào)整用戶信任等級;話單采集模塊同時供貝葉斯學(xué)習(xí) 模塊使用,更新短信息實時過濾的關(guān)鍵詞詞典;拼音模糊化關(guān)鍵詞匹配模板模 塊對鑒權(quán)請求的短信息實時過濾,得出短信息垃圾度值;綜合考慮短信息垃圾 度和用戶信任等級因素,給出短信息類別的鑒別響應(yīng),同時生成的黑白名單反 饋給短信息業(yè)務(wù)中心;短信息監(jiān)控中心與短信息業(yè)務(wù)中心之間的通信協(xié)議是 SMPPV3.X,短信息監(jiān)控中心硬件平臺為IBMX3950 8872-7RC多核環(huán)境,在 Linux對稱多處理器架構(gòu)下運行并行的多線程實時過濾程序。
如圖3所示,結(jié)合實例論述拼音模糊化關(guān)鍵詞匹配模板實時過濾技術(shù)。通 過三萬條短信進行垃圾關(guān)鍵詞的貝葉斯學(xué)習(xí),得到垃圾短信關(guān)鍵詞"法輪功", 進行拼音化后為"FaLunGong",得到"FaLunGong"對應(yīng)的垃圾度,設(shè)為M。 當(dāng)系統(tǒng)接受到"法輪功人員在天安門廣場自焚……"等違法短信后,系統(tǒng)對短 信拼音化后進行匹配,匹配到"FaLunGong"并得到對應(yīng)的垃圾度。不法分子 對垃圾短信主要采取以下幾種變形-
>增加標(biāo)點符號。如"法,輪功人員在天安門廣場自焚……"等,系統(tǒng) 在匹配前首先去除標(biāo)點符號,因此以上短信同樣可以匹配到"FaLimGong"。
>增加分割符。如"法輪功人員在天安門廣場自焚……",系統(tǒng)在去除 標(biāo)點符號后,還會去除分割符,因此以上短信同樣可以匹配到"FaLunGong"。
>增加無關(guān)詞。如"法呀輪呀功人員在天安門廣場自焚……"短信息關(guān) 鍵詞模板匹配技術(shù),其核心思想是將通常的關(guān)鍵詞分解為單個字。鑒于一條短 信的長度《=75漢字,垃圾短信在關(guān)鍵詞中插入的無關(guān)字干擾是有限的,同時 過多的無關(guān)字會使垃圾短信的可讀性變壞,失去騙人作用。關(guān)鍵詞模板匹配技 術(shù)將關(guān)鍵詞"法輪功"視為三個字"法""輪""功";假設(shè)模板的長度為關(guān)鍵 詞長度X2,以關(guān)鍵詞"法輪功"為例,模板長度為6。實時過濾時,掃描短信 全文,"法"字與垃圾短信關(guān)鍵詞"法輪功"的首字匹配,則從短信中截取模 板長度(6個字符)內(nèi)容與關(guān)鍵詞"法輪功"匹配,因此以上短信同樣可以匹 配到"FaLimGong"。這樣垃圾短信"法呀輪呀功"等變形體亦無法規(guī)避短信 息監(jiān)控中心的實時過濾攔截。模板長度視運營結(jié)果隨時調(diào)整。
>用同音字代替,如"發(fā)輪功人員在天安門廣場自焚……",由于系統(tǒng) 是用拼音進行匹配的,因此"發(fā)論功"在轉(zhuǎn)化為拼音時也同樣會匹配到 "FaLunGong"。
>用近音字代替,如"花輪功人員在天安門廣場自焚……",系統(tǒng)在進行
漢字到拼音的轉(zhuǎn)化時,會把相似拼音進行模糊處理,如"hua"到"Fa", "run"
到"hm", "neng"到"nen"等。因此"花輪功"在進行拼音模糊轉(zhuǎn)化后也能 匹配"FaLunGong"。
總之,拼音模糊化關(guān)鍵詞匹配模板技術(shù)能有效消除垃圾短信中各種人為的
干擾信息。
如圖4 (a)、 (b)所示,鑒于垃圾短信具有明顯的惡意行為特征,如高發(fā) 送頻率和發(fā)送量、較低發(fā)送成功率、短信內(nèi)容一致等特征,因此分析歸納垃圾 短信的行為特征,動態(tài)調(diào)整用戶的信任等級是可行的。與實時過濾技術(shù)結(jié)合可 進一步提高短信息監(jiān)控中心的效用。發(fā)送頻率、發(fā)送量、發(fā)送成功率的統(tǒng)計屬 公知技術(shù),但短信內(nèi)容一致性判別按傳統(tǒng)的全文掃描逐一比較法是不可行的, 全文掃描逐一比較法要耗費短信息監(jiān)控中心的大量資源,無法滿足對實時性要 求近于苛刻的短信息監(jiān)控中心的要求。
MD5的全稱是Message-Digest Algorithm 5 (信息—摘要算法),它的典型 應(yīng)用是對一段信息(Message)產(chǎn)生信息摘要(Message-Digest)。 MD5將整個 文件當(dāng)作一個大文本信息,通過其不可逆的字符串變換算法,產(chǎn)生了這個唯一 的MD5信息摘要。如果在以后傳播這個文件的過程中,無論文件的內(nèi)容發(fā)生 了任何形式的改變(包括人為修改或者發(fā)送過程中線路不穩(wěn)定引起的傳輸錯誤 等),只要對這個文件重新計算MD5時就會發(fā)現(xiàn)信息摘要不相同,由此可以確 定得到的只是一個不正確的文件。簡單來說,MD5的作用是讓短信在過濾前 被"壓縮"成一種保密的格式,也就是把一個任意長度的字節(jié)串變換成一定長 的大整數(shù)。
一致性判別消息M被分為Mp M2,……Mk,共K個子分組。單向散列 函數(shù)的輸入是消息分組Mi和前一消息分組Mw的散列值的散列值h",輸出散 列值h,,輸出散列值h產(chǎn)f (Mi, hw)。該散列值hi和下一輪的消息分組Mw 一起,作為單向散列函數(shù)的下一輪輸入,如此反復(fù),最后一組的輸出就是整個 待加密消息的散列值。
MD5加密算法是Ron Rivest設(shè)計的一種單向散列函數(shù),它以512位分組 為單位處理輸入明文(Plaintext),每個512位分組又分為16個32位子分組, 算法的輸出為4個級聯(lián)的32位分組,組成128位的散列值。MD5算法的初始 化、主循環(huán)和尾部處理三個步驟如下
①初始化。算法初始化分為原始明文初始化和鏈接變量初始化兩個部分。 明文初始化首先將長度為L的待加密明文P后面級聯(lián)一個字節(jié)0X80,再級 聯(lián)若干個0X00作為填充,使其長度為(512叱-64)位(K為正整數(shù)).接著再級
聯(lián)64位以字節(jié)計的明文長度,此時明文長度被填充為512位的整數(shù)倍,同時 確保不同明文填充后不會相同。四個32位鏈接變量(Chaining Variable)初始化 為A=0x01234567, B=0x89ABCDEF, C=0xFEDCBA98, D =0x76543210。 這四個鏈接變量對于整個算法至關(guān)重要,其取值直接關(guān)系到配套設(shè)備軟件的編 寫,務(wù)必將這四個鏈接變量寫正確。
② 算法主循環(huán)。算法主循環(huán)如圖4 (a)所示。主循環(huán)次數(shù)為經(jīng)過填充的 明文數(shù)據(jù)位數(shù)除以512位所得的商。將鏈接變量A、 B、 C、 D分別賦給a、 b、 c、 d四個變量。每次主循環(huán)都有四輪,每輪進行16次操作,每次操作先對a、 b、 c、 d中的三個進行一次非線性函數(shù)運算,然后將所得結(jié)果依次加上第四個 變量、Mj(文本中的一個子分組)和一個Ci(常數(shù)),將所得結(jié)果循環(huán)左移一個不 定的常數(shù)S,然后再加上a、 b、 c或者d中之一,最后用該結(jié)果取代a、 b、 c 或者d中之一。每次操作過程如圖4 (b)所示。
③ 尾部處理。每一次主循環(huán)全部完成之后,將A、 B、 C和D分別加上a、 b、 c和d。接著用下一個分組繼續(xù)運行算法,最后的輸出散列值是A、 B、 C 和D的級聯(lián)。定義非線性函數(shù)FF (a,b, c, d, Mj, S, Ci):
a = & + [F(6, c, d) + a + Mj + Ci]《< S 其中,S為循環(huán)左移的位數(shù),為一常數(shù);常數(shù)Q為第i步中f、lsin(i)l的整數(shù)部 分(i單位為弧度)。四輪一共為16x4=64次,每一次的非線性函數(shù)都不相同。
基于MD5 HASH算法判斷是否為重復(fù)發(fā)送的短信方法如下對進入監(jiān)控 中心的每條短信進行MD5算法產(chǎn)生一個128位的整數(shù),并和一段時間內(nèi)監(jiān)控 中心接收到的短信產(chǎn)生的所有HASH數(shù)進行比較,如果存在相同的整數(shù),則認 為兩條短信內(nèi)容相同,對該短信的發(fā)送數(shù)量加l,計算函數(shù)F(X, L,N), X為 用戶的信任等級,L為短信的垃圾度,N為短信發(fā)送的數(shù)量,計算出是否可繼 續(xù)發(fā)送該短信,并根據(jù)計算結(jié)果進行相應(yīng)的處理。如果不存在相同的整數(shù),則 發(fā)送短信,并將短信發(fā)送數(shù)量置l,并把該整數(shù)插入HASH隊列中。
如圖5所示,在短信息監(jiān)控中心空閑時段,貝葉斯短信息學(xué)習(xí)模塊自動/ 手工篩選短信息樣本對篩選出的樣本進行貝葉斯學(xué)習(xí);生成的垃圾短信息關(guān)鍵 詞供拼音模糊化關(guān)鍵詞匹配模塊進行短信息實時過濾。
現(xiàn)有研究和測試表明,短信息監(jiān)控中心投運通常降低短信息業(yè)務(wù)中心 30%的處理能力,因為短信息實時過濾——拼音模糊化關(guān)鍵詞匹配模板算法的 軟硬件資源開銷較大,這是運行商面臨的一個棘手問題。解決這一難題的技術(shù) 措施是采用多核硬件平臺,運行并行的實時過濾程序。多核應(yīng)用的難點在軟件, 幸運的是短信息實時過濾具有天然的并行性,因此并行的過濾程序難度大大降
低,舉例如下。
硬件平臺采用的IBM X3950 8872-7RC服務(wù)器含有2顆Intel Xeon 7020雙 核處理器,符合Linux系統(tǒng)的對稱多處理器架構(gòu)。多核處理器與多處理器的區(qū) 別在于是否采用前端總線作為數(shù)據(jù)共享的渠道。短消息的并行處理宜采用單進 程多線程處理的模式,因為對比線程和進程,線程的創(chuàng)建和切換開銷比進程更 小、線程間通信的方式多而且簡單也更有效率、多線程有汗牛充棟的基礎(chǔ)庫支 持、多線程的程序比多進程的程序更容易理解和修改。對于支持SMP架構(gòu)的 操作系統(tǒng),各線程分配到不同CPU核的方案由系統(tǒng)內(nèi)核來自動調(diào)度,調(diào)度方 案對內(nèi)核而言是平臺相關(guān)的,而對應(yīng)用程序而言是無關(guān)的。
后臺應(yīng)用程序需要包含〈pthread》頭文件以創(chuàng)建多線程。創(chuàng)建新的線程的 函數(shù)原型為 extern int pthread—create _P ((pthread一t * thread, 一const pthread_attr—t *—attr, void *(*—start—routine) (void *), void * arg));第一個參 數(shù)為指^]線程標(biāo)識符的指針,第二個參數(shù)用來設(shè)置線程屬性,第三個參數(shù)是線 程運行函數(shù)的起始地址,最后一個參數(shù)是運行函數(shù)的參數(shù)。子線程完成后,主 線程用extern int pthreadjoin 一P ((pthread—t —th, void **_thread一retum));或 extern void pthread—exit _P ((void *_retval)) attribute一 ((_noreturn));來 等待它的結(jié)束。
創(chuàng)建子線程后,可以用pthread—attr—setscope()設(shè)定線程是否綁定到輕進程 上做不需要調(diào)度的實時處理;可以用pthread_attr_setdetachstate(pthread_attr—t *attr, int detachstate)設(shè)定線程終止自身的方式;也可以用 pthread—attr一getschedparam(&attr, ¶m);pthread—attr—setschedparam(&attr,
& &1&111);函數(shù)對修改線程的優(yōu)先級。
在多線程程序里,除了全局變量和局部變量,還有一種與線程相關(guān)的數(shù)據(jù)
類型線程數(shù)據(jù)。在線程內(nèi)部,各個函數(shù)可以象使用全局變量一樣調(diào)用它,但
它對線程外部的其它線程是不可見的。在甲線程處理短消息的返回信息(錯誤 代碼或處理結(jié)果),不能被進程認為是乙線程的,所以需要將線程對應(yīng)的數(shù)據(jù)
綁定到 一 個與線程相關(guān)的鍵上。extern int pthread—key—create __P ((pthread—key—t *_key, void (*—destr一function) (void "));禾B pthread一once ((pthread—once—t*once—control, void (*initroutine) (void)));酉己合使用,保證對應(yīng)的 鍵只被倉鍵一次。extern int pthread—setspecific P ((pthread—key一t _key,—const void *_pointer));禾口 extern void * pthread—getspecific _P ((pthread一key一t key)); 建立短消息處理返回值與鍵之間的讀寫關(guān)系。最后可以用pthread_key—delete() 刪除該鍵。并行短消息處理所面臨的共享數(shù)據(jù)讀寫沖突由互斥鎖解決。pthread—mutex—t類型的互斥鎖變量mutex包含一個系統(tǒng)分配的屬性對象。函數(shù) pthread—mutex—init用來生成一個互斥鎖。如果需要聲明特定屬性的互斥鎖,須 調(diào)用函數(shù)pthread—mutexattr—init 。 函數(shù)pthread—mutexattr—setpshared禾B函數(shù) pthread—mutexattr—settype用來設(shè)置互斥鎖屬'性。pthread—mutex—lock聲明開女臺 用互斥鎖上鎖,此后的代碼直至調(diào)用pthread—mutex—unlock為止,均被上鎖, 即同一時間只能被一個線程調(diào)用執(zhí)行。當(dāng)一個線程執(zhí)行到pthread—mutex—lock 處時,如果該鎖此時被另一個線程使用,那此線程被阻塞,即程序?qū)⒌却搅?一個線程釋放此互斥鎖。
短信息監(jiān)控方法采用話單采集模塊從短信息業(yè)務(wù)中心的計費模塊中讀入 數(shù)據(jù),統(tǒng)計短信息的信息條數(shù)、頻率、發(fā)送成功率等行為特征,短信息內(nèi)容一 致性則采用MD5 HASH算法,動態(tài)調(diào)整用戶信任等級;話單采集模塊同時供 貝葉斯學(xué)習(xí)模塊使用,更新短信息實時過濾的關(guān)鍵詞詞典;拼音模糊化關(guān)鍵詞 匹配模板模塊對鑒權(quán)請求的短信息實時過濾,得出短信息垃圾度值;綜合考慮 短信息垃圾度和用戶信任等級因素,給出短信息類別的鑒別響應(yīng),同時生成的 黑白名單反饋給短信息業(yè)務(wù)中心;短信息監(jiān)控中心釆用實時過濾機制融合話單 分析機制的方法共同完成垃圾短信的過濾,短信息監(jiān)控中心與短信息業(yè)務(wù)中心 之間的通信協(xié)議是SMPPV3.X,短信息監(jiān)控中心硬件平臺為IBMX3950 8872-7RC多核環(huán)境,在Linux對稱多處理器架構(gòu)下運行并行的多線程實時過 濾程序。
所述的拼音模糊化關(guān)鍵詞匹配模板方法當(dāng)系統(tǒng)接收到短信后,系統(tǒng)對短 信拼音模糊化后采用拼音模糊化關(guān)鍵詞匹配模板技術(shù)進行匹配,得到短信對應(yīng) 的垃圾度。拼音模糊化關(guān)鍵詞匹配模板技術(shù)能有效消除垃圾短信中各種人為的 干擾信息。
所述的話單分析機制的方法著眼于垃圾短信的行為特征,包括起呼信息 條數(shù)、頻率、發(fā)送成功率、短信內(nèi)容一致性等,動態(tài)調(diào)整用戶的信任等級;結(jié) 合實時過濾確定的短信垃圾度,綜合評定該短信的最終類別。短信內(nèi)容一致性 判別采用密碼學(xué)中的MD5 HASH算法對進入監(jiān)控中心的每條短信進行MD5 算法產(chǎn)生一個128位的整數(shù),并和一段時間內(nèi)監(jiān)控中心接收到的短信產(chǎn)生的所 有HASH數(shù)進行比較,如果存在相同的整數(shù),則認為兩條短信內(nèi)容相同,對該 短信的發(fā)送數(shù)量加l,計算函數(shù)F(X, L,N), X為用戶的信任等級,L為短信 的垃圾度,N為短信發(fā)送的數(shù)量,計算出是否可繼續(xù)發(fā)送該短信,并根據(jù)計算 結(jié)果進行相應(yīng)的處理。如果不存在相同的整數(shù),則將短信發(fā)送數(shù)量置l,并把 該整數(shù)插入HASH隊列中。
權(quán)利要求1.一種短信息監(jiān)控中心,其特征在于短信息監(jiān)控中心通過匯接網(wǎng)關(guān)與短信息業(yè)務(wù)中心相接,短信息監(jiān)控中心的內(nèi)部連接關(guān)系為話單采集模塊與起呼信息條數(shù)、頻率發(fā)送成功率統(tǒng)計模塊、短信息一致性判別模塊、用戶信任等級模塊、綜合評定短信息類別模塊、黑白名單管理模塊、HLR歸屬位置寄存器模塊相接,話單采集模塊與貝葉斯短信息學(xué)習(xí)模塊、關(guān)鍵詞詞典模塊、拼音模糊化關(guān)鍵詞匹配模塊、綜合評定短信息類別模塊相接,短信息監(jiān)控中心硬件平臺為IBMX39508872-7RC多核環(huán)境。
專利摘要本實用新型公開一種短信息監(jiān)控中心。它將實時過濾機制與話單分析機制相融合共同完成垃圾短信的過濾,提高了監(jiān)控中心對垃圾短信的攔截率,降低誤判率。本實用新型的優(yōu)點1)中文關(guān)鍵字采用拼音模糊化關(guān)鍵詞匹配模板技術(shù),能有效清除垃圾短信中的干擾信息;2)根據(jù)垃圾短信的行為特征,動態(tài)調(diào)整用戶的信任等級,結(jié)合短信垃圾度值,綜合評定短信的類別;3)在多核硬件平臺上,運行并行的實時過濾程序,減少短信息監(jiān)控中心對短信息業(yè)務(wù)中心處理能力的影響;4)短信分類和處理的新策略,放行合法短信,攔截垃圾短信,而可疑短信采用附加運營商提示語后放行的策略;5)采用貝葉斯法對短信樣本進行離線學(xué)習(xí),自動生成垃圾短信關(guān)鍵詞詞典。
文檔編號H04W88/18GK201066901SQ20072011285
公開日2008年5月28日 申請日期2007年8月1日 優(yōu)先權(quán)日2007年8月1日
發(fā)明者吳寧寧, 吳明光, 安慶敏, 陳思國 申請人:浙江大學(xué);陳思國