亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)及更新方法

文檔序號(hào):6542399閱讀:468來(lái)源:國(guó)知局
一種客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)及更新方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)及更新方法,在移動(dòng)終端上創(chuàng)建嵌入式特征庫(kù);將基于內(nèi)容的客戶(hù)端垃圾短信過(guò)濾系統(tǒng)劃分為特征庫(kù)更新模塊和實(shí)時(shí)短信分類(lèi)模塊,特征庫(kù)更新模塊對(duì)嵌入式特征庫(kù)進(jìn)行定期更新,用戶(hù)也可隨時(shí)設(shè)置和更新短信類(lèi)別信息;實(shí)時(shí)短信分類(lèi)模塊只需從嵌入式特征庫(kù)中讀取相關(guān)數(shù)據(jù)、然后進(jìn)行快速的運(yùn)算便可將垃圾短信識(shí)別出來(lái),提高短信實(shí)時(shí)分類(lèi)的處理速度;運(yùn)算復(fù)雜度較高的特征庫(kù)更新模塊可在移動(dòng)終端應(yīng)用程序空閑時(shí)執(zhí)行或轉(zhuǎn)換至PC機(jī)端執(zhí)行。解決了現(xiàn)有客戶(hù)端垃圾短信過(guò)濾缺乏樣本庫(kù)和因硬件資源受限無(wú)法直接運(yùn)行現(xiàn)有智能過(guò)濾系統(tǒng)的現(xiàn)狀,降低了移動(dòng)客戶(hù)端的實(shí)時(shí)處理負(fù)擔(dān),且滿(mǎn)足不同用戶(hù)的定制短信過(guò)濾需求。
【專(zhuān)利說(shuō)明】一種客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)及更新方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于垃圾短信過(guò)濾【技術(shù)領(lǐng)域】,涉及一種嵌入式特征庫(kù)及更新方法。具體地 說(shuō),涉及一種客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)及更新方法。

【背景技術(shù)】
[0002] 隨著移動(dòng)通信技術(shù)的飛速發(fā)展和手機(jī)等移動(dòng)終端的快速普及,使短信的使用率迅 速增加,短信因其低廉、方便、快捷等特點(diǎn),給廣大使用者帶來(lái)了方便,但也滋生了以傳播色 情、廣告、欺詐等不良信息的垃圾短信,嚴(yán)重干擾人們的生活,甚至給用戶(hù)造成了巨大的經(jīng) 濟(jì)損失。
[0003] 目前常用短信過(guò)濾方法及機(jī)制有:基于關(guān)鍵詞過(guò)濾、基于短信發(fā)送量及發(fā)送方分 析過(guò)濾、基于內(nèi)容過(guò)濾等。關(guān)鍵字過(guò)濾機(jī)制中的關(guān)鍵字主要依靠人工添加,具有滯后性、且 受制于關(guān)鍵字的更新能力,因此關(guān)鍵字過(guò)濾的誤報(bào)率及漏報(bào)率較高;基于短信發(fā)送量及發(fā) 送方分析的過(guò)濾多采用對(duì)同一主叫號(hào)碼的發(fā)送頻次進(jìn)行統(tǒng)計(jì)的方式,但短信發(fā)送者經(jīng)常通 過(guò)改變發(fā)送方式來(lái)逃避這種過(guò)濾機(jī)制,例如采用多個(gè)號(hào)碼分批次發(fā)送的方式;目前對(duì)短信 過(guò)濾的研究主要沿用基于內(nèi)容的垃圾郵件過(guò)濾算法,它采用機(jī)器學(xué)習(xí)方法把短信自動(dòng)分為 正常短信和垃圾短信,例如貝葉斯、支持向量機(jī)和人工免疫等,其優(yōu)點(diǎn)是過(guò)濾準(zhǔn)確率高,存 在的問(wèn)題是這些方法運(yùn)算量大且需要訓(xùn)練樣本集的支持,而因涉及隱私等問(wèn)題,公開(kāi)的短 信訓(xùn)練樣本缺乏,給短信過(guò)濾研究帶來(lái)了困難。短信文本短小、特征數(shù)據(jù)不足,影響過(guò)濾準(zhǔn) 確率,因此特征詞的選取和特征庫(kù)的建立對(duì)垃圾短信過(guò)濾顯得尤為重要。
[0004] 從實(shí)現(xiàn)的角度,垃圾短信過(guò)濾又分為短信服務(wù)中心的短信過(guò)濾和手機(jī)等移動(dòng)終端 的客戶(hù)端短信過(guò)濾,基于內(nèi)容的垃圾短信過(guò)濾存在大量運(yùn)算,其學(xué)習(xí)和更新需要更多系統(tǒng) 資源,適合在短信服務(wù)中心服務(wù)器上運(yùn)行,但巨大短信流量帶來(lái)的過(guò)濾任務(wù)會(huì)導(dǎo)致短信服 務(wù)中心網(wǎng)絡(luò)擁塞等問(wèn)題;另一方面統(tǒng)一的過(guò)濾器較難滿(mǎn)足用戶(hù)的個(gè)性化需求,而且一旦在 短信服務(wù)中心的過(guò)濾中出現(xiàn)分類(lèi)錯(cuò)誤,將會(huì)直接導(dǎo)致短信無(wú)法送達(dá)客戶(hù)端。
[0005] 基于內(nèi)容的客戶(hù)端垃圾短信過(guò)濾更為便捷和保密,它可以根據(jù)用戶(hù)需求學(xué)習(xí)和生 成過(guò)濾系統(tǒng),保證用戶(hù)隱私不被侵犯的同時(shí)達(dá)到較好的過(guò)濾效果。但與個(gè)人電腦或服務(wù)器 相比,手機(jī)等移動(dòng)終端的計(jì)算速度和存儲(chǔ)能力有限,無(wú)法運(yùn)行基于內(nèi)容的智能過(guò)濾系統(tǒng),現(xiàn) 有的客戶(hù)端短信過(guò)濾基本采用黑白名單和關(guān)鍵詞過(guò)濾,這種簡(jiǎn)單的過(guò)濾方式不具有智能 性,無(wú)法適應(yīng)新的短信內(nèi)容和不斷變化的用戶(hù)需求。


【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的在于克服現(xiàn)有客戶(hù)端短信過(guò)濾缺乏樣本庫(kù)和因硬件資源受限而無(wú) 法運(yùn)行基于內(nèi)容的智能過(guò)濾系統(tǒng)的現(xiàn)狀,提供一種用于客戶(hù)端短信過(guò)濾的嵌入式特征庫(kù)及 更新方法。一是通過(guò)將特征庫(kù)更新模塊與實(shí)時(shí)短信分類(lèi)模塊相分離,解決手機(jī)等移動(dòng)終端 硬件資源受限的問(wèn)題,減輕客戶(hù)端的實(shí)時(shí)處理負(fù)擔(dān);二是通過(guò)嵌入式特征庫(kù)的創(chuàng)建和生成 解決客戶(hù)端垃圾短信過(guò)濾研究缺乏訓(xùn)練樣本的現(xiàn)狀;三是通過(guò)嵌入式特征庫(kù)的更新使過(guò)濾 系統(tǒng)能即時(shí)適應(yīng)于不斷變化的短信內(nèi)容和用戶(hù)過(guò)濾需求。
[0007] 為了達(dá)到上述目的,本發(fā)明采用的技術(shù)方案如下。
[0008] -種客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)生成及更新方法,包括以下步驟: 步驟1,在移動(dòng)終端上創(chuàng)建嵌入式特征庫(kù),從初始訓(xùn)練樣本中提取特征數(shù)據(jù),形成嵌入 式特征庫(kù)的初始數(shù)據(jù); 步驟2,將基于內(nèi)容的客戶(hù)端垃圾短信過(guò)濾系統(tǒng)劃分為特征庫(kù)更新模塊和實(shí)時(shí)短信分 類(lèi)模塊; 步驟3,對(duì)于待過(guò)濾短信,首先從中提取特征詞,實(shí)時(shí)短信分類(lèi)模塊根據(jù)其特征詞數(shù)據(jù) 從嵌入式特征庫(kù)中讀取特征詞相關(guān)統(tǒng)計(jì)數(shù)據(jù),然后通過(guò)相應(yīng)的分類(lèi)運(yùn)算得到類(lèi)別信息; 步驟4,對(duì)于已分類(lèi)短信,將其類(lèi)別和特征詞信息加入新短信特征表; 步驟5,根據(jù)新短信特征表,特征庫(kù)更新模塊對(duì)嵌入式特征庫(kù)進(jìn)行定期更新; 步驟6,用戶(hù)可根據(jù)需求隨時(shí)設(shè)置和更新嵌入式特征庫(kù)中的類(lèi)別信息。
[0009] 所述初始訓(xùn)練樣本要求每種短信類(lèi)別至少包含一條短信訓(xùn)練樣本。
[0010] 所述嵌入式特征庫(kù)的創(chuàng)建過(guò)程包括在移動(dòng)終端上移植嵌入式數(shù)據(jù)庫(kù)和設(shè)計(jì)數(shù)據(jù) 邏輯模型,可存儲(chǔ)在移動(dòng)終端的SD卡上,用來(lái)保存短信樣本中的特征數(shù)據(jù)。
[0011] 所述嵌入式特征庫(kù)包括3張數(shù)據(jù)表,分別是短信類(lèi)別表、特征詞信息表和特征詞 類(lèi)別表。
[0012] 1)短信類(lèi)別表的屬性項(xiàng)包括類(lèi)別編號(hào)(主鍵)、類(lèi)別名稱(chēng)、樣本數(shù)目、是否為垃圾 短信、類(lèi)別的先驗(yàn)概率,類(lèi)別名稱(chēng)可以由用戶(hù)自己設(shè)置和更新,例如包括開(kāi)票辦證類(lèi)、詐騙 類(lèi)、日常問(wèn)候類(lèi)、房產(chǎn)交易類(lèi)、保險(xiǎn)理財(cái)類(lèi)等,每種類(lèi)別可由用戶(hù)設(shè)定是否為垃圾短信。如果 用戶(hù)變更了某一類(lèi)別的"是否為垃圾短信"屬性,用戶(hù)短信屬于相應(yīng)類(lèi)別的概率并不改變, 因此嵌入式特征庫(kù)中其他數(shù)據(jù)無(wú)需更改,短信分類(lèi)模塊可以即時(shí)適應(yīng)于新的類(lèi)別設(shè)置。類(lèi) 別c k的先驗(yàn)概率P(Ck)按公式(1)進(jìn)行計(jì)算。
[0013]

【權(quán)利要求】
1. 在一種客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)及更新方法,其特征在于,包括以下步驟: 步驟1,在移動(dòng)終端上創(chuàng)建嵌入式特征庫(kù),從初始訓(xùn)練樣本中提取特征數(shù)據(jù),形成嵌入 式特征庫(kù)的初始數(shù)據(jù); 步驟2,將基于內(nèi)容的客戶(hù)端垃圾短信過(guò)濾系統(tǒng)劃分為特征庫(kù)更新模塊和實(shí)時(shí)短信分 類(lèi)模塊; 步驟3,對(duì)于待過(guò)濾短信,首先從中提取特征詞,實(shí)時(shí)短信分類(lèi)模塊根據(jù)其特征詞數(shù)據(jù) 從嵌入式特征庫(kù)中讀取特征詞相關(guān)統(tǒng)計(jì)數(shù)據(jù),然后通過(guò)相應(yīng)的分類(lèi)運(yùn)算得到類(lèi)別信息; 步驟4,對(duì)于已分類(lèi)短信,將其類(lèi)別和特征詞信息加入新短信特征表; 步驟5,根據(jù)新短信特征表,特征庫(kù)更新模塊對(duì)嵌入式特征庫(kù)進(jìn)行定期更新; 步驟6,用戶(hù)可根據(jù)需求隨時(shí)設(shè)置和更新嵌入式特征庫(kù)中的類(lèi)別信息。
2. 根據(jù)權(quán)利要求1所述的客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)及更新方法,其特征在于,所 述嵌入式特征庫(kù)可存儲(chǔ)在移動(dòng)終端的SD卡上。
3. 根據(jù)權(quán)利要求1所述的客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)及更新方法,其特征在于,所 述嵌入式特征庫(kù)包括短信類(lèi)別表、特征詞信息表和特征詞類(lèi)別表。
4. 根據(jù)權(quán)利要求1所述的客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)及更新方法,其特征在于,所 述特征庫(kù)更新模塊包括如下步驟: 步驟1 :根據(jù)新短信特征表中的類(lèi)別信息,更新嵌入式特征庫(kù)中的短信類(lèi)別信息; 步驟2 :對(duì)于新短信特征表中的每一個(gè)特征詞,查找其在特征詞信息表中是否存在,若 存在則更新其在嵌入式特征庫(kù)中的特征詞信息和特征詞類(lèi)別信息,若不存在則在特征詞信 息表和特征詞類(lèi)別表中添加該特征詞信息; 步驟3 :如果特征詞數(shù)目大于Nmax,則執(zhí)行步驟4,否則結(jié)束; 步驟4 :將特征詞信息表中特征詞按照權(quán)重大小排序,刪除權(quán)重最低的Ndel&個(gè)特征 詞,同時(shí)級(jí)聯(lián)刪除特征詞類(lèi)別表中的數(shù)據(jù)。
5. 根據(jù)權(quán)利要求1所述的客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)及更新方法,其特征在于,所 述特征庫(kù)更新模塊不需要即時(shí)運(yùn)行,可以在移動(dòng)終端的應(yīng)用程序空閑時(shí)執(zhí)行或轉(zhuǎn)換至PC 機(jī)端異步更新。
6. 根據(jù)權(quán)利要求1所述的客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)及更新方法,其特征在于,所 述特征庫(kù)更新模塊對(duì)嵌入式特征庫(kù)進(jìn)行定期更新,其更新周期由用戶(hù)根據(jù)移動(dòng)終端短信接 收頻次自行設(shè)置。
7. 根據(jù)權(quán)利要求1或3所述的客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)及更新方法,其特征在于, 如果用戶(hù)變更了所述短信類(lèi)別表中某一類(lèi)別的"是否為垃圾短信"屬性,嵌入式特征庫(kù)中其 它數(shù)據(jù)無(wú)需更改,短信分類(lèi)模塊可即時(shí)適應(yīng)于新的類(lèi)別設(shè)置。
8. 根據(jù)權(quán)利要求3所述的客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)及更新方法,其特征在于,所 述特征詞信息表的"特征詞權(quán)重"屬性W(tk)的計(jì)算公式為 :
其中Lk是特征詞tk在每類(lèi)短信中出現(xiàn)次數(shù)的最大值;Sk是特征詞t k在所有短信中出 現(xiàn)的次數(shù)之和;MI (tk,(;)為特征詞tk與類(lèi)別Ci的互信息,其中P ((;)的值可從短信類(lèi)別表 中獲取,P(tk|Ci)的值可從特征詞類(lèi)別表中獲取。
9. 根據(jù)權(quán)利要求4所述的客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)更新方法,其特征在于,所述 步驟1中短信類(lèi)別信息包括樣本數(shù)目、是否為垃圾短信、類(lèi)別的先驗(yàn)概率。
10. 根據(jù)權(quán)利要求4所述的客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)更新方法,其特征在于,所述 步驟2中特征詞信息和特征詞類(lèi)別信息包括包括特征詞權(quán)重、特征詞在類(lèi)中出現(xiàn)的次數(shù)、 特征詞在類(lèi)中出現(xiàn)的概率。
11. 根據(jù)權(quán)利要求4所述的客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)更新方法,其特征在于,所述 步驟2中Nmax為嵌入式特征庫(kù)數(shù)據(jù)記錄的最大值,可根據(jù)移動(dòng)終端的硬件資源設(shè)定。
12. 根據(jù)權(quán)利要求5所述的客戶(hù)端短信過(guò)濾嵌入式特征庫(kù)更新方法,其特征在于,所述 步驟3中Ndelrte為每次更新需刪除的特征詞數(shù)目。
【文檔編號(hào)】G06F9/445GK104156228SQ201410126384
【公開(kāi)日】2014年11月19日 申請(qǐng)日期:2014年4月1日 優(yōu)先權(quán)日:2014年4月1日
【發(fā)明者】包理群, 伍忠東, 王海兵, 馬忠彧, 李錦瓏, 王宏斌 申請(qǐng)人:蘭州工業(yè)學(xué)院
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1