本發(fā)明涉及網(wǎng)絡信息安全技術領域,具體涉及用于確定垃圾信息的方法及裝置。
背景技術:
隨著移動通信技術的發(fā)展、移動設備的普及和短信資費的下降,短信成為移動終端之間進行信息傳遞的重要方法之一。用戶在享受短信通信帶來的便捷時,卻也遭受到一些廣告短信、詐騙短信等垃圾信息的騷擾,這些垃圾信息影響到用戶的短信使用體驗,給用戶的人身、信息、財產安全帶來隱患。因此,對垃圾短信的識別和攔截是亟待解決的問題。
現(xiàn)有技術中,對垃圾短信的識別往往通過將短信的內容直接上傳到服務器,由服務器對該短信的內容進行識別,將識別結果返回給移動終端,如果該短信為垃圾短信,則移動終端對該短信進行攔截或者對用戶進行提示。
該方案存在的問題是:
1、信息的內容往往涉及到用戶的個人信息,在未經(jīng)用戶同意的情況下將短信的內容直接上傳到服務器侵犯了用戶的個人隱私,對用戶的信息安全造成了損害。
2、移動終端每次接收到短信時,將短信的內容上傳給服務器,該過程往往耗費相當?shù)木W(wǎng)絡流量,且處理速度受到移動終端所處的網(wǎng)絡狀態(tài)的限制,會降低終端設備的使用性能。
技術實現(xiàn)要素:
鑒于上述問題,本發(fā)明提出了一種克服上述問題或者至少部分地解決上述問題的用于確定垃圾信息的方法及裝置。
根據(jù)本發(fā)明的一個方面,提供了一種用于確定垃圾信息的方法,包括:
接收來自外部的信息,確定所述信息的信息源及內容;
根據(jù)所述信息源判斷所述信息是否為垃圾信息,當所述信息源判斷所述信息不是垃圾信息時,根據(jù)所述信息的內容判斷所述信息是否為垃圾信息;
將通過所述信息源或所述信息的內容判斷為垃圾信息的所述信息確定為垃圾信息。
優(yōu)選地,根據(jù)所述信息源判斷所述信息是否為垃圾信息包括:
將所述信息源與本地記錄的垃圾信息源數(shù)據(jù)庫中的記錄進行比對,當所述信息源為垃圾信息源時,所述信息確定為垃圾信息;或者,
將所述信息源傳送至云端服務器,并接收所述云端服務器返回的指示信息,當所述指示信息確定所述信息源為垃圾信息源時,所述信息確定為垃圾信息。
優(yōu)選地,根據(jù)所述信息的內容判斷所述信息是否為垃圾信息包括:
根據(jù)用戶的選擇,將所述信息的內容直接上傳至云端服務器,或者,將所述信息的內容的替代信息上傳至云端服務器;
接收所述云端服務器返回的識別信息,根據(jù)所述識別信息確定所述信息是否為垃圾信息。
優(yōu)選地,將所述信息的內容的替代信息上傳至云端服務器包括:
計算出所述信息的內容對應的哈希值;
將所述信息的內容對應的哈希值上傳到云端服務器。
優(yōu)選地,計算出所述信息的內容對應的哈希值包括:
對所述信息的內容進行分詞處理;
對分詞后的各個詞賦予不同的向量值,匯總計算得到所述信息的內容對應的simhash值。
優(yōu)選地,當所述信息確定為垃圾信息時,本地或所述云端服務器上的垃圾信息源數(shù)據(jù)庫記錄所述信息的信息源。
優(yōu)選地,本地記錄的垃圾信息源數(shù)據(jù)庫與所述云端服務器上記錄的垃圾信息源數(shù)據(jù)庫進行交互更新。
根據(jù)本發(fā)明的另一個方面,提供了一種用于確定垃圾信息的裝置,包括:
接收模塊,用于接收來自外部的信息,確定所述信息的信息源及內容;
處理模塊,用于根據(jù)所述信息源判斷所述信息是否為垃圾信息,當所述信息源判斷所述信息不是垃圾信息時,用于根據(jù)所述信息的內容判斷所述信息是否為垃圾信息;
判定模塊,用于將通過所述信息源或所述信息的內容判斷為垃圾信息的所述信息確定為垃圾信息。
優(yōu)選地,所述處理模塊用于根據(jù)所述信息源判斷所述信息是否為垃圾信息包括:
所述處理模塊用于將所述信息源與本地記錄的垃圾信息源數(shù)據(jù)庫中的記錄進行比對,當所述信息源為垃圾信息源時,所述判定模塊將所述信息確定為垃圾信息;或者,
所述處理模塊用于將所述信息源傳送至云端服務器,所述接收模塊用于接收所述云端服務器返回的指示信息,當所述指示信息確定所述信息源為垃圾信息源時,所述判定模塊將所述信息確定為垃圾信息。
優(yōu)選地,所述處理模塊用于根據(jù)所述信息的內容判斷所述信息是否為垃圾信息包括:
根據(jù)用戶的選擇,所述處理模塊用于將所述信息的內容直接上傳至云端服務器,或者,所述處理模塊用于將所述信息的內容的替代信息上傳至云端服務器;
所述接收模塊用于接收所述云端服務器返回的識別信息,所述判定模塊用于根據(jù)所述識別信息確定所述信息是否為垃圾信息。
優(yōu)選地,所述處理模塊用于將所述信息的內容的替代信息上傳至云端服務器包括:
所述處理模塊用于計算出所述信息的內容對應的哈希值;
所述處理模塊用于將所述信息的內容對應的哈希值上傳到云端服務器。
優(yōu)選地,所述處理模塊用于計算出所述信息的內容對應的哈希值包 括:
所述處理模塊用于對所述信息的內容進行分詞處理;
所述處理模塊用于對分詞后的各個詞賦予不同的向量值,匯總計算得到所述信息的內容對應的simhash值。
優(yōu)選地,當所述判定模塊確定所述信息為垃圾信息時,本地或所述云端服務器上的垃圾信息源數(shù)據(jù)庫記錄所述信息的信息源。
優(yōu)選地,所述接收模塊和所述處理模塊將本地記錄的垃圾信息源數(shù)據(jù)庫與所述云端服務器上記錄的垃圾信息源數(shù)據(jù)庫進行交互更新。
本發(fā)明提供的上述方案,能通過信息來源快速識別信息是否為垃圾信息。此外,在保證垃圾短信識別有效性的基礎上,避免了在未經(jīng)用戶同意的情況下將短信的內容直接上傳到服務器所導致的侵犯用戶個人隱私的問題,且經(jīng)過本地的計算處理后減輕了客戶端的上傳以及云端服務器的處理壓力,提高了識別效率,符合用戶需求。
本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
附圖說明
本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1示出了根據(jù)本發(fā)明一個實施例的一種用于確定垃圾信息的方法的流程圖;
圖2示出了根據(jù)本發(fā)明另一個實施例的用于確定垃圾信息的方法的流程圖;
圖3示出了根據(jù)本發(fā)明一個實施例的一種用于確定垃圾信息的裝置的示意圖;
圖4示出了根據(jù)本發(fā)明一個實施例的一種用于確定垃圾信息的云端服務器的示意圖。
具體實施方式
下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
本技術領域技術人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復數(shù)形式。應該進一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應該理解,當我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個或更多個相關聯(lián)的列出項的全部或任一單元和全部組合。
本技術領域技術人員可以理解,除非另外定義,這里使用的所有術語(包括技術術語和科學術語),具有與本發(fā)明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術語,應該被理解為具有與現(xiàn)有技術的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會用理想化或過于正式的含義來解釋。
圖1示出了根據(jù)本發(fā)明一個實施例的一種用于確定垃圾信息的方法的流程圖。如圖1所示,該方法包括:
步驟S110,接收來自外部的信息,確定信息的信息源及內容;
步驟S120,根據(jù)信息源判斷信息是否為垃圾信息,當信息源判斷信息不是垃圾信息時,根據(jù)信息的內容判斷信息是否為垃圾信息;
步驟S130,將通過信息源或信息的內容判斷為垃圾信息的信息確定為垃圾信息。
在本發(fā)明中,信息包括但不限于短信、即時通訊消息等常規(guī)或非常規(guī)的資訊信息。信息源包括但不限于手機號、信息ID等可以標示信息來源的識別符。不失一般性地、且為了便于說明,后文中部分示例以短信替代信息、手機號替代信息源進行說明。應當理解,此僅用于解釋本發(fā)明,而 不能解釋為對本發(fā)明的限制。
圖1所示的方法從客戶端的角度描述了首先根據(jù)信息源判斷信息是否為垃圾信息,當信息源無法確定為垃圾信息時,再通過信息內容本身進行判斷。
具體而言,在步驟步驟S120中,根據(jù)信息源判斷信息是否為垃圾信息包括:
將信息源與本地記錄的垃圾信息源數(shù)據(jù)庫中的記錄進行比對,當信息源為垃圾信息源時,信息確定為垃圾信息;或者,
將信息源傳送至云端服務器,并接收云端服務器返回的指示信息,當指示信息確定信息源為垃圾信息源時,信息確定為垃圾信息。
上述方法在保證垃圾信息識別有效性的基礎上,避免了在未經(jīng)用戶同意的情況下將信息信的內容直接上傳到服務器所導致的侵犯用戶個人隱私的問題。
進一步而言,當信息源無法確定為垃圾信息時,通過信息內容本身進行判斷。具體而言,根據(jù)信息的內容判斷信息是否為垃圾信息包括:
根據(jù)用戶的選擇,將信息的內容直接上傳至云端服務器,或者,將信息的內容的替代信息上傳至云端服務器;
接收云端服務器返回的識別信息,根據(jù)識別信息確定信息是否為垃圾信息。
例如,當用戶在移動終端第一次啟動用于進行垃圾短信識別的客戶端時,彈出聲明協(xié)議,在該聲明協(xié)議中詢問用戶是否同意直接將短信內容上傳到云端服務器;如果用戶選擇了同意,則當移動終端接收到短信時,直接將該短信的內容上傳到云端服務器進行識別。如果用戶選擇了不同意,則當移動終端接收到短信時,執(zhí)行前文所述的將信息的內容的替代信息上傳至云端服務器的步驟。本實施例從用戶的意愿出發(fā),從根本上解決了現(xiàn)有技術中存在的侵犯用戶個人隱私、危害用戶信息安全的問題。
具體而言,將信息的內容的替代信息上傳至云端服務器包括:
計算出信息的內容對應的哈希值;
將信息的內容對應的哈希值上傳到云端服務器。
進一步而言,計算出信息的內容對應的哈希值包括:
對信息的內容進行分詞處理;
對分詞后的各個詞賦予不同的向量值,匯總計算得到信息的內容對應的simhash值。
例如,以短信為例,以短信的內容對應的哈希值為識別對象,客戶端與云端服務器進行交互的過程,實現(xiàn)了對垃圾短信的識別。該方法在保證垃圾短信識別有效性的基礎上,避免了在未經(jīng)用戶同意的情況下將短信的內容直接上傳到服務器所導致的侵犯用戶個人隱私的問題;且經(jīng)過本地的計算處理后減輕了客戶端與云端服務器的交互負擔以及云端服務器的處理壓力,提高了識別效率,符合用戶需求。
在本發(fā)明的一個實施例中,圖1所示的方法進一步包括:
當確定所述短信是垃圾短信時,對所述短信進行攔截處理。這里的攔截處理具體可以包括:直接刪除垃圾短信;或者將垃圾短息轉移到指定的文件夾中,等待用戶的處理;或者對用戶進行垃圾短信的提示。
在本發(fā)明的一個實施例中,所述的計算出該短信的內容對應的哈希值是指:根據(jù)一定的傳統(tǒng)哈希算法,將該短信的內容映射為固定長度的數(shù)值,該數(shù)值稱為哈希值,該哈希值是該短信的內容的唯一且極其緊湊的數(shù)值表示形式。
本實施例所述的哈希算法包括:HAVAL、MD2、MD4、MD5或SHA1等,此類傳統(tǒng)哈希算法都有如下一個基本特征:在輸入域中很少出現(xiàn)散列沖突,即對于可能差距只有一個字節(jié)的文本也會映射出兩個完全不同的哈希值。
例如,兩條詐騙短信的內容分別為:“恭喜你中了五萬元大獎”和“恭喜你中了一萬元大獎”,由傳統(tǒng)哈希算法計算出這兩條短信的內容對應哈希值分別為286和523。可以看到,兩條詐騙手段非常相似的短信所計算出的哈希值完全不同,可能導致后續(xù)處理中云端服務器的識別壓力過大。
因此,為了去除小范圍差異的短信的內容對應哈希值之間的偏差,減輕后續(xù)處理中云端服務器的識別壓力。
在本發(fā)明的另一個實施例中,計算出該短信的內容對應哈希值是指: 計算出該短信的內容對應的simhash值。具體過程如下:
對短信的內容進行分詞處理。
對分詞后的各個詞賦予不同的向量值,匯總計算得到短信的內容對應的simhash值。
下面以表1和表2為例對本發(fā)明的方案進行詳細說明。
表1一個計算短信的內容對應的simhash值的過程
表1示出了根據(jù)本發(fā)明一個具體的實施例計算短信的內容對應的simhash值的過程。如表1所示,在本實施例中,移動終端接收到的短信是:“本公司代開普通發(fā)票,本公司不代開增值稅專用發(fā)票和專業(yè)發(fā)票?!?/p>
首先,初始化simhash值對應的向量形式:A=Ao={0,0,0,0,0,0}。
接著,對該短信的內容進行分詞處理:本公司/代開/普通/發(fā)票/,本公司/不/代開/增值稅/專用/發(fā)票/和/專業(yè)/發(fā)票;得到分詞后的各個詞是:本公司,代開,不,增值稅,專用,發(fā)票,普通,和,專業(yè)。
根據(jù)一定的傳統(tǒng)哈希算法,分別計算出各個詞對應的6位哈希值:本公司:100110,代開:110000,不:101111,增值稅:110001,專用:010110,發(fā)票:101011,普通:110100,和:110110,專業(yè):001001。
再計算各個詞的詞頻作為對應的向量值,代表各個詞在短信內容中的 權重:本公司:2,代開:2,不:1,增值稅:1,專用:1,發(fā)票:3,普通:1,和:1,專業(yè):1。
構成一個向量B:{本公司/100110/2,代開/110000/2,不/101111/1,增值稅/110001/1,專用/010110/1,發(fā)票/101011/3,普通/110100/1,和/110110/1,專業(yè)/001001/1}。
依次對向量B中的各個詞做處理,處理方式如下:對于各個詞,如果其哈希值的第i位上是“1”,則對向量A的第i維加上該詞的詞頻;如果其哈希值的第i位上是“0”,則對向量A的第i維減去該詞的詞頻。例如,對于本公司/100110/2,向量A變?yōu)閧2,-2,-2,2,2,-2};對于代開/110000/2,向量A變?yōu)閧2,2,-2,-2,-2,-2};以此類推,得到各個詞對應的向量A,如表1中所示。
將各個詞對應的向量A進行匯總求和,得到向量Atotal={9,-1,-3,1,5,1},如果該向量的第i維為不為負數(shù),則令simhash值對應向量的第i維為“1”;如果該向量的第i維為負數(shù),則令simhash值對應向量的第i維為“0”;據(jù)此得到最終simhash值對應向量Afinal={1,0,0,1,1,1}。
因此,短信“本公司代開普通發(fā)票,本公司不代開增值稅專用發(fā)票和專業(yè)發(fā)票。”的simhash值為100111。
表2另一個計算短信的內容對應的simhash值的過程
表2示出了根據(jù)本發(fā)明另一個具體的實施例計算短信的內容對應的simhash值的過程。如表2所示,在本實施例中,移動終端接收到的短信是:“本公司代開普通發(fā)票,本公司不代開專用發(fā)票和專業(yè)發(fā)票?!逼鋝imhash值的計算過程同理于表1,在此不再贅述??梢钥吹?,表2中示出了匯總求和后得到向量Atotal={8,-2,-2,0,6,0},得到最終simhash值對應向量Afinal={1,0,0,1,1,1}。因此,短信“本公司代開普通發(fā)票,本公司不代開專用發(fā)票和專業(yè)發(fā)票?!钡膕imhash值為100111,與短信本公司代開普通發(fā)票,本公司不代開增值稅專用發(fā)票和專業(yè)發(fā)票。”的simhash值相同。
由上述可知,simhash值的計算過程中,在保持各個詞權重的基礎上,逐漸忽略各個詞的哈希值的具體大小,而是將其匯總求和后以值的正負來區(qū)分各個詞,而往往相似的短信內容會以其相似的文本結構得到符號相同的求和向量Atotal,因此,相似的短信會具有相同的simhash值,克服了傳統(tǒng)哈希算法的散列問題。
此外,在本發(fā)明的其他實施例中,可以通過其他方式對分詞后的各個詞賦予向量值。
作為本發(fā)明的實施例,當某條信息確定為垃圾信息時,本地或云端服務器上的垃圾信息源數(shù)據(jù)庫記錄該信息的信息源。也就是,本發(fā)明中的垃圾信息源數(shù)據(jù)庫將源源不斷地記錄新的、可以歸為垃圾信息的信息源。
進一步而言,本地記錄的垃圾信息源數(shù)據(jù)庫與云端服務器上記錄的垃圾信息源數(shù)據(jù)庫進行交互更新。
因此,以終端設備手機為例,當經(jīng)常對外發(fā)垃圾短信時,該手機的手機號碼將很快被收錄進垃圾信息源數(shù)據(jù)庫。經(jīng)過互聯(lián)網(wǎng)的傳播,以及客戶端本地的垃圾信息源數(shù)據(jù)庫得到實時更新之后,當該手機繼續(xù)發(fā)送垃圾短信時,將第一時間被其他已經(jīng)識別其為垃圾信息源的客戶端所封鎖、屏蔽。即使客戶端收到該手機發(fā)送的垃圾信息,也會第一時間根據(jù)信息源而被識別出來是垃圾信息,而無需分析信息中的內容。
應當理解,本發(fā)明上述公開的方法,雖然是以客戶端的角度進行描述,但是其部分功能也可以在服務器端執(zhí)行,此部分的技術方案也應理解為本發(fā)明公開的范疇。
圖2示出了根據(jù)本發(fā)明另一個實施例的一種確定垃圾信息的方法的流程圖。如圖2所示,該方法包括:
步驟S210,接收客戶端側上傳的發(fā)送短信的號碼或短信的內容對應的哈希值。
步驟S220,將發(fā)送短信的號碼或該短信的內容對應的哈希值與哈希值庫進行匹配。
在本步驟中,云端服務器根據(jù)歷史記錄識別的垃圾信息源數(shù)據(jù)庫,判斷上發(fā)的短信的號碼是否已經(jīng)被記錄,即是否存在于垃圾信息源數(shù)據(jù)庫中。
或者,在本步驟中,哈希值庫中對應保存有不同短信內容對應的哈希值以及已判斷為黑或白的識別信息。其中,黑的識別信息即指示該信息為垃圾信息;白的識別信息即指示該信息為不是垃圾信息。
在本發(fā)明的一個實施例中,該哈希值庫是云端服務器根據(jù)歷史識別記錄所設置的,云端服務器每次進行垃圾短信的識別后,無論選取何種識別方法,均將所識別的短信的內容、關鍵詞或哈希值等特征與識別信息對應記錄下來,取其中的哈希值與識別信息的對應記錄,建立哈希值庫。
步驟S230,將識別信息返回給客戶端。
可見,圖2所示的方法描述了云端服務器接收到客戶端發(fā)來的發(fā)送 短信的號碼或短信的內容對應哈希值后,將識別信息返回給客戶端的過程。該方法在保證垃圾短信識別有效性的基礎上,避免了在未經(jīng)用戶同意的情況下將短信的內容直接上傳到服務器所導致的侵犯用戶個人隱私的問題;且經(jīng)過本地的計算處理后減輕了云端服務器的處理壓力以及云端服務器與客戶端的交互負擔,提高了識別效率,符合用戶需求。
在本發(fā)明的一個實施例中,以終端設備手機為例,當經(jīng)常對外發(fā)垃圾短信時,該手機的手機號碼將很快被云端服務器收錄進垃圾信息源數(shù)據(jù)庫。當客戶端收到該手機發(fā)送的垃圾信息,云端服務器會第一時間根據(jù)信息源而被識別出來是垃圾信息,而無需分析短信中的內容。
在本發(fā)明的一個實施例中,云端服務器所接收到的短信的內容對應的哈希值為該短信的內容對應的simhash值,與之對應地,云端服務器的哈希值庫具體為simhash值庫。
在本發(fā)明的一個實施例中,圖2所示的方法進一步包括:
步驟S240(圖中未示出),接收用戶舉報的短信內容。
步驟S250(圖中未示出),對用戶舉報的各短信內容進行黑或白的識別,并生成對應的simhash值,將simhash值和對應的識別信息保存到哈希值庫中。
本步驟中,由云端服務器計算短信的內容對應simhash值,其過程與上文中所述的客戶端計算simhash的過程類似,在此不再贅述。
圖3示出了根據(jù)本發(fā)明一個實施例的一種用于確定垃圾信息的裝置的示意圖。如圖3所示,確定垃圾信息的裝置300包括:
接收模塊310,用于接收來自外部的信息,確定信息的信息源及內容;
處理模塊320,用于根據(jù)信息源判斷信息是否為垃圾信息,當信息源判斷信息不是垃圾信息時,用于根據(jù)信息的內容判斷信息是否為垃圾信息;
判定模塊330,用于將通過信息源或信息的內容判斷為垃圾信息的信息確定為垃圾信息。
作為確定垃圾信息的裝置300的實施例,處理模塊320用于根據(jù)信息源判斷信息是否為垃圾信息包括:
處理模塊320用于將信息源與本地記錄的垃圾信息源數(shù)據(jù)庫中的記錄進行比對,當信息源為垃圾信息源時,判定模塊330將信息確定為垃圾信息;或者,
處理模塊320用于將信息源傳送至云端服務器,接收模塊310用于接收云端服務器返回的指示信息,當指示信息確定信息源為垃圾信息源時,判定模塊330將信息確定為垃圾信息。
進一步而言,處理模塊320用于根據(jù)信息的內容判斷信息是否為垃圾信息包括:
根據(jù)用戶的選擇,處理模塊320用于將信息的內容直接上傳至云端服務器,或者,處理模塊320用于將信息的內容的替代信息上傳至云端服務器;
接收模塊310用于接收云端服務器返回的識別信息,判定模塊330用于根據(jù)識別信息確定信息是否為垃圾信息。
作為確定垃圾信息的裝置300的實施例,處理模塊320用于將信息的內容的替代信息上傳至云端服務器包括:
處理模塊320用于計算出信息的內容對應的哈希值;
處理模塊320用于將信息的內容對應的哈希值上傳到云端服務器。
進一步而言,處理模塊320用于計算出信息的內容對應的哈希值包括:
處理模塊320用于對信息的內容進行分詞處理;
處理模塊320用于對分詞后的各個詞賦予不同的向量值,匯總計算得到信息的內容對應的simhash值。
處理模塊320將發(fā)送信息的信息源或信息的內容對應哈希值發(fā)送到云端服務器,云端服務器判斷后將識別信息返回給接收模塊310。因此,確定垃圾信息的裝置300在保證垃圾短信識別有效性的基礎上,避免了在未經(jīng)用戶同意的情況下將短信的內容直接上傳到服務器所導致的侵犯用戶個人隱私的問題;且經(jīng)過本地的計算處理后減輕了云端服務器的處理壓力以及云端服務器與客戶端的交互負擔,提高了識別效率,符合用戶需求。
在本發(fā)明的一個實施例中,處理模塊320適于根據(jù)一定的傳統(tǒng)哈希算 法,計算出短信的內容對應的哈希值。本實施例所述的哈希算法包括:HAVAL、MD2、MD4、MD5或SHA1等,由上文可知,此類傳統(tǒng)哈希算法都有如下一個基本特征:在輸入域中很少出現(xiàn)散列沖突,即對于可能差距只有一個字節(jié)的文本也會映射出兩個完全不同的哈希值。
因此,為了去除小范圍差異的短信的內容對應哈希值之間的偏差,減輕后續(xù)處理中云端服務器的識別壓力,在本發(fā)明的另一個實施例中,處理模塊320適于對短信的內容進行分詞處理;對分詞后的各個詞賦予不同的向量值,匯總計算得到該短信的內容對應的simhash值。其中,處理模塊320計算短信的內容對應的simhash值的一個具體實施例如表1所示,上文中已詳細描述,在此不再贅述。
此外,當判定模塊330確定信息為垃圾信息時,本地或云端服務器上的垃圾信息源數(shù)據(jù)庫記錄信息的信息源。
進一步而言,接收模塊310和處理模塊320將本地記錄的垃圾信息源數(shù)據(jù)庫與云端服務器上記錄的垃圾信息源數(shù)據(jù)庫進行交互更新。
因此,以終端設備手機為例,當經(jīng)常對外發(fā)垃圾短信時,經(jīng)過互聯(lián)網(wǎng)的傳播,該手機的手機號碼將很快被確定垃圾信息的裝置300收錄進垃圾信息源數(shù)據(jù)庫。當該手機繼續(xù)發(fā)送垃圾短信時,將第一時間被其他已經(jīng)識別其為垃圾信息源的客戶端所封鎖、屏蔽。即使確定垃圾信息的裝置300收到該手機發(fā)送的垃圾信息,也會第一時間根據(jù)信息源而被識別出來是垃圾信息,而無需分析信息中的內容。
圖4示出了根據(jù)本發(fā)明一個實施例的一種確定垃圾信息的云端服務器的示意圖。
如圖4所示,確定垃圾信息的云端服務器400包括:
接收單元410,用于接收客戶端側上傳的發(fā)送短信的號碼或短信的內容對應的哈希值。
識別單元420,用于將發(fā)送短信的號碼或該短信的內容對應的哈希值與哈希值庫進行匹配。
在本單元中,云端服務器根據(jù)歷史記錄識別的垃圾信息源數(shù)據(jù)庫,判斷上發(fā)的短信的號碼是否已經(jīng)被記錄,即是否存在于垃圾信息源數(shù)據(jù)庫 中。
或者,在本單元中,哈希值庫中對應保存有不同短信內容對應的哈希值以及已判斷為黑或白的識別信息。在本發(fā)明的一個實施例中,該哈希值庫是云端服務器400根據(jù)歷史識別記錄所設置的,云端服務器400每次進行垃圾短信的識別后,無論選取何種識別方法,均將所識別的短信的內容、關鍵詞或哈希值等特征與識別信息對應記錄下來,取其中的哈希值與識別信息的對應記錄,建立哈希值庫。
反饋單元430,用于將識別信息返回給客戶端。
可見,圖4所示的方案說明了接收單元410接收到客戶端發(fā)來的發(fā)送短信的號碼或短信的內容對應哈希值后,反饋單元430將識別信息返回給客戶端的過程。該方案在保證垃圾短信識別有效性的基礎上,避免了在未經(jīng)用戶同意的情況下將短信的內容直接上傳到服務器所導致的侵犯用戶個人隱私的問題;且經(jīng)過本地的計算處理后減輕了云端服務器的處理壓力以及云端服務器與客戶端的交互負擔,提高了識別效率,符合用戶需求。
在本發(fā)明的一個實施例中,以終端設備手機為例,當經(jīng)常對外發(fā)垃圾短信時,該手機的手機號碼將很快被識別單元420收錄進垃圾信息源數(shù)據(jù)庫。當客戶端收到該手機發(fā)送的垃圾信息,識別單元420會第一時間根據(jù)信息源而被識別出來是垃圾信息,而無需分析短信中的內容。
在本發(fā)明的一個實施例中,接收單元410所接收到的短信的內容對應的哈希值為該短信的內容對應的simhash值,與之對應地,云端服務器的哈希值庫具體為simhash值庫。
在本發(fā)明的一個實施例中,接收單元410,進一步適于接收用戶舉報的短信內容;識別單元420,進一步適于對用戶舉報的各短信內容進行黑或白的識別,并生成對應的simhash值,將simhash值和對應的識別信息保存到所述哈希值庫中。其中,識別單元420計算短信的內容對應simhash值,其過程與上文中所述的客戶端計算simhash的過程類似,在此不再贅述。
本技術領域技術人員可以理解,本發(fā)明包括涉及用于執(zhí)行本申請中所述操作中的一項或多項的設備。這些設備可以為所需的目的而專門設計和 制造,或者也可以包括通用計算機中的已知設備。這些設備具有存儲在其內的計算機程序,這些計算機程序選擇性地激活或重構。這樣的計算機程序可以被存儲在設備(例如,計算機)可讀介質中或者存儲在適于存儲電子指令并分別耦聯(lián)到總線的任何類型的介質中,所述計算機可讀介質包括但不限于任何類型的盤(包括軟盤、硬盤、光盤、CD-ROM、和磁光盤)、ROM(Read-Only Memory,只讀存儲器)、RAM(Random Access Memory,隨即存儲器)、EPROM(Erasable Programmable Read-Only Memory,可擦寫可編程只讀存儲器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,電可擦可編程只讀存儲器)、閃存、磁性卡片或光線卡片。也就是,可讀介質包括由設備(例如,計算機)以能夠讀的形式存儲或傳輸信息的任何介質。
本技術領域技術人員可以理解,可以用計算機程序指令來實現(xiàn)這些結構圖和/或框圖和/或流圖中的每個框以及這些結構圖和/或框圖和/或流圖中的框的組合。本技術領域技術人員可以理解,可以將這些計算機程序指令提供給通用計算機、專業(yè)計算機或其他可編程數(shù)據(jù)處理方法的處理器來實現(xiàn),從而通過計算機或其他可編程數(shù)據(jù)處理方法的處理器來執(zhí)行本發(fā)明公開的結構圖和/或框圖和/或流圖的框或多個框中指定的方案。
本技術領域技術人員可以理解,本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的步驟、措施、方案可以被交替、更改、組合或刪除。進一步地,具有本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的其他步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。進一步地,現(xiàn)有技術中的具有與本發(fā)明中公開的各種操作、方法、流程中的步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。
以上所述僅是本發(fā)明的部分實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。