多的策略 聚類確定為相似策略聚類,并從優(yōu)選策略集中刪除該相似策略聚類中的所有策略,形成新 的優(yōu)選策略集,并繼續(xù)確定相似策略聚類,直到所述新的優(yōu)選策略集中的剩余策略數(shù)小于 或者等于1 ;
[0055] 第六確定單元,用于將已確定的相似策略聚類組成相似策略聚類集,并對所述相 似策略聚類集中的所有相似策略聚類分別進(jìn)行邏輯合并處理,生成包含"與" "或"組合的 策略;
[0056] 第七確定單元,用于將所述包含"與""或"組合的策略和與策略聚類的成員數(shù)小 于或者等于第二預(yù)設(shè)門限值相對應(yīng)的所述優(yōu)選策略組成目標(biāo)策略集。
[0057] 本發(fā)明的上述技術(shù)方案至少具有如下有益效果:
[0058] 本發(fā)明實(shí)施例的生成關(guān)鍵字組合策略的方法中,針對一組內(nèi)容不相關(guān)的信息綜合 考慮關(guān)鍵字的垃圾屬性和正常屬性同時生成一組關(guān)鍵字組合策略,提高了垃圾信息關(guān)鍵字 組合策略的攔截效果,提高了策略容量的利用率,延長擴(kuò)容升級的周期,大大降低了成本、 投資。
【附圖說明】
[0059] 圖1表示本發(fā)明實(shí)施例的生成關(guān)鍵字組合策略的方法流程圖;
[0060] 圖2表示本發(fā)明實(shí)施例中形成第一元素關(guān)鍵詞組合集的流程示意圖;
[0061] 圖3表示本發(fā)明實(shí)施例中詞性庫的生成方法的流程圖;
[0062] 圖4表示本發(fā)明實(shí)施例中關(guān)鍵字組合的屬性生成方法示意圖;
[0063] 圖5表示本發(fā)明實(shí)施例中形成第N元素關(guān)鍵詞組合集的方法示意圖;
[0064] 圖6表示本發(fā)明實(shí)施例中形成優(yōu)選策略集的流程示意圖;
[0065] 圖7表示本發(fā)明實(shí)施例中對相似策略邏輯合并形成目的策略的流程示意圖;
[0066] 圖8表示本發(fā)明實(shí)施例的生成關(guān)鍵字組合策略的裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0067] 為使本發(fā)明要解決的技術(shù)問題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具 體實(shí)施例進(jìn)行詳細(xì)描述。
[0068] 本發(fā)明針對現(xiàn)有技術(shù)中沒有針對多組垃圾信息生成關(guān)鍵字組合策略的技術(shù),且垃 圾信息的攔截率低的問題,提供一種生成關(guān)鍵字組合策略的方法及裝置,針對一組內(nèi)容不 相關(guān)的信息綜合考慮關(guān)鍵字的垃圾屬性和正常屬性同時生成一組關(guān)鍵字組合策略,提高了 垃圾信息關(guān)鍵字組合策略的攔截效果,提高了策略容量的利用率,延長擴(kuò)容升級的周期,大 大降低了成本、投資。
[0069] 如圖1所示,本發(fā)明實(shí)施例提供一種生成關(guān)鍵字組合策略的方法,包括:
[0070] 步驟1,對包含多個語句的信息進(jìn)行切詞處理,得到多個第一元素詞組合;
[0071] 步驟2,獲得所述第一元素詞組合的垃圾屬性值和正常屬性值;
[0072] 步驟3,所述第一元素詞組合的垃圾屬性值大于第一預(yù)設(shè)值且所述正常屬性值小 于第二預(yù)設(shè)值時,確定該第一元素詞組合為第一元素關(guān)鍵詞組合,多個所述第一元素關(guān)鍵 詞組合形成第一元素關(guān)鍵詞組合集;
[0073] 步驟4,將所述第一元素關(guān)鍵詞組合集中至少兩個不同的第一元素關(guān)鍵詞組合進(jìn) 行組合,得到第N元素詞組合,形成第N元素詞組合集,其中,N為組成所述第N元素詞組合 的第一元素組合的個數(shù);
[0074] 步驟5,當(dāng)所述第N元素詞組合的垃圾屬性值大于第三預(yù)設(shè)值且所述正常屬性值 小于第四預(yù)設(shè)值時,確定該第N元素詞組合為第N元素關(guān)鍵詞組合,確定的多個第N元素關(guān) 鍵詞組合形成第N元素關(guān)鍵詞組合集,當(dāng)N值大于或者等于一閾值時,確定所述N元素關(guān)鍵 詞組合集為策略集。
[0075] 本發(fā)明的上述實(shí)施例中,步驟1中包含多個語句的信息為內(nèi)容不相關(guān)的一組信 息;該組信息包括短信和彩信,也可為其他形式的信息,如微信、易信等。進(jìn)一步的,切詞的 規(guī)則可預(yù)先設(shè)定,也可采用現(xiàn)有的切詞方法。步驟3中綜合考慮第一元素詞組合的垃圾屬 性值和正常屬性值,優(yōu)先選用正常屬性值低,垃圾屬性值高的第一元素詞組合作為第一元 素關(guān)鍵詞組合。
[0076] 如圖2所示,第一元素關(guān)鍵詞組合的形成步驟如下:
[0077] 步驟301,獲取樣本的切詞表,得到多個第一元素詞組合;
[0078] 步驟302,從詞性庫中獲取所有第一元素詞組合的垃圾屬性值Pl 和正常屬性值 Pi正常;
[0079] 步驟303,判斷是否滿足Pl垃圾〉第一預(yù)設(shè)值Ml垃圾and Pl正?!吹诙A(yù)設(shè)值Nl正常; 其中該判斷規(guī)則中的第一預(yù)設(shè)值Ml 和第二預(yù)設(shè)值Nl丨帛均不限于一固定值,且也可采用 其他的判斷規(guī)則,如等等;
[0080] 步驟304,若該第一元素詞組合滿足上述規(guī)則,則判定為第一元素關(guān)鍵詞組合;
[0081] 步驟305,判斷是否所有的第一元素詞組合處理完畢;
[0082] 步驟306,若沒有處理完畢,則返回步驟302,若處理完畢,則將所有滿足該規(guī)則的 第一元素關(guān)鍵詞組合構(gòu)成第一元素關(guān)鍵詞組合集。
[0083] 為了更好的降低策略的誤攔率,同時減少策略的容量,提高策略容量的利用率,執(zhí) 行步驟4時,若將所述第一元素關(guān)鍵詞組合集中兩個不同的第一元素關(guān)鍵詞組合進(jìn)行組 合,得到第二元素詞組合;將所述第一元素關(guān)鍵詞組合集中三個不同的第一元素關(guān)鍵詞組 合進(jìn)行組合,得到第三元素詞組合…依次類推,可形成第N元素詞組合集;但本發(fā)明的具體 實(shí)施例中,優(yōu)選的,形成第N元素詞組合集時按照N值由小到大的順序依次形成,若所述第 N元素詞組合集中不存在垃圾屬性值大于所述第三預(yù)設(shè)值且正常屬性值小于所述第四預(yù)設(shè) 值的第N元素詞組合,停止形成第N元素詞組合集;否則,直到N值大于或者等于一閾值,停 止形成第N元素詞組合集。
[0084] 本發(fā)明實(shí)施例中,對于指定樣本的策略生成,首先按照一定的規(guī)則生成第一元素 關(guān)鍵詞組合集,再依次生成第二元素關(guān)鍵詞組合集、第三元素關(guān)鍵詞組合集……一直到滿 足終止條件,較優(yōu)的終止條件可設(shè)置為關(guān)鍵詞組合的最大長度為Nmax,當(dāng)產(chǎn)生出第Nmax元 素關(guān)鍵詞組合后,結(jié)束流程;但不僅限于此,也可為一直到發(fā)現(xiàn)在關(guān)鍵詞組合集生成過程中 不能滿足指定規(guī)則為止,該指定規(guī)則可預(yù)先設(shè)定,也可通過多次實(shí)驗(yàn)獲得,不限于一固定規(guī) 則。
[0085] 執(zhí)行步驟5時,所述第三預(yù)設(shè)值和第四預(yù)設(shè)值隨著N值的改變而不同,且某一 N值 對應(yīng)的所述第三預(yù)設(shè)值和第四預(yù)設(shè)值也不限于一固定值。優(yōu)選的,當(dāng)N值大于或者等于一 閾值時,確定的所述N元素關(guān)鍵詞組合集則為策略集,根據(jù)該策略集則可有效的攔截垃圾 信息,大大提高生產(chǎn)效率。
[0086] 本發(fā)明的上述實(shí)施例中,步驟2具體包括:
[0087] 步驟20,從詞性庫中獲取所述多個第一元素詞組合的垃圾屬性值和正常屬性值。
[0088] 本發(fā)明上述步驟20中,詞性庫的形成是一個線下挖掘的流程,通過日常不斷獲取 的垃圾樣本和正常樣本,挖掘出每個元素詞組合的垃圾屬性和正常屬性,形成并不斷完善 詞性庫。
[0089] 詞性庫的屬性包括:詞的內(nèi)容、垃圾屬性值、正常屬性值、垃圾樣本ID、正常樣本 ID等內(nèi)容。
[0090] 垃圾屬性值:展現(xiàn)該詞在垃圾短(彩)信中出現(xiàn)的概率;垃圾屬性值越大,表明該詞 在垃圾短(彩)信中出現(xiàn)的概率越大,采用該詞作為關(guān)鍵詞查準(zhǔn)率較高;
[0091] 正常屬性值:展現(xiàn)該詞在正常短(彩)信中出現(xiàn)的概率;正常屬性值越大,表明該詞 在正常短(彩)信中出現(xiàn)的概率越大,采用該詞作為關(guān)鍵詞誤攔率較低;
[0092] 垃圾樣本ID :包含該詞的所有垃圾樣本在垃圾樣本庫中的ID,用于計(jì)算分析多個 詞在垃圾短(彩)信中出現(xiàn)的概率;
[0093] 正常樣本ID :包含該詞的所有正常樣本在正常樣本庫中的ID,用于計(jì)算分析多個 詞在正常短(彩)信中出現(xiàn)的概率;
[0094] 下表是詞性庫的具體結(jié)構(gòu)示例:
[0095]
[0097] 如圖3所示為挖掘詞性的流程圖:
[0098] 步驟201,首先將獲取的每條樣本根據(jù)樣本屬性選擇放入垃圾樣本庫或正常樣 本庫,并分配相應(yīng)的ID號。如一條樣本是垃圾樣本,則放入垃圾樣本庫,分配ID號為 LJ0000123, 一條樣本是將正常樣本,則放入正常樣本庫,分配ID號ZC0000234 ;
[0099] 步驟202,記錄每條樣本對應(yīng)的ID號,然后將每條樣本進(jìn)行切詞處理,一條樣本可 分為若干個詞,記錄每個切詞與ID號的對應(yīng)關(guān)系;
[0100] 步驟203,判斷詞性庫是否已存在該詞;
[0101] 步驟204,若詞性庫沒有該詞,則建立一條詞性目錄,并放入該詞內(nèi)容;若詞性庫 中已有該詞,則在原有目錄上更新信息;
[0102] 步驟205,判斷該對應(yīng)樣本是否為垃圾樣本;
[0103] 步驟206,若對應(yīng)樣本為垃圾樣本,則詞的垃圾屬性值加1,將ID號放入垃圾樣本 ID中;
[0104] 步驟207,若對應(yīng)樣本為正常樣本,則詞的正常屬性值加1,將ID號放入正常樣本 ID中;
[0105] 步驟208,判斷該樣本的所有切詞是否處理完畢,若未處理完畢,返回步驟203 ;若 處理完畢,則結(jié)束。
[0106] 進(jìn)一步的,為了使詞性庫更好完善,線下還可完成詞性分析的功能,計(jì)算并存儲關(guān) 鍵詞組合的垃圾屬性和正常屬性。
[0107] 如圖4所示為關(guān)鍵詞組合的屬性計(jì)算的流程圖:
[0108] 步驟210,首先將獲取的關(guān)鍵字組合拆分為單個關(guān)鍵字;
[0109] 步驟211,從詞性庫獲得每個關(guān)鍵字的所有垃圾樣本ID和正常樣本ID ;
[0