亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種通知信息的過濾方法及裝置與流程

文檔序號(hào):12271536閱讀:360來源:國(guó)知局
一種通知信息的過濾方法及裝置與流程
本發(fā)明涉及計(jì)算機(jī)
技術(shù)領(lǐng)域
,尤其涉及一種通知信息的過濾方法及裝置。
背景技術(shù)
:隨著移動(dòng)互聯(lián)網(wǎng)的不斷發(fā)展,手機(jī)正成為人們?nèi)粘I钪斜夭豢缮俚墓ぞ?。正因?yàn)槿绱?,包括金融機(jī)構(gòu)、運(yùn)營(yíng)商、電商、商旅等很多服務(wù)類行業(yè)的公司企業(yè),都會(huì)開發(fā)自己的手機(jī)應(yīng)用APP或在第三方應(yīng)用平臺(tái)(例如微信、微博等平臺(tái))上建立自己的服務(wù)賬號(hào)為用戶提供各種服務(wù)。特別是當(dāng)用戶發(fā)生交易、積分、狀態(tài)、賬戶金額等信息發(fā)生變化時(shí)候,會(huì)及時(shí)把通知信息發(fā)送到用戶手機(jī)上。發(fā)送的方式除了傳統(tǒng)的短信方式外,還會(huì)采用APP應(yīng)用通知或者第三方平臺(tái)站內(nèi)消息的方式進(jìn)行推送。對(duì)于現(xiàn)在很多手機(jī)、信息提醒類APP和第三方平臺(tái)的運(yùn)營(yíng)商,企業(yè)為了更好的推廣自己,會(huì)在通知信息中攜帶很多廣告信息,因此為了提高用戶體驗(yàn),手機(jī)運(yùn)營(yíng)商、APP運(yùn)營(yíng)商或者是第三方平臺(tái)運(yùn)營(yíng)商一般都會(huì)利用過濾算法將通知信息中的廣告信息過濾掉。目前最常用的過濾方法一般是通過預(yù)先建立一個(gè)廣告模板庫,廣告模板庫可以保持更新,且其中存儲(chǔ)的是被定義為廣告信息的語義段。其中,廣告模板庫的更新方式一般為:獲取大量通知信息訓(xùn)練樣本,從中獲取出現(xiàn)的頻率比較高的語義段,作為廣告語義段,并更新廣告模板庫。基于廣告模板庫的廣告信息過濾方法存在的問題是:通知信息訓(xùn)練樣本中出現(xiàn)頻率比較高的語義段有可能不是廣告語義段,而是一些通用的非廣告語義段,將這些語義段加入廣告模板庫,將會(huì)造成使用廣告模板庫進(jìn)行通知信息的過濾時(shí),產(chǎn)生誤判而導(dǎo)致過濾掉通知信息中的一些非廣告語義段。綜上所述,現(xiàn)有技術(shù)在對(duì)通知信息進(jìn)行過濾時(shí),容易造成誤判,過濾準(zhǔn)確性不高。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供一種通知信息的過濾方法及裝置,用以解決現(xiàn)有技術(shù)中存在的廣告模板庫更新效率低的技術(shù)問題。一方面,本發(fā)明實(shí)施例提供一種通知信息的過濾方法,包括:根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將待處理通知信息劃分為至少一個(gè)語義段;針對(duì)所述至少一個(gè)語義段中的任意一個(gè)語義段,若確定所述任意一個(gè)語義段是廣告語義段,則從所述待處理通知信息中刪除所述任意一個(gè)語義段;其中,通過下述過程確定所述任意一個(gè)語義段是否為廣告語義段:將所述任意一個(gè)語義段與非廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述非廣告模板庫的匹配度,所述非廣告模板庫用于存儲(chǔ)非廣告類語義段;若所述任意一個(gè)語義段與所述非廣告模板庫的匹配度為高匹配度,則確定所述任意一個(gè)語義段為非廣告語義段;若所述任意一個(gè)語義段與所述非廣告模板庫的匹配度為低匹配度,則將所述任意一個(gè)語義段與廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述廣告模板庫的匹配度,所述廣告模板庫用于存儲(chǔ)廣告類語義段;若所述任意一個(gè)語義段與所述廣告模板庫的匹配度為高匹配度,則確定所述任意一個(gè)語義段為廣告語義段,否則,確定所述任意一個(gè)語義段為非廣告語義段??蛇x地,根據(jù)下列方式確定所述任意一個(gè)語義段與所述廣告模板庫的匹配度:若所述任意一個(gè)語義段與所述廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述廣告模板庫的匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述廣告模板庫的匹配度確定為低匹配度:條件一:所述任意一個(gè)語義段與所述廣告模板庫中的至少一個(gè)語義段的相似度大于或等于第一相似閾值;條件二:所述任意一個(gè)語義段與所述廣告模板庫中的M個(gè)語義段的相似度小于所述第一相似閾值且大于第二相似閾值,且M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第一比例,M為正整數(shù);可選地,根據(jù)下列方式確定所述任意一個(gè)語義段與所述非廣告模板庫的匹配度:若所述任意一個(gè)語義段與所述非廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述非廣告模板庫的匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述非廣告模板庫的匹配度確定為低匹配度:條件一:所述任意一個(gè)語義段與所述非廣告模板庫中的任意一個(gè)語義段的相似度大于或等于第三相似閾值;條件二:所述任意一個(gè)語義段與所述非廣告模板庫中的N個(gè)語義段的相似度小于所述第三相似閾值且大于第四相似閾值,且N與所述非廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第二比例,N為正整數(shù)。可選地,所述方法還包括:若所述任意一個(gè)語義段與所述非廣告模板庫的匹配度為高匹配度,且所述非廣告模板庫中不包含與所述任意一個(gè)語義段完全相同的語義段,則根據(jù)所述任意一個(gè)語義段更新所述非廣告模板庫;若所述任意一個(gè)語義段與所述廣告模板庫的匹配度為高匹配度,且所述廣告模板庫中不包含與所述任意一個(gè)語義段完全相同的語義段,則根據(jù)所述任意一個(gè)語義段更新所述廣告模板庫。可選地,所述預(yù)設(shè)的劃分標(biāo)識(shí)符為句號(hào)、問號(hào)以及感嘆號(hào)。另一方面,本發(fā)明實(shí)施例還提供一種通知信息過濾裝置,包括:語義段劃分單元,用于根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將待處理通知信息劃分為至少一個(gè)語義段;過濾單元,用于針對(duì)所述至少一個(gè)語義段中的任意一個(gè)語義段,若確定所述任意一個(gè)語義段是廣告語義段,則從所述待處理通知信息中刪除所述任意一個(gè)語義段;廣告語義段確定單元,用于通過下述過程確定所述任意一個(gè)語義段是否為廣告語義段:將所述任意一個(gè)語義段與非廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述非廣告模板庫的匹配度,所述非廣告模板庫用于存儲(chǔ)非廣告類語義段;若所述任意一個(gè)語義段與所述非廣告模板庫的匹配度為高匹配度,則確定所述任意一個(gè)語義段為非廣告語義段;若所述任意一個(gè)語義段與所述非廣告模板庫的匹配度為低匹配度,則將所述任意一個(gè)語義段與廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述廣告模板庫的匹配度,所述廣告模板庫用于存儲(chǔ)廣告類語義段;若所述任意一個(gè)語義段與所述廣告模板庫的匹配度為高匹配度,則確定所述任意一個(gè)語義段為廣告語義段,否則,確定所述任意一個(gè)語義段為非廣告語義段??蛇x地,所述廣告語義段確定單元,具體用于:若所述任意一個(gè)語義段與所述廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述廣告模板庫的匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述廣告模板庫的匹配度確定為低匹配度:條件一:所述任意一個(gè)語義段與所述廣告模板庫中的至少一個(gè)語義段的相似度大于或等于第一相似閾值;條件二:所述任意一個(gè)語義段與所述廣告模板庫中的M個(gè)語義段的相似度小于所述第一相似閾值且大于第二相似閾值,且M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第一比例,M為正整數(shù);可選地,所述廣告語義段確定單元,具體用于:若所述任意一個(gè)語義段與所述非廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述非廣告模板庫的匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述非廣告模板庫的匹配度確定為低匹配度:條件一:所述任意一個(gè)語義段與所述非廣告模板庫中的任意一個(gè)語義段的相似度大于或等于第三相似閾值;條件二:所述任意一個(gè)語義段與所述非廣告模板庫中的N個(gè)語義段的相似度小于所述第三相似閾值且大于第四相似閾值,且N與所述非廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第二比例,N為正整數(shù)??蛇x地,所述裝置還包括更新單元,用于:若所述任意一個(gè)語義段與所述非廣告模板庫的匹配度為高匹配度,且所述非廣告模板庫中不包含與所述任意一個(gè)語義段完全相同的語義段,則根據(jù)所述任意一個(gè)語義段更新所述非廣告模板庫;若所述任意一個(gè)語義段與所述廣告模板庫的匹配度為高匹配度,且所述廣告模板庫中不包含與所述任意一個(gè)語義段完全相同的語義段,則根據(jù)所述任意一個(gè)語義段更新所述廣告模板庫??蛇x地,所述預(yù)設(shè)的劃分標(biāo)識(shí)符為句號(hào)、問號(hào)以及感嘆號(hào)。本發(fā)明實(shí)施例,根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將待處理通知信息劃分為至少一個(gè)語義段;針對(duì)所述至少一個(gè)語義段中的任意一個(gè)語義段,若確定所述任意一個(gè)語義段是廣告語義段,則從所述待處理通知信息中刪除所述任意一個(gè)語義段;其中,通過將任意一個(gè)語義段與非廣告模板庫及廣告模板庫進(jìn)行比較,來判斷所述語義段是否為廣告語義段,其中,非廣告模板庫用于存儲(chǔ)非廣告類語義段,廣告模板庫用于存儲(chǔ)廣告類語義段。本發(fā)明實(shí)施例不僅同時(shí)使用廣告模板庫和非廣告模板庫來判斷語義段是否為廣告語義段,不會(huì)將出現(xiàn)頻率較高的非廣告語義段誤判為廣告語義段,因而提高了過濾的準(zhǔn)確性。附圖說明為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的一種更新模板庫的方法流程圖;圖2為本發(fā)明實(shí)施例提供的一種通知信息的過濾方法流程圖;圖3為本發(fā)明實(shí)施例提供的一種語義段的轉(zhuǎn)換方法流程圖;圖4為本發(fā)明實(shí)施例提供的一種更新模板庫的方法詳細(xì)流程圖;圖5為本發(fā)明實(shí)施例提供的一種語義段的轉(zhuǎn)換方法詳細(xì)流程圖;圖6為本發(fā)明實(shí)施例提供的一種更新模板庫的裝置示意圖;圖7為本發(fā)明實(shí)施例提供的一種通知信息的過濾裝置示意圖;圖8為本發(fā)明實(shí)施例提供的一種語義段的轉(zhuǎn)換裝置示意圖。具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步地詳細(xì)描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。服務(wù)類行業(yè)公司主要包括金融機(jī)構(gòu)類、運(yùn)營(yíng)商類、電商類、商旅類等網(wǎng)站,對(duì)客戶發(fā)的通知信息主要有以下幾個(gè)類型:一.純通知類短信①尾號(hào)1234儲(chǔ)蓄卡賬戶12:40在ATM機(jī)取款300元。(銀行)②溫馨提示:截止03月07日24時(shí),您當(dāng)月累計(jì)使用流量150.6MB。其中,國(guó)內(nèi)流量已使用21.6MB,剩余979.4MB;國(guó)內(nèi)流量半年流量包已使用1.064GB,剩余1.936GB。(運(yùn)營(yíng)商)③您購買的訂單號(hào)879885554已經(jīng)從倉庫運(yùn)出,大概3天后到您手中,請(qǐng)注意查收。(電商類)④您購買的7月8日CA1819次航班已經(jīng)出票,請(qǐng)準(zhǔn)時(shí)到達(dá)機(jī)場(chǎng)。(商旅類)二.通知+廣告類⑤您賬戶5678于01月02日11:21發(fā)生網(wǎng)銀快捷支付扣款30元。當(dāng)月交易滿100元送100積分。(銀行)⑥您好:您的手機(jī)(130****7787)上月消費(fèi)金額56元,現(xiàn)賬戶余額為12元,如果有欠費(fèi),請(qǐng)及時(shí)充值。溫馨提示:現(xiàn)在充值滿100元可以享受送400M流量包優(yōu)惠。(運(yùn)營(yíng)商)⑦本次交易驗(yàn)證碼456421,請(qǐng)勿向任何人泄露收到的驗(yàn)證碼。猛戳t.xxx.com/GFDG立馬領(lǐng)取億萬理財(cái)券。(電商類)⑧您在本網(wǎng)站購買的7月12日的MU5028航班預(yù)計(jì)將延遲2個(gè)小時(shí)以上,對(duì)您旅程的影響深表歉意。雷雨季節(jié)使用延誤險(xiǎn),出行不擔(dān)憂,現(xiàn)在通過手機(jī)端購買保險(xiǎn)立馬享受隨機(jī)減的優(yōu)惠。(航旅類)三.純廣告類⑨本行將于3月16日至18日起售一年期保本保收益定期存款產(chǎn)品,5萬起年收益5,相比定期存款,100000元多2600元收益,額度有限,速速搶購。(銀行)⑩【中國(guó)石油】積分商城(http://www.jf.95504.net、中油好客e站微信號(hào))6月17日鉅惠啟航!積分兌換電子充值卡,兌換+油卡充值=積分加油!多種面值可選!新客戶記得注冊(cè)綁卡喲.......。(電商類)最便宜的打折機(jī)票哪里有?訪問www.ddd.com獲得最新打折機(jī)票信息,注冊(cè)就有獎(jiǎng)。(航旅類)下面結(jié)合說明書附圖對(duì)本發(fā)明實(shí)施例作進(jìn)一步詳細(xì)描述。如圖1所示,本發(fā)明實(shí)施例提供的一種更新模板庫的方法,包括:步驟101、根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集;步驟102、針對(duì)所述至少一個(gè)數(shù)據(jù)集中的任意一個(gè)數(shù)據(jù)集,根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將所述任意一個(gè)數(shù)據(jù)集中的每條通知信息劃分為至少一個(gè)語義段;對(duì)劃分得到的所有語義段在所述任意一個(gè)數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段;步驟103、根據(jù)所述目標(biāo)語義段,更新模板庫,所述模板庫用于存儲(chǔ)滿足預(yù)設(shè)條件的語義段。在上述步驟101中,根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集??蛇x地,根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集,可以有多種方式,下列例舉幾種方式作為說明:第一種方式:根據(jù)通知信息對(duì)應(yīng)的應(yīng)用名稱、時(shí)間,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集。第二種方式:根據(jù)通知信息對(duì)應(yīng)的應(yīng)用名稱、渠道,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集。第三種方式、根據(jù)通知信息對(duì)應(yīng)的應(yīng)用名稱、渠道、時(shí)間,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集。其中,之所以按照以上的劃分方式對(duì)通知信息進(jìn)行分類,主要是基于以下理由:通知信息中的廣告信息具有具有時(shí)間歸屬性、應(yīng)用歸屬性及渠道歸屬性。例如某種廣告信息在某個(gè)應(yīng)用下在某個(gè)時(shí)間段或者某天內(nèi)發(fā)送給了所有用戶,則可以使用上述第一種方式,來將通知信息進(jìn)行劃分到不同的數(shù)據(jù)集中,也就是說,在同一個(gè)數(shù)據(jù)集中存儲(chǔ)的是來自于同一個(gè)應(yīng)用在同樣時(shí)間段的通知信息;或者是某種廣告信息在某個(gè)應(yīng)用的某個(gè)渠道下具有重復(fù)性,則可以使用上述第二種方式,來將通知信息進(jìn)行劃分到不同的數(shù)據(jù)集中,也就是說,在同一個(gè)數(shù)據(jù)集中存儲(chǔ)的是來自于同一個(gè)應(yīng)用及同一渠道下的通知信息;或者是某種廣告信息在某個(gè)應(yīng)用的某個(gè)渠道下具有重復(fù)性和連續(xù)性,則可以使用上述第三種方式對(duì)通知信息進(jìn)行劃分到不同的數(shù)據(jù)集中,也就是說,在同一個(gè)數(shù)據(jù)集中存儲(chǔ)的是來自于同一個(gè)應(yīng)用及同一渠道下,且屬于同一時(shí)間的通知信息。下面以上述第三種方式為例進(jìn)行舉例說明。服務(wù)端將授權(quán)用戶(即只有經(jīng)過用戶授權(quán)后,服務(wù)端才可以獲取到這些通知類信息)的所有通知類信息按照應(yīng)用名稱、渠道和日期分隔開,形成數(shù)據(jù)集,每個(gè)數(shù)據(jù)集合以應(yīng)用名稱、渠道、日期命名,例如形成以下數(shù)據(jù)集:數(shù)據(jù)集1:移動(dòng)-短信-2016.05.08數(shù)據(jù)集2:移動(dòng)-短信-2016.05.09數(shù)據(jù)集3:移動(dòng)-短信-2016.05.10……數(shù)據(jù)集k:移動(dòng)-APP通知-2016.05.08數(shù)據(jù)集k+1:移動(dòng)-APP通知-2016.05.09數(shù)據(jù)集k+2:移動(dòng)-APP通知-2016.05.10……數(shù)據(jù)集l:電商-APP通知-2016.05.08數(shù)據(jù)集l+1:電商-APP通知-2016.05.09數(shù)據(jù)集l+2:電商-APP通知-2016.05.10……數(shù)據(jù)集m:電商-微信通知-2016.05.08數(shù)據(jù)集m+1:電商-微信通知-2016.05.09數(shù)據(jù)集m+2:電商-微信通知-2016.05.10……從而,根據(jù)上述方法,將獲取到的通知信息劃分到了多個(gè)數(shù)據(jù)集中,每個(gè)數(shù)據(jù)集中的通知信息是來源于同一應(yīng)用、同一渠道及同一時(shí)間,并且同一個(gè)數(shù)據(jù)集中的通知信息具有高度關(guān)聯(lián)性,也就是說,同一個(gè)數(shù)據(jù)集中的通知信息具有相同語義段的概率要更高。上述步驟102中,針對(duì)根據(jù)步驟101中得到的多個(gè)數(shù)據(jù)集,針對(duì)其中的每一個(gè)數(shù)據(jù)集,都會(huì)得到一些目標(biāo)語義段,下面針對(duì)其中任意一個(gè)數(shù)據(jù)集,來說明書如何得到該數(shù)據(jù)集中的目標(biāo)語義段。步驟A、根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將所述任意一個(gè)數(shù)據(jù)集中的每條通知信息劃分為至少一個(gè)語義段。考慮到廣告本身具有典型的時(shí)間、渠道及應(yīng)用特性,為了盡可能擴(kuò)大廣告影響力和營(yíng)銷效果,同一個(gè)應(yīng)用在某個(gè)渠道在某個(gè)時(shí)間段(例如一天內(nèi))發(fā)送的廣告信息應(yīng)該是相同的。一般會(huì)采取在用戶正常通知信息最后面添加廣告、或直接給用戶推送廣告信息兩種方式??紤]到上述情況,我們對(duì)通知信息處理不是采用整條信息處理的方式,而是對(duì)原始信息用預(yù)設(shè)的劃分標(biāo)識(shí)符進(jìn)行分割(本發(fā)明實(shí)施例中,預(yù)設(shè)的劃分標(biāo)識(shí)符為句號(hào)、問號(hào)、感嘆號(hào)),形成一個(gè)個(gè)具有完整意義的語義段。在切分后,上述完整的信息就可以劃分成不同的語義段,以下是舉例:舉例1、信息⑤按照句號(hào)切割,原文就變成“您賬戶5678于01月02日11:21發(fā)生網(wǎng)銀快捷支付扣款30元?!焙汀爱?dāng)月交易滿100元送100積分?!眱蓚€(gè)語義段。舉例2、信息⑧按照句號(hào)切割,原文就可以得到“雷雨季節(jié)使用延誤險(xiǎn),出行不擔(dān)憂,現(xiàn)在通過手機(jī)端購買保險(xiǎn)立馬享受隨機(jī)減的優(yōu)惠。”,“您在本網(wǎng)站購買的7月12日的MU5028航班預(yù)計(jì)將延遲2個(gè)小時(shí)以上,對(duì)您旅程的影響深表歉意。”兩個(gè)語義段。舉例3、信息⑩按照句號(hào)和感嘆號(hào)切割,原文就可以得到“中國(guó)石油】積分商城(http://www.jf.95504.net、中油好客e站微信號(hào))6月17日鉅惠啟航!”,“積分兌換電子充值卡,兌換+油卡充值=積分加油!”,“多種面值可選!”,“新客戶記得注冊(cè)綁卡喲.......?!彼膫€(gè)語義段。舉例4、信息按照問號(hào)和句號(hào)進(jìn)行分割,原文就可以得到“最便宜的打折機(jī)票哪里有?”,“訪問www.ddd.com獲得最新打折機(jī)票信息,注冊(cè)就有獎(jiǎng)?!眱蓚€(gè)語義段。步驟B、對(duì)劃分得到的所有語義段在所述任意一個(gè)數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段。將每個(gè)數(shù)據(jù)集中每條通知信息都按照如上原則切分成不同的語義段,并統(tǒng)計(jì)相同語義段出現(xiàn)的次數(shù),注意這里一定要是完全相同,因?yàn)檫@樣可以把信息中的有效部分區(qū)別開來,比如以下是電商類發(fā)貨通知信息:(1)您購買的訂單號(hào)87885554已經(jīng)從倉庫運(yùn)出,大概3天后到您手中,請(qǐng)注意查收。(2)您購買的訂單號(hào)98766876已經(jīng)從倉庫運(yùn)出,大概3天后到您手中,請(qǐng)注意查收。以上兩條通知信息結(jié)構(gòu)一樣,但是因?yàn)槠渲嘘P(guān)鍵的信息訂單號(hào)不一樣,說明這其實(shí)可能是有效信息。按照我們上述的原則,即使有很多條類似結(jié)構(gòu)的短信,出現(xiàn)次數(shù)也不會(huì)相加。將語義段出現(xiàn)的次數(shù)按照倒序排序,得到每個(gè)數(shù)據(jù)集的相同語義段出現(xiàn)次數(shù)的倒序集合,按照以下格式以待下一步處理,舉例來說,表1為數(shù)據(jù)集(移動(dòng)-短信-2016.05.08)中的所有通知信息劃分為語義段之后的統(tǒng)計(jì)結(jié)果表;表2為數(shù)據(jù)集(銀行-APP通知-2016.07.03)中的所有通知信息劃分為語義段之后的統(tǒng)計(jì)結(jié)果表。表1移動(dòng)-短信-2016.05.08語義段出現(xiàn)次數(shù)溫馨提示:現(xiàn)在充值滿100元可以享受送400M流量包優(yōu)惠。1098現(xiàn)在安裝家庭寬帶,6月1日之前可以享受8折優(yōu)惠876……表2銀行-APP通知-2016.07.03語義段出現(xiàn)次數(shù)當(dāng)月交易滿100元送100積分8765…876恭喜你當(dāng)期賬單已經(jīng)還清。342對(duì)于每個(gè)數(shù)據(jù)集,在統(tǒng)計(jì)出其中的所有不同語義段出現(xiàn)的次數(shù)之后,再從中選出目標(biāo)語義段,可選地,對(duì)劃分得到的所有語義段在所述任意一個(gè)數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段,包括:針對(duì)一個(gè)數(shù)據(jù)集劃分得到的所有語義段中的任意一個(gè)語義段,若所述任意一個(gè)語義段滿足下列條件中的至少一個(gè),則確定所述任意一個(gè)語義段為目標(biāo)語義段,否則,確定所述任意一個(gè)語義段不為目標(biāo)語義段。其中:條件一:所述任意一個(gè)語義段的權(quán)重大于或等于第一閾值,所述任意一個(gè)語義段的權(quán)重為所述任意一個(gè)語義段在所述任意一個(gè)數(shù)據(jù)集中的出現(xiàn)次數(shù)與所述任意一個(gè)數(shù)據(jù)集對(duì)應(yīng)的通知信息的數(shù)量的比值。舉例來說,假設(shè)數(shù)據(jù)集A中一共有1000個(gè)不同的語義段,且這1000個(gè)語義段是來源于400條通知信息,針對(duì)其中的語義段a,假設(shè)語義段a出現(xiàn)的次數(shù)為500次,則語義段a的權(quán)重為500/400=1.25;再比如語義段b,其出現(xiàn)的次數(shù)為200此,則語義段b的權(quán)重為200/400=0.5。如果預(yù)設(shè)的第一閾值為1,則語義段a被確定為目標(biāo)語義段,而語義段b被確定為不是目標(biāo)語義段;如果預(yù)設(shè)的第一閾值為0.4,則語義段a和語義段b都被確定為目標(biāo)語義段。條件二:所述任意一個(gè)語義段屬于目標(biāo)集合,所述目標(biāo)集合由所述至少一個(gè)數(shù)據(jù)集中出現(xiàn)次數(shù)大于第二閾值的所有語義段中排名靠前預(yù)設(shè)比例的語義段構(gòu)成。舉例來說,數(shù)據(jù)集B中一共有2000個(gè)不同的語義段,第二閾值預(yù)設(shè)為500,且數(shù)據(jù)集B中出現(xiàn)次數(shù)超過500的語義段共有800個(gè)(即數(shù)據(jù)集B的2000個(gè)語義段中有800個(gè)語義段的出現(xiàn)次數(shù)超過500次),然后從這500個(gè)語義段中選出排名前預(yù)設(shè)比例(例如40%)的語義段,構(gòu)成目標(biāo)集合,即目標(biāo)集合中有200個(gè)語義段。對(duì)于數(shù)據(jù)集B中的任意一個(gè)語義段,假設(shè)其屬于該目標(biāo)集合,則該語義段就是目標(biāo)語義段;換句話說,目標(biāo)集合中的任意一個(gè)語義段均為目標(biāo)語義段。對(duì)于一個(gè)數(shù)據(jù)集中的任意一個(gè)語義段,只要其滿足上面的兩個(gè)條件中的任意一個(gè),則該語義段就是目標(biāo)語義段。上述步驟103中,在針對(duì)每個(gè)數(shù)據(jù)集都得到了目標(biāo)語義段之后,在利用這些目標(biāo)語義段來更新模板庫,所述模板庫用于存儲(chǔ)滿足預(yù)設(shè)條件的語義段。在實(shí)際應(yīng)用中,模板庫可以只有一個(gè),例如模板庫為廣告模板庫,用于存儲(chǔ)為廣告信息的語義段;模板庫也可以由多個(gè)庫組成,例如在本發(fā)明實(shí)施例中,模板庫包含兩個(gè)庫,具體地,所述模板庫包括廣告模板庫和非廣告模板庫,所述廣告模板庫用于存儲(chǔ)廣告類語義段,所述非廣告模板庫用于存儲(chǔ)非廣告類語義段。舉例來說,廣告模板庫中存儲(chǔ)的出現(xiàn)次數(shù)較多的廣告類語義段,例如“當(dāng)月交易滿100元送100積分”;但是也還有一些語義段,其出現(xiàn)次數(shù)也非常多,但這類語義段其實(shí)并不是廣告類語義段,而是一些特定信息,例如銀行發(fā)送的特定信息“恭喜你當(dāng)期賬單已經(jīng)還清”??蛇x地,根據(jù)所述目標(biāo)語義段,更新模板庫,具體包括:針對(duì)所述目標(biāo)語義段中的任意一個(gè)語義段,將所述任意一個(gè)語義段與所述廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述廣告模板庫的第一匹配度;以及將所述任意一個(gè)語義段與所述非廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述非模板廣告庫的第二匹配度;根據(jù)所述第一匹配度、所述第二匹配度及所述任意一個(gè)語義段,更新所述廣告模板庫或所述非廣告模板庫??蛇x地,根據(jù)所述第一匹配度、所述第二匹配度及所述任意一個(gè)語義段,更新所述廣告模板庫或所述非廣告模板庫,包括:若所述第一匹配度為高匹配度且所述第二匹配度為低匹配度,則將所述任意一個(gè)語義段加入所述廣告模板庫;若所述第一匹配度為低匹配度且所述第二匹配度為高匹配度,則將所述任意一個(gè)語義段加入所述非廣告模板庫;若所述第一匹配度為高匹配度且所述第二匹配度為高匹配度,則輸出由人工判斷所述任意一個(gè)語義段是需要加入廣告模板庫還是加入非廣告模板庫,或者是都不加入;若所述第一匹配度為低匹配度且所述第二匹配度為低匹配度,則輸出由人工判斷所述任意一個(gè)語義段是需要加入廣告模板庫還是加入非廣告模板庫,或者是都不加入。上述根據(jù)所述目標(biāo)語義段,更新模板庫的方法用表3來表示,為:表3序號(hào)第一匹配度第二匹配度處理方式1高高輸出人工確認(rèn)2高低將目標(biāo)語義段加入廣告模板庫3低高將目標(biāo)語義段加入非廣告模板庫4低低輸出人工確認(rèn)通過上面步驟的處理,可以大大減少人工查看語義段的數(shù)量,快速得到新的廣告類的語義段。由于非廣告模板一般比較穩(wěn)定,不會(huì)隨著時(shí)間快速增加,同時(shí),隨著廣告模板庫的增大,上述表3中的第2種情形會(huì)相對(duì)比較多一些,而上述表3中的第1和第4種情形會(huì)越來越少,直至最后需要人工介入的情況也會(huì)越來越少,最后甚至是無需人工接入。對(duì)于表3中的第1和第4種情形,其中在第1種情形下,人工判斷的結(jié)果一般為:要么將該需要人工判斷的語義段加入到廣告模板庫,要么加入到非廣告模板庫;而對(duì)于第4種情形,則一般經(jīng)人工確認(rèn)后,是兩個(gè)模板庫都不加入。當(dāng)然,具體經(jīng)人工判斷后是需要加入廣告模板庫還是加入非廣告模板庫,或者是都不加入,則是視實(shí)際情況而定。下面對(duì)上述過程中,確定所述任意一個(gè)語義段與所述廣告模板庫的第一匹配度,以及確定所述任意一個(gè)語義段與所述非廣告模板庫的第二匹配度??蛇x地,將所述任意一個(gè)語義段與廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述廣告模板庫的第一匹配度,包括:若所述任意一個(gè)語義段與所述廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述廣告模板庫的第一匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述廣告模板庫的第一匹配度確定為低匹配度。其中:條件一:所述任意一個(gè)語義段與所述廣告模板庫中的至少一個(gè)語義段的相似度大于或等于第一相似閾值;舉例來說,假設(shè)廣告模板庫中當(dāng)前已經(jīng)存儲(chǔ)有100個(gè)語義段了,這些語義段均為廣告類語義段。那么條件一指的是,對(duì)于目標(biāo)語義段中的任意一個(gè)語義段,將該語義段與廣告模板庫中的100個(gè)語義段從前往后進(jìn)行比較,如果該語義段與廣告模板庫中的至少一個(gè)語義段的相似度大于或等于第一相似閾值,則確定滿足上述條件一;如果該語義段與廣告模板庫中的所有語義段的相似度均小于第一相似閾值,則確定不滿足上述條件一。條件二:所述任意一個(gè)語義段與所述廣告模板庫中的M個(gè)語義段的相似度小于所述第一相似閾值且大于第二相似閾值,且M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第一比例,M為正整數(shù)。舉例來說,假設(shè)廣告模板庫中當(dāng)前已經(jīng)存儲(chǔ)有100個(gè)語義段了,這些語義段均為廣告類語義段。那么條件二指的是,對(duì)于目標(biāo)語義段中的任意一個(gè)語義段,將該語義段與廣告模板庫中的100個(gè)語義段從前往后進(jìn)行比較,如果該語義段與廣告模板庫中的M個(gè)語義段的相似度小于所述第一相似閾值且大于第二相似閾值,并且,M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第一比例,則確定滿足上述條件二;如果M與所述廣告模板庫中語義段的總數(shù)量的比值小于所述預(yù)設(shè)的第一比例,則確定不滿足上述條件二。例如預(yù)設(shè)的第一比例為30%,當(dāng)M等于50時(shí),則表明該語義段滿足條件二,當(dāng)M=20時(shí),則表明該語義段不滿足條件二,等等。對(duì)于目標(biāo)語義段中的任意一個(gè)語義段,如果滿足上述條件一和上述條件二中的至少一個(gè),則將所述該語義段與所述廣告模板庫的第一匹配度確定為高匹配度,否則,將該語義段與所述廣告模板庫的第一匹配度確定為低匹配度。對(duì)于將目標(biāo)語義段中的任意一個(gè)語義段與非廣告模板庫進(jìn)行比較,確定該語義段與非模板廣告庫的第二匹配度的方法,與上述確定第一匹配度的方法類似,只是其中使用到了不同的閾值,例如下述方法使用到的是第三相似閾值,第四相似閾值以及預(yù)設(shè)的第二比例,具體方法為:若所述任意一個(gè)語義段與所述非廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述非廣告模板庫的第二匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述非廣告模板庫的第二匹配度確定為低匹配度:條件一:所述任意一個(gè)語義段與所述非廣告模板庫中的任意一個(gè)語義段的相似度大于或等于第三相似閾值;條件二:所述任意一個(gè)語義段與所述非廣告模板庫中的N個(gè)語義段的相似度小于所述第三相似閾值且大于第四相似閾值,且N與所述非廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第二比例,N為正整數(shù)。通過上述方法,使用到了兩個(gè)模板庫,廣告模板庫和非廣告模板庫,從而在對(duì)目標(biāo)語義段進(jìn)行判斷時(shí),將確實(shí)是廣告信息的語義段加入到廣告模板庫中,而將那些只是多次出現(xiàn)的基本信息加入到非廣告模板庫,這么設(shè)計(jì)的好處在于,如果按照傳統(tǒng)的方法,一般只會(huì)設(shè)置一個(gè)廣告模板庫,而沒有非廣告模板庫,將會(huì)導(dǎo)致將多次出現(xiàn)的基本信息也會(huì)被加入到廣告模板庫中,這其實(shí)是一種錯(cuò)誤。而使用本發(fā)明實(shí)施例中的方法,則會(huì)對(duì)目標(biāo)語義段進(jìn)行正確的劃分,不會(huì)造成誤判。此外,在上述步驟中,具體描述了如何確定一個(gè)目標(biāo)語義段是要加入廣告模板庫還是加入非廣告模板庫,還是都不加入。其中,主要使用到了匹配度的確定,具體地,包括將所述任意一個(gè)語義段與廣告模板庫進(jìn)行比較得到第一匹配度,以及將所述任意一個(gè)語義段與非廣告模板庫進(jìn)行比較,得到第二匹配度。本發(fā)明實(shí)施例,首先根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集;針對(duì)所述至少一個(gè)數(shù)據(jù)集中的任意一個(gè)數(shù)據(jù)集,根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將所述任意一個(gè)數(shù)據(jù)集中的每條通知信息劃分為至少一個(gè)語義段;對(duì)劃分得到的所有語義段在所述任意一個(gè)數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段,由此可以看出,本發(fā)明實(shí)施例可以實(shí)現(xiàn)自動(dòng)地從大量的通知信息中找出目標(biāo)語義段,這些目標(biāo)語義段中包含疑似廣告信息,進(jìn)而根據(jù)目標(biāo)語義段,更新模板庫,因而本發(fā)明實(shí)施例在更新模板庫時(shí)可以實(shí)現(xiàn)自動(dòng)化地更新模板庫,提高了模板庫的更新效率。一方面,本發(fā)明實(shí)施例提供一種通知信息的過濾方法,如圖2所示,包括:步驟201、根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將待處理通知信息劃分為至少一個(gè)語義段;可選地,所述預(yù)設(shè)的劃分標(biāo)識(shí)符為句號(hào)、問號(hào)以及感嘆號(hào)。步驟202、針對(duì)所述至少一個(gè)語義段中的任意一個(gè)語義段,確定所述任意一個(gè)語義段是否為廣告語義段;具體地,包括以下步驟:步驟2021、將所述任意一個(gè)語義段與非廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述非廣告模板庫的匹配度,所述非廣告模板庫用于存儲(chǔ)非廣告類語義段;步驟2022、若所述任意一個(gè)語義段與所述非廣告模板庫的匹配度為高匹配度,則確定所述任意一個(gè)語義段為非廣告語義段;步驟2023、若所述任意一個(gè)語義段與所述非廣告模板庫的匹配度為低匹配度,則將所述任意一個(gè)語義段與廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述廣告模板庫的匹配度,所述廣告模板庫用于存儲(chǔ)廣告類語義段;步驟2024、若所述任意一個(gè)語義段與所述廣告模板庫的匹配度為高匹配度,則確定所述任意一個(gè)語義段為廣告語義段,否則,確定所述任意一個(gè)語義段為非廣告語義段。步驟203、若確定所述任意一個(gè)語義段是廣告語義段,則從所述待處理通知信息中刪除所述任意一個(gè)語義段。上述過程,首先將待處理通知信息劃分為多個(gè)語義段,針對(duì)其中任意一個(gè)語義段,如果確定該語義段是廣告語義段,則將該語義段從通知信息中刪除;如果確定該語義段是非廣告語義段,則不刪除,即保留該語義段,從而最終可以將一個(gè)待處理通知信息中的廣告語義段過濾掉??蛇x地,根據(jù)下列方式確定所述任意一個(gè)語義段與所述廣告模板庫的匹配度:若所述任意一個(gè)語義段與所述廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述廣告模板庫的匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述廣告模板庫的匹配度確定為低匹配度:條件一:所述任意一個(gè)語義段與所述廣告模板庫中的至少一個(gè)語義段的相似度大于或等于第一相似閾值;條件二:所述任意一個(gè)語義段與所述廣告模板庫中的M個(gè)語義段的相似度小于所述第一相似閾值且大于第二相似閾值,且M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第一比例,M為正整數(shù);可選地,根據(jù)下列方式確定所述任意一個(gè)語義段與所述非廣告模板庫的匹配度:若所述任意一個(gè)語義段與所述非廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述非廣告模板庫的匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述非廣告模板庫的匹配度確定為低匹配度:條件一:所述任意一個(gè)語義段與所述非廣告模板庫中的任意一個(gè)語義段的相似度大于或等于第三相似閾值;條件二:所述任意一個(gè)語義段與所述非廣告模板庫中的N個(gè)語義段的相似度小于所述第三相似閾值且大于第四相似閾值,且N與所述非廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第二比例,N為正整數(shù)。上述確定語義段與廣告模板庫的匹配度的方法與更新模板庫過程中判斷目標(biāo)語義段與廣告模板庫相同,確定語義段與非廣告模板庫的匹配度的方法與更新模板庫過程中判斷目標(biāo)語義段與非廣告模板庫相同,在此不再贅述,可參考上面的詳細(xì)說明??蛇x地,若待處理通知信息中的任意一個(gè)語義段與非廣告模板庫的匹配度為高匹配度,且所述非廣告模板庫中不包含與所述任意一個(gè)語義段完全相同的語義段,則根據(jù)所述任意一個(gè)語義段更新所述非廣告模板庫;若所述任意一個(gè)語義段與所述廣告模板庫的匹配度為高匹配度,且所述廣告模板庫中不包含與所述任意一個(gè)語義段完全相同的語義段,則根據(jù)所述任意一個(gè)語義段更新所述廣告模板庫。若待處理通知信息中的任意一個(gè)語義段與非廣告模板庫的匹配度為高匹配度,且所述非廣告模板庫中不包含與所述任意一個(gè)語義段完全相同的語義段,則表明該語義段是一個(gè)非廣告語義段,但非廣告模板庫中沒有存儲(chǔ)這個(gè)語義段,因此可以將該語義段加入所述非廣告語義段。同樣的理由,若待處理通知信息中的任意一個(gè)語義段與廣告模板庫的匹配度為高匹配度,且所述廣告模板庫中不包含與所述任意一個(gè)語義段完全相同的語義段,則表明該語義段是一個(gè)廣告語義段,但廣告模板庫中沒有存儲(chǔ)這個(gè)語義段,因此可以將該語義段加入所述廣告語義段。本發(fā)明實(shí)施例,根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將待處理通知信息劃分為至少一個(gè)語義段;針對(duì)所述至少一個(gè)語義段中的任意一個(gè)語義段,若確定所述任意一個(gè)語義段是廣告語義段,則從所述待處理通知信息中刪除所述任意一個(gè)語義段;其中,通過將任意一個(gè)語義段與非廣告模板庫及廣告模板庫進(jìn)行比較,來判斷所述語義段是否為廣告語義段,其中,非廣告模板庫用于存儲(chǔ)非廣告類語義段,廣告模板庫用于存儲(chǔ)廣告類語義段。本發(fā)明實(shí)施例不僅同時(shí)使用廣告模板庫和非廣告模板庫來判斷語義段是否為廣告語義段,不會(huì)將出現(xiàn)頻率較高的非廣告語義段誤判為廣告語義段,因而提高了過濾的準(zhǔn)確性。此外,在上述實(shí)施例中,對(duì)于匹配度的具體確定方式,主要是依據(jù)廣告模板庫及非廣告模板庫中語義段的存儲(chǔ)方式,例如,一種存儲(chǔ)方式為,對(duì)語義段進(jìn)行分詞,存儲(chǔ)語義段對(duì)應(yīng)的分詞特征。舉例來說,假設(shè)一個(gè)目標(biāo)語義段為:如果在本月底消費(fèi)100元,將有機(jī)會(huì)抽取iphone6。則分詞后的分詞特征A為:如果,在,本月,底,消費(fèi),100,元,將有,機(jī)會(huì),抽取,iphone6。假設(shè)廣告模板庫中已有一條語義段,其存儲(chǔ)的分詞特征B為:如果,您,在,本月,30,日,之前,消費(fèi),200,元,有,機(jī)會(huì),抽取,大獎(jiǎng)。那么,確定目標(biāo)語義段與廣告模板庫的第一匹配度的具體方式為:首先需要從A找到“如果”,然后從B中搜索是否有“如果”,如果存在,則表示第一個(gè)有相同的詞語,然后再看“您”在B中是否出現(xiàn),剩下類似,直到A中所有的詞語都判斷完畢,然后將A和B中同時(shí)出現(xiàn)的詞語的數(shù)量/A、B不重復(fù)出現(xiàn)的所有詞語的數(shù)量作為目標(biāo)語義段與廣告模板庫的相似度。上述過程可以實(shí)現(xiàn)確定一個(gè)目標(biāo)語義段與廣告模板庫的相似度,使用相同的方法,也可以確定一個(gè)目標(biāo)語義段與非廣告模板庫的相似度。但以上的處理過程由于只考慮了詞語的絕對(duì)相似性,沒考慮該詞在原來信息段中的位置和重要程度;并且從處理過程來看,該方法中模板庫中存儲(chǔ)的是分詞特征,將會(huì)占據(jù)較大的存儲(chǔ)空間,并且計(jì)算模板相似度的時(shí)間復(fù)雜度也比較高,而且匹配的準(zhǔn)確性卻不高,因而上述方法具有極大的改進(jìn)空間。下面給出一種語義段的轉(zhuǎn)換方法,具體地,通過該方法,可以計(jì)算每個(gè)語義段對(duì)應(yīng)的哈希值。因而基于這種轉(zhuǎn)換方法,在廣告模板庫中,存儲(chǔ)的每個(gè)廣告類語義段都是以哈希值的形式進(jìn)行存儲(chǔ)的,并且在對(duì)某個(gè)語義段與廣告模板庫進(jìn)行匹配時(shí),也是首先將該語義段轉(zhuǎn)換為哈希值,然后與廣告模板庫進(jìn)行匹配。舉例來說,假設(shè)廣告模板中有某個(gè)廣告類語義段為:如果您在本月30日之前消費(fèi)200元,有機(jī)會(huì)抽取大獎(jiǎng),并且該廣告類語義段被轉(zhuǎn)換后,對(duì)應(yīng)的哈希值為:110110011110(假設(shè)每個(gè)語義段是以12位二進(jìn)制數(shù)來表示)。因而,按照上述方法,在廣告類模板庫中存儲(chǔ)的將是每個(gè)廣告類語義段對(duì)應(yīng)的哈希值,而不是廣告類語義段內(nèi)容本身,這種存儲(chǔ)方式,一方面比較節(jié)省空間;另一方面,在對(duì)廣告模板庫進(jìn)行更新時(shí),是將待判斷的目標(biāo)語義段對(duì)應(yīng)的哈希值與廣告模板庫中存儲(chǔ)的哈希值進(jìn)行比較,效率將提高很多。上述只是以廣告模板庫為例進(jìn)行說明,對(duì)于非廣告模板庫,其處理方式與廣告模板庫相同,不再贅述。下面結(jié)合附圖進(jìn)行詳細(xì)說明。參照附圖3,為本發(fā)明實(shí)施例提供的一種語義段的轉(zhuǎn)換方法,包括:步驟301、根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對(duì)應(yīng)的權(quán)重值;步驟302、對(duì)所述語義段進(jìn)行分詞得到多個(gè)詞語,并為所述多個(gè)詞語中的每個(gè)詞語設(shè)置對(duì)應(yīng)的權(quán)重值;步驟303、根據(jù)所述語義段對(duì)應(yīng)的權(quán)重值、所述語義段中的每個(gè)詞語對(duì)應(yīng)的權(quán)重值以及所述語義段中的每個(gè)詞語對(duì)應(yīng)的哈希值,為所述語義段確定對(duì)應(yīng)的哈希值。在本發(fā)明實(shí)施例中,每個(gè)語義段使用一個(gè)包含預(yù)設(shè)位數(shù)的二進(jìn)制數(shù)值來表示,并且對(duì)一個(gè)語義段進(jìn)行分詞后得到的每個(gè)詞語,也使用一個(gè)具有相同預(yù)設(shè)位數(shù)的二進(jìn)制數(shù)值來表示。舉例來說,一個(gè)語義段使用12位的二進(jìn)制數(shù)值來表示,則該語義段中的每個(gè)詞語也使用12位的二進(jìn)制數(shù)值來表示。在上述步驟301中,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對(duì)應(yīng)的權(quán)重值,可選地,具體為:若所述通知信息中包含的語義段的數(shù)量等于1,則將所述語義段對(duì)應(yīng)的權(quán)重設(shè)置為第一預(yù)設(shè)權(quán)重值;例如,如果一個(gè)通知信息中只包含一個(gè)語義段,則將該語義段對(duì)應(yīng)的權(quán)重值統(tǒng)一設(shè)置為1.5,或者是設(shè)置為2等等,具體視實(shí)際情況而定。若所述通知信息中包含的語義段的數(shù)量大于1,則所述語義段對(duì)應(yīng)的權(quán)重值按照所述語義段在所述通知信息中的位置進(jìn)行設(shè)置,其中,距離所述通知信息的首部越遠(yuǎn)的語義段的權(quán)重值越大。例如,將一個(gè)語義段對(duì)應(yīng)的權(quán)重值用W1來說表示。一個(gè)通知信息中包含3個(gè)語義段,則可以依次將第1個(gè)語義段的權(quán)重設(shè)置為0.7,將第2個(gè)語義段的權(quán)重設(shè)置為0.8,將第3個(gè)語義段的權(quán)重設(shè)置為1,因而一般情況下,廣告類語義段一般是出現(xiàn)在一條通知信息中比較靠后的位置,因?yàn)橐粭l通知信息一般是在開始的位置給出正常的信息內(nèi)容,后面才會(huì)是加上廣告信息,因此根據(jù)通知信息的這個(gè)特點(diǎn),本發(fā)明在對(duì)語義段設(shè)置權(quán)重時(shí),如果通知信息中包含多個(gè)語義段,則將靠后位置的語義段的權(quán)重值設(shè)置的要大于靠前位置的語義段的權(quán)重值。上述步驟302中,對(duì)所述語義段進(jìn)行分詞得到多個(gè)詞語,并為所述多個(gè)詞語中的每個(gè)詞語設(shè)置對(duì)應(yīng)的權(quán)重值,可選地,根據(jù)下列方式確定所述語義段中的每個(gè)詞語對(duì)應(yīng)的權(quán)重值:根據(jù)所述詞語的業(yè)務(wù)屬性及所述詞語在所述語義段中的位置,確定所述詞語對(duì)應(yīng)的第一權(quán)重值;根據(jù)所述詞語與廣告屬性詞庫的匹配度,確定所述詞語對(duì)應(yīng)的第二權(quán)重值;根據(jù)確定的所述詞語對(duì)應(yīng)的第一權(quán)重值及對(duì)應(yīng)的第二權(quán)重值,確定詞語對(duì)應(yīng)的權(quán)重值。可選地,對(duì)所述語義段進(jìn)行分詞得到多個(gè)詞語之后,為所述多個(gè)詞語中的每個(gè)詞語設(shè)置對(duì)應(yīng)的權(quán)重值之前,還包括:將所述語義段中的每個(gè)詞語與專有名詞庫進(jìn)行匹配;若確定所述詞語與所述專有名詞庫匹配成功,則根據(jù)所述詞語的屬性,將所述詞語轉(zhuǎn)換為與所述詞語的屬性對(duì)應(yīng)的預(yù)設(shè)名詞。下面舉例說明。例如對(duì)于以下是三條語義段:①當(dāng)月交易滿100元送100積分。②3月30日前訪問www.ddd.com獲得最新打折機(jī)票信息,注冊(cè)就有獎(jiǎng)。③立即回復(fù)hd即可享受充值滿100元送400M流量包優(yōu)惠。分詞結(jié)構(gòu)如下:①當(dāng)月|交易|滿|A|元|送|A|積分|。②D|前|訪問|U|獲得|最新|打折|機(jī)票|信息|,|注冊(cè)|就|有獎(jiǎng)|。③立即回復(fù)|hd|即可|享受|充值|滿|A|元|送|A|M|流量包|優(yōu)惠|。首先,對(duì)待分析語義段進(jìn)行分詞,并且對(duì)于日期、金額、網(wǎng)頁類等專有名詞,都轉(zhuǎn)化成統(tǒng)一的類型詞。例如,將上述①中的100轉(zhuǎn)成了A,②中的日期轉(zhuǎn)成了D,②中的具體url轉(zhuǎn)成了U等等。這樣做的目的是盡可能和廣告模板庫和非廣告模板進(jìn)行匹配,而且可以排除變化特征的影響。例如,經(jīng)過上面處理后,以下2個(gè)模板在對(duì)比中是一模一樣的:①當(dāng)月交易滿100元送100積分。②當(dāng)月交易滿200元送150積分。分詞后將每個(gè)詞語設(shè)定不同的權(quán)重系數(shù),權(quán)重的設(shè)定和該詞在語義段出現(xiàn)的位置和業(yè)務(wù)屬性、該詞與廣告屬性的相關(guān)度相關(guān)。具體地,可以根據(jù)詞語的業(yè)務(wù)屬性及詞語在語義段中的位置,確定詞語對(duì)應(yīng)的第一權(quán)重值W2;例如對(duì)于業(yè)務(wù)相關(guān)詞語,如果出現(xiàn)語義段開頭,那么其表示業(yè)務(wù)含義的可能性較高;如果出現(xiàn)在語義段中后部,那么則更可能為廣告中的附帶信息。因而一個(gè)業(yè)務(wù)類詞語,如果出現(xiàn)在語義段的中后部,則相應(yīng)的權(quán)重W2將會(huì)設(shè)置的要高一些。根據(jù)詞語與廣告屬性詞庫的匹配度,確定詞語對(duì)應(yīng)的第二權(quán)重值W3。W3的含義則表示該字符與廣告屬性的接近程度,例如③中的“立即回復(fù)”一般為廣告中出現(xiàn)的特有特征詞語,所以它的權(quán)重值相對(duì)較高。上述步驟303中,根據(jù)所述語義段對(duì)應(yīng)的權(quán)重值、所述語義段中的每個(gè)詞語對(duì)應(yīng)的權(quán)重值以及所述語義段中的每個(gè)詞語對(duì)應(yīng)的哈希值,為所述語義段確定對(duì)應(yīng)的哈希值??蛇x地,根據(jù)下列方式來確定語義段對(duì)應(yīng)的哈希值:針對(duì)所述語義段中的任意一個(gè)詞語,將所述詞語對(duì)應(yīng)的哈希值中的0替換為-1,得到所述詞語對(duì)應(yīng)的第一目標(biāo)值;根據(jù)所述語義段對(duì)應(yīng)的權(quán)重值、所述詞語對(duì)應(yīng)的權(quán)重值及所述第一目標(biāo)值,得到所述詞語對(duì)應(yīng)的第二目標(biāo)值;將所述語義段中每個(gè)詞語對(duì)應(yīng)的第二目標(biāo)值在對(duì)應(yīng)的位上相加,得到所述語義段對(duì)應(yīng)的目標(biāo)值;針對(duì)所述語義段對(duì)應(yīng)的目標(biāo)值中的任意一位,若所述任意一位對(duì)應(yīng)的數(shù)值大于0,則將所述語義段對(duì)應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為1;若所述任意一位對(duì)應(yīng)的數(shù)值小于或等于0,則將所述語義段對(duì)應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為0。下面結(jié)合具體的例子進(jìn)行說明。以“D|前|訪問|U|獲得|最新|打折|機(jī)票|信息|,|注冊(cè)|就|有獎(jiǎng)|?!睘槔?,假設(shè)該語義段對(duì)應(yīng)的權(quán)重值為W1,每個(gè)詞語對(duì)應(yīng)一個(gè)第一權(quán)重值W2和一個(gè)第二權(quán)重值W3,即每個(gè)詞語對(duì)應(yīng)的W2和W3相互之間是沒有聯(lián)系的。并且,為下面說明方便,假設(shè)每次詞語及一個(gè)語義段用5位來表示,實(shí)際應(yīng)用中一般是大于128位。具體計(jì)算過程如下:(1)、計(jì)算語義段對(duì)應(yīng)的權(quán)重值W1;(2)、計(jì)算每個(gè)詞語的哈希值,例如:“D”計(jì)算的值為10001“前”計(jì)算的值為01100.....“有獎(jiǎng)”計(jì)算的值為00110(3)、將每個(gè)詞語對(duì)應(yīng)的哈希值中的1設(shè)為1,0設(shè)為-1,乘以自己的W1,W2,W3,則有:“D”計(jì)算的值為5-5-5-55(假設(shè)W1*W2*W3=5)“前”計(jì)算的值為-444-4-4(假設(shè)W1*W2*W3=4)……“有獎(jiǎng)”計(jì)算的值為-9-999-9(假設(shè)W1*W2*W3=9)(4)、將該語義段的所有詞語的每位數(shù)值相加,并將>0的結(jié)果設(shè)為1,<=0的結(jié)果設(shè)置為0。假設(shè)該語義段的最終計(jì)算值為89-3-41,則該語義段對(duì)應(yīng)的哈希值為11001。本發(fā)明實(shí)施例,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對(duì)應(yīng)的權(quán)重值;對(duì)所述語義段進(jìn)行分詞得到多個(gè)詞語,并為所述多個(gè)詞語中的每個(gè)詞語設(shè)置對(duì)應(yīng)的權(quán)重值;根據(jù)所述語義段對(duì)應(yīng)的權(quán)重值、所述語義段中的每個(gè)詞語對(duì)應(yīng)的權(quán)重值以及所述語義段中的每個(gè)詞語對(duì)應(yīng)的哈希值,為所述語義段確定對(duì)應(yīng)的哈希值。從而在廣告模板庫中存儲(chǔ)的均為語義段對(duì)應(yīng)的哈希值,比較節(jié)約空間;以及在對(duì)通知信息進(jìn)行廣告過濾時(shí),將通知信息中語義段對(duì)應(yīng)的哈希值與廣告模板庫中的哈希值進(jìn)行比較,效率比較高。下面結(jié)合圖2所示的通知信息的過濾方法和圖3所示的語義段的轉(zhuǎn)換方法,舉例說明本發(fā)明實(shí)施例的通知信息過濾的具體方法:假設(shè)廣告模板庫,其中存儲(chǔ)了廣告語義段的哈希值(每個(gè)哈希值例如使用10位二進(jìn)制數(shù)來表示,當(dāng)然,這里只是為方便舉例說明,實(shí)際應(yīng)用中,一般需要大于128位),例如廣告模板庫當(dāng)前包含5個(gè)哈希值,分別為:1101101110,1010111000,1111100000,1110000001,1100110011。假設(shè)非廣告模板庫,其中存儲(chǔ)了非廣告語義段的哈希值,每個(gè)哈希值也使用10位二進(jìn)制數(shù)來表示,例如非廣告模板庫當(dāng)前包含4個(gè)哈希值,分別為:0000111100,0000011111,0001110011,1000000001。假設(shè)當(dāng)前有一個(gè)待處理通知信息,首先根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將該待處理通知信息劃分為多個(gè)語義段,例如劃分為了2個(gè)語義段,然后根據(jù)上述圖3所示的語義段轉(zhuǎn)換方法,將每個(gè)語義段轉(zhuǎn)換為10位的二進(jìn)制哈希值,例如分別被轉(zhuǎn)換為:1101101111,0000011110。然后針對(duì)這兩個(gè)語義段中的任意一個(gè),通過下列方法判斷是否需要過濾該語義段,例如以1101101111為例進(jìn)行說明:步驟A、將1101101111與非廣告模板庫進(jìn)行比較,確定第三匹配度(其方法與更新模板庫時(shí)確定目標(biāo)語義段與非廣告模板庫的匹配度的方法相同,即確定是否滿足兩個(gè)條件中的一個(gè),若是則確定為高匹配度,否則確定為低匹配度,這里不重復(fù)說明,可參照上面的描述),假設(shè)第五相似閾值為90%,第六相似閾值為80%,則計(jì)算過程具體包括:首先依次確定1101101111與非廣告模板庫中的語義段對(duì)應(yīng)的哈希值之間的相似度(即在相同位上具有形同數(shù)值的個(gè)數(shù)),直至找到一個(gè)相似度大于或等于90%的哈希值或均小于90%為止。通過計(jì)算得到:1101101111與0000111100的相似度為30%,(1101101111與0000111100在3個(gè)位上具有相同的數(shù)值,因此相似度為3/10=30%);1101101111與0000011111的相似度為40%;1101101111與0001110011的相似度為40%;1101101111與1000000001的相似度為40%。由此可知,1101101111與非廣告模板庫不滿足條件一,即1101101111與非廣告模板庫中的任意一個(gè)語義段的相似度大于或等于90%;并且1101101111與非廣告模板庫中的語義段大于80%且小于90%的個(gè)數(shù)為0,假設(shè)條件二下要求預(yù)設(shè)比例為80%,則1101101111與非廣告模板庫不滿足條件二。因此最終,確定1101101111與非廣告模板庫的第三匹配度為低匹配度。步驟B、將1101101111與廣告模板庫進(jìn)行比較,確定第四匹配度(其方法與更新模板庫時(shí)確定目標(biāo)語義段與非廣告模板庫的匹配度的方法相同,即確定是否滿足兩個(gè)條件中的一個(gè),若是則確定為高匹配度,否則確定為低匹配度,這里不重復(fù)說明,可參照上面的描述),假設(shè)第七相似閾值為90%,第八相似閾值為80%,則計(jì)算過程與上述步驟A中計(jì)算1101101111與非廣告模板庫的過程類似,這里不再贅述,最終結(jié)果為:1101101111與1101101110的相似度為90%。由于直接在廣告模板庫中找到了一個(gè)與1101101111的相似度大于或等于90%的語義段對(duì)應(yīng)的哈希值,因此可以直接確定1101101111與廣告模板庫的第四匹配度為高匹配度。步驟C、從待處理通知信息中刪除1101101111對(duì)應(yīng)的語義段。即從待處理通知信息中刪除1101101111對(duì)應(yīng)的語義段。此外,對(duì)于待處理通知信息中的另一個(gè)語義段對(duì)應(yīng)的哈希值0000011110,其由于與非廣告模板庫的第三匹配度為高匹配度,因此不對(duì)其進(jìn)行刪除,而是保留。這里不對(duì)其計(jì)算過程進(jìn)行贅述。下面對(duì)本發(fā)明實(shí)施例提供的一種更新模板庫的方法做詳細(xì)描述,如圖4所示,包括:步驟401、根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集;可選地,根據(jù)通知信息對(duì)應(yīng)的應(yīng)用名稱、時(shí)間,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集;或者根據(jù)通知信息對(duì)應(yīng)的應(yīng)用名稱、渠道,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集;或者根據(jù)通知信息對(duì)應(yīng)的應(yīng)用名稱、渠道、時(shí)間,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集。步驟402、針對(duì)所述至少一個(gè)數(shù)據(jù)集中的任意一個(gè)數(shù)據(jù)集,根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將所述任意一個(gè)數(shù)據(jù)集中的每條通知信息劃分為至少一個(gè)語義段;對(duì)劃分得到的所有語義段在所述任意一個(gè)數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段;可選地,針對(duì)劃分得到的所有語義段中的任意一個(gè)語義段,若所述任意一個(gè)語義段滿足下列條件中的至少一個(gè),則確定所述任意一個(gè)語義段為目標(biāo)語義段,否則,確定所述任意一個(gè)語義段不為目標(biāo)語義段:條件一:所述任意一個(gè)語義段的權(quán)重大于或等于第一閾值,所述任意一個(gè)語義段的權(quán)重為所述任意一個(gè)語義段在所述任意一個(gè)數(shù)據(jù)集中的出現(xiàn)次數(shù)與所述任意一個(gè)數(shù)據(jù)集對(duì)應(yīng)的通知信息的數(shù)量的比值;條件二:所述任意一個(gè)語義段屬于目標(biāo)集合,所述目標(biāo)集合由所述至少一個(gè)數(shù)據(jù)集中出現(xiàn)次數(shù)大于第二閾值的所有語義段中排名靠前預(yù)設(shè)比例的語義段構(gòu)成。步驟403、所述模板庫包括廣告模板庫和非廣告模板庫,所述廣告模板庫用于存儲(chǔ)廣告類語義段,所述非廣告模板庫用于存儲(chǔ)非廣告類語義段;針對(duì)所述目標(biāo)語義段中的任意一個(gè)語義段,將所述任意一個(gè)語義段與所述廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述廣告模板庫的第一匹配度;以及將所述任意一個(gè)語義段與所述非廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述非模板廣告庫的第二匹配度;根據(jù)所述第一匹配度、所述第二匹配度及所述任意一個(gè)語義段,更新所述廣告模板庫或所述非廣告模板庫。可選地,若所述任意一個(gè)語義段與所述廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述廣告模板庫的第一匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述廣告模板庫的第一匹配度確定為低匹配度:條件一:所述任意一個(gè)語義段與所述廣告模板庫中的至少一個(gè)語義段的相似度大于或等于第一相似閾值;條件二:所述任意一個(gè)語義段與所述廣告模板庫中的M個(gè)語義段的相似度小于所述第一相似閾值且大于第二相似閾值,且M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第一比例,M為正整數(shù);可選地,若所述任意一個(gè)語義段與所述非廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述非廣告模板庫的第二匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述非廣告模板庫的第二匹配度確定為低匹配度:條件一:所述任意一個(gè)語義段與所述非廣告模板庫中的任意一個(gè)語義段的相似度大于或等于第三相似閾值;條件二:所述任意一個(gè)語義段與所述非廣告模板庫中的N個(gè)語義段的相似度小于所述第三相似閾值且大于第四相似閾值,且N與所述非廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第二比例,N為正整數(shù)。可選地,若所述第一匹配度為高匹配度且所述第二匹配度為低匹配度,則將所述任意一個(gè)語義段加入所述廣告模板庫;若所述第一匹配度為低匹配度且所述第二匹配度為高匹配度,則將所述任意一個(gè)語義段加入所述非廣告模板庫。本發(fā)明實(shí)施例,首先根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集;針對(duì)所述至少一個(gè)數(shù)據(jù)集中的任意一個(gè)數(shù)據(jù)集,根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將所述任意一個(gè)數(shù)據(jù)集中的每條通知信息劃分為至少一個(gè)語義段;對(duì)劃分得到的所有語義段在所述任意一個(gè)數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段,由此可以看出,本發(fā)明實(shí)施例可以實(shí)現(xiàn)自動(dòng)地從大量的通知信息中找出目標(biāo)語義段,這些目標(biāo)語義段中包含疑似廣告信息,進(jìn)而根據(jù)目標(biāo)語義段,更新模板庫,因而本發(fā)明實(shí)施例在更新模板庫時(shí)可以實(shí)現(xiàn)自動(dòng)化地更新模板庫,提高了模板庫的更新效率。下面對(duì)本發(fā)明實(shí)施例提供的一種語義段的轉(zhuǎn)換方法做詳細(xì)描述,如圖5所示,包括:步驟501、根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對(duì)應(yīng)的權(quán)重值;具體為,若所述通知信息中包含的語義段的數(shù)量等于1,則將所述語義段對(duì)應(yīng)的權(quán)重設(shè)置為第一預(yù)設(shè)權(quán)重值;若所述通知信息中包含的語義段的數(shù)量大于1,則所述語義段對(duì)應(yīng)的權(quán)重值按照所述語義段在所述通知信息中的位置進(jìn)行設(shè)置,其中,距離所述通知信息的首部越遠(yuǎn)的語義段的權(quán)重值越大。步驟502、將所述語義段中的每個(gè)詞語與專有名詞庫進(jìn)行匹配;若確定所述詞語與所述專有名詞庫匹配成功,則根據(jù)所述詞語的屬性,將所述詞語轉(zhuǎn)換為與所述詞語的屬性對(duì)應(yīng)的預(yù)設(shè)名詞;步驟503、確定所述語義段中的每個(gè)詞語對(duì)應(yīng)的權(quán)重值;具體為,根據(jù)下列方式確定所述語義段中的每個(gè)詞語對(duì)應(yīng)的權(quán)重值:根據(jù)所述詞語的業(yè)務(wù)屬性及所述詞語在所述語義段中的位置,確定所述詞語對(duì)應(yīng)的第一權(quán)重值;根據(jù)所述詞語與廣告屬性詞庫的匹配度,確定所述詞語對(duì)應(yīng)的第二權(quán)重值;根據(jù)確定的所述詞語對(duì)應(yīng)的第一權(quán)重值及對(duì)應(yīng)的第二權(quán)重值,確定詞語對(duì)應(yīng)的權(quán)重值。步驟504、根據(jù)所述語義段對(duì)應(yīng)的權(quán)重值、所述語義段中的每個(gè)詞語對(duì)應(yīng)的權(quán)重值以及所述語義段中的每個(gè)詞語對(duì)應(yīng)的哈希值,為所述語義段確定對(duì)應(yīng)的哈希值。具體為,所述每個(gè)語義段中的每個(gè)詞語對(duì)應(yīng)的哈希值為包含預(yù)設(shè)位數(shù)的二進(jìn)制數(shù)值;針對(duì)所述語義段中的任意一個(gè)詞語,將所述詞語對(duì)應(yīng)的哈希值中的0替換為-1,得到所述詞語對(duì)應(yīng)的第一目標(biāo)值;根據(jù)所述語義段對(duì)應(yīng)的權(quán)重值、所述詞語對(duì)應(yīng)的權(quán)重值及所述第一目標(biāo)值,得到所述詞語對(duì)應(yīng)的第二目標(biāo)值;將所述語義段中每個(gè)詞語對(duì)應(yīng)的第二目標(biāo)值在對(duì)應(yīng)的位上相加,得到所述語義段對(duì)應(yīng)的目標(biāo)值;針對(duì)所述語義段對(duì)應(yīng)的目標(biāo)值中的任意一位,若所述任意一位對(duì)應(yīng)的數(shù)值大于0,則將所述語義段對(duì)應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為1;若所述任意一位對(duì)應(yīng)的數(shù)值小于或等于0,則將所述語義段對(duì)應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為0。本發(fā)明實(shí)施例,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對(duì)應(yīng)的權(quán)重值;對(duì)所述語義段進(jìn)行分詞得到多個(gè)詞語,并為所述多個(gè)詞語中的每個(gè)詞語設(shè)置對(duì)應(yīng)的權(quán)重值;根據(jù)所述語義段對(duì)應(yīng)的權(quán)重值、所述語義段中的每個(gè)詞語對(duì)應(yīng)的權(quán)重值以及所述語義段中的每個(gè)詞語對(duì)應(yīng)的哈希值,為所述語義段確定對(duì)應(yīng)的哈希值。從而在廣告模板庫中存儲(chǔ)的均為語義段對(duì)應(yīng)的哈希值,比較節(jié)約空間;以及在對(duì)通知信息進(jìn)行廣告過濾時(shí),將通知信息中語義段對(duì)應(yīng)的哈希值與廣告模板庫中的哈希值進(jìn)行比較,效率比較高?;谙嗤募夹g(shù)構(gòu)思,本發(fā)明實(shí)施例還提供一種更新模板庫的裝置,如圖6所示,包括:數(shù)據(jù)集劃分單元601,用于根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集;目標(biāo)語義段選取單元602,用于針對(duì)所述至少一個(gè)數(shù)據(jù)集中的任意一個(gè)數(shù)據(jù)集,根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將所述任意一個(gè)數(shù)據(jù)集中的每條通知信息劃分為至少一個(gè)語義段;對(duì)劃分得到的所有語義段在所述任意一個(gè)數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段;更新單元603,用于根據(jù)所述目標(biāo)語義段,更新模板庫,所述模板庫用于存儲(chǔ)滿足預(yù)設(shè)條件的語義段。可選地,所述數(shù)據(jù)集劃分單元601,具體用于:根據(jù)通知信息對(duì)應(yīng)的應(yīng)用名稱、時(shí)間,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集;或者根據(jù)通知信息對(duì)應(yīng)的應(yīng)用名稱、渠道,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集;或者根據(jù)通知信息對(duì)應(yīng)的應(yīng)用名稱、渠道、時(shí)間,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集??蛇x地,所述目標(biāo)語義段選取單元602,具體用于:針對(duì)劃分得到的所有語義段中的任意一個(gè)語義段,若所述任意一個(gè)語義段滿足下列條件中的至少一個(gè),則確定所述任意一個(gè)語義段為目標(biāo)語義段,否則,確定所述任意一個(gè)語義段不為目標(biāo)語義段:條件一:所述任意一個(gè)語義段的權(quán)重大于或等于第一閾值,所述任意一個(gè)語義段的權(quán)重為所述任意一個(gè)語義段在所述任意一個(gè)數(shù)據(jù)集中的出現(xiàn)次數(shù)與所述任意一個(gè)數(shù)據(jù)集對(duì)應(yīng)的通知信息的數(shù)量的比值;條件二:所述任意一個(gè)語義段屬于目標(biāo)集合,所述目標(biāo)集合由所述至少一個(gè)數(shù)據(jù)集中出現(xiàn)次數(shù)大于第二閾值的所有語義段中排名靠前預(yù)設(shè)比例的語義段構(gòu)成??蛇x地,所述模板庫包括廣告模板庫和非廣告模板庫,所述廣告模板庫用于存儲(chǔ)廣告類語義段,所述非廣告模板庫用于存儲(chǔ)非廣告類語義段;所述更新單元603,具體用于:針對(duì)所述目標(biāo)語義段中的任意一個(gè)語義段,將所述任意一個(gè)語義段與所述廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述廣告模板庫的第一匹配度;以及將所述任意一個(gè)語義段與所述非廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述非模板廣告庫的第二匹配度;根據(jù)所述第一匹配度、所述第二匹配度及所述任意一個(gè)語義段,更新所述廣告模板庫或所述非廣告模板庫。可選地,所述更新單元603,具體用于:若所述任意一個(gè)語義段與所述廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述廣告模板庫的第一匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述廣告模板庫的第一匹配度確定為低匹配度:條件一:所述任意一個(gè)語義段與所述廣告模板庫中的至少一個(gè)語義段的相似度大于或等于第一相似閾值;條件二:所述任意一個(gè)語義段與所述廣告模板庫中的M個(gè)語義段的相似度小于所述第一相似閾值且大于第二相似閾值,且M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第一比例;將所述任意一個(gè)語義段與非廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述非模板廣告庫的第二匹配度,包括:若所述任意一個(gè)語義段與所述非廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述非廣告模板庫的第二匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述非廣告模板庫的第二匹配度確定為低匹配度:條件一:所述任意一個(gè)語義段與所述非廣告模板庫中的任意一個(gè)語義段的相似度大于或等于第三相似閾值;條件二:所述任意一個(gè)語義段與所述非廣告模板庫中的N個(gè)語義段的相似度小于所述第三相似閾值且大于第四相似閾值,且N與所述非廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第二比例??蛇x地,所述更新單元603,具體用于:若所述第一匹配度為高匹配度且所述第二匹配度為低匹配度,則將所述任意一個(gè)語義段加入所述廣告模板庫;若所述第一匹配度為低匹配度且所述第二匹配度為高匹配度,則將所述任意一個(gè)語義段加入所述非廣告模板庫??蛇x地,所述預(yù)設(shè)的劃分標(biāo)識(shí)符為句號(hào)、問號(hào)以及感嘆號(hào)。本發(fā)明實(shí)施例,首先根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個(gè)數(shù)據(jù)集;針對(duì)所述至少一個(gè)數(shù)據(jù)集中的任意一個(gè)數(shù)據(jù)集,根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將所述任意一個(gè)數(shù)據(jù)集中的每條通知信息劃分為至少一個(gè)語義段;對(duì)劃分得到的所有語義段在所述任意一個(gè)數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段,由此可以看出,本發(fā)明實(shí)施例可以實(shí)現(xiàn)自動(dòng)地從大量的通知信息中找出目標(biāo)語義段,這些目標(biāo)語義段中包含疑似廣告信息,進(jìn)而根據(jù)目標(biāo)語義段,更新模板庫,因而本發(fā)明實(shí)施例在更新模板庫時(shí)可以實(shí)現(xiàn)自動(dòng)化地更新模板庫,提高了模板庫的更新效率?;谙嗤募夹g(shù)構(gòu)思,本發(fā)明實(shí)施例還提供一種通知信息的過濾裝置,如圖7所示,包括:語義段劃分單元701,用于根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將待處理通知信息劃分為至少一個(gè)語義段;過濾單元702,用于針對(duì)所述至少一個(gè)語義段中的任意一個(gè)語義段,若確定所述任意一個(gè)語義段是廣告語義段,則從所述待處理通知信息中刪除所述任意一個(gè)語義段;廣告語義段確定單元703,用于通過下述過程確定所述任意一個(gè)語義段是否為廣告語義段:將所述任意一個(gè)語義段與非廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述非廣告模板庫的匹配度,所述非廣告模板庫用于存儲(chǔ)非廣告類語義段;若所述任意一個(gè)語義段與所述非廣告模板庫的匹配度為高匹配度,則確定所述任意一個(gè)語義段為非廣告語義段;若所述任意一個(gè)語義段與所述非廣告模板庫的匹配度為低匹配度,則將所述任意一個(gè)語義段與廣告模板庫進(jìn)行比較,確定所述任意一個(gè)語義段與所述廣告模板庫的匹配度,所述廣告模板庫用于存儲(chǔ)廣告類語義段;若所述任意一個(gè)語義段與所述廣告模板庫的匹配度為高匹配度,則確定所述任意一個(gè)語義段為廣告語義段,否則,確定所述任意一個(gè)語義段為非廣告語義段??蛇x地,所述廣告語義段確定單元703,具體用于:若所述任意一個(gè)語義段與所述廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述廣告模板庫的匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述廣告模板庫的匹配度確定為低匹配度:條件一:所述任意一個(gè)語義段與所述廣告模板庫中的至少一個(gè)語義段的相似度大于或等于第一相似閾值;條件二:所述任意一個(gè)語義段與所述廣告模板庫中的M個(gè)語義段的相似度小于所述第一相似閾值且大于第二相似閾值,且M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第一比例,M為正整數(shù);可選地,所述廣告語義段確定單元703,具體用于:若所述任意一個(gè)語義段與所述非廣告模板庫滿足下列條件中的至少一個(gè),則將所述任意一個(gè)語義段與所述非廣告模板庫的匹配度確定為高匹配度,否則,將所述任意一個(gè)語義段與所述非廣告模板庫的匹配度確定為低匹配度:條件一:所述任意一個(gè)語義段與所述非廣告模板庫中的任意一個(gè)語義段的相似度大于或等于第三相似閾值;條件二:所述任意一個(gè)語義段與所述非廣告模板庫中的N個(gè)語義段的相似度小于所述第三相似閾值且大于第四相似閾值,且N與所述非廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第二比例,N為正整數(shù)??蛇x地,所述裝置還包括更新單元704,用于:若所述任意一個(gè)語義段與所述非廣告模板庫的匹配度為高匹配度,且所述任意一個(gè)語義段與所述非廣告模板庫的匹配度不等于100%,則根據(jù)所述任意一個(gè)語義段更新所述非廣告模板庫;若所述任意一個(gè)語義段與所述廣告模板庫的匹配度為高匹配度,且所述任意一個(gè)語義段與所述廣告模板庫的匹配度不等于100%,則根據(jù)所述任意一個(gè)語義段更新所述廣告模板庫??蛇x地,所述預(yù)設(shè)的劃分標(biāo)識(shí)符為句號(hào)、問號(hào)以及感嘆號(hào)。本發(fā)明實(shí)施例,根據(jù)預(yù)設(shè)的劃分標(biāo)識(shí)符,將待處理通知信息劃分為至少一個(gè)語義段;針對(duì)所述至少一個(gè)語義段中的任意一個(gè)語義段,若確定所述任意一個(gè)語義段是廣告語義段,則從所述待處理通知信息中刪除所述任意一個(gè)語義段;其中,通過將任意一個(gè)語義段與非廣告模板庫及廣告模板庫進(jìn)行比較,來判斷所述語義段是否為廣告語義段,其中,非廣告模板庫用于存儲(chǔ)非廣告類語義段,廣告模板庫用于存儲(chǔ)廣告類語義段。本發(fā)明實(shí)施例不僅同時(shí)使用廣告模板庫和非廣告模板庫來判斷語義段是否為廣告語義段,不會(huì)將出現(xiàn)頻率較高的非廣告語義段誤判為廣告語義段,因而提高了過濾的準(zhǔn)確性。基于相同的技術(shù)構(gòu)思,本發(fā)明實(shí)施例還提供一種語義段的轉(zhuǎn)換裝置,如圖8所示,包括:語義段權(quán)重值確定單元801,用于根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對(duì)應(yīng)的權(quán)重值;詞語權(quán)重值確定單元802,用于對(duì)所述語義段進(jìn)行分詞得到多個(gè)詞語,并為所述多個(gè)詞語中的每個(gè)詞語設(shè)置對(duì)應(yīng)的權(quán)重值;哈希值確定單元803,用于根據(jù)所述語義段對(duì)應(yīng)的權(quán)重值、所述語義段中的每個(gè)詞語對(duì)應(yīng)的權(quán)重值以及所述語義段中的每個(gè)詞語對(duì)應(yīng)的哈希值,為所述語義段確定對(duì)應(yīng)的哈希值??蛇x地,所述每個(gè)語義段中的每個(gè)詞語對(duì)應(yīng)的哈希值為包含預(yù)設(shè)位數(shù)的二進(jìn)制數(shù)值;所述哈希值確定單元803,具體用于:針對(duì)所述語義段中的任意一個(gè)詞語,將所述詞語對(duì)應(yīng)的哈希值中的0替換為-1,得到所述詞語對(duì)應(yīng)的第一目標(biāo)值;根據(jù)所述語義段對(duì)應(yīng)的權(quán)重值、所述詞語對(duì)應(yīng)的權(quán)重值及所述第一目標(biāo)值,得到所述詞語對(duì)應(yīng)的第二目標(biāo)值;將所述語義段中每個(gè)詞語對(duì)應(yīng)的第二目標(biāo)值在對(duì)應(yīng)的位上相加,得到所述語義段對(duì)應(yīng)的目標(biāo)值;針對(duì)所述語義段對(duì)應(yīng)的目標(biāo)值中的任意一位,若所述任意一位對(duì)應(yīng)的數(shù)值大于0,則將所述語義段對(duì)應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為1;若所述任意一位對(duì)應(yīng)的數(shù)值小于或等于0,則將所述語義段對(duì)應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為0。可選地,所述語義段權(quán)重值確定裝置801,具體用于:若所述通知信息中包含的語義段的數(shù)量等于1,則將所述語義段對(duì)應(yīng)的權(quán)重設(shè)置為第一預(yù)設(shè)權(quán)重值;若所述通知信息中包含的語義段的數(shù)量大于1,則所述語義段對(duì)應(yīng)的權(quán)重值按照所述語義段在所述通知信息中的位置進(jìn)行設(shè)置,其中,距離所述通知信息的首部越遠(yuǎn)的語義段的權(quán)重值越大??蛇x地,所述詞語權(quán)重值確定單元802,具體用于根據(jù)下列方式確定所述語義段中的每個(gè)詞語對(duì)應(yīng)的權(quán)重值:根據(jù)所述詞語的業(yè)務(wù)屬性及所述詞語在所述語義段中的位置,確定所述詞語對(duì)應(yīng)的第一權(quán)重值;根據(jù)所述詞語與廣告屬性詞庫的匹配度,確定所述詞語對(duì)應(yīng)的第二權(quán)重值;根據(jù)確定的所述詞語對(duì)應(yīng)的第一權(quán)重值及對(duì)應(yīng)的第二權(quán)重值,確定詞語對(duì)應(yīng)的權(quán)重值。可選地,所述詞語權(quán)重值確定單元802,還用于:對(duì)所述語義段進(jìn)行分詞得到多個(gè)詞語之后,為所述多個(gè)詞語中的每個(gè)詞語設(shè)置對(duì)應(yīng)的權(quán)重值之前,將所述語義段中的每個(gè)詞語與專有名詞庫進(jìn)行匹配;若確定所述詞語與所述專有名詞庫匹配成功,則根據(jù)所述詞語的屬性,將所述詞語轉(zhuǎn)換為與所述詞語的屬性對(duì)應(yīng)的預(yù)設(shè)名詞。本發(fā)明實(shí)施例,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對(duì)應(yīng)的權(quán)重值;對(duì)所述語義段進(jìn)行分詞得到多個(gè)詞語,并為所述多個(gè)詞語中的每個(gè)詞語設(shè)置對(duì)應(yīng)的權(quán)重值;根據(jù)所述語義段對(duì)應(yīng)的權(quán)重值、所述語義段中的每個(gè)詞語對(duì)應(yīng)的權(quán)重值以及所述語義段中的每個(gè)詞語對(duì)應(yīng)的哈希值,為所述語義段確定對(duì)應(yīng)的哈希值。從而在廣告模板庫中存儲(chǔ)的均為語義段對(duì)應(yīng)的哈希值,比較節(jié)約空間;以及在對(duì)通知信息進(jìn)行廣告過濾時(shí),將通知信息中語義段對(duì)應(yīng)的哈希值與廣告模板庫中的哈希值進(jìn)行比較,效率比較高。本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1