一種即時(shí)通信中識(shí)別廣告消息的裝置和方法
【專利摘要】本發(fā)明公開了一種即時(shí)通信中識(shí)別廣告消息的裝置和方法,其中該方法包括:檢測(cè)即時(shí)通信客戶端發(fā)送的即時(shí)消息中的文本字段;提取所述文本字段中包含的一個(gè)或多個(gè)特征向量;根據(jù)所述特征向量,識(shí)別與廣告消息匹配的即時(shí)消息。使用本發(fā)明的裝置和方法,可以通過檢測(cè)即時(shí)通信客戶端發(fā)送的即時(shí)消息中的文本字段,提取所述文本字段中包含的一個(gè)或多個(gè)特征向量,并根據(jù)特征向量識(shí)別與廣告消息匹配的即時(shí)消息。能夠有效地識(shí)別即時(shí)通信中的廣告并能夠進(jìn)行相應(yīng)的屏蔽或禁言管理。
【專利說明】一種即時(shí)通信中識(shí)別廣告消息的裝置和方法【技術(shù)領(lǐng)域】[0001]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域,具體涉及一種即時(shí)通信中識(shí)別廣告消息的裝置和方法?!颈尘凹夹g(shù)】[0002]隨著互聯(lián)網(wǎng)的發(fā)展,各種網(wǎng)絡(luò)應(yīng)用,尤其是即時(shí)通信工具,成為人們獲取信息、交 流信息的重要渠道。然而在即時(shí)通信的即時(shí)消息中,存在相當(dāng)量的廣告內(nèi)容,給用戶帶來了 諸多不便,同時(shí)也降低了即時(shí)通信的質(zhì)量。
【發(fā)明內(nèi)容】
[0003]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的一種即時(shí)通信中識(shí)別廣告消息的裝置和相應(yīng)的一種即時(shí)通信中識(shí)別廣告消息的 方法。[0004]依據(jù)本發(fā)明的一個(gè)方面,提供了一種即時(shí)通信中識(shí)別廣告消息的裝置,包括:文本 獲取單元,適于檢測(cè)即時(shí)通信客戶端發(fā)送的即時(shí)消息中的文本字段;特征向量提取單元,適 于提取所述文本字段中包含的一個(gè)或多個(gè)特征向量;識(shí)別單元,適于根據(jù)所述特征向量,識(shí) 別與廣告消息匹配的即時(shí)消息。[0005]可選地,該裝置還包括:屏蔽單元,適于在識(shí)別單元識(shí)別出與廣告消息匹配的即時(shí) 消息時(shí),對(duì)與廣告消息匹配的即時(shí)消息進(jìn)行屏蔽處理。[0006]可選地,該裝置還包括:管理單元,適于在識(shí)別單元識(shí)別出與廣告消息匹配的即時(shí) 消息時(shí),標(biāo)識(shí)所述與廣告消息匹配的即時(shí)消息及發(fā)送所述與廣告消息匹配的即時(shí)消息的客 戶端,并在預(yù)定時(shí)間內(nèi)不轉(zhuǎn)發(fā)由該客戶端所發(fā)送的即時(shí)消息。[0007]可選地,所述識(shí)別單元,適于根據(jù)所述特征向量判斷即時(shí)消息是否與廣告特征數(shù) 據(jù)庫(kù)中的記錄匹配。[0008]可選地,所述識(shí)別單元,適于對(duì)所述特征向量中的每個(gè)特征,檢測(cè)廣告特征數(shù)據(jù)庫(kù) 中是否多次出現(xiàn)該特征;所述識(shí)別單元,適于判斷所述特征向量中的在廣告特征數(shù)據(jù)庫(kù)中 多次出現(xiàn)的特征占該特征向量的全部特征的比例是否達(dá)到第一閾值,是則確定所述即時(shí)消 息與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配,否則不匹配。[0009]可選地,所述識(shí)別單元,適于對(duì)所述特征向量中的每個(gè)特征,從廣告特征數(shù)據(jù)庫(kù)中 查找是否存在該特征,如果存在,則進(jìn)一步查看該特征的權(quán)值,如果該特征的權(quán)值大于或等 于第二閾值,則廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)該特征。[0010]可選地,該裝置進(jìn)一步包括廣告特征數(shù)據(jù)庫(kù)更新單元,所述廣告特征數(shù)據(jù)庫(kù)更新 單元,適于在確定所述即時(shí)消息與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配時(shí),對(duì)于所述特征向量中 的每個(gè)特征,如果檢測(cè)到廣告特征數(shù)據(jù)庫(kù)中存在該特征,則將廣告特征數(shù)據(jù)庫(kù)中該特征的 權(quán)值加I。[0011]可選地,所述識(shí)別單元,適于在對(duì)于所述特征向量中的每個(gè)特征,檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否存在該特征之前,判斷所述特征向量中的特征的數(shù)目是否小于第三閾值,是則 所述即時(shí)消息與廣告特征數(shù)據(jù)庫(kù)中的記錄不匹配并結(jié)束判斷操作,否則對(duì)于所述特征向量 中的每個(gè)特征,檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征。[0012]可選地,所述特征向量提取單元包括:中文文本獲取子單元,適于對(duì)文本字段進(jìn)行 文本處理以獲取中文文本;拼音文本獲取子單元,適于將獲取的中文文本中的漢字轉(zhuǎn)為拼 音得到拼音文本;指紋獲取子單元,適于提取所述拼音文本的特征,將提取的特征形成所述 拼音文本的特征向量。[0013]可選地,所述中文文本獲取子單元,適于對(duì)文本字段進(jìn)行數(shù)據(jù)清洗操作,將文本字 段中的內(nèi)容轉(zhuǎn)換為規(guī)則字符;將拼音轉(zhuǎn)化為漢字;以及將保留常用的漢字。[0014]可選地,所述中文文本獲取子單元,適于識(shí)別并丟棄HTML標(biāo)記,將繁體字轉(zhuǎn)換為 簡(jiǎn)體字,將全角字符轉(zhuǎn)換為半角字符,將大寫英文字母轉(zhuǎn)換為小寫英文字母,以及識(shí)別并丟 棄url和標(biāo)點(diǎn)符號(hào),以將文本字段中的內(nèi)容轉(zhuǎn)換為規(guī)則字符;所述中文文本獲取子單元,適 于使用雙向最大匹配算法將文本中的拼音轉(zhuǎn)換為漢字,如果一個(gè)拼音對(duì)應(yīng)多個(gè)漢字,則從 對(duì)應(yīng)的多個(gè)漢字中任選一個(gè),以將文本中的拼音轉(zhuǎn)化為漢字;所述中文文本獲取子單元,適 于使用GBK編碼表中的常用漢字對(duì)文本字段進(jìn)行過濾,丟棄所有不屬于常用漢字的字符, 以保留常用的漢字。[0015]可選地,所述拼音文本獲取子單元,適于使用拼音漢字對(duì)照表,將每個(gè)漢字轉(zhuǎn)換為 對(duì)應(yīng)的拼音串,以得到拼音文本。[0016]可選地,所述指紋獲取子單元,適于以單個(gè)漢字為切分粒度提取所述拼音文本的 特征,并使用向量空間模型將提取的特征形成所述拼音文本的特征向量。[0017]依據(jù)本發(fā)明的另一個(gè)方面,提供了一種即時(shí)通信中識(shí)別廣告消息的方法,包括:檢 測(cè)即時(shí)通信客戶端發(fā)送的即時(shí)消息中的文本字段;提取所述文本字段中包含的一個(gè)或多個(gè) 特征向量;根據(jù)所述特征向量,識(shí)別與廣告消息匹配的即時(shí)消息。[0018]可選地,該方法還包括:當(dāng)識(shí)別出與廣告消息匹配的即時(shí)消息時(shí),對(duì)與廣告消息匹 配的即時(shí)消息進(jìn)行屏蔽處理。[0019]可選地,當(dāng)識(shí)別出與廣告消息匹配的即時(shí)消息時(shí),標(biāo)識(shí)所述與廣告消息匹配的即 時(shí)消息及發(fā)送所述與廣告消息匹配的即時(shí)消息的客戶端,并在預(yù)定時(shí)間內(nèi)不轉(zhuǎn)發(fā)由該客戶 端所發(fā)送的即時(shí)消息。[0020]可選地,根據(jù)所述特征向量,識(shí)別與廣告消息匹配的即時(shí)消息,具體包括:根據(jù)所 述特征向量判斷即時(shí)消息是否與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配。[0021]可選地,所述根據(jù)所述特征向量判斷即時(shí)消息是否與廣告特征數(shù)據(jù)庫(kù)中的記錄匹 配,具體包括:對(duì)所述特征向量中的每個(gè)特征,檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特 征;判斷所述特征向量中的在廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)的特征占該特征向量的全部特征 的比例是否達(dá)到第一閾值,是則確定所述即時(shí)消息與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配,否則 不匹配。[0022]可選地,所述檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征包括:從廣告特征數(shù)據(jù) 庫(kù)中查找是否存在該特征,如果存在,則進(jìn)一步查看該特征的權(quán)值,如果該特征的權(quán)值大于 或等于第二閾值,則廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)該特征。[0023]可選地,在確定所述即時(shí)消息與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配時(shí),該方法進(jìn)一步包括:對(duì)于所述特征向量中的每個(gè)特征,如果檢測(cè)到廣告特征數(shù)據(jù)庫(kù)中存在該特征,則該將 廣告特征數(shù)據(jù)庫(kù)中該特征的權(quán)值加I。[0024]可選地,在對(duì)于所述特征向量中的每個(gè)特征,檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否存在該 特征之前,所述判斷即時(shí)消息是否與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配進(jìn)一步包括:判斷所述 特征向量中的特征的數(shù)目是否小于第三閾值,是則所述即時(shí)消息與廣告特征數(shù)據(jù)庫(kù)中的記 錄不匹配并結(jié)束判斷操作,否則對(duì)于所述特征向量中的每個(gè)特征,檢測(cè)廣告特征數(shù)據(jù)庫(kù)中 是否多次出現(xiàn)該特征。[0025]可選地,所述提取所述文本字段中包含的一個(gè)或多個(gè)特征向量,具體包括:對(duì)文本 字段進(jìn)行文本處理以獲取中文文本;將獲取的中文文本中的漢字轉(zhuǎn)為拼音得到拼音文本; 提取所述拼音文本的特征,將提取的特征形成所述拼音文本的特征向量。[0026]可選地,所述對(duì)文本字段進(jìn)行文本處理以獲取中文文本,具體包括:對(duì)文本字段進(jìn) 行數(shù)據(jù)清洗操作,將文本字段中的內(nèi)容轉(zhuǎn)換為規(guī)則字符;將拼音轉(zhuǎn)化為漢字;保留常用的 漢字。[0027]可選地,所述對(duì)文本字段進(jìn)行數(shù)據(jù)清洗操作,具體包括:識(shí)別并丟棄HTML標(biāo)記,將 繁體字轉(zhuǎn)換為簡(jiǎn)體字,將全角字符轉(zhuǎn)換為半角字符,將大寫英文字母轉(zhuǎn)換為小寫英文字母, 以及識(shí)別并丟棄url和標(biāo)點(diǎn)符號(hào);所述將文本中的拼音轉(zhuǎn)化為漢字,具體包括:使用雙向最 大匹配算法將文本中的拼音轉(zhuǎn)換為漢字,如果一個(gè)拼音對(duì)應(yīng)多個(gè)漢字,則從對(duì)應(yīng)的多個(gè)漢 字中任選一個(gè);所述保留常用的漢字,具體包括:使用GBK編碼表中的常用漢字對(duì)文本字段 進(jìn)行過濾,丟棄所有不屬于常用漢字的字符。[0028]可選地,所述將獲取的中文文本中的漢字轉(zhuǎn)為拼音得到拼音文本,具體包括:使用 拼音漢字對(duì)照表,將每個(gè)漢字轉(zhuǎn)換為對(duì)應(yīng)的拼音串,得到拼音文本。[0029]可選地,所述提取所述拼音文本的特征,將提取的特征形成所述拼音文本的特征 向量,具體包括:以單個(gè)漢字為切分粒度提取所述拼音文本的特征,并使用向量空間模型將 提取的特征形成所述拼音文本的特征向量。[0030]根據(jù)本發(fā)明的即時(shí)通信中識(shí)別廣告消息的裝置和方法,可以通過檢測(cè)即時(shí)通信客 戶端發(fā)送的即時(shí)消息中的文本字段,提取所述文本字段中包含的一個(gè)或多個(gè)特征向量,并 根據(jù)特征向量識(shí)別與廣告消息匹配的即時(shí)消息。能夠有效地識(shí)別即時(shí)通信中的廣告并能夠 進(jìn)行相應(yīng)的屏蔽或禁言管理。[0031]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】?!緦@綀D】
【附圖說明】[0032]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:[0033]圖1示出了根據(jù)本發(fā)明第一實(shí)施例的即時(shí)通信中識(shí)別廣告消息的方法的流程圖;[0034]圖2示出了提取文本字段中包含的一個(gè)或多個(gè)特征向量的詳細(xì)的流程圖;[0035]圖3示出了如圖2所示的步驟S210、步驟S220和步驟S230的詳細(xì)的流程圖;[0036]圖4示出了如圖1所示的步驟S300的詳細(xì)的流程圖;[0037]圖5示出了根據(jù)本發(fā)明第二實(shí)施例的即時(shí)通信中識(shí)別廣告消息的方法的流程圖;[0038]圖6示出了根據(jù)本發(fā)明第一實(shí)施例的即時(shí)通信中識(shí)別廣告消息的裝置的框圖;[0039]圖7示出了根據(jù)本發(fā)明第一實(shí)施例的即時(shí)通信中識(shí)別廣告消息的裝置的詳細(xì)的 框圖;以及[0040]圖8示出了根據(jù)本發(fā)明第二實(shí)施例的即時(shí)通信中識(shí)別廣告消息的裝置的詳細(xì)的 框圖?!揪唧w實(shí)施方式】[0041]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。[0042]圖1示出了根據(jù)本發(fā)明第一實(shí)施例的即時(shí)通信中識(shí)別廣告消息的方法的流程圖。 該方法包括以下的步驟S100、S200和S300。[0043]S100、檢測(cè)即時(shí)通信客戶端發(fā)送的即時(shí)消息中的文本字段。[0044]本實(shí)施例中,可以從即時(shí)消息中濾除非文本的內(nèi)容(例如圖片、視頻等),篩選得到 文本字段。[0045]S200、提取所述文本字段中包含的一個(gè)或多個(gè)特征向量。本實(shí)施例中,可以通過 檢測(cè)斷句符號(hào),將文本字段切分為多段文本,進(jìn)而得到多個(gè)特征向量;也可以不切分文本字 段,進(jìn)而得到一個(gè)特征向量。[0046]S300、根據(jù)所述特征向量,識(shí)別與廣告消息匹配的即時(shí)消息。[0047]本實(shí)施例中,對(duì)特征向量中的每一個(gè)特征,會(huì)檢測(cè)在一個(gè)預(yù)設(shè)的廣告特征數(shù)據(jù)庫(kù) 中是否多次出現(xiàn)該特征。檢測(cè)了特征向量中的所有特征之后,判斷特征向量中的在廣告 特征數(shù)據(jù)庫(kù)中多次出現(xiàn)的特征占特征向量的全部特征的比例,從而判斷即時(shí)消息與廣告特 征數(shù)據(jù)庫(kù)中的記錄是否匹配。本實(shí)施例中預(yù)設(shè)的廣告特征數(shù)據(jù)庫(kù)使用Redis廣告特征數(shù) 據(jù)庫(kù),可以是通過對(duì)海量的網(wǎng)絡(luò)廣告文本(例如抓取收集的網(wǎng)絡(luò)廣告等垃圾信息)進(jìn)行分 析得到海量的特征,并統(tǒng)計(jì)得到的各個(gè)特征的數(shù)目而得到權(quán)值,令特征(Shingle)和權(quán)值 (Value)構(gòu)成廣告特征數(shù)據(jù)庫(kù)。[0048]本發(fā)明的步驟S200和步驟S300,通過與廣告特征數(shù)據(jù)庫(kù)中的記錄進(jìn)行相似文本 監(jiān)測(cè)而識(shí)別即時(shí)消息中的廣告。不同于本發(fā)明步驟S200和步驟S300的一種相似文本檢測(cè) 方法為:首先提取文本的特征(例如對(duì)文本進(jìn)行分詞,提取實(shí)體詞)并使用各種技術(shù)對(duì)特征 進(jìn)行擴(kuò)展(例如使用同義詞詞林,近義詞詞典等知識(shí)庫(kù)進(jìn)行詞匯擴(kuò)展),并使用VSM模型來描 述文本(例如使用VSM模型將一篇文本表示為一個(gè)向量),然后使用聚類方法對(duì)文本進(jìn)行聚 類(例如對(duì)于兩篇文本,經(jīng)過向量化表示后,計(jì)算兩個(gè)向量的余弦夾角用于表征兩篇文本的 相似性,如果相似度大于一定閾值,則認(rèn)為兩篇文本是相似的),被聚到一起的文本是相似 的。[0049]然而,在網(wǎng)絡(luò)應(yīng)用中,存在著大量的相似文本的變種,如使用繁體字、適用拼音代 替文字、用同音字代替原字、加入大量無意義的干擾字符,等等,上述技術(shù)存在以下缺點(diǎn):(一)分詞結(jié)果存在誤差;(二)同音不同字的文本無法判斷為相似;(三)無法將經(jīng)過拼音化處理的兩篇文本識(shí)別為相似文本;(四)對(duì)文本的計(jì)算復(fù)雜度太高(例如,將文本表示為向量,需要較大的運(yùn)算量)。因此,這種方法無法滿足當(dāng)前大數(shù)據(jù)量情況下的運(yùn)算實(shí)時(shí)性要求。
[0050]圖2示出了提取文本字段中包含的一個(gè)或多個(gè)特征向量的詳細(xì)的流程圖。該方法包括以下的步驟S210、S220和S230。[0051 ] S210、對(duì)文本字段進(jìn)行文本處理以獲取中文文本。[0052]通過由文本字段獲取中文文本,可以消除包括有無意義的干擾字符、繁體字等相似文本的變種對(duì)本實(shí)施例的影響。[0053]S220、將獲取的中文文本中的漢字轉(zhuǎn)為拼音得到拼音文本。[0054]通過將中文文本中的漢字統(tǒng)一轉(zhuǎn)化為拼音,可以消除用拼音代替文字、用同音字代替原字等相似文本的變種對(duì)本實(shí)施例的識(shí)別效果的影響。[0055]S230、提取所述拼音文本的特征,將提取的特征形成所述拼音文本的特征向量。[0056]本實(shí)施例中,可以采用N元語言模型(N-gram)提起拼音文本的特征向量,基于步驟S210獲取的中文文本中的漢字粒度,對(duì)步驟S220獲取的拼音文本提取N-gram特征 SHINGLE^ SHINGLe2,…SHINGLEm。例如,如果步驟S210獲取的中文文本為“我愛北京天安門”,漢字粒度為“我”、“愛”、“北”、“京”、“天”,“安”,“門”,步驟S220獲取的拼音文本為 “wo ai bei jing tian an 111611”,那么拼音串被切分為“¥0”、“&;[”、‘<^6;[”、“」;[1^”、“1:1&11”、 “an”、“men”,如果令 N=6 則步驟 S230 中,獲取的 N-gram 特征 SHINGLei 為“wo ai bei jing tian an”、SHINGLe2 為“ai bei jing tian an men”,依次類推。并使用向量空間模型(VSM, Vector Space Model)形成特征向量 DMSHINGLEi, SHINGLE2,…,SHINGLEJ。[0057]圖3示出了如圖2所示的步驟S210、步驟S220和步驟S230的詳細(xì)的流程圖。步驟S210具體包括:[0058]S211、對(duì)文本字段進(jìn)行數(shù)據(jù)清洗操作,將文本字段中的內(nèi)容轉(zhuǎn)換為規(guī)則字符。[0059]其中,對(duì)文本字段進(jìn)行數(shù)據(jù)清洗操作,具體包括:識(shí)別并丟棄HTML標(biāo)記,將繁體字轉(zhuǎn)換為簡(jiǎn)體字,將全角字符轉(zhuǎn)換為半角字符,將大寫英文字母轉(zhuǎn)換為小寫英文字母,以及識(shí)別并丟棄url和標(biāo)點(diǎn)符號(hào)。[0060]S212、將拼音轉(zhuǎn)化為漢字。[0061]其中,將經(jīng)過步驟S211處理的文本中的拼音轉(zhuǎn)化為漢字,具體包括:使用雙向最大匹配算法將文本中的拼音轉(zhuǎn)換為漢字,如果一個(gè)拼音對(duì)應(yīng)多個(gè)漢字,則從對(duì)應(yīng)的多個(gè)漢字中任選一個(gè)。[0062]S213、保留常用的漢字。[0063]其中,保留常用的漢字,具體包括:使用GBK編碼表中的常用漢字對(duì)文本進(jìn)行過濾,丟棄所有不屬于常用漢字的字符,即只保留漢字GBK編碼在OxBOAO~0xF7FE中的漢字。[0064]步驟S220具體包括:使用拼音漢字對(duì)照表,將每個(gè)漢字轉(zhuǎn)換為對(duì)應(yīng)的拼音串,得到拼音文本。[0065]通過步驟S210由文本字段獲取中文文本,以及通過步驟S220將獲取的中文文本中的漢字轉(zhuǎn)為拼音得到拼音文本,可以將相似文本的不同變種,識(shí)別為相同的拼音文本。例如將如表1所示的文本字段和三種變種,通過步驟S210和S220得到相同的拼音文本。[0066]表1文本字段及三種變種[0067]
【權(quán)利要求】
1.一種即時(shí)通信中識(shí)別廣告消息的裝置,包括:文本獲取單元,適于檢測(cè)即時(shí)通信客戶端發(fā)送的即時(shí)消息中的文本字段;特征向量提取單元,適于提取所述文本字段中包含的一個(gè)或多個(gè)特征向量;識(shí)別單元,適于根據(jù)所述特征向量,識(shí)別與廣告消息匹配的即時(shí)消息。
2.根據(jù)權(quán)利要求1所述的裝置,其中,該裝置還包括:屏蔽單元,適于在識(shí)別單元識(shí)別出與廣告消息匹配的即時(shí)消息時(shí),對(duì)與廣告消息匹配 的即時(shí)消息進(jìn)行屏蔽處理。
3.根據(jù)權(quán)利要求1或2所述的裝置,其中,該裝置還包括:管理單元,適于在識(shí)別單元識(shí)別出與廣告消息匹配的即時(shí)消息時(shí),標(biāo)識(shí)所述與廣告消 息匹配的即時(shí)消息及發(fā)送所述與廣告消息匹配的即時(shí)消息的客戶端,并在預(yù)定時(shí)間內(nèi)不轉(zhuǎn) 發(fā)由該客戶端所發(fā)送的即時(shí)消息。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的裝置,其中,所述識(shí)別單元,適于根據(jù)所述特征向量判斷即時(shí)消息是否與廣告特征數(shù)據(jù)庫(kù)中的記錄 匹配。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的裝置,其中,所述識(shí)別單元,適于對(duì)所述特征向量中的每個(gè)特征,檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次 出現(xiàn)該特征;所述識(shí)別單元,適于判斷所述特征向量中的在廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)的特征占該 特征向量的全部特征的比例是否達(dá)到第一閾值,是則確定所述即時(shí)消息與廣告特征數(shù)據(jù)庫(kù) 中的記錄匹配,否則不匹配。
6.一種即時(shí)通信中識(shí)別廣告消息的方法,包括:檢測(cè)即時(shí)通信客戶端發(fā)送的即時(shí)消息中的文本字段;提取所述文本字段中包含的一個(gè)或多個(gè)特征向量;根據(jù)所述特征向量,識(shí)別與廣告消息匹配的即時(shí)消息。
7.根據(jù)權(quán)利要求6所述的方法,其中,該方法還包括:當(dāng)識(shí)別出與廣告消息匹配的即時(shí)消息時(shí),對(duì)與廣告消息匹配的即時(shí)消息進(jìn)行屏蔽處理。
8.根據(jù)權(quán)利要求6或7所述的方法,其中,當(dāng)識(shí)別出與廣告消息匹配的即時(shí)消息時(shí),標(biāo)識(shí)所述與廣告消息匹配的即時(shí)消息及發(fā)送 所述與廣告消息匹配的即時(shí)消息的客戶端,并在預(yù)定時(shí)間內(nèi)不轉(zhuǎn)發(fā)由該客戶端所發(fā)送的即 時(shí)消息。
9.根據(jù)權(quán)利要求6-8任一項(xiàng)所述的方法,其中,根據(jù)所述特征向量,識(shí)別與廣告消息匹 配的即時(shí)消息,進(jìn)一步包括:根據(jù)所述特征向量判斷即時(shí)消息是否與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配。
10.根據(jù)權(quán)利要求6-9任一項(xiàng)所述的方法,其中,所述根據(jù)所述特征向量判斷即時(shí)消息 是否與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配,進(jìn)一步包括:對(duì)所述特征向量中的每個(gè)特征,檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征;判斷所述特征向量中的在廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)的特征占該特征向量的全部特 征的比例是否達(dá)到第一閾值,是則確定所述即時(shí)消息與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配,否 則不匹配。
【文檔編號(hào)】G06F17/30GK103605690SQ201310537715
【公開日】2014年2月26日 申請(qǐng)日期:2013年11月4日 優(yōu)先權(quán)日:2013年11月4日
【發(fā)明者】孫林, 陳培軍, 秦吉?jiǎng)? 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司