垃圾評(píng)論檢測(cè)方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種垃圾評(píng)論檢測(cè)方法及裝置,該方法包括:位于網(wǎng)站服務(wù)器側(cè)的檢測(cè)裝置檢測(cè)所述網(wǎng)站服務(wù)器接收的評(píng)論信息;采用預(yù)設(shè)的評(píng)論策略判斷所述評(píng)論信息是否屬于垃圾評(píng)論信息;如果是,則攔截所述評(píng)論信息中屬于垃圾評(píng)論信息的評(píng)論信息。該方法通過檢測(cè)所述網(wǎng)站服務(wù)器中的評(píng)論信息,并通過預(yù)設(shè)的評(píng)論策略判斷該評(píng)論信息是否為垃圾評(píng)論的評(píng)論信息,在該評(píng)論信息為垃圾評(píng)論的評(píng)論信息時(shí),將屬于垃圾評(píng)論的評(píng)論信息進(jìn)行攔截,該方法通過對(duì)垃圾評(píng)論的檢測(cè)和攔截,提高了垃圾評(píng)論識(shí)別率和攔截效率,同時(shí)也降低了成本。
【專利說明】垃圾評(píng)論檢測(cè)方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)安全技術(shù),具體涉及一種垃圾評(píng)論檢測(cè)方法及裝置。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)的發(fā)展與普及深刻地改變了人們的生活和思維方式,網(wǎng)絡(luò)已經(jīng)成為當(dāng)今人們獲取知識(shí)、發(fā)布信息、交流溝通的主要工具。針對(duì)網(wǎng)站中的正常用戶發(fā)布的內(nèi)容,其中會(huì)有一些網(wǎng)友、商家、不良分子在正常用戶發(fā)布的內(nèi)容下發(fā)布大量的垃圾評(píng)論。例如,無關(guān)的廣告評(píng)論、推銷評(píng)論、含有政治、暴力、色情等內(nèi)容的評(píng)論等。大量的垃圾評(píng)論既影響了網(wǎng)絡(luò)用戶對(duì)有用信息的獲取,還會(huì)給一些用戶帶來負(fù)面影響。
[0003]目前,各網(wǎng)站服務(wù)器中沒有統(tǒng)一的垃圾評(píng)論篩選機(jī)制,各網(wǎng)站服務(wù)器需要自己人工設(shè)置檢測(cè)機(jī)制對(duì)垃圾評(píng)論進(jìn)行過濾篩選,由此,導(dǎo)致無法實(shí)時(shí)準(zhǔn)確的對(duì)各大網(wǎng)站的評(píng)論信息進(jìn)行統(tǒng)一檢測(cè),此外采用人工檢測(cè)垃圾評(píng)論,效率低、耗時(shí)長(zhǎng),而且在大量的評(píng)論中過濾垃圾評(píng)論通過人工檢測(cè)也可能會(huì)導(dǎo)致錯(cuò)檢或者漏檢。
【發(fā)明內(nèi)容】
[0004]針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供了一種垃圾評(píng)論檢測(cè)方法及裝置,解決了現(xiàn)有技術(shù)中垃圾評(píng)論識(shí)別率低、攔截效率低,成本高的問題。
[0005]第一方面,本發(fā)明提供了一種垃圾評(píng)論檢測(cè)裝置,包括:
[0006]檢測(cè)模塊,用于檢測(cè)網(wǎng)站服務(wù)器接收的評(píng)論信息;
[0007]判斷模塊,用于采用預(yù)設(shè)的評(píng)論策略判斷所述評(píng)論信息是否屬于垃圾評(píng)論信息;
[0008]第一攔截模塊,用于在所述判斷模塊判斷當(dāng)前網(wǎng)站服務(wù)器中的評(píng)論信息為垃圾評(píng)論時(shí),攔截所述評(píng)論信息中屬于垃圾評(píng)論信息的評(píng)論信息。
[0009]可選的,所述評(píng)論信息包括下述的一項(xiàng)或多項(xiàng):
[0010]文字信息、圖片信息、字符串信息;
[0011]和/ 或,
[0012]所述評(píng)論信息還包括:發(fā)送所述評(píng)論的客戶端的IP地址。
[0013]可選的,所述裝置還包括:
[0014]接收模塊,用于在所述檢測(cè)裝置檢測(cè)所述網(wǎng)站服務(wù)器中的評(píng)論信息之前,接收服務(wù)器發(fā)送的評(píng)論策略;
[0015]所述服務(wù)器中的評(píng)論策略為所述服務(wù)器根據(jù)多個(gè)檢測(cè)裝置上報(bào)的垃圾評(píng)論信息獲取的策略;
[0016]所述評(píng)論策略包括下述的一項(xiàng)或多項(xiàng):屬于垃圾評(píng)論信息的特征詞、特征字、特征圖片、特征字符串。
[0017]可選的,所述裝置還包括:
[0018]負(fù)向概率確定模塊,用于在判斷模塊在判斷當(dāng)前網(wǎng)站服務(wù)器中的評(píng)論信息不屬于垃圾評(píng)論的評(píng)論信息之后,采用預(yù)設(shè)模型確定不屬于該評(píng)論信息的負(fù)向概率,所述負(fù)向概率為該評(píng)論信息屬于垃圾評(píng)論信息的概率;
[0019]第二攔截模塊,用于在所述負(fù)向概率符合預(yù)設(shè)范圍時(shí),將所述負(fù)向概率對(duì)應(yīng)的評(píng)論信息進(jìn)行攔截。
[0020]可選的,所述裝置還包括:
[0021]發(fā)送模塊,用于將攔截的評(píng)論信息實(shí)時(shí)或定時(shí)發(fā)送服務(wù)器,以使服務(wù)器根據(jù)接收的評(píng)論信息實(shí)時(shí)更新發(fā)送到檢測(cè)裝置中的評(píng)論策略。
[0022]第二方面,本發(fā)明還提供了一種垃圾評(píng)論檢測(cè)方法,其特征在于,包括:
[0023]位于網(wǎng)站服務(wù)器側(cè)的檢測(cè)裝置檢測(cè)所述網(wǎng)站服務(wù)器接收的評(píng)論信息;
[0024]采用預(yù)設(shè)的評(píng)論策略判斷所述評(píng)論信息是否屬于垃圾評(píng)論信息;
[0025]如果是,則攔截所述評(píng)論信息中屬于垃圾評(píng)論信息的評(píng)論信息。
[0026]可選的,所述評(píng)論信息包括下述的一項(xiàng)或多項(xiàng):
[0027]文字信息、圖片信息、字符串信息;
[0028]和/ 或,
[0029]所述評(píng)論信息還包括:發(fā)送所述評(píng)論的客戶端的IP地址。
[0030]可選的,所述評(píng)論策略為所述檢測(cè)裝置在檢測(cè)所述網(wǎng)站服務(wù)器中的評(píng)論信息之前接收服務(wù)器發(fā)送的評(píng)論策略;
[0031]所述服務(wù)器中的評(píng)論策略為所述服務(wù)器根據(jù)多個(gè)檢測(cè)裝置上報(bào)的垃圾評(píng)論信息獲取的策略;
[0032]所述評(píng)論策略包括下述的一項(xiàng)或多項(xiàng):屬于垃圾評(píng)論信息的特征詞、特征字、特征圖片、特征字符串。
[0033]可選的,所述方法還包括:
[0034]在采用預(yù)設(shè)的評(píng)論策略判斷當(dāng)前網(wǎng)站服務(wù)器中的評(píng)論信息不屬于垃圾評(píng)論信息之后,采用預(yù)設(shè)模型確定該評(píng)論信息的負(fù)向概率,所述負(fù)向概率為該評(píng)論信息屬于垃圾評(píng)論信息的概率;
[0035]如果所述負(fù)向概率符合預(yù)設(shè)范圍,則將所述負(fù)向概率對(duì)應(yīng)的評(píng)論信息進(jìn)行攔截。
[0036]可選的,所述方法還包括:
[0037]將攔截的評(píng)論信息實(shí)時(shí)或定時(shí)發(fā)送服務(wù)器,以使服務(wù)器根據(jù)接收的評(píng)論信息實(shí)時(shí)更新發(fā)送到檢測(cè)裝置中的評(píng)論策略。
[0038]由上述技術(shù)方案可知,本發(fā)明提供的垃圾評(píng)論檢測(cè)方法及裝置,該方法通過檢測(cè)所述網(wǎng)站服務(wù)器中的評(píng)論信息,并通過預(yù)設(shè)的評(píng)論策略判斷該評(píng)論信息是否屬于垃圾評(píng)論信息,在該評(píng)論信息為垃圾評(píng)論信息時(shí),將屬于垃圾評(píng)論信息的評(píng)論信息進(jìn)行攔截,該方法通過對(duì)垃圾評(píng)論信息的檢測(cè)和攔截,提高了對(duì)垃圾評(píng)論信息的識(shí)別率和攔截效率,同時(shí)也降低了成本。
【專利附圖】
【附圖說明】
[0039]圖1為本發(fā)明一實(shí)施例提供的垃圾評(píng)論檢測(cè)方法的流程示意圖;
[0040]圖2為本發(fā)明另一實(shí)施例提供的垃圾評(píng)論檢測(cè)方法的流程示意圖;
[0041]圖3為本發(fā)明一實(shí)施例提供的垃圾評(píng)論檢測(cè)裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0042]下面結(jié)合附圖,對(duì)發(fā)明的【具體實(shí)施方式】作進(jìn)一步描述。以下實(shí)施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,而不能以此來限制本發(fā)明的保護(hù)范圍。
[0043]隨著信息技術(shù)的發(fā)展,很多網(wǎng)站支持在用戶之間進(jìn)行互動(dòng)。當(dāng)一個(gè)人向網(wǎng)站進(jìn)行了注冊(cè)并且可能還通過了相關(guān)認(rèn)證之后,則被稱為該網(wǎng)站的“用戶”。在網(wǎng)站中,用戶可以在新鮮事系統(tǒng)中展現(xiàn)其用戶行為,這種展現(xiàn)其用戶行為的操作在網(wǎng)站中通常被稱為“發(fā)布”,該發(fā)布的內(nèi)容可以被其他用戶所看見。例如,在諸如社交網(wǎng)絡(luò)服務(wù)網(wǎng)站、博客、微博、BBS論壇的各種網(wǎng)站中,都允許用戶在新鮮事系統(tǒng)中“發(fā)博客” “發(fā)微博” “發(fā)帖”等操作。此外這些網(wǎng)站中還允許用戶針對(duì)其他用戶發(fā)布的內(nèi)容進(jìn)行評(píng)論,其通常被稱為“發(fā)布評(píng)論”。
[0044]針對(duì)上述發(fā)布評(píng)論的內(nèi)容,某些用戶可能發(fā)布垃圾評(píng)論,例如,無關(guān)的廣告評(píng)論、推銷評(píng)論、含有政治、暴力、色情等內(nèi)容的評(píng)論等。本發(fā)明的下述實(shí)施例就是針對(duì)如何將上述垃圾評(píng)論檢測(cè)出來并對(duì)其進(jìn)行攔截。
[0045]圖1示出了本發(fā)明實(shí)施例提供的一種垃圾評(píng)論檢測(cè)方法,如圖1所示,該垃圾評(píng)論檢測(cè)方法具體包括如下步驟:
[0046]101、位于網(wǎng)站服務(wù)器側(cè)的檢測(cè)裝置檢測(cè)所述網(wǎng)站服務(wù)器接收的評(píng)論信息。
[0047]上述網(wǎng)站服務(wù)器可以由第三方軟件公司的服務(wù)器中的檢測(cè)裝置來執(zhí)行。
[0048]上述評(píng)論信息包括下述的至少一項(xiàng):文字信息、圖片信息、字符串信息;和/或,發(fā)送所述評(píng)論的客戶端的互聯(lián)網(wǎng)協(xié)議(Internet Protocol,簡(jiǎn)稱IP)地址。本實(shí)施例僅對(duì)評(píng)論信息進(jìn)行舉例說明,該評(píng)論信息還可包括其他信息,本實(shí)施例不對(duì)其進(jìn)行限定。
[0049]102、采用預(yù)設(shè)的評(píng)論策略判斷所述評(píng)論信息是否屬于垃圾評(píng)論信息。
[0050]本實(shí)施例中的評(píng)論策略為所述檢測(cè)裝置在檢測(cè)所述網(wǎng)站服務(wù)器中的評(píng)論信息之前接收服務(wù)器發(fā)送的評(píng)論策略;
[0051]所述服務(wù)器中的評(píng)論策略為所述服務(wù)器根據(jù)多個(gè)檢測(cè)裝置上報(bào)的垃圾評(píng)論信息獲取的策略;
[0052]所述評(píng)論策略包括下述的一項(xiàng)或多項(xiàng):屬于垃圾評(píng)論信息的特征詞、特征字、特征圖片、特征字符串。
[0053]上述服務(wù)器可以為云端服務(wù)器。也就是說所有網(wǎng)站服務(wù)器側(cè)的檢測(cè)裝置可連接云端服務(wù)器,在實(shí)時(shí)監(jiān)控網(wǎng)站服務(wù)器中的評(píng)論信息的過程中可實(shí)時(shí)接收云服務(wù)器下載或更新的評(píng)論策略,以便保證較為準(zhǔn)確的檢測(cè)網(wǎng)站服務(wù)器的評(píng)論信息中的垃圾評(píng)論信息。
[0054]上述垃圾評(píng)論信息為通過上述預(yù)設(shè)的評(píng)論策略進(jìn)行判斷的。
[0055]103、如果是,則攔截所述評(píng)論信息中屬于垃圾評(píng)論信息的評(píng)論信息。
[0056]也就是說,將所述評(píng)論信息中屬于垃圾評(píng)論信息進(jìn)行攔截。
[0057]當(dāng)然,如果上述步驟102中采用預(yù)設(shè)的評(píng)論策略判斷當(dāng)前網(wǎng)站服務(wù)器中的評(píng)論信息不屬于垃圾評(píng)論信息時(shí),可不攔截當(dāng)前檢測(cè)的評(píng)論信息,即以使網(wǎng)站服務(wù)器展示該評(píng)論信息。
[0058]上述方法通過預(yù)設(shè)的評(píng)論策略判斷該評(píng)論信息是否為垃圾評(píng)論信息,在該評(píng)論信息為垃圾評(píng)論信息時(shí),將屬于垃圾評(píng)論信息進(jìn)行攔截,該方法通過對(duì)垃圾評(píng)論信息的檢測(cè)和攔截,提高了垃圾評(píng)論識(shí)別率和攔截效率,同時(shí)也降低了成本。
[0059]圖2示出了本發(fā)明實(shí)施例提供的一種垃圾評(píng)論檢測(cè)方法,如圖2所示,該垃圾評(píng)論檢測(cè)方法具體包括如下步驟:
[0060]201、位于網(wǎng)站服務(wù)器側(cè)的檢測(cè)裝置檢測(cè)所述網(wǎng)站服務(wù)器接收的評(píng)論信息。
[0061]202、采用預(yù)設(shè)的評(píng)論策略判斷所述評(píng)論信息是否屬于垃圾評(píng)論信息。
[0062]通常,評(píng)論策略可包括最近時(shí)間段內(nèi)每一 IP針對(duì)該評(píng)論信息的評(píng)論內(nèi)容,或者,評(píng)論策略中還可包括最近時(shí)間段內(nèi)的針對(duì)該評(píng)論信息的IP黑名單。
[0063]需要說明的是,上述預(yù)設(shè)的評(píng)論策略為預(yù)先接收云端服務(wù)器發(fā)送的評(píng)論策略;其中,云端服務(wù)器中的評(píng)論策略為根據(jù)多個(gè)檢測(cè)裝置上報(bào)的垃圾評(píng)論的評(píng)論信息統(tǒng)計(jì)的策略,上述評(píng)論策略可以根據(jù)上述評(píng)論信息的內(nèi)容進(jìn)行制定,上述評(píng)論策略可以對(duì)某評(píng)論信息是否為垃圾評(píng)論進(jìn)行檢測(cè)。
[0064]上述評(píng)論策略具體可以為評(píng)論信息的評(píng)論內(nèi)容為屬于垃圾評(píng)論信息的特征詞、特征字、特征圖片、特征字符串。舉例來說,特征詞可以為“發(fā)票” “出售” “公積金”等各種屬于垃圾評(píng)論信息中出現(xiàn)頻率較高的詞匯,可以為動(dòng)詞、名詞等;特征圖片為帶有暴力、色情的圖片等;特征字符串可以為某些特征詞加某些廣告的電話號(hào)碼等聯(lián)系方式的句式,本實(shí)施例不對(duì)此進(jìn)行詳細(xì)舉例說明。
[0065]上述評(píng)論策略為云端服務(wù)器根據(jù)多個(gè)檢測(cè)裝置上報(bào)的垃圾評(píng)論信息統(tǒng)計(jì)的。
[0066]在另一個(gè)可實(shí)現(xiàn)的方式中,云端服務(wù)器也可以將該評(píng)論實(shí)時(shí)或定時(shí)發(fā)送至檢測(cè)裝置,使該檢測(cè)裝置直接對(duì)獲取的評(píng)論信息進(jìn)行檢測(cè),本實(shí)施例不限定上述方式。
[0067]上述步驟202中評(píng)論信息是否為垃圾評(píng)論的判斷過程具體包括圖2中未示出的如下子步驟2021至子步驟2023:
[0068]2021、提取評(píng)論彳目息的特征,獲得該特征中的關(guān)鍵詞或關(guān)鍵彳目息等;
[0069]上述評(píng)論信息的特征可以理解為:評(píng)論信息的句式特征、評(píng)論信息的語義特征、評(píng)論信息的情感特征和評(píng)論信息的上下文特征等,本實(shí)施例不對(duì)提取的具體特征進(jìn)行限定。
[0070]可以理解的是,上述評(píng)論信息的特征提取可以為如下過程,首先對(duì)某條評(píng)論的內(nèi)容進(jìn)行預(yù)處理,即將該條評(píng)論按照標(biāo)點(diǎn)符號(hào)劃分為句子,得到句子的集合;利用分詞工具將句子集合中的每一條句子劃分成詞語,得到詞語集合;再利用詞性工具將詞語集合中的每一個(gè)詞語都標(biāo)注詞性,并進(jìn)行詞性分類,可得到名詞集合、動(dòng)詞集合、形容詞集合等。
[0071]在另一種可能的情況下,有些垃圾評(píng)論用戶在評(píng)論時(shí)為了避免直接被攔截,故在評(píng)論中會(huì)加入一些特殊字符。在這種情況下,例如評(píng)論內(nèi)容為“發(fā)O票&代#開,請(qǐng)#聯(lián)!系158XXXXX”,則在提取評(píng)論信息的特征時(shí)需要剔除特殊字符,于是該評(píng)論文本內(nèi)容變?yōu)椤鞍l(fā)票代開,請(qǐng)聯(lián)系158XXXXX”。
[0072]上述的分詞處理可以從剔除特殊字符后的評(píng)論內(nèi)容進(jìn)行分詞處理后,采用條件隨機(jī)場(chǎng)模型獲取所述分詞處理后的評(píng)論內(nèi)容的關(guān)鍵詞/關(guān)鍵信息??衫斫獾氖牵鲜鲈u(píng)論內(nèi)容中的沒有實(shí)際意義的虛詞(如標(biāo)點(diǎn)、助動(dòng)詞、語氣詞、嘆詞、擬聲詞等)可不作為該評(píng)論信息內(nèi)容的關(guān)鍵詞。
[0073]本實(shí)施例中提取評(píng)論信息的特征可根據(jù)現(xiàn)有的方式實(shí)現(xiàn),本實(shí)施例不對(duì)其進(jìn)行限定。
[0074]2022、將評(píng)論信息的關(guān)鍵信息與評(píng)論策略中的特征信息進(jìn)行匹配,或?qū)⒃u(píng)論信息的特征中的關(guān)鍵詞與評(píng)論策略中的特征詞進(jìn)行匹配。
[0075]舉例來說,該評(píng)論信息的句式特征為廣告式評(píng)論信息,則上述評(píng)論信息的句式特征可以包括:“XXX,網(wǎng)址為http:XXXX”,“發(fā)票代開,請(qǐng)聯(lián)系158XXXXX” “公積金提取,請(qǐng)聯(lián)系 152XXXXX”
[0076]上述關(guān)鍵詞可以包括:“發(fā)票” “聯(lián)系” “網(wǎng)址為” “公積金” “提取”。
[0077]2023、如果評(píng)論信息的關(guān)鍵詞或關(guān)鍵信息與預(yù)設(shè)的評(píng)論策略中的特征詞或特征信息匹配度超過預(yù)設(shè)閥值,則可確定當(dāng)前評(píng)論信息為垃圾評(píng)論信息。
[0078]舉例來說,如果評(píng)論策略中已存儲(chǔ)有“發(fā)票代開,請(qǐng)聯(lián)系158XXXXX”的評(píng)論信息,則在提取某評(píng)論信息時(shí),若發(fā)現(xiàn)某條評(píng)論信息為“發(fā)O票&代#開,請(qǐng)聯(lián)系010-XXXXX”,則通過上述的內(nèi)容,將特殊字符去掉后的信息為“發(fā)票代開,請(qǐng)聯(lián)系010-XXXXX”,由此可以看出,上述評(píng)論信息只是電話號(hào)碼不同,但是評(píng)論信息的句式特征完全相同,可以理解為與上述評(píng)論策略已存儲(chǔ)的特征匹配度為98 %,此時(shí)將該條評(píng)論信息確定為垃圾評(píng)論信息。
[0079]在另一個(gè)可實(shí)現(xiàn)的方式中,上述關(guān)鍵詞的匹配還包括與敏感詞匯諧音相同的關(guān)鍵詞,將此諧音的匹配也加入到匹配度的計(jì)算中,比如通過大寫的數(shù)字“一、二、三”代替“1、2、3”。
[0080]舉例來說,如果解析某條評(píng)論的內(nèi)容為“需要開發(fā)票,致電一五八XXXXX”其中包括關(guān)鍵詞:“發(fā)票” “致電” “ 158”,則再通過該關(guān)鍵詞與上述評(píng)論策略中的關(guān)鍵詞進(jìn)行匹配,計(jì)算匹配度。
[0081]可理解的是,上述垃圾評(píng)論信息為通過上述預(yù)設(shè)的評(píng)論策略進(jìn)行判斷的,在另一種可能實(shí)施的情況下,如果該評(píng)論信息的IP地址與評(píng)論策略中的評(píng)論信息的IP黑名單匹配,則確定該評(píng)論信息為垃圾評(píng)論信息,直接對(duì)該評(píng)論信息進(jìn)行攔截。
[0082]為了防止對(duì)一些新注冊(cè)的IP為垃圾評(píng)論信息的IP,或者原來的一些黑名單IP,在一段時(shí)間內(nèi)的垃圾評(píng)論的匹配度小于預(yù)設(shè)閥值時(shí),采用原來的評(píng)論策略會(huì)將這些IP發(fā)表的評(píng)論信息直接攔截,故將云端服務(wù)器中的評(píng)論策略進(jìn)行更新,防止把白名單IP直接當(dāng)成黑名單IP對(duì)該IP對(duì)應(yīng)的某條評(píng)論信息進(jìn)行攔截。
[0083]上述匹配度計(jì)算包括諸多因素,比如某個(gè)IP在一段時(shí)間內(nèi)評(píng)論的次數(shù)、垃圾評(píng)論的比率、某ip在評(píng)論信息中的關(guān)鍵詞或關(guān)鍵信息與垃圾評(píng)論信息中的特征詞或特征信息的匹配度等。
[0084]比如說某個(gè)評(píng)論信息的IP在一個(gè)月前經(jīng)常在各大網(wǎng)站上進(jìn)行垃圾評(píng)論,而在最近一個(gè)月內(nèi)僅在個(gè)別網(wǎng)站進(jìn)行評(píng)論,且垃圾評(píng)論的比率幾乎為0,則會(huì)根據(jù)該評(píng)論信息的IP的評(píng)論次數(shù)、垃圾評(píng)論的次數(shù)以及獲取該評(píng)論信息的IP的評(píng)論次數(shù)、垃圾評(píng)論的次數(shù)的時(shí)間段,綜合計(jì)算的匹配度。
[0085]203、如果采用預(yù)設(shè)的評(píng)論策略判斷當(dāng)前網(wǎng)站服務(wù)器中的評(píng)論信息為垃圾評(píng)論信息,則攔截所述評(píng)論信息中屬于垃圾評(píng)論信息的評(píng)論信息。
[0086]可以理解的是,當(dāng)采用預(yù)設(shè)的評(píng)論策略判斷當(dāng)前網(wǎng)站服務(wù)器中的評(píng)論信息為垃圾評(píng)論信息,既評(píng)論信息的關(guān)鍵詞或關(guān)鍵信息與預(yù)設(shè)的評(píng)論策略中的特征詞或特征信息匹配度超過預(yù)設(shè)閥值時(shí),則認(rèn)為該評(píng)論信息為垃圾評(píng)論信息。
[0087]在具體應(yīng)用中,比如上述評(píng)論信息的關(guān)鍵詞或關(guān)鍵信息與預(yù)設(shè)的評(píng)論策略中的特征詞或特征信息匹配度未超過預(yù)設(shè)閥值時(shí),即有些用戶為了避開上述攔截,故采取了各種各樣的表述避開攔截。在這種情況下,為了檢測(cè)這類的評(píng)論信息是否為垃圾評(píng)論的評(píng)論信息,故上述方法還包括如下步驟:
[0088]204、在步驟202中采用預(yù)設(shè)的評(píng)論策略判斷當(dāng)前網(wǎng)站服務(wù)器中的評(píng)論信息不屬于垃圾評(píng)論的評(píng)論信息之后,采用預(yù)設(shè)模型確定不屬于垃圾評(píng)論信息的負(fù)向概率,所述負(fù)向概率為該評(píng)論屬于垃圾評(píng)論信息的概率。
[0089]前述模型的垃圾評(píng)論信息的樣本的建立過程可舉例如下:
[0090]A01、預(yù)先獲取多個(gè)垃圾評(píng)論信息,對(duì)該些評(píng)論信息進(jìn)行分詞處理,提取與該些評(píng)論信息對(duì)應(yīng)的關(guān)鍵詞或關(guān)鍵信息。
[0091]具體的,上述垃圾評(píng)論信息可以為通過蜘蛛或者爬蟲算法定向抓取網(wǎng)頁(yè)中的一些評(píng)論信息。可理解的是,網(wǎng)絡(luò)爬蟲又名為網(wǎng)絡(luò)蜘蛛(Web spider),實(shí)現(xiàn)由技術(shù)中的一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,是搜索引擎的重要組成,本發(fā)明對(duì)此不做詳細(xì)介紹。
[0092]A02、將所述關(guān)鍵詞與預(yù)先設(shè)定的垃圾評(píng)論特征詞庫(kù)中的特征詞進(jìn)行組合,或,將所述關(guān)鍵信息與垃圾評(píng)論特征信息庫(kù)中的特征信息進(jìn)行組合;根據(jù)各種組合建立判斷垃圾評(píng)論信息的模型。
[0093]舉例來說,上述垃圾特征詞庫(kù)可以根據(jù)詞性、詞義的褒貶進(jìn)行歸類,該詞具體可以包括涉及廣告宣傳、推銷、含有政治、暴力、色情等詞匯;特征信息庫(kù)可以包括一些涉及廣告宣傳、推銷、含有政治、暴力、色情等的圖片內(nèi)容。本實(shí)施例中的特征詞庫(kù)和特征信息庫(kù)僅用于舉例說明,本實(shí)施例不對(duì)其具體內(nèi)容進(jìn)行限定。
[0094]通過獲取大量的垃圾評(píng)論信息作為樣本對(duì)所述模型進(jìn)行訓(xùn)練,可以獲知所有評(píng)論信息中每個(gè)詞可以組合成垃圾評(píng)論信息的特征和規(guī)律。
[0095]上述預(yù)設(shè)模型的訓(xùn)練獲取過程可為:針對(duì)預(yù)先獲得評(píng)論信息,該些評(píng)論信息包括垃圾評(píng)論信息和非垃圾評(píng)論信息;根據(jù)該些評(píng)論信息建立判斷垃圾評(píng)論信息的模型。
[0096]由此,在上述步驟204中,采用該模型計(jì)算當(dāng)前垃圾信息的負(fù)向概率。
[0097]在具體應(yīng)用中,根據(jù)上述步驟訓(xùn)練的模型,可以對(duì)某評(píng)論信息是否為垃圾評(píng)論信息進(jìn)行檢測(cè)。在另一個(gè)可實(shí)現(xiàn)的方式中,云端服務(wù)器也可以將該模型實(shí)時(shí)或定時(shí)發(fā)送至檢測(cè)裝置,使該檢測(cè)裝置直接對(duì)獲取的評(píng)論信息進(jìn)行檢測(cè),本實(shí)施例不限定上述方式。
[0098]可理解的是,在上述步驟202判斷某評(píng)論信息中的IP與評(píng)論策略IP黑名單未匹配,且該評(píng)論信息的評(píng)論內(nèi)容的關(guān)鍵詞或關(guān)鍵信息與評(píng)論策略中的特征詞或特征信息的匹配度未超過預(yù)設(shè)閥值時(shí),則采用預(yù)設(shè)模型確定不屬于垃圾評(píng)論信息的負(fù)向概率,所述負(fù)向概率為該評(píng)論屬于垃圾評(píng)論信息的概率。
[0099]上述方法適用于對(duì)采用預(yù)設(shè)的評(píng)論策略判斷當(dāng)前網(wǎng)站服務(wù)器中的評(píng)論信息不屬于垃圾評(píng)論的評(píng)論信息時(shí),再通過上述預(yù)設(shè)模型進(jìn)行計(jì)算該評(píng)論信息屬于垃圾評(píng)論的評(píng)論信息的負(fù)向概率。故上述方法還包括以下步驟:
[0100]205、判斷上述負(fù)向概率是否符合預(yù)設(shè)范圍;
[0101]206、如果所述負(fù)向概率符合所述預(yù)設(shè)范圍,則將所述負(fù)向概率對(duì)應(yīng)的垃圾評(píng)論的評(píng)論信息進(jìn)行攔截。
[0102]舉例來說,若負(fù)向概率的預(yù)設(shè)范圍為0.5?0.9,則根據(jù)該評(píng)論信息計(jì)算的負(fù)向概率為0.8,則將該評(píng)論信息進(jìn)行攔截。
[0103]207、如果所述負(fù)向概率不符合預(yù)設(shè)范圍,則將所述負(fù)向概率對(duì)應(yīng)的評(píng)論信息放行。
[0104]在另一個(gè)可能實(shí)現(xiàn)的方式中,若負(fù)向概率的預(yù)設(shè)范圍為0.5?0.9,則根據(jù)該評(píng)論信息計(jì)算的負(fù)向概率為0.45,則將該負(fù)向概率對(duì)應(yīng)的評(píng)論信息的信息進(jìn)行展示。
[0105]為了使上述步驟202中的評(píng)論策略為最新的評(píng)論策略,故上述方法還包括下述步驟 208:
[0106]208、將所述評(píng)論信息中屬于垃圾評(píng)論的評(píng)論信息和所述負(fù)向概率對(duì)應(yīng)的評(píng)論信息發(fā)送云端服務(wù)器。
[0107]在具體應(yīng)用中,通過檢測(cè)裝置將屬于垃圾評(píng)論信息的評(píng)論信息和所述負(fù)向概率對(duì)應(yīng)的評(píng)論信息發(fā)送服務(wù)器,實(shí)現(xiàn)了對(duì)上述云端服務(wù)器中的評(píng)論策略進(jìn)行更新,該評(píng)論策略的更新可以實(shí)時(shí)的也可以定時(shí)的,例如每天更新一次等。
[0108]圖3示出了本發(fā)明實(shí)施例提供的垃圾評(píng)論檢測(cè)裝置的結(jié)構(gòu)示意圖,如圖3所示,該裝置包括:檢測(cè)模塊31、判斷模塊32和第一攔截模塊33。
[0109]檢測(cè)模塊31,用于檢測(cè)網(wǎng)站服務(wù)器接收的評(píng)論信息;
[0110]具體的,上述評(píng)論信息包括下述的一項(xiàng)或多項(xiàng):
[0111]文字信息、圖片信息、字符串信息;和/或,發(fā)送所述評(píng)論的客戶端的IP地址等。本實(shí)施例僅對(duì)評(píng)論信息進(jìn)行舉例說明,該評(píng)論信息還可包括其他信息,本實(shí)施例不對(duì)其進(jìn)行限定。
[0112]判斷模塊32,用于采用預(yù)設(shè)的評(píng)論策略判斷所述評(píng)論信息是否屬于垃圾評(píng)論信息;
[0113]第一攔截模塊33,用于在所述判斷模塊判斷當(dāng)前網(wǎng)站服務(wù)器中的評(píng)論信息為垃圾評(píng)論時(shí),攔截所述評(píng)論信息中屬于垃圾評(píng)論信息的評(píng)論信息。
[0114]具體的,上述裝置還包括圖3中未示出的接收模塊34:
[0115]接收模塊34,用于在所述檢測(cè)裝置檢測(cè)所述網(wǎng)站服務(wù)器中的評(píng)論信息之前,接收服務(wù)器發(fā)送的評(píng)論策略;
[0116]所述服務(wù)器中的評(píng)論為所述服務(wù)器根據(jù)多個(gè)檢測(cè)裝置上報(bào)的垃圾評(píng)論的評(píng)論信息統(tǒng)計(jì)的策略。
[0117]在采用上述評(píng)論策略不能夠直觀判斷該評(píng)論信息是否為垃圾評(píng)論的評(píng)論信息時(shí),為了更加精準(zhǔn)的將評(píng)論信息中為垃圾評(píng)論的評(píng)論信息負(fù)向概率較大的評(píng)論信息識(shí)別出來,上述裝置還包括圖中未示出的負(fù)向概率確定模塊35和第二攔截模塊36 ;
[0118]負(fù)向概率確定模塊35,用于在判斷模塊在判斷當(dāng)前網(wǎng)站服務(wù)器中的評(píng)論信息不屬于垃圾評(píng)論的評(píng)論信息之后,采用預(yù)設(shè)模型確定不屬于該評(píng)論信息的負(fù)向概率,所述負(fù)向概率為該評(píng)論信息屬于垃圾評(píng)論信息的概率;
[0119]第二攔截模塊36,用于在所述負(fù)向概率符合預(yù)設(shè)范圍時(shí),將所述負(fù)向概率對(duì)應(yīng)的評(píng)論信息進(jìn)行攔截。
[0120]為了對(duì)上述云端服務(wù)器中的評(píng)論策略進(jìn)行更新,上述裝置還包括圖中未示出的發(fā)送模塊37:
[0121]發(fā)送模塊37,用于將攔截的評(píng)論信息實(shí)時(shí)或定時(shí)發(fā)送服務(wù)器,以使服務(wù)器根據(jù)接收的評(píng)論信息實(shí)時(shí)更新發(fā)送到檢測(cè)裝置中的評(píng)論策略。
[0122]上述裝置與上述方法是一一對(duì)應(yīng)的,上述方法的詳細(xì)例子說明也同樣適用于該裝置,本發(fā)明不對(duì)上述裝置的實(shí)施細(xì)節(jié)進(jìn)行詳細(xì)說明。
[0123]由此,本實(shí)施例中的無線入侵檢測(cè)系統(tǒng)中服務(wù)器和傳感器交互,可實(shí)時(shí)監(jiān)測(cè)企業(yè)內(nèi)無線網(wǎng)絡(luò)中的熱點(diǎn)信息,并有效保證企業(yè)內(nèi)無線網(wǎng)絡(luò)的安全。
[0124]本發(fā)明的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
[0125]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本發(fā)明公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋呈反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0126]本領(lǐng)域技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在于該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是互相排斥之處,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
[0127]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0128]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的一種瀏覽器終端的設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0129]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
[0130]最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。
【權(quán)利要求】
1.一種垃圾評(píng)論檢測(cè)裝置,其特征在于,包括: 檢測(cè)模塊,用于檢測(cè)網(wǎng)站服務(wù)器接收的評(píng)論信息; 判斷模塊,用于采用預(yù)設(shè)的評(píng)論策略判斷所述評(píng)論信息是否屬于垃圾評(píng)論信息;第一攔截模塊,用于在所述判斷模塊判斷當(dāng)前網(wǎng)站服務(wù)器中的評(píng)論信息為垃圾評(píng)論時(shí),攔截所述評(píng)論信息中屬于垃圾評(píng)論信息的評(píng)論信息。
2.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述評(píng)論信息包括下述的一項(xiàng)或多項(xiàng): 文字信息、圖片信息、字符串信息; 和/或, 所述評(píng)論信息還包括:發(fā)送所述評(píng)論的客戶端的互聯(lián)網(wǎng)協(xié)議IP地址。
3.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述裝置還包括: 接收模塊,用于在所述檢測(cè)裝置檢測(cè)所述網(wǎng)站服務(wù)器中的評(píng)論信息之前,接收服務(wù)器發(fā)送的評(píng)論策略; 所述服務(wù)器中的評(píng)論策略為所述服務(wù)器根據(jù)多個(gè)檢測(cè)裝置上報(bào)的垃圾評(píng)論信息獲取的策略; 所述評(píng)論策略包括下述的一項(xiàng)或多項(xiàng):屬于垃圾評(píng)論信息的特征詞、特征字、特征圖片、特征字符串。
4.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述裝置還包括: 負(fù)向概率確定模塊,用于在判斷模塊在判斷當(dāng)前網(wǎng)站服務(wù)器中的評(píng)論信息不屬于垃圾評(píng)論的評(píng)論信息之后,采用預(yù)設(shè)模型確定不屬于該評(píng)論信息的負(fù)向概率,所述負(fù)向概率為該評(píng)論信息屬于垃圾評(píng)論信息的概率; 第二攔截模塊,用于在所述負(fù)向概率符合預(yù)設(shè)范圍時(shí),將所述負(fù)向概率對(duì)應(yīng)的評(píng)論信息進(jìn)行攔截。
5.根據(jù)權(quán)利要求4所述的裝置,其特征在于,所述裝置還包括: 發(fā)送模塊,用于將攔截的評(píng)論信息實(shí)時(shí)或定時(shí)發(fā)送服務(wù)器,以使服務(wù)器根據(jù)接收的評(píng)論信息實(shí)時(shí)更新發(fā)送到檢測(cè)裝置中的評(píng)論策略。
6.一種垃圾評(píng)論檢測(cè)方法,其特征在于,包括: 位于網(wǎng)站服務(wù)器側(cè)的檢測(cè)裝置檢測(cè)所述網(wǎng)站服務(wù)器接收的評(píng)論信息; 采用預(yù)設(shè)的評(píng)論策略判斷所述評(píng)論信息是否屬于垃圾評(píng)論信息; 如果是,則攔截所述評(píng)論信息中屬于垃圾評(píng)論信息的評(píng)論信息。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述評(píng)論信息包括下述的一項(xiàng)或多項(xiàng): 文字信息、圖片信息、字符串信息; 和/或, 所述評(píng)論信息還包括:發(fā)送所述評(píng)論的客戶端的互聯(lián)網(wǎng)協(xié)議IP地址。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述評(píng)論策略為所述檢測(cè)裝置在檢測(cè)所述網(wǎng)站服務(wù)器中的評(píng)論信息之前接收服務(wù)器發(fā)送的評(píng)論策略; 所述服務(wù)器中的評(píng)論策略為所述服務(wù)器根據(jù)多個(gè)檢測(cè)裝置上報(bào)的垃圾評(píng)論信息獲取的策略; 所述評(píng)論策略包括下述的一項(xiàng)或多項(xiàng):屬于垃圾評(píng)論信息的特征詞、特征字、特征圖片、特征字符串。
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括: 在采用預(yù)設(shè)的評(píng)論策略判斷當(dāng)前網(wǎng)站服務(wù)器中的評(píng)論信息不屬于垃圾評(píng)論信息之后,采用預(yù)設(shè)模型確定該評(píng)論信息的負(fù)向概率,所述負(fù)向概率為該評(píng)論信息屬于垃圾評(píng)論信息的概率; 如果所述負(fù)向概率符合預(yù)設(shè)范圍,則將所述負(fù)向概率對(duì)應(yīng)的評(píng)論信息進(jìn)行攔截。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述方法還包括: 將攔截的評(píng)論信息實(shí)時(shí)或定時(shí)發(fā)送服務(wù)器,以使服務(wù)器根據(jù)接收的評(píng)論信息實(shí)時(shí)更新發(fā)送到檢測(cè)裝置中的評(píng)論策略。
【文檔編號(hào)】G06F17/30GK104462509SQ201410806356
【公開日】2015年3月25日 申請(qǐng)日期:2014年12月22日 優(yōu)先權(quán)日:2014年12月22日
【發(fā)明者】李紀(jì)峰, 吳明 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司