信息過(guò)濾方法、系統(tǒng)與裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種信息過(guò)濾系統(tǒng),用以解決現(xiàn)有技術(shù)中存在的基于人工審核系統(tǒng)來(lái)降低誤判率會(huì)耗費(fèi)較多處理資源的問(wèn)題。其包括:信息過(guò)濾服務(wù)器,用于按照預(yù)設(shè)信息過(guò)濾機(jī)制,對(duì)待過(guò)濾信息集合進(jìn)行過(guò)濾,輸出由判斷出的可疑的信息構(gòu)成的第一信息集合;正反饋二次過(guò)濾服務(wù)器,用于獲得信息過(guò)濾服務(wù)器輸出的第一信息集合,并根據(jù)預(yù)先設(shè)置的誤判信息特征庫(kù),分別判斷所述第一信息集合中的每條信息是否與誤判信息特征相匹配;放行判斷出的與誤判信息特征相匹配的信息;其中,所述誤判信息特征是從被誤判為可疑的信息的誤判信息中提取的。本發(fā)明還公開(kāi)了一種信息過(guò)濾方法和裝置。
【專利說(shuō)明】信息過(guò)濾方法、系統(tǒng)與裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)業(yè)務(wù)領(lǐng)域,尤其涉及一種信息過(guò)濾方法、系統(tǒng)與裝置。
【背景技術(shù)】
[0002]信息過(guò)濾是互聯(lián)網(wǎng)的一項(xiàng)重要技術(shù),其處理對(duì)象一般是網(wǎng)頁(yè)、數(shù)據(jù)業(yè)務(wù)中傳輸?shù)男畔?如基于bt下載的文本信息、圖片信息、音頻信息和視頻信息等)短信、彩信和鈴聲等。
[0003]由于需要過(guò)濾的信息一般不具備多次完全重復(fù)的特點(diǎn),信息過(guò)濾一般采用基于特征的識(shí)別方式。以數(shù)據(jù)業(yè)務(wù)中的文本信息為例,基于特征的方式主要是指基于一些關(guān)鍵詞對(duì)文本信息進(jìn)行過(guò)濾。該方式的缺陷在于,由于一些合法信息也可能會(huì)包含指定的關(guān)鍵詞,所以該方式會(huì)將合法信息誤判為應(yīng)該過(guò)濾的可疑的信息,從而導(dǎo)致最終的過(guò)濾結(jié)果會(huì)存在著一定的誤判率。由于實(shí)際用戶訪問(wèn)數(shù)據(jù)中,需要過(guò)濾的可疑的信息在總信息中占比非常少,一般為0.1%。,而被錯(cuò)誤地判斷為可疑的信息的誤判信息在總信息中占比則可能會(huì)達(dá)到10%左右,這樣,按照該方式得到的過(guò)濾結(jié)果中,誤判信息的占比可能高達(dá)99%。可見(jiàn),信息過(guò)濾技術(shù)面臨的最大問(wèn)題之一是誤判情況非常嚴(yán)重。
[0004]為了避免產(chǎn)生錯(cuò)誤過(guò)濾,現(xiàn)有技術(shù)一般通過(guò)人工審核系統(tǒng)來(lái)實(shí)現(xiàn)從過(guò)濾結(jié)果中提取出誤判信息。一個(gè)典型的包含人工審核系統(tǒng)的信息過(guò)濾系統(tǒng)如圖1所示。圖1中,待過(guò)濾原始信息首先輸入到信息過(guò)濾服務(wù)器,信息過(guò)濾服務(wù)器按照預(yù)設(shè)的過(guò)濾機(jī)制對(duì)待過(guò)濾原始信息進(jìn)行過(guò)濾后,將過(guò)濾出的可疑的信息提交人工審核系統(tǒng)進(jìn)行人工審核。通過(guò)人工審核,可以從信息過(guò)濾服務(wù)器過(guò)濾出的可疑的信息中篩選出誤判信息。包含人工審核系統(tǒng)的該信息過(guò)濾系統(tǒng)雖然可以最終實(shí)現(xiàn)較低的誤判率,但由于誤判信息數(shù)量一般比較龐大,而人工審核的環(huán)節(jié)無(wú)疑會(huì)耗費(fèi)非常大的人力資源,且效率一般較低。因此,如何從技術(shù)層面進(jìn)行改進(jìn)而減少產(chǎn)生的誤判信息的數(shù)量是目前重點(diǎn)研究的內(nèi)容。
[0005]目前常用的用于減少誤判信息數(shù)量的方法如下:
[0006]( I)通過(guò)優(yōu)化算法和策略來(lái)減少誤判信息數(shù)量的機(jī)制
[0007]該機(jī)制的主要思想是對(duì)信息過(guò)濾系統(tǒng)所用的過(guò)濾策略進(jìn)行調(diào)整或通過(guò)二次過(guò)濾方式添加新過(guò)濾條件,實(shí)現(xiàn)在系統(tǒng)進(jìn)行過(guò)濾時(shí)更準(zhǔn)確的目的。一般來(lái)說(shuō)可設(shè)置更多、更精確的過(guò)濾條件,例如若以“法輪”作為關(guān)鍵詞所得到的過(guò)濾效果不好,則可以將“法輪&功”或者“法輪&大法”等作為細(xì)化的關(guān)鍵詞。又比如,對(duì)于短信來(lái)說(shuō),如果采用“該用戶I小時(shí)內(nèi)發(fā)送短信數(shù)量>500”和“短信正文附帶電話號(hào)碼”作為過(guò)濾條件不能得到較好的過(guò)濾效果,則還可以添加“發(fā)送對(duì)象無(wú)重復(fù)”作為一個(gè)過(guò)濾條件。
[0008]由于信息自身的特點(diǎn),過(guò)濾條件設(shè)定越嚴(yán)格,漏報(bào)的情況就越多,因此要設(shè)定一個(gè)同時(shí)滿足漏報(bào)少、誤判少的優(yōu)化算法非常困難。
[0009]( 2)基于訪問(wèn)者白名單的過(guò)濾機(jī)制
[0010]該機(jī)制將可信的訪問(wèn)者納入白名單,不對(duì)由該部分訪問(wèn)者所發(fā)送的任何信息進(jìn)行過(guò)濾,即不對(duì)一些固定來(lái)源(如白名單中的訪問(wèn)者的IP地址、手機(jī)號(hào)等)的信息進(jìn)行過(guò)濾。由于可信的訪問(wèn)者比較少,因此采用該過(guò)濾機(jī)制一般不會(huì)明顯降低誤判信息的數(shù)量;此外,白名單中的訪問(wèn)者發(fā)送的信息仍然有可能包含需過(guò)濾的可疑的信息,從而該過(guò)濾機(jī)制存在不完善的缺陷。
[0011](3)基于目標(biāo)白名單的過(guò)濾機(jī)制
[0012]該機(jī)制的基本思想為設(shè)定目標(biāo)白名單(目標(biāo)白名單中可以包含如往來(lái)的信息受到監(jiān)控的IP地址等),不攔截任何發(fā)向目標(biāo)白名單中的地址的信息。由于該機(jī)制可以減少一部分輸入到信息過(guò)濾服務(wù)器中的待過(guò)濾原始信息,從而能夠減少產(chǎn)生的誤判信息數(shù)量。但類似于基于訪問(wèn)者白名單的過(guò)濾機(jī)制,由于發(fā)向目標(biāo)白名單中的地址的信息仍然有可能包含需過(guò)濾的可疑的信息,從而該過(guò)濾機(jī)制仍然不完善。
【發(fā)明內(nèi)容】
[0013]本發(fā)明實(shí)施例提供一種信息過(guò)濾方法、系統(tǒng)與裝置,用以解決現(xiàn)有技術(shù)中存在的基于人工審核系統(tǒng)來(lái)降低誤判率會(huì)耗費(fèi)較多處理資源的問(wèn)題。
[0014]本發(fā)明實(shí)施例采用以下技術(shù)方案:
[0015]一種信息過(guò)濾系統(tǒng),包括信息過(guò)濾服務(wù)器,還包括二次過(guò)濾服務(wù)器,其中:信息過(guò)濾服務(wù)器,用于按照預(yù)設(shè)信息過(guò)濾機(jī)制,對(duì)待過(guò)濾信息集合進(jìn)行過(guò)濾,輸出由判斷出的可疑的信息構(gòu)成的第一信息集合;二次過(guò)濾服務(wù)器,用于獲得信息過(guò)濾服務(wù)器輸出的第一信息集合,并根據(jù)預(yù)先設(shè)置的誤判信息特征庫(kù),分別判斷所述第一信息集合中的每條信息是否與誤判信息特征相匹配;放行判斷出的與誤判信息特征相匹配的信息;其中,所述誤判信息特征是從被誤判為可疑的信息的誤判信息中提取的。
[0016]一種信息過(guò)濾方法,包括:
[0017]獲得信息過(guò)濾服務(wù)器輸出的第一信息集合,該第一信息集合由被所述信息過(guò)濾服務(wù)器判斷為可疑的信息構(gòu)成;根據(jù)預(yù)先設(shè)置的誤判信息特征庫(kù),分別判斷所述第一信息集合中的每條信息是否與誤判信息特征相匹配;其中,所述誤判信息特征是從被誤判為可疑的信息的誤判信息中提取的;放行判斷出的與誤判信息特征相匹配的信息。
[0018]一種信息過(guò)濾裝置,包括:
[0019]第一獲得單兀,用于獲得信息過(guò)濾服務(wù)器輸出的第一信息集合,該第一信息集合由被所述信息過(guò)濾服務(wù)器判斷為可疑的信息構(gòu)成;第一判斷單元,用于根據(jù)預(yù)先設(shè)置的誤判信息特征庫(kù),分別判斷第一獲得單元獲得的所述第一信息集合中的每條信息是否與誤判信息特征相匹配;其中,所述誤判信息特征是從被誤判為可疑的信息的誤判信息中提取的;第一放行單元,放行第一判斷單元判斷出的與誤判信息特征相匹配的信息。
[0020]本發(fā)明實(shí)施例的有益效果如下:
[0021]本發(fā)明實(shí)施例通過(guò)在將由信息過(guò)濾服務(wù)器判斷為“可疑的信息”送交人工審核系統(tǒng)之前,先根據(jù)從被誤判為可疑的信息的誤判信息中提取的誤判信息特征,對(duì)該些“可疑的信息”進(jìn)行二次過(guò)濾,從中剔除與誤判信息特征相匹配的誤判信息,從而可以大大減少送交人工審核系統(tǒng)的信息數(shù)量,這就使得人工審核系統(tǒng)所要審核的信息量大大減少,因此也就減少了人工審核所需要耗費(fèi)的資源量,解決了現(xiàn)有技術(shù)存在的基于人工審核系統(tǒng)來(lái)降低誤判率會(huì)耗費(fèi)較多處理資源的問(wèn)題。
【專利附圖】
【附圖說(shuō)明】[0022]圖1為現(xiàn)有技術(shù)中一個(gè)典型的包含人工審核系統(tǒng)的信息過(guò)濾系統(tǒng)的結(jié)構(gòu)示意圖;
[0023]圖2為本發(fā)明實(shí)施例提供的信息過(guò)濾系統(tǒng)的具體結(jié)構(gòu)示意圖;
[0024]圖3a為用于實(shí)現(xiàn)實(shí)施例2、3的系統(tǒng)結(jié)構(gòu)示意圖;
[0025]圖3b為實(shí)施例2的具體實(shí)現(xiàn)流程示意圖;
[0026]圖4為實(shí)施例3的具體實(shí)現(xiàn)流程示意圖;
[0027]圖5為本發(fā)明實(shí)施例提供的信息過(guò)濾方法的具體流程示意圖;
[0028]圖6為本發(fā)明實(shí)施例提供的信息過(guò)濾裝置的具體結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0029]按照現(xiàn)有技術(shù),被信息過(guò)濾服務(wù)器判斷為可疑的信息中難免會(huì)存在一些誤判信息,而最終能識(shí)別誤判信息的是人工審核系統(tǒng)中的審核人員。通過(guò)審核人員的審核,人工審查系統(tǒng)的輸出中會(huì)包含兩個(gè)方面的內(nèi)容:一是被正確判定的可疑的信息,二是被誤判為可疑的信息的誤判信息。在現(xiàn)有的技術(shù)方案中,對(duì)人工審查系統(tǒng)輸出的內(nèi)容的利用尚不充分。
[0030]基于上述技術(shù)背景,考慮到誤判信息中一般會(huì)包含一些可以用于辨識(shí)誤判信息的特征,本發(fā)明實(shí)施例提供了一種新穎的信息過(guò)濾方案,以解決現(xiàn)有技術(shù)中存在的基于人工審核系統(tǒng)來(lái)降低誤判率會(huì)耗費(fèi)較多處理資源的問(wèn)題。該方案利用在現(xiàn)有技術(shù)中未能被充分利用的誤判信息,通過(guò)在將由信息過(guò)濾服務(wù)器判斷為“可疑的信息”送交人工審核系統(tǒng)之前,先根據(jù)從被誤判為可疑的信息的誤判信息中提取的誤判信息特征,對(duì)該些“可疑的信息”進(jìn)行二次過(guò)濾,從中剔除與誤判信息特征相匹配的誤判信息,大大減少送交人工審核系統(tǒng)的信息數(shù)量。
[0031]以下結(jié)合附圖,詳細(xì)說(shuō)明本發(fā)明實(shí)施例提供的方案。
[0032]首先,本發(fā)明實(shí)施例提供一種如圖2所示的信息過(guò)濾系統(tǒng),該系統(tǒng)主要包括信息過(guò)濾服務(wù)器21和二次過(guò)濾服務(wù)器22,這兩個(gè)服務(wù)器的主要功能如下:
[0033]信息過(guò)濾服務(wù)器21主要用于按照預(yù)設(shè)信息過(guò)濾機(jī)制,對(duì)待過(guò)濾信息集合進(jìn)行過(guò)濾,輸出由被信息過(guò)濾服務(wù)器判斷為可疑的信息構(gòu)成的第一信息集合。
[0034]其中,這里所述的預(yù)設(shè)信息過(guò)濾機(jī)制可以但不限于是前文的【背景技術(shù)】部分所介紹的通過(guò)優(yōu)化算法和策略來(lái)減少誤判信息數(shù)量的機(jī)制、基于訪問(wèn)者白名單的過(guò)濾機(jī)制或者基于目標(biāo)白名單的過(guò)濾機(jī)制等。信息過(guò)濾服務(wù)器21根據(jù)上述預(yù)設(shè)信息過(guò)濾機(jī)制所判斷出的“可疑的信息” 一般說(shuō)來(lái)都會(huì)包含誤判信息,本發(fā)明實(shí)施例的目的就是要從該些“可疑的信息”中自動(dòng)識(shí)別出誤判信息,從而減少送報(bào)人工審核系統(tǒng)的信息。為了達(dá)到該目的,二次過(guò)濾服務(wù)器22首先會(huì)獲得信息過(guò)濾服務(wù)器21輸出的該第一信息集合;然后,再根據(jù)預(yù)先從誤判信息中提取的誤判信息特征構(gòu)成的誤判信息特征庫(kù),分別判斷第一信息集合中的每條信息是否與誤判信息特征相匹配。針對(duì)判斷出的與誤判信息特征相匹配的信息,二次過(guò)濾服務(wù)器22會(huì)將其確定為合法信息,并放行該部分信息,而不再將其提交給人工審核系統(tǒng);而針對(duì)被判斷出的與誤判信息特征不匹配的信息,則會(huì)將這部分信息提交人工審核系統(tǒng)。
[0035]與現(xiàn)有技術(shù)相似,通過(guò)本發(fā)明實(shí)施例提供的上述系統(tǒng)的處理,最終提交給人工審核系統(tǒng)的這部分信息中,仍然可能是一方面包含被正確判定的可疑的信息,另一方面包含被誤判為可疑的信息的誤判信息。然而,由于通過(guò)上述兩個(gè)服務(wù)器的處理,可以實(shí)現(xiàn)從信息過(guò)濾服務(wù)器21輸出的“可疑的信息”中自動(dòng)識(shí)別出一部分誤判信息,并不再將識(shí)別出的這部分誤判信息送報(bào)人工審核系統(tǒng),從而減少了送報(bào)人工審核系統(tǒng)的信息數(shù)量,節(jié)省了人工審核系統(tǒng)的處理資源。
[0036]本發(fā)明實(shí)施例中,考慮到人工審核系統(tǒng)可以對(duì)二次過(guò)濾服務(wù)器22判斷出的與誤判信息特征不匹配的信息進(jìn)行進(jìn)一步審核,并輸出沒(méi)有被二次過(guò)濾服務(wù)器22識(shí)別到的誤判信息,因此提出了利用人工審核系統(tǒng)輸出的誤判信息對(duì)誤判信息特征庫(kù)進(jìn)行更新的一種正反饋機(jī)制。該機(jī)制的主要思想在于:首先,二次過(guò)濾服務(wù)器22將判斷出的與誤判信息特征不匹配的信息提交人工審核系統(tǒng);然后,二次過(guò)濾服務(wù)器22從人工審核系統(tǒng)根據(jù)該些信息而輸出的誤判信息中提取誤判信息特征,并利用提取的誤判信息特征更新該誤判信息特征庫(kù),得到更新后的誤判信息特征庫(kù)。
[0037]基于更新后的誤判信息特征庫(kù),當(dāng)二次過(guò)濾服務(wù)器22獲得信息過(guò)濾服務(wù)器在輸出所述第一信息集合后輸出的、由被信息過(guò)濾服務(wù)器判斷為可疑的信息構(gòu)成的第二信息集合時(shí),就可以根據(jù)更新后的該誤判信息特征庫(kù),分別判斷第二信息集合中的每條信息是否與更新后的誤判信息特征庫(kù)包含的誤判信息特征相匹配;將判斷出的與更新后的誤判信息特征庫(kù)包含的誤判信息特征相匹配的信息確定為不提交人工審核系統(tǒng)的信息。
[0038]通過(guò)采用上述正反饋機(jī)制,可以實(shí)現(xiàn)動(dòng)態(tài)更新誤判信息特征庫(kù),使得誤判信息特征庫(kù)能夠滿足二次過(guò)濾服務(wù)器22對(duì)于誤判信息的過(guò)濾需求。這樣,即使在某次信息過(guò)濾過(guò)程中,二次過(guò)濾服務(wù)器22不能識(shí)別某誤判信息,但在利用該誤判信息更新誤判信息特征庫(kù)后,在接下來(lái)的信息過(guò)濾中,二次過(guò)濾服務(wù)器22就能根據(jù)更新后的誤判信息特征庫(kù),成功實(shí)現(xiàn)對(duì)該誤判信息的識(shí)別。
[0039]需要說(shuō)明的是,對(duì)誤判信息的識(shí)別是通過(guò)比較誤判信息與誤判信息特征庫(kù)中包含的誤判特征信息而實(shí)現(xiàn)的。通過(guò)進(jìn)行上述比較從而從第一信息集合中識(shí)別出誤判信息的的具體實(shí)施過(guò)程可以采用下述通用方式。下述方式是以第一信息集合中包含的某一個(gè)可疑的信息作為樣本信息為例進(jìn)行說(shuō)明,而對(duì)于第一信息集合中包含的該可疑的信息以外的其他可疑的信息,也可以采用下述通用方式來(lái)判斷其是否為誤判信息。
[0040]具體地,該方式包括下述步驟:
[0041](1)首先,從該樣本信息中確定用于進(jìn)行比較的起始特征,該起始特征一般為該樣本信息中包含的滿足信息過(guò)濾服務(wù)器21所采用的預(yù)設(shè)信息過(guò)濾機(jī)制的特征,即表征該樣本信息為可疑的信息的特征;
[0042](2)然后,當(dāng)存在多個(gè)誤判信息特征庫(kù),且不同誤判信息特征庫(kù)不僅分別保存有用于表征某信息為誤判信息的誤判信息特征,還分別保存有用于表征某信息為可疑的信息的特征時(shí),基于從樣本信息中確定出的起始特征,選取包含有該起始特征的誤判信息特征庫(kù);
[0043](3)逐個(gè)比較選取的該誤判信息特征庫(kù)中包含的各個(gè)誤判信息特征和樣本信息,直到比較結(jié)果滿足預(yù)先定義的匹配條件(比如通過(guò)比較,從選取的誤判信息特征庫(kù)中發(fā)現(xiàn)存在與樣本信息相匹配的一個(gè)誤判信息特征;或從選取的誤判信息特征庫(kù)中發(fā)現(xiàn)存在與樣本信息相匹配的多個(gè)誤判信息特征等),或已遍歷誤判信息特征庫(kù)中的各個(gè)誤判信息特征,則停止比較。
[0044]通過(guò)執(zhí)行上述步驟(3),若得到的比較結(jié)果滿足了預(yù)先定義的匹配策略,則確定該樣本信息為誤判信息;否則則確定該樣本信息為可疑的信息。[0045]基于上述比較方式,以下提供三個(gè)具體的實(shí)施例。
[0046]實(shí)施例1
[0047]實(shí)施例1中,假設(shè)樣本信息為這樣一段文本“AV接口算是出現(xiàn)比較早的一種接口,它由紅、白、黃三種顏色的線組成,其中黃線為視頻傳輸線,紅色和白色則是負(fù)責(zé)左右聲道的聲音傳輸。AV接口的出現(xiàn)首次把視頻和音頻進(jìn)行了分離傳輸,但是其負(fù)責(zé)視頻傳輸?shù)闹挥幸粭l線,故這種傳輸方式還是先將亮度和色度混合,然后在顯示設(shè)備上進(jìn)行解碼顯示,所以,在視頻傳輸質(zhì)量上還有些損失的。AV接口曾經(jīng)被廣泛應(yīng)用在早期的VCD和DVD機(jī)與電視機(jī)的連接上”。
[0048]那么,若假定“AV”是信息過(guò)濾服務(wù)器21所采用的信息過(guò)濾機(jī)制中的文本過(guò)濾規(guī)則中的關(guān)鍵字,則由于上述文本中有多個(gè)“AV”出現(xiàn),信息過(guò)濾服務(wù)器21會(huì)將根據(jù)該關(guān)鍵字,將其判定為可疑的文本并送交人工審核系統(tǒng)。經(jīng)人工審核系統(tǒng)審核可以確定,該文本為不應(yīng)該被過(guò)濾的誤判信息。則基于該文本及對(duì)于文本而設(shè)置的誤判特征信息的提取規(guī)則,可以從該文本中提取出如表1所示的誤判特征信息,該些誤判特征信息構(gòu)成的一個(gè)集合可以視作一個(gè)小型的誤判信息特征庫(kù)。
[0049]表1:
[0050]
【權(quán)利要求】
1.一種信息過(guò)濾系統(tǒng),包括信息過(guò)濾服務(wù)器,其特征在于,還包括二次過(guò)濾服務(wù)器,其中: 信息過(guò)濾服務(wù)器,用于按照預(yù)設(shè)信息過(guò)濾機(jī)制,對(duì)待過(guò)濾信息集合進(jìn)行過(guò)濾,輸出由判斷出的可疑的信息構(gòu)成的第一信息集合; 二次過(guò)濾服務(wù)器,用于獲得信息過(guò)濾服務(wù)器輸出的第一信息集合,并根據(jù)預(yù)先設(shè)置的誤判信息特征庫(kù),分別判斷所述第一信息集合中的每條信息是否與誤判信息特征相匹配;放行判斷出的與誤判信息特征相匹配的信息; 其中,所述誤判信息特征是從被誤判為可疑的信息的誤判信息中提取的。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述誤判信息特征庫(kù)中包含從不同類型的誤判信息中提取出的誤判信息特征;則 二次過(guò)濾服務(wù)器具體用于: 分別針對(duì)所述第一信息集合中的每條信息執(zhí)行:確定該條信息的信息類型;從所述誤判信息特征庫(kù)中,確定從確定的所述信息類型的誤判信息中提取的誤判信息特征;判斷該條信息是否與確定的誤判信息特征相匹配。
3.如權(quán)利要求1所述的系統(tǒng),其特征在于,二次過(guò)濾服務(wù)器還用于: 將判斷出的與誤判信息特征不匹配的信息提交人工審核系統(tǒng),并從人工審核系統(tǒng)根據(jù)提交的所述信息而輸出的誤判信息中提取誤判信息特征;并利用提取的誤判信息特征更新所述誤判信息特征庫(kù),得到更新后的誤判信息特征庫(kù);獲得信息過(guò)濾服務(wù)器在輸出所述第一信息集合后輸出的第二信息集合,所述第二信息集合由被信息過(guò)濾服務(wù)器判斷為可疑的信息構(gòu)成;并根據(jù)更新后的誤判信息特征庫(kù),分別判斷所述第二信息集合中的每條信息是否與更新后的誤判信息特征庫(kù)包含的誤判信息特征相匹配;放行判斷出的與更新后的誤判信息特征庫(kù)包含的誤判信息特征相`匹配的信息。
4.如權(quán)利要求3所述的系統(tǒng),其特征在于,二次過(guò)濾服務(wù)器從確定的誤判信息中提取誤判信息特征,具體包括: 針對(duì)文本類型的誤判信息,提取誤判信息的文本長(zhǎng)度,以及文本類型的誤判信息中的包含指定關(guān)鍵字的字符串; 針對(duì)圖片類型的誤判信息,提取誤判信息的長(zhǎng)寬比例值、顏色占比值和色調(diào)均值中的一項(xiàng)或多項(xiàng); 針對(duì)視頻類型的誤判信息,提取誤判信息包含的指定關(guān)鍵幀; 針對(duì)音頻類型的誤判信息,提取誤判信息包含的首、末一段音頻的聲波特征。
5.—種信息過(guò)濾方法,其特征在于,包括: 獲得信息過(guò)濾服務(wù)器輸出的第一信息集合,該第一信息集合由被所述信息過(guò)濾服務(wù)器判斷為可疑的信息構(gòu)成; 根據(jù)預(yù)先設(shè)置的誤判信息特征庫(kù),分別判斷所述第一信息集合中的每條信息是否與誤判信息特征相匹配;其中,所述誤判信息特征是從被誤判為可疑的信息的誤判信息中提取的; 放行判斷出的與誤判信息特征相匹配的信息。
6.如權(quán)利要求5所述的方法,其特征在于,所述誤判信息特征庫(kù)中包含從不同類型的誤判信息中提取的誤判信息特征;則根據(jù)預(yù)先設(shè)置的誤判信息特征庫(kù),分別判斷所述第一信息集合中的每條信息是否與誤判信息特征相匹配,具體包括: 分別針對(duì)所述第一信息集合中的每條信息執(zhí)行: 確定該條信息的信息類型; 從所述誤判信息特征庫(kù)中,確定對(duì)應(yīng)于所述信息類型的誤判信息特征; 判斷該條信息是否與確定的該誤判信息特征相匹配。
7.如權(quán)利要求5所述的方法,其特征在于,還包括: 將判斷出的與誤判信息特征不匹配的信息提交人工審核系統(tǒng); 從人工審核系統(tǒng)根據(jù)提交的所述信息而輸出的誤判信息中提取誤判信息特征;并利用提取的誤判信息特征更新所述誤判信息特征庫(kù),得到更新后的誤判信息特征庫(kù);獲得信息過(guò)濾服務(wù)器在輸出所述第一信息集合后輸出的第二信息集合,所述第二信息集合由被信息過(guò)濾服務(wù)器判斷為可疑的信息構(gòu)成;并 根據(jù)更新后的誤判信息特征庫(kù),分別判斷所述第二信息集合中的每條信息是否與更新后的誤判信息特征庫(kù)中包含的誤判信息特征相匹配; 放行判斷出的與更新后的誤 判信息特征庫(kù)中包含的誤判信息特征相匹配的信息。
8.如權(quán)利要求7所述的方法,其特征在于,從確定的誤判信息中提取誤判信息特征,具體包括: 針對(duì)文本類型的誤判信息,提取誤判信息的文本長(zhǎng)度,以及文本類型的誤判信息中的包含指定關(guān)鍵字的字符串; 針對(duì)圖片類型的誤判信息,提取誤判信息的長(zhǎng)寬比例值、顏色占比值和色調(diào)均值中的一項(xiàng)或多項(xiàng); 針對(duì)視頻類型的誤判信息,提取誤判信息包含的指定關(guān)鍵幀; 針對(duì)音頻類型的誤判信息,提取誤判信息包含的首、末一段音頻的聲波特征。
9.一種信息過(guò)濾裝置,其特征在于,包括: 第一獲得單兀,用于獲得信息過(guò)濾服務(wù)器輸出的第一信息集合,該第一信息集合由被所述信息過(guò)濾服務(wù)器判斷為可疑的信息構(gòu)成; 第一判斷單元,用于根據(jù)預(yù)先設(shè)置的誤判信息特征庫(kù),分別判斷第一獲得單元獲得的所述第一信息集合中的每條信息是否與誤判信息特征相匹配;其中,所述誤判信息特征是從被誤判為可疑的信息的誤判信息中提取的; 第一放行單元,放行第一判斷單元判斷出的與誤判信息特征相匹配的信息。
10.如權(quán)利要求9所述的裝置,其特征在于,所述誤判信息特征庫(kù)中包含從不同類型的誤判信息中提取出的誤判信息特征;則 所述第一判斷單元具體包括: 信息類型確定模塊,用于分別確定所述第一信息集合中的每條信息的信息類型; 特征庫(kù)確定模塊,用于從所述誤判信息特征庫(kù)中,分別確定對(duì)應(yīng)于信息類型確定模塊確定的各個(gè)信息類型的誤判信息特征; 判斷模塊,用于分別確定所述第一信息集合中的每條信息是否與特征庫(kù)確定模塊確定的誤判信息特征相匹配。
11.如權(quán)利要求9所述的裝置,其特征在于,還包括:信息提交單元,用于將第一判斷單元判斷出的與誤判信息特征不匹配的信息提交人工申核系統(tǒng);特征提取單元,用于從人工審核系統(tǒng)根據(jù)信息提交單元提交的信息而輸出的誤判信息中提取誤判信息特征;更新單元,用于利用特征提取單元提取的誤判信息特征更新所述誤判信息特征庫(kù),得到更新后的誤判信息特征庫(kù);第二獲得單元,用于獲得信息過(guò)濾服務(wù)器在輸出所述第一信息集合后輸出的第二信息集合,所述第二信息集合由可疑的信息構(gòu)成的;第二判斷單元,用于根據(jù)更新單元得到的更新后的誤判信息特征庫(kù),分別判斷第二獲得單元獲得的所述第二信息集合中的每條信息是否與更新后的誤判信息特征庫(kù)中包含的誤判信息特征相匹配;第二放行單元,放行第二判斷單元判斷出的與更新后的誤判信息特征庫(kù)中包含的誤判信息特征相匹配的信息。
12.如權(quán)利要求11所述的裝置,其特征在于,所述特征提取單元具體用于:針對(duì)文本類型的誤判信息,提取誤判信息的文本長(zhǎng)度,以及文本類型的誤判信息中的包含指定關(guān)鍵字的字符串;針對(duì)圖片類型的誤判信息,提取誤判信息的長(zhǎng)寬比例值、顏色占比值和色調(diào)均值中的一項(xiàng)或多項(xiàng);針對(duì)視頻類型的誤判信息,提取誤判信息包含的指定關(guān)鍵幀;針對(duì)音頻類型的誤判信息`,提取誤判信息包含的首、末一段音頻的聲波特征。
【文檔編號(hào)】G06F17/30GK103729384SQ201210392601
【公開(kāi)日】2014年4月16日 申請(qǐng)日期:2012年10月16日 優(yōu)先權(quán)日:2012年10月16日
【發(fā)明者】粟栗, 張峰 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)公司