專利名稱:互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)及其攔截方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種互動產(chǎn)品用戶生成內(nèi)容UGC^ser Generated Content)攔截系統(tǒng)及其攔截方法,尤其涉及一種針對互聯(lián)網(wǎng)互動產(chǎn)品的特點,對灌水及廣告等信息進行準確攔截的攔截系統(tǒng)及其攔截方法,屬于網(wǎng)絡信息安全技術(shù)領(lǐng)域。
背景技術(shù):
互聯(lián)網(wǎng)門戶類網(wǎng)站每天都有大量的文章轉(zhuǎn)載需求,并且對文章的質(zhì)量要求很高。 現(xiàn)有很多抓取系統(tǒng)可以滿足這個需求,但是它們都困擾于下面三個問題現(xiàn)階段互聯(lián)網(wǎng)互動產(chǎn)品層出不窮,從博客、論壇,到當今的微博、輕博客。越來越多的商家看好互動產(chǎn)品。但隨著知名度越來越高,將會有很多不良分子利用互動產(chǎn)品時效性強,為追求自身利益大規(guī)模地灌水、發(fā)布廣告帖。擾亂了互聯(lián)網(wǎng)互動產(chǎn)品的正常運作。目前,各個網(wǎng)站針對此情況一般都是采用如下的技術(shù)措施1.驗證碼方式在發(fā)布環(huán)節(jié)中,用戶需要填寫驗證碼才可發(fā)布。一般驗證碼是只有人類才可判別的一串數(shù)字或英文字符。但在實際使用中驗證碼方式有以下不足容易被破解由于模式識別技術(shù)的深入研究,驗證碼破解器也隨之產(chǎn)生。很多驗證碼在投入使用較短時間內(nèi)就會被破解。惡意灌水依丨日無法解決。過于復雜將驗證碼設(shè)置復雜,不僅數(shù)字、字母位置重疊,寫法也變化極大。這樣會導致用戶在輸入時出錯率加大,降低用戶使用體驗??赡鼙焕@過若產(chǎn)品存在技術(shù)漏洞,黑客根據(jù)漏洞,繞過驗證碼進行發(fā)布。2.網(wǎng)友舉報禁言灌水用戶對于惡意灌水帖,網(wǎng)友可以進行舉報,每人可舉報一次,當舉報數(shù)超過一定數(shù)量時,對被舉報用戶進行禁言措施。此種方法需要活躍用戶自發(fā)參與,但若灌水數(shù)量太大或馬甲灌水,單憑網(wǎng)友力量很難解決。3.注冊時郵箱激活用戶注冊時需要提供不重復的郵箱地址,并且到郵箱激活才可發(fā)布內(nèi)容。此種方式使注冊需要人工處理,增加灌水的成本。但是若用戶申請若干免費郵箱,分別注冊,以不同用戶發(fā)布廣告或灌水,此方法束手無策。4.關(guān)鍵詞攔截方式使用常見廣告詞匯作為關(guān)鍵詞,包含關(guān)鍵詞禁止發(fā)布。此種方法只能處理低級廣告,若出現(xiàn)詞變形或繞關(guān)鍵詞,則無法識別。針對現(xiàn)有技術(shù)的種種不足,本發(fā)明針對互動產(chǎn)品的發(fā)布環(huán)節(jié),根據(jù)用戶生成內(nèi)容攔截大量重復的惡意灌水、廣告帖)。需要解決如下問題1.惡意灌水帖的自動識別及攔截;2.誤攔截時的恢復功能;3.攔截尺度的可設(shè)置化。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)及其攔截方法,可以對廣告及灌水等不良信息進行自動攔截。為實現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案一種互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng),其特征在于所述互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)包括攔截器、內(nèi)容庫、特征庫以及操作平臺和內(nèi)容生成器;其中,攔截器用于將分析用戶生成內(nèi)容,并利用分析結(jié)果判斷是否對用戶生成內(nèi)容進行攔截;內(nèi)容庫用于存儲用戶生成內(nèi)容;特征庫用來存儲用戶生成內(nèi)容的特征數(shù)據(jù);操作平臺用于修改攔截結(jié)果、設(shè)置攔截參數(shù)以及查看攔截結(jié)果;內(nèi)容生成器用于將經(jīng)攔截器判斷為不予攔截的用戶生成內(nèi)容發(fā)送給互動產(chǎn)品接□。所述攔截器包括XML解析器、URL提取器、有效URL次數(shù)統(tǒng)計模塊、聯(lián)系方式提取器、聯(lián)系方式次數(shù)統(tǒng)計模塊、相似文章提取器、相似文章次數(shù)統(tǒng)計模塊、攔截結(jié)果生成模塊、 數(shù)據(jù)記錄模塊、攔截輸出模塊、回查器以及回查輸出模塊。所述特征庫具有用于快速匹配文本相似度的相似度倒排索引,以及用于存儲URL內(nèi)容以及URL出現(xiàn)次數(shù)的URL庫,和用于存儲聯(lián)系方式內(nèi)容、聯(lián)系方式種類以及聯(lián)系方式出現(xiàn)次數(shù)的聯(lián)系方式庫。所述內(nèi)容庫存儲了具有ID、標題、用戶名、內(nèi)容、用戶ID、發(fā)表時間、攔截結(jié)果以及攔截原因的數(shù)據(jù)表,表內(nèi)數(shù)據(jù)只保存一段時間。所述URL提取器使用正則表達式從解析后的數(shù)據(jù)中識別出所有URL ;所述有效URL次數(shù)統(tǒng)計模塊對每個URL進行次數(shù)統(tǒng)計,取URL庫數(shù)據(jù),做如下計算查詢URL白名單表,若屬于白名單,標記所有URL為正常,跳過否則,從URL庫取數(shù)據(jù),記錄所有URL出現(xiàn)次數(shù)的最大值。所述聯(lián)系方式提取器可以提取解析后的數(shù)據(jù)中存在的聯(lián)系方式;所述聯(lián)系方式次數(shù)統(tǒng)計模塊用于統(tǒng)計從聯(lián)系方式庫中得到所有聯(lián)系方式出現(xiàn)次數(shù)的最大值。所述相似文章提取器用于提取用戶生成內(nèi)容數(shù)據(jù)中的特征詞,供相似文章次數(shù)統(tǒng)計進行分析和統(tǒng)計;所述相似文章次數(shù)統(tǒng)計模塊用于分析和統(tǒng)計與當前用戶生成內(nèi)容數(shù)據(jù)相似的文章最大個數(shù)。所述攔截結(jié)果生成模塊可以根據(jù)預先設(shè)置的攔截參數(shù)對上述幾個統(tǒng)計模塊產(chǎn)生的值進行評判,判斷所述用戶生成內(nèi)容是否為灌水帖或廣告帖;所述數(shù)據(jù)記錄模塊用于將攔截記錄、用戶生成內(nèi)容以及特征數(shù)據(jù)分別寫入內(nèi)容庫和特征庫;所述回查器根據(jù)攔截結(jié)果及攔截原因回查并修改內(nèi)容庫,并將需屏蔽ID集合提交至回查輸出模塊。所述攔截輸出模塊根據(jù)攔截結(jié)果生成模塊的攔截結(jié)果發(fā)送允許發(fā)布或拒絕發(fā)布的指令;所述回查輸出模塊整理回查器提交的需屏蔽ID集合,并發(fā)送操作指令。一種互動產(chǎn)品用戶生成內(nèi)容攔截方法,基于如上述的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)實現(xiàn),其特征在于包括如下的步驟a.接收XML格式的用戶生成內(nèi)容;b.對XML格式的用戶生成內(nèi)容進行解析;c.提取出URL并進行有效URL次數(shù)統(tǒng)計;d.提取出聯(lián)系方式并進行聯(lián)系方式次數(shù)統(tǒng)計;e.提取相似文章并進行相似文章次數(shù)統(tǒng)計;f.根據(jù)有效URL次數(shù)、聯(lián)系方式次數(shù)和相似文章次數(shù)生成攔截結(jié)果;g.更新內(nèi)容庫和特征庫;h.輸出攔截結(jié)果;i.輸出不予攔截的用戶生成內(nèi)容,由互動產(chǎn)品發(fā)布??梢愿鶕?jù)需要查看和修改攔截結(jié)果、設(shè)置攔截參數(shù)以及設(shè)置URL白名單。所述步驟c中使用正則表達式從解析后的數(shù)據(jù)中提取出所有URL。所述步驟f中的有效URL次數(shù)、聯(lián)系方式次數(shù)和相似文章次數(shù)各自具有預先設(shè)定的閥值,只要上述任何一項的次數(shù)超出閥值時,進行攔截。所述步驟g中更新內(nèi)容庫和特征庫,包括以下步驟將攔截記錄、用戶生成內(nèi)容以及特征文本分別寫入內(nèi)容庫和特征庫。利用本發(fā)明所提供的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)及其攔截方法可以有效解決背景技術(shù)中提及的三個問題本發(fā)明提供的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)及其攔截方法使用相似內(nèi)容、URL、 聯(lián)系方式發(fā)布次數(shù)對用戶生成內(nèi)容判斷是否攔截;具有回查機制,待發(fā)現(xiàn)某類內(nèi)容有問題時,將之前出現(xiàn)的此類內(nèi)容做屏蔽處理,若有誤攔截情況,也可以便捷地恢復內(nèi)容;通過對攔截參數(shù)進行設(shè)置可以對攔截尺度進行調(diào)整。下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步的詳細說明。
圖1為本發(fā)明所提供的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)的整體結(jié)構(gòu)示意圖;圖2為本發(fā)明所提供的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)的攔截器的結(jié)構(gòu)以及運行流程示意圖;圖3為本發(fā)明所提供的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)的操作平臺的操作流程示意圖。
具體實施例方式為了提高本發(fā)明對不良信息的攔截效果,發(fā)明人對大量互聯(lián)網(wǎng)互動產(chǎn)品中的灌水、廣告帖進行了分析,發(fā)現(xiàn)灌水或廣告帖包括以下特點的一點或幾點1.多次發(fā)布灌水者希望更多的人看到其內(nèi)容,會在多個版塊、重復發(fā)相同或相似內(nèi)容。
2.留有聯(lián)系方式包括座機號、手機號、QQ號等。3.留有鏈接大部分灌水者/發(fā)布廣告者會留下鏈接供網(wǎng)友點擊。本發(fā)明使用的技術(shù)有1.文本相似度計算顧名思義,文本相似度為測量若干文本間的相似程度。一般需要使用到的有,停用詞攔截、特征選擇、加權(quán)、相似度測量方法。本發(fā)明中采用簡化模式,要求匹配速度。故采用了倒排索引的方法來記錄特征詞。2.停用詞即已被認定為沒有必要收錄的詞。若使用這些詞作為特征,對效果有負面影響。如?()不會一他的又3. ICTCLAS 分詞中國科學院計算技術(shù)研究所在多年研究工作積累的基礎(chǔ)上,研制出了漢語詞法分析系統(tǒng) ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分詞;詞性標注;命名實體識別;新詞識別;同時支持用戶詞4. Struts2Struts2 是一個 Java Web 框架 Mruts 的第二個版本。Struts 2 是 Mruts 的下一代產(chǎn)品。Struts 2以WebWork為核心,采用攔截器的機制來處理用戶的請求,這樣的設(shè)計也使得業(yè)務邏輯控制器能夠與krvlet API完全脫離開,所以Mruts 2可以理解為WiebWork 的更新產(chǎn)品。如附圖1所示,本發(fā)明所提供的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)包括攔截器、內(nèi)容庫、特征庫以及操作平臺和內(nèi)容生成器。攔截器用于將分析用戶生成內(nèi)容,并利用分析結(jié)果判斷是否對用戶生成內(nèi)容進行攔截;內(nèi)容庫用于存儲用戶生成內(nèi)容;特征庫用來存儲用戶生成內(nèi)容的特征數(shù)據(jù);操作平臺用于修改攔截結(jié)果、設(shè)置攔截參數(shù)以及查看攔截結(jié)果;內(nèi)容生成器用于將經(jīng)攔截器判斷為不予攔截的用戶生成內(nèi)容發(fā)送給互動產(chǎn)品接口。以論壇為例,本發(fā)明為提升響應速度,減少不必要的網(wǎng)絡交互時間及帶寬浪費,會架設(shè)在論壇服務器集群中。當網(wǎng)友發(fā)布帖子或回復時,論壇系統(tǒng)將用戶生成內(nèi)容(UGC)數(shù)據(jù)整合成XML的格式,所述UGC數(shù)據(jù)包括標題、用戶名、內(nèi)容、發(fā)布時間、用戶ID,以Post的方式發(fā)送到本發(fā)明公開的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)的接口,經(jīng)過短時間的響應,互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)即可直接返回判斷結(jié)果及原因。若返回“允許發(fā)布”,論壇發(fā)布該帖子或回復;若返回“拒絕發(fā)布”,論壇可以直接不將內(nèi)容入庫,減少負載。同時攔截器會保留30天內(nèi)的內(nèi)容,若出現(xiàn)誤判,可以及時恢復。操作平臺使用Struts2架構(gòu),操作平臺嵌入到互動產(chǎn)品運營平臺中。 修改攔截結(jié)果對于被屏蔽內(nèi)容,進行恢復。由于被攔截,互動產(chǎn)品數(shù)據(jù)庫內(nèi)無此類被屏蔽內(nèi)容數(shù)據(jù)。用戶若發(fā)現(xiàn)有內(nèi)容被誤攔截,可以提交恢復申請,由運營人員進行恢復。
頁面可以按“標題”、“用戶名”、“用戶ID”、“發(fā)帖時間”、“狀態(tài)”提供查詢。提交查詢后,在內(nèi)容庫中進行搜索,顯示結(jié)果,包括標題、內(nèi)容、發(fā)表時間、用戶名。通過勾選某個查詢結(jié)果后點擊提交按鈕,恢復數(shù)據(jù)?;謴土鞒倘缦?.修改內(nèi)容庫中對應字段值;2.調(diào)用內(nèi)容生成器,發(fā)送內(nèi)容至互動產(chǎn)品;3.操作平臺提示內(nèi)容已上線。 設(shè)置攔截參數(shù)設(shè)置URL白名單添加、查詢、修改URL白名單。 設(shè)置時間及次數(shù)參數(shù)初始設(shè)置主題12小時內(nèi),相似內(nèi)容不超過5次,相同URL不超過5次,相同聯(lián)系方式不超過3次?;貜?2小時內(nèi),相似內(nèi)容不超過15次,相同URL不超過8次,相同聯(lián)系方式不超過5次。運營人員可以根據(jù)互動產(chǎn)品運營情況調(diào)整參數(shù)設(shè)置。 查看攔截效果攔截效果包括總數(shù)、通過數(shù)、攔截數(shù)、相似度攔截數(shù)、URL攔截數(shù)、聯(lián)系方式攔截數(shù)。顯示用戶輸入時間段內(nèi)每日攔截效果。如
權(quán)利要求
1.一種互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng),其特征在于所述互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)包括攔截器、內(nèi)容庫、特征庫以及操作平臺和內(nèi)容生成器;其中,攔截器用于將分析用戶生成內(nèi)容,并利用分析結(jié)果判斷是否對用戶生成內(nèi)容進行攔截;內(nèi)容庫用于存儲用戶生成內(nèi)容;特征庫用來存儲用戶生成內(nèi)容的特征數(shù)據(jù);操作平臺用于修改攔截結(jié)果、設(shè)置攔截參數(shù)以及查看攔截結(jié)果;內(nèi)容生成器用于將經(jīng)攔截器判斷為不予攔截的用戶生成內(nèi)容發(fā)送給互動產(chǎn)品接口。
2.如權(quán)利要求1所述的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng),其特征在于所述攔截器包括XML解析器、URL提取器、有效URL次數(shù)統(tǒng)計模塊、聯(lián)系方式提取器、聯(lián)系方式次數(shù)統(tǒng)計模塊、相似文章提取器、相似文章次數(shù)統(tǒng)計模塊、攔截結(jié)果生成模塊、數(shù)據(jù)記錄模塊、攔截輸出模塊、回查器以及回查輸出模塊。
3.如權(quán)利要求1所述的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng),其特征在于 所述特征庫具有用于快速匹配文本相似度的相似度倒排索引,以及用于存儲URL內(nèi)容以及URL出現(xiàn)次數(shù)的URL庫,和用于存儲聯(lián)系方式內(nèi)容、聯(lián)系方式種類以及聯(lián)系方式出現(xiàn)次數(shù)的聯(lián)系方式庫。
4.如權(quán)利要求1所述的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng),其特征在于所述內(nèi)容庫存儲了具有ID、標題、用戶名、內(nèi)容、用戶ID、發(fā)表時間、攔截結(jié)果以及攔截原因的數(shù)據(jù)表,表內(nèi)數(shù)據(jù)只保存一段時間。
5.如權(quán)利要求2所述的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng),其特征在于 所述URL提取器使用正則表達式從解析后的數(shù)據(jù)中識別出所有URL ;所述有效URL次數(shù)統(tǒng)計模塊對每個URL進行次數(shù)統(tǒng)計,取URL庫數(shù)據(jù),做如下計算 查詢URL白名單表,若屬于白名單,標記所有URL為正常,跳過否則,從URL庫取數(shù)據(jù), 記錄所有URL出現(xiàn)次數(shù)的最大值。
6.如權(quán)利要求2所述的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng),其特征在于 所述聯(lián)系方式提取器可以提取解析后的數(shù)據(jù)中存在的聯(lián)系方式;所述聯(lián)系方式次數(shù)統(tǒng)計模塊用于統(tǒng)計從聯(lián)系方式庫中得到所有聯(lián)系方式出現(xiàn)次數(shù)的最大值。
7.如權(quán)利要求2所述的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng),其特征在于所述相似文章提取器用于提取用戶生成內(nèi)容數(shù)據(jù)中的特征詞,供相似文章次數(shù)統(tǒng)計進行分析和統(tǒng)計;所述相似文章次數(shù)統(tǒng)計模塊用于分析和統(tǒng)計與當前用戶生成內(nèi)容數(shù)據(jù)相似的文章最大個數(shù)。
8.如權(quán)利要求2所述的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng),其特征在于所述攔截結(jié)果生成模塊可以根據(jù)預先設(shè)置的攔截參數(shù)對上述幾個統(tǒng)計模塊產(chǎn)生的值進行評判,判斷所述用戶生成內(nèi)容是否為廣告帖或灌水帖;所述數(shù)據(jù)記錄模塊用于將攔截記錄、用戶生成內(nèi)容以及特征數(shù)據(jù)分別寫入內(nèi)容庫和特征庫;所述回查器根據(jù)攔截結(jié)果及攔截原因回查并修改內(nèi)容庫,并將需屏蔽ID集合提交至回查輸出模塊。
9.如權(quán)利要求2所述的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng),其特征在于所述攔截輸出模塊根據(jù)攔截結(jié)果生成模塊的攔截結(jié)果發(fā)送允許發(fā)布或拒絕發(fā)布的指令;所述回查輸出模塊整理回查器提交的需屏蔽ID集合,并發(fā)送操作指令。
10.一種互動產(chǎn)品用戶生成內(nèi)容攔截方法,基于如權(quán)利要求1所述的互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng)實現(xiàn),其特征在于包括如下的步驟a.接收XML格式的用戶生成內(nèi)容;b.對XML格式的用戶生成內(nèi)容進行解析;c.提取出URL并進行有效URL次數(shù)統(tǒng)計;d.提取出聯(lián)系方式并進行聯(lián)系方式次數(shù)統(tǒng)計;e.提取相似文章并進行相似文章次數(shù)統(tǒng)計;f.根據(jù)有效URL次數(shù)、聯(lián)系方式次數(shù)和相似文章次數(shù)生成攔截結(jié)果;g.更新內(nèi)容庫和特征庫;h.輸出攔截結(jié)果;i.輸出不予攔截的用戶生成內(nèi)容,由互動產(chǎn)品發(fā)布。
11.如權(quán)利要求10所述的互動產(chǎn)品用戶生成內(nèi)容攔截方法,其特征在于 可以根據(jù)需要查看和修改攔截結(jié)果、設(shè)置攔截參數(shù)以及設(shè)置URL白名單。
12.如權(quán)利要求10所述的互動產(chǎn)品用戶生成內(nèi)容攔截方法,其特征在于 所述步驟c中使用正則表達式從解析后的數(shù)據(jù)中提取出所有URL。
13.如權(quán)利要求10所述的互動產(chǎn)品用戶生成內(nèi)容攔截方法,其特征在于所述步驟f中的有效URL次數(shù)、聯(lián)系方式次數(shù)和相似文章次數(shù)各自具有預先設(shè)定的閥值,只要上述任何一項的次數(shù)超出閥值時,進行攔截。
14.如權(quán)利要求11所述的互動產(chǎn)品用戶生成內(nèi)容攔截方法,其特征在于 所述步驟g中更新內(nèi)容庫和特征庫,包括以下步驟將攔截記錄、用戶生成內(nèi)容以及特征文本分別寫入內(nèi)容庫和特征庫。
全文摘要
一種互動產(chǎn)品用戶生成內(nèi)容攔截系統(tǒng),包括攔截器、內(nèi)容庫、特征庫以及操作平臺和內(nèi)容生成器。其中,攔截器用于將分析用戶生成內(nèi)容,并利用分析結(jié)果判斷是否對用戶生成內(nèi)容進行攔截;內(nèi)容庫用于存儲用戶生成內(nèi)容;特征庫用來存儲用戶生成內(nèi)容的特征數(shù)據(jù);操作平臺用于修改攔截結(jié)果、設(shè)置攔截參數(shù)以及查看攔截結(jié)果;內(nèi)容生成器用于將經(jīng)攔截器判斷為不予攔截的用戶生成內(nèi)容發(fā)送給互動產(chǎn)品接口。
文檔編號G06F17/30GK102567534SQ20111045723
公開日2012年7月11日 申請日期2011年12月31日 優(yōu)先權(quán)日2011年12月31日
發(fā)明者劉宇, 吳華鵬, 曾明 申請人:鳳凰在線(北京)信息技術(shù)有限公司