專利名稱:處理信息的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機領(lǐng)域,特別涉及一種處理信息的方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,特別是Web 2. 0時代的到來,網(wǎng)絡應用越來越深入到人們的日常生活,各種UGC(User Generated Content,用戶生成內(nèi)容)應用已經(jīng)成為人們記錄和展示自我,增進親友間情感互動的一個重要平臺,比如個人空間,包括博客、留言板、微博、相冊等網(wǎng)絡應用。但隨之而來的SPAM(垃圾信息),也越來越猖獗,即惡意用戶可能在UGC應用中插入廣告,或是回復惡意信息。這些SPAM內(nèi)容不僅耗費大量互聯(lián)網(wǎng)資源,影響廣大網(wǎng)民的上網(wǎng)體驗,并且可能給安全意識不高的網(wǎng)民帶來經(jīng)濟損失,甚至可能引發(fā)社會不穩(wěn)定因素。目前UGC應用中對SPAM的判定方案基本都是基于待判定內(nèi)容的特征,包括發(fā)帖人屬性、內(nèi)容中的關(guān)鍵字、內(nèi)容重復程度等。SPAM判定系統(tǒng)首先建立一張?zhí)匦皂椀臋?quán)值表,當一條新UGC信息到達時,提取和計算信息中的所有特征項的值,并按各特征項的權(quán)重加權(quán)求和,得到關(guān)于這條UGC信息的是否SPAM的概率值,當概率值大于預先配置的閥值,則認為這條UGC信息是SPAM,系統(tǒng)自動從用戶數(shù)據(jù)塊中移除(或打標記),使發(fā)表UGC的用戶看不到該垃圾信息。在對現(xiàn)有技術(shù)進行分析后,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少具有如下缺點現(xiàn)有的SPAM判定方案只跟UGC內(nèi)容本身有關(guān),根據(jù)UGC的內(nèi)容特征來判斷其是否為垃圾信息,但是對于同一條UGC內(nèi)容,雖然系統(tǒng)判定其為SPAM,有的用戶可能也認為它是SPAM,但其他用戶卻可能認為它是正常信息,不是SPAM。因此現(xiàn)有對SPAM的判定方式,由于沒有考慮到用戶的想法,經(jīng)常會出現(xiàn)誤判和漏判情況,特別是誤判,極大地傷害用戶的情感,而漏判又讓SPAM制造者存僥幸心理,繼續(xù)從事這項非法工作,干擾正常的網(wǎng)絡環(huán)境。
發(fā)明內(nèi)容
為了更加精確的判定出SPAM,本發(fā)明實施例提供了一種處理信息的方法和裝置。所述技術(shù)方案如下—方面,提供了一種處理信息的方法,所述方法包括接收任一用戶對用戶生成內(nèi)容的回復信息,并判斷所述回復信息是否為垃圾信息;記錄所述判斷結(jié)果,使看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的二次判斷結(jié)果;根據(jù)所述所有用戶的二次判斷結(jié)果,將所述回復信息標記為正常信息或是垃圾信
肩、O所述判斷所述回復信息是否為垃圾信息,包括提取所述回復信息的各特征項;
對所述各特征項加權(quán)求和,得到所述回復信息是否為垃圾信息的概率值;如果得到的所述概率值大于預設(shè)閥值,則所述回復信息為垃圾信息。所述記錄所述判斷結(jié)果,使看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的二次判斷結(jié)果,包括如果所述判斷結(jié)果為是,則將所述回復信息歸到垃圾信息的分類中,使在所述垃圾信息的分類中看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的判斷結(jié)果;相應地,所述根據(jù)所述所有用戶的二次判斷結(jié)果,將所述回復信息標記為正常信息,包括:統(tǒng)計在所述垃圾信息的分類中看到所述回復信息的所有用戶對所述回復信息的 判斷結(jié)果為正常信息的人數(shù),判斷對所述回復信息的判斷結(jié)果為正常信息的人數(shù)是否滿足預設(shè)的閾值;如果是,則將所述回復信息標記為正常信息。所述將所述回復信息標記為正常信息,之前還包括判斷所述回復信息中是否有敏感信息;如果是,則對所述回復信息再次進行審核,審核通過后再繼續(xù)執(zhí)行步驟。所述將所述回復信息標記為正常信息,之后還包括記錄看到所述回復信息的用戶將所述垃圾信息判斷為正常信息的結(jié)果;根據(jù)所述記錄的所述用戶的判斷結(jié)果調(diào)整回復信息的各特征項的權(quán)重。所述記錄所述判斷結(jié)果,使看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的二次判斷結(jié)果,包括如果所述回復信息不是垃圾信息,則將所述回復信息歸到正常信息的分類中,使在所述正常信息的分類中看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的判斷結(jié)果;相應地,所述根據(jù)所述所有用戶的二次判斷結(jié)果,將所述回復信息標記為垃圾信息,包括:統(tǒng)計在所述正常信息的分類中看到所述回復信息的所有用戶對所述回復信息的判斷結(jié)果為垃圾信息的人數(shù),并判斷對所述回復信息的判斷結(jié)果為垃圾信息的人數(shù)是否滿足預設(shè)的閾值;如果是,則將所述回復信息標記為垃圾信息。所述將所述回復信息標記為垃圾信息,之后還包括記錄看到所述回復信息的用戶將所述正常信息判斷為垃圾信息的結(jié)果;根據(jù)所述記錄的所述用戶的判斷結(jié)果調(diào)整回復信息的各特征項的權(quán)重。另一方面,提供了一種處理信息的裝置,所述裝置包括第一判斷模塊,用于接收任一用戶對用戶生成內(nèi)容的回復信息,并判斷所述回復"[目息是否為垃圾彳目息;記錄模塊,用于記錄所述判斷結(jié)果,使看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的二次判斷結(jié)果;第二判斷模塊,用于根據(jù)所述所有用戶的二次判斷結(jié)果,將所述回復信息標記為正常"[目息或是垃圾"[目息。所述第一判斷模塊,包括提取單元,用于提取所述回復信息的各特征項;計算單元,用于對所述各特征項加權(quán)求和,得到所述回復信息是否為垃圾信息的概率值;判斷單元,用于如果所述計算單元得到的所述概率值大于預設(shè)閥值,則所述回復信息為垃圾信息。 所述記錄模塊,具體用于 如果所述第一判斷模塊的判斷結(jié)果為是,則將所述回復信息歸到垃圾信息的分類中,使在所述垃圾信息的分類中看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的判斷結(jié)果;相應地,所述第二判斷模塊,具體用于統(tǒng)計在所述垃圾信息的分類中看到所述回復信息的所有用戶對所述回復信息的判斷結(jié)果為正常信息的人數(shù),判斷對所述回復信息的判斷結(jié)果為正常信息的人數(shù)是否滿足預設(shè)的閾值;如果是,則將所述回復信息標記為正常信息。所述裝置還包括第三判斷模塊,用于將所述回復信息標記為正常信息之前,判斷所述回復信息中是否有敏感信息;如果是,則對所述回復信息再次進行審核,審核通過后再繼續(xù)執(zhí)行步驟。所述裝置還包括第一調(diào)整模塊,用于將所述回復信息標記為正常信息之后,記錄看到所述回復信息的用戶將所述垃圾信息判斷為正常信息的結(jié)果;根據(jù)所述記錄的所述用戶的判斷結(jié)果調(diào)整回復信息的各特征項的權(quán)重。所述記錄模塊,具體用于如果所述第一判斷模塊的判斷結(jié)果為否,則將所述回復信息歸到正常信息的分類中,使在所述正常信息的分類中看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的判斷結(jié)果;相應地,所述第二判斷模塊,具體用于統(tǒng)計在所述正常信息的分類中看到所述回復信息的所有用戶對所述回復信息的判斷結(jié)果為垃圾信息的人數(shù),并判斷對所述回復信息的判斷結(jié)果為垃圾信息的人數(shù)是否滿足預設(shè)的閾值;如果是,則將所述回復信息標記為垃圾信息。所述裝置還包括第二調(diào)整模塊,用于將所述回復信息標記為垃圾信息之后,記錄看到所述回復信息的用戶將所述正常信息判斷為垃圾信息的結(jié)果;根據(jù)所述記錄的所述用戶的判斷結(jié)果調(diào)整回復信息的各特征項的權(quán)重。本發(fā)明實施例提供的技術(shù)方案,依據(jù)用戶選擇輔助判斷UGC內(nèi)容中SPAM的方法,可以讓用戶看到并參與到系統(tǒng)對SPAM的判定中,提高系統(tǒng)對UGC內(nèi)容中SPAM判定的正確率和判定速度,且用戶可以對個人空間中的所有回復提交自己的判斷,有機會把系統(tǒng)誤判、非SPAM的內(nèi)容撥亂反正到正規(guī)內(nèi)容分類下,也可以把自己空間的單條回復歸類為SPAM,提高SPAM判定的精確率,提升用戶體驗。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I是本發(fā)明實施例I提供的一種處理信息的方法的流程圖;圖2是本發(fā)明實施例2提供的一種處理信息的方法的流程圖;圖3是本發(fā)明實施例3提供的一種處理信息的裝置的示意圖;圖4是本發(fā)明實施例3提供的另一種處理信息的裝置的示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細描述。實施例I參見圖1,本發(fā)明實施例提供了一種處理信息的方法,包括步驟101 :接收任一用戶對用戶生成內(nèi)容的回復信息,并判斷回復信息是否為垃圾信息;步驟102 :記錄判斷結(jié)果,使看到回復信息的所有用戶對回復信息進行二次判斷,并記錄所有用戶的二次判斷結(jié)果;步驟103 :根據(jù)所有用戶的二次判斷結(jié)果,將回復信息標記為正常信息或是垃圾信息。其中,判斷所述回復信息是否為垃圾信息,包括提取所述回復信息的各特征項;對所述各特征項加權(quán)求和,得到所述回復信息是否為垃圾信息的概率值;如果得到的所述概率值大于預設(shè)閥值,則所述回復信息為垃圾信息。其中,根據(jù)所有用戶的二次判斷結(jié)果,將回復信息標記為正常信息或是垃圾信息,包括如果判斷結(jié)果為是,則將回復信息歸到垃圾信息的分類中,使在垃圾信息的分類中看到回復信息的所有用戶對回復信息進行二次判斷,并記錄所有用戶的判斷結(jié)果;相應地,根據(jù)有用戶的二次判斷結(jié)果,將回復信息標記為正常信息,包括統(tǒng)計在垃圾信息的分類中看到回復信息的所有用戶對回復信息的判斷結(jié)果為正常信息的人數(shù),判斷對回復信息的判斷結(jié)果為正常信息的人數(shù)是否滿足預設(shè)的閾值;如果是,則將回復彳目息標記為正常彳目息??蛇x地,將回復信息標記為正常信息,之前還包括判斷回復信息中是否有敏感信息;如果是,則對回復信息再次進行審核,審核通過后再繼續(xù)執(zhí)行步驟??蛇x地,將回復信息標記為正常信息,之后還包括記錄看到回復信息的用戶將垃圾信息判斷為正常信息的結(jié)果;
根據(jù)記錄的用戶的判斷結(jié)果調(diào)整回復信息的各特征項的權(quán)重。進一步地,本實施例中根據(jù)所有用戶的二次判斷結(jié)果,將回復信息標記為正常信息或是垃圾"[目息,包括如果回復信息不是垃圾信息,則將回復信息歸到正常信息的分類中,使在正常信息的分類中看到回復信息的所有用戶對回復信息進行二次判斷,并記錄所有用戶的判斷結(jié)果;相應地,根據(jù)有用戶的二次判斷結(jié)果,將回復信息標記為垃圾信息,包括統(tǒng)計在正常信息的分類中看到回復信息的所有用戶對所述回復信息的判斷結(jié)果為垃圾信息的人數(shù),并判斷對回復信息的判斷結(jié)果為垃圾信息的人數(shù)是否滿足預設(shè)的閾值; 如果是,則將回復信息標記為垃圾信息??蛇x地,將回復信息標記為垃圾信息,之后還包括記錄看到回復信息的用戶將正常信息判斷為垃圾信息的結(jié)果;根據(jù)記錄的所述用戶的判斷結(jié)果調(diào)整回復信息的各特征項的權(quán)重。本發(fā)明實施例提供的技術(shù)方案,依據(jù)用戶選擇輔助判斷UGC內(nèi)容中SPAM的方法,可以讓用戶看到并參與到系統(tǒng)對SPAM的判定中,提高系統(tǒng)對UGC內(nèi)容中SPAM判定的正確率和判定速度,且用戶可以對個人空間中的所有回復提交自己的判斷,有機會把系統(tǒng)誤判、非SPAM的內(nèi)容撥亂反正到正規(guī)內(nèi)容分類下,也可以把自己空間的單條回復歸類為SPAM,提高SPAM判定的精確率,提升用戶體驗。實施例2參見圖2,本發(fā)明實施例提供了一種處理信息的方法,包括步驟201 =SPAM判定系統(tǒng)接收UGC的回復信息。本實施例中,由于UGC發(fā)表在互聯(lián)網(wǎng)上,互聯(lián)網(wǎng)上的用戶可以通過一定的途徑看到該UGC,并進行回復,其中互聯(lián)網(wǎng)上的用戶可能有該發(fā)表用戶的好友,也可能有廣告商或是其他惡意用戶。為了保護用戶個人空間的整潔與安全,UGC的每個回復都需先經(jīng)過SPAM系統(tǒng)進行驗證,以判定其是否為垃圾信息。步驟202 :判斷該回復信息是否為垃圾信息,如果是,則執(zhí)行步驟203,否則執(zhí)行步驟 206。其中,SPAM判定系統(tǒng)首先建立一張?zhí)匦皂椀臋?quán)值表,在收到UGC的回復信息后,根據(jù)該特性表項的記錄提取回復信息的相關(guān)特性項,從而判定該回復信息是否為垃圾信息,具體包括I)提取和計算回復信息中的所有特征項的值;2)對各特征項的權(quán)重加權(quán)求和,得到回復信息是否為垃圾信息的概率值;3)如果得到的概率值大于預設(shè)閥值,則回復信息為垃圾信息,否則回復信息為正
常信息。本實施例中,可選地,對于判定為SPAM的內(nèi)容,系統(tǒng)還會標記這條內(nèi)容是否包含敏感信息,以便用戶再次進行判定時,如果將該SPAM判為非SPAM,能對包含敏感信息的內(nèi)容進行再次判定。步驟203 :將回復信息歸到垃圾信息分類中,使在垃圾信息的分類中看到回復信息的所有用戶對回復信息進行二次判斷,并記錄所有用戶的判斷結(jié)果。其中,系統(tǒng)在判斷出該回復信息為SPAM或非SPAM后,可選地,將該回復信息歸到垃圾信息分類中或是正常信息分類中,使用戶在打開個人空間時,能夠直接看到哪些是垃圾信息,哪些是非垃圾信息,在此基礎(chǔ)上再進一步對回復信息進行驗證。其中,可以為垃圾信息分類和正常信息分類分別建立不同的文件夾,也可以采用別的方式對這兩種信息進行分類,對此本實施例不做具體限定。步驟204 :統(tǒng)計在垃圾信息的分類中看到回 復信息的所有用戶對回復信息的判斷結(jié)果為正常信息的人數(shù)。本實施例中,為了照顧大多數(shù)用戶的感受,不會依據(jù)某個用戶對回復信息的判斷結(jié)果,就將回復信息重新歸類,而是事先設(shè)定閾值,當持有相同判斷結(jié)果的人數(shù)滿足預設(shè)數(shù)值時,才將回復信息重新歸類。所以,系統(tǒng)會記錄每個用戶的二次判斷結(jié)果,并統(tǒng)計不同判斷的結(jié)果的人數(shù)。步驟205 :判斷對回復信息的判斷結(jié)果為正常信息的人數(shù)是否滿足預設(shè)的閾值,如果是,則將回復信息標記為正常信息;否則將該回復信息刪除。本實施例中,在SPAM判定系統(tǒng)對UGC的回復信息進行判斷后,將回復信息進行分類,將接收到的UGC的回復信息都存在用戶的個人空間中,當用戶訪問空間時,在不同的分類結(jié)果中能夠看到所有的回復信息,進一步地,用戶對系統(tǒng)已經(jīng)做出判定的回復信息再次進行判定,使用戶不會漏掉任何一個對于該用戶來說是可用的信息。如,當系統(tǒng)判定該回復信息為垃圾信息后,將其歸為垃圾信息一類,則用戶可以打開垃圾郵件,查看該回復信息,并根據(jù)自身的需求判斷該回復信息是否為垃圾信息,如果是則將其移除或是打標記,否則將其歸為正常信息。其中,由于大部分個人空間是公開的,任何用戶對一條回復的非SPAM判定都可以讓所有網(wǎng)民看到這條回復,而對于一些敏感信息,這一策略顯然不合適,因此對于敏感信息,用戶只能提交扭轉(zhuǎn)申請,并不能立刻修改這條評論的狀態(tài)。所以,可選地,對用戶進行二次判斷后的回復信息再次進行審核,審核通過后再繼續(xù)執(zhí)行步驟。步驟206 :將回復信息歸到正常信息分類中,使在正常信息的分類中看到回復信息的所有用戶對回復信息進行二次判斷,并記錄所有用戶的判斷結(jié)果。本實施例中,當系統(tǒng)判定回復信息為正常信息后,將該回復信息歸到正常信息的分類中,用戶可以在正常信息的分類中看到該回復信息,并對其再次進行判斷,記錄用戶的判斷結(jié)果,以便統(tǒng)計發(fā)表統(tǒng)一判斷結(jié)果的人數(shù)。步驟207 :統(tǒng)計在正常信息的分類中看到回復信息的所有用戶對回復信息的判斷結(jié)果為垃圾信息的人數(shù)。步驟208 :判斷對回復信息的判斷結(jié)果為垃圾信息的人數(shù)是否滿足預設(shè)的閾值,如果是,則將該回復信息刪除。本實施例中,系統(tǒng)判定該回復信息為非垃圾信息(正常信息)后,將該回復信息歸為正常信息一類,則用戶查看被系統(tǒng)歸為正常信息的回復信息,根據(jù)自身的需求判斷該回復"[目息是否為垃圾"[目息,如果是則將其移除或是打標記,否則將其歸為正常彳目息。由于在互聯(lián)網(wǎng)UGC應用中,所有的內(nèi)容都是用戶提交,用戶很珍視自己的網(wǎng)絡空間,有意愿維護自己空間內(nèi)的整潔,不希望SPAM的存在,因此本實施例中在SPAM判定中引入用戶的判定因素,用戶可以第一時間修正系統(tǒng)判定結(jié)果,則系統(tǒng)對SPAM判定的正確率和精確率會直接提升。而由于用戶個性的不同,對同一條UGC回復,不同用戶對其是否為SPAM的判定可能不一致,用戶可以在個人空間內(nèi)修正某條UGC回復是否為SPAM的判定,但并不會立即影響系統(tǒng)的判定結(jié)果發(fā)生扭轉(zhuǎn)。本實施例中,用戶在個人空間可以看到系統(tǒng)判定的SPAM內(nèi)容,也可以看到正常內(nèi)容(系統(tǒng)認為內(nèi)容正常)。若用戶認為其中一條被系統(tǒng)判定為正常的回復是SPAM,他可以在個人空間直接把這條回復標記為SPAM,這條回復會從他的空間立即消失,且可選地,用戶的選擇會反饋給系統(tǒng),影響系統(tǒng)對其他類似回復的評判,及記錄用戶對回復信息的判斷結(jié)果,根據(jù)記錄的用戶的判斷結(jié)果調(diào)整回復信息的各特征項的權(quán)重。若用戶認為其中一條被系統(tǒng)判定為SPAM的回復是正常內(nèi)容,且這條回復不包含敏感信息,則用戶可以在個人空間直接把這條回復標記為正常,這條回復會重新出現(xiàn)在他的空間,且可選地,用戶的選擇會反饋給系統(tǒng),影響系統(tǒng)對其他類似回復的評判;若這條回復包含敏感信息,則用戶的選擇并不能立刻生效,需等待后臺審核才能決定這條信息是否可歸類為正常。 其中,步驟203-208為SPAM判定系統(tǒng)記錄自身判斷結(jié)果,使看到回復信息的所有用戶對回復信息進行二次判斷,并記錄所有用戶的二次判斷結(jié)果;并根據(jù)所有用戶的二次判斷結(jié)果,將回復信息標記為正常信息或是垃圾信息的具體執(zhí)行步驟。本發(fā)明實施例提供的技術(shù)方案的有益效果是依據(jù)用戶選擇輔助判斷UGC內(nèi)容中SPAM的方法,可以讓用戶看到并參與到系統(tǒng)對SPAM的判定中,提高系統(tǒng)對UGC內(nèi)容中SPAM判定的正確率和判定速度,且用戶可以對個人空間中的所有回復提交自己的判斷,有機會把系統(tǒng)誤判、非SPAM的內(nèi)容撥亂反正到正規(guī)內(nèi)容分類下,也可以把自己空間的單條回復歸類為SPAM,提高SPAM判定的精確率,提升用戶體驗。實施例3參見圖3,本發(fā)明實施例提供了一種處理信息的裝置,所述裝置包括第一判斷模塊301、記錄模塊302、第二判斷模塊303。第一判斷模塊301,用于接收任一用戶對用戶生成內(nèi)容的回復信息,并判斷回復信息是否為垃圾彳目息;記錄模塊302,用于記錄判斷結(jié)果,使看到回復信息的所有用戶對回復信息進行二次判斷,并記錄所有用戶的二次判斷結(jié)果;第二判斷模塊303,根據(jù)所有用戶的二次判斷結(jié)果,將回復信息標記為正常信息或是垃圾/[目息。其中,參見圖4,第一判斷模塊301,包括提取單元301a,用于提取回復信息的各特征項;計算單元301b,用于對各特征項加權(quán)求和,得到回復信息是否為垃圾信息的概率值;判斷單元301c,用于如果計算單元得到的概率值大于預設(shè)閥值,則回復信息為垃圾信息。其中,記錄模塊302,具體用于如果第一判斷模塊的判斷結(jié)果為是,則將回復信息歸到垃圾信息的分類中,使在垃圾信息的分類中看到回復信息的所有用戶對回復信息進行二次判斷,并記錄所有用戶的判斷結(jié)果;相應地,第二判斷模塊,具體用于統(tǒng)計在垃圾信息的分類中看到回復信息的所有用戶對回復信息的判斷結(jié)果為正常信息的人數(shù),判斷對回復信息的判斷結(jié)果為正常信息的人數(shù)是否滿足預設(shè)的閾值;如果是,則將回復彳目息標記為正常彳目 息。參見圖4,可選地,裝置還包括第三判斷模塊304,用于將回復信息標記為正常信息之前,判斷回復信息中是否有敏感信息;如果是,則對回復信息再次進行審核,審核通過后再繼續(xù)執(zhí)行步驟。參見圖4,可選地,裝置還包括第一調(diào)整模塊305,用于將回復信息標記為正常信息之后,記錄看到回復信息的用戶將垃圾信息判斷為正常信息的結(jié)果;根據(jù)記錄的用戶的判斷結(jié)果調(diào)整回復信息的各特征項的權(quán)重。參見圖4,可選地,記錄模塊302,具體用于如果第一判斷模塊的判斷結(jié)果為否,則將回復信息歸到正常信息的分類中,使在正常信息的分類中看到回復信息的所有用戶對回復信息進行二次判斷,并記錄所有用戶的判斷結(jié)果;相應地,第二判斷模塊303,具體用于統(tǒng)計在正常信息的分類中看到回復信息的所有用戶對回復信息的判斷結(jié)果為垃圾信息的人數(shù),并判斷對回復信息的判斷結(jié)果為垃圾信息的人數(shù)是否滿足預設(shè)的閾值;如果是,則將回復信息標記為垃圾信息。參見圖4,可選地,裝置還包括第二調(diào)整模塊306,用于將回復信息標記為垃圾信息之后,記錄看到回復信息的用戶將正常信息判斷為垃圾信息的結(jié)果;根據(jù)記錄的用戶的判斷結(jié)果調(diào)整回復信息的各特征項的權(quán)重。本發(fā)明實施例提供的技術(shù)方案,依據(jù)用戶選擇輔助判斷UGC內(nèi)容中SPAM的方法,可以讓用戶看到并參與到系統(tǒng)對SPAM的判定中,提高系統(tǒng)對UGC內(nèi)容中SPAM判定的正確率和判定速度,且用戶可以對個人空間中的所有回復提交自己的判斷,有機會把系統(tǒng)誤判、非SPAM的內(nèi)容撥亂反正到正規(guī)內(nèi)容分類下,也可以把自己空間的單條回復歸類為SPAM,提高SPAM判定的精確率,提升用戶體驗。本實施例提供的裝置,具體可以,與方法實施例屬于同一構(gòu)思,其具體實現(xiàn)過程詳見方法實施例,這里不再贅述。本發(fā)明實施例提供的上述技術(shù)方案的全部或部分可以通過程序指令相關(guān)的硬件來完成,所述程序可以存儲在可讀取的存儲介質(zhì)中,該存儲介質(zhì)包括R0M、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種處理信息的方法,其特征在于,所述方法包括 接收任一用戶對用戶生成內(nèi)容的回復信息,判斷所述回復信息是否為垃圾信息; 記錄所述判斷結(jié)果,使看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的二次判斷結(jié)果; 根據(jù)所述所有用戶的二次判斷結(jié)果,將所述回復信息標記為正常信息或是垃圾信息。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述判斷所述回復信息是否為垃圾信息,包括 提取所述回復信息的各特征項; 對所述各特征項加權(quán)求和,得到所述回復信息是否為垃圾信息的概率值; 如果得到的所述概率值大于預設(shè)閥值,則所述回復信息為垃圾信息。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述記錄所述判斷結(jié)果,使看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的二次判斷結(jié)果,包括 如果所述判斷結(jié)果為是,則將所述回復信息歸到垃圾信息的分類中,使在所述垃圾信息的分類中看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的判斷結(jié)果; 相應地,所述根據(jù)所述所有用戶的二次判斷結(jié)果,將所述回復信息標記為正常信息,包括 統(tǒng)計在所述垃圾信息的分類中看到所述回復信息的所有用戶對所述回復信息的判斷結(jié)果為正常信息的人數(shù),判斷對所述回復信息的判斷結(jié)果為正常信息的人數(shù)是否滿足預設(shè)的閾值; 如果是,則將所述回復信息標記為正常信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將所述回復信息標記為正常信息,之前還包括 判斷所述回復信息中是否有敏感信息; 如果是,則對所述回復信息再次進行審核,審核通過后再繼續(xù)執(zhí)行步驟。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將所述回復信息標記為正常信息,之后還包括 記錄看到所述回復信息的用戶將所述垃圾信息判斷為正常信息的結(jié)果; 根據(jù)所述記錄的所述用戶的判斷結(jié)果調(diào)整回復信息的各特征項的權(quán)重。
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述記錄所述判斷結(jié)果,使看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的二次判斷結(jié)果,包括 如果所述判斷結(jié)果為否,則將所述回復信息歸到正常信息的分類中,使在所述正常信息的分類中看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的判斷結(jié)果; 相應地,所述根據(jù)所述所有用戶的二次判斷結(jié)果,將所述回復信息標記為垃圾信息,包括 統(tǒng)計在所述正常信息的分類中看到所述回復信息的所有用戶對所述回復信息的判斷結(jié)果為垃圾信息的人數(shù),并判斷對所述回復信息的判斷結(jié)果為垃圾信息的人數(shù)是否滿足預設(shè)的閾值; 如果是,則將所述回復信息標記為垃圾信息。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述將所述回復信息標記為垃圾信息,之后還包括 記錄看到所述回復信息的用戶將所述正常信息判斷為垃圾信息的結(jié)果; 根據(jù)所述記錄的所述用戶的判斷結(jié)果調(diào)整回復信息的各特征項的權(quán)重。
8.—種處理信息的裝置,其特征在于,所述裝置包括 第一判斷模塊,用于接收任一用戶對用戶生成內(nèi)容的回復信息,并判斷所述回復信息是否為垃圾彳目息; 記錄模塊,用于記錄所述判斷結(jié)果,使看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的二次判斷結(jié)果; 第二判斷模塊,用于根據(jù)所述所有用戶的二次判斷結(jié)果,將所述回復信息標記為正常Ih息或是垃圾"[目息o
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第一判斷模塊,包括 提取單元,用于提取所述回復信息的各特征項; 計算單元,用于對所述各特征項加權(quán)求和,得到所述回復信息是否為垃圾信息的概率值; 判斷單元,用于如果所述計算單元得到的所述概率值大于預設(shè)閥值,則所述回復信息為垃圾信息。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述記錄模塊,具體用于 如果所述第一判斷模塊的判斷結(jié)果為是,則將所述回復信息歸到垃圾信息的分類中,使在所述垃圾信息的分類中看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的判斷結(jié)果; 相應地,所述第二判斷模塊,具體用于 統(tǒng)計在所述垃圾信息的分類中看到所述回復信息的所有用戶對所述回復信息的判斷結(jié)果為正常信息的人數(shù),判斷對所述回復信息的判斷結(jié)果為正常信息的人數(shù)是否滿足預設(shè)的閾值;如果是,則將所述回復信息標記為正常信息。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括 第三判斷模塊,用于將所述回復信息標記為正常信息之前,判斷所述回復信息中是否有敏感信息;如果是,則對所述回復信息再次進行審核,審核通過后再繼續(xù)執(zhí)行步驟。
12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括 第一調(diào)整模塊,用于將所述回復信息標記為正常信息之后,記錄看到所述回復信息的用戶將所述垃圾信息判斷為正常信息的結(jié)果;根據(jù)所述記錄的所述用戶的判斷結(jié)果調(diào)整回復信息的各特征項的權(quán)重。
13.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝記錄模塊,具體用于 如果所述第一判斷模塊的判斷結(jié)果為否,則將所述回復信息歸到正常信息的分類中,使在所述正常信息的分類中看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述所有用戶的判斷結(jié)果;相應地,所述第二判斷模塊,具體用于 統(tǒng)計在所述正常信息的分類中看到所述回復信息的所有用戶對所述回復信息的判斷結(jié)果為垃圾信息的人數(shù),并判斷對所述回復信息的判斷結(jié)果為垃圾信息的人數(shù)是否滿足預設(shè)的閾值;如果是,則將所述回復信息標記為垃圾信息。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括 第二調(diào)整模塊,用于將所述回復信息標記為垃圾信息之后,記錄看到所述回復信息的用戶將所述正常信息判斷為垃圾信息的結(jié)果;根據(jù)所述記錄的所述用戶的判斷結(jié)果調(diào)整回復信息的各特征項的權(quán)重。
全文摘要
本發(fā)明公開了一種處理信息的方法和裝置,屬于計算機領(lǐng)域。所述方法包括接收任一用戶對用戶生成內(nèi)容的回復信息,并判斷所述回復信息是否為垃圾信息;如果是,則將所述回復信息歸到垃圾信息的分類中,使在所述垃圾信息的分類中看到所述回復信息的所有用戶對所述回復信息進行二次判斷,并記錄所述判斷結(jié)果;統(tǒng)計在所述垃圾信息的分類中看到所述回復信息的所有用戶對所述回復信息的判斷結(jié)果為正常信息的人數(shù),判斷對所述回復信息的判斷結(jié)果為正常信息的人數(shù)是否滿足預設(shè)的閾值;如果是,則將所述回復信息標記為正常信息。
文檔編號G06F17/30GK102760130SQ20111010752
公開日2012年10月31日 申請日期2011年4月27日 優(yōu)先權(quán)日2011年4月27日
發(fā)明者周文江, 李勤學, 鄭志昊 申請人:騰訊科技(深圳)有限公司