亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于評估垃圾信息挖掘規(guī)則的方法與設(shè)備的制作方法

文檔序號:6432639閱讀:141來源:國知局
專利名稱:一種用于評估垃圾信息挖掘規(guī)則的方法與設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種用于評估垃圾信息挖掘規(guī)則的技術(shù)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用,越來越多的用戶通過開放式互動平臺發(fā)布并接收 大量信息,充分利用互聯(lián)網(wǎng)進行信息的交流和資源共享。但是,這些信息中包含著大量的垃 圾信息,所述垃圾信息可能是一些批量發(fā)布、具有非法目的的信息,占用大量網(wǎng)絡(luò)資源,并 且極大地造成了網(wǎng)絡(luò)安全隱患。目前的開放式互動平臺均采取了一定的措施,通過對垃圾 信息進行挖掘,檢測并處理該開放式互動平臺中的垃圾信息。但是,由于互動平臺管理者無 法獲知開放式互動平臺中的垃圾信息是否已有效地挖掘出,進而無法對挖掘、檢測方式進 行相應(yīng)的優(yōu)化,從而無法保障網(wǎng)絡(luò)資源的節(jié)約、開放式互動平臺的清潔的目的。
因此,如何有效地評估垃圾信息挖掘規(guī)則,成為目前亟待解決的問題之一。發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于評估垃圾信息挖掘規(guī)則的方法與設(shè)備。
根據(jù)本發(fā)明的一個方面,提供了一種用于評估垃圾信息挖掘規(guī)則的方法,其中,該 方法包括以下步驟
a獲取待評估的挖掘規(guī)則;
b獲取用于評估所述挖掘規(guī)則的信息發(fā)布樣本;
c基于所述挖掘規(guī)則,對所述信息發(fā)布樣本進行垃圾信息挖掘,獲取與所述信息發(fā) 布樣本相對應(yīng)的垃圾信息;
d根據(jù)所述垃圾信息,結(jié)合所述信息發(fā)布樣本,獲取與所述挖掘規(guī)則相對應(yīng)的至少 一項評價參數(shù)。
根據(jù)本發(fā)明的另一方面,還提供了一種用于評估垃圾信息挖掘規(guī)則的設(shè)備,其中, 該設(shè)備包括
規(guī)則獲取裝置,用于獲取待評估的挖掘規(guī)則;
樣本獲取裝置,用于獲取用于評估所述挖掘規(guī)則的信息發(fā)布樣本;
垃圾信息獲取裝置,用于基于所述挖掘規(guī)則,對所述信息發(fā)布樣本進行垃圾信息 挖掘,獲取與所述信息發(fā)布樣本相對應(yīng)的垃圾信息;
參數(shù)獲取裝置,用于根據(jù)所述垃圾信息,結(jié)合所述信息發(fā)布樣本,獲取與所述挖掘 規(guī)則相對應(yīng)的至少一項評價參數(shù)。
與現(xiàn)有技術(shù)相比,本發(fā)明通過獲取與待評估的挖掘規(guī)則相對應(yīng)的至少一項評價參 數(shù),向互動平臺管理者提供了對該挖掘規(guī)則進行評估的指標,進而可對該挖掘規(guī)則進行優(yōu) 化更新,以提高所述各項評價參數(shù),使得互動平臺可以更為準確判斷垃圾信息并對其進行 處理,從而保障互動平臺的正常工作,進一步達到節(jié)約網(wǎng)絡(luò)資源、清潔開放式互動平臺的目 的。


通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它 特征、目的和優(yōu)點將會變得更明顯
圖I示出根據(jù)本發(fā)明一個方面用于評估垃圾信息挖掘規(guī)則的設(shè)備示意圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于評估垃圾信息挖掘規(guī)則的設(shè)備示意 圖3示出根據(jù)本發(fā)明另一個方面用于評估垃圾信息挖掘規(guī)則的方法流程圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于評估垃圾信息挖掘規(guī)則方法流程圖。
附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施方式
下面結(jié)合附圖對本發(fā)明作進一步詳細描述。
圖I示出根據(jù)本發(fā)明一個方面用于評估垃圾信息挖掘規(guī)則的設(shè)備示意圖。評估設(shè) 備I包括規(guī)則獲取裝置11、樣本獲取裝置12、垃圾信息獲取裝置13、參數(shù)獲取裝置14。在 此,評估設(shè)備I包括但不限于計算機、網(wǎng)絡(luò)主機、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或多 個服務(wù)器構(gòu)成的云。在此,云由基于云計算(Cloud Computing)的大量計算機或網(wǎng)絡(luò)服務(wù) 器構(gòu)成,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛 擬計算機。
具體地,規(guī)則獲取裝置11獲取待評估的挖掘規(guī)則。更具體地,規(guī)則獲取裝置11定 期或應(yīng)事件觸發(fā)實時地獲取待評估的挖掘規(guī)則,例如通過實時監(jiān)聽網(wǎng)絡(luò)服務(wù)器等網(wǎng)絡(luò)設(shè)備 發(fā)送的待評估的挖掘規(guī)則的請求,以獲得待評估的挖掘規(guī)則,或者定期地通過約定的通信 方式,如http、https等通信協(xié)議,直接從評估設(shè)備I的其他部分或第三方設(shè)備讀取待評估 的挖掘規(guī)則。例如,假設(shè)評估設(shè)備I為網(wǎng)絡(luò)服務(wù)器,該網(wǎng)絡(luò)服務(wù)器的規(guī)則獲取裝置11通過實 時監(jiān)聽用于垃圾信息挖掘的另一網(wǎng)絡(luò)服務(wù)器,獲取該另一網(wǎng)絡(luò)服務(wù)器通過http通信協(xié)議 發(fā)送的基于待評估的挖掘規(guī)則包裝成的http請求,該規(guī)則獲取裝置11解析該http請求, 并獲取其中的待評估的挖掘規(guī)則。又如,規(guī)則獲取裝置11按一定周期,定期地通過調(diào)用預(yù) 定的應(yīng)用編程接口(API)向第三方設(shè)備發(fā)送獲取待評估的挖掘規(guī)則的請求,并接收該第三 方設(shè)備返回的待評估的挖掘規(guī)則。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取待評估的挖掘規(guī)則的 方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取待評估的挖掘規(guī)則的方式如可適用于本 發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
樣本獲取裝置12獲取用于評估所述挖掘規(guī)則的信息發(fā)布樣本。具體地,樣本獲取 裝置12通過諸如按照預(yù)先約定的通信協(xié)議從網(wǎng)絡(luò)互動平臺中隨機地提取多條發(fā)布信息, 或從信息發(fā)布樣本庫中獲取多條發(fā)布信息,其中,這些發(fā)布信息預(yù)先標有垃圾信息標識,以 區(qū)分其為垃圾信息或正常信息,并將該等多條發(fā)布信息作為用于評估規(guī)則獲取裝置11獲 取的挖掘規(guī)則的信息發(fā)布樣本。其中,所述垃圾信息標識用于標識每條發(fā)布信息是否為真 正的垃圾信息。在此,信息發(fā)布樣本包括但不限于I)多條發(fā)布信息及其內(nèi)容,如網(wǎng)絡(luò)社區(qū) 中的多個帖子及其內(nèi)容;2)垃圾信息標識。在此,信息發(fā)布樣本庫用于存儲多條發(fā)布信息 及其垃圾信息標識,包括但不限于關(guān)系數(shù)據(jù)庫,內(nèi)存存儲器,硬盤存儲器等。例如,假設(shè)網(wǎng)絡(luò)互動平臺中的發(fā)布信息保存在網(wǎng)絡(luò)服務(wù)器中,樣本獲取裝置12按照預(yù)先約定的通信協(xié)議, 如http、https等通信協(xié)議,向該網(wǎng)絡(luò)服務(wù)器發(fā)送獲取用于評估挖掘規(guī)則的信息發(fā)布樣本 的請求,并接受該網(wǎng)絡(luò)服務(wù)器隨機獲取的網(wǎng)絡(luò)互動平臺中的多條標有垃圾信息標識的發(fā)布 信息,作為用于評估規(guī)則獲取裝置11獲取的挖掘規(guī)則的信息發(fā)布樣本,其中,所述網(wǎng)絡(luò)互 動平臺包括但不限于網(wǎng)絡(luò)社區(qū)、貼吧、博客、微薄、新聞評論、短信互動等。又例如,樣本獲 取裝置12從信息發(fā)布樣本庫中按照一定比例獲取真正的垃圾信息與非垃圾信息,并將其 作為用于評估規(guī)則獲取裝置11獲取的挖掘規(guī)則的信息發(fā)布樣本。本領(lǐng)域技術(shù)人員應(yīng)能理 解上述獲取信息發(fā)布樣本的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取信息發(fā)布樣 本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于 此。
本領(lǐng)域技術(shù)人員應(yīng)能理解上述規(guī)則獲取裝置11與樣本獲取裝置12的執(zhí)行順序僅 為舉例,在實踐中,它們可以以任意順序執(zhí)行,如并行或串行。本領(lǐng)域技術(shù)人員還應(yīng)能理解, 圖I中僅為簡明起見而示出的規(guī)則獲取裝置11先于樣本獲取裝置12執(zhí)行的執(zhí)行順序,但 這種省略無疑地是以不會影響對本發(fā)明進行清楚、充分的公開為前提的。
接著,垃圾信息獲取裝置13基于所述挖掘規(guī)則,對所述信息發(fā)布樣本進行垃圾信 息挖掘,獲取與所述信息發(fā)布樣本相對應(yīng)的垃圾信息。具體地,垃圾信息獲取裝置13基于 規(guī)則獲取裝置11獲取的挖掘規(guī)則,如一個信息發(fā)布者ID的信息發(fā)布頻次是否超過預(yù)定的 頻次閾值,信息發(fā)布者是否在黑名單中、發(fā)布信息的內(nèi)容中是否包含垃圾詞匯等,對樣本獲 取裝置12獲取的信息發(fā)布樣本中的發(fā)布信息進行判斷分析,例如當一條或多條發(fā)布信息 滿足如任一項挖掘規(guī)則或全部挖掘規(guī)則時,則判斷該一條或多條發(fā)布信息為垃圾信息,從 而獲取該信息發(fā)布樣本中的全部垃圾信息。
例如,假設(shè)規(guī)則獲取裝置11獲取的挖掘規(guī)則為若信息發(fā)布者ID在黑名單中或發(fā) 布信息中包含垃圾詞匯則該發(fā)布信息為垃圾信息;隨后,樣本獲取裝置12獲取的信息發(fā)布 樣本中包括三條發(fā)布信息,其內(nèi)容分別為
a “辦證,撥打電話 13811112222”,
b “大家都開心嗎”,
c “我希望能結(jié)交朋友”;
接著,基于該兩項挖掘規(guī)則,垃圾信息獲取裝置13對該三條發(fā)布信息進行判斷分 析,將發(fā)布信息a的內(nèi)容在垃圾詞庫中進行字符串匹配,以獲得“辦證”為垃圾詞匯,且發(fā)布 信息c的信息發(fā)布者ID在黑名單中,則判斷在該信息發(fā)布樣本中發(fā)布信息a和發(fā)布信息c 為垃圾信息。
又例如,假設(shè)規(guī)則獲取裝置11獲取的挖掘規(guī)則為若一個信息發(fā)布者ID發(fā)布同一 發(fā)布信息內(nèi)容的頻次超過預(yù)定的頻次閾值且發(fā)布信息中包含垃圾詞匯則該發(fā)布信息為垃 圾信息;隨后,樣本獲取裝置12獲取的信息發(fā)布樣本中包括20條發(fā)布信息,其中10條發(fā) 布信息的內(nèi)容均為“本店出售各類減肥藥,價格從優(yōu)”,且信息發(fā)布者ID相同,并在I分鐘 之內(nèi)發(fā)送;接著,垃圾信息獲取裝置13基于該兩項挖掘規(guī)則對該10條發(fā)布信息進行分析, 以確定該10條發(fā)布信息內(nèi)容相同且由同一信息發(fā)布者ID發(fā)布,從而可判斷該十條發(fā)布信 息為同一條信息的10次連續(xù)發(fā)布,信息發(fā)布的頻次為10次/分鐘大于預(yù)定的頻次閾值5 次/分鐘,同時垃圾信息獲取裝置13將其在垃圾詞庫中進行字符串匹配,并據(jù)此獲得“出售”、“減肥藥”為垃圾詞匯,進而垃圾信息獲取裝置13獲得在該信息發(fā)布樣本中的該10條 發(fā)布信息為垃圾信息。在此,所舉實施例中所述垃圾詞匯包括但不限于禁止詞、侵權(quán)詞、不 雅詞、政治性、煽動性的詞語、廣告詞等,所舉實施例中所述垃圾詞庫用于存儲垃圾詞匯,包 括但不限于關(guān)系數(shù)據(jù)庫,內(nèi)存存儲器,硬盤存儲器等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取垃 圾信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取垃圾信息的方式如可適用于本 發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
接著,參數(shù)獲取裝置14根據(jù)所述垃圾信息,結(jié)合所述信息發(fā)布樣本,獲取與所述 挖掘規(guī)則相對應(yīng)的至少一項評價參數(shù)。具體地,參數(shù)獲取裝置14根據(jù)垃圾信息獲取裝置 13通過垃圾信息挖掘獲取的垃圾信息,并結(jié)合樣本獲取裝置12獲取的信息發(fā)布樣本中包 含的多個發(fā)布信息及其垃圾信息標識,進行分析比對,從而獲得在該等垃圾信息中真正的 垃圾信息數(shù)量與非垃圾信息數(shù)量,進而參數(shù)獲取裝置14根據(jù)信息發(fā)布樣本中的發(fā)布信息 數(shù)量,以獲得至少一個評價參數(shù),如所述挖掘規(guī)則的召回率。其中,所述評價參數(shù)包括但不 限于1)與所述挖掘規(guī)則相對應(yīng)的召回率,計算公式為“召回率=通過垃圾信息挖掘獲得 的真正的垃圾信息數(shù)量/信息發(fā)布樣本中真正的垃圾信息數(shù)量” ;2)與所述挖掘規(guī)則相對 應(yīng)的準確率,計算公式為“準確率=通過垃圾信息挖掘獲得的真正的垃圾信息數(shù)量/通過 垃圾信息挖掘獲得的垃圾信息數(shù)量”。例如,假設(shè)信息發(fā)布樣本中包含500條發(fā)布信息,其 中垃圾信息標識示出其為真正的垃圾信息的發(fā)布信息數(shù)量為100條,垃圾信息獲取裝置13 從該信息發(fā)布樣本通過垃圾信息挖掘獲得的垃圾信息數(shù)量為80條;接著,參數(shù)獲取裝置14 根據(jù)該信息發(fā)布樣本,將該些通過垃圾信息挖掘獲得垃圾信息與該信息發(fā)布樣本中真正的 垃圾信息進行比對,以獲得該些通過垃圾信息挖掘獲得的真正的垃圾信息數(shù)量為40條,進 而參數(shù)獲取裝置14通過公式“準確率=通過垃圾信息挖掘獲得的真正的垃圾信息數(shù)量/通 過垃圾信息挖掘獲得的垃圾信息數(shù)量”,計算獲得評價參數(shù)準確率為50% ( = 40/80),通過 公式“召回率=通過垃圾信息挖掘獲得的真正的垃圾信息數(shù)量/信息發(fā)布樣本中真正的垃 圾信息數(shù)量”,計算獲得召回率為40% ( = 40/100)。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取評 價參數(shù)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取評價參數(shù)的方式如可適用于本 發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
優(yōu)選地,規(guī)則獲取裝置11、樣本獲取裝置12、垃圾信息獲取裝置13和參數(shù)獲取裝 置14之間可以是持續(xù)不斷地工作。具體地,規(guī)則獲取裝置11獲取待評估的挖掘規(guī)則;樣本 獲取裝置12獲取用于評估所述挖掘規(guī)則的信息發(fā)布樣本;接著,垃圾信息獲取裝置13基于 所述挖掘規(guī)則,對所述信息發(fā)布樣本進行垃圾信息挖掘,獲取與所述信息發(fā)布樣本相對應(yīng) 的垃圾信息;接著,參數(shù)獲取裝置14根據(jù)所述垃圾信息,結(jié)合所述信息發(fā)布樣本,獲取與所 述挖掘規(guī)則相對應(yīng)的至少一項評價參數(shù)。在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指各裝置 分別按照設(shè)定的或?qū)崟r調(diào)整的工作模式要求進行待評估的挖掘規(guī)則的獲取、信息發(fā)布樣本 的獲取、垃圾信息的獲取及評價參數(shù)的獲取,直至規(guī)則獲取裝置11在較長時間內(nèi)停止獲取 待評估的挖掘規(guī)則。
在此,需要說明的是,舉例中的各項數(shù)值作為說明作用的示例,僅供理解本發(fā)明, 不作為實際應(yīng)用時的真實數(shù)據(jù)。如無特別說明,本文中其他地方出現(xiàn)的數(shù)值的功用與此處 相同,為簡明起見,不再贅述。
優(yōu)選地,樣本獲取裝置12根據(jù)所述挖掘規(guī)則,從信息發(fā)布樣本庫中獲取與所述挖掘規(guī)則相對應(yīng)的信息發(fā)布樣本。具體地,樣本獲取裝置12根據(jù)規(guī)則獲取裝置11獲取的挖掘規(guī)則,例如通過在信息發(fā)布樣本庫中進行匹配查詢,當匹配獲得任一條挖掘規(guī)則與信息發(fā)布樣本庫中發(fā)布信息所標明的挖掘規(guī)則相對應(yīng)時,獲取該發(fā)布信息,并將所有匹配查詢獲得的發(fā)布信息作為信息發(fā)布樣本;或者通過在信息發(fā)布樣本庫中進行查詢,以獲得一定數(shù)量的或以前未被該些挖掘規(guī)則成功挖掘出的垃圾信息作為信息發(fā)布樣本。例如,假設(shè)規(guī)則獲取裝置11獲取的挖掘規(guī)則為若信息發(fā)布者ID在黑名單中則該發(fā)布信息為垃圾信息, 接著,樣本獲取裝置12根據(jù)該條挖掘規(guī)則,在黑名單中隨機選取若干個信息發(fā)布者ID,并根據(jù)這些ID在信息發(fā)布樣本庫中進行匹配查詢,獲得若干條發(fā)布信息,或者將信息發(fā)布樣本庫中的所有發(fā)布信息的信息發(fā)布者ID在黑名單中進行匹配查詢,以匹配獲得200個在黑名單中的信息發(fā)布者ID,并據(jù)此獲得與該200個信息發(fā)布者ID相對應(yīng)的若干條發(fā)布信息, 以作為所述信息發(fā)布樣本。又例如,規(guī)則獲取裝置11獲取挖掘規(guī)則,接著,樣本獲取裝置12 將任一條挖掘規(guī)則所標識的挖掘規(guī)則ID在信息發(fā)布樣本庫中進行匹配查詢,獲得與該挖掘規(guī)則ID相對應(yīng)的垃圾信息,以及該挖掘規(guī)則ID所對應(yīng)的挖據(jù)規(guī)則是否將該垃圾信息挖掘成功,進而提取未被其所對應(yīng)的挖據(jù)規(guī)則成功挖掘的全部垃圾信息,并將其中一定比例 (如50%)的垃圾信息中的作為信息發(fā)布樣本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取信息發(fā)布樣本的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取信息發(fā)布樣本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于評估垃圾信息挖掘規(guī)則的設(shè)備示意圖,參數(shù)獲取裝置14’還包括結(jié)果獲取單元141’和參數(shù)獲取單元142’。具體地,結(jié)果獲取單元141’將所述信息發(fā)布樣本中預(yù)設(shè)的實際垃圾信息與所述垃圾信息進行比較分析,獲得與所述垃圾信息相對應(yīng)的比較分析結(jié)果;接著,參數(shù)獲取單元142’根據(jù)所述比較分析結(jié)果,獲取所述至少一項評價參數(shù)。在此,圖2中所示裝置1Γ-13’與前面參照圖I所描述的裝置11-13的內(nèi)容相同,為簡明起見,以引用方式包含于此,而不做贅述。
更具體地,結(jié)果獲取單元141’將樣本獲取裝置12’獲取的信息發(fā)布樣本中預(yù)設(shè)的實際垃圾信息與垃圾信 息獲取裝置13’基于挖掘規(guī)則挖據(jù)獲取的垃圾信息逐條進行比較分析,以獲得與該些垃圾信息相對應(yīng)的比較分析結(jié)果,其中,比較分析結(jié)果包括但不限于1) 該些垃圾信息中真正的垃圾信息數(shù)量,2)該些垃圾信息中非垃圾信息數(shù)量,3)該些垃圾信息中非垃圾信息中發(fā)布內(nèi)容的關(guān)鍵詞,4)該些垃圾信息中非垃圾信息的信息發(fā)布者信用評價等級,5)該些真正的垃圾信息的信息發(fā)布者的信息發(fā)布頻次等。例如,假設(shè)樣本獲取裝置12’獲取的信息發(fā)布樣本中的發(fā)布信息為20條,該發(fā)布信息中的真正的垃圾信息數(shù)量為 10條;接著,垃圾信息獲取裝置13’從該信息發(fā)布樣本基于挖掘規(guī)則挖掘獲得的垃圾信息數(shù)量為6條;隨后,結(jié)果獲取單元141’根據(jù)該信息發(fā)布樣本,將該些基于挖掘規(guī)則挖掘獲得垃圾信息與該信息發(fā)布樣本中真正的垃圾信息進行比對,以獲得該些基于挖掘規(guī)則挖掘獲得的真正的垃圾信息數(shù)量為4條,并獲得該些真正的垃圾信息為同一信息發(fā)布者ID發(fā)布, 且該信息發(fā)布者的信息發(fā)布頻次為4次/分鐘。
接著,參數(shù)獲取單元142’根據(jù)結(jié)果獲取單元141’獲取的比較分析結(jié)果,通過公式計算獲得至少一項評價參數(shù),如與規(guī)則獲取裝置11獲取的挖掘規(guī)則相對應(yīng)的準確率。例如,接上例,樣本獲取裝置12’獲取的信息發(fā)布樣本中的發(fā)布信息為20條,該發(fā)布信息中的真正的垃圾信息數(shù)量為10條,垃圾信息獲取裝置13’基于挖掘規(guī)則挖掘獲得的垃圾信息為6條,結(jié)果獲取單元141’確定真正的垃圾信息數(shù)量為4條,參數(shù)獲取單元142’通過公式計 算獲得評價參數(shù)準確率為67% ( = 4/6),通過公式計算獲得召回率為40% ( = 4/10)。
本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取比較分析結(jié)果和獲取評價參數(shù)的方式僅為舉 例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取比較分析結(jié)果或獲取評價參數(shù)的方式如可適用于本 發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
優(yōu)選地,所述挖掘規(guī)則基于以下至少任一項對所述信息發(fā)布樣本進行垃圾信息挖 掘
-信息發(fā)布頻次;
-信息發(fā)布內(nèi)容;
-信息發(fā)布者的歷史行為記錄;
-信息發(fā)布者的屬性。
I)具體地,所述信息發(fā)布頻次包括但不限于一個信息發(fā)布者的信息發(fā)布頻率、 具有相同內(nèi)容的發(fā)布信息的信息發(fā)布頻次、來自同一 IP地址的信息發(fā)布頻次等。例如,信 息發(fā)布樣本中包含10條發(fā)布信息,垃圾信息獲取裝置13’對該10條發(fā)布信息進行分析,以 確定該10條發(fā)布信息中的6條發(fā)布信息由同一信息發(fā)布者ID在I分鐘內(nèi)發(fā)布,該信息發(fā) 布者發(fā)布信息的頻次為10次/分鐘大于預(yù)定的頻次閾值5次/分鐘,從而可判斷該6條發(fā) 布信息為垃圾信息。
2)所述信息發(fā)布內(nèi)容包括但不限于信息發(fā)布內(nèi)容中所包含的垃圾詞匯、多個發(fā) 布信息具有相同的信息發(fā)布內(nèi)容等。例如,信息發(fā)布樣本中包含3條發(fā)布信息,該3條發(fā)布 信息內(nèi)容分別為
a “辦證,撥打電話 13811112222”,
b “大家都開心嗎”,
c “我希望能結(jié)交朋友”;
垃圾信息獲取裝置13’將該3條發(fā)布信息的內(nèi)容在垃圾詞庫中進行字符串匹配, 以獲得發(fā)布信息a中的“辦證”垃圾詞匯,并據(jù)此判斷發(fā)布信息a為垃圾信息。
3)所述信息發(fā)布者的歷史行為記錄包括但不限于信息發(fā)布者的歷史發(fā)布信息 內(nèi)容、信息發(fā)布者的歷史發(fā)布信息時間記錄、及信息發(fā)布者的歷史在線時長等。例如,垃圾 信息獲取裝置13’將信息發(fā)布樣本中的一條發(fā)布信息的信息發(fā)布者ID在歷史行為數(shù)據(jù)庫 中進行匹配查詢,獲得該信息發(fā)布者的歷史發(fā)布信息時間均在凌晨I點至早上6點,且該信 息發(fā)布者的歷史發(fā)布信息內(nèi)容中包含垃圾詞匯,則判斷該發(fā)布信息為垃圾信息。其中,所舉 實施例中的歷史行為數(shù)據(jù)庫用于存儲信息發(fā)布者的歷史行為記錄,包括但不限于關(guān)系數(shù)據(jù) 庫,內(nèi)存存儲器,硬盤存儲器等。
4)所述信息發(fā)布者的屬性包括但不限于信息發(fā)布者是否在黑名單中、信息發(fā)布 者預(yù)先輸入的個人背景信息。例如,垃圾信息獲取裝置13’將信息發(fā)布樣本中的全部發(fā)布 信息的信息發(fā)布者ID在黑名單中進行匹配查詢,獲得兩條發(fā)布信息的信息發(fā)布者在黑名 單中,則判斷該兩條發(fā)布信息為垃圾信息。
本領(lǐng)域技術(shù)人員應(yīng)能理解,基于上述四項不僅可以單獨用于對信息發(fā)布樣本進行 垃圾信息挖掘,還可以結(jié)合用于對信息發(fā)布樣本進行垃圾信息挖掘。本領(lǐng)域技術(shù)人員應(yīng)能 理解上述垃圾信息的挖掘規(guī)則僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的垃圾信息的挖掘規(guī)則如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在一個優(yōu)選實施例中(參照圖2),評估設(shè)備I還包括規(guī)則優(yōu)化裝置(未示出),該規(guī)則優(yōu)化裝置根據(jù)所述評價參數(shù),優(yōu)化所述挖掘規(guī)則。以下參照圖2對該優(yōu)選實施例進行詳細描述,其中,規(guī)則獲取裝置11’獲取待評估的挖掘規(guī)則;樣本獲取裝置12’獲取用于評估所述挖掘規(guī)則的信息發(fā)布樣本;垃圾信息獲取裝置13’基于所述挖掘規(guī)則,對所述信息發(fā)布樣本進行垃圾信息挖掘,獲取與所述信息發(fā)布樣本相對應(yīng)的垃圾信息;參數(shù)獲取裝置14’中結(jié)果獲取単元141’將所述信息發(fā)布樣本中預(yù)設(shè)的實際垃圾信息與所述垃圾信息進行比較分析,獲得與所述垃圾信息相對應(yīng)的比較分析結(jié)果;參數(shù)獲取裝置14’中參數(shù)獲取單元142’根據(jù)所述比較分析結(jié)果,獲取所述至少ー項評價參數(shù);其具體過程與前述參照圖2所描述的實施例中規(guī)則獲取裝置11’、樣本獲取裝置12’、垃圾信息獲取裝置13’和參數(shù)獲取裝置14’所執(zhí)行的過程相同,為簡明起見,以引用方式包含于此,而不做贅述。具體地,規(guī)則優(yōu)化裝置根據(jù)參數(shù)獲取單元142’獲取的評價參數(shù),如與挖掘規(guī)則相對應(yīng)的準確率,優(yōu)化所述挖掘規(guī)則,例如當評價參數(shù)中準確率小于預(yù)設(shè)的準確率閾值時,通過調(diào)整挖掘規(guī)則為對信用度高的信息發(fā)布者所發(fā)布信息均不進行垃圾信息挖掘,以提高準確率。例如,假設(shè)參數(shù)獲取單元142’通過公式計算獲取的評價參數(shù)中準確率為50%,規(guī)則優(yōu)化裝置判斷準確率50%小于預(yù)設(shè)的準確率閾值60%,則該規(guī)則優(yōu)化裝置調(diào)整挖掘規(guī)則為對信用度高的信息發(fā)布者的發(fā)布信息均不進行垃圾信息挖掘,以提高評價參數(shù)中的準確率。本領(lǐng)域技術(shù)人員應(yīng)能理解上述優(yōu)化挖掘規(guī)則的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的優(yōu)化挖掘規(guī)則的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。優(yōu)選地,所述規(guī)則優(yōu)化裝置還可根據(jù)所述評價參數(shù),結(jié)合所述比較分析結(jié)果,優(yōu)化所述挖掘規(guī)則。具體地,規(guī)則優(yōu)化裝置根據(jù)參數(shù)獲取單元142’獲取的評價參數(shù),如與挖掘規(guī)則相對應(yīng)的召回率,井根據(jù)結(jié)果獲取單元141’獲取的比較分析結(jié)果,優(yōu)化所述挖掘規(guī)則,例如當召回率小于預(yù)設(shè)的召回率閾值時,優(yōu)化的方式包括但不限于通過降低比較分析結(jié)果所示的用于挖掘垃圾信息的挖掘規(guī)則中的信息發(fā)布頻次閾值,或降低垃圾詞匯累計數(shù)量閾值等,以提高召回率。例如,假設(shè)參數(shù)獲取單元142’獲取的評價參數(shù)中召回率為40%,且小于預(yù)設(shè)的召回率閾值50%,則規(guī)則優(yōu)化裝置根據(jù)結(jié)果獲取單元141’獲取比較分析結(jié)果中垃圾信息的信息發(fā)布者的信息發(fā)布頻次均值為4次/分鐘,據(jù)此將信息發(fā)布頻次閾值從5次/分鐘降低至4次/分鐘,以提高召回率。又例如,假設(shè)參數(shù)獲取單元142’獲取的評價參數(shù)中召回率小于預(yù)設(shè)的召回率閾值,則規(guī)則優(yōu)化裝置根據(jù)結(jié)果獲取單元141’獲取比較分析結(jié)果中垃圾信息內(nèi)容中包含的垃圾詞匯均值2個/條,據(jù)此將垃圾信息內(nèi)容的垃圾詞匯累計數(shù)量閾值從3個/條降低至2個/條,以提高召回率。本領(lǐng)域技術(shù)人員應(yīng)能理解上述優(yōu)化挖掘規(guī)則的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的優(yōu)化挖掘規(guī)則的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。更優(yōu)選地,所述規(guī)則優(yōu)化裝置還可根據(jù)所述評價參數(shù),結(jié)合所述評價參數(shù)的預(yù)置的參數(shù)優(yōu)先級信息,優(yōu)化所述挖掘規(guī)則。具體地,規(guī)則優(yōu)化裝置還根據(jù)所述評價參數(shù),如召回率和準確率,且根據(jù)預(yù)設(shè)的參數(shù)優(yōu)先級信息,如準確率優(yōu)先級高于召回率,選擇合適的方式優(yōu)化挖掘規(guī)則,以提高該評價參數(shù)。例如,假設(shè)參數(shù)獲取單元142’獲取的評價參數(shù)中準確率為50%,且小于預(yù)設(shè)的準確率閾值60%,召回率為40%,且小于預(yù)設(shè)的召回率閾值50%,則規(guī)則優(yōu)化裝置根據(jù)預(yù)設(shè)的準確率優(yōu)先級高于召回率的參數(shù)優(yōu)先級信息,調(diào)整挖掘規(guī)則為對優(yōu)質(zhì)用戶發(fā)布的發(fā)布信息均不進行挖掘,進而提高準確率。本領(lǐng)域技術(shù)人員應(yīng)能理解上述優(yōu)化挖掘規(guī)則的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的優(yōu)化挖掘規(guī)則的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。更優(yōu)選地,評估設(shè)備I還包括優(yōu)先級更新裝置(未示出),該優(yōu)先級更新裝置可根據(jù)所述評價參數(shù),更新所述參數(shù)優(yōu)先級信息。具體地,優(yōu)先級更新裝置根據(jù)參數(shù)獲取單元142’獲取的評價參數(shù),例如當召回率小于預(yù)設(shè)的召回率閾值,而準確率大于預(yù)設(shè)的準確率閾值時,更新參數(shù)優(yōu)先級為召回率優(yōu)先級大于準確率。例如,參數(shù)獲取単元142’獲取的評價參數(shù)中召回率小于預(yù)設(shè)的召回率閾值,而準確率大于預(yù)設(shè)的準確率閾值,優(yōu)先級更新裝置將預(yù)設(shè)的準確率優(yōu)先級高于召回率的參數(shù)優(yōu)先級信息,更新為召回率優(yōu)先級高于準確率。本領(lǐng)域技術(shù)人員應(yīng)能理解上述挖掘更新參數(shù)優(yōu)先級信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的更新參數(shù)優(yōu)先級信息的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。優(yōu)選地,該設(shè)備還包括優(yōu)化控制裝置(未示出),該優(yōu)化控制裝置可當所述評價參數(shù)達到評價參數(shù)閾值時,結(jié)束優(yōu)化所述挖掘規(guī)則。具體地,垃圾信息獲取裝置13’基于挖掘規(guī)則對信息發(fā)布樣本進行垃圾信息挖掘,獲取與該信息發(fā)布樣本相對應(yīng)的垃圾信息;接著,參數(shù)獲取裝置14,中結(jié)果獲取単元141’將該信息發(fā)布樣本中預(yù)設(shè)的實際垃圾信息與該垃圾信息進行比較分析,獲得與所述垃圾信息相對應(yīng)的比較分析結(jié)果;隨后,參數(shù)獲取単元142’根據(jù)該比較分析結(jié)果,獲取至少ー項評價參數(shù);垃圾信息獲取裝置13’和參數(shù)獲取裝置14’不斷基于規(guī)則優(yōu)化裝置更新后的挖掘規(guī)則循環(huán)執(zhí)行,優(yōu)化控制裝置檢測該循環(huán)每次獲得的評價參數(shù),并且當評價參數(shù)達到評價參數(shù)閾值時,結(jié)束優(yōu)化該優(yōu)化規(guī)則。其中,評價參數(shù)閾值意為預(yù)置的期望評價參數(shù)。例如,當優(yōu)化控制裝置檢測到準確率大于預(yù)定的準確率閾值且召回率大于預(yù)定的召回率閾值時,優(yōu)化控制裝置停止優(yōu)化該挖掘規(guī)則。本領(lǐng)域技術(shù)人員應(yīng)能理解上述結(jié)束優(yōu)化挖掘規(guī)則的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的結(jié)束優(yōu)化挖掘規(guī)則的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。優(yōu)選地,所述評價參數(shù)包括以下至少任ー項-與所述挖掘規(guī)則相對應(yīng)的召回率;-與所述挖掘規(guī)則相對應(yīng)的準確率。具體地,參數(shù)獲取単元142’獲取的評價參數(shù)包括但不限于與所述挖據(jù)規(guī)則相對應(yīng)的召回率和與所述挖掘規(guī)則相對應(yīng)的準確率。召回率指垃圾信息獲取裝置13’通過垃圾信息挖掘獲取的真正的垃圾信息數(shù)量與信息發(fā)布樣本中實際垃圾信息數(shù)量的比值;準確率指垃圾信息獲取裝置13,通過垃圾信息挖掘獲取的真正的垃圾信息數(shù)量與垃圾信息獲取裝置13’通過垃圾信息挖掘獲取的垃圾信息數(shù)量的比值。準確率和召回率是可能相互制約的兩個評價參數(shù),準確率高吋,可能導(dǎo)致召回率低,召回率高吋,可能導(dǎo)致準確率低,因此,需要在召回率和準確率之間尋找平衡,以最優(yōu)的方式進行垃圾信息的挖掘。本領(lǐng)域技術(shù)人員應(yīng)能理解上述評價參數(shù)僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的評價參數(shù)如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。圖3示出根據(jù)本發(fā)明ー個方面用于評估垃圾信息挖掘規(guī)則的方法流程圖。其中,評估設(shè)備I包括但不限于計算機、網(wǎng)絡(luò)主機、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或多個服務(wù)器構(gòu)成的云。在此,云由基于云計算(Cloud Computing)的大量計算機或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計算是分布式計算的ー種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。具體地,在步驟SI中,評估設(shè)備I獲取待評估的挖掘規(guī)則。更具體地,在步驟SI中,評估設(shè)備I定期或應(yīng)事件觸發(fā)實時地獲取待評估的挖掘規(guī)則,例如通過實時監(jiān)聽網(wǎng)絡(luò)服務(wù)器等網(wǎng)絡(luò)設(shè)備發(fā)送的待評估的挖掘規(guī)則的請求,以獲得待評估的挖掘規(guī)則,或者定期地通過約定的通信方式,如http、https等通信協(xié)議,直接從評估設(shè)備I的其他部分或第三方設(shè)備讀取待評估的挖掘規(guī)則。例如,假設(shè)評估設(shè)備I為網(wǎng)絡(luò)服務(wù)器,在步驟SI中,該網(wǎng)絡(luò)服務(wù)器通過實時監(jiān)聽用于垃圾信息挖掘的另ー網(wǎng)絡(luò)服務(wù)器,獲取該另ー網(wǎng)絡(luò)服務(wù)器通過http通信協(xié)議發(fā)送的基于待評估的挖掘規(guī)則包裝成的http請求,該網(wǎng)絡(luò)服務(wù)器解析該http請求,并獲取其中的待評估的挖掘規(guī)則。又如,在步驟SI中,評估設(shè)備I按一定周期,定期地通過調(diào)用預(yù)定的應(yīng)用編程接ロ(API)向第三方設(shè)備發(fā)送獲取待評估的挖掘規(guī)則的請求,并接收該第三方設(shè)備返回的待評估的挖掘規(guī)則。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取 待評估的挖掘規(guī)則的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取待評估的挖掘規(guī)則的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在步驟S2中,評估設(shè)備I獲取用于評估所述挖掘規(guī)則的信息發(fā)布樣本。具體地,在步驟S2中,評估設(shè)備I通過諸如按照預(yù)先約定的通信協(xié)議從網(wǎng)絡(luò)互動平臺中隨機地提取多條發(fā)布信息,或從信息發(fā)布樣本庫中獲取多條發(fā)布信息,其中,這些發(fā)布信息預(yù)先標有垃圾信息標識,以區(qū)分其為垃圾信息或正常信息,并將該等多條發(fā)布信息作為用于評估在步驟SI中評估設(shè)備I獲取的挖掘規(guī)則的信息發(fā)布樣本。其中,所述垃圾信息標識用于標識每條發(fā)布信息是否為真正的垃圾信息。在此,信息發(fā)布樣本包括但不限于1)多條發(fā)布信息及其內(nèi)容,如網(wǎng)絡(luò)社區(qū)中的多個帖子及其內(nèi)容;2)垃圾信息標識。在此,信息發(fā)布樣本庫用于存儲多條發(fā)布信息及其垃圾信息標識,包括但不限于關(guān)系數(shù)據(jù)庫,內(nèi)存存儲器,硬盤存儲器等。例如,假設(shè)網(wǎng)絡(luò)互動平臺中的發(fā)布信息保存在網(wǎng)絡(luò)服務(wù)器中,在步驟S2中,評估設(shè)備I按照預(yù)先約定的通信協(xié)議,如http、https等通信協(xié)議,向該網(wǎng)絡(luò)服務(wù)器發(fā)送獲取用于評估挖掘規(guī)則的信息發(fā)布樣本的請求,并接受該網(wǎng)絡(luò)服務(wù)器隨機獲取的網(wǎng)絡(luò)互動平臺中的多條標有垃圾信息標識的發(fā)布信息,作為用于評估在步驟Si中評估設(shè)備I獲取的挖掘規(guī)則的信息發(fā)布樣本,其中,所述網(wǎng)絡(luò)互動平臺包括但不限干網(wǎng)絡(luò)社區(qū)、貼吧、博客、微薄、新聞評論、短信互動等。又例如,在步驟S2中,評估設(shè)備I從信息發(fā)布樣本庫中按照一定比例獲取真正的垃圾信息與非垃圾信息,并將其作為用于評估在步驟SI中評估設(shè)備I獲取的挖掘規(guī)則的信息發(fā)布樣本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取信息發(fā)布樣本的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取信息發(fā)布樣本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。本領(lǐng)域技術(shù)人員應(yīng)能理解上述評估設(shè)備I在步驟SI和步驟S2中的執(zhí)行順序僅為舉例,在實踐中,它們可以以任意順序執(zhí)行,如并行或串行。本領(lǐng)域技術(shù)人員還應(yīng)能理解,圖3中僅為簡明起見而示出的ー種評估設(shè)備I的執(zhí)行順序,但這種省略無疑地是以不會影響對本發(fā)明進行清楚、充分的公開為前提的。接著,在步驟S3中,評估設(shè)備I基于所述挖掘規(guī)則,對所述信息發(fā)布樣本進行垃圾信息挖掘,獲取與所述信息發(fā)布樣本相對應(yīng)的垃圾信息。具體地,在步驟S3中,評估設(shè)備I基于其在步驟SI中獲取的挖掘規(guī)則,如一個信息發(fā)布者ID的信息發(fā)布頻次是否超過預(yù)定的頻次閾值,信息發(fā)布者是否在黑名單中、發(fā)布信息的內(nèi)容中是否包含垃圾詞匯等,對評估設(shè)備I在步驟S2中獲取的信息發(fā)布樣本中的發(fā)布信息進行判斷分析,例如當一條或多條發(fā)布信息滿足如任一項挖掘規(guī)則或全部挖掘規(guī)則時,則判斷該一條或多條發(fā)布信息為垃圾信息,從而獲取該信息發(fā)布樣本中的全部垃圾信息。例如,假設(shè)在步驟SI中,評估設(shè)備I獲取的挖掘規(guī)則為若信息發(fā)布者ID在黑名單中或發(fā)布信息中包含垃圾詞匯則該發(fā)布信息為垃圾信息;隨后,在步驟S2中,評估設(shè)備I獲取的信息發(fā)布樣本中包括三條發(fā)布信息,其內(nèi)容分別為a “辦證,撥打電話 13811112222”,b “大家都開心嗎”,c “我希望能結(jié)交朋友”;接著,基于該兩項挖掘規(guī)則,在步驟S3中,評估設(shè)備I對該三條發(fā)布信息進行判斷分析,將發(fā)布信息a的內(nèi)容在垃圾詞庫中進行字符串匹配,以獲得“辦證”為垃圾詞匯,且發(fā)布信息c的信息發(fā)布者ID在黑名單中,則判斷在該信息發(fā)布樣本中發(fā)布信息a和發(fā)布信息c為垃圾信息。又例如,假設(shè)在步驟SI中,評估設(shè)備I獲取的挖掘規(guī)則為若一個信息發(fā)布者ID發(fā)布同一發(fā)布信息內(nèi)容的頻次超過預(yù)定的頻次閾值且發(fā)布信息中包含垃圾詞匯則該發(fā)布信息為垃圾信息;隨后,在步驟S2中,評估設(shè)備I獲取的信息發(fā)布樣本中包括20條發(fā)布信息,其中10條發(fā)布信息的內(nèi)容均為“本店出售各類減肥藥,價格從優(yōu)”,且信息發(fā)布者ID相同,并在I分鐘之內(nèi)發(fā)送;接著,在步驟S3中,評估設(shè)備I基于該兩項挖掘規(guī)則對該10條發(fā)布信息進行分析,以確定該10條發(fā)布信息內(nèi)容相同且由同一信息發(fā)布者ID發(fā)布,從而可判斷該十條發(fā)布信息為同一條信息的10次連續(xù)發(fā)布,信息發(fā)布的頻次為10次/分鐘大于預(yù)定的頻次閾值5次/分鐘,同時評估設(shè)備I將其在垃圾詞庫中進行字符串匹配,并據(jù)此獲得“出售”、“減肥藥”為垃圾詞匯,進而評估設(shè)備I在步驟S3中獲得在該信息發(fā)布樣本中的該10條發(fā)布信息為垃圾信息。在此,所舉實施例中所述垃圾詞匯包括但不限于禁止詞、侵權(quán)詞、不雅詞、政治性、煽動性的詞語、廣告詞等,所舉實施例中所述垃圾詞庫用于存儲垃圾詞匯,包括但不限于關(guān)系數(shù)據(jù)庫,內(nèi)存存儲器,硬盤存儲器等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取垃圾信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取垃圾信息的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。接著,在步驟S4中,評估設(shè)備I根據(jù)所述垃圾信息,結(jié)合所述信息發(fā)布樣本,獲取與所述挖掘規(guī)則相對應(yīng)的至少ー項評價參數(shù)。具體地,在步驟S4中,評估設(shè)備I根據(jù)其在步驟S3中通過垃圾信息挖掘獲取的垃圾信息,并結(jié)合其在步驟S2中獲取的信息發(fā)布樣本中包含的多個發(fā)布信息及其垃圾信息標識,進行分析比對,從而獲得在該等垃圾信息中真正的垃圾信息數(shù)量與非垃圾信息數(shù)量,進而評估設(shè)備I在步驟S4中根據(jù)信息發(fā)布樣本中的發(fā)布信息數(shù)量,以獲得至少ー個評價參數(shù),如所述挖掘規(guī)則的召回率。其中,所述評價參數(shù)包括但不限于1)與所述挖掘規(guī)則相對應(yīng)的召回率,計算公式為“召回率=通過垃圾信息挖掘獲得的真正的垃圾信息數(shù)量/信息發(fā)布樣本中真正的垃圾信息數(shù)量” ;2)與所述挖掘規(guī)則相對應(yīng)的準確率,計算公式為“準確率=通過垃圾信息挖掘獲得的真正的垃圾信息數(shù)量/通過垃圾信息挖掘獲得的垃圾信息數(shù)量”。例如,假設(shè)信息發(fā)布樣本中包含500條發(fā)布信息,其中垃圾信息標識示出其為真正的垃圾信息的發(fā)布信息數(shù)量為100條,在步驟S3中,評估設(shè)備I從該信息發(fā)布樣本通過垃圾信息挖掘獲得的垃圾信息數(shù)量為80條;接著,在步驟S4中,評估設(shè)備I根據(jù)該信息發(fā)布樣本,將該些通過垃圾信息挖掘獲得垃圾信息與該信息發(fā)布樣本中真正的垃圾信息進行比對,以獲得該些通過垃圾信息挖掘獲得的真正的垃圾信息數(shù)量為40條,進而評估設(shè)備I通過公式“準確率=通過垃圾信息挖掘獲得的真正的垃圾信息數(shù)量/通過垃圾信息挖掘獲得的垃圾信息數(shù)量”,計算獲得評價參數(shù)準確率為50%(=40/80),通過公式“召回率=通過垃圾信息挖掘獲得的真正的垃圾信息數(shù)量/信息發(fā)布樣本中真正的垃圾信息數(shù)量”,計算獲得召回率為40% ( = 40/100)。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取評價參數(shù)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取評價參數(shù)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。優(yōu)選地,評估設(shè)備I在步驟SI、步驟S2、步驟S3和步驟S4中是持續(xù)不斷地工作。具體地,在步驟SI中,評估設(shè)備I獲取待評估的挖掘規(guī)則;在步驟S2中,評估設(shè)備I獲取用于評估所述挖掘規(guī)則的信息發(fā)布樣本;接著,在步驟S3中,評估設(shè)備I基于所述挖掘規(guī)則,對所述信息發(fā)布樣本進行垃圾信息挖掘,獲取與所述信息發(fā)布樣本相對應(yīng)的垃圾信息;接著,在步驟S4中,評估設(shè)備I根據(jù)所述垃圾信息,結(jié)合所述信息發(fā)布樣本,獲取與所述挖掘規(guī)則相對應(yīng)的至少ー項評價參數(shù)。在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指評估設(shè)備I在各步驟中分別按照設(shè)定的或?qū)崟r調(diào)整的工作模式要求進行待評估的挖掘規(guī)則的獲取、信息發(fā)布樣本的獲取、垃圾信息的獲取及評價參數(shù)的獲取,直至評估設(shè)備I在較長時間內(nèi)停止獲取待評估的挖掘規(guī)則。在此,需要說明的是,舉例中的各項數(shù)值作為說明作用的示例,僅供理解本發(fā)明,不作為實際應(yīng)用時的真實數(shù)據(jù)。如無特別說明,本文中其他地方出現(xiàn)的數(shù)值的功用與此處相同,為簡明起見,不再贅述。優(yōu)選地,在步驟S2中,評估設(shè)備I根據(jù)所述挖掘規(guī)則,從信息發(fā)布樣本庫中獲取與所述挖掘規(guī)則相對應(yīng)的信息發(fā)布樣本。具體地,在步驟S2中,評估設(shè)備I根據(jù)其在步驟SI中獲取的挖掘規(guī)則,例如通過在信息發(fā)布樣本庫中進行匹配查詢,當匹配獲得任一條挖掘規(guī)則與信息發(fā)布樣本庫中發(fā)布信息所標明的挖掘規(guī)則相對應(yīng)時,獲取該發(fā)布信息,并將所有匹配查詢獲得的發(fā)布信息作為信息發(fā)布樣本;或者通過在信息發(fā)布樣本庫中進行查詢,以獲得一定數(shù)量的或以前未被該些挖掘規(guī)則成功挖掘出的垃圾信息作為信息發(fā)布樣本。例如,假設(shè)在步驟SI中,評估設(shè)備I獲取的挖掘規(guī)則為若信息發(fā)布者ID在黑名單中則該發(fā)布信息為垃圾信息,接著,在步驟S2中,評估設(shè)備I根據(jù)該條挖掘規(guī)則,在黑名單中隨機選取若干個信息發(fā)布者ID,井根據(jù)這些ID在信息發(fā)布樣本庫中進行匹配查詢,獲得若干條發(fā)布信息,或者將信息發(fā)布樣本庫中的所有發(fā)布信息的信息發(fā)布者ID在黑名單中進行匹配查詢,以匹配獲得200個在黑名單中的信息發(fā)布者ID,并據(jù)此獲得與該200個信息發(fā)布者ID相對應(yīng)的若干條發(fā)布信息,以作為所述信息發(fā)布樣本。又例如,在步驟SI中,評估設(shè)備I獲取挖掘規(guī)則,接著,在步驟S2中,評估設(shè)備I將任一條挖掘規(guī)則所標識的挖掘規(guī)則ID在信息發(fā)布樣本庫中進行匹配查詢,獲得與該挖掘規(guī)則ID相對應(yīng)的垃圾信息,以及該挖掘規(guī)則ID所對應(yīng)的挖據(jù)規(guī)則是否將該垃圾信息挖掘成功,進而提取未被其所對應(yīng)的挖據(jù)規(guī)則成功挖掘的全部垃圾信息,并將其中一定比例(如50%)的垃圾信息中的作為信息發(fā)布樣本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取信息發(fā)布樣本的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取信息發(fā)布樣本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于評估垃圾信息挖掘規(guī)則的方法流程圖,具體地,在步驟S41’中,評估設(shè)備I將所述信息發(fā)布樣本中預(yù)設(shè)的實際垃圾信息與所述垃圾信息進行比較分析,獲得與所述垃圾信息相對應(yīng)的比較分析結(jié)果;接著,在步驟S42’中,評估設(shè)備I根據(jù)所述比較分析結(jié)果,獲取所述至少ー項評價參數(shù)。在此,圖4中所示步驟I’至步驟3’與前面參照圖3所描述的步驟SI至步驟S3的內(nèi)容相同,為簡明起見,以引用方式包含于此,而不做贅述。更具體地,在步驟S41’中,評估設(shè)備I將其在步驟S2’中獲取的信息發(fā)布樣本中預(yù)設(shè)的實際垃圾信息與評估設(shè)備I在步驟S3’中基于挖掘規(guī)則挖據(jù)獲取的垃圾信息逐條進行比較分析,以獲得與該些垃圾信息相對應(yīng)的比較分析結(jié)果,其中,比較分析結(jié)果包括但不限于1)該些垃圾信息中真正的垃圾信息數(shù)量,2)該些垃圾信息中非垃圾信息數(shù)量,3)該些垃圾信息中非垃圾信息中發(fā)布內(nèi)容的關(guān)鍵詞,4)該些垃圾信息中非垃圾信息的信息發(fā)布者信用評價等級,5)該些真正的垃圾信息的信息發(fā)布者的信息發(fā)布頻次等。例如,假設(shè)在步驟S2’中,評估設(shè)備I獲取的信息發(fā)布樣本中的發(fā)布信息為20條,該發(fā)布信息中的真正的垃圾信息數(shù)量為10條;接著,在步驟S3’中,評估設(shè)備I從該信息發(fā)布樣本基于挖掘規(guī)則挖掘獲得的垃圾信息數(shù)量為6條;隨后,在步驟S41’中,評估設(shè)備I根據(jù)該信息發(fā)布樣本,將該些基于挖掘規(guī)則挖掘獲得垃圾信息與該信息發(fā)布樣本中真正的垃圾信息進行比對,以獲得該些基于挖掘規(guī)則挖掘獲得的真正的垃圾信息數(shù)量為4條,并獲得該些真正的垃圾信息為同一信息發(fā)布者ID發(fā)布,且該信息發(fā)布者的信息發(fā)布頻次為4次/分鐘。接著,在步驟S42’中,評估設(shè)備I根據(jù)其在步驟S41’中獲取的比較分析結(jié)果,通過公式計算獲得至少ー項評價參數(shù),如與評估設(shè)備I在步驟Si’中獲取的挖掘規(guī)則相對應(yīng)的準確率。例如,接上例,在步驟S2’中,評估設(shè)備I獲取的信息發(fā)布樣本中的發(fā)布信息為20條,該發(fā)布信息中的真正的垃圾信息數(shù)量為10條,在步驟S3’中,評估設(shè)備I基于挖掘規(guī)則挖掘獲得的垃圾信息為6條,在步驟S41’中,評估設(shè)備I確定真正的垃圾信息數(shù)量為4條,在步驟S42’中,評估設(shè)備I通過公式計算獲得評價參數(shù)準確率為67% ( = 4/6),通過公式計算獲得召回率為40% ( = 4/10)。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取比較分析結(jié)果和獲取評價參數(shù)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取比較分析結(jié)果或獲取評價參數(shù)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。優(yōu)選地,所述挖掘規(guī)則基于以下至少任ー項對所述信息發(fā)布樣本進行垃圾信息挖掘-信息發(fā)布頻次;-信息發(fā)布內(nèi)容;-信息發(fā)布者的歷史行為記錄;-信息發(fā)布者的屬性。I)具體地,所述信息發(fā)布頻次包括但不限于一個信息發(fā)布者的信息發(fā)布頻率、具有相同內(nèi)容的發(fā)布信息的信息發(fā)布頻次、來自同一 IP地址的信息發(fā)布頻次等。例如,信息發(fā)布樣本中包含10條發(fā)布信息,在步驟S3’中,評估設(shè)備I對該10條發(fā)布信息進行分析,以確定該10條發(fā)布信息中的6條發(fā)布信息由同一信息發(fā)布者ID在I分鐘內(nèi)發(fā)布,該信息發(fā)布者發(fā)布信息的頻次為10次/分鐘大于預(yù)定的頻次閾值5次/分鐘,從而可判斷該6條發(fā)布信息為垃圾信息。2)所述信息發(fā)布內(nèi)容包括但不限于信息發(fā)布內(nèi)容中所包含的垃圾詞匯、多個發(fā)布信息具有相同的信息發(fā)布內(nèi)容等。例如,信息發(fā)布樣本中包含3條發(fā)布信息,該3條發(fā)布信息內(nèi)容分別為a “辦證,撥打電話 13811112222”,b “大家都開心嗎”,c “我希望能結(jié)交朋友”;在步驟S3’中,評估設(shè)備I將該3條發(fā)布信息的內(nèi)容在垃圾詞庫中進行字符串匹配,以獲得發(fā)布信息a中的“辦證”垃圾詞匯,并據(jù)此判斷發(fā)布信息a為垃圾信息。3)所述信息發(fā)布者的歷史行為記錄包括但不限于信息發(fā)布者的歷史發(fā)布信息內(nèi)容、信息發(fā)布者的歷史發(fā)布信息時間記錄、及信息發(fā)布者的歷史在線時長等。例如,在步驟S3’中,評估設(shè)備I將信息發(fā)布樣本中的一條發(fā)布信息的信息發(fā)布者ID在歷史行為數(shù)據(jù)庫中進行匹配查詢,獲得該信息發(fā)布者的歷史發(fā)布信息時間均在凌晨I點至早上6點,且該信息發(fā)布者的歷史發(fā)布信息內(nèi)容中包含垃圾詞匯,則判斷該發(fā)布信息為垃圾信息。其中,所舉實施例中的歷史行為數(shù)據(jù)庫用于存儲信息發(fā)布者的歷史行為記錄,包括但不限于關(guān)系數(shù)據(jù)庫,內(nèi)存存儲器,硬盤存儲器等。4)所述信息發(fā)布者的屬性包括但不限于信息發(fā)布者是否在黑名單中、信息發(fā)布者預(yù)先輸入的個人背景信息。例如,在步驟S3’中,評估設(shè)備I將信息發(fā)布樣本中的全部發(fā)布信息的信息發(fā)布者ID在黑名單中進行匹配查詢,獲得兩條發(fā)布信息的信息發(fā)布者在黑名單中,則判斷該兩條發(fā)布信息為垃圾信息。本領(lǐng)域技術(shù)人員應(yīng)能理解,基于上述四項不僅可以單獨用于對信息發(fā)布樣本進行垃圾信息挖掘,還可以結(jié)合用于對信息發(fā)布樣本進行垃圾信息挖掘。本領(lǐng)域技術(shù)人員應(yīng)能理解上述垃圾信息的挖掘規(guī)則僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的垃圾信息的挖掘規(guī)則如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在一個優(yōu)選實施例中(參照圖4),該過程還包括步驟S5’(未示出),在步驟S5’中,評估設(shè)備I根據(jù)所述評價參數(shù),優(yōu)化所述挖掘規(guī)則。以下參照圖4對該優(yōu)選實施例進行詳細描述,其中,在步驟SI’中,評估設(shè)備I獲取待評估的挖掘規(guī)則;在步驟S2’中,評估設(shè)備I獲取用于評估所述挖掘規(guī)則的信息發(fā)布樣本;在步驟S3’中,評估設(shè)備I基于所述挖掘規(guī)則,對所述信息發(fā)布樣本進行垃圾信息挖掘,獲取與所述信息發(fā)布樣本相對應(yīng)的垃圾信息;在步驟S41’中,評估設(shè)備I將所述信息發(fā)布樣本中預(yù)設(shè)的實際垃圾信息與所述垃圾信息進行比較分析,獲得與所述垃圾信息相對應(yīng)的比較分析結(jié)果;在步驟S42’中,評估設(shè)備I根據(jù)所述比較分析結(jié)果,獲取所述至少ー項評價參數(shù);其具體過程與前述參照圖4所描述的實施例中評估設(shè)備I在步驟SI’、步驟S2’、步驟S3’、步驟S41’和步驟S42’中所執(zhí)行的過程相同,為簡明起見,以引用方式包含于此,而不做贅述。具體地,在步驟S5’中,評估設(shè)備I根據(jù)其在步驟S42’中獲取的評價參數(shù),如與挖掘規(guī)則相對應(yīng)的準確率,優(yōu)化所述挖掘規(guī)則,例如當評價參數(shù)中準確率小于預(yù)設(shè)的準確率閾值時,通過調(diào)整挖掘規(guī)則為對信用度高的信息發(fā)布者所發(fā)布信息均不進行垃圾信息挖掘,以提高準確率。例如,假設(shè)在步驟S42’中,評估設(shè)備I通過公式計算獲取的評價參數(shù)中準確率為50%,在步驟S5’中,評估設(shè)備I判斷準確率50%小于預(yù)設(shè)的準確率閾值60%,則評估設(shè)備I調(diào)整挖掘規(guī)則為對信用度高的信息發(fā)布者的發(fā)布信息均不進行垃圾信息挖掘,以提高評價參數(shù)中的準確率。本領(lǐng)域技術(shù)人員應(yīng)能理解上述優(yōu)化挖掘規(guī)則的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的優(yōu)化挖掘規(guī)則的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。優(yōu)選地,所述在步驟S5’中,評估設(shè)備I還可根據(jù)所述評價參數(shù),結(jié)合所述比較分析結(jié)果,優(yōu)化所述挖掘規(guī)則。具體地,在步驟S5’中,評估設(shè)備I根據(jù)其在步驟S42’中獲取的評價參數(shù),如與挖掘規(guī)則相對應(yīng)的召回率,井根據(jù)評估設(shè)備I在步驟S41’中獲取的比較分析結(jié)果,優(yōu)化所述挖掘規(guī)則,例如當召回率小于預(yù)設(shè)的召回率閾值時,優(yōu)化的方式包括但不限于通過降低比較分析結(jié)果所示的用于挖掘垃圾信息的挖掘規(guī)則中的信息發(fā)布頻次閾值,或降低垃圾詞匯累計數(shù)量閾值等,以提高召回率。例如,假設(shè)在步驟S42’中,評估設(shè)備I獲取的評價參數(shù)中召回率為40%,且小于預(yù)設(shè)的召回率閾值50%,則在步驟S5’中,評估設(shè)備I根據(jù)其在步驟S41中獲取比較分析結(jié)果中垃圾信息的信息發(fā)布者的信息發(fā)布頻次均值為4次/分鐘,據(jù)此將信息發(fā)布頻次閾值從5次/分鐘降低至4次/分鐘,以提高召回率。又例如,假設(shè)在步驟S42’中,評估設(shè)備I獲取的評價參數(shù)中召回率小于預(yù)設(shè)的召回率閾值,則在步驟S5’中,評估設(shè)備I根據(jù)其在步驟S41’中獲取比較分析結(jié)果中垃圾信息內(nèi)容中包含的垃圾詞匯均值2個/條,據(jù)此將垃圾信息內(nèi)容的垃圾詞匯累計數(shù)量閾值從3個/條降低至2個/條,以提高召回率。本領(lǐng)域技術(shù)人員應(yīng)能理解上述優(yōu)化挖掘規(guī)則的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的優(yōu)化挖掘規(guī)則的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。更優(yōu)選地,在步驟S5’中,評估設(shè)備I還可根據(jù)所述評價參數(shù),結(jié)合所述評價參數(shù)的預(yù)置的參數(shù)優(yōu)先級信息,優(yōu)化所述挖掘規(guī)則。具體地,在步驟S5’中,評估設(shè)備I還根據(jù)所述評價參數(shù),如召回率和準確率,且根據(jù)預(yù)設(shè)的參數(shù)優(yōu)先級信息,如準確率優(yōu)先級高于召回率,選擇合適的方式優(yōu)化挖掘規(guī)則,以提高該評價參數(shù)。例如,假設(shè)在步驟S42’中,評估設(shè)備I獲取的評價參數(shù)中準確率為50 %,且小于預(yù)設(shè)的準確率閾值60 %,召回率為40 %,且小于預(yù)設(shè)的召回率閾值50%,則在步驟S5’中,評估設(shè)備I根據(jù)預(yù)設(shè)的準確率優(yōu)先級高于召回率的參數(shù)優(yōu)先級信息,調(diào)整挖掘規(guī)則為對優(yōu)質(zhì)用戶發(fā)布的發(fā)布信息均不進行挖掘,進而提高準確率。本領(lǐng)域技術(shù)人員應(yīng)能理解上述優(yōu)化挖掘規(guī)則的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的優(yōu)化挖掘規(guī)則的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。更優(yōu)選地,該過程還包括步驟S6’(未示出),在步驟S6’中,評估設(shè)備I可根據(jù)所述評價參數(shù),更新所述參數(shù)優(yōu)先級信息。具體地,在步驟S6’中,評估設(shè)備I根據(jù)其在步驟S42’中獲取的評價參數(shù),例如當召回率小于預(yù)設(shè)的召回率閾值,而準確率大于預(yù)設(shè)的準確率閾值時,更新參數(shù)優(yōu)先級為召回率優(yōu)先級大于準確率。例如,在步驟S42’中,評估設(shè)備I獲取的評價參數(shù)中召回率小于預(yù)設(shè)的召回率閾值,而準確率大于預(yù)設(shè)的準確率閾值,在步驟S6’中,評估設(shè)備I將預(yù)設(shè)的準確率優(yōu)先級高于召回率的參數(shù)優(yōu)先級信息,更新為召回率優(yōu)先級高于準確率。本領(lǐng)域技術(shù)人員應(yīng)能理解上述挖掘更新參數(shù)優(yōu)先級信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的更新參數(shù)優(yōu)先級信息的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。優(yōu)選地,該過程還包括步驟S7’ (未示出),在步驟S7’中,評估設(shè)備I可當所述評價參數(shù)達到評價參數(shù)閾值時,結(jié)束優(yōu)化所述挖掘規(guī)則。具體地,在步驟S3’中,評估設(shè)備I基于挖掘規(guī)則對信息發(fā)布樣本進行垃圾信息挖掘,獲取與該信息發(fā)布樣本相對應(yīng)的垃圾信息;接著,在步驟S41’中,評估設(shè)備I將該信息發(fā)布樣本中預(yù)設(shè)的實際垃圾信息與該垃圾信息進行比較分析,獲得與所述垃圾信息相對應(yīng)的比較分析結(jié)果;隨后,在步驟S42’中,評估設(shè)備I根據(jù)該比較分析結(jié)果,獲取至少ー項評價參數(shù);評估設(shè)備I在步驟S3’和步驟S4’中不斷基于其在步驟S5’中更新后的挖掘規(guī)則循環(huán)執(zhí)行,在步驟S7’中,評估設(shè)備I檢測該循環(huán)每次獲得的評價參數(shù),并且當評價參數(shù)達到評價參數(shù)閾值吋,結(jié)束優(yōu)化該優(yōu)化規(guī)則。其中,評價參數(shù)閾值意為預(yù)置的期望評價參數(shù)。例如,當評估設(shè)備I在步驟S7’中檢測到準確率大于預(yù)定的準確率閾值且召回率大于預(yù)定的召回率閾值時,評估設(shè)備I停止優(yōu)化該挖掘規(guī)則。本領(lǐng)域技術(shù)人員應(yīng)能理解上述結(jié)束優(yōu)化挖掘規(guī)則的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的結(jié)束優(yōu)化挖掘規(guī)則的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。優(yōu)選地,所述評價參數(shù)包括以下至少任ー項-與所述挖掘規(guī)則相對應(yīng)的召回率;-與所述挖掘規(guī)則相對應(yīng)的準確率。具體地,在步驟S42’中,評估設(shè)備I獲取的評價參數(shù)包括但不限于與所述挖據(jù)規(guī)則相對應(yīng)的召回率和與所述挖掘規(guī)則相對應(yīng)的準確率。召回率指評估設(shè)備I在步驟S3’中通過垃圾信息挖掘獲取的真正的垃圾信息數(shù)量與信息發(fā)布樣本中實際垃圾信息數(shù)量的比值;準確率指評估設(shè)備I在步驟S3’中通過垃圾信息挖掘獲取的真正的垃圾信息數(shù)量與其通過垃圾信息挖掘獲取的垃圾信息數(shù)量的比值。準確率和召回率是可能相互制約的兩個評價參數(shù),準確率高吋,可能導(dǎo)致召回率低,召回率高吋,可能導(dǎo)致準確率低,因此,需要在召回率和準確率之間尋找平衡,以最優(yōu)的方式進行垃圾信息的挖掘。本領(lǐng)域技術(shù)人員應(yīng)能理解上述評價參數(shù)僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的評價參數(shù)如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此g在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標記視為限制所涉及的權(quán)利要求。此夕卜,顯然“包括” ー詞不排除其他単元或步驟,單數(shù)不排除復(fù)數(shù)。裝置權(quán)利要求中陳述的多個單元或裝置也可以由ー個單元或裝置通過軟件或者硬件來實現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
權(quán)利要求
1.一種計算機實現(xiàn)的用于評估垃圾信息挖掘規(guī)則的方法,其中,該方法包括以下步驟a獲取待評估的挖掘規(guī)則;其中,所述方法還包括i獲取用于評估所述挖掘規(guī)則的信息發(fā)布樣本;其中,所述方法還包括b基于所述挖掘規(guī)則,對所述信息發(fā)布樣本進行垃圾信息挖掘,獲取與所述信息發(fā)布樣本相對應(yīng)的垃圾信息;c根據(jù)所述垃圾信息,結(jié)合所述信息發(fā)布樣本,獲取與所述挖掘規(guī)則相對應(yīng)的至少一項評價參數(shù)。
2.根據(jù)權(quán)利要求I所述的方法,其中,所述步驟i還包括-根據(jù)所述挖掘規(guī)則,從信息發(fā)布樣本庫中獲取與所述挖掘規(guī)則相對應(yīng)的信息發(fā)布樣本。
3 根據(jù)權(quán)利要求I或2所述的方法,其中,所述挖掘規(guī)則基于以下至少任一項對所述信息發(fā)布樣本進行垃圾信息挖掘-息發(fā)布頻次;-息發(fā)布內(nèi)容;-信息發(fā)布者的歷史行為記錄;-信息發(fā)布者的屬性。
4.根據(jù)權(quán)利要求I至3中任一項所述的方法,其中,所述步驟c還包括-將所述信息發(fā)布樣本中預(yù)設(shè)的實際垃圾信息與所述垃圾信息進行比較分析,獲得與所述垃圾信息相對應(yīng)的比較分析結(jié)果;-根據(jù)所述比較分析結(jié)果,獲取所述至少一項評價參數(shù)。
5.根據(jù)權(quán)利要求3或4所述的方法,其中,該方法還包括步驟XX根據(jù)所述評價參數(shù),優(yōu)化所述挖掘規(guī)則。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述步驟X還包括-根據(jù)所述評價參數(shù),結(jié)合所述比較分析結(jié)果,優(yōu)化所述挖掘規(guī)則。
7.根據(jù)權(quán)利要求5或6所述的方法,其中,所述步驟X還包括-根據(jù)所述評價參數(shù),結(jié)合所述評價參數(shù)的預(yù)置的參數(shù)優(yōu)先級信息,優(yōu)化所述挖掘規(guī)則。
8.根據(jù)權(quán)利要求7所述的方法,其中,該方法還包括-根據(jù)所述評價參數(shù),更新所述參數(shù)優(yōu)先級信息。
9.根據(jù)權(quán)利要求5至8中任一項所述的方法,其中,該方法還包括-基于所述優(yōu)化后的挖掘規(guī)則,重復(fù)執(zhí)行所述步驟b和C,直到所述評價參數(shù)達到評價參數(shù)閾值。
10.根據(jù)權(quán)利要求I至9中任一項所述的方法,其中,所述評價參數(shù)包括以下至少任一項-與所述挖掘規(guī)則相對應(yīng)的召回率;-與所述挖掘規(guī)則相對應(yīng)的準確率。
11.一種用于評估垃圾信息挖掘規(guī)則的設(shè)備,其中,該設(shè)備包括規(guī)則獲取裝置,用于獲取待評估的挖掘規(guī)則;樣本獲取裝置,用于獲取用于評估所述挖掘規(guī)則的信息發(fā)布樣本;垃圾信息獲取裝置,用于基于所述挖掘規(guī)則,對所述信息發(fā)布樣本進行垃圾信息挖掘, 獲取與所述信息發(fā)布樣本相對應(yīng)的垃圾信息;參數(shù)獲取裝置,用于根據(jù)所述垃圾信息,結(jié)合所述信息發(fā)布樣本,獲取與所述挖掘規(guī)則相對應(yīng)的至少一項評價參數(shù)。
12.根據(jù)權(quán)利要求11所述的設(shè)備,其中,所述樣本獲取裝置還用于根據(jù)所述挖掘規(guī)則, 從信息發(fā)布樣本庫中獲取與所述挖掘規(guī)則相對應(yīng)的信息發(fā)布樣本。
13.根據(jù)權(quán)利要求11或12所述的設(shè)備,其中,所述挖掘規(guī)則基于以下至少任一項對所述信息發(fā)布樣本進行垃圾信息挖掘息發(fā)布頻次;-息發(fā)布內(nèi)容;-信息發(fā)布者的歷史行為記錄;-信息發(fā)布者的屬性。
14.根據(jù)權(quán)利要求11至13中任一項所述的設(shè)備,其中,所述參數(shù)獲取裝置還包括 結(jié)果獲取單元,用于將所述信息發(fā)布樣本中預(yù)設(shè)的實際垃圾信息與所述垃圾信息進行比較分析,獲得與所述垃圾信息相對應(yīng)的比較分析結(jié)果;參數(shù)獲取單元,用于根據(jù)所述比較分析結(jié)果,獲取所述至少一項評價參數(shù)。
15.根據(jù)權(quán)利要求14所述的設(shè)備,其中,該設(shè)備還包括規(guī)則優(yōu)化裝置,用于根據(jù)所述評價參數(shù),優(yōu)化所述挖掘規(guī)則。
16.根據(jù)權(quán)利要求15所述的設(shè)備,其中,所述規(guī)則優(yōu)化裝置還用于根據(jù)所述評價參數(shù), 結(jié)合所述比較分析結(jié)果,優(yōu)化所述挖掘規(guī)則。
17.根據(jù)權(quán)利要求15或16所述的設(shè)備,其中,所述規(guī)則優(yōu)化裝置還用于根據(jù)所述評價參數(shù),結(jié)合所述評價參數(shù)的預(yù)置的參數(shù)優(yōu)先級信息,優(yōu)化所述挖掘規(guī)則。
18.根據(jù)權(quán)利要求17所述的設(shè)備,其中,該設(shè)備還包括優(yōu)先級更新裝置,用于根據(jù)所述評價參數(shù),更新所述參數(shù)優(yōu)先級信息。
19.根據(jù)權(quán)利要求15至18中任一項所述的設(shè)備,其中,該設(shè)備還包括優(yōu)化控制裝置,用于當所述評價參數(shù)達到評價參數(shù)閾值時,結(jié)束優(yōu)化所述挖掘規(guī)則。
20.根據(jù)權(quán)利要求11至19中任一項所述的裝置,其中,所述評價參數(shù)包括以下至少任一項-與所述挖掘規(guī)則相對應(yīng)的召回率;-與所述挖掘規(guī)則相對應(yīng)的準確率。
全文摘要
本發(fā)明的目的是提供一種用于評估垃圾信息挖掘規(guī)則的方法與設(shè)備,其中,評估設(shè)備獲取待評估的挖掘規(guī)則及用于評估所述挖掘規(guī)則的信息發(fā)布樣本;隨后,基于所述挖掘規(guī)則對所述信息發(fā)布樣本進行垃圾信息挖掘,進而獲取與所述挖掘規(guī)則相對應(yīng)的至少一項評價參數(shù)。與現(xiàn)有技術(shù)相比,本發(fā)明通過獲取與待評估的挖掘規(guī)則相對應(yīng)的至少一項評價參數(shù),向互動平臺管理者提供了對該挖掘規(guī)則進行評估的指標,進而可對該挖掘規(guī)則進行優(yōu)化更新,以提高所述各項評價參數(shù),使得互動平臺可以更為準確判斷垃圾信息并對其進行處理,從而保障互動平臺的正常工作。
文檔編號G06F17/30GK102982048SQ20111026422
公開日2013年3月20日 申請日期2011年9月7日 優(yōu)先權(quán)日2011年9月7日
發(fā)明者李彥宏, 舒迅, 帥帥, 尹佳, 羅亮, 王波 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1