本發(fā)明涉及網(wǎng)絡(luò)信息分析與數(shù)據(jù)挖掘
技術(shù)領(lǐng)域:
,特別是涉及一種論壇帖子識(shí)別方法及裝置。
背景技術(shù):
:隨著計(jì)算機(jī)網(wǎng)絡(luò)的不斷發(fā)展,網(wǎng)絡(luò)信息成為日常生活中的重要組成部分,互聯(lián)網(wǎng)以及成為人們獲取信息、交流溝通的重要場所?;ヂ?lián)網(wǎng)用戶可以集中在論壇中發(fā)表/獲取信息,論壇已經(jīng)成為一個(gè)信息的集散地,任何用戶都可以在這里發(fā)表帖子、參加討論一些熱門的話題,由于缺乏足夠的控制手段,使得某些用戶可以比較隨意的發(fā)表或張貼黃色信息、反動(dòng)言論或廣告推廣?,F(xiàn)有的對(duì)論壇的管理一般是簡單依靠管理員實(shí)時(shí)地瀏覽每一篇帖子,發(fā)現(xiàn)并刪除其中一些含有不良信息的帖子。其工作流程為:終端用戶通過網(wǎng)路向論壇服務(wù)器發(fā)布帖子,管理員在帖子發(fā)布之后,再去瀏覽,查找帖子中有無不良信息并做出相關(guān)處理。上述的管理方法有兩大弊端:1、管理員的工作量極大,在大量帖子同時(shí)發(fā)布或者管理員暫時(shí)離開時(shí),難免有一些有問題的帖子在網(wǎng)上傳播,造成壞的影響;2、即使管理員發(fā)現(xiàn)有問題的帖子后立即刪除,在管理員刪除之前這些帖子已經(jīng)被一些用戶看到并傳播,造成不良的影響。技術(shù)實(shí)現(xiàn)要素:本發(fā)明主要解決的技術(shù)問題是提供一種論壇帖子識(shí)別方法及裝置,能夠?qū)崿F(xiàn)機(jī)器自動(dòng)判斷用戶生成內(nèi)容是否涉及不良信息。為解決上述技術(shù)問題,本發(fā)明采用的一個(gè)技術(shù)方案是:提供一種論壇帖子識(shí)別方法,所述方法包括:服務(wù)器根據(jù)預(yù)先定義的用于識(shí)別帖子的特征向量,對(duì)應(yīng)地獲取一待識(shí)別的帖子的特征向量;計(jì)算所述帖子的 各特征向量的后驗(yàn)概率;根據(jù)計(jì)算得到的各特征向量的后驗(yàn)概率值確定最大的后驗(yàn)概率值以判斷所述最大的后驗(yàn)概率值是否小于閾值;以及當(dāng)所述最大的后驗(yàn)概率值小于所述閾值時(shí),識(shí)別所述帖子為正常帖子,否則,識(shí)別所述帖子為垃圾帖子。其中,所述預(yù)先定義的用于識(shí)別帖子的特征向量的步驟包括:根據(jù)預(yù)先定義的特征項(xiàng)從樣本訓(xùn)練庫中獲取樣本帖子,并從所述樣本帖子中抽取對(duì)應(yīng)的特征值;其中,所述樣本訓(xùn)練庫為通過人工獲取并進(jìn)行分類的帖子庫;根據(jù)對(duì)所述樣本訓(xùn)練庫中帖子的分類,相應(yīng)地計(jì)算帖子的先驗(yàn)概率值;其中,所述分類包括正常帖子、垃圾帖子;計(jì)算每個(gè)所述特征值在不同分類下的條件概率值;根據(jù)每個(gè)所述特征值的所述先驗(yàn)概率值和所述條件概率值,判斷不同分類的分步差異是否高于閾值;若是,則保留所述特征值,以確定用于識(shí)別帖子的特征向量;否則,去除所述特征值。其中,當(dāng)根據(jù)每個(gè)所述特征值的所述先驗(yàn)概率值和所述條件概率值,判斷不同分類的分步差異高于閾值時(shí),保留所述特征值時(shí),所述方法還包括:將保留的所述特征值進(jìn)行組合,形成用于識(shí)別帖子的特征向量。其中,所述方法還包括:過濾被識(shí)別為垃圾帖子的帖子。其中,所述方法還包括:獲取被識(shí)別為垃圾帖子的用戶信息,以限制所述用戶發(fā)布的全部帖子或部分帖子。其中,所述獲取被識(shí)別為垃圾帖子的用戶信息,以限制所述用戶發(fā)布的全部帖子或部分帖子的步驟具體為:獲取被識(shí)別為垃圾帖子的用戶信息;累積所述用戶在預(yù)定時(shí)間內(nèi)發(fā)布、且被識(shí)別垃圾帖子的帖子數(shù)量;判斷所述帖子數(shù)量是否達(dá)到預(yù)定值;若是,則限制所述用戶發(fā)布的全部帖子或部分帖子;否則,對(duì)所述用戶發(fā)布的帖子不進(jìn)行限制。為解決上述技術(shù)問題,本發(fā)明采用的另一個(gè)技術(shù)方案是:提供一種論壇帖子識(shí)別裝置,所述裝置包括:特征獲取模塊,根據(jù)預(yù)先定義的用于識(shí)別帖子的特征向量,對(duì)應(yīng)地獲取一待識(shí)別的帖子的特征向量;計(jì)算模塊,用于計(jì)算所述帖子的各特征向量的后驗(yàn)概率;識(shí)別模塊,用于根 據(jù)所述計(jì)算模塊計(jì)算得到的各特征向量的后驗(yàn)概率值確定最大的后驗(yàn)概率值以判斷所述最大的后驗(yàn)概率值是否小于閾值;若是,則識(shí)別所述帖子為正常帖子,否則,識(shí)別所述帖子為垃圾帖子。其中,所述特征獲取模塊包括:特征抽取模塊,用于根據(jù)預(yù)先定義的特征項(xiàng)從樣本訓(xùn)練庫中獲取樣本帖子,并從所述樣本帖子中抽取對(duì)應(yīng)的特征值;分類子模塊,用于根據(jù)對(duì)所述樣本訓(xùn)練庫中帖子的分類,相應(yīng)地計(jì)算帖子的先驗(yàn)概率值;其中,所述分類包括正常帖子、垃圾帖子;計(jì)算子模塊,用于計(jì)算每個(gè)所述特征值在不同分類下的條件概率值;判斷子模塊,用于根據(jù)每個(gè)所述特征值的所述先驗(yàn)概率值和所述條件概率值,判斷不同分類的分步差異是否高于閾值;若是,則保留所述特征值,以確定用于識(shí)別帖子的特征向量;否則,去除所述特征值。其中,還包括過濾模塊,用于過濾被識(shí)別為垃圾帖子的帖子。其中,所述識(shí)別模塊還用于獲取被識(shí)別為垃圾帖子的用戶信息,以限制所述用戶發(fā)布的全部帖子或部分帖子。本發(fā)明的有益效果是:本發(fā)明通過對(duì)待識(shí)別的帖子的特征向量進(jìn)行后驗(yàn)概率的計(jì)算,以確定最大的后驗(yàn)概率值在小于閾值時(shí),識(shí)別帖子為正常帖子,確定最大的后驗(yàn)概率值在大于閾值時(shí),識(shí)別所述帖子為垃圾帖子。從而完成了機(jī)器自動(dòng)判斷用戶生成內(nèi)容是否涉及不良信息,算法簡單便捷,易于訓(xùn)練,且具有很好的抗噪性和魯棒性,并且滿足不斷迭代更新的方式實(shí)現(xiàn)不斷完善。附圖說明圖1是本發(fā)明一種論壇帖子識(shí)別方法的第一實(shí)施方式的流程圖;圖2是本發(fā)明一種論壇帖子識(shí)別方法中獲取帖子特征向量方法的一實(shí)施方式的流程圖;圖3是本發(fā)明一種論壇帖子識(shí)別方法的第二實(shí)施方式的流程圖;圖4是本發(fā)明一種論壇帖子識(shí)別裝置的第一實(shí)施方式的結(jié)構(gòu)示意圖;圖5是本發(fā)明一種論壇帖子識(shí)別裝置中特征獲取模塊一實(shí)施方式的 結(jié)構(gòu)示意圖;圖6是本發(fā)明一種論壇帖子識(shí)別裝置的第二實(shí)施方式的結(jié)構(gòu)示意圖。具體實(shí)施方式下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明進(jìn)行詳細(xì)說明。請(qǐng)參閱圖1,為本發(fā)明一種論壇帖子識(shí)別方法的第一實(shí)施方式的流程圖,該實(shí)施方式示出的方法包括:步驟S10:服務(wù)器根據(jù)預(yù)先定義的用于識(shí)別帖子的特征向量,對(duì)應(yīng)地獲取一待識(shí)別的帖子的特征向量。用戶登錄服務(wù)器運(yùn)行的論壇等信息發(fā)布平臺(tái)發(fā)布帖子,發(fā)布的帖子通常包括標(biāo)題和內(nèi)容。并且,發(fā)布的帖子還包含發(fā)布者的身份信息ID,例如,用戶名、用戶的網(wǎng)絡(luò)地址等。請(qǐng)同時(shí)參閱圖2,步驟S10,即,服務(wù)器根據(jù)預(yù)先定義的用于識(shí)別帖子的特征向量,對(duì)應(yīng)地獲取一待識(shí)別的帖子的特征向量,具體通過如下步驟實(shí)現(xiàn):步驟S101,根據(jù)預(yù)先定義的特征項(xiàng)從樣本訓(xùn)練庫中獲取樣本帖子,并從該樣本帖子中抽取對(duì)應(yīng)的特征值。其中,該樣本訓(xùn)練庫為通過人工獲取并進(jìn)行分類的帖子庫。具體地,訓(xùn)練樣本一般是通過人工整理的方式獲取,直接使用樣本庫中在生產(chǎn)過程中做好的分類,把這個(gè)訓(xùn)練樣本稱為前人工整理訓(xùn)練樣本。但是,這樣的訓(xùn)練樣本由于生產(chǎn)過程中,人工的審核不夠及時(shí)也不夠認(rèn)真完善,會(huì)存在一定的噪聲樣本。為了避免上述的樣本噪聲,還需要進(jìn)行樣本人工分類,以提高后續(xù)特征抽取的準(zhǔn)確性。進(jìn)一步地,在樣本訓(xùn)練庫抽取樣本帖子的過程中,需要預(yù)先定義要抽取的特征項(xiàng)。特征項(xiàng)的定義一般和訓(xùn)練樣本有關(guān),比如,一般的用戶發(fā)表的帖子會(huì)涉及如下特征:(1)標(biāo)題和內(nèi)容分詞;(2)標(biāo)題長度;(3)內(nèi)容長度;(4)內(nèi)容圖片張數(shù);(5)樓主自回復(fù)條數(shù);(6)自回復(fù)前10條字?jǐn)?shù);(7)自回復(fù)前10條圖片數(shù);(8)標(biāo)題長度+內(nèi)容長度+內(nèi)容圖片張數(shù)(聯(lián)合分布)。步驟S102,根據(jù)對(duì)該樣本訓(xùn)練庫中帖子的分類,相應(yīng)地計(jì)算帖子的先驗(yàn)概率值。其中,該分類包括正常帖子、垃圾帖子。正常帖子為不包含不良信息的帖子,垃圾帖子為包含不良信息的帖子。例如,從數(shù)據(jù)庫獲取當(dāng)前三個(gè)月的所有帖子,統(tǒng)計(jì)總數(shù)為N,已被回收(即為垃圾帖子)的數(shù)量為n,則有:其中,R即為垃圾帖子。步驟S103,計(jì)算每個(gè)特征值在不同分類下的條件概率值。條件概率P(B|A)是指在事件A發(fā)生的前提下,事件B接著發(fā)生的概率(不是指事件A和B一同發(fā)生的概率——P(AB)——聯(lián)合概率)。在P(A)?。?條件下,則有:P(B|A)=P(AB)/P(A)(2)有時(shí)候不容易統(tǒng)計(jì)P(B|A),可以通過公式(2)做過渡。舉例需要計(jì)算的特征:(1)帖子標(biāo)題和內(nèi)容的條件概率計(jì)算針對(duì)每篇帖子,合并帖子標(biāo)題和內(nèi)容,并做中文分詞,過濾基本停詞和標(biāo)點(diǎn)符號(hào),得到所有的關(guān)鍵詞列表v=(v1,v2...vn)。合并所有帖子的關(guān)鍵詞,統(tǒng)計(jì)每個(gè)詞在垃圾帖子和正常帖子中出現(xiàn)的頻次,然后分別計(jì)算每個(gè)詞在垃圾帖子和正常帖子中的聯(lián)合概率,因此得到P(vj)=TF(vj)/總詞數(shù)和P(vj|R)=TF(vj)/R帖子總詞數(shù)。(2)標(biāo)題長度的條件概率計(jì)算針對(duì)每篇帖子,計(jì)算標(biāo)題長度,按如下分類:統(tǒng)計(jì)各標(biāo)題長度所在分區(qū)的帖子數(shù)TF(Lj),從而可以得到:(3)圖片數(shù)的條件概率計(jì)算針對(duì)每篇帖子,計(jì)算圖片數(shù),按如下分類:統(tǒng)計(jì)圖片數(shù)所在分區(qū)的帖子數(shù)TF(Sj),從而可以得到:步驟S104,根據(jù)每個(gè)特征值的先驗(yàn)概率值和條件概率值,判斷不同分類的分步差異是否高于閾值。若是,則進(jìn)入步驟S105,否則,進(jìn)入步驟S106。步驟S105,保留該特征值,以確定用于識(shí)別帖子的特征向量。然后,本流程完成。步驟S106,去除該特征值。然后,返回步驟S104。通過比較垃圾郵件和正常郵件間的特征向量分布,可以將特征值分布比較接近的特征去掉。進(jìn)一步地,由于抽取的特征量很多,為了能夠抽離有效并且可解釋的特征,需要比對(duì)在良性信息樣本集和不良信息樣本集之間的分布差異,如果二者差異不明顯,則考慮去除該特性。有些特征可能單獨(dú)體現(xiàn)不會(huì)有分布差異,可以考慮將特征進(jìn)行組合,例如“標(biāo)題長度+內(nèi)容長度+內(nèi)容圖片張數(shù)”,然后重新計(jì)算步驟104,并進(jìn)行步驟105的判斷,以判定是否加入到判定特征集?;谟行┨卣鲬?yīng)該聯(lián)合在一起才能有效 果,比如{內(nèi)容長度+圖片數(shù)}等。由于標(biāo)題長度和內(nèi)容長度等都近似連續(xù)分布,可以使用范圍做分區(qū)。步驟S11,計(jì)算該帖子的各特征向量的后驗(yàn)概率。具體地,抽取帖子相關(guān)的特征量v=(v1,v2...vn)。然后,計(jì)算帖子特征量的后驗(yàn)概率P(R|v)和,其中,各特征之間是相互獨(dú)立的,則有:P(C|F1F2...Fn)=P(F1F2...Fn|C)P(C)/P(F1F2...Fn)=P(F1|C)*P(F2|C)...P(Fn|C)*P(C)/(P(F1)*P(F2)*...P(Fn))步驟S12,根據(jù)計(jì)算得到的各特征向量的后驗(yàn)概率值確定最大的后驗(yàn)概率值以判斷該最大的后驗(yàn)概率值是否小于閾值。若是,則進(jìn)入步驟S13,否則,進(jìn)入步驟S14。如上所述,比較P(R|v)和大小以確定最大值,并進(jìn)一步地判斷該最大值是否超過閾值。步驟S13,識(shí)別該帖子為正常帖子,然后,流程結(jié)束。步驟S14,識(shí)別該帖子為垃圾帖子。然后,流程結(jié)束。利用本發(fā)明實(shí)施方式中,通過對(duì)帖子的標(biāo)題和內(nèi)容進(jìn)行分詞并計(jì)算分詞得到的詞語的詞頻,將詞頻從大到小位于前N個(gè)位置的詞頻對(duì)應(yīng)的詞語作為該帖子的特征詞。從而完成了機(jī)器自動(dòng)判斷用戶生成內(nèi)容是否涉及不良信息,算法簡單便捷,易于訓(xùn)練,且具有很好的抗噪性和魯棒性,并且滿足不斷迭代更新的方式實(shí)現(xiàn)不斷完善。例如,使用社區(qū)帖子標(biāo)題、內(nèi)容作為訓(xùn)練樣本,將已經(jīng)邏輯刪除的帖子默認(rèn)為不良信息樣本,未做邏輯刪除的帖子作為正常信息樣本。使用MapReduce分別統(tǒng)計(jì)不良信息樣本和正常信息樣本數(shù),使用中文分詞對(duì)文本內(nèi)容做分詞,統(tǒng)計(jì)分詞詞匯的出現(xiàn)頻率、圖片數(shù)分布頻率、標(biāo)題長度等信息。然后計(jì)算各特征的邊緣概率和似然概率。然后,再抽取一篇新帖子,如下:“想要美麗從這里開始,有想要做泰國童顏神器代理的嗎??那就加我微信吧,n-xiaonanzi,給你絕對(duì)的最低價(jià)哦”。其分詞結(jié)果為:“想要、美麗、這里、開始、想要、做、泰國、童顏、神器、代理、那就、加、微信、n-xiaonanzi、絕對(duì)、低價(jià)”,對(duì)這些分詞進(jìn)行如上所述的論壇帖子識(shí)別方法的操作,得到如下結(jié)果:詞匯不良信息似然概率正常信息似然概率美麗4.946295E-41.4430203E-4開始0.00290683170.002532714泰國2.753065E-44.6727706E-5低價(jià)3.1324697E-48.664314E-6想要0.00227552639.465194E-4這里8.8080036E-44.2442873E-4神器3.1374817E-43.823282E-5代理0.00204377372.8487659E-5n-xiaonanzinull5.842424E-9絕對(duì)8.05571E-41.7722408E-4童顏5.0921426E-56.1579144E-6微信0.00206983582.3248757E-4那就1.2980954E-41.5543184E-4R:3.72709E-40FR:4.564715E-48ratio:8.1650632E7根據(jù)上表所示,羅列出的每個(gè)分詞的似然概率,計(jì)算各聯(lián)合分布概率,得到不良信息的概率為1.26573298E11,而正常信息的概率為1550.1814,可以發(fā)現(xiàn)是不良信息的概率遠(yuǎn)高于正常信息的概率,差別達(dá)到近千萬級(jí)別,可以認(rèn)定該帖子是不良信息。進(jìn)一步地,還可以通過人工對(duì)識(shí)別結(jié)果進(jìn)行判定,以使識(shí)別結(jié)果更加準(zhǔn)確。如上所述的帖子的內(nèi)容包括化妝品、代理和微信、私聊,這些信息在訓(xùn)練庫中認(rèn)定為廣告信息,屬于不良信息的范疇,所以“神器”、“泰國”、“低價(jià)”、“微信”等詞屬于不良信息的概率比其是正常信息的概率要高不少,最終判定結(jié)果也是不良信息,所以人工認(rèn)可這樣的判定。請(qǐng)同時(shí)參閱圖3,為本發(fā)明一種論壇帖子識(shí)別方法的第二實(shí)施方式的流程圖,該實(shí)施方式示出的論壇帖子識(shí)別方法相對(duì)于圖1所示的論壇帖子識(shí)別方法,還包括如下步驟:步驟S25,過濾被識(shí)別為垃圾帖子的帖子。進(jìn)一步地,服務(wù)器還可以獲取被識(shí)別為垃圾帖子的帖子特征,例如,用戶信息、用戶的操作行為等,響應(yīng)地限制該用戶的操作行為。例如,用戶A發(fā)布的帖子被識(shí)別垃圾帖子時(shí),服務(wù)器獲取其用戶ID,并限制其發(fā)布任何帖子,或者對(duì)其發(fā)布的帖子的內(nèi)容進(jìn)行關(guān)鍵字的提取和審核,以限制其發(fā)布包含有特定關(guān)鍵字的帖子。進(jìn)一步地,服務(wù)器還可以記錄被識(shí)別為垃圾帖子的帖子特征,并進(jìn)行累計(jì)。當(dāng)數(shù)量達(dá)到預(yù)設(shè)值時(shí),采取如上所述的限制動(dòng)作。例如,用戶B發(fā)布的帖子超過5次被識(shí)別為垃圾帖子,則服務(wù)器限制其發(fā)布任何帖子或者包含有特定關(guān)鍵字的帖子。請(qǐng)參閱圖4,為本發(fā)明一種論壇帖子識(shí)別裝置第一實(shí)施方式的結(jié)構(gòu)示意圖,該裝置30包括:特征獲取模塊31、計(jì)算模塊32以及識(shí)別模塊33。該特征獲取模塊31用于根據(jù)預(yù)先定義的用于識(shí)別帖子的特征向量,對(duì)應(yīng)地獲取一待識(shí)別的帖子的特征向量。該計(jì)算模塊32用于計(jì)算該帖子的各特征向量的后驗(yàn)概率。具體地,抽取帖子相關(guān)的特征量v=(v1,v2...vn)。然后,計(jì)算帖子特征量的后驗(yàn)概率P(R|v)和,其中,各特征之間是相互獨(dú)立的,則有:P(C|F1F2...Fn)=P(F1F2...Fn|C)P(C)/P(F1F2...Fn)=P(F1|C)*P(F2|C)...P(Fn|C)*P(C)/(P(F1)*P(F2)*...P(Fn))該識(shí)別模塊33用于根據(jù)該計(jì)算模塊32計(jì)算得到的各特征向量的后驗(yàn)概率值確定最大的后驗(yàn)概率值以判斷該最大的后驗(yàn)概率值是否小于閾值。若是,則識(shí)別該帖子為正常帖子,否則,識(shí)別該帖子為垃圾帖子。如上所述,比較P(R|v)和大小以確定最大值,并進(jìn)一步地判斷該最大值是否超過閾值。請(qǐng)參閱圖5,為特征獲取模塊的結(jié)構(gòu)示意圖。該特征獲取模塊41包括特征抽取子模塊411、分類子模塊412、計(jì)算子模塊413、判斷子模塊414。該特征抽取模塊411用于根據(jù)預(yù)先定義的特征項(xiàng)從樣本訓(xùn)練庫中獲取樣本帖子,并從該樣本帖子中抽取對(duì)應(yīng)的特征值。其中,該樣本訓(xùn)練庫為通過人工獲取并進(jìn)行分類的帖子庫。具體地,訓(xùn)練樣本一般是通過人工整理的方式獲取,直接使用樣本庫中在生產(chǎn)過程中做好的分類,把這個(gè)訓(xùn)練樣本稱為前人工整理訓(xùn)練樣本。但是,這樣的訓(xùn)練樣本由于生產(chǎn)過程中,人工的審核不夠及時(shí)也不夠認(rèn)真完善,會(huì)存在一定的噪聲樣本。為了避免上述的樣本噪聲,還需要進(jìn)行樣本人工分類,以提高后續(xù)特征抽取的準(zhǔn)確性。進(jìn)一步地,在樣本訓(xùn)練庫抽取樣本帖子的過程中,需要預(yù)先定義要抽取的特征項(xiàng)。特征項(xiàng)的定義一般和訓(xùn)練樣本有關(guān),比如,一般的用戶發(fā)表的帖子會(huì)涉及如下特征:(1)標(biāo)題和內(nèi)容分詞;(2)標(biāo)題長度;(3)內(nèi)容長度;(4)內(nèi)容圖片張數(shù);(5)樓主自回復(fù)條數(shù);(6)自回復(fù)前10條字?jǐn)?shù);(7)自回復(fù)前10條圖片數(shù);(8)標(biāo)題長度+內(nèi)容長度+內(nèi)容圖片張數(shù)(聯(lián)合分布)。該分類子模塊412用于根據(jù)對(duì)該樣本訓(xùn)練庫中帖子的分類,相應(yīng)地計(jì)算帖子的先驗(yàn)概率值。其中,該分類包括正常帖子、垃圾帖子。正常帖子為不包含不良信息的帖子,垃圾帖子為包含不良信息的帖子。例如,從數(shù)據(jù)庫獲取當(dāng)前三個(gè)月的所有帖子,統(tǒng)計(jì)總數(shù)為N,已被回收(即為垃圾帖子)的數(shù)量為n,則有:其中,R即為垃圾帖子。該計(jì)算子模塊413用于計(jì)算每個(gè)特征值在不同分類下的條件概率值。條件概率P(B|A)是指在事件A發(fā)生的前提下,事件B接著發(fā)生的概率(不是指事件A和B一同發(fā)生的概率——P(AB)——聯(lián)合概率)。在P(A)?。?條件下,則有:P(B|A)=P(AB)/P(A)(2)有時(shí)候不容易統(tǒng)計(jì)P(B|A),可以通過公式(2)做過渡。舉例需要計(jì)算的特征:(1)帖子標(biāo)題和內(nèi)容的條件概率計(jì)算針對(duì)每篇帖子,合并帖子標(biāo)題和內(nèi)容,并做中文分詞,過濾基本停詞和標(biāo)點(diǎn)符號(hào),得到所有的關(guān)鍵詞列表v=(v1,v2...vn)。合并所有帖子的關(guān)鍵詞,統(tǒng)計(jì)每個(gè)詞在垃圾帖子和正常帖子中出現(xiàn)的頻次,然后分別計(jì)算每個(gè)詞在垃圾帖子和正常帖子中的聯(lián)合概率,因此得到P(vj)=TF(vj)/總詞數(shù)和P(vj|R)=TF(vj)/R帖子總詞數(shù)。(2)標(biāo)題長度的條件概率計(jì)算針對(duì)每篇帖子,計(jì)算標(biāo)題長度,按如下分類:統(tǒng)計(jì)各標(biāo)題長度所在分區(qū)的帖子數(shù)TF(Lj),從而可以得到:(3)圖片數(shù)的條件概率計(jì)算針對(duì)每篇帖子,計(jì)算圖片數(shù),按如下分類:統(tǒng)計(jì)圖片數(shù)所在分區(qū)的帖子數(shù)TF(Sj),從而可以得到:該判斷子模塊414用于根據(jù)每個(gè)特征值的先驗(yàn)概率值和條件概率值,判斷不同分類的分步差異是否高于閾值。若是,則保留該特征值,以確定用于識(shí)別帖子的特征向量。否則,去除該特征值。通過比較垃圾郵件和正常郵件間的特征向量分布,可以將特征值分布比較接近的特征去掉。進(jìn)一步地,由于抽取的特征量很多,為了能夠抽離有效并且可解釋的特征,需要比對(duì)在良性信息樣本集和不良信息樣本集之間的分布差異,如果二者差異不明顯,則考慮去除該特性。有些特征可能單獨(dú)體現(xiàn)不會(huì)有分布差異,可以考慮將特征進(jìn)行組合,例如“標(biāo)題長度+內(nèi)容長度+內(nèi)容圖片張數(shù)”,然后重新計(jì)算步驟104,并進(jìn)行步驟105的判斷,以判定是否加入到判定特征集?;谟行┨卣鲬?yīng)該聯(lián)合在一起才能有效果,比如{內(nèi)容長度+圖片數(shù)}等。由于標(biāo)題長度和內(nèi)容長度等都近似連續(xù)分布,可以使用范圍做分區(qū)。請(qǐng)參閱圖6,為本發(fā)明一種論壇帖子識(shí)別裝置的第二實(shí)施方式的結(jié)構(gòu)示意圖。該實(shí)施方式示出的論壇帖子識(shí)別裝置相對(duì)于圖4所示的論壇帖子識(shí)別裝置方法,還包括過濾模塊54,用于過濾被識(shí)別垃圾帖子的帖子。進(jìn)一步地,該裝置還可以獲取被識(shí)別為垃圾帖子的帖子特征,例如,用戶信息、用戶的操作行為等,響應(yīng)地限制該用戶的操作行為。例如,用戶A發(fā)布的帖子被識(shí)別垃圾帖子時(shí),該裝置獲取其用戶ID,并限制其發(fā)布任何帖子,或者對(duì)其發(fā)布的帖子的內(nèi)容進(jìn)行關(guān)鍵字的提取和審核,以限制其發(fā)布包含有特定關(guān)鍵字的帖子。進(jìn)一步地,該裝置還可以記錄被識(shí)別為垃圾帖子的帖子特征,并進(jìn)行累計(jì)。當(dāng)數(shù)量達(dá)到預(yù)設(shè)值時(shí),采取如上所述的限制動(dòng)作。例如,用戶B發(fā)布的帖子超過5次被識(shí)別為垃圾帖子,則該裝置限制其發(fā)布任何帖子或者包含有特定關(guān)鍵字的帖子。圖6中的其它模塊請(qǐng)參見圖4以及相應(yīng)的文字說明。本發(fā)明提供的一種論壇帖子識(shí)別方法及裝置,通過對(duì)帖子的標(biāo)題和內(nèi)容進(jìn)行分詞并計(jì)算分詞得到的詞語的詞頻,將詞頻從大到小位于前N個(gè)位置的詞頻對(duì)應(yīng)的詞語作為該帖子的特征詞。從而完成了機(jī)器自動(dòng)判斷用戶生成內(nèi)容是否涉及不良信息,算法簡單便捷,易于訓(xùn)練,且具有很好的抗噪性和魯棒性,并且滿足不斷迭代更新的方式實(shí)現(xiàn)不斷完善。以上所述僅為本發(fā)明的實(shí)施方式,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的
技術(shù)領(lǐng)域:
,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。當(dāng)前第1頁1 2 3