一種論壇帖子識(shí)別方法及裝置與流程

文檔序號(hào)：12363766閱讀：159來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及網(wǎng)絡(luò)信息分析與數(shù)據(jù)挖掘
技術(shù)領(lǐng)域：
，特別是涉及一種論壇帖子識(shí)別方法及裝置。
背景技術(shù)：
：隨著計(jì)算機(jī)網(wǎng)絡(luò)的不斷發(fā)展，網(wǎng)絡(luò)信息成為日常生活中的重要組成部分，互聯(lián)網(wǎng)以及成為人們獲取信息、交流溝通的重要場所?；ヂ?lián)網(wǎng)用戶可以集中在論壇中發(fā)表/獲取信息，論壇已經(jīng)成為一個(gè)信息的集散地，任何用戶都可以在這里發(fā)表帖子、參加討論一些熱門的話題，由于缺乏足夠的控制手段，使得某些用戶可以比較隨意的發(fā)表或張貼黃色信息、反動(dòng)言論或廣告推廣?，F(xiàn)有的對(duì)論壇的管理一般是簡單依靠管理員實(shí)時(shí)地瀏覽每一篇帖子，發(fā)現(xiàn)并刪除其中一些含有不良信息的帖子。其工作流程為：終端用戶通過網(wǎng)路向論壇服務(wù)器發(fā)布帖子，管理員在帖子發(fā)布之后，再去瀏覽，查找帖子中有無不良信息并做出相關(guān)處理。上述的管理方法有兩大弊端：1、管理員的工作量極大，在大量帖子同時(shí)發(fā)布或者管理員暫時(shí)離開時(shí)，難免有一些有問題的帖子在網(wǎng)上傳播，造成壞的影響；2、即使管理員發(fā)現(xiàn)有問題的帖子后立即刪除，在管理員刪除之前這些帖子已經(jīng)被一些用戶看到并傳播，造成不良的影響。技術(shù)實(shí)現(xiàn)要素：本發(fā)明主要解決的技術(shù)問題是提供一種論壇帖子識(shí)別方法及裝置，能夠?qū)崿F(xiàn)機(jī)器自動(dòng)判斷用戶生成內(nèi)容是否涉及不良信息。為解決上述技術(shù)問題，本發(fā)明采用的一個(gè)技術(shù)方案是：提供一種論壇帖子識(shí)別方法，所述方法包括：服務(wù)器根據(jù)預(yù)先定義的用于識(shí)別帖子的特征向量，對(duì)應(yīng)地獲取一待識(shí)別的帖子的特征向量；計(jì)算所述帖子的各特征向量的后驗(yàn)概率；根據(jù)計(jì)算得到的各特征向量的后驗(yàn)概率值確定最大的后驗(yàn)概率值以判斷所述最大的后驗(yàn)概率值是否小于閾值；以及當(dāng)所述最大的后驗(yàn)概率值小于所述閾值時(shí)，識(shí)別所述帖子為正常帖子，否則，識(shí)別所述帖子為垃圾帖子。其中，所述預(yù)先定義的用于識(shí)別帖子的特征向量的步驟包括：根據(jù)預(yù)先定義的特征項(xiàng)從樣本訓(xùn)練庫中獲取樣本帖子，并從所述樣本帖子中抽取對(duì)應(yīng)的特征值；其中，所述樣本訓(xùn)練庫為通過人工獲取并進(jìn)行分類的帖子庫；根據(jù)對(duì)所述樣本訓(xùn)練庫中帖子的分類，相應(yīng)地計(jì)算帖子的先驗(yàn)概率值；其中，所述分類包括正常帖子、垃圾帖子；計(jì)算每個(gè)所述特征值在不同分類下的條件概率值；根據(jù)每個(gè)所述特征值的所述先驗(yàn)概率值和所述條件概率值，判斷不同分類的分步差異是否高于閾值；若是，則保留所述特征值，以確定用于識(shí)別帖子的特征向量；否則，去除所述特征值。其中，當(dāng)根據(jù)每個(gè)所述特征值的所述先驗(yàn)概率值和所述條件概率值，判斷不同分類的分步差異高于閾值時(shí)，保留所述特征值時(shí)，所述方法還包括：將保留的所述特征值進(jìn)行組合，形成用于識(shí)別帖子的特征向量。其中，所述方法還包括：過濾被識(shí)別為垃圾帖子的帖子。其中，所述方法還包括：獲取被識(shí)別為垃圾帖子的用戶信息，以限制所述用戶發(fā)布的全部帖子或部分帖子。其中，所述獲取被識(shí)別為垃圾帖子的用戶信息，以限制所述用戶發(fā)布的全部帖子或部分帖子的步驟具體為：獲取被識(shí)別為垃圾帖子的用戶信息；累積所述用戶在預(yù)定時(shí)間內(nèi)發(fā)布、且被識(shí)別垃圾帖子的帖子數(shù)量；判斷所述帖子數(shù)量是否達(dá)到預(yù)定值；若是，則限制所述用戶發(fā)布的全部帖子或部分帖子；否則，對(duì)所述用戶發(fā)布的帖子不進(jìn)行限制。為解決上述技術(shù)問題，本發(fā)明采用的另一個(gè)技術(shù)方案是：提供一種論壇帖子識(shí)別裝置，所述裝置包括：特征獲取模塊，根據(jù)預(yù)先定義的用于識(shí)別帖子的特征向量，對(duì)應(yīng)地獲取一待識(shí)別的帖子的特征向量；計(jì)算模塊，用于計(jì)算所述帖子的各特征向量的后驗(yàn)概率；識(shí)別模塊，用于根據(jù)所述計(jì)算模塊計(jì)算得到的各特征向量的后驗(yàn)概率值確定最大的后驗(yàn)概率值以判斷所述最大的后驗(yàn)概率值是否小于閾值；若是，則識(shí)別所述帖子為正常帖子，否則，識(shí)別所述帖子為垃圾帖子。其中，所述特征獲取模塊包括：特征抽取模塊，用于根據(jù)預(yù)先定義的特征項(xiàng)從樣本訓(xùn)練庫中獲取樣本帖子，并從所述樣本帖子中抽取對(duì)應(yīng)的特征值；分類子模塊，用于根據(jù)對(duì)所述樣本訓(xùn)練庫中帖子的分類，相應(yīng)地計(jì)算帖子的先驗(yàn)概率值；其中，所述分類包括正常帖子、垃圾帖子；計(jì)算子模塊，用于計(jì)算每個(gè)所述特征值在不同分類下的條件概率值；判斷子模塊，用于根據(jù)每個(gè)所述特征值的所述先驗(yàn)概率值和所述條件概率值，判斷不同分類的分步差異是否高于閾值；若是，則保留所述特征值，以確定用于識(shí)別帖子的特征向量；否則，去除所述特征值。其中，還包括過濾模塊，用于過濾被識(shí)別為垃圾帖子的帖子。其中，所述識(shí)別模塊還用于獲取被識(shí)別為垃圾帖子的用戶信息，以限制所述用戶發(fā)布的全部帖子或部分帖子。本發(fā)明的有益效果是：本發(fā)明通過對(duì)待識(shí)別的帖子的特征向量進(jìn)行后驗(yàn)概率的計(jì)算，以確定最大的后驗(yàn)概率值在小于閾值時(shí)，識(shí)別帖子為正常帖子，確定最大的后驗(yàn)概率值在大于閾值時(shí)，識(shí)別所述帖子為垃圾帖子。從而完成了機(jī)器自動(dòng)判斷用戶生成內(nèi)容是否涉及不良信息，算法簡單便捷，易于訓(xùn)練，且具有很好的抗噪性和魯棒性，并且滿足不斷迭代更新的方式實(shí)現(xiàn)不斷完善。附圖說明圖1是本發(fā)明一種論壇帖子識(shí)別方法的第一實(shí)施方式的流程圖；圖2是本發(fā)明一種論壇帖子識(shí)別方法中獲取帖子特征向量方法的一實(shí)施方式的流程圖；圖3是本發(fā)明一種論壇帖子識(shí)別方法的第二實(shí)施方式的流程圖；圖4是本發(fā)明一種論壇帖子識(shí)別裝置的第一實(shí)施方式的結(jié)構(gòu)示意圖；圖5是本發(fā)明一種論壇帖子識(shí)別裝置中特征獲取模塊一實(shí)施方式的結(jié)構(gòu)示意圖；圖6是本發(fā)明一種論壇帖子識(shí)別裝置的第二實(shí)施方式的結(jié)構(gòu)示意圖。具體實(shí)施方式下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明進(jìn)行詳細(xì)說明。請(qǐng)參閱圖1，為本發(fā)明一種論壇帖子識(shí)別方法的第一實(shí)施方式的流程圖，該實(shí)施方式示出的方法包括：步驟S10：服務(wù)器根據(jù)預(yù)先定義的用于識(shí)別帖子的特征向量，對(duì)應(yīng)地獲取一待識(shí)別的帖子的特征向量。用戶登錄服務(wù)器運(yùn)行的論壇等信息發(fā)布平臺(tái)發(fā)布帖子，發(fā)布的帖子通常包括標(biāo)題和內(nèi)容。并且，發(fā)布的帖子還包含發(fā)布者的身份信息ID，例如，用戶名、用戶的網(wǎng)絡(luò)地址等。請(qǐng)同時(shí)參閱圖2，步驟S10，即，服務(wù)器根據(jù)預(yù)先定義的用于識(shí)別帖子的特征向量，對(duì)應(yīng)地獲取一待識(shí)別的帖子的特征向量，具體通過如下步驟實(shí)現(xiàn)：步驟S101，根據(jù)預(yù)先定義的特征項(xiàng)從樣本訓(xùn)練庫中獲取樣本帖子，并從該樣本帖子中抽取對(duì)應(yīng)的特征值。其中，該樣本訓(xùn)練庫為通過人工獲取并進(jìn)行分類的帖子庫。具體地，訓(xùn)練樣本一般是通過人工整理的方式獲取，直接使用樣本庫中在生產(chǎn)過程中做好的分類，把這個(gè)訓(xùn)練樣本稱為前人工整理訓(xùn)練樣本。但是，這樣的訓(xùn)練樣本由于生產(chǎn)過程中，人工的審核不夠及時(shí)也不夠認(rèn)真完善，會(huì)存在一定的噪聲樣本。為了避免上述的樣本噪聲，還需要進(jìn)行樣本人工分類，以提高后續(xù)特征抽取的準(zhǔn)確性。進(jìn)一步地，在樣本訓(xùn)練庫抽取樣本帖子的過程中，需要預(yù)先定義要抽取的特征項(xiàng)。特征項(xiàng)的定義一般和訓(xùn)練樣本有關(guān)，比如，一般的用戶發(fā)表的帖子會(huì)涉及如下特征：(1)標(biāo)題和內(nèi)容分詞；(2)標(biāo)題長度；(3)內(nèi)容長度；(4)內(nèi)容圖片張數(shù)；(5)樓主自回復(fù)條數(shù)；(6)自回復(fù)前10條字?jǐn)?shù)；(7)自回復(fù)前10條圖片數(shù)；(8)標(biāo)題長度+內(nèi)容長度+內(nèi)容圖片張數(shù)(聯(lián)合分布)。步驟S102，根據(jù)對(duì)該樣本訓(xùn)練庫中帖子的分類，相應(yīng)地計(jì)算帖子的先驗(yàn)概率值。其中，該分類包括正常帖子、垃圾帖子。正常帖子為不包含不良信息的帖子，垃圾帖子為包含不良信息的帖子。例如，從數(shù)據(jù)庫獲取當(dāng)前三個(gè)月的所有帖子，統(tǒng)計(jì)總數(shù)為N，已被回收(即為垃圾帖子)的數(shù)量為n，則有：其中，R即為垃圾帖子。步驟S103，計(jì)算每個(gè)特征值在不同分類下的條件概率值。條件概率P(B|A)是指在事件A發(fā)生的前提下，事件B接著發(fā)生的概率(不是指事件A和B一同發(fā)生的概率——P(AB)——聯(lián)合概率)。在P(A)?。?條件下，則有：P(B|A)＝P(AB)/P(A)(2)有時(shí)候不容易統(tǒng)計(jì)P(B|A)，可以通過公式(2)做過渡。舉例需要計(jì)算的特征：(1)帖子標(biāo)題和內(nèi)容的條件概率計(jì)算針對(duì)每篇帖子，合并帖子標(biāo)題和內(nèi)容，并做中文分詞，過濾基本停詞和標(biāo)點(diǎn)符號(hào)，得到所有的關(guān)鍵詞列表v＝(v1,v2...vn)。合并所有帖子的關(guān)鍵詞，統(tǒng)計(jì)每個(gè)詞在垃圾帖子和正常帖子中出現(xiàn)的頻次，然后分別計(jì)算每個(gè)詞在垃圾帖子和正常帖子中的聯(lián)合概率，因此得到P(vj)＝TF(vj)/總詞數(shù)和P(vj|R)＝TF(vj)/R帖子總詞數(shù)。(2)標(biāo)題長度的條件概率計(jì)算針對(duì)每篇帖子，計(jì)算標(biāo)題長度，按如下分類：統(tǒng)計(jì)各標(biāo)題長度所在分區(qū)的帖子數(shù)TF(Lj)，從而可以得到：(3)圖片數(shù)的條件概率計(jì)算針對(duì)每篇帖子，計(jì)算圖片數(shù)，按如下分類：統(tǒng)計(jì)圖片數(shù)所在分區(qū)的帖子數(shù)TF(Sj)，從而可以得到：步驟S104，根據(jù)每個(gè)特征值的先驗(yàn)概率值和條件概率值，判斷不同分類的分步差異是否高于閾值。若是，則進(jìn)入步驟S105，否則，進(jìn)入步驟S106。步驟S105，保留該特征值，以確定用于識(shí)別帖子的特征向量。然后，本流程完成。步驟S106，去除該特征值。然后，返回步驟S104。通過比較垃圾郵件和正常郵件間的特征向量分布，可以將特征值分布比較接近的特征去掉。進(jìn)一步地，由于抽取的特征量很多，為了能夠抽離有效并且可解釋的特征，需要比對(duì)在良性信息樣本集和不良信息樣本集之間的分布差異，如果二者差異不明顯，則考慮去除該特性。有些特征可能單獨(dú)體現(xiàn)不會(huì)有分布差異，可以考慮將特征進(jìn)行組合，例如“標(biāo)題長度+內(nèi)容長度+內(nèi)容圖片張數(shù)”，然后重新計(jì)算步驟104，并進(jìn)行步驟105的判斷，以判定是否加入到判定特征集?；谟行┨卣鲬?yīng)該聯(lián)合在一起才能有效果，比如{內(nèi)容長度+圖片數(shù)}等。由于標(biāo)題長度和內(nèi)容長度等都近似連續(xù)分布，可以使用范圍做分區(qū)。步驟S11，計(jì)算該帖子的各特征向量的后驗(yàn)概率。具體地，抽取帖子相關(guān)的特征量v＝(v1,v2...vn)。然后，計(jì)算帖子特征量的后驗(yàn)概率P(R|v)和，其中，各特征之間是相互獨(dú)立的，則有：P(C|F1F2...Fn)＝P(F1F2...Fn|C)P(C)/P(F1F2...Fn)＝P(F1|C)*P(F2|C)...P(Fn|C)*P(C)/(P(F1)*P(F2)*...P(Fn))步驟S12，根據(jù)計(jì)算得到的各特征向量的后驗(yàn)概率值確定最大的后驗(yàn)概率值以判斷該最大的后驗(yàn)概率值是否小于閾值。若是，則進(jìn)入步驟S13，否則，進(jìn)入步驟S14。如上所述，比較P(R|v)和大小以確定最大值，并進(jìn)一步地判斷該最大值是否超過閾值。步驟S13，識(shí)別該帖子為正常帖子，然后，流程結(jié)束。步驟S14，識(shí)別該帖子為垃圾帖子。然后，流程結(jié)束。利用本發(fā)明實(shí)施方式中，通過對(duì)帖子的標(biāo)題和內(nèi)容進(jìn)行分詞并計(jì)算分詞得到的詞語的詞頻，將詞頻從大到小位于前N個(gè)位置的詞頻對(duì)應(yīng)的詞語作為該帖子的特征詞。從而完成了機(jī)器自動(dòng)判斷用戶生成內(nèi)容是否涉及不良信息，算法簡單便捷，易于訓(xùn)練，且具有很好的抗噪性和魯棒性，并且滿足不斷迭代更新的方式實(shí)現(xiàn)不斷完善。例如，使用社區(qū)帖子標(biāo)題、內(nèi)容作為訓(xùn)練樣本，將已經(jīng)邏輯刪除的帖子默認(rèn)為不良信息樣本，未做邏輯刪除的帖子作為正常信息樣本。使用MapReduce分別統(tǒng)計(jì)不良信息樣本和正常信息樣本數(shù)，使用中文分詞對(duì)文本內(nèi)容做分詞，統(tǒng)計(jì)分詞詞匯的出現(xiàn)頻率、圖片數(shù)分布頻率、標(biāo)題長度等信息。然后計(jì)算各特征的邊緣概率和似然概率。然后，再抽取一篇新帖子，如下：“想要美麗從這里開始，有想要做泰國童顏神器代理的嗎？？那就加我微信吧，n-xiaonanzi，給你絕對(duì)的最低價(jià)哦”。其分詞結(jié)果為：“想要、美麗、這里、開始、想要、做、泰國、童顏、神器、代理、那就、加、微信、n-xiaonanzi、絕對(duì)、低價(jià)”，對(duì)這些分詞進(jìn)行如上所述的論壇帖子識(shí)別方法的操作，得到如下結(jié)果：詞匯不良信息似然概率正常信息似然概率美麗4.946295E-41.4430203E-4開始0.00290683170.002532714泰國2.753065E-44.6727706E-5低價(jià)3.1324697E-48.664314E-6想要0.00227552639.465194E-4這里8.8080036E-44.2442873E-4神器3.1374817E-43.823282E-5代理0.00204377372.8487659E-5n-xiaonanzinull5.842424E-9絕對(duì)8.05571E-41.7722408E-4童顏5.0921426E-56.1579144E-6微信0.00206983582.3248757E-4那就1.2980954E-41.5543184E-4R:3.72709E-40FR:4.564715E-48ratio:8.1650632E7根據(jù)上表所示，羅列出的每個(gè)分詞的似然概率，計(jì)算各聯(lián)合分布概率，得到不良信息的概率為1.26573298E11，而正常信息的概率為1550.1814，可以發(fā)現(xiàn)是不良信息的概率遠(yuǎn)高于正常信息的概率，差別達(dá)到近千萬級(jí)別，可以認(rèn)定該帖子是不良信息。進(jìn)一步地，還可以通過人工對(duì)識(shí)別結(jié)果進(jìn)行判定，以使識(shí)別結(jié)果更加準(zhǔn)確。如上所述的帖子的內(nèi)容包括化妝品、代理和微信、私聊，這些信息在訓(xùn)練庫中認(rèn)定為廣告信息，屬于不良信息的范疇，所以“神器”、“泰國”、“低價(jià)”、“微信”等詞屬于不良信息的概率比其是正常信息的概率要高不少，最終判定結(jié)果也是不良信息，所以人工認(rèn)可這樣的判定。請(qǐng)同時(shí)參閱圖3，為本發(fā)明一種論壇帖子識(shí)別方法的第二實(shí)施方式的流程圖，該實(shí)施方式示出的論壇帖子識(shí)別方法相對(duì)于圖1所示的論壇帖子識(shí)別方法，還包括如下步驟：步驟S25，過濾被識(shí)別為垃圾帖子的帖子。進(jìn)一步地，服務(wù)器還可以獲取被識(shí)別為垃圾帖子的帖子特征，例如，用戶信息、用戶的操作行為等，響應(yīng)地限制該用戶的操作行為。例如，用戶A發(fā)布的帖子被識(shí)別垃圾帖子時(shí)，服務(wù)器獲取其用戶ID，并限制其發(fā)布任何帖子，或者對(duì)其發(fā)布的帖子的內(nèi)容進(jìn)行關(guān)鍵字的提取和審核，以限制其發(fā)布包含有特定關(guān)鍵字的帖子。進(jìn)一步地，服務(wù)器還可以記錄被識(shí)別為垃圾帖子的帖子特征，并進(jìn)行累計(jì)。當(dāng)數(shù)量達(dá)到預(yù)設(shè)值時(shí)，采取如上所述的限制動(dòng)作。例如，用戶B發(fā)布的帖子超過5次被識(shí)別為垃圾帖子，則服務(wù)器限制其發(fā)布任何帖子或者包含有特定關(guān)鍵字的帖子。請(qǐng)參閱圖4，為本發(fā)明一種論壇帖子識(shí)別裝置第一實(shí)施方式的結(jié)構(gòu)示意圖，該裝置30包括：特征獲取模塊31、計(jì)算模塊32以及識(shí)別模塊33。該特征獲取模塊31用于根據(jù)預(yù)先定義的用于識(shí)別帖子的特征向量，對(duì)應(yīng)地獲取一待識(shí)別的帖子的特征向量。該計(jì)算模塊32用于計(jì)算該帖子的各特征向量的后驗(yàn)概率。具體地，抽取帖子相關(guān)的特征量v＝(v1,v2...vn)。然后，計(jì)算帖子特征量的后驗(yàn)概率P(R|v)和，其中，各特征之間是相互獨(dú)立的，則有：P(C|F1F2...Fn)＝P(F1F2...Fn|C)P(C)/P(F1F2...Fn)＝P(F1|C)*P(F2|C)...P(Fn|C)*P(C)/(P(F1)*P(F2)*...P(Fn))該識(shí)別模塊33用于根據(jù)該計(jì)算模塊32計(jì)算得到的各特征向量的后驗(yàn)概率值確定最大的后驗(yàn)概率值以判斷該最大的后驗(yàn)概率值是否小于閾值。若是，則識(shí)別該帖子為正常帖子，否則，識(shí)別該帖子為垃圾帖子。如上所述，比較P(R|v)和大小以確定最大值，并進(jìn)一步地判斷該最大值是否超過閾值。請(qǐng)參閱圖5，為特征獲取模塊的結(jié)構(gòu)示意圖。該特征獲取模塊41包括特征抽取子模塊411、分類子模塊412、計(jì)算子模塊413、判斷子模塊414。該特征抽取模塊411用于根據(jù)預(yù)先定義的特征項(xiàng)從樣本訓(xùn)練庫中獲取樣本帖子，并從該樣本帖子中抽取對(duì)應(yīng)的特征值。其中，該樣本訓(xùn)練庫為通過人工獲取并進(jìn)行分類的帖子庫。具體地，訓(xùn)練樣本一般是通過人工整理的方式獲取，直接使用樣本庫中在生產(chǎn)過程中做好的分類，把這個(gè)訓(xùn)練樣本稱為前人工整理訓(xùn)練樣本。但是，這樣的訓(xùn)練樣本由于生產(chǎn)過程中，人工的審核不夠及時(shí)也不夠認(rèn)真完善，會(huì)存在一定的噪聲樣本。為了避免上述的樣本噪聲，還需要進(jìn)行樣本人工分類，以提高后續(xù)特征抽取的準(zhǔn)確性。進(jìn)一步地，在樣本訓(xùn)練庫抽取樣本帖子的過程中，需要預(yù)先定義要抽取的特征項(xiàng)。特征項(xiàng)的定義一般和訓(xùn)練樣本有關(guān)，比如，一般的用戶發(fā)表的帖子會(huì)涉及如下特征：(1)標(biāo)題和內(nèi)容分詞；(2)標(biāo)題長度；(3)內(nèi)容長度；(4)內(nèi)容圖片張數(shù)；(5)樓主自回復(fù)條數(shù)；(6)自回復(fù)前10條字?jǐn)?shù)；(7)自回復(fù)前10條圖片數(shù)；(8)標(biāo)題長度+內(nèi)容長度+內(nèi)容圖片張數(shù)(聯(lián)合分布)。該分類子模塊412用于根據(jù)對(duì)該樣本訓(xùn)練庫中帖子的分類，相應(yīng)地計(jì)算帖子的先驗(yàn)概率值。其中，該分類包括正常帖子、垃圾帖子。正常帖子為不包含不良信息的帖子，垃圾帖子為包含不良信息的帖子。例如，從數(shù)據(jù)庫獲取當(dāng)前三個(gè)月的所有帖子，統(tǒng)計(jì)總數(shù)為N，已被回收(即為垃圾帖子)的數(shù)量為n，則有：其中，R即為垃圾帖子。該計(jì)算子模塊413用于計(jì)算每個(gè)特征值在不同分類下的條件概率值。條件概率P(B|A)是指在事件A發(fā)生的前提下，事件B接著發(fā)生的概率(不是指事件A和B一同發(fā)生的概率——P(AB)——聯(lián)合概率)。在P(A)?。?條件下，則有：P(B|A)＝P(AB)/P(A)(2)有時(shí)候不容易統(tǒng)計(jì)P(B|A)，可以通過公式(2)做過渡。舉例需要計(jì)算的特征：(1)帖子標(biāo)題和內(nèi)容的條件概率計(jì)算針對(duì)每篇帖子，合并帖子標(biāo)題和內(nèi)容，并做中文分詞，過濾基本停詞和標(biāo)點(diǎn)符號(hào)，得到所有的關(guān)鍵詞列表v＝(v1,v2...vn)。合并所有帖子的關(guān)鍵詞，統(tǒng)計(jì)每個(gè)詞在垃圾帖子和正常帖子中出現(xiàn)的頻次，然后分別計(jì)算每個(gè)詞在垃圾帖子和正常帖子中的聯(lián)合概率，因此得到P(vj)＝TF(vj)/總詞數(shù)和P(vj|R)＝TF(vj)/R帖子總詞數(shù)。(2)標(biāo)題長度的條件概率計(jì)算針對(duì)每篇帖子，計(jì)算標(biāo)題長度，按如下分類：統(tǒng)計(jì)各標(biāo)題長度所在分區(qū)的帖子數(shù)TF(Lj)，從而可以得到：(3)圖片數(shù)的條件概率計(jì)算針對(duì)每篇帖子，計(jì)算圖片數(shù)，按如下分類：統(tǒng)計(jì)圖片數(shù)所在分區(qū)的帖子數(shù)TF(Sj)，從而可以得到：該判斷子模塊414用于根據(jù)每個(gè)特征值的先驗(yàn)概率值和條件概率值，判斷不同分類的分步差異是否高于閾值。若是，則保留該特征值，以確定用于識(shí)別帖子的特征向量。否則，去除該特征值。通過比較垃圾郵件和正常郵件間的特征向量分布，可以將特征值分布比較接近的特征去掉。進(jìn)一步地，由于抽取的特征量很多，為了能夠抽離有效并且可解釋的特征，需要比對(duì)在良性信息樣本集和不良信息樣本集之間的分布差異，如果二者差異不明顯，則考慮去除該特性。有些特征可能單獨(dú)體現(xiàn)不會(huì)有分布差異，可以考慮將特征進(jìn)行組合，例如“標(biāo)題長度+內(nèi)容長度+內(nèi)容圖片張數(shù)”，然后重新計(jì)算步驟104，并進(jìn)行步驟105的判斷，以判定是否加入到判定特征集?；谟行┨卣鲬?yīng)該聯(lián)合在一起才能有效果，比如{內(nèi)容長度+圖片數(shù)}等。由于標(biāo)題長度和內(nèi)容長度等都近似連續(xù)分布，可以使用范圍做分區(qū)。請(qǐng)參閱圖6，為本發(fā)明一種論壇帖子識(shí)別裝置的第二實(shí)施方式的結(jié)構(gòu)示意圖。該實(shí)施方式示出的論壇帖子識(shí)別裝置相對(duì)于圖4所示的論壇帖子識(shí)別裝置方法，還包括過濾模塊54，用于過濾被識(shí)別垃圾帖子的帖子。進(jìn)一步地，該裝置還可以獲取被識(shí)別為垃圾帖子的帖子特征，例如，用戶信息、用戶的操作行為等，響應(yīng)地限制該用戶的操作行為。例如，用戶A發(fā)布的帖子被識(shí)別垃圾帖子時(shí)，該裝置獲取其用戶ID，并限制其發(fā)布任何帖子，或者對(duì)其發(fā)布的帖子的內(nèi)容進(jìn)行關(guān)鍵字的提取和審核，以限制其發(fā)布包含有特定關(guān)鍵字的帖子。進(jìn)一步地，該裝置還可以記錄被識(shí)別為垃圾帖子的帖子特征，并進(jìn)行累計(jì)。當(dāng)數(shù)量達(dá)到預(yù)設(shè)值時(shí)，采取如上所述的限制動(dòng)作。例如，用戶B發(fā)布的帖子超過5次被識(shí)別為垃圾帖子，則該裝置限制其發(fā)布任何帖子或者包含有特定關(guān)鍵字的帖子。圖6中的其它模塊請(qǐng)參見圖4以及相應(yīng)的文字說明。本發(fā)明提供的一種論壇帖子識(shí)別方法及裝置，通過對(duì)帖子的標(biāo)題和內(nèi)容進(jìn)行分詞并計(jì)算分詞得到的詞語的詞頻，將詞頻從大到小位于前N個(gè)位置的詞頻對(duì)應(yīng)的詞語作為該帖子的特征詞。從而完成了機(jī)器自動(dòng)判斷用戶生成內(nèi)容是否涉及不良信息，算法簡單便捷，易于訓(xùn)練，且具有很好的抗噪性和魯棒性，并且滿足不斷迭代更新的方式實(shí)現(xiàn)不斷完善。以上所述僅為本發(fā)明的實(shí)施方式，并非因此限制本發(fā)明的專利范圍，凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換，或直接或間接運(yùn)用在其他相關(guān)的
技術(shù)領(lǐng)域：
，均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳方毅;高家棟;蘇利祥;
技術(shù)所有人：廈門美柚信息科技有限公司;
我是此專利的發(fā)明人

上一篇：一種異種金屬微焊接方法與流程
上一篇：應(yīng)用程序的日志內(nèi)容的處理方法和裝置與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

乙烯裝置工藝流程相關(guān)技術(shù)

空分裝置工藝流程圖相關(guān)技術(shù)

催化裂化裝置流程相關(guān)技術(shù)

常減壓裝置工藝流程圖相關(guān)技術(shù)

生產(chǎn)裝置工藝流程圖相關(guān)技術(shù)

連續(xù)重整裝置工藝流程相關(guān)技術(shù)

聚丙烯裝置工藝流程圖相關(guān)技術(shù)

芳烴聯(lián)合裝置流程圖相關(guān)技術(shù)

異構(gòu)化裝置工藝流程相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種論壇帖子識(shí)別方法及裝置與流程