亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種問答社區(qū)中推廣內(nèi)容的檢測方法以及裝置的制作方法

文檔序號:7732442閱讀:172來源:國知局
專利名稱:一種問答社區(qū)中推廣內(nèi)容的檢測方法以及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于信息安全領(lǐng)域,尤其涉及一種問答社區(qū)中推廣內(nèi)容的檢測方法以及裝置。
背景技術(shù)
在搜索問問或者百度知道等用戶參與提問和回答的問答社區(qū)中,推廣用戶會在某些特定的分類下針對多個問題的回答都推薦特定的產(chǎn)品或某些商業(yè)信息。由于問答社區(qū)大都會限制同一個用戶反復(fù)提交同樣的回答內(nèi)容,因此推廣用戶往往會針對不同的問題提交不完全一樣的回答,但是這些不完全一樣的回答在一段時間內(nèi)仍會包含相同的品牌或其它特定的推廣信息。目前問答社區(qū)中常用的推廣內(nèi)容識別方法有三種,一種是基于推廣關(guān)鍵詞表來識 別推廣內(nèi)容;一種是基于向量空間模型的文本過濾系統(tǒng)識別,另一種是基于機器學(xué)習(xí)的推廣內(nèi)容識別。其中,基于推廣關(guān)鍵詞表識別推廣內(nèi)容數(shù)據(jù)的方法是通過分析推廣內(nèi)容數(shù)據(jù),發(fā)現(xiàn)并抽取出推廣關(guān)鍵詞,再將這些關(guān)鍵詞加入到推廣關(guān)鍵詞表中。當(dāng)用戶提交了一個問答后,檢測該問答內(nèi)容數(shù)據(jù),判斷該問答內(nèi)容數(shù)據(jù)是否包含了推廣關(guān)鍵詞表中的關(guān)鍵詞,如果包含,則認為該用戶提交的問答內(nèi)容數(shù)據(jù)為推廣內(nèi)容數(shù)據(jù)。由于用戶推廣同一產(chǎn)品時所使用的關(guān)鍵詞有可能發(fā)生變化,且新的推廣關(guān)鍵詞也不斷出現(xiàn),因此需要人工不斷維護推廣關(guān)鍵詞表,使維護成本加大,因此該方法具有一定的局限性;另一方面,由于該檢測方法是基于推廣關(guān)鍵詞表的,因此需要發(fā)現(xiàn)并抽取出新的關(guān)鍵詞,并將該關(guān)鍵詞增添在推廣關(guān)鍵詞表里才能過濾包含該關(guān)鍵詞的推廣內(nèi)容數(shù)據(jù),因此該方法又具有一定的滯后性。另一種是基于向量空間模型的文本過濾系統(tǒng)識別推廣內(nèi)容數(shù)據(jù)的,該文本過濾系統(tǒng)是由訓(xùn)練和自適應(yīng)過濾兩個階段組成。訓(xùn)練階段主要是建立初始過濾模板和設(shè)置初始閾值,其中建立初始過濾模板是通過特征抽取和偽反饋建立的;而過濾階段是根據(jù)用戶的反饋信息自適應(yīng)地調(diào)整已建立的過濾模板和閾值,從而識別推廣內(nèi)容數(shù)據(jù)。其中,圖I示出了自適應(yīng)過濾訓(xùn)練算法的體系結(jié)構(gòu)。在該訓(xùn)練階段算法中,先將主題11轉(zhuǎn)變?yōu)橄蛄啃问降闹黝}向量14,再從正例文本12和偽正例文本13中抽取特征向量15,該主題向量14、正例特征向量12以及偽正例特征向量13的加權(quán)和構(gòu)成了初始過濾模板16。計算初始過濾模板16和全部的訓(xùn)練樣本17之間的相似度,為每個主題選擇最優(yōu)的初始相似度閾值18。當(dāng)文本與初始過濾模板16的相似度大于或等于初始相似度閾值18時,判定該文本為與推廣內(nèi)容相關(guān)的文本,否則判定為不相關(guān)的,具體判定過程如圖2所示。該方法在建立初始過濾模板16且設(shè)置了初始相似度閾值18之后,文本過濾的過程就是自適應(yīng)地修改初始過濾模塊16和初始相似度閾值18,從而不斷提高過濾系統(tǒng)的性能。由于在問答社區(qū)中,多個用戶可能提交相同或者不同的推廣內(nèi)容數(shù)據(jù),而不同客戶在推廣內(nèi)容數(shù)據(jù)中的用語、風(fēng)格等可能也存在很大的差別,因此通過不斷修改相似度閾值,再比較文本與該相似度閾值的大小來判定問答社區(qū)中所有千差萬別的文本是否為推廣內(nèi)容數(shù)據(jù)不僅操作繁瑣,效率低下,而且難以檢測出問答社區(qū)中千差萬別的推廣內(nèi)容數(shù)據(jù)。最后一種是基于機器學(xué)習(xí)識別推廣內(nèi)容數(shù)據(jù)的,該方法首先需要人工標(biāo)注待過濾的主題內(nèi)容數(shù)據(jù),然后采用機器學(xué)習(xí)的方法進行訓(xùn)練,最后用訓(xùn)練得到的分類模型對新的待檢測內(nèi)容數(shù)據(jù)進行主題檢測。該方法在檢測問答社區(qū)中的推廣內(nèi)容數(shù)據(jù)時會有一定局限性。一方面,問答社區(qū)中往往會有很多的推廣用戶同時在推廣,不同的推廣用戶的推廣特點不太一樣,風(fēng)格差別很大,這樣基于訓(xùn)練的推廣數(shù)據(jù)識別就需要很大的訓(xùn)練數(shù)據(jù)規(guī)模,并且需要覆蓋近乎所有主要類型的推廣數(shù)據(jù),因此實施代價較大。另一方面,用戶的推廣內(nèi)容數(shù)據(jù)是動態(tài)變化的,推廣的特點也會不斷變化,因此需要不斷地調(diào)整訓(xùn)練模型、補充訓(xùn)練數(shù)據(jù)進行重新訓(xùn)練,導(dǎo)致成本過大且操作繁瑣和效率低下。

發(fā)明內(nèi)容
本發(fā)明實施例提供了一種問答社區(qū)中推廣內(nèi)容的檢測方法,旨在解決現(xiàn)有的推廣內(nèi)容檢測方法在檢測問答社區(qū)存在的推廣內(nèi)容時存在的維護、實施成本過大,檢測效率低 下以及滯后的問題。本發(fā)明實施例是這樣實現(xiàn)的,一種問答社區(qū)中推廣內(nèi)容的檢測方法,所述方法包括下述步驟獲取用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù);對所述內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計所述內(nèi)容數(shù)據(jù)切分處理后獲得的字符相同的字符串個數(shù);根據(jù)所述字符相同的字符串個數(shù)檢測所述內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。本發(fā)明實施例的另一目的在于提供一種問答社區(qū)中推廣內(nèi)容的檢測裝置,所述裝置包括內(nèi)容數(shù)據(jù)獲取單元,用于獲取用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù);相同字符串統(tǒng)計單元,用于對所述內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計所述內(nèi)容數(shù)據(jù)切分處理后獲得的字符相同的字符串個數(shù);內(nèi)容數(shù)據(jù)檢測單元,用于根據(jù)所述字符相同的字符串個數(shù)檢測所述內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。在本發(fā)明中,通過對用戶在一定時間段內(nèi)提交的多條內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計這些內(nèi)容數(shù)據(jù)切分處理后所包含的字符相同的字符串個數(shù),根據(jù)比較字符相同的字符串個數(shù)與預(yù)設(shè)閾值的大小判定用戶提交的內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。由于只需分析用戶提交的內(nèi)容數(shù)據(jù),無需維護額外的推廣關(guān)鍵詞表、構(gòu)建訓(xùn)練數(shù)據(jù)集合或者周期性調(diào)整訓(xùn)練模型等,因此有效地降低了維護成本和實施成本,并且,該本發(fā)明的方法和裝置在用戶推廣新的內(nèi)容數(shù)據(jù)時也同樣適用,因此能夠及時、有效地檢測到新的推廣內(nèi)容數(shù)據(jù)。


圖I是現(xiàn)有技術(shù)提供的自適應(yīng)過濾訓(xùn)練算法的體系結(jié)構(gòu)圖;圖2是現(xiàn)有技術(shù)提供的自適應(yīng)算法體系結(jié)構(gòu)圖;圖3是本發(fā)明提供的問答社區(qū)中推廣內(nèi)容的檢測方法流程圖;圖4是本發(fā)明提供的問答社區(qū)中推廣內(nèi)容的檢測裝置結(jié)構(gòu)示意圖5是本發(fā)明提供的檢測裝置的相同字符串統(tǒng)計單元的結(jié)構(gòu)圖;圖6是本發(fā)明提供的檢測裝置的內(nèi)容數(shù)據(jù)切分模塊的結(jié)構(gòu)圖;圖7是本發(fā)明提供的檢測裝置的內(nèi)容數(shù)據(jù)檢測單元的結(jié)構(gòu)圖;圖8是本發(fā)明提供的檢測裝置的內(nèi)容數(shù)據(jù)檢測單元的另一結(jié)構(gòu)圖。
具體實施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明在分析一個用戶在一定時間段內(nèi)提交的內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù) 時,首先獲取該用戶在該時間段內(nèi)提交的內(nèi)容數(shù)據(jù),并對這些內(nèi)容數(shù)據(jù)逐條切分,統(tǒng)計切分處理后的字符串是否存在相同的字符串,并確定相同字符串的個數(shù),最后比較相同字符串的個數(shù)與預(yù)設(shè)閾值的大小來判定該用戶在該時間段內(nèi)提交的內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。本發(fā)明提供了一種問答社區(qū)中推廣內(nèi)容的檢測方法以及裝置。所述方法包括獲取用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù);對所述內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計所述內(nèi)容數(shù)據(jù)切分處理后獲得的字符相同的字符串個數(shù);根據(jù)所述字符相同的字符串個數(shù)檢測所述內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。所述裝置包括內(nèi)容數(shù)據(jù)獲取單元,用于獲取用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù);相同字符串統(tǒng)計單元,用于對所述內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計所述內(nèi)容數(shù)據(jù)切分處理后獲得的字符相同的字符串個數(shù);內(nèi)容數(shù)據(jù)檢測單元,用于根據(jù)所述字符相同的字符串個數(shù)檢測所述內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。在本發(fā)明中,通過對用戶在一定時間段內(nèi)提交的多條內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計這些內(nèi)容數(shù)據(jù)切分處理后所包含的字符相同的字符串個數(shù),根據(jù)比較字符相同的字符串個數(shù)與預(yù)設(shè)閾值的大小判定用戶提交的內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。由于只需分析用戶提交的內(nèi)容數(shù)據(jù),無需維護額外的推廣關(guān)鍵詞表、構(gòu)建訓(xùn)練數(shù)據(jù)集合或者周期性調(diào)整訓(xùn)練模型等,因此有效地降低了維護成本和實施成本,并且,該方法在用戶推廣新的內(nèi)容數(shù)據(jù)時也同樣適用,因此能夠及時、有效地檢測到新的推廣內(nèi)容數(shù)據(jù)。為了說明本發(fā)明所述的技術(shù)方案,下面通過具體實施例來進行說明。實施例一:圖3示出了本發(fā)明第一實施例提供的一種問答社區(qū)中推廣內(nèi)容的檢測方法,由于推廣內(nèi)容數(shù)據(jù)中總會包含相同的字符串,該相同的字符串為用戶需要推廣的產(chǎn)品名稱或者產(chǎn)品價格等,因此在本實施例中,對用戶在一定時間段內(nèi)提交的內(nèi)容數(shù)據(jù)都進行切分處理,并統(tǒng)計切分處理后字符相同的字符串的個數(shù),再根據(jù)相同字符串的個數(shù)判定用戶提交的內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù),詳述如下在步驟S31中,獲取用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù)。
在本實施例中,獲取同一個用戶在預(yù)設(shè)的一天或者在預(yù)設(shè)的一個小時之內(nèi)所提交的內(nèi)容數(shù)據(jù),并統(tǒng)計該內(nèi)容數(shù)據(jù)所包含的內(nèi)容數(shù)據(jù)條數(shù)。為了提高檢測結(jié)果的可信度,獲取用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù)的步驟具體為若用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù)較少時,獲取用戶在該預(yù)設(shè)時間內(nèi)提交的所有內(nèi)容數(shù)據(jù);若用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù)較多時,獲取用戶在該預(yù)設(shè)時間內(nèi)提交的部分內(nèi)容數(shù)據(jù)。在步驟S32中,對該內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計該內(nèi)容數(shù)據(jù)切分處理后獲得的字符相同的字符串個數(shù)。在本實施例中,字符相同的字符串指兩個字符串的每一個字符都相同,比如字符串“白貓”和字符串“白貓”就判定為相同的字符串,當(dāng)然,也可以設(shè)置一個閾值,在兩個字符串的相同字符大于該閾值時判定這兩個字符串為相同的字符串,此處不作限定。作為本發(fā)明的另一個實施例,對該內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計該內(nèi)容數(shù)據(jù)切分處理后獲得的字符相同的字符串個數(shù)的步驟具體為 預(yù)設(shè)一個切分閾值;根據(jù)該切分閾值依次對該內(nèi)容數(shù)據(jù)的每一條內(nèi)容數(shù)據(jù)切分,獲取長度為切分閾值或者長度為切分閾值+1的字符串;在切分每一條內(nèi)容數(shù)據(jù)后,統(tǒng)計該內(nèi)容數(shù)據(jù)切分處理后字符相同的字符串個數(shù)。在本實施例中,預(yù)設(shè)一個切分閾值,該切分閾值為一個整數(shù),比如可將該切分閾值設(shè)置為10字節(jié),則根據(jù)該切分閾值對用戶提交的單條內(nèi)容數(shù)據(jù)進行切分,在字符串長度為切分閾值-I且下一個字符為非漢字或者為非中文字符時,獲取長度為切分閾值的字符串,或者在字符串長度為切分閾值-I且下一個字符為漢字或者為中文字符時,獲取長度為切分閾值加I的字符串。對一條內(nèi)容數(shù)據(jù)切分后繼續(xù)切分已獲取的其余內(nèi)容數(shù)據(jù),直到將獲取的內(nèi)容數(shù)據(jù)都根據(jù)該切分閾值逐條切分結(jié)束,在切分了內(nèi)容數(shù)據(jù)之后,統(tǒng)計在該內(nèi)容數(shù)據(jù)中字符相同的字符串個數(shù)。在本實施例中,若在同一條內(nèi)容數(shù)據(jù)多次出現(xiàn)一個相同的字符串,則該字符串僅標(biāo)記出現(xiàn)了一次,并按照字符相同的字符串出現(xiàn)的頻率從高到低逆序排列。作為本發(fā)明的另一個實施例,根據(jù)該切分閾值依次對該內(nèi)容數(shù)據(jù)的每一條內(nèi)容數(shù)據(jù)切分,獲取長度為切分閾值或者長度為切分閾值+1的字符串的步驟具體為對該內(nèi)容數(shù)據(jù)的第一條內(nèi)容數(shù)據(jù)從頭至尾切分,若當(dāng)前字符為非漢字或者為非中文字符,則下一個待切分字符串的開始位置為當(dāng)前位置加1,否則,下一個待切分字符串的開始位置為當(dāng)前位置加2,依次切分,在字符串長度為切分閾值-I且下一個字符為非漢字或者為非中文字符時,獲取長度為切分閾值的字符串,或者在字符串長度為切分閾值-I且下一個字符為漢字或者為中文字符時,獲取長度為切分閾值加I的字符串,直到該第一條內(nèi)容數(shù)據(jù)切分結(jié)束;根據(jù)切分該內(nèi)容數(shù)據(jù)的第一條內(nèi)容數(shù)據(jù)的方法依次切分該內(nèi)容數(shù)據(jù)的其余內(nèi)容數(shù)據(jù)。在本實施例中,為了保證切分后的內(nèi)容數(shù)據(jù)具有一定的意義,因此對每一條內(nèi)容數(shù)據(jù)切分時都是按照從頭至尾的順序進行的。例如,將切分閾值設(shè)置為10字節(jié),獲取的一條內(nèi)容數(shù)據(jù)如下2009年3月初,我被家人用一個美麗的謊言約到了廣西南寧,開始接觸資本運作。根據(jù)切分閾值10切分上述內(nèi)容數(shù)據(jù),從當(dāng)前字符“2”開始切分,判斷從當(dāng)前字符“2”往后的第10個字符是否為漢字,由于第10個字符是一個漢字“初”,因此,切分字符串的結(jié)束位置為第10加I個字符,獲得的第一個字符串為“2009年3月初”。由于“2”不是漢字,因此下一個待切分字符串的開始位置為當(dāng)前位置加1,即從字符“O”開始切分,繼續(xù)切分,獲得的字符串分別為“009年3月初”、“09年3月初,”、“9年3月初,我”、“年3月初,我”、“3月初,我被”、“月初,我被家”、“初,我被家人”、“,我被家人用”、“我被家人用”、“被家人用一”、“家人用一個”、“人用一個美”、“用一個美麗”、“一個美麗的”、“個美麗的謊”、“美麗的謊言”、“麗的謊言約”、“的謊言約到”、“謊言約到了”、“言約到了廣”、“約到了廣西”、“到了廣西南”、“ 了廣西南寧”、“廣西南寧,開”、“西南寧,開”、“南寧,開始接”、“寧,開始接觸”、“,開始接觸”、“開始接觸資”、“始接觸資”、“接觸資本運”、“觸資本運作”、“資本運作”。由于在開始切分字符串和結(jié)束切分字符串的時候都事先判斷切分開始的字符或者判斷切分結(jié)束的字符是否為中文(或者漢字),并根據(jù)切分開始的字符或者切分結(jié)束的 字符是否為中文執(zhí)行不同的操作,從而避免了將一個中文字符或漢字切分為2個字節(jié)。作為本發(fā)明的另一個實施例,在對該內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計該內(nèi)容數(shù)據(jù)切分處理后獲得的字符相同的字符串個數(shù)的步驟之后進一步包括下述步驟將切分處理后獲得的字符串保存到合適的數(shù)據(jù)結(jié)構(gòu)中,比如保存到C++語言中的標(biāo)準模板庫(Standard Template Library, STL)的 map 中。在步驟S33中,根據(jù)該字符相同的字符串個數(shù)檢測該內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。作為本發(fā)明的另一個實施例,根據(jù)該字符相同的字符串個數(shù)檢測該內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)的步驟具體為獲取最大字符相同的字符串個數(shù);預(yù)設(shè)一個頻率閾值,判斷該最大字符相同的字符串個數(shù)是否大于或者等于該頻率閾值,若大于或者等于該頻率閾值,則判定該內(nèi)容數(shù)據(jù)為推廣的內(nèi)容數(shù)據(jù)。在本實施例中,根據(jù)實際情況設(shè)定一個頻率閾值,該頻率閾值大于0,假設(shè)該頻率閾值為10,同一個用戶在一個小時之內(nèi)提交的多條內(nèi)容數(shù)據(jù)中最大字符相同的字符串個數(shù)為20,由于20大于10,因此判斷該用戶提交的內(nèi)容數(shù)據(jù)為推廣信息;若同一個用戶在一個小時之內(nèi)提交的多條內(nèi)容數(shù)據(jù)中最大字符相同的字符串個數(shù)為6,由于6小于10,因此判斷該用戶提交的內(nèi)容數(shù)據(jù)為正常的內(nèi)容數(shù)據(jù)。在本實施例中,為了提高檢測結(jié)果的可信度,采用用戶在預(yù)設(shè)時間內(nèi)提交的部分內(nèi)容數(shù)據(jù)檢測用戶在預(yù)設(shè)時間內(nèi)提交的所有內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)所預(yù)設(shè)的頻率閾值,與采用用戶在預(yù)設(shè)時間內(nèi)提交的所有內(nèi)容數(shù)據(jù)檢測用戶在預(yù)設(shè)時間內(nèi)提交的所有內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)所預(yù)設(shè)的頻率閾值相同。當(dāng)然,為了進一步提高檢測結(jié)果的準確度,通常是采用用戶在預(yù)設(shè)時間內(nèi)的所有內(nèi)容數(shù)據(jù)來檢測該用戶在預(yù)設(shè)時間內(nèi)提交的所有內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。進一步地,可刪除判定為推廣信息的內(nèi)容數(shù)據(jù),并限定該用戶在一定時間內(nèi)不能提交任何內(nèi)容數(shù)據(jù)。作為本發(fā)明的另一個實施例,根據(jù)該字符相同的字符串個數(shù)檢測該內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)的步驟具體為
獲取最大字符相同的字符串個數(shù)以及內(nèi)容數(shù)據(jù)的條數(shù),確定所述最大字符相同的字符串個數(shù)在內(nèi)容數(shù)據(jù)的條數(shù)的比例;預(yù)設(shè)一個比例閾值,判斷該最大字符相同的字符串個數(shù)在內(nèi)容數(shù)據(jù)的條數(shù)的比例是否大于或者等于該比例閾值,若大于或者等于該比例閾值,則判定該內(nèi)容數(shù)據(jù)為推廣的內(nèi)容數(shù)據(jù)。在本實施例中,根據(jù)實際情況設(shè)定一個比例閾值,該比例閾值大于0,假設(shè)該比例閾值為60 %,同一個用戶在一個小時之內(nèi)共提交了 100條內(nèi)容數(shù)據(jù),在該100條內(nèi)容數(shù)據(jù)中最大字符相同的字符串個數(shù)為60,由于60/100等于比例閾值60%,因此判斷該用戶提交的內(nèi)容數(shù)據(jù)為推廣信息;若同一個用戶在一個小時之內(nèi)提交的100條內(nèi)容數(shù)據(jù)中最大字符相同的字符串個數(shù)為6,由于6/100小于60%,因此判斷該用戶提交的內(nèi)容數(shù)據(jù)為正常的內(nèi)容數(shù)據(jù)。進一步地,可刪除判定為推廣信息的內(nèi)容數(shù)據(jù),并限定該用戶在一定時間內(nèi)不能提交任何內(nèi)容數(shù)據(jù)。在本實施例中,為了提高檢測結(jié)果的可信度,采用用戶在預(yù)設(shè)時間內(nèi)提交的部分內(nèi)容數(shù)據(jù)檢測用戶在預(yù)設(shè)時間內(nèi)提交的所有內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)所預(yù)設(shè)·的比例閾值,與采用用戶在預(yù)設(shè)時間內(nèi)提交的所有內(nèi)容數(shù)據(jù)檢測用戶在預(yù)設(shè)時間內(nèi)提交的所有內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)所預(yù)設(shè)的比例閾值相同。當(dāng)然,為了進一步提高檢測結(jié)果的準確度,通常是采用用戶在預(yù)設(shè)時間內(nèi)的所有內(nèi)容數(shù)據(jù)來檢測該用戶在預(yù)設(shè)時間內(nèi)提交的所有內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。在本發(fā)明第一實施例中,通過對用戶在一定時間段內(nèi)提交的多條內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計這些內(nèi)容數(shù)據(jù)切分處理后所包含的字符相同的字符串個數(shù),根據(jù)比較字符相同的字符串個數(shù)與預(yù)設(shè)閾值的大小判定用戶提交的內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。由于只需分析用戶提交的內(nèi)容數(shù)據(jù),無需維護額外的推廣關(guān)鍵詞表、構(gòu)建訓(xùn)練數(shù)據(jù)集合或者周期性調(diào)整訓(xùn)練模型等,因此有效地降低了維護成本和實施成本,并且,該方法在用戶推廣新的內(nèi)容數(shù)據(jù)時也同樣適用,因此能夠及時、有效地檢測到新的推廣內(nèi)容數(shù)據(jù)。實施例二 :圖4示出了本發(fā)明第二實施例提供的問答社區(qū)中推廣內(nèi)容的檢測裝置的結(jié)構(gòu),為了便于說明,僅示出了與本發(fā)明實施例相關(guān)的部分。該問答社區(qū)中推廣內(nèi)容的檢測裝置可以用于通過有線或者無線網(wǎng)絡(luò)連接服務(wù)器的各種信息處理終端,例如移動電話、口袋計算機(Pocket Personal Computer,PPC)、掌上電腦、計算機、筆記本電腦、個人數(shù)字助理(Personal Digital Assistant, PDA)等,可以是運行于這些終端內(nèi)的軟件單元、硬件單元或者軟硬件相結(jié)合的單元,也可以作為獨立的掛件集成到這些終端中或者運行于這些終端的應(yīng)用系統(tǒng)中,其中內(nèi)容數(shù)據(jù)獲取單元41,用于獲取用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù)。在本實施例中,在需要分析一個用戶提交的內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)時,首先要獲取該用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù)以及在該預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù)的條數(shù)。若用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù)較少時,獲取用戶在該預(yù)設(shè)時間內(nèi)提交的所有內(nèi)容數(shù)據(jù);若用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù)較多時,獲取用戶在該預(yù)設(shè)時間內(nèi)提交的部分內(nèi)容數(shù)據(jù)。相同字符串統(tǒng)計單元42,用于對該內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計該內(nèi)容數(shù)據(jù)切分處理后獲得的字符相同的字符串個數(shù)。
作為本發(fā)明的另一個實施例,該相同字符串統(tǒng)計單元42包括切分閾值設(shè)置模塊51、內(nèi)容數(shù)據(jù)切分模塊52以及相同字符串統(tǒng)計模塊53,具體如圖5所示。切分閾值設(shè)置模塊51,用于預(yù)設(shè)一個切分閾值。內(nèi)容數(shù)據(jù)切分模塊52,用于根據(jù)該切分閾值依次對該內(nèi)容數(shù)據(jù)的每一條內(nèi)容數(shù)據(jù)切分,獲取長度為切分閾值或者長度為切分閾值+1的字符串。在本實施例中,內(nèi)容數(shù)據(jù)切分模塊52根據(jù)切分閾值設(shè)置模塊51設(shè)置的切分閾值切分同一個用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù)。作為本發(fā)明的另一個實施例,該內(nèi)容數(shù)據(jù)切分模塊52包括首條內(nèi)容數(shù)據(jù)切分模塊61和剩余內(nèi)容數(shù)據(jù)切分模塊62,具體如圖6所示。
首條內(nèi)容數(shù)據(jù)切分模塊61,用于對該內(nèi)容數(shù)據(jù)的第一條內(nèi)容數(shù)據(jù)從頭至尾切分,若當(dāng)前字符為非漢字或者為非中文字符,則下一個待切分字符串的開始位置為當(dāng)前位置加1,否則,下一個待切分字符串的開始位置為當(dāng)前位置加2,依次切分,在字符串長度為切分閾值-I且下一個字符為非漢字或者為非中文字符時,獲取長度為切分閾值的字符串,或者在字符串長度為切分閾值-I且下一個字符為漢字或者為中文字符時,獲取長度為切分閾值加I的字符串,直到該第一條內(nèi)容數(shù)據(jù)切分結(jié)束。剩余內(nèi)容數(shù)據(jù)切分模塊62,用于根據(jù)切分該內(nèi)容數(shù)據(jù)的第一條內(nèi)容數(shù)據(jù)的方法依次切分該內(nèi)容數(shù)據(jù)的其余內(nèi)容數(shù)據(jù)。在本實施例中,在切分模塊61和剩余內(nèi)容數(shù)據(jù)切分模塊62切分的內(nèi)容數(shù)據(jù)時,都需要判斷當(dāng)前切分的字符是否為中文字符,避免將一個中文字符或漢字切分為2個字節(jié)。相同字符串統(tǒng)計模塊53,用于在切分每一條內(nèi)容數(shù)據(jù)后,統(tǒng)計該內(nèi)容數(shù)據(jù)切分處理后字符相同的字符串個數(shù)。在本實施例中,若一條內(nèi)容數(shù)據(jù)中包括了多個相同的字符串,則可將該字符串標(biāo)記為出現(xiàn)一次。內(nèi)容數(shù)據(jù)檢測單元43,用于根據(jù)該字符相同的字符串個數(shù)檢測該內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。作為本發(fā)明的另一個實施例,內(nèi)容數(shù)據(jù)檢測單元43包括字符串個數(shù)獲取模塊71和第一內(nèi)容數(shù)據(jù)檢測模塊72,具體如圖7所示。字符串個數(shù)獲取模塊71,用于獲取最大字符相同的字符串個數(shù)。第一內(nèi)容數(shù)據(jù)檢測模塊72,用于預(yù)設(shè)一個頻率閾值,判斷所述最大字符相同的字符串個數(shù)是否大于或者等于該頻率閾值,若大于或者等于該頻率閾值,則判定該內(nèi)容數(shù)據(jù)為推廣的內(nèi)容數(shù)據(jù)。作為本發(fā)明的另一個實施例,內(nèi)容數(shù)據(jù)檢測單元43包括字符串個數(shù)比例確定模塊81和第二內(nèi)容數(shù)據(jù)檢測模塊82,具體如圖8所示。比例閾值設(shè)置模塊81,用于獲取最大字符相同的字符串個數(shù)以及內(nèi)容數(shù)據(jù)的條數(shù),確定所述最大字符相同的字符串個數(shù)在內(nèi)容數(shù)據(jù)的條數(shù)的比例。第二內(nèi)容數(shù)據(jù)檢測模塊82,預(yù)設(shè)一個比例閾值,判斷所述最大字符相同的字符串個數(shù)在內(nèi)容數(shù)據(jù)的條數(shù)的比例是否大于或者等于所述比例閾值,若大于或者等于所述比例閾值,則判定所述內(nèi)容數(shù)據(jù)為推廣的內(nèi)容數(shù)據(jù)。在本發(fā)明第二實施例中,相同字符串統(tǒng)計單元42對內(nèi)容數(shù)據(jù)獲取單元41獲取的同一個用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù)進行切分處理后,統(tǒng)計切分處理結(jié)果中存在的相同字符串,內(nèi)容數(shù)據(jù)檢測單元43再根據(jù)相同字符串的個數(shù)檢測內(nèi)容數(shù)據(jù)獲取單元41獲取的內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。其中,內(nèi)容數(shù)據(jù)檢測單元43至少包含圖7和圖8中的一種結(jié)構(gòu)。由于只需分析用戶提交的內(nèi)容數(shù)據(jù),無需維護額外的推廣關(guān)鍵詞表、構(gòu)建訓(xùn)練數(shù)據(jù)集合或者周期性調(diào)整訓(xùn)練模型等,因此有效地降低了維護成本和實施成本,并且,該方法在用戶推廣新的內(nèi)容數(shù)據(jù)時也同樣適用,因此能夠及時、有效地檢測到新的推廣內(nèi)容數(shù)據(jù)。本發(fā)明中,在分析一個用戶在一定時間段內(nèi)提交的內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)時,首先獲取該用戶在該時間段內(nèi)提交的部分或者所有內(nèi)容數(shù)據(jù),并對這些內(nèi)容數(shù)據(jù)逐條切分,統(tǒng)計切分處理后的字符串是否存在相同的字符串,并確定相同字符串的個數(shù),最后比較相同字符串的個數(shù)與預(yù)設(shè)閾值的大小來判定該用戶在該時間段內(nèi)提交的內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。由于只需分析用戶提交的內(nèi)容數(shù)據(jù),無需維護額外的推廣關(guān)鍵詞表、構(gòu)建訓(xùn)練數(shù)據(jù)集合或者周期性調(diào)整訓(xùn)練模型等,因此有效地降低了維護成本和實施成本,并且,該方法在用戶推廣新的內(nèi)容數(shù)據(jù)時也同樣適用,因此能夠及時、有效地檢測到新的推廣內(nèi)容數(shù)據(jù)。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種問答社區(qū)中推廣內(nèi)容的檢測方法,其特征在于,所述方法包括下述步驟 獲取用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù); 對所述內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計所述內(nèi)容數(shù)據(jù)切分處理后獲得的字符相同的字符串個數(shù); 根據(jù)所述字符相同的字符串個數(shù)檢測所述內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。
2.如權(quán)利要求I所述的方法,其特征在于,所述對所述內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計所述內(nèi)容數(shù)據(jù)切分處理后獲得的字符相同的字符串個數(shù)的步驟具體為 預(yù)設(shè)一個切分閾值; 根據(jù)所述切分閾值依次對所述內(nèi)容數(shù)據(jù)的每一條內(nèi)容數(shù)據(jù)切分,獲取長度為切分閾值或者長度為切分閾值+1的字符串; 在切分每一條內(nèi)容數(shù)據(jù)后,統(tǒng)計所述內(nèi)容數(shù)據(jù)切分處理后字符相同的字符串個數(shù)。
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述切分閾值依次對所述內(nèi)容數(shù)據(jù)的每一條內(nèi)容數(shù)據(jù)切分,獲取長度為切分閾值或者長度為切分閾值+1的字符串的步驟具體為 對所述內(nèi)容數(shù)據(jù)的第一條內(nèi)容數(shù)據(jù)從頭至尾切分,若當(dāng)前字符為非漢字或者為非中文字符,則下一個待切分字符串的開始位置為當(dāng)前位置加1,否則,下一個待切分字符串的開始位置為當(dāng)前位置加2,依次切分,在字符串長度為切分閾值-I且下一個字符為非漢字或者為非中文字符時,獲取長度為切分閾值的字符串,或者在字符串長度為切分閾值-I且下一個字符為漢字或者為中文字符時,獲取長度為切分閾值加I的字符串,直到所述第一條內(nèi)容數(shù)據(jù)切分結(jié)束; 根據(jù)切分所述內(nèi)容數(shù)據(jù)的第一條內(nèi)容數(shù)據(jù)的方法依次切分所述內(nèi)容數(shù)據(jù)的其余內(nèi)容數(shù)據(jù)。
4.如權(quán)利要求I所述的方法,其特征在于,所述根據(jù)所述字符相同的字符串個數(shù)檢測所述內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)的步驟具體為 獲取最大字符相同的字符串個數(shù); 預(yù)設(shè)一個頻率閾值,判斷所述最大字符相同的字符串個數(shù)是否大于或者等于所述頻率閾值,若大于或者等于所述頻率閾值,則判定所述內(nèi)容數(shù)據(jù)為推廣的內(nèi)容數(shù)據(jù)。
5.如權(quán)利要求I所述的方法,其特征在于,所述根據(jù)所述字符相同的字符串個數(shù)檢測所述內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)的步驟具體為 獲取最大字符相同的字符串個數(shù)以及內(nèi)容數(shù)據(jù)的條數(shù),確定所述最大字符相同的字符串個數(shù)在內(nèi)容數(shù)據(jù)的條數(shù)的比例; 預(yù)設(shè)一個比例閾值,判斷所述最大字符相同的字符串個數(shù)在內(nèi)容數(shù)據(jù)的條數(shù)的比例是否大于或者等于所述比例閾值,若大于或者等于所述比例閾值,則判定所述內(nèi)容數(shù)據(jù)為推廣的內(nèi)容數(shù)據(jù)。
6.一種問答社區(qū)中推廣內(nèi)容的檢測裝置,其特征在于,所述裝置包括 內(nèi)容數(shù)據(jù)獲取單元,用于獲取用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù); 相同字符串統(tǒng)計單元,用于對所述內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計所述內(nèi)容數(shù)據(jù)切分處理后獲得的字符相同的字符串個數(shù); 內(nèi)容數(shù)據(jù)檢測單元,用于根據(jù)所述字符相同的字符串個數(shù)檢測所述內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。
7.如權(quán)利要求6所述的裝置,其特征在于,所述相同字符串統(tǒng)計單元包括 切分閾值設(shè)置模塊,用于預(yù)設(shè)一個切分閾值; 內(nèi)容數(shù)據(jù)切分模塊,用于根據(jù)所述切分閾值依次對所述內(nèi)容數(shù)據(jù)的每一條內(nèi)容數(shù)據(jù)切分,獲取長度為切分閾值或者長度為切分閾值+1的字符串; 相同字符串統(tǒng)計模塊,用于在切分每一條內(nèi)容數(shù)據(jù)后,統(tǒng)計所述內(nèi)容數(shù)據(jù)切分處理后字符相同的字符串個數(shù)。
8.如權(quán)利要求7所述的裝置,其特征在于,所述內(nèi)容數(shù)據(jù)切分模塊包括 首條內(nèi)容數(shù)據(jù)切分模塊,對所述內(nèi)容數(shù)據(jù)的第一條內(nèi)容數(shù)據(jù)從頭至尾切分,若當(dāng)前字符為非漢字或者為非中文字符,則下一個待切分字符串的開始位置為當(dāng)前位置加1,否則,下一個待切分字符串的開始位置為當(dāng)前位置加2,依次切分,在字符串長度為切分閾值-I且下一個字符為非漢字或者為非中文字符時,獲取長度為切分閾值的字符串,或者在字符串長度為切分閾值-I且下一個字符為漢字或者為中文字符時,獲取長度為切分閾值加I的字符串,直到所述第一條內(nèi)容數(shù)據(jù)切分結(jié)束; 剩余內(nèi)容數(shù)據(jù)切分模塊,用于根據(jù)切分所述內(nèi)容數(shù)據(jù)的第一條內(nèi)容數(shù)據(jù)的方法依次切分所述內(nèi)容數(shù)據(jù)的其余內(nèi)容數(shù)據(jù)。
9.如權(quán)利要求6所述的裝置,其特征在于,所述內(nèi)容數(shù)據(jù)檢測單元包括 字符串個數(shù)獲取模塊,用于獲取最大字符相同的字符串個數(shù); 第一內(nèi)容數(shù)據(jù)檢測模塊,用于預(yù)設(shè)一個頻率閾值,判斷所述最大字符相同的字符串個數(shù)是否大于或者等于所述頻率閾值,若大于或者等于所述頻率閾值,則判定所述內(nèi)容數(shù)據(jù)為推廣的內(nèi)容數(shù)據(jù)。
10.如權(quán)利要求6所述的裝置,其特征在于,所述內(nèi)容數(shù)據(jù)檢測單元包括 字符串個數(shù)比例確定模塊,用于獲取最大字符相同的字符串個數(shù)以及內(nèi)容數(shù)據(jù)的條數(shù),確定所述最大字符相同的字符串個數(shù)在內(nèi)容數(shù)據(jù)的條數(shù)的比例; 第二內(nèi)容數(shù)據(jù)檢測模塊,用于預(yù)設(shè)一個比例閾值,判斷所述最大字符相同的字符串個數(shù)在內(nèi)容數(shù)據(jù)的條數(shù)的比例是否大于或者等于所述比例閾值,若大于或者等于所述比例閾值,則判定所述內(nèi)容數(shù)據(jù)為推廣的內(nèi)容數(shù)據(jù)。
全文摘要
本發(fā)明適用于信息安全領(lǐng)域,提供了一種問答社區(qū)中推廣內(nèi)容的檢測方法以及裝置。所述方法包括下述步驟獲取用戶在預(yù)設(shè)時間內(nèi)提交的內(nèi)容數(shù)據(jù);對所述內(nèi)容數(shù)據(jù)進行切分處理,并統(tǒng)計所述內(nèi)容數(shù)據(jù)切分處理后獲得的字符相同的字符串個數(shù);根據(jù)所述字符相同的字符串個數(shù)檢測所述內(nèi)容數(shù)據(jù)是否為推廣的內(nèi)容數(shù)據(jù)。本發(fā)明實施例由于只需分析用戶提交的內(nèi)容數(shù)據(jù),無需維護額外的推廣關(guān)鍵詞表、構(gòu)建訓(xùn)練數(shù)據(jù)集合或者周期性調(diào)整訓(xùn)練模型等,因此有效地降低了維護成本和實施成本。
文檔編號H04L29/06GK102891838SQ20111020842
公開日2013年1月23日 申請日期2011年7月22日 優(yōu)先權(quán)日2011年7月22日
發(fā)明者賀海軍, 李潤超, 勇鳳偉, 李晶, 高自光, 郭奇 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1