亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種推廣信息的檢測方法及裝置與流程

文檔序號:12786519閱讀:221來源:國知局
一種推廣信息的檢測方法及裝置與流程

本發(fā)明涉及文本過濾處理技術(shù)領(lǐng)域,具體涉及一種推廣信息的檢測方法及裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,自媒體時(shí)代已經(jīng)到來。與傳統(tǒng)新聞媒體不同,自媒體平臺的新聞具有更好的及時(shí)性和來源的廣泛性,且自媒體平臺本身的開放性使得每一個(gè)平臺用戶既可以成為新聞的閱讀者,也可以成為新聞的生產(chǎn)者和發(fā)布者。就目前的情況而言,越來越多的突發(fā)新聞通過微信、微博等自媒體平臺得以及時(shí)發(fā)布,且人們也越來越習(xí)慣從自媒體平臺獲取自己感興趣的新聞內(nèi)容。與此同時(shí),通過用戶之間的相互轉(zhuǎn)發(fā),自媒體平臺的新聞也得到了有效的傳播。

但是,發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)現(xiàn)在現(xiàn)有技術(shù)中至少存在如下問題:為了匯編自媒體平臺的新聞,方便用戶閱讀,可以采用機(jī)器抓取的方法搜集自媒體平臺的新聞內(nèi)容。但是,因?yàn)樽悦襟w平臺的新聞內(nèi)容中往往夾雜有廣告信息或者垃圾推廣信息,所以采用現(xiàn)有技術(shù)進(jìn)行新聞內(nèi)容抓取時(shí),無法準(zhǔn)確地過濾廣告信息或者垃圾推廣信息,使得無法抓取到純凈的新聞內(nèi)容。



技術(shù)實(shí)現(xiàn)要素:

鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的推廣信息的檢測方法及裝置。

根據(jù)本發(fā)明的一個(gè)方面,提供了一種推廣信息的檢測方法,包括:獲取預(yù)設(shè)的樣本集合,提取樣本集合中的各個(gè)樣本所包含的信息單元;統(tǒng)計(jì)每個(gè)信息單元在樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預(yù)設(shè)的第一閾值的信息單元確定為候選特征單元;針對每個(gè)候選特征單元,分別統(tǒng)計(jì)該候選特征單元在各個(gè)文檔位置的分布情況,根據(jù)統(tǒng)計(jì)結(jié)果確定該候選特征單元是否為推廣特征單元;根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息。

根據(jù)本發(fā)明的另一方面,提供了一種推廣信息的檢測裝置,包括:信息單元提取模塊,用于獲取預(yù)設(shè)的樣本集合,提取樣本集合中的各個(gè)樣本所包含的信息單元;候選單元確定模塊,用于統(tǒng)計(jì)每個(gè)信息單元在樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預(yù)設(shè)的第一閾值的信息單元確定為候選特征單元;推廣單元確定模塊,用于針對每個(gè)候選特征單元,分別統(tǒng)計(jì)該候選特征單元在各個(gè)文檔位置的分布情況,根據(jù)統(tǒng)計(jì)結(jié)果確定該候選特征單元是否為推廣特征單元;檢測模塊,用于根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息。

由此可見,本發(fā)明提供了一種推廣信息的檢測方法及裝置,通過提取預(yù)設(shè)樣本集合中的信息單元,并根據(jù)信息單元在樣本集合中的出現(xiàn)次數(shù)來確定信息單元中的候選特征單元,然后根據(jù)候選特征單元在各個(gè)文檔中位置的分布情況確定候選特征單元中的推廣特征單元,最后根據(jù)篩選出的推廣特征單元檢測目標(biāo)文檔中包含的推廣信息,從而實(shí)現(xiàn)了在采用機(jī)器抓取方法提取自媒體平臺新聞的過程中有效且準(zhǔn)確過濾廣告信息或垃圾推廣信息的效果,使得采用機(jī)器抓取方法也能提取到純凈的新聞內(nèi)容,極大地提高了匯編自媒體平臺新聞的效率。

上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。

附圖說明

通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號表示相同的部件。在附圖中:

圖1為本發(fā)明實(shí)施例一提供的一種推廣信息的檢測方法的流程圖;

圖2為本發(fā)明實(shí)施例二提供的一種推廣信息的檢測方法的流程圖;

圖3為本發(fā)明實(shí)施例三提供的一種推廣信息的檢測裝置的結(jié)構(gòu)示意圖;

圖4為本發(fā)明實(shí)施例四提供的一種推廣信息的檢測裝置的結(jié)構(gòu)示意圖;

圖5為本發(fā)明實(shí)施例中與時(shí)間相關(guān)聯(lián)的候選特征單元在文檔中的位置分布情況直方圖;

圖6為本發(fā)明實(shí)施例中與廣告信息或垃圾推廣信息關(guān)聯(lián)的候選特征單元在文檔中的位置分布情況直方圖。

具體實(shí)施方式

下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

實(shí)施例一

圖1示出了本發(fā)明提供的一種推廣信息的檢測方法,該方法包括:

步驟S110:獲取預(yù)設(shè)的樣本集合,提取樣本集合中的各個(gè)樣本所包含的信息單元。

為了方便計(jì)算機(jī)對樣本新聞內(nèi)容進(jìn)行識別,首先需要根據(jù)一定的規(guī)則,對預(yù)設(shè)的包含廣告信息或垃圾推廣信息的樣本新聞內(nèi)容進(jìn)行分割,并從中提取出各個(gè)樣本所包含的信息單元。其中,預(yù)設(shè)的樣本集合是指包含廣告信息或垃圾推廣信息并且具有一定代表性的自媒體新聞內(nèi)容,該樣本集合一般由本領(lǐng)域技術(shù)人員根據(jù)經(jīng)驗(yàn)進(jìn)行選擇和設(shè)定。而上述的信息單元是組成樣本新聞內(nèi)容的基礎(chǔ)單元,其形式一般可以是樣本新聞內(nèi)容被分割后產(chǎn)生的特征短語,也可以是具有一定特征的字詞。對于預(yù)設(shè)樣本集合的具體設(shè)定規(guī)則和上述信息單元的具體形式,本發(fā)明不作具體限定,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際情況靈活設(shè)定。

步驟S120:統(tǒng)計(jì)每個(gè)信息單元在樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預(yù)設(shè)的第一閾值的信息單元確定為候選特征單元。

因?yàn)閺V告信息和垃圾推廣信息是每個(gè)自媒體平臺的每個(gè)新聞發(fā)布者刻意重復(fù)的信息,因此,來自同一個(gè)新聞發(fā)布者的不同新聞內(nèi)容中一般包含相同的廣告信息或垃圾推廣信息。對步驟S110提取出的信息單元進(jìn)行在樣本集合中出現(xiàn)次數(shù)的統(tǒng)計(jì),當(dāng)某個(gè)信息單元的出現(xiàn)次數(shù)超過預(yù)設(shè)的第一閾值時(shí),說明該信息單元有極大的嫌疑屬于廣告信息或垃圾推廣信息,因此,將該信息單元確定為候選特征單元。

其中,預(yù)設(shè)的第一閾值是根據(jù)廣告信息或垃圾推廣信息在來自同一個(gè)新聞發(fā)布者的樣本新聞內(nèi)容中重復(fù)次數(shù)的總體情況確定的,當(dāng)某個(gè)信息單元高于該重復(fù)次數(shù)時(shí),就將該信息單元確定為具有廣告信息或垃圾推廣信息嫌疑的候選特征單元。該第一閾值的具體確定規(guī)則,本發(fā)明不作具體限定,本領(lǐng)域技術(shù)人員可以根據(jù)試驗(yàn)數(shù)據(jù)和經(jīng)驗(yàn)靈活確定。

步驟S130:針對每個(gè)候選特征單元,分別統(tǒng)計(jì)該候選特征單元在各個(gè)文檔位置的分布情況,根據(jù)統(tǒng)計(jì)結(jié)果確定該候選特征單元是否為推廣特征單元。

通過步驟S120的初步篩選后,大部分包含廣告信息或垃圾推廣信息的信息單元都會被確定為候選特征單元,但是某些重復(fù)次數(shù)超過第一閾值的包含正常新聞內(nèi)容的信息單元也會被確定為候選特征單元。

本發(fā)明的發(fā)明人通過大量試驗(yàn)和反復(fù)比較發(fā)現(xiàn),包含正常新聞內(nèi)容的候選特征單元因?yàn)槭切侣劙l(fā)布者非刻意重復(fù)的內(nèi)容,所以在樣本中的位置分布情況一般會比較均勻;而包含廣告信息或垃圾推廣信息的候選特征單元屬于新聞發(fā)布者刻意重復(fù)的內(nèi)容,所以在樣本中的位置分布情況會比較集中。根據(jù)這一發(fā)現(xiàn),本發(fā)明采用候選特征單元在樣本中的位置分布情況來對候選特征單元進(jìn)行進(jìn)一步的篩選,將位置分布比較集中的候選特征單元確定為推廣特征單元。

步驟S140:根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息。

通過上述步驟的處理,可以得到從預(yù)設(shè)的樣本集合中歸納提取出的推廣特征單元,然后通過上述推廣特征單元對機(jī)器抓取方法獲得的待檢測文檔進(jìn)行識別,從而有效地篩選出待監(jiān)測文檔中包含的對應(yīng)的推廣信息,最后從待檢測文檔中去除篩選出的推廣信息,就可以得到相對純凈的新聞內(nèi)容。

由此可見,本發(fā)明提供的一種推廣信息的檢測方法,通過提取預(yù)設(shè)樣本集合中的信息單元,并根據(jù)信息單元在樣本集合中的出現(xiàn)次數(shù)來確定信息單元中的候選特征單元,然后根據(jù)候選特征單元在各個(gè)文檔中位置的分布情況確定候選特征單元中的推廣特征單元,最后根據(jù)篩選出的推廣特征單元檢測目標(biāo)文檔中包含的推廣信息,從而實(shí)現(xiàn)了在采用機(jī)器抓取方法提取自媒體平臺新聞的過程中有效且準(zhǔn)確過濾廣告信息或垃圾推廣信息的效果,使得采用機(jī)器抓取方法也能提取到純凈的新聞內(nèi)容,極大地提高了自媒體平臺新聞匯編的效率。

實(shí)施例二

圖2示出了本發(fā)明提供的一種推廣信息的檢測方法,該方法包括:

步驟S210:獲取預(yù)設(shè)的樣本集合,提取樣本集合中的各個(gè)樣本所包含的信息單元。

為了方便計(jì)算機(jī)對樣本新聞內(nèi)容進(jìn)行識別,首先需要根據(jù)一定的規(guī)則,對預(yù)設(shè)的包含廣告信息或垃圾推廣信息的樣本新聞內(nèi)容進(jìn)行分割,并從中提取出各個(gè)樣本所包含的信息單元。因?yàn)榇嬖谕黄侣劚恢貜?fù)多次的情況,所以在獲取預(yù)設(shè)的樣本集合前進(jìn)行消重處理,可以有效減少獲取樣本集合的計(jì)算量,提高獲取效率,故獲取預(yù)設(shè)的樣本集合的步驟具體包括對多個(gè)候選樣本進(jìn)行消重處理,根據(jù)消重處理后的候選樣本得到樣本集合。

具體的消重處理包括計(jì)算各個(gè)候選樣本的標(biāo)題之間的相似度,針對標(biāo)題之間的相似度大于預(yù)設(shè)的相似度閾值的候選樣本進(jìn)行消重;針對標(biāo)題之間的相似度不大于預(yù)設(shè)的相似度閾值的候選樣本,查詢各個(gè)候選樣本對應(yīng)的關(guān)鍵詞集合,若兩個(gè)候選樣本所對應(yīng)的關(guān)鍵詞集合中包含的相同關(guān)鍵詞的數(shù)量大于預(yù)設(shè)的數(shù)量閾值,則針對兩個(gè)候選樣本進(jìn)行消重。其中,優(yōu)選地,通過最大公共子序列算法計(jì)算各個(gè)候選樣本的標(biāo)題之間的相似度,且各個(gè)候選樣本所對應(yīng)的關(guān)鍵詞集合根據(jù)對候選樣本進(jìn)行分詞處理后得到的各個(gè)詞匯的逆向文件頻率(IDF)確定,上述數(shù)量閾值根據(jù)杰卡德相似度算法確定。

為了方便理解上述內(nèi)容,下面以一個(gè)具體例子來詳細(xì)闡述消重處理過程:1、對所有樣本文章的標(biāo)題和正文內(nèi)容進(jìn)行中文分詞和去停用詞操作;2、以分布式計(jì)算方式統(tǒng)計(jì)每篇樣本文章中的各個(gè)詞的詞頻(TF)并計(jì)算對應(yīng)的逆向文件頻率(IDF),之后計(jì)算每個(gè)詞的TF*IDF分?jǐn)?shù);3、提取標(biāo)題分詞結(jié)果中的前20個(gè)詞(該關(guān)鍵詞數(shù)量僅為本具體例子中的具體取值,在其他實(shí)施例中,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際情況設(shè)定該關(guān)鍵詞數(shù)量),構(gòu)成關(guān)鍵詞集合,當(dāng)標(biāo)題分詞結(jié)果少于20個(gè)詞時(shí),余下關(guān)鍵詞由正文中TF*IDF分?jǐn)?shù)從高到低排列結(jié)果中的高分詞依次補(bǔ)充;4、用所有文章的關(guān)鍵詞集合建立分桶(Bucket Table,是一種更為細(xì)粒度的數(shù)據(jù)范圍劃分方式,分桶可以給表加上額外的結(jié)構(gòu),使處理查詢操作時(shí)可以利用該結(jié)構(gòu),從而獲得更高的查詢處理效率),其中,每個(gè)桶的主鍵是關(guān)鍵詞集合中的一個(gè)唯一的關(guān)鍵詞,這樣桶內(nèi)的文章才有可能是相似的;5、在計(jì)算每篇文章的相似度時(shí),先找到該篇文章對應(yīng)的20個(gè)分桶(因?yàn)槊總€(gè)分桶對應(yīng)于一個(gè)關(guān)鍵詞,由于每篇文章具有20個(gè)關(guān)鍵詞,所以,每篇文章對應(yīng)于20個(gè)分桶),然后利用最大公共子序列算法對該篇文章和桶內(nèi)所有文章的標(biāo)題進(jìn)行相似度計(jì)算,當(dāng)標(biāo)題相似度超過0.75(0.75為本具體例子中預(yù)設(shè)的相似度閾值,該閾值由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況設(shè)定)時(shí),即判定兩篇文章為內(nèi)容相同的樣本文章,進(jìn)行消重操作;6、當(dāng)標(biāo)題相似度不大于0.75時(shí),兩兩比較每篇文章中20個(gè)關(guān)鍵詞的相似度,當(dāng)相似的關(guān)鍵詞數(shù)量超過16個(gè)(16為本具體例子中通過杰卡德相似度算法確定的預(yù)設(shè)的數(shù)量閾值,即各自20個(gè)詞,相同的詞數(shù)量為x,杰卡德相似度為x/(20-x+20-x+x)=0.66,所以為16)時(shí),即可判定兩篇文章為內(nèi)容相同的樣本文字,進(jìn)行消重操作。

上述的具體例子中,在比較兩兩文章相似度時(shí),先比較標(biāo)題相似度,再比較關(guān)鍵詞相似度,是因?yàn)橐环矫鏄?biāo)題的計(jì)算量小,運(yùn)算速度快,同時(shí)通常情況下,內(nèi)容相似的文章標(biāo)題大部分都是相似的;另一方面,如果只用關(guān)鍵詞進(jìn)行相似度比較,或者只用標(biāo)題進(jìn)行相似度比較,會存在比較瓶頸,比較結(jié)果不夠準(zhǔn)確,因此,本發(fā)明采用先比較標(biāo)題后比較關(guān)鍵詞的方式計(jì)算相似度,兩種方式相輔相成,互為補(bǔ)充。

在實(shí)現(xiàn)本發(fā)明的過程中發(fā)明人發(fā)現(xiàn),通過關(guān)鍵詞集合建立分桶可以有效減小數(shù)據(jù)計(jì)算量。當(dāng)不建立分桶直接計(jì)算關(guān)鍵詞相似度時(shí),算法復(fù)雜度為O(n^2),其中n為樣本文章總數(shù),當(dāng)根據(jù)關(guān)鍵詞建立分桶時(shí),算法復(fù)雜度為O(k*m^2),其中k為樣本關(guān)鍵詞總數(shù),m為每個(gè)關(guān)鍵詞分桶下文章的平均數(shù),k<<n且m<<n,當(dāng)n為一億時(shí)(即樣本文章數(shù)量為一億時(shí)),對應(yīng)的k只有幾萬,因此建立分桶后的算法復(fù)雜度更低。同時(shí),因?yàn)槊總€(gè)分桶的主鍵為關(guān)鍵詞集合中一個(gè)唯一的關(guān)鍵詞,因此在同一分桶內(nèi)的文章才可能具有相似性,不在同一分桶內(nèi)的文章必然沒有任何相似的關(guān)鍵詞,可以直接予以排除,進(jìn)一步減小了計(jì)算量。另外,因?yàn)橹灰獌蓛晌恼碌年P(guān)鍵詞相似度超過預(yù)設(shè)數(shù)量閾值即可判定為相似文章并停止計(jì)算而后進(jìn)行消重處理,采用建立分桶的方式可以更快更早的找到相似文章,提前停止計(jì)算,即采用建立分桶方式的算法更容易傾向于最優(yōu)復(fù)雜度,而非最大復(fù)雜度O(k*m^2)。

在實(shí)現(xiàn)本發(fā)明的過程中發(fā)明人還發(fā)現(xiàn),在計(jì)算關(guān)鍵詞的杰卡德相似度時(shí),可以采用一種數(shù)據(jù)結(jié)構(gòu),以空間換時(shí)間,優(yōu)化計(jì)算速度:首先構(gòu)建一個(gè)大小為65536位的索引(因?yàn)楦鶕?jù)中文編碼規(guī)則,65536個(gè)位可以表示所有中文漢字),將每篇文章的關(guān)鍵詞集合中的每一個(gè)詞的首字作為索引位置的序號,其他字作為該索引位置的屬性值,每一個(gè)父索引可以有多個(gè)子索引,每個(gè)子索引有一個(gè)屬性值表示該父索引屬于哪一篇文章(此處子索引的屬性值采用一個(gè)二進(jìn)制數(shù)表示,即有M篇文章該二進(jìn)制數(shù)就有M位,該父索引屬于哪一篇文章,那一篇文章對應(yīng)的二進(jìn)制位為1)。當(dāng)需要計(jì)算兩兩文章的關(guān)鍵詞相似度時(shí),不再需要兩兩計(jì)算,而是只要在同一分桶的關(guān)鍵詞數(shù)據(jù)結(jié)構(gòu)中查找重復(fù)的詞。使用一個(gè)同樣M位的數(shù)組(數(shù)組的每一位對應(yīng)一篇文章,即M篇文章對應(yīng)M位數(shù)組),該數(shù)組中各個(gè)位數(shù)的初始值均為0,將同一父索引下的所有子索引進(jìn)行比較,如果存在相似的子索引,取出該子索引中表示從屬于文章的二進(jìn)制數(shù),然后在對應(yīng)文章的數(shù)組位置加1,并判斷該數(shù)組中每一位數(shù)值是否大于16(即上文所述的預(yù)設(shè)的數(shù)量閾值),當(dāng)數(shù)組的某一位數(shù)值大于16時(shí),即說明該數(shù)值對應(yīng)的文章為相似文章,可以停止計(jì)算并進(jìn)行消重處理。以前需要兩組20個(gè)詞一一比較,那么一個(gè)分桶內(nèi)M篇文章最差需要計(jì)算M*400次;改進(jìn)后,只需要快速查詢20次,比較20個(gè)父索引下的子索引是否有相似的,此時(shí)最差只需查詢20*M次,而實(shí)際情況下,每個(gè)父索引下的子索引數(shù)量遠(yuǎn)小于M,所以計(jì)算量也會成倍數(shù)地減小,這種算法能夠更早更快地找到重復(fù)文章。

在完成上述消重處理后,提取樣本集合中的各個(gè)樣本所包含的信息單元。具體地,在本實(shí)施例中,可以通過標(biāo)點(diǎn)符號和換行空白對文章內(nèi)容進(jìn)行分割,從而得到樣本中的信息單元。例如“按住二維碼‘識別’關(guān)注,更多驚喜等著你哦”可以分割得到兩個(gè)信息單元,分別為“按住二維碼‘識別’關(guān)注”和“更多驚喜等著你哦”。在其他實(shí)施例中,也可以采用其他規(guī)則對文章內(nèi)容進(jìn)行分割提取信息單元,本發(fā)明對此不作具體限定,本領(lǐng)域技術(shù)人員可以靈活設(shè)定。

步驟S220:統(tǒng)計(jì)每個(gè)信息單元在樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預(yù)設(shè)的第一閾值的信息單元確定為候選特征單元。

在實(shí)現(xiàn)本發(fā)明的過程中,本發(fā)明人發(fā)現(xiàn),通過對歷史數(shù)據(jù)的分析可知,每個(gè)新聞發(fā)布者在一段時(shí)間內(nèi)發(fā)布的文章中包含的廣告信息或垃圾推廣信息基本是相同的,那么與廣告信息或垃圾推廣信息關(guān)聯(lián)的信息單元也必然是高頻重復(fù)的。通過大量統(tǒng)計(jì)分析可以得出與廣告信息或垃圾推廣信息關(guān)聯(lián)的信息單元與普通信息單元相區(qū)別的重復(fù)次數(shù)的臨界值,該臨界值即上述預(yù)設(shè)的第一閾值。通過該預(yù)設(shè)的第一閾值對所有的信息單元進(jìn)行篩選,將出現(xiàn)次數(shù)大于該預(yù)設(shè)的第一閾值的信息單元確定為候選特征單元。

但是因?yàn)轭A(yù)設(shè)的第一閾值是經(jīng)驗(yàn)閾值,并不能濾除掉所有的正常重復(fù)內(nèi)容,所以后面考慮正常重復(fù)的新聞短語的位置分布和廣告短語的位置分布特點(diǎn),采用L0范數(shù)約束,更精確的濾除掉正常內(nèi)容,得到準(zhǔn)確的新聞廣告短語和位置分布重復(fù)次數(shù)等權(quán)重,最后用這些數(shù)據(jù)構(gòu)建新聞推廣信息識別模型。

步驟S230:針對每個(gè)候選特征單元,分別統(tǒng)計(jì)該候選特征單元在各個(gè)文檔位置的分布情況,根據(jù)統(tǒng)計(jì)結(jié)果確定該候選特征單元是否為推廣特征單元。

通過步驟S220的篩選,可以粗略篩選掉大部分的正常內(nèi)容的信息單元,但是余下的信息單元(即候選特征單元)中,除了與廣告信息或垃圾推廣信息關(guān)聯(lián)的信息單元,還可能存在正常新聞中包含的與時(shí)間相關(guān)聯(lián)的信息單元。發(fā)明人通過統(tǒng)計(jì)分析發(fā)現(xiàn),在候選特征單元中,與時(shí)間相關(guān)聯(lián)的候選特征單元因?yàn)椴⒎侨藶榭桃庵貜?fù)的內(nèi)容,所以在文檔中的位置分布情況比較均勻(如圖5所示);而與廣告信息或垃圾推廣信息關(guān)聯(lián)的候選特征單元是人為刻意重復(fù)的內(nèi)容,所以在文檔中的位置分布情況比較集中(如圖6所示)。因此,通過統(tǒng)計(jì)候選特征單元在各個(gè)文檔位置的分布情況可以有效的進(jìn)一步篩選出推廣特征單元。

具體地,可以通過分布的L0范數(shù)約束進(jìn)行進(jìn)一步篩選。首先,根據(jù)預(yù)設(shè)的位置劃分規(guī)則將文檔內(nèi)容劃分為多個(gè)文檔位置,其中,預(yù)設(shè)的位置劃分規(guī)則包括基于段落粒度的劃分規(guī)則、以及基于句子粒度的劃分規(guī)則;然后,設(shè)置用于表示該候選特征單元在各個(gè)文檔位置的分布情況的向量,其中,向量中的各個(gè)元素分別對應(yīng)于各個(gè)文檔位置;若該候選特征單元在指定文檔位置的分布數(shù)量大于預(yù)設(shè)的分布閾值,則該指定文檔位置所對應(yīng)的元素的元素值非零,若該候選特征單元在指定文檔位置的分布數(shù)量不大于預(yù)設(shè)的分布閾值,則該指定文檔位置所對應(yīng)的元素的元素值為零,其中,候選特征單元在指定文檔位置的分布數(shù)量包括候選特征單元在指定文檔位置的出現(xiàn)次數(shù)、和/或出現(xiàn)概率;最后,當(dāng)向量中非零元素的個(gè)數(shù)大于預(yù)設(shè)的元素閾值時(shí),確定該候選特征單元為推廣特征單元。

在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人考慮過四種位置劃分規(guī)則,分別是段落粒度分布百分比、句子粒度分布百分比、段落粒度正負(fù)排序和句子粒度正負(fù)排序。通過大量試驗(yàn),發(fā)明人發(fā)現(xiàn)類似公眾號文章,推廣信息主要集中在文章頭部或尾部;不同內(nèi)容文章,段落或句子總量是多態(tài)的,同樣出現(xiàn)在第一段或最后幾段,百分比會有很大差異;同樣的尾部推廣信息,內(nèi)容如果相似,那么段落數(shù)幾乎一致;尾部推廣信息常常喜歡用非常短的段落,在這種情況下,采用段落粒度正負(fù)排序規(guī)則的效果最佳。在具體應(yīng)用中,因?yàn)樾畔l(fā)布者常常將推廣信息放置在文章開頭醒目位置(即第一段的前幾句)或者集中排版在文章的尾部。由此,同一編輯排版的兩篇文章,推廣信息的位置如果在文章頭部(例如第一段),則候選特征單元位置分布情況可以采用正向排序計(jì)數(shù),即集中于第一段可以記為+1;同理,當(dāng)編輯習(xí)慣將推廣信息排版在文章尾部(例如最后一段)時(shí),因?yàn)槊科恼露温鋽?shù)量相差較大,采用正向排序計(jì)數(shù)會導(dǎo)致分布情況統(tǒng)計(jì)差距較大,如一篇文章有20段時(shí),最后一段記為+20,當(dāng)一篇文章有30段時(shí),則最后一段記為+30,此時(shí)就需要采用逆向排序計(jì)數(shù),則無論文章段落數(shù)為多少,最后一段均記為-1,使得分布統(tǒng)計(jì)結(jié)果沒有較大偏差,因此,采用正負(fù)排序的方式能夠更加準(zhǔn)確地反映位置分布情況。另外,經(jīng)發(fā)明人研究發(fā)現(xiàn),段落粒度的正負(fù)排序最為準(zhǔn)確(因?yàn)榕虐娑嘁远温錇橹鳎虼硕温涓荏w現(xiàn)編輯排版意愿;而句子只是作者寫文章的行文習(xí)慣或者寫作水平而已)。由此可見,在本實(shí)施例中,采用段落粒度正負(fù)排序規(guī)則能夠進(jìn)一步提升準(zhǔn)確率。

上述預(yù)設(shè)的分布閾值和預(yù)設(shè)的元素閾值均需要通過大量試驗(yàn)確定,具體而言,需要分別取不同的分布閾值和元素閾值,并比較不同取值時(shí),正常內(nèi)容對應(yīng)的候選特征單元與廣告信息對應(yīng)的候選特征單元的分離效果,最后將分離效果最好的取值確定為預(yù)設(shè)的分布閾值和預(yù)設(shè)的元素閾值。在本發(fā)明實(shí)施過程中,發(fā)明人通過大量試驗(yàn)發(fā)現(xiàn),當(dāng)步驟S220中的預(yù)設(shè)的第一閾值為20時(shí),預(yù)設(shè)的分布閾值為10,預(yù)設(shè)的元素閾值為3時(shí),正常內(nèi)容對應(yīng)的候選特征單元與廣告信息對應(yīng)的候選特征單元的分離效果最佳。此時(shí),當(dāng)一個(gè)候選特征單元在文章中某位置的出現(xiàn)次數(shù)超過10時(shí),該位置對應(yīng)的向量元素值不為0,反之,該位置為0。這樣就得到不同候選特征單元對應(yīng)的映射(x<10,y=0;x>10,y=x)的L0范數(shù)值n,n是向量y0,y1…yi,中不為0的個(gè)數(shù)。當(dāng)n>=3(即元素閾值為3)時(shí),判定該候選特征單元為推廣特征單元。

步驟S240:根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息。

具體地,根據(jù)已確定的推廣特征單元及其在各個(gè)文檔位置的分布情況,設(shè)置對應(yīng)的文檔檢測模型,根據(jù)文檔檢測模型檢測文檔中包含的推廣信息。

其中,根據(jù)已確定的推廣特征單元及其在各個(gè)文檔位置的分布情況,設(shè)置對應(yīng)的文檔檢測模型的步驟具體包括根據(jù)已確定的推廣特征單元及其在各個(gè)文檔位置的出現(xiàn)概率以及預(yù)設(shè)的位置權(quán)重,設(shè)置文檔檢測模型中包含的模型參數(shù)以及各個(gè)模型參數(shù)所對應(yīng)的權(quán)重值。上述的出現(xiàn)概率的計(jì)算公式為p=k/n,其中n是該推廣特征單元在文檔中出現(xiàn)的總次數(shù),k是該推廣特征單元在該位置出現(xiàn)的次數(shù)。因?yàn)閺V告信息或垃圾推廣信息常常出現(xiàn)在文章的特定位置,所以需要對推廣特征單元在文檔中出現(xiàn)的不同位置賦予不同的位置權(quán)值,需要注意的是,具體的位置權(quán)重需要通過大量試驗(yàn)確定,且廣告信息或垃圾推廣信息常常出現(xiàn)的特定位置的位置權(quán)重應(yīng)該要高于文中其他位置的位置權(quán)重,這樣才能減少誤刪正常內(nèi)容的概率。

其中,根據(jù)文檔檢測模型檢測文檔中包含的推廣信息的步驟具體包括從待檢測的文檔所包含的各個(gè)信息單元中查找與文檔檢測模型中包含的模型參數(shù)相匹配的信息單元;針對查找到的每個(gè)信息單元,根據(jù)該信息單元在所述待檢測的文檔中的文檔位置和/或與該信息單元相匹配的模型參數(shù)的權(quán)重值,確定該信息單元的分值,根據(jù)分值確定該信息單元是否為推廣信息。上述分值的計(jì)算公式為信息單元在各個(gè)文檔位置的出現(xiàn)概率乘以預(yù)設(shè)的位置權(quán)重,因?yàn)閺V告信息或垃圾推廣信息常常出現(xiàn)的特定位置對應(yīng)的位置權(quán)重較高,因此,最后分?jǐn)?shù)較高的信息單元極有可能是推廣信息。

步驟S250:根據(jù)檢測到的推廣信息所在的文檔位置,對文檔進(jìn)行刪減。

其中,當(dāng)檢測到的推廣信息所在的文檔位置屬于文檔的首部時(shí),對所述推廣信息及其之前的段落內(nèi)容進(jìn)行刪減;當(dāng)檢測到的推廣信息所在的文檔位置屬于文檔的尾部時(shí),對所述推廣信息及其之后的段落內(nèi)容進(jìn)行刪減;當(dāng)檢測到的推廣信息所在的文檔位置屬于文檔的中部時(shí),對所述推廣信息所在的語句進(jìn)行刪減。通過上述的刪減操作,可以有效去除機(jī)器抓取的新聞內(nèi)容中包含的廣告信息或垃圾推廣信息,從而獲取到純凈的新聞內(nèi)容,方便了對自媒體平臺新聞的匯編。

步驟S260:根據(jù)檢測到的文檔中包含的推廣信息更新文檔檢測模型。

其中,文檔檢測模型包括深度學(xué)習(xí)模型,尤其可以采用深度學(xué)習(xí)模型中的卷積神經(jīng)網(wǎng)絡(luò)模型,在具體應(yīng)用中,還可以根據(jù)每一次的推廣信息實(shí)際檢測結(jié)果,對該卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行反饋,從而不斷更新文檔檢測模型,使其能夠不斷提高識別準(zhǔn)確性,提高推廣信息的識別效率。

由此可見,本發(fā)明提供的一種推廣信息的檢測方法,先通過對樣本數(shù)據(jù)進(jìn)行消重處理,簡化了本方法的一定運(yùn)算量,然后通過提取預(yù)設(shè)樣本集合中的信息單元,并根據(jù)信息單元在樣本集合中的出現(xiàn)次數(shù)來確定信息單元中的候選特征單元,然后根據(jù)候選特征單元在各個(gè)文檔中位置的分布情況,采用L0范數(shù)約束算法,從而確定候選特征單元中的推廣特征單元,最后根據(jù)篩選出的推廣特征單元建立文檔檢測模型,并利用該文檔檢測模型對檢測目標(biāo)文檔中包含的推廣信息進(jìn)行檢測,從而獲取到目標(biāo)文檔中的推廣信息。利用獲取到的推廣信息,可以對機(jī)器抓取到的目標(biāo)文檔進(jìn)行刪減,以獲得純凈的新聞內(nèi)容,從而方便自媒體平臺的新聞匯編工作。而且當(dāng)文檔檢測模型采用深度學(xué)習(xí)模型時(shí),還可以將每一次的推廣信息實(shí)際檢測結(jié)果反饋給文檔檢測模型,使該模型能不斷學(xué)習(xí)不斷更新,以適應(yīng)發(fā)展,提高推廣信息的準(zhǔn)確性。

實(shí)施例三

圖3示出了本發(fā)明提供的一種推廣信息的檢測裝置,該裝置包括:信息單元提取模塊310、候選單元確定模塊320、推廣單元確定模塊330和檢測模塊340。

信息單元提取模塊310,用于獲取預(yù)設(shè)的樣本集合,提取樣本集合中的各個(gè)樣本所包含的信息單元。

為了方便檢測裝置對樣本新聞內(nèi)容進(jìn)行識別,信息單元提取模塊310首先需要根據(jù)一定的規(guī)則,對預(yù)設(shè)的包含廣告信息或垃圾推廣信息的樣本新聞內(nèi)容進(jìn)行分割,并從中提取出各個(gè)樣本所包含的信息單元。其中,預(yù)設(shè)的樣本集合是指包含廣告信息或垃圾推廣信息并且具有一定代表性的自媒體新聞內(nèi)容,該樣本集合一般由本領(lǐng)域技術(shù)人員根據(jù)經(jīng)驗(yàn)進(jìn)行選擇和設(shè)定。而上述的信息單元是組成樣本新聞內(nèi)容的基礎(chǔ)單元,其形式一般可以是樣本新聞內(nèi)容被分割后產(chǎn)生的特征短語,也可以是具有一定特征的字詞。對于預(yù)設(shè)樣本集合的具體設(shè)定規(guī)則和上述信息單元的具體形式,本發(fā)明不作具體限定,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際情況靈活設(shè)定。

候選單元確定模塊320,用于統(tǒng)計(jì)每個(gè)信息單元在樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預(yù)設(shè)的第一閾值的信息單元確定為候選特征單元。

因?yàn)閺V告信息和垃圾推廣信息是每個(gè)自媒體平臺的每個(gè)新聞發(fā)布者刻意重復(fù)的信息,因此,來自同一個(gè)新聞發(fā)布者的不同新聞內(nèi)容中一般包含相同的廣告信息或垃圾推廣信息。候選單元確定模塊320對信息單元提取模塊310提取出的信息單元進(jìn)行在樣本集合中出現(xiàn)次數(shù)的統(tǒng)計(jì),當(dāng)某個(gè)信息單元的出現(xiàn)次數(shù)超過預(yù)設(shè)的第一閾值時(shí),說明該信息單元有極大的嫌疑屬于廣告信息或垃圾推廣信息,因此,將該信息單元確定為候選特征單元。

其中,預(yù)設(shè)的第一閾值是根據(jù)廣告信息或垃圾推廣信息在來自同一個(gè)新聞發(fā)布者的樣本新聞內(nèi)容中重復(fù)次數(shù)的總體情況確定的,當(dāng)某個(gè)信息單元高于該重復(fù)次數(shù)時(shí),就將該信息單元確定為具有廣告信息或垃圾推廣信息嫌疑的候選特征單元。該第一閾值的具體確定規(guī)則,本發(fā)明不作具體限定,本領(lǐng)域技術(shù)人員可以根據(jù)試驗(yàn)數(shù)據(jù)和經(jīng)驗(yàn)靈活確定。

推廣單元確定模塊330,用于針對每個(gè)候選特征單元,分別統(tǒng)計(jì)該候選特征單元在各個(gè)文檔位置的分布情況,根據(jù)統(tǒng)計(jì)結(jié)果確定該候選特征單元是否為推廣特征單元。

通過候選單元確定模塊320的初步篩選后,大部分包含廣告信息或垃圾推廣信息的信息單元都會被確定為候選特征單元,但是某些重復(fù)次數(shù)超過第一閾值的包含正常新聞內(nèi)容的信息單元也會被確定為候選特征單元。

本發(fā)明的發(fā)明人通過大量試驗(yàn)和反復(fù)比較發(fā)現(xiàn),包含正常新聞內(nèi)容的候選特征單元因?yàn)槭切侣劙l(fā)布者非刻意重復(fù)的內(nèi)容,所以在樣本中的位置分布情況一般會比較均勻;而包含廣告信息或垃圾推廣信息的候選特征單元屬于新聞發(fā)布者刻意重復(fù)的內(nèi)容,所以在樣本中的位置分布情況會比較集中。根據(jù)這一發(fā)現(xiàn),推廣單元確定模塊330采用候選特征單元在樣本中的位置分布情況來對候選特征單元進(jìn)行進(jìn)一步的篩選,將位置分布比較集中的候選特征單元確定為推廣特征單元。

檢測模塊340,用于根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息。

通過推廣單元確定模塊330的處理,可以得到從預(yù)設(shè)的樣本集合中歸納提取出的推廣特征單元,然后檢測模塊340通過上述推廣特征單元對機(jī)器抓取方法獲得的待檢測文檔進(jìn)行識別,從而有效地篩選出待監(jiān)測文檔中包含的對應(yīng)的推廣信息,最后從待檢測文檔中去除篩選出的推廣信息,就可以得到相對純凈的新聞內(nèi)容。

關(guān)于上述各個(gè)模塊的具體結(jié)構(gòu)和工作原理可參照方法實(shí)施例中相應(yīng)部分的描述,此處不再贅述。

由此可見,本發(fā)明提供的一種推廣信息的檢測裝置,通過提取預(yù)設(shè)樣本集合中的信息單元,并根據(jù)信息單元在樣本集合中的出現(xiàn)次數(shù)來確定信息單元中的候選特征單元,然后根據(jù)候選特征單元在各個(gè)文檔中位置的分布情況確定候選特征單元中的推廣特征單元,最后根據(jù)篩選出的推廣特征單元檢測目標(biāo)文檔中包含的推廣信息,從而實(shí)現(xiàn)了在采用機(jī)器抓取方法提取自媒體平臺新聞的過程中有效且準(zhǔn)確過濾廣告信息或垃圾推廣信息的效果,使得采用機(jī)器抓取方法也能提取到純凈的新聞內(nèi)容,極大地提高了自媒體平臺新聞匯編的效率。

實(shí)施例四

圖4示出了本發(fā)明提供的一種推廣信息的檢測裝置,該裝置包括:信息單元提取模塊410、候選單元確定模塊420、推廣單元確定模塊430、檢測模塊440、更新模塊450和刪減模塊460,其中,推廣單元確定模塊430進(jìn)一步包括向量子模塊431、確定子模塊432和文檔劃分子模塊433。

信息單元提取模塊410,用于用于獲取預(yù)設(shè)的樣本集合,提取所述樣本集合中的各個(gè)樣本所包含的信息單元。

為了方便檢測裝置對樣本新聞內(nèi)容進(jìn)行識別,首先需要根據(jù)一定的規(guī)則,對預(yù)設(shè)的包含廣告信息或垃圾推廣信息的樣本新聞內(nèi)容進(jìn)行分割,并從中提取出各個(gè)樣本所包含的信息單元。因?yàn)榇嬖谕黄侣劚恢貜?fù)多次的情況,所以在獲取預(yù)設(shè)的樣本集合前進(jìn)行消重處理,可以有效減少獲取樣本集合的計(jì)算量,提高獲取效率,故信息單元提取模塊410需要對多個(gè)候選樣本進(jìn)行消重處理,根據(jù)消重處理后的候選樣本得到樣本集合。

具體而言,信息單元提取模塊410需要計(jì)算各個(gè)候選樣本的標(biāo)題之間的相似度,針對標(biāo)題之間的相似度大于預(yù)設(shè)的相似度閾值的候選樣本進(jìn)行消重;針對標(biāo)題之間的相似度不大于預(yù)設(shè)的相似度閾值的候選樣本,查詢各個(gè)候選樣本對應(yīng)的關(guān)鍵詞集合,若兩個(gè)候選樣本所對應(yīng)的關(guān)鍵詞集合中包含的相同關(guān)鍵詞的數(shù)量大于預(yù)設(shè)的數(shù)量閾值,則針對兩個(gè)候選樣本進(jìn)行消重。其中,優(yōu)選地,通過最大公共子序列算法計(jì)算各個(gè)候選樣本的標(biāo)題之間的相似度,且各個(gè)候選樣本所對應(yīng)的關(guān)鍵詞集合根據(jù)對候選樣本進(jìn)行分詞處理后得到的各個(gè)詞匯的逆向文件頻率(IDF)確定,上述數(shù)量閾值根據(jù)杰卡德相似度算法確定。

在完成上述消重處理后,信息單元提取模塊410提取樣本集合中的各個(gè)樣本所包含的信息單元。具體地,在本實(shí)施例中,可以通過標(biāo)點(diǎn)符號和換行空白對文章內(nèi)容進(jìn)行分割,從而得到樣本中的信息單元。例如“按住二維碼‘識別’關(guān)注,更多驚喜等著你哦”可以分割得到兩個(gè)信息單元,分別為“按住二維碼‘識別’關(guān)注”和“更多驚喜等著你哦”。在其他實(shí)施例中,也可以采用其他規(guī)則對文章內(nèi)容進(jìn)行分割提取信息單元,本發(fā)明對此不作具體限定,本領(lǐng)域技術(shù)人員可以靈活設(shè)定。

候選單元確定模塊420,用于統(tǒng)計(jì)每個(gè)信息單元在樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預(yù)設(shè)的第一閾值的信息單元確定為候選特征單元。

在實(shí)現(xiàn)本發(fā)明的過程中,本發(fā)明人發(fā)現(xiàn),通過對歷史數(shù)據(jù)的分析可知,每個(gè)新聞發(fā)布者在一段時(shí)間內(nèi)發(fā)布的文章中包含的廣告信息或垃圾推廣信息基本是相同的,那么與廣告信息或垃圾推廣信息關(guān)聯(lián)的信息單元也必然是高頻重復(fù)的。通過大量統(tǒng)計(jì)分析可以得出與廣告信息或垃圾推廣信息關(guān)聯(lián)的信息單元與普通信息單元相區(qū)別的重復(fù)次數(shù)的臨界值,該臨界值即上述預(yù)設(shè)的第一閾值。候選單元確定模塊420通過該預(yù)設(shè)的第一閾值對所有的信息單元進(jìn)行篩選,將出現(xiàn)次數(shù)大于該預(yù)設(shè)的第一閾值的信息單元確定為候選特征單元。

推廣單元確定模塊430,用于針對每個(gè)候選特征單元,分別統(tǒng)計(jì)該候選特征單元在各個(gè)文檔位置的分布情況,根據(jù)統(tǒng)計(jì)結(jié)果確定該候選特征單元是否為推廣特征單元。

通過候選單元確定模塊420的篩選,可以粗略篩選掉大部分的正常內(nèi)容的信息單元,但是余下的信息單元(即候選特征單元)中,除了與廣告信息或垃圾推廣信息關(guān)聯(lián)的信息單元,還可能存在正常新聞中包含的與時(shí)間相關(guān)聯(lián)的信息單元。發(fā)明人通過統(tǒng)計(jì)分析發(fā)現(xiàn),在候選特征單元中,與時(shí)間相關(guān)聯(lián)的候選特征單元因?yàn)椴⒎侨藶榭桃庵貜?fù)的內(nèi)容,所以在文檔中的位置分布情況比較均勻(如圖5所示);而與廣告信息或垃圾推廣信息關(guān)聯(lián)的候選特征單元是人為刻意重復(fù)的內(nèi)容,所以在文檔中的位置分布情況比較集中(如圖6所示)。因此,通過統(tǒng)計(jì)候選特征單元在各個(gè)文檔位置的分布情況可以有效的進(jìn)一步篩選出推廣特征單元。

具體地,推廣單元確定模塊430包括向量子模塊431、確定子模塊432和文檔劃分子模塊433,其中,向量子模塊431用于設(shè)置用于表示該候選特征單元在各個(gè)文檔位置的分布情況的向量;其中,向量中的各個(gè)元素分別對應(yīng)于各個(gè)文檔位置;若該候選特征單元在指定文檔位置的分布數(shù)量大于預(yù)設(shè)的分布閾值,則該指定文檔位置所對應(yīng)的元素的元素值非零;若該候選特征單元在指定文檔位置的分布數(shù)量不大于預(yù)設(shè)的分布閾值,則該指定文檔位置所對應(yīng)的元素的元素值為零;確定子模塊432用于當(dāng)向量中非零元素的個(gè)數(shù)大于預(yù)設(shè)的元素閾值時(shí),確定該候選特征單元為推廣特征單元;文檔劃分子模塊433用于根據(jù)預(yù)設(shè)的位置劃分規(guī)則將文檔內(nèi)容劃分為多個(gè)文檔位置;其中,上述的預(yù)設(shè)的位置劃分規(guī)則包括:基于段落粒度的劃分規(guī)則、以及基于句子粒度的劃分規(guī)則;且上述候選特征單元在指定文檔位置的分布數(shù)量包括:候選特征單元在指定文檔位置的出現(xiàn)次數(shù)、和/或出現(xiàn)概率。

檢測模塊440,用于根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息。

具體地,檢測模塊440需要根據(jù)已確定的推廣特征單元及其在各個(gè)文檔位置的分布情況,設(shè)置對應(yīng)的文檔檢測模型,根據(jù)文檔檢測模型檢測文檔中包含的推廣信息。進(jìn)一步地,檢測模塊440需要根據(jù)已確定的推廣特征單元及其在各個(gè)文檔位置的出現(xiàn)概率以及預(yù)設(shè)的位置權(quán)重,設(shè)置文檔檢測模型中包含的模型參數(shù)以及各個(gè)模型參數(shù)所對應(yīng)的權(quán)重值;然后從待檢測的文檔所包含的各個(gè)信息單元中查找與文檔檢測模型中包含的模型參數(shù)相匹配的信息單元;針對查找到的每個(gè)信息單元,根據(jù)該信息單元在待檢測的文檔中的文檔位置和/或與該信息單元相匹配的模型參數(shù)的權(quán)重值,確定該信息單元的分值,根據(jù)分值確定該信息單元是否為推廣信息。

本發(fā)明可以包括更新模塊450,用于根據(jù)檢測到的文檔中包含的推廣信息更新文檔檢測模型。其中,文檔檢測模型包括深度學(xué)習(xí)模型,尤其可以采用深度學(xué)習(xí)模型中的卷積神經(jīng)網(wǎng)絡(luò)模型,在具體應(yīng)用中,更新模塊450還可以根據(jù)每一次的推廣信息實(shí)際檢測結(jié)果,對該卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行反饋,從而不斷更新文檔檢測模型,使其能夠不斷提高識別準(zhǔn)確性,提高推廣信息的識別效率。

本發(fā)明還可以包括刪減模塊460,用于根據(jù)檢測到的推廣信息所在的文檔位置,對文檔進(jìn)行刪減。其中,當(dāng)檢測到的推廣信息所在的文檔位置屬于文檔的首部時(shí),對所述推廣信息及其之前的段落內(nèi)容進(jìn)行刪減;當(dāng)檢測到的推廣信息所在的文檔位置屬于文檔的尾部時(shí),對所述推廣信息及其之后的段落內(nèi)容進(jìn)行刪減;當(dāng)檢測到的推廣信息所在的文檔位置屬于文檔的中部時(shí),對所述推廣信息所在的語句進(jìn)行刪減。通過刪減模塊460,可以有效去除機(jī)器抓取的新聞內(nèi)容中包含的廣告信息或垃圾推廣信息,從而獲取到純凈的新聞內(nèi)容,方便了對自媒體平臺新聞的匯編。

關(guān)于上述各個(gè)模塊的具體結(jié)構(gòu)和工作原理可參照方法實(shí)施例中相應(yīng)部分的描述,此處不再贅述。

由此可見,本發(fā)明提供的一種推廣信息的檢測裝置,先通過對樣本數(shù)據(jù)進(jìn)行消重處理,簡化了本方法的一定運(yùn)算量,然后通過提取預(yù)設(shè)樣本集合中的信息單元,并根據(jù)信息單元在樣本集合中的出現(xiàn)次數(shù)來確定信息單元中的候選特征單元,然后根據(jù)候選特征單元在各個(gè)文檔中位置的分布情況,采用L0范數(shù)約束算法,從而確定候選特征單元中的推廣特征單元,最后根據(jù)篩選出的推廣特征單元建立文檔檢測模型,并利用該文檔檢測模型對檢測目標(biāo)文檔中包含的推廣信息進(jìn)行檢測,從而獲取到目標(biāo)文檔中的推廣信息。利用獲取到的推廣信息,可以對機(jī)器抓取到的目標(biāo)文檔進(jìn)行刪減,以獲得純凈的新聞內(nèi)容,從而方便自媒體平臺的新聞匯編工作。而且當(dāng)文檔檢測模型采用深度學(xué)習(xí)模型時(shí),還可以將每一次的推廣信息實(shí)際檢測結(jié)果反饋給文檔檢測模型,使該模型能不斷學(xué)習(xí)不斷更新,以適應(yīng)發(fā)展,提高推廣信息的準(zhǔn)確性。

在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。

在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。

類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。

本領(lǐng)域那些技術(shù)人員可以理解,可以對實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。

此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。

本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的推廣信息的檢測裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。

應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。

本發(fā)明公開了:A1.一種推廣信息的檢測方法,包括:

獲取預(yù)設(shè)的樣本集合,提取所述樣本集合中的各個(gè)樣本所包含的信息單元;

統(tǒng)計(jì)每個(gè)信息單元在所述樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預(yù)設(shè)的第一閾值的信息單元確定為候選特征單元;

針對每個(gè)候選特征單元,分別統(tǒng)計(jì)該候選特征單元在各個(gè)文檔位置的分布情況,根據(jù)統(tǒng)計(jì)結(jié)果確定該候選特征單元是否為推廣特征單元;

根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息。

A2.根據(jù)A1所述的方法,其中,所述分別統(tǒng)計(jì)該候選特征單元在各個(gè)文檔位置的分布情況,根據(jù)統(tǒng)計(jì)結(jié)果確定該候選特征單元是否為推廣特征單元的步驟具體包括:

設(shè)置用于表示該候選特征單元在各個(gè)文檔位置的分布情況的向量;其中,所述向量中的各個(gè)元素分別對應(yīng)于各個(gè)文檔位置;

若該候選特征單元在指定文檔位置的分布數(shù)量大于預(yù)設(shè)的分布閾值,則該指定文檔位置所對應(yīng)的元素的元素值非零;若該候選特征單元在指定文檔位置的分布數(shù)量不大于預(yù)設(shè)的分布閾值,則該指定文檔位置所對應(yīng)的元素的元素值為零;

當(dāng)所述向量中非零元素的個(gè)數(shù)大于預(yù)設(shè)的元素閾值時(shí),確定該候選特征單元為推廣特征單元。

A3.根據(jù)A2所述的方法,其中,所述設(shè)置用于表示該候選特征單元在各個(gè)文檔位置的分布情況的向量的步驟之前,進(jìn)一步包括步驟:根據(jù)預(yù)設(shè)的位置劃分規(guī)則將文檔內(nèi)容劃分為多個(gè)文檔位置;其中,所述預(yù)設(shè)的位置劃分規(guī)則包括:基于段落粒度的劃分規(guī)則、以及基于句子粒度的劃分規(guī)則;

且所述候選特征單元在指定文檔位置的分布數(shù)量包括:所述候選特征單元在指定文檔位置的出現(xiàn)次數(shù)、和/或出現(xiàn)概率。

A4.根據(jù)A1-A3任一所述的方法,其中,所述獲取預(yù)設(shè)的樣本集合的步驟具體包括:

對多個(gè)候選樣本進(jìn)行消重處理,根據(jù)消重處理后的候選樣本得到所述樣本集合。

A5.根據(jù)A4所述的方法,其中,所述對多個(gè)候選樣本進(jìn)行消重處理的步驟具體包括:

計(jì)算各個(gè)候選樣本的標(biāo)題之間的相似度,針對標(biāo)題之間的相似度大于預(yù)設(shè)的相似度閾值的候選樣本進(jìn)行消重;

針對標(biāo)題之間的相似度不大于預(yù)設(shè)的相似度閾值的候選樣本,查詢各個(gè)候選樣本所對應(yīng)的關(guān)鍵詞集合,若兩個(gè)候選樣本所對應(yīng)的關(guān)鍵詞集合中包含的相同關(guān)鍵詞的數(shù)量大于預(yù)設(shè)的數(shù)量閾值,則針對所述兩個(gè)候選樣本進(jìn)行消重。

A6.根據(jù)A5所述的方法,其中,所述計(jì)算各個(gè)候選樣本的標(biāo)題之間的相似度的步驟具體包括:通過最大公共子序列算法計(jì)算各個(gè)候選樣本的標(biāo)題之間的相似度;

且各個(gè)候選樣本所對應(yīng)的關(guān)鍵詞集合根據(jù)對候選樣本進(jìn)行分詞處理后得到的各個(gè)詞匯的逆向文件頻率確定;所述數(shù)量閾值根據(jù)杰卡德相似度算法確定。

A7.根據(jù)A1-A6任一所述的方法,其中,所述根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息的步驟具體包括:

根據(jù)已確定的推廣特征單元及其在各個(gè)文檔位置的分布情況,設(shè)置對應(yīng)的文檔檢測模型,根據(jù)所述文檔檢測模型檢測文檔中包含的推廣信息。

A8.根據(jù)A7所述的方法,其中,所述根據(jù)已確定的推廣特征單元及其在各個(gè)文檔位置的分布情況,設(shè)置對應(yīng)的文檔檢測模型的步驟具體包括:

根據(jù)所述已確定的推廣特征單元及其在各個(gè)文檔位置的出現(xiàn)概率以及預(yù)設(shè)的位置權(quán)重,設(shè)置所述文檔檢測模型中包含的模型參數(shù)以及各個(gè)模型參數(shù)所對應(yīng)的權(quán)重值。

A9.根據(jù)A8所述的方法,其中,所述根據(jù)所述文檔檢測模型檢測文檔中包含的推廣信息的步驟具體包括:

從待檢測的文檔所包含的各個(gè)信息單元中查找與所述文檔檢測模型中包含的模型參數(shù)相匹配的信息單元;

針對查找到的每個(gè)信息單元,根據(jù)該信息單元在所述待檢測的文檔中的文檔位置和/或與該信息單元相匹配的模型參數(shù)的權(quán)重值,確定該信息單元的分值,根據(jù)分值確定該信息單元是否為推廣信息。

A10.根據(jù)A8或A9所述的方法,其中,所述方法進(jìn)一步包括步驟:根據(jù)檢測到的文檔中包含的推廣信息更新所述文檔檢測模型;其中,所述文檔檢測模型包括:深度學(xué)習(xí)模型。

A11.根據(jù)A1-A10任一所述的方法,其中,所述根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息的步驟之后,進(jìn)一步包括步驟:

根據(jù)檢測到的推廣信息所在的文檔位置,對所述文檔進(jìn)行刪減;

其中,當(dāng)檢測到的推廣信息所在的文檔位置屬于文檔的首部時(shí),對所述推廣信息及其之前的段落內(nèi)容進(jìn)行刪減;當(dāng)檢測到的推廣信息所在的文檔位置屬于文檔的尾部時(shí),對所述推廣信息及其之后的段落內(nèi)容進(jìn)行刪減;當(dāng)檢測到的推廣信息所在的文檔位置屬于文檔的中部時(shí),對所述推廣信息所在的語句進(jìn)行刪減。

本發(fā)明還公開了:B12.一種推廣信息的檢測裝置,包括:

信息單元提取模塊,用于獲取預(yù)設(shè)的樣本集合,提取所述樣本集合中的各個(gè)樣本所包含的信息單元;

候選單元確定模塊,用于統(tǒng)計(jì)每個(gè)信息單元在所述樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預(yù)設(shè)的第一閾值的信息單元確定為候選特征單元;

推廣單元確定模塊,用于針對每個(gè)候選特征單元,分別統(tǒng)計(jì)該候選特征單元在各個(gè)文檔位置的分布情況,根據(jù)統(tǒng)計(jì)結(jié)果確定該候選特征單元是否為推廣特征單元;

檢測模塊,用于根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息。

B13.根據(jù)B12所述的裝置,其中,所述推廣單元確定模塊具體包括:

向量子模塊,用于設(shè)置用于表示該候選特征單元在各個(gè)文檔位置的分布情況的向量;其中,所述向量中的各個(gè)元素分別對應(yīng)于各個(gè)文檔位置;若該候選特征單元在指定文檔位置的分布數(shù)量大于預(yù)設(shè)的分布閾值,則該指定文檔位置所對應(yīng)的元素的元素值非零;若該候選特征單元在指定文檔位置的分布數(shù)量不大于預(yù)設(shè)的分布閾值,則該指定文檔位置所對應(yīng)的元素的元素值為零;

確定子模塊,用于當(dāng)所述向量中非零元素的個(gè)數(shù)大于預(yù)設(shè)的元素閾值時(shí),確定該候選特征單元為推廣特征單元。

B14.根據(jù)B13所述的裝置,其中,所述推廣單元確定模塊進(jìn)一步包括:

文檔劃分子模塊,用于根據(jù)預(yù)設(shè)的位置劃分規(guī)則將文檔內(nèi)容劃分為多個(gè)文檔位置;

其中,所述預(yù)設(shè)的位置劃分規(guī)則包括:基于段落粒度的劃分規(guī)則、以及基于句子粒度的劃分規(guī)則;且所述候選特征單元在指定文檔位置的分布數(shù)量包括:所述候選特征單元在指定文檔位置的出現(xiàn)次數(shù)、和/或出現(xiàn)概率。

B15.根據(jù)B12-B14任一所述的裝置,其中,所述信息單元提取模塊進(jìn)一步用于:

對多個(gè)候選樣本進(jìn)行消重處理,根據(jù)消重處理后的候選樣本得到所述樣本集合。

B16.根據(jù)B15所述的裝置,其中,所述信息單元提取模塊具體用于:

計(jì)算各個(gè)候選樣本的標(biāo)題之間的相似度,針對標(biāo)題之間的相似度大于預(yù)設(shè)的相似度閾值的候選樣本進(jìn)行消重;

針對標(biāo)題之間的相似度不大于預(yù)設(shè)的相似度閾值的候選樣本,查詢各個(gè)候選樣本所對應(yīng)的關(guān)鍵詞集合,若兩個(gè)候選樣本所對應(yīng)的關(guān)鍵詞集合中包含的相同關(guān)鍵詞的數(shù)量大于預(yù)設(shè)的數(shù)量閾值,則針對所述兩個(gè)候選樣本進(jìn)行消重。

B17.根據(jù)B16所述的裝置,其中,所述信息單元提取模塊具體用于:通過最大公共子序列算法計(jì)算各個(gè)候選樣本的標(biāo)題之間的相似度;

且各個(gè)候選樣本所對應(yīng)的關(guān)鍵詞集合根據(jù)對候選樣本進(jìn)行分詞處理后得到的各個(gè)詞匯的逆向文件頻率確定;所述數(shù)量閾值根據(jù)杰卡德相似度算法確定。

B18.根據(jù)B12-B18任一所述的裝置,其中,所述檢測模塊具體用于:

根據(jù)已確定的推廣特征單元及其在各個(gè)文檔位置的分布情況,設(shè)置對應(yīng)的文檔檢測模型,根據(jù)所述文檔檢測模型檢測文檔中包含的推廣信息。

B19.根據(jù)B18所述的裝置,其中,所述檢測模塊具體用于:

根據(jù)所述已確定的推廣特征單元及其在各個(gè)文檔位置的出現(xiàn)概率以及預(yù)設(shè)的位置權(quán)重,設(shè)置所述文檔檢測模型中包含的模型參數(shù)以及各個(gè)模型參數(shù)所對應(yīng)的權(quán)重值。

B20.根據(jù)B19所述的裝置,其中,所述檢測模塊具體用于:

從待檢測的文檔所包含的各個(gè)信息單元中查找與所述文檔檢測模型中包含的模型參數(shù)相匹配的信息單元;

針對查找到的每個(gè)信息單元,根據(jù)該信息單元在所述待檢測的文檔中的文檔位置和/或與該信息單元相匹配的模型參數(shù)的權(quán)重值,確定該信息單元的分值,根據(jù)分值確定該信息單元是否為推廣信息。

B21.根據(jù)B19或B20所述的裝置,其中,所述裝置進(jìn)一步包括:

更新模塊,用于根據(jù)檢測到的文檔中包含的推廣信息更新所述文檔檢測模型;其中,所述文檔檢測模型包括:深度學(xué)習(xí)模型。

B22.根據(jù)B12-B21任一所述的裝置,其中,所述裝置進(jìn)一步包括:

刪減模塊,用于根據(jù)檢測到的推廣信息所在的文檔位置,對所述文檔進(jìn)行刪減;

其中,當(dāng)檢測到的推廣信息所在的文檔位置屬于文檔的首部時(shí),對所述推廣信息及其之前的段落內(nèi)容進(jìn)行刪減;當(dāng)檢測到的推廣信息所在的文檔位置屬于文檔的尾部時(shí),對所述推廣信息及其之后的段落內(nèi)容進(jìn)行刪減;當(dāng)檢測到的推廣信息所在的文檔位置屬于文檔的中部時(shí),對所述推廣信息所在的語句進(jìn)行刪減。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1