亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種話題檢測裝置的制作方法

文檔序號:12122039閱讀:179來源:國知局
一種話題檢測裝置的制作方法
本發(fā)明涉及話題檢測領域,具體涉及一種話題檢測裝置。
背景技術
:互聯(lián)網(wǎng)技術的飛速發(fā)展和普及,已經(jīng)徹底改變了人類的生活模式。方面,它極大的造福了人類,使人類社會全面進入了信息化社會,另一方面,互聯(lián)網(wǎng)也成為了反動、色情、暴力、謠言等不良信息傳播的溫床。網(wǎng)絡內容安全在近幾年已經(jīng)成為信息安全領域的一個全新并且重要的課題,如何快速的從海量數(shù)據(jù)中進行話題檢測,成為獲取信息、增強網(wǎng)絡管理的重要手段。技術實現(xiàn)要素:針對上述問題,本發(fā)明旨在提供一種話題檢測裝置。本發(fā)明的目的采用以下技術方案來實現(xiàn):提供了一種話題檢測裝置,包括話題檢測系統(tǒng)和殼體,所述話題檢測系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)分類模塊、分類檢測模塊、檢測融合模塊;所述數(shù)據(jù)采集模塊用于采集需要進行話題檢測的數(shù)據(jù);所述數(shù)據(jù)分類模塊用于將由數(shù)據(jù)采集模塊輸出的數(shù)據(jù)劃分為圖像數(shù)據(jù)和文本數(shù)據(jù),并對分類后的數(shù)據(jù)進行過濾處理;所述分類檢測模塊用于對分類后的數(shù)據(jù)進行分析檢測;所述檢測融合模塊用于根據(jù)檢測需求篩選所需的圖像數(shù)據(jù)和文本數(shù)據(jù)。本發(fā)明的有益效果為:對數(shù)據(jù)進行分類檢測,能夠充分利用不同類型數(shù)據(jù)特點,采用對應的方法進行檢測,提高了檢測的針對性。附圖說明利用附圖對本發(fā)明作進一步說明,但附圖中的實施例不構成對本發(fā)明的任何限制,對于本領域的普通技術人員,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)以下附圖獲得其它的附圖。圖1是本發(fā)明的結構連接示意圖;圖2是本發(fā)明話題檢測系統(tǒng)。附圖標記:數(shù)據(jù)采集模塊1、數(shù)據(jù)分類模塊2、分類檢測模塊3、檢測融合模塊4、話題檢測系統(tǒng)5、殼體6。具體實施方式結合以下實施例對本發(fā)明作進一步描述。參見圖1、圖2,本實施例的一種話題檢測裝置,包括話題檢測系統(tǒng)5和殼體6,所述話題檢測系統(tǒng)5包括數(shù)據(jù)采集模塊1、數(shù)據(jù)分類模塊2、分類檢測模塊3、檢測融合模塊4;所述數(shù)據(jù)采集模塊1用于采集需要進行話題檢測的數(shù)據(jù);所述數(shù)據(jù)分類模塊2用于將由數(shù)據(jù)采集模塊1輸出的數(shù)據(jù)劃分為圖像數(shù)據(jù)和文本數(shù)據(jù),并對分類后的數(shù)據(jù)進行過濾處理;所述分類檢測模塊3用于對分類后的數(shù)據(jù)進行分析檢測;所述檢測融合模塊4用于根據(jù)檢測需求篩選所需的圖像數(shù)據(jù)和文本數(shù)據(jù)。優(yōu)選的,所述采集需要進行話題檢測的數(shù)據(jù),包括:采集一定時間段內需要進行話題檢測的數(shù)據(jù),按設定的過濾規(guī)則對該數(shù)據(jù)進行初步過濾處理,所述設定的過濾規(guī)則包括刪除包含特殊字符、推廣相關的特殊漢字和網(wǎng)頁鏈接的內容的數(shù)據(jù);設所述一定時間段的時間范圍為[AB,AE],將[AB,AE]按照時間順序平均分為n個子時間段,對每個子時間段內的數(shù)據(jù)進行重要度評估,評估公式定義為:在式中,Xi為第i個子時間段的重要程度,XTi為設定的第i個子時間段的重要程度值,Qi為第i個子時間段的數(shù)據(jù)的數(shù)量,Q為在[AB,AE]內的數(shù)據(jù)的數(shù)量;將各重要度按照由小到大進行排序,按照重要度的排列順序,將數(shù)據(jù)依次發(fā)送至數(shù)據(jù)分類模塊2。本優(yōu)選實施例通過設定過濾規(guī)則,將不需要進行話題檢測的數(shù)據(jù)進行刪除,減少了話題檢測后續(xù)處理的數(shù)據(jù)量;通過對各子時間段的數(shù)據(jù)進行重要度評估,并按照重要度的排列順序,將數(shù)據(jù)依次發(fā)送至數(shù)據(jù)分類模塊2,使后續(xù)的模塊能夠預先處理重要程度高的數(shù)據(jù),提高了話題檢測的速度。優(yōu)選的,所述對分類后的數(shù)據(jù)進行過濾處理,包括:提取文本數(shù)據(jù),對該文本數(shù)據(jù)進行聚類處理,形成多個類別的文本數(shù)據(jù)集;計算每個類別的文本數(shù)據(jù)集中的數(shù)據(jù)的數(shù)量,按照數(shù)量由少到大的順序對多個文本數(shù)據(jù)集進行排序;刪除前24%的文本數(shù)據(jù)集,將剩余的文本數(shù)據(jù)集以及圖像數(shù)據(jù)發(fā)送至分類檢測模塊。本優(yōu)選實施例進一步對文本數(shù)據(jù)進行聚類處理,過濾掉數(shù)量較少的文本數(shù)據(jù)集,減少了后續(xù)話題檢測的數(shù)據(jù)量,從而進一步提高了話題檢測的速度。優(yōu)選的,所述對該文本數(shù)據(jù)進行聚類處理,包括:第一步:確定聚簇的個數(shù)K,包括:對該文本數(shù)據(jù)采用等距法設定k-means聚類算法的初始中心,得到聚類中心;在得到聚類中心后將相鄰的聚類中心的中點作為分類的劃分點,將各個對象加入到距離最近的類中,從而確定聚簇的個數(shù)K;第二步:將該文本數(shù)據(jù)劃分為n個樣本,對n個樣本進行向量化,通過夾角余弦函數(shù)計算所有樣本兩兩之間的相似度,得到相似度矩陣SIM:SIM=[sim(hi,hj)]n×n,i,j=1,…,n第三步:計算每一個樣本與其它所有樣本的相似度之和,求和公式為:式中,為樣本hi與其它所有樣本的相似度之和,sim(hi,hj)表示樣本hi,hj間的相似度,i,j=1,…,n;第四步:按降序排列i=1,…,n,設按從大到小排列的前4個值對應的樣本為hmax,hmax-1,hmax-2,hmax-3,根據(jù)下列公式確定第一個初始的聚簇中心ME:式中,ωmax-μ表hmax-μ的重要度權值;第五步:對中的最大值對應的矩陣中行向量的元素進行升序排列,假設前k-1個最小的元素為SIMpq,q=1,…,k-1,選擇前k-1個最小的元素SIMpq相對應的樣本作為剩余的k-1個初始的聚簇中心;第六步:計算剩余樣本與各初始的聚簇中心之間的相似度,將剩余樣本分發(fā)到相似度最高的聚簇中,形成變化后的k個聚簇;第七步:計算變化后的聚簇中各樣本的均值,將其作為更新后的聚簇中心代替更新前的聚簇中心;第八步:若更新前的聚簇中心與更新后的聚簇中心相同,或者目標函數(shù)達到了最小值,停止更新,所述目標函數(shù)為:其中,Cl表示k個聚簇中的第l個聚簇,hx為第l個聚簇中的樣本,為第l個聚簇的中心。本優(yōu)選實施例有效避免單一采取隨機抽樣方法所帶來的偶然性,解決對該文本數(shù)據(jù)進行聚類處理時在選取k值以及初始化聚類中心時所存在的問題,提高了聚類穩(wěn)定性,進一步提高了對文本數(shù)據(jù)進行過濾處理的精度。優(yōu)選的,所述分類檢測模塊3包括圖像數(shù)據(jù)檢測單元和文本數(shù)據(jù)檢測單元;所述圖像數(shù)據(jù)檢測單元基于語義特征對圖像數(shù)據(jù)進行檢測,具體為:采用小波變換的方法對圖像進行分割,對區(qū)域低層特征進行提取,構造特征矩陣,再應用非負矩陣分解訓練算法構造語義空間,將圖像投影到該空間以獲取圖像語義特征;所述文本數(shù)據(jù)檢測單元包括文本數(shù)據(jù)建模子單元、文本數(shù)據(jù)分類子單元、檢測子單元,具體為:(1)文本數(shù)據(jù)建模子單元,用于使用構成文檔的詞項來表達文檔的語義,其將n篇文檔t1,t2,…,tn的每篇文檔表示成m維特征向量v1,v2,…,vm,構成n×m的文檔-特征矩陣:在式中,m為構成文檔的詞項的數(shù)量;在式中,u(ti,vj)表示詞項vj在文檔ti中所占權重,f(ti,vj)表示詞項vj在文檔ti中出現(xiàn)的次數(shù),f(vj)表示詞項vj在所有文檔中出現(xiàn)的次數(shù)總和;(2)文本數(shù)據(jù)分類子單元,用于對建模后的文本文檔進行分類,具體包括:a、將文本集中的文檔隨機映射到一個二維平面網(wǎng)格空間,每個網(wǎng)格中只能投影一篇文檔,同時,在二維平面上放置一定數(shù)量的螞蟻;b、每只螞蟻隨機在二維網(wǎng)格空間移動,選擇一個文檔撿起,并攜帶它在二維網(wǎng)格空間隨機移動,每移動一次,螞蟻計算它所攜帶文檔或者所在網(wǎng)格中的文檔與周圍環(huán)境的群體相似度,決定是否撿起或者放下該文檔,將每個網(wǎng)格作為二維網(wǎng)格空間離散值,設螞蟻所在位置為p,它所在環(huán)境的群體相似度定義為:式中,ti∈p(a×a)表示文檔ti在位置p的邊長a×a的鄰域,r(ti,tj)表示兩篇文檔之間的文本距離,σ表示相似度因子,σ的取值范圍是[1,2],式中,m表示文檔中詞項數(shù)量;c、撿起和放下,如果螞蟻沒有攜帶任何文檔移動,那么它將撿起與周圍環(huán)境群體相似度較低的文檔;如果螞蟻正在攜帶一篇文檔移動,那么當螞蟻處于空網(wǎng)格,并且這篇文檔與周圍環(huán)境的群體相似度較高時,它將放下這篇文檔,撿起概率Pj(ti)和放下概率Pf(ti)定義為:式中,T1和T2為常數(shù)閾值,T1=0.14,T2=0.16;d、重復b和c,經(jīng)過一段時間,相似性高的文檔將被聚集在同一區(qū)域。本優(yōu)選實施例對數(shù)據(jù)進行分類檢測,能夠充分利用不同類型數(shù)據(jù)特點,采用對應的方法進行檢測,提高了檢測的針對性;對文檔進行建模,將非結構化的文本數(shù)據(jù)轉換成可計算的結構化數(shù)據(jù),同時便于后續(xù)對文檔進行分類;文本數(shù)據(jù)分類子單元提高了檢測效率,節(jié)約了檢測時間。本發(fā)明與傳統(tǒng)話題檢測系統(tǒng)的檢測結果如下表所示:檢測速度檢側準確率本發(fā)明0.19s94%傳統(tǒng)話題檢測裝置0.4s90%最后應當說明的是,以上實施例僅用以說明本發(fā)明的技術方案,而非對本發(fā)明保護范圍的限制,盡管參照較佳實施例對本發(fā)明作了詳細地說明,本領域的普通技術人員應當理解,可以對本發(fā)明的技術方案進行修改或者等同替換,而不脫離本發(fā)明技術方案的實質和范圍。當前第1頁1 2 3 
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1