本發(fā)明涉及網(wǎng)絡監(jiān)管技術(shù)領域,尤其涉及一種屬地網(wǎng)站監(jiān)管系統(tǒng)。
背景技術(shù):
伴隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)站數(shù)量急劇增多,截止2015年12月,中國網(wǎng)站總數(shù)為423萬個,如此多的網(wǎng)站數(shù)量,導致網(wǎng)站信息安全管理面臨著不容樂觀的局面。各類非法信息(淫穢色情、迷信反動、賭博等)以網(wǎng)站為載體傳播,監(jiān)管難度大,傳播速度快,危害嚴重。
目前網(wǎng)站(web網(wǎng)站和wap網(wǎng)站)存在域名采集不全、備案管理不足、不良信息泛濫、安全漏洞普遍存在的現(xiàn)狀,導致了網(wǎng)站監(jiān)管難度較大。結(jié)合工信部與公安部在公共信息網(wǎng)絡與互聯(lián)網(wǎng)的安全保護和安全管理打擊公共信息網(wǎng)絡違法犯罪的監(jiān)管需求,需要有一種網(wǎng)站監(jiān)管方法,來實現(xiàn)網(wǎng)站信息采集及違法違規(guī)網(wǎng)站識別處理的目的。而現(xiàn)有技術(shù)中,存在以下缺陷:
1.各個網(wǎng)站安全監(jiān)管手段功能相對單一,無法實現(xiàn)網(wǎng)站信息采集、備案查詢、違法違規(guī)網(wǎng)站識別及處理多功能網(wǎng)站監(jiān)管的目的;
2.由于現(xiàn)有網(wǎng)站數(shù)量較多,數(shù)據(jù)較大,導致網(wǎng)站信息采集速度較慢,采集到的數(shù)據(jù)分布散亂,無法進行歸類存儲;
3.網(wǎng)站識別技術(shù)效率不高,不能準確快速地識別是否為違法違規(guī)網(wǎng)站。
以上可以看出,現(xiàn)有技術(shù)已無法滿足網(wǎng)站安全業(yè)務需要。針對現(xiàn)有技術(shù)的上述缺陷,本發(fā)明提出一個集網(wǎng)站域名自動采集、網(wǎng)站自動備案驗證、網(wǎng)站不良信息自動監(jiān)測三大功能于一體的屬地網(wǎng)站監(jiān)管方法,通過建立監(jiān)管網(wǎng)站庫,經(jīng)過信息采集,針對不同行業(yè)領域建立敏感信息規(guī)則庫進行監(jiān)管識別,對識別出的違規(guī)網(wǎng)站進行電子取證及預警通告,而后進行人工處理,從而實現(xiàn)網(wǎng)站監(jiān)管的目的。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于,針對上述現(xiàn)有技術(shù)存在的缺陷,提供一種屬地網(wǎng)站監(jiān)管方法,以解決上述問題。
為了實現(xiàn)上述目的,本發(fā)明給出以下技術(shù)方案:
一種屬地網(wǎng)站監(jiān)管方法,包括建立監(jiān)管網(wǎng)站庫、網(wǎng)站信息采集處理、網(wǎng)站監(jiān)管識別、違法違規(guī)內(nèi)容預警及處理四個步驟;其中:
(1)建立監(jiān)管網(wǎng)站庫:通過ip段域名反查的形式獲得,同時通過工信部網(wǎng)站備案庫獲取需要監(jiān)管的備案網(wǎng)站;
(2)網(wǎng)站信息采集處理:監(jiān)管網(wǎng)站確定后,就要對網(wǎng)站內(nèi)容進行采集,通過網(wǎng)絡爬蟲技術(shù)采集監(jiān)管網(wǎng)站的信息,將采集到的信息進行索引存儲,為后續(xù)的網(wǎng)站監(jiān)管識別做準備;
(3)網(wǎng)站監(jiān)管識別:對采集到的網(wǎng)站信息進行網(wǎng)站備案地信息驗證,查詢是否超出了備案經(jīng)營范圍,以及識別是否有違法違規(guī)內(nèi)容;
(4)違法違規(guī)內(nèi)容預警及處理:對識別出的違法違規(guī)網(wǎng)站,進行預警通知和人工處理,同時對工作人員處理的違法違規(guī)網(wǎng)站進行處罰記錄,形成處罰記錄表,便于后期跟進。
作為優(yōu)選,在上述方法中的步驟(3)中,網(wǎng)站監(jiān)管識別的具體識別步驟如下:
(5)網(wǎng)站備案數(shù)據(jù)查詢,對采集到的網(wǎng)站信息進行網(wǎng)站自動備案驗證,識別所查詢的網(wǎng)站是否在工信部備案,對未備案網(wǎng)站進行記錄和告警;已備案的網(wǎng)站,則可以對網(wǎng)站備案信息進行查詢;
(6)網(wǎng)站違規(guī)內(nèi)容查處,對已備案的網(wǎng)站內(nèi)容先建立敏感信息規(guī)則庫進行敏感信息檢測,然后進行網(wǎng)站違規(guī)內(nèi)容識別,最后對識別出的的政治類有害信息、淫穢色情信息、低俗信息等違法和不良信息以及有害用戶賬戶注冊信息進行人工初篩和電子取證,固化相關(guān)證據(jù),防止相關(guān)網(wǎng)站和用戶自行刪除逃避追責。
作為進一步的優(yōu)選,在上述方法中的步驟(6)中,網(wǎng)站違規(guī)內(nèi)容識別包括規(guī)則匹配與機器學習兩種識別方式;
規(guī)則匹配的識別方式是利用構(gòu)建的敏感信息規(guī)則庫對監(jiān)管網(wǎng)站的內(nèi)容進行匹配,對于識別出的信息根據(jù)敏感信息規(guī)則庫的領域規(guī)則進行分類存放和呈現(xiàn);
機器學習的識別方式則是通過對規(guī)則匹配的識別結(jié)果進行有監(jiān)督的學習來建立相關(guān)的識別分類器。
本發(fā)明的有益效果是:
通過本發(fā)明屬地網(wǎng)站監(jiān)管方法,彌補了現(xiàn)有技術(shù)的不足,能夠?qū)俚鼐W(wǎng)站信息進行有效快速地采集和違法違規(guī)網(wǎng)站的監(jiān)管識別,解決了網(wǎng)站監(jiān)管難的問題,提升了信息安全管理水平,大大降低了網(wǎng)站執(zhí)法人員的工作難度,促進了互聯(lián)網(wǎng)健康平穩(wěn)發(fā)展。
附圖說明
下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。
圖1是本發(fā)明屬地網(wǎng)站監(jiān)管方法實施例的流程圖。
圖2是本發(fā)明屬地網(wǎng)站監(jiān)管方法實施例的監(jiān)管網(wǎng)站庫建立流程圖。
圖3是本發(fā)明屬地網(wǎng)站監(jiān)管方法實施例的網(wǎng)站信息采集處理流程圖。
圖4是本發(fā)明屬地網(wǎng)站監(jiān)管方法實施例的網(wǎng)站違規(guī)內(nèi)容查處流程圖。
圖5是本發(fā)明屬地網(wǎng)站監(jiān)管方法實施例的違法違規(guī)內(nèi)容預警及處理流程圖。
具體實施方式
圖1所示,一種屬地網(wǎng)站監(jiān)管方法,主要包括網(wǎng)建立監(jiān)管網(wǎng)站庫、網(wǎng)站信息采集處理、網(wǎng)站監(jiān)管識別、違法違規(guī)內(nèi)容預警及處理四個步驟:
一、建立監(jiān)管網(wǎng)站庫,主要是通過ip段域名反查的形式獲取,同時通過工信部網(wǎng)站備案庫獲取需要監(jiān)管的備案網(wǎng)站。具體獲取過程是如下幾個步驟,如圖2所示:
1.從待監(jiān)管網(wǎng)站ip地址池查看是否識別出網(wǎng)站名,對識別出網(wǎng)站名的網(wǎng)站加入到監(jiān)管庫中,對未識別出網(wǎng)站名的網(wǎng)站對其ip地址標記后丟棄。
2.從工信部網(wǎng)站備案庫中采集獲取需要監(jiān)管的備案網(wǎng)站,經(jīng)數(shù)據(jù)處理后加入到監(jiān)管庫里。
二、網(wǎng)站信息采集處理,監(jiān)管網(wǎng)站庫建立后,就要對網(wǎng)站內(nèi)容進行采集處理,整個采集處理過程具體是如下幾個步驟,如圖3所示:
3.首先通過網(wǎng)絡爬蟲技術(shù)24小時不間斷自動、定時地將監(jiān)管網(wǎng)站庫中網(wǎng)站內(nèi)容進行下載,采用分布式文件系統(tǒng)存儲下載的源碼信息,為后續(xù)的電子取證提供網(wǎng)頁源碼取證。
4.然后利用數(shù)據(jù)清洗技術(shù)對采集的網(wǎng)站信息進行清洗,獲取結(jié)構(gòu)化的文本信息進行收集、整理、歸類、保存到數(shù)據(jù)庫中統(tǒng)一管理并進行索引云存儲,為后續(xù)的網(wǎng)站監(jiān)管識別做準備。
三、網(wǎng)站監(jiān)管識別,對采集到的網(wǎng)站信息進行網(wǎng)站自動備案驗證,查詢是否超出了備案經(jīng)營范圍,以及識別是否有違法違規(guī)內(nèi)容。具體識別過程如下幾個步驟:
5.網(wǎng)站備案數(shù)據(jù)查詢,對采集到的網(wǎng)站信息進行網(wǎng)站自動備案驗證,識別所查詢的網(wǎng)站是否在工信部進行備案,對未備案網(wǎng)站進行記錄和告警;已備案的網(wǎng)站,則可以對網(wǎng)站備案信息進行查詢,包括網(wǎng)站備案/許可證號、網(wǎng)站名稱、網(wǎng)站首頁網(wǎng)址、網(wǎng)站域名、網(wǎng)站服務內(nèi)容、網(wǎng)站負責人姓名、證件號碼等。
6.網(wǎng)站違規(guī)內(nèi)容查處,對已備案的網(wǎng)站信息內(nèi)容進行敏感信息檢測、識別是否有違法違規(guī)內(nèi)容,具體過程是如下幾個步驟,如圖4所示:
(1)建立敏感信息規(guī)則庫,對索引云存儲的文本信息進行違規(guī)信息匹配,構(gòu)建敏感信息規(guī)則庫,存放有人工處理的分行業(yè)領域的相關(guān)敏感信息檢測規(guī)則。
(2)網(wǎng)站違規(guī)內(nèi)容識別,識別方式先是用基于規(guī)則匹配的方式進行初步的敏感信息篩選,后續(xù)通過機器學習的方式持續(xù)動態(tài)的對敏感信息庫進行調(diào)整,同時引入人工定期審核的機制進行修正。
初期通過敏感信息規(guī)則庫將匹配的信息呈現(xiàn)在用戶面前,用戶對敏感規(guī)則匹配的信息進行篩選分類標記,識別引擎對分類標記的信息進行學習識別后建立相關(guān)的違規(guī)分類器,形成語料集,中期通過識別引擎學習建立的語料集對新匹配的信息進行違規(guī)分類,而后又人工對分類的信息進行二次校對,檢驗信息的違規(guī)分類準確性。對錯誤的分類進行標注,而后又用識別引擎進行重復學習來修正建立的違規(guī)分類器。經(jīng)過初期、中期的反復學習,進入后期階段后,就可以完全交由機器進行違規(guī)內(nèi)容的識別,進而輸出識別結(jié)果。
(3)人工初篩,電子取證,對于識別出的結(jié)果在預警前要與本地網(wǎng)站備案數(shù)據(jù)庫信息進行二次比對,比對后要有工作人員對識別結(jié)果進行人工初篩,對于不存在違規(guī)內(nèi)容的網(wǎng)站進行標記庫識別引擎二次識別;對于存在違法和有害內(nèi)容的網(wǎng)站,提供網(wǎng)頁源碼和網(wǎng)頁截圖兩種方式電子取證,固化相關(guān)證據(jù)。
四、違法違規(guī)內(nèi)容預警及處理,主要是對篩選出的違法違規(guī)網(wǎng)站進行預警通知和人工處理。具體處理過程如下幾個步驟,如圖5所示。
7.預警通知,對篩選出的違規(guī)網(wǎng)站要及時預警提醒工作人員,采用的預警方式包括網(wǎng)頁彈窗、客戶端提醒、郵件等。
8.人工處理,對于存在部分違法和有害內(nèi)容的網(wǎng)站,將網(wǎng)站標記為灰名單,加入黑白名單庫,而后下達整改、處置意見,要求網(wǎng)站進行及時整改,同時程序?qū)擞浀木W(wǎng)站進行實時跟蹤反饋,監(jiān)測網(wǎng)站管理人員對違法有害內(nèi)容的整改情況,直到網(wǎng)站整改結(jié)束。對于傳播違法和有害內(nèi)容的網(wǎng)站,將網(wǎng)站標記為黑名單,加入黑白名單庫,轉(zhuǎn)交相關(guān)管理執(zhí)法部門進行相關(guān)處置,同時程序?qū)擞浀木W(wǎng)站進行實時跟蹤反饋,監(jiān)測網(wǎng)站的處理情況,直到網(wǎng)站處理結(jié)束。
9.最后系統(tǒng)對工作人員處理的違規(guī)違法網(wǎng)站進行處罰記錄,形成處罰記錄表,便于后期跟進。
本實施例提供了一個集網(wǎng)站域名自動采集、網(wǎng)站自動備案驗證、網(wǎng)站不良信息自動監(jiān)測三大功能于一體的屬地網(wǎng)站監(jiān)管方法。該方法通過建立監(jiān)管網(wǎng)站庫,經(jīng)過信息采集,針對不同行業(yè)領域建立敏感信息規(guī)則庫進行監(jiān)管識別,對識別出的違規(guī)網(wǎng)站進行電子取證及預警通告,而后進行人工處理,從而實現(xiàn)網(wǎng)站監(jiān)管的目的。
以上所述的本發(fā)明實施方式,并不構(gòu)成對本發(fā)明保護范圍的限定。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進等,均應包含在本發(fā)明的權(quán)利要求保護范圍之內(nèi)。