專利名稱:自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的方法和裝置, 尤其一種通過對網(wǎng)站進(jìn)行全站自動(dòng)爬行掃描以及進(jìn)行可選擇方式上報(bào)的在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢査信息內(nèi)容的方法和裝置。
技術(shù)背景當(dāng)前有很多網(wǎng)絡(luò)服務(wù)都涉及各種表現(xiàn)形式的由用戶自我發(fā)起的網(wǎng)絡(luò)信息的發(fā) 布行為,我們稱作"自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)",具體是指可以由用戶自己填寫內(nèi)容并發(fā)布可以被公眾瀏覽到的網(wǎng)頁的服務(wù),如電子公告板(BBS)、博客(Blog)、評 價(jià)及評述、留言板等等服務(wù)。這類網(wǎng)站服務(wù)的經(jīng)營和管理者,為了回避用戶可能發(fā) 布有害或不恰當(dāng)信息的行為,通常采取下述方法來控制和管理用戶的信息發(fā)布行 為(1)關(guān)鍵字過濾方法;(2)通過人工檢査確認(rèn)再行發(fā)布的方法;(3)關(guān)鍵 字發(fā)現(xiàn)與人工檢查確認(rèn)相結(jié)合的方法。當(dāng)使用關(guān)鍵字過濾方法時(shí),設(shè)置關(guān)鍵字過多會對用戶的發(fā)布行為和內(nèi)容可讀 性、完整性造成影響,設(shè)置過少又達(dá)不到有效管理的目的,并且語言的多樣性也會 使這種方法限制了很多符合規(guī)定的內(nèi)容的發(fā)布,造成不必要的過多限制進(jìn)而影響了 良好的用戶體驗(yàn)。而使用人工檢查確認(rèn)的方法又需要投入大量人力來完成管理以及服務(wù)的實(shí)時(shí) 性受到影響。使用關(guān)鍵字發(fā)現(xiàn)與人工檢査確認(rèn)相結(jié)合的方法通常僅限于服務(wù)商內(nèi)部組織技 術(shù)力量和人力來完成對后臺信息數(shù)據(jù)的檢索和管理。這對于沒有足夠人力管理的中 小服務(wù)商或者作為網(wǎng)絡(luò)服務(wù)的外部監(jiān)管者,實(shí)現(xiàn)信息的24X7有效管理和關(guān)注較為 困難。發(fā)明內(nèi)容本發(fā)明的目的在于解決上述問題,提供了一種在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中 檢査信息內(nèi)容的方法,完成了對具有大量實(shí)時(shí)更新內(nèi)容的網(wǎng)站進(jìn)行準(zhǔn)實(shí)時(shí)的內(nèi)容監(jiān) 管和情況獲知的需求,解決了因人力不足造成的監(jiān)管不利問題,或者因使用強(qiáng)關(guān)鍵 字過濾造成的用戶發(fā)布信息受限過多、用戶體驗(yàn)下降的問題。本發(fā)明的另一目的在于提供了一種在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢査信息內(nèi) 容的裝置,完成了對具有大量實(shí)時(shí)更新內(nèi)容的網(wǎng)站進(jìn)行準(zhǔn)實(shí)時(shí)的內(nèi)容監(jiān)管和情況獲 知的需求,解決了因人力不足造成的監(jiān)管不利問題,或者因使用強(qiáng)關(guān)鍵字過濾造成 的用戶發(fā)布信息受限過多、用戶體驗(yàn)下降的問題。根據(jù)關(guān)注內(nèi)容的側(cè)重點(diǎn)不同,本 發(fā)明也可用于對全站內(nèi)容進(jìn)行設(shè)定檢索策略的自動(dòng)掃描來檢索和發(fā)現(xiàn)指定的關(guān)注 內(nèi)容,并上報(bào)關(guān)注人員。本發(fā)明的技術(shù)方案為本發(fā)明揭示了一種在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查 信息內(nèi)容的方法,包括(1) 對指定網(wǎng)站的所有網(wǎng)頁或新增網(wǎng)頁進(jìn)行全站范圍的自動(dòng)爬行掃描;(2) 根據(jù)設(shè)定的檢索策略檢查網(wǎng)頁內(nèi)容,獲取符合該檢索策略的設(shè)定要求的 內(nèi)容/頁面地址;(3) 將符合該檢索策略的設(shè)定要求的內(nèi)容/頁面地址以預(yù)先設(shè)定的可選擇的 方式上報(bào)。上述的在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的方法,其中,在步驟(2) 中,該檢索策略包括對基于文本網(wǎng)頁進(jìn)行關(guān)鍵字和表達(dá)式匹配的檢查、對基于特定 文件格式標(biāo)志進(jìn)行發(fā)現(xiàn)的匹配檢査、對圖像圖片文件進(jìn)行特定類型的圖像識別的檢 查、對人類語言進(jìn)行語意機(jī)器自動(dòng)識別的匹配檢査中的任意一種組合。上述的在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢査信息內(nèi)容的方法,其中,步驟(3) 中該預(yù)先設(shè)定的可選擇的方式包括Email上報(bào)、電話上報(bào)、手機(jī)上報(bào)、即時(shí)通號碼 上報(bào)。上述的在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢査信息內(nèi)容的方法,其中,步驟(1) 和(2)進(jìn)一步包括(a) 根據(jù)限定的時(shí)間特性條件判斷是否符合周期間隔或特定時(shí)間的控制條 件,如果符合條件則進(jìn)入步驟(b);(b) 動(dòng)態(tài)裝填準(zhǔn)備接受掃描的頁面URL隊(duì)列;(c) 判斷在該頁面URL隊(duì)列中是否還有可掃描的URL對象,如果有可掃描的 URL對象則提取出其中一個(gè)URL對象,否則直接轉(zhuǎn)入步驟(3);(d) 建立連接并通過頭連接判斷URL對象的頁面文件可用性的基本信息,如 果基本信息符合設(shè)定的可檢測條件則繼續(xù)下一步,否則將該URL對象標(biāo)記為錯(cuò)誤并 記入錯(cuò)誤隊(duì)列;(e) 進(jìn)行網(wǎng)頁內(nèi)容實(shí)體下載和初步狀態(tài)性檢査,如果檢査結(jié)果符合則繼續(xù)分 析網(wǎng)頁內(nèi)容,否則將該URL對象標(biāo)記為錯(cuò)誤并記入錯(cuò)誤隊(duì)列;(f) 分析網(wǎng)頁的內(nèi)容實(shí)體,進(jìn)行URL檢查分析以及根據(jù)設(shè)定的檢索策略的檢 査,其中URL檢査分析過程包括將可用的URL裝填入待分析的URL隊(duì)列,不符檢查 條件的URL做拋棄標(biāo)記并記入錯(cuò)誤隊(duì)列;(g) 在被檢查的URL頁面文件是不包含URL信息的二進(jìn)制類型文件時(shí)僅執(zhí)行 檢索策略的檢查,包括對內(nèi)容實(shí)體進(jìn)行檢索策略的匹配比對,當(dāng)發(fā)現(xiàn)觸發(fā)該檢索策 略的問題時(shí)將URL做標(biāo)記并記入待報(bào)警的URL隊(duì)歹ij,同時(shí)將當(dāng)前頁面URL做水印標(biāo) 記、檢查時(shí)間標(biāo)記和狀態(tài)標(biāo)記。本發(fā)明還揭示了一種自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的裝置,包括 全站自動(dòng)爬行掃描模塊,對指定網(wǎng)站的所有網(wǎng)頁或新增網(wǎng)頁進(jìn)行全站范圍的 自動(dòng)爬行掃描;檢索策略檢查模塊,按照設(shè)定的檢索策略檢査網(wǎng)頁內(nèi)容,獲取符合該檢索策略設(shè)定要求的內(nèi)容/頁面地址;可選擇上報(bào)模塊,將符合該檢索策略所觸發(fā)的內(nèi)容/頁面地址以預(yù)先設(shè)定的可 選擇的方式進(jìn)行上報(bào)。上述的自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的裝置,其中,該檢索策略 檢査模塊中設(shè)定的檢索策略包括對基于文本網(wǎng)頁進(jìn)行關(guān)鍵字和表達(dá)式匹配的檢査、 對基于特定文件格式標(biāo)志進(jìn)行發(fā)現(xiàn)的匹配檢査、對圖像圖片文件進(jìn)行特定類型的圖 像識別的檢查、對人類語言進(jìn)行語意機(jī)器自動(dòng)識別的匹配檢査中的任意一種組合。上述的自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的裝置,其中,該可選擇上 報(bào)模塊包括Email上報(bào)單元、電話上報(bào)單元、手機(jī)上報(bào)單元、即時(shí)通號碼上報(bào)單元。本發(fā)明對比現(xiàn)有技術(shù)有如下的有益效果本發(fā)明通過對指定網(wǎng)站的所有網(wǎng)頁 或新增網(wǎng)頁進(jìn)行全站范圍的自動(dòng)爬行掃描,根據(jù)設(shè)定的檢索策略檢查網(wǎng)頁內(nèi)容,獲取符合檢索策略設(shè)定的要求的內(nèi)容/頁面地址,并這些內(nèi)容/頁面地址以預(yù)先設(shè)定的 可選擇的方式上報(bào)。對比現(xiàn)有技術(shù),本發(fā)明解決了因人力不足造成的監(jiān)管不利問題, 或者因使用剛性強(qiáng)關(guān)鍵字過濾造成的用戶發(fā)布信息受限過多、用戶體驗(yàn)下降的問 題。
圖1是本發(fā)明的網(wǎng)站內(nèi)容報(bào)警的系統(tǒng)拓?fù)鋱D。 圖2是本發(fā)明的用戶信息和任務(wù)設(shè)置流程圖。圖3是本發(fā)明的在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的方法的較佳實(shí)施例的流程圖。圖4是圖3實(shí)施例中的子流程圖。 圖5是圖3實(shí)施例中的子流程圖。圖6是本發(fā)明的在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的裝置的較佳實(shí) 施例的框圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的描述。圖1示出了本發(fā)明的網(wǎng)站內(nèi)容檢査報(bào)警的系統(tǒng)拓?fù)浣Y(jié)構(gòu)。請參見圖1,對于網(wǎng) 站檢查報(bào)警中心10來說,存在如下的設(shè)置。首先允許用戶創(chuàng)建一系列的監(jiān)控掃描任務(wù),每個(gè)任務(wù)對應(yīng)一個(gè)網(wǎng)站或一個(gè)起始網(wǎng)頁;第二,用戶創(chuàng)建任務(wù)時(shí)設(shè)置每個(gè)任務(wù)的安全策略(例如關(guān)鍵字和表達(dá)方式、特征或特定功能性匹配檢查等);第三, 被設(shè)置需檢查的網(wǎng)站接收后臺掃描程序周期性檢查,位于系統(tǒng)的后臺調(diào)度程序啟動(dòng) 廣泛分布的節(jié)點(diǎn)掃描服務(wù)器以完成這些任務(wù),當(dāng)發(fā)現(xiàn)策略被內(nèi)容激發(fā)時(shí)啟動(dòng)相應(yīng)的 報(bào)警提醒設(shè)備,發(fā)送通知到指定的用戶設(shè)備和地址;第四,安全策略被激發(fā)時(shí)相應(yīng) 的設(shè)備類型和地址(即電話及號碼、MSN及賬戶、電子郵件及信箱地址等)將獲得 通知。圖2示出了本發(fā)明的用戶信息和任務(wù)設(shè)置的流程。請參見圖2,系統(tǒng)設(shè)計(jì)了相 應(yīng)的菜單來管理用戶信息、任務(wù)、網(wǎng)站掃描日志、圖形化統(tǒng)計(jì)等,為后臺掃描系統(tǒng) 提供掃描監(jiān)控目標(biāo)和安全策略,同時(shí)為報(bào)警提醒系統(tǒng)設(shè)置相應(yīng)的Email、手機(jī)、即時(shí)通等信息終端的相應(yīng)號碼等,當(dāng)觸發(fā)報(bào)警時(shí)這些預(yù)先設(shè)置的信息終端將收到提示 報(bào)警。圖3示出了本發(fā)明的本發(fā)明的在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的 方法的較佳實(shí)施例的流程。請參見圖3,下面是對方法中各步驟的詳細(xì)描述。步驟S30:對指定網(wǎng)站的所有網(wǎng)頁或新增網(wǎng)頁進(jìn)行全站范圍的自動(dòng)爬行掃描。對網(wǎng)站下的所有頁面或新增頁面進(jìn)行全站式的自動(dòng)掃描。被指定檢查的網(wǎng)站 中的所有網(wǎng)頁地址,由存在于每個(gè)頁面中的包含的鏈接網(wǎng)址分析累加獲得。步驟中 的自動(dòng)爬行掃描可實(shí)現(xiàn)發(fā)現(xiàn)新頁、避讓舊頁、避讓死循環(huán)、避讓短期內(nèi)重復(fù)掃描等, 由于這些步驟可通過多種算法實(shí)現(xiàn),現(xiàn)有技術(shù)在此不做贅述。步驟S32:根據(jù)設(shè)定的檢索策略檢查網(wǎng)頁內(nèi)容,獲取符合檢索策略的設(shè)定要求 的內(nèi)容/頁面地址。檢索策略意指對關(guān)注內(nèi)容進(jìn)行的指定策略的檢索和發(fā)現(xiàn),其中一種形式例如 是本實(shí)施例中所述的安全策略。檢索策略(或是安全策略)包括但不限于對基于文本網(wǎng)頁進(jìn)行關(guān)鍵字和表達(dá) 式匹配的檢查、對基于特定文件格式標(biāo)志進(jìn)行發(fā)現(xiàn)的匹配檢查、對圖像圖片文件進(jìn) 行特定類型的圖像識別的檢査、對人類語言進(jìn)行語意機(jī)器自動(dòng)識別的匹配檢查中的 任意一種組合。步驟S34:將符合檢索策略設(shè)定要求的內(nèi)容/頁面地址以預(yù)先設(shè)定的可選擇的方式上報(bào)。上報(bào)的方式預(yù)先由用戶設(shè)定,例如可以設(shè)置成Email上報(bào)、電話上報(bào)、手機(jī) 上報(bào)、即時(shí)通號碼上報(bào)等。圖4示出了步驟S30、 S32和S34的進(jìn)一步細(xì)化。請參見圖4,下面是對各步 驟的詳細(xì)描述。步驟S400:判斷時(shí)間周期性條件是否符合,如果符合則進(jìn)入步驟S401,否則流程結(jié)束。在用戶設(shè)置監(jiān)控掃描任務(wù)之后,掃描系統(tǒng)會根據(jù)限定的時(shí)間特性條件判斷是 否符合時(shí)間周期間隔或特定時(shí)間的控制條件,這包括掃描的時(shí)間間隔頻度、掃描的 范圍和掃描的方式等,避免短時(shí)間內(nèi)重復(fù)占用帶寬資源和被監(jiān)控服務(wù)器系統(tǒng)資源 等。步驟S401:動(dòng)態(tài)裝填待檢查頁面URL的隊(duì)列。動(dòng)態(tài)裝填準(zhǔn)備接受掃描的頁面URL隊(duì)列,隨著每個(gè)頁面的下載和分析,不斷 增加待掃描URL的對象數(shù)量。步驟S402:判斷掃描隊(duì)列中是否還有可掃描的URL對象,如果有則進(jìn)入步驟 S403,否則轉(zhuǎn)入步驟S417。步驟S403:從可掃描的URL對象中提取其中的一個(gè)URL對象以開始進(jìn)入之后 的下載掃描后續(xù)步驟。步驟S404:建立連接并通過頭連接(HEADER)判斷URL頁面文件可用性等基 本信息(包括成功或錯(cuò)誤的代碼、實(shí)體信息可能的內(nèi)容等)。如果符合檢測提交則 進(jìn)入步驟S405,否則轉(zhuǎn)入步驟S409和返回步驟S402。步驟S405:進(jìn)行網(wǎng)頁內(nèi)容實(shí)體下載。步驟S406:進(jìn)行初步狀態(tài)性檢查,如果符合頁面實(shí)體待分析狀態(tài)則進(jìn)入步驟 S407和S410以繼續(xù)分析網(wǎng)頁內(nèi)容,否則轉(zhuǎn)入步驟S409和返回步驟S402。 步驟S407:進(jìn)行頁內(nèi)包含網(wǎng)址分析。步驟S408:對頁內(nèi)的所有URL逐條進(jìn)行檢査以判斷是否符合進(jìn)入待掃描隊(duì)列 的條件(其中待掃描隊(duì)列中可用的URL包括未分析過的URL、新增加的URL和符合 待分析類型的URL等),并將URL逐條根據(jù)檢查結(jié)果做拋棄或裝填。如果符合進(jìn)入 待掃描隊(duì)列的條件則進(jìn)入步驟S413,否則轉(zhuǎn)入步驟S412。步驟S409:做拋棄標(biāo)記,該數(shù)據(jù)可以被步驟S412來引用,在其后的步驟S407 循環(huán)檢查中來避讓無效頁。當(dāng)被檢查的頁面文件為不包含URL信息的二進(jìn)制類型文件例如圖像、圖片、 音頻文件等時(shí),跳過步驟S407 409。步驟S410:頁內(nèi)內(nèi)容分析。步驟S411:根據(jù)設(shè)定的安全策略判斷是否發(fā)現(xiàn)報(bào)警、提醒關(guān)鍵字。如果是則 進(jìn)入步驟S414,否則轉(zhuǎn)入步驟S415。包括進(jìn)行內(nèi)容關(guān)鍵字、表達(dá)式檢查,或由其它功能函數(shù)、模塊進(jìn)行實(shí)質(zhì)性內(nèi) 容檢查(如特定圖形圖像識別、語言智能機(jī)器識別等)。步驟S412:數(shù)據(jù)引用,然后轉(zhuǎn)入步驟S407。步驟S413:裝填為待掃描數(shù)組,然后進(jìn)入步驟S401。步驟S414:裝填報(bào)警數(shù)組并做相應(yīng)標(biāo)記,然后進(jìn)入步驟S415和S416。 步驟S415: URL做水印和時(shí)序記錄,然后轉(zhuǎn)入步驟S412。 步驟S416:數(shù)據(jù)引用,然后轉(zhuǎn)入步驟S417。 步驟S417:驅(qū)動(dòng)報(bào)警模塊以完成報(bào)警,流程結(jié)束。整個(gè)程序的啟動(dòng)和工作是由建立在這個(gè)程序之外的時(shí)序調(diào)度程序來完成基于 對時(shí)間、任務(wù)、目標(biāo)控制等進(jìn)行調(diào)度性管理和相應(yīng)任務(wù)啟動(dòng)。圖5示出了圖3實(shí)施例中步驟S34的進(jìn)一步細(xì)化,下面是各步驟的詳細(xì)描述。 步驟S500:引用待報(bào)警數(shù)據(jù)和報(bào)警對象數(shù)據(jù)。步驟S501:判斷是否與電話語言報(bào)警相匹配,如果匹配則進(jìn)入步驟S502。 步驟S502:驅(qū)動(dòng)設(shè)備發(fā)送報(bào)警,然后進(jìn)入步驟S503。 步驟S503:檢測成功狀態(tài),如果成功則流程結(jié)束,否則返回步驟S502。 步驟S504:判斷是否與短信報(bào)警相匹配,如果匹配則進(jìn)入步驟S505。 步驟S505:驅(qū)動(dòng)短信平臺發(fā)送報(bào)警。步驟S506:檢測成功狀態(tài),如果成功則流程結(jié)束,否則返回步驟S505。 步驟S507:判斷是否與電子郵件報(bào)警相匹配,如果匹配則進(jìn)入步驟S508。 步驟S508:郵件服務(wù)器發(fā)送報(bào)警。步驟S509:檢測成功狀態(tài),如果成功則流程結(jié)束,否則返回步驟S508。 步驟S510:判斷是否與即時(shí)通報(bào)警相匹配,如果匹配則進(jìn)入步驟S511。 步驟S511:即時(shí)通平臺發(fā)送警報(bào)。步驟S512:檢測成功狀態(tài),如果成功則流程結(jié)束,否則返回步驟S511。 圖6示出了本發(fā)明的在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的裝置。請 參見6,裝置包括全站自動(dòng)爬行掃描模塊60、檢索策略檢査模塊62以及可選擇上 報(bào)模塊64。整個(gè)裝置是由不同功能的服務(wù)器和網(wǎng)關(guān)設(shè)備構(gòu)成,軟件設(shè)計(jì)采用多線 程、模塊化、分布式構(gòu)架編程,集成了數(shù)據(jù)庫技術(shù)、語音合成技術(shù)、遠(yuǎn)程通訊技術(shù) 和負(fù)載均衡技術(shù)等。全站自動(dòng)爬行掃描模塊60對指定網(wǎng)站的所有網(wǎng)頁或新增網(wǎng)頁進(jìn)行全站范圍的 自動(dòng)爬行掃描。檢索策略檢査模塊62按照設(shè)定的檢索策略對網(wǎng)頁內(nèi)容進(jìn)行自動(dòng)化 檢査,獲取符合該檢索策略要求的內(nèi)容/頁面地址。檢索策略檢査模塊62中設(shè)定的 檢索策略包括對基于文本網(wǎng)頁進(jìn)行關(guān)鍵字和表達(dá)式匹配的檢查、對基于特定文件格式標(biāo)志進(jìn)行發(fā)現(xiàn)的匹配檢查、對圖像圖片文件進(jìn)行特定類型的圖像識別的檢查、對 人類語音進(jìn)行語意機(jī)器自動(dòng)識別的匹配檢查中的任意一種組合??蛇x擇上報(bào)模塊 64將檢索策略所觸發(fā)的這些內(nèi)容/頁面地址以預(yù)先設(shè)定的可選擇的方式進(jìn)行上報(bào)??蛇x擇上報(bào)模塊64可以包括Email上報(bào)單元、電話上報(bào)單元、手機(jī)上報(bào)單元以及 即時(shí)通號碼上報(bào)單元。上述實(shí)施例是提供給本領(lǐng)域普通技術(shù)人員來實(shí)現(xiàn)或使用本發(fā)明的,本領(lǐng)域普 通技術(shù)人員可在不脫離本發(fā)明的發(fā)明思想的情況下,對上述實(shí)施例做出種種修改或 變化,因而本發(fā)明的保護(hù)范圍并不被上述實(shí)施例所限,而應(yīng)該是符合權(quán)利要求書提 到的創(chuàng)新性特征的最大范圍。
權(quán)利要求
1. 一種在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的方法,包括(1)對指定網(wǎng)站的所有網(wǎng)頁或新增網(wǎng)頁進(jìn)行全站范圍的自動(dòng)爬行掃描;(2)根據(jù)設(shè)定的檢索策略檢查網(wǎng)頁內(nèi)容,獲取符合該檢索策略的設(shè)定要求的內(nèi)容/頁面地址;(3)將符合該檢索策略的設(shè)定要求的內(nèi)容/頁面地址以預(yù)先設(shè)定的可選擇的方式上報(bào)。
2、 根據(jù)權(quán)利要求1所述的在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的方 法,其特征在于,在步驟(2)中,該檢索策略包括對基于文本網(wǎng)頁進(jìn)行關(guān)鍵字和 表達(dá)式匹配的檢査、對基于特定文件格式標(biāo)志進(jìn)行發(fā)現(xiàn)的匹配檢査、對圖像圖片文 件進(jìn)行特定類型的圖像識別的檢査、對人類語言進(jìn)行語意機(jī)器自動(dòng)識別的匹配檢査 中的任意一種組合。
3、 根據(jù)權(quán)利要求1所述的在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的方 法,其特征在于,步驟(3)中該預(yù)先設(shè)定的可選擇的方式包括Eraail上報(bào)、電話 上報(bào)、手機(jī)上報(bào)、即時(shí)通號碼上報(bào)。
4、 根據(jù)權(quán)利要求1所述的在自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢査信息內(nèi)容的方 法,其特征在于,步驟(1)和(2)進(jìn)一步包括(a) 根據(jù)限定的時(shí)間特性條件判斷是否符合周期間隔或特定時(shí)間的控制條 件,如果符合條件則進(jìn)入步驟(b);(b) 動(dòng)態(tài)裝填準(zhǔn)備接受掃描的頁面URL隊(duì)列;(c) 判斷在該頁面URL隊(duì)列中是否還有可掃描的URL對象,如果有可掃描的 URL對象則提取出其中一個(gè)URL對象,否則直接轉(zhuǎn)入步驟(3);(d) 建立連接并通過頭連接判斷URL對象的頁面文件可用性的基本信息,如 果基本信息符合設(shè)定的可檢測條件則繼續(xù)下一步,否則將該URL對象標(biāo)記為錯(cuò)誤并 記入錯(cuò)誤隊(duì)列;(e) 進(jìn)行網(wǎng)頁內(nèi)容實(shí)體下載和初步狀態(tài)性檢査,如果檢査結(jié)果符合則繼續(xù)分 析網(wǎng)頁內(nèi)容,否則將該URL對象標(biāo)記為錯(cuò)誤并記入錯(cuò)誤隊(duì)列;(f) 分析網(wǎng)頁的內(nèi)容實(shí)體,進(jìn)行URL檢査分析以及根據(jù)設(shè)定的檢索策略的檢 査,其中URL檢查分析過程包括將可用的URL裝填入待分析的URL隊(duì)列,不符檢査 條件的URL做拋棄標(biāo)記并記入錯(cuò)誤隊(duì)列;(g) 在被檢查的URL頁面文件是不包含URL信息的二進(jìn)制類型文件時(shí)僅執(zhí)行 檢索策略的檢査,包括對內(nèi)容實(shí)體進(jìn)行檢索策略的匹配比對,當(dāng)發(fā)現(xiàn)觸發(fā)該檢索策 略的問題時(shí)將URL做標(biāo)記并記入待報(bào)警的URL隊(duì)列,同時(shí)將當(dāng)前頁面URL做水印標(biāo) 記、檢査時(shí)間標(biāo)記和狀態(tài)標(biāo)記。
5、 一種自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢査信息內(nèi)容的裝置,包括全站自動(dòng)爬行掃描模塊,對指定網(wǎng)站的所有網(wǎng)頁或新增網(wǎng)頁進(jìn)行全站范圍的自動(dòng)爬行掃描;檢索策略檢查模塊,按照設(shè)定的檢索策略檢査網(wǎng)頁內(nèi)容,獲取符合該檢索策 略設(shè)定要求的內(nèi)容/頁面地址;可選擇上報(bào)模塊,將符合該檢索策略所觸發(fā)的內(nèi)容/頁面地址以預(yù)先設(shè)定的可 選擇的方式進(jìn)行上報(bào)。
6、根據(jù)權(quán)利要求5所述的自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢査信息內(nèi)容的裝置, 其特征在于,該檢索策略檢查模塊中設(shè)定的檢索策略包括對基于文本網(wǎng)頁進(jìn)行關(guān)鍵 字和表達(dá)式匹配的檢査、對基于特定文件格式標(biāo)志進(jìn)行發(fā)現(xiàn)的匹配檢查、對圖像圖 片文件進(jìn)行特定類型的圖像識別的檢査、對人類語言進(jìn)行語意機(jī)器自動(dòng)識別的匹配 檢查中的任意一種組合。
7、根據(jù)權(quán)利要求5所述的自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的裝置, 其特征在于,該可選擇上報(bào)模塊包括Email上報(bào)單元、電話上報(bào)單元、手機(jī)上報(bào)單 元、即時(shí)通號碼上報(bào)單元。
全文摘要
本發(fā)明公開了自主發(fā)布信息的網(wǎng)絡(luò)服務(wù)中檢查信息內(nèi)容的方法和裝置,完成了對具有大量實(shí)時(shí)更新內(nèi)容的網(wǎng)站進(jìn)行準(zhǔn)實(shí)時(shí)的內(nèi)容監(jiān)管和情況獲知的需求,解決了因人力不足造成的監(jiān)管不利問題,或者因使用強(qiáng)關(guān)鍵字過濾造成的用戶發(fā)布信息受限過多、用戶體驗(yàn)下降的問題。其技術(shù)方案為方法包括對指定網(wǎng)站的所有網(wǎng)頁或新增網(wǎng)頁進(jìn)行全站范圍的自動(dòng)爬行掃描;根據(jù)設(shè)定的檢索策略檢查網(wǎng)頁內(nèi)容,獲取符合該檢索策略的設(shè)定要求的內(nèi)容/頁面地址;將符合該檢索策略的設(shè)定要求的內(nèi)容/頁面地址以預(yù)先設(shè)定的可選擇的方式上報(bào)。本發(fā)明應(yīng)用于網(wǎng)絡(luò)領(lǐng)域。
文檔編號G06F17/30GK101261630SQ20081003642
公開日2008年9月10日 申請日期2008年4月22日 優(yōu)先權(quán)日2008年4月22日
發(fā)明者諾 郭 申請人:諾 郭