專利名稱:數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng)及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及社交網(wǎng)絡(luò)技木,尤其涉及ー種數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng)及其方法。
背景技術(shù):
隨著Web2.0時代的到來,互聯(lián)網(wǎng)涌現(xiàn)出了大量社會化媒體應(yīng)用(人人網(wǎng),F(xiàn)acebook, twitter,微博等),因此,社會化媒體數(shù)據(jù)研究受到了越來越多研究人員的關(guān)注。出現(xiàn)了社區(qū)發(fā)現(xiàn)研究,信息傳播的研究,社會網(wǎng)絡(luò)應(yīng)用研究等。這些研究對于信息傳播,信息安全,社區(qū)挖掘,知識發(fā)現(xiàn),輿情監(jiān)瞀,專家查找,商業(yè)分析,市場拓展等方面越來越發(fā)揮重要的作用。社會化媒體應(yīng)用的特點是開放和合作。例如微博、社交性網(wǎng)站等,紛紛給出了自己的開放平臺,讓第三方應(yīng)用進入到自己的開放平臺中。同時,也誕生了一種新的數(shù)據(jù)獲取方式——通過開放平臺的API接ロ進行數(shù)據(jù)的獲取?,F(xiàn)有的微博獲取方式步驟主要包括(I)獲取權(quán)限的驗證;(2)基于API函數(shù)確定參數(shù);(3)數(shù)據(jù)的獲取并存儲;(4)數(shù)據(jù)分析。當(dāng)前,微博數(shù)據(jù)的分析主要包括話題以及突發(fā)事件的發(fā)現(xiàn)與預(yù)測,信息的傳播以及信息的查找以及語義情感傾向的研究等方面。當(dāng)前在微博數(shù)據(jù)獲取方面,還存在著一些技術(shù)上的缺點主要包括1、由于對微博數(shù)據(jù)沒有實時性的要求,因此,微博獲取的實時性比較差。2、由于微博數(shù)據(jù)在不同地區(qū)短時間內(nèi),出現(xiàn)的數(shù)據(jù)量比較巨大,因此,単一的獲取,不僅效率低下,而且還容易出現(xiàn)數(shù)據(jù)丟失的現(xiàn)象。在微博數(shù)據(jù)分析方面,也存在著一些技術(shù)上的缺點,主要體現(xiàn)在當(dāng)前對微博內(nèi)容分析的工作,其重點在于研究微博話題的發(fā)現(xiàn)、突發(fā)事件的檢測、新詞的發(fā)現(xiàn)等,因此缺少對微博不同地區(qū)的實時在線數(shù)據(jù)量的分析和預(yù)測。此外,對于微博數(shù)據(jù)量的分析和預(yù)測以及實時在線監(jiān)控,還缺少ー種自適應(yīng)性的預(yù)警機制來為不同地區(qū),不同時段的微博數(shù)據(jù)量進行監(jiān)控,從而提供更加科學(xué),更加準確的方法。
發(fā)明內(nèi)容
有鑒于此,有必要提供ー種數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng)及其方法。本發(fā)明提供的ー種數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng),包括參數(shù)設(shè)定模塊、判斷模塊、輸出模塊、學(xué)習(xí)模塊、計算模塊、啟動模塊、存儲器以及處理器。其中,參數(shù)設(shè)定模塊,用于根據(jù)數(shù)據(jù)規(guī)劃表對爬蟲的參數(shù)進行設(shè)定,其中,所述參數(shù)設(shè)定模塊還用于設(shè)定權(quán)限參數(shù),所述數(shù)據(jù)規(guī)劃表包括地區(qū)與相應(yīng)地區(qū)的任務(wù);判斷模塊,用于判斷所述爬蟲是否有權(quán)限;輸出模塊,在所述爬蟲有權(quán)限時獲取所述爬蟲輸出的數(shù)據(jù)以及狀態(tài)信息,其中,所述判斷模塊還用于判斷所述爬蟲是否運行正常;存儲器,用于在所述爬蟲運行正常時對輸出的數(shù)據(jù)進行存儲與備份;學(xué)習(xí)模塊,用于學(xué)習(xí)所獲取到的數(shù)據(jù)來建立時間序列模型;計算模塊,用于根據(jù)所述時間序列模型進行時間計算與閾值計算,其中,參數(shù)設(shè)定模塊還用于設(shè)定預(yù)警閾值空間與預(yù)警級別,且所述預(yù)警閾值空間包括地區(qū)、數(shù)量的上限以及下限,所述輸出模塊還用于獲取當(dāng)前時間段的實際數(shù)據(jù)數(shù)量,所述判斷模塊還用于判斷所述實際數(shù)據(jù)的數(shù)量是否超出所述預(yù)警閾值空間;啟動模塊,用于在所述實際數(shù)據(jù)的數(shù)量超出所述預(yù)警閾值空間時相應(yīng)的預(yù)警級別的預(yù)警;處理器,用于對數(shù)據(jù)進行追蹤與分析處理,形成預(yù)警記錄。本發(fā)明還提供數(shù)據(jù)獲取、分析以及預(yù)警的方法,包括根據(jù)數(shù)據(jù)規(guī)劃表對爬蟲的參數(shù)進行設(shè)定,其中所述數(shù)據(jù)規(guī)劃表包括地區(qū)與相應(yīng)地區(qū)的任務(wù);設(shè)定爬蟲的權(quán)限參數(shù);判斷所述爬蟲是否有權(quán)限;若所述爬蟲有權(quán)限,則獲取所述爬蟲輸出的數(shù)據(jù)以及狀態(tài)信息;根據(jù)狀態(tài)信息判斷所述爬蟲是否運行正常;若所述爬蟲運行正常,則對輸出的數(shù)據(jù)進行存儲與備份;學(xué)習(xí)所獲取到的數(shù)據(jù)來建立時間序列模型;根據(jù)所述時間序列模型進行時間計算與閾值計算;根據(jù)所述時間計算與所述閾值計算的結(jié)果設(shè)定預(yù)警閾值空間與預(yù)警級別,其中所述預(yù)警閾值空間包括地區(qū)、數(shù)量的上限以及下限;獲取實際數(shù)據(jù)的數(shù)量;判斷所述實際數(shù)據(jù)的數(shù)量是否超出所述預(yù)警閾值空間;若所述實際數(shù)據(jù)的數(shù)量超出所述預(yù)警閾值空間,則啟動相應(yīng)的預(yù)警級別的預(yù)警;對數(shù)據(jù)進行追蹤與分析處理,形成預(yù)警記錄。本發(fā)明中的數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng)及其方法實現(xiàn)了實時并行獲取不同地區(qū)的數(shù)據(jù),通過學(xué)習(xí)數(shù)據(jù)建立時間序列模型,利用時間序列模型設(shè)定預(yù)警閾值空間以及預(yù)警等級,在預(yù)警發(fā)出后,能對數(shù)據(jù)進行快速的追蹤與分析,解決了不同時段、不同地區(qū)數(shù)據(jù)監(jiān)控的問題,同時,本發(fā)明基于最新的數(shù)據(jù)預(yù)測和時間空間因素構(gòu)建自適應(yīng)性預(yù)警機制,及時更新預(yù)警閾值和預(yù)警級別,保證預(yù)警結(jié)果的準確性和可靠性。
圖1為本發(fā)明ー實施方式中數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng)的模塊圖;圖2為本發(fā)明ー實施方式中利用圖1所示的數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng)進行數(shù)據(jù)獲取、分析的方法的流程圖;圖3為本發(fā)明ー實施方式中利用圖1所示的數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng)進行預(yù)警的方法的流程圖。
具體實施例方式下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。在本發(fā)明的描述中,術(shù)語“內(nèi)”、“外”、“縱向”、“橫向”、“上”、“下”、“頂”、“底”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明而不是要求本發(fā)明必須以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。請參閱圖1,圖1所示為本發(fā)明ー實施方式中數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng)10的模塊圖。在本實施方式中數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng)10包括參數(shù)設(shè)定模塊102、判斷模塊104、輸出模塊106、提取模塊108、學(xué)習(xí)模塊110、啟動模塊112、計算模塊114、存儲器116以及處理器118,其中,參數(shù)設(shè)定模塊102、判斷模塊104、輸出模塊106、提取模塊108、學(xué)習(xí)模塊110、啟動模塊112以及計算模塊114存儲在存儲器116中,處理器118用于執(zhí)行存儲在存儲器116中的功能模塊。在本實施方式中,參數(shù)設(shè)定模塊102用于根據(jù)數(shù)據(jù)規(guī)劃表對爬蟲的參數(shù)進行設(shè)定。在本實施方式中,所述數(shù)據(jù)規(guī)劃表包括地區(qū)與相應(yīng)地區(qū)的任務(wù)。在本發(fā)明中,針對不同的地區(qū)構(gòu)建不同的爬蟲,且多個爬蟲線程運行。在本實施方式中,所述參數(shù)設(shè)定模塊102還用于設(shè)定權(quán)限參數(shù)。判斷模塊104用于判斷所述爬蟲是否有權(quán)限。輸出模塊106在所述爬蟲有權(quán)限時獲取所述爬蟲輸出的數(shù)據(jù)以及狀態(tài)信息。在本實施方式中,所述判斷模塊106還用于判斷所述爬蟲是否運行正常。存儲器116還用于在所述爬蟲運行正常時對輸出的數(shù)據(jù)進行存儲與備份。學(xué)習(xí)模塊110用于學(xué)習(xí)所獲取到的數(shù)據(jù)來建立時間序列模型。在本實施方式中,學(xué)習(xí)模塊110根據(jù)輸出模塊106所述輸出的數(shù)據(jù)進行屬性過濾與填充,其中屬性過濾是指地區(qū)篩選,填充是將空數(shù)據(jù)填充為所有數(shù)據(jù)的平均值,然后進行地區(qū)的選擇與時間區(qū)間的設(shè)定,最后通過時間序列預(yù)測程序生成時間序列模型。在本實施方式中,學(xué)習(xí)模塊110對數(shù)據(jù)的分析應(yīng)用了自動時間序列模型的匹配程序主要包括簡單季節(jié)模型、Winters加法模型和Winters乘法模型。計算模塊114用于根據(jù)所述時間序列模型進行時間計算與閾值計算。在本實施方式中,參數(shù)設(shè)定模塊102還用于設(shè)定預(yù)警閾值空間與預(yù)警級別,且所述預(yù)警閾值空間包括地區(qū)、數(shù)量的上限以及下限。在本實施方式中,所述輸出模塊106還用于獲取當(dāng)前時間段的實際數(shù)據(jù)數(shù)量,所述判斷模塊104還用于判斷所述實際數(shù)據(jù)的數(shù)量是否超出所述預(yù)警閾值空間。啟動模塊112用于在所述實際數(shù)據(jù)的數(shù)量超出所述預(yù)警閾值空間時相應(yīng)的預(yù)警級別的預(yù)警。處理器118還用于對數(shù)據(jù)進行追蹤與分析處理,形成預(yù)警記錄。在本實施方式中,所述參數(shù)設(shè)定模塊102還用于在所述爬蟲沒有權(quán)限時更換權(quán)限密鑰,井根據(jù)所述權(quán)限密鑰進行設(shè)定權(quán)限參數(shù)。在本實施方式中,提取模塊108用于提取所述數(shù)據(jù)中的時間戳。在本實施方式中,判斷模塊104還用于判斷是否需要翻頁。在本實施方式中,提取模塊108用于根據(jù)時間戳進行時間線計算,判斷模塊104根據(jù)時間線與時間戳的關(guān)系來判斷是否需要翻頁。在本實施方式中,若是時間線在時間戳之后,所述判斷模塊104判斷為需要翻頁,若是時間線在時間戳之前,所述判斷模塊104判斷為不需要翻頁。所述參數(shù)設(shè)定模塊102還用于在需要翻頁時修改時間標識,根據(jù)所述時間標識對參數(shù)進行重建,井根據(jù)所述數(shù)據(jù)規(guī)劃表以及重建的參數(shù)進行參數(shù)設(shè)定。這樣實現(xiàn)了爬蟲對數(shù)據(jù)的實時獲取,不容易出現(xiàn)數(shù)據(jù)丟失的現(xiàn)象。在本實施方式中,所述參數(shù)設(shè)定模塊102在不需要翻頁時暫停爬蟲,并將時間標識設(shè)為當(dāng)前時間,根據(jù)所述時間標識對參數(shù)進行重建,井根據(jù)所述數(shù)據(jù)規(guī)劃表以及重建的參數(shù)進行參數(shù)設(shè)定。在本實施方式中,所述參數(shù)設(shè)定模塊102對爬蟲進行休眠,待休眠結(jié)束后再對當(dāng)前數(shù)據(jù)進行抓取。在本實施方式中,所述處理器118還用于在所述爬蟲運行不正常時停止爬蟲的運行,對爬蟲進行錯誤研判,并刪除所述爬蟲。在本實施方式中,所述處理器118通過解析狀態(tài)信息對爬蟲進行錯誤研判,獲取爬蟲錯誤的原因,以便在新建爬蟲替代該被刪除的爬蟲時避免出現(xiàn)同樣的問題。在本實施方式中,所述處理器118還用于在所述實際數(shù)據(jù)的數(shù)量沒有超出所述預(yù)警閾值空間時形成數(shù)據(jù)記錄。請參閱圖2,圖2所示為本發(fā)明ー實施方式中利用圖1所示的數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng)10進行數(shù)據(jù)獲取、分析的方法的流程圖。在步驟S200,參數(shù)設(shè)定模塊102根據(jù)數(shù)據(jù)規(guī)劃表對爬蟲的參數(shù)進行設(shè)定,其中所述數(shù)據(jù)規(guī)劃表包括地區(qū)與相應(yīng)地區(qū)的任務(wù)。在本發(fā)明中,針對不同的地區(qū)構(gòu)建不同的爬蟲,且多個爬蟲線程運行。在步驟S202,參數(shù)設(shè)定模塊102設(shè)定爬蟲的權(quán)限參數(shù)。在步驟S204,判斷模塊104判斷所述爬蟲是否有權(quán)限。若所述爬蟲有權(quán)限,則在步驟S206,輸出模塊106獲取所述爬蟲輸出的數(shù)據(jù);在步驟S208,輸出模塊106輸出狀態(tài)信息。在本實施方式中,狀態(tài)信息包括爬蟲運行的狀態(tài)以及導(dǎo)致出現(xiàn)該狀態(tài)的原因。在步驟S210,根據(jù)狀態(tài)信息判斷所述爬蟲是否運行正常。若所述爬蟲運行正常,則在步驟S212,存儲器116對輸出的數(shù)據(jù)進行存儲與備份。在步驟S214,提取模塊108提取所述數(shù)據(jù)中的時間戳。在步驟S216,判斷模塊104判斷是否需要翻頁。在本實施方式中,提取模塊108用于根據(jù)時間戳進行時間線計算,判斷模塊104根據(jù)時間線與時間戳的關(guān)系來判斷是否需要翻頁。在本實施方式中,若是時間線在時間戳之后,所述判斷模塊104判斷為需要翻頁,若是時間線在時間戳之前,所述判斷模塊104判斷為不需要翻頁。若需要翻頁,則在步驟S218,參數(shù)設(shè)定模塊102修改時間標識。在步驟S220,參數(shù)設(shè)定模塊102對參數(shù)進行重建。返回步驟S200,參數(shù)設(shè)定模塊102根據(jù)所述數(shù)據(jù)規(guī)劃表以及重建的參數(shù)進行參數(shù)設(shè)定。在步驟S216判斷模塊104判斷是否需要翻頁時,則在步驟S222,參數(shù)設(shè)定模塊102,暫停爬蟲,并將時間標識設(shè)為當(dāng)前時間。在步驟S220,參數(shù)設(shè)定模塊102對參數(shù)進行重建。返回步驟S200,參數(shù)設(shè)定模塊102根據(jù)所述數(shù)據(jù)規(guī)劃表以及重建的參數(shù)進行參數(shù)設(shè)定。步驟S204判斷模塊104判斷所述爬蟲是否有權(quán)限吋,若所述爬蟲沒有權(quán)限,則在步驟S224,參數(shù)設(shè)定模塊102更換權(quán)限密鑰,并返回步驟S202,參數(shù)設(shè)定模塊102根據(jù)權(quán)限密鑰進行設(shè)定權(quán)限參數(shù)。在步驟S210根據(jù)狀態(tài)信息判斷所述爬蟲是否運行正常時,若所述爬蟲運行不正常,則在步驟S226,處理器118停止爬蟲的運行。
在步驟S228,處理器118對爬蟲進行錯誤研判。在本實施方式中,所述處理器11通過解析所述輸出模塊106輸出的狀態(tài)信息對爬蟲進行錯誤研判,獲取爬蟲錯誤的原因,以便在新建爬蟲替代該被刪除的爬蟲時避免出現(xiàn)同樣的問題。在步驟S230,處理器120刪除所述爬蟲。請參閱圖3,圖3所示為本發(fā)明ー實施方式中利用圖1所示的數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng)10進行預(yù)警的方法的流程圖。在步驟S300,學(xué)習(xí)模塊110學(xué)習(xí)所獲取到的數(shù)據(jù)來建立時間序列模型。在本實施方式中,學(xué)習(xí)模塊110根據(jù)輸出模塊106所述輸出的數(shù)據(jù)進行屬性過濾與填充,其中屬性過濾是指地區(qū)篩選,填充是將空數(shù)據(jù)填充為所有數(shù)據(jù)的平均值,然后進行地區(qū)的選擇與時間區(qū)間的設(shè)定,最后通過時間序列預(yù)測程序生成時間序列模型。在本實施方式中,學(xué)習(xí)模塊110對數(shù)據(jù)的分析應(yīng)用了自動時間序列模型的匹配程序主要包括簡單季節(jié)模型、Winters加法模型和Winters乘法模型。在步驟S302,計算模塊114根據(jù)所述時間序列模型進行時間計算與閾值計算。在步驟S304,參數(shù)設(shè)定模塊102根據(jù)所述時間計算與所述閾值計算的結(jié)果設(shè)定預(yù)警閾值空間與預(yù)警級別,其中所述預(yù)警閾值空間包括地區(qū)、數(shù)量的上限以及下限。在步驟S306,輸出模塊106獲取實際數(shù)據(jù)的數(shù)量。在步驟S308,判讀模塊104判斷所述實際數(shù)據(jù)的數(shù)量是否超出所述預(yù)警閾值空間。若所述實際數(shù)據(jù)的數(shù)量超出所述預(yù)警閾值空間,則在步驟S310,啟動模塊112啟動相應(yīng)的預(yù)警級別的預(yù)警。在步驟S312,處理器118對數(shù)據(jù)進行追蹤與分析處理,形成預(yù)警記錄。在步驟S308判讀模塊104判斷所述實際數(shù)據(jù)的數(shù)量是否超出所述預(yù)警閾值空間時,若所述實際數(shù)據(jù)的數(shù)量沒有超出所述預(yù)警閾值空間,則在步驟S314,所述處理器118形成數(shù)據(jù)記錄。本發(fā)明實施方式中的數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng)10及其方法利用爬蟲實現(xiàn)了實時并行獲取不同地區(qū)的數(shù)據(jù),通過學(xué)習(xí)模塊110學(xué)習(xí)輸出模塊106所獲取的數(shù)據(jù)建立時間序列模型,利用時間序列模型設(shè)定預(yù)警閾值空間以及預(yù)警等級,在預(yù)警發(fā)出后,能對數(shù)據(jù)進行快速的追蹤與分析,并進行異常檢測,發(fā)現(xiàn)原因,形成報告,解決了不同時段、不同地區(qū)數(shù)據(jù)監(jiān)控的問題,同時,本發(fā)明基于最新的數(shù)據(jù)預(yù)測和時間空間因素構(gòu)建自適應(yīng)性預(yù)警機制,及時更新預(yù)警閾值和預(yù)警級別,保證預(yù)警結(jié)果的準確性和可靠性。雖然本發(fā)明參照當(dāng)前的較佳實施方式進行了描述,但本領(lǐng)域的技術(shù)人員應(yīng)能理解,上述較佳實施方式僅用來說明本發(fā)明,并非用來限定本發(fā)明的保護范圍,任何在本發(fā)明的精神和原則范圍之內(nèi),所做的任何修飾、等效替換、改進等,均應(yīng)包含在本發(fā)明的權(quán)利保護范圍之內(nèi)。
權(quán)利要求
1.一種數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng),包括 參數(shù)設(shè)定模塊,用于根據(jù)數(shù)據(jù)規(guī)劃表對爬蟲的參數(shù)進行設(shè)定,其中,所述參數(shù)設(shè)定模塊還用于設(shè)定權(quán)限參數(shù),所述數(shù)據(jù)規(guī)劃表包括地區(qū)與相應(yīng)地區(qū)的任務(wù); 判斷模塊,用于判斷所述爬蟲是否有權(quán)限; 輸出模塊,在所述爬蟲有權(quán)限時獲取所述爬蟲輸出的數(shù)據(jù)以及狀態(tài)信息,其中,所述判斷模塊還用于判斷所述爬蟲是否運行正常; 存儲器,用于在所述爬蟲運行正常時對輸出的數(shù)據(jù)進行存儲與備份; 學(xué)習(xí)模塊,用于學(xué)習(xí)所獲取到的數(shù)據(jù)來建立時間序列模型; 計算模塊,用于根據(jù)所述時間序列模型進行時間計算與閾值計算,其中,參數(shù)設(shè)定模塊還用于設(shè)定預(yù)警閾值空間與預(yù)警級別,且所述預(yù)警閾值空間包括地區(qū)、數(shù)量的上限以及下限,所述輸出模塊還用于獲取當(dāng)前時間段的實際數(shù)據(jù)數(shù)量,所述判斷模塊還用于判斷所述實際數(shù)據(jù)的數(shù)量是否超出所述預(yù)警閾值空間; 啟動模塊,用于在所述實際數(shù)據(jù)的數(shù)量超出所述預(yù)警閾值空間時相應(yīng)的預(yù)警級別的預(yù)m.1=I , 處理器,用于對數(shù)據(jù)進行追蹤與分析處理,形成預(yù)警記錄。
2.如權(quán)利要求1所述的數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng),其特征在于,所述參數(shù)設(shè)定模塊還用于在所述爬蟲沒有權(quán)限時更換權(quán)限密鑰,并根據(jù)所述權(quán)限密鑰進行設(shè)定權(quán)限參數(shù)。
3.如權(quán)利要求1所述的數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng),其特征在于,還包括提取模塊,用于提取所述數(shù)據(jù)中的時間戳,其中,判斷模塊還用于判斷是否需要翻頁,所述參數(shù)設(shè)定模塊還用于在需要翻頁時修改時間標識,根據(jù)所述時間標識對參數(shù)進行重建,并根據(jù)所述數(shù)據(jù)規(guī)劃表以及重建的參數(shù)進行參數(shù)設(shè)定。
4.如權(quán)利要求3所述的數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng),其特征在于,所述參數(shù)設(shè)定模塊在不需要翻頁時暫停爬蟲,并將時間標識設(shè)為當(dāng)前時間,根據(jù)所述時間標識對參數(shù)進行重建,并根據(jù)所述數(shù)據(jù)規(guī)劃表以及重建的參數(shù)進行參數(shù)設(shè)定。
5.如權(quán)利要求1所述的數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng),其特征在于,所述處理器還用于在所述爬蟲運行不正常時停止爬蟲的運行,對爬蟲進行錯誤研判,并刪除所述爬蟲。
6.如權(quán)利要求1所述的數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng),其特征在于,所述處理器還用于在所述實際數(shù)據(jù)的數(shù)量沒有超出所述預(yù)警閾值空間時形成數(shù)據(jù)記錄。
7.一種數(shù)據(jù)獲取、分析以及預(yù)警的方法,包括 根據(jù)數(shù)據(jù)規(guī)劃表對爬蟲的參數(shù)進行設(shè)定,其中所述數(shù)據(jù)規(guī)劃表包括地區(qū)與相應(yīng)地區(qū)的任務(wù); 設(shè)定爬蟲的權(quán)限參數(shù); 判斷所述爬蟲是否有權(quán)限; 若所述爬蟲有權(quán)限,則獲取所述爬蟲輸出的數(shù)據(jù)以及狀態(tài)信息; 根據(jù)狀態(tài)信息判斷所述爬蟲是否運行正常; 若所述爬蟲運行正常,則對輸出的數(shù)據(jù)進行存儲與備份; 學(xué)習(xí)所獲取到的數(shù)據(jù)來建立時間序列模型; 根據(jù)所述時間序列模型進行時間計算與閾值計算; 根據(jù)所述時間計算與所述閾值計算的結(jié)果設(shè)定預(yù)警閾值空間與預(yù)警級別,其中所述預(yù)警閾值空間包括地區(qū)、數(shù)量的上限以及下限; 獲取實際數(shù)據(jù)的數(shù)量; 判斷所述實際數(shù)據(jù)的數(shù)量是否超出所述預(yù)警閾值空間,其中所述; 若所述實際數(shù)據(jù)的數(shù)量超出所述預(yù)警閾值空間,則啟動相應(yīng)的預(yù)警級別的預(yù)警; 對數(shù)據(jù)進行追蹤與分析處理,形成預(yù)警記錄。
8.如權(quán)利要求7所述的方法,其特征在于,所述方法還包括以下步驟 若所述爬蟲沒有權(quán)限,則更換權(quán)限密鑰; 根據(jù)權(quán)限密鑰進行設(shè)定權(quán)限參數(shù)。
9.如權(quán)利要求7所述的方法,其特征在于,所述方法還包括以下步驟 提取所述數(shù)據(jù)中的時間戳; 判斷是否需要翻頁; 若需要翻頁,則修改時間標識; 對參數(shù)進行重建; 根據(jù)所述數(shù)據(jù)規(guī)劃表以及重建的參數(shù)進行參數(shù)設(shè)定。
10.如權(quán)利要求9所述的方法,其特征在于,所述方法還包括以下步驟 若不需要翻頁,則暫停爬蟲,并將時間標識設(shè)為當(dāng)前時間; 對參數(shù)進行重建; 根據(jù)所述數(shù)據(jù)規(guī)劃表以及重建的參數(shù)進行參數(shù)設(shè)定。
11.如權(quán)利要求7所述的方法,其特征在于,所述方法還包括以下步驟 若所述爬蟲運行不正常,則停止爬蟲的運行; 對爬蟲進行錯誤研判; 刪除所述爬蟲。
12.如權(quán)利要求7所述的方法,其特征在于,所述方法還包括以下步驟 若所述實際數(shù)據(jù)的數(shù)量沒有超出所述預(yù)警閾值空間,則形成數(shù)據(jù)記錄。
全文摘要
一種數(shù)據(jù)獲取、分析以及預(yù)警系統(tǒng),通過構(gòu)建爬蟲來實時并行地獲取數(shù)據(jù),通過分析和學(xué)習(xí)所獲取到的數(shù)據(jù)來建立時間序列模型,根據(jù)所述時間序列模型進行時間計算與閾值計算,并設(shè)定預(yù)警閾值空間與預(yù)警級別,且所述預(yù)警閾值空間包括地區(qū)、數(shù)量的上限以及下限,獲取當(dāng)前時間段的實際數(shù)據(jù)數(shù)量,判斷所述實際數(shù)據(jù)的數(shù)量是否超出所述預(yù)警閾值空間,在所述實際數(shù)據(jù)的數(shù)量超出所述預(yù)警閾值空間時,進行相應(yīng)的預(yù)警級別的預(yù)警,同時對預(yù)警的數(shù)據(jù)進行追蹤與分析處理,形成預(yù)警記錄。本發(fā)明通過預(yù)警信息,快速準確的追蹤預(yù)警時段該地區(qū)的數(shù)據(jù),并進行異常檢測,發(fā)現(xiàn)原因并形成報告。
文檔編號G06F17/30GK103034725SQ20121055352
公開日2013年4月10日 申請日期2012年12月19日 優(yōu)先權(quán)日2012年12月19日
發(fā)明者趙中英, 李超, 馮圣中 申請人:中國科學(xué)院深圳先進技術(shù)研究院