一個網(wǎng)絡(luò)封包數(shù)據(jù)的提取流程,若是,則接著對會話數(shù)據(jù)進(jìn)行多模匹配,并返回特征串的位置,根據(jù)特征串的位置,會話數(shù)據(jù)的格式,調(diào)用相應(yīng)提取函數(shù),逐一將數(shù)據(jù)提取出來,通過多模匹配減少了數(shù)據(jù)提取過程中查找匹配時間,通過預(yù)設(shè)數(shù)據(jù)格式的判斷,避免了對無效數(shù)據(jù)的提取,因此可適用于海量數(shù)據(jù)的提取,并且數(shù)據(jù)提取效率高。
[0054]在上述實施例的基礎(chǔ)上,可選的,所述預(yù)設(shè)格式包括:Key_Value式、Mutipart格式、json格式和xml格式中的至少一種。
[0055]其中,Key-Value式、Mutipart格式、json格式和xml格式的樣例如下:
[0056]Key-Value 式:name = testl&password = test2&mac = aa-bb-cc-dd-ee-ff
[0057]Mutipart 格式:
[0058]------------7dcl20151b0954
[0059]Content-Disposit1n:form-data ;name = 〃mac〃
[0060]aa-bb-cc-dd-ee-ff
[0061]Json 格式:
[0062]{"name":"test1","passwcT:"test〗","mac":"aaibb:cc:dd:ee:ff"}
[0063]Xml 格式:〈? xml vers1n = 〃1.0"encoding = "UTF_8〃 ? ><root>
[0064]<name>testl</name><mac>aa-bb-cc-dd-ee-ff</mac></root>
[0065]實施例三
[0066]圖3為本發(fā)明實施例三提供的一種全文數(shù)據(jù)的提取裝置,如圖3所示,所述裝置包括:
[0067]解析模塊31,用于將網(wǎng)絡(luò)封包數(shù)據(jù)解析為會話數(shù)據(jù);
[0068]標(biāo)注模塊32,用于判斷所述會話數(shù)據(jù)的實體部分是否符合預(yù)設(shè)數(shù)據(jù)格式,若是則對所述會話數(shù)據(jù)進(jìn)行數(shù)據(jù)格式標(biāo)注;
[0069]多模匹配模塊33,用于對符合預(yù)設(shè)數(shù)據(jù)格式的會話數(shù)據(jù)進(jìn)行多模匹配,判斷是否命中預(yù)設(shè)特征串,并在命中預(yù)設(shè)特征串時獲得預(yù)設(shè)特征串的命中位置;
[0070]數(shù)據(jù)提取模塊34,用于根據(jù)所述會話數(shù)據(jù)的數(shù)據(jù)格式標(biāo)注以及所述預(yù)設(shè)特征串的命中位置,確定所述會話數(shù)據(jù)的對應(yīng)的提取函數(shù),并根據(jù)所述提取函數(shù)對所述會話數(shù)據(jù)進(jìn)行數(shù)據(jù)提取。
[0071]本發(fā)明實施例通過對解析后的會話數(shù)據(jù)進(jìn)行預(yù)設(shè)數(shù)據(jù)格式的判斷,可以將不符合預(yù)設(shè)數(shù)據(jù)格式的無效數(shù)據(jù)濾除,因此縮短了數(shù)據(jù)提取時間,此外,通過對符合預(yù)設(shè)數(shù)據(jù)格式的會話數(shù)據(jù)進(jìn)行多模匹配,進(jìn)一步減少了提取數(shù)據(jù)過程中的查找匹配時間,提高了海量數(shù)據(jù)的全文數(shù)據(jù)提取效率。本發(fā)明實施例提供的數(shù)據(jù)提取方法不但適用于特定網(wǎng)站、離線的數(shù)據(jù)提取,更適用于不指定網(wǎng)站、大流量的數(shù)據(jù)提取,達(dá)到了海量提取全文數(shù)據(jù)的目的。
[0072]在上述實施例的基礎(chǔ)上,可選的,所述多模匹配模塊,還用于在命中預(yù)設(shè)特征串時獲得命中預(yù)設(shè)特征串對應(yīng)的字段標(biāo)簽。
[0073]所述裝置還包括:歸一化處理模塊,用于根據(jù)命中預(yù)設(shè)特征串對應(yīng)的字段標(biāo)簽,對提取后的數(shù)據(jù)進(jìn)行歸一化處理。
[0074]在上述實施例的基礎(chǔ)上,可選的,所述裝置還包括:結(jié)構(gòu)化處理模塊,用于將提取數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理并輸出。
[0075]在上述實施例的基礎(chǔ)上,可選的,所述預(yù)設(shè)格式包括:Key_Value式、Mutipart格式、json格式和xml格式中的至少一種。
[0076]在上述實施例的基礎(chǔ)上,可選的,所述裝置還包括:預(yù)設(shè)特征串管理模塊,用于通過配置文件管理所述預(yù)設(shè)特征串。
[0077]上述產(chǎn)品可執(zhí)行本發(fā)明任意實施例所提供的方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。
[0078]圖4為本發(fā)明實施例提供的全文數(shù)據(jù)提取的拓?fù)浣Y(jié)構(gòu)示意圖。如圖4所示,整個系統(tǒng)需要用于全文提取服務(wù)器、匯聚分流設(shè)備、至少一臺數(shù)據(jù)庫服務(wù)器、骨干網(wǎng)絡(luò)中的多個交互的路由設(shè)備。其中骨干網(wǎng)絡(luò)中的多個交互的路由設(shè)備為數(shù)據(jù)源,提供原始數(shù)據(jù)。數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)通過匯聚分流設(shè)備鏡像,然后匯聚分流設(shè)備將鏡像數(shù)據(jù)輸出給全文提取服務(wù)器。全文提取服務(wù)器包括上述實施例所述的全文數(shù)據(jù)的提取裝置,并通過上述各實施例所述的全文數(shù)據(jù)的提取方法進(jìn)行數(shù)據(jù)提取。
[0079]實施過程需要如下步驟:
[0080](1)、原始數(shù)據(jù)分流
[0081]利用匯聚分流設(shè)備在路由器鏈路上進(jìn)行數(shù)據(jù)分流,需要將上行、下行流量全部鏡像,以保證一個會話數(shù)據(jù)的完整。
[0082](2)、全文提取服務(wù)器搭建
[0083]全文提取服務(wù)器優(yōu)選多核、大內(nèi)存服務(wù)器,利用多核并行處理,提高處理性能,在全文提取服務(wù)器上安裝全文提取程序,同時安裝數(shù)據(jù)搬運程序,也可以用常規(guī)的FTP服務(wù)進(jìn)行搬運。
[0084](3)、數(shù)據(jù)庫服務(wù)器搭建
[0085]根據(jù)數(shù)據(jù)規(guī)模搭建數(shù)據(jù)庫服務(wù)器,如果數(shù)據(jù)規(guī)模小,可以使用mysql,oracle ;如果數(shù)據(jù)量較大,則需要搭建分布式存儲系統(tǒng),如Hadoop。
[0086](4)、啟動全文提取程序
[0087]啟動全文提取程序,全文提取程序按照上述各實施例所述的全文數(shù)據(jù)的提取方法進(jìn)行數(shù)據(jù)提取,并將提取后的數(shù)據(jù)輸出到數(shù)據(jù)中心中相應(yīng)的數(shù)據(jù)庫服務(wù)器中,以供后續(xù)不同的業(yè)務(wù)系統(tǒng)使用。
[0088]此外,若要增加數(shù)據(jù)提取流量,可適當(dāng)增加全文提取服務(wù)器的數(shù)量。
[0089]注意,上述僅為本發(fā)明的較佳實施例及所運用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實施例,對本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實施例對本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。
【主權(quán)項】
1.一種全文數(shù)據(jù)的提取方法,其特征在于,包括: 將網(wǎng)絡(luò)封包數(shù)據(jù)解析為會話數(shù)據(jù); 判斷所述會話數(shù)據(jù)的實體部分是否符合預(yù)設(shè)數(shù)據(jù)格式,若是則對所述會話數(shù)據(jù)進(jìn)行數(shù)據(jù)格式標(biāo)注; 對符合預(yù)設(shè)數(shù)據(jù)格式的會話數(shù)據(jù)進(jìn)行多模匹配,判斷是否命中預(yù)設(shè)特征串,并在命中預(yù)設(shè)特征串時獲得預(yù)設(shè)特征串的命中位置; 根據(jù)所述會話數(shù)據(jù)的數(shù)據(jù)格式標(biāo)注以及所述預(yù)設(shè)特征串的命中位置,確定所述會話數(shù)據(jù)的對應(yīng)的提取函數(shù),并根據(jù)所述提取函數(shù)對所述會話數(shù)據(jù)進(jìn)行數(shù)據(jù)提取。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對符合預(yù)設(shè)數(shù)據(jù)格式的會話數(shù)據(jù)進(jìn)行多模匹配,判斷是否命中預(yù)設(shè)特征串,并在命中預(yù)設(shè)特征串時獲得預(yù)設(shè)特征串的命中位置之時,還包括: 在命中預(yù)設(shè)特征串時獲得命中預(yù)設(shè)特征串對應(yīng)的字段標(biāo)簽; 在所述根據(jù)所述會話數(shù)據(jù)的數(shù)據(jù)格式標(biāo)注以及所述預(yù)設(shè)特征串的命中位置,確定所述會話數(shù)據(jù)的對應(yīng)的提取函數(shù),并根據(jù)所述提取函數(shù)對所述會話數(shù)據(jù)進(jìn)行數(shù)據(jù)提取之后,還包括: 根據(jù)命中預(yù)設(shè)特征串對應(yīng)的字段標(biāo)簽,對提取后的數(shù)據(jù)進(jìn)行歸一化處理。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在根據(jù)所述會話數(shù)據(jù)的數(shù)據(jù)格式標(biāo)注以及所述預(yù)設(shè)特征串的命中位置,確定所述會話數(shù)據(jù)的對應(yīng)的提取函數(shù),并根據(jù)所述提取函數(shù)對所述會話數(shù)據(jù)進(jìn)行數(shù)據(jù)提取之后,還包括: 將提取數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理并輸出。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)格式包括:Key-Value式、Mutipart格式、json格式和xml格式中的至少一種。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對符合預(yù)設(shè)數(shù)據(jù)格式的會話數(shù)據(jù)進(jìn)行多模匹配,判斷是否命中預(yù)設(shè)特征串,并在命中預(yù)設(shè)特征串時獲得預(yù)設(shè)特征串的命中位置之前,還包括: 通過配置文件管理所述預(yù)設(shè)特征串。6.一種全文數(shù)據(jù)的提取裝置,其特征在于,包括: 解析模塊,用于將網(wǎng)絡(luò)封包數(shù)據(jù)解析為會話數(shù)據(jù); 標(biāo)注模塊,用于判斷所述會話數(shù)據(jù)的實體部分是否符合預(yù)設(shè)數(shù)據(jù)格式,若是則對所述會話數(shù)據(jù)進(jìn)行數(shù)據(jù)格式標(biāo)注; 多模匹配模塊,用于對符合預(yù)設(shè)數(shù)據(jù)格式的會話數(shù)據(jù)進(jìn)行多模匹配,判斷是否命中預(yù)設(shè)特征串,并在命中預(yù)設(shè)特征串時獲得預(yù)設(shè)特征串的命中位置; 數(shù)據(jù)提取模塊,用于根據(jù)所述會話數(shù)據(jù)的數(shù)據(jù)格式標(biāo)注以及所述預(yù)設(shè)特征串的命中位置,確定所述會話數(shù)據(jù)的對應(yīng)的提取函數(shù),并根據(jù)所述提取函數(shù)對所述會話數(shù)據(jù)進(jìn)行數(shù)據(jù)提取。7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述多模匹配模塊還用于在命中預(yù)設(shè)特征串時獲得命中預(yù)設(shè)特征串對應(yīng)的字段標(biāo)簽; 所述裝置還包括:歸一化處理模塊,用于根據(jù)命中預(yù)設(shè)特征串對應(yīng)的字段標(biāo)簽,對提取后的數(shù)據(jù)進(jìn)行歸一化處理。8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括: 結(jié)構(gòu)化處理模塊,用于將提取數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理并輸出。9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述預(yù)設(shè)格式包括:Key-Value式、Mutipart格式、json格式和xml格式中的至少一種。10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括: 預(yù)設(shè)特征串管理模塊,用于通過配置文件管理所述預(yù)設(shè)特征串。
【專利摘要】本發(fā)明公開了一種全文數(shù)據(jù)的提取方法和裝置,所述方法包括:將網(wǎng)絡(luò)封包數(shù)據(jù)解析為會話數(shù)據(jù);判斷所述會話數(shù)據(jù)的實體部分是否符合預(yù)設(shè)數(shù)據(jù)格式,若是則對所述會話數(shù)據(jù)進(jìn)行數(shù)據(jù)格式標(biāo)注;對符合預(yù)設(shè)數(shù)據(jù)格式的會話數(shù)據(jù)進(jìn)行多模匹配,判斷是否命中預(yù)設(shè)特征串,并在命中預(yù)設(shè)特征串時獲得預(yù)設(shè)特征串的命中位置;根據(jù)所述會話數(shù)據(jù)的數(shù)據(jù)格式標(biāo)注以及所述預(yù)設(shè)特征串的命中位置,確定所述會話數(shù)據(jù)的對應(yīng)的提取函數(shù),并根據(jù)所述提取函數(shù)對所述會話數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,本發(fā)明實現(xiàn)了提高海量數(shù)據(jù)的全文數(shù)據(jù)提取效率的技術(shù)效果。
【IPC分類】G06F17/30
【公開號】CN105302885
【申請?zhí)枴緾N201510671050
【發(fā)明人】馮建業(yè)
【申請人】北京銳安科技有限公司
【公開日】2016年2月3日
【申請日】2015年10月15日