亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于分詞算法的日志解析方法及系統(tǒng)的制作方法

文檔序號:6632677閱讀:681來源:國知局
一種基于分詞算法的日志解析方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及日志審計、安全管理【技術(shù)領(lǐng)域】,旨在提供一種基于分詞算法的日志解析方法及系統(tǒng)。該種基于分詞算法的日志解析方法包括步驟:對日志進行分詞處理、對分詞結(jié)果進行詞義分析、對得到的帶詞義標(biāo)注的分詞結(jié)果進行詞義過濾、對得到的過濾后的帶詞義標(biāo)注的分詞結(jié)果進行特征提取、對得到的詞義序列特征碼進行特征匹配、對得到的語意解析規(guī)則進行語意解析;該種日志解析系統(tǒng)包括分詞模塊、詞義分析模塊、詞義過濾模塊、詞序特征提取模塊、特征匹配模塊和語意解析模塊。本發(fā)明極大地降低了日志解析的難度和復(fù)雜度,從而提升對日志進行解析規(guī)則開發(fā)的效率,可以比較好的適應(yīng)日志格式的一些變化。
【專利說明】—種基于分詞算法的日志解析方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明是關(guān)于日志審計、安全管理【技術(shù)領(lǐng)域】,特別涉及一種基于分詞算法的日志解析方法及系統(tǒng)。

【背景技術(shù)】
[0002]計算機系統(tǒng)中任何程序都有可能輸出日志:操作系統(tǒng)內(nèi)核、各種應(yīng)用服務(wù)器等等。日志中包含了大量人們一主要是安全管理人員、運維人員、業(yè)務(wù)分析人員一會感興趣的信息,例如訪問者的IP、訪問的時間、來源的地址以及訪問者所使用的客戶端信息、分析用戶行為特征等。
[0003]既然這些日志如此的有用,怎么進行日志分析,就并不是一個簡單的問題。日志包含了成千上萬種可能的格式和數(shù)據(jù),“分析”更是難以定義,也許是簡單的統(tǒng)計值的計算,也許是復(fù)雜的數(shù)據(jù)挖掘算法。當(dāng)然,現(xiàn)在已經(jīng)有無數(shù)現(xiàn)成的工具可以幫助我們來分析它們,例如專門用于Web訪問日志分析的Awstats、Webalizer。這些工具雖然很好很強大,但顯然無法滿足用戶未標(biāo)準(zhǔn)、非常規(guī)的分析需求,也無法滿足對各種其他種類日志的分析需求。要進行稍復(fù)雜點的分析,或者要做基于日志的數(shù)據(jù)挖據(jù)等高級分析,依然需要自己來完成。
[0004]當(dāng)數(shù)據(jù)規(guī)模比較小的時候,在分析人員尚能忍受的時候,一切都好辦,現(xiàn)成的各種Unix/Linuxg工具一如awk、grep、sort、join等都是日志分析的利器。如果還有更復(fù)雜一些的邏輯,還可以使用各種腳本語言,如Perl、Ruby,基本可以解決所有的問題。上述這些工具,都依賴于正則表達式。不過,當(dāng)我們需要頻繁分析日志的時候,當(dāng)我們需要對存在幾十、上百種不同的設(shè)備,產(chǎn)生幾千、上萬種日志格式的時候。基于正則表達式的做法在一段時間之后可能就會讓我們頭疼,尤其是如何進行大量正則表達式的維護、正則表達式之間的誤匹配、正則表達式的鏈?zhǔn)狡ヅ湫阅艿拖碌葐栴}。


【發(fā)明內(nèi)容】

[0005]本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)中的不足,提供一種能極大地降低日志解析的難度和復(fù)雜度的日志解析方法及其日志解析系統(tǒng)。為解決上述技術(shù)問題,本發(fā)明的解決方案是:
[0006]提供一種基于分詞算法的日志解析方法,用于對日志進行解析,具體包括下述步驟:
[0007]A:對日志進行分詞處理:將獲取的日志信息,即待分析的字串,按照匹配策略與大機器詞典中的詞條進行匹配,若在大機器詞典中找到與待分析字串對應(yīng)的詞條,則匹配成功,得到分詞結(jié)果;然后再對日志信息進行過濾處理,并輸出分詞結(jié)果的字符串,分詞結(jié)果的字符串包括分割好的中文單詞、英文單詞和數(shù)字串;
[0008]所述匹配策略包括正向最大匹配法、逆向最大匹配法、最少切分、雙向最大匹配法;所述大機器詞典是指已經(jīng)建立好的詞庫,包括通用詞庫、專業(yè)詞條;
[0009]B:對步驟A得到的分詞結(jié)果進行詞義分析:基于詞義庫,將分詞結(jié)果的字符串逐個與詞義庫中定義的詞義類型進行匹配,若在詞義庫中找到與字符串匹配的詞義類型,則匹配成功,并對字符串進行詞義標(biāo)注,得到帶詞義標(biāo)注的分詞結(jié)果,再將帶詞義標(biāo)注的分詞結(jié)果進行輸出;
[0010]所述詞義庫是指存儲有詞義內(nèi)容的數(shù)據(jù)庫,詞義內(nèi)容包括通用詞庫、專業(yè)詞條和詞義類型;
[0011]C:對步驟B得到的帶詞義標(biāo)注的分詞結(jié)果進行詞義過濾:對詞義標(biāo)注的分詞結(jié)果進行詞義過濾,過濾掉所有帶沒有詞義標(biāo)注的分詞,保留詞義標(biāo)注的分詞結(jié)果,即得到過濾后的帶詞義標(biāo)注的分詞結(jié)果,即帶詞義標(biāo)注的分詞單詞序列;
[0012]D:對步驟C得到的過濾后的帶詞義標(biāo)注的分詞結(jié)果進行特征提取:針對步驟C中得到的過濾后的帶詞義標(biāo)注的分詞結(jié)果,將分詞結(jié)果中的詞義標(biāo)注提取,得到詞義序列;然后對詞義序列進行哈希算法或相似哈希算法(公知技術(shù))處理后,得到并輸出詞義序列特征碼;
[0013]E:對步驟D中得到的詞義序列特征碼進行特征匹配:基于語意解析規(guī)則庫,將步驟D中的得到的詞義序列特征碼與語意解析規(guī)則庫中定義的詞序特征碼進行匹配,若在語意解析規(guī)則庫中找到與詞義序列特征碼匹配的詞序特征碼,則匹配成功,得到與詞序特征碼對應(yīng)的語意解析規(guī)則并輸出;若匹配不成功,則觸發(fā)人工交互語意解析:人工查看日志,結(jié)合步驟C中的得到的經(jīng)過濾后的帶詞義標(biāo)注的分詞結(jié)果,明確分詞結(jié)果中每個詞在結(jié)構(gòu)化數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù)是指由一組含義明確、類型明確的屬性組成的數(shù)據(jù)實體,相對于日志這種未結(jié)構(gòu)化的信息而言,結(jié)構(gòu)化數(shù)據(jù)能夠用于進行比較、累加、過濾等分析處理,以及數(shù)據(jù)挖掘、預(yù)測、異常檢查等高級分析處理;結(jié)構(gòu)化數(shù)據(jù)有各種具體的實現(xiàn),很多編程開發(fā)語言中的字典結(jié)構(gòu)、哈希表結(jié)構(gòu)都是一種結(jié)構(gòu)化數(shù)據(jù),如Java語言中的Map結(jié)構(gòu)、Objective-C語言中的NSDict1nary,結(jié)構(gòu)化數(shù)據(jù)還可以有多種存儲方式,常用的方式如XML、JS0N、關(guān)系型數(shù)據(jù)庫、列存儲N0SQL系統(tǒng)等)中對應(yīng)的屬性,定義出新的語意解析規(guī)則,并結(jié)合詞序特征插入到語意解析規(guī)則庫中;
[0014]所述語意解析規(guī)則庫是指存儲有語意解析內(nèi)容的數(shù)據(jù)庫,語意解析內(nèi)容包括詞序特征碼、與特征碼對應(yīng)的語意解析規(guī)則;所述語意解析規(guī)則是將詞義序列中的每個詞映射為結(jié)構(gòu)化數(shù)據(jù)中對應(yīng)的屬性;
[0015]F:對步驟E得到的語意解析規(guī)則進行語意解析:針對經(jīng)過濾帶詞義標(biāo)注的分詞結(jié)果結(jié)合語意解析規(guī)則,進行語意解析,輸出解析后事件;得到解析后事件,即完成了日志解析,能進行事件后續(xù)處理。
[0016]提供基于所述的一種基于分詞算法的日志解析方法的日志解析系統(tǒng),包括分詞模塊、詞義分析模塊、詞義過濾模塊、詞序特征提取模塊、特征匹配模塊、語意解析模塊,分詞模塊連接有一個(外部的)大機器詞典,詞義分析模塊連接有一個(外部的)詞義庫,特征匹配模塊連接有一個(外部的)語意解析規(guī)則庫;
[0017]所述分詞模塊用于對日志進行分詞處理,得到分詞結(jié)果;
[0018]所述詞義分析模塊用于對分詞模塊得到的分詞結(jié)果進行詞義分析,得到詞義標(biāo)注的分詞結(jié)果;
[0019]所述詞義過濾模塊用于對詞義分析模塊得到的詞義標(biāo)注的分詞結(jié)果進行過濾,得到過濾后的分詞結(jié)果;
[0020]所述詞序特征提取模塊用于從詞義過濾模塊得到過濾后的分詞結(jié)果中,提取詞序特征;
[0021]所述特征匹配模塊用于根據(jù)詞序特征提取模塊提取的詞序特征,基于外部的語意解析規(guī)則庫,進行語意解析規(guī)則匹配;
[0022]所述語意解析模塊用于根據(jù)特征匹配模塊匹配的語意解析規(guī)則,進行語意解析,得到的日志解析后的信息和原始日志即構(gòu)成了解析后事件。
[0023]本發(fā)明中的基本原理是:日志解析系統(tǒng)對日志進行分詞,根據(jù)詞義庫、語意解析規(guī)則庫,對日志完成詞義、語意的分析,成為一個解析后事件。在本發(fā)明中,日志經(jīng)過分詞得到分詞結(jié)果,經(jīng)過詞義分析,得到詞義標(biāo)注的分詞結(jié)果;再進行詞義過濾,得到過濾后的分詞結(jié)果,進行詞序特征提取,得到詞序特征;根據(jù)語意解析規(guī)則庫,通過特征匹配找到匹配的語意解析規(guī)則,完成對日志的語意解析,最終成為一個解析后事件,發(fā)送到其他模塊或系統(tǒng)進行事件后續(xù)處理。
[0024]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
[0025]1、極大地降低了日志解析的難度和復(fù)雜度,從而提升對日志進行解析規(guī)則開發(fā)的效率;
[0026]2、可以比較好的適應(yīng)日志格式的一些變化。

【專利附圖】

【附圖說明】
[0027]圖1為本發(fā)明的主要模塊流程圖。
[0028]圖2為本發(fā)明的日志解析運行框圖
[0029]圖3為本發(fā)明的日志解析方法總體流程框圖。

【具體實施方式】
[0030]首先需要說明的是,本發(fā)明涉及涉及日志審計、安全管理【技術(shù)領(lǐng)域】,是計算機技術(shù)在信息安全【技術(shù)領(lǐng)域】的一種應(yīng)用。在本發(fā)明的實現(xiàn)過程中,會涉及到多個軟件功能模塊的應(yīng)用。 申請人:認為,如在仔細閱讀申請文件、準(zhǔn)確理解本發(fā)明的實現(xiàn)原理和發(fā)明目的以后,在結(jié)合現(xiàn)有公知技術(shù)的情況下,本領(lǐng)域技術(shù)人員完全可以運用其掌握的軟件編程技能實現(xiàn)本發(fā)明。前述軟件功能模塊包括但不限于:分詞模塊、詞義分析模塊、詞義過濾模塊、詞序特征提取模塊等,凡本發(fā)明申請文件提及的均屬此范疇, 申請人:不再一一列舉。
[0031]下面結(jié)合附圖與【具體實施方式】對本發(fā)明作進一步詳細描述:
[0032]如圖2所示,一種基于分詞算法的日志解析方法,用于對日志進行解析,具體包括下述步驟:
[0033]A:對日志進行分詞處理:針對獲取的日志信息進行分詞、過濾處理、輸出中文單詞、英文單詞和數(shù)字串等一系列分割好的字符串,分詞模塊流程圖見附圖1中的101。
[0034]按照一定的策略將待分析的字串(日志)與一個“大機器詞典”中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功,得到分詞結(jié)果。匹配策略包含但不限于:正向最大匹配法、逆向最大匹配法、最少切分、雙向最大匹配法等。
[0035]所述分詞:分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,就是把字序列分成有意義的詞。分詞只是信息處理的一部分,分詞本身并不是目的,而是后續(xù)處理過程的必要階段。分詞技術(shù)是一種成熟的公知技術(shù),分詞技術(shù)廣泛用于文本信息處理、搜索引擎、自然語言處理等領(lǐng)域。
[0036]所述大機器詞典是已經(jīng)建立好的詞庫,包括:通用詞庫、專業(yè)詞條。
[0037]B:對步驟A得到的分詞結(jié)果進行詞義分析:針對分詞結(jié)果中的單詞逐個進行單詞詞義分析、詞義標(biāo)注,輸出帶詞義標(biāo)注的分詞單詞,詞義分析模塊流程圖見附圖1中的102。
[0038]基于一個已經(jīng)建好的詞義庫,將分詞結(jié)果中的單詞與該詞義庫中定義的詞義類型進行匹配,若在詞義庫中找到某個與單詞匹配的詞義類型,則匹配成功后對單詞進行詞義標(biāo)注,得到帶詞義標(biāo)注的分詞結(jié)果。
[0039]所述詞義庫是事先已經(jīng)準(zhǔn)備好的數(shù)據(jù)庫,內(nèi)容包含:通用詞庫和專業(yè)詞條、詞義類型
[0040]C:對步驟B得到的帶詞義標(biāo)注的分詞結(jié)果進行詞義過濾:對詞義標(biāo)注的分詞結(jié)果進行詞義過濾,過濾掉所有沒有詞義標(biāo)注的分詞,保留詞義標(biāo)注的分詞結(jié)果,即得到過濾后的帶詞義標(biāo)注的分詞單詞序列;
[0041]D:對步驟C得到的過濾后的帶詞義標(biāo)注的分詞結(jié)果進行特征提取:針對經(jīng)過濾后的帶詞義標(biāo)注的分詞結(jié)果,將分詞結(jié)果中的詞義標(biāo)注提取,得到詞義序列。特別指出,為便于后續(xù)的匹配運算處理,針對詞義序列進行哈希算法或相似哈希算法處理后,輸出詞義序列特征碼。特征提取模塊流程圖見附圖1中的103。
[0042]所述哈希算法或相似哈希算法為公知技術(shù)。
[0043]E:對步驟D得到的詞義序列特征碼進行特征匹配:針對詞義序列特征碼進行特征匹配,輸出對應(yīng)的語意解析規(guī)則。特征匹配模塊流程圖見附圖1中的104。
[0044]基于一個已經(jīng)建立好的語意解析規(guī)則庫,將詞義序列與該庫中定義的特征碼進行匹配,若在語意解析規(guī)則庫中找到與詞義序列特征碼匹配的詞序特征碼,則匹配成功,得到與特征碼對應(yīng)的語意解析規(guī)則。
[0045]若匹配不成功,則會觸發(fā)人工交互語意解析過程。人工交互解析過程是指:人工查看日志結(jié)合經(jīng)過濾后帶詞義標(biāo)注的分詞結(jié)果,明確分詞結(jié)果中每個詞在結(jié)構(gòu)化數(shù)據(jù)中對應(yīng)的屬性,定義出新的語意解析規(guī)則,并結(jié)合詞序特征插入到語意解析規(guī)則庫中;
[0046]所述語意解析規(guī)則庫是事先已經(jīng)準(zhǔn)備好的數(shù)據(jù)庫,內(nèi)容包含:詞序特征碼、與特征碼對應(yīng)的語意解析規(guī)則等。所述語意解析規(guī)則是將詞義序列中的每個詞映射為結(jié)構(gòu)化數(shù)據(jù)中對應(yīng)的屬性。
[0047]所述結(jié)構(gòu)化數(shù)據(jù)是指由一組含義明確、類型明確的屬性組成的數(shù)據(jù)實體,相對于日志這種未結(jié)構(gòu)化的信息而言,結(jié)構(gòu)化數(shù)據(jù)能夠用于進行比較、累加、過濾等分析處理,以及數(shù)據(jù)挖掘、預(yù)測、異常檢查等高級分析處理。結(jié)構(gòu)化數(shù)據(jù)有各種具體的實現(xiàn),很多編程開發(fā)語言中的字典結(jié)構(gòu)、哈希表結(jié)構(gòu)都是一種結(jié)構(gòu)化數(shù)據(jù),如Java語言中的Map結(jié)構(gòu)、Objective-C語言中的NSDict1nary。結(jié)構(gòu)化數(shù)據(jù)還可以有多種存儲方式,常用的方式如XML、JS0N、關(guān)系型數(shù)據(jù)庫、列存儲N0SQL系統(tǒng)等。
[0048]F:對步驟E得到的語意解析規(guī)則進行語意解析:針對經(jīng)過濾帶詞義標(biāo)注的分詞結(jié)果結(jié)合語意解析規(guī)則,進行語意解析,輸出解析后事件。語意解析模塊流程圖見附圖一 105。
[0049]得到解析后事件,即完成了日志解析,能進行事件后續(xù)處理。
[0050]一種基于分詞算法的日志解析系統(tǒng)包括分詞模塊、詞義分析模塊、詞義過濾模塊、詞序特征提取模塊、特征匹配模塊、語意解析模塊,分詞模塊連接有一個外部的大機器詞典,詞義分析模塊連接有一個外部的詞義庫,特征匹配模塊連接有一個外部的語意解析規(guī)則庫。
[0051]所述分詞模塊用于對日志進行分詞處理,得到分詞結(jié)果;
[0052]所述詞義分析模塊用于對分詞模塊得到的分詞結(jié)果進行詞義分析,得到詞義標(biāo)注的分詞結(jié)果;
[0053]所述詞義過濾模塊用于對詞義分析模塊得到的詞義標(biāo)注的分詞結(jié)果進行過濾,得到過濾后的分詞結(jié)果;
[0054]所述詞序特征提取模塊用于從詞義過濾模塊得到過濾后的分詞結(jié)果中,提取詞序特征;
[0055]所述特征匹配模塊用于根據(jù)詞序特征提取模塊提取的詞序特征,基于外部的語意解析規(guī)則庫,進行語意解析規(guī)則匹配;
[0056]所述語意解析模塊用于根據(jù)特征匹配模塊匹配的語意解析規(guī)則,進行語意解析,得到的日志解析后的信息和原始日志即構(gòu)成了解析后事件。
[0057]下面的實施例是采用分詞算法的日志解析系統(tǒng)的一個具體例子,以及相關(guān)的其他實體部分、交互的信息,可以使本專業(yè)的專業(yè)技術(shù)人員更全面地理解本發(fā)明,但不以任何方式限制本發(fā)明,具體參考圖3。
[0058]首先采用分詞算法的日志解析系統(tǒng)接收到日志,比如來自Cisco ASA防火墻的日志是“May 13200910:37:52: % ASA-2-106001:1nbound TCP connect1n deniedfroml.1.1.1/3000 to 192.168.1.1/8000 flags SYN on interface outside”。
[0059]根據(jù)分詞詞庫,這些日志經(jīng)過分詞模塊處理,得到分詞結(jié)果。在這個例子中,會得到如下的詞列表[May 13200910:37:52, ASA-2-106001, Inbound, TCP, connect1n, denied,from, 1.1.1.1, 3000, to, 192.168.1.1, 8000, flags, SYN, on, interface, outside],成為分詞結(jié)果。
[0060]根據(jù)詞義庫,詞義分析模塊會對分詞結(jié)果逐個進行詞義標(biāo)注。在這個例子中,May13200910:37:52會被標(biāo)注為時間戳,ASA-2-106001會被標(biāo)注為名稱,Inbound會被標(biāo)注為方向,TCP會被標(biāo)注為協(xié)議,denied會被標(biāo)注為動作,from會被標(biāo)注為方向,1.1.1.1會被標(biāo)注為IPv4地址,3000會被標(biāo)注為數(shù)值,to會被標(biāo)注為方向,192.168.1.1會被標(biāo)注為IPv4地址,8000會被標(biāo)注為數(shù)值,SYN會被標(biāo)注為關(guān)鍵字,interface會被標(biāo)記為名稱,outside會被標(biāo)記為方向,這樣就得到了詞義標(biāo)注的分詞結(jié)果。
[0061]對詞義標(biāo)注的分詞結(jié)果進行詞義過濾,去掉沒有詞義標(biāo)注的詞后,就得到了過濾后的分詞結(jié)果。
[0062]從過濾后的分詞結(jié)果中,按照詞順序提取詞義,得到詞義序列,也就是[時間戳,名稱,方向,協(xié)議,動作,方向,IPv4,數(shù)值,方向,IPv4,數(shù)值,關(guān)鍵字,名稱,方向],通過哈?;蛳嗨乒K惴ㄟM行處理,比如采用MD5算法對這個詞義序列運算,得到f313768faedad946582869d09b4cacl5,即作為詞序特征。
[0063]根據(jù)詞序特征,特征匹配模塊檢索語意解析規(guī)則庫,找到對應(yīng)的語意解析規(guī)則,在這個例子中,可能對應(yīng)這樣一條解析規(guī)則:進入的TCP連接被阻斷,規(guī)則包含的信息有--第一個時間戳表示的是發(fā)送時間,對應(yīng)的字段是startTime ;第一個IPv4表示的是來源地址,對應(yīng)的字段是srcAddress等;規(guī)則還包含的附加信息有:這個事件的危險級別是3,輕微危險。
[0064]語意解析模塊根據(jù)語意解析規(guī)則,完成對日志的語意解析處理,最終形成了解析后事件,而且解析后事件包含了剛才提到的各種語意信息。
[0065]最終,采用分詞算法的日志解析系統(tǒng)把解析后事件發(fā)送到外部模塊或系統(tǒng),由外部模塊或系統(tǒng)完成事件后續(xù)處理。
[0066]最后,需要注意的是,以上列舉的僅是本發(fā)明的具體實施例。顯然,本發(fā)明不限于以上實施例,還可以有很多變形。本領(lǐng)域的普通技術(shù)人員能從本發(fā)明公開的內(nèi)容中直接導(dǎo)出或聯(lián)想到的所有變形,均應(yīng)認為是本發(fā)明的保護范圍。
【權(quán)利要求】
1.一種基于分詞算法的日志解析方法,用于對日志進行解析,其特征在于,具體包括下述步驟: 八:對日志進行分詞處理:將獲取的日志信息,即待分析的字串,按照匹配策略與大機器詞典中的詞條進行匹配,若在大機器詞典中找到與待分析字串對應(yīng)的詞條,則匹配成功,得到分詞結(jié)果;然后再對日志信息進行過濾處理,并輸出分詞結(jié)果的字符串,分詞結(jié)果的字符串包括分割好的中文單詞、英文單詞和數(shù)字串; 所述匹配策略包括正向最大匹配法、逆向最大匹配法、最少切分、雙向最大匹配法;所述大機器詞典是指已經(jīng)建立好的詞庫,包括通用詞庫、專業(yè)詞條; 8:對步驟八得到的分詞結(jié)果進行詞義分析:基于詞義庫,將分詞結(jié)果的字符串逐個與詞義庫中定義的詞義類型進行匹配,若在詞義庫中找到與字符串匹配的詞義類型,則匹配成功,并對字符串進行詞義標(biāo)注,得到帶詞義標(biāo)注的分詞結(jié)果,再將帶詞義標(biāo)注的分詞結(jié)果進行輸出; 所述詞義庫是指存儲有詞義內(nèi)容的數(shù)據(jù)庫,詞義內(nèi)容包括通用詞庫、專業(yè)詞條和詞義類型; 0:對步驟8得到的帶詞義標(biāo)注的分詞結(jié)果進行詞義過濾:對詞義標(biāo)注的分詞結(jié)果進行詞義過濾,過濾掉所有帶沒有詞義標(biāo)注的分詞,保留詞義標(biāo)注的分詞結(jié)果,即得到過濾后的帶詞義標(biāo)注的分詞結(jié)果,即帶詞義標(biāo)注的分詞單詞序列; 0:對步驟得到的過濾后的帶詞義標(biāo)注的分詞結(jié)果進行特征提取:針對步驟中得到的過濾后的帶詞義標(biāo)注的分詞結(jié)果,將分詞結(jié)果中的詞義標(biāo)注提取,得到詞義序列;然后對詞義序列進行哈希算法或相似哈希算法處理后,得到并輸出詞義序列特征碼; 2:對步驟0中得到的詞義序列特征碼進行特征匹配:基于語意解析規(guī)則庫,將步驟0中的得到的詞義序列特征碼與語意解析規(guī)則庫中定義的詞序特征碼進行匹配,若在語意解析規(guī)則庫中找到與詞義序列特征碼匹配的詞序特征碼,則匹配成功,得到與詞序特征碼對應(yīng)的語意解析規(guī)則并輸出;若匹配不成功,則觸發(fā)人工交互語意解析:人工查看日志,結(jié)合步驟中的得到的經(jīng)過濾后的帶詞義標(biāo)注的分詞結(jié)果,明確分詞結(jié)果中每個詞在結(jié)構(gòu)化數(shù)據(jù)中對應(yīng)的屬性,定義出新的語意解析規(guī)則,并結(jié)合詞序特征插入到語意解析規(guī)則庫中;所述語意解析規(guī)則庫是指存儲有語意解析內(nèi)容的數(shù)據(jù)庫,語意解析內(nèi)容包括詞序特征碼、與特征碼對應(yīng)的語意解析規(guī)則;所述語意解析規(guī)則是將詞義序列中的每個詞映射為結(jié)構(gòu)化數(shù)據(jù)中對應(yīng)的屬性; ?:對步驟2得到的語意解析規(guī)則進行語意解析:針對經(jīng)過濾帶詞義標(biāo)注的分詞結(jié)果結(jié)合語意解析規(guī)則,進行語意解析,輸出解析后事件;得到解析后事件,即完成了日志解析,能進行事件后續(xù)處理。
2.基于權(quán)利要求1所述的一種基于分詞算法的日志解析方法的日志解析系統(tǒng),其特征在于,包括分詞模塊、詞義分析模塊、詞義過濾模塊、詞序特征提取模塊、特征匹配模塊、語意解析模塊,分詞模塊連接有一個大機器詞典,詞義分析模塊連接有一個詞義庫,特征匹配模塊連接有一個語意解析規(guī)則庫; 所述分詞模塊用于對日志進行分詞處理,得到分詞結(jié)果; 所述詞義分析模塊用于對分詞模塊得到的分詞結(jié)果進行詞義分析,得到詞義標(biāo)注的分詞結(jié)果; 所述詞義過濾模塊用于對詞義分析模塊得到的詞義標(biāo)注的分詞結(jié)果進行過濾,得到過濾后的分詞結(jié)果; 所述詞序特征提取模塊用于從詞義過濾模塊得到過濾后的分詞結(jié)果中,提取詞序特征; 所述特征匹配模塊用于根據(jù)詞序特征提取模塊提取的詞序特征,基于外部的語意解析規(guī)則庫,進行語意解析規(guī)則匹配; 所述語意解析模塊用于根據(jù)特征匹配模塊匹配的語意解析規(guī)則,進行語意解析,得到的日志解析后的信息和原始日志即構(gòu)成了解析后事件。
【文檔編號】G06F17/30GK104391881SQ201410604098
【公開日】2015年3月4日 申請日期:2014年10月30日 優(yōu)先權(quán)日:2014年10月30日
【發(fā)明者】談修竹, 范淵 申請人:杭州安恒信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1