一種文件處理方法及裝置制造方法

文檔序號：6637553閱讀：195來源：國知局

一種文件處理方法及裝置制造方法
【專利摘要】本發(fā)明提供了一種文件處理方法及裝置，方法包括：獲取多個日志文件的配置信息，配置信息包括日志文件的存儲位置和存儲級別，存儲級別為根據(jù)日志文件的生成時間確定；根據(jù)存儲級別將多個日志文件映射成文件組；當需要對日志文件進行分析時，根據(jù)設(shè)定的查找時間在不同存儲級別的文件組中定位待分析的日志文件，并根據(jù)日志文件的存儲位置獲取待分析的日志文件。采用本發(fā)明所提供的技術(shù)方案，可以提高日志查找分析的速度，解決傳統(tǒng)日志分析技術(shù)不能適應(yīng)大數(shù)據(jù)日志文件處理的技術(shù)問題。
【專利說明】一種文件處理方法及裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機【技術(shù)領(lǐng)域】，尤其涉及一種文件處理方法及裝置。

【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)的蓬勃發(fā)展，各種大數(shù)據(jù)處理平臺（如Had〇〇p、Xdata并行數(shù)據(jù)庫系統(tǒng) 等等）應(yīng)運而生、各種大數(shù)據(jù)處理中心拔地而起。這些系統(tǒng)往往在復雜的集群環(huán)境中運行，這些運行中的系統(tǒng)都會生成日志信息，隨著時間推移這些日志信息會堆積到一種難以想象的程度。
[0003] 很多日志文件會存儲在不同的節(jié)點、不同的文件系統(tǒng)，并在存儲時部分日志文件會進行壓縮。因此，由于這些日志文件是異構(gòu)存儲的，如何對這些日志文件進行快速統(tǒng)一的分析是迫切需要解決的問題。
[0004] 而目前普通的日志分析技術(shù)往往是對某些日志文件進行文本過濾，這種分析方式存在如下問題：
[0005] 1)對壓縮過的文件，或存儲在其它文件系統(tǒng)、其他節(jié)點的日志文件無能為力；
[0006] 2)分析速度較慢，因為過濾過程要讀取整個文件，這樣也就不能處理較大較多的日志信息。
[0007] 現(xiàn)有技術(shù)不足在于：
[0008] 傳統(tǒng)的日志分析技術(shù)不能適應(yīng)大數(shù)據(jù)、異構(gòu)存儲的日志文件處理，導致很多有意義的日志信息不得不刪除或存儲起來但再也沒有分析過。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明實施例提出了一種文件處理方法及裝置，解決了傳統(tǒng)日志分析技術(shù)不能適應(yīng)大數(shù)據(jù)日志文件處理的技術(shù)問題。
[0010] 本發(fā)明實施例提供了一種文件處理方法，包括如下步驟：
[0011] 獲取多個日志文件的配置信息，該配置信息包括日志文件的存儲位置和存儲級另IJ，存儲級別為根據(jù)日志文件的生成時間確定；
[0012] 根據(jù)存儲級別將多個日志文件映射成文件組；
[0013] 當需要對日志文件進行分析時，根據(jù)設(shè)定的查找時間在不同存儲級別的文件組中定位待分析的日志文件，根據(jù)日志文件的存儲位置獲取待分析的日志文件。
[0014] 本發(fā)明實施例提供了一種文件處理裝置，包括：
[0015] 獲取模塊，用于獲取多個日志文件的配置信息，該配置信息包括日志文件的存儲位置和存儲級別，存儲級別為根據(jù)日志文件的生成時間確定；
[0016] 文件組生成模塊，用于根據(jù)存儲級別將多個日志文件映射成文件組；
[0017] 分析模塊，用于當需要對日志文件進行分析時，根據(jù)設(shè)定的查找時間在不同存儲級別的文件組中定位待分析的日志文件，根據(jù)日志文件的存儲位置獲取待分析的日志文件。
[0018] 本發(fā)明實施例所提供的技術(shù)方案，通過獲取多個日志文件的配置信息并根據(jù)存儲級別將這些日志文件映射成文件組，可以理解為將多個小文件映射成一個大文件，這樣當需要對日志文件進行分析時，就可以根據(jù)預(yù)先設(shè)定的查找時間在不同存儲級別的文件組中定位待分析的日志文件，進而根據(jù)日志文件的存儲位置獲取待分析的日志文件，采用本發(fā) 明實施例所提供的技術(shù)方案，在進行日志分析時，不需要讀取所有日志文件，大大提高了分析速度。

【專利附圖】

【附圖說明】
[0019] 下面將參照附圖描述本發(fā)明的具體實施例，其中：
[0020] 圖1示出了本發(fā)明實施例中文件處理方法實施的流程示意圖；
[0021] 圖2示出了本發(fā)明實施例中日志文件查找分析的流程示意圖；
[0022] 圖3示出了本發(fā)明實施例中文件處理裝置的結(jié)構(gòu)示意圖。

【具體實施方式】
[0023] 為了使本發(fā)明的技術(shù)方案及優(yōu)點更加清楚明白，以下結(jié)合附圖對本發(fā)明的示例性實施例進行進一步詳細的說明，顯然，所描述的實施例僅是本發(fā)明的一部分實施例，而不是所有實施例的窮舉。并且在不沖突的情況下，本說明中的實施例及實施例中的特征可以互相結(jié)合。
[0024] 本發(fā)明實施例提出了一種文件處理方法及裝置。下面進行說明。
[0025] 圖1示出了本發(fā)明實施例中文件處理方法實施的流程示意圖，該文件處理方法可以包括如下步驟：
[0026] 步驟101、獲取多個日志文件的配置信息，該配置信息包括日志文件的存儲位置和存儲級別，存儲級別為根據(jù)日志文件的生成時間確定；
[0027] 步驟102、根據(jù)存儲級別將多個日志文件映射成文件組；
[0028] 步驟103、當需要對日志文件進行分析時，根據(jù)設(shè)定的查找時間在不同存儲級別的文件組中定位待分析的日志文件，并根據(jù)日志文件的存儲位置獲取待分析的日志文件。
[0029] 本發(fā)明實施例將這些日志文件映射成一個大文件（相比多個日志文件來說）之后，即可對這些日志文件進行查找分析；查找分析時，根據(jù)預(yù)設(shè)時間在不同存儲級別的文件組中定位待分析的日志文件，并根據(jù)日志文件的存儲位置獲取待分析的日志文件，從而大大提高了日志分析速度。
[0030] 實施中，多個日志文件可以為存在一定關(guān)系的日志文件，也可以為異構(gòu)存儲的日志文件。
[0031] 本發(fā)明實施例首先獲取多個日志文件的配置信息，這些日志文件可以是彼此相關(guān) 的、或者是異構(gòu)存儲的。這里，異構(gòu)存儲是指一組相關(guān)的文件以不同的壓縮方式、不同的文件系統(tǒng)、或者在不同的節(jié)點上進行存儲。其中，相關(guān)可以是通過預(yù)先定義具有一定規(guī)則的文件名來確定，比如：warning (代表告警日志文件）、error (代表報錯日志文件）等等，也可以通過判斷日志文件是否在同一目錄下來確定是否相關(guān)，本發(fā)明對于文件相關(guān)的具體定義不作限制。
[0032] 下面以一具體實例（包括三個日志文件）進行說明，具體的日志文件的配置信息格式如下所示：
[0033] loga. dbl. compres = none
[0034] loga. dbl. path = /log/sdh/hdfs-namenode. log{，· [1-9]}
[0035] loga. dbl. order = opposite#上述文件路徑擴展之后的多個文件的排列順序
[0036] loga. dbl. filesystem = common
[0037] loga. db2. compres = zip
[0038] loga. db2. path = nodename ：/bak/log/hdfs-namenode. log. I. zip
[0039] loga. db2. order = opposite#zip文件中包含的多個文件的排列順序
[0040] loga. db2. filesystem = common
[0041] loga. db3. compres = none
[0042] loga. db3. path = /bak/log/hdfs-namenode. 201401. log{，· [1-9]}
[0043] loga. db3. order = opposite#上述文件路徑擴展之后的多個文件的排列順序
[0044] loga. db3. filesystem = hdfs
[0045] 上述內(nèi)容表示一組名為loga的日志文件，它包含3個級別的存儲，本發(fā)明實施例中可以認為級別越高（例如上述內(nèi)容中db3為最高級別）日志文件中包含的日志越久，其訪問花費的時間越長；相反的，級別越低（例如上述內(nèi)容中dbl為最低級別）的日志文件越是最近生成的日志。本發(fā)明實施例通過這樣的規(guī)定方便讀取和分析時的優(yōu)化操作。
[0046] loga. dbl. path所指為日志文件的路徑，loga. db2. path所指的路徑為遠程節(jié)點上的文件；
[0047] loga. dbl. filesystem表示使用本節(jié)點的文件系統(tǒng)，它可能是掛載在本地的網(wǎng) 絡(luò)文件系統(tǒng)（NFS，Network File System)或鏡像文件（ISO，Isolation);而 loga. db3. filesystem表示文件存儲在分布式文件系統(tǒng)（HDFS, Hadoop Distribute File System)上，要通過HDFS的客戶端庫去訪問，這個參數(shù)要求的內(nèi)容是可擴充的，以適應(yīng)支持新的文件系統(tǒng)；
[0048] 文件路徑path往往表示了一組文件，這些文件如何排列才能符合正確的時間順序是由order參數(shù)來指示，例如：loga. dbl. order表示的opposite (相反），是相對于文件中存儲的日志的順序而言的；一般文件中日志的順序是從小到大的，也即，從前向后閱讀文件，時間逐漸增大；而path路徑下的文件安裝字母排序后時間是從大到小的。
[0049] 實施中，將多個日志文件映射成文件組，可以包括：生成文件組對象，文件組對象包括所有文件的配置信息以及每個存儲級別的配置信息的開始存儲位置；利用該文件組對象根據(jù)每個存儲級別的開始存儲位置將不同存儲級別的文件的配置信息映射成文件組。
[0050] 具體實施中，本發(fā)明實施例可以生成類FileGroup的對象，利用類FileGroup對象將多個日志文件映射成文件組；
[0051] 其中，類FileGroup對象可以包括：
[0052] fileinfos，用于記錄文件組中包含的所有文件的配置信息；
[0053] dbLevel，用于記錄每個存儲級別在fileinfos中開始的存儲位置；
[0054] presentLevel，用于記錄當前使用的存儲的最大級別；
[0055] files，用于記錄所有文件并形成文件列表；
[0056] nextDBLeve 1函數(shù)，用于對fiIeinf〇s中不同級別的文件的配置信息創(chuàng)建成Fi Ie對象并加入到files中；
[0057] isALLDB函數(shù),用于指示已經(jīng)加入到files中的文件的位置。
[0058] 本發(fā)明實施例僅以上述類FileGroup對象作為示例，實際操作時本領(lǐng)域技術(shù)人員可以根據(jù)需要進行相應(yīng)開發(fā)即可，本發(fā)明對文件組對象的具體生成方式不作限制。
[0059] 本發(fā)明實施例中在獲取到整個配置文件后，可以生成類FileGroup的一個對象，下面示出了類FileGroup的統(tǒng)一建模語言（UML，Unified Modeling Language)，如下表所示：
[0060]

【權(quán)利要求】
1. 一種文件處理方法，其特征在于，包括如下步驟：獲取多個日志文件的配置信息，所述配置信息包括日志文件的存儲位置和存儲級別，所述存儲級別為根據(jù)日志文件的生成時間確定；根據(jù)所述存儲級別將所述多個日志文件映射成文件組；當需要對日志文件進行分析時，根據(jù)設(shè)定的查找時間在不同存儲級別的文件組中定位待分析的日志文件，并根據(jù)所述日志文件的存儲位置獲取所述待分析的日志文件。
2. 如權(quán)利要求1所述的方法，其特征在于，所述將多個日志文件映射成文件組，具體包括：生成文件組對象，所述文件組對象包括所有文件的配置信息W及每個存儲級別的配置信息的開始存儲位置；利用所述文件組對象根據(jù)每個存儲級別的開始存儲位置將不同存儲級別的文件的配置信息映射成文件組。
3. 如權(quán)利要求1所述的方法，其特征在于，所述方法進一步包括：將所述文件組內(nèi)的日志文件映射成由若干條日志記錄組成的日志組；在不同存儲級別的日志組中定位設(shè)定的查找時間內(nèi)的日志文件。
4. 如權(quán)利要求3所述的方法，其特征在于，所述將所述文件組內(nèi)的日志文件映射成由若干條日志記錄組成的日志組，包括：根據(jù)seek函數(shù)來獲取每條日志記錄；確定該日志記錄的開始為時間字符串時，返回該日志記錄的seek值。
5. 如權(quán)利要求1至4任一所述的方法，其特征在于，所述配置信息進一步包括日志文件的文件順序，所述文件組中的多個日志文件為有序排序；所述定位設(shè)定的查找時間內(nèi)的日志文件為采用二分查找方式進行定位。
6. -種文件處理裝置，其特征在于，包括：獲取模塊，用于獲取多個日志文件的配置信息，所述配置信息包括日志文件的存儲位置和存儲級別，所述存儲級別為根據(jù)日志文件的生成時間確定；文件組生成模塊，用于根據(jù)所述存儲級別將所述多個日志文件映射成文件組；分析模塊，用于當需要對日志文件進行分析時，根據(jù)設(shè)定的查找時間在不同存儲級別的文件組中定位待分析的日志文件，根據(jù)所述日志文件的存儲位置獲取所述待分析的日志文件。
7. 如權(quán)利要求6所述的裝置，其特征在于，所述文件組生成模塊用于生成包括所有文件的配置信息W及每個存儲級別的配置信息的開始存儲位置的文件組對象，利用所述文件組對象根據(jù)每個存儲級別的開始存儲位置將不同存儲級別的文件的配置信息映射成文件組。
8. 如權(quán)利要求6所述的裝置，其特征在于，進一步包括：日志組生成模塊，用于將所述文件組內(nèi)的日志文件映射成由若干條日志記錄組成的日志組；所述分析模塊進一步用于在不同存儲級別的日志組中定位設(shè)定的查找時間內(nèi)的日志文件。
9. 如權(quán)利要求8所述的裝置，其特征在于，所述日志組生成模塊用于根據(jù)seek函數(shù)來獲取每條日志記錄；確定該日志記錄的開始為時間字符串時，返回該日志記錄的seek值。
10.如權(quán)利要求6至9任一所述的裝置，其特征在于，所述獲取模塊進一步用于獲取包括日志文件的文件順序的配置信息；所述文件組生成模塊用于將多個日志文件映射成有序排列的文件組；所述分析模塊用于采用二分查找方式定位設(shè)定的查找時間內(nèi)的日志文件。
【文檔編號】G06F17/30GK104462349SQ201410738371
【公開日】2015年3月25日申請日期:2014年12月5日優(yōu)先權(quán)日:2014年12月5日
【發(fā)明者】王少佳, 惠潤海, 宋懷明申請人:曙光信息產(chǎn)業(yè)(北京)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王少佳;惠潤海;宋懷明;
技術(shù)所有人：曙光信息產(chǎn)業(yè)（北京）有限公司;
我是此專利的發(fā)明人

上一篇：數(shù)據(jù)庫文本聚合處理方法及裝置制造方法
上一篇：一種基于資源粒度的權(quán)限控制方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

生活污水處理裝置相關(guān)技術(shù)

汽車尾氣處理裝置相關(guān)技術(shù)

廢氣處理裝置相關(guān)技術(shù)

污水處理裝置相關(guān)技術(shù)

軟化水處理裝置相關(guān)技術(shù)

實驗室廢水處理裝置相關(guān)技術(shù)

船用生活污水處理裝置相關(guān)技術(shù)

尾氣處理裝置相關(guān)技術(shù)

水處理加藥裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文件處理方法及裝置制造方法