一種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別方法及系統(tǒng)與流程

文檔序號：12124553閱讀：480來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及大數(shù)據(jù)處理的技術(shù)領(lǐng)域，尤其涉及一種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別方法，以及基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別系統(tǒng)。

背景技術(shù)：

目前在使用hadoop集群時，如果集群存儲空間不夠時，只能通知集群用戶自己去識別hadoop集群上各自hdfs目錄下的冷數(shù)據(jù)，然后進行刪除。

中國專利申請(申請?zhí)枺篊N201310621705.0)提供了一種基于Hadoop框架的分布式文件監(jiān)控系統(tǒng)，涉及圖像數(shù)據(jù)處理技術(shù)領(lǐng)域，包括Hadoop集群和Client端，所述Hadoop集群中包括一個NameNode節(jié)點模塊、一個NameNode代理模塊、至少一個DataNode節(jié)點模塊、一個含有配置文件和調(diào)度算法的匹配模塊以及響應(yīng)算法模塊；所述NameNode代理模塊接收Client端發(fā)來的HadoopClientProcotol接口中的函數(shù)信息，并轉(zhuǎn)發(fā)該函數(shù)信息給NameNode節(jié)點模塊，同時獲取配置文件中配置的信息；本發(fā)明中的NameNode代理模塊可獲取所有的請求和消息，實現(xiàn)了對分布式文件系統(tǒng)的完全監(jiān)控，并通過后續(xù)響應(yīng)算法支持監(jiān)控的同時做出處理。

但是，這種方式嚴(yán)重依賴于集群用戶的積極性，而且用戶在刪除數(shù)據(jù)時很難做出決策來判斷哪些是冷數(shù)據(jù)，哪些數(shù)據(jù)應(yīng)該刪除，這就導(dǎo)致了讓用戶識別冷數(shù)據(jù)并刪除數(shù)據(jù)的效果大大折扣。所以隨著公司業(yè)務(wù)的發(fā)展，當(dāng)集群存儲的數(shù)據(jù)越來越多，存儲空間越來越少時，怎么去識別集群中的冷數(shù)據(jù)，以及按怎樣的策略去刪除這些冷數(shù)據(jù)成為各個公司在使用hadoop集群時頭疼的問題。

技術(shù)實現(xiàn)要素：

為克服現(xiàn)有技術(shù)的缺陷，本發(fā)明要解決的技術(shù)問題是提供了一種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別方法，其可以很明確地知道hadoop集群文件系統(tǒng)中哪些是冷數(shù)據(jù)，根據(jù)元數(shù)據(jù)統(tǒng)計分析，然后推進集群用戶刪除冷數(shù)據(jù)，有效地識別冷數(shù)據(jù)，從而使得集群存儲空間得到高效的利用。

本發(fā)明的技術(shù)方案是：這種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別方法，該方法包括以下步驟：

(1)準(zhǔn)備鏡像文件：在NameNode節(jié)點的${dfs.namenode.name.dir}/current/目錄下找到鏡像文件；

(2)解析鏡像文件；

(3)根據(jù)步驟(2)解析出來的信息，將hadoop文件系統(tǒng)的所有文件和目錄的元數(shù)據(jù)信息存儲到關(guān)系型數(shù)據(jù)庫mysql中；

(4)根據(jù)目錄最近一次的訪問時間，識別出沒有被用戶訪問的目錄和對應(yīng)未訪問的時間，再根據(jù)目錄所屬的用戶和組，確定并通知存在冷數(shù)據(jù)目錄的用戶。

本發(fā)明解析hadoop的元數(shù)據(jù)，也即hadoop集群的鏡像文件(鏡像文件中包含了集群文件系統(tǒng)所有的文件和目錄的inode信息)，對hadoop集群hdfs的目錄和文件進行解析分析，獲取文件和目錄的大小，最近訪問時間，最近修改時間等詳細(xì)信息，然后通過統(tǒng)計分析，再根據(jù)數(shù)據(jù)刪除策略，對集群冷數(shù)據(jù)做刪除處理，有效地識別冷數(shù)據(jù)，從而釋放了集群存儲空間，使得集群存儲空間得到高效的利用。

還提供了一種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別系統(tǒng)，該系統(tǒng)包括：

準(zhǔn)備鏡像文件模塊，其配置來在NameNode節(jié)點的${dfs.namenode.name.dir}/current/目錄下找到鏡像文件；

解析鏡像文件模塊，其配置來對鏡像文件進行解析；

數(shù)據(jù)存儲模塊，其配置來根據(jù)解析鏡像文件模塊解析出來的信息，將hadoop文件系統(tǒng)的所有文件和目錄的元數(shù)據(jù)信息存儲到關(guān)系型數(shù)據(jù)庫mysql中；

冷數(shù)據(jù)識別模塊，其配置來根據(jù)目錄最近一次的訪問時間，識別出沒有被用戶訪問的目錄和對應(yīng)未訪問的時間，再根據(jù)目錄所屬的用戶和組，確定并通知存在冷數(shù)據(jù)目錄的用戶。

附圖說明

圖1所示為根據(jù)本發(fā)明的基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別方法的流程圖。

具體實施方式

如圖1所示，這種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別方法，該方法包括以下步驟：

(1)準(zhǔn)備鏡像文件：在NameNode節(jié)點的${dfs.namenode.name.dir}/current/目錄下找到鏡像文件；

(2)解析鏡像文件；

(3)根據(jù)步驟(2)解析出來的信息，將hadoop文件系統(tǒng)的所有文件和目錄的元數(shù)據(jù)信息存儲到關(guān)系型數(shù)據(jù)庫mysql中；

另外，所述步驟(1)中，在該目錄下找到類似fsimage_0000000000019372521的文件即為hadoop的鏡像文件，也就是咱們將要解析的hadoop元數(shù)據(jù)文件，鏡像文件包含hadoop集群文件系統(tǒng)文件和目錄的inode信息，inode信息包括：文件名稱、目錄名稱、文件大小(file size)、文件和目錄最近訪問時間(access time)、文件和目錄最近修改時間(modification time)、文件和目錄所屬的用戶以及組信息、文件和目錄權(quán)限信息等。fsimage文件格式是二進制的，不能直接識別，需要進一步解析。

另外，所述步驟(2)的解析包括：hadoop命令行解析和java api解析。

(1)：hadoop命令行解析

命令行解析如下：

hdfs oiv-i fsimage_0000000000019372521-o fsimage.txt

-i：表示指定需要解析的鏡像文件

-o：表示對鏡像文件進行解析后，輸出的文本文件

fsimage.txt文件包含了所有可以識別冷數(shù)據(jù)的元數(shù)據(jù)信息。

(2)：java api解析

hadoop除了提供了命令行的方式解析fsimage文件，也提供了java api的方式來解析，java api的方式比命令行要復(fù)雜很多，需要對hadoop相關(guān)的源代碼深入的理解。

另外，所述步驟(3)中，元數(shù)據(jù)信息包括：文件名稱、目錄名稱、文件和目錄大小(file/dir size)、文件和目錄最近訪問時間(access time)、文件和目錄最近修改時間(modification time)、文件和目錄所屬的用戶以及組信息。

另外，所述步驟(4)中，根據(jù)元數(shù)據(jù)信息，統(tǒng)計出各個目錄的所有文件總大小(file size)、目錄最近訪問時間(access time)、目錄最近修改時間、目錄所屬用戶和組(user/group)。

另外，所述步驟(4)之后，督促用戶做更進一步的決策，更進一步的決策包括：刪除、提供數(shù)據(jù)保存時間。

本領(lǐng)域普通技術(shù)人員可以理解，實現(xiàn)上述實施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成，所述的程序可以存儲于一計算機可讀取存儲介質(zhì)中，該程序在執(zhí)行時，包括上述實施例方法的各步驟，而所述的存儲介質(zhì)可以是：ROM/RAM、磁碟、光盤、存儲卡等。因此，與本發(fā)明的方法相對應(yīng)的，本發(fā)明還同時包括一種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別系統(tǒng)，該系統(tǒng)通常以與方法各步驟相對應(yīng)的功能模塊的形式表示。使用該方法的系統(tǒng)包括：

準(zhǔn)備鏡像文件模塊，其配置來在NameNode節(jié)點的${dfs.namenode.name.dir}/current/目錄下找到鏡像文件；

解析鏡像文件模塊，其配置來對鏡像文件進行解析；

另外，所述準(zhǔn)備鏡像文件模塊中，鏡像文件包含hadoop集群文件系統(tǒng)文件和目錄的inode信息，inode信息包括：文件名稱、目錄名稱、文件大小、文件和目錄最近訪問時間、文件和目錄最近修改時間、文件和目錄所屬的用戶以及組信息、文件和目錄權(quán)限信息。

另外，所述解析鏡像文件模塊包括hadoop命令行解析和java api解析。

另外，所述數(shù)據(jù)存儲模塊中，元數(shù)據(jù)信息包括：文件名稱、目錄名稱、文件和目錄大小、文件和目錄最近訪問時間、文件和目錄最近修改時間、文件和目錄所屬的用戶以及組信息。

本發(fā)明實現(xiàn)方案的具體過程如下：

(1)、準(zhǔn)備鏡像文件；

(2)、解析hadoop鏡像文件；

(3)、保存解析后的文件數(shù)據(jù)到mysql；

(4)、對元數(shù)據(jù)進行統(tǒng)計分析；

(5)、識別出冷數(shù)據(jù)；

(6)、推進用戶刪除冷數(shù)據(jù)。

以上所述，僅是本發(fā)明的較佳實施例，并非對本發(fā)明作任何形式上的限制，凡是依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾，均仍屬本發(fā)明技術(shù)方案的保護范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：何良均;張翼;溫宗臣;馮森林;李冰;張書凡;范衛(wèi)衛(wèi);趙志華;
技術(shù)所有人：北京集奧聚合科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

hadoop大數(shù)據(jù)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別方法及系統(tǒng)與流程