亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別方法及系統(tǒng)與流程

文檔序號:12124553閱讀:480來源:國知局

本發(fā)明涉及大數(shù)據(jù)處理的技術(shù)領(lǐng)域,尤其涉及一種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別方法,以及基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別系統(tǒng)。



背景技術(shù):

目前在使用hadoop集群時,如果集群存儲空間不夠時,只能通知集群用戶自己去識別hadoop集群上各自hdfs目錄下的冷數(shù)據(jù),然后進行刪除。

中國專利申請(申請?zhí)枺篊N201310621705.0)提供了一種基于Hadoop框架的分布式文件監(jiān)控系統(tǒng),涉及圖像數(shù)據(jù)處理技術(shù)領(lǐng)域,包括Hadoop集群和Client端,所述Hadoop集群中包括一個NameNode節(jié)點模塊、一個NameNode代理模塊、至少一個DataNode節(jié)點模塊、一個含有配置文件和調(diào)度算法的匹配模塊以及響應(yīng)算法模塊;所述NameNode代理模塊接收Client端發(fā)來的HadoopClientProcotol接口中的函數(shù)信息,并轉(zhuǎn)發(fā)該函數(shù)信息給NameNode節(jié)點模塊,同時獲取配置文件中配置的信息;本發(fā)明中的NameNode代理模塊可獲取所有的請求和消息,實現(xiàn)了對分布式文件系統(tǒng)的完全監(jiān)控,并通過后續(xù)響應(yīng)算法支持監(jiān)控的同時做出處理。

但是,這種方式嚴(yán)重依賴于集群用戶的積極性,而且用戶在刪除數(shù)據(jù)時很難做出決策來判斷哪些是冷數(shù)據(jù),哪些數(shù)據(jù)應(yīng)該刪除,這就導(dǎo)致了讓用戶識別冷數(shù)據(jù)并刪除數(shù)據(jù)的效果大大折扣。所以隨著公司業(yè)務(wù)的發(fā)展,當(dāng)集群存儲的數(shù)據(jù)越來越多,存儲空間越來越少時,怎么去識別集群中的冷數(shù)據(jù),以及按怎樣的策略去刪除這些冷數(shù)據(jù)成為各個公司在使用hadoop集群時頭疼的問題。



技術(shù)實現(xiàn)要素:

為克服現(xiàn)有技術(shù)的缺陷,本發(fā)明要解決的技術(shù)問題是提供了一種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別方法,其可以很明確地知道hadoop集群文件系統(tǒng)中哪些是冷數(shù)據(jù),根據(jù)元數(shù)據(jù)統(tǒng)計分析,然后推進集群用戶刪除冷數(shù)據(jù),有效地識別冷數(shù)據(jù),從而使得集群存儲空間得到高效的利用。

本發(fā)明的技術(shù)方案是:這種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別方法,該方法包括以下步驟:

(1)準(zhǔn)備鏡像文件:在NameNode節(jié)點的${dfs.namenode.name.dir}/current/目錄下找到鏡像文件;

(2)解析鏡像文件;

(3)根據(jù)步驟(2)解析出來的信息,將hadoop文件系統(tǒng)的所有文件和目錄的元數(shù)據(jù)信息存儲到關(guān)系型數(shù)據(jù)庫mysql中;

(4)根據(jù)目錄最近一次的訪問時間,識別出沒有被用戶訪問的目錄和對應(yīng)未訪問的時間,再根據(jù)目錄所屬的用戶和組,確定并通知存在冷數(shù)據(jù)目錄的用戶。

本發(fā)明解析hadoop的元數(shù)據(jù),也即hadoop集群的鏡像文件(鏡像文件中包含了集群文件系統(tǒng)所有的文件和目錄的inode信息),對hadoop集群hdfs的目錄和文件進行解析分析,獲取文件和目錄的大小,最近訪問時間,最近修改時間等詳細(xì)信息,然后通過統(tǒng)計分析,再根據(jù)數(shù)據(jù)刪除策略,對集群冷數(shù)據(jù)做刪除處理,有效地識別冷數(shù)據(jù),從而釋放了集群存儲空間,使得集群存儲空間得到高效的利用。

還提供了一種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別系統(tǒng),該系統(tǒng)包括:

準(zhǔn)備鏡像文件模塊,其配置來在NameNode節(jié)點的${dfs.namenode.name.dir}/current/目錄下找到鏡像文件;

解析鏡像文件模塊,其配置來對鏡像文件進行解析;

數(shù)據(jù)存儲模塊,其配置來根據(jù)解析鏡像文件模塊解析出來的信息,將hadoop文件系統(tǒng)的所有文件和目錄的元數(shù)據(jù)信息存儲到關(guān)系型數(shù)據(jù)庫mysql中;

冷數(shù)據(jù)識別模塊,其配置來根據(jù)目錄最近一次的訪問時間,識別出沒有被用戶訪問的目錄和對應(yīng)未訪問的時間,再根據(jù)目錄所屬的用戶和組,確定并通知存在冷數(shù)據(jù)目錄的用戶。

附圖說明

圖1所示為根據(jù)本發(fā)明的基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別方法的流程圖。

具體實施方式

如圖1所示,這種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別方法,該方法包括以下步驟:

(1)準(zhǔn)備鏡像文件:在NameNode節(jié)點的${dfs.namenode.name.dir}/current/目錄下找到鏡像文件;

(2)解析鏡像文件;

(3)根據(jù)步驟(2)解析出來的信息,將hadoop文件系統(tǒng)的所有文件和目錄的元數(shù)據(jù)信息存儲到關(guān)系型數(shù)據(jù)庫mysql中;

(4)根據(jù)目錄最近一次的訪問時間,識別出沒有被用戶訪問的目錄和對應(yīng)未訪問的時間,再根據(jù)目錄所屬的用戶和組,確定并通知存在冷數(shù)據(jù)目錄的用戶。

本發(fā)明解析hadoop的元數(shù)據(jù),也即hadoop集群的鏡像文件(鏡像文件中包含了集群文件系統(tǒng)所有的文件和目錄的inode信息),對hadoop集群hdfs的目錄和文件進行解析分析,獲取文件和目錄的大小,最近訪問時間,最近修改時間等詳細(xì)信息,然后通過統(tǒng)計分析,再根據(jù)數(shù)據(jù)刪除策略,對集群冷數(shù)據(jù)做刪除處理,有效地識別冷數(shù)據(jù),從而釋放了集群存儲空間,使得集群存儲空間得到高效的利用。

另外,所述步驟(1)中,在該目錄下找到類似fsimage_0000000000019372521的文件即為hadoop的鏡像文件,也就是咱們將要解析的hadoop元數(shù)據(jù)文件,鏡像文件包含hadoop集群文件系統(tǒng)文件和目錄的inode信息,inode信息包括:文件名稱、目錄名稱、文件大小(file size)、文件和目錄最近訪問時間(access time)、文件和目錄最近修改時間(modification time)、文件和目錄所屬的用戶以及組信息、文件和目錄權(quán)限信息等。fsimage文件格式是二進制的,不能直接識別,需要進一步解析。

另外,所述步驟(2)的解析包括:hadoop命令行解析和java api解析。

(1):hadoop命令行解析

命令行解析如下:

hdfs oiv-i fsimage_0000000000019372521-o fsimage.txt

-i:表示指定需要解析的鏡像文件

-o:表示對鏡像文件進行解析后,輸出的文本文件

fsimage.txt文件包含了所有可以識別冷數(shù)據(jù)的元數(shù)據(jù)信息。

(2):java api解析

hadoop除了提供了命令行的方式解析fsimage文件,也提供了java api的方式來解析,java api的方式比命令行要復(fù)雜很多,需要對hadoop相關(guān)的源代碼深入的理解。

另外,所述步驟(3)中,元數(shù)據(jù)信息包括:文件名稱、目錄名稱、文件和目錄大小(file/dir size)、文件和目錄最近訪問時間(access time)、文件和目錄最近修改時間(modification time)、文件和目錄所屬的用戶以及組信息。

另外,所述步驟(4)中,根據(jù)元數(shù)據(jù)信息,統(tǒng)計出各個目錄的所有文件總大小(file size)、目錄最近訪問時間(access time)、目錄最近修改時間、目錄所屬用戶和組(user/group)。

另外,所述步驟(4)之后,督促用戶做更進一步的決策,更進一步的決策包括:刪除、提供數(shù)據(jù)保存時間。

本領(lǐng)域普通技術(shù)人員可以理解,實現(xiàn)上述實施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,包括上述實施例方法的各步驟,而所述的存儲介質(zhì)可以是:ROM/RAM、磁碟、光盤、存儲卡等。因此,與本發(fā)明的方法相對應(yīng)的,本發(fā)明還同時包括一種基于hadoop元數(shù)據(jù)的冷數(shù)據(jù)識別系統(tǒng),該系統(tǒng)通常以與方法各步驟相對應(yīng)的功能模塊的形式表示。使用該方法的系統(tǒng)包括:

準(zhǔn)備鏡像文件模塊,其配置來在NameNode節(jié)點的${dfs.namenode.name.dir}/current/目錄下找到鏡像文件;

解析鏡像文件模塊,其配置來對鏡像文件進行解析;

數(shù)據(jù)存儲模塊,其配置來根據(jù)解析鏡像文件模塊解析出來的信息,將hadoop文件系統(tǒng)的所有文件和目錄的元數(shù)據(jù)信息存儲到關(guān)系型數(shù)據(jù)庫mysql中;

冷數(shù)據(jù)識別模塊,其配置來根據(jù)目錄最近一次的訪問時間,識別出沒有被用戶訪問的目錄和對應(yīng)未訪問的時間,再根據(jù)目錄所屬的用戶和組,確定并通知存在冷數(shù)據(jù)目錄的用戶。

另外,所述準(zhǔn)備鏡像文件模塊中,鏡像文件包含hadoop集群文件系統(tǒng)文件和目錄的inode信息,inode信息包括:文件名稱、目錄名稱、文件大小、文件和目錄最近訪問時間、文件和目錄最近修改時間、文件和目錄所屬的用戶以及組信息、文件和目錄權(quán)限信息。

另外,所述解析鏡像文件模塊包括hadoop命令行解析和java api解析。

另外,所述數(shù)據(jù)存儲模塊中,元數(shù)據(jù)信息包括:文件名稱、目錄名稱、文件和目錄大小、文件和目錄最近訪問時間、文件和目錄最近修改時間、文件和目錄所屬的用戶以及組信息。

本發(fā)明實現(xiàn)方案的具體過程如下:

(1)、準(zhǔn)備鏡像文件;

(2)、解析hadoop鏡像文件;

(3)、保存解析后的文件數(shù)據(jù)到mysql;

(4)、對元數(shù)據(jù)進行統(tǒng)計分析;

(5)、識別出冷數(shù)據(jù);

(6)、推進用戶刪除冷數(shù)據(jù)。

以上所述,僅是本發(fā)明的較佳實施例,并非對本發(fā)明作任何形式上的限制,凡是依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾,均仍屬本發(fā)明技術(shù)方案的保護范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1