亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法與流程

文檔序號:12362583閱讀:244來源:國知局
一種輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法與流程
本發(fā)明涉及計算機安全技術(shù),尤其涉及一種輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法。
背景技術(shù)
:數(shù)據(jù)密集型文件系統(tǒng)DiFS,例如谷歌文件系統(tǒng)GFS、Hadoop分布式文件系統(tǒng)HDFS等,已經(jīng)成為大數(shù)據(jù)存儲管理的主要文件系統(tǒng)。當前的數(shù)據(jù)密集型文件系統(tǒng)DiFS采用主從式架構(gòu),主節(jié)點(元數(shù)據(jù)服務器)管理所有的元數(shù)據(jù),從節(jié)點(數(shù)據(jù)存儲節(jié)點)只負責數(shù)據(jù)存儲。為了維持高可用性,這些存儲系統(tǒng)通常將數(shù)據(jù)文件分為固定大小的塊,每個數(shù)據(jù)塊通常有3個副本,并將它們都分配到不同的集群的數(shù)據(jù)存儲節(jié)點中。主節(jié)點必須記錄成百上千個數(shù)據(jù)存儲節(jié)點的地址,以及記錄所有數(shù)據(jù)文件的數(shù)據(jù)塊到這些存儲節(jié)點的映射信息。并且,主節(jié)點必須定期地檢查所有數(shù)據(jù)塊的地址映射信息的變化。隨著數(shù)據(jù)量的不斷增大,這些元數(shù)據(jù)信息不僅占據(jù)了主節(jié)點的內(nèi)存空間,影響主節(jié)點的處理能力,而且嚴重地限制了主節(jié)點的可擴展性。為了解決數(shù)據(jù)密集型文件系統(tǒng)存在的問題,將數(shù)據(jù)文件物理塊的分配和維護從元數(shù)據(jù)管理中分離出來,由每個數(shù)據(jù)存儲節(jié)點執(zhí)行數(shù)據(jù)塊到存儲節(jié)點映射信息的維護方法應運而生。應用此方法,主節(jié)點不需要再保存大量的數(shù)據(jù)塊元數(shù)據(jù)信息以及數(shù)據(jù)塊到數(shù)據(jù)存儲節(jié)點的映射表信息,而是需要用一組數(shù)據(jù)塊到數(shù)據(jù)存儲節(jié)點、數(shù)據(jù)存儲節(jié)點到數(shù)據(jù)塊之間的可逆映射函數(shù)完成。數(shù)據(jù)密集型文件系統(tǒng)管理海量的數(shù)據(jù),這些數(shù)據(jù)具有以下特點:1)數(shù)據(jù)量大,數(shù)據(jù)總量增長快;2)數(shù)據(jù)存儲性能需求高;3)要求高可靠性和高可恢復性:當數(shù)據(jù)發(fā)生丟失或數(shù)據(jù)存儲節(jié)點失效時,在不影響正常工作的前提下,能夠快速的恢復原數(shù)據(jù);4)要求能夠快速的查找數(shù)據(jù)塊的存儲位置;5)要求盡量少的占用主節(jié)點的內(nèi)存空間和盡量少的影響主節(jié)點的處理能力;從以上分析可以看出,傳統(tǒng)文件系統(tǒng)的管理方法不適應數(shù)據(jù)密集型文件系統(tǒng)的管理,主要原因:1)隨著數(shù)據(jù)量的不斷增大,文件數(shù)據(jù)塊地址表的存儲將占用大量的存儲空間;2)主節(jié)點負責文件數(shù)據(jù)塊地址表的維護,隨著文件數(shù)據(jù)塊地址表的不斷增加,大大降低了主節(jié)點的處理能力;3)數(shù)據(jù)量的不斷增加不僅占用了主節(jié)點大量的存儲空間,增大了地址等元數(shù)據(jù)維護成本,同時還降低了主節(jié)點的可擴展性;4)每個數(shù)據(jù)存儲節(jié)點在進行存儲和查詢時都要先咨詢主節(jié)點,這樣增加尋址的時間。技術(shù)實現(xiàn)要素:針對數(shù)據(jù)密集型文件系統(tǒng)的數(shù)據(jù)塊存儲和查詢管理需求,本發(fā)明提供了一種輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法,通過將物理數(shù)據(jù)塊的分配、查詢和相關(guān)元數(shù)據(jù)維護從傳統(tǒng)的元數(shù)據(jù)管理中分離出來,由每個數(shù)據(jù)存儲節(jié)點完成,減少主節(jié)點存儲空間的開銷和負擔。本發(fā)明可提升大數(shù)據(jù)環(huán)境下的數(shù)據(jù)密集型文件系統(tǒng)的可擴展性、減少數(shù)據(jù)塊尋址時間,并可大副度提高整個系統(tǒng)的性能。本發(fā)明的技術(shù)原理在于,本發(fā)明是通過交叉遷移劃分方法(ISD,IntersectedShiftedDeclustering)實現(xiàn)數(shù)據(jù)塊的自治管理,即通過用一組可逆數(shù)學函數(shù)實現(xiàn)數(shù)據(jù)塊到數(shù)據(jù)存儲節(jié)點,以及數(shù)據(jù)存儲節(jié)點到數(shù)據(jù)塊的映射,完成數(shù)據(jù)塊的分布式存儲和快速查詢等。本發(fā)明具體包含以下幾種操作:操作1、數(shù)據(jù)塊存儲操作;操作2、數(shù)據(jù)塊查找操作;操作3、失效數(shù)據(jù)存儲節(jié)點失效處理操作;操作4、添加新數(shù)據(jù)存儲節(jié)點操作。(1)數(shù)據(jù)塊存儲操作包括以下步驟:步驟1.1、主節(jié)點通過可逆的線性哈希函數(shù)選擇數(shù)據(jù)塊所在邏輯組(LG);步驟1.2、主節(jié)點通過可逆的位移分割函數(shù)選擇邏輯組中數(shù)據(jù)存儲節(jié)點存儲數(shù)據(jù)塊數(shù)據(jù);步驟1.3、數(shù)據(jù)存儲節(jié)點存儲數(shù)據(jù)塊數(shù)據(jù)和數(shù)據(jù)塊地址映射信息。(2)數(shù)據(jù)塊查找操作包括以下步驟:步驟2.1、數(shù)據(jù)塊b所在數(shù)據(jù)存儲節(jié)點根據(jù)其索引號用反向可逆函數(shù)計算數(shù)據(jù)塊b所在邏輯組的新ID;步驟2.2、數(shù)據(jù)塊b所在數(shù)據(jù)存儲節(jié)點根據(jù)數(shù)據(jù)塊b所在邏輯組ID,用反向可逆函數(shù)計算數(shù)據(jù)塊b的物理ID,為文件系統(tǒng)恢復完整的數(shù)據(jù)文件提供條件;步驟2.3、數(shù)據(jù)存儲節(jié)點根據(jù)數(shù)據(jù)塊的物理ID,獲取數(shù)據(jù)塊在存儲節(jié)點的映射信息;步驟2.4、數(shù)據(jù)存儲節(jié)點根據(jù)數(shù)據(jù)塊b的映射信息取數(shù)據(jù)塊b的數(shù)據(jù)送文件系統(tǒng)。(3)失效數(shù)據(jù)存儲節(jié)點失效處理操作包括以下步驟:步驟3.1、確定失效數(shù)據(jù)存儲節(jié)點所在邏輯分組;步驟3.2、選擇數(shù)據(jù)存儲失效節(jié)點以外的邏輯分組中負載最小的數(shù)據(jù)存儲節(jié)點作為后備節(jié)點;步驟3.3、多個后備數(shù)據(jù)存儲節(jié)點采用智能重組映射方法并行復制各個邏輯組中對應的該失效數(shù)據(jù)存儲節(jié)點中包含的數(shù)據(jù)。(4)添加新數(shù)據(jù)存儲節(jié)點操作包括以下步驟:步驟4.1、計算整個系統(tǒng)中所有邏輯組中數(shù)據(jù)存儲節(jié)點的平均負載COVave;步驟4.2、選擇一個邏輯組,計算該組中所有數(shù)據(jù)存儲節(jié)點中最大的負載COVmax;步驟4.3、比較COVmax和COVave的大小,如果COVmax≥COVave,用新加入數(shù)據(jù)存儲節(jié)點替換邏輯組該數(shù)據(jù)存儲節(jié)點。否則,選取下一個邏輯組,重復步驟4.1、步驟4.2和步驟4.3,直到新加入的數(shù)據(jù)存儲節(jié)點的負載達到或接近系統(tǒng)中數(shù)據(jù)存儲節(jié)點的平均負載為止。這種數(shù)據(jù)密集型文件系統(tǒng)自治塊管理方法的優(yōu)勢在于:(1)大大減少了主節(jié)點存儲空間開銷。將數(shù)據(jù)塊到數(shù)據(jù)存儲節(jié)點映射信息從傳統(tǒng)的元數(shù)據(jù)中分離出來,由每個數(shù)據(jù)存儲節(jié)點自主的進行存儲和管理,主節(jié)點不需要保存和維護大量的數(shù)據(jù)塊地址信息,使主節(jié)點保存的元數(shù)據(jù)信息比傳統(tǒng)文件系統(tǒng)減少90%以上。(2)大大的提高主節(jié)點的處理能力。數(shù)據(jù)塊和數(shù)據(jù)存儲節(jié)點之間的映射信息由每個數(shù)據(jù)存儲節(jié)點自主的存儲和維護,消除了主節(jié)點的負擔。此種方法與分布式文件系統(tǒng)HDFS相比,可使主節(jié)點的處理性能提高了30%以上。(3)提高了系統(tǒng)的可恢復性和可擴展性。當數(shù)據(jù)存儲節(jié)點故障時通過采用智能重組映射方法,當添加新數(shù)據(jù)存儲節(jié)點時通過采用解耦地址映射方法,這樣只遷移少數(shù)數(shù)據(jù)塊就能完成失效數(shù)據(jù)節(jié)點數(shù)據(jù)的恢復和新添加數(shù)據(jù)節(jié)點數(shù)據(jù)的復制,大大提高了系統(tǒng)的可恢復性和可擴展性。附圖說明圖1為本發(fā)明具體操作的流程圖;圖2為本發(fā)明中主節(jié)點和數(shù)據(jù)存儲節(jié)點管理功能劃分的示意圖;圖3為連續(xù)塊到數(shù)據(jù)節(jié)點的映射和數(shù)據(jù)節(jié)點到塊的查找的示例;圖4為數(shù)據(jù)節(jié)點失效恢復過程的示例;圖5為新數(shù)據(jù)節(jié)點添加過程的示例。具體實施方式為了使本發(fā)明實現(xiàn)的技術(shù)手段、創(chuàng)作特征、達成目的與功效易于明白了解,下面結(jié)合圖示與具體實施例,進一步闡述本發(fā)明提出的一種輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法。一種輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法,通過一組可逆數(shù)學函數(shù)實現(xiàn)數(shù)據(jù)塊到數(shù)據(jù)節(jié)點及數(shù)據(jù)節(jié)點到數(shù)據(jù)塊的映射。如圖2所示,本發(fā)明中各節(jié)點具體功能的劃分:主節(jié)點只負責系統(tǒng)命名空間維護、數(shù)據(jù)塊到數(shù)據(jù)存儲節(jié)點的分布、各個數(shù)據(jù)存儲節(jié)點的管理;各個數(shù)據(jù)存儲節(jié)點負責數(shù)據(jù)塊的一致性檢查、數(shù)據(jù)塊恢復和數(shù)據(jù)存儲節(jié)點的映射信息存儲和維護。如圖1所示,本發(fā)明所述的自治塊管理方法,具體包括以下幾種操作:操作1、數(shù)據(jù)塊存儲操作;操作2、數(shù)據(jù)塊查找操作;操作3、失效數(shù)據(jù)存儲節(jié)點失效處理操作;操作4、添加新數(shù)據(jù)存儲節(jié)點操作。(1)數(shù)據(jù)塊存儲操作,包括以下步驟:步驟1.1、主節(jié)點通過可逆的線性哈希函數(shù)選擇塊所在邏輯組(LG);步驟1.2、主節(jié)點通過可逆的位移分割函數(shù)選擇邏輯組中數(shù)據(jù)存儲節(jié)點存儲數(shù)據(jù)塊數(shù)據(jù);步驟1.3、數(shù)據(jù)存儲節(jié)點存儲數(shù)據(jù)塊數(shù)據(jù)和數(shù)據(jù)塊地址映射信息。數(shù)據(jù)塊存儲操作的步驟1.1中,通過可逆的線性哈希函數(shù)選擇數(shù)據(jù)塊所在的邏輯組(LG)公式:其中,g是要映射的邏輯組ID,x是系統(tǒng)中當前的組數(shù),X是開始時系統(tǒng)中的邏輯組數(shù),b是要存儲數(shù)據(jù)塊在其文件中的塊ID,s是新增的邏輯組數(shù),數(shù)據(jù)塊存儲操作的步驟1.2中,通過可逆的位移分割函數(shù)選擇邏輯組中數(shù)據(jù)存儲節(jié)點的過程包括:A)計算數(shù)據(jù)塊b映射到邏輯組g后的新塊標識,其公式:其中,a是數(shù)據(jù)塊在邏輯組g中的新標識,x是當前邏輯組數(shù),X是初始的邏輯組數(shù),b給定數(shù)據(jù)塊ID,s是新增的邏輯組數(shù),B)計算數(shù)據(jù)塊b映射到邏輯組g中的數(shù)據(jù)存儲節(jié)點的索引ID,其公式:d=node(a,i)=(a+i)%4(3)其中,a是數(shù)據(jù)塊b在邏輯組g中的新數(shù)據(jù)塊標識,i是數(shù)據(jù)塊b的副本號(取值0、1、2),d為數(shù)據(jù)塊b在邏輯組選擇的數(shù)據(jù)存儲節(jié)點的索引(取值0、1、2、3)。所述的副本號,是指密集型文件系統(tǒng)為每個數(shù)據(jù)塊提供三個副本,充分保證其可用性,其編號為0、1、2;所述數(shù)據(jù)存儲節(jié)點的索引,是指一個邏輯組中的所有數(shù)據(jù)存儲節(jié)點的編號,本發(fā)明中每個邏輯組包括4個數(shù)據(jù)存儲節(jié)點,其索引號分別為0、1、2、3。(2)數(shù)據(jù)塊查找操作包括以下步驟:步驟2.1、數(shù)據(jù)塊b所在數(shù)據(jù)存儲節(jié)點根據(jù)其索引號用反向可逆函數(shù)計算數(shù)據(jù)塊b所在邏輯組的新ID;步驟2.2、數(shù)據(jù)塊b所在數(shù)據(jù)存儲節(jié)點根據(jù)數(shù)據(jù)塊b所在邏輯組ID,用反向可逆函數(shù)計算數(shù)據(jù)塊b的物理ID,為文件系統(tǒng)恢復完整的數(shù)據(jù)文件提供條件;步驟2.3、數(shù)據(jù)存儲節(jié)點根據(jù)數(shù)據(jù)塊的物理ID,獲取數(shù)據(jù)塊在存儲節(jié)點的映射信息;步驟2.4、數(shù)據(jù)存儲節(jié)點根據(jù)數(shù)據(jù)塊b的映射信息獲取數(shù)據(jù)塊b的數(shù)據(jù)送至文件系統(tǒng)。數(shù)據(jù)塊查找操作中的步驟2.1根據(jù)數(shù)據(jù)存儲節(jié)點索引號d用反向可逆函數(shù)計算數(shù)據(jù)塊b所在邏輯組的新ID,其公式:d=(a+i)%4→可逆運算→a=4·j+(d-i)%4(4)其中i表示數(shù)據(jù)塊的副本號,可以迭代取0、1、2,j可取0、1、2、…、n等;數(shù)據(jù)塊查找操作中的步驟2.2反向可逆函數(shù)計算數(shù)據(jù)塊b的物理ID,其公式:其中,g是包含給定數(shù)據(jù)存儲節(jié)點邏輯組的索引,圖3(a)是連續(xù)的數(shù)據(jù)塊通過線性哈希映射到各個邏輯組,并通過遷移劃分實現(xiàn)數(shù)據(jù)塊在邏輯組中各個數(shù)據(jù)存儲節(jié)點的分布式存儲;圖3(b)是以數(shù)據(jù)節(jié)點2為例,演示通過可逆函數(shù)實現(xiàn)逆向查找數(shù)據(jù)塊的過程。(3)失效數(shù)據(jù)存儲節(jié)點失效處理操作包括以下步驟:步驟3.1、確定失效數(shù)據(jù)存儲節(jié)點所在邏輯分組;步驟3.2、選擇數(shù)據(jù)存儲失效節(jié)點以外的邏輯分組中負載最小的數(shù)據(jù)存儲節(jié)點作為后備節(jié)點;步驟3.3、多個后備數(shù)據(jù)存儲節(jié)點采用智能重組映射方法并行復制各個邏輯組中對應的該失效數(shù)據(jù)存儲節(jié)點中包含的數(shù)據(jù)。所述的智能重組映射方法,是選取后備數(shù)據(jù)存儲節(jié)點數(shù)與包含失效數(shù)據(jù)存儲節(jié)點的邏輯組數(shù)相等,一個失效數(shù)據(jù)存儲節(jié)點可能被包含在多個邏輯組中,每一個后備數(shù)據(jù)存儲節(jié)點只負責復制一個對應的邏輯組中該失效數(shù)據(jù)存儲節(jié)點中的部分數(shù)據(jù)。圖4以數(shù)據(jù)節(jié)點2失效為例,演示了各個邏輯組對數(shù)據(jù)節(jié)點2替換恢復過程。(4)添加新數(shù)據(jù)存儲節(jié)點操作,主要采用解耦地址映射方法,包括以下步驟:步驟4.1、計算整個系統(tǒng)中所有邏輯組中數(shù)據(jù)存儲節(jié)點的平均負載COVave;步驟4.2、選擇一個邏輯組,計算該組中所有數(shù)據(jù)存儲節(jié)點中最大的負載COVmax;步驟4.3、比較COVmax和COVave的大小,如果COVmax≥COVave,用新加入數(shù)據(jù)存儲節(jié)點替換邏輯組中負載最大的數(shù)據(jù)存儲節(jié)點。否則,選取下一個邏輯組,重復步驟4.1、步驟4.2和步驟4.3,直到新加入的數(shù)據(jù)存儲節(jié)點的負載達到或接近系統(tǒng)中數(shù)據(jù)存儲節(jié)點的平均負載為止。圖5演示了系統(tǒng)添加新數(shù)據(jù)節(jié)點node128構(gòu)成新的新邏輯組LG1000時,整個系統(tǒng)的數(shù)據(jù)塊遷移過程。通過圖4和圖5可以看出,系統(tǒng)通過可逆函數(shù)并采用智能重組映射方法和采用解耦地址映射方法,使數(shù)據(jù)節(jié)點失效和新數(shù)據(jù)節(jié)點添加時,只有很少的數(shù)據(jù)塊遷移,充分保證了系統(tǒng)的穩(wěn)定性和對用戶的可用性。下面用一個實例來闡述本方法。選擇HDFS作為數(shù)據(jù)密集型文件系統(tǒng),通過仿真10000個數(shù)據(jù)節(jié)點,1000000個數(shù)據(jù)塊的大數(shù)據(jù)環(huán)境下,在采用輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法和不采用該方法時主節(jié)點內(nèi)存占用情況如表1所示,主節(jié)點CUP占用情況如表2所示。其中1000000數(shù)據(jù)塊是均勻分布在10000數(shù)據(jù)節(jié)點中,每個數(shù)據(jù)塊大小為64MB。表1主節(jié)點管理數(shù)據(jù)塊內(nèi)存占用情況數(shù)據(jù)節(jié)點數(shù)1000200050007000900010000優(yōu)化后占用內(nèi)存(MB)152027364250未優(yōu)化占用內(nèi)存(MB)180186189192194196表2主節(jié)點管理數(shù)據(jù)塊CPU占用情況數(shù)據(jù)節(jié)點數(shù)5002000300040005000優(yōu)化后CPU占用率(%)1.42.32.53.14.2未優(yōu)化后CPU占用率(%)6.312.116.619.823.2從表1和表2可知,采用輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法后,主節(jié)點的內(nèi)存占用情況和CPU的占用情況明顯優(yōu)于未采用輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法的情況。盡管本發(fā)明的內(nèi)容已經(jīng)通過上述優(yōu)選實施例作了詳細介紹,但應當認識到上述的描述不應被認為是對本發(fā)明的限制。在本領(lǐng)域技術(shù)人員閱讀了上述內(nèi)容后,對于本發(fā)明的多種修改和替代都將是顯而易見的。因此,本發(fā)明的保護范圍應由所附的權(quán)利要求來限定。當前第1頁1 2 3 
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1