一種輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法與流程

文檔序號：12362583閱讀：244來源：國知局

本發(fā)明涉及計算機安全技術(shù)，尤其涉及一種輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法。
背景技術(shù)：
：數(shù)據(jù)密集型文件系統(tǒng)DiFS，例如谷歌文件系統(tǒng)GFS、Hadoop分布式文件系統(tǒng)HDFS等,已經(jīng)成為大數(shù)據(jù)存儲管理的主要文件系統(tǒng)。當前的數(shù)據(jù)密集型文件系統(tǒng)DiFS采用主從式架構(gòu)，主節(jié)點(元數(shù)據(jù)服務器)管理所有的元數(shù)據(jù)，從節(jié)點(數(shù)據(jù)存儲節(jié)點)只負責數(shù)據(jù)存儲。為了維持高可用性，這些存儲系統(tǒng)通常將數(shù)據(jù)文件分為固定大小的塊，每個數(shù)據(jù)塊通常有3個副本，并將它們都分配到不同的集群的數(shù)據(jù)存儲節(jié)點中。主節(jié)點必須記錄成百上千個數(shù)據(jù)存儲節(jié)點的地址，以及記錄所有數(shù)據(jù)文件的數(shù)據(jù)塊到這些存儲節(jié)點的映射信息。并且，主節(jié)點必須定期地檢查所有數(shù)據(jù)塊的地址映射信息的變化。隨著數(shù)據(jù)量的不斷增大，這些元數(shù)據(jù)信息不僅占據(jù)了主節(jié)點的內(nèi)存空間，影響主節(jié)點的處理能力，而且嚴重地限制了主節(jié)點的可擴展性。為了解決數(shù)據(jù)密集型文件系統(tǒng)存在的問題，將數(shù)據(jù)文件物理塊的分配和維護從元數(shù)據(jù)管理中分離出來，由每個數(shù)據(jù)存儲節(jié)點執(zhí)行數(shù)據(jù)塊到存儲節(jié)點映射信息的維護方法應運而生。應用此方法，主節(jié)點不需要再保存大量的數(shù)據(jù)塊元數(shù)據(jù)信息以及數(shù)據(jù)塊到數(shù)據(jù)存儲節(jié)點的映射表信息，而是需要用一組數(shù)據(jù)塊到數(shù)據(jù)存儲節(jié)點、數(shù)據(jù)存儲節(jié)點到數(shù)據(jù)塊之間的可逆映射函數(shù)完成。數(shù)據(jù)密集型文件系統(tǒng)管理海量的數(shù)據(jù)，這些數(shù)據(jù)具有以下特點：1)數(shù)據(jù)量大，數(shù)據(jù)總量增長快；2)數(shù)據(jù)存儲性能需求高；3)要求高可靠性和高可恢復性：當數(shù)據(jù)發(fā)生丟失或數(shù)據(jù)存儲節(jié)點失效時，在不影響正常工作的前提下，能夠快速的恢復原數(shù)據(jù)；4)要求能夠快速的查找數(shù)據(jù)塊的存儲位置；5)要求盡量少的占用主節(jié)點的內(nèi)存空間和盡量少的影響主節(jié)點的處理能力；從以上分析可以看出，傳統(tǒng)文件系統(tǒng)的管理方法不適應數(shù)據(jù)密集型文件系統(tǒng)的管理，主要原因：1)隨著數(shù)據(jù)量的不斷增大，文件數(shù)據(jù)塊地址表的存儲將占用大量的存儲空間；2)主節(jié)點負責文件數(shù)據(jù)塊地址表的維護，隨著文件數(shù)據(jù)塊地址表的不斷增加，大大降低了主節(jié)點的處理能力；3)數(shù)據(jù)量的不斷增加不僅占用了主節(jié)點大量的存儲空間，增大了地址等元數(shù)據(jù)維護成本，同時還降低了主節(jié)點的可擴展性；4)每個數(shù)據(jù)存儲節(jié)點在進行存儲和查詢時都要先咨詢主節(jié)點，這樣增加尋址的時間。技術(shù)實現(xiàn)要素：針對數(shù)據(jù)密集型文件系統(tǒng)的數(shù)據(jù)塊存儲和查詢管理需求，本發(fā)明提供了一種輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法，通過將物理數(shù)據(jù)塊的分配、查詢和相關(guān)元數(shù)據(jù)維護從傳統(tǒng)的元數(shù)據(jù)管理中分離出來，由每個數(shù)據(jù)存儲節(jié)點完成，減少主節(jié)點存儲空間的開銷和負擔。本發(fā)明可提升大數(shù)據(jù)環(huán)境下的數(shù)據(jù)密集型文件系統(tǒng)的可擴展性、減少數(shù)據(jù)塊尋址時間，并可大副度提高整個系統(tǒng)的性能。本發(fā)明的技術(shù)原理在于，本發(fā)明是通過交叉遷移劃分方法(ISD，IntersectedShiftedDeclustering)實現(xiàn)數(shù)據(jù)塊的自治管理，即通過用一組可逆數(shù)學函數(shù)實現(xiàn)數(shù)據(jù)塊到數(shù)據(jù)存儲節(jié)點，以及數(shù)據(jù)存儲節(jié)點到數(shù)據(jù)塊的映射，完成數(shù)據(jù)塊的分布式存儲和快速查詢等。本發(fā)明具體包含以下幾種操作：操作1、數(shù)據(jù)塊存儲操作；操作2、數(shù)據(jù)塊查找操作；操作3、失效數(shù)據(jù)存儲節(jié)點失效處理操作；操作4、添加新數(shù)據(jù)存儲節(jié)點操作。(1)數(shù)據(jù)塊存儲操作包括以下步驟：步驟1.1、主節(jié)點通過可逆的線性哈希函數(shù)選擇數(shù)據(jù)塊所在邏輯組(LG)；步驟1.2、主節(jié)點通過可逆的位移分割函數(shù)選擇邏輯組中數(shù)據(jù)存儲節(jié)點存儲數(shù)據(jù)塊數(shù)據(jù)；步驟1.3、數(shù)據(jù)存儲節(jié)點存儲數(shù)據(jù)塊數(shù)據(jù)和數(shù)據(jù)塊地址映射信息。(2)數(shù)據(jù)塊查找操作包括以下步驟：步驟2.1、數(shù)據(jù)塊b所在數(shù)據(jù)存儲節(jié)點根據(jù)其索引號用反向可逆函數(shù)計算數(shù)據(jù)塊b所在邏輯組的新ID；步驟2.2、數(shù)據(jù)塊b所在數(shù)據(jù)存儲節(jié)點根據(jù)數(shù)據(jù)塊b所在邏輯組ID，用反向可逆函數(shù)計算數(shù)據(jù)塊b的物理ID，為文件系統(tǒng)恢復完整的數(shù)據(jù)文件提供條件；步驟2.3、數(shù)據(jù)存儲節(jié)點根據(jù)數(shù)據(jù)塊的物理ID，獲取數(shù)據(jù)塊在存儲節(jié)點的映射信息；步驟2.4、數(shù)據(jù)存儲節(jié)點根據(jù)數(shù)據(jù)塊b的映射信息取數(shù)據(jù)塊b的數(shù)據(jù)送文件系統(tǒng)。(3)失效數(shù)據(jù)存儲節(jié)點失效處理操作包括以下步驟：步驟3.1、確定失效數(shù)據(jù)存儲節(jié)點所在邏輯分組；步驟3.2、選擇數(shù)據(jù)存儲失效節(jié)點以外的邏輯分組中負載最小的數(shù)據(jù)存儲節(jié)點作為后備節(jié)點；步驟3.3、多個后備數(shù)據(jù)存儲節(jié)點采用智能重組映射方法并行復制各個邏輯組中對應的該失效數(shù)據(jù)存儲節(jié)點中包含的數(shù)據(jù)。(4)添加新數(shù)據(jù)存儲節(jié)點操作包括以下步驟：步驟4.1、計算整個系統(tǒng)中所有邏輯組中數(shù)據(jù)存儲節(jié)點的平均負載COVave；步驟4.2、選擇一個邏輯組，計算該組中所有數(shù)據(jù)存儲節(jié)點中最大的負載COVmax；步驟4.3、比較COVmax和COVave的大小，如果COVmax≥COVave，用新加入數(shù)據(jù)存儲節(jié)點替換邏輯組該數(shù)據(jù)存儲節(jié)點。否則，選取下一個邏輯組，重復步驟4.1、步驟4.2和步驟4.3，直到新加入的數(shù)據(jù)存儲節(jié)點的負載達到或接近系統(tǒng)中數(shù)據(jù)存儲節(jié)點的平均負載為止。這種數(shù)據(jù)密集型文件系統(tǒng)自治塊管理方法的優(yōu)勢在于：(1)大大減少了主節(jié)點存儲空間開銷。將數(shù)據(jù)塊到數(shù)據(jù)存儲節(jié)點映射信息從傳統(tǒng)的元數(shù)據(jù)中分離出來，由每個數(shù)據(jù)存儲節(jié)點自主的進行存儲和管理，主節(jié)點不需要保存和維護大量的數(shù)據(jù)塊地址信息，使主節(jié)點保存的元數(shù)據(jù)信息比傳統(tǒng)文件系統(tǒng)減少90％以上。(2)大大的提高主節(jié)點的處理能力。數(shù)據(jù)塊和數(shù)據(jù)存儲節(jié)點之間的映射信息由每個數(shù)據(jù)存儲節(jié)點自主的存儲和維護，消除了主節(jié)點的負擔。此種方法與分布式文件系統(tǒng)HDFS相比，可使主節(jié)點的處理性能提高了30％以上。(3)提高了系統(tǒng)的可恢復性和可擴展性。當數(shù)據(jù)存儲節(jié)點故障時通過采用智能重組映射方法，當添加新數(shù)據(jù)存儲節(jié)點時通過采用解耦地址映射方法，這樣只遷移少數(shù)數(shù)據(jù)塊就能完成失效數(shù)據(jù)節(jié)點數(shù)據(jù)的恢復和新添加數(shù)據(jù)節(jié)點數(shù)據(jù)的復制，大大提高了系統(tǒng)的可恢復性和可擴展性。附圖說明圖1為本發(fā)明具體操作的流程圖；圖2為本發(fā)明中主節(jié)點和數(shù)據(jù)存儲節(jié)點管理功能劃分的示意圖；圖3為連續(xù)塊到數(shù)據(jù)節(jié)點的映射和數(shù)據(jù)節(jié)點到塊的查找的示例；圖4為數(shù)據(jù)節(jié)點失效恢復過程的示例；圖5為新數(shù)據(jù)節(jié)點添加過程的示例。具體實施方式為了使本發(fā)明實現(xiàn)的技術(shù)手段、創(chuàng)作特征、達成目的與功效易于明白了解，下面結(jié)合圖示與具體實施例，進一步闡述本發(fā)明提出的一種輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法。一種輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法，通過一組可逆數(shù)學函數(shù)實現(xiàn)數(shù)據(jù)塊到數(shù)據(jù)節(jié)點及數(shù)據(jù)節(jié)點到數(shù)據(jù)塊的映射。如圖2所示，本發(fā)明中各節(jié)點具體功能的劃分：主節(jié)點只負責系統(tǒng)命名空間維護、數(shù)據(jù)塊到數(shù)據(jù)存儲節(jié)點的分布、各個數(shù)據(jù)存儲節(jié)點的管理；各個數(shù)據(jù)存儲節(jié)點負責數(shù)據(jù)塊的一致性檢查、數(shù)據(jù)塊恢復和數(shù)據(jù)存儲節(jié)點的映射信息存儲和維護。如圖1所示，本發(fā)明所述的自治塊管理方法，具體包括以下幾種操作：操作1、數(shù)據(jù)塊存儲操作；操作2、數(shù)據(jù)塊查找操作；操作3、失效數(shù)據(jù)存儲節(jié)點失效處理操作；操作4、添加新數(shù)據(jù)存儲節(jié)點操作。(1)數(shù)據(jù)塊存儲操作，包括以下步驟：步驟1.1、主節(jié)點通過可逆的線性哈希函數(shù)選擇塊所在邏輯組(LG)；步驟1.2、主節(jié)點通過可逆的位移分割函數(shù)選擇邏輯組中數(shù)據(jù)存儲節(jié)點存儲數(shù)據(jù)塊數(shù)據(jù)；步驟1.3、數(shù)據(jù)存儲節(jié)點存儲數(shù)據(jù)塊數(shù)據(jù)和數(shù)據(jù)塊地址映射信息。數(shù)據(jù)塊存儲操作的步驟1.1中，通過可逆的線性哈希函數(shù)選擇數(shù)據(jù)塊所在的邏輯組(LG)公式：其中，g是要映射的邏輯組ID，x是系統(tǒng)中當前的組數(shù)，X是開始時系統(tǒng)中的邏輯組數(shù)，b是要存儲數(shù)據(jù)塊在其文件中的塊ID，s是新增的邏輯組數(shù)，數(shù)據(jù)塊存儲操作的步驟1.2中，通過可逆的位移分割函數(shù)選擇邏輯組中數(shù)據(jù)存儲節(jié)點的過程包括：A)計算數(shù)據(jù)塊b映射到邏輯組g后的新塊標識，其公式：其中，a是數(shù)據(jù)塊在邏輯組g中的新標識，x是當前邏輯組數(shù)，X是初始的邏輯組數(shù)，b給定數(shù)據(jù)塊ID，s是新增的邏輯組數(shù)，B)計算數(shù)據(jù)塊b映射到邏輯組g中的數(shù)據(jù)存儲節(jié)點的索引ID，其公式：d＝node(a，i)＝(a+i)％4(3)其中，a是數(shù)據(jù)塊b在邏輯組g中的新數(shù)據(jù)塊標識，i是數(shù)據(jù)塊b的副本號(取值0、1、2)，d為數(shù)據(jù)塊b在邏輯組選擇的數(shù)據(jù)存儲節(jié)點的索引(取值0、1、2、3)。所述的副本號，是指密集型文件系統(tǒng)為每個數(shù)據(jù)塊提供三個副本，充分保證其可用性，其編號為0、1、2；所述數(shù)據(jù)存儲節(jié)點的索引，是指一個邏輯組中的所有數(shù)據(jù)存儲節(jié)點的編號，本發(fā)明中每個邏輯組包括4個數(shù)據(jù)存儲節(jié)點，其索引號分別為0、1、2、3。(2)數(shù)據(jù)塊查找操作包括以下步驟：步驟2.1、數(shù)據(jù)塊b所在數(shù)據(jù)存儲節(jié)點根據(jù)其索引號用反向可逆函數(shù)計算數(shù)據(jù)塊b所在邏輯組的新ID；步驟2.2、數(shù)據(jù)塊b所在數(shù)據(jù)存儲節(jié)點根據(jù)數(shù)據(jù)塊b所在邏輯組ID，用反向可逆函數(shù)計算數(shù)據(jù)塊b的物理ID，為文件系統(tǒng)恢復完整的數(shù)據(jù)文件提供條件；步驟2.3、數(shù)據(jù)存儲節(jié)點根據(jù)數(shù)據(jù)塊的物理ID，獲取數(shù)據(jù)塊在存儲節(jié)點的映射信息；步驟2.4、數(shù)據(jù)存儲節(jié)點根據(jù)數(shù)據(jù)塊b的映射信息獲取數(shù)據(jù)塊b的數(shù)據(jù)送至文件系統(tǒng)。數(shù)據(jù)塊查找操作中的步驟2.1根據(jù)數(shù)據(jù)存儲節(jié)點索引號d用反向可逆函數(shù)計算數(shù)據(jù)塊b所在邏輯組的新ID，其公式：d＝(a+i)％4→可逆運算→a＝4·j+(d-i)％4(4)其中i表示數(shù)據(jù)塊的副本號，可以迭代取0、1、2，j可取0、1、2、…、n等；數(shù)據(jù)塊查找操作中的步驟2.2反向可逆函數(shù)計算數(shù)據(jù)塊b的物理ID，其公式：其中，g是包含給定數(shù)據(jù)存儲節(jié)點邏輯組的索引，圖3(a)是連續(xù)的數(shù)據(jù)塊通過線性哈希映射到各個邏輯組，并通過遷移劃分實現(xiàn)數(shù)據(jù)塊在邏輯組中各個數(shù)據(jù)存儲節(jié)點的分布式存儲；圖3(b)是以數(shù)據(jù)節(jié)點2為例，演示通過可逆函數(shù)實現(xiàn)逆向查找數(shù)據(jù)塊的過程。(3)失效數(shù)據(jù)存儲節(jié)點失效處理操作包括以下步驟：步驟3.1、確定失效數(shù)據(jù)存儲節(jié)點所在邏輯分組；步驟3.2、選擇數(shù)據(jù)存儲失效節(jié)點以外的邏輯分組中負載最小的數(shù)據(jù)存儲節(jié)點作為后備節(jié)點；步驟3.3、多個后備數(shù)據(jù)存儲節(jié)點采用智能重組映射方法并行復制各個邏輯組中對應的該失效數(shù)據(jù)存儲節(jié)點中包含的數(shù)據(jù)。所述的智能重組映射方法，是選取后備數(shù)據(jù)存儲節(jié)點數(shù)與包含失效數(shù)據(jù)存儲節(jié)點的邏輯組數(shù)相等，一個失效數(shù)據(jù)存儲節(jié)點可能被包含在多個邏輯組中，每一個后備數(shù)據(jù)存儲節(jié)點只負責復制一個對應的邏輯組中該失效數(shù)據(jù)存儲節(jié)點中的部分數(shù)據(jù)。圖4以數(shù)據(jù)節(jié)點2失效為例，演示了各個邏輯組對數(shù)據(jù)節(jié)點2替換恢復過程。(4)添加新數(shù)據(jù)存儲節(jié)點操作，主要采用解耦地址映射方法，包括以下步驟：步驟4.1、計算整個系統(tǒng)中所有邏輯組中數(shù)據(jù)存儲節(jié)點的平均負載COVave；步驟4.2、選擇一個邏輯組，計算該組中所有數(shù)據(jù)存儲節(jié)點中最大的負載COVmax；步驟4.3、比較COVmax和COVave的大小，如果COVmax≥COVave，用新加入數(shù)據(jù)存儲節(jié)點替換邏輯組中負載最大的數(shù)據(jù)存儲節(jié)點。否則，選取下一個邏輯組，重復步驟4.1、步驟4.2和步驟4.3，直到新加入的數(shù)據(jù)存儲節(jié)點的負載達到或接近系統(tǒng)中數(shù)據(jù)存儲節(jié)點的平均負載為止。圖5演示了系統(tǒng)添加新數(shù)據(jù)節(jié)點node128構(gòu)成新的新邏輯組LG1000時，整個系統(tǒng)的數(shù)據(jù)塊遷移過程。通過圖4和圖5可以看出，系統(tǒng)通過可逆函數(shù)并采用智能重組映射方法和采用解耦地址映射方法，使數(shù)據(jù)節(jié)點失效和新數(shù)據(jù)節(jié)點添加時，只有很少的數(shù)據(jù)塊遷移，充分保證了系統(tǒng)的穩(wěn)定性和對用戶的可用性。下面用一個實例來闡述本方法。選擇HDFS作為數(shù)據(jù)密集型文件系統(tǒng)，通過仿真10000個數(shù)據(jù)節(jié)點，1000000個數(shù)據(jù)塊的大數(shù)據(jù)環(huán)境下，在采用輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法和不采用該方法時主節(jié)點內(nèi)存占用情況如表1所示，主節(jié)點CUP占用情況如表2所示。其中1000000數(shù)據(jù)塊是均勻分布在10000數(shù)據(jù)節(jié)點中，每個數(shù)據(jù)塊大小為64MB。表1主節(jié)點管理數(shù)據(jù)塊內(nèi)存占用情況數(shù)據(jù)節(jié)點數(shù)1000200050007000900010000優(yōu)化后占用內(nèi)存(MB)152027364250未優(yōu)化占用內(nèi)存(MB)180186189192194196表2主節(jié)點管理數(shù)據(jù)塊CPU占用情況數(shù)據(jù)節(jié)點數(shù)5002000300040005000優(yōu)化后CPU占用率(％)1.42.32.53.14.2未優(yōu)化后CPU占用率(％)6.312.116.619.823.2從表1和表2可知，采用輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法后，主節(jié)點的內(nèi)存占用情況和CPU的占用情況明顯優(yōu)于未采用輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法的情況。盡管本發(fā)明的內(nèi)容已經(jīng)通過上述優(yōu)選實施例作了詳細介紹，但應當認識到上述的描述不應被認為是對本發(fā)明的限制。在本領(lǐng)域技術(shù)人員閱讀了上述內(nèi)容后，對于本發(fā)明的多種修改和替代都將是顯而易見的。因此，本發(fā)明的保護范圍應由所附的權(quán)利要求來限定。當前第1頁1 2 3

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳付梅;韓德志;畢坤;王軍;
技術(shù)所有人：上海海事大學;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

輕量級分布式文件系統(tǒng)相關(guān)技術(shù)

文件系統(tǒng)元數(shù)據(jù)相關(guān)技術(shù)

數(shù)據(jù)庫系統(tǒng)和文件系統(tǒng)相關(guān)技術(shù)

文件系統(tǒng)數(shù)據(jù)結(jié)構(gòu)相關(guān)技術(shù)

文件系統(tǒng)的元數(shù)據(jù)相關(guān)技術(shù)

大數(shù)據(jù)文件系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種輕量級的數(shù)據(jù)密集型文件系統(tǒng)的自治塊管理方法與流程