本技術(shù)涉及計(jì)算機(jī),尤其涉及數(shù)據(jù)分布管理方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及產(chǎn)品。
背景技術(shù):
1、目前,隨著大數(shù)據(jù)技術(shù)的發(fā)展,“東數(shù)西算”工程被提出,旨在通過(guò)構(gòu)建數(shù)據(jù)中心、云計(jì)算、大數(shù)據(jù)一體化的新型算力網(wǎng)絡(luò)體系,將東部算力需求有序引導(dǎo)到西部,優(yōu)化數(shù)據(jù)中心建設(shè)布局,促進(jìn)東西部協(xié)同聯(lián)動(dòng),即“東數(shù)西算”工程是將東部數(shù)據(jù)中心的數(shù)據(jù)送到西部數(shù)據(jù)中心進(jìn)行存儲(chǔ)和計(jì)算,讓西部數(shù)據(jù)中心的算力資源更充分地支撐東部數(shù)據(jù)中心數(shù)據(jù)的運(yùn)算。
2、在“東數(shù)西算”的大框架下,大量數(shù)據(jù)從東往西流動(dòng),越來(lái)越多的數(shù)據(jù)會(huì)存放在西部數(shù)據(jù)中心,或者將數(shù)據(jù)放到西部數(shù)據(jù)中心來(lái)計(jì)算,如何提高數(shù)據(jù)分布管理的合理性,是目前急需解決的技術(shù)問(wèn)題。
3、上述內(nèi)容僅用于輔助理解本技術(shù)的技術(shù)方案,并不代表承認(rèn)上述內(nèi)容是現(xiàn)有技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的主要目的在于提供一種數(shù)據(jù)分布管理方法,旨在解決如何提高數(shù)據(jù)分布管理的合理性的技術(shù)問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本技術(shù)提出一種數(shù)據(jù)分布管理方法,所述數(shù)據(jù)分布管理的方法包括:
3、獲取所述第二區(qū)域集群發(fā)送的待存儲(chǔ)數(shù)據(jù),并提取所述待存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)特征信息,其中,所述數(shù)據(jù)特征信息包括屬性信息;
4、對(duì)所述數(shù)據(jù)特征信息進(jìn)行目錄匹配,得到目錄匹配結(jié)果,其中,所述目錄匹配結(jié)果包括目標(biāo)目錄層級(jí);
5、將所述待存儲(chǔ)數(shù)據(jù)保存至預(yù)設(shè)的聯(lián)邦數(shù)據(jù)目錄下對(duì)應(yīng)所述目標(biāo)目錄層級(jí)的目錄層,以實(shí)現(xiàn)不同屬性信息的數(shù)據(jù)的分層管理。
6、可選地,所述對(duì)所述數(shù)據(jù)特征信息進(jìn)行目錄匹配,得到目錄匹配結(jié)果的步驟,包括:
7、基于所述數(shù)據(jù)特征信息,通過(guò)預(yù)設(shè)的目錄分配模型進(jìn)行目錄匹配,得到目錄匹配結(jié)果;
8、其中,所述目錄分配模型是基于數(shù)據(jù)特征樣本和目錄特征樣本,對(duì)待訓(xùn)練模型進(jìn)行無(wú)監(jiān)督的迭代訓(xùn)練得到的,所述待訓(xùn)練模型為生成對(duì)抗網(wǎng)絡(luò)模型。
9、可選地,所述基于所述數(shù)據(jù)特征信息,通過(guò)預(yù)設(shè)的目錄分配模型進(jìn)行目錄匹配,得到目錄匹配結(jié)果的步驟之前,所述方法包括:
10、獲取數(shù)據(jù)特征樣本和目錄特征樣本;
11、按照預(yù)設(shè)的數(shù)據(jù)編碼,對(duì)所述數(shù)據(jù)特征樣本和所述目錄特征樣本進(jìn)行矩陣分類(lèi)整合,得到特征組合矩陣,其中,所述特征組合矩陣包括多個(gè)數(shù)據(jù)編碼,各所述數(shù)據(jù)編碼包括多個(gè)數(shù)據(jù)特征樣本和多個(gè)目錄特征樣本;
12、將所述特征組合矩陣中各數(shù)據(jù)編碼的數(shù)據(jù)特征樣本和目錄特征樣本分別與其他數(shù)據(jù)編碼的數(shù)據(jù)特征樣本和目錄特征樣本進(jìn)行相似度計(jì)算,得到各數(shù)據(jù)編碼關(guān)于每個(gè)數(shù)據(jù)特征樣本和目錄特征樣本的相似度值,并基于所述相似度值,組成各數(shù)據(jù)編碼的特征相似度矩陣;
13、對(duì)所述特征相似度矩陣進(jìn)行圖像化,得到各數(shù)據(jù)編碼的數(shù)據(jù)特征圖像;
14、將所述數(shù)據(jù)特征圖像輸入至預(yù)設(shè)的待訓(xùn)練模型進(jìn)行無(wú)監(jiān)督的迭代訓(xùn)練,得到目錄分配模型,其中,所述待訓(xùn)練模型為生成對(duì)抗網(wǎng)絡(luò)模型。
15、可選地,所述對(duì)所述特征相似度矩陣進(jìn)行圖像化,得到各數(shù)據(jù)編碼的數(shù)據(jù)特征圖像的步驟,包括:
16、獲取特征維度數(shù)量;
17、將所述特征相似度矩陣劃分為相應(yīng)所述特征維度數(shù)量的多維度特征相似度矩陣;
18、基于預(yù)設(shè)的分箱規(guī)則,將各維度特征相似度矩陣中各相似度值進(jìn)行像素值等分,得到各相似度值對(duì)應(yīng)的像素灰度值;
19、基于所述像素灰度值,生成各數(shù)據(jù)編碼的多維度特征相似度矩陣對(duì)應(yīng)的數(shù)據(jù)特征圖像。
20、可選地,所述待訓(xùn)練模型包括生成模型和判別模型,所述將所述數(shù)據(jù)特征圖像輸入至預(yù)設(shè)的待訓(xùn)練模型進(jìn)行無(wú)監(jiān)督的迭代訓(xùn)練,得到目錄分配模型的步驟,包括:
21、將所述數(shù)據(jù)特征圖像輸入至所述生成模型,基于所述生成模型進(jìn)行正樣本偽造處理,生成偽造正樣本;
22、基于所述偽造正樣本和所述數(shù)據(jù)特征圖像,通過(guò)預(yù)設(shè)的第一參數(shù)優(yōu)化方法進(jìn)行最優(yōu)參數(shù)求解,得到第一最優(yōu)參數(shù),并判斷所述第一最優(yōu)參數(shù)是否滿(mǎn)足預(yù)設(shè)的第一參數(shù)閾值條件,若所述第一最優(yōu)參數(shù)不滿(mǎn)足所述第一參數(shù)閾值條件,則返回所述將所述數(shù)據(jù)特征圖像輸入至所述生成模型,基于所述生成模型進(jìn)行正樣本偽造處理,生成偽造正樣本的步驟,直至所述第一最優(yōu)參數(shù)滿(mǎn)足所述第一參數(shù)閾值條件,得到當(dāng)前迭代輪次的目標(biāo)偽造正樣本以及訓(xùn)練后的生成模型;
23、將所述數(shù)據(jù)特征圖像和所述目標(biāo)偽造正樣本輸入至所述判別模型,通過(guò)預(yù)設(shè)的第二參數(shù)優(yōu)化方法進(jìn)行最優(yōu)參數(shù)求解,得到第二最優(yōu)參數(shù),并判斷所述第二最優(yōu)參數(shù)是否滿(mǎn)足預(yù)設(shè)的第二參數(shù)閾值條件,若所述第二最優(yōu)參數(shù)不滿(mǎn)足所述第二參數(shù)閾值條件,則返回所述將所述數(shù)據(jù)特征圖像輸入至所述生成模型,基于所述生成模型進(jìn)行正樣本偽造處理,生成偽造正樣本的步驟,直至所述第二最優(yōu)參數(shù)滿(mǎn)足所述第二參數(shù)閾值條件,得到訓(xùn)練后的判別模型;
24、基于所述訓(xùn)練后的生成模型和所述訓(xùn)練后的判別模型,組合得到目錄分配模型。
25、可選地,所述基于所述數(shù)據(jù)特征信息,通過(guò)預(yù)設(shè)的目錄分配模型進(jìn)行目錄匹配,得到目錄匹配結(jié)果的步驟,包括:
26、基于所述數(shù)據(jù)特征信息,通過(guò)預(yù)設(shè)的目錄分配模型進(jìn)行數(shù)據(jù)編碼的分類(lèi)處理,得到分類(lèi)后所述數(shù)據(jù)特征信息對(duì)應(yīng)的數(shù)據(jù)編碼;
27、將分類(lèi)后的數(shù)據(jù)編碼與目錄信息進(jìn)行歸類(lèi),得到所述數(shù)據(jù)編碼的目錄歸類(lèi)結(jié)果;
28、確定所述目錄歸類(lèi)結(jié)果對(duì)應(yīng)的數(shù)據(jù)路徑,并將所述數(shù)據(jù)編碼與所述數(shù)據(jù)路徑對(duì)應(yīng)的目錄相匹配,得到目錄匹配結(jié)果。
29、此外,為實(shí)現(xiàn)上述目的,本技術(shù)還提出一種數(shù)據(jù)分布管理裝置,所述數(shù)據(jù)分布管理裝置包括:
30、獲取模塊,用于獲取所述第二區(qū)域集群發(fā)送的待存儲(chǔ)數(shù)據(jù),并提取所述待存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)特征信息,其中,所述數(shù)據(jù)特征信息包括屬性信息;
31、匹配模塊,用于對(duì)所述數(shù)據(jù)特征信息進(jìn)行目錄匹配,得到目錄匹配結(jié)果,其中,所述目錄匹配結(jié)果包括目標(biāo)目錄層級(jí);
32、保存模塊,用于將所述待存儲(chǔ)數(shù)據(jù)保存至預(yù)設(shè)的聯(lián)邦數(shù)據(jù)目錄下對(duì)應(yīng)所述目標(biāo)目錄層級(jí)的目錄層,以實(shí)現(xiàn)不同屬性信息的數(shù)據(jù)的分層管理。
33、此外,為實(shí)現(xiàn)上述目的,本技術(shù)還提出一種數(shù)據(jù)分布管理設(shè)備,所述設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序配置為實(shí)現(xiàn)如上文所述的數(shù)據(jù)分布管理方法的步驟。
34、此外,為實(shí)現(xiàn)上述目的,本技術(shù)還提出一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的數(shù)據(jù)分布管理方法的步驟。
35、此外,為實(shí)現(xiàn)上述目的,本技術(shù)還提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的數(shù)據(jù)分布管理方法的步驟。
36、本技術(shù)提出的一個(gè)或多個(gè)技術(shù)方案,至少具有以下技術(shù)效果:
37、本技術(shù)提出第一區(qū)域集群通過(guò)對(duì)第二區(qū)域集群的待存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)特征信息,與聯(lián)邦數(shù)據(jù)目錄進(jìn)行匹配,以此得到包括目標(biāo)目錄層級(jí)的目錄匹配結(jié)果,可理解的是,該目錄匹配過(guò)程實(shí)現(xiàn)了自動(dòng)將第二區(qū)域集群的待存儲(chǔ)數(shù)據(jù)匹配到第一區(qū)域集群下的聯(lián)邦數(shù)據(jù)目錄,進(jìn)而實(shí)現(xiàn)將第二區(qū)域集群的待存儲(chǔ)數(shù)據(jù)合理地分配至第一區(qū)域集群下聯(lián)邦數(shù)據(jù)目錄的目標(biāo)目錄層級(jí),以此建立聯(lián)邦數(shù)據(jù)目錄掛載和數(shù)據(jù)緩存,使其實(shí)現(xiàn)了第一區(qū)域集群與第二區(qū)域集群之間數(shù)據(jù)的有序流動(dòng)以及不同屬性信息的數(shù)據(jù)的分層管理,進(jìn)而提高數(shù)據(jù)分布管理的合理性。