本發(fā)明涉及大規(guī)模數(shù)據(jù)管理,尤其涉及一種基于大模型的數(shù)據(jù)存儲(chǔ)方法及系統(tǒng)。
背景技術(shù):
1、大規(guī)模數(shù)據(jù)管理是信息技術(shù)領(lǐng)域的一個(gè)重要分支,專注于開發(fā)和維護(hù)處理、存儲(chǔ)和分析巨量數(shù)據(jù)集的技術(shù)和方法。這個(gè)領(lǐng)域涵蓋數(shù)據(jù)的采集、存儲(chǔ)、管理、分析和可視化等多個(gè)方面。技術(shù)領(lǐng)域的關(guān)鍵挑戰(zhàn)包括數(shù)據(jù)的高效存儲(chǔ)、快速查詢處理以及實(shí)時(shí)數(shù)據(jù)流的管理。大規(guī)模數(shù)據(jù)管理技術(shù)廣泛應(yīng)用于云計(jì)算、大數(shù)據(jù)分析、互聯(lián)網(wǎng)技術(shù)和企業(yè)數(shù)據(jù)倉庫等領(lǐng)域,是支持現(xiàn)代數(shù)據(jù)密集型應(yīng)用的基礎(chǔ)架構(gòu)。
2、其中,大模型的數(shù)據(jù)存儲(chǔ)方法是指使用大型機(jī)器學(xué)習(xí)模型來優(yōu)化數(shù)據(jù)存儲(chǔ)過程的技術(shù)。這種方法通過自動(dòng)化的數(shù)據(jù)分類、智能壓縮技術(shù)和高效的數(shù)據(jù)檢索技術(shù)來提高存儲(chǔ)系統(tǒng)的性能和數(shù)據(jù)訪問速度。主要用途包括減少存儲(chǔ)空間需求、提高數(shù)據(jù)處理速度和優(yōu)化數(shù)據(jù)中心的能效。這些技術(shù)特別適用于處理大規(guī)模的、結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)集,如社交媒體數(shù)據(jù)、科學(xué)研究數(shù)據(jù)以及企業(yè)級(jí)應(yīng)用數(shù)據(jù)。
3、現(xiàn)有大規(guī)模數(shù)據(jù)管理技術(shù)在處理大量、多樣化的數(shù)據(jù)時(shí),面臨效率和成本的雙重挑戰(zhàn)。常規(guī)的數(shù)據(jù)存儲(chǔ)方法未能有效區(qū)分?jǐn)?shù)據(jù)的重要性和使用頻率,導(dǎo)致高價(jià)值數(shù)據(jù)和低價(jià)值數(shù)據(jù)以相同方式存儲(chǔ),增加無效的存儲(chǔ)空間占用和成本?,F(xiàn)有技術(shù)在數(shù)據(jù)訪問和檢索過程中,未能實(shí)現(xiàn)數(shù)據(jù)位置的動(dòng)態(tài)優(yōu)化,導(dǎo)致數(shù)據(jù)訪問延時(shí),降低處理速度和效率。這種靜態(tài)的存儲(chǔ)和訪問方式,在數(shù)據(jù)量激增的情況下,尤其表現(xiàn)出不足,難以適應(yīng)快速變化的數(shù)據(jù)訪問需求。例如,未能頻繁更新的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)會(huì)導(dǎo)致在需求急劇變化時(shí),數(shù)據(jù)處理系統(tǒng)響應(yīng)不及時(shí),影響整個(gè)數(shù)據(jù)中心的性能和服務(wù)質(zhì)量。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是解決現(xiàn)有技術(shù)中存在的缺點(diǎn),而提出的一種基于大模型的數(shù)據(jù)存儲(chǔ)方法及系統(tǒng)。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案,一種基于大模型的數(shù)據(jù)存儲(chǔ)方法,包括以下步驟:
3、s1:收集大模型數(shù)據(jù)集中的多項(xiàng)數(shù)據(jù),記錄每種數(shù)據(jù)的出現(xiàn)次數(shù),計(jì)算每種數(shù)據(jù)的熵值,確定數(shù)據(jù)的波動(dòng)性和多樣性,生成熵值計(jì)算結(jié)果;
4、s2:根據(jù)所述熵值計(jì)算結(jié)果,利用大模型對(duì)數(shù)據(jù)按熵值進(jìn)行排序,將熵值較高的數(shù)據(jù)項(xiàng)定位高密度存儲(chǔ)區(qū),熵值較低的數(shù)據(jù)項(xiàng)定位到低密度存儲(chǔ)區(qū),生成數(shù)據(jù)存儲(chǔ)分層索引;
5、s3:基于所述數(shù)據(jù)存儲(chǔ)分層索引,計(jì)算存儲(chǔ)區(qū)的數(shù)據(jù)訪問頻率,根據(jù)頻率和熵值對(duì)數(shù)據(jù)存儲(chǔ)位置進(jìn)行調(diào)整,優(yōu)化數(shù)據(jù)的物理存儲(chǔ)位置,生成存儲(chǔ)結(jié)構(gòu)優(yōu)化方案;
6、s4:利用所述存儲(chǔ)結(jié)構(gòu)優(yōu)化方案,將新收集的數(shù)據(jù)順序加入大模型數(shù)據(jù)集的頂層,按照新數(shù)據(jù)的時(shí)間標(biāo)記進(jìn)行排序,新數(shù)據(jù)優(yōu)先存儲(chǔ)于頂層,模擬地層疊加過程,生成數(shù)據(jù)層次更新結(jié)果;
7、s5:針對(duì)所述數(shù)據(jù)層次更新結(jié)果中較低層的數(shù)據(jù)進(jìn)行壓縮,模擬地質(zhì)層壓實(shí)過程中的壓縮密度變化,調(diào)整存儲(chǔ)參數(shù),生成地層壓實(shí)模擬結(jié)果;
8、s6:根據(jù)所述地層壓實(shí)模擬結(jié)果,結(jié)合數(shù)據(jù)訪問頻率,動(dòng)態(tài)調(diào)整數(shù)據(jù)的存儲(chǔ)層級(jí),更新數(shù)據(jù)訪問路徑匹配訪問模式的變化,生成動(dòng)態(tài)訪問方案。
9、作為本發(fā)明的進(jìn)一步方案,所述熵值計(jì)算結(jié)果包括數(shù)據(jù)項(xiàng)熵值的列表、數(shù)據(jù)項(xiàng)的標(biāo)識(shí)符、對(duì)應(yīng)的熵值和熵值大小的排名,所述數(shù)據(jù)存儲(chǔ)分層索引包括數(shù)據(jù)項(xiàng)的排序索引、數(shù)據(jù)項(xiàng)對(duì)應(yīng)的存儲(chǔ)層級(jí)和每層的存儲(chǔ)密度信息,所述存儲(chǔ)結(jié)構(gòu)優(yōu)化方案包括存儲(chǔ)位置的新配置、配置前后的訪問頻率比較和存儲(chǔ)區(qū)域的容量變化,所述數(shù)據(jù)層次更新結(jié)果包括新增數(shù)據(jù)項(xiàng)的接入時(shí)間、存儲(chǔ)層級(jí)和數(shù)據(jù)在層級(jí)中的順序,所述地層壓實(shí)模擬結(jié)果包括數(shù)據(jù)壓縮前后的存儲(chǔ)容量、壓縮率和壓縮后的訪問效率,所述動(dòng)態(tài)訪問方案包括數(shù)據(jù)層級(jí)的調(diào)整記錄、調(diào)整后的訪問路徑和路徑優(yōu)化前后的響應(yīng)時(shí)間比較。
10、作為本發(fā)明的進(jìn)一步方案,收集大模型數(shù)據(jù)集中的多項(xiàng)數(shù)據(jù),記錄每種數(shù)據(jù)的出現(xiàn)次數(shù),計(jì)算每種數(shù)據(jù)的熵值,確定數(shù)據(jù)的波動(dòng)性和多樣性,生成熵值計(jì)算結(jié)果的步驟具體為:
11、s101:從大模型數(shù)據(jù)集中提取多種數(shù)據(jù)類型,統(tǒng)計(jì)每種數(shù)據(jù)的出現(xiàn)頻次,采用鍵值對(duì)方式存儲(chǔ)到字典中,得到數(shù)據(jù)類型頻率表;
12、s102:基于所述數(shù)據(jù)類型頻率表,計(jì)算每種數(shù)據(jù)類型的總出現(xiàn)次數(shù)占數(shù)據(jù)集總量的比例,得到數(shù)據(jù)概率分布表;
13、s103:采用所述數(shù)據(jù)概率分布表,對(duì)每種數(shù)據(jù)類型按照概率值計(jì)算熵值,使用概率乘以對(duì)數(shù)的負(fù)值累加求和的方式進(jìn)行,得到熵值計(jì)算結(jié)果。
14、作為本發(fā)明的進(jìn)一步方案,根據(jù)所述熵值計(jì)算結(jié)果,利用大模型對(duì)數(shù)據(jù)按熵值進(jìn)行排序,將熵值較高的數(shù)據(jù)項(xiàng)定位高密度存儲(chǔ)區(qū),熵值較低的數(shù)據(jù)項(xiàng)定位到低密度存儲(chǔ)區(qū),生成數(shù)據(jù)存儲(chǔ)分層索引的步驟具體為:
15、s201:基于所述熵值計(jì)算結(jié)果,對(duì)數(shù)據(jù)項(xiàng)進(jìn)行篩選分類,識(shí)別高熵值與低熵值數(shù)據(jù)項(xiàng),為每個(gè)數(shù)據(jù)項(xiàng)分配臨時(shí)標(biāo)識(shí),標(biāo)記為高優(yōu)先級(jí)和低優(yōu)先級(jí),并對(duì)高熵值數(shù)據(jù)進(jìn)行優(yōu)先級(jí)排序,生成熵值分組表;
16、s202:采用所述熵值分組表,針對(duì)高熵值數(shù)據(jù)項(xiàng),配置讀寫能力的存儲(chǔ)區(qū)域,將數(shù)據(jù)遷移到高密度存儲(chǔ)區(qū),對(duì)低熵值數(shù)據(jù)項(xiàng)執(zhí)行相反操作,分配到成本較低的低密度存儲(chǔ)區(qū),更新存儲(chǔ)配置,生成數(shù)據(jù)分配記錄;
17、s203:通過所述數(shù)據(jù)分配記錄,同步存儲(chǔ)區(qū)的訪問權(quán)限和速度設(shè)置,查驗(yàn)每個(gè)數(shù)據(jù)項(xiàng)的存儲(chǔ)位置與熵值匹配,配置數(shù)據(jù)訪問路徑,優(yōu)化數(shù)據(jù)訪問效率,生成數(shù)據(jù)存儲(chǔ)分層索引。
18、作為本發(fā)明的進(jìn)一步方案,基于所述數(shù)據(jù)存儲(chǔ)分層索引,計(jì)算存儲(chǔ)區(qū)的數(shù)據(jù)訪問頻率,根據(jù)頻率和熵值對(duì)數(shù)據(jù)存儲(chǔ)位置進(jìn)行調(diào)整,優(yōu)化數(shù)據(jù)的物理存儲(chǔ)位置,生成存儲(chǔ)結(jié)構(gòu)優(yōu)化方案的步驟具體為:
19、s301:基于所述數(shù)據(jù)存儲(chǔ)分層索引,監(jiān)測(cè)多個(gè)存儲(chǔ)區(qū)的數(shù)據(jù)訪問記錄,計(jì)算數(shù)據(jù)項(xiàng)的訪問頻率,生成數(shù)據(jù)訪問頻率記錄;
20、s302:采用所述數(shù)據(jù)訪問頻率記錄,結(jié)合熵值分組表,對(duì)比訪問頻率和熵值,識(shí)別訪問頻率高且熵值低的數(shù)據(jù)項(xiàng),訪問頻率低且熵值高的數(shù)據(jù)項(xiàng),調(diào)整存儲(chǔ)位置,生成待優(yōu)化數(shù)據(jù)項(xiàng)列表;
21、s303:根據(jù)所述待優(yōu)化數(shù)據(jù)項(xiàng)列表,重新分配數(shù)據(jù)存儲(chǔ)位置,將訪問頻率高的數(shù)據(jù)移到高速存儲(chǔ)區(qū),訪問頻率低的數(shù)據(jù)移到低速存儲(chǔ)區(qū),優(yōu)化數(shù)據(jù)的物理存儲(chǔ)結(jié)構(gòu),生成存儲(chǔ)結(jié)構(gòu)優(yōu)化方案。
22、作為本發(fā)明的進(jìn)一步方案,利用所述存儲(chǔ)結(jié)構(gòu)優(yōu)化方案,將新收集的數(shù)據(jù)順序加入大模型數(shù)據(jù)集的頂層,按照新數(shù)據(jù)的時(shí)間標(biāo)記進(jìn)行排序,新數(shù)據(jù)優(yōu)先存儲(chǔ)于頂層,模擬地層疊加過程,生成數(shù)據(jù)層次更新結(jié)果的步驟具體為:
23、s401:根據(jù)所述存儲(chǔ)結(jié)構(gòu)優(yōu)化方案,設(shè)定數(shù)據(jù)加入大模型數(shù)據(jù)集的策略,將新收集的數(shù)據(jù)加入數(shù)據(jù)集的頂層,記錄新數(shù)據(jù)的時(shí)間標(biāo)記,生成頂層數(shù)據(jù)加入記錄;
24、s402:采用所述頂層數(shù)據(jù)加入記錄,對(duì)新數(shù)據(jù)根據(jù)時(shí)間標(biāo)記進(jìn)行排序,查驗(yàn)新數(shù)據(jù)的優(yōu)先訪問,使用插入排序方法整合新舊數(shù)據(jù),驗(yàn)證時(shí)間順序性,生成新數(shù)據(jù)時(shí)間排序結(jié)果;
25、s403:基于所述新數(shù)據(jù)時(shí)間排序結(jié)果,模擬地層疊加過程,將新數(shù)據(jù)依時(shí)間順序?qū)盈B存儲(chǔ)于數(shù)據(jù)集頂層,查驗(yàn)數(shù)據(jù)結(jié)構(gòu)的時(shí)效性和訪問效率,生成數(shù)據(jù)層次更新結(jié)果。
26、作為本發(fā)明的進(jìn)一步方案,針對(duì)所述數(shù)據(jù)層次更新結(jié)果中較低層的數(shù)據(jù)進(jìn)行壓縮,模擬地質(zhì)層壓實(shí)過程中的壓縮密度變化,調(diào)整存儲(chǔ)參數(shù),生成地層壓實(shí)模擬結(jié)果的步驟具體為:
27、s501:從所述數(shù)據(jù)層次更新結(jié)果中選取較低層的數(shù)據(jù),評(píng)估壓縮潛力,識(shí)別和標(biāo)記需要壓縮的數(shù)據(jù),并調(diào)整存儲(chǔ)密度,生成較低層數(shù)據(jù)選擇結(jié)果;
28、s502:根據(jù)所述較低層數(shù)據(jù)選擇結(jié)果,采用霍夫曼編碼算法,對(duì)選定數(shù)據(jù)實(shí)施數(shù)據(jù)壓縮,監(jiān)控壓縮過程中數(shù)據(jù)完整性和訪問效率的變化,生成壓縮參數(shù)設(shè)置結(jié)果;
29、s503:利用所述壓縮參數(shù)設(shè)置結(jié)果,模擬地質(zhì)層壓實(shí)過程中的壓縮密度變化,調(diào)整存儲(chǔ)空間匹配壓縮后的數(shù)據(jù)密度,優(yōu)化數(shù)據(jù)存儲(chǔ)效率和成本,生成地層壓實(shí)模擬結(jié)果。
30、作為本發(fā)明的進(jìn)一步方案,所述霍夫曼編碼算法的公式如下:其中,為壓縮效率值,代表數(shù)據(jù)塊的權(quán)重,代表數(shù)據(jù)塊的權(quán)重,代表數(shù)據(jù)塊的原始長度,代表數(shù)據(jù)塊的原始長度,代表和的絕對(duì)值差。
31、作為本發(fā)明的進(jìn)一步方案,根據(jù)所述地層壓實(shí)模擬結(jié)果,結(jié)合數(shù)據(jù)訪問頻率,動(dòng)態(tài)調(diào)整數(shù)據(jù)的存儲(chǔ)層級(jí),更新數(shù)據(jù)訪問路徑匹配訪問模式的變化,生成動(dòng)態(tài)訪問方案的步驟具體為:
32、s601:基于所述地層壓實(shí)模擬結(jié)果,進(jìn)行數(shù)據(jù)層次分析,識(shí)別存儲(chǔ)密度低的數(shù)據(jù),針對(duì)數(shù)據(jù)進(jìn)行歸檔處理,并對(duì)高頻訪問數(shù)據(jù)進(jìn)行優(yōu)先級(jí)排序,得到數(shù)據(jù)分類表;
33、s602:采用所述數(shù)據(jù)分類表,對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)層級(jí)測(cè)量,針對(duì)測(cè)量結(jié)果調(diào)整低頻數(shù)據(jù)到更低成本存儲(chǔ)介質(zhì),并將高頻數(shù)據(jù)遷移至快速訪問層級(jí),優(yōu)化存儲(chǔ)結(jié)構(gòu),生成存儲(chǔ)層級(jí)調(diào)整記錄;
34、s603:通過所述存儲(chǔ)層級(jí)調(diào)整記錄,對(duì)數(shù)據(jù)訪問路徑進(jìn)行更新,驗(yàn)證新路徑與實(shí)時(shí)訪問頻率的符合程度,配置訪問規(guī)則和路徑指向,優(yōu)化訪問效率,生成動(dòng)態(tài)訪問方案。
35、一種基于大模型的數(shù)據(jù)存儲(chǔ)系統(tǒng),所述基于大模型的數(shù)據(jù)存儲(chǔ)系統(tǒng)用于執(zhí)行上述基于大模型的數(shù)據(jù)存儲(chǔ)方法,所述系統(tǒng)包括:
36、數(shù)據(jù)收集與分析模塊進(jìn)行數(shù)據(jù)集的抽取,識(shí)別每項(xiàng)數(shù)據(jù)并記錄數(shù)據(jù)出現(xiàn)頻次,計(jì)算數(shù)據(jù)的熵值評(píng)估多樣性和變動(dòng)性,得到熵值統(tǒng)計(jì)結(jié)果;
37、數(shù)據(jù)排序與分層模塊基于所述熵值統(tǒng)計(jì)結(jié)果,對(duì)數(shù)據(jù)項(xiàng)進(jìn)行熵值排序,高熵值數(shù)據(jù)定位到高密度存儲(chǔ)區(qū),低熵值數(shù)據(jù)定位到低密度存儲(chǔ)區(qū),構(gòu)建層級(jí)索引結(jié)構(gòu);
38、存儲(chǔ)調(diào)整模塊利用所述層級(jí)索引結(jié)構(gòu),分析每個(gè)存儲(chǔ)區(qū)的數(shù)據(jù)訪問頻率,根據(jù)數(shù)據(jù)的訪問頻率和熵值調(diào)整存儲(chǔ)的物理位置,優(yōu)化訪問效率和存儲(chǔ)成本,形成存儲(chǔ)優(yōu)化方案;
39、數(shù)據(jù)壓實(shí)模擬模塊根據(jù)所述存儲(chǔ)優(yōu)化方案,將新收集的數(shù)據(jù)添加到數(shù)據(jù)集的頂層,新數(shù)據(jù)根據(jù)時(shí)間標(biāo)記排序并存儲(chǔ)在頂層,模擬地層疊加過程,對(duì)老舊數(shù)據(jù)進(jìn)行壓縮,形成層次更新與壓實(shí)結(jié)果;
40、動(dòng)態(tài)存儲(chǔ)管理模塊基于所述層次更新與壓實(shí)結(jié)果,結(jié)合數(shù)據(jù)訪問頻率的變化動(dòng)態(tài)調(diào)整數(shù)據(jù)的存儲(chǔ)層級(jí),更新數(shù)據(jù)訪問路徑匹配訪問模式的變化,生成動(dòng)態(tài)訪問方案。
41、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)和積極效果在于:
42、本發(fā)明中,通過收集數(shù)據(jù)集中的多樣數(shù)據(jù)并計(jì)算出現(xiàn)次數(shù)及熵值,對(duì)數(shù)據(jù)的波動(dòng)性和多樣性進(jìn)行評(píng)估,可顯著提高數(shù)據(jù)存儲(chǔ)效率和訪問速度。按熵值對(duì)數(shù)據(jù)進(jìn)行排序并分類存儲(chǔ),使得高熵值數(shù)據(jù)位于高密度存儲(chǔ)區(qū),而低熵值數(shù)據(jù)則存放在低密度區(qū)域,優(yōu)化存儲(chǔ)空間的利用率,減少不必要的存儲(chǔ)成本?;跀?shù)據(jù)存儲(chǔ)分層索引計(jì)算數(shù)據(jù)訪問頻率,并依此調(diào)整數(shù)據(jù)的物理存儲(chǔ)位置,減少數(shù)據(jù)訪問時(shí)間,提高數(shù)據(jù)處理速度。新增數(shù)據(jù)的層次式存儲(chǔ)和按時(shí)間標(biāo)記的排序模擬地層疊加,不僅優(yōu)化存儲(chǔ)結(jié)構(gòu),也方便新數(shù)據(jù)的快速定位和訪問。數(shù)據(jù)壓縮和存儲(chǔ)參數(shù)的調(diào)整模擬地質(zhì)層壓實(shí)過程,有效管理存儲(chǔ)容量,增強(qiáng)數(shù)據(jù)中心的能效。動(dòng)態(tài)調(diào)整數(shù)據(jù)存儲(chǔ)層級(jí)和更新訪問路徑以匹配訪問模式的變化,確保存儲(chǔ)系統(tǒng)的靈活性和適應(yīng)性,增強(qiáng)對(duì)復(fù)雜數(shù)據(jù)環(huán)境的響應(yīng)能力。