本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,具體的涉及一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)的插值方法、系統(tǒng)和裝置。
背景技術(shù):
1、隨著全球氣候變化、城市化進(jìn)程的發(fā)展,時(shí)空數(shù)據(jù)的監(jiān)測(cè)、分析和預(yù)測(cè)逐漸成為重要的研究領(lǐng)域。時(shí)空數(shù)據(jù)在多個(gè)領(lǐng)域中扮演著至關(guān)重要的角色,例如,環(huán)境監(jiān)測(cè)中的大氣和水體污染、交通管理中的擁堵預(yù)測(cè)、公共健康中的傳染病傳播、地理信息系統(tǒng)中的資源分布,以及智能城市規(guī)劃中的人群流動(dòng)等。時(shí)空數(shù)據(jù)的豐富性和多樣性,使其在各領(lǐng)域的決策和管理過(guò)程中具有不可替代的應(yīng)用價(jià)值。
2、然而,由于數(shù)據(jù)采集的復(fù)雜性,時(shí)空數(shù)據(jù)往往呈現(xiàn)出稀疏、分布不均的特點(diǎn)。特別是在復(fù)雜或廣闊的環(huán)境下,如大規(guī)模海洋、大氣等領(lǐng)域,數(shù)據(jù)空缺現(xiàn)象更加顯著。傳統(tǒng)的插值方法(如克里金法、逆距離加權(quán)法等)盡管能夠填補(bǔ)部分空缺數(shù)據(jù),但它們對(duì)時(shí)空數(shù)據(jù)中的復(fù)雜依賴特征的捕捉能力有限,因此在精度上存在明顯的不足。這些方法通?;陬A(yù)設(shè)的假設(shè),無(wú)法靈活地適應(yīng)數(shù)據(jù)中存在的非線性和非平穩(wěn)特征,特別是在時(shí)空變化顯著的區(qū)域,插值效果往往不夠理想。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對(duì)上述技術(shù)問(wèn)題提供一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值方法,所述方法通過(guò)構(gòu)建更加復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,利用深度學(xué)習(xí)捕捉時(shí)空數(shù)據(jù)中的非線性關(guān)系,進(jìn)而實(shí)現(xiàn)對(duì)未采樣位置的精準(zhǔn)預(yù)測(cè)。
2、本發(fā)明是通過(guò)如下技術(shù)方案來(lái)實(shí)現(xiàn)的:
3、一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值方法,包括以下步驟:
4、步驟1:使用相應(yīng)儀器采集時(shí)空數(shù)據(jù),然后對(duì)時(shí)空數(shù)據(jù)集進(jìn)行預(yù)處理階段;
5、進(jìn)一步,所述的數(shù)據(jù)集必須涵蓋了必要的時(shí)間戳和空間信息,然后進(jìn)行數(shù)據(jù)清洗和歸一化處理,處理后的數(shù)據(jù)組織成歷史數(shù)據(jù)矩陣,同時(shí),構(gòu)建一個(gè)初始全零的掩碼矩陣,用于后續(xù)標(biāo)記數(shù)據(jù)中的缺失值和模擬未采樣節(jié)點(diǎn),根據(jù)歷史數(shù)據(jù)矩陣中的數(shù)據(jù)缺失,更新數(shù)據(jù)缺失矩陣,將歷史數(shù)據(jù)矩陣按照比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
6、步驟2:利用步驟1的數(shù)據(jù)集構(gòu)造時(shí)空數(shù)據(jù)插值模型的訓(xùn)練樣本,以生成能夠使模型泛化到未知節(jié)點(diǎn)和圖結(jié)構(gòu)的訓(xùn)練樣本;
7、進(jìn)一步,所述步驟2的方法如下:首先,在歷史數(shù)據(jù)矩陣的時(shí)間范圍內(nèi)隨機(jī)選擇時(shí)間點(diǎn),根據(jù)選定的時(shí)間節(jié)點(diǎn)從完整的歷史數(shù)據(jù)矩陣中提取子矩陣;子矩陣包含了特定時(shí)間點(diǎn)上所有節(jié)點(diǎn)的觀測(cè)數(shù)據(jù);在子矩陣中隨機(jī)選擇10%-20%節(jié)點(diǎn),模擬未采樣點(diǎn)節(jié)點(diǎn);在掩碼矩陣中將設(shè)置的未采樣點(diǎn)節(jié)點(diǎn)對(duì)應(yīng)的位置置1,通過(guò)模型訓(xùn)練重構(gòu)這些未采樣節(jié)點(diǎn)的數(shù)據(jù)。
8、步驟3:利用步驟2構(gòu)造的時(shí)空數(shù)據(jù)插值模型的訓(xùn)練樣本構(gòu)建一種屬于圖神經(jīng)網(wǎng)絡(luò)的空間聚合網(wǎng)絡(luò);
9、進(jìn)一步,將時(shí)空數(shù)據(jù)中的空間位置看成圖中一個(gè)節(jié)點(diǎn),可達(dá)性、距離關(guān)系看成等圖中的連接關(guān)系,通過(guò)空間聚合網(wǎng)絡(luò)來(lái)提取時(shí)空數(shù)據(jù)的空間依賴,使用聚合函數(shù)來(lái)整合鄰居節(jié)點(diǎn)的特征,學(xué)習(xí)并更新節(jié)點(diǎn)的特征;
10、進(jìn)一步,在圖神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,空間聚合網(wǎng)絡(luò)在同一層中使用聚合函數(shù)和距離信息來(lái)捕捉復(fù)雜的空間依賴性。
11、所述的聚合函數(shù)包括平均聚合、加權(quán)平均聚合、softmax聚合、softmin聚合、標(biāo)準(zhǔn)差聚合、最大池化、最小池化、均值距離聚合、標(biāo)準(zhǔn)距離偏差聚合或自注意力聚合;
12、進(jìn)一步,空間聚合網(wǎng)絡(luò)使用尺度器來(lái)考慮不同特征的影響,調(diào)整特征值范圍或分布,使用張量積將聚合函數(shù)和尺度器結(jié)合在一起,增強(qiáng)模型的學(xué)習(xí)能力。
13、步驟4:構(gòu)建時(shí)間編碼器;
14、進(jìn)一步,所述的步驟4構(gòu)建時(shí)間編碼器:使用一個(gè)以上不同大小的一維卷積核并行對(duì)單個(gè)節(jié)點(diǎn)的時(shí)間序列數(shù)據(jù)進(jìn)行卷積操作,提取局部和長(zhǎng)時(shí)的時(shí)間特征,在卷積操作之前進(jìn)行零填充;將卷積生成的所有特征通道拼接在一起,并使用門(mén)控機(jī)制,傳遞對(duì)任務(wù)至關(guān)重要的信息,同時(shí)時(shí)間編碼器使用不同的激活函數(shù)、殘差連接和跳躍連接的方式增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力、避免梯度消失問(wèn)題。
15、步驟5:訓(xùn)練時(shí)空數(shù)據(jù)插值模型;
16、進(jìn)一步,確定模型的超參數(shù)設(shè)置,訓(xùn)練開(kāi)始時(shí),使用空間聚合網(wǎng)絡(luò)層和時(shí)間編碼器層交替堆疊來(lái)學(xué)習(xí)時(shí)空數(shù)據(jù)的空間和時(shí)間特征;在每一層中,空間聚合網(wǎng)絡(luò)層利用一種以上聚合函數(shù)綜合鄰居節(jié)點(diǎn)的信息,而時(shí)間編碼器則通過(guò)多尺度卷積操作捕捉時(shí)間序列的動(dòng)態(tài)變化;在模型中引入殘差連接;在每次迭代中,根據(jù)訓(xùn)練批量參數(shù)確定的樣本數(shù)量,從歷史數(shù)據(jù)中隨機(jī)抽取訓(xùn)練樣本,并應(yīng)用掩碼策略模擬數(shù)據(jù)缺失情況;通過(guò)最小化損失函數(shù)均方根誤差或平均絕對(duì)誤差來(lái)調(diào)整模型參數(shù);利用adam優(yōu)化器梯度下降方法,根據(jù)反向傳播算法計(jì)算得到的梯度更新模型的可學(xué)習(xí)參數(shù);
17、訓(xùn)練過(guò)程中,采用早停機(jī)制監(jiān)控驗(yàn)證集上的損失,當(dāng)連續(xù)多個(gè)迭代損失沒(méi)有顯著下降時(shí),提前終止訓(xùn)練以避免過(guò)擬合;當(dāng)模型在驗(yàn)證集上的性能達(dá)到穩(wěn)定或滿足預(yù)設(shè)的訓(xùn)練條件時(shí),得到最終的目標(biāo)模型。
18、進(jìn)一步,所述的超參數(shù)包括網(wǎng)絡(luò)層數(shù)、訓(xùn)練批量大小和最大訓(xùn)練周期以及缺失節(jié)點(diǎn)比例、訓(xùn)練數(shù)據(jù)的輸入序列長(zhǎng)度、時(shí)間編碼器中時(shí)間卷積核長(zhǎng)度、鄰居節(jié)點(diǎn)數(shù)。
19、步驟6:步驟5訓(xùn)練得到的目標(biāo)模型用于模擬生成新的傳感器數(shù)據(jù)以及生成未采樣節(jié)點(diǎn)的數(shù)據(jù);將需要插值的數(shù)據(jù)集作為訓(xùn)練模型的基礎(chǔ),確定需要插值的區(qū)域,包括未采樣節(jié)點(diǎn)的位置和時(shí)間段,將數(shù)據(jù)處理成步驟5所述的插值模型能夠接受的輸入,鄰接矩陣需要包含未采樣節(jié)點(diǎn)信息,同時(shí)在掩碼矩陣中置零來(lái)標(biāo)識(shí)未采樣節(jié)點(diǎn),使用訓(xùn)練好的步驟5所述的插值模型進(jìn)行插值;
20、進(jìn)一步,在氣象或海洋領(lǐng)域,通過(guò)生成虛擬數(shù)據(jù)來(lái)填補(bǔ)監(jiān)測(cè)網(wǎng)絡(luò)的空白,提高數(shù)據(jù)的空間覆蓋率;在交通監(jiān)測(cè)中,生成未采樣路段的交通流量數(shù)據(jù),幫助進(jìn)行更全面的交通分析和決策;在自然災(zāi)害監(jiān)測(cè)中,生成未采樣區(qū)域的數(shù)據(jù)幫助更好地評(píng)估風(fēng)險(xiǎn)和制定應(yīng)對(duì)措施。
21、一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值系統(tǒng),所述系統(tǒng)包括數(shù)據(jù)輸入和處理模塊、構(gòu)造時(shí)空數(shù)據(jù)插值模型的訓(xùn)練樣本模塊、構(gòu)建空間聚合網(wǎng)絡(luò)模塊、構(gòu)建時(shí)間編碼器模塊、訓(xùn)練時(shí)空數(shù)據(jù)插值模型模塊和對(duì)數(shù)據(jù)進(jìn)行插值模塊;
22、所述的數(shù)據(jù)輸入和處理模塊,用于獲取數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,所述模塊運(yùn)行所述的步驟(1);
23、所述的構(gòu)造時(shí)空數(shù)據(jù)插值模型的訓(xùn)練樣本模塊運(yùn)行所述方法的步驟(2);
24、所述的建空間聚合網(wǎng)絡(luò)模塊運(yùn)行所述方法的步驟(3);
25、所述的構(gòu)建時(shí)間編碼器模塊運(yùn)行所述方法的步驟(4);
26、所述的訓(xùn)練時(shí)空數(shù)據(jù)插值模型模塊運(yùn)行所述方法的步驟(5);
27、所述的對(duì)數(shù)據(jù)進(jìn)行插值模塊運(yùn)行所述方法的步驟(6)。
28、本發(fā)明還提供一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值裝置,所述裝置搭載有所述系統(tǒng)。
29、本發(fā)明與現(xiàn)有技術(shù)相比具有有益效果:
30、本發(fā)明方法不僅提升了時(shí)空插值的精度,還具備更好的適應(yīng)性和通用性。能夠充分利用時(shí)空依賴特征的高精度插值的模型,在數(shù)據(jù)稀缺的情況下,實(shí)現(xiàn)對(duì)未觀測(cè)點(diǎn)的精準(zhǔn)插值,具有重要的應(yīng)用價(jià)值。
1.一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值方法,其特征在于,所述的步驟1中所述的數(shù)據(jù)集必須涵蓋時(shí)間戳和空間信息,然后進(jìn)行數(shù)據(jù)清洗和歸一化處理,處理后的數(shù)據(jù)組織成歷史數(shù)據(jù)矩陣,同時(shí),構(gòu)建一個(gè)初始全零的掩碼矩陣,用于后續(xù)標(biāo)記數(shù)據(jù)中的缺失值和模擬未采樣節(jié)點(diǎn),根據(jù)歷史數(shù)據(jù)矩陣中的數(shù)據(jù)缺失,更新數(shù)據(jù)缺失矩陣,將歷史數(shù)據(jù)矩陣按照比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
3.根據(jù)權(quán)利要求2所述的一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值方法,其特征在于,所述步驟2的方法如下:在歷史數(shù)據(jù)矩陣的時(shí)間范圍內(nèi)隨機(jī)選擇時(shí)間點(diǎn),根據(jù)選定的時(shí)間節(jié)點(diǎn)從完整的歷史數(shù)據(jù)矩陣中提取子矩陣;子矩陣包含了特定時(shí)間點(diǎn)上所有節(jié)點(diǎn)的觀測(cè)數(shù)據(jù);在子矩陣中隨機(jī)選擇10%-20%節(jié)點(diǎn),模擬未采樣點(diǎn)節(jié)點(diǎn);在掩碼矩陣中將設(shè)置的未采樣點(diǎn)節(jié)點(diǎn)對(duì)應(yīng)的位置置1,通過(guò)模型訓(xùn)練重構(gòu)這些未采樣節(jié)點(diǎn)的數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值方法,其特征在于,所述步驟3:將時(shí)空數(shù)據(jù)中的空間位置看成圖中一個(gè)節(jié)點(diǎn),可達(dá)性、距離關(guān)系看成等圖中的連接關(guān)系,通過(guò)空間聚合網(wǎng)絡(luò)來(lái)提取時(shí)空數(shù)據(jù)的空間依賴,使用聚合函數(shù)來(lái)整合鄰居節(jié)點(diǎn)的特征,學(xué)習(xí)并更新節(jié)點(diǎn)的特征;
5.根據(jù)權(quán)利要求4所述的一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值方法,其特征在于,所述的聚合函數(shù)包括平均聚合、加權(quán)平均聚合、softmax聚合、softmin聚合、標(biāo)準(zhǔn)差聚合、最大池化、最小池化、均值距離聚合、標(biāo)準(zhǔn)距離偏差聚合或自注意力聚合,空間聚合網(wǎng)絡(luò)使用尺度器來(lái)考慮不同特征的影響,調(diào)整特征值范圍或分布,使用張量積將聚合函數(shù)和尺度器結(jié)合在一起,增強(qiáng)模型的學(xué)習(xí)能力。
6.根據(jù)權(quán)利要求5所述的一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值方法,其特征在于,所述的步驟4構(gòu)建時(shí)間編碼器:使用一個(gè)以上不同大小的一維卷積核并行對(duì)單個(gè)節(jié)點(diǎn)的時(shí)間序列數(shù)據(jù)進(jìn)行卷積操作,提取局部和長(zhǎng)時(shí)的時(shí)間特征,在卷積操作之前進(jìn)行零填充;將卷積生成的所有特征通道拼接在一起,并使用門(mén)控機(jī)制,傳遞對(duì)任務(wù)至關(guān)重要的信息,同時(shí)時(shí)間編碼器使用不同的激活函數(shù)、殘差連接和跳躍連接的方式增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力、避免梯度消失問(wèn)題。
7.根據(jù)權(quán)利要求6所述的一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值方法,其特征在于,所述步驟5:確定模型的超參數(shù)設(shè)置,訓(xùn)練開(kāi)始時(shí),使用空間聚合網(wǎng)絡(luò)層和時(shí)間編碼器層交替堆疊來(lái)學(xué)習(xí)時(shí)空數(shù)據(jù)的空間和時(shí)間特征;在每一層中,空間聚合網(wǎng)絡(luò)層利用一種以上聚合函數(shù)綜合鄰居節(jié)點(diǎn)的信息,而時(shí)間編碼器則通過(guò)多尺度卷積操作捕捉時(shí)間序列的動(dòng)態(tài)變化;在模型中引入殘差連接;在每次迭代中,根據(jù)訓(xùn)練批量參數(shù)確定的樣本數(shù)量,從歷史數(shù)據(jù)中隨機(jī)抽取訓(xùn)練樣本,并應(yīng)用掩碼策略模擬數(shù)據(jù)缺失情況;通過(guò)最小化損失函數(shù)均方根誤差或平均絕對(duì)誤差來(lái)調(diào)整模型參數(shù);利用adam優(yōu)化器梯度下降方法,根據(jù)反向傳播算法計(jì)算得到的梯度更新模型的可學(xué)習(xí)參數(shù);
8.根據(jù)權(quán)利要求1所述的一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值方法,其特征在于,所述步驟6:在氣象或海洋領(lǐng)域,通過(guò)生成虛擬數(shù)據(jù)來(lái)填補(bǔ)監(jiān)測(cè)網(wǎng)絡(luò)的空白,提高數(shù)據(jù)的空間覆蓋率;在交通監(jiān)測(cè)中,生成未采樣路段的交通流量數(shù)據(jù),幫助進(jìn)行更全面的交通分析和決策;在自然災(zāi)害監(jiān)測(cè)中,生成未采樣區(qū)域的數(shù)據(jù)幫助更好地評(píng)估風(fēng)險(xiǎn)和制定應(yīng)對(duì)措施。
9.一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值系統(tǒng),其特征在于,所述系統(tǒng)包括數(shù)據(jù)輸入和處理模塊、構(gòu)造時(shí)空數(shù)據(jù)插值模型的訓(xùn)練樣本模塊、構(gòu)建空間聚合網(wǎng)絡(luò)模塊、構(gòu)建時(shí)間編碼器模塊、訓(xùn)練時(shí)空數(shù)據(jù)插值模型模塊和對(duì)數(shù)據(jù)進(jìn)行插值模塊;
10.一種基于歸納學(xué)習(xí)的時(shí)空數(shù)據(jù)插值裝置,其特征在于,所述裝置搭載有權(quán)利要求9所述的系統(tǒng)。