一種基于深度學(xué)習(xí)的缺失值填充方法及系統(tǒng)與流程

文檔序號：11774626閱讀：1227來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域，尤其涉及一種基于深度學(xué)習(xí)的缺失值填充方法及系統(tǒng)。

背景技術(shù)：

自信息技術(shù)被廣泛應(yīng)用到各行業(yè)并超速推動這些新舊領(lǐng)域的發(fā)展以來，數(shù)據(jù)作為這一技術(shù)賴以生存的資源被不斷地采集與挖掘，數(shù)據(jù)量正以驚人地速度膨脹起來。龐大的數(shù)據(jù)無疑增加了數(shù)據(jù)管理的難度。在現(xiàn)實世界中由于數(shù)據(jù)錄入時出現(xiàn)遺漏、不正確的度量方法、收集條件的限制或者因違反約束條件而被刪除等多方面因素都有可能導(dǎo)致產(chǎn)生數(shù)據(jù)缺失。缺失值不僅意味著信息的空白，更重要的是它會影響后續(xù)數(shù)據(jù)挖掘、統(tǒng)計分析等工作的進(jìn)行。處理缺失值的常用方法包括刪除包含缺失項的元祖、將缺失值作為特殊值處理或者進(jìn)行缺失值填充。考慮到現(xiàn)實數(shù)據(jù)庫缺失率都比較高，而且缺失模式多為隨機(jī)模式，因此采用第三種處理方法更為合理。

目前已提出了一些針對不同數(shù)據(jù)的缺失值填充方法，這些方法主要基于統(tǒng)計學(xué)方法。如最大期望算法(em)、重要性采樣等。其中em算法分為兩步：第一步是計算期望(e)，即根據(jù)參數(shù)填充缺失值；第二部是最大化(m)，即在現(xiàn)有數(shù)據(jù)集下求得參數(shù)的最大似然值，如此交替迭代直至收斂。這一算法的復(fù)雜度取決于缺失變量個數(shù)及概率密度函數(shù)。另一常用的填充算法就是回歸方法，包括線性回歸、多元回歸和邏輯回歸等。這一類算法是根據(jù)數(shù)據(jù)之間的相關(guān)性用若干解釋變量對響應(yīng)變量進(jìn)行擬合。另一種基于采樣的近似貝葉斯方法是在已觀測數(shù)據(jù)中有放回的抽取m個數(shù)據(jù)來填充m個缺失值。

上述最大期望算法用完整數(shù)據(jù)上建立的擬合模型來預(yù)測缺失變量的取值。擬合的優(yōu)劣取決于自變量的選擇和訓(xùn)練集的完備程度，填充效果極大程度地受到現(xiàn)有數(shù)據(jù)的影響。貝葉斯方法抽取已觀測數(shù)據(jù)中數(shù)據(jù)來填充缺失值，方法雖然簡單且基本維持了數(shù)據(jù)原始分布，但是它忽視了變量間的相關(guān)關(guān)系。且統(tǒng)計學(xué)方法需要事先進(jìn)行顯式提取特征，作為概率預(yù)測的基礎(chǔ)，而數(shù)據(jù)之間的內(nèi)在關(guān)系不好歸納。

技術(shù)實現(xiàn)要素：

本發(fā)明要解決的技術(shù)問題在于，針對現(xiàn)有技術(shù)中的缺失值填充方法極大程度依賴已有數(shù)據(jù)的完整性，并且無法找尋數(shù)據(jù)之間深層關(guān)系的缺陷，提供了一種基于深度學(xué)習(xí)的缺失值填充方法及系統(tǒng)，利用深度神經(jīng)網(wǎng)絡(luò)能夠深度挖掘數(shù)據(jù)內(nèi)部及相互關(guān)系的特點，能同時提高填充精度和填充效率。

本發(fā)明第一方面，提供了一種基于深度學(xué)習(xí)的缺失值填充方法，包括以下步驟：

(1)對數(shù)據(jù)集進(jìn)行預(yù)處理，將所述數(shù)據(jù)集分為完整數(shù)據(jù)子集和缺失數(shù)據(jù)子集，將所述完整數(shù)據(jù)子集中的數(shù)據(jù)分為訓(xùn)練樣本集和測試樣本集，隨機(jī)刪除測試樣本集中部分?jǐn)?shù)據(jù)作為缺失測試樣本集；

(2)利用所述訓(xùn)練樣本集對初步構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練并保存，使用訓(xùn)練后得到的卷積神經(jīng)網(wǎng)絡(luò)對缺失測試樣本集進(jìn)行缺失值填充，并將填充結(jié)果與所述測試樣本集比對，在不符合精度要求時調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)并迭代前述訓(xùn)練和驗證步驟直至滿足精度要求；

(3)將所述完整數(shù)據(jù)子集輸入步驟(2)得到的卷積神經(jīng)網(wǎng)絡(luò)，得到完善的卷積神經(jīng)網(wǎng)絡(luò)；

(4)將所述缺失數(shù)據(jù)子集輸入步驟(3)得到的完善的卷積神經(jīng)網(wǎng)絡(luò)完成缺失值的填充。

在根據(jù)本發(fā)明所述的基于深度學(xué)習(xí)的缺失值填充方法中，所述步驟(1)包括：

(1-1)收集數(shù)據(jù)構(gòu)建待處理數(shù)據(jù)集；

(1-2)對所述數(shù)據(jù)集進(jìn)行分類，將完整無缺失的數(shù)據(jù)分出作為所述完整數(shù)據(jù)子集，將有缺失的數(shù)據(jù)分出作為所述缺少數(shù)據(jù)子集；

(1-3)從所述完整數(shù)據(jù)子集中隨機(jī)選取60％～80％的數(shù)據(jù)作為訓(xùn)練樣本集，其余作為所述測試樣本集；

(1-4)在所述測試樣本集中，隨機(jī)刪除部分?jǐn)?shù)據(jù)后作為缺失測試樣本集。

在根據(jù)本發(fā)明所述的基于深度學(xué)習(xí)的缺失值填充方法中，所述步驟(1-3)中從所述完整數(shù)據(jù)子集中隨機(jī)選取70％的數(shù)據(jù)作為訓(xùn)練樣本集，其余30％的數(shù)據(jù)作為測試樣本集。

在根據(jù)本發(fā)明所述的基于深度學(xué)習(xí)的缺失值填充方法中，所述步驟(2)具體包括：

(2-1)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)，由輸入層、第一卷積層、第一池化層、第二卷積層、第二池化層、全連接層和輸出層組成，并初始化參數(shù)；

(2-2)將所述訓(xùn)練樣本集輸入所述卷積神經(jīng)網(wǎng)絡(luò)，卷積神經(jīng)網(wǎng)路根據(jù)所述訓(xùn)練樣本集中數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí)，并自動更新權(quán)值，訓(xùn)練完成后保存網(wǎng)絡(luò)結(jié)構(gòu)及內(nèi)部參數(shù)；

(2-3)將缺失測試樣本集輸入所述卷積神經(jīng)網(wǎng)絡(luò)，預(yù)測填充缺失值，將缺失測試樣本集的填充結(jié)果與所述測試樣本集比對，若準(zhǔn)確率符合精度要求，則執(zhí)行步驟(3)，若準(zhǔn)確率不符合精度要求，則返回步驟(2-1)對所述卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整。

在根據(jù)本發(fā)明所述的基于深度學(xué)習(xí)的缺失值填充方法中，所述步驟(3)中調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)為增加或減少卷積神經(jīng)網(wǎng)絡(luò)的卷積次數(shù)。

本發(fā)明第二方面，提供了一種存儲介質(zhì)，其中存儲有多條指令，所述指令適于由處理器加載并執(zhí)行如前所述的基于深度學(xué)習(xí)的缺失值填充方法中的步驟。

本發(fā)明第三方面，提供了一種基于深度學(xué)習(xí)的缺失值填充系統(tǒng)，包括：

數(shù)據(jù)預(yù)處理模塊，用于對數(shù)據(jù)集進(jìn)行預(yù)處理，將所述數(shù)據(jù)集分為完整數(shù)據(jù)子集和缺失數(shù)據(jù)子集，將所述完整數(shù)據(jù)子集中的數(shù)據(jù)分為訓(xùn)練樣本集和測試樣本集，隨機(jī)刪除測試樣本集中部分?jǐn)?shù)據(jù)作為缺失測試樣本集；

第一網(wǎng)絡(luò)處理模塊，用于利用所述訓(xùn)練樣本集對初步構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練并保存，使用訓(xùn)練后得到的卷積神經(jīng)網(wǎng)絡(luò)對缺失測試樣本集進(jìn)行缺失值填充，并將填充結(jié)果與所述測試樣本集比對，在不符合精度要求時調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)并迭代前述訓(xùn)練和驗證步驟直至滿足精度要求；

第二網(wǎng)絡(luò)處理模塊，用于將所述完整數(shù)據(jù)子集輸入所述第一網(wǎng)絡(luò)處理模塊得到的卷積神經(jīng)網(wǎng)絡(luò)，得到完善的卷積神經(jīng)網(wǎng)絡(luò)；

缺失值填充模塊，用于將所述缺失數(shù)據(jù)子集輸入所述完善的卷積神經(jīng)網(wǎng)絡(luò)完成缺失值的填充。

在根據(jù)本發(fā)明所述的基于深度學(xué)習(xí)的缺失值填充系統(tǒng)中，所述數(shù)據(jù)預(yù)處理模塊包括：

數(shù)據(jù)收集單元，用于收集數(shù)據(jù)構(gòu)建待處理數(shù)據(jù)集；

第一分類單元，用于對所述數(shù)據(jù)集進(jìn)行分類，將完整無缺失的數(shù)據(jù)分出作為所述完整數(shù)據(jù)子集，將有缺失的數(shù)據(jù)分出作為所述缺少數(shù)據(jù)子集；

第二分類單元，用于從所述完整數(shù)據(jù)子集中隨機(jī)選取60％～80％的數(shù)據(jù)作為訓(xùn)練樣本集，其余作為所述測試樣本集；

數(shù)據(jù)刪除單元，用于在所述測試樣本集中，隨機(jī)刪除部分?jǐn)?shù)據(jù)后作為缺失測試樣本集。

在根據(jù)本發(fā)明所述的基于深度學(xué)習(xí)的缺失值填充系統(tǒng)中，所述第二分類單元從所述完整數(shù)據(jù)子集中隨機(jī)選取70％的數(shù)據(jù)作為訓(xùn)練樣本集，其余30％的數(shù)據(jù)作為測試樣本集。

在根據(jù)本發(fā)明所述的基于深度學(xué)習(xí)的缺失值填充系統(tǒng)中，所述第一網(wǎng)絡(luò)處理模塊具體包括：

網(wǎng)絡(luò)構(gòu)建調(diào)整單元，用于構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)，由輸入層、第一卷積層、第一池化層、第二卷積層、第二池化層、全連接層和輸出層組成，并初始化參數(shù)；

網(wǎng)絡(luò)訓(xùn)練單元，將所述訓(xùn)練樣本集輸入所述卷積神經(jīng)網(wǎng)絡(luò)，卷積神經(jīng)網(wǎng)路根據(jù)所述訓(xùn)練樣本集中數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí)，并自動更新權(quán)值，訓(xùn)練完成后保存網(wǎng)絡(luò)結(jié)構(gòu)及內(nèi)部參數(shù)；

比較迭代單元，將缺失測試樣本集輸入所述卷積神經(jīng)網(wǎng)絡(luò)，預(yù)測填充缺失值，將缺失測試樣本集的填充結(jié)果與所述測試樣本集比對，若準(zhǔn)確率符合精度要求，則啟動所述第二網(wǎng)絡(luò)處理模塊，若準(zhǔn)確率不符合精度要求，則啟動所述網(wǎng)絡(luò)構(gòu)建調(diào)整單元對所述卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整。

實施本發(fā)明的基于深度學(xué)習(xí)的缺失值填充方法及系統(tǒng)，具有以下有益效果：本發(fā)明選用了深度神經(jīng)網(wǎng)絡(luò)中的卷積神經(jīng)網(wǎng)絡(luò)，將數(shù)據(jù)集進(jìn)行預(yù)處理后，根據(jù)數(shù)據(jù)集大小創(chuàng)造出符合數(shù)據(jù)庫大小規(guī)格的網(wǎng)絡(luò)層數(shù)，設(shè)置每層初始參數(shù)，將訓(xùn)練集輸入網(wǎng)絡(luò)中，神經(jīng)網(wǎng)絡(luò)就可自己計算數(shù)據(jù)之間的關(guān)系，對自身數(shù)據(jù)參數(shù)進(jìn)行更新，使得本發(fā)明不受限于數(shù)據(jù)集的完整性，就能深度挖掘出數(shù)據(jù)之間的關(guān)系，得出相應(yīng)學(xué)習(xí)率與權(quán)值，形成訓(xùn)練網(wǎng)絡(luò)，從而預(yù)測缺失值并填充；同時卷積神經(jīng)網(wǎng)絡(luò)具有權(quán)值共享的特點，在訓(xùn)練過程中極大程度得減少了權(quán)值的數(shù)量，降低了對電腦硬件的要求與負(fù)擔(dān)，減少數(shù)據(jù)過擬合的發(fā)生。

附圖說明

圖1為根據(jù)本發(fā)明優(yōu)選實施例的基于深度學(xué)習(xí)的缺失值填充方法流程圖；

圖2為根據(jù)本發(fā)明優(yōu)選實施例的方法中數(shù)據(jù)預(yù)處理步驟的一種實施方式的流程圖；

圖3為根據(jù)本發(fā)明優(yōu)選實施例的基于深度學(xué)習(xí)的缺失值填充系統(tǒng)的模塊框圖；

圖4為根據(jù)本發(fā)明優(yōu)選實施例的系統(tǒng)中數(shù)據(jù)預(yù)處理模塊的一種實施方式的示意圖；

圖5為根據(jù)本發(fā)明優(yōu)選實施例的系統(tǒng)中第一網(wǎng)絡(luò)處理模塊的一種實施方式的示意圖。

具體實施方式

為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚，下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實施例是本發(fā)明的一部分實施例，而不是全部的實施例。基于本發(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例，都屬于本發(fā)明保護(hù)的范圍。

請參閱圖1，為根據(jù)本發(fā)明優(yōu)選實施例的基于深度學(xué)習(xí)的缺失值填充方法流程圖。如圖1所示，該實施例提供的基于深度學(xué)習(xí)的缺失值填充方法包括以下步驟：

在步驟s101中，流程開始；

在步驟s102中，執(zhí)行數(shù)據(jù)預(yù)處理步驟，對數(shù)據(jù)集進(jìn)行預(yù)處理，包括：將數(shù)據(jù)集分為完整數(shù)據(jù)子集a和缺失數(shù)據(jù)子集b；將完整數(shù)據(jù)子集a中的數(shù)據(jù)分為訓(xùn)練樣本集a1和測試樣本集a2；隨機(jī)刪除測試樣本集a2中部分?jǐn)?shù)據(jù)作為缺失測試樣本集a3。

隨后，在步驟s103～s105中執(zhí)行第一網(wǎng)絡(luò)處理步驟：利用訓(xùn)練樣本集a1對初步構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練并保存，使用訓(xùn)練后得到的卷積神經(jīng)網(wǎng)絡(luò)對缺失測試樣本集a3進(jìn)行缺失值填充，并將填充結(jié)果與測試樣本集a2比對，在不符合精度要求時調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)并迭代前述訓(xùn)練和驗證步驟直至滿足精度要求。該步驟具體包括：

在步驟s103中，構(gòu)建或調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)。首先，初步設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)，由輸入層、第一卷積層、第一池化層、第二卷積層、第二池化層、全連接層和輸出層共七層組成，由此初步構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)，并初始化參數(shù)。該初始化的參數(shù)包括每一層的神經(jīng)元數(shù)量，每一特征map的大小，卷積層中卷積核的大小，與輸入輸出的規(guī)格有關(guān)。

在步驟s104中，利用訓(xùn)練樣本集a1對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練并保存。該步驟中將訓(xùn)練樣本集a1輸入步驟s103得到的卷積神經(jīng)網(wǎng)絡(luò)，卷積神經(jīng)網(wǎng)路根據(jù)訓(xùn)練樣本集a1中數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí)，并自動更新權(quán)值，訓(xùn)練完成后保存網(wǎng)絡(luò)結(jié)構(gòu)及內(nèi)部參數(shù)。卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)部參數(shù)至少包括權(quán)值和學(xué)習(xí)率，為了防止權(quán)值對稱化，一般隨機(jī)初始化。學(xué)習(xí)率隨機(jī)選取0-1中任意數(shù)字，因為后續(xù)過程中參數(shù)會根據(jù)學(xué)習(xí)自動更新，所以初始值影響不大。

在步驟s105中，將缺失測試樣本集a3輸入步驟s104得到的卷積神經(jīng)網(wǎng)絡(luò)，預(yù)測填充缺失值，在預(yù)測填充缺失值后將缺失測試樣本集a3的填充結(jié)果與刪除數(shù)據(jù)前的樣本集即測試樣本集a2進(jìn)行比對，判斷是否滿足精度要求：

(1)若準(zhǔn)確率符合精度要求，則轉(zhuǎn)步驟s106；

(2)若準(zhǔn)確率不符合精度要求，則轉(zhuǎn)步驟s103對卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整后重新執(zhí)行前述訓(xùn)練步驟s104和驗證步驟s105，如此不斷迭代直至滿足精度要求。在對卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整時，首選改變卷積次數(shù)，即增加或減少卷積層個數(shù)。卷積的目的是深度挖掘特征，池化層緊跟卷積，因此可以理解為兩層兩層增加優(yōu)化。當(dāng)三次增加發(fā)現(xiàn)最終準(zhǔn)確率增加不多時，相應(yīng)減少回該第一次出現(xiàn)準(zhǔn)確率的最初層數(shù)。

在步驟s106中，執(zhí)行第二網(wǎng)絡(luò)處理步驟，將完整數(shù)據(jù)子集a輸入步驟s105得到的卷積神經(jīng)網(wǎng)絡(luò)，得到完善的卷積神經(jīng)網(wǎng)絡(luò)。將全部完整數(shù)據(jù)輸入，得到全部信息，使網(wǎng)絡(luò)計算更完整的特征得到權(quán)值，最終得到效果最好的網(wǎng)絡(luò)結(jié)構(gòu)及內(nèi)部權(quán)值，最終保存該網(wǎng)絡(luò)結(jié)構(gòu)作為完善的卷積神經(jīng)網(wǎng)絡(luò)。也就是說，經(jīng)過s106更新后的權(quán)值將被固定保存，成為參數(shù)固定的網(wǎng)絡(luò)結(jié)構(gòu)，供s107使用。因此，本發(fā)明中分別通過第一網(wǎng)絡(luò)處理步驟先優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的外部的網(wǎng)絡(luò)結(jié)構(gòu)，再通過第二網(wǎng)絡(luò)處理步驟優(yōu)化內(nèi)部的權(quán)值。

在步驟s107中，執(zhí)行缺失值填充步驟，將缺失數(shù)據(jù)子集b輸入步驟s106得到的完善的卷積神經(jīng)網(wǎng)絡(luò)完成缺失值的填充。該步驟中將缺失數(shù)據(jù)子集b輸入最終的網(wǎng)絡(luò)結(jié)構(gòu)。

在步驟s108中，流程結(jié)束。

本發(fā)明在每次應(yīng)用前，無需重復(fù)訓(xùn)練，直接利用訓(xùn)練好的網(wǎng)絡(luò)，輸入有缺失值的數(shù)據(jù)組，即可預(yù)測出缺失值，進(jìn)行填充。本發(fā)明選用了深度神經(jīng)網(wǎng)絡(luò)中的卷積神經(jīng)網(wǎng)絡(luò)，將數(shù)據(jù)集進(jìn)行預(yù)處理后，根據(jù)數(shù)據(jù)集大小創(chuàng)造出符合數(shù)據(jù)庫大小規(guī)格的網(wǎng)絡(luò)層數(shù)，設(shè)置每層初始參數(shù)，將訓(xùn)練集輸入網(wǎng)絡(luò)中，卷積神經(jīng)網(wǎng)絡(luò)就可自己計算數(shù)據(jù)之間的關(guān)系，對自身數(shù)據(jù)參數(shù)進(jìn)行更新。因此，本發(fā)明不受限于數(shù)據(jù)集的完整性，就能深度挖掘出數(shù)據(jù)之間的關(guān)系，得出相應(yīng)學(xué)習(xí)率與權(quán)值，形成訓(xùn)練網(wǎng)絡(luò)，從而預(yù)測缺失值并填充。同時卷積神經(jīng)網(wǎng)絡(luò)具有權(quán)值共享的特點，在訓(xùn)練過程中極大程度得減少了權(quán)值的數(shù)量，降低了對電腦硬件的要求與負(fù)擔(dān)，減少數(shù)據(jù)過擬合的發(fā)生。

請結(jié)合參閱圖2，為根據(jù)本發(fā)明優(yōu)選實施例的方法中數(shù)據(jù)預(yù)處理步驟的一種實施方式的流程圖。如圖2所示，該數(shù)據(jù)預(yù)處理步驟即前述步驟s102具體包括：

在步驟s201中，流程開始；

在步驟s202中，收集數(shù)據(jù)構(gòu)建待處理數(shù)據(jù)集。該步驟中收集真實準(zhǔn)確數(shù)據(jù)等待處理。

在步驟s203中，對已有數(shù)據(jù)集進(jìn)行分類，將完整無缺失的數(shù)據(jù)分出作為完整數(shù)據(jù)子集a，將有缺失的數(shù)據(jù)分出作為缺少數(shù)據(jù)子集b。

在步驟s204中，從完整數(shù)據(jù)子集a中隨機(jī)選取60％～80％的數(shù)據(jù)作為訓(xùn)練樣本集a1，其余作為測試樣本集a2。在本發(fā)明的一個優(yōu)選實施例中，該步驟s204從完整數(shù)據(jù)子集a中隨機(jī)選取70％的數(shù)據(jù)作為訓(xùn)練樣本集a1，其余30％的數(shù)據(jù)作為測試樣本集a2。

在步驟s205中，在測試樣本集a2中，隨機(jī)刪除部分?jǐn)?shù)據(jù)后作為缺失測試樣本集a3。優(yōu)選將測試樣本集a2隨機(jī)刪除20％～40％的數(shù)據(jù)后作為缺失測試樣本集a3。更優(yōu)選地，隨機(jī)刪除30％數(shù)據(jù)，并將刪除數(shù)據(jù)后的測試樣本集a2作為缺失測試樣本集a3。

在步驟s206中，該流程結(jié)束。

本發(fā)明還提供了一種存儲介質(zhì)，其中存儲有多條指令，所述指令適于由處理器加載并執(zhí)行如前所述的基于深度學(xué)習(xí)的缺失值填充方法中的步驟。例如執(zhí)行步驟s101～s108。

請結(jié)合參閱圖3，為根據(jù)本發(fā)明優(yōu)選實施例的基于深度學(xué)習(xí)的缺失值填充系統(tǒng)的模塊框圖。如圖3所示，該實施例提供的基于深度學(xué)習(xí)的缺失值填充系統(tǒng)10至少包括：數(shù)據(jù)預(yù)處理模塊100、第一網(wǎng)絡(luò)處理模塊200、第二網(wǎng)絡(luò)處理模塊300和缺失值填充模塊400。

其中數(shù)據(jù)預(yù)處理模塊100用于對數(shù)據(jù)集進(jìn)行預(yù)處理，包括：將數(shù)據(jù)集分為完整數(shù)據(jù)子集a和缺失數(shù)據(jù)子集b；將完整數(shù)據(jù)子集a中的數(shù)據(jù)分為訓(xùn)練樣本集a1和測試樣本集a2；隨機(jī)刪除測試樣本集a2中部分?jǐn)?shù)據(jù)作為缺失測試樣本集a3。

第一網(wǎng)絡(luò)處理模塊200與數(shù)據(jù)預(yù)處理模塊100連接，用于利用訓(xùn)練樣本集a1對初步構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練并保存，使用訓(xùn)練后得到的卷積神經(jīng)網(wǎng)絡(luò)對缺失測試樣本集a3進(jìn)行缺失值填充，并將填充結(jié)果與測試樣本集a2比對，在不符合精度要求時調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)并迭代前述訓(xùn)練和驗證步驟直至滿足精度要求。

第二網(wǎng)絡(luò)處理模塊300同時與數(shù)據(jù)預(yù)處理模塊100以及第一網(wǎng)絡(luò)處理模塊200連接，用于將完整數(shù)據(jù)子集a輸入第一網(wǎng)絡(luò)處理模塊100得到的卷積神經(jīng)網(wǎng)絡(luò)，得到完善的卷積神經(jīng)網(wǎng)絡(luò)。

缺失值填充模塊400同時與數(shù)據(jù)預(yù)處理模塊100以及第二網(wǎng)絡(luò)處理模塊300連接，用于將缺失數(shù)據(jù)子集b輸入第二網(wǎng)絡(luò)處理模塊300得到的完善的卷積神經(jīng)網(wǎng)絡(luò)完成缺失值的填充。

請結(jié)合參閱圖4，為根據(jù)本發(fā)明優(yōu)選實施例的系統(tǒng)中數(shù)據(jù)預(yù)處理模塊的一種實施方式的示意圖。如圖4所示，該數(shù)據(jù)預(yù)處理模塊100具體包括：數(shù)據(jù)收集單元110、第一分類單元120、第二分類單元130和數(shù)據(jù)刪除單元140。

數(shù)據(jù)收集單元110用于收集數(shù)據(jù)構(gòu)建待處理數(shù)據(jù)集。

第一分類單元120與數(shù)據(jù)收集單元110連接，用于對數(shù)據(jù)集進(jìn)行分類，將完整無缺失的數(shù)據(jù)分出作為完整數(shù)據(jù)子集a，將有缺失的數(shù)據(jù)分出作為缺少數(shù)據(jù)子集b。

第二分類單元130與第一分類單元120連接，用于從完整數(shù)據(jù)子集a中隨機(jī)選取60％～80％的數(shù)據(jù)作為訓(xùn)練樣本集a1，完整數(shù)據(jù)子集a中的其余數(shù)據(jù)作為測試樣本集a2。在本發(fā)明的一個優(yōu)選實施例中，第二分類單元130從完整數(shù)據(jù)子集a中隨機(jī)選取70％的數(shù)據(jù)作為訓(xùn)練樣本集a1，其余30％的數(shù)據(jù)作為測試樣本集a2。

數(shù)據(jù)刪除單元140與第二分類單元130連接，用于在測試樣本集a2中，隨機(jī)刪除部分?jǐn)?shù)據(jù)作為缺失測試樣本集a3。

請結(jié)合參閱圖5，為根據(jù)本發(fā)明優(yōu)選實施例的系統(tǒng)中第一網(wǎng)絡(luò)處理模塊的一種實施方式的示意圖。如圖5所示，該第一網(wǎng)絡(luò)處理模塊200具體包括：網(wǎng)絡(luò)構(gòu)建調(diào)整單元210、網(wǎng)絡(luò)訓(xùn)練單元220和比較迭代單元230。

網(wǎng)絡(luò)構(gòu)建調(diào)整單元210，用于構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)，由輸入層、第一卷積層、第一池化層、第二卷積層、第二池化層、全連接層和輸出層組成，并初始化參數(shù)。該網(wǎng)絡(luò)構(gòu)建調(diào)整單元210還可以由比較迭代單元230啟動執(zhí)行網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整的功能，在對卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整時，首選改變卷積次數(shù)，即增加或減少卷積層個數(shù)。

網(wǎng)絡(luò)訓(xùn)練單元220與網(wǎng)絡(luò)構(gòu)建調(diào)整單元210連接，用于將訓(xùn)練樣本集a1輸入網(wǎng)絡(luò)構(gòu)建調(diào)整單元210得到的卷積神經(jīng)網(wǎng)絡(luò)，卷積神經(jīng)網(wǎng)路根據(jù)所述訓(xùn)練樣本集a1中數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí)，并自動更新權(quán)值，訓(xùn)練完成后保存網(wǎng)絡(luò)結(jié)構(gòu)及內(nèi)部參數(shù)。

比較迭代單元230與網(wǎng)絡(luò)訓(xùn)練單元220連接，用于將缺失測試樣本集a3輸入網(wǎng)絡(luò)訓(xùn)練單元220得到的卷積神經(jīng)網(wǎng)絡(luò)，預(yù)測填充缺失值，將缺失測試樣本集a3的填充結(jié)果與刪除數(shù)據(jù)前的測試樣本集a2比對，若準(zhǔn)確率符合精度要求，則啟動第二網(wǎng)絡(luò)處理模塊300，若準(zhǔn)確率不符合精度要求，則啟動網(wǎng)絡(luò)構(gòu)建調(diào)整單元210對卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整，并繼續(xù)啟動網(wǎng)絡(luò)訓(xùn)練單元220和比較迭代單元230進(jìn)行重復(fù)迭代，直至準(zhǔn)確率滿足精度要求。

綜上所述，本發(fā)明采用卷積神經(jīng)網(wǎng)路，與傳統(tǒng)統(tǒng)計學(xué)方法相比，利用神經(jīng)網(wǎng)絡(luò)半監(jiān)督學(xué)習(xí)數(shù)據(jù)之間的關(guān)系，隱式地提取數(shù)據(jù)之間的特征，不受限于現(xiàn)有數(shù)據(jù)的完整性，無論訓(xùn)練集性質(zhì)如何，都能找出深層特征進(jìn)行學(xué)習(xí)和測試；與淺層人工神經(jīng)網(wǎng)絡(luò)相比，卷積神經(jīng)網(wǎng)絡(luò)，每一特征層之間的神經(jīng)元權(quán)值共享，減少參數(shù)數(shù)量，降低了網(wǎng)絡(luò)的復(fù)雜度，同時省去了復(fù)雜繁瑣的多次反向殘差計算。本發(fā)明解決了數(shù)據(jù)庫缺失值填充問題，達(dá)到了準(zhǔn)確度更高，效率更快的效果，能更真實快速地還原缺失數(shù)據(jù)。

最后應(yīng)說明的是：以上實施例僅用以說明本發(fā)明的技術(shù)方案，而非對其限制；盡管參照前述實施例對本發(fā)明進(jìn)行了詳細(xì)的說明，本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解：其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改，或者對其中部分技術(shù)特征進(jìn)行等同替換；而這些修改或者替換，并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王宏志;王藝蒙;趙志強(qiáng);孫旭冉
技術(shù)所有人：哈工大大數(shù)據(jù)產(chǎn)業(yè)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于深度學(xué)習(xí)的缺失值填充方法及系統(tǒng)與流程