數(shù)據(jù)還原方法及裝置制造方法
【專利摘要】本發(fā)明實施例提出一種數(shù)據(jù)還原方法及裝置,其方法包括:根據(jù)待還原的數(shù)據(jù)構(gòu)建決策表;根據(jù)決策表構(gòu)建表示任意兩個對象之間差別關(guān)系的關(guān)系矩陣;搜索關(guān)系矩陣,逐一獲取關(guān)系矩陣中與每個待填補對象對應(yīng)的差別關(guān)系元素;根據(jù)獲取的差別關(guān)系元素,逐一判斷待填補對象與其它各個對象之間的差別關(guān)系是否滿足沖突避免條件;將所有不滿足沖突避免條件的對象中,與相應(yīng)待填補對象的缺失屬性值同屬于一個條件屬性的屬性值作為填補值進行記錄;根據(jù)記錄的填補值對缺失的屬性值進行填充。本發(fā)明實施例的裝置利用對象之間的差別關(guān)系來對缺失屬性進行填補,大大降低了計算的復(fù)雜性,且可以有效避免由于填補而產(chǎn)生的數(shù)據(jù)沖突。
【專利說明】數(shù)據(jù)還原方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機【技術(shù)領(lǐng)域】,特別涉及一種數(shù)據(jù)還原方法及裝置。
【背景技術(shù)】
[0002] 隨著技術(shù)的發(fā)展與科學(xué)的進步,數(shù)據(jù)量的飛速增長已成為一個不容忽視的問題, 面對堆積如山的數(shù)據(jù),想要獲取有用的信息與知識并非易事。因此數(shù)據(jù)挖掘技術(shù)伴隨著人 們的需求與科技的進步獲得快速發(fā)展。然而在實際應(yīng)用時,缺失數(shù)據(jù)的出現(xiàn)對所有數(shù)據(jù)分 析技術(shù)包括數(shù)據(jù)挖掘都是一個普遍存在卻富有挑戰(zhàn)性的問題。
[0003] 缺失數(shù)據(jù)的產(chǎn)生在實際中是經(jīng)常發(fā)生的,甚至是不可避免的。造成數(shù)據(jù)缺失的可 能是信息暫時無法獲取或者在操作過程中被遺漏等。目前,很多解決數(shù)據(jù)缺失問題的方法 大都采用的是簡單填補法(simple imputation),其是用一個可行的,估計的值(例如均值 或者用其它方法得到的一個估計值)對缺失數(shù)據(jù)進行一遍填充。其優(yōu)點是速度快,但是這種 方法低估了變量之間的關(guān)聯(lián)關(guān)系,會扭曲樣本的分布,不能反映缺失值的不確定性。
[0004] 多重填補法(11111^口16 111^11^31:;[011,10)與簡單填補法的區(qū)別在于,多重填補法對 每一個缺失值用一個可能值的集合進行填補、重復(fù)多次,所以叫多重填補,以反映缺失值的 不確定性,從而產(chǎn)生若干個完整數(shù)據(jù)集。然后,用針對完整數(shù)據(jù)集的統(tǒng)計方法對每一個填補 數(shù)據(jù)集分別進行統(tǒng)計分析,把得到的結(jié)果進行綜合,進而產(chǎn)生最終的統(tǒng)計推斷。但是,多重 填補法的處理過程比較復(fù)雜,并不適用于輕量級數(shù)據(jù)分析。
[0005] 因此,目前需要一種數(shù)據(jù)還原技術(shù),既可以考慮變量之間的關(guān)聯(lián)關(guān)系,又可以適用 于輕量級的數(shù)據(jù)分析。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實施例的目的是提供一種數(shù)據(jù)還原方法及裝置,以解決現(xiàn)有的現(xiàn)有的數(shù)據(jù) 還原技術(shù)錯誤率高或者處理過程過于復(fù)雜的問題。
[0007] 本發(fā)明實施例提出一種數(shù)據(jù)還原方法,包括:
[0008] 根據(jù)待還原的數(shù)據(jù)構(gòu)建決策表,所述決策表包括對象集、條件屬性集及決策屬性 集;
[0009] 根據(jù)決策表構(gòu)建表示任意兩個對象之間差別關(guān)系的關(guān)系矩陣,所述關(guān)系矩陣中包 括多個表示兩個對象之間差別關(guān)系的差別關(guān)系元素;
[0010] 搜索關(guān)系矩陣,逐一獲取關(guān)系矩陣中與每個待填補對象對應(yīng)的差別關(guān)系元素;
[0011] 根據(jù)獲取的差別關(guān)系元素,逐一判斷待填補對象與其它各個對象之間的差別關(guān)系 是否滿足沖突避免條件,所述沖突避免條件包括決策屬性不同且除去缺失屬性之外的其它 所有條件屬性值均相同;
[0012] 將所有不滿足沖突避免條件的對象中,與相應(yīng)待填補對象的缺失屬性值同屬于一 個條件屬性的屬性值作為填補值進行記錄;
[0013] 根據(jù)記錄的填補值對缺失的屬性值進行填充。
[0014] 本發(fā)明實施例提出還一種數(shù)據(jù)還原裝置,包括:
[0015] 決策表構(gòu)建單元,用于根據(jù)待還原的數(shù)據(jù)構(gòu)建決策表,所述決策表包括對象集、條 件屬性集及決策屬性集;
[0016] 關(guān)系矩陣構(gòu)建單元,用于根據(jù)決策表構(gòu)建表示任意兩個對象之間差別關(guān)系的關(guān)系 矩陣,所述關(guān)系矩陣中包括多個表示兩個對象之間差別關(guān)系的差別關(guān)系元素;
[0017] 差別關(guān)系元素獲取單元,用于搜索關(guān)系矩陣,逐一獲取關(guān)系矩陣中與每個待填補 對象對應(yīng)的差別關(guān)系兀素;
[0018] 沖突預(yù)判單元,用于根據(jù)獲取的差別關(guān)系元素,逐一判斷待填補對象與其它各個 對象之間的差別關(guān)系是否滿足沖突避免條件,所述沖突避免條件包括決策屬性不同且除去 缺失屬性之外的其它所有條件屬性值均相同;
[0019] 填補值記錄單元,用于將所有不滿足沖突避免條件的對象中,與相應(yīng)待填補對象 的缺失屬性值同屬于一個條件屬性的屬性值作為填補值進行記錄;
[0020] 填補單元,用于根據(jù)記錄的填補值對缺失的屬性值進行填充。
[0021] 相對于現(xiàn)有技術(shù),本發(fā)明的有益效果是:本發(fā)明實施例的裝置利用對象之間的差 別關(guān)系來對缺失屬性進行填補,并引入了核屬性及對象沖突的判斷規(guī)則,大大降低了計算 的復(fù)雜性,且可以有效避免由于填補而產(chǎn)生的數(shù)據(jù)沖突。
【專利附圖】
【附圖說明】
[0022] 圖1為本發(fā)明實施例的一種數(shù)據(jù)還原方法的流程圖;
[0023] 圖2為本發(fā)明實施例的另一種數(shù)據(jù)還原方法的流程圖;
[0024] 圖3為本發(fā)明實施例的一種數(shù)據(jù)還原裝置的結(jié)構(gòu)圖;
[0025] 圖4為本發(fā)明實施例的另一種數(shù)據(jù)還原裝置的結(jié)構(gòu)圖。
【具體實施方式】
[0026] 有關(guān)本發(fā)明的前述及其他技術(shù)內(nèi)容、特點及功效,在以下配合參考圖式的較佳實 施例詳細說明中將可清楚的呈現(xiàn)。通過【具體實施方式】的說明,當可對本發(fā)明為達成預(yù)定目 的所采取的技術(shù)手段及功效得以更加深入且具體的了解,然而所附圖式僅是提供參考與說 明之用,并非用來對本發(fā)明加以限制。
[0027] 本發(fā)明實施例中所涉及的部分符號說明如下:"Λ"表示"和"的意思;"V"表示 "或,,的意思;" V "表示"任意,,的意思;"3 "表示"存在,,的意思;" | CD | "表示集合CD的勢, 即中集合CD元素的個數(shù)。
[0028] 請參見圖1,其為本發(fā)明實施例的一種數(shù)據(jù)還原方法的流程圖,其包括以下步驟:
[0029] S101,根據(jù)待還原的數(shù)據(jù)構(gòu)建決策表,所述決策表包括對象集、條件屬性集及決策 屬性集。
[0030] 決策表是一種呈表格狀的圖形工具,適用于描述處理判斷條件較多,各條件又相 互組合、有多種決策方案的情況。數(shù)據(jù)挖掘里是把具體行業(yè)的不同需求統(tǒng)計抽象為條件屬 性和決策屬性。例如,移動的用戶統(tǒng)計表作為決策表,其中用戶就是對象,條件屬性可以是 用戶的基本信息,如性別、職業(yè)等,決策屬性就是用戶辦理的套餐。通常情況下,決策屬性 的值是由一個或多個條件屬性的值來決定的,例如,"套餐名稱"這個決策屬性是由"每月流 量"這個條件屬性決定的。
[0031] S102,根據(jù)決策表構(gòu)建表示任意兩個對象之間差別關(guān)系的關(guān)系矩陣,所述關(guān)系矩 陣中包括多個表示兩個對象之間差別關(guān)系的差別關(guān)系元素。
[0032] 決策表中的每個對象都有其對應(yīng)的條件屬性和決策屬性,通過對兩個對象之間條 件屬性和決策屬性的比較,就可以獲得這兩個對象之間的差別關(guān)系,也即是說,差別關(guān)系元 素是通過兩個對象之間條件屬性和決策屬性的比對和運算獲得的。
[0033] 所述差別關(guān)系元素可以包括表示兩個對象決策屬性是否一致的決策標識、表示兩 個對象之間條件屬性差別的差別屬性集以及用于對對象的條件屬性值起到標識作用的條 件屬性標識向量。
[0034] 設(shè)決策表為S=(U,A,V,f),其中U = {Xl,x2,…,xn}是一個非空有限對象集合,A 是對象的屬性集合,分別由條件屬性集C= {ai | i=l,. . .,m}和決策屬性集D= dn8uhelbkzum兩個不相交 的子集組成,即A=CUD ;ai是樣本Xi在屬性ai(Xp上的取值。構(gòu)建的關(guān)系矩陣的模型可以 是VM(i, j) = (D, 〇),F(xiàn)),其中決策標識D表示為:
[0035]
【權(quán)利要求】
1. 一種數(shù)據(jù)還原方法,其特征在于,包括: 根據(jù)待還原的數(shù)據(jù)構(gòu)建決策表,所述決策表包括對象集、條件屬性集及決策屬性集; 根據(jù)決策表構(gòu)建表示任意兩個對象之間差別關(guān)系的關(guān)系矩陣,所述關(guān)系矩陣中包括多 個表示兩個對象之間差別關(guān)系的差別關(guān)系元素; 搜索關(guān)系矩陣,逐一獲取關(guān)系矩陣中與每個待填補對象對應(yīng)的差別關(guān)系元素; 根據(jù)獲取的差別關(guān)系元素,逐一判斷待填補對象與其它各個對象之間的差別關(guān)系是否 滿足沖突避免條件,所述沖突避免條件包括決策屬性不同且除去缺失屬性之外的其它所有 條件屬性值均相同; 將所有不滿足沖突避免條件的對象中,與相應(yīng)待填補對象的缺失屬性值同屬于一個條 件屬性的屬性值作為填補值進行記錄; 根據(jù)記錄的填補值對缺失的屬性值進行填充。
2. 如權(quán)利要求1所述的數(shù)據(jù)還原方法,其特征在于,所述構(gòu)建關(guān)系矩陣的步驟之后進 一步包括: 搜索所述關(guān)系矩陣,判斷所述關(guān)系矩陣中每個差別關(guān)系元素對應(yīng)的兩個對象之間差 別關(guān)系是否同時滿足決策屬性值不同、無缺失屬性以及有且僅有一個屬性值不同的條件屬 性; 若滿足,則將所述屬性值不同的條件屬性記為核屬性; 所述搜索關(guān)系矩陣,逐一獲取關(guān)系矩陣中與每個待填補對象對應(yīng)的差別關(guān)系元素的步 驟之前進一步包括: 搜索所述決策表,獲取含有缺失屬性值的條件屬性; 逐一判斷含有缺失屬性值的條件屬性是否為核屬性; 若是,則將缺失屬性值對應(yīng)的對象記為待填補對象。
3. 如權(quán)利要求2所述的數(shù)據(jù)還原方法,其特征在于,所述逐一判斷含有缺失屬性值的 條件屬性是否為核屬性的步驟之后包括: 若否,則對缺失的屬性值進行任意填補。
4. 如權(quán)利要求1所述的數(shù)據(jù)還原方法,其特征在于,所述構(gòu)建關(guān)系矩陣的步驟之后進 一步包括: 搜索所述關(guān)系矩陣,根據(jù)差別關(guān)系元素判斷不含有缺失屬性的任意兩個對象之間是否 沖突; 若沖突,則去除所述關(guān)系矩陣中與沖突對象相關(guān)的差別關(guān)系元素。
5. 如權(quán)利要求4所述的數(shù)據(jù)還原方法,其特征在于,所述判斷不含有缺失屬性的任意 兩個對象之間是否沖突的步驟包括: 判斷所述關(guān)系矩陣中每個差別關(guān)系元素對應(yīng)的兩個對象之間差別關(guān)系是否同時滿足 決策屬性值不同、無缺失屬性以及所有條件屬性均相同; 若滿足,則為沖突。
6. 如權(quán)利要求1所述的數(shù)據(jù)還原方法,其特征在于, 所述構(gòu)建決策表的步驟之后還包括: 搜索所述決策表,獲取決策表中各個對象的缺失屬性,并構(gòu)成各個對象的遺失屬性 集; 根據(jù)各個遺失屬性集中元素的個數(shù),對相應(yīng)的對象進行排列,構(gòu)成缺失對象集; 所述搜索關(guān)系矩陣,逐一獲取關(guān)系矩陣中與每個待填補對象對應(yīng)的差別關(guān)系元素的步 驟包括: 按照缺失對象集中的對象的排列順序,搜索所述關(guān)系矩陣,并逐一獲取關(guān)系矩陣中與 每個待填補對象對應(yīng)的差別關(guān)系元素。
7. 如權(quán)利要求1?6任一項所述的數(shù)據(jù)還原方法,其特征在于,所述差別關(guān)系元素包括 表示兩個對象決策屬性是否一致的決策標識、表示兩個對象之間條件屬性差別的差別屬性 集以及用于對對象的條件屬性值起到標識作用的條件屬性標識向量。
8. -種數(shù)據(jù)還原裝置,其特征在于,包括: 決策表構(gòu)建單元,用于根據(jù)待還原的數(shù)據(jù)構(gòu)建決策表,所述決策表包括對象集、條件屬 性集及決策屬性集; 關(guān)系矩陣構(gòu)建單元,用于根據(jù)決策表構(gòu)建表示任意兩個對象之間差別關(guān)系的關(guān)系矩 陣,所述關(guān)系矩陣中包括多個表示兩個對象之間差別關(guān)系的差別關(guān)系元素; 差別關(guān)系元素獲取單元,用于搜索關(guān)系矩陣,逐一獲取關(guān)系矩陣中與每個待填補對象 對應(yīng)的差別關(guān)系兀素; 沖突預(yù)判單元,用于根據(jù)獲取的差別關(guān)系元素,逐一判斷待填補對象與其它各個對象 之間的差別關(guān)系是否滿足沖突避免條件,所述沖突避免條件包括決策屬性不同且除去缺失 屬性之外的其它所有條件屬性值均相同; 填補值記錄單元,用于將所有不滿足沖突避免條件的對象中,與相應(yīng)待填補對象的缺 失屬性值同屬于一個條件屬性的屬性值作為填補值進行記錄; 填補單元,用于根據(jù)記錄的填補值對缺失的屬性值進行填充。
9. 如權(quán)利要求8所述的數(shù)據(jù)還原裝置,其特征在于,所述數(shù)據(jù)還原裝置還包括: 核條件判斷單元,用于搜索所述關(guān)系矩陣,判斷所述關(guān)系矩陣中每個差別關(guān)系元素對 應(yīng)的兩個對象之間差別關(guān)系是否同時滿足決策屬性值不同、無缺失屬性以及有且僅有一個 屬性值不同的條件屬性; 核屬性記錄單元,用于將滿足條件的兩個對象之間屬性值不同的條件屬性記為核屬 性; 缺失條件獲取單元,用于在所述差別關(guān)系元素獲取單元逐一獲取關(guān)系矩陣中與每個待 填補對象對應(yīng)的差別關(guān)系元素之前,搜索所述決策表,獲取含有缺失屬性值的條件屬性; 核屬性判斷單元,用于根據(jù)所述核屬性記錄單元記錄的核屬性,逐一判斷含有缺失屬 性值的條件屬性是否為核屬性; 待填補對象記錄單元,用于在含有缺失屬性值的條件屬性是核屬性時,將缺失屬性值 對應(yīng)的對象記為待填補對象。
10. 如權(quán)利要求9所述的數(shù)據(jù)還原裝置,其特征在于,所述數(shù)據(jù)還原裝置還包括: 冗余屬性填補單元,用于對不是核屬性的缺失屬性值進行任意填補。
11. 如權(quán)利要求8所述的數(shù)據(jù)還原裝置,其特征在于,所述數(shù)據(jù)還原裝置還包括: 沖突判斷單元,用于在所述關(guān)系矩陣構(gòu)建單元構(gòu)建了關(guān)系矩陣之后,搜索所述關(guān)系矩 陣,根據(jù)差別關(guān)系元素判斷不含有缺失屬性的任意兩個對象之間是否沖突; 沖突元素去除單元,用于去除所述關(guān)系矩陣中與沖突對象相關(guān)的差別關(guān)系元素。
12. 如權(quán)利要求11所述的數(shù)據(jù)還原裝置,其特征在于,所述沖突判斷單元根據(jù)所述關(guān) 系矩陣中每個差別關(guān)系元素對應(yīng)的兩個對象之間差別關(guān)系是否同時滿足決策屬性值不同、 無缺失屬性以及所有條件屬性均相同,來判斷不含有缺失屬性的任意兩個對象之間是否沖 關(guān)。
13. 如權(quán)利要求8所述的數(shù)據(jù)還原裝置,其特征在于,所述數(shù)據(jù)還原裝置還包括: 遺失屬性集構(gòu)成單元,用于在所述決策表構(gòu)建單元構(gòu)建決策表之后,搜索所述決策表, 獲取決策表中各個對象的缺失屬性,并構(gòu)成各個對象的遺失屬性集; 缺失對象集構(gòu)成單元,用于根據(jù)各個遺失屬性集中元素的個數(shù),對相應(yīng)的對象進行排 列,構(gòu)成缺失對象集; 所述差別關(guān)系元素獲取單元按照缺失對象集中的對象的排列順序,搜索所述關(guān)系矩 陣,并逐一獲取關(guān)系矩陣中與每個待填補對象對應(yīng)的差別關(guān)系元素。
14. 如權(quán)利要求8?13任一項所述的數(shù)據(jù)還原裝置,其特征在于,所述差別關(guān)系元素包 括表示兩個對象決策屬性是否一致的決策標識、表示兩個對象之間條件屬性差別的差別屬 性集以及用于對對象的條件屬性值起到標識作用的條件屬性標識向量。
【文檔編號】G06F17/30GK104216916SQ201310219030
【公開日】2014年12月17日 申請日期:2013年6月4日 優(yōu)先權(quán)日:2013年6月4日
【發(fā)明者】金成美 申請人:騰訊科技(深圳)有限公司