一種數(shù)據(jù)處理方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種數(shù)據(jù)處理方法和裝置。
【背景技術(shù)】
[0002]在大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)在很多領(lǐng)域有廣泛的應(yīng)用。從大量的數(shù)據(jù)中,如何更加準(zhǔn)確的區(qū)分哪些數(shù)據(jù)是正常的數(shù)據(jù),哪些數(shù)據(jù)是非正常的數(shù)據(jù),已變得越來越重要。例如,在社保醫(yī)保領(lǐng)域中,違法社保醫(yī)保套現(xiàn)愈演愈烈,傳統(tǒng)檢測套現(xiàn)是基于簡單規(guī)則或者離線模型的。隨著數(shù)據(jù)量的增大,簡單模型或者離線模型處理能力下降,很多犯罪分子會嘗試?yán)@過規(guī)則和模型,導(dǎo)致社保醫(yī)保系統(tǒng)防控的滯后,很難準(zhǔn)確的判斷社保醫(yī)保交易是正常交易還是非正常交易,如套現(xiàn)交易。如果社保醫(yī)保系統(tǒng)無法準(zhǔn)確判斷出社保醫(yī)保交易是屬于正常交易還是非正常交易,就會不斷出現(xiàn)套現(xiàn)案件,影響社保醫(yī)?;鸬姆€(wěn)定運行。由此可見,如何準(zhǔn)確區(qū)分?jǐn)?shù)據(jù)的類別,如數(shù)據(jù)是否正?;蛘叻钦J且恢毙枰鉀Q的問題。
【發(fā)明內(nèi)容】
[0003]本發(fā)明提供一種提高數(shù)據(jù)分類準(zhǔn)確度的數(shù)據(jù)處理方法。
[0004]此外,本發(fā)明還提供一種使用上述數(shù)據(jù)處理方法的裝置。
[0005]一種數(shù)據(jù)處理方法,該方法包括:
[0006]獲取預(yù)設(shè)格式的沒有標(biāo)簽的數(shù)據(jù);
[0007]判斷是否已經(jīng)建立過第一隨機森林模型,所述第一隨機森林模型包含T個決策樹;
[0008]如果已經(jīng)建立過第一隨機森林模型,根據(jù)所述第一隨機森林模型對所述預(yù)設(shè)格式的沒有標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測,并保存標(biāo)簽預(yù)測的結(jié)果;
[0009]根據(jù)所述標(biāo)簽預(yù)測結(jié)果獲取具有真實標(biāo)簽的數(shù)據(jù);
[0010]從具有真實標(biāo)簽的數(shù)據(jù)中有放回地抽取K個樣本集,其中κ〈τ;
[0011]根據(jù)所述K個樣本集建立K個決策樹;
[0012]所述第一隨機森林模型和所述K個決策樹組成第二隨機森林模型,通過所述第二隨機森林模型對所述具有真實標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測;
[0013]根據(jù)所述標(biāo)簽預(yù)測的結(jié)果分別計算所述第二隨機森林模型中的每個決策樹信息,包括每個決策樹的綜合性能指標(biāo);以及
[0014]刪除所述綜合性能指標(biāo)最低的K個決策樹,將未刪除的T個決策樹作為第一隨機森林模型。
[0015]—種數(shù)據(jù)處理裝置,該裝置包括:獲取模塊、判斷模塊、預(yù)測模塊、樣本集抽取模塊、決策樹生成模塊、計算模塊、刪除模塊;
[0016]所述獲取模塊,用于獲取預(yù)設(shè)格式的沒有標(biāo)簽的數(shù)據(jù);
[0017]所述判斷模塊,用于判斷是否已經(jīng)建立過第一隨機森林模型,所述第一隨機森林模型包含T個決策樹;
[0018]所述預(yù)測模塊,用于如果已經(jīng)建立過第一隨機森林模型,根據(jù)所述第一隨機森林模型對所述預(yù)設(shè)格式的沒有標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測,并保存標(biāo)簽預(yù)測的結(jié)果;
[0019]所述獲取模塊,用于根據(jù)所述標(biāo)簽預(yù)測結(jié)果獲取具有真實標(biāo)簽的數(shù)據(jù);
[0020]所述樣本集抽取模塊,用于從具有真實標(biāo)簽的數(shù)據(jù)中有放回地抽取K個樣本集,其中 κ〈τ;
[0021 ]所述決策樹生成模塊,用于根據(jù)所述K個樣本集建立K個決策樹;
[0022]所述預(yù)測模塊,還用于所述第一隨機森林模型和所述K個決策樹組成第二隨機森林模型,通過所述第二隨機森林模型對所述具有真實標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測;
[0023]所述計算模塊,用于根據(jù)所述標(biāo)簽預(yù)測的結(jié)果分別計算所述第二隨機森林模型中的每個決策樹決策樹信息,包括每個決策樹的綜合性能指標(biāo);
[0024]所述刪除模塊,刪除所述綜合性能指標(biāo)最低的K個決策樹,將未刪除的T個決策樹作為第一隨機森林模型。
[0025]以上數(shù)據(jù)處理方法和裝置,首先利用包含T個決策樹的第一隨機森林模型對大量的數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測即分類,接著根據(jù)標(biāo)簽預(yù)測的結(jié)果確定數(shù)據(jù)的真實標(biāo)簽并從具有真實標(biāo)簽的數(shù)據(jù)中選取K個樣本集建立K個決策樹,然后用T個決策樹和K個決策樹組成的第二隨機森林模型對具有真實標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測,根據(jù)標(biāo)簽預(yù)測的結(jié)果計算第二隨機森林模型中的綜合性能指標(biāo),選取綜合性能指標(biāo)最高的T個決策樹作為第一隨機森林模型。第一隨機森林模型對沒有標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測即分類后,用分類后的數(shù)據(jù)來更新第一隨機森林模型。由于第一隨機森林模型已經(jīng)更新,用已經(jīng)更新的第一隨機森林模型對數(shù)據(jù)進(jìn)行分類可提高分類的準(zhǔn)確性。
【附圖說明】
[0026]為了更清楚地說明本發(fā)明實施例中的具體方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0027]圖1為數(shù)據(jù)處理方法的流程圖。
[0028]圖2為數(shù)據(jù)預(yù)處理方法的流程圖。
[0029]圖3為數(shù)據(jù)處理裝置的功能模塊圖。
[0030]圖4為獲取模塊的功能框圖。
【具體實施方式】
[0031]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明的【具體實施方式】作進(jìn)一步的詳細(xì)描述。
[0032]圖1為數(shù)據(jù)處理方法的流程圖,該數(shù)據(jù)處理方法包括如下步驟。
[0033]步驟SlOl,獲取預(yù)設(shè)格式的沒有標(biāo)簽的數(shù)據(jù)。預(yù)設(shè)格式的數(shù)據(jù)是指具有相同屬性的數(shù)據(jù)。該數(shù)據(jù)有多筆,有正常交易的數(shù)據(jù),也有非正常交易的數(shù)據(jù)。在本實施方式中,用標(biāo)簽來表示數(shù)據(jù)是否為正常交易或者非正常交易。數(shù)據(jù)的標(biāo)簽包括正常交易和非正常交易兩種標(biāo)簽。正常交易的數(shù)據(jù)為白樣本,非正常交易的數(shù)據(jù)為黑樣本。在其他的實施方式中,數(shù)據(jù)的標(biāo)簽可能有多種。在本實施方式中以社保醫(yī)保交易數(shù)據(jù)為例進(jìn)行說明。例如,在社保醫(yī)保交易數(shù)據(jù)中,有正常人使用社保醫(yī)??床≠I藥的數(shù)據(jù),也可能有犯罪分子使用社保醫(yī)??床≠I藥的交易數(shù)據(jù)。數(shù)據(jù)的標(biāo)簽分別是正常交易和非正常交易。沒有標(biāo)簽的數(shù)據(jù)是指社保醫(yī)保交易數(shù)據(jù)沒有區(qū)別是白樣本(正常交易的數(shù)據(jù))還是黑樣本(非正常交易的數(shù)據(jù))。
[0034]步驟S102,判斷是否已經(jīng)建立過第一隨機森林模型,該第一隨機森林模型包含T個決策樹。如果已經(jīng)建立了第一隨機森林模型,執(zhí)行步驟S105;如果沒有建立第一隨機森林模型,執(zhí)行步驟S103。其中,T個決策樹表示為多個決策樹,多個決策樹組成隨機森林,稱為隨機森林模型。
[0035]步驟S103,獲取預(yù)設(shè)格式的有標(biāo)簽的數(shù)據(jù)。預(yù)設(shè)格式的數(shù)據(jù)是指具有相同屬性的數(shù)據(jù)。該數(shù)據(jù)有多筆。如果沒有第一建立隨機森林模型,獲取預(yù)設(shè)格式的有標(biāo)簽的數(shù)據(jù)。例如,在社保醫(yī)保中,有標(biāo)簽的交易數(shù)據(jù)即為已經(jīng)區(qū)別了是白樣本(正常交易的數(shù)據(jù))和黑樣本(非正常交易的數(shù)據(jù))的交易數(shù)據(jù)。
[0036]步驟S104,將預(yù)設(shè)格式的有標(biāo)簽的數(shù)據(jù)導(dǎo)入模型訓(xùn)練生成第一隨機森林模型,該第一隨機森林模型包含T個決策樹。隨機森林模型可用來分類,在機器學(xué)習(xí)中,隨機森林分類模型是一個