不限于將多條數(shù)據(jù)的多個(gè)相同屬性的屬性值進(jìn)行統(tǒng)計(jì)合并成一條數(shù)據(jù)等,如在社保醫(yī)保中,統(tǒng)計(jì)在某段時(shí)間內(nèi)同一個(gè)人看病次數(shù)、使用社保醫(yī)??偨痤~等。屬性子集包括但不限于姓名、年齡、性別、看病次數(shù)、使用社保醫(yī)保總金額、病因、使用藥品、地區(qū)、標(biāo)簽等。對(duì)于沒(méi)有標(biāo)簽的數(shù)據(jù),標(biāo)簽的屬性特征值為空。
[0068]上述數(shù)據(jù)處理的方法和裝置,用第一隨機(jī)森林模型對(duì)數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測(cè),看數(shù)據(jù)是正常的數(shù)據(jù)還是非正常的數(shù)據(jù),當(dāng)數(shù)據(jù)真實(shí)的標(biāo)簽確定之后,用具有真實(shí)標(biāo)簽的數(shù)據(jù)來(lái)更新第一隨機(jī)森林模型,其中,第一隨機(jī)森林模型包含T個(gè)決策樹(shù)。更新模型從具有真實(shí)標(biāo)簽的數(shù)據(jù)中抽取K個(gè)樣本集,建立K個(gè)決策樹(shù),利用第一隨機(jī)森林模型和K個(gè)決策樹(shù)一起組成第二隨機(jī)森林模型,對(duì)具有真實(shí)標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測(cè),根據(jù)標(biāo)簽預(yù)測(cè)的結(jié)果計(jì)算第二隨機(jī)森林模型中每個(gè)決策樹(shù)的綜合性能指標(biāo),選取綜合性能指標(biāo)最高的T個(gè)決策樹(shù)作為第一隨機(jī)森林模型。該第一隨機(jī)森林模型對(duì)數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測(cè)即分類(lèi)后,用分類(lèi)后的數(shù)據(jù)來(lái)更新第一隨機(jī)森林模型,因此第一隨機(jī)森林模型一直都在更新,提高了數(shù)據(jù)分類(lèi)的準(zhǔn)確性。上述方法和裝置可應(yīng)用到社保醫(yī)保領(lǐng)域中,提高社保醫(yī)保套現(xiàn)的防控能力。該方法和裝置部署后,在模型的業(yè)務(wù)周期內(nèi)一直不需要人工干預(yù),節(jié)約了成本。
[0069]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種數(shù)據(jù)處理方法,其特征在于:該方法包括如下步驟, 獲取預(yù)設(shè)格式的沒(méi)有標(biāo)簽的數(shù)據(jù); 判斷是否已經(jīng)建立過(guò)第一隨機(jī)森林模型,所述第一隨機(jī)森林模型包含T個(gè)決策樹(shù);如果已經(jīng)建立過(guò)第一隨機(jī)森林模型,根據(jù)所述第一隨機(jī)森林模型對(duì)所述預(yù)設(shè)格式的沒(méi)有標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測(cè),并保存標(biāo)簽預(yù)測(cè)的結(jié)果; 根據(jù)所述標(biāo)簽預(yù)測(cè)結(jié)果獲取具有真實(shí)標(biāo)簽的數(shù)據(jù); 從具有真實(shí)標(biāo)簽的數(shù)據(jù)中有放回地抽取K個(gè)樣本集,其中κ〈τ; 根據(jù)所述K個(gè)樣本集建立K個(gè)決策樹(shù); 所述第一隨機(jī)森林模型和所述K個(gè)決策樹(shù)組成第二隨機(jī)森林模型,通過(guò)所述第二隨機(jī)森林模型對(duì)所述具有真實(shí)標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測(cè); 根據(jù)所述標(biāo)簽預(yù)測(cè)的結(jié)果分別計(jì)算所述第二隨機(jī)森林模型中的每個(gè)決策樹(shù)信息,其中,所述每個(gè)決策樹(shù)信息包括每個(gè)決策樹(shù)的綜合性能指標(biāo);以及 刪除所述綜合性能指標(biāo)最低的K個(gè)決策樹(shù),將未刪除的T個(gè)決策樹(shù)作為第一隨機(jī)森林模型。2.如權(quán)利要求1所述的方法,其特征在于:每個(gè)決策樹(shù)的綜合性能指標(biāo)包括準(zhǔn)確率和/或覆蓋率。3.如權(quán)利要求1所述的方法,其特征在于:根據(jù)所述標(biāo)簽預(yù)測(cè)的結(jié)果分別計(jì)算所述第二隨機(jī)森林模型中的每個(gè)決策樹(shù)信息,其中,所述每個(gè)決策樹(shù)信息包括每個(gè)決策樹(shù)的綜合性能指標(biāo)的步驟之后,所述方法還包括: 根據(jù)所述綜合性能指標(biāo)對(duì)所述第二隨機(jī)森林模型中的每個(gè)決策樹(shù)進(jìn)行排序得到排序結(jié)果; 刪除所述排序結(jié)果中所述綜合性能指標(biāo)最低的K個(gè)決策樹(shù),將未刪除的T個(gè)決策樹(shù)作為第一隨機(jī)森林模型。4.如權(quán)利要求1所述的方法,其特征在于:判斷是否已經(jīng)建立過(guò)第一隨機(jī)森林模型,所述第一隨機(jī)森林模型包含T個(gè)決策樹(shù)的步驟之后,所述方法還包括:如果沒(méi)有建立過(guò)第一隨機(jī)森林模型,獲取預(yù)設(shè)格式的有標(biāo)簽的數(shù)據(jù);對(duì)所述預(yù)設(shè)格式的有標(biāo)簽的數(shù)據(jù)執(zhí)行隨機(jī)森林算法生成第一隨機(jī)森林模型,所述第一隨機(jī)森林模型包含T個(gè)決策樹(shù)。5.如權(quán)利要求4所述的方法,其特征在于:獲取預(yù)測(cè)格式的沒(méi)有標(biāo)簽或者獲取預(yù)測(cè)格式的有標(biāo)簽的數(shù)據(jù)的步驟包括如下步驟, 獲取數(shù)據(jù); 對(duì)所述數(shù)據(jù)的屬性進(jìn)行采集,并對(duì)異常數(shù)據(jù)進(jìn)行處理; 根據(jù)所述數(shù)據(jù)屬性提取對(duì)數(shù)據(jù)處理有用的屬性子集,并提取所述屬性子集所對(duì)應(yīng)的屬性值形成所述預(yù)測(cè)格式的數(shù)據(jù)。6.—種數(shù)據(jù)處理裝置,其特征在于:所述裝置包括獲取模塊、判斷模塊、預(yù)測(cè)模塊、樣本集抽取模塊、決策樹(shù)生成模塊、計(jì)算模塊、刪除模塊; 所述獲取模塊,用于獲取預(yù)設(shè)格式的沒(méi)有標(biāo)簽的數(shù)據(jù); 所述判斷模塊,用于判斷是否已經(jīng)建立過(guò)第一隨機(jī)森林模型,所述第一隨機(jī)森林模型包含T個(gè)決策樹(shù); 所述預(yù)測(cè)模塊,用于如果已經(jīng)建立過(guò)第一隨機(jī)森林模型,根據(jù)所述第一隨機(jī)森林模型對(duì)所述預(yù)設(shè)格式的沒(méi)有標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測(cè),并保存標(biāo)簽預(yù)測(cè)的結(jié)果; 所述獲取模塊,用于根據(jù)所述標(biāo)簽預(yù)測(cè)結(jié)果獲得具有真實(shí)標(biāo)簽的數(shù)據(jù); 所述樣本集抽取模塊,用于從具有真實(shí)標(biāo)簽的數(shù)據(jù)中有放回地抽取K個(gè)樣本集,其中κ〈Τ; 所述決策樹(shù)生成模塊,用于根據(jù)所述K個(gè)樣本集建立K個(gè)決策樹(shù); 所述預(yù)測(cè)模塊,還用于所述第一隨機(jī)森林模型和所述K個(gè)決策樹(shù)組成第二隨機(jī)森林模型,通過(guò)所述第二隨機(jī)森林模型對(duì)所述具有真實(shí)標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測(cè); 所述計(jì)算模塊,用于根據(jù)所述標(biāo)簽預(yù)測(cè)的結(jié)果分別計(jì)算所述第二隨機(jī)森林模型中的每個(gè)決策樹(shù)信息,包括每個(gè)決策樹(shù)的綜合性能指標(biāo); 所述刪除模塊,用于刪除所述綜合性能指標(biāo)最低的K個(gè)決策樹(shù),將未刪除的T個(gè)決策樹(shù)作為第一隨機(jī)森林模型。7.如權(quán)利要求6所述的裝置,其特征在于:決策樹(shù)的綜合性能指標(biāo)包括準(zhǔn)確率和/或覆蓋率。8.如權(quán)利要求6所述的裝置,其特征在于:所述裝置還包括排序模塊,所述排序模塊用于根據(jù)所述綜合性能指標(biāo)對(duì)所述第二隨機(jī)森林模型中的每個(gè)決策樹(shù)進(jìn)行排序得到排序結(jié)果;所述刪除模塊還用于刪除所述排序結(jié)果中所述綜合性能指標(biāo)最低的K個(gè)決策樹(shù),將未刪除的T個(gè)決策樹(shù)作為第一隨機(jī)森林模型。9.如權(quán)利要求6所述的裝置,其特征在于: 所述獲取模塊,還用于如果沒(méi)有建立過(guò)第一隨機(jī)森林模型,獲取預(yù)設(shè)格式的有標(biāo)簽的數(shù)據(jù); 所述決策樹(shù)生成模塊,還用于對(duì)所述預(yù)設(shè)格式的有標(biāo)簽的數(shù)據(jù)執(zhí)行隨機(jī)森林算法生成第一隨機(jī)森林模型,所述第一隨機(jī)森林模型包含T個(gè)決策樹(shù)。10.如權(quán)利要求9所述的裝置,其特征在于:所述獲取模塊包括獲取單元、預(yù)處理單元, 所述獲取單元,用于獲取數(shù)據(jù); 所述預(yù)處理單元,用于對(duì)所述數(shù)據(jù)的屬性進(jìn)行采集,并對(duì)異常數(shù)據(jù)進(jìn)行處理;所述預(yù)處理單元還用于對(duì)根據(jù)所述數(shù)據(jù)屬性提取對(duì)數(shù)據(jù)處理有用的屬性子集,并提取所述屬性子集所對(duì)應(yīng)的屬性值形成所述預(yù)測(cè)格式的數(shù)據(jù)。
【專(zhuān)利摘要】本發(fā)明提供了一種數(shù)據(jù)處理方法和裝置。所述方法包括如下步驟:對(duì)預(yù)設(shè)格式的有標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練得到第一隨機(jī)森林模型,所述第一隨機(jī)森林模型包含T個(gè)決策樹(shù);根據(jù)所述第一隨機(jī)森林模型對(duì)預(yù)設(shè)格式的沒(méi)有標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測(cè)即分類(lèi);當(dāng)數(shù)據(jù)獲得真實(shí)標(biāo)簽后,從具有真實(shí)標(biāo)簽的數(shù)據(jù)中抽取K個(gè)樣本集,建立K個(gè)決策樹(shù),所述第一隨機(jī)森林模型和K個(gè)決策樹(shù)一起組成第二隨機(jī)森林模型對(duì)具有真實(shí)標(biāo)簽的數(shù)據(jù)進(jìn)行預(yù)測(cè),計(jì)算所述第二隨機(jī)森林模型中每個(gè)決策樹(shù)的綜合性能指標(biāo),將綜合性能指標(biāo)最高的T個(gè)決策樹(shù)作為第一隨機(jī)森林模型。所述方法可提高對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的準(zhǔn)確性。本發(fā)明還提供了一種數(shù)據(jù)處理裝置。
【IPC分類(lèi)】G06K9/62
【公開(kāi)號(hào)】CN105574544
【申請(qǐng)?zhí)枴緾N201510943565
【發(fā)明人】沈雄
【申請(qǐng)人】平安科技(深圳)有限公司
【公開(kāi)日】2016年5月11日
【申請(qǐng)日】2015年12月16日