一種數(shù)據(jù)處理方法及裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種數(shù)據(jù)處理方法,包括:獲取用戶輸入的攜帶有宏控制語句的控制指令,所述宏控制語句包括需要調(diào)用的宏以及提示信息,所述提示信息包括用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù);響應(yīng)所述控制指令,根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中讀取所述待處理變量所表示的數(shù)據(jù);根據(jù)所述宏從特定文件中讀取該宏對應(yīng)的宏程序;設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù),并利用所述宏程序?qū)λ龃幚碜兞克硎镜臄?shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。本發(fā)明實施例還公開了一種數(shù)據(jù)處理裝置。采用本發(fā)明實施例,實現(xiàn)對數(shù)據(jù)的快速處理,數(shù)據(jù)處理效率高,操作簡單。
【專利說明】一種數(shù)據(jù)處理方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種數(shù)據(jù)處理方法及裝置。
【背景技術(shù)】
[0002]隨著各種應(yīng)用的發(fā)展,往往需要對各種變量所表示的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,例如,在銀行中需要對所有用戶I月份的消費金額變量所表示的數(shù)據(jù)進(jìn)行分析之前,為了分析更加準(zhǔn)確,更加貼合大眾的消費特點,則需要將所有用戶I月份的消費金額變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理,比如,將所有數(shù)據(jù)中的異常值剔除,即是將所有用戶I月份的消費金額變量所表示的數(shù)據(jù)中最大的I %剔除掉?,F(xiàn)有的實現(xiàn)方法完全依靠人工,首先用戶從不同的數(shù)據(jù)集中將所有用戶I月份的消費金額變量所表示的數(shù)據(jù)整理在一個數(shù)據(jù)集中,計算消費金額的最高的I %的金額數(shù)值,在數(shù)據(jù)集中將大于該數(shù)值的記錄進(jìn)行剔除。這種數(shù)據(jù)處理方法完全依靠人工操作,在變量多的情況下,需要花費大量的時間,效率低下。
【發(fā)明內(nèi)容】
[0003]本發(fā)明實施例提供一種數(shù)據(jù)處理方法及裝置,可實現(xiàn)對數(shù)據(jù)的快速處理,數(shù)據(jù)處理效率高,操作簡單。
[0004]本發(fā)明實施例提供了一種數(shù)據(jù)處理方法,包括:
[0005]獲取用戶輸入的攜帶有宏控制語句的控制指令,所述宏控制語句包括需要調(diào)用的宏以及提示信息,所述提示信息包括用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù);
[0006]響應(yīng)所述控制指令,根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中讀取所述待處理變量所表示的數(shù)據(jù);
[0007]根據(jù)所述宏從特定文件中讀取該宏對應(yīng)的宏程序;
[0008]設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù),并利用所述宏程序?qū)λ龃幚碜兞克硎镜臄?shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。
[0009]相應(yīng)地,本發(fā)明實施例還提供了一種數(shù)據(jù)處理裝置,包括:
[0010]獲取模塊,用于獲取用戶輸入的攜帶有宏控制語句的控制指令,所述宏控制語句包括需要調(diào)用的宏以及提示信息,所述提示信息包括用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù);
[0011]第一讀取模塊,用于響應(yīng)所述控制指令,根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中讀取所述待處理變量所表示的數(shù)據(jù);
[0012]第二讀取模塊,用于根據(jù)所述宏從特定文件中讀取該宏對應(yīng)的宏程序;
[0013]數(shù)據(jù)處理模塊,用于設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù),并利用所述宏程序?qū)λ龃幚碜兞克硎镜臄?shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。
[0014]本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
【專利附圖】
【附圖說明】
[0015]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0016]圖1是本發(fā)明實施例提供的一種數(shù)據(jù)處理方法的流程示意圖;
[0017]圖2是本發(fā)明實施例提供的另一種數(shù)據(jù)處理方法的流程示意圖;
[0018]圖3是本發(fā)明實施例提供的又一種數(shù)據(jù)處理方法的流程示意圖;
[0019]圖4是本發(fā)明實施例提供的又一種數(shù)據(jù)處理方法的流程示意圖;
[0020]圖5是本發(fā)明實施例提供的又一種觸屏操作方法的流程示意圖;
[0021]圖6是本發(fā)明實施例提供的又一種數(shù)據(jù)處理方法的流程示意圖;
[0022]圖7是本發(fā)明實施例提供的又一種觸屏操作方法的流程示意圖;
[0023]圖8是本發(fā)明實施例提供的一種數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;
[0024]圖9是本發(fā)明實施例提供的一種第一讀取模塊的結(jié)構(gòu)示意圖;
[0025]圖10是本發(fā)明實施例提供的另一種第一讀取模塊的結(jié)構(gòu)示意圖;
[0026]圖11是本發(fā)明實施例提供的一種數(shù)據(jù)處理模塊的結(jié)構(gòu)示意圖;
[0027]圖12是本發(fā)明實施例提供的另一種數(shù)據(jù)處理模塊的結(jié)構(gòu)示意圖;
[0028]圖13是本發(fā)明實施例提供的又一種數(shù)據(jù)處理模塊的結(jié)構(gòu)示意圖;
[0029]圖14是本發(fā)明實施例提供的又一種數(shù)據(jù)處理模塊的結(jié)構(gòu)示意圖。
【具體實施方式】
[0030]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0031]本發(fā)明實施例所述的數(shù)據(jù)處理方法可以應(yīng)用于統(tǒng)計分析(Statistics AnalysisSystem, SAS)軟件平臺上,在SAS軟件上輸入控制指令,并根據(jù)控制指令中的宏控制語句對數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理,數(shù)據(jù)處理可以是在解決數(shù)據(jù)挖掘建模中變量預(yù)處理與預(yù)篩選,具體的,包括:數(shù)據(jù)質(zhì)量檢核、批量原始變量的提取、變量缺失值與異常值處理、自動生成衍生變量以及單變量選擇等等。本發(fā)明實施例的運行方法不需要其他軟件的支持,僅要求安裝了 SAS軟件即可,并且不區(qū)分本端SAS軟件還是服務(wù)器SAS軟件。
[0032]請參照圖1,為本發(fā)明實施例提供的一種數(shù)據(jù)處理方法的流程示意圖;如圖1所述,本實施例所述的一種數(shù)據(jù)處理方法包括步驟:
[0033]S100,獲取用戶輸入的攜帶有宏控制語句的控制指令,所述宏控制語句包括需要調(diào)用的宏以及提示信息,所述提示信息包括用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù);
[0034]具體實施例中,當(dāng)用戶需要對待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理時,需要輸入控制指令,該控制指令可以包括宏控制語句,例如,在SAS軟件的編輯窗口輸入控制指令,該控制指令為宏控制語句。宏控制語句中包括需要調(diào)用的宏以及提示信息,需要調(diào)用的宏體現(xiàn)了用戶需要對數(shù)據(jù)進(jìn)行何種數(shù)據(jù)處理,提示信息用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),在SAS軟件中宏可以是進(jìn)行數(shù)據(jù)質(zhì)量檢核的宏,該宏所對應(yīng)的數(shù)據(jù)處理即是數(shù)據(jù)質(zhì)量檢核。需要說明的是,提示信息的存在方式可以有多種,例如,在SAS軟件中提示信息可以是與SAS軟件相關(guān)聯(lián)的表格存儲路徑,表格中存儲了待處理變量所表示的數(shù)據(jù)存儲路徑,當(dāng)需要獲取待處理變量所表示的數(shù)據(jù)時,則需要先獲取相關(guān)聯(lián)的表格,再從表格中去獲取待處理變量所表示的數(shù)據(jù)的存儲路徑;提示信息也可以是待處理變量所表示的數(shù)據(jù)存儲路徑,可以通過提示信息直接找到待處理變量所表示的數(shù)據(jù),操作參數(shù)可以是數(shù)據(jù)變量名稱,所提取的數(shù)據(jù)日期,需要計算的衍生變量的種類等等。
[0035]S101,響應(yīng)所述控制指令,根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中讀取所述待處理變量所表示的數(shù)據(jù);
[0036]具體實施例中,響應(yīng)所輸入的控制指令,例如,當(dāng)此數(shù)據(jù)處理方法是運用在SAS軟件上,則響應(yīng)所輸入的宏控制語句,根據(jù)宏控制語句中的提示信息從數(shù)據(jù)存儲路徑的文件中讀取待處理變量所表示的數(shù)據(jù)。因為提示信息的存在方式有多種,所以根據(jù)提示信息獲取待處理變量所表示的數(shù)據(jù)的方式也有多種。
[0037]S102,根據(jù)所述宏從特定文件中讀取該宏對應(yīng)的宏程序;
[0038]具體實施例中,根據(jù)宏控制語句中的宏從特定文件中讀取該宏對應(yīng)的宏程序,需要說明的是,宏程序可以存儲在一個文件中,也可以存儲在多個文件中,可以根據(jù)控制指令中宏的名稱讀取相應(yīng)的宏程序。
[0039]S103,設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù),并利用所述宏程序?qū)λ龃幚碜兞克硎镜臄?shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。
[0040]具體實施例中,調(diào)用相應(yīng)的宏程序,并設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),從而實現(xiàn)對待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。具體的,這里相應(yīng)的數(shù)據(jù)處理可以是數(shù)據(jù)質(zhì)量檢核、批量原始變量的提取、變量缺失值與異常值處理、自動生成衍生變量以及單變量選擇等等。
[0041 ] 本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0042]請參照圖2,為本發(fā)明實施例提供的另一種數(shù)據(jù)處理方法的流程示意圖;本實施例所述的另一種數(shù)據(jù)處理方法包括步驟:
[0043]S200,獲取用戶輸入的攜帶有宏控制語句的控制指令,所述宏控制語句包括需要調(diào)用的宏以及提示信息,所述提示信息包括用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù);
[0044]具體實施例中,本實施例步驟S200參照圖1所述實施例步驟S100,在此不再贅述。
[0045]S201,響應(yīng)所述控制指令,根據(jù)所述提示信息獲取所述預(yù)設(shè)表格,并讀取所述預(yù)設(shè)表格中存儲的所述待處理變量所表示的數(shù)據(jù)所在數(shù)據(jù)集存儲路徑,并將所述數(shù)據(jù)集存儲路徑確定為所述數(shù)據(jù)存儲路徑;
[0046]具體實施例中,當(dāng)提示信息為預(yù)設(shè)表格存儲路徑信息,所述預(yù)設(shè)表格存儲待處理變量所表示的數(shù)據(jù)所在數(shù)據(jù)集存儲路徑。
[0047]當(dāng)在SAS軟件中,預(yù)設(shè)表格與SAS軟件相關(guān)聯(lián),在預(yù)設(shè)表格中由用戶輸入待處理變量所在數(shù)據(jù)集的邏輯庫,即是數(shù)據(jù)集存儲路徑,當(dāng)運行軟件時,可以在該預(yù)設(shè)表格中獲取到待處理變量所在數(shù)據(jù)集存儲路徑。
[0048]S202,從所述數(shù)據(jù)存儲路徑的文件中獲取所述數(shù)據(jù)集,并從所述數(shù)據(jù)集中獲取所述待處理變量所表示的數(shù)據(jù)。
[0049]具體實施例中,從數(shù)據(jù)存儲路徑的文件中獲取到數(shù)據(jù)集,再從數(shù)據(jù)集中獲取待處理變量所表示的數(shù)據(jù)。例如,待處理變量為用戶I月份消費金額,則從I月份的數(shù)據(jù)集中提取出所有用戶消費金額數(shù)據(jù)。
[0050]S203,根據(jù)所述宏從特定文件中讀取該宏對應(yīng)的宏程序;
[0051]具體實施例中,本實施例步驟S203參照圖1所述實施例步驟S102,在此不再贅述。
[0052]S204,設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù),并利用所述宏程序?qū)λ龃幚碜兞克硎镜臄?shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。
[0053]具體實施例中,本實施例步驟S204參照圖1所述實施例步驟S103,在此不再贅述。
[0054]本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0055]請參照圖3,為本發(fā)明實施例提供的又一種數(shù)據(jù)處理方法的流程示意圖;本實施例所述的又一種數(shù)據(jù)處理方法包括步驟:
[0056]S300,獲取用戶輸入的攜帶有宏控制語句的控制指令,所述宏控制語句包括需要調(diào)用的宏以及提示信息,所述提示信息包括用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù);
[0057]具體實施例中,本實施例步驟S300參照圖1所述實施例步驟S100,在此不再贅述。
[0058]S301,響應(yīng)所述控制指令,將所述數(shù)據(jù)集存儲路徑確定為所述數(shù)據(jù)存儲路徑;
[0059]具體實施例中,當(dāng)提示信息為待處理變量所表示的數(shù)據(jù)所在數(shù)據(jù)集存儲路徑,則直接將該數(shù)據(jù)集存儲路徑確定為數(shù)據(jù)存儲路徑。
[0060]S302,根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中獲取所述數(shù)據(jù)集,并從所述數(shù)據(jù)集中獲取所述待處理變量所表示的數(shù)據(jù)。
[0061]具體實施例中,根據(jù)提示信息中數(shù)據(jù)集存儲路徑獲取到數(shù)據(jù)集,并從數(shù)據(jù)集中查找到待處理變量所表示的數(shù)據(jù)。
[0062]S303,根據(jù)所述宏從特定文件中讀取該宏對應(yīng)的宏程序;
[0063]具體實施例中,本實施例步驟S303參照圖1所述實施例步驟S102,在此不再贅述。
[0064]S304,設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù),并利用所述宏程序?qū)λ龃幚碜兞克硎镜臄?shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。
[0065]具體實施例中,本實施例步驟S304參照圖1所述實施例步驟S103,在此不再贅述。
[0066]本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0067]請參照圖4,為本發(fā)明實施例提供的又一種數(shù)據(jù)處理方法的流程示意圖;本實施例所述的又一種數(shù)據(jù)處理方法包括步驟:
[0068]S400,獲取用戶輸入的攜帶有宏控制語句的控制指令,所述宏控制語句包括需要調(diào)用的宏以及提示信息,所述提示信息包括用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù);
[0069]具體實施例中,本實施例步驟S400參照圖1所述實施例步驟S100,在此不再贅述。
[0070]S401,響應(yīng)所述控制指令,根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中讀取所述待處理變量所表示的數(shù)據(jù);
[0071]具體實施例中,本實施例步驟S401參照圖1所述實施例步驟SlOl,在此不再贅述。
[0072]S402,根據(jù)所述宏從特定文件中讀取該宏對應(yīng)的宏程序;
[0073]具體實施例中,本實施例步驟S402參照圖1所述實施例步驟S102,在此不再贅述。
[0074]S403,調(diào)用所述宏程序;
[0075]S404,設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù);
[0076]具體實施例中,操作參數(shù)可以是變量名,輸出格式,統(tǒng)計方法等等。
[0077]S405,所述宏程序根據(jù)所述操作參數(shù),按照預(yù)設(shè)輸出格式將所述待處理變量所表示的數(shù)據(jù)進(jìn)行統(tǒng)計處理,并輸出統(tǒng)計處理后的數(shù)據(jù)。
[0078]具體實施例中,該宏程序用于對數(shù)據(jù)質(zhì)量檢核,以使用戶查看該變量的分布情況,是否有數(shù)據(jù),分布如何,是否符合業(yè)務(wù)規(guī)則,從而決定是否提取該變量作為建模的原始變量。
[0079]具體的,統(tǒng)計處理可以是統(tǒng)計該變量所表示的數(shù)據(jù)的記錄數(shù)、均值、缺失值、最小值、各個分位數(shù)、區(qū)間、區(qū)間記錄數(shù)、區(qū)間百分比、累積百分比以及最大值等等,具體的統(tǒng)計處理方式可以是用戶預(yù)先設(shè)定,例如,在SAS軟件中,在調(diào)用宏程序^Warchek時,對于數(shù)值型的變量,若沒有指定輸出格式,則統(tǒng)計該變量所表示的數(shù)據(jù)的記錄數(shù)、均值、缺失值、最小值、各個分位數(shù)、最大值。對于字符型變量與指定輸出格式的數(shù)值型變量,則統(tǒng)計該變量的區(qū)間記錄數(shù)、區(qū)間百分比、累積百分比等。
[0080] 進(jìn)一步的,輸出統(tǒng)計處理后的數(shù)據(jù),具體的輸出方式可以是,將所有變量的鏈接匯總在一頁html格式的表格中,只要點擊相應(yīng)的變量即可以查看其分布。其分布即是對于該變量所表示的數(shù)據(jù)統(tǒng)計處理后的數(shù)據(jù)。
[0081]當(dāng)對待處理變量所表示的數(shù)據(jù)進(jìn)行質(zhì)量檢核后,可以提取待處理變量所表示的數(shù)據(jù),這個也可以通過調(diào)用宏程序% varget,并運行后即可以得到按照新的變量命名對數(shù)據(jù)進(jìn)行命名的數(shù)據(jù)。
[0082]本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0083]請參照圖5,為本發(fā)明實施例提供的又一種數(shù)據(jù)處理方法的流程示意圖;本實施例所述的又一種數(shù)據(jù)處理方法包括步驟:
[0084]S500,獲取用戶輸入的攜帶有宏控制語句的控制指令,所述宏控制語句包括需要調(diào)用的宏以及提示信息,所述提示信息包括用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù);
[0085]具體實施例中,本實施例步驟S500參照圖1所述實施例步驟S100,在此不再贅述。
[0086]S501,響應(yīng)所述控制指令,根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中讀取所述待處理變量所表示的數(shù)據(jù);
[0087]具體實施例中,本實施例步驟S501參照圖1所述實施例步驟SlOl,在此不再贅述。
[0088]S502,根據(jù)所述宏從特定文件中讀取該宏對應(yīng)的宏程序;
[0089]具體實施例中,本實施例步驟S502參照圖1所述實施例步驟S102,在此不再贅述。
[0090]S503,調(diào)用所述宏程序;
[0091]S504,設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù);
[0092]具體實施例中,操作參數(shù)可以是將缺失值替換成的預(yù)設(shè)數(shù)值等等。
[0093]S504,所述宏程序根據(jù)所述操作參數(shù),統(tǒng)計所述待處理變量所表示的數(shù)據(jù)的缺失率,并輸出所述缺失率;
[0094]具體實施例中,在利用待處理變量所表示的數(shù)據(jù)進(jìn)行建模之前,通常需要對待處理變量所表示的數(shù)據(jù)進(jìn)行缺失值與異常值的處理。首先宏程序統(tǒng)計待處理變量所表示的數(shù)據(jù)的缺失率,并輸出缺失率,以使用戶了解該待處理變量所表示的數(shù)據(jù)的缺失情況。
[0095]S505,所述宏程序?qū)⑺龃幚碜兞克硎镜臄?shù)據(jù)中的缺失值替換成預(yù)設(shè)數(shù)值。
[0096]具體實施例中,宏程序?qū)⒋幚碜兞克硎镜臄?shù)據(jù)中的缺失值替換成預(yù)設(shè)數(shù)值,例如,將缺失值全部替換成數(shù)值O。需要說明的是,預(yù)設(shè)閾值可以是用戶根據(jù)實際情況進(jìn)行設(shè)定。
[0097]本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0098]請參照圖6,為本發(fā)明實施例提供的又一種數(shù)據(jù)處理方法的流程示意圖;本實施例所述的又一種數(shù)據(jù)處理方法包括步驟:
[0099]S600,獲取用戶輸入的攜帶有宏控制語句的控制指令,所述宏控制語句包括需要調(diào)用的宏以及提示信息,所述提示信息包括用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù);
[0100]具體實施例中,本實施例步驟S600參照圖1所述實施例步驟S100,在此不再贅述。
[0101]S601,響應(yīng)所述控制指令,根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中讀取所述待處理變量所表示的數(shù)據(jù);
[0102]具體實施例中,本實施例步驟S601參照圖1所述實施例步驟S101,在此不再贅述。
[0103]S602,根據(jù)所述宏從特定文件中讀取該宏對應(yīng)的宏程序;
[0104]具體實施例中,本實施例步驟S602參照圖1所述實施例步驟S102,在此不再贅述。
[0105]S603,調(diào)用所述宏程序;
[0106]S604,設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù);
[0107]具體實施例中,操作參數(shù)可以是需要計算的原始變量名、需要計算哪些類型的衍生變量等等。
[0108]S605,所述宏程序基于所述操作參數(shù),并根據(jù)所述待處理變量所表示的數(shù)據(jù),計算所述待處理變量的預(yù)設(shè)衍生變量,并輸出所述預(yù)設(shè)衍生變量。
[0109]具體實施例中,為了增加待處理變量的預(yù)測能力,往往需要對待處理變量進(jìn)行各種形式的變換,例如,生成待處理變量的衍生變量,衍生變量可以是待處理變量所表示的數(shù)據(jù)中的最大值、最小值、均值以及趨勢變量等等。一般根據(jù)實際情況,用戶可以設(shè)置需要計算的預(yù)設(shè)衍生變量,宏程序通過統(tǒng)計學(xué)計算方法,計算出待處理變量的預(yù)設(shè)衍生變量,并輸出所計算的預(yù)設(shè)衍生變量。以使用戶從所輸出的預(yù)設(shè)衍生變量分析該待處理變量所表示的數(shù)據(jù)分布情況。
[0110]本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0111]請參照圖7,為本發(fā)明實施例提供的又一種數(shù)據(jù)處理方法的流程示意圖;本實施例所述的又一種數(shù)據(jù)處理方法包括步驟:
[0112]S700,獲取用戶輸入的攜帶有宏控制語句的控制指令,所述宏控制語句包括需要調(diào)用的宏以及提示信息,所述提示信息包括用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù);;
[0113]具體實施例中,本實施例步驟S700參照圖1所述實施例步驟S100,在此不再贅述。
[0114]S701,響應(yīng)所述控制指令,根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中讀取所述待處理變量所表示的數(shù)據(jù);
[0115]具體實施例中,本實施例步驟S701參照圖1所述實施例步驟SlOl,在此不再贅述。
[0116]S702,根據(jù)所述宏從特定文件中讀取該宏對應(yīng)的宏程序;
[0117]具體實施例中,本實施例步驟S702參照圖1所述實施例步驟S102,在此不再贅述。
[0118]S703,調(diào)用所述宏程序;
[0119]S704,設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù);
[0120]具體實施例中,操作參數(shù)可以是對變量進(jìn)行分類時所需要分的類別數(shù),最后需要保留的變量數(shù)等等。
[0121]S704,所述宏程序根據(jù)每一個所述變量所表示的數(shù)據(jù),計算該變量的信息值;
[0122]具體實施例中,待處理變量包括至少一個變量,為了實現(xiàn)對待處理變量中所包括的變量進(jìn)行預(yù)篩選,篩選出具有預(yù)測能力的變量,則首先調(diào)用宏程序% var_chose計算二值型待處理變量或者連續(xù)型待處理變量的信息值。待處理變量中的每一個變量都有一個信息值。需要說明的是,變量的信息值表明該變量對目標(biāo)變量的預(yù)測能力高低。
[0123]S705,所述宏程序?qū)⑺鲋辽僖粋€變量進(jìn)行分類,獲得至少一個類別;
[0124]具體實施例中,為了排除待處理變量中變量的共線性對模型效果的影響,則需要調(diào)用宏程序% varclus對變量進(jìn)行分類,將具有共線性特點的變量歸為一類,例如,在用戶信用卡記錄中,將用戶消費次數(shù)與消費金額分為一類,將待處理變量中的所有變量進(jìn)行分類,這樣就可以獲得多個類別。
[0125]S706,所述宏程序獲取每一類別中信息值最高的變量,并將每一類別中信息值最高的變量確定為篩選后的變量。
[0126]具體實施例中,為了篩選出最有預(yù)測能力的變量,則需要調(diào)用宏程序?qū)⒚恳活悇e中信息值最高的變量挑選出來,并將每一類別中信息值最高的變量確定為篩選后的變量,輸出篩選后的變量,以使用戶可以將篩選后的變量代入模型中進(jìn)行進(jìn)一步的數(shù)據(jù)建模分析。需要說明的是,對待處理變量進(jìn)行篩選的目的是降低待處理變量的維度。
[0127]本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0128]下面闡述本發(fā)明實施例提供的一種數(shù)據(jù)處理裝置的具體實現(xiàn)。
[0129]請參照圖8,為本發(fā)明實施例提供的一種數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。如圖8所示,本實施例所述的一種數(shù)據(jù)處理裝置包括:獲取模塊100、第一讀取模塊101、第二讀取模塊和數(shù)據(jù)處理模塊102。
[0130]獲取模塊100,用于獲取用戶輸入的攜帶有宏控制語句的控制指令,所述宏控制語句包括需要調(diào)用的宏以及提示信息,所述提示信息包括用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù);
[0131]具體實施例中,當(dāng)用戶需要對待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理時,需要輸入控制指令,該控制指令可以包括宏控制語句,獲取模塊100獲取用戶輸入的攜帶有宏控制語句的控制指令。例如,在SAS軟件的編輯窗口輸入控制指令,該控制指令為宏控制語句。宏控制語句中包括需要調(diào)用的宏以及提示信息,需要調(diào)用的宏體現(xiàn)了用戶需要對數(shù)據(jù)進(jìn)行何種數(shù)據(jù)處理,提示信息用于提示待處理變量所表示的數(shù)據(jù)存儲路徑,以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),在SAS軟件中宏可以是進(jìn)行數(shù)據(jù)質(zhì)量檢核的宏,該宏所對應(yīng)的數(shù)據(jù)處理即是數(shù)據(jù)質(zhì)量檢核。需要說明的是,提示信息的存在方式可以有多種,例如,在SAS軟件中提示信息可以是與SAS軟件相關(guān)聯(lián)的表格存儲路徑,表格中存儲了待處理變量所表示的數(shù)據(jù)存儲路徑,當(dāng)需要獲取待處理變量所表示的數(shù)據(jù)時,則需要先獲取相關(guān)聯(lián)的表格,再從表格中去獲取待處理變量所表示的數(shù)據(jù)的存儲路徑;提示信息也可以是待處理變量所表示的數(shù)據(jù)存儲路徑,可以通過提示信息直接找到待處理變量所表示的數(shù)據(jù),操作參數(shù)可以是數(shù)據(jù)變量名稱,所提取的數(shù)據(jù)日期,需要計算的衍生變量的種類等等。
[0132]第一讀取模塊101,用于響應(yīng)所述控制指令,根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中讀取所述待處理變量所表示的數(shù)據(jù);
[0133]具體實施例中,第一讀取模塊101響應(yīng)所輸入的控制指令,例如,當(dāng)此數(shù)據(jù)處理方法是運用在SAS軟件上,則響應(yīng)所輸入的宏控制語句,第一讀取模塊101根據(jù)宏控制語句中的提示信息從數(shù)據(jù)存儲路徑的文件中讀取待處理變量所表示的數(shù)據(jù)。因為提示信息的存在方式有多種,所以根據(jù)提示信息獲取待處理變量所表示的數(shù)據(jù)的方式也有多種。
[0134]第二讀取模塊102,用于根據(jù)所述宏從特定文件中讀取該宏對應(yīng)的宏程序;
[0135]具體實施例中,第二讀取模塊102根據(jù)宏控制語句中的宏從特定文件中讀取該宏對應(yīng)的宏程序,需要說明的是,宏程序可以存儲在一個文件中,也可以存儲在多個文件中,可以根據(jù)控制指令中宏的名稱讀取相應(yīng)的宏程序。
[0136]數(shù)據(jù)處理模塊103,用于設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù),并利用所述宏程序?qū)λ龃幚碜兞克硎镜臄?shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。
[0137]具體實施例中,數(shù)據(jù)處理模塊103調(diào)用相應(yīng)的宏程序,并設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),從而實現(xiàn)對待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。具體的,這里相應(yīng)的數(shù)據(jù)處理可以是數(shù)據(jù)質(zhì)量檢核、批量原始變量的提取、變量缺失值與異常值處理、自動生成衍生變量以及單變量選擇等等。
[0138]本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0139]請參照圖9,為本發(fā)明實施例提供的一種第一讀取模塊的結(jié)構(gòu)示意圖。如圖9所示,本實施例所述的一種第一讀取模塊包括:第一獲取單元1010和第二獲取單元1011。
[0140]第一獲取單元1010,用于根據(jù)所述提示信息獲取所述預(yù)設(shè)表格,并讀取所述預(yù)設(shè)表格中存儲的所述待處理變量所表示的數(shù)據(jù)所在數(shù)據(jù)集存儲路徑,并將所述數(shù)據(jù)集存儲路徑確定為所述數(shù)據(jù)存儲路徑;
[0141]具體實施例中,當(dāng)提示信息為預(yù)設(shè)表格存儲路徑信息,所述預(yù)設(shè)表格存儲待處理變量所表示的數(shù)據(jù)所在數(shù)據(jù)集存儲路徑。
[0142]當(dāng)在SAS軟件中,預(yù)設(shè)表格與SAS軟件相關(guān)聯(lián),在預(yù)設(shè)表格中由用戶輸入待處理變量所在數(shù)據(jù)集的邏輯庫,即是數(shù)據(jù)集存儲路徑,當(dāng)運行軟件時,第一獲取單元1010可以在該預(yù)設(shè)表格中獲取到待處理變量所在數(shù)據(jù)集存儲路徑。
[0143]第二獲取單元1011,用于從所述數(shù)據(jù)存儲路徑的文件中獲取所述數(shù)據(jù)集,并從所述數(shù)據(jù)集中獲取所述待處理變量所表示的數(shù)據(jù)。
[0144]具體實施例中,第二獲取單元1011從數(shù)據(jù)存儲路徑的文件中獲取到數(shù)據(jù)集,再從數(shù)據(jù)集中獲取待處理變量所表示的數(shù)據(jù)。例如,待處理變量為用戶I月份消費金額,則從I月份的數(shù)據(jù)集中提取出所有用戶消費金額數(shù)據(jù)。
[0145]本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0146]請參照圖10,為本發(fā)明實施例提供的另一種第一讀取模塊的結(jié)構(gòu)示意圖。如圖10所示,本實施例所述的一種第一讀取模塊包括:確定單元1012和第三獲取單元1013。
[0147]確定單元1012,用于將所述數(shù)據(jù)集存儲路徑確定為所述數(shù)據(jù)存儲路徑;
[0148]具體實施例中,當(dāng)提示信息為待處理變量所表示的數(shù)據(jù)所在數(shù)據(jù)集存儲路徑,確定單元1012則直接將該數(shù)據(jù)集存儲路徑確定為數(shù)據(jù)存儲路徑。
[0149]第三獲取單元1013,用于根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中獲取所述數(shù)據(jù)集,并從所述數(shù)據(jù)集中獲取所述待處理變量所表示的數(shù)據(jù)。
[0150]具體實施例中,第三獲取單元1013根據(jù)提示信息中數(shù)據(jù)集存儲路徑獲取到數(shù)據(jù)集,并從數(shù)據(jù)集中查找到待處理變量所表示的數(shù)據(jù)。
[0151 ] 本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0152]請參照圖11,為本發(fā)明實施例提供的一種數(shù)據(jù)處理模塊的結(jié)構(gòu)示意圖。如圖11所示,本實施例所述的一種數(shù)據(jù)處理模塊包括:第一調(diào)用單元1030、第一設(shè)置單元1031和統(tǒng)計處理單元1032。
[0153]第一調(diào)用單元1030,用于調(diào)用所述宏程序;
[0154]第一設(shè)置單元1031,用于設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù);
[0155]具體實施例中,操作參數(shù)可以是變量名,輸出格式,統(tǒng)計方法等等。
[0156]統(tǒng)計處理單元1032,用于采用所述宏程序根據(jù)所述操作參數(shù),按照預(yù)設(shè)輸出格式將所述待處理變量所表示的數(shù)據(jù)進(jìn)行統(tǒng)計處理,并輸出統(tǒng)計處理后的數(shù)據(jù)。
[0157]具體實施例中,該宏程序用于對數(shù)據(jù)質(zhì)量檢核,以使用戶查看該變量的分布情況,是否有數(shù)據(jù),分布如何,是否符合業(yè)務(wù)規(guī)則,從而決定是否提取該變量作為建模的原始變量。
[0158]具體的,統(tǒng)計處理可以是統(tǒng)計處理單元1031統(tǒng)計該變量所表示的數(shù)據(jù)的記錄數(shù)、均值、缺失值、最小值、各個分位數(shù)、區(qū)間、區(qū)間記錄數(shù)、區(qū)間百分比、累積百分比以及最大值等等,具體的統(tǒng)計處理方式可以是用戶預(yù)先設(shè)定,例如,在SAS軟件中,在調(diào)用宏程序%varchek時,對于數(shù)值型的變量,若沒有指定輸出格式,則統(tǒng)計該變量所表示的數(shù)據(jù)的記錄數(shù)、均值、缺失值、最小值、各個分位數(shù)、最大值。對于字符型變量與指定輸出格式的數(shù)值型變量,則統(tǒng)計該變量的區(qū)間記錄數(shù)、區(qū)間百分比、累積百分比等。
[0159]進(jìn)一步的,輸出統(tǒng)計處理后的數(shù)據(jù),具體的輸出方式可以是,將所有變量的鏈接匯總在一頁html格式的表格中,只要點擊相應(yīng)的變量即可以查看其分布。其分布即是對于該變量所表示的數(shù)據(jù)統(tǒng)計處理后的數(shù)據(jù)。
[0160]當(dāng)對待處理變量所表示的數(shù)據(jù)進(jìn)行質(zhì)量檢核后,可以提取待處理變量所表示的數(shù)據(jù),這個也可以通過調(diào)用宏程序% varget,并運行后即可以得到按照新的變量命名對數(shù)據(jù)進(jìn)行命名的數(shù)據(jù)。
[0161 ] 本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0162]請參照圖12,為本發(fā)明實施例提供的另一種數(shù)據(jù)處理模塊的結(jié)構(gòu)示意圖。如圖12所示,本實施例所述的一種數(shù)據(jù)處理模塊包括:第二調(diào)用單元1033、第二設(shè)置單元1034、統(tǒng)計輸出單元1035和替換單元1036。
[0163]第二調(diào)用單元1033,用于調(diào)用所述宏程序;
[0164]第二設(shè)置單元1034,用于設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù);
[0165]具體實施例中,操作參數(shù)可以是將缺失值替換成的預(yù)設(shè)數(shù)值等等。
[0166]統(tǒng)計輸出單元1035,用于采用所述宏程序根據(jù)所述操作參數(shù),統(tǒng)計所述待處理變量所表不的數(shù)據(jù)的缺失率,并輸出所述缺失率;
[0167]具體實施例中,在利用待處理變量所表示的數(shù)據(jù)進(jìn)行建模之前,通常需要對待處理變量所表示的數(shù)據(jù)進(jìn)行缺失值與異常值的處理。首先統(tǒng)計輸出單元1033采用宏程序統(tǒng)計待處理變量所表示的數(shù)據(jù)的缺失率,并輸出缺失率,以使用戶了解該待處理變量所表示的數(shù)據(jù)的缺失情況。
[0168]替換單元1036,采用所述宏程序?qū)⑺龃幚碜兞克硎镜臄?shù)據(jù)中的缺失值替換成預(yù)設(shè)數(shù)值。
[0169]具體實施例中,替換單元1034采用宏程序?qū)⒋幚碜兞克硎镜臄?shù)據(jù)中的缺失值替換成預(yù)設(shè)數(shù)值,例如,將缺失值全部替換成數(shù)值O。需要說明的是,預(yù)設(shè)閾值可以是用戶根據(jù)實際情況進(jìn)行設(shè)定
[0170]本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0171]請參照圖13,為本發(fā)明實施例提供的又一種數(shù)據(jù)處理模塊的結(jié)構(gòu)示意圖。如圖13所示,本實施例所述的一種數(shù)據(jù)處理模塊包括:第三調(diào)用單元1037、第三設(shè)置單元1038和計算輸出單元1039。
[0172]第三調(diào)用單元1037,用于調(diào)用所述宏程序;
[0173]第三設(shè)置單元1038,用于設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù);
[0174]具體實施例中,操作參數(shù)可以是需要計算的原始變量名、需要計算哪些類型的衍生變量等等。
[0175]計算輸出單元1039,用于采用所述宏程序基于所述操作參數(shù),并根據(jù)所述待處理變量所表示的數(shù)據(jù),計算所述待處理變量的預(yù)設(shè)衍生變量,并輸出所述預(yù)設(shè)衍生變量。
[0176]具體實施例中,為了增加待處理變量的預(yù)測能力,往往需要對待處理變量進(jìn)行各種形式的變換,例如,生成待處理變量的衍生變量,衍生變量可以是待處理變量所表示的數(shù)據(jù)中的最大值、最小值、均值以及趨勢變量等等。一般根據(jù)實際情況,用戶可以設(shè)置需要計算的預(yù)設(shè)衍生變量,計算輸出單元1036采用宏程序通過統(tǒng)計學(xué)計算方法,計算出待處理變量的預(yù)設(shè)衍生變量,并輸出所計算的預(yù)設(shè)衍生變量。以使用戶從所輸出的預(yù)設(shè)衍生變量分析該待處理變量所表示的數(shù)據(jù)分布情況。
[0177]本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0178]請參照圖14,為本發(fā)明實施例提供的又一種數(shù)據(jù)處理模塊的結(jié)構(gòu)示意圖。如圖14所示,本實施例所述的一種數(shù)據(jù)處理模塊包括:第四調(diào)用單元1040、第四設(shè)置單元1041、計算單元1042、分類單元1043和獲取確定單元1044。
[0179]第四調(diào)用單元1040,用于調(diào)用所述宏程序;
[0180]第四設(shè)置單元1041,用于設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù);
[0181]具體實施例中,操作參數(shù)可以是對變量進(jìn)行分類時所需要分的類別數(shù),最后需要保留的變量數(shù)等等。
[0182]計算單元1042,采用所述宏程序根據(jù)每一個所述變量所表示的數(shù)據(jù),計算該變量的信息值;
[0183]具體實施例中,待處理變量包括至少一個變量,為了實現(xiàn)對待處理變量中所包括的變量進(jìn)行預(yù)篩選,篩選出具有預(yù)測能力的變量,則計算單元1038首先調(diào)用宏程序% var_chose計算二值型待處理變量或者連續(xù)型待處理變量的信息值。待處理變量中的每一個變量都有一個信息值。需要說明的是,變量的信息值表明該變量對目標(biāo)變量的預(yù)測能力高低。
[0184]分類單元1043,采用所述宏程序?qū)⑺鲋辽僖粋€變量進(jìn)行分類,獲得至少一個類別;
[0185]具體實施例中,為了排除待處理變量中變量的共線性對模型效果的影響,則需要分類單元1039調(diào)用宏程序% varclus對變量進(jìn)行分類,將具有共線性特點的變量歸為一類,例如,在用戶信用卡記錄中,將用戶消費次數(shù)與消費金額分為一類,將待處理變量中的所有變量進(jìn)行分類,這樣就可以獲得多個類別。
[0186]獲取確定單元1044,采用所述宏程序獲取每一類別中信息值最高的變量,并將每一類別中信息值最高的變量確定為篩選后的變量。
[0187]具體實施例中,為了篩選出最有預(yù)測能力的變量,則獲取確定單元1040需要調(diào)用宏程序?qū)⒚恳活悇e中信息值最高的變量挑選出來,并將每一類別中信息值最高的變量確定為篩選后的變量,輸出篩選后的變量,以使用戶可以將篩選后的變量代入模型中進(jìn)行進(jìn)一步的數(shù)據(jù)建模分析。需要說明的是,對待處理變量進(jìn)行篩選的目的是降低待處理變量的維度。
[0188]本發(fā)明實施例中,獲取用戶輸入的攜帶有宏控制語句的控制指令,宏控制語句中包括需要調(diào)用的宏以及用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù),根據(jù)提示信息讀取待處理變量所表示的數(shù)據(jù),設(shè)置宏程序的執(zhí)行參數(shù)為操作參數(shù),并利用宏對應(yīng)的宏程序?qū)λ@取的待處理變量所表示的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。這種數(shù)據(jù)處理方法,可實現(xiàn)利用宏對應(yīng)的宏程序自動對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理效率高,操作簡單。
[0189]本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機(jī)可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機(jī)存儲記憶體(Random AccessMemory, RAM)等。
[0190]本發(fā)明實施例方法中的步驟可以根據(jù)實際需要進(jìn)行順序調(diào)整、合并和刪減。
[0191]本發(fā)明實施例終端中的模塊或單元可以根據(jù)實際需要進(jìn)行合并、劃分和刪減。
[0192]本發(fā)明實施例中所述模塊或單元,可以通過通用集成電路,例如CPU(CentralProcessing Unit,中央處理器),或通過 ASIC (Applicat1n Specific IntegratedCircuit,專用集成電路)來實現(xiàn)。
[0193]以上所揭露的僅為本發(fā)明較佳實施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
【權(quán)利要求】
1.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括: 獲取用戶輸入的攜帶有宏控制語句的控制指令,所述宏控制語句包括需要調(diào)用的宏以及提示信息,所述提示信息包括用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù); 響應(yīng)所述控制指令,根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中讀取所述待處理變量所表示的數(shù)據(jù); 根據(jù)所述宏從特定文件中讀取該宏對應(yīng)的宏程序; 設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù),并利用所述宏程序?qū)λ龃幚碜兞克硎镜臄?shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。
2.如權(quán)利要求1所述的方法,其特征在于,若所述提示信息中的所述數(shù)據(jù)存儲路徑為預(yù)設(shè)表格存儲路徑信息,所述預(yù)設(shè)表格存儲所述待處理變量所表示的數(shù)據(jù)所在數(shù)據(jù)集存儲路徑; 所述根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中讀取所述待處理變量所表示的數(shù)據(jù);包括: 根據(jù)所述提示信息獲取所述預(yù)設(shè)表格,并讀取所述預(yù)設(shè)表格中存儲的所述待處理變量所表示的數(shù)據(jù)所在數(shù)據(jù)集存儲路徑,并將所述數(shù)據(jù)集存儲路徑確定為所述數(shù)據(jù)存儲路徑; 從所述數(shù)據(jù)存儲路徑的文件中獲取所述數(shù)據(jù)集,并從所述數(shù)據(jù)集中獲取所述待處理變量所表示的數(shù)據(jù)。
3.如權(quán)利要求1所述的方法,其特征在于,若所述提示信息中的所述數(shù)據(jù)存儲路徑為所述待處理變量所表示的數(shù)據(jù)所在數(shù)據(jù)集存儲路徑; 所述根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中讀取所述待處理變量所表示的數(shù)據(jù);包括: 將所述數(shù)據(jù)集存儲路徑確定為所述數(shù)據(jù)存儲路徑; 根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中獲取所述數(shù)據(jù)集,并從所述數(shù)據(jù)集中獲取所述待處理變量所表示的數(shù)據(jù)。
4.如權(quán)利要求2所述的方法,其特征在于,若所述需要調(diào)用的宏為用于進(jìn)行數(shù)據(jù)質(zhì)量檢核的宏; 所述設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù),并利用所述宏程序?qū)λ龃幚碜兞克硎镜臄?shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理,包括: 調(diào)用所述宏程序; 設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù); 所述宏程序根據(jù)所述操作參數(shù),按照預(yù)設(shè)輸出格式將所述待處理變量所表示的數(shù)據(jù)進(jìn)行統(tǒng)計處理,并輸出統(tǒng)計處理后的數(shù)據(jù)。
5.如權(quán)利要求3所述的方法,其特征在于,若所述需要調(diào)用的宏為用于進(jìn)行數(shù)據(jù)缺失值處理的宏; 所述設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù),并利用所述宏程序?qū)λ龃幚碜兞克硎镜臄?shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理,包括: 調(diào)用所述宏程序; 設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù);所述宏程序根據(jù)所述操作參數(shù),統(tǒng)計所述待處理變量所表示的數(shù)據(jù)的缺失率,并輸出所述缺失率; 所述宏程序?qū)⑺龃幚碜兞克硎镜臄?shù)據(jù)中的缺失值替換成預(yù)設(shè)數(shù)值。
6.如權(quán)利要求2所述的方法,其特征在于,若所述需要調(diào)用的宏為用于生成衍生變量的宏; 所述設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù),并利用所述宏程序?qū)λ龃幚碜兞克硎镜臄?shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理,包括: 調(diào)用所述宏程序; 設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù); 所述宏程序基于所述操作參數(shù),并根據(jù)所述待處理變量所表示的數(shù)據(jù),計算所述待處理變量的預(yù)設(shè)衍生變量,并輸出所述預(yù)設(shè)衍生變量。
7.如權(quán)利要求3所述的方法,其特征在于,若所述需要調(diào)用的宏為進(jìn)行變量篩選的宏,所述待處理變量包括至少一個變量; 所述設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù),并利用所述宏程序?qū)λ龃幚碜兞克硎镜臄?shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理,包括: 調(diào)用所述宏程序; 設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù); 所述宏程序根據(jù)每一個所述變量所表示的數(shù)據(jù),計算該變量的信息值; 所述宏程序?qū)⑺鲋辽僖粋€變量進(jìn)行分類,獲得至少一個類別; 所述宏程序獲取每一類別中信息值最高的變量,并將每一類別中信息值最高的變量確定為篩選后的變量。
8.一種數(shù)據(jù)處理裝置,其特征在于,所述裝置包括: 獲取模塊,用于獲取用戶輸入的攜帶有宏控制語句的控制指令,所述宏控制語句包括需要調(diào)用的宏以及提示信息,所述提示信息包括用于提示待處理變量所表示的數(shù)據(jù)存儲路徑以及對所述數(shù)據(jù)進(jìn)行處理的操作參數(shù); 第一讀取模塊,用于響應(yīng)所述控制指令,根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中讀取所述待處理變量所表示的數(shù)據(jù); 第二讀取模塊,用于根據(jù)所述宏從特定文件中讀取該宏對應(yīng)的宏程序; 數(shù)據(jù)處理模塊,用于設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù),并利用所述宏程序?qū)λ龃幚碜兞克硎镜臄?shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)處理。
9.如權(quán)利要求8所述的裝置,其特征在于,若所述提示信息中的所述數(shù)據(jù)存儲路徑為預(yù)設(shè)表格存儲路徑信息,所述預(yù)設(shè)表格存儲所述待處理變量所表示的數(shù)據(jù)所在數(shù)據(jù)集存儲路徑;所述第一讀取模塊包括: 第一獲取單元,用于根據(jù)所述提示信息獲取所述預(yù)設(shè)表格,并讀取所述預(yù)設(shè)表格中存儲的所述待處理變量所表示的數(shù)據(jù)所在數(shù)據(jù)集存儲路徑,并將所述數(shù)據(jù)集存儲路徑確定為所述數(shù)據(jù)存儲路徑; 第二獲取單元,用于從所述數(shù)據(jù)存儲路徑的文件中獲取所述數(shù)據(jù)集,并從所述數(shù)據(jù)集中獲取所述待處理變量所表示的數(shù)據(jù)。
10.如權(quán)利要求8所述的裝置,其特征在于,若所述提示信息中的所述數(shù)據(jù)存儲路徑為所述待處理變量所表示的數(shù)據(jù)所在數(shù)據(jù)集存儲路徑;所述第一讀取模塊包括: 確定單元,用于將所述數(shù)據(jù)集存儲路徑確定為所述數(shù)據(jù)存儲路徑; 第三獲取單元,用于根據(jù)所述提示信息從所述數(shù)據(jù)存儲路徑的文件中獲取所述數(shù)據(jù)集,并從所述數(shù)據(jù)集中獲取所述待處理變量所表示的數(shù)據(jù)。
11.如權(quán)利要求9所述的裝置,其特征在于,若所述需要調(diào)用的宏為用于進(jìn)行數(shù)據(jù)質(zhì)量檢核的宏;所述數(shù)據(jù)處理模塊包括: 第一調(diào)用單元,用于調(diào)用所述宏程序; 第一設(shè)置單元,用于設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù); 統(tǒng)計處理單元,用于采用所述宏程序根據(jù)所述操作參數(shù),按照預(yù)設(shè)輸出格式將所述待處理變量所表示的數(shù)據(jù)進(jìn)行統(tǒng)計處理,并輸出統(tǒng)計處理后的數(shù)據(jù)。
12.如權(quán)利要求10所述的方法,其特征在于,若所述需要調(diào)用的宏為用于進(jìn)行數(shù)據(jù)缺失值處理的宏;所述數(shù)據(jù)處理模塊包括: 第二調(diào)用單元,用于調(diào)用所述宏程序; 第二設(shè)置單元,用于設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù); 統(tǒng)計輸出單元,用 于采用所述宏程序根據(jù)所述操作參數(shù),統(tǒng)計所述待處理變量所表示的數(shù)據(jù)的缺失率,并輸出所述缺失率; 替換單元,采用所述宏程序?qū)⑺龃幚碜兞克硎镜臄?shù)據(jù)中的缺失值替換成預(yù)設(shè)數(shù)值。
13.如權(quán)利要求9所述的方法,其特征在于,若所述需要調(diào)用的宏為用于生成衍生變量的宏;所述數(shù)據(jù)處理單元包括: 第三調(diào)用單元,用于調(diào)用所述宏程序; 第三設(shè)置單元,用于設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù); 計算輸出單元,用于采用所述宏程序基于所述操作參數(shù),并根據(jù)所述待處理變量所表示的數(shù)據(jù),計算所述待處理變量的預(yù)設(shè)衍生變量,并輸出所述預(yù)設(shè)衍生變量。
14.如權(quán)利要求10所述的方法,其特征在于,若所述需要調(diào)用的宏為進(jìn)行變量篩選的宏,所述待處理變量包括至少一個變量;所述數(shù)據(jù)處理單元包括: 第四調(diào)用單元,用于調(diào)用所述宏程序; 第四設(shè)置單元,用于設(shè)置所述宏程序的執(zhí)行參數(shù)為所述操作參數(shù); 計算單元,采用所述宏程序根據(jù)每一個所述變量所表示的數(shù)據(jù),計算該變量的信息值; 分類單元,采用所述宏程序?qū)⑺鲋辽僖粋€變量進(jìn)行分類,獲得至少一個類別; 獲取確定單元,采用所述宏程序獲取每一類別中信息值最高的變量,并將每一類別中信息值最高的變量確定為篩選后的變量。
【文檔編號】G06F9/44GK104077128SQ201410251500
【公開日】2014年10月1日 申請日期:2014年6月9日 優(yōu)先權(quán)日:2014年6月9日
【發(fā)明者】楊秀禎, 楊凌, 薛穎慧 申請人:中國建設(shè)銀行股份有限公司