亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種樣本屬性的分析方法、裝置和設(shè)備的制作方法

文檔序號(hào):6586109閱讀:217來源:國知局
專利名稱:一種樣本屬性的分析方法、裝置和設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,特別涉及一種樣本屬性的分析方法、裝置和設(shè)備。
背景技術(shù)
隨著存儲(chǔ)技術(shù)的迅猛發(fā)展,數(shù)據(jù)量越來越大,大量的數(shù)據(jù)保存于數(shù)據(jù)庫中。通過對(duì)數(shù)據(jù)的各種樣本屬性進(jìn)行分析,從而可以獲知數(shù)據(jù)樣本的分布情況,加深對(duì)當(dāng)前業(yè)務(wù)狀況的了解,進(jìn)而有助于決策。其中,樣本屬性分為數(shù)值屬性和非數(shù)值屬性,例如,年齡為數(shù)值屬性,性別為非數(shù)值屬性。目前,對(duì)數(shù)據(jù)的樣本屬性的分析方法主要是數(shù)據(jù)分析人員通過使用如Excel(微軟公司的辦公軟件Microsoft office 的組件之一)、SPSS(Statistical Product and ServiceSolutions,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案)圖表等數(shù)據(jù)分析工具對(duì)數(shù)據(jù)的樣本屬性進(jìn)行分析,并結(jié)合最小值、最大值、均值、標(biāo)準(zhǔn)方差等統(tǒng)計(jì)指標(biāo)綜合分析,在了解每個(gè)指標(biāo)的分布之后,主觀判斷屬性的相對(duì)顯著性。在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:目前采用數(shù)據(jù)分析工具對(duì)樣本屬性進(jìn)行分析的方法,首先由于需要對(duì)業(yè)務(wù)有較高的理解且需要熟悉分析工具,才能熟練使用圖表等數(shù)據(jù)分析工具完成對(duì)數(shù)據(jù)的深度研究,因此對(duì)分析人員要求高且主觀性較強(qiáng);其次,當(dāng)業(yè)務(wù)屬性較多時(shí),傳統(tǒng)的數(shù)據(jù)分析工具處理效率低,而數(shù)據(jù)分析人員也需要對(duì)每個(gè)屬性進(jìn)行逐一研究,需要消耗大量的資源;最后,現(xiàn)有的方法主要是主觀判斷和經(jīng)驗(yàn),缺乏一個(gè)定量的判斷依據(jù),且對(duì)于數(shù)值屬性和非數(shù)值屬性無法統(tǒng)一去評(píng)價(jià)。

發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種樣本屬性的分析方法、設(shè)備和系統(tǒng)。所述技術(shù)方案如下:第一方面,提供了一種樣本屬性的分析方法,所述方法包括:根據(jù)樣本中樣本屬性的每個(gè)屬性值的樣本個(gè)數(shù)與樣本總數(shù)得到所述每個(gè)屬性值的樣本占比Ri ;根據(jù)所述每個(gè)屬性值的樣本占比Ri對(duì)所述樣本屬性的所有屬性值由小到大進(jìn)行排列,得到所述樣本屬性的占比序列[RpR2......Rn];所述η為屬性值個(gè)數(shù);將每個(gè)屬性值的樣本占比Ri依次與所述每個(gè)屬性值的樣本占比Ri之前的屬性值的樣本占比RpR2...Rh累加,得到所述每個(gè)屬性值的累計(jì)占比Wi ;根據(jù)所述每個(gè)屬性值的累計(jì)占比Wi和屬性值個(gè)數(shù)η得到所述樣本屬性的強(qiáng)勢(shì)值I,并將所述強(qiáng)勢(shì)值I作為對(duì)所述樣本屬性進(jìn)行分析的結(jié)果。在第一方面的第一種可能的實(shí)現(xiàn)方式中,所述當(dāng)所述樣本屬性為數(shù)值屬性時(shí),所述樣本屬性的屬性值為數(shù)值段;所述根據(jù)樣本中樣本屬性的每個(gè)屬性值的樣本個(gè)數(shù)與樣本總數(shù)得到所述每個(gè)屬性值的樣本占比Ri,包括:根據(jù)所述樣本中樣本屬性的每個(gè)數(shù)值段的樣本個(gè)數(shù)與樣本總數(shù)得到所述每個(gè)數(shù)值段的樣本占比。在第一方面的第二種可能的實(shí)現(xiàn)方式中,所述根據(jù)樣本中樣本屬性的每個(gè)屬性值的樣本個(gè)數(shù)與樣本總數(shù)得到所述每個(gè)屬性值的樣本占比Ri之前,還包括:根據(jù)預(yù)設(shè)的規(guī)則去除所述樣本屬性的屬性值中的異常屬性值。在第一方面的第三種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述每個(gè)屬性值的累計(jì)占比Wi和屬性值個(gè)數(shù)η得到所述樣本屬性的強(qiáng)勢(shì)值I,包括: 根據(jù)公式
權(quán)利要求
1.一種樣本屬性的分析方法,其特征在于,所述方法包括: 根據(jù)樣本中樣本屬性的每個(gè)屬性值的樣本個(gè)數(shù)與樣本總數(shù)得到所述每個(gè)屬性值的樣本占比Ri ; 根據(jù)所述每個(gè)屬性值的樣本占比Ri對(duì)所述樣本屬性的所有屬性值由小到大進(jìn)行排列,得到所述樣本屬性的占比序列[凡、R2...Rn];所述η為屬性值個(gè)數(shù); 將每個(gè)屬性值的樣本占比Ri依次與所述每個(gè)屬性值的樣本占比Ri之前的屬性值的樣本占比RpR2...Rp1累加,得到所述每個(gè)屬性值的累計(jì)占比Wi ; 根據(jù)所述每個(gè)屬性值的累計(jì)占比Wi和屬性值個(gè)數(shù)η得到所述樣本屬性的強(qiáng)勢(shì)值I,并將所述強(qiáng)勢(shì)值I作為對(duì)所述樣本屬性進(jìn)行分析的結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)所述樣本屬性為數(shù)值屬性時(shí),所述樣本屬性的屬性值為數(shù)值段;所述根據(jù)樣本中樣本屬性的每個(gè)屬性值的樣本個(gè)數(shù)與樣本總數(shù)得到所述每個(gè)屬性值的樣本占比Ri,包括: 根據(jù)所述樣本中樣本屬性的每個(gè)數(shù)值段的樣本個(gè)數(shù)與樣本總數(shù)得到所述每個(gè)數(shù)值段的樣本占比。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)樣本中樣本屬性的每個(gè)屬性值的樣本個(gè)數(shù)與樣本總數(shù)得到所述每個(gè)屬性值的樣本占比Ri之前,還包括: 根據(jù)預(yù)設(shè)的規(guī)則去除所述樣本屬性的屬性值中的異常屬性值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述每個(gè)屬性值的累計(jì)占比Wi和屬性值個(gè)數(shù)η得到所述樣本屬性的強(qiáng)勢(shì)值I,包括: 、 根據(jù)公式
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)樣本中樣本屬性的每個(gè)屬性值的樣本個(gè)數(shù)與樣本總數(shù)得到所述每個(gè)屬性值的樣本占比Ri,包括: 對(duì)于總樣本中樣本屬性的任一屬性值i,根據(jù)總樣本中所述屬性值i的樣本個(gè)數(shù)與總樣本總數(shù)得到所述屬性值i的第一樣本占比Ri ’ ; 根據(jù)子樣本中所述屬性值i的樣本個(gè)數(shù)與所述子樣本的樣本個(gè)數(shù)得到所述屬性值i的第二樣本占比Ri ”; 計(jì)算所述Ri ’與所述Ri ”的絕對(duì)差值Ci,并將所述Ci作為所述屬性值i的樣本占比Ri。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述每個(gè)屬性值的樣本占比Ri對(duì)所述樣本屬性的所有屬性值由小到大進(jìn)行排列,得到所述樣本屬性的占比序列[RpR2......Rn],包括: 將所述任一屬性值i的絕對(duì)差值(;與2相除得到(;/2,對(duì)(;/2由小到大進(jìn)行排列,得到所述樣本屬性的占比序列[(^/2、(:2/2......Cn/2];其中,所述η為屬性值個(gè)數(shù)。
7.—種樣本屬性的分析裝置,其特征在于,所述裝置包括: 樣本占比模塊,用于根據(jù)樣本中樣本屬性的每個(gè)屬性值的樣本個(gè)數(shù)與樣本總數(shù)得到所述每個(gè)屬性值的樣本占比Ri ;占比序列模塊,用于根據(jù)所述每個(gè)屬性值的樣本占比Ri對(duì)所述樣本屬性的所有屬性值由小到大進(jìn)行排列,得到所述樣本屬性的占比序列;所述η為屬性值個(gè)數(shù);累計(jì)占比模塊,用于將每個(gè)屬性值的樣本占比Ri依次與所述每個(gè)屬性值的樣本占比Ri之前的屬性值的樣本占比凡、R2-..R1-!累加,得到所述每個(gè)屬性值的累計(jì)占比Wi ; 強(qiáng)勢(shì)值模塊,用于根據(jù)所述每個(gè)屬性值的累計(jì)占比Wi和屬性值個(gè)數(shù)η得到所述樣本屬性的強(qiáng)勢(shì)值I,并將所述強(qiáng)勢(shì)值I作為對(duì)所述樣本屬性進(jìn)行分析的結(jié)果。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述樣本占比模塊,包括: 數(shù)值樣本占比單元,用于當(dāng)所述當(dāng)所述樣本屬性為數(shù)值屬性時(shí),所述樣本屬性的屬性值為數(shù)值段;根據(jù)所述樣本中樣本屬性的每個(gè)數(shù)值段的樣本個(gè)數(shù)與樣本總數(shù)得到所述每個(gè)數(shù)值段的樣本占比。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括: 預(yù)處理模塊,用于根據(jù)樣本中樣本屬性的每個(gè)屬性值的樣本個(gè)數(shù)與樣本總數(shù)得到所述每個(gè)屬性值的樣本占比Ri之前,根據(jù)預(yù)設(shè)的規(guī)則去除所述樣本屬性的屬性值中的異常屬性值。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述強(qiáng)勢(shì)值模塊,包括: 計(jì)算單元,用于根據(jù)公式
11.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述樣本占比模塊,包括: 總樣本占比單元,用于對(duì)于總樣本中樣本屬性的任一屬性值i,根據(jù)總樣本中所述屬性值i的樣本個(gè)數(shù)與總樣本總數(shù)得到所述屬性值i的第一樣本占比Ri ’ ; 子樣本占比單元,用于根據(jù)子樣本中所述屬性值i的樣本個(gè)數(shù)與所述子樣本的樣本個(gè)數(shù)得到所述屬性值i的第二樣本占比Ri ” ; 樣本占比單元,用于計(jì)算所述Ri ’與所述Ri ”的絕對(duì)差值Ci,并將所述Ci作為所述屬性值i的樣本占比Ri。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述占比序列模塊包括: 占比序列單元,用于將所述樣本占比單元計(jì)算的任一屬性值i的絕對(duì)差值Ci與2相除得到(V2,對(duì)Q/2由小到大進(jìn)行排列,得到所述樣本屬性的占比序列[q/2、C2/2......Cn/2];其中,所述η為屬性值個(gè)數(shù)。
13.一種樣本屬性的分析設(shè)備,其特征在于,所述設(shè)備包括: 存儲(chǔ)器,用于存儲(chǔ)功能模塊的運(yùn)行數(shù)據(jù); 處理器,用于與所述存儲(chǔ)器耦合,所述處理器配置為用于執(zhí)行如權(quán)利要求1至6任一所述的樣本屬性的分析方法; 收發(fā)器,用于與所述處理器耦合,收發(fā)所述處理器處理的各種數(shù)據(jù)。
全文摘要
本發(fā)明公開了一種樣本屬性的分析方法、裝置和設(shè)備,屬于數(shù)據(jù)分析領(lǐng)域。方法包括根據(jù)樣本中樣本屬性的每個(gè)屬性值的樣本個(gè)數(shù)與樣本總數(shù)得到每個(gè)屬性值的樣本占比Ri;對(duì)樣本屬性的所有屬性值由小到大進(jìn)行排列,得到樣本屬性的占比序列[R1、R2...Rn];將每個(gè)屬性值的樣本占比Ri依次與之前的屬性值的樣本占比R1、R2...Ri-1累加,得到每個(gè)屬性值的累計(jì)占比Wi;根據(jù)累計(jì)占比Wi和屬性值個(gè)數(shù)n得到樣本屬性的強(qiáng)勢(shì)值I,并將強(qiáng)勢(shì)值I作為對(duì)樣本屬性進(jìn)行分析的結(jié)果。本發(fā)明解決了目前樣本屬性的分析方法對(duì)分析人員要求高且主觀性較強(qiáng)、處理效率低資源消耗大以及缺乏統(tǒng)一的評(píng)價(jià)依據(jù)的問題,提高了分析效率,降低了對(duì)分析人員的工作要求,統(tǒng)一了評(píng)價(jià)依據(jù)。
文檔編號(hào)G06F17/30GK103150349SQ201310049899
公開日2013年6月12日 申請(qǐng)日期2013年2月7日 優(yōu)先權(quán)日2013年2月7日
發(fā)明者曹明, 金中良 申請(qǐng)人:華為軟件技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1