亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種抽樣方法和裝置的制造方法

文檔序號(hào):9249376閱讀:362來(lái)源:國(guó)知局
一種抽樣方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計(jì)算機(jī)應(yīng)用領(lǐng)域,特別是設(shè)及一種抽樣方法和裝置。
【背景技術(shù)】
[0002] 目前,在網(wǎng)站用戶調(diào)研或者網(wǎng)站用戶分析中,常常需要對(duì)用戶進(jìn)行抽樣,使得樣本 盡量多的保留總體信息。
[0003] 現(xiàn)有的用戶抽樣方案,主要包括下述步驟:
[0004] 步驟XI、對(duì)需要調(diào)研的用戶總體進(jìn)行分群,得到若干用戶群。
[0005] 步驟x2、對(duì)于每個(gè)用戶群,采用隨機(jī)抽取的方式,從中抽取樣本。
[0006] 步驟x3、將抽取到的所有用戶群的樣本合并,得到所述用戶總體的樣本集合。
[0007] 從上述方案可W看出,現(xiàn)有的用戶抽樣方法采用隨機(jī)抽取的方法進(jìn)行樣本的抽 取,該樣,每個(gè)用戶被抽取的概率相同。而在實(shí)際應(yīng)用中,不同樣本間的相似度不同,采用隨 機(jī)抽取的方式,就會(huì)導(dǎo)致可能出現(xiàn)被抽取到的多個(gè)用戶的相似度較高,而差異性大的用戶 沒(méi)有被抽取到的情況,該樣,就會(huì)導(dǎo)致抽取過(guò)程中總體信息流失過(guò)多,所抽取到的樣本集合 不能準(zhǔn)確地反映用戶總體的特點(diǎn),即每個(gè)樣本的代表性不強(qiáng)。
[0008] 由此可見,現(xiàn)有的抽樣方案由于采用隨機(jī)抽取的方式,而存在總體信息流失多、樣 本無(wú)法反映總體的問(wèn)題,從而會(huì)影響基于樣本進(jìn)行用戶分析的準(zhǔn)確性。

【發(fā)明內(nèi)容】

[0009] 有鑒于此,本發(fā)明的主要目的在于提供一種抽樣方法和裝置,可W減少抽樣過(guò)程 中總體信息的流失,提高樣本反映總體的準(zhǔn)確度。
[0010] 為了達(dá)到上述目的,本發(fā)明提出的技術(shù)方案為:
[0011] 一種抽樣方法,包括:
[0012] 將數(shù)據(jù)對(duì)象總體的特征劃分為分類特征和拉了特征,其中,每個(gè)所述拉了特征的 取值個(gè)數(shù)大于每個(gè)所述分類特征的取值個(gè)數(shù),且所述拉了特征的數(shù)量q滿足;q= 2t,r為 大于1的整數(shù);
[0013] 根據(jù)所述分類特征,對(duì)所述數(shù)據(jù)對(duì)象總體進(jìn)行分群,其中,每個(gè)數(shù)據(jù)對(duì)象群i中的 拉了特征的數(shù)量di滿足:為大于1的整數(shù);
[0014] 對(duì)于每個(gè)數(shù)據(jù)對(duì)象群i,構(gòu)建該群使用的近似正交的拉了超立方體N0L皿群組,其 中,所述N0L皿群組中每個(gè)拉了超立方體的列數(shù)等于該群對(duì)應(yīng)的所述di;對(duì)群中每個(gè)拉了 特征的取值進(jìn)行歸類處理,所述歸類處理后每個(gè)拉了特征的枚舉值數(shù)量均為預(yù)設(shè)的該群的 單位特征枚舉數(shù)闊值li;利用該群對(duì)應(yīng)的所述N0L皿群組,確定一個(gè)拉了超立方體作為該 群用于抽樣的拉了超立方體,其中,所確定的拉了超立方體的行數(shù)等于所述li;利用所確定 的拉了超立方體,對(duì)該群中的數(shù)據(jù)對(duì)象進(jìn)行抽樣;
[0015] 將所有數(shù)據(jù)對(duì)象群的抽樣結(jié)果合并,得到所述數(shù)據(jù)對(duì)象總體的樣本。
[0016] 一種抽樣裝置,包括:
[0017] 特征分類單元,用于將數(shù)據(jù)對(duì)象總體的特征劃分為分類特征和拉了特征,其中,每 個(gè)所述拉了特征的取值個(gè)數(shù)大于每個(gè)所述分類特征的取值個(gè)數(shù),且所述拉了特征的數(shù)量q 滿足;q= 2t,r為大于1的整數(shù);
[0018] 分群?jiǎn)卧?,用于根?jù)所述分類特征,對(duì)所述數(shù)據(jù)對(duì)象總體進(jìn)行分群,其中,每個(gè)數(shù) 據(jù)對(duì)象群i中的拉了特征的數(shù)量Qi滿足:A= 2'=,為大于1的整數(shù);
[0019] 抽樣單元,用于對(duì)于每個(gè)數(shù)據(jù)對(duì)象群i,構(gòu)建該群使用的近似正交的拉了超立方體 N0L皿群組,其中,所述N0L皿群組中每個(gè)拉了超立方體的列數(shù)等于該群對(duì)應(yīng)的所述di;對(duì) 群中每個(gè)拉了特征的取值進(jìn)行歸類處理,所述歸類處理后每個(gè)拉了特征的枚舉值數(shù)量均為 預(yù)設(shè)的該群的單位特征枚舉數(shù)闊值li;利用該群對(duì)應(yīng)的所述N0L皿群組,確定一個(gè)拉了超 立方體作為該群用于抽樣的拉了超立方體,其中,所確定的拉了超立方體的行數(shù)等于所述 li;利用所確定的拉了超立方體,對(duì)該群中的數(shù)據(jù)對(duì)象進(jìn)行抽樣;
[0020] 樣本匯總單元,用于將所有數(shù)據(jù)對(duì)象群的抽樣結(jié)果合并,得到所述數(shù)據(jù)對(duì)象總體 的樣本。
[0021] 綜上所述,本發(fā)明提出的抽樣方法和裝置,將數(shù)據(jù)對(duì)象總體的特征劃分為分類特 征和拉了特征,根據(jù)分類特征對(duì)總體進(jìn)行分群,然后利用拉了超立方體(N0LHD)抽樣方法, 在每個(gè)群內(nèi)進(jìn)行抽樣。如此,通過(guò)對(duì)總體分群、各群內(nèi)單獨(dú)拉了超立方體抽樣,可W實(shí)現(xiàn)對(duì) 每個(gè)樣本的控制,減少抽樣的隨機(jī)性,提升樣本的代表性,從而可W使得樣本可W準(zhǔn)確地反 映總體的情況。
【附圖說(shuō)明】
[0022] 圖1為本發(fā)明實(shí)施例的方法流程示意圖;
[0023] 圖2為本發(fā)明實(shí)施例的裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0024] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例對(duì) 本發(fā)明作進(jìn)一步地詳細(xì)描述。
[002引本發(fā)明的核屯、思想是:將拉了超立方體(N0LHD)抽樣引入到了用戶抽樣中,首先 將總體的特征抽象為分類特征和拉了特征,然后根據(jù)分類特征對(duì)用戶總體分群,然后對(duì)于 每個(gè)用戶群,結(jié)合N0L皿群組,進(jìn)行抽樣。如此,通過(guò)對(duì)總體分群、各群內(nèi)單獨(dú)拉了超立方體 抽樣,可W實(shí)現(xiàn)對(duì)每個(gè)樣本的控制,減少抽樣的隨機(jī)性,提升樣本的代表性,從而可W使得 樣本更能反映總體的情況。
[0026] 圖1為本發(fā)明實(shí)施例一的流程示意圖,如圖1所示,該實(shí)施例主要包括:
[0027] 步驟101、將數(shù)據(jù)對(duì)象總體的特征劃分為分類特征和拉了特征,其中,每個(gè)所述拉 了特征的取值個(gè)數(shù)大于每個(gè)所述分類特征的取值個(gè)數(shù),且所述拉了特征的數(shù)量q滿足;q= 2t,r為大于1的整數(shù)。
[0028] 本步驟,用于對(duì)數(shù)據(jù)對(duì)象總體所包含的所有特征進(jìn)行分類,即分為分類特征和拉 了特征。在實(shí)際應(yīng)用中,所述數(shù)據(jù)對(duì)象可W是用戶在計(jì)算機(jī)存儲(chǔ)中存在的數(shù)值單元。
[0029] 該里特征分類的依據(jù)是:特征的取值個(gè)數(shù)。拉了特征的取值個(gè)數(shù)將大于所述分類 特征的取值個(gè)數(shù),并且需要使得拉了特征的數(shù)量q為2的幕次方,即滿足;q= 2t。
[0030] 其中,分類特征,是用于依據(jù)此進(jìn)行分類的特征,該類特征的取值有限并且枚舉值 很少,如用戶的注冊(cè)來(lái)源、用戶的下單渠道等,因此,據(jù)此分類不會(huì)導(dǎo)致分類后的群中數(shù)據(jù) 對(duì)象數(shù)量過(guò)少的問(wèn)題。
[0031] 對(duì)于拉了特征,該類特征的取值為連續(xù)的,或者枚舉值很多。如用戶的下單地址, 用戶的下單金額、用戶的下單量等。利用該類特征,可W構(gòu)建相應(yīng)的拉了超立方體,基于拉 了超立方體抽樣,使得抽樣結(jié)果的特征分布盡量與總體的特征分布相一致,從而確保樣本 的代表性。
[0032] 步驟102、根據(jù)所述分類特征,對(duì)所述數(shù)據(jù)對(duì)象總體進(jìn)行分群,其中,每個(gè)數(shù)據(jù)對(duì)象 群i中的拉了特征的數(shù)量Qi滿足:9, = 2'=,r;為大于1的整數(shù)。
[0033] 本步驟,用分類特征進(jìn)行分類,分類后的各群中拉了特征的數(shù)量應(yīng)為2的幕次方, W便可W基于此構(gòu)建相應(yīng)的用于抽樣的拉了超立方體。
[0034] 步驟103、對(duì)于每個(gè)數(shù)據(jù)對(duì)象群i,構(gòu)建該群使用的近似正交的拉了超立方體 N0L皿群組,其中,所述N0L皿群組中每個(gè)拉了超立方體的列數(shù)等于該群對(duì)應(yīng)的所述di;對(duì) 群中每個(gè)拉了特征的取值進(jìn)行歸類處理,所述歸類處理后每個(gè)拉了特征的枚舉值數(shù)量均為 預(yù)設(shè)的該群的單位特征枚舉數(shù)闊值li;利用該群對(duì)應(yīng)的所述N0L皿群組,確定一個(gè)拉了超 立方體作為該群用于抽樣的拉了超立方體,其中,所確定的拉了超立方體的行數(shù)等于所述 li;利用所確定的拉了超立方體,對(duì)該群中的數(shù)據(jù)對(duì)象進(jìn)行抽樣。
[00巧]本步驟,對(duì)于每個(gè)數(shù)據(jù)對(duì)象群i,構(gòu)建該群使用的近似正交的拉了超立方體N0LHD群組,然后再?gòu)闹羞x擇出適用于該群抽樣的拉了超立方體,并利用該拉了超立方體,對(duì)該群 中的數(shù)據(jù)對(duì)象進(jìn)行抽樣。
[0036] 該里為了便于理解,先介紹一下拉了超立方體的特點(diǎn)W及構(gòu)建方法。
[0037] 近似正交的拉了超立方體的設(shè)計(jì)(N0LHD);
[003引將n個(gè)試驗(yàn)、m個(gè)因子的拉了超立方體設(shè)計(jì)記為;L(n,m) = (li,l2,...,U,其中Ij是第j個(gè)因子,并且每個(gè)因子的n個(gè)水平是等距的。簡(jiǎn)單的說(shuō),L(n,m)就是一個(gè)nXm的 矩陣,每列的元素都是同一個(gè)等差數(shù)列,但排列方式不一樣。
[003引 N0L皿是基于現(xiàn)有的孤(n)方陣構(gòu)建得到的,n為方陣的階數(shù)。
[0040] 0D(n)方陣的定義(具體見yangandliu(2012));
[0041] 一個(gè)nXn的方陣A,如果它滿足下面S個(gè)條件,那么就稱它為0D(n)方陣:
[00
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1