亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于大數(shù)據(jù)生成器的非時(shí)間屬性關(guān)聯(lián)模型的建模方法與流程

文檔序號:11677698閱讀:195來源:國知局

本發(fā)明涉及大數(shù)據(jù)生成技術(shù)領(lǐng)域,特別涉及一種基于大數(shù)據(jù)生成器的非時(shí)間屬性關(guān)聯(lián)模型的建模方法。



背景技術(shù):

互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的發(fā)展,加快了信息化向大眾日常生活、社會各個(gè)方面的滲透,大數(shù)據(jù)時(shí)代正在到來。為了挖掘大數(shù)據(jù)中隱藏的價(jià)值,一系列關(guān)于大數(shù)據(jù)的系統(tǒng)相繼出現(xiàn),同時(shí)伴隨著大數(shù)據(jù)評測系統(tǒng)應(yīng)運(yùn)而生。在大數(shù)據(jù)評測中,考慮到大數(shù)據(jù)集不易獲取,對大數(shù)據(jù)生成工具的研究引起了廣泛關(guān)注。大數(shù)據(jù)生成器最重要的要求是能保持真實(shí)數(shù)據(jù)集中數(shù)據(jù)的特征。如何逼真的生成表格數(shù)據(jù),關(guān)鍵在于如何刻畫屬性具有什么特征的問題,如何處理表內(nèi)部關(guān)鍵屬性間的關(guān)聯(lián)性問題,如何處理表與表之間的關(guān)聯(lián)性問題。

表內(nèi)部屬性間的關(guān)聯(lián),分為與時(shí)間相關(guān)和非時(shí)間屬性相關(guān)的關(guān)聯(lián)。在表格形式的大規(guī)模數(shù)據(jù)生成研究工作中,已有許多學(xué)者做了大量的工作,特別是對表與表之間的關(guān)聯(lián)、某個(gè)屬性具有的特征、與時(shí)間屬性相關(guān)的特征關(guān)注比較多,而對非時(shí)間屬性間的關(guān)聯(lián)比較少。對非時(shí)間屬性間的關(guān)聯(lián)的研究,停留在相對粗糙的層面上。比如,采用正/負(fù)相關(guān)來表達(dá)關(guān)聯(lián),通過計(jì)算相關(guān)系數(shù)來表達(dá)關(guān)聯(lián),等等。對非時(shí)間字段相關(guān)性質(zhì)研究中仍存在許多需要急于解決的困難問題。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種基于大數(shù)據(jù)生成器的非時(shí)間屬性關(guān)聯(lián)模型的建模方法,該方法建立的模型可以有效地刻畫真實(shí)數(shù)據(jù)集中的數(shù)據(jù)特征。

為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于大數(shù)據(jù)生成器的非時(shí)間屬性關(guān)聯(lián)模型的建模方法,首先從數(shù)據(jù)集中提取評價(jià)主體和被評價(jià)主體的關(guān)鍵屬性,進(jìn)行兩重頻數(shù)統(tǒng)計(jì),得到基于關(guān)鍵屬性的4個(gè)關(guān)系對:評價(jià)主體的活躍度與活躍度排名的關(guān)系、評價(jià)主體的活躍度與其出現(xiàn)頻數(shù)的關(guān)系、被評價(jià)主體的流行度與流行度排名的關(guān)系和被評價(jià)主體的流行度與其出現(xiàn)頻數(shù)的關(guān)系;然后計(jì)算各關(guān)系對的mic值來評估各關(guān)系對的相關(guān)性,并采用se分布對各關(guān)系對進(jìn)行關(guān)系擬合;通過擬合的關(guān)系得到評價(jià)主體的屬性特征與其數(shù)據(jù)規(guī)模的關(guān)系,即評價(jià)主體的活躍度與其出現(xiàn)頻數(shù)關(guān)系和評價(jià)主體的數(shù)據(jù)規(guī)模的關(guān)系,以及被評價(jià)主體的屬性特征與其數(shù)據(jù)規(guī)模的關(guān)系,即流行度與其出現(xiàn)頻數(shù)關(guān)系和被評價(jià)主體的數(shù)據(jù)規(guī)模的關(guān)系,并將這兩個(gè)屬性特征通過活躍度總和等于流行度總和建立關(guān)聯(lián),得到非時(shí)間屬性關(guān)聯(lián)的h模型。

進(jìn)一步的,該方法包括以下步驟:

步驟s1:從數(shù)據(jù)集中提取關(guān)鍵屬性,包括評價(jià)主體id和被評價(jià)主體id;

步驟s2:對評價(jià)主體id出現(xiàn)的頻次做頻數(shù)統(tǒng)計(jì)得到評價(jià)主體的活躍度,對被評價(jià)對象id出現(xiàn)的頻次做頻數(shù)統(tǒng)計(jì)得到被評價(jià)對象的流行度,對活躍度降序排列得到相應(yīng)的活躍度排名,對流行度降序排列得到相應(yīng)的流行度排名,對活躍度出現(xiàn)的頻次做頻數(shù)統(tǒng)計(jì)得到活躍度與其出現(xiàn)的頻數(shù),對流行度出現(xiàn)的頻次做頻數(shù)統(tǒng)計(jì)得到流行度與其出現(xiàn)的頻數(shù),從而得到以下4個(gè)關(guān)系:活躍度與活躍度排名的關(guān)系、活躍度與其出現(xiàn)頻數(shù)的關(guān)系、流行度與流行度排名的關(guān)系和流行度與其出現(xiàn)頻數(shù)的關(guān)系;

步驟s3:分別對得到的4個(gè)關(guān)系計(jì)算mic值,得到4個(gè)關(guān)系的mic值,以度量各個(gè)關(guān)系中兩個(gè)字段間的相關(guān)性;

步驟s4:對應(yīng)于4個(gè)關(guān)系分別預(yù)設(shè)4個(gè)閾值,比較4個(gè)mic值是否都不小于預(yù)設(shè)的閾值,是則進(jìn)行下一步驟,否則此模型不適用,建模結(jié)束;

步驟s5:采用se分布對得到的4個(gè)關(guān)系進(jìn)行擬合,得到4個(gè)關(guān)系的se分布參數(shù);

步驟s6:設(shè)置評價(jià)主體的數(shù)據(jù)規(guī)模和被評價(jià)主體的數(shù)據(jù)規(guī)模;

步驟s7:在活躍度排名的取值范圍內(nèi)隨機(jī)取一個(gè)數(shù)作為活躍度排名,通過活躍度與活躍度排名關(guān)系的se分布,得到活躍度,進(jìn)一步通過活躍度與其出現(xiàn)頻數(shù)關(guān)系的se分布,得到活躍度對應(yīng)的出現(xiàn)頻數(shù);

步驟s8:對步驟s7得到的出現(xiàn)頻數(shù)求和,判斷求和總數(shù)是否等于評價(jià)主體的數(shù)據(jù)規(guī)模,是則轉(zhuǎn)下一步驟,否則重復(fù)步驟s7;

步驟s9:將活躍度乘以其對應(yīng)的出現(xiàn)頻數(shù)得到活躍度總和;

步驟s10:采用與步驟s7、s8同樣的方法,得到流行度對應(yīng)的出現(xiàn)頻數(shù),然后將流行度乘以其對應(yīng)的出現(xiàn)頻數(shù)得到流行度總和;

步驟s11:判斷步驟s10得到的活躍度總和是否等于步驟s9得到的流行度總和,是則建模完成,否則重復(fù)步驟s10。

本發(fā)明的有益效果是針對表內(nèi)非時(shí)間屬性間的關(guān)聯(lián)問題,提出了一種基于大數(shù)據(jù)生成器的非時(shí)間屬性關(guān)聯(lián)模型的建模方法,該方法從數(shù)據(jù)集中提取關(guān)鍵屬性,通過mic值來評估字段間的相關(guān)性,并采用se分布進(jìn)行關(guān)系擬合,建立了非時(shí)間屬性關(guān)聯(lián)的h模型,從統(tǒng)計(jì)特性上刻畫非時(shí)間屬性間關(guān)聯(lián)性,建立的模型能夠保持真實(shí)數(shù)據(jù)集的數(shù)據(jù)特征。

附圖說明

圖1是本發(fā)明實(shí)施例中建立的h模型的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面結(jié)合附圖及具體實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明。

表內(nèi)部屬性間的關(guān)聯(lián),分為與時(shí)間相關(guān)和非時(shí)間屬性相關(guān)的關(guān)聯(lián)。本發(fā)明基于大數(shù)據(jù)生成器的非時(shí)間屬性關(guān)聯(lián)模型的建模方法,針對表內(nèi)部與非時(shí)間屬性相關(guān)的關(guān)聯(lián)性問題,首先從數(shù)據(jù)集中提取評價(jià)主體和被評價(jià)主體的關(guān)鍵屬性,進(jìn)行兩重頻數(shù)統(tǒng)計(jì),得到基于關(guān)鍵屬性的4個(gè)關(guān)系對:評價(jià)主體的活躍度與活躍度排名的關(guān)系、評價(jià)主體的活躍度與其出現(xiàn)頻數(shù)的關(guān)系、被評價(jià)主體的流行度與流行度排名的關(guān)系和被評價(jià)主體的流行度與其出現(xiàn)頻數(shù)的關(guān)系;然后,計(jì)算各關(guān)系對的最大信息系數(shù)(themaximalinformationcoefficient,mic)值,即mic值來評估各關(guān)系對的相關(guān)性,并采用拉伸指數(shù)分布(thestretchedexponentialdistribution,se),即se分布對各關(guān)系對進(jìn)行關(guān)系擬合;通過擬合的關(guān)系得到評價(jià)主體的屬性特征與其數(shù)據(jù)規(guī)模的關(guān)系,即評價(jià)主體的活躍度與其出現(xiàn)頻數(shù)關(guān)系和評價(jià)主體的數(shù)據(jù)規(guī)模的關(guān)系,以及被評價(jià)主體的屬性特征與其數(shù)據(jù)規(guī)模的關(guān)系,即流行度與其出現(xiàn)頻數(shù)關(guān)系和被評價(jià)主體的數(shù)據(jù)規(guī)模的關(guān)系,并將這兩個(gè)屬性特征通過活躍度總和等于流行度總和建立關(guān)聯(lián),得到如圖1所示的非時(shí)間屬性關(guān)聯(lián)的h模型。在圖1中,freq表示活躍度,usercount表示評價(jià)主體的數(shù)據(jù)規(guī)模,popu表示流行度,itemcount表示被評價(jià)主體的數(shù)據(jù)規(guī)模,∑freq=∑popu表示活躍度總和等于流行度總和。實(shí)驗(yàn)結(jié)果表明,h模型能有效地刻畫真實(shí)數(shù)據(jù)集中的數(shù)據(jù)特征。

具體的,本發(fā)明方法包括以下步驟:

步驟s1:從數(shù)據(jù)集中提取關(guān)鍵屬性,包括評價(jià)主體id和被評價(jià)主體id;

步驟s2:對評價(jià)主體id出現(xiàn)的頻次做頻數(shù)統(tǒng)計(jì)得到評價(jià)主體的活躍度,對被評價(jià)對象id出現(xiàn)的頻次做頻數(shù)統(tǒng)計(jì)得到被評價(jià)對象的流行度,對活躍度降序排列得到相應(yīng)的活躍度排名,對流行度降序排列得到相應(yīng)的流行度排名,對活躍度出現(xiàn)的頻次做頻數(shù)統(tǒng)計(jì)得到活躍度與其出現(xiàn)的頻數(shù),對流行度出現(xiàn)的頻次做頻數(shù)統(tǒng)計(jì)得到流行度與其出現(xiàn)的頻數(shù),從而得到以下4個(gè)關(guān)系:活躍度與活躍度排名的關(guān)系、活躍度與其出現(xiàn)頻數(shù)的關(guān)系、流行度與流行度排名的關(guān)系和流行度與其出現(xiàn)頻數(shù)的關(guān)系;

步驟s3:分別對得到的4個(gè)關(guān)系計(jì)算mic值,得到4個(gè)關(guān)系的mic值,以度量各個(gè)關(guān)系中兩個(gè)字段間的相關(guān)性;

步驟s4:對應(yīng)于4個(gè)關(guān)系分別預(yù)設(shè)4個(gè)閾值,比較4個(gè)mic值是否都不小于預(yù)設(shè)的閾值,是則進(jìn)行下一步驟,否則此模型不適用,建模結(jié)束;

步驟s5:采用se分布對得到的4個(gè)關(guān)系進(jìn)行擬合,得到4個(gè)關(guān)系的se分布參數(shù);

步驟s6:設(shè)置評價(jià)主體的數(shù)據(jù)規(guī)模和被評價(jià)主體的數(shù)據(jù)規(guī)模;

步驟s7:在活躍度排名的取值范圍內(nèi)隨機(jī)取一個(gè)數(shù)作為活躍度排名,通過活躍度與活躍度排名關(guān)系的se分布,得到活躍度,進(jìn)一步通過活躍度與其出現(xiàn)頻數(shù)關(guān)系的se分布,得到活躍度對應(yīng)的出現(xiàn)頻數(shù);

步驟s8:對步驟s7得到的出現(xiàn)頻數(shù)求和,判斷求和總數(shù)是否等于評價(jià)主體的數(shù)據(jù)規(guī)模,是則轉(zhuǎn)下一步驟,否則重復(fù)步驟s7;

步驟s9:將活躍度乘以其對應(yīng)的出現(xiàn)頻數(shù)得到活躍度總和;

步驟s10:采用與步驟s7、s8同樣的方法,得到流行度對應(yīng)的出現(xiàn)頻數(shù),然后將流行度乘以其對應(yīng)的出現(xiàn)頻數(shù)得到流行度總和;

步驟s11:判斷步驟s10得到的活躍度總和是否等于步驟s9得到的流行度總和,是則建模完成,否則重復(fù)步驟s10。

以上是本發(fā)明的較佳實(shí)施例,凡依本發(fā)明技術(shù)方案所作的改變,所產(chǎn)生的功能作用未超出本發(fā)明技術(shù)方案的范圍時(shí),均屬于本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1