用于測試的大規(guī)模數(shù)據(jù)生成方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實施例涉及數(shù)據(jù)分析技術(shù),尤其涉及一種用于測試的大規(guī)模數(shù)據(jù)生成方法和裝置。
【背景技術(shù)】
[0002]隨著計算機和互聯(lián)網(wǎng)技術(shù)的發(fā)展,大數(shù)據(jù)(Big Data)吸引了越來越多的關(guān)注。如何對大數(shù)據(jù)進行存儲與分析,即大數(shù)據(jù)解決方案,是計算機和互聯(lián)網(wǎng)技術(shù)的重要課題。例如,對于文本數(shù)據(jù),數(shù)據(jù)挖掘的分類算法和聚類算法是大數(shù)據(jù)分析的重要手段。分類算法是指將文本歸入預先定義的幾個類別中的一個或幾個;聚類算法則是將文本聚成預先沒有定義的幾個類別中。文本數(shù)據(jù)的分類算法和聚類算法廣泛應用在垃圾郵件識別、新聞分類,網(wǎng)頁分類等各種場合。大數(shù)據(jù)解決方案的提供者并不一定是大數(shù)據(jù)的擁有者,而由于數(shù)據(jù)本身就是企業(yè)一筆巨大的資產(chǎn),出于保密性,大數(shù)據(jù)擁有者不可能對外界提供真實的大數(shù)據(jù),并且數(shù)據(jù)過大也不便于攜帶與傳遞。而大數(shù)據(jù)解決方案的評價與優(yōu)化需要大規(guī)模的真實數(shù)據(jù)進行測試,因此對于大數(shù)據(jù)解決方案的提供者而言,如何獲得大規(guī)模的真實數(shù)據(jù)是十分重要的問題。
[0003]現(xiàn)有技術(shù)中,利用完全隨機生成的方式來產(chǎn)生大規(guī)模的輸入數(shù)據(jù),或者,采用某一分布函數(shù)生成的鏈接數(shù)據(jù)作為輸入,例如按照均勻分布和高斯分布生成輸入數(shù)據(jù)。
[0004]但是,現(xiàn)有技術(shù)生成的數(shù)據(jù)不能反映真實數(shù)據(jù)中的規(guī)律,導致大數(shù)據(jù)解決方案的測試或評價失效。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供一種用于測試的大規(guī)模數(shù)據(jù)生成方法和裝置,以獲得能夠反映實際數(shù)據(jù)規(guī)律的大規(guī)模數(shù)據(jù)。
[0006]第一方面,本發(fā)明實施例提供一用于測試的種大規(guī)模數(shù)據(jù)生成方法,包括:
[0007]第一節(jié)點對樣本數(shù)據(jù)進行分析,以獲得所述樣本數(shù)據(jù)的至少一個概率分布函數(shù),所述樣本數(shù)據(jù)來源于實際的測試的文本數(shù)據(jù);
[0008]所述第一節(jié)點根據(jù)所述樣本數(shù)據(jù)的至少一個概率分布函數(shù)構(gòu)造隨機數(shù)發(fā)生器;
[0009]所述第一節(jié)點采用所述隨機數(shù)發(fā)生器生成大規(guī)模數(shù)據(jù)。
[0010]在第一方面的第一種可能的實現(xiàn)方式中,所述第一節(jié)點根據(jù)所述樣本數(shù)據(jù)的至少一個概率分布函數(shù)構(gòu)造隨機數(shù)發(fā)生器,包括:
[0011]所述第一節(jié)點采用吉布斯采樣gibs sampling或者反演抽樣invers1n sampling根據(jù)所述樣本數(shù)據(jù)的至少一個概率分布函數(shù)構(gòu)造隨機數(shù)發(fā)生器。
[0012]根據(jù)第一方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述樣本數(shù)據(jù)的概率分布函數(shù)包括所述樣本數(shù)據(jù)的關(guān)鍵詞的概率分布函數(shù),所述第一節(jié)點對樣本數(shù)據(jù)進行分析,以獲得所述樣本數(shù)據(jù)的至少一個概率分布函數(shù),包括:
[0013]所述第一節(jié)點解析所述樣本數(shù)據(jù),以獲得所述樣本數(shù)據(jù)的關(guān)鍵詞信息,其中,所述關(guān)鍵詞信息包括所述樣本數(shù)據(jù)中每個詞的出現(xiàn)次數(shù)和所述樣本數(shù)據(jù)包括的詞的總數(shù);
[0014]所述第一節(jié)點統(tǒng)計獲得所述樣本數(shù)據(jù)的詞的概率分布函數(shù)P(W),作為所述樣本數(shù)據(jù)的一個特征,其中,P表示概率分布函數(shù),W表示關(guān)鍵詞,P (W)=所述樣本數(shù)據(jù)中每個關(guān)鍵詞W的出現(xiàn)次數(shù)/所述樣本數(shù)據(jù)包括的詞的總數(shù)。
[0015]根據(jù)第一方面的第二種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,所述樣本數(shù)據(jù)的概率分布函數(shù)還包括:所述樣本數(shù)據(jù)的文本長度的概率分布函數(shù),所述第一節(jié)點對真實的樣本數(shù)據(jù)進行分析,以獲得所述樣本數(shù)據(jù)的至少一個概率分布函數(shù),包括:
[0016]所述第一節(jié)點解析所述樣本數(shù)據(jù),以獲得所述樣本數(shù)據(jù)的文本長度信息,其中,所述長度信息包括每個所述樣本數(shù)據(jù)的文本長度、每個所述文本長度對應的文本數(shù)和文本總數(shù);
[0017]所述第一節(jié)點統(tǒng)計獲得所述樣本數(shù)據(jù)的文本長度的概率分布函數(shù)P(L),作為所述樣本數(shù)據(jù)的一個特征,其中,P表示概率分布函數(shù),L表示文本長度,P(L) =每個所述文本長度對應的文本數(shù)/所述文本總數(shù)。
[0018]根據(jù)第一方面的第二種或第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述樣本數(shù)據(jù)的特征還包括:所述樣本數(shù)據(jù)的類別的概率分布函數(shù),所述第一節(jié)點對真實的樣本數(shù)據(jù)進行分析,以獲得所述樣本數(shù)據(jù)的特征,包括:
[0019]所述第一節(jié)點解析所述樣本數(shù)據(jù),以獲得所述樣本數(shù)據(jù)的類別信息,其中,所述類別信息包括每個所述樣本數(shù)據(jù)所屬的類別、每個所述類別包含的文本數(shù);
[0020]所述第一節(jié)點統(tǒng)計獲得所述樣本數(shù)據(jù)的類別的概率分布函數(shù)P (C),作為所述樣本數(shù)據(jù)的一個特征,其中,P表示概率分布函數(shù),C表示類別,P (C) =每個所述類別包含的文本數(shù)/所述文本總數(shù)。
[0021]第二方面,本發(fā)明實施例提供一種用于測試的大規(guī)模數(shù)據(jù)生成裝置,包括:
[0022]分析模塊,用于對樣本數(shù)據(jù)進行分析,以獲得所述樣本數(shù)據(jù)的至少一個概率分布函數(shù),所述樣本數(shù)據(jù)來源于實際的測試的文本數(shù)據(jù);
[0023]隨機數(shù)發(fā)生器構(gòu)造模塊,用于根據(jù)所述樣本數(shù)據(jù)的至少一個概率分布函數(shù)構(gòu)造隨機數(shù)發(fā)生器;
[0024]數(shù)據(jù)生成模塊,用于采用所述隨機數(shù)發(fā)生器生成大規(guī)模數(shù)據(jù)。
[0025]在第二方面的第一種可能的實現(xiàn)方式中,所述隨機數(shù)發(fā)生器構(gòu)造模塊具體用于:
[0026]采用吉布斯采樣gibs sampling或者反演抽樣invers1n sampling根據(jù)所述樣本數(shù)據(jù)的至少一個概率分布函數(shù)構(gòu)造隨機數(shù)發(fā)生器。
[0027]根據(jù)第二方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述樣本數(shù)據(jù)的概率分布函數(shù)包括所述樣本數(shù)據(jù)的關(guān)鍵詞的概率分布函數(shù),所述分析模塊具體用于:
[0028]解析所述樣本數(shù)據(jù),以獲得所述樣本數(shù)據(jù)的詞信息,其中,所述關(guān)鍵詞信息包括所述樣本數(shù)據(jù)中每個詞的出現(xiàn)次數(shù)和所述樣本數(shù)據(jù)包括的詞的總數(shù);
[0029]所述第一節(jié)點統(tǒng)計獲得所述樣本數(shù)據(jù)的詞的概率分布函數(shù)P(W),作為所述樣本數(shù)據(jù)的一個特征,其中,P表示概率分布函數(shù),W表示關(guān)鍵詞,P (W)=所述樣本數(shù)據(jù)中每個關(guān)鍵詞W的出現(xiàn)次數(shù)/所述樣本數(shù)據(jù)包括的詞的總數(shù)。
[0030]根據(jù)第二方面的第二種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,所述樣本數(shù)據(jù)的概率分布函數(shù)還包括:所述樣本數(shù)據(jù)的文本長度的概率分布函數(shù),所述分析模塊具體用于:
[0031]解析所述樣本數(shù)據(jù),以獲得所述樣本數(shù)據(jù)的文本長度信息,其中,所述長度信息包括每個所述樣本數(shù)據(jù)的文本長度、每個所述文本長度對應的文本數(shù)和文本總數(shù);
[0032]所述第一節(jié)點統(tǒng)計獲得所述樣本數(shù)據(jù)的文本長度的概率分布函數(shù)P(L),作為所述樣本數(shù)據(jù)的一個特征,其中,P表示概率分布函數(shù),L表示文本長度,P(L) =每個所述文本長度對應的文本數(shù)/所述文本總數(shù)。
[0033]根據(jù)第二方面的第二種或第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述樣本數(shù)據(jù)的特征還包括:所述樣本數(shù)據(jù)的類別的概率分布函數(shù),所述分析模塊具體用于:
[0034]解析所述樣本數(shù)據(jù),以獲得所述樣本數(shù)據(jù)的類別信息,其中,所述類別信息包括每個所述樣本數(shù)據(jù)所屬的類別、每個所述類別包含的文本數(shù);
[0035]統(tǒng)計獲得所述樣本數(shù)據(jù)的類別的概率分布函數(shù)P(C),作為所述樣本數(shù)據(jù)的一個特征,其中,P表示概率分布函數(shù),C表示類別,P (C) =每個所述類別包含的文本數(shù)/所述文本總數(shù)。
[0036]本發(fā)明實施例提供的用于測試的大規(guī)模數(shù)據(jù)生成方法和裝置,第一節(jié)點通過采用來源于實際的測試的文本數(shù)據(jù)作為樣本數(shù)據(jù),并對樣本數(shù)據(jù)的分析,獲得樣本數(shù)據(jù)的概率分布函數(shù),并根據(jù)該樣本數(shù)據(jù)的特征構(gòu)造隨機數(shù)發(fā)生器,所構(gòu)造的隨機數(shù)發(fā)生器能夠按照所述樣本數(shù)據(jù)的特征規(guī)律生成任意數(shù)量的其他數(shù)據(jù),因此,第一節(jié)點采用隨機數(shù)發(fā)生器生成的大規(guī)模數(shù)據(jù)能夠反映實際數(shù)據(jù)的特征和規(guī)律,從而,將本發(fā)明實施例的方法生成的大規(guī)模數(shù)據(jù)用于大數(shù)據(jù)解決方案的測試或評價時,能夠提高測試或評價的準確性。
【附圖說明】
[0037]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0038]圖1為本發(fā)明用于測試的大規(guī)模數(shù)據(jù)生成方法實施例一的流程圖;
[0039]圖2為本發(fā)明用于測試的大規(guī)模數(shù)據(jù)生成方法實施例二的流程圖;
[0040]圖3為本發(fā)明用于測試的大規(guī)模數(shù)據(jù)生成方法實施例三的流程圖;
[0041]圖4為本發(fā)明用于測試的大規(guī)模數(shù)據(jù)生成裝置實施例一的結(jié)構(gòu)示意圖;
[0042]圖5為本發(fā)明用于測試的大規(guī)模數(shù)據(jù)生成裝置實施例二的結(jié)構(gòu)示意圖;
[0043]圖6為本發(fā)明用于測試的大規(guī)模數(shù)據(jù)生成裝置實施例三的結(jié)構(gòu)示意圖;
[0044]圖7為本發(fā)明用于測試的大規(guī)模數(shù)據(jù)生成裝置實施例四的結(jié)構(gòu)示意圖。
【具體實施方式】
[0045]為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0046]本發(fā)明實施例所述的第一節(jié)點或第二節(jié)點可以為包含存儲設(shè)備的計算機或服務器,第一節(jié)點和第二節(jié)點也可以為分布式存儲系統(tǒng)中的多個節(jié)點,分布式存儲系統(tǒng)中的存儲設(shè)備可以為獨立的共享存儲設(shè)備,獨立于任意一個節(jié)點之外,各個節(jié)點之間以及各個節(jié)點與共享存儲設(shè)備之間通過以太網(wǎng)或局域網(wǎng)進行通信,其中,共享存儲設(shè)備用于存儲數(shù)