亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于多階段分層采樣的層次聚類方法和系統(tǒng)的制作方法

文檔序號:6527064閱讀:296來源:國知局
一種基于多階段分層采樣的層次聚類方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開一種基于多階段分層采樣的層次聚類方法和系統(tǒng),該方法包括:將隨機(jī)采樣得到的初始樣本集作為種子構(gòu)建分層查詢策略,并基于分層的估計(jì)方差被最小化原則,為每層查詢策略分配相應(yīng)的樣本個(gè)數(shù);利用分層查詢策略對數(shù)據(jù)源進(jìn)行分層采樣,得到樣本代表性較高的代表性樣本集;對代表性樣本集中的樣本進(jìn)行聚類,基于聚類所得簇的邊界點(diǎn)對數(shù)據(jù)源進(jìn)行二次采樣,得到樣本不確定性較高不確定性樣本集;基于由初始樣本集、代表性樣本集及不確定性樣本集構(gòu)成的合集進(jìn)行聚類,以估計(jì)數(shù)據(jù)源的聚類中心??梢姡景l(fā)明通過多階段分層采樣保證了樣本具有較高的代表性、不確定性,規(guī)避了隨機(jī)采樣樣本代表性較差的問題,進(jìn)而提高了數(shù)據(jù)源聚類的準(zhǔn)確度。
【專利說明】一種基于多階段分層采樣的層次聚類方法和系統(tǒng)【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于De印Web (深度網(wǎng)絡(luò))數(shù)據(jù)處理【技術(shù)領(lǐng)域】,尤其涉及一種基于多階段分層采樣的層次聚類方法和系統(tǒng)。
【背景技術(shù)】
[0002]近年來,作為數(shù)據(jù)傳播的一種方式,Deep Web (數(shù)據(jù)源)變得越來越流行,相對于Surface Web (表層網(wǎng)絡(luò)),Deep Web中蘊(yùn)含了更高質(zhì)量的數(shù)據(jù),從而在Deep Web上進(jìn)行數(shù)據(jù)挖掘更具價(jià)值。而聚類作為數(shù)據(jù)挖掘研究領(lǐng)域一個(gè)非?;钴S的研究課題,可便于了解數(shù)據(jù)的分布情況,進(jìn)而可以為后續(xù)對De印Web數(shù)據(jù)的應(yīng)用提供參考依據(jù),因此對De印Web數(shù)據(jù)源進(jìn)行聚類成為該領(lǐng)域的研究熱門。
[0003]Deep Web數(shù)據(jù)存儲在后臺數(shù)據(jù)庫,只能通過查詢接口提交查詢獲取相應(yīng)數(shù)據(jù),無法直接獲取后臺全部數(shù)據(jù)。基于此種情況,當(dāng)前,對Deep Web數(shù)據(jù)源進(jìn)行聚類一般采用如下方式:首先從Deep Web中進(jìn)行隨機(jī)采樣,然后在隨機(jī)采樣獲得的樣本上執(zhí)行傳統(tǒng)的聚類算法,例如K-Means或者層次聚類等,以估算出Deep Web數(shù)據(jù)源的聚類中心。但該方式由于采用隨機(jī)采樣導(dǎo)致獲取的樣本代表性較差、信息含量較低、進(jìn)而導(dǎo)致聚類準(zhǔn)確度較低。

【發(fā)明內(nèi)容】

[0004]有鑒于此,本 發(fā)明的目的在于提供一種基于多階段分層采樣的層次聚類方法和系統(tǒng),以克服現(xiàn)有由于采用隨機(jī)采樣而導(dǎo)致的樣本代表性較差、聚類準(zhǔn)確度較低的問題。
[0005]為此,本發(fā)明公開如下技術(shù)方案:
[0006]一種基于多階段分層采樣的層次聚類方法,包括:
[0007]基于預(yù)設(shè)的輸入屬性集,從數(shù)據(jù)源中隨機(jī)采樣預(yù)設(shè)個(gè)數(shù)的樣本,所采集的預(yù)設(shè)個(gè)數(shù)的樣本構(gòu)成的集合標(biāo)記為初始樣本集;
[0008]利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的M層查詢策略,并基于分層的估計(jì)方差被最小化原則,為所述M層查詢策略中的每層查詢策略分配相應(yīng)的樣本個(gè)數(shù),其中,所述估計(jì)方差基于估計(jì)均值獲取,所述估計(jì)均值具體為所述初始樣本集輸出屬性值的平均值,所述M為大于I的自然數(shù);
[0009]利用所述M層查詢策略,對所述數(shù)據(jù)源進(jìn)行分層采樣,得到代表性較高的樣本,每層采樣的樣本個(gè)數(shù)為該層采樣所使用的查詢策略被分配的樣本個(gè)數(shù),所述分層采樣得到的所有樣本構(gòu)成代表性樣本集;
[0010]對所述代表性樣本集中的各樣本進(jìn)行聚類,得到k個(gè)簇,其中,每個(gè)簇包括至少一個(gè)樣本,所述k為大于I的自然數(shù);
[0011]基于所述k個(gè)簇的邊界點(diǎn),對所述數(shù)據(jù)源進(jìn)行邊界點(diǎn)采樣,得到不確定性較高的樣本,所述邊界點(diǎn)采樣得到的所有樣本構(gòu)成不確定性樣本集;
[0012]對由所述初始樣本集、代表性樣本集以及不確定性樣本集構(gòu)成的合集中的樣本進(jìn)行聚類,并估計(jì)聚類中心,估計(jì)出的聚類中心作為所述數(shù)據(jù)源的聚類中心。[0013]優(yōu)選的,所述利用所述初始樣本集構(gòu)建基于所述輸入屬性集的M層查詢策略之前還包括:
[0014]設(shè)置迭代參數(shù)X,并為X賦值I。
[0015]優(yōu)選的,所述對所述k個(gè)簇進(jìn)行邊界點(diǎn)采樣,得到不確定性樣本集之后,還包括:
[0016]判斷X的值是否小于預(yù)設(shè)的迭代次數(shù)β ;
[0017]當(dāng)判斷結(jié)果為小于時(shí),則X值加1,將所述初始樣本集、所述代表性樣本集以及所述不確定性樣本集進(jìn)行合集,將所述合集替代所述初始樣本集作為新的初始樣本集,并轉(zhuǎn)至執(zhí)行步驟:利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的M層查詢策略;
[0018]當(dāng)判斷結(jié)果為不小于時(shí),則轉(zhuǎn)至執(zhí)行步驟:對由所述初始樣本集、代表性樣本集以及不確定性樣本集構(gòu)成的合集中的樣本進(jìn)行聚類,并估計(jì)聚類中心,估計(jì)出的聚類中心作為所述數(shù)據(jù)源的聚類中心。
[0019]優(yōu)選的,所述利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的M層查詢策略具體包括:
[0020]利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的策略樹,所述策略樹中根節(jié)點(diǎn)除外的各層與所述輸入屬性集中的各輸入屬性 對應(yīng),所述策略樹中每一節(jié)點(diǎn)對應(yīng)相應(yīng)輸入屬性的一個(gè)域值,策略樹每層中各節(jié)點(diǎn)對應(yīng)的輸入屬性域值不同;
[0021]獲取所述策略樹中每一根節(jié)點(diǎn)至葉子節(jié)點(diǎn)的路徑上包括的各個(gè)輸入屬性及所述輸入屬性對應(yīng)的域值,將所述各個(gè)輸入屬性及其對應(yīng)的域值標(biāo)記為該葉子節(jié)點(diǎn)對應(yīng)的查詢策略。
[0022]優(yōu)選的,所述方法,還包括:
[0023]抑制策略樹構(gòu)建過程中對策略樹層次的過度分層。
[0024]優(yōu)選的,所述數(shù)據(jù)源具體為De印Web數(shù)據(jù)源。
[0025]一種基于多階段分層采樣的層次聚類系統(tǒng),包括:
[0026]隨機(jī)采樣模塊,用于基于預(yù)設(shè)的輸入屬性集,從數(shù)據(jù)源中隨機(jī)采樣預(yù)設(shè)個(gè)數(shù)的樣本,所采集的預(yù)設(shè)個(gè)數(shù)的樣本構(gòu)成的集合標(biāo)記為初始樣本集;
[0027]分層查詢策略構(gòu)建模塊,用于利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的M層查詢策略,并基于分層的估計(jì)方差被最小化原則,為所述M層查詢策略中的每層查詢策略分配相應(yīng)的樣本個(gè)數(shù),其中,所述估計(jì)方差基于估計(jì)均值獲取,所述估計(jì)均值具體為所述初始樣本集輸出屬性值的平均值,所述M為大于I的自然數(shù);
[0028]分層采樣模塊,用于利用所述M層查詢策略,對所述數(shù)據(jù)源進(jìn)行分層采樣,得到代表性較高的樣本,每層采樣的樣本個(gè)數(shù)為該層采樣所使用的查詢策略被分配的樣本個(gè)數(shù),所述分層采樣得到的所有樣本構(gòu)成代表性樣本集;
[0029]初始聚類模塊,用于對所述代表性樣本集中的各樣本進(jìn)行聚類,得到k個(gè)簇,其中,每個(gè)簇包括至少一個(gè)樣本,所述k為大于I的自然數(shù);
[0030]邊界采樣模塊,用于基于所述k個(gè)簇的邊界點(diǎn),對所述數(shù)據(jù)源進(jìn)行邊界點(diǎn)采樣,得到不確定性較高的樣本,所述邊界點(diǎn)采樣得到的所有樣本構(gòu)成不確定性樣本集;
[0031]聚類模塊,用于對由所述初始樣本集、代表性樣本集以及不確定性樣本集構(gòu)成的合集中的樣本進(jìn)行聚類,并估計(jì)聚類中心,估計(jì)出的聚類中心作為所述數(shù)據(jù)源的聚類中心。
[0032]優(yōu)選的,所述系統(tǒng)還包括:[0033]設(shè)置模塊,用于設(shè)置迭代參數(shù)X,并為X賦值1,所述設(shè)置模塊與所述隨機(jī)采樣模塊以及所述分層查詢策略構(gòu)建模塊相連;
[0034]判斷模塊,用于判斷X的值是否小于預(yù)設(shè)的迭代次數(shù)β,若判斷結(jié)果為是,則X值加1,將所述初始樣本集、所述代表性樣本集以及所述不確定性樣本集進(jìn)行合集,將所述合集替代所述初始樣本集作為新的初始樣本集,并轉(zhuǎn)至執(zhí)行所述分層查詢策略構(gòu)建模塊;若判斷結(jié)果為否,則轉(zhuǎn)至執(zhí)行所述聚類模塊。
[0035]優(yōu)選的,所述分層查詢策略構(gòu)建模塊具體包括:
[0036]策略樹構(gòu)建單元,用于利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的策略樹,所述策略樹中根節(jié)點(diǎn)除外的各層與所述輸入屬性集中的各輸入屬性一一對應(yīng),所述策略樹中每一節(jié)點(diǎn)對應(yīng)相應(yīng)輸入屬性的一個(gè)域值,策略樹每層中各節(jié)點(diǎn)對應(yīng)的輸入屬性域值不同;
[0037]查詢策略獲取單元,用于獲取所述策略樹中每一根節(jié)點(diǎn)至葉子節(jié)點(diǎn)的路徑上包括的各個(gè)輸入屬性及所述輸入屬性對應(yīng)的域值,將所述各個(gè)輸入屬性及其對應(yīng)的域值標(biāo)記為該葉子節(jié)點(diǎn)對應(yīng)的查詢策略。
[0038]優(yōu)選的,所述分層查詢策略構(gòu)建模塊還包括:
[0039]抑制單元,用于抑制策略樹構(gòu)建過程中對策略樹層次的過度分層。
[0040]由于本發(fā)明采用多階段分層采樣,通過將隨機(jī)采樣所得的初始樣本集作為種子,利用該初始樣本集構(gòu)建用于對數(shù)據(jù)源進(jìn)行分層采樣的分層查詢策略,以及基于分層的估計(jì)方差被最小化原則,為每層查詢策略分配相應(yīng)的樣本個(gè)數(shù),保證了對數(shù)據(jù)源進(jìn)行分層采樣所得樣本的代表性;并通過對代表性樣本集進(jìn)行聚類發(fā)現(xiàn)聚類所得簇的邊界點(diǎn),基于邊界點(diǎn)對數(shù)據(jù)源進(jìn)行二次采樣,保證了采集樣本的不確定性;最終采集的樣本包括了初始樣本集、代表性樣本集以及不確定性樣本集??梢?,本發(fā)明采用的多階段分層采樣獲得的樣本代表性較高、不確定性較高,具有較高的信息含量,規(guī)避了現(xiàn)有由于采用隨機(jī)采樣獲取樣本而導(dǎo)致樣本代表性較差的問題,后續(xù)基于由初始樣本集、代表性樣本集以及不確定性樣本集構(gòu)成的合集進(jìn)行聚類,估計(jì)數(shù)據(jù)源的聚類中心,提高了數(shù)據(jù)源聚類的準(zhǔn)確度。
【專利附圖】

【附圖說明】
[0041]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0042]圖1是本發(fā)明實(shí)施例一提供的基于多階段分層采樣的層次聚類方法的一種流程圖;
[0043]圖2是本發(fā)明實(shí)施例一提供的查詢策略的構(gòu)建過程流程圖;
[0044]圖3是本發(fā)明實(shí)施例一提供的策略樹的實(shí)例示意圖;
[0045]圖4是本發(fā)明實(shí)施例二提供的基于多階段分層采樣的層次聚類方法的另一種流程圖;
[0046]圖5是本發(fā)明實(shí)施例四提供的基于多階段分層采樣的層次聚類系統(tǒng)的一種結(jié)構(gòu)示意圖;[0047]圖6是本發(fā)明實(shí)施例四提供的基于多階段分層采樣的層次聚類系統(tǒng)的另一種結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0048]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0049]本發(fā)明公開一種基于多階段分層采樣的層次聚類方法和系統(tǒng),適用于對Deep Web數(shù)據(jù)源進(jìn)行聚類,估算De印Web數(shù)據(jù)源的聚類中心。
[0050]由于De印Web的后臺數(shù)據(jù)庫無法直接獲得,想要獲得整個(gè)De印Web數(shù)據(jù)源的數(shù)據(jù)并不現(xiàn)實(shí),因此,對Deep Web進(jìn)行聚類必須建立在采樣獲得的樣本之上,本發(fā)明旨在通過從Deep Web中采集信息含量較高的、能夠反映Deep Web數(shù)據(jù)分布的樣本,對采集的樣本進(jìn)行聚類,來估算Deep Web的聚類中心,以提高聚類的準(zhǔn)確度。由于一個(gè)樣本的代表性越高,此樣本對于提高聚類的效果就越有幫助,而一個(gè)樣本的不確定性越大時(shí),表明該樣本的信息含量越高,能有效提高聚類的準(zhǔn)確度、精度,因此,本發(fā)明以樣本的代表性、不確定性作為衡量樣本信息含量的指標(biāo)。
[0051]在Deep Web環(huán)境下,考慮輸出屬性O(shè)S=IO1, O2,...,0q}的分布時(shí),一般將OS認(rèn)為是統(tǒng)計(jì)變量。因此,當(dāng)一個(gè)樣本的輸出屬性平均值與真實(shí)環(huán)境下輸出屬性的平均值非常接近時(shí),可認(rèn)為此樣本為代表性樣本。由于Deep Web數(shù)據(jù)只能通過查詢接口提交查詢獲取,無法直接獲取后臺全部數(shù)據(jù),從而導(dǎo)致輸出屬性的真實(shí)平均值無法直接獲取,所以目標(biāo)轉(zhuǎn)化為尋找對輸出屬性平均值的一個(gè)較好的估計(jì)。以下將通過各實(shí)施例對本發(fā)明的方法和系統(tǒng)進(jìn)行詳細(xì)說明。
[0052]實(shí)施例一
[0053]本發(fā)明實(shí)施例一公開了一種基于多階段分層采樣的層次聚類方法,如圖1所示,該方法包括:
[0054]S1:基于預(yù)設(shè)的輸入屬性集,從數(shù)據(jù)源中隨機(jī)采樣預(yù)設(shè)個(gè)數(shù)的樣本,所采集的預(yù)設(shè)個(gè)數(shù)的樣本構(gòu)成的集合標(biāo)記為初始樣本集。
[0055]其中,數(shù)據(jù)源可以是無法直接獲取、而需要通過查詢接口提交查詢獲取的后臺數(shù)據(jù),本實(shí)施例中,數(shù)據(jù)源具體為Deep Web數(shù)據(jù)源。
[0056]本步驟SI從Deep Web中隨機(jī)采集預(yù)設(shè)個(gè)數(shù)的樣本,一般情況下,此階段的隨機(jī)采樣的樣本個(gè)數(shù)為實(shí)現(xiàn)聚類共需采樣樣本個(gè)數(shù)的一半。本實(shí)施例中,假設(shè)實(shí)現(xiàn)對目標(biāo)DeepWeb (數(shù)據(jù)源)進(jìn)行聚類共需采集2X個(gè)樣本,則此階段從該Deep Web中隨機(jī)采樣X個(gè)樣本,其中,X為大于I的自然數(shù)。
[0057]S2:利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的M層查詢策略,并基于分層的估計(jì)方差被最小化原則,為所述M層查詢策略中的每層查詢策略分配相應(yīng)的樣本個(gè)數(shù),其中,所述估計(jì)方差基于估計(jì)均值獲取,所述估計(jì)均值具體為所述初始樣本集輸出屬性值的平均值,所述M為大于I的自然數(shù)。
[0058]其中,請參見圖2,利用初始樣本集,構(gòu)建基于輸入屬性集的M層查詢策略具體包括:
[0059]S201:利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的策略樹,所述策略樹中根節(jié)點(diǎn)除外的各層與所述輸入屬性集中的各輸入屬性一一對應(yīng),所述策略樹中每一節(jié)點(diǎn)對應(yīng)相應(yīng)輸入屬性的一個(gè)域值,策略樹每層中各節(jié)點(diǎn)對應(yīng)的輸入屬性域值不同;
[0060]具體地,對于目標(biāo)Deep Web, IS=U1, I2,..., IpI表不輸入屬性的集合,OS=IO1, O2, , OJ表示輸出屬性的集合,其中,每個(gè)輸入屬性關(guān)聯(lián)相應(yīng)的屬性取值領(lǐng)域(包括一定個(gè)數(shù)的域值)。
[0061]本步驟S2以隨機(jī)采樣所得的初始樣本集為種子,利用該初始樣本集構(gòu)建用于對Deep Web進(jìn)行分層采樣的各層查詢策略。具體地,利用初始樣本集通過對輸入屬性進(jìn)行分層構(gòu)建一棵查詢空間的策略樹,最終查詢策略在該樹的葉子節(jié)點(diǎn)上獲取,策略樹的構(gòu)建過程如下:
[0062]首先,創(chuàng)建根節(jié)點(diǎn),其中,根節(jié)點(diǎn)對應(yīng)包含全部查詢策略的查詢空間。
[0063]其次,通過分裂上層節(jié)點(diǎn)的查詢空間獲取下層節(jié)點(diǎn),實(shí)現(xiàn)獲取策略樹的各層節(jié)點(diǎn),最終實(shí)現(xiàn)構(gòu)建策略樹。策略樹構(gòu)建過程中,對于樹中待分裂的某一節(jié)點(diǎn)(待分裂時(shí)刻,該節(jié)點(diǎn)為當(dāng)前樹中的葉子節(jié)點(diǎn)),Q表示其對應(yīng)的查詢空間,它由輸入屬性的集合組成,記為:SI,該葉子節(jié)點(diǎn)LN關(guān)聯(lián)的潛在分裂輸入屬性PI=IS-SI, PI包含那些沒有包含在Q中的輸入屬性的集合。在LN的查詢子空間下,輸出屬性O(shè)j e OS的方差可以通過公式(I)計(jì)算:
[0064]
【權(quán)利要求】
1.一種基于多階段分層采樣的層次聚類方法,其特征在于,包括: 基于預(yù)設(shè)的輸入屬性集,從數(shù)據(jù)源中隨機(jī)采樣預(yù)設(shè)個(gè)數(shù)的樣本,所采集的預(yù)設(shè)個(gè)數(shù)的樣本構(gòu)成的集合標(biāo)記為初始樣本集; 利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的M層查詢策略,并基于分層的估計(jì)方差被最小化原則,為所述M層查詢策略中的每層查詢策略分配相應(yīng)的樣本個(gè)數(shù),其中,所述估計(jì)方差基于估計(jì)均值獲取,所述估計(jì)均值具體為所述初始樣本集輸出屬性值的平均值,所述M為大于I的自然數(shù); 利用所述M層查詢策略,對所述數(shù)據(jù)源進(jìn)行分層采樣,得到代表性較高的樣本,每層采樣的樣本個(gè)數(shù)為該層采樣所使用的查詢策略被分配的樣本個(gè)數(shù),所述分層采樣得到的所有樣本構(gòu)成代表性樣本集; 對所述代表性樣本集中的各樣本進(jìn)行聚類,得到k個(gè)簇,其中,每個(gè)簇包括至少一個(gè)樣本,所述k為大于I的自然數(shù); 基于所述k個(gè)簇的邊界點(diǎn),對所述數(shù)據(jù)源進(jìn)行邊界點(diǎn)采樣,得到不確定性較高的樣本,所述邊界 點(diǎn)采樣得到的所有樣本構(gòu)成不確定性樣本集; 對由所述初始樣本集、代表性樣本集以及不確定性樣本集構(gòu)成的合集中的樣本進(jìn)行聚類,并估計(jì)聚類中心,估計(jì)出的聚類中心作為所述數(shù)據(jù)源的聚類中心。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用所述初始樣本集構(gòu)建基于所述輸入屬性集的M層查詢策略之前還包括: 設(shè)置迭代參數(shù)X,并為X賦值I。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對所述k個(gè)簇進(jìn)行邊界點(diǎn)采樣,得到不確定性樣本集之后,還包括: 判斷X的值是否小于預(yù)設(shè)的迭代次數(shù)β ; 當(dāng)判斷結(jié)果為小于時(shí),則X值加1,將所述初始樣本集、所述代表性樣本集以及所述不確定性樣本集進(jìn)行合集,將所述合集替代所述初始樣本集作為新的初始樣本集,并轉(zhuǎn)至執(zhí)行步驟:利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的M層查詢策略; 當(dāng)判斷結(jié)果為不小于時(shí),則轉(zhuǎn)至執(zhí)行步驟:對由所述初始樣本集、代表性樣本集以及不確定性樣本集構(gòu)成的合集中的樣本進(jìn)行聚類,并估計(jì)聚類中心,估計(jì)出的聚類中心作為所述數(shù)據(jù)源的聚類中心。
4.根據(jù)權(quán)利要求1-3任意一項(xiàng)所述的方法,其特征在于,所述利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的M層查詢策略具體包括: 利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的策略樹,所述策略樹中根節(jié)點(diǎn)除外的各層與所述輸入屬性集中的各輸入屬性對應(yīng),所述策略樹中每一節(jié)點(diǎn)對應(yīng)相應(yīng)輸入屬性的一個(gè)域值,策略樹每層中各節(jié)點(diǎn)對應(yīng)的輸入屬性域值不同; 獲取所述策略樹中每一根節(jié)點(diǎn)至葉子節(jié)點(diǎn)的路徑上包括的各個(gè)輸入屬性及所述輸入屬性對應(yīng)的域值,將所述各個(gè)輸入屬性及其對應(yīng)的域值標(biāo)記為該葉子節(jié)點(diǎn)對應(yīng)的查詢策略。
5.根據(jù)權(quán)利要求4任意一項(xiàng)所述的方法,其特征在于,還包括: 抑制策略樹構(gòu)建過程中對策略樹層次的過度分層。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)源具體為DeepWeb數(shù)據(jù)源。
7.一種基于多階段分層采樣的層次聚類系統(tǒng),其特征在于,包括: 隨機(jī)采樣模塊,用于基于預(yù)設(shè)的輸入屬性集,從數(shù)據(jù)源中隨機(jī)采樣預(yù)設(shè)個(gè)數(shù)的樣本,所采集的預(yù)設(shè)個(gè)數(shù)的樣本構(gòu)成的集合標(biāo)記為初始樣本集; 分層查詢策略構(gòu)建模塊,用于利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的M層查詢策略,并基于分層的估計(jì)方差被最小化原則,為所述M層查詢策略中的每層查詢策略分配相應(yīng)的樣本個(gè)數(shù),其中,所述估計(jì)方差基于估計(jì)均值獲取,所述估計(jì)均值具體為所述初始樣本集輸出屬性值的平均值,所述M為大于I的自然數(shù); 分層采樣模塊,用于利用所述M層查詢策略,對所述數(shù)據(jù)源進(jìn)行分層采樣,得到代表性較高的樣本,每層采樣的樣本個(gè)數(shù)為該層采樣所使用的查詢策略被分配的樣本個(gè)數(shù),所述分層采樣得到的所有樣本構(gòu)成代表性樣本集; 初始聚類模塊,用于對所述代表性樣本集中的各樣本進(jìn)行聚類,得到k個(gè)簇,其中,每個(gè)簇包括至少一個(gè)樣本,所述k為大于I的自然數(shù); 邊界采樣模塊,用于基于所述k個(gè)簇的邊界點(diǎn),對所述數(shù)據(jù)源進(jìn)行邊界點(diǎn)采樣,得到不確定性較高的樣本,所述邊界點(diǎn)采樣得到的所有樣本構(gòu)成不確定性樣本集; 聚類模塊,用于對由所述初始樣本集、代表性樣本集以及不確定性樣本集構(gòu)成的合集中的樣本進(jìn)行聚類,并估計(jì)聚類中心,估計(jì)出的聚類中心作為所述數(shù)據(jù)源的聚類中心。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,還包括: 設(shè)置模塊,用于設(shè)置迭代參數(shù)X,并為X賦值1,所述設(shè)置模塊與所述隨機(jī)采樣模塊以及所述分層查詢策略構(gòu)建模塊相連; 判斷模塊,用于判斷X的值是 否小于預(yù)設(shè)的迭代次數(shù)β,若判斷結(jié)果為是,則X值加1,將所述初始樣本集、所述代表性樣本集以及所述不確定性樣本集進(jìn)行合集,將所述合集替代所述初始樣本集作為新的初始樣本集,并轉(zhuǎn)至執(zhí)行所述分層查詢策略構(gòu)建模塊;若判斷結(jié)果為否,則轉(zhuǎn)至執(zhí)行所述聚類模塊。
9.根據(jù)權(quán)利要求7或8任意一項(xiàng)所述的系統(tǒng),其特征在于,所述分層查詢策略構(gòu)建模塊具體包括: 策略樹構(gòu)建單元,用于利用所述初始樣本集,構(gòu)建基于所述輸入屬性集的策略樹,所述策略樹中根節(jié)點(diǎn)除外的各層與所述輸入屬性集中的各輸入屬性一一對應(yīng),所述策略樹中每一節(jié)點(diǎn)對應(yīng)相應(yīng)輸入屬性的一個(gè)域值,策略樹每層中各節(jié)點(diǎn)對應(yīng)的輸入屬性域值不同;查詢策略獲取單元,用于獲取所述策略樹中每一根節(jié)點(diǎn)至葉子節(jié)點(diǎn)的路徑上包括的各個(gè)輸入屬性及所述輸入屬性對應(yīng)的域值,將所述各個(gè)輸入屬性及其對應(yīng)的域值標(biāo)記為該葉子節(jié)點(diǎn)對應(yīng)的查詢策略。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述分層查詢策略構(gòu)建模塊還包括: 抑制單元,用于抑制策略樹構(gòu)建過程中對策略樹層次的過度分層。
【文檔編號】G06F17/30GK103699678SQ201310752850
【公開日】2014年4月2日 申請日期:2013年12月31日 優(yōu)先權(quán)日:2013年12月31日
【發(fā)明者】趙朋朋, 劉袁柳, 吳健, 鮮學(xué)豐, 崔志明 申請人:蘇州大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1