本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別是涉及一種樣本篩選方法及裝置,電子設(shè)備。
背景技術(shù):
數(shù)據(jù)預(yù)處理在眾多機(jī)器學(xué)習(xí)算法中都起著重要作用。無(wú)論選用何種算法,對(duì)于樣本數(shù)據(jù)的預(yù)處理都相當(dāng)關(guān)鍵,輸入給模型的數(shù)據(jù)質(zhì)量會(huì)直接決定算法的表現(xiàn)效果。以搜索或推薦技術(shù)為例,在執(zhí)行搜索和推薦之前,首先要根據(jù)用戶的行為日志訓(xùn)練作為樣本訓(xùn)練排序模型,然后再通過(guò)訓(xùn)練的排序模型對(duì)備選的搜索或推薦結(jié)果進(jìn)行排序,以展現(xiàn)給用戶準(zhǔn)確、全面的結(jié)果。現(xiàn)有技術(shù)中,在對(duì)樣本進(jìn)行篩選時(shí),通常采用人工標(biāo)注正、負(fù)樣本標(biāo)簽,然后對(duì)正樣本和負(fù)樣本分別聚類,以剔除噪聲樣本?,F(xiàn)有技術(shù)中基于點(diǎn)擊規(guī)則的樣本標(biāo)注方法太粗糙,在特征維數(shù)偏低時(shí)特征對(duì)樣本對(duì)象刻畫不清晰的情況下,會(huì)導(dǎo)致基于樣本特征和樣本標(biāo)簽對(duì)樣本的描述不一致,進(jìn)一步導(dǎo)致模型訓(xùn)練不準(zhǔn)確。
現(xiàn)有技術(shù)中對(duì)樣本進(jìn)行篩選時(shí),主要基于對(duì)數(shù)據(jù)的業(yè)務(wù)理解,費(fèi)時(shí)且準(zhǔn)確性不穩(wěn)定。并且,當(dāng)樣本特征維度較少時(shí),樣本篩選的準(zhǔn)確性較低。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)實(shí)施例提供一種樣本篩選方法,解決現(xiàn)有技術(shù)中的樣本篩選方法存在的篩選樣本準(zhǔn)確性較低的問(wèn)題。
為了解決上述問(wèn)題,第一方面,本申請(qǐng)實(shí)施例提供了一種樣本篩選方法,包括:
基于樣本特征對(duì)所有樣本進(jìn)行聚類;
根據(jù)聚類結(jié)果確定備選樣本所在簇的樣本混亂程度度量指標(biāo);
根據(jù)所述樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例。
第二方面,本申請(qǐng)實(shí)施例提供了一種樣本篩選裝置,包括:
樣本聚類模塊,用于基于樣本特征對(duì)所有樣本進(jìn)行聚類;
混亂程度度量指標(biāo)確定模塊,用于根據(jù)所述樣本聚類模塊的聚類結(jié)果確定備選樣本所在簇的樣本混亂程度度量指標(biāo);
樣本比例確定模塊,用于根據(jù)所述混亂程度度量指標(biāo)確定模塊確定的樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例。
第三方面,本申請(qǐng)實(shí)施例提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)本申請(qǐng)實(shí)施例公開的所述的樣本篩選方法。
第四方面,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)本申請(qǐng)實(shí)施例公開的所述樣本篩選方法的步驟。
本申請(qǐng)實(shí)施例公開的樣本篩選方法,通過(guò)基于樣本特征對(duì)所有樣本進(jìn)行聚類,并根據(jù)聚類結(jié)果確定備選樣本所在簇的樣本混亂程度度量指標(biāo),進(jìn)一步根據(jù)所述樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例,以訓(xùn)練模型,解決了現(xiàn)有技術(shù)中的樣本篩選方法存在的篩選樣本準(zhǔn)確性較低的問(wèn)題。通過(guò)對(duì)所有備選樣本基于預(yù)設(shè)維度特征進(jìn)行聚類,并根據(jù)聚類得到的每個(gè)簇中的樣本分布混亂程度確定在各個(gè)簇中選擇的備選樣本比例,使得在特征維數(shù)偏低時(shí)特征對(duì)樣本對(duì)象刻畫不清晰的情況下,能夠準(zhǔn)確選擇有代表性的樣本,避免出現(xiàn)基于樣本特征和樣本標(biāo)簽對(duì)樣本的描述不一致的問(wèn)題,提高了樣本篩選的準(zhǔn)確性。
附圖說(shuō)明
為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本申請(qǐng)實(shí)施例一的樣本篩選方法的流程圖;
圖2是本申請(qǐng)實(shí)施例二的樣本篩選方法的流程圖;
圖3是本申請(qǐng)實(shí)施例二的樣本篩選方法的結(jié)果示意圖;
圖4是本申請(qǐng)實(shí)施例三的樣本篩選裝置結(jié)構(gòu)圖之一;
圖5是本申請(qǐng)實(shí)施例三的樣本篩選裝置結(jié)構(gòu)圖之二。
具體實(shí)施方式
下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
實(shí)施例一
本申請(qǐng)公開的一種樣本篩選方法,如圖1所示,該方法包括:步驟100至步驟120。
步驟100,基于樣本特征對(duì)所有樣本進(jìn)行聚類。
本申請(qǐng)實(shí)施例中所采用的樣本為當(dāng)前系統(tǒng)或平臺(tái)內(nèi),用戶的歷史行為日志,例如o2o平臺(tái)上用戶的點(diǎn)擊或購(gòu)買商品的行為日志、搜索系統(tǒng)內(nèi)用戶的點(diǎn)擊或?yàn)g覽日志等。獲取用戶行為日志,即用于訓(xùn)練模型的樣本的具體方法為現(xiàn)有技術(shù),此處不再贅述。
在進(jìn)行模型訓(xùn)練之前,首先要手動(dòng)對(duì)訓(xùn)練樣本進(jìn)行篩選并設(shè)置樣本標(biāo)簽,目的是篩除明顯不符合模型要求的樣本,并標(biāo)注正樣本和負(fù)樣本,將設(shè)置了正、負(fù)樣本標(biāo)簽的樣本作為備選樣本。
模型在進(jìn)行訓(xùn)練時(shí),首選會(huì)預(yù)先確定樣本的特征維度,例如:時(shí)間、地理位置、用戶年齡、用戶行為類型、產(chǎn)品類別等維度。為不同業(yè)務(wù)訓(xùn)練的模型,其對(duì)應(yīng)的樣本的特征維度可能不同,需要根據(jù)具體的業(yè)務(wù)需求,并結(jié)合先驗(yàn)知識(shí)確定。
在對(duì)樣本標(biāo)注正、負(fù)樣本標(biāo)簽之后,分別提取每個(gè)樣本的預(yù)設(shè)維度的特征,基于提取的特征對(duì)所有備選樣本進(jìn)行聚類。具體實(shí)施時(shí),可以采用如用kmeans、層次聚類等聚類方法對(duì)樣本進(jìn)行聚類。聚類的具體算法參見現(xiàn)有技術(shù),本申請(qǐng)實(shí)施例不再贅述。通過(guò)基于樣本特征對(duì)所有樣本進(jìn)行聚類,可以得到多個(gè)簇,每個(gè)簇中包括多個(gè)樣本,每個(gè)簇中包括的樣本可以為正樣本和/或負(fù)樣本。
步驟110,根據(jù)聚類結(jié)果確定備選樣本所在簇的樣本混亂程度度量指標(biāo)。
通過(guò)基于樣本特征對(duì)所有樣本進(jìn)行聚類,得到多個(gè)簇之后,每個(gè)簇中包括多個(gè)樣本即為訓(xùn)練模型的備選樣本?;谔卣鬟M(jìn)行聚類的過(guò)程是將標(biāo)注的樣本投射到特征空間的過(guò)程,通過(guò)聚類可以看到不同的簇內(nèi),即有時(shí)的特征空間內(nèi),正、負(fù)樣本的分布可能大相徑庭,某些簇里正負(fù)類參雜在一起,而一些簇里正、負(fù)樣本清晰可分。具體實(shí)施時(shí),通過(guò)樣本混亂程度度量指標(biāo)衡量聚類得到的每個(gè)簇的樣本可分性。
步驟120,根據(jù)所述樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例。
每個(gè)簇中樣本的樣本混亂程度度量指標(biāo)用于表示該簇中正樣本或負(fù)樣本的占比是否足夠高,即樣本分布是否混亂。樣本混亂程度度量指標(biāo)進(jìn)一步表征了預(yù)設(shè)的特征空間內(nèi)正樣本和負(fù)樣本的分布比例。樣本混亂程度度量指標(biāo)越高說(shuō)明該簇中樣本分布越混亂。具體實(shí)施時(shí),對(duì)于樣本分布混亂的簇,樣本選取比例相對(duì)較低,即在該簇中選擇少量的備選樣本;對(duì)于樣本分布規(guī)則的簇,選取比例相對(duì)較高,即在該簇中選擇大量的備選樣本。
本申請(qǐng)實(shí)施例公開的樣本篩選方法,通過(guò)基于樣本特征對(duì)所有樣本進(jìn)行聚類,并根據(jù)聚類結(jié)果確定備選樣本所在簇的樣本混亂程度度量指標(biāo),進(jìn)一步根據(jù)所述樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例,以訓(xùn)練模型,解決了現(xiàn)有技術(shù)中的樣本篩選方法存在的篩選樣本準(zhǔn)確性較低的問(wèn)題。通過(guò)對(duì)所有備選樣本基于預(yù)設(shè)特征維度進(jìn)行聚類,并根據(jù)聚類得到的每個(gè)簇中的樣本分布混亂程度確定在各個(gè)簇中選擇的備選樣本比例使得在特征維數(shù)偏低時(shí)特征對(duì)樣本對(duì)象刻畫不清晰的情況下,能夠準(zhǔn)確選擇有代表性的樣本,避免出現(xiàn)基于樣本特征和樣本標(biāo)簽對(duì)樣本的描述不一致的問(wèn)題,提高了樣本篩選的準(zhǔn)確性,進(jìn)一步提升了訓(xùn)練模型的準(zhǔn)確性。
實(shí)施例二
本實(shí)施例公開的一種樣本篩選方法,如圖2所示,該方法包括:步驟200至步驟230。
步驟200,基于樣本特征對(duì)所有樣本進(jìn)行聚類。
本申請(qǐng)實(shí)施例中所采用的樣本為當(dāng)前系統(tǒng)或平臺(tái)內(nèi),用戶的歷史行為日志,例如o2o平臺(tái)上用戶的點(diǎn)擊或購(gòu)買商品的行為日志、搜索系統(tǒng)內(nèi)用戶的點(diǎn)擊或?yàn)g覽日志等。獲取用戶行為日志作為訓(xùn)練樣本、手動(dòng)對(duì)訓(xùn)練樣本進(jìn)行篩選并設(shè)置正、負(fù)樣本標(biāo)簽,得到備選樣本的具體方法參見實(shí)施例一,此處不再贅述。
本申請(qǐng)具體實(shí)施時(shí),假設(shè)樣本的特征維度包括:時(shí)間、地理位置、用戶年齡、用戶行為類型、產(chǎn)品類別。在對(duì)樣本標(biāo)注正、負(fù)樣本標(biāo)簽之后,分別提取每個(gè)樣本的預(yù)設(shè)維度的特征,基于提取的特征對(duì)所有備選樣本進(jìn)行聚類。
具體實(shí)施時(shí),可以采用如用kmeans、層次聚類等基于質(zhì)心的聚類方法對(duì)樣本進(jìn)行聚類。聚類的過(guò)程是一個(gè)不斷迭代的過(guò)程。首先,根據(jù)樣本特征的維度數(shù)量確定聚類數(shù)量,樣本特征維數(shù)越高,或者樣本量越大,聚類數(shù)量就要相應(yīng)地增加。首先,通過(guò)層次聚類產(chǎn)生k個(gè)簇,將對(duì)應(yīng)的質(zhì)心作為kmeans質(zhì)心的初始值。然后,使用kmeans聚類。鑒于特征維度不止一個(gè),每一維度特征的取值范圍可能不同,故樣本特征相似度計(jì)算應(yīng)該采用數(shù)值尺度無(wú)關(guān)的馬氏距離(mahalanobisdistance)。聚類的具體算法參見現(xiàn)有技術(shù),本申請(qǐng)實(shí)施例不再贅述。通過(guò)基于樣本特征對(duì)所有樣本進(jìn)行聚類,可以得到多個(gè)簇,每個(gè)簇中包括多個(gè)樣本,每個(gè)簇中包括的樣本可以為正樣本和/或負(fù)樣本。
步驟210,確定樣本容量大于簇樣本容量閾值的各簇為備選樣本所在簇。
為了提高備選樣本的質(zhì)量以及減小運(yùn)算量,首先對(duì)于聚類得到的各個(gè)簇根據(jù)樣本容量進(jìn)行篩選,選擇滿足設(shè)定條件的簇中的樣本作為備選樣本,例如,從樣本簇中去除極小的樣本簇,聚類得到的極小樣本簇內(nèi)很可能是離群點(diǎn),去掉這部分樣本盡可能地避免離群點(diǎn)對(duì)模型訓(xùn)練的影響,可以提高樣本質(zhì)量。具體實(shí)施時(shí),可以首先確定簇樣本容量閾值,然后根據(jù)所述簇樣本容量閾值確定滿足設(shè)定條件的簇??梢愿鶕?jù)各簇樣本容量的中位值,或,各簇樣本容量的平均值確定所述簇樣本容量閾值。具體實(shí)施時(shí),可以首先統(tǒng)計(jì)各樣本簇內(nèi)的樣本容量,例如統(tǒng)計(jì)樣本簇的樣本數(shù);然后,確定各簇容量的中位值vm,根據(jù)中位值設(shè)定簇樣本容量閾值vth,例如設(shè)定vth=0.05vm;最后,確定樣本容量大于設(shè)定簇樣本容量閾值vth的各簇為備選樣本所在簇,忽略樣本容量小于或等于設(shè)定簇樣本容量閾值vth的各極小樣本簇。具體實(shí)施時(shí),還可以采用其他方法設(shè)定簇樣本容量閾值,例如根據(jù)各樣本簇的樣本容量平均值設(shè)定簇樣本容量閾值,或者根據(jù)業(yè)務(wù)需求設(shè)定簇樣本容量閾值。
步驟220,根據(jù)聚類結(jié)果確定備選樣本所在簇的樣本混亂程度度量指標(biāo)。
通過(guò)基于樣本特征對(duì)所有樣本進(jìn)行聚類,得到多個(gè)簇之后,每個(gè)簇中包括多個(gè)樣本即為訓(xùn)練模型的備選樣本。基于特征進(jìn)行聚類的過(guò)程是將標(biāo)注的樣本投射到特征空間的過(guò)程。具體實(shí)施時(shí),所述樣本混亂程度度量指標(biāo)包括某一簇中所有樣本的信息熵。信息熵通常用來(lái)衡量某種特定信息的出現(xiàn)概率,在本申請(qǐng)的實(shí)施例中,信息熵用來(lái)度量簇內(nèi)樣本的體系混亂程度。信息熵越大說(shuō)明簇內(nèi)正樣本或負(fù)樣本的占比越小,信息熵越小說(shuō)明簇內(nèi)正樣本或負(fù)樣本的標(biāo)注趨于一致。具體實(shí)施時(shí),可以通過(guò)公式:entropy=-p·ln(p)-(1-p)·ln(1-p)計(jì)算簇內(nèi)樣本的信息熵entropy;其中,p為簇內(nèi)樣本的比例,或者負(fù)樣本的比例。具體實(shí)施時(shí),p的取值通過(guò)對(duì)簇內(nèi)的樣本根據(jù)樣本標(biāo)簽進(jìn)行統(tǒng)計(jì)得到。
步驟230,根據(jù)所述樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例。
每個(gè)簇中樣本的樣本混亂程度度量指標(biāo)用于表示該簇中正樣本或負(fù)樣本的占比是否足夠高,即樣本分布是否混亂。樣本混亂程度度量指標(biāo)進(jìn)一步表征了預(yù)設(shè)的特征空間內(nèi)正樣本和負(fù)樣本的分布比例。樣本混亂程度度量指標(biāo)越高說(shuō)明該簇中樣本分布越混亂。根據(jù)所述樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例包括:根據(jù)所述樣本混亂程度度量指標(biāo)的單調(diào)遞減函數(shù)確定相應(yīng)簇的樣本選取比例。即,對(duì)于樣本分布混亂的簇,樣本選取比例相對(duì)較低,即在該簇中選擇少量的備選樣本;對(duì)于樣本分布規(guī)則的簇,選取比例相對(duì)較高,即在該簇中選擇大量的備選樣本。
具體實(shí)施時(shí),所述樣本混亂程度度量指標(biāo)的單調(diào)遞減函數(shù)可以表示為psample=e-entrop的單調(diào)遞減函數(shù)還可以表示為其他形式,其中,psample為當(dāng)前簇內(nèi)正樣本和負(fù)樣本的抽樣比例;entrop為樣本混亂程度度量指標(biāo),例如當(dāng)前簇中樣本的信息熵。
優(yōu)選的,所述樣本混亂程度度量指標(biāo)的單調(diào)遞減函數(shù)可以表示為:
通過(guò)本申請(qǐng)實(shí)施例公開的樣本篩選方法,將降低樣本分布混亂的空間中樣本的比例。如圖3所示,簇a中正樣本(以方框?yàn)槔?、負(fù)樣本(以圓圈為例)分布混亂,計(jì)算得到的信息熵較高;簇b和c中正、負(fù)樣本純度高,樣本標(biāo)注與是即樣本特征趨于一致,計(jì)算得到的信息熵較低。通過(guò)本申請(qǐng)實(shí)施例公開的樣本篩選方法,將降低簇a中正、負(fù)樣本比例,提高簇b和c中正、負(fù)樣本比例。通過(guò)降低混亂數(shù)據(jù)空間中的樣本量,以使整體樣本可分性增強(qiáng),達(dá)到提高樣本質(zhì)量的目的。
本實(shí)施例中以樣本混亂程度度量指標(biāo)包括某一簇中所有樣本的信息熵為例說(shuō)明確定樣本混亂程度度量指標(biāo),以及根據(jù)所述樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例的具體實(shí)施過(guò)程。具體實(shí)施時(shí),還可以采用其他方法確定樣本混亂程度度量指標(biāo),以及采用其他公式根據(jù)所述樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例,本申請(qǐng)的實(shí)施例中不再一一列舉。
本申請(qǐng)實(shí)施例公開的樣本篩選方法,通過(guò)基于樣本特征對(duì)所有樣本進(jìn)行聚類,確定樣本容量大于設(shè)定簇樣本容量閾值的各簇為備選樣本所在簇,并根據(jù)聚類結(jié)果確定備選樣本所在簇的樣本混亂程度度量指標(biāo),進(jìn)一步根據(jù)所述樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例,以訓(xùn)練模型,解決了現(xiàn)有技術(shù)中的樣本篩選方法存在的篩選樣本準(zhǔn)確性較低的問(wèn)題。通過(guò)對(duì)所有備選樣本基于預(yù)設(shè)特征維度進(jìn)行聚類,并根據(jù)聚類得到的每個(gè)簇中的樣本分布混亂程度確定在各個(gè)簇中選擇的備選樣本比例,使得在特征維數(shù)偏低時(shí)特征對(duì)樣本對(duì)象刻畫不清晰的情況下,能夠準(zhǔn)確選擇有代表性的樣本,避免出現(xiàn)基于樣本特征和樣本標(biāo)簽對(duì)樣本的描述不一致的問(wèn)題,提高了樣本篩選的準(zhǔn)確性,進(jìn)一步提升了訓(xùn)練模型的準(zhǔn)確性。
以美食搜索為例,當(dāng)熱門地域的優(yōu)質(zhì)商家較多時(shí),用戶選擇對(duì)展現(xiàn)的商家的點(diǎn)擊行為帶有一定的隨機(jī)性,因此,采集到的訓(xùn)練樣本會(huì)出現(xiàn)很多優(yōu)質(zhì)商家沒(méi)有被點(diǎn)擊的情況。當(dāng)描述商家的特征維度較少時(shí),可能會(huì)出現(xiàn)被點(diǎn)擊的樣本的特征和未被點(diǎn)擊的樣本的特征相似度偏高的情況。如果按照現(xiàn)有技術(shù)中的正樣本(被點(diǎn)擊的樣本)和負(fù)樣本(未被點(diǎn)擊的樣本)分別聚類并篩選樣本的方法,會(huì)導(dǎo)致模型訓(xùn)練時(shí),大量的特征相似度極高的樣本既屬于正樣本又屬于負(fù)樣本,導(dǎo)致模型訓(xùn)練不準(zhǔn)確。如果采用本申請(qǐng)的樣本篩選方法,會(huì)將具有相同特征的樣本聚在一個(gè)簇中,然后,對(duì)于正、負(fù)樣本分布混亂(即被點(diǎn)擊的樣本和未被點(diǎn)擊的樣本比例相當(dāng))的情況,適當(dāng)降低該簇中正、負(fù)樣本的比例,以減少訓(xùn)練模型時(shí)大量相同特征向量被標(biāo)注為不同標(biāo)簽造成的影響,以提高模型訓(xùn)練的準(zhǔn)確性。
本申請(qǐng)實(shí)施例公開的樣本篩選方法簡(jiǎn)單易行,無(wú)需對(duì)樣本數(shù)據(jù)的業(yè)務(wù)意義有太多的了解,就可以有效篩選具有代表性的樣本,一定程度上,克服了特征維度低導(dǎo)致的在訓(xùn)練模型時(shí)對(duì)樣本對(duì)象描述不清的問(wèn)題,進(jìn)一步改善模型學(xué)習(xí)的效果。
實(shí)施例三
本實(shí)施例公開的一種樣本篩選裝置,如圖4所示,該裝置包括:
樣本聚類模塊400,用于基于樣本特征對(duì)所有樣本進(jìn)行聚類;
混亂程度度量指標(biāo)確定模塊410,用于根據(jù)所述樣本聚類模塊400的聚類結(jié)果確定備選樣本所在簇的樣本混亂程度度量指標(biāo);
樣本比例確定模塊420,用于根據(jù)所述混亂程度度量指標(biāo)確定模塊410確定的樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例。
具體實(shí)施時(shí),可以采用如用kmeans、層次聚類等局域質(zhì)心的聚類方法對(duì)樣本進(jìn)行聚類。
可選的,所述樣本比例確定模塊420具體用于:根據(jù)所述樣本混亂程度度量指標(biāo)的單調(diào)遞減函數(shù)確定相應(yīng)簇的樣本選取比例。
樣本混亂程度度量指標(biāo)進(jìn)一步表征了預(yù)設(shè)的特征空間內(nèi)正樣本和負(fù)樣本的分布比例。樣本混亂程度度量指標(biāo)越高說(shuō)明該簇中樣本分布越混亂。根據(jù)所述樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例時(shí),對(duì)于樣本分布混亂的簇,樣本選取比例相對(duì)較低,即在該簇中選擇少量的備選樣本;對(duì)于樣本分布規(guī)則的簇,選取比例相對(duì)較高,即在該簇中選擇大量的備選樣本。
可選的,所述樣本混亂程度度量指標(biāo)包括某一簇中所有樣本的信息熵。
優(yōu)選的,所述樣本混亂程度度量指標(biāo)的單調(diào)遞減函數(shù)為:
可選的,如圖5所示,還包括:
樣本簇篩選模塊430,用于確定樣本容量大于簇樣本容量閾值的各簇為備選樣本所在簇。
可選的,根據(jù)各簇樣本容量的中位值,或,各簇樣本容量的平均值確定所述簇樣本容量閾值。
為了提高備選樣本的質(zhì)量以及減小運(yùn)算量,首先對(duì)于聚類得到的各個(gè)簇根據(jù)樣本容量進(jìn)行篩選,選擇滿足設(shè)定條件的簇中的樣本作為備選樣本,例如,從樣本簇中去除極小的樣本簇,聚類得到的極小樣本簇內(nèi)很可能是離群點(diǎn),去掉這部分樣本盡可能地避免離群點(diǎn)對(duì)模型訓(xùn)練的影響,可以提高樣本質(zhì)量。
本實(shí)施例中以樣本混亂程度度量指標(biāo)包括某一簇中所有樣本的信息熵為例說(shuō)明確定樣本混亂程度度量指標(biāo),以及根據(jù)所述樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例的具體實(shí)施過(guò)程。具體實(shí)施時(shí),還可以采用其他方法確定樣本混亂程度度量指標(biāo),以及采用其他公式根據(jù)所述樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例,本申請(qǐng)的實(shí)施例中不再一一列舉。
本申請(qǐng)實(shí)施例公開的樣本篩選裝置,通過(guò)基于樣本特征對(duì)所有樣本進(jìn)行聚類,確定樣本容量大于設(shè)定簇樣本容量閾值的各簇為備選樣本所在簇,并根據(jù)聚類結(jié)果確定備選樣本所在簇的樣本混亂程度度量指標(biāo),進(jìn)一步根據(jù)所述樣本混亂程度度量指標(biāo)確定相應(yīng)簇的樣本選取比例,以訓(xùn)練模型,解決了現(xiàn)有技術(shù)中的樣本篩選方法存在的篩選樣本準(zhǔn)確性較低的問(wèn)題。通過(guò)對(duì)所有備選樣本基于預(yù)設(shè)維度特征進(jìn)行聚類,并根據(jù)聚類得到的每個(gè)簇中的樣本分布混亂程度確定在各個(gè)簇中選擇的備選樣本比例,使得在特征維數(shù)偏低時(shí)特征對(duì)樣本對(duì)象刻畫不清晰的情況下,能夠準(zhǔn)確選擇有代表性的樣本,避免出現(xiàn)基于樣本特征和樣本標(biāo)簽對(duì)樣本的描述不一致的問(wèn)題,提高了樣本篩選的準(zhǔn)確性,進(jìn)一步提升了訓(xùn)練模型的準(zhǔn)確性。
本申請(qǐng)實(shí)施例公開的樣本篩選裝置簡(jiǎn)單易行,無(wú)需對(duì)樣本數(shù)據(jù)的業(yè)務(wù)意義有太多的了解,就可以有效篩選具有代表性的樣本,一定程度上,克服了特征維度低導(dǎo)致的在訓(xùn)練模型時(shí)對(duì)樣本對(duì)象描述不清的問(wèn)題,進(jìn)一步改善模型學(xué)習(xí)的效果。
相應(yīng)的,本申請(qǐng)還公開了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如本申請(qǐng)實(shí)施例一和實(shí)施例二所述的樣本篩選方法。所述電子設(shè)備可以為pc機(jī)、移動(dòng)終端、個(gè)人數(shù)字助理、平板電腦等。
本申請(qǐng)還公開了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本申請(qǐng)實(shí)施例一和實(shí)施例二所述的樣本篩選方法的步驟。
本說(shuō)明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說(shuō)明即可。
以上對(duì)本申請(qǐng)?zhí)峁┑囊环N樣本篩選方法、裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本申請(qǐng)的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本申請(qǐng)的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請(qǐng)的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本申請(qǐng)的限制。
通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施方式可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件實(shí)現(xiàn)?;谶@樣的理解,上述技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如rom/ram、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。