本說明書涉及人工智能領(lǐng)域,尤其涉及一種樣本篩選方法、裝置、存儲介質(zhì)及電子設(shè)備。
背景技術(shù):
1、在諸如信貸等領(lǐng)域,許多實際應(yīng)用場景的樣本常出現(xiàn)樣本數(shù)量不足的問題,如貸前準(zhǔn)入場景、新產(chǎn)品上線場景等。在小樣本學(xué)習(xí)中,如何利用有限的數(shù)據(jù)構(gòu)建強大的預(yù)測模型是一個重要而困難的任務(wù),如果能找到一批近似的樣本作為小樣本的數(shù)據(jù)擴(kuò)充對于最終模型的性能是一個巨大的提升。
2、篩選出近似樣本的方法通常是計算各樣本之間的距離度量,將距離較小的樣本作為近似樣本。現(xiàn)有的基于統(tǒng)計距離度量的相似性度量方法主要包括但不限于以下幾種:歐氏距離:(歐氏距離是最常見的距離度量方式,用于計算空間中兩點間的直線距離,當(dāng)兩個樣本的特征是同質(zhì)且同尺度時,歐氏距離能夠良好地表示樣本間的相似性)、曼哈頓距離(曼哈頓距離量度兩點在標(biāo)準(zhǔn)坐標(biāo)系上的軸距總和,適用于“網(wǎng)格狀”運動路徑)、切比雪夫距離(切比雪夫距離是兩點之間的最大單一維度距離、余弦相似度(余弦相似度通過度量兩個向量的夾角的余弦值來表征它們的方向相似性,常用于文本分析)、皮爾遜相關(guān)系數(shù)(皮爾遜相關(guān)系數(shù)度量兩個向量之間的線性相關(guān)性)等。
3、然而,上述這些統(tǒng)計距離度量方法的通用缺點主要包括:對特征尺度敏感,可能需要事先的歸一化處理;在高維數(shù)據(jù)中因維度詛咒而失效,距離度量變得不具有區(qū)分性;多數(shù)距離度量假設(shè)特征之間相互獨立,無法捕捉特征間的互動;線性度量方法無法捕捉非線性關(guān)系;對噪聲和異常值敏感。因此無法滿足篩選近似樣本的需求。
技術(shù)實現(xiàn)思路
1、本說明書實施例提供了一種樣本篩選方法、裝置、存儲介質(zhì)、程序產(chǎn)品及電子設(shè)備,可以解決復(fù)雜數(shù)據(jù)環(huán)境下的樣本篩選的諸多問題。所述技術(shù)方案如下:
2、第一方面,本說明書實施例提供了一種樣本篩選方法,所述方法包括:
3、對多個樣本進(jìn)行聚類,得到多個樣本集合,所述樣本集合結(jié)合包括至少一個所述樣本;
4、構(gòu)建包括至少一個目標(biāo)樣本的目標(biāo)樣本集合,訓(xùn)練基礎(chǔ)樹模型得到打分模型;
5、應(yīng)用所述打分模型對各所述樣本集合與所述目標(biāo)樣本集合之間的相似度打分,得到所述多個樣本集合分別與所述目標(biāo)樣本集合之間的相似度分?jǐn)?shù);
6、根據(jù)所述多個樣本集合分別與所述目標(biāo)樣本集合之間的相似度分?jǐn)?shù),篩選出與所述目標(biāo)樣本集合之間相似度滿足相似條件的樣本集合。
7、第二方面,本說明書實施例提供了一種樣本篩選裝置,所述裝置包括:
8、第一篩選模塊,用于對多個樣本進(jìn)行聚類,得到多個樣本集合,所述樣本集合結(jié)合包括至少一個所述樣本;
9、第二篩選模塊,用于構(gòu)建包括至少一個目標(biāo)樣本的目標(biāo)樣本集合,訓(xùn)練基礎(chǔ)樹模型得到打分模型;
10、第三篩選模塊,用于應(yīng)用所述打分模型對各所述樣本集合與所述目標(biāo)樣本集合之間的相似度打分,得到所述多個樣本集合分別與所述目標(biāo)樣本集合之間的相似度分?jǐn)?shù);
11、第四篩選模塊,用于根據(jù)所述多個樣本集合和所述目標(biāo)樣本集合分別對應(yīng)的分?jǐn)?shù),篩選出與所述目標(biāo)樣本集合之間相似度滿足相似條件的樣本集合。
12、第三方面,本說明書實施例提供一種計算機存儲介質(zhì),所述計算機存儲介質(zhì)存儲有多條指令,所述指令適于由處理器加載并執(zhí)行上述的方法步驟。
13、第四方面,本說明書實施例提供一種計算機程序產(chǎn)品,所述計算機存儲介質(zhì)存儲有多條指令,所述指令適于由處理器加載并執(zhí)行上述的方法步驟。
14、第五方面,本說明書實施例提供一種電子設(shè)備,可包括:處理器和存儲器;其中,所述存儲器存儲有計算機程序,所述計算機程序適于由所述處理器加載并執(zhí)行上述的方法步驟。
15、本說明書一些實施例提供的技術(shù)方案帶來的有益效果至少包括:
16、在本說明書中,對多個樣本進(jìn)行聚類得到多個樣本集合,通過包括至少一個目標(biāo)樣本的目標(biāo)樣本集合訓(xùn)練基礎(chǔ)樹模型得到打分模型,進(jìn)一步應(yīng)用打分模型分別對多個樣本集合和目標(biāo)樣本集合之間的相似度打分,從而根據(jù)多個樣本集合和目標(biāo)樣本集合之間的相似度分?jǐn)?shù),篩選出與目標(biāo)樣本集合之間相似度滿足相似條件的樣本集合作為目標(biāo)樣本集合的近似樣本集合。在本說明書中,通過聚類算法和樹模型,可以結(jié)合多個樣本的密度信息和樹模型的預(yù)測性能至樣本相似度計算中,充分利用樹模型捕捉多個樣本特征之間的非線性關(guān)系,克服了統(tǒng)計距離度量方法在處理復(fù)雜樣本結(jié)構(gòu)時的局限性,且通過聚類算法提供了樣本篩選的魯棒性,增強了對未知樣本分布和噪聲樣本的適應(yīng)能力,為復(fù)雜數(shù)據(jù)環(huán)境下的樣本篩選提供了一個可靠、靈活且高效的解決方案。
1.一種樣本篩選方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的樣本篩選方法,所述應(yīng)用所述打分模型對各所述樣本集合與所述目標(biāo)樣本集合之間的相似度打分,得到所述多個樣本集合分別與所述目標(biāo)樣本集合之間的相似度分?jǐn)?shù),包括:
3.根據(jù)權(quán)利要求2所述的樣本篩選方法,所述應(yīng)用所述打分模型,分別對所述樣本子集合與所述目標(biāo)樣本集合之間的相似度打分,得到所述樣本集合對應(yīng)的多個樣本子集合分別與所述目標(biāo)樣本集合之間的相似度分?jǐn)?shù),包括:
4.根據(jù)權(quán)利要求1所述的樣本篩選方法,所述對多個樣本進(jìn)行聚類,得到多個樣本集合,包括:
5.根據(jù)權(quán)利要求1所述的樣本篩選方法,所述根據(jù)所述多個樣本集合分別與所述目標(biāo)樣本集合之間的相似度分?jǐn)?shù),篩選出與所述目標(biāo)樣本集合之間相似度滿足相似條件的樣本集合,包括:
6.根據(jù)權(quán)利要求5所述的樣本篩選方法,所述通過包括至少一個目標(biāo)樣本的目標(biāo)樣本集合,訓(xùn)練基礎(chǔ)樹模型得到打分模型,包括:
7.根據(jù)權(quán)利要求1所述的樣本篩選方法,所述對多個樣本進(jìn)行聚類,得到多個樣本集合之前,還包括:
8.一種樣本篩選裝置,所述裝置包括:
9.一種計算機存儲介質(zhì),所述計算機存儲介質(zhì)存儲有多條指令,所述指令適于由處理器加載并執(zhí)行如權(quán)利要求1~7任意一項的方法步驟。
10.一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品存儲有多條指令,所述指令適于由處理器加載并執(zhí)行如權(quán)利要求1~7任意一項的方法步驟。
11.一種電子設(shè)備,其特征在于,包括:處理器和存儲器;其中,所述存儲器存儲有計算機程序,所述計算機程序適于由所述處理器加載并執(zhí)行如權(quán)利要求1~7任意一項的方法步驟。