本發(fā)明屬于數(shù)據(jù)分類技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)打標(biāo)簽的方法。
背景技術(shù):
目前多數(shù)工業(yè)網(wǎng)站都有自有的分類標(biāo)簽體系,抓取這些網(wǎng)站的數(shù)據(jù)后,必須對標(biāo)簽進(jìn)行歸一化。標(biāo)簽的準(zhǔn)確性關(guān)系到后續(xù)搜索和推薦業(yè)務(wù)的效果。現(xiàn)有技術(shù)中,通常通過聚類算法這一單一的分類方法進(jìn)行打標(biāo)簽,從而導(dǎo)致打標(biāo)簽的準(zhǔn)確度不高。
因此本領(lǐng)域技術(shù)人員致力于開發(fā)一種準(zhǔn)確度更高的數(shù)據(jù)打標(biāo)簽方法。
技術(shù)實(shí)現(xiàn)要素:
有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題是提供一種準(zhǔn)確度更高的數(shù)據(jù)打標(biāo)簽方法。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于選擇性集成分類器的數(shù)據(jù)打標(biāo)簽方法,包括以下步驟:
1)生成數(shù)據(jù)訓(xùn)練集:從各個(gè)網(wǎng)站抓取工業(yè)商品詳細(xì)數(shù)據(jù),生成數(shù)據(jù)訓(xùn)練集,用于選擇性集成分類器的基礎(chǔ)數(shù)據(jù);
2)文本預(yù)處理:對文本進(jìn)行分詞,過濾停用詞,同義詞轉(zhuǎn)化,過濾高頻詞和低頻詞;
3)文本向量化:將文本轉(zhuǎn)化為向量的代數(shù)建模過程;
4)利用布爾矩陣存儲集成分類器對預(yù)處理的文本進(jìn)行分類;
5)從布爾矩陣中篩選出分類性能較好的基分類器構(gòu)成最終的集成分類器:根據(jù)各種基分類器的分類支持度、分類難度、分類強(qiáng)度、分類精準(zhǔn)度集成選擇性集成分類器;
6)建立標(biāo)簽庫:建立每個(gè)分類與標(biāo)簽的映射關(guān)系;
7)接收到選擇性集成分類器返回的分類結(jié)果,根據(jù)分類結(jié)果獲取分類的標(biāo)簽。
較佳的,步驟4)按以下步驟實(shí)現(xiàn):
51)從訓(xùn)練集中訓(xùn)練基分類器,再以數(shù)據(jù)集中的樣本為行,基分類器為列,基分類器對樣本的分類結(jié)果為值來構(gòu)建分類布爾矩陣;其中基分類器按照分類精度排序,分類結(jié)果正確值為1,錯誤則為0;
52)計(jì)算行值數(shù)組,再從數(shù)組從取出重復(fù)次數(shù)最多的數(shù)值,將其對應(yīng)的基分類器添加到候選集成分類器中。當(dāng)重復(fù)次數(shù)一樣時(shí)取較大值;
53)將添加到候選集成分類器的分類器對應(yīng)的列置0;
54)候選集成分類器評估系統(tǒng):選擇具有最大評估值的候選集成分類器;評估函數(shù)主要集成分類器正確分類的樣本數(shù),基分類器的平均分類精度以及集成分類器的大小三個(gè)方面對候選集成分類器進(jìn)行評估,計(jì)算公式(a)為
其中,feva(i)表示評估函數(shù),i表示任意候選集成分類器,|i|為候選集成分類器中基分類器的個(gè)數(shù)即集成分類器的大小,supp(ci)為基分類器ci的支持度即此分類器能夠正確分類的比例,accu(ci)為基分類器的分類精度;
其中,基分類器的支持度為基分類器可以正確分類的樣本數(shù)與樣本總數(shù)的比值,其計(jì)算公式(b)為:
supp(ci)=r(ci)/d(b)
其中,supp(ci)表示基分類器ci的支持度,r(ci)為被基分類器正確分類的樣本數(shù),d為數(shù)據(jù)集d中的樣本總數(shù);
其中,分類精度表示基分類器能夠正確分類樣本的能力,其值等于分類器的支持度和樣本的分類強(qiáng)度的乘積;基分類器的支持度和樣本的分類強(qiáng)度越高,則該基分類器的分類精度越高,分類性能越好.其計(jì)算公式(c)為:
accu(ci)=stre(ci)×supp(ci)(c)
其中,accu(ci)為基分類器的分類精度;stre(ci)為基分類器ci的分類強(qiáng)度;supp(ci)表示基分類器ci的支持度;
其中,分類強(qiáng)度用來描述基分類器的分類能力;如果一個(gè)基分類器能夠正確分類的樣本普遍具有較大的平均分類難度,則稱該基分類器具有較高的分類強(qiáng)度,否則,稱該基分類器具有較低的分類強(qiáng)度,其計(jì)算公式(d)為:
其中,stre(ci)表示基分類器ci的分類強(qiáng)度,hard(di)為樣本di的分類難度,d為數(shù)據(jù)集中的樣本總數(shù);
其中,分類難度表示樣本被分類器正確分類的難易程度;如果一個(gè)樣本能夠被多數(shù)基分類器正確分類,則稱該樣本具有較小的分類難度,否則稱該樣本具有較大的分類難度.其計(jì)算公式(c)為:
hard(di)=1/(r(c)+1)(c)
其中,hard(di)表示樣本的分類難度,r(c)為能夠?qū)颖綿i正確分類的基分類器個(gè)數(shù)。
本發(fā)明的有益效果是:本發(fā)明可提高標(biāo)簽的準(zhǔn)確度。
附圖說明
圖1是本發(fā)明一具體實(shí)施方式的流程圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步說明:
如圖1所示,一種基于選擇性集成分類器的數(shù)據(jù)打標(biāo)簽方法,包括以下步驟:
1)生成數(shù)據(jù)訓(xùn)練集:從各個(gè)網(wǎng)站抓取工業(yè)商品詳細(xì)數(shù)據(jù),生成數(shù)據(jù)訓(xùn)練集,用于選擇性集成分類器的基礎(chǔ)數(shù)據(jù);
2)文本預(yù)處理:對文本進(jìn)行分詞,過濾停用詞,同義詞轉(zhuǎn)化,過濾高頻詞和低頻詞;
3)文本向量化:將文本轉(zhuǎn)化為向量的代數(shù)建模過程;
4)利用布爾矩陣存儲集成分類器對預(yù)處理的文本進(jìn)行分類;
5)從布爾矩陣中篩選出分類性能較好的基分類器構(gòu)成最終的集成分類器:根據(jù)各種基分類器的分類支持度、分類難度、分類強(qiáng)度、分類精準(zhǔn)度集成選擇性集成分類器;
6)建立標(biāo)簽庫:建立每個(gè)分類與標(biāo)簽的映射關(guān)系;
7)接收到選擇性集成分類器返回的分類結(jié)果,根據(jù)分類結(jié)果獲取分類的標(biāo)簽。
具體的,步驟5)按以下步驟實(shí)現(xiàn):
51)從訓(xùn)練集中訓(xùn)練基分類器,再以數(shù)據(jù)集中的樣本為行,基分類器為列,基分類器對樣本的分類結(jié)果為值來構(gòu)建分類布爾矩陣;其中基分類器按照分類精度排序,分類結(jié)果正確值為1,錯誤則為0;
52)計(jì)算行值數(shù)組,再從數(shù)組從取出重復(fù)次數(shù)最多的數(shù)值,將其對應(yīng)的基分類器添加到候選集成分類器中。當(dāng)重復(fù)次數(shù)一樣時(shí)取較大值;
53)將添加到候選集成分類器的分類器對應(yīng)的列置0;
54)候選集成分類器評估系統(tǒng):選擇具有最大評估值的候選集成分類器;評估函數(shù)主要集成分類器正確分類的樣本數(shù),基分類器的平均分類精度以及集成分類器的大小三個(gè)方面對候選集成分類器進(jìn)行評估,計(jì)算公式(a)為
其中,feva(i)表示評估函數(shù),i表示任意候選集成分類器,|i|為候選集成分類器中基分類器的個(gè)數(shù)即集成分類器的大小,supp(ci)為基分類器ci的支持度即此分類器能夠正確分類的比例,accu(ci)為基分類器的分類精度;
其中,基分類器的支持度為基分類器可以正確分類的樣本數(shù)與樣本總數(shù)的比值,其計(jì)算公式(b)為:
supp(ci)=r(ci)/d(b)
其中,supp(ci)表示基分類器ci的支持度,r(ci)為被基分類器正確分類的樣本數(shù),d為數(shù)據(jù)集d中的樣本總數(shù);
其中,分類精度表示基分類器能夠正確分類樣本的能力,其值等于分類器的支持度和樣本的分類強(qiáng)度的乘積;基分類器的支持度和樣本的分類強(qiáng)度越高,則該基分類器的分類精度越高,分類性能越好.其計(jì)算公式(c)為:
accu(ci)=stre(ci)×supp(ci)(c)
其中,accu(ci)為基分類器的分類精度;stre(ci)為基分類器ci的分類強(qiáng)度;supp(ci)表示基分類器ci的支持度;
其中,分類強(qiáng)度用來描述基分類器的分類能力;如果一個(gè)基分類器能夠正確分類的樣本普遍具有較大的平均分類難度,則稱該基分類器具有較高的分類強(qiáng)度,否則,稱該基分類器具有較低的分類強(qiáng)度,其計(jì)算公式(d)為:
其中,stre(ci)表示基分類器ci的分類強(qiáng)度,hard(di)為樣本di的分類難度,d為數(shù)據(jù)集中的樣本總數(shù);
其中,分類難度表示樣本被分類器正確分類的難易程度;如果一個(gè)樣本能夠被多數(shù)基分類器正確分類,則稱該樣本具有較小的分類難度,否則稱該樣本具有較大的分類難度.其計(jì)算公式(c)為:
hard(di)=1/(r(c)+1)(c)
其中,hard(di)表示樣本的分類難度,r(c)為能夠?qū)颖綿i正確分類的基分類器個(gè)數(shù)。
以上詳細(xì)描述了本發(fā)明的較佳具體實(shí)施例。應(yīng)當(dāng)理解,本領(lǐng)域的普通技術(shù)人員無需創(chuàng)造性勞動就可以根據(jù)本發(fā)明的構(gòu)思作出諸多修改和變化。因此,凡本技術(shù)領(lǐng)域中技術(shù)人員依本發(fā)明的構(gòu)思在現(xiàn)有技術(shù)的基礎(chǔ)上通過邏輯分析、推理或者有限的實(shí)驗(yàn)可以得到的技術(shù)方案,皆應(yīng)在由權(quán)利要求書所確定的保護(hù)范圍內(nèi)。