一種基于選擇性集成分類器的數(shù)據(jù)打標(biāo)簽方法與流程

文檔序號：11386598閱讀：223來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于數(shù)據(jù)分類技術(shù)領(lǐng)域，特別是涉及一種數(shù)據(jù)打標(biāo)簽的方法。

背景技術(shù)：

目前多數(shù)工業(yè)網(wǎng)站都有自有的分類標(biāo)簽體系，抓取這些網(wǎng)站的數(shù)據(jù)后，必須對標(biāo)簽進(jìn)行歸一化。標(biāo)簽的準(zhǔn)確性關(guān)系到后續(xù)搜索和推薦業(yè)務(wù)的效果。現(xiàn)有技術(shù)中，通常通過聚類算法這一單一的分類方法進(jìn)行打標(biāo)簽，從而導(dǎo)致打標(biāo)簽的準(zhǔn)確度不高。

因此本領(lǐng)域技術(shù)人員致力于開發(fā)一種準(zhǔn)確度更高的數(shù)據(jù)打標(biāo)簽方法。

技術(shù)實(shí)現(xiàn)要素：

有鑒于現(xiàn)有技術(shù)的上述缺陷，本發(fā)明所要解決的技術(shù)問題是提供一種準(zhǔn)確度更高的數(shù)據(jù)打標(biāo)簽方法。

為實(shí)現(xiàn)上述目的，本發(fā)明提供了一種基于選擇性集成分類器的數(shù)據(jù)打標(biāo)簽方法，包括以下步驟：

1)生成數(shù)據(jù)訓(xùn)練集：從各個(gè)網(wǎng)站抓取工業(yè)商品詳細(xì)數(shù)據(jù)，生成數(shù)據(jù)訓(xùn)練集，用于選擇性集成分類器的基礎(chǔ)數(shù)據(jù)；

2)文本預(yù)處理：對文本進(jìn)行分詞，過濾停用詞，同義詞轉(zhuǎn)化，過濾高頻詞和低頻詞；

3)文本向量化:將文本轉(zhuǎn)化為向量的代數(shù)建模過程；

4)利用布爾矩陣存儲集成分類器對預(yù)處理的文本進(jìn)行分類；

5)從布爾矩陣中篩選出分類性能較好的基分類器構(gòu)成最終的集成分類器：根據(jù)各種基分類器的分類支持度、分類難度、分類強(qiáng)度、分類精準(zhǔn)度集成選擇性集成分類器；

6)建立標(biāo)簽庫：建立每個(gè)分類與標(biāo)簽的映射關(guān)系；

7)接收到選擇性集成分類器返回的分類結(jié)果，根據(jù)分類結(jié)果獲取分類的標(biāo)簽。

較佳的，步驟4)按以下步驟實(shí)現(xiàn)：

51)從訓(xùn)練集中訓(xùn)練基分類器，再以數(shù)據(jù)集中的樣本為行，基分類器為列，基分類器對樣本的分類結(jié)果為值來構(gòu)建分類布爾矩陣；其中基分類器按照分類精度排序，分類結(jié)果正確值為1，錯誤則為0；

52)計(jì)算行值數(shù)組，再從數(shù)組從取出重復(fù)次數(shù)最多的數(shù)值，將其對應(yīng)的基分類器添加到候選集成分類器中。當(dāng)重復(fù)次數(shù)一樣時(shí)取較大值；

53)將添加到候選集成分類器的分類器對應(yīng)的列置0；

54)候選集成分類器評估系統(tǒng)：選擇具有最大評估值的候選集成分類器；評估函數(shù)主要集成分類器正確分類的樣本數(shù)，基分類器的平均分類精度以及集成分類器的大小三個(gè)方面對候選集成分類器進(jìn)行評估，計(jì)算公式(a)為

其中，feva(i)表示評估函數(shù)，i表示任意候選集成分類器，|i|為候選集成分類器中基分類器的個(gè)數(shù)即集成分類器的大小，supp(ci)為基分類器ci的支持度即此分類器能夠正確分類的比例，accu(ci)為基分類器的分類精度；

其中，基分類器的支持度為基分類器可以正確分類的樣本數(shù)與樣本總數(shù)的比值，其計(jì)算公式(b)為：

supp(ci)＝r(ci)/d(b)

其中,supp(ci)表示基分類器ci的支持度，r(ci)為被基分類器正確分類的樣本數(shù)，d為數(shù)據(jù)集d中的樣本總數(shù)；

其中，分類精度表示基分類器能夠正確分類樣本的能力，其值等于分類器的支持度和樣本的分類強(qiáng)度的乘積；基分類器的支持度和樣本的分類強(qiáng)度越高，則該基分類器的分類精度越高，分類性能越好.其計(jì)算公式(c)為：

accu(ci)＝stre(ci)×supp(ci)(c)

其中，accu(ci)為基分類器的分類精度；stre(ci)為基分類器ci的分類強(qiáng)度；supp(ci)表示基分類器ci的支持度；

其中，分類強(qiáng)度用來描述基分類器的分類能力；如果一個(gè)基分類器能夠正確分類的樣本普遍具有較大的平均分類難度，則稱該基分類器具有較高的分類強(qiáng)度，否則，稱該基分類器具有較低的分類強(qiáng)度,其計(jì)算公式(d)為：

其中，stre(ci)表示基分類器ci的分類強(qiáng)度,hard(di)為樣本di的分類難度,d為數(shù)據(jù)集中的樣本總數(shù)；

其中，分類難度表示樣本被分類器正確分類的難易程度；如果一個(gè)樣本能夠被多數(shù)基分類器正確分類，則稱該樣本具有較小的分類難度，否則稱該樣本具有較大的分類難度.其計(jì)算公式(c)為：

hard(di)＝1/(r(c)+1)(c)

其中,hard(di)表示樣本的分類難度，r(c)為能夠?qū)颖綿i正確分類的基分類器個(gè)數(shù)。

本發(fā)明的有益效果是：本發(fā)明可提高標(biāo)簽的準(zhǔn)確度。

附圖說明

圖1是本發(fā)明一具體實(shí)施方式的流程圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步說明：

如圖1所示，一種基于選擇性集成分類器的數(shù)據(jù)打標(biāo)簽方法，包括以下步驟：

2)文本預(yù)處理：對文本進(jìn)行分詞，過濾停用詞，同義詞轉(zhuǎn)化，過濾高頻詞和低頻詞；

3)文本向量化:將文本轉(zhuǎn)化為向量的代數(shù)建模過程；

4)利用布爾矩陣存儲集成分類器對預(yù)處理的文本進(jìn)行分類；

6)建立標(biāo)簽庫：建立每個(gè)分類與標(biāo)簽的映射關(guān)系；

7)接收到選擇性集成分類器返回的分類結(jié)果，根據(jù)分類結(jié)果獲取分類的標(biāo)簽。

具體的，步驟5)按以下步驟實(shí)現(xiàn)：

53)將添加到候選集成分類器的分類器對應(yīng)的列置0；

其中，基分類器的支持度為基分類器可以正確分類的樣本數(shù)與樣本總數(shù)的比值，其計(jì)算公式(b)為：

supp(ci)＝r(ci)/d(b)

其中,supp(ci)表示基分類器ci的支持度，r(ci)為被基分類器正確分類的樣本數(shù)，d為數(shù)據(jù)集d中的樣本總數(shù)；

accu(ci)＝stre(ci)×supp(ci)(c)

其中，accu(ci)為基分類器的分類精度；stre(ci)為基分類器ci的分類強(qiáng)度；supp(ci)表示基分類器ci的支持度；

其中，stre(ci)表示基分類器ci的分類強(qiáng)度,hard(di)為樣本di的分類難度,d為數(shù)據(jù)集中的樣本總數(shù)；

hard(di)＝1/(r(c)+1)(c)

其中,hard(di)表示樣本的分類難度，r(c)為能夠?qū)颖綿i正確分類的基分類器個(gè)數(shù)。

以上詳細(xì)描述了本發(fā)明的較佳具體實(shí)施例。應(yīng)當(dāng)理解，本領(lǐng)域的普通技術(shù)人員無需創(chuàng)造性勞動就可以根據(jù)本發(fā)明的構(gòu)思作出諸多修改和變化。因此，凡本技術(shù)領(lǐng)域中技術(shù)人員依本發(fā)明的構(gòu)思在現(xiàn)有技術(shù)的基礎(chǔ)上通過邏輯分析、推理或者有限的實(shí)驗(yàn)可以得到的技術(shù)方案，皆應(yīng)在由權(quán)利要求書所確定的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊旭川;張桂林
技術(shù)所有人：重慶允升科技有限公司
我是此專利的發(fā)明人

上一篇：電源濾波器的制造方法與工藝
上一篇：功率增強(qiáng)型濾波器的制造方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

選擇性集成相關(guān)技術(shù)

選擇性集成算法相關(guān)技術(shù)

集成分類器相關(guān)技術(shù)

選擇性數(shù)據(jù)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于選擇性集成分類器的數(shù)據(jù)打標(biāo)簽方法與流程