分類方法及裝置的制造方法
【專利說明】分類方法及裝置 【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機器學(xué)習(xí)技術(shù),尤其涉及一種分類方法及裝置。 【【背景技術(shù)】】
[0002] 在機器學(xué)習(xí)中,可以利用大量已知的訓(xùn)練樣本,構(gòu)建分類模型即分類器,進(jìn)而利用 所構(gòu)建的分類器對未知的數(shù)據(jù)進(jìn)行預(yù)測。分類器可以應(yīng)用在很多場景,例如,由于因網(wǎng)絡(luò) 作弊而產(chǎn)生的垃圾頁面越來越多,嚴(yán)重影響了搜索引擎的檢索效率和用戶體驗,因此,反作 弊已經(jīng)成為搜索引擎所面臨的最重要的挑戰(zhàn)之一,可以將利用已標(biāo)注的正常數(shù)據(jù)和作弊數(shù) 據(jù),構(gòu)建一個分類器,以對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行識別。現(xiàn)有技術(shù)中,可以利用所構(gòu)建的一個分類器, 對數(shù)據(jù)進(jìn)行預(yù)測,以獲得分類結(jié)果。
[0003] 然而,采用單一的分類器,其所預(yù)測的數(shù)據(jù)的分類結(jié)果的準(zhǔn)確率不高。 【
【發(fā)明內(nèi)容】
】
[0004] 本發(fā)明的多個方面提供一種分類方法及裝置,用以提高分類結(jié)果的準(zhǔn)確率。
[0005] 本發(fā)明的一方面,提供一種分類方法,包括:
[0006] 將待預(yù)測的數(shù)據(jù)分別輸入Μ個目標(biāo)分類器,以獲得所述Μ個目標(biāo)分類器中每個目 標(biāo)分類器所輸出的預(yù)測結(jié)果,Μ為大于或等于2的整數(shù),所述每個目標(biāo)分類器之間相互獨 立;
[0007] 根據(jù)所述每個目標(biāo)分類器所輸出的預(yù)測結(jié)果和所述每個目標(biāo)分類器的預(yù)測權(quán)重, 獲得所述數(shù)據(jù)的分類結(jié)果。
[0008] 如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述將待預(yù) 測的數(shù)據(jù)分別輸入Μ個目標(biāo)分類器,以獲得所述Μ個目標(biāo)分類器中每個目標(biāo)分類器所輸出 的預(yù)測結(jié)果之前,還包括:
[0009] 利用Μ個訓(xùn)練樣本集中每個訓(xùn)練樣本集,分別構(gòu)建1個目標(biāo)分類器,所述每個訓(xùn)練 樣本集中所包含的訓(xùn)練樣本不完全相同;或者
[0010] 利用1個訓(xùn)練樣本集,采用Μ個分類算法中每個分類算法,分別構(gòu)建1個目標(biāo)分類 器。
[0011] 如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述根據(jù)所 述每個目標(biāo)分類器所輸出的預(yù)測結(jié)果和所述每個目標(biāo)分類器的預(yù)測權(quán)重,獲得所述數(shù)據(jù)的 分類結(jié)果之前,還包括:
[0012] 根據(jù)所述每個目標(biāo)分類器的分類準(zhǔn)確率,獲得所述每個目標(biāo)分類器的第一權(quán)重 值;
[0013] 根據(jù)第一指定時間和所述每個目標(biāo)分類器的構(gòu)建時間,獲得所述每個目標(biāo)分類器 的第二權(quán)重值;
[0014] 根據(jù)所述第一權(quán)重值和所述第二權(quán)重值,獲得所述每個目標(biāo)分類器的預(yù)測權(quán)重。
[0015] 如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述將待預(yù) 測的數(shù)據(jù)分別輸入Μ個目標(biāo)分類器,以獲得所述Μ個目標(biāo)分類器中每個目標(biāo)分類器所輸出 的預(yù)測結(jié)果之前,還包括:
[0016] 確定待更新的Ν個候選分類器,Ν為大于或等于Μ的整數(shù);
[0017] 根據(jù)所述Ν個候選分類器中每個候選分類器的分類準(zhǔn)確率,獲得所述每個候選分 類器的第三權(quán)重值;
[0018] 根據(jù)第二指定時間和所述每個候選分類器的構(gòu)建時間,獲得所述每個候選分類器 的第四權(quán)重值;
[0019] 根據(jù)所述第三權(quán)重值和/或所述第四權(quán)重值,從所述Ν個候選分類器中刪除Ρ個 候選分類器,以獲得所述Μ個目標(biāo)分類器,Ρ為大于或等于1,且小于或等于Ν-2的整數(shù)。
[0020] 如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述將待預(yù) 測的數(shù)據(jù)分別輸入Μ個目標(biāo)分類器,以獲得所述Μ個目標(biāo)分類器中每個目標(biāo)分類器所輸出 的預(yù)測結(jié)果之前,還包括:
[0021] 確定所構(gòu)建的1個新的候選分類器;
[0022] 根據(jù)所述新的候選分類器的分類準(zhǔn)確率,獲得所述新的候選分類器的第五權(quán)重 值;
[0023] 根據(jù)第三指定時間和所述新的候選分類器的構(gòu)建時間,獲得所述每個候選分類器 的第六權(quán)重值;
[0024] 根據(jù)所述第五權(quán)重值和/或所述第六權(quán)重值,將待更新的Q個候選分類器與所述 新的候選分類器,作為所述Μ個目標(biāo)分類器。
[0025] 本發(fā)明的另一方面,提供一種分類裝置,包括:
[0026] 分類單元,用于將待預(yù)測的數(shù)據(jù)分別輸入Μ個目標(biāo)分類器,以獲得所述Μ個目標(biāo)分 類器中每個目標(biāo)分類器所輸出的預(yù)測結(jié)果,Μ為大于或等于2的整數(shù),所述每個目標(biāo)分類器 之間相互獨立;
[0027] 處理單元,用于根據(jù)所述每個目標(biāo)分類器所輸出的預(yù)測結(jié)果和所述每個目標(biāo)分類 器的預(yù)測權(quán)重,獲得所述數(shù)據(jù)的分類結(jié)果。
[0028] 如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述裝置還 包括構(gòu)建單元,用于
[0029] 利用Μ個訓(xùn)練樣本集中每個訓(xùn)練樣本集,分別構(gòu)建1個目標(biāo)分類器,所述每個訓(xùn)練 樣本集中所包含的訓(xùn)練樣本不完全相同;或者
[0030] 利用1個訓(xùn)練樣本集,采用Μ個分類算法中每個分類算法,分別構(gòu)建1個目標(biāo)分類 器。
[0031] 如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述處理單 元,還用于
[0032] 根據(jù)所述每個目標(biāo)分類器的分類準(zhǔn)確率,獲得所述每個目標(biāo)分類器的第一權(quán)重 值;
[0033] 根據(jù)第一指定時間和所述每個目標(biāo)分類器的構(gòu)建時間,獲得所述每個目標(biāo)分類器 的第二權(quán)重值;以及
[0034] 根據(jù)所述第一權(quán)重值和所述第二權(quán)重值,獲得所述每個目標(biāo)分類器的預(yù)測權(quán)重。
[0035] 如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述裝置還 包括第一更新單元,用于
[0036] 確定待更新的N個候選分類器,N為大于或等于Μ的整數(shù);
[0037] 根據(jù)所述Ν個候選分類器中每個候選分類器的分類準(zhǔn)確率,獲得所述每個候選分 類器的第三權(quán)重值;
[0038] 根據(jù)第二指定時間和所述每個候選分類器的構(gòu)建時間,獲得所述每個候選分類器 的第四權(quán)重值;以及
[0039] 根據(jù)所述第三權(quán)重值和/或所述第四權(quán)重值,從所述Ν個候選分類器中刪除Ρ個 候選分類器,以獲得所述Μ個目標(biāo)分類器,Ρ為大于或等于1,且小于或等于Ν-2的整數(shù)。
[0040] 如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述裝置還 包括第二更新單元,用于
[0041] 確定所構(gòu)建的1個新的候選分類器;
[0042] 根據(jù)所述新的候選分類器的分類準(zhǔn)確率,獲得所述新的候選分類器的第五權(quán)重 值;
[0043] 根據(jù)第三指定時間和所述新的候選分類器的構(gòu)建時間,獲得所述每個候選分類器 的第六權(quán)重值;以及
[0044] 根據(jù)所述第五權(quán)重值和/或所述第六權(quán)重值,將待更新的Q個候選分類器與所述 新的候選分類器,作為所述Μ個目標(biāo)分類器。
[0045] 由上述技術(shù)方案可知,本發(fā)明實施例通過將待預(yù)測的數(shù)據(jù)分別輸入Μ個目標(biāo)分類 器,以獲得所述Μ個目標(biāo)分類器中每個目標(biāo)分類器所輸出的預(yù)測結(jié)果,Μ為大于或等于2的 整數(shù),所述每個目標(biāo)分類器之間相互獨立,使得能夠根據(jù)所述每個目標(biāo)分類器所輸出的預(yù) 測結(jié)果和所述每個目標(biāo)分類器的預(yù)測權(quán)重,獲得所述數(shù)據(jù)的分類結(jié)果,由于Μ個目標(biāo)分類 器中每個目標(biāo)分類器之間是相互獨立的,使得能夠充分利用每個目標(biāo)分類器的分類能力得 到數(shù)據(jù)的分類結(jié)果,從而提高了分類結(jié)果的準(zhǔn)確率。
[0046] 另外,采用本發(fā)明提供的技術(shù)方案,采用本發(fā)明提供的技術(shù)方案,使得數(shù)據(jù)的分類 結(jié)果不再單獨依賴于任何一個目標(biāo)分類器的預(yù)測結(jié)果,而是綜合考慮Μ個目標(biāo)分類器中每 個目標(biāo)分類器的預(yù)測結(jié)果,這樣,能夠有效提高分類結(jié)果的準(zhǔn)確率。
[0047] 另外,采用本發(fā)明提供的技術(shù)方案,采用本發(fā)明提供的技術(shù)方案,通過動態(tài)更新候 選分類器的數(shù)量,即刪除不滿足分類需求的候選分類器,或者增加新的候選分類器,以獲得 能夠正常工作的分類系統(tǒng)即Μ個目標(biāo)分類器,這樣,能夠避免現(xiàn)有技術(shù)中由于利用重新標(biāo) 注的訓(xùn)練樣本重新構(gòu)建目標(biāo)分類器替換原來的目標(biāo)分類器而導(dǎo)致的無法充分利用原來的 目標(biāo)分類器的問題,能夠有效提高目標(biāo)分類器的利用率。 【【附圖說明】】
[0048] 為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述 中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實 施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附 圖獲得其他的附圖。
[0049] 圖1為本發(fā)明一實施例提供的分類方法的流程示意圖;
[0050] 圖2為本發(fā)明另一實施例提供的分類裝置的結(jié)構(gòu)示意圖;
[0051] 圖3為本發(fā)明另一實施例提供的分類裝置的結(jié)構(gòu)示意圖;
[0052] 圖4為本發(fā)明另一實施例提供的分類裝置的結(jié)構(gòu)示意圖;
[0053] 圖5為本發(fā)明另一實施例提供的分類裝置的結(jié)構(gòu)示意圖。 【【具體實施方式】】
[0054] 為使本發(fā)明實施例的目的、技