本公開涉及數(shù)據(jù)處理領(lǐng)域,具體地,涉及一種數(shù)據(jù)分類的方法和裝置。
背景技術(shù):
風(fēng)能作為最具規(guī)模開發(fā)潛力的可再生新能源,近年來發(fā)展十分迅速,但是,當(dāng)風(fēng)力發(fā)電機(jī)的某些部件發(fā)生異常時(shí),使得風(fēng)力發(fā)電機(jī)的實(shí)際發(fā)電量無法達(dá)到目標(biāo)發(fā)電量(即風(fēng)力發(fā)電廠給風(fēng)力發(fā)電機(jī)下達(dá)的發(fā)電量),從而造成限功率。
為了解決這種情況,可以通過采集風(fēng)力發(fā)電機(jī)的工作數(shù)據(jù),并通過已知的限功率數(shù)據(jù)和非限功率數(shù)據(jù)對(duì)采集的工作數(shù)據(jù)進(jìn)行分類,以確定該工作數(shù)據(jù)是造成限功率的限功率數(shù)據(jù)還是未造成限功率的非限功率數(shù)據(jù),并根據(jù)分類結(jié)果確定會(huì)造成限功率的工作數(shù)據(jù),從而調(diào)整風(fēng)力發(fā)電機(jī)的工作數(shù)據(jù),以避免限功率的發(fā)生。現(xiàn)有的分類方法包括獲取未確定分類結(jié)果的待分類數(shù)據(jù)以及已知分類結(jié)果的數(shù)據(jù)分類樣本(即限功率數(shù)據(jù)和非限功率數(shù)據(jù)),并將數(shù)據(jù)分類樣本代入svm(supportvectormachine,支持向量機(jī))模型中進(jìn)行訓(xùn)練得到訓(xùn)練后的分類模型,通過該訓(xùn)練后的分類模型對(duì)待分類數(shù)據(jù)進(jìn)行分類得到初始分類結(jié)果,為了提高初始分類結(jié)果的準(zhǔn)確率,進(jìn)一步采用tsvm(transductivesupportvectormachine,直推支持向量機(jī))方法根據(jù)預(yù)先為該待分類數(shù)據(jù)設(shè)置的分類權(quán)重對(duì)初始分類結(jié)果不斷進(jìn)行迭代,直至迭代后得到的分類結(jié)果對(duì)應(yīng)的目標(biāo)分類權(quán)重滿足預(yù)設(shè)分類終止條件,從而提高分類結(jié)果的準(zhǔn)確率。
但是,在對(duì)初始分類結(jié)果不斷迭代的過程中,當(dāng)分類結(jié)果中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時(shí),會(huì)使得即使分類錯(cuò)誤,該目標(biāo)分類權(quán)重也會(huì)滿足預(yù)設(shè)分類終止條件,例如,若采集到的風(fēng)力發(fā)電機(jī)的工作數(shù)據(jù)共有100個(gè),其中限功率數(shù)據(jù)包含的數(shù)據(jù)的第一數(shù)量為95個(gè),非限功率數(shù)據(jù)包含的數(shù)據(jù)的第二數(shù)量為5個(gè),那么即使將該另一類數(shù)據(jù)全部錯(cuò)誤劃分到該一類數(shù)據(jù)中,該數(shù)據(jù)分類結(jié)果的正確率也達(dá)到了95%(但實(shí)際分類是錯(cuò)誤的),因此,采用上述分類方式在第一數(shù)量和第二數(shù)量相差較大時(shí),數(shù)據(jù)分類結(jié)果仍然存在分類錯(cuò)誤的數(shù)據(jù)。
技術(shù)實(shí)現(xiàn)要素:
為克服相關(guān)技術(shù)中存在的問題,本公開提供一種數(shù)據(jù)分類的方法和裝置。
根據(jù)本公開實(shí)施例的第一方面,提供一種數(shù)據(jù)分類的方法,所述方法包括:獲取待分類數(shù)據(jù)以及已知分類結(jié)果的數(shù)據(jù)分類樣本;根據(jù)所述數(shù)據(jù)分類樣本對(duì)所述待分類數(shù)據(jù)進(jìn)行分類得到第一分類結(jié)果;獲取所述數(shù)據(jù)分類樣本的第一分類權(quán)重和所述待分類數(shù)據(jù)的第二分類權(quán)重,其中,所述第一分類權(quán)重表示所述數(shù)據(jù)分類樣本的分類結(jié)果的置信度,所述第二分類權(quán)重表示所述待分類數(shù)據(jù)的分類結(jié)果的置信度;根據(jù)所述第二分類權(quán)重得到對(duì)應(yīng)所述第一分類結(jié)果的第三分類權(quán)重和第四分類權(quán)重;根據(jù)所述第三分類權(quán)重和所述第四分類權(quán)重得到目標(biāo)分類權(quán)重;在所述目標(biāo)分類權(quán)重和所述第一分類權(quán)重滿足預(yù)設(shè)分類終止條件時(shí),確定分類完成。
可選地,所述第一分類結(jié)果包括第一類數(shù)據(jù)和第二類數(shù)據(jù),在所述根據(jù)所述第二分類權(quán)重得到對(duì)應(yīng)所述第一分類結(jié)果的第三分類權(quán)重和第四分類權(quán)重前,所述方法還包括:獲取所述第一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量和所述第二類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量;計(jì)算所述第一數(shù)量和所述第二數(shù)量之間的和值;所述根據(jù)所述第二分類權(quán)重得到對(duì)應(yīng)所述第一分類結(jié)果的第三分類權(quán)重和第四分類權(quán)重包括:根據(jù)所述和值以及第二分類權(quán)重得到所述第一類數(shù)據(jù)對(duì)應(yīng)的第三分類權(quán)重和所述第二類數(shù)據(jù)對(duì)應(yīng)的第四分類權(quán)重。
可選地,所述根據(jù)所述和值以及第二分類權(quán)重得到所述第一類數(shù)據(jù)對(duì)應(yīng)的第三分類權(quán)重和所述第二類數(shù)據(jù)對(duì)應(yīng)的第四分類權(quán)重包括:
通過以下公式獲取所述第三分類權(quán)重:
其中,
通過以下公式獲取所述第四分類權(quán)重:
其中,
可選地,在所述根據(jù)所述第三分類權(quán)重和所述第四分類權(quán)重得到目標(biāo)分類權(quán)重前,所述方法還包括:計(jì)算所述第一數(shù)量和所述第二數(shù)量之間的差值;確定所述差值是否大于或者等于0;所述根據(jù)所述第三分類權(quán)重和所述第四分類權(quán)重得到目標(biāo)分類權(quán)重包括:在所述差值大于或者等于0時(shí),通過以下公式得到所述目標(biāo)分類權(quán)重:
其中,
在所述差值小于0時(shí),通過以下公式得到所述目標(biāo)分類權(quán)重:
其中,
可選地,所述預(yù)設(shè)分類終止條件包括:根據(jù)所述目標(biāo)分類權(quán)重得到的第五分類權(quán)重大于或者等于所述第一分類權(quán)重,所述第五分類權(quán)重為所述目標(biāo)分類權(quán)重與預(yù)設(shè)參數(shù)的乘積,所述預(yù)設(shè)參數(shù)為大于1的數(shù)值。
可選地,所述方法還包括:在所述目標(biāo)分類權(quán)重和所述第一分類權(quán)重不滿足所述預(yù)設(shè)分類終止條件時(shí),將所述第五分類權(quán)重替換所述第二分類權(quán)重,并繼續(xù)根據(jù)所述第五分類權(quán)重對(duì)所述第一分類結(jié)果進(jìn)行重新分類得到第二分類結(jié)果,并根據(jù)所述第五分類權(quán)重得到對(duì)應(yīng)所述第二分類結(jié)果的第六分類權(quán)重和第七分類權(quán)重,根據(jù)所述第六分類權(quán)重和所述第七分類權(quán)重得到新的目標(biāo)分類權(quán)重,直至所述新的目標(biāo)分類權(quán)重和所述第一分類權(quán)重滿足預(yù)設(shè)分類終止條件。
根據(jù)本公開實(shí)施例的第二方面,提供一種數(shù)據(jù)分類的裝置,所述裝置包括:第一獲取模塊,用于獲取待分類數(shù)據(jù)以及已知分類結(jié)果的數(shù)據(jù)分類樣本;分類模塊,用于根據(jù)所述數(shù)據(jù)分類樣本對(duì)所述待分類數(shù)據(jù)進(jìn)行分類得到第一分類結(jié)果;第二獲取模塊,用于獲取所述數(shù)據(jù)分類樣本的第一分類權(quán)重和所述待分類數(shù)據(jù)的第二分類權(quán)重,其中,所述第一分類權(quán)重表示所述數(shù)據(jù)分類樣本的分類結(jié)果的置信度,所述第二分類權(quán)重表示所述待分類數(shù)據(jù)的分類結(jié)果的置信度;第三獲取模塊,用于根據(jù)所述第二分類權(quán)重得到對(duì)應(yīng)所述第一分類結(jié)果的第三分類權(quán)重和第四分類權(quán)重;第四獲取模塊,用于根據(jù)所述第三分類權(quán)重和所述第四分類權(quán)重得到目標(biāo)分類權(quán)重;第一確定模塊,用于在所述目標(biāo)分類權(quán)重和所述第一分類權(quán)重滿足預(yù)設(shè)分類終止條件時(shí),確定分類完成。
可選地,所述第一分類結(jié)果包括第一類數(shù)據(jù)和第二類數(shù)據(jù),所述裝置還包括:第五獲取模塊,用于獲取所述第一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量和所述第二類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量;第一計(jì)算模塊,用于計(jì)算所述第一數(shù)量和所述第二數(shù)量之間的和值;所述第三獲取模塊,用于根據(jù)所述和值以及第二分類權(quán)重得到所述第一類數(shù)據(jù)對(duì)應(yīng)的第三分類權(quán)重和所述第二類數(shù)據(jù)對(duì)應(yīng)的第四分類權(quán)重。
可選地,所述第三獲取模塊,還用于通過以下公式獲取所述第三分類權(quán)重:
其中,
通過以下公式獲取所述第四分類權(quán)重:
其中,
可選地,所述裝置還包括:第二計(jì)算模塊,用于計(jì)算所述第一數(shù)量和所述第二數(shù)量之間的差值;第二確定模塊,用于確定所述差值是否大于或者等于0;該第四獲取模塊,用于在所述差值大于或者等于0時(shí),通過以下公式得到所述目標(biāo)分類權(quán)重:
其中,
在所述差值小于0時(shí),通過以下公式得到所述目標(biāo)分類權(quán)重:
其中,
可選地,所述預(yù)設(shè)分類終止條件包括:根據(jù)所述目標(biāo)分類權(quán)重得到的第五分類權(quán)重大于或者等于所述第一分類權(quán)重,所述第五分類權(quán)重為所述目標(biāo)分類權(quán)重與預(yù)設(shè)參數(shù)的乘積,所述預(yù)設(shè)參數(shù)為大于1的數(shù)值。
可選地,所述裝置還包括:循環(huán)模塊,用于在所述目標(biāo)分類權(quán)重和所述第一分類權(quán)重不滿足所述預(yù)設(shè)分類終止條件時(shí),將所述第五分類權(quán)重替換所述第二分類權(quán)重,并繼續(xù)根據(jù)所述第五分類權(quán)重對(duì)所述第一分類結(jié)果進(jìn)行重新分類得到第二分類結(jié)果,并根據(jù)所述第五分類權(quán)重得到對(duì)應(yīng)所述第二分類結(jié)果的第六分類權(quán)重和第七分類權(quán)重,根據(jù)所述第六分類權(quán)重和所述第七分類權(quán)重得到新的目標(biāo)分類權(quán)重,直至所述新的目標(biāo)分類權(quán)重和所述第一分類權(quán)重滿足預(yù)設(shè)分類終止條件。
通過上述技術(shù)方案,可以獲取待分類數(shù)據(jù)以及已知分類結(jié)果的數(shù)據(jù)分類樣本,根據(jù)該數(shù)據(jù)分類樣本對(duì)該待分類數(shù)據(jù)進(jìn)行分類得到第一分類結(jié)果,獲取該數(shù)據(jù)分類樣本的第一分類權(quán)重和該待分類數(shù)據(jù)的第二分類權(quán)重,根據(jù)該第二分類權(quán)重得到對(duì)應(yīng)該第一分類結(jié)果的第三分類權(quán)重和第四分類權(quán)重,根據(jù)該第三分類權(quán)重和該第四分類權(quán)重得到目標(biāo)分類權(quán)重;在該目標(biāo)分類權(quán)重和該第一分類權(quán)重滿足預(yù)設(shè)分類終止條件時(shí),確定分類完成,這樣,若在分類后的第一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與第二類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時(shí),可以通過第一類數(shù)據(jù)對(duì)應(yīng)的第三分類權(quán)重和第二類數(shù)據(jù)對(duì)應(yīng)的第四分類數(shù)據(jù)得到目標(biāo)分類權(quán)重,從而均衡考慮了不同分類結(jié)果對(duì)目標(biāo)分類權(quán)重的影響,避免了在分類結(jié)果中其中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時(shí),數(shù)量較多的數(shù)據(jù)在迭代過程中對(duì)目標(biāo)分類權(quán)重影響較大,而造成在目標(biāo)分類權(quán)重滿足預(yù)設(shè)分類終止條件時(shí),數(shù)據(jù)分類結(jié)果仍然存在分類錯(cuò)誤的數(shù)據(jù)。
本公開的其他特征和優(yōu)點(diǎn)將在隨后的具體實(shí)施方式部分予以詳細(xì)說明。
附圖說明
附圖是用來提供對(duì)本公開的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與下面的具體實(shí)施方式一起用于解釋本公開,但并不構(gòu)成對(duì)本公開的限制。在附圖中:
圖1是根據(jù)一示例性實(shí)施例示出的一種數(shù)據(jù)分類的方法的流程圖;
圖2是根據(jù)一示例性實(shí)施例示出的另一種數(shù)據(jù)分類的方法的流程圖;
圖3是根據(jù)一示例性實(shí)施例示出的一種數(shù)據(jù)分類的方法的示意圖;
圖4是根據(jù)一示例性實(shí)施例示出的一種基于數(shù)據(jù)分類的方法構(gòu)建的決策樹的示意圖;
圖5是根據(jù)一示例性實(shí)施例示出的第一種數(shù)據(jù)分類的裝置的框圖;
圖6是根據(jù)一示例性實(shí)施例示出的第二種數(shù)據(jù)分類的裝置的框圖;
圖7是根據(jù)一示例性實(shí)施例示出的第三種數(shù)據(jù)分類的裝置的框圖;
圖8是根據(jù)一示例性實(shí)施例示出的第四種數(shù)據(jù)分類的裝置的框圖。
具體實(shí)施方式
以下結(jié)合附圖對(duì)本公開的具體實(shí)施方式進(jìn)行詳細(xì)說明。應(yīng)當(dāng)理解的是,此處所描述的具體實(shí)施方式僅用于說明和解釋本公開,并不用于限制本公開。
本公開可以應(yīng)用于數(shù)據(jù)分類的場(chǎng)景,在該場(chǎng)景下,采集用于分類的工作數(shù)據(jù),該用于分類的工作數(shù)據(jù)可以包括已知分類結(jié)果的數(shù)據(jù)分類樣本和未確定分類結(jié)果的待分類數(shù)據(jù),并根據(jù)數(shù)據(jù)分類樣本對(duì)待分類數(shù)據(jù)進(jìn)行分類,示例地,在風(fēng)力發(fā)電領(lǐng)域中,數(shù)據(jù)分類樣本包括已經(jīng)確定是否會(huì)造成風(fēng)力發(fā)電機(jī)限功率的工作數(shù)據(jù),如限功率數(shù)據(jù)和非限功率數(shù)據(jù),而待分類數(shù)據(jù)可以包括還未確定是否會(huì)造成風(fēng)力發(fā)電機(jī)限功率的工作數(shù)據(jù),例如,若采集的工作數(shù)據(jù)包括變頻器發(fā)電機(jī)側(cè)功率為1375w,發(fā)電機(jī)轉(zhuǎn)矩為1240n·m,1號(hào)葉片角度為1.9,超速傳感器轉(zhuǎn)速為12.9m/s,發(fā)電機(jī)定子溫度為86度,機(jī)艙氣象站風(fēng)速為8.9m/s,輪轂轉(zhuǎn)速為12m/s,在確定該工作數(shù)據(jù)造成風(fēng)力發(fā)電機(jī)限功率時(shí),則確定該工作數(shù)據(jù)為限功率數(shù)據(jù);又如,若采集的工作數(shù)據(jù)包括變頻器發(fā)電機(jī)側(cè)功率為1380w,發(fā)電機(jī)轉(zhuǎn)矩為1260n·m,1號(hào)葉片角度為2.3,超速傳感器轉(zhuǎn)速為14m/s,發(fā)電機(jī)定子溫度為82度,機(jī)艙氣象站風(fēng)速為8.6m/s,輪轂轉(zhuǎn)速為11m/s,在確定該工作數(shù)據(jù)未造成風(fēng)力發(fā)電機(jī)限功率時(shí),則確定該工作數(shù)據(jù)為非限功率數(shù)據(jù),上述變頻器發(fā)電機(jī)側(cè)功率、發(fā)電機(jī)轉(zhuǎn)矩、1號(hào)葉片角度和超速傳感器轉(zhuǎn)速以及發(fā)電機(jī)定子溫度、機(jī)艙氣象站風(fēng)速和輪轂轉(zhuǎn)速即為數(shù)據(jù)特征,這樣,當(dāng)采集到待分類數(shù)據(jù)時(shí),可通過上述限功率數(shù)據(jù)和非限功率數(shù)據(jù)對(duì)該待分類數(shù)據(jù)進(jìn)行分類,從而確定該待分類數(shù)據(jù)為限功率數(shù)據(jù),還是為非限功率數(shù)據(jù),上述示例只是舉例說明,本公開對(duì)此不作限定。
現(xiàn)有技術(shù)在數(shù)據(jù)分類的過程中,在數(shù)據(jù)初始分類完成后,通過待分類數(shù)據(jù)的分類權(quán)重(本公開中為第二分類權(quán)重)對(duì)初始分類結(jié)果(本公開中為第一分類結(jié)果)進(jìn)行迭代,并得到迭代后的分類結(jié)果對(duì)應(yīng)的目標(biāo)分類權(quán)重,該目標(biāo)分類權(quán)重表示對(duì)待分類數(shù)據(jù)的初始分類結(jié)果進(jìn)行迭代后得到的分類結(jié)果的置信度,當(dāng)目標(biāo)分類權(quán)重滿足預(yù)設(shè)分類終止條件時(shí),確定迭代完成,進(jìn)而確定分類完成,但是,當(dāng)分類結(jié)果中其中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時(shí),則確定數(shù)量較多的數(shù)據(jù)的分類結(jié)果的可信程度更高,使得目標(biāo)分類權(quán)重會(huì)偏向該數(shù)量較多的數(shù)據(jù)的分類結(jié)果,造成數(shù)量較少的數(shù)據(jù)的分類結(jié)果的可信程度對(duì)目標(biāo)分類權(quán)重的影響較小,導(dǎo)致迭代完成后的分類結(jié)果的可信程度更接近數(shù)量較多的數(shù)據(jù)的分類結(jié)果的可信程度(即數(shù)量較多的數(shù)據(jù)的分類結(jié)果對(duì)目標(biāo)分類權(quán)重的影響較大),從而使得在分類完成后,分類結(jié)果中仍然存在分類錯(cuò)誤的數(shù)據(jù)。
為了解決上述問題,本公開提供一種數(shù)據(jù)分類的方法和裝置,能夠?qū)⒌诙诸悪?quán)重按照初始分類結(jié)果進(jìn)行劃分得到第三分類權(quán)重和第四分類權(quán)重,并根據(jù)第三分類權(quán)重和第四分類權(quán)重得到目標(biāo)分類權(quán)重,從而均衡考慮了不同分類結(jié)果對(duì)目標(biāo)分類權(quán)重的影響,避免了在分類結(jié)果中其中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時(shí),數(shù)量較多的數(shù)據(jù)在迭代過程中對(duì)目標(biāo)分類權(quán)重影響較大,而造成在目標(biāo)分類權(quán)重滿足預(yù)設(shè)分類終止條件時(shí),數(shù)據(jù)分類結(jié)果仍然存在分類錯(cuò)誤的數(shù)據(jù)。
下面通過具體實(shí)施例對(duì)本公開提供的數(shù)據(jù)分類方法進(jìn)行詳細(xì)說明。
圖1是根據(jù)一示例性實(shí)施例示出的一種數(shù)據(jù)分類的方法的流程圖,如圖1所示,該方法包括以下步驟:
s101,獲取待分類數(shù)據(jù)以及已知分類結(jié)果的數(shù)據(jù)分類樣本。
示例地,以風(fēng)力發(fā)電領(lǐng)域中的限功率數(shù)據(jù)和非限功率數(shù)據(jù)為例,當(dāng)采集到的工作數(shù)據(jù)包括變頻器發(fā)電機(jī)側(cè)功率為1375w,發(fā)電機(jī)轉(zhuǎn)矩為1240n·m,1號(hào)葉片角度為1.9,超速傳感器轉(zhuǎn)速為12.9m/s,發(fā)電機(jī)定子溫度為86度,機(jī)艙氣象站風(fēng)速為8.9m/s,輪轂轉(zhuǎn)速為12m/s時(shí),若確定該工作數(shù)據(jù)會(huì)造成風(fēng)力發(fā)電機(jī)限功率,則該工作數(shù)據(jù)為限功率數(shù)據(jù)(相當(dāng)于數(shù)據(jù)分類樣本);當(dāng)采集到的工作數(shù)據(jù)包括變頻器發(fā)電機(jī)側(cè)功率為1380w,發(fā)電機(jī)轉(zhuǎn)矩為1260n·m,1號(hào)葉片角度為2.3,超速傳感器轉(zhuǎn)速為14m/s,發(fā)電機(jī)定子溫度為82度,機(jī)艙氣象站風(fēng)速為8.6m/s,輪轂轉(zhuǎn)速為11m/s時(shí),若確定該工作數(shù)據(jù)未造成風(fēng)力發(fā)電機(jī)限功率,則該工作數(shù)據(jù)為非限功率數(shù)據(jù)(相當(dāng)于數(shù)據(jù)分類樣本);若采集到的工作數(shù)據(jù)為還未確定是否會(huì)造成風(fēng)力發(fā)電機(jī)限功率的工作數(shù)據(jù),則該工作數(shù)據(jù)為待分類數(shù)據(jù)。
s102,根據(jù)該數(shù)據(jù)分類樣本對(duì)該待分類數(shù)據(jù)進(jìn)行分類得到第一分類結(jié)果。
在本步驟中,將數(shù)據(jù)分類樣本代入svm模型中進(jìn)行訓(xùn)練得到訓(xùn)練后的分類模型,通過該訓(xùn)練后的分類模型對(duì)待分類數(shù)據(jù)進(jìn)行初始分類得到第一分類結(jié)果,其中,svm模型是一種二類分類模型,其模型可以定義為空間上的間隔最大的線性分類器。
s103,獲取該數(shù)據(jù)分類樣本的第一分類權(quán)重和該待分類數(shù)據(jù)的第二分類權(quán)重。
在本步驟中,該第一分類權(quán)重與該第二分類權(quán)重都是預(yù)先設(shè)置的,該第一分類權(quán)重表示該數(shù)據(jù)分類樣本的分類結(jié)果的置信度,該第二分類權(quán)重表示該待分類數(shù)據(jù)的分類結(jié)果的置信度,其中,該置信度表示數(shù)據(jù)的分類結(jié)果的可信程度,即該置信度越大,則該數(shù)據(jù)的分類結(jié)果越可信,反之,該置信度越小,則該數(shù)據(jù)的分類結(jié)果越不可信。
需要說明的是,由于該數(shù)據(jù)分類樣本為已知分類結(jié)果的數(shù)據(jù),則該數(shù)據(jù)分類樣本的分類結(jié)果的可信程度較高,所以可以將第一分類權(quán)重設(shè)置的較大,而該待分類數(shù)據(jù)為未確定分類結(jié)果的數(shù)據(jù),因此,該待分類數(shù)據(jù)的分類結(jié)果的可信程度較低,所以可以將該第二分類權(quán)重設(shè)置為一個(gè)小于該第一分類權(quán)重的較小值。
s104,根據(jù)該第二分類權(quán)重得到對(duì)應(yīng)該第一分類結(jié)果的第三分類權(quán)重和第四分類權(quán)重。
其中,該第一分類結(jié)果可以包括第一類數(shù)據(jù)和第二類數(shù)據(jù),在本步驟中,獲取該第一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量和該第二類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量,這樣,可以按照該第一數(shù)量和該第二數(shù)量之間的比值將該第二分類權(quán)重分成該第一類數(shù)據(jù)對(duì)應(yīng)的第三分類權(quán)重和該第二類數(shù)據(jù)對(duì)應(yīng)的第四分類權(quán)重。
s105,根據(jù)該第三分類權(quán)重和該第四分類權(quán)重得到目標(biāo)分類權(quán)重。
在本步驟中,若該第一數(shù)量與該第二數(shù)量之間的差值大于或者等于0,則根據(jù)預(yù)設(shè)權(quán)重函數(shù)調(diào)整該第三分類權(quán)重,該目標(biāo)分類權(quán)重即為該第四分類權(quán)重與調(diào)整后的第三分類權(quán)重的和值;若該第一數(shù)量與該第二數(shù)量之間的差值小于0,則根據(jù)預(yù)設(shè)權(quán)重函數(shù)調(diào)整該第四分類權(quán)重,該目標(biāo)分類權(quán)重即為該第三分類權(quán)重與調(diào)整后的第四分類權(quán)重的和值。
這樣,通過調(diào)整數(shù)量較多的數(shù)據(jù)對(duì)應(yīng)的分類權(quán)重,從而均衡不同分類結(jié)果對(duì)目標(biāo)分類權(quán)重的影響,避免了數(shù)量較多的數(shù)據(jù)對(duì)目標(biāo)分類權(quán)重的影響較大,造成在分類完成后,仍然存在分類錯(cuò)誤的問題。
s106,在該目標(biāo)分類權(quán)重和該第一分類權(quán)重滿足預(yù)設(shè)分類終止條件時(shí),確定分類完成。
采用上述方法,能夠?qū)⒌诙诸悪?quán)重按照初始分類結(jié)果進(jìn)行劃分得到第三分類權(quán)重和第四分類權(quán)重,并根據(jù)第三分類權(quán)重和第四分類權(quán)重得到目標(biāo)分類權(quán)重,從而均衡考慮了不同分類結(jié)果對(duì)目標(biāo)分類權(quán)重的影響,避免了在分類結(jié)果中其中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時(shí),數(shù)量較多的數(shù)據(jù)在迭代過程中對(duì)目標(biāo)分類權(quán)重影響較大,而造成在目標(biāo)分類權(quán)重滿足預(yù)設(shè)分類終止條件時(shí),數(shù)據(jù)分類結(jié)果仍然存在分類錯(cuò)誤的數(shù)據(jù)。
圖2是根據(jù)一示例性實(shí)施例示出的一種數(shù)據(jù)分類的方法的流程圖,如圖2所示,該方法包括以下步驟:
s201,獲取待分類數(shù)據(jù)以及已知分類結(jié)果的數(shù)據(jù)分類樣本。
其中,關(guān)于待分類數(shù)據(jù)和數(shù)據(jù)分類樣本的說明可以參考上述實(shí)施例中步驟s101的說明,此處不再贅述。
s202,根據(jù)該數(shù)據(jù)分類樣本對(duì)該待分類數(shù)據(jù)進(jìn)行分類得到第一類數(shù)據(jù)和第二類數(shù)據(jù)。
在本步驟中,可以將數(shù)據(jù)分類樣本代入svm模型中進(jìn)行訓(xùn)練得到訓(xùn)練后的分類模型,通過該訓(xùn)練后的分類模型對(duì)待分類數(shù)據(jù)進(jìn)行初始分類得到第一分類結(jié)果,即將該待分類數(shù)據(jù)分為第一類數(shù)據(jù)和第二類數(shù)據(jù)。
其中,svm模型是一種二類分類模型,其模型可以定義為空間上的間隔最大的線性分類器,這樣,可以將該數(shù)據(jù)分類樣本和該待分類數(shù)據(jù)映射到n維空間中,并根據(jù)該數(shù)據(jù)分類樣本獲取超平面,其中,該超平面的一邊的數(shù)據(jù)分類樣本為一類數(shù)據(jù),該超平面的另一邊的數(shù)據(jù)分類樣本為另一類數(shù)據(jù),并且該超平面將該待分類數(shù)據(jù)進(jìn)行初始分類得到第一分類結(jié)果,若該待分類數(shù)據(jù)在該超平面的一邊,則該待分類數(shù)據(jù)與該超平面的一邊的數(shù)據(jù)分類樣本為同一類數(shù)據(jù),即為第一類數(shù)據(jù),若該待分類數(shù)據(jù)在該超平面的另一邊,則該待分類數(shù)據(jù)與該超平面的另一邊的數(shù)據(jù)分類樣本為同一類數(shù)據(jù),即為第二類數(shù)據(jù),繼續(xù)以上述風(fēng)力發(fā)電為例進(jìn)行說明,如圖3所示,加號(hào)表示限功率數(shù)據(jù),減號(hào)表示非限功率數(shù)據(jù),圓圈表示待分類數(shù)據(jù),圖3中的實(shí)線即為超平面,該超平面將該限功率數(shù)據(jù)和該非限功率數(shù)據(jù)劃分到該實(shí)線的兩邊,實(shí)線左邊為限功率數(shù)據(jù),實(shí)線右邊為非限功率數(shù)據(jù),此時(shí),位于實(shí)線左邊的待分類數(shù)據(jù),則初步認(rèn)為是限功率數(shù)據(jù),位于實(shí)線右邊的待分類數(shù)據(jù),則初步認(rèn)為是非限功率數(shù)據(jù)。
為了方便描述,本公開實(shí)施例以將該數(shù)據(jù)分類樣本和該待分類數(shù)據(jù)映射至二維平面為例進(jìn)行說明,可以采用以下方式獲取超平面:
首先,建立該超平面函數(shù)y(x)=wx+b,并假設(shè)該超平面為wx+b=0;其次,該假設(shè)的超平面將該數(shù)據(jù)分類樣本進(jìn)行分類,其中,超平面的一邊的數(shù)據(jù)分類樣本中存在一個(gè)距離該超平面最近的點(diǎn)a,則過點(diǎn)a存在一個(gè)平行該超平面的第一平面wx+b=1,同樣,超平面的另一邊的數(shù)據(jù)分類樣本中存在一個(gè)距離該超平面最近的點(diǎn)b,則過點(diǎn)b存在一個(gè)平行該超平面的第二平面wx+b=-1;然后,獲取該第一平面和該第二平面之間的距離公式,如d=2/||w||,d為該第一平面與該第二平面之間的距離,由于在svm模型中,d越大則第一分類結(jié)果越準(zhǔn)確,因此,在假設(shè)d為最大值即||w||為最小值的情況下,可以根據(jù)該距離公式和該超平面的一邊的數(shù)據(jù)分類樣本的限制條件(wx+b≥1)以及該超平面的另一邊的數(shù)據(jù)分類樣本的限制條件(wx+b≤-1)利用拉格朗日乘子法求解得到w和b的值,從而確定該超平面。
另外,在獲取到超平面后,將該待分類數(shù)據(jù)代入超平面函數(shù)y(x)=wx+b中,若y≥1,則確定該待分類數(shù)據(jù)與超平面的一邊的數(shù)據(jù)分類樣本為同一類數(shù)據(jù),若y≤-1,則確定該待分類數(shù)據(jù)與超平面的另一邊的數(shù)據(jù)分類樣本為同一類數(shù)據(jù)。
s203,獲取該數(shù)據(jù)分類樣本的第一分類權(quán)重和該待分類數(shù)據(jù)的第二分類權(quán)重。
在本步驟中,該第一分類權(quán)重與該第二分類權(quán)重都是預(yù)先設(shè)置的,該第一分類權(quán)重表示該數(shù)據(jù)分類樣本的分類結(jié)果的置信度,該第二分類權(quán)重表示該待分類數(shù)據(jù)的分類結(jié)果的置信度,其中,該置信度表示數(shù)據(jù)的分類結(jié)果的可信程度,即該置信度越大,則該數(shù)據(jù)的分類結(jié)果越可信,反之,該置信度越小,則該數(shù)據(jù)的分類結(jié)果越不可信。
需要說明的是,由于該數(shù)據(jù)分類樣本為已知分類結(jié)果的數(shù)據(jù),則該數(shù)據(jù)分類樣本的分類結(jié)果的可信程度較高,所以可以將第一分類權(quán)重設(shè)置的較大,而該待分類數(shù)據(jù)為未確定分類結(jié)果的數(shù)據(jù),因此,該待分類數(shù)據(jù)的分類結(jié)果的可信程度較低,所以可以將該第二分類權(quán)重設(shè)置為一個(gè)小于該第一分類權(quán)重的較小值。示例地,可以將該第二分類權(quán)重設(shè)置為該第一分類權(quán)重的百分之一,如該第一分類權(quán)重為100,則該第二分類權(quán)重為1,上述示例只是舉例說明,本公開對(duì)此不作限定。
s204,獲取該第一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量和該第二類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量。
s205,計(jì)算該第一數(shù)量與該第二數(shù)量之間的和值。
s206,根據(jù)該和值以及該第二分類權(quán)重得到該第一類數(shù)據(jù)對(duì)應(yīng)的第三分類權(quán)重和該第二類數(shù)據(jù)對(duì)應(yīng)的第四分類權(quán)重。
其中,該第三分類權(quán)重可以用于表示該第一類數(shù)據(jù)的分類結(jié)果的置信度,該第四分類權(quán)重可以用于表示該第二類數(shù)據(jù)的分類結(jié)果的置信度。
在本步驟中,可以通過以下公式獲取該第三分類權(quán)重:
其中,
可以通過以下公式獲取該第四分類權(quán)重:
其中,
s207,計(jì)算該第一數(shù)量與該第二數(shù)量之間的差值。
s208,確定該差值是否大于或者等于0。
在該差值大于或者等于0時(shí),執(zhí)行步驟s209和步驟s211;
在該差值小于0時(shí),執(zhí)行步驟s210和步驟s211。
s209,根據(jù)該第三分類權(quán)重和第四分類權(quán)重通過第一公式得到目標(biāo)分類權(quán)重。
其中,該第一公式包括:
其中,
s210,根據(jù)該第三分類權(quán)重和第四分類權(quán)重通過第二公式得到目標(biāo)分類權(quán)重。
其中,該第二公式包括:
其中,
需要說明的是,隨著該第一數(shù)量與該第二數(shù)量的差值的增大,該預(yù)設(shè)權(quán)重函數(shù)趨近于0,從而該目標(biāo)分類權(quán)重比該第二分類權(quán)重小,由于預(yù)設(shè)分類終止條件與該目標(biāo)分類權(quán)重相關(guān),因此,若該目標(biāo)分類權(quán)重與該第二分類權(quán)重相比減小時(shí),則在后續(xù)步驟中對(duì)該第一分類結(jié)果進(jìn)行迭代時(shí)需要經(jīng)過多次迭代才可以滿足迭代終止條件(相當(dāng)于增加了迭代次數(shù)),從而提高了分類結(jié)果的準(zhǔn)確率;隨著該第一數(shù)量與該第二數(shù)量的差值的減小,該預(yù)設(shè)權(quán)重函數(shù)趨近于1,從而該目標(biāo)分類權(quán)重與該第二分類權(quán)重近似相等,從而在后續(xù)步驟中對(duì)該第一分類結(jié)果進(jìn)行迭代時(shí)迭代次數(shù)變化較小。
s211,確定該目標(biāo)分類權(quán)重和該第一分類權(quán)重是否滿足預(yù)設(shè)分類終止條件。
其中,該預(yù)設(shè)分類終止條件可以包括:根據(jù)該目標(biāo)分類權(quán)重得到的第五分類權(quán)重大于或者等于該第一分類權(quán)重,該第五分類權(quán)重為該目標(biāo)分類權(quán)重與預(yù)設(shè)參數(shù)的乘積,該預(yù)設(shè)參數(shù)為大于1的數(shù)值,若該預(yù)設(shè)參數(shù)越大,則該目標(biāo)分類權(quán)重增長地越快,這樣,減少了對(duì)該第一分類結(jié)果進(jìn)行迭代的迭代次數(shù),使得該目標(biāo)分類權(quán)重可以快速滿足預(yù)設(shè)分類終止條件,從而提高了分類效率,但是由于相應(yīng)地減少了迭代次數(shù),使得分類準(zhǔn)確率較低;相反,若該預(yù)設(shè)參數(shù)越小,則在迭代的過程中,該目標(biāo)分類權(quán)重增長地越慢,這樣,增加了對(duì)該第一分類結(jié)果進(jìn)行迭代的迭代次數(shù),從而提高分類準(zhǔn)確率,但由于相應(yīng)地增加了迭代次數(shù),從而降低了分類效率,因此,該預(yù)設(shè)參數(shù)可以兼顧分類效率和分類準(zhǔn)確率進(jìn)行設(shè)置,例如,該預(yù)設(shè)參數(shù)可以設(shè)置為2。
在確定該目標(biāo)分類權(quán)重和該第一分類權(quán)重滿足預(yù)設(shè)分類終止條件時(shí),執(zhí)行步驟s212;
在確定該目標(biāo)分類權(quán)重和該第一分類權(quán)重不滿足預(yù)設(shè)分類終止條件時(shí),執(zhí)行步驟s213。
s212,確定分類完成。
需要說明的是,在該分類完成后,可以根據(jù)該分類后的第一類數(shù)據(jù)和第二類數(shù)據(jù)構(gòu)建分類模型,這樣,當(dāng)重新獲取到一個(gè)新的待分類數(shù)據(jù)時(shí),可以通過該分類模型對(duì)該新的待分類數(shù)據(jù)進(jìn)行分類,從而得到該新的待分類數(shù)據(jù)的分類結(jié)果。
在一種可能的實(shí)現(xiàn)方式中,該分類模型可以是決策樹,可以獲取分類后的全部數(shù)據(jù)的數(shù)據(jù)特征,并通過獲取的數(shù)據(jù)特征建立該決策樹,在建立決策樹的過程中,可以獲取每個(gè)數(shù)據(jù)特征的信息熵,該信息熵越小,則對(duì)應(yīng)的數(shù)據(jù)特征在決策樹中的位置越靠近根節(jié)點(diǎn)。
示例地,仍然以上述風(fēng)力發(fā)電為例進(jìn)行說明,得到的第一類數(shù)據(jù)可以是限功率數(shù)據(jù),得到的第二類數(shù)據(jù)可以是非限功率數(shù)據(jù),例如,根據(jù)該限功率數(shù)據(jù)和非限功率數(shù)據(jù)獲取的數(shù)據(jù)特征可以是變頻器發(fā)電機(jī)側(cè)功率、發(fā)電機(jī)轉(zhuǎn)矩、1號(hào)葉片角度和超速傳感器轉(zhuǎn)速以及發(fā)電機(jī)定子溫度、機(jī)艙氣象站風(fēng)速和輪轂轉(zhuǎn)速,若通過計(jì)算得到該數(shù)據(jù)特征為變頻器發(fā)電機(jī)側(cè)功率的信息熵最小,則該數(shù)據(jù)特征為變頻器發(fā)電機(jī)側(cè)功率位于決策樹的根節(jié)點(diǎn),此時(shí)根據(jù)該變頻器發(fā)電機(jī)側(cè)功率的范圍將該決策樹分成兩個(gè)分枝,示例地,將變頻器發(fā)電機(jī)側(cè)功率大于1373w和變頻器發(fā)電機(jī)側(cè)功率小于或者等于1373w作為兩個(gè)分枝,此時(shí)在變頻器發(fā)電機(jī)側(cè)功率大于1373w時(shí),繼續(xù)計(jì)算滿足變頻器發(fā)電機(jī)側(cè)功率大于1373w的工作數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)特征的信息熵,將最小信息熵對(duì)應(yīng)的數(shù)據(jù)特征作為分枝“變頻器發(fā)電機(jī)側(cè)功率大于1373w”的決策節(jié)點(diǎn),以此類推,可以示例性地構(gòu)建出如圖4所示的決策樹,當(dāng)然,上述示例只是舉例說明,本公開對(duì)此不作限定。
這樣,在獲取到新的待分類數(shù)據(jù)后,可以根據(jù)該決策樹確定該新的待分類數(shù)據(jù)的類別,例如,該新的待分類數(shù)據(jù)包括:變頻器發(fā)電機(jī)側(cè)功率1388w,發(fā)電機(jī)轉(zhuǎn)矩1240n·m,1號(hào)葉片角度1.72,超速傳感器轉(zhuǎn)速14.5m/s,發(fā)電機(jī)定子溫度86℃,機(jī)艙氣象站風(fēng)速9.41m/s和輪轂轉(zhuǎn)速12.21m/s,則將該待分類數(shù)據(jù)代入決策樹中,確定該變頻器發(fā)電機(jī)側(cè)功率1388w是否小于或者等于1373w,由于該變頻器發(fā)電機(jī)側(cè)功率1388w大于1373w,則如圖4所示,該新的待分類數(shù)據(jù)被劃分到該決策樹的根節(jié)點(diǎn)為變頻器發(fā)電機(jī)側(cè)功率的右側(cè)部分,繼續(xù)確定發(fā)電機(jī)轉(zhuǎn)矩1240n·m是否小于或者等于1255n·m,由于發(fā)電機(jī)轉(zhuǎn)矩1240n·m小于1255n·m,則該待分類數(shù)據(jù)被劃分到該決策節(jié)點(diǎn)為發(fā)電機(jī)轉(zhuǎn)矩的左側(cè),依次類推,可以確定該新的待分類數(shù)據(jù)為限功率數(shù)據(jù);又如,該新的待分類數(shù)據(jù)包括:變頻器發(fā)電機(jī)側(cè)功率1397w,發(fā)電機(jī)轉(zhuǎn)矩1261n·m,1號(hào)葉片角度1.83,超速傳感器轉(zhuǎn)速13.5m/s,發(fā)電機(jī)定子溫度84.5℃,機(jī)艙氣象站風(fēng)速7.91m/s和輪轂轉(zhuǎn)速11.25m/s時(shí),則將該待分類數(shù)據(jù)代入決策樹中,確定該變頻器發(fā)電機(jī)側(cè)功率1397w是否小于或者等于1373w,由于該變頻器發(fā)電機(jī)側(cè)功率1397w大于1373w,則如圖4所示,該新的待分類數(shù)據(jù)被劃分到該決策樹的根節(jié)點(diǎn)為變頻器發(fā)電機(jī)側(cè)功率的右側(cè)部分,繼續(xù)確定發(fā)電機(jī)轉(zhuǎn)矩1261n·m是否小于或者等于1255n·m,由于發(fā)電機(jī)轉(zhuǎn)矩1261n·m大于1255n·m,則該新的待分類數(shù)據(jù)被劃分到該決策節(jié)點(diǎn)為發(fā)電機(jī)轉(zhuǎn)矩的右側(cè),則確定該新的待分類數(shù)據(jù)為非限功率數(shù)據(jù),上述示例只是舉例說明,本公開對(duì)此不作限定。
此外,上述的分類是以分成兩類為例進(jìn)行的說明,也可以分成更多類,如三類,此時(shí),仍然可以采用上述數(shù)據(jù)分類的方法將待分類數(shù)據(jù)分為第一數(shù)據(jù)和第二數(shù)據(jù),其中該第一數(shù)據(jù)包括第一種類型數(shù)據(jù),該第二數(shù)據(jù)包括除該第一種類型數(shù)據(jù)外的其他數(shù)據(jù),并繼續(xù)通過上述數(shù)據(jù)分類的方法將該第二數(shù)據(jù)進(jìn)行分類,直至該第二數(shù)據(jù)按照不同類型數(shù)據(jù)全部分類完成。例如,對(duì)于疾病數(shù)據(jù)的類別包括健康數(shù)據(jù),亞健康數(shù)據(jù)和疾病數(shù)據(jù)三類,則可以通過上述數(shù)據(jù)分類的方法將待分類數(shù)據(jù)分為第一數(shù)據(jù)(包括疾病數(shù)據(jù))和第二數(shù)據(jù)(包括健康數(shù)據(jù)和亞健康數(shù)據(jù)),再繼續(xù)通過數(shù)據(jù)分類的方法將該第二數(shù)據(jù)進(jìn)行分類,分成第三數(shù)據(jù)(包括健康數(shù)據(jù))和第四數(shù)據(jù)(包括亞健康數(shù)據(jù)),上述示例只是舉例說明,本公開對(duì)此不作限定。
s213,將該第五分類權(quán)重替換該第二分類權(quán)重,并繼續(xù)根據(jù)該第五分類權(quán)重對(duì)該第一分類結(jié)果進(jìn)行重新分類得到第二分類結(jié)果,并根據(jù)該第五分類權(quán)重得到對(duì)應(yīng)該第二分類結(jié)果的第六分類權(quán)重和第七分類權(quán)重,根據(jù)該第六分類權(quán)重和該第七分類權(quán)重得到新的目標(biāo)分類權(quán)重,直至該新的目標(biāo)分類權(quán)重和該第一分類權(quán)重滿足預(yù)設(shè)分類終止條件。
在本步驟中,根據(jù)該第五分類權(quán)重對(duì)該第一分類結(jié)果進(jìn)行重新分類得到第二分類結(jié)果的過程如下:
由上述步驟s202可知該第一分類結(jié)果是在只考慮該數(shù)據(jù)分類樣本的情況下確定的該超平面,導(dǎo)致該第一分類結(jié)果可能不準(zhǔn)確,因此,為了提高第一分類結(jié)果的準(zhǔn)確率,可以引入松弛變量以減小初始分類導(dǎo)致的誤差,此時(shí),可以根據(jù)該松弛變量以及該待分類數(shù)據(jù)和該數(shù)據(jù)分類樣本的限制條件重新獲取新的超平面,示例地,以該待分類數(shù)據(jù)的限制條件為例進(jìn)行說明,若該待分類數(shù)據(jù)經(jīng)過初始分類后被劃分到超平面的一邊,則該超平面的一邊的待分類數(shù)據(jù)的限制條件為:
當(dāng)獲取到該限制條件后,可以根據(jù)該第一分類權(quán)重和該第五分類權(quán)重以及該松弛變量得到目標(biāo)函數(shù)
其中,根據(jù)該新的超平面將該待分類數(shù)據(jù)重新進(jìn)行分類得到待確定分類結(jié)果,但是該待確定分類結(jié)果中可能仍然存在明顯分類錯(cuò)誤的數(shù)據(jù),為了提高分類準(zhǔn)確率,在一種可能的實(shí)現(xiàn)方式中,可以通過以下方式確定該待確定分類結(jié)果中是否存在明顯分類錯(cuò)誤的數(shù)據(jù):
首先,分別獲取新的超平面的一邊的每個(gè)待分類數(shù)據(jù)的第一目標(biāo)松弛變量
其次,計(jì)算
再次,確定
最后,在確定
其中,該預(yù)設(shè)閾值可以取值為2,在確定該待確定分類結(jié)果中存在明顯分類錯(cuò)誤的數(shù)據(jù)后,交換該
采用上述方法,能夠?qū)⒌诙诸悪?quán)重按照初始分類結(jié)果進(jìn)行劃分得到第三分類權(quán)重和第四分類權(quán)重,并根據(jù)第三分類權(quán)重和第四分類權(quán)重得到目標(biāo)分類權(quán)重,從而均衡考慮了不同分類結(jié)果對(duì)目標(biāo)分類權(quán)重的影響,避免了在分類結(jié)果中其中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時(shí),數(shù)量較多的數(shù)據(jù)在迭代過程中對(duì)目標(biāo)分類權(quán)重影響較大,而造成在目標(biāo)分類權(quán)重滿足預(yù)設(shè)分類終止條件時(shí),數(shù)據(jù)分類結(jié)果仍然存在分類錯(cuò)誤的數(shù)據(jù)。
圖5是根據(jù)一示例性實(shí)施例示出的一種數(shù)據(jù)分類的裝置的框圖,參照?qǐng)D5,該裝置包括第一獲取模塊501,分類模塊502,第二獲取模塊503,第三獲取模塊504和第四獲取模塊505以及第一確定模塊506。
該第一獲取模塊501,用于獲取待分類數(shù)據(jù)以及已知分類結(jié)果的數(shù)據(jù)分類樣本;
該分類模塊502,用于根據(jù)該數(shù)據(jù)分類樣本對(duì)該待分類數(shù)據(jù)進(jìn)行分類得到第一分類結(jié)果;
該第二獲取模塊503,用于獲取該數(shù)據(jù)分類樣本的第一分類權(quán)重和該待分類數(shù)據(jù)的第二分類權(quán)重,其中,該第一分類權(quán)重表示該數(shù)據(jù)分類樣本的分類結(jié)果的置信度,該第二分類權(quán)重表示該待分類數(shù)據(jù)的分類結(jié)果的置信度;
該第三獲取模塊504,用于根據(jù)該第二分類權(quán)重得到對(duì)應(yīng)該第一分類結(jié)果的第三分類權(quán)重和第四分類權(quán)重;
該第四獲取模塊505,用于根據(jù)該第三分類權(quán)重和該第四分類權(quán)重得到目標(biāo)分類權(quán)重;
該第一確定模塊506,用于在該目標(biāo)分類權(quán)重和該第一分類權(quán)重滿足預(yù)設(shè)分類終止條件時(shí),確定分類完成。
可選地,圖6是圖5所示實(shí)施例示出的一種數(shù)據(jù)分類的裝置的框圖,該第一分類結(jié)果包括第一類數(shù)據(jù)和第二類數(shù)據(jù),該裝置還包括:
第五獲取模塊507,用于獲取該第一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量和該第二類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量;
第一計(jì)算模塊508,用于計(jì)算該第一數(shù)量和該第二數(shù)量之間的和值;
該第三獲取模塊504,用于根據(jù)該和值以及第二分類權(quán)重得到該第一類數(shù)據(jù)對(duì)應(yīng)的第三分類權(quán)重和該第二類數(shù)據(jù)對(duì)應(yīng)的第四分類權(quán)重。
可選地,該第三獲取模塊504,用于通過以下公式獲取該第三分類權(quán)重:
其中,
通過以下公式獲取該第四分類權(quán)重:
其中,
可選地,圖7是圖6所示實(shí)施例示出的一種數(shù)據(jù)分類的裝置的框圖,該裝置還包括:
第二計(jì)算模塊509,用于計(jì)算該第一數(shù)量和該第二數(shù)量之間的差值;
第二確定模塊510,用于確定該差值是否大于或者等于0;
第四獲取模塊505,用于在該差值大于或者等于0時(shí),通過以下公式得到該目標(biāo)分類權(quán)重:
其中,
在該差值小于0時(shí),通過以下公式得到該目標(biāo)分類權(quán)重:
其中,
可選地,該預(yù)設(shè)分類終止條件包括:根據(jù)該目標(biāo)分類權(quán)重得到的第五分類權(quán)重大于或者等于該第一分類權(quán)重,該第五分類權(quán)重為該目標(biāo)分類權(quán)重與預(yù)設(shè)參數(shù)的乘積,該預(yù)設(shè)參數(shù)為大于1的數(shù)值。
可選地,圖8是圖5所示實(shí)施例示出的一種數(shù)據(jù)分類的裝置的框圖,該裝置還包括:
循環(huán)模塊511,用于在該目標(biāo)分類權(quán)重和該第一分類權(quán)重不滿足該預(yù)設(shè)分類終止條件時(shí),將該第五分類權(quán)重替換該第二分類權(quán)重,并繼續(xù)根據(jù)該第五分類權(quán)重對(duì)該第一分類結(jié)果進(jìn)行重新分類得到第二分類結(jié)果,并根據(jù)該第五分類權(quán)重得到對(duì)應(yīng)該第二分類結(jié)果的第六分類權(quán)重和第七分類權(quán)重,根據(jù)該第六分類權(quán)重和該第七分類權(quán)重得到新的目標(biāo)分類權(quán)重,直至該新的目標(biāo)分類權(quán)重和該第一分類權(quán)重滿足預(yù)設(shè)分類終止條件。
采用上述裝置,能夠?qū)⒌诙诸悪?quán)重按照初始分類結(jié)果進(jìn)行劃分得到第三分類權(quán)重和第四分類權(quán)重,并根據(jù)第三分類權(quán)重和第四分類權(quán)重得到目標(biāo)分類權(quán)重,從而均衡考慮了不同分類結(jié)果對(duì)目標(biāo)分類權(quán)重的影響,避免了在分類結(jié)果中其中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時(shí),數(shù)量較多的數(shù)據(jù)在迭代過程中對(duì)目標(biāo)分類權(quán)重影響較大,而造成在目標(biāo)分類權(quán)重滿足預(yù)設(shè)分類終止條件時(shí),數(shù)據(jù)分類結(jié)果仍然存在分類錯(cuò)誤的數(shù)據(jù)。
以上結(jié)合附圖詳細(xì)描述了本公開的優(yōu)選實(shí)施方式,但是,本公開并不限于上述實(shí)施方式中的具體細(xì)節(jié),在本公開的技術(shù)構(gòu)思范圍內(nèi),可以對(duì)本公開的技術(shù)方案進(jìn)行多種簡單變型,這些簡單變型均屬于本公開的保護(hù)范圍。
另外需要說明的是,在上述具體實(shí)施方式中所描述的各個(gè)具體技術(shù)特征,在不矛盾的情況下,可以通過任何合適的方式進(jìn)行組合,為了避免不必要的重復(fù),本公開對(duì)各種可能的組合方式不再另行說明。
此外,本公開的各種不同的實(shí)施方式之間也可以進(jìn)行任意組合,只要其不違背本公開的思想,其同樣應(yīng)當(dāng)視為本公開所公開的內(nèi)容。