本發(fā)明涉及主動(dòng)學(xué)習(xí)領(lǐng)域,尤其涉及一種基于主動(dòng)學(xué)習(xí)的數(shù)據(jù)自動(dòng)標(biāo)注方法。
背景技術(shù):
隨著大數(shù)據(jù)時(shí)代的到來,互聯(lián)網(wǎng)上出現(xiàn)了一種新型職業(yè)—數(shù)據(jù)標(biāo)注員。數(shù)據(jù)標(biāo)注員的工作是使用自動(dòng)化的工具從互聯(lián)網(wǎng)上抓取、收集數(shù)據(jù),包括文本、圖片、語音等等,然后對(duì)抓取的數(shù)據(jù)進(jìn)行整理與標(biāo)注。具體的工作流程:首先,標(biāo)注人員經(jīng)過培訓(xùn),確定需要標(biāo)注的樣本數(shù)據(jù)以及標(biāo)注規(guī)則;然后,根據(jù)事先安排好的規(guī)則對(duì)樣本數(shù)據(jù)進(jìn)行打標(biāo);最后,對(duì)標(biāo)注完以后的結(jié)果進(jìn)行合并。但是,這種打標(biāo)過程存在以下問題:1、整個(gè)標(biāo)注過程非常復(fù)雜,數(shù)據(jù)量特別多的時(shí)候,需要人工勞動(dòng)力會(huì)特別大;2、在數(shù)據(jù)標(biāo)注過程中,由于標(biāo)注人員的精力有限或者標(biāo)注人員的主觀性等因素,導(dǎo)致無法保證標(biāo)注數(shù)據(jù)的百分百準(zhǔn)確性,即無法判斷標(biāo)注的質(zhì)量。因此,大量數(shù)據(jù)的標(biāo)注過程是一個(gè)非常耗時(shí)且難以保證準(zhǔn)確率的任務(wù)。
在真實(shí)的應(yīng)用中,實(shí)驗(yàn)數(shù)據(jù)容易獲得,數(shù)據(jù)規(guī)模也是非常大的,由于數(shù)據(jù)需要處理成有標(biāo)簽樣本,因而,需要大量的人員耗時(shí)耗力來處理。在大數(shù)據(jù)發(fā)展的今天,通過已標(biāo)記樣本來標(biāo)記未標(biāo)記的樣本數(shù)據(jù)是非常常見的一種方法。由于人工標(biāo)記樣本是有限的,而且不能保證所有的人工標(biāo)記的數(shù)據(jù)樣本都是正確的。而且,在實(shí)際問題中,某些樣本數(shù)據(jù),如基因分析所用的基因組成數(shù)據(jù),標(biāo)記代價(jià)很高,所以通常來說,未標(biāo)記樣本數(shù)量會(huì)遠(yuǎn)遠(yuǎn)超過已標(biāo)記樣本的數(shù)據(jù)。因此,怎樣減少人工標(biāo)注數(shù)據(jù)的數(shù)量,并盡量保證人工標(biāo)注數(shù)據(jù)的準(zhǔn)確性的此類主動(dòng)學(xué)習(xí)方法,成為了近年來的研究熱點(diǎn)之一。
因此,本文針對(duì)在大數(shù)據(jù)背景下,基于傳統(tǒng)主動(dòng)學(xué)習(xí)方法,提出一種基于主動(dòng)學(xué)習(xí)的數(shù)據(jù)自動(dòng)標(biāo)注系統(tǒng),解決人工標(biāo)注數(shù)據(jù)的可靠性問題,對(duì)于機(jī)器學(xué)習(xí)算法不能正確標(biāo)注的數(shù)據(jù)樣本進(jìn)行人工標(biāo)注,之后,對(duì)人工標(biāo)注的結(jié)果利用一種自檢機(jī)制,對(duì)人工標(biāo)注結(jié)果進(jìn)行反饋,以確保數(shù)據(jù)標(biāo)注的正確性。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在解決以上現(xiàn)有技術(shù)的問題。提出了一種縮減工作量且提高人工標(biāo)注數(shù)據(jù)準(zhǔn)確性的基于主動(dòng)學(xué)習(xí)的數(shù)據(jù)自動(dòng)標(biāo)注方法。本發(fā)明的技術(shù)方案如下:
一種基于主動(dòng)學(xué)習(xí)的數(shù)據(jù)自動(dòng)標(biāo)注方法,其包括以下步驟:101、對(duì)已標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)進(jìn)行處理:首先分別對(duì)已標(biāo)記樣本數(shù)據(jù)和未標(biāo)記樣本數(shù)據(jù)做聚類處理,保存聚類后所得的k個(gè)聚簇中心點(diǎn)(c1,c2,c3,...,ck)和每個(gè)聚簇內(nèi)點(diǎn)到聚類中心的距離d,以及每個(gè)聚簇的聚類半徑(r1,r2,...,rk);
102、利用多個(gè)不同的基分類器對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行分類:根據(jù)步驟101中經(jīng)過聚類處理的部分已標(biāo)記數(shù)據(jù)訓(xùn)練m個(gè)不同的分類器(m1,m2,...,mm),并根據(jù)另外一部分?jǐn)?shù)據(jù)使用線性回歸模型對(duì)m個(gè)不同基分類器的分類結(jié)果做模型融合,得到每個(gè)基分類器的權(quán)重(i1,i2,...,im),使用這m個(gè)分類器結(jié)合各自權(quán)重對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行分類
103、將步驟102訓(xùn)練的m個(gè)基分類器對(duì)未標(biāo)記樣本進(jìn)行自動(dòng)標(biāo)記,選出分歧較大的數(shù)據(jù):用已標(biāo)記文本數(shù)據(jù)集訓(xùn)練的m個(gè)不同的分類器(m1,m2,...,mm),并用線性回歸模型對(duì)這m個(gè)分類器進(jìn)行模型融合,確定每個(gè)分類器的權(quán)重(i1,i2,...,im),基于每一個(gè)未知樣本的m個(gè)基分類器對(duì)該樣本的分類結(jié)果(m1,m2,...,mm)以及分類置信度和每個(gè)基分類器的權(quán)重求出該樣本的最終預(yù)測(cè)類別,預(yù)測(cè)類別
104、對(duì)分歧熵低的數(shù)據(jù)進(jìn)行人工標(biāo)記;
105、對(duì)人工標(biāo)記結(jié)果進(jìn)行自檢,如果自檢結(jié)果與人工標(biāo)記的存在差異,則重新將該樣本放入隊(duì)列提醒進(jìn)行重新人工標(biāo)記。
進(jìn)一步的,所述步驟101對(duì)已標(biāo)記數(shù)據(jù)聚類處理為:
采用聚類算法對(duì)已標(biāo)記數(shù)據(jù)進(jìn)行聚類,保存聚類后所得的x個(gè)聚簇中心點(diǎn)坐標(biāo),每個(gè)聚簇的平均半徑d,以及當(dāng)前每個(gè)聚簇的真實(shí)類別(y1,y2,y3,...,yx)。
進(jìn)一步的,所述步驟101對(duì)未標(biāo)記數(shù)據(jù)聚類處理為:
采用聚類算法對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行聚類,保存聚類后所得的y個(gè)聚簇中心點(diǎn)(c1,c2,c3,...,cy)和每個(gè)聚簇內(nèi)點(diǎn)到聚類中心的距離d,以及每個(gè)聚簇的聚類半徑(r1,r2,...,ry),在自檢過程中方便查找可疑樣本x周圍的n個(gè)最近樣本,查找過程:
1)計(jì)算x與k個(gè)聚簇中心點(diǎn)的距離l,并減去相應(yīng)聚簇的半徑r,得到
l=(l1,l2,...,ly)。
2)取l中值最小的3個(gè)簇,設(shè)(q1,q2,q3)容器中存放需要的樣本,對(duì)3個(gè)簇做如下操作:
i、對(duì)3個(gè)簇中的樣本點(diǎn)按照距離簇中心點(diǎn)的距離從大到小排列;
ii、依次計(jì)算樣本點(diǎn)與可疑樣本x的距離,如果距離<ln則替換qn掉中的最小值,否則舍去,直到樣本點(diǎn)用完或qn已滿;
iii、取(q1,q2,q3)中最小的n個(gè)值即為所查找的n個(gè)最近鄰位置。
進(jìn)一步的,所述聚類算法可以根據(jù)數(shù)據(jù)樣本采用包括層次聚類、k-means在內(nèi)的聚類方法。
進(jìn)一步的,所述步驟102中不同的基分類器為包括決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、樸素貝葉斯和隨機(jī)森林在內(nèi)的分類器。
進(jìn)一步的,所述步驟103選出分歧較大的數(shù)據(jù):用已標(biāo)記文本數(shù)據(jù)集訓(xùn)練m個(gè)不同的分類器(m1,m2,...,mm),并用線性回歸模型對(duì)這m個(gè)分類器進(jìn)行模型融合,確定每個(gè)分類器的權(quán)重(i1,i2,...,im),基于每一個(gè)未知樣本的m個(gè)基分類器對(duì)該樣本的分類結(jié)果(m1,m2,...,mm)以及分類置信度和每個(gè)基分類器的權(quán)重求出該樣本的最終預(yù)測(cè)類別,預(yù)測(cè)類別
進(jìn)一步的,所述步驟105自檢過程包括以下步驟:
i、某人工標(biāo)注樣本g找到最近鄰n個(gè)樣本x={x1,x2,…,xn},如果g的近鄰樣本都已標(biāo)注,則繼續(xù);如果近鄰樣本存在未標(biāo)記數(shù)據(jù),則跳過并重新選取人工標(biāo)記數(shù)據(jù);
ii計(jì)算每一個(gè)人工標(biāo)記數(shù)據(jù)與101聚類好的已標(biāo)記數(shù)據(jù)的簇類中心的距離和簇類半徑的差值結(jié)果前m個(gè)最小值集合w={rr1,rr2,…,rrm}保存這些簇的真實(shí)類別(y1,y2,y3,...,ym);根據(jù)公式(1)計(jì)算根據(jù)已標(biāo)記樣本確定的樣本類別影響因子;
其中e表示標(biāo)簽值(y1,y2,y3,...,ym)中yi=1的個(gè)數(shù),t表示標(biāo)簽值(y1,y2,y3,...,ym)中yi=0的個(gè)數(shù);
iii根據(jù)在未標(biāo)記數(shù)據(jù)選取的近鄰樣本數(shù)據(jù){x1,x2,…,xk},統(tǒng)計(jì)其已標(biāo)記的標(biāo)簽值{p1,p2,…,pk}其中pi∈(1,0),并算取每一個(gè)樣本數(shù)據(jù)離人工標(biāo)記數(shù)據(jù)的距離{d1,d2,…,dk},根據(jù)公式(3)
和(4)分別計(jì)算未標(biāo)記數(shù)據(jù)樣本對(duì)該樣本權(quán)重類別的影響因子;
其中f表示標(biāo)簽值{p1,p2,…,pk}中pi=1的個(gè)數(shù),g表示標(biāo)簽值{p1,p2,…,pk}中pi=0的個(gè)數(shù);
iv根據(jù)ii,iii步驟,根據(jù)公式(5)
工標(biāo)記的存在差異,則重新將該樣本放入隊(duì)列提醒進(jìn)行重新人工標(biāo)記。
本發(fā)明的優(yōu)點(diǎn)及有益效果如下:
本發(fā)明101對(duì)未標(biāo)記樣本進(jìn)行聚類操作并保存相關(guān)聚類信息,方便查找某個(gè)未知樣本周圍最近的n個(gè)樣本,縮短了尋找最近鄰樣本的時(shí)間開銷。
102103基于主動(dòng)學(xué)習(xí)的思想,在數(shù)據(jù)標(biāo)注過程中采用機(jī)器學(xué)習(xí)算法標(biāo)注和人工標(biāo)注互補(bǔ)的思路,通過預(yù)測(cè)類別和基分類器預(yù)測(cè)類別進(jìn)行比較,通過分歧和找出分歧大的樣本進(jìn)行人工標(biāo)注,大大縮減人工標(biāo)注的成本和開銷。同時(shí)基于主動(dòng)學(xué)習(xí)的思想不斷將已確定標(biāo)簽樣本不斷加入已標(biāo)記樣本集合中并不斷重新訓(xùn)練基分類器,強(qiáng)化機(jī)器學(xué)習(xí)算法在人工標(biāo)注過程中的增量學(xué)習(xí)過程,增加下階段機(jī)器學(xué)習(xí)算法對(duì)未知樣本類別自動(dòng)預(yù)測(cè)和標(biāo)注結(jié)果的可靠性。
105該方法考慮到人工標(biāo)注可靠性問題:對(duì)人工標(biāo)注的結(jié)果利用一種自檢機(jī)制,對(duì)人工標(biāo)注結(jié)果進(jìn)行反饋,以確保數(shù)據(jù)標(biāo)注的正確性,允許人工標(biāo)記數(shù)據(jù)中的偶然錯(cuò)誤。同時(shí)在自檢過程結(jié)合已標(biāo)記樣本的分布情況和未標(biāo)記樣本的分布情況,兼顧了整個(gè)樣本的分布情況進(jìn)行標(biāo)注結(jié)果的自檢,增強(qiáng)自檢的有效性和合理性。
附圖說明
圖1是本發(fā)明提供優(yōu)選實(shí)施例提供一種基于主動(dòng)學(xué)習(xí)的數(shù)據(jù)標(biāo)注方法流程圖;
圖2表示人工標(biāo)注結(jié)果自檢系統(tǒng)舉例說明
圖3為本發(fā)明實(shí)施例一提供一種人工標(biāo)注的自檢方法流程圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、詳細(xì)地描述。所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案是:
實(shí)施例一
參考圖1,圖1為本實(shí)施例提供的一種基于主動(dòng)學(xué)習(xí)的文本數(shù)據(jù)標(biāo)注系統(tǒng),具體包括:
101對(duì)已標(biāo)記的文本數(shù)據(jù)集flag和未標(biāo)記的文本數(shù)據(jù)集imflag進(jìn)行處理:對(duì)已標(biāo)記的文本數(shù)據(jù)flag進(jìn)行聚類處理,并標(biāo)注每個(gè)類簇的中心點(diǎn)的值;
所述對(duì)已標(biāo)記的文本數(shù)據(jù)集flag進(jìn)行聚類處理是指對(duì)于已標(biāo)記的文本數(shù)據(jù)集flag樣本,根據(jù)每一個(gè)文本數(shù)據(jù)樣本的標(biāo)簽值進(jìn)行聚類,相近且類別相同的樣本劃分成一類,本實(shí)驗(yàn)聚類的類簇個(gè)數(shù)為k,類簇集合表示為{f1,f2,…,fk},并求出每一個(gè)類簇的簇中心點(diǎn)的值{a1,a2,…,ak}。
所述對(duì)未標(biāo)記數(shù)據(jù)集imflag采用基于聚類的線性掃描查找,特殊的查找方式以減少計(jì)算距離的次數(shù)的非?,F(xiàn)實(shí)的問題為目的
102利用多個(gè)不同的分類器對(duì)未標(biāo)記文本數(shù)據(jù)集imflag進(jìn)行分類。用已標(biāo)記文本數(shù)據(jù)集flag樣本分別訓(xùn)練m個(gè)不同的分類器,并用線性回歸模型對(duì)這m個(gè)分類器進(jìn)行模型融合,確定每個(gè)分類器的權(quán)重(i1,i2,...,im),之后使用這m個(gè)分類器結(jié)合各自權(quán)重對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行分類
所述多個(gè)不同的分類器對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行分類是指采用m個(gè)分類器,本實(shí)驗(yàn)中選取的是決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(svm)和樸素貝葉斯。
103選出分歧高的文本數(shù)據(jù):根據(jù)102獲得每一個(gè)分類器對(duì)未標(biāo)記數(shù)據(jù)集imflag的分類結(jié)果,然后把每一個(gè)未標(biāo)記數(shù)據(jù)的分類結(jié)果進(jìn)行融合,選取分歧大于閾值的數(shù)據(jù)并做標(biāo)記處理。
所述將分歧定義為樣本融合后的最終分類類別p和m個(gè)基分類器分類類別是否相同,相同分歧為0,不相同為1,
104對(duì)分歧熵低的數(shù)據(jù)進(jìn)行人工標(biāo)記:對(duì)標(biāo)記數(shù)據(jù)進(jìn)行人工標(biāo)記。
所述對(duì)標(biāo)記數(shù)據(jù)進(jìn)行人工標(biāo)記是指對(duì)103選出的信息熵低于閾值t1的樣本數(shù)據(jù)進(jìn)行人工的標(biāo)注,人為的判斷此樣本數(shù)據(jù)的標(biāo)簽值。在大數(shù)據(jù)的背景下,這樣可以減少人為標(biāo)注的工作量。
對(duì)于已標(biāo)記數(shù)據(jù)集flag分別建立決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(svm)、樸素貝葉斯和隨機(jī)森林分類模型,然后對(duì)每一個(gè)未標(biāo)記文本數(shù)據(jù)進(jìn)行分類,之后輸出分類結(jié)果和置信度,根據(jù)每個(gè)分類器輸出的置信度求平均。
比如未標(biāo)記文本數(shù)據(jù)在5個(gè)分類器中輸出的結(jié)果為{y1=1,y2=1,y3=1,y4=0,y5=0},其對(duì)應(yīng)的置信度分別為{c1=0.7,c2=0.6,c3=0.8,c4=0.1,c5=0.2},經(jīng)過線性回歸模型后,確定的每個(gè)分類器的權(quán)重為{r1=0.2,r2=0.1,r3=0.1,r4=0.5,r5=0.1},則該樣本的最終置信度c=0.2*0.7+0.1*0.6+0.1*0.8+0.5*0.1+0.1*0.2=0.35,為=0,此樣本的分歧為1+1+1+0+0=3,且大于閾值t1(t1=5/2),因此把此未標(biāo)記數(shù)據(jù)標(biāo)記,后續(xù)進(jìn)行人工標(biāo)記,人為的判斷該未標(biāo)記文本數(shù)據(jù)的標(biāo)簽值。反之,如果算出的分歧較低,且小于閾值t1,則樣本類別為最終置信度決定的類別p。
105對(duì)人工標(biāo)記進(jìn)行自檢:設(shè)置一種自檢機(jī)制對(duì)人工標(biāo)記的數(shù)據(jù)進(jìn)行判斷,以防止人工標(biāo)記出現(xiàn)較大的誤差。如圖2所示的一種人工標(biāo)注的自檢系統(tǒng):
自檢過程如下:
i某人工標(biāo)注樣本g基于權(quán)利要求1查找到的最近鄰n個(gè)樣本x={x1,x2,…,xn},如果g的近鄰樣本都已標(biāo)注,則繼續(xù);如果近鄰樣本存在未標(biāo)記數(shù)據(jù),則跳過并重新選取人工標(biāo)記數(shù)據(jù)。
ii計(jì)算每一個(gè)人工標(biāo)記數(shù)據(jù)與101聚類好的已標(biāo)記數(shù)據(jù)的簇類中心的距離和簇類半徑的差值結(jié)果前m個(gè)最小值集合w={rr1,rr2,…,rrm}保存這些簇的真實(shí)類別(y1,y2,y3,...,ym);根據(jù)公式(1)計(jì)算根據(jù)已標(biāo)記樣本確定的樣本類別影響因子。
其中e表示標(biāo)簽值(y1,y2,y3,...,ym)中yi=1的個(gè)數(shù),t表示標(biāo)簽值(y1,y2,y3,...,ym)中yi=0的個(gè)數(shù)。
iii根據(jù)在未標(biāo)記數(shù)據(jù)選取的近鄰樣本數(shù)據(jù){x1,x2,…,xk},統(tǒng)計(jì)其已標(biāo)記的標(biāo)簽值{p1,p2,…,pk}其中pi∈(1,0),并算取每一個(gè)樣本數(shù)據(jù)離人工標(biāo)記數(shù)據(jù)的距離{d1,d2,…,dk},根據(jù)公式(3)
和(4)分別計(jì)算未標(biāo)記數(shù)據(jù)樣本對(duì)該樣本權(quán)重類別的影響因子。
其中f表示標(biāo)簽值{p1,p2,…,pk}中pi=1的個(gè)數(shù),g表示標(biāo)簽值{p1,p2,…,pk}中pi=0的個(gè)數(shù)。
iv根據(jù)ii,iii步驟,根據(jù)公式(5)算取自檢模塊分析出的該樣本類別y,(其中如果i=0,n=g,如果i=1,n=f)。
如果自檢結(jié)果y與人工標(biāo)記的存在差異,則重新將該樣本放入隊(duì)列提醒進(jìn)行重新人工標(biāo)記。
假設(shè)對(duì)人工標(biāo)記的文本樣本數(shù)據(jù)di進(jìn)行自檢,如圖2所示的一種人工標(biāo)注的自檢系統(tǒng):
假設(shè)左圖為已標(biāo)注數(shù)據(jù)聚類結(jié)果中,距離待自檢樣本最近的m=3個(gè)聚簇,待自檢樣本距a簇最短距離為平均值為3,距離b簇平均最短距離為1。
右圖為未標(biāo)記樣本聚類結(jié)果中查找到的k=5個(gè)最近鄰樣本,樣本周圍5個(gè)樣本的類別已經(jīng)被標(biāo)注為3個(gè)a,2個(gè)b。且平均距離a類為3,距離b類樣本平均距離為4。
根據(jù)公式計(jì)算后,
ω′a=1/4
ω′b=3/4
ωa=4/7
ωb=3/7
a的類別概率為1/4*4/7*3=12/28
b的類別概率為3/4*3/7*2=18/28
自檢系統(tǒng)認(rèn)為該樣本為b類,如果人工標(biāo)注為a類則需要重新加入隊(duì)列重新標(biāo)注,否則則不需要。
以上這些實(shí)施例應(yīng)理解為僅用于說明本發(fā)明而不用于限制本發(fā)明的保護(hù)范圍。在閱讀了本發(fā)明的記載的內(nèi)容之后,技術(shù)人員可以對(duì)本發(fā)明作各種改動(dòng)或修改,這些等效變化和修飾同樣落入本發(fā)明權(quán)利要求所限定的范圍。