一種基于標(biāo)簽噪聲糾正的眾包標(biāo)注數(shù)據(jù)質(zhì)量提升方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)標(biāo)注技術(shù)領(lǐng)域,具體涉及一種基于標(biāo)簽噪聲糾正的眾包標(biāo)注數(shù)據(jù) 質(zhì)量提升方法。
【背景技術(shù)】
[0002] 獲得高質(zhì)量的標(biāo)注數(shù)據(jù)是當(dāng)今信息檢索、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域的一項(xiàng)基礎(chǔ) 性工作。以機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)為例,其整個(gè)學(xué)習(xí)過(guò)程就是在一個(gè)規(guī)模適度的具有類標(biāo) 簽的數(shù)據(jù)集上進(jìn)行模型訓(xùn)練,從而獲得對(duì)未標(biāo)注樣本能夠準(zhǔn)確預(yù)測(cè)的學(xué)習(xí)模型。傳統(tǒng)上,訓(xùn) 練數(shù)據(jù)中的類標(biāo)簽通常是由該應(yīng)用領(lǐng)域的專家提供。專家提供的類標(biāo)簽準(zhǔn)確度高,有利于 構(gòu)建高質(zhì)量的模型。然而,這種專家標(biāo)注本身卻代價(jià)高昂。隨著智能計(jì)算技術(shù)的發(fā)展,越來(lái) 越多的標(biāo)注需求不斷提出,采用專家標(biāo)注已經(jīng)不能滿足應(yīng)用需求。眾包系統(tǒng)的出現(xiàn)極大地 緩解了這一問(wèn)題。很多標(biāo)注任務(wù),例如文本標(biāo)注、圖像分類等,均可以通過(guò)眾包平臺(tái)發(fā)布到 互聯(lián)網(wǎng)上,由來(lái)自互聯(lián)網(wǎng)的普通用戶進(jìn)行標(biāo)注。普通用戶完成數(shù)據(jù)標(biāo)注任務(wù)并獲得發(fā)布者 提供的經(jīng)濟(jì)報(bào)酬。
[0003] 眾包標(biāo)注的出現(xiàn)使得獲得標(biāo)注數(shù)據(jù)的代價(jià)變小且時(shí)效性加強(qiáng)。但是,眾包標(biāo)注也 有其固有的缺陷:標(biāo)注者均為來(lái)自互聯(lián)網(wǎng)的普通用戶,與傳統(tǒng)的專家標(biāo)注相比,其標(biāo)注質(zhì)量 的不到保證。為了解決質(zhì)量低下的問(wèn)題,一種廣為采用的方法就每個(gè)標(biāo)注樣本讓不同的標(biāo) 注者進(jìn)行標(biāo)注,然后使用一種標(biāo)簽集成方法,獲得每個(gè)樣本最終的標(biāo)簽。目前已有的標(biāo)簽 集成算法包括:多數(shù)投票算法、David和Skene算法(DS),Raykar等人提出的算法(RY), ZenCrowd算法等。這些標(biāo)簽集成算法從用戶的專業(yè)知識(shí)水平、用戶完成任務(wù)的投入程度、 任務(wù)本身的難度等多個(gè)側(cè)面對(duì)眾包標(biāo)注系統(tǒng)進(jìn)行建模,并推理每個(gè)樣本的集成標(biāo)簽。相關(guān) 研究發(fā)現(xiàn),雖然集成的方法多種多樣,但是沒(méi)有某種算法被公認(rèn)為性能最優(yōu)。在大多數(shù)情況 下,標(biāo)簽集成后的數(shù)據(jù)質(zhì)量提升程度有限。這里數(shù)據(jù)質(zhì)量的定義為,樣本數(shù)據(jù)集成標(biāo)簽值與 其標(biāo)簽真值之間的匹配程度。在整個(gè)標(biāo)注數(shù)據(jù)處理過(guò)程中,所有樣本的標(biāo)簽真值都是未知 的,標(biāo)簽集成的目標(biāo)就是正確推理出每個(gè)樣本的標(biāo)簽,使之與其真值盡可能地匹配。
[0004] 上述標(biāo)簽集成算法無(wú)法進(jìn)一步提升數(shù)據(jù)質(zhì)量的一個(gè)主要原因?yàn)樗惴ㄖ焕昧藖?lái) 自多個(gè)不確定標(biāo)注者的標(biāo)簽信息,而忽略了數(shù)據(jù)本身的特征信息。本發(fā)明中將那些集成后 的標(biāo)簽值與標(biāo)簽真值不匹配的數(shù)據(jù)標(biāo)簽稱為"噪聲"標(biāo)簽。如果能夠利用現(xiàn)有數(shù)據(jù)的特征 信息,進(jìn)一步對(duì)這些噪聲進(jìn)行糾正,那么數(shù)據(jù)質(zhì)量可以獲得進(jìn)一步提升。
【發(fā)明內(nèi)容】
[0005] 針對(duì)現(xiàn)有技術(shù)所存在的上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于標(biāo)簽噪聲糾正的眾 包標(biāo)注數(shù)據(jù)質(zhì)量提升方法。該方法的總體技術(shù)框架包含如下步驟: (1)在初始的眾包標(biāo)注數(shù)據(jù)集及h運(yùn)行標(biāo)簽集成算法,得到標(biāo)簽集成后的數(shù)據(jù)集#,該 數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)樣本均獲得一個(gè)集成標(biāo)簽。在此過(guò)程中估計(jì)出標(biāo)注者的質(zhì)量和每個(gè) 樣本集成標(biāo)簽的質(zhì)量。所述的標(biāo)注者質(zhì)量,即標(biāo)注者賦予樣本的標(biāo)簽等同于樣本標(biāo)簽真值 的概率。所述的樣本集成標(biāo)簽的質(zhì)量,即樣本的集成標(biāo)簽等同于其標(biāo)簽真值的概率。
[0006] (2)對(duì)數(shù)據(jù)集Z/進(jìn)行娜府斤交叉驗(yàn)證,即在對(duì)數(shù)據(jù)集Z/進(jìn)行隨機(jī)打亂后,分成尤 份,其中每一份分別作為測(cè)試集,而余下的份作為訓(xùn)練集,訓(xùn)練出分類器。使用該分類 器對(duì)測(cè)試集中的每個(gè)樣本進(jìn)行標(biāo)簽預(yù)測(cè)。在每一輪的交叉驗(yàn)證中,構(gòu)建一個(gè)高質(zhì)量數(shù)據(jù)集。 總共構(gòu)建#高質(zhì)量數(shù)據(jù)集湖" ;,湖0,……,湖利用每一輪交叉驗(yàn)證過(guò)程中,每個(gè)樣 本獲得的標(biāo)簽類別預(yù)測(cè)概率,結(jié)合步驟(1)中得到的標(biāo)注者質(zhì)量和樣本集成標(biāo)簽質(zhì)量,對(duì)所 有樣本屬于標(biāo)簽噪聲樣本的可能性進(jìn)行排序,確定一定數(shù)量的標(biāo)簽噪聲樣本,這些樣本構(gòu) 成標(biāo)簽噪聲數(shù)據(jù)集#。從#刪除那些屬于#的樣本,余下的樣本構(gòu)成潔凈數(shù)據(jù)集#,三者 關(guān)系為所述的腐卩尤為該方法的參數(shù),其中滅漢值為不小于1的正整數(shù),尤 取值為不小于3的正整數(shù)。
[0007] (3)利用步驟(2)中所述的高質(zhì)量數(shù)據(jù)集湖";,湖@,……訓(xùn)練分類模 型,并利用該分類模型重新預(yù)測(cè)噪聲數(shù)據(jù)集#中全部樣本的類標(biāo)簽,并用預(yù)測(cè)出的類標(biāo)簽 替換原有的類標(biāo)簽,最終形成修正后的噪聲數(shù)據(jù)集
[0008] (4)將步驟(3)中所述Z/和步驟(2)中所述#合并成新的增強(qiáng)數(shù)據(jù)集#和步 驟(1)中所述#具有相同的樣本,但是#的標(biāo)簽質(zhì)量高于#。
[0009] 本發(fā)明利用到標(biāo)注樣本本身的特征屬性結(jié)合標(biāo)簽噪聲處理技術(shù)對(duì)集成標(biāo)簽中的 潛在錯(cuò)誤進(jìn)行糾正。本發(fā)明與傳統(tǒng)只進(jìn)行標(biāo)簽集成的方法相比具有以下有益效果: (1)本發(fā)明利用了被標(biāo)注樣本本身的特征屬性在標(biāo)簽集成方法的基礎(chǔ)上進(jìn)一步修正集 成中潛在的錯(cuò)誤標(biāo)簽,提升了最終數(shù)據(jù)集的標(biāo)簽質(zhì)量。
[0010] (2)本發(fā)明適用多種標(biāo)簽集成方法,具有通用性。
[0011] 本發(fā)明方法對(duì)各種類型的眾包數(shù)據(jù)均適用,包括但不限于:圖像、文本、視頻等任 務(wù)的二值標(biāo)注和多值標(biāo)注。
【附圖說(shuō)明】
[0012] 圖1為本發(fā)明方法的整體框架圖。
[0013] 圖2為本發(fā)明方法的一種實(shí)施方案流程圖。
【具體實(shí)施方式】
[0014] 為了更為具體地描述本發(fā)明,下面結(jié)合附圖詳細(xì)描述本發(fā)明的一種具體實(shí)施方 式。
[0015] 步驟(1):(眾包標(biāo)簽集成) (1-1)在初始的眾包數(shù)據(jù)集及h運(yùn)行一種標(biāo)簽集成算法。最常用的算法為多數(shù)投票算 法。該算法針對(duì)數(shù)據(jù)集中的每一個(gè)樣本i,對(duì)該樣本來(lái)自于多個(gè)標(biāo)注者的標(biāo)簽進(jìn)行數(shù)量統(tǒng) 計(jì),如果類別為^的標(biāo)簽具有最多的數(shù)量,那么該樣本的集成標(biāo)簽即為^。如果數(shù)目最多 的標(biāo)簽類別不止一種,那么隨機(jī)選一種類別作為該樣本的集成標(biāo)簽。
[0016] (1-2)數(shù)據(jù)集//中任意一個(gè)樣本i,其集成標(biāo)簽為免,標(biāo)注者武予樣本i的標(biāo) 簽為_(kāi)#,那么標(biāo)注者注質(zhì)莖麵::計(jì)算為:
其中堤#中樣本的數(shù)目,函數(shù)隱為指示器函數(shù),即在條件成立時(shí)返回1否則返回0。
[0017] 標(biāo)注者總數(shù)為則所有標(biāo)注者的平均標(biāo)注質(zhì)量fH十算為:
一個(gè)具有#眾包標(biāo)簽的樣本i,其集成標(biāo)簽質(zhì)量以十算為:
估算標(biāo)簽集成后潛在的噪聲數(shù)目的上下界σ和0分別計(jì)算為: ΓV'·
Γ/'ν 步驟(2):(噪聲識(shí)別)該步驟需要兩個(gè)參數(shù),府卩其中尤為下述Κ折交叉驗(yàn)證的折 數(shù),#是將要構(gòu)建的高質(zhì)量數(shù)據(jù)集的數(shù)目。一般#設(shè)置為1〇, #設(shè)置為5。
[0018] (2-1)步驟2-1是屬%的循環(huán)過(guò)程,每輪循環(huán)4勾建一個(gè)高質(zhì)量的數(shù)據(jù)集湖~并 進(jìn)行相關(guān)計(jì)算具體步驟如下: (2-1-1)將數(shù)據(jù)集Ζ/中的樣本順序隨機(jī)打亂,將Ζ/平均分成^份。一次將每一等份 作為測(cè)試集,其余個(gè)等份作為訓(xùn)練集。用這尤-7個(gè)等份數(shù)據(jù)訓(xùn)練分類器?,并使用這個(gè) 分類器對(duì)測(cè)試集中的樣本進(jìn)行預(yù)測(cè)。
[0019] (2-1-2)構(gòu)建的分類器?對(duì)每個(gè)樣本i進(jìn)行預(yù)測(cè),預(yù)測(cè)出樣本i屬于類別1,類別 2,……,類別崩概率分別為.__,__,……,|_。計(jì)舅
,其中/?類別總數(shù)。如果該樣本i的預(yù)測(cè)標(biāo)簽與其在步驟(1)中得到的集成標(biāo)