一種基于標(biāo)簽噪聲糾正的眾包標(biāo)注數(shù)據(jù)質(zhì)量提升方法

文檔序號(hào)：9645915閱讀：1620來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于標(biāo)簽噪聲糾正的眾包標(biāo)注數(shù)據(jù)質(zhì)量提升方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)標(biāo)注技術(shù)領(lǐng)域，具體涉及一種基于標(biāo)簽噪聲糾正的眾包標(biāo)注數(shù)據(jù) 質(zhì)量提升方法。
【背景技術(shù)】
[0002] 獲得高質(zhì)量的標(biāo)注數(shù)據(jù)是當(dāng)今信息檢索、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域的一項(xiàng)基礎(chǔ) 性工作。以機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)為例，其整個(gè)學(xué)習(xí)過(guò)程就是在一個(gè)規(guī)模適度的具有類標(biāo) 簽的數(shù)據(jù)集上進(jìn)行模型訓(xùn)練，從而獲得對(duì)未標(biāo)注樣本能夠準(zhǔn)確預(yù)測(cè)的學(xué)習(xí)模型。傳統(tǒng)上，訓(xùn) 練數(shù)據(jù)中的類標(biāo)簽通常是由該應(yīng)用領(lǐng)域的專家提供。專家提供的類標(biāo)簽準(zhǔn)確度高，有利于構(gòu)建高質(zhì)量的模型。然而，這種專家標(biāo)注本身卻代價(jià)高昂。隨著智能計(jì)算技術(shù)的發(fā)展，越來(lái) 越多的標(biāo)注需求不斷提出，采用專家標(biāo)注已經(jīng)不能滿足應(yīng)用需求。眾包系統(tǒng)的出現(xiàn)極大地緩解了這一問(wèn)題。很多標(biāo)注任務(wù)，例如文本標(biāo)注、圖像分類等，均可以通過(guò)眾包平臺(tái)發(fā)布到互聯(lián)網(wǎng)上，由來(lái)自互聯(lián)網(wǎng)的普通用戶進(jìn)行標(biāo)注。普通用戶完成數(shù)據(jù)標(biāo)注任務(wù)并獲得發(fā)布者提供的經(jīng)濟(jì)報(bào)酬。
[0003] 眾包標(biāo)注的出現(xiàn)使得獲得標(biāo)注數(shù)據(jù)的代價(jià)變小且時(shí)效性加強(qiáng)。但是，眾包標(biāo)注也有其固有的缺陷：標(biāo)注者均為來(lái)自互聯(lián)網(wǎng)的普通用戶，與傳統(tǒng)的專家標(biāo)注相比，其標(biāo)注質(zhì)量的不到保證。為了解決質(zhì)量低下的問(wèn)題，一種廣為采用的方法就每個(gè)標(biāo)注樣本讓不同的標(biāo) 注者進(jìn)行標(biāo)注，然后使用一種標(biāo)簽集成方法，獲得每個(gè)樣本最終的標(biāo)簽。目前已有的標(biāo)簽集成算法包括：多數(shù)投票算法、David和Skene算法（DS)，Raykar等人提出的算法（RY)， ZenCrowd算法等。這些標(biāo)簽集成算法從用戶的專業(yè)知識(shí)水平、用戶完成任務(wù)的投入程度、任務(wù)本身的難度等多個(gè)側(cè)面對(duì)眾包標(biāo)注系統(tǒng)進(jìn)行建模，并推理每個(gè)樣本的集成標(biāo)簽。相關(guān) 研究發(fā)現(xiàn)，雖然集成的方法多種多樣，但是沒(méi)有某種算法被公認(rèn)為性能最優(yōu)。在大多數(shù)情況下，標(biāo)簽集成后的數(shù)據(jù)質(zhì)量提升程度有限。這里數(shù)據(jù)質(zhì)量的定義為，樣本數(shù)據(jù)集成標(biāo)簽值與其標(biāo)簽真值之間的匹配程度。在整個(gè)標(biāo)注數(shù)據(jù)處理過(guò)程中，所有樣本的標(biāo)簽真值都是未知的，標(biāo)簽集成的目標(biāo)就是正確推理出每個(gè)樣本的標(biāo)簽，使之與其真值盡可能地匹配。
[0004] 上述標(biāo)簽集成算法無(wú)法進(jìn)一步提升數(shù)據(jù)質(zhì)量的一個(gè)主要原因?yàn)樗惴ㄖ焕昧藖?lái) 自多個(gè)不確定標(biāo)注者的標(biāo)簽信息，而忽略了數(shù)據(jù)本身的特征信息。本發(fā)明中將那些集成后的標(biāo)簽值與標(biāo)簽真值不匹配的數(shù)據(jù)標(biāo)簽稱為"噪聲"標(biāo)簽。如果能夠利用現(xiàn)有數(shù)據(jù)的特征信息，進(jìn)一步對(duì)這些噪聲進(jìn)行糾正，那么數(shù)據(jù)質(zhì)量可以獲得進(jìn)一步提升。

【發(fā)明內(nèi)容】

[0005] 針對(duì)現(xiàn)有技術(shù)所存在的上述技術(shù)問(wèn)題，本發(fā)明提供了一種基于標(biāo)簽噪聲糾正的眾包標(biāo)注數(shù)據(jù)質(zhì)量提升方法。該方法的總體技術(shù)框架包含如下步驟： (1)在初始的眾包標(biāo)注數(shù)據(jù)集及h運(yùn)行標(biāo)簽集成算法，得到標(biāo)簽集成后的數(shù)據(jù)集#，該數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)樣本均獲得一個(gè)集成標(biāo)簽。在此過(guò)程中估計(jì)出標(biāo)注者的質(zhì)量和每個(gè) 樣本集成標(biāo)簽的質(zhì)量。所述的標(biāo)注者質(zhì)量，即標(biāo)注者賦予樣本的標(biāo)簽等同于樣本標(biāo)簽真值的概率。所述的樣本集成標(biāo)簽的質(zhì)量，即樣本的集成標(biāo)簽等同于其標(biāo)簽真值的概率。
[0006] (2)對(duì)數(shù)據(jù)集Z/進(jìn)行娜府斤交叉驗(yàn)證，即在對(duì)數(shù)據(jù)集Z/進(jìn)行隨機(jī)打亂后，分成尤份，其中每一份分別作為測(cè)試集，而余下的份作為訓(xùn)練集，訓(xùn)練出分類器。使用該分類器對(duì)測(cè)試集中的每個(gè)樣本進(jìn)行標(biāo)簽預(yù)測(cè)。在每一輪的交叉驗(yàn)證中，構(gòu)建一個(gè)高質(zhì)量數(shù)據(jù)集。總共構(gòu)建#高質(zhì)量數(shù)據(jù)集湖" ;，湖0，……，湖利用每一輪交叉驗(yàn)證過(guò)程中，每個(gè)樣本獲得的標(biāo)簽類別預(yù)測(cè)概率，結(jié)合步驟（1)中得到的標(biāo)注者質(zhì)量和樣本集成標(biāo)簽質(zhì)量，對(duì)所有樣本屬于標(biāo)簽噪聲樣本的可能性進(jìn)行排序，確定一定數(shù)量的標(biāo)簽噪聲樣本，這些樣本構(gòu) 成標(biāo)簽噪聲數(shù)據(jù)集#。從#刪除那些屬于#的樣本，余下的樣本構(gòu)成潔凈數(shù)據(jù)集#，三者關(guān)系為所述的腐卩尤為該方法的參數(shù)，其中滅漢值為不小于1的正整數(shù)，尤取值為不小于3的正整數(shù)。
[0007] (3)利用步驟（2)中所述的高質(zhì)量數(shù)據(jù)集湖";，湖@，……訓(xùn)練分類模型，并利用該分類模型重新預(yù)測(cè)噪聲數(shù)據(jù)集#中全部樣本的類標(biāo)簽，并用預(yù)測(cè)出的類標(biāo)簽替換原有的類標(biāo)簽，最終形成修正后的噪聲數(shù)據(jù)集
[0008] (4)將步驟（3)中所述Z/和步驟（2)中所述#合并成新的增強(qiáng)數(shù)據(jù)集#和步驟（1)中所述#具有相同的樣本，但是#的標(biāo)簽質(zhì)量高于#。
[0009] 本發(fā)明利用到標(biāo)注樣本本身的特征屬性結(jié)合標(biāo)簽噪聲處理技術(shù)對(duì)集成標(biāo)簽中的潛在錯(cuò)誤進(jìn)行糾正。本發(fā)明與傳統(tǒng)只進(jìn)行標(biāo)簽集成的方法相比具有以下有益效果： (1)本發(fā)明利用了被標(biāo)注樣本本身的特征屬性在標(biāo)簽集成方法的基礎(chǔ)上進(jìn)一步修正集成中潛在的錯(cuò)誤標(biāo)簽，提升了最終數(shù)據(jù)集的標(biāo)簽質(zhì)量。
[0010] (2)本發(fā)明適用多種標(biāo)簽集成方法，具有通用性。
[0011] 本發(fā)明方法對(duì)各種類型的眾包數(shù)據(jù)均適用，包括但不限于：圖像、文本、視頻等任務(wù)的二值標(biāo)注和多值標(biāo)注。
【附圖說(shuō)明】
[0012] 圖1為本發(fā)明方法的整體框架圖。
[0013] 圖2為本發(fā)明方法的一種實(shí)施方案流程圖。
【具體實(shí)施方式】
[0014] 為了更為具體地描述本發(fā)明，下面結(jié)合附圖詳細(xì)描述本發(fā)明的一種具體實(shí)施方式。
[0015] 步驟（1):(眾包標(biāo)簽集成） (1-1)在初始的眾包數(shù)據(jù)集及h運(yùn)行一種標(biāo)簽集成算法。最常用的算法為多數(shù)投票算法。該算法針對(duì)數(shù)據(jù)集中的每一個(gè)樣本i，對(duì)該樣本來(lái)自于多個(gè)標(biāo)注者的標(biāo)簽進(jìn)行數(shù)量統(tǒng) 計(jì)，如果類別為^的標(biāo)簽具有最多的數(shù)量，那么該樣本的集成標(biāo)簽即為^。如果數(shù)目最多的標(biāo)簽類別不止一種，那么隨機(jī)選一種類別作為該樣本的集成標(biāo)簽。
[0016] (1-2)數(shù)據(jù)集//中任意一個(gè)樣本i，其集成標(biāo)簽為免，標(biāo)注者武予樣本i的標(biāo) 簽為_(kāi)#，那么標(biāo)注者注質(zhì)莖麵::計(jì)算為：
其中堤#中樣本的數(shù)目，函數(shù)隱為指示器函數(shù)，即在條件成立時(shí)返回1否則返回0。
[0017] 標(biāo)注者總數(shù)為則所有標(biāo)注者的平均標(biāo)注質(zhì)量fH十算為：
一個(gè)具有#眾包標(biāo)簽的樣本i，其集成標(biāo)簽質(zhì)量以十算為：
估算標(biāo)簽集成后潛在的噪聲數(shù)目的上下界σ和0分別計(jì)算為： ΓV'·
Γ/'ν 步驟（2):(噪聲識(shí)別）該步驟需要兩個(gè)參數(shù)，府卩其中尤為下述Κ折交叉驗(yàn)證的折數(shù)，#是將要構(gòu)建的高質(zhì)量數(shù)據(jù)集的數(shù)目。一般#設(shè)置為1〇, #設(shè)置為5。
[0018] (2-1)步驟2-1是屬％的循環(huán)過(guò)程，每輪循環(huán)4勾建一個(gè)高質(zhì)量的數(shù)據(jù)集湖~并進(jìn)行相關(guān)計(jì)算具體步驟如下： (2-1-1)將數(shù)據(jù)集Ζ/中的樣本順序隨機(jī)打亂，將Ζ/平均分成^份。一次將每一等份作為測(cè)試集，其余個(gè)等份作為訓(xùn)練集。用這尤-7個(gè)等份數(shù)據(jù)訓(xùn)練分類器?，并使用這個(gè) 分類器對(duì)測(cè)試集中的樣本進(jìn)行預(yù)測(cè)。
[0019] (2-1-2)構(gòu)建的分類器?對(duì)每個(gè)樣本i進(jìn)行預(yù)測(cè)，預(yù)測(cè)出樣本i屬于類別1，類別 2,……，類別崩概率分別為.__，__，……，|_。計(jì)舅
，其中/?類別總數(shù)。如果該樣本i的預(yù)測(cè)標(biāo)簽與其在步驟（1)中得到的集成標(biāo)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張靜;
技術(shù)所有人：張靜;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于標(biāo)簽噪聲糾正的眾包標(biāo)注數(shù)據(jù)質(zhì)量提升方法