語(yǔ)料標(biāo)注方法及設(shè)備的制作方法
【專(zhuān)利摘要】本發(fā)明提供一種語(yǔ)料標(biāo)注方法及設(shè)備,所述方法包括:獲取語(yǔ)料,獲取至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息為所述至少兩個(gè)標(biāo)注終端收集的用戶(hù)對(duì)所述語(yǔ)料的標(biāo)注信息,如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息一致,則獲取參考終端對(duì)所述語(yǔ)料的標(biāo)注信息,根據(jù)參考終端對(duì)所述語(yǔ)料的標(biāo)注信息及所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,確定所述語(yǔ)料的標(biāo)注結(jié)果,如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息不一致,則獲取所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。本發(fā)明實(shí)施例能夠提高語(yǔ)料標(biāo)注準(zhǔn)確度同時(shí)兼顧標(biāo)注效率。
【專(zhuān)利說(shuō)明】語(yǔ)料標(biāo)注方法及設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種語(yǔ)料標(biāo)注方法及設(shè)備。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)和移動(dòng)終端的普及應(yīng)用,各種形式的語(yǔ)料如洪水般涌來(lái),在自然語(yǔ)言處理、機(jī)器翻譯、計(jì)算機(jī)輔助學(xué)習(xí)等多個(gè)領(lǐng)域需要對(duì)語(yǔ)料進(jìn)行標(biāo)注。
[0003]傳統(tǒng)的語(yǔ)料標(biāo)注方法,一般由專(zhuān)職標(biāo)注員對(duì)語(yǔ)料進(jìn)行標(biāo)注,但是大型語(yǔ)料庫(kù)中需要標(biāo)注的語(yǔ)料眾多,人工進(jìn)行語(yǔ)料標(biāo)注效率較低。為了提高語(yǔ)料標(biāo)注效率,目前常采用標(biāo)注服務(wù)器對(duì)語(yǔ)料進(jìn)行自動(dòng)標(biāo)注,這種自動(dòng)標(biāo)注的方法標(biāo)注效率較高,但是標(biāo)注準(zhǔn)確率較低。
[0004]如何兼顧語(yǔ)料的標(biāo)注效率及準(zhǔn)確率是當(dāng)前需要解決的問(wèn)題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例提供一種語(yǔ)料標(biāo)注方法及設(shè)備,能夠兼顧語(yǔ)料的標(biāo)注效率及準(zhǔn)確率。
[0006]本發(fā)明實(shí)施例采用如下技術(shù)方案:
[0007]第一方面提供一種語(yǔ)料標(biāo)注方法,包括:
[0008]獲取語(yǔ)料;
[0009]獲取至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息為所述至少兩個(gè)標(biāo)注終端收集的用戶(hù)對(duì)所述語(yǔ)料的標(biāo)注信息;
[0010]如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息一致,則獲取參考終端對(duì)所述語(yǔ)料的標(biāo)注信息,根據(jù)參考終端對(duì)所述語(yǔ)料的標(biāo)注信息及所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,確定所述語(yǔ)料的標(biāo)注結(jié)果;
[0011]如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息不一致,則獲取所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。
[0012]可選的,根據(jù)參考終端對(duì)所述語(yǔ)料的標(biāo)注信息及所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,確定所述語(yǔ)料的標(biāo)注結(jié)果包括:
[0013]如果所述參考終端與所述至少兩個(gè)標(biāo)注終端反饋的標(biāo)注信息的匹配度大于預(yù)設(shè)閥值,則將所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果;
[0014]如果所述參考終端與所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息的匹配度小于預(yù)設(shè)閥值,則收集審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。
[0015]可選的,所述標(biāo)注結(jié)果包括:所述語(yǔ)料,標(biāo)識(shí)內(nèi)容,終端標(biāo)識(shí)。
[0016]可選的,所述標(biāo)注結(jié)果還包括以下至少一種:語(yǔ)料類(lèi)型標(biāo)識(shí),語(yǔ)料的評(píng)價(jià)等級(jí)。
[0017]可選的,所述獲取語(yǔ)料包括:
[0018]根據(jù)所述標(biāo)注終端語(yǔ)料標(biāo)注的準(zhǔn)確率,向所述至少兩個(gè)標(biāo)注終端分配語(yǔ)料。[0019]可選的,還包括:
[0020]以可擴(kuò)展標(biāo)記語(yǔ)言XML文件存儲(chǔ)所述語(yǔ)料的標(biāo)注結(jié)果。
[0021]可選的,所述以可擴(kuò)展標(biāo)記語(yǔ)言XML文件存儲(chǔ)所述語(yǔ)料的標(biāo)注結(jié)果之后,還包括:
[0022]生成所述語(yǔ)料的標(biāo)注結(jié)果對(duì)應(yīng)的第一索引指針,所述第一索引指針用于索引所述語(yǔ)料的標(biāo)注結(jié)果。
[0023]可選的,還包括:
[0024]將所述語(yǔ)料的標(biāo)注結(jié)果存儲(chǔ)到對(duì)應(yīng)的語(yǔ)料大型文件,并生成所述語(yǔ)料的標(biāo)注結(jié)果對(duì)應(yīng)的第二索引指針,所述第二索引指針包含所述語(yǔ)料大型文件的標(biāo)識(shí),及所述語(yǔ)料的標(biāo)注結(jié)果在所述語(yǔ)料大型文件中的地址信息。
[0025]第二方面提供ー種語(yǔ)料標(biāo)注設(shè)備,包括:
[0026]第一獲取單元,用于獲取語(yǔ)料;
[0027]第二獲取單元,用于獲取至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息;
[0028]第一標(biāo)注單元,用于如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息一致,則獲取參考終端對(duì)所述語(yǔ)料的標(biāo)注信息,根據(jù)參考終端對(duì)所述語(yǔ)料的標(biāo)注信息及所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,確定所述語(yǔ)料的標(biāo)注結(jié)果;
[0029]第二標(biāo)注單元,用于如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息不一致,則獲取所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。
[0030]可選的,所述第一標(biāo)注單元具體用于:
[0031]如果所述參考終端與所述至少兩個(gè)標(biāo)注終端反饋的標(biāo)注信息的匹配度大于預(yù)設(shè)閥值,則將所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果;
[0032]所述第一標(biāo)注單元還具體用干:如果所述參考終端與所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息的匹配度小于預(yù)設(shè)閥值,則收集審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。
[0033]基于上述技術(shù)方案,本實(shí)施例的語(yǔ)料標(biāo)注方法及設(shè)備,如果至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息一致,則獲取參考終端對(duì)所述語(yǔ)料的標(biāo)注信息,根據(jù)參考終端對(duì)語(yǔ)料的標(biāo)注信息及至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,確定語(yǔ)料的標(biāo)注結(jié)果,如果至少兩個(gè)標(biāo)注終端對(duì)語(yǔ)料的標(biāo)注信息不一致,則獲取審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將審核終端對(duì)語(yǔ)料的標(biāo)注信息作為語(yǔ)料的標(biāo)注結(jié)果。這樣,通過(guò)獲取多個(gè)標(biāo)注終端收集的用戶(hù)對(duì)語(yǔ)料的標(biāo)注信息,并根據(jù)參考終端、審核終端、標(biāo)注終端中選取語(yǔ)料的標(biāo)注結(jié)果,從而能夠提高語(yǔ)料標(biāo)注準(zhǔn)確度同時(shí)兼顧標(biāo)注效率。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0034]為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0035]圖1為本發(fā)明實(shí)施例1提供的ー種語(yǔ)料標(biāo)注方法的流程圖;
[0036]圖2為本發(fā)明實(shí)施例2提供的ー種語(yǔ)料標(biāo)注方法的流程圖;[0037]圖3為本發(fā)明實(shí)施例2提供的另一種語(yǔ)料標(biāo)注方法的流程圖;
[0038]圖4為本發(fā)明實(shí)施例2提供的又一種語(yǔ)料標(biāo)注方法的流程圖;
[0039]圖5為本發(fā)明實(shí)施例3提供的語(yǔ)料標(biāo)注實(shí)例一;
[0040]圖6為本發(fā)明實(shí)施例3提供的語(yǔ)料標(biāo)注實(shí)例二 ;
[0041]圖7為本發(fā)明實(shí)施例3提供的語(yǔ)料標(biāo)注實(shí)例三;
[0042]圖8為本發(fā)明實(shí)施例3提供的語(yǔ)料標(biāo)注實(shí)例四;
[0043]圖9為本發(fā)明實(shí)施例3提供的語(yǔ)料標(biāo)注實(shí)例五;
[0044]圖10為本發(fā)明實(shí)施例4提供的一種語(yǔ)料標(biāo)注設(shè)備的結(jié)構(gòu)示意圖;
[0045]圖11為本發(fā)明實(shí)施例4提供的一種硬件架構(gòu)示意圖。
【具體實(shí)施方式】
[0046]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0047]本發(fā)明實(shí)施例中“語(yǔ)料”,包括語(yǔ)音識(shí)別系統(tǒng)中的文本語(yǔ)料、語(yǔ)音語(yǔ)料,包括機(jī)器翻譯和自然語(yǔ)言處理領(lǐng)域中的單語(yǔ)文本語(yǔ)料、雙語(yǔ)文本對(duì)齊語(yǔ)料,亦包括計(jì)算機(jī)輔助評(píng)估系統(tǒng)中的文本語(yǔ)料、語(yǔ)音語(yǔ)料等。本發(fā)明實(shí)施例中的“標(biāo)注”,是指人工或設(shè)備對(duì)生語(yǔ)料或待使用語(yǔ)料所進(jìn)行的過(guò)濾、去噪、文字轉(zhuǎn)錄、語(yǔ)言翻譯、評(píng)價(jià)等操作。
[0048]實(shí)施例1
[0049]如圖1所示,本實(shí)施例提供一種語(yǔ)料標(biāo)注方法,該方法可以由語(yǔ)料標(biāo)注設(shè)備實(shí)現(xiàn),該方法包括:
[0050]11、獲取語(yǔ)料。
[0051]12、獲取至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息為所述至少兩個(gè)標(biāo)注終端收集的用戶(hù)對(duì)所述語(yǔ)料的標(biāo)注信息。
[0052]可選的,所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息還可以為所述至少兩個(gè)標(biāo)注終端自身對(duì)所述語(yǔ)料的標(biāo)注信息。
[0053]13、如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息一致,則獲取參考終端對(duì)所述語(yǔ)料的標(biāo)注信息,根據(jù)參考終端對(duì)所述語(yǔ)料的標(biāo)注信息及所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,確定所述語(yǔ)料的標(biāo)注結(jié)果。
[0054]可選的,所述參考終端對(duì)所述語(yǔ)料的標(biāo)注信息,可以為所述參考終端自身對(duì)所述語(yǔ)料的標(biāo)注信息,也可以為所述參考終端收集的用戶(hù)對(duì)所述語(yǔ)料的標(biāo)注信息。
[0055]14、如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息不一致,則獲取所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)
注結(jié)果。
[0056]可選的,所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,可以為所述審核終端自身對(duì)所述語(yǔ)料的標(biāo)注信息,也可以為所述審核終端收集的用戶(hù)對(duì)所述語(yǔ)料的標(biāo)注信息。
[0057]本實(shí)施例的語(yǔ)料標(biāo)注方法,如果至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息一致,則獲取參考終端對(duì)所述語(yǔ)料的標(biāo)注信息,根據(jù)參考終端對(duì)語(yǔ)料的標(biāo)注信息及至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,確定語(yǔ)料的標(biāo)注結(jié)果,如果至少兩個(gè)標(biāo)注終端對(duì)語(yǔ)料的標(biāo)注信息不一致,則獲取審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將審核終端對(duì)語(yǔ)料的標(biāo)注信息作為語(yǔ)料的標(biāo)注結(jié)果。這樣,通過(guò)獲取多個(gè)標(biāo)注終端收集的用戶(hù)對(duì)語(yǔ)料的標(biāo)注信息,并根據(jù)參考終端、審核終端、標(biāo)注終端中選取語(yǔ)料的標(biāo)注結(jié)果,從而能夠提高語(yǔ)料標(biāo)注準(zhǔn)確度同時(shí)兼顧標(biāo)注效率。
[0058]實(shí)施例2
[0059]本實(shí)施例中可以將語(yǔ)料視為數(shù)據(jù),由〈User, Resource, Tag〉三元組組成,其中,User為終端標(biāo)識(shí),用于標(biāo)識(shí)標(biāo)注語(yǔ)料的終端或者標(biāo)識(shí),Resource用于標(biāo)識(shí)數(shù)據(jù)資源的特征,Tag為標(biāo)簽,標(biāo)簽對(duì)象為廣義的標(biāo)記,可以是與數(shù)據(jù)內(nèi)容直接相關(guān)的詞語(yǔ)串,也可以是與數(shù)據(jù)內(nèi)容間接相關(guān)并具有一定標(biāo)引功能的標(biāo)簽,還可以是對(duì)數(shù)據(jù)資源進(jìn)行評(píng)價(jià)的等級(jí)數(shù)值。
[0060]本實(shí)施例可以采用標(biāo)注模型實(shí)現(xiàn)語(yǔ)料標(biāo)注,標(biāo)注模型包含用戶(hù)U = Iu1,...,%}、標(biāo)記T = It1,...,tT}、數(shù)據(jù)D = W1,..., dD},以及用于表示標(biāo)注關(guān)系的超邊集E =Ie1,...,eE}。本實(shí)施例中標(biāo)記T可以由具有特定含義的詞匯組成,并用W = (W1,...,ww}來(lái)表示不包含重復(fù)詞匯的詞表,這些詞匯既可以是數(shù)據(jù)內(nèi)容本身,也可以表示對(duì)數(shù)據(jù)內(nèi)容的一種概括。同時(shí),標(biāo)記也可以是對(duì)數(shù)據(jù)內(nèi)容的一種評(píng)價(jià)等級(jí)G = {g”...,gj,例如0分?5分,或好、中、差等級(jí)。而對(duì)于數(shù)據(jù)來(lái)說(shuō),既可以是純文本形式的數(shù)據(jù)C= {Cl,...,CJ,也可以是由物理上的語(yǔ)音信號(hào)組成的數(shù)據(jù)S= {Sl,...,Ss}。因此,本實(shí)施例的標(biāo)注可以是一個(gè)八元組模型A= (U,T,D,E,W,G,C,S)。本實(shí)施例中,每個(gè)數(shù)據(jù)將會(huì)獲得多個(gè)用戶(hù)的標(biāo)記,這樣可以增強(qiáng)標(biāo)注的準(zhǔn)確率。
[0061]如圖2所示,本實(shí)施例提供一種語(yǔ)料標(biāo)注方法,該方法可以通過(guò)語(yǔ)料標(biāo)注設(shè)備實(shí)現(xiàn),該方法包括:
[0062]21、向至少兩個(gè)標(biāo)注終端發(fā)送語(yǔ)料。
[0063]本實(shí)施例中,向標(biāo)注終端發(fā)送的語(yǔ)料可以從存儲(chǔ)的待標(biāo)注語(yǔ)料中選取,也可以從實(shí)時(shí)數(shù)據(jù)流中選取語(yǔ)料,本實(shí)施例不限定語(yǔ)料的來(lái)源。
[0064]另外,本實(shí)施例可以根據(jù)所述標(biāo)注終端語(yǔ)料標(biāo)注的準(zhǔn)確度,向所述至少兩個(gè)標(biāo)注終端分配語(yǔ)料。例如,當(dāng)標(biāo)注終端對(duì)機(jī)械領(lǐng)域的語(yǔ)料標(biāo)注準(zhǔn)確率較高,則優(yōu)先向標(biāo)注終端向分配機(jī)械領(lǐng)域的語(yǔ)料。
[0065]本實(shí)施例中語(yǔ)料可以從數(shù)據(jù)流中獲取,數(shù)據(jù)流從前端系統(tǒng)流進(jìn),對(duì)數(shù)據(jù)流進(jìn)行過(guò)濾去除數(shù)據(jù)流中無(wú)效的語(yǔ)料。具體地,本實(shí)施例可以通過(guò)字面淺層檢測(cè)、信號(hào)層檢測(cè)和機(jī)器自動(dòng)運(yùn)行結(jié)果的置信度過(guò)濾數(shù)據(jù)流。
[0066]22、獲取至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息為所述至少兩個(gè)標(biāo)注終端收集的用戶(hù)對(duì)所述語(yǔ)料的標(biāo)注信息。
[0067]具體地,本實(shí)施例可以采用“興趣+收獲+報(bào)酬(Interest+Achievement+Money, IAM)”的方式對(duì)標(biāo)注任務(wù)有效組織和分解來(lái)增強(qiáng)標(biāo)注趣味性,通過(guò)將標(biāo)注任務(wù)與語(yǔ)言學(xué)習(xí)進(jìn)行結(jié)合來(lái)提高用戶(hù)對(duì)語(yǔ)料標(biāo)注的收獲感和成就感,通過(guò)對(duì)用戶(hù)標(biāo)注數(shù)量和質(zhì)量的積分累計(jì)來(lái)進(jìn)行報(bào)酬兌換,以便進(jìn)一步提高用戶(hù)對(duì)語(yǔ)料標(biāo)注的積極性。
[0068]可選地,本實(shí)施例中為了增強(qiáng)標(biāo)注的便捷性和靈活性,本實(shí)施例對(duì)標(biāo)注任務(wù)進(jìn)行有效的分解和組織,將總體標(biāo)注任務(wù)分解為多個(gè)簡(jiǎn)便的子任務(wù)。[0069]可選地,本實(shí)施例中標(biāo)注任務(wù)可以配以生動(dòng)的界面或簡(jiǎn)單動(dòng)畫(huà),以減輕用戶(hù)標(biāo)注過(guò)程中的枯燥性和疲勞感。
[0070]可選地,為本實(shí)施例中了與語(yǔ)言學(xué)習(xí)相結(jié)合,特別是針對(duì)英語(yǔ)語(yǔ)料的標(biāo)注,用戶(hù)可以選擇多次播放語(yǔ)音內(nèi)容,或多次播放動(dòng)畫(huà),加強(qiáng)對(duì)不熟悉單詞的聽(tīng)辨能力,并可以查看本人已經(jīng)標(biāo)注過(guò)的所有任務(wù),通過(guò)比較其他用戶(hù)的評(píng)價(jià)來(lái)衡量聽(tīng)辨水平或改正錯(cuò)誤。
[0071]可選地,本實(shí)施例中可以將每次有效的標(biāo)注分別給予不同的積分,任務(wù)難度越大則積分也越高,這樣可以保證任務(wù)的均勻分布和有效推進(jìn)。當(dāng)用戶(hù)積分達(dá)到一定數(shù)量,可以選擇兌換報(bào)酬或禮品,用戶(hù)標(biāo)注的數(shù)量越多、質(zhì)量越高,則報(bào)酬也越豐厚。這里的有效標(biāo)注指的是指被確定為標(biāo)注結(jié)果的標(biāo)注,以防止用戶(hù)胡亂標(biāo)注或作弊。
[0072]23、如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息一致,則獲取參考終端對(duì)所述語(yǔ)料的標(biāo)注信息。
[0073]其中,本實(shí)施例可以設(shè)置匹配度閥值,當(dāng)至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息為超出匹配度閥值時(shí),判定至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息一致。
[0074]其中,參考終端對(duì)所述語(yǔ)料的標(biāo)注信息可以是,參考終端收集的標(biāo)注準(zhǔn)確率較高的用戶(hù)對(duì)語(yǔ)料的標(biāo)注信息,或者指定用戶(hù)對(duì)語(yǔ)料的標(biāo)注信息。
[0075]24、如果所述參考終端與所述至少兩個(gè)標(biāo)注終端反饋的標(biāo)注信息的匹配度大于預(yù)設(shè)閥值,則將所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。
[0076]其中,預(yù)設(shè)閥值可以根據(jù)不同的應(yīng)用場(chǎng)景進(jìn)行變更。
[0077]25、如果所述參考終端與所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息的匹配度小于預(yù)設(shè)閥值,則收集審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。
[0078]其中,審核終端對(duì)所述語(yǔ)料的標(biāo)注信息可以是,審核終端收集的標(biāo)注準(zhǔn)確率較高的用戶(hù)對(duì)語(yǔ)料的標(biāo)注信息,或者指定用戶(hù)對(duì)語(yǔ)料的標(biāo)注信息。
[0079]如圖3所示,本實(shí)施例提供另一種語(yǔ)料標(biāo)注方法,上述22之后包括:
[0080]26、如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息不一致,則獲取所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。
[0081]其中,審核終端對(duì)所述語(yǔ)料的標(biāo)注信息可以是,審核終端收集的標(biāo)注準(zhǔn)確率較高的用戶(hù)對(duì)語(yǔ)料的標(biāo)注信息,或者指定用戶(hù)對(duì)語(yǔ)料的標(biāo)注信息。
[0082]本實(shí)施例中,標(biāo)注終端提供的對(duì)語(yǔ)料的標(biāo)注信息、參考終端對(duì)語(yǔ)料的標(biāo)注信息、審核終端對(duì)語(yǔ)料的標(biāo)注信息、語(yǔ)料的標(biāo)注結(jié)果可以包括:被標(biāo)注的語(yǔ)料,標(biāo)識(shí)內(nèi)容,終端標(biāo)識(shí)。還包括以下至少一種:語(yǔ)料類(lèi)型標(biāo)識(shí),語(yǔ)料的評(píng)價(jià)等級(jí)。其中,被標(biāo)注的語(yǔ)料即分配到標(biāo)注終端、參考終端、審核終端進(jìn)行標(biāo)注的語(yǔ)料,標(biāo)識(shí)內(nèi)容為對(duì)語(yǔ)料的標(biāo)注,終端標(biāo)識(shí)可以為終端的代碼,語(yǔ)料類(lèi)型標(biāo)識(shí)用于表示語(yǔ)料的類(lèi)型,如文本語(yǔ)料,語(yǔ)音預(yù)料等,語(yǔ)料的評(píng)價(jià)等級(jí)可以標(biāo)識(shí)對(duì)語(yǔ)料的評(píng)價(jià)。
[0083]如圖4所示,本實(shí)施例中,上述24、25、26中得到語(yǔ)料的標(biāo)注結(jié)果之后,還包括:
[0084]27、以XML (英文全稱(chēng)為!Extensible Markup Language,中文譯文為:可擴(kuò)展標(biāo)記語(yǔ)言)文件存儲(chǔ)所述語(yǔ)料的標(biāo)注結(jié)果。
[0085]具體地,在語(yǔ)料獲得成功標(biāo)注后,生成一個(gè)語(yǔ)料對(duì)應(yīng)的XML文件文件,用以存儲(chǔ)標(biāo)注信息。XML文件的具體內(nèi)容包括文件名〈FILENAME〉、對(duì)應(yīng)的數(shù)據(jù)文件〈DATAFILE〉、內(nèi)容標(biāo)記結(jié)果〈TEXTRESULT〉、標(biāo)簽標(biāo)記結(jié)果〈TAGRESULT〉、等級(jí)標(biāo)記結(jié)果〈GRADERESULT〉以及各用戶(hù)的標(biāo)注日志信息〈USER〉等。采用XML文件存儲(chǔ)標(biāo)注信息便于對(duì)標(biāo)注信息進(jìn)行索引。
[0086]28、生成所述語(yǔ)料的標(biāo)注結(jié)果對(duì)應(yīng)的第一索引指針,所述第一索引指針用于索引所述語(yǔ)料的標(biāo)注結(jié)果。
[0087]具體地,本實(shí)施例可以采用倒排索引算法對(duì)語(yǔ)料庫(kù)生成第一索引指針,索引項(xiàng)是標(biāo)注信息中的基本語(yǔ)言單元,索引值是該基本語(yǔ)言單元所對(duì)應(yīng)語(yǔ)料數(shù)據(jù)的地址或指針。這里的基本語(yǔ)言單元可以是內(nèi)容標(biāo)記中的詞匯,可以是標(biāo)簽標(biāo)記中的標(biāo)簽項(xiàng)詞匯,也可以是評(píng)價(jià)等級(jí)標(biāo)記,內(nèi)容標(biāo)記的詞表可以有幾萬(wàn)詞或幾十萬(wàn)詞,標(biāo)簽詞匯可以有幾百個(gè)或上千個(gè),等級(jí)標(biāo)記可以是數(shù)值等級(jí)、數(shù)值分?jǐn)?shù)或文字描述等級(jí)等形式,而相應(yīng)的語(yǔ)料數(shù)據(jù)則有上百萬(wàn)句甚至更多,每個(gè)語(yǔ)料文件伴隨一個(gè)標(biāo)注文件,每個(gè)標(biāo)注文件所關(guān)聯(lián)的內(nèi)容標(biāo)記和標(biāo)簽標(biāo)記詞匯從幾個(gè)到幾十個(gè)不等,所關(guān)聯(lián)的等級(jí)標(biāo)記可以有一個(gè)或多個(gè)。
[0088]每個(gè)數(shù)據(jù)文件指定一個(gè)唯一的標(biāo)識(shí)符,記為ID_DF_xxxxxx,每個(gè)標(biāo)注文件也有一個(gè)唯一標(biāo)識(shí)符,記為ID_AF_xxxxxx,其中后綴xxxxxx表示不重復(fù)的序號(hào)。顯然,標(biāo)注信息的基本語(yǔ)言單元將會(huì)出現(xiàn)在一個(gè)或多個(gè)標(biāo)注文件中。此處,將內(nèi)容標(biāo)記的詞匯所組成的集合(即詞表)記為SET_W0RD,將標(biāo)簽詞匯組成的集合記為SET_TAG,將等級(jí)標(biāo)記的集合記為SET_GRADE。
[0089]如果標(biāo)注信息的基本語(yǔ)言單元X出現(xiàn)在多個(gè)標(biāo)注文件中,那么多個(gè)標(biāo)注文件的標(biāo)識(shí)符所組成的集合稱(chēng)為該基本語(yǔ)言單元X的伴隨集合,記為x{}。本實(shí)施例中以基本語(yǔ)言單元為索引項(xiàng)或關(guān)鍵詞,以伴隨集合作為該索引項(xiàng)的值,來(lái)建立相應(yīng)的倒排索引表,此時(shí)索引表中的每條記錄包含兩部分,形式如下:
[0090]X — X {}
[0091]其中,X為基本語(yǔ)言單元,X{}為X的伴隨集合。通過(guò)此過(guò)程,我們可以分別建立出內(nèi)容標(biāo)記詞匯的倒排索引表W0RD_LiSt,以及標(biāo)簽詞匯的倒排索弓I表TAG_LiSt,還有等級(jí)標(biāo)記的倒排索引表GRADE_List。
[0092]29、將所述語(yǔ)料的標(biāo)注結(jié)果存儲(chǔ)到對(duì)應(yīng)的語(yǔ)料大型文件,并生成所述語(yǔ)料的標(biāo)注結(jié)果對(duì)應(yīng)的第二索引指針,所述第二索引指針包含所述語(yǔ)料大型文件的標(biāo)識(shí),及所述語(yǔ)料的標(biāo)注結(jié)果在所述語(yǔ)料大型文件中的地址信息。
[0093]當(dāng)語(yǔ)料數(shù)據(jù)巨大的時(shí)候,在存取速度優(yōu)先的考慮下,將語(yǔ)料庫(kù)中的所有語(yǔ)料文件合并為幾個(gè)大型的數(shù)據(jù)文件,將標(biāo)注庫(kù)中的所有標(biāo)注文件合并為幾個(gè)大型的標(biāo)注文件。分別建立語(yǔ)料文件和標(biāo)注文件的二級(jí)索引(地址索引)。對(duì)于語(yǔ)料文件的地址索引,其記錄形式如下:
[0094]ID_DF_xxxxxx — ID_DF_xxxxxx_Addr
[0095]其中,ID_DF_xxxxxx表示語(yǔ)料文件標(biāo)識(shí)符,而ID_DF_xxxxxx_Addr表示該語(yǔ)料文件的地址。對(duì)于標(biāo)注文件的地址索引,其記錄形式如下:
[0096]ID_AF_xxxxxx — ID_AF_xxxxxx_Addr
[0097]其中,ID_AF_xxxxxx表示標(biāo)注文件標(biāo)識(shí)符,而ID_AF_xxxxxx_Addr表示該標(biāo)注文件的地址。通過(guò)此過(guò)程,我們可以分別建立語(yǔ)料文件的地址索引表DF_List,以及標(biāo)注文件的地址索引表AF_List。[0098]本實(shí)施例中,存儲(chǔ)語(yǔ)料標(biāo)注之后,建立與某組標(biāo)簽相關(guān)的專(zhuān)項(xiàng)測(cè)試集時(shí),可以在標(biāo)簽詞匯倒排索引表中搜索到包含該組標(biāo)簽詞匯的文檔ID,通過(guò)語(yǔ)料文件的地址索引表和標(biāo)注文件的地址索引表分別獲取對(duì)應(yīng)的語(yǔ)料數(shù)據(jù)和標(biāo)注信息,從而完成測(cè)試集的構(gòu)建。
[0099]本實(shí)施例的語(yǔ)料標(biāo)注方法,如果至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息一致,則獲取參考終端對(duì)所述語(yǔ)料的標(biāo)注信息,根據(jù)參考終端對(duì)語(yǔ)料的標(biāo)注信息及至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,確定語(yǔ)料的標(biāo)注結(jié)果,如果至少兩個(gè)標(biāo)注終端對(duì)語(yǔ)料的標(biāo)注信息不一致,則獲取審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將審核終端對(duì)語(yǔ)料的標(biāo)注信息作為語(yǔ)料的標(biāo)注結(jié)果。這樣,通過(guò)獲取多個(gè)標(biāo)注終端收集的用戶(hù)對(duì)語(yǔ)料的標(biāo)注信息,并根據(jù)參考終端、審核終端、標(biāo)注終端中選取語(yǔ)料的標(biāo)注結(jié)果,從而能夠提高語(yǔ)料標(biāo)注準(zhǔn)確度同時(shí)兼顧標(biāo)注效率。
[0100]實(shí)施例3
[0101]本實(shí)施例結(jié)合具體實(shí)例詳細(xì)介紹語(yǔ)料標(biāo)注的實(shí)現(xiàn)方法,上述實(shí)施例中標(biāo)注終端、參考終端、審核終端可以應(yīng)用本實(shí)施例的語(yǔ)料標(biāo)注方法可以對(duì)語(yǔ)料進(jìn)行標(biāo)注。
[0102]本實(shí)施例標(biāo)注語(yǔ)音識(shí)別任務(wù)時(shí),可以采用圖5所示的標(biāo)注格式。將任務(wù)細(xì)化分解,使得任務(wù)能夠在多個(gè)用戶(hù)流水線(xiàn)操作的模式下得到有效的標(biāo)注。
[0103]步驟1:將語(yǔ)音標(biāo)注任務(wù)分解為“知道我在說(shuō)什么嗎?”、“挑刺啦”、“比比誰(shuí)更好? ”和“給我打個(gè)標(biāo)簽吧! ”四個(gè)子任務(wù),以增強(qiáng)整個(gè)任務(wù)的趣味性、靈活性和簡(jiǎn)易性。
[0104]步驟2:四個(gè)子任務(wù)環(huán)環(huán)相扣,“知道我在說(shuō)什么嗎?”子任務(wù)需要用戶(hù)通過(guò)聽(tīng)音轉(zhuǎn)錄語(yǔ)音內(nèi)容,“挑刺啦”子任務(wù)用于改正之前的標(biāo)注錯(cuò)誤,“比比誰(shuí)更好? ”子任務(wù)用于讓用戶(hù)自行評(píng)價(jià)多個(gè)標(biāo)注結(jié)果,“給我打個(gè)標(biāo)簽吧! ”子任務(wù)則要求用戶(hù)為數(shù)據(jù)打上合適的標(biāo)簽,該標(biāo)簽是用戶(hù)根據(jù)標(biāo)注信息或語(yǔ)音本身所作出的自由式理解和概括,可以是面向內(nèi)容的領(lǐng)域標(biāo)簽、主題標(biāo)簽和語(yǔ)義標(biāo)簽,也可以是面向信號(hào)層的信噪比標(biāo)簽、異常標(biāo)簽和情感標(biāo)簽等,這些分類(lèi)標(biāo)簽將為后續(xù)多維度數(shù)據(jù)集的自動(dòng)構(gòu)建提供依據(jù)。
[0105]步驟3:對(duì)于每個(gè)子任務(wù),將每次有效的標(biāo)注分別給予不同的積分,“知道我在說(shuō)什么嗎?”、“挑刺啦”、“比比誰(shuí)更好? ”和“給我打個(gè)標(biāo)簽吧! ”四個(gè)子任務(wù)的單位積分分別為5分、3分、2分和I分,任務(wù)難度越大積分也越高,這樣可以保證任務(wù)的均勻分布和有效推進(jìn)。
[0106]步驟4:至于本實(shí)施例的質(zhì)量監(jiān)控流程,需要進(jìn)行詞匯串間的一致性比較,本實(shí)施例采用基于WER (Word Error Rate)的編輯距離指標(biāo)來(lái)進(jìn)行度量。對(duì)于兩個(gè)詞匯串strl和str2,如果將strl作為參考串,則一致性計(jì)算公式為:
[0107]corr = l_wer = 1- (#ins+#del+#sub) #ref
[0108]其中,#ins、#del和#sub分別是strl和str2進(jìn)行對(duì)齊所產(chǎn)生的插入、刪除和替換數(shù)目,而#ref則是參考串strl的長(zhǎng)度。在標(biāo)注過(guò)程中,一致性指標(biāo)的接受閾值可以根據(jù)標(biāo)注任務(wù)的具體要求和精度進(jìn)行調(diào)整,例如,只有一致性高于0.60的標(biāo)注信息才被接受。
[0109]本實(shí)施例標(biāo)注面向機(jī)器翻譯的任務(wù)時(shí),可以采用圖6所示的標(biāo)注格式。為了保證翻譯質(zhì)量和提高進(jìn)度,將任務(wù)進(jìn)行有效的細(xì)化分解,使得翻譯任務(wù)在多個(gè)用戶(hù)流水線(xiàn)操作的模式下得到有效的運(yùn)行。
[0110]步驟1:將翻譯標(biāo)注任務(wù)分解為“把我翻譯成英文吧”、“挑刺啦”、“比比誰(shuí)翻譯的更好? ”和“給我打個(gè)標(biāo)簽吧! ”四個(gè)子任務(wù),以增強(qiáng)整個(gè)任務(wù)的趣味性、靈活性和簡(jiǎn)易性。
[0111]步驟2:四個(gè)子任務(wù)環(huán)環(huán)相扣,“把我翻譯成英文吧”子任務(wù)需要用戶(hù)把源語(yǔ)言?xún)?nèi)容翻譯成另外一種目標(biāo)語(yǔ)言,比如中文翻譯成英文,“挑刺啦”子任務(wù)用于改正之前的標(biāo)注錯(cuò)誤,“比比誰(shuí)翻譯的更好? ”子任務(wù)用于讓用戶(hù)自行評(píng)價(jià)多個(gè)翻譯結(jié)果,“給我打個(gè)標(biāo)簽吧! ”子任務(wù)則要求用戶(hù)為數(shù)據(jù)打上合適的標(biāo)簽,該標(biāo)簽是用戶(hù)根據(jù)標(biāo)注信息所作出的自由式理解和概括,可以是面向內(nèi)容的領(lǐng)域標(biāo)簽、主題標(biāo)簽和語(yǔ)義標(biāo)簽等,這些分類(lèi)標(biāo)簽將為后續(xù)多維度數(shù)據(jù)集的自動(dòng)構(gòu)建提供依據(jù)。
[0112]步驟3:對(duì)于每個(gè)子任務(wù),將每次有效的標(biāo)注分別給予不同的積分,“把我翻譯成英文吧”、“挑刺啦”、“比比誰(shuí)翻譯的更好? ”和“給我打個(gè)標(biāo)簽吧! ”四個(gè)子任務(wù)的單位積分分別為10分、5分、3分和2分,任務(wù)難度越大積分也越聞,這樣可以保證任務(wù)的均勻分布和有效推進(jìn)。由于相比內(nèi)容轉(zhuǎn)錄任務(wù),翻譯任務(wù)難度更大一些,因此翻譯任務(wù)的單位積分相對(duì)高一些。
[0113]步驟4:至于本實(shí)施例的質(zhì)量監(jiān)控環(huán)節(jié),由于對(duì)于同一個(gè)源語(yǔ)言句子,可能會(huì)存在其他語(yǔ)言的多種表達(dá)方式,因此多個(gè)標(biāo)注人員所翻譯標(biāo)注出的結(jié)果可能都是正確有效的。然而,機(jī)器自動(dòng)質(zhì)量評(píng)價(jià)還不能做到對(duì)此類(lèi)靈活多樣表達(dá)方式的準(zhǔn)確評(píng)判,因此本發(fā)明將通過(guò)人工評(píng)價(jià)的方式選擇評(píng)價(jià)得分較高的前N個(gè)翻譯結(jié)果作為最終的翻譯標(biāo)注結(jié)果。
[0114]本實(shí)施例標(biāo)注面向雙語(yǔ)對(duì)齊語(yǔ)料過(guò)濾的任務(wù)時(shí),可以采用圖7所示的標(biāo)注格式。
[0115]步驟1:將過(guò)濾標(biāo)注任務(wù)分解為“雙語(yǔ)對(duì)是否匹配? ”和“給我打個(gè)標(biāo)簽吧! ”兩個(gè)子任務(wù)。
[0116]步驟2: “雙語(yǔ)對(duì)是否匹配? ”子任務(wù)用于讓用戶(hù)自行評(píng)價(jià)給出的雙語(yǔ)對(duì)齊語(yǔ)料中源語(yǔ)言和目標(biāo)語(yǔ)言是否匹配,“給我打個(gè)標(biāo)簽吧! ”子任務(wù)則要求用戶(hù)為數(shù)據(jù)打上合適的標(biāo)簽,該標(biāo)簽是用戶(hù)根據(jù)標(biāo)注信息所作出的自由式理解和概括,可以是面向內(nèi)容的領(lǐng)域標(biāo)簽、主題標(biāo)簽和語(yǔ)義標(biāo)簽等,這些分類(lèi)標(biāo)簽將為后續(xù)多維度數(shù)據(jù)集的自動(dòng)構(gòu)建提供依據(jù)。
[0117]步驟3:對(duì)于每個(gè)子任務(wù),將每次有效的標(biāo)注分別給予不同的積分,“雙語(yǔ)對(duì)是否匹配? ”和“給我打個(gè)標(biāo)簽吧! ”兩個(gè)子任務(wù)的單位積分分別為3分和2分。由于過(guò)濾任務(wù)相對(duì)容易,因此過(guò)濾任務(wù)的單位積分相對(duì)低一些。
[0118]步驟4:至于本實(shí)施例的質(zhì)量監(jiān)控環(huán)節(jié),由于需要進(jìn)行過(guò)濾的語(yǔ)料規(guī)模巨大,因此本發(fā)明將針對(duì)某條雙語(yǔ)語(yǔ)料進(jìn)行匹配判決的多個(gè)人工判決的多數(shù)結(jié)果作為最終標(biāo)注結(jié)果,同時(shí)對(duì)于某些沒(méi)有價(jià)值的語(yǔ)料對(duì),當(dāng)任意標(biāo)注人員判決為沒(méi)有價(jià)值時(shí),則直接過(guò)濾掉。
[0119]本實(shí)施例標(biāo)注面向口語(yǔ)評(píng)估任務(wù)的任務(wù)時(shí),可以采用圖8所示的標(biāo)注格式。面向口語(yǔ)評(píng)估任務(wù)的標(biāo)注主要是面向計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)領(lǐng)域的對(duì)口語(yǔ)語(yǔ)音發(fā)音質(zhì)量的評(píng)估,即對(duì)一段口語(yǔ)語(yǔ)音的內(nèi)容完整度、發(fā)音準(zhǔn)確度、流利度和韻律性進(jìn)行評(píng)判。口語(yǔ)評(píng)估的主觀(guān)性很強(qiáng),不同專(zhuān)家的評(píng)估不盡相同,同一個(gè)專(zhuān)家在不同時(shí)間和環(huán)境下的評(píng)估也不盡相同,對(duì)于此類(lèi)標(biāo)注任務(wù),必須通過(guò)大量標(biāo)注人員的多數(shù)評(píng)估才能給出比較客觀(guān)的標(biāo)注結(jié)果,因此非常適合利用眾包標(biāo)注形式。
[0120]步驟1: 口語(yǔ)評(píng)估包含四個(gè)層次,分別是內(nèi)容完整度評(píng)估、發(fā)音準(zhǔn)確度評(píng)估、流暢性評(píng)估和韻律性評(píng)估,因此將口語(yǔ)評(píng)估任務(wù)分解為四個(gè)子任務(wù),然后通過(guò)四個(gè)子任務(wù)的評(píng)估標(biāo)注結(jié)果可以給出口語(yǔ)評(píng)估的整體結(jié)果。
[0121]步驟2:四個(gè)子任務(wù)盡量解耦,以便增強(qiáng)子任務(wù)的可操作性?!皟?nèi)容完整度評(píng)估”子任務(wù)是衡量口語(yǔ)語(yǔ)音中是否涵蓋了要求表達(dá)的內(nèi)容,“發(fā)音準(zhǔn)確度評(píng)估”子任務(wù)用于衡量口語(yǔ)發(fā)音的準(zhǔn)確程度,例如元音發(fā)音準(zhǔn)確度、輔音發(fā)音準(zhǔn)確度、單詞重音位置準(zhǔn)確性等,“流暢性評(píng)估”子任務(wù)用于衡量口語(yǔ)發(fā)音是否流利、是否存在大量重復(fù)修正等,“韻律性評(píng)估”子任務(wù)則是衡量口語(yǔ)發(fā)音的整體韻律性,包括聲調(diào)、語(yǔ)調(diào)、節(jié)奏等。
[0122]步驟3:對(duì)于每個(gè)子任務(wù),將每次有效的標(biāo)注分別給予不同的積分,“內(nèi)容完整度評(píng)估”、“發(fā)音準(zhǔn)確度評(píng)估”、“流暢性評(píng)估”和“韻律性評(píng)估”四個(gè)子任務(wù)的單位積分分別為3分、5分、3分和4分,評(píng)價(jià)難度越大積分也越聞。
[0123]步驟4: 口語(yǔ)評(píng)估任務(wù)的評(píng)估等級(jí)設(shè)置非常關(guān)鍵,等級(jí)層數(shù)太多,則很難進(jìn)行判斷,等級(jí)層數(shù)太少,則評(píng)判精度低,不能充分反映區(qū)分度。本實(shí)施例中使用優(yōu)、良、中、差四個(gè)評(píng)估等級(jí)。
[0124]步驟5:至于本實(shí)施例的質(zhì)量監(jiān)控環(huán)節(jié),本發(fā)明將選擇針對(duì)某段待評(píng)估的口語(yǔ)數(shù)據(jù)的多個(gè)人工判決的多數(shù)結(jié)果作為最終標(biāo)注結(jié)果。同時(shí),對(duì)于某些內(nèi)容完整度很低的數(shù)據(jù)樣本,將不會(huì)送入發(fā)音準(zhǔn)確度、流暢性和韻律性評(píng)估階段,因?yàn)樵趦?nèi)容完整度太低的情況下已經(jīng)失去進(jìn)一步評(píng)估的意義。
[0125]本實(shí)施例標(biāo)注面向作文評(píng)估的任務(wù)時(shí),可以采用圖9所示的標(biāo)注格式。面向作文評(píng)估任務(wù)的標(biāo)注主要是面向計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)領(lǐng)域中對(duì)文本作文質(zhì)量進(jìn)行的評(píng)估,即對(duì)一段文本作文的內(nèi)容完整度、詞匯能力、句子流利度和篇章主題性進(jìn)行評(píng)判。作文評(píng)估的主觀(guān)性很強(qiáng),不同專(zhuān)家的評(píng)估不盡相同,同一個(gè)專(zhuān)家在不同時(shí)間和環(huán)境下的評(píng)估也不盡相同,對(duì)于此類(lèi)評(píng)估任務(wù)來(lái)說(shuō),必須通過(guò)大量標(biāo)注人員的多數(shù)評(píng)估才能給出比較客觀(guān)的標(biāo)注結(jié)果,因此非常適合利用眾包標(biāo)注形式。
[0126]步驟1:作文評(píng)估包含四個(gè)層次,分別是內(nèi)容完整度評(píng)估、詞匯運(yùn)用能力評(píng)估、句子流暢性評(píng)估和篇章主題性評(píng)估,因此將作文評(píng)估任務(wù)分解為四個(gè)子任務(wù),然后通過(guò)四個(gè)子任務(wù)的評(píng)估標(biāo)注結(jié)果可以給出作文評(píng)估的整體結(jié)果。
[0127]步驟2:四個(gè)子任務(wù)盡量解耦,以便增強(qiáng)子任務(wù)的可操作性。“內(nèi)容完整度評(píng)估”子任務(wù)是衡量文本作文中是否涵蓋了要求表達(dá)的內(nèi)容,“詞匯運(yùn)用能力評(píng)估”子任務(wù)用于衡量文本作文中對(duì)詞匯運(yùn)用能力的評(píng)價(jià),例如詞匯使用是否恰當(dāng)、詞匯是否豐富等,“句子流暢性評(píng)估”子任務(wù)用于衡量文本作文是否流利、是否存在大量重復(fù)修正等,“篇章主題性評(píng)估”子任務(wù)則是衡量文本作文所闡釋的主題是否與題目要求吻合。
[0128]步驟3:對(duì)于每個(gè)子任務(wù),將每次有效的標(biāo)注分別給予不同的積分,“內(nèi)容完整度評(píng)估”、“詞匯運(yùn)用能力評(píng)估”、“流暢性評(píng)估”和“篇章主題性評(píng)估”四個(gè)子任務(wù)的單位積分分別為3分、5分、5分和7分,評(píng)價(jià)難度越大積分也越高。
[0129]步驟4:作文評(píng)估任務(wù)的評(píng)估等級(jí)設(shè)置非常關(guān)鍵,等級(jí)層數(shù)太多,則很難進(jìn)行判斷,等級(jí)層數(shù)太少,則評(píng)判精度低,不能充分反映區(qū)分度。本實(shí)施例中使用優(yōu)、良、中、差四個(gè)評(píng)估等級(jí)。
[0130]步驟5:至于本實(shí)施例的質(zhì)量監(jiān)控環(huán)節(jié),本發(fā)明將選擇針對(duì)某段待評(píng)估的作文數(shù)據(jù)的多個(gè)人工判決的多數(shù)結(jié)果作為最終標(biāo)注結(jié)果。同時(shí),對(duì)于某些內(nèi)容完整度很低的數(shù)據(jù)樣本,將不會(huì)送入后續(xù)詞匯運(yùn)用能力、流暢性和主題性評(píng)估階段,因?yàn)樵趦?nèi)容完整度太低的情況下已經(jīng)失去進(jìn)一步評(píng)估的意義。
[0131]本實(shí)施例的語(yǔ)料標(biāo)注方法,通過(guò)獲取多個(gè)用戶(hù)對(duì)語(yǔ)料的標(biāo)注信息,中選取語(yǔ)料的標(biāo)注結(jié)果,能夠提高語(yǔ)料標(biāo)注準(zhǔn)確度同時(shí)兼顧標(biāo)注效率。
[0132]實(shí)施例4[0133]如圖10所示,本實(shí)施例提供一種語(yǔ)料標(biāo)注設(shè)備,包括:
[0134]第一獲取單元101,用于獲取語(yǔ)料;
[0135]第二獲取單元102,用于獲取至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息;
[0136]第一標(biāo)注單元103,用于如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息一致,則獲取參考終端對(duì)所述語(yǔ)料的標(biāo)注信息,根據(jù)參考終端對(duì)所述語(yǔ)料的標(biāo)注信息及所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,確定所述語(yǔ)料的標(biāo)注結(jié)果;
[0137]第二標(biāo)注單元104,用于如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息不一致,則獲取所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。
[0138]本實(shí)施例中,可選的,所述第一標(biāo)注單元103具體用于:
[0139]如果所述參考終端與所述至少兩個(gè)標(biāo)注終端反饋的標(biāo)注信息的匹配度大于預(yù)設(shè)閥值,則將所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果;
[0140]所述第一標(biāo)注單元103還具體用于:如果所述參考終端與所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息的匹配度小于預(yù)設(shè)閥值,則收集審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。
[0141]本實(shí)施例存儲(chǔ)語(yǔ)料的標(biāo)注信息之后,還可以應(yīng)用圖11所示的架構(gòu)實(shí)現(xiàn)語(yǔ)料標(biāo)注的索引。圖11中,檢索層SI基于不同的項(xiàng)目進(jìn)行檢索,索引層S2生成相應(yīng)的索引表,數(shù)據(jù)層S3用用提供被索引的語(yǔ)料數(shù)據(jù)。
[0142]本實(shí)施的語(yǔ)料標(biāo)注設(shè)備可以實(shí)現(xiàn)上述語(yǔ)料標(biāo)注方法,該語(yǔ)料標(biāo)注設(shè)備各個(gè)單元的功能請(qǐng)參閱上述方法實(shí)施例,此處不贅述。
[0143]本實(shí)施例的語(yǔ)料標(biāo)注設(shè)備可以為計(jì)算機(jī),服務(wù)器等具有語(yǔ)料標(biāo)注功能的裝置。
[0144]本實(shí)施例的語(yǔ)料標(biāo)注設(shè)備,如果至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息一致,則獲取參考終端對(duì)所述語(yǔ)料的標(biāo)注信息,根據(jù)參考終端對(duì)語(yǔ)料的標(biāo)注信息及至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,確定語(yǔ)料的標(biāo)注結(jié)果,如果至少兩個(gè)標(biāo)注終端對(duì)語(yǔ)料的標(biāo)注信息不一致,則獲取審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將審核終端對(duì)語(yǔ)料的標(biāo)注信息作為語(yǔ)料的標(biāo)注結(jié)果。這樣,通過(guò)獲取多個(gè)標(biāo)注終端收集的用戶(hù)對(duì)語(yǔ)料的標(biāo)注信息,并根據(jù)參考終端、審核終端、標(biāo)注終端中選取語(yǔ)料的標(biāo)注結(jié)果,從而能夠提高語(yǔ)料標(biāo)注準(zhǔn)確度同時(shí)兼顧標(biāo)注效率。
[0145]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過(guò)硬件來(lái)完成,也可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤(pán)或光盤(pán)等。
[0146]本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。[0147] 以上僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種語(yǔ)料標(biāo)注方法,其特征在于,包括: 獲取語(yǔ)料; 獲取至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息為所述至少兩個(gè)標(biāo)注終端收集的用戶(hù)對(duì)所述語(yǔ)料的標(biāo)注信息; 如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息一致,則獲取參考終端對(duì)所述語(yǔ)料的標(biāo)注信息,根據(jù)參考終端對(duì)所述語(yǔ)料的標(biāo)注信息及所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,確定所述語(yǔ)料的標(biāo)注結(jié)果; 如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息不一致,則獲取審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)參考終端對(duì)所述語(yǔ)料的標(biāo)注信息及所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,確定所述語(yǔ)料的標(biāo)注結(jié)果包括: 如果所述參考終端與所述至少兩個(gè)標(biāo)注終端反饋的標(biāo)注信息的匹配度大于預(yù)設(shè)閥值,則將所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果; 如果所述參考終端與所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息的匹配度小于預(yù)設(shè)閥值,則收集審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述標(biāo)注結(jié)果包括:所述語(yǔ)料,標(biāo)識(shí)內(nèi)容,終端標(biāo)識(shí)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述標(biāo)注結(jié)果還包括以下至少一種:語(yǔ)料類(lèi)型標(biāo)識(shí),語(yǔ)料的評(píng)價(jià)等級(jí)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取語(yǔ)料包括: 根據(jù)所述標(biāo)注終端語(yǔ)料標(biāo)注的準(zhǔn)確率,向所述至少兩個(gè)標(biāo)注終端分配語(yǔ)料。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 以可擴(kuò)展標(biāo)記語(yǔ)言XML文件存儲(chǔ)所述語(yǔ)料的標(biāo)注結(jié)果。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述以可擴(kuò)展標(biāo)記語(yǔ)言XML文件存儲(chǔ)所述語(yǔ)料的標(biāo)注結(jié)果之后,還包括: 生成所述語(yǔ)料的標(biāo)注結(jié)果對(duì)應(yīng)的第一索引指針,所述第一索引指針用于索引所述語(yǔ)料的標(biāo)注結(jié)果。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 將所述語(yǔ)料的標(biāo)注結(jié)果存儲(chǔ)到對(duì)應(yīng)的語(yǔ)料大型文件,并生成所述語(yǔ)料的標(biāo)注結(jié)果對(duì)應(yīng)的第二索引指針,所述第二索引指針包含所述語(yǔ)料大型文件的標(biāo)識(shí),及所述語(yǔ)料的標(biāo)注結(jié)果在所述語(yǔ)料大型文件中的地址信息。
9.一種語(yǔ)料標(biāo)注設(shè)備,其特征在于,包括: 第一獲取單元,用于獲取語(yǔ)料; 第二獲取單元,用于獲取至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息; 第一標(biāo)注單元,用于如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息一致,則獲取參考終端對(duì)所述語(yǔ)料的標(biāo)注信息,根據(jù)參考終端對(duì)所述語(yǔ)料的標(biāo)注信息及所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息,確定所述語(yǔ)料的標(biāo)注結(jié)果; 第二標(biāo)注單元,用于如果所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息不一致,則獲取所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。
10. 根據(jù)權(quán)利要求9所述的設(shè)備,其特征在于,所述第一標(biāo)注單元具體用于: 如果所述參考終端與所述至少兩個(gè)標(biāo)注終端反饋的標(biāo)注信息的匹配度大于預(yù)設(shè)閥值,則將所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果; 所述第一標(biāo)注單元還具體用干:如果所述參考終端與所述至少兩個(gè)標(biāo)注終端對(duì)所述語(yǔ)料的標(biāo)注信息的匹配度小于預(yù)設(shè)閥值,則收集審核終端對(duì)所述語(yǔ)料的標(biāo)注信息,并將所述審核終端對(duì)所述語(yǔ)料的標(biāo)注信息作為所述語(yǔ)料的標(biāo)注結(jié)果。
【文檔編號(hào)】G06F17/27GK103530282SQ201310504852
【公開(kāi)日】2014年1月22日 申請(qǐng)日期:2013年10月23日 優(yōu)先權(quán)日:2013年10月23日
【發(fā)明者】高鵬 申請(qǐng)人:北京紫冬銳意語(yǔ)音科技有限公司