用于拓展商品品類的數(shù)據(jù)標(biāo)注平臺(tái)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子商務(wù)領(lǐng)域,特別涉及一種用于拓展商品品類的數(shù)據(jù)標(biāo)注平臺(tái)及采用其進(jìn)行數(shù)據(jù)標(biāo)注的方法。
【背景技術(shù)】
[0002]由于網(wǎng)上購(gòu)物的流行,商家需要處理用戶的各種問(wèn)題,用戶需要查詢各種商品的信息。當(dāng)咨詢量過(guò)大時(shí),人工客服必然處理不過(guò)來(lái),才有了智能客服這一新技術(shù)的發(fā)展。智能客服的一種實(shí)例就是智能應(yīng)答系統(tǒng),它是對(duì)用戶的歷史問(wèn)題進(jìn)行分析,并訓(xùn)練模型,以達(dá)到對(duì)用戶的新問(wèn)題進(jìn)行判斷,并達(dá)到自動(dòng)回復(fù)的目的。用戶的問(wèn)題數(shù)據(jù)來(lái)源主要來(lái)自于用戶與商家客服之間的對(duì)話,當(dāng)然只需要取用戶的問(wèn)題作為訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練即可。商家客服是按照商品的品類進(jìn)行分類的,即用戶咨詢的是某一個(gè)品類的商家客服。智能應(yīng)答系統(tǒng)采用對(duì)每一個(gè)品類的用戶問(wèn)題進(jìn)行分析,模型訓(xùn)練,即可達(dá)到針對(duì)該品類問(wèn)題的有效回答。而當(dāng)品類十分龐大時(shí),每一個(gè)品類的問(wèn)題都需要客服人員進(jìn)行人工整理與分類,這是一個(gè)非常龐大,非常耗時(shí)的工程。
[0003]在現(xiàn)有的數(shù)據(jù)標(biāo)注過(guò)程中,首先標(biāo)注人員通過(guò)開(kāi)會(huì),確定需要擴(kuò)展的品類,以及對(duì)應(yīng)的業(yè)務(wù)樹(shù),標(biāo)注規(guī)則,然后獲取需要新上線的品類標(biāo)注數(shù)據(jù),并將該品類的標(biāo)注數(shù)據(jù)切分到單個(gè)的excel表格中,標(biāo)注人員按照事先確定好的規(guī)則和業(yè)務(wù)樹(shù),對(duì)各自負(fù)責(zé)的數(shù)據(jù)表格進(jìn)行標(biāo)注,標(biāo)注完后,再由負(fù)責(zé)人對(duì)標(biāo)注結(jié)果進(jìn)行合并,整理,最后由研發(fā)人員對(duì)標(biāo)注結(jié)果進(jìn)行審核以及模型訓(xùn)練,得到最終的模型文件并執(zhí)行上線操作。這種標(biāo)注過(guò)程存在以下問(wèn)題:1.整個(gè)標(biāo)注過(guò)程非常復(fù)雜,且需要多方人員的共同配合,因此對(duì)一個(gè)新品類進(jìn)行數(shù)據(jù)標(biāo)注,并給出該品類下完整的應(yīng)答流程,從時(shí)間和人力成本來(lái)看已非常高;2.在數(shù)據(jù)標(biāo)注過(guò)程中,由于打字過(guò)程中的拼寫(xiě)錯(cuò)誤、保存數(shù)據(jù)格式的不統(tǒng)一,再加上標(biāo)注人員的主觀性,因此無(wú)法保證標(biāo)注的準(zhǔn)確率,也就無(wú)法判斷標(biāo)注的質(zhì)量。所以,對(duì)于一個(gè)大型的網(wǎng)購(gòu)平臺(tái)來(lái)說(shuō),要想將所有的品類數(shù)據(jù)都進(jìn)行標(biāo)注、訓(xùn)練模型并上線,將是一個(gè)非常耗時(shí)、難以保證準(zhǔn)確率的任務(wù)。
【發(fā)明內(nèi)容】
[0004](一 )要解決的技術(shù)問(wèn)題
[0005]本發(fā)明的目的在于提供一種用于拓展商品品類的數(shù)據(jù)標(biāo)注平臺(tái)及采用其進(jìn)行數(shù)據(jù)標(biāo)注的方法,以解決現(xiàn)有數(shù)據(jù)標(biāo)注方式非常耗時(shí)、難以保證準(zhǔn)確率的問(wèn)題。
[0006]( 二 )技術(shù)方案
[0007]本發(fā)明提供一種用于拓展商品品類的數(shù)據(jù)標(biāo)注平臺(tái),該平臺(tái)包括:
[0008]任務(wù)管理模塊,用于導(dǎo)入待標(biāo)注數(shù)據(jù)及標(biāo)注方式;
[0009]數(shù)據(jù)標(biāo)注模塊,用于展示出待標(biāo)注數(shù)據(jù)及標(biāo)注方式,并根據(jù)所述標(biāo)注方式對(duì)待標(biāo)注數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)注,得到標(biāo)注數(shù)據(jù);
[0010]數(shù)據(jù)校驗(yàn)?zāi)K,用于展示出標(biāo)注數(shù)據(jù)、校驗(yàn)方式,并根據(jù)校驗(yàn)方式對(duì)所述標(biāo)注數(shù)據(jù)進(jìn)行校驗(yàn),生成校驗(yàn)結(jié)果;
[0011]模型訓(xùn)練模塊,用于對(duì)校驗(yàn)后的標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練,輸出訓(xùn)練模型。
[0012]本發(fā)明還提供一種采用數(shù)據(jù)標(biāo)注平臺(tái)進(jìn)行數(shù)據(jù)標(biāo)注的方法,該方法包括:
[0013]SI,任務(wù)管理模塊導(dǎo)入待標(biāo)注數(shù)據(jù)及標(biāo)注方式;
[0014]S2,數(shù)據(jù)標(biāo)注模塊展示出所述待標(biāo)注數(shù)據(jù)及標(biāo)注方式,并根據(jù)標(biāo)注方式對(duì)待標(biāo)注數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)注,得到標(biāo)注數(shù)據(jù);
[0015]S3,數(shù)據(jù)校驗(yàn)?zāi)K展示出標(biāo)注數(shù)據(jù)、校驗(yàn)方式,并根據(jù)校驗(yàn)方式對(duì)標(biāo)注數(shù)據(jù)進(jìn)行校驗(yàn),生成校驗(yàn)結(jié)果;
[0016]S4,模型訓(xùn)練模塊對(duì)校驗(yàn)后的標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練,輸出訓(xùn)練模型。
[0017](三)有益效果
[0018]1、本發(fā)明將商品名數(shù)據(jù)、意圖識(shí)別數(shù)據(jù)、商品屬性數(shù)據(jù)及文法數(shù)據(jù)這四類數(shù)據(jù)集成一個(gè)通用的平臺(tái)上,能夠?qū)λ念悩?biāo)注數(shù)據(jù)同時(shí)進(jìn)行標(biāo)注,提高了數(shù)據(jù)標(biāo)注的效率。
[0019]2、通過(guò)本發(fā)明的數(shù)據(jù)標(biāo)注平臺(tái),管理員進(jìn)行標(biāo)注任務(wù)上傳、任務(wù)指派以及規(guī)則制定;標(biāo)注人員和校驗(yàn)人員通過(guò)自己的賬號(hào)進(jìn)入系統(tǒng),查看只屬于自己的標(biāo)注任務(wù),明確自己的責(zé)任;管理員通過(guò)平臺(tái)看到每個(gè)任務(wù)的標(biāo)注進(jìn)度以及每個(gè)人的數(shù)據(jù)標(biāo)注準(zhǔn)確率,提醒對(duì)應(yīng)的標(biāo)注人員,注意進(jìn)度以及標(biāo)注質(zhì)量。通過(guò)這種方式,提高了數(shù)據(jù)標(biāo)注的效率。
[0020]3、本發(fā)明將相同的待標(biāo)注數(shù)據(jù)分別分配給多個(gè)標(biāo)注人員,通過(guò)標(biāo)注一致率確保多個(gè)標(biāo)注人員標(biāo)注的準(zhǔn)確性,然后通過(guò)對(duì)標(biāo)注數(shù)據(jù)進(jìn)行校驗(yàn)來(lái)再次提高準(zhǔn)確率,最后通過(guò)交叉驗(yàn)證得到模型準(zhǔn)確率,在模型準(zhǔn)確率小于90%時(shí)進(jìn)行迭代校驗(yàn),進(jìn)一步保證了數(shù)據(jù)標(biāo)注的質(zhì)量。
【附圖說(shuō)明】
[0021]圖1是本發(fā)明提供的用于拓展商品品類的數(shù)據(jù)標(biāo)注平臺(tái)的結(jié)構(gòu)示意圖。
[0022]圖2是本發(fā)明提供的數(shù)據(jù)標(biāo)注方法的流程圖。
【具體實(shí)施方式】
[0023]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
[0024]本發(fā)明提供的用于拓展商品品類的數(shù)據(jù)標(biāo)注平臺(tái),任務(wù)管理模塊導(dǎo)入待標(biāo)注數(shù)據(jù)及標(biāo)注方式,數(shù)據(jù)標(biāo)注模塊對(duì)待標(biāo)注數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)注,得到標(biāo)注數(shù)據(jù),數(shù)據(jù)校驗(yàn)?zāi)K對(duì)標(biāo)注數(shù)據(jù)進(jìn)行校驗(yàn),模型訓(xùn)練模塊對(duì)校驗(yàn)后的標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練,輸出訓(xùn)練模型。采用這種數(shù)據(jù)標(biāo)注平臺(tái),能夠解決現(xiàn)有數(shù)據(jù)標(biāo)注方式非常耗時(shí)、難以保證準(zhǔn)確率的問(wèn)題。
[0025]如圖1所示,圖1是本發(fā)明的用于拓展商品品類的數(shù)據(jù)標(biāo)注平臺(tái)的結(jié)構(gòu)示意圖,該數(shù)據(jù)標(biāo)注平臺(tái)包括任務(wù)管理模塊10、數(shù)據(jù)標(biāo)注模塊20、數(shù)據(jù)校驗(yàn)?zāi)K30和模型訓(xùn)練模塊40,其中:
[0026]任務(wù)管理模塊10用于導(dǎo)入待標(biāo)注數(shù)據(jù)及標(biāo)注方式,其中待標(biāo)注數(shù)據(jù)的類別至少包括商品名數(shù)據(jù)、意圖識(shí)別數(shù)據(jù)、商品屬性數(shù)據(jù)及文法數(shù)據(jù)。
[0027]數(shù)據(jù)標(biāo)注模塊20用于展示出待標(biāo)注數(shù)據(jù)及標(biāo)注方式,將相同的待標(biāo)注數(shù)據(jù)分別分配給多個(gè)標(biāo)注人員,根據(jù)標(biāo)注方式對(duì)待標(biāo)注數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)注,數(shù)據(jù)標(biāo)注完成后,判斷多個(gè)標(biāo)注人員的標(biāo)注一致率,若標(biāo)注一致率小于50%,則舍棄標(biāo)注數(shù)據(jù),若標(biāo)注一致率大于等于50%,則將標(biāo)注數(shù)據(jù)傳入數(shù)據(jù)校驗(yàn)?zāi)K。
[0028]數(shù)據(jù)校驗(yàn)?zāi)K30展示出標(biāo)注數(shù)據(jù)及校驗(yàn)方式,并根據(jù)校驗(yàn)方式對(duì)標(biāo)注數(shù)據(jù)進(jìn)行校驗(yàn),生成校驗(yàn)結(jié)果。
[0029]模型訓(xùn)練模塊40用于對(duì)校驗(yàn)后的標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練,輸出訓(xùn)練模型,并采用交叉驗(yàn)證的方法獲取訓(xùn)練模型的準(zhǔn)確率,若準(zhǔn)確率小于90%,則將訓(xùn)練模型輸出的模型預(yù)測(cè)數(shù)據(jù)與校驗(yàn)結(jié)果傳送給數(shù)據(jù)校驗(yàn)?zāi)K,進(jìn)行迭代校驗(yàn),直到準(zhǔn)確率大于等于90%。
[0030]另外,為了方便對(duì)該平臺(tái)的用戶進(jìn)行管理,本發(fā)明的數(shù)據(jù)標(biāo)注平臺(tái)還包括用戶管理模塊00,用于對(duì)用戶進(jìn)行劃分,并設(shè)置相應(yīng)的權(quán)限,其中,用戶至少包括管理員、標(biāo)注人員、校驗(yàn)人員及研發(fā)人員。
[0031]另外,為了方便訓(xùn)練模型的上線,本發(fā)明的數(shù)據(jù)標(biāo)注平臺(tái)還包括模型上傳模塊50,當(dāng)訓(xùn)練模型的準(zhǔn)確率大于等于90%時(shí),上傳此訓(xùn)練模型。
[0032]本發(fā)明提供的數(shù)據(jù)標(biāo)注平臺(tái)將商品名數(shù)據(jù)、意圖識(shí)別數(shù)據(jù)、商品屬性數(shù)據(jù)及文法數(shù)據(jù)這四類數(shù)據(jù)集成在一起,能夠?qū)λ念悩?biāo)注數(shù)據(jù)同時(shí)進(jìn)行標(biāo)注,提高了數(shù)據(jù)標(biāo)注的效率;另外,管理員、標(biāo)注人員和校驗(yàn)人員分工明確,管理員通過(guò)平臺(tái)看到每個(gè)任務(wù)的標(biāo)注進(jìn)度以及每個(gè)人的數(shù)據(jù)標(biāo)注準(zhǔn)確率,提醒對(duì)應(yīng)的標(biāo)注人員,注意進(jìn)度以及標(biāo)注質(zhì)量,通過(guò)這種方式,提高了數(shù)據(jù)標(biāo)注的效率;本發(fā)明將相同的待標(biāo)注數(shù)據(jù)分別分配給多個(gè)標(biāo)注人員,通過(guò)標(biāo)注一致率確保多個(gè)標(biāo)注人員標(biāo)注的準(zhǔn)確性,然后通過(guò)對(duì)標(biāo)注數(shù)據(jù)進(jìn)行校驗(yàn)來(lái)再次提高準(zhǔn)確率,最后通過(guò)交叉驗(yàn)證得到模型準(zhǔn)確率,在模型準(zhǔn)確率小于90 %時(shí)進(jìn)行迭代校驗(yàn),