本發(fā)明涉及計(jì)算機(jī)應(yīng)用領(lǐng)域,具體而言,涉及一種數(shù)據(jù)處理方法、裝置、服務(wù)器及系統(tǒng)。
背景技術(shù):
現(xiàn)有技術(shù)中,對(duì)模型的訓(xùn)練流程大多數(shù)是采用如下流程:人工對(duì)大量采集的數(shù)據(jù)進(jìn)行一次性的批注,所有樣本批注完成后,才交由服務(wù)器進(jìn)行訓(xùn)練,由于樣本較多,導(dǎo)致訓(xùn)練周期太長(zhǎng),并且若訓(xùn)練產(chǎn)生的模型進(jìn)行評(píng)估后,無法達(dá)到預(yù)期效果則需要重新對(duì)所有樣本進(jìn)行標(biāo)注后,再重新進(jìn)行訓(xùn)練,這樣導(dǎo)致標(biāo)注工作量較大,并且效率較低。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明實(shí)施例的目的在于提供一種數(shù)據(jù)處理方法、裝置、服務(wù)器及系統(tǒng),以解決上述問題。
為了實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例采用的技術(shù)方案如下:
第一方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理方法,所述方法包括:從總樣本集中獲取本次待標(biāo)注樣本集,并發(fā)送到用戶終端;接收所述用戶終端返回的第一標(biāo)注結(jié)果集;根據(jù)所述第一標(biāo)注結(jié)果集,進(jìn)行模型訓(xùn)練,獲取訓(xùn)練模型并對(duì)所述訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估;若評(píng)估結(jié)果不滿足預(yù)設(shè)條件,根據(jù)所述訓(xùn)練模型,重新從所述總樣本集中獲取下次待標(biāo)注樣本集,并發(fā)送到所述用戶終端,接收所述用戶終端返回的第二標(biāo)注結(jié)果集,根據(jù)所述第二標(biāo)注結(jié)果集,重新獲取訓(xùn)練模型并對(duì)該訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估,直到評(píng)估結(jié)果滿足預(yù)設(shè)條件,將所述評(píng)估結(jié)果滿足預(yù)設(shè)條件對(duì)應(yīng)的訓(xùn)練模型作為最終模型。
第二方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理裝置,所述裝置包括:第一處理模塊,用于從總樣本集中獲取本次待標(biāo)注樣本集,并發(fā)送到用戶終端;接收模塊,用于接收所述用戶終端返回的第一標(biāo)注結(jié)果集;第二處理模塊,用于根據(jù)所述第一標(biāo)注結(jié)果集,進(jìn)行模型訓(xùn)練,獲取訓(xùn)練模型并對(duì)所述訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估;第三處理模塊,用于若評(píng)估結(jié)果不滿足預(yù)設(shè)條件,根據(jù)所述訓(xùn)練模型,重新從所述總樣本集中獲取下次待標(biāo)注樣本集,并發(fā)送到所述用戶終端,接收所述用戶終端返回的第二標(biāo)注結(jié)果集,根據(jù)所述第二標(biāo)注結(jié)果集,重新獲取訓(xùn)練模型并對(duì)該訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估,直到評(píng)估結(jié)果滿足預(yù)設(shè)條件,將所述評(píng)估結(jié)果滿足預(yù)設(shè)條件對(duì)應(yīng)的訓(xùn)練模型作為最終模型。
第三方面,本發(fā)明實(shí)施例提供了一種服務(wù)器,所述服務(wù)器包括存儲(chǔ)器及處理器,所述存儲(chǔ)器耦接到所述處理器,所述存儲(chǔ)器存儲(chǔ)指令,當(dāng)所述指令由所述處理器執(zhí)行時(shí)以使所述處理器執(zhí)行以下操作:從總樣本集中獲取本次待標(biāo)注樣本集,并發(fā)送到用戶終端;接收所述用戶終端返回的第一標(biāo)注結(jié)果集;根據(jù)所述第一標(biāo)注結(jié)果集,進(jìn)行模型訓(xùn)練,獲取訓(xùn)練模型并對(duì)所述訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估;若評(píng)估結(jié)果不滿足預(yù)設(shè)條件,根據(jù)所述訓(xùn)練模型,重新從所述總樣本集中獲取下次待標(biāo)注樣本集,并發(fā)送到所述用戶終端,接收所述用戶終端返回的第二標(biāo)注結(jié)果集,根據(jù)所述第二標(biāo)注結(jié)果集,重新獲取訓(xùn)練模型并對(duì)該訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估,直到評(píng)估結(jié)果滿足預(yù)設(shè)條件,將所述評(píng)估結(jié)果滿足預(yù)設(shè)條件對(duì)應(yīng)的訓(xùn)練模型作為最終模型。
第四方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理系統(tǒng),所述系統(tǒng)包括用戶終端及服務(wù)器,所述服務(wù)器,用于從總樣本集中獲取本次待標(biāo)注樣本集,并發(fā)送到用戶終端;接收所述用戶終端返回的第一標(biāo)注結(jié)果集;根據(jù)所述第一標(biāo)注結(jié)果集,進(jìn)行模型訓(xùn)練,獲取訓(xùn)練模型并對(duì)所述訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估;若評(píng)估結(jié)果不滿足預(yù)設(shè)條件,根據(jù)所述訓(xùn)練模型,重新從所述總樣本集中獲取下次待標(biāo)注樣本集,并發(fā)送到所述用戶終端,接收所述用戶終端返回的第二標(biāo)注結(jié)果集,根據(jù)所述第二標(biāo)注結(jié)果集,重新獲取訓(xùn)練模型并對(duì)該訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估,直到評(píng)估結(jié)果滿足預(yù)設(shè)條件,將所述評(píng)估結(jié)果滿足預(yù)設(shè)條件對(duì)應(yīng)的訓(xùn)練模型作為最終模型;所述用戶終端,用于接收所述服務(wù)器發(fā)送的本次待標(biāo)注樣本集,并向所述服務(wù)器返回第一標(biāo)注結(jié)果集;接收所述服務(wù)器發(fā)送的下次待標(biāo)注樣本集,并向所述服務(wù)器返回第二標(biāo)注結(jié)果集。
與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理方法、裝置、服務(wù)器及系統(tǒng),通過從總樣本集中獲取本次待標(biāo)注樣本集,并發(fā)送到用戶終端,接收所述用戶終端返回的第一標(biāo)注結(jié)果集,根據(jù)所述第一標(biāo)注結(jié)果集,進(jìn)行模型訓(xùn)練,獲取訓(xùn)練模型并對(duì)所述訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估,若評(píng)估結(jié)果不滿足預(yù)設(shè)條件,根據(jù)所述訓(xùn)練模型,重新從所述總樣本集中獲取下次待標(biāo)注樣本集,并發(fā)送到所述用戶終端,接收所述用戶終端返回的第二標(biāo)注結(jié)果集,根據(jù)所述第二標(biāo)注結(jié)果集,重新獲取訓(xùn)練模型并對(duì)該訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估,直到評(píng)估結(jié)果滿足預(yù)設(shè)條件,將所述評(píng)估結(jié)果滿足預(yù)設(shè)條件對(duì)應(yīng)的訓(xùn)練模型作為最終模型,在這種方式下,在當(dāng)訓(xùn)練模型的評(píng)估結(jié)果不佳時(shí),服務(wù)器能重新從所述總樣本集中獲取下次待標(biāo)注樣本集,并發(fā)送到所述用戶終端,使得用戶終端能夠根據(jù)篩選出的下次待標(biāo)注樣本集進(jìn)行標(biāo)注,通過這種與用戶終端交互的方式,能夠及時(shí)給用戶終端返回篩選后的樣本集,減少了樣本標(biāo)注的工作量,并且通過服務(wù)器根據(jù)訓(xùn)練樣本進(jìn)行篩選,使得下次待標(biāo)注樣本更有針對(duì)性,提高了樣本訓(xùn)練的效率。
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對(duì)范圍的限定,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1是本發(fā)明實(shí)施例提供的服務(wù)器與用戶終端交互的示意圖。
圖2是本發(fā)明實(shí)施例提供的服務(wù)器的結(jié)構(gòu)框圖。
圖3是本發(fā)明第一實(shí)施例提供的一種數(shù)據(jù)處理方法的流程圖。
圖4是本發(fā)明第一實(shí)施例提供的一種數(shù)據(jù)處理方法的部分流程圖。
圖5是本發(fā)明第一實(shí)施例提供的一種數(shù)據(jù)處理方法的中步驟s410的流程圖。
圖6是本發(fā)明第二實(shí)施例提供的一種數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。通常在此處附圖中描述和示出的本發(fā)明實(shí)施例的組件可以以各種不同的配置來布置和設(shè)計(jì)。因此,以下對(duì)在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例。基于本發(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。同時(shí),在本發(fā)明的描述中,術(shù)語(yǔ)“第一”、“第三”等僅用于區(qū)分描述,而不能理解為指示或暗示相對(duì)重要性。
如圖1所示,是本發(fā)明實(shí)施例提供的服務(wù)器200與用戶終端100進(jìn)行交互的示意圖。所述服務(wù)器200通過網(wǎng)絡(luò)與一個(gè)或多個(gè)用戶終端100進(jìn)行通信連接,以進(jìn)行數(shù)據(jù)通信或交互。所述服務(wù)器200可以是網(wǎng)絡(luò)服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器等。所述用戶終端100可以是個(gè)人電腦(personalcomputer,pc)、平板電腦、智能手機(jī)、個(gè)人數(shù)字助理(personaldigitalassistant,pda)等。
如圖2所示,是所述服務(wù)器200的方框示意圖。所述服務(wù)器200包括數(shù)據(jù)處理裝置500、存儲(chǔ)器220、存儲(chǔ)控制器230、處理器240。
所述存儲(chǔ)器220、存儲(chǔ)控制器230、處理器240各元件相互之間直接或間接地電性連接,以實(shí)現(xiàn)數(shù)據(jù)的傳輸或交互。例如,這些元件相互之間可通過一條或多條通訊總線或信號(hào)線實(shí)現(xiàn)電性連接。所述數(shù)據(jù)處理裝置500包括至少一個(gè)可以軟件或固件(firmware)的形式存儲(chǔ)于所述存儲(chǔ)器中或固化在所述服務(wù)器200的操作系統(tǒng)(operatingsystem,os)中的軟件功能模塊。所述處理器240用于執(zhí)行存儲(chǔ)器220中存儲(chǔ)的可執(zhí)行模塊,例如所述數(shù)據(jù)處理裝置500包括的軟件功能模塊或計(jì)算機(jī)程序。
其中,存儲(chǔ)器220可以是,但不限于,隨機(jī)存取存儲(chǔ)器(randomaccessmemory,ram),只讀存儲(chǔ)器(readonlymemory,rom),可編程只讀存儲(chǔ)器(programmableread-onlymemory,prom),可擦除只讀存儲(chǔ)器(erasableprogrammableread-onlymemory,eprom),電可擦除只讀存儲(chǔ)器(electricerasableprogrammableread-onlymemory,eeprom)等。其中,存儲(chǔ)器220用于存儲(chǔ)程序,所述處理器240在接收到執(zhí)行指令后,執(zhí)行所述程序,前述本發(fā)明實(shí)施例任一實(shí)施例揭示的流過程定義的服務(wù)器所執(zhí)行的方法可以應(yīng)用于處理器中,或者由處理器實(shí)現(xiàn)。
處理器240可能是一種集成電路芯片,具有信號(hào)的處理能力。上述的處理器可以是通用處理器,包括中央處理器(centralprocessingunit,簡(jiǎn)稱cpu)、網(wǎng)絡(luò)處理器(networkprocessor,簡(jiǎn)稱np)等;還可以是數(shù)字信號(hào)處理器(dsp)、專用集成電路(asic)、現(xiàn)成可編程門陣列(fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫?shí)現(xiàn)或者執(zhí)行本發(fā)明實(shí)施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。
可以理解,圖2所示的結(jié)構(gòu)僅為示意,服務(wù)器200還可包括比圖2中所示更多或者更少的組件,或者具有與圖2所示不同的配置。圖2中所示的各組件可以采用硬件、軟件或其組合實(shí)現(xiàn)。
圖3示出了本發(fā)明第一實(shí)施例提供的一種數(shù)據(jù)處理方法的流程圖,請(qǐng)參閱圖3,該數(shù)據(jù)處理方法運(yùn)行于上述服務(wù)器中,該方法包括:
步驟s310,從總樣本集中獲取本次待標(biāo)注樣本集,并發(fā)送到用戶終端。
作為一種實(shí)施方式,根據(jù)第一預(yù)設(shè)關(guān)鍵詞集,從總樣本集中篩選出本次待標(biāo)注樣本。
具體的,若所述第一預(yù)設(shè)關(guān)鍵詞集包含關(guān)鍵詞a及關(guān)鍵詞b,可以設(shè)置從總樣本集中篩選出同時(shí)包含關(guān)鍵詞a及關(guān)鍵詞b的樣本作為本次待標(biāo)注樣本,也可以設(shè)置從總樣本集中篩選出包含關(guān)鍵詞a或關(guān)鍵詞b的樣本作為本次待標(biāo)注樣本,還可以設(shè)置從總樣本集中篩選出包含關(guān)鍵詞a但不包含關(guān)鍵詞b的樣本作為本次待標(biāo)注樣本等。可以理解的是,設(shè)置的篩選規(guī)則有多種,其篩選出的本次待標(biāo)注樣本也有多種;第一預(yù)設(shè)關(guān)鍵詞集中設(shè)置的關(guān)鍵詞種類越多,其篩選出的本次待標(biāo)注樣本的實(shí)施方式也越多。
作為一種實(shí)施方式,在步驟s310之前,所述方法還可以包括:從第三方平臺(tái)實(shí)時(shí)獲取樣本,生成所述總樣本集。
例如,可以直接獲取線上的聊天記錄作為樣本,加入總樣本集中,而不需首先將聊天記錄導(dǎo)入成word格式的樣本,再上傳到系統(tǒng)進(jìn)行分析,這種方式,不需要數(shù)據(jù)的手動(dòng)下載和上傳過程,這樣完成一次“標(biāo)注-訓(xùn)練”閉環(huán)的周期比較短,可以短時(shí)間內(nèi)對(duì)模型進(jìn)行多次改進(jìn),提高了模型迭代改進(jìn)的效率。
步驟s320,接收所述用戶終端返回的第一標(biāo)注結(jié)果集。
用戶終端接收到本次待標(biāo)注樣本集后,將該本次待標(biāo)注樣本集顯示到用戶終端顯示界面上,并接收用戶通過用戶終端的輸入設(shè)備輸入的標(biāo)注結(jié)果,并形成第一標(biāo)注結(jié)果集。用戶終端將所述第一標(biāo)注結(jié)果集發(fā)送到服務(wù)器。
通過這種方式,用戶終端可以提供了良好的人機(jī)可視化交互界面,普通人都可以通過系統(tǒng)界面進(jìn)行操作,對(duì)樣本進(jìn)行判斷,通過鼠標(biāo)點(diǎn)擊等動(dòng)作進(jìn)行標(biāo)記。不需要進(jìn)行一些復(fù)雜的數(shù)據(jù)處理、篩選的工作,這樣大大降低了標(biāo)注人員的門檻。
步驟s330,根據(jù)所述第一標(biāo)注結(jié)果集,進(jìn)行模型訓(xùn)練,獲取訓(xùn)練模型并對(duì)所述訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估。
對(duì)已經(jīng)標(biāo)注的樣本進(jìn)行模型訓(xùn)練的實(shí)施方式有很多,例如,可以對(duì)已經(jīng)標(biāo)注的樣本進(jìn)行分類訓(xùn)練或者對(duì)已經(jīng)標(biāo)注的樣本進(jìn)行聚類訓(xùn)練等。進(jìn)一步的,對(duì)已經(jīng)標(biāo)注的樣本進(jìn)行分類訓(xùn)練的實(shí)施方式又有多種,例如,決策樹算法,貝葉斯算法,人工神經(jīng)網(wǎng)絡(luò)算法,支持向量機(jī)算法等。進(jìn)一步的,對(duì)已經(jīng)標(biāo)注的樣本進(jìn)行聚類訓(xùn)練的實(shí)施方式又有多種,例如,single-link算法,complete-link算法,average-link算法等。
對(duì)訓(xùn)練模型進(jìn)行準(zhǔn)確率評(píng)估的實(shí)施方式也有多種。例如,假設(shè)第一標(biāo)注結(jié)果集中包含20個(gè)樣本,可以用其中16個(gè)樣本進(jìn)行模型訓(xùn)練,獲得訓(xùn)練模型,再將剩余的4個(gè)樣本用于對(duì)該模型訓(xùn)練進(jìn)行測(cè)試,獲得試用該訓(xùn)練模型分類獲得的標(biāo)簽,將該分類標(biāo)簽與原始標(biāo)注結(jié)果進(jìn)行比較,計(jì)算獲得準(zhǔn)確率。
步驟s340,若評(píng)估結(jié)果不滿足預(yù)設(shè)條件,根據(jù)所述訓(xùn)練模型,重新從所述總樣本集中獲取下次待標(biāo)注樣本集,并發(fā)送到所述用戶終端,接收所述用戶終端返回的第二標(biāo)注結(jié)果集,根據(jù)所述第二標(biāo)注結(jié)果集,重新獲取訓(xùn)練模型并對(duì)該訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估,直到評(píng)估結(jié)果滿足預(yù)設(shè)條件,將所述評(píng)估結(jié)果滿足預(yù)設(shè)條件對(duì)應(yīng)的訓(xùn)練模型作為最終模型。
預(yù)設(shè)條件的設(shè)置可以根據(jù)需求進(jìn)行設(shè)置,例如,可以設(shè)置為準(zhǔn)確率大于某個(gè)預(yù)設(shè)閾值,則該評(píng)估結(jié)果滿足預(yù)設(shè)條件。
請(qǐng)參閱圖4,作為一種實(shí)施方式,根據(jù)所述訓(xùn)練模型,重新從所述總樣本集中獲取下次待標(biāo)注樣本集的步驟,包括:
步驟s410,根據(jù)所述訓(xùn)練模型,分別對(duì)所述總樣本集中的各個(gè)樣本進(jìn)行判定,獲取每個(gè)樣本對(duì)應(yīng)的判定結(jié)果。
進(jìn)一步的,考慮到若直接對(duì)總樣本集中的各個(gè)樣本進(jìn)行判定,其計(jì)算量可能較大,因此,作為一種優(yōu)選的實(shí)施方式,請(qǐng)參閱圖5,作為一種實(shí)施方式,步驟s410可以包括:
步驟s411,根據(jù)第二預(yù)設(shè)關(guān)鍵詞集,從所述總樣本集中篩選出下次待標(biāo)注候選樣本集。
可以理解的是,設(shè)置的篩選規(guī)則有多種,其篩選出的下次待標(biāo)注樣本也有多種;第二預(yù)設(shè)關(guān)鍵詞集中設(shè)置的關(guān)鍵詞種類越多,其篩選出的下次待標(biāo)注樣本的實(shí)施方式也越多。
進(jìn)一步的,所述第二預(yù)設(shè)關(guān)鍵詞集與第一預(yù)設(shè)關(guān)鍵詞集可以相同,也可以不相同;其設(shè)置的從所述總樣本集進(jìn)行篩選的規(guī)則也可以相同或不同。
步驟s412,根據(jù)所述訓(xùn)練模型,分別對(duì)所述下次待標(biāo)注候選樣本集中的各個(gè)樣本進(jìn)行判定,獲取每個(gè)樣本對(duì)應(yīng)的判定結(jié)果。
作為一種實(shí)施方式,所述每個(gè)樣本對(duì)應(yīng)的判定結(jié)果為一個(gè)概率值。具體的,若所述訓(xùn)練模型為分類模型,其分類的結(jié)果為每個(gè)樣本計(jì)算出一個(gè)概率值,設(shè)置一個(gè)預(yù)設(shè)閾值,當(dāng)樣本的概率值大于該預(yù)設(shè)閾值,則該樣本為b類,若樣本的概率值小于或等于該預(yù)設(shè)閾值,則該樣本為a類。采用所述訓(xùn)練模型,將所述下次待標(biāo)注候選樣本集中的各個(gè)樣本計(jì)算其對(duì)應(yīng)的概率值。
步驟s420,根據(jù)所述每個(gè)樣本對(duì)應(yīng)的判定結(jié)果,獲取下次待標(biāo)注樣本集。
作為一種實(shí)施方式,依次遍歷每個(gè)樣本對(duì)應(yīng)的概率值,若當(dāng)前樣本對(duì)應(yīng)的概率值屬于預(yù)設(shè)區(qū)間,則將所述當(dāng)前樣本加入所述下次待標(biāo)注樣本集中,直到遍歷完每個(gè)樣本對(duì)應(yīng)的概率值。
具體的,假設(shè)預(yù)設(shè)區(qū)域?yàn)閇0.4,0.6],可以理解的是,若當(dāng)前樣本對(duì)應(yīng)的概率值屬于該區(qū)域內(nèi),也就是說該樣本在判斷為a類或b類時(shí)是比較模糊或不確定的,因此,可以將該樣本作為下次待標(biāo)注樣本,重新進(jìn)行標(biāo)注后,再重新進(jìn)行訓(xùn)練。而不屬于該預(yù)設(shè)區(qū)域的樣本,則認(rèn)為是分類準(zhǔn)確的,可以不再進(jìn)行再次標(biāo)注及再次訓(xùn)練。
通過這種方式的篩選,可大大節(jié)省人工的標(biāo)注量。第一次標(biāo)后,訓(xùn)練得到一個(gè)模型,該模型會(huì)自動(dòng)挑選出最需要標(biāo)注的樣本,舍棄已經(jīng)學(xué)習(xí)到不需要再標(biāo)注的相似樣本或重復(fù)樣本,這樣每次標(biāo)注的都是對(duì)改進(jìn)模型效率最高的樣本,避免標(biāo)注工作量的浪費(fèi),降低標(biāo)注成本。
本發(fā)明實(shí)施例提供的數(shù)據(jù)處理方法,通過從總樣本集中獲取本次待標(biāo)注樣本集,并發(fā)送到用戶終端,接收所述用戶終端返回的第一標(biāo)注結(jié)果集,根據(jù)所述第一標(biāo)注結(jié)果集,進(jìn)行模型訓(xùn)練,獲取訓(xùn)練模型并對(duì)所述訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估,若評(píng)估結(jié)果不滿足預(yù)設(shè)條件,根據(jù)所述訓(xùn)練模型,重新從所述總樣本集中獲取下次待標(biāo)注樣本集,并發(fā)送到所述用戶終端,接收所述用戶終端返回的第二標(biāo)注結(jié)果集,根據(jù)所述第二標(biāo)注結(jié)果集,重新獲取訓(xùn)練模型并對(duì)該訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估,直到評(píng)估結(jié)果滿足預(yù)設(shè)條件,將所述評(píng)估結(jié)果滿足預(yù)設(shè)條件對(duì)應(yīng)的訓(xùn)練模型作為最終模型,在這種方式下,在當(dāng)訓(xùn)練模型的評(píng)估結(jié)果不佳時(shí),服務(wù)器能重新從所述總樣本集中獲取下次待標(biāo)注樣本集,并發(fā)送到所述用戶終端,使得用戶終端能夠根據(jù)篩選出的下次待標(biāo)注樣本集進(jìn)行標(biāo)注,通過這種與用戶終端交互的方式,能夠及時(shí)給用戶終端返回篩選后的樣本集,減少了樣本標(biāo)注的工作量,并且通過服務(wù)器根據(jù)訓(xùn)練樣本進(jìn)行篩選,使得下次待標(biāo)注樣本更有針對(duì)性,提高了樣本訓(xùn)練的效率。
請(qǐng)參閱圖6,是本發(fā)明第二實(shí)施例提供的數(shù)據(jù)處理裝置500的功能模塊示意圖。所述數(shù)據(jù)處理裝置500包括第一處理模塊510,接收模塊520,第二處理模塊530,第三處理模塊540。
第一處理模塊510,用于從總樣本集中獲取本次待標(biāo)注樣本集,并發(fā)送到用戶終端。
接收模塊520,用于接收所述用戶終端返回的第一標(biāo)注結(jié)果集。
第二處理模塊530,用于根據(jù)所述第一標(biāo)注結(jié)果集,進(jìn)行模型訓(xùn)練,獲取訓(xùn)練模型并對(duì)所述訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估。
第三處理模塊540,用于若評(píng)估結(jié)果不滿足預(yù)設(shè)條件,根據(jù)所述訓(xùn)練模型,重新從所述總樣本集中獲取下次待標(biāo)注樣本集,并發(fā)送到所述用戶終端,接收所述用戶終端返回的第二標(biāo)注結(jié)果集,根據(jù)所述第二標(biāo)注結(jié)果集,重新獲取訓(xùn)練模型并對(duì)該訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估,直到評(píng)估結(jié)果滿足預(yù)設(shè)條件,將所述評(píng)估結(jié)果滿足預(yù)設(shè)條件對(duì)應(yīng)的訓(xùn)練模型作為最終模型。
以上各模塊可以是由軟件代碼實(shí)現(xiàn),此時(shí),上述的各模塊可存儲(chǔ)于服務(wù)器200的存儲(chǔ)器220內(nèi)。以上各模塊同樣可以由硬件例如集成電路芯片實(shí)現(xiàn)。
本發(fā)明第三實(shí)施例提供了一種服務(wù)器,所述服務(wù)器包括存儲(chǔ)器及處理器,所述存儲(chǔ)器耦接到所述處理器,所述存儲(chǔ)器存儲(chǔ)指令,當(dāng)所述指令由所述處理器執(zhí)行時(shí)以使所述處理器執(zhí)行以下操作:
從總樣本集中獲取本次待標(biāo)注樣本集,并發(fā)送到用戶終端;
接收所述用戶終端返回的第一標(biāo)注結(jié)果集;
根據(jù)所述第一標(biāo)注結(jié)果集,進(jìn)行模型訓(xùn)練,獲取訓(xùn)練模型并對(duì)所述訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估;
若評(píng)估結(jié)果不滿足預(yù)設(shè)條件,根據(jù)所述訓(xùn)練模型,重新從所述總樣本集中獲取下次待標(biāo)注樣本集,并發(fā)送到所述用戶終端,接收所述用戶終端返回的第二標(biāo)注結(jié)果集,根據(jù)所述第二標(biāo)注結(jié)果集,重新獲取訓(xùn)練模型并對(duì)該訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估,直到評(píng)估結(jié)果滿足預(yù)設(shè)條件,將所述評(píng)估結(jié)果滿足預(yù)設(shè)條件對(duì)應(yīng)的訓(xùn)練模型作為最終模型。
本發(fā)明第四實(shí)施例提供了一種數(shù)據(jù)處理系統(tǒng),所述系統(tǒng)包括用戶終端及服務(wù)器。
所述服務(wù)器,用于從總樣本集中獲取本次待標(biāo)注樣本集,并發(fā)送到用戶終端;接收所述用戶終端返回的第一標(biāo)注結(jié)果集;根據(jù)所述第一標(biāo)注結(jié)果集,進(jìn)行模型訓(xùn)練,獲取訓(xùn)練模型并對(duì)所述訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估;若評(píng)估結(jié)果不滿足預(yù)設(shè)條件,根據(jù)所述訓(xùn)練模型,重新從所述總樣本集中獲取下次待標(biāo)注樣本集,并發(fā)送到所述用戶終端,接收所述用戶終端返回的第二標(biāo)注結(jié)果集,根據(jù)所述第二標(biāo)注結(jié)果集,重新獲取訓(xùn)練模型并對(duì)該訓(xùn)練模型的準(zhǔn)確率進(jìn)行評(píng)估,直到評(píng)估結(jié)果滿足預(yù)設(shè)條件,將所述評(píng)估結(jié)果滿足預(yù)設(shè)條件對(duì)應(yīng)的訓(xùn)練模型作為最終模型。
所述用戶終端,用于接收所述服務(wù)器發(fā)送的本次待標(biāo)注樣本集,并向所述服務(wù)器返回第一標(biāo)注結(jié)果集;接收所述服務(wù)器發(fā)送的下次待標(biāo)注樣本集,并向所述服務(wù)器返回第二標(biāo)注結(jié)果集。
需要說明的是,本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。
本發(fā)明實(shí)施例所提供的數(shù)據(jù)處理裝置、服務(wù)器及系統(tǒng),其實(shí)現(xiàn)原理及產(chǎn)生的技術(shù)效果和前述方法實(shí)施例相同,為簡(jiǎn)要描述,裝置實(shí)施例部分未提及之處,可參考前述方法實(shí)施例中相應(yīng)內(nèi)容。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,也可以通過其它的方式實(shí)現(xiàn)。以上所描述的裝置實(shí)施例僅僅是示意性的,例如,附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個(gè)實(shí)施例的裝置、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)方式中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動(dòng)作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能模塊可以集成在一起形成一個(gè)獨(dú)立的部分,也可以是各個(gè)模塊單獨(dú)存在,也可以兩個(gè)或兩個(gè)以上模塊集成形成一個(gè)獨(dú)立的部分。
所述功能如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。需要說明的是,在本文中,諸如第一和第三等之類的關(guān)系術(shù)語(yǔ)僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。