本發(fā)明涉及數(shù)據(jù)智能化處理,尤其是數(shù)據(jù)標(biāo)注處理,具體是一種基于機(jī)器自主學(xué)習(xí)的智能標(biāo)注系統(tǒng)及方法。
背景技術(shù):
1、在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)標(biāo)注是一項(xiàng)至關(guān)重要的任務(wù)。無(wú)論是用于圖像識(shí)別、自然語(yǔ)言處理還是語(yǔ)音識(shí)別的模型,都依賴于高質(zhì)量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,可以說(shuō)標(biāo)注數(shù)據(jù)的質(zhì)量直接影響模型的性能和準(zhǔn)確性,因此,對(duì)于原始數(shù)據(jù)的準(zhǔn)確標(biāo)注被視為構(gòu)建高性能模型的基礎(chǔ)。然而,傳統(tǒng)的原始數(shù)據(jù)標(biāo)注工作通常依賴于人工操作,存在以下幾個(gè)主要問(wèn)題:
2、時(shí)間和成本消耗巨大:高質(zhì)量的數(shù)據(jù)標(biāo)注往往需要大量的人工勞動(dòng),尤其是在面對(duì)大規(guī)模數(shù)據(jù)集時(shí),標(biāo)注過(guò)程可能需要數(shù)周甚至數(shù)月的時(shí)間。此外,人工標(biāo)注的高成本也是限制大規(guī)模數(shù)據(jù)標(biāo)注的重要因素。
3、主觀性和不一致性:由于標(biāo)注人員的知識(shí)背景、經(jīng)驗(yàn)和理解能力不同,人工標(biāo)注容易產(chǎn)生主觀偏差,導(dǎo)致標(biāo)注結(jié)果的不一致性。這種不一致性可能會(huì)影響模型的訓(xùn)練效果,降低模型的泛化能力。
4、疲勞和錯(cuò)誤率:人工標(biāo)注工作通常比較單調(diào),標(biāo)注人員容易出現(xiàn)疲勞,進(jìn)而導(dǎo)致標(biāo)注錯(cuò)誤率增加,這不僅影響標(biāo)注數(shù)據(jù)的質(zhì)量,還可能進(jìn)一步影響模型的性能。
5、為了克服上述人工標(biāo)注原始數(shù)據(jù)所具備的缺陷,目前已經(jīng)有一些半自動(dòng)化和自動(dòng)化的標(biāo)注工具被提出。這些工具通?;陬A(yù)訓(xùn)練模型或規(guī)則引擎來(lái)對(duì)數(shù)據(jù)進(jìn)行初步標(biāo)注,然后再由人工進(jìn)行修正。然而,這類方法仍然存在一些明顯的局限性:
6、依賴初始模型的性能:現(xiàn)有的自動(dòng)標(biāo)注工具通常依賴于預(yù)訓(xùn)練模型的性能,如果初始模型的性能不佳,自動(dòng)標(biāo)注的準(zhǔn)確性將難以保證,進(jìn)而增加了后續(xù)人工修正的工作量。
7、缺乏持續(xù)優(yōu)化的能力:傳統(tǒng)的自動(dòng)標(biāo)注工具通常無(wú)法有效利用人工修正的結(jié)果進(jìn)行模型的持續(xù)優(yōu)化。即使用戶對(duì)標(biāo)注結(jié)果進(jìn)行了修正,這些修正信息也難以反饋給模型進(jìn)行進(jìn)一步的學(xué)習(xí)和改進(jìn)。
8、擴(kuò)展性差:現(xiàn)有的自動(dòng)標(biāo)注工具往往針對(duì)特定的任務(wù)或數(shù)據(jù)類型設(shè)計(jì),難以適應(yīng)不同領(lǐng)域或多種類型的數(shù)據(jù)標(biāo)注需求。例如,一些工具可能只適用于文本數(shù)據(jù)的標(biāo)注,而在處理圖像或音頻數(shù)據(jù)時(shí)表現(xiàn)不佳。
9、因此,如何克服現(xiàn)有的智能標(biāo)注系統(tǒng)或方法所存在的缺陷,是本技術(shù)所針對(duì)解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是克服上述技術(shù)缺陷中的至少一種,提供一種基于機(jī)器自主學(xué)習(xí)的智能標(biāo)注系統(tǒng)及方法,可快速準(zhǔn)確地對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,在提高了數(shù)據(jù)標(biāo)注效率的同時(shí)保證數(shù)據(jù)標(biāo)注的準(zhǔn)確性,并可適用于各種類型的數(shù)據(jù),適應(yīng)性強(qiáng)。
2、為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是:
3、本發(fā)明提供了一種基于機(jī)器自主學(xué)習(xí)的智能標(biāo)注系統(tǒng),其包括:
4、數(shù)據(jù)輸入模塊,用于接收和預(yù)處理原始數(shù)據(jù),并對(duì)獲取的原始數(shù)據(jù)進(jìn)行預(yù)處理形成原始數(shù)據(jù)集;
5、初始標(biāo)注模塊,將所述原始數(shù)據(jù)集中的一部分作為初始數(shù)據(jù)集并對(duì)所述初始數(shù)據(jù)集進(jìn)行初始標(biāo)注,生成初始標(biāo)注數(shù)據(jù)集;
6、自主學(xué)習(xí)模塊,通過(guò)所述初始標(biāo)注數(shù)據(jù)集對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,訓(xùn)練后所獲得的模型為預(yù)訓(xùn)練模型;
7、智能標(biāo)注模塊,將所述原始數(shù)據(jù)集中的另一部分作為中間數(shù)據(jù)集,通過(guò)所述預(yù)訓(xùn)練模型對(duì)所述中間數(shù)據(jù)集進(jìn)行智能標(biāo)注,生成中間標(biāo)注數(shù)據(jù)集;
8、標(biāo)注修正模塊,對(duì)所述中間標(biāo)注數(shù)據(jù)集進(jìn)行檢查和校正,形成中間修正數(shù)據(jù)集,所述中間修正數(shù)據(jù)集反饋輸入至所述自主學(xué)習(xí)模塊,所述自主學(xué)模塊通過(guò)所述中間修正數(shù)據(jù)集對(duì)所述預(yù)訓(xùn)練模型進(jìn)行再次訓(xùn)練,將所述中間修正數(shù)據(jù)集作為所述中間數(shù)據(jù)集并利用再次訓(xùn)練后的預(yù)訓(xùn)練模型對(duì)所述中間修正數(shù)據(jù)集進(jìn)行智能標(biāo)注,如此形成閉環(huán)反饋訓(xùn)練;
9、數(shù)據(jù)輸出模塊,在經(jīng)多次閉環(huán)反饋訓(xùn)練后輸出最終標(biāo)注好的數(shù)據(jù),即結(jié)果數(shù)據(jù)集。
10、對(duì)于上述技術(shù)方案,申請(qǐng)人還有進(jìn)一步的具體優(yōu)化實(shí)施方式。
11、可選地,所述初始標(biāo)注采用人工標(biāo)注或者半自動(dòng)化工具進(jìn)行標(biāo)注。
12、可選地,所述數(shù)據(jù)輸出模塊基于所述結(jié)果數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析,形成標(biāo)注報(bào)告并且協(xié)同所述結(jié)果數(shù)據(jù)集同時(shí)輸出。
13、特別地,本發(fā)明還提供了一種基于機(jī)器自主學(xué)習(xí)的智能標(biāo)注方法,其包括如下工作步驟:
14、步驟s1:接收和預(yù)處理原始數(shù)據(jù),并對(duì)獲取的原始數(shù)據(jù)進(jìn)行預(yù)處理形成原始數(shù)據(jù)集,將所述原始數(shù)據(jù)集分為兩部分,其中一部分作為初始數(shù)據(jù)集,另一部分作為中間數(shù)據(jù)集;
15、步驟s2:對(duì)所述初始數(shù)據(jù)集進(jìn)行初始標(biāo)注,生成初始標(biāo)注數(shù)據(jù)集;
16、步驟s3:通過(guò)所述初始標(biāo)注數(shù)據(jù)集對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,訓(xùn)練后所獲得的模型為預(yù)訓(xùn)練模型;
17、步驟s4:通過(guò)所述預(yù)訓(xùn)練模型對(duì)所述中間數(shù)據(jù)集進(jìn)行智能標(biāo)注,生成中間標(biāo)注數(shù)據(jù)集;
18、步驟s5:對(duì)所述中間標(biāo)注數(shù)據(jù)集進(jìn)行檢查和校正,形成中間修正數(shù)據(jù)集,通過(guò)所述中間修正數(shù)據(jù)集對(duì)所述預(yù)訓(xùn)練模型進(jìn)行再次訓(xùn)練,利用再次訓(xùn)練后的預(yù)訓(xùn)練模型對(duì)所述中間修正數(shù)據(jù)集進(jìn)行智能標(biāo)注,如此反復(fù),形成閉環(huán)反饋訓(xùn)練;
19、步驟s6:在經(jīng)多次閉環(huán)反饋訓(xùn)練后完成對(duì)于所述初始數(shù)據(jù)集和所述中間數(shù)據(jù)集的訓(xùn)練,輸出最終標(biāo)注好的數(shù)據(jù),即結(jié)果數(shù)據(jù)集。
20、對(duì)于上述技術(shù)方案,申請(qǐng)人還有進(jìn)一步的具體優(yōu)化實(shí)施方式。
21、可選地,步驟s2中所述初始標(biāo)注是通過(guò)人工標(biāo)注或者半自動(dòng)化工具完成,用于保證標(biāo)注后的所述初始標(biāo)注數(shù)據(jù)集的準(zhǔn)確率。
22、可選地,步驟s5中對(duì)所述中間標(biāo)注數(shù)據(jù)集進(jìn)行檢查和校正是通過(guò)人工標(biāo)注或者半自動(dòng)化工具完成,用于保證所述中間修正數(shù)據(jù)集的準(zhǔn)確率。
23、可選地,所述原始數(shù)據(jù)為圖像數(shù)據(jù)、文本數(shù)據(jù)、音頻數(shù)據(jù)中的至少一種。
24、可選地,根據(jù)所述初始標(biāo)注數(shù)據(jù)集通過(guò)深度學(xué)習(xí)算法對(duì)所述機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,所述深度學(xué)習(xí)算法包括但不限于卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法、循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法、深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。
25、可選地,步驟s5中,通過(guò)所述初始標(biāo)注數(shù)據(jù)集對(duì)進(jìn)行閉環(huán)反饋訓(xùn)練后的預(yù)訓(xùn)練模型進(jìn)行驗(yàn)證評(píng)測(cè),當(dāng)驗(yàn)證評(píng)測(cè)的準(zhǔn)確率超過(guò)預(yù)設(shè)閾值時(shí)則將所述初始數(shù)據(jù)集和所述中間數(shù)據(jù)集合并輸出,否則繼續(xù)保持閉環(huán)反饋訓(xùn)練。
26、可選地,保存步驟s5結(jié)束后的所述預(yù)訓(xùn)練模型作為標(biāo)注預(yù)測(cè)模型,所述標(biāo)注預(yù)測(cè)模型用于對(duì)與原始數(shù)據(jù)同類型的數(shù)據(jù)進(jìn)行智能標(biāo)注。
27、與現(xiàn)有技術(shù)相比較,本發(fā)明專利申請(qǐng)的基于機(jī)器自主學(xué)習(xí)的智能標(biāo)注系統(tǒng)及方法的優(yōu)點(diǎn)在于:
28、本技術(shù)的基于機(jī)器自主學(xué)習(xí)的智能標(biāo)注系統(tǒng)及方法,其通過(guò)引入自主學(xué)習(xí)技術(shù),能夠在初始數(shù)據(jù)標(biāo)注的基礎(chǔ)上自主訓(xùn)練模型,并引入了標(biāo)注修正與反饋機(jī)制,用戶的修正結(jié)果能夠有效反饋至模型訓(xùn)練的過(guò)程中,持續(xù)提升標(biāo)注的準(zhǔn)確性和一致性,并形成對(duì)于模型不斷優(yōu)化的閉環(huán)系統(tǒng),通過(guò)閉環(huán)反饋機(jī)制不斷優(yōu)化標(biāo)注結(jié)果,在盡可能減少人工干預(yù)的同時(shí),實(shí)現(xiàn)數(shù)據(jù)的高效準(zhǔn)確標(biāo)注。
29、進(jìn)一步地,本技術(shù)可支持多種數(shù)據(jù)類型(如圖像、文本、音頻)的標(biāo)注任務(wù),只需要在初始標(biāo)注時(shí)進(jìn)行標(biāo)注的調(diào)整,帶注意力機(jī)制的機(jī)器學(xué)習(xí)模型能夠根據(jù)不同任務(wù)需求靈活調(diào)整標(biāo)注策略,具備較強(qiáng)的擴(kuò)展性和適應(yīng)性。
30、進(jìn)一步地,本技術(shù)可提供詳細(xì)的標(biāo)注報(bào)告和可視化修正工具,用戶能夠自主進(jìn)行檢查和校正,同時(shí)可直觀了解標(biāo)注結(jié)果和模型性能,便于后續(xù)數(shù)據(jù)分析和決策。