一種基于大模型的自動化數(shù)據(jù)標(biāo)注方法及裝置與流程

文檔序號：40398781發(fā)布日期：2024-12-20 12:22閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請屬于數(shù)據(jù)處理領(lǐng)域，特別涉及一種基于大模型的自動化數(shù)據(jù)標(biāo)注方法及裝置。

背景技術(shù)：

1、隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的迅猛發(fā)展，數(shù)據(jù)標(biāo)注作為模型訓(xùn)練的關(guān)鍵環(huán)節(jié)，顯得尤為重要。高質(zhì)量的數(shù)據(jù)標(biāo)注是訓(xùn)練出高性能模型的基礎(chǔ)。然而，當(dāng)前的數(shù)據(jù)標(biāo)注主要依賴人工，存在著成本高、效率低、質(zhì)量參差不齊等諸多問題。特別是在面對大規(guī)模數(shù)據(jù)集時，人工標(biāo)注顯得尤為吃力，難以滿足快速迭代和高效訓(xùn)練的需求。為了提升數(shù)據(jù)標(biāo)注的效率和質(zhì)量，自動化數(shù)據(jù)標(biāo)注技術(shù)逐漸受到關(guān)注。

2、現(xiàn)有的自動化數(shù)據(jù)標(biāo)注方法主要包括人工標(biāo)注、半自動化標(biāo)注、基于規(guī)則的自動標(biāo)注及基于機(jī)器學(xué)習(xí)的自動標(biāo)注。

3、目前市場上存在多種人工標(biāo)注平臺，如amazon?mechanical?turk、figure?eight(原crowdflower)等。這些平臺主要依賴眾包方式，通過大量人工標(biāo)注者完成數(shù)據(jù)標(biāo)注任務(wù)。人工標(biāo)注效率低、成本高，標(biāo)注質(zhì)量依賴于標(biāo)注者的經(jīng)驗和能力，容易出現(xiàn)不一致性和主觀偏差。半自動化標(biāo)注工具如labelbox、superannotate等，通過結(jié)合人工與自動化方法，提高標(biāo)注效率，系統(tǒng)先進(jìn)行初步標(biāo)注，再由人工進(jìn)行校正和完善。該方式盡管提高了效率，但依然需要大量人工參與，且在面對復(fù)雜任務(wù)時，自動標(biāo)注的準(zhǔn)確性有限。基于規(guī)則的自動標(biāo)注，例如ner(命名實體識別)工具常使用預(yù)定義詞典和規(guī)則。其缺點是規(guī)則和模板的靈活性有限，難以處理復(fù)雜和多變的標(biāo)注任務(wù)，標(biāo)注效果依賴于規(guī)則的完備性和準(zhǔn)確性。一些系統(tǒng)開始采用傳統(tǒng)機(jī)器學(xué)習(xí)算法(如svm、隨機(jī)森林)進(jìn)行自動標(biāo)注，通過訓(xùn)練分類器來識別和標(biāo)注數(shù)據(jù)。傳統(tǒng)機(jī)器學(xué)習(xí)算法在處理大規(guī)模和復(fù)雜數(shù)據(jù)時，性能有限，且需要大量特征工程，效果不如深度學(xué)習(xí)模型。

技術(shù)實現(xiàn)思路

1、為了解決上述問題，本申請?zhí)峁┝艘环N基于大模型的自動化數(shù)據(jù)標(biāo)注方法及裝置，旨在解決現(xiàn)有技術(shù)中的高成本、低效率、標(biāo)注質(zhì)量不一致、適應(yīng)性差等問題。通過進(jìn)一步優(yōu)化和微調(diào)預(yù)訓(xùn)練模型，系統(tǒng)能夠高效、準(zhǔn)確地處理大規(guī)模和復(fù)雜數(shù)據(jù)標(biāo)注任務(wù)，提升數(shù)據(jù)標(biāo)注的整體效果。

2、本申請第一方面提供了一種基于大模型的自動化數(shù)據(jù)標(biāo)注方法，主要包括：

3、步驟s1、獲取原始數(shù)據(jù)，所述原始數(shù)據(jù)為圖像數(shù)據(jù)；

4、步驟s2、通過預(yù)訓(xùn)練的深度學(xué)習(xí)模型識別圖像數(shù)據(jù)中的特征，并進(jìn)行第一次標(biāo)注，形成按標(biāo)準(zhǔn)格式輸出的目標(biāo)標(biāo)注結(jié)果；

5、步驟s3、將所述標(biāo)注結(jié)果輸入到大規(guī)模深度學(xué)習(xí)模型中，由大規(guī)模深度學(xué)習(xí)模型進(jìn)行第二次標(biāo)準(zhǔn)，輸出對圖像數(shù)據(jù)的圖像標(biāo)注結(jié)果。

6、優(yōu)選的是。步驟s1進(jìn)一步包括：

7、步驟s11、對所述原始數(shù)據(jù)進(jìn)行格式及內(nèi)容的正確性檢查；

8、步驟s12、將所述原始數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)格式；

9、步驟s13、刪除重復(fù)數(shù)據(jù)，并對原始數(shù)據(jù)的缺失值進(jìn)行填補；

10、步驟s14、對所述原始數(shù)據(jù)進(jìn)行噪聲過濾。

11、優(yōu)選的是。步驟s13中，通過插值、填補默認(rèn)值的方式對原始數(shù)據(jù)的缺失值進(jìn)行填補。

12、優(yōu)選的是。步驟s2中，所述標(biāo)準(zhǔn)格式包括一條或多條標(biāo)注內(nèi)容，每條標(biāo)注內(nèi)容包括圖形中的目標(biāo)類別、位置及置信度。

13、優(yōu)選的是。步驟s3進(jìn)一步包括：

14、步驟s31、對圖像標(biāo)注結(jié)果進(jìn)行加密。

15、本申請第二方面提供了一種基于大模型的自動化數(shù)據(jù)標(biāo)注裝置，主要包括：

16、數(shù)據(jù)獲取模塊，用于獲取原始數(shù)據(jù)，所述原始數(shù)據(jù)為圖像數(shù)據(jù)；

17、圖像特征識別模塊，用于通過預(yù)訓(xùn)練的深度學(xué)習(xí)模型識別圖像數(shù)據(jù)中的特征，并進(jìn)行第一次標(biāo)注，形成按標(biāo)準(zhǔn)格式輸出的目標(biāo)標(biāo)注結(jié)果；

18、大模型標(biāo)注模塊，用于將所述標(biāo)注結(jié)果輸入到大規(guī)模深度學(xué)習(xí)模型中，由大規(guī)模深度學(xué)習(xí)模型進(jìn)行第二次標(biāo)準(zhǔn)，輸出對圖像數(shù)據(jù)的圖像標(biāo)注結(jié)果。

19、優(yōu)選的是，所述數(shù)據(jù)獲取模塊包括：

20、內(nèi)容檢查單元，用于對所述原始數(shù)據(jù)進(jìn)行格式及內(nèi)容的正確性檢查；

21、格式轉(zhuǎn)換單元，用于將所述原始數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)格式；

22、數(shù)據(jù)填補單元，用于刪除重復(fù)數(shù)據(jù)，并對原始數(shù)據(jù)的缺失值進(jìn)行填補；

23、噪聲過濾單元，用于對所述原始數(shù)據(jù)進(jìn)行噪聲過濾。

24、優(yōu)選的是，在所述數(shù)據(jù)填補單元中，通過插值、填補默認(rèn)值的方式對原始數(shù)據(jù)的缺失值進(jìn)行填補。

25、優(yōu)選的是，在所述圖像特征識別模塊中，所述標(biāo)準(zhǔn)格式包括一條或多條標(biāo)注內(nèi)容，每條標(biāo)注內(nèi)容包括圖形中的目標(biāo)類別、位置及置信度。

26、優(yōu)選的是，所述大模型標(biāo)注模塊包括：

27、數(shù)據(jù)加密單元，用于對圖像標(biāo)注結(jié)果進(jìn)行加密。

28、本申請實現(xiàn)了高效、低成本、高質(zhì)量、安全的自動化數(shù)據(jù)標(biāo)注。

技術(shù)特征：

1.一種基于大模型的自動化數(shù)據(jù)標(biāo)注方法，其特征在于，包括：

2.如權(quán)利要求1所述的基于大模型的自動化數(shù)據(jù)標(biāo)注方法，其特征在于，步驟s1進(jìn)一步包括：

3.如權(quán)利要求2所述的基于大模型的自動化數(shù)據(jù)標(biāo)注方法，其特征在于，步驟s13中，通過插值、填補默認(rèn)值的方式對原始數(shù)據(jù)的缺失值進(jìn)行填補。

4.如權(quán)利要求1所述的基于大模型的自動化數(shù)據(jù)標(biāo)注方法，其特征在于，步驟s2中，所述標(biāo)準(zhǔn)格式包括一條或多條標(biāo)注內(nèi)容，每條標(biāo)注內(nèi)容包括圖形中的目標(biāo)類別、位置及置信度。

5.如權(quán)利要求1所述的基于大模型的自動化數(shù)據(jù)標(biāo)注方法，其特征在于，步驟s3進(jìn)一步包括：

6.一種基于大模型的自動化數(shù)據(jù)標(biāo)注裝置，其特征在于，包括：

7.如權(quán)利要求6所述的基于大模型的自動化數(shù)據(jù)標(biāo)注裝置，其特征在于，所述數(shù)據(jù)獲取模塊包括：

8.如權(quán)利要求7所述的基于大模型的自動化數(shù)據(jù)標(biāo)注裝置，其特征在于，在所述數(shù)據(jù)填補單元中，通過插值、填補默認(rèn)值的方式對原始數(shù)據(jù)的缺失值進(jìn)行填補。

9.如權(quán)利要求6所述的基于大模型的自動化數(shù)據(jù)標(biāo)注裝置，其特征在于，在所述圖像特征識別模塊中，所述標(biāo)準(zhǔn)格式包括一條或多條標(biāo)注內(nèi)容，每條標(biāo)注內(nèi)容包括圖形中的目標(biāo)類別、位置及置信度。

10.如權(quán)利要求6所述的基于大模型的自動化數(shù)據(jù)標(biāo)注裝置，其特征在于，所述大模型標(biāo)注模塊包括：

技術(shù)總結(jié)
本申請屬于數(shù)據(jù)處理領(lǐng)域，特別涉及一種基于大模型的自動化數(shù)據(jù)標(biāo)注方法及裝置，該方法包括步驟S1、獲取原始數(shù)據(jù)，所述原始數(shù)據(jù)為圖像數(shù)據(jù)；步驟S2、通過預(yù)訓(xùn)練的深度學(xué)習(xí)模型識別圖像數(shù)據(jù)中的特征，并進(jìn)行第一次標(biāo)注，形成按標(biāo)準(zhǔn)格式輸出的目標(biāo)標(biāo)注結(jié)果；步驟S3、將所述標(biāo)注結(jié)果輸入到大規(guī)模深度學(xué)習(xí)模型中，由大規(guī)模深度學(xué)習(xí)模型進(jìn)行第二次標(biāo)準(zhǔn)，輸出對圖像數(shù)據(jù)的圖像標(biāo)注結(jié)果。本申請實現(xiàn)了高效、低成本、高質(zhì)量、安全的自動化數(shù)據(jù)標(biāo)注。

技術(shù)研發(fā)人員：楊士博,唐矗,蒲立
受保護(hù)的技術(shù)使用者：北京積加科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊士博,唐矗,蒲立
技術(shù)所有人：北京積加科技有限公司
我是此專利的發(fā)明人

上一篇：一種基于RFID的智能圖書架的制作方法
上一篇：一種印刷機(jī)印刷部清洗裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于大模型的自動化數(shù)據(jù)標(biāo)注方法及裝置與流程