一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法及系統(tǒng)與流程

文檔序號(hào)：40449711發(fā)布日期：2024-12-27 09:14閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法及系統(tǒng)與流程

本發(fā)明涉及計(jì)算機(jī)視覺、語音處理和人工智能交叉，尤其涉及一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法及系統(tǒng)。

背景技術(shù)：

1、現(xiàn)有技術(shù)在處理數(shù)字人時(shí)可能存在人臉和音頻不同步或不匹配、不能專注于單個(gè)個(gè)體的人臉和人聲的問題，造成多個(gè)人臉混淆干擾，使模型不能精準(zhǔn)地學(xué)習(xí)和模擬特定個(gè)體的特征和表達(dá)。另外還存在數(shù)據(jù)冗余問題，沒有裁剪出有效的視頻片段，存在大量無用或重復(fù)的數(shù)據(jù)，增加了數(shù)據(jù)存儲(chǔ)和處理的負(fù)擔(dān)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法及系統(tǒng)，從而解決現(xiàn)有技術(shù)中存在的前述問題。

2、為了實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案如下：

3、一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法，包括如下步驟，

4、s1、視頻數(shù)據(jù)采集：在數(shù)字人素材庫中篩選播報(bào)類的高清真人視頻，并將這些視頻保存為視頻文件；

5、s2、人臉檢測(cè)：對(duì)視頻文件中的每一幀圖像進(jìn)行人臉檢測(cè)，對(duì)于只有一張臉的圖像，記錄該人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間；

6、s3、音軌分離：將視頻文件中的音頻內(nèi)容單獨(dú)提取出來，并將這些音頻內(nèi)容保存為wav格式音頻文件；

7、s4、音頻檢測(cè)：對(duì)音頻文件中的每一幀或每一時(shí)間段的音頻信號(hào)進(jìn)行特征提取和模式匹配，確定該幀或該時(shí)間段的音頻信號(hào)是有聲片段或無聲片段，并區(qū)別有聲片段中的人聲和非人聲，對(duì)于人聲的片段，記錄該人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間；

8、s5、有效視頻片段裁剪：基于人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間以及人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間之間的交集的起始和結(jié)束時(shí)間，對(duì)視頻文件進(jìn)行裁剪，獲取有效視頻片段。

9、優(yōu)選的，步驟s2具體包括如下內(nèi)容，

10、s21、讀取保存的視頻文件，對(duì)視頻文件的每一幀圖像進(jìn)行分析處理；

11、s22、使用基于深度學(xué)習(xí)的人臉檢測(cè)模型判斷當(dāng)前幀圖像中是否有且只有一張人臉，若是，則記錄該人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間；否則，跳過當(dāng)前幀圖像。

12、優(yōu)選的，步驟s4具體包括如下內(nèi)容，

13、s41、讀取待分析的音頻文件；

14、s42、運(yùn)用音頻活性檢測(cè)技術(shù)對(duì)音頻文件的每一幀或每一時(shí)間段的音頻信號(hào)進(jìn)行特征提取，并基于相應(yīng)閾值確定該幀或該時(shí)間段的音頻信號(hào)是有聲片段或無聲片段；

15、s43、利用語音識(shí)別算法相關(guān)模型，對(duì)提取的有聲片段進(jìn)行特征提取和模式匹配，以區(qū)分有聲片段中的人聲和非人聲；

16、s44、對(duì)被判定為人聲的片段，精確記錄其在音頻文件中的起始時(shí)間和結(jié)束時(shí)間。

17、優(yōu)選的，步驟s42具體為，對(duì)于聲音的能量特征，計(jì)算每一幀或每一時(shí)間段音頻信號(hào)的幅度平方和，以表示其能量大?。粚?duì)于聲音的頻率特征，分析每一幀或每一時(shí)間段音頻信號(hào)在不同頻率段的分布情況，以表征其頻率高低；設(shè)定能量閾值和頻率閾值，當(dāng)某一幀或每一時(shí)間段音頻信號(hào)的能量和頻率都超過了相應(yīng)閾值，則認(rèn)為該幀或該時(shí)間段的音頻信號(hào)是有聲音活動(dòng)的，否則認(rèn)為該幀或該時(shí)間段的音頻信號(hào)為無聲片段。

18、優(yōu)選的，步驟s42具體為，分析有聲片段中聲音的頻譜、韻律、音色特征，將其與預(yù)先學(xué)習(xí)到的人聲和非人聲的模式進(jìn)行比較分析，進(jìn)而區(qū)分有聲片段中的人聲和非人聲。

19、優(yōu)選的，步驟s5具體包括如下內(nèi)容，

20、s51、對(duì)于步驟s2中提取出的人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間以及步驟s4中提取出的人聲所在的片段在視頻文件中的起始時(shí)間和結(jié)束時(shí)間進(jìn)行比較和計(jì)算，確定人臉?biāo)诘钠魏腿寺曀诘钠嗡鶎?duì)應(yīng)時(shí)間的交集；

21、s52、根據(jù)交集的起始時(shí)間和結(jié)束時(shí)間，使用視頻編輯工具或相關(guān)編程接口，對(duì)視頻文件進(jìn)行裁剪操作；

22、s53、重復(fù)上述過程，以將視頻文件裁剪為多個(gè)有效的視頻片段。

23、優(yōu)選的，所述高清真人視頻的分辨率在1080*1920以上。

24、優(yōu)選的，步驟s5之后還包括，

25、s6、視頻轉(zhuǎn)碼：將有效視頻片段統(tǒng)一轉(zhuǎn)碼為mp4格式，獲取最終視頻。

26、本發(fā)明的目的還在于提供一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理系統(tǒng)，系統(tǒng)能夠?qū)崿F(xiàn)上述任一所述的方法，所述系統(tǒng)包括，

27、視頻數(shù)據(jù)采集模塊：在數(shù)字人素材庫中篩選播報(bào)類的高清真人視頻，并將這些視頻保存為視頻文件；

28、人臉檢測(cè)模塊：對(duì)視頻文件中的每一幀圖像進(jìn)行人臉檢測(cè)，對(duì)于只有一張臉的圖像，記錄該人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間；

29、音軌分離模塊：將視頻文件中的音頻內(nèi)容單獨(dú)提取出來，并將這些音頻內(nèi)容保存為wav格式音頻文件；

30、音頻檢測(cè)模塊：對(duì)音頻文件中的每一幀或每一時(shí)間段的音頻信號(hào)進(jìn)行特征提取和模式匹配，確定該幀或該時(shí)間段的音頻信號(hào)是有聲片段或無聲片段，并區(qū)別有聲片段中的人聲和非人聲，對(duì)于人聲的片段，記錄該人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間；

31、有效視頻片段裁剪模塊：基于人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間以及人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間之間的交集的起始和結(jié)束時(shí)間，對(duì)視頻文件進(jìn)行裁剪，獲取有效視頻片段；

32、視頻轉(zhuǎn)碼模塊：將有效視頻片段統(tǒng)一轉(zhuǎn)碼為mp4格式，獲取最終視頻。

33、本發(fā)明的有益效果是：1、能夠優(yōu)化數(shù)字人訓(xùn)練數(shù)據(jù)的質(zhì)量，提高數(shù)字人表現(xiàn)的逼真度，增強(qiáng)數(shù)字人的適應(yīng)性和通用性。2、通過精確篩選和裁剪出包含清晰人臉和準(zhǔn)確人聲的有效片段，為模型訓(xùn)練提供了高質(zhì)量的數(shù)據(jù)，確保了數(shù)據(jù)中人臉和人聲的同步與匹配，使數(shù)字人在面部表情、語言表達(dá)等方面的模擬更加準(zhǔn)確、協(xié)調(diào)，提高了整體表現(xiàn)的連貫性。3、去除了無關(guān)和冗余的數(shù)據(jù)，減少了模型訓(xùn)練的計(jì)算量和時(shí)間成本，加快了訓(xùn)練速度。

技術(shù)特征：

1.一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法，其特征在于：包括如下步驟，

2.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法，其特征在于：步驟s2具體包括如下內(nèi)容，

3.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法，其特征在于：步驟s4具體包括如下內(nèi)容，

4.根據(jù)權(quán)利要求3所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法，其特征在于：步驟s42具體為，對(duì)于聲音的能量特征，計(jì)算每一幀或每一時(shí)間段音頻信號(hào)的幅度平方和，以表示其能量大小；對(duì)于聲音的頻率特征，分析每一幀或每一時(shí)間段音頻信號(hào)在不同頻率段的分布情況，以表征其頻率高低；設(shè)定能量閾值和頻率閾值，當(dāng)某一幀或每一時(shí)間段音頻信號(hào)的能量和頻率都超過了相應(yīng)閾值，則認(rèn)為該幀或該時(shí)間段的音頻信號(hào)是有聲音活動(dòng)的，否則認(rèn)為該幀或該時(shí)間段的音頻信號(hào)為無聲片段。

5.根據(jù)權(quán)利要求3所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法，其特征在于：步驟s42具體為，分析有聲片段中聲音的頻譜、韻律、音色特征，將其與預(yù)先學(xué)習(xí)到的人聲和非人聲的模式進(jìn)行比較分析，進(jìn)而區(qū)分有聲片段中的人聲和非人聲。

6.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法，其特征在于：步驟s5具體包括如下內(nèi)容，

7.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法，其特征在于：所述高清真人視頻的分辨率在1080*1920以上。

8.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法，其特征在于：步驟s5之后還包括，

9.一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理系統(tǒng)，其特征在于：系統(tǒng)能夠?qū)崿F(xiàn)上述權(quán)利要求1至8任一所述的方法，所述系統(tǒng)包括，

技術(shù)總結(jié)
本發(fā)明公開了一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法及系統(tǒng)，方法包括在數(shù)字人素材庫中篩選播報(bào)類的高清真人視頻，并保存為視頻文件；記錄只有一張人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間；將視頻文件中的音頻內(nèi)容單獨(dú)提取出來；記錄人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間；基于人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間以及人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間之間的交集的起始和結(jié)束時(shí)間，對(duì)視頻文件進(jìn)行裁剪，獲取有效視頻片段。優(yōu)點(diǎn)是：為模型訓(xùn)練提供了高質(zhì)量的數(shù)據(jù)，確保了數(shù)據(jù)中人臉和人聲的同步與匹配，使數(shù)字人在面部表情、語言表達(dá)等方面的模擬更加準(zhǔn)確、協(xié)調(diào)，提高了整體表現(xiàn)的連貫性。

技術(shù)研發(fā)人員：李璋,張華偉
受保護(hù)的技術(shù)使用者：新壹（北京）科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/26

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李璋,張華偉
技術(shù)所有人：新壹（北京）科技有限公司
我是此專利的發(fā)明人

上一篇：一種升降式和面裝置的制作方法
上一篇：一種帶有散熱裝置的導(dǎo)熱油取樣器的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法及系統(tǒng)與流程