亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法及系統(tǒng)與流程

文檔序號(hào):40449711發(fā)布日期:2024-12-27 09:14閱讀:5來源:國知局
一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法及系統(tǒng)與流程

本發(fā)明涉及計(jì)算機(jī)視覺、語音處理和人工智能交叉,尤其涉及一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法及系統(tǒng)。


背景技術(shù):

1、現(xiàn)有技術(shù)在處理數(shù)字人時(shí)可能存在人臉和音頻不同步或不匹配、不能專注于單個(gè)個(gè)體的人臉和人聲的問題,造成多個(gè)人臉混淆干擾,使模型不能精準(zhǔn)地學(xué)習(xí)和模擬特定個(gè)體的特征和表達(dá)。另外還存在數(shù)據(jù)冗余問題,沒有裁剪出有效的視頻片段,存在大量無用或重復(fù)的數(shù)據(jù),增加了數(shù)據(jù)存儲(chǔ)和處理的負(fù)擔(dān)。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法及系統(tǒng),從而解決現(xiàn)有技術(shù)中存在的前述問題。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:

3、一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,包括如下步驟,

4、s1、視頻數(shù)據(jù)采集:在數(shù)字人素材庫中篩選播報(bào)類的高清真人視頻,并將這些視頻保存為視頻文件;

5、s2、人臉檢測(cè):對(duì)視頻文件中的每一幀圖像進(jìn)行人臉檢測(cè),對(duì)于只有一張臉的圖像,記錄該人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間;

6、s3、音軌分離:將視頻文件中的音頻內(nèi)容單獨(dú)提取出來,并將這些音頻內(nèi)容保存為wav格式音頻文件;

7、s4、音頻檢測(cè):對(duì)音頻文件中的每一幀或每一時(shí)間段的音頻信號(hào)進(jìn)行特征提取和模式匹配,確定該幀或該時(shí)間段的音頻信號(hào)是有聲片段或無聲片段,并區(qū)別有聲片段中的人聲和非人聲,對(duì)于人聲的片段,記錄該人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間;

8、s5、有效視頻片段裁剪:基于人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間以及人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間之間的交集的起始和結(jié)束時(shí)間,對(duì)視頻文件進(jìn)行裁剪,獲取有效視頻片段。

9、優(yōu)選的,步驟s2具體包括如下內(nèi)容,

10、s21、讀取保存的視頻文件,對(duì)視頻文件的每一幀圖像進(jìn)行分析處理;

11、s22、使用基于深度學(xué)習(xí)的人臉檢測(cè)模型判斷當(dāng)前幀圖像中是否有且只有一張人臉,若是,則記錄該人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間;否則,跳過當(dāng)前幀圖像。

12、優(yōu)選的,步驟s4具體包括如下內(nèi)容,

13、s41、讀取待分析的音頻文件;

14、s42、運(yùn)用音頻活性檢測(cè)技術(shù)對(duì)音頻文件的每一幀或每一時(shí)間段的音頻信號(hào)進(jìn)行特征提取,并基于相應(yīng)閾值確定該幀或該時(shí)間段的音頻信號(hào)是有聲片段或無聲片段;

15、s43、利用語音識(shí)別算法相關(guān)模型,對(duì)提取的有聲片段進(jìn)行特征提取和模式匹配,以區(qū)分有聲片段中的人聲和非人聲;

16、s44、對(duì)被判定為人聲的片段,精確記錄其在音頻文件中的起始時(shí)間和結(jié)束時(shí)間。

17、優(yōu)選的,步驟s42具體為,對(duì)于聲音的能量特征,計(jì)算每一幀或每一時(shí)間段音頻信號(hào)的幅度平方和,以表示其能量大?。粚?duì)于聲音的頻率特征,分析每一幀或每一時(shí)間段音頻信號(hào)在不同頻率段的分布情況,以表征其頻率高低;設(shè)定能量閾值和頻率閾值,當(dāng)某一幀或每一時(shí)間段音頻信號(hào)的能量和頻率都超過了相應(yīng)閾值,則認(rèn)為該幀或該時(shí)間段的音頻信號(hào)是有聲音活動(dòng)的,否則認(rèn)為該幀或該時(shí)間段的音頻信號(hào)為無聲片段。

18、優(yōu)選的,步驟s42具體為,分析有聲片段中聲音的頻譜、韻律、音色特征,將其與預(yù)先學(xué)習(xí)到的人聲和非人聲的模式進(jìn)行比較分析,進(jìn)而區(qū)分有聲片段中的人聲和非人聲。

19、優(yōu)選的,步驟s5具體包括如下內(nèi)容,

20、s51、對(duì)于步驟s2中提取出的人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間以及步驟s4中提取出的人聲所在的片段在視頻文件中的起始時(shí)間和結(jié)束時(shí)間進(jìn)行比較和計(jì)算,確定人臉?biāo)诘钠魏腿寺曀诘钠嗡鶎?duì)應(yīng)時(shí)間的交集;

21、s52、根據(jù)交集的起始時(shí)間和結(jié)束時(shí)間,使用視頻編輯工具或相關(guān)編程接口,對(duì)視頻文件進(jìn)行裁剪操作;

22、s53、重復(fù)上述過程,以將視頻文件裁剪為多個(gè)有效的視頻片段。

23、優(yōu)選的,所述高清真人視頻的分辨率在1080*1920以上。

24、優(yōu)選的,步驟s5之后還包括,

25、s6、視頻轉(zhuǎn)碼:將有效視頻片段統(tǒng)一轉(zhuǎn)碼為mp4格式,獲取最終視頻。

26、本發(fā)明的目的還在于提供一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理系統(tǒng),系統(tǒng)能夠?qū)崿F(xiàn)上述任一所述的方法,所述系統(tǒng)包括,

27、視頻數(shù)據(jù)采集模塊:在數(shù)字人素材庫中篩選播報(bào)類的高清真人視頻,并將這些視頻保存為視頻文件;

28、人臉檢測(cè)模塊:對(duì)視頻文件中的每一幀圖像進(jìn)行人臉檢測(cè),對(duì)于只有一張臉的圖像,記錄該人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間;

29、音軌分離模塊:將視頻文件中的音頻內(nèi)容單獨(dú)提取出來,并將這些音頻內(nèi)容保存為wav格式音頻文件;

30、音頻檢測(cè)模塊:對(duì)音頻文件中的每一幀或每一時(shí)間段的音頻信號(hào)進(jìn)行特征提取和模式匹配,確定該幀或該時(shí)間段的音頻信號(hào)是有聲片段或無聲片段,并區(qū)別有聲片段中的人聲和非人聲,對(duì)于人聲的片段,記錄該人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間;

31、有效視頻片段裁剪模塊:基于人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間以及人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間之間的交集的起始和結(jié)束時(shí)間,對(duì)視頻文件進(jìn)行裁剪,獲取有效視頻片段;

32、視頻轉(zhuǎn)碼模塊:將有效視頻片段統(tǒng)一轉(zhuǎn)碼為mp4格式,獲取最終視頻。

33、本發(fā)明的有益效果是:1、能夠優(yōu)化數(shù)字人訓(xùn)練數(shù)據(jù)的質(zhì)量,提高數(shù)字人表現(xiàn)的逼真度,增強(qiáng)數(shù)字人的適應(yīng)性和通用性。2、通過精確篩選和裁剪出包含清晰人臉和準(zhǔn)確人聲的有效片段,為模型訓(xùn)練提供了高質(zhì)量的數(shù)據(jù),確保了數(shù)據(jù)中人臉和人聲的同步與匹配,使數(shù)字人在面部表情、語言表達(dá)等方面的模擬更加準(zhǔn)確、協(xié)調(diào),提高了整體表現(xiàn)的連貫性。3、去除了無關(guān)和冗余的數(shù)據(jù),減少了模型訓(xùn)練的計(jì)算量和時(shí)間成本,加快了訓(xùn)練速度。



技術(shù)特征:

1.一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:包括如下步驟,

2.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:步驟s2具體包括如下內(nèi)容,

3.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:步驟s4具體包括如下內(nèi)容,

4.根據(jù)權(quán)利要求3所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:步驟s42具體為,對(duì)于聲音的能量特征,計(jì)算每一幀或每一時(shí)間段音頻信號(hào)的幅度平方和,以表示其能量大小;對(duì)于聲音的頻率特征,分析每一幀或每一時(shí)間段音頻信號(hào)在不同頻率段的分布情況,以表征其頻率高低;設(shè)定能量閾值和頻率閾值,當(dāng)某一幀或每一時(shí)間段音頻信號(hào)的能量和頻率都超過了相應(yīng)閾值,則認(rèn)為該幀或該時(shí)間段的音頻信號(hào)是有聲音活動(dòng)的,否則認(rèn)為該幀或該時(shí)間段的音頻信號(hào)為無聲片段。

5.根據(jù)權(quán)利要求3所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:步驟s42具體為,分析有聲片段中聲音的頻譜、韻律、音色特征,將其與預(yù)先學(xué)習(xí)到的人聲和非人聲的模式進(jìn)行比較分析,進(jìn)而區(qū)分有聲片段中的人聲和非人聲。

6.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:步驟s5具體包括如下內(nèi)容,

7.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:所述高清真人視頻的分辨率在1080*1920以上。

8.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:步驟s5之后還包括,

9.一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理系統(tǒng),其特征在于:系統(tǒng)能夠?qū)崿F(xiàn)上述權(quán)利要求1至8任一所述的方法,所述系統(tǒng)包括,


技術(shù)總結(jié)
本發(fā)明公開了一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法及系統(tǒng),方法包括在數(shù)字人素材庫中篩選播報(bào)類的高清真人視頻,并保存為視頻文件;記錄只有一張人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間;將視頻文件中的音頻內(nèi)容單獨(dú)提取出來;記錄人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間;基于人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間以及人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間之間的交集的起始和結(jié)束時(shí)間,對(duì)視頻文件進(jìn)行裁剪,獲取有效視頻片段。優(yōu)點(diǎn)是:為模型訓(xùn)練提供了高質(zhì)量的數(shù)據(jù),確保了數(shù)據(jù)中人臉和人聲的同步與匹配,使數(shù)字人在面部表情、語言表達(dá)等方面的模擬更加準(zhǔn)確、協(xié)調(diào),提高了整體表現(xiàn)的連貫性。

技術(shù)研發(fā)人員:李璋,張華偉
受保護(hù)的技術(shù)使用者:新壹(北京)科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/26
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1