本發(fā)明涉及計(jì)算機(jī)視覺、語音處理和人工智能交叉,尤其涉及一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法及系統(tǒng)。
背景技術(shù):
1、現(xiàn)有技術(shù)在處理數(shù)字人時(shí)可能存在人臉和音頻不同步或不匹配、不能專注于單個(gè)個(gè)體的人臉和人聲的問題,造成多個(gè)人臉混淆干擾,使模型不能精準(zhǔn)地學(xué)習(xí)和模擬特定個(gè)體的特征和表達(dá)。另外還存在數(shù)據(jù)冗余問題,沒有裁剪出有效的視頻片段,存在大量無用或重復(fù)的數(shù)據(jù),增加了數(shù)據(jù)存儲(chǔ)和處理的負(fù)擔(dān)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法及系統(tǒng),從而解決現(xiàn)有技術(shù)中存在的前述問題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
3、一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,包括如下步驟,
4、s1、視頻數(shù)據(jù)采集:在數(shù)字人素材庫中篩選播報(bào)類的高清真人視頻,并將這些視頻保存為視頻文件;
5、s2、人臉檢測(cè):對(duì)視頻文件中的每一幀圖像進(jìn)行人臉檢測(cè),對(duì)于只有一張臉的圖像,記錄該人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間;
6、s3、音軌分離:將視頻文件中的音頻內(nèi)容單獨(dú)提取出來,并將這些音頻內(nèi)容保存為wav格式音頻文件;
7、s4、音頻檢測(cè):對(duì)音頻文件中的每一幀或每一時(shí)間段的音頻信號(hào)進(jìn)行特征提取和模式匹配,確定該幀或該時(shí)間段的音頻信號(hào)是有聲片段或無聲片段,并區(qū)別有聲片段中的人聲和非人聲,對(duì)于人聲的片段,記錄該人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間;
8、s5、有效視頻片段裁剪:基于人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間以及人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間之間的交集的起始和結(jié)束時(shí)間,對(duì)視頻文件進(jìn)行裁剪,獲取有效視頻片段。
9、優(yōu)選的,步驟s2具體包括如下內(nèi)容,
10、s21、讀取保存的視頻文件,對(duì)視頻文件的每一幀圖像進(jìn)行分析處理;
11、s22、使用基于深度學(xué)習(xí)的人臉檢測(cè)模型判斷當(dāng)前幀圖像中是否有且只有一張人臉,若是,則記錄該人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間;否則,跳過當(dāng)前幀圖像。
12、優(yōu)選的,步驟s4具體包括如下內(nèi)容,
13、s41、讀取待分析的音頻文件;
14、s42、運(yùn)用音頻活性檢測(cè)技術(shù)對(duì)音頻文件的每一幀或每一時(shí)間段的音頻信號(hào)進(jìn)行特征提取,并基于相應(yīng)閾值確定該幀或該時(shí)間段的音頻信號(hào)是有聲片段或無聲片段;
15、s43、利用語音識(shí)別算法相關(guān)模型,對(duì)提取的有聲片段進(jìn)行特征提取和模式匹配,以區(qū)分有聲片段中的人聲和非人聲;
16、s44、對(duì)被判定為人聲的片段,精確記錄其在音頻文件中的起始時(shí)間和結(jié)束時(shí)間。
17、優(yōu)選的,步驟s42具體為,對(duì)于聲音的能量特征,計(jì)算每一幀或每一時(shí)間段音頻信號(hào)的幅度平方和,以表示其能量大?。粚?duì)于聲音的頻率特征,分析每一幀或每一時(shí)間段音頻信號(hào)在不同頻率段的分布情況,以表征其頻率高低;設(shè)定能量閾值和頻率閾值,當(dāng)某一幀或每一時(shí)間段音頻信號(hào)的能量和頻率都超過了相應(yīng)閾值,則認(rèn)為該幀或該時(shí)間段的音頻信號(hào)是有聲音活動(dòng)的,否則認(rèn)為該幀或該時(shí)間段的音頻信號(hào)為無聲片段。
18、優(yōu)選的,步驟s42具體為,分析有聲片段中聲音的頻譜、韻律、音色特征,將其與預(yù)先學(xué)習(xí)到的人聲和非人聲的模式進(jìn)行比較分析,進(jìn)而區(qū)分有聲片段中的人聲和非人聲。
19、優(yōu)選的,步驟s5具體包括如下內(nèi)容,
20、s51、對(duì)于步驟s2中提取出的人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間以及步驟s4中提取出的人聲所在的片段在視頻文件中的起始時(shí)間和結(jié)束時(shí)間進(jìn)行比較和計(jì)算,確定人臉?biāo)诘钠魏腿寺曀诘钠嗡鶎?duì)應(yīng)時(shí)間的交集;
21、s52、根據(jù)交集的起始時(shí)間和結(jié)束時(shí)間,使用視頻編輯工具或相關(guān)編程接口,對(duì)視頻文件進(jìn)行裁剪操作;
22、s53、重復(fù)上述過程,以將視頻文件裁剪為多個(gè)有效的視頻片段。
23、優(yōu)選的,所述高清真人視頻的分辨率在1080*1920以上。
24、優(yōu)選的,步驟s5之后還包括,
25、s6、視頻轉(zhuǎn)碼:將有效視頻片段統(tǒng)一轉(zhuǎn)碼為mp4格式,獲取最終視頻。
26、本發(fā)明的目的還在于提供一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理系統(tǒng),系統(tǒng)能夠?qū)崿F(xiàn)上述任一所述的方法,所述系統(tǒng)包括,
27、視頻數(shù)據(jù)采集模塊:在數(shù)字人素材庫中篩選播報(bào)類的高清真人視頻,并將這些視頻保存為視頻文件;
28、人臉檢測(cè)模塊:對(duì)視頻文件中的每一幀圖像進(jìn)行人臉檢測(cè),對(duì)于只有一張臉的圖像,記錄該人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間;
29、音軌分離模塊:將視頻文件中的音頻內(nèi)容單獨(dú)提取出來,并將這些音頻內(nèi)容保存為wav格式音頻文件;
30、音頻檢測(cè)模塊:對(duì)音頻文件中的每一幀或每一時(shí)間段的音頻信號(hào)進(jìn)行特征提取和模式匹配,確定該幀或該時(shí)間段的音頻信號(hào)是有聲片段或無聲片段,并區(qū)別有聲片段中的人聲和非人聲,對(duì)于人聲的片段,記錄該人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間;
31、有效視頻片段裁剪模塊:基于人臉?biāo)诘钠卧谝曨l文件中的起始時(shí)間和結(jié)束時(shí)間以及人聲所在片段在音頻文件中的起始時(shí)間和結(jié)束時(shí)間之間的交集的起始和結(jié)束時(shí)間,對(duì)視頻文件進(jìn)行裁剪,獲取有效視頻片段;
32、視頻轉(zhuǎn)碼模塊:將有效視頻片段統(tǒng)一轉(zhuǎn)碼為mp4格式,獲取最終視頻。
33、本發(fā)明的有益效果是:1、能夠優(yōu)化數(shù)字人訓(xùn)練數(shù)據(jù)的質(zhì)量,提高數(shù)字人表現(xiàn)的逼真度,增強(qiáng)數(shù)字人的適應(yīng)性和通用性。2、通過精確篩選和裁剪出包含清晰人臉和準(zhǔn)確人聲的有效片段,為模型訓(xùn)練提供了高質(zhì)量的數(shù)據(jù),確保了數(shù)據(jù)中人臉和人聲的同步與匹配,使數(shù)字人在面部表情、語言表達(dá)等方面的模擬更加準(zhǔn)確、協(xié)調(diào),提高了整體表現(xiàn)的連貫性。3、去除了無關(guān)和冗余的數(shù)據(jù),減少了模型訓(xùn)練的計(jì)算量和時(shí)間成本,加快了訓(xùn)練速度。
1.一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:包括如下步驟,
2.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:步驟s2具體包括如下內(nèi)容,
3.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:步驟s4具體包括如下內(nèi)容,
4.根據(jù)權(quán)利要求3所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:步驟s42具體為,對(duì)于聲音的能量特征,計(jì)算每一幀或每一時(shí)間段音頻信號(hào)的幅度平方和,以表示其能量大小;對(duì)于聲音的頻率特征,分析每一幀或每一時(shí)間段音頻信號(hào)在不同頻率段的分布情況,以表征其頻率高低;設(shè)定能量閾值和頻率閾值,當(dāng)某一幀或每一時(shí)間段音頻信號(hào)的能量和頻率都超過了相應(yīng)閾值,則認(rèn)為該幀或該時(shí)間段的音頻信號(hào)是有聲音活動(dòng)的,否則認(rèn)為該幀或該時(shí)間段的音頻信號(hào)為無聲片段。
5.根據(jù)權(quán)利要求3所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:步驟s42具體為,分析有聲片段中聲音的頻譜、韻律、音色特征,將其與預(yù)先學(xué)習(xí)到的人聲和非人聲的模式進(jìn)行比較分析,進(jìn)而區(qū)分有聲片段中的人聲和非人聲。
6.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:步驟s5具體包括如下內(nèi)容,
7.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:所述高清真人視頻的分辨率在1080*1920以上。
8.根據(jù)權(quán)利要求1所述的針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理方法,其特征在于:步驟s5之后還包括,
9.一種針對(duì)數(shù)字人模型訓(xùn)練的數(shù)據(jù)處理系統(tǒng),其特征在于:系統(tǒng)能夠?qū)崿F(xiàn)上述權(quán)利要求1至8任一所述的方法,所述系統(tǒng)包括,