本發(fā)明涉及人機(jī)交互領(lǐng)域,特別涉及一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法。
背景技術(shù):
1、隨著數(shù)字人技術(shù)的快速發(fā)展和應(yīng)用范圍的不斷擴(kuò)大,人們對(duì)數(shù)字人的真實(shí)感和交互自然度提出了更高的要求。在眾多影響數(shù)字人真實(shí)感的因素中,唇形同步技術(shù)是至關(guān)重要的一環(huán)。目前,普遍采用的數(shù)字人唇形同步方法主要基于音素識(shí)別,通過(guò)將語(yǔ)音信號(hào)轉(zhuǎn)換為音素序列,再映射到相應(yīng)的嘴型動(dòng)作。以上方案存在語(yǔ)言依賴性強(qiáng)、精確度有限、實(shí)時(shí)性低等問(wèn)題。特別是在處理漢語(yǔ)等聲調(diào)語(yǔ)言時(shí),以上方案難以準(zhǔn)確捕捉發(fā)音的細(xì)微變化,導(dǎo)致生成的唇形動(dòng)作不夠自然流暢。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題,提供了一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,可以利用基于語(yǔ)音信號(hào)的各項(xiàng)特征完成數(shù)字人唇形同步。
2、本發(fā)明采用的技術(shù)方案如下:一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,包括:
3、獲取語(yǔ)音信號(hào);
4、提取語(yǔ)音信號(hào)中與唇形變化相關(guān)的語(yǔ)音特征;
5、將提取的語(yǔ)音特征映射為唇形變化數(shù)據(jù);
6、將唇形變化數(shù)據(jù)應(yīng)用到數(shù)字人模型上并進(jìn)行實(shí)時(shí)渲染,完成唇形同步。
7、作為一種優(yōu)選方案,所述提取語(yǔ)音信號(hào)中與唇形變化相關(guān)的語(yǔ)音特征,具體包括:
8、提取語(yǔ)音信號(hào)中的音節(jié)信息、音高信息以及音長(zhǎng)信息,并整合成綜合的語(yǔ)音特征表示。
9、作為一種優(yōu)選方案,所述音節(jié)信息提取方法包括:
10、計(jì)算語(yǔ)音信息的短時(shí)能量和過(guò)零率,并設(shè)定音節(jié)邊界的判斷閾值;
11、根據(jù)判斷閾值識(shí)別每個(gè)音節(jié)的開(kāi)始和結(jié)束,得到語(yǔ)音信號(hào)中的音節(jié)信息。
12、作為一種優(yōu)選方案,所述音高信息提取方法包括:
13、對(duì)語(yǔ)音信號(hào)進(jìn)行自相關(guān)分析,完成初步的音高估計(jì);
14、采用倒譜分析進(jìn)行精確的基頻提?。?/p>
15、通過(guò)中值濾波平滑音高輪廓,得到平滑后的音高變化曲線,即音高信息。
16、作為一種優(yōu)選方案,所述音長(zhǎng)信息提取方法包括:
17、對(duì)語(yǔ)音進(jìn)行音素級(jí)別的強(qiáng)制對(duì)齊;
18、計(jì)算每個(gè)音素的精確持續(xù)時(shí)間,即音長(zhǎng)信息。
19、作為一種優(yōu)選方案,采用線性預(yù)測(cè)編碼和倒譜分析相結(jié)合完成共振峰分析。
20、作為一種優(yōu)選方案,所述將提取的語(yǔ)音特征映射到唇形變化數(shù)據(jù),具體包括:
21、直接將提取的語(yǔ)音特征轉(zhuǎn)換為唇形變化數(shù)據(jù),或采用深度學(xué)習(xí)模型將語(yǔ)音特征映射為唇形變化數(shù)據(jù)。
22、作為一種優(yōu)選方案,所述直接將提取的語(yǔ)音特征轉(zhuǎn)換為唇形變化數(shù)據(jù),具體包括:
23、基于語(yǔ)音學(xué)和生理學(xué)的知識(shí),將語(yǔ)音特征映射為唇形變化數(shù)據(jù),其中,每個(gè)音節(jié)對(duì)應(yīng)一組基本的唇形變化;音高映射唇形的垂直開(kāi)合程度;音長(zhǎng)映射唇形變化的持續(xù)時(shí)間;共振峰映射唇形的開(kāi)合度和圓唇程度;在相鄰音素之間生成過(guò)度唇形;相鄰音素間采用協(xié)同發(fā)音效應(yīng)映射;語(yǔ)速特征表征唇形變化速率。
24、作為一種優(yōu)選方案,所述采用深度學(xué)習(xí)模型將語(yǔ)音特征映射為唇形變化數(shù)據(jù),具體包括:
25、建立基于卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)模型;其中,所述深度學(xué)習(xí)模型包括連接輸入層、cnn模塊、lstm模塊、全連接層以及輸出層;所述cnn模塊包括多層卷積層與池化層,卷積層采用多尺度卷積核捕獲不同時(shí)間跨度的語(yǔ)音特征;所述cnn模塊和lstm模塊之間添加殘差連接;所述lstm模塊中引入自注意力機(jī)制;
26、采用對(duì)抗訓(xùn)練機(jī)制對(duì)深度學(xué)習(xí)模型完成訓(xùn)練;
27、通過(guò)訓(xùn)練完成的模型完成語(yǔ)音特征到唇形變化數(shù)據(jù)的映射。
28、作為一種優(yōu)選方案,還包括,在將唇形變化數(shù)據(jù)應(yīng)用到數(shù)字人模型之前,對(duì)唇形變化數(shù)據(jù)進(jìn)行插值處理。
29、與現(xiàn)有技術(shù)相比,采用上述技術(shù)方案的有益效果為:
30、(1)高精確度和自然度:直接分析語(yǔ)音信號(hào)特征,能更準(zhǔn)確地捕捉發(fā)音的細(xì)微變化,生成更自然流暢的唇形動(dòng)作;
31、(2)語(yǔ)言適應(yīng)性強(qiáng):適用于多種語(yǔ)言環(huán)境,特別改善了對(duì)漢語(yǔ)等聲調(diào)語(yǔ)言的處理效果;
32、(3)實(shí)時(shí)性好:優(yōu)化的信號(hào)處理和映射算法提高了唇形同步的速度,滿足實(shí)時(shí)交互需求;
33、(4)實(shí)現(xiàn)簡(jiǎn)單:無(wú)需復(fù)雜的音素識(shí)別過(guò)程,降低了技術(shù)實(shí)現(xiàn)難度和維護(hù)成本;
34、(5)增強(qiáng)用戶體驗(yàn):通過(guò)更精確、自然的唇形同步,顯著提升了數(shù)字人的整體表現(xiàn)和交互自然度。
1.一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述提取語(yǔ)音信號(hào)中與唇形變化相關(guān)的語(yǔ)音特征,具體包括:
3.根據(jù)權(quán)利要求2所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述音節(jié)信息提取方法包括:
4.根據(jù)權(quán)利要求2或3所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述音高信息提取方法包括:
5.根據(jù)權(quán)利要求2所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述音長(zhǎng)信息提取方法包括:
6.根據(jù)權(quán)利要求2所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,采用線性預(yù)測(cè)編碼和倒譜分析相結(jié)合完成共振峰分析。
7.根據(jù)權(quán)利要求2所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述將提取的語(yǔ)音特征映射到唇形變化數(shù)據(jù),具體包括:
8.根據(jù)權(quán)利要求7所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述直接將提取的語(yǔ)音特征轉(zhuǎn)換為唇形變化數(shù)據(jù),具體包括:
9.根據(jù)權(quán)利要求7所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述采用深度學(xué)習(xí)模型將語(yǔ)音特征映射為唇形變化數(shù)據(jù),具體包括:
10.根據(jù)權(quán)利要求1所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,還包括,在將唇形變化數(shù)據(jù)應(yīng)用到數(shù)字人模型之前,對(duì)唇形變化數(shù)據(jù)進(jìn)行插值處理。