亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法與流程

文檔序號(hào):40437604發(fā)布日期:2024-12-24 15:11閱讀:17來(lái)源:國(guó)知局
一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法與流程

本發(fā)明涉及人機(jī)交互領(lǐng)域,特別涉及一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法。


背景技術(shù):

1、隨著數(shù)字人技術(shù)的快速發(fā)展和應(yīng)用范圍的不斷擴(kuò)大,人們對(duì)數(shù)字人的真實(shí)感和交互自然度提出了更高的要求。在眾多影響數(shù)字人真實(shí)感的因素中,唇形同步技術(shù)是至關(guān)重要的一環(huán)。目前,普遍采用的數(shù)字人唇形同步方法主要基于音素識(shí)別,通過(guò)將語(yǔ)音信號(hào)轉(zhuǎn)換為音素序列,再映射到相應(yīng)的嘴型動(dòng)作。以上方案存在語(yǔ)言依賴性強(qiáng)、精確度有限、實(shí)時(shí)性低等問(wèn)題。特別是在處理漢語(yǔ)等聲調(diào)語(yǔ)言時(shí),以上方案難以準(zhǔn)確捕捉發(fā)音的細(xì)微變化,導(dǎo)致生成的唇形動(dòng)作不夠自然流暢。


技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題,提供了一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,可以利用基于語(yǔ)音信號(hào)的各項(xiàng)特征完成數(shù)字人唇形同步。

2、本發(fā)明采用的技術(shù)方案如下:一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,包括:

3、獲取語(yǔ)音信號(hào);

4、提取語(yǔ)音信號(hào)中與唇形變化相關(guān)的語(yǔ)音特征;

5、將提取的語(yǔ)音特征映射為唇形變化數(shù)據(jù);

6、將唇形變化數(shù)據(jù)應(yīng)用到數(shù)字人模型上并進(jìn)行實(shí)時(shí)渲染,完成唇形同步。

7、作為一種優(yōu)選方案,所述提取語(yǔ)音信號(hào)中與唇形變化相關(guān)的語(yǔ)音特征,具體包括:

8、提取語(yǔ)音信號(hào)中的音節(jié)信息、音高信息以及音長(zhǎng)信息,并整合成綜合的語(yǔ)音特征表示。

9、作為一種優(yōu)選方案,所述音節(jié)信息提取方法包括:

10、計(jì)算語(yǔ)音信息的短時(shí)能量和過(guò)零率,并設(shè)定音節(jié)邊界的判斷閾值;

11、根據(jù)判斷閾值識(shí)別每個(gè)音節(jié)的開(kāi)始和結(jié)束,得到語(yǔ)音信號(hào)中的音節(jié)信息。

12、作為一種優(yōu)選方案,所述音高信息提取方法包括:

13、對(duì)語(yǔ)音信號(hào)進(jìn)行自相關(guān)分析,完成初步的音高估計(jì);

14、采用倒譜分析進(jìn)行精確的基頻提?。?/p>

15、通過(guò)中值濾波平滑音高輪廓,得到平滑后的音高變化曲線,即音高信息。

16、作為一種優(yōu)選方案,所述音長(zhǎng)信息提取方法包括:

17、對(duì)語(yǔ)音進(jìn)行音素級(jí)別的強(qiáng)制對(duì)齊;

18、計(jì)算每個(gè)音素的精確持續(xù)時(shí)間,即音長(zhǎng)信息。

19、作為一種優(yōu)選方案,采用線性預(yù)測(cè)編碼和倒譜分析相結(jié)合完成共振峰分析。

20、作為一種優(yōu)選方案,所述將提取的語(yǔ)音特征映射到唇形變化數(shù)據(jù),具體包括:

21、直接將提取的語(yǔ)音特征轉(zhuǎn)換為唇形變化數(shù)據(jù),或采用深度學(xué)習(xí)模型將語(yǔ)音特征映射為唇形變化數(shù)據(jù)。

22、作為一種優(yōu)選方案,所述直接將提取的語(yǔ)音特征轉(zhuǎn)換為唇形變化數(shù)據(jù),具體包括:

23、基于語(yǔ)音學(xué)和生理學(xué)的知識(shí),將語(yǔ)音特征映射為唇形變化數(shù)據(jù),其中,每個(gè)音節(jié)對(duì)應(yīng)一組基本的唇形變化;音高映射唇形的垂直開(kāi)合程度;音長(zhǎng)映射唇形變化的持續(xù)時(shí)間;共振峰映射唇形的開(kāi)合度和圓唇程度;在相鄰音素之間生成過(guò)度唇形;相鄰音素間采用協(xié)同發(fā)音效應(yīng)映射;語(yǔ)速特征表征唇形變化速率。

24、作為一種優(yōu)選方案,所述采用深度學(xué)習(xí)模型將語(yǔ)音特征映射為唇形變化數(shù)據(jù),具體包括:

25、建立基于卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)模型;其中,所述深度學(xué)習(xí)模型包括連接輸入層、cnn模塊、lstm模塊、全連接層以及輸出層;所述cnn模塊包括多層卷積層與池化層,卷積層采用多尺度卷積核捕獲不同時(shí)間跨度的語(yǔ)音特征;所述cnn模塊和lstm模塊之間添加殘差連接;所述lstm模塊中引入自注意力機(jī)制;

26、采用對(duì)抗訓(xùn)練機(jī)制對(duì)深度學(xué)習(xí)模型完成訓(xùn)練;

27、通過(guò)訓(xùn)練完成的模型完成語(yǔ)音特征到唇形變化數(shù)據(jù)的映射。

28、作為一種優(yōu)選方案,還包括,在將唇形變化數(shù)據(jù)應(yīng)用到數(shù)字人模型之前,對(duì)唇形變化數(shù)據(jù)進(jìn)行插值處理。

29、與現(xiàn)有技術(shù)相比,采用上述技術(shù)方案的有益效果為:

30、(1)高精確度和自然度:直接分析語(yǔ)音信號(hào)特征,能更準(zhǔn)確地捕捉發(fā)音的細(xì)微變化,生成更自然流暢的唇形動(dòng)作;

31、(2)語(yǔ)言適應(yīng)性強(qiáng):適用于多種語(yǔ)言環(huán)境,特別改善了對(duì)漢語(yǔ)等聲調(diào)語(yǔ)言的處理效果;

32、(3)實(shí)時(shí)性好:優(yōu)化的信號(hào)處理和映射算法提高了唇形同步的速度,滿足實(shí)時(shí)交互需求;

33、(4)實(shí)現(xiàn)簡(jiǎn)單:無(wú)需復(fù)雜的音素識(shí)別過(guò)程,降低了技術(shù)實(shí)現(xiàn)難度和維護(hù)成本;

34、(5)增強(qiáng)用戶體驗(yàn):通過(guò)更精確、自然的唇形同步,顯著提升了數(shù)字人的整體表現(xiàn)和交互自然度。



技術(shù)特征:

1.一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述提取語(yǔ)音信號(hào)中與唇形變化相關(guān)的語(yǔ)音特征,具體包括:

3.根據(jù)權(quán)利要求2所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述音節(jié)信息提取方法包括:

4.根據(jù)權(quán)利要求2或3所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述音高信息提取方法包括:

5.根據(jù)權(quán)利要求2所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述音長(zhǎng)信息提取方法包括:

6.根據(jù)權(quán)利要求2所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,采用線性預(yù)測(cè)編碼和倒譜分析相結(jié)合完成共振峰分析。

7.根據(jù)權(quán)利要求2所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述將提取的語(yǔ)音特征映射到唇形變化數(shù)據(jù),具體包括:

8.根據(jù)權(quán)利要求7所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述直接將提取的語(yǔ)音特征轉(zhuǎn)換為唇形變化數(shù)據(jù),具體包括:

9.根據(jù)權(quán)利要求7所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,所述采用深度學(xué)習(xí)模型將語(yǔ)音特征映射為唇形變化數(shù)據(jù),具體包括:

10.根據(jù)權(quán)利要求1所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,其特征在于,還包括,在將唇形變化數(shù)據(jù)應(yīng)用到數(shù)字人模型之前,對(duì)唇形變化數(shù)據(jù)進(jìn)行插值處理。


技術(shù)總結(jié)
本發(fā)明提供了一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法,包括:獲取語(yǔ)音信號(hào);提取語(yǔ)音信號(hào)中與唇形變化相關(guān)的語(yǔ)音特征;將提取的語(yǔ)音特征映射為唇形變化數(shù)據(jù);將唇形變化數(shù)據(jù)應(yīng)用到數(shù)字人模型上并進(jìn)行實(shí)時(shí)渲染,完成唇形同步。本發(fā)明直接分析語(yǔ)音信號(hào)特征,能更準(zhǔn)確地捕捉發(fā)音的細(xì)微變化,生成更自然流暢的唇形動(dòng)作;適用于多種語(yǔ)言環(huán)境,特別改善了對(duì)漢語(yǔ)等聲調(diào)語(yǔ)言的處理效果;優(yōu)化的信號(hào)處理和映射算法提高了唇形同步的速度,滿足實(shí)時(shí)交互需求;無(wú)需復(fù)雜的音素識(shí)別過(guò)程,降低了技術(shù)實(shí)現(xiàn)難度和維護(hù)成本;通過(guò)更精確、自然的唇形同步,顯著提升了數(shù)字人的整體表現(xiàn)和交互自然度。

技術(shù)研發(fā)人員:蔣強(qiáng),孫于揚(yáng),王文錕
受保護(hù)的技術(shù)使用者:成都橙視傳媒科技股份公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1