一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法與流程

文檔序號(hào)：40437604發(fā)布日期：2024-12-24 15:11閱讀：17來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法與流程

本發(fā)明涉及人機(jī)交互領(lǐng)域，特別涉及一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法。

背景技術(shù)：

1、隨著數(shù)字人技術(shù)的快速發(fā)展和應(yīng)用范圍的不斷擴(kuò)大，人們對(duì)數(shù)字人的真實(shí)感和交互自然度提出了更高的要求。在眾多影響數(shù)字人真實(shí)感的因素中，唇形同步技術(shù)是至關(guān)重要的一環(huán)。目前，普遍采用的數(shù)字人唇形同步方法主要基于音素識(shí)別，通過(guò)將語(yǔ)音信號(hào)轉(zhuǎn)換為音素序列，再映射到相應(yīng)的嘴型動(dòng)作。以上方案存在語(yǔ)言依賴性強(qiáng)、精確度有限、實(shí)時(shí)性低等問(wèn)題。特別是在處理漢語(yǔ)等聲調(diào)語(yǔ)言時(shí)，以上方案難以準(zhǔn)確捕捉發(fā)音的細(xì)微變化，導(dǎo)致生成的唇形動(dòng)作不夠自然流暢。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題，提供了一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法，可以利用基于語(yǔ)音信號(hào)的各項(xiàng)特征完成數(shù)字人唇形同步。

2、本發(fā)明采用的技術(shù)方案如下：一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法，包括：

3、獲取語(yǔ)音信號(hào)；

4、提取語(yǔ)音信號(hào)中與唇形變化相關(guān)的語(yǔ)音特征；

5、將提取的語(yǔ)音特征映射為唇形變化數(shù)據(jù)；

6、將唇形變化數(shù)據(jù)應(yīng)用到數(shù)字人模型上并進(jìn)行實(shí)時(shí)渲染，完成唇形同步。

7、作為一種優(yōu)選方案，所述提取語(yǔ)音信號(hào)中與唇形變化相關(guān)的語(yǔ)音特征，具體包括：

8、提取語(yǔ)音信號(hào)中的音節(jié)信息、音高信息以及音長(zhǎng)信息，并整合成綜合的語(yǔ)音特征表示。

9、作為一種優(yōu)選方案，所述音節(jié)信息提取方法包括：

10、計(jì)算語(yǔ)音信息的短時(shí)能量和過(guò)零率，并設(shè)定音節(jié)邊界的判斷閾值；

11、根據(jù)判斷閾值識(shí)別每個(gè)音節(jié)的開(kāi)始和結(jié)束，得到語(yǔ)音信號(hào)中的音節(jié)信息。

12、作為一種優(yōu)選方案，所述音高信息提取方法包括：

13、對(duì)語(yǔ)音信號(hào)進(jìn)行自相關(guān)分析，完成初步的音高估計(jì)；

14、采用倒譜分析進(jìn)行精確的基頻提?。?/p>

15、通過(guò)中值濾波平滑音高輪廓，得到平滑后的音高變化曲線，即音高信息。

16、作為一種優(yōu)選方案，所述音長(zhǎng)信息提取方法包括：

17、對(duì)語(yǔ)音進(jìn)行音素級(jí)別的強(qiáng)制對(duì)齊；

18、計(jì)算每個(gè)音素的精確持續(xù)時(shí)間，即音長(zhǎng)信息。

19、作為一種優(yōu)選方案，采用線性預(yù)測(cè)編碼和倒譜分析相結(jié)合完成共振峰分析。

20、作為一種優(yōu)選方案，所述將提取的語(yǔ)音特征映射到唇形變化數(shù)據(jù)，具體包括：

21、直接將提取的語(yǔ)音特征轉(zhuǎn)換為唇形變化數(shù)據(jù)，或采用深度學(xué)習(xí)模型將語(yǔ)音特征映射為唇形變化數(shù)據(jù)。

22、作為一種優(yōu)選方案，所述直接將提取的語(yǔ)音特征轉(zhuǎn)換為唇形變化數(shù)據(jù)，具體包括：

23、基于語(yǔ)音學(xué)和生理學(xué)的知識(shí)，將語(yǔ)音特征映射為唇形變化數(shù)據(jù)，其中，每個(gè)音節(jié)對(duì)應(yīng)一組基本的唇形變化；音高映射唇形的垂直開(kāi)合程度；音長(zhǎng)映射唇形變化的持續(xù)時(shí)間；共振峰映射唇形的開(kāi)合度和圓唇程度；在相鄰音素之間生成過(guò)度唇形；相鄰音素間采用協(xié)同發(fā)音效應(yīng)映射；語(yǔ)速特征表征唇形變化速率。

24、作為一種優(yōu)選方案，所述采用深度學(xué)習(xí)模型將語(yǔ)音特征映射為唇形變化數(shù)據(jù)，具體包括：

25、建立基于卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)模型；其中，所述深度學(xué)習(xí)模型包括連接輸入層、cnn模塊、lstm模塊、全連接層以及輸出層；所述cnn模塊包括多層卷積層與池化層，卷積層采用多尺度卷積核捕獲不同時(shí)間跨度的語(yǔ)音特征；所述cnn模塊和lstm模塊之間添加殘差連接；所述lstm模塊中引入自注意力機(jī)制；

26、采用對(duì)抗訓(xùn)練機(jī)制對(duì)深度學(xué)習(xí)模型完成訓(xùn)練；

27、通過(guò)訓(xùn)練完成的模型完成語(yǔ)音特征到唇形變化數(shù)據(jù)的映射。

28、作為一種優(yōu)選方案，還包括，在將唇形變化數(shù)據(jù)應(yīng)用到數(shù)字人模型之前，對(duì)唇形變化數(shù)據(jù)進(jìn)行插值處理。

29、與現(xiàn)有技術(shù)相比，采用上述技術(shù)方案的有益效果為：

30、（1）高精確度和自然度：直接分析語(yǔ)音信號(hào)特征，能更準(zhǔn)確地捕捉發(fā)音的細(xì)微變化，生成更自然流暢的唇形動(dòng)作；

31、（2）語(yǔ)言適應(yīng)性強(qiáng)：適用于多種語(yǔ)言環(huán)境，特別改善了對(duì)漢語(yǔ)等聲調(diào)語(yǔ)言的處理效果；

32、（3）實(shí)時(shí)性好：優(yōu)化的信號(hào)處理和映射算法提高了唇形同步的速度，滿足實(shí)時(shí)交互需求；

33、（4）實(shí)現(xiàn)簡(jiǎn)單：無(wú)需復(fù)雜的音素識(shí)別過(guò)程，降低了技術(shù)實(shí)現(xiàn)難度和維護(hù)成本；

34、（5）增強(qiáng)用戶體驗(yàn)：通過(guò)更精確、自然的唇形同步，顯著提升了數(shù)字人的整體表現(xiàn)和交互自然度。

技術(shù)特征：

1.一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法，其特征在于，所述提取語(yǔ)音信號(hào)中與唇形變化相關(guān)的語(yǔ)音特征，具體包括：

3.根據(jù)權(quán)利要求2所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法，其特征在于，所述音節(jié)信息提取方法包括：

4.根據(jù)權(quán)利要求2或3所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法，其特征在于，所述音高信息提取方法包括：

5.根據(jù)權(quán)利要求2所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法，其特征在于，所述音長(zhǎng)信息提取方法包括：

6.根據(jù)權(quán)利要求2所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法，其特征在于，采用線性預(yù)測(cè)編碼和倒譜分析相結(jié)合完成共振峰分析。

7.根據(jù)權(quán)利要求2所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法，其特征在于，所述將提取的語(yǔ)音特征映射到唇形變化數(shù)據(jù)，具體包括：

8.根據(jù)權(quán)利要求7所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法，其特征在于，所述直接將提取的語(yǔ)音特征轉(zhuǎn)換為唇形變化數(shù)據(jù)，具體包括：

9.根據(jù)權(quán)利要求7所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法，其特征在于，所述采用深度學(xué)習(xí)模型將語(yǔ)音特征映射為唇形變化數(shù)據(jù)，具體包括：

10.根據(jù)權(quán)利要求1所述的基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法，其特征在于，還包括，在將唇形變化數(shù)據(jù)應(yīng)用到數(shù)字人模型之前，對(duì)唇形變化數(shù)據(jù)進(jìn)行插值處理。

技術(shù)總結(jié)
本發(fā)明提供了一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法，包括：獲取語(yǔ)音信號(hào)；提取語(yǔ)音信號(hào)中與唇形變化相關(guān)的語(yǔ)音特征；將提取的語(yǔ)音特征映射為唇形變化數(shù)據(jù)；將唇形變化數(shù)據(jù)應(yīng)用到數(shù)字人模型上并進(jìn)行實(shí)時(shí)渲染，完成唇形同步。本發(fā)明直接分析語(yǔ)音信號(hào)特征，能更準(zhǔn)確地捕捉發(fā)音的細(xì)微變化，生成更自然流暢的唇形動(dòng)作；適用于多種語(yǔ)言環(huán)境，特別改善了對(duì)漢語(yǔ)等聲調(diào)語(yǔ)言的處理效果；優(yōu)化的信號(hào)處理和映射算法提高了唇形同步的速度，滿足實(shí)時(shí)交互需求；無(wú)需復(fù)雜的音素識(shí)別過(guò)程，降低了技術(shù)實(shí)現(xiàn)難度和維護(hù)成本；通過(guò)更精確、自然的唇形同步，顯著提升了數(shù)字人的整體表現(xiàn)和交互自然度。

技術(shù)研發(fā)人員：蔣強(qiáng),孫于揚(yáng),王文錕
受保護(hù)的技術(shù)使用者：成都橙視傳媒科技股份公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/23

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔣強(qiáng),孫于揚(yáng),王文錕
技術(shù)所有人：成都橙視傳媒科技股份公司
我是此專利的發(fā)明人

上一篇：一種篩沙機(jī)篩網(wǎng)清理裝置的制作方法
上一篇：一種套管式冷凝器的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于語(yǔ)音驅(qū)動(dòng)的數(shù)字人唇形同步方法與流程