基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法

文檔序號：40397119發(fā)布日期：2024-12-20 12:20閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于人體姿態(tài)識別，涉及一種基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法。

背景技術(shù)：

1、目前，手部姿態(tài)重建的技術(shù)方案主要集中在基于深度學習的回歸方法、檢測方法和圖卷積網(wǎng)絡(luò)（gcn）等技術(shù)上?；貧w方法直接預(yù)測手部關(guān)節(jié)點的位置，計算速度快，但在處理復(fù)雜手勢（如手指交叉、自遮擋）時容易出現(xiàn)準確性不足的問題；檢測方法通常通過逐步定位關(guān)節(jié)點，盡管能獲得較好的空間分布信息，但難以應(yīng)對不同視角和遮擋帶來的干擾。近年來，圖卷積網(wǎng)絡(luò)在手部網(wǎng)格重建中得到應(yīng)用，它可以捕捉關(guān)節(jié)點之間的空間關(guān)系，但通常需要大量計算資源，且對噪聲和未見樣本的適應(yīng)性較差。

2、一些專利（如用于三維人體姿態(tài)估計的擴散模型、基于點云的手部姿態(tài)重建）也提出了融合多模態(tài)數(shù)據(jù)的方法，但大多在效率或精度上有所折衷。例如，部分方案側(cè)重于從單一深度圖或點云生成網(wǎng)格模型，未能充分利用多模態(tài)數(shù)據(jù)融合的優(yōu)勢，因而在遮擋情況下表現(xiàn)不佳。當前方案普遍缺乏對手部關(guān)節(jié)點的精準定位與噪聲處理能力，在細節(jié)重建和復(fù)雜手勢場景中存在顯著的準確性不足。

3、目前的手部姿態(tài)重建技術(shù)在幾個方面存在顯著缺點。

4、（1）深度學習回歸方法在應(yīng)對復(fù)雜手勢（如手指交叉、手掌遮擋等）時精度下降，主要因為其直接預(yù)測坐標的方式缺乏對關(guān)節(jié)點間依賴關(guān)系的建模，導(dǎo)致在復(fù)雜姿態(tài)下容易產(chǎn)生不準確的估計。

5、（2）檢測方法盡管能夠分步定位關(guān)節(jié)點，但在不同視角、光照變化或遮擋的情況下表現(xiàn)不穩(wěn)定，難以準確捕捉手部的三維空間結(jié)構(gòu)。

6、（3）基于圖卷積網(wǎng)絡(luò)的方案雖然能建模關(guān)節(jié)點之間的關(guān)系，但其計算量大，對硬件資源要求較高，且在應(yīng)對噪聲和未知手勢時魯棒性不夠，無法很好地適應(yīng)動態(tài)或高噪聲場景。

7、（4）這些缺點主要源于現(xiàn)有方法對關(guān)節(jié)點定位的高依賴、對噪聲敏感、以及在空間關(guān)系建模上較為單一的假設(shè)，因而難以在復(fù)雜、變化多端的環(huán)境下保持高精度的手部姿態(tài)重建。為了解決這些問題，擴散模型可以被引入為關(guān)鍵技術(shù)，通過逐步去噪的過程逐步生成和細化手部關(guān)節(jié)點坐標，使得模型能夠在不確定性較高的復(fù)雜環(huán)境中逐步優(yōu)化姿態(tài)估計。同時，擴散模型通過建模多模態(tài)數(shù)據(jù)（如深度圖和點云）之間的關(guān)系，能夠更好地恢復(fù)細節(jié)和關(guān)節(jié)點間的依賴性，從而大幅提升手部姿態(tài)的重建精度和魯棒性。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提出一種基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法，通過引入擴散模型，基于單張彩色圖像，通過融合深度圖和三維點云數(shù)據(jù)，實現(xiàn)了高精度的三維手部網(wǎng)格重建，顯著提升了手部姿態(tài)重建的速度和準確性。

2、本發(fā)明通過下述技術(shù)方案來實現(xiàn)：基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法，步驟如下：

3、s1：特征提取模型采集深度圖和點云數(shù)據(jù)，并根據(jù)深度圖和點云數(shù)據(jù)提取手部關(guān)節(jié)特征；

4、s2：將一個初始化的標準高斯分布的噪聲連同提取到的手部關(guān)節(jié)特征一起輸入擴散模型中進行迭代去噪，通過多次迭代逐步從噪聲中恢復(fù)出手部關(guān)節(jié)位置；

5、s3：根據(jù)手部關(guān)節(jié)位置，通過網(wǎng)格重建模塊重建三維手部網(wǎng)格。

6、進一步優(yōu)選，所述特征提取模型由第一編碼器、局部特征編碼器、關(guān)節(jié)特征提取器依次連接而成。

7、進一步優(yōu)選，所述第一編碼器從彩色圖像中提取深度圖和三維點云數(shù)據(jù)。

8、進一步優(yōu)選，所述局部特征編碼器包括上采樣層、基于convnext的編碼器和基于pointnet++的編碼器，第一編碼器輸出的特征經(jīng)過上采樣層處理，然后分別進入基于convnext的編碼器和基于pointnet++的編碼器進行特征編碼，得到二維特征和三維特征。

9、進一步優(yōu)選，基于convnext的編碼器從深度圖提取二維局部特征和二維全局特征。

10、進一步優(yōu)選，基于pointnet++的編碼器從三維點云數(shù)據(jù)中提取三維局部特征和三維全局特征。

11、進一步優(yōu)選，所述關(guān)節(jié)特征提取器由依次連接的自注意力層、多層感知機、卷積層、多頭自注意力、偏置誘導(dǎo)層和上采樣層組成，所述關(guān)節(jié)特征提取器根據(jù)二維特征和三維特征提取關(guān)節(jié)條件；通過偏置誘導(dǎo)層為每個關(guān)節(jié)生成獨立的、可學習的偏置嵌入。

12、進一步優(yōu)選，所述擴散模型包括采樣層、并聯(lián)去噪模塊結(jié)構(gòu)和細化層，并聯(lián)去噪模塊結(jié)構(gòu)包括兩條并聯(lián)的去噪支路，每條支路包括串聯(lián)的多個去噪模塊，每個去噪模塊由依次連接的自注意力、交叉注意力、卷積層、激活函數(shù)、多層感知機和池化層組成。采樣層獲取的特征進入并聯(lián)去噪模塊結(jié)構(gòu)進行處理，并聯(lián)去噪模塊結(jié)構(gòu)的輸出進入細化層，細化層輸出手部關(guān)節(jié)位置。

13、進一步優(yōu)選，所述擴散模型的輸入為多模態(tài)特征，包括關(guān)節(jié)坐標分布?、關(guān)節(jié)條件、二維局部特征、三維局部特征、以及時間步長。

14、進一步優(yōu)選，所述網(wǎng)格重建模塊由第二編碼器、上采樣層、第三編碼器和回歸器組成。

15、本發(fā)明與現(xiàn)有技術(shù)的不同點主要體現(xiàn)在對多模態(tài)數(shù)據(jù)的融合應(yīng)用和引入擴散模型來提高手部姿態(tài)識別的精度與穩(wěn)定性。現(xiàn)有技術(shù)通常依賴單一的深度圖或別的條件進行手部姿態(tài)識別，受限于復(fù)雜手勢和自遮擋情況，容易出現(xiàn)識別精度下降或無法穩(wěn)定追蹤的問題。相比之下，本發(fā)明通過同時采集深度圖和點云數(shù)據(jù)，利用擴散模型逐步去噪并生成精準的手部關(guān)節(jié)點坐標，具備更高的魯棒性和抗干擾能力。擴散模型的逐層去噪過程有效解決了噪聲帶來的不確定性，使得系統(tǒng)能夠在復(fù)雜手勢、手指交叉和低光等不利環(huán)境下保持高精度。此外，本發(fā)明將生成的三維關(guān)節(jié)點數(shù)據(jù)與網(wǎng)格重建技術(shù)結(jié)合，形成完整的手部網(wǎng)格結(jié)構(gòu)，進一步增強了手部模型的真實性和細節(jié)表現(xiàn)。這一技術(shù)方案的優(yōu)勢在于，其能夠在復(fù)雜動態(tài)環(huán)境中精確重建手部姿態(tài)，實現(xiàn)實時、自然的交互體驗，同時在vr/ar、醫(yī)療康復(fù)、智能機器人等應(yīng)用中提供更穩(wěn)定、細膩的手部姿態(tài)捕捉效果。

16、本發(fā)明可應(yīng)用于需要高精度手部跟蹤和識別的產(chǎn)品領(lǐng)域，如增強現(xiàn)實（ar）、虛擬現(xiàn)實（vr）、人機交互系統(tǒng)、智能機器人和醫(yī)療康復(fù)設(shè)備。在這些場景中，系統(tǒng)需要實時準確地捕捉和重建用戶的手部姿態(tài)，以實現(xiàn)自然流暢的交互。例如，在vr應(yīng)用中，準確的手部重建可以讓用戶通過自然手勢控制虛擬物體；在醫(yī)療康復(fù)中，精確的手部姿態(tài)跟蹤能夠幫助評估和指導(dǎo)患者的康復(fù)訓練進程。本發(fā)明解決了當前技術(shù)在復(fù)雜手部動作中重建精度不足的問題，為需要精細手部捕捉的應(yīng)用場景帶來了新的可能性。

技術(shù)特征：

1.基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法，其特征在于，步驟如下：

2.根據(jù)權(quán)利要求1所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法，其特征在于，所述特征提取模型由第一編碼器、局部特征編碼器、關(guān)節(jié)特征提取器依次連接而成。

3.根據(jù)權(quán)利要求2所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法，其特征在于，所述第一編碼器從彩色圖像中提取深度圖和三維點云數(shù)據(jù)。

4.根據(jù)權(quán)利要求2所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法，其特征在于，所述局部特征編碼器包括上采樣層、基于convnext的編碼器和基于pointnet++的編碼器，第一編碼器輸出的特征經(jīng)過上采樣層處理，然后分別進入基于convnext的編碼器和基于pointnet++的編碼器進行特征編碼，得到二維特征和三維特征。

5.根據(jù)權(quán)利要求4所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法，其特征在于，基于convnext的編碼器從深度圖提取二維局部特征和二維全局特征。

6.根據(jù)權(quán)利要求4所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法，其特征在于，基于pointnet++的編碼器從三維點云數(shù)據(jù)中提取三維局部特征和三維全局特征。

7.根據(jù)權(quán)利要求4所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法，其特征在于，所述關(guān)節(jié)特征提取器由依次連接的自注意力層、多層感知機、卷積層、多頭自注意力、偏置誘導(dǎo)層和上采樣層組成，所述關(guān)節(jié)特征提取器根據(jù)二維特征和三維特征提取關(guān)節(jié)條件；通過偏置誘導(dǎo)層為每個關(guān)節(jié)生成獨立的、可學習的偏置嵌入。

8.根據(jù)權(quán)利要求1所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法，其特征在于，所述擴散模型包括采樣層、并聯(lián)去噪模塊結(jié)構(gòu)和細化層，并聯(lián)去噪模塊結(jié)構(gòu)包括兩條并聯(lián)的去噪支路，每條支路包括串聯(lián)的多個去噪模塊，每個去噪模塊由依次連接的自注意力、交叉注意力、卷積層、激活函數(shù)、多層感知機和池化層組成；采樣層獲取的特征進入并聯(lián)去噪模塊結(jié)構(gòu)進行處理，并聯(lián)去噪模塊結(jié)構(gòu)的輸出進入細化層，細化層輸出手部關(guān)節(jié)位置。

9.根據(jù)權(quán)利要求8所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法，其特征在于，所述擴散模型的輸入為多模態(tài)特征，包括關(guān)節(jié)坐標分布?、關(guān)節(jié)條件?、二維局部特征、三維局部特征、以及時間步長。

10.根據(jù)權(quán)利要求1所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法，其特征在于，所述網(wǎng)格重建模塊由第二編碼器、上采樣層、第三編碼器和回歸器組成。

技術(shù)總結(jié)
本發(fā)明屬于人體姿態(tài)識別技術(shù)領(lǐng)域，公開了基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法，通過特征提取模型采集深度圖和點云數(shù)據(jù)，并根據(jù)深度圖和點云數(shù)據(jù)提取手部關(guān)節(jié)特征；將一個初始化的標準高斯分布的噪聲連同提取到的手部關(guān)節(jié)特征一起輸入擴散模型中進行迭代去噪，通過多次迭代逐步從噪聲中恢復(fù)出手部關(guān)節(jié)位置；根據(jù)手部關(guān)節(jié)位置，通過網(wǎng)格重建模塊重建三維手部網(wǎng)格。本發(fā)明基于彩色圖像，通過融合深度圖和三維點云數(shù)據(jù)，實現(xiàn)了高精度的三維手部網(wǎng)格重建，顯著提升了手部姿態(tài)重建的速度和準確性。

技術(shù)研發(fā)人員：楊文姬,闕祥宇,謝麗萍,周珅,歐陽璐宇,繆興洋
受保護的技術(shù)使用者：江西農(nóng)業(yè)大學
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊文姬,闕祥宇,謝麗萍,周珅,歐陽璐宇,繆興洋
技術(shù)所有人：江西農(nóng)業(yè)大學
我是此專利的發(fā)明人

上一篇：一種大流量濾芯送料架的制作方法
上一篇：一種打葉復(fù)烤片煙裝箱含水率檢測樣品風送密封瓶裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法