本發(fā)明屬于人體姿態(tài)識別,涉及一種基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法。
背景技術(shù):
1、目前,手部姿態(tài)重建的技術(shù)方案主要集中在基于深度學習的回歸方法、檢測方法和圖卷積網(wǎng)絡(luò)(gcn)等技術(shù)上?;貧w方法直接預(yù)測手部關(guān)節(jié)點的位置,計算速度快,但在處理復(fù)雜手勢(如手指交叉、自遮擋)時容易出現(xiàn)準確性不足的問題;檢測方法通常通過逐步定位關(guān)節(jié)點,盡管能獲得較好的空間分布信息,但難以應(yīng)對不同視角和遮擋帶來的干擾。近年來,圖卷積網(wǎng)絡(luò)在手部網(wǎng)格重建中得到應(yīng)用,它可以捕捉關(guān)節(jié)點之間的空間關(guān)系,但通常需要大量計算資源,且對噪聲和未見樣本的適應(yīng)性較差。
2、一些專利(如用于三維人體姿態(tài)估計的擴散模型、基于點云的手部姿態(tài)重建)也提出了融合多模態(tài)數(shù)據(jù)的方法,但大多在效率或精度上有所折衷。例如,部分方案側(cè)重于從單一深度圖或點云生成網(wǎng)格模型,未能充分利用多模態(tài)數(shù)據(jù)融合的優(yōu)勢,因而在遮擋情況下表現(xiàn)不佳。當前方案普遍缺乏對手部關(guān)節(jié)點的精準定位與噪聲處理能力,在細節(jié)重建和復(fù)雜手勢場景中存在顯著的準確性不足。
3、目前的手部姿態(tài)重建技術(shù)在幾個方面存在顯著缺點。
4、(1)深度學習回歸方法在應(yīng)對復(fù)雜手勢(如手指交叉、手掌遮擋等)時精度下降,主要因為其直接預(yù)測坐標的方式缺乏對關(guān)節(jié)點間依賴關(guān)系的建模,導(dǎo)致在復(fù)雜姿態(tài)下容易產(chǎn)生不準確的估計。
5、(2)檢測方法盡管能夠分步定位關(guān)節(jié)點,但在不同視角、光照變化或遮擋的情況下表現(xiàn)不穩(wěn)定,難以準確捕捉手部的三維空間結(jié)構(gòu)。
6、(3)基于圖卷積網(wǎng)絡(luò)的方案雖然能建模關(guān)節(jié)點之間的關(guān)系,但其計算量大,對硬件資源要求較高,且在應(yīng)對噪聲和未知手勢時魯棒性不夠,無法很好地適應(yīng)動態(tài)或高噪聲場景。
7、(4)這些缺點主要源于現(xiàn)有方法對關(guān)節(jié)點定位的高依賴、對噪聲敏感、以及在空間關(guān)系建模上較為單一的假設(shè),因而難以在復(fù)雜、變化多端的環(huán)境下保持高精度的手部姿態(tài)重建。為了解決這些問題,擴散模型可以被引入為關(guān)鍵技術(shù),通過逐步去噪的過程逐步生成和細化手部關(guān)節(jié)點坐標,使得模型能夠在不確定性較高的復(fù)雜環(huán)境中逐步優(yōu)化姿態(tài)估計。同時,擴散模型通過建模多模態(tài)數(shù)據(jù)(如深度圖和點云)之間的關(guān)系,能夠更好地恢復(fù)細節(jié)和關(guān)節(jié)點間的依賴性,從而大幅提升手部姿態(tài)的重建精度和魯棒性。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提出一種基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法,通過引入擴散模型,基于單張彩色圖像,通過融合深度圖和三維點云數(shù)據(jù),實現(xiàn)了高精度的三維手部網(wǎng)格重建,顯著提升了手部姿態(tài)重建的速度和準確性。
2、本發(fā)明通過下述技術(shù)方案來實現(xiàn):基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法,步驟如下:
3、s1:特征提取模型采集深度圖和點云數(shù)據(jù),并根據(jù)深度圖和點云數(shù)據(jù)提取手部關(guān)節(jié)特征;
4、s2:將一個初始化的標準高斯分布的噪聲連同提取到的手部關(guān)節(jié)特征一起輸入擴散模型中進行迭代去噪,通過多次迭代逐步從噪聲中恢復(fù)出手部關(guān)節(jié)位置;
5、s3:根據(jù)手部關(guān)節(jié)位置,通過網(wǎng)格重建模塊重建三維手部網(wǎng)格。
6、進一步優(yōu)選,所述特征提取模型由第一編碼器、局部特征編碼器、關(guān)節(jié)特征提取器依次連接而成。
7、進一步優(yōu)選,所述第一編碼器從彩色圖像中提取深度圖和三維點云數(shù)據(jù)。
8、進一步優(yōu)選,所述局部特征編碼器包括上采樣層、基于convnext的編碼器和基于pointnet++的編碼器,第一編碼器輸出的特征經(jīng)過上采樣層處理,然后分別進入基于convnext的編碼器和基于pointnet++的編碼器進行特征編碼,得到二維特征和三維特征。
9、進一步優(yōu)選,基于convnext的編碼器從深度圖提取二維局部特征和二維全局特征。
10、進一步優(yōu)選,基于pointnet++的編碼器從三維點云數(shù)據(jù)中提取三維局部特征和三維全局特征。
11、進一步優(yōu)選,所述關(guān)節(jié)特征提取器由依次連接的自注意力層、多層感知機、卷積層、多頭自注意力、偏置誘導(dǎo)層和上采樣層組成,所述關(guān)節(jié)特征提取器根據(jù)二維特征和三維特征提取關(guān)節(jié)條件;通過偏置誘導(dǎo)層為每個關(guān)節(jié)生成獨立的、可學習的偏置嵌入。
12、進一步優(yōu)選,所述擴散模型包括采樣層、并聯(lián)去噪模塊結(jié)構(gòu)和細化層,并聯(lián)去噪模塊結(jié)構(gòu)包括兩條并聯(lián)的去噪支路,每條支路包括串聯(lián)的多個去噪模塊,每個去噪模塊由依次連接的自注意力、交叉注意力、卷積層、激活函數(shù)、多層感知機和池化層組成。采樣層獲取的特征進入并聯(lián)去噪模塊結(jié)構(gòu)進行處理,并聯(lián)去噪模塊結(jié)構(gòu)的輸出進入細化層,細化層輸出手部關(guān)節(jié)位置。
13、進一步優(yōu)選,所述擴散模型的輸入為多模態(tài)特征,包括關(guān)節(jié)坐標分布?、關(guān)節(jié)條件、二維局部特征、三維局部特征、以及時間步長。
14、進一步優(yōu)選,所述網(wǎng)格重建模塊由第二編碼器、上采樣層、第三編碼器和回歸器組成。
15、本發(fā)明與現(xiàn)有技術(shù)的不同點主要體現(xiàn)在對多模態(tài)數(shù)據(jù)的融合應(yīng)用和引入擴散模型來提高手部姿態(tài)識別的精度與穩(wěn)定性。現(xiàn)有技術(shù)通常依賴單一的深度圖或別的條件進行手部姿態(tài)識別,受限于復(fù)雜手勢和自遮擋情況,容易出現(xiàn)識別精度下降或無法穩(wěn)定追蹤的問題。相比之下,本發(fā)明通過同時采集深度圖和點云數(shù)據(jù),利用擴散模型逐步去噪并生成精準的手部關(guān)節(jié)點坐標,具備更高的魯棒性和抗干擾能力。擴散模型的逐層去噪過程有效解決了噪聲帶來的不確定性,使得系統(tǒng)能夠在復(fù)雜手勢、手指交叉和低光等不利環(huán)境下保持高精度。此外,本發(fā)明將生成的三維關(guān)節(jié)點數(shù)據(jù)與網(wǎng)格重建技術(shù)結(jié)合,形成完整的手部網(wǎng)格結(jié)構(gòu),進一步增強了手部模型的真實性和細節(jié)表現(xiàn)。這一技術(shù)方案的優(yōu)勢在于,其能夠在復(fù)雜動態(tài)環(huán)境中精確重建手部姿態(tài),實現(xiàn)實時、自然的交互體驗,同時在vr/ar、醫(yī)療康復(fù)、智能機器人等應(yīng)用中提供更穩(wěn)定、細膩的手部姿態(tài)捕捉效果。
16、本發(fā)明可應(yīng)用于需要高精度手部跟蹤和識別的產(chǎn)品領(lǐng)域,如增強現(xiàn)實(ar)、虛擬現(xiàn)實(vr)、人機交互系統(tǒng)、智能機器人和醫(yī)療康復(fù)設(shè)備。在這些場景中,系統(tǒng)需要實時準確地捕捉和重建用戶的手部姿態(tài),以實現(xiàn)自然流暢的交互。例如,在vr應(yīng)用中,準確的手部重建可以讓用戶通過自然手勢控制虛擬物體;在醫(yī)療康復(fù)中,精確的手部姿態(tài)跟蹤能夠幫助評估和指導(dǎo)患者的康復(fù)訓練進程。本發(fā)明解決了當前技術(shù)在復(fù)雜手部動作中重建精度不足的問題,為需要精細手部捕捉的應(yīng)用場景帶來了新的可能性。
1.基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法,其特征在于,步驟如下:
2.根據(jù)權(quán)利要求1所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法,其特征在于,所述特征提取模型由第一編碼器、局部特征編碼器、關(guān)節(jié)特征提取器依次連接而成。
3.根據(jù)權(quán)利要求2所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法,其特征在于,所述第一編碼器從彩色圖像中提取深度圖和三維點云數(shù)據(jù)。
4.根據(jù)權(quán)利要求2所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法,其特征在于,所述局部特征編碼器包括上采樣層、基于convnext的編碼器和基于pointnet++的編碼器,第一編碼器輸出的特征經(jīng)過上采樣層處理,然后分別進入基于convnext的編碼器和基于pointnet++的編碼器進行特征編碼,得到二維特征和三維特征。
5.根據(jù)權(quán)利要求4所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法,其特征在于,基于convnext的編碼器從深度圖提取二維局部特征和二維全局特征。
6.根據(jù)權(quán)利要求4所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法,其特征在于,基于pointnet++的編碼器從三維點云數(shù)據(jù)中提取三維局部特征和三維全局特征。
7.根據(jù)權(quán)利要求4所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法,其特征在于,所述關(guān)節(jié)特征提取器由依次連接的自注意力層、多層感知機、卷積層、多頭自注意力、偏置誘導(dǎo)層和上采樣層組成,所述關(guān)節(jié)特征提取器根據(jù)二維特征和三維特征提取關(guān)節(jié)條件;通過偏置誘導(dǎo)層為每個關(guān)節(jié)生成獨立的、可學習的偏置嵌入。
8.根據(jù)權(quán)利要求1所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法,其特征在于,所述擴散模型包括采樣層、并聯(lián)去噪模塊結(jié)構(gòu)和細化層,并聯(lián)去噪模塊結(jié)構(gòu)包括兩條并聯(lián)的去噪支路,每條支路包括串聯(lián)的多個去噪模塊,每個去噪模塊由依次連接的自注意力、交叉注意力、卷積層、激活函數(shù)、多層感知機和池化層組成;采樣層獲取的特征進入并聯(lián)去噪模塊結(jié)構(gòu)進行處理,并聯(lián)去噪模塊結(jié)構(gòu)的輸出進入細化層,細化層輸出手部關(guān)節(jié)位置。
9.根據(jù)權(quán)利要求8所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法,其特征在于,所述擴散模型的輸入為多模態(tài)特征,包括關(guān)節(jié)坐標分布?、關(guān)節(jié)條件?、二維局部特征、三維局部特征、以及時間步長。
10.根據(jù)權(quán)利要求1所述的基于擴散模型的多模態(tài)三維手部網(wǎng)格重建方法,其特征在于,所述網(wǎng)格重建模塊由第二編碼器、上采樣層、第三編碼器和回歸器組成。