一種中國手語視頻過渡幀的合成方法
【專利摘要】本發(fā)明公開了一種中國手語視頻過渡幀的合成方法,其大大減少了合成的過渡幀圖像所產(chǎn)生的陰影和重疊、真實(shí)性高、邊界的拼接效果自然。其包括步驟:(1)對(duì)校準(zhǔn)視頻幀中手的特征點(diǎn)進(jìn)行標(biāo)記,由這些特征點(diǎn)的二維坐標(biāo)計(jì)算其三維坐標(biāo),并依據(jù)這些特征點(diǎn)的三維坐標(biāo)對(duì)一個(gè)一般化的三維手模型進(jìn)行比例調(diào)整;(2)采用基于模板圖的手部紋理生成算法,對(duì)步驟(1)的圖像的紋理進(jìn)行優(yōu)化;(3)將步驟(2)生成的手勢圖像與胳膊、軀干圖像進(jìn)行融合,生成視頻過渡幀。
【專利說明】一種中國手語視頻過渡幀的合成方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)圖像處理的【技術(shù)領(lǐng)域】,具體地涉及一種中國手語視頻過渡幀的 合成方法。
【背景技術(shù)】
[0002] 在中國有大量聽障人群,手語是他們進(jìn)行交流的語言。手語運(yùn)用空間運(yùn)動(dòng)表達(dá)語 義,是一種視覺空間語言?;谟?jì)算機(jī)合成的中國手語視頻,具有較強(qiáng)的真實(shí)感和較好的可 接受程度,其視覺語言表達(dá)界面更為形象生動(dòng),能夠更好的服務(wù)聽障人群,使他們能夠與健 聽人一起感受高速發(fā)展的文明,具有極其廣泛的社會(huì)意義。基于計(jì)算機(jī)合成手語視頻時(shí),若 干手語詞視頻片段按照文本語法規(guī)則重新組合成新的手語視頻,而時(shí)間軸上相鄰的手語詞 視頻片段在運(yùn)動(dòng)軌跡、手勢等方面存在視覺差異,因此需要插入過渡視頻幀以增強(qiáng)真實(shí)感。 過渡視頻幀的獲得有兩個(gè)途徑,檢索預(yù)先設(shè)定的視頻幀數(shù)據(jù)庫或者通過拼接圖像塊進(jìn)行合 成,前者要求采集任意兩個(gè)可能鄰接的手語詞視頻間的過渡數(shù)據(jù),對(duì)數(shù)據(jù)采集和存儲(chǔ)要求 過高,因此合成過渡視頻幀是實(shí)現(xiàn)基于視頻手語合成的重要基礎(chǔ)工作。
[0003] 近幾年,合成手語視頻過渡幀成為了一個(gè)研究重點(diǎn)。吳宗憲等人于2005年提出了 一種使用NURBS樣條函數(shù)描述手部運(yùn)動(dòng)軌跡的方法,并且基于光流算法生成視頻片段之間 的過渡幀圖像。王茹等人提出了一種基于多維語義模型的中國手語視頻合成方法。該方法 將多維語義描述的方法用在中國手語視頻的合成中,利用人體的各個(gè)部件圖像,合成視頻 過渡幀。此類方法通過合成視頻過渡幀,使合成的手語視頻過渡更加平滑,但是也存在一些 不足。吳宗憲等人方法中的過渡手勢形態(tài)選取和角度變化不夠精確平滑,合成的過渡幀圖 像容易產(chǎn)生陰影和重疊現(xiàn)象;王茹等人的方法雖然很好的解決了手勢形態(tài)變化不夠平滑的 問題,但是手勢投影圖像真實(shí)性不高,各個(gè)部件圖像邊界的拼接效果不夠自然。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的技術(shù)解決問題是:克服現(xiàn)有技術(shù)的不足,提供一種中國手語視頻過渡幀 的合成方法,其大大減少了合成的過渡幀圖像所產(chǎn)生的陰影和重疊、真實(shí)性高、邊界的拼接 效果自然。
[0005] 本發(fā)明的技術(shù)解決方案是:這種中國手語視頻過渡幀的合成方法,包括以下步 驟:
[0006] (1)對(duì)校準(zhǔn)視頻幀中手的特征點(diǎn)進(jìn)行標(biāo)記,由這些特征點(diǎn)的二維坐標(biāo)計(jì)算其三維 坐標(biāo),并依據(jù)這些特征點(diǎn)的三維坐標(biāo)對(duì)一個(gè)一般化的三維手模型進(jìn)行比例調(diào)整;
[0007] (2)采用基于模板圖的手部紋理生成算法,對(duì)步驟(1)的圖像的紋理進(jìn)行優(yōu)化;
[0008] (3)將步驟⑵生成的手勢圖像與胳膊、軀干圖像進(jìn)行融合,生成視頻過渡幀。
[0009] 本發(fā)明基于單目視頻的三維手模型重構(gòu)方法和基于圖像融合的手語視頻過渡幀 生成方法,從手勢投影圖像和部件圖像拼接兩個(gè)方面合成真實(shí)感較好的中國手語視頻過渡 幀,大大減少了合成的過渡幀圖像所產(chǎn)生的陰影和重疊、真實(shí)性高、邊界的拼接效果自然。
【專利附圖】
【附圖說明】
[0010] 圖1是根據(jù)本發(fā)明的手特征點(diǎn)及其編號(hào)。
[0011] 圖2a和2b分別是根據(jù)本發(fā)明的手紋理模板圖及紋理區(qū)域劃分。
[0012] 圖3a和3b分別是根據(jù)本發(fā)明的手模型投影圖像紋理區(qū)域與紋理模板圖紋理區(qū)域 的對(duì)應(yīng)關(guān)系不意圖。
【具體實(shí)施方式】
[0013] 這種中國手語視頻過渡幀的合成方法,包括以下步驟:
[0014] (1)對(duì)校準(zhǔn)視頻幀中手的特征點(diǎn)進(jìn)行標(biāo)記,由這些特征點(diǎn)的二維坐標(biāo)計(jì)算其三維 坐標(biāo),并依據(jù)這些特征點(diǎn)的三維坐標(biāo)對(duì)一個(gè)一般化的三維手模型進(jìn)行比例調(diào)整;
[0015] (2)采用基于模板圖的手部紋理生成算法,對(duì)步驟(1)的圖像的紋理進(jìn)行優(yōu)化;
[0016] (3)將步驟⑵生成的手勢圖像與胳膊、軀干圖像進(jìn)行融合,生成視頻過渡幀。
[0017] 本發(fā)明基于單目視頻的三維手模型重構(gòu)方法和基于圖像融合的手語視頻過渡幀 生成方法,從手勢投影圖像和部件圖像拼接兩個(gè)方面合成真實(shí)感較好的中國手語視頻過渡 幀,大大減少了合成的過渡幀圖像所產(chǎn)生的陰影和重疊、真實(shí)性高、邊界的拼接效果自然。
[0018] 優(yōu)選地,步驟(1)包括以下分步驟:
[0019] (1. 1)手部圖像2D特征點(diǎn)標(biāo)注;
[0020] (1. 2)特征點(diǎn)三維坐標(biāo)計(jì)算;
[0021] (1. 3)特征點(diǎn)約束的一般化手模型形變;
[0022] (1.4)手勢投影。
[0023] 優(yōu)選地,步驟(1. 2)中采用基于高斯分布的非剛性物體重構(gòu)方法首先對(duì)輸入的手 特征點(diǎn)的圖像坐標(biāo)矩陣W采用秩3因式分解的方法分解為旋轉(zhuǎn)矩陣R和平均剛性形狀§ 以及平移矩陣T ;然后根據(jù)初始估計(jì)的旋轉(zhuǎn)矩陣R,平移矩陣T,平均剛性形狀采用最小二 乘法最小化投影錯(cuò)誤的方法得到初始的變形形狀V和權(quán)重Z ;接著計(jì)算出初始的高斯方差 σ 2 ;然后進(jìn)入循環(huán)迭代更新參數(shù)的過程,更新的參數(shù)包括權(quán)重Z、平均剛性形狀§、變形形 狀V、有信息缺失的圖像坐標(biāo)矩陣礦、旋轉(zhuǎn)矩陣R、平移矩陣Τ ;最后根據(jù)各個(gè)參數(shù)計(jì)算得出 手特征點(diǎn)的三維信息S。
[0024] 優(yōu)選地,步驟(1. 3)中采用拉普拉斯表面編輯的方法對(duì)已有的手模型進(jìn)行形變計(jì) 算。
[0025] 優(yōu)選地,步驟(1. 4)中手模型經(jīng)過OpenGL底層圖形庫渲染得到對(duì)應(yīng)的手勢投影圖 像,并且根據(jù)OpenGL中的模擬變換方法獲得三維手模型的特征點(diǎn)在投影圖像上的二維坐 標(biāo)和投影深度。
[0026] 優(yōu)選地,步驟(2)包括以下分步驟:
[0027] (2. 1)初始化,確定手勢投影圖像中指定區(qū)域中區(qū)塊的最近鄰:根據(jù)手紋理模板 圖的紋理區(qū)域劃分和手模型特征點(diǎn)在投影圖像上的二維坐標(biāo),將手勢投影圖像劃分為手 背、手心、食指指根、食指指中、食指指尖等59個(gè)投影區(qū)域,分別與紋理模板圖中的相應(yīng)紋 理區(qū)域?qū)?yīng),進(jìn)行編號(hào)并建立索引;通過計(jì)算對(duì)應(yīng)紋理區(qū)域四個(gè)頂點(diǎn)之間的仿射變換關(guān)系, 利用仿射變換獲得投影區(qū)域內(nèi)的每個(gè)像素區(qū)塊的最近鄰區(qū)塊;
[0028] (2. 2)增殖階段,對(duì)余下的區(qū)域進(jìn)行自適應(yīng)的區(qū)塊匹配:進(jìn)行奇數(shù)次迭代時(shí),對(duì)圖 像進(jìn)行從左上方向右下方的掃描處理,進(jìn)行偶數(shù)次迭代時(shí),對(duì)圖像進(jìn)行從右下方向左上方 的掃描處理,此時(shí)偏移量為公式(9)
[0029]
【權(quán)利要求】
1. 一種中國手語視頻過渡幀的合成方法,其特征在于:包括以下步驟: (1) 對(duì)校準(zhǔn)視頻巾貞中手的特征點(diǎn)進(jìn)行標(biāo)記,由這些特征點(diǎn)的二維坐標(biāo)計(jì)算其三維坐標(biāo), 并依據(jù)這些特征點(diǎn)的三維坐標(biāo)對(duì)一個(gè)一般化的三維手模型進(jìn)行比例調(diào)整; (2) 采用基于模板圖的手部紋理生成算法,對(duì)步驟(1)的圖像的紋理進(jìn)行優(yōu)化; (3) 將步驟(2)生成的手勢圖像與胳膊、軀干圖像進(jìn)行融合,生成視頻過渡幀。
2. 根據(jù)權(quán)利要求1所述的中國手語視頻過渡幀的合成方法,其特征在于:步驟(1)包 括以下分步驟: (1. 1)手部圖像2D特征點(diǎn)標(biāo)注; (1. 2)特征點(diǎn)三維坐標(biāo)計(jì)算; (1. 3)特征點(diǎn)約束的一般化手模型形變; (1.4)手勢投影。
3. 根據(jù)權(quán)利要求2所述的中國手語視頻過渡幀的合成方法,其特征在于:步驟(1.2) 中采用基于高斯分布的非剛性物體重構(gòu)方法首先對(duì)輸入的手特征點(diǎn)的圖像坐標(biāo)矩陣W采 用秩3因式分解的方法分解為旋轉(zhuǎn)矩陣R和平均剛性形狀§以及平移矩陣T ;然后根據(jù)初始 估計(jì)的旋轉(zhuǎn)矩陣R,平移矩陣T,平均剛性形狀采用最小二乘法最小化投影錯(cuò)誤的方法得 到初始的變形形狀V和權(quán)重Z ;接著計(jì)算出初始的高斯方差。2 ;然后進(jìn)入循環(huán)迭代更新參 數(shù)的過程,更新的參數(shù)包括權(quán)重Z、平均剛性形狀§、變形形狀V、有信息缺失的圖像坐標(biāo)矩 陣W'旋轉(zhuǎn)矩陣R、平移矩陣T ;最后根據(jù)各個(gè)參數(shù)計(jì)算得出手特征點(diǎn)的三維信息S。
4. 根據(jù)權(quán)利要求3所述的中國手語視頻過渡幀的合成方法,其特征在于:步驟(1.3) 中采用拉普拉斯表面編輯的方法對(duì)已有的手模型進(jìn)行形變計(jì)算。
5. 根據(jù)權(quán)利要求4所述的中國手語視頻過渡幀的合成方法,其特征在于:步驟(1.4) 中手模型經(jīng)過OpenGL底層圖形庫渲染得到對(duì)應(yīng)的手勢投影圖像,并且根據(jù)OpenGL中的模 擬變換方法獲得三維手模型的特征點(diǎn)在投影圖像上的二維坐標(biāo)和投影深度。
6. 根據(jù)權(quán)利要求2所述的中國手語視頻過渡幀的合成方法,其特征在于:步驟(2)包 括以下分步驟: (2. 1)初始化,確定手勢投影圖像中指定區(qū)域中區(qū)塊的最近鄰:根據(jù)手紋理模板圖的 紋理區(qū)域劃分和手模型特征點(diǎn)在投影圖像上的二維坐標(biāo),將手勢投影圖像劃分為手背、手 心、食指指根、食指指中、食指指尖等59個(gè)投影區(qū)域,分別與紋理模板圖中的相應(yīng)紋理區(qū)域 對(duì)應(yīng),進(jìn)行編號(hào)并建立索引;通過計(jì)算對(duì)應(yīng)紋理區(qū)域四個(gè)頂點(diǎn)之間的仿射變換關(guān)系,利用仿 射變換獲得投影區(qū)域內(nèi)的每個(gè)像素區(qū)塊的最近鄰區(qū)塊; (2. 2)增殖階段,對(duì)余下的區(qū)域進(jìn)行自適應(yīng)的區(qū)塊匹配:進(jìn)行奇數(shù)次迭代時(shí),對(duì)圖像進(jìn) 行從左上方向右下方的掃描處理,某區(qū)塊左方和上方區(qū)塊的最佳偏移量作為該區(qū)塊的最佳 偏移量的候選值;進(jìn)行偶數(shù)次迭代時(shí),對(duì)圖像進(jìn)行從右下方向左上方的掃描處理,某區(qū)塊右 方和下方區(qū)塊的最佳偏移量作為該區(qū)塊的最佳偏移量的候選值,此時(shí)偏移量為公式(9)
(9) f(x,y)表示目標(biāo)圖像中坐標(biāo)為(x,y)的區(qū)塊與其在源圖像中的最近鄰區(qū)塊的坐標(biāo)偏 移量;D(v)表示源圖像中區(qū)塊(x,y)與目標(biāo)圖像中區(qū)塊((x,y)+v)的使用RGB的顏色值計(jì) 算的歐式距離;經(jīng)過若干次迭代之后,手模型投影圖像中的所有圖像區(qū)塊都在模板圖像中 找到了最近鄰,對(duì)每一個(gè)圖像像素都使用它的最近鄰進(jìn)行像素替換,實(shí)現(xiàn)手模型投影圖像 的紋理優(yōu)化。
7.根據(jù)權(quán)利要求3所述的中國手語視頻過渡幀的合成方法,其特征在于:步驟(3)采 用公式(8)進(jìn)行融合:
(8) 其中,Q = N(q)是一個(gè)wXw大小的圖像區(qū)塊并且q在這個(gè)區(qū)塊的左上角,P = f(N(p)) 是一個(gè)wXw大小的圖像區(qū)塊,f代表對(duì)包含原像素 p的區(qū)塊P做幾何和光照的轉(zhuǎn)化,圖像 采用CIE L*a*b*顏色模型(Lab),所有的區(qū)塊都有3個(gè)通道(L,a,b),λ為權(quán)值參數(shù),D表 示顏色距離的平方和,Τ表示目標(biāo)圖像即融合圖像,S表示源圖像即待拼接視頻中的原始視 頻幀。
【文檔編號(hào)】G06T17/00GK104091318SQ201410267089
【公開日】2014年10月8日 申請(qǐng)日期:2014年6月16日 優(yōu)先權(quán)日:2014年6月16日
【發(fā)明者】王立春, 朱婷婷, 孔德慧 申請(qǐng)人:北京工業(yè)大學(xué)