基于特征建模的極低碼率下人臉視頻編解碼方法
【技術(shù)領域】
[0001]本發(fā)明涉及計算機視覺和圖像處理技術(shù)領域,具體涉及一種基于特征建模的極低碼率下人臉視頻編解碼方法。
【背景技術(shù)】
[0002]隨著社會經(jīng)濟的發(fā)展和人們?nèi)粘I钏降奶岣?,使用手機、平板電腦等便攜式通訊工具來進行視頻聊天的方式正越來越被人們所青睞。然而,雖然無線互聯(lián)網(wǎng)蓬勃發(fā)展,用戶量與日俱增,但是由于目前的移動通訊網(wǎng)絡速度較慢,影響了視頻聊天業(yè)務的用戶體驗,也限制了用戶實時視頻聊天應用的發(fā)展。
[0003]現(xiàn)有的移動終端即時通訊軟件,一般都是將視頻數(shù)據(jù)壓縮同步處理,然后通過網(wǎng)絡傳輸后在另一客戶端播放視頻畫面。但由于傳輸?shù)臄?shù)據(jù)始終是視頻數(shù)據(jù),數(shù)據(jù)傳輸流量較大,在移動通訊網(wǎng)絡這種低碼流網(wǎng)絡下,視頻易發(fā)生頓卡、跳幀,甚至無法實時顯示,或者犧牲視頻質(zhì)量,造成視頻聊天時糟糕的用戶體驗。目前,提出的技術(shù)方案非常少,大都是從改進移動通訊網(wǎng)絡入手,升級3G、4G,但費用又相對昂貴,且不能從根本上解決低碼率下視頻聊天中出現(xiàn)的頓卡、無法實時顯示和視頻質(zhì)量差等問題。
【發(fā)明內(nèi)容】
[0004]為解決上述問題,本發(fā)明提供了一種基于特征建模的極低碼率下人臉視頻編解碼方法,該方法能在極低碼率的條件下,保證視頻聊天的流暢,提高視頻聊天業(yè)務的用戶體驗,同時為用戶實時視頻聊天應用提供新的應用前景。
[0005]為實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
[0006]一種基于特征建模的極低碼率下人臉視頻編解碼方法,包括以下步驟:
[0007]步驟1:接收方接收發(fā)送方視頻聊天時傳輸來的第一幀全部視頻信息,并對第一幀視頻圖像進行顯著性區(qū)域檢測,確定人臉主體的位置;
[0008]步驟2:發(fā)送方對確定的人臉主體的位置進行人臉建模和提取特征點,確定眼睛和嘴巴的位置,并將特征點及眼睛和嘴巴的位置信息傳輸至接收方的客戶端;
[0009]步驟3:發(fā)送方利用第一幀已經(jīng)提取出的特征點進行運動估計,對第二幀視頻圖像進行確定人臉主體的位置;
[0010]步驟4:利用第一幀已經(jīng)提取出的特征點的運動估計進行人臉模型匹配,確定第二幀視頻圖像的特征點以及眼睛和嘴巴的位置,傳送特征點及眼睛和嘴巴的位置信息,與第一幀視頻信息進行匹配,合成第二幀視頻圖像;
[0011]步驟5:與第二幀視頻圖像合成方法類似,發(fā)送方傳送之后的每一幀視頻圖像特征點及眼睛和嘴巴的位置信息,與其前一幀視頻信息進行匹配,合成該幀視頻圖像,直至傳輸?shù)趇*n幀視頻圖像時,進入步驟6 ;其中,i = 1,2,3......,i為正整數(shù);n彡3,η為正整數(shù);
[0012]步驟6:當傳送第i*n幀視頻圖像時,傳輸該幀全部視頻信息,并對該幀視頻圖像進行顯著性區(qū)域檢測,確定人臉主體的位置和建立人臉模型,確定特征點以及眼睛和嘴巴的位置,并傳輸至接收方的客戶端;當接收方接收后,返回至步驟5。
[0013]所述步驟3中確定人臉主體的位置的過程為:
[0014]選取不易被表情所影響的特征點進行估計,并估計其平移分量及旋轉(zhuǎn)分量,得到頭部的剛體運動參數(shù),確定人臉的位置。
[0015]所述步驟4的具體過程為:
[0016]步驟4.1:利用第一幀已經(jīng)提取出的特征點的運動估計進行人臉模型匹配,確定第二幀視頻信息中的各特征點的坐標及幅值,確定眼睛和嘴巴的位置,對眼睛和嘴巴的區(qū)域進行DPCM差分編碼;
[0017]步驟4.2:接收方收到第二幀的特征點的編碼信息后,與第一幀視頻信息進行匹配,來確定第二幀視頻圖像中人臉區(qū)域的位置與姿態(tài),以及更新第二幀視頻圖像中的人臉表情;
[0018]步驟4.3:修補和填充第二幀視頻圖像中的背景區(qū)域,合成第二幀視頻圖像;
[0019]所述步驟I中的顯著性區(qū)域檢測算法采用基于布爾圖的顯著性檢測模型,利用全局拓撲測度快速檢測出視頻聊天中最顯著區(qū)域為人臉部分。
[0020]所述步驟2中建立人臉模型的算法為主動外觀模型算法。
[0021 ] 所述步驟4.2的具體過程為:
[0022]利用第二幀中的模型特征點及眼睛和嘴巴區(qū)域的信息,與第一幀中的特征點及眼睛和嘴巴區(qū)域進行匹配,計算得到映射矩陣,將第一幀圖像中的人臉區(qū)域映射到新一幀的圖像中;
[0023]利用接收到的眼睛和嘴巴的編碼信息解碼出第二幀圖像中的眼睛和嘴巴,并對第一幀圖像中人臉區(qū)域中的眼睛與嘴巴區(qū)域進行更新。
[0024]所述步驟4.2中第二幀信息與第一幀信息匹配的過程為:
[0025]利用漢明距離計算特征點數(shù)據(jù)間的相似性,以近鄰距離與次近鄰距離的比值T來確定可能正確的匹配,判定當τ〈0.8時,最近鄰距離對應的特征點為匹配點。
[0026]所述映射矩陣為:針對匹配特征點數(shù)據(jù),使用隨機抽樣一致性算法計算得到映射矩陣,將第一幀圖像中的人臉區(qū)域映射到新一幀的圖像中。
[0027]所述步驟4.3的具體過程為:
[0028]除了人臉區(qū)域外,第二幀視頻圖像中的背景區(qū)域的像素值完全利用第一幀視頻圖像中的像素值,對于第二幀視頻圖像中由于人臉區(qū)域的位移而產(chǎn)生的背景空洞,利用基于塊的紋理合成圖像修補算法對其進行背景估計并填充,填充和修補之后顯示第二幀視頻圖像。
[0029]所述基于塊的紋理合成圖像修補算法是指根據(jù)圖像的自相似性,利用已知圖像部分對不確定區(qū)域進行填充完整。
[0030]本發(fā)明的有益效果為:
[0031](I)本發(fā)明利用顯著性區(qū)域檢測,快速確定視頻聊天中的人臉主體,利用主動外觀模型中的建模思路對人臉進行建模,提取特征點,并利用直方圖確定眼睛以及嘴巴的位置和尺度;
[0032](2)在實時視頻聊天的過程中,基于特征對視頻圖像編碼,只傳輸特征點的相關(guān)信息和眼睛、嘴巴區(qū)域的編碼信息,然后在接收端合成出新一幀的視頻圖像,大大減少了需要移動網(wǎng)絡傳輸?shù)臄?shù)據(jù)量,符合手機等便攜式通訊工具的低碼流傳輸環(huán)境的特點,保證實時視頻聊天的流暢性。
【附圖說明】
[0033]圖1為本發(fā)明實現(xiàn)流程框圖;
[0034]圖2為視頻聊天的某一幀圖像;
[0035]圖3為BMS顯著性檢測算法流程;
[0036]圖4為視頻圖像顯著性區(qū)域檢測結(jié)果;
[0037]圖5為由顯著性區(qū)域檢測確定的人臉區(qū)域;
[0038]圖6為主動外觀模型的形狀建模后的模型結(jié)果;
[0039]圖7為參考主動外觀模型對人臉區(qū)域建模的結(jié)果。
【具體實施方式】
[0040]下面結(jié)合附圖對本發(fā)明進行詳細說明。
[0041]如圖1所示,本發(fā)明的基于特征建模的極低碼率下人臉視頻編解碼方法,包括以下步驟:
[0042]一種基于特征建模的極低碼率下人臉視頻編解碼方法,包括以下步驟:
[0043]步驟1:接收方接收發(fā)送方視頻聊天時傳輸來的第一幀全部視頻信息,并對第一幀視頻圖像進行顯著性區(qū)域檢測,確定人臉主體的位置;
[0044]步驟2:發(fā)送方對確定的人臉主體的位置進行人臉建模和提取特征點,以及確定眼睛和嘴巴的位置,并將特征點及眼睛和嘴巴的位置信息傳輸至接收方的客戶端;
[0045]步驟3:發(fā)送方利用第一幀已經(jīng)提取出的特征點進行運動估計,對第二幀視頻圖像進行確定人臉主體的位置;
[0046]步驟4:利用第一幀已經(jīng)提取出的特征點的運動估計進行人臉模型匹配,確定第二幀視頻圖像的特征點以及眼睛和嘴巴的位置,傳送特征點及眼睛和嘴巴的位置信息,與第一幀視頻信息進行匹配,合成第二幀視頻圖像;
[0047]步驟5:與第二幀視頻圖像合成方法類似,發(fā)送方傳送之后的每一幀視頻圖像特征點及眼睛和嘴巴的位置信息,與其前一幀視頻信息進行匹配,合成該幀視頻圖像,直至傳輸?shù)趇*n幀視頻圖像時,進入步驟6 ;其中,i = 1,2,3......,i為正整數(shù);n彡3,η為正整數(shù);
[0048]步驟6:當傳送第i*n幀視頻圖像時,傳輸該幀全部視頻信息,并對該幀視頻圖像進行顯著性區(qū)域檢測,確定人臉主體的位置和建立人臉模型,確定特征點以及眼睛和嘴巴的位置,并傳輸至接收方的客戶端;當接收方接收后,返回至步驟5。
[0049]如圖2所示,假設其為視頻聊天時的第一幀,將第一幀視頻圖像完整的傳輸?shù)浇邮斩?,并在發(fā)送端對第一幀視頻圖像進行顯著性區(qū)域檢測。顯著性區(qū)域檢測是將圖像中對人類視覺系統(tǒng)而言最顯著的區(qū)域快速檢測出來。由于本發(fā)明主要針對視頻聊天,所以最顯著區(qū)域是人臉區(qū)域。使用顯著性區(qū)域檢測算法比使用人臉檢測算法要快得多,更符合實時視頻聊天的要求。
[0050]本實施例中的顯著性檢測方法為“a Boolean Map based Saliency model” (BMS)算法,能更好的分離前景目標和背景區(qū)域,檢測結(jié)果如圖3所示。
[0051]BMS算法的流程圖如圖4所示,