專利名稱:用于多視點(diǎn)視頻編碼的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及數(shù)字視頻編碼,且更具體的涉及多視點(diǎn)視頻編碼(MVC)。
背景技術(shù):
三維(3D)圖像和視頻不僅提供了更多的信息,還能給觀眾更好的體驗(yàn)。在數(shù)字娛 樂(lè)中,由3D視頻提供的用戶深度感知以及相關(guān)的現(xiàn)實(shí)感已成為越來(lái)越具有吸引力的特征。 這引起了對(duì)3D技術(shù)方案的日益增加的需求,且?guī)?dòng)了用于3D電影和3DTV的圖像采集、視 頻壓縮和視頻顯示技術(shù)的快速發(fā)展。有兩種流行的3D視頻類型_立體視頻和多視點(diǎn)視頻。立體視頻具有兩個(gè)視點(diǎn), 通常是左和右,其模仿人類的立體視覺以提供深度感知。多視點(diǎn)視頻具有兩個(gè)或兩個(gè)以上 的視點(diǎn),這些視點(diǎn)具有由用戶選擇或通過(guò)自動(dòng)方式選擇的視角。使用不同的視頻顯示技術(shù) 的各種3D顯示系統(tǒng)可用于播放3D視頻的電影院和家庭娛樂(lè)市場(chǎng)。多視點(diǎn)視頻編碼是實(shí) 現(xiàn)高效率的編碼、存儲(chǔ)和傳輸這樣的視頻數(shù)據(jù)的一項(xiàng)關(guān)鍵技術(shù),如在以下文獻(xiàn)中所描述: "Introduction to Multiview Video Coding”,IS0/IEC JTC 1/SC 29/WG11 Doc. N9580, 2008年1月,安塔利亞,土耳其,在此通過(guò)引用的方式將其整體并入到本文中。在MVC中,攝像機(jī)之間的相對(duì)位置通常是公知的。計(jì)算機(jī)視覺的方法可用于執(zhí)行 3D形狀重建,以從其他視點(diǎn)預(yù)測(cè)一個(gè)視點(diǎn)的內(nèi)容。該步驟包括邊緣檢測(cè)、深度估計(jì)、變換參 數(shù)估計(jì)、3D渲染和其他相關(guān)操作。由于計(jì)算量巨大,以至于在視頻編碼應(yīng)用中不能采用這 些技術(shù)。即使一個(gè)視景中的三維信息是可用的,仍需要特定的3D加速計(jì)算機(jī)圖形硬件來(lái)進(jìn) 行高質(zhì)量的3D渲染,以實(shí)時(shí)的獲取期望的視點(diǎn)。例如,以下文獻(xiàn)報(bào)道了由具有30臺(tái)個(gè)人 電腦的集群構(gòu)建的實(shí)時(shí)三維形狀重建系統(tǒng)T. Matsuyama, W. Xiaojun,Τ. Takai和Τ. Wada, “Real-time dynamic 3-D object shape reconstruction and high-fidelity texture mapping for 3-D video,,,IEEE 期干丨J, Circuit Syst. , Video Technol.,第 14 卷,第 3 期, 第357-369頁(yè),2004年3月,在此通過(guò)引用的方式將其并入本文中。因此,用于手持設(shè)備的 實(shí)時(shí)數(shù)字視頻應(yīng)用是不切實(shí)際的。以下文獻(xiàn)描述了 MPEG-2 ITU-T 和 IS0/IEC_JTC-1,"Generic coding of moving pictures and associated audio information-Part 2 :Video,,, ITU-T Recommendation H. 262-IS0/IEC 13818-2 (MPEG-2),1995年,在此通過(guò)引用的方式將其并入本文中。以下文 獻(xiàn)描述了 H. 264/AVC :T. ffiegand,G. J. Sullivan,G. Bjontegaard禾口 A. Luthra,"Overview of the H. 264/AVC video coding standard,,,IEEE期干Ij,Circuit Syst. ,Video Technol., 第13卷,第7期,第560-576頁(yè),2003年7月,在此通過(guò)引用的方式將其并入本文中。通過(guò) 暫時(shí)地或空間地交叉兩個(gè)視點(diǎn),MPEG-2和H. 264/AVC都可支持多達(dá)兩個(gè)視點(diǎn),但編碼效率 不是很好。為充分利用不同視點(diǎn)的相關(guān)性,開發(fā)了來(lái)自聯(lián)合視頻組(JVT)的H. 264/AVC的 MVC擴(kuò)展。它擴(kuò)充了 H. 264/AVC的現(xiàn)有框架,而不是使用計(jì)算機(jī)視覺(CV)的范式。由于與 運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)(MCP)相似,所以采用基于塊的視差補(bǔ)償預(yù)測(cè)(DCP)來(lái)進(jìn)行視點(diǎn)間預(yù)測(cè)。有 很多預(yù)測(cè)技術(shù),例如,如以下文獻(xiàn)描述的多參考幀(MRF) :T. ffiegand, X. Zhang和B. Girod,“Long-term memory motion compensated prediction,,,IEEE 期干丨J,Circuit Syst. ,Video Technol.,第9卷,第2期,第70-84頁(yè),1999年2月,在此通過(guò)引用的方式將其并入本文 中;如以下文獻(xiàn)描述的可變塊大小(VBS) :G. J.Sullivan和R. L.Baker在Proceedings of Global Telecommunications Conference上發(fā)表的‘‘Rate-distortion optimized motion compensation for video compression using fixed or variable size blocks,,,亞禾 桑那州鳳凰城,美國(guó),1991年,第85-90頁(yè),在此通過(guò)引用的方式將其并入本文中;如以下 文獻(xiàn)描述的子像素 MCP :T. Wedi 和 H. G. Musmann, ‘‘Motion-and Aliasing-Compensated Prediction for Hybrid Video Coding,,,IEEE 期干丨J, Circuit Syst. , Video Technol.,第 13卷,第7期,第577-586頁(yè),2003年7月,在此通過(guò)引用的方式將其并入本文中;如以下文 獻(xiàn)描述的分層預(yù)測(cè)結(jié)構(gòu)H. Schwarz, D. Marpe 和 T. Wiegand 在 IEEE Int. Conf. Multimedia and Expo (ICME 2006)"Analysis of hierarchical B pictures and MCTF",^
倫多,加拿大,2006年7月,在此通過(guò)引用的方式將其并入本文中。上述多種預(yù)測(cè)技術(shù)和 快速運(yùn)動(dòng)估計(jì)算法已可用于MCP。視點(diǎn)之間的差別被認(rèn)為是由于照相機(jī)從一個(gè)位置搖攝 到另一個(gè)位置而引起的。通過(guò)殘留編碼對(duì)預(yù)測(cè)誤差進(jìn)行編碼。MVC擴(kuò)展的主要貢獻(xiàn)是提 供有效DCP的圖片組(GOP)結(jié)構(gòu),如在以下文獻(xiàn)中所描述:P. Merkle, A. Smolic, K. Muller 禾口 Τ· Wiegand, "Efficient Prediction Structures for Multiview Video Coding,,, IEEE 期刊,Circuit Syst.,Video Technol.,第 17 卷,第 11 期,第 1461-1473 頁(yè),2007 年 11 月;以及 M. Kitahara, H. Kimata, S. Shimizu, K. Kamikura, Y. Yashimata, K. Yamamoto, T.Yendo, T.Fujii 禾口 M. Tanimoto 在 IEEE Int. Conf. Multimedia and Exposition(ICME 2006)上發(fā)表的“Multi-view videocoding using view interpolation and reference picture selection”,多倫多,加拿大,2006年7月,在此通過(guò)引用的方式將上述文獻(xiàn)并入 本文中。率失真(RD)的改進(jìn)與如以下文獻(xiàn)中所描述的同時(shí)聯(lián)播相類似Y. J. Jeon,J. Lim 禾口 B. Μ· Jeon, "Report of MVC performance under stereo condition,,,Doc. JVT-AEO16, 聯(lián)合視頻工作組,倫敦,英國(guó),2009年6月,在此通過(guò)引用的方式將其并入本文中。以下文 獻(xiàn)也提出了在標(biāo)準(zhǔn)內(nèi)的一些方法T. Frajka 和 K. Zeger,“Residual image coding for stereo image compression,,, Optical Engineering,第 42 卷,第 1 期,第 182-189 頁(yè),2003 年1 月;J. Kim,Y. Kim,K. Sohn, "Stereoscopic video coding and disparity estimation for low bitrate applications based on MPEG-4 multiple auxiliary components,,, Signal Processing : Image Communication,第 23 卷,第 6 其月,第 405-416 頁(yè),2008 年 7 月; 以及 X. M. Li,D. B. Zhao,X. Y. Ji,Q. Wang 禾口 I Gao 在 Proc. IEEE Int. Conf. Image Process. (ICIP)發(fā)表的"A fast inter frame prediction algorithm for multiview video coding",第3卷,2007年9月,第417-420頁(yè),在此通過(guò)引用的方式將上述文獻(xiàn)并入本文中。 為了視差估計(jì),他們通常分析視點(diǎn)間的相關(guān)性,以使視差向量與實(shí)際視差相匹配。
傳統(tǒng)的基于塊的視點(diǎn)間預(yù)測(cè)方法的是純粹的平移,并沒有采用視點(diǎn)間的視差效 應(yīng)。如果可得到與視點(diǎn)間的形變效應(yīng)相匹配的候選塊,則應(yīng)該改進(jìn)預(yù)測(cè)準(zhǔn)確度和編碼效 率。為了將一個(gè)視點(diǎn)變換到另一個(gè)視點(diǎn),提出了在以下文獻(xiàn)中所描述的基于網(wǎng)格的方法 R.S. Wang 禾口 Y. Wang,“Multiview Video Sequence Analysis, Compression,and Virtual Viewpoint Synthesis”,IEEE 期干丨J,Circuit Syst.,Video Technol.,第 10 卷,第 3 期, 第 397-410 頁(yè),2000 年 4 月;以及 S. R.Han,Τ. Yamasaki, K. Aizawa, "Time-Varying MeshCompression Using an Extended Block Matching Algorithm”,IEEE 期刊, Circuit Syst.,Video Technol.,第 17 卷,第 11 期,第 1506-1518 頁(yè),2007 年 11 月,在此通過(guò)引用 的方式將上述文獻(xiàn)并入本文中。通過(guò)采用由視差效應(yīng)形成的形變,提高了預(yù)測(cè)精度,但是 運(yùn)用網(wǎng)格的復(fù)雜度仍然很高。不生成網(wǎng)格,而通過(guò)提供具有各種形變的預(yù)測(cè)塊或者幀來(lái)近 似形變是可能的。在各種形變效應(yīng)中,拉伸、壓縮和剪切(SCSH)效應(yīng)是視點(diǎn)之間最常見的 形變,特別是當(dāng)照相機(jī)處于橫向或垂直位置時(shí)。這種方法在過(guò)去并不十分具有吸引力,因 為它通常需要插值運(yùn)算以獲得變形的塊或幀。最近,與以下文獻(xiàn)所描述的二次采樣塊匹配 技術(shù)展示了一種以低復(fù)雜度的方式對(duì)變焦運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)的好的近似L.M. Po, K. Μ. Wong, K.W.Cheung 和K. H. Ng, "Subsampled Block-Matching for Zoom Motion Compensated Prediction”,在IEEE期刊,Circuit Syst. ,Video Technol.上發(fā)表,在此通過(guò)引用的方式 將上述文獻(xiàn)并入本文中。通過(guò)進(jìn)一步歸納二次采樣塊匹配理念,可通過(guò)專門設(shè)計(jì)的二次采 樣網(wǎng)格獲得各類變形。在這項(xiàng)工作中,為MVC的視點(diǎn)間預(yù)測(cè)提出了被二次采樣塊匹配的 SCSH。立體視覺它是人類能夠利用他的左眼和右眼來(lái)感知3D空間的方式之一。有許多方法來(lái)向 左眼和右眼分別提供左圖像和右圖像。目前電影制作正普遍采用立體視覺,并且其在數(shù)字 娛樂(lè)中的應(yīng)用正變得越來(lái)越流行。在立體視覺系統(tǒng)中,以彼此相隔幾厘米的方式移動(dòng)兩個(gè)圖像采集設(shè)備。由于從每 個(gè)圖像采集設(shè)備到對(duì)象的視角不同,所以左邊的視點(diǎn)不同于右邊的視點(diǎn)。3D重建取決于以 下因素匹配對(duì)應(yīng)于左視點(diǎn)和右視點(diǎn)之間的視景中同一個(gè)對(duì)象的部分,以及估計(jì)對(duì)應(yīng)點(diǎn)的深度。圖1顯示了通常用于立體計(jì)算機(jī)視覺的簡(jiǎn)單的視差模型,其中,P 110是被觀察的 對(duì)象,CL 120和CR 123是投影的中心,t。是眼睛之間的距離,f是常見的焦距。PL 130和PR
133是投影的位置。投影位置PL 130的位移XL與投影位置PR 133的位移XR之間的差值被 稱為視差。通過(guò)該視差可以估計(jì)深度Ζ。為立體圖像和視頻壓縮提供與變形相匹配的預(yù)測(cè)可以提高編碼效率。如果不需要 任意的視點(diǎn)渲染,則3D重建不是必要的。由于立體視覺具有照相機(jī)之間的固定關(guān)系,所以 屬性應(yīng)對(duì)所有立體圖像和視頻有效。從圖1所顯示的視差模型來(lái)看,應(yīng)遵守以下屬性(i)對(duì)于遠(yuǎn)處的對(duì)象來(lái)說(shuō),視差較小。(ii)如果深度不變,則視差不變。(iii)視差與深度成反比。從(i)和(ii)來(lái)看,平行于觀察平面運(yùn)動(dòng)的遠(yuǎn)處的對(duì)象和平面對(duì)象(例如,視景 中的平面)的左視點(diǎn)和右視點(diǎn)之間的差別應(yīng)被完全地平移。傳統(tǒng)的塊匹配技術(shù)可以給出很 好的預(yù)測(cè)。然而,第(iii)點(diǎn)意味著,依賴于到照相機(jī)的距離,不同視點(diǎn)間的同一 3D對(duì)象將 發(fā)生不同程度的變形。下面將討論有關(guān)現(xiàn)有視頻編碼標(biāo)準(zhǔn)在處理立體和多視點(diǎn)內(nèi)容中的限 制的更多細(xì)節(jié)立體和多視點(diǎn)視頻編碼用于最近可以在市場(chǎng)上買到的消費(fèi)者立體數(shù)碼照相機(jī)的立體圖像和視頻編碼方 法的效率不高。Ⅱ. 264/AVC具有支持任意照相機(jī)位置的大量視點(diǎn)的MVC擴(kuò)展。MVC擴(kuò)展具有兩個(gè)新的特征一立體感強(qiáng)和多視點(diǎn)多。通過(guò)使用用來(lái)假定兩個(gè)橫向放置的照相機(jī)的兩 個(gè)視點(diǎn)來(lái)支持立體視頻。盡管在開發(fā)階段一些新的編碼工具被提供給JVT,然而沒有具體的 新的編碼工具被采用。MVC編碼器和H. 264/AVC編碼器的主要區(qū)別在于編碼結(jié)構(gòu)。分層編 碼用來(lái)形成如圖2和3所示的用于立體和多視點(diǎn)視頻編碼的高效的預(yù)測(cè)結(jié)構(gòu)。圖2顯示了立體視頻編碼的預(yù)測(cè)結(jié)構(gòu)。實(shí)心箭頭表示傳統(tǒng)的幀間預(yù)測(cè)。雙虛線箭 頭表示視點(diǎn)間預(yù)測(cè)。虛線箭頭是可選的視點(diǎn)間預(yù)測(cè)。圖3顯示了具有6個(gè)視點(diǎn)的多視點(diǎn)視頻編碼的預(yù)測(cè)結(jié)構(gòu)。視點(diǎn)0 310是基本視點(diǎn)。 視點(diǎn)2 320,4 360,5 340是P視點(diǎn),視點(diǎn)1 350,3 330是B視點(diǎn)。在立體的情況下,只在左視點(diǎn)中有I幀。在右視點(diǎn)中沒有I幀。在MVC的情況下, 通過(guò)雙向預(yù)測(cè)可以預(yù)測(cè)B視點(diǎn)中的所有幀,這樣可以進(jìn)一步的降低比特率。視點(diǎn)間預(yù)測(cè)用 于消除不同視點(diǎn)間的冗余。它可以通過(guò)重新排列編碼順序來(lái)實(shí)現(xiàn),這樣可以有效的參考來(lái) 自不同視點(diǎn)的幀。圖4顯示了實(shí)現(xiàn)圖2所示的預(yù)測(cè)結(jié)構(gòu)的預(yù)測(cè)順序的例子?;趬K匹配的運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)基于塊匹配的運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)(MCP)是對(duì)現(xiàn)代視頻編碼方案的高效編碼作出貢獻(xiàn) 的核心技術(shù)。在MCP中,幀被劃分成非重疊的塊。運(yùn)動(dòng)估計(jì)適用于基于先前編碼幀中的數(shù)據(jù) 為每個(gè)塊找到預(yù)測(cè)。通過(guò)從當(dāng)前塊中減去預(yù)測(cè)可產(chǎn)生殘留塊。只對(duì)殘留塊和再現(xiàn)預(yù)測(cè)所需 的數(shù)據(jù)(運(yùn)動(dòng)向量)進(jìn)行編碼。壓縮性能很大程度上取決于預(yù)測(cè)精度。在H.264/AVC中, 為提高預(yù)測(cè)精度而采用了一些MCP工具。子像素MCP能夠使更準(zhǔn)確的運(yùn)動(dòng)向量高達(dá)1/4像 素精度。利用專門設(shè)計(jì)的維納濾波器,可使得混疊效應(yīng)很小,這樣可顯著的提高編碼效率。 圖5顯示了具有1/2像素運(yùn)動(dòng)向量精度的塊匹配運(yùn)動(dòng)估計(jì),以說(shuō)明子像素MCP的基本思想。 從內(nèi)插幀可獲得用來(lái)匹配的塊。利用MRF技術(shù),MCP不僅可以參考先前的解碼幀,還可以參 考來(lái)自更長(zhǎng)一段時(shí)間的、解決了臨時(shí)阻斷的問(wèn)題的幀。圖6顯示了具有MRF的臨時(shí)阻斷和 MCP的例子。例如,對(duì)于當(dāng)前幀640,要被匹配的高亮顯示的塊641和642不能在前一個(gè)時(shí) 間段的參考幀630中進(jìn)行最佳匹配。由于視景中的對(duì)象在不同的時(shí)間段移動(dòng)和變化,所以 可能會(huì)發(fā)生臨時(shí)阻斷。由于不同時(shí)間段的多參考幀的可用性,所以找到最佳匹配的可能性 大大增加。塊匹配視差補(bǔ)償預(yù)測(cè)在立體和多視點(diǎn)視頻編碼中,幀利用不同的照相機(jī)拍攝位置來(lái)捕獲在同一時(shí)刻的 同一視景。視點(diǎn)之間的相互關(guān)系與具有運(yùn)動(dòng)視差效應(yīng)的單一視點(diǎn)的視頻序列非常相似。視 點(diǎn)之間的區(qū)別取決于視差效應(yīng)。如果可以像MCP中的運(yùn)動(dòng)那樣利用視差信息,則可顯著提 高不同視點(diǎn)的編碼效率。H. 264/AVC的MVC擴(kuò)展使用與用于單一視點(diǎn)編碼的編碼工具相同 的一組編碼工具來(lái)處理視差補(bǔ)償預(yù)測(cè)(DCP)。用于DCP中的是來(lái)自其他視點(diǎn)的參考幀,而不 是來(lái)自同一視點(diǎn)的先前幀。實(shí)際上,編碼比特流中沒有額外的參數(shù)。參考幀參數(shù)表示視點(diǎn) 間幀,運(yùn)動(dòng)向量參數(shù)保持視差向量?;趬K匹配的視差補(bǔ)償預(yù)測(cè)的局限性傳統(tǒng)的視差補(bǔ)償預(yù)測(cè)基于假定平移運(yùn)動(dòng)模型的塊匹配,在平移運(yùn)動(dòng)模型中,塊中 所有像素的視差向量都相同。然而,視差模型是基于像素的,而不是基于塊。每個(gè)像素都有 不同的視差向量,這是因?yàn)閹忻總€(gè)像素的深度可以有所不同。為了比較平移模型和像素視差模式的區(qū)別,圖7和圖8顯示了兩個(gè)立體圖像對(duì)。在圖7中,通過(guò)視差效應(yīng)可以看到兩 個(gè)對(duì)象的深度信息,并且它們的2D形狀完全相同。在這種情況下,對(duì)象內(nèi)的深度信息丟失, 并且視景變成平面對(duì)象的兩個(gè)層次。在圖8中,兩個(gè)視點(diǎn)中對(duì)象的形狀有很小的差別,并且 對(duì)象內(nèi)的深度保持不變。還考慮了圖9所提供的現(xiàn)實(shí)世界中的例子。從圖10可以看到,圖 9的一部分的放大版本,垂直的對(duì)象(例如,墻壁1010和1020)似乎是在視點(diǎn)之間被橫向拉 伸或壓縮。從圖11可以看出,橫向的對(duì)象(例如,天花板1110和1120)似乎是在視點(diǎn)間被 剪切?;谶@種觀察,結(jié)合基于塊的方法和SCSH效用以提供基于像素的視差模型的效應(yīng)是 可能的。盡管通過(guò)如圖12所示的簡(jiǎn)單的基于幀的方法,可以直觀的實(shí)現(xiàn)SCSH視差補(bǔ)償預(yù) 測(cè),但是,生成這些SCSH幀的復(fù)雜度和對(duì)內(nèi)存的要求使其不切實(shí)際。為了使當(dāng)前幀1210與 視點(diǎn)間參考幀1220匹配,對(duì)視點(diǎn)間參考幀1220進(jìn)行不同程度的壓縮,并將其壓縮成壓縮 幀1231,并對(duì)視點(diǎn)間參考幀1220進(jìn)行不同程度的拉伸,并將其拉伸成拉伸幀1232。另外, 還對(duì)視點(diǎn)間參考幀1220進(jìn)行不同程度的左側(cè)剪切,并將其剪切成左側(cè)剪切幀1241,還對(duì)視 點(diǎn)間參考幀1220進(jìn)行不同程度的右側(cè)剪切,并將其剪切成右側(cè)剪切幀1242。壓縮幀1231、 拉伸幀1232、左側(cè)剪切幀1241和右側(cè)剪切幀1242,即所謂的“SCSH幀”,用于與當(dāng)前幀1210 相匹配以進(jìn)行運(yùn)動(dòng)預(yù)測(cè)。例如,實(shí)心箭頭指的是當(dāng)前幀1210和這些SCSH幀的匹配。生成 這些SCSH幀并使這些SCSH幀與當(dāng)前幀1210相匹配需要大量的內(nèi)存和計(jì)算。因此,需要有 一個(gè)更加實(shí)際的方法,該方法可以實(shí)際的執(zhí)行。
發(fā)明內(nèi)容
本發(fā)明的第一方面是提供一種用于SCSH視差補(bǔ)償預(yù)測(cè)的更實(shí)際的方法,其降低 了對(duì)內(nèi)存的要求,并具有較低的運(yùn)算復(fù)雜度。本發(fā)明的第二方面是模擬拉伸、壓縮和剪切,以使塊與用于視點(diǎn)間預(yù)測(cè)的內(nèi)插參 考幀的二次采樣相匹配。通過(guò)模擬變形,例如,考慮到的拉伸、壓縮和剪切,視差補(bǔ)償預(yù)測(cè)可 獲得更準(zhǔn)確的視差模型,其提高了多視點(diǎn)視頻編碼的壓縮效率。換句話說(shuō),本發(fā)明增加了用 于多視點(diǎn)視頻編碼的視差補(bǔ)償預(yù)測(cè)的預(yù)測(cè)精度。本發(fā)明的另一個(gè)方面是模擬視差效應(yīng),以使得在不使用高階運(yùn)動(dòng)模型的情況下, 也可以考慮到例如拉伸、壓縮和剪切的變形,其中,高階運(yùn)動(dòng)模型是為單一視點(diǎn)視頻而開發(fā) 的,例如仿射的、透視的、多項(xiàng)式的、彈性的。所有這些都需要參數(shù)估計(jì),而參數(shù)估計(jì)太復(fù)雜 以至于無(wú)法實(shí)用。盡管為了通過(guò)匹配視點(diǎn)之間的相應(yīng)的點(diǎn)來(lái)采用視差效應(yīng),而提出了基于 網(wǎng)格的方法,但是這也需要參數(shù)。因此,本發(fā)明通過(guò)避免這種類型的參數(shù)估計(jì)而降低了建立 運(yùn)動(dòng)或視差模型的復(fù)雜度。由于通過(guò)在子像素殘差估計(jì)的內(nèi)插幀上的塊匹配步驟執(zhí)行SCSH殘差估計(jì),所以 不需要額外的內(nèi)存。另外,可容易的將本發(fā)明配置于現(xiàn)有視頻編碼標(biāo)準(zhǔn),例如,H. 264/AVC及 其MVC擴(kuò)展,或可容易的將其采用到未來(lái)的視頻編碼標(biāo)準(zhǔn),例如,H. 265或HVC。本發(fā)明接收代表多個(gè)多視點(diǎn)視頻幀的視頻信號(hào),多視點(diǎn)視頻幀的數(shù)量在1到N的 范圍內(nèi),其中,N是大于或等于2的整數(shù);本發(fā)明從N個(gè)多視點(diǎn)視頻幀中選擇一個(gè)多視點(diǎn)視 頻幀作為參考視頻幀;本發(fā)明以M比例將該參考視頻幀內(nèi)插成內(nèi)插參考視頻幀,以使得所 述參考視頻幀的像素?cái)?shù)量增加M倍,這樣所述參考視頻幀的每個(gè)像素都生成M乘以M個(gè)子像素;本發(fā)明還通過(guò)采樣內(nèi)插參考視頻幀生成二次采樣參考?jí)K,以將變形引入到二次采樣 參考?jí)K中。本發(fā)明進(jìn)一步將每個(gè)多視點(diǎn)視頻幀劃分成多個(gè)塊,每個(gè)塊的大小為A乘以B,以使 得一個(gè)或多個(gè)處理器以逐塊的方式處理數(shù)據(jù),而非逐幀的方式處理數(shù)據(jù),其中,A和B分別
是整數(shù)。通過(guò)當(dāng)采樣內(nèi)插參考視頻幀時(shí)調(diào)整橫向采樣率,變形可具有橫向效應(yīng)。通過(guò)當(dāng)采 樣內(nèi)插參考視頻幀時(shí)應(yīng)用剪切因子,變形可具有剪切效應(yīng)。當(dāng)為了采樣內(nèi)插參考視頻幀而 將所述橫向采樣率選擇為高于垂直采樣率時(shí),橫向效應(yīng)是壓縮??蛇x的,當(dāng)為了采樣內(nèi)插參 考視頻幀而將所述橫向采樣率選擇為低于垂直采樣率時(shí),橫向效應(yīng)是拉伸。本發(fā)明進(jìn)一步提供了一個(gè)或多個(gè)附加參考幀,以使得在沒有變形的情況下就可以 內(nèi)插和采樣每個(gè)附加參考幀。本發(fā)明進(jìn)一步為對(duì)應(yīng)于變形的色度組件生成像素定位。此外, 通過(guò)使用各種采樣率,可將一個(gè)或多個(gè)縮放效應(yīng)應(yīng)用到所述二次采樣參考?jí)K。本發(fā)明進(jìn)一 步在經(jīng)過(guò)變形的內(nèi)插和采樣后的一個(gè)或多個(gè)參考幀和經(jīng)過(guò)沒有變形的內(nèi)插和采樣后的多 個(gè)附加參考幀之間進(jìn)行視差向量搜索。如下面的實(shí)施方式所示出的,也公開了本發(fā)明的其他方面。
下文將結(jié)合以下附圖對(duì)這些和其他目標(biāo)、方面以及該要求保護(hù)的發(fā)明的實(shí)施方式 進(jìn)行詳細(xì)的描述。圖1顯示了通常用于立體計(jì)算機(jī)視覺的簡(jiǎn)單的視差模型。圖2顯示了立體視頻編碼的預(yù)測(cè)結(jié)構(gòu)。圖3顯示了具有6個(gè)視點(diǎn)的多視點(diǎn)視頻編碼的預(yù)測(cè)結(jié)構(gòu)。圖4顯示了實(shí)現(xiàn)圖2所示的預(yù)測(cè)結(jié)構(gòu)的預(yù)測(cè)順序的例子。圖5顯示了具有1/2像素運(yùn)動(dòng)向量精度的塊匹配運(yùn)動(dòng)估計(jì)。圖6顯示了臨時(shí)阻斷和具有MRF的MCP的例子。圖7顯示了立體圖像對(duì),其中,在不同的視點(diǎn)中對(duì)象的形狀保持不變。圖8顯示了立體圖像對(duì),其中,在不同的視點(diǎn)中對(duì)象的形狀不同。 圖9顯示了現(xiàn)實(shí)世界的立體圖像對(duì)的例子。圖10顯示了現(xiàn)實(shí)世界的立體圖像對(duì)的例子,其為圖9中的墻壁的放大。圖11顯示了現(xiàn)實(shí)世界的立體圖像對(duì)的例子,其為圖9中的天花板的放大。圖12顯示了用于SCSH視差補(bǔ)償預(yù)測(cè)的基于簡(jiǎn)單幀的方法。圖13顯示了從內(nèi)插幀獲得放大了 4/3倍的塊的例子。圖14顯示了塊匹配平移和縮放MCP (BTZMCP)的二次采樣網(wǎng)格。圖15顯示了在放大因子為4/3的參考幀上的塊匹配。圖16顯示了在壓縮因子為3/4的參考幀上的塊匹配。圖17顯示了在拉伸因子為5/4的參考幀上的塊匹配。圖18顯示了在橫向剪切因子為1的參考幀上的塊匹配。圖19顯示了在橫向剪切因子為-1的參考幀上的塊匹配。圖20a顯示了在橫向剪切因子為0. 5的參考幀上的塊匹配。
圖20b顯示了在橫向剪切因子為1且壓縮因子為3/4的參考幀上的塊匹配。圖20c顯示了在橫向剪切因子為-1且拉伸因子為5/4的參考幀上的塊匹配。圖21顯示了根據(jù)一些實(shí)施方式的具有多視點(diǎn)視頻編碼能力的通用設(shè)備。圖22顯示了本發(fā)明中的多視點(diǎn)視頻編碼的實(shí)施方式的流程圖。圖23顯示了舉例說(shuō)明如何將本發(fā)明用于示例性的編碼器系統(tǒng)的示例性實(shí)施方式 的框圖。圖24顯示了舉例說(shuō)明如何將本發(fā)明用于示例性的譯碼器系統(tǒng)的示例性實(shí)施方式 的框圖。
具體實(shí)施例方式用于運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)(MCP)的二次采樣塊匹配盡管通過(guò)應(yīng)用仿射變換或通過(guò)提供具有SCSH效應(yīng)的參考幀可實(shí)現(xiàn)SCSH效應(yīng),然 而如以上所討論的,運(yùn)算復(fù)雜度和對(duì)內(nèi)存的要求非常高。二次采樣塊匹配用于有效地為縮 放運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)提供縮放參考幀。它以各種二次采樣率對(duì)已能進(jìn)行子像素MCP的內(nèi)插幀進(jìn) 行二次采樣,以獲得具有不同縮放效應(yīng)的塊。它不需要額外的操作來(lái)獲得縮放塊,也不需要 用來(lái)存儲(chǔ)縮放幀的額外的存儲(chǔ)空間。鑒于縮放塊的可用性,運(yùn)動(dòng)模型擴(kuò)展到平移和縮放,以 進(jìn)行塊匹配平移和縮放MCP (BTZMCP)。可將MCP概括為包括縮放參考幀
權(quán)利要求
一種多視點(diǎn)視頻編碼設(shè)備,包括一個(gè)或多個(gè)處理器,其被配置為接收代表多個(gè)多視點(diǎn)視頻幀的視頻信號(hào),多視點(diǎn)視頻幀的數(shù)量在1到N的范圍內(nèi),其中,N是大于或等于2的整數(shù);從N個(gè)所述多視點(diǎn)視頻幀中選擇一個(gè)多視點(diǎn)視頻幀作為參考視頻幀;以M比例將該參考視頻幀內(nèi)插成內(nèi)插參考視頻幀,以使得所述參考視頻幀的像素?cái)?shù)量增加M倍,并且所述參考視頻幀的每個(gè)像素都生成M乘以M個(gè)子像素;以及通過(guò)采樣所述內(nèi)插參考視頻幀生成二次采樣參考?jí)K,以將變形引入到所述二次采樣參考?jí)K中。
2.如權(quán)利要求1所述的多視點(diǎn)視頻編碼設(shè)備,其中,所述一個(gè)或多個(gè)處理器進(jìn)一步被 配置為將每個(gè)所述多視點(diǎn)視頻幀劃分成多個(gè)塊,每個(gè)塊的大小為A乘以B,以使得所述一個(gè)或 多個(gè)處理器以逐塊的方式處理數(shù)據(jù),而非逐幀的方式處理數(shù)據(jù),其中,A和B分別是整數(shù)。
3.如權(quán)利要求1所述的多視點(diǎn)視頻編碼設(shè)備,其中通過(guò)當(dāng)采樣所述內(nèi)插參考視頻幀時(shí)調(diào)整橫向采樣率,所述變形具有橫向效應(yīng)。
4.如權(quán)利要求1所述的多視點(diǎn)視頻編碼設(shè)備,其中通過(guò)當(dāng)采樣所述內(nèi)插參考視頻幀時(shí)應(yīng)用剪切因子,所述變形具有剪切效應(yīng)。
5.如權(quán)利要求1所述的多視點(diǎn)視頻編碼設(shè)備,其中,所述一個(gè)或多個(gè)處理器進(jìn)一步被 配置為提供一個(gè)或多個(gè)附加參考幀,以使得在沒有變形的情況下就能內(nèi)插和采樣每個(gè)所述附 加參考幀。
6.如權(quán)利要求1所述的多視點(diǎn)視頻編碼設(shè)備,其中,所述一個(gè)或多個(gè)處理器進(jìn)一步被 配置為為對(duì)應(yīng)于變形的色度組件生成像素定位。
7.如權(quán)利要求1所述的多視點(diǎn)視頻編碼設(shè)備,其中通過(guò)使用各種采樣率,將一個(gè)或多個(gè)縮放效應(yīng)應(yīng)用到所述二次采樣參考?jí)K。
8.如權(quán)利要求1所述的多視點(diǎn)視頻編碼設(shè)備,其中,所述一個(gè)或多個(gè)處理器進(jìn)一步被 配置為在經(jīng)過(guò)變形的內(nèi)插和采樣后的一個(gè)或多個(gè)參考幀和經(jīng)過(guò)沒有變形的內(nèi)插和采樣后的 多個(gè)附加參考幀之間進(jìn)行視差向量搜索。
9.如權(quán)利要求3所述的多視點(diǎn)視頻編碼設(shè)備,其中當(dāng)為了采樣所述內(nèi)插參考視頻幀而將所述橫向采樣率選擇為高于垂直采樣率時(shí),所述 橫向效應(yīng)是壓縮。
10.如權(quán)利要求3所述的多視點(diǎn)視頻編碼設(shè)備,其中當(dāng)為了采樣所述內(nèi)插參考視頻幀而將所述橫向采樣率選擇為低于垂直采樣率時(shí),所述 橫向效應(yīng)是拉伸。
11.一種多視點(diǎn)視頻編碼方法,包括接收代表多個(gè)多視點(diǎn)視頻幀的視頻信號(hào),多視點(diǎn)視頻幀的數(shù)量在ι到N的范圍內(nèi),其 中,N是大于或等于2的整數(shù);從N個(gè)所述多視點(diǎn)視頻幀中選擇一個(gè)多視點(diǎn)視頻幀作為參考視頻幀;以M比例將該參考視頻幀內(nèi)插成內(nèi)插參考視頻幀,以使得所述參考視頻幀的像素?cái)?shù)量 增加M倍,并且所述參考視頻幀的每個(gè)像素都生成M乘以M個(gè)子像素;以及通過(guò)采樣所述內(nèi)插參考視頻幀生成二次采樣參考?jí)K,以將變形引入到所述二次采樣參 考?jí)K中。
12.如權(quán)利要求11所述的多視點(diǎn)視頻編碼方法,進(jìn)一步包括將每個(gè)所述多視點(diǎn)視頻幀劃分成多個(gè)塊,每個(gè)塊的大小為A乘以B,以使得所述一個(gè)或 多個(gè)處理器以逐塊的方式處理數(shù)據(jù),而非逐幀的方式處理數(shù)據(jù),其中,A和B分別是整數(shù)。
13.如權(quán)利要求11所述的多視點(diǎn)視頻編碼方法,其中通過(guò)當(dāng)采樣所述內(nèi)插參考視頻幀時(shí)調(diào)整橫向采樣率,所述變形具有橫向效應(yīng)。
14.如權(quán)利要求11所述的多視點(diǎn)視頻編碼方法,其中通過(guò)當(dāng)采樣所述內(nèi)插參考視頻幀時(shí)應(yīng)用剪切因子,所述變形具有剪切效應(yīng)。
15.如權(quán)利要求11所述的多視點(diǎn)視頻編碼方法,進(jìn)一步包括提供一個(gè)或多個(gè)附加參考幀,以使得在沒有變形的情況下就能內(nèi)插和采樣每個(gè)所述附 加參考幀。
16.如權(quán)利要求11所述的多視點(diǎn)視頻編碼方法,進(jìn)一步包括為對(duì)應(yīng)于變形的色度組件生成像素定位。
17.如權(quán)利要求11所述的多視點(diǎn)視頻編碼方法,其中通過(guò)使用各種采樣率,將一個(gè)或多個(gè)縮放效應(yīng)應(yīng)用到所述二次采樣參考?jí)K。
18.如權(quán)利要求11所述的多視點(diǎn)視頻編碼方法,進(jìn)一步包括在經(jīng)過(guò)變形的內(nèi)插和采樣后的一個(gè)或多個(gè)參考幀和經(jīng)過(guò)沒有變形的內(nèi)插和采樣后的 多個(gè)附加參考幀之間進(jìn)行視差向量搜索。
19.如權(quán)利要求13所述的多視點(diǎn)視頻編碼方法,其中當(dāng)為了采樣所述內(nèi)插參考視頻幀而將所述橫向采樣率選擇為高于垂直采樣率時(shí),所述 橫向效應(yīng)是壓縮。
20.如權(quán)利要求13所述的多視點(diǎn)視頻編碼方法,其中當(dāng)為了采樣所述內(nèi)插參考視頻幀而將所述橫向采樣率選擇為低于垂直采樣率時(shí),所述 橫向效應(yīng)是拉伸。
全文摘要
本發(fā)明涉及用于多視點(diǎn)視頻編碼的方法和裝置。特別地,本發(fā)明描述了視差補(bǔ)償預(yù)測(cè),以通過(guò)為近似除平移視差外的實(shí)際的視差效應(yīng)提供的拉伸、壓縮和剪切(SCSH)視差補(bǔ)償來(lái)利用多視點(diǎn)視頻編碼中的視點(diǎn)間的相互關(guān)系。本發(fā)明提供了二次采樣塊匹配視差估計(jì)技術(shù),以實(shí)現(xiàn)利用了用于傳統(tǒng)混合視頻編碼結(jié)構(gòu)中的子像素運(yùn)動(dòng)和視差估計(jì)的內(nèi)插參考幀的SCSH視差補(bǔ)償。
文檔編號(hào)H04N7/32GK101990103SQ20101054286
公開日2011年3月23日 申請(qǐng)日期2010年11月10日 優(yōu)先權(quán)日2010年11月10日
發(fā)明者劉雨, 吳家豪, 布禮文, 張國(guó)威, 黃嘉文 申請(qǐng)人:香港應(yīng)用科技研究院有限公司