專利名稱:可伸縮視頻編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種可伸縮視頻編碼方法。
背景技術(shù):
視頻編碼是由一系列的不同操作運(yùn)動(dòng)估計(jì)、空間變換、量化、 熵編碼構(gòu)成的復(fù)雜過(guò)程。第一個(gè)操作,運(yùn)動(dòng)估計(jì)在該過(guò)程中起主要的 作用,其效率強(qiáng)烈影響可獲得的壓縮比。事實(shí)上,在這樣的步驟中, 通過(guò)采用通常區(qū)別后續(xù)影像(photogram)的高相似性,從相鄰的影 像開(kāi)始計(jì)算影像的內(nèi)容的預(yù)測(cè)。
下面,術(shù)語(yǔ)"參考影像,,意味已處理的影像,以致它可由解碼器重 構(gòu)。術(shù)語(yǔ)"當(dāng)前影像"意味待編碼的影像,即處理對(duì)象。參考影像被修 改,以便近似當(dāng)前影像。
后續(xù)影像之間的相似性可通過(guò)"失真,,來(lái)表述。編碼流由當(dāng)前影像 預(yù)測(cè)和當(dāng)前影像本身之間的差異構(gòu)成,以及由使解碼器可以獲得相同 預(yù)測(cè)的附加信息構(gòu)成,從而獲得理想的重構(gòu)。這樣,通過(guò)使壓縮系數(shù) 達(dá)以最大,使編碼信息能量最小化。
在傳統(tǒng)的混合型標(biāo)準(zhǔn)(例如,MPEG-2, H.264/AVC)中,使用 最多的運(yùn)動(dòng)估計(jì)技術(shù)是所謂的"塊匹配"整個(gè)當(dāng)前影像被分成大小可 變的許多小塊,每個(gè)小塊與參考影像上的具有最相似內(nèi)容,從而使差 分能量最小化的塊相聯(lián)系。于是,兩個(gè)小塊(一個(gè)在當(dāng)前影像上,一 個(gè)在參考影像上)推測(cè)起來(lái)是相同圖像部分的標(biāo)識(shí);由于被拍攝對(duì)象 的移動(dòng),或者由于照相機(jī)移動(dòng)的緣故,當(dāng)從一個(gè)影像轉(zhuǎn)到下一個(gè)影像 時(shí),這樣的圖像部分通常存在偏移。于是,可將當(dāng)前圖像的每個(gè)小塊 與一個(gè)二維矢量聯(lián)系起來(lái),這樣做表示所述小塊相對(duì)于在先影像所經(jīng) 歷的偏移。識(shí)別所述偏移的這種二維矢量被稱為"運(yùn)動(dòng)矢量"(MV)。從而,在編碼流中,插入?yún)⒖加跋?、MV和各個(gè)塊與它們的預(yù)測(cè) 之間的差異。
在高壓縮比下,塊匹配的使用對(duì)解碼流引入一些視覺(jué)假象,但是 塊匹配表現(xiàn)為在混合編碼器中(即,在包括用于補(bǔ)償運(yùn)動(dòng)和空間壓縮 的預(yù)測(cè)的編碼器中),計(jì)算運(yùn)動(dòng)估計(jì)的最有效方法。
隨著新的視頻編碼技術(shù)的出現(xiàn),根據(jù)不同于傳統(tǒng)的DCT(離散 余弦變換)的不同變換,比如"小波"變換,由于使用塊匹配作為運(yùn)動(dòng) 估計(jì)技術(shù),發(fā)現(xiàn)效率降低。事實(shí)上,與按塊運(yùn)算的DCT相反,小波 變換被應(yīng)用于整個(gè)影像,于是,塊匹配技術(shù)在小塊邊緣引入不連續(xù), 在變換域中,這形成高頻分量的起源。這種高頻分量大大限制了量化 步驟中的性能。于是,需要一種新的運(yùn)動(dòng)表現(xiàn)。
已知一種基于塊匹配的備選方法,即所謂的"光流"技術(shù)的運(yùn)動(dòng)估 計(jì)設(shè)備,所述"光流,,技術(shù)計(jì)算參考影像的光點(diǎn)畸變,以確定當(dāng)前影像 預(yù)測(cè),而不招致塊的使用。在B.Horn, B.Schunck的"Determining optical flow", Artificial Intelligence, no.17, pp.185-203, 1981中描 述了光流技術(shù)。通過(guò)求解線性方程組,計(jì)算光流,所述線性方程組的 系數(shù)是根據(jù)當(dāng)前影像的空間和時(shí)間導(dǎo)數(shù),即,根據(jù)就時(shí)間而論,相鄰 和/或后續(xù)像素之間的光點(diǎn)差異獲得的。解答是一組二維矢量, 一個(gè)矢 量用于一個(gè)影像像素,稱為"運(yùn)動(dòng)場(chǎng)"。
由光流產(chǎn)生的運(yùn)動(dòng)場(chǎng)可被確定,以致由于在線性方程組中增加正 則化項(xiàng)的緣故,所述運(yùn)動(dòng)場(chǎng)是規(guī)律的,或者說(shuō)"平滑的"。平滑的運(yùn)動(dòng) 場(chǎng)產(chǎn)生殘差的起源,所述殘差并不表現(xiàn)出塊匹配的典型不連續(xù)性,并 且適合于借助小波變換分解。
存在迭代計(jì)算的運(yùn)動(dòng)場(chǎng),以致每次迭代確定一個(gè)運(yùn)動(dòng)場(chǎng)(該運(yùn)動(dòng) 場(chǎng)作為一項(xiàng)被插入運(yùn)動(dòng)場(chǎng)的總和中)的光流實(shí)施例。最終的總和是運(yùn) 動(dòng)場(chǎng)。P. Giaccone, G.Jones的文章"Spatio-temporal approaches to the compution of optical flow". Proceedings of the British Machine Vision Conference, 1997舉例說(shuō)明使用光流技術(shù)以及特定的解答來(lái)建立第一 運(yùn)動(dòng)場(chǎng),其中第一運(yùn)動(dòng)估計(jì)基于一些顯著點(diǎn)的識(shí)別和跟蹤。已知在視頻編碼環(huán)境中,通過(guò)光流應(yīng)用多分辨率運(yùn)動(dòng)估計(jì)技術(shù),
如MouIin:P.MouIin , R.Krishnamurthy和 J.Woods , "Multiscale Modeling and Estimation of Motion Fields for Video Coding", IEEE Transactions on Image Processing, vol.6, no.12, pp.1606-1620, December 1996中所迷。
特別地,存在經(jīng)由光流的運(yùn)動(dòng)估計(jì)實(shí)施例,所述實(shí)施例使用"由 粗到細(xì)"(coarse-to-fme)過(guò)程,即,多分辨率過(guò)程。這種才支術(shù)以和數(shù) 的形式提供運(yùn)動(dòng)場(chǎng)的構(gòu)成。所述和數(shù)的每一項(xiàng)對(duì)應(yīng)于包含不同空間分 辨率的金字塔的一級(jí)。這些過(guò)程的目的是克服光流算法在寬廣的運(yùn)動(dòng) 估計(jì)中,即在確定超過(guò)一定數(shù)目的像素的偏移量時(shí)遇到的困難。
實(shí)際上,這種技術(shù)如下操作。第一項(xiàng)由關(guān)于處于最低分辨率級(jí)別 的影像估計(jì)的運(yùn)動(dòng)場(chǎng)構(gòu)成。按照下面的方式產(chǎn)生之后的各項(xiàng)
1. 上升一個(gè)分辨率級(jí)別,并考慮處于該級(jí)別的影像。
2. 通過(guò)插值進(jìn)行擴(kuò)展,并比例縮放先前計(jì)算的運(yùn)動(dòng)場(chǎng)。
3. 利用由此產(chǎn)生的運(yùn)動(dòng)場(chǎng)使參考影像變形。
4. 計(jì)算存在于變形影像和當(dāng)前影像之間的運(yùn)動(dòng)場(chǎng)。這樣的運(yùn)動(dòng)場(chǎng) 將是該和數(shù)的一項(xiàng),并將被加入到已計(jì)算的和數(shù)中。
5. 如果未達(dá)到最高分辨率級(jí)別,那么從步驟1開(kāi)始重復(fù)該過(guò)程。 于是,在這種技術(shù)中,關(guān)于較低級(jí)別計(jì)算的運(yùn)動(dòng)場(chǎng)被用作最終的
運(yùn)動(dòng)場(chǎng)中的各項(xiàng)。
Eero P.Simoncelli 的文獻(xiàn)"Bayesian multi-scale differential optical flow", in Handbook of Computer Vision and Applications, eds. B. Jahne, H.Haussecker和P. Geissler, Academic Press, 1999距離 描述一種多分辨率光流方案,包括能夠在多個(gè)級(jí)別管理屬于運(yùn)動(dòng)估計(jì) 的不確定性的算法的使用。處于某一級(jí)別的運(yùn)動(dòng)場(chǎng)被模擬成由下面各 級(jí)得到的運(yùn)動(dòng)和隨機(jī)分量的總和。涉及多分辨率光流運(yùn)動(dòng)估計(jì)的其它 文獻(xiàn)是US05680487和US05241608。
光流可相對(duì)于傳統(tǒng)編碼被用在不同的環(huán)境中,具體地說(shuō),用在可
伸縮視頻編碼(svc),也稱為"級(jí)別,,編碼的環(huán)境中。svc技術(shù)目標(biāo)是從單個(gè)的編碼流開(kāi)始,執(zhí)行起源于位流的單個(gè)編碼,根據(jù)所述位流, 可能獲得具有多種質(zhì)量的流。事實(shí)上,根據(jù)這樣的位流,考慮到空間 維、時(shí)間(用"幀速率"來(lái)表示)維和質(zhì)量(用"位速率"來(lái)表示)維, 可能提取與具有所需分辨率(選自一組可能的分辨率)的視頻流相關(guān) 的新的位流。利用混合技術(shù)和基于小波的方法的方案已為人們所知。對(duì)于在噪聲信道上進(jìn)行傳送來(lái)說(shuō),可伸縮編碼是重要的事實(shí)上, 通過(guò)在具有更好性能的信道上傳送它們時(shí),有可能保護(hù)最重要的級(jí)別 (基本級(jí)別)。在具有可變位速率的信道上,可伸縮編碼也是非常有 用的當(dāng)頻帶被減小時(shí),不傳送不太重要的各層。可伸縮性的另一種 有益應(yīng)用在于漸進(jìn)傳輸,即用戶能夠修正僅僅借助基本級(jí)別編碼的視 頻預(yù)覽,以便在數(shù)據(jù)庫(kù)中執(zhí)行選擇; 一旦做出決定,用戶能夠以最佳 的質(zhì)量接收視頻。在可伸縮編碼器中,就空間可伸縮性來(lái)說(shuō),運(yùn)動(dòng)估計(jì)步驟非常復(fù) 雜,性能受該步驟影響極大。事實(shí)上,由于細(xì)節(jié)的損失和混疊的出現(xiàn), 在全分辨率下計(jì)算的運(yùn)動(dòng)矢量的伸縮并不總是產(chǎn)生關(guān)于較低分辨率 的最佳預(yù)測(cè)。不能從其它分辨率得到與每個(gè)空間分辨率相關(guān)的運(yùn)動(dòng)場(chǎng) 的最佳解答。于是,不可能通過(guò)在有限的一組分辨率中唯一地計(jì)算最 佳運(yùn)動(dòng),確定所有分辨率的最佳運(yùn)動(dòng)。但是,插入位流中的運(yùn)動(dòng)表現(xiàn) 必須是唯一的,以避免專用于運(yùn)動(dòng)場(chǎng)的位的過(guò)度占用。從而,需要找到能夠?yàn)樗惺苡绊懙姆直媛蕛?yōu)化性能的折衷。存在以塊匹配類型的運(yùn)動(dòng)估計(jì)為基礎(chǔ)的方法,這些方法提供關(guān)于 每個(gè)所提供分辨率的運(yùn)動(dòng)場(chǎng)的計(jì)算,并通過(guò)在編碼流中插入能夠?yàn)槊?個(gè)可伸縮性級(jí)別保持良好性能的折衷,單義地表示運(yùn)動(dòng)信息。下面的 方法隨折衷的計(jì)算模式而不同在P0644695A2中,從在基本層和在增強(qiáng)層計(jì)算的估計(jì)開(kāi)始,通 過(guò)利用由每個(gè)級(jí)別的估計(jì)有效性(用殘余能量來(lái)表示)引導(dǎo)的加權(quán)函 數(shù),執(zhí)行最終運(yùn)動(dòng)場(chǎng)計(jì)算。D.Taubman , N.Mehrseresht , R丄eung , "SVC Technical Contribution:Overview of recent technology developments atUNSW", ISO/IEC JTC1/SC29/WG11/M10868, 2004描述一種自適應(yīng) 處理,所述處理根據(jù)估計(jì)有效性,向在空間濾波期間計(jì)算的來(lái)自于高 頻頻帶的運(yùn)動(dòng)信息賦予可變權(quán)重。
盡管上述文獻(xiàn)說(shuō)明了借助于關(guān)于不同可伸縮性級(jí)別的折衷,以多 分辨率分析為基礎(chǔ)的運(yùn)動(dòng)估計(jì)算法,不過(guò)申請(qǐng)人注意到通過(guò)應(yīng)用塊匹 配,總是出現(xiàn)運(yùn)動(dòng)估計(jì)。但是,如果被應(yīng)用于可伸縮編碼,那么塊匹 配存在困難,因?yàn)椴恢廊绾螌?shí)現(xiàn)能夠如實(shí)地表現(xiàn)不同的空間分辨率 的運(yùn)動(dòng)場(chǎng)。
發(fā)明內(nèi)容
申請(qǐng)人研究了使光流技術(shù)適合于可伸縮編碼場(chǎng)景的問(wèn)題,尤其是 修改光流算法過(guò)程的問(wèn)題,以便在可伸縮視頻編碼的多分辨率環(huán)境中 的空間可伸縮性的情況下,改進(jìn)運(yùn)動(dòng)估計(jì)設(shè)備的性能。
申請(qǐng)人發(fā)現(xiàn)通過(guò)對(duì)最低空間分辨率進(jìn)行光流計(jì)算,隨后在增加測(cè) 量所考慮的分辨率級(jí)別的解答和較低分辨率的下一分辨率級(jí)別的解 答之間的相似性的約束條件的情況下,對(duì)更高的分辨率進(jìn)行類似的處 理,能夠?qū)崿F(xiàn)估計(jì)設(shè)備性能的改進(jìn)。
當(dāng)進(jìn)行解碼時(shí),通過(guò)應(yīng)用一組小波濾波器(離散小波變換 -DWT),依據(jù)與最高分辨率相關(guān)的運(yùn)動(dòng)場(chǎng)(當(dāng)通過(guò)下面說(shuō)明的方法 編碼時(shí)計(jì)算的運(yùn)動(dòng)場(chǎng)),獲得不同分辨率的運(yùn)動(dòng)場(chǎng)。
實(shí)現(xiàn)為正則化項(xiàng)的上述約束條件使已與關(guān)于較低的分辨率計(jì)算 的運(yùn)動(dòng)場(chǎng)不同(尤其是在低通分量方面)的解答惡化。正則化項(xiàng)量化 待計(jì)算的運(yùn)動(dòng)場(chǎng)與下面一個(gè)級(jí)別的已計(jì)算的運(yùn)動(dòng)場(chǎng)之間的差異。為 此,對(duì)待計(jì)算的運(yùn)動(dòng)場(chǎng)應(yīng)用低通小波濾波,之后是子采樣,以降低分 辨率。
隨后通過(guò)稱為"正則化因子"的因子,可設(shè)置由正則化施加的影 響,所述正則化因子確定各個(gè)級(jí)別之間的相似性。高的正則化因子使 某一分辨率的分量在這里描述的處理的后續(xù)迭代期間幾乎不變化。相
反,如果正則化因子較低,那么某一分辨率的分量在后續(xù)迭代期間受到變化,尤其是如果在較高的級(jí)別出現(xiàn)的細(xì)節(jié)不同于可在較低的級(jí)別 中看到的那些細(xì)節(jié)移動(dòng)的話。
于是可能使解答或多或少地約束于某些空間級(jí)別,以便根據(jù)場(chǎng)景 內(nèi)容和可伸縮性需要使性能最大化。
關(guān)于較低級(jí)別計(jì)算的運(yùn)動(dòng)場(chǎng)只被用作優(yōu)化標(biāo)準(zhǔn)的一部分,而不用 作最終的運(yùn)動(dòng)場(chǎng)中的項(xiàng)。當(dāng)解碼時(shí),為了獲得可在某一分辨率應(yīng)用的 運(yùn)動(dòng)場(chǎng),執(zhí)行低通小波濾波,以消除高頻分量,隨后對(duì)結(jié)果進(jìn)行子釆 樣就足夠了 。
于是,本發(fā)明的技術(shù)在多分辨率視頻編碼中增加了創(chuàng)新的正則化項(xiàng)。
該過(guò)程的最終結(jié)果由在最高級(jí)別計(jì)算的運(yùn)動(dòng)場(chǎng)構(gòu)成。本質(zhì)上,所 述最終結(jié)果包含每個(gè)分辨率級(jí)別的最佳運(yùn)動(dòng)場(chǎng)(在光流的意義上)的 近似值作為分量。于是,本發(fā)明的技術(shù)允許將屬于多分辨率運(yùn)動(dòng)場(chǎng)的 誤差分布在所使用的各個(gè)分辨率之間。
所提出的關(guān)于小波類視頻編碼器研究的解決方案也可用在混合 編碼器中。
于是,按照本發(fā)明的一個(gè)方面,本發(fā)明涉及一種可伸縮視頻編碼 的運(yùn)動(dòng)估計(jì)方法,所述方法包括估計(jì)影像序列的運(yùn)動(dòng)場(chǎng)的步驟,所述 影像序列可用包括在最低分辨率級(jí)別和最高分辨率級(jí)別之間的多個(gè) 空間分辨率級(jí)別表示,其中估計(jì)運(yùn)動(dòng)場(chǎng)的步驟包括借助函數(shù)的最小 化,計(jì)算每個(gè)空間分辨率級(jí)別的運(yùn)動(dòng)場(chǎng)的步驟,其中,對(duì)于不同于最 低空間分辨率級(jí)別的每個(gè)級(jí)別,所述函數(shù)包括級(jí)別之間的正則化項(xiàng), 所述正則化項(xiàng)指示關(guān)于所考慮級(jí)別的最小化的解答與關(guān)于比所考慮 級(jí)別低一級(jí)的空間分辨率級(jí)別的最小化的解答之間的差異。表述"最 小化的解答"意味允許獲得所考慮的函數(shù)的最小值的解答。
最好,可通過(guò)光流方程式來(lái)表述上述函數(shù)。換句話說(shuō),通過(guò)光流 方程式計(jì)算運(yùn)動(dòng)場(chǎng),對(duì)于不同于最低空間分辨率級(jí)別的級(jí)別來(lái)說(shuō),所 述光流方程式包括上面所述的各個(gè)級(jí)別之間的正則化項(xiàng)。對(duì)于最低分 辨率級(jí)別來(lái)說(shuō),不存在這樣的項(xiàng)。
11最好,從最低空間分辨率級(jí)別到最高空間分辨率級(jí)別依次執(zhí)行計(jì) 算不同于最低空間分辨率級(jí)別的每個(gè)級(jí)別的運(yùn)動(dòng)場(chǎng)的步驟。對(duì)于每個(gè)空間分辨率級(jí)別,運(yùn)動(dòng)場(chǎng)包括初始運(yùn)動(dòng)場(chǎng)和增量運(yùn)動(dòng) 場(chǎng),計(jì)算運(yùn)動(dòng)場(chǎng)的步驟最好包括計(jì)算增量運(yùn)動(dòng)場(chǎng),并將增量運(yùn)動(dòng)場(chǎng)與 萍刀始運(yùn)動(dòng)場(chǎng)相加。對(duì)于不同于最低空間分辨率級(jí)別的一般空間分辨率級(jí)別K-m, 各個(gè)級(jí)別之間的正則化項(xiàng)可被表示成其中E是濾波和子釆樣運(yùn)算符,pG是初始運(yùn)動(dòng)場(chǎng),q是增量運(yùn)動(dòng) 場(chǎng);但是,具有坐標(biāo)x, y的一般點(diǎn)的增量運(yùn)動(dòng)場(chǎng)q適合于表示成其中6u和&v是增量運(yùn)動(dòng)場(chǎng)的水平分量和垂直分量。 濾波和子采樣運(yùn)算符E最好是小波變換的低通分量。 對(duì)于不同于最低空間分辨率級(jí)別的每個(gè)級(jí)別,最小化最好可被表示成<formula>formula see original document page 12</formula>其中Fi (q)是表示近似誤差的項(xiàng),F(xiàn)2 (q)是表示運(yùn)動(dòng)場(chǎng)正則 性的項(xiàng),k和fi是兩個(gè)正則化因子。<formula>formula see original document page 12</formula>此外,考慮到一般分辨率級(jí)別K-m上后續(xù)時(shí)刻t和t+l的兩個(gè)<formula>formula see original document page 12</formula>其中Un和v()是初始運(yùn)動(dòng)場(chǎng)的水平分量和垂直分量, Ak^是由包含影像gt+1的空間導(dǎo)數(shù)的兩個(gè)對(duì)角子矩陣構(gòu)成的矩陣,表示成Ai-[^g(g;:;) ^g(gS)],M是適合于按照下述方式使一般影像g失真的運(yùn)動(dòng)運(yùn)算符<formula>formula see original document page 12</formula>表示運(yùn)動(dòng)場(chǎng)正則性的項(xiàng)可被表示成,2(《)=||詢|2,其中H是二階導(dǎo) 數(shù)運(yùn)算符,所述二階導(dǎo)數(shù)運(yùn)算符可被表示成
<formula>formula see original document page 13</formula>
在計(jì)算運(yùn)動(dòng)場(chǎng)的步驟之前,所述方法最好還包括從位于最高空間 分辨率級(jí)別的影像開(kāi)始,構(gòu)建位于不同空間分辨率級(jí)別的影像的步
此外,對(duì)于每個(gè)空間分辨率級(jí)別,構(gòu)建影像的步驟最好包括對(duì)位 于最高分辨率級(jí)別的影像進(jìn)行濾波和子采樣,這樣的濾波和子采樣步 驟被執(zhí)行多次,其次數(shù)與使該空間分辨率級(jí)別和最高空間分辨率級(jí)別 分開(kāi)的級(jí)數(shù)相等。
濾波和子采樣步驟最好包括下述步驟 -沿各行的低通濾波; -對(duì)各列進(jìn)行子采樣; -沿各列的低通濾波;和 -對(duì)各行進(jìn)行子采樣。
本發(fā)明還涉及一種傳送編碼視頻圖像的方法,包括下述步驟按 照上述方法對(duì)視頻圖像編碼,傳送編碼圖像,接收編碼圖像和對(duì)接收 的編碼圖像解碼。
最好,解碼步驟包括對(duì)所述編碼視頻圖像應(yīng)用至少一次小波變 換,以便獲得處于所需分辨率級(jí)別的影像序列。
上述方法適合于由處理器以程序的形式(以步驟序列的形式)執(zhí) 行。于是,本發(fā)明還涉及一種處理器程序,所述處理器程序可被直接 裝入數(shù)據(jù)處理系統(tǒng)的存儲(chǔ)器中,并且當(dāng)被執(zhí)行時(shí),適合于實(shí)現(xiàn)前面描 述的方法。本發(fā)明最后涉及一種系統(tǒng),所述系統(tǒng)包含執(zhí)行前述方法的步驟的裝置。
下面參考
本發(fā)明,附圖表示了本發(fā)明的非限制性實(shí)施
例,其中
圖l舉例表示對(duì)視頻圖像編碼和解碼的系統(tǒng); 圖2表示可應(yīng)用本發(fā)明的編碼技術(shù)的多個(gè)分辨率級(jí)別的視頻圖 像序列;
圖3表示包括在本發(fā)明的編碼方法中的濾波和子采樣步驟; 圖4表示與本發(fā)明的方法的步驟相關(guān)的流程圖。
具體實(shí)施例方式
參見(jiàn)圖1, 1表示傳送視頻信號(hào)的系統(tǒng),包括圖像編碼器2和圖 像解碼器3。圖像編碼器2適合于接收由視頻攝影設(shè)備(比如數(shù)字?jǐn)z 像機(jī))產(chǎn)生的視頻信號(hào),對(duì)信號(hào)S編碼以產(chǎn)生對(duì)應(yīng)的編碼視頻信號(hào)Sc, 最后在已知類型的傳輸介質(zhì)4,比如光纖連接上傳送這樣的編碼信號(hào)。 解碼器3適合于接收編碼信號(hào)Sc,對(duì)編碼信號(hào)Sc解碼,以提取信號(hào) SD,信號(hào)Su類似于信號(hào)S,但是不一定等于S。
信號(hào)S被編碼,以致能夠在一組可能的分辨率級(jí)別中選擇的一個(gè) 空間分辨率級(jí)別對(duì)編碼的信號(hào)S解碼。
于是,在下面的說(shuō)明中,將假定多分辨率金字塔的存在,以表現(xiàn) 具有M+l個(gè)級(jí)別的影像和運(yùn)動(dòng)場(chǎng),其中最高的級(jí)別具有索引K,最 低的級(jí)別具有索引K-M。
圖2表示在時(shí)間t=l, t=2...t=T的與相同的視頻相關(guān),但是對(duì)應(yīng) 于三個(gè)不同的分辨率級(jí)別K、 K-m和K-M的三個(gè)影像序列。具體地 說(shuō),第一個(gè)影像序列#,//,...,//與最高分辨率(級(jí)別K)相關(guān),笫二 個(gè)影像序列 ...,//^與中間分辨率(級(jí)別K-m)相關(guān),第三個(gè) 影像序列#,//-、…,//省與最低分辨率(級(jí)別K-M)相關(guān)。
當(dāng)收到未編碼的視頻信號(hào),包括最高分辨率級(jí)別的影像序列時(shí),編碼器2在較低的分辨率級(jí)別下執(zhí)行影像構(gòu)成。如圖3中的流程圖中 所示,為了在比最高分辨率低的分辨率級(jí)別下構(gòu)建影像,對(duì)最大分辨 率的影像應(yīng)用下述一系列操作-沿各行的低通濾波(步驟10);-各列的子采樣(步驟20);-沿各列的低通濾波(步驟30);和-各行的子釆樣(步驟40)。這一 系列的操作將用字母B表示。為了在比最高分辨率低m個(gè)級(jí)別的分辨率下構(gòu)建影像,上述一 連串的操作被應(yīng)用m次。稱為Bm的該操作等同于二維圖像的離散小 波變換(DWT)的對(duì)應(yīng)低通分量的計(jì)算。隨后,通過(guò)下面的關(guān)系式, 根據(jù)在時(shí)間t的最高分辨率K的對(duì)應(yīng)影像,獲得在時(shí)間t的K-m級(jí)(即,最高分辨率以下m級(jí))的影像//-"t5"y^ (i)在不同級(jí)別下的影像的構(gòu)成之后,在不同的級(jí)別下執(zhí)行運(yùn)動(dòng)場(chǎng)計(jì) 算。在本發(fā)明中,當(dāng)通過(guò)迭代過(guò)程進(jìn)行編碼時(shí),獲得運(yùn)動(dòng)場(chǎng)。這種過(guò) 程首先通過(guò)使光流類型(optical flow type )的函數(shù)最小化,計(jì)算最低 分辨率下的運(yùn)動(dòng)場(chǎng),以便隨后通過(guò)沿著分辨率金字塔上升,直到到達(dá) 最高分辨率為止,計(jì)算越來(lái)越高的分辨率的運(yùn)動(dòng)場(chǎng),對(duì)于最高分辨率來(lái)說(shuō),將計(jì)算最終的運(yùn)動(dòng)場(chǎng)。在所有其它分辨率下,通過(guò)使成本函數(shù)最小化,計(jì)算運(yùn)動(dòng)場(chǎng),在 所述成本函數(shù)中, 一項(xiàng)表示待計(jì)算的解答與已經(jīng)獲得的下面一個(gè)級(jí)別 的解答之間的相似性。通過(guò)求解方程組,能夠獲得最小化。我們假定一般分辨率K-m和一般時(shí)間常數(shù)t。所考慮的在時(shí)間t和t+i與這樣的分辨率相關(guān)的兩個(gè)影像是g,=和g,+,=y;;r 。按照光流技術(shù),構(gòu)建矩陣,所述矩陣包含兩個(gè)對(duì)角線上的關(guān)于笛卡爾坐標(biāo)x和y的一階空間導(dǎo)數(shù),其它矩陣元素等于O。假定用(x, y)表示的像素在一個(gè)影像和另一個(gè)影像之間被移動(dòng)矢量,<formula>formula see original document page 16</formula>
(3)
用水平uo(x, y)和垂直vo(x, y)運(yùn)動(dòng)場(chǎng)初始化光流' 為求解光流而將被最小化的函數(shù)的第一項(xiàng)是
<formula>formula see original document page 16</formula> (4)
其中變量q是將被加到初始運(yùn)動(dòng)場(chǎng)中的增量運(yùn)動(dòng)場(chǎng)
M是關(guān)于初始化定義的、并且適合于按照運(yùn)動(dòng)場(chǎng)u和v使影《象
失真的運(yùn)動(dòng)運(yùn)算符
Af (g,w,v)(x,力- g(i - w(x,力,少一 v(x,力) (5)
(同時(shí)對(duì)包含非整數(shù)數(shù)字的場(chǎng)u和v,以及對(duì)影像邊緣的運(yùn)動(dòng)進(jìn)
行必要的修改)。
于是,根據(jù)上面所述,運(yùn)動(dòng)場(chǎng)p可被表述成p=q+pG,即,被表 述成初項(xiàng)和增量項(xiàng)之和。
上面的項(xiàng)R (q)是表示近似誤差的項(xiàng)。
光流的第一項(xiàng)并不單義地確定運(yùn)動(dòng)場(chǎng)。按照Horn和Schunck的 經(jīng)典公式表示,需要增加與運(yùn)動(dòng)場(chǎng)的二階導(dǎo)數(shù)的能量相等的一項(xiàng)。所 述導(dǎo)數(shù)用等于
d2
(6)
的運(yùn)算符H表述,運(yùn)動(dòng)場(chǎng)的二階導(dǎo)數(shù)的能量變成
物,r 口)
16借助適當(dāng)?shù)恼齽t化因子,第二項(xiàng)F2表示運(yùn)動(dòng)場(chǎng)正則性(即,細(xì)
節(jié)"貧乏")。
按照本發(fā)明,除了最低分辨率級(jí)別之外,在所有分辨率級(jí)別,向
待最小化的函數(shù)的兩個(gè)標(biāo)準(zhǔn)項(xiàng)F,和F2增加一個(gè)第三項(xiàng)F3。項(xiàng)F3被用 于保持待估計(jì)的場(chǎng)(處于空間分辨率級(jí)別K-m)和先前計(jì)算的場(chǎng)(處 于級(jí)別K-m-l)之間的相似性。為了量化這樣的相似性,考慮較低分 辨率(級(jí)別K-m-l)的場(chǎng)和當(dāng)前場(chǎng)(處于級(jí)別K-m)之間的差異。 通過(guò)運(yùn)算符B,低通分量可被表示成
其中運(yùn)算符E對(duì)水平場(chǎng)和垂直場(chǎng)濾波和子采樣。對(duì)由初始場(chǎng)pfl
和待計(jì)算的增量場(chǎng)q構(gòu)成的場(chǎng)執(zhí)行該運(yùn)算。 這樣,第三項(xiàng)是
借助適當(dāng)?shù)恼齽t化因子,這樣的第三項(xiàng)是由下級(jí)的分辨率繼承的 約束條件。換句話說(shuō),第三項(xiàng)是級(jí)別之間的正則化項(xiàng)。
由這三項(xiàng)F,, F2和F"按照下面說(shuō)明的算法可以獲得最終的運(yùn)動(dòng)場(chǎng)。
在最低分辨率下,計(jì)算運(yùn)動(dòng)場(chǎng)
+ (10)
其中Z省是初始場(chǎng),q是增量場(chǎng)。而q可通過(guò)下面的(光流)方 程式來(lái)表示
《=argmin^ m "(《)+ W (《)} (11)
X是正則化因子。約束條件g s 表明該分辨率位于分辨率級(jí)別 K-M。
在高于最低分辨率的所有分辨率,即一般級(jí)別K-m下,運(yùn)動(dòng)場(chǎng) 被計(jì)算為其中rf-m是初始場(chǎng),q是增量場(chǎng)。而q可通過(guò)下面的(光流)函 數(shù)來(lái)表示
《=argmin^" {《(9) +巧(《)+ //F3 (g)} (13)
X和n是正則化因子。約束條件^&,表明可在分辨率級(jí)別K-m 得到解答。
方程式(13 )的和的三項(xiàng)Fi ( q ) 、 F2 ( q )和F3 ( q )分另'J表示 近似誤差,運(yùn)動(dòng)場(chǎng)正則性和由下級(jí)的分辨率繼承的約束條件。如果因 子X(jué)較高,那么對(duì)于所得到的運(yùn)動(dòng)場(chǎng),優(yōu)先考慮正則性,即,低的細(xì) 節(jié)內(nèi)容。如果因子n較高,那么優(yōu)先考慮所得到的運(yùn)動(dòng)場(chǎng)相對(duì)于關(guān)于 較低分辨率計(jì)算的運(yùn)動(dòng)場(chǎng)所具有的相似性。
通過(guò)正規(guī)方程求解方程式(13 )
r力"r
義//肌肌0(14)
M/vm—《丄
下面將參考圖4中的流程圖,說(shuō)明運(yùn)動(dòng)場(chǎng)計(jì)算。 在第一步驟(方框100)中,變量m被初始化為M,以便將分 辨率級(jí)別K-m初始化為最低級(jí)別K-M。在級(jí)別K-M,在時(shí)間t和時(shí) 間t+l分別考慮兩個(gè)影像ft和ft+1,并提取相應(yīng)的影像&=/,-"和
隨后通過(guò)使可按照方程式(10)和(11)表述的函數(shù)最小化,計(jì) 算運(yùn)動(dòng)場(chǎng)PK-M (方框200)。
隨后升高一個(gè)級(jí)別,上到級(jí)別m-l,并對(duì)于新的分辨率級(jí)別提取 影像(方框300 )。
隨后通過(guò)使可通過(guò)方程式(12)和(13)表述的函數(shù)最小化,計(jì) 算運(yùn)動(dòng)場(chǎng)Pk-m (方框400)
隨后檢查是否達(dá)到最高級(jí)別(m=0)(方框500)。如果達(dá)到最 高級(jí)別,那么該過(guò)程結(jié)束。如果未達(dá)到最高級(jí)別,那么通過(guò)上升一個(gè) 級(jí)別,從方框300重新開(kāi)始該過(guò)程。
在結(jié)束該過(guò)程時(shí),獲得最終的運(yùn)動(dòng)場(chǎng)Pk。
權(quán)利要求
1、 一種可伸縮視頻編碼方法,包括估計(jì)影像序列(fn f2,..., fT)的運(yùn)動(dòng)場(chǎng)(p)的步驟,所述影像序列可用包含在最低分辨率級(jí)別(K-M)和最高分辨率級(jí)別(K)之間的多個(gè)空間分辨率級(jí)別(K,..., K-m,…,K-M)表示,其特征在于,估計(jì)運(yùn)動(dòng)場(chǎng)的步驟包括借助函數(shù)的最小化,計(jì)算每 個(gè)所述空間分辨率級(jí)別的運(yùn)動(dòng)場(chǎng)的步驟,其中,對(duì)于不同于最低空間 分辨率級(jí)別的每個(gè)級(jí)別,所述函數(shù)包括級(jí)別之間的正則化項(xiàng),所述正 則化項(xiàng)表示關(guān)于所考慮級(jí)別的所述最小化的解答與關(guān)于比所考慮級(jí) 別低一級(jí)的空間分辨率級(jí)別的所述最小化的解答之間的差異。
2、 按照權(quán)利要求1所述的方法,其中從最低空間分辨率級(jí)別到 最高空間分辨率級(jí)別順序地執(zhí)行計(jì)算不同于最低空間分辨率級(jí)別的 每個(gè)級(jí)別的運(yùn)動(dòng)場(chǎng)的步驟。
3、 按照權(quán)利要求1或2所述的方法,其中對(duì)于每個(gè)空間分辨率 級(jí)別,所述運(yùn)動(dòng)場(chǎng)包括初始運(yùn)動(dòng)場(chǎng)(p°)和增量運(yùn)動(dòng)場(chǎng)(q),計(jì)算 運(yùn)動(dòng)場(chǎng)(p)的所述步驟包括計(jì)算增量運(yùn)動(dòng)場(chǎng)(q),并將增量運(yùn)動(dòng)場(chǎng)(q)與初始運(yùn)動(dòng)場(chǎng)(pQ)相加。
4、 按照權(quán)利要求3所述的方法,其中對(duì)于不同于最低空間分辨 率級(jí)別的一般空間分辨率級(jí)別K-m,各個(gè)級(jí)別之間的所述正則化項(xiàng)可 被表示成其中E是濾波和子采樣運(yùn)算符,p。是初始運(yùn)動(dòng)場(chǎng),q是增量運(yùn)動(dòng) 場(chǎng),具有坐標(biāo)x, y的一般點(diǎn)的所述增量運(yùn)動(dòng)場(chǎng)q適合于表示成其中Su和是增量運(yùn)動(dòng)場(chǎng)的水平分量和垂直分量。
5、 按照權(quán)利要求4所述的方法,其中所述濾波和子釆樣運(yùn)算符 E是小波變換的低通分量。
6、 按照權(quán)利要求4所述的方法,其中對(duì)于不同于最低空間分辨 率級(jí)別的每個(gè)級(jí)別,所述最小化可被表示成<formula>formula see original document page 3</formula>其中R (q)是表示近似誤差的項(xiàng),F(xiàn)2 (q)是表示運(yùn)動(dòng)場(chǎng)正則 性的項(xiàng),X和n是兩個(gè)正則化因子。
7、 按照權(quán)利要求6所述的方法,其中對(duì)于所述最小空間分辨率 級(jí)別,所述最小化可被表示成<formula>formula see original document page 3</formula>
8、 按照權(quán)利要求6或7所述的方法,其中考慮到一般分辨率級(jí) 別K-m上的后續(xù)時(shí)刻t和t+l的兩個(gè)影像gt和gw,表示近似誤差的 項(xiàng)可被表示成<formula>formula see original document page 3</formula>其中uo和v。是初始運(yùn)動(dòng)場(chǎng)的水平分量和垂直分量, Ak,是由包含影像gt+1的空間導(dǎo)數(shù)的兩個(gè)對(duì)角子矩陣構(gòu)成的矩陣,表示成J"-k"g(gS) ^g(g化))],M是適合于按照下述方式使一般影像g失真的運(yùn)動(dòng)運(yùn)算符
9、 按照權(quán)利要求6或7所述的方法,其中表示運(yùn)動(dòng)場(chǎng)正則性的項(xiàng)可被表示成F,WHi詢i2,其中H是二階導(dǎo)數(shù)運(yùn)算符,所述二階導(dǎo)數(shù)運(yùn)算符可被表示成
10、 按照任意一個(gè)前述權(quán)利要求所述的方法,還包括在計(jì)算運(yùn)動(dòng)場(chǎng)的步驟之前,從位于最高空間分辨率級(jí)別的影像開(kāi)始,建立位于不 同空間分辨率級(jí)別的影像的步驟。
11、 按照權(quán)利要求10所述的方法,其中對(duì)于每個(gè)空間分辨率級(jí)別,建立影像的步驟包括對(duì)位于最高分辨率級(jí)別的影像進(jìn)行濾波和子采樣(10-40),所述濾波和子采樣步驟被執(zhí)行多次,其次數(shù)與使所考 慮的空間分辨率級(jí)別和最高空間分辨率級(jí)別分開(kāi)的級(jí)數(shù)相等。
12、 按照權(quán)利要求11所述的方法,其中濾波和子采樣步驟包括 下述步驟-沿各行低通濾波(10); -對(duì)各列進(jìn)行子采樣(20); -沿各列低通濾波(30);和 -對(duì)各行進(jìn)行子采樣(40)。
13、 按照任意一個(gè)前述權(quán)利要求所述的方法,其中可通過(guò)光流方 程式表達(dá)所述函數(shù)。
14、 一種傳送編碼的視頻圖像的方法,包括下述步驟按照權(quán)利 要求l-13任意之一所述的方法對(duì)視頻圖像編碼,傳送編碼的圖像,接 收編碼的圖像和對(duì)接收的編碼圖像解碼。
15、 按照權(quán)利要求14所述的方法,其中解碼步驟包括對(duì)所述編 碼的視頻圖像應(yīng)用至少一次小波變換,以便獲得處于所需分辨率級(jí)別 的影像序列。
16、 一種計(jì)算機(jī)程序,所述計(jì)算機(jī)程序可被直接裝入數(shù)據(jù)處理系 統(tǒng)的存儲(chǔ)器中,并且當(dāng)運(yùn)行時(shí),適合于實(shí)現(xiàn)按照權(quán)利要求1-15任意之 一所述的方法。
17、 一種系統(tǒng),所述系統(tǒng)包含執(zhí)行按照權(quán)利要求1-15任意之一 所述方法的步驟的裝置。
全文摘要
一種可伸縮視頻編碼的運(yùn)動(dòng)估計(jì)方法,包括估計(jì)影像序列的運(yùn)動(dòng)場(chǎng)p的步驟,所述影像序列可用多個(gè)空間分辨率級(jí)別(K,…,K-m,…,K-M)表示,所述方法包括計(jì)算最低分辨率級(jí)別(m=K-M)的運(yùn)動(dòng)場(chǎng)p<sub>K-M</sub>(200),在達(dá)到最大分辨率級(jí)別(K)之前,重復(fù)下述步驟上升一個(gè)分辨率級(jí)別(m=m-1);提取該分辨率級(jí)別的影像(300);和計(jì)算該分辨率級(jí)別的運(yùn)動(dòng)場(chǎng)p<sub>K-m</sub>(400)。通過(guò)光流方程式計(jì)算運(yùn)動(dòng)場(chǎng),對(duì)于不同于最低分辨率級(jí)別的每個(gè)較高級(jí)別,所述光流方程式包含各個(gè)級(jí)別之間的正則化因子,所述正則化因子指出所考慮級(jí)別的解答和低一級(jí)的分辨率級(jí)別的解答之間的差異。正則化因子的高低不同的值意味在之后的處理迭代期間,在所考慮的分辨率下分量的程度不同的相關(guān)變化。于是,能夠使解答或多或少地約束于某些空間級(jí)別,以便根據(jù)場(chǎng)景內(nèi)容和可伸縮性需要,使性能最大化。
文檔編號(hào)H04N7/26GK101313579SQ200580052112
公開(kāi)日2008年11月26日 申請(qǐng)日期2005年9月29日 優(yōu)先權(quán)日2005年9月29日
發(fā)明者G·弗蘭希尼, G·科達(dá)拉, S·萊普索伊 申請(qǐng)人:意大利電信股份公司