專利名稱:用于可縮放圖像代碼轉(zhuǎn)換的方法
技術(shù)領域:
本發(fā)明通常涉及圖像和視頻編碼,并具體而言涉及代碼轉(zhuǎn)換包括感興趣區(qū)域的圖像。
背景技術(shù):
視頻監(jiān)視、蜂窩電話機、數(shù)碼相機、打印機、掃描儀、傳真機、復印機、醫(yī)療成像、衛(wèi)星成像、因特網(wǎng)、以及復合文檔已經(jīng)增加了對于圖像和視頻應用的要求。但是,由于受限制的資源,諸如帶寬、存儲器和處理器,高質(zhì)量圖像常常是不可能的。圖像的質(zhì)量取決于圖像中像素的數(shù)量,以及分配給每個像素的位數(shù)。例如,對于每個像素24位的1024×1024像素圖像將是25Mb的高質(zhì)量彩色圖像,而每像素1位的10×10像素圖像將是100比特的低質(zhì)量黑白縮略圖。
一種解決方案將圖像中的感興趣區(qū)域(ROI)與背景(BG)區(qū)別開來。比BG使用更多的位來編碼ROI。通過給ROI分配比BG更多的位,能夠減少用于編碼圖像的比特總數(shù)而不減少被編碼圖像中ROI的感覺的分辨率以及質(zhì)量。較少的比特減少了所需的資源。
一種ROI編碼方法選擇性地按比例增加用于ROI的小波變換系數(shù),參見Atsumi等人的“Loss/lossless region-of-interest imagecoding based on set partitioning in hierarchical trees”,IEEEProcessing of ICIP,1998年10月。還以較高的優(yōu)先級傳送所述ROI。但是,根據(jù)縮放值,ROI會看上去混合到所述BG中。所以,解碼器還需要形狀信息來區(qū)分ROI和BG。
JPEG 2000標準定義了用于ROI編碼的最大移位(max-shift)方法,參見ISO/IEC 15444-1,“Information technology-JPEG 2000image coding system-Part 1Core coding system”,2000年第一版。JPEG 2000標準使用色彩變換、量化、小波變換、逐級位-平面編碼、以及熵編碼。經(jīng)編碼的圖像作為數(shù)據(jù)包的分層的流而傳送。利用JPEG2000,在編碼期間選擇輸出圖像的大小和質(zhì)量。最大移位方法通過將ROI縮放到非重疊的各位平面中,從背景中分離出ROI,參見Skodras等人的“The JPEG 2000 still image compression standard”,IEEESignal Processing Magazine,2001年9月。所述縮放值足夠大以保證與ROI相關(guān)的最小系數(shù)大于所述背景的最大系數(shù)。當解碼器接收該縮放值時,解碼器通過它們的幅度來識別ROI系數(shù)。最大移位方法使得能夠編碼具有任意的形狀的ROI而不用明確發(fā)送ROI的形狀信息到所述解碼器。但是,由于需要用于定義ROI邊界的額外代碼塊,最大移位編碼增加了開銷。
另一種方法基于逐個平面移位比特來適配ROI的相對重要性,參見Wang等人的“Bitplane-by-bitplane shift(BbBShift)-Asuggestion for JPEG 2000 Region of Interest image coding”,IEEESignal Processing Letters,第9卷,NO.5,2002年5月。但是,該BbBShift方法與JPEG 2000標準不兼容。
另一種方法稱作“partial significant bit-planes shift”(PSBShift),參見Liu等人的“A new JPEG 2000 region-of-interestimage coding methodpartial significant bitplanes shift”,IEEE SignalProcessing Letters,第10卷,NO.2,2003年2月。該PSBShift方法致力于保持ROI的高質(zhì)量。該PSBShift方法也與JPEG 2000標準不兼容。
所有的上述ROI編碼方法使用靜態(tài)編碼。也就是,在編碼期間定義所述ROI。當僅僅在解碼期間可獲得ROI信息時這是一個問題。例如,觀眾期望指定ROI。如果通過外部源動態(tài)地提供ROI信息,這也是一個問題。例如,外部處理,諸如對象跟蹤,在解碼之前分析圖像,并確定該ROI。
Rosenbaum等人描述了一種動態(tài)ROI編碼方法,參見“Flexible,dynamic and compliant region of interest coding in JPEG 2000”,IEEE Processing of ICIP,紐約羅徹斯特,2002年9月。該方法在交互環(huán)境中處理動態(tài)ROI信息。該方法使用如JPEG 2000標準所定義的區(qū)域/層機制,以在每一層中安排區(qū)域優(yōu)先級。該方法動態(tài)地插入各層。各ROI數(shù)據(jù)包保持在同一層中,而其它數(shù)據(jù)包上移一層。但是,動態(tài)層插入要求記錄數(shù)據(jù)包首部。這需要速率失真重新計算,而這對于實時圖像傳輸應用來說是不希望的特征。而且,該方法與所述JPEG2000標準兼容。
因此,由于現(xiàn)有技術(shù)編碼方法的這些問題,希望提供一種新的編碼機制,這種機制避免重新編碼數(shù)據(jù)包首部以及使ROI編碼變得靈活和動態(tài),并且具有低的計算復雜度。
發(fā)明內(nèi)容
一種方法代碼轉(zhuǎn)換編碼輸入比特流形式的圖像或視頻。數(shù)據(jù)包形式的輸入比特流包括質(zhì)量層,每個質(zhì)量層包括分辨率等級,每個分辨率等級包括分量,每個分量包括區(qū)域(precinct),以及每個區(qū)域包括數(shù)據(jù)包分割位置、首部長度和主體長度。
部分解碼所述輸入比特流以獲得被編碼的輸入比特流的索引結(jié)構(gòu)。規(guī)定圖像中感興趣區(qū)域的坐標,以及定義逐級參數(shù)。
然后根據(jù)所述結(jié)構(gòu)、坐標和逐級參數(shù)編碼所述部分解碼的輸入比特流以獲得編碼的輸出比特流。
在代碼轉(zhuǎn)換期間,根據(jù)逐級參數(shù)選擇性地將輸入比特流中的感興趣區(qū)域和背景數(shù)據(jù)包轉(zhuǎn)換成輸出比特流。例如,沒有背景數(shù)據(jù)包包括在輸出比特流中,或者只有感興趣區(qū)域和來自低質(zhì)量層的背景數(shù)據(jù)包。
圖1是根據(jù)本發(fā)明用于代碼轉(zhuǎn)換圖像的系統(tǒng)和方法的方框圖;圖2是根據(jù)本發(fā)明的分層比特流的結(jié)構(gòu)的方框圖;圖3是根據(jù)本發(fā)明的包括感興趣區(qū)域的圖像的方框圖;圖4是根據(jù)本發(fā)明要被代碼轉(zhuǎn)換的分層數(shù)據(jù)包的方框圖;
圖5是根據(jù)本發(fā)明的輸入比特流的方框圖;圖6是根據(jù)本發(fā)明的分辨率等級的方框圖;圖7是對應于圖6所示分辨率等級的比特流的方框圖;圖8是根據(jù)本發(fā)明要被代碼轉(zhuǎn)換的圖像的方框圖;以及圖9是根據(jù)本發(fā)明的輸出比特流的方框圖。
具體實施例方式
圖1所示為根據(jù)本發(fā)明用于代碼轉(zhuǎn)換包括感興趣區(qū)域(ROI)的圖像的系統(tǒng)和方法。所述ROI是圖像中的矩形區(qū)域。系統(tǒng)的輸入是編碼的比特流101,例如JPEG 2000比特流。所述比特流是數(shù)據(jù)包序列的形式。能夠使用有損或無損技術(shù)來壓縮這些圖像。
在編碼比特流101期間,在JPEG 2000標準中應用小波變換將所述圖像分析為四個子帶圖像。該子帶圖像包括描述子帶圖像的不同空間頻率特征的系數(shù)。最低頻率的子帶圖像被進一步分解成四個更小的子帶。根據(jù)需要,能夠重復這種處理,以達到期望的圖像分辨率。分割每個子帶圖像成非重疊的矩形塊,稱之為“代碼塊”。每個代碼塊被獨立編碼成最終的編碼比特流101。
為了有效地組織比特流,將各代碼塊分組到每個分辨率等級內(nèi)的“區(qū)域”。區(qū)域分割使得更容易訪問對應于圖像的特定空間區(qū)域的小波系數(shù)。每個區(qū)域產(chǎn)生比特流中的一個數(shù)據(jù)包。為了使得能夠SNR逐級改善,在多個層上分布包含在一個數(shù)據(jù)包中的信息。每一層包含來自所考慮區(qū)域的一定量的數(shù)據(jù)。
為了從比特流中的每一質(zhì)量層以及每一分辨率等級提取期望的數(shù)據(jù)包,本發(fā)明提供了分析器110,用來部分解碼數(shù)據(jù)包首部信息,而不對代碼塊執(zhí)行算術(shù)解碼。這允許進行ROI代碼轉(zhuǎn)換120從而以最小的計算復雜度產(chǎn)生編碼的輸出比特流104。
如圖2所示,分析器110使用標記樹解碼器來獲得所述輸入比特流的分級數(shù)據(jù)結(jié)構(gòu)200。
部分解碼110比特流101中的數(shù)據(jù)包來獲得結(jié)構(gòu)200。該分級結(jié)構(gòu)包括質(zhì)量層(Qlayer)201,每一層包括分辨率等級(Rlevel)202,每一分辨率等級包括分量203,每一分量包括區(qū)域204,以及每一區(qū)域包括數(shù)據(jù)包分割位置205、首部長度206、和主體長度207。各索引編號使得能夠直接訪問區(qū)域信息205-207。
由于JPEG 2000比特流的復雜體系結(jié)構(gòu),因此訪問每一區(qū)域是高代價的。所以,設計數(shù)據(jù)結(jié)構(gòu)200,以便能夠通過索引編號隨機地和直接地訪問該數(shù)據(jù)結(jié)構(gòu)。
如圖1所示,還例如通過用戶或外部源來規(guī)定和定義ROI坐標112和逐級參數(shù)113。
傳送所述結(jié)構(gòu)200、ROI坐標112、以及逐級參數(shù)113到代碼轉(zhuǎn)換器120。與現(xiàn)有技術(shù)不同,在代碼轉(zhuǎn)換期間而不是在編碼期間規(guī)定ROI坐標112。例如,用戶標記ROI,或者通過其他技術(shù)諸如對象或模式識別提供坐標。識別者定位所述圖像中的對象或模式,并在該對象周圍擬合ROI以獲得坐標。
ROI坐標可能不匹配區(qū)域位置。在這種情況下,代碼轉(zhuǎn)換120向外舍入所述ROI坐標到最近的區(qū)域邊界。即,使矩形的ROI更大以適合所述區(qū)域定義的邊界。在代碼轉(zhuǎn)換之前用戶還能夠定義所述逐級參數(shù),以指示是否能夠刪除背景(BG),或者指示對于BG和ROI有多少需要代碼轉(zhuǎn)換的質(zhì)量等級。以下描述逐級參數(shù)的使用。
代碼轉(zhuǎn)換器使用結(jié)構(gòu)信息200和坐標112來識別輸入比特流101中的BG和ROI數(shù)據(jù)包。根據(jù)ROI坐標112和逐級參數(shù)113將各數(shù)據(jù)包重新組織成編碼輸出比特流104的數(shù)據(jù)包。最終的編碼輸出比特流104完全符合JPEG 2000標準。
圖3所示為包括ROI 302的實例圖像301,以及剩余的背景(BG)303。所述ROI的坐標相對于原點(O)、以及X軸和Y軸來定義。
如圖4所示,圖像301被編碼成比特流101的五個“質(zhì)量”層411-415的BG數(shù)據(jù)包401和ROI數(shù)據(jù)包402。
圖5所示為對于單一分辨率等級和一個分量,比特流101的五個層411-415中的ROI和BG數(shù)據(jù)包采用所謂“層-分辨率-分量-位置(LRCP)”系列的配置。
圖6所示為具有三個等級601-603的分辨率圖600。一個區(qū)域以具體的分辨率等級描述圖像中的一個空間區(qū)域。在根據(jù)JPEG 2000的分解中,每一方向的區(qū)域大小是2的冪。高分辨率等級的圖像區(qū)域通過除以2而被傳到下一較低的分辨率等級。對于每一分辨率等級重復這種處理。
圖7所示為采用LRCP系列的相應比特流700。從圖7可以知道所產(chǎn)生的數(shù)據(jù)包包含有關(guān)給定分辨率等級的圖像的具體區(qū)域的信息。
為了提取期望的ROI并為BG和ROI規(guī)定可縮放的質(zhì)量,代碼轉(zhuǎn)換器120使用兩個逐級參數(shù)m和n。參數(shù)m規(guī)定BG 303的期望質(zhì)量,以及參數(shù)n規(guī)定ROI 302的期望質(zhì)量。參數(shù)m和n具有以下約束條件對于ROI,0≤m<n≤最高質(zhì)量,否則,對于背景,0≤m≤最高質(zhì)量,以及對于無背景,m=0。
在上述最后的約束條件下,整個背景被轉(zhuǎn)換成空數(shù)據(jù)包,而僅僅代碼轉(zhuǎn)換ROI數(shù)據(jù)包。一個空數(shù)據(jù)包具有一字節(jié)的數(shù)據(jù)包首部,其第一比特設置為零,無有效載荷。這種情況大大減少了已代碼轉(zhuǎn)換的輸出比特流的帶寬需求。
對于ROI數(shù)據(jù)包,代碼轉(zhuǎn)換器120從輸入比特流中僅僅提取最低質(zhì)量層1到質(zhì)量層n的ROI數(shù)據(jù)包,并在輸出比特流中編碼這些數(shù)據(jù)包。來自大于n的層的ROI數(shù)據(jù)包被轉(zhuǎn)換成編碼的輸出比特流中的空(EPT)數(shù)據(jù)包。
對于BG數(shù)據(jù)包,如果m=0,那么將所有的BG數(shù)據(jù)包轉(zhuǎn)換成空數(shù)據(jù)包。如果m>0,那么代碼轉(zhuǎn)換器120從輸入比特流中提取最低質(zhì)量層1到質(zhì)量層m的BG數(shù)據(jù)包,并在輸出比特流中編碼這些數(shù)據(jù)包。大于m的層上的BG數(shù)據(jù)包被全部轉(zhuǎn)換成輸出比特流中的空數(shù)據(jù)包。
通過參數(shù)m和n的不同組合,可為ROI和BG獲得各種質(zhì)量逐級結(jié)果。用戶能夠利用該特征在視覺要求和通信帶寬容量之間進行調(diào)節(jié)。
圖8所示為要利用逐級參數(shù)m=1和n=4代碼轉(zhuǎn)換的實例圖像800。圖像800具有空數(shù)據(jù)包801、ROI數(shù)據(jù)包802、和BG數(shù)據(jù)包803。
圖9所示為相應輸出比特流900的數(shù)據(jù)包。
發(fā)明的有益效果本發(fā)明使得能夠以任何數(shù)量的不同方式從編碼的比特流中恢復具有任何期望空間分辨率和圖像質(zhì)量的圖像。根據(jù)本發(fā)明的代碼轉(zhuǎn)換是自適應和可縮放的。本發(fā)明能夠為感興趣區(qū)域保留高質(zhì)量和高分辨率。圖像的剩余部分能夠被降低質(zhì)量或被完全地刪除以獲得期望的帶寬。當與現(xiàn)有技術(shù)的方法相比時,根據(jù)本發(fā)明的方法具有較低的復雜度和增加的效率。
不像現(xiàn)有技術(shù)那樣,本發(fā)明并不完全解碼和再編碼數(shù)據(jù)包。本發(fā)明選擇性地刪除數(shù)據(jù)包或使用空數(shù)據(jù)包來有效地增加ROI的優(yōu)先級,這使得能夠進行實時代碼轉(zhuǎn)換應用。
盡管已經(jīng)通過優(yōu)選實施例的一些實例描述了本發(fā)明,但是應該明白的是在本發(fā)明的精神和范圍內(nèi)可以作出各種其他的調(diào)整和修改。所以,附屬權(quán)利要求書的目的是覆蓋本發(fā)明真實精神和范圍內(nèi)的所有這些變型和修改。
權(quán)利要求
1.一種用于可縮放圖像代碼轉(zhuǎn)換的方法,包括部分解碼圖像的編碼的輸入比特流以獲得該編碼的輸入比特流的結(jié)構(gòu);規(guī)定該圖像中感興趣區(qū)域的坐標;定義逐級參數(shù);以及根據(jù)所述結(jié)構(gòu)、坐標以及逐級參數(shù)編碼所述部分解碼的輸入比特流,作為編碼的輸出比特流。
2.根據(jù)權(quán)利要求1所述的方法,其中所述編碼的輸入比特流和編碼的輸出比特流都是JPEG 2000比特流。
3.根據(jù)權(quán)利要求1所述的方法,其中所述編碼的輸入比特流包括多個質(zhì)量層,每個質(zhì)量層包括多個分辨率等級,每個分辨率等級包括多個分量,每個分量包括多個區(qū)域,以及每個區(qū)域包括數(shù)據(jù)包分割位置、首部長度和主體長度。
4.根據(jù)權(quán)利要求3所述的方法,還包括使用索引編號索引所述區(qū)域。
5.根據(jù)權(quán)利要求4所述的方法,還包括在所述編碼期間使用所述索引編號隨機地訪問所述結(jié)構(gòu)。
6.根據(jù)權(quán)利要求4所述的方法,還包括在所述編碼期間使用所述索引編號直接訪問所述結(jié)構(gòu)。
7.根據(jù)權(quán)利要求1所述的方法,還包括在代碼轉(zhuǎn)換時由用戶定義所述坐標。
8.根據(jù)權(quán)利要求1所述的方法,還包括在代碼轉(zhuǎn)換時通過外部源定義所述坐標。
9.根據(jù)權(quán)利要求8所述的方法,其中所述外部源使用對象識別來確定所述感興趣區(qū)域的參數(shù)。
10.根據(jù)權(quán)利要求8所述的方法,其中所述外部源使用模式識別來確定所述感興趣區(qū)域的參數(shù)。
11.根據(jù)權(quán)利要求3所述的方法,還包括向外舍入所述參數(shù)到所述多個區(qū)域的最近邊界。
12.根據(jù)權(quán)利要求1所述的方法,還包括在代碼轉(zhuǎn)換時由用戶規(guī)定所述逐級參數(shù)。
13.根據(jù)權(quán)利要求3所述的方法,其中逐級參數(shù)m規(guī)定所述圖像的背景的質(zhì)量,以及參數(shù)n規(guī)定所述感興趣區(qū)域的質(zhì)量。
14.根據(jù)權(quán)利要求13所述的方法,還包括根據(jù)以下條件約束所述逐級參數(shù)m和n對于所述感興趣區(qū)域,0≤m<n≤最高質(zhì)量,否則對于所述背景,0≤m≤最高質(zhì)量,以及對于無背景,m=0。
15.根據(jù)權(quán)利要求14所述的方法,其中所述編碼的輸入比特流包括感興趣區(qū)域數(shù)據(jù)包和背景數(shù)據(jù)包,并且該方法還包括如果m=0,則將所有背景數(shù)據(jù)包轉(zhuǎn)換成所述編碼的輸出比特流中的空數(shù)據(jù)包,其中一個空數(shù)據(jù)包具有一字節(jié)的數(shù)據(jù)包首部,其第一比特設置為零,無有效載荷。
16.根據(jù)權(quán)利要求15所述的方法,還包括對于感興趣區(qū)域數(shù)據(jù)包,僅僅提取最低質(zhì)量層1到質(zhì)量層n的感興趣區(qū)域數(shù)據(jù)包,在所述編碼的輸出比特流中編碼所提取的感興趣區(qū)域數(shù)據(jù)包,并將所有其他感興趣區(qū)域數(shù)據(jù)包轉(zhuǎn)換成所述編碼的輸出比特流中的空數(shù)據(jù)包;以及對于背景數(shù)據(jù)包,僅僅提取最低質(zhì)量層1到質(zhì)量層m的背景數(shù)據(jù)包,在所述編碼的輸出比特流中編碼所提取的背景數(shù)據(jù)包,并將所有其他背景數(shù)據(jù)包轉(zhuǎn)換成該編碼的輸出比特流中的空數(shù)據(jù)包。
17.根據(jù)權(quán)利要求1所述的方法,其中所述編碼的輸入比特流是包括多個圖像的視頻,為每一圖像執(zhí)行所述解碼、規(guī)定、定義以及編碼步驟。
18.根據(jù)權(quán)利要求1所述的方法,其中所述編碼的輸入比特流包括多個數(shù)據(jù)包,僅對這些數(shù)據(jù)包的首部應用所述解碼。
19.根據(jù)權(quán)利要求1所述的方法,其中規(guī)定所述逐級參數(shù)以符合期望的圖像質(zhì)量和帶寬使用。
全文摘要
一種方法代碼轉(zhuǎn)換編碼的輸入比特流形式的圖像。所述輸入比特流包括質(zhì)量層,每一質(zhì)量層包括分辨率等級,每個分辨率等級包括分量,每個分量包括區(qū)域,以及每個區(qū)域包括數(shù)據(jù)包分割位置、首部長度和主體長度。部分解碼所述輸入比特流以獲得編碼的輸入比特流的結(jié)構(gòu)。規(guī)定圖像中感興趣區(qū)域的坐標,以及定義逐級參數(shù)。然后根據(jù)所述結(jié)構(gòu)、坐標以及逐級參數(shù)來編碼所述部分解碼的輸入比特流以獲得編碼的輸出比特流。
文檔編號H04N7/30GK1784014SQ20051011930
公開日2006年6月7日 申請日期2005年11月3日 優(yōu)先權(quán)日2004年12月2日
發(fā)明者孔浩松, 安東尼·韋特羅, 秦淑彥, 桑原直樹 申請人:三菱電機株式會社