專利名稱:通過使用大型變換單元編碼和解碼圖像的方法和設備的制作方法
技術領域:
示例性實施例涉及一種編碼和解碼圖像的方法和設備,更具體地說,涉及一種通過將像素域的圖像變換為頻域的系數來對圖像進行編碼和解碼的方法和設備。
背景技術:
為了執(zhí)行圖像壓縮,多數圖像編碼和解碼方法和設備通過將像素域的圖像變換為頻域的系數來對圖像編碼。作為頻率變換技術之一的離散余弦變換(DCT)是廣泛使用于圖像和聲音壓縮中的公知技術。使用DCT的圖像編碼方法包括對像素域的圖像執(zhí)行DCT,生成離散余弦系數,量化生成的離散余弦系數,對生成的離散余弦系數執(zhí)行熵編碼。
發(fā)明內容
技術方案示例性實施例提供一種通過使用更有效的離散余弦變換(DCT)來對圖像進行編碼和解碼的方法和設備,還提供一種其上記錄了用于執(zhí)行所述方法的程序的計算機可讀記錄介質。有益效果根據一個或多個示例性實施例,可以將變換單元設置為比預測單元大,并執(zhí)行 DCT,從而可有效地對圖像進行壓縮和編碼。
通過參照附圖詳細描述本發(fā)明的示例性實施例,示例性實施例的以上和其它特點將變得更清楚,其中圖1是根據示例性實施例的圖像編碼設備的框圖;圖2是根據另一示例性實施例的圖像解碼設備的示圖;圖3是根據另一示例性實施例的層次編碼單元;圖4是根據另一示例性實施例的基于編碼單元的圖像編碼器的框圖;圖5是根據另一示例性實施例的基于編碼單元的圖像解碼器的框圖;圖6示出根據另一示例性實施例的最大編碼單元、次級編碼單元和預測單元;圖7是根據另一示例性實施例的編碼單元和變換單元的示圖;圖8A和圖8B示出根據另一示例性實施例的最大編碼單元、預測單元和變換單元的劃分形狀;圖9是根據另一示例性實施例的圖像編碼設備的框圖;圖10是變換器的示圖;圖IlA到圖IlC示出根據另一示例性實施例的變換單元的類型;圖12示出根據另一示例性實施例的不同變換單元;圖13是根據另一示例性實施例的圖像解碼設備的框圖14是根據示例性實施例的圖像編碼方法的流程圖;圖15是根據另一示例性實施例的圖像解碼方法的流程圖。最佳實施方式根據示例性實施例的一方面,提供了一種圖像編碼方法,包括以下操作通過選擇多個相鄰預測單元來設置變換單元;根據變換單元將所述多個相鄰預測單元變換為頻域, 并生成頻率分量系數;量化頻率分量系數;對量化的頻率分量系數執(zhí)行熵編碼。可基于指示大小縮減的等級的深度來執(zhí)行設置變換單元的操作,所述大小縮減從當前片段或當前圖片的最大編碼單元到包括所述多個相鄰預測單元的次級編碼單元逐級執(zhí)行。可通過選擇根據相同預測模式執(zhí)行預測的多個相鄰預測單元來執(zhí)行設置變換單元的操作。相同預測模式可以是幀間預測模式或幀內預測模式。圖像編碼方法還可包括通過對不同的變換單元重復執(zhí)行上述操作來設置最佳變換單元的操作,其中,上述操作包括以下操作通過選擇多個相鄰預測單元來設置變換單元,根據變換單元將所述多個相鄰預測單元變換為頻域并生成頻率分量系數,量化頻率分量系數并對量化的頻率分量系數執(zhí)行熵編碼。根據示例性實施例的另一方面,提供了一種圖像編碼設備,包括變換器,通過使用多個相鄰預測單元來設置變換單元,根據變換單元將所述多個相鄰預測單元變換為頻域并生成頻率分量系數;量化單元,量化頻率分量系數;熵編碼單元,對量化的頻率分量系數執(zhí)行熵編碼。根據示例性實施例的另一方面,提供了一種圖像解碼方法,包括以下操作根據變換單元對通過被變換到頻域而生成的頻率分量系數進行熵解碼;反量化頻率分量系數;將頻率分量系數反變換為像素域,并重構包括在變換單元中的多個相鄰預測單元。根據示例性實施例的另一方面,提供了一種圖像解碼設備,包括熵解碼器,根據變換單元對通過被變換到頻域而生成的頻率分量系數進行熵解碼的;反量化單元,反量化頻率分量系數;反變換器,將頻率分量系數反變換為像素域,并重構包括在變換單元中的多個相鄰預測單元。根據示例性實施例的另一方面,提供了一種記錄了用于執(zhí)行圖像編碼和解碼方法的計算機可讀記錄介質。
具體實施例方式在下文,將參照附圖詳細描述示例性實施例。在示例性實施例中,根據上下文,“單元”可表示或可不表示單元的大小,“圖像”可表示視頻的靜止圖像或運動圖像(即,視頻本身)。圖1是根據示例性實施例的用于編碼圖像的設備100的框圖。參照圖1,設備100包括最大編碼單元劃分單元110、編碼深度確定單元120、圖像數據編碼器130以及編碼信息編碼器140。最大編碼單元劃分單元110可基于作為最大大小的編碼單元的最大編碼單元劃分當前圖片或片段。也就是說,最大編碼單元劃分單元110可劃分當前圖片或片段以獲得
5至少一個最大編碼單元。根據示例性實施例,可使用最大編碼單元和深度來表示編碼單元。如上所述,最大編碼單元指示當前圖片的編碼單元中的具有最大大小的編碼單元,深度指示通過層次地減小編碼單元而獲得的次級編碼單元的大小。隨著深度增加,編碼單元可在大小上從最大編碼單元減小到最小編碼單元,其中,最大編碼單元的深度被定義為最小深度,最小編碼單元的深度被定義為最大深度。由于編碼單元的大小隨著深度增加從最大編碼單元減小,因此第k深度的次級編碼單元可包括多個第(k+n) (k和η是等于或大于1的整數)深度的次級編碼單元。根據將要編碼的圖片的大小的增加,以更大的編碼單元對圖像編碼可得到更高的圖像壓縮率。然而,如果固定采用更大的編碼單元,則考慮到連續(xù)變化的圖像特征的因素, 不能高效地編碼圖像。例如,當對諸如大?;蛱炜盏钠交瑓^(qū)域進行編碼時,編碼單元越大,壓縮率就會越增加。然而,當對諸如人物或建筑物的復雜區(qū)域進行編碼時,編碼單元越小,壓縮率就會越增加。因此,根據示例性實施例,對每個圖片或片段設置不同最大圖像編碼單元和不同最大深度。由于最大深度表示編碼單元可減小的倍數的最大數量,因此可根據最大深度不同地設置包括在最大圖像編碼單元中的每個最小編碼單元的大小。編碼深度確定單元120確定最大深度??苫谒俾适д?R-D)成本的計算來確定最大深度??蔀槊總€圖片或片段或每個最大編碼單元不同地確定最大深度。確定的最大深度被提供到編碼信息編碼器140,根據最大編碼單元的圖像數據被提供到圖像數據編碼器 130。最大深度表示可包括在最大編碼單元中的具有最小大小的編碼單元(即最小編碼單元)。換句話說,最小編碼單元可被劃分為根據不同深度的具有不同大小的次級編碼單元。稍后參照圖8Α到圖8Β對此詳細描述。此外,可基于具有不同大小的處理單元預測或變換包括在最大編碼單元中的具有不同大小的次級編碼單元。換句話說,設備100可基于具有不同大小和不同形狀的處理單元執(zhí)行用于圖像編碼的多種處理操作。為了對圖像數據進行編碼,執(zhí)行諸如預測、變換和熵編碼的處理操作,其中,具有相同大小的處理單元可用于每個操作,或者具有不同大小的處理單元可用于每個操作。例如,設備100可選擇與編碼單元不同的處理單元來預測所述編碼單元。當編碼單元的大小是2ΝΧ2Ν(其中N是正整數)時,用于預測的處理單元可以是 2ΝΧ 2Ν、2ΝΧΝ、ΝΧ 2Ν和ΝΧΝ。換句話說,可基于具有編碼單元的高和寬中的至少一個被等分為二的形狀的處理單元來執(zhí)行運動預測。在下文,作為預測的基礎的處理單元被定義為 “預測單元”。預測模式可以是幀內模式(intra-mode)、幀間模式(inter-mode)、跳過模式和僅對具有特定大小或形狀的預測單元執(zhí)行的特定預測模式中的至少一個。例如,可僅對具有 2NX2N和NXN的大小的形狀為正方形的預測單元執(zhí)行幀內模式。此外,僅對具有2NX2N 的大小的預測單元執(zhí)行跳過模式。如果多個預測單元存在于編碼單元中,則可在對每個預測單元執(zhí)行預測之后選擇具有最少編碼錯誤的預測模式??蛇x擇地,設備100可基于具有與編碼單元的大小不同大小的處理單元對圖像數
6據執(zhí)行頻率變換。對于編碼單元中的頻率變換而言,可基于具有與編碼單元的大小相同的大小或比編碼單元的大小小的大小的處理單元執(zhí)行頻率變換。在下文,作為頻率變換基礎的處理單元被定義為“變換單元”。頻率變換可以是離散余弦變換(DCT)或Karhimen-Loeve 變換(KLT)。編碼深度確定單元120可使用基于拉格朗日乘數的RD優(yōu)化來確定包括在最大編碼單元中的次級編碼單元。換句話說,編碼深度確定單元120可確定從最大編碼單元劃分的多個次級編碼單元的形狀,其中,所述多個次級編碼單元根據它們的深度具有不同的大小。圖像數據編碼器130通過基于由編碼深度確定單元120確定的劃分形狀(即,劃分最大編碼單元的形狀)對最大編碼單元進行編碼來輸出比特流。編碼信息編碼器140對與由編碼深度確定單元120確定的最大編碼單元的編碼模式有關的信息進行編碼。換句話說,編碼信息編碼器140通過對關于最大編碼單元的劃分形狀的信息、關于最大深度的信息以及關于每個深度的次級編碼單元的編碼模式的信息進行編碼來輸出比特流。關于次級編碼單元的編碼模式的信息可包括關于次級編碼單元的預測單元的信息、關于每個預測單元的預測模式的信息以及關于次級編碼單元的變換單元的信息。由于每個最大編碼單元存在具有不同大小的次級編碼單元,并且必須為每個次級編碼單元確定關于編碼模式的信息,因此可為一個最大編碼單元確定關于至少一個編碼模式的信息。設備100可根據深度的增加通過將最大編碼單元的高和寬兩者等分為二來生成次級編碼單元。也就是說,當第k深度的編碼單元的大小是2NX2N時,第(k+Ι)深度的編碼單元的大小是NXN。因此,根據示例性實施例的設備100可考慮到圖像特征,基于最大編碼單元的大小和最大深度確定每個最大編碼單元的最佳劃分形狀。通過考慮到圖像特征不同地調整最大編碼單元的大小,并通過將最大編碼單元劃分為不同深度的次級編碼單元來對圖像編碼,可更有效地對具有不同分辨率的圖像進行編碼。圖2是根據示例性實施例的用于解碼的設備200的框圖。參照圖2,設備200包括圖像數據獲得單元210、編碼信息提取單元220以及圖像數據解碼器230。圖像數據獲得單元210通過解析由設備200接收的比特流來獲得根據最大編碼單元的圖像數據,并將圖像數據輸出到圖像數據解碼器230。圖像數據獲得單元210可從當前圖片或片段的頭提取關于當前圖片或片段的最大編碼單元的信息。換句話說,圖像數據獲得單元210按照最大編碼單元劃分比特流,從而圖像數據解碼器230可根據最大編碼單元對圖像數據進行解碼。編碼信息提取單元220通過解析由設備200接收的比特流來從當前圖片的頭提取關于最大編碼單元、最大深度、最大編碼單元的劃分形狀以及次級編碼單元的編碼模式的信息。關于劃分形狀的信息和關于編碼模式的信息被提供到圖像數據解碼器230。關于最大編碼單元的劃分形狀的信息可包括關于根據包括在最大編碼單元中的深度具有不同大小的次級編碼單元的信息,關于編碼模式的信息可包括關于根據次級編碼單元的預測單元的信息、關于預測模式的信息以及關于變換單元的信息。
圖像數據解碼器230通過基于由編碼信息提取單元220提取的信息對每個最大編碼單元的圖像數據進行解碼來恢復當前圖片。圖像數據解碼器230可基于關于最大編碼單元的劃分形狀的信息對包括在最大編碼單元中的次級編碼單元進行解碼。解碼處理可包括指示幀內預測和運動補償的預測處理以及反變換處理。為了預測預測單元,圖像數據解碼器230可基于關于預測單元的信息和關于預測模式的信息執(zhí)行幀內預測或幀間預測。圖像數據解碼器230還可基于關于次級編碼單元的變換單元的信息對每個次級編碼單元執(zhí)行反變換。圖3示出根據示例性實施例的層次編碼單元。參照圖3,根據示例性實施例的層次編碼單元可包括寬X高為64X64、32X32、 16X16、8X8和4X4的編碼單元。除了這些具有完美正方形形狀的編碼單元之外,還可存在寬 X 高為 64X32、32X64、32X16、16X32、16X8、8X16、8X4 和 4X8 的編碼單元。參照圖3,對于分辨率為1920X1080的圖像數據310而言,最大編碼單元的大小被設置為64X64,最大深度被設置為2。對于分辨率為1920X1080的圖像數據320而言,最大編碼單元的大小被設置為 64 X 64,最大深度被設置為4。對于分辨率為352 X 288的圖像數據330而言,最大編碼單元的大小被設置為16 X 16,最大深度被設置為1。當分辨率高或者數據量大時,優(yōu)選(但不必要)編碼單元的最大大小較大以增加壓縮率和精確地反映圖像特征。因此,對于具有比圖像數據330更高的分辨率的圖像數據 310和圖像數據320而言,可選擇64X64作為最大編碼單元的大小。最大深度指示層次編碼單元中的層的總數。由于圖像數據310的最大深度是2,因此圖像數據310的編碼單元315可根據深度的增加包括長軸大小為64的最大編碼單元以及長軸大小為32和16的次級編碼單元。另一方面,由于圖像數據330的最大深度為1,因此圖像數據330的編碼單元335 可根據深度的增加包括長軸大小為16的最大編碼單元以及長軸大小為8的編碼單元。然而,由于圖像數據320的最大深度為4,因此圖像數據320的編碼單元325可根據深度的增加包括長軸大小為64的最大編碼單元以及長軸大小為32、16、8和4的次級編碼單元。由于隨著深度增加而基于較小次級編碼單元對圖像編碼,因此示例性實施例適合于對在場景中包括更多微小細節(jié)的圖像進行編碼。圖4是根據示例性實施例的基于編碼單元的圖像解碼器400的框圖。幀內預測器410對當前幀405中的幀內模式的預測單元執(zhí)行幀內預測,運動估計單元420和運動補償單元425使用當前幀405和參考幀495對幀間模式的預測單元執(zhí)行幀間預測和運動補償?;趶膸瑑阮A測器410、運動估計單元420和運動補償單元425輸出的預測單元生成殘值,通過經過變換器430和量化單元440將生成的殘值輸出為量化的變換系數。通過經過反量化單元460和頻率反變換器470將量化的變換系數恢復為殘值,通過經過數據分塊單元480和環(huán)形濾波單元490后處理恢復的殘值并將恢復的殘值輸出為參考幀495??赏ㄟ^經過熵編碼器450將量化的變換系數輸出為比特流455。為了基于根據示例性實施例的編碼方法執(zhí)行編碼,圖像編碼器400的部件(即,幀內預測器410、運動估計單元420、運動補償單元425、變換器430、量化單元440、熵編碼器450、反量化單元460、頻率反變換器470、數據分塊單元480和環(huán)形濾波單元490)基于最大編碼單元、根據深度的次級編碼單元、預測單元和變換單元執(zhí)行圖像編碼處理。圖5是根據示例性實施例的基于編碼單元的圖像解碼器500的框圖。比特流505經過解析單元510,從而將被解碼的編碼單元和解碼所需的編碼信息被解析。通過經過熵解碼器520和反量化單元530,編碼的圖像數據被輸出為反量化的數據,通過經過頻率反變換器M0,編碼的圖像數據被恢復為殘值。通過被添加到幀內預測器 550的幀內預測結果或添加到運動補償單元560的運動補償結果,殘值根據編碼單元被恢復。通過經過數據分塊單元570和環(huán)形濾波單元580,恢復的編碼單元用于預測其后的編碼單元或其后的圖片。為了基于根據示例性實施例的解碼方法執(zhí)行解碼,圖像解碼器500的部件(即,解析單元510、熵解碼器520、反量化單元530、頻率反變換單元M0、幀內預測器550、運動補償單元560、數據分塊單元570和環(huán)形濾波單元580)基于最大編碼單元、根據深度的次級編碼單元、預測單元和變換單元執(zhí)行圖像解碼處理。具體地說,幀內預測器550和運動補償單元560通過考慮最大編碼單元和深度來在次級編碼單元中確定預測單元和預測模式,頻率反量化單元540通過考慮變換單元的大小來執(zhí)行反變換。圖6示出根據示例性實施例的最大編碼單元、次級編碼單元和預測單元。根據示例性實施例的設備100和設備200考慮到圖像特征使用層次編碼單元以執(zhí)行編碼和解碼。可根據圖像特征適應性地設置最大編碼單元和最大深度,或根據用戶的要求不同地設置最大編碼單元和最大深度。根據示例性實施例的層次編碼單元結構600示出高和寬為64且最大深度為4的最大編碼單元610。深度沿著層次編碼單元結構600的垂直軸增加,并且隨著深度增加,次級編碼單元620到650的高和寬減小。沿著層次編碼單元結構600的水平軸示出了最大編碼單元610和次級編碼單元620到650的預測單元。最大編碼單元610具有0的深度和64X64的編碼單元的大小(S卩,高和寬)。深度沿垂直軸增加,并且存在大小為32X32且深度為1的次級編碼單元620、大小為16X16 且深度為2的次級編碼單元630、大小為8X8且深度為3的次級編碼單元640以及大小為 4X4且深度為4的次級編碼單元650。大小為4X4且深度為4的次級編碼單元650是最小編碼單元,并且最小編碼單元可被劃分為預測單元,每個預測單元小于最小編碼單元。參照圖6,根據每個深度沿著水平軸示出預測單元的示例。也就是說,深度為0的最大編碼單元610的預測單元可以是大小等于編碼單元610 (即64 X 64)的預測單元,或者是具有小于大小為64 X 64的編碼單元610的大小為64 X 32的預測單元612、大小為32 X 64 的預測單元614、或大小為32X32的預測單元616。深度為1且大小為32X32的編碼單元620的預測單元可以是大小等于編碼單元620(即32X32)的預測單元,或者是具有小于大小為32X32的編碼單元620的大小為 32X16的預測單元622、大小為16X32的預測單元624、或大小為16X16的預測單元626。深度為2且大小為16X16的編碼單元630的預測單元可以是大小等于編碼單元630(即16X16)的預測單元,或者是具有小于大小為16X16的編碼單元630的大小為 16X8的預測單元632、大小為8X16的預測單元634、或大小為8X8的預測單元636。
9
深度為3且大小為8X8的編碼單元640的預測單元可以是大小等于編碼單元 640(即8X8)的預測單元,或者是具有小于大小為8X8的編碼單元620的大小為8X4的預測單元642、大小為4X8的預測單元644、或大小為4X4的預測單元646。最后,深度為4且大小為4X4的編碼單元650是最小編碼單元并且是最大深度的編碼單元,編碼單元650的預測單元可以是大小為4X4的預測單元650、具有大小為4X2 的預測單元652、具有大小為2X4的預測單元6M或者具有大小為2X2的預測單元656。圖7示出根據示例性實施例的編碼單元和變換單元。根據示例性實施例的設備100和設備200利用最大編碼單元本身或利用次級編碼單元執(zhí)行編碼,所述次級編碼單元從最大編碼單元被劃分,并等于或小于最大編碼單元。在編碼處理中,用于頻率變換的變換單元的大小被選擇為不大于對應編碼單元的大小。例如,當編碼單元710具有64X64的大小時,可使用具有32X32的大小的變換單元 720執(zhí)行頻率變換。圖8A和圖8B示出根據示例性實施例的編碼單元、預測單元和變換單元的劃分形狀。圖8A示出根據示例性實施例的編碼單元和預測單元。圖8A的左側示出根據示例性實施例的設備100為了對最大編碼單元710進行編碼而選擇的劃分形狀。設備100將最大編碼單元810劃分為多個形狀,執(zhí)行編碼,并通過基于R-D成本將多個劃分形狀的編碼結果與彼此相比較來選擇最佳劃分形狀。當按照最大編碼單元810本身進行編碼是最佳時,可對最大編碼單元810進行編碼而不需要圖8A和圖8B 所示劃分最大編碼單元810。參照圖8A的左側,通過將深度為0的最大編碼單元810劃分為深度等于或大于1 的次級編碼單元來對最大編碼單元810進行編碼。也就是說,將最大編碼單元810劃分為 4個深度為1的次級編碼單元,并且將所有或部分深度為1的次級編碼單元劃分為深度為2 的次級編碼單元。將深度為1的次級編碼單元中的位于右上側的次級編碼單元和位于左下側的次級編碼單元劃分為深度等于或大于2的次級編碼單元??蓪⒉糠稚疃鹊扔诨虼笥?的次級編碼單元劃分為深度等于或大于3的次級編碼單元。圖8A的右側示出最大編碼單元810的預測單元的劃分形狀。參照圖8A的右側,可與最大編碼單元810不同地劃分最大編碼單元810的預測單元860。換句話說,每個次級編碼單元的預測單元可以小于對應的次級編碼單元。例如,深度為1的次級編碼單元中的位于右下側的次級編碼單元854的預測單元可以小于編碼單元854。此外,深度為2的次級編碼單元814、816、818、擬8、850和852中的一部分的預測單元(814、816、850和852)可以分別小于次級編碼單元814、816、850和 852。此外,深度為3的次級編碼單元822、832和848的預測單元可以分別小于次級編碼單元822、832和848。預測單元可具有各個次級編碼單元在高方向或寬方向上被等分為二的形狀,或具有各個次級編碼單元在高和寬的方向上被等分為四的形狀。圖8B示出根據示例性實施例的預測單元和變換單元。圖8B的左側示出在圖8A的右側示出的最大編碼單元810的預測單元的劃分形狀,圖8B的右側示出最大編碼單元810的變換單元的劃分形狀。
參照圖8B的右側,可與預測單元860不同地設置變換單元870的劃分形狀。例如,即使將深度為1的編碼單元854的預測單元選擇為具有編碼單元854的高被等分為二的形狀,也可將變換單元選擇為具有與編碼單元邪4相同的大小。類似地,即使將深度為2的編碼單元814和850的預測單元選擇為具有編碼單元814和850中的每個的高被等分為二的形狀,也可將變換單元選擇為具有與編碼單元814和850中的每個的原始大小相等的大小??蓪⒆儞Q單元選擇為具有小于預測單元的大小。例如,當將深度為2的編碼單元 852的預測單元選擇為具有編碼單元852的寬被等分為二的形狀時,可將變換單元選擇為具有編碼單元852在高和寬的方向上被等分為四的形狀,所述形狀具有小于預測單元的形狀的大小。圖9是根據另一示例性實施例的圖像編碼設備900的框圖。參照圖9,根據本示例性實施例的圖像編碼設備900包括變換器910、量化單元920 以及熵編碼器930。變換器910接收像素域的圖像處理單元,并將圖像處理單元變換為頻域。變換器 910接收包括由于幀內預測或幀間預測生成的殘值的多個預測單元,并將預測單元變換為頻域。作為變換到頻域的結果,生成頻率分量的系數。根據本示例性實施例,可通過離散余弦變換(DCT)或Karhunen-Loeve變換(KLT)發(fā)生到頻域的變換,并且作為DCT或KLT的結果,生成頻域的系數。在下文,到頻域的變換可以是DCT,然而,對于本領域的一個普通技術人員而言,到頻域的變換可以是包括將像素域的圖像變換為頻域的變換的任何變換。此外,根據本示例性實施例,變換器910通過組合多個預測單元來設置變換單元, 并根據變換單元執(zhí)行變換。將參照圖10、圖11A、圖IlB和圖12詳細描述該處理。圖10是變換器910的示圖。參照圖10,變換器910包括選擇單元1010和變換執(zhí)行單元1020。選擇單元1010通過選擇多個相鄰預測單元設置變換單元。根據現有技術的圖像編碼設備根據具有預定大小的塊(即,根據預測單元)執(zhí)行幀內預測或幀間預測,并基于小于或等于預測單元的大小的大小執(zhí)行DCT。換句話說,根據現有技術的圖像編碼設備通過使用小于或等于預測單元的變換單元來執(zhí)行DCT。然而,由于多份頭信息被添加到變換單元,隨著變換單元的減小,額外的開銷增力口。為了解決這個問題,根據本示例性實施例的圖像編碼設備900將多個相鄰預測單元組合為變換單元,并根據通過組合生成的變換單元執(zhí)行變換。相鄰預測單元很可能包括相似殘值,從而如果將相鄰預測單元組合為一個變換單元然后在其上執(zhí)行變換,可高度增加編碼操作的壓縮率。例如,選擇單元1010選擇將被組合為一個變換單元的相鄰預測單元。將參照圖 IlA到圖IlC和圖12詳細描述該處理。圖IlA到圖IlC示出根據另一示例性實施例的變換單元的類型。參照圖1IA到圖11C,相對于編碼單元1110的預測單元1120可具有通過將編碼單元1110的寬分半而獲得的劃分形狀。編碼單元1110可以是最大編碼單元,或可以是具有小于最大編碼單元的大小的次級編碼單元。如圖IlA中所示,變換單元1130的大小可小于預測單元1120,或如圖IlB中所示,變換單元1140的大小可以等于預測單元1120。此外,如圖IlC中所示,變換單元1150的大小可以大于預測單元1120。也就是說,可在變換單元1130到1150與預測單元1120沒有關系的情況下設置變換單元1130到1150。此外,圖IlC示出通過組合包括在編碼單元1110中的多個預測單元1120來設置預測單元1120的示例。然而,可以以將多個預測單元設置為一個變換單元的方式來將變換單元設置為大于編碼單元,其中,所述多個預測單元不是包括在一個編碼單元中而是包括在多個編碼單元中。換句話說,如參照圖IlA到圖IlC所述,可將變換單元設置為等于或小于編碼單元的大小,或大于編碼單元的大小。也就是說,可在變換單元與預測單元和編碼單元沒有關系的同時設置變換單元。雖然圖IlA到圖IlC示出具有正方形形式的變換單元的示例。然而,根據組合相鄰預測單元的方法,變換單元可具有矩形形式。例如,在預測單元未被設置為具有如圖IlA 到圖IlC所示的矩形形式,而被設置為具有通過將編碼單元1110四等分而獲得四個正方形形式的情況下,組合上和下預測單元或左和右預測單元,從而變換單元可具有水平側或垂直側是長的的矩形形式。參照圖10,選擇單元1010選擇相鄰預測單元的標準沒有限制。然而,根據示例性實施例,選擇單元1010可根據深度選擇變換單元。如上所述,深度指示從當前片段或當前圖片的最大編碼單元到次級編碼單元逐級執(zhí)行的大小縮減的等級。如以上參照圖3到圖6 的描述,隨著深度增加,次級編碼單元的大小減小,從而包括在次級編碼單元中的預測單元也減小。這種情況下,如果根據小于或等于預測單元的變換單元執(zhí)行變換,則由于頭信息被添加到每個變換單元而導致圖像編碼操作的壓縮率下降。因此,對于預定值的深度的次級編碼單元,優(yōu)選(但不必要)將包括在次級編碼單元中的預測單元組合和設置為變換單元,然后對其執(zhí)行變換。為此,選擇單元1010基于次級編碼單元的深度設置變換單元。例如,在圖Iic中的編碼單元1110的深度大于k的情況下,選擇單元1010組合預測單元1120并將預測單元1120設置為變換單元1150。此外,根據另一示例性實施例,選擇單元1010可組合根據相同預測模式執(zhí)行預測的多個相鄰預測單元,并可將所述多個預測單元設置為一個變換單元。選擇單元1010組合根據幀內預測或幀間預測執(zhí)行預測的相鄰預測單元,然后將所述相鄰預測單元設置為一個變換單元。由于根據相同預測模式執(zhí)行預測的相鄰預測單元很可能包括相似殘值,因此可將相鄰預測單元組合為變換單元然后對所述相鄰預測單元執(zhí)行變換。當選擇單元1010設置變換單元時,變換執(zhí)行單元1020根據變換單元將相鄰預測單元變換為頻域。變換執(zhí)行單元1020根據變換單元對相鄰預測單元執(zhí)行DCT,并生成離散余弦系數。返回參照圖9,量化單元920量化由變換器910生成的頻率分量系數(例如,離散余弦系數)。量化單元920可根據預定量化步長(quantization step)來量化輸入的離散余弦系數。熵編碼器930對由量化單元920量化的頻率分量系數執(zhí)行熵編碼。熵編碼器930 可通過使用內容自適應變化算法編碼(CABAC)或內容自適應變長編碼(CAVLC)來對離散余弦系數執(zhí)行熵編碼。圖像編碼設備900可通過對不同變換單元重復執(zhí)行DCT、量化和熵編碼來確定最佳變換單元??芍貜陀糜谶x擇相鄰預測單元的處理以確定最佳變換單元??煽紤]到RD成本的計算來確定最佳變換單元,這將參照圖12進行詳細描述。圖12示出根據另一示例性實施例的不同變換單元。參照圖12,圖像編碼設備900對不同編碼單元重復執(zhí)行編碼操作。如圖12所示,可基于具有小于編碼單元1210的大小的預測單元1220對編碼單元 1210進行預測和編碼。對通過預測的結果生成的殘值執(zhí)行變換,這里,如圖12中所示,可基于不同變換單元對殘值執(zhí)行DCT。第一示出的變換單元1230具有與編碼單元相同的大小,并具有通過組合包括在編碼單元1210中的所有預測單元而獲得的大小。第二示出的變換單元1240分別具有通過將編碼單元1210的寬分半而獲得的大小,以及通過組合垂直方向上的每兩個彼此相鄰的預測單元而獲得的大小。第三示出的變換單元1250分別具有通過將編碼單元1210的高分半而獲得的大小,以及通過組合水平方向上的每兩個彼此相鄰的預測單元而獲得的大小。當基于具有與預測單元1220相同的大小的第四示出變換單元1260執(zhí)行變換時使用第四示出的變換單元1260。圖13是根據另一示例性實施例的圖像解碼設備1300的框圖。參照圖13,根據本示例性實施例的圖像解碼設備1300包括熵解碼器1310、反量化單元1320以及反變換器1330。熵解碼器1310關于預定編碼單元對頻率分量系數執(zhí)行熵解碼。如以上參照圖IlA 到圖IlC以及圖12的描述,預定變換單元可以是通過組合多個相鄰預測單元而生成的變換單元。如以上參照圖像編碼設備900的描述,可通過根據深度組合相鄰預測單元來生成變換單元,或可通過組合根據相同預測模式(即根據幀內預測模式或幀間預測模式)執(zhí)行預測的多個相鄰預測單元來生成變換單元。多個預測單元可不包括在一個編碼單元中而是包括在多個編碼單元中。換句話說,如以上參照圖IlA到圖IlC的描述,可將通過熵解碼器1310熵解碼的變換單元設置為等于或小于編碼單元的大小,或可將所述變換單元設置為大于編碼單元的大小。此外,如以上參照圖12的描述,變換單元可以是通過重復組合多個相鄰預測單元的處理并且通過對不同變換單元重復執(zhí)行變換、量化和熵編碼而選擇的最佳變換單元。反量化單元1320對由熵解碼器1310熵解碼的頻率分量系數進行反量化。反量化單元1320根據用于變換單元的編碼的量化步長對頻率分量系數進行反量化和熵解碼。反變換器1330將頻率分量系數反變換和反量化為像素域。反變換器可對反量化后的離散余弦系數(即反量化后的頻率分量系數)執(zhí)行反DCT,然后可重構像素域的變換單元。重構的變換單元可包括相鄰預測單元。圖14是根據示例性實施例的圖像編碼方法的流程圖。參照圖14,在操作1410,圖像編碼設備通過選擇多個相鄰預測單元來設置變換單元。圖像編碼設備可根據深度選擇多個相鄰預測單元,或可選擇根據相同預測模式執(zhí)行預測的多個相鄰預測單元。
13
在操作1420,圖像編碼設備根據在操作1420設置的變換單元將相鄰單元變換為頻域。圖像編碼設備組合相鄰預測單元,對相鄰預測單元執(zhí)行DCT,從而生成離散余弦系數。在操作1430,圖像編碼設備根據量化步長對在操作1420生成的頻率分量系數進行量化。在操作1440,圖像編碼設備對在操作1430量化的頻率分量系數執(zhí)行熵編碼。圖像編碼設備通過使用CABAC或CAVLC對離散余弦系數執(zhí)行熵編碼。根據另一示例性實施例的圖像編碼方法還可包括通過對不同的變換單元重復執(zhí)行操作1410到操作1440來設置最佳變換單元的操作。也就是說,通過如圖12所示的對不同的變換單元重復執(zhí)行變換、量化和熵編碼,可設置最佳變換單元。圖15是根據另一示例性實施例的圖像解碼方法的流程圖。參照圖15,在操作1510,圖像解碼設備關于預定變換單元對頻率分量系數執(zhí)行熵解碼。頻率分量系數可以是離散余弦系數。在操作1520,圖像解碼設備對在操作1510熵解碼的頻率分量系數進行反量化。圖像解碼設備通過使用用于編碼操作的量化步長來對離散余弦系數進行反量化。在操作1530,圖像解碼設備將已經在操作1520反量化的頻率分量系數反變換為像素域,然后重構變換單元。通過組合多個相鄰預測單元來設置重構的變換單元。如上所述,可通過根據深度組合相鄰預測單元來設置變換單元,或者可通過組合根據相同預測模式執(zhí)行預測的相鄰預測單元來設置變換單元。根據一個或多個示例性實施例,可將變換單元設置為大于預測單元,并執(zhí)行DCT 從而圖像可被有效地壓縮和編碼。示例性實施例還可被實施為計算機可讀記錄介質上的計算機可讀代碼。計算機可讀記錄介質是可存儲數據的任何數據存儲裝置,所述數據之后可被計算機系統(tǒng)讀取。計算機可讀記錄介質的示例包括只讀存儲器(ROM)、隨機存取存儲器(RAM)、CD-ROM、磁帶、軟盤以及光數據存儲介質。計算機可讀記錄介質還可通過網絡連接的計算機被分布,從而計算機可讀代碼可以以分布方式被存儲和執(zhí)行。例如,根據一個或多個示例性實施例的圖像編碼設備、圖像解碼設備、圖像編碼器和圖像解碼器中的每個可包括連接到如圖1-2、圖4-5、圖9-10和圖14示出的設備中的每個單元的總線以及連接到總線的至少一個處理器。此外,根據一個或多個示例性實施例的圖像編碼設備、圖像解碼設備、圖像編碼器和圖像解碼器中的每個可包括連接到與總線連接的至少一個處理器的存儲器,以存儲命令、接收的消息或生成的消息并執(zhí)行命令。雖然參照本發(fā)明示例性實施例顯示和描述了本發(fā)明,但是本領域普通技術人員將理解,在不脫離權利要求限定的本發(fā)明的精神和范圍的情況下,可以對其做出形式和細節(jié)上的各種改變。示例性實施例應被理解為僅僅是描述性而不是用于限制目的。因此,本發(fā)明的范圍不是由本發(fā)明的詳細描述限定,而是由權利要求限定,并且所述范圍內的所有不同將被解釋為包括在本發(fā)明中。
權利要求
1.一種圖像編碼方法,包括通過選擇多個相鄰預測單元來設置變換單元; 將所述變換單元變換為頻域,并生成頻率分量系數; 量化頻率分量系數; 對量化的頻率分量系數進行熵編碼。
2.如權利要求1所述的圖像編碼方法,其中,基于指示大小縮減的等級的深度來執(zhí)行變換單元的設置,所述大小縮減從當前片段或當前圖片的最大編碼單元到包括所述多個相鄰預測單元的次級編碼單元逐級被執(zhí)行。
3.如權利要求1所述的圖像編碼方法,其中,通過選擇根據相同預測模式執(zhí)行預測的多個相鄰預測單元來執(zhí)行變換單元的設置。
4.如權利要求3所述的圖像編碼方法,其中,相同預測模式是幀間預測模式或幀內預測模式。
5.如權利要求1所述的圖像編碼方法,還包括通過對不同的變換單元重復執(zhí)行設置、 變換、量化以及熵編碼來設置最佳變換單元。
6.一種圖像編碼設備,包括變換器,通過選擇多個相鄰預測單元來設置變換單元,將相鄰預測單元變換為頻域并生成頻率分量系數;量化單元,量化頻率分量系數;熵編碼器,對量化的頻率分量系數進行熵編碼。
7.一種圖像解碼方法,包括根據變換單元對通過被變換到頻域而生成的頻率分量系數進行熵解碼; 反量化熵解碼的頻率分量系數;將反量化的頻率分量系數反變換為像素域,并重構變換單元中的多個相鄰預測單元。
8.如權利要求7所述的圖像解碼方法,其中,基于指示大小縮減的等級的深度來執(zhí)行變換單元的設置,所述大小縮減從當前片段或當前圖片的最大編碼單元到包括所述多個相鄰預測單元的次級編碼單元逐級被執(zhí)行。
9.如權利要求7所述的圖像解碼方法,其中,通過選擇根據相同預測模式執(zhí)行預測的多個相鄰預測單元來設置變換單元。
10.如權利要求7所述的圖像解碼方法,其中,相同預測模式是幀間預測模式或幀內預測模式。
11.一種圖像解碼設備,包括熵解碼器,根據變換單元對通過被變換到頻域而生成的頻率分量系數進行熵解碼; 反量化單元,反量化頻率分量系數;反變換器,將頻率分量系數反變換為像素域,并重構變換單元中的多個相鄰預測單元。
12.如權利要求11所述的圖像解碼設備,其中,基于指示大小縮減的等級的深度來執(zhí)行變換單元的設置,所述大小衰減從當前片段或當前圖片的最大編碼單元到包括所述多個相鄰預測單元的次級編碼單元逐漸執(zhí)行。
13.如權利要求11所述的圖像解碼設備,其中,通過選擇根據相同預測模式執(zhí)行預測的多個相鄰預測單元來設置變換單元。
14.一種計算機可讀記錄介質,記錄了用于執(zhí)行權利要求1的方法的程序。
15.一種計算機可讀記錄介質,記錄了用于執(zhí)行權利要求7的方法的程序。
全文摘要
公開了一種用于通過將多個相鄰預測單元組合為變換單元并將所述多個相鄰預測單元變換為頻域來編碼圖像的圖像編碼方法和設備,以及一種用于通過使用所述圖像編碼方法和設備來對編碼的圖像進行解碼的圖像解碼方法和設備。
文檔編號H04N7/50GK102484703SQ201080036020
公開日2012年5月30日 申請日期2010年8月13日 優(yōu)先權日2009年8月13日
發(fā)明者李泰美, 鄭海慶, 陳建樂, 韓宇鎮(zhèn) 申請人:三星電子株式會社