本發(fā)明涉及數(shù)字圖像的壓縮,特別是涉及基于深度學(xué)習(xí)的圖像集的壓縮。
背景技術(shù):
1、手持相機(jī)和移動(dòng)電話(huà)的廣泛使用,使得拍攝和分享照片比以往任何時(shí)候都更方便,也導(dǎo)致近年來(lái)拍攝和分享的數(shù)字圖像大量增加。這一趨勢(shì)導(dǎo)致了圖像集的數(shù)量的爆炸性增長(zhǎng),為其存儲(chǔ)、備份和維護(hù)帶來(lái)了巨大的挑戰(zhàn)。因此,開(kāi)發(fā)高效的圖像集壓縮算法是一個(gè)迫切的需求。
2、目前流行的壓縮方案,是進(jìn)行單個(gè)圖像的壓縮。然而,這種方法只減少了圖像內(nèi)的冗余,目的是為了達(dá)到每個(gè)單獨(dú)的圖像的緊湊表示??墒?,在圖像集壓縮的情況下,存在的冗余度遠(yuǎn)不止圖像內(nèi)部的冗余度,這表明圖像集中的不同圖像在多個(gè)粒度上具有相似性。這種共享信息可以通過(guò)去除圖像間的冗余來(lái)進(jìn)一步利用。這促使人們通過(guò)開(kāi)發(fā)偽視頻編碼方法來(lái)制定壓縮策略,因?yàn)榧现械囊幌盗袌D像可以形成偽視頻。然而,傳統(tǒng)的基于視頻的解決方案,依賴(lài)于現(xiàn)有的壓縮方案,這些方案通常被設(shè)計(jì)為通過(guò)信號(hào)級(jí)別的比較來(lái)消除時(shí)間上的冗余??墒?,這種策略可能不適合圖像集,因?yàn)閳D像集中的圖像不是以與和視頻相同的方式獲取的(例如,圖像集中的圖像是從具有不同背景、相機(jī)視角和設(shè)置的不同場(chǎng)景中捕獲的)。因此,傳統(tǒng)采用信號(hào)級(jí)別的冗余去除的方法效率低且繁瑣。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明在一方面提供了一種用于數(shù)字圖像集壓縮的計(jì)算機(jī)實(shí)現(xiàn)的方法,該圖像集包括多個(gè)原始圖像。該方法包括以下步驟:將多個(gè)原始圖像的每一個(gè)都分解為三個(gè)部分:公共知識(shí)、唯一掩膜和唯一紋理;以及將公共知識(shí)、唯一掩膜和唯一紋理中的每一項(xiàng)分別壓縮成為比特流。其中公共知識(shí)表示多個(gè)原始圖像之間的共享特征。
2、優(yōu)選地,公共知識(shí)從多個(gè)原始圖像中的主參考圖像中提取。
3、更優(yōu)選地,主參考圖像通過(guò)以下步驟而確定:為多個(gè)原始圖像中的每一個(gè)確定唯一掩膜;將多個(gè)原始圖像中的每一個(gè)和與之對(duì)應(yīng)的唯一掩膜相乘,以獲得多個(gè)對(duì)象圖像;基于從多個(gè)對(duì)象圖像中提取的特征的相似性,建立有向圖;使用最小生成樹(shù)算法處理所述有向圖;以及將生成樹(shù)中具有最大邊數(shù)的節(jié)點(diǎn)作為主參考圖像。
4、在一個(gè)示范性實(shí)施方式中,對(duì)所述公共知識(shí)進(jìn)行壓縮的步驟,還包括使用經(jīng)過(guò)訓(xùn)練的可逆神經(jīng)模塊,在空間級(jí)別上將公共知識(shí)與多個(gè)圖像對(duì)齊以消除公共知識(shí)中的冗余。
5、在一個(gè)示范性實(shí)施方式中,上述的分解步驟還包括通過(guò)u2-net顯著性檢測(cè)方法和alpha?matting技術(shù)來(lái)從多個(gè)原始圖像的每一個(gè)中提取唯一掩膜。
6、在一個(gè)示范性實(shí)施方式中,上述的壓縮步驟還包括:將多個(gè)原始圖像的唯一掩膜按照預(yù)定順序形成為偽掩膜視頻;以及使用視頻編解碼器對(duì)偽掩膜視頻進(jìn)行壓縮,以實(shí)現(xiàn)對(duì)唯一掩膜的壓縮。
7、優(yōu)選地,預(yù)定順序?yàn)樯疃葍?yōu)先搜索順序。
8、在一個(gè)示范性實(shí)施方式中,上述的壓縮步驟還包括在給定公共知識(shí)和唯一掩膜的條件下,對(duì)唯一紋理進(jìn)行壓縮。
9、優(yōu)選地,對(duì)唯一紋理進(jìn)行壓縮的步驟,還包括:使用經(jīng)過(guò)訓(xùn)練的可逆神經(jīng)模塊,在空間級(jí)別上將公共知識(shí)與多個(gè)圖像對(duì)齊以消除公共知識(shí)中的冗余;使用對(duì)齊的公共知識(shí)以及多個(gè)圖像中的每一個(gè)的唯一掩膜,對(duì)多個(gè)圖像中的每一個(gè)進(jìn)行感興趣區(qū)域的紋理強(qiáng)化;以及對(duì)多個(gè)圖像中的每一個(gè)進(jìn)行可逆激活變換。
10、優(yōu)選地,對(duì)齊步驟為從粗糙到精細(xì)的對(duì)齊。
11、更優(yōu)選地,對(duì)齊步驟包括對(duì)多個(gè)圖像中的每一個(gè)執(zhí)行單應(yīng)性變換;以及對(duì)多個(gè)圖像中的每一個(gè)執(zhí)行漸進(jìn)式光流估計(jì)。
12、在一個(gè)示范性實(shí)施方式中,可逆神經(jīng)模塊通過(guò)使用訓(xùn)練對(duì)來(lái)進(jìn)行訓(xùn)練;該訓(xùn)練對(duì)包括訓(xùn)練圖像集中的一個(gè)原始對(duì)象圖像,以及同一訓(xùn)練圖像集中的另一個(gè)解碼對(duì)象圖像。
13、在另一方面,本發(fā)明提供了一種計(jì)算機(jī)實(shí)現(xiàn)的方法,用于從包括公共知識(shí)流、唯一掩膜流和唯一紋理流的多個(gè)比特流重建數(shù)字圖像集。該方法包括以下步驟:從公共知識(shí)流解碼出公共知識(shí);從唯一掩膜流解碼出對(duì)應(yīng)于數(shù)字圖像集中的多個(gè)圖像的多個(gè)唯一掩膜;從唯一紋理流解碼出對(duì)應(yīng)于數(shù)字圖像集中的多個(gè)圖像的多個(gè)唯一紋理;和使用公共知識(shí)、多個(gè)唯一掩膜和多個(gè)唯一紋理重建數(shù)字圖像集。
14、優(yōu)選地,解碼多個(gè)唯一紋理的步驟還包括在給定已解碼的公共知識(shí)和唯一掩膜的條件下,對(duì)唯一紋理進(jìn)行解碼。
15、優(yōu)選地,上述方法還包括使用后處理模型,利用對(duì)齊的公共知識(shí)作為指導(dǎo)來(lái)增強(qiáng)已重建的數(shù)字圖像集的感知質(zhì)量。
16、在一個(gè)示范性實(shí)施方式中,增強(qiáng)已重建的數(shù)字圖像集的感知質(zhì)量的步驟,還包括:使用經(jīng)過(guò)訓(xùn)練的可逆神經(jīng)模塊,在空間級(jí)別上將已解碼的公共知識(shí)與已重建的數(shù)字圖像集中的多個(gè)圖像對(duì)齊以消除公共知識(shí)中的冗余;將對(duì)齊的公共知識(shí)映射到與多個(gè)圖像的空間信息一致的映射圖像;使用卷積層提取映射圖像的特征;以及將特征輸入到極化自注意力模塊中。
17、優(yōu)選地,對(duì)齊步驟為從粗糙到精細(xì)的對(duì)齊。
18、更優(yōu)選地,對(duì)齊步驟包括:對(duì)多個(gè)圖像中的每一個(gè)執(zhí)行單應(yīng)性變換;以及對(duì)多個(gè)圖像中的每一個(gè)執(zhí)行漸進(jìn)式光流估計(jì)。
19、在一個(gè)示范性實(shí)施方式中,后處理模型基于restormer模型。
20、在另一方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)控制所述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行上述用于數(shù)字圖像集壓縮的計(jì)算機(jī)實(shí)現(xiàn)的方法。
21、在另一方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)控制所述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行上述用于從包括公共知識(shí)流、唯一掩膜流和唯一紋理流的多個(gè)比特流重建數(shù)字圖像集的方法。
22、因此,本發(fā)明的實(shí)施例提出了在知識(shí)級(jí)別上消除圖像集合中的冗余的方案,其中知識(shí)表征了圖像之間的高層次關(guān)系和相關(guān)性,具體而言是將圖像集合中的每個(gè)圖像分解為三個(gè)組成部分:公共知識(shí)、唯一掩膜和唯一紋理。所有圖像共享的公共知識(shí)用于減少圖像之間的冗余。對(duì)于每個(gè)圖像而言,提取出唯一掩膜,形成視頻序列,隨后通過(guò)基于特征的最小生成樹(shù)和深度優(yōu)先搜索算法的視頻編解碼器進(jìn)行壓縮。在給定公共知識(shí)和唯一掩膜的條件下,對(duì)唯一紋理進(jìn)行壓縮。本發(fā)明具有高效性、靈活性和可擴(kuò)展性,能夠有效地消除圖像之間的集合冗余(即使圖像之間只存在低相關(guān)性也是如此)以及單個(gè)圖像內(nèi)部的冗余。實(shí)驗(yàn)結(jié)果表明,本發(fā)明的實(shí)施例提出的方案在信號(hào)質(zhì)量、感知質(zhì)量和下游任務(wù)的高精確度方面取得了更好的表現(xiàn)。
23、上述
技術(shù)實(shí)現(xiàn)要素:
既不是為了定義本申請(qǐng)要求保護(hù)的發(fā)明(這是由權(quán)利要求書(shū)記載的),也不是為了以任何方式限制本發(fā)明的范圍。
1.一種用于數(shù)字圖像集壓縮的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述圖像集包括多個(gè)原始圖像;其特征在于,該方法包括以下步驟:
2.如權(quán)利要求1所述的方法,其中所述公共知識(shí)從所述多個(gè)原始圖像中的主參考圖像中提取。
3.如權(quán)利要求2所述的方法,其中所述主參考圖像通過(guò)以下步驟而確定:
4.如權(quán)利要求1所述的方法,其中所述對(duì)所述公共知識(shí)進(jìn)行壓縮的步驟,還包括:
5.如權(quán)利要求1所述的方法,其中所述分解步驟還包括:通過(guò)u2-net顯著性檢測(cè)方法和alpha?matting技術(shù)來(lái)從所述多個(gè)原始圖像的每一個(gè)中提取所述唯一掩膜。
6.如權(quán)利要求1所述的方法,其中所述壓縮步驟還包括:
7.如權(quán)利要求6所述的方法,其中所述預(yù)定順序?yàn)樯疃葍?yōu)先搜索順序。
8.如權(quán)利要求1所述的方法,其中所述壓縮步驟還包括:在給定所述公共知識(shí)和所述唯一掩膜的條件下,對(duì)所述唯一紋理進(jìn)行壓縮。
9.如權(quán)利要求8所述的方法,其中所述對(duì)所述唯一紋理進(jìn)行壓縮的步驟,還包括:
10.如權(quán)利要求4或9所述的方法,其中所述對(duì)齊步驟為從粗糙到精細(xì)的對(duì)齊。
11.如權(quán)利要求9所述的方法,其中所述對(duì)齊步驟還包括:
12.如權(quán)利要求9所述的方法,其中所述可逆神經(jīng)模塊通過(guò)使用訓(xùn)練對(duì)來(lái)進(jìn)行訓(xùn)練;該訓(xùn)練對(duì)包括訓(xùn)練圖像集中的一個(gè)原始對(duì)象圖像,以及同一訓(xùn)練圖像集中的另一個(gè)解碼對(duì)象圖像。
13.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,用于從包括公共知識(shí)流、唯一掩膜流和唯一紋理流的多個(gè)比特流重建數(shù)字圖像集;該方法包括以下步驟:
14.根據(jù)權(quán)利要求13所述的方法,其中所述解碼所述多個(gè)唯一紋理的步驟,還包括:在給定已解碼的所述公共知識(shí)和所述唯一掩膜的條件下,對(duì)所述唯一紋理進(jìn)行解碼。
15.根據(jù)權(quán)利要求13所述的方法,還包括使用后處理模型,利用對(duì)齊的所述公共知識(shí)作為指導(dǎo)來(lái)增強(qiáng)己重建的所述數(shù)字圖像集的感知質(zhì)量。
16.根據(jù)權(quán)利要求15所述的方法,其中所述增強(qiáng)已重建的所述數(shù)字圖像集的感知質(zhì)量的步驟,還包括:
17.如權(quán)利要求16所述的方法,其中所述對(duì)齊步驟為從粗糙到精細(xì)的對(duì)齊。
18.如權(quán)利要求17所述的方法,其中所述對(duì)齊步驟包括:
19.如權(quán)利要求15所述的方法,其中所述后處理模型基于restormer模型。
20.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)控制所述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行權(quán)利要求1所述的方法。
21.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)控制所述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行權(quán)利要求13所述的方法。