本發(fā)明實(shí)施例中的至少一個(gè)實(shí)施例總體上涉及一種用于使用神經(jīng)網(wǎng)絡(luò)對(duì)視頻數(shù)據(jù)進(jìn)行編碼和解碼的方法和裝置,并且具體地,涉及一種允許共享神經(jīng)網(wǎng)絡(luò)信息從而在解碼器側(cè)允許靈活推理過(guò)程的方法。
背景技術(shù):
1、為了實(shí)現(xiàn)高壓縮效率,視頻編碼方案通常采用預(yù)測(cè)和變換來(lái)利用視頻內(nèi)容中的空間和時(shí)間冗余。在編碼期間,將視頻內(nèi)容的圖片劃分為樣本塊(即,像素),然后將這些塊分割為一個(gè)或多個(gè)子塊(以下稱為原始子塊)。然后,對(duì)每個(gè)子塊應(yīng)用幀內(nèi)或幀間預(yù)測(cè)以利用圖像內(nèi)或圖像間的相關(guān)性。無(wú)論使用哪種預(yù)測(cè)方法(幀內(nèi)或幀間),都針對(duì)每個(gè)原始子塊確定預(yù)測(cè)子塊。然后,對(duì)表示原始子塊與預(yù)測(cè)子塊之間的差異的子塊(通常表示為預(yù)測(cè)誤差子塊、預(yù)測(cè)殘差子塊或簡(jiǎn)稱為殘差子塊)進(jìn)行變換、量化和熵編碼,以生成編碼的視頻流。為了重建視頻,通過(guò)與變換、量化和熵編碼相對(duì)應(yīng)的逆過(guò)程來(lái)解碼壓縮數(shù)據(jù)。
2、在最近探索的視頻編碼解決方案中,已經(jīng)提出了例如在后濾波階段或用于塊預(yù)測(cè)的基于神經(jīng)網(wǎng)絡(luò)的處理。在實(shí)際使用之前,需要訓(xùn)練神經(jīng)網(wǎng)絡(luò)以便能夠提供準(zhǔn)確的結(jié)果。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是通常需要針對(duì)大量輸入數(shù)據(jù)將由神經(jīng)網(wǎng)絡(luò)提供的輸出數(shù)據(jù)與這些輸出數(shù)據(jù)的預(yù)期值進(jìn)行比較的計(jì)算密集型過(guò)程。一旦經(jīng)過(guò)訓(xùn)練,神經(jīng)網(wǎng)絡(luò)就可以將其學(xué)到的內(nèi)容應(yīng)用于輸入數(shù)據(jù),即使在訓(xùn)練過(guò)程期間從未考慮過(guò)這些輸入數(shù)據(jù)也是如此。將經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)應(yīng)用于輸入數(shù)據(jù)以獲得輸出數(shù)據(jù)的過(guò)程被稱為推理。
3、在視頻壓縮領(lǐng)域眾所周知,在編碼器側(cè)應(yīng)用的過(guò)程應(yīng)可在解碼器側(cè)完全復(fù)制,以確保編碼器與解碼器之間沒(méi)有漂移。這同樣適用于在編碼器和解碼器的預(yù)測(cè)環(huán)路中應(yīng)用的基于神經(jīng)網(wǎng)絡(luò)(nn)的過(guò)程。這種對(duì)可復(fù)制性的要求意味著在解碼器側(cè)推理的輸出數(shù)據(jù)應(yīng)與在編碼器側(cè)推理的輸出數(shù)據(jù)相同。另外,通常預(yù)期兩個(gè)解碼器(可能具有不同的實(shí)現(xiàn)方式)系統(tǒng)地提供相同的結(jié)果。然而,通常將編碼器和解碼器設(shè)計(jì)為具有不同的軟件或硬件約束。例如,編碼器可以能夠比解碼器在存儲(chǔ)器中存儲(chǔ)更多的數(shù)據(jù)。處理速度通常是關(guān)鍵問(wèn)題的解碼器與沒(méi)有相同處理速度問(wèn)題的編碼器相比可以能夠并行處理更多的數(shù)據(jù)。在智能手機(jī)中實(shí)現(xiàn)的解碼器與在pc上實(shí)現(xiàn)的解碼器相比通常沒(méi)有相同的硬件約束。在這種情況下,編碼器和解碼器的開(kāi)發(fā)者在設(shè)計(jì)基于nn的過(guò)程的推理過(guò)程時(shí)應(yīng)留出盡可能多的靈活性,同時(shí)首先確保由編碼器側(cè)的基于nn的環(huán)內(nèi)過(guò)程提供的輸出在解碼器側(cè)的可復(fù)制性,并且其次確保具有不同實(shí)現(xiàn)方式的兩個(gè)解碼器提供相同的結(jié)果。
4、期望提出能克服上述問(wèn)題的解決方案。特別地,期望提出允許確保nn推理過(guò)程的推理過(guò)程的靈活性的解決方案。
技術(shù)實(shí)現(xiàn)思路
1、在第一方面,本發(fā)明實(shí)施例中的一個(gè)或多個(gè)提供了一種方法,所述方法包括:
2、獲得視頻流;
3、獲得與所述視頻流相關(guān)聯(lián)的元數(shù)據(jù),所述元數(shù)據(jù)表示用于基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具的推理過(guò)程的面片(patch)周?chē)娜菰S余量;以及
4、應(yīng)用所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具對(duì)所述視頻流進(jìn)行解碼。
5、在實(shí)施例中,所述容許余量取決于感受野,所述感受野取決于所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的神經(jīng)網(wǎng)絡(luò)。
6、在實(shí)施例中,所述元數(shù)據(jù)包括表示至少一個(gè)句法元素,該至少一個(gè)句法元素取決于所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的所述感受野。
7、在實(shí)施例中,所述至少一個(gè)句法元素包括:豎直定義所述感受野的第一句法元素和水平定義所述感受野的第二句法元素。
8、在實(shí)施例中,通過(guò)將表示取決于所述神經(jīng)網(wǎng)絡(luò)的所述感受野的至少一個(gè)值與在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片周?chē)挠嗔窟M(jìn)行比較,確定所述推理過(guò)程處理比在所述基于神經(jīng)網(wǎng)路的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片大小更大的面片的能力。
9、在實(shí)施例中,在所述元數(shù)據(jù)中通過(guò)句法元素來(lái)指定所述推理過(guò)程處理比在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片大小更大的面片的能力。
10、在實(shí)施例中,所述元數(shù)據(jù)包括至少一個(gè)句法元素,所述至少一個(gè)句法元素表示至少一個(gè)偏移,所述至少一個(gè)偏移被添加到表示取決于所述神經(jīng)網(wǎng)絡(luò)的所述感受野的值或在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片周?chē)挠嗔?,響?yīng)于由所述推理過(guò)程基于當(dāng)前面片的位置處理所述當(dāng)前面片而使用偏移,所述當(dāng)前面片的大小小于在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片大小。
11、在實(shí)施例中,所述元數(shù)據(jù)包括至少一個(gè)句法元素,所述至少一個(gè)句法元素表示所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具的所述推理過(guò)程的輸出面片在由所述推理過(guò)程生成的輸出張量中的位置。
12、在第二方面,本發(fā)明實(shí)施例中的一個(gè)或多個(gè)提供了一種方法,所述方法包括:
13、獲得視頻流;以及
14、以與所述視頻流相關(guān)聯(lián)的元數(shù)據(jù)的形式發(fā)信號(hào)通知表示用于基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具的推理過(guò)程的面片周?chē)娜菰S余量的信息。
15、在實(shí)施例中,所述容許余量取決于感受野,所述感受野取決于所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的神經(jīng)網(wǎng)絡(luò)。
16、在實(shí)施例中,所述元數(shù)據(jù)包括至少一個(gè)句法元素,該至少一個(gè)句法元素表示取決于所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具上使用的所述神經(jīng)網(wǎng)絡(luò)的所述感受野。
17、在實(shí)施例中,所述至少一個(gè)句法元素包括:豎直定義所述感受野的第一句法元素和水平定義所述感受野的第二句法元素。
18、在實(shí)施例中,通過(guò)將表示取決于所述神經(jīng)網(wǎng)絡(luò)的所述感受野的至少一個(gè)值與在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片周?chē)挠嗔窟M(jìn)行比較,確定所述推理過(guò)程處理比在所述基于神經(jīng)網(wǎng)路的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片大小更大的面片的能力。
19、在實(shí)施例中,在所述元數(shù)據(jù)中通過(guò)句法元素來(lái)指定所述推理過(guò)程處理比在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片大小更大的面片的能力。
20、在實(shí)施例中,所述元數(shù)據(jù)包括至少一個(gè)句法元素,所述至少一個(gè)句法元素表示至少一個(gè)偏移,所述至少一個(gè)偏移被添加到表示取決于所述神經(jīng)網(wǎng)絡(luò)的所述感受野的值或在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片周?chē)挠嗔?,響?yīng)于由所述推理過(guò)程基于當(dāng)前面片的位置處理所述當(dāng)前面片而使用偏移,所述當(dāng)前面片的大小小于在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片大小。
21、在實(shí)施例中,所述元數(shù)據(jù)包括至少一個(gè)句法元素,所述至少一個(gè)句法元素表示所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具的所述推理過(guò)程的輸出面片在由所述推理過(guò)程生成的輸出張量中的位置。
22、在實(shí)施例中,通過(guò)對(duì)原始視頻應(yīng)用視頻壓縮過(guò)程來(lái)獲得所述視頻流,所述視頻壓縮過(guò)程包括在所述視頻壓縮過(guò)程的預(yù)測(cè)環(huán)路中的所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具,或者作為后處理工具的所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具。
23、在第三方面,本發(fā)明實(shí)施例中的一個(gè)或多個(gè)提供了一種信號(hào),所述信號(hào)包括與視頻流相關(guān)聯(lián)的元數(shù)據(jù),所述元數(shù)據(jù)表示用于基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具的推理過(guò)程的面片周?chē)娜菰S余量。
24、在第四方面,本發(fā)明實(shí)施例中的一個(gè)或多個(gè)提供了一種計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括用于實(shí)現(xiàn)第一方面或第二方面的方法的程序代碼指令。
25、在第五方面,本發(fā)明實(shí)施例中的一個(gè)或多個(gè)提供了一種非暫時(shí)性信息存儲(chǔ)介質(zhì),所述非暫時(shí)性信息存儲(chǔ)介質(zhì)包括用于實(shí)現(xiàn)第一方面或第二方面的方法的程序代碼指令。
26、在第六方面,本發(fā)明實(shí)施例中的一個(gè)或多個(gè)提供了一種裝置,所述裝置包括電子電路,所述電子電路被配置為:
27、獲得視頻流;
28、獲得與所述視頻流相關(guān)聯(lián)的元數(shù)據(jù),所述元數(shù)據(jù)表示用于基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具的推理過(guò)程的面片周?chē)娜菰S余量;以及
29、應(yīng)用所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具對(duì)所述視頻流進(jìn)行解碼。
30、在實(shí)施例中,所述容許余量取決于感受野,所述感受野取決于所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的神經(jīng)網(wǎng)絡(luò)。
31、在實(shí)施例中,所述元數(shù)據(jù)包括至少一個(gè)句法元素,該至少一個(gè)句法元素表示取決于所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的所述感受野。
32、在實(shí)施例中,所述至少一個(gè)句法元素包括:豎直定義所述感受野的第一句法元素和水平定義所述感受野的第二句法元素。
33、在實(shí)施例中,通過(guò)將表示取決于所述神經(jīng)網(wǎng)絡(luò)的所述感受野的至少一個(gè)值與在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片周?chē)挠嗔窟M(jìn)行比較,確定所述推理過(guò)程處理比在所述基于神經(jīng)網(wǎng)路的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片大小更大的面片的能力。
34、在實(shí)施例中,在所述元數(shù)據(jù)中通過(guò)句法元素來(lái)指定所述推理過(guò)程處理比在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片大小更大的面片的能力。
35、在實(shí)施例中,所述元數(shù)據(jù)包括至少一個(gè)句法元素,所述至少一個(gè)句法元素表示至少一個(gè)偏移,所述至少一個(gè)偏移被添加到表示取決于所述神經(jīng)網(wǎng)絡(luò)的所述感受野的值或在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片周?chē)挠嗔?,響?yīng)于由所述推理過(guò)程基于當(dāng)前面片的位置處理所述當(dāng)前面片而使用偏移,所述當(dāng)前面片的大小小于在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片大小。
36、在實(shí)施例中,所述元數(shù)據(jù)包括至少一個(gè)句法元素,所述至少一個(gè)句法元素表示所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具的所述推理過(guò)程的輸出面片在由所述推理過(guò)程生成的輸出張量中的位置。
37、在第七方面,本發(fā)明實(shí)施例中的一個(gè)或多個(gè)提供了一種裝置,所述裝置包括電子電路,所述電子電路被配置為:
38、獲得視頻流;以及
39、以與所述視頻流相關(guān)聯(lián)的元數(shù)據(jù)的形式發(fā)信號(hào)通知表示用于基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具的推理過(guò)程的面片周?chē)娜菰S余量的信息。
40、在實(shí)施例中,所述容許余量取決于感受野,所述感受野取決于所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的神經(jīng)網(wǎng)絡(luò)。
41、在實(shí)施例中,所述元數(shù)據(jù)包括至少一個(gè)句法元素,該至少一個(gè)句法元素表示取決于所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具上使用的所述神經(jīng)網(wǎng)絡(luò)的所述感受野。
42、在實(shí)施例中,所述至少一個(gè)句法元素包括:豎直定義所述感受野的第一句法元素和水平定義所述感受野的第二句法元素。
43、在實(shí)施例中,通過(guò)將表示取決于所述神經(jīng)網(wǎng)絡(luò)的所述感受野的至少一個(gè)值與在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片周?chē)挠嗔窟M(jìn)行比較,確定所述推理過(guò)程處理比在所述基于神經(jīng)網(wǎng)路的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片大小更大的面片的能力。
44、在實(shí)施例中,在所述元數(shù)據(jù)中通過(guò)句法元素來(lái)指定所述推理過(guò)程處理比在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片大小更大的面片的能力。
45、在實(shí)施例中,所述元數(shù)據(jù)包括至少一個(gè)句法元素,所述至少一個(gè)句法元素表示至少一個(gè)偏移,所述至少一個(gè)偏移被添加到表示取決于所述神經(jīng)網(wǎng)絡(luò)的所述感受野的值或在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片周?chē)挠嗔?,響?yīng)于由所述推理過(guò)程基于當(dāng)前面片的位置處理所述當(dāng)前面片而使用偏移,所述當(dāng)前面片的大小小于在所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具中使用的所述神經(jīng)網(wǎng)絡(luò)的定義期間考慮的面片大小。
46、在實(shí)施例中,所述元數(shù)據(jù)包括至少一個(gè)句法元素,所述至少一個(gè)句法元素表示所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具的所述推理過(guò)程的輸出面片在由所述推理過(guò)程生成的輸出張量中的位置。
47、在實(shí)施例中,通過(guò)對(duì)原始視頻應(yīng)用視頻壓縮過(guò)程來(lái)獲得所述視頻流,所述視頻壓縮過(guò)程包括在所述視頻壓縮過(guò)程的預(yù)測(cè)環(huán)路中的所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具,或者作為后處理工具的所述基于神經(jīng)網(wǎng)絡(luò)的圖像處理工具。