本發(fā)明涉及計(jì)算機(jī)視覺領(lǐng)域,特別涉及一種融合神經(jīng)種群編碼模型的3D主觀質(zhì)量預(yù)測方法。
背景技術(shù):
在MPEG標(biāo)準(zhǔn)下,3D視頻是以MVD(Multiview Video plus Depth,多視點(diǎn)視頻加深度)格式表示的。在這種格式下,有限視點(diǎn)的紋理圖及對應(yīng)深度圖在視頻發(fā)送端被編碼傳輸,在視頻接收端被解碼后,通過視點(diǎn)合成技術(shù),利用有限視點(diǎn)的紋理圖和深度圖合成無限多視點(diǎn)的紋理圖。視點(diǎn)合成技術(shù)通常具有非常大的計(jì)算量,所以怎樣基于深度圖的質(zhì)量去預(yù)測合成視點(diǎn)的3D質(zhì)量成為非常有意義同時(shí)也具有挑戰(zhàn)性的工作。
為了建立基于深度圖的合成視點(diǎn)質(zhì)量預(yù)測模型,很多研究就此展開。但是更多的研究工作只面向合成圖的客觀質(zhì)量和深度圖質(zhì)量的關(guān)系,并沒有考慮合成視點(diǎn)的3D主觀質(zhì)量?;蛘邚膩G包率引起的深度圖失真對合成圖的質(zhì)量做了探究。并未有模型從深度圖的紋理特征出發(fā)考慮其對合成視點(diǎn)的影響。深度圖有著不同于紋理圖的紋理特征,深度圖是由一些尖銳的邊界區(qū)和一些大面積相似值的平坦區(qū)組成,兩者的失真對合成視點(diǎn)的影響必然有所不同。
另外,計(jì)算神經(jīng)學(xué)理論中,人眼在觀看3D圖像時(shí),視覺神經(jīng)細(xì)胞對視差的不同響應(yīng)很好反映了人眼對3D多媒體的體驗(yàn)效果,因此,建立一種融合神經(jīng)種群編碼模型的3D主觀質(zhì)量預(yù)測方法是亟待解決的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明目的就是為解決融合神經(jīng)種群編碼模型的3D主觀質(zhì)量預(yù)測的問題。
本發(fā)明的技術(shù)問題通過以下的技術(shù)方案予以解決:
一種融合神經(jīng)種群編碼模型的3D主觀質(zhì)量預(yù)測方法,包括如下步驟:
S1、建立基于支持向量回歸的3D主觀質(zhì)量預(yù)測模型;
S2、基于失真深度圖得到視差圖;
S3、計(jì)算視差圖在神經(jīng)種群編碼模型下的13維響應(yīng);
S4、將所述13維響應(yīng)聯(lián)合失真深度圖的紋理特征和失真特征參數(shù)作為3D主觀質(zhì)量預(yù)測模型的輸入,得到3D圖像體驗(yàn)質(zhì)量值。
根據(jù)本發(fā)明的另一個(gè)具體方面,步驟S1中所述3D主觀質(zhì)量預(yù)測模型的數(shù)學(xué)形式為:
其中p為預(yù)測得到的主觀質(zhì)量分?jǐn)?shù),該分?jǐn)?shù)為平均主觀意見分MOS(Mean Opinion Score)值,取值范圍為1-5,其中1代表3D體驗(yàn)非常不舒服,5代表3D體驗(yàn)非常舒服。xv為深度圖中提取的特征向量,xj為訓(xùn)練集中的特征向量。l為訓(xùn)練集的大小,αj,σ2和b是在訓(xùn)練集上訓(xùn)練得到的參數(shù)。
根據(jù)本發(fā)明的另一個(gè)具體方面,訓(xùn)練集上訓(xùn)練過程包括如下步驟:
S11、建立數(shù)據(jù)庫;
S12、進(jìn)行支持向量回歸SVR(Support Vector Regression,)訓(xùn)練,對數(shù)據(jù)做歸一化;
S13、應(yīng)用高斯核函數(shù);
S14、用交叉驗(yàn)證和網(wǎng)格搜索法得到最優(yōu)的參數(shù)。
根據(jù)本發(fā)明的另一個(gè)具體方面,步驟S11中,在高碼率與低碼率兩種碼率下,分別選取MPEG標(biāo)準(zhǔn)測試序列M個(gè)場景的圖片,每個(gè)場景變化N個(gè)平坦塊的編碼參數(shù)得到紋理平坦失真比變化的深度圖;利用失真深度圖和固定質(zhì)量的紋理圖合成3D圖片在標(biāo)準(zhǔn)測試環(huán)境下進(jìn)行主觀實(shí)驗(yàn)評分得到圖像的主觀質(zhì)量值;最終得到一個(gè)大小為M×N×2的3D圖像數(shù)據(jù)集。
根據(jù)本發(fā)明的另一個(gè)具體方面,步驟S12中,運(yùn)用開發(fā)軟件matlab的支持向量機(jī)svm(Support Vector Machine)工具箱可以非常便捷的完成SVR訓(xùn)練,歸一化就是指把數(shù)據(jù)都按比例轉(zhuǎn)成0—1之間的數(shù)字。
根據(jù)本發(fā)明的另一個(gè)具體方面,步驟S2中
失真深度圖中的深度值到世界坐標(biāo)系中的深度值轉(zhuǎn)化關(guān)系如下,
其中v是失真深度圖中的深度值,znear是圖中最靠近相機(jī)的深度值,zfar是最遠(yuǎn)離相機(jī)坐標(biāo)點(diǎn)的實(shí)際深度值。
根據(jù)本發(fā)明的另一個(gè)具體方面,步驟S3中,視覺神經(jīng)細(xì)胞對于視差的響應(yīng)由以下公式擬合:
其中,i代表第i種神經(jīng)細(xì)胞的d是每個(gè)像素點(diǎn)以角度定義的視差;是基本響應(yīng);Ai是高斯核的振幅;是高斯函數(shù)的中心;σi是高斯函數(shù)的標(biāo)準(zhǔn)差;fi是頻率;Φi是相位。
根據(jù)本發(fā)明的另一個(gè)具體方面,步驟S3中神經(jīng)種群編碼模型下的13維響應(yīng),其中第i種神經(jīng)細(xì)胞反應(yīng)的期望以下列公式擬合:
其中,P[d]是視差d的概率。
根據(jù)本發(fā)明的另一個(gè)具體方面,步驟S4中所述紋理特征和失真特征,包括:失真深度圖的紋理塊個(gè)數(shù)占比、紋理塊的平均塊失真、紋理塊與平坦塊的失真比。
根據(jù)本發(fā)明的另一個(gè)具體方面,所述紋理塊指在深度圖中紋理復(fù)雜度大于紋理復(fù)雜度閾值的編碼塊;
所述平坦塊指在深度圖中紋理復(fù)雜度小于所述紋理復(fù)雜度閾值的編碼塊;
所述紋理塊個(gè)數(shù)占比指在深度圖中紋理塊的個(gè)數(shù)與編碼塊總數(shù)之比;
所述紋理塊的平均塊失真指在失真深度圖中每個(gè)紋理塊相對于對應(yīng)的參考深度圖的紋理塊的失真之和的算術(shù)平均值;
所述平坦塊的平均塊失真指在失真深度圖中每個(gè)平坦塊相對于對應(yīng)的參考深度圖中的平坦塊的失真之和的算術(shù)平均值;
所述紋理塊與平坦塊的失真比指紋理塊的平均塊失真與平坦塊的平均塊失真之比。
本發(fā)明與現(xiàn)有技術(shù)對比的有益效果是:
本發(fā)明的方法,提供了一種融合神經(jīng)種群編碼模型的3D主觀質(zhì)量預(yù)測方法,將深度圖轉(zhuǎn)化為視差圖,根據(jù)神經(jīng)種群編碼理論,該3D主觀質(zhì)量預(yù)測模型對視差的輸出響應(yīng)作為一部分特征,再融合深度圖獨(dú)特的紋理特征,找到深度圖特征與3D圖像主觀感知質(zhì)量的關(guān)系模型,從而根據(jù)失真深度圖的質(zhì)量預(yù)測合成視點(diǎn)的3D主觀質(zhì)量。
附圖說明
圖1是一種本發(fā)明的流程圖;
圖2是角度定義視差示意圖。
具體實(shí)施方式
如圖1是融合神經(jīng)種群編碼模型的3D主觀質(zhì)量預(yù)測方法的流程圖,不同于客觀質(zhì)量,3D主觀質(zhì)量涉及因素太多,主觀因素很大,人類感知3D以及圖像的機(jī)理復(fù)雜。
其中建立基于支持向量回歸的3D主觀質(zhì)量預(yù)測模型包括:
應(yīng)用機(jī)器學(xué)習(xí)的模型自學(xué)習(xí)的能力建模,模型采用支持向量回歸,模型的具體數(shù)學(xué)形式為
其中p為預(yù)測得到的主觀質(zhì)量分?jǐn)?shù),該分?jǐn)?shù)為MOS(Mean Opinion Score)值,取值范圍為1-5,其中1代表非常不舒服,5代表3D體驗(yàn)非常舒服。xv為深度圖中提取的特征向量,xj為訓(xùn)練集中的特征向量。l為訓(xùn)練集的大小,αj,σ2和b是在訓(xùn)練集上訓(xùn)練得到的參數(shù)。
在模式識別領(lǐng)域,數(shù)據(jù)集分為訓(xùn)練集和測試集,訓(xùn)練集用來訓(xùn)練建立模型,測試集不參與訓(xùn)練,用來檢驗(yàn)?zāi)P蜏?zhǔn)確性。
模型的建立步驟如下:
1.選取MPEG標(biāo)準(zhǔn)測試序列M個(gè)場景的圖片,每個(gè)場景變化N個(gè)平坦塊的編碼參數(shù)得到紋理平坦失真比變化的深度圖,在高碼率與低碼率兩種碼率情況下重復(fù)上述操作。利用失真深度圖和固定質(zhì)量的紋理圖合成3D圖片在標(biāo)準(zhǔn)測試環(huán)境下進(jìn)行主觀實(shí)驗(yàn)評分得到圖像的主觀質(zhì)量值。最終得到一個(gè)大小為M×N×2的3D圖像數(shù)據(jù)集。每一條數(shù)據(jù)包括失真的深度圖,以該深度圖為輸入合成的3D圖像,以及圖像的主觀質(zhì)量值。
在3D視頻圖像領(lǐng)域,有深度圖和紋理圖,紋理圖也就是彩色圖,與深度圖一起可以用來合成3D圖片。
2、根據(jù)深度圖得到視差圖。
深度圖中的深度值到世界坐標(biāo)系中的深度值轉(zhuǎn)化關(guān)系如下,
其中v是深度圖中的深度值,znear是圖中最靠近相機(jī)的深度值,zfar是最遠(yuǎn)離相機(jī)坐標(biāo)點(diǎn)的實(shí)際深度值.如圖2所示為角度定義視差的示意圖,b是相機(jī)的基線,z是世界坐標(biāo)系的實(shí)際深度值.點(diǎn)A,B,C分別代表聚焦在屏幕前,聚焦在屏幕上,和聚焦在屏幕后的像素點(diǎn)。θ0,θ1,θ2是對應(yīng)的聚焦角度.所以用角度表示A,C的視差,公式如下:
dA=θ0-θ1,dC=θ2-θ1,
其中θ0,θ1,θ2可以通過b和z的關(guān)系計(jì)算。
3、計(jì)算視差圖在神經(jīng)種群編碼模型下的13維響應(yīng);得到以角度表示的視差圖之后,代入神經(jīng)種群編碼模型,13種視覺神經(jīng)細(xì)胞的對于視差的響應(yīng)被以下公式擬合:
其中,i代表第i種神經(jīng)細(xì)胞的d是每個(gè)像素點(diǎn)以角度定義的視差;是基本響應(yīng);Ai是高斯核的振幅;是高斯函數(shù)的中心;σi是高斯函數(shù)的標(biāo)準(zhǔn)差;fi是頻率;Φi是相位.第i種神經(jīng)細(xì)胞反應(yīng)的期望E[ri]計(jì)算公式如下:
P[d]是視差d的概率.13個(gè)E[ri]值即為視差圖在神經(jīng)種群編碼模型下的13維響應(yīng)。
4.計(jì)算3維深度圖的紋理特征和失真特征。其中深度圖的紋理特征和失真特征包括失真深度圖的紋理塊個(gè)數(shù)占比、紋理塊的平均塊失真、紋理塊與平坦塊的失真比;
其中,所述紋理塊指在深度圖中紋理復(fù)雜度大于紋理復(fù)雜度閾值的編碼塊,所述平坦塊指在深度圖中紋理復(fù)雜度小于所述紋理復(fù)雜度閾值的編碼塊,所述紋理塊個(gè)數(shù)占比指在深度圖中紋理塊的個(gè)數(shù)與編碼塊總數(shù)之比,所述紋理塊的平均塊失真指在失真深度圖中每個(gè)紋理塊相對于對應(yīng)的參考深度圖的紋理塊的失真之和的算術(shù)平均值,所述平坦塊的平均塊失真指在失真深度圖中每個(gè)平坦塊相對于對應(yīng)的參考深度圖中的平坦塊的失真之和的算術(shù)平均值,所述紋理塊與平坦塊的失真比指紋理塊的平均塊失真與平坦塊的平均塊失真之比。
5、對數(shù)據(jù)集進(jìn)行SVR訓(xùn)練。數(shù)據(jù)集每一條數(shù)據(jù)包括13維響應(yīng)聯(lián)合深度圖的紋理特征和失真特征等16維參數(shù),以及主觀質(zhì)量值。對該數(shù)據(jù)集進(jìn)行SVR訓(xùn)練,首先對數(shù)據(jù)做歸一化,在此應(yīng)用高斯核函數(shù)RBF kernel,具體公式形式見公式(1),用交叉驗(yàn)證(cross-validation)和網(wǎng)格搜索法(grid-search)選取公式中最優(yōu)的參數(shù),得到3D主觀質(zhì)量預(yù)測模型的具體形式。
以上內(nèi)容是結(jié)合具體的/優(yōu)選的實(shí)施方式對本發(fā)明所作的進(jìn)一步詳細(xì)說明,不能認(rèn)定本發(fā)明的具體實(shí)施只局限于這些說明。對于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,其還可以對這些已描述的實(shí)施例做出若干替代或變型,而這些替代或變型方式都應(yīng)當(dāng)視為屬于本發(fā)明的保護(hù)范圍。