專(zhuān)利名稱(chēng):生成用于評(píng)估圖像或視頻質(zhì)量的質(zhì)量導(dǎo)向重要性圖的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種生成質(zhì)量導(dǎo)向重要性圖的方法,其中該質(zhì)量導(dǎo)向重要性圖用于評(píng)估圖像或視頻的質(zhì)量。
背景技術(shù):
視覺(jué)失真度量在監(jiān)控廣播圖像/視頻質(zhì)量、控制壓縮效率和改進(jìn)圖像增強(qiáng)處理中扮演了重要的角色。通常有兩類(lèi)質(zhì)量或失真評(píng)估途徑。第一類(lèi)基于在數(shù)學(xué)上定義的測(cè)量,例如廣泛使用的均方誤差(MSE),峰值信噪比(PSNR)等。第二類(lèi)基于通過(guò)模擬人類(lèi)視覺(jué)系統(tǒng)(HVS)特性對(duì)失真的測(cè)量。
在第一類(lèi)途徑中,MSE定義為MSE=1N2ΣiΣj(ci,j-c^i,j)2]]>其中,Ci,j和 分別為原圖像和失真圖像中的像素值。PSNR定義為PSNR=10log102552MSE]]>第一類(lèi)途徑的優(yōu)點(diǎn)在于其在數(shù)學(xué)上簡(jiǎn)單且運(yùn)算復(fù)雜度小。因此,第一類(lèi)途徑被廣泛采用。
而第二類(lèi)途徑針對(duì)與人類(lèi)視覺(jué)相近的感知效果,從而在視覺(jué)評(píng)估和信息處理中得到更好的準(zhǔn)確性。然而,由于對(duì)HVS的不完全理解以及將生理學(xué)和/或心理學(xué)發(fā)現(xiàn)綜合到HVS的滯后,第二類(lèi)途徑的性能依然不令人滿(mǎn)意。
生理學(xué)和心理學(xué)研究表明圖像或視頻的觀察者并不會(huì)對(duì)圖像或視頻的所有視覺(jué)信息產(chǎn)生注意,而僅僅集中在某些區(qū)域。這種觀察者的視覺(jué)注意信息在許多應(yīng)用的HVS中得到使用,例如,用于視覺(jué)感知中搜索過(guò)程的計(jì)算,或用于估計(jì)圖像或視頻的質(zhì)量。
視覺(jué)注意可以通過(guò)自底向上過(guò)程或者自頂向下過(guò)程來(lái)實(shí)現(xiàn)。在自底向上過(guò)程中,視覺(jué)注意基于來(lái)自圖像/視頻的視覺(jué)特征的激勵(lì),且該圖像/視頻的特征圖(saliency map)基于這種激勵(lì)形成。基于激勵(lì)的視覺(jué)特征的例子包括亮度、顏色、運(yùn)動(dòng)、形狀等。在自頂向下過(guò)程中,圖像/視頻的特征圖基于現(xiàn)有/領(lǐng)域知識(shí)或者基于來(lái)自聲音之類(lèi)的其他已知信息的指示而形成。
披露了一種方法,其結(jié)合三個(gè)因素,即相關(guān)性損失,亮度失真和對(duì)比度失真,來(lái)衡量圖像的失真。
提出了無(wú)參質(zhì)量量度100,如圖1所示。失真圖像/視頻101由人工提取單元102接收以檢測(cè)圖像/視頻101的模糊或塊狀(blurring andblockiness)分布。這種模糊或塊狀的分布屬性在區(qū)別單元103中被加以區(qū)別,以產(chǎn)生表示失真圖像/視頻101的失真值的輸出信號(hào)104。
根據(jù)[1]和[2]的方法屬于第一類(lèi)途徑,從而,與第二類(lèi)途徑相比其不能提供接近于人類(lèi)感知的結(jié)果。
提出了基于視頻分解和空間/時(shí)間遮蔽的度量200,如圖2所示。參考圖像/視頻201和失真圖像/視頻202分別被信號(hào)分解單元203和204接收。分解信號(hào)205,206分別被用于該分解信號(hào)205、206的空間/時(shí)間遮蔽的對(duì)比度增益控制單元207和208接收。處理后的信號(hào)209,210分別由檢測(cè)和合成單元111處理以產(chǎn)生表示失真圖像/頻202的失真值的輸出信號(hào)212。
使用了神經(jīng)網(wǎng)絡(luò),結(jié)合多種視覺(jué)特征來(lái)衡量圖像/視頻的質(zhì)量,如圖3所示。參考圖像/視頻301和失真圖像/視頻302被輸入到多個(gè)特征提取單元303以提取圖像/視頻301、302的各種特征。提取出的特征304由神經(jīng)網(wǎng)絡(luò)305接收以產(chǎn)生失真圖像/視頻302的失真值305。
披露了一種通過(guò)對(duì)幾種視覺(jué)激勵(lì)賦予不同權(quán)重來(lái)評(píng)價(jià)視頻的感知質(zhì)量的方法。
參考文獻(xiàn)[4]和[5]對(duì)整個(gè)圖像或視頻進(jìn)行平等的處理,從而由于圖像/視頻中的非重要部分也被處理,其運(yùn)算效率不高。
使用了幾種自底向上的視覺(jué)激勵(lì)來(lái)確定圖像/視頻中的高視覺(jué)注意區(qū)域。從這些自底向上的視覺(jué)激勵(lì)確定的特征被加權(quán)并累積以形成用于指示高視覺(jué)注意區(qū)域的重要性圖。由于僅僅確定了自底向上的特征,這種方法并不能獲得很好的對(duì)圖像/視頻的質(zhì)量評(píng)定結(jié)果。此外,區(qū)域的高視覺(jué)注意并不總是意味著此區(qū)域應(yīng)該被以高質(zhì)量編碼。
披露了與[6]相似的方法,但同時(shí)使用了自底向上和自頂向下的視覺(jué)激勵(lì)來(lái)確定圖像/視頻中的高視覺(jué)注意區(qū)域。從自底向上和自頂向下的視覺(jué)激勵(lì)所獲得的已確定的特征被利用貝葉斯網(wǎng)絡(luò)結(jié)合在一起,其中貝葉斯網(wǎng)絡(luò)需要在該結(jié)合前進(jìn)行訓(xùn)練。如前所述,區(qū)域的高視覺(jué)注意并不總是意味著此區(qū)域應(yīng)該被以高質(zhì)量編碼。而且,由于需要在結(jié)合特征之前對(duì)該貝葉斯網(wǎng)絡(luò)進(jìn)行訓(xùn)練,對(duì)用于結(jié)合圖像/視頻特征的貝葉斯網(wǎng)絡(luò)的使用會(huì)比較復(fù)雜。
因此,需要一種更精確且魯棒的方法來(lái)評(píng)估圖像或視頻的質(zhì)量或失真。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種方法,其能夠提高已有的評(píng)估圖像或視頻的質(zhì)量或失真的方法的性能。
利用獨(dú)立權(quán)利要求中所描述的特征來(lái)實(shí)現(xiàn)此目的。附加特征可從附屬權(quán)利要求獲得。
本發(fā)明涉及一種生成用于評(píng)估圖像或視頻質(zhì)量的質(zhì)量導(dǎo)向重要性圖的方法,包括如下步驟,提取圖像或視頻特征,確定至少一個(gè)已提取特征的感知質(zhì)量需求,并且結(jié)合已提取特征及至少一個(gè)已提取特征的感知質(zhì)量需求以形成重要性級(jí)別值數(shù)組,從而生成質(zhì)量導(dǎo)向重要性圖。
此外,至少一個(gè)已提取特征被用于基于該特征確定圖像/視頻的感知質(zhì)量需求。換言之,基于提取的特征來(lái)確定觀察者所感知的圖像/視頻質(zhì)量的重要性。
由結(jié)合已提取特征及至少一個(gè)已提取特征的感知質(zhì)量需求而得到的重要性級(jí)別值形成了圖像的3-D數(shù)組和視頻的4-D數(shù)組。這種重要性級(jí)別值的數(shù)組被用作為評(píng)估圖像或視頻的質(zhì)量或失真的質(zhì)量導(dǎo)向重要性圖。
需要注意的是,圖像/視頻的某一區(qū)域的視覺(jué)注意并不總是與圖像/視頻同一區(qū)域的高質(zhì)量相一致。換言之,圖像/視頻的某一區(qū)域的高視覺(jué)注意并不總需要該圖像/視頻區(qū)域被以高質(zhì)量編碼,反之亦然。
由于感知質(zhì)量信息被用于確定重要性級(jí)別值,所得的重要性圖密切遵從圖像/視頻的感知質(zhì)量需求。因此,與任何利用圖并僅基于視覺(jué)注意的現(xiàn)有方法相比,實(shí)現(xiàn)了更準(zhǔn)確的用于評(píng)估圖像或視頻質(zhì)量的重要性圖。
根據(jù)本發(fā)明生成的重要性圖可用在第一類(lèi)途徑和第二類(lèi)途徑的已有失真度量中,并且因此可以提高圖像/視頻質(zhì)量評(píng)估過(guò)程的準(zhǔn)確度。
根據(jù)本發(fā)明,利用基于視覺(jué)特征的信息和基于知識(shí)的信息來(lái)提取圖像或視頻的特征。換言之,自底向上過(guò)程(基于視覺(jué)特征)和自頂向下過(guò)程(基于知識(shí))都被使用。這些過(guò)程可以確定圖像/視頻中有哪些特征會(huì)引起視覺(jué)注意,并相應(yīng)地提取這種可以引起視覺(jué)注意的特征。這些待提取的特征可能包括運(yùn)動(dòng)、亮度、顏色、對(duì)比度、方位、紋理等。也可以利用已有的圖像/視頻描述符,例如MPEG-7描述符。
根據(jù)本發(fā)明,視頻或圖像序列中的物體運(yùn)動(dòng)被分離成相對(duì)運(yùn)動(dòng)向量和絕對(duì)運(yùn)動(dòng)向量。相對(duì)運(yùn)動(dòng)為物體相對(duì)于背景或其它物體的運(yùn)動(dòng),而絕對(duì)運(yùn)動(dòng)為物體在圖像或視頻幀中的實(shí)際運(yùn)動(dòng)?;谒_定的相對(duì)和絕對(duì)運(yùn)動(dòng)向量,確定物體(象素或區(qū)域)的質(zhì)量級(jí)別值。所確定的質(zhì)量級(jí)別值與其它來(lái)自圖像/視頻的已提取特征相結(jié)合以形成重要性級(jí)別值數(shù)組。
物體運(yùn)動(dòng)分析可以被分成兩個(gè)步驟全局運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)映射。全局運(yùn)動(dòng)估計(jì)給出對(duì)圖像或視頻的照相機(jī)(攝像機(jī))的運(yùn)動(dòng)的估計(jì),而運(yùn)動(dòng)分析提取物體的相對(duì)和絕對(duì)運(yùn)動(dòng)矢量。
需要注意的是,圖像/視頻的其它特征可用來(lái)確定圖像/視頻的像素或區(qū)域的質(zhì)量級(jí)別值。其他特征的例子包括面部檢測(cè)、人體檢測(cè)和紋理分析。這種從其它特征確定的質(zhì)量級(jí)別值可以與從運(yùn)動(dòng)分析獲得的質(zhì)量級(jí)別值結(jié)合以生成質(zhì)量導(dǎo)向重要性級(jí)別。
根據(jù)本發(fā)明的優(yōu)選實(shí)施例,所有的已提取特征與至少一個(gè)特征的已確定的質(zhì)量級(jí)別值相結(jié)合,以利用非線(xiàn)性映射函數(shù)形成重要性級(jí)別值數(shù)組。
使用非線(xiàn)性映射函數(shù)具有計(jì)算要求低和實(shí)現(xiàn)簡(jiǎn)單的優(yōu)點(diǎn)。此外,與[5]中披露的系統(tǒng)中所使用的貝葉斯網(wǎng)絡(luò)不同,非線(xiàn)性映射函數(shù)的算法或系統(tǒng)不需要訓(xùn)練。
需要注意的是,在可選實(shí)施例中,例如神經(jīng)網(wǎng)絡(luò)或模糊規(guī)則等其它技術(shù)可用來(lái)結(jié)合已提取特征與至少一個(gè)特征的已確定的質(zhì)量級(jí)別值。
根據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,當(dāng)形成重要性級(jí)別值數(shù)組時(shí),作為結(jié)合已提取特征的結(jié)果,耦合效應(yīng)被考慮進(jìn)來(lái)。對(duì)耦合效應(yīng)的使用考慮到了不以線(xiàn)性相加的方式來(lái)結(jié)合可被視為重要性效果的不同的已提取特征。提取效果的不同組合帶來(lái)了不同的耦合效應(yīng)。
確切地說(shuō),根據(jù)本發(fā)明的另一優(yōu)選實(shí)施例的質(zhì)量導(dǎo)向重要性圖可通過(guò)如下等式獲得ms,i,j,t=ΣnNfs,i,j,tn-ΣkcLk·g1(fs,i,j,tL,fs,i,j,tk)]]>其中,ms,i,j,t為質(zhì)量導(dǎo)向重要性圖在標(biāo)尺s、位置(i,j)以及時(shí)間t的元素,fs,i,j,tn為第n個(gè)已提取特征,CLk為耦合因子,其表示組合fs,i,j,tL和fs,i,j,tk的耦合效應(yīng);n為已提取特征的指數(shù);k為已提取特征的另一個(gè)指數(shù),滿(mǎn)足1<k<N且k≠L;N為提取特征的總數(shù);以及g1為非線(xiàn)性耦合映射函數(shù),其定義為g1(x,y)=min(x,y);而L為fs,i,j,tn的最大值,其表示為L(zhǎng)=argmax(fs,i,j,tn).]]>在本發(fā)明的可選優(yōu)選實(shí)施例中,通過(guò)對(duì)加權(quán)的已提取特征的和施加非線(xiàn)性映射函數(shù)來(lái)實(shí)現(xiàn)已提取特征的結(jié)合。
確切地說(shuō),根據(jù)本發(fā)明的可選優(yōu)選實(shí)施例的質(zhì)量導(dǎo)向重要性圖可以利用如下等式獲得ms,i,j,t=g2(w1fs,i,j,t1+w2fs,i,j,t2+···+wnfs,i,j,tn)]]>其中,g2為非線(xiàn)性映射函數(shù),其定義為g2(x)=x+Ca,]]>其中,α為用于給出非線(xiàn)性屬性的參數(shù),C為常數(shù)。
根據(jù)本發(fā)明的優(yōu)選實(shí)施例,用于生成質(zhì)量導(dǎo)向重要性圖的方法還包括用于處理此生成的質(zhì)量導(dǎo)向重要性圖的后處理步驟。該后處理步驟通過(guò)去除所有可能出現(xiàn)的噪聲來(lái)提高該生成的重要性圖的質(zhì)量。并且,該后處理步驟可以被用于包括平滑或擴(kuò)展該重要性圖的其它操作,并去除重要性圖中出現(xiàn)的不良因素。
特別地,根據(jù)本發(fā)明的優(yōu)選實(shí)施例,可以用高斯平滑去除特征提取過(guò)程中的誤差所導(dǎo)致的脈沖噪聲。
本發(fā)明的所述實(shí)施例不僅可被應(yīng)用于這種方法,還可應(yīng)用于裝置、計(jì)算機(jī)可讀介質(zhì)和計(jì)算機(jī)程序。
圖1示出了用于衡量感知圖像/視頻失真的通用無(wú)參度量的框圖;圖2示出了用于衡量感知圖像/視頻失真的Winkler全參度量的框圖;圖3示出了用于衡量感知圖像/視頻失真的Yao全參度量的框圖;圖4示出了用于監(jiān)控廣播系統(tǒng)視頻質(zhì)量的通用系統(tǒng);圖5示出了根據(jù)本發(fā)明的質(zhì)量導(dǎo)向重要性圖的示圖;圖6示出了用于生成根據(jù)本發(fā)明優(yōu)選實(shí)施例的質(zhì)量導(dǎo)向重要性圖的通用框圖;圖7示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的質(zhì)量導(dǎo)向重要性圖的具體實(shí)現(xiàn);圖8示出了用于合并根據(jù)本發(fā)明的質(zhì)量導(dǎo)向重要性圖的失真度量框圖;圖9示出了衡量失真度量的感知圖像/視頻失真的通用無(wú)參度量的框圖,其用于合并根據(jù)本發(fā)明的質(zhì)量導(dǎo)向重要性圖;圖10示出了衡量失真度量的感知圖像/視頻失真的Winkler全參度量的框圖,其用于合并根據(jù)本發(fā)明的質(zhì)量導(dǎo)向重要性圖;圖11示出了衡量失真度量的感知圖像/視頻失真的Yao全參度量的框圖,其用于合并根據(jù)本發(fā)明的質(zhì)量導(dǎo)向重要性圖。
具體實(shí)施例方式
圖4描述了用于監(jiān)控廣播系統(tǒng)視頻質(zhì)量的通用系統(tǒng)。
圖像/視頻源401在編碼器單元402中編碼,且編碼的圖像/視頻403在廣域網(wǎng)(WAN)404上傳輸。來(lái)自WAN404的傳輸圖像/視頻405由解碼器單元406接收以被解碼。
失真度量單元410從具有/不具有參考圖像/視頻408的解碼器單元406接收解碼后的圖像/視頻407。參考圖像/視頻408由圖像/視頻源單元409生成,其中圖像/視頻源單元409可與用于生成原圖像/視頻401的圖像/視頻源單元相同,或者參考圖像/視頻408可被簡(jiǎn)單地從經(jīng)過(guò)編碼器單元402編碼的原圖像/視頻401中提取。
通常,失真度量可分為全參(FR)、減參(RR)和無(wú)參(NR)模型。FR度量在失真圖像序列和對(duì)應(yīng)的無(wú)失真副本之間進(jìn)行逐像素和逐幀的比較。減參度量從失真圖像序列計(jì)算出一些統(tǒng)計(jì)量,并將其與對(duì)應(yīng)存儲(chǔ)的無(wú)失真圖像序列的統(tǒng)計(jì)量相比較。這些統(tǒng)計(jì)量通過(guò)常規(guī)的回歸分析被選取和相關(guān)聯(lián)。無(wú)參度量不需要從無(wú)失真圖像序列得到任何信息,而是直接在失真序列上進(jìn)行特征提取來(lái)找到諸如MPEG塊邊界,點(diǎn)狀噪聲,或圖像模糊等不良因素。
失真度量單元410比較參考圖像/視頻408和解碼圖像/視頻407(在FR和RR的情況),或者分析解碼圖像/視頻407的不良因素(在NR的情況),以評(píng)估解碼圖像/視頻407的質(zhì)量。由失真度量單元410生成的輸出信號(hào)411代表解碼圖像/視頻407的質(zhì)量。
可以利用上述失真度量來(lái)實(shí)現(xiàn)失真度量單元410(參見(jiàn)圖1、圖2和圖3)。
根據(jù)本發(fā)明,提出了一種質(zhì)量導(dǎo)向重要性圖,具體地說(shuō),提出了一種分級(jí)質(zhì)量導(dǎo)向重要性圖(HQSM)。HQSM基于圖像/視頻的視覺(jué)注意和感知質(zhì)量需求生成。
對(duì)于自底向上過(guò)程,可基于幾個(gè)規(guī)則從視覺(jué)特征確定圖像/視頻的像素或區(qū)域的重要性級(jí)別值圖
1、觀察者的視點(diǎn)固定位置不總是固定于高視覺(jué)注意區(qū)域,而是視點(diǎn)沿著高視覺(jué)注意區(qū)域移動(dòng);2、并非通過(guò)線(xiàn)性相加圖像/視頻的不同特征來(lái)得到累積效果;3、觀察者的眼睛對(duì)于焦點(diǎn)或者注意區(qū)域以外的世界并非看不見(jiàn);4、圖像/視頻特征的選擇可以是基于空間或者基于物體;以及5、對(duì)引發(fā)視覺(jué)注意的激勵(lì)的結(jié)合和選取依賴(lài)于在某一時(shí)刻的“贏者全得”(WTA)過(guò)程的層次。
需要注意的是,最后一條規(guī)則5僅對(duì)特定時(shí)刻的同一位觀察者而言為真。對(duì)一群觀察者而言,注意區(qū)域可在統(tǒng)計(jì)圖中進(jìn)行表示。同樣,對(duì)于單個(gè)觀察者而言,當(dāng)在一段時(shí)間內(nèi)觀看圖像/視頻時(shí),可能會(huì)產(chǎn)生多個(gè)重要區(qū)域。這些重要區(qū)域也可表示在統(tǒng)計(jì)圖中。
對(duì)于自頂向下過(guò)程,可利用來(lái)自于其它媒介的領(lǐng)域或現(xiàn)有知識(shí)來(lái)定義另外的圖像/視頻像素或區(qū)域的重要性級(jí)別值圖。例如,飛機(jī)的音頻聲將使得觀察者將其注意集中于圖像/視頻中的飛機(jī)物體。
如上生成的重要性圖被結(jié)合以形成HQSM。根據(jù)本發(fā)明的HQSM為圖像的3維數(shù)組,或者為視頻的4維數(shù)組,如圖5所示。
HQSM可用如下等式表達(dá)M={ms,i,j,t,0<s<Ns-1,0≤i<Ws-1,j<Ls-1,0≤t<Nt-1}(1)其中,M表示HQSM,ms,i,j,t表示HQSM在標(biāo)尺s、位置(i,j)和時(shí)間t的圖元素,Ws為圖像或視頻幀的寬度,Ls為圖像或視頻幀的高度,以及Nt為視頻的時(shí)間間隔(僅應(yīng)用于視頻)。
圖元素ms,i,j,t的高數(shù)值表示圖像/視頻的像素或區(qū)域的高重要性級(jí)別,并且,該對(duì)應(yīng)像素或區(qū)域的失真測(cè)量應(yīng)該被賦予高權(quán)重,反之亦然。
HQSM的生成包括圖6所示三個(gè)步驟?;谌缦录?lì)從特征提取單元602中提取圖像/視頻601的視覺(jué)特征1、視覺(jué)注意激勵(lì),例如運(yùn)動(dòng)、亮度、顏色、對(duì)比度、方向、紋理等。
2、基于知識(shí)的激勵(lì),例如,面部,人體,形狀等。
3、用戶(hù)定義的激勵(lì)。
需要注意的是,諸如MPEG-7描述符的已有的圖像/視頻描述符可被合并用于特征提取。
已提取特征603由決定單元604接收,該決定單元604用于結(jié)合已提取特征603來(lái)生成初步的HQSM 605。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,初步HQSM 605被后處理單元606進(jìn)一步處理,以提高初步的HQSM 605的質(zhì)量,從而生成最終的HQSM 607。
圖7示出了生成根據(jù)本發(fā)明優(yōu)選實(shí)施例的HQSM的細(xì)節(jié)示圖。下面對(duì)根據(jù)本發(fā)明優(yōu)選實(shí)施例所要提取的不同特征進(jìn)行總結(jié)。
運(yùn)動(dòng)分析視頻或圖像序列中的物體運(yùn)動(dòng)可以被分成兩個(gè)向量相對(duì)運(yùn)動(dòng)向量和絕對(duì)運(yùn)動(dòng)向量。相對(duì)運(yùn)動(dòng)為物體相對(duì)于背景或其它物體的運(yùn)動(dòng)。絕對(duì)運(yùn)動(dòng)為在圖像或視頻幀中確切的位置移動(dòng)。
運(yùn)動(dòng)分析可被分成用于確定圖像/視頻所用照相機(jī)(攝像機(jī))的移動(dòng)的全局運(yùn)動(dòng)估計(jì),以及用于提取相對(duì)和絕對(duì)運(yùn)動(dòng)向量的運(yùn)動(dòng)映射。
全局運(yùn)動(dòng)估計(jì)可利用三參數(shù)法進(jìn)行估計(jì),其模型為ΔXΔY=Cf×XY+txty---(2)]]>其中,(ΔX,ΔY)為視頻的像素或區(qū)域(X,Y)的估計(jì)的運(yùn)動(dòng)向量,Cf為放大因子,以及(tx,ty)為平移向量。
需要注意的是,估計(jì)的運(yùn)動(dòng)向量(ΔX,ΔY)也為絕對(duì)運(yùn)動(dòng)向量。
因?yàn)榕c六參數(shù)模型或四參數(shù)模型等其它模型方法相比,三參數(shù)法對(duì)噪聲不太敏感,所以其被優(yōu)選使用。
全局運(yùn)動(dòng)估計(jì)的誤差可被定義為 Cf,tx和ty的值可通過(guò)對(duì)如下三個(gè)等式求最小值獲得
Cftxty=ΣXN0ΣY0NΣX2+ΣY2ΣYΣX-1ΣΔXΣΔYΣX·ΔX+ΣY·ΔY---(4)]]>松弛算法(relaxation algorithm)可用來(lái)確定Cf,tx和ty的最小值,其可總結(jié)為如下步驟1、在圖像/視頻中選擇具有較大變化的像素或區(qū)域;2、在選定的像素中確定滿(mǎn)足等式4的(Cf,tx,ty);3、利用等式3對(duì)每個(gè)像素估計(jì)誤差ε;4、在一定的誤差范圍[ε-Δ,ε+Δ]內(nèi),選擇圖像/視頻的像素;5、重復(fù)步驟2和3,直到(Cf,tx,ty)小于某個(gè)預(yù)定值。
得到(Cf,tx,ty)之后,可利用以下等式確定相對(duì)運(yùn)動(dòng)ΔXRΔYR=ΔXΔY-Cf×XY+txty---(5)]]>注意級(jí)別與相對(duì)運(yùn)動(dòng)向量之間的關(guān)系為非線(xiàn)性單調(diào)增函數(shù)。該注意級(jí)別隨著相對(duì)運(yùn)動(dòng)的增加而增加。當(dāng)相對(duì)運(yùn)動(dòng)達(dá)到一定數(shù)值時(shí),注意級(jí)別不再隨著相對(duì)運(yùn)動(dòng)的進(jìn)一步增加而增加。從而,注意級(jí)別與相對(duì)運(yùn)動(dòng)向量之間的關(guān)系可表示為fr(xr)=a·xrb0<xr≤10a·10bxr>10---(6)]]>其中,Xr為相對(duì)運(yùn)動(dòng)向量,定義為xr=ΔXR2+ΔYR2;]]>以及a和b為參數(shù),滿(mǎn)足a>0,b<1且a·10b=1。
類(lèi)似地,注意級(jí)別和絕對(duì)運(yùn)動(dòng)向量之間的關(guān)系也為非線(xiàn)性函數(shù)。當(dāng)絕對(duì)運(yùn)動(dòng)增加,注意級(jí)別相應(yīng)地增加,并隨后降低。注意級(jí)別和絕對(duì)運(yùn)動(dòng)向量之間的關(guān)系可定義為fa(xa)=c·x·e-dx(7)
其中,Xa為絕對(duì)運(yùn)動(dòng)向量,定義為xa=ΔX2+ΔY2;]]>c和d為參數(shù),其使得max[fa(xa)]=1。
由等式(7)可知,當(dāng)x=1d,]]>fa(x)最大,從而,c=de。
全部運(yùn)動(dòng)注意級(jí)別從而可被確定為ftotal(x)=fa(x)·fr(x) (8)相對(duì)運(yùn)動(dòng),絕對(duì)運(yùn)動(dòng),注意級(jí)別和感知質(zhì)量級(jí)別之間的關(guān)系可總結(jié)于表1中,如下所示表1
從表1中可見(jiàn),具有高絕對(duì)運(yùn)動(dòng)的物體能吸引觀察者的視覺(jué)注意。然而,觀察者不會(huì)關(guān)心此物體的質(zhì)量。例如,觀察者會(huì)注視圖像序列或視頻中的飛動(dòng)著的球的運(yùn)動(dòng),而不會(huì)太注意此飛動(dòng)著的球的形狀(質(zhì)量)。當(dāng)此飛動(dòng)著的球的相對(duì)運(yùn)動(dòng)為高而絕對(duì)運(yùn)動(dòng)為低時(shí),觀察者則會(huì)更注意此飛動(dòng)著的球的形狀(質(zhì)量)。
需要注意的重點(diǎn)在于,注意級(jí)別并不總等同于感知質(zhì)量級(jí)別。除了視覺(jué)注意級(jí)別,感知質(zhì)量需求也被用于形成根據(jù)本發(fā)明的重要性圖的數(shù)組,從而使得與任何現(xiàn)有技術(shù)相比,HQSM在評(píng)估圖像/視頻質(zhì)量中能夠更準(zhǔn)確和魯棒。
亮度映射圖像/視頻區(qū)域的高亮度或?qū)Ρ榷瘸3R鸶咭曈X(jué)注意。例如,舞臺(tái)上的聚光燈照明能吸引觀眾的視覺(jué)注意??梢酝ㄟ^(guò)對(duì)圖像/視頻應(yīng)用高斯平滑濾波來(lái)估計(jì)亮度。也可以使用其它亮度估計(jì)方法。
顏色映射/膚色映射顏色映射類(lèi)似于亮度映射,只是圖像/視頻的其它區(qū)域之間的值的差別也可以被用于確定當(dāng)前像素或區(qū)域的值。
膚色在很多情況下會(huì)吸引視覺(jué)注意,并且膚色檢測(cè)可以在Cb-Cr域中進(jìn)行。特別地,可用查找表來(lái)對(duì)圖像/視頻的各像素或區(qū)域賦予可能的顏色值。當(dāng)像素值落入77<Cb<127且133<Cr<173的范圍時(shí),膚色被檢測(cè)。
面部檢測(cè)面部檢測(cè)即為從圖像/視頻中檢測(cè)類(lèi)似面部的區(qū)域,圖像/視頻中的人的面部常常使觀察者產(chǎn)生高視覺(jué)注意。膚色和形狀信息在面部檢測(cè)中很有用。
眼睛/嘴檢測(cè)在面部區(qū)域,面部的眼睛和嘴常常比面部的其它部分更容易吸引高視覺(jué)注意。面部檢測(cè)和形狀信息可用于眼睛/嘴的檢測(cè)。
形狀分析/映射形狀分析對(duì)于確定可以引發(fā)視覺(jué)注意的圖像/視頻中的物體形狀很有用。形狀分析的信息對(duì)于面部、眼睛/嘴、文字字幕等其它信息的檢測(cè)也很有用。可以通過(guò)對(duì)圖像/視頻幀應(yīng)用流域分割算法(Watershed algorithm)來(lái)進(jìn)行形狀分析,并且形狀分析可以把圖像分割成更小區(qū)域。[9]中所描述的合并-分裂法和形狀描述/分類(lèi)法可被用于確定圖像/視頻中物體的形狀。
人體檢測(cè)通過(guò)利用從形狀分析、面部檢測(cè)和眼睛/嘴檢測(cè)所獲得的信息,進(jìn)行人體檢測(cè)是可能的。
字幕檢測(cè)圖像/視頻中的字幕包含著重要信息,從而,具有高視覺(jué)注意。字幕可利用[8]中揭示的方法進(jìn)行檢測(cè)。
紋理分析/映射紋理在重要性級(jí)別值的整體值上有負(fù)面效果,從而,對(duì)生成的HQSM而言也是。換言之,紋理降低了HQSM的圖元素的整體值。確切地,我們可得到fs,i,j,ttexture<0---(9)]]>其中,fs,i,j,ttexture表示圖像/視頻的紋理特征。
因?yàn)榭紤]了圖像/視頻中紋理的負(fù)面效果,當(dāng)形成重要性級(jí)別值的數(shù)組時(shí),考慮紋理特征將增加重要性圖的總的準(zhǔn)確度。因此,與根據(jù)現(xiàn)有技術(shù)生成的重要性圖相比,根據(jù)本發(fā)明生成的HQSM具有更高的準(zhǔn)確度。
用戶(hù)定義的注意在此特征中,基于諸如音頻、對(duì)特別物體刻意的集中注意等其它信息對(duì)圖像/視頻中部分或所有像素或區(qū)域的重要性級(jí)別進(jìn)行人工定義。
需要注意的是,在僅描述一部分特征提取時(shí),本發(fā)明并不局限于特征提取的某些具體方法,而是也可以進(jìn)一步將圖像/視頻的其它特征合并到根據(jù)本發(fā)明的HQSM的生成方法中來(lái)。
在圖像/視頻的所有特征都被提取后,它們?cè)跊Q定單元604中結(jié)合。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,非線(xiàn)性映射函數(shù)用于結(jié)合所提取的特征。
作為合成任何一對(duì)上述提取特征的結(jié)果的耦合效應(yīng)并不相同,且考慮了耦合效應(yīng)并用于結(jié)合一對(duì)已提取特征的模型如下給出ms,i,j,t=fs,i,j,t1+fs,i,j,t2-c12g1(fs,i,j,t1,fs,i,j,t2)---(10)]]>其中,ms,i,j,t為質(zhì)量導(dǎo)向重要性圖的元素;c12為表示耦合效應(yīng)的耦合因子;fs,i,j,t1和fs,i,j,t2表示一對(duì)已提取特征;n為第n個(gè)已提取的特征;以及g1表示非線(xiàn)性函數(shù)。
非線(xiàn)性映射函數(shù)可以被優(yōu)選地定義為g1(x,y)=min(x,y) (11)
在本發(fā)明的另一個(gè)優(yōu)選實(shí)施例中,三個(gè)或者更多的已提取特征被利用如下等式進(jìn)行結(jié)合ms,i,j,t=ΣnNfs,i,j,tn-ΣkcLk·g1(fs,i,j,tk,fs,i,j,tk)---(12)]]>其中,fs,i,j,tn為第n個(gè)已提取特征;CLk為耦合因子,其表示結(jié)合fs,i,j,tL和fs,i,j,tk的耦合效應(yīng);n為已提取特征的指數(shù);k為已提取特征的另一個(gè)指數(shù),滿(mǎn)足l<k<N以及k≠L;N為已提取特征的總數(shù);以及L為fs,i,j,tn的最大值,并被表示為L(zhǎng)=argmax(fs,i,j,tn)---(13)]]>需要注意的是,等式(12)中僅考慮了具有最大值的已提取特征與其它已提取特征之間的耦合效應(yīng)。其它已提取特征之間的耦合效應(yīng)被忽略。
在本發(fā)明的可選優(yōu)選實(shí)施例中,利用如下等式進(jìn)行已提取特征的結(jié)合ms,i,j,t=g2(w1fs,i,j,t1+w2fs,i,j,t2+···+wnfs,i,j,tn)---(14)]]>其中,W1,W2,...,Wn為所提取特征的權(quán)重,而g2為非線(xiàn)性映射函數(shù)。
非線(xiàn)性映射函數(shù)優(yōu)選為g2(x)=x+Ca---(15)]]>其中,α為參數(shù),值為α=2以滿(mǎn)足非線(xiàn)性屬性,以及C為常數(shù),考慮到觀察者的眼睛對(duì)于焦點(diǎn)或者注意以外的世界并非完全看不見(jiàn),其值為C=1。
在可選實(shí)施例中,諸如神經(jīng)網(wǎng)絡(luò)、模糊規(guī)則等其它技術(shù)也可以用來(lái)結(jié)合已提取特征以形成重要性圖605。
通過(guò)結(jié)合已提取特征而生成的重要性圖605由后處理單元606接收,以進(jìn)一步提高所生成的重要性圖605的質(zhì)量從而形成最終的HQSM 607。
在后處理單元606中,高斯平滑濾波器可被用于重要性圖605以去除由特征提取過(guò)程602中的誤差所引起的脈沖噪聲。
根據(jù)本發(fā)明生成的HQSM可同樣地應(yīng)用于第一類(lèi)途徑和第二類(lèi)途徑。具體而言,HQSM可被合并到如下給出的MSE中MSEmodified=1N2ΣiΣjms,i,jt×(ci,j-c^i,j)2---(16)]]>
其中,MSEmodified為合并所述HQSM的改進(jìn)型MSE。于是,作為改進(jìn)型MSE的結(jié)果,PSNR如下給出PSNRmodified=10log102252MSEmodified---(17)]]>其中,PSNRmodified為合并了所述HQSM的改進(jìn)型PSNR值。
在根據(jù)本發(fā)明生成HQSM后,其可應(yīng)用于任何已有的失真度量,以提高該失真測(cè)量或質(zhì)量評(píng)估的準(zhǔn)確度。
圖8示出了如何將生成的HQSM 801合并到已有的失真度量802。需要注意的是,HQSM 801被失真度量802從圖像/視頻的處理中分離出來(lái),并且來(lái)自HQSM 801和失真度量802的輸出在結(jié)合器單元803中結(jié)合。
圖9、圖10和圖11示出了如何將上述HQSM應(yīng)用于圖1、圖2和圖3所示的失真度量。由于HQSM在失真度量中的應(yīng)用獨(dú)立于失真度量的圖像/視頻處理,此HQSM可在質(zhì)量評(píng)估/失真測(cè)量過(guò)程的任何階段應(yīng)用于失真度量(如虛線(xiàn)所示)。
根據(jù)本發(fā)明和已有的失真度量進(jìn)行實(shí)驗(yàn)以確定HQSM的性能。
在實(shí)驗(yàn)中,使用基于亮度映射、運(yùn)動(dòng)分析、膚色映射和面部檢測(cè)而提取的特征生成上述HQSM。生成的HQSM應(yīng)用于PSNR法以及在[1](Wang度量)和[2](Winkler度量)中所披露的失真度量。分別表示為“豎琴”和“秋葉”的兩個(gè)視頻序列作為測(cè)試視頻序列用于視頻序列質(zhì)量的評(píng)估。
實(shí)驗(yàn)結(jié)果總結(jié)于表2表2
從表2的結(jié)果可看出,合并了HQSM的失真度量在視頻質(zhì)量評(píng)估時(shí)具有更好的性能。唯一的例外是應(yīng)用于視頻序列“秋葉”的Wang度量。
此原因在于視頻序列“秋葉”具有很高的斯皮爾曼(Spearman)相關(guān)值。此外,利用Wang度量得到的“秋葉”的質(zhì)量級(jí)別值已經(jīng)很高了(最大值為1),從而,一群觀察者對(duì)此視頻序列的主觀評(píng)定在這種情況下差別很大。
因此,根據(jù)本發(fā)明生成的HQSM能夠提高已有的視頻質(zhì)量評(píng)估方法的性能。
本發(fā)明的上述實(shí)施例不僅應(yīng)用于方法,同樣也可應(yīng)用于裝置、計(jì)算機(jī)可讀介質(zhì)以及計(jì)算機(jī)程序。
所描述的本發(fā)明的實(shí)施例僅是本發(fā)明原理的示例。無(wú)需脫離本發(fā)明的精神和所附權(quán)利要求的范圍就可構(gòu)想出其它實(shí)施例和構(gòu)造。
本說(shuō)明書(shū)引用了如下文檔[1]Z.Wang,A.C.Bovik,“A universal image quality index”,IEEE SignalProcessing Letters,Vol.9,No.3,March 2002,Pg.81-84. Z.Wang,H.R.Sheikh and A.C.Bovik,“No Reference perceptualquality assessment of JPEG compressed images”,IEEE InternationalConference on Image Processing,2002. Stefan Winkler,“Vision Models and Quality Metrics for ImageProcessing Applications”,Ph.D.Thesis#2313,Swiss Federal Institute ofTechnology,Lausanne,Switzerland,2000. S.Yao,et al,“Perceptual visual quality evaluation with multi-features”,submitted to IEE Electric Letters. WO 99/21173[6]US Patent Publication No.2002/0126891[7]EP 1109132[8]US 6243419[9]Miroslaw Bober,“MPEG-7 Visual Shape Descriptors”,IEEETransaction on circuits and systems for video technology,Vol.11,No.6,June 2001.
權(quán)利要求
1.一種生成用于評(píng)估圖像或視頻質(zhì)量的質(zhì)量導(dǎo)向重要性圖的方法,包括如下步驟提取所述圖像或視頻的特征;確定至少一個(gè)已提取特征的感知質(zhì)量需求;并且結(jié)合所述已提取特征和所述至少一個(gè)已提取特征的感知質(zhì)量需求以形成重要性級(jí)別值數(shù)組,從而生成所述質(zhì)量導(dǎo)向重要性圖。
2.根據(jù)權(quán)利要求1的方法,其中,利用基于視覺(jué)特征的信息和基于知識(shí)的信息提取所述圖像或視頻的所述特征。
3.根據(jù)權(quán)利要求2的方法,其中,絕對(duì)運(yùn)動(dòng)和相對(duì)運(yùn)動(dòng)被確定,并被用于確定所述圖像或視頻的像素或區(qū)域的質(zhì)量級(jí)別值,其中,所確定的質(zhì)量級(jí)別值為用于生成所述質(zhì)量導(dǎo)向重要性圖的感知質(zhì)量需求。
4.根據(jù)權(quán)利要求2的方法,其中,所述已提取特征與所述至少一個(gè)已提取特征的感知質(zhì)量需求被結(jié)合以利用非線(xiàn)性映射函數(shù)形成所述重要性級(jí)別值數(shù)組。
5.根據(jù)權(quán)利要求4的方法,其中,在形成所述重要性級(jí)別值數(shù)組時(shí),利用了作為所述已提取特征結(jié)合的結(jié)果的耦合效應(yīng)。
6.根據(jù)權(quán)利要求5的方法,其中,所述質(zhì)量導(dǎo)向重要性圖可以利用如下等式獲得ms,i,j,t=ΣnNfs,i,j,tn-ΣkcLk·g1(fs,i,j,tL,fs,i,j,tk)]]>其中,ms,i,j,t為所述質(zhì)量導(dǎo)向重要性圖在標(biāo)尺s、位置(i,j)以及時(shí)間t的元素;fs,i,j,tn為第n個(gè)已提取特征,CLk為耦合因子,其表示結(jié)合fs,i,j,tL和fs,i,j,tk的耦合效應(yīng);n為所述已提取特征的指數(shù);k為所述已提取特征的另一個(gè)指數(shù),滿(mǎn)足1<k<N且k≠L;N為所述已提取特征的總數(shù);并且L為fs,i,j,tn的最大值,并表示為L(zhǎng)=argmax(fs,i,j,tn).]]>
7.根據(jù)權(quán)利要求6的方法,其中,所述非線(xiàn)性耦合映射函數(shù)定義為g1(x,y)=min(x,y)
8.根據(jù)權(quán)利要求4的方法,其中,通過(guò)確定每一個(gè)所述已提取特征的權(quán)重,相加加權(quán)的已提取特征,并對(duì)累積的特征施加所述非線(xiàn)性映射函數(shù)來(lái)進(jìn)行所述已提取特征的結(jié)合,從而形成所述視覺(jué)重要性級(jí)別值數(shù)組。
9.根據(jù)權(quán)利要求8的方法,其中,所述質(zhì)量導(dǎo)向重要性圖可以利用如下等式獲得ms,i,j,t=g2(w1fs,i,j,t1+w2fs,i,j,t2+···+wnfs,i,j,tn)]]>其中,ms,i,j,t為所述質(zhì)量導(dǎo)向重要性圖在標(biāo)尺s,位置(i,j)以及時(shí)間t的元素;fs,i,j,tn為所述已提取的特征;n為第n個(gè)已提取特征;以及g2為所述非線(xiàn)性映射函數(shù)。
10.根據(jù)權(quán)利要求9的方法,其中,所述非線(xiàn)性映射函數(shù)定義為g2(x)=x+Cα,]]>其中,α為用于給定非線(xiàn)性屬性的參數(shù),以及C為常數(shù)。
11.根據(jù)權(quán)利要求1的方法,所述生成的質(zhì)量導(dǎo)向重要性圖進(jìn)一步由后處理步驟進(jìn)行處理以提高該生成的質(zhì)量導(dǎo)向重要性圖的質(zhì)量。
12.根據(jù)權(quán)利要求11的方法,其中,利用高斯平滑技術(shù)來(lái)進(jìn)行所述后處理步驟。
13.一種生成用于評(píng)估圖像或視頻質(zhì)量的質(zhì)量導(dǎo)向重要性圖的裝置,包括特征提取單元,用于提取所述圖像或視頻的特征;確定單元,用于確定至少一個(gè)已提取特征的感知質(zhì)量需求;以及結(jié)合單元,用于結(jié)合所述已提取特征和所述至少一個(gè)已提取特征的感知質(zhì)量需求以形成重要性級(jí)別值數(shù)組,從而生成所述質(zhì)量導(dǎo)向重要性圖。
14.一種計(jì)算機(jī)可讀介質(zhì),其上記錄有程序,其中,此程序使得計(jì)算機(jī)執(zhí)行生成用于評(píng)估圖像或視頻質(zhì)量的質(zhì)量導(dǎo)向重要性圖的進(jìn)程,該進(jìn)程包括如下步驟提取所述圖像或視頻的特征;確定至少一個(gè)已提取特征的感知質(zhì)量需求;以及結(jié)合所述已提取特征和所述至少一個(gè)已提取特征的感知質(zhì)量需求以形成重要性級(jí)別值數(shù)組,從而生成所述質(zhì)量導(dǎo)向重要性圖。
15.一種計(jì)算機(jī)程序單元,其使得計(jì)算機(jī)執(zhí)行進(jìn)程,生成用于評(píng)估圖像或視頻質(zhì)量的質(zhì)量導(dǎo)向重要性圖,包括如下步驟提取所述圖像或視頻的特征;確定至少一個(gè)已提取特征的感知質(zhì)量需求;以及結(jié)合所述已提取特征和所述至少一個(gè)已提取特征的感知質(zhì)量需求以形成重要性級(jí)別值數(shù)組,從而生成所述質(zhì)量導(dǎo)向重要性圖。
全文摘要
一種生成用于評(píng)估圖像或視頻質(zhì)量的質(zhì)量導(dǎo)向重要性圖的方法,其包括步驟提取所述圖像或視頻的特征,確定至少一個(gè)已提取特征的感知質(zhì)量需求,并結(jié)合所述已提取特征和所述至少一個(gè)已提取特征的感知質(zhì)量需求以形成重要性級(jí)別值數(shù)組,從而生成所述質(zhì)量導(dǎo)向重要性圖。
文檔編號(hào)G06T7/20GK1695164SQ02829975
公開(kāi)日2005年11月9日 申請(qǐng)日期2002年11月6日 優(yōu)先權(quán)日2002年11月6日
發(fā)明者陸中康, 林偉思, 姚蘇蘇, 王依平 申請(qǐng)人:新加坡科技研究局