專利名稱:用于測量視頻數(shù)據(jù)質量的方法和設備的制作方法
技術領域:
本發(fā)明涉及一種用于測量視頻數(shù)據(jù)質量的方法和設備,尤其涉及一種在不參考源視頻數(shù)據(jù)的情況下估計畫面質量的方法和系統(tǒng)。
視頻專家的最終目標是為觀眾提供最能在感觀上吸引人的視頻圖像。其中一種確定最終圖像質量好壞的方法是要求一組觀眾觀看某些視頻序列并要求他們提供自己的看法。另一種分析視頻序列的方法是提供一種自動機制來評估視頻質量優(yōu)越或下降。為此目的,這其中使用了不同的量度來估計總的視頻質量量度,其中包括例如清晰度、塊效應(blocking)、振蕩(ringing)、削波(clipping)、噪聲、對比度和瞬時減損(temporal impairment)。在沒有客觀的質量量度的情況下,要想使用正規(guī)的主觀測試來執(zhí)行視頻質量的例行評估,那么這將會非常耗時并且成本很高,此外,對處于使用中的應用來說,這是不可能實現(xiàn)的。因此,本發(fā)明提出了一種用于靜止和編碼視頻的客觀質量評估,它能在不使用源數(shù)據(jù)的情況下測量視頻數(shù)據(jù)的改善和下降。
本發(fā)明針對的是一種在不使用參考圖像的情況下評估視頻數(shù)據(jù)質量的設備和方法。
根據(jù)本發(fā)明的一個方面,在這里提供了一種生成用于估計輸入視頻數(shù)據(jù)質量的主觀參考模型的方法。該方法包括以下步驟從多個采樣視頻數(shù)據(jù)中獲取多個平均主觀得分;為多個平均主觀得分中的每一個得分計算多個圖像量度;將多個圖像量度中的至少某些量度轉換成相應的感覺質量量度;以及基于多個圖像量度和感覺質量量度來導出模型。然后,使用主觀參考模型來為任何給定輸入視頻數(shù)據(jù)產(chǎn)生一個客觀質量量度。平均主觀得分則是如下獲取的在某種預定條件下向多個觀眾顯示多個采樣視頻數(shù)據(jù);根據(jù)預定準則,將多個采樣視頻數(shù)據(jù)中的每一個數(shù)據(jù)轉換成多個經(jīng)過處理的視頻數(shù)據(jù);以及,基于多個采樣視頻數(shù)據(jù)和相應的經(jīng)過處理的視頻數(shù)據(jù)來獲取平均主觀得分。在本實施例中,多個采樣視頻數(shù)據(jù)表示的是普通用戶通常會觀看的大范圍的視頻序列。多個圖像量度則包含了塊效應、振蕩、削波、噪聲、對比度和清晰度量度中的至少一個量度,感覺質量量度則包含了塊效應、振蕩、削波和清晰度感覺量度中的至少一個量度。
從下文中附圖所示的優(yōu)選實施例的詳細描述中可以更清楚地了解到本發(fā)明的前述及其他特征和優(yōu)點,在附圖不同的視圖中,相同的參考字符指的是相同的部分。這些附圖不必按比例繪制;相反,重點在于說明本發(fā)明的原理。
圖1是本發(fā)明實施例適用的簡化框圖;圖2是描述依照本發(fā)明獲取用于預測客觀質量得分的主觀參考得分的操作步驟的流程圖;圖3是在圖2的獲取主觀參考得分的處理過程中生成的表格;圖4是在圖2的獲取主觀參考得分的處理過程中生成的另一個表格;圖5描述的是依照圖2所述的操作步驟而產(chǎn)生的主觀參考得分;圖6是依照本發(fā)明的圖像處理系統(tǒng)的詳細功能框圖;以及圖7是描述根據(jù)從依照本發(fā)明的主觀參考得分導出的常用函數(shù)來獲取客觀質量得分成分的處理的功能圖。
在以下描述中將會對特有結構、接口和技術等之類的細節(jié)進行闡述,以便徹底理解本發(fā)明,但這僅僅是為了進行說明而不是加以限制。此外,為了簡明起見,在這里將會省略關于公知設備、電路和方法的詳細描述,以免不必要的細節(jié)導致本發(fā)明的描述不清楚。
圖1描述的是本發(fā)明實施例適用的圖像處理系統(tǒng)10。如圖1所示,系統(tǒng)10包括一個或多個視頻/圖像源12、一個或多個輸入/輸出設備14、一個處理器16、一個存儲器18以及一個顯示設備20。輸入輸出設備14、處理器16和存儲器18可以經(jīng)由通信介質22來進行通信,其中通信介質22可以表示總線、通信網(wǎng)絡、電路、電路卡或其他設備的一個或多個內部連接,此外還可以表示這些和其他通信介質的一部分或其組合。存儲器18不但可以表示基于盤片的光/磁存儲單元、電子存儲器,而且還可以表示這些和其他存儲設備的某些部分或組合。應該注意的是,與圖像處理系統(tǒng)10相關聯(lián)的不同功能操作可以整體或者局部地在由存儲器18保存并由處理器16執(zhí)行的一個或多個軟件程序/信號處理例程中實施。然而在其他實施例中,也可以使用專用集成電路(ASIC)之類的硬件電路來取代軟件指令或是與之相結合以便實施本發(fā)明。
此外,在這里不應將“處理器”或“控制器”的顯性使用解釋成僅僅指能夠執(zhí)行軟件的硬件,而且可以隱性包含但不局限于數(shù)字信號處理器(DSP)硬件、用于存儲軟件的只讀存儲器(ROM)、隨機存取存儲器(RAM)以及非易失存儲器。此外這其中也可以包含其他的常規(guī)和/或定制硬件。它們的功能可以通過程序邏輯操作、專用邏輯、程序控制與專用邏輯的交互作用、甚至是手動方式來加以實現(xiàn),從文中可以更為具體地了解到實施者可選的特定技術。
以下將參考圖2和5來對本發(fā)明的詳細描述進行說明。
本領域普通技術人員將會了解,客觀質量量度中的基本任務通常是模擬主觀圖像質量,它表示的是觀眾群體在受控環(huán)境中的平均判定。主觀圖像質量會受到減損和屬性之類的圖像特征的組合感覺的影響。因此,本發(fā)明提供了獲取主觀參考模型的裝置,該模型可用于產(chǎn)生表示輸入圖像質量下降或提高的客觀質量得分。
參考圖2,其中闡明的是產(chǎn)生主觀參考模型的過程,該模型被用于產(chǎn)生輸入視頻數(shù)據(jù)的客觀圖像量度。首先,在步驟100中產(chǎn)生一組n個視頻序列,這些序列指的是一般觀眾在大多數(shù)視頻應用中所看到的內容。從一組K個原始視頻(本領域普通技術人員將會了解,這是指那些直接來自視頻捕獲/生成設備的沒有減損或是特別增強的視頻)開始,每一個視頻都會經(jīng)受多種不同處理,例如數(shù)量為L的處理,在這些處理中將會應用諸如塊效應、噪聲、壓縮、清晰度、增強或其任何組合之類的變化等級的質量影響因素,以便將視頻序列轉換成多個不同的視頻數(shù)據(jù),從而對其進行評分。舉個例子,如圖4所示,其中結合了設定在0.25、0.5、0.75和1.0的清晰度來處理視頻序列S1,以便產(chǎn)生四個不同等級的清晰度,然后則要求觀眾觀看每一組視頻序列,以便獲取平均主觀得分S11、S12、S13以及S14。此外還對視頻序列S1執(zhí)行了設定在1Mb/s、2Mb/s和5Mb/s的位速率的壓縮,并且獲取了相應的平均主觀得分S21、S22和S23。同樣,在這里還結合了三個不同等級的位速率來對同一個視頻序列S1進行處理,同時在每一個等級都刪除了指定數(shù)量的塊效應,S31、S32、S33。就噪聲而言,在這里將大小為30dB、35dB和40dB的高斯噪聲進一步應用于視頻序列S1,并且通過對其進行觀看而產(chǎn)生一個平均主觀得分S41、S42和S43。處于三個不同等級30dB、35dB和40dB的噪聲與三個清晰度等級0.25、0.5和0.75相混合,然后通過觀眾觀看來獲取平均設定值S51、S52、S53、S61、S62、S63、S71、S72以及S73。對0.25和0.5這兩個清晰度等級來說,大小為3Mb/s和5Mb/s的壓縮將會產(chǎn)生平均得分S81、S82、S83和S84。此外在這里還將噪聲和指定數(shù)量的噪聲縮減量引入視頻序列S1,以便產(chǎn)生平均主觀得分S91、S92和S93。如果我們要產(chǎn)生總數(shù)為n的測試序列,那么n將會等于K×L,或是將原始視頻數(shù)目與處理數(shù)目相乘,以便產(chǎn)生多個質量等級。應該指出的是,每一個原始視頻序列都轉換成了圖4所示的用于說明的特定數(shù)量的等級,并且由此不應當限制本發(fā)明的范圍。相應地,根據(jù)本發(fā)明的教導,在這里也可以進行其他的轉換組合,由此不應該對本發(fā)明的范圍構成限制。
在步驟120中,通過向眾多測試觀眾(m)顯示多個視頻序列,可以獲取相應的平均主觀質量得分。舉個例子,在這里將多達21個觀眾分成3個一組(也就是說,每次使用三個觀眾來進行測試)。然后則要求各組評估大范圍的視頻序列并對其進行評分。為了提高可靠性,主觀質量得分必須是使用一個可重復過程獲取的,例如國際電聯(lián)(ITU)建議500中描述的過程,其中該建議的內容在這里引入作為參考。ITU提供了執(zhí)行主觀質量記分時所要遵循的測試條件列表。
在步驟130中,對每n個視頻序列的主觀得分的平均值進行計算。其結果制成了如圖3所示的表格,其中Vn表示的是不同的視頻序列,Sn表示的是從觀眾那里得到的相應的平均主觀得分。如圖5所示,在步驟140,從步驟100生成的每n個視頻序列中提取涉及減損和屬性的多個圖像量度,例如塊效應(B)、振蕩(R)、削波(C)、噪聲(N)、對比度(CN)以及清晰度(SH)。本領域普通技術人員將會了解,假設在圖像捕獲過程之后,原始視頻輸入沒有減損和增強。然而在接收端,視頻質量將會因為與傳送(即噪聲)、壓縮(即MPEG假象(artifact))和圖像處理(即由有限精度算法所造成的削波)相關聯(lián)的不同因素而受到影響。如圖5所示,其中使用了圖像特征組來確定客觀質量模型,該模型則從輸入視頻信號的所有塊效應、振蕩、削波、噪聲、對比度和清晰度中計算步驟130中生成的主觀得分。本領域普通技術人員將會了解,如果步驟100中生成的視頻序列表示的是用戶視頻質量,那么該客觀質量模型將能預測該組中并未包含的新視頻序列的主觀質量。
在步驟150中,根據(jù)如圖5所示的所獲取圖像量度來得到滿足各組圖像量度條件的主觀參考模型F(稍后將會對此進行說明)。在本實施例中,以這種方式獲取的主觀參考模型提供了一個函數(shù)模型,該模型可以在沒有可用參考源視頻信號的情況下評估視頻質量。
參考圖6,其中描述了根據(jù)圖2中步驟150的圖像量度來推導主觀參考模型的過程。方框210~300表示的是圖5所示的每一個圖像量度。各個圖像量度的計算可以通過多種方式實現(xiàn),盡管這一點在本領域是眾所周知的,然而為了完整起見,在下文中將會對計算各個圖像量度的特性以及某些示范性方式進行簡要描述。
方框310表示的是塊效應(B),它是因為粗糙量化MPEG編碼標準中的(8×8象素塊)DCT系數(shù)而造成的。本領域普通技術人員將會了解,其中一種最有名的MPEG假象就是塊假象。塊假象的數(shù)量和可視性會隨著壓縮的提高而增加,也就是說,較低的比特率將會增加其數(shù)量和可視性。壓縮視頻的感覺質量在很大程度上受到塊假象的影響。塊假象可以作為在覆蓋該圖像的8×8的網(wǎng)格上發(fā)現(xiàn)的1×8的像素邊緣的數(shù)目來進行測量。因此,塊效應是以落在所使用的最可能的編碼網(wǎng)格上的垂直和水平邊緣數(shù)目為基礎的。
塊假象(B)的計算在本領域中是眾所周知的,它可以通過多種方式實施。舉例來說,其中一種公知的測量塊效應的方法借助的是像素n和n+1的不連續(xù)性的大小,其中n是8(網(wǎng)格大小)的倍數(shù)。如果存在不連續(xù)性并且不連續(xù)性低于20這個閾值,那么這種不連續(xù)性處于一個塊邊緣。如果在8個連續(xù)行(從第i行到第i+8行)中發(fā)現(xiàn)邊緣,則將其視為一個塊假象。另一種量化不連續(xù)的方法是在塊的兩邊使用線性像素外推的不連續(xù)性大小。
參考圖6,假設B(k,l,t)=[xklt(i,j)](i,j)∈
2]]>是位于第k列第1行以及時間t的序列的亮度塊。如圖6所示,B(k,l,t)與B(k+1,l,t)這兩個塊之間的假象值即為使用相鄰象素外推值為八個行估計的邊界上的不連續(xù)性。因此,對這些塊的每個第j行而言,外推像素值是根據(jù)一階外推法估計的(El)j=32xklt(7,j)-12xklt(6,j),]]>(Er)j=32xk+1lt(0,j)-12xk+1lt(1,j).]]>因此,垂直假象值是八個不連續(xù)的均值Vm=18Σj=07(ΔAv)j=18|Σj=07((Er)j-(Ei)j)|.]]>方框320表示的是振蕩假象(R),它是第二知名的MPEG假象。與依賴于均勻或平滑區(qū)域存在與否的塊效應所不同,振蕩取決于圖像中的邊緣數(shù)量。如果數(shù)值很高的單個象素接近變化很強的邊緣或是處于非自然平滑的區(qū)域(主要是在卡通之類的合成視頻中發(fā)現(xiàn)的),那么振蕩是作為這些象素的計數(shù)(導致局部變化超出某個閾值)而被檢測的。因此,振蕩是一種圍繞高對比度邊緣的閃爍(shimmering)效應,并且取決于其將本身顯示為邊緣雙倍的方向。振蕩假象(R)的測量在本領域是眾所周知的,它可以采用多種方式實施。例如,其中一種檢測和測量振蕩的方法包括以下步驟使用一個用于邊緣轉變的很高閾值來檢測強變化邊緣。
檢測與強變化邊緣相鄰并且變化很小的區(qū)域(低活動區(qū)域)。
將局部變化(通常是在一個方向上使用少至兩個的相鄰象素來進行計算)很大的象素檢測成振蕩象素。舉例來說,如果在低活動區(qū)域中,附近象素的局部變化為3,那么振蕩象素的局部變化必須至少為該值的四倍。這其中可以使用下列條件(σv(i,j)>3)∧(σv(i,j)≥4.abs(Yi-1,j-Yi+1,j))或(σh(i,j)>3)∧(σv(i,j)≥4.abs(Yi,j-1-Yi,j+1))其中σv,h是像素Yi,j與其相鄰象素Yi+1,j之間的亮度差。圖像上的所有振蕩象素之和即為振蕩值。
方框340表示的是削波假象(C)。削波是所用處理的算術精度在圖象值(亮度與色度分量)的比特數(shù)中施加的截斷。它會導致產(chǎn)生范圍有限的值,由此縮小了動態(tài)范圍,從而會出現(xiàn)細節(jié)丟失或是將失真引入高對比度區(qū)域中。然而,如果極值超出動態(tài)范圍限制,那么將會出現(xiàn)飽和現(xiàn)象并且象素將會被削波(也就是說,對8比特精度而言,像素將會選取大小為255或0的最大/最小值)。削波測量是圖像中發(fā)現(xiàn)的被削波像素數(shù)目的一個函數(shù)。在沒有對象素削波的時候,削波量度定義為0.0,在對1%或更多象素進行削波的時候,削波量度定義為1.0。通過在左邊、右邊、頂部和底部上將5%的邊緣應用于圖像,可以避免對任何空白或黑條進行計數(shù),并且可以加速測量。
削波(C)的計算在本領域是眾所周知的,它可以通過多種方式實施。例如,削波測量算法可以通過對圖像上除頂部、底部、左邊和右邊的5%的邊緣之外的每個像素進行測試來執(zhí)行。然后,如果像素值為0或最大(如果精度為8比特,則其為255),那么我們將會增加削波象素的計數(shù)。在結束計數(shù)時,我們將其與圖像中的像素總數(shù)(邊緣除外)相除,以便獲取一個作為百分數(shù)的計數(shù)。削波像素百分數(shù)則是使用以下規(guī)則轉換成一個削波量度的如果其為0%,那么削波為0;如果其小于1%,那么削波與其百分數(shù)相等;以及如果其為1%或更大,則削波為1.0。
方框360表示的是噪聲假象(N)。在平滑區(qū)域或是具有平滑變換的區(qū)域,噪聲是最引人注目的。它會給出圖像不干凈的主觀印象,或者將某些非預期的內容重疊在圖像上。因此,在空間和時間維度上,噪聲是一個隨機變化,它顯現(xiàn)的是與圖像傳送和生成相聯(lián)系的隨機處理所導致的視頻圖像變化程度。在某些情況下,非常少量的噪聲會增加紋理的逼真度(與塑料或合成外觀相比),此外還發(fā)現(xiàn),該少量噪聲會提高感覺質量。然而,大多數(shù)噪聲會導致細節(jié)模糊,并且降低可視信息的質量。
噪聲(N)的計算在本領域是眾所周知的,它可以通過多種方式實施。舉例來說,典型的算法包括以下步驟將圖像劃分成很小的塊。
對每個塊的強度變化進行測量。
假設噪聲強度的幅度遠遠小于信號的幅度,那么變化最小的塊(或者變化最小的塊的平均值)應該與一個恒定亮度區(qū)相對應。
使用一組高通濾波器或是一個帶通濾波器來濾出DC分量。
使用濾波器的輸出總和來計算變化或噪聲。
以下給出了在該算法中使用的濾波器[-0.13,-0.32,-0.64,-0.77,-0.58,-0.13,0.58,1.22,1.54,1.22,0.58,-0.13,-0.58,-0.77,-0.64,-0.32,-0.13]
由此可以獲取在各個濾波器處于各個象素上的具有合成輸出的圖像(除了每一行兩端的8個邊界象素之外)。輸出是使用一個削波函數(shù)削波的,由此確保只對那些在感覺上有作用的噪聲進行計數(shù)。所使用的削波函數(shù)是clip(x)={0→if(x<ThresholdLow)x→if(x>ThresholdHigh)((x-ThresholdLow)*ThresholdHigh(ThresholdHigh-ThresholdLow))→otherwise]]>削波函數(shù)閾值是從感覺閾值的沃森模型(Watson’s model)中導出的。該模型是用以下等式描述的Y(f)=100.466(log(f)+0.4)2-0.31]]>任何濾波器的削波閾值都是如下給出的Th= ∫Y(f′)S(f′)df′其中S(f’)是濾波器的空間頻譜響應。f’是先前等式中的空間頻率f的歸一化版本,它補償?shù)氖怯^看距離。削波響應是在變化最小的m個窗口中的各個窗口上取平均值的。m個此類響應的平均值即為我們從某個濾波器中得到的噪聲量度。該算法的總的噪聲量度則是作為四個濾波器的噪聲量度之和來進行計算的。
方框380表示的是對比度假象(CN)。對比度是所關注象素亮度與背景之間的差值,對比靈敏度則是區(qū)分對象和背景的能力。對比度(CN)的計算在本領域是眾所周知的,它可以通過多種方式實施。舉例來說,測量對比度的基本算法如下所示首先,對排除了左邊、右邊、頂部和底部的5%的邊緣的圖像的亮度直方圖進行計算。其次,對各自包含了5%的總能量的直方圖上部和下部進行分離。最后,通過將直方圖上部和下部之間的差值與直方圖中的最大亮度相除來對該差值進行歸一化,由此計算出所述差值。
方框400表示的是清晰度量度,它既可以通過空間域中的邊緣定義來測量,也可以通過變換域中的高頻特性來測量。申請人在2002年6月14日提交了美國申請10/172,416,其中公開了一種基于局部邊緣峭度來計算清晰度量度的新方法,由此在這里引入這種與計算清晰度量度有關的公共主題來作為參考。簡要的說,清晰度量度考慮的是空間和局部頻率信息,并且使用了圍繞圖像邊緣的8×8的塊的加權峭度。結果,清晰度量度顯示出與感覺清晰度高度相關,即只受清晰度影響的質量變化。這樣一來,通過使用相應美國申請08/846,982中公開的方法,可以確定感覺清晰度量度。
繼續(xù)參考圖4,在如上所述確定了相應量度之后將會執(zhí)行方框320~360,以便將某些量度輸出修改成一個感覺量度。從一個模擬開始,振蕩和塊效應值將會與一組壓縮視頻序列的主觀得分相比較,這個得分揭示的是對那些用高于5~8Mb/s的位速率編碼的序列來說,主觀得分是最高的,并且這些序列顯示了少量振蕩和塊效應。雖然有時候它們是相關的,但是塊效應和振蕩都是獨立的假象,必須分別對其進行解釋。質量與塊效應和/或振蕩之間的相關性并不是線性的(也就是說,對質量所造成的感覺效果很可能是一個對數(shù)或指數(shù)函數(shù))。在二者全都存在的時候,塊效應和振蕩的組合效應并不是線性累加的。而且,振蕩和塊效應的相關比例并不是恒定的;有時候塊效應會占據(jù)優(yōu)勢,有時候則是振蕩占據(jù)優(yōu)勢。同樣,需要將塊效應/振蕩變換成感覺質量單元,并且需要說明其對質量所產(chǎn)生的組合感覺效應。應用于各個特征的感覺函數(shù)可以是從線性到對數(shù)或多項式形式的簡單變化,也可以是被發(fā)現(xiàn)與主觀數(shù)據(jù)(與用于衡量歸一化的常數(shù)因數(shù)相加)恰當關聯(lián)的函數(shù)的應用。因此,在這里將會執(zhí)行方框320~360,這樣一來,用于塊效應(B)、振蕩(R)和噪聲(N)的感覺函數(shù)是平方根(此外還使用了一個大小為40的比例因數(shù)),對削波而言,它是該值與2.5相乘并且加1的結果,由此提升到了1.5的乘冪。
在將塊效應、振蕩和削波變換成感覺質量單元之后,方框380~460將被執(zhí)行,以便說明其對質量的組合感覺影響。在數(shù)學上,這個處理是如下表示的方框380-(1+CN+SH5)B1/240,]]>
方框400-(1+CN+SH5)B(1+B)R1/240]]>方框420-(1+CN)(1+2.5C)3/2方框440-2(N)(SH)(CN)方框460-(NCN)1/2(1+2.5C)2]]>方框500+SH在步驟480中,當通過確定客觀質量得分來實現(xiàn)與主觀得分高度相關的時候,NROQM包含了所有的交互作用或是處于任何組合之中。
在數(shù)學上,NROOM可以如下表示NROQM(B,R,C,N,CN,SH)=]]>-(1+CN+SH5)B1/240---(1a)]]>-(1+CN+SH5)B(1+B)R1/240---(1b)]]>-(1+CN)(1+2.5C)3/2---(1c)]]>-2(N)(SH)(CN)---(1d)]]>-(NCN)1/2(1+2.5C)2---(1e)]]>-(0.6+CN)2---(1f)]]>+SH---(1g)]]>如上所示,NROQM包含了下列交互作用對比度和清晰度對塊效應和振蕩的助長效果,這解釋了這些假象提高的可視性(參見在以上等式的部分1a和1b中的第一項);塊效應和振蕩之間的掩蔽效果,這使得振蕩在塊效應很小的時候更為明顯(參見1b第二項);對比度對削波的助長效果,這使得削波在對比度很高的情況下將會更為明顯(參見1c中的項(1+CN));清晰度和對比度對噪聲的助長效果(參見1d);削波和對比度對噪聲的掩蔽效應,這樣將會避免在存在削波的時候對噪聲進行太大的加權,這受對比度的影響(參見1e)。
應該指出的是,由于清晰度(1g)是其單獨支持的感覺清晰度的量度,因此清晰度是等式1中的唯一正項。在對比度高于0.4的情況下,1f項將被用于減少內容的(小)基準(baseline),如果使用的是一個無基準對比度量度,那么這一項應該是不存在的,但是說明對比度交互作用的項卻必須得到保留。同樣,在這種情況下也可以包括一個用于對比度的正項。
在一個替換實施例中,運動假象的量度可以進一步提高NROQM的總體性能。瞬時減損特征包含了以下各項中的至少三項的加權和連續(xù)幀中的能量差(在低速運動情況下由它來指示假象);抖動(幀速率變換所導致的對運動所進行的不自然調制,否則該運動為平滑運動);IBP漂移(一個介于I幀與先前幀之間的差值,它是由運動估計誤差造成的,該誤差在兩個I幀或GOP之間的B和P幀中增加);運動矢量的運動場平滑標準偏差(運動矢量表示對象從一個圖像到下一個圖像的位置變化,低標準偏差表示的是平滑運動);蚊式噪聲(固定邊緣周圍的噪聲,它是作為邊緣像素周圍的很小鄰域中的象素中的總和或是絕對幀差值來計算的);有鑒于上述內容,替換的NROQM函數(shù)可以表示如下NROQMopt=NROQM(B,R,C,N,CN,SH)+F(MOT)+G(CN),其中F(MOT)表示運動減損的加權和,G(CN)表示的是獨立于內容的對比度量度。
參考圖6,一旦得到了常規(guī)函數(shù)模型,那么可以在一個系統(tǒng)中實現(xiàn)所述函數(shù),該系統(tǒng)可以包括電視、機頂盒、臺式機、膝上計算機或掌上計算機、便攜式可視電話、個人數(shù)字助理(PDA)以及視頻/圖像存儲設備,例如盒式磁帶錄像機(VCR)、數(shù)字攝像器(DVR)、TiVO設備、常規(guī)視頻處理系統(tǒng)等等,此外還可以包括這些與其他設備的某些部分或組合,以便在不使用輸入數(shù)據(jù)的情況下估計輸入數(shù)據(jù)質量。
從上文中可以明顯看出,本發(fā)明具有如下優(yōu)點,那就是圖像量度系統(tǒng)10在沒有使用源參考數(shù)據(jù)的情況下提供了一個與主觀得分高度相關的質量量度NROQM。在現(xiàn)有技術中,以原始視頻為參考并不適合進行服務中質量監(jiān)視以及連續(xù)質量控制系統(tǒng)的研發(fā)。因此,本發(fā)明的教導有益于很多視頻應用,例如視頻成像器的聚焦調整、視頻處理算法的研發(fā)、實時視頻質量監(jiān)視/控制以及連網(wǎng)視頻的實時質量控制。
雖然在這里說明和描述了本發(fā)明的優(yōu)選實施例,但是本領域技術人員將會了解,在不脫離本發(fā)明真實范圍的情況下,還可以進行不同的修改和變化,并且可以使用等價物來替換其部件。此外還可以執(zhí)行多種修改,以便在不脫離中心范圍的情況下與特定情況以及本發(fā)明的教導相適應。因此,本發(fā)明并不局限于那些作為執(zhí)行本發(fā)明的最佳模式而被公開的特定實施例,與此相反,本發(fā)明包含了落入所附權利要求范圍中的所有實施例。
權利要求
1.一種生成用于估計輸入視頻數(shù)據(jù)質量的主觀參考模型的方法,該方法包括以下步驟從多個采樣視頻數(shù)據(jù)中獲取多個平均主觀得分;為多個所述平均主觀得分中的每一個得分計算多個圖像量度;將多個所述圖像量度中的至少一些量度轉換成相應的感覺質量量度;以及根據(jù)多個所述圖像量度以及所述感覺質量量度來導出所述模型。
2.權利要求1的方法,還包括將所述主觀參考模型應用于所述輸入視頻數(shù)據(jù),以便產(chǎn)生一個客觀質量量度的步驟。
3.權利要求1的方法,其中,步驟(a)還包括如下步驟在預定條件下,將多個所述采樣視頻數(shù)據(jù)提供給多個觀眾;根據(jù)預定準則而將多個所述采樣視頻數(shù)據(jù)中的每一個轉換成多個經(jīng)過處理的視頻數(shù)據(jù);以及根據(jù)多個所述采樣視頻數(shù)據(jù)以及相應的所述經(jīng)過處理的視頻數(shù)據(jù)來獲取所述平均主觀得分。
4.權利要求3的方法,其中,轉換步驟還包括對多個所述采樣視頻數(shù)據(jù)的清晰度、壓縮、噪聲和塊效應或是它們的任何組合進行修改的步驟。
5.權利要求3的方法,其中,所述預定條件復合國際電信聯(lián)盟(ITU)的建議500。
6.權利要求1的方法,其中,多個所述采樣視頻數(shù)據(jù)表示的是普通用戶通常觀看的大范圍的視頻序列。
7.權利要求1的方法,其中,多個所述圖像量度包含塊效應、振蕩、削波、噪聲、對比度以及清晰度量度中的至少一個。
8.權利要求1的方法,其中,所述感覺質量量度包含塊效應、振蕩、削波和清晰度感覺量度中的至少一個。
9.權利要求1的方法,其中,導出所述主觀參考模型的步驟還包括對所述計算得到的圖像量度與所述感覺圖像量度之間的組合感覺效果進行計算的步驟。
10.權利要求9的方法,其中,計算所述組合感覺效果的步驟包括對從多個所述圖像量度中的至少一些量度中測得的對比度量度、感覺清晰度量度以及感覺塊效應量度之間的交互作用進行計算的步驟。
11.權利要求9的方法,其中,計算所述組合感覺效果的步驟包括對從多個所述圖像量度中的至少一些量度中測得的感覺振蕩量度以及感覺塊效應量度之間的交互作用進行計算的步驟。
12.權利要求9的方法,其中,計算所述組合感覺效果的步驟包括對從多個所述圖像量度中的至少一些量度中測得的對比度量度以及感覺削波量度之間的交互作用進行計算的步驟。
13.權利要求9的方法,其中,計算所述組合感覺效果的步驟包括對從多個所述圖像量度中的至少一些量度中測得的感覺清晰度量度、對比度量度以及噪聲量度之間的交互作用進行計算的步驟。
14.權利要求9的方法,其中,計算所述組合感覺效果的步驟包括對從多個所述圖像量度中的至少一些量度中測得的感覺削波量度、對比度量度以及噪聲量度之間的交互作用進行計算的步驟。
15.一種生成用于估計輸入視頻數(shù)據(jù)質量的主觀參考模型的設備,包括處理器;與所述處理器相耦合的存儲器,所述存儲器被配置成允許處理器進行以下操作從多個采樣視頻數(shù)據(jù)中獲取多個平均主觀得分;為多個所述平均主觀得分中的每一個得分計算多個圖像量度;將多個所述圖像量度中的至少一些量度轉換成相應的感覺質量量度;以及根據(jù)多個所述圖像量度以及所述感覺質量量度來導出所述模型。
16.權利要求15的設備,其中,所述存儲器還被配置成允許所述處理器將所述主觀參考模型應用于所述輸入視頻數(shù)據(jù),以便產(chǎn)生一個客觀質量量度。
17.權利要求15的設備,其中,為了獲取多個所述平均主觀得分,所述存儲器還被配置成允許所述處理器在預定條件下,將多個所述采樣視頻數(shù)據(jù)提供給多個觀眾;根據(jù)預定準則而將多個所述采樣視頻數(shù)據(jù)中的每一個轉換成多個經(jīng)過處理的視頻數(shù)據(jù);以及根據(jù)多個所述采樣視頻數(shù)據(jù)以及相應的所述經(jīng)過處理的視頻數(shù)據(jù)來獲取所述平均主觀得分。
18.權利要求17的設備,其中,為了根據(jù)所述預定準則而將多個所述采樣視頻數(shù)據(jù)中的每一個都轉換成所述多個經(jīng)過處理的視頻數(shù)據(jù),所述存儲器還被配置成允許所述處理器對多個所述采樣視頻數(shù)據(jù)的清晰度、壓縮、噪聲和塊效應或是它們的任何組合進行修改。
19.權利要求15的設備,其中,多個所述圖像量度包含塊效應、振蕩、削波、噪聲、對比度以及清晰度量度中的至少一個。
20.權利要求15的設備,其中,所述感覺質量量度包含塊效應、振蕩、削波和清晰度感覺量度中的至少一個。
21.權利要求15的設備,其中,所述存儲器還被配置成允許所述處理器對所述計算得到的圖像量度與所述感覺圖像量度之間的組合感覺效果進行計算。
22.權利要求15的設備,其中,所述存儲器還被配置成允許所述處理器對從多個所述圖像量度中的至少一些量度中測得的對比度量度、感覺清晰度量度以及感覺塊效應量度之間的交互作用進行計算。
23.權利要求21的設備,其中,為了計算所述組合感覺效果,所述存儲器還被配置成允許所述處理器對從多個所述圖像量度中的至少一些量度中測得的感覺振蕩量度以及感覺塊效應量度之間的交互作用進行計算。
24.權利要求21的設備,其中,為了計算所述組合感覺效果,所述存儲器還被配置成允許所述處理器對從多個所述圖像量度中的至少一些量度中測得的對比度量度與感覺削波量度之間的交互作用進行計算。
25.權利要求21的設備,其中,為了計算所述組合感覺效果,所述存儲器還被配置成允許所述處理器對從多個所述圖像量度中的至少一些量度中測得的感覺清晰度量度、對比度量度以及噪聲量度之間的交互作用進行計算。
26.權利要求21的設備,其中,為了計算所述組合感覺效果,所述存儲器還被配置成允許所述處理器對從多個所述圖像量度中的至少一些量度中測得的感覺削波量度、對比度量度以及噪聲量度之間的交互作用進行計算。
全文摘要
本發(fā)明涉及一種生成用于估計輸入視頻數(shù)據(jù)質量的模型的方法和設備。該設備被配置成從多個采樣視頻數(shù)據(jù)中獲取多個平均主觀得分,并且為所述多個平均主觀得分中的每一個計算多個圖像量度。所述多個圖像量度中的一些量度轉換成相應的感覺質量量度,然后則基于計算得到的質量量度以及感覺質量量度來預測圖像質量量度。
文檔編號H04N17/00GK1669338SQ03816772
公開日2005年9月14日 申請日期2003年6月20日 優(yōu)先權日2002年7月17日
發(fā)明者J·E·卡維德斯 申請人:皇家飛利浦電子股份有限公司