專利名稱:圖像表示和分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于表示圖像或圖像組的方法和裝置,以及用于例如為檢測圖像序列中的不連續(xù)性而進行圖像比較或用于圖像檢索的方法和裝置。
背景技術(shù):
在 Lienhart, R. , "Comparison of Automatic Shot Boundary Detection Algorithms,,,In Proceedings of Image and Video Processing VII 1999, Proc. SPIE 3656-29,pp. 290-301,Jan. 1999中,提出了一種用于檢測視頻序列中的拍攝轉(zhuǎn)場(shot transition)的方法。針對序列中的每個幀,創(chuàng)建RGB色空間中的3維直方圖。然后將序列中的多個連續(xù)幀的差異計算為它們相應的直方圖之間的差異、計算為絕對二元(bin-wise) 差異的總和。然后通過搜索預定固定閾值以上的距離來識別拍攝轉(zhuǎn)場。因此,該方法僅根據(jù)空間非敏感的色彩內(nèi)容信息來檢測拍攝轉(zhuǎn)場。因此,該方法未利用存在于空間排列和色彩互相關(guān)(interrelation)中的信息資源。Zabih, R. ,Miller, J. ,Mai, K. ,"A Feature-Based Algorithm for Detecting andClassifying Scene Breaks,,,In Proceedings of 1995 3rd ACM International Conference onMultimedia, San Francisco, CA USA, pp. 189-200,1995 中,提出了一種用于檢測視頻序列中的拍攝轉(zhuǎn)場的不同方法。針對序列中的每個幀,計算出邊沿圖。然后根據(jù)存在于第一幀中而不存在于第二幀中的邊沿的數(shù)量以及存在于第二幀中而不存在于第一幀中的邊沿的數(shù)量,來計算序列中多個連續(xù)幀之間的差異。然后,該差異測度的時間序列中的峰點(sharp peak)表示拍攝轉(zhuǎn)場的存在性。因此,該方法僅根據(jù)邊沿信息(其為一種類型的空間互相關(guān)信息)檢測拍攝轉(zhuǎn)場。盡管其原理是正確的,但是該方法未利用存在于幀的色彩內(nèi)容中的信息資源。此外,邊沿圖創(chuàng)建過程很耗計算機時并且意味著僅揭示幀內(nèi)最強的色彩不連續(xù)性。此外,該方法對運動相當敏感。因此,作者建議使用圖象配準技術(shù)來抵消該缺點,但是這種處理很耗計算機時。在 Dailianas, A. , Allen, R. B. , England, P. , "Comparison of Automatic VideoSegmentation Algorithms,,,SPIE Integration Issues in Large Commercial Media DeliverySystems, vol. 2615,pp. 2-16, Oct. 1995中,提出了用于檢測視頻序列中的拍攝轉(zhuǎn)場的另一方法。將序列中的多個連續(xù)幀之間的差異計算為絕對像素方面(pixel-wise)差異的總和。然后通過搜索預定固定閾值以上的距離來識別拍攝轉(zhuǎn)場。因此,該方法僅根據(jù)空間敏感的色彩內(nèi)容信息來檢測拍攝轉(zhuǎn)場。盡管其原理是正確的,但是該方法未利用存在于色彩的空間互相關(guān)中的信息資源。此外,對視頻結(jié)果的這種簡單處理導致對噪聲和運動高度敏感性。一種運動補償算法可以解決該運動敏感性問題,但是這種處理很耗計算機時。Xiong, W. ,"Shot Boundary Detection", US 2003/0091235 Al, published
515May,2003中,提出了一種基于不同類型信息的組合檢測拍攝轉(zhuǎn)場的方法。該方法包括計算兩個幀之間的塊基(block-based)差異,如果該塊基差異超過固定閾值,則表明是候選拍攝轉(zhuǎn)場。在此情況下,通過規(guī)定這兩個幀之間的色彩和/或邊沿差異也超過預定閾值,驗證拍攝轉(zhuǎn)場。為了對塊基差異進行計算,將幀劃分成多個塊并計算塊平均。然后,對相應塊之間的差異進行閾值比較以確定兩個塊是相似的還是不同的,并對兩個幀之間的不同塊的數(shù)量進行閾值比較以確定兩個幀是相似的還是不同的。色差是絕對二元差異的總和,而邊沿差異利用邊沿直方圖,以捕獲邊沿幅度和方向信息。^fc Nakajima, Y. , Sugano, M. , Yanagihara, H. , for KDDI CORPORATION(JP), "Picture Searching Apparatus”,US 2004/0091044 Al,published 13 May,2004 中,提出了一種用于檢測拍攝轉(zhuǎn)場的方法,其基于以下信息(a)圖像之間的相關(guān)性,(b)子采樣圖像之間的相關(guān)性,(c)圖像之間的運動,以及(d)子采樣圖像之間的運動。其中,將圖像之間和子采樣圖像之間的相關(guān)性測量為像素向差異或直方圖差異,并且根據(jù)各種運動矢量差測量圖像之間和子采樣圖像之間的運動。在 Jafarkhani,H.,Shahraray,B.,for AT&T CORP. (US),"Method for AnalyzingVideo”,US 6, 542, 619 Bi, granted IApri 1,2003 中,提出了一種拍攝轉(zhuǎn)場檢測方法,其包括以下步驟創(chuàng)建視頻幀的兩個一維投影,即行和列投影;對每個投影執(zhí)行小波變換并只保留高頻分量(即,小波系數(shù));以及對每次變換的高頻分量進行自相關(guān)。對于一系列視頻幀,當所得自相關(guān)系數(shù)時間曲線顯示出預定最高值時,表示拍攝轉(zhuǎn)場。因此,該方法使用了由小波變換提供的空間敏感色彩內(nèi)容和互相關(guān)信息,但是該信息不是關(guān)于幀的而是關(guān)于幀投影的,導致很大的信息損失。在 Jacobs,C. Ε.,F(xiàn)inkelstein,Α.,Salesin,D. H.,“Fast Multiresolution ImageQuerying,,,In Proceedings of 1995 ACM SIGGRAPH Conference,Los Angeles CA, USA,Aug. 9-11,pp. 277-286,1995中,提出了一種用于檢索與給定圖像相似的圖像的方法。 根據(jù)該方法,最初通過圖像的Haar小波分解來表示圖像。然后,截取該分解,即,僅保留標度函數(shù)系數(shù)(平均強度)和很少數(shù)量的最大幅度小波系數(shù)。然后,對截取的分解進行量化, 即,僅保留小波系數(shù)的符號。由此,形成了表征圖像的單個圖像描述符以用于圖像檢索。在 Zhuang, Z. -Y.,Hsu, C. -T.,Chen,H. -Y.,Ouhyoung, M.,Wu, J.-L. , “ EfficientMultiresolution Scene Change detection by Wavelet Transformation ” , In Proceedings of1997 IEEE International Conference on Consumer Electronics ICCE' 97,Taipei,Taiwan,Jun. 11-13,pp.250-251,1997 中,提出了一種用于檢測拍攝轉(zhuǎn)場的方法,其按與在Jacobs,C. Ε.,F(xiàn)inkelstein, Α.,Salesin, D. H. ,"Fast Multiresolution Image Querying", InProceedings of 1995 ACM SIGGRAPH Conference, Los Angeles CA,USA,Aug. 9-11, pp. 277-286,1995 中所描述的相同方式對視步頁中貞進行表征。Jacobs,C. Ε.,F(xiàn)inkelstein,Α.,Salesin, D. H.,“Fast Multiresolution Image Querying,,,PrProceedings of 1995 ACMSIGGRAPH Conference,Los Angeles CA, USA,Aug. 9-11,pp. 277-286,1995 的方法與 Zhuang, Ζ. -Y.,Hsu, C. -Τ.,Chen,H. -Y., Ouhyoung,Μ.,Wu, J. -L.,〃 EfficientMultiresolution Scene Change detection by Wavelet Transformation" , In Proceedings of1997 IEEE International Conference on Consumer Electronics ICCE ' 97,Taipei,Taiwan,Jun. 11—13,pp. 250-251,1997的方法之間的差別在于,根據(jù) Zhuang,Z. -Y.,Hsu,C. -T.,Chen, H. -Y.,Ouhyoung,M., ffu, J.-L. , “ Efficient Multiresolution Scene Change detectionby Wavelet Transformation “ , In Proceedings of 1997 IEEE International Conference onConsumer Electronics ICCE' 97, Taipei, Taiwan, Jun. 11-13, pp. 250-251,1997 的方法,舍棄幀的周邊并將幀縮減到只剩它們的中央部分。這種方法會引起很大的信息損失,并且當在視頻中存在顯著運動時會導致假視頻分割和/或很大的過分割。Jacobs,C. Ε.,F(xiàn)inkelstein,Α.,Salesin,D. H.,“Fast Multiresolution Image Querying,,,In Proceedings of 1995 ACM SIGGRAPH Conference,Los Angeles CA, USA,Aug. 9-11,pp. 277-286,1995 禾口 Zhuang,Z. -Y.,Hsu, C. -T.,Chen,H. -Y.,Ouhyoung, M.,Wu, J. -L.,“ Efficient Multiresolution Scene Change detection by Wavelet Transformation ” , InProceedings of 1997 IEEE International Conference on Consumer Electronics ICCE' 97,Taipei,Taiwan, Jun. 11-13,pp. 250-251,1997 的這兩種方法共有的缺陷是這樣的假設(shè),即,通過只保留很少數(shù)量的最大幅度系數(shù)可以有效地截取小波分解。為了闡述這一點,從像素開始到2x2的圖像平面的多尺度Haar小波分解將產(chǎn)生16383個系數(shù)。為了進行圖像檢索或視頻處理,這種特征矢量可能對于快速和高效實現(xiàn)來說實在太大了。然而,如本領(lǐng)域的技術(shù)人員所了解的,根據(jù)幅度(例如,如上述作者所建議的40或60個最大幅度系數(shù),這是一種機械的方式)將該矢量截取為很小數(shù)量的系數(shù)或減小其維數(shù),會得到這樣的描述符(其給出了圖像的空間非均勻表示),即,其極易受噪聲影響,而且極易受視頻分割的高視頻運動和內(nèi)攝照明效應的影響,存在一些問題。 通過只保留符號對所截取序列進行量化會放大該問題。Jacobs,C. Ε.,F(xiàn)inkelstein,Α.,Salesin, D. H.,“Fast Multiresolution Image Querying,,,In Proceedings of 1995 ACM SIGGRAPH Conference,Los Angeles CA, USA,Aug. 9-11,pp. 277-286,1995 禾口 Zhuang,Z. -Y.,Hsu, C. -T.,Chen,H. -Y.,Ouhyoung, Μ.,Wu, J. -L.,“ Efficient Multiresolution Scene Change detection by Wavelet Transformation ” , InProceedings of 1997 IEEE International Conference on Consumer Electronics ICCE' 97, Taipei, Taiwan, Jun. ll_13,pp. 250-251,1997 的方法的另一缺點在于,由于根據(jù)圖像區(qū)域內(nèi)的所有像素值計算該區(qū)域的系數(shù)的事實,所以對Haar 分解的計算導致計算量的增加。這里,我們提出了用于評估圖像之間的相似性的方法,以例如從與給定圖像相似的一組圖像檢索出圖像或者檢測出數(shù)字視頻中的幀不連續(xù)性(如拍攝轉(zhuǎn)場或照明和其他效應)。這些方法依賴于以下操作對這樣的圖像描述符的提取,即,其在一個或更多個圖像尺度下并且在一個或更多個圖像通道上捕獲空間敏感色彩內(nèi)容和互相關(guān)信息。這些方法的一個特征在于,與前述方法不同,可以這樣提取描述符,即,使得它們均勻地在圖像平面上并在多個尺度下捕獲空間敏感色彩內(nèi)容和互相關(guān)信息,但是具有與前述Haar分解相比減小的尺寸,由此減小對人工截取過程的需要。這些方法的另一特征在于,與前述方法不同,可以這樣提取描述符,即,使得它們允許對原始圖像進行完全重構(gòu),但是與具有與前述 Haar分解相比減小的計算負荷
發(fā)明內(nèi)容
鑒于以上問題,本發(fā)明的一個目的是提供一種用于評估圖像間的相似性的改進方法,例如,其用于從一組圖像檢索出與給定圖像相似的圖像,或用于檢測數(shù)字視頻中的幀不連續(xù)性,如拍攝轉(zhuǎn)場或照明或其他效果。針對視頻分割,所提出的方法允許對未壓縮的和MPEG壓縮的數(shù)字視頻幀進行表示。對于后者,不進行壓縮就可以表示I幀。在所附權(quán)利要求中陳述了本發(fā)明的多個方面。一實施例的特征包括(i)提取這樣的圖像描述符,S卩,其在一個或更多個圖像尺度下并且在一個或更多個圖像通道上捕獲空間色彩內(nèi)容和互相關(guān)信息,該至少一個特定尺度特定通道圖像表示的描述符的特征在于僅使用相應區(qū)域中的像素子集來計算至少一個描述符元素類型的所有區(qū)域描述符元素;并且/或者用于計算所有描述符類型的所有區(qū)域描述符元素的像素僅為其相應區(qū)域的像素的子集;并且/或者描述符元素的總數(shù)比所述表示的像素數(shù)量要少,所述特性是描述符提取過程所固有的而不取決于對描述符的任何后處理,例如截?。?ii)將所述描述符組合成單個多尺度多通道描述符;以及(iii)將所得描述符用于評估圖像之間的相似性。
下面參照附圖概述本發(fā)明的具體實施例,附圖中圖1示出了根據(jù)本發(fā)明一實施例的針對Y通道的塊平均再采樣過程;圖2A-2D示出了在本發(fā)明一個實施例中對尺度描述符進行的計算;圖3A-3D示出了根據(jù)本發(fā)明另一實施例對尺度描述符進行的計算;圖4是根據(jù)本發(fā)明一實施例的用于對多幅圖像進行比較的流程圖;圖5是適于實現(xiàn)本發(fā)明實施例的處理設(shè)備的示意圖。
具體實施例方式本發(fā)明第一實施例涉及描述符提取過程??紤]數(shù)字圖像Fi (x,y),其中(x,y)表示空間坐標,χ = 0…M_1并且y = 0…N_1。 在本發(fā)明一個實施例中,在色彩空間YCbC;中表示Fi,但是這并非限制性的,本發(fā)明實施例可以適用任何數(shù)量個通道的任何色彩空間。在本發(fā)明一個實施例中,F(xiàn)i的空間分辨率是 720x576個像素,S卩,M = 720并且N = 576,但是這并非限制性的,本發(fā)明實施例可以適用任何空間分辨率。在本發(fā)明一個實施例中,把要提取描述符所用最高分辨率選擇為64X64個像素,但是這并非限制性的,本發(fā)明實施例可以適用其他分辨率。因此,對Fi進行再采樣以得到64 X 64像素圖像Fi (64 X 64)。在本發(fā)明一個實施例中,該再采樣過程是如圖1所示的簡單塊平均過程,但是對再采樣機制的選擇也并非限制性的。更具體來說,圖1示出了針對Y通道的塊平均再采樣過程,但是這并非限制性的,而是可以將該過程用于任何色彩空間的 任何通道。在本發(fā)明另一實施例中,要提取描述符所用的最高尺度與Fi的分辨率相一致并 且最初不必進行再采樣。圖2示出了在本發(fā)明一個實施例中對該尺度的描述符進行的計算。更具體來說, 圖2示出了對Y通道的描述符的計算,但是這并非限制性的,而是可以將類似方法應用于所 有色彩通道。在圖2A中,將2X2窗口應用于圖像的左上角。該窗口指定了局部鄰域。對 于該鄰域中的像素 FY, (64 X 64) (0 , 0) (64X64) (l ‘ O) >F\(64X64) (O , D 以及 pYi^xeA) D,可將描
述符元素Xi到計算為
權(quán)利要求
1.一種用于表示圖像的方法,其包括以下步驟根據(jù)針對圖像的至少一個區(qū)域的色彩信息和色彩互相關(guān)信息導出至少一個描述符,該描述符是利用該區(qū)域中的像素值導出的, 并具有作為所述區(qū)域中的像素值的函數(shù)的至少兩個描述符元素,其中,僅利用該區(qū)域中的像素子集導出針對該區(qū)域的所述描述符元素中的至少一個描述符元素,其中,導出所述至少一個描述符的步驟包括執(zhí)行以下步驟識別所述圖像的所述區(qū)域; 確定所述區(qū)域中的像素值;對所述區(qū)域的像素值進行第一計算,以確定表示所述區(qū)域的色彩信息的第一值; 對所述區(qū)域的像素值進行不同的第二計算,以確定表示所述區(qū)域的色彩互相關(guān)信息的第二值,其中,所述第一計算和所述第二計算中的至少一個僅利用所述區(qū)域中的像素子集; 以及形成包含至少所述第一值和所述第二值的描述符,作為所述至少兩個描述符元素。
2.如權(quán)利要求1所述的方法,其中,僅利用區(qū)域中的像素子集導出針對該區(qū)域的多個描述符元素中的每一個。
3.如權(quán)利要求1所述的方法,其中,僅利用區(qū)域中的像素子集導出針對該區(qū)域的所有描述符元素。
4.如權(quán)利要求1所述的方法,其中,用于導出所述描述符元素的計算使得所得描述符元素數(shù)量比用于導出這些描述符元素的像素數(shù)量要少。
5.如權(quán)利要求1所述的方法,其中,至少一個描述符元素表示針對所述區(qū)域的像素平均,并且/或者至少一個描述符元素表示有關(guān)所述區(qū)域中的像素的差函數(shù),并且/或者至少一個描述符元素表示所述區(qū)域中的像素值范圍。
6.如權(quán)利要求5所述的方法,其中,至少一個描述符元素表示兩個像素值之差或兩個像素值和的差。
7.如權(quán)利要求5所述的方法,其中,針對任何尺度利用以下公式導出所述描述符元素 X 1 = (FYi (64X64) (0, 0)+Fyi (64X64)(丄,0)+F^i (64 x 64) (0,D+I^i (64x64) (1,1))/4,X 2 = (F i (64 X 64) (0,0) "F i (64X64) (1 0) ) /2, X 3 = (FYi (64 X 64) (0,0) ~FYi (64X64) (O, l) ) /2, X 4 = (FYi (64X64) (O,0) ~FYi (64X64) (1,1) ) /2, 其中,F(xiàn)y i (64X64) (O,0)、F 1(64X64) (1,0)、F (64χ64) (0,1)以及(64X64) (1,1)是通過將2X2窗口應用于圖像的左上角而指定的局部鄰域中的像素,描述符元素X1捕獲色彩內(nèi)容信息, 描述符元素χ 2、X3以及χ 4捕獲色彩互相關(guān)信息。
8.如權(quán)利要求5所述的方法,其中,針對任何尺度利用以下公式導出所述描述符元素 Vl = (FYi (64X64) (0, 0)+Fyi (64X64)(丄,0)+F^i (64x 64) (O,D+I^i (64x64) (1,1))/4,Ψ2 = max (Fyi (64 X 64) (0,0),F(xiàn)Yi (64X64) (1,0),F(xiàn)Yi(64X64) ( ,丄),^1(64X64) (1,1))-min (Fyi(54X64) (0,0),F(xiàn)yi^4x64) (1,0),F(xiàn)yite4x64) (O,1),F(xiàn)yite4x64) (1,1)), 其中,F(xiàn)y i (64X64) ( ,0)、F 1(64X64) (1,0)、F (64Χ64) (0,1)以及(64X64) (1,1)是通過將2X2窗口應用于圖像的左上角而指定的局部鄰域中的像素,描述符元素V1捕獲色彩內(nèi)容信息, 而描述符元素1^2捕獲色彩互相關(guān)信息;或者,針對任何尺度利用以下公式使用以下公式導出所述描述符元素
9.如權(quán)利要求1所述的方法,其中,針對圖像的多個交疊或非交疊區(qū)域生成描述符。
10.如權(quán)利要求1所述的方法,其包括以下步驟對圖像進行處理以在多個尺度下生成圖像的多個表示,并導出針對所述多個尺度的描述符,并且/或者針對多個色彩通道中的每一個處理該圖像并導出針對每個所述通道的描述符。
11.如根據(jù)權(quán)利要求10所述的方法,其中,對于不同色彩通道使用相同尺度。
12.如根據(jù)權(quán)利要求10所述的方法,其中,對于不同通道使用不同尺度。
13.如權(quán)利要求1所述的方法,其中,對于不同區(qū)域和/或不同尺度和/或不同色彩通道使用不同的用于導出描述符的處理。
14.如權(quán)利要求1所述的方法,其中,不進行解碼而直接從MPEG編碼I幀導出所述描述符。
15.如權(quán)利要求1所述的方法,其包括以下步驟將針對圖像的多個描述符關(guān)聯(lián)起來以形成單個描述符。
16.一種用于表示圖像組的方法,其包括以下步驟使用如前述任一權(quán)利要求所述的方法導出所述圖像組中的各圖像的表示,并使用所述圖像組中的各圖像的所述表示來表示該圖像組。
17.如權(quán)利要求16所述的方法,其包括以下步驟導出所述圖像組中的各圖像的所述表示的函數(shù)以表示所述圖像組。
18.如權(quán)利要求17所述的方法,其中,所述函數(shù)包括諸如平均、中值、平均值、協(xié)方差等的統(tǒng)計測度。
19.一種用于比較圖像和/或圖像組的方法,其包括對使用權(quán)利要求1所述的方法導出的圖像或圖像組的表示進行比較的步驟。
20.如權(quán)利要求19所述的方法,其用于確定相似性。
21.如權(quán)利要求19所述的方法,其包括對作為圖像序列的一部分的多幅圖像進行比較的步驟,其中,將比較結(jié)果用于確定在這些圖像之間是否發(fā)生了幀不連續(xù)性或諸如場景變化或照明效果的事件。
22.如權(quán)利要求19所述的方法,其用于圖像檢索。
23.一種使用如權(quán)利要求1所述的方法對圖像或圖像組進行編碼的方法。
24.一種對使用如權(quán)利要求23所述的方法編碼的圖像或圖像序列進行解碼的方法。
25.一種用于表示圖像的設(shè)備,其包括用于根據(jù)針對圖像的至少一個區(qū)域的色彩信息和色彩互相關(guān)信息導出至少一個描述符的裝置,該描述符是利用該區(qū)域中的像素值導出的,并具有作為所述區(qū)域中的像素值的函數(shù)的至少兩個描述符元素,其中,僅利用該區(qū)域中的像素子集導出針對該區(qū)域的所述描述符元素中的至少一個描述符元素,其中,導出所述至少一個描述符的裝置包括用于識別所述圖像的所述區(qū)域的裝置;用于確定所述區(qū)域中的像素值的裝置;用于對所述區(qū)域的像素值進行第一計算,以確定表示所述區(qū)域的色彩信息的第一值的裝置;用于對所述區(qū)域的像素值進行不同的第二計算,以確定表示所述區(qū)域的色彩互相關(guān)信息的第二值的裝置,其中,所述第一計算和所述第二計算中的至少一個僅利用所述區(qū)域中的像素子集;以及用于形成包含至少所述第一值和所述第二值的描述符,作為所述至少兩個描述符元素的裝置。
26.一種用于對圖像和/或圖像組進行比較的設(shè)備,其包括根據(jù)權(quán)利要求25所述的設(shè)備;以及用于對圖像和/或圖像組的描述符進行比較的裝置。
27.如權(quán)利要求25或沈所述的設(shè)備,其還包括用于存儲圖像數(shù)據(jù)和/或圖像描述符的存儲裝置。
全文摘要
圖像表示和分析方法。用于表示至少一幅圖像的方法,其包括以下步驟根據(jù)針對圖像的至少一個區(qū)域的色彩信息和色彩互相關(guān)信息,導出至少一個描述符,該描述符具有至少一個描述符元素,是使用該區(qū)域中的像素值導出的,其中,使用非小波變換導出針對區(qū)域的至少一個描述符元素。該表示可以用于圖像比較。
文檔編號G06K9/46GK102298699SQ201110147258
公開日2011年12月28日 申請日期2005年9月23日 優(yōu)先權(quán)日2004年9月23日
發(fā)明者斯塔夫羅斯·帕斯卡勒基斯, 米羅斯瓦夫·博貝爾 申請人:三菱電機株式會社