專利名稱:圖像表示和分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于表示圖像的方法和裝置,以及用于對圖像間的相似性進(jìn)行評估的 方法和裝置。
背景技術(shù):
在 Lienhart, R. , "Comparison of Automatic Shot Boundary Detection Algorithms,,,In Proceedings of Image and Video Processing VII 1999, Proc. SPIE 3656-29,pp. 290-301,Jan. 1999中,提出了一種用于檢測視頻序列中的拍攝轉(zhuǎn)場(shot transition)的方法。針對序列中的每個幀,創(chuàng)建RGB色空間中的3維直方圖。然后將序列 中的多個連續(xù)幀的差異計(jì)算為它們相應(yīng)的直方圖之間的差異、計(jì)算為絕對二元(bin-wise) 差異的總和。然后通過搜索預(yù)定固定閾值以上的距離來識別拍攝轉(zhuǎn)場。因此,該方法僅根 據(jù)空間非敏感的色彩內(nèi)容信息來檢測拍攝轉(zhuǎn)場。因此,該方法未利用存在于空間排列和色 彩互相關(guān)(interrelation)中的信息資源。Zabih, R. ,Miller, J. ,Mai, K. ,"A Feature-Based Algorithm for Detecting and Classifying Scene Breaks", In Proceedings of 1995 3rd ACM International Conference on Multimedia, San Francisco, CA USA, pp. 189-200,1995 中,提出了一種用 于檢測視頻序列中的拍攝轉(zhuǎn)場的不同方法。針對序列中的每個幀,計(jì)算出邊沿圖。然后根 據(jù)存在于第一幀中而不存在于第二幀中的邊沿的數(shù)量以及存在于第二幀中而不存在于第 一幀中的邊沿的數(shù)量,來計(jì)算序列中多個連續(xù)幀之間的差異。然后,該差異測度的時間序列 中的峰點(diǎn)(sharp peak)表示拍攝轉(zhuǎn)場的存在性。因此,該方法僅根據(jù)邊沿信息(其為一種 類型的空間互相關(guān)信息)檢測拍攝轉(zhuǎn)場。盡管其原理是正確的,但是該方法未利用存在于 幀的色彩內(nèi)容中的信息資源。此外,邊沿圖創(chuàng)建過程很耗計(jì)算機(jī)時并且意味著僅揭示幀內(nèi) 最強(qiáng)的色彩不連續(xù)性。此外,該方法對運(yùn)動相當(dāng)敏感。因此,作者建議使用圖象配準(zhǔn)技術(shù)來 抵消該缺點(diǎn),但是這種處理很耗計(jì)算機(jī)時。在 Dailianas, A. , Allen, R. B. , England, P. , "Comparison of Automatic Video Segmentation Algorithms", SPIE Integration Issues in Large Commercial Media Delivery Systems, vol. 2615,pp. 2-16,Oct. 1995中,提出了用于檢測視頻序列中的拍攝轉(zhuǎn) 場的另一方法。將序列中的多個連續(xù)幀之間的差異計(jì)算為絕對像素方面(pixel-wise)差 異的總和。然后通過搜索預(yù)定固定閾值以上的距離來識別拍攝轉(zhuǎn)場。因此,該方法僅根據(jù) 空間敏感的色彩內(nèi)容信息來檢測拍攝轉(zhuǎn)場。盡管其原理是正確的,但是該方法未利用存在 于色彩的空間互相關(guān)中的信息資源。此外,對視頻結(jié)果的這種簡單處理導(dǎo)致對噪聲和運(yùn)動 高度敏感性。一種運(yùn)動補(bǔ)償算法可以解決該運(yùn)動敏感性問題,但是這種處理很耗計(jì)算機(jī)時。在Xiong,W./‘Shot Boundary Detection”,US 2003/0091235 Al,published 15
3May, 2003中,提出了一種基于不同類型信息的組合檢測拍攝轉(zhuǎn)場的方法。該方法包括計(jì)算 兩個幀之間的塊基(block-based)差異,如果該塊基差異超過固定閾值,則表明是候選拍 攝轉(zhuǎn)場。在此情況下,通過規(guī)定這兩個幀之間的色彩和/或邊沿差異也超過預(yù)定閾值,驗(yàn)證 拍攝轉(zhuǎn)場。為了對塊基差異進(jìn)行計(jì)算,將幀劃分成多個塊并計(jì)算塊平均。然后,對相應(yīng)塊之 間的差異進(jìn)行閾值比較以確定兩個塊是相似的還是不同的,并對兩個幀之間的不同塊的數(shù) 量進(jìn)行閾值比較以確定兩個幀是相似的還是不同的。色差是絕對雙向差異的總和,而邊沿 差異利用邊沿直方圖,以捕獲邊沿量級和方向信息。^fc Nakajima, Y. , Sugano, M. , Yanagihara, H. , for KDDI CORPORATION(JP), "Picture Searching Apparatus”,US 2004/0091044A1, published 13 May, 2004 中,提出 了一種用于檢測拍攝轉(zhuǎn)場的方法,其基于以下信息(a)圖像之間的相關(guān)性,(b)子采樣圖 像之間的相關(guān)性,(c)圖像之間的運(yùn)動,以及(d)子采樣圖像之間的運(yùn)動。其中,將圖像之 間和子采樣圖像之間的相關(guān)性測量為像素向差異或直方圖差異,并且根據(jù)各種運(yùn)動矢量差 測量圖像之間和子采樣圖像之間的運(yùn)動。Jafarkhani,H. ,Shahraray,B. ,for AT&T CORP. (US),"Method for Analyzing Video ",US 6, 542,619 BLgranted 1 April,2003中,提出了一種拍攝轉(zhuǎn)場檢測方法,其包 括以下步驟創(chuàng)建視頻幀的兩個一維投影,即行和列投影;對每個投影執(zhí)行小波變換并只 保留高頻分量(即,小波系數(shù));以及對每次變換的高頻分量進(jìn)行自相關(guān)。對于一系列視頻 幀,當(dāng)所得自相關(guān)系數(shù)時間曲線顯示出預(yù)定最高值時,表示拍攝轉(zhuǎn)場。因此,該方法使用了 由小波變換提供的空間敏感色彩內(nèi)容和互相關(guān)信息,但是該信息不是關(guān)于幀的而是關(guān)于幀 投影的,導(dǎo)致很大的信息損失。在 Jacobs, C. E. , Finkelstein, A. , Salesin, D. H. ,‘‘Fast Multiresolution Image Querying", In Proceedings of 1995 ACM SIGGRAPH Conference, Los Angeles CA, USA, Aug. 9-11, pp. 277-286,1995中,提出了一種用于檢索與給定圖像相似的圖像的方法。根據(jù) 該方法,最初通過圖像的Haar小波分解來表示圖像。然后,截取該分解,即,僅保留標(biāo)度函 數(shù)系數(shù)(平均強(qiáng)度)和很少數(shù)量的最大幅度小波系數(shù)。然后,對截取的分解進(jìn)行量化,即, 僅保留小波系數(shù)的符號。由此,形成了表征圖像的單個圖像描述符以用于圖像檢索。在 Zhuang,Z. —Y. ,Hsu,C. -Τ. ,Chen,H. -Y.,0uhyoung,M. ,ffu, J. -L.,“ Efficient Multiresolution Scene Change Detection by Wavelet Transformation " , In Proceedings of 1997 IEEE International Conference on Consumer Electronics ICCE '97,Taipei, Taiwan, Jun. 11-13,pp. 250-251,1997 中,提出 了一種用于檢測拍攝轉(zhuǎn)場的 方法,其按與在"Fast Multiresolution Image Querying(快速多分辨率圖像查詢)”中 所描述的相同方式對視頻幀進(jìn)行表征。"Fast Multiresolution Image Querying”方法與 "Efficient Multiresolution Scene Change detection by Wavelet Transformation(利 用小波變換的高效多分辨率場景變化檢測)”方法之間的差別在于,根據(jù)后一方法,舍棄幀 的周邊并將幀縮減到只剩它們的中央部分。這種方法會引起很大的信息損失,并且當(dāng)在視 頻中存在顯著運(yùn)動時會導(dǎo)致假視頻分割和/或很大的過分割。上述兩種方法共有的缺陷是這樣的假設(shè),即,通過只保留很少數(shù)量的最大幅度系 數(shù)可以有效地截取小波分解。為了闡述這一點(diǎn),從128x128像素開始到2x2像素的圖像平 面的多尺度小波分解將產(chǎn)生16383個小波系數(shù)。如本領(lǐng)域技術(shù)人員所了解的,根據(jù)量級將
4該序列截取為很小數(shù)量的系數(shù)(例如,如作者所建議的40或60個最大量級系數(shù)),會得到 這樣的描述符,即,其極易受噪聲影響、易受圖像檢索和視頻分割的部分遮擋的影響、以及 易受視頻分割的高視頻運(yùn)動和內(nèi)攝照明效應(yīng)的影響,存在一些問題。通過只保留符號對所 截取序列進(jìn)行量化會放大該問題。根據(jù)這些方法的另一顯著問題在于,未利用Haar小波分解的系數(shù)所附的語義信 息(semantic information)。這種語義信息包括系數(shù)所表示的特定色彩信息,例如RGB的 R或YC1A的Y ;其中存在系數(shù)的特定圖像尺度,例如,它是在捕獲精細(xì)細(xì)節(jié)的高圖像尺度下 的系數(shù)或是在捕獲粗圖像信息的低圖像尺度下的系數(shù)等。其中,對圖像之間的相似度進(jìn)行評估的方法例如以從與給定圖像相似的一組圖像 檢索圖像或者以檢測數(shù)字視頻中的幀不連續(xù)性(如拍攝轉(zhuǎn)場或照明和其他效應(yīng))開始。這 些方法依賴于以下操作提取這樣的圖像描述符,即,其捕獲了在一個或更多個圖像尺度下 的并且在一個或多個圖像通道上的空間敏感色彩內(nèi)容和互相關(guān)信息;接著,不按單個描述 符而按多個描述符(由語義內(nèi)容區(qū)分這些描述符)組合描述符;以及在有效利用所述語義 內(nèi)容的多重判定框架中使用這些描述符。因此,與先前的方法不同,可以建立圖像之間的 復(fù)雜關(guān)聯(lián),例如建立這樣的關(guān)系兩幅圖像表示同一場景,但是一幅圖像存在很明顯的遮 擋(如一個人走到相機(jī)跟前);或者兩幅圖像表示同一場景,卻是在不同的照明條件下拍攝 的;或者兩個幀屬于同一次拍攝,但是由于整體照明效果而看起來很不相同。
發(fā)明內(nèi)容
在所附權(quán)利要求中陳述了本發(fā)明的多個方面。根據(jù)本發(fā)明一個方面,根據(jù)對關(guān)于圖像的一個或更多個區(qū)域的色彩信息和/或色 彩互相關(guān)信息進(jìn)行捕獲的子描述符的特征(例如,區(qū)域、尺度、色彩、色彩互相關(guān)、色彩通道 等),把這些子描述符關(guān)聯(lián)起來以形成兩個或更多個描述符。子描述符可以具有也捕獲色彩和/或色彩互相關(guān)信息的元素。在此情況下,這些 子描述符元素也可以構(gòu)成子描述符。例如,圖像區(qū)域的Haar小波變換的四個測度LL、HL、 LH以及HH —起形成該圖像區(qū)域的子描述符。然而,也可以把LL本身或HH本身看成它們本 身的子描述符。所述“將子描述符關(guān)聯(lián)起來”的步驟可以包括以下步驟將它們拆分成它們的構(gòu)成 元素并根據(jù)對應(yīng)特征對所述元素進(jìn)行分組或關(guān)聯(lián)。
以下參照附圖對本發(fā)明實(shí)施例進(jìn)行描述,附圖中圖1示出了根據(jù)本發(fā)明一實(shí)施例的針對Y通道的塊平均再采樣過程;圖2A-2D示出了在本發(fā)明一個實(shí)施例中對尺度描述符進(jìn)行的計(jì)算;圖3A-3D示出了根據(jù)本發(fā)明另一實(shí)施例對尺度描述符進(jìn)行的計(jì)算;圖4是根據(jù)本發(fā)明一實(shí)施例的用于對多幅圖像進(jìn)行比較的流程圖;圖5是根據(jù)本發(fā)明另一實(shí)施例的用于對多幅圖像進(jìn)行比較的流程圖;圖6是根據(jù)本發(fā)明另一實(shí)施例的用于對多幅圖像進(jìn)行比較的流程圖;圖7是根據(jù)本發(fā)明另一實(shí)施例的用于對多幅圖像進(jìn)行比較的流程5
圖8是根據(jù)本發(fā)明另一實(shí)施例的用于對多幅圖像進(jìn)行比較的流程圖;圖9是根據(jù)本發(fā)明另一實(shí)施例的用于對多幅圖像進(jìn)行比較的流程圖;以及圖10是適于實(shí)現(xiàn)本發(fā)明實(shí)施例的處理設(shè)備的示意圖。
具體實(shí)施例方式考慮數(shù)字圖像Fi (x,y),其中(x,y)表示空間坐標(biāo),χ = 0…M_1并且y = 0…N_1。 在本發(fā)明一個實(shí)施例中,在色彩空間YCbC;中表示Fi,但是這并非限制性的,本發(fā)明實(shí)施例 可以適用任何數(shù)量個通道的任何色彩空間。在本發(fā)明一個實(shí)施例中,F(xiàn)i的空間分辨率是 720x576個像素,S卩,M = 720并且N = 576,但是這并非限制性的,本發(fā)明實(shí)施例可以適用任 何空間分辨率。在本發(fā)明一個實(shí)施例中,把要提取描述符所用最高分辨率選擇為64X64個 像素,但是這并非限制性的,本發(fā)明實(shí)施例可以適用其他分辨率。因此,對Fi進(jìn)行再采樣以 得到64 X 64像素圖像Fi (64 X 64)。在本發(fā)明一個實(shí)施例中,該再采樣過程是如圖1所示的 簡單塊平均過程,但是對再采樣機(jī)制的選擇也并非限制性的。更具體來說,圖1示出了針對 Y通道的塊平均再采樣過程,但是這并非限制性的,而是可以將該過程用于任何色彩空間的 任何通道。在本發(fā)明另一實(shí)施例中,要提取描述符所用的最高尺度與Fi的分辨率相一致并 且最初不必進(jìn)行再采樣。圖2示出了在本發(fā)明一個實(shí)施例中對該尺度的描述符進(jìn)行的計(jì)算。更具體來說, 圖2示出了對Y通道的描述符的計(jì)算,但是這并非限制性的,而是可以將類似方法應(yīng)用于所 有色彩通道。在圖2A中,將2X2窗口應(yīng)用于圖像的左上角。該窗口指定了局部鄰域。對于該 鄰域中的像素 FYi(64 X 64) (0 , 0)、FYi(64 X 64) (1, 0)、FYi(64X64) (0,1)以及 FYi(64X64) (1,1),可以將 2 維 Haar 變換系數(shù) LL、HL、LH 以及 HH 計(jì)算成LL = (FYi(64X64) (0, 0)+Fyife4X64) (1,0)+Fyife4x64) (0, l)+FYi(64X64) (1 1))/2 (I)HL = (Fyii64 x 64) (0 , 0)-Fyii64X64) (L 0)+Fyife4X64) (0,1)-FYi(64X64) (1,l))/2 (2) LH = (FYi(64X64) (0,0)+FYi(64 X 64) (1 , 0)-Fyife4X64) (0,1) _FYi(64X64) (1,l))/2 (3)HH = (FYi(64X64) (0, 0)-Fyi(64X64) (l,0)-FYi(64 X 64) (0,1)+FYi(64X64) (1,l))/2 (4)在上述公式中,LL捕獲色彩內(nèi)容信息,而HL、LH以及HH捕獲色彩互相關(guān)信息。本 領(lǐng)域的技術(shù)人員將理解,例如通過首先在水平方向上然后在垂直方向上執(zhí)行計(jì)算,可以對 公式(1)_(4)進(jìn)行修改以減少所需計(jì)算次數(shù)。根據(jù)公式(1)_(4)或它們的最優(yōu)化但是以值 4而非值2作為分母來計(jì)算Haar系數(shù),也是很常見的。以VYi(64X64)表示FYi(64X64)的描述符,可以如下將這些值寫入描述符中VYi(64X64) (1) = LL, VYi(64X64) (2) = HL, VYi(64X64) (3) = LH, VYi(64X64) (4) = HH (5)接下來,如圖2B所示,所述2X2窗口向右滑動2個像素以形成包括像素FYi(64X64) (2,0)、FYi(64X64)(3,0)、FYi(64X64)(2,l)以及 FYi(64X64)(3,l)的新鄰域。針對新像素值再計(jì)算 Haar變換系數(shù)LL、HL、LH以及HH,然后把它們存儲在描述符位置VYi(64X64) (5)到VYi(64X64)⑶ 中。如圖2C和2D所示,一旦完成了對一組行的所有計(jì)算,則滑動窗口向下移動兩個像素并 再從左向右滑動,直到處理完整幅圖像為止。這完成了對描述符VYi(64X64)的計(jì)算,該描述符 VYi(64X64)在64X64像素的尺度下捕獲了針對Y平面的圖像空間敏感色彩內(nèi)容和互相關(guān)。本發(fā)明多個實(shí)施例涉及對捕獲空間敏感色彩內(nèi)容和互相關(guān)信息的描述符的計(jì)算。因此,在以上描述中,針對LL、HL、LH以及HH的公式⑴-⑷僅僅是在鄰域內(nèi)可以 進(jìn)行的度量的一個示例,并且僅代表一個實(shí)施例。Haar變換是小波變換的一個簡單示例,其生成了信號的多分辨率時頻表示。本發(fā)明另一實(shí)施例使用另一類似的但是更復(fù)雜的小波 變換,即2維Daubechies小波變換,而非使用Haar變換。與前一變換不同,該變換按4X4 窗口以2個像素的滑動步長進(jìn)行操作,S卩,所得鄰域是相交疊的。圖3示出了該變換。在圖 3A中,將4X4窗口應(yīng)用于圖像的左上角。該窗口指定了局部鄰域。對于該鄰域中的像素, 計(jì)算以下描述符元素B1 = Ilo · (Ii0 · FYi(64X64) (0,0)+^ · FYi(64X64) (l,0)+h2 · FYi(64X64) (2,0)+h3 · FYi(64X64) (3,0))-^ 1、丨1-“ 1、丨1-^ 1、"— —Y ^ 1、
⑶
ai = ho · (ho · FYi(64X64) (0,0)+hi · FYi(64X64) (1,0)+h2 · FYi(64X64) (2,0)+h3 · FYi(64 X 64) (3, +hi · (1^ · FYi(64X64) (0,IHh1 · FYi(64X64) (1,l)+h2 · FYi(64 X 64) (2,l)+h3 · FYi(64 X 64) (3,1)) +h2 · (1^ · FYi(64X64) (0,2)+hi · FYi(64X64) (l,2)+h2 · FYi(64 X 64) (2,2)+h3 · FYi(64X64) (3, 2)) +h3 · (h0 'Fyife4x64) (0,3)+hi 'Fyife4x64) (l,3)+h2 'Fyife4x64) (2,3)+h3 'Fyife4x64) (3,3))
^ = Ilo · (h3 · FYi(64X64) (0,0)-h2 · FYi(64X64) (1,0)+^ · FYi(64X64) (2,0)Λ · FYi(64X64) (3,0)) r^"01 +hi · (h3 · FYi(64X64) (0,l)-h2 · FYi(64X64) (1,IHh1 · FYi(64 X 64) (2,l)-h0 · FYi(64 X 64) (3,1)) +h2 · (h3 · FYi(64X64) (0,2)-h2 · FYi(64 X 64) (1, 2)+^ · FYi(64X64) (2,2)-h0 · FYi(64X64) (3, 2)) +h3 · (h3 · FYi(64X64) (0,3) -h2 · FYi(64 X 64) (1, 3) +Ii1 · FYi(64 X 64) (2,3) -Ii0 · FYi(64 X 64) (3,3)) (7) B3 = h3 · Oi0 · FYi(64X64) (0,0)+hi · FYi(64X64) (l,0)+h2 · FYi(64 X 64) (2,0)+h3 · FYi(64X64) (3,0)) -h · fh ·Fy fn.iHh. ·Fy n.iHh · Fy.…、 Fy ft.n)
h
B3 = h3 · Oi0 · FYi(64X64) (0,0)+hi · FYi(64X64) (l,0)+h2 · FYi(64 X 64) (2,0)+h3 · FYi(64 X 64) (3, -h2 · (1^ · FYi(64X64) (0,IHh1 · FYi(64X64) (1,l)+h2 · FYi(64 X 64) (2,l)+h3 · FYi(64 X 64) (3,1)) +hi · (1^ · FYi(64X64) (0,2)+hi · FYi(64X64) (l,2)+h2 · FYi(64 X 64) (2,2)+h3 · FYi(64X64) (3, 2)) -h0 · (h0 'Fyife4x64) (0,3)+hi 'Fyife4x64) (l,3)+h2 'Fyife4x64) (2,3)+h3 'Fyife4x64) (3,3)) a4 = h3 · (h3 · Fyi(64X64) (0 0)-h2 · FYi(64X64) (1,0)+h, · FYi(64X64) (2,0)-^ · FYi(64X64)(
⑶
a4 = h3 · (h3 · FYi(64X64) (0,0)-h2 · FYi(64X64) (1,0)+^ · FYi(64X64) (2,0)-^ · FYi(64 X 64) (3, -h2 · (h3 · FYi(64X64) (0,l)-h2 · FYi(64X64) (1,IHh1 · FYi(64 X 64) (2,D-Ii0 · FYi(64 X 64) (3,1)) +hi · (h3 · FYi(64X64) (0,2)-h2 · FYi(64 X 64) (1, 2)+^ · FYi(64X64) (2,2)-^ · FYi(64X64) (3, 2)) -h0 · (h3 'Fyife4x64) (0,3)-h2 'Fyife4x64) (1,3)+^ 'Fyife4x64) (2,3)-Ii0 'Fyife4x64) (3,3)) 其中,
(9)
其中, + λ/3
° 一 4V2
h, 二
3 + V3 4λ/2
,3-λ/3
'「ITT h
3 一 φ
(10)
(11)
(12)
(13) 在以上公式中,B1是標(biāo)度函數(shù)系數(shù),捕獲色彩內(nèi)容信息,a2、a3以及a4是小波變換 系數(shù),捕獲色彩互相關(guān)信息。本領(lǐng)域的技術(shù)人員將理解,可以對公式(6)_(13)進(jìn)行修改以 減少所需計(jì)算次數(shù)??梢匝毓?5)的行把這些值寫入描述符VYi(64X64)中,然后,如圖3B所 示,將該4X 4窗口向右滑動2個像素以形成新鄰域,針對新像素值再計(jì)算描述符元素,依此 類推。如圖3C所示,一旦滑動窗口到達(dá)圖像的右邊沿,那么就沒有足夠的像素以形成完整
7的4X4鄰域??梢酝ㄟ^多種方法處理該問題。這些方法中的一個是假設(shè)對數(shù)據(jù)進(jìn)行鏡像 映射,如圖3C所示。另一方法是假設(shè)數(shù)據(jù)是周期性的。還存在其他方法。當(dāng)滑動窗口到達(dá) 圖像的下邊沿時也會引起同樣的問題,并可以如上所述地處理該問題。如圖3D所示,一旦 完成了對一組行的所有計(jì)算,則滑動窗口向下移動兩個像素并再從左向右滑動,直到處理 完整幅圖像為止。在以上描述中,針對描述符的計(jì)算使用了小波變換。另選實(shí)施例可以依靠用于計(jì) 算色彩內(nèi)容和色彩互相關(guān)描述符元素的其他過程。例如,一另選實(shí)施例可以依靠產(chǎn)生色彩 內(nèi)容和互相關(guān)描述符元素的描述符提取過程,但是,與上述過程不同,每像素鄰域所計(jì)算出 的描述符元素數(shù)量比該鄰域中的像素數(shù)量要少,從而得到更小的描述符,這更便于存儲和 處理但是仍然給出了對圖像的空間均勻覆蓋。再一另選實(shí)施例可以基于這樣的描述符提取 過程,即,與上述過程不同,通過該描述符提取過程,僅根據(jù)鄰域像素的子集計(jì)算鄰域的描 述符元素,這將導(dǎo)致顯著的加速。例如,對于如圖2A所示的局部鄰域的像素(64X64) (0,0)、F (64Χ64)(丄,0)、F i (64X64) (0,1)以及FYi(64X64)(l,l),本發(fā)明一另選實(shí)施例將描述符元素、到X4計(jì)算成X1= (FYi(64 X 64) (0 , 0)+FYi(64X64) (l,0)+FYi(64 X 64) (0, 1)+FYi(64 X 64) (1, 1))/4 (14)χ 2 = (FYi(64X64) (0,0) -FYi(64X64) (1,0)) /2(15)χ 3 = (FYi(64X64) (0,0) -FYi(64X64) (0,1)) /2(16)χ 4 = (FYi(64X64) (0,0) -FYi(64X64) (1, 1)) /2(17)因此,表示局部像素平均的元素χ ,捕獲色彩內(nèi)容信息,而各表示一像素與另一像 素的差異的元素X2、X3以及、捕獲色彩互相關(guān)信息??梢匝毓?5)的行把這些值寫 入描述符VYi(64X64)中,然后,如圖2B所示,將該2 X 2窗口向右滑動2個像素以形成新鄰域, 針對新像素值再計(jì)算描述符元素,依此類推。本發(fā)明再一另選實(shí)施例將公式(14)_(17)替換成以下所示的公式(I)-(IV)Φ! = (FYi(64 X 64) (0 , 0)+FYi(64X64) (l,0)+FYi(64 X 64) (0, 1)+FYi(64 X 64) (1, 1))/4 (I)Φ2 = (FYi(64X64)(0,0)-FYi(64X64)(l,0))/2(II)Φ3 = (FYi(64 X 64) (l,0)-FYi(64 X 64) (1,l))/2(III)Φ4 = (FYi(64X64) (1,l)-FYi(64X64) (0,l))/2(IV)在以上所示的公式中,小1捕獲色彩內(nèi)容信息,而Φ 2_ Φ 4捕獲色彩互相關(guān)信息。本發(fā)明再一另選實(shí)施例將公式(14)_(17)替換成以下所示的公式(18)和(19)V1= (FYi(64 X 64) (0 , 0)+FYi(64X64) (l,0)+FYi(64 X 64) (0, 1)+FYi(64X64) (1 , l))/4 (18)ψ2 = max(FYi(64 X 64) (0 , 0),F(xiàn)Yi(64 X 64) (1, 0),F(xiàn)Yi(64 X 64) (0,1),F(xiàn)Yi(64X64) (1 , 1))-min(FYi(64X64) (0, 0),F(xiàn)Yi(64 X 64) (1, 0),F(xiàn)Yi(64 X 64) (0,1),F(xiàn)Yi(64X64) (1,1)) (19)在以上所示的公式中,V1捕獲色彩內(nèi)容信息,而Ψ2捕獲色彩互相關(guān)信息。此外,盡管以上描述和圖考慮了 2 X 2和4 X 4像素大小的滑動鄰域窗口,但是這并 非限制性的。另選實(shí)施例可以為鄰域窗口指定任何尺寸和/或幾何形狀和/或滑動步長, 以例如適合于給定計(jì)算需要或鄰域量度過程本身。在以上描述中,在FYi(64X64)的所有位置處使用相同的鄰域窗口和描述符提取過程。 在另選實(shí)現(xiàn)中不必如此。另選實(shí)施例可以在圖像的不同位置處使用不同的鄰域參數(shù)和/或 描述符提取過程。例如,本發(fā)明一另選實(shí)施例在圖像的周邊使用快速描述符提取過程,如公
8式(1)_(4)的過程或公式(14)-(17)的過程,而在圖像的中央處使用較慢但是更強(qiáng)大的描 述符提取過程,如公式(6)-(9)的過程。接下來,將FYi(64X64)再采樣到新的較小尺度。在一個實(shí)施例中,該新尺度是32X32 像素。然后,按與用于64X64圖像的方式完全相同的方式計(jì)算新描述符VYi(32X32)。注意,可 能該再采樣過程實(shí)際上不需要進(jìn)行計(jì)算。如可從公式(1)看到的,先將新像素值計(jì)算為LL 值并將其存儲在 VYi(64X64) (1)、VYi(64X64) (5)、VYi(64 X 64) (9)... VYi(64X64) (4093)。因此,在一個實(shí)
施例中,計(jì)算出描述符Vy i (64X64)、V i (32X32)、v i (16X16)、v i(8X8)、v i (4X4) 以及Vy
i(2X2) °這里所概述的本發(fā)明實(shí)施例包括按圖像Fi的一個或更多個尺度提取描述符。因此,在以上描述中,最細(xì)或最大或最高的尺度、最粗或最小或最低的尺度、尺度 數(shù)量和尺度間的關(guān)聯(lián)僅代表了本發(fā)明一個可能的實(shí)施例,另選實(shí)施例可以使用不同的這種 參數(shù),以例如與系統(tǒng)的計(jì)算能力相匹配。在本發(fā)明一個實(shí)施例中,在隨后處理之前從這些特定尺度的描述符中去除某些元 素。在本發(fā)明一個實(shí)施例中,對于公式(1)-(4)(即,Haar變換)所概述的標(biāo)識符提取過程, 在 2bX 2b、2W X 2W、2b_2 X 2b_2 等尺度(例如,64 X 64、32 X 32、16 X 16 等)上,除了在最低尺 度下的LL元素以外,可以去除中的所有LL元素。這是因?yàn)楦鶕?jù)在滬+1 X滬+1尺度上的 LL值和在2b_kX 2b_k尺度下的HL、LH以及HH元素可以直接計(jì)算出在2b_kX 2b_k尺度下的LL 元素。注意,并非總是存在這個性質(zhì)。例如,如果在2bX2b、2b-2X2b-2、2b_4X2b-4等尺度(例 如,64\64、16\16、4父4等)下計(jì)算描述符,那么該性質(zhì)無效。此外,如果只計(jì)算LL、HL、LH 以及HH元素的一子集作為標(biāo)識符提取過程的一部分,則該性質(zhì)也無效。等價性質(zhì)也適用于Daubechies小波變換。即,在本發(fā)明一個實(shí)施例中,對于在 2bX2\2wX2w,2b_2X2b_2 等尺度(例如,64X64、32X32、16X 16 等)下的 Daubechies 小 波變換,除了在最低尺度下的 元素以外,可以去除中的所有元素。等價性質(zhì)也適用于公式(14)_(17)的變換。即,在本發(fā)明一個實(shí)施例中,對于在 2bX2\ X 2W、2b_2 X 2b_2 等尺度(例如,64 X 64、32 X 32、16 X 16 等)下的該變換,除了在 最低尺度下的X1元素以外,可以去除(中的所有X1元素。同樣的性質(zhì)也適用于公式 (I)-(IV)的變換。把同樣的描述符提取過程應(yīng)用于Fi的Cb和C;通道給出了描述符
Vc 1(64X64)、... Vc i(2X2)以及 ^^54x54)、· · · ]_(2乂2、。 所有這些特定尺度特定通道描述符都捕
獲了在多尺度下并在多個通道上的圖像空間敏感色彩內(nèi)容和互相關(guān)信息。在以上描述中,假設(shè)Fi在YCb(;色彩空間中并且將所有通道用于對描述符的提取。 另選實(shí)現(xiàn)可以在對描述符的計(jì)算之間在新色彩空間中表示該圖像,并且/或者在對其描述 符的計(jì)算中僅使用色彩平面的一子集。在以上描述中,在相同尺度下計(jì)算在Fi的不同色彩通道上的描述符。在另選實(shí)現(xiàn) 中,不必如此。例如,本發(fā)明另選實(shí)施例在比Cb和/或C;通道描述符更多的尺度并且/或 者不同的尺度下計(jì)算Y通道描述符。這種細(xì)調(diào)將得到對特定圖像或視頻材料的更佳適應(yīng), 并且可以改進(jìn)性能。在以上描述中,將相同的鄰域窗口和描述符提取過程用于Fi的所有色彩通道。在 另選實(shí)現(xiàn)中,不必如此。另選實(shí)施例可以針對各通道使用不同的鄰域參數(shù)和/或描述符提 取過程。例如,本發(fā)明一另選實(shí)施例針對Cb和C;通道使用快速描述符提取過程而針對Y通道使用較慢但是更強(qiáng)大的描述符提取過程。這種細(xì)調(diào)將得到對特定圖像或視頻材料的更佳 適應(yīng),并且可以改進(jìn)系統(tǒng)性能。在本發(fā)明一個實(shí)施例中,將一些或所有描述符元素表示成帶有整數(shù)和小數(shù)部分的 實(shí)數(shù)。在本發(fā)明另一實(shí)施例中,例如通過截去或舍入其小數(shù)部分把一些或所有描述符元素 表示成整數(shù)形式。在本發(fā)明又一實(shí)施例中,通過比例換算把一些或所有描述符元素表示成 整數(shù)形式。例如,公式(1)"(4)得到其中小數(shù)部分只有三個值的實(shí)數(shù),即,· 25、· 50以及.75。 因此,將這些描述符元素乘以值4將得到?jīng)]有任何信息損失的整數(shù)表示。在本發(fā)明再一實(shí) 施例中,通過任何方法把一些或所有描述符元素表示成整數(shù)形式,然后把它們量化為較短 (例如3位或4位長的)值。因此,在本發(fā)明一個實(shí)施例中,圖像Fi由其描述符Va
i (ClSCq)、· · · v i (ClSCl)、v i (C2SCq)
、· · · VC2i(C2SCl)、· · · VCPi (CpSCq)、· · · (CpSCl)來表不,其中,C1、C2、· · · Cp 是 Fi 的第一、第二以及
第P色彩通道,ClSCq是信道Cl的最高描述符尺度,ClSCl是信道Cl的最低描述符尺度, C2SCq是信道C2的最高描述符尺度,C2SC1是信道C2的最低描述符尺度,依此類推。所有 這些特定尺度特定通道描述符都在多尺度(優(yōu)選地,一個以上)下并在多個通道(優(yōu)選地, 一個以上)上捕獲圖像的空間敏感色彩內(nèi)容和互相關(guān)信息。如現(xiàn)有技術(shù)中的普通方法那樣地將圖像Fi的所有這些描述符融合(即,連接)成 Vi的單個描述符以與描述符Vj或Fj相比較,在比較速度方面和對Fi與Fj之間的關(guān)系的理 解方面會導(dǎo)致非最優(yōu)性能。本發(fā)明一個實(shí)施例的特征在于將特定尺度特定通道描述符融合成捕獲不同尺度 的至少兩個描述符。例如,對于在6個不同尺度下的特定尺度特定通道描述符,本發(fā)明一個 實(shí)施例生成6個相同尺度下的特定尺度特定通道描述符。另一實(shí)施例生成兩個面向尺度多 通道描述符,一個針對低尺度,一個針對高尺度,而再一實(shí)施例生成3個面向尺度多通道描 述符,一個針對低尺度,一個針對中間尺度,而一個針對高尺度。在本發(fā)明一優(yōu)選實(shí)施例中, 確實(shí)在多通道上計(jì)算描述符并將它們?nèi)诤铣擅嫦虺叨让枋龇?,但是一另選實(shí)施例只在單個 通道上計(jì)算描述符并把它們?nèi)诤铣擅嫦虺叨让枋龇?。圖4示出了按照以上段落內(nèi)容的本發(fā)明一個實(shí)施例。在步驟4100中,如前所述地 提取特定尺度特定通道描述符。在步驟4250中,將這些描述符融合成一組面向尺度多通道 描述符Vi(s。Q)、· · · Vi(seA),其中SCA和SCQ分別是最低和最高描述符尺度。在步驟4300中, 將當(dāng)前尺度C_SC設(shè)置為最低尺度SCA。在步驟4400中,僅將當(dāng)前尺度C_SC描述符Vifc 和、(?!猻0用于對圖像Fi與Fj之間的相似性測度Djiite s0的計(jì)算。在步驟4500中,將該相 似性測度用于對兩幅圖像的相似性或不相似性進(jìn)行臨時判定。在步驟4600中,考查相似性 測度和/或臨時判定以確定是否希望在較高尺度下進(jìn)行處理。如果確定不希望進(jìn)行這種處 理,則過程進(jìn)行到步驟4900,在步驟4900處,對兩幅圖像的相似性或不相似性執(zhí)行最終判 定。否則,過程進(jìn)行到步驟4700,在步驟4700處,檢查是否還剩有待處理的較高尺度的任何 描述符。如果還有較高尺度描述符,則過程進(jìn)行到步驟4800,在步驟4800處,增加當(dāng)前尺度 C_SC,然后進(jìn)行到步驟4400,在步驟4400處,在新尺度下計(jì)算新相似性測度,依此類推。另 一方面,如果沒有較高尺度描述符,則過程進(jìn)行到步驟4900,在步驟4900處,對兩幅圖像的 相似性或不相似性執(zhí)行最終判定。如圖4所示的這種面向尺度序列配置的目的是盡可能快地并以盡可能少的計(jì)算
10來確定兩幅圖像之間的相似性或不相似性。因此,與把所有可用描述符融合成單個描述符 的方案相比,這種方案可以提高系統(tǒng)速度。下面更接近地考查該過程的各個步驟。在步驟4400中,可以把許多可選方法用于計(jì)算相似性測度。例如,在本發(fā)明一個 實(shí)施例中,可以將由下式給出的兩個描述符Vi與Vj (各有η個元素)之間的距離Ll計(jì)算為 相似性測度
權(quán)利要求
一種表示圖像組的方法,其包括以下步驟使用前述任一權(quán)利要求所述的方法導(dǎo)出各圖像的表示;以及使用所述表示來表示所述圖像組。
2.如權(quán)利要求2所述的方法,其包括以下步驟導(dǎo)出所述表示的函數(shù)以表示所述圖像組。
3.如權(quán)利要求2所述的方法,其中,所述函數(shù)包括諸如平均、中值、平均值、協(xié)方差等的 統(tǒng)計(jì)測度。
4.使用前述任一權(quán)利要求所述的方法導(dǎo)出的圖像或圖像組的表示。
5.一種對圖像和/或圖像組進(jìn)行比較的方法,其包括對如權(quán)利要求27所述的各表示進(jìn) 行比較的步驟,其中,該比較步驟包括對根據(jù)特征而相對應(yīng)的多個描述符進(jìn)行比較的步驟。
6.如權(quán)利要求5所述的方法,其用于確定相似性。
7.如權(quán)利要求5或6所述的方法,其包括并行地進(jìn)行多個描述符比較的步驟。
8.如權(quán)利要求5到7中的任何一項(xiàng)所述的方法,其包括串行地進(jìn)行多個描述符比較的步驟。
9.如權(quán)利要求8所述的方法,其包括以下步驟利用兩個或更多個描述符進(jìn)行臨時評 估;以及利用該臨時評估的結(jié)果確定是否執(zhí)行涉及附加描述符的進(jìn)一步評估。
10.如權(quán)利要求5到9中的任何一項(xiàng)所述的方法,其中,不同的評估涉及針對相同特征 的不同值的描述符或針對不同特征的描述符,例如,以導(dǎo)出關(guān)于圖像的不同特征的相似性 的信息,所述相同特征的不同值例如為不同尺度、不同色彩通道值、不同圖像區(qū)域等。
全文摘要
一種表示和分析圖像的方法,其包括以下步驟在一個或更多個尺度下并針對一個或更多個色彩通道生成多個描述符,該描述符捕獲多個區(qū)域內(nèi)的色彩內(nèi)容和互相關(guān)信息;根據(jù)這些描述符的特征,如尺度、色彩通道、特征語義以及區(qū)域,按多種方式將它們關(guān)聯(lián)起來;以及對這種圖像表示進(jìn)行比較以評估圖像的相似性。
文檔編號G06F17/30GK101982828SQ20101056534
公開日2011年3月2日 申請日期2005年9月23日 優(yōu)先權(quán)日2004年9月23日
發(fā)明者斯塔夫羅斯·帕斯卡勒基斯, 米羅斯瓦夫·博貝爾 申請人:三菱電機(jī)株式會社