專利名稱:在圖像中分割像素的方法
技術(shù)領域:
本發(fā)明一般涉及分割圖像,更具體地,涉及通過生長像素的區(qū)域來分割圖像。
背景技術(shù):
區(qū)域生長是用于圖像和視頻分割的最基本且眾所周知的方法之一。在現(xiàn)有技術(shù)領域中有一些區(qū)域生長技術(shù),例如設置顏色距離閾值,Taylor等人的“Color Image Segmentation Using BoundaryRelaxation”,ICPR,Vol.3,pp.721-724,1992;迭代松弛閾值,Meyer的“Color image segmentation”,ICIP,pp.303-304,1992;進入高維以用戶設定的閾值來解決距離度量的確切表示,Priese等人的“A fasthybrid color segmentation method”,DAGM,pp.297-304,1993;用預先確定的顏色距離閾值進行分級連接成分分析,Westman等人的“Color Segmentation by Hierarchical Connected Components Analysiswith Image Enhancement”,ICPR,Vol.1,pp.796-802,1990。
在用于圖像分割的區(qū)域生長方法中,當圖像中滿足一些相鄰約束條件的相鄰像素的例如顏色和紋理的屬性足夠相似時,將這些像素合并??梢酝ㄟ^應用一個局部或全局的同類性標準,建立相似度。通常,根據(jù)距離函數(shù)和相應的閾值來執(zhí)行一個同類性標準。對分割結(jié)果具有最重大的影響的是距離函數(shù)的確切表示和它的閾值。
多數(shù)方法或者對所有的圖像使用單一的預先確定的閾值,或者具體的閾值用于具體的圖像和圖像的具體部分。閾值適配可能包含可觀數(shù)量的處理,用戶交互,以及上下文信息。
MPEG-7標準化了各種類型的多媒體信息即內(nèi)容的描述,見ISO/IEC JTC1/SC29/WG11 N4031,“Coding of Moving Pictures andAudio”,2001年3月。該描述與該內(nèi)容有關(guān),以使得能夠有效地對用戶所關(guān)心的內(nèi)容進行索引和查找。
該內(nèi)容的元素可以包括圖像、圖形、3D模型、音頻、語音、視頻,以及關(guān)于這些元素是如何組合在一個多媒體表示中的信息。MPEG-7的一個描述符表征了一幅圖像的顏色屬性,見Manjunath等人的“Color and Texture Descriptors”,IEEE Transactions on Circuitsand Systems for Video Technology,Vol.11,No.6,2001年6月。
在MPEG-7標準中定義的若干顏色描述符中,主導顏色描述符最適合表示局部對象或圖像區(qū)域特征,其中少數(shù)幾種顏色足夠表征所關(guān)心區(qū)域的顏色信息。也可以應用于整幅圖像,例如標志圖像或彩色商標圖像。
圖像中所關(guān)心區(qū)域中的一組主導顏色提供了對圖像的一種簡明描述,它易于索引和檢索。一個主導顏色描述符利用少數(shù)幾種顏色描述了一幅圖像的部分或全部。例如,一幅圖像中一個人穿著青藍色的襯衫和略帶紅色的褲子,藍色和紅色是主導顏色,主導顏色描述符不僅包括這些顏色,還包括在給定區(qū)域內(nèi)描述這些色彩的精確度級別。
為了確定顏色描述符,首先對圖像中的顏色進行聚類。結(jié)果得到少數(shù)的幾種顏色。然后,度量聚類后顏色的百分比。作為一種選擇,也可以確定主導顏色的方差??梢杂每臻g相干性的值來區(qū)分圖像中內(nèi)聚的和分散的顏色。主導顏色描述符和顏色直方圖的一個區(qū)別是,對于描述符,代表性的顏色是從每一幅圖像確定的,而對于直方圖是在顏色空間中固定的。因此,顏色描述符是精確而簡潔的。
通過用廣義Lloyd處理對圖像聚類進行連續(xù)分割,可以確定主導顏色。Lloyd處理度量顏色向量到聚類中心的距離,并且將具有最小距離的顏色向量組合為一個聚類,見Standford大學的Sabin在1984年完成的博士論文“Global convergence and empirical consistency ofthe generalized Lloyd algorithm”。
現(xiàn)在,更加詳細地描述聚類、直方圖和MPEG-7標準。
聚類聚類是一種無監(jiān)督的模式分類,它將例如觀測值、數(shù)據(jù)項或特征向量等模式劃分入各聚類中。典型的模式聚類行為包括模式表示的各步驟。或者,聚類行為還可以包括特征提取和選擇,適合于數(shù)據(jù)域的模式接近度量的定義(相似度確定),聚類或組合,按照需要進行數(shù)據(jù)抽象,以及按照需要進行輸出估計,見Jain等人的“Data clusteringa review”,ACM Computing Surveys,31264-323,1999。
聚類中最具挑戰(zhàn)性的步驟是特征提取或模式表示。模式表示涉及到類別的數(shù)目,可用模式的數(shù)目,以及聚類處理可用的特征的數(shù)目、種類和規(guī)模。其中一些信息可以由用戶控制。
特征選擇是確定聚類中所用的最有效的圖像特征集合的處理。特征提取是利用對輸入特征的一個或多個變換來產(chǎn)生顯著的輸出特征。使用這兩種技術(shù)中的任一種,或這兩種技術(shù)共同使用可以獲得適當?shù)奶卣骷嫌糜诰垲悺T谛〉臄?shù)據(jù)集合中,模式表示可以基于先前的觀測值。然而,在大的數(shù)據(jù)集合情況下,用戶很難在聚類中跟蹤每一個特征的重要性。一種解決辦法是對模式盡可能多地進行度量,并且在模式表示中使用所有度量。
然而由于迭代處理的數(shù)量,在聚類中不可能直接使用大量的度量。因此,設計了幾種特征的提取和選擇的方法以獲得這些度量的線性或非線性組合,以使這些度量可以用來表示模式。
聚類中的第二個步驟是相似度確定。模式接近度通常由定義于模式對的距離函數(shù)來度量。有很多已知的距離度量。簡單的歐幾里德距離度量可以常常用于反映兩個模式之間的相似度,而其它相似度度量可以用來表征模式之間的一種“概念上的”相似度。其它技術(shù)使用了隱性的或顯性的知識。大多數(shù)基于知識的聚類處理在相似度確定中利用顯性知識。
然而,如果用不適當?shù)奶卣鞅硎灸J?,則不可能得到有意義的分割,與用于相似度計算的知識的質(zhì)量和數(shù)量無關(guān)。對于確定用定性和定量特征的混合來表示的模式之間的相似度,沒有普遍可接受的方案。
聚類中的下一個步驟是組合。廣泛地說,有兩種組合方案分級法和分割法。分級方案更加通用,分割方案則復雜度較低。分割方案令平方誤差準則函數(shù)最大化。由于很難找到一個最優(yōu)的解,因此使用大量的方案以獲得這個問題的全局最優(yōu)解。然而,當應用于大的數(shù)據(jù)集合時,這些方案從計算上被否決。組合步驟可以由幾種方式完成。當數(shù)據(jù)被分割入各分組中時,聚類的輸出可以是精確的,或者在每個輸出聚類中每個模式都具有可變的成員度時,聚類的輸出也可以是模糊的。分級聚類產(chǎn)生基于一種相似度準則的一系列嵌套的分割,用于對聚類進行合并或分裂。
分割聚類確定優(yōu)化一種聚類準則的分割。用于組合操作的其它技術(shù)包括概率論和圖論的聚類方法。在一些應用中,具有一個非分割的聚類可能是有用的。這意味著聚類重疊。
模糊聚類理想地適合這種目的。模糊聚類也可以處理混合數(shù)據(jù)類型。然而,模糊聚類很難得到精確的成員值。由于聚類的主觀特性,通用方法可能不起作用,并且需要表示以適當形式得到的聚類以幫助判決器。
基于知識的聚類方案產(chǎn)生直觀上具有吸引力的聚類描述。即使當模式利用定性特征和定量特征的組合來表示時,倘若可以利用連接一個概念和混合特征的知識,也可以使用這些方案。然而,基于知識的聚類方案的執(zhí)行在計算方面代價高,且不適于組合大的數(shù)據(jù)集合。著名的k方法處理及其神經(jīng)實現(xiàn)Kohonen網(wǎng)絡,在用于大數(shù)據(jù)集合時是最成功的。這是因為k方法處理執(zhí)行簡單,并且由于它的線性時間復雜度,在計算上具有吸引力。然而在大數(shù)據(jù)集合情況下,即使這個線性時間處理也是不可行的。
可以利用增量處理對大的數(shù)據(jù)集合進行聚類。但是它們傾向于依賴排序。分割和占領是一種試探法,它已經(jīng)被恰當?shù)乩靡詼p少計算上的代價。然而應該將它審慎地應用在聚類中,以獲得有意義的結(jié)果。
向量聚類廣義Lloyd處理是一種聚類技術(shù),它是標量情況對于具有向量的情況的擴充,見Lloyd的“Least squares quantization in PCM”,IEEETransactions on Information Theory,(28)127-135,1982。這個方法包括一定數(shù)量的迭代,每個迭代重新計算一組對輸入狀態(tài)的更加恰當?shù)姆指钜约八鼈兊馁|(zhì)心。
該處理將M個輸入狀態(tài)的集合X={xmi=1,...,M}作為輸入,并且產(chǎn)生一個具有N個分割的集合C作為輸出,這些分割由其相應的質(zhì)心cnn=1,...,N表示。
該處理開始于一個初始的分割C1,并且重復以下步驟(a)給定一個分割,它表示一組由其質(zhì)心CK={cnn=1,...N}來定義的聚類,通過擾動這些質(zhì)心,對集合CK中的每個質(zhì)心計算兩個新的質(zhì)心,得到一個新的分割集合CK+1;(b)通過選擇一個質(zhì)心更接近每個狀態(tài)的聚類,將每個訓練狀態(tài)重新指配至CK+1中的一個聚類中;(c)利用質(zhì)心的定義為每一個產(chǎn)生的聚類重新計算其質(zhì)心,以得到一個新的碼本CK+1;(d)如果在前面的步驟中產(chǎn)生了一個空的單元,則指配一個替換性的碼向量,而不是計算質(zhì)心;以及(e)對CK+1計算平均失真Dk+1,直到最后一次迭代之后的失真變化率小于某個最小閾值ε。
第一個要解決的問題是,如何選擇一個初始碼本。產(chǎn)生碼本的最普通的方法是試探性、隨機性地從訓練序列中選擇輸入向量,或使用一個分裂處理。
第二個要確定的是如何指定一個終止條件。通常,確定平均失真并將它與一個閾值進行比較,如下|DK-DK+1|DK<ϵ,]]>其中0≤ε≤1。
對于與選擇初始碼本問題有關(guān)的空單元問題,有不同的解決方法。一個解決方法是分裂其它的分割,并且將新的分割重新指配給空的分割。
主導顏色為了計算一幅圖像的主導顏色,應用向量聚類處理。首先,假設一幅圖像I的所有的顏色向量I(p)都在同一個聚類C1中,即只有一個單個聚類。在這里,p是一個圖像像素,I(p)是一個表示像素p的顏色值的向量。顏色向量被組合入最近的聚類中心。對于每一個聚類Cn,通過對屬于該聚類的顏色向量的值求平均來確定顏色聚類質(zhì)心cn。
根據(jù)下式對于所有的聚類計算失真分數(shù)DK=ΣnNΣI(p)∈Cnv(p)||I(p)-cn||2,]]>其中cn是聚類的質(zhì)心,v(p)是用于像素p的感知加權(quán)。由局部像素統(tǒng)計值計算感知加權(quán),以考慮人類視覺對平滑區(qū)域中的變化比對有紋理的區(qū)域中的變化更加敏感的事實。該失真分數(shù)是顏色向量到它們的聚類中心的距離之和。該失真分數(shù)度量了經(jīng)過本次迭代后改變其聚類的顏色向量的數(shù)目。重復該迭代組合,直到失真的差值變得可以忽略不計。則當聚類的總數(shù)目比最大聚類數(shù)目小的時候,通過擾動中心,將每個顏色聚類劃分至兩個新的聚類中心。最后,將具有相似顏色中心的聚類組合,以確定最終的主導顏色的數(shù)目。
直方圖一種重要的數(shù)字圖像工具是強度或顏色直方圖。直方圖是圖像中的像素數(shù)據(jù)的一種統(tǒng)計表示。直方圖指示了圖像數(shù)據(jù)值的分布。直方圖顯示出每個顏色值有多少個像素。對于一個單個通道圖像,直方圖對應一個條狀的圖形,其中水平軸的每個條目是一個像素可以具有的可能顏色值之一。垂直軸指示了該顏色值的像素的數(shù)目。所有垂直條狀的和等于圖像中像素數(shù)目的和。
直方圖h是槽(bin)的向量[h
,...,h[M]],其中每個槽h[m]存儲圖像I中對應于m的顏色范圍的像素的數(shù)目,其中M是槽的總數(shù)。換句話說,直方圖是從顏色向量集合到正實數(shù)集合R+的一個映射。槽的大小相同,則顏色映射空間的分割可以是規(guī)則的?;蛘弋斈繕朔植嫉男再|(zhì)是已知時,該分割也可以是不規(guī)則的。通常假設h[m]是相同的,且直方圖經(jīng)過歸一化,使得
Σm=0Mh[m]=1.]]>累積直方圖H是直方圖的變量,使得H[u]=Σm=0uh[m].]]>這產(chǎn)生了所有小于u的槽的計數(shù)。假設該直方圖本身是一個概率密度函數(shù),則累積直方圖以某種方式對應一個概率函數(shù)。直方圖表示顏色值發(fā)生的頻率,并且可以看作顏色分布的概率密度函數(shù)。直方圖只記錄圖像的總的強度組成。該直方圖處理造成了某種信息損失,而大大簡化了該圖像。
像素操作的一個重要類別是基于對直方圖的操作。利用直方圖,可能提高一幅圖像的對比度,以均衡顏色分布,并且確定該圖像的總亮度。
對比度增強在對比度增強中,修改圖像的強度值,以完全利用可用的強度值動態(tài)范圍。如果圖像的強度范圍從0到2B-1,即進行B比特編碼,則對比度增強將圖像的最小強度值映射到0,將最大值映射到2B-1。該變換將一個給定像素的像素強度值I(p)轉(zhuǎn)換為對比度增強后的強度值I*(p),如下式I*(p)=(2B-1)I(p)-minmax-min.]]>然而,這個確切表示對外界影響和圖像噪聲可能是敏感的。該變換的一種比較不敏感的并且更一般的形式由下式給出I2(p)=0I1(p)<low(2B-1)I1(p)-lowhigh-lowlow≤I1(p)<high(2B-1)high≤I1(p)]]>在該表述的這種形式中,可以選擇1%和99%的值分別用于low和high,而不是在第一種形式中用0%和100%代表min和max。還可能利用來自一個區(qū)域的直方圖基于區(qū)域應用對比度增強運算,來確定用于該算法的適當?shù)臉O限。
當兩幅圖像需要基于一個具體的原則進行比較時,一般首先將它們的直方圖歸一化為“標準”直方圖。一種直方圖歸一化技術(shù)是直方圖均衡。它利用函數(shù)g[m]=f(h[m])將直方圖h(m)變換為對所有顏色值為常數(shù)的直方圖g(m)。這對應著一種顏色分布,其中所有值的概率相等。對于一個任意圖像,只能近似這個結(jié)果。
對于一個均衡函數(shù)f(.),輸入概率密度函數(shù)、輸出概率密度函數(shù)和函數(shù)f(.)之間的關(guān)系由下式給出pg(g)∂g=ph(h)∂h⇒∂f=ph(h)∂hpg(g).]]>從上面的關(guān)系可以看出,f(.)是可微的,且f/h≥0。對于直方圖均衡,pg(g)=常數(shù)。這意味著f(h[m])=(2B-1)H[m],其中H[m]是累積概率函數(shù)。換句話說,概率分布函數(shù)被從0到2B-1歸一化。
MPEG-7MPEG-7標準,正式名稱為“多媒體內(nèi)容描述接口”,提供了一組豐富的標準化工具來描述多媒體內(nèi)容。該工具是元數(shù)據(jù)元素和它們的結(jié)構(gòu)和關(guān)系。它們由該標準定義為描述符和描述方案的形式。該工具用于產(chǎn)生描述,即一組示例的描述方案及其相應的描述符。這些使得例如搜索、過濾和瀏覽的應用能有效且高效地接入多媒體內(nèi)容。
因為描述性的特征在應用方面必須是有意義的,所以它們對不同的用戶領域和不同的應用是不同的。這意味著可以用不同類型的特征描述同樣的材料,適應于應用的區(qū)域。對于視覺數(shù)據(jù)的低級別抽象可以是形狀,大小,紋理,顏色,運動和位置的描述。對于音頻數(shù)據(jù),低抽象級別是音樂調(diào)子,基調(diào),和速度。高級別的抽象給出了語義方面的信息,例如“這個場景中左邊有一條吠叫的棕色狗,一個藍色球落在右邊,并且背景中伴有汽車經(jīng)過的聲音?!边€可能存在中間級別的抽象。
抽象的級別與特征可以被提取的方式有關(guān)很多低級別特征可以通過完全自動的方式進行提取,而高級別特征需要更多的人交互。
對于該內(nèi)容中描繪的是什么具有了一個描述后,還需要包括關(guān)于多媒體數(shù)據(jù)的其它類型的信息。形式為所用的編碼格式,例如JPEG,MPEG-2,或總的數(shù)據(jù)大小。這個信息幫助確定內(nèi)容如何輸出。用于接入該內(nèi)容的條件可以包括到一個具有知識產(chǎn)權(quán)信息和價格的注冊處的鏈接。分類可以將該內(nèi)容評定入一些預先定義的類別中。到其它有關(guān)材料的鏈接可以協(xié)助搜索。對于非虛構(gòu)的內(nèi)容,上下文會透露出錄音場合的情況。
因此,MPEG-7描述工具使得可以產(chǎn)生描述作為一組示例的描述方案,及其對應描述符,包括描述內(nèi)容的產(chǎn)生和制造處理的信息,例如導演,標題,短特征電影;涉及內(nèi)容使用的信息,例如版權(quán)指示,使用歷史,廣播進度表;內(nèi)容的存儲特征的信息,例如,存儲格式,編碼;內(nèi)容的空間,時間或時空元素的結(jié)構(gòu)信息,例如場景的剪輯,區(qū)域的分割,區(qū)域運動跟蹤;內(nèi)容中關(guān)于低等級特征的信息,例如顏色,紋理,聲音音色,旋律描述;由內(nèi)容捕捉的事實的概念性信息,例如,對象和事件,對象之間的交互;關(guān)于如何高效地瀏覽內(nèi)容的方法的信息,例如總結(jié),變量,空間和頻率子帶;關(guān)于收集對象的信息;以及關(guān)于用戶與內(nèi)容進行交互的信息,例如用戶喜好,使用歷史。所有這些描述當然以高效的方式進行編碼,用于搜索、過濾和瀏覽。
區(qū)域生長一個由點組成的區(qū)域通過組合具有類似特征的相鄰點迭代地生長。原則上,只要能夠定義距離度量和連接策略,就可以應用區(qū)域生長方法。已知有幾種區(qū)域生長連接方法。通過點的空間關(guān)系對它們進行區(qū)分,為這些點確定距離度量。
在單一連接生長中,將一個點加入具有相似特征的相鄰點中。
在質(zhì)心連接生長中,通過估計目標區(qū)域質(zhì)心和當前點之間的距離,將一個點加入一個區(qū)域。
在混合連接生長中,點間的相似度是基于該點本身的一個小的相鄰范圍內(nèi)的性質(zhì),而不是僅僅使用直接相鄰的點。
另一種方法不僅考慮在所需區(qū)域中的一個點,還抵制不在該區(qū)域內(nèi)的樣點。
這些連接方法通常開始于一個單個種子點p,并從該種子點擴展以充滿一個相關(guān)區(qū)域。
需要組合這些已知的技術(shù)連同新發(fā)展的技術(shù),以一種新的方式在圖像中適配地生長區(qū)域。換句話說,需要適配地確定可以應用于任何圖像或視頻的閾值和距離函數(shù)參數(shù)。
發(fā)明內(nèi)容
本發(fā)明提供了一種用于基于區(qū)域的圖像和視頻分割的閾值適配方法,它利用了顏色直方圖和MPEG-7主導顏色描述符。該方法使得區(qū)域生長參數(shù)的適配指定成為可能。
提供了三種參數(shù)指配技術(shù)通過顏色直方圖的參數(shù)指配;通過向量聚類的參數(shù)指配;以及通過MPEG-7主導顏色描述符的參數(shù)指配。
利用質(zhì)心連接區(qū)域生長,將一幅圖像分割為各區(qū)域。質(zhì)心連接處理的目標是產(chǎn)生同類的區(qū)域。同類性定義為顏色成分,即顏色變量一致的性質(zhì)。也可以將這個定義擴展,以包含紋理及其它特征。
圖像的顏色直方圖近似顏色密度函數(shù)。這個密度函數(shù)的模態(tài)指其主要元素的數(shù)目。對于模型表示的混合,各個模型的數(shù)目確定了區(qū)域生長參數(shù)。一個高的模態(tài)表示該密度函數(shù)的大量不同的顏色聚類。一個顏色同類的區(qū)域中的點更可能在同一個顏色聚類中,而不是在不同的聚類中。因此,聚類的數(shù)目與區(qū)域的同類性的規(guī)定是相關(guān)聯(lián)的。一個區(qū)域所對應的顏色聚類確定對于該區(qū)域的同類性的規(guī)定。
本發(fā)明計算顏色距離函數(shù)的參數(shù)及其閾值,它們對每個區(qū)域可能是不同的。本發(fā)明提供了一種適配區(qū)域生長方法,結(jié)果顯示該閾值指配方法與現(xiàn)有技術(shù)相比更快速且更加具有穩(wěn)健性。
附圖簡述
圖1是待生長入一個區(qū)域的像素的方框圖;圖2是要被包括的像素的方框圖;圖3是一個相關(guān)區(qū)域的方框圖;
圖4是根據(jù)本發(fā)明的區(qū)域生長和分割的流程圖;圖5是質(zhì)心連接區(qū)域生長的流程圖;圖6是利用顏色向量聚類的適配參數(shù)選擇的流程圖;圖7是用于確定聚類中心的流程圖;圖8A和8B是通道投影的流程圖;圖9是用于確定最大值間距離的流程圖。
圖10是用于確定顏色距離的參數(shù)的流程圖;圖11是顏色距離的確切表示的流程圖;圖12是利用顏色直方圖用于適配參數(shù)選擇的流程圖;圖13A和13B舉例說明了顏色直方圖的結(jié)構(gòu);圖14A和14B舉例說明了直方圖平滑;圖15A和15B舉例說明了尋找局部最大值;圖16A和16B舉例說明了直方圖距離的確切表示;圖17是使用MPEG-7描述符的用于適配區(qū)域生長的流程圖;以及圖18A和18B是使用MPEG-7描述符的通道投影的流程圖。
本發(fā)明的優(yōu)選實施方案質(zhì)心連接方法本發(fā)明提供了一種方法,用于在一幅圖像中生長具有相似像素的區(qū)域。該方法還可以應用于一個圖像序列,即視頻,以生長一卷。區(qū)域生長可以用于將一個對象從圖像或視頻中分割出去。原則上,只要定義了距離度量和連接策略,就可以使用區(qū)域生長方法。上述的是幾種連接方法,它們辨別像素的空間關(guān)系,距離度量為這種空間關(guān)系而確定。
當圖像的強度平滑變化時,質(zhì)心連接方法防止了區(qū)域“泄漏”,而能夠環(huán)抱區(qū)域的強邊緣則丟失了。當可檢測的邊緣邊界丟失,質(zhì)心連接方法可以構(gòu)造一個同類的區(qū)域,而這個性質(zhì)有時引起根據(jù)初始參數(shù)對平滑區(qū)域的分割。距離度量的準則將重大的強度變化反映在距離大小上,并抑制了小的變化。
一種質(zhì)心統(tǒng)計量是保持區(qū)域中像素顏色值的平均值。隨著每添加一個新的像素,對該平均值進行更新。雖然可能有逐漸的漂移,該區(qū)域中所有先前像素的權(quán)值作為對該種漂移的調(diào)節(jié)器。
如圖1-3所示,區(qū)域生長開始于一個單個種子像素p 101,它擴展以充滿一個相關(guān)區(qū)域s 301,見圖3。示例種子像素101具有一個任意值“8”,且將距離閾值任意設定為“3”。在根據(jù)本發(fā)明的質(zhì)心連接方法中,一個候選像素204與質(zhì)心的值202進行比較。在當前區(qū)域201邊界上的每個像素,例如像素204,與一個質(zhì)心值進行比較。如果距離小于閾值,則相鄰像素204包括進該區(qū)域中,并且質(zhì)心值進行更新。該包括處理繼續(xù),直到不再有邊界像素可以包括進該區(qū)域。注意到質(zhì)心連接不引起區(qū)域泄漏,它不像單個連接方法僅度量像素方式的距離。
相似度估計一個用于度量像素p和像素q之間距離的距離函數(shù)定義為Ψ(p,q),則當像素p和q相似時,該距離函數(shù)產(chǎn)生較低的值,否則產(chǎn)生較高的值。認為像素p與像素q是相鄰的。當Ψ(p,q)小于某個閾值ε,則像素q可以在像素p的區(qū)域s內(nèi)。則可以考慮另一個與像素q相鄰的像素是否包括在區(qū)域s中,以此類推。
本發(fā)明提供一種方法來定義距離函數(shù)Ψ,包括它的參數(shù),和閾值ε,以及一些用于更新區(qū)域?qū)傩缘姆椒āW⒁獾介撝挡幌抻谝粋€常數(shù)值。它可以是一個圖像參數(shù)、像素顏色值,及其它先驗信息的函數(shù)。
一個距離函數(shù)比較單個像素的顏色值。在質(zhì)心連接中,通過求目標區(qū)域201的質(zhì)心和像素之間的距離函數(shù)Ψ(c,p)的值,將每個像素p與一個區(qū)域方式的質(zhì)心c進行比較,如圖2所示。這里,當前的“相關(guān)”區(qū)域的質(zhì)心值是7.2。
用于距離函數(shù)Ψ的閾值ε確定了該區(qū)域的同類性。小的閾值傾向于產(chǎn)生多個具有一致顏色的小區(qū)域,并引起過分割。另一方面,大的閾值可以組合具有不同顏色的各區(qū)域。大的閾值對邊緣不敏感,且導致欠分割。因此,距離閾值控制區(qū)域中顏色的方差。顏色的動態(tài)范圍也具有相似的效果。
起初,區(qū)域s僅包括所選的種子像素101?;蛘撸搮^(qū)域可以初始化為一小組種子像素,以更好地描述區(qū)域的統(tǒng)計量。在這種初始化下,區(qū)域平均值和方差均進行更新。候選像素可以根據(jù)該區(qū)域的方差與區(qū)域平均值進行比較。該方差可以通過對種子像素周圍的小區(qū)域進行采樣來確定。
適配區(qū)域生長和分割方法根據(jù)本發(fā)明的適配區(qū)域生長和分割的步驟如圖4所示。質(zhì)心連接區(qū)域生長500的細節(jié)由圖5給出。
從圖像400提取全局特征401。此外,確定410顏色梯度的大小。利用最小顏色梯度大小選擇420一組種子像素s。
為這組種子像素定義局部特征421。確定該特征可以通過顏色向量聚類,通過直方圖模態(tài),或者通過MPEG-7主導顏色描述符,如下文所詳述。整幅圖像的全局特征和用于這組種子像素的局部特征用來定義415適配距離函數(shù)Ψ的參數(shù)和閾值。
一個區(qū)域按照適配的距離函數(shù)圍繞著這組種子像素生長500。該區(qū)域按照已生長的區(qū)域進行分割430,且該處理對于下一個最小顏色梯度的大小進行重復,直到圖像中的所有像素都已經(jīng)被分割,且該方法完成440。
選擇420這組種子像素s,使得該集合s最好地代表了在局部鄰近地區(qū)中的像素。這個集合可以是單個種子像素。好的候選種子像素其顏色梯度大小比較小。因此,在圖像400中,對于每個像素度量410顏色梯度大小|I(p)|。利用當前像素的空間上相對的鄰居p-和p+的顏色差計算顏色梯度大小。
|I(p)|=|I(p-)-I(p+)|x+|I(p-)-I(p+)|y。
x軸和y軸上的差的大小進行相加,以確定總的梯度大小。也可以使用例如歐氏距離的其它度量。對于每個坐標軸計算顏色的差,為單個顏色通道差的和。同樣,大小距離準則、歐氏準則,或任何其它距離度量都可以用來度量這些差值,例如
|I(p-)-I(p+)|≡|IR(p-)-IR(p+)|+|IG(p-)-IG(p+)|+|IB(p-)-IB(p+)|或|I(p-)-I(p+)|≡[IR(p-)-IR(p+)]2+[IG(p-)-IG(p+)]2+[IB(p-)-IB(p+)]2]]>根據(jù)下式選擇420這組種子像素si=argminQ|▿I(p)|;]]>Q=S-∪j=1iRj,]]>其中Q起初是圖像中所有像素的集合。該區(qū)域圍繞這組種子像素生長500之后,對該區(qū)域進行分割430,且對于剩余的像素,該處理重復,直到不再有剩余的像素。
為了計算的簡單性,梯度和種子的選擇可以在亞采樣圖像中進行。
如圖5所示,區(qū)域生長500進行如下。通過指配種子像素的顏色值作為區(qū)域質(zhì)心c=I(s),被選擇420的這組種子像素和待生長的區(qū)域進行初始化503,區(qū)域質(zhì)心c=I(s)如下c[cR,cG,cB]=[IR(s),IG(s),IB(s)] 。
上式中,[cR,cG,cB]和[IR(s),IG(s),IB(s)]分別是質(zhì)心向量和種子像素的值,即紅、綠、藍顏色值。種子像素被包括進505一個活動殼層集合。對于活動殼層集合中的每個像素,檢查510相鄰像素,通過求顏色距離函數(shù)(CDF)1000的值計算520顏色距離。在步驟530中,確定該距離是否低于適配的閾值。接著,根據(jù)下式更新540區(qū)域特征向量cm+1=Mcm+I(p)M+1,]]>其中M是在當前像素p之前已經(jīng)包括進該區(qū)域的像素數(shù)目,且cm,cm+1是包括了像素p之前和之后的區(qū)域質(zhì)心向量。以上方程意味著對于一個質(zhì)心向量的元素,例如對于紅色通道cR,m+1=McR,m+IR(p)M+1.]]>其它的區(qū)域統(tǒng)計量,例如方差,矩等也進行類似的更新。將該像素包括550進該區(qū)域,確定新的鄰居,并且更新560活動殼層集合。否則,確定570是否還有剩余的活動殼層像素。鄰居像素可以選擇為4像素,8像素,或任何其它局部空間的鄰居。在下一次迭代510中計算剩余的活動殼層像素,直到不再剩余新的活動像素570,并且分割430區(qū)域,直到完成整個圖像440。
通過顏色向量聚類進行適配參數(shù)指配現(xiàn)在更加詳細地描述通過顏色向量聚類的適配參數(shù)指配的細節(jié),首先參考圖6。
利用關(guān)于顏色通道811的通道投影,對顏色向量聚類700的結(jié)果進行再組合800。對于每個顏色通道,確定一些最大值間距離900。這些距離用來確定用于顏色距離函數(shù)1000的參數(shù)和閾值ε。該顏色距離函數(shù)和閾值用來在質(zhì)心連接區(qū)域生長階段500中確定顏色相似度。
圖7更加詳細地示出了顏色向量聚類700。首先,掃描701輸入圖像400以用向量的形式表示每個像素的顏色值。這可以使用輸入圖像的子集703,即全解析度圖像的亞采樣形式來完成。起初,假設所有向量在同一個聚類中。對一個顏色通道計算710顏色向量值的和。通過分割像素數(shù)目的和值,得到715平均值向量w,如下w=wRwGwB=1PΣp∈IIR(p)1PΣp∈IIG(p)1PΣp∈IIB(p),]]>其中P是圖像中像素的總數(shù)目,I(p)=[IR(p),IG(p),IB(p)]是像素p的顏色值。聚類中心是向量w=[wR,wG,wB],其中向量中的每個元素是對于該聚類中相應顏色通道的平均顏色值。這里,該符號假設使用RGB顏色空間。也可以使用任何其它顏色空間。
通過用一個小的值δ擾動720平均值向量值,從平均值向量715中得到730兩個向量w-=wR-δwG-δwB-δ,]]>w+=wR+δwG+δwB+δ.]]>兩個互不相同的聚類中心w-和w+或是隨機地或是由其它方法進行初始化730。一個初始失真分數(shù)D(0)731置為零。對于每個顏色向量I(p),度量從顏色向量到每個中心的距離,并將每個向量組合740至最近的中心。對新的組合重新計算745聚類中心。接著,確定750失真分數(shù)D(i),它度量同一聚類中的總距離。如果當前和前一失真分數(shù)的差755大于失真閾值T,則重新組合并重新計算聚類中心760。
另一方面,如果聚類的數(shù)目小于一個最大值K 770,則通過用一個小的值擾動聚類中心,將每個聚類劃分755為兩個新的聚類,并進行組合步驟780,否則結(jié)束。
通道投影圖8A更加詳細地示出了通道投影800。通過聚類得到聚類中心790。聚類中心重新組合810入對應于顏色通道的集合811。有三個集合,例如每一個用于RGB顏色值的其中一個。接著,將每個集合的元素根據(jù)它的元素的大小,從小到大地排序820為表821。如果有序表821的任何元素間的距離非常小,即小于一個上界閾值τ,則合并830這些元素|rk-rk+1|<τ⇒rk=12(rk+rk+1),]]>其中rk表示用于一個顏色通道的有序表中的第k個元素。這里使用了紅色通道用于標記而不失一般性。
圖8B更加詳細地示出了合并800。合并在每個表,即每個通道的N個元素上單獨執(zhí)行。選擇832表中的兩個連續(xù)的元素rk和rk+1,計算833這兩個元素間的距離。如果該距離小于上界閾值τ,則計算平均值,且由一個計算出的平均值代替834當前元素rk。標號值大于元素rk+1的表元素左移835。刪除836該表的最后的元素。這個代替減少了838表中元素的數(shù)目。由于合并操作減少了相應表中元素的數(shù)目,合并階段之后的元素總數(shù)NR可以小于表的初始大小N。
最大值間距離圖9示出了如何確定最大值間距離l-和l+。對每一個通道分別確定顏色值831的有序元素間的最大值間距離。
合并800之后,由聚類中心確定兩個距離901,對于每一個顏色通道,例如下面表述中對于紅色通道,根據(jù)下式
lm,R-=12(rm-rm-1)]]>lm,R+=12(rm+1-rm).]]>這些距離表示表中的當前最大值lm與最近的較小的lm-1和較大的lm+1最大值之間的中點。
對于每一個相應的顏色通道,還根據(jù)下式計算902基于分數(shù)的標準偏差λR=KR1NRΣm=1NR(|rm+1-rm|-rmean)2,]]>其中rmean是最大值間距離的平均值rmean=1NRΣm=1NRlm,R+.]]>同樣還可以從l-計算平均值rmean。常數(shù)KR是一個用于歸一化的乘數(shù)。如果KR=2.5,λR表示全部距離的95%。
顏色距離函數(shù)圖10和11示出了顏色距離函數(shù)的表述1100的細節(jié)。區(qū)域生長方法500提供了區(qū)域特征向量1040,和候選像素1050,見圖5和10。對于候選像素和當前區(qū)域,確定顏色距離1110或1120。
通過步驟1005和1020,從最大值間距離900得到閾值ε和距離Ψ。Lambda(λk),其中k:RGB,表示基于最大值間距離的標準偏差值。值NR、NG、NB是合并后相應的表中元素的數(shù)目。
基于對數(shù)的距離函數(shù)利用一項1120,通過在單個通道中非線性地縮放很高的差值,來使得顏色的求值對小的顏色差值更加靈敏。根據(jù)下式選擇1020距離參數(shù)lk,c,其中k:RGBlR,c=lR,m-rm-lR,m-<cR≤rmlm+rm<cR≤rm+lR,m+]]>lG,c=lm-gm-lG,m-<cG≤gmlm+gm<cG≤gm+lG,m+,]]>lB,c=lm-bm-lB,m-<cB≤bmlm+bm<cB≤bm+lB,m+]]>見上式。當所有通道具有穩(wěn)定的距離時,這個求值返回較高的距離值。只要一個通道具有高的差值而其它通道具有不明顯的差值,則返回一個較低的值。
當顏色通道具有更多可分辨的性質(zhì),即通道中有具有更多獨立的顏色信息時,Nk的加權(quán)給它們帶來更高的貢獻。該距離值也用1-D聚類lk的寬度進行縮放,其中當前像素顏色值落入該寬度范圍內(nèi)。這使得可以關(guān)于每個1-D聚類對距離項進行相等的歸一化。
選擇對數(shù)項是因為它對小的顏色差比較敏感,同時它防止了單個通道中對于相對大的顏色差的錯誤距離。與一個具有穩(wěn)健性的估計器相似,對數(shù)項不線性或指數(shù)地放大顏色距離。相反,當距離的大小比較小時,距離函數(shù)平緩地增加,但是接著對于極端偏離的距離,它保持不變??紤]到一個具有更多可分辨顏色的通道提供了更多用于分割的信息,對通道距離進行加權(quán)。
通道中主導顏色的總數(shù)目乘以距離項,以增加提供了更多細節(jié)的通道的貢獻,該細節(jié)即用于分割的多個主導顏色。如果通過1110計算距離,指配該距離閾值為ε=α(NR+NG+NB),如果利用式1120,該閾值指定為ε=α(λR+λG+λB)。
標量α作為一個敏感性系數(shù)。
用直方圖模態(tài)進行適配參數(shù)指配圖12示出了利用單個顏色通道直方圖的最大值的適配區(qū)域。再次從圖像或視頻400開始。對于每個通道,計算1300顏色直方圖1302。對直方圖進行平滑1400,得到1500它們的模態(tài)。從直方圖模態(tài)確定900最大值間距離。區(qū)域生長500如上文所述。
圖13A和13B示出了如何從一個全解析度輸入圖像701的通道1301,或從輸入圖像400的子采樣的形式702,構(gòu)造直方圖1302。直方圖1302在x軸上具有顏色值h,并在y軸上具有對于每個顏色值的像素數(shù)目H(h)。對于每個圖像像素1310,確定它的顏色h1315,并且根據(jù)下式增加相應的顏色槽中的數(shù)目1320
H(I(p))=H(I(p))+1對p。
圖14A和14B示出了如何在一個窗[-a,a]內(nèi)對輸入直方圖1302進行平均1410來提供一個平滑過的直方圖1402,根據(jù)下式H‾(h)=12a+1Σk=-aaH(h+k).]]>圖15A和15B示出了如何得到直方圖模態(tài)1550。集合U是顏色值的可能范圍,即對于八比特顏色通道為
。為了在集合U內(nèi)找到對于直方圖1402的1515局部最大值,在剩余集合U中找到全局最大值,并且令最大值的數(shù)目增加一。從集合U中移除1520當前最大值周圍的窗[-b,b]內(nèi)的接近的值,并更新1530最大值的數(shù)目。重復1540,直到集合U中沒有剩余的點。對每個顏色通道執(zhí)行該操作。
圖16A和16B示出了如何計算最大值間距離1580,1590。對于每一個局部最大值,計算1575它與前一個和下一個最大值間的兩個距離。對局部最大值h*進行排序處理1560,并對每一個最大值1570,計算1575距離l-和l+lm-=12(hm*-hm-1*)]]>lm+=12(hm+1*-hm*),]]>并且根據(jù)下式得到基于分數(shù)的標準差λ=K1NΣm=1NR(|hm+1-hm|-hmean)2]]>其中hmean是距離的平均值hmean=1NΣm=1NlM+.]]>這些距離基本上對應于局部最大值周圍峰值的寬度。利用以上距離,得到最大值間距離。這與對圖9描述的處理相似,用直方圖值h代替了顏色值c。從彩色圖像501中,對于每一個通道1301,最大值的總數(shù)目(N)1701相加1330以確定ε1030,并且按照前述繼續(xù)進行。
用MPEG-7主導顏色描述符進行適配參數(shù)指配圖17示出了利用MPEG-7主導顏色描述符的適配區(qū)域生長方法。再次注意圖6和圖12的相似之處。該圖示出了如何利用MPEG-7主導顏色描述符,從彩色圖像確定顏色距離閾值1030和顏色距離函數(shù)參數(shù)1000。如上文所述,圖像的所關(guān)心區(qū)域中的一組主導顏色提供了對圖像的簡明的描述,它易于索引和檢索。主導顏色描述符利用少量的顏色描述了部分或全部圖像。
這里,假設MPEG描述符1750可以用于需要顏色距離的圖像,或圖像的一部分。通道投影800之后,對于每個通道811計算主導顏色之間的距離1600。對于每個通道的這些距離用來確定顏色距離函數(shù)的參數(shù)1000和它的閾值1030。還示出了質(zhì)心連接區(qū)域生長處理500。MPEG-7支持指定了圖像中最顯著顏色的數(shù)目、值和方差的顏色描述符。
圖18A和18B用類似于圖8所示的方式,更加詳細地示出了通道投影1800。將主導顏色1801的相應元素置入同一集合1810,并且根據(jù)大小重新排序1820。合并1830相近的顏色。根據(jù)圖9所述確定主導顏色之間的距離1600,根據(jù)圖10和11所示執(zhí)行顏色距離閾值和顏色距離函數(shù)。
雖然本發(fā)明通過優(yōu)選實施例的舉例方式進行描述,應該知道在本發(fā)明的本質(zhì)和范圍內(nèi)可以作出各種其它的適應和修改。因此,所附的權(quán)利要求書的目的是涵蓋所有在本發(fā)明真正的本質(zhì)和范圍內(nèi)的這些變化和修改。
權(quán)利要求
1.一種用于在圖像中分割像素的方法,該方法包括從圖像中提取全局特征;在圖像中選擇一組種子像素;為該組種子像素定義局部特征;由全局和局部特征確定距離函數(shù)的參數(shù)和閾值;根據(jù)距離函數(shù),在種子像素周圍生長一個區(qū)域;從圖像中分割該區(qū)域;以及重復選擇、定義、生長和分割,直到?jīng)]有剩余的像素。
2.權(quán)利要求1的方法,其中全局和局部特征是像素的顏色值。
3.權(quán)利要求1的方法,其中該生長是通過質(zhì)心連接。
4.權(quán)利要求2的方法,其中該距離函數(shù)基于顏色值。
5.權(quán)利要求1的方法,其中該閾值確定區(qū)域的同類性。
6.權(quán)利要求1的方法,還包括對于各像素,度量顏色梯度大??;以及選擇具有最小梯度大小的像素作為該組種子像素。
7.權(quán)利要求1的方法,其中通過顏色向量聚類確定局部特征。
8.權(quán)利要求1的方法,其中通過直方圖模態(tài)確定局部特征。
9.權(quán)利要求1的方法,其中通過MPEG-7主導顏色描述符確定局部特征。
10.權(quán)利要求1的方法,其中該組種子像素包括單個像素。
11.權(quán)利要求6的方法,其中對空間上相對的鄰居像素,度量其顏色梯度大小。
12.權(quán)利要求1的方法,還包括對圖像的顏色向量進行聚類,以確定距離函數(shù)的參數(shù)。
13.權(quán)利要求12的方法,還包括由顏色向量構(gòu)造顏色直方圖,以確定距離函數(shù)的參數(shù)。
14.權(quán)利要求1的方法,還包括由主導顏色描述符表示顏色值,以及由主導顏色描述符確定距離函數(shù)的參數(shù)。
15.權(quán)利要求1的方法,還包括對每個像素計算顏色梯度大小;根據(jù)最小顏色梯度大小選擇該組種子像素;根據(jù)該組種子像素的顏色值,初始化區(qū)域質(zhì)心向量。
16.權(quán)利要求1的方法,還包括為圖像的每個顏色通道構(gòu)造顏色直方圖;用一個移動的平均過濾器在局部窗中平滑該顏色直方圖;找到該顏色直方圖的局部最大值;移除每個局部最大值周圍的局部鄰居;得到局部最大值的總數(shù)目;計算當前最大值與緊接的后一及前一最大值之間的最大值間距離;根據(jù)最大值間距離確定距離函數(shù)的參數(shù);為距離函數(shù)確定上界閾值函數(shù)。
17.權(quán)利要求1的方法,還包括對于包括該組種子像素的圖像的一部分,得到MPEG-7主導顏色描述符;將MPEG-7主導顏色描述符組合入具有大小的通道集合中;將通道集合根據(jù)大小排序;根據(jù)成對距離合并通道集合;確定通道集合的總數(shù)目;由已排序的、已合并的通道集合,計算最大值間距離;根據(jù)最大值間距離確定距離函數(shù)的參數(shù);確定用于距離函數(shù)的上界閾值函數(shù)。
全文摘要
一種對圖像中顏色像素進行分割的方法。首先,從圖像中提取全局特征。然后,重復以下步驟,直到所有像素已經(jīng)從圖像中分割基于像素的梯度大小,在圖像中選擇一組種子像素;為該組種子像素定義局部特征;從全局和局部特征定義距離函數(shù)的參數(shù)和閾值;根據(jù)距離函數(shù)在種子像素的周圍生長一個區(qū)域;并且從圖像中分割該區(qū)域。
文檔編號G06T5/00GK1685364SQ20038010010
公開日2005年10月19日 申請日期2003年12月25日 優(yōu)先權(quán)日2003年1月6日
發(fā)明者費蒂·M.·伯利克里 申請人:三菱電機株式會社