專利名稱:提取對象區(qū)域的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及在運動圖像中提取對象區(qū)域的方法,該方法可以通過利用對象的運動程度來快速提取對象區(qū)域。
在監(jiān)視攝像機環(huán)境下,如果在沒有運動對象存在的情況下捕獲到一個瞬時運動,則認為是出現(xiàn)了一個對象,隨后在運動生成區(qū)域提取和跟蹤對象區(qū)域。因為背景通常是固定的并且在監(jiān)視攝像機環(huán)境下很少發(fā)現(xiàn)運動,所以利用運動信息可以相對容易地跟蹤對象。
最近,基于對象的編碼方法已經(jīng)集中于執(zhí)行少量數(shù)據(jù)或背景變化的圖像通訊。用于此種用途的標準編碼方法是MEPG-4。此外,已經(jīng)進行了許多嘗試去根據(jù)不同方法通過對對象區(qū)域和背景區(qū)域進行編碼來實現(xiàn)有效的數(shù)據(jù)網(wǎng)絡(luò)。
如上所述,在圖像通訊環(huán)境下,當一個圖像被顯示出來時,大部分運動的對象就出現(xiàn)在屏幕上。運動對象相對于屏幕尺寸的比例要大于其相對于監(jiān)視攝像機的比例。從而,在圖像通訊環(huán)境下,難于利用運動信息來提取或跟蹤對象區(qū)域。
因此,已經(jīng)提出了多種提取或跟蹤對象區(qū)域的方法。
其中之一,有一種方法通過利用運動信息和邊緣信息來初始化對象區(qū)域并按如下方式提取對象區(qū)域。首先,把先前幀的對象區(qū)域在預定方向上平移,并且與當前幀的邊緣相重疊。最大重疊區(qū)域的方向就被認為是運動方向,而重疊邊緣被認為是新對象區(qū)域的部分邊緣。隨后,獲得先前幀和當前幀之間的差異,并且在差異生成區(qū)域中當前幀的邊緣區(qū)域也被認為是對象區(qū)域的部分邊界。對通過這兩種方法得到的邊緣區(qū)域進行“或”運算,以獲取當前幀的對象區(qū)域。
然而,上述方法不能在有復雜邊緣的背景圖像中得到精確的邊緣。
還有另一種方法是按顏色將給定圖像分割成若干區(qū)域并將它們再次合并來構(gòu)成對象區(qū)域。在此,子區(qū)域是按“分水嶺”方法進行劃分的,并且可以在運動和顏色近似性的基礎(chǔ)上對近似運動信息和顏色信息的區(qū)域進行合并。此外,也可以僅利用顏色信息來合并這些區(qū)域。然而,此種基于圖像分割/合并的算法通常需要很長的處理時間,因此難以應(yīng)用于實時對象跟蹤算法。如果用戶穿著有復雜圖案的衣服,就難以按顏色來合并區(qū)域。
還有一種方法,在用戶的幫助下提取初始對象區(qū)域,并跟蹤被提取的區(qū)域是如何按時間移動的。然而此方法同樣要花費較長的時間,因此也不能用于實時處理。
現(xiàn)在將詳細介紹一種從運動圖像中提取對象區(qū)域的常規(guī)方法。
圖1顯示的是從運動圖像中提取對象區(qū)域的方法的概念圖。參照圖1,這種提取對象區(qū)域的方法包括一個提取初始對象區(qū)域的步驟(步驟111)和跟蹤所提取的對象區(qū)域的步驟(步驟121)。在此,在沒有關(guān)于對象區(qū)域的任何信息的情況下,步驟111利用自動或半自動算法來從先前幀中提取對象區(qū)域。
步驟121根據(jù)從先前幀中提取出來的對象區(qū)域來跟蹤當前幀的對象區(qū)域。它使用了比初始對象區(qū)域提取更快的算法。
另一方面,除了這兩個基本步驟,即步驟111和121之外,還可以利用對象區(qū)域重構(gòu)步驟(步驟141)。當對象區(qū)域被跟蹤了很長一段時間后,在跟蹤過程中產(chǎn)生的誤差就會累積增加。為了防止誤差增加,重構(gòu)處理必須周期性地或每當遇到特定條件時就執(zhí)行。為此可以添加一個用以提供周期值或特定條件并對它進行判斷的附加步驟(步驟131)。
還可以包括細化對象區(qū)域的步驟(步驟151)。步驟151根據(jù)對象的運動細化并修改所提取的對象區(qū)域的不精確邊界。
上述方法用于在人工的良好照明下獲得的運動圖像,比如說新聞數(shù)據(jù)。
然而,由于下面的原因,這些方法對于諸如圖像通訊的實際環(huán)境并不實用。也就是說,由于照明本身的噪聲或圖像捕捉設(shè)備的特性而可能會產(chǎn)生問題。
圖像通訊大部分在室內(nèi)進行,并且通常使用熒光燈作為內(nèi)部照明。眾所周知,熒光燈閃爍嚴重。即使這種閃爍是不能被肉眼感知的,但是分析所拍攝的數(shù)據(jù)時,即使是在非運動區(qū)域內(nèi),由于熒光燈的照明特性也會在兩個時間上不同的幀之間生成差異。在邊緣區(qū)域內(nèi)這種差異變得更加嚴重。此外,PC攝像機比攝像機的圖像品質(zhì)更低。從而,在整個圖像中就可能產(chǎn)生噪聲,尤其是用戶的運動會改變照明。
另一方面,對象運動得越厲害,在相應(yīng)位置中的兩個幀就有越大的差異;而對象運動得越小,兩個幀的差異就越小。即使在非運動位置中兩個幀也會有差異。這種差異可能會大于少量運動對象的邊界中生成的差異,并小于在大量運動對象的邊界中生成的差異。
因此,當假定在差異很大時生成差異以除去由于技術(shù)問題而產(chǎn)生的噪聲,那么小運動就可能被忽略。當需要發(fā)現(xiàn)小運動時,又會檢測到背景圖像的噪聲。因此,強烈要求通過識別對象的運動來提取當前幀的對象區(qū)域。
因此,本發(fā)明的一個目的是通過提供一種在運動圖像中提取對象區(qū)域的方法來解決上述問題,該方法能夠通過區(qū)分對象的運動程度來提取當前幀的對象區(qū)域。
本發(fā)明的另一目的是提供一種提取對象區(qū)域的方法,當對象有大量運動時,它可以利用變化檢測圖像(change detected image,CDI)來提取當前幀的對象區(qū)域。
本發(fā)明的另一個目的是提供一種提取對象區(qū)域的方法,當對象有大量運動而誤差增加時,它能夠根據(jù)本發(fā)明的對象提取方法來重構(gòu)當前幀的對象區(qū)域。
本發(fā)明的上述那些和其他的目的及優(yōu)點可以通過提供一種在運動圖像中提取對象區(qū)域的方法來達到,該方法利用基于對象運動程度的不同方法來提取當前幀的對象區(qū)域。
對象運動程度表示先前幀和當前幀之間的對象位移。
當對象幾乎沒有運動時,先前幀的對象區(qū)域可以由當前幀的對象區(qū)域來取代。
當對象有大量運動時,可以利用基于當前幀和先前幀之間的差異所生成的CDI來提取當前幀的對象區(qū)域。
根據(jù)本發(fā)明的另一方面,用以在運動圖像中提取對象區(qū)域的方法包括如下步驟根據(jù)兩個時間不同的幀之間的差異來生成CDI(變化檢測圖像);比較CDI的對象區(qū)域和先前幀的對象區(qū)域;以及根據(jù)比較的結(jié)果來修改先前幀的對象區(qū)域。
根據(jù)該提取對象圖像的方法,修改先前圖像的對象區(qū)域的步驟包括從四個方向的邊沿向內(nèi)掃描CDI和先前幀;從CDI對象區(qū)域的輪廓和先前幀對象區(qū)域的輪廓之間檢測出在掃描方向上首先出現(xiàn)的輪廓;以及當先前幀對象區(qū)域的輪廓首先檢測出時,收縮或擴展先前幀的對象區(qū)域,直到其與CDI對象區(qū)域的輪廓相吻合。
修改先前圖像的對象區(qū)域的步驟還包括當CDI的對象區(qū)域的輪廓首先檢測到時,收縮或擴展先前幀的對象區(qū)域,直到其與先前幀對象區(qū)域的輪廓相吻合。
本發(fā)明的其它優(yōu)點、目的和特征有一部分將在以下的說明書中進行闡述,有一部分則對于本領(lǐng)域的技術(shù)人員經(jīng)過對以下內(nèi)容的檢驗后會變得明了,或者通過本發(fā)明的實踐而體驗到。所附的權(quán)利要求書具體指出了本發(fā)明的目的和優(yōu)點。
圖4顯示的是根據(jù)本發(fā)明從先前幀中獲取的先前模型的示意圖;圖5顯示的是根據(jù)本發(fā)明的變化檢測圖像的示意圖;圖6顯示的是根據(jù)本發(fā)明的閉合圖像的示意圖;圖7顯示的是根據(jù)本發(fā)明利用閉合形態(tài)來提取對象區(qū)域的過程示意圖;圖8顯示的是根據(jù)本發(fā)明的精確模型的示意圖;圖9顯示的是根據(jù)本發(fā)明在先前模型和閉合模型之間的局部收縮和擴展的概念圖;圖10顯示的是根據(jù)本發(fā)明利用開放形態(tài)來提取對象區(qū)域的過程示意圖;圖11顯示的是根據(jù)本發(fā)明的簡化模型的示意圖;以及圖12顯示的是根據(jù)本發(fā)明的重繪模型的示意圖。
優(yōu)選實施例詳細說明現(xiàn)在將結(jié)合附圖對根據(jù)本發(fā)明優(yōu)選實施例的提取對象區(qū)域的方法進行詳細闡述。
根據(jù)本發(fā)明,利用基于對象運動程度的不同方法來提取當前幀的對象區(qū)域。在此,對象運動程度表示先前幀和當前幀之間的對象位移。尤其是當對象有大量運動時,可以利用基于當前幀和先前幀之間的差異所生成的CDI來修改先前幀的對象區(qū)域,從而提取出當前幀的對象區(qū)域。如果利用CDI來提取當前對象區(qū)域,那么可以忽略由于噪聲而產(chǎn)生的差異,從而可以提取出精確的對象區(qū)域。
圖2顯示的是根據(jù)本發(fā)明提取對象區(qū)域的過程的流程圖。如圖2所示,從運動圖像中獲得先前幀和當前幀(步驟211)。
在此,根據(jù)先前幀和當前幀來判斷運動(步驟221)。也就是,確認對象是有很小還是很大的運動。這可以通過利用先前幀和當前幀之間的像素值的差異來判斷。當像素值差異很小時,對象就幾乎沒有運動,而當像素值差異很大時,對象就有大量運動。
依照判定結(jié)果,當對象有少量運動時,先前幀的對象區(qū)域替代當前幀的對象區(qū)域,從而就提取出了當前幀的對象區(qū)域(步驟231)。
另一方面,當對象有大量運動時,具有超過一個預定臨界值的像素值差異的像素被置值以生成CDI(步驟241)。在此,“置值”指的是將相應(yīng)像素從“OFF”狀態(tài)改變?yōu)椤癘N”狀態(tài)。從而,處于“ON”狀態(tài)的像素被認為具有大量運動。同時,分別由先前幀和當前幀生成先前模型和原始圖像。原始圖像如圖5所示,先前模型如圖4所示,而CDI如圖5所示。
如圖5所示,CDI僅顯示先前幀和當前幀之間的差異生成區(qū)域。也就是,CDI顯示具有邊緣的邊界的大運動部分。
在此,為了從CDI中除去小槽或孔洞,使用閉合形態(tài)(閉合圖像)來簡化CDI。圖6顯示了閉合圖像。如圖7所示,閉合形態(tài)從對象區(qū)域中除去小槽或孔洞,并通過連續(xù)執(zhí)行擴展和侵蝕過程來連接細小的分離點。如圖6所示,圖5中的CDI的點通過閉合形態(tài)轉(zhuǎn)化為邊。依據(jù)本發(fā)明,元素直徑被定義為15個像素,但是也可以變化。
另一方面,從四個方向的邊部向內(nèi)掃描CDI和先前幀(步驟251)??梢杂赏ㄟ^閉合形態(tài)法簡化的閉合圖像來替代CDI。在此,執(zhí)行掃描過程以將CDI的對象區(qū)域輪廓與先前幀對象區(qū)域輪廓進行比較,并且檢測CDI的置值像素是否比先前幀的像素更早顯示出來。也就是說,當對象有大量運動時,在CDI的對象區(qū)域輪廓和先前幀的對象區(qū)域輪廓之間存在預定間隙。當在掃描方向上執(zhí)行掃描過程時,CDI和先前幀中至少有一個要早于另一個而檢測出來。在此,掃描過程在四個方向上執(zhí)行,即從左到右,從右到左,從上到下以及從下到上。
根據(jù)檢測結(jié)果來修改先前幀的對象區(qū)域(步驟261)。
根據(jù)掃描結(jié)果,如果在掃描方向上先前幀的對象區(qū)域輪廓的未置值像素比CDI對象區(qū)域輪廓的未置值像素先出現(xiàn),則位于先前幀的對象區(qū)域輪廓與CDI對象區(qū)域輪廓之間的像素以及包含在先前幀的對象區(qū)域中的像素將被置值。也就是,先前幀的對象區(qū)域被擴展到與CDI的對象區(qū)域一樣大。
相反,如果在掃描方向上先前幀的對象區(qū)域輪廓的置值像素比CDI對象區(qū)域輪廓的置值像素先出現(xiàn),則位于先前幀的對象區(qū)域輪廓與CDI對象區(qū)域輪廓之間的像素以及包括在先前幀的對象區(qū)域中的像素將被復位。也就是,先前幀的對象區(qū)域被收縮到與CDI的對象區(qū)域一樣大。
圖9顯示了收縮或擴展先前幀的對象區(qū)域的過程。當CDI的對象區(qū)域輪廓先出現(xiàn)時,先前幀的對象區(qū)域的收縮或擴展可以按相同的方式應(yīng)用。
也就是說,根據(jù)步驟251的檢測結(jié)果,當CDI的對象區(qū)域輪廓比先前幀的對象區(qū)域輪廓先出現(xiàn)時,如果位于兩個輪廓之間的像素和包含在先前幀的對象區(qū)域中的像素是置值的,那么包含在先前幀中的對象區(qū)域中的像素就可以被復位以與先前幀的對象區(qū)域輪廓相吻合。
除此之外,為了收縮先前幀的對象區(qū)域,當復位位于兩個輪廓之間的像素和包含在先前幀的對象區(qū)域中的像素時,包含在先前幀中的像素就可以被置值以與先前幀的對象區(qū)域輪廓相吻合。在此,前者表示對象區(qū)域的收縮,而后者表示對象區(qū)域的擴展。
在收縮或擴展先前幀的對象區(qū)域的方法中,掃描方向從左移到右,但也可以從右移到左,從上到下或從下到上。而且,當通過放大或縮小來改變屏幕時,可以在所有方向上執(zhí)行收縮或擴展過程。
圖8中顯示了在步驟261中獲得的精細圖像。
精細圖像可以通過根據(jù)開放形態(tài)(圖10)除去細線而得以簡化。圖12顯示了這樣獲得的簡化圖像。
另外,可以通過根據(jù)閉合形態(tài)去除小孔而對簡化圖象進行再次簡化。圖12顯示了這樣獲得的重繪圖像。因此,重繪圖像就成為了當前幀的對象區(qū)域。在省略了開放形態(tài)和閉合形態(tài)的情況下,在步驟261中獲得的精細圖像就是當前幀的對象區(qū)域。
另一方面,對象區(qū)域跟蹤算法通常使用一種利用先前幀的對象區(qū)域來跟蹤當前幀的對象區(qū)域的方法。在這種情況下,在跟蹤過程中少量產(chǎn)生的錯誤就會隨時間推移而積累。在每秒15幀的實時圖像顯示中誤差增長速率是非常高的。因此,就必須要周期性地或者在特定情況下重新提取精確的對象區(qū)域。
然而,當周期性地重構(gòu)對象區(qū)域時,如果誤差增長速率很高,周期就必須縮短。因為關(guān)于誤差增長的信息無法獲取,所以對象區(qū)域就難以重構(gòu)。此外,重構(gòu)算法與初始對象區(qū)域提取算法相似,從而需要比跟蹤算法更長的時間。
當對象很少有運動時,誤差增長就減弱。這樣就可以省略重構(gòu)過程。當對象有大量運動時,執(zhí)行重構(gòu)過程。也就是說,當存在大量運動時,關(guān)于對象區(qū)域的信息就很充分。因此,通過利用對象區(qū)域信息可以很容易地進行重構(gòu)過程。
根據(jù)本發(fā)明,當有大量運動時,通過利用兩個幀之間的差異來提取對象區(qū)域。關(guān)于對象區(qū)域的信息在大量運動存在下相對精確。
根據(jù)本發(fā)明的對象區(qū)域提取算法在大量運動存在下通過利用當前幀的運動信息而不是先前幀的運動信息來重構(gòu)對象區(qū)域。那是因為在圖6所示的大量的運動中大部分區(qū)域邊界在CDI中很清晰。
相反,在存在少量運動的條件下區(qū)域邊界就不清晰,這樣就可以原樣使用先前模型的邊界。在這種情況下,跟蹤算法就與重構(gòu)算法一樣,從而不會出現(xiàn)時間的問題。
如前面所述,根據(jù)本發(fā)明,提取對象區(qū)域的方法可以有效地應(yīng)用于如圖像通訊中運動圖像的基于對象的編碼,以及進行實時處理。
此外,提取對象區(qū)域的方法執(zhí)行像素單元區(qū)域劃分,從而適于需要精確劃分技術(shù)的應(yīng)用,如背景轉(zhuǎn)換。
而且,提取對象區(qū)域的方法單獨提供了提取初始對象區(qū)域的算法和由先前幀的對象區(qū)域跟蹤當前幀的對象區(qū)域的算法,因此可以有效地利用此算法。
而且,當對象具有大量運動時,提取對象區(qū)域的方法通過自動利用大量的運動信息來將對象區(qū)域重構(gòu)為更精確的區(qū)域,以根據(jù)不同狀態(tài)下的優(yōu)化方法來提取對象區(qū)域。
在參照其優(yōu)選實施例對本發(fā)明進行展示和說明時,本領(lǐng)域技術(shù)人員應(yīng)該了解到可以在權(quán)利要求限定的本發(fā)明的宗旨和范圍內(nèi)進行形式和細節(jié)上的各種變化。
上述的實施例和優(yōu)點僅僅是示例性的,并不對本發(fā)明構(gòu)成限制。本發(fā)明可以容易地應(yīng)用于其它類型的裝置。本發(fā)明的說明書是用于進行說明,不限制權(quán)利要求的范圍。對于本領(lǐng)域的技術(shù)人員,很顯然可以有很多的替換、改進和變化。
權(quán)利要求
1.一種在運動圖像中提取對象區(qū)域的方法,包括確定對象運動程度,它表示先前幀和當前幀之間的對象位移;當對象有很小的運動時,用當前幀的對象區(qū)域替代先前幀的對象區(qū)域;以及當對象有大量運動時,利用基于當前幀和先前幀之間的差異生成的CDI(變化檢測圖像)來提取當前幀的對象區(qū)域。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)閉合形態(tài)法簡化CDI。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過比較CDI的對象區(qū)域輪廓與先前幀的對象區(qū)域輪廓來收縮或擴展先前幀的對象區(qū)域。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,按照開放形態(tài)法對先前幀的被收縮或擴展的對象區(qū)域進行簡化,然后按照閉合形態(tài)法進行再簡化。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,通過從四個方向邊緣向內(nèi)掃描CDI和先前幀來執(zhí)行所述的比較。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,先前幀對象區(qū)域的收縮步驟是,當先前幀的對象區(qū)域輪廓的置值像素比CDI的對象區(qū)域輪廓的置值像素先出現(xiàn)時,對位于先前幀的對象區(qū)域輪廓和CDI的對象區(qū)域輪廓之間的像素以及包含在先前幀的對象區(qū)域中的像素進行復位。
7.根據(jù)權(quán)利要求3所述的方法,其特征在于,先前幀對象區(qū)域的擴展步驟是,當先前幀的對象區(qū)域輪廓的未置值像素比CDI的對象區(qū)域輪廓的未置值像素先出現(xiàn)時,對位于先前幀的對象區(qū)域輪廓和CDI的對象區(qū)域輪廓之間的像素以及包含在先前幀的對象區(qū)域中的像素進行置值。
8.一種在運動圖像中提取對象區(qū)域的方法,包括根據(jù)兩個時間不同的幀之間的差異來生成CDI(變化檢測圖像);將CDI的對象區(qū)域與先前幀的對象區(qū)域進行比較;以及根據(jù)比較結(jié)果修改先前幀的對象區(qū)域。
9.根據(jù)權(quán)利要求8所述的方法,還包括在比較之前根據(jù)閉合形態(tài)法來簡化CDI。
10.根據(jù)權(quán)利要求8所述的方法,還包括根據(jù)開放形態(tài)法來簡化修改過的先前幀對象區(qū)域;以及利用閉合形態(tài)法對根據(jù)開放形態(tài)法簡化過的對象區(qū)域進行簡化。
11.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述比較是在CDI的對象區(qū)域輪廓與先前幀的對象區(qū)域輪廓的位置變化的基礎(chǔ)上進行的。
12.根據(jù)權(quán)利要求8所述的方法,其特征在于,修改先前圖像的對象區(qū)域的步驟包括從四個方向的邊緣向內(nèi)掃描CDI和先前幀;檢測CDI對象區(qū)域輪廓與先前幀對象區(qū)域輪廓中在掃描方向上最先出現(xiàn)的輪廓;以及當首先檢測到先前幀的對象區(qū)域輪廓時,收縮或擴展先前幀的對象區(qū)域直到它能夠與CDI的對象區(qū)域輪廓相吻合。
13.根據(jù)權(quán)利要求12所述的方法,其特征在于,先前幀對象區(qū)域的收縮是這樣一個步驟,當位于先前幀的對象區(qū)域輪廓和CDI的對象區(qū)域輪廓之間的像素以及包含在先前幀的對象區(qū)域中的像素被置值時,對包含在先前幀對象區(qū)域中的像素進行復位以與CDI的對象區(qū)域輪廓相吻合。
14.根據(jù)權(quán)利要求12所述的方法,其特征在于,先前幀對象區(qū)域的擴展是這樣一個步驟當位于先前幀的對象區(qū)域輪廓和CDI的對象區(qū)域輪廓之間的像素以及包含在先前幀的對象區(qū)域中的像素未置值時,對包含在先前幀對象區(qū)域中的像素進行置值以與CDI的對象區(qū)域輪廓相吻合。
全文摘要
本發(fā)明公開了一種在運動圖像中提取對象區(qū)域的方法,它能夠利用基于對象運動程度的不同方法來提取對象區(qū)域。尤其是當對象具有大量運動時,通過對先前幀與根據(jù)先前幀和當前幀之間的差異而生成的CDI(變化檢測圖像)進行比較來修改先前幀的對象區(qū)域。從而,本發(fā)明可以應(yīng)用于需要進行實時處理的圖像通訊,也可以通過將對象區(qū)域劃分為像素單元而應(yīng)用于需要精確背景改變的技術(shù)中。
文檔編號G06T5/00GK1411281SQ0214443
公開日2003年4月16日 申請日期2002年9月27日 優(yōu)先權(quán)日2001年9月29日
發(fā)明者李振秀, 柳在信 申請人:Lg電子株式會社