專利名稱::圖像序列中對象實時表示的混合跟蹤的方法、計算機程序和設備的制作方法
技術領域:
:本發(fā)明涉及圖像分析,更為特別地涉及圖像序列中對象實時表示的混合跟蹤的方法、計算機程序和設備,特別是用于增強現(xiàn)實的應用。
背景技術:
:增強現(xiàn)實的目的在于在視頻流的圖像中插入一個或多個虛擬對象。根據(jù)應用類型,這些虛擬對象的位置和取向可通過由圖像表示的場景的外部數(shù)據(jù)來確定,例如通過直接來自于游戲場景的坐標,或通過與該場景的某些元素相關的數(shù)據(jù),例如所述場景的特別點如游戲者的手或背景元素的坐標。當位置和取向通過與該場景的某些元素相關的數(shù)據(jù)來確定時,會需要根據(jù)攝像機的運動或這些元素本身在場景中的運動對這些元素進行跟蹤。對象識別(英語術語也稱為objectrecognition或objectindexation)算法允許在一幀圖像或來自圖像傳感器如攝像機的一圖像序列中識別某些對象的表示的存在。此夕卜,這些算法經(jīng)常能夠根據(jù)攝像機的基準位置確定所識別對象的近似位置。作為說明,洛桑聯(lián)邦理工大學(6colePolytechniqueFederaledeLausanne)開發(fā)出一種這類算法。在初始化階段期間,不同的對象表示的特征元素根據(jù)分類結構如二進制決策樹、或根據(jù)也被稱為FERNS類型的決策結構的多分支結構,進行存儲和組織,所述特征元素也被稱為描述符,例如包括興趣點和其形成一圖像部分的周圍環(huán)境的組集。通過比較圍繞圖像中事先探測到的興趣點所提取的圖像部分的像素pixel(英語術語PictureElement的首字母縮合詞)的強度,這些結構在識別階段期間允許對圖像中表示的對象進行簡單和快速的分類。興趣點在圖像中用方向梯度高值表示位置,興趣點例如是Harris、FAST、SURF(英語術語Speeded-UpRobustFeatures的首字母縮合詞,即加速穩(wěn)健特征)、SIFT(英語術語Scale-InvariantFeatureTransform的首字母縮合詞,即尺度不變特征變換)、MSER(英語術語MaximallyStableExtremalRegion的首字母縮合詞,即最穩(wěn)定極值區(qū)域)或YAPE(英語術語YetAnotherPointExtractor的首字母縮合詞)的類型?;谇懊鎰?chuàng)建的決策結構而在根據(jù)所識別的興趣點從初始化時所用的圖像和所分析圖像中提取的圖像部分之間進行的匹配,允許識別與數(shù)據(jù)庫中存在的對象的對應。這些對應允許確定所分析圖像中表示的一個或多個對象的身份和提取其近似姿態(tài)。至于跟蹤算法,它們允許在真實場景中非常精確地找到其幾何形狀信息通常是可用的對象的姿態(tài)即位置和朝向,或者以等同方式找到攝制該對象的攝像機的位置和朝向的外部參數(shù),例如借助于圖像分析。作為說明,存在一種可視跟蹤算法,這種算法基于視頻流的當前圖像的興趣點與英語術語稱為keyframe(關鍵幀)、在系統(tǒng)初始化時獲得的關鍵圖像的興趣點、或在運行可視跟蹤期間更新的關鍵圖像的興趣點的匹配。這些關鍵圖像顯示系統(tǒng)中記錄的對象的特征。算法因而允許在真實場景中找到其三維網(wǎng)格(3D)以3D模式的形式可用的對象的姿態(tài),或等同地找到攝制該對象的攝像機的位置和朝向的外部參數(shù)。當前圖像首先用旨在探測興趣點的操作符進行處理。然后,將圍繞這些興趣點提取的圖像部分與圍繞在一個或多個被記錄的關鍵圖像中預先探測到的興趣點所提取的圖像部分進行比較,以便在這些圖像對之間找到較大數(shù)量的對應或匹配,以估計所述對象的姿態(tài)。為此,關鍵圖像這里由三個元素組成從視頻流截取的圖像、在該圖像中出現(xiàn)的實際對象的姿態(tài)(朝向和位置)和構成用于捕獲該圖像的攝像機的特征的內部參數(shù)。關鍵圖像是從視頻流提取的圖像,借助定點裝置如鼠標的使用,要跟蹤的對象已手動地安置在這些圖像中。關鍵圖像優(yōu)選地構成同一對象在多幀圖像中的姿態(tài)的特征。關鍵圖像“離線地”、即在跟蹤應用的通常模式外被創(chuàng)建和記錄。有利的是要注意,對于平面類型的目標或對象例如雜志,這些關鍵圖像可直接地利用所述對象的例如位圖或JPEG格式的一幀可用圖像生成。在初始化跟蹤應用程序時,離線關鍵圖像被處理,以便根據(jù)在啟動所述跟蹤應用程序時所選擇的參數(shù)定位興趣點。對于每種類型的應用程序使用以經(jīng)驗方式規(guī)定這些參數(shù),這些參數(shù)允許調適探測和匹配應用程序以獲得根據(jù)實際環(huán)境的特征對對象姿態(tài)估計的更好估計質量。然后,在當前圖像中實際對象的表示處在接近該相同對象在離線關鍵圖像之一中表示的姿態(tài)的姿態(tài)時,匹配數(shù)量變大。因而可發(fā)現(xiàn)允許覆蓋(Caler)該對象的三維模型在實際對象上的仿射變換。在建立這類對應時,跟蹤算法轉換到通常模式(r6gimepermanent)。從一巾貞圖像到另一幀圖像跟蹤對象移動,可能的偏差借助于初始化時所選擇的離線關鍵圖像中容納的信息進行補償。合適的是要注意到,出于精度需要,離線關鍵圖像可通過使用前幀圖像的估計姿態(tài)進行重投影。所述重投影因此允許具有一關鍵圖像,該關鍵圖像包含與當前圖像的對象表示相似的對象表示,因此可允許算法以興趣點和對于轉動非穩(wěn)健的描述符進行運行。一般性地,圖像的點p是真實場景的點P的投影,關系為Pl1PeTp^cP,其中PI是攝像機的內部參數(shù)即其焦距、圖像中心和偏移的矩陣,PE是攝像機的外部參數(shù)即攝像機在實際空間中的位置的矩陣,而Tp—。是與被跟蹤對象相關的基點和與攝像機相關的基點之間的轉換矩陣(matricedepassage)。這里,僅僅考慮相對于攝像機相對位置的對象相對位置,這就意味著將真實場景的基點定位在攝像機的光學中心處。因此產生關系式P^P1-Tp^c-P0矩陣PI是已知的,跟蹤問題因此在于確定矩陣Tp—。,即相對于攝像機基點的對象的位置和朝向。為此,使用所謂“錯誤極小化”算法,以便通過使用幾何模型上的全部三維對應和當前圖像中及關鍵圖像中的全部二維(2D)對應來找到對于估計Tp—。的最優(yōu)解。作為示例,允許消除測量錯誤(錯誤的2D/3D對應)的RANSAC(英語術語RANdomSAmpleConsensus的首字母縮合詞,即隨機采樣一致性)類型的算法或PROSAC(英語術語PROgressiveSAmpleConsensus的首字母縮合詞,即漸進采樣一致性)類型的算法可與Levenberg-Marquardt(列文伯格-馬夸爾特法)類型的算法加以組合,以快速地向減小重投影誤差的最優(yōu)解收斂。不過,當錯誤測量變得過大時,即當當前圖像和當前關鍵圖像之間的匹配數(shù)量變得過小時,跟蹤經(jīng)受失同步(認為對象姿態(tài)估計不再足夠相干)和需要新的初始化階段。還存在一種對象跟蹤算法,稱為“KLTfeatureTracker即KLT特征點跟蹤”,其允許跟蹤圖像序列中的特征點和估計時間光流(英語術語稱為opticalflow),即兩幀相繼圖像之間的像素移動。這種方法因此旨在通過估計像素V在這兩幀圖像間的移動d,在圖像J中找到看來與圖像I的像素u最相似的像素V。換句話說,像素V的坐標能以如下方式來表達v=u+d=[ux+dx,uy+dy]描述符查找和跟蹤應用工具是在公共域中提出,其以英特爾公司開發(fā)的以OpenCV(英語術語OpenComputerVision的首字母縮合詞,即開發(fā)源代碼計算機視覺庫)名稱已知。該應用工具特別是提出平滑的子采樣圖像金字塔的使用,以提高對圖像中跟蹤對象的快速移動或攝像機的快速移動的解決方案的穩(wěn)健性。更為確切的說,解決方案這里在于通過尋找圖像J的圖像部分P2找到圖像I的圖像部分P1的位置,所述圖像部分P2與圖像I的圖像部分P1最相似。當對于該分辨率找到第一滿意結果時,對金字塔結構執(zhí)行迭代,在其中進行新的移動估計。進程重復直到(例如由圖像傳感器所獲得的)初始圖像的分辨率。不過,這些識別和跟蹤算法的使用就計算而言特別地昂貴,使不具有強大處理器的系統(tǒng)例如輕量級平臺如移動電話的性能崩潰。此外,這些算法通常對噪音、快速移動和亮度變化不足夠穩(wěn)健。這些算法因此并不適合于在具有較弱功率處理器的裝置如移動電話和一般質量的圖像傳感器中使用。
發(fā)明內容本發(fā)明允許解決前述問題中的至少一個。因此,本發(fā)明的目的在于一種借助至少一關鍵圖像在圖像序列中混合跟蹤至少一對象的表示的計算機用的方法,所述方法包括如下步驟一采集包括所述至少一對象的表示的所述圖像序列的第一圖像和第二圖像;一識別所述第一圖像的至少一第一圖像部分,所述第一圖像的所述至少一第一圖像部分包括所述至少一對象的表示的至少一部分;一從所述至少一關鍵圖像提取至少一第二圖像部分,所述關鍵圖像的所述至少一第二圖像部分包括所述至少一對象的表示的至少一部分;一根據(jù)所述第一圖像的所述至少一第一圖像部分,估計與所述第一圖像的所述至少一第一圖像部分相似的所述第二圖像的至少一第一圖像部分的相對姿態(tài);一查找與所述關鍵圖像的所述至少一第二圖像部分相似的所述第一圖像或第二圖像的至少一第二圖像部分;和一根據(jù)所述第一圖像部分和所述第二圖像部分的相對姿態(tài)估計所述至少一對象的相對姿態(tài)。根據(jù)本發(fā)明的方法因此允許根據(jù)關鍵圖像和前幀圖像在一圖像序列中跟蹤對象表示,而不需要較大的計算資源。所述方法因此可被使用在輕量級平臺如移動電話上。根據(jù)一具體實施方式,識別所述第一圖像的至少一第一圖像部分的所述識別步驟包括提取所述第一圖像的所述至少一第一圖像部分的提取步驟;并且,估計所述第二圖像的至少一第一圖像部分的相對姿態(tài)的所述估計步驟包括在所述第二圖像中查找與所述第一圖像的所述至少一第一圖像部分相似的所述第二圖像的所述至少一第一圖像部分的查找步驟。根據(jù)本發(fā)明的方法因此允許根據(jù)關鍵圖像和前面圖像通過圖像分析在圖像序列中跟蹤對象表示。有利地,查找與所述第一圖像的所述至少一第一圖像部分相似的所述第二圖像的所述至少一第一圖像部分的所述查找步驟使用KLT類型的查找算法。圖像部分的相似性查找因而不要求昂貴的重投影步驟。優(yōu)選地,所述至少一第二圖像部分根據(jù)所述關鍵圖像的預先確定的至少一興趣點從所述至少一關鍵圖像中提取。所述方法因此允許使用可優(yōu)化對象跟蹤質量的特別點。有利地,所述方法此外包括選擇步驟,該步驟選擇所述至少一興趣點,以在必要的計算質量方面選擇恰當?shù)呐d趣點。有利地,所述方法此外包括生效步驟,其使所選擇的至少一興趣點生效,以在結果質量方面選擇恰當?shù)呐d趣點。根據(jù)一具體實施方式,查找與所述關鍵圖像的所述至少一第二圖像部分相似的所述第一圖像或第二圖像的至少一第二圖像部分的所述查找步驟使用允許有效地獲得良好質量的結果的KLT類型的算法。依舊根據(jù)一具體實施方式,查找與所述關鍵圖像的所述至少一第二圖像部分相似的所述第一圖像或第二圖像的至少一第二圖像部分的所述查找步驟包括重投影步驟,該步驟根據(jù)所述至少一對象的估計姿態(tài)重投影所述關鍵圖像的所述至少一第二圖像部分,以改善所獲得結果的質量。依舊根據(jù)一具體實施方式,所述方法此外包括在所述至少一第二圖像中確定至少一興趣點的確定步驟。依舊根據(jù)一具體實施方式,查找與所述第一圖像的所述至少一第一圖像部分相似的所述第二圖像的所述至少一第一圖像部分的所述查找步驟使用至少兩種不同的通過相似性查找圖像部分的算法。這類實施方式允許使跟蹤方法更為穩(wěn)健。依舊根據(jù)一具體實施方式,估計所述第二圖像的至少一第一圖像部分的相對姿態(tài)的所述估計步驟和/或查找所述第一圖像或第二圖像的至少一第二圖像部分的所述查找步驟包括通過使用在前面圖像上進行的對所述至少一對象的相對姿態(tài)的估計的至少一估計結果來預測姿態(tài)的步驟。因此,根據(jù)本發(fā)明的方法允許結合圖像分析和預測性計算,以在必要的計算的數(shù)量和質量方面優(yōu)化結果。本發(fā)明的對象還在于一種計算機程序,所述計算機程序包括當所述程序在計算機上運行時適于實施前述方法的每個步驟的一些指令。本發(fā)明的對象還在于一種設備,所述設備包括適于實施前述方法的每個步驟的部件。所述計算機程序和設備所帶來的優(yōu)點與前文所述及的優(yōu)點相類似。本發(fā)明的其它的優(yōu)點、目的和特征將在接下來的作為非限定性示例參照附圖進行的詳細說明中得到展示,附圖中一圖I示出根據(jù)本發(fā)明的圖像序列中對象表示跟蹤的混合算法示例的一些步驟;一圖2示出圖I上所示的圖像序列中對象表示跟蹤的混合算法的初始化階段的一實施例;—圖3包括圖3a和圖3b,示出圖I上所示的圖像序列中對象表示跟蹤的混合算法的使用階段的第一實施方式;-圖4示意性地示出圖I上所示的圖像序列中對象表示跟蹤的混合算法的使用階段的第二實施方式;—圖5示出在參照圖4所示的實施方式中使用、以估計前幀圖像和當前幀圖像的元素之間的仿射變換的KLT類型算法示例;-圖6示意性地示出圖I上所示的圖像序列中對象表示跟蹤的混合算法的使用階段的第三實施方式;-圖7示意性地示出根據(jù)用于實施圖I上所示的圖像序列中對象表示跟蹤的混合算法的使用階段的第四實施方式的對象跟蹤算法示例的一些步驟;一圖8示意性地示出在圖7上所示的跟蹤算法的實施;一圖9示意性地示出根據(jù)用于實施圖I上所示的在圖像序列中跟蹤對象表示的混合算法的使用階段的第四實施方式的對象跟蹤算法示例的一變型的一些步驟;和一圖10示出適于實施本發(fā)明的硬件結構的一示例。具體實施例方式圖I示出根據(jù)本發(fā)明的在圖像序列中跟蹤對象表示的混合算法100的示例的一些步驟。所述算法包括初始化階段105和使用階段110。初始化階段105的目的特別是在一幀圖像中識別一個或多個對象表示(步驟115)和估計對象姿態(tài)(步驟120)。初始化階段參照圖2更為詳細地加以描述。在使用階段110中,在初始化期間已識別出其表示的對象在圖像序列中被跟蹤(步驟125),以估計這些對象的姿態(tài)(步驟130)。使用階段參照圖3a、圖7和圖9更為詳細地進行描述。這里觀察到的是,當跟蹤對象在使用階段期間丟失時,即當系統(tǒng)經(jīng)受失同步(decrochage)時,優(yōu)選執(zhí)行新的初始化階段。圖2示出圖I上所示的在圖像序列中跟蹤對象表示的混合算法100的初始化階段(105)的實施例。如前文所指出的,初始化階段允許識別位于圖像傳感器(例如攝像機)的視野中的一個或多個對象,所述對象的表示在源自該傳感器的圖像中是可看見的,繼而初始化階段對于每個所識別的對象提供盡可能精確的姿態(tài)。根據(jù)一具體實施方式,對象識別和對象姿態(tài)估計是建立在興趣點的確定和決策結構的使用的基礎上的。因而,原理在于應用操作符,所述操作符允許在來自圖像傳感器的給定圖像中探測興趣點如FAST、YAPE,HARRIS或MSER類型的興趣點。將位于所識別興趣點周圍的圖像部分與在所使用的二進制決策結構中存儲的圖像部分進行比較,以獲得概率列表,概率列表旨在指示這些點與已歸類到?jīng)Q策結構中和形成知識數(shù)據(jù)庫的對象的點(也被稱為“類,,)的相似性。為了獲得穩(wěn)健的結果和限制所需計算的資源,有利地使用FERNS類型的決策結構。使用于初始化階段的當前圖像200這里從圖像傳感器采集而得。優(yōu)選地,例如借助于3X3高斯濾波器平滑該當前圖像(步驟205),以減少噪音的存在(噪音會干擾在瀏覽二進制決策結構時獲得的統(tǒng)計結果)。為方便該濾波器在輕量級平臺如移動電話上的使用,對該濾波器進行優(yōu)化。特別地,這類優(yōu)化在于使用能以2的乘方形式表示的對稱濾波器,使得通過像素值編碼偏移實行濾波。下一步驟的目的在于在經(jīng)過平滑的當前圖像中探測興趣點(步驟210)。根據(jù)一優(yōu)選實施方式,所探測到的興趣點是FAST類型的這里提請注意的是,通過圍繞該幀圖像的每個像素創(chuàng)建具有預定周長、例如16個像素的Bresenham圓(布蘭森漢姆圓),確定FAST類型的興趣點。如果鄰近該圓的強度全都大于或小于中心像素強度的像素的數(shù)目超過預定閾值(例如9、10、11或12),則每個所述點被視為一興趣點。此外,通常應用后處理步驟,以僅選擇給定鄰域中最適當?shù)呐d趣點。在探測當前圖像的興趣點后,瀏覽所使用的決策結構215(步驟220),以確定當前圖像的位于這些探測到的興趣點周圍的圖像部分和與預先存儲在這些結構中的興趣點相關的圖像部分之間的最優(yōu)對應225。這里觀察到的是,在以標準方式進行的決策結構創(chuàng)建(步驟230)中,如有需要多個對象被集中到同一組結構中。多個對象在同一組中的集中旨在優(yōu)化匹配方法,同時限制對于每個對象的匹配和識別錯誤估計的步驟的數(shù)量。因此,單一的可用對象子組在步驟220的過程中被瀏覽,僅僅與最常匹配的對象的對應被保留。繼而選擇最優(yōu)匹配(步驟235)。為此,選取屬于前面選擇的組的、以最大概率值具有最大匹配數(shù)量的對象。繼而,基于預先選擇的匹配使用RANSAC類型算法(步驟240),以重投影所識別對象的模型的興趣點,來估計對象識別錯誤。這樣,如果不存在足夠的正確匹配興趣點,即如果足夠數(shù)目的探測興趣點與它們基于對象模型的重投影(英語術語稱為inlier(內點))之間的錯誤大于給定閾值T(步驟245),則沒有正確地識別出當前組中的任何對象。在此情形下,對下一對象組重復前面的步驟(步驟220到240)。在低功率平臺的背景下,有利的是使用容納盡可能多數(shù)量的對象的組。不過需要注意的是,具有相似紋理元素的兩個對象理想地應被隔開,以不損害識別方法的穩(wěn)健性。如果相反地存在足夠的正確匹配點,則估計所識別對象的精確姿態(tài)250(步驟255),例如通過使用一算法如Levenberg-Marquardt算法進行估計。參照圖2描述的這里基于多分支結構的使用的解決方案,具有許多優(yōu)點,在其優(yōu)點中有當前圖像中探測的興趣點的魯棒匹配、用于識別對象和估計其姿態(tài)的有限處理時間以及集中多個對象在同一結構組(當要識別的對象數(shù)量較大時其也較大)下的可能性。多分支機構的構造優(yōu)選地被優(yōu)化,以允許限制每個對象所占據(jù)的存儲量(需要使用大約100個點來合適地在結構中表示一對象,這100個點典型地占據(jù)大約lMo(兆字節(jié)))。當一個或多個對象在當前圖像中被識別出和其估計姿態(tài)相符合、也就是足夠的匹配數(shù)量具有較少的重投影誤差時,可使用這些匹配和這些姿態(tài)來初始化對象跟蹤方法。根據(jù)第一實施方式,跟蹤方法使用前面圖像的遞歸信息和對應被跟蹤對象的一個或多個關鍵圖像的信息。這里提請注意的是,關鍵圖像可被視為對象的二維表示,對象的三維姿態(tài)與該二維表示相關聯(lián)。多個關鍵圖像可被使用來根據(jù)多個視點表示一對象。在多個關鍵圖像中對一關鍵圖像的選取,是基于被跟蹤對象的表示的相似性和/或這些對象的估計姿態(tài)的。包括圖3a和圖3b的圖3示出第一實施方式。圖3a示出跟蹤算法的某些步驟,而圖3b示出該算法的實施。第一步驟(步驟300)在于探測當前圖像305的興趣點。盡管會使用多種類型的興趣點,但這里所使用的興趣點是FAST類型的興趣點。這些興趣點因而可在輕量級平臺如移動電話上被確定。繼而將位于探測到的興趣點周圍的圖像部分與圍繞前面圖像315的興趣點(在處理前面圖像時或初始化時,這些興趣點已經(jīng)被確定)提取的圖像部分進行比較,以在前面圖像和當前圖像之間建立相關性,即建立前面圖像的興趣點和當前圖像的興趣點之間的對應列表(步驟310)。這種相關性可特別是借助ZNCC(英語術語Zero-meanNormalCrossCorrelation的首字母縮合詞,即零均值歸一化互相關)類型的圖像部分強度比較的操作符來實現(xiàn)。每個這樣匹配的點因此在關鍵圖像中具有對應物(其被遞歸存儲),對于所述方法的接下來的步驟,該對應物有利地被停用。繼而,未與前面圖像的興趣點相匹配的當前圖像的興趣點被使用來在當前圖像和所用關鍵圖像325(其可特別是根據(jù)基于前面圖像的估計的對象姿態(tài)來確定)之間建立相關性。為此,圍繞關鍵圖像的有效興趣點(即其在前面圖像中不具有對應物)的圖像部分根據(jù)基于前面圖像的估計的姿態(tài)被重投影,繼而與這樣的圖像部分進行比較(步驟320):所述圖像部分與未同前面圖像的興趣點相匹配的當前圖像的興趣點相關聯(lián)。再一次,這種相關性可特別是借助ZNCC類型的圖像部分強度比較操作符在重投影于當前圖像上的點和當前圖像的鄰近點之間實現(xiàn)。繼而通過使用當前圖像的興趣點與前面圖像及關鍵圖像的興趣點之間建立的對應來估計對象姿態(tài)(步驟330)。優(yōu)選地,通過比較當前圖像中所探測的和匹配的點的位置與以預定閾值重投影關鍵圖像的對應3D坐標所獲得的理論位置,來通過使用對象的估計姿態(tài),消除相關性錯誤。因此,當前圖像的僅僅有效興趣點被使用來處理下面圖像。在與所用關鍵圖像的興趣點進行匹配之前與前面圖像進行遞歸匹配,這允許避免重投影關鍵圖像的一大部分。每個遞歸匹配實際上在關鍵圖像上具有一基準,對于當前圖像沒有處理關鍵圖像的已經(jīng)匹配的點。這允許較大地節(jié)約處理時間,因為圖像重投影和匹配操作就計算而言是特別繁重的。這里可以觀察到,如果如前文所述與前面圖像的一圖像部分相似的當前圖像的一部分圖像的相對姿態(tài)可通過圖像分析來估計,則也可通過基于在一組前面圖像中觀察到的相似圖像部分的姿態(tài)的變化進行預測來估計該相對姿態(tài)。該第一實施方式允許進行非??焖俚奶幚恚贿^所估計的姿態(tài)不是完美的。為將其改進,可添加使用KLT類型算法跟蹤興趣點的步驟(優(yōu)選地將該算法加以修正,以限制在計算能力方面的需要)。因此,根據(jù)第二實施方式,興趣點跟蹤步驟(步驟310’)在遞歸關聯(lián)步驟(步驟310)之后被添加。該步驟的目的在于確定未與當前圖像的興趣點匹配的前面圖像的興趣點在當前圖像中的移動。只有根據(jù)遞歸關聯(lián)(步驟310)和興趣點跟蹤(步驟310’)在當前圖像中未被匹配的關鍵圖像興趣點繼而被重投影,以確定當前圖像和關鍵圖像之間的相關性(步驟230)。對象姿態(tài)估計以與參照圖3所描述的方式相似的方式進行估計。圖4示意性地示出該跟蹤算法的實施。該實施方式比起前面實施方式允許獲得更好的結果(所估計的位置更為穩(wěn)定和對光流更為穩(wěn)健)。還可使用較少數(shù)目的興趣點。不過,會觀察到偏差。此外,由于遞歸匹配和KLT類型匹配之間的參數(shù)選擇,實施起來是更為復雜的。圖5示意性地示出在該實施方式中使用以估計前面圖像的元素和當前圖像的元素之間的仿射變換的KLT類型算法示例。KLT算法這里被修正以允許其在輕量級平臺如移動電話上應用。第一步驟(步驟500)的目的在于構建用于當前圖像的第一圖像金字塔和用于前面圖像的第二圖像金字塔。這些金字塔中的每一個這里都包括五層,最底層對應于來自圖像傳感器的圖像。有利地,圖像在子采樣前用5X5核高斯濾波器進行平滑(它們各自的尺寸大小例如被二除)。平滑核系數(shù)優(yōu)選是整數(shù)值,理想的是二的乘方,以減少進行的基礎操作數(shù)量。此夕卜,這里進行子采樣而沒有二進制插值,由于平滑其不是必需的。表示所考慮的圖像部分在前面圖像和當前圖像之間的移動的變量dx和dy被初始化成零(步驟505)。同樣地,表示金字塔的當前層的變量level被初始化成最大值(稱為nblevels),這里為五。這里觀察到的是,變量dx和dy允許確定子像素坐標,即其分辨率低于一像素的大小。不過,為簡化計算,除比例因子外執(zhí)行這些計算以僅處理整數(shù)。定中心在所處理的興趣點上并具有(x,y)為坐標的圖像部分Pl繼而在金字塔的level層從前面圖像提取(步驟510)。這類圖像部分典型地具有5X5或7X7像素的大小。繼而確定該圖像部分的高斯導數(shù)(步驟515)。該計算優(yōu)選地撇開比例因子進行,以僅僅以整數(shù)來工作。繼而,定中心在所述點上并具有(x+dx,y+dy)為坐標的圖像部分P2在金字塔的level層從當前圖像進行提取(步驟520)。變量dx和dy的值然后在這里根據(jù)高斯-牛頓算法進行估算(步驟525)。該步驟允許估算極小化前面圖像的一部分和當前圖像的一部分之間的差別的變量dx和dy。將該估算迭代多次,以允許向局部最小值收斂,從而由于使用不同的圖像階層而導致總的最小值。再一次,對于這些計算使用整數(shù),這允許較大的性能增益。繼而執(zhí)行測試(步驟530),以確定是否達到該算法的預定的迭代數(shù)量和是否變量dx和dy位于預定的范圍中。在否定的情形下,重復前面的步驟(步驟520和525)。在相反的情形下,使變量level增量I(步驟535)和執(zhí)行測試(步驟540),以確定是否金字塔的所有層已被處理。重復步驟510到540,直到變量dx和dy已在較大分辨率的圖像上進行估值。有利地,僅僅數(shù)個興趣點在圖像金字塔的低分辨率階層(即上層)被處理。因此,待跟蹤對象的僅僅中心點優(yōu)選地在最高層(例如40X30)中進行處理,在該對象上均勻分布的四個點在直接下層(例如80X60)中被處理。上階層允許近似地估計兩個圖像之間的較大運動。下階層這里以標準的方式被處理。在下階層中估算的位移(dx,dy)這里應用在直接下層上。這些下層允許使所找到點的位置精確。根據(jù)第三實施方式,參照圖3所描述的關聯(lián)步驟(步驟310)由如參照圖4所描述的KLT類型的興趣點跟蹤的步驟(步驟310’)來替代。換句話說,前面圖像和當前圖像之間的興趣點的跟蹤在這里僅借助于KLT類型的算法來實施。圖6示意性地示出該跟蹤算法的實施。該實施方式允許獲得估計姿態(tài)的良好穩(wěn)定性,此外估計姿態(tài)對光流是穩(wěn)健的。也可使用較少數(shù)目的興趣點。不過,會觀察到較大的偏差。根據(jù)第四實施方式,跟蹤方法僅僅使用KLT類型的算法,而不需要在當前圖像中探測興趣點??赏ㄟ^使用前文所述的修正的KLT算法在輕量級平臺、如移動電話上實時地應用該穩(wěn)定且穩(wěn)健的該實施方式。圖7示意地示出根據(jù)該第四實施方式的對象跟蹤算法的一些步驟。如所示出的,通過在前面圖像和當前圖像中查找相類似的圖像部分,以遞歸的方式跟蹤預先確定的點。繼而借助于這些2D/3D對應(考慮到被遞歸跟蹤的點保留在關鍵圖像的興趣點上的初始基準,3D坐標通過興趣點在關鍵圖像中的位置給出),對姿態(tài)進行估計。繼而在關鍵圖像中選擇新的興趣點和在當前圖像中查找對應點,以允許處理下面圖像。更為確切的說,第一步驟在于在當前圖像700中跟蹤在前面圖像中所識別的點705或在初始化階段后與關鍵圖像所匹配的點(步驟710)。這種對點的跟蹤在這里借助于前文所述的修正的KLT操作符來實施。對于這樣在前面圖像中所識別的每個點,其允許在當前圖像中獲得對應點。這樣被跟蹤的點允許獲得一系列2D/3D對應(這些點在當前圖像中的2D位置和在關鍵圖像中的3D位置)。如前文所指出的,這些對應在這里以亞像素精度被估計。該組對應繼而被使用在姿態(tài)估計方法中(步驟715、720和725),所述姿態(tài)估計方法允許估計具有六個自由度(三個位置自由度和三個朝向自由度)的態(tài)矢量,其構成所跟蹤對象在前面圖像和當前圖像之間的移動的特征。為此,一步驟的目的在于估計第一姿態(tài)(步驟715),第一姿態(tài)可被使用來消除點跟蹤所引起的錯誤匹配(步驟720)。這里,姿態(tài)以標準的方式根據(jù)前面圖像的點和當前圖像的點的匹配來進行估計。為消除源自點跟蹤的錯誤匹配,使用允許的最大重投影閾值(例如4像素的歐幾里德距離),以檢驗在前面圖像中所識別的和根據(jù)估計姿態(tài)所重投影的點與該姿態(tài)相符。為此,前面圖像中所識別的每個點的3D坐標通過使用前面估計的姿態(tài)被投影。重投影誤差通過在所重投影的2D坐標和跟蹤點的跟蹤2D坐標之間的歐幾里德距離給出。當前圖像中所跟蹤的對象的姿態(tài)730然后通過僅使用正確匹配點735來進行估計(步驟725)。作為選擇,可通過使用基于跟蹤點和重投影點之間的距離的錯誤加權函數(shù),將一權重與被視為正確的每個對應進行關聯(lián)。這類錯誤加權典型地利用所有平方重投影誤差(或殘差)和用于當前樣本的平方重投影誤差根據(jù)所估計的中值進行計算。因此,可根據(jù)加權基于正確匹配的點改進被跟蹤對象的姿態(tài)。對于高斯-牛頓算法的每次迭代,其直接影響計算。在該步驟時,允許的最大重投影閾值被減小(例如減小到2或I像素的歐幾里德距離),以消除在KLT跟蹤算法時趨于偏離的點。在估計被跟蹤對象的姿態(tài)后,確定應被使用來在下一圖像中跟蹤對象的點765。有利地,這些點集合來自前面圖像的、在當前圖像中被正確匹配的點(即在重投影步驟時生效的點)和關鍵圖像的興趣點。換句話說,在下一圖像中所使用的點是從前面圖像的、在當前圖像中被正確跟蹤的點和使用關鍵圖像所獲得的新點的組合。這種點組合允許避免對象跟蹤方法的偏差。關鍵圖像的應被使用的興趣點750基于關鍵圖像的興趣點745通過重投影在當前圖像中被確定(步驟740)??蓪嵤╆P鍵圖像的興趣點的多種類型選擇一使用關鍵圖像的所有有效興趣點(即其在前面圖像中不具有對應物)。這是最昂貴的方案,因為在關鍵圖像中很多點是潛在可用的。此外,當這些興趣點構建在不同的關鍵圖像上時,這些興趣點在不同的階層被構建以改善初始化階段,這進一步增加在關鍵圖像上可用的興趣點的數(shù)目。一根據(jù)當前圖像中被跟蹤對象的尺寸大小選擇興趣點。對象在當前圖像中的尺寸大小是已知的(當前圖像中的像素面積),可根據(jù)最恰當?shù)碾A層來選擇興趣點。例如,當對象靠近攝像機時和通過所述方法處理的當前圖像為320X240像素時,可能建議選擇對應最接近該值(320X240)的階層的興趣點。這種選擇允許識別當被跟蹤對象面對攝像機靠近或遠離時可被穩(wěn)健地跟蹤的興趣點。不過,很多興趣點會這樣被選擇,這會引起較大的計算量。一根據(jù)與關鍵圖像組合的網(wǎng)格選擇興趣點。大小為NXM的網(wǎng)格這里在關鍵圖像上被構建,以選擇興趣點。因此可按在當前圖像上可見網(wǎng)格的每個單元選擇一興趣點,優(yōu)選是最恰當?shù)呐d趣點。例如,對于大小為7X5的網(wǎng)格,可選擇關鍵圖像的35個興趣點。當對象離開攝像機視野時,興趣點選擇算法可按每個網(wǎng)格單元選擇多個興趣點,以保留恒定的被跟蹤點數(shù)。該網(wǎng)格具有雙重優(yōu)點允許選擇在對象表面上均勻分布的興趣點(這特別是允許穩(wěn)定所估計的最終姿態(tài)),和避免選擇相互接近的興趣點(它們可被視為是無效的)。繼而,根據(jù)前面所估計的當前姿態(tài)的信息,提取和重投影所述關鍵圖像的位于興趣點周圍的圖像部分(步驟755)??梢杂^察到,重投影的圖像部分與當前圖像非常相似,一般具有較大的強度變化。這種重投影就計算而言是昂貴的,因為對于目的圖像的每個像素,需要根據(jù)聯(lián)系兩圖像的反射影變換在源圖像中找到亞像素坐標。因此,在目的圖像部分中的一像素對應于源圖像的多個像素的插值。為了優(yōu)化計算,插值可有利地通過使用最接近的技術進行替代。在下一步驟中,在關鍵圖像的重投影部分和當前圖像的對應部分之間進行比較,以僅僅使與當前圖像的對應部分相似的重投影圖像部分相關聯(lián)的所選興趣點生效(步驟760)。該生效步驟可包括如下步驟一將根據(jù)當前姿態(tài)重投影在當前圖像中的、與所選興趣點相關聯(lián)的圖像部分進行匹配。KLT跟蹤方法優(yōu)選地對光照變化是穩(wěn)健的,因為關鍵圖像和當前圖像之間的比色差會較大;和—通過例如使用ZNCC類型或SAD(英語術語SumofAbsoluteDifferences的首字母縮合詞,即絕對差值和)類型的操作符,來使所進行的匹配生效。通過圖像部分比較的生效步驟對于防止與所使用的KLT跟蹤操作符相關的可能偏差是重要的。這樣選擇和生效的興趣點被添加到應被使用來在下一圖像中跟蹤對象的遞歸點組765中。圖8示意性地示出該跟蹤算法的實施。作為選擇,可在選擇和生效應被用來在下一圖像中跟蹤對象的興趣點之后,估計當前圖像中的被跟蹤對象的姿態(tài),以避免會在某些對象類型上出現(xiàn)的偏差。當對象具有顯著的輪廓、例如黑色邊緣時,這特別地可被觀察到,因為KLT跟蹤方法所使用的興趣點會趨向于跟蹤這些輪廓和給出不當?shù)?D/3D對應(英語術語被稱為outlier即外點)。圖9示意性地示出根據(jù)第四實施方式的對象跟蹤算法的這類變型的某些步驟。如前所述,第一步驟(步驟710’)的目的在于在當前圖像700中跟蹤前面圖像中所識別的點705或在初始化階段后與關鍵圖像匹配的點。再一次,這種對點的跟蹤在這里借助于前文所述的修正的KLT操作符來實施。對于這樣在前面圖像中所識別的每個點,其允許在下一圖像中獲得一對應點。下一步驟(步驟740’)的目的在于在關鍵圖像中選擇興趣點。該步驟與步驟740相似。不過,所選擇的興趣點被使用來估計當前圖像中被跟蹤對象的姿態(tài),這些興趣點不能相對于該姿態(tài)進行重投影,但如有需要,可相對于根據(jù)前面圖像所確定的姿態(tài)進行重投影。為了改善和簡化遞歸點跟蹤(步驟710’)和關鍵圖像點跟蹤(步驟740’),有利地可使用線性的姿態(tài)預測模型。因此,通過使用前面姿態(tài)的歷史紀錄,可預測當前圖像中所查找興趣點的位置和因此避免需要構建和瀏覽較大尺寸的圖像金字塔,不再要求最小的分辨率水平。圍繞所選興趣點的圖像部分被提取和根據(jù)前面圖像中被跟蹤對象的姿態(tài)重投影,以根據(jù)一跟蹤算法、這里是KLT算法,將所述圖像部分與當前圖像的部分進行比較,以便將這些興趣點與當前圖像的對應點進行匹配(步驟770)。如同對前面圖像的點和當前圖像的點之間的匹配允許確定前面圖像的這些點和當前圖像的對應點之間的仿射變換,關鍵圖像的點和當前圖像的對應點之間的匹配允許在關鍵圖像的所選擇的興趣點和當前圖像的對應點之間確定仿射變換。前面圖像的點和當前圖像的對應點之間的匹配與關鍵圖像的點和當前圖像的對應點之間的匹配,允許以標準的方式確定被跟蹤對象的姿態(tài)730’(步驟775)。這里所描述的根據(jù)前述實施方式之一實施的方法特別適于非平面對象的跟蹤,尤其是在具有有限處理資源的系統(tǒng)如移動電話中。因此,所述方法可被使用例如來在一圖像序列中跟蹤面孔。圖10示出適于實施本發(fā)明、特別是參照圖I、圖2、圖3a、圖5、圖7和圖9所描述的算法的硬件結構的示例。這類設備例如是移動電話、個人助理、或個人手提電腦或上網(wǎng)本型電腦。設備1000這里包括通信總線1005,以下器件與通信總線相連接—中央處理器或微處理器101CKCPU,英語術語CentralProcessingUnit的首字母縮合詞);一只讀存儲器1015(ROM,英語術語ReadOnlyMemory的首字母縮合詞),其可包括實施本發(fā)明所需的程序;一讀寫存儲器或高速緩存存儲器1020(RAM,英語術語RandomAccessMemory的首字母縮合詞),其包括適于記錄在運行前述程序中產生和改變的變量和參數(shù)的寄存器;和一通信界面1050,其適于傳輸和接收數(shù)據(jù)。設備1000還優(yōu)選地具有以下元件一屏幕1025,其特別允許顯示真實場景,該真實場景如通過圖像傳感器1060觀察到的,圖像傳感器1060通過輸入/輸出接口1055與總線1005相連接,真實場景優(yōu)選地增加有虛擬對象,其可用作與使用者的圖形界面,使用者可借助于鍵盤和鼠標1030或如觸摸屏或遙控器的其它定點裝置與根據(jù)本發(fā)明的程序進行交互;一硬盤1035,其可包括前述程序和根據(jù)本發(fā)明已處理的或待處理的數(shù)據(jù),例如校正表;和一存儲卡讀取器1040,其適于接納存儲卡1045和在其中讀取或在其中寫入根據(jù)本發(fā)明已處理的或待處理的數(shù)據(jù)。通信總線允許包括在設備1000中或與該設備相連接的不同元件之間的通信和協(xié)同運作性??偩€的表示不是限定性的,特別是,中央處理器可直接地或通過設備1000的另一元件將指令傳輸給設備1000的任何元件。允許可編程設備實施根據(jù)本發(fā)明的進程的每個程序的可執(zhí)行代碼,可以例如存儲在硬盤1035或只讀存儲器1015中。根據(jù)一變型,存儲卡1045可包含數(shù)據(jù)特別是所探測事件和可被調用的命令之間的對應表、以及前述程序的可執(zhí)行代碼,所述可執(zhí)行代碼一旦被設備1000讀取,就被存儲在硬盤1035中。根據(jù)另一變型,程序的可執(zhí)行代碼可通過界面1050至少部分地被接收,以與前述方式相同的方式進行存儲。更為一般性地,所述程序可在被運行前加載到設備1000的存儲部件之一中。中央處理器1010將控制和管理根據(jù)本發(fā)明的所述程序的軟件代碼部分或指令的運行,指令被存儲在硬盤1035中或只讀存儲器1015中或前述的其它存儲元件中。在通電時,存儲在非易失性存儲器、例如硬盤1035或只讀存儲器1015中的所述程序,被傳輸?shù)阶x寫存儲器1020中,因而讀寫存儲器1020包含所述程序的可執(zhí)行代碼。自然地,為滿足特定需求,本發(fā)明領域技術人員將可在前述的說明書中應用修改。權利要求1.借助至少一關鍵圖像在圖像序列中混合跟蹤至少一對象的表示的計算機用的方法,其特征在于,所述方法包括如下步驟一采集包括所述至少一對象的表示的所述圖像序列的第一圖像和第二圖像;一識別所述第一圖像的至少一第一圖像部分,所述第一圖像的所述至少一第一圖像部分包括所述至少一對象的表示的至少一部分;一從所述至少一關鍵圖像提取至少一第二圖像部分,所述關鍵圖像的所述至少一第二圖像部分包括所述至少一對象的表示的至少一部分;一根據(jù)所述第一圖像的所述至少一第一圖像部分,估計與所述第一圖像的所述至少一第一圖像部分相似的所述第二圖像的至少一第一圖像部分的相對姿態(tài);一查找(320,760,770)與所述關鍵圖像的所述至少一第二圖像部分相似的所述第一圖像或第二圖像的至少一第二圖像部分;和一根據(jù)所述第一圖像部分和所述第二圖像部分的相對姿態(tài),估計(330,725,775)所述至少一對象的相對姿態(tài)。2.根據(jù)權利要求I所述的方法,其特征在于,識別所述第一圖像的至少一第一圖像部分的識別步驟包括提取所述第一圖像的所述至少一第一圖像部分的提取步驟(510);并且,估計所述第二圖像的至少一第一圖像部分的相對姿態(tài)的估計步驟包括在所述第二圖像中查找與所述第一圖像的所述至少一第一圖像部分相似的所述第二圖像的所述至少一第一圖像部分的查找步驟(310,710,710’)。3.根據(jù)權利要求2所述的方法,其特征在于,查找與所述第一圖像的所述至少一第一圖像部分相似的所述第二圖像的所述至少一第一圖像部分的所述查找步驟使用KLT類型的查找算法。4.根據(jù)前述權利要求中任一項所述的方法,其特征在于,所述至少一第二圖像部分根據(jù)所述關鍵圖像的預先確定的至少一興趣點從所述至少一關鍵圖像中提取。5.根據(jù)權利要求4所述的方法,其特征在于,所述方法此外包括選擇所述至少一興趣點的選擇步驟(740,740’)。6.根據(jù)權利要求5所述的方法,其特征在于,所述方法此外包括使所選擇的所述至少一興趣點生效的生效步驟(760)。7.根據(jù)前述權利要求中任一項所述的方法,其特征在于,查找與所述關鍵圖像的所述至少一第二圖像部分相似的所述第一圖像或第二圖像的至少一第二圖像部分的查找步驟使用KLT類型的算法。8.根據(jù)前述權利要求中任一項所述的方法,其特征在于,查找與所述關鍵圖像的所述至少一第二圖像部分相似的所述第一圖像或第二圖像的至少一第二圖像部分的查找步驟包括根據(jù)所述至少一對象的估計姿態(tài)重投影所述關鍵圖像的所述至少一第二圖像部分的重投影步驟。9.根據(jù)權利要求I到4中任一項所述的方法,其特征在于,所述方法此外包括在所述至少一第二圖像中確定至少一興趣點的確定步驟。10.根據(jù)權利要求9所述的方法,其特征在于,查找與所述第一圖像的所述至少一第一圖像部分相似的所述第二圖像的所述至少一第一圖像部分的查找步驟使用至少兩種不同的通過相似性查找圖像部分的算法。11.根據(jù)前述權利要求中任一項所述的方法,其特征在于,估計所述第二圖像的至少一第一圖像部分的相對姿態(tài)的估計步驟和/或查找所述第一圖像或第二圖像的至少一第二圖像部分的查找步驟包括使用在前面圖像上進行的對所述至少一對象的相對姿態(tài)的估計的至少一估計結果來預測姿態(tài)的姿態(tài)預測步驟。12.計算機程序,所述計算機程序包括指令,當所述計算機程序在計算機上運行時,這些指令適于實施根據(jù)前述權利要求中任一項所述的方法的每個步驟。13.設備,其包括適于實施根據(jù)權利要求I到11中任一項所述的方法的每個步驟的部件。全文摘要本發(fā)明的目的特別在于借助至少一關鍵圖像在圖像序列中對對象表示進行混合跟蹤。在采集包括被跟蹤對象的表示的第一和第二圖像后,在第一圖像中識別出第一圖像部分和從關鍵圖像中提取第二圖像部分。估計與第一圖像的第一圖像部分相似的所述第二圖像的第一圖像部分的相對姿態(tài)。查找與關鍵圖像的第二圖像部分相似的第一或第二圖像的第二圖像部分。繼而根據(jù)第一圖像部分和第二圖像部分的相對姿態(tài)估計對象的相對姿態(tài)。文檔編號G06K9/64GK102640185SQ201080054062公開日2012年8月15日申請日期2010年10月12日優(yōu)先權日2009年10月20日發(fā)明者J·沙穆,N·利韋,T·帕基耶申請人:全浸公司