增強現(xiàn)實應用中的可變形表面跟蹤的制作方法
【專利摘要】本發(fā)明提供一種用于增強現(xiàn)實應用的可變形表面上的標記跟蹤的計算機實施方法,包括:在一個視頻拍攝場景中的當前視頻幀內(nèi),檢測圖像關鍵點;進行關鍵點關聯(lián)搜索,并匹配圖像關鍵點和標記的原始圖像中的模型關鍵點,包括:為每個圖像關鍵點,計算關鍵點匹配分值;在關鍵點匹配分值上使用關鍵點匹配分值濾波;將在當前視頻幀上搜索一個或多個圖像關鍵點,限制在和所述拍攝的視頻幀中先前視頻幀相同的網(wǎng)格塊中搜索;在確定圖像關鍵點是否是成功匹配時,在關鍵點匹配分值上使用一個自適應閾值;在視頻拍攝場景中,進行標記的運動檢測,如果標記有大幅度運動時,停止關鍵點匹配分值濾波,停止圖像關鍵點搜索限制。
【專利說明】增強現(xiàn)實應用中的可變形表面跟蹤
【【技術領域】】
[0001]本發(fā)明涉及在增強現(xiàn)實(augmented reality, AR)應用里的標記跟蹤(tracking ofa marker)。本發(fā)明特別涉及在實際生活AR應用里的一種柔性的或可變形的標記跟蹤。
【【背景技術】】
[0002]增強現(xiàn)實(AR)是通過使用傳感器、計算機產(chǎn)生的數(shù)據(jù)、和/或多媒體播放設備,并結合虛擬對象和/或對物理現(xiàn)實世界環(huán)境的感知信息,以增強用戶對物理真實世界環(huán)境的感知。例如,可以使用相機來拍攝場景視頻,以及使用顯示單元如視頻眼鏡或護目鏡來投影計算機處理的場景視圖給觀看者。與虛擬現(xiàn)實(虛擬現(xiàn)實是,給觀看者呈現(xiàn)的是一個完全虛假的計算機生成的場景)不同,只有某些計算機生成的圖像或虛擬對象會疊加到計算機處理的場景視頻中。計算機生成的圖像或虛擬對象可以是與觀看者互動的,或者通過用戶實時控制而驅動的,或者通過預設的設置和指令而驅動的。
[0003]AR技術的一個重要指標是,感知到的增強視頻到底有多逼真,或者計算機生成的圖像或虛擬對象和場景的結合到底有多好。這要求計算機生成的圖像或虛擬對象和它們在場景內(nèi)的擺放位置,在整個運動序列中或場景的連續(xù)視頻幀中有合適的關聯(lián)?,F(xiàn)有AR技術中的一個常見問題是,二維平面標記擺放在拍攝場景視頻中虛擬對象上的三維坐標和方位的跟蹤。在整個場景運動序列中,標記的跟蹤使得虛擬對象能夠在標記位置和方位上被疊加到場景中。
[0004]但是,本領域現(xiàn)有技術的狀況是,對解決虛擬對象的跟蹤標記放置在視頻場景里一個可變形表面上的情況,并沒有用一個令人滿意的技術??勺冃伪砻婵梢允且粋€柔軟物品,如一個正在運動的人的襯衫、一個飄揚的旗幟、或流動的水的表面。疊加在可變形表面上的虛擬對象,在一個運動序列中不僅需要正確地出現(xiàn)在合適位置上合適方位上,它的紋理和形狀還必須改變隨著可變形表面的變形而改變。
【
【發(fā)明內(nèi)容】
】
[0005]本發(fā)明的一個目的是提供一種用于增強現(xiàn)實(AR)應用的標記跟蹤方法,其中所述標記被放置在一個可變形表面上。本發(fā)明的另一個目的是提供所述的標記跟蹤方法的特征在于,具有提聞的標記跟蹤穩(wěn)定性、標記關鍵點的匹配精度,減少標記的紋理粘性,并在背景照明波動和視頻噪聲下有更好的標記關鍵點匹配。
[0006]根據(jù)本發(fā)明的各種實施例,為了跟蹤一個位于可變形表面上的標記,為視頻拍攝場景中的標記生成一個多邊形網(wǎng)格。多邊形網(wǎng)格是為了跟蹤標記在整個視頻拍攝場景運動序列(或 視頻幀)中的三維位置、方向,以及三維變形。
[0007]在為視頻拍攝場景中的標記生成多邊形網(wǎng)格時,首先找到標記圖像(markerimage)的原始關鍵點。關鍵點可以是一個尖銳的圖案特征,如一個角、一個邊緣,或在標記圖像中一個物體上的一個興趣點。在各種實施例中,可以使用現(xiàn)有的邊緣/角/興趣點檢測方法或現(xiàn)有的特征檢測技術來檢測關鍵點。然后在視頻拍攝場景的每個后續(xù)視頻幀中,搜索同一個關鍵點,并與原始關鍵點進行匹配,這是關鍵點關聯(lián)匹配過程(key-point-corresponding matching process)。
[0008]在關鍵點關聯(lián)匹配過程中,計算關鍵點匹配分值(key-point matching score),該分值表示隨后視頻幀中找到的候選關鍵點與標記圖像中的原始關鍵點之間的匹配程度。如果當前視頻幀中找到的候選關鍵點的匹配分值高于一個預定的匹配閾值,那么就認為是一個成功匹配。最后,當前視頻幀中和原始標記圖像或第一個視頻幀的標記圖像的多邊形網(wǎng)格的成功匹配的關鍵點信息被用于產(chǎn)生當前視頻幀中標記的修復多邊形網(wǎng)格(recoveredpolygon mesh)。因此,修復的多邊形網(wǎng)格反映了視頻拍攝場景中標記從先前視頻巾貞到當前視頻幀的三維位置、方向、三維變形上的變化。因此,位于可變形表面上的標記是通過一系列視頻幀的一系列修復的多邊形網(wǎng)格而跟蹤的。
[0009]根據(jù)本發(fā)明的一個實施例,上述生成的標記的多邊形網(wǎng)格,通過結合以下方法,可以在關鍵點匹配精度和標記跟蹤穩(wěn)定性方面帶來增強效果:關鍵點匹配分值濾波;將當前視頻幀中的候選關鍵點的搜索,限制在和先前視頻幀中相同的網(wǎng)格塊中;在確定候選關鍵點是否是成功匹配時,使用一個自適應閾值;并且對視頻拍攝場景中的標記進行運動檢測。
[0010]關鍵點匹配分值濾波的應用是為了減少在關鍵點匹配分值計算時視頻噪聲引入的抖動。當為多個視頻幀計算某個特定關鍵點的關鍵點匹配分值時,偶爾會出現(xiàn)尖銳的負尖峰。實驗表明,這些幀間關鍵點匹配分值的負尖峰很可能是由視頻噪聲造成的,而并不是候選關鍵點的不匹配或弱匹配。關鍵點匹配分值濾波的使用可以平滑幀間關鍵點匹配分值。在一個實施例中,負尖峰由幀間關鍵點匹配分值的加權平均值或移動平均值代替。在另一個實施例中,負尖峰由它們的前一分值取代。
[0011]修復的多邊形網(wǎng)格所在的視頻幀像素塊被稱為網(wǎng)格塊(mesh block)。有時,由于視頻噪聲或其他視頻影響,會在網(wǎng)格塊的外部發(fā)現(xiàn)錯誤的關鍵點,當然這不可能是標記的有效關鍵點。在候選關鍵點搜索時限制網(wǎng)格塊關鍵點搜索,是為了將當前視頻幀中關鍵點搜索和匹配限制在和先前視頻幀中相同的網(wǎng)格塊內(nèi)。這樣,性能和精度都會得以提高。
[0012]在視頻拍攝場景的整個運動序列中,背景照明的波動和視頻噪聲會使像素特性(如顏色和強度梯度)從一個視頻幀到另一個視頻幀有所改變。相應地,在具有不同背景照明和/或視頻噪聲的不同視頻幀中找到的并正確匹配的同一關鍵點,在不同視頻幀中可能有完全不同的關鍵點匹配分值。對所有視頻幀,在判斷是否成功匹配時,如果使用固定的閾值將不可避免地導致不正確的判斷,將有效的關鍵點判斷為不匹配。因此,本發(fā)明一個實施例使用自適應閾值,來判斷視頻幀中找到的關鍵點是否成功匹配,以適應不斷變化的背景照明和/或視頻噪聲。在一個實施例中,自適應閾值是幀間關鍵點匹配分值的一個折扣移動平均值(discounted moving average),或是小于一個緩沖值的巾貞間關鍵點匹配分值的一個移動平均值。
[0013]因為標記的位置在運動序列中會發(fā)生變化,當標記從先前視頻幀有大幅度移動時,網(wǎng)格塊關鍵點搜索限制可能會找不到那些位于當前視頻幀網(wǎng)格塊之外的有效圖像關鍵點,同時,關鍵點匹配分值計算也必須對那些找到的但與標記圖像的原始關鍵點不匹配的關鍵點要更敏感。因此,當標記大幅度移動時,網(wǎng)格塊關鍵點的搜索限制會被暫停,關鍵點匹配分值濾波的應用也被暫停。
[0014]在一個實施例中,通過使用從先前視頻幀修復的多邊形網(wǎng)格的頂點和從當前視頻幀修復的多邊形網(wǎng)格的頂點,來計算運動向量。如果運動向量大于一個預定的標記移動閾值,那么對于下一個要處理的視頻幀,網(wǎng)格塊關鍵點搜索限制被暫停,關鍵點匹配分值濾波應用程序也停止,直到運動矢量(其被連續(xù)地計算)不再大于所述預定的標記移動閾值。
【【專利附圖】
【附圖說明】】
[0015]以下將參照附圖更詳細地描述本發(fā)明的實施例,其中:
[0016]圖1顯示本發(fā)明一個實施例的用于增強現(xiàn)實(AR)應用中的可變形表面上標記跟蹤方法的流程圖;
[0017]圖2顯示本發(fā)明一個實施例的示例性幀間關鍵點匹配分值(左圖)和關鍵點匹配分值濾波后的幀間關鍵點匹配分值(右圖);
[0018]圖3顯示一個視頻幀的標記的示例性網(wǎng)格塊,其中一些關鍵點在網(wǎng)格塊內(nèi)部,一些關鍵點在外部;
[0019]圖4顯示本發(fā)明一個實施例中的一個示例性的幀間關鍵點匹配分值及自適應閾值。
【【具體實施方式】】
[0020]在以下描述中,使用優(yōu)選實施例來闡述用于增強現(xiàn)實(AR)等應用中的在可變形表面上跟蹤標記的方法和系統(tǒng)。凡是對其做出沒有脫離本發(fā)明范圍和精神的修改,包括增加和/或替換,對本領域普 通技術人員都是顯而易見的。為了不模糊本發(fā)明,可能會省略一些具體細節(jié),但是,本披露會使本領域普通技術人員能夠實現(xiàn)本教義,而無需進行過多的試驗。
[0021]參見圖1。根據(jù)本發(fā)明的各種實施例,為了跟蹤一個放置在可變形表面上的標記,為該標記在一個視頻拍攝場景中生成一個多邊形網(wǎng)格。該多邊形網(wǎng)格是為了能在整個視頻拍攝場景的運動序列(或視頻幀)中跟蹤該標記的三維位置、二維方位、以及三維變形。
[0022]在視頻拍攝場景中產(chǎn)生標記的多邊形網(wǎng)格時,首先找到標記圖像(111)的最初關鍵點(以下稱為模型關鍵點(model-key-point)) (113),標記圖像(111)可以是該標記的一個原始圖像。關鍵點可以是一個銳利的圖案特征,如一個角落、一個邊緣、或在該標記圖像中物體上的一個興趣點。在各種實施例中,可以使用現(xiàn)有技術的邊緣/角落/興趣點檢測方法或特征檢測技術來檢測模型關鍵點(112)。然后在視頻拍攝場景的每個后續(xù)視頻幀中,搜索同一個關鍵點并與模型關鍵點進行匹配,這是關鍵點關聯(lián)匹配過程(131)。
[0023]在關鍵點關聯(lián)匹配過程中(131),計算關鍵點匹配分值,該分值表示在后續(xù)視頻幀中找到的候選關鍵點(以下稱為圖像關鍵點)(123)和模型關鍵點之間的匹配程度。只有在當前視頻幀(121)中找到的圖像關鍵點的匹配分值高于一個預定的匹配閾值時,才認為是一個成功的匹配。最后,在當前視頻幀和標記原始圖像或第一個視頻幀的標記圖像的最初標記多邊形網(wǎng)格(115)中,成功匹配圖像關鍵點的信息(也稱為關鍵點關聯(lián))(132)被用于在當前視頻幀中產(chǎn)生一個修復的標記多邊形網(wǎng)格(134)。修復的多邊形網(wǎng)格(134)反映了該標記從先前視頻幀到當前視頻幀的三維位置和方位上的變化,以及三維變形的變化。因此,一個位于可變形表面上的標記,是由一系列視頻幀中生成的一系列的修復多邊形網(wǎng)格來跟蹤的。[0024]仍參照圖1。根據(jù)本發(fā)明的一個實施例,上述生成的多邊形網(wǎng)格,通過結合以下方法,給標記在關鍵點匹配精度和標記跟蹤穩(wěn)定性方面帶來了增強效果:關鍵點匹配分值濾波(也稱為尖峰去除)(101);將當前視頻幀中的圖像關鍵點搜索,限制在和先前視頻幀中相同的網(wǎng)格塊中(也稱為塊搜索和匹配)(102);在確定圖像關鍵點是否是成功匹配時,使用一個自適應閾值(104);并且對視頻拍攝場景中的標記進行運動檢測(103)。
[0025]關鍵點匹配分值濾波(101)的應用是為了減少在關鍵點匹配分值計算時視頻噪聲引入的抖動。當為多個視頻幀計算某個特定圖像關鍵點的關鍵點匹配分值時,偶爾會出現(xiàn)尖銳的負尖峰。圖2的左半邊圖表顯示一個示例性的多個視頻幀的幀間關鍵點匹配分值,其有尖銳的負尖峰。實驗表明,這些幀間關鍵點匹配分值的負尖峰可能是由視頻噪聲造成的,而不是候選關鍵點的不匹配或弱匹配。關鍵點匹配分值濾波的使用可以平滑幀間關鍵點匹配分值。在一個實施例中,負尖峰由幀間關鍵點匹配分值的加權平均值或移動平均值代替。在另一個實施例中,負尖峰由它們的前一分值取代。圖2的右半圖表顯示關鍵點匹配分值濾波后的幀間關鍵點匹配分值。
[0026]修復的多邊形網(wǎng)格所在的視頻幀像素塊被稱為網(wǎng)格塊。有時,由于視頻噪聲或其他視頻影響,會在網(wǎng)格塊的外部發(fā)現(xiàn)圖像關鍵點,當然這不可能是標記的有效圖像關鍵點。圖3顯示了這樣一個例子,其中有一些圖像關鍵點被發(fā)現(xiàn)在視頻幀標記網(wǎng)格塊的內(nèi)部,有一些被發(fā)現(xiàn)在網(wǎng)格塊的外部。在圖像關鍵點搜索時的網(wǎng)格塊關鍵點搜索限制,是為了將當前視頻幀中關鍵點搜索和匹配限制在和先前視頻幀中相同的網(wǎng)格塊內(nèi)。這樣,性能和精度都會得以提聞。
[0027]在視頻拍攝場景的整個運動序列中,背景照明的波動和視頻噪聲會使像素特性(如顏色和強度梯度)從一個視頻幀到另一個視頻幀有所改變。相應地,在具有不同背景照明和/或視頻噪聲的不同視頻幀中找到的并正確匹配的同一圖像關鍵點,在不同視頻幀中可以有完全不同的關鍵點匹配分值。對所有視頻幀,在判斷是否成功匹配時,如果使用固定的閾值將不可避免地導致不正確的判斷,將有效的圖像關鍵點判斷為不匹配。因此,本發(fā)明一個實施例使用自適應閾值,來判斷視頻幀中找到的關鍵點是否成功匹配,以適應不斷變化的背景照明和/或視頻噪聲。在一個實施例中,自適應閾值是幀間關鍵點匹配分值的一個折扣移動平均值(discounted moving average),或是低于一個緩沖值(buffer value)的幀間關鍵點匹配分值的移動平均值。圖4顯示一個示例性的幀間關鍵點匹配分值與一個自適應閾值。
[0028]因為標記的位置在運動序列中會發(fā)生變化,當標記從先前視頻幀有大幅度移動時,網(wǎng)格塊關鍵點搜索限制可能會找不到那些位于當前視頻幀網(wǎng)格塊之外的有效圖像關鍵點,同時,關鍵點匹配分值計算也必須對那些找到的但不與模型關鍵點匹配的圖像關鍵點要更敏感。因此,當標記大幅度移動時,網(wǎng)格塊關鍵點的搜索限制會被暫停,關鍵點匹配分值濾波的應用也被暫停。
[0029]在一個實施例中,通過使用由從先前視頻幀修復的多邊形網(wǎng)格的頂點和由當前視頻幀修復的多邊形網(wǎng)格的頂點,來計算運動向量。如果運動向量大于一個預定的標記移動閾值,那么對于下一個要處理的視頻幀,網(wǎng)格塊關鍵點搜索限制被暫停,關鍵點匹配分值濾波應用程序也停止,直到運動矢量(其被連續(xù)地計算)不再大于所述預定的標記移動閾值。這樣,標記的紋理粘性(texture stickiness)大大降低。[0030]根據(jù)本發(fā)明的各種實施例,關鍵點關聯(lián)匹配過程可以通過所有上述過程模塊或以下任何組合來增強:關鍵點匹配分值濾波應用;將當前視頻幀中的圖像關鍵點搜索限制在和先前視頻幀相同的網(wǎng)格塊之內(nèi);在確定圖像關鍵點是否是成功匹配時使用自適應閾值;在視頻拍攝場景中對標記進行同時地或連續(xù)地運動檢測。
[0031]通過使用通用或專用計算裝置、計算機處理器、或包括但不限于數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)的電子電路、以及依照本披露而配置或編程的其它可編程邏輯裝置,可以實施在此披露的本發(fā)明。根據(jù)本披露的教義,本領域普通技術人員能夠容易地準備在通用或專用計算裝置、計算機處理器、或可編程邏輯裝置上運行的計算機指令或軟件代碼。
[0032]在一些實施例里,本發(fā)明包括其中存有計算機指令或軟件代碼的計算機存儲媒介,這些指令和代碼可被用來編程計算機或微處理器以執(zhí)行本發(fā)明的任何過程。存儲媒介可以包括但不限于軟盤、光盤、藍光光盤、DVD、CD-ROM、以及磁光盤、ROM、RAM、閃存裝置、或適合存儲指令、代碼和/或數(shù)據(jù)的任何類型的媒介或裝置。
[0033]出于說明和描述的目的,已提供了對本發(fā)明的前面的描述。其不是窮盡性的,也不將本發(fā)明限于所揭示的確切形式。鑒于以上教示,許多修改和變形對本領域普通技術人員是顯而易見的。
[0034]在此所選擇的和所描述的實施例是為了更好地解釋本發(fā)明的原理及其實施應用,從而本領域普通技術人員能夠理解本發(fā)明的不同實施例、以及根據(jù)具體特定應用而做出不同修改。這意味著本發(fā)明的范圍是由所附權利要求及其等價物設定。
【權利要求】
1.一種用于增強現(xiàn)實應用的可變形表面上的標記跟蹤的計算機實施方法,包括: 在一個視頻拍攝場景中的當前視頻幀內(nèi),檢測一個或多個圖像關鍵點; 進行關鍵點關聯(lián)匹配,包括: 對應于一個或多個模型關鍵點,在所述拍攝的視頻幀的當前視頻幀中,搜索一個或多個圖像關鍵點,其中所述一個或多個模型關鍵點是從所述標記的原始圖像中找到的; 為每個所述圖像關鍵點,計算關鍵點匹配分值; 在所述關鍵點匹配分值上使用關鍵點匹配分值濾波; 將在所述當前視頻幀上對一個或多個圖像關鍵點的搜索,限制在和所述拍攝的視頻幀中先前視頻幀相同的網(wǎng)格塊中; 在確定所述圖像關鍵點是否是成功匹配時,為每個所述圖 像關鍵點的關鍵點匹配分值,使用一個自適應閾值; 使用圖像關鍵點和所述標記的原始標記多邊形網(wǎng)格的成功匹配信息, 在所述當前視頻幀中產(chǎn)生所述標記的一個修復的多邊形網(wǎng)格;重復以上步驟,產(chǎn)生所述標記的一系列修復的多邊形網(wǎng)格,用于跟蹤所述標記。
2.如權利要求1所述的方法,還包括: 在所述視頻拍攝場景中,進行所述標記的運動檢測,包括: 使用所述拍攝視頻幀的當前視頻幀中的所述標記的所述修復的圖像網(wǎng)格,和所述先前視頻幀中的所述標記的所述修復的圖像網(wǎng)格,計算一個或多個運動向量; 比較所述計算的運動向量和一個移動閾值; 如果所述計算的運動向量大于所述移動閾值,那么停止所述關鍵點匹配分值濾波,停止所述圖像關鍵點搜索限制,直到所述運動向量不再大于所述移動閾值。
3.如權利要求1所述的方法,其中所述關鍵點匹配分值濾波將一個圖像關鍵點的所述關鍵點匹配分值的一個負尖峰替換為在兩個或多個先前視頻幀中計算的所述圖像關鍵點的兩個或多個關鍵點匹配分值的加權平均值。
4.如權利要求1所述的方法,其中所述關鍵點匹配分值濾波將一個圖像關鍵點的所述關鍵點匹配分值的一個負尖峰替換為在先前視頻幀中計算的所述圖像關鍵點的關鍵點匹配分值。
5.如權利要求1所述的方法,其中用于所述圖像關鍵點的所述自適應閾值是在兩個或多個先前視頻幀中計算的所述圖像關鍵點的關鍵點匹配分值的折扣移動平均值。
6.如權利要求1所述的方法,其中用于所述圖像關鍵點的所述自適應閾值是在兩個或多個先前視頻幀中計算的所述圖像關鍵點的關鍵點匹配分值的移動平均值。
【文檔編號】G06T7/00GK103996184SQ201410146516
【公開日】2014年8月20日 申請日期:2014年4月11日 優(yōu)先權日:2013年10月7日
【發(fā)明者】周正華 申請人:香港應用科技研究院有限公司