用于估計姿態(tài)的方法和裝置制造方法
【專利摘要】本發(fā)明涉及能夠?qū)崟r分析電子圖像序列以供估計通過這些圖像捕捉到的活動對象的姿態(tài)。本發(fā)明還涉及用軟件實現(xiàn)本發(fā)明,并且與此相關(guān)涉及存儲命令的計算機可讀介質(zhì),該命令的執(zhí)行使得根據(jù)本發(fā)明的方法被執(zhí)行。本發(fā)明從骨架模型著手,該骨架模型通過3D空間中的少量節(jié)點來描述并在節(jié)點的坐標在任何時候都描述活動對象的預(yù)定部位的位置時準許對圖像信息的良好數(shù)據(jù)壓縮。通過在骨架模型中定義例如描述結(jié)合的對象部位或可任選的對象表面的節(jié)點對和可任選的節(jié)點三元組(它們被包含在測量出的21/2–D圖像信息中,即對相機可見),該骨架模型同時表示該對象的先前知識。該骨架模型將被快速且準確地擬合到圖像信息中。通過節(jié)點的連續(xù)位移和骨架模型的連續(xù)更新,該擬合在圖像序列的兩個圖像之間實現(xiàn)。
【專利說明】用于估計姿態(tài)的方法和裝置
發(fā)明領(lǐng)域
[0001]本發(fā)明涉及用于能實時分析電子圖像序列來估計在該圖像序列中捕捉到的活動對象的位置和定向(即估計該活動對象的姿態(tài))的方法和裝置。本發(fā)明還涉及用軟件實現(xiàn)本發(fā)明,并且在這一情況下涉及存儲命令的計算機可讀介質(zhì),該命令的執(zhí)行使得根據(jù)本發(fā)明的方法被執(zhí)行。
技術(shù)背景
[0002]由計算機估計人類姿態(tài)是姿勢受控的人機交互的基礎(chǔ)。身體或手部姿勢被相機捕捉,所捕捉的數(shù)字圖像在計算機中被處理并解釋成最終由該計算機或由它控制的裝備執(zhí)行的命令。在人類用戶掌握了命令姿勢的情況下,他不再需要單獨的輸入裝備。
[0003]在姿勢控制的應(yīng)用的特別感興趣的領(lǐng)域中,在一方面在于醫(yī)療外科領(lǐng)域,其中外科醫(yī)生想要具有對輔助設(shè)備(例如,成像設(shè)備,如超聲或MRT)的直接控制,但不能用他的手觸摸任何控制設(shè)備以維護無菌狀態(tài),并且在另一方面在于公共信息終端或票務(wù)機領(lǐng)域,當前它們?nèi)匀慌鋫湎喈敳恍l(wèi)生的觸摸墊。已在商業(yè)上打開的又一應(yīng)用領(lǐng)域是計算機游戲界。
[0004]姿勢控制方法的目的是對人的光學(xué)圖像給出機器可解釋的意義。這需要一種對人進行成像的裝置,使得它可被電子化地評估、按照其信息內(nèi)容來壓縮這一圖像并最終將該人的經(jīng)壓縮的圖像轉(zhuǎn)換成機器可解釋的輸出。該裝置的輸出可包括用于待控制的下游裝置的控制命令。然而,它只包括饋送到下游單元以供解釋這一信息的經(jīng)壓縮圖像信息也是可能的。
[0005]經(jīng)壓縮圖像信息的示例是例如3D坐標系中人的右手的位置坐標的連續(xù)輸出。在該過程中,只輸出手部位置的單個點的坐標通常是足夠的,例如在人的整個身體被成像的情況下。如果人的運動被通過圖像序列進行了成像,則上述裝置例如提供預(yù)定身體部位的隨時間(在運動期間)變化的3D坐標。這些坐標可以用作對例如相應(yīng)地控制屏幕上的光標位置的程序的可變輸入。
[0006]在圖像分割期間,不能被分配給被成像的人的所有記錄的圖像數(shù)據(jù)(測量值)被移除,這尤其是有關(guān)背景的圖像元素。這些圖像元素必須從進一步評估中排除。
[0007]使用二維數(shù)據(jù)的圖像分割是困難的,特別是在用戶在復(fù)雜背景前方被成像的情況下一例如,其他人在背景中運動一或者在他做出姿勢(其中他的手腳朝相機運動,使得它們遮擋了他的部分軀干)的情況下。因為姿勢控制要實時發(fā)生并且姿態(tài)估計通常要以25Hz或更高的視頻幀率才是可能的,所以必須要在幾毫秒內(nèi)發(fā)生圖像分割。出于這一目的,深度傳感器相機可被使用,它不僅能像常規(guī)相機一樣測量亮度圖像,還能測量相機距對象的距離。
[0008]一種已知的深度傳感器相機被稱為飛行時間相機(TOF)。它發(fā)出強度按正弦調(diào)制的紅外光。按每一像素測量發(fā)出的光與該對象反射的光之間的相移。根據(jù)這一相移,可計算出光的傳播時間(“飛行時間”)以及由此計算出相機距該對象點的距離。TOF相機提供與亮度圖像(在TOF命名法中,通常稱為振幅圖像)配準的深度圖。[0009]用于同時獲得圖像和距離測量值的另一種方法基于照射到要被測量的對象上并被它反射的結(jié)構(gòu)化光。相機檢測到反射光一通常在與到達角度所不同的角度上,并且對由反射對象表面的位置或區(qū)域引起的投影圖案的結(jié)構(gòu)變化進行配準。例如,根據(jù)最初作為直線投影到對象上的、由相機捕捉到的反射線的曲率計算反射表面的凸起(這是相對于投影儀和/或相機可變的距離)是可能的。以類似的方式,通過檢測點反射并確定這些點之間的距離,將各點投影在三維場景中的空間發(fā)散光束是合適的。在距投影儀更近的臉上,點距離小于圖像背景中的臉上的點距離。這被用于測量臉或臉部區(qū)域距投影儀的距離。
[0010]據(jù)此,深度傳感器相機是一種除二維亮度圖像之外還為每一被成像的對象點提供距離信息的裝置,使得另外所有被成像的對象點沿深度軸一通常與相機的光軸相一致一的位置被測量。具有使用深度傳感器相機記錄的距離信息的電子圖像也被稱為該場景的二點五維(272D)圖像。上述裝置只是。▽{圖像可如何產(chǎn)生的示例并且不一定表示最終名單。
[0011]除了別的以外,可以從印刷出版物WO 2010/130245 Al 了解2V2D圖像的圖像分割可如何正確地發(fā)生。圖像分割根據(jù)同時測量的且按像素配準的距離值來對各相機像素檢測到的亮度值進行排序。只有前景的亮度值保留在進一步評估中,假定出于改進可見性的目的,要觀察的人距相機最近。前景的亮度值因而根據(jù)對該人的身體表面的成像來得到。通過本身已知的相機投影參數(shù),被成像的對象點隨后可各自被分配一組3D坐標。隨后獲得3D坐標的列表,其包括該人對相機而言直接可見的所有點。在3D空間中這一點“云”的內(nèi)部,存在該實際的人,并且在該3D點云內(nèi)部,還存在出于姿勢控制的目的而需要被確定的預(yù)定人體部位的相關(guān)坐標。 [0012]信息壓縮的第二部分步驟因而可在從3D點云中確定(由圖像分割來確定并表示該人)盡可能最佳地描述該人的整個姿態(tài)并適于機器解釋的經(jīng)縮減的一組點坐標時看到。這一步驟也被稱為姿態(tài)估計。在此,姿態(tài)估計的一個目標是經(jīng)縮減的數(shù)據(jù)集合的穩(wěn)健性,即人類姿態(tài)的微小變化也應(yīng)只造成描述該姿態(tài)的數(shù)據(jù)集合的微小變化。具體而言,描述人體部位的坐標應(yīng)當盡可能遠地在時間上連續(xù)的軌跡上運動,使得在任何時間都給出各坐標與這些身體部位之間的清楚相關(guān)性。
[0013]一種已知且普遍接受的方法是定義要被盡快擬合到3D點云的人的骨架模型。
[0014]WO 2010/130245A1公開了一種能夠根據(jù)2V2D圖像序列進行實時姿態(tài)估計的方法,其中提出了作為節(jié)點和邊的拓撲來解釋的骨架模型??杀幻枋鰹楣?jié)點對的邊將節(jié)點之間的鄰居關(guān)系結(jié)構(gòu)進行編碼。通過應(yīng)用用于訓(xùn)練自組織圖(“S0M”)的學(xué)習(xí)規(guī)則,節(jié)點被擬合到先前確定的點云中。
[0015]在WO 2010/130245A1的示例性實施例中,使用44個節(jié)點和61條邊的拓撲對人體的上半部建模。表示該人的3D點云包括大約6500個數(shù)據(jù)點(在真實3D空間中描繪,其中所觀察的人展現(xiàn)了與他距相機的距離無關(guān)的所定義的大小),這些數(shù)據(jù)點中的大約10%被用于訓(xùn)練S0M。該拓撲的所有節(jié)點可直接被當作S0M,而指定各邊可當作學(xué)習(xí)規(guī)則的特殊要求或限制。
[0016]該拓撲是針對視頻序列的每一幀分開訓(xùn)練的,同時一個幀的訓(xùn)練結(jié)果用來初始化該序列的下一幀的訓(xùn)練。在序列的第一幀的初始化期間,拓撲的大小通過一次性縮放優(yōu)選地與在相機前方的人的大小相匹配,并且其重心位移到3D點云的重心。如果拓撲的大小曾經(jīng)被正確地選擇,則在該正在進行的方法期間不需要進一步適應(yīng),因為該方法是比例不變地運作的。通過應(yīng)用具有以下步驟的逐模式學(xué)習(xí)規(guī)則發(fā)生對幀的訓(xùn)練:
[0017]a.隨機選擇3D點云的數(shù)據(jù)點X ;
[0018]b.確定展現(xiàn)出距X最小距離的拓撲的節(jié)點;
[0019]c.根據(jù)拓撲的邊緣規(guī)范,確定按照b確定的節(jié)點的所有鄰居節(jié)點;
[0020]d.在X的方向上將按照b.和c.確定的節(jié)點位移(就此,參見WO 2010/130245A1中的式⑵和⑶),
[0021]e.將位移向量乘以學(xué)習(xí)率,該學(xué)習(xí)率與對于按照b.確定的節(jié)點相比,對于按照c.確定的節(jié)點恰好展現(xiàn)出一半大小(就此,請參見WO 2010/130245A1第13頁第4段);
[0022]f.將步驟a到e重復(fù)預(yù)定數(shù)量的學(xué)習(xí)步驟,同時逐漸降低學(xué)習(xí)率。
[0023]對每一幀指定最大數(shù)量的學(xué)習(xí)步驟以在預(yù)定時間間隔期間執(zhí)行姿態(tài)估計一S卩,在這種情況下,將骨架模型擬合到3D點云并讀出所有相關(guān)節(jié)點位置一是方便的。以此方式,圖像序列也可以按視頻幀率被分析或被更快地分析。
[0024]雖然WO 2010/130245A1的算法很好地滿足了實時姿態(tài)估計的目標,但它仍然展現(xiàn)出在它自己的公開部分中提到的一些弱點。具體而言,在分析其中一個人抱臂或交叉抱臂在身體前的場景時,如果各單獨的節(jié)點在拓撲中被拉離它們實際的鄰居很遠,則學(xué)習(xí)規(guī)則可導(dǎo)致誤解釋一這可在進一步迭代的過程中被糾正。這一影響在WO 2010/130245A1中被克服,其中使用模型軀干中的錨點和學(xué)習(xí)規(guī)則的抑制節(jié)點位移離開錨點超出預(yù)定閾值的輔助條件。
[0025]WO 2010/130245 Al的教導(dǎo)還示出了人類關(guān)節(jié)、肩部、以及臀部的精確位置確定的困難,這在每一情況下可由若干不同的節(jié)點來表示。WO 2010/130245A1中略述的骨架模型展現(xiàn)出相對多的節(jié)點,在不接受相當大的姿態(tài)估計誤差的情況下,其數(shù)量不能容易地降到20或更少。市場上可用于通過深度傳感器相機進行姿勢控制的系統(tǒng)已經(jīng)使用根據(jù)人體解剖學(xué)設(shè)計的具有15-20個節(jié)點的骨架模型來操作。通過減少節(jié)點數(shù),還可以獲得更高的相機圖像處理速度。
[0026]解剖學(xué)推動的骨架模型另外適于借助所存儲的運動模式(模板)來檢測快速且復(fù)雜的運動(例如,揮動高爾夫球桿)。在這些情況下,姿勢控制軟件尋找檢測到的姿態(tài)變化與先前存儲的運動序列的最可能的匹配并使用這一已知模板來用于實際控制。這一技術(shù)已用于計算機游戲中,但它是資源密集的。最后但并非不重要的是產(chǎn)生所存儲的運動數(shù)據(jù)已經(jīng)造成了相當大的成本。
[0027]另一方面,通過SOM訓(xùn)練進行姿勢控制完全無需模板而是僅基于運動連續(xù)性的實時檢測能力。由于可被高效地實現(xiàn)的學(xué)習(xí)規(guī)則,它具有可靠地檢測更快的人類運動并同時維持一般應(yīng)用性的潛力,使得省略了軟件與測量任務(wù)的可能復(fù)雜的匹配。
[0028]技術(shù)概要
[0029]因此,本發(fā)明的目標是壓縮對象的相機圖像的數(shù)字圖像信息,尤其是用于姿態(tài)估計,使得可使用較少計算努力并且因而更快和/或更精確的實時執(zhí)行對于對象的姿態(tài)(尤其是人類姿態(tài))的確定。
[0030]該目標通過獨立專利權(quán)利要求的主題來實現(xiàn)。本發(fā)明的各有利實施例是從屬專利權(quán)利要求的主題。
[0031]本發(fā)明的一方面因而是通常按兩個部分步驟來發(fā)生的信息壓縮:圖像分割以及姿態(tài)估計。在這一情況中,本發(fā)明尤其涉及改進姿態(tài)估計。根據(jù)本發(fā)明,提出了通過SOM訓(xùn)練進行姿態(tài)估計,它能夠與根據(jù)所觀察的對象的解剖學(xué)來建模并展現(xiàn)出減少的節(jié)點數(shù)的骨架模型一起工作,它可能向預(yù)定身體部位可靠地且一致地分配每一模型節(jié)點。在此,要檢測其姿態(tài)的對象的解剖學(xué)被建模成骨架模型。
[0032]只由3D空間中少量的點(下文稱為“節(jié)點”)來描述的骨架模型表示圖像信息的良好的信息壓縮,如果節(jié)點坐標總是描述活動對象的預(yù)定部位的位置的話。同時,骨架模型表示與該對象有關(guān)的現(xiàn)有知識,因為例如描述包含在所測量的272d圖像信息中的毗連對象部位或可任選的對象臉部的(即,相機可見的)節(jié)點對和可任選的節(jié)點三元組被定義在骨架模型中。骨架模型要被快速并精確地擬合到與該對象相對應(yīng)的圖像信息中。該擬合通過將節(jié)點連續(xù)地位移并與圖像序列步調(diào)一致地更新骨架模型來在圖像序列的兩個圖像之間實現(xiàn)。在毗連的對象部位或可能的對象臉部已經(jīng)提到的情況下,假定它們作為整體來運動。根據(jù)本發(fā)明,在特定前提下,節(jié)點對或可任選的節(jié)點三元組因而同時位移。在此必須強調(diào),下文進一步描述的位移規(guī)則不一定保留節(jié)點對的各節(jié)點或可任選的節(jié)點三元組的各節(jié)點的距離,而是該位移也可造成節(jié)點對的各節(jié)點或可任選的節(jié)點三元組的各節(jié)點的距離的增加。
[0033]本發(fā)明的一實施例涉及一種用于通過計算機計算骨架模型的各節(jié)點的3D位置坐標的位移來進行活動對象(例如,人或機器人)的姿態(tài)估計的方法,其中該骨架模型被連續(xù)地擬合到3D點云序列中。節(jié)點坐標以表格的形式存在于電子存儲器中并且根據(jù)來自表示運動的人的深度傳感器相機的電子化記錄的圖像來確定3D點云。骨架模型是展現(xiàn)出拓撲元素N1個節(jié)點、N2條邊以及N3個三角形(其中NpN2X)且N3≥O)的拓撲,且每一拓撲元素由節(jié)點、節(jié)點對、或節(jié)點三元組來描述并且被穩(wěn)定地分配給對象的一部分(例如,人體部位或機器人的部位)。該方法由算術(shù)單元來執(zhí)行并且包括以下步驟:
[0034]a.隨機選擇3D點云的數(shù)據(jù)點X ;
[0035]b.關(guān)于每一拓撲元素計算相對于X的交叉點P并在每一情況下標識P是否位于該拓撲元素內(nèi)部;
[0036]c.計算從X到每一拓撲元素的距離作為差向量X-P的范數(shù);
[0037]d.確定所有拓撲元素中展現(xiàn)出距X最小距離的拓撲元素,且其交叉點P位于該拓撲元素內(nèi)部;
[0038]e.通過在向量X-P的方向上將構(gòu)成在步驟d確定的拓撲元素的所有節(jié)點位移,來將該拓撲元素位移,節(jié)點的位移向量被乘以學(xué)習(xí)率以及權(quán)重,該權(quán)重從關(guān)于在步驟d確定的拓撲元素的相對于X的交叉點P得出,以及
[0039]f.將步驟a到e重復(fù)預(yù)定數(shù)量的學(xué)習(xí)步驟,同時逐漸降低學(xué)習(xí)率;
[0040]g.在K遍預(yù)定數(shù)量的學(xué)習(xí)步驟之后(K ^ I),更新電子存儲器的表格中的節(jié)點坐標;
[0041]h.至少提供該表格中的經(jīng)更新的節(jié)點坐標以供進一步處理。
[0042]在本發(fā)明的又一實施例中,在步驟b中,關(guān)于一拓撲元素的交叉點P被表示為構(gòu)成該拓撲元素的各節(jié)點坐標向量的線性組合,并且它是根據(jù)P是否位于該拓撲元素的內(nèi)部的表示系數(shù)來確定的。
[0043]在本發(fā)明的又一實施例中,在步驟e中,根據(jù)P的表示系數(shù)來計算權(quán)重。[0044]在本發(fā)明的又一實施例中,步驟a到e的重復(fù)次數(shù)在1000和5000之間,尤其在2000和3000之間。
[0045]有利的是,學(xué)習(xí)率可位于起始值0.5和結(jié)束值0.01之間。
[0046]本發(fā)明的又一實施例提出了一種用于活動對象的姿態(tài)估計的裝置。這一裝置包括深度傳感器相機、電子存儲器以及可編程算術(shù)單元,該存儲器存儲深度傳感器相機的電子圖像并且算術(shù)單元被設(shè)計成在時間上與相機對圖像進行記錄步調(diào)一致地根據(jù)電子圖像確定表示該對象的3D點云。該存儲器還存儲骨架模型的各節(jié)點的3D坐標的列表。該算術(shù)單元能夠讀出并改變各單獨節(jié)點、預(yù)定節(jié)點對以及預(yù)定節(jié)點三元組的坐標來作為骨架模型的拓撲元素的表示。算術(shù)單元還被設(shè)計成在確定表示對象的3D點云之后,執(zhí)行以下步驟:
[0047]a.隨機選擇3D點云的數(shù)據(jù)點X ;
[0048]b.關(guān)于每一拓撲元素計算相對于X的交叉點P并在每一情況下確定P是否位于該拓撲元素內(nèi);
[0049]c.計算從X到每一拓撲元素的距離作為差向量X-P的范數(shù);
[0050]d.確定所有拓撲元素中展現(xiàn)出距X最小距離的拓撲元素,其中交叉點P位于該拓撲元素內(nèi);
[0051]e.通過 在向量X-P的方向上將構(gòu)成在步驟d確定的拓撲元素的所有節(jié)點位移,來將該拓撲元素位移,節(jié)點的位移向量被乘以學(xué)習(xí)率以及權(quán)重,該權(quán)重從關(guān)于在步驟d確定的拓撲元素的相對于X的交叉點P得出,以及
[0052]f.將步驟a到e重復(fù)預(yù)定數(shù)量的學(xué)習(xí)步驟,同時逐漸降低學(xué)習(xí)率;
[0053]g.在K遍預(yù)定數(shù)量的學(xué)習(xí)步驟之后(K ^ I),更新電子存儲器的表格中的節(jié)點坐標;
[0054]h.至少提供該表格中的經(jīng)更新的節(jié)點坐標以供進一步處理。
[0055]本發(fā)明的又一實施例涉及計算機可讀存儲介質(zhì),其特征在于它存儲可由微處理器執(zhí)行的命令,這使得微處理器執(zhí)行根據(jù)本發(fā)明的所描述的實施例之一的姿態(tài)估計方法。
[0056]附圖描述
[0057]以下參考附圖使用示例性實施例更詳細地描述本發(fā)明。附圖中彼此對應(yīng)的元素和細節(jié)已經(jīng)提供了相同的參考符號。在附圖中:
[0058]圖1:示出了可使用的骨架模型的草圖:a)根據(jù)WO 2010/130245 1,b)來自節(jié)點和邊的模型,c)來自節(jié)點、邊以及三角形的模型;
[0059]圖2:示出了 a)來自WO 2010/130245 Al的學(xué)習(xí)規(guī)則的圖示,b)學(xué)習(xí)規(guī)則的權(quán)重的幾何解釋,以及c)用于邊位移的情況的學(xué)習(xí)規(guī)則的效果的圖示;
[0060]圖3:示出了 a)學(xué)習(xí)規(guī)則的權(quán)重的幾何解釋以及b)三角形位移的情況下的學(xué)習(xí)規(guī)則的效果的表示;
[0061]圖4:示出了根據(jù)本發(fā)明的具有3D點云和擬合到這些點云的骨架模型的示例性圖像。
[0062]發(fā)明的詳細描述
[0063]在節(jié)點的坐標在任何時刻都描述活動對象的預(yù)定部位的位置時,只具有低節(jié)點數(shù)量的骨架模型用來高效地壓縮圖像信息。骨架模型是使用與該對象有關(guān)的現(xiàn)有知識來定義的。例如,存在與相機可見的毗連對象部位以及可任選的對象臉部有關(guān)的現(xiàn)有知識。骨架模型的預(yù)定元素(尤其是節(jié)點對或節(jié)點三元組)可以表示已經(jīng)提及的這些對象部位或?qū)ο竽槻坎⒈蛔鳛檎w擬合到對象圖像中。該擬合通過將節(jié)點不斷地位移并與圖像序列步調(diào)一致地更新骨架模型來在圖像序列的兩個圖像之間發(fā)生。毗連對象部位或?qū)ο竽槻炕旧献鳛檎w運動,并且根據(jù)本發(fā)明,在某些前提下,節(jié)點對或可任選的節(jié)點三元組因此同時位移。在該過程中,位移規(guī)則不一定保留節(jié)點對的各節(jié)點或可任選的節(jié)點三元組的各節(jié)點相對于彼此的距離。該位移還可造成節(jié)點對的各節(jié)點或可任選的節(jié)點三元組的各節(jié)點的距離的增加。對遵循保留距離的創(chuàng)造性的放棄簡化并加速了對位移向量的必需計算并且仍然造成良好的姿態(tài)估計。將骨架模型擬合到對象圖像的準確度隨迭代次數(shù)(學(xué)習(xí)步驟)增加。
[0064]以下基本上以WO 2010/130245 Al的公開內(nèi)容的風(fēng)格來描述本發(fā)明。要作為原則注意的是,在WO 2010/130245 Al中描述的姿態(tài)估計可被認為是起始點并且本發(fā)明的至少一個實施 例可被認為是對從這一公開中已知的姿態(tài)估計方法的進一步開發(fā)。
[0065]在這一情況中,在本發(fā)明的各實施例的以下描述中假定記錄272D圖像(單獨地或作為序列)并提取表示該人的3D點云可如在WO 2010/130245 Al中描述的那樣來執(zhí)行。本發(fā)明尤其假定用于估計運動姿態(tài)的圖像和點云可以按高于25Hz的頻率來提供。
[0066]根據(jù)本發(fā)明,現(xiàn)在使用受解剖學(xué)啟示的骨架模型代替WO 2010/130245 Al的拓撲(在圖1中被視作比較a))。圖1b)中的模型是特別適合的,它將每一節(jié)點與人類在解剖學(xué)上的區(qū)別點(例如,頭、肩、肘、手、臀、骨盆、膝、腳)明確地相關(guān)聯(lián)。圖1c)表示圖1b)的模型的變型,其中軀干由三角形表示(在每一情況下由形成角的三個節(jié)點來定義)。
[0067]通過使各節(jié)點等同于人體各部位,模型的邊也被給出解剖學(xué)解釋。因而,例如在圖1b)中,連接節(jié)點I (右手)和2(右肘)的邊一定表示右下臂。該拓撲的邊因此不僅僅表示節(jié)點的鄰居關(guān)系。應(yīng)用來自WO 2010/130245 Al的SOM的學(xué)習(xí)規(guī)則不再能夠?qū)崿F(xiàn)該模型到在其節(jié)點數(shù)方面明顯減少了的這樣的骨架模型的3D點云的良好擬合,因而下文描述了適用于對受解剖學(xué)啟發(fā)的骨架模型的創(chuàng)造性使用的姿態(tài)估計方法。
[0068]在圖2a)中,在左側(cè)可以看到由一條邊連接的兩個節(jié)點W1和W2。點X表示從該拓撲要被擬合進的3D點云中隨機選擇出的點。根據(jù)WO 2010/130245A1的教導(dǎo),首先,確定最接近點X的模型節(jié)點(在這種情況下是W1)并在朝X的方向上位移ε (X-W1)。在此,ε是正實數(shù)。在本拓撲的意義上,下一鄰居節(jié)點是通過邊連接到W1的節(jié)點W2。它也在朝X的方
蒙
向上位移i P-,2)經(jīng)位移的節(jié)點被標記在右側(cè)。這一學(xué)習(xí)規(guī)則總是縮短節(jié)點之間的
*O邊。
[0069]如果骨架模型包括如WO 2010/130245 Al中一樣多的節(jié)點,則該縮短過程在作為進一步迭代和節(jié)點位移的一部分的時間過程期間再次被極大地補償。然而,某些節(jié)點與某些身體部位的明確關(guān)聯(lián)不可總是能連續(xù)的。
[0070]因為使用圖1b)或c)的解剖學(xué)拓撲,根據(jù)本發(fā)明,因而制定了總是準許拓撲的節(jié)點、邊以及可任選的三角形與人的身體部位的關(guān)聯(lián)的新學(xué)習(xí)規(guī)則。
[0071]在本發(fā)明的意義上,解剖學(xué)拓撲一或即:解剖學(xué)骨架模型一至少包括:與人體各點相關(guān)聯(lián)的第一數(shù)量N1個節(jié)點,以及被解釋為上述節(jié)點的對的選集(滿足解剖學(xué)事實)的
第二數(shù)量N2條邊。
[0072]需要明確:在圖1b)中,該模型包括節(jié)點W」,其中j = I,…,17以及由節(jié)點對選集所表示的17條邊。例如,對(U)、(ff2, W3)或(w4,w8)是該模型的邊的一部分,而例如對(W2, W6)或(W10, W11)不表示邊。
[0073]在本發(fā)明的有利設(shè)計中,第三數(shù)量N3個三角形可以是解剖學(xué)模型的一部分。三角形由節(jié)點的三元組來描述,各節(jié)點指定了三角形的邊。
[0074]在圖1c)中,該模型尤其包括由節(jié)點三元組(W3,W4,W9)、(ff9, W4,W12)以及(W4, W5, W12)描述的三個三角形。
[0075]將三角形插入解剖學(xué)模型尤其有利于對對象(例如,與身體區(qū)域相對應(yīng))進行建模,這些對象只展現(xiàn)出很少的內(nèi)部移動性并且通常在圖像中運動,使得形成三角形的邊的各節(jié)點的相對位置相對于彼此只有很少變化。這例如適用于整個圖像中人的軀干,但也可適用于例如在手的特寫情況下的手掌或手背。姿態(tài)估計方法的用戶最終總是必須自己決定要觀察哪一對象或哪一拓撲看起來合適和/或特別適于他的具體目的。
[0076]根據(jù)一實施例,本發(fā)明提供了用于來自N1個節(jié)點、N2條邊以及N3個三角形的解剖學(xué)拓撲的SOM學(xué)習(xí)規(guī)則以供擬合到3D點云,其中NpN2X)且乂≥O。下文中,以術(shù)語拓撲元素來概括節(jié)點、邊以及三角形。
[0077]SOM用拓撲的節(jié)點來標識。學(xué)習(xí)規(guī)則涉及將節(jié)點位置位移,使得拓撲擬合到3D點云中。在這之上的邊和可任選的三角形的規(guī)范意味著節(jié)點的一些對和可能的一些節(jié)點三元組在每一情況下必須服從互相鏈接的學(xué)習(xí)規(guī)則。 [0078]根據(jù)本發(fā)明的一實施例,學(xué)習(xí)規(guī)則是根據(jù)以下概念來形成的。從要對其執(zhí)行連續(xù)姿態(tài)估計的圖像序列的存在開始,作為節(jié)點位置(在3D坐標系中描述)、節(jié)點對以及可任選的節(jié)點三元組的列表的骨架模型在每一情況下在該序列的新圖像存在時被更新。新圖像一旦被深度傳感器相機記錄并且通過圖像分割和投影到所觀察的對象的表面的各點一例如,整個人、他的軀干、他的手,等等一的3D坐標的列表(3D點云)已被轉(zhuǎn)換,SOM訓(xùn)練就發(fā)生,因為該點云的單獨的點是隨機選擇的并且最接近這一點的拓撲元素在該所選點的方向上位移。位移通過3D空間中的向量加法來發(fā)生,其結(jié)果是上述節(jié)點位置的列表中各單獨的節(jié)點位置被改變或更新。
[0079]在這一位移之后,3D點云的下一點是隨機選擇的,并且最接近現(xiàn)在被選擇的點的拓撲元素(非常有可能是不同的一個)朝該點位移。點選擇和位移被重復(fù)預(yù)定數(shù)量的步驟,總體位移距離隨每一步驟而降低。在足夠高的預(yù)定數(shù)量的步驟之后,骨架模型針對新圖像被最終更新。
[0080]優(yōu)選地,執(zhí)行拓撲元素的至少1000和至多5000個位移來將骨架模型擬合到3D點云中。尤其優(yōu)選的是,位移的數(shù)量在2000和3000之間。節(jié)點位置的若干1000個位移可使用當今的計算機在幾毫秒內(nèi)實現(xiàn)。
[0081]根據(jù)這一點,最接近所選擇的點的拓撲元素可能不是節(jié)點。通過將以互相鏈接的方式來確定邊或三角形的所有節(jié)點位移來對邊或三角形進行位移。取決于要位移的拓撲元素,位移也可同時考慮一個、兩個或三個節(jié)點。
[0082]最接近拓撲元素的確定在下文更詳細地解釋,并且指定了拓撲元素的特定位移規(guī)則。
[0083]首先,為3D點云的點X首先確定X在所有拓撲元素方面的交叉點一換言之,對于3D空間中的坐標點,在使用深度傳感器相機對所觀察的對象成像以及后續(xù)的圖像分割和投影之后,表示該人的身體表面的點并且從所有這些點中隨機選擇。關(guān)于一拓撲元素,X的交叉點P是由該拓撲元素形成的3D空間的子空間的最接近點X的點。在該過程中,各節(jié)點形成只包含該節(jié)點自身的零維子空間。各邊形成3D空間中的貫穿限定該邊的節(jié)點的直線。三角形形成3D空間中包含限定該三角形的節(jié)點的平面。
[0084]由一拓撲元素形成的子空間的最接近點X的點是使用距離測量來計算的。3D空間中的距離也可以使用任何范數(shù)來確定。優(yōu)選地,使用歐幾里得范數(shù)(也稱為L2范數(shù)或畢達哥拉斯距離),但也可使用其他距離測量。
[0085]如果拓撲元素是節(jié)點,則交叉點P處于節(jié)點中,并且在此它恰好與這一節(jié)點重合。
[0086]如果拓撲元素是邊,則交叉點P位于3D空間中的直線上。
[0087](I)P = W+a Aff
[0088]在此,W表示該邊的一任何一第一節(jié)點,Λ W表示該邊的第二節(jié)點和第一節(jié)點之間的差向量,且α是實數(shù)。需要明確:該邊由節(jié)點對(W,W+AW)來描述。
[0089]如果拓撲元素是三角形,則交叉點P位于3D空間中的平面上。點P可被表示為:
[0090](2) P = W+ σ ! Δ W1+ σ 2 Δ W2
[0091]其中W是三角形的一任何一第一節(jié)點,AWp AW2是該三角形的第二節(jié)點和/或第三節(jié)點與第一節(jié)點之間的差向量,并且。”(^是實數(shù)。需要明確:三角形由節(jié)點三元組(ff, W+ Δ W1, W+ Δ W2)來描述。
[0092]式⑴和⑵的系數(shù)α、σ 1、σ 2應(yīng)當在下文指定為交叉點的“拓撲順從表示系數(shù)”。形式上,它們是向量P相對于3D空間的子空間的非標準化且可任選地斜角底邊的分量,該子空間由為其確定P的拓撲元素來形成。關(guān)于拓撲元素的交叉點P由確定該拓撲元素的節(jié)點坐標向量的線性組合來表示也是可能的。
[0093]隨后檢查點X關(guān)于拓撲元素的交叉點是否位于這些拓撲元素內(nèi)部。
[0094]根據(jù)定義,關(guān)于節(jié)點的所有交叉點都位于這些節(jié)點內(nèi)部。同樣,根據(jù)定義,關(guān)于節(jié)點的交叉點的拓撲順從表示系數(shù)總是I。
[0095]如果關(guān)于邊的交叉點位于定義該邊的節(jié)點之間,則該交叉點恰好處于該邊內(nèi)部。這意味著當且僅當交叉點的表示系數(shù)α在O和I之間時,交叉點才位于邊的內(nèi)部。
[0096]如果關(guān)于三角形的交叉點在由節(jié)點限定的三角形表面的內(nèi)部,則該交叉點恰好處于該三角形內(nèi)部。對于關(guān)于三角形的交叉點,當且僅當它的表示系數(shù)OpO2以及它們的和σ A σ 2在O和I之間時才是這種情況。
[0097]3D點云的點X距一拓撲元素的距離可作為X與交叉點P之間的差向量D的范數(shù)來計算,即在下式中D: =Χ-Ρ。優(yōu)選地,使用歐幾里得范數(shù)。以此方式,距離
【權(quán)利要求】
1.一種用于通過計算機計算骨架模型的節(jié)點的3D位置坐標的位移來對活動對象進行姿態(tài)估計的方法,所述骨架模型被連續(xù)擬合到3D點云的序列中,所述節(jié)點坐標以表格的形式存在于電子存儲器中并且根據(jù)表示所述活動對象的深度傳感器相機的電子化記錄的圖像來確定所述3D點云, 所述骨架模型是展現(xiàn)出拓撲元素N1個節(jié)點、N2條邊以及N3個三角形的拓撲,其中N1,N2>0且乂 ^ O,且每一拓撲元素由節(jié)點、節(jié)點對或節(jié)點三元組來描述并且被穩(wěn)定地分配給所述活動對象的一部分,并且算術(shù)單元執(zhí)行以下步驟: a.隨機選擇所述3D點云的數(shù)據(jù)點X; b.關(guān)于每一拓撲元素計算相對于X的交叉點P并在每一情況下標識P是否位于所述拓撲元素內(nèi)部; C.計算從X到每一拓撲元素的距離作為差向量X-P的范數(shù); d.確定所有拓撲元素中展現(xiàn)出距X最小距離的拓撲元素,且其交叉點P位于所述拓撲元素內(nèi)部; e.通過在向量X-P的方向上將構(gòu)成在步驟d確定的拓撲元素的所有節(jié)點位移,來將所述拓撲元素位移,節(jié)點的位移向量被乘以學(xué)習(xí)率以及權(quán)重,所述權(quán)重從關(guān)于在步驟d確定的拓撲元素的相對于X的交叉點P得出,以及 f.將步驟a到e重復(fù)預(yù)定數(shù)量的學(xué)習(xí)步驟,同時逐漸降低所述學(xué)習(xí)率; g.在K遍預(yù)定數(shù)量的學(xué)習(xí)步驟之后,更新所述電子存儲器的表格中的節(jié)點坐標,其中K^l; h.至少提供所述表格中的經(jīng)更新的節(jié)點坐標以供進一步處理。
2.如權(quán)利要求1所述的方法,其特征在于,在步驟b中,關(guān)于一拓撲元素的交叉點P被表示為構(gòu)成所述拓撲元素的各節(jié)點坐標向量的線性組合,并且它是根據(jù)P是否位于所述拓撲元素的內(nèi)部的表示系數(shù)來確定的。
3.如權(quán)利要求1或2所述的方法,其特征在于,在步驟e中,根據(jù)P的表示系數(shù)來計算所述權(quán)重。
4.如權(quán)利要求1到3之一所述的方法,其特征在于,步驟a到e的重復(fù)次數(shù)在1000和5000之間,尤其在2000和3000之間。
5.如權(quán)利要求1到4之一所述的方法,其特征在于,所述學(xué)習(xí)率在起始值0.5和結(jié)束值0.01之間。
6.如權(quán)利要求1到5之一所述的方法,其特征在于,還包括以下步驟:基于來自經(jīng)更新的節(jié)點坐標的表格信息生成用于要被控制的裝置的控制命令,以及通過所述控制命令控制所述要被控制的裝置。
7.一種用于活動對象的姿態(tài)估計的裝置,包括: 用于檢測所述活動對象的電子圖像的深度傳感器相機, 用于存儲所述深度傳感器相機的電子圖像的電子存儲器,以及 被設(shè)計成在時間上與所述相機對圖像進行記錄步調(diào)一致地根據(jù)所述電子圖像確定表示所述對象的3D點云的算術(shù)單元,以及 其中所述存儲器還存儲骨架模型的節(jié)點的3D坐標的列表,并且所述算術(shù)單元能夠讀出并改變各單獨節(jié)點、預(yù)定節(jié)點對以及預(yù)定節(jié)點三元組的坐標作為所述骨架模型的拓撲元素的表示, 其中所述算術(shù)單元還被設(shè)計成在確定表示所述對象的3D點云之后,執(zhí)行以下步驟: a.隨機選擇所述3D點云的數(shù)據(jù)點X; b.關(guān)于每一拓撲元素計算相對于X的交叉點P并在每一情況下標識P是否位于所述拓撲元素內(nèi)部; C.計算從X到每一拓撲元素的距離作為差向量X-P的范數(shù); d.確定所有拓撲元素中展現(xiàn)出距X最小距離的拓撲元素,其中所述交叉點P位于所述拓撲元素內(nèi); e.通過在向量X-P的方向上將構(gòu)成在步驟d確定的拓撲元素的所有節(jié)點位移,來將所述拓撲元素位移,節(jié)點的位移向量被乘以學(xué)習(xí)率以及權(quán)重,所述權(quán)重從關(guān)于在步驟d確定的拓撲元素的相對于X的交叉點P得出,以及 f.將步驟a到e重復(fù)預(yù)定數(shù)量的學(xué)習(xí)步驟,同時逐漸降低所述學(xué)習(xí)率; g.在K遍所述預(yù)定數(shù)量的學(xué)習(xí)步驟之后,更新所述電子存儲器的表格中的節(jié)點坐標,其中K≥I ; h.至少提供所述表格中的經(jīng)更新的節(jié)點坐標以供進一步處理。
8.一種存儲命令的計算機可讀存儲介質(zhì),所述命令一旦由算術(shù)單元執(zhí)行就使得所述算術(shù)單元執(zhí)行如權(quán)利要求1到6之一所述的方法。
【文檔編號】G06T7/20GK103999126SQ201180075507
【公開日】2014年8月20日 申請日期:2011年12月16日 優(yōu)先權(quán)日:2011年12月16日
【發(fā)明者】T·馬丁內(nèi)茨, K·埃勒斯, F·蒂姆, E·巴斯, S·克萊蒙特 申請人:呂貝克大學(xué)