部 位組合,那么將狀態(tài)和部位的交叉產(chǎn)品用作類來訓(xùn)練隨機(jī)決策森林是計(jì)算上昂貴的。
[0053] 在此描述的各示例中,單個(gè)像素級(jí)標(biāo)記(部位標(biāo)記)和整個(gè)圖像級(jí)標(biāo)記(狀態(tài)標(biāo) 記)在單個(gè)框架中的混合使用允許對(duì)圖像的快捷且高效的部位和狀態(tài)標(biāo)記用于姿勢識(shí)別。
[0054] 在用于在每一個(gè)分割節(jié)點(diǎn)處做出決定的過程中,圖像中的圖像元素可從根到葉節(jié) 點(diǎn)地被推動(dòng)通過隨機(jī)決策森林中的各個(gè)樹。根據(jù)圖像元素的特性以及測試圖像元素的特性 來做出該決定,測試圖像元素從圖像元素位移達(dá)分割節(jié)點(diǎn)處的參數(shù)所指定的空間偏移。在 分割節(jié)點(diǎn)處,圖像元素沿著根據(jù)決定的結(jié)果來選擇的分支向下前進(jìn)至樹的下一層。隨機(jī)決 策森林可使用如下文更詳細(xì)地描述的遞歸或歸類。在訓(xùn)練期間,學(xué)習(xí)參數(shù)值(也被稱為特 征)以供在分割節(jié)點(diǎn)處使用,并且在葉節(jié)點(diǎn)處累積包括部位和狀態(tài)標(biāo)記表決的數(shù)據(jù)。
[0055] 在訓(xùn)練期間在葉節(jié)點(diǎn)處存儲(chǔ)所有累積數(shù)據(jù)可以是非常存儲(chǔ)器密集的,因?yàn)橥ǔJ?用大量訓(xùn)練數(shù)據(jù)來用于實(shí)際應(yīng)用。在一些實(shí)施例中,數(shù)據(jù)被聚集以使其可以按緊湊方式存 儲(chǔ)??墒褂酶鞣N不同聚集過程。
[0056] 決策樹t的每個(gè)葉節(jié)點(diǎn)可存儲(chǔ)經(jīng)學(xué)習(xí)的跨各部位和各狀態(tài)c的概率分布Pt (c I u)。 這些分布可接著跨樹(例如通過平均)被聚集,以到達(dá)如以下等式所示的最終分布
[0058] 其中P(c|u)被解釋為逐個(gè)圖像元素表決,其手部為圖像元素所屬的并且手狀態(tài) 被編碼。T是森林中的樹的總數(shù)量。
[0059] 在測試時(shí)間,將先前未看見的圖像輸入到經(jīng)訓(xùn)練的森林以使其圖像元素被加標(biāo) 記。輸入圖像中的每一個(gè)圖像元素可通過經(jīng)訓(xùn)練的隨機(jī)決策森林中的每一顆樹以及從葉獲 取的數(shù)據(jù)來發(fā)送。以此方式,部位和狀態(tài)標(biāo)記表決可通過將每一個(gè)圖像元素與從該圖像元 素位移達(dá)所習(xí)得的空間偏移的測試圖像元素進(jìn)行比較來做出。每一個(gè)圖像元素可以作出多 個(gè)部位和狀態(tài)標(biāo)記表決。這些表決可根據(jù)各種不同的合計(jì)方法來合計(jì)以給出所預(yù)測的部位 和狀態(tài)標(biāo)記。測試時(shí)間過程因此可以是將輸入圖像應(yīng)用于經(jīng)訓(xùn)練的隨機(jī)決策森林以直接獲 得所預(yù)測的部位和狀態(tài)標(biāo)記的單階段過程。該單階段過程可以按快速且有效的方式執(zhí)行以 便實(shí)時(shí)給出高質(zhì)量結(jié)果。
[0060] 如上所述,在訓(xùn)練期間在葉節(jié)點(diǎn)處存儲(chǔ)累積數(shù)據(jù)可以是非常存儲(chǔ)器密集的,因?yàn)?通常使用大量訓(xùn)練數(shù)據(jù)來用于實(shí)際應(yīng)用。這特別是部位和狀態(tài)標(biāo)記兩者都要被預(yù)測的情 況,因?yàn)椴课缓蜖顟B(tài)標(biāo)記的可能組合的數(shù)量可能是高的。因此在一些實(shí)施例中,針對(duì)可能部 位的子集來預(yù)測狀態(tài)標(biāo)記,如現(xiàn)在參考圖6描述的。
[0061] 圖6是圖5的隨機(jī)決策森林之一的示意圖,示出在葉節(jié)點(diǎn)510處累積的數(shù)據(jù)600, 其中數(shù)據(jù)600以直方圖形式存儲(chǔ)。該直方圖包括多個(gè)柱并示出了柱計(jì)數(shù)或每個(gè)柱的頻率。 在這個(gè)示例中,隨機(jī)決策樹將圖像元素分類到三個(gè)可能的部位和四個(gè)可能的狀態(tài)標(biāo)記。三 個(gè)可能的部位是手腕、指尖和手掌。四個(gè)可能的狀態(tài)是:上、下、打開和閉合。在此示例中, 狀態(tài)標(biāo)記對(duì)手掌圖像元素而不是其它部位的圖像元素可用。例如,這是因?yàn)橛?xùn)練數(shù)據(jù)包括 手部圖像,其中手指、前臂和手掌被上色且其中手掌的顏色基于當(dāng)前手狀態(tài)來改變。因?yàn)闋?態(tài)標(biāo)記對(duì)至少一個(gè)但不是全部部位可用,可能的組合的數(shù)量被減少,并且數(shù)據(jù)可被比以其 他方式可能的形式更緊湊的形式存儲(chǔ)。
[0062] 圖7是圖5的隨機(jī)決策森林之一的示意圖,示出在葉節(jié)點(diǎn)510處累積的數(shù)據(jù)700, 其中數(shù)據(jù)700以兩個(gè)直方圖形式存儲(chǔ)。一個(gè)直方圖存儲(chǔ)狀態(tài)標(biāo)記頻率且其它直方圖存儲(chǔ)部 位標(biāo)記頻率。這允許相比于圖6的示例而言更多的組合被呈現(xiàn),但不會(huì)不恰當(dāng)?shù)卦黾哟鎯?chǔ) 容量的要求。在該情況中,訓(xùn)練數(shù)據(jù)可包括針對(duì)每個(gè)部位的狀態(tài)標(biāo)記。另一選項(xiàng)是在每個(gè) 葉處使用單個(gè)直方圖來代表狀態(tài)和部位標(biāo)記的全部可能的組合。再次,訓(xùn)練數(shù)據(jù)可包括針 對(duì)每個(gè)部位的狀態(tài)標(biāo)記。
[0063] 圖8是另一個(gè)實(shí)施例的示意圖,其中第一階段隨機(jī)決策森林800被用來將圖像元 素分類到各部位并給出部位分類802。部位分類802被用來選擇多個(gè)第二階段隨機(jī)決策森 林804、806、808之一??纱嬖卺槍?duì)每個(gè)可能的部位分類(諸如圖8的示例中的手腕、手掌、 指尖)的第二階段隨機(jī)決策森林。一旦第二階段隨機(jī)決策森林被選擇,那么測試圖像元素 可被輸入到所選第二階段森林以獲得測試圖像的狀態(tài)810分類。盡管標(biāo)記不同,第一和第 二階段森林可使用相同圖像來訓(xùn)練,以反映第一和第二階段的標(biāo)記方案。
[0064] 圖9示出了用于使用已用針對(duì)部位和狀態(tài)兩者標(biāo)記的訓(xùn)練圖像進(jìn)行訓(xùn)練過的決 策森林來預(yù)測先前未見的圖像中的部位和狀態(tài)標(biāo)記的過程的流程圖。參考以下圖10描述 的訓(xùn)練過程是示例性的。首先,接收未見圖像900。圖像被稱作"未見"以將其與部位和狀 態(tài)標(biāo)記已指定的訓(xùn)練圖像相區(qū)分。注意未見圖像可用被預(yù)處理到一程度,例如以標(biāo)識(shí)前景 區(qū)域,其減少了要被決策森林處理的圖像元素的數(shù)量。然而,預(yù)處理以標(biāo)識(shí)前景區(qū)域是不必 要的。在一些示例中,未見圖像是輪廓圖像、深度圖像或彩色圖像。
[0065] 來自未見圖像的圖像元素被選擇902。來自決策森林的經(jīng)訓(xùn)練的決策樹也被選擇 904。通過所選擇的決策樹推動(dòng)所選圖像元素906,以使得在一節(jié)點(diǎn)處對(duì)照經(jīng)訓(xùn)練的參數(shù)進(jìn) 行測試,然后取決于該測試的結(jié)果而將其傳遞到適當(dāng)?shù)淖?,并且該過程重復(fù)直到該圖像元 素到達(dá)葉節(jié)點(diǎn)。一旦圖像元素到達(dá)葉節(jié)點(diǎn),(來自訓(xùn)練階段的)與這個(gè)葉節(jié)點(diǎn)相關(guān)聯(lián)的累 積的部位和狀態(tài)標(biāo)記表決針對(duì)該圖像元素被存儲(chǔ)908。部位和狀態(tài)標(biāo)記表決可以具有如參 考圖6和7描述的直方圖的形式,或可以具有另一個(gè)形式。
[0066] 如果確定910該森林中存在更多決策樹,則新決策樹被選擇904,推動(dòng)906圖像元 素通過該樹并存儲(chǔ)累積的表決908。重復(fù)此過程,直到對(duì)于該森林中的所有決策樹都執(zhí)行了 該過程。注意,用于推動(dòng)圖像元素通過決策樹林中的多個(gè)樹的過程還可以并行執(zhí)行,而不是 如圖9所示按序列執(zhí)行。
[0067] 接著確定912未見圖像中是否存在其他未分析的圖像元素,并且如果存在則選擇 另一圖像元素并且重復(fù)該過程。一旦未見圖像中的全部圖像元素已被分析,那么針對(duì)全部 圖像元素的部位和狀態(tài)標(biāo)記表決被獲得。
[0068] 當(dāng)圖像元素被推動(dòng)通過決策森林中的樹時(shí),表決累積。針對(duì)給定圖像元素,累積的 表決跨森林中的樹聚集914,以形成針對(duì)每個(gè)圖像元素的總的表決聚集。可選地,可以采用 表決的采樣用于聚集。例如,隨機(jī)選取N個(gè)表決,或通過采用最高的N個(gè)加權(quán)了的表決,并 且接著聚集過程僅僅應(yīng)用到那些N個(gè)表決。這允許針對(duì)速度來權(quán)衡準(zhǔn)確度。
[0069] 至少一組部位和狀態(tài)標(biāo)記可接著被輸出916,其中標(biāo)記可被置信加權(quán)。這幫助任何 隨后的姿勢識(shí)別算法(或其它過程)評(píng)估提議是否是好的。一組以上的部位和狀態(tài)標(biāo)記可 被輸出,例如,其中存在不確定性。
[0070] 每個(gè)部位的重心可被計(jì)算918。例如,這可通過使用均值移位過程來計(jì)算每個(gè)部位 的重心來獲得。也可使用其他方法來計(jì)算重心。逐圖像元素狀態(tài)分類也可跨全部相關(guān)圖像 元素來聚集。例如,相關(guān)圖像元素可以是在上面描述的示例中描繪手掌的那些。逐圖像元 素狀態(tài)分類的聚集可以以各種方式實(shí)現(xiàn),包括手掌(或其它相關(guān)區(qū)域)中的每個(gè)圖像元素 作出針對(duì)全局狀態(tài)的表決,或每個(gè)圖像元素基于概率作出軟(概率)表決,或僅僅一些圖像 元素作出表決(如果它們對(duì)它們的表決足夠自信)。
[0071] 圖10是用于訓(xùn)練決策森林以向圖像的圖像元素分配部位和狀態(tài)標(biāo)記的過程的流 程圖。這也可被認(rèn)為是生成圖像的圖像元素的部位和狀態(tài)標(biāo)記表決。決策森林使用訓(xùn)練圖 像集來訓(xùn)練,如上參考圖4所描述的。
[0072] 參考圖10,為了訓(xùn)練決策樹,首先接收1000上述訓(xùn)練集合。選擇1002將在隨機(jī)決 策森林中使用的決策樹的數(shù)量。隨機(jī)決策森林是決定性決策樹的集合。決策樹可以在歸類 或遞歸算法中使用,但是可能遭受過擬合,即糟糕的泛化。然而,許多經(jīng)隨機(jī)訓(xùn)練的決策樹 的全體(隨機(jī)森林)產(chǎn)生改進(jìn)的泛化。在訓(xùn)練過程期間,樹的數(shù)量是固定的。
[0073] 下面的注釋被用于描述訓(xùn)練過程。圖像I中的圖像元素由其坐標(biāo)X = (X,y)限定。 森林由被標(biāo)記為ΨηΚ,Ψ,,Κ,個(gè)樹構(gòu)成,其中t索引每個(gè)樹。
[0074] 在操作中,每個(gè)樹的每個(gè)根和分割節(jié)點(diǎn)對(duì)輸入數(shù)據(jù)執(zhí)行二元測試并基于其結(jié)果來 將數(shù)據(jù)導(dǎo)向左側(cè)或右側(cè)的子節(jié)點(diǎn)。葉節(jié)點(diǎn)不執(zhí)行任何動(dòng)作;它們存儲(chǔ)累積的部位和狀態(tài)標(biāo) 記表決(以及可任選的其他信息)。例如,可存儲(chǔ)表示所累積的表決的概率分布。
[0075] 現(xiàn)在描述選擇每個(gè)分割節(jié)點(diǎn)所使用的參數(shù)的方式以及可如何