背景技術(shù):
本公開涉及一種方法和系統(tǒng),用于確定實物的至少一部分的處于絕對空間比例的3d重構(gòu)件的空間坐標(biāo)。
涉及圖像分析的計算機視覺方法常常用于,例如,導(dǎo)航、物體識別、3d重構(gòu)、和增強現(xiàn)實應(yīng)用程序等。圖像可由單個相機或不同的相機來捕獲。圖像特征(諸如角和邊)檢測與圖像特征提取是各種計算機視覺方法或算法中的常見步驟,諸如,圖像型識別、圖像型追蹤、圖像型重構(gòu)、圖像型分類和圖像扭曲。例如,視覺型同步定位與地圖構(gòu)建(slam)是一種眾所周知的計算機視覺方法,該方法通過一個或多個相機來重構(gòu)真實環(huán)境并對此一個或多個相機進(jìn)行追蹤。假設(shè)一個或多個相機捕獲到了至少兩張圖像,典型的slam方法包括:特征檢測、說明、匹配、三角測量、以及(全局)圖優(yōu)化。
根據(jù)單眼捕獲設(shè)備捕獲的一組圖像來確定實物結(jié)構(gòu),這種方式形成了依據(jù)比例而定的空間(或幾何)結(jié)構(gòu)的重構(gòu)件。即,重構(gòu)使用對其而言絕對空間單位(諸如,單位米)的比例因子未知的空間單位。在許多應(yīng)用中,需要獲得例如具有絕對單位的重構(gòu)件,也稱作“處于絕對比例”的重構(gòu)件。這常常要求了解處于絕對比例的至少一個距離,例如,實物多個部分之間的距離、或拍攝用于進(jìn)行重構(gòu)的相應(yīng)圖像時相機相對于實物的位置之間的距離。
因此,各種slam和sfm系統(tǒng)的常見問題是:真實環(huán)境的幾何模型是依據(jù)作為不確定因子的比例來重構(gòu)。如果實物位置且相機拍攝重構(gòu)圖像的位姿也未知,則無法確定場景的絕對空間比例。例如,根據(jù)圖2a所示的兩張圖像——一張從前方i(w1)進(jìn)行拍攝,一張從右邊i(w2)進(jìn)行拍攝——無法斷定它是實物大小的真車還是逼真的小型迷你車。因此,無法斷定拍攝這兩張圖像的相機彼此間隔多少米(在汽車是實物大小的情況下)或僅僅間隔幾厘米(在汽車是迷你型的情況下)。然而,如果相機絕對空間比例(例如,兩個相機相隔2.34米)或物體的多個部分的絕對空間比例(例如,汽車頭燈相隔3.45米)有關(guān)的其它信息已知,能夠以絕對比例進(jìn)行重構(gòu)。
在場景的絕對空間比例無法確定的情況下,slam系統(tǒng)可隨機分配一個比例,例如,通過從圖像空間的像素視差測量值中確定初始關(guān)鍵幀,并且針對兩個相應(yīng)相機位姿之間的基線來假設(shè)某通用的實際距離。因此,重構(gòu)的3d特征在幾何模型相關(guān)坐標(biāo)系中具有坐標(biāo),當(dāng)絕對坐標(biāo)處于真實世界時,該模型相對于絕對坐標(biāo)的比例因子未知,例如,毫米、厘米、米、或英寸。此外,根據(jù)重新獲得的幾何模型所計算的相機位置也是依據(jù)比例而定,見參考文獻(xiàn)[4]。
比例因子不確定,這為在(例如)機器人系統(tǒng)或車輛的視覺型導(dǎo)航中確定相機處于絕對比例的實際移動帶來挑戰(zhàn),并且在增強現(xiàn)實應(yīng)用程序中為正確地覆蓋相對于真實環(huán)境的相機圖像的虛擬視覺信息帶來挑戰(zhàn)。作為一個示例,視覺型導(dǎo)航應(yīng)用程序能夠確定相機運動的形狀(例如,相機在圓形路徑上移動),但是它無法確定處于絕對比例的平移部分(例如,距離或位置),例如,如果圓形的半徑為1米或10米。作為另一示例,考慮增強現(xiàn)實應(yīng)用程序,該應(yīng)用程序?qū)⒁患摂M家具進(jìn)行疊加,該家具在環(huán)境直播視頻上進(jìn)行了空間配準(zhǔn)。如果相機以隨機(即,任意)比例在坐標(biāo)系中進(jìn)行追蹤,則疊加的虛擬家具也將具有任意比例。高2米的虛擬碗柜可能看起來是1米高的桌子的三倍,或者其可能看起來是桌子高度的一半,這取決于重構(gòu)期間所選擇的任意比例。很顯然,這不合需要。相反,高2米的虛擬碗柜應(yīng)當(dāng)看起來是它旁邊高1米的真實桌子的二倍。相機中通過疊加而增強的實物和虛物的比例應(yīng)當(dāng)一致。為了實現(xiàn)這一點,需要了解真實環(huán)境的幾何模型的(正確)絕對比例。
而且,在多個真實物體的多個幾何模型已經(jīng)分別通過相同的用于同時追蹤多個真實物體的視覺型slam系統(tǒng)創(chuàng)建出來的情形中,如參考文獻(xiàn)[8],比例因子不確定的問題相當(dāng)明顯。通常來說,針對多個幾何模型中的每個模型應(yīng)用隨機比例值。如果slam系統(tǒng)在多個幾何模型中轉(zhuǎn)換,比例可能發(fā)生改變,因此,嚴(yán)重影響了像增強現(xiàn)實等計算機視覺應(yīng)用程序中的用戶體驗。
已經(jīng)提出了各種方法用于確定正確的比例因子,該比例因子可定義其處于真實世界時真實環(huán)境的重構(gòu)幾何模型的實際大小。
例如,參考文獻(xiàn)[1]中davison等人提出,將絕對空間尺寸已知的校準(zhǔn)物體引入slam系統(tǒng)的絕對比例確定場景中。由此,他們需要改變場景外觀,因為他們使用相同的相機來捕獲校準(zhǔn)物體以及捕獲用以重構(gòu)slam的場景。用戶同樣需要獲得校準(zhǔn)物體。
參考文獻(xiàn)[5]中l(wèi)emaire等人提出,使用立體攝像系統(tǒng)(即,兩個通過重疊的相機視錐進(jìn)行位移的相機)來解決slam系統(tǒng)中絕對比例的確定問題。然而,使用立體相機僅解決了部分問題,這是因為兩個相機之間的位移相對于環(huán)境距離必須很顯著,以便可靠地計算出環(huán)境深度。也需要了解兩個相機之間處于絕對比例的位移,即,以諸如毫米、厘米、米或英寸等為單位的位移。
參考文獻(xiàn)[14]也公開了以下方案:通過具有重疊相機視錐的多相機裝置來估算絕對比例。然而,兩個相機之間的位移相對于環(huán)境距離必須很顯著,以便可靠地計算出環(huán)境深度。
在參考文獻(xiàn)[6]中l(wèi)ieberknecht等人通過采用rgb-d相機將深度信息集成到單眼視覺型slam中,以實現(xiàn)準(zhǔn)確縮放的幾何模型的重構(gòu),rgb-d相機可提供與圖像像素相關(guān)的絕對深度信息??筛鶕?jù)已知的處于絕對比例的深度信息來確定絕對比例。然而,與常見的單眼rgb相機相比,rgb-d相機設(shè)備在手持式設(shè)備(例如,移動手機、平板電腦、或pda)中并不常用。同樣地,如果存在大量紅外環(huán)境光線,和白天時室外環(huán)境一樣,基于將紅外線投射到場景中的主動式立體深度相機無法可靠地運行。
參考文獻(xiàn)[7]中klein等人通過以下方式解決了比例估算的問題:當(dāng)相機捕獲3d三角測量所需的兩張圖像時,手動定義相機兩個位置之間的基線(即,處于絕對比例的距離),3d三角測量用于進(jìn)行環(huán)境重構(gòu)。
也可使用傳感器與慣性測量單元(imu)的融合件來估算絕對比例,如參考文獻(xiàn)[9]所公開。該方案的一個問題是:傳感器值不準(zhǔn)確導(dǎo)致比例估算值也不準(zhǔn)確。昂貴(即,計算密集型)技術(shù),像“卡爾曼濾波”或“光束平差”等,用于解決該問題,但是與現(xiàn)成裝置(諸如,移動手機)集成的imu的精確度通常不足以準(zhǔn)確地估算絕對比例。
因此,需要提供一種方法和系統(tǒng),用于確定實物的至少一部分的處于絕對空間比例的3d重構(gòu)件的空間坐標(biāo),該方法和系統(tǒng)能夠重構(gòu)處于絕對比例的真實物體,或者確定將處于任意比例的重構(gòu)件的坐標(biāo)映射成絕對比例的比例因子。
技術(shù)實現(xiàn)要素:
根據(jù)第一方面,本發(fā)明公開了一種確定實物的至少一部分的處于絕對空間比例的3d重構(gòu)件的空間坐標(biāo)的方法,包括以下步驟:
a)接收第一圖像的圖像信息,第一圖像包括利用第一相機捕獲的第一實物的至少一部分
b)接收第三圖像的圖像信息,第三圖像包括利用第三相機捕獲的第一實物的該至少一部分,
c)接收第二圖像的圖像信息,第二圖像包括利用第二相機捕獲的第二實物的至少第一部分,
d)接收第四圖像的圖像信息,第四圖像包括利用第四相機捕獲的第二實物的至少第二部分,
其中第一相機的視錐和第二相機的視錐不重疊,并且其中第三相機的視錐和第四相機的視錐不重疊,
e)提供第一相機與第二相機之間的第一空間變換,并且提供第三相機與第四相機之間的第二空間變換,
f)提供第一比例信息和第二比例信息,第一比例信息指示第二實物的至少第一部分的絕對空間比例,第二比例信息指示第二實物的至少第二部分的絕對空間比例,
g)根據(jù)第二圖像、第一比例信息、第四圖像和第二比例信息,確定第二相機的至少一部分的位姿以及第四相機的至少一部分的位姿,其中第二相機的至少一部分的位姿和第四相機的至少一部分的位姿被限定在第二共同坐標(biāo)系中,
h)根據(jù)第二相機的至少一部分的位姿和第一空間變換,確定第一相機的至少一部分的位姿,根據(jù)第四相機的至少一部分的位姿和第二空間變換,確定第三相機的至少一部分的位姿,其中第一相機的至少一部分的位姿和第三相機的至少一部分的位姿被限定在第二共同坐標(biāo)系中,
i)根據(jù)第一圖像、第三圖像和第一相機的至少一部分的位姿以及第三相機的至少一部分的位姿,確定第一實物的至少一部分的處于絕對空間比例的3d重構(gòu)件的空間坐標(biāo)。
根據(jù)一個實施方案,第二相機的至少一部分的位姿、第四相機的至少一部分的位姿、第一相機的至少一部分的位姿和第三相機的至少一部分的位姿均包括平移信息。
根據(jù)一個實施方案,步驟i)包括:根據(jù)第一圖像和第三圖像,確定第一相機的位姿和第三相機的位姿,其中第一相機的位姿和第三圖像的位姿被限定在第一共同坐標(biāo)系中;根據(jù)第一共同坐標(biāo)系中第一相機的位姿的平移信息和第三相機的位姿的平移信息,確定指示至少一個距離的第一平移信息;根據(jù)第二共同坐標(biāo)系中第一相機的至少一部分的位姿和第三相機的至少一部分的位姿,確定指示至少一個距離的第二平移信息;根據(jù)第一平移信息和第二平移信息,確定比例因子;根據(jù)第一圖像、第三圖像和第一相機的位姿以及第三相機的位姿,確定第一共同坐標(biāo)系中第一實物的至少一部分的處于任意空間比例的3d重構(gòu)件的空間坐標(biāo);根據(jù)比例因子,將所確定的3d重構(gòu)件的空間坐標(biāo)從第一共同坐標(biāo)系的任意空間比例變換為第二共同坐標(biāo)系的絕對空間比例。
根據(jù)一個實施方案,步驟i)進(jìn)一步包括:根據(jù)第一圖像和第三圖像,確定第一相機的位姿和第三相機的位姿,其中第一相機的位姿和第三相機的位姿被限定在第一共同坐標(biāo)系中;提供被限定在第二共同坐標(biāo)系中的第一相機的至少一部分的位姿和第三相機的至少一部分的位姿;根據(jù)第二共同個坐標(biāo)系中第一相機的至少一部分的位姿以及第三相機的至少一部分的位姿,更新第一共同坐標(biāo)系中與第一相機的位姿相關(guān)的平移信息以及與第三相機的位姿相關(guān)的平移信息;根據(jù)第一圖像、第三圖像、第一相機的更新的位姿和第三相機的更新的位姿,確定第一實物的至少一部分的處于絕對空間比例的3d重構(gòu)件的空間坐標(biāo)。
例如,第二相機的至少一部分的位姿包括3dof平移信息和3dof旋轉(zhuǎn)信息,第四相機的至少一部分的位姿包括3dof平移信息和3dof旋轉(zhuǎn)信息,第一相機的至少一部分的位姿包括3dof平移信息和3dof旋轉(zhuǎn)信息,第三相機的至少一部分的位姿包括3dof平移信息和3dof旋轉(zhuǎn)信息。
根據(jù)第二方面,本發(fā)明公開了一種方法,用于確定第一實物的至少一部分的處于絕對空間比例的3d重構(gòu)件的空間坐標(biāo),包括以下步驟:
a)接收第一圖像的圖像信息,第一圖像包括利用第一相機捕獲的第一實物的至少一部分,
b)接收第三圖像的圖像信息,第三圖像包括利用第三相機捕獲的第一實物的至少一部分,
c)接收第二圖像的圖像信息,第二圖像包括利用第二相機捕獲的第二實物的至少第一部分,
d)接收第四圖像的圖像信息,第四圖像包括利用第四相機捕獲的第二實物的至少第二部分,
其中第一相機的視錐和第二相機的視錐不重疊,并且其中第三相機的視錐和第四相機的視錐不重疊,
e)提供第一比例信息和第二比例信息,第一比例信息指示第二實物的至少第一部分的絕對空間比例,第二比例信息指示第二實物的至少第二部分的絕對空間比例,
f)根據(jù)第二圖像、第一比例信息、第四圖像和第二比例信息,確定第二相機的至少一部分的位姿以及第四相機的至少一部分的位姿,其中第二相機的至少一部分的位姿和第四相機的至少一部分的位姿被限定在第二共同坐標(biāo)系中,其中第二相機的至少一部分的位姿包括平移信息,第四相機的至少一部分的位姿包括平移信息,
g)根據(jù)第一圖像和第三圖像,確定第一相機的位姿和第三相機的位姿,第一相機的位姿和第三相機的位姿被限定在第一共同坐標(biāo)系中,
i)該方法還包括
i0)根據(jù)第二相機的至少一部分的位姿以及第四相機的的至少一部分的位姿,確定指示至少一個距離的第二平移信息,
i1)根據(jù)第一相機位姿的平移以及第三相機位姿的平移,確定指示至少一個距離的第一平移信息,
i2)根據(jù)第一平移信息和第二平移信息,確定比例因子,
i3)根據(jù)第一圖像、第三圖像、第一相機的位姿和第三相機的位姿,確定第一實物的至少一部分的處于任意比例的3d重構(gòu)件的空間坐標(biāo),
i4)根據(jù)比例因子,將所確定的3d重構(gòu)件的空間坐標(biāo)從任意空間比例變換為絕對空間比例,
或者
k)替代步驟i0)-i4),該方法進(jìn)一步包括
k1)根據(jù)第二相機的至少一部分的位姿以及第四相機的至少一部分的位姿,將與第一相機的位姿相關(guān)的平移信息以及與第三相機的位姿相關(guān)的平移信息更新為處于絕對空間比例下,
k2)根據(jù)第一圖像、第三圖像、第一相機的更新的位姿、和第三相機的更新的位姿,確定第一實物的至少一部分的處于絕對空間比例的3d重構(gòu)件的空間坐標(biāo)。
以下實施方案同樣地可以根據(jù)第一方面或第二方面來實施。
根據(jù)一個實施方案,第二共同坐標(biāo)系與第二實物相關(guān),步驟g)(第一方面)或步驟f)(第二方面)分別包括:根據(jù)第二圖像和第一比例信息,確定第二相機的至少一部分的位姿;根據(jù)第四圖像和第二比例信息,確定第四相機的至少一部分的位姿。
根據(jù)一個實施方案,第二共同坐標(biāo)系與所選相機相關(guān),所選相機為第二相機和第四相機中一者,其中第二相機和第四相機中另一者為未選相機,步驟g)(第一方面)或步驟f)(第二方面)分別包括:提供第二共同坐標(biāo)系中與所選相機相關(guān)的位姿;根據(jù)第二圖像、第一比例信息、第四圖像、和第二比例信息,確定與未選相機相關(guān)的位姿。
根據(jù)一個實施方案,第一共同坐標(biāo)系與第一實物或第一相機與第三相機中一者相關(guān)。
根據(jù)一個實施方案,第二實物的至少第一部分和第二實物的至少第二部分是相同部分,第一比例信息和第二比例信息相同,或者第二實物的至少第一部分和第二實物的至少第二部分是不同部分,第一比例信息和第二比例信息不同。
根據(jù)一個實施方案,第一相機和第二相機面朝相反的方向,并且第三相機和第四相機面朝相反的方向。
根據(jù)一個實施方案,第二實物為人臉,步驟g)(第一方面)或步驟f)(第二方面)分別通過臉部追蹤方法來實施,其中第一比例信息和/或第二比例信息被提供為至少兩個臉部特征的位置之間的處于絕對比例的至少一個距離。
根據(jù)一個實施方案,第二實物為人臉,步驟g)(第一方面)或步驟f)(第二方面)分別通過臉部追蹤方法來實施,并且其中第一比例信息和/或第二比例信息被提供為第二圖像和第四圖像中的至少一者中的第二實物的至少一部分的位置的處于絕對比例的至少一種深度信息。
根據(jù)一個實施方案,第二相機和第四相機中至少一者提供處于絕對比例的深度信息,步驟g)(第一方面)或f)(第二方面)是分別以絕對比例利用視覺測程法來實施的,第一比例信息和/或第二比例信息是通過深度信息來提供的。
根據(jù)一個實施方案,第一相機和第三相機是處于不同時間點的相同相機,并且第二相機和第四相機是處于不同時間點的相同相機。
根據(jù)一個實施方案,第二實物為人臉。
根據(jù)一個實施方案,第一比例信息和/或第二比例信息包括瞳孔間距。
根據(jù)一個實施方案,該方法還包括:提供第二相機的至少一部分的固有相機參數(shù)以及第四相機的至少一部分的固有相機參數(shù)。
優(yōu)選地,攜帶第一相機至第四相機的用戶是靜止的。例如,該方法還包括確定用戶何時是靜止的步驟。
根據(jù)一個實施方案,第二相機和第四相機均包括紅外相機。
根據(jù)一個實施方案,比例因子根據(jù)一組位姿對n來確定,其中n>2。
根據(jù)一個實施方案,該方法還使用關(guān)于第二實物的通用人臉模型。
根據(jù)一個實施方案,該方法還使用關(guān)于第二實物的基于概率分布的人臉模型。
根據(jù)一個實施方案,該方法還使用關(guān)于第二實物的被校準(zhǔn)的、具體地自適應(yīng)的、重構(gòu)的或手動測量的人臉模型。
根據(jù)一個實施方案,該方法還包括臉部識別或分類以選擇與第二物體相關(guān)的模型。
根據(jù)一個實施方案,該方法還包括:檢測用于開始所述方法的用戶輸入,并向所述用戶提供利用所述第二相機來執(zhí)行某運動的指令,所述運動是基于利用所述第二相機捕獲的圖像進(jìn)行測量的;接收用戶交互,所述用戶交互觸發(fā)所述3d重構(gòu)件的空間坐標(biāo)的確定。
根據(jù)一個實施方案,在捕獲第一圖像、第二圖像、第三圖像和第四圖像時將第二實物視作相對于第一實物靜止。
根據(jù)一個實施方案,第一圖像、第二圖像、第三圖像和第四圖像是基于確定在捕獲所述第一圖像、所述第二圖像、所述第三圖像和所述第四圖像的同時所述第二實物相對于所述第一實物靜止的方法來選擇的。
根據(jù)一個實施方案,根據(jù)第二相機的至少一部分的位姿以及第四相機的至少一部分的位姿來確定指示至少一個距離的第二平移信息僅考慮第二實物與第二相機之間的距離以及第二實物與第四相機之間的距離。
根據(jù)一個實施方案,對多組第一圖像、第二圖像、第三圖像和第四圖像重復(fù)執(zhí)行第二方面中的步驟a)至i2),其中不同圖像組能夠或能夠不相互重疊,從而導(dǎo)致步驟i2)中的多個比例因子,該方法還包括從多個比例因子中確定單個比例因子并在步驟i4)使用單個比例因子來變換空間坐標(biāo)。
根據(jù)一個實施方案,對多組第一圖像、第二圖像、第三圖像和第四圖像重復(fù)執(zhí)行第二方面中的步驟a)至i1),其中不同圖像組能夠或能夠不相互重疊,從而導(dǎo)致步驟i1)中的多種第一平移信息以及步驟i0)中產(chǎn)生多種第二平移信息,其中步驟i2)根據(jù)步驟i1)中多種第一平移信息以及步驟i0)中多種第二平移信息來確定比例因子。
根據(jù)一個實施方案,根據(jù)通用臉部模型,例如,基于概率分布的臉部模型,將所述第一比例信息和/或所述第二比例信息提供為至少兩個臉部特征的位置之間的處于對比例的至少一個距離。
根據(jù)一個實施方案,根據(jù)對特定臉部的至少兩個臉部特征的位置之間的處于絕對比例的至少一個距離的先前的校準(zhǔn),例如通過自適應(yīng)擬合、重構(gòu)、手動測量,將所述第一比例信息和/或所述第二比例信息提供為至少兩個臉部特征的位置之間的處于絕對比例的至少一個距離。
根據(jù)一個實施方案,根據(jù)基于視覺臉部識別所選擇的模型,將所述第一比例信息和/或所述第二比例信息提供為至少兩個臉部特征的位置之間的處于絕對比例的至少一個距離。
根據(jù)一個實施方案,根據(jù)基于視覺臉部分類所選的用于從針對不同臉部類別的通用臉部模型的數(shù)據(jù)集確定臉部特性諸如年齡、性別、種族、體重、或身高的模型,將所述第一比例信息和/或所述第二比例信息提供為至少兩個臉部特征的位置之間的處于絕對比例的至少一個距離。
根據(jù)一個實施方案,所述第一實物的處于絕對比例的所述3d重構(gòu)用于確定處于絕對比例的相機位姿。例如,處于絕對比例的相機位姿用于疊加增強現(xiàn)實應(yīng)用程序中的數(shù)字化信息。
根據(jù)一個實施方案,該方法由用戶輸入來觸發(fā)。根據(jù)另一實施方案,該方法自動觸發(fā)。
根據(jù)另一方面,本發(fā)明公開了一種用于確定第一實物的至少一部分的處于絕對空間比例來3d重構(gòu)件的空間坐標(biāo)的系統(tǒng),包括處理系統(tǒng),用于執(zhí)行上文所公開的多個方面和實施方案中所列的步驟。
根據(jù)優(yōu)選實施方案,當(dāng)具有可捕獲人臉和實物的捕獲裝置時,我們由此使用臉部來確定處于絕對比例的距離,這可用于實現(xiàn)本發(fā)明的目的。捕獲設(shè)備可以是單個相機或一組剛性連接的相機,例如,常用的移動手機中的單個相機或一組剛性連接的相機。對于具有前置相機和后置相機的此類移動手機,前置相機可捕獲用戶臉部,而后置相機捕獲(第一)實物。
一般來說,本發(fā)明涉及如何確定第一實物的處于絕對比例的3d重構(gòu)件的空間坐標(biāo)的問題,該問題可通過以下方式解決:從處于絕對比例的第二實物至少兩個點的空間坐標(biāo)已知的至少兩個視角中每個視角,用成像裝置觀察第一實物和第二實物,這實現(xiàn)了對至少兩個視角之間處于絕對空間比例的距離的確定,并且實現(xiàn)了對用于第一實物進(jìn)行空間坐標(biāo)重構(gòu)的絕對空間比例的確定。
此外,發(fā)明者發(fā)現(xiàn):在用后置相機捕獲物體或環(huán)境的同時,可通過前置相機來捕獲用戶臉部。其還包括:意識到人臉的絕對比例變化有限,因此為以絕對比例進(jìn)行測量提供了良好的比例限制條件。如果特定用戶臉部的空間特性未知,可使用通用人臉模型來確定絕對空間比例。由此引入了誤差,該誤差取決于形成估算值的人臉空間特性的變化程度。即使所呈現(xiàn)的空間特性不同于實際特性,這從某種程度上而言形成了更加不準(zhǔn)確的絕對比例估算值,多個比例估算值使用相同的特性并且相同的臉部將總是形成相似的絕對比例。由此,所估算的比例可能不精確但是是準(zhǔn)確的,即,一致的。如果使用經(jīng)過校準(zhǔn)(即,測量)的特定臉部,則該臉部的比例將以絕對比例被精確掌握。
此外,已經(jīng)發(fā)現(xiàn),場景中不需要任何另外的已知物體。通過采用現(xiàn)代化手持裝置的前置相機和后置相機,提供了絕對比例相關(guān)信息的人臉不需要是前置相機所捕獲與重構(gòu)的場景部分的一部分,并且相反可以在用戶操作應(yīng)用程序的同時進(jìn)行捕獲。作為結(jié)果,用戶臉部不會成為場景重構(gòu)的一部分,正好與將標(biāo)識物或已知物體添加到場景中,然后標(biāo)識物或已知物體作為場景的一部分進(jìn)行重構(gòu)的方案相反。
本發(fā)明所述的方法可以,例如,結(jié)合視覺型同步定位與地圖構(gòu)建(slam)來使用,諸如參考文獻(xiàn)[1]所公開的slam,這是一項眾所周知的用于在不需要對環(huán)境有任何事先了解的情況下通過一個或多個相機來創(chuàng)建真實環(huán)境幾何模型的技術(shù)。相同技術(shù)的另一常見術(shù)語為運動恢復(fù)結(jié)構(gòu)(sfm)。具有至少深度信息的幾何模型也稱為真實環(huán)境的3d圖。環(huán)境幾何模型的創(chuàng)建也稱作真實環(huán)境的(3d)重構(gòu)。所創(chuàng)建的(通常稱作重構(gòu)的)幾何結(jié)構(gòu)可以由多個3d特征來表示,諸如,點特征或邊特征。3d特征說明了真實環(huán)境的物理3d特征(也稱為結(jié)構(gòu))。真實環(huán)境也可稱作真實場景、實物,或者可以理解為包括一個或多個實物。
重構(gòu)的幾何模型可用于不同應(yīng)用程序中。例如,可虛擬化呈現(xiàn)在顯示屏上,或者用三維打印機打印出來。也可作為測量實物上多點之間的空間距離的基礎(chǔ)。
重構(gòu)的幾何模型也可用于,根據(jù)相機所捕獲的當(dāng)前實物圖像,確定相機相對于實物的位姿(即,位置和/或取向)。通過將所提取的當(dāng)前相機圖像的2d特征與幾何模型中存在的3d特征進(jìn)行匹配,例如,通過本地圖像特征描述符(參考文獻(xiàn)[20]),可建立起多個2d-3d對應(yīng)關(guān)系。然后可根據(jù)這些對應(yīng)關(guān)系來計算幾何模型坐標(biāo)系中的相機位置和取向。該過程稱為相機位姿評估,有時也稱為相機追蹤。相對于實物對相機進(jìn)行追蹤的問題也可表述為相對于相機追蹤實物的問題。如果解決了兩個問題中一個問題,第二個問題的解決方案就是第一個問題的解決方案的反面。因此,當(dāng)談?wù)摽傮w概念時,相機追蹤和物體追蹤可互換使用。
視覺型slam同時執(zhí)行相機追蹤和環(huán)境重構(gòu)。視覺型slam可促成許多應(yīng)用,諸如,機器人系統(tǒng)或車輛的視覺型導(dǎo)航。具體地,視覺型slam是未知真實環(huán)境中支持增強現(xiàn)實(ar)系統(tǒng)或應(yīng)用程序(見參考文獻(xiàn)[3])的一項前景廣闊的技術(shù)。
本發(fā)明的目的是確定重構(gòu)的真實環(huán)境幾何模型的絕對比例,使得幾何模型坐標(biāo)系處于絕對比例下,即存在已知的比例因子,該比例因子將重構(gòu)幾何模型的坐標(biāo)系單位映射為實際中的絕對空間單位。例如,可以將模型按比例縮小至毫米,使得模型的模型單位對應(yīng)于實物的毫米。在此情況下,如果模型中兩點間隔56個單位,則實物上的對應(yīng)點彼此相距56mm??蓪嵤┮越^對比例定義模型,使得模型坐標(biāo)系中的單位對應(yīng)于任何實際距離(例如,12.34米),只要該距離已知。
因此,可確定至少一個比例因子,可用于按比例縮放坐標(biāo)系中定義的多個3d特征,坐標(biāo)系與描述實物的幾何模型相關(guān)。
在一個實施方案中,本發(fā)明確定比例因子,該比例因子將以任意比例定義的現(xiàn)有實物模型的坐標(biāo)按比例縮放至以絕對比例定義的坐標(biāo)系。
在另一實施方案中,本發(fā)明確定至少兩個相機之間處于絕對比例的距離,這一點則實現(xiàn)了:根據(jù)兩個相機的圖像,以絕對比例重構(gòu)相機中可見實物的3d模型。
我們可確定空間坐標(biāo)系之間的比例因子,在空間坐標(biāo)系中,容貌的空間特性按實際度量單位(例如,厘米)進(jìn)行定義。如果定義了特征位置的坐標(biāo)系已經(jīng)給出,比例因子可用于將坐標(biāo)系(和特征的空間坐標(biāo)分別)按比例進(jìn)行縮放以相對于實際度量單位(像1單位=1mm)具有一對一的比例。如果定義了特征位置的坐標(biāo)系還沒有確定,我們可使用比例因子直接將坐標(biāo)系(和特征的空間坐標(biāo)分別)進(jìn)行初始化以相對于實際度量單位(像1單位=1mm)具有一對一的比例。
此外,坐標(biāo)系也可維持原狀。對于要求絕對比例(即,表示實際比例)的操作而言,所確定的空間比例因子則可用于提取實際空間距離,或者將位姿或特征的空間坐標(biāo)變換為相對于實際度量單位具有一對一比例的坐標(biāo)系。
在另一實施方案中,為第一相機的兩張圖像提供了兩個處于絕對比例的位姿,例如,兩個時間點上的后置相機,該相機用于通過三角測量進(jìn)行場景結(jié)構(gòu)重構(gòu)。可根據(jù)面朝用戶的不同相機所捕獲的圖像,通過臉部追蹤法來提供處于絕對比例的兩個位姿,在下文中稱為前置相機,具有相對于第一相機的已知空間變換。
在許多可能情景中,用戶手持配備了后置相機的移動設(shè)備。前置相機可用于捕獲周圍環(huán)境圖像,例如,用以將周圍環(huán)境圖像與增強現(xiàn)實應(yīng)用程序中的虛物進(jìn)行疊加或用于其它圖像處理應(yīng)用程序中。在此類應(yīng)用程序中,常常要求重構(gòu)周圍環(huán)境中的實物以及/或者估算相機的位姿或相機相對于實物或環(huán)境的運動。
在諸如下圖6所示的我們具有另外的前置(也稱為面朝用戶的)相機的情景中,我們可使用用戶臉部圖像,該用戶操作應(yīng)用程序并因此已經(jīng)出現(xiàn)在真實環(huán)境中,用于估算根據(jù)面朝世界的相機所捕獲的圖像所創(chuàng)建的圖(即,3d重構(gòu)圖)的絕對比例。
這具有多種優(yōu)勢:可獲得用戶的臉部,因此無需添加任何另外的幾何結(jié)構(gòu)或物體,用戶臉部由面朝用戶的相機進(jìn)行捕獲,因此不需要任何繁瑣裝置。由于用戶通常為了體驗該應(yīng)用程序而看著屏幕,面朝用戶的相機總是可以捕獲用戶臉部,而面朝世界的相機可捕獲真實環(huán)境的視圖。由于只要用戶面朝或看著手持設(shè)備的顯示屏就總是可獲得用戶臉部,可支持自動更新或重新進(jìn)行比例估算。人臉的幾何結(jié)構(gòu)也僅限于幾何結(jié)構(gòu)的變化范圍內(nèi),由此可實現(xiàn)對多數(shù)人的臉部特征的尺寸和比例進(jìn)行有效呈現(xiàn)與限制。即,僅僅通過用戶臉部和捕獲設(shè)備,比例估算可由任何人完成,無需另外的已知物體。特定用戶也可對其臉部進(jìn)行特殊校準(zhǔn),從而實現(xiàn)了更高的精度。也可并入可識別眾多人的臉部識別程序,例如,參考文獻(xiàn)[19]中的臉部識別程序,用以識別出現(xiàn)在面朝用戶的相機的圖像中的用戶,然后從預(yù)設(shè)置數(shù)據(jù)庫中選擇用戶臉部相應(yīng)的正確的絕對尺寸。通過網(wǎng)絡(luò)連接可訪問,臉部識別程序可在本地運行或遠(yuǎn)程執(zhí)行。通過網(wǎng)絡(luò)連接可訪問,可本地或遠(yuǎn)程提供包含正確的用戶臉部絕對尺寸的預(yù)設(shè)置數(shù)據(jù)庫。
另一實施方案使用虛擬臉部分類法,例如,如參考文獻(xiàn)[12]所公開,用以確定諸如人的年齡、性別、種族、體重、身高等特性,然后使用針對特定人體類別的通用臉部模型。
可結(jié)合以下假設(shè)來使用兩個相機(例如,面朝世界的相機和面朝用戶的相機):兩個相機的坐標(biāo)系之間的空間關(guān)系已知,例如,剛體變換。面朝世界的相機可用于確定:在與真實環(huán)境相關(guān)的坐標(biāo)系中,面朝世界的相機相對于真實環(huán)境的位姿;和/或與位于真實環(huán)境中的實物相關(guān)的物體坐標(biāo)系。這將實現(xiàn)所需的虛體與實物之間的校準(zhǔn),虛體可疊加在相機圖像上,實物為真實環(huán)境中由面朝世界的相機所捕獲的圖像中的實物。假設(shè)兩個相機的坐標(biāo)系之間的變換已知,面朝用戶的相機所捕獲的用戶臉部的絕對比例信息可變換為真實環(huán)境坐標(biāo)系和/或物體坐標(biāo)系。這將通過面朝世界的相機實現(xiàn)絕對比例下的slam重構(gòu)。
對于包括面朝用戶的相機和面朝世界的剛性連接相機的相機裝置的每個視角而言,我們可確定由兩個位姿組成的對:面朝用戶的相機相對于用戶臉部處于絕對空間比例的位姿、以及面朝世界的相機相對于第一實物處于任意比例的位姿。給出面朝用戶的相機與面朝世界的相機之間的空間變換,我們可以通過以下方式確定面朝世界的相機相對于用戶臉部處于絕對空間比例的位姿:用面朝用戶的相機f與面朝世界的相機之間的空間變換,變換面朝用戶的相機相對于用戶臉部處于絕對比例的位姿。
給出從雙相機裝置的兩個不同視角獲得的兩個此類變換位姿,我們可確定面朝世界的相機的兩個處于絕對比例的位姿之間的平移距離d_abs。通過面朝世界的相機相對于以任意比例定義的第一實物的兩個位姿,我們可以確定這兩個位姿之間處于任意比例的平移距離d_arb。
最后,從相對于實物的坐標(biāo)系任意比例變換到絕對比例的比例因子可確定為d_abs與d_arb之比。s=d_abs/d_arb。
不參見附圖,通過以下方式確定第一相機wc(捕獲至少一部分實際物體的圖像用于進(jìn)行slam重構(gòu))的兩個相機位姿pw1和pw2之間的絕對空間距離,第一相機wc屬于捕獲裝置c:通過相對于至少兩種圖像的臉部進(jìn)行圖像型相機位姿估算,觀察屬于相同的步驟裝置c的第二相機fc(捕獲至少一部分人臉的圖像)的空間平移和旋轉(zhuǎn),其中至少一張臉部圖像i(f1)在相機fc的相機位姿pf1處進(jìn)行拍攝,即,相機wc在此時間點處于相機位姿pw1,另一臉部圖像i(f2)在相機fc的相機位姿pf2處進(jìn)行拍攝,即,相機wc在此時間點處于相機位姿pw2。至少一部分實際物體可以由相機wc分別在相機位姿pw1和pw2處的圖像i(w1)和i(w2)中捕獲到。圖像i(w1)和i(w2)可用于實物重構(gòu)或相機位姿估算應(yīng)用程序中(例如,slam)。對于以絕對比例確定實物的空間特性的方法,兩個相機位姿pw1與pw2之間的絕對空間距離應(yīng)當(dāng)不為零。
在一個實施方案中,比例估算不僅根據(jù)兩對相應(yīng)的位姿pw和pf(即,pw1和pf1、以及pw2和pf2)進(jìn)行,這些位姿通過在這些位姿處所捕獲的相應(yīng)四張圖像進(jìn)行確定(基本如圖2所示),也根據(jù)多對位姿pw和pf進(jìn)行,每對位姿通過所捕獲的圖像進(jìn)行確定??赏ㄟ^(例如)模型擬合法,諸如中值、平均值或ransac來合并均基于兩對位姿(w_i和f_i、以及w_j和f_j)的多個比例估算值。例如根據(jù)位姿之間的最小距離或位姿測量值的不確定性評分與質(zhì)量評分,模型擬合法可另外地考慮某些位姿對是否適合進(jìn)行比例估算。面朝用戶的相機旋轉(zhuǎn)時f_i至f_j的差別與面朝世界的相機旋轉(zhuǎn)時w_i至w_j的差別之間的一致性也可用作(例如)位姿測量值的不確定性評分和/或質(zhì)量評分以及作為第二實物是否相對于第一實物移動的指標(biāo)。面朝用戶的相機的兩個位姿之間的旋轉(zhuǎn)部分也可用于確定這些位姿是否適合于進(jìn)行比例估算。忽略面朝用戶的相機和面朝世界的相機之間的真實變換并且假設(shè)它們的原點相同,面朝用戶的相機的兩個位姿之間的旋轉(zhuǎn)部分可引入比例估算誤差(見圖8),因此優(yōu)選僅具有可忽略的/很小的旋轉(zhuǎn)度。也可使用兩條完整的位姿軌跡(面朝用戶的相機一條軌跡,面朝世界的相機一條)來估算臉部在捕獲期間沒有移動的可能性。這可(例如)通過如umeyama公開的以下方法(參考文獻(xiàn)[10])進(jìn)行估算:校正這兩條軌跡,計算配準(zhǔn)之后的剩余誤差。如果剩余誤差在特定閾值之上,這可能表示頭部相對于實物移動了。在此情況下,可丟棄所確定的比例因子,并且可重新開始校準(zhǔn)。也可使用面朝用戶的相機的旋轉(zhuǎn)率與面朝世界的相機的旋轉(zhuǎn)率之間的一致性來支持校正兩條軌跡,并且在計算剩余誤差時考慮旋轉(zhuǎn)率的一致性。
現(xiàn)代化手持移動設(shè)備,諸如,移動手機、平板電腦、或平板計算機可配備有兩個相機(例如面朝用戶的相機和面朝世界的相機),指向兩個相對的方向。移動設(shè)備的顯示屏通常面朝與面朝用戶的相機相同的方向。
本發(fā)明的一個可能的實施方案為:通過面朝用戶的相機所捕獲的用戶臉部圖像來估算絕對比例。然后將絕對比例用于重構(gòu)以及以絕對比例通過另一相機(指向與面朝用戶的相機相反方向且通常具有相對于面朝用戶的相機已知的空間變換的面朝世界的相機)進(jìn)行實物追蹤??梢詫⑦@兩個相機附接到手持設(shè)備或移動設(shè)備上,例如,移動手機、平板電腦、或平板計算機。此外,顯示設(shè)備,例如,lcd屏,可以附接到移動設(shè)備上。
移動設(shè)備的兩個相機可具有固定的空間關(guān)系,例如,剛體變換,這可通過校準(zhǔn)程序進(jìn)行確定,例如,手眼校準(zhǔn),通過使用至少一個已知標(biāo)識物或另外的追蹤系統(tǒng)。
常用的先進(jìn)方案要求特殊相機(具有基于主動式立體或被動式立體或渡越時間的深度傳感器)或或另外的裝置,以便估算實物的絕對比例。這絕對限制了這些方案的適用性。
真實場景slam圖的絕對比例的一個估算方案為:直接在用作slam方法輸入的相機圖像中檢測已知物體(如參考文獻(xiàn)[1]所述);使用已知物體的已知絕對比例來推斷出該圖的絕對比例。該方案的一個問題是:需要獲得已知物體以及另外的設(shè)置步驟,其中在場景中添加另外的已知物體。這改變了原有場景并且要求相機朝向已知物體。
與使用像平面標(biāo)識物等必須放到室內(nèi)明顯之處并由slam相機捕獲用于進(jìn)行比例估算的特殊物體的最先進(jìn)技術(shù)(像參考文獻(xiàn)[1]所用的技術(shù))相比,用戶臉部具有極大優(yōu)勢:不需要特別注意在整個重構(gòu)過程中將物體保持在面朝用戶的相機的視野范圍內(nèi)。
與在待重構(gòu)場景中添加具有已知絕對空間特性的物體的方案(參考文獻(xiàn)[1])相比,本發(fā)明的另一明顯不同在于,本發(fā)明不依賴于用相同相機捕獲已知物體用于重構(gòu)實物或場景,而是相反地使用第二相機來捕獲臉部。由此,臉部不成為重構(gòu)件的一部分,這與向場景中添加實物相反。
與諸如參考文獻(xiàn)[1]中在場景中添加已知物體并由此需要配備有相機的計算機、用戶、待重構(gòu)實物、和另外的用于進(jìn)行校準(zhǔn)的用戶將需要隨身攜帶的特殊已知物體的方案相反,本發(fā)明僅需要配備有相機的計算機、用戶、和待重構(gòu)實物。
根據(jù)本發(fā)明的多個實施方案,一個明顯的確定slam重構(gòu)件的絕對比例的優(yōu)勢為:明確使用兩個或多個臉部特征或基準(zhǔn)點之間的絕對距離(例如,臉部兩只眼睛之間的距離、或臉部上眼睛與嘴巴之間的距離、或左眼角與右眼角之間的距離)。當(dāng)用戶觀察顯示設(shè)備時,這些距離可以在面朝用戶的相機(即,指向用戶的相機、或指向由一個或多個用于捕獲用戶臉部的光學(xué)儀器(例如鏡子或光學(xué)透鏡)所反射的用戶圖像的相機)所捕獲的用戶圖像中進(jìn)行識別。這實現(xiàn)了關(guān)于人臉及其絕對空間特性的先驗知識的應(yīng)用。臉部圖像通常由面朝用戶的相機進(jìn)行捕獲,并且用于估算絕對比例,而不是依賴場景中幾何圖形已知的另外物體進(jìn)行比例估算。通過明確使用在用戶觀察顯示屏的整個期間通?;蚩偸强色@得的臉部(例如,使用臉部特定特點),可隨時進(jìn)行比例估算而不會對場景產(chǎn)生任何影響。此外,臉部在所有人之間的幾何結(jié)構(gòu)的變化范圍有限,通過聚焦臉部,可采用專業(yè)算法用于通過用戶臉部進(jìn)行比例估算。尤其適合于進(jìn)行比例估算的臉部區(qū)域可進(jìn)行預(yù)習(xí)得和/或預(yù)定義??赏ㄟ^已經(jīng)建立的u位姿追蹤算法在實時追蹤時配準(zhǔn)臉部區(qū)域??煽紤]會對比例估算產(chǎn)生不良影響的臉部區(qū)域,例如,由于不同的人這些區(qū)域在大小和形狀方面具有明顯不同,并且將其從比例估算中排除(像鼻子大小或耳朵大小)。
在一個實施方案中,移動設(shè)備的顯示設(shè)備的法線和面朝用戶的相機的光軸優(yōu)選具有相同的方向。在此情況下,當(dāng)用戶觀察顯示設(shè)備上的視覺化信息(例如,增強場景)時,面朝用戶的相機通?;蚩偸强梢圆东@到用戶臉部。因此,總是可以根據(jù)臉部圖像來估算絕對比例。
例如,根據(jù)本發(fā)明的處理系統(tǒng)至少部分包括在移動設(shè)備(諸如,移動手機、可佩帶式計算機、平板計算機、移動計算機,通常稱作筆記本電腦、或頭戴式顯示器,諸如用于光學(xué)透視式增強現(xiàn)實應(yīng)用程序)中和/或經(jīng)適配以與移動設(shè)備進(jìn)行通信的服務(wù)器計算機中。處理系統(tǒng)可僅僅包括在這些裝置中一種裝置內(nèi),例如,在移動設(shè)備中或在服務(wù)器計算機中,或者可以是分布式系統(tǒng),其中一個或多個處理任務(wù)由處理系統(tǒng)中一個或多個處理設(shè)備進(jìn)行分配與處理,這些處理裝置分散各處,并通過點到點通信方式或通過網(wǎng)絡(luò)進(jìn)行通信。
根據(jù)一個實施方案,系統(tǒng)包括移動設(shè)備,移動設(shè)備包括一個或多個相機以及,例如,顯示屏。
本文所述的與該方法有關(guān)的任何步驟、實施方案、方面和實施例可以同樣地或類似地由用于執(zhí)行相應(yīng)步驟、實施方案、方面或?qū)嵤├奶幚硐到y(tǒng)(軟件和/或硬件)來實施。處理系統(tǒng)內(nèi)所用的任何處理設(shè)備可按照這種方式通過軟件和/或硬件進(jìn)行配置,并且可通過通信網(wǎng)絡(luò),例如,通過服務(wù)器計算機或點到點通信方式與一個或多個相機、顯示器和/或任何其它部件進(jìn)行通信。
根據(jù)另一方面,本發(fā)明還涉及包括軟件代碼段的計算機程序產(chǎn)品,所述軟件代碼段被適配為執(zhí)行根據(jù)本發(fā)明所述的方法。具體地,軟件代碼段包含在非暫態(tài)計算機可讀介質(zhì)上。軟件代碼段可被加載到本文所述的一個或多個處理設(shè)備(諸如,微處理器)的存儲器中。任何所使用的處理設(shè)備(諸如,一個或多個微處理器)可經(jīng)由通信網(wǎng)絡(luò)例如經(jīng)由本文所述的服務(wù)器計算機或點到點通信方式進(jìn)行通信。
附圖說明
現(xiàn)將相對于附圖來描述本發(fā)明的方面和實施方案,其中:
圖1示出了根據(jù)本發(fā)明的實施方案的方法的流程圖,
圖2示出了本發(fā)明的一個可能的實施方案以及使用單眼slam或sfm時比例模糊的問題,
圖3示出了本發(fā)明的另一實施方案,
圖4示出了根據(jù)本發(fā)明的實施方案的所涉及的坐標(biāo)系和變換。
圖5示出了根據(jù)本發(fā)明的實施方案的捕獲裝置,捕獲裝置包括處于不同位姿上的面朝用戶的相機和面朝世界的剛性附接相機,
圖6示出了本發(fā)明的用手持設(shè)備來實施的示例性實施方案,
圖7示出了指導(dǎo)用戶進(jìn)行示例性比例估算過程的圖形用戶界面的實施例。
圖8示出了第一相機與第二相機之間的空間變換的影響,
圖9示出了本發(fā)明的另一實施方案,
圖10示出了本發(fā)明的另一實施方案,
圖11示出了本發(fā)明的另一實施方案,
圖12示出了本發(fā)明的另一實施方案。
具體實施方式
根據(jù)單眼捕獲設(shè)備所捕獲到的一組圖像來確定實物結(jié)構(gòu),這種方式形成了依據(jù)比例而定的空間(或幾何)結(jié)構(gòu)的重構(gòu)件。這意味著重構(gòu)使用對其而言絕對空間單位(諸如,單位米)未知的空間單位。在許多應(yīng)用中,需要獲得具有絕對單位的重構(gòu)件,也稱作具有“絕對比例”的重構(gòu)件。為此,可使用關(guān)于處于絕對比例的至少一個距離的知識:拍攝用于進(jìn)行重構(gòu)的相應(yīng)圖像時實物多個部分之間的距離、或相機相對于實物的位置之間的距離。處于絕對比例的這一距離可以(例如)是具體某人的眼睛距離或通用眼睛距離或臉部基準(zhǔn)點的任何其它空間特性。當(dāng)具有捕獲臉部和實物的捕獲裝置時,本文所公開的實施方案使用臉部來確定處于絕對比例的距離。捕獲設(shè)備可以是單個相機或一組剛性連接的相機,例如,移動手機中的單個相機或一組剛性連接的相機。前置相機通常捕獲用戶臉部,而后置相機捕獲實物。
有利地,本發(fā)明利用用戶臉部(用戶臉部并不一致但多數(shù)人具有相似的特性),這一點可優(yōu)選地用于手持增強現(xiàn)實程序中。
本發(fā)明實現(xiàn)了以絕對空間比例(以下也簡稱為絕對比例)重構(gòu)實物或環(huán)境的結(jié)構(gòu)。這(例如)實現(xiàn)了以絕對比例進(jìn)行相機位姿追蹤,相機位姿追蹤實現(xiàn)了虛物疊加,這些虛物以絕對比例進(jìn)行定義以與重構(gòu)的實物保持一致的比例。相機位姿追蹤也實現(xiàn)了真實空間測量,從而實現(xiàn)了基于絕對空間比例的計算過程,像物理模擬(例如,重力加速度)或虛物與實物之間的沖突檢測(例如,物體在空間上是否符合實際)。
代替使用需要添加到場景中的已知物體(即,標(biāo)識物),本發(fā)明的實施方案使用總是存在的用戶臉部。與其它方案相反,本發(fā)明不需要任何用戶輸入,本發(fā)明不需要慣性傳感器,提供比消費級慣性傳感器更精確的結(jié)果。
圖1示出了根據(jù)本發(fā)明的實施方案的方法的流程圖。在第一步驟s1中,提供了:包括利用第一相機捕獲的第一實物的至少一部分的第一圖像、包括利用第二相機捕獲的第二實物的至少一部分的第二圖像、包括利用第三相機捕獲的第一實物的至少一部分的第三圖像、以及包括利用第四相機捕獲的第二實物的第四圖像。在第二步驟s2中,提供了:第一相機和第二相機之間處于絕對比例的空間變換、以及第三相機與第四相機之間處于絕對比例的空間變換。在第三步驟s3中,提供第二實物的至少一部分的絕對空間比例。在第四步驟s4中,根據(jù)第二圖像以及第二實物的至少一部分的絕對比例信息,確定第二相機的處于絕對比例的位姿的至少一部分,根據(jù)第四圖像以及第二實物的至少一部分的絕對比例信息,確定第四相機的至少一部分處于絕對比例的位姿。
在另一實施方案中,也可能沒有確定與第二實物(例如,人臉)有關(guān)的兩個完全位姿,即捕獲第二圖像的第二相機位姿以及捕獲第四圖像的第四相機位姿,但是僅僅確定兩個位姿之間的差別,換句話說,僅僅確定第四相機相對于第二相機的位姿。
在另一實施方案中,也可能僅僅確定兩個位姿之間的平移距離,即,僅僅確定第四相機位姿與第二相機位姿之間的距離。
在下一個步驟s5中,根據(jù)第二相機的位姿以及第一相機與第二相機之間的空間變換,確定第一相機的至少一部分處于絕對比例的位姿,根據(jù)第四相機的位姿以及第三相機與第四相機之間的空間變換,確定第三相機的至少一部分的處于絕對比例的位姿。
在另一實施方案中,也可能沒有確定與第一實物有關(guān)的兩個完全位姿,即捕獲第一圖像的第一相機位姿以及捕獲第三圖像的第三相機位姿,但是僅僅確定兩個位姿之間的差別,換句話說,僅僅確定第三相機相對于第一相機的位姿。
在另一實施方案中,也可能僅僅確定兩個位姿之間的平移距離,即,僅僅確定第三相機位姿與第一相機位姿之間的距離。
然后可以將該距離和所估算出的第二相機與第四相機之間的距離一起用于確定第一相機(例如,所謂的面朝世界的相機或后置相機)的絕對比例。例如,比例因子可以定義真實環(huán)境的重構(gòu)幾何模型的真正大小,或者用于將處于任意比例的重構(gòu)件坐標(biāo)映射成絕對比例。
在步驟s6中,處于絕對比例的第一實物的3d重構(gòu)件(也稱作幾何模型)的空間坐標(biāo)可通過第一相機的至少一部分的位姿、第三相機的至少一部分的位姿、第一圖像和第三圖像進(jìn)行確定,或者通過兩個位姿之間的差別進(jìn)行確定,或者通過兩個位姿之間的距離進(jìn)行確定。
在另一實施方案中,根據(jù)(第一共同坐標(biāo)系中)第一相機和第三相機之間的距離以及(第二共同坐標(biāo)系中)第二相機與第四相機之間的距離,計算第一相機(例如,面朝世界的相機)的絕對比例因子。
圖2示出了本發(fā)明的一個可能的實施方案以及使用單眼slam或sfm時比例模糊的問題。圖2a示出了自上而下的場景圖,該場景包括大型車o1(例如,用于駕駛的真實汽車)、四個相機w1、f1、w2和f2(分別對應(yīng)第一相機、第二相機、第三相機和第四相機)、和用戶u1。圖2a還以四幅小圖示出了分別由四個相機w1、f1、w2和f2拍攝的圖像i(w1)、i(f1)、i(w2)和i(f2)。圖2b示出了自上而下的場景圖,該場景包括小型車o2(例如,孩童型玩具車)、四個相機w3、f3、w4和f4(分別對應(yīng)第一相機、第二相機、第三相機和第四相機)、和用戶u1。圖2b還以四幅小圖示出了分別由四個相機w3、f3、w4和f4拍攝的圖像i(w3)、i(f3)、i(w4)和i(f4)。
假設(shè),盡管大型車o1和小型車o2的大小明顯不同,圖像i(w1)和i(w3)以及圖像i(w2)和i(w4)基本完全相同。這是因為相機w3和w4的位姿以與o2相對于o1按比例縮放相同的方式而相對于w1和w2按比例縮放。這顯示了比例模糊的問題。僅僅根據(jù)一張或多張圖像確定汽車的絕對大小是不可能的,因此,根據(jù)圖像i(w1)、i(w2)、i(w3)或i(w4)來區(qū)別大型車o1和小型車o2是不可能的。因此,如果汽車的大小未知,根據(jù)圖像來確定w1和w2或者w3和w4的相機位置之間處于絕對比例的距離也是不可能的。然而,如果w1和w2的相機位置之間的絕對距離已知,例如,為1米,確定汽車的絕對大小也是不可能的。確定實際物體的絕對大小在許多應(yīng)用程序中將是有益的。因此,根據(jù)本發(fā)明,確定實際物體的絕對大小并以絕對比例將其進(jìn)行重構(gòu)是有利的。
除了汽車以外,用戶u1(即,人)也位于圖2a和圖2b所示的場景中。根據(jù)本發(fā)明的實施方案,我們捕獲到了用戶u1的包括其臉部的圖像i(f1)、i(f2)以及i(f3)、i(f4)。在一個實施方案中,f1和w1、f2和w2、f3和w3的相機位姿之間、以及f4和w4之間的空間變換已知,并且可能相同,如果圖像由兩個剛性連接的相機進(jìn)行捕獲,即w1、w2、w3和w4是處于不同時間點上的相同物理相機,f1、f2、f3和f4是處于不同時間點上的相同物理相機。在另一實施方案中,w1、w2、w3和w4是不同相機,f1、f2、f3和f4是不同相機。
由于用戶u1在圖2a和圖2b中的大小沒有改變,對應(yīng)的圖像i(f1)和i(f2)分別不同于圖像i(f3)和i(f4)。i(f1)與i(f2)之間的臉部位置比i(f3)與i(f4)之間的臉部位置差別更大,這表示,相機w1與w2之間的運動比w3與w4之間的運動更大。現(xiàn)在假設(shè),用戶臉部的至少一個臉部基準(zhǔn)點的至少一個空間特性按絕對比例給出,例如,已知瞳孔間距為63毫米(已知通用臉部模型的眼睛距離為63mm)。假設(shè)該基準(zhǔn)點(例如,眼睛中心位置)可通過臉部或眼睛檢測算法的方式自動在圖像i(f1)和i(f2)中進(jìn)行定位。也可使用其它臉部點,諸如以下一項或多項:位置(角落位置、中心位置、或邊界區(qū))、大小、形狀、輪廓、區(qū)域、比例、比率、左眼與右眼之間的距離以及左眼和右眼外觀(瞳孔、虹膜、角膜、鞏膜、內(nèi)眥、外眥、中心、上下眼瞼、睫毛,......)、鼻梁、鼻子(鼻尖、鼻背、鼻翼、鼻孔鼻小柱,......)、人中、嘴唇、左右耳、左右眼眉、牙齒、左右臉頰、下頜、脖子、喉結(jié)。然后可根據(jù)圖像i(f1)和i(f2)中臉部基準(zhǔn)點的位置以絕對比例確定相機f1的位置與相機f2的位置之間的距離,這是因為這些基準(zhǔn)點具有處于絕對比例的已知空間特性。在相機w1與f1之間的空間變換以及w2與f2之間的空間變換已知的情況下,也可以絕對比例計算相機w1的位置與相機w2的位置之間的距離。這一點同樣適用于w3、f3、w4和f4。
相機圖像i(w1)和i(w2)和拍攝這些圖像的相機w1與w2之間的已知距離一起最終能夠以絕對比例重構(gòu)物體o1,或者確定比例因子。將o1的處于任意比例的現(xiàn)有重構(gòu)件映射成絕對比例,即映射成與實際空間度量單位(諸如,米或英寸)具有已知關(guān)系的坐標(biāo)系。
作為結(jié)果,o1的重構(gòu)件在比例上不同于o2的重構(gòu)件,這實現(xiàn)了對o1和o2的區(qū)分。
圖3示出了本發(fā)明的另一實施方案。示出了處于不同時間點上的自上而下的場景圖,附圖上部示出了第一時間點的場景,附圖下部示出了第二時間點的場景。附圖左部分的小圖示出了相應(yīng)相機所捕獲的圖像。相機w5用于捕獲汽車o1的圖像i(w5),同時相對于相機w5具有已知空間變換的相機f5捕獲用戶u1和其臉部的圖像i(f5)。然后兩個相機朝用戶遠(yuǎn)離汽車,從而形成相機位姿f6和w6以及對應(yīng)的圖像i(f6)和i(w6)。同樣地,僅僅給出相機圖像i(w5)和i(w6)不可能確定汽車的絕對大小,即,汽車在實際中的大小。我們假設(shè)相機f5、w5、f6、w6的固有參數(shù)(尤其是焦距)已知。我們進(jìn)一步假設(shè),在用于眼睛檢測或臉部檢測的特定臉部模型或通用臉部模型中,用戶u1的具有絕對單位(例如,厘米)瞳孔間距p已知。而且,用戶瞳孔之間的距離(p5和p6)可以在像素坐標(biāo)中的圖像(f5)和i(f6)中進(jìn)行確定。在相機f5的成像平面到(左眼和右眼)兩個瞳孔的距離相同的特殊情況下,距離p5與f5的固有相機參數(shù)一起足以計算出瞳孔間的點與f5相機中心之間處于絕對比例的距離d5,即,具有絕對實際單位的距離,諸如米,因為d5=(f*p)/p5,其中f是以像素為單位的相機f5的焦距(如果臉部以相機的主點為中心,則采用該公式)。類似地,當(dāng)相機f6的成像平面到(左眼和右眼)兩個瞳孔的距離相同,可根據(jù)f6的焦距、圖像i(f6)中的瞳孔距離p6、以及用戶u1處于絕對比例的瞳孔間距p來確定用戶u1與相機f6之間的距離d6。如果在該場景中用戶u1相對于汽車o1沒有移動,則距離d5與d6之差可用于確定相機w5的位置與相機w6的位置之間處于絕對比例的距離。這實現(xiàn)了在考慮相機圖像i(w5)和i(w6)的情況下對汽車o1的絕對比例的確定。
圖4示出了所涉及的坐標(biāo)系和變換過程的實施方案。用相對于實際距離已知的比例因子(諸如,米)以絕對單位來定義物體坐標(biāo)系o。坐標(biāo)系w與面朝世界的相機(諸如w1、w2等)相關(guān),坐標(biāo)系f與面朝用戶的相機(諸如f1、f2等)相關(guān)。當(dāng)對面朝世界的相機的圖像進(jìn)行sfm或slam時,則相機的坐標(biāo)系w以任意比例進(jìn)行定義,如上所述。假設(shè)w與f之間的變換(即,(處于絕對比例的)旋轉(zhuǎn)r和平移t)已知。該變換可以是靜止的以及下線后經(jīng)過校準(zhǔn)的(即,在用于場景中之前),例如,如果兩個相機是移動手機或平板計算機的面朝用戶的相機和面朝世界的相機,坐標(biāo)系f以絕對比例進(jìn)行定義,這是因為其位姿是通過用戶臉部坐標(biāo)系u中的臉部特征進(jìn)行估算,其以絕對比例進(jìn)行定義,并且臉部特征也是以絕對比例進(jìn)行定義。本發(fā)明的理念之一就是現(xiàn)在利用以下事實:f可以絕對比例進(jìn)行定義,f與w之間的剛體變換已知。作為結(jié)果,在本實施方案中,同樣地w可以絕對比例進(jìn)行定義,這一點在沒有坐標(biāo)系f和u的情況下,即在沒有面朝用戶的相機以及用戶臉部的情況下,是不可能的。
圖5示出了捕獲裝置的實施方案,捕獲裝置包括處于不同位姿上的面朝用戶的相機和面朝世界的剛性附接相機。面朝世界的相機和面朝用戶的相機可以是至少兩個不同的相機或單個相機,例如,捕獲視野為360°的全方位相機。在此情況下,相應(yīng)相機的相機圖像可定義為整體圖像的不同兩部分。對于單個相機,位姿f和w可相同。
位姿f8和w8處所用的相機可以與不同時間點上的位姿ff7和w7處所用的相機相同,或者它們可以是同時或在不同時間點上使用的不同相機。面朝用戶的相機的圖像實現(xiàn)了對相機位置f7與f8之間處于絕對比例的空間距離信息(標(biāo)量值)的確定、以及對相機w7的位置與相機w8的位置之間處于絕對比例的空間距離d推斷信息(也是標(biāo)量值)的確定,這是因為f7與w7之間的變換以及f8與w8之間的變換已知。
圖6示出了本發(fā)明的用手持設(shè)備h9來實施的示例性實施方案,諸如移動手機、智能手機、平板手機、或平板計算機,包括可捕獲用戶臉部u9的面朝用戶的相機f9以及可捕獲實物o9的面朝世界的相機w9。此外,手持設(shè)備h9可具有處理設(shè)備p9和無線網(wǎng)絡(luò)單元。本文所公開的任何實施方案的任何步驟可以由處理設(shè)備p9在手持設(shè)備h9中進(jìn)行本地執(zhí)行,或者通過無線網(wǎng)絡(luò)單元發(fā)送至遠(yuǎn)端服務(wù)器計算機s9或另一移動設(shè)備。手持設(shè)備的面朝用戶的相機、面朝世界的相機、和顯示屏之間可具有已知的空間關(guān)系。
根據(jù)一個實施方案,本文所述的處理系統(tǒng)可至少部分包括在手持設(shè)備h9中,并且/或者經(jīng)適配與手持設(shè)備h9進(jìn)行(例如,無線)通信的服務(wù)器計算機s9中。處理系統(tǒng)可僅僅包括在這些裝置中的一者中,例如,手持設(shè)備h9中或服務(wù)器計算機s9中,或者可以是分布式系統(tǒng),其中一個或多個處理任務(wù)(執(zhí)行一個或多個方法步驟)由一個或多個處理設(shè)備(諸如,微處理器)進(jìn)行下發(fā)和處理,一個或多個處理設(shè)備在空間上分散,彼此進(jìn)行通信。
有了此類系統(tǒng)裝置,用戶u9可通過以下方式重構(gòu)實物o9,在此實施例中,實物為處于絕對比例的椅子:將手持設(shè)備h9移動到至少兩個不同的視角下,同時頭部u9相對于實物o9不移動。這實現(xiàn)了,將o9重構(gòu)件用作相機位姿估算的參考項時,對處于絕對比例的u9的位姿的確定。這同樣地實現(xiàn)了:以絕對比例(見圖像i92)而不是以錯誤的任意比例(見圖像i93)將虛物(例如,虛擬枕頭)疊加在面朝世界的相機w9的相機圖像i91上。這使增強物更加真實,在圖像i92中具有與實際一致的比例,而在圖像i93中虛擬枕頭相對于真實椅子太小。
圖7示出了根據(jù)本發(fā)明的實施方案的指導(dǎo)用戶進(jìn)行比例估算的圖形用戶界面的實施例。在此實施方案中,該方法在移動手機d2中進(jìn)行,移動手機d2包括顯示設(shè)備d1(在此情況下為觸摸屏)、面朝用戶的相機f10以及在附圖中不可見的在手機背部的面朝世界的相機。在此實施方案中,面朝世界的相機反復(fù)捕獲放在移動手機d2后方的實物(汽車)的圖像。這些圖像在顯示設(shè)備d1上顯示。在初始狀態(tài)s11下,用戶可通過觸摸顯示屏上的按鈕g1來開啟比例估算過程。此后面朝用戶的相機f10用于確定面朝用戶的相機相對于用戶臉部處于絕對比例的位姿。此外,此后面朝世界的相機用于確定面朝世界的相機相對于實物(汽車)處于任意比例的位姿。然后,在階段s12,按鈕外觀發(fā)生改變,提示其去激活(見空的按鈕g2)。另外的圖形用戶界面元件g3和g4出現(xiàn),為相機運動提供指令以執(zhí)行該過程并且將該過程的進(jìn)度可視化。此外,可將標(biāo)簽g5顯示在顯示設(shè)備上,提供文本指令或信息。當(dāng)用戶將手機(以及由此面朝世界的相機)移動至狀態(tài)s13之后,進(jìn)度指示器g6相應(yīng)地進(jìn)行調(diào)整并顯示已經(jīng)取得了進(jìn)展。一旦相機運動足夠大以進(jìn)行比例估算(s14),進(jìn)度指示器g7顯示已經(jīng)實現(xiàn)目標(biāo)。此外,標(biāo)簽g8可通知用戶校準(zhǔn)成功或失敗。此時,面朝用戶的相機以及面朝世界的相機可停止捕獲和/或追蹤。此外,應(yīng)用程序可再次處于初始狀態(tài)s11,除了現(xiàn)在可估算實物(汽車)的絕對比例,并且面朝世界的相機可確定面朝世界的相機相對于實物(汽車)處于絕對比例的位姿。通過再次觸摸按鈕g1,用戶可觸發(fā)另一比例估算流程。
圖8示出了第一相機與第二相機之間的空間變換的影響。第一相機和第三相機可以由相同的物理相機來實施(例如,面朝世界的相機,例如,移動手機的面朝世界的相機),第二相機和第四相機可以由相同的物理相機來實施(例如,面朝用戶的相機,例如,移動手機的面朝用戶的相機)。經(jīng)發(fā)現(xiàn),這兩個相機(例如,面朝世界的相機和面朝用戶的相機)一起可形成雙相機,其中兩個相機之間的相機視錐不重疊。
圖8a、8b和8c的實施方案示出了此類雙相機的三種不同裝置,其不同在于第一相機與第二相機之間(以及由此第三相機與第四相機之間)的空間平移長度。每幅子圖包含了自上而下的場景圖,場景包括四個相機,其中每幅子圖顯示了處于兩個位姿下的雙相機,其中在所有子圖中第一相機和第三相機具有相同的位姿。相機的原點以or1、or2、or3和or4示出。在每幅自上而下的視圖中,標(biāo)出了相機原點or1與or3(上面)之間的絕對空間距離以及相機原點or2和or4(下面)之間的絕對空間距離。相機原點之間的絕對空間距離值得注意,這是因為其包含絕對比例信息。
第一相機(指數(shù)“1”)與第三相機(指數(shù)“3”)之間的旋轉(zhuǎn)運動引起第二相機(指數(shù)“2”)與第四相機(指數(shù)“4”)之間的平移運動,這取決于第一相機與第二相機之間發(fā)生空間平移的長度并引起以下差異:or1與or3之間的絕對空間距離長度與or2與or4之間的絕對空間距離長度相比的差異。
在圖8a中,其中第一相機與第二相機之間的空間平移長度為零,相機原點or1與or3(上面)之間的絕對空間距離以及相機原點or2與or4(下面)之間的絕對空間距離相同。
在圖8b中,其中第一相機與第二相機之間的空間平移長度與第二相機與第四相機之間的平移運動長度相比相當(dāng)小,相機原點or1與or3(上面)之間的絕對空間距離以及相機原點or2與or4(下面)之間的絕對空間距離相似但并不完全相同,并且當(dāng)可以引入很小的誤差時可視為相等。
在圖8c中,其中第一相機與第二相機之間的空間平移長度與第二相機與第四相機之間的平移運動長度相比并不小,相機原點or1與or3(上面)之間的絕對空間距離以及相機原點or2與or4(下面)之間的絕對空間距離相當(dāng)不同,并且在不可以引入很大誤差的情況下不可視為相等。
根據(jù)所提供的第一相機與第二相機(參見上述步驟e))之間的第一空間變換,確定第一相機的至少一部分相對于位姿p2f的位姿(p1f)(參見步驟h))。同樣地根據(jù)所提供的第三相機與第四相機(參見步驟e))之間的第二空間變換,確定第三相機的至少一部分相對于位姿p4f的位姿(p3f)(參見步驟h))。
根據(jù)第二相機的位姿、第一相機與第二相機之間的空間變換t1、第四相機的位姿、和第三相機與第四相機之間的空間變換t2,確定第一相機的位姿與第三相機的位姿之間的絕對空間距離,其中t1和t2可以相同。此變換可能是6d剛體變換,可包括坐標(biāo)系中第一相機與第二相機之間處于絕對比例的相對空間位置和取向的校準(zhǔn)過程。這可以通過諸如參考文獻(xiàn)[11]所公開的方法進(jìn)行確定。在此情況下,考慮了由相機1與相機3之間的旋轉(zhuǎn)運動而引起的相機2與相機4之間的平移運動,第一相機(相機1)的位姿與第三相機(相機3)的位姿之間的絕對空間距離的計算過程是精確的。
根據(jù)另一實施方案(參見上文所述的本發(fā)明的第二方面),該方法將相機f(第二相機)與相機w(第一相機)之間的空間距離視作零。由此,忽略由第二相機的位姿與第四相機的位姿之間的運動而引起的第三相機的位姿與第一相機的位姿之間的平移運動。對于第一相機計算位姿與第三相機計算位姿的平移部分,所引起的誤差小于或等于第一相機與第二相機之間的實際距離。對于or2與or4之間的絕對空間距離,所引起的誤差小于或等于第一相機與第二相機之間的實際距離的兩倍。所引起的誤差也取決于第二相機的位姿與第四相機的位姿之間的旋轉(zhuǎn)量。180°旋轉(zhuǎn)引起更高的誤差。第二相機的位姿與第四相機的位姿之間僅僅發(fā)生基本平移的運動,即,僅僅具有可忽略的旋轉(zhuǎn)部分,這只會引起可忽略的誤差。
這表示,對于第一相機與第二相機之間的距離跟第二相機與第四相機之間的平移運動相比較小的相機裝置而言,第一相機與第二相機之前的空間變換的平移部分可視作恒等變換。這也表示,對于僅僅具有(對于第一相機與第二相機)與第二相機與第四相機之間的平移運動相比可忽略的旋轉(zhuǎn)部分的相機運動而言,第一相機與第二相機之前的空間變換的平移部分可視作恒等變換。
圖9示出了本發(fā)明的另一實施方案,其中第一相機的至少一部分(面朝世界的相機)的位姿用作3d重構(gòu)方法的輸入,使得該方法可以絕對比例重構(gòu)物體o9??赏ㄟ^臉部追蹤算法以絕對比例來確定兩個(例如)面朝用戶的相機c2(第二相機)和c4(第四相機)相對于用戶臉部u的坐標(biāo)系的位姿p2f和p4f。給出相機c1(第一相機)與c2(第二相機)之間的空間變換t1以及相機c3(第三相機)和c4(第四相機)之間的空間變換t2,可通過級聯(lián)法在用戶臉部u的坐標(biāo)系中以絕對比例來確定(例如)面朝世界的相機c1的位姿p1f以及(例如)面朝用戶的相機c3的位姿p3f。本實施方案然后利用共同坐標(biāo)系中以絕對比例確定的兩個面朝世界的相機c1和c3的位姿,以通過以下方式以絕對比例創(chuàng)建實物o9的3d重構(gòu)件:建立相機c1和c3的相機圖像的對應(yīng)關(guān)系以及對其深度進(jìn)行三角測量。在本實施方案中,3d重構(gòu)方法并不估算相機位姿,而是使用所提供的處于絕對比例的相機位姿。
在另一實施方案中,3d重構(gòu)方法估算場景的3d結(jié)構(gòu)和相機位姿,相機位姿的解空間僅限于平移距離等于兩個相機位姿c1與c3之間的已知平移距離的位姿對,該已知平移距離是上述過程的結(jié)果。
圖10示出了本發(fā)明的另一實施方案,其中確定了以任意比例定義的第一坐標(biāo)系與以絕對比例定義的第二坐標(biāo)系之間的比例因子。在本實施方案中,可通過臉部追蹤算法以絕對比例來確定兩個面朝用戶的相機c2和c4相對于用戶臉部u的坐標(biāo)系的位姿p2f和p4f。給出c1與c2之間的空間變換t1以及c3和c4之間的空間變換t2,可通過級聯(lián)法在用戶臉部u的坐標(biāo)系中以絕對比例來確定面朝世界的相機c1的位姿p1f以及面朝用戶的相機c3的位姿p3f。根據(jù)這些,相機c1相對于p1f的位置與相機c3相對于p3f的位置之間的平移距離可以絕對比例確定為d_abs。面朝世界的相機c1和c3的相機圖像可用于:根據(jù)實物o10的處于任意比例的3d重構(gòu)件,以任意比例確定與實物o10相關(guān)的坐標(biāo)系oa中相機c1的位姿p1w,以及以任意比例確定與實物o10相關(guān)的坐標(biāo)系中相機c3的位姿p3w。根據(jù)這兩個位姿,相機c1相對于p1w的位置與相機c3相對于p3w的位置之間的平移距離可以實物o10的任意重構(gòu)比例確定為d_arb。最后,根據(jù)以絕對比例進(jìn)行的臉部追蹤所確定的相機位姿,將實物重構(gòu)件的坐標(biāo)系中相機c1的位置與相機c3的位置之間的平移距離以任意比例確定為d_arb、以及將相機c1與c3之間的平移距離以絕對比例確定為d_abs之后,可以將實物重構(gòu)件的坐標(biāo)系的任意比例與絕對比例之間的比例因子確定為d_abs/d_arb。比例因子可用于按比例縮放實物o10的3d重構(gòu)件的坐標(biāo),使得其在按比例縮放后以決定比例進(jìn)行定義。
在另一實施方案中,假設(shè)空間變換t1和t2具有非常小的處理為零的平移部分,因此,計算兩個面朝用戶的相機c2與c4之間相對于用戶坐標(biāo)系的處于絕對比例的平移距離d_abs,而非計算面朝世界的相機c1與c3相對于用戶坐標(biāo)系的位姿之間處于絕對比例的d_abs。
圖11示出了本發(fā)明的另一實施方案,并且根據(jù)本發(fā)明的實施方案示出了如何將四幅以上圖像中的輸入數(shù)據(jù)合并成估算出來的最終比例因子。
根據(jù)本發(fā)明的實施方案,方框1101對應(yīng)于根據(jù)所提供的四幅圖像i(c1)、i(c2)、i(c3)、i(c4)以及所提供的兩次變換t1和t2所進(jìn)行的比例因子的一次單獨估算過程。
圖像i(c1)是c1第一相機所捕獲的圖像,示出了第一實物的一部分。圖像i(c2)是c2第二相機所捕獲的圖像,示出了第二實物的一部分。t1是相機c1的位姿與相機c2的位姿之間的已知變換。根據(jù)示出了第一實物的一部分的圖像i(c1),確定處于任意比例的第一共同坐標(biāo)系中相機c1的位姿p1w。根據(jù)示出了第二實物的一部分的圖像i(c2),確定處于任意比例的第二共同坐標(biāo)系中相機c2的位姿p2f。通過所提供的變換t1由位姿p2f的變換來確定第二共同坐標(biāo)系中相機c1的位姿p1f。該變換是任選的,即可以將t1的平移部分視作恒等變換(即,平移部分為零或可以忽略),從而使p1f的平移部分等于p2f的平移部分。
圖像i(c3)是c3第三相機所捕獲的圖像,示出了第一實物的一部分。圖像i(c4)是c4第四相機所捕獲的圖像,示出了第二實物的一部分。t2是相機c3的位姿與相機c4的位姿之間的已知變換。根據(jù)示出了第一實物的一部分的圖像i(c3),確定處于任意比例的第一共同坐標(biāo)系中相機c3的位姿p3w。根據(jù)示出了第二實物的一部分的圖像i(c4),確定處于任意比例的第二共同坐標(biāo)系中相機c4的位姿p4f。通過所提供的變換t2由位姿p4f的變換來確定第二共同坐標(biāo)系中相機c3的位姿p3f。該變換是任選的,即也可以將t2的平移部分視作恒等變換(即,平移部分為零或可以忽略),從而使p3f的平移部分等于p4f的平移部分。
根據(jù)第一共同坐標(biāo)系中第一相機c1的位姿p1w的平移部分、第二共同坐標(biāo)系中第一相機c1的位姿p1f的平移部分、第一共同坐標(biāo)系中第三相機c3的位姿p3w的平移部分、以及第二共同坐標(biāo)系中第三相機c3的位姿p3f的平移部分,可確定將第一共同坐標(biāo)系從任意比例按比例縮放至絕對比例的比例因子s1。
根據(jù)本發(fā)明的實施方案,方框1102對應(yīng)于根據(jù)所提供的四幅圖像i(c5)、i(c6)、i(c7)、i(c8)以及所提供的兩次變換t3和t4所進(jìn)行的比例因子的另一單獨估算過程。由此圖像可以是不同的圖像或部分相同的圖像,如方框1101所用。例如,i(c5)和i(c6)可分別與i(c3)和i(c4)相同。在另一實施例中,i(c7)和i(c8)可分別與i(c3)和i(c4)相同。
圖像i(c5)是相機c5所捕獲的圖像,示出了第一實物的一部分。圖像i(c6)是相機c6所捕獲的圖像,示出了第二實物的一部分。t3是相機c5的位姿與相機c6的位姿之間的已知變換。根據(jù)示出了第一實物的一部分的圖像i(c5),確定處于任意比例的第一共同坐標(biāo)系中相機c5的位姿p5w。根據(jù)示出了第二實物的一部分的圖像i(c6),確定處于任意比例的第二共同坐標(biāo)系中相機c6的位姿p6f。通過所提供的變換t3由位姿p6f的變換來確定第二共同坐標(biāo)系中相機c5的位姿p5f。該變換是任選的,即也可以將t3的平移部分視作恒等變換,從而使p5f的平移部分等于p6f的平移部分。
圖像i(c7)是相機c3所捕獲的圖像,示出了第一實物的一部分。圖像i(c8)是相機c8所捕獲的圖像,示出了第二實物的一部分。t4是相機c7的位姿與相機c8的位姿之間的已知變換。根據(jù)示出了第一實物的一部分的圖像i(c7),確定處于任意比例的第一共同坐標(biāo)系中相機c7的位姿p7w。根據(jù)示出了第二實物的一部分的圖像i(c8),確定處于任意比例的第二共同坐標(biāo)系中相機c8的位姿p8f。通過所提供的變換t4由位姿p8f的變換來確定第二共同坐標(biāo)系中相機c7的位姿p7f。該變換是任選的,即也可以將t4的平移部分視作恒等變換,從而使p7f的平移部分等于p8f的平移部分。
根據(jù)第一共同坐標(biāo)系中相機c5的位姿p5w、第二共同坐標(biāo)系中相機c5的位姿p5f、第一共同坐標(biāo)系中相機c7的位姿p7w、以及第二共同坐標(biāo)系中相機c7的位姿p7f,可確定將第一共同坐標(biāo)系從任意比例按比例縮放至絕對比例的比例因子s2。
最后可通過如下方式將單獨的比例估算值s1和s2合并成最終的比例估算值s:通過(例如)像平均數(shù)、平均值、中值、概率最大化或ransc等一個或多個方法進(jìn)行數(shù)學(xué)模型擬合。
上述示例包括兩個單獨的比例估算值s1和s2,并且將其合并成最終的比例估算值。當(dāng)然,類似地可進(jìn)行兩次以上單獨的計算過程,例如,3、4、5或100等,并合并全部估算值。
圖12示出了本發(fā)明的另一實施方案,并且根據(jù)本發(fā)明的實施方案示出了如何將四幅以上圖像中的輸入數(shù)據(jù)合并成估算出來的最終比例因子。
根據(jù)本發(fā)明的實施方案,該實施例是基于所提供的六幅圖像i(c1)、i(c2)、i(c3)、i(c4)、i(c5)、i(c6)以及所提供的三次變換t1、t2和t3。
圖像i(c1)是c1第一相機所捕獲的圖像,示出了第一實物的一部分。圖像i(c2)是c2第二相機所捕獲的圖像,示出了第二實物的一部分。t1是相機c1的位姿與相機c2的位姿之間的已知變換。根據(jù)示出了第一實物的一部分的圖像i(c1),確定處于任意比例的第一共同坐標(biāo)系中相機c1的位姿p1w。根據(jù)示出了第二實物的一部分的圖像i(c2),確定處于任意比例的第二共同坐標(biāo)系中相機c2的位姿p2f。通過所提供的變換t1由位姿p2f的變換來確定第二共同坐標(biāo)系中相機c1的位姿p1f。該變換是任選的,即也可以將t1的平移部分視作恒等變換,從而使p1f的平移部分等于p2f的平移部分。
圖像i(c3)是c3第三相機所捕獲的圖像,示出了第一實物的一部分。圖像i(c4)是c4第四相機所捕獲的圖像,示出了第二實物的一部分。t2是相機c3的位姿與相機c4的位姿之間的已知變換。根據(jù)示出了第一實物的一部分的圖像i(c3),確定處于任意比例的第一共同坐標(biāo)系中相機c3的位姿p3w。根據(jù)示出了第二實物的一部分的圖像i(c4),確定處于任意比例的第二共同坐標(biāo)系中相機c4的位姿p4f。通過所提供的變換t2由位姿p4f的變換來確定第二共同坐標(biāo)系中相機c3的位姿p3f。該變換是任選的,即也可以將t2的平移部分視作恒等變換,從而使p3f的平移部分等于p4f的平移部分。
圖像i(c5)是相機c5所捕獲的圖像,示出了第一實物的一部分。圖像i(c6)是相機c6所捕獲的圖像,示出了第二實物的一部分。t3是相機c5的位姿與相機c6的位姿之間的已知變換。根據(jù)示出了第一實物的一部分的圖像i(c5),確定處于任意比例的第一共同坐標(biāo)系中相機c5的位姿p5w。根據(jù)示出了第二物體的一部分的圖像i(c6),確定處于任意比例的第二共同坐標(biāo)系中相機c6的位姿p6f。通過所提供的變換t3由位姿p6f的變換來確定第二共同坐標(biāo)系中相機c5的位姿p5f。該變換是任選的,即也可以將t3的平移部分視作恒等變換,從而使p5f的平移部分等于p6f的平移部分。
根據(jù)位姿p1w、p3w和p5w,即第一共同坐標(biāo)系中相機c1、c3和c5的位姿、以及位姿p1f、p3f和p5f,即第二共同坐標(biāo)系中相機c1、c3和c5的位姿,將第一共同坐標(biāo)系從任意比例按比例縮放至絕對比例的比例因子s可通過以下方式進(jìn)行確定:通過(例如)一種或多種方法,像迭代最近點(icp)、umeyama方法、或kabsch方法、或其它最小二乘法和/或ransac模型擬合、基于點集的配準(zhǔn)法,進(jìn)行數(shù)學(xué)模型擬合。
圖12示出了使用3個相機捕獲第一物體,3個相機捕獲第二物體。當(dāng)然也可以利用第一共同坐標(biāo)系中甚至3個以上的相機位姿以及第二共同坐標(biāo)系中相應(yīng)相機所對應(yīng)的3個位姿,例如,第一和第二共同坐標(biāo)系中4個、5個、6個或100個等位姿對。
下面進(jìn)一步公開了本發(fā)明的其它實施方案而沒有明確地參考繪圖或附圖。
根據(jù)其它實施方案,方法假設(shè),在捕獲有利于進(jìn)行比例估算的圖像的同時,用戶臉部相對于待追蹤或待重構(gòu)實物是靜止定位的。
根據(jù)其它實施方案,方法檢測到用戶臉部相對于實物靜止定位的時候,然后比例估算時僅僅使用當(dāng)用戶臉部相對于實物靜止定位時所捕獲的圖像。這可以(例如)通過以下方式完成:將面朝用戶的相機的兩個位姿的對極幾何圖與面朝世界的相機中的特征移動進(jìn)行比較或反過來。確定頭部是否相對于第一實物移動的另一方案是基于一組面朝用戶的相機和面朝世界的相機的對應(yīng)位姿。這些位姿可轉(zhuǎn)化為表示相機位置的3d點。用以確定二組點之間的相似變換的算法(例如)由umeyama[10]公開。配準(zhǔn)之后可計算剩余誤差。如果剩余誤差超過特定閾值,兩組對應(yīng)的位姿則視作與剛體變換無關(guān)。這表示頭部(即,臉部)已經(jīng)相對于第一實物發(fā)生移動。
根據(jù)另外的實施方案,方法通過以下方式處理并補償臉部相對于第一實物的運動:通過視覺追蹤來估算頭部相對于實物的運動,以估算出面朝用戶的相機的相機圖像中臉部的運動以及面朝世界的相機的相機圖像中第一實物的運動。
根據(jù)另外的實施方案,方法通過以下方式處理并補償臉部相對于實物的運動:通過視覺追蹤來估算頭部相對于實物的運動,以分別估算出面朝世界的相機的相機圖像中臉部的運動和背景的運動。
根據(jù)另外的實施方案,通過相機f1和f2的位姿來計算相機w1與w2之間的絕對空間距離可包括:校準(zhǔn)處于絕對比例的坐標(biāo)系中坐標(biāo)系f與w之間的相對空間位置與取向,例如,通過諸如參考文獻(xiàn)[11]公開的方法。
根據(jù)另一實施方案,坐標(biāo)系f和w之間的變換為6dof(dof:自由度)剛體變換,包括3d旋轉(zhuǎn)和3d平移。
根據(jù)另外的實施方案,該方法提供并考慮了坐標(biāo)系f與w之間的空間距離。
根據(jù)另外的實施方案,方法將坐標(biāo)系f與w之間的空間距離視為零,從而忽略了由坐標(biāo)系(相機)w的旋轉(zhuǎn)而引起的坐標(biāo)系(相機)f的位姿的平移移動以及反之亦可,這導(dǎo)致,對應(yīng)于相機w1和w2的位姿,相機f1和f2的位姿出現(xiàn)小于或等于坐標(biāo)系(相機)f與(相機)w之間的實際距離的誤差。
根據(jù)另外的實施方案,方法將坐標(biāo)系f與w之間的取向差別視為180度,即相應(yīng)相機的光軸平行且相機面朝相反的方向。
根據(jù)一個實施方案,方法使用像參考文獻(xiàn)[15]公開的臉部基準(zhǔn)點追蹤器進(jìn)行臉部校正并確定臉部特征的2d位置以及圖像中的基準(zhǔn)點。
根據(jù)一個實施方案,方法使用臉部追蹤方法,傳送與臉部有關(guān)的面朝用戶相機的全6d位姿,像參考文獻(xiàn)[16]所公開,其中將統(tǒng)計型人體測量3d剛性模型用作人體頭部的近似體。隨后將所傳送的6d位姿以可能方式根據(jù)特定臉部特征(像,眼睛距離)的尺寸的其它規(guī)格進(jìn)行比例與平移修改。
根據(jù)一個實施方案,方法使用臉部追蹤方法,根據(jù)用戶特定臉部的預(yù)獲得、擬合或配置模型,傳送與處于絕對比例的臉部有關(guān)的面朝用戶相機的全6d位姿。
根據(jù)一個實施方案,方法使用臉部追蹤方法,傳送包含臉部相對于面朝用戶相機的取向的3d位姿(像參考文獻(xiàn)[17]所公開),并一起使用3d位姿與檢測到的臉部特征來推斷另外的位姿平移信息。對應(yīng)于臉部特征的兩個位置之間的視角可(例如)與這兩個位置之間補償頭部旋轉(zhuǎn)所需的實際距離一起使用,以彌補從相機到臉部的距離。不同位姿之間的距離變化可用于推斷相機移動的絕對比例信息。
根據(jù)一個實施方案,方法使用臉部追蹤方法,傳送包含臉部相對于面朝用戶相機的左右取向(即,偏轉(zhuǎn)取向)的1d位姿(像參考文獻(xiàn)[17]所公開),并一起使用該1d位姿與檢測到的臉部特征來推斷另外的位姿平移信息,假設(shè)這些臉部特征分布于臉部的水平線上,像眼睛中心。兩個眼睛中心之間的視角可以與補償頭部1d左右旋轉(zhuǎn)(偏轉(zhuǎn))所需的實際眼睛距離一起使用,以彌補從相機到臉部/眼睛的距離。不同位姿之間的距離變化可用于推斷相機移動的絕對比例信息。
根據(jù)另一實施方案,該方法假設(shè),相機f1和f2的位姿僅限于在臉部前方,其中在朝向或背離臉部(幾乎)只進(jìn)行平移時,f2的位姿不同于f1的位姿,使用檢測到的眼睛位置、眼睛之間的相關(guān)視角、以及所需的實際眼睛距離來彌補從相機到臉部/眼睛的距離,眼睛位置通過(例如)參考文獻(xiàn)[18]公開的方法在所捕獲的圖像中檢測出來。這也在圖3中示出。兩只眼睛之間的視角可通過相應(yīng)視向的給出了視角余弦的點積進(jìn)行計算。然后可如下計算到達(dá)臉部的距離:用一半的眼睛距離除以一半視角的切角。
相機f1與f2以及w1與w2的相應(yīng)位姿之間的距離變化分別可用于推斷相機w1和w2的坐標(biāo)系的絕對比例信息。
根據(jù)一個實施方案,至少對于一個臉部特征,以絕對空間單位提供了空間特性,例如,人體瞳孔間距,據(jù)此該特性可作為單個值或概率分布來給出。該特性可以單獨針對特定用戶進(jìn)行確定或多人通用。同樣地,可以針對不同的人群(性別、種族、年齡......)定義多個值/概率分布,有關(guān)群體可通過用戶手動輸入或其它自動標(biāo)記或分類程序(例如,如參考文獻(xiàn)[12]所公開的程序)進(jìn)行選擇。
根據(jù)一個實施方案,特定臉部可根據(jù)以下內(nèi)容自動進(jìn)行校準(zhǔn):
提供給第二相機(例如,面朝用戶相機)的絕對比例信息。絕對比例信息可(例如)通過第二實物的深度信息提供,第二實物的深度信息是通過以下方法獲得的深度:散焦、渡越時間、結(jié)構(gòu)光、主動照明法、亮度法、拍攝光、激光測距儀、多頻相移、干擾量度法或被動式立體法。跡線較小的立體法,和移動手機的情況一樣,可以更加可靠地作用于第二相機(例如,面朝用戶的相機),其中第二實物為靠近相機的臉部,通??拷潭炔怀^50cm,這與第一相機(例如,面朝世界的相機)的立體法相反,其中第一實物位于距離臉部較遠(yuǎn)的任意位置。這是因為,對于處于所捕獲物體的深度中的某深度“分辨率”,所需基線的大小取決于所捕獲的物體到相機的距離。
根據(jù)一個實施方案,特定臉部可手動進(jìn)行校準(zhǔn)或者使用通用模型。由此,統(tǒng)計模型也可用以確定比例估算時的不確定性,該不確定性指出了不同人體中臉部空間特性的不同程度。
瞳孔間距的手動校準(zhǔn)可,例如,通過鏡子或尺子來完成。面朝鏡子,保持頭部直立,居于鏡子前方,將尺子水平放置到臉部前方,盡可能近地放到眼睛下方,在鏡子中可看見測量標(biāo)記。在不移動頭部或尺子的情況下應(yīng)當(dāng)進(jìn)行以下測量:閉上一只眼睛,另一只眼睛打開,可讀取瞳孔中心下面尺子上的測量值。可以用另一只眼睛重復(fù)該過程(閉上之前打開的眼睛,并且打開之前閉上的眼睛)。兩個讀數(shù)之差即是瞳孔間距。以絕對比例進(jìn)行瞳孔間距或其它臉部特征的半自動校準(zhǔn)可(例如)通過以下方式進(jìn)行:使用雙相機設(shè)置,通過后置相機捕獲的圖像以絕對比例進(jìn)行相機位姿估算(例如,以絕對比例進(jìn)行的基于標(biāo)識物的追蹤、物體追蹤或slam)。同時,待校準(zhǔn)面部特征在面朝用戶的相機中進(jìn)行追蹤當(dāng)用戶臉部相對于用于后置相機進(jìn)行追蹤的實際物體而靜止定位時,絕對比例可通過采用相機位姿之間的已知變換而轉(zhuǎn)化為臉部特征。
根據(jù)如參考文獻(xiàn)[13]公開的統(tǒng)計數(shù)據(jù),通用模型可(例如)包含臉部特征的絕對空間特性的均值和概率分布,諸如,瞳孔間距。此類模型也可包括某數(shù)值的非確定性信息。通用模型也可包括多個測量值的多個(聯(lián)合)概率分布,使得絕對比例根據(jù)聯(lián)合概率分布中最大概率的參數(shù)空間中的位置進(jìn)行確定,聯(lián)合空間分布是根據(jù)所觀察到的臉部特征的特性。
根據(jù)一個實施方案,該方法合并不同來源(包括根據(jù)至少一個用戶臉部圖像所進(jìn)行至少一次絕對比例估算)以及以下任一者的絕對比例估算值:imu、gps、場景中的已知物體、散焦深度、手動輸入、被動式立體法、渡越時間、結(jié)構(gòu)光、主動式照明法、亮度法、投影縮減式深度估算、以前的物體重構(gòu)件的比例估算值的歷史數(shù)據(jù),比例估算值的歷史數(shù)據(jù)可能與物體分類組合以僅僅考慮以前物體的以前物體重構(gòu)件。
根據(jù)本發(fā)明的實施方案,比例估算可作為迭代過程通過多個位姿對來進(jìn)行,每個位姿對包括兩個時間點上的兩個位姿??蓹z測出不同測量值之間的不一致,并且比例的最佳一致值可通過以(例如)取平均值、取中值、取直方圖中最大值的方式合并不同的測量值,并且可能根據(jù)(例如)各個比例估算過程中的不確定性、年齡或測量值之間的不一致性進(jìn)行加權(quán)。合并不同測量值也可通過模型擬合法進(jìn)行,諸如,實施像卡爾曼濾波器一樣的貝葉斯濾波器以推斷出絕對比例。
同樣地,對于許多用例,可假設(shè)用戶臉部與面朝用戶相機之間的距離的變化有限,例如,其中用戶靠近裝置,這是因為用戶手持裝置,或因為用戶在顯示設(shè)備旁邊以體驗ar應(yīng)用程序,由此也接近面朝用戶相機。距離變化有限使情景更加穩(wěn)健地用于標(biāo)準(zhǔn)相機的比例估算過程。也實現(xiàn)了:采用面朝用戶的相機,僅僅估算小范圍內(nèi)的深度,不能估算較遠(yuǎn)物體的深度,諸如,隔壁房屋。
本發(fā)明的一個可能實施方案包括:與面朝用戶的深度相機的組合,該相機實現(xiàn)了通過用戶臉部外觀進(jìn)行比例估算,以依賴于更精確的關(guān)于實際臉部模型幾何結(jié)構(gòu)和決定空間尺寸的信息。這實現(xiàn)了更多細(xì)節(jié)的提取,并且提高了以下需求:依賴來自標(biāo)準(zhǔn)臉部基礎(chǔ)模型中的統(tǒng)計數(shù)據(jù),或擬合與扭曲某通用臉部模型,或配置用戶專用比例值。使用深度相機的另一優(yōu)點是:可以在非常黑暗或非常明亮的環(huán)境中或量度變化非常強烈和/或頻繁的環(huán)境中進(jìn)行臉部檢測與位姿估算。在此類環(huán)境中,標(biāo)準(zhǔn)動態(tài)范圍小的單眼相機最可能將無法檢測臉部并估算臉部的位姿。
本發(fā)明的另一可能實施方案包括第二相機和/或第四相機,第二相機和/或第四相機為深度相機(例如,面朝用戶的深度相機),深度相機實現(xiàn)了,采用基于深度信息的視覺視覺測程法,通過任何出現(xiàn)在深度相機視錐中的實物進(jìn)行比例估算。這形成了處于絕對比例的相機位姿,即使在沒有利用任何臉部特性的情況下。
在另一實施方案中,第二相機和/或第四相機(例如,面朝用戶的相機)為紅外相機,紅外相機非常適合于臉部檢測與追蹤,或者以下列波段中至少一者進(jìn)行成像:極紫外、近紫外、近紅外、中紅外、長波紅外、或遠(yuǎn)紅外。
在另一實施方案中,第二相機和/或第四相機(例如,面朝用戶的相機)由多個相機組成,諸如被動式立體相機或兩個或多個相機的任何其它組合,可能對不同波段的光譜進(jìn)行成像,諸如可見光、極紫外、近紫外、近紅外、中紅外、長波紅外、或遠(yuǎn)紅外。
根據(jù)一個實施方案,該方法可還包括:檢測第一用戶輸入。
根據(jù)一個實施方案,要求用戶用第二相機(例如,面朝用戶的相機)進(jìn)行某運動,例如,30cm的平移,這根據(jù)第二相機(例如,面朝用戶的相機)捕獲的圖像進(jìn)行測量。應(yīng)用程序可以在執(zhí)行該過程的時候?qū)⒃撨^程可視化,如圖7所示。
用戶交互可觸發(fā)絕對比例估算過程。用戶交互可以是按下按鈕、觸摸屏幕、語音識別和/或動作識別。
在另一實施方案中,該方法在不與用戶界面進(jìn)行任何交互的情況下執(zhí)行。在此實施方案中,該方法在后臺執(zhí)行并且在相機運動適合于進(jìn)行比例估算時確定比例估算值。
此外,本發(fā)明涉及一種在計算機上實施的用戶交互方法,如本文所述,使用戶與根據(jù)本發(fā)明的方法進(jìn)行交互。
用戶輸入可包括一次或多次用戶交互。用戶交互可以是以下一者:說話、奔跑、跳躍、眨眼睛、和/或移動用戶身體任何部位。用戶交互也可以是按下按鈕、觸摸屏幕、對麥克風(fēng)說話、注視、或打手勢。用戶交互也可以是:將實物放入相機的視野中,使得根據(jù)相機捕獲的實物的至少一部分的圖像可識別實物。
用戶輸入則也可以是在按住按鈕不放的同時可進(jìn)行的特定相機運動。此類特定運動可以是:面朝與背離臉部移動相機、或上下移動相機、或左右移動相機。
移動手機,如本文可用,包含至少一個相機,用于捕獲圖像。移動手機還包括處理設(shè)備,可如本文所述用于執(zhí)行根據(jù)本發(fā)明的多個步驟中的任意步驟。移動設(shè)備也包括觸摸屏,觸摸屏可顯示圖形用戶界面,使得用戶可觸摸或按下物理按鈕或圖形用戶界面上所顯示的按鈕。
本發(fā)明的實施方案在本文參考使用移動設(shè)備或手持設(shè)備的情況下進(jìn)行描述,諸如,移動手機,但是原則上,本發(fā)明可以與任何處理設(shè)備一起應(yīng)用,諸如在包括一個或多個微處理器的常用計算機設(shè)備中實施,用于執(zhí)行相應(yīng)步驟(諸如可佩帶式計算機、平板計算機、移動計算機、所謂的筆記本電腦、或頭戴式顯示器,諸如用于光學(xué)透視式增強現(xiàn)實應(yīng)用程序的計算機設(shè)備)。本文所述的這些步驟也可以由處理裝置網(wǎng)絡(luò)(諸如計算機網(wǎng)絡(luò))和/或與服務(wù)器計算機進(jìn)行通信的移動設(shè)備網(wǎng)絡(luò)來執(zhí)行。
本發(fā)明的實施方案可用于各種應(yīng)用程序中,包括:增強現(xiàn)實應(yīng)用程序,實現(xiàn)了在真實環(huán)境中放置與顯示虛物;導(dǎo)航應(yīng)用程序,使用相機來估算用戶的位置和/或運動;模擬所捕獲物體在空間上與其它物體或環(huán)境的關(guān)系的程序;或測量應(yīng)用程序,旨在測量處于絕對比例的重構(gòu)物體上的多個點之間的距離。
例如,本發(fā)明的實施方案可用于增強現(xiàn)實應(yīng)用程序中。處于絕對比例的實物的重構(gòu)件作為基礎(chǔ)條件,用于根據(jù)在相機圖像與實物重構(gòu)模型之間建立2d-3d對應(yīng)關(guān)系,確定相機相對于物體的位姿。此類增強現(xiàn)實應(yīng)用程序可以在實時視圖中疊加虛擬3d物體,諸如虛擬椅子,使得物體看上去相對于實物靜止。這需要掌握相對于實物的相機位姿(即位置和取向)。由于根據(jù)本發(fā)明的實施方案,實物的重構(gòu)件以絕對比例進(jìn)行的定義,同樣地位姿也可以絕對比例進(jìn)行估算,這實現(xiàn)了以絕對比例對虛物進(jìn)行疊加。由此,如果實物為桌子且虛物為椅子,則將虛擬椅子放到真實桌子旁邊時,虛擬椅子將以與真實桌子同等的大小出現(xiàn)。相反,當(dāng)使用處于任意比例的重構(gòu)件時,椅子可以是桌子高度的5倍或桌子高度的五分之一,這兩種情況都導(dǎo)致了不合實際的外觀。在應(yīng)當(dāng)為用戶提供機會以通過疊加虛擬模型來評估某物體是否在空間上適合真實環(huán)境的增強現(xiàn)實應(yīng)用程序中,具有處于絕對比例的實物或環(huán)境的重構(gòu)件尤為重要。例如,此類應(yīng)用可用于從視覺上評估沙發(fā)是否適合某起居室或其是否太大。在不了解如發(fā)明所提供的絕對比例的情況下,這是不可能的。
在另一實施例中,本發(fā)明的實施方案可用于測量應(yīng)用程序中。通過本發(fā)明的實施方案以絕對比例進(jìn)行實物重構(gòu)。軟件應(yīng)用程序則可為用戶提供以下選項:選擇重構(gòu)件上的點,例如,通過點擊設(shè)備(諸如,鼠標(biāo))點擊這些點的方式。應(yīng)用程序則可計算兩個所選點之間的(歐幾里德)距離并向用戶顯示該距離。如果此類應(yīng)用程序作用于處于絕對比例的重構(gòu)件,如本發(fā)明所提供,則計算出的距離也處于絕對比例,例如,毫米。反之,當(dāng)使用處于任意比例的重構(gòu)件時,重構(gòu)件上所測得的距離只可用于比較該物體上彼此的相對距離,但是所有測量值將與絕對單位無關(guān),諸如毫米或英寸。
在另一實施例中,本發(fā)明的實施方案可用于視覺型導(dǎo)航中,用于根據(jù)視覺視覺測程法估算用戶的運動,以定位用戶并提供反饋。為了更新相對于坐標(biāo)系的位置,其需要估算處于絕對比例的運動,在該坐標(biāo)系統(tǒng)存儲了地圖和導(dǎo)航信息。沒有絕對比例,則只能確定所覆蓋的軌跡,不能確定實際所覆蓋的真實距離信息。同樣地,由于比例的變化,一段時間后該形狀可嚴(yán)重變形。室內(nèi)導(dǎo)航由此需要測量值保持長期穩(wěn)健和一致。同樣地,速度也很重要,由于速度是指距離除以時間,其直接取決于重構(gòu)件的比例。沒有處于絕對比例的重構(gòu)件,通過運動估算所獲得的速度信息也不處于絕對比例。
即使相對于實際距離的絕對關(guān)系未知,其它應(yīng)用程序也可從可重復(fù)的重構(gòu)件比例中受益。該可重復(fù)性通過所提出的方法來實現(xiàn)。當(dāng)(例如)單獨為場景的若干部分創(chuàng)建重構(gòu)件時,需要各個圖以相同的比例進(jìn)行定義。這使合并場景的各個部分更加容易??芍貜?fù)比例也實現(xiàn)了:克服更長時間的重構(gòu)過程中可能發(fā)生的比例變化問題。
一般來說,下面給出了術(shù)語的進(jìn)一步解釋,以下其它方面和實施方案可結(jié)合本發(fā)明的多個方面進(jìn)行應(yīng)用。
如本文所用,相機是用于捕獲實物的圖像信息的圖像捕獲設(shè)備。可提供或校準(zhǔn)至少一個相機或多個相機的固有相機參數(shù)??稍谌缦虑闆r下應(yīng)用本發(fā)明:從提供實物圖像的任何相機接收圖像信息。并不限于用于提供rgb格式的彩色圖像的相機。也可適用于任何其它顏色格式并且也適用于單色圖像,例如,適用于提供灰度格式圖像的相機。所用的相機還可提供具有深度數(shù)據(jù)的圖像。無需在與(彩色/灰度)圖像相同的分辨率下提供深度數(shù)據(jù)。提供具有深度數(shù)據(jù)的圖像的相機通常被稱為rgb-d相機。rgb-d相機系統(tǒng)可以是渡越時間(tof)相機系統(tǒng)或使用結(jié)構(gòu)光的相機系統(tǒng)。至少一個相機或多個相機也可捕獲人眼不可見的光。例如,至少一個相機或多個相機可以是捕獲紅外線的紅外相機。
實物可以是在實際中具有物理幾何形狀的任何物體。實物還可包括一個或多個實物。例如,實物可以是房間或車輛的內(nèi)部。實物也可以使,例如,椅子,大樓、山峰、樹木或桌子。房間的內(nèi)部(作為實物)還可包括椅子和/或桌子。在本文,實物也可稱為真實環(huán)境或真實場景。實物也可以是多個實物的排列。例如,室內(nèi)物體可以是椅子、桌子和沙發(fā)的排列。
真實環(huán)境的幾何模型(3d圖形或也稱作3d重構(gòu)件)可通過2d觀察值的三角測量進(jìn)行創(chuàng)建,2d觀察值存在于一個或多個相機捕獲的多張圖像中。三角測量是3d重構(gòu)程序中常用的方法,其基于相機圖像,也稱作運動恢復(fù)結(jié)構(gòu)(sfm),見參考文獻(xiàn)[2]。
相機位姿說明了特定位置上的相機與參考坐標(biāo)系之間的空間關(guān)系或剛性變換。參考坐標(biāo)系可以與實物或與另一位置上的相機相關(guān)??臻g關(guān)系或剛體變換說明了至少一次平移、或至少一次旋轉(zhuǎn)、或它們在3d空間中的組合、或至少一個距離。
3d特征表示或說明了相應(yīng)實物或至少一部分相應(yīng)實物的物理3d特征。3d特征,例如,不限于:點、邊、線、段、角和/或任何其它幾何形狀。
為了說明物體的幾何結(jié)構(gòu),點的位置、其它幾何元素、和它們的像(例如)方向等其它特性在坐標(biāo)系中進(jìn)行唯一確定。特定元素(例如,位置)由有序數(shù)字或坐標(biāo)元組進(jìn)行定義。
我們在下面稱為笛卡爾坐標(biāo)系,記?。浩渌鴺?biāo)系中的幾何圖形的表示方式(像,例如,極坐標(biāo)或齊次坐標(biāo))可通過坐標(biāo)變換轉(zhuǎn)化為笛卡爾坐標(biāo)系,反之亦可,坐標(biāo)變換說明了坐標(biāo)系之間的關(guān)系并且為通過其它坐標(biāo)系中的對應(yīng)坐標(biāo)表示一個坐標(biāo)系中的特定坐標(biāo)系提供了公式。
在笛卡爾坐標(biāo)系中,坐標(biāo)元組的每個元素對應(yīng)于點到相應(yīng)超平面的符號距離。兩個坐標(biāo)元組之間的距離本身可定義為歐幾里德距離,說明了連接兩個坐標(biāo)元組的線段長度。該距離本身由此也作為1d坐標(biāo)給出。
應(yīng)當(dāng)定義沿著坐標(biāo)軸的單位的意思。該測量單位是數(shù)量,作為表示該特性(例如,長度)的現(xiàn)有數(shù)量的因子。當(dāng)定義了測量值的坐標(biāo)系單位與實際空間參考單位之間的關(guān)系已知時,我們對測量值(例如,定義測量值位置的空間坐標(biāo)、以及分別定義空間距離以及空間坐標(biāo)之間的長度的坐標(biāo))進(jìn)行表征,為其指定絕對空間單位,也稱為絕對空間比例。實際空間參考單位可以(例如)是米(米制)或任何其它具有轉(zhuǎn)化成米的固定已知轉(zhuǎn)化率的單位。
測量值可通過以下方式處于絕對比例下:設(shè)定坐標(biāo)系的空間基本單位,其中測量值直接以實際空間參考單位進(jìn)行定義;或者指定坐標(biāo)系相對于實際空間參考單位的空間比例。
不具有絕對空間單位但是處于處于任意比例的坐標(biāo)系中的測量值的示例(例如)通過重構(gòu)3d點給出,3d點重構(gòu)通過三角測量兩張圖像中對應(yīng)的點特征而進(jìn)行,兩張圖像在空間中的不同相機位姿處進(jìn)行捕獲,其中這兩個相機位姿之間的基線長度未知。盡管坐標(biāo)軸單位相同,但是單位本身并未確定。即,盡管坐標(biāo)系內(nèi)兩段距離之比是正確的,但是整個坐標(biāo)系相對于實際的絕對比例未知。坐標(biāo)系以及重構(gòu)件本身據(jù)此認(rèn)為是合乎比例的。絕對比例并不是指物體的絕對平移補償值,這取決于坐標(biāo)系的原點,但是是指絕對大小。
臉部特征和基座點可包括:位置(角落位置、中心位置、或邊界區(qū))、大小、形狀、輪廓、區(qū)域、比例、比率、左眼與右眼之間的距離以及左眼和右眼外觀(瞳孔、虹膜、角膜、鞏膜、內(nèi)眥、外眥、中心、上下眼瞼、睫毛,......)、鼻梁、鼻子(鼻尖、鼻背、鼻翼、鼻孔鼻小柱,......)(大小、形狀)、人中、嘴唇、左右耳、左右眼眉、牙齒、左右臉頰、下頜、脖子、喉結(jié)、皮膚結(jié)構(gòu)和堅固性(像毛孔)、面部和頭部毛發(fā)等。
視覺測程法是指通過分析相關(guān)相機圖像來確定相機位置與取向的方法。當(dāng)提供了與一張相機圖像中至少一個像素相關(guān)的具有絕對比例的深度信息(例如,成像表面上一個像素的距離,單位為毫米)時,則視覺測程法可確定處于絕對空間比例的相機位姿(即,位置和取向)。術(shù)語視覺測程法常常和slam互換使用。
參考文獻(xiàn):
1.davison,andrewj.等人“monoslam:real-timesinglecameraslam.”patternanalysisandmachineintelligence,ieeetransactionson29.6(2007):第1052頁-1067頁。
2.hartley,richard和andrewzissermanmultipleviewgeometryincomputervision.第2卷.cambridge,2000.
3.azuma,ronald等人“recentadvancesinaugmentedreality.”computergraphicsandapplications,ieee21.6(2001):第34-47頁。
4.strasdat,hauke,j.m.m.montiel,和andrewj.davison.“scaledrift-awarelargescalemonocularslam.”proceedingsofrobotics:scienceandsystems(rss).第2卷.no.3.2010.
5.lemaire,thomas等人“vision-basedslam:stereoandmonocularapproaches.”internationaljournalofcomputervision74.3(2007):第343-364頁。
6.lieberknecht,sebastian等人“rgb-dcamera-basedparalleltrackingandmeshing.”mixedandaugmentedreality(ismar),201110thieeeinternationalsymposiumon.ieee,2011.
7.klein,georg,和davidmurray.“paralleltrackingandmappingforsmallarworkspaces.”mixedandaugmentedreality,2007.wacv2007.6thieeeandacminternationalsymposiumon.ieee,2007.
8.castle,robert,georgklein,和davidw.murray.“video-ratelocalizationinmultiplemapsforwearableaugmentedreality.”wearablecomputers,2008.iswc2008.12thieeeinternationalsymposiumon.ieee,2008.
9.nützi,gabriel等人“fusionofimuandvisionforabsolutescaleestimationinmonocularslam.”journalofintelligent&roboticsystems61.1-4(2011):第287-299頁。
10.umeyama,shinji.“l(fā)east-squaresestimationoftransformationparametersbetweentwopointpatterns.”patternanalysisandmachineintelligence,ieeetransactionson13.4(1991):第376-380頁。
11.esquivel,sandro,felixwoelk和reinhardkoch.“calibrationofamulti-camerarigfromnon-overlappingviews.”patternrecognition.springerberlinheidelberg,2007.第82-91頁。
12.han,hu等人“demographicestimationfromfaceimages:humanvs.machineperformance.”
13.dodgson,neila.“variationandextremaofhumaninterpupillarydistance.”proceedingsofspie.第5291卷.2004.
14.clipp,brian等人“robust6dofmotionestimationfornon-overlapping,multi-camerasystems.”applicationsofcomputervision,2008.wacv2008.ieeeworkshopon.ieee,2008
15.ren,shaoqing等人“facealignmentat3000fpsviaregressinglocalbinaryfeatures.”
16.martins,pedro和jorgebatista.“accuratesingleviewmodel-basedheadposeestimation.”automaticface&gesturerecognition,2008.fg′08.8thieeeinternationalconferenceon.ieee,2008.
17.asthana,akshay等人“incrementalfacealignmentinthewild.”computervisionandpatternrecognition(cvpr),2014ieeeconferenceon.ieee,2014.
18.wang,peng等人“automaticeyedetectionanditsvalidation.”computervisionandpatternrecognition-workshops,2005.cvpr工作室.ieeecomputersocietyconferenceon.ieee,2005.
19.turk,matthewa.和alexp.pentland.“facerecognitionusingeigenfaces.”computervisionandpatternrecognition,1991.proceedingscvpr′91.,ieeecomputersocietyconferenceon.ieee,1991.
20.danielkurz,selimbehimane“methodofprovidingadescriptorforatleastonefeatureofanimageandmethodofmatchingfeatures”us20120219188a1.