專利名稱:為了2d至3d轉(zhuǎn)換對(duì)對(duì)象進(jìn)行模型擬合和配準(zhǔn)的系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及計(jì)算機(jī)圖形處理和顯示系統(tǒng),更具體地,涉及 為了2D至3D轉(zhuǎn)換而對(duì)對(duì)象進(jìn)行模型擬合和配準(zhǔn)的系統(tǒng)及方法。
背景技術(shù):
2D至3D轉(zhuǎn)換是將現(xiàn)有二維(2D)影片轉(zhuǎn)換成三維(3D)立體影 片的過(guò)程。例如,當(dāng)利用無(wú)源或有源3D眼鏡來(lái)觀看3D立體影片時(shí),3D
立體影片以觀看者能感知和體驗(yàn)深度的方式來(lái)再現(xiàn)移動(dòng)圖像。大型電 影工作室己非常關(guān)注將傳統(tǒng)影片轉(zhuǎn)換成3D立體影片。
立體成像是在視覺(jué)上將取自略微不同視點(diǎn)的、場(chǎng)景的至少兩幅圖 像進(jìn)行組合以產(chǎn)生三維深度錯(cuò)覺(jué)的過(guò)程。該項(xiàng)技術(shù)依賴于人眼分隔一 段距離并因此并不精確地觀看相同場(chǎng)景的事實(shí)。通過(guò)向每只眼睛提供 來(lái)自不同角度的圖像,使觀看者的眼鏡產(chǎn)生錯(cuò)覺(jué)以感知到深度。典型 地,在提供了兩個(gè)不同角度的地方,組成圖像被稱作"左"和"右" 圖像,也被分別稱作參考圖像和互補(bǔ)圖像。然而,本領(lǐng)域的技術(shù)人員 將認(rèn)識(shí)到,可以組合多于兩個(gè)視點(diǎn)以形成立體圖像。
計(jì)算機(jī)可以使用多種技術(shù)來(lái)產(chǎn)生立體圖像。例如,"立體影片 (anaglyph)"方法使用顏色來(lái)對(duì)立體圖像的左和右組分進(jìn)行編碼。此 后,觀看者佩戴一副特殊的濾光眼鏡,以使每只眼睛僅感知到一幅視 圖。
類似地,翻頁(yè)(page-flipped)立體成像是一種用于在圖像的左和 右視圖之間快速切換顯示的技術(shù)。同樣,觀察者佩戴一副特殊眼鏡, 該眼鏡包含通常由液晶材料制成、與顯示器上的圖像同步地開(kāi)和關(guān)的 高速電子快門。與在立體影片的情況下一樣,每只眼睛僅感知到一幅 組成圖像。
近來(lái)已開(kāi)發(fā)了不需要特殊眼鏡或頭戴受話器(headgear)的其他立體成像技術(shù)。例如,透鏡成像將兩幅或多幅全異的圖像視圖分隔成 薄切片,并對(duì)該切片進(jìn)行隔行掃描以形成單幅圖像。然后,將隔行掃 描后的圖像定位在重構(gòu)全異視圖的透鏡之后,以使每只眼睛感知到不
同視圖。 一些透鏡顯示器由位于在膝上型計(jì)算機(jī)上常見(jiàn)的傳統(tǒng)LCD顯
示器上的透鏡來(lái)實(shí)現(xiàn)。
另一立體成像技術(shù)涉及對(duì)輸入圖像的區(qū)域進(jìn)行移位以創(chuàng)建互補(bǔ)
圖像。這樣的技術(shù)己用在由加利福尼亞州的Westlake Village的一家名 為In-Three Inc.的公司開(kāi)發(fā)的手動(dòng)2D至3D影片轉(zhuǎn)換系統(tǒng)中。在2001年3 月27日向Kaye發(fā)布的美國(guó)專利6,208,348中描述了2D至3D轉(zhuǎn)換系統(tǒng)。 盡管被稱作3D系統(tǒng),但該過(guò)程實(shí)際上是2D的,這是由于其并沒(méi)有將2D 圖像轉(zhuǎn)換回到3D場(chǎng)景,而是操控2D輸入圖像來(lái)創(chuàng)建右眼圖像。圖l示 出了通過(guò)美國(guó)專利6,208,348中公開(kāi)的過(guò)程而開(kāi)發(fā)的工作流程,其中, 圖1原本作為美國(guó)專利6,208,348中的圖5出現(xiàn)。可以將該過(guò)程描述如 下對(duì)于輸入圖像,首先手動(dòng)畫出區(qū)域2、 4、 6的輪廓。操作者然后對(duì) 每一區(qū)域進(jìn)行移位以產(chǎn)生立體差異,例如區(qū)域8、 10、 12。通過(guò)使用3D 眼鏡在另一顯示器中觀看每一區(qū)域的3D回放,可以看到每一區(qū)域的深 度。操作者調(diào)整區(qū)域的移位距離,直到實(shí)現(xiàn)了最優(yōu)深度為止。然而, 通過(guò)在輸入2D圖像中對(duì)區(qū)域進(jìn)行移位以創(chuàng)建互補(bǔ)右眼圖像,可以大部 分手動(dòng)地實(shí)現(xiàn)2D至3D轉(zhuǎn)換。該過(guò)程是效率非常低的并需要大量人為干 預(yù)。
發(fā)明內(nèi)容
本發(fā)明提供了一種系統(tǒng)和方法,用于對(duì)對(duì)象進(jìn)行模型擬合和配準(zhǔn) 以對(duì)圖像進(jìn)行2D至3D轉(zhuǎn)換,從而創(chuàng)建立體圖像。所述系統(tǒng)包括數(shù)據(jù) 庫(kù),存儲(chǔ)真實(shí)世界對(duì)象的多種3D模型。對(duì)于第一2D輸入圖像(例如, 左眼圖像或參考圖像),通過(guò)系統(tǒng)操作者或自動(dòng)檢測(cè)算法來(lái)識(shí)別要被轉(zhuǎn) 換成3D的區(qū)域或畫出該區(qū)域的輪廓。對(duì)于每一區(qū)域,所述系統(tǒng)從數(shù)據(jù) 庫(kù)中選擇所存儲(chǔ)的3D模型,并配準(zhǔn)所選的3D模型,以使3D模型的投 影與識(shí)別出的區(qū)域內(nèi)的圖像內(nèi)容以最優(yōu)方式相匹配??梢允褂脦缀瓮?徑或光度途徑來(lái)實(shí)現(xiàn)該匹配過(guò)程。在經(jīng)由配準(zhǔn)過(guò)程已針對(duì)第一2D圖像計(jì)算出3D對(duì)象的3D位置和姿勢(shì)之后,可以通過(guò)將3D場(chǎng)景投影到具有 不同攝像機(jī)視角的另一成像平面上來(lái)創(chuàng)建第二圖像(例如,右眼圖像 或互補(bǔ)圖像),該3D場(chǎng)景包括具有變形紋理的、配準(zhǔn)后的3D對(duì)象。 根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于創(chuàng)建立體圖像的三維 (3D)轉(zhuǎn)換方法。所述方法包括獲取至少一個(gè)二維(2D)圖像;識(shí) 別該至少一個(gè)2D圖像的至少一個(gè)對(duì)象;從多個(gè)預(yù)定3D模型中選擇至少 一個(gè)3D模型,所選3D模型與識(shí)別出的至少一個(gè)對(duì)象相關(guān);將所選3D 模型與識(shí)別出的至少一個(gè)對(duì)象進(jìn)行配準(zhǔn);以及通過(guò)將所選3D模型投影 到與該至少一個(gè)2D圖像的圖像平面不同的圖像平面上來(lái)創(chuàng)建互補(bǔ)圖 像。
在另一方面,配準(zhǔn)包括將所選3D模型的投影的2D輪廓與該至 少一個(gè)對(duì)象的輪廓進(jìn)行匹配。
在本發(fā)明的另一方面,配準(zhǔn)包'括將所選3D模型的至少一個(gè)光度 特征與該至少一個(gè)對(duì)象的至少一個(gè)光度特征進(jìn)行匹配。
在本發(fā)明的另一方面,用于對(duì)對(duì)象從二維(2D)圖像向三維(3D) 轉(zhuǎn)換的系統(tǒng)包括后處理設(shè)備,被配置為從至少一個(gè)2D圖像創(chuàng)建互補(bǔ) 圖像,所述后處理設(shè)備包括對(duì)象檢測(cè)器,被配置為識(shí)別至少一個(gè)2D 圖像中的至少一個(gè)對(duì)象;對(duì)象匹配器,被配置為將至少一個(gè)3D模型與 識(shí)別出的至少一個(gè)對(duì)象進(jìn)行配準(zhǔn);對(duì)象呈現(xiàn)器,被配置為將該至少一 個(gè)3D模型投影到場(chǎng)景中;以及重構(gòu)模塊,所述重構(gòu)模塊被配置為從多 個(gè)預(yù)定3D模型中選擇該至少一個(gè)3D模型,所選的至少一個(gè)3D模型與 識(shí)別出的至少一個(gè)對(duì)象相關(guān),并且所述重構(gòu)模塊被配置為通過(guò)將所選 的3D模型投影到與該至少一個(gè)2D圖像的圖像平面不同的圖像平面上
來(lái)創(chuàng)建互補(bǔ)圖像。
在本發(fā)明的又一方面,提供了一種機(jī)器可讀的程序存儲(chǔ)設(shè)備,有 形地體現(xiàn)了機(jī)器可執(zhí)行指令的程序,以執(zhí)行用于從二維(2D)圖像創(chuàng) 建立體圖像的方法步驟,所述方法包括獲取至少一個(gè)二維(2D)圖 像;識(shí)別該至少一個(gè)2D圖像的至少一個(gè)對(duì)象;從多個(gè)預(yù)定3D模型中選 擇至少一個(gè)3D模型,所選的3D模型與識(shí)別出的至少一個(gè)對(duì)象相關(guān);將 所選的3D模型與識(shí)別出的至少一個(gè)對(duì)象進(jìn)行配準(zhǔn);以及通過(guò)將所選的3D模型投影到與該至少一個(gè)2D圖像的圖像平面不同的圖像平面上來(lái) 創(chuàng)建互補(bǔ)圖像。
根據(jù)可結(jié)合附圖來(lái)閱讀的對(duì)優(yōu)選實(shí)施例的以下詳細(xì)描述,對(duì)本發(fā) 明的上述和其他方面、特征和優(yōu)點(diǎn)進(jìn)行描述或使其變得顯而易見(jiàn)。 貫穿附圖,類似的附圖標(biāo)記表示類似的元件,在附圖中 圖l示出了用于從輸入圖像創(chuàng)建右眼或互補(bǔ)圖像的現(xiàn)有技術(shù); 圖2是根據(jù)本發(fā)明一方面的、用于圖像的二維(2D)至三維(3D) 轉(zhuǎn)換以創(chuàng)建立體圖像的系統(tǒng)的示例性圖示;
圖3是根據(jù)本發(fā)明一方面的、用于將二維(2D)圖像轉(zhuǎn)換成三維 (3D)圖像以創(chuàng)建立體圖像的示例性方法的流程圖4示出了根據(jù)本發(fā)明一方面的三維(3D)模型的幾何配置; 圖5示出了根據(jù)本發(fā)明一方面的輪廓的函數(shù)表示;以及 圖6示出了根據(jù)本發(fā)明一方面的多個(gè)輪廓的匹配函數(shù)。 應(yīng)當(dāng)理解的是,附圖的目的是示出本發(fā)明的構(gòu)思,而且附圖并不 一定是用于示出本發(fā)明的唯一可能配置。
具體實(shí)施例方式
應(yīng)當(dāng)理解,可以按照硬件、軟件或其結(jié)合的各種形式來(lái)實(shí)現(xiàn)附圖 所示的元件。優(yōu)選地,通過(guò)一臺(tái)或多臺(tái)適當(dāng)編程的通用設(shè)備上的硬件 和軟件的結(jié)合,來(lái)實(shí)現(xiàn)這些元件,所述通用設(shè)備可以包括處理器、存 儲(chǔ)器和輸入/輸出接口。
本說(shuō)明書說(shuō)明了本發(fā)明的原理。因此,可以認(rèn)識(shí)到,本領(lǐng)域技術(shù) 人員能夠設(shè)計(jì)出體現(xiàn)本發(fā)明的原理的配置,雖然這里沒(méi)有顯式地描述 或示出這些配置,但這些配置被包括在本發(fā)明的精神和范圍內(nèi)。
這里闡述的所有示例和條件語(yǔ)言是為了教導(dǎo)的目的,以幫助讀者 理解本發(fā)明的原理以及發(fā)明人為了改進(jìn)現(xiàn)有技術(shù)而貢獻(xiàn)的構(gòu)思,這些 應(yīng)被解釋為并非將本發(fā)明局限于這樣具體闡述的示例和條件。 .此外,這里闡述本發(fā)明的原理、方面和實(shí)施例及其具體示例的所有表述應(yīng)包括其結(jié)構(gòu)和功能的等價(jià)物。此外,這樣的等價(jià)物應(yīng)包括當(dāng) 前已知的等價(jià)物以及未來(lái)開(kāi)發(fā)的等價(jià)物,例如,開(kāi)發(fā)出的、不論結(jié)構(gòu) 如何都執(zhí)行相同功能的任何元件。
因此,例如,本領(lǐng)域技術(shù)人員應(yīng)理解,這里呈現(xiàn)的框圖表示了體 現(xiàn)本發(fā)明原理的示意性電路的方案視圖。類似地,可以認(rèn)識(shí)到,任何 流程圖、流程圖表、狀態(tài)轉(zhuǎn)移圖、偽代碼等表示了各種過(guò)程,該各種 過(guò)程可以被實(shí)質(zhì)上表示在計(jì)算機(jī)可讀介質(zhì)中,從而由計(jì)算機(jī)或處理器 執(zhí)行,而不論是否顯式地示出了這樣的計(jì)算機(jī)或處理器。
可以通過(guò)使用專用硬件以及能夠與適當(dāng)?shù)能浖嚓P(guān)聯(lián)地執(zhí)行軟 件的硬件,來(lái)提供圖中所示的各種元件的功能。在處理器提供功能時(shí), 可以由單個(gè)專用處理器、單個(gè)共享處理器或多個(gè)單獨(dú)的處理器(其中 一些可以是共享的)來(lái)提供功能。此外,術(shù)語(yǔ)"處理器"或"控制器" 的顯式使用不應(yīng)被解釋為專指能夠執(zhí)行軟件的硬件,可以隱式地包括 但不限于數(shù)字信號(hào)處理器("DSP")硬件、用于存儲(chǔ)軟件的只讀存
儲(chǔ)器("ROM")、隨機(jī)存取存儲(chǔ)器("RAM")、和非易失性存儲(chǔ)器。
還可以包括其他硬件,不論其為傳統(tǒng)的和/或常規(guī)的。類似地,圖 中所示的任何開(kāi)關(guān)僅是概念性的??梢酝ㄟ^(guò)程序邏輯的操作、通過(guò)專 用邏輯、通過(guò)程序控制與專用邏輯的交互、甚至手動(dòng)地實(shí)施其功能, 如從上下文中更具體地理解的,特定技術(shù)是可由實(shí)現(xiàn)者選擇的。
在權(quán)利要求書中,表示為用于執(zhí)行指定功能的裝置的任何元件應(yīng) 包含執(zhí)行該功能的任何方式,例如包括a)執(zhí)行該功能的電路元件的 結(jié)合;或者b)任何形式的軟件,從而包括固件、微代碼等,與用于執(zhí)
行該軟件的適當(dāng)電路相結(jié)合來(lái)執(zhí)行該功能。由這樣的權(quán)利要求所限定
的本發(fā)明在于以下事實(shí)以權(quán)利要求所要求保護(hù)的方式,將各種所述 裝置所提供的功能結(jié)合并集合起來(lái)。因此,應(yīng)認(rèn)為可提供這些功能的 任何裝置都與這里所示的裝置等價(jià)。
本發(fā)明處理了從2D圖像創(chuàng)建3D幾何圖形的問(wèn)題。該問(wèn)題出現(xiàn)在 各種電影制片應(yīng)用(包括視覺(jué)效果(VXF)、 2D影片至3D影片轉(zhuǎn)換等) 中。通過(guò)對(duì)輸入圖像中的所選區(qū)域進(jìn)行移位,來(lái)創(chuàng)建互補(bǔ)圖像(還被 稱作右眼圖像),從而創(chuàng)建了3D回放的立體差異,由此實(shí)現(xiàn)了用于2D至3D轉(zhuǎn)換的前述系統(tǒng)。該過(guò)程是效率非常低的,并且如果表面是彎曲
的而不是平坦的,則很難將圖像的區(qū)域轉(zhuǎn)換成3D表面。
為了克服手動(dòng)2D至3D轉(zhuǎn)換的限制,本發(fā)明提供了以下技術(shù)通 過(guò)將在3D對(duì)象存儲(chǔ)庫(kù)中預(yù)存儲(chǔ)的3D實(shí)體對(duì)象放置在3D空間中以使對(duì) 象的2D投影與原始2D圖像中的內(nèi)容相匹配,來(lái)再創(chuàng)建3D場(chǎng)景。因此, 可以通過(guò)投影具有不同攝像機(jī)視角的3D場(chǎng)景來(lái)創(chuàng)建右眼圖像(或互補(bǔ) 圖像)。本發(fā)明的技術(shù)將通過(guò)避免塞于區(qū)域移位的技術(shù)來(lái)顯著地提高 2D至3D轉(zhuǎn)換的效率。
本發(fā)明的系統(tǒng)和方法提供了一種對(duì)圖像進(jìn)行2D至3D轉(zhuǎn)換以創(chuàng)建 立體圖像的、基于3D的技術(shù)。然后,在進(jìn)一步的過(guò)程中可以采用立體 圖像來(lái)創(chuàng)建3D立體影片。所述系統(tǒng)包括存儲(chǔ)了真實(shí)世界對(duì)象的多種3D 模型的數(shù)據(jù)庫(kù)。對(duì)于第一2D輸入圖像(例如,左眼圖像或參考圖像), 通過(guò)系統(tǒng)操作者或自動(dòng)檢測(cè)算法來(lái)識(shí)別要被轉(zhuǎn)換成3D的區(qū)域或畫出 該區(qū)域的輪廓。對(duì)于每一區(qū)域,所述系統(tǒng)從數(shù)據(jù)庫(kù)選擇所存儲(chǔ)的3D模 型,并對(duì)所選3D模型進(jìn)行配準(zhǔn),從而使3D模型的投影與識(shí)別出的區(qū)域 內(nèi)的圖像內(nèi)容以最優(yōu)方式匹配。該匹配過(guò)程可以使用幾何途徑或光度 途徑來(lái)實(shí)現(xiàn)。在已經(jīng)由配準(zhǔn)過(guò)程針對(duì)輸入2D圖像計(jì)算出3D對(duì)象的3D 位置和姿勢(shì)之后,通過(guò)將3D場(chǎng)景投影到具有不同攝像機(jī)視角的另一成 像平面上第二圖像(例如,右眼圖像或互補(bǔ)圖像),該3D場(chǎng)景當(dāng)前包 括具有變形紋理的、配準(zhǔn)后的3D對(duì)象。
現(xiàn)在參照附圖,圖2示出了根據(jù)本發(fā)明 一 實(shí)施例的示例性系統(tǒng)組 件??梢蕴峁呙柙O(shè)備103,用于將影片拷貝(film print) 104 (例如, 攝像機(jī)原始影片底片)掃描成數(shù)字格式(例如,Cinemi格式或SMPTE DPX文件)。掃描設(shè)備103可以包括例如電視電影機(jī)或?qū)挠捌a(chǎn)生視 頻輸出的任何設(shè)備(例如,具有視頻輸出的AiTiLocProTM)。備選地, 可以直接使用來(lái)自后期制作過(guò)程或數(shù)字電影106的文件(例如,已用計(jì)
算機(jī)可讀形式表示的文件)。計(jì)算機(jī)可讀文件的可能的源包括但不限于 AVIDTM編輯程序、DPX文件、D5磁帶等。
將掃描后的影片拷貝輸入至后處理設(shè)備102 (例如,計(jì)算機(jī))。計(jì) 算機(jī)102可以在各種己知計(jì)算機(jī)平臺(tái)的任一種上實(shí)現(xiàn),該計(jì)算機(jī)平臺(tái)具有如一個(gè)或多個(gè)中央處理器(CPU)之類的硬件、如隨機(jī)存取存儲(chǔ)
器(RAM)和/或只讀存儲(chǔ)器(ROM)之類的存儲(chǔ)器110、以及如鍵盤、 光標(biāo)控制設(shè)備(例如,鼠標(biāo)或操縱桿)和顯示設(shè)備之類的輸入/輸出
(I/O)用戶接口112。該計(jì)算機(jī)平臺(tái)還包括操作系統(tǒng)和微指令代碼。 這里所描述的各種過(guò)程和功能可以是微指令代碼的一部分或是通過(guò)操 作系統(tǒng)執(zhí)行的軟件應(yīng)用程序的一部分(或其組合)。此外,各種其他外 圍設(shè)備可以通過(guò)各種接口和總線結(jié)構(gòu)(例如,并行端口、串行端口或 通用串行總線(USB))連接至該計(jì)算機(jī)平臺(tái)。其他外圍設(shè)備還可以包 括附加存儲(chǔ)設(shè)備124和打印機(jī)128??梢圆捎么蛴C(jī)128來(lái)打印影片的修 訂版本126,例如,影片的立體版本,其中,基于下述技術(shù),使用3D 建模對(duì)象可以改變或替換一個(gè)場(chǎng)景或多個(gè)場(chǎng)景。
備選地,己用計(jì)算機(jī)可讀形式表示的文件/影片拷貝106 (例如, 可在外部硬驅(qū)動(dòng)器124中存儲(chǔ)的數(shù)字電影)可以被直接輸入進(jìn)計(jì)算機(jī) 102中。注意,這里所使用的術(shù)語(yǔ)"影片(film)"可以指影片拷貝或 數(shù)字電影。
軟件程序包括在存儲(chǔ)器110中存儲(chǔ)的三維(3D)轉(zhuǎn)換模塊114, 用于將二維(2D)圖像轉(zhuǎn)換成三維(3D)圖像以創(chuàng)建立體圖像。3D 轉(zhuǎn)換模塊114包括用于識(shí)別2D圖像中對(duì)象或區(qū)域的對(duì)象檢測(cè)器116。對(duì) 象檢測(cè)器116通過(guò)使用圖像編輯軟件手動(dòng)畫出包含對(duì)象的圖像區(qū)域的 輪廓來(lái)識(shí)別對(duì)象,或通過(guò)利用自動(dòng)檢測(cè)算法隔離包含對(duì)象的圖像區(qū)域 來(lái)識(shí)別對(duì)象。3D轉(zhuǎn)換模塊114還包括用于將對(duì)象的3D模型與2D對(duì)象進(jìn) 行匹配和配準(zhǔn)的對(duì)象匹配器118。如下所述,對(duì)象匹配器118將與3D模 型庫(kù)122進(jìn)行交互。3D模型庫(kù)122將包括多個(gè)3D對(duì)象模型,其中每一對(duì) 象模型與預(yù)定義的對(duì)象相關(guān)。例如,預(yù)定義的3D模型之一可以用于對(duì) "建筑(building)"對(duì)象或"計(jì)算機(jī)藍(lán)控器"對(duì)象進(jìn)行建模。預(yù)定義 了每一3D模型的參數(shù),并將該參數(shù)同3D模型一起保存在數(shù)據(jù)庫(kù)122中。 提供了對(duì)象呈現(xiàn)器120,用于將3D模型呈現(xiàn)到3D場(chǎng)景中以創(chuàng)建互補(bǔ)圖 像??梢酝ㄟ^(guò)光柵化過(guò)程或諸如光線跟蹤或光子映射等更高級(jí)的技術(shù) 來(lái)實(shí)現(xiàn)這一點(diǎn)。
圖3是根據(jù)本發(fā)明一個(gè)方面的、用于將二維(2D)圖像轉(zhuǎn)換成三維(3D)圖像以創(chuàng)建立體圖像的示例性方法。首先,后處理設(shè)備102 獲取至少一個(gè)二維(2D)圖像,例如參考或左眼圖像(步驟202)。后 處理設(shè)備102通過(guò)獲得如上所述的計(jì)算機(jī)可讀格式的數(shù)字主視頻文件 來(lái)獲取至少一個(gè)2D圖像??梢酝ㄟ^(guò)用數(shù)字視頻攝像機(jī)捕獲視頻圖像的 時(shí)間序列來(lái)獲取該數(shù)字視頻文件。備選地,可以通過(guò)傳統(tǒng)影片類型攝 像機(jī)來(lái)獲取該視頻序列。在這種情況下,通過(guò)掃描設(shè)備103對(duì)影片進(jìn)行 掃描。在移動(dòng)場(chǎng)景中的對(duì)象或移動(dòng)攝像機(jī)的同時(shí),攝像機(jī)將獲取2D圖 像。攝像機(jī)將獲取場(chǎng)景的多個(gè)視點(diǎn)。
應(yīng)當(dāng)理解的是,無(wú)論影片是被掃描的還是已經(jīng)用數(shù)字格式表示, 影片的數(shù)字文件都將包括幀位置的指示或信息,例如,幀編號(hào)、自影 片開(kāi)始起的時(shí)間等。數(shù)字視頻文件的每一幀將包括一副圖像,例如,
I!、 12、……In。
在步驟204中,識(shí)別2D圖像中的對(duì)象。使用對(duì)象檢測(cè)器116,用戶 可以用圖像編輯工具手動(dòng)選擇對(duì)象,或備選地,可以使用圖像檢測(cè)算 法(例如,分割算法)自動(dòng)檢測(cè)對(duì)象。應(yīng)當(dāng)理解的是,可以識(shí)別2D圖 像中的多個(gè)對(duì)象。 一旦識(shí)別出對(duì)象,在步驟206,從預(yù)定義3D模型庫(kù) 122中選擇多個(gè)預(yù)定義3D對(duì)象模型中的至少一個(gè)。應(yīng)當(dāng)理解的是,3D 對(duì)象模型的選擇可以通過(guò)系統(tǒng)操作者手動(dòng)執(zhí)行或通過(guò)選擇算法自動(dòng)執(zhí) 行。所選3D模型將以某種方式與識(shí)別出的對(duì)象相關(guān),例如,將針對(duì)識(shí) 別出的人對(duì)象來(lái)選擇人的3D模型,將針對(duì)識(shí)別出的建筑對(duì)象來(lái)選擇建 筑的3D模型等等。
接下來(lái),在步驟208中,將所選3D對(duì)象模型與識(shí)別出的對(duì)象進(jìn)行 配準(zhǔn)?,F(xiàn)在將描述用于配準(zhǔn)過(guò)趕的基于輪廓的途徑以及光度途徑。
基于輪廓的配準(zhǔn)技術(shù)將所選3D對(duì)象的投影的2D輪廓(即,閉合 輪廓(occluding contour))與2D圖像中的識(shí)別出的對(duì)象的畫出/檢測(cè)出 的輪廓進(jìn)行匹配。在將3D對(duì)象投影到2D平面之后,3D對(duì)象的閉合輪 廓是該對(duì)象的2D區(qū)域的邊界。假設(shè)3D模型(例如,計(jì)算機(jī)監(jiān)控器220) 的自由參數(shù)包括以下各項(xiàng)3D位置(xj;,z)、 3D姿勢(shì)(6^)和比例s (如圖 4所示);3D模型的控制參數(shù)是a^(x,;^",A力,定義了該對(duì)象的3D配
置。然后可以將3D模型的輪廓定義為如下向量函數(shù)f(,) = [x e
UJ 輪廓的該函數(shù)表示如圖5所示。由于閉合輪廓依賴于對(duì)象的3D配 置,因此輪廓函數(shù)依賴于①并可以寫為
",)=[、(,|0),凡,(,)],"
(2)
其中,m表示3D模型。畫出輪廓后的區(qū)域的輪廓可以表示為類似的函 數(shù)
, ),禍""0,1] (3) 其為無(wú)參數(shù)的輪廓。然后,通過(guò)最小化關(guān)于3D配置的價(jià)值函數(shù)C(①)來(lái) 獲得最佳參數(shù)①,價(jià)值函數(shù)C(①)表示如下
C E>)= J[[(W) —W—))2 +0^)-^(,|,2& (4)
然而,計(jì)算上述最小化相當(dāng)困難,這是由于從3D對(duì)象到2D區(qū)域 的幾何變換是復(fù)雜的,并且價(jià)值函數(shù)可能是不可微的,因此,很難得 到(D的封閉形式的解。一種便于計(jì)算的途徑是使用不確定采樣技術(shù)(例 如,蒙特卡洛技術(shù))來(lái)對(duì)參數(shù)空間中的參數(shù)進(jìn)行隨機(jī)采樣,直到達(dá)到 所期望的誤差(例如,預(yù)定閾值)為止。
以上描述了基于匹配單個(gè)輪廓對(duì)3D配置的估計(jì)。然而,如果存在
多個(gè)對(duì)象,或在識(shí)別出的對(duì)象中存在洞,則在2D投影之后可能出現(xiàn)多
個(gè)閉合輪廓。此外,對(duì)象檢測(cè)器188可能已識(shí)別出2D圖像中的多個(gè)畫
出輪廓的區(qū)域。在這些情況下,將處理多對(duì)多輪廓匹配。假設(shè)模型輪 廓(例如,3D模型的2D投影)表示為f;人,.《,.,f ,而圖像輪廓(例
如,2D圖像中的輪廓)表示為^,^,...^...,^,其中,/、y是用于標(biāo)識(shí)
輪廓的整數(shù)索引。輪廓之間的對(duì)應(yīng)關(guān)系可以表示為函數(shù)g(.),如圖6所 示,其將模型輪廓的索引映射到圖像輪廓的索引。然后確定最佳的輪 廓對(duì)應(yīng)關(guān)系和最佳的3D配置,以最小化總體價(jià)值函數(shù),計(jì)算如下
C(0,g)= Z C',g(,)(①) (5) 其中,C,,洲(cD)是第i個(gè)模M輪廓一其所lffi酉己自勺、,弓l力g(/)^TO^li之間的、在方程(4)中定義的價(jià)值函數(shù),其中g(shù)(.)是對(duì)應(yīng)關(guān)系函數(shù)。
用于配準(zhǔn)的補(bǔ)充途徑是使用2D圖像的所選區(qū)域的光度特征。光度
特征的示例包括顏色特征、紋理特征等。對(duì)于光度配準(zhǔn),數(shù)據(jù)庫(kù)中存
儲(chǔ)的3D模型將附有表面紋理??梢詰?yīng)用特征提取技術(shù)來(lái)提取提供信息
的屬性(包括但不限于顏色直方圖或力矩特征)以描述對(duì)象的姿勢(shì)或
位置。然后,該特征可以用于估計(jì)3D模型的幾何參數(shù)或改進(jìn)在配準(zhǔn)的
幾何途徑中已估計(jì)出的幾何參數(shù)。
假設(shè)所選3D模型的投影的圖像是々(cD),所投影的圖像是3D模型
的3D姿勢(shì)參數(shù)的函數(shù)。從圖像^(cD)提取的紋理特征是7;01)),并且如
果所選區(qū)域內(nèi)的圖像是/,,則紋理特征是7>與上述類似,對(duì)最小二
乘價(jià)值函數(shù)定義如下
c'((d)=|fc (①)-t; ||2=;f; (t;,. (o) - t;, )2 (6)
然而,如上所述,對(duì)于上述最小化問(wèn)題可能不存在封閉形式的解, 因此,可以通過(guò)蒙特卡洛技術(shù)來(lái)實(shí)現(xiàn)最小化。
在本發(fā)明的另一實(shí)施例中,光度途徑可以與基于輪廓的途徑相結(jié)
合。為了實(shí)現(xiàn)這一點(diǎn),定義了線性組合兩個(gè)價(jià)值函數(shù)的聯(lián)合價(jià)值函數(shù)
<formula>formula see original document page 15</formula>
其中,;i是用于確定基于輪廓的方法和光度方法的貢獻(xiàn)的加權(quán)因子。 應(yīng)當(dāng)理解的是,該加權(quán)因子可以應(yīng)用于任一種方法。
一旦場(chǎng)景中識(shí)別出的所有對(duì)象都己被轉(zhuǎn)換到3D空間中,就通過(guò)將
包括轉(zhuǎn)換后3D對(duì)象和背景片的3D場(chǎng)景呈現(xiàn)到另一成像平面中來(lái)創(chuàng)建 互補(bǔ)圖像(例如,右眼圖像)(步驟210),該另一成像平面不同于由虛 擬右攝像機(jī)確定的輸入2D圖像的成像平面。可以通過(guò)如標(biāo)準(zhǔn)圖形卡流 水線(pipeline)中的光柵化過(guò)程,或者通過(guò)諸如專業(yè)的后處理工作流 程中使用的光線跟蹤之類的更高級(jí)技術(shù),來(lái)實(shí)現(xiàn)該呈現(xiàn)。通過(guò)虛擬右 攝像機(jī)的位置和視角來(lái)確定新成像平面的位置。虛擬右攝像機(jī)(例如, 在計(jì)算機(jī)或后處理設(shè)備中模擬的攝像機(jī))的位置和視角的設(shè)置應(yīng)得到 與生成輸入圖像的左攝像機(jī)的成像平面平行的成像平面。在一個(gè)實(shí)施 例中,可以通過(guò)對(duì)虛擬攝像機(jī)的位置和視角進(jìn)行細(xì)微調(diào)整,以及通過(guò)在顯示設(shè)備上觀看所得到的3D回放的反饋從而得到反饋,來(lái)實(shí)現(xiàn)這一 點(diǎn)。調(diào)整右攝像機(jī)的位置和視角,以便觀看者能夠以最舒適的方式觀 看到所創(chuàng)建的立體圖像。
然后在步驟212中,將所投影的場(chǎng)景存儲(chǔ)為輸入圖像(例如,左
眼圖像)的互補(bǔ)圖像(例如,右眼圖像)。該互補(bǔ)圖像將以任何傳統(tǒng)方 式與輸入圖像相關(guān)聯(lián),從而互補(bǔ)圖像和輸入圖像可以在稍后的時(shí)間點(diǎn) 一起被獲取?;パa(bǔ)圖像可以與輸入或參考圖像一同被保存在創(chuàng)建立體
影片的數(shù)字文件130中。數(shù)字文件130可以被存儲(chǔ)在存儲(chǔ)設(shè)備124中以備 稍后獲取,從而例如打印原始影片的立體版本。
盡管這里已經(jīng)詳細(xì)示出并描述了合并本發(fā)明教導(dǎo)的實(shí)施例,但本 領(lǐng)域技術(shù)人員可以容易地設(shè)計(jì)出仍合并這些教導(dǎo)的許多其他變化的實(shí) 施例。已經(jīng)描述了為了2D至3D轉(zhuǎn)換而對(duì)對(duì)象進(jìn)行模型擬合和配準(zhǔn)的系 統(tǒng)和方法的優(yōu)選實(shí)施例(意在示出而非限制),但是要注意,本領(lǐng)域技 術(shù)人員可以根據(jù)上述教導(dǎo)做出修改和變體。因此,應(yīng)當(dāng)理解,在由所 附權(quán)利要求概括的本發(fā)明的范圍和精神內(nèi),可以在所公開(kāi)的本發(fā)明的 具體實(shí)施例中進(jìn)行改變。
權(quán)利要求
1、一種用于創(chuàng)建立體圖像的三維轉(zhuǎn)換方法,包括獲取至少一個(gè)二維圖像(202);識(shí)別所述至少一個(gè)二維圖像的至少一個(gè)對(duì)象(204);從多個(gè)預(yù)定三維模型中選擇至少一個(gè)三維模型(206),所選擇的三維模型與識(shí)別出的至少一個(gè)對(duì)象相關(guān);將所選擇的三維模型與識(shí)別出的至少一個(gè)對(duì)象進(jìn)行配準(zhǔn)(208);以及通過(guò)將所選擇的三維模型投影到與所述至少一個(gè)二維圖像的圖像平面不同的圖像平面上來(lái)創(chuàng)建互補(bǔ)圖像(210)。
2、 根據(jù)權(quán)利要求l所述的方法,其中,識(shí)別步驟包括檢測(cè)所述 至少一個(gè)對(duì)象的輪廓。
3、 根據(jù)權(quán)利要求2所述的方法,其中,配準(zhǔn)步驟包括將所選擇的三維模型的投影的二維輪廓與所述至少一個(gè)對(duì)象的輪廓進(jìn)行匹配。
4、 根據(jù)權(quán)利要求3所述的方法,其中,匹配步驟包括計(jì)算所選擇的三維模型的姿勢(shì)、位置和比例,以匹配識(shí)別出的至少一個(gè)對(duì)象的 姿勢(shì)、位置和比例。
5、 根據(jù)權(quán)利要求4所述的方法,其中,匹配步驟包括對(duì)所述至少一個(gè)對(duì)象的姿勢(shì)、位置和比例與所選擇的三維模型的姿勢(shì)、位置和 比例之間的差異進(jìn)行最小化。
6、 根據(jù)權(quán)利要求5所述的方法,其中,最小化步驟包括應(yīng)用不確定的采樣技術(shù)來(lái)確定最小化后的差異。
7、 根據(jù)權(quán)利要求l所述的方法,其中,配準(zhǔn)步驟包括將所選擇的三維模型的至少一個(gè)光度特征與所述至少一個(gè)對(duì)象的至少一個(gè)光度 特征進(jìn)行匹配。
8、 根據(jù)權(quán)利要求7所述的方法,其中,所述至少一個(gè)光度特征是表面紋理。
9、 根據(jù)權(quán)利要求7所述的方法,其中,所述至少一個(gè)對(duì)象的姿勢(shì)和位置是通過(guò)將特征提取函數(shù)應(yīng)用至所述至少一個(gè)對(duì)象來(lái)確定的。
10、 根據(jù)權(quán)利要求9所述的方法,其中,匹配步驟包括對(duì)所述 至少一個(gè)對(duì)象的姿勢(shì)和位置與所選擇的三維模型的姿勢(shì)和位置之間的 差異進(jìn)行最小化。
11、 根據(jù)權(quán)利要求10所述的方法,其中,最小化步驟包括應(yīng)用 不確定的采樣技術(shù)來(lái)確定最小化后的差異。
12、 根據(jù)權(quán)利要求l所述的方法,其中,配準(zhǔn)步驟還包括 將所選擇的三維模型的投影的二維輪廓與所述至少一個(gè)對(duì)象的輪廓進(jìn)行匹配;最小化已匹配的輪廓之間的差異;將所選擇的三維模型的至少一個(gè)光度特征與所述至少一個(gè)對(duì)象 的至少一個(gè)光度特征進(jìn)行匹配;以及最小化所述至少一個(gè)光度特征之間的差異。
13、 根據(jù)權(quán)利要求12所述的方法,還包括將加權(quán)因子應(yīng)用至己 匹配的輪廓之間的最小化后的差異和所述至少一個(gè)光度特征之間的最 小化后的差異中的至少一個(gè)。
14、 一種對(duì)二維圖像的對(duì)象進(jìn)行三維轉(zhuǎn)換的系統(tǒng)(100),所述系 統(tǒng)包括后處理設(shè)備(102),被配置為根據(jù)至少一個(gè)二維圖像創(chuàng)建互補(bǔ)圖 像,所述后處理設(shè)備包括對(duì)象檢測(cè)器(116),被配置為識(shí)別至少一個(gè)二維圖像中的至 少一個(gè)對(duì)象;對(duì)象匹配器(118),被配置為將至少一個(gè)三維模型與識(shí)別出 的至少一個(gè)對(duì)象進(jìn)行配準(zhǔn);對(duì)象呈現(xiàn)器(120),被配置為將所述至少一個(gè)三維模型投影 到場(chǎng)景中;以及重構(gòu)模塊(114),所述重構(gòu)模塊被配置為從多個(gè)預(yù)定三維模 型(122)中選擇所述至少一個(gè)三維模型,所選擇的至少一個(gè)三維模型 與識(shí)別出的至少一個(gè)對(duì)象相關(guān),以及所述重構(gòu)模塊被配置為通過(guò)將所 選擇的三維模型投影到與所述至少一個(gè)二維圖像的圖像平面不同的圖 像平面上來(lái)創(chuàng)建互補(bǔ)圖像。
15、 根據(jù)權(quán)利要求14所述的系統(tǒng)(100),其中,對(duì)象匹配器(118)被配置為檢測(cè)所述至少一個(gè)對(duì)象的輪廓。
16、 根據(jù)權(quán)利要求15所述的系統(tǒng)(100),其中,對(duì)象匹配器(118)被配置為將所選擇的三維模型的投影的二維輪廓與所述至少一個(gè)對(duì)象 的輪廓進(jìn)行匹配。
17、 根據(jù)權(quán)利要求16所述的系統(tǒng)(100),其中,對(duì)象匹配器(118) 被配置為計(jì)算所選擇的三維模型的姿勢(shì)、位置和比例,以匹配識(shí)別出 的至少一個(gè)對(duì)象的姿勢(shì)、位置和比例。
18、 根據(jù)權(quán)利要求17所述的系統(tǒng)(100),其中,對(duì)象匹配器(118) 被配置為對(duì)所述至少一個(gè)對(duì)象的姿勢(shì)、位置和比例與所選擇的三維模 型的姿勢(shì)、位置和比例之間的差異進(jìn)行最小化。
19、 根據(jù)權(quán)利要求18所述的系統(tǒng)(100),其中,對(duì)象匹配器(118) 被配置為應(yīng)用不確定的采樣技術(shù)來(lái)確定最小化后的差異。
20、 根據(jù)權(quán)利要求14所述的系統(tǒng)(100),其中,對(duì)象匹配器(118)被配置為將所選擇的三維模型的至少一個(gè)光度特征與所述至少一個(gè)對(duì) 象的至少一個(gè)光度特征進(jìn)行匹配。
21、 根據(jù)權(quán)利要求20所述的系統(tǒng)(100),其中,所述至少一個(gè)光 度特征是表面紋理。
22、 根據(jù)權(quán)利要求20所述的系統(tǒng)(100),其中,所述至少一個(gè)對(duì) 象的姿勢(shì)和位置是通過(guò)將特征提取函數(shù)應(yīng)用至所述至少一個(gè)對(duì)象來(lái)確 定的。
23、 根據(jù)權(quán)利要求22所述的系統(tǒng)(100),其中,對(duì)象匹配器(118) 被配置為對(duì)所述至少一個(gè)對(duì)象的姿勢(shì)和位置與所選擇的三維模型的姿 勢(shì)和位置之間的差異進(jìn)行最小化。
24、 根據(jù)權(quán)利要求23所述的系統(tǒng)(100),其中,對(duì)象匹配器(118)被配置為應(yīng)用不確定的采樣技術(shù)來(lái)確定最小化后的差異。
25、 根據(jù)權(quán)利要求14所述的系統(tǒng)(100),其中,對(duì)象匹配器(118) 被配置為將所選擇的三維模型的投影的二維輪廓與所述至少一個(gè)對(duì)象 的輪廓進(jìn)行匹配、最小化已匹配的輪廓之間的差異、將所選擇的三維 模型的至少一個(gè)光度特征與所述至少一個(gè)對(duì)象的至少一個(gè)光度特征進(jìn)行匹配、以及最小化所述至少一個(gè)光度特征之間的差異。
26、 根據(jù)權(quán)利要求25所述的系統(tǒng)(100),其中,對(duì)象匹配器(118) 被配置為將加權(quán)因子應(yīng)用至已匹配的輪廓之間的最小化后的差異和所 述至少一個(gè)光度特征之間的最小化后的差異中的至少一個(gè)。
27、 一種機(jī)器可讀的程序存儲(chǔ)設(shè)備,有形地體現(xiàn)了機(jī)器可執(zhí)行指 令的程序,以執(zhí)行用于根據(jù)二維圖像創(chuàng)建立體圖像的方法步驟,所述 方法包括獲取至少一個(gè)二維圖像(202); 識(shí)別所述至少一個(gè)二維圖像的至少一個(gè)對(duì)象(204); 從多個(gè)預(yù)定三維模型中選擇至少一個(gè)三維模型(206),所選擇的 三維模型與識(shí)別出的至少一個(gè)對(duì)象相關(guān);將所選擇的三維模型與識(shí)別出的至少一個(gè)對(duì)象進(jìn)行配準(zhǔn)(208);以及通過(guò)將所選擇的三維模型投影到與所述至少一個(gè)二維圖像的圖 像平面不同的圖像平面上來(lái)創(chuàng)建互補(bǔ)圖像(210)。
全文摘要
提供了一種系統(tǒng)和方法,用于對(duì)對(duì)象進(jìn)行模型擬合和配準(zhǔn)以對(duì)圖像進(jìn)行2D至3D轉(zhuǎn)換,從而創(chuàng)建立體圖像。本發(fā)明的系統(tǒng)和方法提供了以下步驟獲取至少一個(gè)二維(2D)圖像(202);識(shí)別該至少一個(gè)2D圖像的至少一個(gè)對(duì)象(204);從多個(gè)預(yù)定3D模型中選擇至少一個(gè)3D模型(206),所選擇的3D模型與識(shí)別出的至少一個(gè)對(duì)象相關(guān);將所選3D模型與識(shí)別出的至少一個(gè)對(duì)象進(jìn)行配準(zhǔn)(208);以及通過(guò)將所選3D模型投影到與該至少一個(gè)2D圖像的圖像平面不同的圖像平面上來(lái)創(chuàng)建互補(bǔ)圖像(210)??梢允褂脦缀瓮緩交蚬舛韧緩絹?lái)實(shí)現(xiàn)配準(zhǔn)過(guò)程。
文檔編號(hào)G06T15/20GK101536040SQ200680056333
公開(kāi)日2009年9月16日 申請(qǐng)日期2006年11月17日 優(yōu)先權(quán)日2006年11月17日
發(fā)明者吉姆·亞瑟·梵徹, 安娜·貝蓮·貝尼特斯, 張東慶 申請(qǐng)人:湯姆森許可貿(mào)易公司