專利名稱:一種從圖像中恢復三維幾何信息的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機視覺領(lǐng)域,具體涉及一種從圖像中恢復三維幾 何信息的方法。
背景技術(shù):
立體匹配一直是計算機視覺和攝影測量學中的重要問題。兩幅圖 像在很接近的視角上分別記錄了真實世界的場景,雙目線索就是指物 體投影在兩個成像平面的不同位置,位置的差異隨著物體深度的變化 而相應變化。在過去的數(shù)十年里,大量的立體視覺系統(tǒng)被提出,使得 該領(lǐng)域的研究出現(xiàn)了長足的進步。但是,由于問題本身的病態(tài)性,依 舊沒能得到完全的解決。在現(xiàn)有的立體匹配方法中,基于圖的方法是當中最流行的技術(shù)。 它能得到和觀察數(shù)據(jù)吻合的平滑視差圖。比較典型的做法是利用圖割法(graph c ut s )來優(yōu)化由數(shù)據(jù)項和平滑項構(gòu)成的能量函數(shù),其中數(shù)據(jù) 項用來度量兩幅圖像對應像素之間的顏色一致性,平滑項則是為了保 證視差圖整體的平滑,在相鄰的像素點被賦予不一樣的視差時給予適 當?shù)膽土P。當然,為了能夠處理遮擋問題,可以在顏色一致性約東和 平滑約束之外,加入匹配的唯一性約束。另外,也有工作利用主圖像 上的顏色分塊,將能量函數(shù)同時定義在像素層和顏色塊層上。這樣, 像素層可以很好地度量顏色一致性以及進行遮擋檢測,顏色塊層上則 可以更為合理地定義平滑約束。另一方面,單幅圖像中豐富的紋理、色彩、焦距和霧化等信息也 可以提供重要的深度推斷線索。有了足夠豐富的先驗知識,從單幅圖 像中獲取場景的整體三維結(jié)構(gòu)是可以實現(xiàn)的,但這是 一個很難的問 題。很多的單目線索不僅依賴于先驗知識,還依賴于整體的上下文信
息,因此不僅難以用啟發(fā)式的約東,也很難從圖像的局部出發(fā)來進行 推測。要讓機器視覺的能力接近這個目標,我們需要大量的訓練數(shù)據(jù), 以及一個恰當?shù)母怕誓P蛠砻枋?。相對于立體視覺,該領(lǐng)域的研究工 作要少得多。不過隨著機器學習理論的發(fā)展,已經(jīng)有很好的工作相繼出現(xiàn)。比如斯坦福大學Saxena等人的使用監(jiān)督學習方法利用多尺度 的馬爾科夫隨機場(MRF)模型建立圖像特征與深度信息之間、相鄰位 置以及不同尺度下深度值之間的關(guān)系的方法,還有卡耐基梅隆大學 Hoiem等人的方法,利用圖像所能提供的諸多有用線索材質(zhì)、位置、 紋理梯度,陰影,消失點等來逐步地構(gòu)建該圖像的結(jié)構(gòu)知識從像素 到超像素再到超像素簇,最后得到每個超像素的幾何分類標記。雙目線索是基于物體投影在兩幅圖像中的位置差異,是場景幾何 的直接反應而與圖像本身的具體內(nèi)容無關(guān)。單目線索則相反,依賴于 先驗知識以及圖像本身局部和整體的內(nèi)容和結(jié)構(gòu)??梢哉f這兩種線索 對于幾何信息推斷有著良好的互補性。發(fā)明內(nèi)容本發(fā)明的目的是提供一種從圖像當中恢復三維幾何信息的方法, 通過將主圖像中的單目線索加入到傳統(tǒng)的立體視覺系統(tǒng)中來提供額 外的深度推斷約束,將基于機器學習從單幅圖像推測三維信息的方法 和基于兩幅圖像的立體匹配方法整合到同一框架中,達到恢復三維幾 何信息的目的。為了達到以上發(fā)明目的,本發(fā)明提供了 一種從圖像中恢復三維幾何信息的方法,所述方法包括以下步驟Sl:獲取大量場景圖像及其對應的深度圖作為訓練庫;S2:劃分所述圖像為圖像塊,利用統(tǒng)計學習方法以下式描述其對應于不同深度的概率并得到不同的參數(shù)值<formula>formula see original document page 6</formula>
其中,^是圖像塊/的四連通鄰域,M是深度圖中深度值的總數(shù) 目,X,是圖像塊Z的特征向量,包括圖像塊及其鄰域在三個不同尺度 上濾波器返回值的絕對值和以及平方和,A^是歸一化常數(shù),& A為參數(shù),^,4,4為圖像第r行的參數(shù);S3:對用于場景重建的圖像對建立包含圖像塊層、像素層以及連 接像素和對應圖像塊的邊的圖結(jié)構(gòu);S4:利用S2中統(tǒng)計學習獲得的參數(shù)定義上述圖結(jié)構(gòu)的能量項;S5:將所述能量項作為約東加入到傳統(tǒng)立體匹配的描述像素和 像素之間視差關(guān)系的圖中;S6:求解出兩幅圖像之間的視差圖。其中,所述步驟S1包括Sl-l:獲取場景的三維點云以及對應的彩色圖片; Sl-2:轉(zhuǎn)化所述三維點云為深度圖; Sl-3:采集若干組彩色圖片及深度圖。其中,所述步驟S4包括定義圖結(jié)構(gòu)中圖像塊層的能量項、定 義圖結(jié)構(gòu)中像素層的能量項、定義連接圖像塊層與像素層的邊的不一 致項以及定義全局的能量項。其中,利用下式定義圖像塊層的能量項其中,^AM^,為Sl中得到的參數(shù),B為基線長度,/為焦距, 《是圖像塊/的視差值,械是左圖像中圖像塊的總數(shù)目,M (/)是 圖像塊/的四鄰域。其中,利用下式定義像素層的能量項,給出兩幅圖像間對應像素 點的顏色不一致性以及在相鄰像素點在被賦予不一樣的視差值時所 給予的懲罰<formula>formula see original document page 8</formula>其中,M2是左圖像中像素的總數(shù)目,7V2(p)是像素p的四鄰域,《和《分別為像素P和《的視差,^為非負常數(shù);其中,利用下式定義所述連接像素和對應圖像塊的邊上的不一致 項,使得視差標記在圖像塊層與像素層之間傳播,所述不一致項定義仏<formula>formula see original document page 8</formula>其中,4w為像素層的能量項,M2是左圖像中像素的總數(shù)目,VV2 (p)的四鄰域,《和《分別為像素p和《的視差,^為非負常數(shù)。其中,利用下式定義全局的能量函數(shù)其中,K。w為全局能量項,^。^為圖像塊層的能量項,五—w為像素層的能量項,J^一。^為不一致項,W以及W2分別為兩個權(quán)值。利用本發(fā)明所提供的技術(shù)方案,可以有效約束立體圖像對的匹 配,大量減少匹配過程中的二義性錯誤,比如弱紋理區(qū)域的匹配誤差, 克服了由于成像過程中的大量信息丟失,所造成的基于單幅圖像的重 建結(jié)果準確度嚴重偏低,只能給出場景的粗略描述的缺陷。
圖l為本發(fā)明從圖像中恢復三維幾何信息的方法的流程圖。圖2為本發(fā)明中將單目線索和立體線索統(tǒng)一到一起的圖的結(jié)構(gòu)。 圖中1、圖像塊層;2、像素層;3、連接兩層的邊。
具體實施方式
以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。 本發(fā)明的技術(shù)方案簡單描述為首先,獲取訓練數(shù)據(jù)。用激光掃 描儀以及標定好的相機來同時獲取場景的圖片及其對應深度圖;然后 對訓練庫中的每一幅圖像抽取特征,用聯(lián)合拉普拉斯馬爾科夫隨機場 模型來描述圖像特征對應于不同深度的概率以及相鄰位置深度值之 間的關(guān)系,模型參數(shù)通過對訓練庫的學習來獲得。接著建立一個雙層 的圖結(jié)構(gòu)來結(jié)合高分辨率的雙目線索和低分辨率的單目線索;利用上 一步訓練得到的參數(shù)來定義圖像塊層的能量項,并把它作為約東加入到傳統(tǒng)的立體匹配描述像素和像素之間視差關(guān)系的圖當中;最后用graph-cuts優(yōu)化求解出兩幅圖像之間的視差圖。如圖1所示,本發(fā)明所提供的從圖像中恢復三維幾何信息的方法包括獲取大量場景圖像及其對應的深度圖作為訓練庫;劃分所述圖像為圖像塊,利用統(tǒng)計學習方法描述其對應于不同深度的概率并得到不同的參數(shù)值;對用于場景重建的圖像對建立包含圖像塊層、像素層 以及連接像素和對應圖像塊的邊的圖結(jié)構(gòu);利用統(tǒng)計學習所獲的參數(shù) 定義上述圖結(jié)構(gòu)的能量項;將所述能量項作為約東加入到傳統(tǒng)立體匹 配的描述像素和像素之間視差關(guān)系的圖中;求解出兩幅圖像之間的視差圖。該實施例釆用室外的建筑物場景,這些圖片中的弱紋理區(qū)域給立 體匹配帶來了很大的挑戰(zhàn)。在激光掃描儀RIEGLLMS-210頂上固定安 置了事先標定好的相機,用來同時獲取高精度三維點云以及對應的彩 色照片。之后,點云被轉(zhuǎn)化為相對于照相機坐標的深度圖。本實施例 共釆集了150組彩色圖像+深度圖,其分辨率分別為1504 x 1000和150 x 100。在實際的環(huán)境中,相鄰區(qū)域的深度在很大程度上相互聯(lián)系。馬爾 科夫隨機場作為機器學習中的常用模型,在很多需要同時用到局部特 征以及上下文或全局信息的問題上得到成功的應用。這里,將圖像劃 分為棋盤格式的圖像塊,給定圖像塊特征,其對應于不同深度的概率用聯(lián)合拉普拉斯馬爾科夫隨機場模型來描述,模型公式如下 <formula>formula see original document page 10</formula>其中N(i)是圖像塊i的四連通近鄰,M是深度圖中深度值的總數(shù)目,Xi 是圖像塊i的特征向量,包括圖像塊及其鄰域在三個不同尺度上17 個濾波器(9個Law掩模、6個方向邊緣濾波器和2個顏色濾波器) 返回值的絕對值和以及平方和。N^是歸一化常數(shù),^、義就是該模型 的參數(shù),圖像的每一行用一組不同的參數(shù)(《,4,4)。在參數(shù)訓練過程 中,掃描儀獲取的深度圖即用作為模型中z的真值。圖2中給出了本發(fā)明中用于將單目線索和立體線索統(tǒng)一到一起 的圖的結(jié)構(gòu)。我們可以看到,該圖由三部分組成圖像塊層、像素層 以及將像素連接到對應圖像塊的邊。為了清楚起見,圖中連接兩層的 邊只是示意性地給出了其中一部分。每一組成部分能量函數(shù)的基本構(gòu) 成以及視差值的標記會在下面分別詳細給出。圖像塊層。在這一層中,視差值被描述為圖像特征的函數(shù)。我們選用了三種局部圖像特征,紋理變化、紋理梯度和霧化值。首先,立體圖像對中的主圖像被分割成均一的矩形區(qū)域,并用17個濾波器在三個圖像尺度上進行濾波,得到每一小塊的特征向量。然后,每個圖像塊作為圖結(jié)點,釆用4連通的柵格鄰域結(jié)構(gòu)連接起來。利用上一步中訓練得到的馬爾科夫隨機場模型參數(shù),我們可以對應于模型公式中的兩個組成部分來定義數(shù)據(jù)項和平滑項。但有一點需要注意,統(tǒng)計學 習得到的概率模型推斷的是深度而在這一階段中我們需要得到的是視差圖。幸運的是,對于極線校正之后的圖像對,在已知圖象間基線長度B以及焦距f的情況下,深度z可以很容易地由視差d導出<formula>formula see original document page 10</formula>因此,數(shù)據(jù)項ED—和平滑項ES一h定義如下<formula>formula see original document page 10</formula><formula>formula see original document page 11</formula>其中<formula>formula see original document page 11</formula>就是上一步訓練得到的馬爾科夫隨機場模型的參數(shù),d, 是圖像塊i的視差值,M,是左圖像中圖像塊的總數(shù)目,N"i)是圖像塊 i的四鄰域。這樣,根據(jù)統(tǒng)計學習得到的先驗知識,圖像塊層的能量 函數(shù)給出了各個視差值標記對應于當前圖像特征的合理度量。像素層。這一層中的圖結(jié)構(gòu)以左圖像中每個像素為結(jié)點,同樣 是4連通的柵格鄰域結(jié)構(gòu)。類似于圖像塊層,能量函數(shù)也同樣由數(shù)據(jù) 項ED一和平滑項ES—組成。在當前的標記下,它們分別給出了兩幅 圖像間對應象素點的顏色不一致性度量以及在相鄰象素點被賦予不 一樣的視差值時給予恰當?shù)膽土P。<formula>formula see original document page 11</formula>其中M2是左圖像中象素的總數(shù)目,N2(p)是象素p的四鄰域,^是一個非負常數(shù),其值大小直接影響平滑約東的力度。此外,還需要注意一個額外的標記,可以記為O,表示遮擋及無限遠的深度(如天空 區(qū)域)。當一個象素被賦予這個特殊標記值時,我們給予的是固定的 懲罰。連接像素和對應圖像塊的邊。在圖像塊層和像素層之間插入邊 來連接像素和它對應的圖像塊,這樣通過在這些邊上定義一個不一致 項就能將視差標記從圖像塊層傳播到像素層,反之亦然。這樣能保證 在圖像塊和它包含的像素被賦予同樣或相近的視差視時能量函數(shù)值 較小。這樣單目線索的推斷就提供了新的約東來引導立體匹配。我們 將此不一致項E,^定義為 <formula>formula see original document page 12</formula>這里懲罰系數(shù)^是一個非負常數(shù)。考慮到效率,不必要將所有的像素點連接到圖像塊。在實驗中,在行和列方向均以3為步長來連接 像素點。視差標記。到現(xiàn)在為止,我們已經(jīng)為圖中的三個組成部分都分別 定義了能量函數(shù)。為了達到視差標記的整體能量最小,用各個部分的 加權(quán)和作為全局的能量函數(shù)Etoml = (>EDpixel + ESpiXel )+ W2 (EDpatCh + ESpatCh K Emis咖teh前兩項分別作用在像素層和圖像塊層上,最后一項作用在連接前 兩部分的邊上。這里,W,、化為兩個權(quán)值,用來平衡三部分能量的作 用。要找出該能量函數(shù)的全局最優(yōu)解,請參見Y. Boykov, O. Veksler, R. Zabih. "Fast approximate energy minimization via graph cuts". IEEE Trans, on Pattern Analysis and Machine Intelligence (PAMI), Vol 23, No. 11, pp. 1222-1239, 2001.中提出了的基于graph cuts的優(yōu)化策略,該策 略可以有效解決計算機視覺中的標記問題。這樣,就求得了最終的視差圖。可以看到,依照該方法,可以將 單目線索和雙目線索統(tǒng)一到同一個框架下,同時對最終的視差圖求解 起到約東作用。以上實施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān) 技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下, 還可以做出各種變化,因此所有等同的技術(shù)方案也屬于本發(fā)明的范 疇,本發(fā)明的專利保護范圍應由其權(quán)利要求限定。
權(quán)利要求
1、一種從圖像中恢復三維幾何信息的方法,其特征在于,所述方法包括以下步驟S1獲取場景圖像及其對應的深度圖作為訓練庫;S2劃分所述圖像為圖像塊,利用統(tǒng)計學習方法以下式描述其對應于不同深度的概率并得到不同的參數(shù)值其中,Ni是圖像塊i的四連通鄰域,M是深度圖中深度值的總數(shù)目,xi是圖像塊i的特征向量,包括圖像塊及其鄰域在三個不同尺度上濾波器返回值的絕對值和以及平方和,NL是歸一化常數(shù),θ、λ為參數(shù),θr,λ1r,λ2r為圖像第r行的參數(shù);S3對用于場景重建的圖像對,建立包含圖像塊層、像素層以及連接像素和對應圖像塊的邊的圖結(jié)構(gòu);S4利用步驟S2中統(tǒng)計學習獲得的參數(shù)定義上述圖結(jié)構(gòu)的能量項;S5將所述能量項作為約束加入到傳統(tǒng)立體匹配的描述像素和像素之間視差關(guān)系的圖中;S6求解出兩幅圖像之間的視差圖。
2、 如權(quán)利要求1所述的從圖像中恢復三維幾何信息的方法,其 特征在于,所述步驟S1包括以下步驟25 Sl-l:獲取場景的三維點云以及對應的彩色圖片;Sl-2:轉(zhuǎn)化所述三維點云為深度圖; Sl-3:釆集若干組彩色圖片及深度圖。
3、 如權(quán)利要求1所述的從圖像中恢復三維幾何信息的方法,其 特征在于,所述步驟S4包括以下步驟S4-l:定義圖結(jié)構(gòu)中圖像塊層的能量項;S4-2:定義圖結(jié)構(gòu)中像素層的能量項;S4-3:定義連接圖像塊層與像素層的邊的不一致項以及定義全局 的能量項。
4、如權(quán)利要求3所述的從圖像中恢復三維幾何信息的方法,其 特征在于,利用下式定義圖像塊層的能量項<formula>formula see original document page 3</formula>其中<formula>formula see original document page 3</formula>為步驟S1中得到的參數(shù),5為基線長度,/為焦 距,4是圖像塊z'的視差值,M7是左圖像中圖像塊的總數(shù)目,M(/) 是圖像塊/的四鄰域。
5、 如權(quán)利要求3所述的從圖像中恢復三維幾何信息的方法,其 特征在于,利用下式定義像素層的能量項,給出兩幅圖像間對應像素 點的顏色不一致性以及在相鄰像素點在被賦予不一樣的視差值時所 給予的懲罰<formula>formula see original document page 3</formula>其中,,為像素層的能量項,M2是左圖像中像素的總數(shù)目,M (p)是像素p的四鄰域,4和《分別為像素p和《的視差,h 為非負常數(shù)。
6、 如權(quán)利要求3所述的從圖像中恢復三維幾何信息的方法,其 特征在于,利用下式定義所述連接像素和對應圖像塊的邊上的不一致 項,使得視差標記在圖像塊層與像素層之間傳播,所述不一致項定義 為<formula>formula see original document page 3</formula>其中<formula>formula see original document page 3</formula>為不一致項,M2是左圖像中像素的總數(shù)目,《和 《分別為像素P和/的視差,K2為非負常數(shù)。
7、如權(quán)利要求3所述的從圖像中恢復三維幾何信息的方法,其特征在于,所述步驟S4還包括利用下式定義全局的能量函數(shù)其中,五^為全局能量項,^^為圖像塊層的能量項,五—,為像素層的能量項,五^^M為不一致項,W以及^2分別為兩個權(quán)值。
全文摘要
本發(fā)明涉及一種從圖像中恢復三維幾何信息的方法。所述方法包括獲取大量場景圖像及其對應的深度圖作為訓練庫;劃分所述圖像為圖像塊,利用統(tǒng)計學習方法描述其對應于不同深度的概率并得到不同的參數(shù)值;對用于場景重建的圖像對建立包含圖像塊層、像素層以及連接像素和對應圖像塊的邊的圖結(jié)構(gòu);利用統(tǒng)計學習所獲的參數(shù)定義上述圖結(jié)構(gòu)的能量項;將所述能量項作為約束加入到傳統(tǒng)立體匹配的描述像素和像素之間視差關(guān)系的圖中;求解出兩幅圖像之間的視差圖。
文檔編號G06T7/00GK101398933SQ20081022434
公開日2009年4月1日 申請日期2008年10月17日 優(yōu)先權(quán)日2008年10月17日
發(fā)明者李仁舉, 查紅彬, 英向華, 馬祥音 申請人:北京大學