亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于深度學(xué)習(xí)的2d圖像轉(zhuǎn)3d圖像的方法及系統(tǒng)的制作方法

文檔序號:10616324閱讀:291來源:國知局
一種基于深度學(xué)習(xí)的2d圖像轉(zhuǎn)3d圖像的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方法及系統(tǒng)。該方法包括:獲取2D單視差圖像的像素單元信息;利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲取所述2D單視差圖像的一元信息;獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系;根據(jù)所述一元信息、相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn)練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò);利用訓(xùn)練好的多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)預(yù)測所述2D單視差圖像的單元像素塊深度圖;將所述單元像素塊深度圖輸入著色器獲取所述2D單視差圖像對應(yīng)的3D圖像。本發(fā)明避免了現(xiàn)有的人工由2D單視差圖像生成深度圖像結(jié)果不準(zhǔn)確、成本高的缺陷,實現(xiàn)了自動將2D圖像轉(zhuǎn)換為3D圖像。
【專利說明】
-種基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及圖像處理技術(shù)領(lǐng)域,具體設(shè)及一種基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的 方法及系統(tǒng)。
【背景技術(shù)】
[0002] 近年來,=維顯示技術(shù)已經(jīng)成為當(dāng)前社會中的熱點(diǎn)技術(shù),被應(yīng)用在生活的各種場 景中。同時,由于3D技術(shù)的興起,隨之而來的2D圖像轉(zhuǎn)3D圖像的需求也不斷增加,但是,在將 2D轉(zhuǎn)3D的過程中,通常采用人工處理方式進(jìn)行,由人工對圖像帖進(jìn)行roto分割、深度信息生 成、人工補(bǔ)圖等操作,人工將原始2d圖像轉(zhuǎn)成深度圖像,需要roto后,把圖像中的一個roto 圈中內(nèi)容加入深度信息,運(yùn)個深度信息一般是靠感覺加入,因而深度生成結(jié)果傾向于生成 深度的人的主觀觀看感受。對于商業(yè)成果的展示,經(jīng)常要做多次檢查及修正。同時,人工處 理圖像的成本過高。
[0003] 在深度信息生成中,隨著深度學(xué)習(xí)發(fā)展迅速,在各個領(lǐng)域都出現(xiàn)了令人欣喜的成 果,越來越多的研究采用深度卷積神經(jīng)網(wǎng)絡(luò)(〔〇醇〇1111:;[0]1曰1化山"曰1化切〇'43,(:順)實現(xiàn) 深度估計。傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò)如Alex化t,vggNet等都是全連接深度卷積神經(jīng)網(wǎng)絡(luò), 由卷積層和全連接層構(gòu)成,通常都是將圖像W標(biāo)準(zhǔn)尺寸作為輸入,產(chǎn)生非空間排布輸出。由 于2D轉(zhuǎn)3D目的是通過任意尺寸的單視差2D圖像,自動生成3D深度信息圖像,因此非空間排 布的輸出結(jié)果無法實現(xiàn)2D轉(zhuǎn)3D的實際應(yīng)用。
[0004] 傳統(tǒng)深度圖像信息輸入的應(yīng)用中,通常是W雙視差圖像作為輸入,輸出是深度信 息估計結(jié)果。但是,目前的2D轉(zhuǎn)3D應(yīng)用中,是通過輸入單視差圖片和深度圖像信息,進(jìn)行立 體顯示,所W此類應(yīng)用無法實現(xiàn)2D轉(zhuǎn)3D的需求。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明所要解決的技術(shù)問題是:現(xiàn)有的人工由2D單視差圖像生成深度圖像結(jié)果不 準(zhǔn)確、成本高的問題。
[0006] 為解決上述技術(shù)問題,本發(fā)明提出了一種基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方 法,該基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方法包括:
[0007] 獲取2D單視差圖像的像素單元信息;
[000引利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲取所述2D單視差圖像的一 兀f目息;
[0009] 獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理 關(guān)系;
[0010] 根據(jù)所述一元信息、相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系 訓(xùn)練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò);
[0011] 利用訓(xùn)練好的多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)預(yù)測所述2D單視差圖像的單元像素塊 深度圖;
[0012] 將所述單元像素塊深度圖輸入著色器獲取所述2D單視差圖像對應(yīng)的3D圖像。
[0013] 可選地,所述獲取2D單視差圖像的像素單元信息包括:
[0014] 將所述2D單視差圖像分割為多個大小相同的像素塊;
[0015] 對各個像素塊進(jìn)行高斯模糊處理獲取像素單元信息;
[0016] 其中,所述像素單元信息包括各個像素塊經(jīng)過高斯模糊后的中屯、像素的深度值。
[0017] 可選地,所述利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲取所述2D單 視差圖像的一元信息包括:
[0018] 利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲取與所述2D單視差圖像對 應(yīng)的多維度的特征圖。
[0019] 可選地,所述獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān)系、色彩空 間關(guān)系和紋理關(guān)系包括:
[0020] 利用線性條件隨機(jī)場獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān)系、 色彩空間關(guān)系和紋理關(guān)系。
[0021] 可選地,所述根據(jù)所述一元信息、相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系 和紋理關(guān)系訓(xùn)練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)包括:
[0022] 根據(jù)所述一元信息相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn) 練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)的第二部分,經(jīng)過前向傳播、反向傳播預(yù)訓(xùn)練所述多尺度深 度全卷積神經(jīng)網(wǎng)絡(luò)的第二部分;
[0023] 根據(jù)所述一元信息相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn) 練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò),經(jīng)過前向傳播、反向傳播微調(diào)整所述多尺度深度全卷積神 經(jīng)網(wǎng)絡(luò)。
[0024] 本發(fā)明還提出了一種基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的系統(tǒng),該系統(tǒng)包括:
[0025] 像素單元信息獲取單元,用于獲取2D單視差圖像的像素單元信息;
[0026] -元信息獲取單元,用于利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲 取所述2D單視差圖像的一元信息;
[0027] 相鄰關(guān)系獲取單元,用于獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān) 系、色彩空間關(guān)系和紋理關(guān)系;
[0028] 神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元,用于根據(jù)所述一元信息、相鄰像素單元的顏色直方圖關(guān)系、色 彩空間關(guān)系和紋理關(guān)系訓(xùn)練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò);
[0029] 單元像素塊預(yù)測單元,用于利用訓(xùn)練好的多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)預(yù)測所述2D 單視差圖像的單元像素塊深度圖;
[0030] 3D圖像獲取單元,用于將所述單元像素塊深度圖輸入著色器獲取所述2D單視差圖 像對應(yīng)的3D圖像。
[0031 ]可選地,所述像素單元信息獲取單元進(jìn)一步用于:
[0032] 將所述2D單視差圖像分割為多個大小相同的像素塊;
[0033] 對各個像素塊進(jìn)行高斯模糊處理獲取像素單元信息;
[0034] 其中,所述像素單元信息包括各個像素塊經(jīng)過高斯模糊后的中屯、像素的深度值。
[0035] 可選地,所述一元信息獲取單元進(jìn)一步用于:
[0036] 利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲取與所述2D單視差圖像對 應(yīng)的多維度的特征圖。
[0037] 可選地,所述相鄰關(guān)系獲取單元進(jìn)一步用于:
[0038] 利用線性條件隨機(jī)場獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān)系、 色彩空間關(guān)系和紋理關(guān)系。
[0039] 可選地,所述神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元進(jìn)一步用于:
[0040] 根據(jù)所述一元信息相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn) 練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)的第二部分,經(jīng)過前向傳播、反向傳播預(yù)訓(xùn)練所述多尺度深 度全卷積神經(jīng)網(wǎng)絡(luò)的第二部分;
[0041] 根據(jù)所述一元信息相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn) 練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò),經(jīng)過前向傳播、反向傳播微調(diào)整所述多尺度深度全卷積神 經(jīng)網(wǎng)絡(luò)。
[0042] 本發(fā)明提供的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方法及系統(tǒng),基于傳統(tǒng)深度卷積 神經(jīng)網(wǎng)絡(luò),構(gòu)建出多尺度深度全卷積神經(jīng)網(wǎng)絡(luò),基于單視差圖像作為輸入,進(jìn)行深度信息估 計,將深度信息輸入著色器獲取3D圖像,避免了現(xiàn)有的人工由2D單視差圖像生成深度圖像 結(jié)果不準(zhǔn)確、成本高的缺陷,實現(xiàn)了自動將2D圖像轉(zhuǎn)換為3D圖像。
【附圖說明】
[0043] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明 的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可W根據(jù) 運(yùn)些附圖獲得其他的附圖。
[0044] 圖1是本發(fā)明一個實施例的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方法的流程示意 圖;
[0045] 圖2是本發(fā)明一個實施例的獲取像素單元信息的原理圖;
[0046] 圖3是本發(fā)明一個實施例的獲取一元信息的原理圖;
[0047] 圖4a是本發(fā)明一個實施例的預(yù)訓(xùn)練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)的效果圖;
[0048] 圖4b是本發(fā)明一個實施例的微調(diào)整多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)的效果圖;
[0049] 圖5是本發(fā)明一個實施例的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的系統(tǒng)的結(jié)構(gòu)示意 圖。
【具體實施方式】
[0050] 為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整的描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0051] 本發(fā)明實施例基于使用ImageNet圖像數(shù)據(jù)庫預(yù)訓(xùn)練好的VGG16模型進(jìn)行開發(fā),構(gòu) 造出全卷積深度神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)由屯個卷積層構(gòu)成,前五個卷積層直接采用VGG16模型中的 前五層,添加了 一些卷積層,W實現(xiàn)更深的全卷積神經(jīng)網(wǎng)絡(luò)。
[0052] 圖1是本發(fā)明一個實施例的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方法的流程示意 圖。如圖I所示,本發(fā)明實施例方法包括:
[0053] Sll:獲取2D單視差圖像的像素單元信息;
[0054] S12:利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲取所述2D單視差圖像 的一元信息;
[0055] S13:獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和 紋理關(guān)系;
[0056] S14:根據(jù)所述一元信息、相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理 關(guān)系訓(xùn)練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò);
[0057] S15:利用訓(xùn)練好的多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)預(yù)測所述2D單視差圖像的單元像 素塊深度圖;
[0058] S16:將所述單元像素塊深度圖輸入著色器獲取所述2D單視差圖像對應(yīng)的3D圖像。
[0059] 本發(fā)明實施例的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方法,基于傳統(tǒng)深度卷積神經(jīng) 網(wǎng)絡(luò),構(gòu)建出多尺度深度全卷積神經(jīng)網(wǎng)絡(luò),基于單視差圖像作為輸入,進(jìn)行深度信息估計, 將深度信息輸入著色器獲取3D圖像,避免了現(xiàn)有的人工由2D單視差圖像生成深度圖像結(jié)果 不準(zhǔn)確、成本高的缺陷,實現(xiàn)了自動將2D圖像轉(zhuǎn)換為3D圖像。
[0060] 在本發(fā)明實施例的一種優(yōu)選的實施方式中,與圖1中的方法類似,步驟Sll具體包 括:
[0061] 將所述2D單視差圖像分割為多個大小相同的像素塊;
[0062] 對各個像素塊進(jìn)行高斯模糊處理獲取像素單元信息;
[0063] 其中,所述像素單元信息包括各個像素塊經(jīng)過高斯模糊后的中屯、像素的深度值。
[0064] 圖2是本發(fā)明一個實施例的獲取像素單元信息的原理圖。如圖2所示,本發(fā)明實施 例對于網(wǎng)絡(luò)訓(xùn)練的目的是推斷每個像素的深度在單個圖像中描繪的一個場景,因此可W假 設(shè)圖像由大小均勻的像素區(qū)域構(gòu)成。原始2D單視差圖像大小比如是640X480(如圖2中第一 幅圖),按20X20的尺寸把原圖像劃分成相同大小的像素塊(如圖2中的第二幅圖),對各個 像素塊進(jìn)行高斯模糊處理,再取各個像素塊的中屯、像素的深度值,組成32X24的圖像(如圖 2中的第=幅圖),由此得到一個方塊深度值矩陣。
[00化]圖1中的步驟S12具體包括:
[0066] 利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲取與所述2D單視差圖像對 應(yīng)的多維度的特征圖。
[0067] 生成一元信息的前部分網(wǎng)絡(luò)結(jié)構(gòu)(即多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)的第一部分)由 五個卷積層(conv)和最大池化層(Max-poo 1 ing)交替構(gòu)成,如圖2所示,具體流程如下:
[0068] 第一層:卷積層conv_l,卷積核大小為3X3,步長st;ride為l;
[0069] 第二層:最大池化層,池化區(qū)間為2 X 2,步長stride為2;
[0070] 第S層:卷積層conv_2,卷積核大小為3 X 3,步長stride為1;
[0071] 第四層:最大池化層,池化區(qū)間為2 X 2,步長stride為2;
[0072] 第五層:卷積層conv_3,卷積核大小為3 X 3,步長stride為1;
[0073] 第六層:最大池化層,池化區(qū)間為2 X 2,步長stride為2;
[0074] 第屯層:卷積層conv_4,卷積核大小為3 X 3,步長stride為1;
[0075] 第八層:最大池化層,池化區(qū)間為2 X 2,步長stride為2;
[0076] 第九層:卷積層conv_5,卷積核大小為3 X 3,步長stride為I;
[0077] 第十層:最大池化層,池化區(qū)間為2 X 2,步長stride為2。
[0078] 通過前部分全卷積神經(jīng)網(wǎng)絡(luò),將尺寸為480X640,維度為3的輸入圖像提取為尺寸 為32 X 42,維度為512的特征圖。
[0079] 圖1中的步驟S13具體包括:
[0080] 利用線性條件隨機(jī)場獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān)系、 色彩空間關(guān)系和紋理關(guān)系。
[0081] 需要說明的是,本發(fā)明實施例將深度卷積神經(jīng)網(wǎng)絡(luò)與連續(xù)條件隨機(jī)場(CRF)進(jìn)行 結(jié)合,解決了深度連續(xù)性問題。在對圖像進(jìn)行全卷積中,雖然每個像素單元都參與計算,但 是相鄰像素單元間的連續(xù)性并沒有得到考慮。本發(fā)明考慮到馬爾可夫獨(dú)立性假設(shè),其主要 觀點(diǎn)是,對一個節(jié)點(diǎn),在給定他所連接的所有節(jié)點(diǎn)的前提下,他與外接是獨(dú)立的。也就是說, 一個像素單元的連續(xù)性只與和它相鄰的像素單元有關(guān)系,和其他的像素單元的關(guān)系是獨(dú)立 的。因此,本發(fā)明基于隱馬爾可夫模型的線性條件隨機(jī)場(CRF)提取輸入圖像相鄰像素單元 的顏色直方圖關(guān)系、Iuv色彩空間關(guān)系及紋理關(guān)系,作為多尺度的一個輸入,解決每個像素 單元和其相鄰像素單元的特征連續(xù)性問題,構(gòu)建出多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)。
[0082] 圖1中的步驟S14具體包括:
[0083] 根據(jù)所述一元信息相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn) 練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)的第二部分,經(jīng)過前向傳播、反向傳播預(yù)訓(xùn)練所述多尺度深 度全卷積神經(jīng)網(wǎng)絡(luò)的第二部分;
[0084] 后部分網(wǎng)絡(luò)(即多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)的第二部分)的具體結(jié)構(gòu)如下:
[00化]第一層:卷積層conv_l,卷積核大小為3X3,步長st;ride為l;
[00化]第二層:卷積層conv_2,卷積核大小為3 X 3,步長stride為1;
[0087] 第=層:單元像素池化層,將尺寸為32X42維度為512的輸入向量合并成1344;
[0088] 第四層:卷積層conv_3,卷積核大小為1 X 1,步長stride為1;
[0089] 第五層:卷積層conv_4,卷積核大小為1 X 1,步長stride為1;
[0090] 第六層:邏輯層logistic,把激活函數(shù)作為邏輯函數(shù),如下式:
[00川 f(x) = (l+e-x)-i
[0092] 第屯層:卷積層conv_5,卷積核大小為1 X 1,步長stride為1;
[0093] 第八層:CRF損耗層。
[0094] 根據(jù)所述一元信息相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn) 練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò),經(jīng)過前向傳播、反向傳播微調(diào)整所述多尺度深度全卷積神 經(jīng)網(wǎng)絡(luò)。
[00M]本發(fā)明構(gòu)建的多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)基于反向傳播算法,將訓(xùn)練分為預(yù)訓(xùn)練 (Pretrain)和微調(diào)整訓(xùn)練(Finetune)兩個部分,在預(yù)訓(xùn)練中,本發(fā)明實施例首先經(jīng)過VGG16 的卷積層,提取輸入圖像的一元信息,隨后將一元信息、相鄰像素單元的顏色直方圖關(guān)系、 色彩空間關(guān)系和紋理關(guān)系進(jìn)行結(jié)合,傳入后面的網(wǎng)絡(luò)。運(yùn)樣在提取一元信息的網(wǎng)絡(luò)中,不需 要進(jìn)行反向傳遞,節(jié)省了修改生成一元信息的網(wǎng)絡(luò)的權(quán)重時間。而在微調(diào)整網(wǎng)絡(luò)中,將原圖 作為輸入,網(wǎng)絡(luò)進(jìn)行到一元特征階段將其他特征信息與之結(jié)合,運(yùn)樣,在進(jìn)行反向傳播中, 用來生成一元信息的網(wǎng)絡(luò)部分權(quán)重也會被修正,很好的節(jié)省了整體訓(xùn)練時間,提高了訓(xùn)練 效率。
[0096] 本發(fā)明實施例采用60291張單視差圖像及深度信息圖作為訓(xùn)練集(train) ,10000 張單視差圖像及深度信息圖作為檢驗集(val),經(jīng)過預(yù)訓(xùn)練20輪(如圖4a),微調(diào)整訓(xùn)練15輪 (如圖4b)后,錯誤率(regression error)降到IOW下,并沒有發(fā)生過擬合現(xiàn)象。
[0097] 本發(fā)明實施例網(wǎng)絡(luò)訓(xùn)練中采用反向傳播算法,在前向傳播中,網(wǎng)絡(luò)訓(xùn)練的誤差采 用平方誤差代價函數(shù)進(jìn)行評定,在取得總誤差后,對誤差進(jìn)行平均,可W得到每輪的誤差 率??傉`差的平均值計算公式如下:
[009引
[0099] 其中,C代表最終輸出的像素單元總數(shù),n代表訓(xùn)練的總輪數(shù),由此螺表示第k個像 素單元在第n輪的訓(xùn)練后深度值,yk表示第k個像素單元輸入時的深度值,表示總誤差的平 均值。
[0100] 因為在全部訓(xùn)練集上的誤差只是每個訓(xùn)練樣本的誤差的總和,所W只討論對于一 個誤差樣本的反向傳播,對于第n個樣本的誤差計算公式如下:
[0101]
[0102] -般,為了在梯度下降過程中增加收斂性,數(shù)據(jù)集數(shù)據(jù)先進(jìn)性歸一化處理。根據(jù)反 向傳播規(guī)則計算代價損失E關(guān)于網(wǎng)絡(luò)中每一個權(quán)值的偏導(dǎo)數(shù),偏導(dǎo)數(shù)的計算公式如下:
[0103] 二
[0104]
[0105] 在反向傳播中,反向傳播回來的誤差可W看作是每個神經(jīng)元的基的靈敏度,即b變 化多少,誤差會隨著巧化《少,也就是誤差對基的變化率,即導(dǎo)數(shù),計算公式如下:
[0106]
[0107]通過在每一層的誤差修正神經(jīng)元的權(quán)重,實現(xiàn)權(quán)重更新。將更新后的權(quán)重保存為 訓(xùn)練模型。由3
,也就是說基的靈敏度和誤差E對一個節(jié)點(diǎn)的全部 輸入U的導(dǎo)數(shù)I是相等的。由于輸出層每個神經(jīng)元的靈敏度不同,所W用點(diǎn)乘來修正神經(jīng)元 靈敏度;反向傳播計算公式如下:
[010 引 Se=(W"l)S"l.*(ue)
[0109] 最后,對每個神經(jīng)元巧見則進(jìn)行權(quán)值更新,即對給定的神經(jīng)元,得到它的輸入,然后 用運(yùn)個神經(jīng)元的S進(jìn)行縮放。W向量形式表述為,對于第i層,誤差對于該層每個權(quán)值的導(dǎo)數(shù) 是該層的輸入與該層靈敏度的叉乘。然后得到偏導(dǎo)數(shù)乘W-個負(fù)學(xué)習(xí)率就是該層的神經(jīng)元 的權(quán)值更新,對于每一個權(quán)值W都有一個特定的學(xué)習(xí)率n,計算公式如下:
[0110]
[0111]
[0112]本發(fā)明實施例利用訓(xùn)練網(wǎng)絡(luò)訓(xùn)練出的網(wǎng)絡(luò)模型,將原始2D圖像作為輸入,從網(wǎng)絡(luò) 第一層開始逐層前進(jìn),直至網(wǎng)絡(luò)最后一層,輸出深度圖。由于采用了單元像素塊的方式進(jìn)行 深度預(yù)測,預(yù)測出的深度圖像信息由尺寸相等的方塊像素信息構(gòu)成。在實際應(yīng)用中,需要將 單元像素塊深度圖轉(zhuǎn)換成平滑連續(xù)的深度圖像才能進(jìn)行2D轉(zhuǎn)3D應(yīng)用。因此,在網(wǎng)絡(luò)預(yù)測結(jié) 束后,將單元像素塊深度圖輸入著色器(Anat Levin研究的Colorization Using Optimization)進(jìn)行轉(zhuǎn)換,獲得轉(zhuǎn)換后的深度圖像。
[0113] 圖5是本發(fā)明一個實施例的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的系統(tǒng)的結(jié)構(gòu)示意 圖。如圖5所示,本發(fā)明實施例的系統(tǒng)包括:像素單元信息獲取單元51、一元信息獲取單元 52、相鄰關(guān)系獲取單元53、神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元54、單元像素塊預(yù)測單元55和3D圖像獲取單元 56;具體地:
[0114] 像素單元信息獲取單元51,用于獲取2D單視差圖像的像素單元信息;
[0115] -元信息獲取單元52,用于利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息 獲取所述2D單視差圖像的一元信息;
[0116] 相鄰關(guān)系獲取單元53,用于獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖 關(guān)系、色彩空間關(guān)系和紋理關(guān)系;
[0117] 神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元54,用于根據(jù)所述一元信息、相鄰像素單元的顏色直方圖關(guān)系、 色彩空間關(guān)系和紋理關(guān)系訓(xùn)練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò);
[0118] 單元像素塊預(yù)測單元55,用于利用訓(xùn)練好的多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)預(yù)測所述 2D單視差圖像的單元像素塊深度圖;
[0119] 3D圖像獲取單元56,用于將所述單元像素塊深度圖輸入著色器獲取所述2D單視差 圖像對應(yīng)的3D圖像。
[0120] 在一種可選的實施方式中,像素單元信息獲取單元51進(jìn)一步用于:
[0121] 將所述2D單視差圖像分割為多個大小相同的像素塊;
[0122] 對各個像素塊進(jìn)行高斯模糊處理獲取像素單元信息;
[0123] 其中,所述像素單元信息包括各個像素塊經(jīng)過高斯模糊后的中屯、像素的深度值。
[0124] 進(jìn)一步地,一元信息獲取單元52用于:
[0125] 利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲取與所述2D單視差圖像對 應(yīng)的多維度的特征圖。
[01 %]進(jìn)一步地,相鄰關(guān)系獲取單元53用于:
[0127] 利用線性條件隨機(jī)場獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān)系、 色彩空間關(guān)系和紋理關(guān)系。
[0128] 進(jìn)一步地,神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元54用于:
[0129] 根據(jù)所述一元信息相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn) 練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)的第二部分,經(jīng)過前向傳播、反向傳播預(yù)訓(xùn)練所述多尺度深 度全卷積神經(jīng)網(wǎng)絡(luò)的第二部分;
[0130] 根據(jù)所述一元信息相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn) 練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò),經(jīng)過前向傳播、反向傳播微調(diào)整所述多尺度深度全卷積神 經(jīng)網(wǎng)絡(luò)。
[0131] 本實施例的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的系統(tǒng)可W用于執(zhí)行上述方法實施 例,其原理和技術(shù)效果類似,此處不再寶述。
[0132] 本發(fā)明提供的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方法及系統(tǒng),基于傳統(tǒng)深度卷積 神經(jīng)網(wǎng)絡(luò),構(gòu)建出多尺度深度全卷積神經(jīng)網(wǎng)絡(luò),基于單視差圖像作為輸入,進(jìn)行深度信息估 計,將深度信息輸入著色器獲取3D圖像,避免了現(xiàn)有的人工由2D單視差圖像生成深度圖像 結(jié)果不準(zhǔn)確、成本高的缺陷,實現(xiàn)了自動將2D圖像轉(zhuǎn)換為3D圖像。
[0133] 需要說明的是術(shù)語"包括"、"包含"或者其任何其他變體意在涵蓋非排他性的包 含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括 沒有明確列出的其他要素,或者是還包括為運(yùn)種過程、方法、物品或者設(shè)備所固有的要素。 在沒有更多限制的情況下,由語句"包括一個……"限定的要素,并不排除在包括所述要素 的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0134] 本發(fā)明的說明書中,說明了大量具體細(xì)節(jié)。然而能夠理解的是,本發(fā)明的實施例可 W在沒有運(yùn)些具體細(xì)節(jié)的情況下實踐。在一些實例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技 術(shù),W便不模糊對本說明書的理解。類似地,應(yīng)當(dāng)理解,為了精簡本發(fā)明公開并幫助理解各 個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特 征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解 釋呈反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更 多的特征。更確切地說,如權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實 施例的所有特征。因此,遵循【具體實施方式】的權(quán)利要求書由此明確地并入該【具體實施方式】, 其中每個權(quán)利要求本身都作為本發(fā)明的單獨(dú)實施例。
[0135] W上實施例僅用于說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例 對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可W對前述各實施 例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而運(yùn)些修改或替 換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。
【主權(quán)項】
1. 一種基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方法,其特征在于,包括: 獲取2D單視差圖像的像素單元信息; 利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲取所述2D單視差圖像的一元信 息; 獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān) 系; 根據(jù)所述一元信息、相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn)練 多尺度深度全卷積神經(jīng)網(wǎng)絡(luò); 利用訓(xùn)練好的多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)預(yù)測所述2D單視差圖像的單元像素塊深度 圖; 將所述單元像素塊深度圖輸入著色器獲取所述2D單視差圖像對應(yīng)的3D圖像。2. 根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方法,其特征在于,所述獲 取2D單視差圖像的像素單元信息包括: 將所述2D單視差圖像分割為多個大小相同的像素塊; 對各個像素塊進(jìn)行高斯模糊處理獲取像素單元信息; 其中,所述像素單元信息包括各個像素塊經(jīng)過高斯模糊后的中心像素的深度值。3. 根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方法,其特征在于,所述利 用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲取所述2D單視差圖像的一元信息包 括: 利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲取與所述2D單視差圖像對應(yīng)的 多維度的特征圖。4. 根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方法,其特征在于,所述獲 取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系包括: 利用線性條件隨機(jī)場獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān)系、色彩 空間關(guān)系和紋理關(guān)系。5. 根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的方法,其特征在于,所述根 據(jù)所述一元信息、相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn)練多尺度 深度全卷積神經(jīng)網(wǎng)絡(luò)包括: 根據(jù)所述一元信息相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn)練多 尺度深度全卷積神經(jīng)網(wǎng)絡(luò)的第二部分,經(jīng)過前向傳播、反向傳播預(yù)訓(xùn)練所述多尺度深度全 卷積神經(jīng)網(wǎng)絡(luò)的第二部分; 根據(jù)所述一元信息相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn)練多 尺度深度全卷積神經(jīng)網(wǎng)絡(luò),經(jīng)過前向傳播、反向傳播微調(diào)整所述多尺度深度全卷積神經(jīng)網(wǎng) 絡(luò)。6. -種基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的系統(tǒng),其特征在于,包括: 像素單元信息獲取單元,用于獲取2D單視差圖像的像素單元信息; 一元信息獲取單元,用于利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲取所 述2D單視差圖像的一元信息; 相鄰關(guān)系獲取單元,用于獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān)系、 色彩空間關(guān)系和紋理關(guān)系; 神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元,用于根據(jù)所述一元信息、相鄰像素單元的顏色直方圖關(guān)系、色彩空 間關(guān)系和紋理關(guān)系訓(xùn)練多尺度深度全卷積神經(jīng)網(wǎng)絡(luò); 單元像素塊預(yù)測單元,用于利用訓(xùn)練好的多尺度深度全卷積神經(jīng)網(wǎng)絡(luò)預(yù)測所述2D單視 差圖像的單元像素塊深度圖; 3D圖像獲取單元,用于將所述單元像素塊深度圖輸入著色器獲取所述2D單視差圖像對 應(yīng)的3D圖像。7. 根據(jù)權(quán)利要求6所述的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的系統(tǒng),其特征在于,所述像 素單元信息獲取單元進(jìn)一步用于: 將所述2D單視差圖像分割為多個大小相同的像素塊; 對各個像素塊進(jìn)行高斯模糊處理獲取像素單元信息; 其中,所述像素單元信息包括各個像素塊經(jīng)過高斯模糊后的中心像素的深度值。8. 根據(jù)權(quán)利要求6所述的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的系統(tǒng),其特征在于,所述一 元信息獲取單元進(jìn)一步用于: 利用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)所述像素單元信息獲取與所述2D單視差圖像對應(yīng)的 多維度的特征圖。9. 根據(jù)權(quán)利要求6所述的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的系統(tǒng),其特征在于,所述相 鄰關(guān)系獲取單元進(jìn)一步用于: 利用線性條件隨機(jī)場獲取所述2D單視差圖像的相鄰像素單元的顏色直方圖關(guān)系、色彩 空間關(guān)系和紋理關(guān)系。10. 根據(jù)權(quán)利要求6所述的基于深度學(xué)習(xí)的2D圖像轉(zhuǎn)3D圖像的系統(tǒng),其特征在于,所述 神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元進(jìn)一步用于: 根據(jù)所述一元信息相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn)練多 尺度深度全卷積神經(jīng)網(wǎng)絡(luò)的第二部分,經(jīng)過前向傳播、反向傳播預(yù)訓(xùn)練所述多尺度深度全 卷積神經(jīng)網(wǎng)絡(luò)的第二部分; 根據(jù)所述一元信息相鄰像素單元的顏色直方圖關(guān)系、色彩空間關(guān)系和紋理關(guān)系訓(xùn)練多 尺度深度全卷積神經(jīng)網(wǎng)絡(luò),經(jīng)過前向傳播、反向傳播微調(diào)整所述多尺度深度全卷積神經(jīng)網(wǎng) 絡(luò)。
【文檔編號】H04N13/02GK105979244SQ201610377597
【公開日】2016年9月28日
【申請日】2016年5月31日
【發(fā)明人】趙天奇, 渠源, 張陽
【申請人】十二維度(北京)科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1