本發(fā)明屬于計(jì)算機(jī)視覺(jué)和計(jì)算機(jī)圖形學(xué)的交叉,具體涉及一種基于語(yǔ)義布局驅(qū)動(dòng)的場(chǎng)景手繪草圖生成和編輯方法、系統(tǒng)、設(shè)備和介質(zhì)。
背景技術(shù):
1、場(chǎng)景草圖生成任務(wù)是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要研究方向。場(chǎng)景草圖相關(guān)的應(yīng)用也十分廣泛,比如3d場(chǎng)景的手繪場(chǎng)景草圖建模能夠幫助建筑設(shè)計(jì)師分析、設(shè)計(jì)和展示自己的成果;在游戲領(lǐng)域,通過(guò)設(shè)想的場(chǎng)景草圖,游戲場(chǎng)景設(shè)計(jì)師能夠根據(jù)場(chǎng)景草圖快速搭建精美的游戲場(chǎng)景,這樣可以大幅度降低游戲開(kāi)發(fā)成本,提高開(kāi)發(fā)效率。因此,對(duì)于場(chǎng)景的手繪草圖的生成是一個(gè)非常有前景的研究課題。但同時(shí),場(chǎng)景草圖生成也是一個(gè)非常具有挑戰(zhàn)性的任務(wù),一個(gè)場(chǎng)景中可能包含著單一物體簡(jiǎn)單背景、單一物體復(fù)雜背景以及多個(gè)物體復(fù)雜背景等各種前景和背景的交叉關(guān)系組成,因此想要計(jì)算機(jī)能夠理解這種復(fù)雜的場(chǎng)景關(guān)系并生成合理的草圖是非常困難的。
2、現(xiàn)有的草圖相關(guān)的工作主要都是基于深度學(xué)習(xí)的方法,利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取原始圖像以及草圖的圖像特征。這些方法相比于傳統(tǒng)的草圖生成算法,可以生成質(zhì)量更高的草圖。但是,現(xiàn)有的方法也存在一些局限性,例如:草圖生成僅僅關(guān)注單個(gè)物體,并沒(méi)有將生成任務(wù)擴(kuò)大到場(chǎng)景級(jí)別上;現(xiàn)有方法在技術(shù)層面上大多采用邊緣檢測(cè)的方法來(lái)提取原始圖像的邊緣信息,導(dǎo)致生成的草圖在視覺(jué)上更多地傳達(dá)物體的幾何特征,無(wú)法突出語(yǔ)義特征。
3、公開(kāi)號(hào)為cn106126581b的專(zhuān)利申請(qǐng)文件,公開(kāi)了一種基于深度學(xué)習(xí)的手繪草圖圖像檢索方法,該發(fā)明通過(guò)邊緣輪廓檢測(cè)技術(shù)和非極大值抑制技術(shù)實(shí)現(xiàn)彩色圖像到類(lèi)草圖圖像的轉(zhuǎn)換,之后利用深度學(xué)習(xí)技術(shù)來(lái)學(xué)習(xí)待查詢(xún)草圖和類(lèi)草圖的深度特征區(qū)分性特征表示,最后利用所學(xué)習(xí)到的深度特征來(lái)進(jìn)行基于草圖的圖像檢索工作。但是該方法所轉(zhuǎn)換的圖像中僅僅包含了單個(gè)前景物體,導(dǎo)致所生成的類(lèi)草圖圖像僅僅做到了對(duì)單個(gè)物體的草圖生成,因此其并沒(méi)有在整個(gè)場(chǎng)景級(jí)別上做草圖生成;此外,由于是使用了邊緣檢測(cè)技術(shù),生成的類(lèi)草圖圖像中只反映了物體偏向于幾何方面的邊緣特征,而忽視了物體的語(yǔ)義特征,且生成的草圖不具備人類(lèi)手繪的特性。
4、公開(kāi)號(hào)為cn108009286a的專(zhuān)利申請(qǐng)文件,公開(kāi)了一種基于深度學(xué)習(xí)的草圖檢索方法,該發(fā)明采用計(jì)算常規(guī)圖片邊緣概率圖并獲取邊緣概率描述子的方法實(shí)現(xiàn)彩色常規(guī)圖到類(lèi)手繪圖像的轉(zhuǎn)換,之后通過(guò)卷積神經(jīng)網(wǎng)絡(luò)建立手繪圖像所需的特征庫(kù)來(lái)進(jìn)行后續(xù)的檢索任務(wù),提高了檢索的準(zhǔn)確率。但是該方法給出的草圖同樣只有單個(gè)物體,無(wú)法草圖生成任務(wù)擴(kuò)大到場(chǎng)景級(jí)別上,同時(shí)還具備使用邊緣信息生成草圖方法共有的缺點(diǎn),即無(wú)法突出物體的語(yǔ)義信息,并且生成的草圖不具備多樣性。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)當(dāng)前的場(chǎng)景草圖生成算法無(wú)法生成符合人類(lèi)手繪草圖特征的不足,以及其結(jié)果草圖對(duì)于原場(chǎng)景圖像信息的反映的局限性,本發(fā)明的目的在于提供一種基于語(yǔ)義布局驅(qū)動(dòng)的場(chǎng)景手繪草圖生成和編輯方法、系統(tǒng)、設(shè)備和介質(zhì),通過(guò)引入基于transformer架構(gòu)的場(chǎng)景布局建模模塊,使得最終生成的場(chǎng)景草圖符合人類(lèi)手繪草圖的對(duì)應(yīng)位置松散的特征,通過(guò)引入單個(gè)物體草圖生成模塊,使用融合條件來(lái)控制擴(kuò)散模型的生成過(guò)程,有效監(jiān)督生成過(guò)程,提高了模型輸出結(jié)果的質(zhì)量,通過(guò)引入草圖矢量化模塊,有效地展示出人類(lèi)手繪場(chǎng)景草圖時(shí)詳略得當(dāng)?shù)奶卣?,并使得結(jié)果可編輯化輸出,最終通過(guò)將各個(gè)模塊連接到一起,共同組成一個(gè)由場(chǎng)景圖像到多樣化、可編輯的手繪場(chǎng)景草圖的生成模型,使得最終生成的場(chǎng)景草圖具備場(chǎng)景級(jí)別的手繪抽象特性,同時(shí)在布局和物體形態(tài)上顯示出多樣性。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案是:
3、一種基于語(yǔ)義布局驅(qū)動(dòng)的場(chǎng)景手繪草圖生成和編輯方法,包括以下步驟:
4、步驟1,場(chǎng)景圖像預(yù)處理,得到預(yù)處理后的場(chǎng)景圖像中的單個(gè)物體的圖像草圖圖像對(duì);
5、步驟2,構(gòu)建場(chǎng)景圖像全景分割模塊、場(chǎng)景布局建模模塊、單個(gè)物體草圖生成模塊、草圖矢量化模塊以及場(chǎng)景草圖組合模塊;其中:
6、場(chǎng)景圖像全景分割模塊用于將輸入的場(chǎng)景圖像進(jìn)行全景分割,將場(chǎng)景圖像的場(chǎng)景級(jí)信息轉(zhuǎn)換為物體級(jí)別的信息,輸出原場(chǎng)景圖像的語(yǔ)義布局、輸入的場(chǎng)景圖像中所有物體的類(lèi)別以及對(duì)應(yīng)的物體實(shí)例分割圖和背景分割圖;
7、場(chǎng)景布局建模模塊用于對(duì)原場(chǎng)景圖像的語(yǔ)義布局進(jìn)行預(yù)測(cè)并生成多個(gè)場(chǎng)景圖像布局;
8、單個(gè)物體草圖生成模塊用于生成輸入場(chǎng)景圖像中的像素級(jí)的單個(gè)物體草圖,并實(shí)現(xiàn)同一物體對(duì)應(yīng)多種多樣形態(tài)的物體草圖;
9、草圖矢量化模塊用于將場(chǎng)景圖像中的像素級(jí)的單個(gè)物體草圖變成單個(gè)物體的矢量化草圖;
10、場(chǎng)景草圖組合模塊用于將單個(gè)物體的矢量化草圖根據(jù)生成的多個(gè)場(chǎng)景圖像布局組合為多個(gè)場(chǎng)景草圖;
11、步驟3,對(duì)步驟2構(gòu)建的場(chǎng)景布局建模模塊和單個(gè)物體草圖生成模塊進(jìn)行模型訓(xùn)練;
12、步驟4,基于步驟2構(gòu)建的場(chǎng)景圖像全景分割模塊、草圖矢量化模塊和場(chǎng)景草圖組合模塊,以及步驟3訓(xùn)練完成的場(chǎng)景布局建模模塊和單個(gè)物體草圖生成模塊,構(gòu)建完整的場(chǎng)景草圖生成模型。
13、所述步驟1的具體方法為:
14、步驟1.1,針對(duì)場(chǎng)景圖像中的多個(gè)物體,以及物體對(duì)應(yīng)的草圖,將物體及其對(duì)應(yīng)的草圖一一對(duì)應(yīng),構(gòu)成單個(gè)物體的圖像草圖對(duì),物體草圖作為真實(shí)目標(biāo)圖像;
15、步驟1.2,通過(guò)pytorch深度學(xué)習(xí)圖像處理庫(kù)工具對(duì)步驟1.1中得到的單個(gè)物體的圖像草圖對(duì)進(jìn)行讀取,在輸入單個(gè)物體草圖生成模塊之前將單個(gè)物體的圖像草圖對(duì)的形狀調(diào)整至單個(gè)物體草圖圖像生成模塊所需大小;同時(shí)對(duì)單個(gè)物體的圖像草圖對(duì)進(jìn)行歸一化處理,輸入的圖像數(shù)據(jù)色值范圍從[0~255]的整型數(shù)值映射到[-1~1]的浮點(diǎn)數(shù)值,得到預(yù)處理后的單個(gè)物體的圖像草圖圖像對(duì)。
16、所述步驟2的具體方法為:
17、步驟2.1,場(chǎng)景圖像全景分割模塊包括一個(gè)全景分割網(wǎng)絡(luò)模型,全景分割網(wǎng)絡(luò)模型用于將輸入的場(chǎng)景圖像進(jìn)行全景分割,得到原場(chǎng)景圖像的語(yǔ)義布局、輸入的場(chǎng)景圖像中所有物體的類(lèi)別以及對(duì)應(yīng)的物體實(shí)例分割圖和背景分割圖;
18、步驟2.2,場(chǎng)景布局建模模塊包括一個(gè)基于transformer架構(gòu)的網(wǎng)絡(luò)模型,基于transformer架構(gòu)的網(wǎng)絡(luò)模型中包括多個(gè)transformer?layer,每個(gè)transformer?layer由兩個(gè)layernorm歸一化層、causal自注意力層以及一個(gè)mlp多層感知器組成;所述mlp多層感知器由linear線性層、gelu激活層以及l(fā)inear線性層組成;通過(guò)輸入步驟2.1得到的原場(chǎng)景圖像的語(yǔ)義布局中的一個(gè)起始布局信息元素,所述transformer?layer預(yù)測(cè)下一個(gè)可能的場(chǎng)景布局信息元素,最終輸出由原場(chǎng)景圖像的語(yǔ)義布局預(yù)測(cè)的多個(gè)場(chǎng)景圖像布局;
19、步驟2.3,單個(gè)物體草圖生成模塊包括一個(gè)自編碼模型以及一個(gè)基于條件的擴(kuò)散生成模型,所述基于條件的擴(kuò)散生成模型輸入為步驟2.1得到的輸入的場(chǎng)景圖像中所有物體的類(lèi)別以及對(duì)應(yīng)的物體實(shí)例分割圖,所述單個(gè)物體草圖生成模塊輸出為輸入場(chǎng)景圖像中的像素級(jí)的單個(gè)物體草圖;
20、步驟2.4,草圖矢量化模塊包括一個(gè)可微光柵化器,草圖矢量化模塊的輸入為步驟2.3得到的輸入場(chǎng)景圖像中的像素級(jí)的單個(gè)物體草圖,對(duì)于輸入的草圖,初始化n條貝塞爾曲線,將這些曲線的控制點(diǎn)的位置信息以及線條的顏色信息作為可訓(xùn)練的參數(shù),不斷優(yōu)化迭代使得最終的由貝塞爾曲線構(gòu)成的矢量化草圖的視覺(jué)效果完美逼近給定的像素級(jí)物體草圖,達(dá)到矢量化的目的,所述草圖矢量化模塊輸出為單個(gè)物體的矢量化草圖;
21、步驟2.5,場(chǎng)景草圖組合模塊根據(jù)場(chǎng)景布局建模模塊輸出的由原場(chǎng)景圖像的語(yǔ)義布局預(yù)測(cè)的多個(gè)場(chǎng)景圖像布局以及草圖矢量化模塊輸出的單個(gè)物體的矢量化草圖組合在一起,最終輸出多個(gè)場(chǎng)景草圖。
22、所述步驟3的具體方法為:
23、步驟3.1,對(duì)于場(chǎng)景布局建模模塊的訓(xùn)練,選取adamw作為參數(shù)優(yōu)化器,設(shè)置初始學(xué)習(xí)率、最大迭代次數(shù)、單次迭代的批處理數(shù)量和betas參數(shù);
24、對(duì)于單個(gè)物體草圖生成模塊的訓(xùn)練,分為兩個(gè)階段進(jìn)行訓(xùn)練,第一個(gè)階段訓(xùn)練自編碼模型,選取adamw作為參數(shù)優(yōu)化器,設(shè)置初始學(xué)習(xí)率、最大迭代次數(shù)、單次迭代的批處理數(shù)量和betas參數(shù);第二個(gè)階段訓(xùn)練基于條件的擴(kuò)散生成模型,設(shè)置初始學(xué)習(xí)率、最大迭代次數(shù)、單次迭代的批處理數(shù)量和betas參數(shù);
25、步驟3.2,對(duì)于場(chǎng)景布局建模模塊的訓(xùn)練,采用如下的交叉熵?fù)p失函數(shù):
26、
27、其中,oi表示第i個(gè)布局元素的值,oj表示第i個(gè)元素之前所有的元素值;
28、對(duì)于單個(gè)物體草圖生成模塊中第一階段的訓(xùn)練,共有三部分損失,分別為:
29、lkl=dkl(z|n(zr))
30、ll1=||(inputs)-(recs)||
31、lperceptual=||vgg(inputs)-vgg(recs)||
32、其中,dkl表示潛空間編碼和隨機(jī)高斯噪聲的kl散度度量;ll1是計(jì)算輸入圖像和重建圖像之間的l1距離,inputs和recs分別表示輸入圖像和重建圖像;lperceptual是計(jì)算輸入圖像和重建圖像經(jīng)過(guò)預(yù)訓(xùn)練模型vgg之后的特征之間的l1距離,也稱(chēng)為感知損失;所述第一階段的訓(xùn)練的最終損失函數(shù)為各部分的加權(quán)和:
33、lfirst=λ1·ll1+λ2·lperceptual+λ3·lkl
34、其中λ1,λ2,λ3分別取1,1,10-6;
35、對(duì)于單個(gè)物體草圖生成模塊的第二階段的訓(xùn)練,采用如下?lián)p失函數(shù):
36、lsecond=eε(x),c,f,r~n(0,1),t[||r-rθ(zt,t,c,f)||2]
37、其中,c,f表示單個(gè)物體對(duì)應(yīng)的類(lèi)別和由特征提取模型所提取的圖像特征,r表示當(dāng)前時(shí)間步中所加的真實(shí)噪聲,rθ表示unet去噪模型,rθ(zt,t,c,f)表示去噪模型預(yù)測(cè)的當(dāng)前時(shí)間步所加的噪聲,兩者求l2距離作為該階段的損失函數(shù);
38、步驟3.3,在模型訓(xùn)練的每次迭代過(guò)程中,將步驟2.1輸出的原場(chǎng)景圖像的語(yǔ)義布局輸入至場(chǎng)景布局建模模塊中進(jìn)行計(jì)算,將步驟1.2輸出的單個(gè)物體的圖像草圖圖像對(duì)輸入至單個(gè)物體草圖生成模塊中進(jìn)行計(jì)算,并在每次計(jì)算后將模型輸出和對(duì)應(yīng)步驟1.1輸出的真實(shí)目標(biāo)圖像輸入到損失函數(shù)中計(jì)算損失的大小,并反向傳播更新模型參數(shù);保存模型文件,并在訓(xùn)練結(jié)束后逐個(gè)測(cè)試不同迭代次數(shù)下的模型文件,運(yùn)行程序采樣得出結(jié)果,相互比較得出最終表現(xiàn)最優(yōu)的模型,得到訓(xùn)練好的場(chǎng)景布局建模模塊和單個(gè)物體草圖生成模塊。
39、所述步驟4的具體方法為:
40、步驟4.1,將場(chǎng)景圖像輸入至場(chǎng)景圖像全景分割模塊中,所述場(chǎng)景圖像全景分割模塊中的全景分割網(wǎng)絡(luò)模型加載預(yù)訓(xùn)練的模型參數(shù),全景分割網(wǎng)絡(luò)模型的輸入尺寸為場(chǎng)景圖像的原始尺寸,輸出為場(chǎng)景圖像的全景分割結(jié)果,包括原場(chǎng)景圖像的語(yǔ)義布局、輸入的場(chǎng)景圖像中所有物體的類(lèi)別以及對(duì)應(yīng)的物體實(shí)例分割圖和背景分割圖;
41、步驟4.2,將步驟4.1中場(chǎng)景圖像全景分割模塊輸出的原場(chǎng)景圖像的語(yǔ)義布局輸入至場(chǎng)景布局建模模塊中,將場(chǎng)景圖像的全景分割結(jié)果中原場(chǎng)景圖像的語(yǔ)義布局定義為一個(gè)向量作為場(chǎng)景圖像的布局信息的表示,并輸入到場(chǎng)景布局建模模塊中,場(chǎng)景布局建模模塊中的l個(gè)transformer?layer網(wǎng)絡(luò)根據(jù)輸入的向量當(dāng)前位置的值以及該位置之前的值來(lái)預(yù)測(cè)下一位的布局信息的值,最終由原始的布局信息得到m個(gè)全新的場(chǎng)景布局,m是一個(gè)可以定制化輸入的值;
42、步驟4.3,連接場(chǎng)景圖像全景分割模塊和單個(gè)物體草圖生成模塊,基于場(chǎng)景圖像全景分割模塊中的全景分割網(wǎng)絡(luò)模型輸出的原場(chǎng)景圖像的語(yǔ)義布局,獲得各個(gè)前景物體的分割圖;單個(gè)物體草圖生成模塊中的特征提取模型提取物體圖像的特征;條件融合模型將步驟2.1得到的原場(chǎng)景圖像的語(yǔ)義布局中的類(lèi)別信息以及使用特征提取模型提取的物體圖像的特征融合到一塊作為基于條件的擴(kuò)散生成模型的條件輸入;unet去噪模型將隨機(jī)高斯噪聲、條件融合模塊的輸出以及基于條件的擴(kuò)散生成模型的當(dāng)前時(shí)間步t作為輸入,預(yù)測(cè)出時(shí)間步t與時(shí)間步t-1之間所加的噪聲,用輸入的隨機(jī)高斯噪聲減去該預(yù)測(cè)噪聲,得到時(shí)間步t-1對(duì)應(yīng)的預(yù)測(cè)圖像,再次使用unet去噪模型將該預(yù)測(cè)圖像、條件融合模塊的輸出以及時(shí)間步t-1作為輸入,預(yù)測(cè)出時(shí)間步t-1與時(shí)間步t-2之間所加的噪聲,再次得到上一時(shí)間步的預(yù)測(cè)圖像,以此類(lèi)推,直到循環(huán)迭代到初始時(shí)間步,得出采樣的單個(gè)物體草圖;
43、步驟4.4,將步驟4.3中得到的單個(gè)物體草圖進(jìn)行矢量化表示,同時(shí),根據(jù)場(chǎng)景布局建模模塊輸出的由原場(chǎng)景圖像的語(yǔ)義布局預(yù)測(cè)的多個(gè)場(chǎng)景圖像布局,將草圖矢量化模塊輸出的單個(gè)物體的矢量化草圖整理到最終的畫(huà)布上來(lái)組成最終的場(chǎng)景草圖輸出;對(duì)于前景草圖的放置,根據(jù)對(duì)應(yīng)布局中的位置信息放置;而對(duì)于背景草圖的放置,在步驟2.1輸出的輸入的場(chǎng)景圖像中的背景分割圖上進(jìn)行像素點(diǎn)聚類(lèi),使用k個(gè)聚類(lèi)中心的位置作為背景草圖的最終位置,同一類(lèi)別的背景使用同一生成的草圖放置在k個(gè)位置上;從而得到多張具有不同場(chǎng)景布局的場(chǎng)景草圖。
44、所述步驟2.3中的自編碼模型和基于條件的擴(kuò)散生成模型具體包括:
45、步驟2.3.1,自編碼模型
46、所述自編碼模型是一個(gè)encoder-decoder結(jié)構(gòu)的網(wǎng)絡(luò),encoder部分采用conv卷積層、downsample下采樣層以及gn歸一化層,用于將步驟1.2得到的預(yù)處理后的單個(gè)物體的圖像草圖圖像對(duì)編碼到潛空間的潛向量;decoder部分同樣采用conv卷積層、upsample上采樣層以及gn歸一化層,用于將潛空間的潛向量解碼為像素空間的圖像;
47、步驟2.3.2,基于條件的擴(kuò)散生成模型
48、基于條件的擴(kuò)散生成模型由特征提取模型、條件融合模型以及unet去噪模型組成;
49、所述特征提取模型采用fpn特征金字塔網(wǎng)絡(luò)架構(gòu),特征提取模型中的自下到上模塊采用resnet50結(jié)構(gòu),特征提取模型用于提取物體圖像的特征;
50、條件融合模型由linear線性層和swish激活層組成,用于將步驟2.1得到的原場(chǎng)景圖像的語(yǔ)義布局中的類(lèi)別信息以及使用特征提取模型提取的物體圖像的特征融合到一塊作為基于條件的擴(kuò)散生成模型的條件輸入;
51、unet去噪模型由down_block、mid_block以及up_block組成,這三個(gè)結(jié)構(gòu)中均包括基礎(chǔ)block模塊,其中,down_block網(wǎng)絡(luò)結(jié)構(gòu)中包括downsample下采樣模塊,up_block網(wǎng)絡(luò)結(jié)構(gòu)中包括upsample上采樣模塊;所述基礎(chǔ)block模塊由兩個(gè)linear線性層和兩個(gè)conv卷積層組成,激活層采用swish激活函數(shù),downsample下采樣模塊由兩個(gè)卷積模塊組成,upsample上采樣模塊由一個(gè)卷積層和一個(gè)反卷積層組成;在down_block以及up_block中特征圖的寬高相同的部分里,將特征圖進(jìn)行級(jí)聯(lián)融合,實(shí)現(xiàn)了多尺度的特征融合。
52、本發(fā)明還提供了一種基于語(yǔ)義布局驅(qū)動(dòng)的場(chǎng)景手繪草圖生成和編輯系統(tǒng),包括:
53、場(chǎng)景圖像預(yù)處理模塊,用于對(duì)場(chǎng)景圖像預(yù)處理,得到預(yù)處理后的場(chǎng)景圖像中的單個(gè)物體的圖像草圖圖像對(duì);
54、場(chǎng)景圖像全景分割模塊,用于將輸入的場(chǎng)景圖像進(jìn)行全景分割,將場(chǎng)景圖像的場(chǎng)景級(jí)信息轉(zhuǎn)換為物體級(jí)別的信息,輸出原場(chǎng)景圖像的語(yǔ)義布局、輸入的場(chǎng)景圖像中所有物體的類(lèi)別以及對(duì)應(yīng)的物體實(shí)例分割圖和背景分割圖;
55、場(chǎng)景布局建模模塊,用于對(duì)原場(chǎng)景圖像的語(yǔ)義布局進(jìn)行預(yù)測(cè)并生成多個(gè)場(chǎng)景圖像布局;
56、單個(gè)物體草圖生成模塊,用于生成輸入場(chǎng)景圖像中的像素級(jí)的單個(gè)物體草圖,并實(shí)現(xiàn)同一物體對(duì)應(yīng)多種多樣形態(tài)的物體草圖;
57、草圖矢量化模塊,用于將場(chǎng)景圖像中的像素級(jí)的單個(gè)物體草圖變成單個(gè)物體的矢量化草圖;
58、場(chǎng)景草圖組合模塊,用于將單個(gè)物體的矢量化草圖根據(jù)生成的多個(gè)場(chǎng)景圖像布局組合為多個(gè)場(chǎng)景草圖;
59、模型訓(xùn)練模塊,用于對(duì)場(chǎng)景布局建模模塊和單個(gè)物體草圖生成模塊進(jìn)行模型訓(xùn)練;
60、場(chǎng)景草圖生成模型構(gòu)建模塊,用于實(shí)現(xiàn)基于場(chǎng)景圖像全景分割模塊、草圖矢量化模塊和場(chǎng)景草圖組合模塊,以及訓(xùn)練完成的場(chǎng)景布局建模模塊和單個(gè)物體草圖生成模塊,構(gòu)建完整的場(chǎng)景草圖生成模型。
61、本發(fā)明還提供了一種基于語(yǔ)義布局驅(qū)動(dòng)的場(chǎng)景手繪草圖生成和編輯設(shè)備,包括:
62、存儲(chǔ)器:存儲(chǔ)上述一種基于語(yǔ)義布局驅(qū)動(dòng)的場(chǎng)景手繪草圖生成和編輯方法的計(jì)算機(jī)程序,為計(jì)算機(jī)可讀取的設(shè)備;
63、處理器:用于執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)所述的一種基于語(yǔ)義布局驅(qū)動(dòng)的場(chǎng)景手繪草圖生成和編輯方法。
64、本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)能夠?qū)崿F(xiàn)所述的一種基于語(yǔ)義布局驅(qū)動(dòng)的場(chǎng)景手繪草圖生成和編輯方法。
65、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
66、1、本發(fā)明通過(guò)場(chǎng)景布局建模模塊、單個(gè)物體草圖生成模塊以及草圖矢量化模塊的創(chuàng)新設(shè)計(jì),同時(shí)搭配場(chǎng)景圖像全景分割模塊和場(chǎng)景草圖組合模塊,共同組成了一種場(chǎng)景草圖生成和編輯的方法,該方法能夠根據(jù)輸入的場(chǎng)景圖像,生成對(duì)應(yīng)的多張具有不同場(chǎng)景布局、物體形態(tài)多樣、草圖細(xì)節(jié)可編輯的人類(lèi)手繪場(chǎng)景草圖,使得最終生成的場(chǎng)景草圖具備場(chǎng)景級(jí)別的手繪抽象特性,同時(shí)能夠突出場(chǎng)景物體的語(yǔ)義特征。
67、2、本發(fā)明通過(guò)引入基于transformer架構(gòu)的場(chǎng)景布局建模模塊,對(duì)輸入的場(chǎng)景圖像的布局進(jìn)行建模并預(yù)測(cè)出多個(gè)場(chǎng)景圖像布局,對(duì)于同一張輸入的場(chǎng)景圖像,本發(fā)明能夠生成多張具有不同布局的人類(lèi)手繪場(chǎng)景草圖。人類(lèi)在手繪場(chǎng)景草圖時(shí),只會(huì)考慮場(chǎng)景中的物體之間的相對(duì)位置關(guān)系,而且人類(lèi)對(duì)這種對(duì)應(yīng)關(guān)系的遵循比較松散,本發(fā)明通過(guò)對(duì)輸入場(chǎng)景布局進(jìn)行建模,可以生成具有不同布局的場(chǎng)景草圖,能夠有效模擬人類(lèi)手繪場(chǎng)景草圖的特性。
68、3、本發(fā)明引入了單個(gè)物體草圖生成模塊,該模塊包含一個(gè)特征提取模型和條件融合模型,特征提取模型能夠有效提取物體圖像的特征,條件融合模型對(duì)物體圖像的特征和物體對(duì)應(yīng)的類(lèi)別信息進(jìn)行融合,將其輸出作為unet去噪模型的輸入,能夠有效監(jiān)督生成過(guò)程,提高模型輸出結(jié)果的質(zhì)量。
69、4、本發(fā)明通過(guò)引入草圖矢量化模塊,對(duì)單個(gè)物體草圖生成模塊輸出的輸入場(chǎng)景圖像中的像素級(jí)的單個(gè)物體草圖進(jìn)行矢量化處理,在矢量化的過(guò)程中能夠靈活控制貝塞爾曲線的粗細(xì)和顏色,能夠有效展示出人類(lèi)手繪場(chǎng)景草圖時(shí)詳略得當(dāng)?shù)奶卣?,此外用戶還能夠自定義這些參數(shù),以此實(shí)現(xiàn)對(duì)場(chǎng)景手繪草圖的編輯操作。
70、綜上,本發(fā)明提出了一種語(yǔ)義布局驅(qū)動(dòng)的復(fù)雜場(chǎng)景多樣化手繪草圖的生成方法,單個(gè)物體草圖生成模塊中在潛空間中進(jìn)行擴(kuò)散過(guò)程的設(shè)計(jì)極大地縮短了模型的采樣時(shí)間,提高了生成效率;該方法不僅實(shí)現(xiàn)了從復(fù)雜場(chǎng)景圖像到草圖的轉(zhuǎn)化,同時(shí)場(chǎng)景布局建模模塊使得結(jié)果的生成布局更加多樣化且場(chǎng)景中物體個(gè)數(shù)可變,單個(gè)物體草圖生成模塊中基于條件的擴(kuò)散生成模塊使得物體外形更加豐富,草圖矢量化模塊使得草圖抽象等級(jí)可定制化,通過(guò)以上的各種效果,使得最終生成的草圖更加接近人類(lèi)手繪草圖,彌補(bǔ)了現(xiàn)有場(chǎng)景草圖生成算法的不足。