專利名稱:一種基于視頻解譯的交互式視頻風(fēng)格化渲染方法
技術(shù)領(lǐng)域:
本發(fā)明是一種基于視頻解譯的交互式視頻風(fēng)格化渲染方法,屬于基于視頻解譯的交互式視頻風(fēng)格化渲染方法的改造技術(shù)。
背景技術(shù):
隨著計算機、數(shù)碼相機和數(shù)碼攝像機大范圍的普及,人們對于影音娛樂方面的制作需求越來越高。隨之引發(fā)的是家庭數(shù)字娛樂領(lǐng)域的蓬勃發(fā)展。越來越多的人開始嘗試當(dāng)起了業(yè)余“導(dǎo)演”,熱衷于制作和編輯各種的普通寫實視頻。最近幾年,各種風(fēng)格化的視頻逐步被人們所接受,并成為流行元素,尤其是在動畫視頻和網(wǎng)游制作等方面。例如手工繪制的油畫短片《老人與?!泛退嬕曨l《小蝌蚪找媽媽》等都引起人們的廣泛專注,前者還獲得奧斯卡短片等一系列獎項。視頻風(fēng)格化渲染不僅需要專業(yè)技術(shù),而且還需要大量人力財力支撐,傳統(tǒng)的視頻風(fēng)格化技術(shù)是通過逐幀繪制方法來實現(xiàn)風(fēng)格化渲染。雖然以這種制作模式完成的作品每幀圖像的視覺效果可以手工控制,但連續(xù)播放則由于缺少幀間的一致性而導(dǎo)致了視頻畫面存在較大的抖動現(xiàn)象,而且這些方法制作周期長、成本高,不利于批量制作。比如,上文提到的《老人與?!返挠彤嫸唐?,雖然時長只有22分鐘,可是制作周期卻長達近3年之久。
發(fā)明內(nèi)容
本發(fā)明的目的在于考慮上述問題而提供一種制作周期短、成本低,利于批量制作的基于視頻解譯的交互式視頻風(fēng)格化渲染方法。本發(fā)明的技術(shù)方案是本發(fā)明基于視頻解譯的交互式視頻風(fēng)格化渲染方法,包括有交互式視頻語義分割模塊、視頻風(fēng)格化模塊,交互式視頻語義分割模塊的分割方法包括如下步驟1)關(guān)鍵幀圖像的交互式分割和自動識別;2)關(guān)鍵幀之間稠密特征點的匹配;3)區(qū)域競爭分割算法;視頻風(fēng)格化模塊的風(fēng)格化方法包括如下步驟4)基于語義解析的關(guān)鍵幀非真實感繪制;5)序列幀的筆觸傳播方法;6)用于防抖的阻尼筆刷系統(tǒng)。對視頻的風(fēng)格化將依次使用這兩個模塊。即首使用交互式語義分割模塊對視頻進行語義分割。再使用視頻風(fēng)格化模塊對分割后的視頻進行風(fēng)格化渲染。上述步驟1)的關(guān)鍵幀圖像的交互式分割和自動識別方法如下將分割的語義區(qū)域根據(jù)其不同的材質(zhì)屬性將他們分成了十二類,包括天空/云、 山脈/陸地,巖石/建筑物、樹葉/樹叢、頭發(fā)/毛發(fā)、花/水果、皮膚/皮革、樹干/樹枝、 抽象化背景、木頭/塑料、水、衣服;
實際操作中,采用了紋理、顏色分布、位置信息這三個主要特征進行訓(xùn)練和識別, 給定一個區(qū)域圖像X,定義其類別C的條件概率為IogP(χ|Χ, θ ) =ΣX ; θ ψ) + π (Ci,X ; θ π) + λ (Ci,X ; θ J-logZ( θ,Χ) ㈩式中后四項分別是紋理勢能函數(shù),顏色勢能函數(shù),位置勢能函數(shù)和歸一化項。紋理勢能函數(shù)定義為Wi(Ci,Χ; θ ψ) = IogP (Ci IX, i),P(Ci|X,i)是由 Boost 分類器給定的一個歸一化的分布函數(shù);顏色勢能函數(shù)定義為π (ci;X; θ J = log Σ ken(Ci,k)P(k|Xi),用 CIELab顏色空間中的高斯混合模型(Gaussian Mixture Models =GMMs)來表示顏色模型,對給定圖像中的一個像素顏色X,其條件概率為Ph.':: u.其中“和乙k分別表示第k個顏色聚類的均值和方差;位置勢能函數(shù)定義為λ (Ci,χ; θ λ) = loge A(Ci, i),相對于前面兩個勢能函數(shù)而言,位置勢能函數(shù)相對較弱,在這個函數(shù)定義中,圖像像素的類別標號僅僅與在圖像中的絕對位置相關(guān);利用此方法針對12類材質(zhì)進行訓(xùn)練,然后采用上面的公式*計算給定一個圖像區(qū)域中每個像素的對于各個類別的概率,最后統(tǒng)計區(qū)域中所有像素,采用投票的方式?jīng)Q定每個區(qū)域的類別;在風(fēng)格化渲染過程中,畫刷的選擇由物體區(qū)域識別出的材質(zhì)決定,為實現(xiàn)自動渲染打下了基礎(chǔ)。上述步驟2、的關(guān)鍵幀之間稠密特征點的匹配方法如下在得到關(guān)鍵幀上的語義信息之后,綜合線描特征,紋理和顏色混合圖像模板特征, 為圖像匹配問題提供豐富的特征集合與表達;11)線描特征由Gabor基表示為Fsk(Ii) = I |<υ_,χ,0>| |2+| |<Ii,Gsin,x,0>| |2,Gsin,x,0 和 Gc。s,x,0 分別表示在位置χ處方向為θ的正弦和余弦Gabor基。其特征概率分布表示為
Jt^ 1 S I' JtS μ Λ ^3 IJLk1·Il
Γ 1 ι ■ ··^ * ' h {' t "ih t · ——q:TtT— 二 . ρτ^Φ. Λ 11 11' .iMJiΛ- ) 0表示參數(shù)θ i,hsk是一個sigmoid函數(shù),Ζ: .,:ι是標準化約束。這樣模型將鼓勵比背景分布具有更強相應(yīng)的邊緣;12)紋理特征用一個簡化的梯度方向直方圖(HOG)來對紋理特征建模,6個特征維度分別表示不同的梯度方向;表示HOG的第j個方向,而F=V.)表示第i個特征Ii對應(yīng)的描述子;h:::F二J ;=—在所有正樣本上的均值。本發(fā)明將特征的概率模型表示為是參數(shù)Θ”可以看出模型鼓勵響應(yīng)相對比較集中的特征圖像塊的集合;13)顏色特征是以簡單的像素亮度作為描述,F(xiàn)f· = 1;; >)是在位置χ上的濾波器。 本發(fā)明量化像素亮度值到每個統(tǒng)計區(qū)間,那么模型可以簡化為Pl B ■ O ι 1‘ T' '^^^expf) 4 1 丨[F^I1)!:通過組合相似的圖像小特征,就可以獲到局部具有強判別力的特征組合,首先對圖像進行過分割,得到圖像中一些細小的圖像塊,從小圖像塊中提取出能描述線描,紋理, 顏色的統(tǒng)計特征,為了能夠有效獲得特征組合,采用迭代的區(qū)域增長和模型學(xué)習(xí)算法,通過不斷更新特征模型,迭代增長特征組合區(qū)域,最終得到局部具有強判別力的特征組合;在此表達基礎(chǔ)上,把運動目標在時域和空域上的匹配問題建模為在圖表示上的分層圖匹配框架,提取的混合圖像模板特征作為圖節(jié)點,在幀之間構(gòu)建圖結(jié)構(gòu),圖節(jié)點之間的邊連接關(guān)系可以基于特征之間的相似度、空間位置,以及特征所屬物體類型來定義;以Is,It表示原圖和目標圖,U、V分別表示Is,It中混合模板特征集合,對每個特征點u e U',有兩個標記層次標記I(u) e {1,2,...,K}和匹配候選標記如、"V · P)。以原圖中每個特征點匹配度較高的候選集C,建立圖結(jié)構(gòu)的頂點集合,以E = E+U Ε—構(gòu)建邊集合。用負邊表示連接的候選者相互排斥,且定義其“排斥力”為
權(quán)利要求
1.一種基于視頻解譯的交互式視頻風(fēng)格化渲染方法,其特征在于包括有交互式視頻語義分割模塊、視頻風(fēng)格化模塊。交互式視頻語義分割模塊的分割方法包括如下步驟.1)關(guān)鍵幀圖像的交互式分割和自動識別;.2)關(guān)鍵幀之間稠密特征點的匹配;.3)區(qū)域競爭分割;視頻風(fēng)格化模塊的風(fēng)格化方法包括如下步驟.1)基于語義解析的關(guān)鍵幀非真實感繪制;.2)序列幀的筆觸傳播;.3)用防抖的阻尼筆刷系統(tǒng)處理。對視頻的風(fēng)格化將依次使用交互式視頻語義分割模塊與視頻風(fēng)格化模塊這兩個模塊, 即先使用交互式視頻語義分割模塊對視頻進行語義分割,再使用視頻風(fēng)格化模塊對分割后的視頻進行風(fēng)格化渲染。
2.根據(jù)權(quán)利要求1所述的基于視頻解譯的交互式視頻風(fēng)格化渲染方法,其特征在于上述步驟的關(guān)鍵幀圖像的交互式分割和自動識別方法如下將分割的語義區(qū)域根據(jù)其不同的材質(zhì)屬性將他們分成了十二類,包括天空/云、山脈/ 陸地,巖石/建筑物、樹葉/樹叢、頭發(fā)/毛發(fā)、花/水果、皮膚/皮革、樹干/樹枝、抽象化背景、木頭/塑料、水、衣服;實際操作中,采用了紋理、顏色分布、位置信息這三個主要特征進行訓(xùn)練和識別,給定一個區(qū)域圖像X,定義其類別c的條件概率為
3.根據(jù)權(quán)利要求1所述的基于視頻解譯的交互式視頻風(fēng)格化渲染方法,其特征在于上述步驟幻的關(guān)鍵幀之間稠密特征點的匹配方法如下在得到關(guān)鍵幀上的語義信息之后,綜合線描特征,紋理和顏色混合圖像模板特征,為圖像匹配問題提供豐富的特征集合與表達;11)線描特征由Gabor基表示為Fsk(Ii) = I Kli, Gcos,χ, θ> |2+| <Ii; Gsin,x, 0,Gi 和6。分別表示在位置 χ 處方向為的正弦和余弦Gabor基。其特征概率分布表示為
4.根據(jù)權(quán)利要求1所述的基于視頻解譯的交互式視頻風(fēng)格化渲染方法,其特征在于上述步驟3)的區(qū)域競爭分割方法如下在得到幀間穩(wěn)定的匹配關(guān)系的基礎(chǔ)上,通過挖掘區(qū)域競爭機制的在視頻分割中的優(yōu)勢,利用分層圖結(jié)構(gòu)的圖像匹配算法,可以確定前一幀和當(dāng)前幀特征之間的匹配關(guān)系,這樣前一幀的語義信息就傳播到當(dāng)前幀中,然后根據(jù)各匹配區(qū)域的特征信息利用區(qū)域競爭分割算法,將當(dāng)前幀分割為多個語義區(qū)域;給定圖像I,相應(yīng)的圖像分割解定義如下 W = ((R1, R2,... Rn), (θ” θ2, ... , ΘΝ), (I1, I2,... , ΙΝ)}其中,Ri表示分割出的具有同一特性的區(qū)域,R:. — P- =。L';=-. = Ui表示區(qū)域Ri 相應(yīng)的特征概率分布模型的參數(shù),Ii表示區(qū)域氏相應(yīng)的標記;根據(jù)前后幀中特征的匹配關(guān)系,可以確定分割區(qū)域個數(shù)N。設(shè)各區(qū)域所對應(yīng)的特征小區(qū)域集合S = (S1, S2, ... ,、},對于各區(qū)域氏,根據(jù)特征所占有的小區(qū)域Si估計出模型的初始參數(shù)θ i,得到初始后驗概率P ( θ i 11 (χ,y))。根據(jù)MDL原則,將后驗概率轉(zhuǎn)化為求解能量函數(shù)最小問題,得到
5.根據(jù)權(quán)利要求1所述的基于視頻解譯的交互式視頻風(fēng)格化渲染方法,其特征在于上述視頻風(fēng)格化模塊(2)的風(fēng)格化方法步驟4)視頻風(fēng)格化以交互式的視頻語義分割模塊為基礎(chǔ),畫刷的選擇僅由識別出的物體區(qū)域所對應(yīng)的材質(zhì)決定;上述畫刷都是基于專業(yè)畫家在紙上繪制大量典型筆觸,然后進行掃描和參數(shù)化,最后建立筆觸庫,對于每一個圖像區(qū)域繪制,首先采用大刷子進行打底,然后逐漸減少刷子尺寸和不透明度以對物體的細節(jié)部分進行精細刻畫,繪制時,采用先邊緣后內(nèi)部的繪制策略每一層圖像的繪制本發(fā)明首先從邊緣開始,沿著線描的邊緣首先進行繪制,并根據(jù)流場對筆刷進行對齊;在視頻渲染中,為了保證畫刷在時域上的連續(xù)性和穩(wěn)定性,采用薄板樣條插值技術(shù)來進行筆觸的傳播,另外,筆觸在傳播過程中,還通過計算筆觸區(qū)域的面積,設(shè)計了筆觸刪減和增添機制;并利用模擬阻尼彈簧系統(tǒng),降低渲染結(jié)果的“抖動”效應(yīng)。
6.根據(jù)權(quán)利要求1所述的基于視頻解譯的交互式視頻風(fēng)格化渲染方法,其特征在于上述視頻風(fēng)格化模塊(2)的風(fēng)格化方法步驟5)的基于語義解析的關(guān)鍵幀非真實感繪制方法如下如何設(shè)計不同藝術(shù)風(fēng)格筆觸模型是視頻風(fēng)格化關(guān)注的焦點之一,不同藝術(shù)表現(xiàn)形式的作品,在筆觸表達上各具特色,在視頻風(fēng)格化中的基本繪制策略是基于圖像內(nèi)容選取合適筆觸進行繪制,筆觸庫是基于專業(yè)畫家在紙上繪制大量典型筆觸,然后進行掃描和參數(shù)化,最后完成建立的,對于將要繪制的畫刷t包含如下信息筆刷的類別信息Ia ,擺放區(qū)域范圍 Λλ ,顏色映射Ca,透明度場的aa,高度以及控制點PrJ,即有
7.根據(jù)權(quán)利要求1所述的基于視頻解譯的交互式視頻風(fēng)格化渲染方法,其特征在于上述視頻風(fēng)格化模塊(2)的風(fēng)格化方法步驟5)序列幀的筆觸傳播方法如下非關(guān)鍵幀的渲染通過關(guān)鍵幀的渲染結(jié)果“傳播”得到,傳播的依據(jù)是解譯區(qū)域的時空對應(yīng)關(guān)系,在傳播過程中,隨著解譯區(qū)域的變化越來越大,筆觸可能會逐漸泄露到區(qū)域外部, 而同時區(qū)域中會出現(xiàn)為被渲染的空隙,所以,在傳播筆觸圖中,必須同時考慮筆觸的添加與刪減機制,否則,渲染結(jié)果會出現(xiàn)的抖動現(xiàn)象;筆觸的傳播、添加與刪減機制如下筆觸傳播令表示視頻t時刻關(guān)鍵幀的某個解譯區(qū)域,R.:〔t表亍在t+Ι時刻對應(yīng)的區(qū)域,它們的圖像區(qū)域分別以、 “表示;以、P:辦表示、&在時域上的稠密匹配點(在視.Λ,. 11, [Χ頻解譯過程中計算出);假設(shè)R:〔t表可以通過:表的非剛性變換得到;當(dāng)筆觸傳播時,本發(fā)明希望上的匹配點能夠映射到第t+Ι幀中新的圖像區(qū)域4 ^的匹配點^t ,基于以上考慮,本發(fā)明選用薄板樣條插值模型(Thin-plate Spline, TPS),它可以把中關(guān)鍵點映射到的匹配點^0 ,而對于中其余非關(guān)鍵點的像素點,TPS通過最小化能量函數(shù),使的像素網(wǎng)格發(fā)生彈性(非剛性)變形而扭曲;筆觸刪減由于畫刷在視頻中傳播后或發(fā)生了遮擋關(guān)系或者筆觸傳播幀數(shù)太多時,某些畫刷所對應(yīng)的區(qū)域會變得越來越小,因此,本發(fā)明要剔除這些畫刷當(dāng)它們對應(yīng)的區(qū)域面積小于某個給定的閾值時,同樣,當(dāng)傳播的畫刷落在對應(yīng)的區(qū)域邊界外時也要刪除;筆觸增添,當(dāng)出現(xiàn)新的語義區(qū)域或已存在的語義區(qū)域變得越來越大時(比如衣服的展開),本發(fā)明必須增加新的畫筆來覆蓋這些新出現(xiàn)的區(qū)域,而且為了填充畫筆間的空隙,本發(fā)明只需簡單地變動相鄰畫筆的大小以及位置即可,如果未被畫刷覆蓋的區(qū)域越變越大并超過了某個給定的閾值時,系統(tǒng)會自動地創(chuàng)建新的畫刷來覆蓋它;盡管如此,本發(fā)明仍然不可能在空隙第一次出現(xiàn)時立刻給它畫上一筆;于是,本發(fā)明設(shè)置了相對來說比較高的閾值, 并延遲渲染新出現(xiàn)的區(qū)域直到它們增長到足夠大時;接著,本發(fā)明采用通用的畫刷擺放算法來填充達到閾值的足夠大的空隙,最后再反向地傳播和變換這些新畫刷去填充先前出現(xiàn)的但未渲染的空隙區(qū)域;向后填充畫刷的過程能夠避免頻繁地變換畫筆,同時又能把較小的零碎的一些畫筆鏈接為較大的畫筆,從而減少閃爍效應(yīng)以及其他不合需要的人為造成的視覺效果;同樣,由于本發(fā)明是在最底層添加新的畫筆,所以它們是畫在已經(jīng)存在的畫筆下面,這進一步減少了視覺上的閃爍效應(yīng)。
8.根據(jù)權(quán)利要求1所述的基于視頻解譯的交互式視頻風(fēng)格化渲染方法,其特征在于上述視頻風(fēng)格化模塊(2)的風(fēng)格化方法步驟6)中用于防抖的阻尼筆刷系統(tǒng)如下對視頻進行風(fēng)格化渲染的最后一步是防抖操作,對時域和空域中相鄰的畫刷用彈簧進行連接,來模擬阻尼系統(tǒng);通過最小化該系統(tǒng)的能量,就可以達到去除抖動的效果;對于t時刻的第i個畫刷,本發(fā)明用A:, t = fx,,,表示其中心坐標和大小的幾何屬性,且將其初始值記為t ;阻尼筆刷系統(tǒng)的能量函數(shù)定義如下
9.根據(jù)權(quán)利要求8所述的基于視頻解譯的交互式視頻風(fēng)格化渲染方法,其特征在于上述》4 2,8 J A- — 1,1。
全文摘要
本發(fā)明是一種基于視頻解譯的交互式視頻風(fēng)格化渲染方法。包括有交互式視頻語義分割模塊、視頻風(fēng)格化模塊,交互式視頻語義分割模塊的分割方法包括如下步驟1)關(guān)鍵幀圖像的交互式分割和自動識別;2)關(guān)鍵幀之間稠密特征點的匹配;3)區(qū)域競爭分割;視頻風(fēng)格化模塊的風(fēng)格化方法包括如下步驟4)基于語義解析的關(guān)鍵幀非真實感繪制;5)序列幀的筆觸傳播方法;6)用于防抖的阻尼筆刷系統(tǒng)。本發(fā)明是一種制作周期短、成本低,利于批量制作的基于視頻解譯的交互式視頻風(fēng)格化渲染方法。
文檔編號G06T13/00GK102542593SQ20111030205
公開日2012年7月4日 申請日期2011年9月30日 優(yōu)先權(quán)日2011年9月30日
發(fā)明者劉樹郁, 張新楠, 江波 申請人:中山大學(xué)