一種保留圖片相關(guān)性信息的圖片拼接方法
【專利摘要】本發(fā)明公開了一種保留圖片相關(guān)性信息的圖片拼接方法,包括以下步驟:步驟1,相關(guān)性分析:采集待拼接的圖片得到圖片集,并使每張圖片獲得一個(gè)類標(biāo)簽,再由t分布隨機(jī)領(lǐng)域嵌入方法t?SNE方法將圖片的相關(guān)性信息嵌入到初始展示面板分布中,得到t?SNE分布結(jié)果;步驟2,初始化展示面板子區(qū)域;步驟3,展示面板子區(qū)域劃分:結(jié)合子區(qū)域優(yōu)化及錯(cuò)誤位置校正方法,確定每幅圖片的朝向角θ、擺放位置、縮放尺度,并保證圖片的相關(guān)性信息不被丟失;步驟4,無縫混合渲染:基于概率混合模型對(duì)展示面板子區(qū)域之間的邊界區(qū)域進(jìn)行無縫混合渲染,從而完成圖片集中圖片的剪切拼接。
【專利說明】
一種保留圖片相關(guān)性信息的圖片拼接方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于計(jì)算機(jī)圖像、多媒體信息技術(shù)等領(lǐng)域,尤其涉及一種保留圖片相關(guān)性 信息的圖片拼接方法。
【背景技術(shù)】
[0002] 隨著手持照相設(shè)備的日益普及,人們拍照更加方便,獲取的圖片更加豐富,繼而對(duì) 圖片集自動(dòng)管理技術(shù)的需求更加突顯。作為一種重要的圖片集摘要和展示技術(shù),圖片拼貼 近年來正受到越來越多的重視。圖片拼貼的主要目的在于提供一個(gè)緊致、豐富而美觀的圖 片集摘要圖。由于手動(dòng)制作這樣的拼貼摘要圖需要用到一些專業(yè)的圖片編輯技巧同時(shí)耗時(shí) 頗多,自動(dòng)化的拼貼摘要圖生成技術(shù)近年來成為了一個(gè)研究熱點(diǎn)。
[0003] 傳統(tǒng)的圖片拼貼方法一般基于構(gòu)造一個(gè)優(yōu)化框架,將拼貼結(jié)果的好壞以某種客觀 標(biāo)準(zhǔn)加以量化,此優(yōu)化方程通常具有復(fù)雜的非線性形式。由于每張圖片的狀態(tài)決定于若干 參數(shù),總共可能產(chǎn)生成百上千個(gè)參數(shù)需要優(yōu)化。在如此復(fù)雜的非線性優(yōu)化方程中求解如此 規(guī)模的優(yōu)化解通常是低效的,同時(shí)也很容易陷入局部最優(yōu)解。盡管一些提升求解效率的方 法已先后被提出,但此類方法仍有其固有的局限性。
[0004] 目前所提出的方法具有許多方面的不足。第一,每張圖片的最優(yōu)狀態(tài)參數(shù)往往與 其它若干圖片的狀態(tài)緊耦合,導(dǎo)致某張圖片狀態(tài)的更新全局性或局部地影響到其它圖片, 從而導(dǎo)致拼貼的可擴(kuò)展性很差。第二,用于拼接的圖片集中,往往包含很多語義信息,以往 的方法都會(huì)忽略這一重要信息,只是隨機(jī)的將圖片拼接在一起。第三,不能對(duì)圖片感興趣區(qū) 域進(jìn)行最大化展示,若只提取每張圖片的感興趣區(qū)域,并允許該區(qū)域的形狀為不規(guī)則多邊 形,則可以在最大化展示圖片主要內(nèi)容的同時(shí),使得拼接結(jié)果更加緊湊。
【發(fā)明內(nèi)容】
[0005] 發(fā)明目的:本發(fā)明提供一種保留圖片相關(guān)性信息的圖片拼接方法,可以保留圖片 集中圖片之間的相關(guān)性信息,突出各個(gè)圖片中的主題內(nèi)容,且能夠更高效地利用面板空間。
[0006] 技術(shù)方案:本發(fā)明公開了一種保留圖片相關(guān)性信息的圖片拼接方法,其核心在于 保留圖片之間相關(guān)性信息的同時(shí)最大化展示圖片的主要內(nèi)容,包括以下步驟:
[0007] 步驟1,相關(guān)性分析:采集待拼接的圖片得到圖片集,采用擴(kuò)展了的深度神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,簡(jiǎn)稱CNN)模型提取每張圖片的語義描述,并使每張圖 片獲得一個(gè)類標(biāo)簽,再由t分布隨機(jī)領(lǐng)域嵌入方法(t-Distributed Stochastic Neighbor Embedding,簡(jiǎn)稱 t_SNE,該方法參見 Van der Maaten 等發(fā)表于 Journal of Machine Learning Research的論文《Visualizing data using t_SNE》)將圖片的相關(guān)性信息嵌入 到初始展示面板分布中,得到t_SNE(t分布隨機(jī)領(lǐng)域嵌入方法,t-Distributed Stochastic Neighbor Embedding,簡(jiǎn)稱t_SNE)分布結(jié)果。
[0008] 步驟2,初始化展示面板子區(qū)域:結(jié)合顯著性檢測(cè)和人臉檢測(cè),提取每張圖片的R0I 關(guān)注區(qū)域(Region of Interest,簡(jiǎn)稱R0I關(guān)注區(qū)域),該區(qū)域形狀可以是不規(guī)則多邊形,縮 放t-SNE分布結(jié)果,使其與展示面板大小相等,并作為初始展示面板,將每張圖片的ROI關(guān)注 區(qū)域送入到其在初始展示面板中的對(duì)應(yīng)位置;
[0009] 步驟3,展示面板子區(qū)域劃分:結(jié)合子區(qū)域優(yōu)化及錯(cuò)誤位置校正方法,確定每幅圖 片的朝向角9、擺放位置、縮放尺度,并保證圖片的相關(guān)性信息不被丟失;
[0010] 步驟4,無縫混合渲染:基于概率混合模型對(duì)展示面板子區(qū)域之間的邊界區(qū)域進(jìn)行 無縫混合渲染,從而完成計(jì)算機(jī)圖片集中圖片的剪切拼接。
[0011] 步驟1中,利用擴(kuò)展了的CNN模型得到圖片的相關(guān)性信息,并由t-SNE方法將相關(guān)性 信息映射到二維平面上。
[0012] 所述步驟1具體包括以下步驟:
[0013] 步驟1-1,為得到圖片的相關(guān)性信息,本方法選取目前最為流行的深度學(xué)習(xí)方法, 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡(jiǎn)稱CNN)。首先利用VGG-16CNN模型(該 模型參見Simony等發(fā)表于arXiv preprint arXiv的論文《Very deep convolutional networks for large-scale image recognition》)對(duì)每張圖片提取一個(gè)4096維的特征向 量;
[0014]步驟1-2,對(duì)于一般主題(容易分類的普通類別,如動(dòng)物、花等,具有明顯區(qū)別特征) 的圖片集,將提取的4096維特征向量直接用主成分分析方法(Principal Component Analysis,簡(jiǎn)稱PCA)進(jìn)行降維處理,得到一個(gè)256維的特征向量,再通過k-means算法(k-均 值算法,k取值為50)給每一張圖片分配一個(gè)類標(biāo)簽;
[0015]對(duì)于具有特定主題(難以分類的特殊類別,如旅游、聚會(huì)等特征不明顯的主題,例 如在一個(gè)旅游照片集中,讓在相同旅游景點(diǎn)拍攝的照片作為一類)的圖片集,額外根據(jù)主題 內(nèi)容訓(xùn)練一個(gè)兩層的全連接神經(jīng)網(wǎng)絡(luò)。將4096維的特征作為該兩層網(wǎng)絡(luò)的輸入,隱含層設(shè) 置為256維的雙曲正切非線性激活函數(shù),輸出層獲得一個(gè)關(guān)于主題內(nèi)容的類標(biāo)簽,即將由 VGG-16CNN(該模型參見Simony等發(fā)表于arXiv preprint arXiv的論文《Very deep convolutional networks for large-scale image recognition》)模型得到的4096維特 征向量作為輸入,然后輸出其在特定域內(nèi)的類別。
[0016]步驟1-3,采用t-SNE方法將每張圖片映射到一個(gè)2維平面上,使同類圖片的位置相 近,得到一個(gè)t-SNE分布結(jié)果;
[0017]步驟2中,提取每張圖片的R0I區(qū)域,并將這些區(qū)域送入到步驟1中獲得的t-SNE分 布結(jié)果中,得到一個(gè)初始展示畫板分布。
[0018]步驟2具體包括以下步驟:
[0019]步驟2-1,結(jié)合顯著性檢測(cè)和人臉檢測(cè),提取每張圖片的R0I關(guān)注區(qū)域,該區(qū)域的形 狀可以為任意多邊形。顯著性檢測(cè)采用Jiang等提出的方法(該方法參考Jiang等發(fā)表于 Proceedings of the IEEE conference on computer vision and pattern recognition 的〈〈A discriminative regional feature integration approach〉〉的論文),為了保證人 們通常更加敏感的人臉能得到充分顯示,使用OpenCV中的人臉檢測(cè)算法(該算法可參見 PaulViola 和 Michaeljones 發(fā)表于 CVPR 的 《RapidOb jectDetectionusingaBoostedCascadeof SimpleFeature》)檢測(cè)人臉區(qū)域,將該區(qū) 域內(nèi)顯著性置為最大;
[0020]步驟2-2,將步驟1得到的t-SNE分布結(jié)果進(jìn)行縮放,使其與用來圖片拼接的展示面 板大小相等,并作為初始展示面板,將每張圖片的ROI關(guān)注區(qū)域縮小為原始大小的30%后送 入到其在初始展示面板中的對(duì)應(yīng)位置,得到一個(gè)初始展示面板分布結(jié)果。
[0021]步驟3中,展示面板子區(qū)域劃分過程中,通過計(jì)算設(shè)定每幅圖片的朝向角、擺放位 置和縮放尺度使得每幅圖片在展示畫板上最大化地呈現(xiàn)其主要內(nèi)容,并保證圖片的相關(guān)性 信息不被丟失。步驟3具體包括以下步驟:
[0022]步驟3-1,根據(jù)步驟2-2得到的初始展示面板分布結(jié)果,將展示面板劃分為一個(gè)個(gè) 包含圖片R0I關(guān)注區(qū)域的子區(qū)域,采集R0I關(guān)注區(qū)域多邊形的邊,并利用德洛內(nèi)三角方法 (Delaunay Triangulation)使這些邊及對(duì)應(yīng)頂點(diǎn)形成三角形,由這些三角形形成每個(gè)R0I 關(guān)注區(qū)域的弦軸轉(zhuǎn)換區(qū)域(ChordalAxisTransformation,簡(jiǎn)稱CAT);
[0023] 步驟32,子區(qū)域優(yōu)化確定坐標(biāo)、縮放尺度及方向角:尋找CAT(弦軸轉(zhuǎn)換區(qū)域, ChordalAxisTransformation,簡(jiǎn)稱CAT)區(qū)域中的最大R0I關(guān)注區(qū)域,最大化展示面板的覆 蓋率,該過程采用如下公式計(jì)算:
[0024] Maximize f(t,9,s)=s,
[0025] 滿足于:
t、0、s分別表示坐標(biāo)變換、方向角和縮 放尺度,Pk(t, 0 , s)為R0I關(guān)注區(qū)域上的采樣點(diǎn),Ek為CAT區(qū)域與采樣點(diǎn)pk(t, 0 , s)的維諾區(qū)域 的相交線段,M為線段總和,ef為CAT區(qū)域中指定邊幻的起始點(diǎn),幻為0k中的一條有向線段,〇 為每次迭代優(yōu)化過程中旋轉(zhuǎn)角的總和,對(duì)象函數(shù)f(t,0,s)等于縮放尺度s,表示該過程的目 標(biāo)是最大化展示面板的覆蓋率,為了不使R0I關(guān)注區(qū)域相對(duì)于原始方向旋轉(zhuǎn)得過多,設(shè)置旋 轉(zhuǎn)角總和小于&
[0028]步驟33,尋找錯(cuò)誤放置的R0I關(guān)注區(qū)域:在子區(qū)域優(yōu)化過程中,無法避免部分不同 類的R〇r混在了一起,此時(shí),計(jì)算相同類R0I關(guān)注區(qū)域的重心點(diǎn),對(duì)每個(gè)R0I關(guān)注區(qū)域,計(jì)算其 重心點(diǎn)到其對(duì)應(yīng)類的重心點(diǎn)的距離,將相同類R0I關(guān)注區(qū)域的距離和的平均值設(shè)置為該類 的距離閾值,若一個(gè)R0I關(guān)注區(qū)域的距離大于該距離閾值,則判定該R0I關(guān)注區(qū)域?yàn)殄e(cuò)誤放 置;
[0029]步驟34,錯(cuò)誤位置校正,假設(shè)有N個(gè)錯(cuò)誤放置R0I關(guān)注區(qū)域,則在展示面板上對(duì)應(yīng)有 N個(gè)錯(cuò)誤位置,對(duì)于每一對(duì)錯(cuò)誤放置R0I關(guān)注區(qū)域和錯(cuò)誤位置,計(jì)算每一個(gè)錯(cuò)誤位置到對(duì)應(yīng) 錯(cuò)誤放置R0I關(guān)注區(qū)域相應(yīng)類的重心點(diǎn)的距離,通過匈牙利算法,分配一個(gè)錯(cuò)誤放置R0I關(guān) 注區(qū)域到一個(gè)錯(cuò)誤位置,使距離總和最小,該過程的公式表示如下:
[0030] Minimize f{\xab\N,N) - ZLi (-Vah ^
[0031] 滿足于:
[0032] XabG {0,1}, N V,
[0033] y xab - 1} for VI < a < A7, fe-i N
[0034] E xab - 1. forvl < h < Nt a-1
[0035]其中,N為錯(cuò)誤放置個(gè)數(shù),cab為錯(cuò)誤位置j到錯(cuò)誤放置R0I(感興趣區(qū)域,Region of Interest,簡(jiǎn)稱R0I)關(guān)注區(qū)域a對(duì)應(yīng)類重心點(diǎn)的距離,[xab]N*N為一個(gè)待優(yōu)化二值矩陣,xab只 有在錯(cuò)誤放置R〇I(感興趣區(qū)域,Region of Interest,簡(jiǎn)稱R0I)關(guān)注區(qū)域a放置到錯(cuò)誤位置 b上時(shí)才為1;
[0036] 步驟3-5,縮小所有R0I(感興趣區(qū)域,Region of Interest,簡(jiǎn)稱R0I)關(guān)注區(qū)域直 到?jīng)]有重疊,迭代子區(qū)域優(yōu)化和錯(cuò)誤位置校正過程,直到該過程收斂,得到一個(gè)所有R0I (感 興趣區(qū)域,Region of Interest,簡(jiǎn)稱R0I)關(guān)注區(qū)域都無法變大且各R0I(感興趣區(qū)域, Region of Interest,簡(jiǎn)稱R0I)關(guān)注區(qū)域位置相關(guān)的圖片拼接結(jié)果。
[0037]步驟4具體包括以下步驟:
[0038] 對(duì)展示面板上的每一個(gè)像素點(diǎn)P,均關(guān)聯(lián)一組概率{Probi(p),Prob2(p),???,Probn (P)},其中n為圖片總數(shù),Probz(p)表示第z幅圖片在該像素點(diǎn)處對(duì)應(yīng)像素能夠顯示的概率, 1 < i < n,Q P z和Q r z分別表示第z幅圖片對(duì)應(yīng)的C A T (弦軸轉(zhuǎn)換區(qū)域, ChordalAxisTransformation,簡(jiǎn)稱CAT)區(qū)域和R0I(感興趣區(qū)域,Region of Interest,簡(jiǎn) 稱R0I)關(guān)注區(qū)域?;旌峡梢允沟肣rz中不在QPZ中的部分也能得到一定程度上的展現(xiàn),采用如 下公式計(jì)算Prob z(p):
[0040] 其中,e為自然對(duì)數(shù)的底,d(p,Qpz)表示點(diǎn)p到CAT區(qū)域QPZ的最近歐式距離,d(p,Q rz) 表示像素點(diǎn)P到R0I關(guān)注區(qū)域Qrz的最近歐式距離,S為貢獻(xiàn)率概率概率分布的標(biāo)準(zhǔn)差,計(jì)算得 5~0.39894223。
[0041] 得到展示面板每個(gè)像素點(diǎn)的關(guān)聯(lián)概率后,將每個(gè)像素點(diǎn)的關(guān)聯(lián)概率Probjp)平均 的分發(fā)到其4鄰域上,以使得鄰近的像素點(diǎn)具有接近的概率值再將每個(gè)像素點(diǎn)的一組關(guān)聯(lián) 概率歸一化,將得到的概率圖即作為無縫混合渲染的Alpha通道值用于最終拼貼圖片的合 成。
[0042]有益效果:本發(fā)明包括以下優(yōu)點(diǎn):
[0043] (1)能夠表達(dá)圖片之間的相關(guān)性??梢愿鶕?jù)圖片內(nèi)容,將圖片的相關(guān)性信息表現(xiàn)在 二維圖片拼接中,使拼接結(jié)果具有更好的可讀性,讓用戶可以更容易地理解圖片拼接結(jié)果 的內(nèi)容。
[0044] (2)更高的可擴(kuò)展性同時(shí)兼?zhèn)涞婉詈闲浴_@一特性得益于以下三個(gè)方面:首先,本 發(fā)明采用的子區(qū)域劃分算法高效魯棒。其次,每張圖片的狀態(tài)參數(shù)一一位置、朝向角、縮放 尺度和層次的優(yōu)化互相關(guān)性弱,每個(gè)參數(shù)均可在一個(gè)獨(dú)立的階段優(yōu)化求解。最后,每張圖片 的狀態(tài)參數(shù)優(yōu)化均與鄰近圖片的狀態(tài)解耦合,從而可并行地進(jìn)行。
[0045] (3)更好地展示圖片內(nèi)容。對(duì)于一些感興趣區(qū)域較為不規(guī)則的圖片,其通過直接對(duì) 感興趣區(qū)域進(jìn)行拼接的方法,能夠更好的展示圖片的內(nèi)容。
[0046] (4)更高的展示面板空間利用率。通過直接對(duì)感興趣區(qū)域進(jìn)行拼接的方法,有效地 利用了展示畫板的空間,保證有限的展示面板空間不浪費(fèi)。
【附圖說明】
[0047] 下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明做更進(jìn)一步的具體說明,本發(fā)明的上述或 其他方面的優(yōu)點(diǎn)將會(huì)變得更加清楚。
[0048]圖1為本發(fā)明方法的流程圖。
[0049] 圖2為圖片相關(guān)性分析的工作流程示意圖。
[0050] 圖3為本發(fā)明中展示面板子區(qū)域劃分的工作流程示意圖。
[0051 ]圖4為本發(fā)明方法實(shí)施的實(shí)例流程圖。
[0052] 圖5關(guān)于問題1用戶調(diào)查的反饋結(jié)果圖。
[0053] 圖6關(guān)于問題2用戶調(diào)查的反饋結(jié)果圖。
[0054] 圖7關(guān)于問題3用戶調(diào)查的反饋結(jié)果圖。
[0055] 圖8關(guān)于問題4用戶調(diào)查的反饋結(jié)果圖。
[0056] 圖9為動(dòng)物圖片集的各方法最終生成結(jié)果。
[0057]圖10為建筑物圖片集的各方法最終生成結(jié)果。
[0058]圖11為巴黎圖片集的各方法最終生成結(jié)果。
[0059] 圖12為交通工具圖片集的各方法最終生成結(jié)果。
[0060] 圖13為三藩市圖片集的各方法最終生成結(jié)果。
[0061] 圖14為模特圖片集的各方法最終生成結(jié)果。
[0062] 圖15為北京圖片集的各方法最終生成結(jié)果。
[0063] 圖16為鳥圖片集的各方法最終生成結(jié)果。
[0064] 圖17為羅馬圖片集的各方法最終生成結(jié)果。
[0065] 圖18為魚圖片集的各方法最終生成結(jié)果。
【具體實(shí)施方式】:
[0066] 本方法的流程如圖1所示,首先進(jìn)行圖片相關(guān)性分析,并根據(jù)相關(guān)性分析結(jié)果,通 過t分布隨機(jī)領(lǐng)域嵌入方法(t-Distributed Stochastic Neighbor Embedding,簡(jiǎn)稱t_ SNE,該方法參見Van der Maaten等發(fā)表于Journal of Machine Learning Research的論 文《Visualizing data using t-SNE》)得到展示面板的初始分布,圖2展示了得到t-SNE分 布結(jié)果的工作流程;然后結(jié)合顯著性檢測(cè)和人臉檢測(cè)提取圖片的感興趣區(qū)域,縮放t-SNE分 布結(jié)果,使其與展示面板大小相等,并作為初始展示面板,再將每張圖片的感興趣區(qū)域縮小 為原始大小的30%后送入到其在初始展示面板中的對(duì)應(yīng)位置,采集感興趣區(qū)域多邊形的 邊,并利用德洛內(nèi)三角方法(Delaunay Triangulation)使這些邊及對(duì)應(yīng)頂點(diǎn)形成三角形, 由這些三角形形成每個(gè)感興趣區(qū)域的弦軸轉(zhuǎn)換區(qū)域(ChordalAxisTransformation,簡(jiǎn)稱 CAT),得到初始展示面板子區(qū)域劃分結(jié)果;最后,結(jié)合子區(qū)域優(yōu)化及錯(cuò)誤位置校正方法,確 定每幅圖片的朝向角9、擺放位置、縮放尺度,并保證圖片的相關(guān)性信息不被丟失,圖3展示 了一次優(yōu)化過程;最后是無縫混合技術(shù)處理圖片間的重疊算法,獲得圖片集拼貼展示結(jié)果。 圖4展示了本發(fā)明方法的具體流程及每步操作完成后的子結(jié)果。
[0067] 具體地說,如圖1所示,本發(fā)明公開了一種保留圖片相關(guān)性信息的圖片拼接方法:
[0068] 步驟1,相關(guān)性分析:采集待拼接的圖片得到圖片集,采用擴(kuò)展了的深度神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,簡(jiǎn)稱CNN)模型提取每張圖片的語義描述,并使每張圖 片獲得一個(gè)類標(biāo)簽,再由t-SNE方法將圖片的相關(guān)性信息嵌入到初始展示面板分布中,得到 t-SNE分布結(jié)果;
[0069]步驟2,初始化展示面板子區(qū)域:結(jié)合顯著性檢測(cè)和人臉檢測(cè),提取每張圖片的R0I 關(guān)注區(qū)域(Region of Interest,簡(jiǎn)稱R0I關(guān)注區(qū)域),縮放t-SNE分布結(jié)果,使其與展示面板 大小相等,并作為初始展示面板,將每張圖片的R0I關(guān)注區(qū)域送入到其在初始展示面板中的 對(duì)應(yīng)位置;
[0070] 步驟3,展示面板子區(qū)域劃分:結(jié)合子區(qū)域優(yōu)化及錯(cuò)誤位置校正方法,確定每幅圖 片的朝向角9、擺放位置、縮放尺度,并保證圖片的相關(guān)性信息不被丟失;
[0071] 步驟4,無縫混合渲染:基于概率混合模型對(duì)展示面板子區(qū)域之間的邊界區(qū)域進(jìn)行 無縫混合渲染,從而完成圖片集中圖片的剪切拼接。
[0072]步驟1中,如圖2所示,利用擴(kuò)展了的CNN模型得到圖片的相關(guān)性信息,并由t-SNE方 法將相關(guān)性信息映射到二維平面上。
[0073]步驟1具體包括以下步驟:
[0074] 步驟1-1,采用VGG-16CNN模型對(duì)每張圖片提取一個(gè)4096維的特征向量,如圖2中最 左邊的CNN特征提取部分;
[0075]步驟1-2,對(duì)于一般主題(容易分類的普通類別,如動(dòng)物、花等,具有明顯區(qū)別特征) 的圖片集,將提取的4096維特征向量用主成分分析方法(Principal Component Analysis, 簡(jiǎn)稱PCA)進(jìn)行降維處理,得到一個(gè)256維的特征向量,再通過k-means (k-均值算法,k取值為 50)算法給每一張圖片分配一個(gè)類標(biāo)簽,其過程如圖2中間的k-means聚類部分;
[0076]對(duì)于具有特定主題(難以分類的特殊類別,如旅游、聚會(huì)等特征不明顯的主題,例 如在一個(gè)旅游照片集中,讓在相同旅游景點(diǎn)拍攝的照片作為一類)的圖片集,根據(jù)主題內(nèi)容 訓(xùn)練一個(gè)兩層的全連接神經(jīng)網(wǎng)絡(luò),再由該全連接神經(jīng)網(wǎng)絡(luò)獲得一個(gè)關(guān)于主題內(nèi)容的類標(biāo) 簽,其過程如圖2中間的兩層網(wǎng)絡(luò)分類部分;
[0077]步驟1-3,采用t-SNE方法將每張圖片映射到一個(gè)2維平面上,使同類圖片的位置相 近,得到t-SNE分布結(jié)果。如圖2最右邊所示,共7個(gè)類,每個(gè)類用不同形狀的符號(hào)表示??梢?看到,相同類的子元素(即圖片)聚集地分布在一個(gè)二維平面上,但仍有部分類的子元素分 布在遠(yuǎn)離其類的位置,而這些子元素的產(chǎn)生是由于錯(cuò)誤的分類結(jié)果所導(dǎo)致的。
[0078]步驟2中,提取每張圖片的R0I區(qū)域,并將這些區(qū)域送入到步驟1中獲得的t-SNE結(jié) 果中,得到一個(gè)初始展示面板分布結(jié)果。
[0079]步驟2具體包括以下步驟:
[0080]步驟2-1,結(jié)合顯著性檢測(cè)和人臉檢測(cè),提取每張圖片的R0I(感興趣區(qū)域,Region of Interest,簡(jiǎn)稱R0I)關(guān)注區(qū)域,該區(qū)域的形狀可以為任意多邊形。顯著性檢測(cè)采用Jiang 等提出的方法,為了保證人們通常更加敏感的人臉能得到充分顯示,使用OpenCV中的人臉 檢測(cè)算法檢測(cè)人臉區(qū)域,將該區(qū)域內(nèi)顯著性置為最大;
[0081]步驟2-2,將步驟1得到的t-SNE結(jié)果縮放,使其與用來圖片拼接的展示面板大小相 等,并作為初始展示面板,將每張圖片的ROI關(guān)注區(qū)域縮小為原始大小的30%,避免感興趣 區(qū)域之間潛在的重疊,然后將每張圖片的R0I關(guān)注區(qū)域送入到其在初始展示面板中的對(duì)應(yīng) 位置,得到一個(gè)初始展示面板分布結(jié)果。
[0082] 步驟3中,展示面板子區(qū)域劃分過程中,通過計(jì)算設(shè)定每幅圖片的朝向角、擺放位 置和縮放尺度使得每幅圖片在展示畫板上最大化地呈現(xiàn)其主要內(nèi)容,并保證圖片的相關(guān)性 信息不被丟失。如圖4展示面板子區(qū)域劃分部分所示,具體包括以下步驟:
[0083] 步驟3-1,根據(jù)步驟2-2得到的初始展示面板分布結(jié)果,將展示面板劃分為一個(gè)個(gè) 包含圖片R0I關(guān)注區(qū)域的子區(qū)域。采集R0I關(guān)注區(qū)域多邊形的邊,并利用德洛內(nèi)三角方法使 這些邊及對(duì)應(yīng)頂點(diǎn)形成三角形,由這些三角形形成每個(gè)感興趣區(qū)域的CAT(弦軸轉(zhuǎn)換區(qū)域, ChordalAxisTransformation,簡(jiǎn)稱CAT)區(qū)域。如圖3最左邊的那張圖所示,共包含4類,每個(gè) 類包含5個(gè)子元素,由1到4分別標(biāo)注,1為狗,2為鳥,3為貝殼,4為花,被標(biāo)注的不規(guī)則多邊形 即為從原圖中提取的R0I關(guān)注區(qū)域,而包圍不規(guī)則多邊形的外圍區(qū)域,即為CAT區(qū)域;
[0084]步驟3-2,子區(qū)域優(yōu)化確定坐標(biāo)、縮放尺度及方向角:尋找CAT區(qū)域中的最大R0I關(guān) 注區(qū)域,最大化展示面板的覆蓋率,該過程采用如下公式計(jì)算:
[0085] Maximize f(t,9,s)=s,
[0086] 滿足于:
t、0、s分別表示坐標(biāo)變換、方向角和縮 放尺度,Pk(t, 0 , s)為R0I關(guān)注區(qū)域上的采樣點(diǎn),Ek為CAT區(qū)域與采樣點(diǎn)pk(t, 0 , s)的維諾區(qū)域 的相交線段,M為線段總和,e/為CAT區(qū)域中指定邊幻的起始點(diǎn),幻為Ek中的一條有向線段,〇 為每次迭代優(yōu)化過程中旋轉(zhuǎn)角的總和,對(duì)象函數(shù)f(t,0,s)等于縮放尺度s,表示該過程的目 標(biāo)是最大化展示面板的覆蓋率,為了不使R0I區(qū)域相對(duì)于原始方向旋轉(zhuǎn)得過多,設(shè)置旋轉(zhuǎn)角 總和小于|圖3中間那張圖即為子區(qū)域優(yōu)化結(jié)果。從圖中可以看出,各子區(qū)域的R0I已經(jīng)最 大,但是,在優(yōu)化過程中,部分不同類產(chǎn)生了混合,破壞了圖片相關(guān)性信息。圖3中間的那張 圖為子區(qū)域優(yōu)化后的結(jié)果,圖中雖然各R0I已經(jīng)最大,畫板的覆蓋率最高,但是相同類的部 分R0I沒有聚集分布(如標(biāo)注2的鳥,左上角有兩個(gè),右下角有3個(gè));
[0089]步驟3-3,尋找錯(cuò)誤放置的R0I關(guān)注區(qū)域:在子區(qū)域優(yōu)化過程中,無法避免部分不同 類的R〇r混在了一起。此時(shí),計(jì)算相同類R0I關(guān)注區(qū)域的重心點(diǎn),對(duì)每個(gè)R0I關(guān)注區(qū)域,計(jì)算其 重心點(diǎn)到其對(duì)應(yīng)類的重心點(diǎn)的距離,將相同類R0I關(guān)注區(qū)域距離的平均值設(shè)置為距離閾值, 若一個(gè)R0I關(guān)注區(qū)域的距離大于該距離閾值,則判定該R0I關(guān)注區(qū)域?yàn)殄e(cuò)誤放置;
[0090] 步驟3-4,錯(cuò)誤位置校正:假設(shè)有N個(gè)錯(cuò)誤放置R0I關(guān)注區(qū)域,則在展示面板上對(duì)應(yīng) 有N個(gè)錯(cuò)誤位置,對(duì)于每一對(duì)錯(cuò)誤放置R0I關(guān)注區(qū)域和錯(cuò)誤位置,計(jì)算每一個(gè)錯(cuò)誤位置到對(duì) 應(yīng)錯(cuò)誤放置R0I關(guān)注區(qū)域相應(yīng)類的重心點(diǎn)的距離,通過匈牙利算法,分配一個(gè)錯(cuò)誤放置R0I 關(guān)注區(qū)域到一個(gè)錯(cuò)誤位置,使距離總和最小,該過程的公式表示如下:
[0091] Minimize f{[xab\^N) = E^=1 E^=1 c^Xat,
[0092] 滿足于:
[0093] XabG {0,1}, N
[0094] ^ xab. = % for ¥1 < a < Nt b=l
[0095] ^ xah ^ 1} for VI <h< Nt a-l
[0096] 其中,N為錯(cuò)誤放置個(gè)數(shù),cab為錯(cuò)誤位置j到錯(cuò)誤放置ROI關(guān)注區(qū)域a對(duì)應(yīng)類重心點(diǎn) 的距離,[Xab] N*N為一個(gè)待優(yōu)化二值矩陣,XabR有在錯(cuò)誤放置R0I關(guān)注區(qū)域a放置在錯(cuò)誤位置 b上時(shí)才為1。圖3最右邊那張圖顯示了錯(cuò)誤位置校正方法執(zhí)行后的結(jié)果,其中同類的R0I關(guān) 注區(qū)域(標(biāo)注為相同數(shù)字)重新聚合在了一起,圖片的相關(guān)性信息得到了保留;
[0097]步驟3-5,縮小所有R0I關(guān)注區(qū)域直到?jīng)]有重疊,迭代子區(qū)域優(yōu)化和錯(cuò)誤位置校正, 直到該過程收斂,得到一個(gè)所有R0I關(guān)注區(qū)域都無法變大且各R0I關(guān)注區(qū)域位置相關(guān)的圖片 拼接結(jié)果。
[0098]步驟4具體包括以下步驟:
[0099] 對(duì)展示面板上的每一個(gè)像素點(diǎn)p,均關(guān)聯(lián)一組概率{Probi(p),Prob2(p),???,Probn (P)},其中n為圖片總數(shù),Probz(p)表示第i幅圖片在該像素點(diǎn)處對(duì)應(yīng)像素能夠顯示的概率。 QPZ和Qrz分別表示第z幅圖片對(duì)應(yīng)的CAT區(qū)域和其R0I關(guān)注區(qū)域?;旌峡梢允沟肣 rz中不在QPZ中 的部分也能得到一定程度上的展現(xiàn),采用如下公式計(jì)算Probz(p)計(jì)算公式如下:
[0101] 其中,e為自然對(duì)數(shù)的底,d(p,Qpz)表示像素點(diǎn)p到CAT區(qū)域QPZ的最近歐式距離,d (P,Qrz)表示像素點(diǎn)P到R0I關(guān)注區(qū)域Qrz的最近歐式距離,S為貢獻(xiàn)率概率概率分布的標(biāo)準(zhǔn) 差,計(jì)算得S~〇. 39894223;
[0102] 得到展示面板每個(gè)像素點(diǎn)的關(guān)聯(lián)概率后,將每個(gè)像素點(diǎn)的關(guān)聯(lián)概率Probdp)平均 的分發(fā)到其4鄰域上,再將每個(gè)像素點(diǎn)的一組概率歸一化,將得到的概率圖即作為無縫混合 渲染的Alpha通道值用于最終拼貼圖片的合成。圖4顯示了本發(fā)明的全過程,其輸出圖片拼 接結(jié)果部分即為無縫混合渲染的最終效果圖。
[0103] 實(shí)施例
[0104] 本實(shí)施例用于測(cè)試的硬件環(huán)境是:Intel-Core 173.46GHz處理器,24G內(nèi)存。軟件 環(huán)境是]\1丨0'08〇1^¥18皿131:11(1;[02010和]^0*03〇£1; (1組11(1〇¥87專業(yè)版。測(cè)試圖像來自于組內(nèi) 旅游照片、網(wǎng)絡(luò)上公開的一些動(dòng)物、建筑物、交通工具等照片。實(shí)驗(yàn)時(shí)根據(jù)大分類分成10組, 分別是動(dòng)物、建筑物、巴黎、交通工具、三藩市、模特、北京、鳥、羅馬、魚。
[0105] 本方法的實(shí)驗(yàn)結(jié)果與Vlicrosofll? Photo Gallery套件中的"自動(dòng)拼貼"功能 (AutoCollage)獲得的結(jié)果及Yu等發(fā)表于Visualization and Computer Graphics的論文 ((Content-aware photo collage using circle packing〉〉所提出的Circle Packing結(jié)果 進(jìn)行了用戶調(diào)查。60位與本發(fā)明毫無關(guān)系的計(jì)算機(jī)系同學(xué)參與了雙盲的用戶調(diào)查,在沒有 其他外界干預(yù)的前提下靠自己的判斷來選擇更符合自己審美的結(jié)果。從4個(gè)方面進(jìn)行用戶 調(diào)查,分別為(1)哪一個(gè)結(jié)果更緊湊?(2)哪一個(gè)更好地展示了圖片的前景?(3)哪一個(gè)更容 易理解主題,并能夠找到圖片之間的關(guān)系?(4)從整體而言,你更喜歡哪個(gè)?圖5至圖8分別顯 示了問題1到問題4的用戶調(diào)查的反饋結(jié)果,調(diào)查結(jié)果已經(jīng)進(jìn)行了歸一化處理,用百分比來 展示用戶的偏好,右側(cè)豎線柱體表示選擇本實(shí)施例生成結(jié)果的用戶占總?cè)藬?shù)的百分比,中 間斜線柱體表示選擇Circle Packing生成結(jié)果的用戶占總?cè)藬?shù)的百分比,左側(cè)點(diǎn)柱體表示 選擇AutoCollage生成結(jié)果的用戶占總?cè)藬?shù)的百分比。具體生成結(jié)果參見圖9至圖18,圖中 最左邊為AutoCollage生成結(jié)果,中間為Circle Packing生成結(jié)果,最右邊為本實(shí)施例結(jié) 果。圖9至圖18的樣本大類分別對(duì)應(yīng)為動(dòng)物、建筑物、巴黎、交通工具、三藩市、模特、北京、 鳥、羅馬、魚。問題1對(duì)應(yīng)的結(jié)果比依次為 :0%,25%,75%:27%,12%,62%:30%,25%, 45% : 13% ,20% ,67% :40% ,7% ,53% : 17% ,5% ,78% : 23% ,12% ,65% : 15% ,20% , 65% :40%,12%,68% :30%,17%,53% ;問題2對(duì)應(yīng)的結(jié)果比依次為:5%,17%,78% : 25% ,5% ,70% :43% ,7% ,50% : 20% ,0% ,80% : 26% ,2% ,72% : 15% ,5% ,80% : 26% , 7%,67% :27%,13%,60% :35%,13%,52% :26%,7%,67% ;問題3對(duì)應(yīng)的結(jié)果比依次為: 5% ,18% ,77% : 33% ,7% ,60% :47% ,3% ,50% : 13% ,5% ,82% : 28% ,0% ,72% : 12% , 5%,83% :23%,7%,70% :23%,15%,62% :38%,10%,52% :26%,12%,72% ;問題4對(duì)應(yīng) 的結(jié)果比依次為:2%,12%,86%:40%,2%,58%:42%,8%,50% :17%,0%,83%:27%, 0%,73%:8%,5% ,87% : 25% ,3% ,72% : 22% ,17% ,61% : 38% ,10% ,52% : 25% ,12% , 63% ;
[0106] 圖5至圖8為用戶調(diào)查結(jié)果顯示,對(duì)于4個(gè)問題,本實(shí)施例生成的結(jié)果在所有10組結(jié) 果中大部分都具有絕對(duì)的優(yōu)勢(shì)。三種方法對(duì)于10類圖片的最終生成圖片比對(duì)如圖9至圖18 所示。用戶調(diào)查的結(jié)果也表明了大部分用戶傾向于選擇本方法生成的圖片集拼接結(jié)果。在 用戶的調(diào)查問卷上,還設(shè)置有"選擇理由"這一條選答項(xiàng),從回答該問題的用戶意見來看,大 部分選擇本方法的理由都是集中在以下兩個(gè):
[0107] 1,本方法生成的圖片具有更好的可讀性,更容易讓用戶理解圖片拼接結(jié)果所要描 述的內(nèi)容,相對(duì)于AutoCollage、Circle Packing生成結(jié)果死板且毫無規(guī)則的排列更具有語 義信息,令人賞心悅目;
[0108] 2,本方法直接用圖片的感興趣區(qū)域進(jìn)行拼接,生成的圖片中人臉或者物體遮擋以 及圖片重要內(nèi)容的最大化展示的情況均好于AutoCollage、Circle Packing的生成結(jié)果。
【主權(quán)項(xiàng)】
1. 一種保留圖片相關(guān)性信息的圖片拼接方法,其特征在于,包括W下步驟: 步驟1,相關(guān)性分析:采集待拼接的圖片得到圖片集,采用擴(kuò)展了的C順模型提取每張圖 片的語義描述,并使每張圖片獲得一個(gè)類標(biāo)簽,再由t分布隨機(jī)領(lǐng)域嵌入方法將圖片的相關(guān) 性信息嵌入到初始展示面板分布中,得到t-s肥分布結(jié)果; 步驟2,初始化展示面板子區(qū)域:結(jié)合顯著性檢測(cè)和人臉檢測(cè),提取每張圖片的ROI關(guān)注 區(qū)域,縮放t-SNE分布結(jié)果,使其與展示面板大小相等,并作為初始展示面板,將每張圖片的 ROI關(guān)注區(qū)域送入到其在初始展示面板中的對(duì)應(yīng)位置; 步驟3,展示面板子區(qū)域劃分:結(jié)合子區(qū)域優(yōu)化及錯(cuò)誤位置校正方法,確定每幅圖片的 朝向角9、擺放位置、縮放尺度,并保證圖片的相關(guān)性信息不被丟失; 步驟4,無縫混合擅染:基于概率混合模型對(duì)展示面板子區(qū)域之間的邊界區(qū)域進(jìn)行無縫 混合擅染,從而完成圖片集中圖片的剪切拼接。2. 根據(jù)權(quán)利要求1所述的一種保留圖片相關(guān)性信息的圖片拼接方法,其特征在于,步驟 1包括W下步驟: 步驟1-1,采用VGG-16CNN模型對(duì)每張圖片提取一個(gè)4096維的特征向量; 步驟1-2,對(duì)于一般主題的圖片集,將提取的4096維特征向量直接用PCA方法進(jìn)行降維 處理,得到一個(gè)256維的特征向量,再通過k-means算法給每一張圖片分配一個(gè)類標(biāo)簽; 對(duì)于具有特定主題的圖片集,根據(jù)主題內(nèi)容額外訓(xùn)練一個(gè)兩層的全連接神經(jīng)網(wǎng)絡(luò),將 4096維的特征作為該兩層網(wǎng)絡(luò)的輸入,隱含層設(shè)置為256維的雙曲正切非線性激活函數(shù),輸 出層獲得一個(gè)關(guān)于主題內(nèi)容的類標(biāo)簽; 步驟1-3,采用t-S肥方法將每張圖片映射到一個(gè)2維平面上,使同類圖片的位置相近, 得到t-S肥分布結(jié)果。3. 根據(jù)權(quán)利要求2所述的一種保留圖片相關(guān)性信息的圖片拼接方法,其特征在于,步驟 2包括W下步驟: 步驟2-1,結(jié)合顯著性檢測(cè)和人臉檢測(cè),提取每張圖片的ROI關(guān)注區(qū)域; 步驟2-2,將步驟1得到的t-s肥分布結(jié)果進(jìn)行縮放,使其與用來圖片拼接的展示面板大 小相等,并作為初始展示面板,將每張圖片的ROI關(guān)注區(qū)域縮小為原始大小的30%后送入到 其在初始展示面板中的對(duì)應(yīng)位置,得到一個(gè)初始展示面板分布結(jié)果。4. 根據(jù)權(quán)利要求3所述的一種保留圖片相關(guān)性信息的圖片拼接方法,其特征在于,步驟 3包括W下步驟: 步驟3-1,根據(jù)步驟2-2得到的初始展示面板分布結(jié)果,將展示面板劃分為一個(gè)個(gè)包含 圖片ROI關(guān)注區(qū)域的子區(qū)域,采集ROI關(guān)注區(qū)域多邊形的邊,并利用德洛內(nèi)S角方法使運(yùn)些 邊及對(duì)應(yīng)頂點(diǎn)形成S角形,由運(yùn)些S角形形成每個(gè)ROI關(guān)注區(qū)域的CAT區(qū)域; 步驟3-2,子區(qū)域優(yōu)化確定坐標(biāo)、縮放尺度及方向角:尋找CAT區(qū)域中的最大ROI關(guān)注區(qū) 域,最大化展示面板的覆蓋率,該過程采用如下公式計(jì)算: Maximize f(t,白,s) = s, 滿足于:其中t、0、s分別表示坐標(biāo)變換、方向角和縮放尺度,l《k《M,jE化,Ek為CAT區(qū)域與采樣 點(diǎn)Pk(t,0,s)的維諾區(qū)域的相交線段,M為線段總和Pk(t,0,s)為ROI 關(guān)注區(qū)域上的采樣點(diǎn),e/為CAT區(qū)域中指定邊e說起始點(diǎn),e功Ek中的一條有向線段,。為每 次迭代優(yōu)化過程中旋轉(zhuǎn)角的總和,對(duì)象函數(shù)f(t,0,s)等于縮放尺度S,表示該過程的目標(biāo)是 最大化展示面板的覆蓋率,設(shè)置旋轉(zhuǎn)角總和小于 步驟3-3,尋找錯(cuò)誤放置的ROI關(guān)注區(qū)域:計(jì)算相同類ROI關(guān)注區(qū)域的重屯、點(diǎn),對(duì)每個(gè)ROI 關(guān)注區(qū)域,計(jì)算其重屯、點(diǎn)到其對(duì)應(yīng)類的重屯、點(diǎn)的距離,將相同類ROI關(guān)注區(qū)域的距離和的平 均值設(shè)置為該類的距離闊值,若一個(gè)ROI關(guān)注區(qū)域的距離大于該距離闊值,則判定該ROI關(guān) 注區(qū)域?yàn)殄e(cuò)誤放置; 步驟3-4,錯(cuò)誤位置校正:假設(shè)有N個(gè)錯(cuò)誤放置ROI關(guān)注區(qū)域,則在展示面板上對(duì)應(yīng)有N個(gè) 錯(cuò)誤位置,對(duì)于每一對(duì)錯(cuò)誤放置ROI關(guān)注區(qū)域和錯(cuò)誤位置,計(jì)算每一個(gè)錯(cuò)誤位置到對(duì)應(yīng)錯(cuò)誤 放置ROI關(guān)注區(qū)域相應(yīng)類的重屯、點(diǎn)的距離,通過匈牙利算法,分配一個(gè)錯(cuò)誤放置ROI關(guān)注區(qū)域至Ij一個(gè)錯(cuò)誤位置使口FT畝豐ng ,k :古::斗革口化八二主二擊口下 滿足于: XabG {0,1}, 其中,N為錯(cuò)誤放置個(gè)數(shù),Cab為錯(cuò)誤位置b到錯(cuò)誤放置ROI關(guān)注區(qū)域a對(duì)應(yīng)類重屯、點(diǎn)的距 離,[Xab]N*N為一個(gè)待優(yōu)化二值矩陣,Xab只有在錯(cuò)誤放置ROI關(guān)注區(qū)域a放置到錯(cuò)誤位置b上 時(shí)才為1; 步驟3-5,縮小所有ROI關(guān)注區(qū)域直到?jīng)]有重疊,迭代子區(qū)域優(yōu)化及錯(cuò)誤位置校正過程, 直到該過程收斂,得到一個(gè)所有ROI關(guān)注區(qū)域都無法變大且各ROI關(guān)注區(qū)域位置相關(guān)的圖片 拼接結(jié)果。5.根據(jù)權(quán)利要求4所述的一種保留圖片相關(guān)性信息的圖片拼接方法,其特征在于,步驟 4包括如下步驟: 對(duì)展示面板上的每一個(gè)像素點(diǎn)P,均關(guān)聯(lián)一組概率{Probi(p) ,Probs(P),...,Probn (P)},其中n為圖片總數(shù),Probz(P)表示第Z幅圖片在該像素點(diǎn)處對(duì)應(yīng)像素能夠顯示的概率, 設(shè)Qpz和Qrz分別表示第Z幅圖片對(duì)應(yīng)的CAT區(qū)域和ROI關(guān)注區(qū)域;采用如下公式計(jì)算 Probz(P):其中,e為自然對(duì)數(shù)的底,d(p,Qpz)表示像素點(diǎn)P到CAT區(qū)域Qpz的最近歐式距離,d(p,Qrz) 表示像素點(diǎn)P到ROI關(guān)注區(qū)域Qrz的最近歐式距離,S為貢獻(xiàn)率概率概率分布的標(biāo)準(zhǔn)差; 得到展示面板每個(gè)像素點(diǎn)的關(guān)聯(lián)概率后,將每個(gè)像素點(diǎn)的關(guān)聯(lián)概率Probz(P)平均的分 發(fā)到其4鄰域上,再將每個(gè)像素點(diǎn)的一組概率歸一化,將得到的概率圖作為無縫混合擅染的 Alpha通道值用于最終拼貼圖片的合成。
【文檔編號(hào)】G06T3/40GK105913377SQ201610172203
【公開日】2016年8月31日
【申請(qǐng)日】2016年3月24日
【發(fā)明人】張鴻杰, 劉玲潔, 郭延文, 陳中貴, 王文平
【申請(qǐng)人】南京大學(xué)